エグゼクティブサマリー
ベンチマークによると、Akamai Cloud上で稼働するNVIDIA RTX PRO™ 6000 Blackwellは、H100と比較して最大1.63倍高い推論スループットを実現し、100件の同時リクエストにおいてサーバーあたり24,240TPSを達成しています。
Akamai Inference Cloudのベンチマーク
今週、AkamaiはAkamai Inference Cloudの立ち上げを発表しました。Akamaiは、グローバルに分散されたアーキテクチャに関する専門知識とNVIDIA BlackwellのAIインフラを融合させ、AIの真の可能性を引き出すために必要となるアクセラレーテッドコンピューティングを根本から見直し、拡張します。
Akamai Inference Cloudプラットフォームは、NVIDIA RTX PRO 6000 Blackwell Server Edition GPU、NVIDIA BlueField-3® DPU、およびNVIDIA AI Enterpriseソフトウェアを搭載したNVIDIA RTX PRO™ サーバーを、Akamaiの分散型クラウドコンピューティングのインフラと世界4,400拠点以上に及ぶグローバル・エッジ・ネットワークと統合したものです。
効率性、汎用性、最適化を兼ね備えたGPU
分散推論と次世代のエージェント型体験を実現するには、効率的で汎用性が高く、リアルタイムで同時実行されるワークロードに最適化されたGPUが必要です。RTX PRO 6000 Blackwellは、これら3つの要件をすべて満たしています。FP4の精度モードは、データセンタークラスのGPUと比較して、ほんのわずかな電力とコストで卓越したスループットを実現するため、数百もの拠点への実用的な展開が可能になります。
このアーキテクチャは、単一GPU上でのテキスト、ビジョン、音声などのマルチモーダルなワークロードの同時実行をサポートします。これにより、専用のアクセラレータの必要性を減らし、ネットワーク全体での不要なデータ移動を抑制します。
NVIDIA RTX PROサーバーは、エージェント型AI、産業用および物理AI、科学計算、データ分析およびシミュレーション、ビジュアルコンピューティング、そしてエンタープライズアプリケーションに至るまで、広範なワークロードに最適化されています。
NVIDIAによれば、これらのサーバーは、大規模言語モデル(LLM)の推論スループットで6倍、合成データ生成で4倍の高速化を達成しています。さらに、ゲノム配列アライメントでは7倍、エンジニアリングシミュレーションのスループットでは3倍、リアルタイム・レンダリング・パフォーマンスや同時実行のマルチインスタンスGPUワークロードにおいても、それぞれ4倍というパフォーマンスを実現しています。
パフォーマンスの検証
パフォーマンスを検証するために、Akamai Cloud上で稼働するNVIDIA RTX PRO 6000 Blackwell Server Edition GPUをテストしました。比較対象として、NVIDIA LaunchPad環境を使用してNVIDIA H100 NVL 96GBとのベンチマークを実施しています。
この検証の目的は、次世代のRTX PRO 6000 GPUが、業界の現在のゴールドスタンダードと比較して、実際の推論ワークロードでどのように動作するのかを明らかにすることです。
ベンチマークの結果が示すこと
ベンチマークの結果は、Akamai Cloud上におけるNVIDIA RTX PRO 6000 Blackwellの設計上の利点を裏付けるものでした。
H100(FP8)に対して1.63倍のスループット向上を達成したことは、RTX PRO 6000 Blackwellが、分散環境に最適なより小型で導入しやすいフットプリントでありながら、データセンター級のパフォーマンスを実現することを示しています。
FP8からFP4に移行した際の1.32倍のパフォーマンス向上は、エッジにおけるより高速でコスト効率の高い推論に、NVIDIAの精度効率が直結していることを示しています。
100件以上の同時リクエストでも安定したパフォーマンスを維持したことは、グローバルな分散推論において、低レイテンシーが要求されるマルチテナントのワークロードをGPUが処理できることを証明しています。
これらの結果から、Blackwellの効率性と同時実行の利点が、Akamaiの分散推論アーキテクチャの理想的な基盤となり、高スループット、低レイテンシー、優れた拡張性を備えたパフォーマンスをAkamaiのグローバルネットワーク全体に提供できるようになります。
ベンチマークの概要
NVIDIAのベンチマーク手法に準拠し、一定の負荷条件で推論パフォーマンスを評価しました。本記事では、設定、検証手法、主な調査結果について詳しく説明するとともに、Akamai CloudでAIワークロードを実行する上で、これらの結果がどのような意味を持つのかを考察します。
設定
NVIDIA RTX PRO 6000 GPUをAkamai Cloud上で評価するため、Meta Llama-3.3-70B-Instruct(リファレンスモデル)の派生モデルであるLlama-3.3-Nemotron-Super-49B-v1.5というLLMを使用しました。これは、推論、人間との対話における嗜好設定、およびRAGやツール呼び出しといったエージェント型のタスク向けにポストトレーニングが行われた推論モデルです。
2つのNVIDIA推論マイクロサービス(NIM)プロファイルを同じモデルに対して使用し、精度モードの違いがパフォーマンスと効率に与える影響を比較しました。使用したプロファイル(tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5およびtensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5)は、精度設定を除いて同一構成です。
1つ目はFP8(8ビット浮動小数点)の精度を使用し、2つ目はNVIDIAのFP4(4ビット浮動小数点)の精度を使用しています。NVIDIAのFP4バージョン(NVFP4)は、NVIDIA Blackwell GPUで直接サポートされています。
両方を実行することで、数値精度の低下がスループットとレイテンシーにどのように影響するかを観察することを目的としています。NVFP4は、1%未満の精度低下で大幅なパフォーマンスと効率性の向上を実現し、大規模環境におけるより高速で低消費電力な推論を可能にします。一方、FP8は、より高い数値精度を提供します。この2つの比較により、実際のワークロードにおける速度、効率性、推論精度の最適なトレードオフを決定することができます。
このテストは、Akamai Cloud LAXデータセンターにあるNVIDIA RTX PRO 6000 Blackwell Server Edition GPUで実施しました。比較のために、NVIDIA LaunchPad環境のNVIDIA H100 GPUを使用しています。
手法
今回のベンチマークでは、実際の負荷条件における推論パフォーマンスのベースラインを測定するため、スモークテストを実施しました。各リクエストでは、200入力トークンを処理し、200出力トークンを生成しました。これは、LLMにおける一般的な短いプロンプトと応答のやり取りを想定した設定です。
スケーラビリティと一貫性を検証するために、100件の同時実行テストを行いました。これにより、システムが一定の量の同時推論を処理したときのスループットとレイテンシーのふるまいを観察できます。この手法により、モデルとハードウェアが実際の本番環境に近い条件でどのように動作するかについて、制御された環境で正確に捉えることができました。
測定には、主要な指標としてTime to First Token(最初のトークンまでの時間、TTFT)とTokens Per Second(1秒あたりのトークン数、TPS)の2つを採用しています。TTFTは、プロンプトを受信した後、モデルが応答の生成を開始するまでの速さをミリ秒単位で示します。これは、レイテンシーとユーザーが体感する応答性を測る重要な指標です。TPSは全体的なスループットを測定し、生成が開始されるとシステムが1秒あたりに生成できるトークンの数を示します。
これらの指標を組み合わせることで、初期推論の速度と負荷時における持続的な出力効率の両方から、実際のパフォーマンスをバランスよく評価できます。
ベンチマーク手法の一環として、NVIDIA RTX 6000 Blackwell Server Edition GPUのパフォーマンス特性を評価するために、以下の2つのテストセットを実施しました。
FP4とFP8の精度比較
同一モデルに対して2つのNIMプロファイル(FP8精度とFP4精度)をテストし、NVIDIAの新しいFP4(NVFP4)量子化が推論パフォーマンスに与える影響を測定しました。NVIDIAは、FP4を効率性とスループットにおける大きな進歩として強調しています。RTX 6000とH100 GPUの比較
次に、RTX 6000 Blackwellの結果を、NVIDIA LaunchPad環境で実行されているH100 GPUの結果と比較しました。FP8とFP4の2つのNIMプロファイルを調査することで、RTX 6000がどのように動作するかを、精度モードだけでなく、NVIDIAの現在のデータセンターGPU規格と比較して評価することができました。
詳細な結果
最適な同時実行数(C)レベルは100であることがわかりました。つまり、100件の推論要求を同時に処理した際に、最も安定し、かつ実態に即したパフォーマンス結果が得られることが確認されました。C=100において、RTX 6000の精度をFP8からFP4に移行させると、パフォーマンスが1.32倍向上しました。これは、NVIDIAのFP4量子化の効率が向上したことを明確に示すものです。
FP8精度のH100と比較した場合、RTX PRO 6000 Blackwell Serverは、NVFP4精度において1.63倍の性能向上を実現しました。同じFP8精度で比較した場合でもBlackwell Serverが1.21倍の優位性を示したことは、従来のFP8フォーマットの枠を超えた、次世代の推論最適化技術の成果を裏付けています。
総合すると、RTX PRO 6000 Blackwell Serverは、この同時実行レベルにおいて3,030.01トークン/秒(TPS)を達成しました。これは、AkamaiのInfrastructure as a Service(IaaS)VMサービスに換算すると、最大で24,240.08TPSに相当し、Akamai Cloud上のBlackwellアーキテクチャの高い推論パフォーマンスと優れた拡張性を強調しています。
テスト1:FP8とFP4の精度比較
RTX PRO 6000 BlackwellにおけるFP8とFP4のパフォーマンス結果を以下に示します。
LAX:NVIDIA RTX PRO 6000 Blackwell Server FP8
モデル |
NIMモデルプロファイル |
ユースケース |
同時実行数 |
TTFT(ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
44.82 |
27.42 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
102.03 |
2256.3 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
138.66 |
3606.04 |
LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4
モデル |
NIMモデルプロファイル |
ユースケース |
同時実行数 |
TTFT(ms) |
TPS |
FP4優位性 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
47.92 |
29.68 |
1.08x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
94.45 |
3030.01 |
1.32x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
3663.26 |
3854.76 |
1.07x |
テスト2:RTX PRO 6000 Blackwell ServerとH100 GPUの比較
H100 NVL FP8とRTX PRO 6000 Blackwell Server FP8およびFP4のパフォーマンス結果を以下に示します。
LaunchPad:H100 NVL FP8
モデル |
NIMモデルプロファイル |
ユースケース |
同時実行数 |
TTFT(ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
1 |
39.52 |
42.46 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
100 |
1612.03 |
1863.08 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
200 |
12587.3 |
1828.03 |
LaunchPad:NVIDIA RTX PRO 6000 Blackwell Server FP8
モデル |
NIMモデルプロファイル |
ユースケース |
同時実行数 |
TTFT(ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
59.61 |
19.52 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
243.68 |
1040.33 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
415.9 |
1344.73 |
LaunchPad:NVIDIA RTX PRO 6000 Blackwell Server FP4
モデル |
NIMモデルプロファイル |
ユースケース |
同時実行数 |
TTFT(ms) |
TPS |
FP4優位性 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
81.98 |
23.65 |
1.21x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
344.24 |
1848.96 |
1.78x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
6660.54 |
1997.3 |
1.49x |
結論
今回のベンチマークでは、Akamai Cloud上で稼働するNVIDIA RTX PRO 6000 Blackwell Server Edition GPUがLLM推論を実行する際のパフォーマンスを評価しました。また、同様の条件下でNVIDIA H100 GPUと比較した際にどのような優位性があるかを評価しました。NVIDIAが推奨するベンチマーク手法を使用し、FP8およびFP4の精度モードの両方でテストした結果、パフォーマンス、効率、およびレイテンシーのトレードオフの関係が明らかになりました。
その結果、FP4は明確な優位性を示し、RTX 6000においては、FP8と比較して1.32倍のスループット向上を実現していることが明らかになりました。FP8でのH100と比較した場合、FP4でのRTX 6000は1.63倍のパフォーマンス向上を達成し、Blackwellアーキテクチャの推論ワークロードへの潜在能力を強く裏付けました。
これらの調査結果は、Akamaiの分散型クラウド上で稼働するRTX 6000 GPUが、実際のAI推論において、より低いコストとレイテンシーで高いスループットと効率的なスケーリングを実現できることを示しています。GPUオプションを評価しているチームにとって、この組み合わせは、グローバルなインフラフットプリント全体で、速度、効率性、アクセス性のバランスが取れた魅力的な選択肢となります。
アクセスを開始する
Akamai Inference Cloud上のRTX PRO 6000 Blackwell Server Editionをご利用いただくには、登録が必要です。
タグ