組織が人工知能(AI)を実験から本番環境に移行する際、ある重要なことに気づきます。それは、すべてのワークロードが、購入できる最大のGPUを必要としているわけではないということです。
問題は、GPUにアクセスできないことではありません。業務に適したシェイプのGPUであるか、ということです。
あるチームは、モデルを微調整したり、推奨エンジンを動かしたりするための余裕があるGPUを必要とします。一方で、マルチモーダル推論、8K動画トランスコーディング、AAAゲームタイトルのサポートに必要なメモリとスループットが非常に大きいGPUを必要とするチームもあります。
現在、NVIDIA RTX PRO™ 6000 Blackwell Server Edition GPUには、1カード、2カード、4カードのプランがあります。Akamai Inference Cloudは、お客様の実際のワークロードに合わせて、実際のAI推論、エージェント型AI、物理AI、科学計算、メディア、およびビデオゲームのユースケースを、適切な予算対性能比で提供します。
これらのプランは、GPUアクセスだけに留まらない要件があるチーム向けに設計されています。また、最新のアプリケーションの構築方法と展開方法に適合するGPUインフラも必要です。
適切なGPUの選び方にお困りですか?Akamai CloudでのGPUの比較に関するブログをご参考になさってください。
GPUカードの数量による違い
プラン内のGPUカードの数量は、使用可能なメモリ、並列処理、スループットに直接影響します。つまり、その数によって適切なワークロードの分野が大きく異なるということです。3つのプランの特徴は次のとおりです。
- 1カードプラン:AI、メディア、エッジ推論に焦点を合わせた精度を実現
- 2カードプラン:マルチモーダルおよびエージェント型AIシステムの分野のワークロードを拡張
- 4カードプラン:トレーニング分野のインフラなしで最大規模のモデルを実行
1カードプラン:AI、メディア、エッジ推論に焦点を合わせた精度を実現
1カードのNVIDIA RTX PRO 6000 Blackwell Server Edition GPUがエントリーレベル向けというわけではありません。実際の本番環境での幅広いワークロードに対応する、非常に効率的なシェイプとなっています。
このプランで96 GBのVRAMを使用すると、チームは次のことを実行できます。
- FP4量子化を使用した最大700億パラメーターモデル
- FP8量子化を使用した最大400億のパラメーターモデル
- 同一のGPU上での70億~130億パラメーターモデルの複数の同時インスタンス
1カードプランは、大規模言語モデル、推奨エンジン、マルチモーダル推論、安全システム、トランスコーディングパイプライン、およびアプリケーションに直接組み込まれたAIサービスの展開を専門としています。
ここで、価格性能の優位性が否定できないことが明らかになります。同様のワークロードを実行するH100と比較して、NVIDIA RTX PRO 6000 Blackwell Server Edition GPUは次のような性能を発揮します。
- 100万トークンあたりのコストを28%削減
- スループットの向上(3,140対2,987トークン/秒)
- FP8を使用したH100に比べて、FP4は1.63倍の性能向上をサポート
これらのメリットは、BlackwellアーキテクチャのネイティブFP4サポートとメモリプロファイルによって直接得られた結果です。これにより、過剰なサイズの高価なGPUインスタンスまで拡張することなく、より大規模なモデルやより多くの同時ワークロードを実行することができます。
多くのAI構築組織、メディアプラットフォーム、およびソフトウェア企業にとって、これは運用面でのスイートスポットです。クラスターのトレーニングや大規模な並列処理用に設計されたインフラにコストをかけることなく、重要なモデルを効率的に実行できる十分なGPUだからです。
2カードプラン:マルチモーダルおよびエージェント型AIシステムの分野のワークロードを拡張
RTX PRO 6000 Blackwell Server Edition GPUの2カードプランは、データセンタークラスの過剰なサイズのGPUインフラを使用することなく、チームが実行可能なワークロードの分野を大幅に拡張します。
この構成は、次のようなシステムを構築するプラットフォームと製品チーム向けに最適化されています。
- 視覚情報、テキスト、オーディオを組み合わせたマルチモーダルAIシステム
- 複数段階のタスク間でコンテキストを維持するエージェント型AIワークフロー
- Web、モバイル、およびエンタープライズアプリケーションの推論処理の高速化
- AI管理、安全性、リアルタイムの意思決定を行うシステム
GPUメモリを組み合わせて使用することで、チームは次のことを実行できます。
- FP4量子化を使用したGPU1つあたりの制限があるモデル
- 推論用のより大きなコンテキストウィンドウ
- より要求の厳しいリアルタイムワークロードでもレイテンシーを犠牲にしない
このレベルでは、従来のデータセンターGPUと同等の性能が維持されます。
- 1トークンあたりのコストは、H100/H200クラスのインフラとほぼ同じ
- 現実世界の推論ワークロードの強力なスループットを実現しながら、Akamaiの分散されたエッジおよびクラウドプラットフォームの価格性能と地理的優位性のメリットを得られる
AI構築にかかわる多くの組織にとって、これは、マルチモーダルアプリケーションとエージェント型アプリケーションが実験グレードから本番環境グレードに移行する場所です。
4カードプラン:トレーニング分野のインフラなしで最大規模のモデルを実行
4カードのRTX PRO 6000 Blackwell Server Edition GPUでは、専用の集中型AIファクトリー環境を必要とせず、大規模なオープンモデルを本番環境で実行することができます。
このプランは以下の用途で設計されています。
- 大規模なエンタープライズ推論システム
- ハイスループットのメディアパイプラインとトランスコーディングパイプライン
- AI駆動型サービスを提供するAAAゲームプラットフォーム
- 世界中の顧客にAI機能を提供しているソフトウェアプラットフォーム
この構成では、チームは次のことを実行できます。
- 多数のパラメーターモデルをサポートする384 GBのメモリを必要とするモデル
- 4カードのGPU全体で約320 GBのGPUメモリが必要なモデル(FP4のQwen3-Coder-480Bなど)
この規模になると、アーキテクチャがPCIeベースのGPU通信の実用的な限界に近づいてきます。また、理論上のスループットは、NVLinkベースのH100/H200システムを約30%から50%優先し始めます。
ただし、推論ワークロードの場合、経済性と導入の柔軟性が魅力的なのは確かです。
- コスト効率は、データセンターGPUのコスト効率とほぼ同じです。
- これらの大規模なモデルは、レイテンシーが重要となる場所に展開できます。
- ワークロードを集約型のAIファクトリーがあるリージョンに移動する必要はありません。
こうした理由から、専門的なトレーニングインフラ投資することなく、ユーザーの近くで、非常に大規模なモデルを本番環境で運用する必要があるチームには4カードプランが特に適しているのです。
これらのGPUシェイプが対象とするもの
これらのGPU構成は、特に次の用途に適しています。
- デジタルネイティブのAI構築組織:現実世界での使用を目的としたエージェント型製品やマルチモーダル製品を開発している組織
- 製品チームとプラットフォームチーム:Web、モバイル、デバイス、エンタープライズアプリケーションへのAI推論の組み込みを担当するチーム
- メディアおよびエンターテインメント企業:トランスコーディングを実行し、8Kストリーミングをサポートし、AAAビデオゲームのタイトルを支える企業
- 各種企業:推奨事項、Copilot、分析、安全ワークフローなどのリアルタイムAIシステムを展開する企業
- ソフトウェア企業:世界規模で、信頼性の高い低レイテンシーの推論を必要とする、AI搭載プラットフォームを提供する企業
GPUインスタンスから分散されたAIプラットフォームまで
Akamai Inference Cloudなら、分散型クラウドでNVIDIA RTX PRO 6000 Blackwell Server Editionにアクセスいただけます。これは、お客様がAI推論を実行し、加速ワークロードをエンドユーザーに近づけることが可能な、より広大なエッジネイティブAIプラットフォームの基盤を形成します。
Akamai Inference Cloud上のBlackwell GPUは、レイテンシーが重要となる場所で強力な価格性能の特性を持つGPUを使用した、実際のAIワークロードに実行可能なチーム向けに設計されています。また、この分散コンピューティングレイヤーが、Akamaiの進化するサーバーレスおよびエッジデリバリー機能とどのように連携するかをご確認いただけます。
さらに、本番環境対応のKubernetes環境(LKE)とAIソフトウェアスタックを連動させて分散型のGPUインフラに直接アクセスいただけるため、カスタムGPUインフラを構築することなく、推論ワークロードの展開、拡張、運用が可能になります。
透明な価格設定、継続的な性能の改善に加え、集約型のクラウドリージョンが効率的なサポートに苦慮することの多い、推論主導のワークロードの実現を重視しています。同時に、スタンドアロンGPUインスタンスからグローバルに分散された統合型インテリジェンスプラットフォームへの進化も示します。
重要である理由
AIイニシアチブを拡張しつつ、一元化されたハイパースケーラーのコスト、資源不足、およびレイテンシーの制約を受けている組織にとって、Akamai Inference Cloudはグローバルに分散されたAIコンピューティング基盤を提供する存在です。
RTX PRO 6000 Blackwell Server Edition GPUは、ハイパフォーマンスGPUインスタンス、マネージド型Kubernetes、そしてAIに最適化されたソフトウェアスタックと10ミリ秒未満の体験に必要な地理的到達範囲を組み合わせることで、こうしたAIプラットフォームの進化を支える基礎として機能します。
コンピューティングプランと同様に、AIインフラにおいてAIの実行効率やコストを左右するのは、GPUのシェイプなのです。
タグ