AI 推論を大規模に実行する場合の問題は、もはやモデルサイズだけではありません。現在、次のような疑問があります。そのモデルをどこまで効率的に実行できるか?実際のデータをどこまで高速に処理できるか?実行に必要なインフラはどの程度か?
Akamai Cloud 上での NVIDIA RTX PRO™ 6000 Blackwell GPU のプライベートベータ版テストで、Harmonic は 30 億のパラメーターモデルを中心に構築された負荷の高い画像ベースの AI ワークロードを使用して、こうした疑問に対するテストを行いました。
結果は、明確でした。Harmonic は、高パフォーマンスと効率的なリソースの使用を実現し、精度を犠牲にすることなくモデル最適化手法を推進する能力を備えていることが証明されたのです。
「プライベートベータ版では、NVIDIA RTX PRO 6000 Blackwell GPU を Akamai Cloud 上で実行することで、AI 画像ワークロードを正確かつ高速に効率良く実行することができました。大量の画像を迅速に処理しながら、モデルのパフォーマンスを最適化し、誤検知を非常に低く抑えることができました。その結果、これらのワークロードの本番環境での使用に大きな自信が持てました。」
— Harmonic、Video Business 担当 CTO、Moore Macauley 氏
実際のテスト:精度、効率、速度
Harmonic のワークロードは、合成ベンチマークではありませんでした。検知品質が重要な実務レベルの画像処理パイプラインでした。
目標は次のように明解でした。
- 3B パラメーターモデルで非常に低い誤検知率を維持する
- GPU 使用量とメモリ使用量を最適化する
- 大規模画像バッチのスループットを最大限に高める
- モデルの量子化がパフォーマンスと精度に与える影響を評価する
Harmonic は、従来のクラウド GPU インフラでは実現が困難な、低いメモリ使用量、高い Tensor 使用率、大規模環境での処理速度の組み合わせを発見しました。
低いメモリ使用量と高い Tensor 使用率
モデルのサイズにもかかわらず、Harmonic は次のことを確認しました。
- GPU メモリの使用率は 10% 未満である
- Tensor の使用率は 70%~80% の範囲で一貫している
これは、GPU がメモリの制約によるボトルネックになっておらず、ワークロードが Tensor コアをフルに活用して高スループットの推論を行うことができたことを示す強力なシグナルです。つまり、Harmonic は、メモリのオーバーヘッドに対応するためだけにインフラをオーバープロビジョニングすることなく、高度なモデルを実行することができます。
大規模環境での処理速度
- Harmonic は 300 枚の画像を 1 分未満で処理
このスループットは、Akamai Cloud 上の Blackwell GPU がリアルタイムまたはほぼリアルタイムの AI 処理を大規模にサポートできることを示しており、低レイテンシーと拡張性の両方が成功に不可欠な AI 主導の本番システムに最適です。
妥協のない量子化
Harmonic のテストから得られた最も注目すべき発見の 1 つは、モデル最適化です。
Harmonic は、4 ビット整数量子化を従来の float16 精度と比較して評価し、テストワークロードについて次のことを確認しました。
- 大幅な検知性能の低下はない
- メモリ効率がわずかに向上する
- 処理速度の向上
量子化は効率と精度のトレードオフと見なされることが多いため、これは重要です。Harmonic の結果は、Blackwell GPU で高度な量子化技術を使用すると、結果の品質を低下させることなくパフォーマンス特性を向上させることができることを示しています。
これにより、次のことが可能になります。
- より少ないフットプリントでより大規模なモデルを実行
- インフラコストの削減
- 結果を犠牲にせずにスループットを向上
エッジおよびクラウドの AI ワークロードにとって重要な理由
Harmonic のテストにより、次のような事実が浮き彫りになります。最新の AI ワークロードには、物理的な計算能力だけでなく、推論の効率が向上するように構築されたインフラが必要です。実現には次の要素を組み合わせる必要があります。
- 高い Tensor パフォーマンス
- 効率的なメモリの使用
- 高度なモデル最適化のサポート
- 大規模な高速処理
Akamai Cloud 上の Blackwell GPU は、継続的な運用、大量のデータ処理、精度の維持が必要な AI システムの基盤になります。特にユーザー、デバイス、データソースの近くで実行される AI ワークロードに向いており、パフォーマンス、効率、コストのすべてが重要です。
プライベート・ベータ・テストから本番環境への間に得られた確信
Harmonic にとって、プライベート・ベータ・テストは、AI 画像処理ワークロードが Akamai の GPU インフラ上で効率的かつ正確に、高速で実行できることを検証する機会でした。
結果として、次のことができるという自信が得られました。
- インフラをリニアに拡張しなくても推論を拡張できる
- 量子化を使用してモデルを積極的に最適化できる
- スループットを向上しながら、高い検知品質を維持できる
これらは、AI を実験環境から本番環境に移行する際に求められる特性です。
詳細はこちら
AI ワークロードを大規模に効率良く実行することが事業の中核となっているお客様は、Akamai Cloud 上の NVIDIA Blackwell GPU が次世代の推論をどのようにサポートできるかについて、詳細をご確認ください。
タグ