Benchmarking des GPU NVIDIA RTX PRO 6000 Blackwell sur Akamai Cloud

Akamai Wave Blue

Oct 30, 2025

Mo Tabares et Christiaan Lutzer

Mo Tabares Photo de l'auteur

écrit par

Mo Tabares

Mo Tabares est Vice President of Engineering chez Akamai.

Christiaan Lutzer Photo de l'auteur

écrit par

Christiaan Lutzer

Christiaan Lutzer est Senior Product Architect chez Akamai.

Partager

Synthèse

Les benchmarks montrent que le NVIDIA RTX PRO™ 6000 Blackwell exécuté sur Akamai Cloud offre un débit d'inférence jusqu'à 1,63 fois supérieur à celui du H100, atteignant 24 240 TPS par serveur pour 100 requêtes simultanées.

Benchmarking d'Akamai Inference Cloud

Cette semaine, Akamai a annoncé le lancement d'Akamai Inference Cloud. Nous avons combiné notre expertise en matière d'architectures distribuées à l'échelle mondiale avec l'infrastructure d'IA NVIDIA Blackwell pour repenser et étendre radicalement le calcul accéléré, nécessaire pour exploiter le véritable potentiel de l'IA.

La plateforme Akamai Inference Cloud combine les serveurs NVIDIA RTX PRO™ Servers, équipés de GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, de DPU NVIDIA BlueField-3®et du logiciel NVIDIA AI Enterprise, avec l'infrastructure de Cloud Computing distribuée et le réseau mondial en bordure de l'Internet d'Akamai, qui compte plus de 4 400 sites dans le monde entier.

Des GPU efficaces, polyvalents et optimisés

L'inférence distribuée et les expériences agentiques de nouvelle génération nécessitent des GPU efficaces, polyvalents et optimisés pour les charges de travail simultanées en temps réel. Le GPU RTX PRO 6000 Blackwell répond à ces trois critères. Son mode de précision FP4 offre un débit exceptionnel pour une fraction de la consommation et du coût des GPU de classe centre de données, ce qui rend son déploiement sur des centaines de sites tout à fait réalisable.

Cette architecture prend en charge des charges de travail simultanées et multimodales, notamment le traitement de texte, la vision et la reconnaissance vocale, sur un seul GPU, réduisant ainsi le recours à des accélérateurs spécialisés et limitant les transferts de données inutiles sur le réseau.

Les serveurs NVIDIA RTX Pro sont optimisés pour des charges de travail telles que l'IA agentique, l'IA industrielle et physique, le calcul scientifique, l'analyse de données et la simulation, le calcul visuel et les applications d'entreprise.

NVIDIA souligne que ces serveurs offrent un débit d'inférence des grands modèles de langage (LLM) jusqu'à 6 fois supérieur, une génération de données synthétiques 4 fois plus rapide, un alignement de séquences génomiques 7 fois plus rapide, un débit de simulation technique 3 fois supérieur, des performances de rendu en temps réel 4 fois supérieures et 4 fois plus de charges de travail de GPU multi-instances simultanées.

Validation des performances

Pour valider les performances, nous avons testé les GPU NVIDIA RTX Pro 6000 Blackwell Server Edition fonctionnant sur Akamai Cloud et les avons comparés aux GPU NVIDIA H100 NVL 96 Go à l'aide de l'environnement NVIDIA LaunchPad.

Notre objectif était de comprendre les performances des GPU RTX Pro 6000 de nouvelle génération pour les charges de travail d'inférence réelles par rapport à la référence absolue actuelle du secteur.

Ce que révèlent les benchmarks

Les résultats de benchmark confirment l'avantage de conception du NVIDIA RTX Pro 6000 Blackwell sur Akamai Cloud.

  • L'augmentation de 1,63 fois du débit par rapport au H100 (FP8) montre que le RTX Pro 6000 Blackwell offre des performances de niveau centre de données dans un format plus compact et plus facile à déployer, idéal pour les environnements distribués.

  • L'amélioration de 1,32 fois obtenue en passant de FP8 à FP4 démontre comment l'efficacité de précision de NVIDIA se traduit directement par une inférence plus rapide et plus rentable en bordure de l'Internet.

  • Des performances soutenues avec plus de 100 requêtes simultanées valident la capacité du GPU à gérer des charges de travail multi-locataires sensibles à la latence dans le cadre d'une inférence distribuée à l'échelle mondiale.

Ensemble, ces résultats montrent que grâce à ses avantages en termes d'efficacité et de concurrence, Blackwell constitue la base idéale pour l'architecture d'inférence distribuée d'Akamai, offrant un débit élevé, une faible latence et des performances évolutives sur l'ensemble de notre réseau mondial.

Présentation du benchmark

Nous avons suivi la méthodologie de benchmarking de NVIDIA pour évaluer les performances d'inférence dans des conditions de charge constantes. Dans cet article, nous allons passer en revue la configuration, la méthodologie et les principales conclusions, et discuter de ce que ces résultats signifient pour l'exécution de charges de travail d'IA sur Akamai Cloud.

Configuration

Pour évaluer les GPU NVIDIA RTX Pro 6000 sur Akamai Cloud, nous avons utilisé Llama-3.3-Nemotron-Super-49B-v1.5, un LLM dérivé de Meta Llama-3.3-70B-Instruct (alias le modèle de référence). Il s'agit d'un modèle de raisonnement qui a été post-entraîné pour le raisonnement, les préférences de conversation humaine et les tâches agentiques, telles que la génération augmentée par la récupération (RAG) et l'appel d'outils.

Nous avons utilisé deux profils de microservices d'inférence NVIDIA (NIM) pour le même modèle afin de comparer les modes de précision et de comprendre leur impact sur les performances et l'efficacité. Les profils (tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 et tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5) sont identiques, à l'exception du réglage de précision.

Le premier utilise la précision FP8 (virgule flottante 8 bits), tandis que le second utilise la précision FP4 (virgule flottante 4 bits) de NVIDIA. La version FP4 de NVIDIA (NVFP4) est directement prise en charge par les GPU NVIDIA Blackwell.

En exécutant les deux, nous avons cherché à observer comment la réduction de la précision numérique affecte le débit et la latence. NVFP4 offre des gains de performances et d'efficacité significatifs avec une perte de justesse inférieure à 1 %, permettant une inférence plus rapide et moins gourmande en énergie à grande échelle, tandis que FP8 offre une plus grande précision numérique. La comparaison des deux permet de déterminer le meilleur compromis entre vitesse, efficacité et fidélité de l'inférence pour des charges de travail réelles.

Nous avons effectué des tests sur des GPU NVIDIA RTX Pro 6000 Blackwell Server Edition situés dans le centre de données LAX Akamai Cloud. À des fins de comparaison, nous avons utilisé les GPU NVIDIA H100 dans l'environnement NVIDIA LaunchPad.

Méthodologie

Pour ce benchmark, nous avons effectué un test préliminaire conçu pour mesurer les performances d'inférence de base dans des conditions de charge réalistes. Chaque requête traitait 200 jetons d'entrée et générait 200 jetons de sortie, ce qui représente une interaction typique de type invite-réponse pour un LLM.

Afin de tester l'évolutivité et la cohérence, nous avons lancé 100 exécutions simultanées, ce qui nous a permis d'observer le comportement du débit et de la latence alors que le système traitait un volume soutenu d'inférences simultanées. Cette approche a fourni un aperçu contrôlé mais représentatif des performances du modèle et du matériel sous des charges de travail proches de celles en production.

Nous avons mesuré deux indicateurs clés : le temps jusqu'au premier jeton (TTFT) et les jetons par seconde (TPS). Le TTFT, mesuré en millisecondes, rend compte de la rapidité avec laquelle le modèle commence à générer une réponse après avoir reçu une requête. C'est un indicateur important de la latence et de la réactivité perçue par l'utilisateur. Le TPS mesure le débit global, indiquant le nombre de jetons que le système peut générer par seconde une fois la génération lancée.

Ensemble, ces indicateurs offrent une vision équilibrée des performances en conditions réelles, reflétant à la fois la vitesse de l'inférence initiale et l'efficacité de sortie soutenue sous charge.

Dans le cadre de notre méthodologie de benchmarking, nous avons effectué deux séries de tests pour évaluer les caractéristiques de performances des GPU NVIDIA RTX 6000 Blackwell Server Edition.

  1. Comparaison entre la précision FP4 et FP8
    Nous avons testé deux profils NIM sur le même modèle (l'un utilisant la précision FP8 et l'autre la précision FP4) afin de mesurer l'impact de la nouvelle quantification FP4 (NVFP4) de NVIDIA sur les performances d'inférence. NVIDIA a mis en avant la précision FP4 comme une avancée majeure en matière d'efficacité et de débit.

  2. Comparaison entre les GPU RTX 6000 et H100
    Nous avons ensuite comparé les résultats du RTX 6000 Blackwell à ceux des GPU H100 fonctionnant dans l'environnement NVIDIA LaunchPad afin d'évaluer les avantages réels en matière d'inférence en examinant les deux profils NIM : FP8 et FP4. Cela nous a permis d'évaluer les performances du RTX 6000 non seulement entre les différents modes de précision, mais aussi par rapport à la norme actuelle de NVIDIA en matière de GPU pour centres de données.

Résultats détaillés

Nous avons déterminé que le niveau de concurrence (C) optimal est de 100, ce qui signifie qu'avec 100 requêtes d'inférence simultanées, nous avons observé les résultats de performances les plus stables et les plus représentatifs. À C = 100, le passage de la précision FP8 à la précision FP4 sur le RTX 6000 a entraîné une amélioration des performances de 1,32 fois, démontrant les gains d'efficacité de la quantification FP4 de NVIDIA. 

Par rapport au H100 utilisant la précision FP8, le RTX Pro 6000 Blackwell Server a été 1,63 fois plus performant en précision NVFP4. Même en utilisant la précision FP8, le Blackwell Server a été 1,21 fois plus performant, mettant en avant des optimisations d'inférence de nouvelle génération qui vont au-delà de l'ancien format FP8. 

Dans l'ensemble, à ce niveau de concurrence, le RTX Pro 6000 Blackwell Server a atteint un débit de 3 030,01 jetons par seconde (TPS), ce qui équivaut à 24 240,08 TPS avec nos offres de machines virtuelles (VM) de type infrastructure en tant que service (IaaS), soulignant ainsi les performances d'inférence et l'évolutivité exceptionnelles de l'architecture Blackwell sur Akamai Cloud.

Test 1 : Comparaison de précision entre FP8 et FP4

Résultats de la comparaison des performances FP8 et FP4 du RTX Pro 6000 Blackwell.

LAX : NVIDIA RTX Pro 6000 Blackwell Server FP8

Modèle

Profil du modèle NIM

Cas d'utilisation

Concurrence

TTFT (ms)

TPS 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

1

44,82

27,42

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

100

102,03

2256,3

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

200

138,66

3606,04

 

LAX : NVIDIA RTX PRO 6000 Blackwell Server FP4

Modèle

Profil du modèle NIM

Cas d'utilisation

Concurrence

TTFT (ms)

TPS 

Gain apporté par FP4 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

1

47,92

29,68

1.08x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

100

94,45

3030,01

1.32x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

200

3663,26

3854,76

1.07x

 

Test 2 : Comparaison entre le GPU H100 et RTX Pro 6000 Blackwell Server

Résultats de performances comparant les modèles H100 NVL FP8 et RTX Pro 6000 Blackwell Server en FP8 et FP4. 

LaunchPad : H100 NVL FP8

Modèle

Profil du modèle NIM

Cas d'utilisation

Concurrence

TTFT (ms)

TPS 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321

200_200

1

39,52

42,46

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321

200_200

100

1612,03

1863,08

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321

200_200

200

12587,3

1828,03

 

LaunchPad : NVIDIA RTX PRO 6000 Blackwell Server FP8

Modèle

Profil du modèle NIM

Cas d'utilisation

Concurrence

TTFT (ms)

TPS 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

1

59,61

19,52

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

100

243,68

1040,33

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

200

415,9

1344,73

 

LaunchPad : NVIDIA RTX PRO 6000 Blackwell Server FP4

Modèle

Profil du modèle NIM

Cas d'utilisation

Concurrence

TTFT (ms)

TPS 

Gain apporté par FP4 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

1

81,98

23,65

1.21x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

100

344,24

1848,96

1.78x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

200

6660,54

1997,3

1.49x

Conclusion

Ce benchmark visait à évaluer les performances des GPU NVIDIA RTX Pro 6000 Blackwell Server Edition pour l'inférence des grands modèles de langage (LLM) sur Akamai Cloud, ainsi que leur comparaison avec les GPU NVIDIA H100 dans des conditions similaires. En suivant la méthodologie de benchmarking recommandée par NVIDIA, nous avons testé les modes de précision FP8 et FP4 afin de comprendre les compromis en matière de performances, d'efficacité et de latence.

Les résultats montrent clairement que le mode FP4 offre des gains mesurables, avec un débit 1,32 fois plus performant par rapport au mode FP8 sur le RTX 6000. Par rapport au H100 en mode FP8, le RTX 6000 (FP4) a été 1,63 fois plus performant, soulignant le potentiel de l'architecture Blackwell pour les charges de travail d'inférence.

Ces résultats démontrent que les GPU RTX 6000 fonctionnant sur le cloud distribué d'Akamai peuvent offrir un débit élevé et une évolutivité efficace pour l'inférence IA en conditions réelles, à moindre coût et avec une latence réduite. Pour les équipes qui évaluent les options de GPU, cette combinaison offre un équilibre convaincant entre vitesse, efficacité et accessibilité sur une infrastructure mondiale.

Y accéder

Inscrivez-vous pour accéder à RTX Pro 6000 Blackwell Server Edition sur Akamai Inference Cloud. 

Akamai Wave Blue

Oct 30, 2025

Mo Tabares et Christiaan Lutzer

Mo Tabares Photo de l'auteur

écrit par

Mo Tabares

Mo Tabares est Vice President of Engineering chez Akamai.

Christiaan Lutzer Photo de l'auteur

écrit par

Christiaan Lutzer

Christiaan Lutzer est Senior Product Architect chez Akamai.

Mots-clés

Partager

Articles de blog associés

Cloud
Comment Harmonic a démontré une inférence d'IA hautes performances sur les processeurs graphiques d'Akamai
March 05, 2026
Découvrez comment Harmonic a obtenu une inférence d'IA hautes performances sur Akamai Cloud avec les processeurs graphiques NVIDIA Blackwell, en optimisant la vitesse et l'efficacité.
Cloud
Choisissez le GPU adapté à votre charge de travail d'IA sur Akamai Cloud
March 03, 2026
Akamai Cloud prend en charge différentes charges de travail grâce à trois options de GPU NVIDIA. Découvrez comment adapter précisément votre infrastructure aux besoins spécifiques de votre charge de travail.
Cloud
Akamai et Bitmovin : révolutionner le streaming vidéo en direct et à la demande
August 13, 2025
Découvrez comment le partenariat entre Akamai et Bitmovin permet de réduire les coûts, d'améliorer les performances et de proposer des expériences vidéo personnalisées aux fournisseurs de contenu.