Benchmarking von NVIDIA RTX PRO 6000 Blackwell in der Akamai Cloud

Oct 30, 2025

Mo Tabares und Christiaan Lutzer

Verfasser

Mo Tabares

Mo Tabares ist Vice President of Engineering bei Akamai.

Verfasser

Christiaan Lutzer

Christiaan Lutzer ist Senior Product Architect bei Akamai.

Zusammenfassung

Benchmarks zeigen, dass NVIDIA RTX PRO™ 6000 Blackwell in der Akamai Cloud einen bis zu 1,63-mal höheren Inferenzdurchsatz als H100 liefert und 24.240 TPS pro Server bei 100 parallelen Anfragen erreicht.

Benchmarking: Akamai Inference Cloud

Akamai hat diese Woche die Einführung der Akamai Inference Cloud bekanntgegeben. Die Kombination unserer Expertise für global verteilte Architekturen mit der NVIDIA Blackwell KI-Infrastruktur liefert einen ganz neuen Ansatz zur Skalierung der Rechenleistung, die für die Ausschöpfung des vollen Potenzials von KI benötigt wird.

Die Plattform Akamai Inference Cloud kombiniert NVIDIA RTX PRO™-Server – mit NVIDIA RTX PRO 6000 Blackwell Server Edition-GPUs, NVIDIA BlueField-3®-DPUs und NVIDIA AI Enterprise-Software – mit der verteilten Cloud-Computing-Infrastruktur von Akamai und dem globalen Edge-Netzwerk, das über mehr als 4.400 Standorte weltweit verfügt.

Effiziente, vielseitige und optimierte GPUs

Verteilte Inferenzanwendungen und agentische Erlebnisse der nächsten Generation erfordern GPUs, die effizient, vielseitig und für parallele Echtzeit-Workloads optimiert sind. RTX PRO 6000 Blackwell erfüllt diese drei Kriterien. Sein FP4-Präzisionsmodus bietet einen außergewöhnlichen Durchsatz zu einem Bruchteil der Leistung und Kosten für GPUs der Rechenzentrumsklasse, was die Implementierung an Hunderten von Standorten praktisch ermöglicht.

Die Architektur unterstützt parallele und multimodale Arbeitslasten einschließlich Text, Bild und Sprache auf einer einzigen GPU, was den Bedarf an spezialisierten Beschleunigern reduziert und unnötige Datenbewegungen im Netzwerk begrenzt.

NVIDIA RTX Pro-Server sind für Workloads wie agentische KI, industrielle und physische KI, wissenschaftliche Berechnungen, Datenanalyse und -simulation, Visual Computing und Unternehmensanwendungen optimiert.

NVIDIA betont, dass diese Server einen bis zu 6-mal höheren Inferenzdurchsatz für große Sprachmodelle (Large Language Model, LLM), 4-mal schnellere synthetische Datengenerierung, 7-mal schnellere Genomsequenzanordnung, 3-mal höheren Durchsatz bei der Konstruktionssimulation, 4-mal höhere Echtzeit-Rendering-Performance und 4-mal mehr parallele Multi-Instanz-GPU-Workloads liefern.

Validierung der Performance

Zur Validierung der Performance haben wir NVIDIA RTX Pro 6000 Blackwell Server Edition GPUs getestet, die in der Akamai Cloud ausgeführt werden, und diese mithilfe der NVIDIA LaunchPad-Umgebung mit NVIDIA H100 NVL 96GBs verglichen.

Wir wollten verstehen, wie RTX Pro 6000 GPUs der nächsten Generation im Vergleich zum aktuellen Goldstandard der Branche für Echtzeit-Inferenz-Workloads abschneiden.

Was sich an den Benchmarks erkennen lässt

Die Benchmark-Ergebnisse bestätigen die Designvorteile von NVIDIA RTX Pro 6000 Blackwell in der Akamai Cloud.

Der um das 1,63-fach höhere Durchsatz im Vergleich zu H100 (FP8) zeigt, dass RTX Pro 6000 Blackwell bei geringerem Ressourcenbedarf und einfacherer Bereitstellung eine für Rechenzentren geeignete Performance liefert und sich daher ideal für verteilte Umgebungen eignet.
Die Verbesserung um das 1,32-fache beim Wechsel von FP8 auf FP4 zeigt, wie die Präzisionseffizienz von NVIDIA direkt zu einer schnelleren, kosteneffizienteren Inferenz an der Edge führt.
Anhaltende Performance bei über 100 gleichzeitigen Anfragen bestätigt die Eignung der GPU zur Handhabung von latenzempfindlichen Multi-Tenant-Workloads über global verteilte Inferenzen hinweg.

Zusammen zeigen diese Ergebnisse, dass Blackwell dank seiner Effizienz und der Parallelitätsvorteile die ideale Grundlage für die verteilte Inferenzarchitektur von Akamai bildet und bei niedriger Latenz und skalierbarer Performance einen hohen Durchsatz in unserem globalen Netzwerk bietet.

Benchmark-Übersicht

Wir haben die Benchmarking-Methode von NVIDIA befolgt, um die Inferenzleistung unter gleichbleibenden Lastbedingungen zu bewerten. In diesem Beitrag werden wir die Einrichtung, die Methodik und die wichtigsten Erkenntnisse erläutern und erörtern, was die Ergebnisse für die Ausführung von KI-Workloads in der Akamai Cloud bedeuten.

Einrichten

Zur Beurteilung von NVIDIA RTX Pro 6000 GPUs in der Akamai Cloud haben wir das Llama-3.3-Nemotron-Super-49B-v1.5 verwendet – ein von Meta Lama-3.3-70B-instruct (das Referenzmodell) abgeleitetes LLM. Es handelt sich um ein Reasoning-Sprachmodell, das nachträglich in Bezug auf Logik, menschliche Chat-Präferenzen und agentische Aufgaben wie RAG und Tool-Aufruf trainiert wurde.

Wir haben zwei NIM-Profile (NVIDIA Inference Microservices) für dasselbe Modell verwendet, um Präzisionsmodi zu vergleichen und ihre Auswirkungen auf Performance und Effizienz zu verstehen. Die Profile – tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 und tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 – sind mit Ausnahme der Präzisionseinstellung identisch.

Das erste verwendet FP8-Präzision (8-Bit-Gleitkommawert), während das zweite FP4 von NVIDIA (4-Bit-Gleitkommawert) verwendet. Die FP4-Version von NVIDIA (NVFP4) wird direkt in NVIDIA Blackwell-GPUs unterstützt.

Durch die Ausführung beider Profile wollten wir beobachten, wie sich die Reduzierung der numerischen Präzision auf den Durchsatz und die Latenz auswirkt. NVFP4 bietet erhebliche Leistungs- und Effizienzsteigerungen bei weniger als 1 % Verlust an Genauigkeit und ermöglicht schnellere, geringere Leistungsinferenz im Großmaßstab, während FP8 eine höhere numerische Genauigkeit bietet. Durch einen Vergleich der beiden lässt sich der beste Kompromiss zwischen Geschwindigkeit, Effizienz und Inferenzgenauigkeit bei realen Arbeitslasten ermitteln.

Wir haben Tests auf NVIDIA RTX Pro 6000 Blackwell Server Edition-GPUs durchgeführt, die sich im Akamai Cloud LAX-Rechenzentrum befinden. Zum Vergleich haben wir die NVIDIA H100-GPUs mithilfe der NVIDIA LaunchPad-Umgebung verwendet.

Methodik

Für diesen Benchmark haben wir einen Smoketest durchgeführt, der die Basisinferenz-Performance unter realistischen Lastbedingungen messen soll. Bei jeder Anfrage wurden 200 Eingabetoken verarbeitet und 200 Ausgabetoken generiert, was einer typischen Interaktion mit kurzen Prompts und Antworten bei einem LLM entspricht.

Um die Skalierbarkeit und Konsistenz zu testen, haben wir 100 parallele Sequenzen ausgeführt, sodass wir Durchsatz und Latenzverhalten beobachten konnten, während das System ein anhaltendes Volumen gleichzeitiger Inferenzen verarbeitet. Diese Herangehensweise bot einen kontrollierten, aber repräsentativen Einblick in die Leistung des Modells und der Hardware bei realitätsnahen Workloads.

Wir haben zwei wichtige Kennzahlen gemessen: Übertragungszeit bis zum ersten Token (Time to First Token, TTFT) und Token pro Sekunde (TPS). TTFT, gemessen in Millisekunden, erfasst, wie schnell das Modell nach Erhalt eines Prompts eine Antwort generiert – ein wichtiger Indikator für Latenz und vom Nutzer wahrgenommene Reaktionsfähigkeit. TPS misst den Gesamtdurchsatz und zeigt an, wie viele Token das System pro Sekunde generieren kann, sobald es mit der Generierung beginnt.

Zusammen erlauben diese Kennzahlen eine ausgewogene Betrachtung der realen Performance, die sowohl die Geschwindigkeit der anfänglichen Inferenz als auch die anhaltende Ausgabeeffizienz unter Last widerspiegelt.

Im Rahmen unserer Benchmarking-Methode haben wir zwei Testreihen durchgeführt, um die Leistungsmerkmale der NVIDIA RTX 6000 Blackwell Server Edition GPUs zu bewerten.

Vergleich der Präzision von FP4 und FP8
Wir haben zwei NIM-Profile auf demselben Modell getestet – eines mit FP8-Präzision und eines mit FP4-Präzision – um die Auswirkungen der neuen FP4 (NVFP4)-Quantisierung von NVIDIA auf die Inferenzleistung zu messen. Bei NVIDIA hat FP4 als einen wichtigen Schritt zur Verbesserung von Effizienz und Durchsatz betont.
Vergleich von RTX 6000 und H100 GPUs
Wir haben dann die Ergebnisse für RTX 6000 Blackwell- mit H100 GPUs verglichen, die in der NVIDIA LaunchPad-Umgebung ausgeführt werden, um reale Inferenzvorteile anhand der Betrachtung der beiden NIM-Profile FP8 und FP4 zu bewerten. So konnten wir das Abschneiden des RTX 6000 nicht nur in Bezug auf Präzisionsmodi, sondern auch im Vergleich zu NVIDIAs aktuellem Datencenter-GPU-Standard bewerten.

Ausführliche Ergebnisse

Wir haben festgestellt, dass das optimale Parallelitätsniveu (C) 100 beträgt – das bedeutet, dass wir bei 100 parallelen Inferenzanfragen die stabilsten und repräsentativsten Performanceergebnisse beobachtet haben. Bei C = 100 führte die Umstellung von FP8- auf FP4-Präzision auf RTX 6000 zu einer 1,32-fachen Verbesserung der Performance, was die Effizienzsteigerungen der FP4-Quantisierung von NVIDIA belegt.

Im Vergleich zum H100 mit dessen FP8-Präzision erzielte der RTX Pro 6000 Blackwell Server eine 1,63-fache Leistungsverbesserung bei NVFP4-Präzision. Selbst bei der Verwendung von FP8 zeigte der Blackwell-Server eine 1,21-fach höhere Performance und demonstrierte Inferenzoptimierungen der nächsten Generation, die über die Möglichkeiten des älteren FP8-Formats hinausgehen.

Insgesamt erzielte der RTX Pro 6000 Blackwell-Server bei dieser Parallelitätsstufe 3.030,01 TPS, was bis zu 24.240,08 TPS mit unseren IaaS-VM-Angeboten (Infrastructure as a Service) entspricht und die starke Inferenzleistung und Skalierbarkeit der Blackwell-Architektur in der Akamai Cloud unterstreicht.

Test 1: Präzision von FP8 im Vergleich zu FP4

Performance-Ergebnisse auf RTX Pro 6000 Blackwell für FP8 im Vergleich zu FP4.

LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8

Modell	NIM-Modellprofil	Anwendungsfall	Parallelität	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	44,82	27,42
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	102,03	2256,3
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	138,66	3606,04

LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modell	NIM-Modellprofil	Anwendungsfall	Parallelität	TTFT (ms)	TPS	FP4-Vorteil
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	47,92	29,68	1,08x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	94,45	3030,01	1,32x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	3663,26	3854,76	1,07x

Test 2: Vergleich von RTX Pro 6000 Blackwell Server und H100 GPU

Performance-Ergebnisse beim Vergleich von H100 NVL FP8 mit RTX Pro 6000 Blackwell Server für FP8 und FP4.

LaunchPad: H100 NVL FP8

Modell	NIM-Modellprofil	Anwendungsfall	Parallelität	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	1	39,52	42,46
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	100	1612,03	1863,08
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	200	12587,3	1828,03

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP8

Modell	NIM-Modellprofil	Anwendungsfall	Parallelität	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	59,61	19,52
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	243,68	1040,33
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	415,9	1344,73

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modell	NIM-Modellprofil	Anwendungsfall	Parallelität	TTFT (ms)	TPS	FP4-Vorteil
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	81,98	23,65	1,21x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	344,24	1848,96	1,78x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	6660,54	1997,3	1,49x

Fazit

In diesem Benchmark wurde untersucht, wie NVIDIA RTX Pro 6000 Blackwell Server Edition-GPUs in Bezug auf LLM-Inferenz in der Akamai Cloud und im Vergleich zu NVIDIA H100-GPUs mit ähnlichen Voraussetzungen abschneiden. Mithilfe der von NVIDIA empfohlenen Benchmarking-Methode haben wir sowohl FP8- als auch FP4-Präzisionsmodi getestet, um die Wechselwirkungen von Performance, Effizienz und Latenz zu verstehen.

Die Ergebnisse zeigen deutlich, dass FP4 messbare Verbesserungen wie eine 1,32-fache Erhöhung des Durchsatzes im Vergleich zu FP8 beim RTX 6000 bietet. Im Vergleich zu H100 bei FP8 zeigt RTX 6000 (FP4) eine 1,63-mal höhere Performance, was das Potenzial der Blackwell-Architektur für Inferenz-Workloads unterstreicht.

Diese Ergebnisse zeigen, dass RTX 6000-GPUs, die in der verteilten Cloud von Akamai ausgeführt werden, einen hohen Durchsatz und eine effiziente Skalierung für echte KI-Inferenzen bei niedrigeren Kosten und geringerer Latenz liefern können. Für Teams, die GPU-Optionen prüfen, bietet diese Kombination eine ausgewogene Mischung von Geschwindigkeit, Effizienz und Zugänglichkeit in einer globalen Infrastruktur.