Analisi riassuntiva
Gli ultimi benchmark pubblicati mostrano che il modello NVIDIA RTX PRO™ 6000 Blackwell eseguito sull'Akamai Cloud migliora fino a 1,63 volte il throughput dell'inferencing rispetto all'H100, raggiungendo 24.240 TPS per server con 100 richieste simultanee.
Benchmark relativi all'Akamai Inference Cloud
Questa settimana, Akamai ha annunciato il lancio dell'Akamai Inference Cloud. Le competenze di Akamai nelle architetture distribuite a livello globale sono state combinate con l'infrastruttura basata sull'intelligenza artificiale di NVIDIA Blackwell per ripensare ed estendere radicalmente il computing accelerato necessario per sfruttare il vero potenziale dell'AI.
La piattaforma Akamai Inference Cloud combina i server NVIDIA RTX PRO™, che presenta le GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, le DPU NVIDIA BlueField-3® e il software NVIDIA AI Enterprise, con l'ampia infrastruttura di cloud computing di Akamai e la rete sull'edge globale, che ha più di 4400 PoP in tutto il mondo.
GPU efficienti, versatili e ottimizzate
L'inferencing distribuito e le esperienze agentiche di nuova generazione richiedono GPU efficienti, versatili e ottimizzate per carichi di lavoro simultanei in tempo reale. RTX PRO 6000 Blackwell offre tutte e tre queste caratteristiche. La sua modalità di precisione FP4 offre un throughput eccezionale ad una frazione della potenza e dei costi delle GPU dei data center, semplificando la distribuzione in centinaia di siti.
L'architettura supporta carichi di lavoro simultanei e multimodali, tra cui testo, visione e voce su un'unica GPU, riducendo la necessità di ricorrere ad acceleratori specializzati e limitando il movimento non necessario dei dati nella rete.
I server NVIDIA RTX Pro sono ottimizzati per carichi di lavoro come l'agentic AI, l'intelligenza artificiale industriale e fisica, il computing scientifico, l'analisi e la simulazione dei dati, il visual computing e le applicazioni aziendali.
NVIDIA sottolinea che questi server offrono un throughput di inferencing dei modelli linguistici di grandi dimensioni (LLM) fino a 6 volte superiore, generazione dei dati sintetici 4 volte più veloce, allineamento di sequenze genomiche 7 volte più veloce, throughput di simulazione ingegneristica 3 volte superiore, performance di rendering in tempo reale 4 volte superiori e carichi di lavoro della GPU 4 volte più simultanei con più istanze.
Verifica delle performance
Per verificare le performance, abbiamo sottoposto a test le GPU NVIDIA RTX Pro 6000 Blackwell Server Edition in esecuzione sull'Akamai Cloud e le abbiamo confrontate con NVIDIA H100 NVL 96 GB utilizzando l'ambiente NVIDIA LaunchPad.
Il nostro obiettivo era conoscere le performance delle GPU RTX Pro 6000 di nuova generazione in reali carichi di lavoro di inferencing rispetto all'attuale standard di riferimento del settore.
Cosa mostrano i benchmark
I risultati dei benchmark confermano il vantaggio derivante dalla progettazione di NVIDIA RTX Pro 6000 Blackwell sull'Akamai Cloud.
L'aumento del throughput di 1,63 volte rispetto al modello H100 (FP8) mostra che RTX Pro 6000 Blackwell offre performance di livello dei data center in un formato ridotto e più facile da implementare, ideale per gli ambienti distribuiti.
Il miglioramento di 1,32 volte dall'FP8 all'FP4 dimostra come l'efficienza della precisione di NVIDIA si riesca a tradurre direttamente in un inferencing più rapido ed economico sull'edge.
Le performance sostenute con oltre 100 richieste simultanee confermano la capacità della GPU di gestire carichi di lavoro multi-tenant e sensibili alla latenza nell'inferencing distribuito a livello globale.
Insieme, questi risultati dimostrano che i vantaggi di Blackwell in termini di efficienza e di simultaneità lo rendono la base ideale per l'architettura di inferencing distribuita di Akamai, offrendo throughput elevato, bassa latenza e performance scalabili in tutta la nostra rete globale.
Panoramica del benchmark
Abbiamo seguito la metodologia dei benchmark di NVIDIA per valutare le performance dell'inferencing in condizioni di carico costanti. In questo post, esamineremo la configurazione, la metodologia e i risultati principali, oltre a discutere del significato dei risultati per l'esecuzione di carichi di lavoro basati sull'intelligenza artificiale sull'Akamai Cloud.
Configurazione
Per valutare le GPU NVIDIA RTX Pro 6000 sull'Akamai Cloud, abbiamo utilizzato Llama-3.3-Nemotron-Super-49B-v1.5, un LLM derivato da Meta Llama-3.3-70B-Instruct (noto anche come modello di riferimento). Si tratta di un modello di ragionamento post-addestrato per il ragionamento, le preferenze delle conversazioni umane e le attività agentiche, come RAG e le chiamate degli strumenti.
Abbiamo utilizzato due profili NIM (NVIDIA Inference Microservice) per lo stesso modello allo scopo di confrontare le modalità di precisione e comprenderne l'impatto sulle performance e sull'efficienza. I profili (tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 e tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5) sono identici ad eccezione dell'impostazione di precisione.
Il primo utilizza la precisione FP8 (virgola mobile a 8 bit), mentre il secondo utilizza l'FP4 NVIDIA (virgola mobile a 4 bit). La versione FP4 di NVIDIA (NVFP4) è supportata direttamente sulle GPU NVIDIA Blackwell.
Eseguendo entrambi i metodi, abbiamo cercato di osservare come la riduzione della precisione numerica influisca sul throughput e sulla latenza. L'NVFP4 offre notevoli miglioramenti in termini di performance ed efficienza con una perdita della precisione inferiore all'1%, offrendo un inferencing di potenza minore, ma più rapido su vasta scala, mentre l'FP8 offre una maggiore precisione numerica. Il confronto delle due versioni contribuisce a determinare il miglior compromesso tra velocità, efficienza e fedeltà dell'inferencing per i carichi di lavoro reali.
Abbiamo eseguito dei test sulle GPU NVIDIA RTX Pro 6000 Blackwell Server Edition situate nel data center Akamai Cloud LAX. Per confrontarle, abbiamo utilizzato le GPU NVIDIA H100 utilizzando l'ambiente NVIDIA LaunchPad.
Metodologia
Per questo benchmark, abbiamo eseguito uno smoke test per misurare le performance dell'inferencing di base in condizioni di carico realistiche. Ogni richiesta ha elaborato 200 token di input e generato 200 token di output, rappresentando una breve interazione di prompt e risposta tipica per un LLM.
Per verificare la scalabilità e la coerenza, abbiamo eseguito 100 esecuzioni simultanee, che ci hanno consentito di osservare il throughput e il comportamento della latenza mentre durante la gestione di un volume sostenuto di richieste simultanee di inferencing da parte del sistema. Questo approccio ha fornito una visione controllata, ma rappresentativa del funzionamento del modello e dell'hardware nei carichi di lavoro di produzione.
Abbiamo misurato due metriche chiave: il tempo per il primo token (TTFT) e i token al secondo (TPS). Il TTFT, misurato in millisecondi, acquisisce la velocità con cui il modello inizia a generare una risposta dopo aver ricevuto un messaggio, il che rappresenta un importante indicatore di latenza e di reattività percepita dall'utente. Il TPS misura il throughput complessivo, mostrando il numero di token che il sistema può generare al secondo all'inizio del processo.
Insieme, queste metriche offrono una visione equilibrata delle performance reali, che riflettono sia la velocità dell'inferencing iniziale che l'efficienza di output sostenuto anche con i carichi più impegnativi.
Nell'ambito della nostra metodologia di benchmark, abbiamo eseguito due serie di test per valutare le performance delle GPU NVIDIA RTX 6000 Blackwell Server Edition.
Confronto della precisione tra FP e FP8
Abbiamo sottoposto a test due profili NIM sullo stesso modello, uno utilizzando la precisione FP8 e l'altro utilizzando la precisione FP4, per misurare l'impatto della nuova quantizzazione swll'FP4 (NVFP4) di NVIDIA sulle performance dell'inferencing. NVIDIA ha evidenziato l'FP4 come un importante passo in avanti in termini di efficienza e throughput.Confronto tra le GPU RTX 6000 e H100
Abbiamo quindi confrontato i risultati delle GPU RTX 6000 Blackwell con le H100 in esecuzione nell'ambiente NVIDIA LaunchPad per valutare i vantaggi dell'inferencing reale esaminando i due profili NIM: FP8 e FP4. Ciò ci ha consentito di valutare le performance del modello RTX 6000 non solo nelle modalità di precisione, ma anche rispetto all'attuale GPU del data center NVIDIA.
Risultati dettagliati
Abbiamo identificato che il livello di simultaneità ottimale (C) è 100, il che significa che, in 100 richieste di inferencing simultanee, abbiamo osservato i risultati di performance più stabili e rappresentativi. Con un valore C = 100, il passaggio dalla precisione FP8 alla precisione FP4 sul modello RTX 6000 ha determinato un miglioramento delle performance di 1,32 volte, mostrando la maggiore efficienza della quantizzazione FP4 di NVIDIA.
Rispetto all'H100 con la sua precisione FP8, il server RTX Pro 6000 Blackwell ha ottenuto un miglioramento delle performance di 1,63 volte con la precisione NVFP4. Anche quando si utilizza la versione FP8, il server Blackwell ha dimostrato un vantaggio di 1,21 volte, mostrando le ottimizzazioni dell'inferencing di nuova generazione che superano il precedente formato FP8.
Complessivamente, a questo livello di simultaneità, il server RTX Pro 6000 Blackwell ha raggiunto 3.030,01 token al secondo (TPS), che equivalgono a 24.240,08 TPS nelle nostre macchine virtuali IaaS (Infrastructure-as-a-Service), a indicare il solido livello di performance dell'inferencing e scalabilità dell'architettura Blackwell sull'Akamai Cloud.
Test 1. Confronto tra le versioni FP8 e FP4
Risultati delle performance nel passaggio dalla versione FP8 alla FP4 su RTX Pro 6000 Blackwell.
LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8
Modello |
Profilo del modello NIM |
Caso di utilizzo |
Simultaneità |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
44.82 |
27.42 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
102.03 |
2256.3 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
138.66 |
3606.04 |
LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4
Modello |
Profilo del modello NIM |
Caso di utilizzo |
Simultaneità |
TTFT (ms) |
TPS |
Guadagno FP4 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
47.92 |
29.68 |
1.08x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
94.45 |
3030.01 |
1.32x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
3663.26 |
3854.76 |
1.07x |
Test 2. Confronto tra le GPU RTX Pro 6000 Blackwell Server e H100
Risultati delle performance nel confronto tra H100 NVL FP8 con RTX Pro 6000 Blackwell Server FP8 e FP4.
LaunchPad: H100 NVL FP8
Modello |
Profilo del modello NIM |
Caso di utilizzo |
Simultaneità |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
1 |
39.52 |
42.46 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
100 |
1612.03 |
1863.08 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
200 |
12587.3 |
1828.03 |
LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP8
Modello |
Profilo del modello NIM |
Caso di utilizzo |
Simultaneità |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
59.61 |
19.52 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
243.68 |
1040.33 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
415.9 |
1344.73 |
LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP4
Modello |
Profilo del modello NIM |
Caso di utilizzo |
Simultaneità |
TTFT (ms) |
TPS |
Guadagno FP4 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
81.98 |
23.65 |
1.21x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
344.24 |
1848.96 |
1.78x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
6660.54 |
1997.3 |
1.49x |
Conclusione
Questo benchmark ha consentito di valutare le performance delle GPU NVIDIA RTX Pro 6000 Blackwell Server Edition per l'inferencing LLM sull'Akamai Cloud e confrontarle con quelle delle GPU NVIDIA H100 con caratteristiche simili. Utilizzando la metodologia di benchmark consigliata da NVIDIA, abbiamo sottoposto a test le modalità di precisione FP8 e FP4 per comprendere i compromessi raggiunti in termini di performance, efficienza e latenza.
I risultati mostrano chiaramente che la versione FP4 offre guadagni tangibili, con un miglioramento del throughput di 1,32 volte rispetto alla versione FP8 su RTX 6000. Rispetto al modello H100 con FP8, l'RTX 6000 (FP4) ha ottenuto un miglioramento delle performance di 1,63 volte, a sottolineare il potenziale dell'architettura Blackwell per i carichi di lavoro dell'inferencing.
Questi risultati dimostrano che le GPU RTX 6000 eseguite sul cloud distribuito di Akamai sono in grado di offrire un throughput elevato e una scalabilità efficiente per un AI inferencing reale con costi e latenza inferiori. Per i team che stanno valutando le varie opzioni delle GPU, questa combinazione offre un interessante equilibrio tra velocità, efficienza e accessibilità in un'infrastruttura globale.
Richiedi l'accesso
Registrati per accedere al modello RTX Pro 6000 Blackwell Server Edition sull'Akamai Inference Cloud.
Tag