Avaliação de desempenho da NVIDIA RTX Pro 6000 Blackwell na Akamai Cloud

Oct 30, 2025

Mo Tabares e Christiaan Lutzer

escrito por

Mo Tabares

Mo Tabares é vice-presidente de engenharia da Akamai.

escrito por

Christiaan Lutzer

Christiaan Lutzer é arquiteto de produto sênior na Akamai.

Resumo executivo

Os testes de desempenho mostram que a NVIDIA RTX PRO™ 6000 Blackwell, executada na Akamai Cloud, oferece um desempenho de inferência até 1,63 vez superior ao da H100, alcançando 24.240 TPS por servidor com 100 solicitações simultâneas.

Teste de desempenho da Akamai Inference Cloud

Esta semana, a Akamai anunciou o lançamento da Akamai Inference Cloud. Combinamos nossa experiência em arquiteturas distribuídas globalmente com a infraestrutura de IA da NVIDIA, a Blackwell, para repensar e ampliar radicalmente a computação acelerada necessária para liberar o verdadeiro potencial da IA.

A plataforma Akamai Inference Cloud combina servidores NVIDIA RTX PRO™, equipados com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition e DPUs NVIDIA BlueField-3®, com o software NVIDIA AI Enterprise. Essa integração ocorre à infraestrutura de computação em nuvem distribuída da Akamai e à sua rede global de edge, presente em mais de 4.400 locais ao redor do mundo.

GPUs eficientes, versáteis e otimizadas

A inferência distribuída e as experiências de agentes de última geração exigem GPUs eficientes, versáteis e otimizadas para workloads simultâneos em tempo real. A RTX PRO 6000 Blackwell atende a todos esses requisitos. Seu modo de precisão FP4 oferece um desempenho excepcional com uma fração do consumo de energia e do custo das GPUs de nível de centro de dados, tornando sua implantação viável em centenas de locais.

A arquitetura suporta cargas de trabalho simultâneas e multimodais, incluindo texto, visão e fala, em uma única GPU, reduzindo a necessidade de aceleradores especializados e limitando a movimentação desnecessária de dados pela rede.

Os servidores NVIDIA RTX Pro são otimizados para cargas de trabalho como IA agêntica, IA industrial e física, computação científica, análise de dados e simulação, computação visual e aplicações corporativas.

A NVIDIA destaca que esses servidores oferecem um rendimento de inferência de modelos de linguagem de grande porte (LLM) até 6 vezes maior, geração de dados sintéticos 4 vezes mais rápida, alinhamento de sequências genômicas 7 vezes mais rápido, rendimento de simulação de engenharia 3 vezes maior, desempenho de renderização em tempo real 4 vezes superior e capacidade para 4 vezes mais cargas de trabalho simultâneas com múltiplas instâncias de GPU.

Validação de desempenho

Para validar o desempenho, testamos as GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition em execução na Akamai Cloud e as comparamos com as NVIDIA H100 NVL de 96 GB utilizando o ambiente NVIDIA LaunchPad.

Nosso objetivo era compreender o desempenho das GPUs RTX Pro 6000 de última geração em cargas de trabalho de inferência do mundo real, em comparação com o padrão de referência atual do setor.

O que mostram os testes de desempenho

Os resultados dos benchmarks confirmam a vantagem de design da NVIDIA RTX Pro 6000 Blackwell na Akamai Cloud.

O aumento de 1,63x na taxa de transferência em relação ao H100 (FP8) demonstra que a RTX Pro 6000 Blackwell oferece desempenho de nível de centro de dados em um formato mais compacto e de fácil implantação, sendo ideal para ambientes distribuídos.
A melhoria de 1,32x observada na transição do FP8 para o FP4 demonstra como a eficiência de precisão da NVIDIA se traduz diretamente em uma inferência mais rápida e econômica na edge.
O desempenho sustentado com mais de 100 solicitações simultâneas comprova a capacidade da GPU de lidar com workloads multilocatários e sensíveis à latência em ambientes de inferência distribuídos globalmente.

Juntos, esses resultados mostram que as vantagens de eficiência e concorrência do Blackwell o tornam a base ideal para a arquitetura de inferência distribuída da Akamai, oferecendo alto rendimento, baixa latência e desempenho escalável em toda a nossa rede global.

Visão geral dos benchmarks

Seguimos a metodologia de avaliação de desempenho da NVIDIA para avaliar o desempenho de inferência sob condições de carga consistentes. Nesta publicação, explicaremos a configuração, a metodologia e as principais conclusões, e discutiremos o que os resultados significam para a execução de workloads de IA na Akamai Cloud.

Configuração

Para avaliar as GPUs NVIDIA RTX Pro 6000 na Akamai Cloud, utilizamos o Llama-3.3-Nemotron-Super-49B-v1.5, um LLM derivado do Meta Llama-3.3-70B-Instruct (também conhecido como modelo de referência). Trata-se de um modelo de raciocínio que passou por um treinamento adicional para raciocínio, preferências de conversação humana e tarefas de agência, como RAG e invocação de ferramentas.

Utilizamos dois perfis de microserviços de inferência da NVIDIA (NIM) para o mesmo modelo, a fim de comparar os modos de precisão e compreender seu impacto no desempenho e na eficiência. Os perfis — tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 e tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 — são idênticos, exceto pela configuração de precisão.

O primeiro utiliza a precisão FP8 (ponto flutuante de 8 bits), enquanto o segundo usa a precisão FP4 (ponto flutuante de 4 bits) da NVIDIA. A versão FP4 da NVIDIA (NVFP4) é suportada diretamente nas GPUs NVIDIA Blackwell.

Ao executar ambas as opções, nosso objetivo foi observar como a redução da precisão numérica afeta o rendimento e a latência. O NVFP4 oferece ganhos significativos em desempenho e eficiência com uma perda de precisão inferior a 1%, permitindo uma inferência mais rápida e com menor consumo de energia em grande escala, enquanto o FP8 proporciona maior precisão numérica. Comparar as duas opções ajuda a determinar o melhor equilíbrio entre velocidade, eficiência e precisão de inferência para workloads reais.

Realizamos testes com GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition instaladas no data center da Akamai Cloud em LAX. Para fins de comparação, utilizamos as GPUs NVIDIA H100 no ambiente NVIDIA LaunchPad.

Metodologia

Para esta avaliação de desempenho, realizamos um teste de verificação inicial destinado a medir o desempenho básico de inferência em condições de carga realistas. Cada solicitação processou 200 tokens de entrada e gerou 200 tokens de saída, representando uma interação típica de prompt e resposta curta para um LLM.

Para testar a escalabilidade e a consistência, executamos 100 execuções simultâneas, o que nos permitiu observar o comportamento da taxa de processamento e da latência à medida que o sistema lidava com um volume sustentado de inferências simultâneas. Essa abordagem proporcionou uma visão geral controlada, mas representativa, do desempenho do modelo e do hardware sob workloads semelhantes aos de produção.

Medimos dois indicadores-chave: tempo até o primeiro token (TTFT) e tokens por segundo (TPS). O TTFT, medido em milissegundos, indica a rapidez com que o modelo começa a gerar uma resposta após receber um prompt, sendo um importante indicador de latência e da capacidade de resposta percebida pelo usuário. O TPS mede a taxa de processamento total, indicando quantos tokens o sistema consegue gerar por segundo assim que a geração começa.

Em conjunto, esses indicadores oferecem uma visão equilibrada do desempenho na prática, refletindo tanto a velocidade da inferência inicial quanto a eficiência sustentada da saída sob carga.

Como parte de nossa metodologia de avaliação de desempenho, realizamos duas séries de testes para avaliar as características de desempenho das GPUs NVIDIA RTX 6000 Blackwell Server Edition.

Comparação entre precisão FP4 e FP8
Testamos dois perfis NIM no mesmo modelo — um usando precisão FP8 e outro usando precisão FP4 precision — para avaliar o impacto da nova quantização FP4 (NVFP4) da NVIDIA no desempenho da inferência. A NVIDIA destacou o FP4 como um grande avanço em termos de eficiência e rendimento.
Comparação entre as GPUs RTX 6000 e H100
Em seguida, comparamos os resultados da RTX 6000 Blackwell com os das GPUs H100 em execução no ambiente NVIDIA LaunchPad para avaliar as vantagens de inferência em condições reais, analisando os dois perfis NIM: FP8 e FP4. Isso nos permitiu avaliar o desempenho da RTX 6000 não apenas nos diferentes modos de precisão, mas também em relação ao padrão atual de GPUs para data centers da NVIDIA.

Resultados detalhados

Constatamos que o nível ideal de concorrência (C) é 100 — ou seja, com 100 solicitações de inferência simultâneas, observamos os resultados de desempenho mais estáveis e representativos. Com C = 100, a mudança da precisão FP8 para FP4 na RTX 6000 resultou em uma melhoria de desempenho de 1,32 vez, demonstrando os ganhos de eficiência da quantização FP4 da NVIDIA.

Ao ser comparado com o H100 utilizando a precisão FP8, o servidor RTX Pro 6000 Blackwell apresentou desempenho 1,63 vez melhor na precisão NVFP4. Mesmo ao utilizar FP8, o Blackwell Server apresentou uma vantagem de 1,21x, demonstrando otimizações de inferência de última geração que vão além do formato FP8 mais antigo.

No geral, nesse nível de simultaneidade, o servidor RTX Pro 6000 Blackwell atingiu 3.030,01 tokens por segundo (TPS), o que equivale a 24.240,08 TPS com nossas ofertas de máquinas virtuais (VM) de infraestrutura como serviço (IaaS), destacando o forte desempenho de inferência e a escalabilidade da arquitetura Blackwell na Akamai Cloud.

Teste 1: Comparação de precisão entre FP8 e FP4

Resultados de desempenho na RTX Pro 6000 Blackwell, de FP8 para FP4.

LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8

Modelo	Perfil do modelo NIM	Caso de uso	Simultaneidade	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	44.82	27.42
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	102.03	2256.3
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	138.66	3606.04

LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modelo	Perfil do modelo NIM	Caso de uso	Simultaneidade	TTFT (ms)	TPS	Ganho FP4
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	47.92	29.68	1.08x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	94.45	3030.01	1.32x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	3663.26	3854.76	1.07x

Teste 2: Comparação entre o servidor RTX Pro 6000 Blackwell e a GPU H100

Resultados de desempenho comparando o H100 NVL FP8 com o RTX Pro 6000 Blackwell Server FP8 e FP4.

Launchpad: H100 NVL FP8

Modelo	Perfil do modelo NIM	Caso de uso	Simultaneidade	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	1	39.52	42.46
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	100	1612.03	1863.08
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	200	12587.3	1828.03

Launchpad: NVIDIA RTX PRO 6000 Blackwell Server FP8

Modelo	Perfil do modelo NIM	Caso de uso	Simultaneidade	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	59.61	19.52
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	243.68	1040.33
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	415.9	1344.73

Launchpad: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modelo	Perfil do modelo NIM	Caso de uso	Simultaneidade	TTFT (ms)	TPS	Ganho FP4
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	81.98	23.65	1.21x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	344.24	1848.96	1.78x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	6660.54	1997.3	1.49x

Conclusão

Este teste de desempenho teve como objetivo avaliar o desempenho das GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition na inferência de LLM na Akamai Cloud e comparar esses resultados com os das GPUs NVIDIA H100, sob premissas semelhantes. Este teste de desempenho teve como objetivo avaliar o desempenho das GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition na inferência de LLM na Akamai Cloud e comparar esses resultados com os das GPUs NVIDIA H100, sob premissas semelhantes.

Os resultados mostram claramente que o FP4 proporciona ganhos mensuráveis, com uma melhoria de 1,32 vezes na taxa de transferência em relação ao FP8 na RTX 6000. Quando comparada com a H100 na FP8, a RTX 6000 (FP4) alcançou uma melhoria de desempenho de 1,63 vezes, destacando o potencial da arquitetura Blackwell para cargas de trabalho de inferência.

Esses resultados demonstram que as GPUs RTX 6000 em execução na nuvem distribuída da Akamai podem oferecer alto rendimento e escalabilidade eficiente para inferência de IA em condições reais, com menor custo e latência. Para equipes que estão avaliando opções de GPU, essa combinação oferece um equilíbrio atraente entre velocidade, eficiência e acessibilidade em uma infraestrutura global.

Obtenha acesso

Cadastre-se para ter acesso ao RTX Pro 6000 Blackwell Server Edition na Akamai Inference Cloud.

Registre-se para acessar

Oct 30, 2025

Mo Tabares e Christiaan Lutzer

escrito por

Mo Tabares

Mo Tabares é vice-presidente de engenharia da Akamai.

escrito por

Christiaan Lutzer

Christiaan Lutzer é arquiteto de produto sênior na Akamai.

Publicações de blog relacionadas

Juntos, a Akamai e a Bitmovin resolvem os principais desafios que os provedores de streaming enfrentam atualmente.

Nuvem

Akamai e Bitmovin: Revolucionando a mídia de Streaming de vídeo sob demanda

August 13, 2025

Adam Massaro

Descubra como a parceria entre a Akamai e a Bitmovin reduz custos, melhora o desempenho e oferece experiências de vídeo personalizadas para provedores de conteúdo.

Leia o blog

A nova linha de serviços de computação inclui quatro tipos de planos, oferecendo aos clientes opções claras para equilibrar desempenho e custo.

Nuvem

Akamai Cloud: Novos modelos de VM com hardware dedicado e desempenho G8

December 17, 2025

Sarah Walter

Os novos planos de computação equipados com processadores AMD EPYC™ de 5ª geração oferecem desempenho previsível, preços transparentes e opções flexíveis para workloads modernas.

Leia o blog

Clientes escolhem a Akamai como seu parceiro de nuvem confiável e inovador.

Nuvem

Empresas otimizam os custos de nuvem e entregam experiências superiores com a Akamai

June 26, 2024

Rick Myers

Saiba como os clientes da Akamai otimizam seus custos de computação em nuvem e oferecem experiências envolventes aos clientes com nossa infraestrutura de nuvem aberta e acessível.

Leia o blog

Akamai Cloud

Akamai Security

Nossa infraestrutura global

Avaliação de desempenho da NVIDIA RTX Pro 6000 Blackwell na Akamai Cloud

Resumo executivo

Teste de desempenho da Akamai Inference Cloud

GPUs eficientes, versáteis e otimizadas

Validação de desempenho

O que mostram os testes de desempenho

Visão geral dos benchmarks

Configuração

Metodologia

Resultados detalhados

Teste 1: Comparação de precisão entre FP8 e FP4

Teste 2: Comparação entre o servidor RTX Pro 6000 Blackwell e a GPU H100

Conclusão

Obtenha acesso

Publicações de blog relacionadas