Resumo executivo
Os testes de desempenho mostram que a NVIDIA RTX PRO™ 6000 Blackwell, executada na Akamai Cloud, oferece um desempenho de inferência até 1,63 vez superior ao da H100, alcançando 24.240 TPS por servidor com 100 solicitações simultâneas.
Teste de desempenho da Akamai Inference Cloud
Esta semana, a Akamai anunciou o lançamento da Akamai Inference Cloud. Combinamos nossa experiência em arquiteturas distribuídas globalmente com a infraestrutura de IA da NVIDIA, a Blackwell, para repensar e ampliar radicalmente a computação acelerada necessária para liberar o verdadeiro potencial da IA.
A plataforma Akamai Inference Cloud combina servidores NVIDIA RTX PRO™, equipados com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition e DPUs NVIDIA BlueField-3®, com o software NVIDIA AI Enterprise. Essa integração ocorre à infraestrutura de computação em nuvem distribuída da Akamai e à sua rede global de edge, presente em mais de 4.400 locais ao redor do mundo.
GPUs eficientes, versáteis e otimizadas
A inferência distribuída e as experiências de agentes de última geração exigem GPUs eficientes, versáteis e otimizadas para workloads simultâneos em tempo real. A RTX PRO 6000 Blackwell atende a todos esses requisitos. Seu modo de precisão FP4 oferece um desempenho excepcional com uma fração do consumo de energia e do custo das GPUs de nível de centro de dados, tornando sua implantação viável em centenas de locais.
A arquitetura suporta cargas de trabalho simultâneas e multimodais, incluindo texto, visão e fala, em uma única GPU, reduzindo a necessidade de aceleradores especializados e limitando a movimentação desnecessária de dados pela rede.
Os servidores NVIDIA RTX Pro são otimizados para cargas de trabalho como IA agêntica, IA industrial e física, computação científica, análise de dados e simulação, computação visual e aplicações corporativas.
A NVIDIA destaca que esses servidores oferecem um rendimento de inferência de modelos de linguagem de grande porte (LLM) até 6 vezes maior, geração de dados sintéticos 4 vezes mais rápida, alinhamento de sequências genômicas 7 vezes mais rápido, rendimento de simulação de engenharia 3 vezes maior, desempenho de renderização em tempo real 4 vezes superior e capacidade para 4 vezes mais cargas de trabalho simultâneas com múltiplas instâncias de GPU.
Validação de desempenho
Para validar o desempenho, testamos as GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition em execução na Akamai Cloud e as comparamos com as NVIDIA H100 NVL de 96 GB utilizando o ambiente NVIDIA LaunchPad.
Nosso objetivo era compreender o desempenho das GPUs RTX Pro 6000 de última geração em cargas de trabalho de inferência do mundo real, em comparação com o padrão de referência atual do setor.
O que mostram os testes de desempenho
Os resultados dos benchmarks confirmam a vantagem de design da NVIDIA RTX Pro 6000 Blackwell na Akamai Cloud.
O aumento de 1,63x na taxa de transferência em relação ao H100 (FP8) demonstra que a RTX Pro 6000 Blackwell oferece desempenho de nível de centro de dados em um formato mais compacto e de fácil implantação, sendo ideal para ambientes distribuídos.
A melhoria de 1,32x observada na transição do FP8 para o FP4 demonstra como a eficiência de precisão da NVIDIA se traduz diretamente em uma inferência mais rápida e econômica na edge.
O desempenho sustentado com mais de 100 solicitações simultâneas comprova a capacidade da GPU de lidar com workloads multilocatários e sensíveis à latência em ambientes de inferência distribuídos globalmente.
Juntos, esses resultados mostram que as vantagens de eficiência e concorrência do Blackwell o tornam a base ideal para a arquitetura de inferência distribuída da Akamai, oferecendo alto rendimento, baixa latência e desempenho escalável em toda a nossa rede global.
Visão geral dos benchmarks
Seguimos a metodologia de avaliação de desempenho da NVIDIA para avaliar o desempenho de inferência sob condições de carga consistentes. Nesta publicação, explicaremos a configuração, a metodologia e as principais conclusões, e discutiremos o que os resultados significam para a execução de workloads de IA na Akamai Cloud.
Configuração
Para avaliar as GPUs NVIDIA RTX Pro 6000 na Akamai Cloud, utilizamos o Llama-3.3-Nemotron-Super-49B-v1.5, um LLM derivado do Meta Llama-3.3-70B-Instruct (também conhecido como modelo de referência). Trata-se de um modelo de raciocínio que passou por um treinamento adicional para raciocínio, preferências de conversação humana e tarefas de agência, como RAG e invocação de ferramentas.
Utilizamos dois perfis de microserviços de inferência da NVIDIA (NIM) para o mesmo modelo, a fim de comparar os modos de precisão e compreender seu impacto no desempenho e na eficiência. Os perfis — tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 e tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 — são idênticos, exceto pela configuração de precisão.
O primeiro utiliza a precisão FP8 (ponto flutuante de 8 bits), enquanto o segundo usa a precisão FP4 (ponto flutuante de 4 bits) da NVIDIA. A versão FP4 da NVIDIA (NVFP4) é suportada diretamente nas GPUs NVIDIA Blackwell.
Ao executar ambas as opções, nosso objetivo foi observar como a redução da precisão numérica afeta o rendimento e a latência. O NVFP4 oferece ganhos significativos em desempenho e eficiência com uma perda de precisão inferior a 1%, permitindo uma inferência mais rápida e com menor consumo de energia em grande escala, enquanto o FP8 proporciona maior precisão numérica. Comparar as duas opções ajuda a determinar o melhor equilíbrio entre velocidade, eficiência e precisão de inferência para workloads reais.
Realizamos testes com GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition instaladas no data center da Akamai Cloud em LAX. Para fins de comparação, utilizamos as GPUs NVIDIA H100 no ambiente NVIDIA LaunchPad.
Metodologia
Para esta avaliação de desempenho, realizamos um teste de verificação inicial destinado a medir o desempenho básico de inferência em condições de carga realistas. Cada solicitação processou 200 tokens de entrada e gerou 200 tokens de saída, representando uma interação típica de prompt e resposta curta para um LLM.
Para testar a escalabilidade e a consistência, executamos 100 execuções simultâneas, o que nos permitiu observar o comportamento da taxa de processamento e da latência à medida que o sistema lidava com um volume sustentado de inferências simultâneas. Essa abordagem proporcionou uma visão geral controlada, mas representativa, do desempenho do modelo e do hardware sob workloads semelhantes aos de produção.
Medimos dois indicadores-chave: tempo até o primeiro token (TTFT) e tokens por segundo (TPS). O TTFT, medido em milissegundos, indica a rapidez com que o modelo começa a gerar uma resposta após receber um prompt, sendo um importante indicador de latência e da capacidade de resposta percebida pelo usuário. O TPS mede a taxa de processamento total, indicando quantos tokens o sistema consegue gerar por segundo assim que a geração começa.
Em conjunto, esses indicadores oferecem uma visão equilibrada do desempenho na prática, refletindo tanto a velocidade da inferência inicial quanto a eficiência sustentada da saída sob carga.
Como parte de nossa metodologia de avaliação de desempenho, realizamos duas séries de testes para avaliar as características de desempenho das GPUs NVIDIA RTX 6000 Blackwell Server Edition.
Comparação entre precisão FP4 e FP8
Testamos dois perfis NIM no mesmo modelo — um usando precisão FP8 e outro usando precisão FP4 precision — para avaliar o impacto da nova quantização FP4 (NVFP4) da NVIDIA no desempenho da inferência. A NVIDIA destacou o FP4 como um grande avanço em termos de eficiência e rendimento.Comparação entre as GPUs RTX 6000 e H100
Em seguida, comparamos os resultados da RTX 6000 Blackwell com os das GPUs H100 em execução no ambiente NVIDIA LaunchPad para avaliar as vantagens de inferência em condições reais, analisando os dois perfis NIM: FP8 e FP4. Isso nos permitiu avaliar o desempenho da RTX 6000 não apenas nos diferentes modos de precisão, mas também em relação ao padrão atual de GPUs para data centers da NVIDIA.
Resultados detalhados
Constatamos que o nível ideal de concorrência (C) é 100 — ou seja, com 100 solicitações de inferência simultâneas, observamos os resultados de desempenho mais estáveis e representativos. Com C = 100, a mudança da precisão FP8 para FP4 na RTX 6000 resultou em uma melhoria de desempenho de 1,32 vez, demonstrando os ganhos de eficiência da quantização FP4 da NVIDIA.
Ao ser comparado com o H100 utilizando a precisão FP8, o servidor RTX Pro 6000 Blackwell apresentou desempenho 1,63 vez melhor na precisão NVFP4. Mesmo ao utilizar FP8, o Blackwell Server apresentou uma vantagem de 1,21x, demonstrando otimizações de inferência de última geração que vão além do formato FP8 mais antigo.
No geral, nesse nível de simultaneidade, o servidor RTX Pro 6000 Blackwell atingiu 3.030,01 tokens por segundo (TPS), o que equivale a 24.240,08 TPS com nossas ofertas de máquinas virtuais (VM) de infraestrutura como serviço (IaaS), destacando o forte desempenho de inferência e a escalabilidade da arquitetura Blackwell na Akamai Cloud.
Teste 1: Comparação de precisão entre FP8 e FP4
Resultados de desempenho na RTX Pro 6000 Blackwell, de FP8 para FP4.
LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8
Modelo |
Perfil do modelo NIM |
Caso de uso |
Simultaneidade |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
44.82 |
27.42 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
102.03 |
2256.3 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
138.66 |
3606.04 |
LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4
Modelo |
Perfil do modelo NIM |
Caso de uso |
Simultaneidade |
TTFT (ms) |
TPS |
Ganho FP4 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
47.92 |
29.68 |
1.08x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
94.45 |
3030.01 |
1.32x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
3663.26 |
3854.76 |
1.07x |
Teste 2: Comparação entre o servidor RTX Pro 6000 Blackwell e a GPU H100
Resultados de desempenho comparando o H100 NVL FP8 com o RTX Pro 6000 Blackwell Server FP8 e FP4.
Launchpad: H100 NVL FP8
Modelo |
Perfil do modelo NIM |
Caso de uso |
Simultaneidade |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
1 |
39.52 |
42.46 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
100 |
1612.03 |
1863.08 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
200 |
12587.3 |
1828.03 |
Launchpad: NVIDIA RTX PRO 6000 Blackwell Server FP8
Modelo |
Perfil do modelo NIM |
Caso de uso |
Simultaneidade |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
59.61 |
19.52 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
243.68 |
1040.33 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
415.9 |
1344.73 |
Launchpad: NVIDIA RTX PRO 6000 Blackwell Server FP4
Modelo |
Perfil do modelo NIM |
Caso de uso |
Simultaneidade |
TTFT (ms) |
TPS |
Ganho FP4 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
81.98 |
23.65 |
1.21x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
344.24 |
1848.96 |
1.78x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
6660.54 |
1997.3 |
1.49x |
Conclusão
Este teste de desempenho teve como objetivo avaliar o desempenho das GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition na inferência de LLM na Akamai Cloud e comparar esses resultados com os das GPUs NVIDIA H100, sob premissas semelhantes. Este teste de desempenho teve como objetivo avaliar o desempenho das GPUs NVIDIA RTX Pro 6000 Blackwell Server Edition na inferência de LLM na Akamai Cloud e comparar esses resultados com os das GPUs NVIDIA H100, sob premissas semelhantes.
Os resultados mostram claramente que o FP4 proporciona ganhos mensuráveis, com uma melhoria de 1,32 vezes na taxa de transferência em relação ao FP8 na RTX 6000. Quando comparada com a H100 na FP8, a RTX 6000 (FP4) alcançou uma melhoria de desempenho de 1,63 vezes, destacando o potencial da arquitetura Blackwell para cargas de trabalho de inferência.
Esses resultados demonstram que as GPUs RTX 6000 em execução na nuvem distribuída da Akamai podem oferecer alto rendimento e escalabilidade eficiente para inferência de IA em condições reais, com menor custo e latência. Para equipes que estão avaliando opções de GPU, essa combinação oferece um equilíbrio atraente entre velocidade, eficiência e acessibilidade em uma infraestrutura global.
Obtenha acesso
Cadastre-se para ter acesso ao RTX Pro 6000 Blackwell Server Edition na Akamai Inference Cloud.
Tags