Evaluación comparativa de NVIDIA RTX Pro 6000 Blackwell en Akamai Cloud

Akamai Wave Blue

Oct 30, 2025

Mo Tabares y Christiaan Lutzer

Foto del autor Mo Tabares

escrito por

Mo Tabares

Mo Tabares es vicepresidente de Ingeniería en Akamai.

Foto del autor Christiaan Lutzer

escrito por

Christiaan Lutzer

Christiaan Lutzer es arquitecto sénior de Productos en Akamai.

Compartir

Resumen ejecutivo

Los análisis muestran que la ejecución de NVIDIA RTX PRO™ 6000 Blackwell en Akamai Cloud ofrece un rendimiento de inferencia hasta 1,63 veces superior al de H100, y alcanza 24 240 TPS por servidor con 100 solicitudes simultáneas.

Evaluación comparativa con Akamai Inference Cloud

Esta semana, Akamai ha anunciado el lanzamiento de Akamai Inference Cloud. Hemos combinado nuestra experiencia en arquitecturas distribuidas globalmente y la infraestructura de IA de NVIDIA Blackwell para replantearnos y ampliar radicalmente la computación acelerada necesaria para aprovechar el verdadero potencial de la IA.

La plataforma Akamai Inference Cloud combina servidores NVIDIA RTX PRO™, equipados con GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, DPU NVIDIA BlueField-3® y el software NVIDIA AI Enterprise, con la infraestructura de cloud computing distribuida de Akamai y la red en el Edge global, que cuenta con más de 4400 ubicaciones en todo el mundo.

GPU eficientes, versátiles y optimizadas

La inferencia distribuida y las experiencias agénticas de nueva generación requieren GPU eficientes, versátiles y optimizadas para cargas de trabajo simultáneas en tiempo real. RTX PRO 6000 Blackwell cumple las tres condiciones. Su modo de precisión FP4 ofrece un rendimiento excepcional a una fracción de la potencia y el coste de las GPU de nivel de centro de datos, lo que hace que sea práctico implementarla en cientos de sitios.

La arquitectura admite cargas de trabajo simultáneas y multimodales, como texto, visión y voz, en una única GPU, de manera que se reduce la necesidad de utilizar aceleradores especializados y se limita el movimiento innecesario de datos por la red.

Los servidores NVIDIA RTX Pro están optimizados para cargas de trabajo como las de IA agéntica, IA industrial y física, computación científica, análisis y simulación de datos, computación visual y aplicaciones empresariales.

NVIDIA resalta que estos servidores ofrecen un rendimiento de inferencia de los modelos de lenguaje de gran tamaño (LLM) hasta 6 veces superior, una generación de datos sintéticos 4 veces más rápida, un alineamiento de secuencias genómicas 7 veces más rápida, un rendimiento de simulación de ingeniería 3 veces superior, un rendimiento de renderizado en tiempo real 4 veces superior y 4 veces más cargas de trabajo de GPU multiinstancias simultáneas.

Validación del rendimiento

Para validar el rendimiento, probamos las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition que se ejecutan en Akamai Cloud y las comparamos con NVIDIA H100 NVL de 96 GB mediante el entorno NVIDIA LaunchPad.

Nuestro objetivo era comprender el rendimiento de las GPU RTX Pro 6000 de nueva generación para cargas de trabajo de inferencia reales en comparación con el estándar de referencia actual del sector.

Lo que muestran las evaluaciones comparativas

Los resultados de la evaluación comparativa confirman la ventaja de diseño de NVIDIA RTX Pro 6000 Blackwell en Akamai Cloud.

  • El rendimiento hasta 1,63 veces superior con respecto a H100 (FP8) muestra que RTX Pro 6000 Blackwell ofrece un rendimiento de nivel de centro de datos en un espacio más pequeño y fácil de implementar, ideal para entornos distribuidos.

  • El rendimiento 1,32 veces superior al pasar de FP8 a FP4 demuestra cómo la eficiencia de precisión de NVIDIA se traduce directamente en una inferencia más rápida y rentable en el Edge.

  • El rendimiento sostenido a más de 100 solicitudes simultáneas valida la capacidad de la GPU para gestionar cargas de trabajo multiusuario sensibles a la latencia en inferencia distribuida globalmente.

Juntos, estos resultados muestran que las ventajas de eficiencia y simultaneidad de Blackwell la convierten en la base ideal para la arquitectura de inferencia distribuida de Akamai, ya que ofrece un alto rendimiento, baja latencia y rendimiento escalable en toda nuestra red global.

Descripción general de la evaluación comparativa

Hemos seguido la metodología de evaluación comparativa de NVIDIA para evaluar el rendimiento de inferencia en condiciones de carga coherentes. En esta publicación analizaremos la configuración, la metodología y las conclusiones clave, y analizaremos lo que significan los resultados para la ejecución de cargas de trabajo de IA en Akamai Cloud.

Configuración

Para evaluar las GPU NVIDIA RTX Pro 6000 en Akamai Cloud, utilizamos Llama-3.3-Nemotron-Super-49B-v1.5, un LLM derivado de Meta Llama-3.3-70B-Instruct (también conocido como el modelo de referencia). Se trata de un modelo de razonamiento que está entrenado posteriormente para el razonamiento, las preferencias de chat humanas y las tareas ágiles, como RAG y la llamada a herramientas.

Utilizamos dos perfiles de microservicios de inferencia (NIM) de NVIDIA para el mismo modelo con el fin de comparar los modos de precisión y comprender su impacto en el rendimiento y la eficiencia. Los perfiles (tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 y tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5) son idénticos, excepto por el ajuste de precisión.

El primero utiliza una precisión de FP8 (punto flotante de 8 bits), mientras que el segundo utiliza FP4 (punto flotante de 4 bits) de NVIDIA. La versión FP4 de NVIDIA (NVFP4) es compatible directamente con las GPU NVIDIA Blackwell.

Al ejecutar ambos, nuestro objetivo era observar cómo la reducción de la precisión numérica afecta al rendimiento y a la latencia. La versión NVFP4 ofrece mayores mejoras de rendimiento y eficiencia con menos del 1 % de pérdida de precisión, lo que permite una inferencia de potencia más rápida y menor a escala, mientras que la versión FP8 proporciona una mayor precisión numérica. La comparación entre ambos ayuda a determinar la mejor compensación entre velocidad, eficiencia y fidelidad de inferencia para cargas de trabajo reales.

Realizamos pruebas en las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition ubicadas en el centro de datos LAX de Akamai Cloud. Para realizar la comparación, utilizamos las GPU NVIDIA H100 con el entorno NVIDIA LaunchPad.

Metodología

Para esta evaluación comparativa, realizamos una prueba diseñada para medir el rendimiento de inferencia de línea base en condiciones de carga realistas. Cada solicitud procesó 200 tokens de entrada y generó 200 tokens de salida, lo que representa una interacción breve típica de respuesta a indicación para un LLM.

Para probar la escalabilidad y la coherencia, procesamos 100 ejecuciones simultáneas para poder observar el rendimiento y el comportamiento de latencia mientras el sistema gestionaba un volumen sostenido de inferencias simultáneas. Este enfoque proporcionó una instantánea controlada, pero representativa del rendimiento del modelo y el hardware con cargas de trabajo similares a las de la producción.

Medimos dos métricas clave: tiempo hasta el primer token (TTFT) y tokens por segundo (TPS). La métrica TTFT, medida en milisegundos, captura la rapidez con la que el modelo comienza a generar una respuesta después de recibir una indicación, una muestra importante de la latencia y la capacidad de respuesta percibida por el usuario. La métrica TPS mide el rendimiento global y muestra cuántos tokens puede generar el sistema por segundo una vez que comienza la generación.

En conjunto, estas métricas proporcionan una visión equilibrada del rendimiento real, ya que reflejan tanto la velocidad de la inferencia inicial como la eficiencia de salida sostenida bajo carga.

Como parte de nuestra metodología de evaluación comparativa, ejecutamos dos conjuntos de pruebas para evaluar las características de rendimiento de las GPU NVIDIA RTX 6000 Blackwell Server Edition.

  1. Comparación de precisión entre FP4 y FP8
    Probamos dos perfiles de NIM en el mismo modelo, uno con precisión de FP8 y otro con precisión de FP4, para medir el impacto de la nueva cuantificación FP4 (NVFP4) de NVIDIA en el rendimiento de inferencia. NVIDIA ha resaltado el modelo FP4 como un avance importante en cuanto a eficiencia y rendimiento.

  2. Comparación entre las GPU RTX 6000 y H100
    A continuación, comparamos los resultados de las RTX 6000 Blackwell con el de las GPU H100 mediante su ejecución en el entorno NVIDIA LaunchPad para evaluar las ventajas de inferencia del mundo real mediante los dos perfiles de NIM: FP8 y FP4. Esto nos permitió evaluar el rendimiento de RTX 6000 no solo en los modos de precisión, sino también en relación con el estándar actual de GPU para centros de datos de NVIDIA.

Resultados detallados

Identificamos que el nivel óptimo de simultaneidad (C) es 100, lo que significa que en 100 solicitudes de inferencia simultáneas observamos los resultados de rendimiento más estables y representativos. A C = 100, el paso de la precisión de FP8 a la de FP4 en RTX 6000 dio como resultado un rendimiento 1,32 veces superior, lo que muestra las ganancias de eficiencia de la cuantificación de FP4 de NVIDIA. 

En comparación con H100 usando su precisión de FP8, RTX Pro 6000 Blackwell Server proporcionó un rendimiento 1,63 veces superior con la precisión de NVFP4. Incluso al utilizar FP8, Blackwell Server demostró una ventaja 1,21 veces superior, lo que muestra optimizaciones de inferencia de nueva generación que van más allá del formato FP8 anterior. 

En general, en este nivel de simultaneidad, RTX Pro 6000 Blackwell Server logró 3030,01 tokens por segundo (TPS), lo que equivale a 24 240,08 TPS con nuestras ofertas de máquinas virtuales de infraestructura como servicio (IaaS). Esto pone de relieve los sólidos niveles de rendimiento de inferencia y la escalabilidad de la arquitectura Blackwell en Akamai Cloud.

Prueba 1: Comparación de precisión entre FP8 y FP4

Resultados de rendimiento en RTX Pro 6000 Blackwell de FP8 a FP4.

LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8

Modelo

Perfil del modelo de NIM

Caso de uso

Simultaneidad

TTFT (ms)

TPS 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

1

44,82

27,42

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

100

102,03

2256,3

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

200

138,66

3606,04

 

LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modelo

Perfil del modelo de NIM

Caso de uso

Simultaneidad

TTFT (ms)

TPS 

Ganancia de FP4 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

1

47,92

29,68

1.08x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

100

94,45

3030,01

1.32x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

200

3663,26

3854,76

1.07x

 

Prueba 2: Comparación entre las GPU RTX Pro 6000 Blackwell Server y H100

Resultados de rendimiento al comparar H100 NVL FP8 con RTX Pro 6000 Blackwell Server FP8 y FP4. 

LaunchPad: H100 NVL FP8

Modelo

Perfil del modelo de NIM

Caso de uso

Simultaneidad

TTFT (ms)

TPS 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321

200_200

1

39,52

42,46

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321

200_200

100

1612,03

1863,08

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321

200_200

200

12587,3

1828,03

 

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP8

Modelo

Perfil del modelo de NIM

Caso de uso

Simultaneidad

TTFT (ms)

TPS 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

1

59,61

19,52

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

100

243,68

1040,33

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5

200_200

200

415,9

1344,73

 

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modelo

Perfil del modelo de NIM

Caso de uso

Simultaneidad

TTFT (ms)

TPS 

Ganancia de FP4 

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

1

81,98

23,65

1.21x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

100

344,24

1848,96

1.78x

nvidia/llama-3.3-nemotron-super-49b-v1.5

tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5

200_200

200

6660,54

1997,3

1.49x

Conclusión

El objetivo de esta evaluación comparativa era el de averiguar el rendimiento de las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition para la inferencia de LLM en Akamai Cloud y cuál era su rendimiento en comparación con las GPU NVIDIA H100 partiendo de premisas similares. Utilizando la metodología de evaluación comparativa recomendada por NVIDIA, probamos los modos de precisión FP8 y FP4 para comprender las compensaciones de rendimiento, eficiencia y latencia.

Los resultados muestran claramente que el modelo FP4 ofrece ganancias cuantificables, con un rendimiento 1,32 veces superior con respecto al modelo FP8 en RTX 6000. En comparación con el uso de H100 con FP8, RTX 6000 (FP4) logró un rendimiento 1,63 veces superior, lo que pone de relieve el potencial de la arquitectura Blackwell para las cargas de trabajo de inferencia.

Estos resultados demuestran que las GPU RTX 6000 que se ejecutan en la nube distribuida de Akamai pueden ofrecer un alto rendimiento y una escalabilidad eficiente para la inferencia de IA en el mundo real a un coste y una latencia menores. Para los equipos que están evaluando las opciones de GPU, esta combinación ofrece un equilibrio convincente entre velocidad, eficiencia y accesibilidad en una infraestructura global.

Acceda a la solución

Regístrese para acceder a RTX Pro 6000 Blackwell Server Edition en Akamai Inference Cloud. 

Akamai Wave Blue

Oct 30, 2025

Mo Tabares y Christiaan Lutzer

Foto del autor Mo Tabares

escrito por

Mo Tabares

Mo Tabares es vicepresidente de Ingeniería en Akamai.

Foto del autor Christiaan Lutzer

escrito por

Christiaan Lutzer

Christiaan Lutzer es arquitecto sénior de Productos en Akamai.

Etiquetas

Compartir

Entradas de blog relacionadas

Nube
Cómo ha demostrado Harmonic el alto rendimiento de la inferencia de IA en las GPU de Akamai
March 05, 2026
Descubra cómo Harmonic ha logrado la inferencia de IA de alto rendimiento en Akamai Cloud con las GPU NVIDIA Blackwell, que optimizan la velocidad y la eficiencia.
Nube
Elegir la GPU de Akamai Cloud adecuada para la carga de trabajo de IA
March 03, 2026
Akamai Cloud admite muchas cargas de trabajo diferentes con tres opciones de GPU NVIDIA. Descubra cómo adaptar con precisión su infraestructura a las necesidades específicas de carga de trabajo.
Nube
Akamai y Bitmovin: La revolución del streaming en directo y el vídeo a la carta (VOD)
August 13, 2025
Descubra cómo la colaboración entre Akamai y Bitmovin reduce los costes, mejora el rendimiento y ofrece experiencias de vídeo personalizadas a los proveedores de contenido.