Evaluación comparativa de NVIDIA RTX Pro 6000 Blackwell en Akamai Cloud

Oct 30, 2025

Mo Tabares y Christiaan Lutzer

escrito por

Mo Tabares

Mo Tabares es vicepresidente de Ingeniería en Akamai.

escrito por

Christiaan Lutzer

Christiaan Lutzer es arquitecto sénior de Productos en Akamai.

Resumen ejecutivo

Los análisis muestran que la ejecución de NVIDIA RTX PRO™ 6000 Blackwell en Akamai Cloud ofrece un rendimiento de inferencia hasta 1,63 veces superior al de H100, y alcanza 24 240 TPS por servidor con 100 solicitudes simultáneas.

Evaluación comparativa con Akamai Inference Cloud

Esta semana, Akamai ha anunciado el lanzamiento de Akamai Inference Cloud. Hemos combinado nuestra experiencia en arquitecturas distribuidas globalmente y la infraestructura de IA de NVIDIA Blackwell para replantearnos y ampliar radicalmente la computación acelerada necesaria para aprovechar el verdadero potencial de la IA.

La plataforma Akamai Inference Cloud combina servidores NVIDIA RTX PRO™, equipados con GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, DPU NVIDIA BlueField-3® y el software NVIDIA AI Enterprise, con la infraestructura de cloud computing distribuida de Akamai y la red en el Edge global, que cuenta con más de 4400 ubicaciones en todo el mundo.

GPU eficientes, versátiles y optimizadas

La inferencia distribuida y las experiencias agénticas de nueva generación requieren GPU eficientes, versátiles y optimizadas para cargas de trabajo simultáneas en tiempo real. RTX PRO 6000 Blackwell cumple las tres condiciones. Su modo de precisión FP4 ofrece un rendimiento excepcional a una fracción de la potencia y el coste de las GPU de nivel de centro de datos, lo que hace que sea práctico implementarla en cientos de sitios.

La arquitectura admite cargas de trabajo simultáneas y multimodales, como texto, visión y voz, en una única GPU, de manera que se reduce la necesidad de utilizar aceleradores especializados y se limita el movimiento innecesario de datos por la red.

Los servidores NVIDIA RTX Pro están optimizados para cargas de trabajo como las de IA agéntica, IA industrial y física, computación científica, análisis y simulación de datos, computación visual y aplicaciones empresariales.

NVIDIA resalta que estos servidores ofrecen un rendimiento de inferencia de los modelos de lenguaje de gran tamaño (LLM) hasta 6 veces superior, una generación de datos sintéticos 4 veces más rápida, un alineamiento de secuencias genómicas 7 veces más rápida, un rendimiento de simulación de ingeniería 3 veces superior, un rendimiento de renderizado en tiempo real 4 veces superior y 4 veces más cargas de trabajo de GPU multiinstancias simultáneas.

Validación del rendimiento

Para validar el rendimiento, probamos las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition que se ejecutan en Akamai Cloud y las comparamos con NVIDIA H100 NVL de 96 GB mediante el entorno NVIDIA LaunchPad.

Nuestro objetivo era comprender el rendimiento de las GPU RTX Pro 6000 de nueva generación para cargas de trabajo de inferencia reales en comparación con el estándar de referencia actual del sector.

Lo que muestran las evaluaciones comparativas

Los resultados de la evaluación comparativa confirman la ventaja de diseño de NVIDIA RTX Pro 6000 Blackwell en Akamai Cloud.

El rendimiento hasta 1,63 veces superior con respecto a H100 (FP8) muestra que RTX Pro 6000 Blackwell ofrece un rendimiento de nivel de centro de datos en un espacio más pequeño y fácil de implementar, ideal para entornos distribuidos.
El rendimiento 1,32 veces superior al pasar de FP8 a FP4 demuestra cómo la eficiencia de precisión de NVIDIA se traduce directamente en una inferencia más rápida y rentable en el Edge.
El rendimiento sostenido a más de 100 solicitudes simultáneas valida la capacidad de la GPU para gestionar cargas de trabajo multiusuario sensibles a la latencia en inferencia distribuida globalmente.

Juntos, estos resultados muestran que las ventajas de eficiencia y simultaneidad de Blackwell la convierten en la base ideal para la arquitectura de inferencia distribuida de Akamai, ya que ofrece un alto rendimiento, baja latencia y rendimiento escalable en toda nuestra red global.

Descripción general de la evaluación comparativa

Hemos seguido la metodología de evaluación comparativa de NVIDIA para evaluar el rendimiento de inferencia en condiciones de carga coherentes. En esta publicación analizaremos la configuración, la metodología y las conclusiones clave, y analizaremos lo que significan los resultados para la ejecución de cargas de trabajo de IA en Akamai Cloud.

Configuración

Para evaluar las GPU NVIDIA RTX Pro 6000 en Akamai Cloud, utilizamos Llama-3.3-Nemotron-Super-49B-v1.5, un LLM derivado de Meta Llama-3.3-70B-Instruct (también conocido como el modelo de referencia). Se trata de un modelo de razonamiento que está entrenado posteriormente para el razonamiento, las preferencias de chat humanas y las tareas ágiles, como RAG y la llamada a herramientas.

Utilizamos dos perfiles de microservicios de inferencia (NIM) de NVIDIA para el mismo modelo con el fin de comparar los modos de precisión y comprender su impacto en el rendimiento y la eficiencia. Los perfiles (tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 y tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5) son idénticos, excepto por el ajuste de precisión.

El primero utiliza una precisión de FP8 (punto flotante de 8 bits), mientras que el segundo utiliza FP4 (punto flotante de 4 bits) de NVIDIA. La versión FP4 de NVIDIA (NVFP4) es compatible directamente con las GPU NVIDIA Blackwell.

Al ejecutar ambos, nuestro objetivo era observar cómo la reducción de la precisión numérica afecta al rendimiento y a la latencia. La versión NVFP4 ofrece mayores mejoras de rendimiento y eficiencia con menos del 1 % de pérdida de precisión, lo que permite una inferencia de potencia más rápida y menor a escala, mientras que la versión FP8 proporciona una mayor precisión numérica. La comparación entre ambos ayuda a determinar la mejor compensación entre velocidad, eficiencia y fidelidad de inferencia para cargas de trabajo reales.

Realizamos pruebas en las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition ubicadas en el centro de datos LAX de Akamai Cloud. Para realizar la comparación, utilizamos las GPU NVIDIA H100 con el entorno NVIDIA LaunchPad.

Metodología

Para esta evaluación comparativa, realizamos una prueba diseñada para medir el rendimiento de inferencia de línea base en condiciones de carga realistas. Cada solicitud procesó 200 tokens de entrada y generó 200 tokens de salida, lo que representa una interacción breve típica de respuesta a indicación para un LLM.

Para probar la escalabilidad y la coherencia, procesamos 100 ejecuciones simultáneas para poder observar el rendimiento y el comportamiento de latencia mientras el sistema gestionaba un volumen sostenido de inferencias simultáneas. Este enfoque proporcionó una instantánea controlada, pero representativa del rendimiento del modelo y el hardware con cargas de trabajo similares a las de la producción.

Medimos dos métricas clave: tiempo hasta el primer token (TTFT) y tokens por segundo (TPS). La métrica TTFT, medida en milisegundos, captura la rapidez con la que el modelo comienza a generar una respuesta después de recibir una indicación, una muestra importante de la latencia y la capacidad de respuesta percibida por el usuario. La métrica TPS mide el rendimiento global y muestra cuántos tokens puede generar el sistema por segundo una vez que comienza la generación.

En conjunto, estas métricas proporcionan una visión equilibrada del rendimiento real, ya que reflejan tanto la velocidad de la inferencia inicial como la eficiencia de salida sostenida bajo carga.

Como parte de nuestra metodología de evaluación comparativa, ejecutamos dos conjuntos de pruebas para evaluar las características de rendimiento de las GPU NVIDIA RTX 6000 Blackwell Server Edition.

Comparación de precisión entre FP4 y FP8
Probamos dos perfiles de NIM en el mismo modelo, uno con precisión de FP8 y otro con precisión de FP4, para medir el impacto de la nueva cuantificación FP4 (NVFP4) de NVIDIA en el rendimiento de inferencia. NVIDIA ha resaltado el modelo FP4 como un avance importante en cuanto a eficiencia y rendimiento.
Comparación entre las GPU RTX 6000 y H100
A continuación, comparamos los resultados de las RTX 6000 Blackwell con el de las GPU H100 mediante su ejecución en el entorno NVIDIA LaunchPad para evaluar las ventajas de inferencia del mundo real mediante los dos perfiles de NIM: FP8 y FP4. Esto nos permitió evaluar el rendimiento de RTX 6000 no solo en los modos de precisión, sino también en relación con el estándar actual de GPU para centros de datos de NVIDIA.

Resultados detallados

Identificamos que el nivel óptimo de simultaneidad (C) es 100, lo que significa que en 100 solicitudes de inferencia simultáneas observamos los resultados de rendimiento más estables y representativos. A C = 100, el paso de la precisión de FP8 a la de FP4 en RTX 6000 dio como resultado un rendimiento 1,32 veces superior, lo que muestra las ganancias de eficiencia de la cuantificación de FP4 de NVIDIA.

En comparación con H100 usando su precisión de FP8, RTX Pro 6000 Blackwell Server proporcionó un rendimiento 1,63 veces superior con la precisión de NVFP4. Incluso al utilizar FP8, Blackwell Server demostró una ventaja 1,21 veces superior, lo que muestra optimizaciones de inferencia de nueva generación que van más allá del formato FP8 anterior.

En general, en este nivel de simultaneidad, RTX Pro 6000 Blackwell Server logró 3030,01 tokens por segundo (TPS), lo que equivale a 24 240,08 TPS con nuestras ofertas de máquinas virtuales de infraestructura como servicio (IaaS). Esto pone de relieve los sólidos niveles de rendimiento de inferencia y la escalabilidad de la arquitectura Blackwell en Akamai Cloud.

Prueba 1: Comparación de precisión entre FP8 y FP4

Resultados de rendimiento en RTX Pro 6000 Blackwell de FP8 a FP4.

LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8

Modelo	Perfil del modelo de NIM	Caso de uso	Simultaneidad	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	44,82	27,42
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	102,03	2256,3
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	138,66	3606,04

LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modelo	Perfil del modelo de NIM	Caso de uso	Simultaneidad	TTFT (ms)	TPS	Ganancia de FP4
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	47,92	29,68	1.08x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	94,45	3030,01	1.32x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	3663,26	3854,76	1.07x

Prueba 2: Comparación entre las GPU RTX Pro 6000 Blackwell Server y H100

Resultados de rendimiento al comparar H100 NVL FP8 con RTX Pro 6000 Blackwell Server FP8 y FP4.

LaunchPad: H100 NVL FP8

Modelo	Perfil del modelo de NIM	Caso de uso	Simultaneidad	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	1	39,52	42,46
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	100	1612,03	1863,08
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	200	12587,3	1828,03

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP8

Modelo	Perfil del modelo de NIM	Caso de uso	Simultaneidad	TTFT (ms)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	59,61	19,52
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	243,68	1040,33
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	415,9	1344,73

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP4

Modelo	Perfil del modelo de NIM	Caso de uso	Simultaneidad	TTFT (ms)	TPS	Ganancia de FP4
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	81,98	23,65	1.21x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	344,24	1848,96	1.78x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	6660,54	1997,3	1.49x

Conclusión

El objetivo de esta evaluación comparativa era el de averiguar el rendimiento de las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition para la inferencia de LLM en Akamai Cloud y cuál era su rendimiento en comparación con las GPU NVIDIA H100 partiendo de premisas similares. Utilizando la metodología de evaluación comparativa recomendada por NVIDIA, probamos los modos de precisión FP8 y FP4 para comprender las compensaciones de rendimiento, eficiencia y latencia.

Los resultados muestran claramente que el modelo FP4 ofrece ganancias cuantificables, con un rendimiento 1,32 veces superior con respecto al modelo FP8 en RTX 6000. En comparación con el uso de H100 con FP8, RTX 6000 (FP4) logró un rendimiento 1,63 veces superior, lo que pone de relieve el potencial de la arquitectura Blackwell para las cargas de trabajo de inferencia.

Estos resultados demuestran que las GPU RTX 6000 que se ejecutan en la nube distribuida de Akamai pueden ofrecer un alto rendimiento y una escalabilidad eficiente para la inferencia de IA en el mundo real a un coste y una latencia menores. Para los equipos que están evaluando las opciones de GPU, esta combinación ofrece un equilibrio convincente entre velocidad, eficiencia y accesibilidad en una infraestructura global.

Acceda a la solución

Regístrese para acceder a RTX Pro 6000 Blackwell Server Edition en Akamai Inference Cloud.

Registrarse para acceder

Oct 30, 2025

Mo Tabares y Christiaan Lutzer

escrito por

Mo Tabares

Mo Tabares es vicepresidente de Ingeniería en Akamai.

escrito por

Christiaan Lutzer

Christiaan Lutzer es arquitecto sénior de Productos en Akamai.

Etiquetas

Entradas de blog relacionadas

La nueva gama de recursos de computación incluye cuatro modalidades de planes que brinda a los clientes alternativas claras de rendimiento y coste.

Nube

Akamai Cloud: Nuevas configuraciones de hardware G8 Dedicated y máquinas virtuales de alto rendimiento

December 17, 2025

Sarah Walter

Los nuevos planes de computación con procesadores AMD EPYC™ de 5.ª generación ofrecen un rendimiento predecible, precios transparentes y opciones flexibles para cargas de trabajo modernas.

Leer blog

Juntos, Akamai y Bitmovin resuelven los principales desafíos a los que se enfrentan los proveedores de streaming hoy en día.

Nube

Akamai y Bitmovin: La revolución del streaming en directo y el vídeo a la carta (VOD)

August 13, 2025

Adam Massaro

Descubra cómo la colaboración entre Akamai y Bitmovin reduce los costes, mejora el rendimiento y ofrece experiencias de vídeo personalizadas a los proveedores de contenido.

Leer blog

Los clientes eligen a Akamai como su partner de nube fiable e innovador.

Nube

Las empresas optimizan los costes de la nube y ofrecen experiencias superiores en Akamai

June 26, 2024

Rick Myers

Descubra cómo los clientes de Akamai optimizan sus costes de cloud computing y ofrecen experiencias atractivas a los clientes con nuestra infraestructura de nube abierta y asequible.

Leer blog

Akamai Cloud

Akamai Security

Nuestra infraestructura global

Evaluación comparativa de NVIDIA RTX Pro 6000 Blackwell en Akamai Cloud

Resumen ejecutivo

Evaluación comparativa con Akamai Inference Cloud

GPU eficientes, versátiles y optimizadas

Validación del rendimiento

Lo que muestran las evaluaciones comparativas

Descripción general de la evaluación comparativa

Configuración

Metodología

Resultados detallados

Prueba 1: Comparación de precisión entre FP8 y FP4

Prueba 2: Comparación entre las GPU RTX Pro 6000 Blackwell Server y H100

Conclusión

Acceda a la solución

Entradas de blog relacionadas