Resumen ejecutivo
Los análisis muestran que la ejecución de NVIDIA RTX PRO™ 6000 Blackwell en Akamai Cloud ofrece un rendimiento de inferencia hasta 1,63 veces superior al de H100, y alcanza 24 240 TPS por servidor con 100 solicitudes simultáneas.
Evaluación comparativa con Akamai Inference Cloud
Esta semana, Akamai ha anunciado el lanzamiento de Akamai Inference Cloud. Hemos combinado nuestra experiencia en arquitecturas distribuidas globalmente y la infraestructura de IA de NVIDIA Blackwell para replantearnos y ampliar radicalmente la computación acelerada necesaria para aprovechar el verdadero potencial de la IA.
La plataforma Akamai Inference Cloud combina servidores NVIDIA RTX PRO™, equipados con GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, DPU NVIDIA BlueField-3® y el software NVIDIA AI Enterprise, con la infraestructura de cloud computing distribuida de Akamai y la red en el Edge global, que cuenta con más de 4400 ubicaciones en todo el mundo.
GPU eficientes, versátiles y optimizadas
La inferencia distribuida y las experiencias agénticas de nueva generación requieren GPU eficientes, versátiles y optimizadas para cargas de trabajo simultáneas en tiempo real. RTX PRO 6000 Blackwell cumple las tres condiciones. Su modo de precisión FP4 ofrece un rendimiento excepcional a una fracción de la potencia y el coste de las GPU de nivel de centro de datos, lo que hace que sea práctico implementarla en cientos de sitios.
La arquitectura admite cargas de trabajo simultáneas y multimodales, como texto, visión y voz, en una única GPU, de manera que se reduce la necesidad de utilizar aceleradores especializados y se limita el movimiento innecesario de datos por la red.
Los servidores NVIDIA RTX Pro están optimizados para cargas de trabajo como las de IA agéntica, IA industrial y física, computación científica, análisis y simulación de datos, computación visual y aplicaciones empresariales.
NVIDIA resalta que estos servidores ofrecen un rendimiento de inferencia de los modelos de lenguaje de gran tamaño (LLM) hasta 6 veces superior, una generación de datos sintéticos 4 veces más rápida, un alineamiento de secuencias genómicas 7 veces más rápida, un rendimiento de simulación de ingeniería 3 veces superior, un rendimiento de renderizado en tiempo real 4 veces superior y 4 veces más cargas de trabajo de GPU multiinstancias simultáneas.
Validación del rendimiento
Para validar el rendimiento, probamos las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition que se ejecutan en Akamai Cloud y las comparamos con NVIDIA H100 NVL de 96 GB mediante el entorno NVIDIA LaunchPad.
Nuestro objetivo era comprender el rendimiento de las GPU RTX Pro 6000 de nueva generación para cargas de trabajo de inferencia reales en comparación con el estándar de referencia actual del sector.
Lo que muestran las evaluaciones comparativas
Los resultados de la evaluación comparativa confirman la ventaja de diseño de NVIDIA RTX Pro 6000 Blackwell en Akamai Cloud.
El rendimiento hasta 1,63 veces superior con respecto a H100 (FP8) muestra que RTX Pro 6000 Blackwell ofrece un rendimiento de nivel de centro de datos en un espacio más pequeño y fácil de implementar, ideal para entornos distribuidos.
El rendimiento 1,32 veces superior al pasar de FP8 a FP4 demuestra cómo la eficiencia de precisión de NVIDIA se traduce directamente en una inferencia más rápida y rentable en el Edge.
El rendimiento sostenido a más de 100 solicitudes simultáneas valida la capacidad de la GPU para gestionar cargas de trabajo multiusuario sensibles a la latencia en inferencia distribuida globalmente.
Juntos, estos resultados muestran que las ventajas de eficiencia y simultaneidad de Blackwell la convierten en la base ideal para la arquitectura de inferencia distribuida de Akamai, ya que ofrece un alto rendimiento, baja latencia y rendimiento escalable en toda nuestra red global.
Descripción general de la evaluación comparativa
Hemos seguido la metodología de evaluación comparativa de NVIDIA para evaluar el rendimiento de inferencia en condiciones de carga coherentes. En esta publicación analizaremos la configuración, la metodología y las conclusiones clave, y analizaremos lo que significan los resultados para la ejecución de cargas de trabajo de IA en Akamai Cloud.
Configuración
Para evaluar las GPU NVIDIA RTX Pro 6000 en Akamai Cloud, utilizamos Llama-3.3-Nemotron-Super-49B-v1.5, un LLM derivado de Meta Llama-3.3-70B-Instruct (también conocido como el modelo de referencia). Se trata de un modelo de razonamiento que está entrenado posteriormente para el razonamiento, las preferencias de chat humanas y las tareas ágiles, como RAG y la llamada a herramientas.
Utilizamos dos perfiles de microservicios de inferencia (NIM) de NVIDIA para el mismo modelo con el fin de comparar los modos de precisión y comprender su impacto en el rendimiento y la eficiencia. Los perfiles (tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 y tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5) son idénticos, excepto por el ajuste de precisión.
El primero utiliza una precisión de FP8 (punto flotante de 8 bits), mientras que el segundo utiliza FP4 (punto flotante de 4 bits) de NVIDIA. La versión FP4 de NVIDIA (NVFP4) es compatible directamente con las GPU NVIDIA Blackwell.
Al ejecutar ambos, nuestro objetivo era observar cómo la reducción de la precisión numérica afecta al rendimiento y a la latencia. La versión NVFP4 ofrece mayores mejoras de rendimiento y eficiencia con menos del 1 % de pérdida de precisión, lo que permite una inferencia de potencia más rápida y menor a escala, mientras que la versión FP8 proporciona una mayor precisión numérica. La comparación entre ambos ayuda a determinar la mejor compensación entre velocidad, eficiencia y fidelidad de inferencia para cargas de trabajo reales.
Realizamos pruebas en las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition ubicadas en el centro de datos LAX de Akamai Cloud. Para realizar la comparación, utilizamos las GPU NVIDIA H100 con el entorno NVIDIA LaunchPad.
Metodología
Para esta evaluación comparativa, realizamos una prueba diseñada para medir el rendimiento de inferencia de línea base en condiciones de carga realistas. Cada solicitud procesó 200 tokens de entrada y generó 200 tokens de salida, lo que representa una interacción breve típica de respuesta a indicación para un LLM.
Para probar la escalabilidad y la coherencia, procesamos 100 ejecuciones simultáneas para poder observar el rendimiento y el comportamiento de latencia mientras el sistema gestionaba un volumen sostenido de inferencias simultáneas. Este enfoque proporcionó una instantánea controlada, pero representativa del rendimiento del modelo y el hardware con cargas de trabajo similares a las de la producción.
Medimos dos métricas clave: tiempo hasta el primer token (TTFT) y tokens por segundo (TPS). La métrica TTFT, medida en milisegundos, captura la rapidez con la que el modelo comienza a generar una respuesta después de recibir una indicación, una muestra importante de la latencia y la capacidad de respuesta percibida por el usuario. La métrica TPS mide el rendimiento global y muestra cuántos tokens puede generar el sistema por segundo una vez que comienza la generación.
En conjunto, estas métricas proporcionan una visión equilibrada del rendimiento real, ya que reflejan tanto la velocidad de la inferencia inicial como la eficiencia de salida sostenida bajo carga.
Como parte de nuestra metodología de evaluación comparativa, ejecutamos dos conjuntos de pruebas para evaluar las características de rendimiento de las GPU NVIDIA RTX 6000 Blackwell Server Edition.
Comparación de precisión entre FP4 y FP8
Probamos dos perfiles de NIM en el mismo modelo, uno con precisión de FP8 y otro con precisión de FP4, para medir el impacto de la nueva cuantificación FP4 (NVFP4) de NVIDIA en el rendimiento de inferencia. NVIDIA ha resaltado el modelo FP4 como un avance importante en cuanto a eficiencia y rendimiento.Comparación entre las GPU RTX 6000 y H100
A continuación, comparamos los resultados de las RTX 6000 Blackwell con el de las GPU H100 mediante su ejecución en el entorno NVIDIA LaunchPad para evaluar las ventajas de inferencia del mundo real mediante los dos perfiles de NIM: FP8 y FP4. Esto nos permitió evaluar el rendimiento de RTX 6000 no solo en los modos de precisión, sino también en relación con el estándar actual de GPU para centros de datos de NVIDIA.
Resultados detallados
Identificamos que el nivel óptimo de simultaneidad (C) es 100, lo que significa que en 100 solicitudes de inferencia simultáneas observamos los resultados de rendimiento más estables y representativos. A C = 100, el paso de la precisión de FP8 a la de FP4 en RTX 6000 dio como resultado un rendimiento 1,32 veces superior, lo que muestra las ganancias de eficiencia de la cuantificación de FP4 de NVIDIA.
En comparación con H100 usando su precisión de FP8, RTX Pro 6000 Blackwell Server proporcionó un rendimiento 1,63 veces superior con la precisión de NVFP4. Incluso al utilizar FP8, Blackwell Server demostró una ventaja 1,21 veces superior, lo que muestra optimizaciones de inferencia de nueva generación que van más allá del formato FP8 anterior.
En general, en este nivel de simultaneidad, RTX Pro 6000 Blackwell Server logró 3030,01 tokens por segundo (TPS), lo que equivale a 24 240,08 TPS con nuestras ofertas de máquinas virtuales de infraestructura como servicio (IaaS). Esto pone de relieve los sólidos niveles de rendimiento de inferencia y la escalabilidad de la arquitectura Blackwell en Akamai Cloud.
Prueba 1: Comparación de precisión entre FP8 y FP4
Resultados de rendimiento en RTX Pro 6000 Blackwell de FP8 a FP4.
LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8
Modelo |
Perfil del modelo de NIM |
Caso de uso |
Simultaneidad |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
44,82 |
27,42 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
102,03 |
2256,3 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
138,66 |
3606,04 |
LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4
Modelo |
Perfil del modelo de NIM |
Caso de uso |
Simultaneidad |
TTFT (ms) |
TPS |
Ganancia de FP4 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
47,92 |
29,68 |
1.08x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
94,45 |
3030,01 |
1.32x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
3663,26 |
3854,76 |
1.07x |
Prueba 2: Comparación entre las GPU RTX Pro 6000 Blackwell Server y H100
Resultados de rendimiento al comparar H100 NVL FP8 con RTX Pro 6000 Blackwell Server FP8 y FP4.
LaunchPad: H100 NVL FP8
Modelo |
Perfil del modelo de NIM |
Caso de uso |
Simultaneidad |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
1 |
39,52 |
42,46 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
100 |
1612,03 |
1863,08 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
200 |
12587,3 |
1828,03 |
LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP8
Modelo |
Perfil del modelo de NIM |
Caso de uso |
Simultaneidad |
TTFT (ms) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
59,61 |
19,52 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
243,68 |
1040,33 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
415,9 |
1344,73 |
LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP4
Modelo |
Perfil del modelo de NIM |
Caso de uso |
Simultaneidad |
TTFT (ms) |
TPS |
Ganancia de FP4 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
81,98 |
23,65 |
1.21x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
344,24 |
1848,96 |
1.78x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
6660,54 |
1997,3 |
1.49x |
Conclusión
El objetivo de esta evaluación comparativa era el de averiguar el rendimiento de las GPU NVIDIA RTX Pro 6000 Blackwell Server Edition para la inferencia de LLM en Akamai Cloud y cuál era su rendimiento en comparación con las GPU NVIDIA H100 partiendo de premisas similares. Utilizando la metodología de evaluación comparativa recomendada por NVIDIA, probamos los modos de precisión FP8 y FP4 para comprender las compensaciones de rendimiento, eficiencia y latencia.
Los resultados muestran claramente que el modelo FP4 ofrece ganancias cuantificables, con un rendimiento 1,32 veces superior con respecto al modelo FP8 en RTX 6000. En comparación con el uso de H100 con FP8, RTX 6000 (FP4) logró un rendimiento 1,63 veces superior, lo que pone de relieve el potencial de la arquitectura Blackwell para las cargas de trabajo de inferencia.
Estos resultados demuestran que las GPU RTX 6000 que se ejecutan en la nube distribuida de Akamai pueden ofrecer un alto rendimiento y una escalabilidad eficiente para la inferencia de IA en el mundo real a un coste y una latencia menores. Para los equipos que están evaluando las opciones de GPU, esta combinación ofrece un equilibrio convincente entre velocidad, eficiencia y accesibilidad en una infraestructura global.
Acceda a la solución
Regístrese para acceder a RTX Pro 6000 Blackwell Server Edition en Akamai Inference Cloud.
Etiquetas