Akamai adquirirá LayerX para reforzar el control de uso de IA en cualquier navegador. Obtener detalles

Cómo ha demostrado Harmonic el alto rendimiento de la inferencia de IA en las GPU de Akamai

Danielle Cook author image

Mar 05, 2026

Danielle Cook

Danielle Cook author image

escrito por

Danielle Cook

Danielle Cook ha sido una fuerza impulsora en la industria cloud native desde 2016, ayudando a las organizaciones a adoptar tecnologías listas para entornos empresariales mientras comunica su valor para el negocio. Es coautora y mantiene el Modelo de Madurez Cloud Native de la Cloud Native Computing Foundation, copreside el grupo de trabajo CNCF Cartografos y es coautora de Admiral Bash’s Island Adventure. Como embajadora de la CNCF y fundadora de KubeCrash, un encuentro virtual bianual, promueve el software de código abierto y el activismo impulsado por la comunidad.

Compartir

La ejecución de la inferencia de IA a escala ya no se limita al tamaño del modelo. Las preguntas de van más allá: ¿Con qué eficacia puede ejecutar ese modelo, con qué rapidez puede procesar los datos del mundo real y cuánta infraestructura necesita para hacerlo?

Durante las pruebas beta privadas de las GPU NVIDIA RTX PRO™ 6000 Blackwell de Akamai Cloud, Harmonic puso a prueba estas preguntas con una exigente carga de trabajo de IA basada en imágenes creada en torno a un modelo de 3000 millones de parámetros.

Los resultados fueron claros: Harmonic logró un alto rendimiento, un uso eficiente de los recursos y la capacidad de impulsar las técnicas de optimización de modelos sin sacrificar la precisión.

“Durante la beta privada, las GPU NVIDIA RTX PRO 6000 Blackwell de Akamai Cloud nos permitieron ejecutar nuestras cargas de trabajo de imágenes de IA con precisión, velocidad y eficiencia. Pudimos procesar grandes volúmenes de imágenes rápidamente, a la vez que optimizamos el rendimiento de nuestros modelos y mantenemos una tasa de falsas detecciones muy baja. Los resultados nos dieron auténtica confianza a la hora de escalar estas cargas de trabajo a la producción”.

— Moore Macauley, director de tecnología, negocio de vídeo, Harmonic

La verdadera prueba: precisión, eficiencia y velocidad

La carga de trabajo de Harmonic no era un punto de referencia sintético. Se trataba de un canal de procesamiento de imágenes de producción donde la calidad de la detección era importante.

Los objetivos eran sencillos:

  • Mantener una tasa de falsas detecciones muy baja con un modelo de parámetros 3B
  • Optimizar el uso de GPU y el espacio de memoria
  • Maximizar el rendimiento para lotes de imágenes grandes
  • Evaluar el impacto de la cuantificación del modelo en el rendimiento y la precisión

Lo que Harmonic descubrió fue una combinación de bajo espacio de memoria, alto uso de Tensor y velocidad de procesamiento a escala que resulta difícil de conseguir en una infraestructura de GPU tradicional en la nube.

 

Espacio reducido de memoria y uso elevado de Tensor

A pesar del tamaño del modelo, Harmonic observó:

  • Un uso de memoria de GPU inferior al 10 %
  • Un uso coherente de Tensor en el rango del 70 % al 80 %

Se trata de una señal clara de que las GPU no se vieron obstaculizadas por restricciones de memoria y de que la carga de trabajo pudo aprovechar al máximo los núcleos de Tensor para obtener una inferencia de alto rendimiento. En términos prácticos, esto significa que Harmonic podría ejecutar modelos sofisticados sin necesidad de aprovisionar en exceso la infraestructura para acomodar la sobrecarga de memoria.

 

Velocidad de procesamiento a escala

 

  • Harmonic procesó 300 imágenes en menos de un minuto

 

Este nivel de rendimiento demuestra cómo las GPU Blackwell de Akamai Cloud pueden admitir el procesamiento en tiempo real o casi en tiempo real de la IA a escala, lo que las hace adecuadas para sistemas de producción basados en IA en los que tanto la baja latencia como la escalabilidad son fundamentales para el éxito.

Cuantificación sin concesiones

Uno de los hallazgos más reveladores de las pruebas de Harmonic ha sido la optimización del modelo.

Harmonic ha evaluado la cuantificación de enteros de 4 bits en comparación con la precisión float16 tradicional y ha observado que para las cargas de trabajo de prueba había:

  • Pérdidas insignificantes en el rendimiento de detección
  • Ligeras ganancias en la eficiencia de la memoria
  • Velocidad de procesamiento mejorada

Esto es importante porque la cuantificación a menudo se ve como un compromiso entre eficiencia y precisión. Los resultados de Harmonic muestran que en las GPU Blackwell las técnicas avanzadas de cuantificación pueden mejorar las características de rendimiento sin degradar la calidad de los resultados.

Esto permite a los equipos:

  • Ejecutar modelos más grandes en espacios reducidos
  • Reducir los costes de infraestructura
  • Aumentar el rendimiento sin sacrificar los resultados

Por qué esto es importante para las cargas de trabajo de IA en el Edge y en la nube

Las pruebas de Harmonic resaltan un patrón más amplio: Las cargas de trabajo de IA modernas necesitan una infraestructura diseñada para lograr la eficiencia de las inferencia, no meros recursos de computación. Esto se consigue combinando lo siguiente:

  • Alto rendimiento de Tensor
  • Uso eficiente de la memoria
  • Compatibilidad con optimización avanzada de modelos
  • Procesamiento rápido a escala

Las GPU Blackwell de Akamai Cloud proporcionan una base para los sistemas de IA que tienen que funcionar de forma continua, procesar grandes volúmenes de datos y mantener una alta precisión. Esto es especialmente relevante para las cargas de trabajo de IA que se ejecutan más cerca de los usuarios, los dispositivos o las fuentes de datos, donde el rendimiento, la eficiencia, y el coste son importantes.

De la beta privada a la confianza en la producción

Para Harmonic, las pruebas beta privadas fueron una oportunidad de validar que sus cargas de trabajo de procesamiento de imágenes de IA podían ejecutarse de forma eficiente, precisa y a alta velocidad en la infraestructura de GPU de Akamai.

Los resultados les dieron la confianza de que podían:

  • Escalar la inferencia sin ampliar la infraestructura de forma lineal
  • Optimizar los modelos de forma agresiva mediante cuantificación
  • Mantener una alta calidad de detección a la vez que se aumenta el rendimiento

Estas son las características exactas que los equipos buscan al pasar la IA de la experimentación a la producción.

Más información

Si ejecutar de forma eficiente las cargas de trabajo de IA a escala es fundamental para su empresa, puede obtener más información sobre cómo las GPU NVIDIA Blackwell de Akamai Cloud pueden respaldar su próxima generación de inferencia.

Danielle Cook author image

Mar 05, 2026

Danielle Cook

Danielle Cook author image

escrito por

Danielle Cook

Danielle Cook ha sido una fuerza impulsora en la industria cloud native desde 2016, ayudando a las organizaciones a adoptar tecnologías listas para entornos empresariales mientras comunica su valor para el negocio. Es coautora y mantiene el Modelo de Madurez Cloud Native de la Cloud Native Computing Foundation, copreside el grupo de trabajo CNCF Cartografos y es coautora de Admiral Bash’s Island Adventure. Como embajadora de la CNCF y fundadora de KubeCrash, un encuentro virtual bianual, promueve el software de código abierto y el activismo impulsado por la comunidad.

Etiquetas

Compartir

Entradas de blog relacionadas

Nube
Elegir la GPU de Akamai Cloud adecuada para la carga de trabajo de IA
March 03, 2026
Akamai Cloud admite muchas cargas de trabajo diferentes con tres opciones de GPU NVIDIA. Descubra cómo adaptar con precisión su infraestructura a las necesidades específicas de carga de trabajo.
Nube
Valkey: El futuro de los almacenes de datos en memoria de código abierto
January 21, 2026
Descubra por qué Valkey destaca en la innovación de código abierto y es algo más que el mero reemplazo de Redis.
Nube
Akamai Cloud: Nuevas configuraciones de hardware G8 Dedicated y máquinas virtuales de alto rendimiento
December 17, 2025
Los nuevos planes de computación con procesadores AMD EPYC™ de 5.ª generación ofrecen un rendimiento predecible, precios transparentes y opciones flexibles para cargas de trabajo modernas.