La ejecución de la inferencia de IA a escala ya no se limita al tamaño del modelo. Las preguntas de van más allá: ¿Con qué eficacia puede ejecutar ese modelo, con qué rapidez puede procesar los datos del mundo real y cuánta infraestructura necesita para hacerlo?
Durante las pruebas beta privadas de las GPU NVIDIA RTX PRO™ 6000 Blackwell de Akamai Cloud, Harmonic puso a prueba estas preguntas con una exigente carga de trabajo de IA basada en imágenes creada en torno a un modelo de 3000 millones de parámetros.
Los resultados fueron claros: Harmonic logró un alto rendimiento, un uso eficiente de los recursos y la capacidad de impulsar las técnicas de optimización de modelos sin sacrificar la precisión.
“Durante la beta privada, las GPU NVIDIA RTX PRO 6000 Blackwell de Akamai Cloud nos permitieron ejecutar nuestras cargas de trabajo de imágenes de IA con precisión, velocidad y eficiencia. Pudimos procesar grandes volúmenes de imágenes rápidamente, a la vez que optimizamos el rendimiento de nuestros modelos y mantenemos una tasa de falsas detecciones muy baja. Los resultados nos dieron auténtica confianza a la hora de escalar estas cargas de trabajo a la producción”.
— Moore Macauley, director de tecnología, negocio de vídeo, Harmonic
La verdadera prueba: precisión, eficiencia y velocidad
La carga de trabajo de Harmonic no era un punto de referencia sintético. Se trataba de un canal de procesamiento de imágenes de producción donde la calidad de la detección era importante.
Los objetivos eran sencillos:
- Mantener una tasa de falsas detecciones muy baja con un modelo de parámetros 3B
- Optimizar el uso de GPU y el espacio de memoria
- Maximizar el rendimiento para lotes de imágenes grandes
- Evaluar el impacto de la cuantificación del modelo en el rendimiento y la precisión
Lo que Harmonic descubrió fue una combinación de bajo espacio de memoria, alto uso de Tensor y velocidad de procesamiento a escala que resulta difícil de conseguir en una infraestructura de GPU tradicional en la nube.
Espacio reducido de memoria y uso elevado de Tensor
A pesar del tamaño del modelo, Harmonic observó:
- Un uso de memoria de GPU inferior al 10 %
- Un uso coherente de Tensor en el rango del 70 % al 80 %
Se trata de una señal clara de que las GPU no se vieron obstaculizadas por restricciones de memoria y de que la carga de trabajo pudo aprovechar al máximo los núcleos de Tensor para obtener una inferencia de alto rendimiento. En términos prácticos, esto significa que Harmonic podría ejecutar modelos sofisticados sin necesidad de aprovisionar en exceso la infraestructura para acomodar la sobrecarga de memoria.
Velocidad de procesamiento a escala
- Harmonic procesó 300 imágenes en menos de un minuto
Este nivel de rendimiento demuestra cómo las GPU Blackwell de Akamai Cloud pueden admitir el procesamiento en tiempo real o casi en tiempo real de la IA a escala, lo que las hace adecuadas para sistemas de producción basados en IA en los que tanto la baja latencia como la escalabilidad son fundamentales para el éxito.
Cuantificación sin concesiones
Uno de los hallazgos más reveladores de las pruebas de Harmonic ha sido la optimización del modelo.
Harmonic ha evaluado la cuantificación de enteros de 4 bits en comparación con la precisión float16 tradicional y ha observado que para las cargas de trabajo de prueba había:
- Pérdidas insignificantes en el rendimiento de detección
- Ligeras ganancias en la eficiencia de la memoria
- Velocidad de procesamiento mejorada
Esto es importante porque la cuantificación a menudo se ve como un compromiso entre eficiencia y precisión. Los resultados de Harmonic muestran que en las GPU Blackwell las técnicas avanzadas de cuantificación pueden mejorar las características de rendimiento sin degradar la calidad de los resultados.
Esto permite a los equipos:
- Ejecutar modelos más grandes en espacios reducidos
- Reducir los costes de infraestructura
- Aumentar el rendimiento sin sacrificar los resultados
Por qué esto es importante para las cargas de trabajo de IA en el Edge y en la nube
Las pruebas de Harmonic resaltan un patrón más amplio: Las cargas de trabajo de IA modernas necesitan una infraestructura diseñada para lograr la eficiencia de las inferencia, no meros recursos de computación. Esto se consigue combinando lo siguiente:
- Alto rendimiento de Tensor
- Uso eficiente de la memoria
- Compatibilidad con optimización avanzada de modelos
- Procesamiento rápido a escala
Las GPU Blackwell de Akamai Cloud proporcionan una base para los sistemas de IA que tienen que funcionar de forma continua, procesar grandes volúmenes de datos y mantener una alta precisión. Esto es especialmente relevante para las cargas de trabajo de IA que se ejecutan más cerca de los usuarios, los dispositivos o las fuentes de datos, donde el rendimiento, la eficiencia, y el coste son importantes.
De la beta privada a la confianza en la producción
Para Harmonic, las pruebas beta privadas fueron una oportunidad de validar que sus cargas de trabajo de procesamiento de imágenes de IA podían ejecutarse de forma eficiente, precisa y a alta velocidad en la infraestructura de GPU de Akamai.
Los resultados les dieron la confianza de que podían:
- Escalar la inferencia sin ampliar la infraestructura de forma lineal
- Optimizar los modelos de forma agresiva mediante cuantificación
- Mantener una alta calidad de detección a la vez que se aumenta el rendimiento
Estas son las características exactas que los equipos buscan al pasar la IA de la experimentación a la producción.
Más información
Si ejecutar de forma eficiente las cargas de trabajo de IA a escala es fundamental para su empresa, puede obtener más información sobre cómo las GPU NVIDIA Blackwell de Akamai Cloud pueden respaldar su próxima generación de inferencia.
Etiquetas