L'exécution de l'inférence d'IA à grande échelle ne se limite plus à la taille du modèle. Les questions à se poser aujourd'hui sont : avec quelle efficacité pouvez-vous exécuter ce modèle, à quelle vitesse pouvez-vous traiter des données réelles et quelle infrastructure est nécessaire pour y parvenir ?
Lors de tests bêta privés des processeurs graphiques NVIDIA RTX PRO™ 6000 Blackwell sur Akamai Cloud, Harmonic a mis ces questions à l'épreuve avec une charge de travail d'IA exigeante basée sur les images, construite autour d'un modèle de 3 milliards de paramètres.
Les résultats étaient sans appel : Harmonic a démontré des performances élevées, une utilisation efficace des ressources et la capacité d'optimiser le modèle sans compromettre la précision.
« Pendant la phase bêta privée, les processeurs graphiques NVIDIA RTX PRO 6000 Blackwell sur Akamai Cloud nous ont permis d'exécuter nos charges de travail d'images IA avec précision, rapidité et efficacité. Nous avons pu traiter rapidement de grands volumes d'images tout en optimisant nos modèles pour la performance et en maintenant un taux de détections erronées très faible. Les résultats nous ont permis de déployer ces charges de travail en production en toute confiance. »
— Moore Macauley, CTO, Video Business, Harmonic
Le véritable test : précision, efficacité et vitesse
La charge de travail d'Harmonic n'était pas un comparatif synthétique. Il s'agissait d'un pipeline de traitement d'images de qualité production, où la qualité de la détection était déterminante.
Les objectifs étaient simples :
- Maintenir un taux de détections erronées très faible avec un modèle de 3 milliards de paramètres
- Optimiser l'utilisation du processeur graphique et l'empreinte mémoire
- Optimiser le débit pour les lots d'images volumineux
- Évaluer l'impact de la quantification du modèle sur les performances et la précision
Harmonic a mis en évidence une empreinte mémoire réduite, une utilisation élevée des cœurs Tensor et une vitesse de traitement à grande échelle, des caractéristiques difficiles à atteindre sur une infrastructure de processeur graphique cloud traditionnelle.
Empreinte mémoire réduite et utilisation élevée des cœurs Tensor
Malgré la taille du modèle, Harmonic a observé les points suivants :
- Utilisation de la mémoire du processeur graphique inférieure à 10 %
- Utilisation constante des cœurs Tensor dans la plage de 70 à 80 %
Cela montre clairement que les processeurs graphiques n'étaient pas limités par la mémoire et que la charge de travail pouvait exploiter pleinement les cœurs Tensor pour une inférence à haut débit. En termes pratiques, cela signifie qu'Harmonic a pu exécuter des modèles sophistiqués sans avoir à surprovisionner l'infrastructure pour prendre en compte la surcharge de mémoire.
Vitesse de traitement à grande échelle
- Harmonic a traité 300 images en moins d'une minute
Ce niveau de débit démontre comment les processeurs graphiques Blackwell sur Akamai Cloud peuvent prendre en charge le traitement de l'IA en temps réel ou en temps quasi réel à grande échelle, ce qui les rend parfaitement adaptés aux systèmes de production basés sur l'IA, où la faible latence et l'évolutivité sont essentielles à la réussite.
Quantification sans compromis
L'un des résultats les plus parlants des tests d'Harmonic concernait l'optimisation du modèle.
Harmonic a évalué la quantification en nombres entiers 4 bits par rapport à la précision float16 traditionnelle et a observé, pour les charges de travail de test, les éléments suivants :
- Aucune perte significative des performances de détection
- Légers gains d'efficacité de la mémoire
- Vitesse de traitement améliorée
C'est un point important, car la quantification est souvent considérée comme un compromis entre efficacité et précision. Les résultats d'Harmonic montrent que, sur les processeurs graphiques Blackwell, les techniques de quantification avancées peuvent améliorer les caractéristiques de performances sans dégrader la qualité des résultats.
Les équipes profitent ainsi des avantages suivants :
- Déploiement de plus grands modèles avec une empreinte réduite
- Réduction des coûts d'infrastructure
- Augmentation du débit sans sacrifier les résultats
Pourquoi est-ce important pour les charges de travail d'IA en bordure de l'Internet et dans le cloud
Les tests d'Harmonic mettent en évidence un schéma plus large : les charges de travail d'IA actuelles ont besoin d'une infrastructure conçue pour l'efficacité de l'inférence, et pas seulement pour le traitement brut. Pour y parvenir, il faut combiner :
- Hautes performances des cœurs Tensor
- Utilisation efficace de la mémoire
- Prise en charge de l'optimisation avancée des modèles
- Traitement rapide à grande échelle
Les processeurs graphiques Blackwell sur Akamai Cloud fournissent une base pour les systèmes d'IA qui doivent fonctionner en continu, traiter de grands volumes de données et maintenir une haute précision. Cela est particulièrement pertinent pour les charges de travail d'IA qui s'exécutent au plus près des utilisateurs, des terminaux ou des sources de données, où la performance, l'efficacité et les coûts sont tous essentiels.
De la phase bêta privée à une mise en production en toute confiance
Pour Harmonic, les tests bêta privés ont été l'occasion de valider que leurs charges de travail de traitement d'images IA pouvaient s'exécuter efficacement, avec précision et à grande vitesse sur l'infrastructure de processeur graphique d'Akamai.
Les résultats leur ont donné confiance en leur capacité à :
- Faire évoluer l'inférence sans faire évoluer l'infrastructure de manière linéaire
- Optimiser les modèles de manière agressive en utilisant la quantification
- Maintenir une haute qualité de détection tout en augmentant le débit
Ce sont précisément les caractéristiques que les équipes recherchent lorsqu'elles font passer l'IA de l'expérimentation à la production.
En savoir plus
Si l'exécution efficace des charges de travail d'IA à grande échelle est au cœur de votre activité, vous pouvez en savoir plus sur la façon dont les processeurs graphiques NVIDIA Blackwell sur AkamaiCloud peuvent soutenir votre inférence nouvelle génération.
Mots-clés