Die Durchführung von skalierbarenKI-Inferenzen hängt nicht mehr nur von der Modellgröße ab. Zu den heutigen Fragen gehören: Wie effizient können Sie dieses Modell ausführen, wie schnell können Sie reale Daten verarbeiten und wie viel Infrastruktur benötigen Sie dafür?
Während des privaten Beta-Tests von NVIDIA RTX PRO™ 6000 Blackwell-GPUs in der Akamai Cloud hat Harmonic diese Fragen mit einer anspruchsvollen, bildbasierten KI-Workload auf Basis eines 3-Milliarden-Parameter-Modells auf den Prüfstand gestellt.
Die Ergebnisse waren eindeutig: Harmonic erzielte hohe Performance, effiziente Ressourcennutzung und die Fähigkeit, Modelloptimierungstechniken ohne Abstriche bei der Genauigkeit zu übertragen.
„Während der privaten Beta konnten wir mit den NVIDIA RTX PRO 6000 Blackwell-GPUs auf der Akamai Cloud unsere bildbasierten KI-Workloads mit Genauigkeit, Geschwindigkeit und Effizienz ausführen. Wir konnten große Mengen von Bildern schnell verarbeiten, während wir unsere Modelle auf Performance und eine sehr niedrige Fehlerkennungsrate optimierten. Die Ergebnisse haben unser Vertrauen in die Skalierung dieser Workloads in der Produktion bestärkt.“
– Moore Macauley, CTO, Video Business, Harmonic
Der echte Test: Genauigkeit, Effizienz und Geschwindigkeit
Der Workload von Harmonic war kein synthetischer Referenzwert. Es handelte sich dabei um eine Bildverarbeitungs-Pipeline in Produktionsqualität, bei der die Erkennungsqualität entscheidend war.
Die Ziele waren klar:
- Aufrechterhalten einer sehr niedrige Fehlerkennungsrate mit einem 3B-Parametermodell
- Optimieren der GPU-Auslastung und des Speicherbedarfs.
- Maximieren der Durchsatzleistung für große Bild-Posten.
- Bewerten der Auswirkungen der Modellquantifizierung auf Performance und Genauigkeit
Die Ergebnisse von Harmonic ergaben eine Kombination aus niedrigem Speicherbedarf, hoher Tensor-Nutzung und skalierbarer Verarbeitungsgeschwindigkeit, die mit einer herkömmlichen Cloud-GPU-Infrastruktur nur schwer zu erreichen ist.
Geringer Speicherbedarf und hohe Tensor-Nutzung
Trotz der Größe des Modells beobachtete Harmonic Folgendes:
- GPU-Speicherauslastung unter 10 %
- Tensor-Nutzung konsequent im Bereich von 70 % bis 80 %
Dies ist ein starkes Signal, dass die GPUs nicht durch Speicherbeschränkungen verlangsamt wurden und dass die Workload in der Lage war, die Tensor-Kerne vollständig für die Inferenz mit hohem Durchsatz zu nutzen. In der Praxis bedeutet dies, dass Harmonic hochentwickelte Modelle ausführen kann, ohne dass die Infrastruktur über den Bedarf bereitgestellt werden muss, nur um den Speicheraufwand zu bewältigen.
Verarbeitungsgeschwindigkeit in großem Maßstab
- Harmonic hat 300 Bilder in weniger als einer Minute verarbeitet
Dieser Durchsatz zeigt, wie Blackwell-GPUs in der Akamai Cloud KI-Verarbeitung in Echtzeit oder nahezu in Echtzeit unterstützen können. Dadurch eignen sie sich hervorragend für KI-basierte Produktionssysteme, bei denen sowohl niedrige Latenz als auch Skalierbarkeit entscheidend für den Erfolg sind.
Quantisierung ohne Kompromisse
Eines der aussagekräftigsten Ergebnisse des Tests von Harmonic betraf die Modelloptimierung.
Harmonic evaluierte die 4-Bit-Ganzzahl-Quantisierung im Vergleich zur herkömmlichen Float16-Präzision und stellte fest, dass für Test-Workloads Folgendes gegeben war:
- Kein signifikanter Verlust der Erkennungsperformance
- Leichte Steigerung der Speichereffizienz
- Verbesserte Verarbeitungsgeschwindigkeit
Dies ist wichtig, da die Quantisierung oft als Kompromiss zwischen Effizienz und Genauigkeit angesehen wird. Die Ergebnisse von Harmonic zeigen, dass erweiterte Quantisierungstechniken bei Blackwell-GPUs die Performancemerkmale verbessern können, ohne dabei die Qualität der Ergebnisse zu beeinträchtigen.
Damit können Teams:
- größere Modelle auf kleinerem Platzbedarf ausführen
- Infrastrukturkosten senken
- den Durchsatz ohne Einbußen bei der Qualität der Ergebnisse steigern
Warum ist dies für KI-Workloads an der Edge und in der Cloud wichtig
Die Tests von Harmonic heben ein breiteres Muster hervor: Moderne KI-Workloads benötigen eine Infrastruktur, die auf Inferenzeffizienz und nicht nur auf reine Computing-Leistung ausgelegt ist. Dies wird erreicht durch die Kombination von:
- hoher Tensor-Performance
- effizienter Speichernutzung
- Unterstützung für erweiterte Modelloptimierung
- schnelle und skalierbare Verarbeitung
Blackwell-GPUs in der Akamai Cloud bilden die Grundlage für KI-Systeme, die kontinuierlich arbeiten, große Datenmengen verarbeiten und eine hohe Genauigkeit gewährleisten müssen. Dies ist besonders relevant für KI-Workloads, die näher an Nutzern, Geräten oder Datenquellen laufen, und wo Performance, Effizienz und die Kosten eine Rolle spielen.
Von der privaten Betaversion zum Vertrauen für die Produktion
Für Harmonic bot der private Betatest eine Gelegenheit, zu überprüfen, ob die Workloads der KI-Bildverarbeitung effizient, präzise und mit hoher Geschwindigkeit auf der GPU-Infrastruktur von Akamai ausgeführt werden konnten.
Die Ergebnisse gaben ihnen die Zuversicht, dass sie:
- die Inferenz ohne lineare Skalierung der Infrastruktur skalieren konnten
- die Modelle durch Quantisierung aggressiv optimieren können
- eine hohe Erkennungsqualität bei gleichzeitig erhöhtem Durchsatz erreichen
Dies sind die genauen Merkmale, nach denen Teams suchen, wenn sie KI aus der Experimentierphase in die Produktion verlagern.
Weitere Informationen
Wenn das effiziente Ausführen von KI-Workloads in großem Maßstab für Ihr Unternehmen von zentraler Bedeutung ist, können Sie mehr darüber erfahren, wie NVIDIA-Blackwell-GPUs in der Akamai Cloud Ihre nächste Generation von Inferenz unterstützen können.
Tags