L'esecuzione dell'AI inferencing su larga scala non è più solo una questione di dimensioni dei modelli. Tra le domande che sorgono ai nostri giorni, ci si chiede quanto sia efficiente l'esecuzione dei modelli, quanto sia veloce l'elaborazione dei dati reali e quanta infrastruttura sia necessaria.
Durante i test beta privati delle GPU NVIDIA RTX PRO™ 6000 Blackwell sull'Akamai Cloud, Harmonic ha cercato di rispondere a queste domande con un carico di lavoro di AI basato sulle immagini e progettato su un modello di 3 miliardi di parametri.
I risultati sono stati chiari: Harmonic ha raggiunto performance elevate, un utilizzo efficiente delle risorse e la capacità di migliorare le tecniche di ottimizzazione dei modelli senza andare a discapito la precisione.
"Durante la versione beta privata, le GPU NVIDIA RTX PRO 6000 Blackwell sull'Akamai Cloud ci hanno consentito di eseguire i nostri carichi di lavoro delle immagini AI con precisione, velocità ed efficienza. Siamo stati in grado di elaborare rapidamente grandi volumi di immagini, ottimizzando, al contempo, le performance dei nostri modelli e mantenendo una percentuale di falsi rilevamenti molto bassa. I risultati ci hanno consentito di scalare questi carichi di lavoro in fase di produzione con la massima tranquillità".
Moore Macauley, CTO, Video Business, Harmonic
Il vero test: precisione, efficienza e velocità
Il carico di lavoro di Harmonic non era un benchmark sintetico, ma si trattava di una pipeline di elaborazione delle immagini a livello di produzione in cui la qualità del rilevamento è stata compromessa.
Gli obiettivi erano chiari:
- Mantenere una percentuale di falsi rilevamenti molto bassa con un modello di 3 miliardi di parametri
- Ottimizzare l'utilizzo della GPU e l'ingombro della memoria
- Massimizzare il throughput per grandi batch di immagini
- Valutare l'impatto della quantizzazione dei modelli in termini di performance e precisione
Harmonic ha riscontrato una combinazione di basso ingombro della memoria, elevato utilizzo di Tensor e velocità di elaborazione su larga scala che è difficile ottenere con la tradizionale infrastruttura delle GPU sul cloud.
Basso ingombro della memoria ed elevato utilizzo di Tensor
Nonostante le dimensioni del modello, Harmonic ha notato:
- Utilizzo della memoria della GPU inferiore al 10%
- Utilizzo di Tensor coerente in un intervallo compreso tra il 70 e l'80%
Questi risultati indicano che le GPU non erano soggette a colli di bottiglia a causa dei vincoli di memoria e che il carico di lavoro è stato in grado di sfruttare appieno i core di Tensor per un inferencing con throughput elevato. In pratica, ciò significa che Harmonic potrebbe eseguire modelli sofisticati senza dover eseguire il provisioning dell'infrastruttura solo per gestire l'overhead della memoria.
Velocità di elaborazione su larga scala
- Harmonic ha elaborato 300 immagini in meno di un minuto
Questo livello di throughput indica come le GPU Blackwell sull'Akamai Cloud possono supportare in tempo reale o quasi l'elaborazione dell'intelligenza artificiale su vasta scala, rendendole particolarmente adatte per i sistemi di produzione basati sull'AI in cui la bassa latenza e la scalabilità sono fondamentali per il successo.
Quantizzazione senza compromessi
Uno dei risultati più rilevanti che sono emersi dal test condotto da Harmonic ha riguardato l'ottimizzazione del modello.
Harmonic ha valutato la quantizzazione di numeri interi a 4 bit rispetto alla tradizionale precisione float16 e per i carichi di lavoro dei test ha osservato quanto segue:
- Nessuna perdita significativa nelle performance di rilevamento
- Lievi miglioramenti nell'efficienza della memoria
- Velocità di elaborazione migliorata
Questi risultati sono importanti perché la quantizzazione viene spesso considerata un compromesso tra efficienza e accuratezza. I risultati notati da Harmonic mostrano che sulle GPU Blackwell avanzate tecniche di quantizzazione possono migliorare le caratteristiche delle performance senza compromettere la qualità dei risultati.
In questo modo, i team possono:
- Eseguire modelli più grandi con ingombro ridotto
- Ridurre i costi dell'infrastruttura
- Aumentare la produttività senza sacrificare i risultati
Perché questi risultati sono importanti per i carichi di lavoro basati sull'intelligenza artificiale sull'edge e nel cloud
I test condotti da Harmonic mostrano un modello più ampio: I moderni carichi di lavoro basati sull'intelligenza artificiale necessitano di un'infrastruttura creata per l'efficienza delle inferencing, non solo per l'elaborazione. Questo risultato si ottiene combinando:
- Elevate performance di Tensor
- Utilizzo efficiente della memoria
- Supporto per l'ottimizzazione avanzata dei modelli
- Elaborazione rapida su larga scala
Le GPU Blackwell sull'Akamai Cloud forniscono una base per i sistemi di intelligenza artificiale che devono funzionare continuamente, elaborare grandi volumi di dati e mantenere un'elevata precisione. Ciò è particolarmente importante per i carichi di lavoro basati sull'intelligenza artificiale che vengono eseguiti più vicino a utenti, dispositivi o fonti di dati, in cui le performance, l'efficienza e i costi sono tutti aspetti importanti.
Dalla versione beta privata alla tranquillità nella produzione
Per Harmonic, i test beta privati hanno rappresentato un'opportunità per verificare la possibilità di eseguire i carichi di lavoro relativi all'elaborazione delle immagini AI in modo efficiente, accurato e ad alta velocità sull'infrastruttura della GPU di Akamai.
I risultati hanno offerto la tranquillità per:
- Scalare l'inferencing senza scalare l'infrastruttura in modo lineare
- Ottimizzare i modelli in modo aggressivo utilizzando la quantizzazione
- Mantenere un'elevata qualità di rilevamento aumentando il throughput
Questi sono proprio i risultati che i team cercano nel passaggio dell'intelligenza artificiale dalla fase di sperimentazione a quella di produzione.
Ulteriori informazioni
Se l'esecuzione efficiente dei carichi di lavoro basati sull'intelligenza artificiale su vasta scala è fondamentale per la vostra azienda, potete scoprire qui come le GPU NVIDIA Blackwell sull'Akamai Cloud riusciranno a supportare la prossima generazione di inferencing.
Tag