L'agentic web è il passaggio da statiche operazioni di "clic, recupero e rendering" ad applicazioni in cui alcuni agenti intelligenti recuperano informazioni, pianificano workflow multifase, eseguono azioni e collaborano con altri agenti per risultati ottimali.
Vantaggi principali
- Le applicazioni agentiche sono legate alla latenza. Quando i risultati dipendono da decine o centinaia di sessioni di micro-inferencing concatenate, piccoli ritardi si trasformano in scarse user experience.
- La latenza ha un impatto aziendale misurabile. Dalle analisi di Akamai, risulta che l'aggiunta di soli 10 - 15 ms di ritardo può aumentare l'abbandono nei workflow critici del retail.
- L'inferencing, non l'addestramento, sta diventando il maggior carico di lavoro per l'intelligenza artificiale. L'inferencing è continuo e legato alle interazioni degli utenti, mentre l'addestramento è discontinuo e ciclico.
- Akamai Cloud for Inference utilizza un'architettura a 3 livelli. Offre sistemi di produzione dell'intelligenza artificiale centralizzati per formazione e inferencing intensivo, GPU distribuite per inferencing in tempo reale vicino agli utenti e un livello di sicurezza e routing sull'edge per valutare, proteggere e instradare le richieste.
- Le GPU distribuite riducono i percorsi di rete a lungo raggio e migliorano la simultaneità. Il computing di prossimità offre tempi di risposta a livello di millisecondi per un inferencing sensibile alla latenza.
- Il livello di sicurezza e routing sull'edge protegge la costosa capacità delle GPU. Verifica le richieste e le classifica, filtra le minacce e i bot e indirizza le richieste alla posizione della GPU ottimale in base a latenza, costi e disponibilità.
- Alcuni esempi reali di workflow multimediali mostrano perché la prossimità è importante. Alcuni esempi includono la trasmissione VR a 8K e le decisioni video quasi in tempo reale (circa ~35 ms), che sono rese possibili dall'inferencing distribuito.
Architettura dell'agentic web
Domande frequenti (FAQ)
Le experience agentiche, spesso, dipendono da decine o centinaia di operazioni di micro-inferencing concatenate per sessione. Anche i piccoli ritardi si accumulano, rendendo le experience lente e incoerenti.
L'addestramento è complesso e intenso dal punto di vista computazionale, generalmente eseguito in cicli distinti. L'inferencing, invece, è continuo, dipende dalle interazioni degli utenti e può coinvolgere più chiamate dipendenti per ogni engagement.
Si tratta di un approccio all'infrastruttura progettato per l'inferencing in tempo reale, distribuito e sensibile alla latenza su scala globale, che utilizza GPU altamente distribuite con un processo decisionale edge-native.
I sistemi di produzione dell'intelligenza artificiale centralizzati per addestramento, ottimizzazione e inferencing intenso o univoco.
Un livello di GPU distribuito vicino agli utenti per un inferencing in tempo reale e sensibile alla latenza.
Un livello di sicurezza e routing sull'edge per valutare, proteggere e instradare le richieste prima che raggiungano le GPU.
Verifica le richieste in entrata e le classifica, filtra le minacce e i bot, gestisce la sicurezza dei token e il traffico dei dati sensibili e inoltra le richieste alla posizione della GPU migliore in base a latenza, costi e disponibilità.
Posizionare le GPU vicino agli utenti riduce la latenza, aumenta la simultaneità e minimizza i percorsi di rete a lungo raggio, che è un fattore fondamentale per l'organizzazione dell'inferencing in tempo reale e dell'agentic AI.
I carichi di lavoro che richiedono tempi di risposta in tempo reale e che vengono eseguiti vicino ad utenti o dati, inclusi workflow agentici, applicazioni multimodali e tipi di intelligence multimediale/video complessi.
Dalle analisi della piattaforma di Akamai, emerge come l'aggiunta di 10 - 15 ms di ritardo può aumentare l'abbandono durante i workflow critici del retail, che diventa un fenomeno più pronunciato in caso di sessioni di micro-inferencing concatenate.
Questo white paper descrive le seguenti fasi: prima inferencing distribuito, poi intelligence multimodale in tempo reale, quindi applicazioni completamente agentiche in grado di recuperare dati, pianificare attività e collaborare con altri agenti.