Che cos'è l'architettura a 3 livelli descritta nel white paper?

1. I sistemi di produzione dell'intelligenza artificiale centralizzati per addestramento, ottimizzazione e inferencing intenso o univoco. 2. Un livello di GPU distribuito vicino agli utenti per un inferencing in tempo reale e sensibile alla latenza. 3. Un livello di sicurezza e routing sull'edge per valutare, proteggere e instradare le richieste prima che raggiungano le GPU.

Architettura dell'agentic web

Vantaggi principali

Le applicazioni agentiche sono legate alla latenza. Quando i risultati dipendono da decine o centinaia di sessioni di micro-inferencing concatenate, piccoli ritardi si trasformano in scarse user experience.
La latenza ha un impatto aziendale misurabile. Dalle analisi di Akamai, risulta che l'aggiunta di soli 10 - 15 ms di ritardo può aumentare l'abbandono nei workflow critici del retail.
L'inferencing, non l'addestramento, sta diventando il maggior carico di lavoro per l'intelligenza artificiale. L'inferencing è continuo e legato alle interazioni degli utenti, mentre l'addestramento è discontinuo e ciclico.
Akamai Cloud for Inference utilizza un'architettura a 3 livelli. Offre sistemi di produzione dell'intelligenza artificiale centralizzati per formazione e inferencing intensivo, GPU distribuite per inferencing in tempo reale vicino agli utenti e un livello di sicurezza e routing sull'edge per valutare, proteggere e instradare le richieste.
Le GPU distribuite riducono i percorsi di rete a lungo raggio e migliorano la simultaneità. Il computing di prossimità offre tempi di risposta a livello di millisecondi per un inferencing sensibile alla latenza.
Il livello di sicurezza e routing sull'edge protegge la costosa capacità delle GPU. Verifica le richieste e le classifica, filtra le minacce e i bot e indirizza le richieste alla posizione della GPU ottimale in base a latenza, costi e disponibilità.
Alcuni esempi reali di workflow multimediali mostrano perché la prossimità è importante. Alcuni esempi includono la trasmissione VR a 8K e le decisioni video quasi in tempo reale (circa ~35 ms), che sono rese possibili dall'inferencing distribuito.
Architettura dell'agentic web

Purtroppo il browser/sistema operativo da cui accedi a questa pagina non supporta questa funzionalità. Puoi accedere al PDF here

Domande frequenti (FAQ)

L'agentic web è il passaggio da statiche operazioni di "clic, recupero e rendering" ad applicazioni in cui alcuni agenti intelligenti recuperano informazioni, pianificano workflow multifase, eseguono azioni e collaborano con altri agenti per risultati ottimali.

Le experience agentiche, spesso, dipendono da decine o centinaia di operazioni di micro-inferencing concatenate per sessione. Anche i piccoli ritardi si accumulano, rendendo le experience lente e incoerenti.

L'addestramento è complesso e intenso dal punto di vista computazionale, generalmente eseguito in cicli distinti. L'inferencing, invece, è continuo, dipende dalle interazioni degli utenti e può coinvolgere più chiamate dipendenti per ogni engagement.

Si tratta di un approccio all'infrastruttura progettato per l'inferencing in tempo reale, distribuito e sensibile alla latenza su scala globale, che utilizza GPU altamente distribuite con un processo decisionale edge-native.

I sistemi di produzione dell'intelligenza artificiale centralizzati per addestramento, ottimizzazione e inferencing intenso o univoco.
Un livello di GPU distribuito vicino agli utenti per un inferencing in tempo reale e sensibile alla latenza.
Un livello di sicurezza e routing sull'edge per valutare, proteggere e instradare le richieste prima che raggiungano le GPU.

Verifica le richieste in entrata e le classifica, filtra le minacce e i bot, gestisce la sicurezza dei token e il traffico dei dati sensibili e inoltra le richieste alla posizione della GPU migliore in base a latenza, costi e disponibilità.

Posizionare le GPU vicino agli utenti riduce la latenza, aumenta la simultaneità e minimizza i percorsi di rete a lungo raggio, che è un fattore fondamentale per l'organizzazione dell'inferencing in tempo reale e dell'agentic AI.

I carichi di lavoro che richiedono tempi di risposta in tempo reale e che vengono eseguiti vicino ad utenti o dati, inclusi workflow agentici, applicazioni multimodali e tipi di intelligence multimediale/video complessi.

Dalle analisi della piattaforma di Akamai, emerge come l'aggiunta di 10 - 15 ms di ritardo può aumentare l'abbandono durante i workflow critici del retail, che diventa un fenomeno più pronunciato in caso di sessioni di micro-inferencing concatenate.

Questo white paper descrive le seguenti fasi: prima inferencing distribuito, poi intelligence multimodale in tempo reale, quindi applicazioni completamente agentiche in grado di recuperare dati, pianificare attività e collaborare con altri agenti.

Akamai Cloud

Akamai Security

La nostra infrastruttura globale

Architettura dell'agentic web

Vantaggi principali

Domande frequenti (FAQ)

Che cos'è l'agentic web?

Perché l'intelligenza artificiale richiede una latenza bassissima?

In che modo l'inferencing è diverso dall'addestramento?

Che cos'è Akamai Cloud for Inference?

Che cos'è l'architettura a 3 livelli descritta nel white paper?

Che cosa implica il livello di sicurezza e routing sull'edge per l'AI inferencing?

Perché è consigliabile distribuire le GPU geograficamente invece di affidarsi ad aree centralizzate nel cloud?

Quali tipi di carichi di lavoro possono trarre maggiormente vantaggio dell'inferencing distribuito?

Qual è l'impatto aziendale esercitato dall'aumento della latenza?

In che modo il white paper descrive l'evoluzione verso le applicazioni agentiche?