Qu'est-ce que l'architecture à 3 couches décrite dans le livre blanc ?

1. Des usines d'IA centralisées pour l'entraînement, le réglage précis et l'inférence intensive ou « one-shot ». 2. Une couche GPU distribuée au plus près des utilisateurs pour l'inférence en temps réel et sensible à la latence. 3. Une couche de sécurité et de routage en bordure de l'Internet chargée d'évaluer, de protéger et d'acheminer les requêtes avant qu'elles n'atteignent les GPU.

Concevoir l'architecture du Web agentique

Points à retenir :

Les applications agentiques dépendent de la latence. Lorsque les résultats reposent sur des dizaines ou des centaines de micro-inférences en chaîne, chaque petit délai s'accumule jusqu'à fragiliser l'expérience utilisateur.
La latence a un impact commercial mesurable. Les analyses d'Akamai indiquent que des ralentissements de 10 à 15 ms peuvent augmenter le taux d'abandon dans les flux de vente au détail critiques.
L'inférence, et non l'entraînement, s'impose comme la principale charge de travail de l'IA. L'inférence est continue et liée aux interactions des utilisateurs, tandis que l'entraînement fonctionne par phases et courtes et cycliques.
Akamai Cloud for Inference utilise une architecture à 3 couches. Usines d'IA centralisées pour l'entraînement et l'inférence intensive, GPU distribués pour l'inférence en temps réel près des utilisateurs, et couche de routage et de sécurité en bordure de l'Internet pour évaluer, protéger et acheminer les requêtes.
Les GPU distribués réduisent les transferts longue distance sur le réseau et améliorent la capacité de traitement concurrent. Le calcul au plus près de l'utilisateur offre une réactivité de l'ordre de la milliseconde pour l'inférence sensible à la latence.
La couche de sécurité et de routage en bordure de l'Internet protège la capacité GPU, une ressource coûteuse. Elle valide et classe les requêtes, filtre les menaces et les bots, puis les achemine vers l'emplacement GPU optimal en fonction de la latence, du coût et de la disponibilité.
Les flux de travail multimédias réels illustrent l'importance de la proximité. Exemples : la diffusion en VR 8K et les décisions vidéo quasi instantanées (environ 35 ms), rendues possibles grâce à l'inférence distribuée.
Concevoir l'architecture du Web agentique

Malheureusement, le navigateur/système d'exploitation à partir duquel vous accédez à cette page ne prend pas en charge cette fonctionnalité. Vous pouvez accéder au PDF here

Foire aux questions (FAQ)

Le Web agentique marque une transition entre les expériences statiques de type « cliquer, récupérer, afficher » et les applications où des agents intelligents recueillent des informations, planifient des flux de travail à plusieurs étapes, exécutent des actions et collaborent avec d'autres agents pour produire des résultats.

Les expériences agentiques reposent souvent sur des dizaines, voire des centaines, de micro-inférences en chaîne par session. Le moindre délai s'accumule, ce qui ralentit et fragilise les expériences.

L'entraînement est gourmand en calcul et ponctuel. Il opère généralement par cycles discrets. L'inférence est continue, alimentée par les interactions des utilisateurs, et peut impliquer plusieurs appels dépendants au cours d'un même échange.

Il s'agit d'une approche d'infrastructure conçue pour l'inférence distribuée, en temps réel et sensible à la latence à l'échelle mondiale, combinant des GPU largement distribués à la prise de décision native en bordure de l'Internet.

Des usines d'IA centralisées pour l'entraînement, le réglage précis et l'inférence intensive ou « one-shot ».
Une couche GPU distribuée au plus près des utilisateurs pour l'inférence en temps réel et sensible à la latence.
Une couche de sécurité et de routage en bordure de l'Internet chargée d'évaluer, de protéger et d'acheminer les requêtes avant qu'elles n'atteignent les GPU.

Elle valide et classifie les requêtes entrantes, filtre les menaces et les bots, gère la sécurité des jetons et le trafic sensible en matière de confidentialité, puis achemine les requêtes vers l'emplacement GPU optimal en fonction de la latence, du coût et de la disponibilité.

Placer les GPU près des centres de population réduit la latence, augmente la capacité de traitement concurrent et limite les transferts longue distance sur le réseau, ce qui est essentiel pour l'inférence en temps réel et l'orchestration agentique.

Les charges de travail nécessitant une réactivité en temps réel et s'exécutant près des utilisateurs ou des données, notamment les flux de travail agentiques, les applications multimodales et les scénarios exigeants en intelligence multimédia/vidéo.

Les analyses de la plateforme Akamai suggèrent que 10 à 15 ms de délai supplémentaire peuvent accroître l'abandon lors des flux de vente au détail critiques, un effet qui s'amplifie dans le cas de micro‑inférences en chaîne.

Il présente plusieurs phases : d'abord, l'activation de l'inférence distribuée, puis l'intelligence multimodale en temps réel, et enfin les applications entièrement agentiques capables de récupérer des données, de planifier des tâches et de collaborer avec d'autres agents.

Akamai Cloud

Akamai Security

Notre infrastructure mondiale

Concevoir l'architecture du Web agentique

Points à retenir :

Foire aux questions (FAQ)

Qu'est-ce que le Web agentique ?

Pourquoi l'IA agentique exige-t-elle une latence ultra-faible ?

Quelle est la différence entre inférence et entraînement ?

Qu'est-ce qu'Akamai Cloud for Inference ?

Qu'est-ce que l'architecture à 3 couches décrite dans le livre blanc ?

Quel est le rôle de la couche de sécurité et de routage en bordure de l'Internet dans l'inférence d'IA ?

Pourquoi répartir les GPU géographiquement au lieu de s'appuyer sur des régions cloud centralisées ?

Quels types de charges de travail tirent le plus parti de l'inférence distribuée ?

Quel est l'impact sur l'activité des petites augmentations de latence ?

Comment le livre blanc décrit-il l'évolution vers les applications agentiques ?