Le Web agentique marque une transition entre les expériences statiques de type « cliquer, récupérer, afficher » et les applications où des agents intelligents recueillent des informations, planifient des flux de travail à plusieurs étapes, exécutent des actions et collaborent avec d'autres agents pour produire des résultats.
Points à retenir :
- Les applications agentiques dépendent de la latence. Lorsque les résultats reposent sur des dizaines ou des centaines de micro-inférences en chaîne, chaque petit délai s'accumule jusqu'à fragiliser l'expérience utilisateur.
- La latence a un impact commercial mesurable. Les analyses d'Akamai indiquent que des ralentissements de 10 à 15 ms peuvent augmenter le taux d'abandon dans les flux de vente au détail critiques.
- L'inférence, et non l'entraînement, s'impose comme la principale charge de travail de l'IA. L'inférence est continue et liée aux interactions des utilisateurs, tandis que l'entraînement fonctionne par phases et courtes et cycliques.
- Akamai Cloud for Inference utilise une architecture à 3 couches. Usines d'IA centralisées pour l'entraînement et l'inférence intensive, GPU distribués pour l'inférence en temps réel près des utilisateurs, et couche de routage et de sécurité en bordure de l'Internet pour évaluer, protéger et acheminer les requêtes.
- Les GPU distribués réduisent les transferts longue distance sur le réseau et améliorent la capacité de traitement concurrent. Le calcul au plus près de l'utilisateur offre une réactivité de l'ordre de la milliseconde pour l'inférence sensible à la latence.
- La couche de sécurité et de routage en bordure de l'Internet protège la capacité GPU, une ressource coûteuse. Elle valide et classe les requêtes, filtre les menaces et les bots, puis les achemine vers l'emplacement GPU optimal en fonction de la latence, du coût et de la disponibilité.
- Les flux de travail multimédias réels illustrent l'importance de la proximité. Exemples : la diffusion en VR 8K et les décisions vidéo quasi instantanées (environ 35 ms), rendues possibles grâce à l'inférence distribuée.
Concevoir l'architecture du Web agentique
Foire aux questions (FAQ)
Les expériences agentiques reposent souvent sur des dizaines, voire des centaines, de micro-inférences en chaîne par session. Le moindre délai s'accumule, ce qui ralentit et fragilise les expériences.
L'entraînement est gourmand en calcul et ponctuel. Il opère généralement par cycles discrets. L'inférence est continue, alimentée par les interactions des utilisateurs, et peut impliquer plusieurs appels dépendants au cours d'un même échange.
Il s'agit d'une approche d'infrastructure conçue pour l'inférence distribuée, en temps réel et sensible à la latence à l'échelle mondiale, combinant des GPU largement distribués à la prise de décision native en bordure de l'Internet.
Des usines d'IA centralisées pour l'entraînement, le réglage précis et l'inférence intensive ou « one-shot ».
Une couche GPU distribuée au plus près des utilisateurs pour l'inférence en temps réel et sensible à la latence.
Une couche de sécurité et de routage en bordure de l'Internet chargée d'évaluer, de protéger et d'acheminer les requêtes avant qu'elles n'atteignent les GPU.
Elle valide et classifie les requêtes entrantes, filtre les menaces et les bots, gère la sécurité des jetons et le trafic sensible en matière de confidentialité, puis achemine les requêtes vers l'emplacement GPU optimal en fonction de la latence, du coût et de la disponibilité.
Placer les GPU près des centres de population réduit la latence, augmente la capacité de traitement concurrent et limite les transferts longue distance sur le réseau, ce qui est essentiel pour l'inférence en temps réel et l'orchestration agentique.
Les charges de travail nécessitant une réactivité en temps réel et s'exécutant près des utilisateurs ou des données, notamment les flux de travail agentiques, les applications multimodales et les scénarios exigeants en intelligence multimédia/vidéo.
Les analyses de la plateforme Akamai suggèrent que 10 à 15 ms de délai supplémentaire peuvent accroître l'abandon lors des flux de vente au détail critiques, un effet qui s'amplifie dans le cas de micro‑inférences en chaîne.
Il présente plusieurs phases : d'abord, l'activation de l'inférence distribuée, puis l'intelligence multimodale en temps réel, et enfin les applications entièrement agentiques capables de récupérer des données, de planifier des tâches et de collaborer avec d'autres agents.