A web agêntica representa uma transição das experiências estáticas de "clicar, buscar, renderizar" para aplicações em que agentes inteligentes recuperam informações, planejam fluxos de trabalho de várias etapas, executam ações e colaboram com outros agentes para fornecer resultados.
Principais conclusões:
- As aplicações agênticas estão vinculadas à latência. Quando os resultados dependem de dezenas ou centenas de microinferências encadeadas, pequenos atrasos se acumulam e causam experiências de usuário lentas e frágeis.
- A latência tem um impacto comercial mensurável. As análises da Akamai indicam que até mesmo 10–15 ms de atraso adicional podem aumentar o abandono em fluxos de trabalho críticos no varejo.
- A inferência, não o treinamento, está se tornando a workload de IA dominante. A inferência é contínua e está vinculada às interações do usuário, enquanto o treinamento é explosivo e cíclico.
- A Akamai Cloud for Inference usa uma arquitetura de três camadas. Fábricas de IA centralizadas para treinamento e inferência pesada, GPUs distribuídas para inferência em tempo real perto dos usuários e uma camada de encaminhamento e segurança na edge para avaliar, proteger e encaminhar solicitações.
- As GPUs distribuídas reduzem as viagens de rede de longo curso e aumentam a simultaneidade. A computação de proximidade permite uma capacidade de resposta em milissegundos para inferência sensível à latência.
- A camada de encaminhamento e segurança na edge protege a capacidade cara das GPUs. Ela valida e classifica solicitações, filtra ameaças e bots e faz o encaminhamento para a localização da GPU ideal com base na latência, no custo e na disponibilidade.
- Fluxos de trabalho de mídia reais mostram por que a proximidade é importante. Exemplos incluem transmissão em realidade virtual em 8K e decisões de vídeo quase em tempo real (cerca de ~35 ms) impulsionadas pela inferência distribuída.
Arquitetação da web agêntica
Perguntas frequentes (FAQ)
As experiências agênticas geralmente dependem de dezenas ou centenas de microinferências encadeadas por sessão. Até mesmo pequenos atrasos se acumulam, tornando as experiências lentas e frágeis.
O treinamento é computacionalmente pesado e explosivo, tipicamente executado em ciclos discretos. A inferência é contínua, impulsionada pelas interações dos usuários e pode envolver várias chamadas dependentes por engajamento.
É uma abordagem de infraestrutura projetada para inferência em tempo real, distribuída e sensível à latência em escala global, usando GPUs altamente distribuídas combinadas com um processo decisório nativo de edge.
Fábricas de IA centralizadas para treinamento, ajuste fino e inferência pesada ou "one-shot".
Uma camada de GPU distribuída próxima aos usuários para inferência em tempo real e sensível à latência.
Uma camada de encaminhamento e segurança na edge para avaliar, proteger e encaminhar solicitações antes que elas alcancem as GPUs.
Ela valida e classifica solicitações recebidas, filtra ameaças e bots, lida com a segurança de tokens e o tráfego sensível à privacidade e encaminha solicitações para a melhor localização de GPU com base na latência, no custo e na disponibilidade.
O posicionamento de GPUs perto de centros populacionais reduz a latência, aumenta a simultaneidade e minimiza as viagens de rede de longo curso, o que é essencial para a inferência em tempo real e a orquestração agêntica.
Workloads que precisam de capacidade de resposta em tempo real e são executadas perto de usuários ou dados, incluindo fluxos de trabalho agênticos, aplicações multimodais e cenários exigentes de inteligência de mídia/vídeo.
As análises da plataforma da Akamai sugerem que 10–15 ms de atraso adicional podem aumentar o abandono durante fluxos de trabalho críticos no varejo, o que fica mais evidenciado quando as microinferências estão encadeadas.
Ele descreve fases: primeiro a capacitação da inferência distribuída, depois a inteligência multimodal em tempo real e, por fim, aplicações totalmente agênticas que podem recuperar dados, planejar tarefas e colaborar com outros agentes.