Como é a arquitetura de três camadas descrita no white paper?

1. Fábricas de IA centralizadas para treinamento, ajuste fino e inferência pesada ou "one-shot". 2. Uma camada de GPU distribuída próxima aos usuários para inferência em tempo real e sensível à latência. 3. Uma camada de encaminhamento e segurança na edge para avaliar, proteger e encaminhar solicitações antes que elas alcancem as GPUs.

Arquitetação da web agêntica

Principais conclusões:

As aplicações agênticas estão vinculadas à latência. Quando os resultados dependem de dezenas ou centenas de microinferências encadeadas, pequenos atrasos se acumulam e causam experiências de usuário lentas e frágeis.
A latência tem um impacto comercial mensurável. As análises da Akamai indicam que até mesmo 10–15 ms de atraso adicional podem aumentar o abandono em fluxos de trabalho críticos no varejo.
A inferência, não o treinamento, está se tornando a workload de IA dominante. A inferência é contínua e está vinculada às interações do usuário, enquanto o treinamento é explosivo e cíclico.
A Akamai Cloud for Inference usa uma arquitetura de três camadas. Fábricas de IA centralizadas para treinamento e inferência pesada, GPUs distribuídas para inferência em tempo real perto dos usuários e uma camada de encaminhamento e segurança na edge para avaliar, proteger e encaminhar solicitações.
As GPUs distribuídas reduzem as viagens de rede de longo curso e aumentam a simultaneidade. A computação de proximidade permite uma capacidade de resposta em milissegundos para inferência sensível à latência.
A camada de encaminhamento e segurança na edge protege a capacidade cara das GPUs. Ela valida e classifica solicitações, filtra ameaças e bots e faz o encaminhamento para a localização da GPU ideal com base na latência, no custo e na disponibilidade.
Fluxos de trabalho de mídia reais mostram por que a proximidade é importante. Exemplos incluem transmissão em realidade virtual em 8K e decisões de vídeo quase em tempo real (cerca de ~35 ms) impulsionadas pela inferência distribuída.
Arquitetação da web agêntica

Infelizmente, o navegador/SO do qual você está acessando esta página não suporta essa funcionalidade. Você pode acessar o PDF here

Perguntas frequentes (FAQ)

A web agêntica representa uma transição das experiências estáticas de "clicar, buscar, renderizar" para aplicações em que agentes inteligentes recuperam informações, planejam fluxos de trabalho de várias etapas, executam ações e colaboram com outros agentes para fornecer resultados.

As experiências agênticas geralmente dependem de dezenas ou centenas de microinferências encadeadas por sessão. Até mesmo pequenos atrasos se acumulam, tornando as experiências lentas e frágeis.

O treinamento é computacionalmente pesado e explosivo, tipicamente executado em ciclos discretos. A inferência é contínua, impulsionada pelas interações dos usuários e pode envolver várias chamadas dependentes por engajamento.

É uma abordagem de infraestrutura projetada para inferência em tempo real, distribuída e sensível à latência em escala global, usando GPUs altamente distribuídas combinadas com um processo decisório nativo de edge.

Fábricas de IA centralizadas para treinamento, ajuste fino e inferência pesada ou "one-shot".
Uma camada de GPU distribuída próxima aos usuários para inferência em tempo real e sensível à latência.
Uma camada de encaminhamento e segurança na edge para avaliar, proteger e encaminhar solicitações antes que elas alcancem as GPUs.

Ela valida e classifica solicitações recebidas, filtra ameaças e bots, lida com a segurança de tokens e o tráfego sensível à privacidade e encaminha solicitações para a melhor localização de GPU com base na latência, no custo e na disponibilidade.

O posicionamento de GPUs perto de centros populacionais reduz a latência, aumenta a simultaneidade e minimiza as viagens de rede de longo curso, o que é essencial para a inferência em tempo real e a orquestração agêntica.

Workloads que precisam de capacidade de resposta em tempo real e são executadas perto de usuários ou dados, incluindo fluxos de trabalho agênticos, aplicações multimodais e cenários exigentes de inteligência de mídia/vídeo.

As análises da plataforma da Akamai sugerem que 10–15 ms de atraso adicional podem aumentar o abandono durante fluxos de trabalho críticos no varejo, o que fica mais evidenciado quando as microinferências estão encadeadas.

Ele descreve fases: primeiro a capacitação da inferência distribuída, depois a inteligência multimodal em tempo real e, por fim, aplicações totalmente agênticas que podem recuperar dados, planejar tarefas e colaborar com outros agentes.

Akamai Cloud

Akamai Security

Nossa infraestrutura global

Arquitetação da web agêntica

Principais conclusões:

Perguntas frequentes (FAQ)

O que é a "web agêntica"?

Por que a IA agêntica requer latência ultrabaixa?

Qual é a diferença entre a inferência e o treinamento?

O que é a Akamai Cloud for Inference?

Como é a arquitetura de três camadas descrita no white paper?

Qual é o papel da camada de encaminhamento e segurança na edge para a inferência de IA?

Por que distribuir GPUs geograficamente em vez de utilizar regiões de nuvem centralizadas?

Quais tipos de workloads se beneficiam mais da inferência distribuída?

Qual é o impacto comercial dos pequenos aumentos de latência?

Como o white paper descreve a evolução em relação a aplicações agênticas?