¿En qué se basa la arquitectura de tres capas descrita en el white paper?

1. Fábricas de IA centralizadas para el entrenamiento, el ajuste y la inferencia pesada o en un único paso (one-shot). 2. Una capa de GPU distribuida cerca de los usuarios para inferencias sensibles a la latencia en tiempo real. 3. Una capa de enrutamiento y seguridad en el Edge para evaluar, proteger y dirigir las solicitudes antes de que lleguen a las GPU.

Arquitectura de la web agéntica

Puntos clave:

Las aplicaciones agénticas están vinculadas a la latencia. Cuando los resultados dependen de decenas o cientos de microinferencias encadenadas, los pequeños retrasos dan lugar a experiencias de usuario que fallan con facilidad.
La latencia tiene un impacto empresarial medible. Los análisis de Akamai muestran que tan solo un retraso añadido de entre 10 y 15 milisegundos puede aumentar el abandono en los flujos de trabajo críticos en el sector del retail.
La inferencia está pasando a ser la carga de trabajo predominante en la IA, por encima del entrenamiento. La inferencia es continua y está ligada a las interacciones del usuario, mientras que el entrenamiento es intermitente y cíclico.
Akamai Cloud for Inference utiliza una arquitectura de tres capas. Existen fábricas de IA centralizadas para el entrenamiento e inferencias pesadas, GPU distribuidas para realizar inferencias en tiempo real cerca de los usuarios y una capa de enrutamiento y seguridad en el Edge para evaluar, proteger y dirigir las solicitudes.
Las GPU distribuidas reducen los viajes de red de larga distancia y mejoran la simultaneidad. La informática de proximidad permite una tiempo de respuesta de milisegundos para la inferencia sensible a la latencia.
La capa de enrutamiento y seguridad en el Edge protege la valiosa capacidad de la GPU. Valida y clasifica las solicitudes, filtra las amenazas y los bots, y dirige las solicitudes a la ubicación óptima de la GPU en función de la latencia, el coste y la disponibilidad.
Los flujos de trabajo multimedia demuestran por qué la proximidad es importante. Entre los ejemplos se incluyen la transmisión de realidad virtual en 8K y la toma de decisiones de vídeo casi en tiempo real (alrededor de 35 milisegundos) gracias a la inferencia distribuida.
Arquitectura de la web agéntica

Lamentablemente, el navegador/SO desde el que accede a esta página no es compatible con esta funcionalidad. Puedes acceder al PDF here

Preguntas frecuentes

La web agéntica supone dejar de lado las experiencias estáticas de "hacer clic, recuperar, renderizar" y pasar a aplicaciones en las que los agentes inteligentes recuperan la información, planifican flujos de trabajo de varios pasos, ejecutan acciones y colaboran con otros agentes.

Las experiencias agénticas a menudo dependen de decenas o cientos de microinferencias encadenadas por sesión. Todos los retrasos se van acumulando, por pequeños que sean, lo que hace que las experiencias sean lentas y frágiles.

El entrenamiento es pesado desde el punto de vista del uso intensivo de los recursos informáticos, esporádico y se lleva a cabo generalmente en ciclos discretos. En cambio, la inferencia es continua, se basa en las interacciones de los usuarios y puede implicar varias llamadas dependientes por interacción.

Se trata de un enfoque de infraestructura diseñado para la inferencia en tiempo real, distribuida y sensible a la latencia a escala global mediante GPU altamente distribuidas combinadas con la toma de decisiones nativa del Edge.

Fábricas de IA centralizadas para el entrenamiento, el ajuste y la inferencia pesada o en un único paso (one-shot).
Una capa de GPU distribuida cerca de los usuarios para inferencias sensibles a la latencia en tiempo real.
Una capa de enrutamiento y seguridad en el Edge para evaluar, proteger y dirigir las solicitudes antes de que lleguen a las GPU.

Valida y clasifica las solicitudes entrantes, filtra las amenazas y los bots, gestiona la seguridad de los tokens y el tráfico confidencial, y dirige las solicitudes a la mejor ubicación de GPU en función de la latencia, el coste y la disponibilidad.

La colocación de GPU cerca de los centros de población reduce la latencia, aumenta la simultaneidad y minimiza los viajes de red de larga distancia, lo que resulta fundamental para la inferencia en tiempo real y la orquestación agéntica.

Las cargas de trabajo que necesitan capacidad de respuesta en tiempo real y se ejecutan cerca de los usuarios o los datos, incluidos flujos de trabajo agénticos, aplicaciones multimodales y escenarios exigentes de inteligencia multimedia y de vídeo.

Los análisis de la plataforma de Akamai sugieren un retraso añadido de 10 y 15 milisegundos puede aumentar el abandono durante los flujos de trabajo críticos en el sector del retail, lo que se acentúa cuando se encadenan microinferencias.

Se describe con fases: primero la habilitación de inferencia distribuida, después la inteligencia multimodal en tiempo real y, a continuación, las aplicaciones totalmente agénticas que pueden recuperar datos, planificar tareas y colaborar con otros agentes.

Akamai Cloud

Akamai Security

Nuestra infraestructura global

Arquitectura de la web agéntica

Puntos clave:

Preguntas frecuentes

¿Qué es la "web agéntica"?

¿Por qué la IA agéntica requiere latencia ultrabaja?

¿En qué se diferencia la inferencia del entrenamiento?

¿Qué es Akamai Cloud for Inference?

¿En qué se basa la arquitectura de tres capas descrita en el white paper?

¿En la inferencia de IA, qué papel tiene la capa de enrutamiento y seguridad en el Edge?

¿Por qué es mejor distribuir las GPU geográficamente en lugar de depender de regiones de nube centralizadas?

¿Qué tipos de cargas de trabajo se benefician más de la inferencia distribuida?

¿Cuál es el impacto empresarial de los pequeños aumentos de latencia?

¿Cómo se describe en este white paper la evolución hacia las aplicaciones agénticas?