La web agéntica supone dejar de lado las experiencias estáticas de "hacer clic, recuperar, renderizar" y pasar a aplicaciones en las que los agentes inteligentes recuperan la información, planifican flujos de trabajo de varios pasos, ejecutan acciones y colaboran con otros agentes.
Puntos clave:
- Las aplicaciones agénticas están vinculadas a la latencia. Cuando los resultados dependen de decenas o cientos de microinferencias encadenadas, los pequeños retrasos dan lugar a experiencias de usuario que fallan con facilidad.
- La latencia tiene un impacto empresarial medible. Los análisis de Akamai muestran que tan solo un retraso añadido de entre 10 y 15 milisegundos puede aumentar el abandono en los flujos de trabajo críticos en el sector del retail.
- La inferencia está pasando a ser la carga de trabajo predominante en la IA, por encima del entrenamiento. La inferencia es continua y está ligada a las interacciones del usuario, mientras que el entrenamiento es intermitente y cíclico.
- Akamai Cloud for Inference utiliza una arquitectura de tres capas. Existen fábricas de IA centralizadas para el entrenamiento e inferencias pesadas, GPU distribuidas para realizar inferencias en tiempo real cerca de los usuarios y una capa de enrutamiento y seguridad en el Edge para evaluar, proteger y dirigir las solicitudes.
- Las GPU distribuidas reducen los viajes de red de larga distancia y mejoran la simultaneidad. La informática de proximidad permite una tiempo de respuesta de milisegundos para la inferencia sensible a la latencia.
- La capa de enrutamiento y seguridad en el Edge protege la valiosa capacidad de la GPU. Valida y clasifica las solicitudes, filtra las amenazas y los bots, y dirige las solicitudes a la ubicación óptima de la GPU en función de la latencia, el coste y la disponibilidad.
- Los flujos de trabajo multimedia demuestran por qué la proximidad es importante. Entre los ejemplos se incluyen la transmisión de realidad virtual en 8K y la toma de decisiones de vídeo casi en tiempo real (alrededor de 35 milisegundos) gracias a la inferencia distribuida.
Arquitectura de la web agéntica
Preguntas frecuentes
Las experiencias agénticas a menudo dependen de decenas o cientos de microinferencias encadenadas por sesión. Todos los retrasos se van acumulando, por pequeños que sean, lo que hace que las experiencias sean lentas y frágiles.
El entrenamiento es pesado desde el punto de vista del uso intensivo de los recursos informáticos, esporádico y se lleva a cabo generalmente en ciclos discretos. En cambio, la inferencia es continua, se basa en las interacciones de los usuarios y puede implicar varias llamadas dependientes por interacción.
Se trata de un enfoque de infraestructura diseñado para la inferencia en tiempo real, distribuida y sensible a la latencia a escala global mediante GPU altamente distribuidas combinadas con la toma de decisiones nativa del Edge.
Fábricas de IA centralizadas para el entrenamiento, el ajuste y la inferencia pesada o en un único paso (one-shot).
Una capa de GPU distribuida cerca de los usuarios para inferencias sensibles a la latencia en tiempo real.
Una capa de enrutamiento y seguridad en el Edge para evaluar, proteger y dirigir las solicitudes antes de que lleguen a las GPU.
Valida y clasifica las solicitudes entrantes, filtra las amenazas y los bots, gestiona la seguridad de los tokens y el tráfico confidencial, y dirige las solicitudes a la mejor ubicación de GPU en función de la latencia, el coste y la disponibilidad.
La colocación de GPU cerca de los centros de población reduce la latencia, aumenta la simultaneidad y minimiza los viajes de red de larga distancia, lo que resulta fundamental para la inferencia en tiempo real y la orquestación agéntica.
Las cargas de trabajo que necesitan capacidad de respuesta en tiempo real y se ejecutan cerca de los usuarios o los datos, incluidos flujos de trabajo agénticos, aplicaciones multimodales y escenarios exigentes de inteligencia multimedia y de vídeo.
Los análisis de la plataforma de Akamai sugieren un retraso añadido de 10 y 15 milisegundos puede aumentar el abandono durante los flujos de trabajo críticos en el sector del retail, lo que se acentúa cuando se encadenan microinferencias.
Se describe con fases: primero la habilitación de inferencia distribuida, después la inteligencia multimodal en tiempo real y, a continuación, las aplicaciones totalmente agénticas que pueden recuperar datos, planificar tareas y colaborar con otros agentes.