智能体 Web 象征着 Web 形态的变迁,即从传统的“点击,获取,呈现”静态体验形态过渡到由智能体主导的新形态。智能体会检索信息、规划多步工作流、执行操作并与其他智能体协作交付结果。
重要信息:
- 延迟是智能体应用程序的“死穴”。当结果依赖于数十甚至数百次环环相扣的微推理时,轻微的延迟会叠加起来,造成不稳定的用户体验。
- 延迟会产生可衡量的业务影响。Akamai 分析表明,在关键的零售工作流中,仅仅增加 10-15 毫秒的延迟就会导致弃购率上升。
- 推理(而非训练)正成为主导性的 AI 工作负载。推理是持续性的,与用户交互紧密相关,而训练则是突发性、周期性的。
- Akamai Cloud for Inference 采用三层架构,分别是:负责训练和繁重推理任务的集中式 AI 工厂,用于在靠近用户的位置执行实时推理的分布式 GPU,以及用于评估、保护和路由请求的边缘路由和安全层。
- 分布式 GPU 可以减少远距离网络传输,提升并发处理能力。就近计算为延迟敏感型推理提供毫秒级响应速度。
- 边缘路由与安全层保护昂贵的 GPU 算力资源。它对请求进行验证和分类、过滤威胁与爬虫程序,并根据延迟、成本及可用性将请求路由至最优 GPU 位置。
- 真实的媒体工作流体现了就近计算的重要性。典型实例包括通过分布式推理实现的 8K VR 直播,以及近实时视频决策(延迟约 35 毫秒)。
构建智能体 Web
常见问题
智能体体验通常依赖于每次会话中数十甚至数百次环环相扣的微推理。即便轻微的延迟也会迅速叠加,导致用户体验变得卡顿且不稳定。
训练属于计算密集型任务,具有突发性特征,且通常按离散周期运行。推理属于连续型任务,由用户交互驱动,每次交互可能涉及多个彼此依赖的调用。
这是一种专为全球规模下实时、分布式及延迟敏感型推理而设计的基础架构方案,其核心在于将高度分布式 GPU 与边缘原生决策逻辑相结合。
集中式 AI 工厂,用于训练、微调和繁重的推理任务或“一次性”推理。
靠近用户的分布式 GPU 层,用于实时、延迟敏感型推理。
边缘路由和安全层,用于在请求到达 GPU 之前评估、保护和路由请求。
它对传入请求进行验证和分类、过滤威胁与爬虫程序、处理 token 安全性和隐私敏感型流量,并根据延迟、成本及可用性将请求路由至最优 GPU 位置。
将 GPU 部署在人口中心附近可以降低延迟、提升并发处理能力并尽可能减少远距离网络传输。这对于实时推理和智能体编排至关重要。
需要实时响应且运行位置靠近用户或数据的工作负载,包括智能体工作流、多模态应用程序,以及具有较高性能要求的媒体/视频智能场景。
Akamai 平台分析表明,延迟增加 10–15 毫秒就会导致关键零售环节的弃购率上升;在使用环环相扣的微推理时,这种负面影响会更加显著。
本白皮书列举了演进的阶段:首先是分布式推理能力的实现,其次是实时多模态智能,最终是完整智能体应用程序的落地,这类应用程序能够自主检索数据、规划任务并与其他智能体开展协作。