Was ist die 3-Schichten-Architektur, die im Whitepaper beschrieben wird?

1. Zentralisierte KI-Fabriken für Training, Feinabstimmung und komplexe oder „One-Shot“-Inferenz. 2. Eine verteilte GPU-Schicht in der Nähe von Nutzern für latenzempfindliche Inferenzen in Echtzeit. 3. Eine Edge-Routing- und -Sicherheitsebene, um Anfragen zu bewerten, zu sichern und weiterzuleiten, bevor sie GPUs erreichen.

Architektur des agentischen Internet

Wichtige Erkenntnisse:

Agentische Anwendungen sind latenzgebunden. Wenn die Ergebnisse von Dutzenden oder Hunderten von verketteten Mikroinferenzen abhängen, führen kleine Verzögerungen zu inkohärenten Nutzererlebnissen.
Latenz hat messbare geschäftliche Auswirkungen. Akamai-Analysen zeigen, dass bereits 10–15 ms zusätzliche Verzögerung die Abbruchrate bei kritischen Einzelhandelsvorgängen erhöhen kann.
Inferenz löst Training als dominierende KI-Workload ab. Inferenz ist kontinuierlich und eng mit Nutzerinteraktionen verbunden, während das Training unregelmäßig und zyklisch verläuft.
Die Akamai Inference Cloud verwendet eine 3-Schichten-Architektur. Zentralisierte KI-Fabriken für Training und komplexe Inferenz, verteilte GPUs für Echtzeitinferenz in der Nähe von Nutzern und eine Edge-Routing- und -Sicherheitsebene zur Auswertung, Sicherung und Weiterleitung von Anfragen.
Verteilte GPUs reduzieren lange Roundtrips und verbessern den gleichzeitigen Zugriff. Computing in der Nähe ermöglicht Reaktionsschnelligkeit auf Millisekundenebebe für latenzempfindliche Inferenz.
Die Edge-Routing- und -Sicherheitsebene schützt teure GPU-Kapazität. Sie validiert und klassifiziert Anfragen, filtert Bedrohungen und Bots und führt Weiterleitungen an den optimalen GPU-Standort basierend auf Latenz, Kosten und Verfügbarkeit durch.
Medien-Workflows aus der Praxis demonstrieren, warum Nähe wichtig ist. Beispiele hierfür sind Entscheidungen zu VR-Übertragungen in 8K und Videos in nahezu Echtzeit (ca. 35 ms), die durch verteilte Inferenz ermöglicht werden.
Architektur des agentischen Internet

Leider unterstützt der Browser/das Betriebssystem, von dem aus Sie auf diese Seite zugreifen, diese Funktionalität nicht. Sie können auf das PDF zugreifen here

Häufig gestellte Fragen (FAQ)

Das agentische Internet ist eine Verlagerung von statischen Erlebnissen (klicken, abrufen, rendern) hin zu Anwendungen, in denen intelligente Agenten Informationen abrufen, mehrstufige Workflows planen, Aktionen ausführen und mit anderen Agenten zusammenarbeiten, um Ergebnisse zu liefern.

Agentische Erlebnisse sind pro Sitzung oft von Dutzenden oder Hunderten von verketteten Mikroinferenzen abhängig. Selbst kleine Verzögerungen summieren sich und machen die Erlebnisse langsam und inkohärent.

Das Training ist rechnerisch intensiv und unregelmäßig. Es wird üblicherweise in diskreten Zyklen durchgeführt. Die Inferenz ist kontinuierlich, wird durch Nutzerinteraktionen gesteuert und kann mehrere abhängige Anrufe pro Interaktion umfassen.

Dabei handelt es sich um einen Infrastrukturansatz, der für verteilte, latenzsensitive Inferenzen in Echtzeit auf globaler Ebene entwickelt wurde. Dabei werden stark verteilte GPUs in Kombination mit edgenativer Entscheidungsfindung verwendet.

Zentralisierte KI-Fabriken für Training, Feinabstimmung und komplexe oder „One-Shot“-Inferenz.
Eine verteilte GPU-Schicht in der Nähe von Nutzern für latenzempfindliche Inferenzen in Echtzeit.
Eine Edge-Routing- und -Sicherheitsebene, um Anfragen zu bewerten, zu sichern und weiterzuleiten, bevor sie GPUs erreichen.

Sie validiert und klassifiziert eingehende Anfragen, filtert Bedrohungen und Bots, verarbeitet Tokensicherheit und datenschutzsensiblen Traffic und leitet Anfragen basierend auf Latenz, Kosten und Verfügbarkeit an den besten GPU-Standort weiter.

Die Platzierung von GPUs in der Nähe von Bevölkerungszentren reduziert die Latenzzeit, erhöht die Parallelität und minimiert lange Netzwerkstrecken, was für die Inferenz und agentische Orchestrierung in Echtzeit entscheidend ist.

Workloads, die Reaktionsfähigkeit in Echtzeit erfordern und in der Nähe von Nutzern oder Daten laufen müssen, einschließlich agentischer Workflows, multimodaler Anwendungen und anspruchsvoller Medien-/Video-Informationsszenarien.

Plattformanalysen von Akamai deuten darauf hin, dass bereits eine zusätzliche Verzögerung von 10 bis 15 ms bei kritischen Abläufen im Einzelhandel zu einer höheren Abbruchrate führen kann, die bei der Verkettung von Mikroinferenzen noch deutlicher wird.

Es umreißt Phasen: Zuerst die Aktivierung verteilter Inferenz, dann multimodale Echtzeit-Intelligenz, dann vollständig agentische Anwendungen, die Daten abrufen, Aufgaben planen und mit anderen Agenten zusammenarbeiten können.

Akamai Cloud

Akamai Security

Unsere globale Infrastruktur

Architektur des agentischen Internet

Wichtige Erkenntnisse:

Häufig gestellte Fragen (FAQ)

Was ist das „agentische Internet“?

Warum erfordert agentische KI eine extrem niedrige Latenz?

Inwiefern unterscheidet sich die Inferenz vom Training?

Was ist die Akamai Inference Cloud?

Was ist die 3-Schichten-Architektur, die im Whitepaper beschrieben wird?

Welche Funktionen haben Edge-Routing- und -Sicherheitsebene für KI-Inferenzen?

Warum sollten GPUs geografisch verteilt werden, anstatt sich auf zentralisierte Cloudregionen zu verlassen?

Welche Arten von Workloads profitieren am meisten von verteilter Inferenz?

Welche geschäftlichen Auswirkungen haben geringfügige Latenzsteigerungen?

Wie beschreibt das Whitepaper die Entwicklung zu agentischen Anwendungen?