Störfallmanagement bei Akamai

Zwischenfälle passieren. Trotz strenger Kontrollen kann es immer wieder passieren, dass beim Umgang, der Verarbeitung und Verteilung großer Inhalte innerhalb von Akamai und im Auftrag des Kunden Probleme auftreten. Um in so einem Fall richtig reagieren zu können, haben wir verschiedene Verfahren entwickelt. Die meisten Vorfälle können durch kleinere Eingriffe ins Netzwerk behoben werden.

Störfallmanagement bei Akamai

Unsere erste Verteidigungslinie ist ein widerstandsfähiges Systemdesign, das es Ihrer Software ermöglicht, veränderte Bedingungen und mögliche Fehlerstellen auszugleichen. Wir verfügen über eine Vielzahl an Sensoren, Protokollen und Messungen, die es uns ermöglichen, viele Probleme im Rahmen der normalen Geschäftsabläufe zu beheben, bevor sie sich auf den Kunden auswirken. 

Wenn ein Kundenproblem nicht durch technischen Support im Rahmen der Kundenbetreuung behoben werden kann oder unsere Sensoren ein Problem außerhalb des regulären Betriebs erkennen, liegt ein Störfall vor. Störfälle werden regelmäßig durch die Kooperation von Mitarbeitern in den Bereichen Technik/Systementwicklung, Netzwerkbetrieb und Kundenbetreuung bearbeitet. Im Allgemeinen arbeiten umso mehr Personen an einem Vorfall, je schwerwiegender er ist (wir bewerten Vorfälle von 4 (leicht) bis hin zu 1 (schwerwiegend)). 

Bei allen Vorfällen ist unser Ziel die schnelle Problemlösung. Dabei sorgen wir dafür, dass unsere Kunden stets auf dem neuesten Stand sind und zufrieden bleiben und dass das Netzwerk sicher ist. Zudem konzentrieren wir unsere Arbeiten auf den Störfall und minimieren die Auswirkungen auf den Rest des Unternehmens. 

Wir betrachten unsere Verfahren zum Störfallmanagement als eine Sicherheitsmaßnahme im System von Akamai. Unsere Prüfer sehen das ebenso. 

Normalerweise nehmen Störfälle in Phase eins ihren Anfang. Diese Phase dauert an, bis das aktuelle Problem unter Kontrolle ist. In Phase zwei arbeiten wir daran, das System in den normalen Betriebszustand zurückzuversetzen. Häufig ist die Kundenkommunikation in Phase zwei besonders wichtig. In Phase drei ziehen wir Schlüsse aus dem Vorfall und ergreifen langfristige Maßnahmen für die zukünftige Sicherheit.

Auf allen Sicherheitsebenen gibt es einen Incident Manager, der den Ernst der Lage bewertet und mit anderen kooperiert, die an der Problembehebung arbeiten. Zahlreiche Mitarbeiter erhalten Störfallmanagementschulungen und können sich bei Störfällen freiwillig als Incident Manager melden. 

Tatsächlich gibt es in den meisten technischen Abteilungen im Unternehmen Personen, die dafür geschult sind, einzuspringen und den Störfall in Kooperation mit anderen Abteilungen zu handhaben. Ein solcher abteilungsübergreifender Incident Manager koordiniert ein Projektteam, das nur so lange besteht, bis der Störfall behoben ist. Die Teilnehmer widmen sich für diesen kurzen Zeitraum nicht mehr ihren eigentlichen Hauptaufgaben, sondern konzentrieren sich auf den vorliegenden Störfall. 

Im Folgenden werden die Rollen erklärt, die Mitarbeiter übernehmen, um einen typischen Vorfall zu handhaben. 

  • Der Response Manager ist der Leiter des Teams, das vorübergehend an der Behebung des Störfalls arbeitet. Einzelpersonen konzentrieren sich mehr auf die Kommunikation und erhalten nach Bedarf Hilfe von anderen.
  • Bei einem schwerwiegenden Fall, der die Beteiligung von Mitgliedern des Führungsteams erfordert, sorgt eine weitere Einzelperson dafür, dass das Führungsteam beteiligt bleibt und hilft dabei, Entscheidungen zu finden, die das Unternehmen entscheidend beeinflussen. 
  • Das NOCC (Network Operations Command Center) überwacht das bereitgestellte Netzwerk und bietet dem Response Manager Support in Bezug auf Technik und Kommunikation. 
  • Technische Vorfälle, die sich auf die Kunden auswirken, werden an Mitarbeiter der Kundenserviceabteilung von Akamai eskaliert. Diese sind meistens für die Kundenkommunikation verantwortlich.
  • Fachexperten und technische Führungskräfte des Kundenservice bieten detaillierte technische Informationen und Debugging-Support. Bei einigen schwerwiegenden oder komplexen Vorfällen müssen andere Spezialisten zum Team hinzugezogen werden.
Bei einigen schwerwiegenden oder komplexen Vorfällen müssen andere Spezialisten zum Team hinzugezogen werden.