Gestion Akamai des incidents

Les incidents sont inévitables. En dépit des contrôles rigoureux, des problèmes surgiront immanquablement avec une telle quantité de contenu manipulé, traité et distribué au sein d'Akamai et pour le compte des clients. Pour faire face à cette réalité, l'entreprise a mis en place une série de procédures visant à gérer les incidents au moment où ils se produisent. La plupart des incidents sont résolus par le biais de petites interventions dans le réseau.

Gestion Akamai des incidents

Notre première ligne de défense est la conception d'un système résilient qui permet à nos composants logiciels de s'adapter aux nombreuses conditions changeantes et de corriger les éventuels points de défaillance. Nous utilisons un réseau de capteurs, de journaux et de mesures qui nous permettent de résoudre de nombreux problèmes par le biais de procédures opérationnelles classiques, avant même que le client n'en perçoivent les effets. 

Si le problème d'un client ne peut pas être résolu par l'équipe d'assistance technique du Centre d'assistance clientèle, ou si nos capteurs détectent un problème qui dépasse le cadre de nos opérations classiques, nous signalons la présence d'un incident. Les incidents font habituellement l'objet d'un traitement conjoint qui implique à la fois les équipes chargées de l'ingénierie, du développement système, des opérations réseau et du centre d'assistance clientèle. En règle générale, plus l'incident est grave, la gravité étant évaluée sur une échelle de 4 (faible) à 1 (grave), plus le nombre d'équipes impliquées sera élevé. 

Pour tous les incidents, l'objectif est de résoudre rapidement les problèmes, d'assurer la communication et la satisfaction des clients, de garantir la sécurisation du réseau et de se concentrer sur les tâches qui permettent à la fois de corriger le problème et de minimiser son impact sur le reste de l'entreprise. 

Nous considérons que le processus de résolution des incidents fait partie intégrante des mesures de sécurité du système Akamai. C'est également l'avis des agents de contrôle. 

En principe, un incident commence à la phase 1 et se termine lorsque le problème est résolu. Au cours de la phase 2, notre travail consiste à remettre le système en état de fonctionnement normal. C'est généralement lors de cette phase que la communication à la clientèle est prioritaire. La phase 3 est celle qui consiste à tirer les leçons de l'incident et à prendre des mesures de sécurité à long terme.

Quel que soit le niveau de gravité, le processus de gestion des incidents permet d'évaluer la sévérité d'une situation et d'agir en coordination avec les personnes compétentes pour résoudre le problème. La plupart des employés peuvent recevoir la formation de gestion des incidents et, le cas échéant, se proposer pour occuper le poste de gestionnaire d'un incident spécifique. 

En fait, la plupart des services techniques de l'entreprise sont constitués de spécialistes qui sont formés pour intervenir et gérer les incidents conjointement avec les autres services. Cette gestion interdisciplinaire des incidents assure la coordination d'une équipe de projet éphémère formée en cas de besoin et démantelée une fois le problème résolu. Les membres de cette équipe abandonneront temporairement leurs tâches en cours pour se concentrer sur l'incident. 

Les rôles attribués aux employés pour faire face à un incident sont les suivants. 

  • Le gestionnaire d'intervention dirige l'équipe temporaire de travail chargée de la résolution de l'incident. Il agit principalement en tant qu'agent de contact et devra recevoir l'aide indispensable à la résolution de l'incident.
  • Dans le cas d'un incident grave nécessitant la participation des membres de l'équipe de direction, un agent sera chargé d'assurer l'implication de cette équipe et de guider les décisions susceptibles d'affecter l'entreprise. 
  • Le NOCC (Network Operation Command Center) surveille le réseau déployé et fournit au gestionnaire d'intervention les services requis en matière de communication et de soutien technique. 
  • Un membre du service client d'Akamai est chargé de la réception des données répertoriant l'escalade des incidents techniques et leur impact sur la clientèle. Il est chargé des communications avec les clients en matière d'incidents.
  • Des experts spécialisés et des responsables du service technique à la clientèle fournissent des informations techniques détaillées et assurent la prise en charge du débogage. Dans certains cas d'incidents plus graves ou plus complexes, d'autres spécialistes devront rejoindre l'équipe.
Dans certains cas d'incidents plus graves ou plus complexes, d'autres spécialistes devront rejoindre l'équipe.