Gestione degli incidenti in Akamai

Gli incidenti accadono. Nonostante i controlli rigidi, è inevitabile che insorgano problemi quando deve essere gestita, elaborata e distribuita una mole tanto ampia di contenuti all'interno di Akamai e per conto dei clienti. Per affrontare questa realtà, l'azienda ha una serie di procedure per la gestione degli incidenti da attivare non appena questi si verificano. Gran parte degli incidenti si risolve grazie a piccoli interventi in rete.

Gestione degli incidenti in Akamai

La nostra prima linea di difesa è un progetto di sistema flessibile che consente al nostro software di compensare le molteplici mutevoli condizioni e i possibili punti di malfunzionamento. Gestiamo una serie di sensori, registri e misurazioni che ci consente di risolvere molti problemi attraverso normali procedure operative affinché il cliente possa vederne gli effetti. 

Se un problema del cliente non può essere risolto dall'assistenza tecnica nell'ambito del Customer Care o sei i nostri sensori rilevano un problema al di fuori delle normali operazioni, dichiariamo un incidente. Gli incidenti vengono generalmente gestiti tramite un'azione cooperativa tra il personale di engineering/systems development, network operations e Customer Care. In generale, maggiore è la gravità dell'incidente (con classificazione da 4 (lieve) a 1 (grave)), maggiore è il numero di persone coinvolte nello risoluzione dello stesso. 

In tutti gli incidenti, l'obiettivo è la risoluzione del problema, tenendo i clienti informati e soddisfatti, assicurando la sicurezza della rete e concentrando il lavoro di coloro che lavora sull'incidente, minimizzando al contempo l'impatto sul resto della società. 

Consideriamo il processo di incidente come una delle misure di sicurezza del sistema Akamai. Lo stesso fanno i nostri revisori. 

Gli incidenti iniziano normalmente nella fase uno, che dura finché il problema immediato non è sotto controllo. Nella fase due, lavoriamo per riportare il sistema al funzionamento normale. Spesso, nella fase due, la comunicazione con il cliente costituisce un elemento centrale. La fase tre riguarda ciò che apprendiamo dall'incidente e l'adozione di misure a più lungo termine per la sicurezza futura.

Per tutti i livelli di gravità abbiamo a disposizione un ruolo di Incident Manager per la valutazione della gravità della situazione e il coordinamento con gli altri che lavorano sul problema. Molti dipendenti possono ricevere formazione sulla gestione degli incidenti e possono offrirsi volontari come incident manager all'insorgere di un problema. 

Infatti, la maggior parte dei reparti tecnici della società dispone di persone addestrate a intervenire e gestire l'incidente con gli altri reparti. Questo manager d'incidente a discipline incrociate coordina un team di progetto a breve termine che forma quando necessario e successivamente lo scioglie. I partecipanti accantonano temporaneamente i propri compiti principali per concentrarsi sull'incidente alla mano. 

Di seguito è riportata una suddivisione dei ruoli che i dipendenti assumono per gestire un tipico incidente. 

  • Il manager di risposta gestisce il team temporaneo che lavora alla risoluzione dell'incidente. Nella comunicazione, l'individuo riveste un ruolo centrale e si prevede che riceva assistenza da altri secondo necessità.
  • In caso di incidente grave che richieda il coinvolgimento di membri del team dirigenziale, un'altra persona mantiene coinvolto il team dirigenziale e aiuta a pilotare le decisioni che interessano ampiamente il business. 
  • Il Network Operations Command Center (NOCC) controlla la rete implementata e fornisce supporto tecnico e di comunicazioni al manager di risposta. 
  • Una persona del reparto del servizio ai clienti di Akamai riceve un'escalation degli incidenti tecnici che hanno impatto sul cliente. Avrà la responsabilità delle comunicazioni con il cliente nella maggior parte degli incidenti.
  • Esperti nell'argomento e responsabili del servizio tecnico forniscono informazioni tecniche dettagliate e supporto di debug. Per alcuni incidenti più gravi o complessi occorrono altri specialisti nel team.
Per alcuni incidenti più gravi o complessi occorrono altri specialisti nel team.