Gerenciamento de Incidentes na Akamai

Incidentes acontecem. Apesar dos fortes controles, é inevitável que surjam problemas quando muito conteúdo é tratado, processado e distribuído dentro da Akamai e em nome dos clientes. Para lidar com essa realidade, a empresa possui um conjunto de procedimentos para gerenciar incidentes conforme se materializam. A maioria dos incidentes é resolvida com pequenas intervenções na rede.

Gerenciamento de Incidentes na Akamai

A nossa primeira linha de defesa é um design de sistema resistente que permite ao nosso software compensar diversas condições de mudanças e possíveis pontos de falha. Mantemos uma matriz de sensores, registros e medidas que nos permitem abordar vários problemas através de procedimentos operacionais normais antes que o cliente possa observar seus efeitos. 

Quando um problema do cliente não pode ser resolvido pelo suporte técnico no atendimento ao cliente ou quando os nossos sensores detectam um problema fora das operações normais, declaramos um incidente. Os incidentes são regularmente tratados pelo esforço cooperativo entre desenvolvimento de engenharia/sistemas, operações de rede e equipe de atendimento ao cliente. Em geral, quanto mais grave o incidente (classificação de 4 (leve) a 1 (grave)), mais pessoas estarão envolvidas para solucioná-lo. 

Em todos os incidentes, o objetivo é a resolução rápida de problemas, mantendo os clientes informados e satisfeitos, garantindo que a rede seja segura e focando no trabalho dos envolvidos no incidente enquanto o impacto sobre o restante da empresa é minimizado. 

Consideramos nosso processo de incidentes uma das medidas de segurança do sistema da Akamai. E nossos auditores também. 

Incidentes normalmente são iniciados na fase, que dura até o problema imediato ser controlado. Na fase dois, nós trabalhamos para retornar o sistema à operação normal. Muitas vezes, a comunicação com o cliente é um foco na fase dois. A fase três é quando tomamos conhecimento do incidente e tomamos medidas a longo prazo para segurança futura.

Para todos os níveis de gravidade, temos uma função de Gerente de Incidentes para avaliar a gravidade de uma situação e cooperar com as outras pessoas trabalhando no problema. Muitos funcionários podem receber treinamento de gerenciamento de incidentes e podem se voluntariar como um gerente de incidente quando um problema surge. 

Na realidade, a maioria dos serviços técnicos na empresa conta com pessoas treinadas para intervir e gerenciar o incidente com os outros departamentos. Esse gerente de incidentes interdisciplinar coordena uma equipe de projetos que é formada quando necessário e, depois, dissolvida. Os participantes deixam suas principais funções temporariamente de lado para focar no incidente. 

A seguir estão algumas das funções realizadas pelos funcionários para lidar com um incidente típico. 

  • O gerente de resposta lidera a equipe temporária que trabalha na resolução do incidente. O indivíduo é, essencialmente, um foco para comunicação, e a expectativa é que ele receba ajuda de terceiros quando necessário.
  • Em caso de um grave incidente que requer envolvimento de membros da equipe executiva, outro indivíduo mantém a equipe executiva envolvida e ajuda a orientar decisões que afetam amplamente os negócios. 
  • O Centro de Comandos de Operações de Rede (NOCC) monitora a rede implantada e fornece suporte técnico e de comunicações ao gerente de resposta. 
  • Um indivíduo do departamento de atendimento ao cliente da Akamai recebe um encaminhamento de incidentes técnicos que têm impacto sobre os clientes. Eles são responsáveis pelas comunicações com os clientes na maioria dos incidentes.
  • Especialistas no assunto e líderes técnicos de atendimento ao cliente fornecem informações técnicas detalhadas e suporte à depuração. Alguns incidentes mais graves ou complexos exigem a inclusão de outros especialistas à equipe.
Alguns incidentes mais graves ou complexos exigem a inclusão de outros especialistas à equipe.