Akamai의 인시던트 관리

사고는 어쩔 수 없이 일어나기 마련입니다. 강력히 통제해도 Akamai 내부에서 그리고 고객을 대행하여 너무 많은 양의 콘텐츠를 취급, 처리 및 배포하다 보니 어느 정도 문제가 발생할 수밖에 없습니다. 이러한 현실에 대처하기 위해 인시던트가 발생할 경우 이를 관리하는 일련의 과정을 마련했습니다. 대부분의 인시던트는 네트워크 내에서 간단히 개입함으로써 해결할 수 있습니다.

Akamai의 인시던트 관리

당사의 최초 방어선은 소프트웨어에서 수시로 바뀌는 많은 조건과 취약한 장애지점을 보완할 수 있도록 해주는 탄력적인 시스템 설계입니다. 당사는 고객에게 영향이 있기 전에 일상적인 운영 절차를 통해 많은 문제를 해결할 수 있도록 해주는 센서, 로그 및 측정 정보 모음을 유지 관리하고 있습니다. 

고객 관리 팀의 기술 지원으로 고객의 문제를 해결하지 못하거나 센서에 일상 작업 범주를 벗어난 문제가 감지될 경우 인시턴트가 선포됩니다. 이렇게 선포된 인시던트는 엔지니어링/시스템 개발, 네트워크 운영 및 고객 관리 팀 직원의 협력을 통해 정기적으로 해결됩니다. 일반적으로 인시던트가 심각할수록(4등급(경미)부터 1등급(심각)까지 있습니다) 해결을 위해 투입되는 인력의 수가 많아집니다. 

모든 인시던트에서 목표는 기업의 나머지 부분에 미치는 영향을 최소화하면서 고객에게 정확한 정보를 제공해 만족시키고, 네트워크를 안전하게 유지하고, 인시던트 해결에 업무를 집중함으로써 문제를 빠르게 해결하는 것입니다. 

우리는 인시던트 프로세스를 Akamai 시스템에 취해지는 보안 조치 중 하나로 봅니다. 감사관들도 마찬가지입니다. 

인시던트는 일반적으로 1단계에서 시작해 임박한 문제가 통제될 때까지 지속됩니다. 2단계에서는 시스템을 정상화하기 위해 노력합니다. 2단계에서는 고객과의 의사소통이 중시는 경우가 많습니다. 3단계에서는 해결된 인시턴트에서 교훈을 얻고 향후 안전을 위한 장기적인 조치를 취하게 됩니다.

모든 심각도 레벨마다 인시던트 관리자를 배정해 상황의 심각도를 평가하고 문제 해결에 투입된 기타 인력들과 협력하도록 합니다. 직원 대부분은 인시던트 관리 교육을 받고 문제가 발생하면 인시던트 관리자로 자원할 수 있습니다. 

사실, 당사 기술 부서 대부분에는 다른 부서와 함께 인시던트에 투입되어 이를 관리할 수 있도록 교육받은 직원들이 있습니다. 다방면에 능통한 이 인시던트 관리자들은 필요에 따라 조직되었다가 해체되는 단기 프로젝트 팀을 주관하게 됩니다. 이 팀에 투입된 직원들은 주 업무를 잠시 제쳐 두고 당면 인시던트에 주력합니다. 

다음은 일반적인 인시턴트 해결 시 직원들이 맡게 되는 역할을 자세히 보여줍니다. 

  • 응답 관리자는 인시턴트 해결을 위해 조직된 임시 팀을 이끕니다. 주로 각 직원들에게 지침이 전달되며 필요한 경우 다른 사람들로부터 지원을 받을 수 있습니다.
  • 임원진의 개입이 필요한 심각한 인시던트에서는 임원진의 개입을 관리하고 기업 전체에 널리 영향을 미치는 결정을 내릴 때 도움을 주는 사람이 한 명 더 배정됩니다. 
  • NOCC(Network Operations Command Center)는 배포된 네트워크를 모니터링하고 응답 관리자에게 기술 및 의사소통을 위한 지원을 제공합니다. 
  • Akamai 고객 서비스 부서의 직원에게 고객에게 영향을 미치는 기술적 인시던트가 단계적으로 확장된 내용이 전달됩니다. 이들은 대부분의 인시던트에서 고객과의 의사소통을 담당합니다.
  • 해당 주제의 전문가와 고객 서비스 기술 책임자들은 자세한 기술 정보와 디버깅 지원을 제공합니다. 더 심각하거나 복잡한 일부 인시던트의 경우 다른 전문가들도 팀에 합류해야 합니다.
더 심각하거나 복잡한 일부 인시던트의 경우 다른 전문가들도 팀에 합류해야 합니다.