Akamai 的事件管理

总会有各种事件发生。尽管有着强大的控制,但 Akamai 内部以及代表客户处理和分发的内容如此之多,总是不可避免地出现一些问题。为应对这一情况,公司制定了一系列规程来管理所发生的事件。大多数事件在对网络产生极小干扰的情况下就得到了解决。

Akamai 的事件管理

我们的第一道防线是灵活的系统设计,它能使我们的软件弥补许多不断变化的情况和可能的故障点。我们对一组传感器、日志和测量进行维护,能够在客户可以看到它们的作用之前,使我们通过正常运行的程序解决诸多问题。 

当 Customer Care 的技术支持人员无法解决客户的问题时,或当我们的传感器检测到异常运行的故障时,我们会宣布发生了事件。工程/系统开发、网络运营和 Customer Care 人员之间相互合作,定期处理事件。一般来说,事件越严重(我们将它们分为从 4(轻微)到 1(严重)的四个等级),就会有越多的人员参与进来。 

在所有事件中,目标是快速解决问题,让客户知情和满意,确保网络安全,关注与事件相关的工作,同时尽量减少对公司其他部门的影响。 

我们将我们的事件流程视为 Akamai 系统上的安全措施之一。我们的审计员也是如此。 

事件通常始于第一阶段,一直持续到最迫切的问题得到控制为止。在第二阶段,我们致力于将系统恢复到正常运行状态。通常,客户沟通是第二阶段的一个重点。在第三阶段,我们从事件中吸取教训并采取长期措施来确保未来的安全。

对于所有严重性级别,我们目前设有 Incident Manager 一职,以评估情况的严重性并与其他处理问题的人员协调。很多员工都会接受事件管理培训,并可以在出现问题时志愿担任 Incident Manager。 

实际上,公司的大部分技术部门都有受过培训以干预和管理其他部门事件的员工。此跨专业的 Incident Manager 对在需要时成立然后解散的短期项目团队进行协调。参与者需暂时抛开他们的主要职责,并重点关注手头的事件。 

下面详细介绍了在处理典型事件时员工所担任的角色。 

  • Response Manager 领导临时团队致力于事件的解决。该角色主要负责沟通,并期望在需要时得到他人的帮助。
  • 在需要高管团队成员参与的严重事件中,其他人员应保持高管团队的参与,并帮助指导做出广泛影响企业的决策。 
  • Network Operations Command Center (NOCC) 监控所部署的网络,并为 Response Manager 提供技术和通信支持。 
  • Akamai 客户服务部的员工收到对客户有影响的技术事件上报。他们负责在大部分事件中与客户进行沟通。
  • 主题专家和客户服务技术负责人提供详细的技术信息和调试支持。一些更严重或更复杂的事件需要其他专家加入团队。
一些更严重或更复杂的事件需要其他专家加入团队。