Akamai でのインシデント管理

インシデントは発生します。強力な管理体制を敷いていても、お客様の膨大なコンテンツを処理して配信する Akamai の環境においては、問題が発生することは避けられません。この現実に対処するため、Akamai ではインシデントを管理するための一連の手順を整備しています。多くのインシデントは、ネットワーク内での小規模な対応によって解決されます。

Akamai でのインシデント管理

防御の最前線は、多くの状態変化および障害が発生しうる箇所にソフトウェアで対処できるようにシステム設計に弾力性を持たせることです。 通常の操作手順で多くの問題に対処して、カスタマーが問題の影響を実際に目にすることがないように、多数のセンサー、ログ、および測定機器を保守しています。 

カスタマーの問題をカスタマーケア内の技術サポートでは解決できないときや、センサーが通常の操作外で問題を検出したときは、それをインシデントとして扱います。 インシデントは、エンジニアリング/システム開発、ネットワーク運用、カスタマーケアの各担当者が協力して定期的に対処します。 一般に、インシデントの重大性が高くなると(4(軽度)から 1(重大)までの等級を付与しています)、そのインシデントに関与する人の数が多くなります。 

すべてのインシデントにおいて、目標は、速やかに問題を解決し、顧客への情報開示と満足度を維持することです。そのためには、ネットワークの安全性を確保し、社内の他の業務への影響を最小化すると同時に、担当部門の作業をインシデントに集中させます。 

Akamai では、インシデントプロセスを Akamai システムのセキュリティ対策のひとつと見なしています。 監査役も同様です。 

インシデントは通常フェーズ 1 で始まり、当面の問題が制御されるまでこのフェーズが続きます。 フェーズ 2 では、システムを通常の動作に戻します。 多くの場合、カスタマーとのコミュニケーションがフェーズ 2 の中心となります。 フェーズ 3 では、インシデントから学習し、将来の安全のために長期的な対策を講じます。

どの重大度レベルでも、常にインシデントマネージャーという役割を用意して、状況の重大度を評価し、問題の解決にあたる他の担当者との調整を図ります。 社員の多くは、インシデント管理トレーニングを受講でき、問題が発生したときにインシデントマネージャーの役割に志願できます。 

実際、社内の技術部門のほとんどにトレーニングに参加した社員がいて、他の部門で発生したインシデントを管理しています。 必要に応じて編成し、その後解散する一時的なプロジェクトチームを設置したときには、この学際的なインシデントマネージャーがチームの調整にあたります。 参加者は、一時的に主要業務から離れて、当面のインシデントに集中します。 

次に、典型的なインシデントに対処する場合に社員が引き受ける役割について説明します。 

  • レスポンスマネージャーが、インシデントの解決にあたる一時的なチームのリーダーになります。 主にコミュニケーションの中心となり、必要に応じてチーム外からの支援を受けます。
  • 経営陣のメンバーの関与を必要とする重大なインシデントでは、別の担当者が経営陣の関与に携わり、事業の広範囲に影響を与える意思決定を導くように支援します。 
  • Network Operations Command Center(NOCC)は、展開されたネットワークを監視し、技術面および通信面のサポートをレスポンスマネージャーに提供します。 
  • Akamai のカスタマーサービス部門の担当者が、カスタマーに影響を与えた技術インシデントのエスカレーションを引き継ぎます。 担当者は、ほとんどのインシデントでカスタマーとのコミュニケーションを図ります。
  • 各分野の専門家およびカスタマーサービスの技術リーダーが、詳細な技術情報およびデバッグのサポートを提供します。 重大性の高いインシデントや複雑なインシデントによっては、他のスペシャリストがチームに参加することが必要になる場合もあります。
重大性の高いインシデントや複雑なインシデントによっては、他のスペシャリストがチームに参加することが必要になる場合もあります。