4月16日から約3日間続いたメール通信障害について、KDDI が調査結果を発表しました。

先週の au メール障害では、4月16日の朝から最大288万人が Eメール(リアルタイム受信設定)を利用できなくなり、au がサーバ復旧宣言をしたのちも、多数のユーザー(最大127万人)にとってサービスが利用しづらい・できない状態や、連絡先・カレンダーなどが表示されない状況が続きました。

KDDIの発表によると、今回の問題は3つの事象からなり、それぞれ人為的なミス・ハードウェア障害・障害発生時の対策不足といった要素が複合的に起こり連鎖した結果発生したもの。

リンク先の発表文PDFでは約11ページにわたって問題発生の状況と原因を説明していますが、無理やり一行で説明すれば、「メールサーバ設備のバージョンアップの際に手順を誤ったうえに、ハードウェア障害で問題が発生した。冗長化など対策はあったが、実際には不十分かつ対応が不適切で過負荷が続いた」。


もう少し長く書くと:

・そもそものきっかけは、問題が起きた「Eメールリアルタイム送受信システム」に新機能を追加するため、バージョンアップを試みたこと。

・バージョンアップ作業中にもサービスを継続するため、ユーザ認証サーバ(マスタと冗長化レプリカ) やプロキシサーバなどの設備を現行とは別にもう一組用意し、バージョンアップ後に切り替える手順だった。


・しかしバージョンアップの作業中、手順書の記載ミスから誤ったコマンドを入力してしまい、新旧ユーザ認証サーバで接続の取り違えが発生し、ユーザ情報が一部欠損した (これが上記の事象1。16日0時35分から約1時間継続。現行サーバのマスタとレプリカで不一致が生じた。この時点での影響は約200人)。

・事象1は正常な新ユーザ認証サーバに切り替えることで解消し、バージョンアップ作業を続行。

・しかし予期せぬタイムアウトエラーが発生したため、現行サーバへの切り戻しを判断。

・しかし切り戻し作業中、新ユーザ認証サーバ(レプリカ)の冗長化された片系にハードウェア障害が発生もう片方も過負荷で両系ともダウン。Eメール送受信が不能に。(16日朝8時からの事象2。最大288万人に影響。最初に発表された障害)。冗長にはしていても二重障害時の対策は不十分だった。

・落ちた新ユーザ認証サーバから現行ユーザ認証サーバに接続を変更するため、メールBOXサーバを再起動。auはこの16日13時29分に再起動が完了したことで、「(サーバ障害は)復旧しました。障害は約5時間続きました」と発表。

・しかし再起動手順の考慮が足りず、障害発生中に中継サーバに溜まっていた受信メールもあり、メールBOXサーバ 62台中24台で高負荷が継続。利用しづらい状態に。 (事象3。最大127万人)。

・サーバへの流量制御などにより、4月19日2時54分に復旧。



KDDIではそれぞれの事象について、手順の見直しや検証試験内容の見直し、社内および第三者レビュー、さらに社内全システムへの適用など対策をリストアップし、それぞれに完了時期を挙げて作業を開始しています。たとえば「社内の全システムディスク処理能力の見直し」は5月末、二重障害時でも対応できるストレージの増強、負荷対策は8月末など。