Facebook
Facebook

月曜日に発生したFacebookと関連サービスの不具合は、6時間もの長時間にわたってユーザーに不便をもたらしましたが、どうやらその理由はFacebook内部における作業が原因だったようです。サービス復旧後、Facebookはブログ記事を更新して今回の問題がどのようにして発生したのかを説明しています。

Facebookのインフラストラクチャー担当副社長Santosh Janardhan氏によると、この障害は平凡な定期メンテナンス作業が発端だったとのこと。作業員は、Facebookの各拠点を接続するバックボーンネットワークのヘルスチェックをするためのコマンドをいつもどおり発行したつもりでした。ところが、その命令が意図せずにネットワークの接続を落としてしまうことになったとのこと。これはFacebookの内部システムのバグが原因で、コマンドが適切に実行されなかったからでした。

FacebookのDNSサーバーが同社の主要データセンターに接続できなくなると、問題は二次的な問題を引き起こし始めました。インターネット上のネットワークが互いに接続するためのルーティング情報をやりとりするプロトコルBGP(Border Gateway Protocol)の広告(機器間での共有)が停止し、その結果DNSサーバーが稼働しているにもかかわらず、パケットが目的地に到達できない問題が発生。インターネット端末がFacebookのサーバーを見つけることができなくなってしまいました。

問題をさらに厄介にしたのは、障害のせいで修復を試みようとする技術者までが、Facebookのサーバーにアクセスできなくなってしまったことでした。また実質的にDNSが役に立たなくなっているため、必要な社内ツールの多くも使い物にならず、技術者は問題が発生している現地に赴いて作業をしなければなりませんでした。

Janardhan氏は「このような障害はすべてわれわれにとって学び、改善するための機会になります。大小様々な問題が引き起こされたあとは、どうすればシステム復旧を迅速化できるかのレビューを行うことになっており、それはすでに進行しています」と述べ。Facebookは再発防止策を準備するとしています。

Source:Facebook