2021年10月5日、インスタグラムやフェイスブック、ワッツアップなど、フェイスブックのあらゆるサービスがダウンし、世間を騒がせた。読者のなかには、サービスを利用できなくて、困った人も多いのではないだろうか。なぜ、サービスに障害が起こったのか。

今回は、フェイスブックのエンジニアリングやインフラの担当バイスプレジデントであるSantosh Janardhan氏が分かりやすく解説した内容について紹介しよう。

データセンターをつなぐ、重要なネットワークがダウン

フェイスブックが6時間もダウンした理由を幹部が説明、その内容や原因とは?
(画像=バックボーンはすべてのサービスを根本から支えるネットワーク、『オトナライフ』より 引用)

 同氏の発表によると、今回の障害は基幹回線の容量を管理する「バックボーン」に起因しているとのこと。ユーザーがフェイスブックのアプリでやりとりするデータは、すべてこのバックボーンネットワークを介してフェイスブックのデータセンターで処理される。しかしそんなバックボーンに障害が起きたことで、ユーザーがアクセスできない事態が発生したようだ。

 この障害の直接的な原因は、バックボーンネットワークのメンテナンス中に発生したものだという。メンテナンス作業をしていたフェイスブックの技術者が、グローバルなバックボーンネットワークの容量の可用性をチェックするためのコマンドを発信。この時、バックボーンネットワークのあらゆる接続が停止してしまい、フェイスブックにおける全世界のデータセンター網が切断されてしまったとのこと。フェイスブックではこうした事態を防ぐために、ネットワーク全体に影響が出るようなコマンドを監視するツールを使っているのだが、このツールがバグで機能しなかったため、コマンドをストップさせることはできなかったようだ。