今日のオリジナル番組


詳細を確認
タブーに切り込め!ここがおかしい「日本の保険」
本日配信
198Picks
Pick に失敗しました

選択しているユーザー
BGPでやらかしたら確かに数時間は戻りませんよね。
小さいネットワークと違ってみんな自律的に動いてるからコントロールしきれないですもんね。
構成管理さえしてれば即座に戻せるわけではないので仕方ない。

基本無料ですし「ご苦労様、いつもありがとう」ですよね。
広告主は怒って良いかもですが。
人気 Picker
かなり神経削られる事態だったんだろうな。現場の方おつかれさまでした。
米国時間日中に発生したサービス停止による経済ロスは大きい。弊社サービスも、広告が止まったのみならず、ユーザさんがFacebook登録・ログインをできなかった。また弊社コンテンツクリエイターとの連絡業務(インスタグラムメッセージを使用)も停止した。Facebook社の株価は5%下落し、マークザッカーバーグの資産は6,000億円下がったとのこと。

原因となるルーターの設定(Configuration)は、サーバ全体に影響する重要な仕組みにも関わらず、事前テスト項目から漏れることが多い。またテスト環境では問題なく進むなど、テストもしづらい仕組みでもある。今後このようなことが起きないようどう対策をとるのか大変興味深い。

復旧目処がついた時点でマークザッカーバーグが、自身のFacebookに数行でごめんね、と言った内容を記載していたところが米国らしい文化だなあ、、と感じた。
Facebookのブログが更新され、今朝の障害の原因は「データセンター間のネットワークトラフィックを調整するバックボーンルーターの設定が変更されたこと」だったそうです
NWについてはCCNA程度の知識なので、この少ない情報の補足程度に説明です。

一般的なデータセンター構成ですと、インターネットからくる通信がAS境界ルーターに流れ、その配下にあるバックボーンルーターが適切な場所に通信を振り分けます。

https://xtech.nikkei.com/it/article/COLUMN/20100824/351396/

これらはNW的に設計をするもので、DCの規模などが大きくなると動的に変更をする必要がありますね(流れてくるトラフィック量が増えるため)

FaceBookのBlogを読む限り、障害箇所だけ指定しているため、何が起こったかは定かではありません。(一部の方がConfigと書かれていますが、今回の障害が構成変更とあるので、バックボーンルーターの機器入れ替えや、増設、プロトコルでのチューニングなども考えられるので、Configとよばれる設計図を古いものにすれば解決するかどうかのレベルではないかもしれません)

https://engineering.fb.com/2021/10/04/networking-traffic/outage/

弊社でもそうですが、バックボーンルーターの構成変更は、念入りな検討、検証を行って、そのうえさらに不測の事態に備えてrevert(元の構成に戻すこと)なども準備したりします。

ちなみにバックボーンルーターはそうそう実物を見られることはISPやサービスプロバイダなどでしかないともいます。
こんな機器なのでご興味があればリンク先をご覧ください。(ちょっと想像されているものと違って面白いと思います)
https://cloud.watch.impress.co.jp/img/clw/docs/1064/660/html/interop07-00.jpg.html
すぐに原因がわかって良かったと思います。
Facebookはアラフォー以上に、インスタは魅せたい人に欠かせられないライフラインみたいなものなので、多くの人がドキドキしたかもしれないけれど、復旧も早くて良かったと思うよ。
ちなみに僕のSNSの主戦場はTwitter。不具合が起こったらかなり焦ります。たくさんフォローいただきたいところですが、まずはNews picksでよろしくお願いします。