JALウェブサイト 接続障害 アクセス集中でキャンペーン中止発表
コメント
注目のコメント
リクエスト増を簡単に復旧できないという事はサーバを並べれば良いという問題ではなさそう。実装方法が悪くてパフォーマンスが出ないのかな?
パフォーマンスが出ないとサーバをいくら足していっても直ぐにworkerが埋まってしまうとか、DBが応答できない状態は変わらないとかで簡単には復旧できません。
なので下手くそなコードを書かないというのは割と重要。知らない間にこんなことに・・・。現場で対応している方々はお疲れ様です。
16:54 時点でもサイトを正常に利用できないみたいですね。昨日のお昼からずっと接続できないということは、データベースに何か不整合などが発生して復旧に時間がかかっているのでしょうか。それとも転売目的のトラフィックが止まず、ずっと高負荷な状態でオープンできないだけなのでしょうか。後者ならキャンペーンの中止によってアクセスが落ち着いて自然復旧しそうですが、中止判断まで丸一日以上かかってしまっているのは経営判断が問われそうです。
いずれにせよ、スケーラビリティを担保できないシステムになっていた点も当然指摘されるでしょうし、キャンペーン前に負荷テストなど事前のキャパシティプランニングが出来ていたのかも気になりますね。ビジネス側とシステム側で連携が取れておらず、見切り発車でキャンペーンを実行したのだとしたら、その判断も問題になりそうです。事前に、需要を予測(事業計画)していたとして、3つの点で気になります
①サーバーが落ちたのはその需要を上回ったからなのか?
②需要を上回らずサーバー能力を見誤ったからなのか?
③キャンペーンという一時的な仕組が、通常チケット購入という継続的な仕組へ影響する可能性を、どれだけ考慮していたのか?
いずれにせよ、ビジネスサイドとエンジニアサイドの連携が足りなかったのかもしれませんね。