新着Pick
285Picks
Pick に失敗しました

人気 Picker
最近、PCの温度上昇とモーター音の大きさが個人でも気になっており電源のオンオフは気をつけてましたが、、、

AWSサーバーの障害原因も過熱とは。
なかなかアナログな話。原因が分かるのが一番。再発防止とユーザーのリスクヘッジをどうするか冷静に検討ですね。
AWSとしてはSLAを定めてその範囲内で稼働はしているから、賠償等は一切発生しません。
クラウドと言ったって物理的サーバであることは変わりなく、うちも時々インスタンスが落ちていて問い合わせると故障だったりすることがあります。経年で壊れることも当然ある。
まぁ仕方ない。AWS側も、今回のトラブルで物理サーバの耐用年数が下がって手痛いことには違いないでしょう。
今のクラウド・サービスシステムを支えるデータセンターは、盤石の保守体制をしいていますが、それでも、このようなことは起こります。

今後、5Gなどの展開により、より一層、処理がクラウド・サービス側にシフトした場合に、こういったことが起こると、インフラが麻痺状態になります。

そう考えると、自動運転を含む、いろいろなシステムは「クラウド・サービスなし」となった場合の「セーフモード」を、しっかりと準備しておくことが安全確保の鍵となるでしょうね。
生活インフラにもなりつつあるAWSを誰が規制・監督するのか、という論点が今後出てきそうです。金融機関が利用を本格化した場合、今回の事件も踏まえ、規制当局はシステムに対して関与したくなるだろうな、と思いました。
復旧して、何よりです。
失敗は成功の基。次から同じ事が起きないように、対策をお願いしますね。
大丈夫かな。。

〈追記〉
冷却装置ってなんですかね。
一般的にはCRACですが、ここは規模でかいのでターボ冷凍機複数台配置でしょうか。
冗長構成のはずで、冷凍機故障はさほど珍しくなく故障機を除外して制御するはずですが、こうなると言うことは根本的な部分でやらかしましたかね。

(あくまで部外者の意見です。)
原因は「サーバーの加熱」だったようだ
ーー
AZ内の制御システムに問題が発生し、複数の冗長化冷却システムに障害が起きたという。結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化したとしている。
chaos monkeyで訓練しとかないと。