みずほ銀行 障害の原因はハードディスクの経年劣化
コメント
選択しているユーザー
Minoriというブラックジョークな名前のシステムに4,500億円掛けたのに、経年劣化のハードディスクも取り替えてないとか、何に巨額のコストを費やしたのだろうか?スマホとかのUIが改善したとも聞かないし、絵空事をぶち上げるITコンサル達にカモられただけでは
注目のコメント
ハードディスクは消耗品なので重要なシステムなら定期交換計画を立てて事前交換するのが当然でしょう。
それをしてないという事は、ハードディスク含めた装置がどれだけあって、どうメンテすべきかと言う事を全く把握してないと言う事。
本来ならRAIDで冗長化してますから、ハードディスク単体故障なら停止する事はありません。
しかし、RAID5のストライピングなら復旧中はパフォーマンスが落ちるので、処理が多いとスタックする可能性はあります。
だから、なるべく低稼働の時間帯に事前交換しとかないとマズイ。
今回はRAID自動復旧が動いてパフォーマンスが低下した為にハングした様に思います。
で、待機系に切り替えようとしたけど、その手順もミスった。
待機系へ切り替える手順が確立してなかった。
『この際、バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗しました。』
要は運用がものすごく杜撰だった(と言うか管理してない)と言う事ですね。
よく今まで大丈夫でしたね、って話。
〈追記〉
よくよく考えると、6年ハードディスク無交換って事は、RAIDカードのバックアップバッテリーも交換してないって事無いですよね?富士通なら寿命3年の定期交換部品ですが。
もしバッテリーが寿命なら、RAIDカードの書込みキャッシュが機能しないので、ハードディスク障害発生して復旧中の書き込みはほぼ不可能かもですね。(復旧中の書込み要求はキャッシュできないので蹴る)
さすがにそんな事は無いと祈ります。タイトルはちょっとどうかな、と思います。
ハードディスクの劣化は起こり得ますが、問題なのは
この際、バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗しました。
これです。
システムを導入するというのは、システムと運用でサービスを提供していくわけですが、特にその可用性、継続性は運用レベルの高さに依存します。みずほの近年の事故はほぼ全て運用起因で、システムも運用しにくいものなのでしょうが、運用はあり得ないほど杜撰に感じます。
月末にデータ移行したり、今回のような手順・段取りのミスをしたり、この辺にこそツッコミどころがあるはずで、それを簡略化させるためのシステム化やハードウェアサポートを活用するのが大事なのでは。えっ…??? 言ってる意味が分からない…w そりゃハードディスクは消耗品だから壊れるものでしょ。その前提でシステムは作るものだけど… もうこれを機にクラウドで一から構築する方が絶対に良い。このままだと同じ問題が延々に起こり続ける
みずほ銀行は8月から先月まで4回発生したシステムなどの障害について、ハードディスクの経年劣化などが原因だったと公表しました。