東証取引再開の可否は1日夜に通知へ
コメント
注目のコメント
過去に富士通で金融向けにインフラエンジニアをしていましたので、今回の共有ディスクと言われているストレージ装置の設計、構築や、HAクラスタも設計構築の経験があります。
機器構成の詳細が分からないので推測を含みますがメモリエラー(サーバ側?ストレージ側?)でシステムがデータの書き込みが出来なくなってスタックしたか、サーバ側が共有ディスクを解放できずにフェイルオーバーが実行されなかったようです。
このような構成では、通常はプライマリ側サーバ(またはシステム)を強制的にシグナルを送って電源停止させて、セカンダリ側にフェイルさせるのですが、注文などの仕掛かりが存在したため、強制フェイルオーバーをしなかったとの説明です。
共有ディスクを担当するストレージ装置には少なくとも二重以上の冗長を取るため、このあと詳細が富士通から出されると思いますので、原因の解説はそれを待ってしたいと思います。
記者会見は半分ぐらいたってから見てましたが、技術的内容はとても誠実に回答されていました。
結果的には市場を止めたことには変わりがありませんが、ハード、ソフトでいかに万全をきたしても不具合は起こり得ます。
我々インフラエンジニアもサービスに出す前にさまざまな障害を想定して対策をするのですが、今回のケースはなかなか悩ましい判断を要したと思います。
現場の方や関わられたかたのご苦労をお察しいたします。
ぜひ頑張って、明日から通常運転できるように期待しております。金融システムに関わっていた者として興味深く拝見しましたが、各所で絶賛されている通り非常に明快な会見で素晴らしいですね。しっかりシステム/現場を理解されている方の説明だなと感じます。2005 年の障害からの CIO 設置・arrowhead を経て、会社として必要な対策をしっかり取ってきているように見受けられました。コメント欄で他社からもっと良い人材を採用すれば良いのではという声もありますが、このようなミッションクリティカルなシステムと普通のシステムでは求められる要件もスキルも全く変わってくるので、一概にそうは言えないと思います。これほどミッションクリティカルなシステムを運用する難しさというのは想像を絶するものがありますが、ベストを尽くされていたように見えます。
それにしても「責任はベンダーである富士通ではなく、我々にある」という発言には、ちょっと涙が出ました……。批判や責任追及の声などは当然出てくるでしょうが、この会見を見ると東証経営陣の皆様にはリスペクトの念しか持てないので、過度なバッシングが起きないことを祈っています。いま現在も現場で対応に尽力されている皆様は大変でしょうが頑張って頂きたいです。会見を見ましたが、CIOの方の説明が素晴らしいと思いました。ハーフデッドな状態のフェイルオーバーの失敗は冗長化されたシステムを扱ったことのあるエンジニアであれば誰しも悩まされたはずです。対策もテストもされていて踏んだのであれば、発生条件がレアなバグを踏んだ可能性もあります。また、ベンダーの責任ではないと明言されていた事にも感銘を受けました。色々と書かれるでしょうが、頑張って頂きたいです。