新着Pick

システム会社から「故障は4千年に1度」と説明…みずほ銀、他の大手行とは異なり4社に委託

読売新聞
みずほ銀行と、持ち株会社のみずほフィナンシャルグループは8日、8~9月にあったシステム障害の調査結果を金融庁に報告した。店頭窓口の取引が停止した障害は、機器故障の予兆を見落としていたことが判明した。機器の保守点検や障害
531Picks
Pick に失敗しました

人気 Picker
これをシステム信頼性の算数的な問題として捉えると

同じ機器により二重化したシステムがある。

この稼働率は4000年に1日非稼働になると予想されている時、一台の稼働率はいくつか?それを「何年に一度」に表記しなおすとどうなるか?
= 99.917% = 3.31年に一度

また、一台の非稼働時間が2倍になるとき、このシステムは何年に1日の非稼働になると予想されるか。
= 1000年に1日
—-

これはあくまで例題レベルの話だけど、独立した機器が本当に偶発的な理由で動作しない場合、それでも1000年に1日しか起きないようなことになる。

流石にそれがたまたま起きました(たとえば物理的なパーツの破損)ってわけではないとすると、同根の何か理由によって二つの機器が同時に動かないことが考えられる。

たとえば、バックアップ機器の動作確認不良、共通の設定ミス、共通コンポーネントのバグ、切り替え部分のシステム信頼性の低さなどである。そうであれば六年間に15時間ダウンタイムがあることの説明にはなる。

あくまで記者向けの内容をさらに記者が咀嚼した話かと思うので、仕方ないんだけど、障害報告としてみると適切な理路に基づいているとは言い難い
4000年に1度という言葉が本当に発言されたとするなら、にわかには信じられません。GAFAMのシステムだって、頻繁に障害が報告されているというのに。

結構多くの方が、「ITは壊れないもの」と思っていらっしゃる気がします。そこで、最も身近なHDDで故障について考えてみます。Annual Failure Rate (AFR)という指標があります。これは1年で平均何回故障するかという指標です。1つ目のリンクにある表の一番上のHDDを例にします。AFRは0.27%。非常に小さい数字です。「ほら、壊れないじゃないか」と思われることでしょう。

ちょっとまってください。これが100台あったらどうでしょう?1台が1年の間に壊れない確率は99.73%です。100台すべてが1年間で故障しない確率はどうでしょう?
 0.9973^100 = 0.76
すなわち76%しかありません。1000台あったら?なんと、6.7%にまで下がります。

これはどういうことか。HDDが1000台あったら、確率的にはほぼ確実に少なくとも1台は1年以内に故障するということです。多重化していなかったら大変なことになります(もちろんしているでしょうが)。GAFAMのデータセンタは毎日驚くべき数のHDDが故障し、交換されていると聞いたことがあります。そのためのコストは膨大で、かつ様々な運用上の工夫がなされているとも聞きます。

私のラボでは50人くらいが常時利用するGPUサーバとファイルサーバ群がありますが、それでも常にてんやわんやするくらいの管理・維持コストが掛かっています。

ITシステムは故障しないことを目指すのではなく、今日にでも故障すること前提で、故障をいかに早く予測・検知できるか、故障が起きた時止まらないように多重化や移行プロセスを作り込んでおけるか、その障害をいかに早く同定し復旧できるかです。

クラウド化のメリットはここにあって、障害が起きた場合サービス提供側が対応してくれるのです。自前でサーバを用意するとしたら、メンテナンスも自前で行うことになります。


HDD故障率のメーカー・モデル別統計データ2020年版、故障率が最も高かったのは?
https://gigazine.net/news/20210129-backblaze-hard-drive-stats-2020/
どうして4社のシステム会社に委託するのでしょう?

統合当時の教訓がまったく生かされていません。

旧行(富士、第一、勧銀、興銀)の縄張り争いの結果だとしたら、とんでもない話です。
みずほの問題。問題なのは門外漢の素人でも分かりますが、批判したり叩いたりするだけで、じゃあどうすればよいか、ということに触れられている記事やコメントはついぞ見たことないので、誰にも解なしということなんですかね、、
当然金融庁が介入してもうまくいくはずはないし、今からゼロから作り直すってのも流石に無いんでしょうし、どうするといいんでしょうね
原発は設計の計算上では1000万年に1度。
飛行機事故に遭う確率は468万回に1度で、年に100回乗って3900年に1度遭う程度。

それよりも70年に1度の菅直人が何よりおそろしいシステムリスク。
エンジニアリングの具体的な内容はわからないですが危機管理意識の希薄さを感じる内容だと感じて驚きました
この会社は顧客軽視と思われても仕方がない。不具合を頻発させてもユーザーになんの説明もない。サイトもわかりにくい。インターネットバンキングは夜中から明け方まで使えなかったりする。信じられないくらい使い勝手が悪い。これで経営者は説明責任を果たしたと言えるのか。
勝ちに不思議の勝ちあり 負けに不思議の負けなしではありませんが、システム障害は必ず理由があります。
4千年に1度のことがおきたとは思えません。
みずほ銀行さんには頑張ってもらいたいです。
4000年に1度などという説明は全く意味をなさない。。起こらないようにはするが、起こったことも想定して対応を考えておく、ということ。
愉快な言い訳ですね。
朝から笑いを届けてくれてありがとうございます。
株式会社みずほフィナンシャルグループ(英語: Mizuho Financial Group, Inc.、略称:MHFG)は、東京都千代田区に本社を置く日本の大手銀行持株会社である。日経平均株価およびTOPIX Core30、JPX日経インデックス400の構成銘柄の一つ。 ウィキペディア
時価総額
3.72 兆円

業績