• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

システム会社から「故障は4千年に1度」と説明…みずほ銀、他の大手行とは異なり4社に委託

読売新聞
529
Picks
このまま本文を読む
本文を読む

コメント


のアイコン

選択しているユーザー

  • 誰か4000年見届けたんですかね。

    これを真に受けるはずがないのですが、オレオレ詐欺が存在するくらいですからねー。

    追記
    他の方のコメントを見て、算数を実社会に応用できる人はすごいなぁと尊敬の眼差しで見ていました。気づきが多かったです。算数頑張ろ。


注目のコメント

  • badge
    株式会社レクター代表/日本CTO協会理事 朝日新聞社社外CTO

    これをシステム信頼性の算数的な問題として捉えると

    同じ機器により二重化したシステムがある。

    この稼働率は4000年に1日非稼働になると予想されている時、一台の稼働率はいくつか?それを「何年に一度」に表記しなおすとどうなるか?
    = 99.917% = 3.31年に一度

    また、一台の非稼働時間が2倍になるとき、このシステムは何年に1日の非稼働になると予想されるか。
    = 1000年に1日
    —-

    これはあくまで例題レベルの話だけど、独立した機器が本当に偶発的な理由で動作しない場合、それでも1000年に1日しか起きないようなことになる。

    流石にそれがたまたま起きました(たとえば物理的なパーツの破損)ってわけではないとすると、同根の何か理由によって二つの機器が同時に動かないことが考えられる。

    たとえば、バックアップ機器の動作確認不良、共通の設定ミス、共通コンポーネントのバグ、切り替え部分のシステム信頼性の低さなどである。そうであれば六年間に15時間ダウンタイムがあることの説明にはなる。

    あくまで記者向けの内容をさらに記者が咀嚼した話かと思うので、仕方ないんだけど、障害報告としてみると適切な理路に基づいているとは言い難い


  • badge
    東京大学 大学院情報理工学系研究科電子情報学専攻 教授

    4000年に1度という言葉が本当に発言されたとするなら、にわかには信じられません。GAFAMのシステムだって、頻繁に障害が報告されているというのに。

    結構多くの方が、「ITは壊れないもの」と思っていらっしゃる気がします。そこで、最も身近なHDDで故障について考えてみます。Annual Failure Rate (AFR)という指標があります。これは1年で平均何回故障するかという指標です。1つ目のリンクにある表の一番上のHDDを例にします。AFRは0.27%。非常に小さい数字です。「ほら、壊れないじゃないか」と思われることでしょう。

    ちょっとまってください。これが100台あったらどうでしょう?1台が1年の間に壊れない確率は99.73%です。100台すべてが1年間で故障しない確率はどうでしょう?
     0.9973^100 = 0.76
    すなわち76%しかありません。1000台あったら?なんと、6.7%にまで下がります。

    これはどういうことか。HDDが1000台あったら、確率的にはほぼ確実に少なくとも1台は1年以内に故障するということです。多重化していなかったら大変なことになります(もちろんしているでしょうが)。GAFAMのデータセンタは毎日驚くべき数のHDDが故障し、交換されていると聞いたことがあります。そのためのコストは膨大で、かつ様々な運用上の工夫がなされているとも聞きます。

    私のラボでは50人くらいが常時利用するGPUサーバとファイルサーバ群がありますが、それでも常にてんやわんやするくらいの管理・維持コストが掛かっています。

    ITシステムは故障しないことを目指すのではなく、今日にでも故障すること前提で、故障をいかに早く予測・検知できるか、故障が起きた時止まらないように多重化や移行プロセスを作り込んでおけるか、その障害をいかに早く同定し復旧できるかです。

    クラウド化のメリットはここにあって、障害が起きた場合サービス提供側が対応してくれるのです。自前でサーバを用意するとしたら、メンテナンスも自前で行うことになります。


    HDD故障率のメーカー・モデル別統計データ2020年版、故障率が最も高かったのは?
    https://gigazine.net/news/20210129-backblaze-hard-drive-stats-2020/


  • Colleagues/ふるさと納税ガイド CTO

    他のニュースでも原因はハードディスク故障という情報が出てますが、、、。ハードディスクなの?!って話もあるんですが、ハードディスクの寿命って稼働しっぱなしだと5年とかそこらじゃなかったでしたっけ?

    新品のストレージが同時に壊れる確率は確かに4000年に1度とかなんでしょうが、それを寿命まで交換しなかったら同時期に壊れるに決まってるじゃないですか...。
    ベンダーの言ってる事やシステムの作りの問題じゃなくて運用の問題ですよ...。

    基幹システムの機材とかだと目安でサクッと交換してしまえば良いんだと思いますけどね...。何か起こった時は何台買えるんですか?ってくらい莫大な損失になりそうだし、実際なってるし。。。

    あと、ちゃんとやってますって話なのかもしれないですが、ストレージのモデルをキレイに合わせるのは危険なんじゃないかなぁと思いますけどね。

    https://www.google.com/amp/s/pc.watch.impress.co.jp/docs/news/1222/207/amp.index.html

    こんな感じでストレージのモデル単位での不具合の内在とかも実際にあるし、故障時期も偏るので冗長化する時にはあえて揃えない方が良いと思いますねぇ。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

新しい記事ページ
を表示しています

ご意見・ご要望はこちらまで

マイニュースに代わり
フォローを今後利用しますか