ANA、システム障害で日本ユニシスへの損害賠償検討(ニュース)
コメント
注目のコメント
やはり来ました。ANAは日本ユニシスへ損害賠償を検討とのこと。
ユニシスにとってはお金よりも信頼の失墜が痛いです。他の顧客にも影響します。
シスコシステムズのスイッチの問題なのか、日本ユニシスの設計や構築の問題なのか、そもそも運用の問題なのか、まずは原因究明を希望します。
ちなみに日本ユニシスは国内大手のシステムインテグレーターです。ディズニーランドのエレクトリカルパレードのスポンサーでもおなじみです。あとバトミントン強いです。そうかぁ。発表されている以外に何らかの設計ミスか構築時の不具合があったのかと邪推する。あの状況では、故障箇所を切り離して運用を継続し業務再開を行う事が第一選択。1ノード運用に踏み切る判断が遅かった事がずっと引っかかっている。
スプリットブレインの判断は容易であり、SWの何処かが故障している事も容易に判断できたと仮定。真っ当な経験あるエンジニアならばSWを切り離して1ノード運用を提案し手順とスケジュールを確定させ承認を得る。同業のよしみでココまでは出来ていたと信じたい。1ノード運用は設計想定。
おそらくはその後のAPサーバー起動時に単一ノードにOracleセッションを(普段は4ノードに分散)正しく張れなかった(DBをNWから切り離さないとセッションが切り替わらないやり口だった)、又はDBサーバーのリソース設計に齟齬が有り、全APサーバーのセッションを受けきれない状況が発生していたなど別故障を疑いたくなる。後者の場合はAPサーバー側も縮退運用した可能性あり。この混乱で復旧を遅らせた事に全日空は怒り心頭って感じだろうか。まぁ全部妄想ですが。
でも何らかの2つ目の故障があって、その原因が設計、構築ミスであり、その為に業務復旧が遅れ、その損害を賠償するというストーリーを考えてしまう。人為ミスや機器故障で訴えるかなぁ。まぁ全部妄想ですが。
SW交換は同時並行で手配していた筈だが遅いといえば遅い。SW両系の全交換としてラッキングや配線、冗長設定と動作確認、疎通確認をスケジュールすると夜間では間に合わなないかなぁ。開発環境に同一機器があっても配線が取り回せたかなぁ。これも妄想ですが。
あと、ネットワーク機器のサイレント故障や半死によるfailover失敗はここ20年繰り返し世界中で発生しているが、機器ベンダーや標準化機関の不作為で何ら解決されていない。ちょい前までSWの切替中に50秒ネットワークが全止まる規格が当然ですけど的にまかり通っていた。ミッションクリティカルって意味を分かっていない連中である。機会があれば、今のネットワークの技術がどんだけ進歩が遅く糞なのか明らかにしたい。無線とセキュリティに技術と人材が傾斜していて、線で繋がる方はまったく、、これは全部グチですが。NWエンジニアの皆様、ごめんなさい。
コメ長いなぁ。1年分のコメ量だ。何張り切っているんだか。。キチンとテストをやっていれば瑕疵は限定的という話しになるはず。既に他のピッカーの皆さんが指摘している人災でなければだが。
金額よりも信頼失墜の方が大きいですね。実際の現場での判断がどうだったかは分かりませんが、情報が出ない以上、結果だけで判断されると思うので。