Googleサービスでの8月20日の大規模障害について、Googleが原因と対策を説明
コメント
注目のコメント
他のGoogleサービスからの負荷が原因だったんですね。
——-
根本的な原因の完全修復まで、BLOBメタデータサービスへの計算リソースの割り当て増加
メタデータサービスタスク起動時のヘルスチェックの改善
メタデータ操作失敗の際に使うバックオフと再試行の戦略の改善
単体エラーがリソース全体でキャンセルリクエストのフラッドになる問題の修復
BLOBサービスのアラートの改善
BLOBサービスへのリクエストに対するより包括的なレート制限制御の実装
BLOB操作のデバッグ方法の改善
タスク間でのリソース転送速度、効率、自動化の改善
BLOBサービスのレート制限制御に関する内部マニュアルの改善