2021年。
日本の金融界を大きく揺さぶったといっても過言ではない、みずほ銀行の一連のシステム障害。
建設的に、未来に活かすためにまとめられた本書。
日本を代表するシステム障害です。
エンジニアの方は知っておくべきでしょう。
(はじめに)「ブックナビ」とは
「これは読んでおくべき」と感じた書籍(良書)についてご紹介するページです。
自身が重要だと思ったポイント、感じたこと、考えを記します。
また、自分自身の振り返りのためのページでもありますので、後日、内容をアップデートすることがあります。
完全に個人の意見であるため、著者の言いたいこととは異なる解釈である可能性もございます。あらかじめご了承ください。
書籍紹介
ポストモーテム みずほ銀行システム障害 事後検証報告
著者:日経コンピュータ(中田敦、山端宏実)
以下、上記書籍より引用。
(P2)
ポストモーテム(Postmortem)。
米国のIT企業は、システム障害が発生した後に社内外の関係者と共有する事後検証報告書をそう呼ぶ。ポストモーテムとは直訳すると「検視」または「死亡解剖」だ。
〜(中略)〜
犯罪捜査であればポストモーテムは犯人逮捕などの証拠に使うのに対して、IT業界の場合はそうではない。
ポストモーテムはシステム障害における犯人を探す道具ではなく、発生した事象から教訓を得て、今後の取り組みに活かすために使う。(P283)
システム運用を軽視する風潮は急速に変わり始めている。
システムを安定稼働させる仕組み作りは「SRE(サイト・リライアビリティー・エンジニアリング)」と呼ばれるシステム工学の新分野として、世界中で注目されている。SREという概念を作り出したのは米グーグルだ。
SREにおける運用担当者は、決められた手順に従ってツールを操作するオペレーターではない。
高度なソフトウェア技術を駆使して、システムを安定させる仕組みを作り、常に改善し続けるエンジニアである。
感じたこと、考えたこと
障害の事象が分かりやすく整理されている
一連のシステム障害について、事象やその原因(システム的な挙動)について整理されています。
図表も取り入れながら、できるだけシンプルに整理しようということが伝わってきました。
「分かりやすく」とは書きましたが、正直、ある程度システムに精通している人間でないと、内容は理解できないと思います。
(実際、システム障害はそういうものですが)
エンジニアの方が、システム障害事例集として本書を見るとよいかと感じました。
個人的には、期待外れ
障害となったシステム的な事象は理解できます。
しかし、「それで、どうしていけばよいの?」という点については、あまり参考にならないかもしれません。
「運用をおろそかにしたツケだ。」
私もそのように感じます。
ただ、そう言われて、このポストモーテムを読んで「自社でどのような対策をしていけばよいか」に結びつけられる方がどれくらいいるものか。
(むしろ、そのスキルがあれば、すでに対応している気がします)
もちろん、みずほ銀行自身も、これから具体的な対策を作り、実践し、効果を見ていくものだと思われます。
数年後、そうした「具体的な対策と効果」が公開されて、はじめて意味のある情報共有になると感じました。
一連の障害における根本的な問題は、「組織体制」「組織風土」「それらの影響を受けている人そのもの」だと思います。
もしそれらが生まれ変われたとしたら・・・それこそ、日本のシステム史に残る偉業だと思います。
絶賛配信中!
メルマガ詳細はこちら >>>
広告を含むご案内のメールをお送りする場合があります。
以下も、ぜひご活用ください^^