両系Activeの二重運用していても、防げないシステム障害はあります。
システムをずっと動かし続ける難しさ、バックアップの難しさを感じますね。
大阪市は、2019年6月7日から発生していた基幹系システムの障害について、6月8日の午前9時30分ごろに復旧したと発表…
大阪市で2019年6月7日から翌8日にかけて発生していた基幹系システムの障害について、原因となったデータベース管理シス…
大阪市は2019年6月24日、6月7日から翌8日にかけて発生した基幹系システムの障害について、原因を特定したと明らかに…
ポイント
記事内容からのポイントを抜粋です。
- DBMS(データベース)の起動時に必要なファイルが何かしらの要因で破損
- それに伴い、両系Activeの2面とも、ほぼ同時にシステムダウン
- 復旧まで21時間を要す
- データ自体は壊れていないため、リストアは行わず
- 原因が判明(2019/06/24)、Oracleの潜在バグの模様
考察
いくらハードウェアを二重化していても、こういった事象は起こってしまいます。(ソフトウェアが原因)
ソフトウェアの二重化というのは非常に難しいものです。
極論、同じ結果になるソフトウェアを2種類作ればよいわけですが、コスト、メンテナンス性から普通はそんなことしませんね。
だからと言って、何も考えないというわけにはいきません。
構成の意味・目的をよく考え、無駄なく、だけど必要な備えはしていく。そんな設計が必要ですね。
データのバックアップ、みなさましっかりと実施されてますでしょうか。 特にビジネスをされている方。データが飛んだら業務に大きなインパクトがあるのは避けられないと思います。 「そんなの当たり前だよ!しっかりやってるよ!」とおっしゃる方も[…]
その後
もう一段、詳しい記事が出ていますね。(2019/07/05付)
大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、8000件近い証明書発行業務に影響…
非公開バグが原因で確定のようです。
しっかりとパッチを当てろよ、というように感じるかもしれませんが、安定稼働しているRDBMSに適宜パッチを当てるのは正直、至難の業です。
パッチを当てたら当てたで違うバグを踏む可能性がある、テストしても何をもってOKとすればよいのかよく分からないことが多い、コストもかかる、と二の足を踏むのが現実だからです。
そういった意味では、障害発生時の素早い判断、復旧手順の確立&確かな遂行、が良いのかもしれません。。
(もちろん、パッチを当てるにこしたことはないのですが。)
更新履歴
2019/06/30 新規作成
2019/07/12 「その後」を追記
絶賛配信中!
メルマガ詳細はこちら >>>
広告を含むご案内のメールをお送りする場合があります。
以下も、ぜひご活用ください^^