データベースが同時に破損?ソフトウェア二重化の難しさ

両系Activeの二重運用していても、防げないシステム障害はあります。
システムをずっと動かし続ける難しさ、バックアップの難しさを感じますね。

日経クロステック(xTECH)

 大阪市は、2019年6月7日から発生していた基幹系システムの障害について、6月8日の午前9時30分ごろに復旧したと発表…

日経クロステック(xTECH)

 大阪市で2019年6月7日から翌8日にかけて発生していた基幹系システムの障害について、原因となったデータベース管理シス…

日経クロステック(xTECH)

 大阪市は2019年6月24日、6月7日から翌8日にかけて発生した基幹系システムの障害について、原因を特定したと明らかに…

ポイント

記事内容からのポイントを抜粋です。

  • DBMS(データベース)の起動時に必要なファイルが何かしらの要因で破損
  • それに伴い、両系Activeの2面とも、ほぼ同時にシステムダウン
  • 復旧まで21時間を要す
  • データ自体は壊れていないため、リストアは行わず
  • 原因が判明(2019/06/24)、Oracleの潜在バグの模様

考察

いくらハードウェアを二重化していても、こういった事象は起こってしまいます。(ソフトウェアが原因)

ソフトウェアの二重化というのは非常に難しいものです。
極論、同じ結果になるソフトウェアを2種類作ればよいわけですが、コスト、メンテナンス性から普通はそんなことしませんね。

だからと言って、何も考えないというわけにはいきません。
構成の意味・目的をよく考え、無駄なく、だけど必要な備えはしていく。そんな設計が必要ですね。

関連記事

データのバックアップ、みなさましっかりと実施されてますでしょうか。 特にビジネスをされている方。データが飛んだら業務に大きなインパクトがあるのは避けられないと思います。 「そんなの当たり前だよ!しっかりやってるよ!」とおっしゃる方も[…]

その後

もう一段、詳しい記事が出ていますね。(2019/07/05付)

日経クロステック(xTECH)

 大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、8000件近い証明書発行業務に影響…

非公開バグが原因で確定のようです。
しっかりとパッチを当てろよ、というように感じるかもしれませんが、安定稼働しているRDBMSに適宜パッチを当てるのは正直、至難の業です。
パッチを当てたら当てたで違うバグを踏む可能性がある、テストしても何をもってOKとすればよいのかよく分からないことが多い、コストもかかる、と二の足を踏むのが現実だからです。

そういった意味では、障害発生時の素早い判断、復旧手順の確立&確かな遂行、が良いのかもしれません。。

(もちろん、パッチを当てるにこしたことはないのですが。)

更新履歴

2019/06/30 新規作成
2019/07/12 「その後」を追記

情シスの定石
Site Access Log by HTTP Header
デジタル活用塾360

    >【発売中】情シスの定石(技術評論社)

    【発売中】情シスの定石(技術評論社)


    情報システム部門の担当者が「絶対に」押さえるべきノウハウを体系化!

    ・システムの企画から廃止まで、情シスが「何をすべきか」「どう動くべきか」がわかる
    ・失敗につながる「見えない要因」を明らかにし、成功に導くためのポイントを解説
    ・情報システム開発に携わるすべての人の必読書

    ■ こんな方にオススメ
    現役「情シス」/ 異動で「情シス」へ / 転職で「情シス」へ
    部下・新人育成にお悩みの方 / 業務部門の方
    経営者 / 開発ベンダ勤務の方 / 就活生

    CTR IMG