Googleで大規模障害発生!現実的にありえる、クラウドサービス利用不可

2019年6月3日午前4時頃。
Googleで大規模障害が発生し、Gmailをはじめ、Googleカレンダーなど様々なサービスが使えない状況が発生しました。
(約4時間ほどで復旧した認識です。)

検知

自身のGmailに異変が。
プッシュ通知が遅い。
プッシュ通知が来ても、メールを受信していないように見える。(メール本文を受信しない。)
※自身は他キャリアからメールを転送しているものもあるため、他キャリア上では普通に受信できているけどGmailに届かない、ということで異変に気がつきました。

何か起きているのか?と状況をググって見たものの、特に見当たらず。(Googleの障害を調べるのにGoogle検索する、という間抜けさ。。)

G Suiteのステータスダッシュボードを見ると、真っ赤ですね。。

対策

正直、こういった障害を完全に無くすことは不可能だと思います。
仕方ない、とは言いませんが、100%防ぐのは絶対に無理です。
どれだけ可用性や耐障害性を高めたところで、何かは起こりえます。

現に、クラウドサービスのメジャープレイヤーでも、ここ数年で大規模な事件が起きています。(以下は一例)

また、上記のようなサービスを直接使っていなくても影響はありえます。
例えば、AppleのiCloudサービスの一部は、Google Platformを利用しているとの噂です。
AWSを使って提供されているサービスも数多ありますね。(弊社も、AWSを利用しています。)

かなり古いですが(2012年)、データが消えて復旧不可能になった事例もあります。

日本経済新聞

 クラウドに預けていたデータが、「雲」が消えるかのごとく消失してしまった。20日17時頃、レンタルサーバー会社のファース…

対策ですが、特に業務に致命的な影響が出るようなものは、ミラーリングなど、二重化するしかない対策はないと思います。
気をつけてインフラ・サービス設計しないといけないなぁと、この事件を受けて改めて感じました。

備えあれば憂いなし、しかし、備え方を間違えると元も子もない。
こちらもご参考くださいませ。

関連記事

データのバックアップ、みなさましっかりと実施されてますでしょうか。 特にビジネスをされている方。データが飛んだら業務に大きなインパクトがあるのは避けられないと思います。 「そんなの当たり前だよ!しっかりやってるよ!」とおっしゃる方も[…]

ざっくりとした原因(2019/06/24追記)

2019/06/05にはざっくりとした原因が発表されていますね。

記事によると、小規模なサーバに対して設定する内容を広範囲のサーバに適用してしまい、ネットワークの輻輳(*)が発生。
結果的につながりにくいサービスが多数発生した、ということのようです。
*輻輳(ふくそう)。ネットワークの処理が集中してしまい、いわゆる回線パンク状態になること。

Googleレベルでもこういった事故を完全に防ぐことはできないと思います。(人為的なことも絡んできますので)

少なくとも、同じ事は二度起こらないよう、対処していくしかないですよね。

更新履歴

2019/06/03 新規作成
2019/06/24 ざっくりとした原因を追記

※ご回答希望の場合は、ご連絡先も記入ください
"意見が持てる" デジタルコラム
絶賛配信中!

メルマガ詳細はこちら >>>

送信時点で「Privacy Policy」に同意したものとみなします。
広告を含むご案内のメールをお送りする場合があります。
   
         
最後までお読みいただき、ありがとうございました。
以下も、ぜひご活用ください^^
出版物
ITmedia
メルマガ
Site Access Log by HTTP Header

    >情報システムの

    情報システムの"教科書"本を発売中!


    ■ 情シス、システムコンサルタント、システムエンジニアの方へ
    情シスの定石(技術評論社)

    ■ システムエンジニア、情シスの方へ
    2023年10月7日(土)発売
    システム設計の教科書(技術評論社)

    CTR IMG

    ■ 著者 石黒直樹による書籍説明動画