会社のサービスを◯TT系のクラウドで運用しているのですが、最近半日以上のサービス停止や深夜の再起動など障害が多い。そもそもクラウドと言いながらもハイパーバイザーを利用したVPSで、大きな共有ストレージを仮想サーバーが分け合いながら使う様な構成である。
障害の原因は共有ストレージを起因とする障害で、それは障害が発生した際に発動するプロセスが悪影響して大規模な障害となってしまったのです。本来であれば障害に備えた対策が障害の原因になってしまうという負のスパイラル的な障害である。
この様な障害が起こる事を想定出来ていないのも問題ですが、復旧に半日以上の時間が必要となるのは、もっと問題で多くの企業が午後から深夜まで動かないシステムのリカバリーに苦労したことは言うまでもありません。
聞くと原因が判明しリカバリーを始めたのは障害発生から4時間後 なぜ半日以上も復旧に時間を要したのか?それは起動する為に仮想サーバーが必要とするリソースが不足した事が原因で数百ある仮想サーバーのインスタンスを一気に起動出来ずに数台毎に起動させるを繰り返したのです。その為に半日以上の時間が必要となったのです。
もしも、AWSのクラウドだったら?Azureだったら?と考えてしまう。しかもシステムのベンダーは構成が変更するのは大きなリスクがあると言い、もっと早く復旧できたであろう手順を実施しなかった。それは仮想サーバーのインスタンスを別の物理サーバーで起動させる事だ。それはAWSの仮想サーバーが障害で動かない場合にマシンイメージを別の物理サーバーで起動させるだけの事である。それが出来ないのならパブリッククラウドではない。プラベートクラウドでもない。ただのオンプレ構成を仮想化して動かしているだけではないか?
そんな事を考えてしまった。
これからクラウドへ移行を考えている方に伝えるとすれば、本当のパブリッククラウドを選択しましょう。そして例ですがAWSからAzureへAzureからAWSへとクラウドロックしないように構成を考えましょう。難しいですけどね。
これは現実的ではありませんが、複数のパブリッククラウドを組み合わせて、どちらかのパブリッククラウド単体でもシステムが完結できる構成を目指すのもいいかもしれません。
当たり前ですが、クラウドでもオンプレでも障害はゼロになりません。