AWSで稼動させているEC2で障害発生 初心者の障害対応日記

AWSからメールが届きました
件名:「ALARM: “-i-XXX9a388-Status-Check-Failed-Any” in APAC – Tokyo」
ステータスチェックが失敗しているから、マネージメントコンソールでチェックしてくださいと

まじっすか?
早速、確認すると確かにStatus-Check-Failedしている・・・ がhttp監視は正常?
とりあえずRunning(稼働中)なのでEC2へSSHログインするが応答なし×2回 ???
コンソールからRebootを実施してみるが、Running(稼働中) Status-Check-Failedで先程と変わらない状況になりました。・・・・ ん~ 完璧にhttpは接続できない状態となりhttp監視システムから異常を知らせるメールが いよいよ障害だぁ

考える時間が勿体無いので、毎日取得しているSnapshotsからAMI(マシンイメージ)を作成してインスタンスを立ち上げました 動作確認を行いhttpとMailなど正常に動作していたのでEIPを新しく立ち上げたインスタンスに付け替えて一時復旧しました 正味20分程度でしょうか
スピードアップしたいけど眠い状況だと これが限界かぁ・・ ちなみに冗長化してません

一段落して出社の準備をしながらもサイト状況をスマホでチェック 自宅を早めに出て会社へ向かう 上司・同僚に障害発生と復旧を連絡して自席で改めてコンソールをチェックする

その後、supportページを開くと
「EC2 system reachability check failed for instance i-XXX9a388 on Thu Sep 26 17:22:45 UTC 2013 in Region ap-northeast-1」となっていました。ここで気がつく もしかしてインスタンスの再起動じゃなくてSTOP→STARTで復旧したのでは・・・・?・??
ベーシックサポートでも、http://aws.amazon.com/jp/premiumsupport/  ステータスチェックの結果が不合格の場合は、テクニカルサポートの支援を受けるための高優先度チケットをオープンするかどうかをお客様が選択できます。ヘルスチェックのサポートは、現時点では EC2 に対してご利用いただけます。 AWS担当からサポート受けられるみたいです

サポートケースから問い合わせを行うと1時間弱でAWSから「仮想サーバホストに問題がございました」と返信がありました該当のインスタンスをStop→Startして下さいと STOPを実行しましたがコンソールのステータスがStopping状態でstoppedにならない が30分位放置したらStoppedに変わっていた Startさせると何事もなかったように起動しました。

今回の障害まとめ
・Status-Check-FailedはEC2をホストする物理サーバー側の障害の場合がある
・Status-Check-FailedでSSH接続できないがhttpプロセスが落ちないこともある
・Supportページは必ず確認しましょう(解決のサポートをしてくれるかも)
・ベーシックサポートでもStatus-Check-FailedならEC2に限ってはサポートしてくれる
・RebootがダメならStop→Startしてみよう(知ってはいたが・・・実践できず・・・・)

タイトルとURLをコピーしました