なぜAWSはCloudWatchだけしか提供してくれないのだろう。もっと運用(Ops)目線でサービスの充実を

と言いながらも、CloudWatchはかなり使える閾値を設定すれば簡単にEC2やRDS ELBなどを監視できる。まぁ充実まではいかないけれど必要最低限の機能は提供していただいてはいます。ありがとうございますAWSさん

しかし、運用は構築や開発とは違い「今」や「今後」そして「過去」までも見なくてはいけないリソース不足が起きてからではなく起きる前に予兆をキャッチしたいサードパーティー製の監視ツールもあるので、組み合わせて使う方がほとんどだと思います。私もそうです。ZabbixやWindowServerを組み合わせたりして監視を行っているのが現状です。

数百あるEC2のうち数台が障害でダウンしても可用性を担保する様な仕組みが組めるクラウドは個々を監視するんではなくインスタンス群を監視するような方向なのだろうか？エンタープライズと言いながらも実際は数台規模で運用する規模もあり得る。

そこではマクロジョブが分単位もしくはイベント毎に実行されていたりする。そんなジョブ達を可視化する術はないものか？CloudWatchのカスタムメトリクス辺りで上手いこと監視している方もいるかもしれないですね。私はZabbixでシスログに書かれるジョブのログを監視する事で実現しているけどトリガーやアラートの設定など面倒な事が多い。

深く物事を考えていないし調べもしていないので、実は実現する方法があるのかもしれません。それを誰か教えて下さい。

DatadogやNewRelicみたいに可視化出来てジョブ監視も簡単に出来るような仕組みを是非作って下さい。よろしくお願いします