Jomo

🛠️ 情シス実務第5章-2節

監視と障害対応

監視と障害対応 ― 問題を早期発見し、ダメージを最小化する

「サーバーが止まっています」と社員から報告を受けて初めて障害に気づく――これは最悪のパターンです。監視の仕組みを導入すれば、社員が気づく前に問題を検知し、事前に対処することが可能になります。

監視の種類

IT環境の監視には、大きく分けて以下の種類があります。

監視の種類	内容	具体例
死活監視（Ping監視）	機器が動いているかどうかの確認	サーバー、ルーター、スイッチへのPing
リソース監視	CPU、メモリ、ディスク使用率の監視	ディスク残量が10%を切ったらアラート
サービス監視	特定のサービスが正常に動作しているか	Webサーバーの応答確認、ポート監視
ログ監視	ログに特定のエラーが出ていないか	Windowsイベントログのエラー監視
トラフィック監視	ネットワークの通信量の監視	帯域の逼迫や異常通信の検知

ひとり情シスにおすすめの監視ツール

大規模な監視システムは不要です。小規模環境で使いやすいツールを紹介します。

PRTG Network Monitor（無料版） ― 100センサーまで無料。GUIが直感的でセットアップが簡単。ひとり情シスに最もおすすめ
Zabbix ― オープンソースで無料。高機能だが設定がやや複雑。ある程度のLinux知識が必要
Uptime Robot（無料版） ― クラウド型のWebサイト死活監視サービス。50モニターまで無料
Windows標準のパフォーマンスモニター ― 追加費用なし。サーバーのリソース監視に最低限使える

監視のアラート設定

監視は「アラートを適切に設定する」ことが肝心です。アラートが多すぎると無視するようになり（オオカミ少年状態）、少なすぎると障害を見逃します。

推奨するアラート閾値の目安：

項目	警告（Warning）	緊急（Critical）
CPU使用率	80%超を5分継続	95%超を5分継続
メモリ使用率	85%超	95%超
ディスク使用率	80%超	90%超
Ping応答	応答時間100ms超	応答なし

障害対応フロー

障害が発生したときに冷静に対応するため、フローを事前に決めておきましょう。

検知 ― 監視アラートまたはユーザー報告で障害を認識
影響範囲の確認 ― 何が・どこまで影響しているかを迅速に把握
第一報の発信 ― 上長・関係者に「今○○が止まっています。復旧対応中です」と連絡
暫定対応 ― サービスの再起動、切り戻し、代替手段の提供など、まず業務を復旧させる
根本原因の調査 ― ログ分析、ベンダーへのエスカレーションを行い、原因を特定
恒久対応 ― 根本原因を取り除く対応を実施
報告・振り返り ― 障害報告書を作成し、再発防止策を検討

夜間・休日対応について

ひとり情シスにとって悩ましいのが、勤務時間外の障害対応です。

完全に対応しないのは難しいが、すべてに即応するのも持続可能ではない
「緊急度の定義」を事前に経営層と合意しておく（例：全社業務停止のみ休日対応、それ以外は翌営業日）
可能であれば、ベンダーの24時間監視サービスを利用する
スマートフォンで監視アラートを受け取れるよう設定しておく

健康を犠牲にしてまで対応する必要はありません。事前にルールを決め、経営層と合意しておくことが大切です。