🛠️ 情シス実務 第5章-2節

監視と障害対応

監視と障害対応 ― 問題を早期発見し、ダメージを最小化する

「サーバーが止まっています」と社員から報告を受けて初めて障害に気づく――これは最悪のパターンです。監視の仕組みを導入すれば、社員が気づく前に問題を検知し、事前に対処することが可能になります。

監視の種類

IT環境の監視には、大きく分けて以下の種類があります。

監視の種類内容具体例
死活監視(Ping監視)機器が動いているかどうかの確認サーバー、ルーター、スイッチへのPing
リソース監視CPU、メモリ、ディスク使用率の監視ディスク残量が10%を切ったらアラート
サービス監視特定のサービスが正常に動作しているかWebサーバーの応答確認、ポート監視
ログ監視ログに特定のエラーが出ていないかWindowsイベントログのエラー監視
トラフィック監視ネットワークの通信量の監視帯域の逼迫や異常通信の検知

ひとり情シスにおすすめの監視ツール

大規模な監視システムは不要です。小規模環境で使いやすいツールを紹介します。

  • PRTG Network Monitor(無料版) ― 100センサーまで無料。GUIが直感的でセットアップが簡単。ひとり情シスに最もおすすめ
  • Zabbix ― オープンソースで無料。高機能だが設定がやや複雑。ある程度のLinux知識が必要
  • Uptime Robot(無料版) ― クラウド型のWebサイト死活監視サービス。50モニターまで無料
  • Windows標準のパフォーマンスモニター ― 追加費用なし。サーバーのリソース監視に最低限使える

監視のアラート設定

監視は「アラートを適切に設定する」ことが肝心です。アラートが多すぎると無視するようになり(オオカミ少年状態)、少なすぎると障害を見逃します。

推奨するアラート閾値の目安:

項目警告(Warning)緊急(Critical)
CPU使用率80%超を5分継続95%超を5分継続
メモリ使用率85%超95%超
ディスク使用率80%超90%超
Ping応答応答時間100ms超応答なし

障害対応フロー

障害が発生したときに冷静に対応するため、フローを事前に決めておきましょう。

  1. 検知 ― 監視アラートまたはユーザー報告で障害を認識
  2. 影響範囲の確認 ― 何が・どこまで影響しているかを迅速に把握
  3. 第一報の発信 ― 上長・関係者に「今○○が止まっています。復旧対応中です」と連絡
  4. 暫定対応 ― サービスの再起動、切り戻し、代替手段の提供など、まず業務を復旧させる
  5. 根本原因の調査 ― ログ分析、ベンダーへのエスカレーションを行い、原因を特定
  6. 恒久対応 ― 根本原因を取り除く対応を実施
  7. 報告・振り返り ― 障害報告書を作成し、再発防止策を検討

夜間・休日対応について

ひとり情シスにとって悩ましいのが、勤務時間外の障害対応です。

  • 完全に対応しないのは難しいが、すべてに即応するのも持続可能ではない
  • 「緊急度の定義」を事前に経営層と合意しておく(例:全社業務停止のみ休日対応、それ以外は翌営業日)
  • 可能であれば、ベンダーの24時間監視サービスを利用する
  • スマートフォンで監視アラートを受け取れるよう設定しておく

健康を犠牲にしてまで対応する必要はありません。事前にルールを決め、経営層と合意しておくことが大切です。