監視と障害対応
監視と障害対応 ― 問題を早期発見し、ダメージを最小化する
「サーバーが止まっています」と社員から報告を受けて初めて障害に気づく――これは最悪のパターンです。監視の仕組みを導入すれば、社員が気づく前に問題を検知し、事前に対処することが可能になります。
監視の種類
IT環境の監視には、大きく分けて以下の種類があります。
| 監視の種類 | 内容 | 具体例 |
|---|---|---|
| 死活監視(Ping監視) | 機器が動いているかどうかの確認 | サーバー、ルーター、スイッチへのPing |
| リソース監視 | CPU、メモリ、ディスク使用率の監視 | ディスク残量が10%を切ったらアラート |
| サービス監視 | 特定のサービスが正常に動作しているか | Webサーバーの応答確認、ポート監視 |
| ログ監視 | ログに特定のエラーが出ていないか | Windowsイベントログのエラー監視 |
| トラフィック監視 | ネットワークの通信量の監視 | 帯域の逼迫や異常通信の検知 |
ひとり情シスにおすすめの監視ツール
大規模な監視システムは不要です。小規模環境で使いやすいツールを紹介します。
- PRTG Network Monitor(無料版) ― 100センサーまで無料。GUIが直感的でセットアップが簡単。ひとり情シスに最もおすすめ
- Zabbix ― オープンソースで無料。高機能だが設定がやや複雑。ある程度のLinux知識が必要
- Uptime Robot(無料版) ― クラウド型のWebサイト死活監視サービス。50モニターまで無料
- Windows標準のパフォーマンスモニター ― 追加費用なし。サーバーのリソース監視に最低限使える
監視のアラート設定
監視は「アラートを適切に設定する」ことが肝心です。アラートが多すぎると無視するようになり(オオカミ少年状態)、少なすぎると障害を見逃します。
推奨するアラート閾値の目安:
| 項目 | 警告(Warning) | 緊急(Critical) |
|---|---|---|
| CPU使用率 | 80%超を5分継続 | 95%超を5分継続 |
| メモリ使用率 | 85%超 | 95%超 |
| ディスク使用率 | 80%超 | 90%超 |
| Ping応答 | 応答時間100ms超 | 応答なし |
障害対応フロー
障害が発生したときに冷静に対応するため、フローを事前に決めておきましょう。
- 検知 ― 監視アラートまたはユーザー報告で障害を認識
- 影響範囲の確認 ― 何が・どこまで影響しているかを迅速に把握
- 第一報の発信 ― 上長・関係者に「今○○が止まっています。復旧対応中です」と連絡
- 暫定対応 ― サービスの再起動、切り戻し、代替手段の提供など、まず業務を復旧させる
- 根本原因の調査 ― ログ分析、ベンダーへのエスカレーションを行い、原因を特定
- 恒久対応 ― 根本原因を取り除く対応を実施
- 報告・振り返り ― 障害報告書を作成し、再発防止策を検討
夜間・休日対応について
ひとり情シスにとって悩ましいのが、勤務時間外の障害対応です。
- 完全に対応しないのは難しいが、すべてに即応するのも持続可能ではない
- 「緊急度の定義」を事前に経営層と合意しておく(例:全社業務停止のみ休日対応、それ以外は翌営業日)
- 可能であれば、ベンダーの24時間監視サービスを利用する
- スマートフォンで監視アラートを受け取れるよう設定しておく
健康を犠牲にしてまで対応する必要はありません。事前にルールを決め、経営層と合意しておくことが大切です。
✅ 完了済み