障害発生時の対応手順
障害発生時の対応手順
どれだけ万全な対策を講じても、障害はゼロにはできません。重要なのは、障害が発生した際に冷静かつ迅速に対応できる体制と手順を整えておくことです。ひとり情シスは障害対応の最前線に立つことになるため、体系的な対応フローを身につけておく必要があります。
障害検知
障害対応の第一歩は「障害に気づくこと」です。検知が遅れるほど被害は拡大します。
障害検知の方法
| 検知方法 | 具体的なツール/手段 | 検知できる障害 |
|---|---|---|
| 監視ツール | Zabbix、PRTG、Nagios、Datadog | サーバーダウン、CPU/メモリ異常、ディスク容量逼迫 |
| ログ監視 | Windowsイベントビューアー、syslog、SIEM | 認証失敗、サービス停止、エラーの頻発 |
| ネットワーク監視 | PRTG、LibreNMS、ping監視スクリプト | 通信断、帯域異常、機器ダウン |
| ユーザー申告 | 電話、メール、チャット、ヘルプデスクシステム | アプリケーション動作不良、速度低下 |
| アラート通知 | メール、SMS、Teams/Slack通知、PagerDuty | 閾値超過、サービス停止 |
📋 具体例
中小企業向けの監視環境構築例:
・無料のPRTG Network Monitor(100センサーまで無料)を導入
・主要サーバーのCPU、メモリ、ディスク、サービス状態を監視
・ネットワーク機器(ルーター、スイッチ、AP)のping監視
・閾値超過時にメール+Teamsに自動通知
・ダッシュボードを大型モニターに常時表示(グリーン/レッドで直感的に把握)
初動対応チェックリスト
障害を検知したら、以下のチェックリストに沿って初動対応を行います。
- 状況の把握(最初の5分)
- 何が起きているか(症状の確認)
- いつから発生しているか(発生時刻の特定)
- 影響範囲はどこまでか(影響を受けるユーザー/システムの特定)
- 直前に変更作業はなかったか(変更との相関確認)
- 影響の最小化(最初の15分)
- 被害拡大を防止するための措置(ネットワーク隔離、サービス停止等)
- セキュリティインシデントの可能性がある場合は証拠保全を優先
- 関係者への第一報(最初の30分)
- 上長・経営層への報告
- 影響を受けるユーザーへの通知(復旧見込みを含む)
- 必要に応じてベンダーサポートへ連絡
- 原因調査と復旧作業
- ログの確認(イベントログ、アプリケーションログ、監視ツールのアラート履歴)
- 原因の特定と復旧方法の検討
- 復旧作業の実施
- 復旧確認と事後報告
- 復旧後の動作確認
- ユーザーへの復旧完了通知
- 障害報告書の作成
⚠️ 注意
障害発生時に最もやってはいけないのは「焦ってよく分からないまま操作すること」です。特にサーバーの再起動は安易に行わないでください。再起動によってログが消えたり、データベースの不整合が悪化したりする可能性があります。まずは状況把握とログの保全を優先しましょう。
エスカレーションフロー
障害の規模に応じて、適切なレベルにエスカレーション(上位への報告・判断要請)を行います。
| 障害レベル | 定義 | エスカレーション先 | 報告期限 |
|---|---|---|---|
| レベル1(軽微) | 単一ユーザーの個別問題(PC不具合等) | 情シス担当者で対応完結 | - |
| レベル2(中程度) | 部署単位の影響(プリンター故障、アプリ不具合等) | IT責任者、部門長 | 1時間以内 |
| レベル3(重大) | 全社的な影響(メール停止、基幹システム障害等) | 経営層、全部門長 | 30分以内 |
| レベル4(緊急) | 事業停止レベル(ランサムウェア、データセンター障害等) | 経営トップ、外部専門家、場合により当局 | 即時 |
関係者への連絡
障害発生時の連絡は、「誰に」「何を」「いつ」伝えるかを事前に定めておきます。
連絡テンプレート(第一報)
- 件名:【障害発生】○○システム障害のお知らせ
- 発生日時:20XX年X月X日 XX:XX頃
- 影響範囲:○○システムが利用不可(全社/○○部門/○○拠点)
- 現在の状況:原因調査中/復旧作業中
- 復旧見込み:○時間後を目処に復旧予定/調査中のため未定
- 暫定対応:○○で代替してください
- 次回連絡予定:XX:XXに状況を更新します
暫定対応と恒久対応の切り分け
障害対応では「まず業務を復旧させること(暫定対応)」と「根本原因を解決すること(恒久対応)」を明確に分けて考えます。
| 区分 | 目的 | 例 |
|---|---|---|
| 暫定対応 | 業務への影響を最小限に抑える応急処置 | 予備機への切り替え、手動運用への移行、サービスの再起動 |
| 恒久対応 | 根本原因を解消し、再発を防止する | 故障部品の交換、設定変更、パッチ適用、設計見直し |
ポイント:障害発生時は暫定対応を優先し、まず業務を復旧させることに集中しましょう。根本原因の調査と恒久対応は、業務が復旧した後に落ち着いて取り組むべきです。ただし、暫定対応のまま放置して恒久対応を忘れると、同じ障害が再発します。必ず恒久対応のタスクを起票し、期限を設定してください。
ひとり情シスの視点:ひとりで障害対応を行う場合、冷静さを保つことが最も重要です。焦っている時ほどチェックリストに従い、手順を飛ばさないようにしましょう。また、障害対応中の作業ログ(何時何分に何をしたか)を記録する習慣をつけてください。後で障害報告書を書く際にも、次回の改善にも役立ちます。
✅ 完了済み