保守点検と定期メンテナンス
保守点検と定期メンテナンス
サーバーやネットワーク機器は「動いているから大丈夫」ではありません。定期的な保守点検を行わなければ、小さな兆候を見逃して大きな障害に発展します。ひとり情シスにとって定期メンテナンスは「忙しくて後回し」になりがちですが、計画的な保守は予防医療と同じ――問題が小さいうちに発見・対処することで、大規模障害の発生を防ぎ、結果的に自分の時間を守ることができます。
日次チェック項目
毎日実施すべき最低限の確認項目です。所要時間の目安は15〜30分です。
| チェック項目 | 確認内容 | 確認方法 | 異常時の対応 |
|---|---|---|---|
| 目視確認 | サーバーやネットワーク機器の異常LED、異音、異臭の有無 | サーバールームの巡回(またはリモートのiLO/iDRAC確認) | 異常LEDがあれば該当機器のログを確認。異臭は電源系の故障の可能性があり、即座に調査 |
| バックアップ成否 | 前夜のバックアップジョブが正常完了したか | バックアップソフトのダッシュボード/メール通知 | 失敗していれば原因を特定し、手動で再実行。3日連続失敗は緊急対応 |
| アラート確認 | 監視ツール(Zabbix/PRTG等)のアラートを確認 | 監視ダッシュボード/メール/チャット通知 | 未対応アラートの優先度を判断し、対応計画を立てる |
| ログ確認 | OSのイベントログ/syslogにエラーがないか | イベントビューアー/journalctl -p err -b | 繰り返し発生するエラーは根本原因を調査 |
| サービス稼働確認 | 主要なサービス(AD、DNS、DHCP、ファイルサーバー等)が正常稼働しているか | 監視ツール、またはping/ポートチェック | サービスダウンは即座に復旧対応 |
週次チェック項目
毎週実施するチェック項目です。所要時間の目安は1〜2時間です。月曜日の朝や金曜日の午後など、定例時間を決めて習慣化しましょう。
| チェック項目 | 確認内容 | 確認方法 | 基準値/閾値 |
|---|---|---|---|
| ディスク容量 | 各サーバーのディスク使用率 | df -h / Windowsディスク管理 / 監視ツール | 使用率80%超えで警告、90%超えで緊急対応 |
| パフォーマンス確認 | CPU・メモリ使用率の傾向 | 監視ツールのグラフ/パフォーマンスモニター | 平均CPU 70%超え、メモリ85%超えで調査 |
| イベントログ精査 | Warning以上のログを確認し、傾向を把握 | イベントビューアー/syslog | 同一エラーの繰り返し発生がないか |
| セキュリティパッチ確認 | 未適用の重要パッチがないか | WSUS/Windows Update/apt list --upgradable | Critical/Highは1週間以内に適用計画 |
| バックアップ検証 | バックアップデータの整合性(リストアテストまではしなくてもサイズやログの確認) | バックアップソフトのレポート | バックアップサイズが前週と大きく異なる場合は要調査 |
月次チェック項目
毎月実施するチェック項目です。所要時間の目安は2〜4時間です。
| チェック項目 | 確認内容 | 確認方法 | 備考 |
|---|---|---|---|
| UPSバッテリーテスト | UPSのセルフテスト実施とバッテリー状態確認 | UPS管理ソフト/本体パネル | 異常があればバッテリー交換を計画 |
| ファームウェア更新確認 | サーバー/NW機器のファームウェアに新版があるか | メーカーのサポートサイト確認 | セキュリティ修正を含むものは優先適用 |
| ライセンス期限確認 | ソフトウェアライセンスやサブスクリプションの期限 | ライセンス管理台帳 | 3ヶ月前にはリニューアル手続きを開始 |
| 温度・湿度推移レビュー | サーバールームの温湿度の月間トレンド確認 | 環境監視ツール/温湿度データロガー | 季節変動に応じた空調設定の調整 |
| AD/ユーザーアカウント棚卸 | 退職者アカウントの無効化、不要アカウントの確認 | AD管理ツール/PowerShell | 90日以上ログインのないアカウントを精査 |
| セキュリティパッチ適用 | 月例パッチ(Microsoft Patch Tuesday等)の適用 | WSUS/手動適用 | 検証環境でテスト後に本番適用 |
年次チェック項目
年に1回は実施すべき大規模な点検項目です。年度末や閑散期に計画的に実施しましょう。
| チェック項目 | 確認内容 | 所要時間目安 | 備考 |
|---|---|---|---|
| 機器棚卸し | IT資産台帳と実機の突合。シリアル番号、設置場所、保守期限の確認 | 半日〜1日 | 棚卸し結果を台帳に反映 |
| 保守契約更新 | 各機器の保守契約の更新手続き。EOL/EOSL機器の確認 | 2〜3時間 | 更新漏れがないかチェック |
| 物理清掃 | サーバー、ネットワーク機器、ラック内部、フィルターの清掃 | 半日〜1日 | エアダスターで内部のホコリ除去。フィルター交換 |
| バッテリー交換計画 | UPSバッテリーの残寿命確認と交換計画策定 | 1時間 | 寿命3〜5年を超えたバッテリーは交換 |
| DR(災害復旧)訓練 | バックアップからのリストアテスト、フェイルオーバーテスト | 半日〜1日 | 年1回は実際にリストアして復旧できることを確認 |
| 容量計画 | 今後1年間の機器増設・リプレース計画と予算策定 | 2〜3時間 | トレンドデータを基に予測 |
| ネットワーク構成図・手順書の更新 | 変更があった箇所を反映。新規手順の追加 | 2〜3時間 | 最新の状態を維持する |
保守契約の種類と選び方
ハードウェアメーカーやベンダーとの保守契約は、障害発生時の復旧速度を左右する重要な契約です。
保守契約の種類
| 契約種類 | 対応内容 | 対応時間 | 費用目安(年額) | 適した機器 |
|---|---|---|---|---|
| センドバック保守 | 故障機器をメーカーに送付して修理。代替機の貸出あり/なし | 修理に1〜2週間 | 安価(機器価格の5〜8%) | 非重要なPCや周辺機器 |
| 翌営業日オンサイト (9×5 NBD) | 障害受付後、翌営業日にエンジニアが現地訪問して修理 | 翌営業日 | 中程度(機器価格の8〜15%) | 一般的なサーバー、ネットワーク機器 |
| 当日4時間オンサイト (9×5×4h / 24×7×4h) | 障害受付後、4時間以内にエンジニアが現地訪問 | 受付後4時間以内 | 高額(機器価格の15〜25%) | 基幹サーバー、コアスイッチ |
| 24時間365日対応 (24×7×4h) | 深夜・休日含む24時間対応。4時間以内の現地訪問 | 24時間受付、4時間以内 | 非常に高額(機器価格の20〜30%以上) | 業務停止が許されない基幹系 |
SLA(Service Level Agreement)の確認ポイント
ポイント:保守契約を締結する際は、以下のSLA項目を必ず確認してください。
1. 対応時間帯:9:00〜17:00のみか、24時間か
2. 応答時間:連絡してからの初動対応時間
3. 復旧目標時間:障害発生からサービス復旧までの時間
4. 交換部品の保有:主要部品のオンサイト保管の有無
5. 対応範囲:ハードウェアのみか、ソフトウェア(OS設定等)も含むか
6. エスカレーション:対応が遅延した場合のエスカレーションフロー
中小企業では全機器に24×7保守を付けるのは予算的に困難です。機器の重要度に応じて保守レベルを使い分けるのが現実的です。
EOL(End of Life)/ EOSL(End of Service Life)への対応
EOLはメーカーが製品の販売を終了すること、EOSLはメーカーが保守サービスを終了することを指します。EOSL後は部品の入手も困難になり、障害発生時に修理ができなくなります。
⚠ 注意:EOSL到達後も機器を使い続けることは大きなリスクです。対応策としては、1. メーカー保守終了前にリプレース(最善策)、2. 第三者保守(EOSL延長保守)の利用(ネットワンパートナーズやデータライブなどが提供)、3. 予備機の確保(同型機を中古で確保してスペアに)があります。特にサーバーは5〜7年でリプレースするのが一般的です。EOL/EOSL情報はメーカーのサポートサイトで確認できます。
保守点検記録の管理
点検結果を記録として残すことは、トレンド分析と組織としての引継ぎの両面で重要です。
チェックリストテンプレートの例
📋 具体例
保守点検チェックリストのテンプレート例(Excelまたはスプレッドシートで管理):
■ ヘッダー情報
・点検日:____年__月__日
・点検者:__________
・点検種別:□日次 □週次 □月次 □年次
■ チェック項目
| No | カテゴリ | チェック項目 | 結果 | 備考 |
| 1 | 目視 | サーバーLED異常なし | □OK □NG | |
| 2 | 目視 | NW機器LED異常なし | □OK □NG | |
| 3 | 目視 | 異音・異臭なし | □OK □NG | |
| 4 | バックアップ | 全ジョブ正常完了 | □OK □NG | |
| 5 | 監視 | 未対応アラートなし | □OK □NG | |
| 6 | ディスク | 使用率80%未満 | □OK □NG | 使用率__% |
| 7 | パフォーマンス | CPU/メモリ正常範囲 | □OK □NG | |
| 8 | UPS | バッテリー正常 | □OK □NG | |
| 9 | 環境 | 温度/湿度正常範囲 | □OK □NG | __℃ / __%RH |
| 10 | セキュリティ | 未適用パッチなし | □OK □NG | |
■ 特記事項:__________
■ 次回対応予定:__________
記録の保管とトレンド分析
チェックリストの記録は最低3年間保管してください。記録を蓄積することで、以下のようなトレンド分析が可能になります。
| 分析項目 | 把握できること | 活用方法 |
|---|---|---|
| ディスク使用量の推移 | 増加ペース、容量枯渇の予測時期 | ストレージ増設やデータ整理の計画 |
| 障害発生頻度 | 特定機器の故障傾向 | リプレース計画の優先順位付け |
| バックアップ失敗率 | バックアップ基盤の信頼性 | バックアップ方式の見直し |
| パッチ適用状況 | セキュリティ対応の遅延傾向 | パッチ適用プロセスの改善 |
ひとり情シスの現実的な保守運用
理想的な保守運用を完璧に実施するのは、ひとり情シスには困難です。優先順位を明確にして、限られた時間で最大の効果を得ることが重要です。
最低限やるべきこと(手動)
ポイント:以下は「これだけは毎日やる」最低限のリストです。すべて合わせて15分以内で完了します。
1. バックアップ成否の確認(メール通知で5分)
2. 監視アラートの確認(ダッシュボード確認で5分)
3. サーバールームの環境異常がないことの確認(巡回またはリモート確認で5分)
この3つだけは何があっても毎日続けてください。これだけで大規模障害の80%は予兆の段階で発見できます。
自動化すべきこと
| 自動化対象 | 自動化の方法 | ツール例 |
|---|---|---|
| バックアップ | スケジュール実行と結果通知 | Veeam、Windows Server Backup、rsync+cron |
| 監視・アラート | 閾値監視と通知 | Zabbix、PRTG、Datadog、Nagios |
| ディスク容量監視 | 閾値超えで自動通知 | 監視ツール、または自作スクリプト |
| セキュリティパッチ | WSUSによる自動配信(検証後の承認フロー付き) | WSUS、Intune、unattended-upgrades |
| ログ収集・分析 | 集中ログ管理と異常検知 | rsyslog、Elasticsearch+Kibana、Graylog |
| UPS管理 | 自動セルフテストと自動シャットダウン | PowerChute、NUT |
外注すべきこと
| 外注項目 | 理由 | 外注先の例 |
|---|---|---|
| サーバールームの物理清掃 | 専門業者のほうが安全かつ効率的 | 施設管理会社、IT保守業者 |
| UPSバッテリー交換 | 重量物の作業、感電リスク | UPSメーカーの保守サービス |
| ネットワーク配線工事 | 品質が通信安定性に直結。プロの仕上がりが必要 | 電気工事業者、ネットワーク施工業者 |
| 24×7の深夜・休日監視 | ひとりでは24時間対応不可能 | MSP(マネージドサービスプロバイダー) |
| DR訓練の計画・実施支援 | 客観的な評価と改善提案が必要 | ITコンサルタント、SIer |
📋 具体例
ひとり情シスの1週間の保守ルーティン例:
【毎日(15分)】
・出社直後にバックアップ通知メールを確認
・監視ダッシュボードでアラート確認
・サーバールーム巡回(またはiLO/iDRACで温度確認)
【月曜日(+30分)】
・前週のディスク容量トレンド確認
・未対応チケット/タスクの棚卸し
【水曜日(+30分)】
・イベントログ精査(サーバー2〜3台分)
・セキュリティパッチの確認
【金曜日(+30分)】
・週次チェックリストの記入と保管
・来週の保守作業予定の確認
【毎月第1金曜日(+2時間)】
・UPSセルフテスト実行
・ファームウェア更新確認
・ライセンス期限確認
・月次チェックリスト記入
ひとり情シスの視点:保守点検は「完璧にやること」よりも「継続すること」が圧倒的に重要です。壮大なチェックリストを作っても3日で挫折するなら、3項目のチェックリストを毎日続ける方がはるかに価値があります。まずは「バックアップ確認・アラート確認・環境確認」の3つから始めて、慣れてきたら徐々に項目を増やしていきましょう。また、保守作業を記録として残すことは、自分の仕事の「見える化」にもなります。経営者に対して「毎月これだけの保守作業を行ってシステムの安定運用を維持しています」と具体的に説明できるのは、ひとり情シスの存在価値を示す重要な武器です。
✅ 完了済み