🏗️ サーバー構築・運用 第6章-2節

保守点検と定期メンテナンス

保守点検と定期メンテナンス

サーバーやネットワーク機器は「動いているから大丈夫」ではありません。定期的な保守点検を行わなければ、小さな兆候を見逃して大きな障害に発展します。ひとり情シスにとって定期メンテナンスは「忙しくて後回し」になりがちですが、計画的な保守は予防医療と同じ――問題が小さいうちに発見・対処することで、大規模障害の発生を防ぎ、結果的に自分の時間を守ることができます。

日次チェック項目

毎日実施すべき最低限の確認項目です。所要時間の目安は15〜30分です。

チェック項目確認内容確認方法異常時の対応
目視確認サーバーやネットワーク機器の異常LED、異音、異臭の有無サーバールームの巡回(またはリモートのiLO/iDRAC確認)異常LEDがあれば該当機器のログを確認。異臭は電源系の故障の可能性があり、即座に調査
バックアップ成否前夜のバックアップジョブが正常完了したかバックアップソフトのダッシュボード/メール通知失敗していれば原因を特定し、手動で再実行。3日連続失敗は緊急対応
アラート確認監視ツール(Zabbix/PRTG等)のアラートを確認監視ダッシュボード/メール/チャット通知未対応アラートの優先度を判断し、対応計画を立てる
ログ確認OSのイベントログ/syslogにエラーがないかイベントビューアー/journalctl -p err -b繰り返し発生するエラーは根本原因を調査
サービス稼働確認主要なサービス(AD、DNS、DHCP、ファイルサーバー等)が正常稼働しているか監視ツール、またはping/ポートチェックサービスダウンは即座に復旧対応

週次チェック項目

毎週実施するチェック項目です。所要時間の目安は1〜2時間です。月曜日の朝や金曜日の午後など、定例時間を決めて習慣化しましょう。

チェック項目確認内容確認方法基準値/閾値
ディスク容量各サーバーのディスク使用率df -h / Windowsディスク管理 / 監視ツール使用率80%超えで警告、90%超えで緊急対応
パフォーマンス確認CPU・メモリ使用率の傾向監視ツールのグラフ/パフォーマンスモニター平均CPU 70%超え、メモリ85%超えで調査
イベントログ精査Warning以上のログを確認し、傾向を把握イベントビューアー/syslog同一エラーの繰り返し発生がないか
セキュリティパッチ確認未適用の重要パッチがないかWSUS/Windows Update/apt list --upgradableCritical/Highは1週間以内に適用計画
バックアップ検証バックアップデータの整合性(リストアテストまではしなくてもサイズやログの確認)バックアップソフトのレポートバックアップサイズが前週と大きく異なる場合は要調査

月次チェック項目

毎月実施するチェック項目です。所要時間の目安は2〜4時間です。

チェック項目確認内容確認方法備考
UPSバッテリーテストUPSのセルフテスト実施とバッテリー状態確認UPS管理ソフト/本体パネル異常があればバッテリー交換を計画
ファームウェア更新確認サーバー/NW機器のファームウェアに新版があるかメーカーのサポートサイト確認セキュリティ修正を含むものは優先適用
ライセンス期限確認ソフトウェアライセンスやサブスクリプションの期限ライセンス管理台帳3ヶ月前にはリニューアル手続きを開始
温度・湿度推移レビューサーバールームの温湿度の月間トレンド確認環境監視ツール/温湿度データロガー季節変動に応じた空調設定の調整
AD/ユーザーアカウント棚卸退職者アカウントの無効化、不要アカウントの確認AD管理ツール/PowerShell90日以上ログインのないアカウントを精査
セキュリティパッチ適用月例パッチ(Microsoft Patch Tuesday等)の適用WSUS/手動適用検証環境でテスト後に本番適用

年次チェック項目

年に1回は実施すべき大規模な点検項目です。年度末や閑散期に計画的に実施しましょう。

チェック項目確認内容所要時間目安備考
機器棚卸しIT資産台帳と実機の突合。シリアル番号、設置場所、保守期限の確認半日〜1日棚卸し結果を台帳に反映
保守契約更新各機器の保守契約の更新手続き。EOL/EOSL機器の確認2〜3時間更新漏れがないかチェック
物理清掃サーバー、ネットワーク機器、ラック内部、フィルターの清掃半日〜1日エアダスターで内部のホコリ除去。フィルター交換
バッテリー交換計画UPSバッテリーの残寿命確認と交換計画策定1時間寿命3〜5年を超えたバッテリーは交換
DR(災害復旧)訓練バックアップからのリストアテスト、フェイルオーバーテスト半日〜1日年1回は実際にリストアして復旧できることを確認
容量計画今後1年間の機器増設・リプレース計画と予算策定2〜3時間トレンドデータを基に予測
ネットワーク構成図・手順書の更新変更があった箇所を反映。新規手順の追加2〜3時間最新の状態を維持する

保守契約の種類と選び方

ハードウェアメーカーやベンダーとの保守契約は、障害発生時の復旧速度を左右する重要な契約です。

保守契約の種類

契約種類対応内容対応時間費用目安(年額)適した機器
センドバック保守故障機器をメーカーに送付して修理。代替機の貸出あり/なし修理に1〜2週間安価(機器価格の5〜8%)非重要なPCや周辺機器
翌営業日オンサイト
(9×5 NBD)
障害受付後、翌営業日にエンジニアが現地訪問して修理翌営業日中程度(機器価格の8〜15%)一般的なサーバー、ネットワーク機器
当日4時間オンサイト
(9×5×4h / 24×7×4h)
障害受付後、4時間以内にエンジニアが現地訪問受付後4時間以内高額(機器価格の15〜25%)基幹サーバー、コアスイッチ
24時間365日対応
(24×7×4h)
深夜・休日含む24時間対応。4時間以内の現地訪問24時間受付、4時間以内非常に高額(機器価格の20〜30%以上)業務停止が許されない基幹系

SLA(Service Level Agreement)の確認ポイント

ポイント:保守契約を締結する際は、以下のSLA項目を必ず確認してください。

1. 対応時間帯:9:00〜17:00のみか、24時間か
2. 応答時間:連絡してからの初動対応時間
3. 復旧目標時間:障害発生からサービス復旧までの時間
4. 交換部品の保有:主要部品のオンサイト保管の有無
5. 対応範囲:ハードウェアのみか、ソフトウェア(OS設定等)も含むか
6. エスカレーション:対応が遅延した場合のエスカレーションフロー

中小企業では全機器に24×7保守を付けるのは予算的に困難です。機器の重要度に応じて保守レベルを使い分けるのが現実的です。

EOL(End of Life)/ EOSL(End of Service Life)への対応

EOLはメーカーが製品の販売を終了すること、EOSLはメーカーが保守サービスを終了することを指します。EOSL後は部品の入手も困難になり、障害発生時に修理ができなくなります。

⚠ 注意:EOSL到達後も機器を使い続けることは大きなリスクです。対応策としては、1. メーカー保守終了前にリプレース(最善策)、2. 第三者保守(EOSL延長保守)の利用(ネットワンパートナーズやデータライブなどが提供)、3. 予備機の確保(同型機を中古で確保してスペアに)があります。特にサーバーは5〜7年でリプレースするのが一般的です。EOL/EOSL情報はメーカーのサポートサイトで確認できます。

保守点検記録の管理

点検結果を記録として残すことは、トレンド分析と組織としての引継ぎの両面で重要です。

チェックリストテンプレートの例

📋 具体例

保守点検チェックリストのテンプレート例(Excelまたはスプレッドシートで管理):

■ ヘッダー情報
・点検日:____年__月__日
・点検者:__________
・点検種別:□日次 □週次 □月次 □年次

■ チェック項目
| No | カテゴリ | チェック項目 | 結果 | 備考 |
| 1 | 目視 | サーバーLED異常なし | □OK □NG | |
| 2 | 目視 | NW機器LED異常なし | □OK □NG | |
| 3 | 目視 | 異音・異臭なし | □OK □NG | |
| 4 | バックアップ | 全ジョブ正常完了 | □OK □NG | |
| 5 | 監視 | 未対応アラートなし | □OK □NG | |
| 6 | ディスク | 使用率80%未満 | □OK □NG | 使用率__% |
| 7 | パフォーマンス | CPU/メモリ正常範囲 | □OK □NG | |
| 8 | UPS | バッテリー正常 | □OK □NG | |
| 9 | 環境 | 温度/湿度正常範囲 | □OK □NG | __℃ / __%RH |
| 10 | セキュリティ | 未適用パッチなし | □OK □NG | |

■ 特記事項:__________
■ 次回対応予定:__________

記録の保管とトレンド分析

チェックリストの記録は最低3年間保管してください。記録を蓄積することで、以下のようなトレンド分析が可能になります。

分析項目把握できること活用方法
ディスク使用量の推移増加ペース、容量枯渇の予測時期ストレージ増設やデータ整理の計画
障害発生頻度特定機器の故障傾向リプレース計画の優先順位付け
バックアップ失敗率バックアップ基盤の信頼性バックアップ方式の見直し
パッチ適用状況セキュリティ対応の遅延傾向パッチ適用プロセスの改善

ひとり情シスの現実的な保守運用

理想的な保守運用を完璧に実施するのは、ひとり情シスには困難です。優先順位を明確にして、限られた時間で最大の効果を得ることが重要です。

最低限やるべきこと(手動)

ポイント:以下は「これだけは毎日やる」最低限のリストです。すべて合わせて15分以内で完了します。

1. バックアップ成否の確認(メール通知で5分)
2. 監視アラートの確認(ダッシュボード確認で5分)
3. サーバールームの環境異常がないことの確認(巡回またはリモート確認で5分)

この3つだけは何があっても毎日続けてください。これだけで大規模障害の80%は予兆の段階で発見できます。

自動化すべきこと

自動化対象自動化の方法ツール例
バックアップスケジュール実行と結果通知Veeam、Windows Server Backup、rsync+cron
監視・アラート閾値監視と通知Zabbix、PRTG、Datadog、Nagios
ディスク容量監視閾値超えで自動通知監視ツール、または自作スクリプト
セキュリティパッチWSUSによる自動配信(検証後の承認フロー付き)WSUS、Intune、unattended-upgrades
ログ収集・分析集中ログ管理と異常検知rsyslog、Elasticsearch+Kibana、Graylog
UPS管理自動セルフテストと自動シャットダウンPowerChute、NUT

外注すべきこと

外注項目理由外注先の例
サーバールームの物理清掃専門業者のほうが安全かつ効率的施設管理会社、IT保守業者
UPSバッテリー交換重量物の作業、感電リスクUPSメーカーの保守サービス
ネットワーク配線工事品質が通信安定性に直結。プロの仕上がりが必要電気工事業者、ネットワーク施工業者
24×7の深夜・休日監視ひとりでは24時間対応不可能MSP(マネージドサービスプロバイダー)
DR訓練の計画・実施支援客観的な評価と改善提案が必要ITコンサルタント、SIer

📋 具体例

ひとり情シスの1週間の保守ルーティン例:

【毎日(15分)】
・出社直後にバックアップ通知メールを確認
・監視ダッシュボードでアラート確認
・サーバールーム巡回(またはiLO/iDRACで温度確認)

【月曜日(+30分)】
・前週のディスク容量トレンド確認
・未対応チケット/タスクの棚卸し

【水曜日(+30分)】
・イベントログ精査(サーバー2〜3台分)
・セキュリティパッチの確認

【金曜日(+30分)】
・週次チェックリストの記入と保管
・来週の保守作業予定の確認

【毎月第1金曜日(+2時間)】
・UPSセルフテスト実行
・ファームウェア更新確認
・ライセンス期限確認
・月次チェックリスト記入

ひとり情シスの視点:保守点検は「完璧にやること」よりも「継続すること」が圧倒的に重要です。壮大なチェックリストを作っても3日で挫折するなら、3項目のチェックリストを毎日続ける方がはるかに価値があります。まずは「バックアップ確認・アラート確認・環境確認」の3つから始めて、慣れてきたら徐々に項目を増やしていきましょう。また、保守作業を記録として残すことは、自分の仕事の「見える化」にもなります。経営者に対して「毎月これだけの保守作業を行ってシステムの安定運用を維持しています」と具体的に説明できるのは、ひとり情シスの存在価値を示す重要な武器です。