サーバールームの温度異常でサーバーダウン
サーバールームの空調故障によるサーバー熱暴走からの復旧と、再発防止のための温度監視・冗長空調の導入手順をひとり情シスの視点で解説します。
状況:月曜朝にサーバーが全台停止していた
月曜日の朝、出社すると社員から「メールが見られない」「ファイルサーバーにつながらない」「業務システムが動かない」と次々に報告が上がりました。サーバールームに駆けつけると、異常な暑さを感じます。温度計を確認すると室温が48度を示しており、設置されている3台のサーバーとネットワーク機器がすべて停止していました。
空調機を確認すると、エラーランプが点灯して停止しています。金曜夜から土日の間にエアコンが故障し、サーバールームの温度が上昇し続けた結果、サーバーが熱暴走してシャットダウンしたのです。週末は無人のため、誰にも気づかれることなく約60時間、高温にさらされていたことになります。
⚠️ 注意
高温環境で停止したサーバーをすぐに再起動してはいけません。まず室温を下げてから慎重に起動してください。高温状態での通電は、CPUやメモリ、HDD/SSDの故障リスクを高めます。特にHDDは熱によるヘッドの位置ずれが発生している可能性があり、無理な起動でデータを失う恐れがあります。
原因:なぜサーバールームの温度管理が甘かったのか
今回の障害の根本原因を分析すると、以下の複合的な問題がありました。
- 空調の単一障害点:サーバールームの空調がエアコン1台のみで、故障時の代替手段がなかった
- 温度監視の欠如:室温の監視・アラート機能がなく、異常温度の発生を誰にも通知できなかった
- サーバーの温度保護設定の未確認:BIOS/iLO/iDRAC等の温度保護機能やアラート設定が未構成だった
- サーバールームの構造的問題:窓のない密閉空間で、エアコンが止まると短時間で温度が上昇する環境
💡 ポイント
ひとり情シスの現場では、「サーバールーム」と言いつつ実態は「サーバーが置いてある物置」というケースが少なくありません。しかし、サーバーは24時間365日稼働する精密機器です。適切な温度環境(18~27度)を維持できなければ、故障リスクが格段に高まります。温度管理は「コスト」ではなく「保険」と考えましょう。
対応手順:復旧作業
ステップ1:サーバールームの温度を下げる
サーバーを起動する前に、まず室温を適正範囲に戻します。
- サーバールームのドアを開放して換気を開始
- ポータブルスポットクーラーや扇風機を設置して送風(なければ総務に手配依頼)
- 可能であれば、別のフロアからポータブルエアコンを借用
- 室温が25度以下に低下するまで待つ(最低30分~1時間)
📋 具体例
緊急の冷却手段として、以下が有効です:
・ポータブルスポットクーラー(ナカトミ MAC-20 等):1万円台で購入可能。排熱ダクトを室外に出す必要あり
・サーキュレーター:室内の空気を循環させ、ドアからの換気を促進
・凍らせたペットボトル:応急処置として、凍らせたペットボトルをサーバー周辺に配置し、扇風機で風を送る(結露に注意)
長期的にはポータブルスポットクーラーを1台備品として購入しておくことを強く推奨します。
ステップ2:空調機の修理・代替手配
エアコンのメーカーサポートまたは施設管理会社に連絡し、修理を依頼します。
- エアコンの型番とエラーコードを伝える
- 修理の所要日数を確認(部品取り寄せが必要な場合、数日~1週間かかることも)
- 修理完了までの間、ポータブルクーラーで代替運用
ステップ3:サーバーの慎重な起動
室温が25度以下に下がったことを確認してから、以下の順序でサーバーを起動します。
- ネットワーク機器(ルーター、スイッチ)から起動。5分程度待ってLEDが正常に点灯することを確認
- Active Directoryサーバー(ドメインコントローラー)を起動。他のサーバーの認証に必要なため最優先
- ファイルサーバーを起動。RAID状態を確認し、Degraded(縮退)になっていないかチェック
- 業務アプリケーションサーバーを起動。アプリケーションの正常動作を確認
⚠️ 注意
サーバー起動時にRAIDの状態が「Degraded」や「Failed」を示している場合、HDDが熱で故障している可能性があります。この状態でサーバーを使い続けると、もう1本のHDDが故障した時点でデータ全損になります。速やかにバックアップを取得し、故障したHDDの交換を手配してください。
ステップ4:全システムの動作確認
すべてのサーバーが起動したら、以下のチェックリストで動作を確認します。
- Active Directory認証(ドメインログイン)が正常に動作するか
- ファイルサーバーの共有フォルダにアクセスし、ファイルの読み書きができるか
- メールの送受信が正常に行えるか
- 業務アプリケーション(基幹システム等)が正常に動作するか
- インターネット接続が正常か
- プリンターへの印刷が可能か
ステップ5:社内への報告
📋 具体例
報告メール例:
「本日朝から発生していた社内システム障害について、現在全サービスが復旧しています。原因はサーバールームの空調故障による温度上昇でサーバーが停止したものです。現在、空調の修理を手配中であり、代替の冷却設備で運用しています。今後の再発防止策として、温度監視システムの導入と空調設備の冗長化を実施いたします。詳細は追ってご報告いたします。」
再発防止策
1. 温度監視・アラートシステムの導入
サーバールームの温度を24時間監視し、異常時に即座にアラートを受け取れる仕組みを構築します。
低コストな温度監視方法
- SwitchBot温湿度計Plus + Hub Mini:約5,000円。温度が設定値を超えたらスマートフォンにプッシュ通知。LINE通知も設定可能
- Raspberry Pi + 温度センサー:約10,000円。DHT22センサーで温度・湿度を測定し、Slackやメールで通知。グラフ化も可能
- SNMP対応温度計(EATON等):約30,000円~。Zabbix等の監視ツールと連携し、本格的な監視が可能
💡 ポイント
ひとり情シスにおすすめなのはSwitchBot温湿度計です。設定に専門知識が不要で、スマートフォンアプリから5分で設定完了します。温度が30度を超えたら通知、35度を超えたら緊急通知、のように2段階でアラートを設定しておくと、異常の初期段階で対応できます。月額費用もかかりません。
2. 空調設備の冗長化
空調が1台のみでは単一障害点になります。以下のいずれかの対策を実施します。
- 空調機の2台化:メインのエアコンに加え、バックアップ用のエアコンを設置。1台が故障しても室温を維持できる
- ポータブルスポットクーラーの常備:エアコン修理までの緊急用として1台常備しておく
- 換気ファンの設置:サーバールームの壁に換気ファンを設置し、ドアを開けなくても換気できるようにする
3. サーバー側の温度保護設定
サーバー自体にも温度保護の設定を行います。
- BIOS設定:温度閾値でのシャットダウン設定を確認(多くのサーバーはデフォルトで有効)
- 管理ツール:HPE iLO、Dell iDRAC、Lenovo XClarity等のサーバー管理ツールでメールアラートを設定
- OS上の監視:Windows Serverのイベントログで温度警告を監視
📋 具体例
Dell PowerEdgeサーバーの場合、iDRACの管理画面(https://サーバーのiDRAC IPアドレス)にアクセスし、「Alerts」設定でメール通知を設定できます。
・Warning温度(黄色):吸気温度35度 → メール通知
・Critical温度(赤色):吸気温度42度 → メール通知 + 自動シャットダウン
iDRACはサーバーの電源がオフでも動作するため、サーバーが熱で停止した後もアラートを送信できます。
4. UPS(無停電電源装置)の導入
今回の直接的な原因ではありませんが、サーバールームにUPSを導入しておくと、停電時にサーバーを安全にシャットダウンできます。UPSのソフトウェアで「バッテリー残量が30%以下になったらOSを自動シャットダウン」のような設定が可能です。
5. 定期点検スケジュールの策定
- 毎日:温度監視アラートの確認(自動化すれば手間なし)
- 毎週:サーバールームの目視確認(温度、湿度、異臭、異音)
- 半年に1回:エアコンのフィルター清掃
- 年に1回:エアコンの専門業者による点検
⚠️ 注意
サーバールームのエアコンは24時間稼働するため、一般家庭用よりもはるかに負荷が高く、故障しやすいです。家庭用エアコンをサーバールームに設置している場合、設計想定外の連続運転により寿命が短くなっている可能性があります。可能であれば、24時間運転対応のパッケージエアコンまたは精密空調機への更新を検討しましょう。
💡 ポイント
ひとり情シスの視点で最も大切なのは、「週末や夜間の異常に気づける仕組み」を作ることです。温度監視のスマートフォン通知さえ設定しておけば、週末にエアコンが壊れても「すぐに出社して対応する」か「リモートでサーバーをシャットダウンする」という判断ができます。気づかずに月曜まで放置されるのが最悪のパターンです。5,000円の温度計が数百万円のデータ損失を防ぎます。
まとめ
- サーバールームの空調故障は全サーバーの停止という重大な障害を引き起こす
- 高温停止したサーバーは室温を十分に下げてから慎重に起動する
- 温度監視システム(SwitchBot等)の導入は低コストで大きな効果がある
- 空調設備は冗長化し、単一障害点をなくす
- 週末や夜間の異常をリアルタイムで通知する仕組みが最重要