監視の仕組みと実装
なぜネットワーク監視が必要なのか
「ネットワークが遅い」「インターネットに繋がらない」といった障害は、ユーザーから報告される前に検知し、迅速に対応したいものです。ネットワーク監視は、障害の早期発見だけでなく、キャパシティ計画や予防保全にも役立ちます。
ひとり情シスの視点:ひとり情シスは常にネットワークを見張っているわけにはいきません。自動監視ツールを導入して「異常があれば通知が来る」仕組みを作ることで、少人数でも安定した運用が実現できます。
監視の種類
| 監視種類 | 内容 | 検知できること |
|---|---|---|
| 死活監視(Ping監視) | ICMP Pingで応答の有無を確認 | 機器のダウン、ネットワーク断 |
| ポート監視 | TCP接続でサービスポートの応答を確認 | サービス停止(Web、メール等) |
| SNMP監視 | SNMP GetでCPU使用率・メモリ等を取得 | リソース逼迫、パフォーマンス低下 |
| トラフィック監視 | 帯域使用量をリアルタイムで測定 | 回線逼迫、異常トラフィック |
| ログ監視 | Syslogやイベントログを収集・分析 | セキュリティ異常、設定変更 |
| URL監視 | HTTPリクエストで応答コードと応答時間を確認 | Webサイトのダウン・遅延 |
SNMP(Simple Network Management Protocol)
SNMPは、ネットワーク機器の情報を取得・設定するための標準プロトコルです。ほぼすべてのネットワーク機器(ルーター、スイッチ、AP、サーバー、UPSなど)がSNMPに対応しています。
SNMPの構成要素
| 要素 | 説明 |
|---|---|
| SNMPマネージャー | 監視サーバー。機器にリクエストを送り情報を収集 |
| SNMPエージェント | 監視対象の機器。マネージャーのリクエストに応答 |
| MIB(Management Information Base) | 監視項目のデータベース(OIDで識別) |
| コミュニティ文字列 | SNMPv1/v2cでの認証用パスワード |
| SNMPトラップ | エージェントが異常発生時にマネージャーへ自発的に通知 |
⚠️ 注意
SNMPv1/v2cはコミュニティ文字列が平文で流れるため、セキュリティリスクがあります。可能であれば暗号化と認証に対応したSNMPv3を使用してください。やむを得ずv2cを使う場合は、コミュニティ文字列を「public」のままにせず必ず変更し、SNMPトラフィックをACLで管理VLANに限定してください。
監視ツールの選定
| ツール | ライセンス | 特徴 | 中小企業での適性 |
|---|---|---|---|
| Zabbix | OSS(無料) | 高機能、柔軟な設定、日本語対応充実 | ◎(コスト重視ならベスト) |
| PRTG Network Monitor | 有料(100センサー無料) | GUI操作が簡単、自動検出機能 | ○(手軽に始めたい場合) |
| LibreNMS | OSS(無料) | SNMP特化、自動検出 | ○(NW機器中心の監視) |
| Nagios | OSS(無料) | 歴史が長い、プラグインが豊富 | △(設定が複雑) |
| Datadog | SaaS(有料) | クラウド統合監視、ダッシュボード充実 | △(コストが高め) |
ポイント:中小企業のひとり情シスにはZabbixが最もおすすめです。無料で使え、Ping監視からSNMP監視、Windowsのイベントログ監視まで幅広く対応します。仮想マシン1台(2vCPU/4GB RAM程度)で動作し、メールやTeams Webhookでアラート通知が可能です。
帯域監視
ネットワークの帯域使用状況を継続的に記録することで、回線増速の必要性やトラフィックの異常を把握できます。
- SNMP帯域監視:スイッチやルーターのインターフェースのトラフィック量をSNMPで取得
- NetFlow/sFlow:通信フローの詳細(送信元/宛先IP、プロトコル、帯域)を分析
- ミラーポート:スイッチの特定ポートの通信を別ポートにコピーして分析
しきい値設定とアラート
監視が効果を発揮するのは、適切なしきい値(閾値)を設定して異常を検知できるようにすることです。
📋 具体例
推奨しきい値の例:
・Ping応答 → 3回連続タイムアウトで「障害」アラート
・CPU使用率 → 80%以上5分継続で「警告」、95%以上で「障害」
・メモリ使用率 → 85%以上で「警告」、95%以上で「障害」
・ディスク使用率 → 80%以上で「警告」、90%以上で「障害」
・インターフェース帯域 → 70%以上で「警告」
・Ping応答時間 → 100ms以上で「警告」、500ms以上で「障害」
ひとり情シスの視点:しきい値は厳しすぎると大量のアラートが発生して「オオカミ少年状態」になり、本当の障害を見逃す原因になります。最初は緩めに設定し、誤報の状況を見ながら段階的に調整していくのが現実的です。夜間・休日のアラートはメールだけでなく、スマートフォンのプッシュ通知(Teams/Slack連携)も活用しましょう。
監視ダッシュボードの構築
監視ツールのダッシュボードを構築して、ネットワークの状態を一目で把握できるようにしましょう。
- ネットワーク構成図(マップ):機器の接続関係と稼働状態を可視化
- トラフィックグラフ:主要回線の帯域使用量を時系列グラフで表示
- アラート一覧:直近のアラートとその対応状況を表示
- 稼働率レポート:月次でネットワーク稼働率を集計し、SLA管理に活用
✅ 完了済み