JPWO2019142414A1

JPWO2019142414A1 - ネットワーク監視システム、方法及びプログラム

Info

Publication number: JPWO2019142414A1
Application number: JP2019565709A
Authority: JP
Inventors: 理一郎海老澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-01-19
Filing date: 2018-10-12
Publication date: 2021-01-07
Anticipated expiration: 2038-10-12
Also published as: US20210135924A1; JP7234942B2; WO2019142414A1

Abstract

複数の監視データの取得によるネットワーク負荷の増大を防止するとともに、障害検出の遅延を抑制する。実施の形態に係る、ネットワークを介して接続された監視対象機器を監視するネットワーク監視システム（１０）は、ネットワーク機器（２１）、（２２）、（２３）の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得するネットワーク監視装置（１１）、ネットワーク機器（２１）、（２２）、（２３）に障害が発生する毎に、障害が発生するまでの複数の監視データを分析して、障害発生の予兆情報を生成する分析エンジン（１３）と、生成された予兆情報を蓄積する記憶装置とを備え、分析エンジン（１３）は、蓄積された予兆情報に基づいて、複数の監視データのそれぞれの監視頻度を変更する。

Description

本発明は、ネットワーク監視システム、方法及びプログラムを格納した非一時的なコンピュータ可読媒体に関する。

近年、ネットワークには、種々の目的で、多数のルータやスイッチ等のネットワーク機器やサーバマシン、クライアントマシン等の端末装置が接続され、ネットワークシステムが構築されている。このようなネットワークシステムを安全に保守するために、ネットワークシステムを周期的に継続して監視するネットワーク監視装置が用いられる。

特許文献１には、監視対象、監視項目、監視する所定のインターバルなどが定められた監視ポリシーに従って監視を実行するネットワーク監視装置が開示されている。ネットワーク監視装置において、可能な限りの監視対象及び監視項目をもれなく監視するとネットワークシステム全体に多大な負荷がかかるため、特許文献１ではネットワークシステムの状態に応じて動的に監視ポリシーを変更する技術が提案されている。

このネットワーク監視装置は、当該監視ポリシーによって得られた過去及び／又は現在の監視データに基づいて将来の状態を示す予測監視データを算出し、該予測監視データに基づいて監視ポリシーを動的に変更している。例えば、過去の測定日毎のレスポンスタイムに基づいて、近似を用いた予測モデルによる予測監視データを算出し、該予測監視データに基づき監視項目を追加する。また、監視対象等に与える負荷を最小限に抑えるために、障害がないと判断されると、新たに追加した監視項目を削除している。

特開２０１０−１４１６５５号公報

引用文献１では、統計的に障害発生が相対的に高い監視対象、監視項目に対して、監視の頻度を増大させている。しかし、ネットワークシステムを構成する機器、装置等が高機能化して障害発生の頻度が相対的に少なくなると、統計的な障害発生予測をするために取得する監視データが少なくなる。このため、監視データを効率的に取得しないと、取得した監視データによりネットワーク帯域を逼迫する恐れがある。また、ネットワークシステムが複雑化してくるとネットワーク機器同士が影響しあい、障害発生予測が困難になる。本開示の目的は、上述した課題を解決するネットワーク監視システム、方法及びプログラムを格納した非一時的なコンピュータ可読媒体を提供することにある。

本発明の一態様に係るネットワークシステム監視システムは、ネットワークを介して接続された監視対象機器を監視するネットワーク監視システムであって、前記ネットワーク監視システムは、前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得するネットワーク監視装置と、前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成する分析装置と、生成された前記予兆情報を蓄積する記憶装置とを備え、前記分析装置は、蓄積された前記予兆情報に基づいて、複数の前記監視データのそれぞれの前記監視頻度を変更する。

本発明によれば、複数の監視データの取得によるネットワーク負荷の増大を防止するとともに、障害検出の遅延を抑制することができる。

実施の形態に係るネットワーク監視システムの構成を示す図である。実施の形態に係るネットワーク監視方法を説明する図である。実施の形態に係るネットワーク監視方法を説明する図である。実施の形態に係るネットワーク監視方法を説明する図である。実施の形態に係るネットワーク監視方法を説明する図である。

本発明は、ネットワークを介して接続された監視対象機器に発生する障害を検出するネットワーク監視システム、方法及びプログラムを格納した非一時的なコンピュータ可読媒体に関し、特に障害発生の可能性がある監視ポイント毎に複数の監視データの取得頻度をそれぞれ制御する技術に関する。ネットワークシステムにおいて障害が発生する監視ポイントは多岐に亘り、全監視ポイントの状態を最大頻度で監視することは、監視対象装置、監視ネットワーク、監視サーバにとって負荷が重く、ネットワーク監視システムのコスト増大要因となっている。本発明に係るネットワーク監視システムでは、複数の監視データの取得によるネットワーク負荷の増大を防止するとともに、障害に関連する監視データ間の相関関係を把握して障害検出の遅延を抑制する。

以下、図面を参照して本発明の実施の形態について説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、様々な処理を行う機能ブロックとして図面に記載される各要素は、ハードウェア的には、ＣＰＵ、メモリ、その他の回路で構成することができる。また、本発明は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。従って、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-Transitory computer Readable Medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage Medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Transitory computer Readable Medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

図１は、実施の形態に係るネットワーク監視システム１０の構成を示す図である。図１に示すように、ネットワーク監視システム１０は、ネットワーク監視装置１１、データベース（記憶装置）１２、分析エンジン（分析装置）１３を備える。ネットワーク監視装置１１には、インターネット網（ネットワーク）２０を介して、スイッチやルータ等のネットワーク機器（監視対象機器）２１、２２、２３が接続されている。ネットワーク監視装置１１は、ネットワークシステムを安全に保守するために、ネットワークシステムにおいて障害が発生する可能性のある複数の監視ポイント（監視対象）を周期的に継続して監視する。

ネットワーク監視装置１１は、ネットワーク機器２１、２２、２３の状態に関する複数の監視データ（監視項目）をそれぞれ所定の監視頻度で取得する。監視データとしては、性能に関するデータとしてトラヒック量、パケットロス量、パケット処理時間等、リソースに関するデータとしてＣＰＵ使用率、メモリ使用率、キャッシュ使用率等が挙げられる。各ネットワーク機器２１、２２、２３内では、これら複数の監視データが常時測定され、各監視データの挙動を記録したログファイルが保持される。ネットワーク監視装置１１は、ネットワーク機器２１、２２、２３内に保持された複数の監視データそれぞれのログファイルを所定の監視頻度で取得し、データベース１２に格納する。

ネットワーク監視装置１１には、ネットワーク機器２１、２２、２３への監視頻度を適正に調整するため、分析エンジン１３が接続されている。分析エンジン１３は、ネットワーク機器２１、２２、２３に障害が発生する毎に、ネットワーク機器２１、２２、２３に障害が発生するまでの複数の監視データの挙動（時間的推移）を分析して、定期的な分析結果を生成する。この分析結果は、ネットワーク機器２１、２２、２３における障害発生の予兆を検知するための予兆情報である。生成された予兆情報は、データベース１２に蓄積される。

分析エンジン１３は、例えば、インバリアント分析を行う。インバリアント分析は、複数の監視データ間の不変関係をモデル化した正常パターンを学習し、正常パターンと分析にかける監視データとを比較することで「違い」を検知する分析である。分析エンジン１３は、分析にかける監視データが正常パターンと異なる場合に、異常が発生したと判定する。また、分析エンジン１３は、蓄積された予兆情報を用いて、複数の監視データのそれぞれの監視頻度を変更する。すなわち、分析エンジン１３は、インバリアント分析を行うために各監視データの挙動を学習していく中で、分析結果を自システムにフィードバックして、各監視データの監視頻度をより適正なものとする。

実施の形態では、分析エンジン１３は、障害が発生していない安定時、障害が発生する直前の予兆時、障害が発生した後の異常時における、複数の監視データのそれぞれの挙動を学習して、安定時、予兆時、異常時のいずれであるかを判断する。ネットワーク監視システム１０におけるネットワーク機器の監視には、２つのモードがある。一方のモードは、安定時においてネットワークシステムが通常運用中に、各監視ポイントの複数の監視データすべてを取得する安定監視モードである。他方のモードは、予兆時において、障害に関連する関連監視データのみを取得する予兆監視モードである。ネットワーク監視システム１０は、これら２つの監視モードを切り替えて運用される。

いずれの監視モードにおいても、単位時間当たりの監視トラヒックが略一定となるように、各監視データの監視頻度の適正化が行われる。すなわち、監視頻度が変更される前の各監視データの単位時間当たりのデータサイズの合計と、変更された後の各監視データの単位時間当たりのデータサイズの合計とは略等しい。安定監視モードから予兆監視モードへの移行は、分析エンジン１３による監視データの分析結果に基づいて行われる。予兆監視モードから安定監視モードへの移行は、機器交換等による障害が発生したネットワーク機器の復旧をネットワーク監視装置１１が検知したことを契機に行われる。

ここで、図２〜５を参照して、実施の形態に係るネットワーク監視方法について説明する図２〜５は、実施の形態に係るネットワーク監視方法を説明する図である。図２〜５において、上部の表には安定監視モード、予兆監視モードにおける各監視データの監視頻度（周期（ｓ））、障害が発生したときに取得した監視データの解析が必要か否か、予兆情報が記載されている。また、下部には、ネットワーク監視システム１０によるネットワーク機器２１、２２、２３の監視動作、ネットワーク機器２１、２２、２３に障害が発生した後の復旧動作が左から右に向かって時系列で示されている。

また、図２〜５に示す各動作の推移は、時間的に連続しているものとする。すなわち、図２に示す障害Ａが発生して復旧した後に、図３に示す障害Ｂが発生して復旧する。その後、図４に示す障害Ｃが発生して復旧した後に、図５に示す監視動作が行われる。図２〜５に示す例では、ネットワーク監視装置１１は、監視データとして、（ａ）トラヒック量、（ｂ）パケットロス量、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率、（ｆ）キャッシュ使用率を取得する。これら監視データのデータサイズは、（ａ）トラヒック量が５バイト、（ｂ）パケットロス量が５バイト、（ｃ）処理時間が５バイト、（ｄ）ＣＰＵ使用率が１０バイト、（ｅ）メモリ使用率が１０バイト、（ｆ）キャッシュ使用率が２０バイトである。

図２に示す例では、ネットワーク監視システム１０が通常運用中にネットワーク機器２１、２２、２３を監視している間に、ネットワーク機器２１に障害Ａが発生したものとする。また、図２に示す例では監視頻度の適性化がなされていない状態であるものとする。

まず、ネットワーク監視装置１１は、初期監視モードとして、安定監視モードで各監視ポイントにおけるすべての監視データを同一の監視頻度（１８０ｓ周期）で監視する。なお、この時点では、監視による障害の予兆情報が存在しない。このため、障害の予兆は検出されず、予兆監視モードでの動作は実行されない。

分析エンジン１３が取得された監視データを分析した結果、（ａ）トラヒック量と（ｂ）パケットロス量に、データの動きが連動している時間的推移に対する関連性が見られ、かつ（ｃ）処理時間について障害が検知される前に通常運用中には見られないデータの動きが見られるという分析結果Ａが得られたとする。この分析結果Ａは予兆情報Ａとして、データベース１２に格納される。

この予兆情報Ａに基づいて、分析エンジン１３からネットワーク監視装置１１に対して、監視頻度の変更が指示される。初期監視モードにおける各監視データの単位時間あたり（例えば、１ｈ＝３６００ｓ）のデータサイズの合計が、次の予兆監視モードにおける各監視データの単位時間当たりのデータサイズの合計と略等しくなるように、次の予兆監視モードの監視頻度が決定される。予兆監視モードでは、障害予兆の検知が可能な監視データ（すなわち、障害に関連のある関連監視データ）が他のデータよりも優先される。

従って、図２に示す例では、（ａ）トラヒック量、（ｂ）パケットロス量、（ｃ）処理時間が次の予兆監視モードにおいて取得されるべき、関連監視データとなる。分析エンジン１３は、次の予兆時において、複数の監視データのうち障害に関連する関連監視データのみを取得し、関連監視データ以外の監視データを取得しないように、複数の監視データの監視頻度を変更する。また、それぞれの監視データの予兆監視モードにおける監視頻度は、安定監視モードにおける監視頻度よりも高くなる。すなわち、予兆監視モードにおける監視データの取得周期は、安定監視モードにおける監視データの取得周期よりも短い。

初期監視モードにおける監視トラヒックのデータサイズＤ１は、次の式（１）で求められる。
Ｄ１＝５×３６００／１８０）＋（５×３６００／１８０）＋（５×３６００／１８０）＋（１０×３６００／１８０）＋（１０×３６００／１８０）＋（２０×３６００／１８０）＝１１００・・・（１）

このデータサイズと略等しくなるように、次の予兆監視モードにおける監視頻度を、例えば、（ａ）トラヒック量の監視頻度が４０ｓ周期、（ｂ）パケットロス量が４０ｓ周期、（ｃ）処理時間が９０ｓ周期と決定することができる。なお、次の予兆監視モードでは、障害発生の予兆の分析に用いられない、関連監視データ以外の監視データ（（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率、（ｆ）キャッシュ使用率）は取得されない。

次の予兆監視モードにおける監視トラヒックのデータサイズＤ２は、次の式（２）で求められる。
Ｄ２＝（５×３６００／４０）＋（５×３６００／４０）＋（５×３６００／９０）＝１１００・・・（２）
式（１）、（２）の通り、次の予兆監視モードにおける監視トラヒックのデータサイズＤ２は初期監視モードにおける監視トラヒックのデータサイズＤ１と等しい。このように、単位時間当たりの監視トラヒックが一定となるように監視頻度の適正化を行うことで、ネットワーク負荷の増大を抑制することが可能となる。

ネットワーク機器２１の障害Ａの原因が判明した後、機器交換等の復旧動作を経て、ネットワーク監視システム１０は通常運用へと戻る。図３は、予兆監視モードにおいて、ネットワーク機器２１に発生した障害Ａによる分析結果を学習させた監視状態を示している。図３に示す例では、ネットワーク監視システム１０が通常運用中にネットワーク機器２１、２２、２３を監視している間に、障害発生の予兆を検知して予兆監視モードへ移行し、その後、ネットワーク機器２２に新たな障害Ｂが発生したものとする。

ネットワーク監視装置１１は、安定監視モードで各監視ポイントにおけるすべての監視データを同一周期（１８０ｓ周期）の監視頻度で監視する。そして、分析エンジン１３が取得された監視データを分析した結果、（ａ）トラヒック量と（ｂ）パケットロス量に時間的推移に対する関連性が見られるとともに、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率に時間的推移に対する関連性が見られるという分析結果Ｂが得られたとする。この分析結果Ｂは予兆情報Ｂとして、分析結果Ａとともにデータベース１２に蓄積される。

これらの予兆情報Ａ及びＢに基づいて、分析エンジン１３からネットワーク監視装置１１に対して、監視頻度の変更が指示される。監視頻度は、変更前後の各監視データの単位時間当たりのデータサイズの合計（監視トラヒックのデータサイズ）が略等しくなるように変更される。すなわち、各監視データの単位時間当たりのデータサイズの合計は、初期監視モードから変更されない。

図３に示す例では、図２に示す例と同様に（ａ）トラヒック量、（ｂ）パケットロス量に関連性が見られるとともに、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率にも関連性が見られる。従って、これらの監視データ（（ａ）トラヒック量、（ｂ）パケットロス量、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率）が関連監視データとなる。

上述のように、（ａ）トラヒック量、（ｂ）パケットロス量の関連性は、障害Ａと同様に障害Ｂにも存在する。従って、分析エンジン１３は、次の安定監視モードにおいて複数の監視データの監視頻度のうち、（ａ）トラヒック量、（ｂ）パケットロス量の監視頻度を高めるようネットワーク監視装置１１に指示する。一方、障害Ａ、Ｂのいずれに関しても、（ｆ）キャッシュ使用率には予兆情報がないことから、監視頻度を低くする。また、この例では、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率の安定監視モードにおける監視頻度を変更しない。

初期監視モードにおけるデータサイズと略等しくなるように、次の安定監視モードにおける監視頻度を、例えば、（ａ）トラヒック量が１４０ｓ周期、（ｂ）パケットロス量が１４０ｓ周期、（ｃ）処理時間が１８０ｓ周期、（ｄ）ＣＰＵ使用率が１８０ｓ周期、（ｅ）メモリ使用率が１８０ｓ周期、（ｆ）キャッシュ使用率が２１０ｓ周期と決定することができる。

次の安定監視モードにおける監視トラヒックのデータサイズＤ３は、次の式（３）で求められる
Ｄ３＝（５×３６００／１４０）＋（５×３６００／１４０）＋（５×３６００／１８０）＋（１０×３６００／１８０）＋（１０×３６００／１８０）＋（２０×３６００／２１０）＝１１００・・・（３）
式（１）、（３）の通り、次の安定監視モードにおける監視トラヒックのデータサイズＤ３は初期監視モードにおける監視トラヒックのデータサイズＤ１と等しい。

また、分析エンジン１３は、次の予兆監視モードにおいて、複数の監視データのうち障害に関連する関連監視データ（（ａ）トラヒック量、（ｂ）パケットロス量、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率）のみを取得し、関連監視データ以外の監視データ（ｆ）キャッシュ使用率）を取得しないように、複数の監視データの監視頻度を変更する。

（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率に関連性が見られることから、これらの監視頻度を次の安定監視モードの監視頻度（１８０ｓ周期）よりも高くする。また、（ａ）トラヒック量、（ｂ）パケットロス量に関しては、障害Ａ、Ｂのいずれにおいても関連性が見られることから、次の安定監視モードの監視頻度（１４０ｓ周期）を超えない範囲内で、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率の監視頻度よりも高くする。なお、関連監視データ以外の（ｆ）キャッシュ使用率は、次の予兆監視モードでは取得されない。

初期監視モードにおけるデータサイズと略等しくなるように、次の予兆監視モードにおける監視頻度を、例えば、（ａ）トラヒック量が９０ｓ周期、（ｂ）パケットロス量が９０ｓ周期、（ｃ）処理時間が１２８ｓ周期、（ｄ）ＣＰＵ使用率が１２８ｓ周期、（ｅ）メモリ使用率が１２８ｓ周期、と決定することができる。

次の予兆監視モードにおける監視トラヒックのデータサイズＤ４は、次の式（４）で求められる。
Ｄ４＝（５×３６００/９０）＋（５×３６００/９０）＋（５×３６００／１２８）＋（１０×３６００／１２）＋（１０×３６００／１２８）≒１１００・・・（４）
式（１）、（４）の通り、次の予兆監視モードにおける監視トラヒックのデータサイズＤ４は初期監視モードにおける監視トラヒックのデータサイズＤ１と略等しい。

このように、安定時から予兆時を経て異常時に移行したとき、次の安定時（安定監視モード）における複数の監視データの監視頻度と、次の予兆時（予兆監視モード）における関連監視データの監視頻度とがそれぞれ変更される。このように、実施の形態に係るネットワーク監視システムでは、安定監視モードでは監視している複数の監視データ（監視項目）を削除することなく、単位時間あたりの監視トラヒックを略一定としてネットワーク負荷の増大を防止している。また、予兆監視モードでは、障害の予兆を検出することが可能な監視データのみを取得することで、障害の予兆検出精度を高くすることができる。

ネットワーク機器２２の障害Ｂの原因が判明した後、機器交換等の復旧動作を経て、ネットワーク監視システム１０は通常運用へと戻る。図４は、安定監視モード、予兆監視モードにおいて、障害Ａによる分析結果に加え、障害Ｂによる分析結果を学習させた監視状態を示している。図４に示す例では、ネットワーク監視システム１０が通常運用中にネットワーク機器２１、２２、２３を監視している間に、障害発生の予兆を検知して予兆監視モードへ移行し、その後、ネットワーク機器２３に新たな障害Ｃが発生したものとする。

ネットワーク監視装置１１は、安定監視モードにおいて、各監視ポイントにおけるすべての監視データを図４に示す所定の監視頻度で監視する。そして、分析エンジン１３が取得された監視データを分析した結果、（ａ）トラヒック量と（ｂ）パケットロス量に時間的推移に対する関連性が見られるという分析結果Ｃが得られたとする。この分析結果Ｃは予兆情報Ｃとして、分析結果Ａ、Ｂとともにデータベース１２に蓄積される。

これらの予兆情報Ａ、Ｂ及びＣに基づいて、分析エンジン１３からネットワーク監視装置１１に対して、監視頻度の変更が指示される。上述の通り、監視頻度は、該監視頻度の変更前後の各監視データの単位時間当たりのデータサイズの合計（監視トラヒックのデータサイズ）が略等しくなるように変更される。

図４に示す例では、図２、３に示す例と同様に（ａ）トラヒック量、（ｂ）パケットロス量に関連性が見られる。分析エンジン１３は、次の安定監視モードにおいて複数の監視データの監視頻度のうち、（ａ）トラヒック量、（ｂ）パケットロス量の監視頻度をさらに高めるようネットワーク監視装置１１に指示する。

一方、障害Ａ、Ｂ、Ｃのいずれに関しても、（ｆ）キャッシュ使用率には予兆情報がないことから、監視頻度をより低くする。また、この例では、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率の安定監視モードにおける監視頻度を変更しない。

初期監視モードにおけるデータサイズと略等しくなるように、次の安定監視モードにおける監視頻度を、例えば、（ａ）トラヒック量が１００ｓ周期、（ｂ）パケットロス量が１００ｓ周期、（ｃ）処理時間が１８０ｓ周期、（ｄ）ＣＰＵ使用率が１８０ｓ周期、（ｅ）メモリ使用率が１８０ｓ周期、（ｆ）キャッシュ使用率が３００ｓ周期と決定することができる。

次の安定監視モードにおける監視トラヒックのデータサイズＤ５は、次の式（５）で求められる。
Ｄ５＝（５×３６００／１００）＋（５×３６００／１００）＋（５×３６００／１８０）＋（１０×３６００/１８０）＋（１０×３６００／１８０）＋（２０×３６００／３００）＝１１００・・・（５）
式（１）、（５）の通り、次の安定監視モードにおける監視トラヒックのデータサイズＤ５は初期監視モードにおける監視トラヒックのデータサイズＤ１と等しい。

また、分析エンジン１３は、次の予兆監視モードにおいて、過去に発生した障害Ａ、Ｂ又はＣのいずれかに関連する関連監視データ（（ａ）トラヒック量、（ｂ）パケットロス量、（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率）のみを取得し、関連監視データ以外の監視データ（ｆ）キャッシュ使用率）を取得しないように、複数の監視データの監視頻度を変更する。

（ａ）トラヒック量、（ｂ）パケットロス量に関しては、障害Ａ、Ｂ、Ｃのいずれにおいても関連性が見られることから、次の予兆監視モードにおける監視頻度を高くする。また、障害Ｂのみで関連性が見られた（ｃ）処理時間、（ｄ）ＣＰＵ使用率、（ｅ）メモリ使用率については、次の安定監視モードの監視頻度（１８０ｓ周期）を超えない範囲内で監視頻度が調整される。なお、関連監視データ以外の（ｆ）キャッシュ使用率は、次の予兆監視モードでは取得されない。

初期監視モードにおけるデータサイズと略等しくなるように、次の予兆監視モードにおける監視頻度を、例えば、（ａ）トラヒック量が８０ｓ周期、（ｂ）パケットロス量が８０ｓ周期、（ｃ）処理時間が１３８ｓ周期、（ｄ）ＣＰＵ使用率が１３８ｓ周期、（ｅ）メモリ使用率が１３８ｓ周期、と決定することができる。

次の予兆監視モードにおける監視トラヒックのデータサイズＤ６は、次の式（６）で求められる。
Ｄ６＝（５×３６００／８０）＋（５×３６００／８０）＋（５×３６００／１３８）＋（１０×３６００／１３８）＋（１０×３６００／１３８）≒１１００・・・（６）
式（１）、（６）の通り、次の予兆監視モードにおける監視トラヒックのデータサイズＤ６は初期監視モードにおける監視トラヒックのデータサイズＤ１と略等しい。
ネットワーク機器２３の障害Ｃの原因が判明した後、機器交換等の復旧動作を経て、ネットワーク監視システム１０は通常運用へ移行する。

以上説明したように、障害が発生する毎に監視データを分析し、分析結果の学習を繰り返すことで、初期監視モードにおける各監視データの監視頻度から、図５のように各監視データの監視頻度を適正化することが可能となる。上述の例では、特に、（ａ）トラヒック量、（ｂ）パケットロス量に関連する障害発生の頻度が高いことから、安定監視モード及び予兆監視モードのいずれにおいても監視頻度が高くなり、異常検出精度が高くなる。また、過去に発生した障害Ａ、Ｂ、Ｃに関しては、予兆検出時点で障害の発生前に障害の原因を特定することが可能となる。

実施の形態に係るネットワーク監視システム１０では、障害が発生する毎に監視データの分析を繰り返し、障害発生の可能性がある各監視ポイントの複数の監視データのそれぞれの取得頻度を変更している。すなわち、ネットワーク監視システム１０では、過去に発生した障害実績を考慮して、障害の予兆の検出時期を徐々に早めることができる。このため、ネットワーク監視装置が高い頻度（例えば数秒オーダー）で監視状態を取得することなく、システムの異常をできるだけ早く検出することができる。これにより、全監視ポイントのうち予兆状態又は異常状態に陥る監視ポイントの数が相対的に少ない範囲内では、ネットワーク機器の監視データの取得によるトータルでのネットワーク負荷の増大を防止することができ、エンドユーザーのデータ通信に与える影響を低減することができる。

また、予兆監視モードでは、障害に関連する監視ポイントの監視データの取得頻度を高めることができる。これにより、ネットワークシステムが複雑化してネットワーク機器同士が影響しあう場合にも、障害に関連する監視データ間の相関関係を把握して障害検出の遅延を抑制することが可能となる。

さらに、従来はネットワーク監視装置側で監視・収集する監視項目は予め設計時に決定されており、想定外の障害が発生した場合には、都度新たな監視項目を収集するように変更する必要があった。これに対し、実施の形態に係るネットワーク監視システム１０では、システムの異常を検出するために必要となるか不明なログを含む、各監視ポイントにおけるすべての監視データのログをネットワーク機器から収集する対象としている。これにより、未知の障害が発生した場合にも対応することが可能となる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。監視対象機器からの監視データだけでなく、外的要因によるネットワーク負荷を検知して、各監視データの監視頻度を変更することも可能である。例えば、インターネットを利用しているイベント状況を把握することで、ある特定の日時に該当サーバへのアクセス集中によりネットワーク負荷が高まるという情報が得られた場合、分析エンジン１３からネットワーク監視装置１１に対して、そのエリアのネットワーク機器の監視頻度を高める指示を出すことで、障害が発生した場合でも影響を少なくすることが可能である。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１８年１月１９日に出願された日本出願特願２０１８−００７５６８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０ネットワーク監視システム
１１ネットワーク監視装置
１２データベース
１３分析エンジン
２０インターネット網
２１ネットワーク機器
２２ネットワーク機器
２３ネットワーク機器

Claims

ネットワークを介して接続された監視対象機器を監視するネットワーク監視システムであって、
前記ネットワーク監視システムは、
前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得するネットワーク監視装置と、
前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成する分析装置と、
生成された前記予兆情報を蓄積する記憶装置と、
を備え、
前記分析装置は、蓄積された前記予兆情報に基づいて、複数の前記監視データのそれぞれの前記監視頻度を変更する、
ネットワーク監視システム。
前記分析装置は、障害が発生していない安定時、障害が発生する直前の予兆時、障害が発生した後の異常時における、複数の前記監視データのそれぞれの挙動を学習して、安定時、予兆時、異常時のいずれであるかを判断し、
安定時において複数の前記監視データを取得する安定監視モードと、予兆時において発生した障害に関連する関連監視データを取得する予兆監視モードとを切り替える、
請求項１に記載のネットワーク監視システム。
それぞれの前記監視データの前記予兆監視モードにおける前記監視頻度は、前記安定監視モードにおける前記監視頻度よりも高い、
請求項２に記載のネットワーク監視システム。
前記安定時から前記予兆時を経て前記異常時に移行したときに、次の前記安定時における複数の前記監視データの前記監視頻度と、次の前記予兆時における複数の前記監視データの前記監視頻度とをそれぞれ変更する、
請求項２又は３に記載のネットワーク監視システム。
前記分析装置は、次の前記予兆時において、複数の前記監視データのうち障害に関連する関連監視データのみを取得し、前記関連監視データ以外の前記監視データを取得しないように、複数の前記監視データの前記監視頻度を変更する、
請求項４に記載のネットワーク監視システム。
前記分析装置は、前記監視頻度の変更前後の複数の前記監視データの単位時間当たりのデータサイズの合計が略等しくなるように前記監視頻度を変更する、
請求項１〜５のいずれか１項に記載のネットワーク監視システム。
ネットワークを介して接続された監視対象機器を監視するネットワーク監視方法であって、
前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得するステップと、
前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成して蓄積するステップと、
蓄積された前記予兆情報に基づいて、複数の前記監視データのそれぞれの前記監視頻度を変更するステップと、
を備える、ネットワーク監視方法。
ネットワークを介して接続された監視対象機器を監視するネットワーク監視プログラムが格納された非一時的なコンピュータ可読媒体であって、
前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得する処理と、
前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成して蓄積させる処理と、
蓄積された前記予兆情報に基づいて、複数の前記監視データのそれぞれの前記監視頻度を変更する処理と、
をコンピュータに実行させる、ネットワーク監視プログラムが格納された非一時的なコンピュータ可読媒体。