WO2009110329A1

WO2009110329A1 - 障害分析装置、障害分析方法および記録媒体

Info

Publication number: WO2009110329A1
Application number: PCT/JP2009/053017
Authority: WO
Inventors: 慎二中台
Original assignee: 日本電気株式会社
Priority date: 2008-03-07
Filing date: 2009-02-20
Publication date: 2009-09-11
Also published as: US20100325489A1; US8448025B2; JP2009217382A; JP5277667B2

Abstract

　監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信し、前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類し、前記識別情報と対応付けて出力し、真の種別を示す情報の入力を受け付け、前記識別情報と対応付けて記憶し、前記各システム情報と、前記真の種別を示す情報とに基づいて、前記判定基準を更新し、前記種別判定手順は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する。

Description

障害分析装置、障害分析方法および記録媒体

　本発明は、障害分析装置、障害分析方法および記録媒体に関し、特に、ルールや閾値を設定することなく、システム障害を検出して分類できる障害分析装置、障害分析方法および記録媒体に関する。

　図１は、障害分析装置の一例を示す図であり、特許第３５８１９３４号公報に開示されたものを示す。

　図１に示すように、この障害分析装置１００は、動作測定記録（ＯＭ）転送ユニットや障害記録転送ユニットといった異常呼量監視部１０１と、閾値判定部１１５と、判定結果表示部１１６とから構成されている。

　上記のように構成された障害分析装置１００は、次のように動作する。

　異常呼量監視部１０１が、監視対象装置１３１，１３２から異常の発生を示すログの有無を監視し、ログが存在する場合は、異常の種別に応じて、時間当たりのトラフィック量である呼量をカウントする。閾値判定部１１５は、一定時間内の呼量が所定の閾値以上になると、判定結果表示部１１６を通じて、保守運用者にその異常を障害として通知する。

　このような動作により、図１に示した障害分析装置１００では、自動で障害を検出することができる。

　図２は、障害分析装置の他の例を示す図であり、文献“JING　WU,　JIAN-GUO　ZHOU,　PU-LIUYAN,　MING　WU、「A　STUDY　ON　NET　WORK　FAULT　KNOWLEDGE　ACQUISITION　BASED　ON　SUPPORTVECTOR　MACHINE」、Proceedings　of　the　Fourth　International　Conference　on　MachineLearning　and　Cybernetics,　Guangzhou,　18-21　August　2005”に開示されたものを示す。

　図２に示すように、この障害分析装置２００は、監視対象装置２３１～２３４からなる監視対象システム２３０を管理するために、異常度監視部２０１と、異常度格納部２１０と、障害事例登録部２１１と、事例格納部２１２と、パターン学習部２１３と、知識格納部２１４と、パターン判定部２１５と、判定結果表示部２１６と、判定修正入力部２１７とから構成されている。

　上記のように構成された障害分析装置２００は、監視対象装置２３１～２３４に対する監視結果から、装置や回線単位の故障の可能性を表す指標である異常度を収集する。

　図３は、図２に示した障害分析装置２００で用いられる異常度の値を示す図である。

　図２に示した障害分析装置２００で用いられる異常度は、図３に示すように、リンクが落ちているか否か、エラー率、輻輳率、棄却率、利用率といった値が挙げられる。

　得られた異常度の組み合わせを、パターン判定部２１５は、知識格納部２１４に格納された知識情報を用いて、監視対象システム２３０において障害が発生したか否かを判定し、判定結果表示部２１６を通して、判定結果を保守運用者に提示する。

　知識格納部２１４に格納される知識情報は、以下の手順で生成される。

　まず、保守運用者が障害事例登録部２１１を用いて、過去の障害事例を事例格納部２１２に登録する。

　パターン学習部２１３は、事例格納部２１２に格納されている障害事例と、異常度格納部２１０に格納された異常度の組み合わせとから知識情報を生成し、知識格納部２１４に格納する。ここで、障害事例とは、いつどこでどのような障害が発生したかを表す情報である。なお、パターン学習手段２１３は、Support　Vector　Machine(SVM)というパターン識別器を用いて行われるパターン学習によって知識情報を生成する。

　このＳＶＭは、“麻生英樹,　津田宏治,　村田昇,「パターン認識と学習の統計学」、岩波書店,pp.107-123,　2005”に詳細に記載されている。一般に、パターン学習においては、まず、多次元の変数から一次元のクラス（パターン）を推定する。この多次元の変数として用いる変数を特徴と呼ぶ。またｄ個からなる特徴が張るｄ次元空間を特徴空間Ｒｄと呼ぶ。また、入力変数を、この特徴空間における特徴変数ｘ（∈Ｒｄ）とし、出力変数をクラスｙ（∈｛１，－１｝）とすると、特徴空間内でｘがある領域を超えるとｙが変化する。このような変化を生む領域の境界を超平面と呼ぶ。

　この超平面は、ｎ個の入力値ｘｉ（ｉ＝１，２，．．．，ｎ）に対する出力値ｙｉが与えられると、パターン学習により生成することができる。パターン学習の際、出力値ｙの異なる入力値間の距離をマージンと呼ぶ。

　パターン学習手段２１３にて得られる知識情報とは、この障害を検出し分類するための閾値であり、異常度の組み合わせからなる特徴空間においては、複数のクラスを分類する超平面となる。

　判定結果表示部２１６が保守運用者に対して示した障害判定結果が、実際には障害ではなかった場合には、判定修正入力部２１７を用いて、事例格納部２１２に入力される。

　このような動作により、図２に示した障害分析装置２００では、図１に示した障害分析装置１００とは異なり、障害検出および分類のための閾値を設定することなく、障害を検出することができる。

　しかしながら、上述した障害分析装置では、障害の影響が異常度を示す変数には表れず、例えば装置間通信における所定の期間にデータを送信した回数といった異常度を示す変数ではない変数に表れるような障害は、保守運用者が障害事例を登録しても、障害の検出やその障害の分類ができない、あるいは検出の精度が悪いという問題点がある。

　本発明は、上述した問題点に鑑みてなされたものであって、障害による影響が異常度を示す変数に表れず、異常度を示す変数ではない変数に表れるような障害も検出でき、または分類できる障害分析装置、障害分析方法および記録媒体を提供することを目的とする。

　上記目的を達成するために本発明は、
　監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信するシステム情報受信手段と、
　前記システム情報受信手段が受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する種別判定手段と、
　前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する判定結果出力部と、
　前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、
　前記各システム情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、
　前記システム情報受信手段が受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するパターン学習手段とを有し、
　前記種別判定手段は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する。

　また、情報処理装置を用いた障害分析方法であって、
　前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信ステップと、
　前記情報処理装置が、受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類ステップと、
　前記情報処理装置が、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力するステップと、
　前記情報処理装置が、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付けるステップと、
　前記情報処理装置が、前記各システム情報の識別情報を前記真の種別と対応付けて記憶するステップと、
　前記情報処理装置が、受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するステップと、
　前記情報処理装置が、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類するステップとを有する。

　また、コンピュータを動作させるためのプログラムが書き込まれた記録媒体であって、
　前記コンピュータに、
　監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信する手順と、
　受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する手順と、
　前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する手順と、
　前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付ける手順と、
　前記各システム情報の識別情報を前記真の種別と対応付けて記憶する手順と、
　受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新する手順と、
　前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する手順とを実行させるためのプログラムが書き込まれている。

　本発明は、障害の影響が異常度を示す変数には表れず、異常度を示す変数ではない変数に表れるような障害も検出しその障害を分類できる。

障害分析装置の一例を示す図である。障害分析装置の他の例を示す図である。図２に示した障害分析装置で用いられる異常度の値を示す図である。本発明の障害分析装置の実施の一形態を示すブロック図である。図４に示した事例格納部内のテーブルを示す図である。図４に示した状況格納部に格納されたテーブルを示す図である。図４に示したパターン学習部内にて格納するデータ構造を示す図である。図４に示した障害分析装置の動作を説明するためのフローチャートである。図４に示した障害分析装置の動作を説明するためのフローチャートである。図４に示した障害分析装置の動作を説明するためのフローチャートである。図４に示した障害分析装置の動作の一実施例を説明するための監視対象の構成図である。図４に示した障害分析装置の動作の一実施例を説明するための特徴空間を示す図である。図４に示した障害分析装置の動作の他の実施例を説明するための監視対象の構成図である。図４に示した障害分析装置の動作の他の実施例を説明するための特徴空間を示す図である。図４に示した障害分析装置の動作の他の実施例を説明するための監視対象の構成図である。図４に示した障害分析装置の動作の他の実施例を説明するための特徴空間を示す図である。図４に示した障害分析装置の動作の他の実施例を説明するための監視対象の構成図である。図４に示した障害分析装置の動作の他の実施例を説明するための特徴空間を示す図である。

　以下に、本発明の実施の形態について図面を参照して説明する。

　図４は、本発明の障害分析装置の実施の一形態を示すブロック図である。

　本形態は図４に示すように、監視対象装置４３１～４３４を備えるシステム４３０と通信可能に接続され、プログラム制御により動作する情報処理装置であるコンピュータ（中央処理装置とプロセッサとデータ処理装置とを少なくとも備える）４００である。

　コンピュータ４００は、障害事例登録部４１１と、事例格納部４１２と、システム情報受信手段であるシステム状況取得部４０１と、状況格納部４１０と、パターン学習部４１３と、知識格納部４１４と、種別判定手段であるパターン判定部４１５と、判定結果出力手段である判定結果表示部４１６と、判定修正入力部４１７とを含む。

　障害事例登録部４１１は、事例格納部４１２と接続され、事例格納部４１２は、障害事例登録部４１１とパターン学習部４１３とそれぞれ接続され、パターン学習部４１３は、状況格納部４１０と知識格納部４１４とそれぞれ接続され、状況格納部４１０は、パターン学習部４１３とシステム状況取得部４０１とそれぞれ接続され、知識格納部４１４は、パターン学習部４１３とパターン判定部４１５とそれぞれ接続され、システム状況取得部４０１は、状況格納部４１０とパターン判定部４１４とそれぞれ接続され、パターン判定部４１５は、知識格納部４１４とシステム状況取得部４０１と判定結果表示部４１６とそれぞれ接続され、判定結果表示部４１６は、パターン判定部４１５と接続されている。

　なお、本形態において、知識情報、閾値、境界面および超平面は同一のものを指し、本発明の判定基準に相当する。また。本形態における特徴は、本発明における指標値に相当する。

　上述した構成要素は、それぞれ概略次のように動作する。

　障害事例登録部４１１は、本発明におけるオペレータとなる保守運用者が使用する図示しない端末から、障害発生時間と場所との入力を受け付ける。この障害発生時間と場所との組を事例と呼ぶ。事例とは、上述した障害発生時間と場所とが、あるいは正常であった時間と場所とが、対応付けられている情報である。ここで、事例として記憶されている時間と場所とはともに、期間や範囲のように広がりを持っていても良い。また、事例には、実際に障害であった場合の事例を示す障害事例と、実際には正常であった場合の事例を示す正常事例とがある。障害事例には障害発生時間と場所とが、正常事例には正常であった時間と場所とがそれぞれ含まれている。また、事例には事例の種類（クラス、パターンに相当する。また、本発明における真の種別に相当する）が含まれていてもよい。事例の種類とは、当該事例が正常であることを示す情報または障害の種類を含む情報である。この場合、障害事例には障害発生時間と場所と障害の種類とが、正常事例には正常であった時間と場所と当該事例が正常であることを示す情報とがそれぞれ含まれている。あるいは、事例の種類は、事例とは独立した情報として構成されていてもよい。本形態においては、事例に、事例の種類を含まないものとして考える。もちろん、事例に事例の種類を含んでいてもよい。

　障害事例登録部４１１は、事例とともに、当該事例の種類の入力を受け付けてもよい。場所とは、各監視対象装置４３１～４３４を識別する識別子であってもよいし、回線名や住所などのように障害発生の箇所を特定できるものであればよい。障害発生時間と場所とは、本発明のシステム情報（状況情報）の識別情報に含まれるものである。また、本形態では、システム情報の識別情報は事例に相当する。なお、システム情報の識別情報は、システム情報が識別できる情報を含んでいればよく、一意に付される識別子などを含んでいればよい。

　事例格納部４１２は、障害事例登録部４１１または後述する判定修正入力部４１７から事例を受け取り、受け取った事例を格納する。

　図５は、図４に示した事例格納部４１２内のテーブルを示す図である。

　図５に示すように、事例格納部４１２は、事例番号と時刻と場所とパターンとを対応付けて記憶している。事例番号、時刻および場所は、システム情報の識別情報であり、パターンは事例の種類である。なお、事例番号、時刻、場所はそれぞれ必須ではなく、システム情報を識別できる情報が少なくとも１つあればよい。

　システム状況取得部４０１は、監視対象システム４３０における監視対象装置４３１～４３４から当該監視対象装置におけるシステム情報（状況情報）を取得する。このシステム情報には、異常度だけではなく、当該監視対象装置における状況情報も含む。システム状況取得部４０１は、取得したシステム情報を状況格納部４１０に格納する。状況情報とは、異常度とは異なり、その値の大小が障害の可能性を表さない値である。例えば、装置が他の装置と所定の期間にデータを送信した回数は、その値が大きくても、故障の可能性を示すものではない。本形態では、異常度は、本発明において監視対象装置の異常度を示す複数の指標値に相当する。また、状況情報は、監視対象装置の異常度とは関係のない指標値に相当する。また、異常度と状況情報とを含む情報（システム情報を呼ぶ）は、本発明のシステム情報に相当する。

　システム状況取得部４０１は、取得したシステム情報を状況格納部４１０に格納する。パターン学習部４１３がパターン学習を行う際に用いる特徴空間の基底となる特徴は、これらのシステム情報に含まれる。

　また、このシステム状況取得部４０１は、試行回数取得部４０２と、イベント数取得部４０３と、時刻取得部４０４と、曜日取得部４０５と、時間的状況推測値取得部４０６と、構成状況推測値取得部４０７とを備える。システム状況取得部４０１は、試行回数取得部４０２と、イベント数取得部４０３と、時刻取得部４０４と、曜日取得部４０５と、時間的状況推測値取得部４０６と、構成状況推測値取得部４０７とに受け取ったシステム情報を渡す。試行回数取得部４０２、イベント数取得部４０３、時刻取得部４０４、曜日取得部４０５、時間的状況推測値取得部４０６および構成状況推測値取得部４０７は、受け取ったシステム情報を基に各処理を行い、出力結果をパターン判定部４１５に渡す。

　試行回数取得部４０２は、監視対象装置４３１～４３４が、当該監視対象装置に接続されるその他の装置に所定の期間にデータを送信した回数を示す送信回数情報を取得する。取得方法は、例えば、システム情報に含まれる送信回数情報を抽出することによって行ってもよい。そして、試行回数取得部４０２は、取得した送信回数情報をパターン判定部４１５に渡す。

　イベント数取得部４０３は、監視対象装置４３１～４３４において発生した所定の期間のイベント数を取得する。例えば、当該監視対象装置における所定の期間の起動回数などである。取得方法は、例えば、システム情報に含まれる前述の起動回数などを示す情報を抽出することによって行ってもよい。そして、試行回数取得部４０２は、取得したイベント数を示す情報をパターン判定部４１５に渡す。

　時刻取得部４０４は、その事例が発生した時刻、あるいは監視を行った時刻を示す時刻情報を取得する。取得方法は、例えば、システム情報に含まれる時刻情報を抽出することによって行ってもよいし、時刻取得部４０４が計測する現在の時刻を時刻情報として取得してもよい。そして、時刻取得部４０４は、取得した時刻情報をパターン判定部４１５に渡す。

　曜日取得部４０５は、その事例が発生した曜日、あるいは監視を行った曜日を示す曜日情報を取得する。取得方法は、例えば、システム情報に含まれる曜日情報を抽出することによって行ってもよいし、曜日取得部４０５が計測する現在の曜日を曜日情報として取得してもよい。そして、曜日取得部４０５は、取得した曜日情報をパターン判定部４１５に渡す。

　時間的状況推測値取得部４０６は、時間的状況推測値算出手段を含む。時間的状況推測値算出手段は各監視対象装置が過去に送信し、後述の状況格納部４１０に記憶されているシステム情報に基づいて現在の当該監視対象装置のシステム情報の予測値を算出する。そして、時間的状況推測値取得部４０６は、算出したシステム情報の予測値をパターン判定部４１５に渡す。

　例えば、過去数日の同時刻の平均値を用いることで、その監視対象装置の状況またはコンテキストを含んだ情報を取得することができる。

　構成状況推測値取得部４０７は、構成状況推測値算出手段を含む。構成状況推測値算出手段は、当該監視対象装置のシステム情報とあるほかの監視対象装置のシステム情報との関係を求め、当該ほかの監視対象装置の現在のシステム情報を用いて、当該監視対象装置のシステム情報を算出する。例えば、監視対象装置４３１の観測値ａと監視対象装置４３２の観測値ｂとの間にｂ＝２ａの関係が定常的に成り立っているときに、監視対象装置４３１の値ａから推測される監視対象装置４３２の値２ａが、ここで取得される。ｂ＝２ａの関係は後述の状況格納部４１０に記憶されている過去の当該監視対象装置のシステム情報および当該ほかの監視対象装置の現在のシステム情報から算出する。例えば、当該監視対象装置と当該ほかの監視対象装置との間に定常的に成り立っている数式モデル（例えば、ＡＲＸモデル（autoregressive　model　with　exogenous　input））をもとに算出してもよい。そして、構成状況推測値取得部４０７は、算出したシステム情報の予測値をパターン判定部４１５に渡す。

　状況格納部４１０は、過去にシステム状況取得部４９１が受信したシステム情報などを記憶する。

　図６は、図４に示した状況格納部４１０に格納されたテーブルを示す図である。

　図６に示すように、状況格納部４０１は、過去にシステム状況取得部４０１が受信したシステム情報に含まれる異常度または状況情報を示す特徴と、時刻と、場所と値と、を対応付けて記憶している。また、例えば、時間と場所で識別できるシステム情報を返すことができるように格納してもよい。

　パターン学習部４１３は、保守運用者から障害事例登録部４１１あるいは判定修正入力部４１７に対して入力があったタイミングで、あるいは定期的に、事例格納部４１２に格納された各事例に対応付けられているシステム情報を状況格納部４１０から読み出す。読み出された各システム情報に含まれる各特徴でパターン学習手段４１３が用いる特徴空間を構成している。

　すなわち、事例を基に読み出されるシステム情報に含まれる異常度または状況情報は、この特徴空間における特徴ベクトルを表している。

　図７は、図４に示したパターン学習部４１３内にて格納するデータ構造を示す図である。

　図７に示すように、パターン学習部４１３においては、異常度に関するデータ１９０１，１９０２と、システム情報に関するデータ１９０３～１９０９とが格納されている。

　また、パターン学習部４１３は、読み出されたシステム情報を基に障害を検出して分類するための閾値（超平面）を生成し、知識格納部４１４に格納する。

　知識格納部４１４は、パターン学習部４１３によって生成された閾値を格納する。

　パターン判定部４１５は、システム状況取得部４０１からシステム情報を受信する。そして、パターン判定部４１５は、知識格納部４１４に格納された閾値を読み出して、受信したシステム情報が、障害であるか、あるいは正常であるかを示しているかを判定する。さらに、障害であると判定された場合はどのような障害であるかを判定し、システム情報の識別情報と判定結果とを判定結果表示部４１６に渡す。

　判定結果表示部４１６は、パターン判定部４１５から受け取った判定結果（パターン、事例の種類、本発明の種別に相当する）とシステム情報の識別情報（事例）とを保守運用者に対して表示する。

　判定修正入力部４１７は、判定結果表示部４１６が保守運用者に対して提示した判定結果（パターン、事例の種類、本発明の種別に相当する）が間違いであった場合に、保守運用者が正しいと考える事例の種類（本発明の真の種別に相当する）と事例とを事例格納部４１２に登録する。例えば、時間と場所（事例）に加え、事例の種類（真の種別）などを、事例格納部４１２に追加する、あるいは事例格納部４１２に格納されている事例を保守運用者が正しいと考える事例に修正してもよい。

　次に、図８～図１０のフローチャートを参照して本形態の全体の動作について詳細に説明する。

　図８～図１０は、図４に示した障害分析装置４００の動作を説明するためのフローチャートである。

　まず、システム状況取得部４０１が監視対象システム４３０からシステム情報（異常度および状況情報を含む情報）を取得し、取得したシステム情報をパターン判定部４１５に渡す（ステップ５０１）。

　パターン判定部４１５が知識格納部４１４に含まれる閾値（超平面）を用いて、システム状況取得部４０１から受け取ったシステム情報から、監視対象システム４３０における事例の種類を判定し、判定結果（事例の種類、種別）と当該システム情報の識別情報（事例）とを判定結果表示部４１６に渡す（ステップ５０２）。

　次に、ステップ５０２においてパターン判定部４１５が障害であると判定した場合には、判定結果表示手段４１６は、パターン判定部４１５から受け取った判定されたパターン（種別）とシステム情報の識別情報（事例）とを保守運用者に表示する。（ステップ５０３）。

　次に、保守運用者は、障害事例登録部４１１あるいは判定修正部４１７に対して、事例および真の種別として障害発生時間または正常である時間、場所、事例の種類を入力する。障害事例登録部４１１あるいは判定修正部４１７は、入力された事例を事例格納部４１２に格納する（ステップ６０１）。

　次に、パターン学習部４１３は、パターン学習により障害判定を行うための閾値を生成する（ステップ６０２）。このステップは、別途保守運用者からの指示により実行されても良い。

　事例から障害判定を行うための閾値を生成するために、パターン学習部４１３は、事例格納部４１２に含まれる全ての事例について、状況格納部４１０から当該事例に含まれる時間または場所に対応付けられているシステム情報を取得する（ステップ７０１，７０２）。

　パターン学習部４１３は、事例格納部４１２から得られた各事例に対応付けられている各システム情報に含まれる異常度および状況情報から構成される特徴ベクトルを用いて、各システム情報について、各システム情報の事例の種類というパターンに分類するための超平面を学習し（ステップ７０３）、超平面を生成する。

　パターン学習部４１３は、学習して生成した超平面を知識格納部４１４に格納し、パターン判定部４１５は、知識格納部４１４に格納された超平面を用いてシステム状況取得部４０１から受け取った各システム情報についてパターンを分類する（ステップ７０４）。

　次に、本形態の効果について説明する。

　本形態では、監視対象装置４３１～４３４に関する状況情報を含むシステム情報を取得し、これをパターン学習部４１３における特徴空間に含めるように構成されているため、保守運用者が事例の種類と事例とを登録した場合に、より精度の良い障害検出および分類を自動で行うことができる。その理由は、異常度を示す変数ではない変数も特徴空間に含めることで、特徴空間において、従来は分類できなかった、障害事例と正常事例とを分類する超平面が生成できる、あるいは生成される超平面が持つマージンが大きくなるためである。

　また、本形態では、障害の影響が異常度としては表れるものの、他の異なる種類の障害も同じ異常度として表れるようなシステムにおいても、保守運用者が障害事例を登録して異なる障害として検出できる。その理由は、試行回数といった変数も特徴空間に含めることで、異なる障害を分類するような超平面を特徴空間に生成できる、あるいは生成できる超平面のマージンが大きくなるためである。

　また、本形態では、ユーザがシステムを利用する回数が変化するようなシステムの障害を分析し、さらに特徴空間には、システムの異常度を示す変数に呼損率や失敗率などが含まれている場合、システムの利用回数が少ない時間帯でも、障害検出の精度を高くできる。その理由は、試行回数を特徴空間に含めることで、試行回数が少なく、かつ失敗率が高い空間と、試行回数が多く、かつ失敗率の低い空間とを分離する超平面を生成することができる点にある。

　また、本形態では、単一の監視対象装置の異常度だけでは根本的な障害を発見できず、複数の監視対象装置が影響しあうようなシステムにおいても、保守運用者が障害事例を登録して、障害検出の精度を高くすることができる。その理由は、当該監視対象装置の構成状況から推測される値を特徴空間に含めることで、定常的に監視対象装置間で成り立っていた関係が崩れた上で、当該監視対象装置のみが異常度が上昇していることを示す空間と、その関係を保ちながら、他の監視対象装置も共に異常度が上昇していることを示す空間とを分類するような超平面を、特徴空間に生成できる、あるいは生成できる超平面のマージンが大きくなるためである。

　以下に、上述した障害分析装置４００の動作について、具体的な実施例を用いて説明する。

　図１１は、図４に示した障害分析装置４００の動作の一実施例を説明するための監視対象の構成図である。また、図１２は、図４に示した障害分析装置４００の動作の一実施例を説明するための特徴空間を示す図である。

　図１１に示すように、本実施例では、監視対象システム４３０には、監視対象装置１００１が存在し、他の監視対象装置１００２との接続において、監視対象装置１００１からの接続要求の単位時間あたりの試行回数が、時間変化１０１１に示すような変化を有し、その試行の呼損率が時間変化１０１２に示すような変化を有するものであるとする。

　この時系列データは、ある時刻において障害が発生しているものとするが、時間変化１０１２に示すように、呼損率には表れていない。試行回数の低下となって表れているが、試行回数の多寡自体は障害とは言えない。

　ここで、保守運用者が障害事例登録部４１１を用いて、図１１に示す障害期間を障害事例として登録し、それ以外の正常である期間を正常事例として登録したとすると、システム状況取得部４０１における試行回数取得部４０２が存在しなく、試行回数を特徴空間に含めない場合は、図１２に示すように、正常事例１１０１も、障害事例１１０２も特徴空間において近傍の領域に分布するため、それらを分離する超平面の生成は困難である、あるいは精度の低い境界面しか生成できない。

　それに対して、特徴空間に試行回数１１１３も含めた場合は、正常事例と障害事例とを分離する超平面１１１５を生成することができる。

　ただし、深夜時間帯など本来正常な時間帯にも、試行回数１１１３が低くなるため、正常事例１１１６のような障害事例に紛れ込んでしまうことがある。これはすなわち、深夜時間帯になると障害として検知してしまうことと対応する。

　このため、別の特徴として、試行回数１１１７以外に時間帯１１１８を特徴空間に含めても良い。このようにすることで、深夜時間帯に試行回数が少なくなっている事例と、昼間に試行回数が少なくなっている事例を高精度に分離する超平面を生成することができる。

　あるいは、試行回数１１１９以外に、この試行回数の時間的状況推測値１０１３（１１２０）を用いても良い。

　これにより、過去の正常な期間の監視対象のデータから推測される現在の試行回数が大きいときに、試行回数が小さいと障害であると判定するようになり、逆に推測される現在の試行回数が小さい時に、試行回数が小さいときには、正常であると判定されるようになる。

　図１３は、図４に示した障害分析装置４００の動作の他の実施例を説明するための監視対象の構成図である。また、図１４は、図４に示した障害分析装置４００の動作の他の実施例を説明するための特徴空間を示す図である。

　図１３に示すように、本実施例では、監視対象システム４３０には、監視対象装置１２０１が存在し、他の監視対象装置１２０２との接続において、接続要求が失敗した際に再送されるような状態での障害と、再送されないような状態での障害とがあるとする。

　前者の障害では試行１２１１～１２１３のように、一定回数の試行を繰り返すため、単位時間あたりの試行回数の時間変化１２０４は上昇し、単位時間あたりの呼損率１２０３も上昇する。

　これに対して、監視対象装置１２３１と他の監視対象装置１２３２との接続で、後者の障害では試行１２４１で失敗すると再試行が行われないため、試行回数の時間変化１２３４は変わらず、呼損率１２３３のみが劣化する。

　ここで、保守運用者が障害事例登録部４１１を用いて、図１３に示す障害期間を障害事例として登録し、それ以外の正常である期間を正常事例として登録したとすると、システム状況取得部４０１における試行回数取得部４０２が存在しなく、試行回数を特徴空間に含めない場合は、図１４に示すように、障害パターン１の事例１３１１も、障害パターン２の事例１３１２も特徴空間において近傍の領域に分布するため、それらを分離する超平面の生成は困難である、あるいは精度の低い超平面しか生成できない。

　それに対して、特徴空間に試行回数１３２２も含めた場合は、障害パターン１の事例１３１１と障害パターン２の事例１３１２とを分離する超平面１３２３を生成することができる。

　図１５は、図４に示した障害分析装置４００の動作の他の実施例を説明するための監視対象の構成図である。また、図１６は、図４に示した障害分析装置４００の動作の他の実施例を説明するための特徴空間を示す図である。

　図１５に示すように、本実施例では、監視対象システム４３０には、監視対象装置１４０１が存在し、他の監視対象装置１４０２との接続において、単位時間あたりの試行回数の時間変化１４０３に対して、単位時間あたりの呼損率１４０４があるとする。

　ここで、保守運用者が事例登録部４１１を用いて、障害事例と、図１５に示す期間を正常事例として登録したとすると、システム状況取得手段における試行回数取得手段４０２が存在しなく、試行回数を特徴空間に含めない場合は、図１６に示すように、正常事例１５０４も障害と判定するような超平面が生成されてしまうが、特徴空間に試行回数１５１２も含めた場合は、試行回数が少ないときに呼が落ちて呼損率が高くなるような事例１５１４と、実際の障害である事例との間に、両者を分離しやすい超平面を生成することができる。

　図１７は、図４に示した障害分析装置４００の動作の他の実施例を説明するための監視対象の構成図である。また、図１８は、図４に示した障害分析装置４００の動作の他の実施例を説明するための特徴空間を示す図である。

　図１７に示すように、本実施例では、監視対象システム４３０には、監視対象装置としてＡｐｐサーバ１６０１が存在し、その異常度としてＣＰＵ利用率が監視により取得され、また別の監視対象装置としてＷｅｂサーバ１６０４が存在し、その異常度としてＣＰＵ利用率が監視により取得され、時系列データ１６０５が得られるとする。

　また、ＷｅｂサーバとＡｐｐサーバの間には定常的な数理的な関係が成り立っており、Ｗｅｂサーバ１６０４から得られた値から推測されるＡｐｐサーバの値の時系列データ１６０６が得られるとする。

　ここで、保守運用者が障害事例登録部４１１を用いて、図１７に示す障害期間１６０７を障害事例として登録し、それ以外の期間のデータを正常事例として登録したとすると、システム状況取得部４０１における試行回数取得部４０２が存在しなく、構成状況推測値を特徴空間に含めない場合は、図１８に示すように、当該装置の障害事例１７０４と正常事例１７０３とを分離するような超平面が生成されない、あるいは分類精度の低い超平面しか生成できないが、特徴空間に構成状況推測値も含めた場合は、関連する装置が正常であるにも関わらず、当該装置のみの異常度のみが高いことを表す空間と、当該装置も、他の関連する装置も共に異常度が高くなっていることを表す空間とを分離しやすい超平面を生成することができる。

　本発明によれば、コンピュータシステムやネットワークシステムを運用管理するといった用途に適用できる。

　なお、本発明においては、障害分析装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを障害分析装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを障害分析装置に読み込ませ、実行するものであっても良い。障害分析装置にて読取可能な記録媒体とは、ＩＣカードやメモリカード、あるいは、フロッピーディスク（登録商標）、光磁気ディスク、ＤＶＤ、ＣＤなどの移設可能な記録媒体の他、障害分析装置に内蔵されたＨＤＤ等を指す。この記録媒体に記録されたプログラムは、例えば、制御ブロックにて読み込まれ、制御ブロックの制御によって、上述したものと同様の処理が行われる。

　以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年３月７日に出願された日本出願特願２００８－０５８４４１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信するシステム情報受信手段と、
　前記システム情報受信手段が受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する種別判定手段と、
　前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する判定結果出力部と、
　前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、
　前記各システム情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、
　前記システム情報受信手段が受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するパターン学習手段とを有し、
　前記種別判定手段は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する障害分析装置。
　請求項１に記載の障害分析装置において、
　前記監視対象装置の異常度とは関係のない指標値には、前記監視対象装置が前記監視対象装置と接続される他の装置に所定の期間にデータを送信した回数を示す送信回数情報を含める障害分析装置。
　請求項１に記載の障害分析装置において、
　前記監視対象装置の異常度とは関係のない指標値には、時刻を示す時刻情報を含める障害分析装置。
　請求項１に記載の障害分析装置において、
　前記監視対象装置の異常度とは関係のない指標値には、曜日を示す曜日情報を含める障害分析装置。
　請求項１に記載の障害分析装置において、
　前記システム情報受信手段は、該システム情報受信手段が受信したシステム情報に含まれる指標値に基づいて、前記指標値の現在の予測値を算出する時間的状況推測値算出手段を有し、
　前記監視対象装置の異常度とは関係のない指標値には、前記時間的状況推測値算出手段が算出した前記予測値を含める障害分析装置。
　請求項１に記載の障害分析装置であって、
　前記障害分析装置は、第１の監視対象装置と第２の監視対象装置とそれぞれ通信可能に接続され、
　前記事例格納部は、前記監視対象装置毎に前記各システム情報の識別情報を前記真の種別と対応付けて記憶し、
　前記システム情報受信手段は、前記第１の監視対象装置の各指標値と前記第２の監視対象装置の各指標値との関係を算出し、前記第１の監視対象装置の各指標値と前記算出された関係とに基づいて、前記第２の監視対象装置の各指標値の予測値を求める構成状況推測値算出手段を有し、
　前記種別判定手段は、前記構成状況推測値算出手段にて求められた予測値を前記判定基準と比較することで前記第２の監視対象装置の各システム情報を種別毎に分類する障害分析装置。
　請求項1に記載の障害分析装置において、
　前記監視対象装置の異常度とは関係のない指標値には、前記監視対象装置において所定の期間に発生したイベントの回数を示すイベント回数情報を含める障害分析装置。
　請求項１に記載の障害分析装置において、
　前記真の種別を示す情報は、前記監視対象装置が正常であるか異常であるかを示す情報である障害分析装置。
　請求項１に記載の障害分析装置において、
　前記障害事例登録手段は、前記真の種別を示す情報を、オペレータにより操作される端末から受信する障害分析装置。
　情報処理装置を用いた障害分析方法であって、
　前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信ステップと、
　前記情報処理装置が、受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類ステップと、
　前記情報処理装置が、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力するステップと、
　前記情報処理装置が、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付けるステップと、
　前記情報処理装置が、前記各システム情報の識別情報を前記真の種別と対応付けて記憶するステップと、
　前記情報処理装置が、受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するステップと、
　前記情報処理装置が、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類するステップとを有する障害分析方法。
　コンピュータを動作させるためのプログラムが書き込まれた記録媒体であって、
　前記コンピュータに、
　監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信する手順と、
　受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する手順と、
　前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する手順と、
　前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付ける手順と、
　前記各システム情報の識別情報を前記真の種別と対応付けて記憶する手順と、
　受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新する手順と、
　前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する手順とを実行させるためのプログラムが書き込まれた記録媒体。