WO2010032701A1

WO2010032701A1 - 運用管理装置、運用管理方法、および運用管理プログラム

Info

Publication number: WO2010032701A1
Application number: PCT/JP2009/065990
Authority: WO
Inventors: 清志加藤
Original assignee: 日本電気株式会社
Priority date: 2008-09-18
Filing date: 2009-09-14
Publication date: 2010-03-25
Also published as: EP2330510B1; JPWO2010032701A1; CN102099795B; US8700953B2; EP2330510A4; EP2330510A1; US9507687B2; JP5375829B2; US20140173363A1; CN102099795A; US20110161743A1

Abstract

【課題】障害発生箇所とその原因をわかりやすく提示することを可能とする運用管理装置等を提供する。【解決手段】本発明に係る運用管理装置１００は、被管理装置１０１から性能情報の時系列変化を示す第１および第２の性能情報とを収集する情報収集手段１０３と、第１および第２の性能情報の間の相関関数を導出し、この相関関数に基づいて相関モデルを生成する相関モデル生成手段１０７と、情報収集手段が取得した現在の第１および第２の性能情報が相関モデルの各々の性能情報間の変換関数で示された関係を一定の誤差範囲内で満たしているか否かを判定する相関変化分析手段１０９と、第１および第２の性能情報が相関モデルの変換関数で示された関係を満たしていない場合に、該状態である期間を障害期間として抽出する障害期間抽出手段１１０と、を有する。

Description

運用管理装置、運用管理方法、および運用管理プログラム

　本発明はウェブサービスや業務サービスといった情報通信サービスの運用に関し、特に当該サービスにおける障害の発生の検出とその原因の特定に関する。

　たとえばウェブサービスや業務サービスといった情報通信サービスの運用において、障害の発生を検出し、その原因を特定する運用管理装置が存在する。

　これに関連する技術文献として、次に示す各文献がある。特許文献１には、定期的にウェブサーバなどのレスポンスタイムを測定し、そのレスポンスタイムの値が補償値を満足しない場合は管理者に通知するという技術が記載されている。特許文献２には、燃料流量と車体速度などのように、異なる種類の複数のパラメータ間の変化の類似性を判断する技術が記載されている。特許文献３には、複数の方向データをモデル化した場合の相違度の分布モーメントを算出し、これが閾値を超えた場合に異常と判断するという技術が記載されている。

　特許文献４には、監視対象計算機のログを解析して得られた解析情報を、過去の解析情報と類似するパターンを検索して、それによって障害発生の予知を行うという技術が記載されている。特許文献５には、時系列的に変化するプラント設備機器の状態履歴をディスプレイに（色分けなどをして）わかりやすく表示するという技術が記載されている。特許文献６には、障害の発生箇所と発生順を視覚的に認識しやすく表示する障害情報表示装置が記載されている。

特開２００２－０９９４４８号公報特開２００５－２５７４１６号公報特開２００６－０４８２５３号公報特開２００７－２９３３９３号公報特開平０６－１７５６２６号公報特許第４０８９３３９号公報

　特許文献２の運用管理装置では、前述のような性能劣化障害を適切に検出するために、性能情報の変化度に基づいて性能情報間の相関関係の強さを算出するので、異なる種類の性能情報における時間の経過に応じた変化が類似するか否かを適切に判断することができる。

　しかしながら、特許文献２の運用管理装置では、崩れた相関関係の数や内容から実際に発生した障害を特定するためには、対象となるシステムの構成と挙動を正確に理解し、どのような障害でどう相関関係が崩れるのかを把握しておく必要がある。このため、管理者に多大な知識や経験が必要となるという問題があるとともに、理解不足から誤った分析結果を導出してしまう危険性があった。

　また、特許文献４および６の運用管理装置では、障害メッセージを障害の発生順や障害ユニットの実際の配置関係に応じて提示するので、障害箇所を視覚的に認識し易くして障害発生元の推測作業を軽減することができる。また、各種の性能情報を障害メッセージとあわせて時間軸上に表示することにより、過去の類似障害を探索する汎用の運用管理装置では、類似する障害の解析情報に基づいて障害発生を予測することができる。

　しかしながら、この従来の運用管理装置では、障害解析や過去事例探索において、障害メッセージやログ情報など障害時の情報として明確に切り出せる情報を用いる必要がある。正常／異常の区別なく時系列で連続する性能情報の場合は、その値や変化状態のみからどの部分が障害であるかを明確に切り出せないため、これらの視覚的表示や類似事例探索がうまく行えないという問題があった。

　残る特許文献１，３，５にも、障害発生箇所とその原因をわかりやすく提示することが可能である技術は記載されていない。従って、これらの各文献を組み合わせたとしても、経験が浅い管理者に対してわかりやすく障害発生箇所とその原因をわかりやすく提示する運用管理装置を得ることはできない。

　本発明の目的は、経験が浅く、対象となるシステムの構成と挙動を正確に理解していない管理者に対しても、障害発生箇所とその原因をわかりやすく提示することを可能とする運用管理装置、運用管理方法、および運用管理プログラムを提供することにある。

　上記目的を達成するため、本発明に係る運用管理装置は、システムを構成する単数または複数の被管理装置から複数種の性能種目毎の性能情報を取得して、被管理装置を運用管理する運用管理装置であって、性能種目又は被管理装置を要素とした場合に、要素から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを収集する情報収集手段と、第１および第２の性能情報の間の相関関数を導出し、この相関関数に基づいて相関モデルを生成する相関モデル生成手段と、情報収集手段が取得した現在の第１および第２の性能情報が相関関数で示された関係を一定の誤差範囲内で満たしているか否かを判定する相関変化分析手段と、相関変化分析手段が第１および第２の性能情報が相関関数で示された関係を満たしていない状態であると判定した場合に、該状態である期間を障害期間として抽出する障害期間抽出手段とを有することを特徴とする。

　上記目的を達成するため、本発明に係る運用管理方法は、システムを構成する単数または複数の被管理装置から複数種の性能種目毎の性能情報を取得して、被管理装置を運用管理する運用管理方法であって、性能種目又は被管理装置を要素とした場合に、要素から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを収集し、第１および第２の性能情報の間の相関関数を導出し、この相関関数に基づいて相関モデルを生成し、情報収集手段が取得した現在の第１および第２の性能情報が相関関数で示された関係を一定の誤差範囲内で満たしているか否かを判定し、第１および第２の性能情報が相関関数で示された関係を満たしていない状態であると判定された場合に、該状態である期間を障害期間として抽出することを特徴とする。

　上記目的を達成するため、本発明に係る運用管理プログラムは、システムを構成する単数または複数の被管理装置から複数種の性能種目毎の性能情報を取得して、被管理装置を運用管理する運用管理装置を制御するコンピュータに、性能種目又は被管理装置を要素とした場合に、要素から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを収集する機能と、第１および第２の性能情報の間の相関関数を導出する機能と、この相関関数に基づいて相関モデルを生成する機能と、情報収集手段が取得した現在の第１および第２の性能情報が相関関数で示された関係を一定の誤差範囲内で満たしているか否かを判定する手順と第１および第２の性能情報が相関関数で示された関係を満たしていない状態であると判定された場合に、該状態である期間を障害期間として抽出する機能とを実行させることを特徴とする。

　本発明は、上述したように性能情報から相関モデルを生成して、その相関モデルから外れた期間を障害期間として検出するように構成したので、障害の発生を適切に検出し、さらにその原因となる要因の特定も容易となる。これによって、管理者に対して障害発生箇所とその原因をわかりやすく提示することができる。

本発明の第１の実施形態に係る運用管理装置の構成を示す説明図である。図１で示した運用管理装置の動作を示すフローチャートである。性能分類情報蓄積手段に蓄積される性能分類情報、および各サーバの性能情報を分類する関係図の一例を示す説明図である。異常度変化情報算出手段および異常度分布情報算出手段によって算出された異常度分布の一例を示すグラフである。図１で示した管理者対話手段が管理者に提示する表示画面の例を示す。本発明の第２の実施形態に係る運用管理装置の構成を示す説明図である。図６で示した運用管理装置の動作を示すフローチャートである。本発明の第３（および第４）の実施形態に係る運用管理装置の構成を示す説明図である。図８で示した運用管理装置の動作を示すフローチャートである。図８で示した障害要素推定手段の動作の概要を示す説明図である。図８で示した障害分析手段が管理者に提示する表示画面の例を示す説明図である。図８で示した障害分析手段が管理者に提示する別の表示画面の例を示す説明図である。図８で示した（第４の実施形態に係る）運用管理装置で、異常度変化情報算出手段および異常度分布情報算出手段によって算出された異常度分布の一例を示すグラフである。図８で示した（第４の実施形態に係る）運用管理装置で、管理者対話手段が管理者に提示する表示画面の例を示す。図１に示した情報収集手段が検出して蓄積する性能情報の一例を示す説明図である。図１に示した相関モデル生成手段が作成する相関モデルの一例を示す説明図である。図１に示した管理者対話手段が管理者に提示する表示画面の例を示す説明図である。

（第１の実施形態）
　以下、本発明の実施形態の構成について添付図に基づいて説明する。
　最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
　本実施形態に係る運用管理装置１００は、システムを構成する単数または複数の被管理装置（サービス実行手段１０１）から複数種の性能種目毎の性能情報を取得して、前記被管理装置を運用管理する運用管理装置であって、性能種目又は被管理装置を要素とした場合に、要素（サービス実行手段１０１）から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを収集する情報収集手段１０３と、前記情報収集手段１０３が収集した第１および第２の性能情報との間の相関関数を導出し、この相関関数に基づいて相関モデルを生成する相関モデル生成手段１０７と、前記情報収集手段１０３が取得した現在の第１および第２の性能情報が相関関数で示された関係を一定の誤差範囲内で満たしているか否かを判定する相関変化分析手段１０９と、前記相関変化分析手段１０９が第１および第２の性能情報が相関関数で示された関係を満たしていない状態であると判定した場合に、該状態である期間を障害期間として抽出する障害期間抽出手段１１０とを有する。

　また運用管理装置１００は、障害期間抽出手段１１０の抽出した障害期間の間、第１および第２の性能情報が変換関数から外れた度合いである異常度についての統計情報を異常度変化情報として算出する異常度変化情報算出手段１１１を有する。

　また運用管理装置１００は、性能情報を複数種類に分類し、性能分類情報として保存する性能分類情報蓄積手段１１２と、前記性能分類情報蓄積手段１１２に蓄積された性能分類情報から、前記障害基幹抽出手段１１０が抽出した障害期間内に変化した相関関係に含まれる性能情報とその異常度とを抽出して性能情報の要素毎の異常度の分布を示す異常度分布情報を算出する異常度分布情報算出手段１１３とを備える。

　この構成を備えることにより、本発明の実施形態は、障害の発生を適切に検出し、さらにその原因となる要因を容易に特定して、管理者に対して障害発生箇所とその原因をわかりやすく提示することが可能である。
　以下、これをより詳細に説明する。

　図１は、本発明の第１の実施形態に係る運用管理装置１００の構成を示す説明図である。運用管理装置１００は、実際にはＣＰＵ、ＲＡＭ、ＯＳなどによって構成されるコンピュータプログラムを実行する主体である制御部１１４を有する。

　制御部１１４はＣＰＵから構成され、そのＣＰＵにプログラムを実行させることにより、ソフトウェア上で、サービス実行手段１０１、情報収集手段１０３、障害分析手段１０４、管理者対話手段１０５、対処実行手段１０６、相関モデル生成手段１０７、相関変化分析手段１０９を実現している。また、運用管理装置１００は、性能情報蓄積手段１０２および相関モデル蓄積手段１０８は、運用管理装置１００が備えているディスク装置などのような不揮発性記憶手段によって実現される。図１ではわかりやすさのため、性能情報蓄積手段１０２および相関モデル蓄積手段１０８も制御部１１４内に表記する。また制御部１１４は、後述する異常度分析部１１５を備える。なお、制御部１１４の構成をソフトウェア上で実現した場合を図示したが、これに限られるものではなく、制御部１１４の構成をハードウェアの構成として実現してもよいものである。

　サービス実行手段１０１は、ＷＥＢサービスや業務サービスといった情報通信サービスを提供する。サービス実行手段１０１は単数でも複数でもよく、また運用管理装置１００の他の要素とは物理的に別のコンピュータで構成されてもよいし、同一のコンピュータで構成されてもよい。性能情報蓄積手段１０２は、サービス実行手段１０１の各々の要素の性能情報を蓄積する。情報収集手段１０３は、サービス実行手段１０１の性能情報や異常メッセージなどの動作状態を検出して出力するとともに、動作状態に含まれる性能情報を性能情報蓄積手段１０２に蓄積する。

　障害分析手段１０４は、情報収集手段１０３および異常度分析部１１５からの出力を受け取って障害分析を行い、その結果を管理者対話手段１０５に出力する。管理者対話手段１０５は、障害分析手段１０４から出力される障害分析の結果を受け取って管理者に提示し、管理者からの入力を受け付ける。対処実行手段１０６は、管理者対話手段１０５からの指示に従って、サービス実行手段１０１上で障害の対処となる処理を実行する。

　相関モデル生成手段１０７は、性能情報蓄積手段１０２から一定期間の性能情報を取り出し、任意の２つの性能情報の値の時系列の変換関数を導出することでサービス実行手段１０１の全体的な稼動状態の相関モデルを生成する。相関モデル蓄積手段１０８は、相関モデル生成手段１０７が生成した相関モデルを蓄積する。

　相関変化分析手段１０９は、情報収集手段１０３から新たに検出された性能情報を受け取り、この性能情報に含まれる性能値が相関モデル蓄積手段１０８に蓄積される相関モデルの各々の性能情報間の変換関数で示された関係を一定の誤差範囲内で満たしているかを分析して、その結果を出力する。

　次に、本発明の実施形態に係る運用管理装置の特徴を明確にするため、本発明の実施形態に係る運用管理装置に対応する比較例を図１を用いて説明する。本発明の実施形態における異常度分析部１１５を装備しない運用管理装置を前記比較例として想定する。前記比較例の運用管理装置においては、前記異常度分析部１１５を装備していないため、障害分析手段１０４は、情報収集手段１０３および相関変化分析手段１０９からの出力を受け取って障害分析を行い、その結果を管理者対話手段１０５に出力することとなる。管理者対話手段１０５は、障害分析手段１０４から出力される障害分析の結果を受け取って管理者に提示し、管理者からの入力を受け付ける。対処実行手段１０６は、管理者対話手段１０５からの指示に従って、サービス実行手段１０１上で障害の対処となる処理を実行する。

　前記比較例に係る運用管理装置では、まず情報収集手段１０３がサービス実行手段１０１の動作状態を検出し、前記検出された情報を性能情報蓄積手段１０２に性能情報として蓄積する。例えば、前記情報収集手段１０３は、サービス実行手段１０１でＷＥＢサービスが実行されている場合、ＷＥＢサービスを提供する各サーバのＣＰＵ使用率やメモリ残量を前記サービス実行手段１０１の性能情報として一定時間間隔で検出する。

　図１５は、図１に示した情報収集手段１０３が検出して蓄積する性能情報５１１の一例を示す説明図である。前記情報収集手段１０３が取得する性能情報５１１には図１５に示す様に、例えば「Ａ．ＣＰＵ」，「Ａ．ＭＥＭ」，「Ｂ．ＣＰＵ」が含まれる。図１５に示す性能情報５１１のうち項目「Ａ．ＣＰＵ」は、ある１つのサーバ（サービス実行手段１０１）のＣＰＵ使用率の値を示し、２００７年１０月５日の１７時２５分の値が１２である。さらに１分間隔で１７時２６分から１５、３４、６３というような値が検出されている。同様に、「Ａ．ＭＥＭ」は同じサーバのメモリ残量の値を、「Ｂ．ＣＰＵ」は別のサーバのＣＰＵ使用率の値を、それぞれ同時刻に検出したものである。

　図１に示す様に、障害分析手段１０４は、予め決められた方法で障害分析を行う。一例を挙げると、前記障害分析手段１０４は、例えば、ＣＰＵ利用（使用？）率が一定値以上であれば管理者に警告メッセージを提示するなどのように、情報収集手段１０３で検出された性能情報の値から、予め与えられた閾値などの判定条件に従って、特定のサーバ（サービス実行手段１０１）の負荷が高くなっているかどうかを判定することにより前記障害分析を行う。

　管理者対話手段１０５は、前記障害分析手段１０４が分析した障害分析の結果を管理者に提示し、管理者が何らかの対処を指示する入力を行った場合、対処実行手段１０６を介してサービス実行手段１０１上で対処コマンドを実行させる。例えば、管理者は、ＣＰＵ負荷が高くなっていることを知って、業務量を減らす対処コマンドを前記対処実行手段１０６に入力したり、負荷分散を行うための構成変更を行う対処コマンドを前記対処実行手段１０６に入力する等の処置を行うことができる。このような情報収集、分析、対処の処理の繰り返しにより、サービス実行手段１０１の障害対処が継続して行われる。

　さらに、相関モデル生成手段１０７、相関モデル蓄積手段１０８、相関変化分析手段１０９によって、このような障害分析において、性能異常をより正確に検出することができる。

　図１に示した運用管理装置１００が行う性能情報の相関変化の分析の動作を説明する。性能情報蓄積手段１０２に蓄積された図１５で示した性能情報５１１に対して、相関モデル生成手段１０７は、各々の性能情報の間の変換関数を導出することによって相関モデルを作成し、相関モデル蓄積手段１０８に蓄積する。

　図１６は、相関モデル生成手段１０７が作成する相関モデル５２１の一例を示す説明図である。図１６に示す例では、前記相関モデル生成手段１０７は、例えば「Ａ．ＣＰＵ」を入力Ｘとし、「Ａ．ＭＥＭ」を出力Ｙとした場合の変換関数「Ｙ＝αＸ＋β」を導出することで、図１５に記述した性能情報５１１で示される値の時系列を参照して、前記変換関数のαとβの値として、それぞれ「－０．６」、「１００」を決定し、前記変換関数で生成した値の時系列と、出力となる性能情報の実際の値の時系列とを比較し、その差分である変換誤差から前記変換関数の重み「０．８８」を算出する。

　前記相関モデル生成手段１０７は、同様に任意の２つの性能情報間の変換関数を導出し、一定の重みを持つものを有効な相関として抽出し、図１６に示す様なサービス実行手段１０１の全体的な稼働状態の相関モデル５２１を生成する。ここでは、前記変換関数を「Ｙ＝αＸ＋β」という１次式とした場合を説明したが、この例に限定されるものではなく、前記相関モデル生成手段１０７が導出する前記変換関数は、任意の２つの性能情報の値の時系列を変換するものであれば良い。また、このような式に回帰させるための計算も、公知の統計学的手法を利用することができる。

　次に、相関変化分析手段１０９は、情報収集手段１０３から新たに取得した性能情報が、前記相関モデル生成手段１０７が生成した前記相関モデルに示される相関関係と一致しているかどうかを分析する。前記相関モデル生成手段１０９は、例えば、図１５に示す性能情報５１１において、最下行にある「２００７／１１／０７　８：３０」という時点におけるサービス実行手段１０１の性能情報５１１を得た場合、図１６に示す相関モデル５２１に記載された変換関数を順次探索し、入力であるサービス実行手段１０１の性能情報から変換関数を用いて算出した変換値と、出力となる性能情報の新たに取得された値が、一定の変換誤差の範囲内にある場合に相関が維持されていると判断し、変換誤差範囲を超えている場合には相関関係が崩れたものと判断する。

　前記比較例における相関変化前記手段１０９は、上述した処理を全ての入力であるサービス実行手段１０１の変換関数に対して繰り返し、新たに取得された全性能情報の相関変化の有無を判断した後、この相関変化の程度を示す異常度情報と相関変化に関係する要素を示す異常要素情報とを含む相関変化情報を作成して障害分析手段１０４に出力する。

　障害分析手段１０４は、この相関変化情報を受け取り、変化した異常度が予め規定された値を超えている場合には、管理者対話手段１０５を介して管理者に障害の可能性として提示する。

　前記比較例に係る運用管理装置における管理者対話手段１０５は図１７に示す様な表示画面５４１を管理者に提示する。表示画面５４１には、異常度合いを示す相関破壊数５４１ａ、異常場所を示す相関関係図５４１ｂ、異常度合いの大きい要素のリスト５４１ｃなどが含まれる。このようにして、例えば、異常度合いの大きい要素「Ｃ．ＣＰＵ」に障害の可能性があることを管理者に提示することができる。

　以上説明したような比較例の運用管理装置では、障害の発生していない平常時の性能情報から相関モデルを生成し、検出された性能情報がこの平常時の相関モデルと変化した割合を算出することで、応答劣化などの性能異常の発生を検出し、場所を特定している。

　しかしながら、上述した比較例に係る運用管理装置では、提示される情報が平常時と挙動が異なっている要素（サービス実行手段１０１）の情報であり、実際にどの要素（サービス実行手段１０１）が原因で障害となっているのかを分析するためには、この挙動の違いから原因を追究する作業を管理者が行わなければならないという問題がある。

　上述した比較例に係る運用管理装置では、例えば負荷分散されたサーバ（サービス実行手段１０１）の１つが異常になった場合や、複数のサーバ（サービス実行手段１０１）が利用している共有ディスクが異常になった場合では、異常な要素（サービス実行手段１０１）は１つであるが、性能情報間の相関関係は広範に破壊される。また、ＷＥＢ３層構成のシステムなど、一連の処理順序が存在するシステムでは、１つの要素（サービス実行手段１０１）に異常が発生した後、後段の要素（サービス実行手段１０１）に広範に処理異常が波及する場合がある。

　このため、上述した比較例に係る運用管理装置では、管理者は、実際に稼動しているシステムの特性を理解した上で、相関関係の崩れから原因となる要素（サービス実行手段１０１）を推定する必要があった。特に、大規模システムなど、構成要素が多く挙動が複雑なシステムにおいては、管理者に要求される知識量が膨大となるとともに、知識不足から誤った対処を行ってしまう危険性があった。

（実施形態１）
　そこで、本発明に係る実施形態１は、上述した比較例の問題を解決するため、図１に示す様に前記制御部１１４に異常度分析部１１５を装備するという構成を採っている。
　異常度分析部１１５は、障害期間抽出手段１１０と、異常度変化情報算出手段１１１と、性能分類情報蓄積手段１１２と、異常度分布情報算出手段１１３とを有している。このうち、性能分類情報蓄積手段１１２は、運用管理装置１００が予め備える、ディスク装置などのような不揮発性記憶手段によって実現される。障害期間抽出手段１１０、異常度変化情報算出手段１１１、異常度分布情報算出手段１１３は、制御部１１４を構成するＣＰＵにコンピュータプログラムを実行させることによりソフトウェア上で実現している。なお、障害期間抽出手段１１０、異常度変化情報算出手段１１１、異常度分布情報算出手段１１３をソフトウェア上で実現させているが、これに限られるものではなく、これらをハードウェアの構成により構築してもよいものである。

　障害期間抽出手段１１０は、相関変化分析手段１０９から相関変化情報を受け取り、予め定められた閾値に基づいて異常度の時系列変化から障害期間を抽出する。障害期間抽出手段１１０は、例えば、障害期間の開始を、正常運用時に発生しうる異常度から障害と判断できる異常度に変化する時点とし、障害期間の終了を、正常運用時に発生しうる異常度が一定時間継続した時点として、相関変化分析手段１０９から受け取った相関変化情報を用いて、予め定められた閾値に基づいて異常度の時系列変化から障害期間を抽出する。

　異常度変化情報算出手段１１１は、障害期間抽出手段１１０から障害期間の情報を受け取り、障害期間内の異常度の総計や最大、最小、平均値等の統計情報を含む異常度変化情報を算出する。性能分類情報蓄積手段１１２は、サービス実行手段１０１から収集された性能情報を複数のグループに分類する性能分類情報を蓄積する。

　異常度分布情報算出手段１１３は、性能分類情報蓄積手段１１２から性能分類情報を受け取り、障害期間内に変化した相関関係に含まれる性能情報とその異常度を抽出し、性能情報のグループ毎の異常度の分布を示す異常度分布情報を算出する。

　本発明の実施形態１における障害分析手段１０４は図１に示す様に、前記情報収集手段１０３からの情報に加えて、前記異常度変化情報算出手段１１１からの異常度変化情報と前記異常度分布情報算出手段１１３からの異常度分布情報とを受け取り、これらの情報に基づいてサービス実行手段１０１の障害を分析する。前記管理者対話手段１０５は、前記障害分析手段１０４からの分析結果に基づいて、障害期間毎の異常度変化情報と異常度分布情報を管理者に提示する。

　図２は、図１で示した本発明の実施形態１に係る運用管理装置１００における相関変化分析の動作を説明するフローチャートである。情報収集手段１０３がサービス実行手段１０１から収集した性能情報に基づいて、相関モデル生成手段１０７が相関モデルを生成する（ステップＳ６１１）。さらに、情報収集手段１０３が運用時の性能情報を収集すると、相関変化分析手段１０９が、この性能情報が相関モデルに示される相関関係と一致しているかどうかを分析し、相関関係の変化から異常度を算出する（ステップＳ６１２）。
　以上のステップまでの本発明の実施形態１に係る運用管理装置１００の動作は上述した比較例と同様である。
　次に、本発明の実施形態１に係る運用管理装置１００における特徴的な動作について説明する。

　障害期間抽出手段１１０は、相関変化分析手段１０９から受け取った異常度の時系列から、障害期間を抽出する（ステップＳ６１３）。

　図４に示す例では、前記障害期間抽出手段１１０は、異常度の時系列変化を示すグラフ１７１ａから障害期間１、障害期間２を抽出している。具体的に説明すると、前記障害期間抽出手段１１０は、異常度が正常とみなせる境界を示す正常閾値Ｖ１と、異常度が障害を表すとみなせる境界を示す障害閾値Ｖ２との２つの閾値を用い、正常閾値Ｖ１未満の異常度から障害閾値Ｖ２以上の異常度（相関破壊）Ｖ３に向けて変化した時点を開始とし、その後一定期間正常閾値Ｖ１未満の異常度が継続する時点を終了として障害期間１，２を抽出している。

　このように障害期間１，２が前記障害期間抽出手段１１０によって抽出された場合（ステップＳ６１４）、異常度変化情報算出手段１１１は、前記障害期間抽出手段１１０が抽出した障害期間１，２内の異常度変化情報を算出し（ステップＳ６１５）、異常度分布情報算出手段１１３は、前記障害期間抽出手段１１０が抽出した障害期間１，２内の影響要素（サービス実行手段１０１）の分布情報を算出する（ステップＳ６１６）。
　次に、前記異常度変化情報算出手段１１１及び前記異常度分布情報算出手段１１３が実行する動作について詳細に説明する。

　図３に示す様に、性能分類情報蓄積手段１１２は、性能分類情報１３１と、各サーバ（サービス実行手段１０１）の性能情報を分類する関係図１６１とを蓄積している。なお、図３に示す性能分類情報１３１と性能分類情報１３１は、一例を示すものであって、これに限られるものではない。サービスを提供するシステムなどによって種々変更されるものである。図３に示す関係図１６１では、一般的なＷｅｂ３層システムの構成と同様に、「Ａ」～「Ｇ」の７台のサーバ（サービス実行手段１０１）が、「Ｗｅｂ（ウェブサーバ）」のサーバ、「ＡＰ（アプリケーション）」のサーバ、「ＤＢ（データベース）」のサーバの３つの業務グループに分類している。性能分類情報１３１では、前記関係図１６１において分類したグループ分類に従って、各サーバ（サービス実行手段１０１）の性能情報を３つのグループに分類している。

　図３に示す例では、例えば「Ｗｅｂ」グループ（サービス実行手段１０１）には、「Ａ．＊」，「Ｂ．＊」，「Ｃ．＊」の性能情報が含まれている。「Ａ．＊」は前記ＷｅｂグループのサーバＡ（サービス実行手段１０１）の持つ全ての性能情報を示すものである。「Ｂ．＊」は前記ＷｅｂグループのサーバＢ（サービス実行手段１０１）の持つ全ての性能情報を示すものである。「Ｃ．＊」は前記ＷｅｂグループのサーバＣ（サービス実行手段１０１）の持つ全ての性能情報を示すものである。
　「ＡＰ」のサーバのグループには、「Ｄ．＊」，「Ｅ．＊」の性能情報が含まれている。「Ｄ．＊」は前記ＡＰグループのサーバＤ（サービス実行手段１０１）の持つ全ての性能情報を示すものである。「Ｅ．＊」は前記ＡＰグループのサーバＥ（サービス実行手段１０１）の持つ全ての性能情報を示すものである。
　「ＤＢ」のサーバのグループには、「Ｆ．＊」，「Ｇ．＊」の性能情報が含まれている。「Ｆ．＊」は前記ＤＢグループのサーバＦ（サービス実行手段１０１）の持つ全ての性能情報を示すものである。「Ｇ．＊」は前記ＤＢグループのサーバＧ（サービス実行手段１０１）の持つ全ての性能情報を示すものである。
　前記図３に示す性能分類情報１３１に従って、異常度分布情報算出手段１１３は、前記障害期間抽出手段１１０が抽出した障害期間１，２内の相関変化に関係する性能情報をサーバＡ～Ｇのグループに分類し、図４の下段に示す異常度の分布情報、すなわち、図４の下段に記載したグラフ１７１ｂの部分要素である「Ｗｅｂ」グループ、「ＡＰ」グループ、「ＤＢ」グループの高さを前記障害期間１，２毎に決定し、前記障害期間１，２における部分要素の異常度分布を示す積み上げグラフ１７１ｂを生成する。
　図４の下段に示す例では、前記異常度分布情報算出手段１１３は、障害期間１における部分要素の異常度分布情報として、「ＤＢ」グループに関する相関変化が過半数を占め、次に「Ｗｅｂ」グループに関する相関変化が多く、「ＡＰ」グループに関する相関変化が少数となっている異常度分布情報を生成する。また、前記異常度分布情報算出手段１１３は、障害期間２における部分要素の異常度分布情報として、「Ｗｅｂ」グループに関する相関変化が大半を占め、「ＡＰ」グループおよび「ＤＢ」グループに関する相関変化が少数となっている異常度分布情報を作成する。

　図４の下段に示す例では、前記異常度変化情報算出手段１１１は、前記障害期間抽出手段１１０からの情報を受け取って、前記障害期間抽出手段１１０が抽出した障害期間１，２における全ての要素（「Ｗｅｂ」グループ，「ＡＰ」グループ及び「ＤＢ」グループ）の異常度の高さを統計値に基づいて決定し、前記障害期間１，２における全ての要素の異常度を算出する。

　なお、前記異常度変化情報算出手段１１１及び前記異常度分布情報算出手段１１３が取り扱う障害期間１，２の幅は、前記障害期間抽出手段１１０がグラフ１７１ａに基づいて抽出した障害期間１，２によって、前記異常度変化情報算出手段１１１及び前記異常度分布情報算出手段１１３が決定する。

　障害分析手段１０４は、前記異常度変化情報算出手段１１１が算出した異常度変化情報および前記異常度分布情報算出手段１１３が算出した異常度分布情報を受け取り、それらの情報に基づいてサービス実行手段１０１の運用状態を分析し、その分析結果を管理者対話手段１０５に出力する。前記管理者対話手段１０５は、前記障害分析手段１０４の分析結果を受け取り、その分析結果を管理者に提示する（ステップＳ６１７）。

　図５は、前記管理者対話手段１０５が管理者に提示する表示画面１４２の一例を示す。前記管理者対話手段１０５は図５の上段に示す様に、表示画面１４２上で、相関変化分析手段１０９が出力する異常度の時系列である異常度グラフ１４２ａ上に前記障害期間抽出手段１１０が抽出した障害期間１～障害期間３を表示する。更に、前記管理者対話手段１０５は図５の下段に示す様に、異常度グラフ１４２ａと同一の時系列で、前記異常度分布情報算出手段１１３が算出したそれぞれの障害期間１～３での異常度分布１４２ｂを表示する。

　前記相関変化分析手段１０９が相関変化から異常度を分析した結果を示す時系列変化の異常度グラフが、図４に示すグラフではなく、図５の上段に示す様な異常度グラフ１４２ａである場合、図５の上段に示す様な異常度グラフ１５２ａの時系列変化では、それぞれの障害期間１～３における障害は同じような異常度と期間で連続しており、特に障害期間１の障害と障害期間３の障害とが類似した波形で示される。このため、比較例のように相関変化分析手段１０９が分析した結果を直接障害分析手段１０４に出力することにより、障害分析手段１０４で障害を分析して、図５の上段に示す異常度グラフ１４２ａだけで障害状態を管理者に表示した場合には、管理者は、障害期間１～３の障害を一連の障害と理解したり、障害期間２だけの障害が他の障害期間１，３の障害と異なる状態と予測したりして、的確な障害を把握することができないという可能性が大きい。

　これに対して、本発明の実施形態１では上述した様に、障害期間抽出手段１１０と、異常度変化情報算出手段１１１と、異常度分布情報算出手段１１３とを有し、障害分析手段１０４は、前記異常度変化情報算出手段１１１が算出した異常度変化情報および前記異常度分布情報算出手段１１３が算出した異常度分布情報を受け取り、それらの情報に基づいてサービス実行手段１０１の運用状態を分析し、その分析結果を管理者対話手段１０５に受け渡す。
　したがって、図５の下段に示す異常度分布１４２ｂを参照すると、その異常度分布１４２ａに、前記異常度変化情報算出手段１１１が算出した異常度変化情報と前記異常度分布情報算出手段１１３が算出した異常度分布情報とが積み上げグラフとして表示されるため、管理者は、障害期間１で「ＤＢ」グループに関係する障害が発生した後、障害期間２，３において「ＷＥＢ」グループに関係する障害が連続して発生していることが理解できる。このため、管理者は、図５の下段に示す異常度分布１４２ａの表示に基づいてより正確に状況を把握し、的確な対処を行うことができる。管理者は、例えば原因追求のために最初の障害期間１に発生した「ＤＢ」グループの障害状況を詳細に確認したり、影響範囲を調べるために障害期間２，３の障害の内容を詳細に確認したりといったことが可能となる。

　次に、上記の第１の実施形態の全体的な動作について説明する。システムを構成する単数または複数の被管理装置から複数種の性能種目毎の性能情報を取得して、被管理装置を運用管理する際、性能種目又は被管理装置を要素とした場合に、要素から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを情報収集手段１０３で収集し、相関モデル生成手段１０２を用いて、第１および第２の性能情報の間の相関関数を導出すると共に前記相関関数に基づいて相関モデルを生成し（図２：ステップＳ６１１）、相関変化分析手段１０９を用いて、運用時の性能情報から相関関係の崩れを算出し、次に障害期間抽出手段１１０を用いて異常児の時系列変化から障害期間を抽出し、障害期間が存在する場合、異常度変化情報算出手段１１１を用いて、障害期間内の異常度の変化情報を算出し（図２のステップＳ６１５）、異常度分布情報算出手段１１３を用いて、障害期間内の影響要素（サービス実行手段１０１）の分布情報を算出し、異常度合いと要素（サービス実行手段１０１）の分布とを管理者に提示する（図２のステップＳ６１７）。

　ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータである運用管理装置１００に実行させるようにしてもよい。

　本実施の形態によれば、障害期間抽出手段１１０が、異常度の時系列変化から障害期間を抽出し、異常度変化情報算出手段１１１と異常度分布情報算出手段１１３によって、障害期間内の相関変化の概要情報が生成される。これにより、管理者は、どの期間が障害であるのかと、その障害がどのような異常なのかの概略を的確に把握することができる。

　本実施の形態に係る運用管理装置１００では、正常時の相関関係を示す相関モデルとの一致度合いに基づいて障害期間を特定するため、判定値が小さい（一致度合いが高い）場合には、システム内での挙動が正常に戻ったことを示しており、性能情報に対する閾値のみで判定する場合と比べて、異常である期間と正常な期間を明確に区別することができる。

　さらに、本実施の形態に係る運用管理装置１００では、個々の要素毎の異常値だけでなく、ボトルネックなど入出力の関係にある他の要素の性能値との関係に起因する異常を検出することが可能となる。どの要素に関する異常であるかを管理者に正確に提示することができるので、管理者はミスを低減し効率的な対処を行うことが可能となる。

　上記説明では、グループ毎の異常分布を積み上げグラフで提示する例で説明したが、その例に限定されるものではなく、障害期間内の異常要素の内訳を提示できるものであれば、他の方法を用いても同様の効果が得られるものである。また、表示画面のグラフに障害期間を図示する例で説明したが、その例に限定されるものではなく、障害開始や終了を示すメッセージを発行し、障害分析手段１０４で行われるイベント分析の機能を利用して情報提示や対処を行うものであっても良い。この場合においても、相関変化から障害期間を特定することで、正確に性能障害を特定できるという効果が得られるものである。

（第２の実施形態）
　本発明の第２の実施形態に係る運用管理装置２００は、第１の実施形態に加えて、第１および第２の性能情報から障害の発生を検出する障害分析手段１０４と、相関モデルから、性能情報間の相関関係の強さおよび関係する要素のパターンから性能情報を分類して性能分類情報を生成する性能分類情報生成手段２１６をさらに有する。

　そして、障害分析手段１０４によって分析された障害の履歴を蓄積する過去障害情報蓄積手段２１４と、過去障害情報蓄積手段２１４に記憶された情報をそれぞれ異常度変化情報算出手段１１１が算出した異常度変化情報および異常度分布情報算出手段１１３が算出した異常度分布情報と比較して、これらの異常度変化情報および異常度分布情報と類似する障害を検索する類似障害探索手段２１５とを有する。
　この構成を備えることにより、運用管理装置２００は、性能情報のグループを自動的に生成して、類似探索が可能となったことによって、管理者が性能分類情報を作成する必要がなくなり、その負荷を低減できる。

　以下、これをより詳細に説明する。図６は、本発明の第２の実施形態に係る運用管理装置２００の構成を示す説明図である。図１で説明した第１の実施形態に係る運用管理装置１００の構成に加えて、過去障害情報蓄積手段２１４と、類似障害探索手段２１５と、性能分類情報生成手段２１６とを異常度分析部１１５に含んで構成されることを特徴とする。障害分析手段１０４は第１の実施形態に係る運用管理装置１００に含まれているので、運用管理装置２００にも含まれる。

　このうち、過去障害情報蓄積手段２１４は、運用管理装置２００が予め備える、ディスク装置などのような不揮発性記憶手段によって実現される。これら以外の構成要素は、第１の実施形態に係る運用管理装置１００と共通の動作および作用を有するため、要素名および参照番号も全て同一とする。

　過去障害情報蓄積手段２１４は、障害分析手段１０４によって分析された障害の履歴を蓄積する。類似障害探索手段２１５は、異常度変化情報算出手段１１１および異常度分布情報算出手段１１３から各々異常度変化情報および異常度分布情報を受け取り、過去障害情報蓄積手段２１４から類似する障害を探索する。

　性能分類情報生成手段２１６は、相関モデル蓄積手段１０８から相関モデルを読み出し、性能情報間の相関関係の強さおよび関係要素のパターンから性能情報を分類して性能分類情報を生成する。

　図７は、図６で示した運用管理装置２００の動作を示すフローチャートである。本実施形態に係る運用管理装置２００の動作は、図２で示した第１の実施形態に係る運用管理装置１００の動作に加えて、次に説明するステップＳ６２２とステップＳ６２８とを新たに含む。

　第１の実施形態と同様にして相関モデルが生成（ステップＳ６２１）された後、性能分類情報生成手段２１６は、相関モデル蓄積手段１０８から相関モデルを読み出し、性能情報間の相関関係の強さおよび関係要素のパターンから性能情報を分類して性能分類情報を生成する（ステップＳ６２２）。

　前記性能分類情報生成手段２１６は、サービス実行手段１０１の性能情報を一般的な分類の手法を用いて行うものであるが、前記性能情報が一定の関係を持つ場合に、その挙動からシステム構成のグループを推定して性能情報を分類するようにしてもよいものである。例えば前記サービス実行手段１０１が負荷分散されたサーバ群であれば、ある程度の定常負荷がかかる状況では、それぞれの入力と処理量が均等な値を示すため、前記サーバ群については、相互に強い相関関係が生成される。また、前記サービス実行手段１０１が「Ｗｅｂ」サーバや「ＡＰ」サーバのように、処理に流れがある場合、時系列順に前段から後段への関係は明確であるものの、逆の関係が弱くなる等の特徴が考えられる。その他、使用メモリと空きメモリのような反転関係や合算値となるものなどがある。前記性能分類情報生成手段２１６は、上述した情報を考慮して、サービス実行手段１０１の性能情報分類情報を生成する。

　次に、第１の実施形態と同様にしてステップＳ６２３～６２６（図２のステップＳ６１２～６１５に相当）の処理が行われた後、前記性能分類情報生成手段２１６が生成した性能分類情報を用いて、異常度分布情報算出手段１１３は異常度分布情報を算出する（ステップＳ６２７）。

　さらに、類似障害探索手段２１５は、前記異常度変化情報算出手段１１１が算出した異常度変化情報および前記異常度分布情報算出手段１１３が算出した異常度分布情報を受け取り、過去障害情報蓄積手段２１４に蓄積されている過去の障害事例から、類似する異常度変化または異常度分布を持つ事例を探索し、その内容を出力する（ステップＳ６２８）。障害分析手段１０４は、前記類似障害探索手段２１５が検索した情報と情報収集手段１０３が取得した情報とに基づいて障害を分析し、その分析結果を管理者対話手段１０５を介して、このようにして解析された障害内容を管理者に提示する（ステップＳ６２９）。

　以上説明したように、本実施の形態によれば、性能分類情報生成手段２１６が相関モデルに含まれる相関関係からサービス実行手段の性能情報のグループを自動的に生成するため、サービス実行手段の性能情報を分類するための性能分類情報を作成する管理者の負担を大幅に低減させることができる。

　また、本実施の形態では、類似障害探索手段２１５が、抽出された障害期間の異常度変化と異常度分布に従って過去の事例を探索する。この場合、汎用の運用管理装置では、障害事例を探索するために障害時に発生したエラーメッセージ等を用いており、性能情報のような連続的に変化する情報の類似情報を探索するためには、多次元状態空間の探索などの処理負荷の大きい処理が必要であった。これに対して、本実施の形態では、過去事例を探索するためにキーとなる情報が障害期間や異常度分布として生成されるため、処理負荷を増大させることなく、性能情報の類似探索を行う事ができる。

（第３の実施の形態）
　本発明の第３の実施形態に係る運用管理装置３００は、第２の実施形態に加えて、相関モデルおよび性能情報に含まれる分類情報と順序情報から、要素（サービス実行手段１０１）毎に、該要素に障害が発生して他の要素（サービス実行手段１０１）に波及する場合に想定される異常度分布パターンを予測し、異常度分布情報と異常度分布パターンとを比較して障害がどの要素において発生したかを推定する障害要素推定手段３１７を有する。
　この構成を備えることにより、運用管理装置３００は、異常の発生した要素を正確に推定でき、これによって対処ミスを低減し、より効率的な対処を実現することができる。

　以下、これをより詳細に説明する。図８は、本発明の第３の実施形態に係る運用管理装置３００の構成を示す説明図である。運用管理装置３００は、図６で説明した第２の実施形態に係る運用管理装置２００の構成に加えて、異常度分析部１１５に障害要素推定手段３１７を含んで構成される。また、性能分類情報蓄積手段１１２に蓄積される性能分類情報は、性能情報のグループを示す分類情報に加えて、グループ間の処理順序を示す順序情報を新たに保持する。これら以外の構成要素は、次に説明する点を除いて、第２の実施形態に係る運用管理装置２００と共通の動作および作用を有するため、要素名および参照番号も全て同一とする。

　障害要素推定手段３１７は、相関モデル蓄積手段１０８および性能分類情報蓄積手段１１２に蓄積された相関モデルおよび性能分類情報に含まれる、分類情報と順序情報を受け取り、システム内の要素（サービス実行手段１０１）毎に、それぞれの要素が障害になって他の要素（サービス実行手段１０１）に波及する場合に想定される異常度分布パターンを予測する。さらに、異常度分布情報算出手段１１３から異常度分布情報を受け取り、自らが予測した異常度分布パターンと比較することにより、システム内のどの要素の障害であるかを推定する。

　類似障害探索手段２１５は、過去事例を探索する場合に、障害要素推定手段３１７が推定した障害要素の情報を含んで探索する機能を新たに有し、障害分析手段１０４は、管理者対話手段１０５を介して、その解析結果を管理者に提示する機能を新たに有する。

　図９は、図８で示した運用管理装置３００の動作を示すフローチャートである。本実施形態に係る運用管理装置３００の動作は、図７で示した第２の実施形態に係る運用管理装置２００の動作に加えて、以下で説明するステップＳ６３３およびステップＳ６３９を含む。

　第２の実施形態と同様に、相関モデルが生成（ステップＳ６３１）され、性能分類情報が生成（ステップＳ６３２）された後、障害要素推定手段３１７は、相関モデル蓄積手段１０８から読み出した相関モデルと性能分類情報蓄積手段１１２から読み出した性能分類情報とを比較して、システム内の要素毎に、それぞれの要素が障害になった場合に想定される異常度分布パターンを予測する（ステップＳ６３３）。

　図１０は、図８で示した障害要素推定手段３１７の動作の概要を示す説明図である。図１０の関係図３６２では、図３の関係図１５１のグループ分類に加えて、各グループ間の処理順序を示す矢印が追加されている。異常度パターン３３１は、障害要素推定手段３１７が推定した異常度分布パターンの例を示す。異常度パターン３３１は、システム内のある要素が障害になった場合に、グループ間の処理順序に従って、障害要素となる性能情報から相関モデルに含まれる相関関係を探索した場合に、どの相関関係が破壊されるかを予め算出したものである。

　例えば、「Ｗｅｂ」グループのサーバに異常があった場合、「Ｗｅｂ」グループに含まれる他のサーバとの相関関係が破壊される。しかし、Ｗｅｂサーバが処理を行わない状況では、後段のＡＰサーバやＤＢサーバの入力がない状態となり、このため処理は行われないが、性能情報間の相関関係は正しく維持される。このため、異常度分布は、台数の多い「Ｗｅｂ」グループの相関変化が多く、他のグループの相関変化は少なくなっている。「ＡＰ」グループや「ＤＢ」グループのサーバが異常な場合の異常度分布パターンも、これと同様に予測される。

　図９に戻って、次に、第２の実施形態と同様にしてステップＳ６３４～６３８（図７のステップＳ６２３～６２７に相当）の処理が行われた後、障害要素推定手段３１７は、異常度分布情報算出手段１１３から受け取った異常度分布情報と、ステップＳ６３３で予測した異常度分布パターンを比較して、システム内のどの要素の障害であるかを推定する（ステップＳ６３９）。

　この後、類似障害探索手段２１５は、この推定結果を含めて過去事例を探索し（ステップＳ６４０）、障害分析手段１０４が管理者対話手段１０５を介して、このようにして解析された障害内容を管理者に提示する（ステップＳ６４１）。

　図１１および図１２は、このようにして図８で示した障害分析手段１０４が管理者に提示する表示画面３４３および３４４の例を示す説明図である。図５の表示画面１４２と同様に、図１１の表示画面３４３では異常度グラフ３４３ａが図示され、図１２の表示画面３４４では、異常度分布の積み上げグラフ３４４ａが図示される。

　さらに、図１１～１２の表示画面３４３～３４４では、抽出された障害候補のリスト３４３ｂおよび３４４ｂが提示されている。この場合、表示画面３４４に示す障害１の異常度分布情報を、障害要素推定手段３１７が推定した図１０の異常度パターン３３１と比較した結果、ＡＰサーバの障害であると推定し、その異常度変化情報の大きさから重要度が「大」であること、および、異常度が大きい要素である「ＡＰ．Ｄ．ＣＰＵ」が異常要素であると推定されること、が提示されている。同様に、障害２は、重要度が「小」の「Ｗｅｂ」グループの障害と推定されている。表示画面３４３および３４４では、類似障害の情報は省略されているが、これを障害候補の詳細情報として提示することもできる。

　以上説明したように、本実施の形態によれば、障害要素推定手段３１７が、システム内の要素が異常になった場合の異常度パターンを予測し、算出された異常度分布情報と比較することで、どの要素が異常であるかの推定結果を管理者に提示することができる。例えば、図１２の障害１の分布では「ＡＰ」グループの数は少なく、他のグループの方が多いため、管理者が他のグループの障害と誤認する危険性がある。しかし、本実施の形態では、相関関係を処理順序に従って辿ることで、この分布となる場合が「ＡＰ」グループの障害であるとの推定結果を管理者に提示することができる。これにより、対処ミスを低減し、より効率的な対処を実現することができる。

（第４の実施形態）
　本発明の第４の実施形態に係る運用管理装置４００は、第３の実施形態に係る運用管理装置３００と同一の構成の装置で、障害期間抽出手段が、障害期間を障害開始期間、障害継続期間、および障害終了期間に分類する。
　この構成を備えることにより、運用管理装置４００は、障害の原因とその影響について管理者に対して正確に提示することが可能となる。

　以下、これをより詳細に説明する。本発明の第４の実施形態に係る運用管理装置４００の構成は、図８で説明した第３の実施形態に係る運用管理装置３００の構成と同一であるので、図８の「３００」を単純に「４００」に読み替えることとして説明を継続する。しかしながら運用管理装置４００では、障害期間抽出手段１１０が新たに、正常閾値以下の値から障害閾値以上の値に継続して増加する障害開始期間と、障害開始期間の後に、正常閾値以下の値が一定数だけ継続する障害終了期間と、障害開始期間と障害終了期間の挟まれた障害継続期間とに障害期間を分割する機能を有する。さらに、異常度変化情報算出手段１１１および異常度分布情報算出手段１１３が、それぞれの期間の異常度変化情報と異常度分布情報を算出する機能を新たに有する。

　図１３は、上記の運用管理装置４００で、異常度変化情報算出手段１１１および異常度分布情報算出手段１１３によって算出された異常度分布の一例を示すグラフ４７２である。グラフ４７２は、異常度の時系列変化を示すグラフ４７２ａと、異常度分布を示す積み上げグラフ４７２ｂとからなる。第１の実施形態において図４を用いて説明した例では、障害期間１および障害期間２のそれぞれに一様な異常度分布となっている。

　これに対して図１３で示す運用管理装置４００の場合は、障害期間抽出手段１１０によって、それぞれの障害期間が障害開始期間、障害継続期間、障害終了期間の３つの期間に分割されている。また、異常度変化情報算出手段１１１と異常度分布情報算出手段１１３によって、分割された期間毎に異常度の分布が生成されている。

　図１４は、上記の運用管理装置４００で、管理者対話手段１０５が管理者に提示する表示画面４４５の例を示す。表示画面４４５は、第３の実施の形態において図１２で説明した表示画面３４４に対して、障害１および障害２の分布画面が３つの積み上げグラフに分割されている。例えば、障害１では、障害開始期間では「Ｗｅｂ」グループの異常が多い分布となり、障害継続期間では「ＤＢ」グループの異常が分布が多い分布となっている。これにより、管理者は、障害発生時にどのような分布となり、その後、どの範囲に影響があるのかを把握することができる。

　第３の実施の形態では、障害期間が終了しなければ正確な分布を抽出することができず、また、障害が長期に継続するような場合に、障害発生時の分布が、後続する異常の分布の影響を受けてわかりづらくなるという問題がある。これに対して、本実施の形態では、障害発生時の分布と、以降継続した期間の分布を分離することができるため、障害発生時に迅速に障害内容を把握することが可能となるとともに、障害原因（発生時の分布）と影響範囲（継続時の分布）を区別することができる。さらに、障害終了時の分布によって、正常状態への復帰の状況を把握することもできる。

　これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。

　この出願は２００８年９月１８日に出願された日本出願特願２００８－２３９０６８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、ＷＥＢサービスや業務サービスといった情報通信サービスを提供する情報処理装置で、該情報処理装置の中でシステムの性能劣化を検知し、局所化する運用管理装置に対して適用することができる。

　　１００、２００、３００、４００　運用管理装置
　　１０１　サービス実行手段
　　１０２　性能情報蓄積手段
　　１０３　情報収集手段
　　１０４　障害分析手段
　　１０５　管理者対話手段
　　１０６　対処実行手段
　　１０７　相関モデル生成手段
　　１０８　相関モデル蓄積手段
　　１０９　相関変化分析手段
　　１１０　障害期間抽出手段
　　１１１　異常度変化情報算出手段
　　１１２　性能分類情報蓄積手段
　　１１３　異常度分布情報算出手段
　　１１４　制御部
　　１１５　異常度分析部
　　１３１　性能分類情報
　　１４２　表示画面
　　１４２ａ　異常度グラフ
　　１４２ｂ　異常度分布
　　１６１、３６２　関係図
　　１７１　異常度分布
　　１７１ａ、１７１ｂ　グラフ
　　２１４　過去障害情報蓄積手段
　　２１５　類似障害探索手段
　　２１６　性能分類情報生成手段
　　３１７　障害要素推定手段
　　３３１　異常度パターン
　　３４３、３４４、４４５　表示画面
　　４７２、４７２ａ、４７２ｂ　グラフ
　　５１１　性能情報
　　５２１　相関モデル
　　５４１　表示画面
　　５４１ａ　相関破壊数
　　５４１ｂ　相関関係図
　　５４１ｃ　異常度合いの大きい要素のリスト

Claims

　システムを構成する単数または複数の被管理装置から複数種の性能種目毎の性能情報を取得して、前記被管理装置を運用管理する運用管理装置であって、
　前記性能種目または前記被管理装置を要素とした場合に、前記要素から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを収集する情報収集手段と、
　前記第１および第２の性能情報の間の相関関数を導出し、この相関関数に基づいて相関モデルを生成する相関モデル生成手段と、
　前記情報収集手段が取得した現在の前記第１および第２の性能情報が前記相関関数で示された関係を一定の誤差範囲内で満たしているか否かを判定する相関変化分析手段と、
　前記相関変化分析手段が前記第１および第２の性能情報が前記相関関数で示された関係を満たしていない状態であると判定した場合に、該状態である期間を障害期間として抽出する障害期間抽出手段とを有することを特徴とする運用管理装置。
　前記障害期間抽出手段の抽出した障害期間の間、前記第１および第２の性能情報が前記相関関数から外れた度合いである異常度についての統計情報を異常度変化情報として算出する異常度変化情報算出手段を有することを特徴とする、請求項１に記載の運用管理装置。
　前記性能情報を複数種類に分類し、性能分類情報として保存する性能分類情報蓄積手段と、
　前記性能分類情報蓄積手段に蓄積された性能分類情報から、前記障害期間内に変化した相関関係に含まれる前記性能情報とその異常度とを抽出して前記性能情報の前記要素毎の異常度の分布を示す異常度分布情報を算出する異常度分布情報算出手段とを有することを特徴とする、請求項２に記載の運用管理装置。
　前記相関モデルから、前記性能情報間の相関関係の強さおよび関係する前記要素のパターンから前記性能情報を分類して性能分類情報を生成する性能分類情報生成手段を有することを特徴とする、請求項３に記載の運用管理装置。
　前記第１および第２の性能情報から障害の発生を検出する障害分析手段と、
　前記障害分析手段によって分析された障害の履歴を蓄積する過去障害情報蓄積手段と、
　前記過去障害情報蓄積手段に記憶された情報を前記異常度変化情報および前記異常度分布情報と比較して、これらの異常度変化情報および異常度分布情報と類似する障害を検索する類似障害探索手段とを有することを特徴とする、請求項３に記載の運用管理装置。
　前記相関モデルおよび前記性能情報に含まれる分類情報と順序情報から、前記要素毎に、該要素に障害が発生して他の要素に波及する場合に想定される異常度分布パターンを予測し、前記異常度分布情報と異常度分布パターンとを比較して前記障害がどの要素において発生したかを推定する障害要素推定手段を有することを特徴とする、請求項４に記載の運用管理装置。
　前記障害期間抽出手段が、前記障害期間を障害開始期間、障害継続期間、および障害終了期間に分類することを特徴とする、請求項１ないし請求項６のうちいずれか１項に記載の運用管理装置。
　システムを構成する単数または複数の被管理装置から複数種の性能種目毎の性能情報を取得して、前記被管理装置を運用管理する運用管理方法であって、
　前記性能種目又は前記被管理装置を要素とした場合に、前記要素から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを収集し、
　前記第１および第２の性能情報の間の相関関数を導出し、その相関関数に基づいて相関モデルを生成し、
　前記取得した前記第１および第２の性能情報が前記相関関数で示された関係を一定の誤差範囲内で満たしているか否かを判定し、
　前記第１および第２の性能情報が前記相関関数で示された関係を満たしていない状態であると判定された場合に、該状態である期間を障害期間として抽出することを特徴とする運用管理方法。
　前記抽出した障害期間の間、前記第１および第２の性能情報が前記相関関数から外れた度合いである異常度についての統計情報を異常度変化情報として算出することを特徴とする、請求項８に記載の運用管理方法。
　前記性能情報を複数種類に分類し、性能分類情報として保存し、
　前記性能分類情報から、前記障害期間内に変化した相関関係に含まれる前記性能情報とその異常度とを抽出して前記性能情報の前記要素毎の異常度の分布を示す異常度分布情報を算出することを特徴とする請求項９に記載の運用管理方法。
　前記相関モデルから、前記性能情報間の相関関係の強さおよび関係する前記要素のパターンから前記性能情報を分類して性能分類情報を生成することを特徴とする請求項１０に記載の運用管理方法。
　記憶された過去の障害履歴情報を前記異常度変化情報および前記異常度分布情報と比較して、これらの異常度変化情報および異常度分布情報と類似する障害を検索することを特徴とする請求項１０に記載の運用管理方法。
　前記相関モデルおよび前記性能情報に含まれる分類情報と順序情報から、前記要素毎に、該要素に障害が発生して他の要素に波及する場合に想定される異常度分布パターンを予測し、前記異常度分布情報と異常度分布パターンとを比較して前記障害がどの要素において発生したかを推定することを特徴とする請求項１１に記載の運用管理方法。
　システムを構成する単数または複数の被管理装置から複数種の性能種目毎の性能情報を取得して、前記被管理装置を運用管理する運用管理装置を制御するコンピュータに、
　前記性能種目又は前記被管理装置を要素とした場合に、前記要素から少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能情報および第２の要素に関する性能情報の時系列変化を示す第２の性能情報とを収集する機能と、
　前記第１および第２の性能情報の間の相関関数を導出し、その相関関数に基づいて相関モデルを生成する機能と、
　前記情報収集手段が取得した現在の前記第１および第２の性能情報が前記相関関数で示された関係を一定の誤差範囲内で満たしているか否かを判定する機能と、
　前記第１および第２の性能情報が前記相関関数で示された関係を満たしていない状態であると判定された場合に、該状態である期間を障害期間として抽出する機能とを実行させることを特徴とする運用管理プログラム。