WO2013027562A1

WO2013027562A1 - 運用管理装置、運用管理方法、及びプログラム

Info

Publication number: WO2013027562A1
Application number: PCT/JP2012/069931
Authority: WO
Inventors: 英男長谷川
Original assignee: 日本電気株式会社
Priority date: 2011-08-24
Filing date: 2012-07-31
Publication date: 2013-02-28
Also published as: EP2750041A4; US20170046215A1; JP5621937B2; EP2750041A1; US9778972B2; US20140195868A1; JPWO2013027562A1

Abstract

システムにおいて継続性のある異常が発生しているメトリックを容易に把握できる運用管理装置を提供する。　運用管理装置１００は、メトリック収集部１０１と異常スコア算出部１０４とを含む。メトリック収集部１０１は、システムにおける複数メトリックの計測値をそれぞれ時系列に記憶する。また、異常スコア算出部１０４は、複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する。

Description

運用管理装置、運用管理方法、及びプログラム

　本発明は、運用管理装置、運用管理方法、及びプログラムに関し、特にシステムの異常を検出する運用管理装置、運用管理方法、及びプログラムに関する。

　ＩＴ（Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ）システムでは、管理者がシステムを監視し、システムに異常が発生したと認められる場合には、検出された異常に優先順位をつけて対処することにより、システム停止などの致命的な状態を回避する。
　このようなＩＴシステムの異常を検出する運用管理システムの一例が、特許文献１及び２に記載されている。特許文献１及び２記載の運用管理システムは、システムの複数のメトリック（性能指標）の計測値をもとに、メトリックの組み合わせの各々に対して相関関係を検出し、相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、入力されたメトリックの計測値に対して相関関係の破壊が発生しているかどうかを判定し、システムの異常を検出する。
　この運用管理システムでは、管理者がシステムの異常有無を判別するため、相関破壊数の時間経過を示すグラフを出力する。また、ある時刻における異常の詳細として、異常が検出されたメトリック（異常メトリック）のリストを、異常スコアとともに出力する。
　なお、関連技術として、特許文献３には、システムのリソース項目の中から、統計手法を用いて監視項目、及び、閾値を検出する監視装置が開示されている。

特開２００９−１９９５３３号公報特開２０１０−１８６３１０号公報特開２００３−２６３３４２号公報

　上述の特許文献１及び２に記載の運用管理システムでは、システムの規模が大きくなるとメトリックの数が増え、異常メトリックも大量に提示される。異常メトリックには、バックグラウンド処理等に起因した短時間で終了する異常のように、本来管理者が注目する必要がない重要度（緊急度）の低い異常が発生しているメトリックも含まれるが、このように大量の異常メトリックが発生した場合、長時間継続して発生している異常のように、重要度（緊急度）の高い異常が発生しているメトリックを把握することが難しくなるという問題がある。
　本発明の目的は、上述の課題を解決し、システムにおける継続性のある異常が発生しているメトリックを容易に把握できる運用管理装置、運用管理方法、及びプログラムを提供することである。

　本発明の一態様における運用管理装置は、システムにおける複数メトリックの計測値をそれぞれ時系列に収集するメトリック収集手段と、前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する異常スコア算出手段と、を含む。
　本発明の一態様における運用管理方法は、システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する。
　本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する処理を実行させるプログラムを格納する。

　本発明の効果は、システムにおける継続性のあるメトリックの異常を容易に把握できることである。

本発明の第１の実施の形態の特徴的な構成を示すブロック図である。本発明の第１の実施の形態における運用管理装置１００を適用した運用管理システムの構成を示すブロック図である。本発明の第１の実施の形態における運用管理装置１００の処理を示すフローチャートである本発明の第１の実施の形態における性能系列情報１２１の例を示す図である。本発明の第１の実施の形態における相関モデル１２２の例を示す図である。本発明の第１の実施の形態における残差の例を示す図である。本発明の第１の実施の形態における相関変化情報１２３の例を示す図である。本発明の第１の実施の形態における異常スコアの算出過程を示す図である。本発明の第１の実施の形態における異常スコアの算出結果を示す図である。本発明の第１の実施の形態における解析結果１３０の例を示す図である。本発明の第２の実施の形態における運用管理装置１００の処理を示すフローチャートである。本発明の第２の実施の形態におけるグループ異常スコアの算出結果を示す図である。本発明の第２の実施の形態における解析結果１４０の例を示す図である。

　（第１の実施の形態）
　次に、本発明の第１の実施の形態について説明する。
　はじめに、本発明の第１の実施の形態の構成について説明する。図２は、本発明の第１の実施の形態における運用管理装置１００を適用した運用管理システムの構成を示すブロック図である。
　図２を参照すると、本発明の第１の実施の形態における運用管理システムは、運用管理装置１００、１以上の被監視装置２００、及び、監視端末３００を含む。運用管理装置１００と被監視装置２００は、ネットワークにより接続される。また、運用管理装置１００と監視端末３００も、ネットワークにより接続される。
　被監視装置２００は、ＷｅｂサーバやＤａｔａｂａｓｅサーバ等、システムを構成する装置である。被監視装置２００の各々は、監視エージェント２０１を含む。
　被監視装置２００の監視エージェント２０１は、被監視装置２００の複数種目の性能値の実測データ（計測値）を一定間隔毎に計測し、運用管理装置１００へ送信する。性能値の種目として、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）使用率、メモリ使用率、ディスクアクセス頻度等、コンピュータリソースの使用率や使用量用いられる。
　ここで、被監視装置２００と性能値の種目の組をメトリック（性能指標）とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。メトリックは、整数や小数の数値より表される。また、メトリックは、特許文献１における要素に相当する。
　運用管理装置１００は、監視対象である被監視装置２００から収集した性能情報をもとに、被監視装置２００についての相関モデル１２２を生成し、生成した相関モデル１２２を用いて、被監視装置２００の障害や異常の検出を行う。
　運用管理装置１００は、メトリック収集部１０１、相関モデル生成部１０２、相関変化分析部１０３、異常スコア算出部１０４、メトリック記憶部１１１、相関モデル記憶部１１２、及び、相関変化記憶部１１３を含む。
　メトリック収集部１０１は、被監視装置２００から性能情報を収集し、その時系列変化を性能系列情報１２１としてメトリック記憶部１１１に保存する。
　相関モデル生成部１０２は、性能系列情報１２１をもとに、被監視装置２００により構成されるシステムの相関モデル１２２を生成する。
　相関モデル記憶部１１２は、相関モデル生成部１０２が生成した相関モデル１２２を記憶する。
　相関変化分析部１０３は、特許文献１と同様に、新たに入力された性能情報について、相関モデル１２２に含まれる各メトリックの組み合わせに対する相関関係の異常を検出する。
　相関変化記憶部１１３は、相関変化分析部１０３による相関関係の異常の検出結果を相関変化情報１２３として記憶する。
　異常スコア算出部１０４は、相関変化情報１２３をもとに、各メトリックの異常スコアを算出し、監視端末３００に出力する。
　監視端末３００は、運用管理装置１００が、管理者等から被監視装置２００の障害や異常の検出指示を受け付け、その検出結果を出力するための端末である。監視端末３００は、表示部３０１を含む。
　監視端末３００の表示部３０１は、例えば、ディスプレイ等の表示デバイスであり、運用管理装置１００により出力された異常スコアを、表示画面により、管理者等に出力（表示）する。
　なお、運用管理装置１００は、ＣＰＵとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、メトリック記憶部１１１、相関モデル記憶部１１２、及び、相関変化記憶部１１３は、それぞれ個別の記憶媒体でも、一つの記憶媒体によって構成されてもよい。
　次に、本発明の第１の実施の形態における運用管理装置１００の動作について説明する。
　図３は、本発明の第１の実施の形態における運用管理装置１００の処理を示すフローチャートである。
　はじめに、運用管理装置１００のメトリック収集部１０１は、被監視装置２００上の監視エージェント２０１により計測された性能情報を収集し、メトリック記憶部１１１に保存する（ステップＳ１０１）。
　図４は、本発明の第１の実施の形態における性能系列情報１２１の例を示す図である。図４の例では、性能系列情報１２１は、メトリックｘ＿１、ｘ＿２、ｘ＿３…（以下、″＿″に続く文字は、添え字を示す）の計測値の時系列変化を含む。
　例えば、メトリック収集部１０１は、図４の性能系列情報１２１を保存する。
　次に、相関モデル生成部１０２は、メトリック記憶部１１１の性能系列情報１２１を参照し、管理者等により指定された、所定のモデル化期間の性能情報をもとに、相関モデル１２２を生成し、相関モデル記憶部１１２に保存する（ステップＳ１０２）。
　ここで、相関モデル１２２は、複数のメトリックの内の２つのメトリックの全組み合わせの各々についての、相関関数（または、変換関数）と閾値とを含む。
　相関関数は、各メトリックの組み合わせについて、所定のモデル化期間（ｔ＿ｓ≦ｔ≦ｔ＿ｅ、ｔは時刻）の計測値の時系列データに対して成り立つ相関関係を、所定の近似式で記述したものである。メトリックｘ＿ｉからメトリックｘ＿ｊへの相関関係についての相関関数をｆ＿ｉ，ｊとした場合、メトリックの組み合わせの内の一方のメトリックｘ＿ｊの推定値は、他方のメトリックｘ＿ｉの計測値から、相関関数ｆ＿ｉ，ｊを用いて、数１式のように表される。

　相関モデル生成部１０２は、所定のモデル化期間の性能系列情報１２１に基づいて、各メトリックの組み合わせについて、相関関数の係数を決定する。相関関数の係数は、特許文献１と同様に、上述のメトリックの計測値の時系列に対する、システム同定処理によって決定される。
　閾値は、各メトリックの組み合わせについて、所定のモデル化期間における、相関関数による残差（変換誤差、または、予測誤差）の最大値である。ここで、残差は、相関関数用いて算出されたメトリックの推定値と、当該メトリックの計測値との差分の絶対値である。
　メトリックｘ＿ｉからメトリックｘ＿ｊへの相関関係についての閾値Ｔｈ＿ｉ，ｊ、残差ｄ＿ｉ，ｊ（ｔ）は、数２式により表現される。

　なお、ａｂｓ（）は、括弧内の値の絶対値を示す。
　ここで、被監視装置２００が正常である限り、残差ｄ＿ｉ，ｊ（ｔ）の値は極めて小さく、閾値Ｔｈ＿ｉ，ｊを超えないものと仮定する。
　相関モデル生成部１０２は、特許文献１と同様に、所定のモデル化期間の残差をもとに、各メトリックの組み合わせについて、相関関数の重みを算出し、重みが所定値以上の相関関数とその閾値の集合を相関モデル１２２としてもよい。
　図５は、本発明の第１の実施の形態における相関モデル１２２の例を示す図である。図５の例では、相関モデル１２２は、メトリックｘ＿１、ｘ＿２、ｘ＿３、…の間の相関関数と閾値を含む。
　例えば、相関モデル生成部１０２は、図４の性能系列情報１２１をもとに、図５に示すような相関モデル１２２を生成する。
　次に、相関変化分析部１０３は、各時刻において、メトリック収集部１０１により新たに収集された性能情報に対して、相関モデル１２２に含まれる相関関係の異常を検出し、相関変化情報１２３を相関変化記憶部１１３に保存する（ステップＳ１０３）。
　ここで、相関変化分析部１０３は、特許文献１と同様に、新たに入力された性能情報について、相関モデル１２２に含まれる各相関関係に関し、異常（相関破壊）の有無を判定する。
　相関関係の異常の度合いを示す異常度は、新たに入力された性能情報と相関モデル１２２とを用いて算出される残差により示される。相関変化分析部１０３は、残差、及び、閾値を用いて、メトリックｘ＿ｉからメトリックｘ＿ｊへの相関関係についての異常の有無を、数３式により判定する。

　図６は、本発明の第１の実施の形態における残差の例を示す図である。図６の例では、メトリックｘ＿ｊの推定値と計測値に関する残差の閾値に対する割合が１を超えている場合、メトリックｘ＿ｉからメトリックｘ＿ｊへの相関関係に異常があると判定されている。
　図７は、本発明の第１の実施の形態における相関変化情報１２３の例を示す図である。相関変化情報１２３は、各メトリックの組み合わせについて、各時刻における残差の閾値に対する割合（ｄ＿ｉ，ｊ（ｔ）／Ｔｈ＿ｉ，ｊ）、及び、異常の有無を含む。
　例えば、相関モデル生成部１０２は、新たに収集された性能情報に対して、図５に示す相関モデル１２２に含まれる相関関係の異常を検出し、図７のような相関変化情報１２３を保存する。
　次に、異常スコア算出部１０４は、各時刻において、相関変化情報１２３をもとに、各メトリックの異常スコアを算出する（ステップＳ１０４）。
　ここで、異常スコアは、各メトリックに関する相関関係の異常の度合い（残差）、及び、異常の継続度合いをもとに算出される。異常スコア算出部１０４は、メトリックｘ＿ｉの異常スコアＳ＿ｉ（ｔ）を、数４式により算出する。

　ここで、ａｖｅｒａｇｅ＿ｉ（）は、メトリックｘ＿ｉから相関関係がある他のメトリックとの間の相関関係のすべてに対して括弧内の値を算出し、その平均値を求めることを示す。例えば、メトリックｘ＿１からｘ＿２、ｘ＿３、ｘ＿４との間に相関関係がある場合、括弧内の値の、これらの相関関係についての平均値が算出される。
　また、ｃ＿ｉ，ｊ（ｔ）は、異常の継続度合いを示す異常継続度であり、時刻ｔ以前の所定期間において、相関関係に異常が検出された期間の割合を示す。
　ｓｔｅｐ（ｙ）は、ステップ関数であり、数３式により算出される残差の閾値に対する割合が１未満、すなわち、相関関係が正常な場合、０である。したがって、メトリックｘ＿ｉから相関関係がある他のメトリックとの間の相関関係のすべてが正常な場合、異常スコアＳ＿ｉ（ｔ）は０である。
　図８は、本発明の第１の実施の形態における異常スコアの算出過程を示す図である。図９は、本発明の第１の実施の形態における異常スコアの算出結果を示す図である。
　例えば、異常スコア算出部１０４は、各時刻において、図７の相関変化情報１２３をもとに、図８のように異常継続度を算出し、図９のように異常スコアを算出する。
　図９の異常スコアの算出結果では、例えば、時刻１２：３０において、メトリックｘ＿１の異常スコアが、メトリックｘ＿２、ｘ＿３の異常スコアよりも大きく、メトリックｘ＿１の異常度が大きい、あるいは、異常が継続している可能性が高いことを示している。
　次に、異常スコア算出部１０４は、各時刻において、各メトリックの異常スコアを含む解析結果１３０を生成し、監視装置３００に出力する（ステップＳ１０５）。監視端末３００の表示部３０１は、解析結果１３０を管理者等に表示する。
　図１０は、本発明の第１の実施の形態における解析結果１３０の例を示す図である。図１０の例では、解析結果１３０は、異常相関率表示部１３１、異常相関表示部１３２、及び、異常スコア表示部１３３を含む。
　例えば、異常スコア算出部１０４は、図１０の解析結果１３０を監視端末３００に送信する。
　異常相関率表示部１３１は、相関モデル１２２に含まれる相関関係の内、異常と判定された相関関係の割合の経時変化を示す。管理者等は、異常相関率表示部１３１を参照し、被監視装置２００において、相関関係の異常が多発した時刻を把握することができる。
　異常相関表示部１３２は、相関モデル１２２上で異常と判定された相関関係を示す。異常相関表示部１３２では、相関モデル１２２の各メトリックが、当該メトリックの識別子（名前）とともに円で示され、異常と判定された相関関係は、円と円を結ぶ実線で示される。異常相関表示部１３２は、例えば、異常相関率表示部１３１上で管理者等により指定された時刻に関して、異常と判定された相関関係を表示する。また、異常相関表示部１３２は、新たな性能情報が収集される度に、最新の収集時刻に関して、異常と判定された相関関係を表示してもよい。管理者等は、異常相関表示部１３２を参照し、被監視装置２００において、異常が集中するメトリックを把握することができる。
　異常スコア表示部１３３は、各メトリックの異常スコアを示す。各メトリックは、所定の矩形領域内に、当該メトリックの識別子とともに円で示され、異常スコアが大きいほど、円の大きさ（半径）は大きくなる。また、異常スコアが大きいほど、円は、矩形領域の上部に表示される。
　異常スコア算出部１０４は、このように、異常スコアに応じて大きくなる円の大きさ、及び、前記異常スコアに応じて高くなる、矩形領域の底辺に対する垂直軸上の底辺からの高さを決定し、当該円が、当該大きさで、当該高さに表示されるように、異常スコア表示部１３３として表示されるデータを生成する。
　異常スコア表示部１３３は、例えば、異常相関率表示部１３１上で管理者等により指定された時刻に関して、異常スコアを表示してもよい。また、異常スコア表示部１３３は、新たな性能情報が収集される度に、最新の収集時刻に関して、異常スコアを表示してもよい。
　また、異常スコアは、数４式に示したように、相関関係の異常度（残差）に異常継続度を乗じることにより算出される。異常継続度は、異常スコアを算出する時刻以前の所定期間において、異常が検出された期間の割合であるため、異常の発生が続くと、時間の経過とともに異常スコアが次第に大きくなり、異常の発生が止まると、時間の経過とともに異常スコアが次第に小さくなる。このため、異常スコア表示部１３３では、メトリックに関する異常の発生が続くと、当該メトリックの円が次第に大きくなりつつ矩形領域の中を上昇し、異常の発生が止まると、当該メトリックの円が次第に小さくなりつつ矩形領域の中を下降する。すなわち、異常スコア表示部１３３では、各メトリックの異常スコアが、風船や泡のような浮力を得た物体の移動と同様な移動で表示される。なお、矩形領域中の円の上昇、下降は、よく知られるアルキメデスの原理に従っていてもよい。
　図１０の解析結果１３０では、時刻１２：３０において、メトリックｘ＿１を示す円が、他のメトリックの円より大きく、上部に表示されている。これにより、管理者等は、メトリックｘ＿１の異常度が大きい、あるいは、異常が継続している可能性が高いことを容易に把握することができる。
　また、図９の異常スコアの算出結果では、メトリックｘ＿１の異常は、時刻１２：２０から時刻１２：４０の間継続し、異常スコアは時刻１２：３０において最大となる。この場合、異常スコア表示部１３３では、メトリックｘ＿１を示す円が、時刻１２：２０から時刻１２：３０に大きくなりつつ上昇し、時刻１２：３０から時刻１２：４０に小さくなりつつ下降する。これにより、管理者等は、メトリックｘ＿１の異常の継続が開始された、あるいは、継続が停止した可能性を容易に把握することができる。
　以上により、本発明の第１の実施の形態の動作が完了する。
　次に、本発明の第１の実施の形態の特徴的な構成を説明する。図１は、本発明の第１の実施の形態の特徴的な構成を示すブロック図である。
　図１を参照すると、本発明の第１の実施の形態の運用管理装置１００は、メトリック収集部１０１と異常スコア算出部１０４とを含む。
　ここで、メトリック収集部１０１は、システムにおける複数メトリックの計測値をそれぞれ時系列に収集する。また、異常スコア算出部１０４は、複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する。
　次に、本発明の第１の実施の形態の効果を記載する。
　特許文献１に記載された技術では、ある時刻におけるメトリックｘ＿ｉの異常スコアは、メトリックｘ＿ｉから他のメトリックへの相関関係の内、当該時刻において異常と判定された相関関係の数をもとに算出され、異常メトリックのリストが異常スコアとともに表示される。管理者等は、異常メトリックのリストをもとに、異常スコアの高いメトリックの異常に対する対処を優先的に行う。この場合、管理者等は、当該メトリックの異常が継続的であるか、一時的であるかを把握できないため、当該メトリックの異常が一時的であっても優先的に対処する可能性がある。また、管理者等は、当該メトリックの異常が継続的であるか、一時的であるかを把握するために、例えば、異常メトリックのリストを、当該時刻の前後の時刻と比較する必要がある。
　本発明の本発明の第１の実施の形態によれば、システムにおける継続性のあるメトリックの異常を容易に把握できる。その理由は、異常スコア算出部１０４が、メトリックの各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出するためである。また、異常スコア算出部１０４が、各メトリックの異常スコアを、異常スコアに応じた大きさ、及び、表示位置を有する図形で表示するためである。
　これにより、管理者等は、継続的に発生しているメトリックの異常に対する対処を優先的に行うことができ、特許文献１の技術のみを用いる場合に比べ、システムの安定的な運用が期待できる。
　また、これにより、管理者等は、メトリックの異常が継続的であるかどうかを調べるために、各時刻における異常メトリックのリストを比較する必要はなく、継続的な異常の把握における管理者等の負担軽減や、見逃しの防止が期待できる。
　また、本発明の第１の実施の形態によれば、メトリックの異常の継続が開始された、あるいは、停止したことを容易に把握できる。その理由は、上述のように、異常スコア算出部１０４が、各メトリックの異常スコアを、異常スコアに応じた大きさ、及び、表示位置を有する図形で表示するためである。
　（第２の実施の形態）
　次に、本発明の第２の実施の形態について説明する。
　本発明の第２の実施の形態においては、異常スコア算出部１０４が、異常検出の開始時刻が同一であるメトリックをグループ化する点において、本発明の第１の実施の形態と異なる。
　本発明の第２の実施の形態の構成は、本発明の第１の実施の形態と同様となる。
　次に、本発明の第２の実施の形態における運用管理装置１００の動作について説明する。
　図１１は、本発明の第２の実施の形態における運用管理装置１００の処理を示すフローチャートである。ここで、メトリック収集部１０１が性能情報を収集してから、異常スコア算出部１０４が、各メトリックの異常スコアを算出するまでの動作（ステップＳ２０１~Ｓ２０４）は、本発明の第１の実施の形態の動作（ステップＳ１０１~Ｓ１０４）と同様となる。
　異常スコア算出部１０４は、上述のステップＳ１０４で、算出された各メトリックの異常スコアを参照し、異常検出の開始時刻が同一であるメトリックをグループ化する（ステップＳ２０５）。ここで、異常検出の開始時刻が同一であるメトリックとは、異常スコアが０から０より大きい値に変わった時刻が同一のメトリックである。そして、異常スコア算出部１０４は、グループ化されたメトリックの異常スコアを合計することにより、各グループの異常スコアであるグループ異常スコアを算出する（ステップＳ２０６）。
　図１２は、本発明の第２の実施の形態におけるグループ異常スコアの算出結果を示す図である。
　例えば、異常スコア算出部１０４は、各時刻において、図９の異常スコアをもとに、図１２のグループ異常スコアを算出する。
　この場合、異常スコア算出部１０４は、時刻１２：２０の異常スコアをもとに、当該時刻に異常検出が開始されたメトリックｘ＿１のみからなるグループＡを生成する。グループＡは、時刻１２：４０まで継続する。また、異常スコア算出部１０４は、時刻１２：３０の異常スコアをもとに、当該時刻に異常検出が開始されたメトリックｘ＿２とｘ＿３からなるグループＢを生成する。グループＢは、時刻１２：３０で終了する。そして、異常スコア算出部１０４は、各グループに含まれるメトリックの異常スコアをもとに、図１２のようにグループ異常スコアを算出する。
　図１２のグループ異常スコアの算出結果では、メトリックｘ＿２の異常検出開始時刻とｘ＿３の異常検出開始時刻とが同一であり、メトリックｘ＿２の異常とｘ＿３の異常とは、共通の異常事象に起因した異常の可能性があり、関連性が高いことを示している。また、メトリックｘ＿１の異常検出開始時刻とメトリックｘ＿２、ｘ＿３の異常検出開始時刻とは異なることを示している。
　異常スコア算出部１０４は、各時刻において、各グループのグループ異常スコアを含む解析結果１４０を生成し、監視装置３００に出力する（ステップＳ２０７）。
　図１３は、本発明の第２の実施の形態における解析結果１４０の例を示す図である。図１３の例では、解析結果１４０は、異常相関率表示部１４１、異常相関表示部１４２、及び、異常スコア表示部１４３を含む。
　異常相関率表示部１４１、異常相関表示部１４２は、本発明の第１の実施の形態の異常相関率表示部１３１、異常相関表示部１３２と同様に、それぞれ、異常と判定された相関関係の割合、相関モデル１２２上での異常と判定された相関関係を示す。
　異常スコア表示部１４３は、各グループのグループ異常スコアを示す。各グループは、所定の矩形領域内に、当該グループに含まれるメトリックの識別子とともに円で示され、本発明の第１の実施の形態と同様に、異常スコアが大きいほど、円の大きさは大きくなり、矩形領域の上部に表示される。
　本発明の第１の実施の形態における、図１０の解析結果１３０では、時刻１２：３０において、メトリックｘ＿２、ｘ＿３は、それぞれ異常の継続性がなく、異常スコアがメトリックｘ＿１に比べて低いため、メトリックｘ＿２、ｘ＿３を示す円は、それぞれ、異常スコア表示部１３３の下部に小さく表示される。
　一方、本発明の第２の実施の形態における、図１３の解析結果１４０では、時刻１２：３０において、メトリックｘ＿１からなるグループを示す円と同様に、メトリックｘ＿２、ｘ＿３からなるグループを示す円が、他のグループの円より大きく、異常スコア表示部１４３の上部に表示される。
　これにより、管理者等は、メトリックｘ＿２、ｘ＿３の関連性が高いことと、それらの異常度の総和が大きい、あるいは、それらの異常が継続している可能性が高いこととを容易に把握することができる。
　以上により、本発明の第２の実施の形態の動作が完了する。
　次に、本発明の第２の実施の形態の効果を記載する。
　ある一つの異常事象により複数のメトリックが異常な値となった場合、当該複数のメトリックの異常が同じ時刻に発生することがある。特許文献１の技術では、管理者等は、このような異常事象を把握するために、例えば、異常メトリックのリストの時間的な変化をもとに、異常メトリック間の時間的な関連性を確認し、同じ時刻に発生する異常メトリックを抽出する必要がある。また、異常事象を特定するために、異常が発生した相関関係に関してシグネチャマッチングを適用する方法も提案されている。しかしながら、未知の異常事象に対しては、相関関係に関するシグネチャの蓄積が無く、シグネチャマッチングを適用することはできない。
　本発明の本発明の第２の実施の形態によれば、同じ時刻に発生する異常メトリックを容易に把握できる。その理由は、異常スコア算出部１０４が、異常検出の開始時刻が同一であるメトリックをグループ化し、各グループのグループ異常スコアを算出するためである。
　これにより、管理者等は、共通の異常事象に起因した異常を、迅速に把握でき、システムのより安定的な運用が期待できる。
　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
　例えば、本発明の実施の形態では、システムにおける性能指標をメトリックとし、メトリックの異常スコアを算出しているが、これに限らず、メトリックは、システムにおけるクライアントコンピュータからの要求量や、システムを介して単位時間あたりに処理される貨物の数等、システムに関して時系列で表される指標であれば、どのような指標でもよい。
　また、本発明の実施の形態では、メトリックの異常度合いとして、当該メトリックに関する相関関係の異常（相関破壊）の度合いを用いているが、これに限らず、メトリックの異常度合いは、メトリックの値の所定の閾値に対する超過（閾値異常）の度合い等、他の異常度を用いてもよい。
　また、本発明の実施の形態では、相関モデル１２２における閾値を、各メトリックの組み合わせについて、相関関数による残差の最大値をもとに算出しているが、閾値は、各メトリックの組み合わせについて定義された所定値、または、相関モデル１２２について定義された所定値でもよい。
　また、本発明の実施の形態では、異常スコアを数４式により算出しているが、異常スコアが、メトリックの異常の継続度合いに応じて増加するのであれば、他の数式を用いて異常スコアを算出してもよい。例えば、数４式において、メトリックに関する相関関係の異常度（残差）を用いずに、当該メトリックに関する相関関係の異常継続度のみを用いて、異常スコアを算出してもよい。
　また、本発明の実施の形態では、解析結果１３０、１４０において、異常スコアの大きさをメトリックを表す円の大きさ、及び、所定の矩形領域内での当該円が表示される高さで示しているが、これに限らず、異常スコアの大きさを示すことができれば、他の形状の図形や、他の表示位置により示してもよい。例えば、異常スコアの大きさを楕円や球等、円以外の図形の大きさにより表示してもよい。また、異常スコアの大きさを、円や台形等、矩形以外の所定の形状において定義された垂直軸上の所定の基準点からの高さで示してもよい。
　また、異常スコアの大きさを、地平面に対する垂直軸上の、所定の基準点からの高さで示してもよい。この場合、表示部３０１が地平面に対して傾いて配置されていても、各メトリックを表す図形は、異常スコアに応じて、地平面に対して垂直方向に上昇または下降する。すなわち、各メトリックを表す図形の移動は、実際の浮力を得た物体の移動により近くなる。これにより、管理者等は、各メトリックの異常スコアの変化を、より容易に把握することができる。
　この出願は、２０１１年８月２４日に出願された日本出願特願２０１１−１８２２６１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１００　運用管理装置
　１０１　メトリック収集部
　１０２　相関モデル生成部
　１０３　相関変化分析部
　１０４　異常スコア算出部
　１１１　メトリック記憶部
　１１２　相関モデル記憶部
　１１３　相関変化記憶部
　１２１　性能系列情報
　１２２　相関モデル
　１２３　相関変化情報
　１３０　解析結果
　１３１　異常相関率表示部
　１３２　異常相関表示部
　１３３　異常スコア表示部
　１４０　解析結果
　１４１　異常相関率表示部
　１４２　異常相関表示部
　１４３　異常スコア表示部
　２００　被監視装置
　２０１　監視エージェント
　３００　監視端末

Claims

　システムにおける複数メトリックの計測値をそれぞれ時系列に収集するメトリック収集手段と、
　前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する異常スコア算出手段と、
を含む運用管理装置。
　前記異常スコア算出手段は、前記異常スコアに応じて、所定の図形の大きさ、及び、表示手段の表示画面上の位置を決定し、当該図形を、当該大きさで、当該位置に表示する
請求項１に記載の運用管理装置。
　前記異常スコア算出手段は、前記異常スコアに応じて大きくなる概略円形の図形の大きさ、及び、前記異常スコアに応じて高くなる、所定の垂直軸上の設定された基準点からの高さを決定し、当該図形を、当該大きさで、当該基準点からの高さに表示する
請求項２に記載の運用管理装置。
　前記異常スコア算出手段は、前記異常の検出の開始時刻が同一である前記メトリックからなるグループを生成し、当該グループに含まれる前記メトリックの異常スコアの合計値を当該グループの異常スコアとして算出し、出力する
請求項１乃至３のいずれかに記載の運用管理装置。
　前記異常スコア算出手段は、前記複数メトリックの計測値の各々の各時刻における異常の度合いを示す異常度と前記継続度とをもとに、当該メトリックの前記異常スコアを算出する
請求項１乃至４のいずれかに記載の運用管理装置。
　さらに、前記複数のメトリックの内の異なる２つのメトリック間の相関関係を示す相関関数を１以上含む相関モデルを記憶する相関モデル記憶手段を含み、
　前記異常度は、前記複数メトリックの計測値の各々を前記相関関数に適用したときの変換誤差をもとに算出される
請求項５に記載の運用管理装置。
　前記継続度は、各時刻以前の所定期間における、前記異常が検出された期間の割合である
請求項１乃至６のいずれかにに記載の運用管理装置。
　システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、
　前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する
運用管理方法。
　前記異常スコアを出力する場合、前記異常スコアに応じて、所定の図形の大きさ、及び、表示手段の表示画面上の位置を決定し、当該図形を、当該大きさで、当該位置に表示する
請求項８に記載の運用管理方法。
　前記異常スコアを出力する場合、前記異常スコアに応じて大きくなる概略円形の図形の大きさ、及び、前記異常スコアに応じて高くなる、所定の垂直軸上の設定された基準点からの高さを決定し、当該図形を、当該大きさで、当該基準点からの高さに表示する
請求項９に記載の運用管理方法。
　さらに、前記異常の検出の開始時刻が同一である前記メトリックからなるグループを生成し、当該グループに含まれる前記メトリックの異常スコアの合計値を当該グループの異常スコアとして算出し、出力する
請求項８乃至１０のいずれかに記載の運用管理方法。
　前記異常スコアを算出する場合、前記複数メトリックの計測値の各々の各時刻における異常の度合いを示す異常度と前記継続度とをもとに、当該メトリックの前記異常スコアを算出する
請求項８乃至１１のいずれかに記載の運用管理方法。
　さらに、前記複数のメトリックの内の異なる２つのメトリック間の相関関係を示す相関関数を１以上含む相関モデルを記憶し、
　前記異常度は、前記複数メトリックの計測値の各々を前記相関関数に適用したときの変換誤差をもとに算出される
請求項１２に記載の運用管理方法。
　前記継続度は、各時刻以前の所定期間における、前記異常が検出された期間の割合である
請求項８乃至１３のいずれかにに記載の運用管理方法。
　コンピュータに、
　システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、
　前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する処理を実行させるプログラムを格納する、
コンピュータが読み取り可能な記録媒体。
　前記異常スコアを出力する場合、前記異常スコアに応じて、所定の図形の大きさ、及び、表示手段の表示画面上の位置を決定し、当該図形を、当該大きさで、当該位置に表示する処理を実行させる前記プログラムを格納する、
請求項１５に記載のコンピュータが読み取り可能な記録媒体。
　前記異常スコアを出力する場合、前記異常スコアに応じて大きくなる概略円形の図形の大きさ、及び、前記異常スコアに応じて高くなる、所定の垂直軸上の設定された基準点からの高さを決定し、当該図形を、当該大きさで、当該基準点からの高さに表示する処理を実行させる前記プログラムを格納する、
請求項１６に記載のコンピュータが読み取り可能な記録媒体。
　さらに、前記異常の検出の開始時刻が同一である前記メトリックからなるグループを生成し、当該グループに含まれる前記メトリックの異常スコアの合計値を当該グループの異常スコアとして算出し、出力する処理を実行させる前記プログラムを格納する、
請求項１５乃至１７のいずれかに記載のコンピュータが読み取り可能な記録媒体。
　前記異常スコアを算出する場合、前記複数メトリックの計測値の各々の各時刻における異常の度合いを示す異常度と前記継続度とをもとに、当該メトリックの前記異常スコアを算出する処理を実行させる前記プログラムを格納する、
請求項１５乃至１８のいずれかに記載のコンピュータが読み取り可能な記録媒体。
　さらに、前記複数のメトリックの内の異なる２つのメトリック間の相関関係を示す相関関数を１以上含む相関モデルを記憶する処理を実行させ、
　前記異常度は、前記複数メトリックの計測値の各々を前記相関関数に適用したときの変換誤差をもとに算出される前記プログラムを格納する、
請求項１９に記載のコンピュータが読み取り可能な記録媒体。
　前記継続度は、各時刻以前の所定期間における、前記異常が検出された期間の割合である前記プログラムを格納する、
請求項１５乃至２０のいずれかにに記載のコンピュータが読み取り可能な記録媒体。