JPWO2012101933A1 - 運用管理装置、運用管理方法、及びプログラム - Google Patents

運用管理装置、運用管理方法、及びプログラム Download PDF

Info

Publication number
JPWO2012101933A1
JPWO2012101933A1 JP2012554646A JP2012554646A JPWO2012101933A1 JP WO2012101933 A1 JPWO2012101933 A1 JP WO2012101933A1 JP 2012554646 A JP2012554646 A JP 2012554646A JP 2012554646 A JP2012554646 A JP 2012554646A JP WO2012101933 A1 JPWO2012101933 A1 JP WO2012101933A1
Authority
JP
Japan
Prior art keywords
metrics
correlation
metric
correlation model
added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012554646A
Other languages
English (en)
Other versions
JP5532150B2 (ja
Inventor
清志 中川
清志 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012554646A priority Critical patent/JP5532150B2/ja
Application granted granted Critical
Publication of JP5532150B2 publication Critical patent/JP5532150B2/ja
Publication of JPWO2012101933A1 publication Critical patent/JPWO2012101933A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

監視対象のメトリックに変更があった場合の相関モデルの更新を迅速に行う。相関モデル記憶部112は、第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶する。相関モデル更新部103は、メトリックが追加された場合、当該追加されたメトリックと第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、相関関係の有無を判定し、検出された相関関係を第1の相関モデルに追加して第2の相関モデルを生成する。

Description

本発明は、運用管理装置、運用管理方法、及びプログラムに関し、特に、システムの性能値の種別(メトリック)間の相関関係を監視する運用管理装置、運用管理方法、及びプログラムに関する。
システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害を検出する運用管理システムの一例が特許文献1に記載されている。
特許文献1記載の運用管理システムは、システムの複数種別の性能値(複数のメトリック)の計測値をもとに、監視対象のメトリックの組み合わせの各々に対して相関関係を検出し、相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、定期的に、入力されたメトリックの計測値に対して相関関係の破壊が発生しているかどうかを判定し、システムの障害、及び、障害の原因を検知する。
また、特許文献2、及び、特許文献3には、特許文献1と同様に生成された相関モデルを用いてメトリックの値を予測し、システムのボトルネックを予測する運用管理システムが開示されている。
特開2009−199533号公報 特開2009−199534号公報 特開2010−237910号公報
上述の特許文献1から3に記載された運用管理システムにおいては、監視対象である複数のメトリックの内の2つのメトリックの全組み合わせについて相関関係の有無を検出し、相関モデルを生成する。このため、システム変更や監視ポリシーの変更に伴い監視対象のメトリックに変更があった場合に、相関モデルの再生成に時間を要するという課題があった。
本発明の目的は、上述の課題を解決し、監視対象のメトリックに変更があった場合の相関モデルの更新を迅速に行うことができる運用管理装置、運用管理方法、及びプログラムを提供することである。
本発明の一態様における運用管理装置は、第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶する相関モデル記憶手段と、メトリックが追加された場合、当該追加されたメトリックと前記第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、前記第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、前記相関関係の有無を判定し、検出された前記相関関係を前記第1の相関モデルに追加して第2の相関モデルを生成する相関モデル更新手段とを含む。
本発明の一態様における運用管理方法は、第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶し、メトリックが追加された場合、当該追加されたメトリックと前記第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、前記第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、前記相関関係の有無を判定し、検出された前記相関関係を前記第1の相関モデルに追加して第2の相関モデルを生成する。
本発明の一態様におけるコンピュータ読み取り可能な記録媒体は、コンピュータに、第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶し、メトリックが追加された場合、当該追加されたメトリックと前記第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、前記第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、前記相関関係の有無を判定し、検出された前記相関関係を前記第1の相関モデルに追加して第2の相関モデルを生成する処理を実行させるプログラムを格納する。
本発明の効果は、監視対象のメトリックに変更があった場合の相関モデルの更新を迅速に行うことができることである。
本発明の第一の実施の形態の特徴的な構成を示すブロック図である。 本発明の第一の実施の形態における運用管理装置100を適用した運用管理システムの構成を示すブロック図である。 本発明の第一の実施の形態における、被監視装置200の接続関係の例を示す図である。 本発明の第一の実施の形態における運用管理装置100の処理を示すフローチャートである。 本発明の第一の実施の形態における性能系列情報121の例を示す図である。 本発明の第一の実施の形態における相関モデル情報122の例を示す図である。 本発明の第一の実施の形態における、相関モデルの生成処理で相関関係の有無を判定するメトリックの組み合わせの例を示す図である。 本発明の第一の実施の形態における、相関モデル生成部102により検出された相関関係の例を示す相関グラフである。 本発明の第一の実施の形態におけるメトリック情報123の例を示す図である。 本発明の第一の実施の形態における、被監視装置200の接続関係の他の例を示す図である。 本発明の第一の実施の形態における性能系列情報121の他の例を示す図である。 本発明の第一の実施の形態における相関モデル情報122の他の例を示す図である。 本発明の第一の実施の形態における、相関モデルの更新処理で相関関係の有無を判定するメトリックの組み合わせの例を示す図である。 本発明の第一の実施の形態における、相関モデルの更新処理で相関関係の有無を判定するメトリックの組み合わせの他の例を示す図である。 本発明の第一の実施の形態における、相関モデル更新部103により更新された相関関係の例を示す相関グラフである。 本発明の第一の実施の形態における追加メトリック情報124の例を示す図である。 本発明の第一の実施の形態におけるメトリック情報123の他の例を示す図である。
(第一の実施の形態)
次に、本発明の第一の実施の形態について説明する。
はじめに、本発明の第一の実施の形態の構成について説明する。図2は、本発明の第一の実施の形態における運用管理装置100を適用した運用管理システムの構成を示すブロック図である。
図2を参照すると、本発明の第一の実施の形態における運用管理システムは、運用管理装置100、及び、複数の被監視装置200を含む。
運用管理装置100は、監視対象である被監視装置200から収集した性能情報をもとに、相関モデルを生成し、生成した相関モデルを用いて、被監視装置200についての障害分析を行う。
被監視装置200は、例えば、Webサーバ、アプリケーションサーバ(APサーバ)、データベースサーバ(DBサーバ)等、ユーザに対してサービスを提供するシステムを構成する装置である。
図3及び図10は、本発明の第一の実施の形態における、被監視装置200の接続関係の例を示す図である。図3の例では、装置識別子SV1、SV2、SV3の被監視装置200が、Webサーバ、APサーバ、データベースサーバからなる階層システムを構成している。
被監視装置200の各々は、複数種目の性能値の実測データを一定間隔毎に計測し、計測された各実測データ(計測値)を運用管理装置100へ送信する。ここで、性能値の種目として、例えば、CPU(Central Processing Unit)使用率(CPU)、メモリ使用量(MEM)、ディスク使用量(DSK)等が計測される。
ここで、被監視装置200と性能値の種目の組を性能値の種別(メトリック)とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。
運用管理装置100は、性能情報収集部101、相関モデル生成部102、相関モデル更新部103、障害分析部104、性能情報記憶部111、相関モデル記憶部112、メトリック情報記憶部113、及び、追加メトリック情報記憶部114を含む。
性能情報収集部101は、被監視装置200から性能情報を収集し、その時系列変化を性能系列情報121として性能情報記憶部111に保存する。
図5、及び、図11は、本発明の第一の実施の形態における性能系列情報121の例を示す図である。図5の例では、性能系列情報121は、装置識別子SV1の被監視装置200のCPU使用率(SV1.CPU)、ディスク使用量(SV1.DSK)、装置識別子SV2の被監視装置200のCPU使用率(SV2.CPU)、メモリ使用量(SV2.MEM)、装置識別子SV3の被監視装置200のCPU使用率(SV3.CPU)、メモリ使用量(SV3.MEM)、ディスク使用量(SV3.DSK)をメトリックとして含む。
相関モデル生成部102は、性能系列情報121をもとに監視対象である複数のメトリックに関する相関モデルを生成する。ここで、相関モデル生成部102は、所定期間の性能系列情報121に基づいて、監視対象である複数のメトリックの内の2つのメトリックの全組み合わせの各々について、当該2つのメトリック間の関係を近似する所定の近似式(相関関数、または、変換関数)の係数を決定(相関関数を決定)する。相関関数の係数は、特許文献1、2と同様に、上述の2つのメトリックの計測値の時系列に対するシステム同定処理によって決定される。相関モデル生成部102は、特許文献1、2と同様に、相関関数による計測値間の変換誤差をもとに、例えば、変換誤差の平均値の大きさに応じて小さくなるような、当該相関関数の重みを算出する。そして、相関モデル生成部102は、相関関数の重みが所定値以上である場合、当該相関関数に関する2つのメトリック間の相関関係が有効である(当該2つのメトリック間に相関関係が有る)と判定する。ここで、監視対象のメトリックに関する有効な相関関係の集合を相関モデルとする。
なお、相関モデル生成部102は、相関関係の有無を、上述のように相関関数による変換誤差を基に判定する以外に、2つのメトリック間の分散を基に判定する等、他の方法により判定してもよい。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデルを示す相関モデル情報122記憶する。
図6、及び、図12は、本発明の第一の実施の形態における相関モデル情報122の例を示す図である。相関モデル情報122は、相関関数の入出力のメトリックの識別子、相関関数の係数、相関関数の重み、及び、相関関係判定情報(有効性)を含む。相関関係判定情報は、相関関係が有効(○)か無効(×)を示す。図6の例は、相関関数がy=Ax+Bの近似式で表される場合を示しており、各メトリックの組み合わせについて、係数A、Bが決定されている。また、重みの値が0.5以上のメトリック間の相関関係が有効になっている。
相関モデル更新部103は、システム構成の変更等により監視対象のメトリックが追加された場合に、相関モデルを更新する。
上述の通り、相関モデルは、監視対象である複数のメトリックの内の2つのメトリック間の相関関係の有無、すなわち、2つのメトリックの値の増減のパターンの共通性の有無を検出することにより生成される。本発明の第一の実施の形態においては、各メトリックの増減のパターンは、主にアプリケーションのロジックに依存すると仮定する。この場合、アプリケーションのロジックが変更されない限り、メトリックの値の増減パターンにも変更は無いと考えられる。そのため、2つのメトリック間に相関関係が無い場合、アプリケーションロジックの変更を伴わないようなシステム構成の変更等により監視対象のメトリックが追加されても、当該2つのメトリック間には引き続き相関関係は無いと考えられる。
そこで、本発明の第一の実施の形態においては、相関モデル記憶部112に監視対象である複数のメトリック(第1の複数のメトリック)の内の2つのメトリックの組み合わせについて検出された相関関係から構成される相関モデル(第1の相関モデル)が存在し、監視対象のメトリックが追加された場合に、相関モデル更新部103は、追加されたメトリックを含む監視対象のメトリック(第2の複数のメトリック)の内の2つのメトリックの組み合わせの中で、相関関係の有無を判定済みのメトリック(第1の複数のメトリック)の内の2つのメトリックの組み合わせ(判定済み組み合わせ)については相関関係の検出を行わず、当該判定済み組み合わせを除いた2つのメトリックの全組み合わせの各々について、相関モデル生成部102と同様に相関関数の係数を決定し、相関関係の有無を検出する。すなわち、相関モデル更新部103は、監視対象である複数のメトリックの内、追加されたメトリックの2つのメトリックの全組み合わせの各々、及び、追加されたメトリックと追加されたメトリック以外のメトリックとの全組み合わせの各々について、相関関係の有無を検出する。そして、相関モデル更新部103は、検出された相関関係を相関モデルに追加することにより、相関モデルを更新する(第2の相関モデルを生成する)。
メトリック情報記憶部113は、相関モデルの生成処理、及び、相関モデルの更新処理において相関関係の有無を判定したメトリックを示すメトリック情報123を記憶する。
図9、及び、図17は、本発明の第一の実施の形態におけるメトリック情報123の例を示す図である。メトリック情報123は、相関モデルの生成処理、及び、相関モデルの更新処理において相関関係の有無を判定したメトリックの識別子を含む。
追加メトリック情報記憶部114は、監視対象として追加されたメトリックを示す追加メトリック情報124を記憶する。
図16は、本発明の第一の実施の形態における追加メトリック情報124の他の例を示す図である。追加メトリック情報124には、管理者等により、監視対象として追加されたメトリックの識別子が設定される。
障害分析部104は、特許文献1と同様に、新たに入力された性能情報と相関モデル記憶部112に記憶された相関モデルとを用いて、相関モデルに含まれる相関関係の相関破壊を検出することにより、システムの障害の検出、及び、障害原因の特定を行う。
なお、運用管理装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、性能情報記憶部111、相関モデル記憶部112、メトリック情報記憶部113、及び、追加メトリック情報記憶部114は、それぞれ個別の記憶媒体でも、1つの記憶媒体によって構成されてもよい。
次に、本発明の第一の実施の形態における運用管理装置100の動作について説明する。ここでは、図3のように、1台のDBサーバ、1台のAPサーバ、及び、1台のWebサーバから構成されるシステムにおいて、図10のように、システムにさらに1台のWebサーバを追加することにより、2台のWebサーバによる冗長構成を含むようにシステム構成が変更される場合を例に、運用管理装置100の動作を説明する。この場合、各サーバのアプリケーションのロジックには変更が無い。従って、追加されたWebサーバに関するメトリックが監視対象として追加されても、上述の通り、システム構成の変更前の相関モデルにおいて相関関係が無い2つのメトリック間には、システム構成の変更後も相関関係が無いと考えられる。
図4は、本発明の第一の実施の形態における運用管理装置100の処理を示すフローチャートである。
はじめに、運用管理装置100の相関モデル生成部102は、性能情報記憶部111の性能系列情報121をもとに、監視対象である複数のメトリックの組み合わせについて相関関係の有無を検出し(ステップS101)、検出した相関関係を含む相関モデルを相関モデル情報122として相関モデル記憶部112に保存する(ステップS102)。ここで、監視対象のメトリックと、相関モデルの生成に用いる性能系列情報121の期間は、管理者等により指定される。
例えば、相関モデル生成部102は、図3のシステムに対して性能情報収集部101により収集された図5の性能系列情報121をもとに、監視対象のメトリック(SV1.CPU、SV1.DSK、SV2.CPU、SV2.MEM、SV3.CPU、SV3.MEM、SV3.DSK)について、相関関係の有無を検出する。
図7は、本発明の第一の実施の形態における、相関モデルの生成処理で相関関係の有無を判定するメトリックの組み合わせの例を示す図である。図7における各ノードはメトリック、ノード間の点線は相関関係の判定を行うメトリックの組み合わせを示す。相関モデル生成部102は、図7に示すように、監視対象のメトリックの内の2つのメトリックの全組み合わせの各々について、相関関数の係数を決定、重みの算出を行い、相関関係の有無を判定する。この結果、例えば、図6のように、SV1.CPUとSV2.CPU、SV2.CPUとSV3.CPU、SV2.CPUとSV3.MEM、及び、SV3.CPUとSV3.MEM間の相関関係が検出される。
図8は、本発明の第一の実施の形態における、相関モデル生成部102により検出された相関関係の例を示す相関グラフである。図8におけるノード間の実線は有効な相関関係を示す。
そして、相関モデル生成部102は、検出した相関関係を含む図6の相関モデル情報122を相関モデル記憶部112に保存する。
次に、相関モデル生成部102は、相関モデルの生成処理(ステップS101)において相関関係の有無を判定したメトリック(監視対象のメトリック)を含むメトリック情報123を生成し、メトリック情報記憶部113に保存する(ステップS103)。
例えば、相関モデル生成部102は、図9に示すようなメトリック情報123を生成する。
次に、システム構成の変更等に伴い、監視対象として追加されたメトリックが追加メトリック情報124に設定されると、相関モデル更新部103は、性能情報記憶部111の性能系列情報121をもとに、追加メトリック情報124に設定されたメトリックの組み合わせについて相関関係の有無を検出する(ステップS104)。ここで、相関モデルの更新に用いる性能系列情報121の期間は、管理者等により指定される。
例えば、システム構成が図10のように変更された場合、追加メトリック情報124に図16のようにメトリックが設定される。相関モデル更新部103は、図10のシステムに対して性能情報収集部101により収集された図11の性能系列情報121をもとに、図16の追加メトリック情報124に設定されたメトリック(SV4.CPU、SV4.MEM、SV4.DSK)に関して相関関係の有無を検出する。
図13は、本発明の第一の実施の形態における、相関モデルの更新処理で相関関係の有無を判定するメトリックの組み合わせの例を示す図である。相関モデル更新部103は、図13に示すように、図16の追加メトリック情報124に設定されたメトリックの内の2つのメトリックの全組み合わせの各々について、相関関数の係数を決定、重みの算出を行い、相関関係の有無を判定する。この結果、例えば、図12の1221のように、SV4.CPUとSV4.MEM間の相関関係が検出される。
さらに、相関モデル更新部103は、性能情報記憶部111の性能系列情報121をもとに、監視対象のメトリックの内、追加メトリック情報124に設定されたメトリックとメトリック情報123に設定されたメトリックとの組み合わせについて相関関係の有無を検出する(ステップS105)。
図14は、本発明の第一の実施の形態における、相関モデルの更新処理で相関関係の有無を判定するメトリックの組み合わせの他の例を示す図である。相関モデル更新部103は、図14に示すように、図16の追加メトリック情報124に設定されたメトリックと図9のメトリック情報123に設定されたメトリックとの全組み合わせの各々について、相関関数の係数を決定、重みの算出を行い、相関関係の有無を判定する。この結果、例えば、図12の1222のように、SV2.CPUとSV4.CPU、及び、SV2.CPUとSV4.MEM間の相関関係が検出される。
このように、ステップS104、及び、S105により、新たに検出された相関関係が相関モデルに追加(相関モデルの相関関係が更新)される。
図15は、本発明の第一の実施の形態における、相関モデル更新部103により更新された相関関係の例を示す相関グラフである。図15の相関グラフでは、図8の相関グラフに加えて、相関モデル更新部103により新たに検出された相関関係が追加されている。
次に、相関モデル更新部103は、新たに検出された相関関係を含む相関モデルを相関モデル情報122として相関モデル記憶部112に保存する(ステップS106)。
例えば、相関モデル更新部103は、図12の相関モデル情報122を相関モデル記憶部112に保存する。
次に、相関モデル更新部103は、追加されたメトリックをメトリック情報123に追加(メトリック情報123を更新)し、メトリック情報記憶部113に保存するとともに、追加メトリック情報124を初期化する(ステップS107)。
例えば、相関モデル更新部103は、図17に示すようにメトリック情報123を更新する。
なお、相関モデル更新部103は、相関モデル更新前の判定済み組み合わせについて相関関係の検出を行う必要は無いが、判定済み組み合わせの内、相関関係が検出されている2つのメトリックの組み合わせについて、相関関数の係数を再決定(相関関数を再決定)してもよい(ステップS108)。また、相関モデル更新部103は、再決定された相関関数をもとに、相関関係の有無を再判定してもよい。
例えば、相関モデル更新部103は、SV1.CPUとSV2.CPU、SV2.CPUとSV3.CPU、SV2.CPUとSV3.MEM、及び、SV3.CPUとSV3.MEM間の相関関係について、相関関数の係数を再決定してもよい。
以後、監視対象のメトリックが追加される度に、ステップS104からステップS108が繰り返される。
以上により、本発明の第一の実施の形態の動作が完了する。
次に、本発明の第一の実施の形態の特徴的な構成を説明する。図1は、本発明の第一の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、運用管理装置100は、相関モデル記憶部112、及び、相関モデル更新部103を含む。
ここで、相関モデル記憶部112は、第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶する。
相関モデル更新部103は、メトリックが追加された場合、当該追加されたメトリックと第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、相関関係の有無を判定し、検出された相関関係を第1の相関モデルに追加して第2の相関モデルを生成する。
本発明の第一の実施によれば、監視対象のメトリックに変更があった場合の相関モデルの更新を迅速に行うことができる。その理由は、監視対象のメトリックが追加された場合、相関モデル更新部103が、当該追加されたメトリックを含めた複数のメトリックの内の2つのメトリックの組み合わせの中で、相関関係の有無を判定済みのメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、相関関係の有無を判定し、検出された相関関係を相関モデル記憶部112に記憶されている相関モデルに追加するためである。監視対象のメトリックが追加された場合に、監視対象のメトリックの全組み合わせについて相関関係の有無を検出する必要がないため、相関モデルの更新を迅速に行うことができる。
また、本発明の第一の実施によれば、監視対象のメトリックに変更があった場合に、更新前に検出されていた相関関係に関する状態を更新することができる。その理由は、監視対象のメトリックが追加された場合、相関モデル更新部103が、相関モデル更新前の判定済み組み合わせの内、相関関係が検出されている2つのメトリックの組み合わせについて、相関関数を再決定するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、本発明の第一の実施の形態では、監視対象のシステム構成の変更により、冗長構成されたサーバが追加される場合を例に動作を説明したが、これに限らず、監視対象のシステム構成に変更は無いが、監視ポリシーの変更などにより、監視対象のメトリックが追加された場合も、アプリケーションのロジックに変更は無いため、同様の効果が得られる。
また、仮想環境等において、アプリケーションのロジックの変更無しに、CPUやメモリリソースを増強し、増強したCPUやメモリリソースに関するメトリックが監視対象として追加された場合も、同様の効果が得られる。
さらに、データベースのキャッシュサイズの増強、APサーバのワーカスレッド数の増強など、アプリケーションのロジックの変更無しに、アプリケーションのパラメータを変更し、変更したパラメータに関するメトリックが監視対象として追加された場合も、同様の効果が得られる。
この出願は、2011年1月24日に出願された日本出願特願2011−011887を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 運用管理装置
101 性能情報収集部
102 相関モデル生成部
103 相関モデル更新部
104 障害分析部
111 性能情報記憶部
112 相関モデル記憶部
113 メトリック情報記憶部
114 追加メトリック情報記憶部
121 性能系列情報
122 相関モデル情報
123 メトリック情報
124 追加メトリック情報
200 被監視装置

Claims (15)

  1. 第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶する相関モデル記憶手段と、
    メトリックが追加された場合、当該追加されたメトリックと前記第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、前記第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、前記相関関係の有無を判定し、検出された前記相関関係を前記第1の相関モデルに追加して第2の相関モデルを生成する相関モデル更新手段と
    を含む運用管理装置。
  2. さらに、前記第1の複数のメトリックを示すメトリック情報を記憶するメトリック情報記憶手段を含み、
    前記相関モデル更新手段は、前記第2の相関モデルを生成する場合、前記追加されたメトリックの内の2つのメトリックの組み合わせの各々、及び、当該追加されたメトリックと前記メトリック情報に含まれるメトリックの組み合わせの各々について、前記相関関係の有無を判定し、前記追加されたメトリックを前記メトリック情報に追加する
    請求項1に記載の運用管理装置。
  3. さらに、前記第1の複数のメトリックの内の2つのメトリックの組み合わせの各々について前記相関関係の有無を判定し、検出された前記相関関係を含む前記第1の相関モデルを生成し、前記第1の複数のメトリックを前記メトリック情報に設定する相関モデル生成手段を含む
    請求項2に記載の運用管理装置。
  4. さらに、複数のメトリックの各々の計測値を時系列に記憶する性能情報記憶手段を含み、
    前記性能情報記憶手段に含まれる2つのメトリックの所定期間の前記計測値をもとに当該2つのメトリック間の相関関数が決定され、当該相関関数による変換誤差をもとに当該2つのメトリックの組み合わせについての前記相関関係の有無の判定が行われる
    請求項1乃至3のいずれかに記載の運用管理装置。
  5. 前記相関モデル更新手段は、さらに、前記第1の相関モデルにおいて前記相関関係が検出されている2つのメトリックの組み合わせの各々について、前記相関関数を再決定する
    請求項4に記載の運用管理装置。
  6. 第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶し、
    メトリックが追加された場合、当該追加されたメトリックと前記第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、前記第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、前記相関関係の有無を判定し、検出された前記相関関係を前記第1の相関モデルに追加して第2の相関モデルを生成する
    運用管理方法。
  7. さらに、前記第1の複数のメトリックを示すメトリック情報を記憶し、
    前記第2の相関モデルを生成する場合、前記追加されたメトリックの内の2つのメトリックの組み合わせの各々、及び、当該追加されたメトリックと前記メトリック情報に含まれるメトリックの組み合わせの各々について、前記相関関係の有無を判定し、前記追加されたメトリックを前記メトリック情報に追加する
    請求項6に記載の運用管理方法。
  8. さらに、前記第1の複数のメトリックの内の2つのメトリックの組み合わせの各々について前記相関関係の有無を判定し、検出された前記相関関係を含む前記第1の相関モデルを生成し、前記第1の複数のメトリックを前記メトリック情報に設定する
    請求項7に記載の運用管理方法。
  9. さらに、複数のメトリックの各々の計測値を時系列に記憶し、
    2つのメトリックの所定期間の前記計測値をもとに当該2つのメトリック間の相関関数が決定され、当該相関関数による変換誤差をもとに当該2つのメトリックの組み合わせについての前記相関関係の有無の判定が行われる
    請求項6乃至8のいずれかに記載の運用管理方法。
  10. 前記第2の相関モデルを生成する場合、さらに、前記第1の相関モデルにおいて前記相関関係が検出されている2つのメトリックの組み合わせの各々について、前記相関関数を再決定する
    請求項9に記載の運用管理方法。
  11. コンピュータに、
    第1の複数のメトリックの内の2つのメトリックの組み合わせについて検出された相関関係から構成される第1の相関モデルを記憶し、
    メトリックが追加された場合、当該追加されたメトリックと前記第1の複数のメトリックを含む第2の複数のメトリックの内の2つのメトリックの組み合わせの中から、前記第1の複数のメトリックの内の2つのメトリックの組み合わせを除いた2つのメトリックの組み合わせの各々について、前記相関関係の有無を判定し、検出された前記相関関係を前記第1の相関モデルに追加して第2の相関モデルを生成する
    処理を実行させるプログラムを格納するコンピュータ読み取り可能な記録媒体。
  12. さらに、前記第1の複数のメトリックを示すメトリック情報を記憶し、
    前記第2の相関モデルを生成する場合、前記追加されたメトリックの内の2つのメトリックの組み合わせの各々、及び、当該追加されたメトリックと前記メトリック情報に含まれるメトリックの組み合わせの各々について、前記相関関係の有無を判定し、前記追加されたメトリックを前記メトリック情報に追加する
    請求項11に記載のプログラムを格納する記録媒体。
  13. さらに、前記第1の複数のメトリックの内の2つのメトリックの組み合わせの各々について前記相関関係の有無を判定し、検出された前記相関関係を含む前記第1の相関モデルを生成し、前記第1の複数のメトリックを前記メトリック情報に設定する
    請求項12に記載のプログラムを格納する記録媒体。
  14. さらに、複数のメトリックの各々の計測値を時系列に記憶し、
    2つのメトリックの所定期間の前記計測値をもとに当該2つのメトリック間の相関関数が決定され、当該相関関数による変換誤差をもとに当該2つのメトリックの組み合わせについての前記相関関係の有無の判定が行われる
    請求項11乃至13のいずれかに記載のプログラムを格納する記録媒体。
  15. 前記第2の相関モデルを生成する場合、さらに、前記第1の相関モデルにおいて前記相関関係が検出されている2つのメトリックの組み合わせの各々について、前記相関関数を再決定する
    請求項14に記載のプログラムを格納する記録媒体。
JP2012554646A 2011-01-24 2011-12-13 運用管理装置、運用管理方法、及びプログラム Active JP5532150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012554646A JP5532150B2 (ja) 2011-01-24 2011-12-13 運用管理装置、運用管理方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011011887 2011-01-24
JP2011011887 2011-01-24
JP2012554646A JP5532150B2 (ja) 2011-01-24 2011-12-13 運用管理装置、運用管理方法、及びプログラム
PCT/JP2011/079275 WO2012101933A1 (ja) 2011-01-24 2011-12-13 運用管理装置、運用管理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP5532150B2 JP5532150B2 (ja) 2014-06-25
JPWO2012101933A1 true JPWO2012101933A1 (ja) 2014-06-30

Family

ID=46580515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012554646A Active JP5532150B2 (ja) 2011-01-24 2011-12-13 運用管理装置、運用管理方法、及びプログラム

Country Status (5)

Country Link
US (1) US8930757B2 (ja)
EP (1) EP2685380B1 (ja)
JP (1) JP5532150B2 (ja)
CN (1) CN103339613B (ja)
WO (1) WO2012101933A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130231978A1 (en) * 2012-03-01 2013-09-05 International Business Machines Corporation Integrated case management history and analytics
EP2916222A4 (en) * 2012-11-01 2016-04-13 Nec Corp DISTRIBUTED DATA PROCESSING SYSTEM AND DISTRIBUTED DATA PROCESSING METHOD
GB2517147A (en) * 2013-08-12 2015-02-18 Ibm Performance metrics of a computer system
JP2015184818A (ja) * 2014-03-20 2015-10-22 株式会社東芝 サーバ、モデル適用可否判定方法およびコンピュータプログラム
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US10587487B2 (en) 2015-09-23 2020-03-10 International Business Machines Corporation Selecting time-series data for information technology (IT) operations analytics anomaly detection
US10169731B2 (en) * 2015-11-02 2019-01-01 International Business Machines Corporation Selecting key performance indicators for anomaly detection analytics
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10867421B2 (en) 2016-02-29 2020-12-15 Oracle International Corporation Seasonal aware method for forecasting and capacity planning
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10198339B2 (en) * 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US12001926B2 (en) 2018-10-23 2024-06-04 Oracle International Corporation Systems and methods for detecting long term seasons
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131468A (ja) * 1992-10-16 1994-05-13 Toshiba Corp パターン記憶装置およびパターン記憶方法
US7337090B1 (en) * 1994-05-25 2008-02-26 Emc Corporation Apparatus and method for event correlation and problem reporting
JP3556574B2 (ja) * 2000-05-31 2004-08-18 株式会社東芝 情報分析方法および装置
US7076695B2 (en) * 2001-07-20 2006-07-11 Opnet Technologies, Inc. System and methods for adaptive threshold determination for performance metrics
WO2003054704A1 (en) * 2001-12-19 2003-07-03 Netuitive Inc. Method and system for analyzing and predicting the behavior of systems
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
US20050216241A1 (en) * 2004-03-29 2005-09-29 Gadi Entin Method and apparatus for gathering statistical measures
US7617313B1 (en) * 2004-12-27 2009-11-10 Sprint Communications Company L.P. Metric transport and database load
JP4591697B2 (ja) * 2005-08-16 2010-12-01 日本電気株式会社 通信管理システムおよび通信管理方法
US7269599B2 (en) * 2005-12-01 2007-09-11 International Business Machines Corporation Method and system for predicting user activity levels associated with an application
JP4573179B2 (ja) * 2006-05-30 2010-11-04 日本電気株式会社 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
US7827447B2 (en) * 2007-01-05 2010-11-02 International Business Machines Corporation Sliding window mechanism for data capture and failure analysis
US7661032B2 (en) * 2007-01-06 2010-02-09 International Business Machines Corporation Adjusting sliding window parameters in intelligent event archiving and failure analysis
US8095830B1 (en) * 2007-04-03 2012-01-10 Hewlett-Packard Development Company, L.P. Diagnosis of system health with event logs
US7996204B2 (en) * 2007-04-23 2011-08-09 Microsoft Corporation Simulation using resource models
US20120023041A1 (en) * 2007-08-08 2012-01-26 Yoram Kariv System and method for predictive network monitoring
US20090210745A1 (en) * 2008-02-14 2009-08-20 Becker Sherilyn M Runtime Error Correlation Learning and Guided Automatic Recovery
JP4872945B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US8255522B2 (en) * 2009-03-06 2012-08-28 Hewlett-Packard Development Company, L.P. Event detection from attributes read by entities
JP5741784B2 (ja) 2009-03-31 2015-07-01 株式会社寺岡精工 セルフチェックアウトシステム
JP5418250B2 (ja) * 2010-01-26 2014-02-19 富士通株式会社 異常検出装置、プログラム、及び異常検出方法
US8949668B2 (en) * 2011-05-23 2015-02-03 The Boeing Company Methods and systems for use in identifying abnormal behavior in a control system including independent comparisons to user policies and an event correlation model
US20130231978A1 (en) * 2012-03-01 2013-09-05 International Business Machines Corporation Integrated case management history and analytics

Also Published As

Publication number Publication date
US8930757B2 (en) 2015-01-06
EP2685380B1 (en) 2020-01-22
EP2685380A4 (en) 2015-08-12
JP5532150B2 (ja) 2014-06-25
US20130151907A1 (en) 2013-06-13
CN103339613B (zh) 2016-01-06
CN103339613A (zh) 2013-10-02
WO2012101933A1 (ja) 2012-08-02
EP2685380A1 (en) 2014-01-15

Similar Documents

Publication Publication Date Title
JP5532150B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP5267749B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5729466B2 (ja) 仮想マシン管理装置、仮想マシン管理方法、及び、プログラム
WO2014184934A1 (ja) 障害分析方法、障害分析システム及び記憶媒体
JP5768796B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
US10430268B2 (en) Operations management system, operations management method and program thereof
US9852007B2 (en) System management method, management computer, and non-transitory computer-readable storage medium
WO2014080598A1 (ja) 運用管理装置、及び、運用管理方法
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
JP6176390B2 (ja) 情報処理装置、解析方法、及び、プログラム記録媒体
JP2006092053A (ja) システム使用率管理装置及びそれに用いるシステム使用率管理方法並びにそのプログラム
WO2020261621A1 (ja) 監視システム、監視方法及びプログラム
JPWO2013114911A1 (ja) リスク評価システム、リスク評価方法、及びプログラム
JP6070717B2 (ja) 分散データ処理システム、及び、分散データ処理方法
JP2015007886A (ja) 運用管理処理検証装置、運用管理システム、運用管理処理検証方法、および、コンピュータ・プログラム
JP2023133915A (ja) 情報処理装置、情報処理方法およびプログラム
JP2010073151A (ja) クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140407

R150 Certificate of patent or registration of utility model

Ref document number: 5532150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150