JPWO2013136739A1 - 運用管理装置、運用管理方法、及び、プログラム - Google Patents

運用管理装置、運用管理方法、及び、プログラム Download PDF

Info

Publication number
JPWO2013136739A1
JPWO2013136739A1 JP2014504679A JP2014504679A JPWO2013136739A1 JP WO2013136739 A1 JPWO2013136739 A1 JP WO2013136739A1 JP 2014504679 A JP2014504679 A JP 2014504679A JP 2014504679 A JP2014504679 A JP 2014504679A JP WO2013136739 A1 JPWO2013136739 A1 JP WO2013136739A1
Authority
JP
Japan
Prior art keywords
correlation
configuration change
destruction
monitored device
correlation destruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014504679A
Other languages
English (en)
Other versions
JP5910727B2 (ja
Inventor
清志 加藤
清志 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2013136739A1 publication Critical patent/JPWO2013136739A1/ja
Application granted granted Critical
Publication of JP5910727B2 publication Critical patent/JP5910727B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass
    • G01M99/008Subject matter not provided for in other groups of this subclass by doing functionality tests
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass
    • G01M99/005Testing of complete machines, e.g. washing-machines or mobile phones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

不変関係分析において、システム構成が変化した場合でも、適切な相関モデルを用いて障害解析を行う。運用管理装置100は、相関モデル生成部102、構成変更検出部107、及び、障害分析部104を含む。相関モデル生成部102は、システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデル122を生成する。構成変更検出部107は、システムの構成変更の有無を検出する。障害分析部104は、構成変更検出部107によりシステムの構成変更が検出された場合に、システムの構成変更後の複数のメトリックの計測値をもとに生成された相関モデル122を用いて、システムの障害要因を特定する。

Description

本発明は、運用管理装置、運用管理方法、及びプログラムに関し、特にシステムの異常を検出する運用管理装置、運用管理方法、及びプログラムに関する。
システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害を検出する運用管理システムの一例が特許文献1に記載されている。
特許文献1記載の運用管理システムは、システムの複数のメトリック(性能指標)の計測値をもとに、複数のメトリック間の組み合わせのそれぞれに対して相関関数を決定することにより、メトリック間の相関関係を示す相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、新たに入力されたメトリックの計測値に対する相関関係の破壊(相関破壊)を検出し、相関破壊をもとに障害の要因を特定する。このように、相関破壊をもとに障害要因を分析する技術は、不変関係分析と呼ばれる。
不変関係分析では、メトリックの値の大きさではなく、メトリック間の相関関係に着目するため、それぞれのメトリックの値を閾値と比較することにより障害検出を行う場合に比べて、閾値の設定が不要、閾値により検出できない障害の検出が可能、異常原因の特定が容易等の利点がある。
なお、関連技術として、特許文献2、及び、特許文献3には、不変関係分析において、過去の障害時における異常度(相関破壊の程度)の分布や、相関関係毎の相関破壊の検出有無をもとに、検出された相関破壊に対する障害要因を特定する運用管理システムが開示されている。
特開2009‐199533号公報 国際公開第2010/032701号 国際公開第2011/155621号
上述の特許文献1に記載された不変関係分析では、分析対象のシステムが正常な状態で動作している、ある期間におけるメトリックの計測値をもとに生成された相関モデルが用いられる。このため、システム構成が変化した場合、相関破壊が誤って検出されてしまうことにより、相関関係が異常と判定されてしまう可能性がある。
例えば、分析対象システムが、24時間サービスを提供するWEBシステムの場合、システム内の一部に故障があってもサービスを継続させるために、代替サーバや代替ハードディスク、冗長ネットワークなどによる冗長構成が用いられる。この場合、例えば、冗長構成に切り替えが発生すると、システムの挙動が変化してしまうため、切り替え前のメトリック間の相関関係と、切り替え後の相関関係は部分的に異なる。
システム構成の変更により相関関係が変化した状態で、システム構成の変更前の相関モデルを用いて分析を行うと、サービスが正常に動作していても、変化した相関関係に係るメトリックに異常が検出される。この場合、管理者は、変化した相関関係を把握し、そのメトリックに関する異常を除外するなどの作業が必要になり、管理者に求められる知識、及び、作業が増加する。
本発明の目的は、上述の課題を解決し、不変関係分析において、システム構成が変化した場合でも、適切な相関モデルを用いて障害解析を行うことができる運用管理装置、運用管理方法、及びプログラムを提供することである。
本発明の一態様における運用管理装置は、システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを生成する相関モデル生成手段と、前記システムの構成変更の有無を検出する構成変更検出手段と、前記構成変更検出手段により前記システムの構成変更が検出された場合に、前記システムの構成変更後の前記複数のメトリックの計測値をもとに生成された相関モデルを用いて、前記システムの障害要因を特定する障害分析手段とを含む。
本発明の一態様における運用管理方法は、システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを生成し、前記システムの構成変更の有無を検出し、前記システムの構成変更が検出された場合に、前記システムの構成変更後の前記複数のメトリックの計測値をもとに生成された相関モデルを用いて、前記システムの障害要因を特定する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを生成し、前記システムの構成変更の有無を検出し、前記システムの構成変更が検出された場合に、前記システムの構成変更後の前記複数のメトリックの計測値をもとに生成された相関モデルを用いて、前記システムの障害要因を特定する処理を実行させるプログラムを格納する。
本発明の効果は、不変関係分析において、システム構成が変化した場合でも、適切な相関モデルを用いて障害解析を行うことができることである。
本発明の第1の実施の形態の特徴的な構成を示すブロック図である。 本発明の第1の実施の形態における、運用管理システム1の構成を示すブロック図である。 本発明の第1の実施の形態における、運用管理装置100の処理を示すフローチャートである。 本発明の第1の実施の形態における、構成変更検出ルール125の例を示す図である。 本発明の第1の実施の形態における、相関破壊パターン更新ルール126の例を示す図である。 本発明の第1の実施の形態における、性能系列情報121の例を示す図である。 本発明の第1の実施の形態における、分析対象システム200の構成の例を示すブロック図である。 本発明の第1の実施の形態における、構成情報127の例を示す図である。 本発明の第1の実施の形態における、相関モデル122の例を示す図である。 本発明の第1の実施の形態における、相関マップ128の例を示す図である。 本発明の第1の実施の形態における、相関破壊情報123の例を示す図である。 本発明の第1の実施の形態における、相関破壊パターン124の例を示す図である。 本発明の第1の実施の形態における、システム構成の変更、相関モデル122、及び、相関破壊パターン124の関係を示す図である。 本発明の第1の実施の形態における、構成変更検出画面300の例を示す図である。 本発明の第1の実施の形態における、分析結果出力画面310の例を示す図である。 本発明の第2の実施の形態における、運用管理システム1の構成を示すブロック図である。 本発明の第2の実施の形態における、運用管理装置100の処理を示すフローチャートである。 本発明の第2の実施の形態における、構成変更検出ルール125の例を示す図である。 本発明の第2の実施の形態における、相関破壊パターン更新ルール126の例を示す図である。 本発明の第2の実施の形態における、分析対象システム200の構成の例を示すブロック図である。 本発明の第2の実施の形態における、相関モデル122の例を示す図である。 本発明の第2の実施の形態における、相関マップ128の例を示す図である。 本発明の第2の実施の形態における、相関破壊パターン124の例を示す図である。 本発明の第2の実施の形態における、分析対象システム200の構成の他の例を示すブロック図である。 本発明の第2の実施の形態における、相関モデル122の他の例を示す図である。 本発明の第2の実施の形態における、相関マップ128の他の例を示す図である。 本発明の第2の実施の形態における、相関破壊パターン124の他の例を示す図である。 本発明の第2の実施の形態における、分析対象システム200の構成の他の例を示すブロック図である。 本発明の第2の実施の形態における、相関モデル122の他の例を示す図である。 本発明の第2の実施の形態における、相関マップ128の他の例を示す図である。 本発明の第2の実施の形態における、相関破壊パターン124の他の例を示す図である。 本発明の第2の実施の形態における、システム構成の変更、相関モデル122、及び、相関破壊パターン124の関係を示す図である。 本発明の第2の実施の形態における、相関モデル122の他の例を示す図である 本発明の第2の実施の形態における、構成変更検出画面300の例を示す図である。
(第1の実施の形態)
次に、本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における、運用管理システム1の構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態における運用管理システム1は、運用管理装置100と分析対象システム200とを含む。運用管理装置100と分析対象システム200とは、ネットワーク等により接続される。
図7は、本発明の第1の実施の形態における、分析対象システム200の構成の例を示すブロック図である。ここで、分析対象システム200は、被監視装置201を1以上含む。被監視装置201は、例えば、WEBサーバ、アプリケーションサーバ(APサーバ)、データベースサーバ(DBサーバ)等のサービス処理を実行するコンピュータである。なお、以下の説明において、引用番号に続く()内の符号は、識別子を示す。例えば、被監視装置201(A1)は、識別子A1の被監視装置201を示す。図7の例では、分析対象システム200は、被監視装置201(A1、B1、B2)を備える。
被監視装置201は、被監視装置201の複数種目の性能値の実測データ(計測値)を一定間隔(所定の性能情報収集周期)毎に計測し、運用管理装置100へ送信する。性能値の種目として、例えば、CPU(Central Processing Unit)使用率(CPU)、メモリ使用率(MEM)、ディスクアクセス頻度(DSK)、ネットワークの使用率(NW)等、コンピュータリソースの使用率や使用量が用いられる。
ここで、被監視装置201と性能値の種目の組をメトリック(性能指標)とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。メトリックは、整数や小数の数値より表される。また、メトリックは、特許文献1における要素に相当する。
運用管理装置100は、監視対象である被監視装置201から収集した性能情報をもとに、分析対象システム200についての相関モデル122を生成し、生成した相関モデル122を用いて、被監視装置201の障害や異常の検出を行う。
運用管理装置100は、情報収集部101、相関モデル生成部102、相関破壊検出部103、障害分析部104、対話部105、対処実行部106、構成変更検出部107、相関破壊パターン更新部108、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、相関破壊パターン記憶部114、及び、構成情報記憶部117を含む。
情報収集部101は、所定の性能情報収集周期で、被監視装置201から性能情報を収集し、その時系列変化を性能系列情報121として性能情報記憶部111に保存する。
図6は、本発明の第1の実施の形態における、性能系列情報121の例を示す図である。図6の例では、性能系列情報121は、被監視装置201(A1)のCPU使用率(A1.CPU)、メモリ使用量(A1.MEM)、被監視装置201(B1)のCPU使用率(B1.CPU)等を性能種目として含む。
また、情報収集部101は、所定の装置属性収集周期で、被監視装置201の属性(装置属性)を収集し、構成情報127として構成情報記憶部117に保存する。
図8は、本発明の第1の実施の形態における、構成情報127の例を示す図である。図8の例では、構成情報127は、被監視装置201の装置属性として、被監視装置201の識別子、及び当該被監視装置201のサービス処理の種別(サーバ種別)を含む。
情報収集部101は、例えば、SNMP(Simple Network Management Protocol)により被監視装置201のMIB(Management information base)を参照することにより、装置属性を収集する。また、情報収集部101は、被監視装置201から性能情報とともに、装置属性を取得してもよい。
相関モデル生成部102は、性能系列情報121をもとに、分析対象システム200の相関モデル122を生成する。
ここで、相関モデル122は、複数のメトリックの内のメトリックの対毎の、メトリック間の相関関係を示す相関関数(または、変換関数)を含む。相関関数は、メトリックの対の内の一方のメトリックの値の時系列から他方のメトリックの値の時系列を予測する関数である。相関モデル生成部102は、所定のモデル化期間の性能系列情報121をもとに、各メトリックの対について、相関関数の係数を決定する。相関関数の係数は、特許文献1の運用管理装置と同様に、メトリックの計測値の時系列に対する、システム同定処理によって決定される。
なお、相関モデル生成部102は、特許文献1の運用管理装置と同様に、各メトリックの対について、相関関数の重みを算出し、重みが所定値以上の相関関数(有効な相関関数)の集合を相関モデル122としてもよい。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデル122を記憶する。
図9は、本発明の第1の実施の形態における、相関モデル122の例を示す図である。図9の例では、相関モデル122は、入力メトリック(X)と出力メトリック(Y)の対に対する、相関関数の係数(α、β)、重みを含む。ここで、相関関数は、Y=αX+βであると仮定する。なお、メトリックの対の内の一方のメトリックの値の時系列から他方のメトリックの値の時系列を予測できれば、相関関数として、他の関数式を用いてもよい。例えば、Xの値の過去の時系列であるX1、X2、X3、及び、Yの過去の時系列であるY1、Y2による関数式であるY=aX1+bX2+cX3+dY1+eY2+fを用いてもよい。
図10は、本発明の第1の実施の形態における、相関マップ128の例を示す図である。図10の相関マップ128は、図9の相関モデル122に対応する。相関マップ128においては、相関モデル122は、ノードと矢印を含むグラフで示される。ここで、各ノードはメトリックを示し、メトリック間の矢印は、2つのメトリックの内の一方から他方への相関関係を示す。
相関破壊検出部103は、特許文献1の運用管理装置と同様に、新たに入力された性能情報について、相関モデル122に含まれる相関関係の相関破壊を検出する。
ここで、相関破壊検出部103は、特許文献1と同様に、複数のメトリックの内の2つのメトリックの内の一方のメトリックの計測値を、当該2つのメトリックに対応する相関関数に入力して得られた他方のメトリックの予測値と、当該他方のメトリックの計測値との差分(相関関数による変換誤差)が所定値以上の場合、当該2つのメトリック間の相関関係の相関破壊として検出する。また、相関破壊検出部103は、検出された相関破壊の状態をもとに、相関破壊の程度を示す異常度を算出する。ここで、異常度は、例えば、相関モデル122において、相関破壊が検出された相関関係の数や、相関関係の数に対する相関破壊が検出された相関関係の数の割合、相関破壊の大きさ等をもとに算出される。
相関破壊記憶部113は、相関破壊が検出された相関関係を示す相関破壊情報123を記憶する。図11は、本発明の第1の実施の形態における、相関破壊情報123の例を示す図である。図11の相関破壊情報123は、図9の相関モデル122bに対応する。図11の例では、相関破壊情報123は、相関モデル122の各相関関係について、相関破壊の有無を示す。
相関破壊パターン記憶部114は、過去の障害時における相関破壊の状態を示す相関破壊パターン124を記憶する。図12は、本発明の第1の実施の形態における、相関破壊パターン124の例を示す図である。図12の相関破壊パターン124は、図9の相関モデル122に対応する。図12の例では、相関破壊パターン124は、特許文献3における相関破壊セット情報と同様に、障害名、及び、当該障害が発生したときの相関モデル122の各相関関係についての相関破壊の検出有無を示す。
なお、過去の障害時における相関破壊の状態を示していれば、相関破壊パターン124として他の情報を用いてもよい。例えば、相関破壊パターン124として、特許文献2と同様に、メトリック毎の異常度(相関破壊の程度)の分布を用いてもよい。
障害分析部104は、特許文献2または特許文献3と同様に、新たな性能情報に対して検出された相関破壊の状態と相関破壊パターン124とを比較し、類似する相関破壊パターン124の障害を推定要因として特定する。
構成変更検出部107は、構成情報127を用いて、分析対象システム200における構成変更を検出する。構成変更検出部107は、構成変更検出ルール125をもとに、構成変更の種別を特定する。図4は、本発明の第1の実施の形態における、構成変更検出ルール125の例を示す図である。図4の例では、構成変更検出ルール125は、構成変更の種別毎に、当該種別を判定するための判定条件を含む。判定条件には、現在の構成情報127と前の構成情報127との間での、装置属性の変化や同一性に関する条件が設定される。
相関破壊パターン更新部108は、相関破壊パターン更新ルール126に従って、相関破壊パターン124を更新する。図5は、本発明の第1の実施の形態における、相関破壊パターン更新ルール126の例を示す図である。図5の例では、相関破壊パターン更新ルール126は、構成変更の種別毎に、相関破壊パターン124の更新方法を含む。更新方法には、相関破壊パターン124を、構成変更後に用いられる相関モデル122に適合するように補正する方法が設定される。
対話部105は、構成変更が検出されたことを管理者等に出力し、相関破壊検出部103が相関破壊を検出するために用いる相関モデル122(分析用の相関モデル122)の切り替え指示を管理者等から受け付ける。また、対話部105は、管理者等に障害分析結果を出力し、管理者等から障害に対する対処等の指示を受け付ける。
対処実行部106は、管理者等により指示された対処を分析対象システム200上で実行する。
なお、運用管理装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、及び、相関破壊パターン記憶部114は、それぞれ個別の記憶媒体でも、一つの記憶媒体によって構成されてもよい。
次に、本発明の第1の実施の形態における運用管理装置100の動作について説明する。
図3は、本発明の第1の実施の形態における、運用管理装置100の処理を示すフローチャートである。
はじめに、運用管理装置100の情報収集部101は、分析対象システム200上の被監視装置201から性能情報を収集する(ステップS101)。情報収集部101は、取得した性能情報を性能系列情報121として性能情報記憶部111に保存する。
情報収集部101は、所定の装置属性収集周期のタイミング等、装置属性を収集する場合(ステップS102/Yes)、被監視装置201から装置属性を収集し、構成情報127を生成する(ステップS103)。情報収集部101は、生成した構成情報127を構成情報記憶部117に保存する。
構成変更検出部107は、構成情報127をもとに、構成変更を検出する(ステップS104)。ここで、構成変更検出部107は、構成変更検出ルール125に従って、構成変更を検出する。
ステップS104で、構成変更が検出されない場合(ステップS105/No)、ステップS110以降の処理が行われる。
一方、ステップS104で、構成変更が検出された場合(ステップS105/Yes)、障害分析部104は、対話部105を介して、管理者等に対して「構成変更検出」を出力する(ステップS106)。
次に、対話部105が、管理者等からモデル切り替えの指示を受け付けると、障害分析部104は、相関モデル生成部102に相関モデル122の生成を指示する。相関モデル生成部102は、性能情報記憶部111の性能系列情報121を参照し、相関モデル122を生成する(ステップS107)。ここで、相関モデル生成部102は、構成変更検出後に収集された所定のモデル化期間の性能情報をもとに、相関モデル122を生成する。相関モデル生成部102は、生成した相関モデル122を相関モデル記憶部112に保存する。
なお、障害分析部104は、所定のモデル化期間の性能情報が収集された後で、相関モデル122の生成が可能となったときに、ステップS106の「構成変更検出」の出力を行ってもよい。また、障害分析部104は、ステップS106において、管理者等からの指示を待たずに、ステップS107以降の処理を実行してもよい。
障害分析部104は、生成した相関モデル122を分析用の相関モデル122に設定する(ステップS108)。
相関破壊パターン更新部108は、相関破壊パターン124を更新する(ステップS109)。ここで、相関破壊パターン更新部108は、相関破壊パターン更新ルール126に従って、相関破壊パターン124を更新する。
相関破壊検出部103は、性能系列情報121を用いて、分析用の相関モデル122に含まれる相関関係の相関破壊を検出し、相関破壊情報123を生成する(ステップS110)。相関破壊検出部103は、相関破壊情報123を相関破壊記憶部113に保存する。
障害分析部104は、生成された相関破壊情報123に含まれる相関破壊の状態と、相関破壊パターン124とを比較し、障害の推定要因を特定する(ステップS111)。
最後に、障害分析部104は、対話部105を介して、障害分析結果を出力する(ステップS112)。そして、対処実行部106は、対話部105を介して管理者等より受け付けた障害に対する対処を、分析対象システム200上で実行する。
次に、動作の具体例を説明する。図13は、本発明の第1の実施の形態における、システム構成の変更、相関モデル122、及び、相関破壊パターン124の関係を示す図である。
ここでは、分析対象システム200の変更前の構成が、図7(構成変更前)のように、冗長構成の被監視装置201(B1、B2)の内、被監視装置201(B1)が稼働中、被監視装置201(B2)が停止中の場合を例に、動作を説明する。ここで、冗長構成の被監視装置201(B1、B2)は、サーバ種別が同じであり、サービス処理を実現するために実行されるプログラムモジュール等の構成も同一であると仮定する。
また、分析用の相関モデル122として、図9の相関モデル122a(図10の相関マップ128a)が、生成、設定されていると仮定する。さらに、図13の時刻t0において発生した、被監視装置201(B1)(WEBサーバ)の障害(障害2)に対する相関破壊パターン124として、図12の相関破壊パターン124aが生成、設定されていると仮定する。
図13の時刻t1において、冗長構成の切り替えにより、図7(構成変更後)に示すように、被監視装置201(B1)が停止中、被監視装置201(B2)が稼働中に変化したと仮定する。
図13の時刻t2において、情報収集部101は、図8の構成情報127bを生成する。構成変更検出部107は、構成情報127bを、前回の構成情報127である図8の構成情報127aと比較する。ここで、サーバ種別が「WEB」である被監視装置201(B1)が検出から未検出、被監視装置201(B2)が未検出から検出になったことから、構成変更検出部107は、図4の構成変更検出ルール125に従って、構成変更種別「置換(被監視装置201(B1)を被監視装置201(B2)で置換)」の構成変更が発生したと判定する。
図14は、本発明の第1の実施の形態における、構成変更検出画面300の例を示す図である。図13の時刻t3において、対話部105は、「構成変更検出」を、例えば、図14のような構成変更検出画面300で出力する。図14の例では、構成変更検出画面300は、異常度の時系列変化を示す異常度グラフ301、構成変更が検出されたことを示す構成変更検出情報302、及び、モデル切り替えの指示を受け付けるボタン303を含む。なお、構成変更検出画面300は、相関破壊が検出されたメトリックの情報を含んでいてもよい。また、構成変更検出画面300は、例えば、構成変更により検出、または、未検出となった被監視装置201のメトリック等、構成変更により影響があるメトリックの情報を含んでいてもよい。
これにより、管理者等は、分析対象システム200の構成変更を把握し、適切な相関モデル122への切り替えを指示できる。
次に、対話部105が、ボタン303により管理者等からモデル切り替えの指示を受け付けると、相関モデル生成部102は、図9の相関モデル122b(図10の相関マップ128b)を生成する。そして、障害分析部104は、図9の相関モデル122bを分析用の相関モデル122に設定する。
相関破壊パターン更新部108は、図5の相関破壊パターン更新ルール126の構成変更種別「置換」に対応する更新方法に従って、相関破壊パターン124aにおける、被監視装置201(A1)の識別子を被監視装置201(B1)の識別子に置き換えることにより、図12の相関破壊パターン124bを生成する。
以降、図9の相関モデル122b、及び、図12の相関破壊パターン124bを用いて、障害分析が行われる。
図13の時刻t4において、被監視装置201(B2)(WEBサーバ)の障害(障害3)が発生したと仮定する。
この場合、相関破壊検出部103は、例えば、図11のような相関破壊情報123を生成する。障害分析部104は、図11の相関破壊情報123と、図12の相関破壊パターン124bとを比較し、相関破壊パターン124bの障害「被監視装置201(B2)のCPU障害」を推定要因として特定する。
図15は、本発明の第1の実施の形態における、分析結果出力画面310の例を示す図である。対話部105は、障害分析結果として、例えば、図15のような分析結果出力画面310を出力する。図15の例では、分析結果出力画面310は、異常度グラフ301、及び、障害の推定要因を示す障害候補情報311を含む。障害候補情報311では、推定要因の被監視装置201のサーバ種別や装置識別子が示される。
これにより、管理者等は、障害候補情報311の内容から、障害3が、障害2と類似する障害(WEBサーバの障害)であることを、把握できる。
以上により、本発明の第1の実施の形態の動作が完了する。
なお、本発明の第1の実施の形態においては、被監視装置201がサービス処理を実行するコンピュータの場合を例に説明したが、この例に限らず、構成情報127をもとに構成変更が検出でき、構成変更に応じて相関破壊パターン124が更新できれば、被監視装置201は、ネットワークスイッチやストレージなどの他の装置でもよい。
また、本発明の第1の実施の形態においては、構成変更として「置換」を検出する場合を例に説明したが、構成情報127をもとに検出できれば、他の種別の構成変更を検出してもよい。例えば、構成変更検出部107は、構成変更として「複製」(同じサーバ種別の被監視装置201追加)を検出してもよい。この場合、構成変更検出部107は、例えば、構成情報127において、未検出から検出になった被監視装置201と同じサーバ種別の被監視装置201が存在する場合、「複製」の構成変更が発生したと判定する。そして、相関破壊パターン更新部108は、後述する、本発明の第2の実施の形態と同様に、構成変更種別「複製」に対応した相関破壊パターン124の更新を行う。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、運用管理装置100は、相関モデル生成部102、構成変更検出部107、及び、障害分析部104を含む。
相関モデル生成部102は、システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデル122を生成する。構成変更検出部107は、システムの構成変更の有無を検出する。障害分析部104は、構成変更検出部107によりシステムの構成変更が検出された場合に、システムの構成変更後の複数のメトリックの計測値をもとに生成された相関モデル122を用いて、システムの障害要因を特定する。
本発明の第1の実施の形態によれば、不変関係分析において、システム構成が変化した場合でも、適切な相関モデルを用いて障害分析を行うことができる。その理由は、構成変更検出部107が、分析対象システム200の構成変更を検出し、障害分析部104が、構成変更後に生成された相関モデル122を、分析対象システム200の障害を検出するための(分析用の)相関モデル122に設定するためである。
また、特許文献2や特許文献3のように、過去の障害時における相関破壊パターンをもとに、検出された相関破壊に対する障害要因を特定する場合、上述のように、システム構成の変化に伴って分析用の相関モデル122を変更しても、相関破壊パターンは分析用の相関モデル122に対応していないため、過去の障害と類似した障害が発生しても、障害要因を正確に特定できない。この場合、管理者等は、当該類似した障害について、再度、分析を行い、相関破壊パターンを登録する必要がある。
これに対して、本発明の第1の実施の形態によれば、システム構成が変更された場合でも、適切な相関破壊パターンを用いて障害解析を行うことができる。その理由は、相関破壊パターン更新部108が、構成変更の種別に対応した更新方法に従って、相関破壊パターン124を更新するためである。
さらに、特許文献2や特許文献3のように、過去の障害時における相関破壊パターンをもとに、検出された相関破壊に対する障害要因を特定する場合、過去の障害をもとにした障害要因が適切に提示できないことにより、分析や対処の遅延、あるいは、それに伴う管理者等の作業負担が増加し、ミスを誘発する可能性がある。特に、長期間連続運用されるシステムでは、サーバやストレージ、ネットワーク等が冗長化され、部分的な故障の場合にはそれらを切り替えることにより、サービスが継続される。これらの冗長構成の切り替えが有効に働いた場合に、その構成変化に適切に追従できず、不変関係分析の効果が低下する。
これに対して、本発明の第1の実施の形態によれば、長期間連続運用されるシステムでも、不変関係分析の速度と精度を、維持、向上させることができる。その理由は、障害分析部104が、上述の通り、構成変更後のシステムに適合した相関モデル122、及び、相関破壊パターン124を用いて、障害分析を行うためである。
また、本発明の第1の実施の形態によれば、不変関係分析において、検出された相関破壊が、障害によるものか、システム構成の変更によるものかを区別できる。その理由は、構成変更が検出された場合に、対話部105が、異常度の時系列変化を示す異常度グラフ301を含む構成変更検出画面300に、構成変更が検出されたことを示す構成変更検出情報302を含めて出力するためである。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。本発明の第2の実施の形態においては、構成変更検出部107が、相関モデル122をもとに構成変更を検出する点において、本発明の第1の実施の形態と異なる。
はじめに、本発明の第2の実施の形態の構成について説明する。図16は、本発明の第2の実施の形態における、運用管理システム1の構成を示すブロック図である。
運用管理装置100は、情報収集部101、相関モデル生成部102、相関破壊検出部103、障害分析部104、対話部105、対処実行部106、構成変更検出部107、相関破壊パターン更新部108、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、及び、相関破壊パターン記憶部114を含む。
相関モデル生成部102は、所定のモデル化周期毎に、分析対象システム200の相関モデル122を生成する。
構成変更検出部107は、相関モデル122を用いて、分析対象システム200における構成変更を検出する。構成変更検出部107は、構成変更検出ルール125をもとに、構成変更の種別を特定する。図18は、本発明の第2の実施の形態における、構成変更検出ルール125の例を示す図である。図18の例では、構成変更検出ルール125は、構成変更の種別毎に、当該種別を判定するための判定条件を含む。ここで、判定条件には、現在の相関モデル122と前の相関モデル122との間での、相関関係の変化や類似性に関する条件が設定される。また、図19は、本発明の第2の実施の形態における、相関破壊パターン更新ルール126の例を示す図である。
次に、本発明の第2の実施の形態における運用管理装置100の動作について説明する。
図17は、本発明の第2の実施の形態における、運用管理装置100の処理を示すフローチャートである。
はじめに、運用管理装置100の情報収集部101は、分析対象システム200上の被監視装置201から性能情報を収集する(ステップS201)。情報収集部101は、取得した性能情報を性能系列情報121として性能情報記憶部111に保存する。
相関モデル生成部102は、所定のモデル化周期のタイミング等、相関モデル122を生成する場合(ステップS202/Yes)、性能情報記憶部111の性能系列情報121を参照し、所定のモデル化期間の性能情報をもとに、相関モデル122を生成する(ステップS203)。相関モデル生成部102は、生成した相関モデル122を相関モデル記憶部112に保存する。
構成変更検出部107は、相関モデル122をもとに、構成変更を検出する(ステップS204)。ここで、構成変更検出部107は、構成変更検出ルール125に従って、構成変更を検出する。
ステップS204で、構成変更が検出されない場合(ステップS205/No)、ステップS209以降の処理が行われる。
一方、ステップS204で、構成変更が検出された場合(ステップS205/Yes)、障害分析部104は、対話部105を介して、管理者等に対して「構成変更検出」を出力する(ステップS206)。
次に、対話部105が、管理者等からモデル切り替えの指示を受け付けると、障害分析部104は、ステップS202で生成された相関モデル122を分析用の相関モデル122に設定する(ステップS207)。
なお、ここで、管理者等からの指示を待たずに、ステップS207以降の処理が実行されてもよい。
相関破壊パターン更新部108は、相関破壊パターン124を更新する(ステップS208)。ここで、相関破壊パターン更新部108は、相関破壊パターン更新ルール126に従って、相関破壊パターン124を更新する。
以降、相関破壊情報123を生成してから障害分析結果を出力するまでの処理(ステップS209〜S211)は、本発明の第1の実施の形態(ステップS110〜S112)と同様となる。
次に、動作の具体例を説明する。図32は、本発明の第2の実施の形態における、システム構成の変更、相関モデル122、及び、相関破壊パターン124の関係を示す図である。また、図20、図24、図28は、本発明の第2の実施の形態における、分析対象システム200の構成の例を示すブロック図である。図21、図25、図29は、本発明の第2の実施の形態における、相関モデル122の例を示す図である。図22、図26、図30は、本発明の第2の実施の形態における、相関マップ128の例を示す図である。図22、図26、図30の相関マップ128は、それぞれ、図21、図25、図29の相関モデル122に対応する。図23、図27、図31は、本発明の第2の実施の形態における、相関破壊パターン124の例を示す図である。
はじめに、第1の例として、分析対象システム200の変更前の構成が、図20(構成変更前)のように、冗長構成の被監視装置201(B1、B2)の両方が稼働中、被監視装置201(A1)と被監視装置201(B1)とが連携関係にある場合を例に、動作を説明する。この例では、被監視装置201(B1)が稼働中の場合でも、被監視装置201(B2)は稼動しており、被監視装置201(B1)とは別の処理を実行している。
この場合、分析用の相関モデル122として、図21の相関モデル122a(図22の相関マップ128a)が、生成、設定されていると仮定する。また、図32の時刻t0において発生した、被監視装置201(B1)(WEBサーバ)の障害(障害2)に対する相関破壊パターン124として、図23の相関破壊パターン124aが生成、設定されていると仮定する。
図32の時刻t1において、図20(構成変更後)に示すように、被監視装置201(A1)−(B1)間の連携関係が、被監視装置201(A1)−(B2)間に移動したと仮定する。
図32の時刻t2において、相関モデル生成部102は、図21の相関モデル122b(図22の相関マップ128b)を生成する。構成変更検出部107は、相関モデル122bを、前回の相関モデル122である図21の相関モデル122aと比較する。図21では、「A1.CPU−B1.CPU」間の相関関係、及び、「A1.CPU−B2.CPU」間の相関関係が変化している。また、相関モデル122aの「A1.CPU−B1.CPU」間の相関関係と相関モデル122bの「A1.CPU−B2.CPU」間の相関関係、及び、相関モデル122aの「A1.CPU−B2.CPU」間の相関関係と相関モデル122bの「A1.CPU−B1.CPU」間の相関関係が、それぞれ、類似している。従って、構成変更検出部107は、図18の構成変更検出ルール125に従って、構成変更種別「連携関係移動(被監視装置201(A1)−(B1)間の相関関係が被監視装置201(A1)−(B2)間へ移動)」の構成変更が発生したと判定する。
ここで、構成変更検出部107は、例えば、相関関係間で相関関数の各係数や重みの差異が、所定の閾値以下の場合、これらの相関関係が類似していると判断する。また、構成変更検出部107は、相関関係間で相関関数の各係数の符号が反転している場合や、各係数が時系列順にシフトしている場合、各係数が一定の倍率関係にある場合、定数項のみが異なる場合も、これらの相関関係が類似していると判断してよい。
なお、図21では、被監視装置201内の相関関係である、「B1.CPU−B1.DSK」間の相関関係、及び、「B2.CPU−B2.DSK」間の相関関係も変化しているが、これらは、相互に類似してはいないため、構成変更検出部107は、これらの相関関係の相関関数の係数が変化したと判定する。これは、例えば、被監視装置201(B2)が被監視装置201(A1)とは独立に、バッチ処理などのディスク負荷の高い処理を行っている場合に相当する。この場合、被監視装置201(A1)−被監視装置201(B1)間の連携関係が被監視装置201(A1)−被監視装置201(B2)間に移動しても、被監視装置201(B2)内のディスク負荷に関する相関関係には影響しない。
対話部105は、「構成変更検出」を、例えば、前述の図14のような構成変更検出画面300で出力する。
次に、対話部105が、管理者等からモデル切り替えの指示を受け付けると、障害分析部104は、図21の相関モデル122bを分析用の相関モデル122に設定する。
相関破壊パターン更新部108は、図19の相関破壊パターン更新ルール126の構成変更種別「連携関係移動」に対応する更新方法に従って、相関破壊パターン124aにおける、被監視装置201(A1)−被監視装置201(B1)間の連携関係に係る破壊パターンと、被監視装置201(A1)−被監視装置201(B2)間の連携関係に係る破壊パターンとを入れ替えることにより、図23の相関破壊パターン124bを生成する。
以降、図21の相関モデル122b、及び、図23の相関破壊パターン124bを用いて、障害分析が行われる。
ここで、本発明の第1の実施の形態と比較すると、第1の実施の形態では、構成情報127をもとに構成変更を検出している。このため、被監視装置201単位の変更しか検出できず、被監視装置201単位で、破壊パターンの更新が行われる。従って、上述の連携関係の移動のように、構成変更として、被監視装置201の部分的な稼働状態の変更が発生した場合には、相関破壊パターン124を正しく更新できない。
一方、第2の実施の形態では、相関モデル122をもとに構成変更を検出している。このため、上述の部分的な稼働状態の変更に対応した相関関係の変更を検出でき、相関関係単位で、破壊パターンの更新ができる。
このように、被監視装置201間の連携関係の移動のように、部分的な稼働状態の変更が発生した場合でも、構成変更後のシステムに適合した相関破壊パターン124を得ることができる。
次に、第2の例として、分析対象システム200の変更前の構成が、第1の動作例と同様に、図24(構成変更前)の場合を例に動作を説明する。
この場合、分析用の相関モデル122として、図25の相関モデル122a(図26の相関マップ128a)が、生成、設定されていると仮定する。また、図32の時刻t0において発生した、被監視装置201(B1)(WEBサーバ)の障害(障害2)に対する相関破壊パターン124として、図27の相関破壊パターン124aが生成、設定されていると仮定する。
図32の時刻t1において、図24(構成変更後)に示すように、被監視装置201(A1)の複製である被監視装置201(A2)が追加されたと仮定する。
図32の時刻t2において、相関モデル生成部102は、図25の相関モデル122b(図26の相関マップ128b)を生成する。構成変更検出部107は、相関モデル122bを、前回の相関モデル122である図25の相関モデル122aと比較する。図25では、相関モデル122bにおいて、相関モデル122aでは検出されていない被監視装置201(A2)に係る相関関係が検出されている。また、相関モデル122bにおいて、「A1.CPU−A1.NW」間の相関関係と「A2.CPU−A2.NW」間の相関関係、「A1.CPU−A1.DSK」間の相関関係と「A2.CPU−A2.DSK」間の相関関係、「A1.CPU−B1.CPU」間の相関関係と「A2.CPU−B1.CPU」間の相関関係、及び、「A1.CPU−B2.CPU」間の相関関係と「A2.CPU−B2.CPU」間の相関関係が、それぞれ、類似している。さらに、「A1.CPU−A2.CPU」間の重みの値が大きい。従って、構成変更検出部107は、図18の構成変更検出ルール125に従って、構成変更種別「複製(被監視装置201(A1)の複製である被監視装置201(A2)を追加)」の構成変更が発生したと判定する。
対話部105は、「構成変更検出」を、例えば、前述の図14のような構成変更検出画面300で出力する。
次に、対話部105が、管理者等からモデル切り替えの指示を受け付けると、障害分析部104は、図25の相関モデル122bを分析用の相関モデル122に設定する。
相関破壊パターン更新部108は、図19の相関破壊パターン更新ルール126の構成変更種別「複製」に対応する更新方法に従って、相関破壊パターン124aにおける、被監視装置201(A1)に係る破壊パターンを複製し、被監視装置201(A1)の識別子を被監視装置201(A2)の識別子に置き換えることにより、図27の相関破壊パターン124bを生成する。
以降、図25の相関モデル122b、及び、図27の相関破壊パターン124bを用いて、障害分析が行われる。
このように、被監視装置201の複製による構成変更が発生した場合でも、構成変更後のシステムに適合した相関破壊パターン124を得ることができる。
次に、第3の例として、分析対象システム200の変更前の構成が、図28(構成変更前)のように、冗長構成の被監視装置201(B1、B2、B3)の内、被監視装置201(B1、B2)が稼働中、被監視装置201(B3)が停止中の場合を例に、動作を説明する。
この場合、分析用の相関モデル122として、図29の相関モデル122a(図30の相関マップ128a)が、生成、設定されていると仮定する。また、図32の時刻t0において発生した、被監視装置201(B1)(WEBサーバ)の障害(障害2)に対する相関破壊パターン124として、図31の相関破壊パターン124aが生成、設定されていると仮定する。
図32の時刻t1において、冗長構成の切り替えにより、図28(構成変更後)に示すように、被監視装置201(B2)が停止中、被監視装置201(B3)が稼働中に変化したと仮定する。
図32の時刻t2において、相関モデル生成部102は、図29の相関モデル122b(図30の相関マップ128b)を生成する。構成変更検出部107は、相関モデル122bを、前回の相関モデル122である図29の相関モデル122aと比較する。図29では、相関モデル122bにおいて、相関モデル122aでは検出されていない被監視装置201(B3)に係る相関関係が検出されている。また、相関モデル122bにおいて、相関モデル122aで検出されていた被監視装置201(B2)に係る相関関係が検出されていない。また、相関モデル122aの「A1.CPU−B2.CPU」間の相関関係と相関モデル122bの「A1.CPU−B3.CPU」間の相関関係、及び、相関モデル122aの「B2.CPU−B2.DSK」間の相関関係と相関モデル122bの「B3.CPU−B3.DSK」間の相関関係が、それぞれ、類似している。従って、構成変更検出部107は、図18の構成変更検出ルール125に従って、構成変更種別「置換(被監視装置201(B2)を被監視装置201(B3)で置換)」の構成変更が発生したと判定する。
対話部105は、「構成変更検出」を、例えば、前述の図14のような構成変更検出画面300で出力する。
次に、対話部105が、管理者等からモデル切り替えの指示を受け付けると、障害分析部104は、図29の相関モデル122bを分析用の相関モデル122に設定する。
相関破壊パターン更新部108は、図19の相関破壊パターン更新ルール126の構成変更種別「置換」に対応する更新方法に従って、相関破壊パターン124aにおける、被監視装置201(B2)の識別子を被監視装置201(B3)の識別子に置き換えることにより、図31の相関破壊パターン124bを生成する。
以降、図29の相関モデル122b、及び、図31の相関破壊パターン124bを用いて、障害分析が行われる。
このように、被監視装置201の置換による構成変更が発生した場合でも、構成情報127を用いることなく、本発明の第1の実施の形態と同様に、構成変更後のシステムに適合した相関破壊パターン124を得ることができる。
以上により、本発明の第2の実施の形態の動作が完了する。
なお、本発明の第2の実施の形態においては、部分的な稼働状態の変更の例として、連携関係にある被監視装置201間のCPU使用率に係る相関関係が変化する場合を例に説明したが、この例に限らず、他の性能値の種目に係る相関関係が変化する場合でも同様の効果が得られる。例えば、ネットワークトラフィックの時系列情報からネットワーク障害を特定する場合において、部分的なネットワーク経路の切り替えやフロー制御に対応する相関関係の変化を検出してもよい。また、ストレージ装置の障害分析において、ストレージ装置に含まれるディスク切り替えや交換に対応する相関関係の変化を検出してもよい。また、アプリケーションプログラムの障害分析において、部分的なパッチ適用に対応する相関関係の変化を検出してもよい。
また、本発明の第2の実施の形態においては、構成変更として「連携関係の移動」、「複製」、及び、「置換」を検出する場合を例に説明したが、相関モデル122をもとに検出できれば、他の種別の構成変更を検出してもよい。例えば、構成変更検出部107は、「連携関係の複製」を検出してもよい。この場合、構成変更検出部107は、例えば、構成情報127において、未検出から検出になった被監視装置201(A1)−被監視装置201(B2)間の相関関係と類似する相関関係が被監視装置201(A1)−被監視装置201(B1)間に存在する場合、「連携関係の複製(被監視装置201(A1)−(B1)間の相関関係を被監視装置201(A1)−(B2)間へ追加)」の構成変更が発生したと判定する。そして、相関破壊パターン更新部108は、相関破壊パターン124における、被監視装置201(A1)−被監視装置201(B1)間の連携関係に係る破壊パターンを、被監視装置201(A1)−被監視装置201(B2)間の連携関係に係る破壊パターンを生成、追加することにより、相関破壊パターン124を更新する。
また、構成変更検出部107は、相関関係の移動や複製を伴わないような構成変更を検出してもよい。図33は、本発明の第2の実施の形態における、相関モデル122の他の例を示す図である。図34は、本発明の第2の実施の形態における、構成変更検出画面300の例を示す図である。図33では、「A1.CPU−B1.CPU」間の相関関係、及び、「B1.CPU−B1.DSK」間の相関関係に関し、相関関係の係数が変化している。これは、例えば、被監視装置201(B1)のシステム増強(CPU変更)が行われた場合に相当する。構成変更検出部107は、被監視装置201(B1)のCPU使用率に係る相関関数の係数の変化を検出することにより、このような「システム増強」の構成変更を検出できる。また、この場合、対話部105は、「構成変更検出」を、例えば、図34のような構成変更検出画面300で出力する。図34の例では、構成変更検出画面300は、変化した相関関係についての構成変更前と構成変更後のメトリック間の関係を示す相関関係変化情報304を含む。これにより、管理者等は、分析対象システム200のシステム増強とその効果を容易に把握し、適切な相関モデル122への切り替えを指示できる。
本発明の第2の実施の形態によれば、不変関係分析において、システム構成が変化した場合でも、構成情報127を用いることなく、適切な相関モデル、及び、相関破壊パターンを用いて障害分析を行うことができる。その理由は、構成変更検出部107が、相関モデル122をもとに、分析対象システム200の構成変更を検出するためである。
また、本発明の第2の実施の形態によれば、不変関係分析において、構成変更として、被監視装置201の部分的な稼働状態の変更が発生した場合でも、構成変更後のシステムに適合した相関破壊パターン124を得ることができる。その理由は、構成変更検出部107が、相関モデル122の相関関係単位の変更を検出し、相関破壊パターン更新部108が、相関関係単位で、相関破壊パターン124を更新するためである。これにより、本発明の第1の実施の形態に比べて、より適合度の高い相関破壊パターン124を生成することができる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、構成変更検出部107は、第1の実施の形態で示した構成情報127をもとにした構成変更の検出結果と、第2の実施の形態で示した相関モデル122をもとにした構成変更の検出結果との両方を用いて、構成変更を検出してもよい。例えば、第2の実施の形態で第1〜第3の例として説明した稼働状態の変化が連続して発生した場合、構成変更検出部107は、相関関係の変化だけでは、構成変更を正確に検出できない可能性がある。この場合、構成変更検出部107は、構成情報127をもとに検出される構成変更の検出結果を併せて用いることにより、構成変更をより正確に検出できる。これにより、複雑な相関関係の変化が発生した場合でも、より正確な相関破壊パターン124を生成できる。
この出願は、2012年3月14日に出願された日本出願特願2012−057337を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 運用管理システム
100 運用管理装置
101 情報収集部
102 相関モデル生成部
103 相関破壊検出部
104 障害分析部
105 対話部
106 対処実行部
107 構成変更検出部
108 相関破壊パターン更新部
111 性能情報記憶部
112 相関モデル記憶部
113 相関破壊記憶部
114 相関破壊パターン記憶部
117 構成情報記憶部
121 性能系列情報
122 相関モデル
123 相関破壊情報
124 相関破壊パターン
125 構成変更検出ルール
126 相関破壊パターン更新ルール
127 構成情報
128 相関マップ
200 分析対象システム
201 被監視装置
300 構成変更検出画面
301 異常度グラフ
302 構成変更検出情報
303 ボタン
304 相関関係変化情報
310 分析結果出力画面
311 障害候補情報

Claims (10)

  1. システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを生成する相関モデル生成手段と、
    前記システムの構成変更の有無を検出する構成変更検出手段と、
    前記構成変更検出手段により前記システムの構成変更が検出された場合に、前記システムの構成変更後の前記複数のメトリックの計測値をもとに生成された相関モデルを用いて、前記システムの障害要因を特定する障害分析手段と
    を含む運用管理装置。
  2. 相関モデルに含まれる相関関係の破壊を相関破壊と定義したときに、
    前記障害分析手段は、前記複数のメトリックの新たな計測値に対して検出された相関破壊の状態と、前記システムの過去の障害時における相関破壊の状態を示す相関破壊パターンと、を比較することにより、前記システムの障害要因を特定し、
    さらに、前記構成変更検出手段により前記システムの構成変更が検出された場合に、前記相関破壊パターンを、前記構成変更後に用いられる相関モデルに適合するように補正する、相関破壊パターン更新手段を含む
    請求項1に記載の運用管理装置。
  3. 前記構成変更検出手段は、前記システムに含まれる1以上の被監視装置の各々の属性情報の変化をもとに、前記システムの構成変更の有無を検出する
    請求項1または2に記載の運用管理装置。
  4. 前記構成変更検出手段は、前記相関モデル生成手段により生成される相関モデルの変化をもとに、前記システムの構成変更の有無を検出する
    請求項1または2に記載の運用管理装置。
  5. 前記相関破壊パターンは、相関モデルに含まれる1以上の相関関係の各々の相関破壊の有無を示し、
    前記相関破壊パターン更新手段は、
    前記構成変更検出手段により前記システムに含まれる第1の被監視装置の、当該第1の被監視装置と同じ構成を有する第2の被監視装置との置換が検出された場合、前記相関破壊パターンにおける当該第1の被監視装置に係る相関関係の相関破壊の有無の情報を、当該第2の被監視装置に係る相関関係の相関破壊の有無の情報に修正し、
    前記構成変更検出手段により前記システムに含まれる第1の被監視装置と同じ構成を有する第2の被監視装置の追加が検出された場合、前記相関破壊パターンにおける当該第1の被監視装置に係る相関関係の相関破壊の有無の情報から、当該第2の被監視装置に係る相関関係の相関破壊の有無の情報を生成して、前記相関破壊パターンに追加する
    請求項3または4に記載の運用管理装置。
  6. 前記相関破壊パターンは、相関モデルに含まれる1以上の相関関係の各々の相関破壊の有無を示し、
    前記構成変更検出手段により前記システムに含まれる第1の被監視装置と第2の被監視装置との間の相関関係の当該第1の被監視装置と第3の被監視装置との間への移動が検出された場合、前記相関破壊パターンにおける当該第1の被監視装置と当該第2の被監視装置との間の相関関係の相関破壊の有無の情報を、当該第1の被監視装置と当該第3の被監視装置との間へ移動した相関関係の相関破壊の有無の情報に修正し、
    前記構成変更検出手段により前記システムに含まれる第1の被監視装置と第2の被監視装置との間の相関関係の当該第1の被監視装置と第3の被監視装置との間への追加が検出された場合、前記相関破壊パターンにおける当該第1の被監視装置と当該第2の被監視装置との間の相関関係の相関破壊の有無の情報から、当該第1の被監視装置と当該第3の被監視装置との間の追加された相関関係の相関破壊の有無の情報を生成して、前記相関破壊パターンに追加する
    請求項4に記載の運用管理装置。
  7. システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを生成し、
    前記システムの構成変更の有無を検出し、
    前記システムの構成変更が検出された場合に、前記システムの構成変更後の前記複数のメトリックの計測値をもとに生成された相関モデルを用いて、前記システムの障害要因を特定する
    運用管理方法。
  8. 相関モデルに含まれる相関関係の破壊を相関破壊と定義したときに、
    前記システムの構成変更が検出された場合に、前記システムの過去の障害時における相関破壊の状態を示す相関破壊パターンを、前記構成変更後に用いられる相関モデルに適合するように補正し、
    前記複数のメトリックの新たな計測値に対して検出された相関破壊の状態と、前記相関破壊パターンと、を比較することにより、前記システムの障害要因を特定する
    請求項7に記載の運用管理方法。
  9. コンピュータに、
    システムの複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを生成し、
    前記システムの構成変更の有無を検出し、
    前記システムの構成変更が検出された場合に、前記システムの構成変更後の前記複数のメトリックの計測値をもとに生成された相関モデルを用いて、前記システムの障害要因を特定する
    処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  10. 相関モデルに含まれる相関関係の破壊を相関破壊と定義したときに、
    前記システムの構成変更が検出された場合に、前記システムの過去の障害時における相関破壊の状態を示す相関破壊パターンを、前記構成変更後に用いられる相関モデルに適合するように補正し、
    前記複数のメトリックの新たな計測値に対して検出された相関破壊の状態と、前記相関破壊パターンと、を比較することにより、前記システムの障害要因を特定する処理を実行させる
    請求項9に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
JP2014504679A 2012-03-14 2013-03-08 運用管理装置、運用管理方法、及び、プログラム Active JP5910727B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012057337 2012-03-14
JP2012057337 2012-03-14
PCT/JP2013/001480 WO2013136739A1 (ja) 2012-03-14 2013-03-08 運用管理装置、運用管理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JPWO2013136739A1 true JPWO2013136739A1 (ja) 2015-08-03
JP5910727B2 JP5910727B2 (ja) 2016-04-27

Family

ID=49160671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014504679A Active JP5910727B2 (ja) 2012-03-14 2013-03-08 運用管理装置、運用管理方法、及び、プログラム

Country Status (5)

Country Link
US (1) US20150046123A1 (ja)
EP (1) EP2827251B1 (ja)
JP (1) JP5910727B2 (ja)
CN (1) CN104205063B (ja)
WO (1) WO2013136739A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021121956A (ja) * 2020-07-20 2021-08-26 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 故障予測方法、装置、電子設備、記憶媒体、及びプログラム

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700953B2 (en) * 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
CN103026344B (zh) * 2010-06-07 2015-09-09 日本电气株式会社 故障检测设备、故障检测方法和程序记录介质
EP3239839A4 (en) 2014-12-22 2018-08-22 Nec Corporation Operation management device, operation management method, and recording medium in which operation management program is recorded
US9853873B2 (en) 2015-01-10 2017-12-26 Cisco Technology, Inc. Diagnosis and throughput measurement of fibre channel ports in a storage area network environment
US9900250B2 (en) 2015-03-26 2018-02-20 Cisco Technology, Inc. Scalable handling of BGP route information in VXLAN with EVPN control plane
US10222986B2 (en) 2015-05-15 2019-03-05 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
US11588783B2 (en) 2015-06-10 2023-02-21 Cisco Technology, Inc. Techniques for implementing IPV6-based distributed storage space
US10630561B1 (en) 2015-06-17 2020-04-21 EMC IP Holding Company LLC System monitoring with metrics correlation for data center
US9575828B2 (en) * 2015-07-08 2017-02-21 Cisco Technology, Inc. Correctly identifying potential anomalies in a distributed storage system
US10778765B2 (en) 2015-07-15 2020-09-15 Cisco Technology, Inc. Bid/ask protocol in scale-out NVMe storage
US9892075B2 (en) 2015-12-10 2018-02-13 Cisco Technology, Inc. Policy driven storage in a microserver computing environment
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10970891B2 (en) 2016-02-29 2021-04-06 Oracle International Corporation Systems and methods for detecting and accommodating state changes in modelling
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US10140172B2 (en) 2016-05-18 2018-11-27 Cisco Technology, Inc. Network-aware storage repairs
US20170351639A1 (en) 2016-06-06 2017-12-07 Cisco Technology, Inc. Remote memory access using memory mapped addressing among multiple compute nodes
US10664169B2 (en) 2016-06-24 2020-05-26 Cisco Technology, Inc. Performance of object storage system by reconfiguring storage devices based on latency that includes identifying a number of fragments that has a particular storage device as its primary storage device and another number of fragments that has said particular storage device as its replica storage device
US10200262B1 (en) 2016-07-08 2019-02-05 Splunk Inc. Continuous anomaly detection service
US10146609B1 (en) 2016-07-08 2018-12-04 Splunk Inc. Configuration of continuous anomaly detection service
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11563695B2 (en) 2016-08-29 2023-01-24 Cisco Technology, Inc. Queue protection using a shared global memory reserve
US10338986B2 (en) * 2016-10-28 2019-07-02 Microsoft Technology Licensing, Llc Systems and methods for correlating errors to processing steps and data records to facilitate understanding of errors
US10545914B2 (en) 2017-01-17 2020-01-28 Cisco Technology, Inc. Distributed object storage
US10243823B1 (en) 2017-02-24 2019-03-26 Cisco Technology, Inc. Techniques for using frame deep loopback capabilities for extended link diagnostics in fibre channel storage area networks
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10713203B2 (en) 2017-02-28 2020-07-14 Cisco Technology, Inc. Dynamic partition of PCIe disk arrays based on software configuration / policy distribution
US10254991B2 (en) 2017-03-06 2019-04-09 Cisco Technology, Inc. Storage area network based extended I/O metrics computation for deep insight into application performance
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US10303534B2 (en) 2017-07-20 2019-05-28 Cisco Technology, Inc. System and method for self-healing of application centric infrastructure fabric memory
US10404596B2 (en) 2017-10-03 2019-09-03 Cisco Technology, Inc. Dynamic route profile storage in a hardware trie routing table
US10942666B2 (en) 2017-10-13 2021-03-09 Cisco Technology, Inc. Using network device replication in distributed storage clusters
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US12001926B2 (en) 2018-10-23 2024-06-04 Oracle International Corporation Systems and methods for detecting long term seasons
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
CN114697212A (zh) * 2020-12-25 2022-07-01 北京京东方技术开发有限公司 设备参数处理方法、设备、系统及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003009140A2 (en) * 2001-07-20 2003-01-30 Altaworks Corporation System and method for adaptive threshold determination for performance metrics
EP2031540A4 (en) * 2006-06-22 2016-07-06 Nec Corp JOINT MANAGEMENT SYSTEM, JOINT MANAGEMENT AND PROGRAM PROCEDURE
US9021464B2 (en) * 2006-08-07 2015-04-28 Netiq Corporation Methods, systems and computer program products for rationalization of computer system configuration change data through correlation with product installation activity
US8700953B2 (en) 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
US8868987B2 (en) * 2010-02-05 2014-10-21 Tripwire, Inc. Systems and methods for visual correlation of log events, configuration changes and conditions producing alerts in a virtual infrastructure
CN103026344B (zh) 2010-06-07 2015-09-09 日本电气株式会社 故障检测设备、故障检测方法和程序记录介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021121956A (ja) * 2020-07-20 2021-08-26 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 故障予測方法、装置、電子設備、記憶媒体、及びプログラム

Also Published As

Publication number Publication date
CN104205063B (zh) 2017-05-24
EP2827251A4 (en) 2015-08-12
EP2827251A1 (en) 2015-01-21
US20150046123A1 (en) 2015-02-12
CN104205063A (zh) 2014-12-10
WO2013136739A1 (ja) 2013-09-19
JP5910727B2 (ja) 2016-04-27
EP2827251B1 (en) 2020-02-12

Similar Documents

Publication Publication Date Title
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6875179B2 (ja) システム分析装置、及びシステム分析方法
JP5532150B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
US10430268B2 (en) Operations management system, operations management method and program thereof
JPWO2012086824A1 (ja) 運用管理装置、運用管理方法、及びプログラム
WO2009110329A1 (ja) 障害分析装置、障害分析方法および記録媒体
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
WO2006117833A1 (ja) 監視シミュレーション装置,方法およびそのプログラム
US10157113B2 (en) Information processing device, analysis method, and recording medium
US9690639B2 (en) Failure detecting apparatus and failure detecting method using patterns indicating occurrences of failures
WO2015182072A1 (ja) 因果構造推定システム、因果構造推定方法およびプログラム記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160314

R150 Certificate of patent or registration of utility model

Ref document number: 5910727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150