JPWO2014132611A1 - システム分析装置、及び、システム分析方法 - Google Patents

システム分析装置、及び、システム分析方法 Download PDF

Info

Publication number
JPWO2014132611A1
JPWO2014132611A1 JP2015502761A JP2015502761A JPWO2014132611A1 JP WO2014132611 A1 JPWO2014132611 A1 JP WO2014132611A1 JP 2015502761 A JP2015502761 A JP 2015502761A JP 2015502761 A JP2015502761 A JP 2015502761A JP WO2014132611 A1 JPWO2014132611 A1 JP WO2014132611A1
Authority
JP
Japan
Prior art keywords
correlation
metric
detection sensitivity
destruction
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015502761A
Other languages
English (en)
Other versions
JP6183449B2 (ja
Inventor
昌尚 棗田
昌尚 棗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014132611A1 publication Critical patent/JPWO2014132611A1/ja
Application granted granted Critical
Publication of JP6183449B2 publication Critical patent/JP6183449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Automation & Control Theory (AREA)
  • Debugging And Monitoring (AREA)

Abstract

不変関係分析において、異常要因を正確に判定する。システム分析装置(100)は、相関モデル記憶部(112)、及び、異常要因抽出部(104)を含む。相関モデル記憶部(112)は、システムにおけるメトリックのペアの相関関係を示す相関モデル(122)を記憶する。異常要因抽出部(104)は、相関モデル(122)に含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す検出感度をもとに、異常要因の候補のメトリックを抽出する。

Description

本発明は、システム分析装置、及び、システム分析方法に関する。
システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害や異常等の要因を判定する運用管理システムの一例が特許文献1に記載されている。
特許文献1に記載の運用管理システムは、システムの複数のメトリックの計測値をもとに、複数のメトリックの内の各ペアの相関関係を表す相関関数を決定することにより、システムの相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、相関関係の破壊(相関破壊)を検出し、相関破壊をもとにシステムの障害要因を判定する。このように、相関破壊をもとにシステムの状態を分析する技術は、不変関係分析と呼ばれる。
なお、関連技術として、特許文献2には、プロセスの複数点の物理量が基準点から変化した場合に、点間の相関関係をもとに、障害点を判定する方法が開示されている。
特許第4872944号公報 特開昭63−51936号公報
特許文献1の不変関係分析においては、相関モデルにおける相関破壊の状況により、異常が発生したメトリック(異常要因メトリック)の絞込みを行う。ここで、異常要因メトリックに係る相関関係の多くが破壊された場合は、当該メトリックを異常要因として絞り込むことは可能であるが、異常要因メトリックに係る相関関係の内の少数のみが破壊された場合、異常要因の絞込みができないことがある。
図9は、特許文献1の不変関係分析における、異常要因の判定例を示す図である。図9において、各ノードはメトリックを示し、メトリック間の矢印は相関関係を示す。また、太線で示されたノードは、異常が発生したメトリック(異常要因メトリック)を、太線の矢印は、相関破壊が検出されている相関関係を示す。
図9では、メトリックAの異常により、1つの相関関係(メトリックA、C間)で相関破壊が検出されている。この場合、相関破壊が検出された相関関係に係るメトリックA、Cの内、どちらのメトリックが異常要因であるか判定できない。そこで、例えば、各メトリックに係る、全ての相関関係の数に対する相関破壊が検出された相関関係の数の割合(以下、相関破壊の割合と呼ぶ)をもとに、異常要因のメトリックを判定する方法が用いられる。しかしながら、この場合、メトリックCに係る相関破壊の割合1/2は、メトリックAに係る相関破壊の割合1/3よりも大きく、メトリックCが異常要因であると誤って判定される。
本発明の目的は、上述の課題を解決し、不変関係分析において、異常要因を正確に判定できるシステム分析装置、及び、システム分析方法を提供することである。
本発明の一態様におけるシステム分析装置は、システムにおけるメトリックのペアの相関関係を示す相関モデルを記憶する相関モデル記憶手段と、前記相関モデルに含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す検出感度をもとに、異常要因の候補のメトリックを抽出する、異常要因抽出手段と、を備える。
本発明の一態様におけるシステム分析方法は、システムにおけるメトリックのペアの相関関係を示す相関モデルを記憶し、前記相関モデルに含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す検出感度をもとに、異常要因の候補のメトリックを抽出する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、システムにおけるメトリックのペアの相関関係を示す相関モデルを記憶し、前記相関モデルに含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す検出感度をもとに、異常要因の候補のメトリックを抽出する、処理を実行させるプログラムを格納する。
本発明の効果は、不変関係分析において、異常要因を正確に判定できることである。
本発明の第1の実施の形態の特徴的な構成を示すブロック図である。 本発明の第1の実施の形態におけるシステム分析装置100の構成を示すブロック図である。 本発明の第1の実施の形態における、システム分析装置100の動作を示すフローチャートである。 本発明の第1の実施の形態における、相関モデル122と検出感度の例を示す図である。 本発明の第1の実施の形態における、相関破壊の検出例と検出感度の比較例を示す図である。 本発明の第2の実施の形態における、システム分析装置100の動作を示すフローチャートである。 本発明の第2の実施の形態における、相関モデル122と検出感度の例を示す図である。 本発明の第2の実施の形態における、相関破壊の検出例と検出感度の比較例を示す図である。 特許文献1の不変関係分析における、異常要因の判定例を示す図である。
ここでは、IT(Information Technology)システムの不変関係分析を例に、実施の形態を説明する。
(第1の実施の形態)
本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態におけるシステム分析装置100の構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態におけるシステム分析装置100は、1以上の被監視装置200を含む被監視システムと接続される。被監視装置200は、各種サーバ装置やネットワーク装置等、ITシステムを構成する装置である。
被監視装置200は、当該被監視装置200の複数種目の性能値の実測データ(計測値)を一定間隔毎に計測し、システム分析装置100へ送信する。性能値の種目として、例えば、CPU(Central Processing Unit)使用率、メモリ使用率、ディスクアクセス頻度等、コンピュータリソースやネットワークリソースの使用率や使用量が用いられる。
ここで、被監視装置200と性能値の種目の組をメトリック(性能指標)とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。メトリックは、整数や小数の数値により表される。また、メトリックは、特許文献1における相関モデルの生成対象である「要素」に相当する。
システム分析装置100は、被監視装置200から収集した性能情報をもとに、被監視装置200の相関モデル122を生成し、生成した相関モデル122を用いて、被監視装置200の状態を分析する。
システム分析装置100は、性能情報収集部101、相関モデル生成部102、相関破壊検出部103、異常要因抽出部104、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、及び、検出感度記憶部114を含む。
性能情報収集部101は、被監視装置200から性能情報を収集する。
性能情報記憶部111は、性能情報収集部101が収集した性能情報の時系列変化を、性能系列情報として記憶する。
相関モデル生成部102は、性能系列情報をもとに、被監視システムの相関モデル122を生成する。
ここで、相関モデル122は、メトリックの各ペア(対)の相関関係を表す相関関数(または、予測式)を含む。相関関数は、メトリックのペアの内の一方の値を、ペアの両方の時系列、または、他方の時系列から予測する関数である。以下、メトリックのペアの内、相関関数により予測されるメトリックを目的メトリック、他方のメトリックを非目的メトリックと呼ぶ。
相関モデル生成部102は、特許文献1の運用管理装置と同様に、所定のモデル化期間の性能情報に対するシステム同定処理により、メトリックy(t)、u(t)のペアに対して、数1式のように相関関数f(y,u)を決定する。ここで、メトリックy(t)、u(t)が、それぞれ、目的メトリック、非目的メトリックである。a(n=1〜N)、b(m=0〜M)は、それぞれ、y(t−n)、u(t−K−m)に乗じられる係数である。an、bm、c、N、K、Mは、数2式で示される、相関関数の予測精度(フィットネス)の値が最大となるように決定される。
Figure 2014132611
Figure 2014132611
なお、相関モデル生成部102は、予測精度が所定値以上の相関関数の集合を、相関モデル122としてもよい。
図4は、本発明の第1の実施の形態における、相関モデル122と検出感度の例を示す図である。図4において、相関モデル122は、ノードと矢印を含むグラフで示される。ここで、各ノードはメトリックを示し、メトリック間の矢印は相関関係を示す。また、矢印の先のメトリックが、目的メトリックに対応する。
図4の相関モデル122では、装置識別子A〜Dの被監視装置200の各々に1つのメトリック(以下、メトリックA〜Dとする)が存在し、メトリックA〜Dの内のペア毎に、相関関係が定義されている。また、メトリックの各ペアの相関関係に対して、当該ペアの一方のメトリックを予測する1つの相関関数が定義されている。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデル122を記憶する。
相関破壊検出部103は、新たに入力された性能情報について、相関モデル122に含まれる相関関係の相関破壊を検出する。
ここで、相関破壊検出部103は、特許文献1の運用管理装置と同様に、メトリックの各ペア(対)について、相関破壊を検出する。相関破壊検出部103は、メトリックの計測値を相関関数に入力して得られた目的メトリックの予測値と、当該目的メトリックの計測値との差分(予測誤差)が所定の閾値以上の場合、当該ペアの相関関係の相関破壊として検出する。
相関破壊記憶部113は、相関破壊が検出された相関関係を示す相関破壊情報を記憶する。
図5は、本発明の第1の実施の形態における、相関破壊の検出例と検出感度の比較例を示す図である。図5において、太線の矢印は、図4の相関モデル122において、相関破壊が検出されている相関関係を示す。また、図5において、太線で示されたノードは、異常が発生したメトリック(異常要因メトリック)を示す。図5の例では、装置識別子Aの被監視装置200の異常により、メトリックAとメトリックCとの間の相関関係に、相関破壊が発生している。
異常要因抽出部104は、相関モデル122に含まれる各相関関係の検出感度を算出する。検出感度は、相関関係に係るメトリックの異常の予測値への影響の大きさ、すなわち、メトリックの異常時の相関関係における相関破壊の発生しやすさを示す。
ここで、本発明の第1の実施の形態における、検出感度の算出方法について説明する。
相関関係が上述の数1式のような相関関数で表される場合、メトリックのペアの内のいずれかに係る物理的な故障が発生すると、相関関数の目的メトリックの予測値の予測誤差は、正または負のいずれかの方向に大きくなる傾向がある。この場合、メトリックの異常時の相関関係における相関破壊の発生しやすさ(検出感度)は、当該相関関係を表す相関関数の係数の和で近似的に表すことができる。
本発明の第1の実施の形態では、相関関数の係数の和を、相関破壊を判定するときに適用される、予測誤差の閾値で規格化した値を検出感度と定義する。
例えば、メトリックy、uのペアに対して、数1式の相関関数f(y,u)が定義されている場合、検出感度は以下のように算出される。目的メトリックyに対する検出感度Syは、数3式のように、相関関数f(y,u)における目的メトリックyに乗じる係数の和を予測誤差の閾値で除することにより算出される。また、非目的メトリックuに対する検出感度Suは、数4式のように、相関関数f(y,u)におけるメトリックuに乗じる係数の和を予測誤差の閾値で除することにより算出される。
Figure 2014132611
Figure 2014132611
ここで、Thresholdは、相関関数f(y,u)を用いて相関破壊を判定するときに適用される、予測誤差の閾値である。Thresholdの値は、例えば、相関モデル生成部102により、モデル化期間の性能情報に対する予測誤差の最大値や、標準偏差をもとに決定される。また、管理者等により、相関関数ごとにThresholdの値が設定されてもよい。
異常要因抽出部104は、さらに、相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックに係る各相関関係の検出感度を用いて、異常要因の候補のメトリックを抽出する。
検出感度記憶部114は、異常要因抽出部104により算出された検出感度を記憶する。
なお、システム分析装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、及び、検出感度記憶部114は、それぞれ個別の記憶媒体でも、1つの記憶媒体によって構成されてもよい。
次に、本発明の第1の実施の形態におけるシステム分析装置100の動作について説明する。
図3は、本発明の第1の実施の形態における、システム分析装置100の動作を示すフローチャートである。
ここでは、図4に示すような相関モデル122が相関モデル生成部102により生成され、相関モデル記憶部112に記憶されていると仮定する。また、図4に示すような検出感度が異常要因抽出部104により算出され、検出感度記憶部114に記憶されていると仮定する。
はじめに、相関破壊検出部103は、性能情報収集部101により新たに収集された性能情報を用いて、相関モデル122に含まれる相関関係の相関破壊を検出する(ステップS101)。
例えば、相関破壊検出部103は、新たに収集された性能情報に対して図5のように相関破壊を検出する。
異常要因抽出部104は、相関モデル122に含まれるメトリックの内の1つを選択する(ステップS102)。
異常要因抽出部104は、選択したメトリックに係る相関関係に、相関破壊が検出された相関関係がある場合(ステップS103/Y)、選択したメトリックに係る相関関係の内の1つを選択する(ステップS104)。そして、異常要因抽出部104は、選択したメトリックが、選択した相関関係の相関関数の目的メトリックである場合(ステップS105/Y)、検出感度記憶部114から、当該相関関数の目的メトリックに対する検出感度を取得する。また、異常要因抽出部104は、選択したメトリックが、選択した相関関係の相関関数の目的メトリックでない場合(ステップS105/N)、検出感度記憶部114から、当該相関関数の非目的メトリックに対する検出感度を取得する。異常要因抽出部104は、選択したメトリックに係る全ての相関関係について、ステップS104からS107の処理を繰り返す(ステップS108)。
例えば、メトリックAが選択された場合、メトリックAは相関関数f(A,B)の目的メトリックであるため、異常要因抽出部104は、図5に示すように、相関関数f(A,B)の目的メトリックに対する検出感度(=0.01)を取得する。同様に、メトリックAは相関関数f(A,C)の目的メトリックであるため、異常要因抽出部104は、相関関数f(A,C)の目的メトリックに対する検出感度(=0.05)を取得する。また、メトリックAは相関関数f(D,A)の非目的メトリックであるため、異常要因抽出部104は、相関関数f(D,A)の非目的メトリックに対する検出感度(=0.001)を取得する。
次に、異常要因抽出部104は、選択したメトリックに係る各相関関係について取得した検出感度を比較し、最も検出感度が高い相関関係に相関破壊が検出されているかどうかを判定する(ステップS109)。ステップS109で、最も検出感度が高い相関関係に相関破壊が検出されている場合(ステップS109/Y)、異常要因抽出部104は、選択したメトリックを異常要因の候補であると判定する。
例えば、上述の場合、相関破壊が検出されたメトリックA、C間の相関関係の検出感度(=0.05)は、相関破壊が検出されていないメトリックA、B間の相関関係の検出感度(=0.01)、メトリックA、D間の相関関係の検出感度(=0.001)よりも大きい。つまり、最も検出感度が高い相関関係に相関破壊が検出されている。従って、異常要因抽出部104は、メトリックAを異常要因の候補と判定する。
異常要因抽出部104は、相関モデル122に含まれる全てのメトリックについて、ステップS102からS110の処理を繰り返す(ステップS111)。
例えば、メトリックCが選択された場合、メトリックCは相関関数f(A,C)の非目的メトリックであるため、異常要因抽出部104は、図5に示すように、相関関数f(A,C)の非目的メトリックに対する検出感度(=0.1)を取得する。また、メトリックCは相関関数f(C,D)の目的メトリックであるため、異常要因抽出部104は、相関関数f(C,D)の目的メトリックに対する検出感度(=0.12)を取得する。
この場合、相関破壊が検出されたメトリックA、C間の相関関係の検出感度(=0.1)は、相関破壊が検出されていないメトリックC、D間の相関関係の検出感度(=0.12)よりも小さい。つまり、最も検出感度が高い相関関係に相関破壊が検出されていない。従って、異常要因抽出部104は、メトリックCを異常要因の候補とは判定しない。
最後に、異常要因抽出部104は、異常要因の候補と判定されたメトリックの識別子を、出力部(図示せず)により、管理者等に出力する(ステップS112)。
例えば、異常要因抽出部104は、メトリックAを異常要因の候補として出力する。
以上により、本発明の第1の実施の形態の動作が完了する。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、システム分析装置100は、相関モデル記憶部112、及び、異常要因抽出部104を含む。
相関モデル記憶部112は、システムにおけるメトリックのペアの相関関係を示す相関モデル122を記憶する。
異常要因抽出部104は、相関モデル122に含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、検出感度をもとに、異常要因の候補のメトリックを抽出する。ここで、検出感度は、各メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す。
本発明の第1の実施の形態によれば、不変関係分析において、異常要因を正確に判定できる。その理由は、異常要因抽出部104が、相関破壊が検出された相関関係に係る全てのメトリックを異常要因の候補とするのではなく、異常要因の候補のメトリックをさらに絞り込むためである。すなわち、異常要因抽出部104は、相関破壊が検出された相関関係に係る各メトリックについて算出された検出感度をもとに、異常要因の候補のメトリックを絞り込む。ここで、検出感度は、各メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態は、メトリックの各ペアの相関関係に対して、2つの相関関数が定義されている場合に、2つの相関関数の検出感度の内、大きい方の検出感度を用いて異常要因の候補を抽出する点で、本発明の第1の実施の形態と異なる。
本発明の第2の実施の形態におけるシステム分析装置100の構成は、本発明の第1の実施の形態(図2)と同様となる。
図7は、本発明の第2の実施の形態における、相関モデル122と検出感度の例を示す図である。図7の相関モデル122では、当該ペアの各々のメトリックを予測する2つの相関関数が定義されている。
異常要因抽出部104は、各相関関係を表す2つの相関関数の検出感度の内、大きい方の検出感度を用いて、異常要因の候補のメトリックを抽出する。
次に、本発明の第2の実施の形態におけるシステム分析装置100の動作について説明する。
図6は、本発明の第2の実施の形態における、システム分析装置100の動作を示すフローチャートである。
本発明の第2の実施の形態の動作は、異常要因抽出部104による検出感度の取得処理(図6のステップS205、S206)を除いて、本発明の第1の実施の形態と同様となる。
ここでは、図7に示すような相関モデル122が相関モデル生成部102により生成され、相関モデル記憶部112に記憶されていると仮定する。また、図7に示すような検出感度が異常要因抽出部104により算出され、検出感度記憶部114に記憶されていると仮定する。
図8は、本発明の第2の実施の形態における、相関破壊の検出例と検出感度の比較例を示す図である。ここで、相関破壊は、メトリックの各ペアの相関関係に対する2つの相関関数の各々について検出される。
例えば、相関破壊検出部103は、新たに収集された性能情報に対して図8のように相関破壊を検出する。
異常要因抽出部104は、選択した相関関係の2つの相関関数の内、選択したメトリックを目的メトリックとする相関関数の目的メトリックに対する検出感度を取得する。さらに、異常要因抽出部104は選択したメトリックを非目的メトリックとする相関関数の非目的メトリックに対する検出感度を取得する(ステップS205)。そして、異常要因抽出部104は、取得した検出感度の内の大きい方の検出感度と相関破壊の検出状況の組を選択する(ステップS206)。
例えば、メトリックAが選択された場合、異常要因抽出部104は、相関関数f(A,B)の目的メトリックに対する検出感度(=0.01)、及び、相関関数f(B,A)の非目的メトリックに対する検出感度(=0.011)を取得する。そして、異常要因抽出部104は、図8に示すように、大きい方の検出感度(=0.011)と相関破壊の検出状況(検出なし)を選択する。また、異常要因抽出部104は、相関関数f(A,C)の目的メトリックに対する検出感度(=0.051)と相関破壊の検出状況(検出あり)、相関関数f(A,D)の目的メトリックに対する検出感度(=0.0012)と相関破壊の検出状況(検出なし)を選択する。
この場合、相関破壊が検出されたメトリックA、C間の相関関係の検出感度(=0.051)は、相関破壊が検出されていないメトリックA、B間の相関関係の検出感度(=0.01)、メトリックA、D間の相関関係の検出感度(=0.0012)よりも大きい。つまり、最も検出感度が高い相関関係に相関破壊が検出されている。従って、異常要因抽出部104は、メトリックAを異常要因の候補と判定する。
また、メトリックCが選択された場合、異常要因抽出部104は、図8に示すように、相関関数f(A,C)の非目的メトリックに対する検出感度(=0.11)と相関破壊の検出状況(検出あり)を選択する。また、異常要因抽出部104は、相関関数f(C、D)の目的メトリックに対する検出感度(=0.12)と相関破壊の検出状況(検出なし)を選択する。
この場合、相関破壊が検出されたメトリックA、C間の相関関係の検出感度(=0.11)は、相関破壊が検出されていないメトリックC、D間の相関関係の検出感度(=0.12)よりも小さい。つまり、最も検出感度が高い相関関係に相関破壊が検出されていない。従って、異常要因抽出部104は、メトリックCを異常要因の候補とは判定しない。
そして、異常要因抽出部104は、メトリックAを異常要因の候補として出力する。
以上により、本発明の第2の実施の形態の動作が完了する。
本発明の第2の実施の形態によれば、本発明の第1の実施の形態に比べて、異常要因をより正確に判定できる。その理由は、異常要因抽出部104が、各相関関係を表す2つの相関関数の検出感度の内、大きい方の検出感度を用いて、異常要因の候補のメトリックを抽出するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、本発明の実施の形態では、相関関数の検出感度を数3式、数4式により算出しているが、メトリックに乗じる係数に応じて大きい値が得られれば、検出感度を他の方法により決定してもよい。例えば、異常要因抽出部104は、係数に対する検出感度の変換表を用いて、検出感度を決定してもよい。また、メトリックの異常時の相関破壊の発生しやすさを示すことができれば、係数を用いる以外の方法で、検出感度を決定してもよい。
また、本発明の実施の形態では、最も検出感度が高い相関関係に相関破壊が検出されている場合に、メトリックを異常要因の候補と判定しているが、検出感度をもとに異常要因の候補を抽出できれば、他の方法により異常要因の候補を判定してもよい。例えば、異常要因抽出部104は、検出感度の大きい相関関数による相関破壊の検出数に応じて大きくなるようなスコアをもとに、異常要因の候補を判定してもよい。
また、本発明の実施の形態では、被監視システムを、サーバ装置やネットワーク装置等を被監視装置200として含むITシステムとした。しかしながら、被監視システムの相関モデルを生成し、相関破壊により異常要因を判定できれば、被監視システムは他のシステムでもよい。例えば、被監視システムは、プラントシステム、構造物、輸送機器等であってもよい。この場合、システム分析装置100は、例えば、各種センサの値をメトリックとして相関モデル122を生成し、相関破壊の検出、異常要因の候補の抽出を行う。
この出願は、2013年2月26日に出願された日本出願特願2013−035784を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、相関モデル上で検出された相関破壊によりシステムの異常や障害の要因を判定する、不変関係分析に適用できる。
100 システム分析装置
101 性能情報収集部
102 相関モデル生成部
103 相関破壊検出部
104 異常要因抽出部
111 性能情報記憶部
112 相関モデル記憶部
113 相関破壊記憶部
114 検出感度記憶部
122 相関モデル
200 被監視装置

Claims (15)

  1. システムにおけるメトリックのペアの相関関係を示す相関モデルを記憶する相関モデル記憶手段と、
    前記相関モデルに含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す検出感度をもとに、異常要因の候補のメトリックを抽出する、異常要因抽出手段と、
    を備えるシステム分析装置。
  2. 前記異常要因抽出手段は、前記相関破壊が検出された相関関係に係る各メトリックについて、当該メトリックに係る相関関係の内の最も検出感度が高い相関関係に相関破壊が検出されている場合、当該メトリックを前記異常要因の候補と判定する、
    請求項1に記載のシステム分析装置。
  3. 前記メトリックのペアの相関関係は、当該ペアの一方のメトリックの値を当該ペアの両方の時系列、または、当該ペアの他方の時系列から予測する相関関数で表され、
    前記相関関係に係るメトリックに対する当該相関関係の検出感度は、当該相関関係の相関関数において当該メトリックに乗じる係数に応じて大きくなるように決定される、
    請求項1または2に記載のシステム分析装置。
  4. 前記相関関係に係るメトリックに対する当該相関関係の検出感度は、さらに、当該相関関係の相関関数を用いて相関破壊を判定するときに適用される、予測誤差の閾値に応じて小さくなるように決定される、
    請求項3に記載のシステム分析装置。
  5. 前記メトリックのペアの相関関係は、当該ペアの各々を予測する2つの相関関数により表され、
    前記異常要因抽出手段は、前記相関破壊が検出された相関関係に係るメトリックの各相関関係を表す2つの相関関数の検出感度の内、大きい方の検出感度を用いて、前記異常要因の候補のメトリックを抽出する、
    請求項3または4に記載のシステム分析装置。
  6. システムにおけるメトリックのペアの相関関係を示す相関モデルを記憶し、
    前記相関モデルに含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す検出感度をもとに、異常要因の候補のメトリックを抽出する、
    システム分析方法。
  7. 前記異常要因の候補のメトリックの抽出において、前記相関破壊が検出された相関関係に係る各メトリックについて、当該メトリックに係る相関関係の内の最も検出感度が高い相関関係に相関破壊が検出されている場合、当該メトリックを前記異常要因の候補と判定する、
    請求項6に記載のシステム分析方法。
  8. 前記メトリックのペアの相関関係は、当該ペアの一方のメトリックの値を当該ペアの両方の時系列、または、当該ペアの他方の時系列から予測する相関関数で表され、
    前記相関関係に係るメトリックに対する当該相関関係の検出感度は、当該相関関係の相関関数において当該メトリックに乗じる係数に応じて大きくなるように決定される、
    請求項6または7に記載のシステム分析方法。
  9. 前記相関関係に係るメトリックに対する当該相関関係の検出感度は、さらに、当該相関関係の相関関数を用いて相関破壊を判定するときに適用される、予測誤差の閾値に応じて小さくなるように決定される、
    請求項8に記載のシステム分析方法。
  10. 前記メトリックのペアの相関関係は、当該ペアの各々を予測する2つの相関関数により表され、
    前記異常要因の候補のメトリックの抽出において、前記相関破壊が検出された相関関係に係るメトリックの各相関関係を表す2つの相関関数の検出感度の内、大きい方の検出感度を用いて、前記異常要因の候補のメトリックを抽出する、
    請求項8または9に記載のシステム分析方法。
  11. コンピュータに、
    システムにおけるメトリックのペアの相関関係を示す相関モデルを記憶し、
    前記相関モデルに含まれる相関関係の内の相関破壊が検出された相関関係に係る各メトリックについて算出された、当該メトリックの異常時の当該メトリックに係る各相関関係における相関破壊の発生しやすさを示す検出感度をもとに、異常要因の候補のメトリックを抽出する、
    処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  12. 前記異常要因の候補のメトリックの抽出において、前記相関破壊が検出された相関関係に係る各メトリックについて、当該メトリックに係る相関関係の内の最も検出感度が高い相関関係に相関破壊が検出されている場合、当該メトリックを前記異常要因の候補と判定する、
    処理を実行させる請求項11に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  13. 前記メトリックのペアの相関関係は、当該ペアの一方のメトリックの値を当該ペアの両方の時系列、または、当該ペアの他方の時系列から予測する相関関数で表され、
    前記相関関係に係るメトリックに対する当該相関関係の検出感度は、当該相関関係の相関関数において当該メトリックに乗じる係数に応じて大きくなるように決定される、
    請求項11または12に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  14. 前記相関関係に係るメトリックに対する当該相関関係の検出感度は、さらに、当該相関関係の相関関数を用いて相関破壊を判定するときに適用される、予測誤差の閾値に応じて小さくなるように決定される、
    請求項13に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  15. 前記メトリックのペアの相関関係は、当該ペアの各々を予測する2つの相関関数により表され、
    前記異常要因の候補のメトリックの抽出において、前記相関破壊が検出された相関関係に係るメトリックの各相関関係を表す2つの相関関数の検出感度の内、大きい方の検出感度を用いて、前記異常要因の候補のメトリックを抽出する、
    処理を実行させる請求項13または14に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
JP2015502761A 2013-02-26 2014-02-24 システム分析装置、及び、システム分析方法 Active JP6183449B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013035784 2013-02-26
JP2013035784 2013-02-26
PCT/JP2014/000949 WO2014132611A1 (ja) 2013-02-26 2014-02-24 システム分析装置、及び、システム分析方法

Publications (2)

Publication Number Publication Date
JPWO2014132611A1 true JPWO2014132611A1 (ja) 2017-02-02
JP6183449B2 JP6183449B2 (ja) 2017-08-23

Family

ID=51427890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015502761A Active JP6183449B2 (ja) 2013-02-26 2014-02-24 システム分析装置、及び、システム分析方法

Country Status (4)

Country Link
US (1) US20150378806A1 (ja)
EP (1) EP2963552B1 (ja)
JP (1) JP6183449B2 (ja)
WO (1) WO2014132611A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
JP5831558B2 (ja) * 2012-01-23 2015-12-09 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP6445859B2 (ja) * 2014-12-16 2018-12-26 株式会社東芝 プラント監視装置
EP3323046A4 (en) * 2015-07-14 2019-04-24 Sios Technology Corporation DEVICE AND METHOD FOR USING MACHINE LEARNING BASICS FOR CAUSE ANALYSIS AND CORRECTION IN COMPUTER ENVIRONMENTS
US10581665B2 (en) * 2016-11-04 2020-03-03 Nec Corporation Content-aware anomaly detection and diagnosis
CN110225540A (zh) * 2019-01-30 2019-09-10 北京中科晶上科技股份有限公司 一种面向集中式接入网的故障检测方法
WO2022018467A1 (en) * 2020-07-22 2022-01-27 Citrix Systems, Inc. Determining changes in a performance of a server

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006135412A (ja) * 2004-11-02 2006-05-25 Tokyo Gas Co Ltd 遠隔監視システム
JP2012242159A (ja) * 2011-05-17 2012-12-10 Internatl Business Mach Corp <Ibm> システムの高い可用性のためにセンサデータを補間する方法、コンピュータプログラム、システム。
WO2013111560A1 (ja) * 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6351936A (ja) 1986-08-22 1988-03-05 Hisayoshi Matsuyama プロセスの異常診断方法
WO2003005279A1 (en) * 2001-07-03 2003-01-16 Altaworks Corporation System and methods for monitoring performance metrics
US7107187B1 (en) * 2003-11-12 2006-09-12 Sprint Communications Company L.P. Method for modeling system performance
US8463899B2 (en) * 2005-07-29 2013-06-11 Bmc Software, Inc. System, method and computer program product for optimized root cause analysis
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US9195563B2 (en) * 2011-03-30 2015-11-24 Bmc Software, Inc. Use of metrics selected based on lag correlation to provide leading indicators of service performance degradation
US9298525B2 (en) * 2012-12-04 2016-03-29 Accenture Global Services Limited Adaptive fault diagnosis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006135412A (ja) * 2004-11-02 2006-05-25 Tokyo Gas Co Ltd 遠隔監視システム
JP2012242159A (ja) * 2011-05-17 2012-12-10 Internatl Business Mach Corp <Ibm> システムの高い可用性のためにセンサデータを補間する方法、コンピュータプログラム、システム。
WO2013111560A1 (ja) * 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
和泉勇治 外3名: "「相関係数発生確率行列を利用したネットワーク状態評価方式」", 電子情報通信学会論文誌, vol. 第J90-B巻, 第7号, JPN6014014064, 1 July 2007 (2007-07-01), pages 660 - 669, ISSN: 0003586660 *

Also Published As

Publication number Publication date
JP6183449B2 (ja) 2017-08-23
EP2963552B1 (en) 2021-03-24
EP2963552A4 (en) 2016-07-27
WO2014132611A1 (ja) 2014-09-04
US20150378806A1 (en) 2015-12-31
EP2963552A1 (en) 2016-01-06

Similar Documents

Publication Publication Date Title
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US9658916B2 (en) System analysis device, system analysis method and system analysis program
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP5267748B2 (ja) 運用管理システム、運用管理方法、及びプログラム
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
US10157113B2 (en) Information processing device, analysis method, and recording medium
JPWO2019073512A1 (ja) システム分析方法、システム分析装置、および、プログラム
JP6627258B2 (ja) システムモデル生成支援装置、システムモデル生成支援方法、及び、プログラム
WO2015182072A1 (ja) 因果構造推定システム、因果構造推定方法およびプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170710

R150 Certificate of patent or registration of utility model

Ref document number: 6183449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150