JPWO2013027562A1 - Operation management apparatus, operation management method, and program - Google Patents

Operation management apparatus, operation management method, and program Download PDF

Info

Publication number
JPWO2013027562A1
JPWO2013027562A1 JP2012069931A JP2013529952A JPWO2013027562A1 JP WO2013027562 A1 JPWO2013027562 A1 JP WO2013027562A1 JP 2012069931 A JP2012069931 A JP 2012069931A JP 2013529952 A JP2013529952 A JP 2013529952A JP WO2013027562 A1 JPWO2013027562 A1 JP WO2013027562A1
Authority
JP
Japan
Prior art keywords
abnormality
score
correlation
metric
metrics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012069931A
Other languages
English (en)
Other versions
JP5621937B2 (ja
Inventor
英男 長谷川
英男 長谷川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2011182261 priority Critical
Priority to JP2011182261 priority
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2013529952A priority patent/JP5621937B2/ja
Application granted granted Critical
Publication of JP5621937B2 publication Critical patent/JP5621937B2/ja
Publication of JPWO2013027562A1 publication Critical patent/JPWO2013027562A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Abstract

システムにおいて継続性のある異常が発生しているメトリックを容易に把握できる運用管理装置を提供する。運用管理装置100は、メトリック収集部101と異常スコア算出部104とを含む。メトリック収集部101は、システムにおける複数メトリックの計測値をそれぞれ時系列に記憶する。また、異常スコア算出部104は、複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する。Provided is an operation management apparatus capable of easily grasping a metric in which a continuous abnormality occurs in a system. The operation management apparatus 100 includes a metric collection unit 101 and an abnormal score calculation unit 104. The metric collection unit 101 stores measurement values of a plurality of metrics in the system in time series. Further, the abnormality score calculation unit 104 calculates and outputs an abnormality score of the metric based on the continuity indicating the continuity of the abnormality at each time of the measurement values of the plurality of metrics.

Description

本発明は、運用管理装置、運用管理方法、及びプログラムに関し、特にシステムの異常を検出する運用管理装置、運用管理方法、及びプログラムに関する。   The present invention relates to an operation management apparatus, an operation management method, and a program, and more particularly, to an operation management apparatus, an operation management method, and a program for detecting a system abnormality.

IT(Information Technology)システムでは、管理者がシステムを監視し、システムに異常が発生したと認められる場合には、検出された異常に優先順位をつけて対処することにより、システム停止などの致命的な状態を回避する。
このようなITシステムの異常を検出する運用管理システムの一例が、特許文献1及び2に記載されている。特許文献1及び2記載の運用管理システムは、システムの複数のメトリック(性能指標)の計測値をもとに、メトリックの組み合わせの各々に対して相関関係を検出し、相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、入力されたメトリックの計測値に対して相関関係の破壊が発生しているかどうかを判定し、システムの異常を検出する。
この運用管理システムでは、管理者がシステムの異常有無を判別するため、相関破壊数の時間経過を示すグラフを出力する。また、ある時刻における異常の詳細として、異常が検出されたメトリック(異常メトリック)のリストを、異常スコアとともに出力する。
なお、関連技術として、特許文献3には、システムのリソース項目の中から、統計手法を用いて監視項目、及び、閾値を検出する監視装置が開示されている。
In the IT (Information Technology) system, the administrator monitors the system, and when it is recognized that an abnormality has occurred in the system, the detected abnormality is prioritized and dealt with by a fatal event such as system shutdown. Avoid bad situations.
An example of an operation management system that detects such an abnormality in the IT system is described in Patent Documents 1 and 2. The operation management systems described in Patent Documents 1 and 2 detect a correlation for each combination of metrics based on measurement values of a plurality of metrics (performance indicators) of the system, and generate a correlation model. The operation management system then uses the generated correlation model to determine whether or not a correlation is broken with respect to the input metric measurement value, and detects an abnormality in the system.
In this operation management system, the administrator outputs a graph indicating the elapsed time of the number of correlation destructions in order to determine whether the system is abnormal. Further, as a detail of the abnormality at a certain time, a list of metrics (abnormal metrics) in which the abnormality is detected is output together with the abnormality score.
As related technology, Patent Document 3 discloses a monitoring device that detects a monitoring item and a threshold value using a statistical method from among resource items of the system.

特開2009−199533号公報JP 2009-199533 A 特開2010−186310号公報JP 2010-186310 A 特開2003−263342号公報JP 2003-263342 A

上述の特許文献1及び2に記載の運用管理システムでは、システムの規模が大きくなるとメトリックの数が増え、異常メトリックも大量に提示される。異常メトリックには、バックグラウンド処理等に起因した短時間で終了する異常のように、本来管理者が注目する必要がない重要度(緊急度)の低い異常が発生しているメトリックも含まれるが、このように大量の異常メトリックが発生した場合、長時間継続して発生している異常のように、重要度(緊急度)の高い異常が発生しているメトリックを把握することが難しくなるという問題がある。
本発明の目的は、上述の課題を解決し、システムにおける継続性のある異常が発生しているメトリックを容易に把握できる運用管理装置、運用管理方法、及びプログラムを提供することである。
In the operation management systems described in Patent Documents 1 and 2 described above, as the system scale increases, the number of metrics increases and a large number of abnormal metrics are presented. The anomaly metrics include metrics that have anomalies of low importance (emergency) that the administrator does not need to pay attention to, such as an anomaly that ends in a short time due to background processing, etc. When a large number of abnormal metrics occur in this way, it is difficult to grasp the metrics that have abnormalities with a high degree of importance (emergency) such as abnormalities that have occurred for a long time. There's a problem.
An object of the present invention is to provide an operation management apparatus, an operation management method, and a program that can solve the above-described problems and can easily grasp a metric in which a continuity abnormality occurs in a system.

本発明の一態様における運用管理装置は、システムにおける複数メトリックの計測値をそれぞれ時系列に収集するメトリック収集手段と、前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する異常スコア算出手段と、を含む。
本発明の一態様における運用管理方法は、システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する処理を実行させるプログラムを格納する。
An operation management apparatus according to an aspect of the present invention includes a metric collecting unit that collects measurement values of a plurality of metrics in a system in time series, and a continuity level indicating a degree of abnormality continuation at each time of the measurement values of the plurality of metrics. And an abnormal score calculating means for calculating and outputting an abnormal score of the metric.
The operation management method according to an aspect of the present invention collects measurement values of a plurality of metrics in the system in time series, and based on the continuity indicating the degree of abnormality continuity at each time of the measurement values of the plurality of metrics. The abnormal score of the metric is calculated and output.
The computer-readable recording medium according to one embodiment of the present invention is a computer-readable recording medium that collects measurement values of a plurality of metrics in the system in time series, and determines the continuity of abnormality at each time of the measurement values of the plurality of metrics. Based on the degree of continuity shown, a program for calculating an abnormality score for the metric and outputting it is stored.

本発明の効果は、システムにおける継続性のあるメトリックの異常を容易に把握できることである。   The effect of the present invention is that a continuity metric abnormality in the system can be easily grasped.

本発明の第1の実施の形態の特徴的な構成を示すブロック図である。It is a block diagram which shows the characteristic structure of the 1st Embodiment of this invention. 本発明の第1の実施の形態における運用管理装置100を適用した運用管理システムの構成を示すブロック図である。It is a block diagram which shows the structure of the operation management system to which the operation management apparatus 100 in the 1st Embodiment of this invention is applied. 本発明の第1の実施の形態における運用管理装置100の処理を示すフローチャートであるIt is a flowchart which shows the process of the operation management apparatus 100 in the 1st Embodiment of this invention. 本発明の第1の実施の形態における性能系列情報121の例を示す図である。It is a figure which shows the example of the performance series information 121 in the 1st Embodiment of this invention. 本発明の第1の実施の形態における相関モデル122の例を示す図である。It is a figure which shows the example of the correlation model 122 in the 1st Embodiment of this invention. 本発明の第1の実施の形態における残差の例を示す図である。It is a figure which shows the example of the residual in the 1st Embodiment of this invention. 本発明の第1の実施の形態における相関変化情報123の例を示す図である。It is a figure which shows the example of the correlation change information 123 in the 1st Embodiment of this invention. 本発明の第1の実施の形態における異常スコアの算出過程を示す図である。It is a figure which shows the calculation process of the abnormal score in the 1st Embodiment of this invention. 本発明の第1の実施の形態における異常スコアの算出結果を示す図である。It is a figure which shows the calculation result of the abnormality score in the 1st Embodiment of this invention. 本発明の第1の実施の形態における解析結果130の例を示す図である。It is a figure which shows the example of the analysis result 130 in the 1st Embodiment of this invention. 本発明の第2の実施の形態における運用管理装置100の処理を示すフローチャートである。It is a flowchart which shows the process of the operation management apparatus 100 in the 2nd Embodiment of this invention. 本発明の第2の実施の形態におけるグループ異常スコアの算出結果を示す図である。It is a figure which shows the calculation result of the group abnormality score in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における解析結果140の例を示す図である。It is a figure which shows the example of the analysis result 140 in the 2nd Embodiment of this invention.

(第1の実施の形態)
次に、本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における運用管理装置100を適用した運用管理システムの構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態における運用管理システムは、運用管理装置100、1以上の被監視装置200、及び、監視端末300を含む。運用管理装置100と被監視装置200は、ネットワークにより接続される。また、運用管理装置100と監視端末300も、ネットワークにより接続される。
被監視装置200は、WebサーバやDatabaseサーバ等、システムを構成する装置である。被監視装置200の各々は、監視エージェント201を含む。
被監視装置200の監視エージェント201は、被監視装置200の複数種目の性能値の実測データ(計測値)を一定間隔毎に計測し、運用管理装置100へ送信する。性能値の種目として、例えば、CPU(Central Processing Unit)使用率、メモリ使用率、ディスクアクセス頻度等、コンピュータリソースの使用率や使用量用いられる。
ここで、被監視装置200と性能値の種目の組をメトリック(性能指標)とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。メトリックは、整数や小数の数値より表される。また、メトリックは、特許文献1における要素に相当する。
運用管理装置100は、監視対象である被監視装置200から収集した性能情報をもとに、被監視装置200についての相関モデル122を生成し、生成した相関モデル122を用いて、被監視装置200の障害や異常の検出を行う。
運用管理装置100は、メトリック収集部101、相関モデル生成部102、相関変化分析部103、異常スコア算出部104、メトリック記憶部111、相関モデル記憶部112、及び、相関変化記憶部113を含む。
メトリック収集部101は、被監視装置200から性能情報を収集し、その時系列変化を性能系列情報121としてメトリック記憶部111に保存する。
相関モデル生成部102は、性能系列情報121をもとに、被監視装置200により構成されるシステムの相関モデル122を生成する。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデル122を記憶する。
相関変化分析部103は、特許文献1と同様に、新たに入力された性能情報について、相関モデル122に含まれる各メトリックの組み合わせに対する相関関係の異常を検出する。
相関変化記憶部113は、相関変化分析部103による相関関係の異常の検出結果を相関変化情報123として記憶する。
異常スコア算出部104は、相関変化情報123をもとに、各メトリックの異常スコアを算出し、監視端末300に出力する。
監視端末300は、運用管理装置100が、管理者等から被監視装置200の障害や異常の検出指示を受け付け、その検出結果を出力するための端末である。監視端末300は、表示部301を含む。
監視端末300の表示部301は、例えば、ディスプレイ等の表示デバイスであり、運用管理装置100により出力された異常スコアを、表示画面により、管理者等に出力(表示)する。
なお、運用管理装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、メトリック記憶部111、相関モデル記憶部112、及び、相関変化記憶部113は、それぞれ個別の記憶媒体でも、一つの記憶媒体によって構成されてもよい。
次に、本発明の第1の実施の形態における運用管理装置100の動作について説明する。
図3は、本発明の第1の実施の形態における運用管理装置100の処理を示すフローチャートである。
はじめに、運用管理装置100のメトリック収集部101は、被監視装置200上の監視エージェント201により計測された性能情報を収集し、メトリック記憶部111に保存する(ステップS101)。
図4は、本発明の第1の実施の形態における性能系列情報121の例を示す図である。図4の例では、性能系列情報121は、メトリックx_1、x_2、x_3…(以下、″_″に続く文字は、添え字を示す)の計測値の時系列変化を含む。
例えば、メトリック収集部101は、図4の性能系列情報121を保存する。
次に、相関モデル生成部102は、メトリック記憶部111の性能系列情報121を参照し、管理者等により指定された、所定のモデル化期間の性能情報をもとに、相関モデル122を生成し、相関モデル記憶部112に保存する(ステップS102)。
ここで、相関モデル122は、複数のメトリックの内の2つのメトリックの全組み合わせの各々についての、相関関数(または、変換関数)と閾値とを含む。
相関関数は、各メトリックの組み合わせについて、所定のモデル化期間(t_s≦t≦t_e、tは時刻)の計測値の時系列データに対して成り立つ相関関係を、所定の近似式で記述したものである。メトリックx_iからメトリックx_jへの相関関係についての相関関数をf_i,jとした場合、メトリックの組み合わせの内の一方のメトリックx_jの推定値は、他方のメトリックx_iの計測値から、相関関数f_i,jを用いて、数1式のように表される。
相関モデル生成部102は、所定のモデル化期間の性能系列情報121に基づいて、各メトリックの組み合わせについて、相関関数の係数を決定する。相関関数の係数は、特許文献1と同様に、上述のメトリックの計測値の時系列に対する、システム同定処理によって決定される。
閾値は、各メトリックの組み合わせについて、所定のモデル化期間における、相関関数による残差(変換誤差、または、予測誤差)の最大値である。ここで、残差は、相関関数用いて算出されたメトリックの推定値と、当該メトリックの計測値との差分の絶対値である。
メトリックx_iからメトリックx_jへの相関関係についての閾値Th_i,j、残差d_i,j(t)は、数2式により表現される。
なお、abs()は、括弧内の値の絶対値を示す。
ここで、被監視装置200が正常である限り、残差d_i,j(t)の値は極めて小さく、閾値Th_i,jを超えないものと仮定する。
相関モデル生成部102は、特許文献1と同様に、所定のモデル化期間の残差をもとに、各メトリックの組み合わせについて、相関関数の重みを算出し、重みが所定値以上の相関関数とその閾値の集合を相関モデル122としてもよい。
図5は、本発明の第1の実施の形態における相関モデル122の例を示す図である。図5の例では、相関モデル122は、メトリックx_1、x_2、x_3、…の間の相関関数と閾値を含む。
例えば、相関モデル生成部102は、図4の性能系列情報121をもとに、図5に示すような相関モデル122を生成する。
次に、相関変化分析部103は、各時刻において、メトリック収集部101により新たに収集された性能情報に対して、相関モデル122に含まれる相関関係の異常を検出し、相関変化情報123を相関変化記憶部113に保存する(ステップS103)。
ここで、相関変化分析部103は、特許文献1と同様に、新たに入力された性能情報について、相関モデル122に含まれる各相関関係に関し、異常(相関破壊)の有無を判定する。
相関関係の異常の度合いを示す異常度は、新たに入力された性能情報と相関モデル122とを用いて算出される残差により示される。相関変化分析部103は、残差、及び、閾値を用いて、メトリックx_iからメトリックx_jへの相関関係についての異常の有無を、数3式により判定する。
図6は、本発明の第1の実施の形態における残差の例を示す図である。図6の例では、メトリックx_jの推定値と計測値に関する残差の閾値に対する割合が1を超えている場合、メトリックx_iからメトリックx_jへの相関関係に異常があると判定されている。
図7は、本発明の第1の実施の形態における相関変化情報123の例を示す図である。相関変化情報123は、各メトリックの組み合わせについて、各時刻における残差の閾値に対する割合(d_i,j(t)/Th_i,j)、及び、異常の有無を含む。
例えば、相関モデル生成部102は、新たに収集された性能情報に対して、図5に示す相関モデル122に含まれる相関関係の異常を検出し、図7のような相関変化情報123を保存する。
次に、異常スコア算出部104は、各時刻において、相関変化情報123をもとに、各メトリックの異常スコアを算出する(ステップS104)。
ここで、異常スコアは、各メトリックに関する相関関係の異常の度合い(残差)、及び、異常の継続度合いをもとに算出される。異常スコア算出部104は、メトリックx_iの異常スコアS_i(t)を、数4式により算出する。
ここで、average_i()は、メトリックx_iから相関関係がある他のメトリックとの間の相関関係のすべてに対して括弧内の値を算出し、その平均値を求めることを示す。例えば、メトリックx_1からx_2、x_3、x_4との間に相関関係がある場合、括弧内の値の、これらの相関関係についての平均値が算出される。
また、c_i,j(t)は、異常の継続度合いを示す異常継続度であり、時刻t以前の所定期間において、相関関係に異常が検出された期間の割合を示す。
step(y)は、ステップ関数であり、数3式により算出される残差の閾値に対する割合が1未満、すなわち、相関関係が正常な場合、0である。したがって、メトリックx_iから相関関係がある他のメトリックとの間の相関関係のすべてが正常な場合、異常スコアS_i(t)は0である。
図8は、本発明の第1の実施の形態における異常スコアの算出過程を示す図である。図9は、本発明の第1の実施の形態における異常スコアの算出結果を示す図である。
例えば、異常スコア算出部104は、各時刻において、図7の相関変化情報123をもとに、図8のように異常継続度を算出し、図9のように異常スコアを算出する。
図9の異常スコアの算出結果では、例えば、時刻12:30において、メトリックx_1の異常スコアが、メトリックx_2、x_3の異常スコアよりも大きく、メトリックx_1の異常度が大きい、あるいは、異常が継続している可能性が高いことを示している。
次に、異常スコア算出部104は、各時刻において、各メトリックの異常スコアを含む解析結果130を生成し、監視装置300に出力する(ステップS105)。監視端末300の表示部301は、解析結果130を管理者等に表示する。
図10は、本発明の第1の実施の形態における解析結果130の例を示す図である。図10の例では、解析結果130は、異常相関率表示部131、異常相関表示部132、及び、異常スコア表示部133を含む。
例えば、異常スコア算出部104は、図10の解析結果130を監視端末300に送信する。
異常相関率表示部131は、相関モデル122に含まれる相関関係の内、異常と判定された相関関係の割合の経時変化を示す。管理者等は、異常相関率表示部131を参照し、被監視装置200において、相関関係の異常が多発した時刻を把握することができる。
異常相関表示部132は、相関モデル122上で異常と判定された相関関係を示す。異常相関表示部132では、相関モデル122の各メトリックが、当該メトリックの識別子(名前)とともに円で示され、異常と判定された相関関係は、円と円を結ぶ実線で示される。異常相関表示部132は、例えば、異常相関率表示部131上で管理者等により指定された時刻に関して、異常と判定された相関関係を表示する。また、異常相関表示部132は、新たな性能情報が収集される度に、最新の収集時刻に関して、異常と判定された相関関係を表示してもよい。管理者等は、異常相関表示部132を参照し、被監視装置200において、異常が集中するメトリックを把握することができる。
異常スコア表示部133は、各メトリックの異常スコアを示す。各メトリックは、所定の矩形領域内に、当該メトリックの識別子とともに円で示され、異常スコアが大きいほど、円の大きさ(半径)は大きくなる。また、異常スコアが大きいほど、円は、矩形領域の上部に表示される。
異常スコア算出部104は、このように、異常スコアに応じて大きくなる円の大きさ、及び、前記異常スコアに応じて高くなる、矩形領域の底辺に対する垂直軸上の底辺からの高さを決定し、当該円が、当該大きさで、当該高さに表示されるように、異常スコア表示部133として表示されるデータを生成する。
異常スコア表示部133は、例えば、異常相関率表示部131上で管理者等により指定された時刻に関して、異常スコアを表示してもよい。また、異常スコア表示部133は、新たな性能情報が収集される度に、最新の収集時刻に関して、異常スコアを表示してもよい。
また、異常スコアは、数4式に示したように、相関関係の異常度(残差)に異常継続度を乗じることにより算出される。異常継続度は、異常スコアを算出する時刻以前の所定期間において、異常が検出された期間の割合であるため、異常の発生が続くと、時間の経過とともに異常スコアが次第に大きくなり、異常の発生が止まると、時間の経過とともに異常スコアが次第に小さくなる。このため、異常スコア表示部133では、メトリックに関する異常の発生が続くと、当該メトリックの円が次第に大きくなりつつ矩形領域の中を上昇し、異常の発生が止まると、当該メトリックの円が次第に小さくなりつつ矩形領域の中を下降する。すなわち、異常スコア表示部133では、各メトリックの異常スコアが、風船や泡のような浮力を得た物体の移動と同様な移動で表示される。なお、矩形領域中の円の上昇、下降は、よく知られるアルキメデスの原理に従っていてもよい。
図10の解析結果130では、時刻12:30において、メトリックx_1を示す円が、他のメトリックの円より大きく、上部に表示されている。これにより、管理者等は、メトリックx_1の異常度が大きい、あるいは、異常が継続している可能性が高いことを容易に把握することができる。
また、図9の異常スコアの算出結果では、メトリックx_1の異常は、時刻12:20から時刻12:40の間継続し、異常スコアは時刻12:30において最大となる。この場合、異常スコア表示部133では、メトリックx_1を示す円が、時刻12:20から時刻12:30に大きくなりつつ上昇し、時刻12:30から時刻12:40に小さくなりつつ下降する。これにより、管理者等は、メトリックx_1の異常の継続が開始された、あるいは、継続が停止した可能性を容易に把握することができる。
以上により、本発明の第1の実施の形態の動作が完了する。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、本発明の第1の実施の形態の運用管理装置100は、メトリック収集部101と異常スコア算出部104とを含む。
ここで、メトリック収集部101は、システムにおける複数メトリックの計測値をそれぞれ時系列に収集する。また、異常スコア算出部104は、複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する。
次に、本発明の第1の実施の形態の効果を記載する。
特許文献1に記載された技術では、ある時刻におけるメトリックx_iの異常スコアは、メトリックx_iから他のメトリックへの相関関係の内、当該時刻において異常と判定された相関関係の数をもとに算出され、異常メトリックのリストが異常スコアとともに表示される。管理者等は、異常メトリックのリストをもとに、異常スコアの高いメトリックの異常に対する対処を優先的に行う。この場合、管理者等は、当該メトリックの異常が継続的であるか、一時的であるかを把握できないため、当該メトリックの異常が一時的であっても優先的に対処する可能性がある。また、管理者等は、当該メトリックの異常が継続的であるか、一時的であるかを把握するために、例えば、異常メトリックのリストを、当該時刻の前後の時刻と比較する必要がある。
本発明の本発明の第1の実施の形態によれば、システムにおける継続性のあるメトリックの異常を容易に把握できる。その理由は、異常スコア算出部104が、メトリックの各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出するためである。また、異常スコア算出部104が、各メトリックの異常スコアを、異常スコアに応じた大きさ、及び、表示位置を有する図形で表示するためである。
これにより、管理者等は、継続的に発生しているメトリックの異常に対する対処を優先的に行うことができ、特許文献1の技術のみを用いる場合に比べ、システムの安定的な運用が期待できる。
また、これにより、管理者等は、メトリックの異常が継続的であるかどうかを調べるために、各時刻における異常メトリックのリストを比較する必要はなく、継続的な異常の把握における管理者等の負担軽減や、見逃しの防止が期待できる。
また、本発明の第1の実施の形態によれば、メトリックの異常の継続が開始された、あるいは、停止したことを容易に把握できる。その理由は、上述のように、異常スコア算出部104が、各メトリックの異常スコアを、異常スコアに応じた大きさ、及び、表示位置を有する図形で表示するためである。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態においては、異常スコア算出部104が、異常検出の開始時刻が同一であるメトリックをグループ化する点において、本発明の第1の実施の形態と異なる。
本発明の第2の実施の形態の構成は、本発明の第1の実施の形態と同様となる。
次に、本発明の第2の実施の形態における運用管理装置100の動作について説明する。
図11は、本発明の第2の実施の形態における運用管理装置100の処理を示すフローチャートである。ここで、メトリック収集部101が性能情報を収集してから、異常スコア算出部104が、各メトリックの異常スコアを算出するまでの動作(ステップS201〜S204)は、本発明の第1の実施の形態の動作(ステップS101〜S104)と同様となる。
異常スコア算出部104は、上述のステップS104で、算出された各メトリックの異常スコアを参照し、異常検出の開始時刻が同一であるメトリックをグループ化する(ステップS205)。ここで、異常検出の開始時刻が同一であるメトリックとは、異常スコアが0から0より大きい値に変わった時刻が同一のメトリックである。そして、異常スコア算出部104は、グループ化されたメトリックの異常スコアを合計することにより、各グループの異常スコアであるグループ異常スコアを算出する(ステップS206)。
図12は、本発明の第2の実施の形態におけるグループ異常スコアの算出結果を示す図である。
例えば、異常スコア算出部104は、各時刻において、図9の異常スコアをもとに、図12のグループ異常スコアを算出する。
この場合、異常スコア算出部104は、時刻12:20の異常スコアをもとに、当該時刻に異常検出が開始されたメトリックx_1のみからなるグループAを生成する。グループAは、時刻12:40まで継続する。また、異常スコア算出部104は、時刻12:30の異常スコアをもとに、当該時刻に異常検出が開始されたメトリックx_2とx_3からなるグループBを生成する。グループBは、時刻12:30で終了する。そして、異常スコア算出部104は、各グループに含まれるメトリックの異常スコアをもとに、図12のようにグループ異常スコアを算出する。
図12のグループ異常スコアの算出結果では、メトリックx_2の異常検出開始時刻とx_3の異常検出開始時刻とが同一であり、メトリックx_2の異常とx_3の異常とは、共通の異常事象に起因した異常の可能性があり、関連性が高いことを示している。また、メトリックx_1の異常検出開始時刻とメトリックx_2、x_3の異常検出開始時刻とは異なることを示している。
異常スコア算出部104は、各時刻において、各グループのグループ異常スコアを含む解析結果140を生成し、監視装置300に出力する(ステップS207)。
図13は、本発明の第2の実施の形態における解析結果140の例を示す図である。図13の例では、解析結果140は、異常相関率表示部141、異常相関表示部142、及び、異常スコア表示部143を含む。
異常相関率表示部141、異常相関表示部142は、本発明の第1の実施の形態の異常相関率表示部131、異常相関表示部132と同様に、それぞれ、異常と判定された相関関係の割合、相関モデル122上での異常と判定された相関関係を示す。
異常スコア表示部143は、各グループのグループ異常スコアを示す。各グループは、所定の矩形領域内に、当該グループに含まれるメトリックの識別子とともに円で示され、本発明の第1の実施の形態と同様に、異常スコアが大きいほど、円の大きさは大きくなり、矩形領域の上部に表示される。
本発明の第1の実施の形態における、図10の解析結果130では、時刻12:30において、メトリックx_2、x_3は、それぞれ異常の継続性がなく、異常スコアがメトリックx_1に比べて低いため、メトリックx_2、x_3を示す円は、それぞれ、異常スコア表示部133の下部に小さく表示される。
一方、本発明の第2の実施の形態における、図13の解析結果140では、時刻12:30において、メトリックx_1からなるグループを示す円と同様に、メトリックx_2、x_3からなるグループを示す円が、他のグループの円より大きく、異常スコア表示部143の上部に表示される。
これにより、管理者等は、メトリックx_2、x_3の関連性が高いことと、それらの異常度の総和が大きい、あるいは、それらの異常が継続している可能性が高いこととを容易に把握することができる。
以上により、本発明の第2の実施の形態の動作が完了する。
次に、本発明の第2の実施の形態の効果を記載する。
ある一つの異常事象により複数のメトリックが異常な値となった場合、当該複数のメトリックの異常が同じ時刻に発生することがある。特許文献1の技術では、管理者等は、このような異常事象を把握するために、例えば、異常メトリックのリストの時間的な変化をもとに、異常メトリック間の時間的な関連性を確認し、同じ時刻に発生する異常メトリックを抽出する必要がある。また、異常事象を特定するために、異常が発生した相関関係に関してシグネチャマッチングを適用する方法も提案されている。しかしながら、未知の異常事象に対しては、相関関係に関するシグネチャの蓄積が無く、シグネチャマッチングを適用することはできない。
本発明の本発明の第2の実施の形態によれば、同じ時刻に発生する異常メトリックを容易に把握できる。その理由は、異常スコア算出部104が、異常検出の開始時刻が同一であるメトリックをグループ化し、各グループのグループ異常スコアを算出するためである。
これにより、管理者等は、共通の異常事象に起因した異常を、迅速に把握でき、システムのより安定的な運用が期待できる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、本発明の実施の形態では、システムにおける性能指標をメトリックとし、メトリックの異常スコアを算出しているが、これに限らず、メトリックは、システムにおけるクライアントコンピュータからの要求量や、システムを介して単位時間あたりに処理される貨物の数等、システムに関して時系列で表される指標であれば、どのような指標でもよい。
また、本発明の実施の形態では、メトリックの異常度合いとして、当該メトリックに関する相関関係の異常(相関破壊)の度合いを用いているが、これに限らず、メトリックの異常度合いは、メトリックの値の所定の閾値に対する超過(閾値異常)の度合い等、他の異常度を用いてもよい。
また、本発明の実施の形態では、相関モデル122における閾値を、各メトリックの組み合わせについて、相関関数による残差の最大値をもとに算出しているが、閾値は、各メトリックの組み合わせについて定義された所定値、または、相関モデル122について定義された所定値でもよい。
また、本発明の実施の形態では、異常スコアを数4式により算出しているが、異常スコアが、メトリックの異常の継続度合いに応じて増加するのであれば、他の数式を用いて異常スコアを算出してもよい。例えば、数4式において、メトリックに関する相関関係の異常度(残差)を用いずに、当該メトリックに関する相関関係の異常継続度のみを用いて、異常スコアを算出してもよい。
また、本発明の実施の形態では、解析結果130、140において、異常スコアの大きさをメトリックを表す円の大きさ、及び、所定の矩形領域内での当該円が表示される高さで示しているが、これに限らず、異常スコアの大きさを示すことができれば、他の形状の図形や、他の表示位置により示してもよい。例えば、異常スコアの大きさを楕円や球等、円以外の図形の大きさにより表示してもよい。また、異常スコアの大きさを、円や台形等、矩形以外の所定の形状において定義された垂直軸上の所定の基準点からの高さで示してもよい。
また、異常スコアの大きさを、地平面に対する垂直軸上の、所定の基準点からの高さで示してもよい。この場合、表示部301が地平面に対して傾いて配置されていても、各メトリックを表す図形は、異常スコアに応じて、地平面に対して垂直方向に上昇または下降する。すなわち、各メトリックを表す図形の移動は、実際の浮力を得た物体の移動により近くなる。これにより、管理者等は、各メトリックの異常スコアの変化を、より容易に把握することができる。
この出願は、2011年8月24日に出願された日本出願特願2011−182261を基礎とする優先権を主張し、その開示の全てをここに取り込む。
(First embodiment)
Next, a first embodiment of the present invention will be described.
First, the configuration of the first exemplary embodiment of the present invention will be described. FIG. 2 is a block diagram showing a configuration of an operation management system to which the operation management apparatus 100 according to the first embodiment of the present invention is applied.
Referring to FIG. 2, the operation management system in the first exemplary embodiment of the present invention includes an operation management device 100, one or more monitored devices 200, and a monitoring terminal 300. The operation management apparatus 100 and the monitored apparatus 200 are connected by a network. The operation management apparatus 100 and the monitoring terminal 300 are also connected by a network.
The monitored device 200 is a device that constitutes a system, such as a Web server or a Database server. Each monitored device 200 includes a monitoring agent 201.
The monitoring agent 201 of the monitored apparatus 200 measures actual measurement data (measured values) of a plurality of types of performance values of the monitored apparatus 200 at regular intervals and transmits them to the operation management apparatus 100. As the performance value item, for example, the usage rate and usage amount of a computer resource such as a CPU (Central Processing Unit) usage rate, a memory usage rate, and a disk access frequency are used.
Here, a combination of the monitored device 200 and the item of performance value is a metric (performance index), and a set of a plurality of metric values measured at the same time is performance information. Metrics are represented by integers and decimal numbers. The metric corresponds to an element in Patent Document 1.
The operation management apparatus 100 generates a correlation model 122 for the monitored apparatus 200 based on the performance information collected from the monitored apparatus 200 to be monitored, and uses the generated correlation model 122 to monitor the monitored apparatus 200. Detect faults and abnormalities.
The operation management apparatus 100 includes a metric collection unit 101, a correlation model generation unit 102, a correlation change analysis unit 103, an abnormal score calculation unit 104, a metric storage unit 111, a correlation model storage unit 112, and a correlation change storage unit 113.
The metric collection unit 101 collects performance information from the monitored apparatus 200 and stores the time series change in the metric storage unit 111 as performance series information 121.
The correlation model generation unit 102 generates a correlation model 122 of a system configured by the monitored device 200 based on the performance series information 121.
The correlation model storage unit 112 stores the correlation model 122 generated by the correlation model generation unit 102.
Similar to Patent Document 1, the correlation change analysis unit 103 detects an abnormality in the correlation with respect to a combination of metrics included in the correlation model 122 with respect to newly input performance information.
The correlation change storage unit 113 stores a correlation abnormality detection result by the correlation change analysis unit 103 as correlation change information 123.
The abnormal score calculation unit 104 calculates an abnormal score for each metric based on the correlation change information 123 and outputs the abnormal score to the monitoring terminal 300.
The monitoring terminal 300 is a terminal for the operation management apparatus 100 to receive an instruction to detect a failure or abnormality of the monitored apparatus 200 from an administrator or the like and output the detection result. The monitoring terminal 300 includes a display unit 301.
The display unit 301 of the monitoring terminal 300 is a display device such as a display, for example, and outputs (displays) the abnormality score output by the operation management apparatus 100 to an administrator or the like on a display screen.
Note that the operation management apparatus 100 may be a computer that includes a CPU and a storage medium that stores a program and that operates by control based on the program. In addition, the metric storage unit 111, the correlation model storage unit 112, and the correlation change storage unit 113 may be configured as individual storage media or a single storage medium.
Next, the operation of the operation management apparatus 100 in the first embodiment of the present invention will be described.
FIG. 3 is a flowchart showing processing of the operation management apparatus 100 according to the first embodiment of this invention.
First, the metric collection unit 101 of the operation management apparatus 100 collects performance information measured by the monitoring agent 201 on the monitored apparatus 200 and stores it in the metric storage unit 111 (step S101).
FIG. 4 is a diagram illustrating an example of the performance sequence information 121 according to the first embodiment of this invention. In the example of FIG. 4, the performance series information 121 includes time-series changes in measured values of metrics x_1, x_2, x_3... (Hereinafter, the characters following “_” indicate subscripts).
For example, the metric collection unit 101 stores the performance sequence information 121 of FIG.
Next, the correlation model generation unit 102 refers to the performance series information 121 of the metric storage unit 111 and generates a correlation model 122 based on the performance information of a predetermined modeling period specified by an administrator or the like. And stored in the correlation model storage unit 112 (step S102).
Here, the correlation model 122 includes a correlation function (or conversion function) and a threshold value for each of all combinations of two metrics among the plurality of metrics.
The correlation function describes a correlation that holds for time-series data of measured values in a predetermined modeling period (t_s ≦ t ≦ t_e, t is time) for each metric combination by a predetermined approximate expression. is there. When the correlation function for the correlation from the metric x_i to the metric x_j is f_i, j, the estimated value of one metric x_j in the metric combination is obtained from the measured value of the other metric x_i by the correlation function f_i, j. It is expressed as the following equation (1).
The correlation model generation unit 102 determines a coefficient of a correlation function for each metric combination based on the performance series information 121 for a predetermined modeling period. Similar to Patent Document 1, the coefficient of the correlation function is determined by the system identification process for the time series of the measurement values of the metric described above.
The threshold is the maximum value of the residual (conversion error or prediction error) due to the correlation function in a predetermined modeling period for each metric combination. Here, the residual is the absolute value of the difference between the estimated value of the metric calculated using the correlation function and the measured value of the metric.
The threshold Th_i, j and the residual d_i, j (t) for the correlation from the metric x_i to the metric x_j are expressed by the following equation (2).
Note that abs () indicates the absolute value of the value in parentheses.
Here, as long as the monitored apparatus 200 is normal, it is assumed that the value of the residual d_i, j (t) is extremely small and does not exceed the threshold Th_i, j.
Similar to Patent Document 1, the correlation model generation unit 102 calculates the weight of the correlation function for each metric combination based on the residual of the predetermined modeling period, The set of threshold values may be used as the correlation model 122.
FIG. 5 is a diagram illustrating an example of the correlation model 122 according to the first embodiment of this invention. In the example of FIG. 5, the correlation model 122 includes a correlation function and a threshold value between metrics x_1, x_2, x_3,.
For example, the correlation model generation unit 102 generates a correlation model 122 as shown in FIG. 5 based on the performance sequence information 121 of FIG.
Next, the correlation change analysis unit 103 detects an abnormality in the correlation included in the correlation model 122 with respect to the performance information newly collected by the metric collection unit 101 at each time, and correlates the correlation change information 123. The change is stored in the change storage unit 113 (step S103).
Here, similarly to Patent Document 1, the correlation change analysis unit 103 determines whether there is an abnormality (correlation destruction) for each correlation included in the correlation model 122 with respect to newly input performance information.
The degree of abnormality indicating the degree of abnormality of the correlation is indicated by a residual calculated using newly input performance information and the correlation model 122. The correlation change analysis unit 103 determines whether or not there is an abnormality in the correlation from the metric x_i to the metric x_j using the residual and the threshold, using Equation 3.
FIG. 6 is a diagram illustrating an example of a residual in the first embodiment of the present invention. In the example of FIG. 6, when the ratio of the estimated value of the metric x_j and the residual difference regarding the measured value is greater than 1, it is determined that there is an abnormality in the correlation from the metric x_i to the metric x_j.
FIG. 7 is a diagram illustrating an example of the correlation change information 123 according to the first embodiment of this invention. The correlation change information 123 includes, for each metric combination, a ratio (d_i, j (t) / Th_i, j) with respect to a residual threshold value at each time, and presence / absence of abnormality.
For example, the correlation model generation unit 102 detects an abnormality in the correlation included in the correlation model 122 shown in FIG. 5 for the newly collected performance information, and stores the correlation change information 123 as shown in FIG. .
Next, the abnormal score calculation unit 104 calculates an abnormal score for each metric based on the correlation change information 123 at each time (step S104).
Here, the abnormality score is calculated based on the degree of abnormality (residual) of the correlation regarding each metric and the degree of continuity of the abnormality. The abnormality score calculation unit 104 calculates the abnormality score S_i (t) of the metric x_i using Equation 4.
Here, average_i () indicates that values in parentheses are calculated for all the correlations with other metrics having a correlation from the metric x_i, and the average value is obtained. For example, when there is a correlation between metrics x_1 to x_2, x_3, and x_4, an average value of the values in parentheses is calculated for these correlations.
Further, c_i, j (t) is an abnormality continuation degree indicating the continuation degree of the abnormality, and indicates a ratio of a period in which an abnormality is detected in the correlation in a predetermined period before time t.
step (y) is a step function, and is 0 when the ratio of the residual calculated by Equation 3 to the threshold is less than 1, that is, the correlation is normal. Therefore, when all the correlations from the metric x_i to other correlated metrics are normal, the abnormal score S_i (t) is zero.
FIG. 8 is a diagram showing a process of calculating an abnormality score in the first embodiment of the present invention. FIG. 9 is a diagram showing a calculation result of the abnormality score in the first embodiment of the present invention.
For example, the abnormality score calculation unit 104 calculates the abnormality continuity as shown in FIG. 8 and calculates the abnormality score as shown in FIG. 9 based on the correlation change information 123 of FIG. 7 at each time.
In the calculation result of the abnormality score in FIG. 9, for example, at time 12:30, the abnormality score of the metric x_1 is larger than the abnormality score of the metrics x_2 and x_3, and the abnormality degree of the metric x_1 is large or the abnormality continues. This indicates that there is a high possibility.
Next, the abnormality score calculation unit 104 generates an analysis result 130 including an abnormality score of each metric at each time, and outputs the analysis result 130 to the monitoring device 300 (step S105). The display unit 301 of the monitoring terminal 300 displays the analysis result 130 to an administrator or the like.
FIG. 10 is a diagram illustrating an example of the analysis result 130 according to the first embodiment of this invention. In the example of FIG. 10, the analysis result 130 includes an abnormal correlation rate display unit 131, an abnormal correlation display unit 132, and an abnormal score display unit 133.
For example, the abnormality score calculation unit 104 transmits the analysis result 130 in FIG. 10 to the monitoring terminal 300.
The abnormal correlation rate display unit 131 indicates a change over time in the ratio of the correlation determined to be abnormal among the correlations included in the correlation model 122. The administrator or the like can refer to the abnormal correlation rate display unit 131 and grasp the time when the abnormalities of the correlation frequently occur in the monitored apparatus 200.
The abnormal correlation display unit 132 indicates the correlation determined to be abnormal on the correlation model 122. In the abnormal correlation display unit 132, each metric of the correlation model 122 is indicated by a circle together with the identifier (name) of the metric, and the correlation determined to be abnormal is indicated by a solid line connecting the circle and the circle. For example, the abnormal correlation display unit 132 displays the correlation determined to be abnormal with respect to the time designated by the administrator or the like on the abnormal correlation rate display unit 131. The abnormal correlation display unit 132 may display the correlation determined to be abnormal with respect to the latest collection time every time new performance information is collected. An administrator or the like can refer to the abnormality correlation display unit 132 and grasp a metric in which abnormalities are concentrated in the monitored apparatus 200.
The abnormal score display part 133 shows the abnormal score of each metric. Each metric is indicated by a circle together with an identifier of the metric in a predetermined rectangular area. The larger the abnormal score, the larger the circle (radius). In addition, the larger the abnormal score, the more the circle is displayed at the top of the rectangular area.
In this way, the abnormality score calculation unit 104 determines the size of the circle that increases according to the abnormality score, and the height from the bottom on the vertical axis with respect to the bottom of the rectangular region that increases according to the abnormality score. And the data displayed as the abnormal score display part 133 are produced | generated so that the said circle may be displayed on the said height by the said magnitude | size.
For example, the abnormal score display unit 133 may display an abnormal score for the time designated by the administrator or the like on the abnormal correlation rate display unit 131. The abnormal score display unit 133 may display an abnormal score for the latest collection time each time new performance information is collected.
Further, the abnormality score is calculated by multiplying the abnormality degree (residual) of the correlation by the abnormality continuation degree as shown in Equation 4. The abnormality continuity is the ratio of the period in which an abnormality is detected in a predetermined period before the time when the abnormality score is calculated.If the abnormality continues, the abnormality score gradually increases with the passage of time. When stops, the abnormal score gradually decreases with time. Therefore, in the abnormality score display unit 133, when an abnormality related to a metric continues, the circle of the metric gradually increases while rising in the rectangular area, and when the abnormality stops, the circle of the metric gradually decreases. While descending, descend in the rectangular area. That is, in the abnormal score display unit 133, the abnormal score of each metric is displayed by movement similar to the movement of an object having buoyancy such as a balloon or a bubble. Note that the rising and lowering of the circle in the rectangular area may follow the well-known Archimedes principle.
In the analysis result 130 of FIG. 10, at time 12:30, the circle indicating the metric x_1 is larger than the circles of other metrics and is displayed at the top. Accordingly, the administrator or the like can easily grasp that the degree of abnormality of the metric x_1 is large or that the abnormality is highly likely to continue.
Further, in the calculation result of the abnormality score in FIG. 9, the abnormality of the metric x_1 continues from the time 12:20 to the time 12:40, and the abnormality score becomes the maximum at the time 12:30. In this case, in the abnormal score display unit 133, the circle indicating the metric x_1 increases while increasing from time 12:20 to time 12:30, and decreases while decreasing from time 12:30 to time 12:40. Thereby, the administrator or the like can easily grasp the possibility that the abnormality of the metric x_1 has been started or has stopped.
Thus, the operation of the first exemplary embodiment of the present invention is completed.
Next, a characteristic configuration of the first exemplary embodiment of the present invention will be described. FIG. 1 is a block diagram showing a characteristic configuration of the first embodiment of the present invention.
Referring to FIG. 1, the operation management apparatus 100 according to the first embodiment of this invention includes a metric collection unit 101 and an abnormal score calculation unit 104.
Here, the metric collection unit 101 collects measurement values of a plurality of metrics in the system in time series. Further, the abnormality score calculation unit 104 calculates and outputs an abnormality score of the metric based on the continuity indicating the continuity of the abnormality at each time of the measurement values of the plurality of metrics.
Next, effects of the first exemplary embodiment of the present invention will be described.
In the technique described in Patent Document 1, the abnormal score of a metric x_i at a certain time is calculated based on the number of correlations determined to be abnormal at that time among the correlations from the metric x_i to other metrics. A list of anomaly metrics is displayed with an anomaly score. The administrator or the like preferentially deals with an abnormality of a metric having a high abnormality score based on the abnormality metric list. In this case, since the administrator or the like cannot grasp whether the abnormality of the metric is continuous or temporary, there is a possibility of preferentially dealing with the abnormality even if the abnormality of the metric is temporary. Further, in order to grasp whether the abnormality of the metric is continuous or temporary, the administrator or the like needs to compare, for example, a list of abnormality metrics with times before and after the time.
According to the first embodiment of the present invention, it is possible to easily grasp a continuity metric abnormality in a system. The reason is that the abnormality score calculation unit 104 calculates the abnormality score of the metric based on the continuity indicating the continuity of the abnormality at each time of the metric. Further, the abnormal score calculation unit 104 displays the abnormal score of each metric as a graphic having a size corresponding to the abnormal score and a display position.
As a result, the administrator or the like can preferentially deal with metric abnormalities that occur continuously, and can expect stable operation of the system as compared to the case where only the technique of Patent Document 1 is used. .
In addition, this makes it unnecessary for an administrator or the like to compare the list of abnormal metrics at each time in order to check whether or not the abnormality of a metric is continuous. It can be expected to reduce the burden and prevent oversight.
Further, according to the first embodiment of the present invention, it can be easily grasped that the continuation of the abnormality of the metric is started or stopped. The reason is that, as described above, the abnormality score calculation unit 104 displays the abnormality score of each metric as a graphic having a size corresponding to the abnormality score and a display position.
(Second Embodiment)
Next, a second embodiment of the present invention will be described.
The second embodiment of the present invention is different from the first embodiment of the present invention in that the abnormality score calculation unit 104 groups metrics having the same abnormality detection start time.
The configuration of the second embodiment of the present invention is the same as that of the first embodiment of the present invention.
Next, the operation of the operation management apparatus 100 according to the second embodiment of the present invention will be described.
FIG. 11 is a flowchart showing a process of the operation management apparatus 100 according to the second embodiment of the present invention. Here, the operations (steps S201 to S204) from when the metric collecting unit 101 collects performance information until the abnormal score calculating unit 104 calculates the abnormal score of each metric are the same as those in the first embodiment of the present invention. This is the same as the operation of the form (steps S101 to S104).
The abnormal score calculation unit 104 refers to the calculated abnormal score of each metric in step S104 described above, and groups metrics having the same abnormality detection start time (step S205). Here, a metric having the same abnormality detection start time is a metric having the same time when the abnormality score is changed from 0 to a value larger than 0. Then, the abnormal score calculation unit 104 calculates a group abnormal score that is an abnormal score of each group by summing up the abnormal scores of the grouped metrics (step S206).
FIG. 12 is a diagram illustrating a calculation result of the group abnormality score according to the second embodiment of the present invention.
For example, the abnormality score calculation unit 104 calculates the group abnormality score of FIG. 12 based on the abnormality score of FIG. 9 at each time.
In this case, the abnormality score calculation unit 104 generates a group A including only the metric x_1 for which abnormality detection is started at the time based on the abnormality score at time 12:20. Group A continues until time 12:40. Further, the abnormality score calculation unit 104 generates a group B including metrics x_2 and x_3 for which abnormality detection is started at the time based on the abnormality score at the time 12:30. Group B ends at time 12:30. Then, the abnormal score calculation unit 104 calculates a group abnormal score as shown in FIG. 12 based on the abnormal score of the metric included in each group.
In the calculation result of the group abnormality score of FIG. 12, the abnormality detection start time of the metric x_2 is the same as the abnormality detection start time of the x_3, and the abnormality of the metric x_2 and the abnormality of the x_3 are abnormalities caused by a common abnormal event. This indicates that there is a high degree of relevance. Also, the abnormality detection start time of the metric x_1 is different from the abnormality detection start times of the metrics x_2 and x_3.
The abnormality score calculation unit 104 generates an analysis result 140 including the group abnormality score of each group at each time, and outputs the analysis result 140 to the monitoring device 300 (step S207).
FIG. 13 is a diagram illustrating an example of the analysis result 140 according to the second embodiment of the present invention. In the example of FIG. 13, the analysis result 140 includes an abnormal correlation rate display unit 141, an abnormal correlation display unit 142, and an abnormal score display unit 143.
The abnormal correlation rate display unit 141 and the abnormal correlation display unit 142 are similar to the abnormal correlation rate display unit 131 and the abnormal correlation display unit 132 according to the first embodiment of the present invention, respectively. The ratio and the correlation determined to be abnormal on the correlation model 122 are shown.
The abnormal score display part 143 shows the group abnormal score of each group. Each group is indicated by a circle together with an identifier of the metric included in the group within a predetermined rectangular area. As in the first embodiment of the present invention, the larger the abnormal score is, the larger the size of the circle is. Displayed at the top of the rectangular area.
In the analysis result 130 of FIG. 10 in the first embodiment of the present invention, at time 12:30, the metrics x_2 and x_3 have no abnormality continuity, and the abnormality score is lower than the metric x_1. The circles indicating the metrics x_2 and x_3 are each displayed small in the lower part of the abnormality score display unit 133.
On the other hand, in the analysis result 140 of FIG. 13 according to the second embodiment of the present invention, at time 12:30, a circle indicating a group consisting of metrics x_2 and x_3 is displayed, similarly to a circle indicating a group consisting of metrics x_1. It is larger than the circles of other groups and is displayed at the top of the abnormal score display portion 143.
Thereby, the administrator or the like easily grasps that the relevance of the metrics x_2 and x_3 is high and that the sum of the abnormalities is large or that the abnormalities are likely to continue. be able to.
Thus, the operation of the second exemplary embodiment of the present invention is completed.
Next, effects of the second exemplary embodiment of the present invention will be described.
When a plurality of metrics have abnormal values due to a certain abnormal event, the abnormality of the plurality of metrics may occur at the same time. In the technique of Patent Document 1, the administrator or the like confirms temporal relationships between abnormal metrics based on, for example, temporal changes in the abnormal metric list in order to grasp such abnormal events. However, it is necessary to extract an abnormal metric that occurs at the same time. In addition, in order to identify an abnormal event, a method of applying signature matching with respect to a correlation in which an abnormality has occurred has been proposed. However, for unknown abnormal events, there is no accumulation of signatures related to correlation, and signature matching cannot be applied.
According to the second embodiment of the present invention, it is possible to easily grasp an abnormal metric that occurs at the same time. The reason is that the abnormality score calculation unit 104 groups metrics having the same abnormality detection start time, and calculates a group abnormality score for each group.
Thereby, the administrator etc. can grasp | ascertain rapidly the abnormality resulting from a common abnormal event, and can anticipate more stable operation of a system.
Although the present invention has been described with reference to the embodiment, the present invention is not limited to the above embodiment. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
For example, in the embodiment of the present invention, the performance index in the system is used as a metric, and the abnormal score of the metric is calculated. Any index can be used as long as it is an index expressed in time series with respect to the system, such as the number of cargoes processed per unit time.
In the embodiment of the present invention, the degree of abnormality of correlation (correlation destruction) related to the metric is used as the degree of abnormality of the metric. However, the degree of abnormality of the metric is not limited to this. Other abnormalities such as an excess (threshold abnormality) with respect to a predetermined threshold may be used.
In the embodiment of the present invention, the threshold value in the correlation model 122 is calculated based on the maximum value of the residual by the correlation function for each metric combination. However, the threshold value is defined for each metric combination. Or a predetermined value defined for the correlation model 122.
Further, in the embodiment of the present invention, the abnormality score is calculated by the equation (4). However, if the abnormality score increases according to the continuity of the metric abnormality, the abnormality score is calculated using another mathematical expression. May be calculated. For example, in equation (4), the abnormality score may be calculated using only the abnormality continuity degree of the correlation related to the metric without using the abnormality degree (residual) of the correlation related to the metric.
In the embodiment of the present invention, in the analysis results 130 and 140, the magnitude of the abnormal score is indicated by the size of the circle representing the metric and the height at which the circle is displayed within a predetermined rectangular area. However, the present invention is not limited to this, and may be indicated by a figure of another shape or another display position as long as the magnitude of the abnormality score can be indicated. For example, the magnitude of the abnormal score may be displayed by the size of a figure other than a circle, such as an ellipse or a sphere. Further, the magnitude of the abnormal score may be indicated by a height from a predetermined reference point on the vertical axis defined in a predetermined shape other than a rectangle such as a circle or a trapezoid.
Further, the magnitude of the abnormal score may be indicated by a height from a predetermined reference point on the vertical axis with respect to the ground plane. In this case, even if the display unit 301 is arranged to be inclined with respect to the ground plane, the graphic representing each metric rises or falls in a direction perpendicular to the ground plane according to the abnormality score. That is, the movement of the graphic representing each metric is closer to the movement of the object that has obtained the actual buoyancy. Thereby, the administrator etc. can grasp | ascertain the change of the abnormal score of each metric more easily.
This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2011-182261 for which it applied on August 24, 2011, and takes in those the indications of all here.

100 運用管理装置
101 メトリック収集部
102 相関モデル生成部
103 相関変化分析部
104 異常スコア算出部
111 メトリック記憶部
112 相関モデル記憶部
113 相関変化記憶部
121 性能系列情報
122 相関モデル
123 相関変化情報
130 解析結果
131 異常相関率表示部
132 異常相関表示部
133 異常スコア表示部
140 解析結果
141 異常相関率表示部
142 異常相関表示部
143 異常スコア表示部
200 被監視装置
201 監視エージェント
300 監視端末
DESCRIPTION OF SYMBOLS 100 Operation management apparatus 101 Metric collection part 102 Correlation model production | generation part 103 Correlation change analysis part 104 Abnormal score calculation part 111 Metric memory | storage part 112 Correlation model memory | storage part 113 Correlation change memory | storage part 121 Performance series information 122 Correlation model 123 Correlation change information 130 Analysis Result 131 Abnormal correlation display unit 132 Abnormal correlation display unit 133 Abnormal score display unit 140 Analysis result 141 Abnormal correlation rate display unit 142 Abnormal correlation display unit 143 Abnormal score display unit 200 Monitored device 201 Monitoring agent 300 Monitoring terminal

Claims (21)

  1. システムにおける複数メトリックの計測値をそれぞれ時系列に収集するメトリック収集手段と、
    前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する異常スコア算出手段と、
    を含む運用管理装置。
    Metric collection means for collecting measured values of multiple metrics in the system in time series,
    Based on the continuity indicating the degree of continuity of the abnormality at each time of the measured values of the plurality of metrics, an abnormality score calculating means for calculating and outputting the abnormality score of the metric,
    Operation management device including
  2. 前記異常スコア算出手段は、前記異常スコアに応じて、所定の図形の大きさ、及び、表示手段の表示画面上の位置を決定し、当該図形を、当該大きさで、当該位置に表示する
    請求項1に記載の運用管理装置。
    The abnormality score calculating means determines a size of a predetermined graphic and a position on the display screen of the display means according to the abnormal score, and displays the graphic at the position with the size. Item 4. The operation management apparatus according to Item 1.
  3. 前記異常スコア算出手段は、前記異常スコアに応じて大きくなる概略円形の図形の大きさ、及び、前記異常スコアに応じて高くなる、所定の垂直軸上の設定された基準点からの高さを決定し、当該図形を、当該大きさで、当該基準点からの高さに表示する
    請求項2に記載の運用管理装置。
    The abnormality score calculation means calculates a size of a roughly circular figure that increases according to the abnormality score, and a height from a set reference point on a predetermined vertical axis that increases according to the abnormality score. The operation management apparatus according to claim 2, wherein the operation management apparatus determines and displays the figure at the height from the reference point with the size.
  4. 前記異常スコア算出手段は、前記異常の検出の開始時刻が同一である前記メトリックからなるグループを生成し、当該グループに含まれる前記メトリックの異常スコアの合計値を当該グループの異常スコアとして算出し、出力する
    請求項1乃至3のいずれかに記載の運用管理装置。
    The abnormality score calculation means generates a group including the metrics having the same detection start time of the abnormality, calculates a total value of the abnormality scores of the metrics included in the group as an abnormality score of the group, The operation management apparatus according to claim 1, wherein the operation management apparatus outputs the operation management apparatus.
  5. 前記異常スコア算出手段は、前記複数メトリックの計測値の各々の各時刻における異常の度合いを示す異常度と前記継続度とをもとに、当該メトリックの前記異常スコアを算出する
    請求項1乃至4のいずれかに記載の運用管理装置。
    5. The abnormality score calculation unit calculates the abnormality score of the metric based on the abnormality degree indicating the degree of abnormality at each time of the measurement values of the plurality of metrics and the continuity degree. The operation management device according to any one of the above.
  6. さらに、前記複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを記憶する相関モデル記憶手段を含み、
    前記異常度は、前記複数メトリックの計測値の各々を前記相関関数に適用したときの変換誤差をもとに算出される
    請求項5に記載の運用管理装置。
    A correlation model storage unit for storing a correlation model including one or more correlation functions indicating correlation between two different metrics among the plurality of metrics;
    The operation management apparatus according to claim 5, wherein the degree of abnormality is calculated based on a conversion error when each of the measurement values of the plurality of metrics is applied to the correlation function.
  7. 前記継続度は、各時刻以前の所定期間における、前記異常が検出された期間の割合である
    請求項1乃至6のいずれかにに記載の運用管理装置。
    The operation management apparatus according to claim 1, wherein the continuity is a ratio of a period in which the abnormality is detected in a predetermined period before each time.
  8. システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、
    前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する
    運用管理方法。
    Collect the measurement values of multiple metrics in the system in time series,
    An operation management method for calculating and outputting an abnormality score of the metric based on a continuity indicating the continuity of the abnormality at each time of the measured values of the plurality of metrics.
  9. 前記異常スコアを出力する場合、前記異常スコアに応じて、所定の図形の大きさ、及び、表示手段の表示画面上の位置を決定し、当該図形を、当該大きさで、当該位置に表示する
    請求項8に記載の運用管理方法。
    When outputting the abnormal score, the size of the predetermined graphic and the position on the display screen of the display means are determined according to the abnormal score, and the graphic is displayed at the position with the size. The operation management method according to claim 8.
  10. 前記異常スコアを出力する場合、前記異常スコアに応じて大きくなる概略円形の図形の大きさ、及び、前記異常スコアに応じて高くなる、所定の垂直軸上の設定された基準点からの高さを決定し、当該図形を、当該大きさで、当該基準点からの高さに表示する
    請求項9に記載の運用管理方法。
    When outputting the abnormal score, the size of a roughly circular figure that increases in accordance with the abnormal score, and the height from a set reference point on a predetermined vertical axis that increases in accordance with the abnormal score The operation management method according to claim 9, wherein the graphic is displayed at a height from the reference point with the size.
  11. さらに、前記異常の検出の開始時刻が同一である前記メトリックからなるグループを生成し、当該グループに含まれる前記メトリックの異常スコアの合計値を当該グループの異常スコアとして算出し、出力する
    請求項8乃至10のいずれかに記載の運用管理方法。
    Furthermore, the group which consists of the said metric with the same detection start time of the said abnormality is produced | generated, the total value of the abnormality score of the said metric contained in the said group is calculated as an abnormality score of the said group, and it outputs. The operation management method according to any one of 1 to 10.
  12. 前記異常スコアを算出する場合、前記複数メトリックの計測値の各々の各時刻における異常の度合いを示す異常度と前記継続度とをもとに、当該メトリックの前記異常スコアを算出する
    請求項8乃至11のいずれかに記載の運用管理方法。
    When calculating the abnormal score, the abnormal score of the metric is calculated based on the abnormal degree indicating the degree of abnormality at each time of the measurement values of the plurality of metrics and the continuity. The operation management method according to any one of 11.
  13. さらに、前記複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを記憶し、
    前記異常度は、前記複数メトリックの計測値の各々を前記相関関数に適用したときの変換誤差をもとに算出される
    請求項12に記載の運用管理方法。
    And storing a correlation model including at least one correlation function indicating a correlation between two different metrics among the plurality of metrics.
    The operation management method according to claim 12, wherein the degree of abnormality is calculated based on a conversion error when each of the measurement values of the plurality of metrics is applied to the correlation function.
  14. 前記継続度は、各時刻以前の所定期間における、前記異常が検出された期間の割合である
    請求項8乃至13のいずれかにに記載の運用管理方法。
    The operation management method according to claim 8, wherein the continuity is a ratio of a period in which the abnormality is detected in a predetermined period before each time.
  15. コンピュータに、
    システムにおける複数メトリックの計測値をそれぞれ時系列に収集し、
    前記複数メトリックの計測値の各々の各時刻における異常の継続度合いを示す継続度をもとに、当該メトリックの異常スコアを算出し、出力する処理を実行させるプログラムを格納する、
    コンピュータが読み取り可能な記録媒体。
    On the computer,
    Collect the measurement values of multiple metrics in the system in time series,
    Based on the degree of continuity indicating the degree of continuity of the abnormality at each time of the measured values of the plurality of metrics, a program for calculating and outputting an abnormality score for the metric is stored.
    A computer-readable recording medium.
  16. 前記異常スコアを出力する場合、前記異常スコアに応じて、所定の図形の大きさ、及び、表示手段の表示画面上の位置を決定し、当該図形を、当該大きさで、当該位置に表示する処理を実行させる前記プログラムを格納する、
    請求項15に記載のコンピュータが読み取り可能な記録媒体。
    When outputting the abnormal score, the size of the predetermined graphic and the position on the display screen of the display means are determined according to the abnormal score, and the graphic is displayed at the position with the size. Storing the program for executing the processing;
    A computer-readable recording medium according to claim 15.
  17. 前記異常スコアを出力する場合、前記異常スコアに応じて大きくなる概略円形の図形の大きさ、及び、前記異常スコアに応じて高くなる、所定の垂直軸上の設定された基準点からの高さを決定し、当該図形を、当該大きさで、当該基準点からの高さに表示する処理を実行させる前記プログラムを格納する、
    請求項16に記載のコンピュータが読み取り可能な記録媒体。
    When outputting the abnormal score, the size of a roughly circular figure that increases in accordance with the abnormal score, and the height from a set reference point on a predetermined vertical axis that increases in accordance with the abnormal score And storing the program for executing the process of displaying the figure at the height from the reference point with the size,
    A computer-readable recording medium according to claim 16.
  18. さらに、前記異常の検出の開始時刻が同一である前記メトリックからなるグループを生成し、当該グループに含まれる前記メトリックの異常スコアの合計値を当該グループの異常スコアとして算出し、出力する処理を実行させる前記プログラムを格納する、
    請求項15乃至17のいずれかに記載のコンピュータが読み取り可能な記録媒体。
    Furthermore, a group including the metrics having the same detection start time of the abnormality is generated, and a total value of the abnormality scores of the metrics included in the group is calculated as an abnormality score of the group and output. Storing the program to be
    A computer-readable recording medium according to claim 15.
  19. 前記異常スコアを算出する場合、前記複数メトリックの計測値の各々の各時刻における異常の度合いを示す異常度と前記継続度とをもとに、当該メトリックの前記異常スコアを算出する処理を実行させる前記プログラムを格納する、
    請求項15乃至18のいずれかに記載のコンピュータが読み取り可能な記録媒体。
    When calculating the abnormality score, a process of calculating the abnormality score of the metric is executed based on the abnormality degree indicating the degree of abnormality at each time of the measurement values of the plurality of metrics and the continuity degree. Storing the program,
    The computer-readable recording medium according to claim 15.
  20. さらに、前記複数のメトリックの内の異なる2つのメトリック間の相関関係を示す相関関数を1以上含む相関モデルを記憶する処理を実行させ、
    前記異常度は、前記複数メトリックの計測値の各々を前記相関関数に適用したときの変換誤差をもとに算出される前記プログラムを格納する、
    請求項19に記載のコンピュータが読み取り可能な記録媒体。
    Further, a process of storing a correlation model including one or more correlation functions indicating a correlation between two different metrics among the plurality of metrics is executed,
    The degree of abnormality stores the program calculated based on a conversion error when each of the measurement values of the plurality of metrics is applied to the correlation function.
    A computer-readable recording medium according to claim 19.
  21. 前記継続度は、各時刻以前の所定期間における、前記異常が検出された期間の割合である前記プログラムを格納する、
    請求項15乃至20のいずれかにに記載のコンピュータが読み取り可能な記録媒体。
    The continuity stores the program that is a ratio of a period in which the abnormality is detected in a predetermined period before each time,
    A computer-readable recording medium according to any one of claims 15 to 20.
JP2013529952A 2011-08-24 2012-07-31 Operation management apparatus, operation management method, and program Active JP5621937B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011182261 2011-08-24
JP2011182261 2011-08-24
JP2013529952A JP5621937B2 (ja) 2011-08-24 2012-07-31 Operation management apparatus, operation management method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013529952A JP5621937B2 (ja) 2011-08-24 2012-07-31 Operation management apparatus, operation management method, and program

Publications (2)

Publication Number Publication Date
JP5621937B2 JP5621937B2 (ja) 2014-11-12
JPWO2013027562A1 true JPWO2013027562A1 (ja) 2015-03-19

Family

ID=47746312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013529952A Active JP5621937B2 (ja) 2011-08-24 2012-07-31 Operation management apparatus, operation management method, and program

Country Status (4)

Country Link
US (2) US9778972B2 (ja)
EP (1) EP2750041A4 (ja)
JP (1) JP5621937B2 (ja)
WO (1) WO2013027562A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095751A (ja) * 2014-11-17 2016-05-26 富士通株式会社 異常機器特定プログラム、異常機器特定方法、及び、異常機器特定装置
US10061632B2 (en) * 2014-11-24 2018-08-28 Anodot Ltd. System and method for transforming observed metrics into detected and scored anomalies
EP3239839A4 (en) * 2014-12-22 2018-08-22 Nec Corporation Operation management device, operation management method, and recording medium in which operation management program is recorded
US10318367B1 (en) * 2015-05-15 2019-06-11 United Services Automobile Association (Usaa) Systems and methods for computer infrastructure monitoring and maintenance
EP3309682B1 (en) * 2015-06-09 2020-04-01 Hitachi, Ltd. Data collection system and method, and method for reducing the quantity of measurement data
JP5875726B1 (ja) * 2015-06-22 2016-03-02 株式会社日立パワーソリューションズ 異常予兆診断装置のプリプロセッサ及びその処理方法
US10754719B2 (en) * 2015-12-09 2020-08-25 Nec Corporation Diagnosis device, diagnosis method, and non-volatile recording medium
EP3388911B1 (en) 2016-03-24 2019-12-25 Mitsubishi Heavy Industries, Ltd. Monitoring device, monitoring method and program
US20170315855A1 (en) * 2016-05-02 2017-11-02 Agt International Gmbh Method of detecting anomalies on appliances and system thereof
JP2019020982A (ja) * 2017-07-14 2019-02-07 株式会社東芝 Anomaly detection device, anomaly detection method and program
KR102092093B1 (ko) * 2018-09-11 2020-03-23 아토리서치(주) 실시간 다중 메트릭 모니터링 방법 및 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243064A (ja) * 1993-02-12 1994-09-02 Honda Motor Co Ltd コンピュータネットワークの障害検出システム
JP2002132340A (ja) * 2000-10-19 2002-05-10 Nec Eng Ltd 状態表示装置及びその方法
JP2005101854A (ja) * 2003-09-24 2005-04-14 Intelligent Cosmos Research Institute パケット追跡装置、パケット追跡システム、パケット追跡方法およびパケット追跡プログラム
JP2009076056A (ja) * 2007-07-27 2009-04-09 General Electric Co <Ge> Abnormal aggregation method
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
WO2011065196A1 (ja) * 2009-11-27 2011-06-03 日本電気株式会社 監視状況表示装置、監視状況表示方法および監視状況表示プログラム
JP2011230634A (ja) * 2010-04-27 2011-11-17 Denso Corp 故障予兆検出装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263342A (ja) 2002-03-07 2003-09-19 Ntt Data Corp 情報処理装置の監視装置および監視方法並びにそのプログラム
US7246043B2 (en) * 2005-06-30 2007-07-17 Oracle International Corporation Graphical display and correlation of severity scores of system metrics
EP1895416B1 (en) * 2006-08-25 2011-07-06 Accenture Global Services Limited Data visualization for diagnosing computing systems
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5428372B2 (ja) 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
JP5347997B2 (ja) * 2010-02-04 2013-11-20 株式会社デンソー 故障診断用情報収集装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243064A (ja) * 1993-02-12 1994-09-02 Honda Motor Co Ltd コンピュータネットワークの障害検出システム
JP2002132340A (ja) * 2000-10-19 2002-05-10 Nec Eng Ltd 状態表示装置及びその方法
JP2005101854A (ja) * 2003-09-24 2005-04-14 Intelligent Cosmos Research Institute パケット追跡装置、パケット追跡システム、パケット追跡方法およびパケット追跡プログラム
JP2009076056A (ja) * 2007-07-27 2009-04-09 General Electric Co <Ge> Abnormal aggregation method
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
WO2011065196A1 (ja) * 2009-11-27 2011-06-03 日本電気株式会社 監視状況表示装置、監視状況表示方法および監視状況表示プログラム
JP2011230634A (ja) * 2010-04-27 2011-11-17 Denso Corp 故障予兆検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
目黒裕章他: "異常の継続性を考慮したネットワーク異常検出方式", 電子情報通信学会2007年総合大会講演論文集 通信2, JPN6012046944, 7 March 2007 (2007-03-07), JP, pages 160, ISSN: 0002834933 *

Also Published As

Publication number Publication date
US20140195868A1 (en) 2014-07-10
EP2750041A4 (en) 2015-04-22
EP2750041A1 (en) 2014-07-02
WO2013027562A1 (ja) 2013-02-28
JP5621937B2 (ja) 2014-11-12
US9778972B2 (en) 2017-10-03
US20170046215A1 (en) 2017-02-16

Similar Documents

Publication Publication Date Title
US9507687B2 (en) Operation management device, operation management method, and operation management program
CN104350471B (zh) 在处理环境中实时地检测异常的方法和系统
US8255100B2 (en) Data-driven anomaly detection to anticipate flight deck effects
EP2905665B1 (en) Information processing apparatus, diagnosis method, and program
US20150302726A1 (en) System and Method for Monitoring Clinician Responsiveness to Alarms
JP4980581B2 (ja) 性能監視装置、性能監視方法及びプログラム
US7409316B1 (en) Method for performance monitoring and modeling
US9424157B2 (en) Early detection of failing computers
WO2015045319A1 (ja) 情報処理装置、及び、分析方法
US8930757B2 (en) Operations management apparatus, operations management method and program
US20130060524A1 (en) Machine Anomaly Detection and Diagnosis Incorporating Operational Data
US8140915B2 (en) Detecting apparatus, system, program, and detecting method
US7082381B1 (en) Method for performance monitoring and modeling
US9600394B2 (en) Stateful detection of anomalous events in virtual machines
CN105511944B (zh) 一种云系统内部虚拟机的异常检测方法
EP1859365B1 (en) Computer qc module testing monitor
JP6055285B2 (ja) データ保全装置およびその方法、システム
CA2762415C (en) System and method for automatic quality control of clinical diagnostic processes
CN101764846B (zh) 一种远程集中式磁盘阵列运行监控系统的实现方法
CN103580934B (zh) 一种云业务监测方法和装置
JP5214656B2 (ja) 評価装置および評価プログラム
US20060188011A1 (en) Automated diagnosis and forecasting of service level objective states
US8065568B2 (en) Communication network failure detection system, and communication network failure detection method and failure detection program
US9282008B2 (en) Systems and methods for monitoring system performance and availability
US8015134B2 (en) Determining a corrective action based on economic calculation

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140908

R150 Certificate of patent or registration of utility model

Ref document number: 5621937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150