JPWO2013069138A1 - 稼働情報予測計算機、稼働情報予測方法及びプログラム - Google Patents

稼働情報予測計算機、稼働情報予測方法及びプログラム Download PDF

Info

Publication number
JPWO2013069138A1
JPWO2013069138A1 JP2013542774A JP2013542774A JPWO2013069138A1 JP WO2013069138 A1 JPWO2013069138 A1 JP WO2013069138A1 JP 2013542774 A JP2013542774 A JP 2013542774A JP 2013542774 A JP2013542774 A JP 2013542774A JP WO2013069138 A1 JPWO2013069138 A1 JP WO2013069138A1
Authority
JP
Japan
Prior art keywords
information
operation information
value
prediction
configuration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013542774A
Other languages
English (en)
Other versions
JP5686904B2 (ja
Inventor
裕介 後守
裕介 後守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP5686904B2 publication Critical patent/JP5686904B2/ja
Publication of JPWO2013069138A1 publication Critical patent/JPWO2013069138A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

少なくとも一つの装置から当該装置の稼働情報を収集し、収集した稼働情報に基づいて当該装置の将来の稼働情報を予測し、記憶領域を備える稼働情報予測計算機において、状態情報格納部によって記憶領域に格納された過去の稼働情報を、現在の構成情報に対応させるための相関値を算出する相関値算出部と、過去の稼働情報と相関値算出部によって算出された相関値とに基づいて、将来の稼働予測値を算出する稼働予測値算出部と、を有することを特徴とする。

Description

本発明は、装置の稼働情報を収集する計算機に関し、特に、収集した稼働情報に基づいて、将来の稼働情報を予測する稼働情報予測計算機に関する。
近年、ITシステムを構築、維持、及び運用するためのコストの削減、並びに、リソースの柔軟な拡張を目的として、クラウドサービス及び仮想化サービスの活用が注目されている。これに伴って、クラウドサービス及び仮想化サービスの基盤となるデータセンターの運用管理では、サイレント障害を事前に検知し、サイレント障害への対処を可能とする障害予兆検知技術も注目されている。サイレント障害とは、コンピュータシステム上に予め用意された自律診断機能で検知できない障害等をいう。
従来、この障害予兆検知技術に関しては、ITシステムの稼働情報を収集し、収集した稼働情報を蓄積し、過去の稼動情報に基づいてベースラインを算出し、ベースラインに基づいて障害を予兆検知する装置が知られている(例えば特許文献1参照)。
特許文献1に開示された装置は、ITシステムのパフォーマンスデータを所定の間隔で一定期間収集し、収集したパフォーマンスデータを重み付き平均化することによってベースラインを生成する。そして、この装置は、傾向、時期、及び感度等をパラメータとした統計的解析モデルを通じて、次回のパフォーマンスデータの予測上下限範囲(閾値)を算出する。なお、現在のパフォーマンスデータが閾値を超過した場合、装置はイベントを通知することによって、障害を予兆検知する。
特開2004−164637号公報
今後、クラウドサービス及び仮想化サービスを始めとしたシステムの進展に伴って、ITシステムの負荷状況に応じて、ITシステムのリソース等の構成情報(例えば、CPUの割当率及びメモリの割当率等)が変更される頻度が高くなる可能性がある。
図23は、従来のITシステムの構成情報とITシステムの応答性能(稼働情報)との関係の説明図である。同図では、ITシステムの構成情報はCPU割当率及びDB(データベース)キャッシュである。CPU割当率は、ITシステムに生成された仮想計算機に対して割り当てるCPUの割合をパーセントで示し、DBキャッシュは、ITシステムに割り当てられたDBキャッシュの容量をメガバイトで示す。
図に示すように、ITシステムのリソース等の構成情報が異なれば、ITシステムの応答性能が異なる。ITシステムの構成情報は4回変更されており、構成情報の各状態(a)〜(e)に示す。
状態(a)では、CPU割当率が20%でDBキャッシュが1MBである。次に、状態(a)からCPU割当率及びDBキャッシュが変更され、状態(b)となる。状態(b)では、CPU割当率が30%でDBキャッシュが1.5MBである。
次に、状態(b)からCPU割当率が変更され、状態(c)となる。状態(c)では、CPU割当率が45%でDBキャッシュが状態(b)と同じく1.5MBである。
次に、状態(c)からDBキャッシュが変更され、状態(d)となる。状態(d)では、CPU割当率が状態(b)と同じく45%でDBキャッシュが2MBである。
次に、状態(d)からCPU割当率が変更され、状態(e)となる。状態(e)では、CPU割当率が35%でDBキャッシュが状態(d)と同じく2MBである。
構成情報が状態(a)である場合の応答性能を図23の3−aに示す。構成情報が状態(b)である場合の応答性能を図23の3−b及び2−bに示す。構成情報が状態(c)である場合の応答性能を図23の2−c及び1−cに示す。構成情報が状態(d)である場合の応答性能を図23の1−dに示す。構成情報が状態(e)である場合の応答性能を図23の1−eに示す。
応答性能3−a〜1−eに示すように、構成情報が異なると応答性能が異なる。
図24は、従来のベースラインの算出処理の説明図である。ベースラインとは、将来の応答性能を予測した値である。従来のベースラインの算出処理は、異なる日の同じ時刻の応答性能の平均値を算出し、算出した平均値をベースラインとする処理である。
図25は、従来のベースラインと現在の応答性能との関係の説明図である。図25では、図24で説明したように、現在の構成情報と異なる構成情報の応答性能に基づいて算出されたベースラインに所定値を加算することによって、ベースライン上限値を算出し、また、ベースラインから所定値を減算することによって、ベースライン下限値を算出する。そして、現在の応答性能がベースライン上限値とベースライン下限値との範囲内にない場合、ITシステムの異常を予兆検知する。しかし、従来技術では、ベースラインを現在の構成情報と異なる構成情報の応答性能に基づいて算出するので、図25に示すように、現在の応答性能がベースライン上限値とベースライン下限値との範囲内になく、管理者が所望するベースラインを算出できないものであった。
このため、構成情報が変更された直後は、ITシステムの異常を予兆検知できず、最低でも1時間〜1日間の範囲で変更後の構成情報の稼働情報が蓄積されなければ、変更後の構成情報に対応するベースラインが算出できないという課題がある。
以上より、本発明の一つの目的は、構成情報の変更直後から将来の稼働情報を予測可能な計算機を提供することを目的とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、少なくとも一つの装置から当該装置の稼働情報を収集し、前記収集した稼働情報に基づいて当該装置の将来の稼働情報を予測し、記憶領域を備える稼働情報予測計算機において、前記稼働情報と、当該稼働情報の収集時の前記装置の構成情報と、を含む状態情報を前記装置から収集する状態情報収集部と、前記状態情報収集部によって収集された前記稼働情報及び前記構成情報を前記記憶領域に格納する状態情報格納部と、前記状態情報格納部によって前記記憶領域に格納された過去の稼働情報を、現在の構成情報に対応させるための相関値を算出する相関値算出部と、前記過去の稼働情報と前記相関値算出部によって算出された相関値とに基づいて、将来の稼働予測値を算出する稼働予測値算出部と、を有することを特徴とする。
本発明の一態様よれば、構成情報が変更直後から将来の応答性能を予測可能な計算機を提供できる。
本発明の実施形態のベースライン算出方法の概略の説明図である。 本発明の実施形態のCPU割当率の相関値算出処理の概略の説明図である。 本発明の実施形態のDBキャッシュの相関値算出処理の概略の説明図である。 本発明の実施形態のベースラインの補正処理の概略の説明図である。 本発明の実施形態の相関値変更処理の概略の説明図である。 本発明の実施形態の障害予兆検知システムのシステム構成図である。 本発明の実施形態の障害予兆検知システムの機能ブロック図である。 本発明の実施形態の障害予兆検知システムによる全体処理のフローチャートである。 本発明の実施形態のITシステムから収集される構成情報の説明図である。 本発明の実施形態の観測対象情報収集処理で、状態管理部によって収集されたITシステムの状態値をストリームデータ処理部が状態値格納DBに格納するまでの説明図である。 本発明の実施形態の観測対象情報収集処理で、状態管理部によって収集されたITシステムの状態値をストリームデータ処理部が状態値格納DBに格納するまでの説明図である。 本発明の実施形態の観測対象情報収集処理のフローチャートである。 本発明のベースライン生成処理で、ベースラインが生成されるまでの説明図である。 本発明の実施形態の相関関数算出処理の説明図である。 本発明の実施形態の相関値を仮のベースラインに反映させるベースライン生成処理のフローチャートである。 本発明の実施形態の相関値を状態値に反映させるベースライン生成処理のフローチャートである。 本発明の実施形態の相対比較部が補正後のベースラインの異常を検出する処理の説明図である。 本発明の実施形態の相対比較部が相関関数を変更する処理の説明図である。 本発明の実施形態の相対比較部による相対比較処理のフローチャートである。 本発明の実施形態の異常検知処理の説明図である。 本発明の実施形態の統計量利用閾値算出処理によって閾値を算出する場合の異常検知処理のフローチャートである。 本発明の実施形態の一定値利用閾値算出処理によって閾値を算出する場合の異常検知処理のフローチャートである。 本発明の実施形態の異常検知画面の説明図である。 本発明の実施形態の通知処理のフローチャートである。 従来のITシステムの構成情報とITシステムの応答性能との関係の説明図である。 従来のベースラインの算出処理の説明図である。 従来のベースラインと現在の応答性能との関係の説明図である。
以下、図面を参照しつつ、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。又、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。
以下において、本発明の実施形態を図1〜図22を参照して説明する。
図1は、本発明の実施形態のベースライン算出方法の概略の説明図である。
本実施形態の障害予兆検知システム500(図5参照)は、観測対象となる装置(ITシステム550(図5参照))から稼働情報のみならず、構成情報を収集し、収集した稼働情報及び構成情報を時系列で記憶領域に格納する。
次に、障害予兆検知システム500は、記憶領域に格納された稼働情報及び構成情報に基づいて、相関関数を算出する。そして、障害予兆検知システム500は、記憶領域に格納された過去の稼働情報を相関関数に基づいて現在の構成情報に対応させるための相関値を算出する。
また、障害予兆検知システム500は、記憶領域に格納された稼働情報に基づいて仮のベースラインを算出する。
そして、障害予兆検知システム500は、仮のベースラインに相関値を反映させることによって、仮のベースラインを補正して、ベースラインを生成する。
これによって、構成情報が変更後された場合、障害予兆検知システム500は、変更後の構成情報の所定時間収集しなくとも、構成情報の変更直後にITシステム550の障害の予兆検知が可能となる。
次に、本実施形態の各構成情報に対する相関値算出処理の概略について、図2A及び図2Bを用いて説明する。なお、図2A及び図2Bでは、構成情報の例としてCPU割当率及びDBキャッシュについて説明し、稼働情報の例として応答性能について説明する。
図2Aは、本発明の実施形態のCPU割当率の相関値算出処理の概略の説明図である。
まず、障害予兆検知システム500は、CPU割当率をx軸とし応答性能をy軸とした座標に、記憶領域に格納されたCPU割当率及び応答性能をプロットする。なお、記憶領域に格納されたCPU割当率、DBキャッシュ、及び応答性能は、図23で説明したものと同じである。
そして、障害予兆検知システム500は、プロットされたCPU割当率及び応答性能を通る関数(相関関数)(y=f(x))を算出する。
次に、障害予兆検知システム500は、記憶領域に格納された各CPU割当率に対して、各CPU割当率の応答性能を現在のCPU割当率に対応させるための相関値を、相関関数に基づいて算出する。
具体的には、障害予兆検知システム500は、記憶領域に格納された各CPU割当率を相関関数に代入した値から現在のCPU割当率を相関関数に代入した値を減算することによって、記憶領域に格納された各CPU割当率に対する相関値を算出する。
図2Aでは、現在のCPU割当率を35%である場合のCPU割当率が20%、30%、45%の相関値を図示する。CPU割当率が20%である場合の相関値はf(35)−f(20)である。CPU割当率が30%である場合の相関値はf(35)−f(30)である。CPU割当率が45%である場合の相関値はf(35)−f(45)である。
図2Bは、本発明の実施形態のDBキャッシュの相関値算出処理の概略の説明図である。
DBキャッシュの相関値は、図2Aで説明したCPU割当率の相関値と同じ処理で算出される。
現在のDBキャッシュが2MBであり、DBキャッシュの相関関数をy=g(x)とすると、DBキャッシュが1MBである場合の相関値はg(2)−g(1)である。DBキャッシュが1.5MBである場合の相関値はg(2)−g(1.5)である。
図3は、本発明の実施形態のベースラインの補正処理の概略の説明図である。
図3では、図24と同じ処理で算出された仮のベースラインを図示する。仮のベースラインを算出するために応答性能の構成情報は、図3に示す(1)の領域と(2)の領域とに区分される。
具体的には、図3に示す(1)の領域の仮のベースラインは、図23に示すように、応答性能3−a、2−b、1−c、及び1−dを用いて算出される。これらの応答性能の構成情報(CPU割当率、DBキャッシュ)は、図23を参照するに、順に3−a(20、1)、2−b(30、1.5)、1−c(45、1.5)、及び1−d(45、2)である。
一方、図3に示す(2)の領域の仮のベースラインは、図23に示すように、応答性能3−b、2−b、1−e、2−c、及び1−dを用いて算出される。これらの応答性能の構成情報(CPU割当率、DBキャッシュ)は、図23を参照するに、順に3−b(30、1.5)、2−b(30、1.5)、1−e(35,2)、2−c(45、1.5)、及び1−d(45、2)である。
このため、(1)の領域の仮のベースラインを補正するための値は、CPU割当率20%、30%、及び45%の各相関値、及び、DBキャッシュ1MB、1.5MBの各相関値に基づいて算出される。
(2)の領域の仮のベースラインを補正するための値は、CPU割当率20%の相関値及びDBキャッシュ1MBの相関値を含まず、CPU割当率30%、及び45%の各相関値、及び、DBキャッシュ1.5MBの各相関値に基づいて算出される。
図3に示すように、仮のベースラインを補正するための値は、各相関値に各構成情報に設定された重み係数を乗算した値を加算した値である。
図4は、本発明の実施形態の相関値変更処理の概略の説明図である。
図4に示すように、現在の応答性能が、仮のベースラインと補正したベースラインとの範囲内にある場合、現在の応答性能と補正したベースラインとの差分(d)が小さくなるように、相関関数及び重み付け係数の少なくとも一方を変更することによって各構成情報の相関値を変更する。
なお、相関値変更処理は、図16及び図17で詳細を説明する。
図5は、本発明の実施形態の障害予兆検知システム500のシステム構成図である。障害予兆検知システム500は、監視対象となるITシステム550に接続される。
障害予兆検知システム500は、CPU521、メモリ(記憶領域)522、外部記憶装置523及び通信インタフェース(I/F)524を備える。
CPU521は、メモリ522に記憶された各種プログラムを実行する。
メモリ522は、状態管理部501、ストリームデータ処理部502、ベースライン(BL)生成部503、補正部504、閾値生成部505、異常検知部506、通知部507、及び、相対比較部508をプログラムとして記憶する。また、メモリ522は、状態値格納データベース(DB)511及び相関値格納データベース(DB)512をデータベースとして記憶する。メモリ522に記憶された各種プログラム及び各種データベースは、図6で詳細を説明する。
なお、メモリ522に記憶された各種プログラム及び各種データベースは、外部記憶装置523に記憶され、CPU521が、必要な場合に外部記憶装置523からメモリ522にロードし、実行又は参照してもよい。
通信I/F524は、障害予兆検知システム500と通信する装置に接続される。具体的には、通信I/F524は、観測対象となるITシステム550及び管理者が操作する図示しないクライアントPCに接続される。
なお、上述した各部の機能を実現するプログラムは一つのメモリに格納されている必要はなく、複数の計算機のメモリに分散して格納され、複数の計算機によって予兆検知システム200が実現されてもよい。
また、各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
ITシステム550は、CPU551、記憶装置552、入出力装置553及びチューニングパラメータ554を備える。
CPU551は、記憶装置552に記憶された各種プログラムを実行する。記憶装置552は、各種プログラム等を格納する。入出力装置553は、各種データがITシステム550に入力される装置(例えばマウス及びキーボード等)、及び、各種データを出力する装置(例えば、ディスプレイ及びプリンタ等)を含む。チューニングパラメータ554は、各種ソフトウェアの各種パラメータの値であり、通常、記憶装置552に記憶される。
図6は、本発明の実施形態の障害予兆検知システム500の機能ブロック図である。状態管理部501は、ITシステム550から稼働情報及び構成情報を収集し、収集した稼働情報に収集した構成情報を付加した状態情報(状態値)をストリームデータ処理部502に入力する。状態管理部501が収集する構成情報は、図8で詳細を説明する。
ストリームデータ処理部502は、状態管理部501から入力された状態値を一時保持し、所定時間(例えば、1分)間隔で状態値に含まれる稼働情報及び構成情報を平均化して、平均化した稼働情報及び構成情報を状態値格納DB511に格納する。ストリームデータ処理部502が状態値格納DB511に稼働情報及び構成情報を格納する処理及び状態値格納DB511は、図9A及び図9Bで詳細を説明する。
また、状態管理部501が稼働情報及び構成情報を収集し、ストリームデータ処理部502が稼働情報及び構成情報を状態値格納DB511に格納する一連の処理を観測対象情報収集処理といい、観測対象情報収集処理は図10で詳細を説明する。
BL生成部503は、状態値格納DB511に格納された過去の状態値を取得し、取得した過去の稼働情報を母数とした統計量を仮のベースラインとして算出し、算出した仮のベースラインを補正部504に入力する。具体的には、図24で説明したように、BL生成部503は、異なる日の同じ時刻の稼働情報を平均化することによって仮のベースラインを算出する。
補正部504は、BL生成部503から入力された仮のベースラインの算出に用いられた構成情報と現在の構成情報とが異なる場合、相関値格納DB512に格納された相関関数を取得し、取得した相関関数に基づいて相関値を算出し、算出した相関値を仮のベースラインに反映することによって、仮のベースラインを現在の構成情報に対応したベースラインを算出する。
なお、相関関数は、状態値格納DB511に格納された稼働情報と構成情報との対応関係を示す関数である。相関関数の設定処理には、障害予兆検知システム500が状態値格納DB511に格納された過去の稼働情報及び構成情報に基づいて自動で設定する相関値自動設定処理と、管理者が手動で設定する相関値手動設定処理とがある。相関値自動設定処理及び相関値手動設定処理は、図12で詳細を説明する。
また、補正部504が仮のベースラインを補正してベースラインを算出する処理は、図13で詳細を説明する。
また、BL生成部503が仮のベースラインを生成せずに、補正部504が状態値格納DB511に格納された稼働情報に相関値を反映させ、相関値を反映させた稼働情報に基づいてベースラインを算出してもよい。このベースラインの算出処理は、図14で詳細を説明する。
相対比較部508は、仮のベースライン及び当該仮のベースラインを補正したベースラインと現在の稼働情報とを比較することによって、構成情報の変更による稼働情報の変化の傾向を検証する。
具体的には、相対比較部508は、現在の稼働情報が、仮のベースラインと補正後のベースラインと差分の範囲内にあるか否かを判定する。相対比較部508は、現在の稼働情報が、仮のベースラインと補正後のベースラインと差分の範囲内にないと判定した場合、補正後のベースラインが異常であることを検出する。相対比較部508が補正後のベースラインの異常を検出する処理については、図15で詳細を説明する。
一方、相対比較部508は、現在の稼働情報が、仮のベースラインと補正後のベースラインと差分の範囲内にあると判定した場合、現在の稼働情報と補正後のベースラインとの差分を小さくするように、相関値を変更する。これによって、補正後のベースラインがより現在の稼働情報に近くなるので、ITシステム550の異常を検出する精度を向上させることができる。相対比較部508の一連の処理は、図17を用いて後述する。なお、相対比較部508が相関値を変更する処理については、図16で詳細を説明する。
閾値生成部505は、補正後のベースラインに基づいて、ITシステム550の異常を検出するための閾値を設定する。閾値は、上限閾値及び下限閾値を含み、上限閾値は、補正後のベースラインに所定の値が加算されることによって算出され、下限閾値は、補正後のベースラインから所定値が減算されることによって算出される。
本実施形態では、閾値を算出するための所定の値として、過去の状態値を母数とした統計量を用いる方法と、予め設定された値を用いる方法とがある。統計量を用いて閾値を算出する処理については、図19で詳細を説明し、予め設定された値を用いて算出する処理については、図20で詳細を説明する。
異常検知部506は、現在の構成情報が、閾値生成部505によって算出された閾値の範囲内にあるか否かを判定する。異常検知部506は、現在の構成情報が、閾値生成部505によって算出された閾値の範囲内にないと判定した場合、ITシステム550の異常を検知し、その旨を通知部507に通知する。一方、異常検知部506は、現在の構成情報が、閾値生成部505によって算出された閾値の範囲内にあると判定した場合、ITシステム550に異常はないと判定する。
なお、閾値生成部505による閾値の算出処理と異常検知部506によるITシステム550の異常の検知処理とを合わせて異常検知処理といい、図19及び図20で詳細を説明する。
通知部507は、異常検知部506からITシステム550の異常を検知した旨が通知されると、ITシステム550の異常を検知した旨を管理者に通知する。通知の方法としては、障害予兆検知システム500に接続された図示しないクライアントPCの画面に異常検知画面2100(図21参照)を出力する方法、当該クライアントPCからスピーカから出力する方法、及び、メール等によって出力する方法がある。
異常検知画面2100については、図21で詳細を説明し、通知部507による通知処理は図22で詳細を説明する。
図7は、本発明の実施形態の障害予兆検知システム500による全体処理のフローチャートである。
この全体処理は、障害予兆検知システム500に備わるCPU521によって実行される。
まず、障害予兆検知システム500は、観測対象情報収集処理を実行する(701)。観測対象情報収集処理は、状態管理部501がITシステム550から稼働情報及び構成情報を収集し、ストリームデータ処理部502が状態管理部501によって収集された稼働情報及び構成情報を状態値格納DB511に格納する処理である。
次に、障害予兆検知システム500は、ベースライン生成処理を実行する(702)。ベースライン生成処理は、補正部504が現在の構成情報に対応するベースラインを生成する処理である。
次に、障害予兆検知システム500は、相対比較処理を実行する(703)。相対比較処理は、相対比較部508が仮のベースラインとベースラインとを比較する処理である。
次に、障害予兆検知システム500は、異常検知処理を実行する(704)。異常検知処理は、閾値生成部505が閾値を生成し、現在の稼働情報が閾値の範囲にあるか否かを異常検知部506が判定することによってITシステム550の異常を検知する処理である。
次に、障害予兆検知システム500は、通知処理を実行し(705)、全体処理を終了する。通知処理は、異常検知処理でITシステム550の異常が検知された場合、通知部507が当該異常を管理者に通知する処理である。
図8は、本発明の実施形態のITシステム550から収集される構成情報の説明図である。ITシステム550は、少なくとも一台の物理マシン810によって構成されている。物理マシン810の図示しないハイパバイザ上では仮想マシン820が稼働する。ここで、ITシステム550から収集される構成情報は、ITシステム550の物理的な構成情報及びITシステム550の論理的な構成情報を含む。
物理的な構成情報は、物理マシン810に備わる物理資源(例えばCPU、メモリ、及びハードディスク等)の構成情報である。例えば、物理的な構成情報は、CPUのクロック数及びコア数に関する情報、メモリのクロック数及び容量に関する情報、並びにハードディスクの容量及びバッファサイズに関する情報を含む。
論理的な構成情報は、物理マシン810によって実行されるソフトウェア805に関する情報である。論理的な構成情報は、例えば、物理マシン810によって実行されるOSのバージョン情報844、及びデータベースのキャッシュサイズ845等を含む。また、論理的な構成情報は、仮想マシン820に割り当てられた物理資源に関する情報を含む。仮想マシン820に割り当てられた物理資源に関する情報は、例えば、仮想マシン820に割り当てられたCPUのコア数に関する情報、仮想マシン820に割り当てられたメモリの容量に関する情報、及び、仮想マシン820に割り当てられたハードディスクの容量に関する情報を含む。
図9A及び図9Bは、本発明の実施形態の観測対象情報収集処理で、状態管理部501によって収集されたITシステム550の状態値をストリームデータ処理部502が状態値格納DB511に格納するまでの説明図である。
図9Aの(A)は、ITシステム550の応答性能(稼働情報)及び構成情報を時系列でグラフ化したものである。ここでは、12時01分00秒に構成情報に含まれるメモリ容量が1024MBから2048MBに変更され、構成情報に含まれるDBキャッシュが1MBから2MBに変更されたものとする。なお、メモリ容量は物理的な構成情報であり、DBキャッシュは論理的な構成情報である。
図9Aの(B)は、状態管理部501によってITシステム550から収集された状態値がストリームデータ処理部502に一時的に保持された状態を図示したものである。
ストリームデータ処理部502によって一時的に保持された状態値は、収集時刻901、稼働情報902、及び構成情報903を含む。
収集時刻901には、稼働情報及び構成情報を含む状態値を状態管理部501が収集した時刻が登録される。なお、状態管理部501は、例えば1秒単位でITシステム550から状態値を収集するものとする。
稼働情報902には、収集時刻に登録された時刻に収集されたITシステム550の応答性能が登録される。構成情報903には、収集時刻に登録された時刻に収集されたITシステム550の物理的な構成情報(メモリ容量)及び論理的な構成情報(DBキャッシュ)が登録される。
ストリームデータ処理部502は、所定の時間単位(例えば、1分単位)で、一時的に保持された状態値の平均化する。ストリームデータ処理部502によって平均化された状態値を図9Aの(C)に示す。
ストリームデータ処理部502は、平均化された状態値を状態値格納DB511に格納する。状態値格納DB511を図9Bの(D)に示す。状態値格納DB511は、図9Aの(B)に示すストリームデータ処理部502に保持された状態値と同じく、収集時刻901、稼働情報902、及び構成情報903を含む。これらの説明は図9Aの(B)と同じなので、説明を省略する。
図10は、本発明の実施形態の観測対象情報収集処理のフローチャートである。観測対象情報収集処理は、CPU521が、状態管理部501に対応するプログラム及びストリームデータ処理部502に対応するプログラムを呼び出し、これらのプログラムを実行することによって実行される。
まず、ストリームデータ処理部502は、状態管理部501によって収集された状態値を平均化するための時間を計測するために、経過時間をゼロに設定する(1001)。
次に、状態管理部501は、観測対象となるITシステム550から稼働情報を収集し(1002)、観測対象となるITシステム550から構成情報を収集する(1003)。
そして、状態管理部501は、ステップ1002の処理で収集された稼働情報にステップ1003の処理で収集された稼働情報を付加した状態をストリームデータ処理部502に入力し、ストリームデータ処理部502は、入力された状態値を一時的に保持する(1004)。
次に、ストリームデータ処理部502は、ステップ1001の処理を実行してからの経過時間が状態値を平均化する時間を超えたか否かを判定する(1005)。
ステップ1001の処理を実行してからの経過時間が状態値を平均化する時間を超えていないと、ステップ1005の処理で判定された場合、ステップ1002の処理に戻る。
一方、ステップ1001の処理を実行してからの経過時間が状態値を平均化する時間を超えたと、ステップ1005の処理で判定された場合、ストリームデータ処理部502は、状態値の稼働情報及び構成情報を平均化して、平均化した稼働情報及び構成情報を状態値格納DB511に格納する(1006)。
次に、状態管理部501は、ベースラインを生成するための所定の期間(例えば、1日)の状態値が状態値格納DB511に格納されたか否かを判定する(1007)。
ステップ1007の処理で、ベースラインを生成するための所定の期間(例えば、1日)の状態値が状態値格納DB511に格納されたと判定された場合、観測対象情報収集処理を終了し、CPU521は、図7に示すステップ702の処理であるベースライン生成処理を実行する。
一方、ステップ1007の処理で、ベースラインを生成するための所定の期間(例えば、1日)の状態値が状態値格納DB511に格納されていないと判定された場合、ステップ1001の処理に戻る。
図11は、本発明のベースライン生成処理で、ベースラインが生成されるまでの説明図である。
図11の(A)には、BL生成部503によって生成された仮のベースラインを図示する。仮のベースラインは、BL生成部503が、状態値格納DB511を参照し、異なる日の同じ時刻の稼働情報を平均化することによって、算出される。
図11の(B)には、相関値格納DB512の説明図を図示する。相関値格納DB512には、構成情報の種類及び稼働情報の種類ごとに、構成情報と稼働情報との対応関係を示す相関関数が登録される。相関値格納DB512は、構成値X1101、稼働値Y1102、及び相関値1103を含む。
構成値X1101には構成情報の種類が登録され、稼働値Y1102には応答時間が登録される。相関関数には、構成値をX軸にプロットし、稼働値をY軸にプロットした場合に、構成値及び稼働値を通る関数が登録される。
図11の(C)には、補正部504によって、仮のベースラインに対して相関値が反映されることによって生成されたベースラインを図示する。
ここで、相関値は、仮のベースラインを算出した過去の稼働情報を現在の構成情報に対応させるためのものである。相関値は相関関数に基づいて算出されるが、相関関数の算出処理については、図12で詳細を説明する。
相関値は、例えば、現在のメモリ容量が2048MBである場合、メモリ容量が1024MBである場合の稼働情報の相関値は、相関関数f(x)とすると、現在のメモリ容量の稼働情報(f(2048))からメモリ容量が1024MBの稼働情報(f(1024))を減算することによって、算出される。
仮のベースラインに相関値を反映させるとは、仮のベースラインを算出するために用いられた稼働情報の構成情報に対応する相関値に所定の重み係数を乗算した値(図11の(C)の(1)参照)を仮のベースラインに加算することである。
これによって、障害予兆検知システム500は、仮のベースラインから現在の構成情報に対応させたベースラインを算出することができる。
図12は、本発明の実施形態の相関関数算出処理の説明図である。相関関数の算出処理には、障害予兆検知システム500が状態値格納DB511を参照して相関関数を自動的に算出する相関関数自動設定処理と、管理者によって相関関数が手動で設定される相関関数手動設定処理とがある。まず、相関関数自動設定処理について説明する。
補正部504は、構成情報をx軸とし、稼働情報をy軸として、状態値格納DB511に格納された構成情報及び稼働情報をプロットする。なお、補正部504は、同じ構成情報に複数の稼働情報がある場合、当該複数の稼働情報の平均値を稼働情報としてプロットする。
次に、補正部504は、プロットされた構成情報及び稼働情報を通る関数を例えば最小二乗法等を用いて算出し、算出した関数を相関関数に設定する。
図12では、構成情報がメモリ容量であり、稼働情報が応答時間である場合の相関関数(f(x)=−0.15x+500)、及び、構成情報がDBキャッシュであり、稼働情報が応答時間である場合の相関関数(g(x)=(350/x)−50)を図示する。
そして、補正部504は、設定した相関関数を相関値格納DB512に登録する。
次に、相関関数手動設定処理について説明する。
相関関数手動設定処理では、補正部504は、障害予兆検知システム500に接続された図示しないクライアントPCに、相関関数登録画面1200を表示する指示を送信する。クライアントPCは、当該指示を受信すると、相関関数登録画面1200を表示する。
相関関数登録画面1200は、構成値入力フィールド1201、稼働値入力フィールド1202、相関関数入力フィールド1203、及び、登録ボタン1204を含む。
構成値入力フィールド1201は、相関関数を算出する構成情報の名称が入力されるフィールドである。稼働値入力フィールド1202は、相関関数を算出する稼働情報の名称が入力されるフィールドである。相関関数入力フィールド1203は、構成値入力フィールド1201に入力された構成情報及び稼働値入力フィールド1202に入力された稼働情報の相関関数が入力されるフィールドである。
登録ボタン1204が操作されると、クライアントPCは、構成値入力フィールド1201に入力された構成情報、稼働値入力フィールド1202に入力された稼働情報、及び、相関関数入力フィールド1203に入力された相関関数を相関関数入力データとして障害予兆検知システム500に送信する。
障害予兆検知システム500が相関関数入力データを受信した場合、補正部504は、受信した相関関数入力データを相関値格納DB512に登録する。
図13は、本発明の実施形態の相関値を仮のベースラインに反映させるベースライン生成処理のフローチャートである。
ベースライン生成処理は、CPU521がBL生成部503に対応するプログラム、及び、補正部504に対応するプログラムを呼び出し、これらのプログラムを実行することによって実行される。
まず、BL生成部503は、状態値格納DB511に格納された状態値から、仮のベースラインを生成可能な期間の過去の状態値を取得する(1301)。
次に、BL生成部503は、ステップ1301の処理で取得した状態値の稼働情報を母体とした統計量を仮のベースラインとして算出する(1302)。
具体的には、BL生成部503は、ステップ1301の処理で取得した状態値の稼働情報のうち、収集時刻が同じ稼働情報の平均を統計量として算出する。
次に、BL生成部503は、現在の構成情報と、仮のベースラインの算出に用いられた過去の稼働情報の構成情報とが異なるか否かを判定する(1303)。
ステップ1303の処理で、現在の構成情報と、仮のベースラインの算出に用いられた過去の稼働情報の構成情報とが異なると判定された場合、補正部504は、相関値格納DB512を参照し、異なると判定された構成情報の相関関数を取得する(1304)。
そして、補正部504は、ステップ1304の処理で取得した相関関数に基づいて、仮のベースラインの算出に用いられた稼働情報の相関値を算出する(1305)。
具体的には、補正部504は、仮のベースラインの算出に用いられた稼働情報のうち、構成情報が現在の構成情報と異なる稼働情報の相関値を算出する。相関値は、相関関数に現在の構成情報を代入した値から、相関値の算出対象となる構成情報を相関関数に代入した値を減算することによって算出される。
次に、補正部504は、仮のベースラインにステップ1305の処理で算出した相関値を反映することによって、現在の構成情報に対応するベースラインを算出し(1306)、ベースライン生成処理を終了する。
ステップ1303の処理で、現在の構成情報と、仮のベースラインの算出に用いられた過去の稼働情報の構成情報とが同じであると判定された場合、仮のベースラインが現在の構成情報に対応しているので、補正部504は、ステップ1304〜1306の処理を実行せずに、仮のベースラインをベースラインとして設定し、ベースライン生成処理を終了する。
以上によって、現在の構成情報に対応するベースラインが算出されるため、構成情報の変更直後から将来の稼働情報を予測可能な計算機を提供することを目的とする。
図14は、本発明の実施形態の相関値を状態値に反映させるベースライン生成処理のフローチャートである。
まず、BL生成部503は、状態値格納DB511に格納された状態値から、仮のベースラインを生成可能な期間の過去の状態値を取得する(1401)。
次に、BL生成部503は、現在の構成情報と、ステップ1401の処理で取得された過去の状態値の構成情報とが異なるか否かを判定する(1402)。
ステップ1402の処理で、現在の構成情報と、ステップ1401の処理で取得された過去の状態値の構成情報とが異なると判定された場合、補正部504は、相関値格納DB512を参照し、異なると判定された構成情報の相関関数を取得する(1403)。
そして、補正部504は、ステップ1403の処理で取得した相関関数に基づいて、ステップ1401の処理で取得された過去の状態値の稼働情報の相関値を算出する(1404)。
具体的には、補正部504は、ステップ1401の処理で取得された過去の状態値の稼働情報のうち、構成情報が現在の構成情報と異なる稼働情報の相関値を算出する。相関値は、相関関数に現在の構成情報を代入した値から、相関値の算出対象となる構成情報を相関関数に代入した値を減算することによって算出される。
次に、補正部504は、ステップ1401の処理で取得された過去の状態値の稼働情報にステップ1404の処理で算出した相関値を反映する(1405)。
そして、BL生成部503は、ステップ1405の処理で相関値を反映した過去の状態値の稼働情報を母体とした統計量をベースラインとして算出し(1406)、ベースライン生成処理を終了する。
ステップ1402の処理で、現在の構成情報と、ステップ1401の処理で取得された過去の状態値の構成情報とが同じであると判定された場合、BL生成部503は、ステップ1401の処理で取得した過去の状態値の稼働情報を母体とした統計量をベースラインとして算出し(1407)、ベースライン生成処理を終了する。
以上によって、現在の構成情報に対応するベースラインが算出される。
次に、相対比較部508の処理について図15及び図16を用いて説明する。図15は、本発明の実施形態の相対比較部508が補正後のベースラインの異常を検出する処理の説明図である。
相対比較部508は、現在の稼働情報が補正後のベースラインと仮のベースラインとの範囲内にあるか否かを判定する。
図15に示すように、現在の稼働情報が補正後のベースラインと仮のベースラインとの範囲にない場合、相対比較部508は、ベースラインが異常であることを検知し、その旨を通知部507に通知する。
通知部507は、異常検知部506から補正後のベースラインの異常を検知した旨が通知されると、補正後のベースラインの異常を検知した旨を管理者に通知する。通知の方法としては、障害予兆検知システム500に接続された図示しないクライアントPCの画面に異常検知画面を出力する方法、当該クライアントPCのスピーカ等から音声により出力する方法、及び、メール等によって出力する方法がある。なお、異常検知画面については、図21で詳細を説明する。
ベースラインの異常は、相関関数の異常に起因するものであり、ベースラインの異常を管理者に通知することは、換言すれば、相関関数の異常を管理者に通知することとなる。
図16は、本発明の実施形態の相対比較部508が相関関数を変更する処理の説明図である。図16に示すように、現在の稼働情報が補正後のベースラインと仮のベースラインとの範囲にある場合、相対比較部508は、現在の稼働情報と補正後のベースラインとの差分を算出し、算出した差分が所定値より大きいか否かを判定する。
算出した差分が所定値より大きいと判定された場合、相対比較部508は、現在の稼働情報と変更後の相関関数に基づいて算出されたベースラインとの差分が所定値となるように、相関関数を変更する。相関関数が変更されることによって、相関値も変更される。
図16では、現在の稼働情報と補正後のベースラインとの差分(d)が所定値(50)より大きいと判定され、構成情報がメモリ容量であり、稼働情報が応答時間である相関関数f(x)がf(x)=−0.15x+500からf(x)=−0.12x+550に変更され、構成情報がDBキャッシュであり、稼働情報が応答時間である相関関数g(x)がg(x)=(350/x)−50からg(x)=(330/x)−60に変更される。
補正部504は、変更後の相関関数に基づいて相関値を算出し、将来の仮のベースラインに算出した相関値を反映して、ベースラインを補正する。
図17は、本発明の実施形態の相対比較部508による相対比較処理のフローチャートである。相対比較処理は、CPU521が相対比較部508に対応するプログラムを呼び出し、このプログラムを実行することによって実行される。
まず、相対比較部508は、補正後のベースラインと仮のベースラインとの間の稼働情報の範囲を特定する(1701)。
次に、相対比較部508は、現在の稼働情報が、ステップ1701の処理で特定された稼働情報の範囲にあるか否かを判定する(1702)。
ステップ1702の処理で、現在の稼働情報が、ステップ1701の処理で特定された稼働情報の範囲にないと判定された場合、相対比較部508は、ベースラインが異常であることを検知し(1703)、その旨を通知部507に通知して、相対比較処理を終了する。
一方、ステップ1702の処理で、現在の稼働情報が、ステップ1701の処理で特定された稼働情報の範囲にあると判定された場合、相対比較部508は、現在の稼働情報とベースラインとの差分が所定値以上であるか否かを判定する(1704)。
ステップ1704の処理で、現在の稼働情報とベースラインとの差分が所定値以上であると判定された場合、相対比較部508は、現在の稼働情報と変更後の相関関数に基づいて算出されるベースラインとの差分が所定値よりも小さくなるように、相関関数を変更する(1705)。
次に、補正部504は、ステップ1705の処理で変更された相関関数に基づいて、現在の時刻よりも後の仮のベースラインの算出に用いられた稼働情報の相関値を算出し、算出した相関値を、現在の時刻よりも後の仮のベースラインに反映し、新たなベースラインを生成し(1706)、相対比較処理を終了する。
なお、図17では、ステップ1704及び1705の処理で、現在の稼働情報とベースラインとの差分が所定値以上である場合、変更後の相関関数に基づいて算出されるベースラインとの差分が所定値よりも小さくなるように相関関数を変更したが、この所定値はゼロであってもよい。すなわち、現在の稼働情報とベースラインとに差分があれば差分がなくなるように、相関関数を変更してもよい。
以上によって、現在の稼働情報が補正後のベースラインと仮のベースラインとの範囲にない場合、補正後のベースラインが現在の稼働情報に対応していないことが考えられるので、本実施形態では、補正後のベースラインの異常が管理者に通知されるようにした。これによって、管理者は相関関数を修正する等の措置をとることができるため、障害予兆検知システム500は、ITシステム550の障害を正確に検出できる。
また、現在の稼働情報と変更後の相関関数に基づいて算出されるベースラインとの差分が小さくなるように、相関関数を変更して相関値を変更する。ここで、相関関数自動設定処理又は相関関数手動設定処理で設定された相関関数は、稼働情報と構成情報との対応関係を正確に示していない可能性がある。これは、相関関数自動設定処理で設定された相関関数は、一つの構成情報の稼働情報が複数ある場合、複数の稼働情報を平均して設定されることに起因し、また、相関関数手動設定処理で設定された相関関数は、管理者が任意に相関関数を指定することに起因する。本実施形態では、相関関数の変更処理で、このような相関関数を現在の稼働情報に対応するように変更することができる。
図18は、本発明の実施形態の異常検知処理の説明図である。異常検知処理では、異常検知部506が、閾値生成部505によって生成された上限閾値と下限閾値との範囲に現在の稼働情報があるか否かを判定し、閾値生成部505によって生成された上限閾値と下限閾値との範囲に現在の稼働情報がないと判定した場合、ITシステム550の異常を検知する。なお、閾値生成部505は、過去の稼働情報の統計量を用いて算出する統計量利用閾値算出処理、又は、予め設定された一定の値を用いて算出する一定値利用閾値算出処理によって閾値を算出する。統計量利用閾値算出処理については図19で詳細を説明し、一定値利用閾値算出処理については図20で詳細を説明する。
図18では、現在の稼働情報が上限閾値よりも大きいので、異常検知部506は、ITシステム550の異常を検知する。
図19は、本発明の実施形態の統計量利用閾値算出処理によって閾値を算出する場合の異常検知処理のフローチャートである。異常検知処理は、CPU521が閾値生成部505に対応するプログラム、及び、異常検知部506に対応するプログラムを呼び出し、これらのプログラムを実行することによって実行される。
まず、閾値生成部505は、状態値格納DB511からベースラインの生成に用いた過去の状態値を取得する(1901)。
そして、閾値生成部505は、ステップ1901の処理で取得した過去の状態値の稼働情報を母数とした統計量を、閾値を生成するための閾値生成値として算出する(1902)。具体的には、閾値生成部505は、過去の状態値の稼働情報の全体の平均(全体平均)を算出し、過去の状態値のうち収集時刻が同じ稼働情報の平均の全体平均からの標準偏差を閾値生成値として算出する。
次に、閾値生成部505は、各時刻のベースラインにステップ1902の処理で算出された各時刻の閾値生成値を加算することによって上限閾値を算出し、各時刻のベースラインからステップ1902の処理で算出された各時刻の閾値生成値を減算することによって、下限閾値を算出する(1903)。これによって、閾値が生成される。
次に、異常検知部506は、現在の稼働情報が上限閾値と下限閾値との範囲にあるか否かを判定する(1904)。具体的には、異常検知部506は、現在の稼働情報が上限閾値以下であって、かつ、現在の稼働情報が下限閾値以上である場合、現在の稼働情報が上限閾値と下限閾値との範囲にあると判定し、現在の稼働情報が上限閾値より大きい場合、又は現在の稼働情報が下限閾値より小さい場合、現在の稼働情報が上限閾値と下限閾値との範囲にないと判定する。
ステップ1904の処理で、現在の稼働情報が上限閾値と下限閾値との範囲にないと判定された場合、異常検知部506は、ITシステム550の異常を検知し、その旨を通知部507に通知して(1905)、異常検知処理を終了する。
一方、ステップ1904の処理で、現在の稼働情報が上限閾値と下限閾値との範囲にあると判定された場合、異常検知部506は、ITシステム550の異常を検知せずに、異常検知処理を終了する。
図20は、本発明の実施形態の一定値利用閾値算出処理によって閾値を算出する場合の異常検知処理のフローチャートである。なお、図20に示す異常検知処理のうち、図19に示す異常検知処理と同じ処理は、図19と同じ符号を付与し、説明を省略する。
まず、閾値生成部505は、ベースラインに予め設定された一定値を加算することによって上限閾値を算出し、ベースラインから予め設定された一定値を減算することによって下限閾値を算出し、閾値を生成する(2001)。
なお、ステップ1904及び1905の処理は、図19と同じであるので、説明を省略する。
図21は、本発明の実施形態の異常検知画面2100の説明図である。異常検知画面2100は、ITシステム550の異常が検出された旨、又は、ベースラインの異常が検出された旨が通知部507に入力された場合、当該異常を管理者に通知するために表示される画面である。
異常検知画面2100は、稼働情報グラフ表示フィールド2101、異常検出関連情報表示フィールド2102、及び異常検知ログ表示フィールド2103を含む。
稼働情報グラフ表示フィールド2101には、異常が検出されるまでの所定期間の稼働情報の、当該所定期間のベースライン、並びに、当該所定期間の上限閾値及び下限閾値が表示される。
異常検出関連情報表示フィールド2102には、異常が検知された時刻の稼働情報の測定値、当該時刻のベースライン、当該時刻の閾値、及び当該時刻の相関値が表示される。
異常検知ログ表示フィールド2103には、いままで検出された異常の検知時刻と、いままで検出された異常がITシステム550の異常であるか、ベースラインの異常であるかを示す詳細内容と、が表示される。ITシステム550の異常が異常検知ログ表示フィールド2103に表示された場合、当該ITシステム550の異常が、稼働情報が上限値より大きくなったことに起因するのか、稼働情報が下限値より小さくなったことに起因するのかを示す情報も詳細内容に表示される。
図22は、本発明の実施形態の通知処理のフローチャートである。通知処理は、CPU521が通知部507に対応するプログラムに対応するプログラムを呼び出し、このプログラムを実行することによって実行される。
まず、通知部507は、ITシステム550の異常を検知した旨、又は、ベースラインの異常を検知した旨が異常検知部506から入力されたか否かを判定する(2201)。
ステップ2201の処理で、ITシステム550の異常を検知した旨、又は、ベースラインの異常を検知した旨が異常検知部506から入力されたと判定された場合、通知部507は、
入力された異常が発生した旨を管理者に通知し(2202)、通知処理を終了する。
管理者への通知の方法としては、障害予兆検知システム500に接続された図示しないクライアントPCの画面に異常検知画面2100を出力する方法、当該クライアントPCのスピーカ等から音声により出力する方法、及び、メール等によって外部機器に出力する方法がある。
以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。
本願において開示される代表的な一例を示せば以下の通りである。すなわち、少なくとも一つの装置から当該装置の稼働情報を収集し、前記収集した稼働情報に基づいて当該装置の将来の稼働情報を予測し、記憶領域を備える稼働情報予測計算機において、前記稼働情報と、当該稼働情報の収集時の前記装置の物理的な構成情報及び論理的な構成情報を含む構成情報と、を含む状態情報を前記装置から収集する状態情報収集部と、前記状態情報収集部によって収集された前記稼働情報及び前記構成情報を前記記憶領域に格納する状態情報格納部と、前記状態情報格納部によって前記記憶領域に格納された過去の稼働情報を、現在の構成情報に対応させるための相関値を算出する相関値算出部と、前記過去の稼働情報と前記相関値算出部によって算出された相関値とに基づいて、将来の稼働予測値を算出する稼働予測値算出部と、を有し、前記相関値は、前記過去の稼働情報を現在の物理的な構成情報に対応させるための第1相関値、及び前記過去の稼働情報を現在の論理的な構成情報に対応させるための第2相関値を含み、前記稼働予測値算出部は、前記過去の稼働情報と前記第1相関値及び前記第2相関値とに基づいて、前記将来の稼働予測値を算出することを特徴とする。
本願において開示される代表的な一例を示せば以下の通りである。すなわち、少なくとも一つの装置から当該装置の稼働情報を収集し、前記収集した稼働情報に基づいて当該装置の将来の稼働情報を予測し、記憶領域を備える稼働情報予測計算機において、前記稼働情報と、当該稼働情報の収集時の前記装置の物理的な構成情報及び論理的な構成情報を含む構成情報と、を含む状態情報を前記装置から収集する状態情報収集部と、前記状態情報収集部によって収集された前記稼働情報及び前記構成情報を前記記憶領域に格納する状態情報格納部と、前記状態情報格納部によって前記記憶領域に格納された過去の稼働情報を、現在の構成情報に対応させるための相関値を算出する相関値算出部と、前記過去の稼働情報と前記相関値算出部によって算出された相関値とに基づいて、将来の稼働予測値を算出する稼働予測値算出部と、を有し、前記相関値は、前記過去の稼働情報を現在の物理的な構成情報に対応させるための第1相関値、及び前記過去の稼働情報を現在の論理的な構成情報に対応させるための第2相関値を含み、前記物理的な構成情報及び前記論理的な構成情報に対応してそれぞれ重み係数が設定され、前記稼働予測値算出部は、前記第1相関値及び前記第2相関値に前記重み係数を乗算した値を加算し、前記過去の稼働情報と前記加算した値とに基づいて、前記将来の稼働予測値を算出することを特徴とする。

Claims (19)

  1. 少なくとも一つの装置から当該装置の稼働情報を収集し、前記収集した稼働情報に基づいて当該装置の将来の稼働情報を予測し、記憶領域を備える稼働情報予測計算機において、
    前記稼働情報と、当該稼働情報の収集時の前記装置の構成情報と、を含む状態情報を前記装置から収集する状態情報収集部と、
    前記状態情報収集部によって収集された前記稼働情報及び前記構成情報を前記記憶領域に格納する状態情報格納部と、
    前記状態情報格納部によって前記記憶領域に格納された過去の稼働情報を、現在の構成情報に対応させるための相関値を算出する相関値算出部と、
    前記過去の稼働情報と前記相関値算出部によって算出された相関値とに基づいて、将来の稼働予測値を算出する稼働予測値算出部と、を有することを特徴とする稼働情報予測計算機。
  2. 請求項1に記載の稼働情報予測計算機であって、
    前記相関値算出部は、
    前記状態情報格納部によって前記記憶領域に格納された複数の稼働情報と、当該複数の稼働情報の収集時の構成情報と、に基づいて、前記構成情報と前記稼働情報との関係を示す相関関数を算出し、
    前記相関関数に基づいて、前記現在の構成情報に対応する稼働情報及び前記過去の構成情報に対応する稼働情報を算出し、
    前記現在の構成情報に対応する稼働情報から前記過去の構成情報に対応する稼働情報を減算することによって、前記相関値を算出することを特徴とする稼働情報予測計算機。
  3. 請求項1又は2に記載の稼働情報予測計算機であって、
    前記稼働予測値算出部は、
    前記過去の稼働情報に基づいて、仮の稼働予測値を算出し、
    前記算出した仮の稼働予測値を前記相関値に基づいて補正することによって、前記将来の稼働予測値を算出することを特徴とする稼働情報予測計算機。
  4. 請求項1又は2に記載の稼働情報予測計算機であって、
    前記稼働予測値算出部は、
    前記過去の稼働情報を前記相関値に基づいて前記現在の構成情報に対応する稼働情報に変換し、
    前記変換した稼働情報に基づいて前記将来の稼働予測値を算出することを特徴とする稼働情報予測計算機。
  5. 請求項1、2及び4のいずれか一つに記載の稼働情報予測計算機であって、
    前記稼働予測値算出部は、前記過去の稼働情報に基づいて仮の稼働予測値を算出し、
    前記稼働情報予測計算機は、
    前記状態情報収集部によって収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にあるか否かを判定する比較部と、
    前記状態情報収集部によって収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にないと前記比較部によって判定された場合、前記将来の稼働予測値が異常であることを通知する稼働予測値異常通知部と、
    前記状態情報収集部によって収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にあると前記比較部によって判定された場合、前記状態情報収集部によって収集された現在の稼働情報と前記将来の稼働予測値との差分が小さくなるように、前記相関値を変更する相関値変更部と、を備えることを特徴とする稼働情報予測計算機。
  6. 請求項1から5のいずれか一つに記載の稼働情報予測計算機であって、
    前記将来の稼働予測値に所定の値を加算することによって上限閾値を算出し、前記将来の稼働予測値に前記所定の値を減算することによって下限閾値を算出する閾値算出部を備え、
    前記閾値算出部は、前記稼働予測値算出部が前記将来の稼働予測値を算出するために用いた前記過去の稼働情報の統計量又は予め設定された一定の値を前記所定の値として設定することを特徴とする稼働情報予測計算機。
  7. 請求項6に記載の稼働情報予測計算機であって、
    前記状態情報収集部によって収集された現在の稼働情報が前記上限閾値と前記下限閾値との範囲内にない場合、前記装置が異常であることを報知する装置異常通知部と、を備えることを特徴とする稼働情報予測計算機。
  8. 請求項1から7のいずれか一つに記載の稼働情報予測計算機であって、
    前記構成情報は、前記装置の物理的な構成情報及び論理的な構成情報の少なくとも一方を含むことを特徴とする稼働情報予測計算機。
  9. 請求項8に記載の稼働情報予測計算機であって、
    前記物理的な構成情報は、前記装置に備わる物理資源の性能値及び数の少なくとも一方を含み、
    前記論理的な構成情報は、前記装置に生成された仮想装置に対して割り当てられた前記デバイスの要件、前記装置で実行されるソフトウェアのバージョン情報、及び、前記ソフトウェアのチューニングパラメータの少なくとも一つを含むことを特徴とする稼働情報予測計算機。
  10. 少なくとも一つの装置から当該装置の稼働情報を収集し、記憶領域を備える計算機が、前記収集した稼働情報に基づいて当該装置の将来の稼働情報を予測する稼働情報予測方法において、
    前記方法は、
    前記稼働情報と、当該稼働情報の収集時の前記装置の構成情報と、を含む状態情報を前記装置から収集する状態情報収集ステップと、
    前記状態情報収集ステップで収集された前記稼働情報及び前記構成情報を前記記憶領域に格納する状態情報格納ステップと、
    前記状態情報格納ステップで前記記憶領域に格納された過去の稼働情報を、現在の構成情報に対応させるための相関値を算出する相関値算出ステップと、
    前記過去の稼働情報と前記相関値算出ステップで算出された相関値とに基づいて、将来の稼働予測値を算出する稼働予測値算出ステップと、を含むことを特徴とする稼働情報予測方法。
  11. 請求項10に記載の稼働情報予測方法であって、
    前記相関値算出ステップは、
    前記状態情報格納ステップで前記記憶領域に格納された複数の稼働情報と、当該複数の稼働情報の収集時の構成情報と、に基づいて、前記構成情報と前記稼働情報との関係を示す相関関数を算出するステップと、
    前記相関関数に基づいて、前記現在の構成情報に対応する稼働情報及び前記過去の構成情報に対応する稼働情報を算出するステップと、
    前記現在の構成情報に対応する稼働情報から前記過去の構成情報に対応する稼働情報を減算することによって、前記相関値を算出するステップと、を含むことを特徴とする稼働情報予測方法。
  12. 請求項10又11に記載の稼働情報予測方法であって、
    前記稼働予測値算出ステップは、
    前記過去の稼働情報に基づいて、仮の稼働予測値を算出するステップと、
    前記算出した仮の稼働予測値を前記相関値に基づいて補正することによって、前記将来の稼働予測値を算出するステップと、を含むことを特徴とする稼働情報予測方法。
  13. 請求項10又は11に記載の稼働情報予測方法であって、
    前記稼働予測値算出ステップは、
    前記過去の稼働情報を前記相関値に基づいて前記現在の構成情報に対応する稼働情報に変換するステップと、
    前記変換した稼働情報に基づいて前記将来の稼働予測値を算出するステップと、を含むことを特徴とする稼働情報予測方法。
  14. 請求項10、11及び13のいずれか一つに記載の稼働情報予測方法であって、
    前記稼働予測値算出ステップは、前記過去の稼働情報に基づいて仮の稼働予測値を算出し、
    前記状態情報収集ステップで収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にあるか否かを判定する比較ステップを含み、
    前記方法は、
    前記状態情報収集ステップで収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にないと前記比較ステップで判定された場合、前記将来の稼働予測値が異常であることを通知する稼働予測値異常通知ステップと、
    前記状態情報収集ステップで収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にあると前記比較ステップで判定された場合、前記状態情報収集ステップで収集された現在の稼働情報と前記将来の稼働予測値との差分が小さくなるように、前記相関値を変更する相関値変更ステップと、を含むことを特徴とする稼働情報予測方法。
  15. 少なくとも一つの装置から当該装置の稼働情報を収集し、プロセッサ及び記憶領域を備える計算機において、前記収集した稼働情報に基づいて当該装置の将来の稼働情報を予測する処理を前記プロセッサに実行させるプログラムにおいて、
    前記処理は、
    前記稼働情報と、当該稼働情報の収集時の前記装置の構成情報と、を含む状態情報を前記装置から収集する状態情報収集ステップと、
    前記状態情報収集ステップで収集された前記稼働情報及び前記構成情報を前記記憶領域に格納する状態情報格納ステップと、
    前記状態情報格納ステップで前記記憶領域に格納された過去の稼働情報を、現在の構成情報に対応させるための相関値を算出する相関値算出ステップと、
    前記過去の稼働情報と前記相関値算出ステップで算出された相関値とに基づいて、将来の稼働予測値を算出する稼働予測値算出ステップと、を含むことを特徴とするプログラム。
  16. 請求項15に記載のプログラムであって、
    前記相関値算出ステップは、
    前記状態情報格納ステップで前記記憶領域に格納された複数の稼働情報と、当該複数の稼働情報の収集時の構成情報と、に基づいて、前記構成情報と前記稼働情報との関係を示す相関関数を算出するステップと、
    前記相関関数に基づいて、前記現在の構成情報に対応する稼働情報及び前記過去の構成情報に対応する稼働情報を算出するステップと、
    前記現在の構成情報に対応する稼働情報から前記過去の構成情報に対応する稼働情報を減算することによって、前記相関値を算出するステップと、を含むことを特徴とするプログラム。
  17. 請求項15又は16に記載のプログラムであって、
    前記稼働予測値算出ステップは、
    前記過去の稼働情報に基づいて、仮の稼働予測値を算出するステップと、
    前記算出した仮の稼働予測値を前記相関値に基づいて補正することによって、前記将来の稼働予測値を算出するステップと、を含むことを特徴とするプログラム。
  18. 請求項15又は16に記載のプログラムであって、
    前記稼働予測値算出ステップは、
    前記過去の稼働情報を前記相関値に基づいて前記現在の構成情報に対応する稼働情報に変換するステップと、
    前記変換した稼働情報に基づいて前記将来の稼働予測値を算出するステップと、を含むことを特徴とするプログラム。
  19. 請求項15、16及び18のいずれか一つに記載のプログラムであって、
    前記稼働予測値算出ステップは、前記過去の稼働情報に基づいて仮の稼働予測値を算出し、
    前記状態情報収集ステップで収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にあるか否かを判定する比較ステップを含み、
    前記処理は、
    前記状態情報収集ステップで収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にないと前記比較ステップで判定された場合、前記将来の稼働予測値が異常であることを報知する稼働予測値異常報知ステップと、
    前記状態情報収集ステップで収集された現在の稼働情報が、前記仮の稼働予測値と前記将来の稼働予測値との範囲内にあると前記比較ステップで判定された場合、前記状態情報収集ステップで収集された現在の稼働情報と前記将来の稼働予測値との差分が小さくなるように、前記相関値を変更する相関値変更ステップと、を含むことを特徴とするプログラム。
JP2013542774A 2011-11-10 2011-11-10 稼働情報予測計算機、稼働情報予測方法及びプログラム Expired - Fee Related JP5686904B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/075980 WO2013069138A1 (ja) 2011-11-10 2011-11-10 稼働情報予測計算機、稼働情報予測方法及びプログラム

Publications (2)

Publication Number Publication Date
JP5686904B2 JP5686904B2 (ja) 2015-03-18
JPWO2013069138A1 true JPWO2013069138A1 (ja) 2015-04-02

Family

ID=48288752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013542774A Expired - Fee Related JP5686904B2 (ja) 2011-11-10 2011-11-10 稼働情報予測計算機、稼働情報予測方法及びプログラム

Country Status (3)

Country Link
US (1) US20140244563A1 (ja)
JP (1) JP5686904B2 (ja)
WO (1) WO2013069138A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120046929A1 (en) * 2010-08-20 2012-02-23 International Business Machines Corporation Statistical Design with Importance Sampling Reuse
US9602426B2 (en) * 2013-06-21 2017-03-21 Microsoft Technology Licensing, Llc Dynamic allocation of resources while considering resource reservations
US10410155B2 (en) 2015-05-01 2019-09-10 Microsoft Technology Licensing, Llc Automatic demand-driven resource scaling for relational database-as-a-service
US9471778B1 (en) 2015-11-30 2016-10-18 International Business Machines Corporation Automatic baselining of anomalous event activity in time series data
CN106909485B (zh) * 2015-12-23 2020-10-23 伊姆西Ip控股有限责任公司 用于确定存储系统性能下降的原因的方法和设备
CN106685752B (zh) * 2016-06-28 2019-01-04 腾讯科技(深圳)有限公司 一种信息处理方法及终端
US10565046B2 (en) * 2016-09-01 2020-02-18 Intel Corporation Fault detection using data distribution characteristics
WO2018135008A1 (ja) * 2017-01-23 2018-07-26 株式会社日立製作所 影響分析システム、計測項目最適化方法、および計測項目最適化プログラム
US10395016B2 (en) * 2017-01-24 2019-08-27 International Business Machines Corporation Communication pattern recognition
JP2018163542A (ja) * 2017-03-27 2018-10-18 日本電気株式会社 予測装置、予測システム、予測方法、および予測プログラム
US10380863B2 (en) * 2017-04-03 2019-08-13 Oneevent Technologies, Inc. System and method for monitoring a building
JP6681369B2 (ja) 2017-09-07 2020-04-15 株式会社日立製作所 性能管理システム、管理装置および性能管理方法
JP7331567B2 (ja) * 2019-09-12 2023-08-23 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータプログラム
JP7331581B2 (ja) * 2019-09-24 2023-08-23 日本電気株式会社 監視装置、監視方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137725A (ja) * 1994-11-14 1996-05-31 Hitachi Ltd 性能予測装置
JP2000172537A (ja) * 1998-12-04 2000-06-23 Nippon Steel Corp 性能予測装置および方法、記録媒体
JP2004164637A (ja) * 2002-10-31 2004-06-10 Hewlett-Packard Development Co Lp ベースライン化および自動しきい値処理を行う仕組みを与える方法および装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324358A (ja) * 1992-05-20 1993-12-07 Hitachi Ltd 性能予測装置
JP3966459B2 (ja) * 2002-05-23 2007-08-29 株式会社日立製作所 ストレージ機器管理方法、システム、およびプログラム
US20080033991A1 (en) * 2006-08-03 2008-02-07 Jayanta Basak Prediction of future performance of a dbms
US7801994B2 (en) * 2007-11-29 2010-09-21 Hitachi, Ltd. Method and apparatus for locating candidate data centers for application migration
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4761229B2 (ja) * 2008-02-26 2011-08-31 日本電気株式会社 運用管理装置、運用管理方法ならびにプログラム
JP5416833B2 (ja) * 2010-04-06 2014-02-12 株式会社日立製作所 性能監視装置,方法,プログラム
US9417981B2 (en) * 2011-05-11 2016-08-16 Hitachi, Ltd. Data processing system, data processing method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137725A (ja) * 1994-11-14 1996-05-31 Hitachi Ltd 性能予測装置
JP2000172537A (ja) * 1998-12-04 2000-06-23 Nippon Steel Corp 性能予測装置および方法、記録媒体
JP2004164637A (ja) * 2002-10-31 2004-06-10 Hewlett-Packard Development Co Lp ベースライン化および自動しきい値処理を行う仕組みを与える方法および装置

Also Published As

Publication number Publication date
JP5686904B2 (ja) 2015-03-18
US20140244563A1 (en) 2014-08-28
WO2013069138A1 (ja) 2013-05-16

Similar Documents

Publication Publication Date Title
JP5686904B2 (ja) 稼働情報予測計算機、稼働情報予測方法及びプログラム
US9600394B2 (en) Stateful detection of anomalous events in virtual machines
US9720823B2 (en) Free memory trending for detecting out-of-memory events in virtual machines
US10248561B2 (en) Stateless detection of out-of-memory events in virtual machines
US10558544B2 (en) Multiple modeling paradigm for predictive analytics
US9658910B2 (en) Systems and methods for spatially displaced correlation for detecting value ranges of transient correlation in machine data of enterprise systems
US10452983B2 (en) Determining an anomalous state of a system at a future point in time
US8677191B2 (en) Early detection of failing computers
US10868744B2 (en) Influence range identification method and influence range identification apparatus
US9239988B2 (en) Network event management
JP4572251B2 (ja) 計算機システム、計算機システムの障害の予兆検知方法及びプログラム
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
JP2011128852A (ja) 仮想ハードディスクの管理サーバおよび管理方法、管理プログラム
US11269748B2 (en) Diagnosing and mitigating memory leak in computing nodes
JP6683920B2 (ja) 並列処理装置、電力係数算出プログラムおよび電力係数算出方法
US20200285525A1 (en) Capacity management in a cloud computing system using virtual machine series modeling
JP6777142B2 (ja) システム分析装置、システム分析方法、及び、プログラム
JPWO2012153400A1 (ja) データ処理システム、データ処理方法、及び、プログラム
US9116804B2 (en) Transient detection for predictive health management of data processing systems
US11113364B2 (en) Time series data analysis control method and analysis control device
JP6375200B2 (ja) 計算機システムの異常予兆検出装置および方法
US11210159B2 (en) Failure detection and correction in a distributed computing system
JP2018136681A (ja) 性能管理プログラム、性能管理方法、および管理装置
CN104883273A (zh) 虚拟化服务管理平台中业务影响模型的处理方法和系统
US11042463B2 (en) Computer, bottleneck identification method, and non-transitory computer readable storage medium

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150120

R150 Certificate of patent or registration of utility model

Ref document number: 5686904

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees