JPWO2011155621A1 - 障害検出装置、障害検出方法およびプログラム記録媒体 - Google Patents

障害検出装置、障害検出方法およびプログラム記録媒体 Download PDF

Info

Publication number
JPWO2011155621A1
JPWO2011155621A1 JP2012519444A JP2012519444A JPWO2011155621A1 JP WO2011155621 A1 JPWO2011155621 A1 JP WO2011155621A1 JP 2012519444 A JP2012519444 A JP 2012519444A JP 2012519444 A JP2012519444 A JP 2012519444A JP WO2011155621 A1 JPWO2011155621 A1 JP WO2011155621A1
Authority
JP
Japan
Prior art keywords
correlation
destruction
failure
detected
set information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012519444A
Other languages
English (en)
Other versions
JP5267736B2 (ja
Inventor
堅 石王
堅 石王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012519444A priority Critical patent/JP5267736B2/ja
Publication of JPWO2011155621A1 publication Critical patent/JPWO2011155621A1/ja
Application granted granted Critical
Publication of JP5267736B2 publication Critical patent/JP5267736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Abstract

検出された相関破壊に対して、発生する可能性がある不具合を推測する。障害検出装置10は、記憶部12と相関モデル比較部25とを含む。ここで、記憶部12は、システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる相関関係のうち、障害が発生した時に相関破壊が検出された相関関係を示す相関破壊セット情報33を記憶する。相関モデル比較部25は、相関破壊セット情報に含まれる相関関係と、入力された性能値に対して相関破壊が検出された相関関係との、共通度を算出する。

Description

本発明は、障害検出装置、障害検出方法およびプログラム記録媒体に関する。
企業情報システムやIDC(Internet Data Center)などのような大規模な情報システムなどで、ウェブサービスや業務サービスといった情報通信サービスの社会インフラとしての重要性が高まるにつれて、そのサービスを提供するコンピュータ装置には安定して稼動し続けることが求められている。このようなコンピュータ装置の運用管理は、通常は管理者により手作業で行われる。しかしながら、装置が大規模・複雑化するにつれて、管理者に対する負担が飛躍的に増大し、判断ミスや操作ミスによるサービス停止が発生しやすくなっている。
このため、それらのシステムを構成するハードウェアやソフトウェアの動作状態を一元的に状態監視して制御する統合障害原因抽出システムが提供されている。この統合障害原因抽出システムは、管理対象である複数のコンピュータ装置でハードウェアまたはソフトウェアの稼動状況に関する情報を取得し、該システムに接続した障害検出装置に出力する。管理対象であるシステムの障害を判別する方法として、予め稼動情報に閾値を設定しておく方法や、稼動情報の平均値からのずれを評価する方法などがある。
例えば、このような統合障害原因抽出システムの障害検出装置は、性能情報毎に閾値を設定し、各々の性能情報が閾値を越えたことを検出して障害を検知する。障害原因抽出装置は、予め異常であることが明確な値を閾値に設定して、個々の要素の性能の異常を検出し、これを管理者に報告する。
異常検出が報告された場合、管理者は、異常を解決するために、その発生原因を特定する必要がある。たとえばCPUの過負荷、メモリ容量の不足、ネットワークの過負荷などが、代表的な異常の発生原因である。異常の発生原因の特定には、異常と関連性がありそうなコンピュータを特定して、そのシステムログやパラメータなどを調査することが必要である。このような調査は、各管理者に、高度な知識やノウハウ、及び、時間と労力を要求する。
このため、統合障害原因抽出システムでは、複数の機器から収集したイベントデータ(状態通知)に基づいて、動作状態の組み合わせなどについて相関分析を自動的に行い、大局的な問題点や原因を推定して、管理者に通知することにより、管理者による異常に対する対処の支援を行っている。特に、サービスの長期連続運用での信頼性を確保するためには、発生した異常に対処するだけでなく、現時点では目に見える異常が発生していなくても将来的に異常の発生要因となり得る要素を抽出して、計画的に設備の増強などの対策を取ることが求められる。
このような統合障害原因抽出システム、あるいはそこで利用しうる相関分析に関連する技術が、例えば次に示す各々の特許文献に記載されている。特許文献1に記載された技術は、正常時における任意の2つの性能情報の値(性能値)の時系列に対して、一方を入力とし他方を出力とした場合の変換関数を導出することで相関モデルを生成する。そして、その技術は、別の時点での性能情報を用いて、性能情報の性能値と相関モデルの変換関数に従った性能値との比較検証を行い、その相関関係の破壊の度合いによって障害の検出を行う。
特許文献1に記載の技術について、より詳細に説明する。図17は、特許文献1に記載の技術に係る障害原因抽出装置910を含む障害原因抽出システム901の全体の概略構成の一例を示す説明図である。障害原因抽出システム901は、複数の被管理装置である被監視コンピュータ902A、902B、902C、…と、これらのコンピュータ902を運用管理する障害原因抽出装置910とが、ネットワーク903を介して相互に通信可能に接続されて構成される。
障害原因抽出装置910は、各々の被監視コンピュータ902A、902B、902C、…から複数の性能種目(例えばCPU利用率やメモリ残量など)ごとの性能値を含む性能情報を取得し、この性能情報に基づいて以後に説明する動作を行う。
ここで、性能種目、被管理装置(被監視コンピュータ902)、またはそれらの組み合わせを、性能情報における要素(性能値の種別、または、単に種別)とする。
図18は、図17に示した障害原因抽出装置910および被監視コンピュータ902の構成を示す説明図である。図17に示した被監視コンピュータ902A、902B、902C、…は、全て被監視コンピュータ902Aと同一の構成を有するので、図18では詳細な記載を省略し、これらを総称して被監視コンピュータ902とする。図19は、図18に示した障害原因抽出装置910の処理の流れを示す説明図である。
特許文献1に記載の技術に係る障害原因抽出装置910は、例えば、一般的なコンピュータ装置であり、コンピュータプログラムを実行する主体となる主演算制御部(CPU:Central Processing Unit)911と、データを記憶する記憶部912と、ネットワーク903を介して他のコンピュータとのデータ通信を行う通信部913と、ユーザ(この場合はネットワーク管理者)からの操作を受け付け、また処理結果を提示する入出力部914とを備える。
障害原因抽出装置910の主演算制御部911では、性能情報蓄積部922、相関モデル生成部923、相関分析部924、障害分析部925、及び、管理者対話部926の各々が、コンピュータプログラムとして動作する。また、記憶部912には、正常時性能情報931、相関モデル情報932、及び、分析設定情報933の各々が記憶される。
被監視コンピュータ902も、障害原因抽出装置910と同様に、主演算制御部951、記憶部952、及び、通信部953を備える。これらの機能は、障害原因抽出装置910の主演算制御部911、記憶部912、及び、通信部913と同一であるが、被監視コンピュータ902の主演算制御部951では、サービス実行部961、情報収集部962、および対処実行部963の各々が、コンピュータプログラムとして動作する。
被監視コンピュータ902のサービス実行部961は、ウェブサービスや業務サービスといった情報通信サービスを提供する。情報収集部962は、サービス実行部961の動作状態を検出し、その動作状態に含まれる性能情報を取得し、障害原因抽出装置910の性能情報蓄積部922に送信する。障害原因抽出装置910の性能情報蓄積部922は、各々の被監視コンピュータ902の情報収集部962から性能情報を受信し、これを正常時性能情報931として保存する。
相関モデル生成部923は、正常時性能情報931から一定期間の性能情報を取り出し、性能情報の任意の2つの種別の性能値の時系列に対して、一方を入力とし他方を出力とした場合の変換関数(相関関数)を導出する。相関モデル生成部923は、この変換関数で生成された性能値の系列と、その性能値の実際の検出値の系列とを比較し、その値の差から変換関数の重み情報を算出する。さらに、相関モデル生成部923は、これらの処理をすべての種別間の組み合わせに対して繰り返すことで、サービス実行部961の全体的な稼動状態の相関モデルを生成する。相関モデル生成部923は、生成した相関モデルを相関モデル情報932として保存する。
相関分析部924は、性能情報蓄積部922から新たに検出された性能情報を受け取り、この性能情報に含まれる性能値が相関モデル情報932に蓄積される相関モデルの各々の変換関数で示された関係を一定の誤差範囲内で満たしているかを分析して、その結果を出力する。
また、相関分析部924は、新たに検出された第1の要素に関する性能値と相関関数とに基づいて第2の要素に関する予測性能値を算出し、新たに検出された第2の要素に関する性能値と予測性能値とを比較して予測誤差を算出する。相関分析部924は、この予測誤差が一定の誤差範囲内を満たすか否かを分析する。相関分析部924は、この予測誤差が誤差範囲外となる場合に、第1の要素と第2の要素との相関関係が破壊されていると判断する。
障害分析部925は、性能情報蓄積部922が収集した動作状態と相関分析部924による分析結果とを受け取って、分析設定情報933に予め記憶された分析設定の内容に従って障害分析を行う。
管理者対話部926は、障害分析部925から障害分析の結果を受け取り、これを入出力部14を介して管理者に提示する。そして、管理者対話部926は、管理者からの操作入力を受け付け、この操作入力に従って被監視コンピュータ902の対処実行部963に障害に対する対処を指示する。対処実行部963は、管理者対話部926からの指示に応じてサービス実行部961上で障害に対する対処となる処理を実行する。
管理者対話部926は、このような障害分析の結果を入出力部14を介して管理者に提示する。また、管理者が入出力部14を介して障害に対する何らかの対処を指示する入力を行った場合、管理者対話部926は、この入力された内容を対処実行部963に渡して対処を実行させる。たとえば、特定の被監視コンピュータ902のCPU利用率やメモリ残量について異常が発生した場合には、管理者は、その被監視コンピュータ902の業務量を減らして他の被監視コンピュータ902に回すなどの対処を指示する。
この後、一定時間間隔で性能情報蓄積部922によって収集された性能情報の値に相関破壊が検出されなければ、障害分析部925は障害が回復したと判断し、その結果を管理者対話部926を介して管理者に提示する。このような情報収集、分析、対処の処理の繰り返しにより、サービス実行部961上の障害の検出と対処が継続的に行われる。
図20は、図18および図19に示した性能情報蓄積部922が蓄積する正常時性能情報931の例を示す説明図である。被監視コンピュータ902の情報収集部962は、サービス実行部961の動作状態を検出し、そこから性能情報を抽出し、障害原因抽出装置910の性能情報蓄積部922に送信する。性能情報蓄積部922は、受信した性能情報を正常時性能情報931として記録し、蓄積する。
正常時性能情報931は、情報収集部962が順次収集する、サービス実行部961の性能情報の一覧である。個々の性能情報は、図17に示した被監視コンピュータ902の各々で、同一時刻において測定された複数種目の性能値で構成され、それらが一定時間間隔でリストアップされる。たとえば、サービス実行部961でウェブサービスが実行されている場合、情報収集部962は該ウェブサービスを提供する被監視コンピュータ902の各々のCPU使用率やメモリ残量を一定時間間隔で検出し、障害原因抽出装置910の性能情報蓄積部922に送信する。性能情報蓄積部922は、これを正常時性能情報931として記録し、蓄積する。
図20は、このようにして蓄積された正常時性能情報931の例を示している。ここで、図17に示した被監視コンピュータ902の各々は被監視コンピュータ902A、2B、2C、…として示される。また、被監視コンピュータ902A、902B、902C、…の名前は、それぞれ「A」、「B」、「C」である。
たとえば、種別「A.CPU」は、被監視コンピュータ902A(A)のCPU利用率を示し、「A.CPU」の2010年4月5日の17時25分時点に測定された性能値が「12」で、それから1分間隔に測定された性能値は、17時26分からそれぞれ、「15」、「34」、「63」、…である。同様に、種別「A.MEM」は、同じく被監視コンピュータ902A(A)のメモリ使用量を示し、「A.MEM」の性能値として「A.CPU」と同時刻に測定された性能値が示されている。種別「B.CPU」は、被監視コンピュータ902B(B)のCPU利用率を示し、「B.CPU」の性能値として、他の性能値と同時刻に測定された性能値が示されている。
相関モデル生成部923は、この蓄積された正常時性能情報931の各種別の性能値に対して、以下に示すように相関モデル生成の処理を行う。たとえば相関モデル生成部923は、「A.CPU」をx、「A.MEM」をyとし、xとyとの間の関係を近似式「y=f(x)=Ax+B」(A、Bは定数)で近似し、「A=−0.6」、「B=100」という各々の係数の値を算出する。そして、相関モデル生成部923は、この変換関数による性能値の予測値の系列と、実際の性能値の差分から重み「w=0.88」を算出する。
図21は、図20に示した正常時性能情報931から、相関モデル生成部923が生成する相関モデル情報932の例を示す説明図である。また図22は、図18に示した障害原因抽出装置910で行われる障害原因の抽出の動作を示すフローチャートである。
相関モデル情報932は、上述のようにして正常時性能情報931に記録された全ての種別の相互間で、変換関数の入力となる種別の名称と、出力となる種別の名称と、変換関数を特定する各々の係数および重みの値と、相関関係が有効であるか否かを示す相関関係判定情報(有効性)と、を含む。
たとえば、図21に示した「A.CPU」と「A.MEM」の相関関係に対して、相関モデル情報932では「A.MEM」を出力とし、「y=Ax+B」の式における係数Aの値が「−0.6」、係数Bの値が「100」、重みwが「0.88」である相関関係が蓄積される。
相関モデル生成部923は、このような分析を性能情報蓄積部922が蓄積した正常時性能情報931の全ての種別の相互間で行い、障害原因抽出システム901全体が安定して正常に動作している間の性能情報を基にした相関モデル情報932を作成する(図22・ステップS991)。
図23は、図21に示した相関モデル情報932に基づいて管理者対話部926が管理者に提示する表示画面990の内容を示す説明図である。図23に示す表示画面990は、相関破壊数990a、相関グラフ990b、異常要素リスト990cの各々を表示する。各々の詳細については後述する。
相関グラフ990bは、障害原因抽出システム901の中の1つの要素と他の要素の間の相関関係を示す。図23に示した例では、被監視コンピュータ902A、2B、2Cの3台の各々のCPU利用率とメモリ使用量が、それぞれ性能情報の6つの要素A〜Fで表されている。要素A、B、…は、○の中の、それぞれ「A」、「B」、…により示されている。
また、被監視コンピュータ902AのCPU利用率とメモリ使用量は各々「A.CPU」と「A.MEM」、被監視コンピュータ902BのCPU利用率とメモリ使用量は各々「B.CPU」と「B.MEM」…と表される。要素Aは「A.CPU」、即ち被監視コンピュータ902AのCPU利用率である。また、要素Dは「C.CPU、即ち被監視コンピュータ902CのCPU利用率である。
それぞれの要素の間を結ぶ線は、相関モデルの変換関数で表される関係であり、0〜1の範囲の重みwが0.5以上であれば、実線で示され、0.5未満であれば示されない。例えば、要素Aと要素Bとの間の相関関係の重みwは0.5以上であるので、これらの要素間は実線で結ばれる。また、要素Aと要素Fとの間の相関関係の重みwは0.5未満であるので、これらの要素間は線で結ばれない。
相関分析部924は、重みwが0.5以上である全ての種別の相互間に対して、重みwが特定の閾値以上であるか否か、即ち相関関係が有効であるか否かを判定する。そして、相関分析部924は、以上に示した相関関係の分析を、新たに得られた性能情報に対して行う(図22・ステップS992)。
すると、障害原因抽出システム901全体が正常に動作していた時に有効であった相関関係が、時間の経過と共に無効になる場合がある。これが、ここでいう「相関破壊」であり、正常に動作していた時と比べて、障害原因抽出システム901の動作状態に明らかに何らかの変化が発生していることを示唆する。
相関分析部924は、相関破壊を検出した場合、その旨を表示画面990に表示する(図22・ステップS993〜994)。相関破壊数990aは、検出された相関破壊の発生数を時系列で示す。異常要素リスト990cは、相関破壊が発生した要素を示す。また、相関グラフ990bは、破壊された相関を太線で示す。
表示画面990では、管理者による画面の操作により、各々の要素の詳細を表示し、その要素に対する処置を指示することも可能である。ここまでが、特許文献1に記載の障害原因抽出装置910の動作である。
特許文献1の他には、次のような技術文献がある。特許文献2には、特許文献1と同様の相関モデルを利用して、実運用で発生するボトルネックを予測する障害検出装置が記載されている。また特許文献3には、相関係数行列およびその逆行列を算出して監視対象装置の異常の兆候を検出する異常兆候検出装置が記載されている。
特開2009−199533号公報 特開2009−199534号公報 特開2008−146591号公報
特許文献1に記載の技術では、相関が破壊されている相関関係に関する要素の個数や破壊度合いの総和、もしくは割合を基に、物理的な接続関係において隣接した機器について異常の度合いを算出することができる。現時点で顕在化した障害が発生していなくても、相関関係の破壊を検出することによって、障害の発生要因となり得る要素を抽出し、設備の増強などの対策を取ることはできる。
しかしながら、特許文献1に記載の技術では「検出された相関破壊に対して、具体的にどのような異常が発生する可能性があるか」が考慮されておらず、それを事前に知ることができない。
たとえば、ウェブサーバ、アプリケーションサーバおよびデータベースサーバを組み合わせた一般的な3階層システムに特許文献1に記載の技術を適用した場合、相関破壊が検出された時に、ウェブサーバが過負荷状態になるのか、それともアプリケーションサーバが障害状態になるのかを、事前に知ることはできない。そのため、発生する可能性がある不具合に対して、事前に対策を準備することが困難である。
特許文献2〜3に記載の技術も、同様に、「検出された相関破壊に対して、どのような異常が発生する可能性があるか」が考慮されていないため、特許文献1に記載の技術にこれらの技術を組み合わせても、相関破壊に対して発生する可能性がある具体的な不具合を知ることはできない。
本発明の目的は、検出された相関破壊に対して、発生する可能性がある不具合を推測することができる障害検出装置、障害検出方法およびプログラム記録媒体を提供することにある。
本発明の一態様における障害検出装置は、システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる前記相関関係のうち、障害が発生した時に相関破壊が検出された前記相関関係を示す相関破壊セット情報を記憶する記憶手段と、前記相関破壊セット情報に含まれる前記相関関係と、入力された前記性能値に対して前記相関破壊が検出された前記相関関係との、共通度を算出する相関モデル比較手段とを含む。
本発明の一態様における障害検出方法は、システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる前記相関関係のうち、障害が発生した時に相関破壊が検出された前記相関関係を示す相関破壊セット情報を記憶し、前記相関破壊セット情報に含まれる前記相関関係と、入力された前記性能値に対して前記相関破壊が検出された前記相関関係との、共通度を算出する。
本発明の一態様におけるコンピュータ読み取り可能な記録媒体は、コンピュータに、システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる前記相関関係のうち、障害が発生した時に相関破壊が検出された前記相関関係を示す相関破壊セット情報を記憶し、前記相関破壊セット情報に含まれる前記相関関係と、入力された前記性能値に対して前記相関破壊が検出された前記相関関係との、共通度を算出するプログラムを格納する。
本発明の効果は、検出された相関破壊に対して、発生する可能性がある不具合を推測することができることである。
本発明の第1の実施形態に係る障害検出装置および被監視コンピュータの構成を示す説明図である。 本発明の第1の実施形態に係る障害検出装置を含む障害原因抽出システム1の全体の概略構成の一例を示す説明図である。 図1に示した障害検出装置の処理の流れを示す説明図である。 図1および図3に示した相関分析部のより詳しい動作を説明する説明図である。 図1および図3に示した相関モデル、および相関破壊セット情報の一例を示す説明図である。 図7に示した処理の結果、管理者対話部が提示する表示画面の例を示す説明図である。 図1および図3に示した障害検出装置が、破壊された相関関係から発生しうる異常を予測する動作を示すフローチャートである。 本発明の第2の実施形態に係る障害検出装置を含む障害原因抽出システムの全体の概略構成の一例を示す説明図である。 図8に示した障害検出装置の構成を示す説明図である。 図9に示した障害検出装置の処理の流れを示す説明図である。 図9および図10に示した障害検出装置が、破壊された相関関係から発生しうる異常を予測する動作を示すフローチャートである。 図11に示した処理の結果、管理者対話部が管理者に提示する表示画面の例を示す説明図である。 本発明の第3の実施形態に係る障害検出装置を含む障害原因抽出システムの全体の概略構成の一例を示す説明図である。 図13に示した障害検出装置の構成を示す説明図である。 図14に示した障害検出装置の処理の流れを示す説明図である。 図14に示した障害検出装置で、相関破壊が検出されている場合に管理者対話部が管理者に提示する表示画面の内容を示す説明図である。 特許文献1に記載の技術に係る障害原因抽出装置を含む障害原因抽出システムの全体の概略構成の一例を示す説明図である。 図17に示した障害原因抽出装置および被監視コンピュータの構成を示す説明図である。 図18に示した障害原因抽出装置の処理の流れを示す説明図である。 図18および図19に示した性能情報蓄積部が蓄積する正常時性能情報の例を示す説明図である。 図20に示した正常時性能情報から相関モデル生成部が生成する相関モデル情報の例を示す説明図である。 図18に示した障害原因抽出装置で行われる障害原因の抽出の動作を示すフローチャートである。 図21に示した相関モデル情報に基づいて管理者対話部が管理者に提示する表示画面の内容を示す説明図である。 本発明の第1の実施形態の特徴的な構成を示すブロック図である。
(第1の実施形態)
以下、本発明の第1の実施形態の構成を図1に基づいて説明する。
最初に、第1の実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
第1の実施形態に係る障害検出装置10は、システムを構成する複数のコンピュータ装置である被管理装置2から、当該装置の動作状況に関連する複数の性能種目毎の性能値を含む性能情報を取得して、被管理装置に発生する障害の原因を抽出する。
この障害検出装置10は、相関モデル生成部23、相関分析部24、記憶部12、及び、相関モデル比較部25を含む。
相関モデル生成部23は、性能種目、被管理装置、またはそれらの組み合わせを要素(性能値の種別、または、単に種別)とした場合に、一定時間間隔で取得される各要素の性能値の時系列変化を示す性能系列情報の中から、任意の2要素の性能系列情報間の相関関数を導出し、各要素の組み合わせについての相関関数を含む相関モデルを生成する。
相関分析部24は、性能情報が新たに検出されると、任意の2要素のうちの第1の要素に関して新たに検出された性能値に相関モデルにおける相関関数を適用して、任意の2要素のうちの第2の要素に関する予測性能値を算出し、第2の要素に関して検出された性能値と予測性能値とを比較して予測誤差を算出する。相関分析部24は、この予測誤差が一定の誤差範囲内を満たすか否かを新たに検出された性能情報の各要素の組み合わせについて分析し、予測誤差が誤差範囲外となる場合に、第1の要素と第2の要素との相関関係が破壊されていると判断する。
記憶部12は、相関破壊セット情報33を相関モデルと共に予め記憶する。相関破壊セット情報33は、被管理装置に実際に障害が発生した時に、相関モデルにおいて相関関係が破壊されたと相関分析部24により判定された要素の組み合わせの一覧(障害が発生した時に相関破壊が検出された相関関係の一覧)と、発生した障害の現象名とを対応させたデータである。
相関モデル比較部25は、新たに相関関係が破壊されたと相関分析部24により判定された要素の組み合わせ(新たに相関破壊が検出された相関関係)を相関破壊セット情報33と照合し、両者で一致する組み合わせ(相関関係)の数の相関破壊セット情報33に登録された組み合わせ(相関関係)の総数に対する割合である共通度を算出する。また、相関モデル比較部25は、共通度が予め与えられた境界共通度以上であれば警告を発する。
ここで、相関破壊セット情報33は、組み合わせ一覧および現象名に対応する境界共通度を含んでいてもよい。
また、障害検出装置10は、共通度の時系列変化を警告と共に表示する管理者対話部28を含む。
このような構成により、障害検出装置10は相関関係の破壊に対して、発生する可能性がある不具合を推測することができる。
以下、第1の実施形態をより詳細に説明する。
図2は、本発明の第1の実施形態に係る障害検出装置10を含む障害原因抽出システム1の全体の概略構成の一例を示す説明図である。第1の実施形態に係る障害原因抽出システム1は、複数の被管理装置である被監視コンピュータ2A、2B、2C、…と、これらのコンピュータ2を運用管理する障害検出装置10とが、ネットワーク3を介して相互に通信可能に接続されて構成される。
障害検出装置10は、各々の被監視コンピュータ2A、2B、2C、…から複数の性能種目(例えばCPU利用率やメモリ残量など)ごとの性能値を含む性能情報を取得し、この性能情報に基づいて以後に説明する動作を行う。図2には、4台の被監視コンピュータ2A、2B、2C、2Dが存在する例が示されているが、被監視コンピュータ2の台数は任意である。
図1は、本発明の第1の実施形態に係る障害検出装置10および被監視コンピュータ2の構成を示す説明図である。図2に示した被監視コンピュータ2A、2B、2C、…は、全て被監視コンピュータ2Aと同一の構成を有するので、図1では詳細な記載を省略し、これらを総称して被監視コンピュータ2とする。図3は、図1に示した障害検出装置10の処理の流れを示す説明図である。
本発明の第1の実施形態に係る障害検出装置10は、例えば、一般的なコンピュータ装置であり、コンピュータプログラムを実行する主体となる主演算制御部(CPU:Central Processing Unit)11と、データを記憶する記憶部12と、ネットワーク3を介して他のコンピュータとのデータ通信を行う通信部13と、管理者からの操作を受け付け、また処理結果を提示する入出力部14とを備える。
障害検出装置10の主演算制御部11では、性能情報蓄積部22、相関モデル生成部23、相関分析部24、相関モデル比較部25、障害分析部27、及び、管理者対話部28の各々が、コンピュータプログラムとして動作する。また、記憶部12には、正常時性能情報31、相関モデル情報32、相関破壊セット情報33、及び、分析設定情報34の各々が記憶される。
被監視コンピュータ2も、障害検出装置10と同様に、主演算制御部51、記憶部52、及び、通信部53を備える。これらの機能は、障害検出装置10の主演算制御部11、記憶部12、及び、通信部13と同一であるが、被監視コンピュータ2の主演算制御部51では、サービス実行部61、情報収集部62、および対処実行部63の各々が、コンピュータプログラムとして動作する。
被監視コンピュータ2のサービス実行部61は、ウェブサービスや業務サービスといった情報通信サービスを提供する。情報収集部62は、サービス実行部61の動作状態を検出し、その動作状態に含まれる性能情報を取得し、障害検出装置10の性能情報蓄積部22に送信する。障害検出装置10の性能情報蓄積部22は、各々の被監視コンピュータ2の情報収集部62から性能情報を受信し、これを正常時性能情報31として保存する。
相関モデル生成部23は、正常時性能情報31から一定期間の性能情報を取り出し、性能情報の任意の2つの種別の性能値の時系列に対して、一方を入力とし他方を出力とした場合の変換関数(相関関数)を導出する。相関モデル生成部23は、この変換関数で生成された性能値の系列と、その性能値の実際の検出値の系列とを比較し、その値の差から変換関数の重み情報を算出する。さらに、相関モデル生成部23は、これらの処理をすべての種別間の組み合わせに対して繰り返すことで、サービス実行部61の全体的な稼動状態の相関モデルを生成する。相関モデル生成部23は、生成した相関モデルを相関モデル情報32として保存する。
相関分析部24は、性能情報蓄積部22から新たに検出された性能情報(動作中性能情報)を受け取り、この性能情報に含まれる性能値が相関モデル情報32に蓄積される相関モデルの各々の変換関数で示された関係を一定の誤差範囲内で満たしているかを分析して、その結果を出力する。
図4は、図1および図3に示した相関分析部24のより詳しい動作を説明する説明図である。相関分析部24の機能は、性能予測機能24a、予測誤差算出機能24b、誤差範囲分析機能24c、及び、相関破壊出力機能24dを含む。性能予測機能24aは、性能情報蓄積部22から新たに受け取った動作中性能情報における第1の要素に関する性能値を相関関数に適用して第2の要素に関する予測性能値を算出する。予測誤差算出機能24bは、第2の要素に関する性能値と予測性能値とを比較して予測誤差を算出する。誤差範囲分析機能24cは、予測誤差が、所定の誤差範囲内を満たすか否かを分析する。相関破壊出力機能24dは、予測誤差が誤差範囲外となる場合に、第1の要素と第2の要素との相関関係が破壊されていると判断し、その旨を出力する。
第1および第2の要素に関する動作中性能情報をxおよびyとし、相関モデル情報32内の相関関数をfとすると、性能予測機能24aはxからf(x)を算出し、予測誤差算出機能24bは予測誤差|y−f(x)|を算出する。誤差範囲分析機能24cは、予測誤差|y−f(x)|が相関分析部24に予め記憶された閾値の範囲内であるか否かを分析し、相関破壊出力機能24dは予測誤差が誤差範囲外となる場合にその旨を出力する。
障害分析部27は、性能情報蓄積部22が収集した動作状態と相関分析部24による分析結果とを受け取って、分析設定情報34に予め記憶された分析設定の内容に従って障害の発生について分析を行う。分析設定情報34はこの他に、相関分析部24が相関破壊を判断する基準である閾値を含む。
管理者対話部28は、障害分析部27から障害分析の結果を受け取り、これを入出力部14を介して管理者に提示する。そして、管理者対話部28は、管理者からの操作入力を受け付け、この操作入力に従って被監視コンピュータ2の対処実行部63に障害に対する対処を指示する。対処実行部63は、管理者対話部28からの指示に応じてサービス実行部61上で障害に対する対処となる処理を実行する。
以上は、前述した特許文献1に記載の障害検出装置と共通する構成および動作であるが、第1の実施形態に係る障害検出装置10は、これに加えて主演算制御部11で動作する相関モデル比較部25と、記憶部12に記憶されている相関破壊セット情報33とを含む。そして管理者対話部28は、相関モデル比較部25で共通度が閾値を超えていると判定された場合に、その判定結果と破壊された相関関係と共通度とを含む警報表示を管理者に提示する。
図5は、図1および図3に示した相関モデル、および相関破壊セット情報33の一例を示す説明図である。相関破壊セット情報33は、過去に発生した不具合の現象名33aと、その不具合が発生した時に破壊が観測された相関関係の一覧である破壊相関一覧33bと、その不具合が発生していると判断するための共通度の閾値である境界共通度33cとを含む。境界共通度33cは、破壊相関一覧33bの相関関係に対する、破壊された相関関係の割合に関する閾値である。
相関破壊セット情報33は、実際にその不具合が観測された時に相関分析部24が検出した相関破壊の内容に基づいて、予めシステム管理者により入力される。また、これら現象名33a、破壊相関一覧33b、境界共通度33cの複数の組が記憶されている。
相関モデル比較部25は、相関分析部24が検出した、現時点で破壊された相関関係の一覧と、相関破壊セット情報33の破壊相関一覧33bとを比較して、この両者の間で共通する相関関係の破壊の数をもとに「共通度」を算出し、その共通度を境界共通度33cと比較する。
相関モデル比較部25では、相関破壊セット情報33で記憶されている現象名33a、破壊相関一覧33b、境界共通度33cの複数の組のうち、1組のみを比較の対象とする。例えば、ウェブサーバ、アプリケーションサーバ、データベースサーバから構成される一般的な3層構成システムにおいて、1つの相関モデルに対し、ウェブサーバが異常状態の場合とアプリケーションサーバが異常状態の場合では、それぞれ破壊される相関が異なる。たとえば前者の場合は、現象名33aを「ウェブサーバの異常」とし、この時に破壊が観測された相関関係を破壊相関一覧33bとして、対応して記憶させる。現象名33aを「アプリケーションサーバの異常」とした場合についても同様である。
境界共通度33cは、上述の各々の場合について、その現象が発生すると判断するための閾値である。この境界共通度33cの数値については、システム管理者が、判断対象である現象毎異なる値を予め入力してもよい。境界共通度33cを高くするほど、現象名33aの不具合が発生した時に、その不具合に対して観測される相関破壊の状態に近い相関破壊の状態のみが検出される。しかしながら、不具合が発生した可能性の高い相関破壊の状態が発生しても、警報が出力されず、管理者がその状態を見逃してしまうことがある。逆に境界共通度33cを低くするほど、不具合が発生した可能性の高い状態を見逃す可能性は低くなる。しかしながら、不具合に起因しない、緊急に対応をする必要がない相関破壊の状態が発生した場合でも、警報が出力されてしまうことがある。システム管理者は、これらを踏まえた上で、境界共通度33cを設定する必要がある。
図2および図5(A)に示した例では、被監視コンピュータ2として4台のコンピュータS1〜S4が存在する。これら4台のコンピュータS1〜S4の各々で、情報収集部62が「CPU利用率」および「メモリ残量」を性能種目として性能情報を取得し、障害検出装置10に送信する。
ここで、たとえばコンピュータS1のCPU利用率「S1.CPU」、メモリ残量「S1.MEM」を各々要素「A」「B」とする。コンピュータS2のCPU利用率「S2.CPU」、メモリ残量「S2.MEM」を各々要素「C」「D」とする。コンピュータS3のCPU利用率「S3.CPU」、メモリ残量「S3.MEM」を各々要素「E」「F」とする。コンピュータS4のCPU利用率「S4.CPU」、メモリ残量「S4.MEM」を各々要素「G」「H」とする。
図5(A)は、コンピュータS1〜S4に対して相関モデル生成部23が生成した相関モデル情報32を図示した相関モデル101を示している。相関モデル101では、算出された重みが0.5以上である相関関係が「太い実線」で、0.5未満である相関関係が「細い実線」で、各々示されている。この相関モデルに対して、相関分析部24による分析で「A−C」「A−D」「A−E」「A−H」「C−D」「G−H」の6項目(相関関係)について相関破壊が検出されている。相関破壊が検出された相関関係は「太い破線」で示されている。
図5(B)は、相関モデル101に対して相関破壊セット情報33に記憶された内容を示している。この例では、過去に4台のコンピュータS1〜S4のうち「S1の過負荷」という不具合が発生した時に、「A−C」「A−D」「A−E」「A−H」「C−D」「C−E」「E−F」の7項目について相関破壊が検出されていたという情報が記憶されている。現象名33aが「S1の過負荷」、これに対応する破壊相関一覧33bが「A−C」「A−D」「A−E」「A−H」「C−D」「C−E」「E−F」の7項目である。
これに対して、「A−C」「A−D」「A−E」「A−H」「C−D」「G−H」の各項目(相関関係)について相関破壊が検出されたという情報が新たに検出されている。これらの項目が相関破壊検出一覧102に示されている。相関モデル比較部25は、相関破壊検出一覧102の各項目を相関破壊セット情報33の現象名33a「S1の過負荷」に対応する破壊相関一覧33bの各項目と比較する。この結果、検出された7項目の相関破壊のうち5項目が現象名33a「S1の過負荷」に対応する破壊相関一覧33bに含まれている。相関モデル比較部25は、これらの項目数を以下の数1に適用して共通度を得る。
Figure 2011155621
図5に示した例の場合、現象名33a「S1の過負荷」に対応する破壊相関一覧33bの全7項目のうち5項目が相関破壊検出一覧102と一致しているので、共通度は5/7=約71.4%と算出できる。たとえば、現象名33a「S1の過負荷」に対応する境界共通度33cを「70%以上」と定義した場合、算出された共通度「71.4%」はこの境界共通度33cを超えるので、相関モデル比較部25は、管理者対話部28を介して後述の警報画面を管理者に提示する。なお、境界共通度33cの定義は前述のように任意に設定でき、この「70%以上」という設定はその一例に過ぎない。
図7は、図1および図3に示した障害検出装置10が、破壊された相関関係から発生しうる異常を予測する動作を示すフローチャートである。障害検出装置10は、管理者から、図5に示した相関破壊セット情報33の入力を受け付ける(ステップS101)。そして、障害検出装置10は、相関破壊セット情報33の各々の現象名−破壊相関一覧の組について、境界共通度33cの入力を受け付ける(ステップS102)。
障害検出装置10は、特許文献1と同様に、動作中性能情報から、被監視コンピュータ2の各々の要素で生じる相関破壊、すなわち、相関破壊検出一覧102の各項目を検出する(ステップS103)。そして、相関モデル比較部25は、検出された相関破壊に対して、相関破壊セット情報33の破壊相関一覧33bと、相関破壊検出一覧102とを比較し、数1により共通度を求める。
その結果、破壊相関一覧33bと、ステップS103で検出された相関破壊検出一覧102との間の相関破壊の共通度が、境界共通度33cの値以上であれば(ステップS104でYES)、相関モデル比較部25は、管理者対話部28を介して、その旨を管理者に提示する(ステップS105)。共通度が境界共通度33cの値未満であれば(ステップS104でNO)、ステップS103からの処理が継続される。
なお、相関破壊セット情報33に、現象名33aと、それらに対応する各データの組が複数保存されている場合、障害検出装置10は、たとえばその中でいずれか1組を予め選択して、図7に示した処理を行ってもよい。また、障害検出装置10は、相関破壊セット情報33の複数組のデータの各々に対してこの処理を行い、いずれか1つの共通度が境界共通度33cの値より大きくなった場合にステップS105の警報を発してもよい。
図6は、図7に示した処理の結果、管理者対話部28が提示する表示画面200の例を示す説明図である。表示画面200は、現在検出されている相関破壊状況と相関破壊セット情報33に登録された破壊相関一覧33bとを比較する比較表示200a、時系列で相関破壊の共通度の変化を示す共通度変化グラフ200b、および相関破壊状況の判断の対象である現象名33aを示す異常種類表示200cを含む。
(第1の実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。
本実施形態に係る障害検出装置10は、システムを構成する複数のコンピュータ装置である被管理装置2から、当該装置の動作状況に関連する複数の性能種目毎の性能値を含む性能情報を取得して、被管理装置に発生する障害の原因を抽出する。
相関モデル生成部23は、性能種目、被管理装置、またはそれらの組み合わせを要素(性能値の種別、または、単に種別)とした場合に、一定時間間隔で取得される各要素の性能値の時系列変化を示す性能系列情報の中から、任意の2要素の性能系列情報間の相関関数を導出し、各要素の組み合わせについての相関関数を含む相関モデルを生成する。
相関分析部24は、性能情報が新たに検出されると、任意の2要素のうちの第1の要素に関して新たに検出された性能値に相関モデルにおける相関関数を適用して任意の2要素のうちの第2の要素に関する予測性能値を算出し、第2の要素に関して検出された性能値と予測性能値とを比較して予測誤差を算出する。相関分析部24は、この予測誤差が一定の誤差範囲内を満たすか否かを新たに検出された性能情報の各要素の組み合わせについて分析し、予測誤差が誤差範囲外となる場合に、第1の要素と第2の要素との相関関係が破壊されていると判断する。
記憶部12は、相関破壊セット情報33を相関モデルと共に記憶する(図7・ステップS101〜102)。相関破壊セット情報33は、相関関係が破壊されたと判定された要素の組み合わせ一覧(相関破壊が検出された相関関係の一覧)と、発生した障害の現象名とを対応させたデータである。
相関モデル比較部25は、新たに相関関係が破壊されたと判定された要素の組み合わせ(新たに相関破壊が検出された相関関係)を相関破壊セット情報33と照合し、両者で一致する組み合わせ(相関関係)の数の相関破壊セット情報33に登録された組み合わせ(相関関係)の総数に対する割合である共通度を算出する(図7・ステップS103〜104)。また、相関モデル比較部25は、この共通度が予め与えられた境界共通度以上であれば警告を発する(図7・ステップS105)。
ここで、上記各動作ステップをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータである障害検出装置10に実行させてもよい。
次に、本発明の第1の実施形態の特徴的な構成について説明する。図24は、本発明の第1の実施形態の特徴的な構成を示すブロック図である。
障害検出装置10は、記憶部12と相関モデル比較部25とを含む。
ここで、記憶部12は、システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる相関関係のうち、障害が発生した時に相関破壊が検出された相関関係を示す相関破壊セット情報33を記憶する。
相関モデル比較部25は、相関破壊セット情報33に含まれる相関関係と、入力された性能値に対して相関破壊が検出された相関関係との、共通度を算出する。
本発明の第1の実施形態によれば、検出された相関破壊に対して、発生する可能性がある不具合を推測することができる。その理由は、システムの障害時において相関破壊が検出された要素の組み合わせ(相関関係)一覧を含む相関破壊セット情報33を予め用意し、当該相関関係の一覧に含まれる相関関係と、新たに相関破壊が検出された相関関係との、共通度を算出するためである。
これにより、発生する可能性の高い不具合を予測し、事前にその不具合に対する対策を準備することが可能である。
また、相関破壊セット情報33には、過去に実際に発生した不具合に基づく内容が記憶されているので、不具合に対して準備しておくべき対策の内容は過去の経験から明確になっている可能性が高い。そのため、不具合に対する対策にかかる管理者の負担が軽減される。
(第2の実施形態)
第2の実施形態に係る障害検出装置310は、第1の実施形態に係る障害検出装置10の構成に加えて、相関破壊セット情報33が、被管理装置2に実際に障害が発生した複数の障害の各々についての、相関破壊が検出された要素の組み合わせ(相関関係)一覧と現象名との対応を含む。そして相関モデル比較部325は、相関分析部24により、新たに相関関係が破壊されたと判定された要素の組み合わせ(新たに相関破壊が検出された相関関係)に対して、複数の障害の各々について共通度を算出し、この共通度の高い順に警告を発する。
これによって、第2の実施形態は、第1の実施形態による効果に加えて、さらに、管理者が、関連して発生する可能性の高い複数種類の障害に対しても容易に対処できるという効果を奏する。
以下、これをより詳細に説明する。
図8は、本発明の第2の実施形態に係る障害検出装置310を含む障害原因抽出システム301の全体の概略構成の一例を示す説明図である。第2の実施形態に係る障害原因抽出システム301は、複数の被管理装置である被監視コンピュータ2A、2B、2C、…と、これらのコンピュータ2を運用管理する障害検出装置310とが、ネットワーク3を介して相互に通信可能に接続されて構成される。被監視コンピュータ2A、2B、2C、…は、第1の実施形態で説明した被監視コンピュータ2と同一である。第1の実施形態に係る障害原因抽出システム1の障害検出装置10は、障害検出装置310により置換されている。
図9は、図8に示した障害検出装置310の構成を示す説明図である。図10は、図9に示した障害検出装置310の処理の流れを示す説明図である。本発明の第2の実施形態に係る障害検出装置310の基本的な構成は第1の実施形態に係る障害検出装置10と同一であるが、相関モデル比較部25が相関モデル比較部325により置換されている。
図11は、図9および図10に示した障害検出装置310が、破壊された相関関係から発生しうる異常を予測する動作を示すフローチャートである。図11において、図7に示した第1の実施形態に係る動作と共通する動作には、同一の参照番号が付与されている。ステップS101〜103は、第1の実施形態に係る動作と同一である。
相関モデル比較部325は、相関破壊セット情報33に記憶されている現象名33a、破壊相関一覧33b、境界共通度33cの複数組のそれぞれについて、ステップS103で検出された現在破壊されている相関関係と破壊相関一覧33bとを比較し、前述の図1で示す計算式で共通度を算出する。相関モデル比較部325は、共通度が境界共通度33c以上となる組(登録データ)が存在するか否かを判断する(ステップS404)。
算出された共通度が境界共通度33c以上となる登録データが存在すれば、相関モデル比較部25は、算出された共通度が最も高い破壊相関一覧33bに対応する現象名33aを、管理者対話部28を介して管理者に提示する(ステップS405)。ステップS404で、算出された共通度が境界共通度33c以上となる登録データが一つもなければ、ステップS103からの処理が繰り返される。
図12は、図11に示した処理の結果、管理者対話部28が管理者に提示する表示画面500の例を示す説明図である。表示画面500は、共通度が境界共通度33c以上である破壊相関一覧33bに対応する現象名33aを共通度の高い順に表示する異常種類表示500b、及び、現在検出されている相関破壊状況と異常種類表示500bに表示された現象名33aに対応する破壊相関一覧33bとを比較表示する比較表示500aとを含む。
(第3の実施形態)
第3の実施形態に係る障害検出装置610は、第1の実施形態に係る障害検出装置10の構成に加えて、相関破壊セット登録部626を含む。相関破壊セット登録部626は、現在相関関係が破壊されたと相関分析部24により判定されている要素の組み合わせの一覧(相関破壊が検出されている相関関係の一覧)に対して、現在発生している現象名の管理者による入力を受け付け、この現象名に当該要素の組み合わせの一覧(当該相関関係の一覧)を対応させて相関破壊セット情報33として保存する。
これによって、第3の実施形態は、第1の実施形態による効果に加えて、さらに、実際に発生している障害に関する相関破壊セット情報を登録することが容易となるという効果を奏する。
以下、これをより詳細に説明する。
図13は、本発明の第3の実施形態に係る障害検出装置610を含む障害原因抽出システム601の全体の概略構成の一例を示す説明図である。第3の実施形態に係る障害原因抽出システム601は、複数の被管理装置である被監視コンピュータ2A、2B、2C、…と、これらのコンピュータ2を運用管理する障害検出装置610とが、ネットワーク3を介して相互に通信可能に接続されて構成される。被監視コンピュータ2A、2B、2C、…は、第1の実施形態で説明した被監視コンピュータ2と同一である。第1の実施形態に係る障害原因抽出システム1の障害検出装置10は、障害検出装置610により置換されている。
図14は、図13に示した障害検出装置610の構成を示す説明図である。図15は、図14に示した障害検出装置610の処理の流れを示す説明図である。本発明の第3の実施形態に係る障害検出装置610の構成は、主演算制御部11で、さらに、相関破壊セット登録部626が動作する点以外は、第1の実施形態に係る障害検出装置10と同一である。
相関破壊セット登録部626は、相関分析部24が検出した相関破壊の組に対して、管理者に現象名と境界共通度の入力を求め、入力された内容を各々現象名33aと境界共通度33cとする。相関破壊セット登録部626は、検出した相関破壊の組を破壊相関一覧33bとし、現象名33aと境界共通度33cに対応付けて、相関破壊セット情報33に保存する。
図16は、図14に示した障害検出装置610で、相関破壊が検出されている場合に管理者対話部28が管理者に提示する表示画面700の内容を示す説明図である。これは背景技術で説明した障害原因抽出装置910における、図23に示した表示画面990に相当する。表示画面700には、相関破壊数700a、相関グラフ700b、及び、異常要素リスト700cの各々が、表示画面990と同様に表示されているが、これらに加えて不具合登録ボタン700dが設けられている。
管理者が、この不具合登録ボタン700dを押すと、ダイアログ700eが開いて、管理者は、現象名33aと境界共通度33cとを入力できる。そして、相関破壊セット登録部626は、相関グラフ700bとして表示されている相関破壊の組を破壊相関一覧33bとし、入力された現象名33aと境界共通度33cとに対応づけて、相関破壊セット情報33に登録する。
相関モデル比較部25が登録された相関破壊セット情報33を利用して行う動作は、第1の実施形態に係る障害検出装置10と同一である。また、第2の実施形態に係る障害検出装置310に、相関破壊セット登録部626を付加してもよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年6月7日に出願された日本出願特願2010−129842を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、情報通信サービスを提供するコンピュータネットワーク全般に適用可能である。
1、301、601 障害検出システム
2、2A、2B、2C 被監視コンピュータ
3 ネットワーク
10、310、610 障害検出装置
11、51 主演算制御部
12、52 記憶部
13、53 通信部
14 入出力部
22 性能情報蓄積部
23 相関モデル生成部
24 相関分析部
25、325 相関モデル比較部
27 障害分析部
28 管理者対話部
31 正常時性能情報
32 相関モデル情報
33 相関破壊セット情報
33a 現象名
33b 破壊相関一覧
33c 境界共通度
34 分析設定情報
61 サービス実行部
62 情報収集部
63 対処実行部
101 相関モデル
200、500、700 表示画面
200a、500a 比較表示
200b 共通度変化グラフ
200c、500b 異常種類表示
625 相関破壊セット登録部
700a 相関破壊数
700b 相関グラフ
700c 異常要素リスト
700d 不具合登録ボタン
700e ダイアログ

Claims (15)

  1. システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる前記相関関係のうち、障害が発生した時に相関破壊が検出された前記相関関係を示す相関破壊セット情報を記憶する記憶手段と、
    前記相関破壊セット情報に含まれる前記相関関係と、入力された前記性能値に対して前記相関破壊が検出された前記相関関係との、共通度を算出する相関モデル比較手段と
    を含む障害検出装置。
  2. 前記相関モデル比較手段は、前記相関破壊セット情報に含まれる前記相関関係と前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係との間で一致する前記相関関係の数の、前記相関破壊セット情報に含まれる前記相関関係の数に対する割合を前記共通度として算出する
    請求項1に記載の障害検出装置。
  3. 前記相関破壊セット情報は、前記障害の障害名を含み、
    前記相関モデル比較手段は、前記共通度が所定の閾値以上の場合、前記障害の障害名を出力する
    請求項1または2に記載の障害検出装置。
  4. 前記相関破壊セット情報は、複数の前記障害の各々の障害名に対して、前記障害が発生した時に前記相関破壊が検出された前記相関関係を示す情報を含み、
    前記相関モデル比較手段は、前記相関破壊セット情報に含まれる前記複数の障害の各々に対する前記相関関係について、前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係との共通度を算出する
    請求項1乃至3のいずれかに記載の障害検出装置。
  5. さらに、前記システムで発生している前記障害の障害名が入力された場合に、当該障害名に、前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係を示す情報を対応付けて、前記相関破壊セット情報に登録する相関破壊セット登録部を含む
    請求項1乃至4のいずれかに記載の障害検出装置。
  6. システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる前記相関関係のうち、障害が発生した時に相関破壊が検出された前記相関関係を示す相関破壊セット情報を記憶し、
    前記相関破壊セット情報に含まれる前記相関関係と、入力された前記性能値に対して前記相関破壊が検出された前記相関関係との、共通度を算出する
    障害検出方法。
  7. 前記共通度を算出する場合、前記相関破壊セット情報に含まれる前記相関関係と前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係との間で一致する前記相関関係の数の、前記相関破壊セット情報に含まれる前記相関関係の数に対する割合を前記共通度として算出する
    請求項6に記載の障害検出方法。
  8. 前記相関破壊セット情報は、前記障害の障害名を含み、
    前記共通度を算出する場合、前記共通度が所定の閾値以上の場合、前記障害の障害名を出力する
    請求項6または7に記載の障害検出方法。
  9. 前記相関破壊セット情報は、複数の前記障害の各々の障害名に対して、前記障害が発生した時に前記相関破壊が検出された前記相関関係を示す情報を含み、
    前記共通度を算出する場合、前記相関破壊セット情報に含まれる前記複数の障害の各々に対する前記相関関係について、前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係との共通度を算出する
    請求項6乃至8のいずれかに記載の障害検出方法。
  10. さらに、前記システムで発生している前記障害の障害名が入力された場合に、当該障害名に、前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係を示す情報を対応付けて、前記相関破壊セット情報に登録する
    請求項6乃至9のいずれかに記載の障害検出方法。
  11. コンピュータに、
    システムの複数種別の性能値間の相関関係を表す相関モデルに含まれる前記相関関係のうち、障害が発生した時に相関破壊が検出された前記相関関係を示す相関破壊セット情報を記憶し、
    前記相関破壊セット情報に含まれる前記相関関係と、入力された前記性能値に対して前記相関破壊が検出された前記相関関係との、共通度を算出する
    プログラムを格納するコンピュータ読み取り可能な記録媒体。
  12. 前記共通度を算出する場合、前記相関破壊セット情報に含まれる前記相関関係と前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係との間で一致する前記相関関係の数の、前記相関破壊セット情報に含まれる前記相関関係の数に対する割合を前記共通度として算出する
    請求項11に記載の前記プログラムを格納する記録媒体。
  13. 前記相関破壊セット情報は、前記障害の障害名を含み、
    前記共通度を算出する場合、前記共通度が所定の閾値以上の場合、前記障害の障害名を出力する
    請求項11または12に記載の前記プログラムを格納する記録媒体。
  14. 前記相関破壊セット情報は、複数の前記障害の各々の障害名に対して、前記障害が発生した時に前記相関破壊が検出された前記相関関係を示す情報を含み、
    前記共通度を算出する場合、前記相関破壊セット情報に含まれる前記複数の障害の各々に対する前記相関関係について、前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係との共通度を算出する
    請求項11乃至13のいずれかに記載の前記プログラムを格納する記録媒体。
  15. さらに、前記システムで発生している前記障害の障害名が入力された場合に、当該障害名に、前記入力された前記性能値に対して前記相関破壊が検出された前記相関関係を示す情報を対応付けて、前記相関破壊セット情報に登録する
    請求項11乃至14のいずれかに記載の前記プログラムを格納する記録媒体。
JP2012519444A 2010-06-07 2011-06-06 障害検出装置、障害検出方法およびプログラム記録媒体 Active JP5267736B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012519444A JP5267736B2 (ja) 2010-06-07 2011-06-06 障害検出装置、障害検出方法およびプログラム記録媒体

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010129842 2010-06-07
JP2010129842 2010-06-07
PCT/JP2011/063426 WO2011155621A1 (ja) 2010-06-07 2011-06-06 障害検出装置、障害検出方法およびプログラム記録媒体
JP2012519444A JP5267736B2 (ja) 2010-06-07 2011-06-06 障害検出装置、障害検出方法およびプログラム記録媒体

Publications (2)

Publication Number Publication Date
JPWO2011155621A1 true JPWO2011155621A1 (ja) 2013-08-15
JP5267736B2 JP5267736B2 (ja) 2013-08-21

Family

ID=45098222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012519444A Active JP5267736B2 (ja) 2010-06-07 2011-06-06 障害検出装置、障害検出方法およびプログラム記録媒体

Country Status (5)

Country Link
US (2) US8880946B2 (ja)
EP (1) EP2579156B1 (ja)
JP (1) JP5267736B2 (ja)
CN (1) CN103026344B (ja)
WO (1) WO2011155621A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009016723A1 (ja) * 2007-07-30 2009-02-05 Fujitsu Limited 電子機器、情報処理システム、電子機器の障害通知方法、および障害通知プログラム
JP5267736B2 (ja) * 2010-06-07 2013-08-21 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
JP5267749B2 (ja) * 2010-12-20 2013-08-21 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
US9389946B2 (en) * 2011-09-19 2016-07-12 Nec Corporation Operation management apparatus, operation management method, and program
EP2808797B1 (en) * 2012-01-23 2019-07-31 NEC Corporation Operation management device, operation management method, and program
CN104205063B (zh) 2012-03-14 2017-05-24 日本电气株式会社 操作管理装置、操作管理方法和程序
KR20140051513A (ko) * 2012-10-23 2014-05-02 한국전자통신연구원 데이터 분산 서비스 모니터링 장치 및 그 방법
US20150363250A1 (en) * 2013-02-18 2015-12-17 Nec Corporation System analysis device and system analysis method
JP6387747B2 (ja) * 2013-09-27 2018-09-12 日本電気株式会社 情報処理装置、障害回避方法およびコンピュータプログラム
US10157113B2 (en) 2014-05-16 2018-12-18 Nec Corporation Information processing device, analysis method, and recording medium
CN105786678B (zh) * 2014-12-25 2018-09-25 北京电子工程总体研究所 一种基于相关性模型的测试性预计方法
JP6777069B2 (ja) 2015-03-16 2020-10-28 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
US10469308B2 (en) * 2015-10-19 2019-11-05 Noritz Corporation Communication adapter for collecting information about a system being monitored
WO2017169949A1 (ja) * 2016-03-30 2017-10-05 日本電気株式会社 ログ分析装置、ログ分析方法及びプログラムを格納する記録媒体
JP6649214B2 (ja) * 2016-09-12 2020-02-19 クラリオン株式会社 ログ送信装置、ログ収集システム
CN107370618B (zh) * 2017-06-05 2020-06-05 北京奇艺世纪科技有限公司 故障排查方法、装置及电子设备
JP2020154828A (ja) * 2019-03-20 2020-09-24 富士通株式会社 データ補完プログラム、データ補完方法及びデータ補完装置
US20220382614A1 (en) * 2021-05-26 2022-12-01 Nec Laboratories America, Inc. Hierarchical neural network-based root cause analysis for distributed computing systems
CN114912642B (zh) * 2022-07-18 2022-12-20 中科云策(深圳)科技成果转化信息技术有限公司 一种基于互联网的人工智能机器人故障预测系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314769A (ja) * 1995-05-18 1996-11-29 Hitachi Ltd 障害情報採取方法
US20020091972A1 (en) * 2001-01-05 2002-07-11 Harris David P. Method for predicting machine or process faults and automated system for implementing same
US6966015B2 (en) * 2001-03-22 2005-11-15 Micromuse, Ltd. Method and system for reducing false alarms in network fault management systems
US7529974B2 (en) * 2006-11-30 2009-05-05 Microsoft Corporation Grouping failures to infer common causes
JP4413915B2 (ja) 2006-12-13 2010-02-10 株式会社東芝 異常兆候検出装置および方法
US7509234B2 (en) * 2007-08-16 2009-03-24 Gm Global Technology Operations, Inc. Root cause diagnostics using temporal data mining
JP4872945B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
CN102099795B (zh) * 2008-09-18 2014-08-13 日本电气株式会社 运用管理装置、运用管理方法和运用管理程序
CN102257520B (zh) * 2008-10-16 2018-02-06 慧与发展有限责任合伙企业 应用的性能分析
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
CN102576328B (zh) * 2009-10-15 2015-09-09 日本电气株式会社 系统操作管理装置、系统操作管理方法和程序存储介质
JP5418610B2 (ja) * 2010-02-15 2014-02-19 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
JP5267736B2 (ja) * 2010-06-07 2013-08-21 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
JP5267749B2 (ja) * 2010-12-20 2013-08-21 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN103502951B (zh) * 2011-03-23 2016-12-07 日本电气株式会社 操作管理系统、操作管理方法及其程序
US9389946B2 (en) * 2011-09-19 2016-07-12 Nec Corporation Operation management apparatus, operation management method, and program
EP2808797B1 (en) * 2012-01-23 2019-07-31 NEC Corporation Operation management device, operation management method, and program
CN104205063B (zh) * 2012-03-14 2017-05-24 日本电气株式会社 操作管理装置、操作管理方法和程序
US20150363250A1 (en) * 2013-02-18 2015-12-17 Nec Corporation System analysis device and system analysis method
WO2014132611A1 (ja) * 2013-02-26 2014-09-04 日本電気株式会社 システム分析装置、及び、システム分析方法

Also Published As

Publication number Publication date
WO2011155621A1 (ja) 2011-12-15
EP2579156A4 (en) 2015-08-12
US9529659B2 (en) 2016-12-27
US20120185737A1 (en) 2012-07-19
CN103026344B (zh) 2015-09-09
US20150127987A1 (en) 2015-05-07
EP2579156B1 (en) 2019-08-28
US8880946B2 (en) 2014-11-04
CN103026344A (zh) 2013-04-03
EP2579156A1 (en) 2013-04-10
JP5267736B2 (ja) 2013-08-21

Similar Documents

Publication Publication Date Title
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
JP5418610B2 (ja) 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US10496465B2 (en) System operations management apparatus, system operations management method and program storage medium
JP4859558B2 (ja) コンピュータシステムの制御方法及びコンピュータシステム
JP4980581B2 (ja) 性能監視装置、性能監視方法及びプログラム
JP5267684B2 (ja) 運用管理装置、運用管理方法、及びプログラム記憶媒体
JP6364800B2 (ja) 監視装置及び監視方法
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
EP2685380A1 (en) Operations management unit, operations management method, and program
US9191296B2 (en) Network event management
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
WO2008050323A2 (en) Method for measuring health status of complex systems
JP4936072B2 (ja) システム負荷監視方法
JP4575020B2 (ja) 障害解析装置
WO2012070475A1 (ja) 情報処理装置、情報処理方法、並びに情報処理プログラム
JP2014010538A (ja) 運用管理装置、運用管理システム及び運用管理方法
JP2014049045A (ja) ジョブ管理システムにおける障害対応システム及びそのプログラム
JP2015225399A (ja) 業務処理システム、業務処理能力の監視システムおよび監視方法
JP2014157412A (ja) イベント集約装置、イベント集約方法およびイベント集約プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130422

R150 Certificate of patent or registration of utility model

Ref document number: 5267736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150