JPWO2015079564A1 - イベントの根本原因の解析を支援する管理システム及び方法 - Google Patents

イベントの根本原因の解析を支援する管理システム及び方法 Download PDF

Info

Publication number
JPWO2015079564A1
JPWO2015079564A1 JP2015550292A JP2015550292A JPWO2015079564A1 JP WO2015079564 A1 JPWO2015079564 A1 JP WO2015079564A1 JP 2015550292 A JP2015550292 A JP 2015550292A JP 2015550292 A JP2015550292 A JP 2015550292A JP WO2015079564 A1 JPWO2015079564 A1 JP WO2015079564A1
Authority
JP
Japan
Prior art keywords
information
diagnostic procedure
diagnosis
procedure
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015550292A
Other languages
English (en)
Other versions
JP6208770B2 (ja
Inventor
香緒里 仲野
香緒里 仲野
名倉 正剛
正剛 名倉
崇之 永井
崇之 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2015079564A1 publication Critical patent/JPWO2015079564A1/ja
Application granted granted Critical
Publication of JP6208770B2 publication Critical patent/JP6208770B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0645Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis by additionally acting on or stimulating the network after receiving notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/349Performance evaluation by tracing or monitoring for interfaces, buses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

複数の汎用診断手順が用意される。各汎用診断手順は、複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義された汎用の診断手順である。各ルールは、1以上の条件イベントと結論イベントとの関連付けを示す。管理システムが、1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上の対象ルールを基に、1以上の原因候補を特定し、1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定する。管理システムは、特定された汎用診断手順と、複数の管理対象コンポーネントの構成に関する情報である構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり選択された原因候補のより具体的な原因を特定する又は選択された原因候補の確からしさを更新するための展開診断手順を生成する。

Description

本発明は、概して、管理対象コンポーネントにおいて発生したイベントの根本原因の解析の支援に関する。
IT(Information Technology)システムを管理する場合、例えば特許文献1に示されるように、システム内で検知した複数の障害もしくはその兆候の中から、原因となるイベントを検出することが行われている。具体的には、特許文献1では、管理対象装置または管理対象装置を構成するコンポーネントにおける各種障害がイベント化されており、管理ソフトウェアが、イベントDB(データベース)に、イベントの発生情報を蓄積する。また、この管理ソフトウェアは、管理対象装置において発生した複数のイベントの因果関係を解析するための解析エンジンを持っている。この解析エンジンは、管理対象装置の構成情報を持つ構成管理DBにアクセスして、あるI/O(入出力)経路上のパス上にある1つまたは複数の管理対象装置に跨る複数のコンポーネント間の関係を「トポロジ」と呼ばれる1つのグループとして認識する。そして、解析エンジンは、イベントが発生すると、イベントが発生したコンポーネントを含む各トポロジに対し、事前に定められた条件文と解析結果とからなるメタルールを適用して、各々のトポロジにおける障害を解析するための展開ルールを構築する。この展開ルールには、根本原因となり得る結論イベントと、結論イベントが発生した場合にそれによって引き起こされる条件イベント群が含まれる。具体的には、ルールのTHEN部に記載されているイベントが根本原因となり得る結論イベントであり、IF部に記載されているイベントが条件イベントである。解析エンジンは、展開ルールの条件イベント群と検知したイベント群が一致していた場合には、展開ルールに記載された結論イベントを、ITシステムで発生した複数の障害の根本原因として表示する。ITシステムでは、1つの装置で発生した障害が依存関係を持つ別の複数の装置の障害を連鎖的に発生させる場合がある。特許文献1に示される技術は、検知した複数の障害の中から伝播元となった障害を特定することができる。
WO2013/046287
特許文献1に開示された技術を含め、コンポーネントで発生したイベントのパターンに基づいて障害原因を解析する技術は、ITシステムで発生した複数の障害の発端となる障害を絞り込むことができる。しかし、発生したイベントのパターンだけでは、障害復旧方法を決定するのに十分詳細な原因特定までできない場合がある。すなわち、複数の障害の発端となった障害が発生した原因を特定することができない場合がある。
記憶デバイスが、構成管理情報と、複数のルールと、複数の汎用診断手順とを記憶する。構成管理情報は、前記複数の管理対象コンポーネントの構成に関する情報である。複数のルールの各々は、1以上のイベントに対応した1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示すルールである。複数の汎用診断手順の各々は、複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順である。プロセッサが、複数のルールのうちの、1以上の発生イベント(発生したイベント)に関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定する。プロセッサが、複数の汎用診断手順のうちの、1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定する。プロセッサが、特定された汎用診断手順と構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり選択された原因候補のより具体的な原因を特定する又は選択された原因候補の確からしさを更新するための展開診断手順を生成する。
より詳細に又はより正確に1以上の発生イベントの原因を特定することが期待できる。
実施例1の概略を示す。 実施例1のITシステムおよび管理計算機の構成例を示す。 構成管理DB中の装置テーブルの構成例を示す。 構成管理DB中のiSCSIディスクテーブルの構成例を示す。 構成管理DB中のネットワークI/Fテーブルの構成例を示す。 構成管理DB中のスイッチポートテーブルの構成例を示す。 構成管理DB中のiSCSIターゲットテーブルの構成例を示す。 構成管理DB中のストレージポートテーブルの構成例を示す。 性能テーブルの構成例を示す。 イベントキューテーブルの構成例を示す。 メタルールの構成例を示す。 展開ルールの構成例を示す。 メタ診断手順の構成例を示す。 トポロジ条件の構成例を示す。 メタ収集手段の構成例を示す。 展開診断手順の構成例を示す。 展開収集手段の構成例を示す。 障害解析プログラムにより実行される障害原因解析処理の例のフローチャートを示す。 イベント分析結果画面の一例を示す。 診断手順展開プログラムにより実行される処理の例のフローチャートを示す。 診断手順展開プログラムにより実行される処理の例のフローチャートを示す。 表示プログラムにより実行される処理の例のフローチャートを示す。 診断結果画面の一例を示す。 実施例2におけるメタルールの構成例を示す。 実施例2における展開ルールの構成例を示す。 実施例2における展開診断手順の構成例を示す。 実施例2において障害解析プログラムにより実行される障害原因解析処理の例のフローチャートを示す。
発明を実行するための形態
以下の説明において、開示の一部をなす添付図面を参照するが、これらは本発明を実行できる例示的な実行形態を示すものであって本発明を限定するものではない。これらの図面において、複数の図を通じて同一の符号は同一の構成要素を示している。更に、詳細な説明は各種の例示的な実行形態を提供するが、以下に記述および図示するように、本発明は本明細書に記述および図示する実行形態に限定されるものではなく、当業者には公知または将来公知となる他の実行形態に拡張できる点に注意されたい。
また、以下の詳細な説明において、本発明を完全に理解されるよう多くの具体的な詳細事項を開示している。しかし、当業者には明らかなように、本発明を実行するためにこれらの具体的な詳細事項の全てが必要な訳ではない。他の状況において、本発明を無用に分かり難くしないよう、公知の構造、材料、回路、処理およびインタフェースについては詳細に記述せず、および/またはブロック図の形式で示す場合がある。
さらに、以下の詳細な説明のある部分は、コンピュータ内部の動作のアルゴリズムおよび記号的表現として示す。これらのアルゴリズム的記述および記号表現は、データ処理技術に精通した当業者が自身の発明の本質を他の当業者に最も効果的に伝達すべく用いる手段である。アルゴリズムとは、所望の最終状態または結果に達する一連の定義されたステップである。本発明において、実行されるステップは、有形の結果を実現するための有形の量を物理的に操作することを要求する。
通常、但し必須ではないが、これらの量は、保存、転送、結合、比較、および他の操作が可能な電気または磁気信号の形式をなす。原理的に共通に利用できるとの理由で、これらの信号をビット、値、要素、記号、文字、項目、数、命令等と称することが往々にして便利であることがわかっている。しかし、これらの全ておよび同様の項目は、適切な物理量に関連付けられるべきものであり、これら物理量に付けられた便宜的なラベルに過ぎないことに留意すべきである。
特に別途明言しない限り、以下の記述から明らかなように、本明細書の記述を通じて、「処理する」、「計算する」、「算出する」、「判定する」、「表示する」等の用語を用いた説明は、コンピュータシステムまたは当該コンピュータシステムのレジスタおよびメモリ内の物理的(電子的)な量として表現されたデータを操作して、当該コンピュータシステムのメモリまたはレジスタまたは他の情報記憶、伝送または表示装置内の物理量として同様に表現された他のデータに変換する他の情報処理装置の動作および処理を含んでいてよい。
本明細書における動作を実行する装置は、必要な目的のために特別に構築されてもよいし、または、1つ以上のコンピュータプログラムにより選択的に起動または再設定される1つ以上の汎用計算機を含んでいてもよい。そのようなコンピュータプログラムは、例えば、光ディスク、磁気ディスク、読出し専用メモリ、ランダムアクセスメモリ、固体装置およびドライブ等のコンピュータ可読記憶媒体、または電子情報の保存に適している他の任意の媒体に保存できるが、これらに限定されない。
本明細書に示すアルゴリズムおよびディスプレイは、いかなる特定のコンピュータまたは他の装置にも本質的には関係していない。各種の汎用システムを、本明細書の教示によるプログラムおよびモジュールと共に用いてもよいが、所望の方法ステップを実行するためのより特化した装置を構築した方が便利なことが分かる場合がある。これら各種のシステムの構造は以下に開示する説明で明らかになる。本発明はまた、いかなる特定のプログラミング言語も前提としては記述していない。以下に記述するように、本発明の教示を実行するために各種のプログラミング言語を用いてもよいことが理解されよう。プログラム言語の命令は、1つ以上の処理装置、例えば中央処理装置(CPU)、プロセッサ、またはコントローラにより実行できる。
また、以下の説明では「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」、「aaaリポジトリ」等の表現にて情報を説明するが、これら情報はテーブル、リスト、DB、キュー、リポジトリ等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」、「aaaリポジトリ」等について「aaa情報」と呼ぶことができる。
さらに、要素の説明する際に、「識別子」、「名」、「名前」および「ID」のうちの少なくとも1つの表現が用いられるが、これらについてはお互いに置換が可能であり、また、これらのうちの少なくとも1つに代えてまたは加えて、別種の識別情報が用いられてもよい。
以下の説明では「プログラム」を主語として処理の説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリおよび通信ポート(通信制御デバイス)を用いながら行うため、その処理の説明ではプロセッサが主語とされてもよい。また、プログラムを主語として開示された処理は管理計算機等の計算機が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。また、各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶メディアによって計算機にインストールされてもよい。
なお、管理計算機は入出力デバイスを有する。入出力デバイスの例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外のデバイスであってもよい。また、入出力デバイスの代替としてシリアルインタフェースまたはイーサーネット(登録商標)インタフェースを入出力デバイスとし、そのインタフェースにディスプレイまたはキーボードまたはポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力および表示を代替してもよい。
以下、ITシステム(情報処理システム)を管理し、表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムでよい。管理計算機と表示用計算機の組み合わせが管理システムでもよい。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合はそれら複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムでよい。管理計算機による「表示用情報を表示する」とは、管理計算機が有する表示デバイスに表示用情報を表示することであってもよいし、管理計算機(例えばサーバ)が遠隔の表示用計算機(例えばクライアント)に表示用情報を送信することであってもよい。
また、以下の説明では、同種の要素を区別して説明する場合は、その要素の参照符号を使用し、同種の要素を区別しないで説明する場合は、その要素の参照符号のうちの共通の親符号を使用することがある。例えば、サーバを特に区別しないで説明する場合には、サーバ202と記載し、個々のサーバを区別して説明する場合には、サーバ202a、202bのように記載することがある。
<実施例の概要>
以下でより詳しく述べるように、実施例1によれば、ITシステムで発生した障害の原因イベントを特定するための診断手順を導出、および、それらの診断手順に基づいて障害の原因イベントを特定する診断を実行する装置、方法、およびコンピュータプログラムが提供される。
実施例1によれば、管理計算機201は、複数の管理対象装置を管理するコンピュータである。管理対象装置の種別としては例えば、コンピュータ(例えばサーバ)、ネットワーク装置(例えば、IP(Internet Protocol)スイッチ、ルータ、またはFC(Fibre Channel)スイッチ)、および、ストレージ装置(例えばNAS(Network Attached Storage))のうちの少なくとも1つがある。1つの管理対象装置が含むデバイス等の論理的または物理的な要素としては、例えば、ポート、プロセッサ、記憶資源、物理記憶デバイス、プログラム、仮想マシン、論理ボリューム(論理記憶デバイス)、およびRAID(Redundant Arrays of Inexpensive (Independent) Disks)グループのうちの少なくとも1つがある。以下、管理対象装置および管理対象装置が含む要素の各々を「管理対象コンポーネント」と総称する場合がある。また、管理対象装置を、ノード装置と呼ぶこともできる。
図1は、実施例1の概略を示す。
イベント分析プログラム結果表示画面111は、イベント分析結果101を表示する。イベント分析結果101は、複数の装置で発生した障害の伝播元となる障害を原因障害候補として表す。イベント分析結果101は、後述のイベント分析プログラムによって導出された結果である。イベント分析結果101は、例えば特許文献1に開示の方法で導出されてよい。
管理計算機201は、ITシステムの障害の原因イベントを特定する診断手順を格納したメタ診断手順リポジトリ234と、管理対象コンポーネントの構成情報を格納した構成管理DB(データベース)232を有する。メタ診断手順リポジトリ234に格納されたメタ診断手順は、ITシステム内のある構成パターンに対して実行する診断手順が記述されている。構成管理DB232に格納される構成情報は、各管理対象コンポーネントに関する情報と、各管理対象コンポーネント間の接続関係を表す接続関係情報と、各管理対象コンポーネント間の依存関係を表す依存関係情報とを含む。
イベント分析結果101が表す1または複数の原因障害候補から1つの原因障害候補がユーザまたは管理計算機201により選択された場合、管理計算機201は、さらに詳細な障害原因解析を行うべく診断手順展開プログラム223を実行する。診断手順展開プログラム223は、イベント分析結果101に関連するメタ診断手順をメタ診断手順リポジトリ234から取得する。次に、診断手順展開プログラム223は、取得したメタ診断手順に定義された構成パターンと、選択された原因障害候補とに基づいて、診断を実行すべき管理対象コンポーネントに関わる構成情報を構成管理DB232から取得する。そして、診断手順展開プログラム223は、取得したメタ診断手順と取得した構成情報から展開診断手順124を生成する。展開診断手順124は、診断に必要な情報を収集するための情報収集ステップ131と、収集した情報に基づいて判定を行う判定ステップ132と、判定の結果によって導き出される障害原因イベントを示す結論133とを含む。診断実行プログラム224は、生成された展開診断手順124において定義された各ステップを実行し、得られた結論をITシステムの障害原因イベントとし、診断結果表示画面113に、その障害原因イベントに従う診断結果141を表示する。
本実施例により、ITシステムで複数の障害が発生した際、イベント分析によって複数障害の伝播元となった障害を絞り込んだ後、伝播元障害の発生原因を特定するのに必要な診断手順を自動で展開し、診断を実行することで、障害の発生原因の特定を迅速に行うことができる。
その結果、特定した原因イベントに基づいて障害復旧対策を迅速に決定することができ、ITシステムのダウンタイムを短くすることができる。その結果、ITシステムの停止によって発生するビジネス機会損失などの経済的損害を削減することができる。特に、設定不良による障害や性能障害など、イベントのみでは原因特定が困難な障害を解析することができる。例えば、ITシステムで性能障害が発生した場合、イベント分析プログラムによってボトルネックとなっているコンポーネント(例えば装置およびその要素)を特定した後、診断手順展開プログラム223および診断実行プログラム224によって、そのコンポーネントがボトルネックとなった原因を推定することができる。この場合、システム障害のボトルネックを特定するだけでなく、その発生原因を特定することで、障害復旧対策を決定するための根拠となる情報が増える。それにより、1つの障害に対して複数挙がった障害復旧対策の中から、実行する対策を1つに決定することが容易になる。
以下、実施例1を詳細に説明する。
<ITシステムおよび管理計算機201の構成>
図2は、実施例1のITシステムおよび管理計算機201の構成例を示す。
管理計算機201は、ITシステムを管理する計算機である。ITシステムは、一つ以上のサーバ(または、他の計算機)202a、202b、および202c、一つ以上のストレージ装置204、および、一つ以上のネットワークスイッチ(または、IPスイッチのような他のネットワーク装置)203を有する。サーバ202a、202b、202c、ネットワークスイッチ203、および、ストレージ装置204は、LAN(ローカルエリアネットワーク)のようなネットワーク205(図2の例によればネットワークスイッチ203)を介して通信可能に接続される。
管理計算機201は、CPU211、メモリ212、ディスク213、入力デバイス214、出力デバイス217、およびネットワークインタフェースデバイス(ネットワークI/F)215を含み、これらのデバイスがシステムバス216を介して接続される汎用計算機でよい。ディスク213は、例えばHDD(Hard Disk Drive)であるが、それに代えて、SSD(Solid State Drive)のような他の不揮発性記憶デバイスが採用されてもよい。管理計算機201の論理モジュールとして、例えば、障害解析プログラム221、イベント分析プログラム222、診断手順展開プログラム223、診断実行プログラム224、表示プログラム225、一つ以上の判定プログラム226、イベント受信プログラム227、構成取得プログラム228、および性能取得プログラム229がある。判定プログラム226は、1つであってもよいし、メタ診断手順の判定毎に設けられてもよい。また、管理計算機201が記憶するデータとして、例えばメタルールリポジトリ231、構成管理DB232、イベントキューテーブル233、メタ診断手順リポジトリ234、展開診断手順リポジトリ235、メタ収集手段リポジトリ236、展開収集手段リポジトリ237、および性能テーブル238がある。本実施例(及び実施例2)で言う「メタ収集手段」および「展開収集手段」の各々における「手段」という言葉は、「方法」、「定義」又は「コマンド」という言葉に置換されてよい。展開診断手順リポジトリ235および展開収集手段リポジトリ237は、一度生成された情報を再利用するために保存するリポジトリであり、管理計算機201が有していなくてもよい。また、性能テーブル238は、性能取得プログラム229によって管理対象装置から収集された管理対象コンポーネントの性能情報を保存するデータベースである。性能取得プログラム229、および、性能テーブル238は、本実施例で説明する「診断手順」の一例を示すために利用するプログラムおよび情報であり、管理計算機201が有していなくてもよい。また、性能テーブル238は、管理計算機201が有するのではなく、各管理対象装置が情報を保持し、管理対象コンポーネントの性能情報を参照する際には、管理計算機201がネットワーク205を介して各管理対象装置にアクセスし性能情報を取得してもよい。
障害解析プログラム221、イベント分析プログラム222、診断手順展開プログラム223、診断実行プログラム224、表示プログラム225、一つ以上の判定プログラム226、イベント受信プログラム227、構成取得プログラム228、性能取得プログラム229は、メモリ212に記憶され、CPU211が実行する。メタルールリポジトリ231、構成管理DB232、イベントキューテーブル233、メタ診断手順リポジトリ234、展開診断手順リポジトリ235、メタ収集手段リポジトリ236、展開収集手段リポジトリ237、および性能テーブル238は、ディスク213に記憶される。これらのうちの少なくとも1つのプログラムまたは少なくとも1つのデータは、CPU211が参照可能な他の適当な記憶領域に記憶されてよい。
ネットワークI/F215は、ネットワーク205を介して接続されるサーバ202、ネットワークスイッチ203、ストレージ装置204等の管理対象装置から構成情報や性能情報など、コンポーネントに関する情報を取得する。出力デバイス217は、表示プログラム225からの情報を出力(典型的には表示)するデバイスである。入力デバイス214は、ユーザの指示を入力するデバイスである。例えば、入力デバイス214としてキーボード、ポインタデバイス等を用いることができ、出力デバイス217としてディスプレイ、プリンタ等を用いることができるが、これら以外のデバイスでもよい。
各サーバ202a、202b、202cは、アプリケーション等のプログラムを実行する管理対象装置でよい。サーバ202aは、メモリ242、ネットワークI/F243およびそれらに接続されたCPU246を含む汎用計算機でよい。サーバ202aは、メモリ242のほかにHDDのような不揮発性記憶デバイスを有してもよい。サーバ202aは、サーバ202aの状態を監視し特定の状態変化(イベント)が検出された場合にネットワーク205を介して管理計算機201にそのイベントを表すイベント情報を送信する監視エージェント(プログラム)245を含んでもよい。監視エージェント245はCPU241で実行されてよい。イベントを通知することは、そのイベントを表すイベント情報を送信することでよい。サーバ202aは、iSCSI(Internet Small Computer System Interface)イニシエータ244を有してよい。例えば、サーバ202aは、iSCSIディスク251を仮想的にローカルHDDのように利用できるが、これはiSCSIイニシエータ244およびストレージ装置204の記憶容量により実現される。iSCSIの代わりにまたはこれに加えて、他の通信および記憶プロトコルが用いられてもよい。なお、サーバ202aの構成を説明したが、サーバ202b、202cもサーバ202aと同じ構成を有してよい。
各ストレージ装置204は、サーバ202上で動作するアプリケーション用の記憶容量(論理ボリューム)を提供するための(または他の目的のための)管理対象装置であってよい。ストレージ装置204は、I/Oポート263、ディスク262およびそれらに接続されたストレージコントローラ(例えばCPU)261を有する。I/Oポート263は複数存在してよい。ディスク262は、1つのHDDであってもよいし、複数のHDDで構成されたRAIDグループであってもよいが、ディスク262における不揮発性記憶デバイスは、SSDのような他の記憶デバイスであってもよい。本実施例において、ストレージ装置204は、サーバ202a、202bに対しiSCSI論理ボリュームを記憶容量として提供すべく構成されてよい。従って、2台のサーバ202a、202bが、ネットワークスイッチ203を介してストレージ装置204に接続されていて、ストレージ装置204が各サーバ202a、202bに対してiSCSI論理ボリュームを提供してよい。また、ストレージ装置204は、ストレージ装置204の状態を監視して管理計算機201にイベント情報を送信する監視エージェント(プログラム)264を含んでいてよい。監視エージェント264はストレージコントローラ261で実行されてよい。あるいは、サーバ202の監視エージェント245が、ストレージ装置204の状態を監視することができてよい。
ネットワークスイッチ203は、サーバ202またはストレージ装置204から送信されたデータを受信したり受信したデータを送信したりするポート271a〜dを有する。また、ネットワークスイッチ203は、ネットワークスイッチ203の状態を監視し特定の状態変化(イベント)が検出された場合にネットワーク205を介して管理計算機201にイベント情報を送る監視エージェント(プログラム)272を含んでもよい。監視エージェント272は、ネットワークスイッチ203内の図示しないCPUで実行されてよい。あるいは、サーバ202の監視エージェント245が、ネットワークスイッチ203の状態を監視してもよい。
<構成管理DB>
構成管理DB232には、構成取得プログラム228が監視エージェント等から取得した管理対象装置の構成情報が格納される。構成情報は、管理対象コンポーネント間の接続関係、依存関係などを示す情報を含む。サーバ202、ネットワークスイッチ203およびストレージ装置204の構成情報の例を、図3〜図9に示す。なお、構成管理DB232は、図3〜9のテーブルのうちの一部を含まなくてもよいし、少なくとも1つのテーブル中の一部の項目を含まなくてもよい。また、構成管理DB232が格納する各項目のデータ表現形式及びデータ構造は、管理対象装置が持つデータの表現形式及びデータ構造と同じでなくてもよい。また、管理計算機201が管理対象装置からこれらの項目を受信する場合、管理対象装置のデータ構造及び表現形式に従い受信してもよい。また、構成管理DB232中のテーブルは、管理対象コンポーネントの構成変更に伴って情報が更新されてもよい。構成管理DB232中のテーブルにおける情報が更新された場合、その更新に関するログが履歴情報として保存されてもよい。ログを基に過去の構成管理DB232が復元されてもよい。
図3は、構成管理DB232中の装置テーブルの構成例を示す。
装置テーブル300は、管理対象装置毎にレコードを有し、各レコードが、3つのフィールド、すなわち装置ID301、装置名302および種別303を有する。ID301は、管理対象装置を一意に識別する値を格納する。装置名302は、管理者が装置を一意に識別できる値を格納する。種別303は、装置の種別を示す識別子を格納する。
図4は、構成管理DB232中のiSCSIディスクテーブルの構成例を示す。
iSCSIディスクテーブル400は、サーバ202が利用しているiSCSIディスク251の構成を示すテーブルである。iSCSIディスクテーブル400は、iSCSIディスク251毎にレコードを有し、各レコードが、7つのフィールド、すなわちID401、ディスクドライブ名402、装置ID403、iSCSIイニシエータ名404、接続先iSCSIターゲット405、LUN ID406および種別407を有する。ID401は、iSCSIディスク(管理対象コンポーネント)251を一意に識別する値を格納する。ディスクドライブ名402は、サーバ202においてiSCSIディスク251を一意に識別できる値を格納する。装置ID403は、iSCSIディスク251を利用するサーバ202を示す識別子を格納する。iSCSIイニシエータ名404は、iSCSIディスク251の実体が存在するストレージ装置204との通信の際に用いるサーバ202上のネットワークI/F243の識別子を格納する。接続先iSCSIターゲット405は、iSCSIディスク251の実体が存在するストレージ装置204との通信の際に用いるストレージ装置204上のI/Oポート263の識別子を格納する。LUN ID406は、iSCSIディスク251の実体としての論理ボリューム(ストレージ装置204における論理ボリューム)の識別子を格納する。種別407は、管理対象コンポーネント(iSCSIディスク)の種別を示す識別子を格納する。例えば、1行目のレコードは次のことを意味する。すなわち、「SvA」という識別子で識別されるサーバ上で「D:」というディスクドライブ名で示されるiSCSIディスクが、「DRIVE1」という識別子で識別され、コンポーネントの種別は「iScsiDisk」である。com.hitachi.svaというiSCSIイニシエータ名で示されるサーバポート(サーバが有するポート)と、com.hitachi.stoC1というiSCSIターゲット名で示されるストレージポート(ストレージ装置が有するポート)を介して、0というLUN IDの論理ボリュームがストレージ装置からサーバに提供される。
図5は、構成管理DB232中のネットワークI/Fテーブルの構成例を示す。
ネットワークI/Fテーブル500は、ネットワークI/F243毎にレコードを有し、各レコードが、5つのフィールド、すなわちID501、I/F名502、装置ID503、iSCSIイニシエータ名504および種別505を有する。ID501は、ネットワークI/F243(管理対象コンポーネント)を一意に識別する値を格納する。I/F名502は、サーバ202においてネットワークI/F243の識別子となる値を格納する。装置ID503は、ネットワークI/F243を有するサーバ202の識別子を格納する。iSCSIイニシエータ名504は、iSCSIディスクの実体が存在するストレージ装置との通信の際に用いるサーバ202上のネットワークI/F243の識別子を格納する。種別505は、管理対象コンポーネントの種別を示す識別子を格納する。例えば、1行目のレコードは次のことを意味する。「eth0」というI/F名で示されるネットワークI/Fが、「SvA」という識別子で識別されるサーバに存在し、「SVIF1」という識別子で識別され、コンポーネントの種別は「ServerIF」であり、ストレージ装置の通信の際に識別子として用いるiSCSIイニシエータ名は「com.hitachi.sva」である。
図6は、構成管理DB232中のスイッチポートテーブルの構成例を示す。
スイッチポートテーブル600は、ネットワークスイッチ203が有するI/Oポート271毎にレコードを有し、各レコードが、5つのフィールド、すなわちID601、ポート番号602、装置ID603、接続先ポート604および種別605を有する。ID601は、I/Oポート271(管理対象コンポーネント)を一意に識別する値を格納する。ポート番号602は、ネットワークスイッチ203においてI/Oポート271を一意に識別する値を格納する。装置ID603は、I/Oポート271を有するネットワークスイッチ203の識別子を格納する。接続先ポート604は、I/Oポート271に接続されているサーバ202のネットワークI/F243あるいはストレージ装置204のI/Oポート263の識別子が格納される。ネットワークスイッチ203が多段に接続されている場合は、複数のサーバのネットワークI/Fあるいはストレージ装置のI/Oポートから出力されたデータがネットワークスイッチのポートを通るため、複数の識別子が接続先ポート604に格納されていてよい。種別605は、管理対象コンポーネントの種別を示す識別子を格納する。例えば、1行目のレコードは、次のことを意味する。「0」という番号で示されるI/Oポートが、「SwD」という識別子で識別されるネットワークスイッチにあり、「SWPORT1」という識別子で識別され、コンポーネントの種別が「NWSwitchPort」であり、「STPORT1」で識別されるI/Oポートに接続されている。
図7は、構成管理DB232中のiSCSIターゲットテーブルの構成例を示す。
iSCSIターゲットテーブル700は、iSCSIターゲット毎にレコードを有し、各レコードが、2つのフィールド、すなわちiSCSIターゲット名701および接続許可iSCSIイニシエータ702を有する。iSCSIターゲット名701は、各iSCSIターゲットが持つiSCSIターゲット名を格納する。接続許可iSCSIイニシエータ702は、iSCSIターゲットに属する論理ボリュームに対しアクセスが許可されたサーバ上のネットワークI/F243の識別子となるiSCSIイニシエータ名を格納する。例えば、1行目のレコードは、次のことを意味する。「com.hitachi.stoC1」で識別されるiSCSIターゲットに属する論理ボリュームに対し、「com.hitachi.sva」、「com.hitachi.svb」で識別されるサーバ上のネットワークI/F243は、アクセスが許可されている。
図8は、構成管理DB232中のストレージポートテーブルの構成例を示す。
ストレージポートテーブル800は、ストレージ装置204が有するI/Oポート263毎にレコードを有し、各レコードが、5つのフィールド、すなわちID801、ポート番号802、装置ID803、iSCSIターゲットID804および種別805を有する。ID801は、I/Oポート263(管理対象コンポーネント)を一意に識別する値を格納する。ポート番号802は、ストレージ装置204においてI/Oポート263を一意に識別する値を格納する。装置ID803は、I/Oポート263を有するストレージ装置204の識別子を格納する。iSCSIターゲット804は、I/Oポート263を使用するiSCSIターゲットの識別子を格納する。種別605は、管理対象コンポーネントの種別を示す識別子を格納する。例えば、1行目のレコードは、次のことを意味する。「0」という番号で示されるI/Oポートが、「StoC」という識別子で識別されるストレージ装置にあり、「STPORT1」という識別子で識別され、コンポーネントの種別は「StorageiSCSIPort」であり、「com.hitachi.stoC1」で識別されるiSCSIターゲットに使用されている。
<性能テーブル>
性能テーブル238には、性能取得プログラム229が監視エージェント等から取得した管理対象装置を構成する管理対象コンポーネントの性能情報が格納される。
図9は、性能テーブル238の構成例を示す。
性能テーブル238は、性能情報毎にレコードを有し、各レコードが、5つのフィールド、すなわち、コンポーネントID901、メトリック902、時刻903、値904および単位905を有する。コンポーネントID901は、性能情報の取得元の管理対象コンポーネントを一意に識別する値を格納する。メトリック902は、管理対象コンポーネントの性能の観測項目(メトリック)を識別する値を格納する。時刻903は、管理対象コンポーネントの性能を観測した時刻を格納する。時刻は、年月時刻分の単位であるが、それよりも粗い単位でも細かい単位でもよい。値904は、管理対象コンポーネントの性能として観測した値を格納する。単位905は、観測した値に対する単位を格納する。例えば、1行目のレコードは、次のことを意味する。「SWPORT1」という識別子で識別される管理コンポーネント(ここでは、ネットワークスイッチDのポート0)の「TxDropPacketNum」で識別される観測項目に対して、2013/01/01/0:00に「0 Packets/sec」という性能が観測された。
<イベントキューテーブル>
図10は、イベントキューテーブル233の構成例を示す。
イベントキューテーブル233は、イベント受信プログラム227が管理対象装置の監視エージェント等から取得したイベント情報を格納する。イベントキューテーブル233は、イベント情報毎にレコードを有し、各レコードが、5つのフィールド、すなわち、イベントID1001、装置ID1002、コンポーネントID1003、イベント種別1004および発生時刻1005を有する。イベントID1001は、イベント情報を一意に識別するための識別子を格納する。装置ID1002は、イベント情報の取得元の管理対象装置を一意に識別するための識別子を格納する。コンポーネントID203は、イベント情報の取得元の管理対象コンポーネントを一意に識別するための識別子を格納する。イベント種別1004は、管理対象コンポーネントで発生したイベントの種別を示す識別子を格納する。発生時刻1005は、イベントが発生した時刻(取得されたイベント情報が含む時刻)を格納する。発生時刻1005は、管理計算機201がイベント情報を受信した時刻を格納してもよい。イベントが、装置の要素に関するイベントではなく、装置そのものに関するイベントである場合、コンポーネントID1003の値は装置ID1002の値と等しくてもよい。例えば、1行目のレコードは、次のことを意味する。装置IDがSwDであるネットワークスイッチ203のコンポーネントIDがSWPORT1であるI/Oポート273において「TxDropPacketNumError(送信ドロップパケット数異常)」が2013年1月1日0時0分に発生した。
<メタルールリポジトリおよびメタルール>
イベント分析プログラム222が、障害原因解析を実行する。障害原因解析は、例えば、特許文献1に記載の解析と同じでよい。そして、イベント分析プログラム222が、ITシステムで発生した複数の障害の伝播元となった障害を絞り込んだ後、伝播元となった障害の発生原因を特定すべく診断を実行する。メタルールは、イベント分析プログラム222が分析時に使用する情報である。メタルールは、あるトポロジ(あるI/Oの経路上に存在する1つまたは複数の管理対象コンポーネントのグループ)のパターンにおいて発生し得るイベントの組合せと、それらのイベントが同じタイミングで発生した場合に障害の原因候補との対応関係を示す情報である。実施例1では、メタルールに定義される原因候補はシステム障害の伝播元となる障害を示す。メタルールは、メタルールが示す障害の原因イベントに対して詳細な診断を実行する際に使用するメタ診断手順を識別する情報と診断の対象となるトポロジの起点となる管理対象コンポーネントの情報を有する。本実施例においては、メタルールはIF−THEN形式で記述されるが、システム障害の原因イベントと、原因イベントによって引き起こされる観測イベント(観測されるイベント)が記述されていればそれ以外の形式であってもよい。
図11Aは、メタルールリポジトリ231に常駐するメタルール1100の構成例を示す。
一般に、ルールは、2つの部分(フィールド)、すなわち「IF」部1111と呼ばれる第1の部分および「THEN」部1112と呼ばれる第2の部分に分けることができる。IF部1111は1つ以上の条件要素を含んでいてよい。
メタルール1100は、IF部1111のイベント(条件イベント)が検知された場合、THEN部1112のイベント(結論イベント)が障害の原因候補となることを示す。従って、THEN部1112が表す管理対象コンポーネントのステータスが正常になれば、IF部1111が表す問題も解決することが見込まれる。
本実施例においては、イベント分析プログラム222は、図10のイベントキューテーブル233に格納されるイベント情報が表すイベントを観測イベントとし、分析を行う。そのため、IF部1111は、条件要素毎にエントリを有し、各エントリが、装置種別1101、コンポーネント種別1102およびイベント種別1103を有する。すなわち、管理対象装置やその要素は、管理計算機201においていくつかの種別に分類されており、IF部1111の条件要素は、指定した種別の管理対象コンポーネントにおいて指定したイベント種別が示す状態が発生することを示す。条件要素が、装置の要素ではなく、装置そのものに関するイベントを示す場合は、その条件要素についてのコンポーネント種別1102の値は装置種別1101と等しい値であってもよい。
また、メタルール1100は、各々のメタルールを一意に識別するメタルールIDを格納するフィールドであるメタルールID1113と、メタルール1100を実際の管理対象のITシステムの構成に適用して展開ルールを生成する際にメタルール1100を適用するトポロジの条件を格納するためのフィールドであるトポロジ条件1114とを含む。本実施例においては、トポロジ条件として、構成管理DB232からトポロジの情報を取得する方式を例に挙げている。例えば、図11Aに示すトポロジ条件の例は、メタルールを適用するトポロジが、iSCSIディスクと、そのiSCSIディスクの記憶容量を提供すべく使用されるサーバのネットワークI/F、および、ストレージ装置のI/Oポートと、それら2つのI/Oポートの間にあるネットワークスイッチのI/Oポートの組合せであることを示している。
さらに、本実施例では、メタルールを用いて導出された結論に基づき、さらに詳細に原因イベントを特定するための診断を実行するため、メタルール1100は、メタ診断手順の識別子、診断の対象となるトポロジの起点となる装置、および管理対象コンポーネントの条件を格納するためのフィールド1115を含む。図11のメタルールが障害原因解析で使用された場合、そのメタルールに関連付けられているメタ診断手順ID(そのメタルールのフィールド1115に記述されているメタ診断手順ID)から識別されるメタ診断手順が使用される。図11Aの例では、「メタ診断手順ID=(識別子),起点=(装置種別 コンポーネント種別)」という形式でメタ診断手順の識別子と起点の条件が格納されている。フィールド1115には、複数の組合せ(メタ診断手順の識別子と起点の条件の組合せ)が格納されていてよい。また、複数のメタルール1100の各々のフィールド1115に1つのメタ診断手順の識別子が格納されていてよい。診断の対象となるトポロジは、メタルール1100が適用されるトポロジと異なっていてよい。診断の対象となるトポロジに関する説明については後述する。
例えば、図11Aのメタルール「MetaRule1」は、観測イベントとして「サーバ202上のiSCSIディスク151のディスクアクセスレスポンス時間異常」と、「ネットワークスイッチ203におけるI/Oポート271の送信ドロップパケット数異常」とが検知されたときに、「ネットワークスイッチ203におけるI/Oポート271の送信ドロップパケット数異常」がボトルネックであると結論付けられることを示している。また、メタルール「MetaRule1」を用いて分析を行う際には、トポロジ条件1114に格納された条件に基づいてメタルールを適用するトポロジの情報が、構成管理DB等から取得される。また、THEN部1112に記述された結論を詳細解析する場合には、「MetaDiagnosticProc1」で識別されるメタ診断手順を用い、取得したトポロジ情報のうち、「ネットワークスイッチ203のI/Oポート271」に当てはまる管理対象コンポーネントを起点とした別のトポロジに対して診断を実行する(フィールド1115中の「 起点=(NetworkSwitch NWSwitchPort)」を参照)。メタ診断手順を用いて詳細解析をする際に、イベント分析プログラム222の分析対象となったトポロジ内の管理対象コンポーネントを起点とし、診断対象トポロジを別に定義できるようにすることで、イベント分析の対象となったトポロジの周辺の管理対象コンポーネントも含めて診断対象とすることができる。なお、IF部1111に含まれる条件要素として、あるコンポーネントが正常であること(障害イベントが発生していないこと)を定義してもよい。また、THEN部1112のイベント種別1103が表すイベント種別は、新たに定義してもよく、イベント受信プログラム227が受信するイベントのイベント種別でなくてもよい。
<展開ルール>
展開ルールは、ITシステムにおいて発生し得るイベントの組み合わせと、それらのイベントが発生した場合の障害の原因候補となるイベントとの対応関係を示す情報である。実施例1では、展開ルールに定義される原因候補はシステム障害の伝播元となる障害を示す。展開ルールは、メタルール1100のトポロジ条件1114に基づいて、メタルール1100を適用可能なトポロジを管理対象ITシステムの中から検索し、検索されたトポロジに対してメタルール1100を適用した結果として生成されるルールである。また、展開ルールは、イベント分析プログラム222が分析時に使用する情報である。
本実施例において、展開ルールは、メタルールと同様に、IF−THEN形式で記述するが、システム障害の原因イベントと、原因イベントによって引き起こされる観測イベントが記述されていれば、他の形式でもよい。
図11Bは、展開ルールの構成例を示す。
一般に、展開ルール1150も、メタルール1100と同様に、二つの部分(フィールド)、すなわちIF部1151と称される第1の部分と、THEN部1152と称される第2の部分とに分けることができる。IF部1151は一つ以上の条件要素を含んでもよい。
展開ルール1150は、IF部1151のイベント(条件イベント)が検知された場合、THEN部1152のイベント(結論イベント)が障害の原因となることを示す。したがって、THEN部1152が表す管理対象コンポーネントのステータスが正常になれば、IF部1151が表す問題も解決することが見込まれる。
本実施例においては、図10のイベントキューテーブル233に格納されるイベント情報が表す観測イベントとし、イベント分析プログラム222によって障害の原因候補を絞り込む。展開ルール1150のIF部1151は、条件要素毎にエントリを有し、各エントリが、装置ID1161、コンポーネントID1162、イベント種別1163および受信フラグ1164というフィールドを有する。すなわち、IF部1151の条件要素は、装置ID1161およびコンポーネントID1162によって指定される管理対象コンポーネントにおいてイベント種別1163の情報によって示される状態が発生することを示す。また、受信フラグ1164は、実際に条件要素が示すイベントを受信したか否かの結果を格納する。条件要素が示すイベントを受信した場合は、受信フラグ1164に「1」が格納され、条件要素が示すイベントを受信していない場合は、受信フラグ1164に「0」が格納される。受信フラグ1164に「1」が格納されてから所定の時間が経過するとその値が「0」に戻されるなどの処理が行われてもよい。
IF部1151およびTHEN部1152の各々において、装置ID1161とコンポーネントID1162に格納される値は、メタルール1100のトポロジ条件1114に基づいて構成管理DB232から特定された装置IDおよびコンポーネントIDのうち、装置種別1101及びコンポーネント種別1102で定義された種別に該当する値である。
また、展開ルール1150は、その展開ルール1150を一意に識別する展開ルールIDを格納するフィールドである展開ルールID1153を含む。また、展開ルール1150は、その展開ルール1150を用いて導出された結論に基づきさらに詳細に原因イベントを特定するための診断を実行するため、メタ診断手順の識別子、診断の対象となるトポロジの起点となる装置、および管理対象コンポーネントの識別子を格納するためのフィールド1155を有する。フィールド1155に格納される値のうち、メタ診断手順IDは、展開ルール1150を生成するときに使用したメタルール1100のフィールド1115に格納されている値と等しい。また、フィールド1155に格納される値のうち、起点として格納される装置IDおよびコンポーネントIDは、メタルール1100のトポロジ条件1114に基づいて構成管理DB232から特定された装置IDおよびコンポーネントIDのうち、メタルール1100のフィールド1115に格納された「起点の条件」に該当するIDである。図11Bの例では、「メタ診断手順ID=(識別子),起点=(装置ID コンポーネントID)」という形式で値が格納されている。図11Bは、図11Aのメタルール1100を図3〜図8が示す構成管理DB232に基づいて展開し生成された展開ルール1150a〜1150dを示す。例えば、展開ルール1150a「ExpandedRule1」は、観測イベントとして「サーバA(ID=SvA)のDドライブ(ID=DRIVE1)のディスクアクセスレスポンス時間異常」と、「ネットワークスイッチD(ID=SwD)におけるポート0(ID=SWPORT1)の送信ドロップパケット数異常」とが検知された場合、「ネットワークスイッチDにおけるポート0の送信ドロップパケット数異常」がボトルネックであると結論付けられることを示す。また、その展開ルール1150aのTHEN部1152に記述された結論を詳細解析する場合には、「MetaDiagnosticProc1」で識別されるメタ診断手順を用い、「装置IDがSwD、コンポーネントIDがSWPORT1」で識別される管理対象コンポーネントを起点としたトポロジに対して診断が実行される。なお、IF部1151に含まれる条件要素として、あるコンポーネントが正常であること(障害イベントが発生していないこと)を定義してもよい。
<メタ診断手順リポジトリおよびメタ診断手順>
メタ診断手順は、イベント分析プログラム222によって、ITシステムの障害の伝播元となる障害を絞り込んだ後、障害原因イベントを特定すべく実行される診断の一連の手順である。メタ診断手順は、診断に必要な情報を収集するステップと、収集した情報に基づいて判定を行うステップと、1つあるいは複数の判定の結果に基づいて導出される結論で構成される。メタ診断手順を実行する対象となる具体的な管理対象コンポーネントは定義されておらず、手順を実行する対象となるトポロジのパターンや構成のパターンが定義される。
図12は、メタ診断手順リポジトリ234に常駐するメタ診断手順1200の構成例を示す。
メタ診断手順1200は、そのメタ診断手順1200に関する情報を格納する基本オブジェクト1201と、診断に必要な情報を収集する手段を格納した情報収集オブジェクト1202と、収集した情報に基づいて判定する手段を格納した判定オブジェクト1203と、1つあるいは複数の判定の結果に基づいて導出される結論の情報を格納した結論オブジェクト1204とで構成される。本実施例においては、メタ診断手順1200は、オブジェクト構造であるが、情報を収集する手段の情報と、判定のステップの情報と、判定の結果に基づいて導出される結論の情報の組合せで構成されていれば、他のデータ構造であってもよい。オブジェクト1201〜1204のうちオブジェクト1201以外は複数存在し得る。図12に例示されるメタ診断手順1200は、基本オブジェクト1201と、2つの情報収集オブジェクト1202aおよび1202bと、2つの判定オブジェクト1203aおよび1203bと、3つの結論オブジェクト1204a、1204bおよび1204cとで構成されている。
基本オブジェクト1201は、5つのフィールド、すなわち、タイプ1211、ID1212、メタ診断手順ID1213、トポロジ条件ID1214およびNextID1215を有する。タイプ1211は、オブジェクトの種別を識別するための識別子(例えば、基本情報であることを示す「Start」)を格納する。ID1212は、オブジェクトを一意に識別するための識別子を格納する。メタ診断手順ID1213は、メタ診断手順1200を一意に識別するための識別子を格納する。トポロジ条件ID1214は、メタ診断手順1200を適用するトポロジの条件を一意に識別するための識別子を格納する。NextID1215は、最初に実行するステップを格納したオブジェクトの識別子を格納する。
情報収集オブジェクト1202は、4つのフィールド、すなわち、タイプ1221、ID1222、手段ID1223およびNextID1224を有する。タイプ1221は、オブジェクトの種別を識別するための識別子(例えば、情報収集手段が格納されていることを示す「CollectInfo」)を格納する。ID1222は、ID1212と同様に、オブジェクトを一意に識別するための識別子を格納する。手段ID1223は、メタ収集手段を一意に識別するための識別子を格納する。手段ID1223に格納された識別子を基に、メタ収集手段リポジトリ236から診断に必要なメタ収集手段が検索される。NextID1225は、次に実行するステップを格納したオブジェクトの識別子を格納する。例えば、情報収集オブジェクト1202aは、診断実行時に、「GetInfo1」という識別子で識別されるメタ収集手段をメタ収集手段リポジトリ236から取得し、その手段に基づいて情報収集を行った後、IDが「2」のオブジェクトが示すステップを実行することを示している。
判定オブジェクト1203は、5つのフィールド、すなわち、タイプ1231、ID1232、判定プログラムID1233、引数1234およびDecision Map1235を有する。タイプ1231は、オブジェクトの種別を識別するための識別子(例えば、判定ステップに関する情報が格納されていることを示す「Decision」)を格納する。ID1232は、ID1212と同様に、オブジェクトを一意に識別するための識別子を格納する。判定プログラムID1233は、収集した情報に基づいて判定を行うプログラムを一意に識別する識別子を格納する。判定プログラムIDに格納された識別子を基に、メモリ212に常駐する判定プログラム226が呼び出される。引数1234は、判定プログラム226によって判定を実行する際に使用する情報の識別情報を格納する。Decision Map1235は、キー1236とNextID1237の組合せの一覧を格納する。キー1236は、判定プログラム226の戻り値になり得る値を格納し、NextID1237は、オブジェクトの識別子を格納する。すなわち、Decision Map1235には、診断実行時に、判定プログラム226の戻り値に応じて、次に実行するステップを決定するための情報が格納される。例えば、判定オブジェクト1203aは、診断実行時に、「判定プログラム1」という識別子で識別される判定プログラム226を起動させ、「判定プログラム1」に引数として「1」という識別子で識別されるオブジェクト1202aで収集した情報を渡し、「判定プログラム1」の戻り値が「YES」であった場合は「3」という識別子で識別されるオブジェクト1202bが示すステップを実行し、戻り値が「NO」であった場合は「4」という識別子で識別されるオブジェクト1204aが示すステップを実行することを示している。また、1つの判定プログラムの例として、「判定プログラム1」は、「引数として与えられた性能情報の上昇率が事前に定義された値以上であるかどうかを判定し、その値以上であればYESを、その値未満であればNOを返すプログラム」などであってよい。
結論オブジェクト1204は、3つのフィールド、すなわち、タイプ1241、ID1242およびConclusion1243を有する。タイプ1241は、オブジェクトの種別を識別するための識別子(例えば、結論に関する情報が格納されていることを示す「End」)を格納する。ID1242は、ID1212と同様に、オブジェクトを一意に識別するための識別子を格納する。Conclusion1243は、診断実行時において診断の結論となる情報を格納する。例えば、Conclusino1243に格納された情報が、出力デバイス217に表示されてもよい。例えば、診断実行時に、判定オブジェクト1203aの判定結果によって結論オブジェクト1204aが結論として選択された場合、診断結果として「“ネットワークスイッチポート”の帯域不足」が出力デバイス217に表示される。ただし、“ネットワークスイッチポート”には、トポロジ条件ID1214が示すトポロジ条件に基づいて構成管理DB232から取得したネットワークスイッチポートの識別情報が表示される。
図13は、メタ診断手順1200を適用するトポロジ条件の構成例を示す。
トポロジ条件1300は、2つのフィールド、すなわち、トポロジ条件ID1301および条件1302を有する。トポロジ条件ID1301は、トポロジ条件を一意に識別する識別子を格納する。トポロジ条件ID1301に格納される値は、図12の基本オブジェクト1201のトポロジ条件ID1214に格納される識別子と等しい。条件1302は、メタ診断手順1200を適用するトポロジの条件に関する情報を格納する。本実施例においては、構成管理DB232からトポロジの情報を取得する方式を例に挙げている。例えば、図13の条件1302に基づいてトポロジの情報を取得する場合、(1)スイッチポートテーブル600の装置ID603の値が、展開ルールのフィールド1155に格納された起点の装置IDと等しく、かつ(2)ネットワークI/Fテーブル500のID501の値が、(1)のスイッチポートテーブル600のレコードの接続先ポートの値と等しいレコードの組合せを取得する。つまり、条件1302が表す起点の管理対象コンポーネントと、その条件1302において起点の管理対象コンポーネントに関連付けられている管理対象コンポーネントとを含んだトポロジが特定される。条件1302に格納するトポロジ条件は、トポロジの情報を取得するための方法が記述されていれば、図13に示す形式でなくてよい。
<メタ収集手段リポジトリおよびメタ収集手段>
図14は、メタ収集手段リポジトリ236に格納されたメタ収集手段の構成例を示す。
メタ収集手段1400は、2つのフィールド、すなわち、手段ID1401および収集手段1402を有する。手段ID1401は、メタ収集手段1400を一意に識別する識別子を格納する。手段ID1401に格納される値は、図12の情報収集オブジェクト1202の手段ID1223に格納される識別子と等しい。メタ収集手段1402は、診断に必要な情報収集手段を格納する。本実施例においては、診断に必要な情報の1つの例として、性能テーブル238から取得できる管理対象コンポーネントの性能情報が挙げられる。そのため、例えば、メタ収集手段1402aには、テーブルから情報を取得するためのクエリが格納される。ただし、どの管理対象コンポーネントの性能情報を収集するかは、イベント分析プログラム222の導出した結論によるため、管理対象コンポーネントの識別子は変数とする。図14の例では、ダブルクォーテーションでかこった部分を変数として表現している(この点は、メタ収集手段1402bについても同様である)。
<展開診断手順リポジトリおよび展開診断手順>
展開診断手順は、メタ診断手順とトポロジ情報に基づいて診断手順展開プログラム223によって展開される診断手順である。展開診断手順は、メタ診断手順と同様に、診断に必要な情報を収集するステップと、収集した情報に基づいて判定を行うステップと、1つあるいは複数の判定の結果に基づいて導出される結論で構成される。メタ診断手順には、実行する対象となる具体的なコンポーネントは定義されていなかったのに対し、展開診断手順は、トポロジ情報に基づいて、実行の対象となるコンポーネントが定義される。
図15は、展開診断手順リポジトリ235に格納される展開診断手順1500の構成例を示す。なお、展開診断手順リポジトリ235は、一度生成した展開診断手順を別の診断で再利用するために保存するリポジトリであり、そのリポジトリが必ずしも管理計算機201に無くてもよい。また、図1では展開診断手順に「124」という参照符号が付されているが、図15に示す展開診断手順は図1の展開診断手順と構成が違っているため、図15の展開診断手順は図1の展開診断手順と違う参照符号「1500」を使用している。しかし、図1の展開診断手順も図15の展開診断手順も同じ方法で生成された手順でよい。
展開診断手順1500は、展開診断手順に関する情報を格納する基本オブジェクト1501と、診断に必要な情報を収集する手段を格納した情報収集オブジェクト1502と、収集した情報に基づいて判定する手段を格納した判定オブジェクト1503と、1つあるいは複数の判定の結果に基づいて導出される結論の情報を格納した結論オブジェクト1504で構成される。本実施例においては、展開診断手順は、オブジェクト構造であるが、情報を収集する手段の情報と、判定のステップの情報と、判定の結果に基づいて導出される結論の情報の組合せで構成されていれば、他のデータ構造であってもよい。オブジェクト1501〜1504のうちオブジェクト1501以外は複数存在し得る。図15に例示される展開診断手順1500は、基本オブジェクト1501と、2つの情報収集オブジェクト1502aおよび1502bと、2つの判定オブジェクト1503aおよび1503bと、3つの結論オブジェクト1504a、1504bおよび1504cとで構成されている。
基本オブジェクト1501は、6つのフィールド、すなわち、タイプ1511、ID1212、メタ診断手順ID1513、展開診断手順ID1514,経路リスト1515およびNextID1516を有する。タイプ1511は、メタ診断手順1200のタイプ1211と同様に、オブジェクトの種別を識別するための識別子(例えば、基本情報であることを示す「Start」)を格納する。ID1512は、オブジェクトを一意に識別するための識別子を格納する。メタ診断手順ID1513は、展開診断手順1500を生成する際に使用したメタ診断手順1200の識別子を格納する。展開診断手順ID1514は、展開診断手順1500を一意に識別するための識別子を格納する。経路リスト1515は、診断実行時に、参照した展開診断手順1500のオブジェクトのIDの一覧を格納する。すなわち、経路リスト1515は、診断実行後に、診断のために収集した情報と判定結果と判定結果に基づいて導出された結論を取得できるようなデータ構造であればよい。NextID1516は、最初に実行するステップを格納したオブジェクトの識別子を格納する。
情報収集オブジェクト1502は、4つのフィールド、すなわち、タイプ1521、ID1522、展開手段ID1523およびNextID1524を有する。タイプ1521は、メタ診断手順1200のタイプ1221と同様に、オブジェクトの種別を識別するための識別子(例えば、情報収集手段が格納されていることを示す「CollectInfo」)を格納する。ID1522は、ID1512と同様に、オブジェクトを一意に識別するための識別子を格納する。展開手段ID1523は、展開収集手段を一意に識別するための識別子を格納する。展開手段ID1223に格納された識別子を基に、展開収集手段リポジトリ237から診断に必要な展開収集手段が検索される。NextID1525は、次に実行するステップを格納したオブジェクトの識別子を格納する。例えば、情報収集オブジェクト1502aは、診断実行時に、「ExpandedGetInfo1−1」という識別子で識別される情報収集手段を展開収集手段リポジトリ237から取得し、その手段に基づいて情報収集を行った後、IDが「Proc1−1−2」のオブジェクトが示すステップを実行することを示している。
判定オブジェクト1503は、5つのフィールド、すなわち、タイプ1531、ID1532、判定プログラムID1533、引数1534およびDecision Map1535を有する。タイプ1531は、メタ診断手順1200のタイプ1231と同様に、オブジェクトの種別を識別するための識別子(例えば、判定ステップに関する情報が格納されていることを示す「Decision」)を格納する。ID1532は、ID1512と同様に、オブジェクトを一意に識別するための識別子を格納する。判定プログラムID1533は、収集した情報に基づいて判定を行うプログラムを一意に識別する識別子を格納する。判定プログラムID1533には、メタ診断手順1200の判定プログラムID1233と等しい値が格納される。判定プログラムIDに格納された識別子を基に、メモリ212に常駐する判定プログラム226が呼び出される。引数1534は、判定プログラム226によって判定を実行する際に使用する情報の識別情報を格納する。Decision Map1535は、メタ診断手順1200のDecision Map1235と同様に、キー1536とNextID1537の組合せの一覧を格納する。キー1536は、判定プログラム226の戻り値になり得る値を格納し、NextID1537は、オブジェクトの識別子を格納する。すなわち、Decision Map1535には、診断実行時に、判定プログラム226の戻り値に応じて、次に実行するステップを決定するための情報が格納される。例えば、判定オブジェクト1503aは、診断実行時に、「判定プログラム1」という識別子で識別される判定プログラム226を起動させ、「判定プログラム1」に引数として「Proc1−1−1」という識別子で識別されるオブジェクト1502aで収集した情報を渡し、「判定プログラム1」の戻り値が「YES」であった場合は「Proc1−1−3」という識別子で識別されるオブジェクト1502bが示すステップを実行し、戻り値が「NO」であった場合は「Proc1−1−4」という識別子で識別されるオブジェクト1504aが示すステップを実行することを示している。
結論オブジェクト1504は、3つのフィールド、すなわち、タイプ1541、ID1542およびConclusion1543を有する。タイプ1541は、メタ診断手順1200のタイプ1241と同様に、オブジェクトの種別を識別するための識別子(例えば、結論に関する情報が格納されていることを示す「Conclusion」)を格納する。ID1542は、ID1512と同様に、オブジェクトを一意に識別するための識別子を格納する。Conclusion1543には、診断実行時において、診断の結論となる情報が格納される。例えば、Conclusion1543に格納された情報が、出力デバイス217に表示されてもよい。例えば、診断実行時に、判定オブジェクト1503の判定結果によって結論オブジェクト1504aが結論として選択された場合、診断結果として「SWPORT1(ネットワークスイッチDのポート0)の帯域不足」が出力デバイス217に表示される。
<展開収集手段リポジトリおよび展開収集手段>
展開収集手段は、メタ展開収集手段とトポロジ情報に基づいて診断手順展開プログラム223によって、展開される情報収集手段である。メタ収集手段には、情報収集の対象となる具体的なコンポーネントは定義されず、本実施例においては、変数で表現されていた。これに対し、展開収集手段はトポロジ情報に基づいて、情報収集の対象となるコンポーネントが定義される。
図16は、展開収集手段リポジトリ237に格納された展開収集手段の構成例を示す。
展開収集手段1600は、2つのフィールド、すなわち、展開手段ID1601および展開収集手段1602を有する。展開手段ID1601は、展開収集手段を一意に識別する識別子を格納する。展開手段ID1601に格納される値は、図15の情報収集オブジェクト1502の展開手段ID1523に格納される識別子と等しい。展開収集手段1602は、診断に必要な情報収集手段を格納する。本実施例においては、診断に必要な情報の1つの例として、性能テーブル238から取得できる管理対象コンポーネントの性能情報を挙げている。そのため、例えば、展開収集手段1602aは、テーブルから情報を取得するためのクエリを格納する。他の展開収集手段1602b、1602cおよび1602dについても同様である。展開収集手段1602は、メタ収集手段1402と異なり、情報収集の対象を定義している。図16は、図14のメタ収集手段1400を、図13のトポロジ条件1300aに基づいて展開し生成された展開収集手段1600a〜1600dの例を示す。
<障害解析プログラムの処理>
本実施例においては、イベントのパターンに基づいて障害原因解析を実行した後、その結果に基づいて、さらに詳細な障害原因イベントの特定を行うべく、診断を実行する。
図17は、障害解析プログラム221により実行される障害原因解析処理の例のフローチャートを示す。
障害解析プログラム221は、ITシステムにおいて障害が発生し、その障害に関するイベントをイベント受信プログラム227によって検知されるとこの処理を開始すべく構成されていてよい。また、ITシステムにおける障害の発生を管理者が検知し、入力デバイス214から管理者の指示により起動されるとこの処理が開始されてもよい。
ステップS1701において、障害解析プログラム221は、イベント分析プログラム222を実行する。イベント分析プログラム222は、発生したイベントのパターンに基づいて障害原因イベントを絞り込む処理を実行する。本実施例においては、イベント分析プログラム222は、イベントキューテーブル233に格納されたイベント情報群と、メタルールリポジトリ231に格納されたメタルールと、構成管理DB232に格納された構成情報とに基づいて、システム障害の伝播元となる障害の候補を絞り込む。例えば、図10に示すイベントキューテーブル233のイベント情報群をイベント受信プログラム227が受信し、図11Aに示すメタルール1100と図3〜図8のテーブルに基づいてイベント分析プログラム222が分析を行った場合、展開ルール1150a、1150b、1150c、1150dが生成される。そして、例えば、展開ルール1150aおよび1150bの各々のTHEN部1152の情報に基づいて、イベント分析プログラム222が、「ネットワークスイッチD(IDはSwD)のポート0(IDはSWPORT1)の送信ドロップパケット数異常(イベント種別の識別子はTxDropPacketNumError)が障害の伝播元である」という結論を導出する。
図18に、イベント分析結果画面1800の一例を示す。
イベント分析結果画面1800は、イベント分析プログラム222が導出した結論をITシステムで発生した複数の障害の伝播元となる障害を原因候補として提示した画面である。イベント分析結果画面1800は、伝播元となる障害原因候補毎にエントリを有し、各エントリが、障害原因候補を表示する原因障害候補フィールド1801と、フィールド1801が示す原因候補に対する確からしさ(確信度)を表示する確信度フィールド1802と、診断実行ボタン1803とを有してよい。確信度フィールド1802に表示される確信度は、例えば、原因候補1811に関連する展開ルール1150のイベント受信率であってよい。イベント受信率は、例えば、「イベント受信率=(受信フラグ1164が「1」の条件要素数)/(条件要素の総数)」という式で算出されてよい。
1つの原因候補1811に対して複数の展開ルールが存在する場合は、複数の展開ルールにそれぞれ対応した複数のイベント受信率に基づく値(例えば、イベント受信率の最大値、平均値、あるいは、最小値など)が確信度フィールド1802に表示されてよい。あるいは、原因候補1811に関連する全ての展開ルールの条件要素の総数と受信フラグ1164が「1」の条件要素数に基づいてイベント受信率が算出され、確信度フィールド1802に、算出された値が表示されてよい。また、原因候補は、イベント分析プログラム222の導出した結論に基づいて確信度の高い順に複数表示されてよい。
管理者が所望の原因候補に対応した実行ボタン1803を押下すると、対応する原因候補の詳細診断を実行すべく、図17のステップS1702に進み、診断手順展開プログラム223が起動する。管理者によって詳細診断を実行するための入力インタフェースは、ボタンに限定せず、診断実行を管理計算機201に指示するいずれの入力インタフェースも採用可能である。また、診断手順展開プログラム223の開始は、管理者の指示ではなく、イベント分析プログラム222によって原因候補が導出された後に、導出された各々の原因候補に対して自動で実行されてもよい。また、自動で診断手順展開プログラム223を実行する場合には、イベント分析プログラム222が導出した原因候補のうち、確信度が一定値以上のものに対してのみ、診断手順展開プログラム223が実行されてもよい。
本実施例においては、イベント分析プログラム222が導出した結論は、ITシステムで発生した複数の障害の伝播元となる障害を示しており、管理者が診断実行ボタン1803を押下し、それに応答して、伝播元となった障害の発生原因を特定する診断を実行すべく診断手順展開プログラム223が起動される。
ステップS1702において、障害解析プログラム221は、ステップS1701で選択された原因候補の情報を入力として、診断手順展開プログラム223を起動する。診断手順展開プログラムは、入力された原因候補の情報、すなわち展開ルール1150のTHEN部1152の情報と、展開ルール1150と、メタ診断手順1200と、メタ収集手段1400と、構成管理DB232に格納された構成情報に基づいて、展開診断手順1500を生成する。診断手順展開プログラム223の詳細な処理の例については図19に示す。
ステップS1703において、障害解析プログラム221は、展開診断手順1500を入力として、診断実行プログラム224を起動する。診断実行プログラム224は、展開診断手順1500に基づいて、診断を実行しITシステムの障害原因イベントを特定する。診断実行プログラム224の詳細な処理の例については図20に示す。
ステップS1704において、障害解析プログラム221は、ステップS1703で診断を実行した展開診断手順1500を入力として、表示プログラム225を起動する。表示プログラム225は、入力された展開診断手順1500とその経路リスト1515に基づき、ステップS1703で導出された障害の原因に関する情報を出力デバイス217に表示する。
本実施例においては、イベント分析プログラム222を実行した後に、診断手順展開プログラム223を実行しているが、イベント分析プログラム222の実行前に、診断手順展開プログラム223が実行されてもよい。例えば、診断手順展開プログラム223が、構成管理DB232の構成情報とメタルール1100に基づいて、イベント分析プログラム222が導出し得る原因候補を全て挙げ、そして、それらの原因候補を診断するのに必要な展開診断手順1500と展開収集手段1600を、メタ診断手順1200とメタ収集手段1400と構成管理DB232の構成情報に基づいて生成し、そして、それらを展開診断手順リポジトリ235及び展開収集手段リポジトリ237に格納してもよい。この場合、障害解析プログラム221は、イベント分析プログラム222を実行した後、イベント分析プログラム222によって導出された原因候補に対する展開診断手順1500を展開診断手順リポジトリ235から取得し、取得した展開診断手順1500を入力として診断実行プログラム224を起動する。
また、本実施例においては、診断実行プログラム224が、診断に必要な情報を収集し、判定プログラム226が判定を実行する例を挙げているが、ステップS1702実行後に、生成した展開診断手順1500を表示プログラム225に渡し、表示プログラム225が出力デバイス217に展開診断手順1500を表示し、管理者が、その展開診断手順1500の通りに処理を行ってよい。
<診断手順展開プログラムの処理>
図19は、診断手順展開プログラム223により実行される処理の例のフローチャートを示す(ステップS1702)。
ステップS1901において、診断手順展開プログラム223は、イベント分析プログラム222が障害の原因候補として導出した結論の情報を受信する。結論の情報は、展開ルール1150のTHEN部1152に格納された情報の組合せであってよい。例えば、診断手順展開プログラム223は、「ネットワークスイッチD(IDはSwD)のポート0(IDはSWPORT1)の送信ドロップパケット数異常(イベント種別の識別子はTxDropPacketNumError)」という情報を受信する。
ステップS1902において、診断手順展開プログラム223は、ステップS1901で受信した結論の情報に関連する展開ルール1150を取得する。すなわち、診断手順展開プログラム223は、受信した結論をTHEN部1152に持つ展開ルール1150を取得する。診断手順展開プログラム223は、ステップS1902で取得した全ての展開ルール1150の各々について、ステップS1904乃至S1912の処理を行う。以下、1つの展開ルール(以下、図19の説明において「対象展開ルール」)1150を例に取る。
ステップS1904において、診断手順展開プログラム223は、対象展開ルール1150のフィールド1155に格納されているメタ診断手順IDから識別されるメタ診断手順1200をメタ診断手順リポジトリ234から取得する。診断手順展開プログラム223は、ステップS1904で取得した全てのメタ診断手順1200の各々について、ステップS1906乃至S1912の処理を行う。以下、1つのメタ診断手順(以下、図19の説明において「対象メタ診断手順」)1200を例に取る。
ステップS1906において、診断手順展開プログラム223は、対象メタ診断手順1200が対象展開ルール1150のフィールド1155が示す起点に対して展開済みか否かを判定する。この判定の結果が真の場合(S1906:YES)、処理はステップS1907へ進み、この判定の結果が偽の場合(S1906:NO)、処理はステップS1908に進む。
ステップS1907において、診断手順展開プログラム223は、対象展開ルール1150のフィールド1155が示す対象メタ診断手順と起点に基づいて展開した展開診断手順1500を、展開診断手順リポジトリ235から取得する。
ステップS1908において、診断手順展開プログラム223は、対象メタ診断手順1200の基本オブジェクト1201のトポロジ条件ID1214に格納された識別子から識別されるトポロジ条件1300を取得する。
ステップS1909において、診断手順展開プログラム223は、ステップS1908で取得したトポロジ条件1300の条件1302に格納された情報に基づき、構成管理DB232からトポロジ情報を取得する。取得するトポロジ情報が表すトポロジは、対象展開ルール1150のフィールド1155の中の「起点」が示す管理対象コンポーネント(装置あるいはその要素)を起点とする。例えば、対象展開ルール1150が図11Bの展開ルール1150aであった場合、起点は、装置IDが「SwD」およびコンポーネントIDが「SWPORT1」の管理対象コンポーネントである。また、トポロジ条件1300が図13のトポロジ条件1300aであった場合、診断手順展開プログラム223は、スイッチポートテーブル600の装置ID603が「SwD」のレコード(1行目〜4行目のレコード)を参照し、かつ、ネットワークI/Fテーブル500のID501が、それらのレコードの接続先ポート604に格納された値と等しいレコード(2行目〜4行目のレコード)を参照し、参照したレコードのIDの組合せ(SWPORT1−SWPORT2−SVIF1、SWPORT1―SWPORT3−SVIF2、SWPORT1−SWPORT4−SVIF3の3組)をトポロジ情報として取得する。
また、トポロジ条件1300を用いて取得できるトポロジ情報のうち、起点となる管理対象コンポーネント以外の管理対象コンポーネント(あるいは、それらが構成する装置)において障害のイベントが発生していないトポロジに関しては、ステップS1909で取得するトポロジ情報から除いてもよい。管理対象コンポーネントで障害のイベントが発生しているか否かは、イベント受信プログラム227が、分析を開始する契機となった障害イベントを、検知した時刻から一定期間内に障害に関するイベントが発生したかどうかで判定してよい。これにより、診断の対象を、障害が発生しているトポロジに限定することができる。また、展開診断手順1500は、トポロジごとに生成されてもよいし、1組のトポロジ条件と起点に基づいて取得した全てのトポロジに対して1つ生成されてもよい。
ステップS1910において、診断手順展開プログラム223は、メタ診断手順1200の情報収集オブジェクト1202の手段ID1223に格納された識別子から識別されるメタ収集手段1400をメタ収集手段リポジトリ236から取得する。そして、診断手順展開プログラム223は、ステップS1909で取得したトポロジ情報に基づいてメタ収集手段1400を展開することにより展開収集手段1600を生成する。メタ収集手段1400中の変数にトポロジ情報中のIDが代入されることにより、展開収集手段1600が生成される(展開収集手段1602が例えば図16に示した通りとなる)。
ステップS1911において、診断手順展開プログラム223は、メタ診断手順1200とステップS1909で取得したトポロジ情報とステップS1910で生成した展開収集手段1600に基づいて展開診断手順1500を生成する。
ステップS1912において、診断手順展開プログラム223は、ステップS1911で生成した展開診断手順1500を展開診断手順リポジトリ235に登録する。
ステップS1913において、診断手順展開プログラム223は、生成あるいは展開診断手順リポジトリ235から取得した展開診断手順1500を呼び出し元プログラムに返す。
なお、ステップS1904において、対象展開ルール1150のイベント受信率が一定値以下の場合には、対象展開ルールが、展開ルールに関連するメタ診断手順の展開及び診断実行の対象外とされてもよい。これにより、診断実行プログラム224が実行する展開診断手順を、イベント受信率が一定値以上の展開ルールに関連する展開診断手順に限定し、不要な診断の実行を削減することができる。
図19の処理の具体例は次の通りである。ステップS1901において、イベント分析プログラム222の結論として、「ネットワークスイッチD(IDはSwD)のポート0(IDはSWPORT1)の送信ドロップパケット数異常(イベント種別の識別子はTxDropPacketNumError)」という情報を受信した場合、診断手順展開プログラム223は、ステップS1902において、図11Bの展開ルール1150aと1150bを取得する。展開ルール1150aを例に取ると、診断手順展開プログラム223は、ステップS1904において、図12のメタ診断手順1200を取得する。ステップS1906において、展開済みではないと判定された場合、診断手順展開プログラム223は、ステップS1908において、図13のトポロジ条件1300aを取得する。ステップS1909において、診断手順展開プログラム223は、3つのトポロジ情報(SWPORT1−SWPORT2−SVIF1、SWPORT1―SWPORT3−SVIF2、SWPORT1−SWPORT4−SVIF3)を取得する。メタ診断手順1200の2つの情報収集オブジェクト1202の手段ID1223には、それぞれ「GetInfo1」と「GetInfo2」が格納されているため、ステップS1910において、診断手順展開プログラム223は、図14のメタ収集手段1400aとトポロジ情報に基づいて展開収集手段1600aを生成し、メタ収集手段1400bとトポロジ情報に基づいて展開収集手段1600b、1600cおよび1600dを生成する。ステップS1911において、診断手順展開プログラム223は、メタ診断手順1200と取得したトポロジ情報から図15に示す展開診断手順1500を生成する。そして、ステップS1912において、診断手順展開プログラム223は、展開診断手順1500を展開診断手順リポジトリ235に格納し、ステップS1913において、診断手順展開プログラム223は、生成した展開診断手順1500を障害解析プログラム221に返す。
<診断実行プログラムの処理>
図20は、診断手順展開プログラム223により実行される処理の例のフローチャートを示す(ステップS1703)。
ステップS2001において、診断実行プログラム224は、展開診断手順1500を受信する。診断実行プログラム224は、ステップS2001において受信した全ての展開診断手順に対して、ステップS2003乃至S2014の処理を繰り返す。以下、1つの展開診断手順(以下、図20の説明において「対象展開診断手順」)を例に取る。
ステップS2003において、診断実行プログラム224は、対象展開診断手順1500を構成するオブジェクトのうち、タイプが「Start」である基本オブジェクト1501を参照する。
ステップS2004において、診断実行プログラム224は、基本オブジェクト1501の経路リスト1515に、参照しているオブジェクトのIDを追加する。
ステップS2005において、診断実行プログラム224は、参照しているオブジェクトの次のオブジェクトを参照する。参照しているオブジェクトが基本オブジェクト1501、あるいは、情報収集オブジェクト1502である場合には、診断実行プログラム224は、NextID1516あるいはNextID1524に格納されたIDを持つオブジェクトを参照する。判定オブジェクト1503を参照している場合は、後述のステップS2013において、診断実行プログラム224は、Decision Map1535に基づいて次のオブジェクトを決定する。
ステップS2006において、診断実行プログラム224は、ステップS2005において参照したオブジェクトのタイプが「End」か否かを判定する。この判定結果が真の場合(S2006:YES)、処理はステップS2007へ進み、この判定結果が偽の場合(S2006:NO)、処理はステップS2014へ進む。
ステップS2007において、診断実行プログラム224は、ステップS2005で参照したオブジェクトのタイプが「CollectInfo」か否かを判定する。この判定の結果が真の場合(S2007:YES)、処理はステップS2008へ進み、この判定の結果が偽の場合(S2007:NO)、処理はステップS2010へ進む。
ステップS2008において、診断実行プログラム224は、参照しているオブジェクトの展開手段ID1523に格納された識別子から識別される展開収集手段1600を展開収集手段リポジトリ237から取得する。
ステップS2009において、診断実行プログラム224は、ステップS2008で取得した展開収集手段に基づいて、管理対象装置や管理計算機201が持つリポジトリから情報を取得する。
ステップS2010において、診断実行プログラム224は、参照しているオブジェクトの引数1534に格納された情報に基づいてステップS2009で収集した情報を取得する。
ステップS2011において、診断実行プログラム224は、ステップS2010で取得した情報を入力とし、参照しているオブジェクトの判定プログラムID1533に格納された識別子から識別される判定プログラム226を起動する。
ステップS2012において、診断実行プログラム224は、ステップS2011で実行した判定プログラム226から判定結果を受信する。
ステップS2013において、診断実行プログラム224は、ステップS2012で受信した判定結果をキーとして、参照しているオブジェクトのDecision Map1535に格納されたNextID1537を取得し、次に参照するオブジェクトを決定する。
ステップS2014において、診断実行プログラム224は、基本オブジェクト1501の経路リスト1515に、参照しているオブジェクトのIDを追加する。
ステップS2015において、診断実行プログラム224は、受信した展開診断手順1500を呼び出し元プログラムに返す。
図20の処理の具体例は次の通りである。例えば、ステップS2001において、図15に示す展開診断手順1500を受信した場合、診断実行プログラム224は、ステップS2003において、基本オブジェクト1501aを参照し、ステップS2004において、経路リスト1515にオブジェクトのID「Proc1−1−0」を追加する。次に、ステップS2005において、診断実行プログラム224は、NextID1516が示す識別子「Proc1−1−1」に基づいて情報収集オブジェクト1502を参照する。情報収集オブジェクト1502aはタイプが「CollectInfo」であるため、処理がステップS2008に進む。ステップS2008において、診断実行プログラム224は、展開手段ID「ExpandedGetInfo1−1」に基づいて、図16の展開情報手段1600aを取得する。そして、診断実行プログラム224は、展開収集手段1602に記述されたSQLクエリに基づいて性能テーブル238から情報を収集する。そして、ステップS2004に戻り、診断実行プログラム224は、経路リスト1515にオブジェクトのID「Proc1−1−1」を追加する。次に、ステップS2005で参照するオブジェクトは判定オブジェクト1503aとなるため、処理はステップS2010に進む。ステップS2010において、診断実行プログラム224は、展開情報手段1600aに基づいて取得した性能情報を取得し、ステップS2011において、診断実行プログラム224は、その性能情報を入力として「判定プログラム1」を起動する。ステップS2012において、「判定プログラム1」から「NO」という値を受信した場合には、診断実行プログラム224は、Decision Map1535に基づいて次に参照するオブジェクトはID「Proc1−1−4」を持つ結論オブジェクト1504aと決定する。再び、ステップS2004に戻り、診断実行プログラム224は、経路リスト1515にオブジェクトのID「Proc1−1−3」を追加し、ステップS2005で結論オブジェクト1504aを参照する。結論オブジェクト1504aはタイプが「End」であるため、処理がステップS2014に進み、診断実行プログラム224は、経路リスト1515にオブジェクトのID「Proc1−1−4」を追加する。そして、診断実行プログラム224は、経路リスト1515が更新された展開診断手順1500を、呼び出し元である障害解析プログラム221に返す。
以上の処理により、診断手順展開プログラム223によって生成された展開診断手順に基づいて、診断実行プログラム224はITシステムで発生した障害の原因イベントを特定すべく、診断を実行することができる。
なお、診断実行プログラム224は、ステップS2009において、収集した情報を出力デバイス217に表示し、ステップS2011において実行される判定プログラム226は、出力デバイス217に、判定基準と管理者が判定結果を入力する入力インタフェース(例えばボタン)を表示し、ステップS2012において受信する判定結果は、管理者が入力インタフェースを介して入力した判定結果であってもよい。
また、診断実行プログラム224は、ステップS2010において、判定に使用する情報を取得できなかった場合、ステップS2011において、判定プログラム226は、複数の判定結果を返し、診断実行プログラム224は、複数の判定結果の各々について診断手順を続行し、複数の結論オブジェクト1504を参照し、表示プログラム225は、それら複数の結論オブジェクト1504に基づいて複数の原因イベントを表示してもよい。
また、診断実行プログラム224は、情報収集オブジェクト1502に基づいた情報収集処理、および、判定オブジェクト1503に基づいた判定プログラム226の判定は、展開診断手順のオブジェクトの順に実行せず、並列に実行されてもよい。
<表示プログラムの処理>
図21は、表示プログラム225により実行される処理の例のフローチャートを示す(ステップS1704)。
ステップS2101において、表示プログラム225は、展開診断手順1500を受信する。
ステップS2102において、表示プログラム225は、受信した展開診断手順1500と、基本オブジェクト1501の経路リスト1515に格納されたリストに基づいて、診断実行プログラム224が最終的に参照した結論オブジェクト1504を取得し、診断結果として表示する。
ステップS2103において、表示プログラム225は、受信した展開診断手順に基づいて、使用した診断手順を表示する。
ステップS2104において、表示プログラム225は、受信した展開診断手順1500の基本オブジェクト1501の経路リスト1515に基づいて、診断実行プログラム224が使用した診断手順のうち、実行した手順を表示する。
なお、ステップ2101〜S2104によれば、情報が順次表示されるが、それに代えて、表示プログラム225は、表示対象の情報をメモリ212に書き込みし、全ての表示対象がメモリ212に書き込まれた場合に、それらの表示対象を含んだ画面(例えば図22の画面)を表示してもよい。
図22は、診断結果画面の一例を示す。
診断結果画面2200は、診断実行プログラム224が実行した診断手順とその診断結果を表示する画面であり、出力デバイス217に表示される。この画面2200は、具体的には、図15の展開診断手順とその手順を実行した結果を示す。診断結果画面2200は、診断実行プログラム224によって導出された診断結果を表示する診断結果フィールド2201と、診断実行プログラム224で使用した展開診断手順1500の情報を表示する診断手順フィールド2202で構成されていてよい。また、診断結果画面2200は、診断を実行したトポロジの情報を表示する診断対象トポロジフィールド2203と、診断実行時に収集し、判定に使用した情報を表示する診断対象データフィールド2204を有していてもよい。
診断結果フィールド2201に表示されている情報は、ステップS2102において表示プログラム225により表示された情報(診断結果)の一例である。受信した展開診断手順1500の経路リスト1515に基づいて、診断実行プログラム224が最終的に参照した結論オブジェクト1504が取得されるが、フィールド2201には、その結論オブジェクト1504が、診断結果として表示されている。
診断手順フィールド2202に表示されている情報は、ステップS2103において表示プログラム225により表示された情報(診断手順)の一例である。受信した展開診断手順1500の情報に基づき、診断実行プログラム224が使用した診断手順が取得されるが、フィールド2202には、その診断手順が表示されている。図22では、診断手順の表示の一例として、判定オブジェクト1503の引数1534が示す値と、判定オブジェクト1503から識別された判定プログラム226による判定基準と、結論オブジェクト1504が導出する結論の情報とが表示されている。図22の経路2223は、ステップS2104で、表示プログラム225が経路リスト1515に基づいて表示する「実行した手順」の一例である。図22に示すように、診断手順2221対して、「実行した手順」の流れを示す部分(矢印)が強調表示されてもよいし、実行した手順の一覧が表示されてもよい。
診断対象トポロジフィールド2203に表示されている情報は、展開診断手順1500の対象となったトポロジを表す情報である。診断手順展開プログラム223が図19の処理においてトポロジ情報を展開診断手順1500と関連させて管理計算機201のメモリ212等の記憶領域に保存し、表示プログラム225の起動時に、表示プログラム225が、その保存されている情報をフィールド2203に表示してもよい。
診断対象データフィールド2204には、診断実行プログラム224が展開診断手順1500の情報収集オブジェクト1502を参照した際に取得した情報が表示されている。診断実行プログラム224が図20の処理においてステップS2009で取得した情報を展開診断手順1500と関連させて管理計算機201のメモリ212等の記憶領域に保存し、表示プログラム225の起動時に、表示プログラム225が、その保存されている情報をフィールド2204に表示してもよい。
また、診断対象トポロジフィールド2203において、判定の手順毎に、判定の対象となった管理対象コンポーネントに関する情報が表示されてもよい。例えば、図22の表示例において、管理者が、判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、判定オブジェクト1503に関連する判定プログラム226が判定対象とした管理対象コンポーネントの情報が強調表示されてもよい。例えば、管理者が、判定オブジェクト1503aの判定基準を表示した判定表示2222aを選択した場合、判定オブジェクト1503aの引数1534が示す情報は「Proc1−1−1の戻り値」であり、手順「Proc1−1−1」が収集する情報は「ネットワークスイッチDのポート0(識別子はSWPORT1)」の性能情報であるため、「ネットワークスイッチDのポート0」が強調表示されてもよい。
また、診断対象トポロジフィールド2203において、判定の手順毎に、判定結果を決定する要素となった管理対象コンポーネントに関する情報が表示されてもよい。例えば、図22の表示例において、管理者が、展開診断手順1500の判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、診断対象トポロジフィールド2203に表示された管理対象コンポーネントのうち、判定結果を決定する要素となった管理対象コンポーネントの情報が強調表示されてもよい。例えば、判定表示2222bに関連する判定オブジェクト1503bは、「ネットワークスイッチDのポート0の送信ドロップパケット数の上昇率とサーバAのeth0、サーバBのeth0、サーバCのeth0の送信パケット数の上昇率をそれぞれ比較する。そして、1つでもネットワークDのポート0の送信ドロップパケット数と上昇率の等しいサーバが存在した場合には、結論表示2223aに関連する結論オブジェクト1504cを参照し、そうでなければ結論オブジェクト1504bを参照する」という判定情報を持つ展開診断手順1500のオブジェクトである。そして、サーバBのみがネットワークスイッチDのポート0の送信ドロップパケット数の上昇率と等しかった場合、診断実行プログラム224は結論オブジェクト1504cを参照する。この場合、結論オブジェクト1504cを参照する要因となった「サーバBのeth0(識別子はSVIF2)」と比較対象となった「ネットワークスイッチDのポート0(識別子はSWPORT1)」が強調表示されてもよい。診断実行プログラム224の実行時にステップS2010で取得した情報とステップS2012の判定結果を管理計算機201のメモリ212等の記憶領域に保存することで、これらの情報が表示されてもよい。判定オブジェクト1503bを例に取ると、判定プログラムID1533が示す「判定プログラム2」が、呼び出されて判定を行っており、「判定プログラム2」が、性能情報の上昇率が等しいコンポーネントのIDの組を返すプログラムであった場合、「判定プログラム2」の戻り値を管理計算機201のメモリ212等の記憶領域に保存し、表示プログラム225が、それらのIDを持つ管理対象コンポーネントの情報を表示してもよい。
また、診断対象データフィールド2204において、判定の手順毎に、判定の対象となった情報が表示されてもよい。例えば、図22の表示例において、管理者が、判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、判定オブジェクト1503の引数1534が示す情報が強調表示されてもよい。例えば、管理者が、判定オブジェクト1503aの判定基準を表示した判定表示2222aを選択した場合、判定オブジェクト1503aの引数1534が示す情報2241bが強調表示されてもよい。
また、診断対象データフィールド2204において、判定の手順毎に、判定結果を決定する要素となった情報が表示されてもよい。例えば、図22の表示例において、管理者が、展開診断手順1500の判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、診断対象データフィールド2204に表示された情報のうち、判定結果を決定する要素となった情報が強調表示されてもよい。例えば、判定表示2222bに関連する判定オブジェクト1503bは、「ネットワークスイッチDのポート0の送信ドロップパケット数の上昇率とサーバAのeth0、サーバBのeth0、サーバCのeth0の送信パケット数の上昇率をそれぞれ比較する。そして、1つでもネットワークDのポート0の送信ドロップパケット数と上昇率の等しいサーバが存在した場合には、結論表示2223aに関連する結論オブジェクト1504cを参照し、そうでなければ結論オブジェクト1504bを参照する」という判定情報を持つ展開診断手順1500のオブジェクトである。そして、サーバBのみがネットワークスイッチDのポート0の送信ドロップパケット数の上昇率と等しかった場合、診断実行プログラム224は、結論オブジェクト1504cを参照する。この場合、結論オブジェクト1504cを参照する要因となった「サーバBのeth0(識別子はSVIF2)の送信パケット数の性能情報」と比較対象となった「ネットワークスイッチDのポート0(識別子はSWPORT1)の送信ドロップパケット数の性能情報」が、強調表示されてもよい。診断実行プログラム224の実行時にステップS2010で取得した情報とステップS2012の判定結果を管理計算機201のメモリ212等の記憶領域に保存することで、これらの情報が表示されてもよい。
また、イベント分析プログラム222の導出した1つの原因候補に対して複数の展開診断手順が実行された場合には、展開診断手順毎に診断結果の画面が表示されてもよい。
また、診断実行プログラム224は、ステップS2009で収集した情報を一定期間、管理計算機201のメモリ212等の記憶領域に保存しておき、別の診断実行時に同じ管理対象コンポーネントに対して同じ情報を収集するステップを実行する際には、メモリ212等の記憶領域に既に保存されている情報を使用してもよい。収集した情報を出力デバイス217に表示する際には、収集した時刻が表示されてもよい。
また、診断実行プログラム224は、ステップS2012で受信した判定結果を管理計算機201のメモリ212等の記憶領域に一定期間保存しておき、別の診断実行時に、同じ管理対象コンポーネントの同じ情報に基づいて判定を行う際には判定プログラムを実行せず、保存されている判定結果が使用されてもよい。判定結果を出力デバイス217に表示する際には、判定した時刻が表示されてもよい。
以上に説明したように、実施例1によれば、イベント分析プログラム222によって導出された原因障害候補に対して関連する診断を実行し、診断においては、診断に必要な情報収集を実行し、収集した情報に対して判定を行い、その結果得られた結論によって障害の原因イベントを特定することができる。これにより、管理者は、障害の原因イベントを迅速に特定することができ、ITシステムの障害によるダウンタイムを短縮することができる。
次に実施例2について説明する。以下の説明では、実施例1との差異を中心に説明し、同等の構成要素や、同等の機能を持つプログラム、同等の項目を持つテーブルについては、記載を省略又は簡略する。
実施例1では、イベント分析プログラムによって導出された複数障害の伝播元となる障害に対して、診断を実行し、診断によって得られた結論を伝播元となる障害の発生原因として提示する。実施例1に例示される方法は、イベント分析プログラムによってわかる範囲で原因を特定した後、さらに詳細な原因を調査するのに有効である。一方、診断の有効な利用方法としては、他に、イベント分析プログラムによって導出される原因候補の確信度の精度を向上する(例えば確信度の値を高める)ことが挙げられる。
実施例2では、イベント分析プログラムによって原因候補を導出後、診断を実行し、診断結果を、イベント分析機能によって導出された原因候補の確信度に反映させる例について説明する。
図23は、実施例2におけるメタルール2300の構成例を示す。
実施例2におけるメタルール2300の構成は、実施例1におけるメタルール1100の構成と実質的に同じである。実施例1のメタルール1100は、IF部1111を構成する条件要素1121は、イベント受信プログラム227が受信するイベントの種別を格納すべく、装置種別1101、コンポーネント種別1102、イベント種別1103で構成されている。これに対し、実施例2におけるメタルール2300は、診断の結果を反映すべく、IF部1111の条件要素として、メタ診断手順1200の識別子を格納するフィールド2311を有してよい。
図24は、実施例2における展開ルール2400の構成例を示す。
実施例2における展開ルール2400の構成は、実施例1における展開ルール1150の構成と実質的に同じである。メタルールと同様に、実施例1の展開ルール1150は、IF部1151について、条件要素は、イベント受信プログラム227が受信し得るイベントを格納すべく、装置ID1161、コンポーネントID1162およびイベント種別1163で構成されている。これに対し、実施例2における展開ルール2400には、診断の結果を反映すべく、IF部1151の条件要素として、展開診断手順の識別子を格納するフィールド2411を有してよい。
図25は、実施例2における展開診断手順の構成例を示す。
実施例2における展開診断手順2500の構成は、実施例1における展開診断手順1500の構成と実質的に同じである。展開診断手順2500は、診断の結果を反映すべく、結論オブジェクト1504のConclusion1543に、展開ルール2400の展開診断手順の識別子が格納されたフィールド2411に対応する受信フラグ1164を更新する指示が格納されてよい。
図26は、実施例2において障害解析プログラム221により実行される障害原因解析処理の例のフローチャートを示す。障害解析プログラム221の開始のタイミングは実施例1に記載のタイミングでよい。
ステップS1701において、障害解析プログラム221は、イベント分析プログラム222を実行する。実行される処理は、実施例1において説明したステップS1701の処理と同じである。
ステップS1702において、障害解析プログラム221は、ステップS1701で選択された原因候補の情報を入力として、診断手順展開プログラム223を起動する。実行される処理は、実施例1において説明したステップS1702、あるいは図19の処理と実質的に同じである。ただし、診断手順展開プログラム223は、ステップS1909で展開診断手順2500を生成した後、ステップS1902で取得した展開ルール2400と、その展開ルール2400のベースとなったメタルール2300を取得する。そして、生成した展開診断手順2500が、メタルール2300の条件要素フィールド2311に格納されたメタ診断手順の識別子と同じメタ診断手順IDを持つ場合、診断手順展開プログラム223は、展開診断手順IDを、メタルール2300に関連する展開ルール2400の条件要素のフィールド2411に格納する。
なお、展開診断手順が、展開ルールのIF部のコンポーネントIDの値を起点としたトポロジ情報に基づいて生成された場合は、診断手順展開プログラム223は、起点となったコンポーネントのIDを持つ展開ルールに限定して、展開診断手順IDを条件要素のフィールド2411に格納してもよい。また、診断手順展開プログラム223は、展開診断手順を生成する際に取得したトポロジ情報と展開ルールを生成するときに取得したトポロジ情報が等しい場合に限定して、展開ルールのフィールド2411に、展開診断手順IDを格納してもよい。
ステップS1703において、障害解析プログラム221は、展開診断手順を入力として、診断実行プログラム224を起動する。実行される処理は、実施例1において説明したステップS1703の処理と同じである。
ステップS2601において、障害解析プログラム221は、診断実行プログラム224から展開診断手順を受信し、展開診断手順の経路リスト1515に基づいて、診断実行プログラム224によって参照された展開診断手順2400の結論オブジェクト1504を参照する。
ステップS2602において、障害解析プログラム221は、診断実行プログラム224から受信した展開診断手順2400の展開診断手順IDを条件要素に持つ展開ルールを探索する。そして、ステップS2601で参照した結論オブジェクト1504のConclusion1543に格納された指示のとおりに、展開ルール2400の条件要素2411の受信フラグ1164を更新する。
例えば、診断実行プログラム224から受信した展開診断手順が図25の展開診断手順2500で、ステップS2061で結論オブジェクト1504dを参照した場合には、障害解析プログラム221は、条件要素に展開診断手順2500のIDである「ExpandedDeagnosticProc10−1」を持つ展開ルール2400の条件要素のフィールド2411に対応した受信フラグ1164を「1」に更新する。
ステップS2603において、障害解析プログラム221は、各展開ルールのイベント受信率を算出する。実施例1で述べたとおり、イベント受信率の計算式は、「イベント受信率=(受信フラグ1164が「1」の条件要素数)/(条件要素の総数)」でよい。
ステップS2604において、障害解析プログラム221は、表示プログラム225を起動する。表示プログラム225は、ステップS2603で算出したイベント受信率に基づいて、イベント分析結果画面1800において、ステップS1701で選択された原因候補の確信度を更新する。
以上に説明したように、実施例2によれば、イベント分析プログラムによって導出された原因候補に対して関連する診断を実行し、その結果得られた結論によって原因候補の確信度を更新することで、より確からしい障害原因候補を優先して管理者に提示することができる。これにより、管理者は障害原因を迅速に特定することができる。
以上、幾つかの実施例を説明したが、本発明はそれらの実施例に限定されない。例えば、メタルール1100が、そのメタルール1100に関連付けられているメタ診断手順1200のメタ診断手順ID及び起点を含むことに代えて又は加えて、メタ診断手順1200が、そのメタ診断手順1200に関連付けられているメタルール1100のメタルールIDと起点を含んでもよい。いずれの構成であっても、メタルール100とメタ診断手順1200とを多対多で関連付けることができる。
201:管理計算機

Claims (15)

  1. 複数の管理対象コンポーネントのうちの1以上の管理対象コンポーネントで発生した1以上のイベントである1以上の発生イベントの原因解析を行う管理システムであって、
    記憶デバイスと、
    前記記憶デバイスに接続されたプロセッサと
    を有し、
    前記記憶デバイスが、構成管理情報と、複数のルールと、複数の汎用診断手順とを記憶し、
    前記構成管理情報は、前記複数の管理対象コンポーネントの構成に関する情報であり、
    前記複数のルールの各々は、1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示すルールであり、
    前記複数の汎用診断手順の各々は、前記複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順であり、
    前記プロセッサが、
    前記複数のルールのうちの、前記1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定し、
    前記複数の汎用診断手順のうちの、前記1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定し、前記特定された汎用診断手順と前記構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり前記選択された原因候補のより具体的な原因を特定する又は前記選択された原因候補の確からしさを更新するための展開診断手順を生成する、
    管理システム。
  2. 前記プロセッサが、前記生成した展開診断手順を表す情報を表示する、
    請求項1記載の管理システム。
  3. 前記プロセッサが、前記特定された汎用診断手順と、前記構成管理情報を基に特定されるトポロジであり前記1以上の対象ルールの中の1以上の条件イベントの対象となる管理対象コンポーネントまたは前記1以上の対象ルール中の1以上の結論イベントの対象となる管理対象コンポーネントを起点としたトポロジに対して前記展開診断手段を生成する、
    請求項1記載の管理システム。
  4. 前記プロセッサが、前記特定された汎用診断手順と前記構成管理情報とに加えて、前記1以上の発生イベントの情報を基に、前記展開診断手順を生成する、
    請求項1記載の管理システム。
  5. 前記複数の汎用診断手順の各々が、1以上の情報収集定義と、1以上の判定定義と、複数の結論定義との組合せであり、
    前記1以上の情報収集定義の各々は、情報収集と情報収集元のコンポーネント種別とを表し、
    前記1以上の判定定義の各々は、収集した情報に基づいて判定することを表し、判定の結果として少なくとも1つの結論定義と少なくとも1つの情報収集定義とのうちの少なくとも一方に対応し、
    前記1以上の結論定義の各々は、結論を表し、
    少なくとも1つの判定定義が、少なくとも1つの結論定義に関連付けられている、
    請求項1記載の管理システム。
  6. 前記展開診断手順は、前記特定された汎用診断手順におけるコンポーネント種別に対しそのコンポーネント種別に該当する管理対象コンポーネントが前記構成管理情報を基に関連付けられることにより生成され、
    前記プロセッサが、前記展開診断手順を基に結論を決定し、決定した結論を表示する、
    請求項5記載の管理システム。
  7. 前記プロセッサは、前記選択された原因候補の基になる対象ルールに関連付けられている1以上の条件イベントのうち発生イベントに適合する条件イベントの割合が一定値以上の場合にのみ、前記選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を、展開診断手順の生成のための基とする、
    請求項1記載の管理システム。
  8. 前記プロセッサが、実行した定義及び収集した情報のうちの少なくとも一方を表示する、
    請求項6記載の管理システム。
  9. 前記プロセッサが、前記選択された原因候補の基になる対象ルールと前記1以上の発生イベントとを基に、前記1以上の原因候補の各々の確信度を算出し、
    前記プロセッサが、算出された1以上の確信度に基づいて、前記1以上の原因候補の中から診断対象とする原因候補を選択する、
    請求項1記載の管理システム。
  10. 前記プロセッサが、前記選択された原因候補の基になる対象ルールと前記1以上の発生イベントとを基に、前記1以上の原因候補の各々の確信度を算出し、
    前記複数の結論定義のうちの一部の結論定義が、算出された確信度を更新することを表しており、
    前記プロセッサが、前記展開診断手順を基に結論を決定し、決定した結論が確信度の更新であれば、前記選択された原因候補の確信度を更新する、
    請求項5記載の管理システム。
  11. 前記プロセッサが、前記展開診断手順を表示し、その後に、前記展開診断手順が表す判定についての結果を表す情報の入力を受け付け、受け付けた情報が表す判定結果に基づいて、実行する定義を決定する、
    請求項5記載の管理システム。
  12. 前記プロセッサが、前記展開診断手順を表示し、その後に、前記展開診断手順に基づき収集した情報のうち、判定結果を満たす情報を表示する、
    請求項5記載の管理システム。
  13. 前記プロセッサが、前記展開診断手順の実行において収集した情報と収集時刻、及び、前記展開診断手順の実行における判定結果と判定時刻、のうちの少なくとも一方を前記記憶デバイスに書き込み、別の展開診断手順の実行において、前記記憶デバイスに書き込まれている情報又は判定結果と同じ管理対象コンポーネントについての情報収集又は判定であり、且つ、前記記憶デバイスに書き込まれている収集時刻又は判定時刻から一定時間経過していなければ、前記記憶デバイスに記憶されている情報又は判定結果を前記別の展開診断手順における収集情報又は判定結果として扱う、
    請求項5記載の管理システム。
  14. 複数の管理対象コンポーネントのうちの1以上の管理対象コンポーネントで発生した1以上のイベントである1以上の発生イベントの原因解析を支援する方法であって、
    それぞれが1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示す複数のルールのうちの、前記1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定し、
    それぞれが前記複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順である複数の汎用診断手順のうちの、前記1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定し、
    前記特定された汎用診断手順と、前記複数の管理対象コンポーネントの構成に関する情報である構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり前記選択された原因候補のより具体的な原因を特定する又は前記選択された原因候補の確からしさを更新するための展開診断手順を生成する、
    方法。
  15. それぞれが1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示す複数のルールのうちの、前記1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定し、
    それぞれが前記複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順である複数の汎用診断手順のうちの、前記1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定し、
    前記特定された汎用診断手順と、複数の管理対象コンポーネントの構成に関する情報である構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり前記選択された原因候補のより具体的な原因を特定する又は前記選択された原因候補の確からしさを更新するための展開診断手順を生成する、
    ことをコンピュータに実行させるためのコンピュータプログラム。

JP2015550292A 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法 Active JP6208770B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/082207 WO2015079564A1 (ja) 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法

Publications (2)

Publication Number Publication Date
JPWO2015079564A1 true JPWO2015079564A1 (ja) 2017-03-16
JP6208770B2 JP6208770B2 (ja) 2017-10-04

Family

ID=53198550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015550292A Active JP6208770B2 (ja) 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法

Country Status (6)

Country Link
US (1) US20150378805A1 (ja)
JP (1) JP6208770B2 (ja)
CN (1) CN104903866B (ja)
DE (1) DE112013006475T5 (ja)
GB (1) GB2536317A (ja)
WO (1) WO2015079564A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112150A1 (en) * 2014-01-23 2015-07-30 Hewlett-Packard Development Company, L.P. Volume migration for a storage area network
US10348798B2 (en) * 2015-08-05 2019-07-09 Facebook, Inc. Rules engine for connected devices
FR3040095B1 (fr) 2015-08-13 2019-06-14 Bull Sas Systeme de surveillance pour supercalculateur utilisant des donnees topologiques
WO2017051453A1 (ja) * 2015-09-24 2017-03-30 株式会社日立製作所 ストレージシステム、及び、ストレージシステムの管理方法
US20170147931A1 (en) * 2015-11-24 2017-05-25 Hitachi, Ltd. Method and system for verifying rules of a root cause analysis system in cloud environment
US10306490B2 (en) 2016-01-20 2019-05-28 Netscout Systems Texas, Llc Multi KPI correlation in wireless protocols
WO2017153005A1 (en) * 2016-03-09 2017-09-14 Siemens Aktiengesellschaft Smart embedded control system for a field device of an automation system
US11132620B2 (en) 2017-04-20 2021-09-28 Cisco Technology, Inc. Root cause discovery engine
JP2019009726A (ja) * 2017-06-28 2019-01-17 株式会社日立製作所 障害切り分け方法および管理サーバ
US11995518B2 (en) 2017-12-20 2024-05-28 AT&T Intellect al P Property I, L.P. Machine learning model understanding as-a-service
CN109905270B (zh) * 2018-03-29 2021-09-14 华为技术有限公司 定位根因告警的方法、装置和计算机可读存储介质
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US10931542B2 (en) * 2018-08-10 2021-02-23 Futurewei Technologies, Inc. Network embedded real time service level objective validation
JP7221644B2 (ja) * 2018-10-18 2023-02-14 株式会社日立製作所 機器故障診断支援システムおよび機器故障診断支援方法
US11327868B2 (en) 2020-02-24 2022-05-10 International Business Machines Corporation Read diagnostic information command
US11520678B2 (en) * 2020-02-24 2022-12-06 International Business Machines Corporation Set diagnostic parameters command
US11169946B2 (en) 2020-02-24 2021-11-09 International Business Machines Corporation Commands to select a port descriptor of a specific version
US11169949B2 (en) 2020-02-24 2021-11-09 International Business Machines Corporation Port descriptor configured for technological modifications
JP7007025B2 (ja) * 2020-04-30 2022-01-24 Necプラットフォームズ株式会社 障害処理装置、障害処理方法及びコンピュータプログラム
JP7392852B2 (ja) * 2020-06-12 2023-12-06 日本電信電話株式会社 ルール生成装置、ルール生成方法およびプログラム
US11329933B1 (en) * 2020-12-28 2022-05-10 Drift.com, Inc. Persisting an AI-supported conversation across multiple channels
JP2022170275A (ja) * 2021-04-28 2022-11-10 富士通株式会社 ネットワークマップ作成支援プログラム、情報処理装置およびネットワークマップ作成支援方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JP2010086115A (ja) * 2008-09-30 2010-04-15 Hitachi Ltd イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
WO2011007394A1 (ja) * 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP2011076293A (ja) * 2009-09-30 2011-04-14 Hitachi Ltd 障害の根本原因解析結果表示方法、装置、及びシステム
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
WO2013140608A1 (ja) * 2012-03-23 2013-09-26 株式会社日立製作所 イベントの根本原因の解析を支援する方法及びシステム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107185B1 (en) * 1994-05-25 2006-09-12 Emc Corporation Apparatus and method for event correlation and problem reporting
US6675315B1 (en) * 2000-05-05 2004-01-06 Oracle International Corp. Diagnosing crashes in distributed computing systems
CN1300694C (zh) * 2003-06-08 2007-02-14 华为技术有限公司 基于故障树分析的系统故障定位方法及装置
WO2006007460A2 (en) * 2004-06-21 2006-01-19 Spirent Communications Of Rockville, Inc. Service-centric computer network services diagnostic conclusions
JP2006060762A (ja) * 2004-07-21 2006-03-02 Hitachi Communication Technologies Ltd 無線通信システム、および、その診断方法、ならびに、無線通信システムの診断に用いる無線端末
CN100393048C (zh) * 2006-01-13 2008-06-04 武汉大学 一种建立网络故障诊断规则库的方法
JP4873985B2 (ja) * 2006-04-24 2012-02-08 三菱電機株式会社 設備機器用故障診断装置
US20090144214A1 (en) * 2007-12-04 2009-06-04 Aditya Desaraju Data Processing System And Method
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP2011008375A (ja) * 2009-06-24 2011-01-13 Hitachi Ltd 原因分析支援装置および原因分析支援方法
CN101710359B (zh) * 2009-11-03 2011-11-16 中国科学院计算技术研究所 一种集成电路故障诊断系统及方法
US8429455B2 (en) * 2010-07-16 2013-04-23 Hitachi, Ltd. Computer system management method and management system
US8819220B2 (en) * 2010-09-09 2014-08-26 Hitachi, Ltd. Management method of computer system and management system
US20120102362A1 (en) * 2010-10-22 2012-04-26 Hitachi, Ltd. Management system and management method
US9065728B2 (en) * 2011-03-03 2015-06-23 Hitachi, Ltd. Failure analysis device, and system and method for same
US9667473B2 (en) * 2013-02-28 2017-05-30 International Business Machines Corporation Recommending server management actions for information processing systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JP2010086115A (ja) * 2008-09-30 2010-04-15 Hitachi Ltd イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
WO2011007394A1 (ja) * 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP2011076293A (ja) * 2009-09-30 2011-04-14 Hitachi Ltd 障害の根本原因解析結果表示方法、装置、及びシステム
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
WO2013140608A1 (ja) * 2012-03-23 2013-09-26 株式会社日立製作所 イベントの根本原因の解析を支援する方法及びシステム

Also Published As

Publication number Publication date
US20150378805A1 (en) 2015-12-31
JP6208770B2 (ja) 2017-10-04
CN104903866A (zh) 2015-09-09
DE112013006475T5 (de) 2015-10-08
GB2536317A (en) 2016-09-14
GB201513880D0 (en) 2015-09-23
CN104903866B (zh) 2017-12-15
WO2015079564A1 (ja) 2015-06-04

Similar Documents

Publication Publication Date Title
JP6208770B2 (ja) イベントの根本原因の解析を支援する管理システム及び方法
US8635498B2 (en) Performance analysis of applications
US10439922B2 (en) Service analyzer interface
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
CN113328872B (zh) 故障修复方法、装置和存储介质
JP5385982B2 (ja) 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP5670598B2 (ja) コンピュータプログラムおよび管理計算機
US20170104658A1 (en) Large-scale distributed correlation
US9021077B2 (en) Management computer and method for root cause analysis
JP5542398B2 (ja) 障害の根本原因解析結果表示方法、装置、及びシステム
JP6126891B2 (ja) 検出方法、検出プログラム、および検出装置
US11138058B2 (en) Hierarchical fault determination in an application performance management system
US20160020965A1 (en) Method and apparatus for dynamic monitoring condition control
JP2007096796A (ja) ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
US10592327B2 (en) Apparatus, system, and method for analyzing logs
US8909768B1 (en) Monitoring of metrics to identify abnormalities in a large scale distributed computing environment
US9021078B2 (en) Management method and management system
US20150242416A1 (en) Management computer and rule generation method
JP2011076153A (ja) 複合イベント処理向けクエリ自動生成装置
Sandeep et al. CLUEBOX: A Performance Log Analyzer for Automated Troubleshooting.
Cinque et al. A logging approach for effective dependability evaluation of complex systems
Harper et al. Cookbook, a recipe for fault localization
Makanju et al. System state discovery via information content clustering of system logs
JP2019009726A (ja) 障害切り分け方法および管理サーバ
Kannan et al. A differential approach for configuration fault localization in cloud environments

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170907

R150 Certificate of patent or registration of utility model

Ref document number: 6208770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150