JPWO2011007394A1 - 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム - Google Patents
障害の根本原因に対応した復旧方法を表す情報を出力する管理システム Download PDFInfo
- Publication number
- JPWO2011007394A1 JPWO2011007394A1 JP2011522628A JP2011522628A JPWO2011007394A1 JP WO2011007394 A1 JPWO2011007394 A1 JP WO2011007394A1 JP 2011522628 A JP2011522628 A JP 2011522628A JP 2011522628 A JP2011522628 A JP 2011522628A JP WO2011007394 A1 JPWO2011007394 A1 JP WO2011007394A1
- Authority
- JP
- Japan
- Prior art keywords
- event
- information
- rule
- meta
- failure history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0748—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Abstract
Description
(a1)サービス利用ノード装置のIPアドレス等のネットワーク識別子;
(a2)当該ノード装置のハードウェア又はソフトウェアの構成を表す情報;
(a3)設定内容を表す情報、
を含むことができる。
(b1)サービス利用ノード装置とサービス提供ノード装置との通信を仲介するノード装置(一例がスイッチ)のハードウェア又はソフトウェアの構成を表す情報;
(b2)設定内容を表す情報、
を含むことができる。
(c1)サービス提供ノード装置のIPアドレス等のネットワーク識別子;
(c2)当該ノード装置のハードウェア又はソフトウェアの構成を表す情報;
(c3)設定内容を表す情報、
を含むことができる。また、サービス提供ノード装置情報は、サービス利用ノード装置が提供するネットワークサービスの種別を表す情報等を含んでも良い。
(d1)サービス利用ノード装置で発生しうる第1のイベント(サービス利用ノード装置発生イベント)の種別と、サービス提供ノード装置(又は中継装置)で発生しうる第2のイベント(サービス提供ノード装置発生イベント)の種別との組み合わせを表す情報;
(d2)第1のイベントと第2のイベントとが発生した場合の原因と決定できる(または原因と推定される)サービス提供ノード装置又は中継装置で発生しうる原因(または原因の種別)を示す情報、
を含むことができる。
(e1)サービス利用ノード装置であるノード装置で発生しうる第1のイベントの種別及びサービス利用ノード装置の識別子と、サービス提供ノード装置(又は中継装置)で発生しうる第2のイベントの種別及びサービス提供ノード装置(又は中継装置)の識別子との組み合わせを表す情報;
(e2)第1のイベントと第2のイベントとが発生した場合の原因と決定できる(又は原因と推定される)サービス提供ノード装置(又は中継装置)の識別子;
(e3)当該サービス提供ノード装置(又は中継装置)で発生しうる原因(または原因の種別)を示す情報、
を含むことができる。
(A)サーバ取得情報内の識別子がサーバ情報111に格納されていない場合、そのサーバ取得情報に対応した、サーバ情報111内のサーバレコード(以下、図13の説明において「対象サーバレコード」と言う)に対して、サーバID501(例えば、サーバ取得情報内の識別子)を割り振り、そのサーバID501を対象レコードに格納する;
(B)サーバ取得情報内のサーバ名502、ベンダ名503、IPアドレス504、OS名505及び連続稼働時間506を、対象サーバレコードに格納する、
を行う。
(A)スイッチ取得情報内の識別子がスイッチ情報112に格納されていない場合、そのスイッチ取得情報に対応した、スイッチ情報112内のスイッチレコード(以下、図13の説明において「対象スイッチレコード」と言う)に対して、スイッチID511(例えば、スイッチ取得情報内の識別子)を割り振り、そのスイッチID511を対象スイッチレコードに格納する;
(B)スイッチ取得情報のスイッチ名512、ベンダ名513、IPアドレス514、タイプ515及び連続稼働時間516を、対象スイッチレコードに格納する、
を行う。
(A)ストレージ取得情報内の識別子がストレージ情報113に格納されていない場合、そのストレージ取得情報に対応した、ストレージ情報113内のストレージレコード(以下、図13の説明において「対象ストレージレコード」と言う)に対して、ストレージID521(例えば、ストレージ取得情報内の識別子)を割り振り、そのストレージID521を対象ストレージレコードに格納する;
(B)ストレージ取得情報のストレージ名522、ベンダ名523、IPアドレス524、ファームウェア525及び連続稼働時間526を、対象ストレージレコードに格納する、
を行う。
(A)トポロジ取得情報内の識別子がトポロジ情報114に格納されていない場合、そのトポロジ取得情報に対応した、トポロジ情報114内のトポロジレコード(以下、図13の説明において「対象トポロジレコード」と言う)に対して、トポロジID531(例えば、トポロジ取得情報内の識別子)を割り振り、そのトポロジID321を対象トポロジレコードに格納する;
(B)トポロジ取得情報内のスイッチID533、サーバID532及びストレージID534を、対象トポロジレコードに格納する、
を行う。
(x)トポロジ情報114内のトポロジID531とメタRCAルール情報115内のメタRCAルールID541との全ての組み合わせを作成する(例えば、2つのトポロジID531と3つのメタRCAルールID541がある場合、6つ(2×3=6)の組合せを作成する);
(y)各組み合わせについて、展開RCAルールID551を割り振り、且つ、展開RCAルールID551と、組合せを構成するトポロジID及びメタRCAルールIDとを、展開RCAレコード(展開RCAルール情報116内のレコード)に格納する、
を行う。なお、実際には利用されることのないストレージ装置とサーバの組み合わせを含んだトポロジのトポロジIDについては、上記(x)の処理は行われなくて良い。同様に、他の処理によって展開RCAルール情報が作成されてもよい。より抽象化して考えた場合、例えば、トポロジ適用プログラム121は、以下の(ステップA)〜(ステップD):
(ステップA)監視対象ノードから上記の各取得情報に含まれる少なくとも一つの値をノード取得情報として取得する;
(ステップB)ノード取得情報に基づいて、サービス利用ノード装置情報、サービス提供ノード装置情報、又は中継ノード装置情報を更新する;
(ステップC)トポロジ取得情報に基づいて、所定のネットワークサービスについてのサービス提供ノード装置の識別子と、当該ノード装置を利用するサービス利用ノード装置の識別子との対応を、トポロジ情報に含める;
(ステップD)トポロジ情報とメタRCAルール情報に基づいて、展開RCAルール情報を更新する;
を行うことができる。
(第1のメタRCAルール)第1のネットワークサービス(例えばWWW(World Wide Web))について、サービス利用ノード装置で発生する第1の種別のイベント(以下、イベントA)とサービス提供ノード装置で発生する第2の種別のイベント(以下、イベントB)とを検知した場合、イベントAが発生する根本原因はイベントBの発生である。
(第2のメタRCAルール)第2のネットワークサービス(例えばDNS(Domain Name System))について、サービス利用ノード装置で発生する第3の種別のイベント(以下、イベントC)と、サービス提供ノード装置で発生する第4の種別のイベント(以下、イベントD)とを検知した場合、イベントCが発生する根本原因はイベントDの発生である。
(第1のトポロジ情報)第1のネットワークサービスについて、ノード装置Aがサービス利用ノード装置であり、ノード装置Bがサービス提供ノード装置である。
(第2のトポロジ情報)第2のネットワークサービスについて、ノード装置Bがサービス利用ノード装置であり、ノード装置Cがサービス提供ノード装置である。
(第3のトポロジ情報)ノード装置Bにおける第1のネットワークサービスは、第2のネットワークサービスを利用して提供する。
(生成される第1の展開RCAルール)ノード装置Aで発生したイベントAが検知され且つノード装置Bで発生したイベントBが検知された場合、ノード装置Aで発生したイベントAの根本原因は、ノード装置BでのイベントBの発生である。
(生成される第2の展開RCAルール)ノード装置Bで発生したイベントCが検知され且つノード装置Cで発生したイベントDが検知された場合、ノード装置Bで発生したイベントCの根本原因は、ノード装置CでのイベントDの発生である。
(生成される第3の展開RCAルール)ノード装置Aで発生したイベントAが検知され且つノード装置Cで発生したイベントDが検知された場合、ノード装置Aで発生したイベントAの根本原因は、ノード装置CでのイベントDの発生である。
(イベントタイプ)イベントエントリの属するイベントの種類(例えば、Critical、Warning、Information)を示す;
(対象ノードタイプ)発生したイベントの対象である監視対象ノード30のノードの種類(例えば、サーバ、スイッチもしくはストレージ装置)を示す;
(対象ノードID)イベントが発生した監視対象ノード30を示す識別子(サーバID501、スイッチID511又はストレージID521)である;
(イベント内容)発生したイベントの内容である;
(発生日時)イベントの発生日時である。
(A)新規のイベントID561を取得し、イベント情報117内のブランクのレコード(以下、ステップ1013の説明において「対象レコード」と言う)に、そのID561を格納する;
(B)対象レコードに、イベントエントリ内のイベントタイプ、対象ノードタイプ、対象ノードID、イベント内容及び発生日時を格納する;
(C)対象レコードに、状態567として、「未解決」という値を格納する、
を行う。
(A)状態556が「未解決」のイベントレコードのうち、発生日時565が最も遅いイベントレコード(第1のイベントレコード)を特定する;
(B)直前のステップで特定された第1のイベントレコードを基に、一つ以上の第2のイベントレコードを特定する(第1のイベントレコード内の発生日時565と、第2のイベントレコード内の発生日時565との差は、所定の時間(例えば10分前後)以内である);
(C)上記(B)で得られた全ての第2のイベントレコード内の対象ノードタイプ563を参照し、それら第2のイベントレコード内の全ての対象ノードIDを基に、対象ノードタイプの異なる対象ノードIDで構成された全ての組み合わせ(以下、ノードIDセット)を作成する(例えば、4つのイベントレコードがあり、そのうちの2つがサーバA及びBに関するレコードであり、残りの2つがスイッチA及びBに関するレコードである場合、サーバAのID−スイッチAのID、サーバAのID−スイッチBのID、サーバBのID−スイッチAのID、及びサーバBのID−スイッチBのIDという4つのノードIDセットを作成する);
(D−1)上記(C)で得られたいずれのIDセットにも含まれない対象ノードIDを含んだ第2のイベントレコード(「未解決」を表す状態556を含んだイベントレコード)がある場合、その中で発生日時565が最も遅い第2のイベントエントリを特定し、その第2のイベントエントリを上記第1のイベントエントリとして上記(B)を実施する;
(D−2)上記(C)で得られたいずれのIDセットにも含まれない対象ノードIDを含んだ第2のイベントレコード(「未解決」を表す状態556を含んだイベントレコード)がない場合、次の処理(E)を実施する;
(E)上記(D−1)及び(D−2)までに得られた各ノードIDセットについて、以下の(条件E1)〜(条件E3)の全てに適合するトポロジレコード(トポロジ情報114のレコード):
(条件E1)ノードIDセット内のサーバの対象ノードIDと一致するサーバID532を有する;
(条件E2)そのノードIDセット内のスイッチの対象ノードIDと一致するスイッチID533を有する;
(条件E3)そのノードIDセット内のストレージ装置の対象ノードIDと一致するストレージID534を有する、
を探し、そのようなトポロジレコードが見つかれば、そのトポロジレコードが有するトポロジID531を抽出し、そのID531を、そのトポロジレコードに対応するノードIDセットに対応づける;
(F)上記(E)で得られた各ノードIDセット(条件E1〜E3に適合するトポロジレコードが特定されたノードIDセット)について、以下の(条件F1)〜(条件F3)の全てに適合するメタRCAレコード(メタRCAルール情報115のレコード):
(条件F1)イベントIDセット内のサーバの対象ノードIDを有するイベントレコード内のイベント内容564と一致するサーバイベント542を有する;
(条件F2)そのイベントIDセット内のスイッチの対象ノードIDを有するイベントレコード内のイベント内容564と一致するスイッチイベント543を有する;
(条件F3)そのイベントIDセット内のストレージ装置の対象ノードIDを有するイベントレコード内のイベント内容564と一致するストレージイベント544を有する、
を探し、そのようなメタRCAレコードが見つかれば、そのメタRCAレコードが有するメタRCAルールID541を抽出し、そのID541を、対応するノードIDセットに対応づける;
(G)上記(F)で得られた各ノードIDセット(メタRCAルールID541が対応付けられたセット)について、以下の処理(g1)〜(g4):
(g1)ノードIDセットに対応付けられたメタRCAルールID541を有するメタRCAレコードから原因ノード545を抽出する;
(g2)抽出された原因ノード545と一致する対象ノードタイプ563を有するイベントレコードを特定する;
(g3)特定されたイベントレコードから対象ノードID564を抽出する;
(g4)抽出された対象ノードID564を、上記(g1)でのノードIDセットに対応付ける、
を行う;
(H)下記(h1)〜(h3)の要素を有する展開RCAレコード(展開RCAルール情報116のレコード):
(h1)上記(E)で得られたトポロジID531と一致するトポロジID553;
(h2)上記(F)で得られたメタRCAルールID541と一致するメタRCAルールID552;
(h3)上記(G)で得られた対象ノードID564と一致する原因ノードID554、
を抽出する。
(A)ステップ1015で得られたメタRCAルールID552を障害分析コンテキストに含める;
(B)ステップ1014で得られた1つ以上の展開RCAルールID551を有する1以上の展開RCAレコードのうちの、上記(A)で得られたメタRCAルールID552と一致するID552を有するレコードから展開RCAルールID551を抽出し、抽出したID551を障害分析コンテキストに含める;
(C)上記(B)で得られた展開RCAルールID551(603)と一致するID551を有する展開RCAレコードからトポロジID553を抽出し、そのID553を障害分析コンテキストに含める;
(D)上記(C)で得られたトポロジID553(605)と一致するID531を有するトポロジレコードからサーバID532を抽出し、そのID532を障害分析コンテキストに含める;
(E)上記(C)で得られたトポロジID553(605)と一致するID531を有するトポロジレコードからスイッチID533を抽出し、そのID533を障害分析コンテキストに含める;
(F)上記(C)で得られたトポロジID553(605)と一致するID531を有するトポロジレコードからストレージID534を抽出し、そのID534を障害分析コンテキストに含める;
(G)生成プログラム123が、障害分析コンテキストID601を割り振り、そのID601を障害分析コンテキストに含める、
を行う。障害分析コンテキスト118は、障害分析コンテキストID601とメタRCAルールID603だけ用いて作成されてもよい。
(a)ステップ1016での原因ノードID554と一致するサーバID501を有するサーバレコード内のサーバ名502、ステップ1016での原因ノードID554と一致するスイッチID511を有するスイッチレコード内のスイッチ名512、又は、ステップ1016での原因ノードID554と一致するストレージID521を有するストレージレコード内のストレージ名522;
(b)上記(a)での原因ノードID554に対応した展開RCAレコード(ステップ1015でまとめられた展開RCAレコード)における原因詳細555;
(c)上記(a)での原因ノードID554に対応した確信度(ステップ1017で得られた確信度)、
を、ネットワーク50を通じて表示用計算機20に送信する。
(A)検索元の障害分析コンテキストから特定される監視対象ノードハードウェア又はソフトウェア構成、及び設定内容の要素;
(B)障害履歴エントリから特定される監視対象ノードのハードウェア又はソフトウェア構成、及び設定内容の要素、
の互いの一致度を基に行われる。
(A)検索元の障害分析コンテキスト内のIDから同定されるサーバレコード、スイッチレコード及びストレージレコードのうちの少なくとも一つのレコードと、ステップ1124で得た障害履歴エントリ内のIDから同定されるサーバレコード、スイッチレコード及びストレージレコードのうちの少なくとも一つのレコードとから、互いに一致する又は近似する値を抽出する(例えば、連続稼働時間については、誤差が3000以内であれば、互いに近似する値となる);
(B)上記(A)で得た各値に対応した各項目の重みを、障害履歴情報が有するサーバ重み情報800、スイッチ重み情報810及びストレージ重み情報820から抽出する;
(C)ステップ1124で得た障害履歴エントリ毎に、上記(B)で得た重みの累計値を算出する;
(D)ステップ1124で得た各障害履歴エントリに、重みの累計値に応じたマッチング率を割り当てる(例えば、重みの累計値が高い障害履歴エントリには高いマッチング率が割り当てられ、重みの累計値が低い障害履歴エントリには低いマッチング率が割り当てられる)、
を行う。なお、マッチング率の算出には、重みの累計値に代えて又は加えて、他の要素が参酌されてもよい。
(x)根本原因としての、ノード装置のタイプと発生したイベントの内容;
(y)結果としての、ノード装置のタイプと発生したイベントの内容(どのタイプのノード装置でどんなイベントが発生したか)、
の対応関係を表す。発生した障害に対応した障害分析コンテキストを含んだ検索クエリが、システム管理者から管理サーバに入力される。管理サーバは、その検索クエリに応答して、検索クエリが有する障害分析コンテキスト(第1の障害分析コンテキスト)と、障害履歴情報が有する各障害履歴エントリ内の障害分析コンテキスト(第2の障害分析コンテキスト)とを比較し、それにより、検索元の障害分析コンテキストと類似性の高い障害分析コンテキストを含んだ障害履歴エントリを特定する。管理サーバは、特定された第2の障害履歴エントリに登録されている情報(復旧方法を表す情報を含んだ情報)を表示する。これにより、システム管理者は、迅速に、発生した障害からの復旧方法を特定することができる。
実施例1のメタRCAルール情報115(メタRCAレコード)に、メタ復旧方法(後述)を表す情報が対応づけられる。
IF Server(X) & Storage(Y) & FC−Connected(x,y) & EventHappensOn(IO_ERROR, x, y, t1) & EventHappensOn(CTRL_FAIL, y, t2) & WithinTimeWindow(t1, t2, “10 minutes”)
THEN IdentifyRootCause(CTRL_FAIL, y)
Topology Ruleとは、ノードの接続状態を、特定トポロジに依存せず記述したルールである。具体的なTopology Ruleの例は以下の通りである。
IF FC−connected(x,y)& FC−connect(z,y)
THEN FC−connected(x、z)。
TF1: Serer(“ServerA”)
TF2: Storage(“StorageA”)
TF3: Switch(“SwitchA”)
TF4: FC−Connected(“ServerA”, “ABC”)
TF5: FC−Connected(“AMS1000”, “ABC”)。
IF EventHappensOn(IO_ERROR, “ServerA”,t1) & EventHappensOn(CTRL_FAIL, “StorageA”,t2) & WithinTimeWindow(t1, t2, “10 minutes”)
THEN IdentifyRootCause(CTRL_FAIL, “StorageA”)。
EF1:
EventHappensOn(IO_ERROR, "ServerA", "12:32:12 22009/03/10")
EF2:
EventHappensOn(CTRL_FAIL, "AMS1000", "12:32:10 22009/03/10")
EF3:
WithinTimeWindow("12:32:10 22009/03/10", "12:32:12
22009/03/10", "10 minutes")。
C−RULE−100−INSTANCE−1という中間形式が展開RCAルールであり、
C−RULE−100(Causality Rule)がメタRCAルールに対応し、"C−RULE−100"がメタRCAルールID541となる。
(A)監視対象ノードで発生して管理システムが管理対象とする発生部位(含むノード装置)及びイベント内容を区別するイベントについて、全ての組み合わせパターンを格納する。
(B)(A)の組み合わせの中で根本原因を特定可能な組み合わせについては、根本原因とする発生部位(ノード装置を含む)及びイベント内容を対応させて格納する。
*前記イベント情報は、前記発生したイベントの発生元ノード装置を特定する情報と、前記発生したイベントの種別と、を示すイベントエントリを含む。
*前記メタルール情報は、ノード装置で潜在的に発生する可能性のある潜在イベントの種別と、前記潜在イベントの種別に対応するイベントが発生した場合に根本原因と特定可能なイベントの種別とを示すメタルール、を含む。
*前記障害履歴情報は、復旧方法を示す情報及び前記復旧方法が対応する前記メタルールを識別する情報を含む障害履歴エントリ、を含む。
(A)前記メタルール情報に基づき、前記イベント情報に格納した前記イベントエントリで特定される第一のイベントの根本原因である第一の原因イベントを特定し、前記第一の原因イベントの特定に用いた第一のメタルールを特定し;
(B)前記第一の原因イベントから復旧する方法である第一の復旧方法を、前記入力装置を介して受信し、前記第一の復旧方法に基づいて、前記障害履歴情報に前記第一のメタルールに対応する第一の障害履歴エントリを追加し;
(C)前記メタルール情報に基づき、前記イベント情報に格納した前記イベントエントリで特定される第二のイベントの根本原因である第二の原因イベントを特定し、第二の原因イベントの特定に用いた第二のメタルールを特定し;
(D)前記障害履歴情報に基づき、前記第二のメタルールに対応する所定の障害履歴エントリを特定する。
(X)前記第二の原因イベントに関する情報を、前記第二のイベントの根本原因として表示し;
(Y)前記所定の障害履歴エントリに基づき、前記第二の原因イベントからの復旧方法を表示する、
ことを特徴とした管理システムについて説明した。
(Z)前記所定の障害履歴エントリが示すノード装置の識別子を、前記(Y)の前記所定の障害履歴エントリが示す復旧方法を適用したノード装置の識別子として表示してもよい。
(a)前記(X)の前記第二の原因イベントに関する情報の表示として、前記第二の原因イベントの発生元ノード装置の識別子を含む情報を表示し、
(b)前記(Z)の前記所定の障害履歴エントリが示すノード装置の識別子の表示として、前記第一の原因イベントの発生元ノード装置の識別子を表示してもよい。
(D1)前記第二のメタルールと同一のメタルールのを示す前記障害履歴エントリを選択し、
(D2)前記(D1)により選択された障害履歴エントリの数が第一の閾値未満の場合は、前記障害履歴エントリが対応するメタルールと、前記第二のメタルールとのマッチング率に基づいて前記所定の障害履歴エントリを特定し、
(D3)前記(D1)により選択された障害履歴エントリを前記所定の障害履歴エントリと特定してもよい。
(D4)前記(D1)により選択された障害履歴エントリの数が第二の閾値以上の場合は、前記障害履歴エントリに含まれる前記過去の構成設定情報と、前記構成設定情報とのマッチング率に基づいて、前記所定の障害履歴エントリを特定してもよい。
Claims (15)
- 複数のノード装置と、
前記複数のノード装置で発生するイベントを検知する管理システムと、
を備える計算機システムであって、
前記管理システムは、イベント情報と、メタルール情報と、障害履歴情報と、を格納し、
前記イベント情報は、前記発生したイベントの発生元ノード装置を特定する情報と、前記発生したイベントの種別と、を示すイベントエントリを含み、
前記メタルール情報は、ノード装置で潜在的に発生する可能性のある潜在イベントの種別と、前記潜在イベントの種別に対応するイベントが発生した場合に根本原因と特定可能なイベントの種別とを示すメタルール、を含み、
前記障害履歴情報は、復旧方法を示す情報及び前記復旧方法が対応する前記メタルールを識別する情報を含む障害履歴エントリ、を含み、
前記管理システムは:
(A)前記メタルール情報に基づき、前記イベント情報に格納した前記イベントエントリで特定される第一のイベントの根本原因である第一の原因イベントを特定し、前記第一の原因イベントの特定に用いた第一のメタルールを特定し;
(B)前記第一の原因イベントから復旧する方法である第一の復旧方法を、前記入力装置を介して受信し、前記第一の復旧方法に基づいて、前記障害履歴情報に前記第一のメタルールに対応する第一の障害履歴エントリを追加し;
(C)前記メタルール情報に基づき、前記イベント情報に格納した前記イベントエントリで特定される第二のイベントの根本原因である第二の原因イベントを特定し、第二の原因イベントの特定に用いた第二のメタルールを特定し;
(D)前記障害履歴情報に基づき、前記第二のメタルールに対応する所定の障害履歴エントリを特定し、
(X)前記第二の原因イベントに関する情報を、前記第二のイベントの根本原因として表示し;
(Y)前記所定の障害履歴エントリに基づき、前記第二の原因イベントからの復旧方法を表示する、
ことを特徴とした計算機システム。 - 請求項1記載の計算機システムであって、
前記障害履歴エントリは、復旧方法を適用したノード装置の識別子を含み、
前記管理システムは:
(Z)前記所定の障害履歴エントリが示すノード装置の識別子を、前記(Y)の前記所定の障害履歴エントリが示す復旧方法を適用したノード装置の識別子として表示する、
ことを特徴とした計算機システム。 - 請求項2記載の計算機システムであって、
前記第一のメタルールと前記第二のメタルールが同一の場合、前記(Y)の前記所定の障害履歴エントリが示す復旧方法は、前記第一の障害履歴エントリが示す第一の復旧方法であり、
前記第一の原因イベントの発生元ノード装置と前記第二の原因イベントの発生元ノード装置は異なるノード装置の場合、前記管理システムは:
(a)前記(X)の前記第二の原因イベントに関する情報の表示として、前記第二の原因イベントの発生元ノード装置の識別子を含む情報を表示し、
(b)前記(Z)の前記所定の障害履歴エントリが示すノード装置の識別子の表示として、前記第一の原因イベントの発生元ノード装置の識別子を表示する、
ことを特徴とした計算機システム。 - 請求項2記載の計算機システムであって、
前記(D)の特定は:
(D1)前記第二のメタルールと同一のメタルールを示す前記障害履歴エントリを選択し、
(D2)前記(D1)により選択された障害履歴エントリの数が第一の閾値未満の場合は、前記障害履歴エントリが対応するメタルールと、前記第二のメタルールとのマッチング率に基づいて前記所定の障害履歴エントリを特定し、
(D3)前記(D1)により選択された障害履歴エントリを前記所定の障害履歴エントリと特定する、
ことを特徴とした計算機システム。 - 請求項4記載の計算機システムであって、
前記記憶資源は、前記複数のノード装置の構成設定情報を格納し、
前記障害履歴エントリは、前記複数のノード装置の当該エントリ作成時点に対応する過去の構成設定情報を含み、
前記(D)の特定は:
(D4)前記(D1)により選択された障害履歴エントリの数が第二の閾値以上の場合は、前記障害履歴エントリに含まれる前記過去の構成設定情報と、前記構成設定情報とのマッチング率に基づいて、前記所定の障害履歴エントリを特定する、
ことを特徴とした計算機システム。 - 請求項5記載の計算機システムであって、
前記記憶資源は、構成設定情報の項目についての重み値を示す重み情報を格納し、
前記(D4)の特定は、前記重み情報に基づいて行われる、
ことを特徴とした計算機システム。 - 請求項1記載の計算機システムであって、
前記(B)の第一の復旧方法は、前記第一の原因イベントの発生元ノード装置の識別子を含まない復旧方法であるメタ復旧方法であり、
前記(Y)の前記第二の原因イベントからの復旧方法の表示は、前記メタ復旧方法と前記第二の原因イベントの発生元ノード装置の識別子との表示である、
ことを特徴とした計算機システム。 - 複数のノード装置と通信するインターフェースと、
前記インターフェースを介して、前記複数のノード装置で発生するイベントを検知するプロセッサと、
イベント情報と、メタルール情報と、障害履歴情報と、を格納する記憶資源と、
前記複数のノード装置についての情報を表示する表示装置と、
入力装置と、
を備え、
前記イベント情報は、前記発生したイベントの発生元ノード装置を特定する情報と、前記発生したイベントの種別と、を示すイベントエントリを含み、
前記メタルール情報は、ノード装置で潜在的に発生する可能性のある潜在イベントの種別と、前記潜在イベントの種別に対応するイベントが発生した場合に根本原因と特定可能なイベントの種別とを示すメタルール、を含み、
前記障害履歴情報は、復旧方法を示す情報及び前記復旧方法が対応する前記メタルールを識別する情報を含む障害履歴エントリ、を含み、
前記プロセッサは:
(A)前記メタルール情報に基づき、前記イベント情報に格納した前記イベントエントリで特定される第一のイベントの根本原因である第一の原因イベントを特定し、前記第一の原因イベントの特定に用いた第一のメタルールを特定し;
(B)前記第一の原因イベントから復旧する方法である第一の復旧方法を、前記入力装置を介して受信し、前記第一の復旧方法に基づいて、前記障害履歴情報に前記第一のメタルールに対応する第一の障害履歴エントリを追加し;
(C)前記メタルール情報に基づき、前記イベント情報に格納した前記イベントエントリで特定される第二のイベントの根本原因である第二の原因イベントを特定し、第二の原因イベントの特定に用いた第二のメタルールを特定し;
(D)前記障害履歴情報に基づき、前記第二のメタルールに対応する所定の障害履歴エントリを特定し、
前記表示装置は:
(X)前記第二の原因イベントに関する情報を、前記第二のイベントの根本原因として表示し;
(Y)前記所定の障害履歴エントリに基づき、前記第二の原因イベントからの復旧方法を表示する、
ことを特徴とした管理システム。 - 請求項8記載の管理システムであって、
前記障害履歴エントリは復旧方法を適用したノード装置の識別子を含み、
前記表示装置は:
(Z)前記所定の障害履歴エントリが示すノード装置の識別子を、前記(Y)の前記所定の障害履歴エントリが示す復旧方法を適用したノード装置の識別子として表示する、
ことを特徴とした管理システム。 - 請求項9記載の管理システムであって、
前記第一の原因イベントの発生元ノード装置と前記第二の原因イベントの発生元ノード装置は異なるノード装置の場合、前記表示装置は:
(a)前記(X)の前記第二の原因イベントに関する情報の表示として、前記第二の原因イベントの発生元ノード装置の識別子を含む情報を表示し、
(b)前記(Z)の前記所定の障害履歴エントリが示すノード装置の識別子の表示として、前記第一の原因イベントの発生元ノード装置の識別子を表示する、
ことを特徴とした管理システム。 - 請求項9記載の管理システムであって、
前記(D)の特定は:
(D1)前記第二のメタルールと同一のメタルールのを示す前記障害履歴エントリを選択し、
(D2)前記(D1)により選択された障害履歴エントリの数が第一の閾値未満の場合は、前記障害履歴エントリが対応するメタルールと、前記第二のメタルールとのマッチング率に基づいて前記所定の障害履歴エントリを特定し、
(D3)前記(D1)により選択された障害履歴エントリを前記所定の障害履歴エントリと特定する、
ことを特徴とした管理システム。 - 請求項11記載の管理システムであって、
前記記憶資源は、前記複数のノード装置の構成設定情報を格納し、
前記障害履歴エントリは、前記複数のノード装置の当該エントリ作成時点に対応する過去の構成設定情報を含み、
前記(D)の特定は:
(D4)前記(D1)により選択された障害履歴エントリの数が第二の閾値以上の場合は、前記障害履歴エントリに含まれる前記過去の構成設定情報と、前記構成設定情報とのマッチング率に基づいて、前記所定の障害履歴エントリを特定する、
ことを特徴とした管理システム。 - 請求項12記載の管理システムであって、
前記記憶資源は、構成設定情報の項目についての重み値を示す、重み情報を格納し、
前記(D4)の特定は、前記重み情報に基づいて行われる、
ことを特徴とした管理システム。 - 請求項8記載の管理システムであって、
前記(B)の第一の復旧方法は、前記第一の原因イベントの発生元ノード装置の識別子を含まない復旧方法であるメタ復旧方法であり、
前記(Y)の前記第二の原因イベントからの復旧方法の表示は、前記メタ復旧方法と前記第二の原因イベントの発生元ノード装置の識別子との表示である、
ことを特徴とした管理システム。 - 複数のノード装置を管理する管理システムの管理方法であって、
前記管理システムは、複数のノード装置で発生しうるイベントについて、根本原因となる事象を特定するメタルールと、メタルールに対応させた障害復旧方法と、を有し、
前記管理システムは、管理サーバが検知したイベントの根本原因となる原因イベントと、前記原因イベントからの復旧方法と、を表示する。
ことを特徴とした管理システムの管理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/003358 WO2011007394A1 (ja) | 2009-07-16 | 2009-07-16 | 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011007394A1 true JPWO2011007394A1 (ja) | 2012-12-20 |
JP5385982B2 JP5385982B2 (ja) | 2014-01-08 |
Family
ID=43449016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011522628A Expired - Fee Related JP5385982B2 (ja) | 2009-07-16 | 2009-07-16 | 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム |
Country Status (5)
Country | Link |
---|---|
US (2) | US8429453B2 (ja) |
EP (1) | EP2455863A4 (ja) |
JP (1) | JP5385982B2 (ja) |
CN (1) | CN102473129B (ja) |
WO (1) | WO2011007394A1 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2455863A4 (en) * | 2009-07-16 | 2013-03-27 | Hitachi Ltd | MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE |
JP5419746B2 (ja) * | 2010-02-23 | 2014-02-19 | 株式会社日立製作所 | 管理装置及び管理プログラム |
US8451739B2 (en) | 2010-04-15 | 2013-05-28 | Silver Spring Networks, Inc. | Method and system for detecting failures of network nodes |
US8943364B2 (en) * | 2010-04-30 | 2015-01-27 | International Business Machines Corporation | Appliance for storing, managing and analyzing problem determination artifacts |
US8429455B2 (en) * | 2010-07-16 | 2013-04-23 | Hitachi, Ltd. | Computer system management method and management system |
US8572434B2 (en) | 2010-09-29 | 2013-10-29 | Sepaton, Inc. | System health monitor |
US8386850B2 (en) * | 2010-09-29 | 2013-02-26 | Sepaton, Inc. | System health monitor |
JP5678717B2 (ja) | 2011-02-24 | 2015-03-04 | 富士通株式会社 | 監視装置、監視システムおよび監視方法 |
EP2674865A4 (en) * | 2011-09-26 | 2016-06-01 | Hitachi Ltd | ADMINISTRATIVE COMPUTERS AND METHODS OF BASIC ANALYSIS |
JP5751336B2 (ja) * | 2011-10-18 | 2015-07-22 | 富士通株式会社 | 情報処理装置、時刻補正値決定方法、およびプログラム |
CN103176873A (zh) * | 2011-12-23 | 2013-06-26 | 鸿富锦精密工业(深圳)有限公司 | 计数卡 |
US8977886B2 (en) * | 2012-02-14 | 2015-03-10 | Alcatel Lucent | Method and apparatus for rapid disaster recovery preparation in a cloud network |
WO2013140608A1 (ja) * | 2012-03-23 | 2013-09-26 | 株式会社日立製作所 | イベントの根本原因の解析を支援する方法及びシステム |
US8996532B2 (en) | 2012-05-21 | 2015-03-31 | International Business Machines Corporation | Determining a cause of an incident based on text analytics of documents |
WO2014001841A1 (en) * | 2012-06-25 | 2014-01-03 | Kni Műszaki Tanácsadó Kft. | Methods of implementing a dynamic service-event management system |
US9244800B2 (en) * | 2012-09-03 | 2016-01-26 | Hitachi, Ltd. | Management system for managing computer system comprising multiple monitoring-target devices |
EP2901303A4 (en) * | 2012-09-25 | 2016-06-01 | Moneydesktop Inc | ROUTING AGGREGATION SOURCE |
US20150242416A1 (en) * | 2012-10-30 | 2015-08-27 | Hitachi, Ltd. | Management computer and rule generation method |
US10274946B2 (en) * | 2012-12-12 | 2019-04-30 | Mitsubishi Electric Corporation | Monitoring control apparatus and monitoring control method |
US9628360B2 (en) | 2013-03-15 | 2017-04-18 | Hitachi, Ltd. | Computer management system based on meta-rules |
US9619314B2 (en) * | 2013-04-05 | 2017-04-11 | Hitachi, Ltd. | Management system and management program |
US10169122B2 (en) * | 2013-04-29 | 2019-01-01 | Moogsoft, Inc. | Methods for decomposing events from managed infrastructures |
CN103440174B (zh) * | 2013-08-02 | 2016-05-25 | 杭州华为数字技术有限公司 | 一种错误信息处理方法、装置及应用该装置的电子设备 |
WO2015063889A1 (ja) | 2013-10-30 | 2015-05-07 | 株式会社日立製作所 | 管理システム、プラン生成方法、およびプラン生成プログラム |
US20150378805A1 (en) * | 2013-11-29 | 2015-12-31 | Hitachi, Ltd. | Management system and method for supporting analysis of event root cause |
CN104035849B (zh) * | 2014-06-19 | 2017-02-15 | 浪潮电子信息产业股份有限公司 | 一种防止Rack机柜风扇管理失效的方法 |
DE112015006084T5 (de) * | 2015-01-30 | 2017-10-12 | Hitachi, Ltd. | Systemverwaltungsvorrichtung und systemverwaltungssystem |
JP5993052B2 (ja) * | 2015-03-23 | 2016-09-14 | 株式会社日立製作所 | 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム |
US9692815B2 (en) | 2015-11-12 | 2017-06-27 | Mx Technologies, Inc. | Distributed, decentralized data aggregation |
US9830150B2 (en) | 2015-12-04 | 2017-11-28 | Google Llc | Multi-functional execution lane for image processor |
US10180869B2 (en) * | 2016-02-16 | 2019-01-15 | Microsoft Technology Licensing, Llc | Automated ordering of computer system repair |
CN105786635B (zh) * | 2016-03-01 | 2018-10-12 | 国网江苏省电力公司电力科学研究院 | 一种面向故障敏感点动态检测的复杂事件处理系统及方法 |
US9922539B1 (en) * | 2016-08-05 | 2018-03-20 | Sprint Communications Company L.P. | System and method of telecommunication network infrastructure alarms queuing and multi-threading |
JP6885193B2 (ja) * | 2017-05-12 | 2021-06-09 | 富士通株式会社 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
US10977154B2 (en) * | 2018-08-03 | 2021-04-13 | Dynatrace Llc | Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data |
US10282248B1 (en) * | 2018-11-27 | 2019-05-07 | Capital One Services, Llc | Technology system auto-recovery and optimality engine and techniques |
US10824528B2 (en) | 2018-11-27 | 2020-11-03 | Capital One Services, Llc | Techniques and system for optimization driven by dynamic resilience |
US11093319B2 (en) * | 2019-05-29 | 2021-08-17 | Microsoft Technology Licensing, Llc | Automated recovery of webpage functionality |
US11907087B2 (en) | 2019-07-10 | 2024-02-20 | International Business Machines Corporation | Remote health monitoring in data replication environments |
US11281694B2 (en) | 2019-07-10 | 2022-03-22 | International Business Machines Cormoration | Remote data capture in data replication environments |
US10686645B1 (en) | 2019-10-09 | 2020-06-16 | Capital One Services, Llc | Scalable subscriptions for virtual collaborative workspaces |
EP3823215A1 (en) * | 2019-11-18 | 2021-05-19 | Juniper Networks, Inc. | Network model aware diagnosis of a network |
CN113206749B (zh) | 2020-01-31 | 2023-11-17 | 瞻博网络公司 | 网络事件的相关性的可编程诊断模型 |
CN113328872B (zh) * | 2020-02-29 | 2023-03-28 | 华为技术有限公司 | 故障修复方法、装置和存储介质 |
US11765015B2 (en) * | 2020-03-19 | 2023-09-19 | Nippon Telegraph And Telephone Corporation | Network management apparatus, method, and program |
US11269711B2 (en) | 2020-07-14 | 2022-03-08 | Juniper Networks, Inc. | Failure impact analysis of network events |
US20220182278A1 (en) * | 2020-12-07 | 2022-06-09 | Citrix Systems, Inc. | Systems and methods to determine root cause of connection failures |
JP2022115316A (ja) * | 2021-01-28 | 2022-08-09 | 株式会社日立製作所 | ログ検索支援装置、及びログ検索支援方法 |
Family Cites Families (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3485999T2 (de) * | 1983-09-28 | 1993-04-01 | Hitachi Ltd | Hochgeschwindigkeitverarbeitungssystem fuer rechneranlage. |
US5261086A (en) * | 1987-10-26 | 1993-11-09 | Nec Corporation | Performance analyzing and diagnosing system for computer systems |
US5214653A (en) * | 1990-10-22 | 1993-05-25 | Harris Corporation | Fault finder expert system |
US5572670A (en) * | 1994-01-10 | 1996-11-05 | Storage Technology Corporation | Bi-directional translator for diagnostic sensor data |
US5557765A (en) * | 1994-08-11 | 1996-09-17 | Trusted Information Systems, Inc. | System and method for data recovery |
US6072777A (en) * | 1996-06-28 | 2000-06-06 | Mci Communications Corporation | System and method for unreported root cause analysis |
US6226659B1 (en) * | 1996-09-16 | 2001-05-01 | Oracle Corporation | Method and apparatus for processing reports |
US6173266B1 (en) * | 1997-05-06 | 2001-01-09 | Speechworks International, Inc. | System and method for developing interactive speech applications |
US7752024B2 (en) * | 2000-05-05 | 2010-07-06 | Computer Associates Think, Inc. | Systems and methods for constructing multi-layer topological models of computer networks |
US7500143B2 (en) * | 2000-05-05 | 2009-03-03 | Computer Associates Think, Inc. | Systems and methods for managing and analyzing faults in computer networks |
US20020171546A1 (en) * | 2001-04-18 | 2002-11-21 | Evans Thomas P. | Universal, customizable security system for computers and other devices |
JP2004535018A (ja) | 2001-07-06 | 2004-11-18 | コンピュータ アソシエイツ シンク,インコーポレイテッド | システム及び企業事象の根本原因を相関付けし判定するための方法とシステム |
US6792393B1 (en) * | 2001-12-03 | 2004-09-14 | At&T Corp. | System and method for diagnosing computer system operational behavior |
US20040153692A1 (en) * | 2001-12-28 | 2004-08-05 | O'brien Michael | Method for managing faults it a computer system enviroment |
US7194445B2 (en) * | 2002-09-20 | 2007-03-20 | Lenovo (Singapore) Pte. Ltd. | Adaptive problem determination and recovery in a computer system |
WO2004061681A1 (ja) * | 2002-12-26 | 2004-07-22 | Fujitsu Limited | 運用管理方法および運用管理サーバ |
WO2004090691A2 (en) | 2003-03-31 | 2004-10-21 | System Management Arts, Inc. | Method and apparatus for system management using codebook correlation with symptom exclusion |
US7254515B1 (en) * | 2003-03-31 | 2007-08-07 | Emc Corporation | Method and apparatus for system management using codebook correlation with symptom exclusion |
US20050091356A1 (en) * | 2003-10-24 | 2005-04-28 | Matthew Izzo | Method and machine-readable medium for using matrices to automatically analyze network events and objects |
JP2005165847A (ja) * | 2003-12-04 | 2005-06-23 | Fujitsu Ltd | ポリシールールシナリオ制御装置及び制御方法 |
US7478404B1 (en) | 2004-03-30 | 2009-01-13 | Emc Corporation | System and methods for event impact analysis |
US7965620B2 (en) * | 2004-05-25 | 2011-06-21 | Telcordia Licensing Company, Llc | Method, computer product and system for correlating events in a network |
JP3826940B2 (ja) * | 2004-06-02 | 2006-09-27 | 日本電気株式会社 | 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム |
US20060112061A1 (en) * | 2004-06-24 | 2006-05-25 | Masurkar Vijay B | Rule based engines for diagnosing grid-based computing systems |
US7536370B2 (en) * | 2004-06-24 | 2009-05-19 | Sun Microsystems, Inc. | Inferential diagnosing engines for grid-based computing systems |
US7631222B2 (en) * | 2004-08-23 | 2009-12-08 | Cisco Technology, Inc. | Method and apparatus for correlating events in a network |
US7373552B2 (en) * | 2004-09-30 | 2008-05-13 | Siemens Aktiengesellschaft | Model based diagnosis and repair for event logs |
US7275017B2 (en) | 2004-10-13 | 2007-09-25 | Cisco Technology, Inc. | Method and apparatus for generating diagnoses of network problems |
US7788536B1 (en) * | 2004-12-21 | 2010-08-31 | Zenprise, Inc. | Automated detection of problems in software application deployments |
US7917814B2 (en) * | 2005-04-08 | 2011-03-29 | Hewlett-Packard Development Company, L.P. | System and method of reporting error codes in an electronically controlled device |
US7426654B2 (en) * | 2005-04-14 | 2008-09-16 | Verizon Business Global Llc | Method and system for providing customer controlled notifications in a managed network services system |
US7571150B2 (en) * | 2005-04-15 | 2009-08-04 | Microsoft Corporation | Requesting, obtaining, and processing operational event feedback from customer data centers |
JP4672722B2 (ja) * | 2005-04-25 | 2011-04-20 | 富士通株式会社 | ネットワーク設計処理装置,方法およびそのプログラム |
US7949904B2 (en) * | 2005-05-04 | 2011-05-24 | Microsoft Corporation | System and method for hardware error reporting and recovery |
US8392236B2 (en) * | 2005-05-13 | 2013-03-05 | The Boeing Company | Mobile network dynamic workflow exception handling system |
JP2006338305A (ja) | 2005-06-01 | 2006-12-14 | Toshiba Corp | 監視装置及び監視プログラム |
JP4701148B2 (ja) * | 2006-03-02 | 2011-06-15 | アラクサラネットワークス株式会社 | 障害回復システム及びサーバ |
US8284675B2 (en) * | 2006-06-28 | 2012-10-09 | Rockstar Bidco, L.P. | Method and system for automated call troubleshooting and resolution |
US8326969B1 (en) * | 2006-06-28 | 2012-12-04 | Emc Corporation | Method and apparatus for providing scalability in resource management and analysis system- three way split architecture |
JP4859558B2 (ja) * | 2006-06-30 | 2012-01-25 | 株式会社日立製作所 | コンピュータシステムの制御方法及びコンピュータシステム |
US7924733B2 (en) * | 2006-09-28 | 2011-04-12 | Avaya Inc. | Root cause analysis of network performance based on exculpation or inculpation sets |
JP2008084242A (ja) * | 2006-09-29 | 2008-04-10 | Omron Corp | データベース作成装置およびデータベース活用支援装置 |
US7872982B2 (en) * | 2006-10-02 | 2011-01-18 | International Business Machines Corporation | Implementing an error log analysis model to facilitate faster problem isolation and repair |
US20080140817A1 (en) * | 2006-12-06 | 2008-06-12 | Agarwal Manoj K | System and method for performance problem localization |
US7757117B2 (en) * | 2007-04-17 | 2010-07-13 | International Business Machines Corporation | Method and apparatus for testing of enterprise systems |
JP2009043029A (ja) | 2007-08-09 | 2009-02-26 | Hitachi Ltd | 関連db作成装置 |
JP5193533B2 (ja) * | 2007-09-04 | 2013-05-08 | 株式会社東芝 | 遠隔監視システム及び遠隔監視方法 |
US8421614B2 (en) * | 2007-09-19 | 2013-04-16 | International Business Machines Corporation | Reliable redundant data communication through alternating current power distribution system |
US7937623B2 (en) * | 2007-10-19 | 2011-05-03 | Oracle International Corporation | Diagnosability system |
US7788534B2 (en) * | 2007-12-11 | 2010-08-31 | International Business Machines Corporation | Method for monitoring and managing a client device in a distributed autonomic computing environment |
US8826077B2 (en) * | 2007-12-28 | 2014-09-02 | International Business Machines Corporation | Defining a computer recovery process that matches the scope of outage including determining a root cause and performing escalated recovery operations |
US20090172674A1 (en) * | 2007-12-28 | 2009-07-02 | International Business Machines Corporation | Managing the computer collection of information in an information technology environment |
US8341014B2 (en) * | 2007-12-28 | 2012-12-25 | International Business Machines Corporation | Recovery segments for computer business applications |
US20090210745A1 (en) * | 2008-02-14 | 2009-08-20 | Becker Sherilyn M | Runtime Error Correlation Learning and Guided Automatic Recovery |
US7835307B2 (en) * | 2008-03-14 | 2010-11-16 | International Business Machines Corporation | Network discovery tool |
US7870441B2 (en) * | 2008-03-18 | 2011-01-11 | International Business Machines Corporation | Determining an underlying cause for errors detected in a data processing system |
US8086905B2 (en) * | 2008-05-27 | 2011-12-27 | Hitachi, Ltd. | Method of collecting information in system network |
US7814369B2 (en) * | 2008-06-12 | 2010-10-12 | Honeywell International Inc. | System and method for detecting combinations of perfomance indicators associated with a root cause |
US8112378B2 (en) | 2008-06-17 | 2012-02-07 | Hitachi, Ltd. | Methods and systems for performing root cause analysis |
WO2010004544A1 (en) * | 2008-07-08 | 2010-01-14 | Technion - Research & Development Foundation Ltd | Decision support system for project managers and associated method |
US8310931B2 (en) * | 2008-07-18 | 2012-11-13 | International Business Machines Corporation | Discovering network topology from routing information |
US8370466B2 (en) * | 2008-07-23 | 2013-02-05 | International Business Machines Corporation | Method and system for providing operator guidance in network and systems management |
US7877636B2 (en) * | 2008-08-28 | 2011-01-25 | Honeywell International Inc. | System and method for detecting temporal relationships uniquely associated with an underlying root cause |
US7962472B2 (en) * | 2008-09-29 | 2011-06-14 | International Business Machines Corporation | Self-optimizing algorithm for real-time problem resolution using historical data |
JP5237034B2 (ja) * | 2008-09-30 | 2013-07-17 | 株式会社日立製作所 | イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 |
US8166351B2 (en) * | 2008-10-21 | 2012-04-24 | At&T Intellectual Property I, L.P. | Filtering redundant events based on a statistical correlation between events |
US7877642B2 (en) * | 2008-10-22 | 2011-01-25 | International Business Machines Corporation | Automatic software fault diagnosis by exploiting application signatures |
US7954010B2 (en) * | 2008-12-12 | 2011-05-31 | At&T Intellectual Property I, L.P. | Methods and apparatus to detect an error condition in a communication network |
US8055945B2 (en) * | 2009-02-02 | 2011-11-08 | International Business Machines Corporation | Systems, methods and computer program products for remote error resolution reporting |
US7979747B2 (en) * | 2009-02-20 | 2011-07-12 | International Business Machines Corporation | Interactive problem resolution presented within the context of major observable application behaviors |
EP2300920A1 (en) | 2009-03-30 | 2011-03-30 | Hitachi, Ltd. | Method and apparatus for cause analysis involving configuration changes |
US8527328B2 (en) * | 2009-04-22 | 2013-09-03 | Bank Of America Corporation | Operational reliability index for the knowledge management system |
US8381038B2 (en) * | 2009-05-26 | 2013-02-19 | Hitachi, Ltd. | Management server and management system |
EP2455863A4 (en) * | 2009-07-16 | 2013-03-27 | Hitachi Ltd | MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE |
-
2009
- 2009-07-16 EP EP09847293A patent/EP2455863A4/en not_active Withdrawn
- 2009-07-16 CN CN200980160965.4A patent/CN102473129B/zh not_active Expired - Fee Related
- 2009-07-16 WO PCT/JP2009/003358 patent/WO2011007394A1/ja active Application Filing
- 2009-07-16 US US12/529,522 patent/US8429453B2/en not_active Expired - Fee Related
- 2009-07-16 JP JP2011522628A patent/JP5385982B2/ja not_active Expired - Fee Related
-
2013
- 2013-03-18 US US13/845,992 patent/US9189319B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8429453B2 (en) | 2013-04-23 |
CN102473129A (zh) | 2012-05-23 |
CN102473129B (zh) | 2015-12-02 |
US20130219225A1 (en) | 2013-08-22 |
US9189319B2 (en) | 2015-11-17 |
US20110264956A1 (en) | 2011-10-27 |
EP2455863A1 (en) | 2012-05-23 |
JP5385982B2 (ja) | 2014-01-08 |
EP2455863A4 (en) | 2013-03-27 |
WO2011007394A1 (ja) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5385982B2 (ja) | 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム | |
US11614990B2 (en) | Automatic correlation of dynamic system events within computing devices | |
US10467084B2 (en) | Knowledge-based system for diagnosing errors in the execution of an operation | |
JP6208770B2 (ja) | イベントの根本原因の解析を支援する管理システム及び方法 | |
US9071535B2 (en) | Comparing node states to detect anomalies | |
US8782039B2 (en) | Generating a semantic graph relating information assets using feedback re-enforced search and navigation | |
US20120030346A1 (en) | Method for inferring extent of impact of configuration change event on system failure | |
US8892705B2 (en) | Information processing system, operation management method for computer systems, and program in a distributed network environment | |
US8751856B2 (en) | Determining recovery time for interdependent resources in heterogeneous computing environment | |
US20140298112A1 (en) | Detection method, storage medium, and detection device | |
JP6988304B2 (ja) | 運用管理システム、監視サーバ、方法およびプログラム | |
US20110292834A1 (en) | Maintaining Time Series Models for Information Technology System Parameters | |
US20150032776A1 (en) | Cross-cutting event correlation | |
WO2006117833A1 (ja) | 監視シミュレーション装置,方法およびそのプログラム | |
US20200073781A1 (en) | Systems and methods of injecting fault tree analysis data into distributed tracing visualizations | |
JP6280862B2 (ja) | イベント分析システムおよび方法 | |
JP5514643B2 (ja) | 障害原因判定ルール変化検知装置及びプログラム | |
WO2014068705A1 (ja) | 監視システム及び監視プログラム | |
US20150242416A1 (en) | Management computer and rule generation method | |
US20230325294A1 (en) | Models for detecting and managing excessive log patterns | |
CN113037564B (zh) | 一种网络故障诊断方法及装置 | |
Kobayashi et al. | amulog: A general log analysis framework for comparison and combination of diverse template generation methods | |
JP2018190205A (ja) | 事業者間一括サービス管理装置および事業者間一括サービス管理方法 | |
WO2013103008A1 (ja) | 事象の原因を特定する情報システム、コンピュータ及び方法 | |
WO2023105264A1 (en) | Generating an ontology for representing a system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131004 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |