JPWO2011111599A1 - 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体 - Google Patents

障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体 Download PDF

Info

Publication number
JPWO2011111599A1
JPWO2011111599A1 JP2012504419A JP2012504419A JPWO2011111599A1 JP WO2011111599 A1 JPWO2011111599 A1 JP WO2011111599A1 JP 2012504419 A JP2012504419 A JP 2012504419A JP 2012504419 A JP2012504419 A JP 2012504419A JP WO2011111599 A1 JPWO2011111599 A1 JP WO2011111599A1
Authority
JP
Japan
Prior art keywords
cluster
event
file
failure analysis
analysis rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2012504419A
Other languages
English (en)
Inventor
敏夫 登内
敏夫 登内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2011111599A1 publication Critical patent/JPWO2011111599A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本発明の障害分析ルール抽出装置は、イベント前処理部、障害分析ルール抽出部を備える。イベント前処理部では、一定の時間ごとにまとめたイベントグループを、クラスタ分析により、同種の障害が発生していると推測できるイベントグループにまとめる。障害分析ルール抽出部では、各クラスタに対して、イベントログを関連付けることにより、障害分析に有用な障害分析ルールを抽出する。上記の構成の障害分析ルール抽出装置によって、システムのイベントログから、自動的に高精度な障害分析ルールを提供する。

Description

本発明は、システムが出力するイベントログに対して、相互に関連のあるイベントログを自動的に関連させて、障害を分析する技術に関する。
システム管理者は、システムの障害を分析するために、システムのイベントログを参照するが、複数のイベントログが1つの障害要因から連鎖的に大量に発生している場合や、複数の障害が同時に発生する場合等には、イベントログが大量に出力される。このような場合に、システム管理者が、個々のイベントログを個別に解析して、障害を特定することは困難な場合が多く、障害の特定はシステム管理者のスキルに依存している。そこで、複数のイベントログを関連付けることによって、イベントログ相互間の関係を明らかにし、システム管理者が障害を特定し易いようにする技術が知られている。
特開2005−216148号公報(特許文献1)では、化学プラント等におけるコンピュータを用いた制御システムで発生するイベントの解析を行うイベント解析装置、イベント解析方法並びにイベント解析プログラムに関する発明が記載されている。特開2005−216148号公報(特許文献1)に記載のアラームは、本発明の説明で記載のイベントまたはイベントログと同等の意味で捉えることができるため、以下、アラームをイベントと称呼して説明する。この発明の実施例として、例えば、24時間を1分毎に区分し、1440のサンプル数のデータについて、イベント1とイベント2の関連について調べる方法が記載されている。まず、イベント1について、区分ごとにイベント1が発生していれば、1を対応させ、イベント1が発生していなければ、0を対応させることにより、1440ビットのビット列を生成する。イベント2についても、同様にして1440ビットのビット列を生成する。次に、イベント1を基準として、Δtをイベント1とイベント2の発生時間の差とすると、例えば、−100≦Δt≦100の時間帯について、それぞれイベント1のビット列とΔtだけ時間差のあるイベント2のビット列との論理積をとり、論理積の結果が1であるビットの数を数え、この値を相関値と定義している。このΔtの範囲の場合、201個の相関値が算出されることになる。次に、この201個の相関値の中で最も大きい値として最大相関値を求め、この最大相関値となる発生時間差において、イベント1とイベント2を関連付けている。次に、イベント1とイベント2の発生回数によって、最大相関値を取る確率は変動するため、この確率を独立性確率と定義している。そして、独立性確率が低いほど、2つのイベントに相関があると判断している。イベントをクラスタ分析する際には、すべてのイベントの組み合わせについて、独立性確率を求め、この独立性確率を非類似度とし、1と非類似度との差をとることにより類似度を求めている。この類似度に基づいてクラスタ分析を行い、相関性のあるイベントを分類している。
特開2005−216148号公報(特許文献1)の発明の方法によると、独立性確率を基に類似度を定義してクラスタ分析を行っているが、独立性確率がイベントの発生回数に依存するため、発生頻度の高い障害によって、発生頻度の低い障害に関するイベントの関連付けが見逃される課題があった。例えば、障害Aからイベント1、イベント2という連鎖イベントが同時刻区間に10回発生し、障害Bからイベント1、イベント3という連鎖イベントが同時刻区間に100回発生しているとする。この場合、障害Bは多発し、障害Aは障害Bに比べると発生頻度が低い。特開2005−216148号公報(特許文献1)の発明において、障害Aのイベント1とイベント2の独立性確率を考える場合、イベント1が110回発生している状態で、イベント1とイベント2が10回同時発生していることとなる。そのため、障害Aのイベント1とイベント2の独立性確率は高くなる。すべての時間区分に対して合計してイベント1の発生回数を求めると、イベント1とイベント2の独立性確率はさらに高くなり、イベント1とイベント2は相関がないものとみなされてしまう可能性が高い。
また、一般に、イベントログファイルから同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールを抽出しようとする場合、発生頻度の高い障害のイベント発生パターンであっても、他の障害のイベント発生パターンが混在することで、イベント発生パターンの特徴が平均化されて、発生頻度の高い障害の障害分析ルールが抽出されない可能性があるという課題がある。
これらの課題を解決するためには、システム管理者が障害とイベントの相関関係を入力することで、障害ごとにイベントを区分けして、イベントログの関連付けを行う必要がある。この区分けは人手で行うため、工数がかかる。また、その障害に関してノウハウが蓄積されていない場合では、人手での区分け自体ができないという課題がある。
特開2005−216148号公報
本発明の第1の目的は、システム管理者が経験に基づいて、障害とイベントログの相関関係を入力して障害分析ルールを蓄積させる必要がなく、システムのイベントログを入力するだけで、自動的に高精度な障害分析ルールの抽出することにある。
本発明の第2の目的は、多種の障害が発生している場合や、発生頻度の低い障害に対しても、障害分析ルールの抽出の見落としが少ない高精度な障害分析ルールを抽出することにある。
本発明の障害分析ルール抽出装置は、イベント前処理部及び障害分析ルール抽出部を備える。イベント前処理部は、一定の時間帯ごとにグループ化したイベントログを、クラスタ分析することにより、同様のイベント発生パターンを持つクラスタに分類する。障害分析ルール抽出部は、分類されたクラスタごとに、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールを抽出する。
本発明の障害分析ルール抽出方法は、障害分析ルール抽出装置により実施される障害分析ルール抽出方法である。この障害分析ルール抽出方法は、入力されたイベントログファイルに対して、イベントログのイベント発生時刻を参照して一定の時間帯ごとにイベントログの集合を作るイベントログ集合作成ステップと、前記イベントログの集合に対して、クラスタ分析を行って複数のクラスタに分類するクラスタ分類ステップと、前記クラスタ分析で分類した前記クラスタごとに、前記イベントログ相互間の関連付けを行い、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールを示す障害分析ルールファイルを出力する障害分析ルール抽出ステップとを含む。
本発明の記憶媒体は、障害分析ルール抽出プログラムが格納されている。障害分析ルール抽出プログラムは、上述の障害分析ルール抽出方法を、コンピュータにより実現するための、コンピュータプログラムである。
第1の効果は、システム管理者が経験に基づいて、障害とイベントログの相関関係を入力して障害分析ルールを蓄積させる必要がなく、システムのイベントログを入力するだけで、自動的に高精度な障害分析ルールの抽出することができることにある。
第2の効果は、多種の障害が発生している場合や、発生頻度の低い障害に対しても、障害分析ルールの抽出の見落としが少なくなり、高精度な障害分析ルールを抽出することができることにある。
上記及び他の目的、長所、特徴は、次の図面と共に説明される本発明の実施例により明らかになるだろう。
本発明の実施例による障害分析ルール抽出装置のブロック図である。 本発明の実施例によるイベント前処理部のブロック図である。 本発明の実施例によるパターン検出部のブロック図である。 本発明の実施例によるパターン選択部のブロック図である。 システムが出力するイベントログファイルの例である。 本発明の実施例によるクラスタ一覧表ファイルの例である。 本発明の実施例によるイベント前処理部のフローチャートである。 本発明の実施例によるクラスタ間非類似度表ファイルの例である。 本発明の実施例によるクラスタ分析部が更新したクラスタ一覧表ファイルの例である。 本発明の実施例によるクラスタ分析部が作成した樹形図表ファイルの例である。 本発明の実施例による最適クラスタ構成選択部のΓ−index法による計算例である。 本発明の実施例によるクラスタ構成表ファイルの例である。 本発明の実施例によるパターン検出部のフローチャートである。 本発明の実施例によるイベント集合発生頻度表1ファイルの例である。 本発明の実施例によるイベント集合発生頻度表2ファイルの例である。 本発明の実施例によるイベント集合発生頻度表3ファイルの例である。 本発明の実施例によるイベント集合発生頻度表4ファイルの例である。 本発明の実施例によるパターン選択部のフローチャートである。 本発明の実施例によるイベント組み合わせ表ファイルの例である。 本発明の実施例によるイベント組み合わせ表ファイルの例である。 本発明の実施例によるルール化部のフローチャートである。
[構成の説明]
添付図面を参照して、本発明の実施例による障害分析ルール抽出装置を以下に説明する。図1は、本実施例における障害分析ルール抽出装置のブロック図である。
障害分析ルール抽出装置の制御部1は、イベント前処理部10、障害分析ルール抽出部2、障害分析ルール修正部60、障害分析部70を備える。
障害分析ルール抽出部2は、パターン検出部20、パターン選択部30、ルール化部40を備える。
管理対象システム3によって、イベントログ100が出力され、イベントログファイルとして保存される。イベントログファイルがイベント前処理部10に入力されると、イベント前処理部10は、イベントログのクラスタ分析と分類したクラスタの評価を行い、クラスタの構成データを障害分析ルール抽出部2に渡す。障害分析ルール抽出部2は、アプリオリ手法(Agrawal R,Srikant R.Fast algorithm for mining association rules.IBM Research Report,1994)等を利用して、パターン検出部20、パターン選択部30、ルール化部40の順に処理を行い、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルール101を出力する。システム管理者4は、障害分析ルール抽出装置が出力した障害分析ルール101を修正することができる。システム管理者4が、入力部50から障害分析ルール抽出装置を操作すると、障害分析ルール修正部60によって、障害分析ルール101は修正される。障害分析部70は、管理対象システム3が保存したイベントログファイルと障害分析ルール101を入力として、障害分析を行い、イベントログの分析結果102を出力する。
次に、添付図面を参照して、本発明の実施例によるイベント前処理部10の構成を以下に説明する。図2は、本発明の実施例によるイベント前処理部10のブロック図である。イベント前処理部10は、時系列グループ化部11、クラスタ間非類似度計算部12、クラスタ分析部13、最適クラスタ構成選択部14、クラスタ出力部15を備える。
次に、添付図面を参照して、本発明の実施例によるパターン検出部20の構成を以下に説明する。図3は、本発明の実施例によるパターン検出部20のブロック図である。パターン検出部20は、頻度計算部21、フィルタ部22、組み合わせ作成部23を備える。
次に、添付図面を参照して、本発明の実施例によるパターン選択部30の構成を以下に説明する。図4は、本発明の実施例によるパターン選択部30のブロック図である。パターン選択部30は、組み合わせ抽出部31、信頼度計算部32、組み合わせ選択部33を備える。
以上が、本発明の実施例による障害分析ルール抽出装置の構成の説明である。
次に、本発明の実施例による障害分析ルール抽出装置の動作の詳細について説明する。
まず、イベント前処理部10について説明する。イベント前処理部10では、複数のイベントログを分類する際に、データ解析手法の一つであるクラスタ分析を利用している。
まず、クラスタ分析の対象となるイベントログについて説明する。管理対象システム3は、システムに状態変化があった場合に、この状態変化をイベントとしてイベントログファイルに追記する。図5は、システムが出力するイベントログファイルの例である。イベントログは、イベント発生時刻、イベント発生箇所、イベント種別、イベントメッセージ、その他の属性等から構成される。
添付図面を参照して、本発明の実施例によるイベント前処理部10を以下に説明する。図7は、本発明の実施例によるイベント前処理部10のフローチャートである。
(ステップS100)
時系列グループ化部11は、イベントログファイルを入力とし、クラスタ一覧表ファイルを出力とする。時系列グループ化部11は、イベントログの発生時刻を参照し、一定時間ごとにイベントログをグループ化し、イベントログの集合を作成する。このイベントログの集合をここでは、小イベント群と呼ぶ。時系列グループ化部11は、小イベント群単位に、イベント種別ごとのイベント数を数え上げ、クラスタ一覧表ファイルに書き込む。図6は、本発明の実施例によるクラスタ一覧表ファイルの例である。イベントの種類については、紙面の都合上、すべてのイベントを記載していない。クラスタ一覧表は、小イベント群をキーとして、イベント発生時間、使用中フラグ、イベント種別ごとのイベントの項目を有する。図6のクラスタ一覧表ファイルの例では、1分単位で小イベント群が作成されている。例えば、小イベント群E1は、2009/1/20 17:30:00から1分間に発生したイベントをグループ化したものであり、”Could not create connection”のイベントが3件発生していることを表している。クラスタ一覧表には、イベントが発生している時間帯のみ、行が作成されている。図6のクラスタ一覧表ファイルの例では、例えば、2009/1/20 17:31:00〜2009/1/20 17:34:59の時間帯には、イベントが発生していないことがわかる。
後述の処理で使用される使用中フラグの初期値は、時系列グループ化部11によってクラスタ一覧表を作成する際に、ONに設定される。
(ステップS110)
時系列グループ化部11は、使用中フラグがONであるクラスタ一覧表の行の数を判定する。使用中フラグがONである行が、2行以上ある場合には、ステップS120に進む。使用中フラグがONである行が、2行未満である場合には、ステップS140に進む。
(ステップS120)
まず、小イベント群Enの取り扱いについて説明する。
小イベント群Enは、イベント種別をベクトル空間の次元に対応させることにより、ベクトルとみなすことができる。例えば、イベント種別の種類が44種類であれば、小イベント群Enは、44次元のベクトルとみなすことができる。
小イベント群E1とE2の非類似度d(E1、E2)を、次の通り定義する。
Figure 2011111599
ここで、E1・E2は、ベクトルの内積、|E1|は、ベクトルの長さを表す。
このdを、小イベント群Enをクラスタ分析する際の距離関数として利用する。
例えば、図6のクラスタ一覧表ファイルの例では、E1=(0,0,0,0,0,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,0,0,0,0,0)、E3=(0,0,0,0,0,2,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,3,3,0,0,0,0,0,0,0,0,0,0,0)である。ただし、図6のクラスタ一覧表ファイルは、紙面の都合上すべてのイベント種別を記載していない。|E1|≒3.7、|E3|≒9.7、E1・E3=6であるため、
Figure 2011111599
となる。
クラスタ間非類似度計算部12は、使用中フラグがONである小イベント群のすべての組み合わせに関して、非類似度を計算し、クラスタ間非類似度表ファイルを作成する。図8は、本発明の実施例によるクラスタ間非類似度表ファイルの例である。クラスタ間非類似度表は、使用中フラグがONの小イベント群Enを、行と列にとった行列であり、行列の成分には、対応する非類似度が設定されている。図8では、非類似度は、小数点2桁まで計算されている。ただし、対角成分は、同じ小イベント群En同士の非類似度が対応するため、特に値をもたないが、実装上、非類似度の最大値である1を入れてもよい。また、例えば、E1行E3列とE3行E1列は、同じ非類似度が入ることになるため、クラスタ間非類似度表は対称行列となる。
(ステップS130)
クラスタ分析部13は、クラスタ間非類似度表ファイルから非類似度の最小値を検索し、非類似度が最小値となる小イベント群En同士を結合して、クラスタC1を作成する。クラスタ分析部13は、クラスタ一覧表ファイルにクラスタC1を追記する。その際、イベント種別ごとのイベント発生数は、各小イベント群のイベント発生回数の和である。例えば、ベクトル和の平均C1=(E1+E2)/2とする。クラスタ分析部13は、クラスタ一覧表ファイルにクラスタC1を追記する際、イベント発生時間については、値を設定しない。また、クラスタ分析部13は、クラスタ一覧表ファイルにクラスタC1を追記する際、クラスタC1については使用中フラグをONに設定し、クラスタC1に含まれることになった各小イベント群については、使用中フラグをOFFに設定する。
図8のクラスタ間非類似度表ファイルの例では、例えば、小イベント群E3と小イベント群E6の非類似度0.00が、非類似度の最小値として検索される。クラスタ分析部13は、小イベント群E3と小イベント群E6を結合して、クラスタC1=(E3+E6)/2を作成する。クラスタ分析部13は、クラスタ一覧表ファイルにクラスタC1を追記する際、イベント発生時間については値を設定しない。また、クラスタ分析部13は、クラスタ一覧表ファイルにクラスタC1を追記する際、クラスタC1については使用中フラグをONに設定し、クラスタC1に含まれることとなる小イベント群E3と小イベント群E6については、使用中フラグをOFFに設定する。図9は、本発明の実施例によるクラスタ分析部が更新したクラスタ一覧表ファイルの例である。
また、クラスタ分析部13は、他のどの小イベント群Enに対しても、非類似度が一定の値以上の小イベント群Eiについては、ひとつにまとめる必要がないため、クラスタ一覧表ファイルの小イベント群Eiの使用中フラグをOFFにする。ひとつにまとめる必要がない小イベント群Eiは、それ自体で1つのクラスタとして取り扱う。例えば、図8のクラスタ間非類似度表ファイルの例では、小イベント群E9は、他のどの小イベント群Enに対しても、非類似度の最大値である1をとる。そのため、小イベント群E9については、他のクラスタとは結合せずに1つのクラスタとして取り扱う。
クラスタ分析部13は、樹形図表ファイルの作成も同時に行う。樹形図表ファイルには、クラスタ分析部13で結合したクラスタと、結合したクラスタに含まれる各小イベント群を追記する。図10は、本発明の実施例によるクラスタ分析部が作成した樹形図表ファイルの例である。図10の樹形図表ファイルは、クラスタ名とマージクラスタの項目を有する。クラスタ名は、クラスタ分析部13が結合したクラスタ名である。マージクラスタは、クラスタ分析部13が結合したクラスタに含まれるクラスタである。樹形図表ファイルを参照すれば、クラスタ間の関係を、樹形図として視覚的に表すことが可能である。
クラスタ分析部13が、結合したクラスタに対して、クラスタ一覧表ファイルの追記と樹形図表ファイルの追記を行った後、更新されたクラスタ一覧表ファイルに基づいて、クラスタ間非類似度計算部12、クラスタ分析部13の処理を行うため、ステップS110に戻る。
なお、本発明における非類似度の算出におけるクラスタ分析手法は、クラスタを結合する際にベクトル和の平均としたため、重心法によるクラスタ分析であるが、最近隣法、最遠隣法、群平均法、メディアン法、ウォード法などいずれのクラスタ分析手法も適用することができる。
(ステップS140)
最適クラスタ構成選択部14は、クラスタの評価手法を用いて、樹形図表ファイルから最適なクラスタを選択する。クラスタの評価手法については、例えば、Γ−index法[FB Baker,LJ Hubert − Measuring the power of hierarchical cluster analysis,Journal of the American Statistical Association,1975]やBeale test[Beale, E.M.L.(1969).Cluster analysis.London:Scientific Control Systems.]が使用される。
ここでは、Γ−index法について説明する。
クラスタCごとに、クラスタ内部の非類似度の集合を以下のように定義する。
Figure 2011111599
以下のように、DI(C)の和集合DIを定義する。
Figure 2011111599
一方、クラスタ間の非類似度の集合を以下のように定義する。
Figure 2011111599
このとき、Γ+、Γ―、Γを以下のように定義する。
Figure 2011111599
Figure 2011111599
Figure 2011111599
最適クラスタ構成選択部14は、各クラスタにおいてΓを計算し、最大のΓの値を有するクラスタを最適なクラスタとして選択する。図11は、本発明の実施例による最適クラスタ構成選択部のΓ−index法による計算例である。この例では、C25のΓが最大値0.33であるため、最適クラスタ構成選択部14は、C25を最適なクラスタとして選択し、樹形図表ファイルからC25の行を選択する。なお、C35もΓの値が0.33となっているが、この例では、番号の若い方を採用することにより、クラスタの数が多い分類結果の方を優先している。最大値のΓをとるクラスタが複数ある場合の選択方法は、指針により任意に定めることができる。
(ステップS150)
クラスタ出力部15は、最適クラスタ構成選択部14が選択したクラスタの樹形図表ファイルの行を基に、クラスタ一覧表ファイルを参照して、クラスタ構成表ファイルを作成する。図12は、本発明の実施例によるクラスタ構成表ファイルの例である。クラスタ構成表ファイルは、クラスタ名をキーとし、キーとなるクラスタに含まれる小イベント群の項目を有する。
クラスタ出力部15は、最適クラスタ構成選択部14が選択したクラスタの樹形図表ファイルの行までに現れるクラスタ名を、クラスタ構成表ファイルのクラスタ名の候補に選ぶ。次に、選択された行までのマージクラスタ列に現れるクラスタ名を除き、残った樹形図表ファイルのクラスタ名をクラスタ構成表ファイルのクラスタ名に記載する。そして、クラスタ出力部15は、樹形図から選択されたクラスタ名に対して、樹形図表ファイルを辿ることで、クラスタが含むすべての小イベント群を取得し、クラスタ構成表ファイルの小イベント群の項目に記載する。
次に、障害分析ルール抽出部2のパターン検出部20について説明する。図13は、本発明の実施例によるパターン検出部20のフローチャートである。
(ステップS200)
頻度計算部21は、クラスタごとに処理を行うため、クラスタ構成表ファイルを一行読み込む。
(ステップS210)
頻度計算部21は、まだ読み込んでいないクラスタ構成表ファイルの行がある場合には、ステップS220に進み、クラスタ構成表ファイルのすべての行を読み込み済みの場合には、処理を終了する。
(ステップS220)
頻度計算部21は、ステップS200で読み込んだクラスタの行に含まれる小イベント群を対象にして、イベント種別ごとに、クラスタ一覧表ファイルを参照して、そのイベントが発生している小イベント群の個数を数え上げる。また、数えあげた小イベント群の個数の全小イベント群に対する割合をイベントの支持度として計算する。
すなわち、イベントeの支持度をsup(e)、小イベント群をEn、小イベント群全体の集合をUとすると、
Figure 2011111599
例えば、クラスタC202には、小イベント群{E27,E345,E287,E282,E238,E234,E187,E183,E136,E132,E84,E80,E29,E35,E347,E285,E236,E184,E135,E32,E81,E130,E289,E243,E190,E140,E40,E89,E342,E78,E230,E181,E280}が含まれているとする。このとき、クラスタ一覧表ファイルを参照して、14個の小イベント群で”INFO [jboss]”イベントが発生していた場合は、クラスタC202には、33個の小イベント群があるため、”INFO [jboss]”イベントの支持度は、14/33=0.42となり、42%の支持度になる。
頻度計算部21は、すべてのイベント種別に対して、前述の数えあげた小イベント群の個数とイベントの支持度を計算し、イベント集合発生頻度表1ファイルを作成する。ここで、イベント集合発生頻度表NのNという数字は、Nが2以上の場合は、N個のイベントの組み合わせに対して、数えあげた小イベント群の個数とイベントの支持度を計算していることを表す。Nが2以上の場合については、後述する。図14は、本発明の実施例によるイベント集合発生頻度表1ファイルの例である。イベント集合発生頻度表1ファイルは、イベント集合、発生頻度、支持度、チェックの項目を有する。イベント集合発生頻度表1ファイルのイベント集合は、イベントログのイベント種別が設定される。発生頻度には、対象のクラスタで、そのイベントが発生している小イベント群の個数が設定される。支持度には、対象のクラスタにおけるイベントの支持度が設定される。チェックの項目は、ステップS230で、フィルタ部22により設定される。
(ステップS230)
フィルタ部22は、イベント集合発生頻度表Nのイベントの支持度を参照し、最小支持度以上の値を持つイベント集合発生頻度表Nの行にチェックを入れる。最小支持度は、例えば、0.5等の値である。
(ステップS240)
組み合わせ作成部23は、イベント集合発生頻度表Nファイルを基にして、イベント集合発生頻度表N+1ファイルを作成するが、組み合わせ作成部23は、(n=1,2,・・・)の組み合わせを考える際、n=Nとなった場合には、すべての組み合わせを作成したと判断し、ステップS270に進む。n=N以外の場合には、ステップS250に進む。
(ステップS250)
組み合わせ作成部23は、イベント集合発生頻度表Nを基にして、イベント集合発生頻度表Nでチェックされているイベントを組み合わせて、イベント集合発生頻度表N+1を作成する。イベント集合発生頻度表Nファイル(N≧2)に含まれる項目は、イベント集合がN個の組み合わせになる他は、イベント集合発生頻度表1ファイルと同じである。
まず、イベント集合発生頻度表1ファイルからイベント集合発生頻度表2ファイルを作成する方法について説明する。図15は、本発明の実施例によるイベント集合発生頻度表2ファイルの例である。この例では、図14のイベント集合発生頻度表1ファイルの例に基づいて作成されている。すなわち、図14においてチェックがついているイベントは、”CROND”、 ”sshd: Accepted publickey”、 ”sshd: session closed”、 ”sshd: session opened”であるため、図15のイベント集合発生頻度表2ファイルでは、これらの組み合わせである=6通りの行が作成されている。図15のイベント集合発生頻度表2ファイルの発生頻度、支持度については、頻度計算部21によりステップS260で設定される。チェック列については、ステップS230に戻った際に、フィルタ部22により設定される。
次に、イベント集合発生頻度表Nファイル(N≧2)から、イベント集合発生頻度表N+1ファイルを作成する方法について説明する。イベント集合発生頻度表N+1は、イベント集合発生頻度表Nの要素の組み合わせをとることで作成する。このとき、組み合わされたイベント集合から、いずれの1つのイベントを除いたイベントの組み合わせもイベント集合発生頻度表Nで、チェックがついている要素に対応しなければならないようにする。例えば、イベントa,イベントb,イベントcに対して、イベント集合発生頻度表2ファイルでチェックがついているイベント集合の要素(a,b),(b,c)から、イベント集合発生頻度表3ファイルの組み合わされたイベント集合(a,b,c)が作成された場合、(a,b)、(a,c)、(b,c)のいずれもが、イベント集合発生頻度表2ファイルでチェックがついていなければならない。(a,b)、(a,c)、(b,c)のいずれもが、イベント集合発生頻度表2ファイルでチェックがついていなければ、イベント集合発生頻度表3ファイルにイベント集合(a,b,c)は含まれない。なお、この条件は、イベント集合発生頻度表1ファイルからイベント集合発生頻度表2ファイルを作成する際には、必ず満たすため問題とはならない。
(ステップS260)
頻度計算部21は、イベント集合発生頻度表1ファイルを作成したときと同様にして、小イベント群の個数とイベントの支持度を計算し、イベント集合発生頻度表Nファイルを更新する。例えば、図15のイベント集合発生頻度表2ファイルの例において、”CROND”、 ”sshd: Accepted publickey”の行は、発生頻度が22、支持度が67%となっている。これは、”CROND”、 ”sshd: Accepted publickey”の両方を含んでいる小イベント群が22個であり、対象のクラスタの全小イベント群の個数が33個であるため、22/33≒0.67であるからである。図15のイベント集合発生頻度表2ファイルのチェック列については、ステップS230に戻った際に、フィルタ部22により設定される。
このように、ステップS230、ステップS240、ステップS250、ステップS260を繰り返すことで、イベント集合発生頻度表Nファイル(N≧2)が作成される。Nが3以上の例として、図16は、本発明の実施例によるイベント集合発生頻度表3ファイルの例である。図17は、本発明の実施例によるイベント集合発生頻度表4ファイルの例である。
(ステップS270)
パターン選択部30は、パターン検出部20の次の処理ブロックであるため、図18の本発明の実施例によるパターン選択部のフローチャートを利用して、別途、後述する。
(ステップS280)
ルール化部40は、パターン選択部30の次の処理ブロックであるため、図20の本発明の実施例によるルール化部のフローチャートを利用して、別途、後述する。
ステップS280を終了すると、クラスタ構成表ファイル一行分の処理が終了する。
パターン検出部20は、S200に戻ることで、クラスタ構成表の次の行に記載されたクラスタについて、同様の処理を行う。
以上が、本発明の実施例によるパターン検出部20の説明である。
次に、障害分析ルール抽出部2のパターン選択部30について説明する。図18は、本発明の実施例によるパターン選択部のフローチャートである。
(ステップS300)
組み合わせ抽出部31は、パターン検出部20で作成したイベント集合発生頻度表Nファイル(N=1、2、・・・)を参照し、前提とその関連するイベント集合の組み合わせを構成し、イベント組み合わせ表ファイルを作成する。図19A及び図19Bは、本発明の実施例によるイベント組み合わせ表ファイルの例である。イベント組み合わせ表は、No、前提イベント、関連イベント、信頼度、チェックの項目を有する。この例のイベント組み合わせ表の各行は、図15のイベント集合発生頻度表2ファイル、図16のイベント集合発生頻度表3ファイル、図17のイベント集合発生頻度表4ファイルに対応している。図19A及び図19Bのイベント組み合わせ表の1行目から12行目には、図15のイベント集合発生頻度表2ファイルから作成された要素が対応する。図19A及び図19Bのイベント組み合わせ表の13行目から36行目には、図16のイベント集合発生頻度表3ファイルから作成された要素が対応する。イベント集合発生頻度表3ファイルから、前提とその関連するイベント集合の組み合わせを構成する場合には、前提イベントが2つ、関連イベントが1つの場合と、前提イベントが1つ、関連イベントが2つの場合の組み合わせを考える。図19A及び図19Bのイベント組み合わせ表の37行目から50行目には、図17のイベント集合発生頻度表1ファイルから作成された要素が対応する。イベント集合発生頻度表4ファイルから、前提とその関連するイベント集合の組み合わせを構成する場合には、前提イベントが1つ、関連イベントが3つの場合と、前提イベントが2つ、関連イベントが2つの場合と、前提イベントが3つ、関連イベントが1つの場合の組み合わせを考える。
図19A及び図19Bのイベント組み合わせ表ファイルの信頼度は、ステップS310で信頼度計算部32により設定され、図19A及び図19Bのイベント組み合わせ表ファイルのチェック列は、ステップS320で組み合わせ選択部33により設定される。
(ステップS310)
信頼度計算部32は、イベント組み合わせ表ファイルの各行について、イベント集合発生頻度表ファイルを参照して、信頼度を計算する。信頼度は、前提イベントが発生した場合に、前提イベントと関連イベントが発生した場合の確率で求める。
例えば、イベントa、イベントb、イベントcに対して、イベントa、イベントbが発生したときにイベントcが発生する場合“a,b→c”の信頼度をconf({a,b},{c})とすると、
Figure 2011111599
となる。
例えば、図14のイベント集合発生頻度表1ファイル、図15のイベント集合発生頻度表2ファイルの例で、前提イベントが”CROND”、関連イベントが”sshd: session closed”の場合を考える。前提イベントである”CROND”の支持度は、イベント集合発生頻度表1ファイルを参照すると67%であることがわかる。”CROND”と”sshd: session closed”の両方のイベントが発生した場合の支持度は、イベント集合発生頻度表2ファイルを参照すると97%であることがわかる。したがって、前提イベントが”CROND”、関連イベントが”sshd: session closed”の場合の信頼度は69%となる。
(ステップS320)
組み合わせ選択部33は、イベント組み合わせ表の信頼度が、最小信頼度以上の値を持つイベント組み合わせ表の行にチェックを入れる。最小信頼度は、例えば、0.8等の値が設定されている。このようにして、図19A及び図19Bのようなイベント組み合わせ表ファイルが作成される。
以上が、本発明の実施例によるパターン選択部30の説明である。
次に、障害分析ルール抽出部2のルール化部40について説明する。図20は、本発明の実施例によるルール化部のフローチャートである。
(ステップS400)
ルール化部40は、イベント組み合わせ表のうち、チェックされた信頼度の高い因果関係から障害分析部70で処理可能な障害分析ルールを作成する。障害分析ルールの例としては、イベントコリレーションがある。例えば、イベント種別Aとイベント種別Bが短時間の間に連続的に発生することが多い場合には、同一の障害によって、発生したイベントであると判断して、発生原因であるイベント種別Aにまとめるというルールである。このルールは、例えば“A→B”と記載され、イベントBはイベントAが原因で派生することを意味する。このようなルールにより、システム管理者は、すべてのイベントログを均一のレベルで解析する必要がなくなるため、障害分析が容易化する。例えば、図19A及び図19Bの20行目を参照すると、前提イベントとして、”sshd: session opened”と“sshd: Accepted publickey”が発生しており、関連イベントとして、”sshd: session closed“が発生していることがわかる。図19A及び図19Bの20行目の信頼度を参照すると、100%となっているため、これらのイベントは、連続的に発生することが多いと考えることができる。ルール化部40は、例えば、障害分析ルールとして、イベントログ相互間の関連を”sshd: session opened”,“sshd: Accepted publickey”→”sshd: session closed“で捉えることにより、障害分析に役立てることができるようにする。
本発明の実施例では、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールの作成するにあたって、システム管理者が経験に基づいて、障害とイベントログの相関関係を入力する必要がない。
また、障害分析ルールの作成を、同じようなイベント発生パターンをまとめたクラスタごとに行うため、同時にイベント発生パターンが大きく異なる他の障害を対象にして、障害分析ルールが作成されることがない。障害分析ルールとして検出できるはずであったイベント発生パターンの特徴が平均化されて、見過ごされてしまうことがないため、障害分析ルールの精度を上げることができる。
また、一定時間ごとに区切ってまとめたイベントの集合をクラスタ分析したクラスタを対象にして、障害分析ルールを作成しているため、発生頻度の低い障害によるイベントに対しても、障害分析ルールを作成できる可能性が高い。すなわち、障害の発生のタイミングにより、一定時間ごとに区切ってまとめたイベントの集合に、発生頻度の低い障害によるイベントと、発生頻度の高い障害のイベントが含まれない場合には、発生頻度の低い障害によるイベントに対しても、高精度な障害分析ルールを作成することができる。
以上が、本発明の実施例によるルール化部40の説明である。
次に、障害分析部70について説明する。
障害分析部70は、障害分析ルールファイルとイベントログファイルを入力とし、障害分析ルールに基づき分析結果102を出力する。分析結果102は、イベント種別aのイベントEiと、イベント種別bのイベントEjは、同一の障害から発生した可能性が高いことを管理者に提示する。例えば、障害分析ルールの情報に基づいて、入力したイベントログに対して、前提イベントと関連イベントの関係にあるイベントに対しては、イベントをハイライトさせたイベントログファイルを出力する。管理者は多数のイベントの中からイベントEi、イベントEjが同一の障害から発生した可能性が高いことを知り、障害原因の推測に役立てることができる。
以上、本発明の実施の形態が添付の図面を参照することにより説明された。但し、本発明は、上述の実施の形態に限定されず、要旨を逸脱しない範囲で当業者により適宜変更され得る。
(付記1)
入力されたイベントログファイルに対して、イベントログのイベント発生時刻を参照して一定の時間帯ごとにイベントログの集合を作り、前記イベントログの集合に対して、クラスタ分析を行って複数のクラスタに分類するイベント前処理部と、
前記イベント前処理部で分類した前記クラスタごとに、前記イベントログ相互間の関連付けを行い、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールを示す障害分析ルールファイルを出力する障害分析ルール抽出部と
を備える障害分析ルール抽出装置。
(付記2)
付記1の障害分析ルール抽出装置であって、
前記障害分析ルール抽出部は、前記イベントログ相互間の関連付けをアプリオリ手法により行う
障害分析ルール抽出装置。
(付記3)
付記1または付記2の障害分析ルール抽出装置であって、
前記障害分析ルールファイルとイベントログファイルを入力として、同一の障害から発生していると推測できるイベントログの関連を明示したイベントログファイルを出力する障害分析部
を更に備える障害分析ルール抽出装置。
(付記4)
付記1乃至付記3のいずれか1項に記載の障害分析ルール抽出装置であって、
入力部と、
前記障害分析ルールファイルを修正する障害分析ルール修正部と
を更に備える障害分析ルール抽出装置。
(付記5)
付記1乃至付記4のいずれか1項に記載の障害分析ルール抽出装置であって、
前記イベント前処理部は、
クラスタ分析の対象となるデータを記録するクラスタ一覧表ファイルと、
入力されたイベントログファイルに対して、イベントログの発生時刻を参照し、一定時間ごとにイベントログをグループ化して、グループ化したイベントログの集合ごとに、各イベントのイベント発生回数を求め、前記グループ化したイベントログの集合ごとの各イベントのイベント発生回数を前記クラスタ一覧表ファイルに記録する時系列グループ化部と、
クラスタ間の距離を記録するクラスタ間非類似度表ファイルと、
前記クラスタ一覧表ファイルを読み込み、前記時系列グループ化部でグループ化したイベントログの集合において、各グループ化したイベントログの集合間の距離を、距離関数で求め、前記グループ化したイベントログの集合間の距離を前記クラスタ間非類似度表ファイルに記録するクラスタ間非類似度計算部と、
クラスタを結合して新しいクラスタを作成した際に、前記新しいクラスタと結合した2つのクラスタを記録する樹形図表ファイルと、
前記クラスタ間非類似度表ファイルを参照して、前記イベントログの集合に対してクラスタ分析を行い、前記クラスタ分析の過程で、クラスタを結合する度に、結合した前記クラスタと、結合前の2つのクラスタの対応を前記樹形図表ファイルに記録するとともに、結合した前記クラスタを前記クラスタ一覧表ファイルに記録するクラスタ分析部と、
前記樹形図表ファイルの前記結合したクラスタに対して、クラスタの評価手法を用いて、最適なクラスタを選択する最適クラスタ構成選択部と、
クラスタ分析の分類結果を記録するクラスタ構成表ファイルと、
前記最適クラスタ構成選択部が選択したクラスタに対して、前記樹形図表ファイルを辿ることで、各クラスタと前記各クラスタに含まれる前記イベントログの集合を求め、クラスタ全体の構成を前記クラスタ構成表ファイルに記録するクラスタ出力部と
を備える障害分析ルール抽出装置。
(付記6)
付記2に記載の障害分析ルール抽出装置であって、
前記障害分析ルール抽出部は、前記アプリオリ手法のイベントの支持度を、前記イベント前処理部で分類した前記クラスタごとに、前記クラスタ内で前記イベントが発生している前記イベントログの集合の個数を、前記クラスタに含まれている前記イベントログの集合の個数で除算することによって求める頻度計算部
を備える障害分析ルール抽出装置。
(付記7)
障害分析ルール抽出装置により実施される障害分析ルール抽出方法であって、
入力されたイベントログファイルに基づいて、一定の時間帯ごとにイベントログの集合を作成するステップと、
前記イベントログの集合に対して、クラスタ分析を行うステップと、
前記クラスタ分析の結果に基づいて、前記イベントログの集合を複数のクラスタに分類するステップと、
前記クラスタごとに、前記イベントログ相互間の関連付けを行うステップと、
前記関連付けに基づいて、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールを示す障害分析ルールファイルを出力するステップと
を含む障害分析ルール抽出方法。
(付記8)
付記7の障害分析ルール抽出方法であって、
前記関連付けを行うステップは、前記イベントログ相互間の関連付けをアプリオリ手法により行う
障害分析ルール抽出方法。
(付記9)
付記7または付記8の障害分析ルール抽出方法であって、
前記イベントログの集合を作成するステップは、
クラスタ分析の対象となるデータを記録するクラスタ一覧表ファイルを記憶媒体に格納するステップと、
入力されたイベントログファイルに対して、イベントログの発生時刻を参照するステップと、
前記イベントログの発生時刻に基づいて、一定時間ごとにイベントログをグループ化するステップと、
グループ化したイベントログの集合ごとに、各イベントのイベント発生回数を求めるステップと、
前記グループ化したイベントログの集合ごとの各イベントのイベント発生回数を前記クラスタ一覧表ファイルに記録するステップを含み、
前記複数のクラスタに分類するステップは、
クラスタ間の距離を記録するクラスタ間非類似度表ファイルと、クラスタを結合して新しいクラスタを作成した際に、前記新しいクラスタと、結合した2つのクラスタを記録する樹形図表ファイルと、クラスタ分析の分類結果を記録するクラスタ構成表ファイルを記憶媒体に格納するステップと、
前記クラスタ一覧表ファイルを読み込むステップと、
前記時系列グループ化部でグループ化したイベントログの集合において、各グループ化したイベントログの集合間の距離を、距離関数で求めるステップと、
前記グループ化したイベントログの集合間の距離を前記クラスタ間非類似度表ファイルに記録するステップと、
前記クラスタ間非類似度表ファイルを参照するステップと、
前記イベントログの集合に対してクラスタ分析を行うステップと、
前記クラスタ分析の過程で、クラスタを結合する度に、結合した前記クラスタと、結合前の2つのクラスタの対応を前記樹形図表ファイルに記録するとともに、結合した前記クラスタを前記クラスタ一覧表ファイルに記録するステップと、
前記樹形図表ファイルの前記結合したクラスタに対して、クラスタの評価手法を用いて、最適なクラスタを選択するステップと、
前記最適クラスタ構成選択部が選択したクラスタに対して、前記樹形図表ファイルを辿ることで、各クラスタと前記各クラスタに含まれる前記イベントログの集合を求めるステップと、
クラスタ全体の構成を前記クラスタ構成表ファイルに記録するステップと
を含む障害分析ルール抽出方法。
(付記10)
付記8の障害分析ルール抽出方法であって、
前記アプリオリ手法のイベントの支持度を、前記イベント前処理方法で作成した前記クラスタごとに、前記クラスタ内で前記イベントが発生している前記イベントログの集合の個数を、前記クラスタに含まれている前記イベントログの集合の個数で除算することによって求めるステップ
を含む障害分析ルール抽出方法。
(付記11)
付記7乃至10のいずれか1項に記載の障害分析ルール抽出方法をコンピュータに実行させるためのプログラムを格納した記憶媒体。
なお、本出願は、2010年3月11日に出願された日本出願番号2010−054539に基づく優先権を主張するものであり、日本出願番号2010−054539における開示内容は引用により本出願に組み込まれる。

Claims (10)

  1. 入力されたイベントログファイルに対して、イベントログのイベント発生時刻を参照して一定の時間帯ごとにイベントログの集合を作り、前記イベントログの集合に対して、クラスタ分析を行って複数のクラスタに分類するイベント前処理部と、
    前記イベント前処理部で分類した前記クラスタごとに、前記イベントログ相互間の関連付けを行い、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールを示す障害分析ルールファイルを出力する障害分析ルール抽出部と
    を備える障害分析ルール抽出装置。
  2. 請求項1の障害分析ルール抽出装置であって、
    前記障害分析ルール抽出部は、前記イベントログ相互間の関連付けをアプリオリ手法により行う
    障害分析ルール抽出装置。
  3. 請求項1または請求項2の障害分析ルール抽出装置であって、
    前記障害分析ルールファイルとイベントログファイルを入力として、同一の障害から発生していると推測できるイベントログの関連を明示したイベントログファイルを出力する障害分析部
    を更に備える障害分析ルール抽出装置。
  4. 請求項1乃至請求項3のいずれか1項に記載の障害分析ルール抽出装置であって、
    入力部と、
    前記障害分析ルールファイルを修正する障害分析ルール修正部と
    を更に備える障害分析ルール抽出装置。
  5. 請求項1乃至請求項4のいずれか1項に記載の障害分析ルール抽出装置であって、
    前記イベント前処理部は、
    クラスタ分析の対象となるデータを記録するクラスタ一覧表ファイルと、
    入力されたイベントログファイルに対して、イベントログの発生時刻を参照し、一定時間ごとにイベントログをグループ化して、グループ化したイベントログの集合ごとに、各イベントのイベント発生回数を求め、前記グループ化したイベントログの集合ごとの各イベントのイベント発生回数を前記クラスタ一覧表ファイルに記録する時系列グループ化部と、
    クラスタ間の距離を記録するクラスタ間非類似度表ファイルと、
    前記クラスタ一覧表ファイルを読み込み、前記時系列グループ化部でグループ化したイベントログの集合において、各グループ化したイベントログの集合間の距離を、距離関数で求め、前記グループ化したイベントログの集合間の距離を前記クラスタ間非類似度表ファイルに記録するクラスタ間非類似度計算部と、
    クラスタを結合して新しいクラスタを作成した際に、前記新しいクラスタと結合した2つのクラスタを記録する樹形図表ファイルと、
    前記クラスタ間非類似度表ファイルを参照して、前記イベントログの集合に対してクラスタ分析を行い、前記クラスタ分析の過程で、クラスタを結合する度に、結合した前記クラスタと、結合前の2つのクラスタの対応を前記樹形図表ファイルに記録するとともに、結合した前記クラスタを前記クラスタ一覧表ファイルに記録するクラスタ分析部と、
    前記樹形図表ファイルの前記結合したクラスタに対して、クラスタの評価手法を用いて、最適なクラスタを選択する最適クラスタ構成選択部と、
    クラスタ分析の分類結果を記録するクラスタ構成表ファイルと、
    前記最適クラスタ構成選択部が選択したクラスタに対して、前記樹形図表ファイルを辿ることで、各クラスタと前記各クラスタに含まれる前記イベントログの集合を求め、クラスタ全体の構成を前記クラスタ構成表ファイルに記録するクラスタ出力部と
    を備える障害分析ルール抽出装置。
  6. 請求項2に記載の障害分析ルール抽出装置であって、
    前記障害分析ルール抽出部は、前記アプリオリ手法のイベントの支持度を、前記イベント前処理部で分類した前記クラスタごとに、前記クラスタ内で前記イベントが発生している前記イベントログの集合の個数を、前記クラスタに含まれている前記イベントログの集合の個数で除算することによって求める頻度計算部
    を備える障害分析ルール抽出装置。
  7. 障害分析ルール抽出装置により実施される障害分析ルール抽出方法であって、
    入力されたイベントログファイルに基づいて、一定の時間帯ごとにイベントログの集合を作成するステップと、
    前記イベントログの集合に対して、クラスタ分析を行うステップと、
    前記クラスタ分析の結果に基づいて、前記イベントログの集合を複数のクラスタに分類するステップと、
    前記クラスタごとに、前記イベントログ相互間の関連付けを行うステップと、
    前記関連付けに基づいて、同一の障害から発生していると推測できるイベントログを関連付ける障害分析ルールを示す障害分析ルールファイルを出力するステップと
    を含む障害分析ルール抽出方法。
  8. 請求項7の障害分析ルール抽出方法であって、
    前記イベントログの集合を作成するステップは、
    クラスタ分析の対象となるデータを記録するクラスタ一覧表ファイルを記憶媒体に格納するステップと、
    入力されたイベントログファイルに対して、イベントログの発生時刻を参照するステップと、
    前記イベントログの発生時刻に基づいて、一定時間ごとにイベントログをグループ化するステップと、
    グループ化したイベントログの集合ごとに、各イベントのイベント発生回数を求めるステップと、
    前記グループ化したイベントログの集合ごとの各イベントのイベント発生回数を前記クラスタ一覧表ファイルに記録するステップを含み、
    前記複数のクラスタに分類するステップは、
    クラスタ間の距離を記録するクラスタ間非類似度表ファイルと、クラスタを結合して新しいクラスタを作成した際に、前記新しいクラスタと、結合した2つのクラスタを記録する樹形図表ファイルと、クラスタ分析の分類結果を記録するクラスタ構成表ファイルを記憶媒体に格納するステップと、
    前記クラスタ一覧表ファイルを読み込むステップと、
    前記時系列グループ化部でグループ化したイベントログの集合において、各グループ化したイベントログの集合間の距離を、距離関数で求めるステップと、
    前記グループ化したイベントログの集合間の距離を前記クラスタ間非類似度表ファイルに記録するステップと、
    前記クラスタ間非類似度表ファイルを参照するステップと、
    前記イベントログの集合に対してクラスタ分析を行うステップと、
    前記クラスタ分析の過程で、クラスタを結合する度に、結合した前記クラスタと、結合前の2つのクラスタの対応を前記樹形図表ファイルに記録するとともに、結合した前記クラスタを前記クラスタ一覧表ファイルに記録するステップと、
    前記樹形図表ファイルの前記結合したクラスタに対して、クラスタの評価手法を用いて、最適なクラスタを選択するステップと、
    前記最適クラスタ構成選択部が選択したクラスタに対して、前記樹形図表ファイルを辿ることで、各クラスタと前記各クラスタに含まれる前記イベントログの集合を求めるステップと、
    クラスタ全体の構成を前記クラスタ構成表ファイルに記録するステップと
    を含む障害分析ルール抽出方法。
  9. 請求項7又は8に記載の障害分析ルール抽出方法であって、
    前記関連付けを行うステップは、前記イベントログ相互間の関連付けをアプリオリ手法により行う
    障害分析ルール抽出方法。
  10. 請求項7乃至9のいずれか1項に記載の障害分析ルール抽出方法をコンピュータに実行させるためのプログラムを格納した記憶媒体。
JP2012504419A 2010-03-11 2011-03-03 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体 Withdrawn JPWO2011111599A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010054539 2010-03-11
JP2010054539 2010-03-11
PCT/JP2011/054896 WO2011111599A1 (ja) 2010-03-11 2011-03-03 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体

Publications (1)

Publication Number Publication Date
JPWO2011111599A1 true JPWO2011111599A1 (ja) 2013-06-27

Family

ID=44563403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012504419A Withdrawn JPWO2011111599A1 (ja) 2010-03-11 2011-03-03 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体

Country Status (3)

Country Link
US (1) US9021304B2 (ja)
JP (1) JPWO2011111599A1 (ja)
WO (1) WO2011111599A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103562863A (zh) * 2011-04-04 2014-02-05 惠普发展公司,有限责任合伙企业 创建定义事件类型之间关系的相关规则
US9400867B2 (en) * 2011-09-10 2016-07-26 Cbm Enterprise Solutions, Llc Method and system for monitoring and reporting equipment operating conditions and diagnostic information
WO2013058393A1 (ja) * 2011-10-18 2013-04-25 日本電気株式会社 異常検出装置、プログラム、及び、方法
WO2013135734A1 (en) * 2012-03-12 2013-09-19 Nokia Siemens Networks Oy Prediction and root cause recommendations of service access quality of experience issues in communication networks
JP5798095B2 (ja) * 2012-08-10 2015-10-21 日本電信電話株式会社 ログ生成則作成装置及び方法
JP2014106851A (ja) 2012-11-29 2014-06-09 Fujitsu Ltd 情報処理装置、情報処理方法及びプログラム
US20140245066A1 (en) * 2013-02-27 2014-08-28 Lionel J. Riviere-Cazaux Scan diagnosis analysis using callout clustering
JP6201670B2 (ja) * 2013-11-15 2017-09-27 富士通株式会社 判定装置、判定プログラム、及び判定方法
US9432248B2 (en) * 2013-12-31 2016-08-30 Cisco Technology, Inc. Dynamically computing fate sharing in computer networks using learning machines
CN105989032A (zh) * 2015-01-31 2016-10-05 华为技术有限公司 一种海量数据的信息处理方法及装置
JP5922811B1 (ja) * 2015-02-05 2016-05-24 日本電信電話株式会社 ログ情報分類装置、ログ情報分類方法、及びプログラム
US10069699B2 (en) * 2015-02-26 2018-09-04 Nippon Telegraph And Telephone Corporation Monitoring device information analyzing device and method, and non-transitory storage medium storing program
US10599501B2 (en) 2015-03-17 2020-03-24 Nec Corporation Information processing device, information processing method, and recording medium
US10592328B1 (en) * 2015-03-26 2020-03-17 Amazon Technologies, Inc. Using cluster processing to identify sets of similarly failing hosts
US11727025B2 (en) * 2015-04-03 2023-08-15 Oracle International Corporation Method and system for implementing a log parser in a log analytics system
US11226975B2 (en) 2015-04-03 2022-01-18 Oracle International Corporation Method and system for implementing machine learning classifications
US10685043B2 (en) 2015-11-10 2020-06-16 International Business Machines Corporation Event analysis in network management event streams
WO2017131791A1 (en) * 2016-01-30 2017-08-03 Entit Software Llc Log event cluster analytics management
US10509778B2 (en) * 2016-05-25 2019-12-17 Google Llc Real-time transactionally consistent change notifications
US10146609B1 (en) * 2016-07-08 2018-12-04 Splunk Inc. Configuration of continuous anomaly detection service
US10776350B1 (en) 2016-09-26 2020-09-15 Splunk Inc. Field analyzer for event search screen
US10685279B2 (en) 2016-09-26 2020-06-16 Splunk Inc. Automatically generating field extraction recommendations
US10909140B2 (en) 2016-09-26 2021-02-02 Splunk Inc. Clustering events based on extraction rules
US10620618B2 (en) * 2016-12-20 2020-04-14 Palantir Technologies Inc. Systems and methods for determining relationships between defects
EP3339995A1 (en) * 2016-12-21 2018-06-27 ABB Schweiz AG Determining current and future states of industrial machines by using a prediction model based on historical data
US10467083B2 (en) * 2017-06-08 2019-11-05 International Business Machines Corporation Event relationship analysis in fault management
RU2648623C1 (ru) * 2017-06-29 2018-03-26 Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" Способ управления объектами путем скрытого идентифицирующего подобия
CN108845560B (zh) * 2018-05-30 2021-07-13 国网浙江省电力有限公司宁波供电公司 一种电力调度日志故障分类方法
US20210232483A1 (en) * 2018-07-11 2021-07-29 Nec Corporation Log analysis device, log analysis method, and program
US11681944B2 (en) 2018-08-09 2023-06-20 Oracle International Corporation System and method to generate a labeled dataset for training an entity detection system
CN111198924B (zh) * 2018-11-19 2022-11-25 长鑫存储技术有限公司 产品失效知识库建立方法与失效分析方法、装置、介质
US11514360B2 (en) * 2019-07-12 2022-11-29 EMC IP Holding Company LLC Method and system for verifying state monitor reliability in hyper-converged infrastructure appliances
US12019504B1 (en) * 2019-12-31 2024-06-25 Virtuozzo International Gmbh Automated software crash recovery in hyperconverged systems using centralized knowledge database
WO2022054269A1 (ja) * 2020-09-14 2022-03-17 日本電信電話株式会社 組合せルール作成装置、方法およびプログラム
KR20220045732A (ko) * 2020-10-06 2022-04-13 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
CN112463847A (zh) * 2020-10-30 2021-03-09 深圳市安云信息科技有限公司 一种基于时序数据的故障关联分析方法和装置
CN112837148B (zh) * 2021-03-03 2023-06-23 中央财经大学 一种融合领域知识的风险逻辑关系量化分析方法
CN114513802B (zh) * 2022-01-04 2023-06-09 武汉烽火技术服务有限公司 一种基于事件流的承载网故障分析方法及装置
CN114692787B (zh) * 2022-05-31 2022-08-19 广东电网有限责任公司佛山供电局 基于多源数据的三绕组主变压器事件分析处理方法和系统
CN116599822B (zh) * 2023-07-18 2023-10-20 云筑信息科技(成都)有限公司 一种基于日志采集事件的故障告警治理方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003203001A (ja) * 2001-12-28 2003-07-18 Toshiba Corp ログ解析方法、ログ解析プログラム
US7089250B2 (en) * 2003-10-08 2006-08-08 International Business Machines Corporation Method and system for associating events
US7409604B2 (en) * 2003-12-19 2008-08-05 Microsoft Corporation Determination of related failure events in a multi-node system
JP4314123B2 (ja) 2004-01-30 2009-08-12 株式会社山武 アラーム解析装置、アラーム解析方法及びアラーム解析プログラム
JP5240709B2 (ja) 2008-03-31 2013-07-17 インターナショナル・ビジネス・マシーンズ・コーポレーション シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5011234B2 (ja) * 2008-08-25 2012-08-29 株式会社日立情報システムズ 攻撃ノード群判定装置およびその方法、ならびに情報処理装置および攻撃対処方法、およびプログラム
US8069374B2 (en) * 2009-02-27 2011-11-29 Microsoft Corporation Fingerprinting event logs for system management troubleshooting
US8464279B2 (en) * 2009-12-18 2013-06-11 Hewlett-Packard Development Company, L.P. Domain event correlation
US8209567B2 (en) * 2010-01-28 2012-06-26 Hewlett-Packard Development Company, L.P. Message clustering of system event logs

Also Published As

Publication number Publication date
US9021304B2 (en) 2015-04-28
US20130042147A1 (en) 2013-02-14
WO2011111599A1 (ja) 2011-09-15

Similar Documents

Publication Publication Date Title
WO2011111599A1 (ja) 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体
US11783046B2 (en) Anomaly and causation detection in computing environments
US10127301B2 (en) Method and system for implementing efficient classification and exploration of data
US9753801B2 (en) Detection method and information processing device
Yoon et al. NETS: extremely fast outlier detection from a data stream via set-based processing
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
US10883345B2 (en) Processing of computer log messages for visualization and retrieval
US7827179B2 (en) Data clustering system, data clustering method, and data clustering program
JP2008027072A (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
JP6528669B2 (ja) 予兆検知プログラム、装置、及び方法
JP7332949B2 (ja) 評価方法、評価プログラム、および情報処理装置
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
US7529790B1 (en) System and method of data analysis
US20210232483A1 (en) Log analysis device, log analysis method, and program
US11182267B2 (en) Methods and systems to determine baseline event-type distributions of event sources and detect changes in behavior of event sources
Muttaqien et al. Increasing performance of IDS by selecting and transforming features
US10346450B2 (en) Automatic datacenter state summarization
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
US10042686B2 (en) Determination method, selection method, and determination device
US10580082B2 (en) Flow generating program, flow generating method, and flow generating device
KR101815968B1 (ko) 그룹 분리 기능을 제공하기 위한 악성코드 분류 시스템 및 그 방법
Makanju et al. Spatio-temporal decomposition, clustering and identification for alert detection in system logs
JP7392845B2 (ja) 非定常変動検知装置、非定常変動検知方法及びプログラム
US20170357543A1 (en) Apparatus and method to determine a setting item causing an incident based on action records therefor
JP2012212228A (ja) It障害検知・検索装置及びプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140513