JPWO2012127588A1 - 対処支援プログラム、対処支援装置および対処支援方法 - Google Patents

対処支援プログラム、対処支援装置および対処支援方法 Download PDF

Info

Publication number
JPWO2012127588A1
JPWO2012127588A1 JP2013505648A JP2013505648A JPWO2012127588A1 JP WO2012127588 A1 JPWO2012127588 A1 JP WO2012127588A1 JP 2013505648 A JP2013505648 A JP 2013505648A JP 2013505648 A JP2013505648 A JP 2013505648A JP WO2012127588 A1 JPWO2012127588 A1 JP WO2012127588A1
Authority
JP
Japan
Prior art keywords
failure
message
occurrence
time
countermeasure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013505648A
Other languages
English (en)
Other versions
JP5708789B2 (ja
Inventor
雅崇 園田
雅崇 園田
松本 安英
安英 松本
幸洋 渡辺
幸洋 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2012127588A1 publication Critical patent/JPWO2012127588A1/ja
Application granted granted Critical
Publication of JP5708789B2 publication Critical patent/JP5708789B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

対処支援装置(100)は、システム内の対象機器における各種イベントの発生タイミングや、状態変化のタイミングを含むメッセージ情報を取得する。対処支援装置(100)は、取得したメッセージ情報の集合の中から、障害(X)の発生前に発生して障害(X)の予兆となる種別(M1,M3,M5)のメッセージ情報を検索する。対処支援装置(100)は、障害(X)の予兆となる種別(M1,M3,M5)のメッセージ情報が検索された場合、障害事例DB(110)を参照して、障害(X)の発生時点を特定する。対処支援装置(100)は、検索した種別(M1,M3,M5)のメッセージ情報の発生時点(t1,t3,t5)と、特定した障害Xの発生時点(tx)とに基づいて、障害(X)のリードタイム(LT)を算出する。

Description

本発明は、障害への対処を支援する対処支援プログラム、対処支援装置および対処支援方法に関する。
従来、IDC(Internet Data Center)などの大規模システムにおいて、システム内で発生する障害の予兆を検出して、障害が顕在化する前に、何らかの対処を行うシステム運用が行われている。
関連する先行技術としては、例えば、対象装置に生じたイベントの発生順序によって特定される前兆パターンを抽出し、対象ログに前兆パターンが検出されたときに対象装置に障害が発生すると予測するものがある。また、プラント異常を監視するポイントの制限値とプラントデータの最新値との比較および警報条件とプラントデータの最新値との比較を行い、比較の結果が所定の範囲を逸脱した場合に警報通知する技術がある。
特開2007−172131号公報 特開2009−75692号公報
しかしながら、従来技術では、予兆が検出された障害に適した対処法を選択することが難しいという問題がある。例えば、障害の予兆が検出されてから障害が発生するまでの間に実施できない対処法が選択されることがあり、対処が完了する前に障害が顕在化してダウンタイムを引き起こす場合がある。
一側面では、本発明は、障害の予兆発生から障害の発生までの時間を算出することができる対処支援プログラム、対処支援装置および対処支援方法を提供することを目的とする。
本発明の一側面によれば、監視対象となるシステム内の対象機器の動作に関連する所定の種別のメッセージの発生タイミングから障害発生タイミングまでの経過時間を算出し、算出した該経過時間を出力する対処支援プログラム、対処支援装置および対処支援方法が提案される。
本発明の一側面によれば、障害の予兆発生から障害の発生までの時間を算出することができるという効果を奏する。
図1は、実施の形態1にかかる対処支援装置の一実施例を示す説明図である。 図2は、実施の形態2にかかる対処支援システムのシステム構成例を示す説明図である。 図3は、実施の形態2にかかる対処支援装置のハードウェア構成例を示すブロック図である。 図4は、障害事例DBの記憶内容の一例を示す説明図である。 図5は、メッセージパターンDBの記憶内容の一例を示す説明図である。 図6は、対処案DBの記憶内容の一例を示す説明図である。 図7は、実施の形態2にかかる対処支援装置の機能的構成を示すブロック図である。 図8は、メッセージDBの記憶内容の一例を示す説明図である。 図9は、リードタイム予測結果の具体例を示す説明図である。 図10は、検出結果テーブルの具体例を示す説明図である。 図11は、検出結果テーブルの記憶内容の変遷例を示す説明図(その1)である。 図12は、検出結果テーブルの記憶内容の変遷例を示す説明図(その2)である。 図13は、対処案リストの具体例を示す説明図である。 図14は、メッセージ辞書DBの記憶内容の一例を示す説明図である。 図15は、メッセージの分類例を示す説明図である。 図16は、障害の発生時刻の特定例を示す説明図である。 図17は、実施の形態2にかかる対処支援装置のリードタイム算出処理手順の一例を示すフローチャート(その1)である。 図18は、実施の形態2にかかる対処支援装置のリードタイム算出処理手順の一例を示すフローチャート(その2)である。 図19は、実施の形態2にかかる対処支援装置の対処案選択処理手順の一例を示すフローチャートである。
以下に添付図面を参照して、この発明にかかる対処支援プログラム、対処支援装置および対処支援方法の実施の形態を詳細に説明する。
(実施の形態1)
図1は、実施の形態1にかかる対処支援方法の一実施例を示す説明図である。図1において、対処支援装置100は、監視対象となるシステム内で発生する障害への対処を支援するコンピュータである。
ここで、監視対象となるシステムは、例えば、IDCに構築されるクラウドコンピューティングシステムなどの大規模システムである。システム内で発生する障害としては、例えば、サーバの高負荷、ネットワーク帯域の圧迫、VM(Virtual Machine:仮想マシン)の障害などがある。
実施の形態1では、障害の予兆が検出されてから障害が発生するまでの時間を予測することにより、予兆が検出された障害に適した対処案の選択を容易にする対処支援方法について説明する。以下、対処支援装置100が実行する対処支援方法の一実施例について説明する。
(1)対処支援装置100は、システム内の対象機器における各種イベントの発生タイミングや、状態変化のタイミングを含むメッセージ情報を取得する。ここで、メッセージ情報は、1又は複数の対象機器からリアルタイムに取得することもでき、また、対象機器から所定のタイミング(定期的、所定のイベント発生に応じたタイミングなど)で、複数メッセージ情報をまとめて取得することもできる。なお、システム内で発生したイベントや状態の変化は、OS(Operating System)のシステムログやアプリケーションのログとして対象機器のそれぞれにおいて記憶装置に記憶することもできる。
メッセージの種別は、メッセージを分類するための類型を表すものである。メッセージは、例えば、イベントの種類、性質、系統などによって分類されてもよく、メッセージ間の類似度によって分類されてもよい。
図1の例では、取得されたメッセージ情報の各々のメッセージ情報が示すメッセージM1〜M7の発生タイミングt1〜t7が時系列に示されている。なお、図1中、M♯は、メッセージの種別を表している(♯=1,2,…,7)。
(2)対処支援装置100は、収集したメッセージ情報をモニタし、収集したメッセージ情報が所定の種別のメッセージ情報に該当する場合に、当該メッセージ情報の発生タイミングを取得する。または、取得したメッセージを、発生タイミングを含めて一度記憶部に記憶しておき、後に、記憶部に記憶されたメッセージ情報について検索処理を行い、所定の種別のメッセージ情報が記憶されていることが検出されると、当該メッセージ情報の発生タイミングを取得してもよい。
所定の種別は、不図示の入力装置を用いた入力操作により指定された種別とすることもできるし、また、予め記憶された種別とすることもできる。また、所定の種別を直接指定せずに、障害の種別を特定する情報が不図示の入力装置から入力された場合に、入力された障害の種別に対応するメッセージの種別を所定の種別とすることもできる。
また、収集したメッセージ情報をモニタし、収集した最新のメッセージ情報(Mn)が所定の種別のメッセージ情報に該当する場合に、当該最新のメッセージ情報(Mn)よりも前に取得している当該所定の種別のメッセージ情報(Mp)の発生タイミングを取得することもできる。また、所定の種別は、複数とすることもでき、複数の種別のメッセージのそれぞれの発生タイミングを取得してもよい。
ここでは、一例として、特定の障害を「障害X」とし、障害Xの発生前に発生して障害Xの予兆となる所定の種別を「種別M1,M3,M5」とする。この場合、取得したメッセージ情報の集合の中から、種別M1,M3,M5のメッセージ情報が検索される。
(3)対処支援装置100は、障害Xの予兆となる種別M1,M3,M5のメッセージ情報が検索された場合、障害事例DB(データベース)110を参照して、障害Xの発生時点を特定する。ここで、障害事例DB110は、システム内で発生した障害の事例(障害Xを含む)ごとに、障害の発生時点を記憶している。
図1の例では、メッセージ情報の集合の中から、種別M1,M3,M5のメッセージ情報が検索された結果、障害Xの発生時点txが特定されている。
(4)対処支援装置100は、検索した種別M1,M3,M5のメッセージ情報の発生時点t1,t3,t5と、特定した障害Xの発生時点txとに基づいて、障害XのリードタイムLTを算出する。ここで、リードタイムLTとは、障害Xの予兆が発生してから障害Xが発生するまでの時間である。
図1の例では、M5のメッセージ情報の発生時点t5から、障害Xの発生時点txまでの時間間隔が、障害XのリードタイムLTとして算出されている。すなわち、対処支援装置100は、メッセージM5の発生時点t5を障害Xの予兆を検出した時点として、障害Xの予兆から発生までの残りの時間をリードタイムLTとして算出している。
もちろん、t1とtxまでの時間間隔、t3とtxまでの時間間隔をリードタイムLTとして算出してもよい。なお、算出した各リードタイムLTを障害X、又は、対応するM1,M3,M5と対応付けて記憶しておいてもよい。そして、障害X,M1,M3,M5のいずれかの指定を入力装置の操作によって受けると、対応するリードタイムLTを出力してもよい。
また、収集した最新のメッセージ情報がM1,M3,M5のいずれかに該当することを検出した場合に、検出されたM1,M3,M5、又は対応する障害Xを指定として扱うこともできる。例えば、最新のメッセージ情報がM3であることを検出すると、M3又は障害Xに対応付けて記憶されたリードタイムLTを出力してもよい。
以上説明したように、実施の形態1にかかる対処支援装置100によれば、障害の予兆が検出されてから障害が発生するまでのリードタイムLTを算出することができる。これにより、システム内で障害の予兆が検出された際に、実施すべき対処案をリードタイムLTに合わせて選択することが可能となる。
(実施の形態2)
つぎに、実施の形態2にかかる対処支援システム200について説明する。なお、実施の形態1で説明した箇所と同一箇所については説明を省略する。
(対処支援システム200のシステム構成)
図2は、実施の形態2にかかる対処支援システムのシステム構成例を示す説明図である。図2において、対処支援システム200は、対処支援装置100と、複数のサーバ201(図面では3台)と、複数のクライアント端末202(図面では4台)と、を含む。対処支援システム200において、対処支援装置100、複数のサーバ201、および複数のクライアント端末202は、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などのネットワーク210を介して接続されている。
対処支援装置100は、障害事例DB110、メッセージパターンDB220および対処案DB230を備え、対処支援システム200内で発生する障害への対処を支援するコンピュータである。対処支援装置100は、例えば、対処支援システム200の管理者により使用される。
障害事例DB110は、対処支援システム200内で発生した障害の事例ごとに、障害の発生時点を記憶するデータベースである。メッセージパターンDB220は、障害の予兆となるメッセージパターンを記憶するデータベースである。対処案DB230は、障害の対処案と、対処案の実施にかかる所要時間とを関連付けて記憶するデータベースである。なお、各種DB110,220,230についての詳細な説明は、図4〜図6を用いて後述する。
サーバ201は、クライアント端末202からの要求に応じてサービスを提供するコンピュータである。サーバ201は、実行中のOSやアプリケーションのログを対処支援装置100に提供する機能を有する。サーバ201は、例えば、Webサーバ、アプリケーションサーバ、データベースサーバ、メールサーバなどである。
クライアント端末202は、サーバ201によって提供されるサービスの利用者が使用するコンピュータである。クライアント端末202は、例えば、PC(パーソナル・コンピュータ)、携帯情報端末などである。
(対処支援装置100のハードウェア構成例)
図3は、実施の形態2にかかる対処支援装置のハードウェア構成例を示すブロック図である。図3において、対処支援装置100は、CPU(Central Processing Unit)301と、ROM(Read‐Only Memory)302と、RAM(Random Access Memory)303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、ディスプレイ308と、I/F(Interface)309と、キーボード310と、マウス311と、スキャナ312と、プリンタ313と、を備えている。また、各構成部はバス300によってそれぞれ接続されている。
ここで、CPU301は、対処支援装置100の全体の制御を司る。ROM302は、ブートプログラムなどのプログラムを記憶している。RAM303は、CPU301のワークエリアとして使用される。磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータのリード/ライトを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記憶する。
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータのリード/ライトを制御する。光ディスク307は、光ディスクドライブ306の制御で書き込まれたデータを記憶したり、光ディスク307に記憶されたデータをコンピュータに読み取らせたりする。
ディスプレイ308は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ308は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F309は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他の装置に接続される。そして、I/F309は、ネットワーク210と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F210には、例えば、モデムやLANアダプタなどを採用することができる。
キーボード310は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス311は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ312は、画像を光学的に読み取り、対処支援装置100内に画像データを取り込む。なお、スキャナ312は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ313は、画像データや文書データを印刷する。プリンタ313には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。
なお、図2に示したサーバ201およびクライアント端末202についても、上述した対処支援装置100と同様のハードウェア構成により実現することができる。
(各種DB110,220,230の記憶内容)
つぎに、対処支援装置100が備える各種DB110,220,230の記憶内容について説明する。各種DB110,220,230は、例えば、図3に示したRAM303、磁気ディスク305、光ディスク307などの記憶装置により実現される。
<障害事例DB110の記憶内容>
図4は、障害事例DBの記憶内容の一例を示す説明図である。図4において、障害事例DB110は、障害ID、障害タイプおよび事例データのフィールドを有する。各フィールドに情報を設定することで、障害D1〜Dmの障害事例情報400−1〜400−mがレコードとして記憶されている。
ここで、障害IDは、対処支援システム200内で発生した障害の識別子である。障害タイプは、障害を特徴付ける種別である。障害タイプとしては、例えば、サーバ高負荷、ネットワークカード異常、HDD(Hard Disk Drive)異常、ディスクIO(Input/Output)競合などがある。事例データは、障害の事例ごとの発生時刻および終了時刻を示す情報である。事例IDは、事例の識別子である。
例えば、障害事例情報400−jは、障害Djの障害タイプTjおよび事例データIjを示している(j=1,2,…,m)。また、事例データIjは、障害Djの事例Ekごとの発生時刻tskおよび終了時刻tekを示している(k=1,2,…,K)。障害事例DB110の記憶内容は、対処支援システム200内で新たな障害が発生すると、その都度更新される。
<メッセージパターンDB220の記憶内容>
図5は、メッセージパターンDBの記憶内容の一例を示す説明図である。図5において、メッセージパターンDB220は、メッセージパターンID、障害タイプ、メッセージID、発生確率およびリードタイムのフィールドを有する。各フィールドに情報を設定することで、メッセージパターンMP1〜MPnのメッセージパターン情報500−1〜500−nがレコードとして記憶されている。
ここで、メッセージパターンIDは、メッセージパターンの識別子である。メッセージパターンは、特定の障害の発生前に発生して特定の障害の予兆となるメッセージのメッセージIDの組合せを表している。メッセージは、サーバ201の動作記録を示すログに含まれている。メッセージIDは、実施の形態1で説明した「メッセージの種別」に相当する。障害タイプは、障害を特徴付ける種別である。
メッセージIDは、メッセージを分類する識別子である。発生確率は、対処支援システム200内でメッセージパターンに含まれるメッセージIDのメッセージが発生した際に、特定の障害が発生する確率である。リードタイムは、障害の予兆が検出されてから障害が発生するまでの時間である。
メッセージパターン情報500−1を例に挙げると、障害タイプT1の障害の予兆となるメッセージのメッセージIDの組合せを表すメッセージパターンMP1が示されている。また、対処支援システム200内でメッセージパターンMP1に含まれるメッセージIDのメッセージが発生した際に、障害タイプT1の障害が発生する発生確率「0.15625」が示されている。また、障害タイプT1の障害の予兆から発生までのリードタイム「00:30:00(時:分:秒)」が示されている。
なお、同一の障害タイプのメッセージパターンは、該障害タイプの障害と共起関係を有するメッセージIDの集合の部分集合を表している。ここでの共起関係とは、一方(例えば、『メッセージIDの集合』)が発生すると他方(例えば、『障害』)も発生する可能性が高いという関係のことである。
例えば、メッセージパターンMP1〜MP3は、障害タイプT1の障害と共起関係を有するメッセージIDの集合『m0,m1,m2,m3,m4,m10,m18,m19,m21,m27,m30,m36,m58,m64,m65,m82,m83,m109,m115,m116,m118』の部分集合をそれぞれ表している。
以下の説明では、メッセージパターンMP1〜MPnのうち任意のメッセージパターンを「メッセージパターンMPi」と表記する。また、メッセージパターンMPiの障害タイプを「障害タイプT」と表記し、メッセージパターンMPiのリードタイムを「リードタイムLTi」と表記する。
<対処案DB230の記憶内容>
図6は、対処案DBの記憶内容の一例を示す説明図である。図6において、対処案DB230は、障害タイプごとに、障害タイプの障害の対処案と、障害の対処案の実施にかかる所要時間とを関連付けて示す対処案情報600−1〜600−mを記憶している。
対処案情報600−1を例に挙げると、障害タイプT1の障害の対処案「VM増設」と、対処案「VM増設」の実施にかかる所要時間「20−30[分]」が示されている。なお、20−30[分]は、20分以上30分以下を表している。また、障害タイプT1の障害の対処案「VMの割当コア数増加」と、対処案「VMの割当コア数増加」の実施にかかる所要時間「10−20[分]」が示されている。
また、障害タイプT1の障害の対処案「Sorryサーバへ」と、対処案「Sorryサーバへ」の実施にかかる所要時間「0−10[分]」が示されている。なお、Sorryサーバとは、例えば、サーバ201の障害時などのサービスを提供できない場合に、サービスが提供できない旨のレスポンスをクライアント端末202に返すサーバである。
(対処支援装置100の機能的構成例)
つぎに、実施の形態2にかかる対処支援装置100の機能的構成例について説明する。図7は、実施の形態2にかかる対処支援装置の機能的構成を示すブロック図である。図7において、対処支援装置100は、取得部701と、分類部702と、第1の選択部703と、検索部704と、特定部705と、算出部706と、出力部707と、検出部708と、第2の選択部709と、を含む構成である。この制御部となる機能(取得部701〜第2の選択部709)は、具体的には、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F309により、その機能を実現する。各機能部の処理結果は、例えば、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶される。
取得部701は、サーバ201の動作記録を示すログを取得する機能を有する。具体的には、例えば、取得部701が、ネットワーク210を介して、サーバ201の動作記録を示すログをサーバ201から受信する。ログは、対処支援システム200内で発生した各種イベントや状態の変化の記録を示すものである。
ログには、例えば、日時、ホスト名、プロセス名、イベント内容などを示すメッセージが含まれている。日時は、ログが出力された日時である。ホスト名は、ログを出力したサーバ201の識別子である。プロセス名は、ログに関連するソフトウェア(OSやアプリケーション)のプロセスの名称である。イベント内容は、ログに関連するイベントの内容である。
分類部702は、取得されたログを分類する機能を有する。具体的には、例えば、分類部702が、取得されたログに含まれるメッセージに基づいて、ログを分類する。なお、分類部702の具体的な処理内容については、図14および図15を用いて後述する。分類された分類結果は、例えば、図8に示すメッセージDB800に記憶される。ここで、メッセージDB800について説明する。
図8は、メッセージDBの記憶内容の一例を示す説明図である。図8において、メッセージDB800は、メッセージID、ホスト名、発生時刻およびメッセージ内容のフィールドを有する。各フィールドに情報を設定することで、メッセージ情報(例えば、メッセージ情報800−1〜800−3)がレコードとして記憶されている。
メッセージIDは、メッセージを分類する識別子である。ホスト名は、サーバ201の識別子(例えば、IPアドレス)である。発生時刻は、メッセージの発生時刻である。すなわち、発生時刻は、メッセージを含むログが出力された日時である。メッセージ内容は、ログに含まれるメッセージの記述内容である。
メッセージDB800内の各メッセージ情報は、サーバ201から取得された各ログに対応している。また、メッセージDB800内のメッセージ情報群は、メッセージの発生時刻が新しいものから順にソートされて記憶されている。
メッセージ情報800−1を例に挙げると、メッセージm0を含むログを出力したホスト名「192.xxx.1.22」、メッセージm0の発生時刻「2010/01/16 23:10:02」が示されている。また、メッセージm0のメッセージ内容「example−svr01 snmpd[10823]:Connection from 127.0.0.1 REFUSED」が示されている。
図7の説明に戻り、第1の選択部703は、メッセージパターンMP1〜MPnの中から、いずれかのメッセージパターンMPiを選択する機能を有する。具体的には、例えば、第1の選択部703が、図5に示したメッセージパターンDB220の中から、メッセージパターンIDが昇順(MP1→MP2→…)となるようにメッセージパターンMPiを順次選択する。また、第1の選択部703が、例えば、図3に示したキーボード310やマウス311を用いたユーザの選択入力にしたがって、いずれかのメッセージパターンMPiを選択することにしてもよい。
検索部704は、分類された分類結果の中から、選択されたメッセージパターンMPiに含まれる各々のメッセージIDのメッセージを検索する機能を有する。具体的には、例えば、まず、検索部704が、図8に示したメッセージDB800の中から、一定期間α分のメッセージ情報群を抽出する。そして、検索部704が、抽出したメッセージ情報群の中から、メッセージパターンMPiに含まれる各々のメッセージIDに対応するメッセージ情報を検索する。
例えば、検索部704が、メッセージ情報群の中から、メッセージパターンMP1に含まれるメッセージID「m0」に対応するメッセージ情報800−1を検索する。これにより、メッセージパターンMP1に含まれるメッセージm0を検索することができる。なお、上記一定期間α(例えば、60分、120分)は、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
以下の説明では、メッセージパターンMPiに含まれるメッセージIDのメッセージを「メッセージm[1]〜m[K]」と表記する。また、メッセージm[1]〜m[K]のうち任意のメッセージを「メッセージm[k]」と表記する(k=1,2,…,K)。
特定部705は、メッセージパターンMPiの障害タイプTの障害の発生時点を特定する機能を有する。具体的には、例えば、特定部705が、メッセージパターンMPiに含まれるメッセージm[1]〜m[K]がすべて検索された場合、障害事例DB110を参照して、メッセージパターンMP1の障害タイプT1の障害の発生時刻を特定する。なお、特定部705の具体的な処理内容については、図16を用いて後述する。
算出部706は、検索されたメッセージm[1]〜m[K]のいずれかのメッセージm[k]の発生時点と、特定された障害タイプTの障害の発生時点とに基づいて、リードタイムLTiを算出する機能を有する。リードタイムLTiは、障害タイプTの障害の予兆が検出されてから、障害タイプTの障害が発生するまでの時間である。
具体的には、例えば、算出部706が、メッセージm[1]〜m[K]のうち発生時刻が最新のメッセージm[k]の発生時刻から障害タイプTの障害の発生時刻までの時間間隔を、リードタイムLTiとして算出することにしてもよい。これにより、障害の予兆を表すメッセージm[1]〜m[K]のうち発生時刻が最新のメッセージm[k]の発生時刻を予兆の検出時刻として、リードタイムLTiを算出することができる。
例えば、メッセージパターンMP1に含まれるメッセージ群のうち発生時刻が最新のメッセージm3の発生時刻を「2009/03/02 23:15:00」とする。また、障害タイプT1の障害の発生時刻を「2009/03/02 23:45:00」とする。この場合、算出部706が、メッセージm3の発生時刻「2009/03/02 23:15:00」から、障害タイプT1の障害の発生時刻「2009/03/02 23:45:00」までの時間間隔「00:30:00」を算出する。この結果、障害タイプT1の障害の予兆から発生までのリードタイムLT1「00:30:00」が算出される。
なお、リードタイムLTiを算出する際のメッセージm[k]の発生時刻として、メッセージm[1]〜m[K]の発生時刻のうち最古の発生時刻、または、メッセージm[1]〜m[K]の発生時刻の平均値を用いることにしてもよい。
算出された算出結果は、例えば、図5に示したメッセージパターンDB220に記憶される。例えば、メッセージパターンMP1について、障害タイプT1のリードタイムLT1「00:30:00」が算出された場合、メッセージパターン情報500−1のリードタイムフィールドに「00:30:00」が設定される。
また、算出部706は、メッセージパターンMPiのリードタイムLTi(ここでは、「第1のリードタイム」という)を算出した後、新たに第2のリードタイムを算出した場合、第1および第2のリードタイムに基づいてリードタイムLTiを算出してもよい。
具体的には、例えば、算出部706が、第1および第2のリードタイムの平均値を算出することにより、リードタイムLTiを算出することにしてもよい。例えば、メッセージパターンMP1について、第1のリードタイム「00:30:00」が算出された後、第2のリードタイム「00:20:00」が算出された場合、第1および第2のリードタイムの平均値「00:25:00」がリードタイムLT1となる。これにより、リードタイムLTiを複数の算出結果から統計的に求めて、リードタイムLTiのばらつきを低減させることができる。
また、例えば、算出部706が、第1および第2のリードタイムのうち時間が短い方のリードタイムを選択することにより、リードタイムLTiを算出することにしてもよい。これにより、障害の予兆が検出されてから障害が発生するまでの残余の時間が、より短いものをリードタイムLTiとして採用することができる。
出力部707は、算出された障害タイプTの障害の予兆から発生までのリードタイムLTiを出力する機能を有する。具体的には、例えば、出力部707が、図9に示すようなリードタイム予測結果900を出力することにしてもよい。ここで、リードタイム予測結果900の具体例について説明する。
図9は、リードタイム予測結果の具体例を示す説明図である。図9において、リードタイム予測結果900は、メッセージパターンMP1を予兆として発生する障害タイプT1の障害の発生確率「0.15625」およびリードタイムLT1「00:30:00」を示している。
リードタイム予測結果900によれば、対処支援システム200の管理者は、障害タイプT1の障害の予兆となるメッセージパターンMP1が検出された場合、メッセージパターンMP1の検出時刻から30分後に障害が発生することを把握することができる。また、障害タイプT1の障害の予兆が検出された際に、該障害が発生する確率を把握することができる。
なお、出力部707の出力形式としては、例えば、ディスプレイ308への表示、プリンタ313への印刷出力、I/F309による外部装置への送信がある。また、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶することとしてもよい。
図7の説明に戻り、検出部708は、メッセージパターンMPiに含まれるメッセージIDのメッセージm[k]を検出する機能を有する。具体的には、例えば、検出部708が、サーバ201から取得されたログが分類される度に、分類された分類後のログのメッセージIDがメッセージパターンMPiに含まれているか否かを判断する。
そして、分類後のログのメッセージIDがメッセージパターンMPiに含まれている場合、検出部708が、ログのメッセージIDに対応するメッセージm[k]を検出する。検出された検出結果は、例えば、図10に示す検出結果テーブル1000に記憶される。ここで、検出結果テーブル1000について説明する。
図10は、検出結果テーブルの具体例を示す説明図である。図10において、検出結果テーブル1000は、メッセージパターンID、メッセージID、検出フラグおよび発生時刻のフィールドを有する。各フィールドに情報を設定することで、メッセージパターンMPiに含まれるメッセージm[1]〜m[K]の検出結果がレコードとして記憶される。
メッセージパターンIDは、メッセージパターンMPiの識別子である。メッセージIDは、メッセージの識別子である。検出フラグは、メッセージが検出されたか否かを示すフラグである。検出フラグは、初期状態では「0」であり、メッセージが検出されると「0」から「1」に変更される。発生時刻は、メッセージの発生時刻である。
検出結果テーブル1000は、例えば、メッセージパターンMP1〜MPnごとに作成される。ここで、メッセージパターンMP1を例に挙げて、検出結果テーブル1000の記憶内容の変遷例について説明する。
図11および図12は、検出結果テーブルの記憶内容の変遷例を示す説明図である。図11の(i)において、検出結果テーブル1000内のメッセージパターンIDフィールドに「MP1」が設定されている。また、メッセージIDフィールドに「m0,m2,m3,m4,m10,m18,m19,m21,m27,m36,m65,m115,m116,m118」が設定されている。
図11の(ii)において、メッセージパターンMP1に含まれるメッセージm0が検出された結果、検出結果テーブル1000内のメッセージm0の検出フラグが「0」から「1」に変更されている。また、メッセージm0の発生時刻フィールドに、メッセージm0の発生時刻「t1」が設定されている。
図12の(iii)において、メッセージパターンMP1に含まれるメッセージm10が検出された結果、検出結果テーブル1000内のメッセージm10の検出フラグが「0」から「1」に変更されている。また、メッセージm10の発生時刻フィールドに、メッセージm10の発生時刻「t2」が設定されている。
このあと、メッセージパターンMP1に含まれる残余のメッセージm2,m3,m4,m18,m19,m21,m27,m36,m65,m115,m116,m118が順次検出された場合を想定する。
図12の(iv)において、メッセージパターンMP1に含まれる残余のメッセージが検出された結果、検出結果テーブル1000内の全メッセージの検出フラグが「0」から「1」に変更され、全メッセージの発生時刻が設定されている。
このように、検出結果テーブル1000によれば、メッセージパターンMPiに含まれる各メッセージm[k]の検出状態をリアルタイムに把握することができる。これにより、メッセージパターンMPiに含まれるメッセージm[1]〜m[K]がすべて検出された時点を迅速に把握することができる。
なお、上述した説明では、検出部708が、サーバ201から取得されたログが分類される度に、分類後のログのメッセージIDがメッセージパターンMPiに含まれているか否かを判断することにしたが、これに限らない。
具体的には、例えば、まず、検出部708が、一定期間βが経過するごとに、メッセージDB800の中から、一定期間β分の最新のメッセージ情報を抽出する。そして、検出部708が、抽出したメッセージ情報群の中から、メッセージパターンMPiに含まれるメッセージIDのメッセージm[k]を検出することにしてもよい。
なお、上記一定期間β(例えば、10分、20分)は、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
図7の説明に戻り、出力部707は、メッセージパターンMPiに含まれるメッセージIDのメッセージm[k]が検出された場合、メッセージパターンMPiのリードタイムLTiを出力する機能を有する。具体的には、例えば、メッセージパターンMP1に含まれるすべてのメッセージが検出された場合、出力部707が、図9に示したようなリードタイム予測結果900を出力することにしてもよい。
これにより、対処支援システム200の管理者は、障害タイプT1の障害の予兆となるメッセージパターンMP1が検出されたこと、および、メッセージパターンMP1の検出時刻から30分後に障害が発生することを把握することができる。また、障害タイプT1の障害の予兆が検出された際に、該障害が発生する確率を把握することができる。
第2の選択部709は、メッセージパターンMPiに含まれるメッセージm[1]〜m[K]が検出された場合、算出されたリードタイムLTiに基づいて、障害タイプTの障害の対処案を選択する機能を有する。なお、メッセージパターンMPiのリードタイムLTiは、例えば、図5に示したメッセージパターンDB220から特定される。
具体的には、例えば、第2の選択部709が、検出結果テーブル1000内の全メッセージの検出フラグが「1」となった場合、図6に示した対処案DB230の中から、メッセージパターンMPiの障害タイプTに対応する対処案情報600−jを抽出する。そして、第2の選択部709が、抽出した対処案情報600−jを参照して、リードタイムLTiより所要時間が短い対処案を選択する。
この際、リードタイムLTiより所要時間が短い対処案が複数存在する場合、第2の選択部709が、最も所要時間が長い対処案を選択してもよく、また、リードタイムLTiより所要時間が短いすべての対処案を選択することにしてもよい。
例えば、図12に示したメッセージパターンMP1の検出結果テーブル1000内の全メッセージの検出フラグが「1」となった場合、第2の選択部709が、対処案DB230の中から障害タイプT1の対処案を選択する。具体的には、例えば、第2の選択部709が、リードタイムLT1「00:30:00」より所要時間が短い対処案のうち、所要時間が最長の対処案「VM増設」を選択する。
出力部707は、選択された障害タイプTの障害の対処案を出力する機能を有する。具体的には、例えば、出力部707が、図13に示すような対処案リスト1300を出力することにしてもよい。ここで、対処案リスト1300の具体例について説明する。
図13は、対処案リストの具体例を示す説明図である。図13において、対処案リスト1300は、予兆が検出された障害の障害タイプごとに、発生確率、発生予想時間、対処案およびホスト名を示すリスト情報1300−1〜1300−3を有している。なお、対処案リスト1300は、複数の障害の予兆が検出された場合の例である。
ここで、発生確率は、予兆が検出された障害の発生確率である。発生予想時間は、障害の予兆が検出されてから障害が発生するまでの残りの時間である。対処案は、上記第2の選択部709によって選択された対処案であり、予兆が検出された障害の対処案の候補である。ホスト名は、メッセージパターンMPiに含まれる各メッセージm[k]を含むログを出力したホスト名である。
例えば、リスト情報1300−1は、障害タイプT1の障害の発生確率「0.15625」、発生予想時間「30分後」、対処案「VM移行」およびホスト名「192.xxx.1.22」を示している。なお、ホスト名には、複数のホスト名が示されている場合もある。
対処案リスト1300によれば、対処支援システム200の管理者は、障害の発生を事前に把握することができる。また、対処支援システム200の管理者は、障害の予兆から発生までの残余の時間に応じた対処案を把握することができる。また、対処支援システム200の管理者は、ホスト名から予兆が検出された障害の発生箇所を特定することができる。
これらのことから、対処案リスト1300によれば、対処支援システム200の管理者は、予兆が検出された障害への適切な対処案を選択して実施することができる。また、各障害タイプT1〜T3の障害の発生確率を参照することにより、例えば、発生予想時間が同程度の複数の障害の予兆が検出された際などに、発生確率が高いものから優先的に対処するなどの対応を行うことができる。
なお、検索部704は、例えば、上記検出部708と同様に、メッセージパターンMPiに含まれる各々のメッセージIDのメッセージm[1]〜m[K]を検索することにしてもよい。具体的には、例えば、検索部704が、サーバ201から取得されたログが分類される度に、分類された分類後のログのメッセージIDがメッセージパターンMPiに含まれているか否かを判断する。
そして、分類後のログのメッセージIDがメッセージパターンMPiに含まれている場合、検索部704が、ログのメッセージIDに対応するメッセージm[k]を検索する。なお、検索された検索結果は、例えば、図10に示した検出結果テーブル1000と同様のデータ構造のテーブルに記憶される。
これにより、メッセージパターンMPiに含まれる各メッセージm[k]の検索状態をリアルタイムに把握して、メッセージパターンMPiに含まれるメッセージm[1]〜m[K]がすべて検索された時点を迅速に把握することができる。
(分類部702の具体的な処理内容)
つぎに、サーバ201から取得されたログを分類する分類部702の具体的な処理内容の一例について説明する。まず、ログを分類する際に用いられるメッセージ辞書DB1400について説明する。メッセージ辞書DB1400は、例えば、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
図14は、メッセージ辞書DBの記憶内容の一例を示す説明図である。図14において、メッセージ辞書DB1400は、メッセージIDおよび雛形メッセージのフィールドを有する。各フィールドに情報を設定することで、エントリ1400−1〜1400−pがレコードとして記憶されている。
ここで、メッセージIDは、雛形メッセージの識別子であり、ログに含まれるメッセージを分類する識別子である。雛形メッセージは、メッセージを分類する際の雛形となるメッセージである。例えば、エントリ1400−1は、メッセージID「m0」の雛形メッセージ「example−svr10 snmpd[10823]:Connection from 127.0.0.1 REFUSED」を示している。
以下、図15を用いて、サーバ201から取得されたログに含まれる「example−svr01 snmpd[10823]:Connection from 127.0.0.1 REFUSED」を分類する場合について説明する。
図15は、メッセージの分類例を示す説明図である。図15において、サーバ201から取得されたログLに含まれるメッセージ1500が示されている。
まず、分類部702は、メッセージ辞書DB1400の中からいずれかのエントリを選択する。具体的には、例えば、分類部702が、メッセージ辞書DB1400の中から、メッセージIDが昇順となるようにエントリを順次選択する。図15の例では、メッセージ辞書DB1400の中からエントリ1400−1が選択されている。
つぎに、分類部702は、メッセージ1500およびエントリ1400−1の雛形メッセージを分割する。図15の例では、メッセージ1500が文節単位で区切られて文節1501〜1506に分割されている。また、エントリ1400−1の雛形メッセージが文節単位で区切られて文節1507〜1512に分割されている。
このあと、分類部702は、メッセージ1500とエントリ1400−1の雛形メッセージとを文節単位で比較して一致判定する。図15の例では、メッセージ1500の文節1501と雛形メッセージの文節1507とが不一致となっている。また、メッセージ1500の文節1502〜1506と雛形メッセージの文節1508〜1512とが一致している。
つぎに、分類部702は、判定した判定結果に基づいて、メッセージ1500とエントリ1400−1の雛形メッセージとの類似度を算出する。具体的には、例えば、分類部702が、一致する文節数「10」を総文節数「12」で除算して、メッセージ1500とエントリ1400−1の雛形メッセージとの類似度「0.83≒10/12」を算出する。
そして、分類部702は、算出した算出結果に基づいて、メッセージ1500を分類する。具体的には、例えば、分類部702が、メッセージ1500とエントリ1400−1の雛形メッセージとの類似度が所定の閾値以上の場合、メッセージ1500のメッセージIDは、エントリ1400−1のメッセージID「m0」と分類する。
上記閾値は、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。ここで、上記閾値を「0.8」とすると、メッセージ1500とエントリ1400−1の雛形メッセージの類似度「0.83」が閾値以上となるため、メッセージ1500のメッセージIDは「m0」となる。
また、メッセージ1500とエントリ1400−1の雛形メッセージの類似度が閾値未満の場合、分類部702により、メッセージ辞書DB1400の中から新たなエントリを選択して、上述した一連の処理を繰り返すことになる。
(特定部705の具体的な処理内容)
つぎに、メッセージパターンMPiの障害タイプTの障害の発生時点を特定する特定部705の具体的な処理内容について説明する。ここでは、図16を用いて、メッセージパターンMP1の障害タイプT1の障害の発生時刻を特定する場合を例に挙げて説明する。
図16は、障害の発生時刻の特定例を示す説明図である。図16において、時刻tdは、メッセージパターンMP1の障害タイプT1の障害の予兆が検出された時刻である。時刻ts1は、障害タイプT1の障害D1の事例1の発生時刻である。時刻ts2は、障害タイプT1の障害D1の事例2の発生時刻である。時刻ts3は、障害タイプT1の障害D1の事例3の発生時刻である。
また、有効期間VTは、障害の予兆が発生してから、該予兆がいつまで有効となるかを表す期間である。有効期間VT(例えば、60分、120分)は、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
まず、特定部705は、障害タイプT1の障害D1の事例1〜3のうち、障害タイプT1の障害の予兆が検出された時刻tdから有効期間VT内に発生時刻が含まれる事例1,2を特定する。これにより、障害の予兆が発生してから有効期間VT以降に発生した事例3の発生時刻を、障害タイプT1の障害の発生時刻の対象外とすることができる。
つぎに、特定部705は、有効期間VT内の事例1,2のうち、発生時刻が最も早い事例1を特定する。そして、特定部705は、事例1の発生時刻ts1を、障害タイプT1の障害の発生時刻として特定する。これにより、障害タイプT1の障害の予兆が検出されてから最も早く発生した障害タイプT1の障害D1の発生時刻ts1を、障害タイプT1の障害の発生時刻として特定することができる。
また、特定部705は、有効期間VT内の事例1,2のうち、発生時刻が最も遅い事例2の発生時刻ts2を、障害タイプT1の障害の発生時刻として特定することにしてもよい。これにより、障害タイプT1の障害の予兆が検出されてから有効期間VT内かつ最も遅く発生した障害タイプT1の障害D1の発生時刻ts2を、障害タイプT1の障害の発生時刻として特定することができる。
(対処支援装置100の対処支援処理手順)
つぎに、実施の形態2にかかる対処支援装置100の各種対処支援処理手順について説明する。まず、メッセージパターンMPiのリードタイムLTiを算出するリードタイム算出処理手順について説明する。
<リードタイム算出処理手順>
図17および図18は、実施の形態2にかかる対処支援装置のリードタイム算出処理手順の一例を示すフローチャートである。
図17のフローチャートにおいて、まず、検索部704により、メッセージDB800の中から一定期間α分のメッセージ情報群を抽出する(ステップS1701)。
つぎに、第1の選択部703により、メッセージパターンMPiの「i」を「i=1」とする(ステップS1702)。そして、第1の選択部703により、メッセージパターンDB220の中からメッセージパターンMPiを選択する(ステップS1703)。
このあと、検索部704により、抽出したメッセージ情報群の中から、選択されたメッセージパターンMPiに含まれるメッセージIDのメッセージm[1]〜m[K]を検索する(ステップS1704)。そして、特定部705により、メッセージm[1]〜m[K]がすべて検索されたか否かを判断する(ステップS1705)。
ここで、メッセージm[1]〜m[K]のうち少なくともいずれかのメッセージが検索されなかった場合(ステップS1705:No)、図18に示すステップS1804に移行する。
一方、メッセージm[1]〜m[K]がすべて検索された場合(ステップS1705:Yes)、特定部705により、メッセージm[1]〜m[K]の発生時刻のうち最新の発生時刻(以下、「予兆検出時刻td」という)を特定する(ステップS1706)。
つぎに、特定部705により、障害事例DB110の中から、メッセージパターンMPiの障害タイプTに対応する障害事例情報400−jを抽出する(ステップS1707)。そして、特定部705により、障害事例情報400−jの事例データIjの中から、予兆検出時刻tdから有効期間VT内に発生時刻が含まれる事例を検索する(ステップS1708)。
ここで、事例が検索されなかった場合(ステップS1709:No)、図18に示すステップS1804に移行する。
一方、事例が検索された場合(ステップS1709:Yes)、特定部705により、検索された事例のうち発生時刻が最も早い事例Ekの発生時刻tskを、メッセージパターンMPiの障害タイプTの障害の発生時刻として特定する(ステップS1710)。
そして、算出部706により、予兆検出時刻tdから障害タイプTの障害の発生時刻までの時間間隔を算出することにより、メッセージパターンMPiのリードタイム候補を算出して(ステップS1711)、図18に示すステップS1801に移行する。
図18のフローチャートにおいて、まず、算出部706により、メッセージパターンDB220にメッセージパターンMPiのリードタイムLTiが登録されているか否かを判断する(ステップS1801)。ここで、リードタイムLTiが未登録の場合(ステップS1801:No)、ステップS1803に移行する。
一方、リードタイムLTiが登録されている場合(ステップS1801:Yes)、算出部706により、図17に示したステップS1711において算出されたリードタイム候補が、登録されているリードタイムLTi未満か否かを判断する(ステップS1802)。ここで、リードタイム候補がリードタイムLTi以上の場合(ステップS1802:No)、ステップS1804に移行する。
一方、リードタイム候補がリードタイムLTi未満の場合(ステップS1802:Yes)、算出部706により、リードタイム候補を、メッセージパターンMPiのリードタイムLTiとしてメッセージパターンDB220に登録する(ステップS1803)。
つぎに、第1の選択部703により、メッセージパターンMPiの「i」をインクリメントして(ステップS1804)、「i」が「n」より大きくなったか否かを判断する(ステップS1805)。
ここで、「i」が「n」以下の場合(ステップS1805:No)、図17に示したステップS1703に戻る。一方、「i」が「n」より大きくなった場合(ステップS1805:Yes)、本フローチャートによる一連の処理を終了する。
これにより、障害の予兆を表すメッセージパターンMPiごとに、障害の予兆から発生までのリードタイムLTiを算出することができる。なお、ステップS1703において、障害の発生確率が閾値(例えば、0.5)以上のメッセージパターンMPiを選択することにしてもよい。これにより、障害の発生確率が閾値よりも低いメッセージパターンMPiをリードタイムLTiの算出対象から除外することができる。
<対処案選択処理手順>
つぎに、予兆が検出された障害の対処案を選択する対処案選択処理手順について説明する。図19は、実施の形態2にかかる対処支援装置の対処案選択処理手順の一例を示すフローチャートである。
図19のフローチャートにおいて、まず、検出部708により、メッセージパターンMPiに含まれるメッセージm[1]〜m[K]が検出されたか否かを判断する(ステップS1901)。ここで、検出部708により、メッセージパターンMPiに含まれるメッセージm[1]〜m[K]が検出されるのを待つ(ステップS1901:No)。
そして、メッセージパターンMPiが検出された場合(ステップS1901:Yes)、第2の選択部709により、メッセージパターンDB220を参照して、メッセージパターンMPiのリードタイムLTiを特定する(ステップS1902)。つぎに、第2の選択部709により、メッセージパターンDB220を参照して、メッセージパターンMPiの障害タイプTを特定する(ステップS1903)。
そして、第2の選択部709により、対処案DB230の中から、メッセージパターンMPiの障害タイプTに対応する対処案情報600−jを抽出する(ステップS1904)。つぎに、第2の選択部709により、抽出した対処案情報600−jを参照して、リードタイムLTiより所要時間が短い対処案を選択する(ステップS1905)。
そして、出力部707により、選択されたメッセージパターンMPiの障害タイプTの障害の対処案を示す対処案リスト(例えば、図13に示した対処案リスト1300)を出力して(ステップS1906)、本フローチャートによる一連の処理を終了する。
これにより、予兆が検出された障害のリードタイムLTiに合った適切な対処案を選択して出力することができる。
以上説明したように、実施の形態2にかかる対処支援装置100によれば、障害の予兆を表すメッセージパターンMPiごとに、障害の予兆から発生までのリードタイムLTiを算出することができる。これにより、障害の予兆が検出されてから障害が顕在化するまでの時間を予測することができる。
また、実施の形態2にかかる対処支援装置100によれば、対処支援システム200内で障害の予兆が検出された際に、障害のリードタイムLTiよりも所要時間が短い対処案を選択して出力することができる。これにより、対処支援システム200の管理者は、障害の予兆が検出された際に、予兆が検出された障害に合った適切な対処案を選択して対処することができる。
また、実施の形態2にかかる対処支援装置100によれば、障害の予兆を表すメッセージm[1]〜m[K]のうち発生時刻が最新のメッセージm[k]の発生時刻を用いて、リードタイムLTiを算出することができる。これにより、障害の予兆を表すメッセージm[1]〜m[K]のうち最も遅く発生したメッセージm[k]の発生時刻が予兆の検出時刻となり、障害の予兆から発生までの時間間隔が短くなるようにリードタイムLTiを算出することができる。
また、実施の形態2にかかる対処支援装置100によれば、障害の予兆が発生してから有効期間VT内に発生した障害事例の発生時刻を用いて、リードタイムLTiを算出することができる。これにより、障害の予兆が発生してから有効期間VT以降に発生した障害事例の発生時刻を、障害の発生時刻の特定対象から除外することができる。
また、実施の形態2にかかる対処支援装置100によれば、障害の予兆が検出されてから最も早く発生した障害事例の発生時刻を用いて、リードタイムLTiを算出することができる。これにより、障害の予兆から発生までの時間間隔が短くなるようにリードタイムLTiを算出することができる。
また、実施の形態2にかかる対処支援装置100によれば、メッセージパターンMPiのリードタイムLTiを、複数の算出結果(例えば、第1および第2のリードタイム)から統計的に求めることで、リードタイムLTiのばらつきを低減させることができる。
これらのことから、本対処支援プログラム、対処支援装置および対処支援方法によれば、障害の予兆検出時に、該障害のリードタイムに合った適切な対処案を選択することができ、障害を事前に回避または障害発生時の損害を最小限に抑えることができる。これにより、障害発生時のダウンタイムを削減して、サービス機会の損失を軽減させることができる。
なお、本実施の形態で説明した対処支援方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本対処支援プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本対処支援プログラムは、インターネット等のネットワークを介して配布してもよい。
100 対処支援装置
110 障害事例DB
200 対処支援システム
201 サーバ
202 クライアント端末
220 メッセージパターンDB
230 対処案DB
701 取得部
702 分類部
703 第1の選択部
704 検索部
705 特定部
706 算出部
707 出力部
708 検出部
709 第2の選択部
800 メッセージDB

Claims (10)

  1. 監視対象となるシステム内の対象機器の動作に関連する所定の種別のメッセージの発生タイミングから障害発生タイミングまでの経過時間を算出し、
    算出した該経過時間を出力する、
    処理をコンピュータに実行させることを特徴とする対処支援プログラム。
  2. 前記システム内で発生したメッセージの中から、特定の障害の発生前に発生して前記特定の障害の予兆となる所定の種別のメッセージを検索し、
    前記システム内で発生した障害の発生時点を記憶するデータベースを参照して、前記特定の障害の発生時点を特定し、
    検索した前記所定の種別のメッセージの発生時点と、特定した前記特定の障害の発生時点とに基づいて、前記特定の障害の予兆が発生してから前記特定の障害が発生するまでの時間を算出し、
    算出した算出結果を出力する、
    処理を前記コンピュータに実行させることを特徴とする請求項1に記載の対処支援プログラム。
  3. 前記システム内で発生した前記所定の種別のメッセージを検出し、
    前記所定の種別のメッセージが検出された場合、算出した前記特定の障害の予兆が発生してから前記特定の障害が発生するまでの時間を出力する、
    処理を前記コンピュータに実行させることを特徴とする請求項2に記載の対処支援プログラム。
  4. 前記所定の種別のメッセージが検出された場合、前記特定の障害の予兆が発生してから前記特定の障害が発生するまでの時間に基づいて、前記特定の障害の対処案と前記対処案の実施にかかる所要時間とを関連付けて記憶する対処案データベースの中から、前記特定の障害の対処案を選択し、
    選択した前記特定の障害の対処案を出力する、
    処理を前記コンピュータに実行させることを特徴とする請求項3に記載の対処支援プログラム。
  5. 前記特定の障害の対処案を選択する処理は、
    前記対処案データベースの中から、前記特定の障害の予兆が発生してから前記特定の障害が発生するまでの時間より所要時間が短い対処案を選択することを特徴とする請求項4に記載の対処支援プログラム。
  6. 前記所定の種別は一つ以上の種別の組合せであり、
    前記所定の種別のメッセージを検索する処理は、
    前記システム内で発生したメッセージの中から、前記組合せに含まれる各々の種別のメッセージを検索し、
    前記特定の障害が発生するまでの時間を算出する処理は、
    検索した前記各々の種別のメッセージの発生時点のうち最新の発生時点から、特定した前記特定の障害の発生時点までの時間間隔を算出することを特徴とする請求項2〜5のいずれか一つに記載の対処支援プログラム。
  7. 前記特定の障害の発生時点を特定する処理は、
    前記データベースを参照して、検索した前記所定の種別のメッセージの発生時点から所定期間内に発生した前記特定の障害の発生時点を特定することを特徴とする請求項6に記載の対処支援プログラム。
  8. 前記特定の障害の予兆が発生してから前記特定の障害が発生するまでの第1の時間が算出された後、前記特定の障害の予兆が発生してから前記特定の障害が発生するまでの第2の時間が算出された場合、前記第1および第2の時間に基づいて、前記特定の障害の予兆が発生してから前記特定の障害が発生するまでの時間を算出する、
    処理を前記コンピュータに実行させることを特徴とする請求項7に記載の対処支援プログラム。
  9. 監視対象となるシステム内の対象機器の動作に関連する所定の種別のメッセージの発生タイミングから障害発生タイミングまでの経過時間を算出する算出部と、
    前記算出部によって算出された前記経過時間を出力する出力部と、
    を備えることを特徴とする対処支援装置。
  10. 監視対象となるシステム内の対象機器の動作に関連する所定の種別のメッセージの発生タイミングから障害発生タイミングまでの経過時間を算出し、
    算出した該経過時間を出力する、
    処理をコンピュータが実行することを特徴とする対処支援方法。
JP2013505648A 2011-03-18 2011-03-18 対処支援プログラム、対処支援装置および対処支援方法 Expired - Fee Related JP5708789B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/056657 WO2012127588A1 (ja) 2011-03-18 2011-03-18 対処支援プログラム、対処支援装置および対処支援方法

Publications (2)

Publication Number Publication Date
JPWO2012127588A1 true JPWO2012127588A1 (ja) 2014-07-24
JP5708789B2 JP5708789B2 (ja) 2015-04-30

Family

ID=46878785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013505648A Expired - Fee Related JP5708789B2 (ja) 2011-03-18 2011-03-18 対処支援プログラム、対処支援装置および対処支援方法

Country Status (3)

Country Link
US (1) US20140019795A1 (ja)
JP (1) JP5708789B2 (ja)
WO (1) WO2012127588A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914678B2 (en) * 2012-12-20 2014-12-16 Intel Mobile Communications GmbH Systems and methods for debugging model based message sequences
JP6126891B2 (ja) * 2013-03-29 2017-05-10 富士通株式会社 検出方法、検出プログラム、および検出装置
US9251029B2 (en) * 2013-09-30 2016-02-02 At&T Intellectual Property I, L.P. Locational prediction of failures
JP6311329B2 (ja) * 2014-01-29 2018-04-18 日本電気株式会社 情報処理装置、監視方法、及び、プログラム
JP6387777B2 (ja) * 2014-06-13 2018-09-12 富士通株式会社 評価プログラム、評価方法、および評価装置
US10963826B2 (en) 2015-03-31 2021-03-30 Mitsubishi Heavy Industries, Ltd. Work planning system, work planning method, decision-making support system, computer program, and storage medium
US20160342453A1 (en) * 2015-05-20 2016-11-24 Wanclouds, Inc. System and methods for anomaly detection
JP6589470B2 (ja) * 2015-09-04 2019-10-16 富士ゼロックス株式会社 スケジュール更新装置及びスケジュール更新プログラム
WO2017109821A1 (ja) * 2015-12-21 2017-06-29 株式会社日立製作所 計算機システムの管理システム及び管理方法
US10176034B2 (en) * 2016-02-16 2019-01-08 International Business Machines Corporation Event relationship analysis in fault management
JP6787045B2 (ja) * 2016-10-31 2020-11-18 富士通株式会社 検証支援プログラム、検証支援方法、および情報処理装置
US10467083B2 (en) * 2017-06-08 2019-11-05 International Business Machines Corporation Event relationship analysis in fault management
JP6512646B1 (ja) * 2018-02-13 2019-05-15 Necプラットフォームズ株式会社 保守管理装置、システム及びプログラム
US20220245045A1 (en) * 2019-07-04 2022-08-04 Nec Corporation Prediction method, prediction apparatus, and recording medium
US11586983B2 (en) * 2020-03-02 2023-02-21 Nxp B.V. Data processing system and method for acquiring data for training a machine learning model for use in monitoring the data processing system for anomalies
JP7332668B2 (ja) * 2021-10-29 2023-08-23 株式会社日立製作所 システム管理装置及びシステム管理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092688A (ja) * 1999-09-24 2001-04-06 Toshiba Corp 故障管理装置
US6738811B1 (en) * 2000-03-31 2004-05-18 Supermicro Computer, Inc. Method and architecture for monitoring the health of servers across data networks
US6996500B2 (en) * 2002-10-30 2006-02-07 Hewlett-Packard Development Company, L.P. Method for communicating diagnostic data
US7310742B2 (en) * 2004-06-30 2007-12-18 Intel Corporation Method and apparatus for performing disk diagnostics and repairs on remote clients
US7454316B2 (en) * 2004-10-08 2008-11-18 International Business Machines Corporation Method and apparatus for monitoring and enhancing on-chip microprocessor reliability
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
US7472038B2 (en) * 2007-04-16 2008-12-30 International Business Machines Corporation Method of predicting microprocessor lifetime reliability using architecture-level structure-aware techniques
JP2011002906A (ja) * 2009-06-16 2011-01-06 Fujitsu Ltd 監視プログラム、監視装置、および監視方法
JP5459472B2 (ja) * 2009-08-07 2014-04-02 日本電気株式会社 障害復旧装置、障害復旧方法、及びプログラム
CN104272266B (zh) * 2012-09-03 2016-11-09 株式会社日立制作所 对具有多个监视对象器件的计算机系统进行管理的管理系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、

Also Published As

Publication number Publication date
WO2012127588A1 (ja) 2012-09-27
JP5708789B2 (ja) 2015-04-30
US20140019795A1 (en) 2014-01-16

Similar Documents

Publication Publication Date Title
JP5708789B2 (ja) 対処支援プログラム、対処支援装置および対処支援方法
US20200293946A1 (en) Machine learning based incident classification and resolution
JP5444673B2 (ja) ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム
JP2019501448A (ja) 異種混成ログストリームにおける自動化された異常検出サービス
JP2018045403A (ja) 異常検知システム及び異常検知方法
US20090282481A1 (en) Methods, hardware products, and computer program products for implementing introspection data comparison utilizing hypervisor guest introspection data
Zhao et al. Automatically and adaptively identifying severe alerts for online service systems
CN111539493B (zh) 一种告警预测方法、装置、电子设备及存储介质
JPWO2009122525A1 (ja) トラブル対処システム、方法およびそのためのプログラム
KR20180068002A (ko) 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
US9270749B2 (en) Leveraging social media to assist in troubleshooting
JP2011002906A (ja) 監視プログラム、監視装置、および監視方法
JP2007073024A (ja) マクロ情報生成システム、マクロ情報生成装置、マクロ情報生成方法及びマクロ情報生成プログラム
US11301355B2 (en) Method, electronic device, and computer program product for analyzing log file
EP3699708B1 (en) Production facility monitoring device, production facility monitoring method, and production facility monitoring program
US11777982B1 (en) Multidimensional security situation real-time representation method and system and applicable to network security
CN110879771A (zh) 一种基于关键词序列挖掘的用户异常检测的日志分析系统
Zhang et al. Halo: Hierarchy-aware fault localization for cloud systems
CN110704390B (zh) 获取服务器维护脚本的方法、装置、电子设备及介质
CN115913710A (zh) 异常检测方法、装置、设备及存储介质
CN110417751B (zh) 一种网络安全预警方法、装置和存储介质
US20080151773A1 (en) Trouble-factor detecting device, trouble-factor detecting method, and computer product
US11822578B2 (en) Matching machine generated data entries to pattern clusters
CN117873839A (zh) 复杂算力系统的故障检测方法、装置、设备和存储介质
US8307405B2 (en) Methods, hardware products, and computer program products for implementing zero-trust policy in storage reports

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150216

R150 Certificate of patent or registration of utility model

Ref document number: 5708789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees