WO2004061681A1

WO2004061681A1 - 運用管理方法および運用管理サーバ

Info

Publication number: WO2004061681A1
Application number: PCT/JP2002/013719
Authority: WO
Inventors: Daisaku Takahashi; Yukiko Yoshii; Yoshiaki Kaku; Hitoshi Ono; Hiroshi Suzuki; Chiaki Kawashima
Original assignee: Fujitsu Limited
Priority date: 2002-12-26
Filing date: 2002-12-26
Publication date: 2004-07-22
Also published as: JP4318643B2; US7506195B2; AU2002359925A1; CN1650274A; AU2002359925B2; JPWO2004061681A1; EP1577783A1; US20050172162A1; EP1577783A4

Abstract

　障害箇所をソフトウェア単位で特定できるようにする。監視対象要素で発生したイベント情報を収集する（ステップＳＴ１）。次に、収集した複数のイベント情報をグループ化してイベントグループを生成する（ステップＳＴ２）。さらに、障害発生時に出力されるイベント情報の発生パターンが定義された複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンを照合する（ステップＳＴ３）。そして、イベント情報の発生パターンが類似するパターン定義グループに予め関連付けられた障害対策情報を抽出する（ステップＳＴ４）。

Description

明細書運用管理方法および運用管理サーバ技術分野

本発明は監視対象装置の運用管理行うための運用管理方法、運用管理サーバ、運用管理プログラム、および運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体に関し、特に監視対象装置の障害対策に有効な運用管理方法、運用管理サーバ、運用管理プログラム、および運用管理プログラムを記録したコンピュー夕読み取り可能な記録媒体に関する。背景技術

インターネット環境が普及している昨今では、システムの信頼性強化策としてシステムの多重化が行われている。システムを多重化することにより、一部のシステムに障害が発生しても、他のシステムを利用して支障なく運用を継続することができる。

一般に、サーバで障害等のイベントが発生すると、そのサーバから他の装置 (たとえば、運用管理サーバ）に対してメッセージが送信される。多重化されたシステムでは、 1つの障害が発生すると、障害が発生した機能に関連する他の機能からもエラ一メッセージが出力される。そのため、あるサーバで異常が発生した場合、エラーメッセージを出力するサーバは 1つとは限らず、関連する他のサ

—バからもエラーメッセージが出力される。

このように障害箇所とは別のサーバからもエラーメッセージが出力されると、障害箇所の特定が困難となる。従来は、ネットワーク等に精通した技術者が、過去の経験と照らし合わせて、障害箇所を特定していた。そのため、技術者の能力によっては、障害の復旧に長い時間を要する場合があった。このとき、企業内のネッ卜ワークが停止すると、その企業の業務遂行に多大な影響を及ぼす。'そのため、技術者の経験則に頼らずに、ネットワークを迅速に復旧できることが望まれていた。 - そこで、ネットワークの障害箇所と、その障害の発生時に発行される障害通知情報の時系列パターンとの対応関係をデータべ一スに保持し、実際にネッ卜ヮークから通知される障害通知情報とデータべ一スの内容とを照合することで障害箇所を特定する発明が考えられた。これにより、障害箇所を自動的に特定することができ、ネットワークを迅速に復旧させることができる。たとえば、特開 2 0 0 1 - 2 5 7 6 7 7号公報（第 1図）参照。

しかし、特開 2 0 0 1—2 5 7 6 7 7号公報（第 1図）で対象としている障害は、ネッ卜ワーク上の通信障害であるため、サーバ上で実行されるアプリケーシヨン等の障害については考慮されていない。したがって、サーバ上で実行されるアプリケーション、ミドルウェア、 O S (Operating System)等が発生したエラーメッセ一ジを利用した障害箇所の判定までは行われていない。

すなわち、 1つの障害に関し、 1つのサーバから複数のエラーメッセージが出力される場合、従来の技術では障害箇所を特定することができない。たとえば、サ一バ上で実行されていたアプリケーションが停止した場合、アプリケ一シヨン自身がエラーメッセージを出力すると共に、そのアプリケーションに関連するミドルウェアや O Sもエラ一メッセージを出力する場合がある。しかも、複数のサーバが連携して動作している場合、障害の発生原因となったアプリケ一ションが実行されるサーバとは異なるサーバ上のァプリケーシヨンからエラ一メッセ一ジが出されることもある。

このように、多機能のコンピュータシステム上で障害が発生すると、 1つの障害に対して、複数のサーバ上の様々なアプリケーションからエラーメッセージが出力される。そのため、個別のメッセージを参照しただけでは、エラ一の原因やエラーの発生場所を、サーバ内のソフトウェア単位で特定するのが困難である。さらに、マルチタスク、マルチスレッド等のシステム環境では、メモリ管理等の問題により、個別のアプリケ一シヨンでは異常になっていないにも拘わらず、性能が低下したり、使用しているミドルウェアが原因不明でストップしたり等の障害が発生する。このような場合、障害が表面化したソフトウェアとは別の部分に原因が存在し、その原因を特定するのがさらに困難となっている。発明の開示

本発明はこのような点に鑑みてなされたものであり、—障害箇所をソフトウェア単位で特定できる運用管理方法、運用管理サーバ、運用管理プログラム、および運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。

本発明では上記課題を解決するために、図 1に示すような運用管理方法が提供される。本発明に係る運用管理方法は、運用管理を行うためのものである。運用管理方法では、以下の処理が行われる。まず、サーバで実行される複数の機能を監視対象要素として、監視対象要素で発生したイベント情報を収集する（ステツプ S T 1 ) 。次に、収集した複数のイベント情報をグループィヒしてイベントダループを生成する（ステップ S T 2 ) 。さらに、障害発生時に複数の監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンを照合する（ステップ S T 3 ) 。そして、イベントグループに対してイベント情報の発生パターンが類似するパターン定義グループに予め関連付けられ、嫜害原因となる前記監視対象要素を示す障害対策情報を抽出する（ステップ S T 4 ) 。

このような運用管理方法によれば、監視対象要素で発生したィベント情報が収集、グループ化され、イベントグループが生成される。すると、複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンが照合され、発生パターンが類似するパターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報が抽出される。

また、上記課題を解決するために、サーバの運用管理を行うための運用管理方法において、前記サーバに対して入力されたコマンドを収集し、収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、ことを特徴とする運用管理方法が提供される。このような運用管理方法によれば、サーバに対して入力されたコマンドが収集、グループ化され、操作履歴情報が生成される。次に、操作パターン情報と操作履歴情報との間でコマンドのパターンが照合され、入力パターンが類似する操作パ夕一ン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報が抽出される。

本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。図面の簡単な説明

図 1は、実施の形態に適用される発明の概念図である。

図 2は、トラブル情報回帰型解決方法の運用例を示す図である。

図 3は、メッセージ正規化処理を示す図である。

図 4は、構成管理データの構造例を示す図である。

図 5は、ィベント情報のグループ化処理を示す概念図である。

図 6は、照合処理を示す模式図である。

図 7は、イベントグループの照合および対策情報出力例を示す図である。

図 8は、照合結果のソート手順を示す図である。

図 9は、照合部における処理手順を示すフローチャートである。

図 1 0は、障害検出機能を提供するためのシステム構成例を示す図である。図 1 1は、本発明の実施の形態に用いる運用管理サーバのハードウェア構成例を示す図である。

図 1 2は、運用管理サーバの内部構成を示すブロック図である。

図 1 3は、ハードウェア構成情報のデータ構造例を示す図である。

図 1 4は、ソフトウェア構成情報のデータ構造例を示す図である。

図 1 5は、ネットワーク構成情報のデータ構造例を示す図である。

図 1 6は、システム構成情報のデ一夕構造例を示す図である。

図 1 7は、メッセ一ジグループ化処理の手順を示すフロ一チャートである。図 1 8は、イベントグループ化例を示す図である。

図 1 9は、イベントグループログのデータ構造例を示す図である。図 2 0は、顧客 D Bのデータ構造例を示す図である。

図 2 1は、事象パターン D Bのデータ構造例を示す図である。

図 2 2は、当日事象ログのデータ構造例を示す図である。

図 2 3は、当日イベントグループログのデータ構造例を示す図である。

図 2 4は、パターンマッチング処理の手順を示すフローチャートである。図 2 5は、前処理の詳細を示すフローチャートである。

図 2 6は、重複イベントフィルタリング処理の手順を示すフローチャートである。 ' 図 2 7は、事象パターン抽出処理の手順を示すフローチャートである。

図 2 8は、仮想事象パターン D Bのデータ構造例を示す図である。

図 2 9は、組み合わせマッチング処理の手順を示すフローチャートである。図 3 0は、情報提供処理の手順を示すフローチャートである。

図 3 1は、過去の事象確認処理の手順を示すフローチャートである。

図 3 2は、後処理の手順を示すフローチャートである。

図 3 3は、情報の流れを示す図である。

図 3 4は、イベントグループ検索画面の一例を示す図である。

図 3 5は、イベント選択画面の例を示す図である。

図 3 6は、分析結果表示画面の例を示す図である。

図 3 7は、履歴テーブルのデータ構造例を示す図である。

図 3 8は、操作パターン D Bのデータ構造例を示す図である。発明を実施するための最良の形態

以下、本発明の実施の形態を図面を参照して説明する。

まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。

図 1は、実施の形態に適用される発明の概念図である。図 1では、運用管理サーバ 1が、本発明に係る運用管理方法を実行する。運用管理サーバ 1は、複数のサーバ 2 ~ 4に接続されている。サーバ 2では、アプリケーション 2 a、ミドルウェア 2 b、および O S 2 cが実行されている。アプリケーション 2 a、ミドルウェア 2 b、および O S 2 cが、運用管理サーバ 1による監視対処要素である。他のサーバ 3 , 4においても、.同様のソフトウェアが実行されている。

また、運用管理サーバ 1には、予めパターン定義グループデータベース（D B ) 1 aと障害対策情報データベース（D B) l bとが設けられている。パターン定義グループ D B 1 aには、障害発生時に複数の監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループが格納されている。障害対策情報 D B 1 bには、パターン定義グループに予め関連付けられ、障害原因となる監視対象要素を示す障害対策情報が格納されている。障害対策情報には、障害箇所、障害原因、障害に対する対策方法が含まれる。ここで、運用管理サーバ 1は、以下の処理を実行する。

運用管理サーバ 1は、まず、サーバで実行される複数の機能を監視対象要素として、監視対象要素で発生したイベント情報を収集する（ステップ S T 1 ) 。次に、運用管理サーバ 1は、収集した複数のイベント情報をグループィ匕してィベントグル一プを生成する（ステップ S T 2 ) 。さらに、運用管理サーバ 1は、パタ —ン定義グループ D B 1 a内の各パターン定義グループとイベントグループとの間でイベント情報の発生パターンを照合する（ステップ S T 3 ) 。そして、運用管理サ一パ 1は、イベントグループに対してィベント情報の発生パターンが類似するパターン定義グループに予め関連付けられ、障害原因となる監視対象要素を示す障害対策情報を、障害対策情報 D B 1 bから抽出する（ステップ S T 4 ) 。ここで、イベント情報の発生パターンが類似する場合とは、たとえば、共通のィベント情報が少なくとも 1つ存在する場合である。

このような運用管理方法によれば、監視対象要素で発生したィベント情報が収集、グループ化され、イベントグループが生成される。すると、複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンが照合される。次に、発生パターンが類似するパターン定義グループに予め関連付けられた障害対策情報が抽出される。

これにより、抽出された障害対策情報に基づいて、障害箇所、障害原因、障害に対する対策方法を、運用管理サーバの管理者が認識することができる。なお、該当するパタ一ン定義グループが発見されなかったイベントグループに関しては、障害解決後、対応するパターン定義グループをパターン定義グループ D B 1 aに格納し、障害対策情報を障害対策情報 D B 1 bに格納する。これにより、障害の対策方法等が、障害解決を行う作業者に適宜フィードバック（再利用）される。このような運用管理方法を用いれば、作業者の能力に拘わらず、障害の解決時間を短縮することができる。しかも、過去の障害の内容をパターン定義グループや障害対策情報として蓄積することで、 2度目以降の障害に対して、迅速に対応することができる。また、新規の障害を発見し、修復したときは、その内容をパターン定義グループや障害対策情報に反映させておけば、人づてに障害報告を行う必要が無くなる。その結果、人為的な不手際によるトラブルシューティングの長期化を防止することができる。

次に、本実施の形態における障害検出機能（トラブル情報回帰型解決方法）の概念を説明する。

図 2は、トラブル情報回帰型解決方法の運用例を示す図である。図 2に示す様に複数のサーバ 1 1 , 1 2と運用管理サーバ 2 0とがネットワーク 1 3で接続されている。サ一バ 1 1には、ハード監視、ソフト監視、性能監視、セキュリティ監視、および構成監視等の監視機能が組み込まれている。サーバ 1 2にも同様の監視機能が組み込まれている。

ハ一ド監視機能は、サーバ内のハードウェアの動作（たとえば、ハードデイスク装置の書き込みエラー発生率等）を監視する。ソフト監視機能は、各ソフトゥエア（〇S、ミドルウェア、アプリケーション）毎に設けられ、対応するソフトウェアの動作を監視する。性能監視機能は、動作状態（たとえば、メモリの空き容量）を監視する。セキュリティ監視機能は、サーバ 1 1に対する不正アクセス等を監視する。構成監視機能は、サーバ 1 1の構成変更等を監視する。

各監視機能は、エラ一などの所定の事象が発生すると、エラーイベントを発生させる。エラーイベントの内容を示すイベント情報がメッセージ 3 1， 3 2として、ネットワーク 1 3を介して運用管理サーバ 2 0に送られる。メッセージ 3 1， 3 2には、たとえば、サーバ 1 1 , 1 2が発生するログ情報や、構成変更等の情報が含まれる。

運用管理サーバ 2 0は、イベント抽出テーブル 2 1、パターン定義グループ 2 2、対策情報テーブル 2 3、メッセージ正規化部 2 4、グループ化部 2 5、照合部 2 6、―および対策出力部 2 7を有している。 .—

イベント抽出テーブル 2 1は、受信したメッセージから必要なイベント情報を抽出するための規則が定義された情報テーブルである。

パターン定義グループ 2 2は、障害発生時に検出されるべきイベントの組み合わせを定義した情報である。

対策情報テーブル 2 3は、障害発生時のイベントパターンに応じた障害対策に関する情報が登録された情報テーブルである。

メッセージ正規化部 2 4は、サーバ 1 1， 1 2からのメッセージを受け取り、所定のデータ構造に正規化する。具体的には、メッセージ正規化部 2 4は、メッセージを受け取ると、イベント抽出テーブル 2 1を参照し、受信したメッセージに適用すべきイベント情報の抽出規則を取得する。そして、メッセージ正規化部 2 4は、取得した規則に従って、メッセージからイベント情報を抽出する。

グループ化部 2 5は、メッセージ正規化部 2 4で抽出されたイベント情報を、関連性のあるもの同士でグループ化する。たとえば、監視対象要素同士（装置、

〇s、ミドルウェア、アプリケーション等）の関連性が予め定義されており、関連する監視対象要素から短時間（具体的な時間は、予め設定されている）に出力されたメッセージのイベント情報は、互いに関連するものと判断する。グループ化部 2 5がイベント情報のグループ化を行った結果、イベントグループ 3 3が生成される。イベントグループ 3 3は、関連のあるイベント情報の集合である。照合部 2 6は、イベントグループ 3 3とパターン定義グループ 2 2とを照合し、イベントグループ 3 3と同一もしくは類似のパターン定義グループ 2 2を検出する。

対策出力部 2 7は、対策情報テーブル 2 3を参照し、検出されたパターン定義グループ 2 2に対応する対策情報を取得する。そして、対策出力部 2 7は、取得した対策情報を、運用管理サーバ 2 0に接続された端末装置等に表示させる。このような構成のシステムにおいて、サーバ 1 1， 1 2から出力され運用管理サーバ 2 0に入力されたメッセージ 3 1 , 3 2は、以下のように処理される。まず、メッセージ 3 1 , 3 2は、メッセージ正規化部 2 4により正規化され、イベント情報が生成される。

図.3は、メッセージ正規化処理を示す図である。図 3の例では、メッセージ 3 1 , 3 2はシリアル N o . 、時刻、ホスト名、およびイベント内容の情報を含んでいる。シリアル N o . は、メッセージを一意に識別するための識別番号である。時間は、イベントの発生時刻である。ホスト名は、メッセージを出力したサーバのネットワーク 1 3上での名称である。イベント内容は、サーバ内の監視機能を出力したイベントの内容である。

このようなメッセージ 3 1 , 3 2をメッセージ正規化部 2 4が受け取ると、メッセ一ジ正規化部 2 4は、イベント抽出テ一ブル 2 1を参照する。

イベント抽出テーブル 2 1には、 HW (ハードウェア）または S W (ソフトゥエア）名、キーワード、抽出方法の欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連づけられて、メッセージ情報の抽出規則を構成している。 HWまたは S W名は、イベントの発生原因となった要素の名称である。キーワードは、イベントの発生原因となる要素を特定するための情報である。抽出方法は、メッセージから必要なエラーコードを抽出するための規則である。

メッセージ正規化部 2 4は、イベント抽出テーブル 2 1を参照することで、メッセ一ジ 3 1， 3 2からイベント情報 3 1 a , 3 2 aを生成することができる。具体的には、メッセージ 3 1 , 3 2を受け取ると、メッセージ正規化部 2 4は、イベント抽出テーブル 2 1のキーワード欄を参照し、イベント本文に含まれるキ一ワードを検索する。メッセージ正規化部 2 4は、検出されたキーワードに対応する抽出方法を参照し、その抽出方法に従って、イベント内容から必要なエラーコードを抽出する。

たとえば、メッセージ 3 1が入力されると、イベント抽出テーブル 2 1からキ一ワード「Kernel」が検出される。そこで、そのキーワードに対応する抽出方法门の後ろのスペース以降" ： " が入るまで」に従って、エラーコード「 WARNING 999」が抽出される。

メッセージ正規化部 ₂ 4は、エラ一コードを含むイベント情報 3 1 a， 3 2 a を生成する。イベント情報 3 1 a， 3 2 aには、シリアル N o . 、時刻、ホスト名、 HWまたは S W名およびエラーコードが含まれる。シリアル N o . 、時刻、およびホスト名については、メッセージ 3 1 , 3 2から抽出される。 HWまたは S W名およびエラ一コ_ードは、.イベント抽出テーブル 2 1内の検出されたキーヮ一ドに関連付けられた情報である。

このようにして、正規化されたイベント情報 3 1 a， 3 2 aが抽出される。次に、グループ化部 2 5により、関連するイベント情報がグループ化される。たとえば、グループィヒ部 2 5は、監視対象要素同士の関連性が予め定義された構成管理データを有する。

図 4は、構成管理データの構造例を示す図である。図 4に示す構成管理データでは、監視対象要素が階層構造で管理されている。上層からシステム 5 1 , 5 2、ルータ 5 3， 5 4、サーバ 5 5〜5 9およびストレージ 6 0、ミドルウェア 6 1 〜6 3、アプリケーション 6 4〜6 6の順となっている。

システム 5 1 , 5 2は、たとえば、顧客毎のネットワークシステムを示す。ル —夕 5 3 , 5 4は、システム 5 1 , 5 2に関連付けられており、システム 5 1 , 5 2にアクセスするためのバケツトを中継するルータの識別情報を示している。サーバ 5 5〜5 9は、ルー夕 5 3 , 5 4に関連付けられており、システム 5 1 , 5 2内に構築されたサーバの識別情報を示している。ストレージ 6 0は、ルー夕 5 4に関連付けられており、システム 5 2内のストレージデバイスの識別情報を示している。ミドルウェア 6 1〜6 3は、サ一バ 5 5に関連付けられており、サ —バ 5 5に実装されたミドルウェアの識別情報を示している。アプリケーション 6 4〜6 6は、ミドルウェア 6 1に関連付けられており、そのミドルウェア 6 1 で管理されているアプリケーションソフトウエアの識別情報を示している。

このように、監視対象要素間の関連づけをグループ化部 2 5に定義しておくことで、グループ化部 2 5は、関連性のあるイベント情報を判別することができる。すなわち、グループィ匕部 2 5は、木構造の祖孫関係で関係づけられた監視対象要素から出力されたイベント情報同士が、互いに関連するものと判断する。

なお、図 4に示した構成管理データを、保守作業中に関するイベント抑止に利用することもできる。すなわち、保守作業を行う場合、監視対象要素のイベント発生を抑止しておく必要がある。そのとき、保守作業対象である監視対象要素よりも下位に位置する監視対象要素からのイベント発生も抑止することが望まれる。すなわち、上位の監視対象要素（たとえば、ミドルウェア）の保守作業中は、下位の監視対象要素（たとえば、アプリケーション）において障害が発生していなくても、エラーイベントが出力される場合がある。そこで、保守作業時には、作業対象よりも下位の監視対象要素におけるイベント発生を抑止しておくことで、保守作業中の無^:なイベント出力を停止させることができる。

たとえば、図 4に示したルー夕 5 3を保守する場合、ル一夕 5 3の下位に属するサーバ 5 5〜 5 7、ミドルウェア 6 1〜6 3、アプリケーション 6 4〜 6 6が、保守時のエラー発生対象として想定される。したがって、これらの下位構造からのイベント出力を抑止する。なお、イベント抑止のために、グループ化部 2 5は、保守作業を行う監視対象要素が指定されると、構成管理データに基づいて抑止対象を選定する。そして、グループ化部 2 5は、抑止時間を指定して、イベント発生抑止の情報を、抑止対象となる監視対象要素に対して送信する。

また、保守作業時に、保守対象からイベントが発生することもある。このとき発生したイベントはグループ化され、保守対象異常時のパターン定義グループとして保持される。

このように、グループ化部 2 5は、構成管理データを利用して、イベント情報同士の関連性を判断し、ィベント情報のグループィ匕を行う。

図 5は、イベント情報のグループ化処理を示す概念図である。図 5に示すように、メッセージ正規化部 2 4で正規化されたイベント情報 7 1〜7 3がグループ化部 2 5に入力されると、関連するイベント情報によりイベントグループ 3 3が生成される。イベントグループ 3 3には、各イベントグループを一意に識別するための I D (識別子）が振られている。他の内容は、イベント情報と同じである。生成されたイベントグループ 3 3は、照合部 2 6に渡される。照合部 2 6では、イベントグループ 3 3とパターン定義グループ 2 2との照合が行われる。

図 6は、照合処理を示す模式図である。パターン定義グループ 2 2には、ハ一ドウエア事象、 O S事象、ミドルウェア、アプリケーションから、障害発生時に出力されるイベントの組み合わせが登録されている。照合部 2 6は、このパターン定義グループ 2 2とイベントグループ 3 3とを照合（マッチング）することで、イベントグループ 3 3の発生原因となった障害を判定する。イベントグループ 3 3に対応するパターン定義グループが特定されると、そのパターン定義グループに対応する対策情報が抽出される。

図 7は、イベントグループの照合および対策情報出力例を示す図である。図 7 に示すように、イベントグループ 3 3 aの HWまたは S W名およびエラーコードの項目と、パターン定義グループ 2 2 aの HWまたは S W名およびエラーコードの項目が一致している。そこで、対策出力部 2 7は、パターン定義グループ 2 2 aの I D 「PT0008」に対応する対策情報を、対策情報テーブル 2 3から検索する。

対策情報テ一ブル 2 3には、 I D、原因、対策、緊急レベルの欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連づけられている。 I Dは、対策情報を一意に識別するための識別情報である。対策情報の I Dは、対応するパターン定義グループの I Dの下 4桁が共通となっている。すなわち、 I D 「PT0008」のパターン定義グループには、 I D 「000008」の対策情報 2 3 aが対応する。原因は、障害の原因を示す情報であり、原因となる監視対象要素（たとえば、ディスク）に関する情報を含んでいる。対策は、障害に対する対策方法を示す情報である。緊急レベルは、障害の重要度を示しており、緊急に対処する必要がある障害ほど、緊急レベルの値が大きい。

図 7の例では、パターン定義グループ 2 2 aに対応する対策情報が対策出力部 2 7によって抽出される。対策情報 2 3 aによれば、障害の原因は「ディスク破損によるクラスタ切り替えが発生した。」ことであり、対策方法は「システム復旧後 D Bのリカバリを実行してください。」である。また、この対策情報の緊急レベルは「2」である。

なお、照合部 2 6は、イベントグループと完全に一致するパターン定義グループを抽出するだけではなく、類似するパターン定義グループも抽出する。この際、照合部 2 6は、抽出したパターン定義テーブルに一致数と端数との情報を付与する。一致数は、一致したイベント情報の数である。端数は、不一致のイベント情報の数である。パターン定義グループ内のイベント情報が不足している場合、端数の符号がマイナスとなる。また、パターン定義グループ内のイベント情報が過多である場合、端数の符号がプラスとなる。対策出力部 27は、対策情報を表示する際に、対応するパターン定義グループとイベントグループと ©—致数や端数に応てソートして、各パターン定義ダループの対策情報を表示する。

図 8は、照合結果のソート手順を示す図である。図 8では、イベントグループ 81と 6つのパ夕一ン定義グループとを照合している。なお、パターン定義ダル —プの IDを、それぞれ PT 1、 ΡΤ2、 ΡΤ3、 ΡΤ4、 ΡΤ5、 ΡΤ6とする。

[ST 1] まず、照合部 26が、イベントグループ 81と各パターン定義ダル一プとを照合する。図 8の例では、イベントグループ 81には、イベント情報「a, b, c, d」が含まれる。 I D 「PT1」のパターン定義グループには、イベント情報「a， b, c」が含まれる。 I D 「PT2」のパターン定義ダレープには、イベント情報「a, c」が含まれる。 ID 「PT3」のパターン定義グループには、イベント情報「a， X, y， x, q」が含まれる。 I D 「PT4」のパターン定義グループには、イベント情報「a, b， c, d, y」が含まれる。 ID 「PT5」のパターン定義グループには、イベント情報「a, b， c, d」が含まれる。 ID 「PT6」のパターン定義グループには、イベント情報「d」が含まれる。

各パターン定義グループの照合の結果、各パターン定義グループの一致数と端数とが算出される。 I D 「PT1」のパターン定義グループは、一致数「3」、端数「一 1」である。 I D 「ΡΤ2」のパターン定義グループは、一致数「2」、端数「_2」である。 ID 「PT3」のパターン定義グループは、一致数「1」、端数「+4」である。 I D 「PT4」のパターン定義グループは、一致数「4」、端数「+ 1」である。 ID 「PT5」のパターン定義グループは、一致数「4」、端数「0」である。 ID 「PT6」のパターン定義グループは、一致数「1」、端数「一 3」である。

[ST2] 照合結果を受け取った対策出力部 27は、まず、一致数によりパタ —ン定義グループをソートする。この場合、一致数が多いほど、上位に並べられる。すると、「ΡΤ4」、「ΡΤ5」、「ΡΤ1」、「ΡΤ2」、「ΡΤ3」、「ΡΤ6」の順となる。 [ST 3] 次に、対策出力部 27は、端数によりソートする。この場合、端数の絶対値が少ないほど、上位にべられる。すると、「PT5」、「ΡΤ4」、「ΡΤ 1」、「ΡΤ2」、「ΡΤ6」、「ΡΤ3」の順となる。

[ST4] 最後に対策出力部 27は、各パターン定義グループに対応する対策情報における緊急レベルを参照する。そして、緊急レベルが所定値より高い（緊急レベルを示す値が大きい）対策情報を、強調表示対象とする。たとえば「ΡΤ 2」と「ΡΤ5」とのパターン定義グループに関する対策情報の緊急レベルが高ければ、それらの対策情報が強調表示対象となる。

対策出力部 27は、監視対象システムで発生したイベントに対する対策情報を、ソート順に表示すると共に、表徴表示対象となっている対策情報を強調表示する。強調表示手段としては、たとえば、他の対策情報とは異なる色で表示する。

図 9は、照合部における処理手順を示すフローチヤ一トである。以下、図 9に示す処理をステップ番号に沿って説明する。

[ステップ S 101] 照合部 26は、イベントグループ 33を取得する。このとき、取得したイベントグループ 33に含まれるイベント情報の数を Ν (Νは自然数）とする。

[ステップ S 102] 照合部 26は、重複イベントフィルタリングを行い、複数のパターン定義ダル一プ 22が格納されたデ一夕ベースから、仮想テーブルを作成する。仮想テーブルは、処理対象となるシステムに適用可能なパターン定義グループ 22のみを抽出したデータベースである。なお、仮想テーブルは、各システムに発生し得る共通のパターン定義グループが格納されたデータベース、顧客毎のシステム構成に応じて発生し得るパターン定義グループが格納されたデー夕ベース、およびパターン定義グループに対応する障害情報が格納されたデータベース等で構成される。

[ステップ S 103] 照合部 26は、変数 Iに 1を設定し（1 = 1) 、変数 J に Nを設定する（J=N) 。その後、ステップ S 104〜S 106の処理が並列に実行される。

[ステップ S 104] 照合部 26は、障害情報格納されたデータベースから、 I番目のイベント情報に関連付けられた障害情報を検索する。 [ステップ S 105] 照合部 26は、顧客毎のシステム構成に応じて発生し得るやパターン定義グループが格納されたデータベースから、 I番目のイベント情報に関連付けられたパターン定義グループを検索する。

[ステップ S 106] 照合部 26は、各システムに発生し得る共通のパターン定義グループが格納されたデータベースから、 I番目のイベント情報に関連付けられたパターン定義グループを検索する。

[ステップ S 107] 照合部 26は、 J= Iか否かを判断する。 J = Iであれば処理がステップ S 109に進められ、そうでなければ処理がステップ S 108 に進められる。

[ステップ S 108] 照合部 26は、 Iをインクリメントする（I = I + 1) 。その後、ステップ S 104：〜 S 106の処理に進められる。

[ステップ S 109] 照合部 2'6は、 Iに 1を設定し（1 = 1) 、変数 Jに検出されたパターン定義グループ数を設定する。

[ステップ S 1 10] 照合部 26は、ステップ S 105, S 106で検出された I番目のパターン定義グループを選択し、イベントグループと重複するィベント情報を抽出し、その数を数える。

[ステップ S 111] 照合部 26は、 I = Jか否かを判断する。 J =- Iであれば処理がステップ S 113に進められ、そうでなければ処理がステップ S 112 に進められる。

[ステップ S 112] 照合部 26は、 Iをインクリメントする（I = I + 1) 。その後、ステップ S 110の処理に進められる。

[ステップ S 113] 照合部 26は、イベントをソートする。

[ステップ S 114] 照合部 26は、過去の同一事象の有無を確認する。

[ステップ S 1 15] 対策出力部 27は、イベント情報の少なくとも一部が一致したパターン定義グループの対策情報（障害原因や対策方法を含む）を表示する。

以上のようにして、システム内で発生したイベントの情報を集めてイベントグループに応じて、障害原因や対策方法を自動的に特定することができる。

このように、パターン定義グループを蓄積しておくことで、過去に発生したトラブルと同様のトラブルを早期に発見することが可能となる。しかも、原因や対処方法を関連付けておぐ^とで、トラ.ブ ikシユーティングの時間が短縮される。さらに、多数の顧客のパターン定義グループ等を一元管理して、運用管理サーバの管理者がパターン定義グループ等を適宜更新することで、各顧客は、他の顧客で発生したトラブルに関するパターン定義グループを利用し、障害を発見することができる。運用管理サーバの管理者は、システム運用者の運用形態や、ソフトウエア開発者から提供される情報等を元に、パターン定義グループを登録することで、高品質のサーバ運用監視サービスを提供することができる。

次に、以上のような障害検出機能を有する運用管理サーバを用いて、顧客システムの遠隔保守サービスを行う場合の具体例を詳細に説明する。

図 10は、障害検出機能を提供するためのシステム構成例を示す図である。図 10の例では、運用管理サーバ 100は、ネットワーク 14を介して中継装置 2 10に接続されている。中継装置 210には、複数のサーバ 220, 230, 2 40が接続されている。なお、中継装置 210とサーバ 220， 230, 240 とは、顧客のシステムである。運用管理サーバ 100には、パターンマッチングエンジン 110が設けられている。パターンマッチングエンジン 110が、サーバ 220, 230, 240からのメッセージを収集し、パターン定義グループとのパターンマッチングを行い、対策情報を出力する。

図 11は、本発明の実施の形態に用いる運用管理サーバのハ一ドウエア構成例を示す図である。運用管理サーバ 100は、 CP U(Central Processing Unit) 1 01によって装置全体が制御されている。 CPU 101には、バス 107を介して R AM(Random Access Memory) 1 02、ハ一ドディスクドライブ（HD D:Hard Disk Drive) 103、グラフィック処理装置 104、入力インタフエ一ス 105、および通信インタフェース 106が接続されている。

RAMI 02には、 C P U 101に実行させる O S (Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、 RAM 102には、 C PU 101による処理に必要な各種データが格納される。 HDD 103には、 OSやアプリケーションプログラムが格納される。グラフィック処理装置 104には、モニタ 1 11が接続されている。グラフィック処理装置 104は、 CPU 101からの命令に従って、画像をモニタ 1 11 の画面に表示させる。入力インタフェース丄 05には、キ一ポ一 HI 12とマウス 1 13とが接続されている。入力インタフェース 105は、キーボード 112 やマウス 113から送られてくる信号を、バス 107を介して CPU 101に送信する。

通信インタフェース 106は、ネットワーク 14に接続されている。通信インタフエース 106は、ネットワーク 14を介して、他のコンピュータとの間でデ一夕の送受信を行う。

以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図 11には、運用管理サーバ 100のハ一ドウエア構成について説明したが、中継装置 210やサーバ 220， 230, 240も同様のハ一ドウエア構成で実現することができる。

図 12は、運用管理サーバの内部構成を示すブロック図である。図 12に示すように運用管理サーバ 100は、パターンマッチングエンジン 110、イベントグループ 121、顧客 DB (データベース） 122、各種構成情報 DB 123、事象パターン DB 124、仮想事象パターン DB 125、情報抽出部 130、環境設定部 140、当日事象ログ 151、当月事象ログ 152、当日イベントダル —プログ 153、当月イベントグループログ 154、および結果格納ファイル 1 55を有している。

パターンマッチングエンジン 110は、他の機能と連携してパターンマツチング処理全体を制御する。

イベントグル一プ 121は、サーバ 220, 230, 240から送られたメッセージによつて構成されたイベントグループである。

顧客 DB 122には、顧客に関する情報が格納される。

各種構成情報 DB 123には、顧客のシステム構成（ハードウェアとソフトウエア）に関する情報が格納される。

事象パターン DB 124は、サーポ一トしているシステムで想定される障害に関する事象パターン（パターン定義グループと対策情報）が格納されたデータべースである。仮想事象パターン D B 1 2 5は、顧客のシステム構成に応じて事象パターン D B 1 2 4から抽出された事象パターンである。

情報抽出部 1 3 0は、事象パターン D B 1 2 4から、サービス対象の顧客のシステムに関係する事象パターンのみを抽出し、仮想事象パターン D B 1 2 5を構築する。

当日事象ログ 1 5 1は、当日発生した障害等に応じた事象パターンの識別情報や照合結果等を格納する記憶領域である。

当月事象ログ 1 5 2は、当月発生した障害等に応じた事象パターンの識別情報や照合結果等を格納する記憶領域である。

当日イベントグループログ 1 5 3は、当日発生したイベントグループを格納する記憶領域である。

当月イベントグループログ 1 5 4は、当月発生したイベントグループを格納する記憶領域である。

結果格納ファイル 1 5 5は、イベントグループに応じて検出された対策情報のリストである。

なお、各種構成情報 D B 1 2 3には、ハードウェア構成情報、ソフトウェア構成情報、ネットワーク構成情報、およびシステム構成情報が含まれる。各構成情報は、相互リンクのための情報を有している。

図 1 3は、ハードウェア構成情報のデ一夕構造例を示す図である。ハードゥエァ構成情報 1 2 3 aには、機器 I D、システム名、ホスト名、製品名、 C P U数、メモリ（M E M) 容量、ディスク（D i s k)容量、 L AN数の欄が設けられている。

機器 I Dは、サーバとして動作しているコンピュータの識別情報である。この機器 I Dは、システム内部でホスト名の長さに影響されないように割り当てられたコードである。システム名は、サーバが従属するシステム（サービスの種別）の名称である。ホスト名は、ネットワーク上、あるいな管理上決められたサーバの識別名である。製品名は、サーバとして動作しているコンピュータの製品名である。 C P U数は、サーバに実装されている C P Uの数である。メモリ（M E M) 容量は、サーバに実装されているメインメモリの記憶容量である。ディスク (D i s k)容量は、サーバに接続されているハードディスク装置の記憶容量である。 L AN数は、サーバに実装されていネットワークインタフェースの数である。

図 1 4は、ソフトウェア構成情報のデータ構造例を示す図である。ソフトゥェァ構成情報 1 2 3 bには、機器 I D、ソフトウェア（ソフト）種別、ソフトゥェァ名、版数、修正版数の欄が設けられている。

機器 I Dは、ハードウェア構成情報 1 2 3 aの機器 I Dと同じ項目であり、この機器 I Dよって互いの情報が関連付けられる。ソフトウェア種別は、ソフトゥエアの種別（O S、ミドルウェア、アプリケーション等）を示している。ソフトウェア名は、ソフトウェアの名称である。版数は、ソフトウェアのバ一ジョン番号である。修正版数は、ソフトウェアに対して適用した障害修正データ（パッチ）の版数である。

図 1 5は、ネットワーク構成情報のデータ構造例を示す図である。ネットヮ一ク構成情報 1 2 3 cには、顧客コード、機器 I D、ホスト名、 I P、インタフエ —ス名、 I P種別の欄が設けられている。'顧客コードは、システムを運用している顧客の識別情報である。機器 I Dは、ハードウェア構成情報 1 2 3 aゃソフ卜ウェア構成情報 1 2 3 bの機器 I Dと同じ項目であり、この機器 I Dよって互いの情報が関連付けられる。ホスト名は、ハードウェア構成情報 1 2 3 aのホスト名と同じ項目である。 I Pは、システムの I Pアドレスである。インタフェース名は、装置内で各ネットワークインタフェースに割り当てられた識別番号である。

I P種別は、 I Pアドレスの種別である。 I P種別には、 V (VertuaDと R (Real) とがある。 V(Vertual)は、仮想 I Pアドレスを示す。 R(Real)は、実 I Pァドレスを示す。

図 1 6は、システム構成情報のデータ構造例を示す図である。システム構成情報 1 2 3 dには、顧客コード、機器 I D、関連ホスト名、関連種別、関連ソフトの欄が設けられている。顧客コーは、ネットワーク構成情報 1 2 3 cの顧客コードと同じ項目である。機器 I Dは、ハードウェア構成情報 1 2 3 a、ソフトゥエア構成情報 1 2 3 bおよびネッ卜ワーク構成情報 1 2 3 cの機器 I Dと同じ項目であり、この機器 I Dよって互いの情報が関連付けられる。関連ホスト名は、関連するコンピュータの機器 I Dである。関連ホスト名に P P 9 9 9 9が設定された場合、他の機器との関連性がないことが示される。

このような構成の運用管理サーバ 1 0 0において、以下の様な処理が行われる。まず、メッセージグループ化処理について説明する。

図 1 7は、メッセ一ジグループ化処理の手順を示すフローチャートである。以下、図 1 7に示す処理をステップ番号に沿って説明する。

[ステップ S 1 ] 情報抽出部 1 3 0は、メッセージを取得する。すなわち、ェラーが発生したサーバからエラーイベントが発生すると、エラーイベントの内容を示すメッセージがサーバから運用管理サーバ 1 0 0へ送られる。運用管理サーノ 1 0 0では、そのメッセージがパターンマッチングエンジン 1 1 0に入力される。

[ステップ S 2 ] 情報抽出部 1 3 0は、メッセージを整形（正規化）すると共に、各種構成情報 D B 1 2 3を参照し、管理対象要素（ハードウェア、ソフトゥエア等）を特定する。

[ステップ S 3 ] 情報抽出部 1 3 0は、各種構成情報 D B 1 2 3を参照し、他の管理対象要素との関連性を調査する。

[ステップ S 4 ] 情報抽出部 1 3 0は、関連イベントを受信したか否かを判断する。受信した場合、処理がステップ S 5に進められる。受信していない場合、処理がステップ S 6に進められる。

[ステップ S 5 ] 情報抽出部 1 3 0は、関連イベントをグループ化する。

[ステップ S 6 ] 情報抽出部 1 3 0は、ステップ S 1においてメッセ一ジを受信してから所定時間経過したか否かを判断する。所定時間経過した場合、ィベントグループを確定し、処理をパターンマッチングエンジン 1 1 0に受け渡す。所定時間経過していなければ、処理がステップ S 4に進められる。

図 1 8は、イベントグループ化例を示す図である。たとえば、「イベント # 1 1」のメッセージが入力されると、そのイベント情報を有するイベントグループ 4 1 1が生成される。その後、「イベント # 2 1」のメッセ一ジが入力されると、そのイベント情報を有するイベントグループ 4 2 1が生成される。同様に、「ィベント # 3 1」のメッセ一ジが入力されると、そのイベント情報を有するィベントグループ 431が生成される。

ここで、「イベント # 11」に関連する「イベント # 12」のメッセージが入力されると、イベントグループ 41 1に「イベント # 12」のイベント情報が追加される。これにより、 2つのイベント情報を含むイベントグループ 412となる。さらに、「イベント # 1 1」に関連する「イベント # 13」のメッセージが入力されると、イベントグループ 412に「イベント # 13」のイベント情報が追加される。これにより、 3つのイベント情報を含むイベントグループ 413となる。

このようにしてグループィヒされたイベント情報に基づいて、運用管理サーバ 1 00内の他のデータベースが構築される。

図 19は、イベントグループのデ一夕構造例を示す図である。イベントダル一プ 121には、イベントグループ I D、グループ明細通番、イベント ID、顧客 I D、機器 I D、インタフェース名、発生時刻、発生種別、発生略称、フィルタリング、メッセージの欄が設けられている。

イベントグループ I Dは、イベントグループ単位に設定される識別情報である。グループ明細通番は、イベントグループ I D内で設定される各レコード（1つのイベント情報で 1つのレコードを構成する）の通し番号である。イベント IDは、各イベントに設定される識別情報である。顧客 IDは、イベントを発生させたシステムを運用している顧客の識別情報である。機器 IDは、イベントを発生させたサーバの識別情報である。インタフェース名は、イベント情報を含むメッセ一ジを出力したネットワークインタフェースの識別情報である。発生時刻は、運用管理サーバ 100にメッセージが到達した時刻である。発生種別は、イベントを発生させた監視対象要素の種別である。発生略称は、イベントを発生させた監視対象要素の略称である。フィルタリングは、フィル夕リングの有無を示している。メッセージは、イベント情報のメッセージの内容を示している。

なお、図 19には、イベントグループ 121のデータ構造を示したが、当日ィベントグループログ 153、当月イベントグループログ 154も同様のデータ構造である。

図 20は、顧客 DBのデ一夕構造例を示す図である。顧客 DB 122には、顧客 I D、顧客名、顧客窓口、連絡先の欄が設けられている。顧客 I Dは、顧客の識別情報である。顧客名は、顧客の名称である。顧客窓口は、顧客側の窓口となる担当者の名称である。連絡先は、顧客の電話番号等の連絡先である。

図 2 1は、事象パターン D Bのデータ構造例を示す図である。事象パターン D B 1 2 4には、事象パターン I D、事象明細通番、対象種別、対象略称、エラーメッセージの欄が設けられている。事象パターン I Dは、事象パターン D Bで管理される一意の識別番号である。事象明細通番は、同一事象パターン I D内の付与されるイベント情報の管理番号である。対象種別は、監視対象要素の種別である。エラ一メッセージは、出力されたイベントの内容を示す情報である。

なお、図 2 1には、事象パターン D B 1 2 4のデータ構造例を示しているが、仮想事象パターン D B 1 2 5のデータ構造も同様である。

図 2 2は、当日事象ログのデータ構造例を示す図である。当日事象ログ 1 5 1 は、イベントグループ I D、マッチング時刻、事象パターン I D、イベント数、ヒット数の欄が設けられている。イベントグループ I Dは、イベントグループの識別番号である。マッチング時刻は、パターンマッチングエンジン 1 1 0において、パターンマッチング処理を行った時刻である。事象パターン I Dは、ィベントグループとの照合（マッチング）によって抽出された事象パターンの識別情報である。イベント数は、事象パターン I Dで示される事象パターン内のイベント情報の数である。ヒット数は、事象パターン I Dで示される事象パターン内のィベント情報のうち、照合対象のィベントグループにも同時に含まれるイベント情報の数である。

なお、当日事象ログ 1 5 1のイベント数とヒット数とから、対応する事象パ夕ーンに関する重みを算出することができる。たとえば、ヒット数が大きいほど、重みの値を大きく（重要度を高く）する。このような重みを示す数値を予め計算し、当日事象ログ 1 5 1に設定しておいてもよい。

図 2 3は、当日イベントグループログのデータ構造例を示す図である。当日ィベントグループログ 1 5 3には、イベントグループ I D、イベント明細通番、ィベント I D、顧客 I D、機器 I D、発生時刻、発生種別、エラー番号 o rメッセージ、事象 I D、重複事象 I D数、マッチング結果などの情報が含まれる。イベントグループ I Dは、イベントグループの識別情報である。イベント明細通番は、発止したイベントに付与される通番である。イベント I Dは、各ィベント情報の識別情報である。顧客 I Dは、イベントを発行したシステムを運用している顧客の I Dである。機器 I Dは、イベントを発行したサーバの識別情報である。発生時刻は、イベントの発生時刻である。発生種別は、イベントの種別（ェラー、ワーニング等）である。エラー番号 o rメッセージは、イベントの内容を示す識別情報である。事象 I Dは、イベントグループによって特定された事象パターンの識別情報である。重複事象 I D数は、複数の事象パターンが検出されたときの検出事象パターン数である。マッチング結果は、検出された事象パターンに設定された対策情報の内容である。

次に、パターンマッチング処理について詳細に説明する。

図 2 4は、パターンマッチング処理の手順を示すフローチャートである。以下、図 2 4に示す処理をステップ番号に沿って説明する。

[ステップ S 1 1 ] パターンマッチングエンジン 1 1 0は、前処理を行う。たとえば、パターンマッチングエンジン 1 1 0は、 R AM I 0 2内にワークテ一ブルを作成する。

[ステップ S 1 2 ] パターンマッチングエンジン 1 1 0は、イベントグループ 1 2 1からイベントグループを取り出し、重複イベントフィル夕リングを行う。重複イベントフィルタリングとは、同一サ一バから出力された同一イベント情報を検出して、 1つのイベント情報を残し、他のイベント情報を削除する処理である。

[ステップ S 1 3 ] パターンマッチングエンジン 1 1 0は、イベントグループに含まれるィベント情報が 1件以下か否かを判断する。ィベント情報が 1件以下の場合、複数のイベント情報の発生パターンによる障害検出対象外であるため、処理がステップ S 1 9に進められる。イベント情報が 2件以上の場合、処理がステツプ S 1 4に進められる。

[ステップ S 1 43 パターンマッチングエンジン 1 1 0は、仮想事象パターン D B 1 2 5から組み合わせ対象の事象パターンを抽出する。

[ステップ S 1 5 ] パターンマッチングエンジン 1 1 0は、事象パターンが少なくとも 1件抽出できたか否かを判断する。 1件も抽出できなかった場合（抽出 0件）、処理がステップ S 1 9に進めら„れ—る。少なくとも 1件の事象パターンが抽出された場合、処理がステップ S 1 6に進められる。

[ステップ S 1 6 ] パターンマッチング'エンジン 1 1 0は、組み合わせマッチングを行う。具体的には、パターンマッチングエンジン 1 1 0は、フィルタリングされたイベントグループ内のイベント情報と、仮想事象パターン D B 1 2 5力ら抽出された各事象パターン内のイベント情報とを、総当たりでマッチングを行ラ。

[ステップ S 1 7 ] パターンマッチングエンジン 1 1 0は、マッチング処理の結果を示す情報を提供する。たとえば、パターンマッチングエンジン 1 1 0は、マッチング結果を運用管理サーバ 1 0 0のモニタ等に表示させる。

[ステップ S 1 8 ] パターンマッチングエンジン 1 1 0は、過去の事象確認を行う。具体的には、パターンマッチングエンジン 1 1 0は、当月事象ログ 1 5 2 を参照し、同一事象ログの有無を確認する。同一事象ログがある場合に、結果フアイルに、その事象を追記する。

[ステップ S 1 9 ] パターンマッチングエンジン 1 1 0は、後処理を行う。具体的には、パターンマッチングエンジン 1 1 0は、当日事象ログ 1 5 1と当月事象ログ 1 5 2へマッチング結果を格納する。

以下、図 2 4の各ステップの処理の詳細を説明する。

図 2 5は、前処理の詳細を示すフローチャートである。以下、図 2 5に示す処理をステップ番号に沿って説明する。

[ステップ S 2 1 ] パターンマッチングエンジン 1 1 0は、新規のワークテ一ブルを作成する。たとえば、当日イベントグループログ 1 5 3や当日事象ログ 1 5 1のワークテ一ブルが作成される。

[ステップ S 2 2 ] パターンマッチングエンジン 1 1 0は、ワーク領域を初期化する。

[ステップ S 2 3 ] パターンマッチングエンジン 1 1 0は、引数のチェックを行う。具体的には、パターンマッチングエンジン 1 1 0は、入力チェックとして、「イベントグループの I D」、「出力先フォルダ」の有無を判断する。いずれかの項目が未入力の場合、エラ一となる。その後、図 2 4に示す主処理に復帰する。次に、重複ィベン十フィルタリング処理について説明する.。

図 2 6は、重複イベントフィル夕リング処理の手順を示すフローチャートである。以下、図 2 6に示す処理をステップ番号に沿って説明する。

[ステップ S 3 1 ] パターンマッチングエンジン 1 1 0は、イベントグループ 1 2 1内のレコード（イベント情報）を一件読み込む。読み込みは、たとえば、顧客 I D、機器 I D、エラ一番号 o rメッセージの順で行われる。

[ステップ S 3 2 ] パターンマッチングエンジン 1 1 0は、イベントグループ読み込みの正否を判断する。イベントダル一プを読み込んだ場合、処理がステツプ S 3 3に進められる。読み込むべきイベントグループが無い場合、図 2 4に示す主処理に復帰する。

[ステップ S 3 3 ] パターンマッチングエンジン 1 1 0は、フィルタリングの要否を判断する。具体的には、一件前のレコードと同一機種、同一エラー番号 o rメッセージの場合、フィルタリングが必要と判断される。フィル夕リングが必要な場合、処理がステップ S 3 1に進められる。フィルタリングが不要な場合、処理がステップ S 3 4に進められる。

[ステップ S 3 4 ] パターンマッチングエンジン 1 1 0は、重複イベントフィルタリング後のイベントグループを、当日イベントグループログ（ワークテープル） 1 5 3に格納する。その後、処理がステップ S 3 1に進められる。

次に、事象パターン抽出処理について詳細に説明する。

図 2 7は、事象パターン抽出処理の手順を示すフローチヤ一トである。以下、図 2 7に示す処理をステップ番号に沿って説明する。

[ステップ S 4 1 ] パタ一ンマッチングエンジン 1 1 0は、事象パターン抽出処理を、情報抽出部 1 3 0に依頼する。すると、情報抽出部 1 3 0は、当日ィべントグループログ 1 5 3からイベントグループを読み込む。読み込み順番は、顧客 I D、機器 I D、エラー番号 o rメッセージの順である。正常に読み込めた場合、以降の処理を行う。もし、読み込みに失敗したとき（読み込むべきイベントグループが無いとき）は、図 2 4に示す主処理に復帰する。

[ステップ S 4 2 ] 情報抽出部 1 3 0は、各種構成情報 D B 1 2 3から、構成情報を読み込む。具体的には、パターンマッチングエンジン 1 1 0は、ステップ S 4 1で読み込んだレコードの顧客 I D、機器 I Dをキーに、各種構成情報 D B 1 2 3を検索し、検出された各構成情報の略称を読み込む。

[ステップ S 4 3 ] 情報抽出部 1 3 0は、事象パターンの抽出および追加を行う。具体的には、情報抽出部 1 3 0は、ステップ S 4 2で読み込んだ各略称をキ —にして、事象パターン D B 1 2 4から事象パターンを抽出し、抽出したレコードを仮想事象パターン D B 1 2 5に追加する。その後、図 2 4に示す主処理に復帰する。

図 2 8は、仮想事象パターン D Bのデータ構造例を示す図である。仮想事象パタ一ン D B 1 2 5には、事象パターン I D、事象明細通番、パターン内メッセ一ジ数、対象種別、対象略称などの情報が含まれる。

事象パターン I Dは、事象パターンの識別番号である。事象明細通番は、事象パタ一ンに設定された通し番号である。エラー番号 o rメッセージは、障害の内容を示す識別情報である。対象種別は、監視対象要素の識別情報である。対象略称は、監視対象要素の略称である。

次に、組み合わせマッチング処理について詳細に説明する。

図 2 9は、組み合わせマッチング処理の手順を示すフローチャートである。以下、図 2 9に示す処理をステップ番号に沿って説明する。

[ステップ S 5 1 ] パターンマッチングエンジン 1 1 0は、当日イベントダループログ 1 5 3内の各イベントグループのメッセージ件数をカウントする。

[ステップ S 5 2 ] パターンマッチングエンジン 1 1 0は、未処理のイベントグループを、当日イベントグループログ 1 5 3から読み込む。このとき、全てのイベントグループの処理が終了している場合、エントリ終了のメッセージが返される。

[ステップ S 5 3 ] パターンマッチングエンジン 1 1 0は、イベントグループが読み込まれたか否かを判断する。イベントグループが読み込まれた場合、処理がステップ S 5 4に進められる。エントリ終了の場合、処理がステップ S 6 0に進められる。

[ステップ S 5 4 ] パターンマッチングエンジン 1 1 0は、仮想事象パターン D B 1 2 5から事象パターン内のイベント情報を読み込む。このとき、全ての事象パターンの処理が終了している場合、ェントリ終了のメッセージが返される。

[ステップ S 5 5 ] パターンマッチングエンジン 1 1 0は、事象パターン内のィベント情報が読み込まれたか否かを判断する。事象パターン内のィベント情報が読み込まれた場合、処理がステップ S 5 6に進められる。エントリ終了の場合、処理がステップ S 5 9に進められる。

[ステップ S 5 6 ] パターンマッチングエンジン 1 1 0は、ステップ S 5 2で読み込んだイベントグループ内に、ステップ S 5 4で読み込んだ事象パターン内の各イベント情報と同一のィベン卜情報が存在するか否かを、ィベント情報毎に判断する。そして、判断対象となったイベント情報と同一イベント情報がィベントグル一プ内にある場合、メモリ内に作成されている当日事象ログ 1 5 1 (ヮ一ク）として、ステップ S 5 4で読み込んだ事象パターンが存在するか否かを判断する。当日事象ログが存在しない場合、処理がステップ S 5 7に進められる。当日事象ログが存在する場合、処理がステップ S 5 8に進められる。

[ステップ S 5 7 ] パターンマッチングエンジン 1 1 0は、ステップ S 5 4で読み込んだ事象パターンに対応するレコードを、当日事象ログ 1 5 1のワークとしてメモリに格納する。その後、処置がステップ S 5 4に進められる。

当日事象ログ 1 5 1として格納されるレコ一ドのうち、事象パターン I Dと事象明細通番とは、ステップ S 5 4で抽出された事象パターンから転記される。ヒット件数には、 1が設定される。パターン内メッセージ数には、抽出された事象パターンに登録されているイベント情報の数が設定される。

[ステップ S 5 8 ] パターンマッチングエンジン 1 1 0は、ステップ S 5 4で読み込んだ事象パターンに対応する当日事象ログ 1 5 1のヒット件数の値を更新 ( 1加算）する。その後、処理がステップ S 5 4に進められる。

[ステップ S 5 9 ] パターンマッチングエンジン 1 1 0は、パターンマツチング結果の更新処理を行い、処理をステップ S 5 2に進める。具体的には、パターンマッチングエンジン 1 1 0は、当日イベントグループログ 1 5 3のワークテ一ブルに対して、情報を設定する。イベントグループ I D、イベント明細通番、ィベント I D、顧客 I D、機器 I D、発生時刻、発生種別、エラー番号 o rメッセージについては、ステップ S 5 2で抽出したイベントグループの情報が転記される。マッチング結果には、照合の結果、同.一のイベント情報を有する事象パターンが検出されたか否かを示すフラグが設定される。

[ステップ S 6 0 ] パターンマッチングエンジン 1 1 0は、当日事象ログ 1 5 1として作成されたワークテ一ブルに、重みの値を設定する。具体的には、パ夕 —ンマッチングエンジン 1 1 0は、「イベントグループ内のメッセージ数 >ヒット件数」の場合、「イベントグループ内のメッセージ数一ヒット件数」をみとする。「イベントグループ内のメッセージ数 <ヒット件数」の場合、「ヒット件数一イベントグループ内のメッセ一ジ数」を重みとする。「イベントグループ内のメッセージ数 =ヒット件数」の場合、メッセージ数を重みとする。

次に、情報提供処理について説明する。

図 3 0は、情報提供処理の手順を示すフローチャートである。以下、図 3 0に示す処理をステツプ番号に沿つて説明する。

[ステップ S 7 1 ] パターンマッチングエンジン 1 1 0は、当日事象ログ 1 5 1のワークテーブルの事象ログをソートする。ソートは、重みによるソートと同一イベント情報数（イベントグループに含まれるイベント情報のうち、各事象口グに含まれるイベント情報の数）によるソートとに分かれる。本実施の形態では、重みによるソートの方が優先度が高い。すなわち、パターンマッチングエンジン 1 1 0は、重みにより事象ログをソートし、重みが同一の事象ログ同士で、同一イベント情報数によるソートが行われる。

[ステップ S 7 2 ] パターンマッチングエンジン 1 1 0は、当日事象ログ 1 5 1を、ソートされた配列の先頭から順に 1件ずつ読み込む。読み込むべき事象口グが無い場合、レコ一ド終了のメッセージが生成される。

[ステップ S 7 3 ] パターンマッチングエンジン 1 1 0は、レコード終了か否かを判断する。処理が図 2 4の主処理に復帰する。事象ログのレコードが読み込まれた場合、処理がステップ S 7 4に進められる。

[ステップ S 7 4 ] パターンマッチングエンジン 1 1 0は、事象ログに対応する対策情報を読み込む。

[ステップ S 7 5 ] パターンマッチングエンジン 1 1 0は、事象ログを編集する。具体的には、パターンマッチングエンジン 1 1 0は、まず、適合率を算出する。適合率は、（ヒット件数 ÷イベントログ内のイベント情報数） X I 0 0で算出される。次に、パターンマッチングエンジン 1 1 0は、事象パターン I Dをキ —にして当日事象ログ 1 5 1内のレコードを読み込む。

[ステップ S 7 6 ] パターンマッチングエンジン 1 1 0は、適合率と結果とを結果格納ファイル 1 5 5に出力する。

次に、過去の事象確認処理について詳細に説明する。

図 3 1は、過去の事象確認処理の手順を示すフローチャートである。以下、図 3 1に示す処理をステップ番号に沿って説明する。

[ステップ S 8 1 ] パターンマッチングエンジン 1 1 0は、当日事象ログ 1 5 1の事象 I Dを読み込む。この際、読み込むべきレコードがなければ、レコード終了のメッセージが生成される。

[ステップ S 8 2 ] パターンマッチングエンジン 1 1 0は、レコード終了か否かを判断する。レコード終了であれば、図 2 4に示す主処理に復帰する。レコードが読み込まれた場合、処理がステップ S 8 3に進められる。

[ステップ S 8 3 ] パターンマッチングエンジン 1 1 0は、過去の事象とのマツチング処理を行う。具体的には、当月事象ログ 1 5 2から、同じレコードを検索する。

[ステップ S 8 4 ] パターンマッチングエンジン 1 1 0は、ステップ S 8 3のマッチングの結果、一致するレコードがあつたか否か判断する。一致するレコードがあった場合、処理がステップ S 8 5に進められる。一致するレコードが無い場合、図 2 4に示す主処理に復帰する。

[ステップ S 8 5 ] パターンマッチングエンジン 1 1 0は、一致したレコ一ドが事象ログとして記録される元となったイベントグループ I Dを一件取得する。

[ステップ S 8 6 ] パターンマッチングエンジン 1 1 0は、ステップ S 8 5で取得すべきレコードが終了したか否かを判断する。レコード終了の場合、処理が図 2 4に示す主処理に復帰する。レコードが取得できた場合、処理がステップ S

8 7に進められる。

[ステップ S 8 7 ] パターンマッチングエンジン 1 1 0は、ステップ S 8 1で読み込まれた事象 I Dに対応する事象パターン内の各イベント情報が、ステップ S 8 5で取得されたィベングループ I Dに対するイベントクリレープ内に存在するか否かを確認する。

[ステップ S 8 8 ] パターンマッチングエンジン 1 1 0は、ステップ S 8 7に処理において、全てのイベント情報が存在したか否かを判断する。全てのィベン卜情報が存在した場合、処理がステップ S 8 9に進められる。そうでない場合、処理がステップ S 8 5に進められる。

[ステップ S 8 9 ] パターンマッチングエンジン 1 1 0は、ステップ S 8 5で取得したイベントグループ I Dが生成された時刻を出力する。その後、処理がステツプ S 8 5に進められる。

次に、後処理について詳細に説明する。

図 3 2は、後処理の手順を示すフロ一チャートである。以下、図 3 2に示す処理をステツプ番号に沿つて説明する。

[ステップ S 9 1 ] パターンマッチングエンジン 1 1 0は、当日事象ログ 1 5 1を読み込む。

[ステップ S 9 2 ] パターンマッチングエンジン 1 1 0は、レコード終了か否かを判断する。レコード終了であれば、処理がステップ S 9 4に進められる。レコード終了でなければ、処理がステップ S 9 3に進められる。

[ステップ S 9 3 ] パターンマッチングエンジン 1 1 0は、読み込んだ当日事象ログ 1 5 1のワークテーブルを HD D等に蓄積すると共に、当月事象ログ 1 5 2にも蓄積する。また、当日事象ログ 1 5 1の抽出原因である当日イベントダル —プログ 1 5 3のヮ一クテ一ブルを、 HD D等に蓄積するとともに、当月ィベントグループログ 1 5 4にも蓄積する。その後、処理がステップ S 9 1に進められる。

[ステップ S 9 4 ] パ夕一ンマッチングエンジン 1 1 0は、蓄積処理が正常に終了したか否かを判断する。正常に終了した場合には、処理がステップ S 9 5に進められる。そうでない場合には、処理がステップ S 9 6に進められる。

[ステップ S 9 5 ] パターンマッチングエンジン 1 1 0は、蓄積処理をコミツ卜する。その後、処理が終了する。 [ステップ S 96] パターンマッチングエンジン 110は、ロールバック処理を行う。ロールバック処理とは、データースに障害が発生したとき等に、記録してあるチェックポイントにまでデータを戻して、改めて処理を開始することである。その後、処理が終了する。

図 33は、情報のれを示す図である。図 33の例では、イベントグループ 1 21に、 4つのイベント情報が含まれている。ここで、イベントグループ 121 に含まれる各イベント情報の I Dを、「a, b, c, d」とする。

仮想事象パターン DB 125には、複数の事象パターンが格納されている。ここで、各事象パターンの事象パターン I Dを、それぞれ「A, B , C, D, · · ·」とする。事象パターン I D 「AJ の事象パターンには、イベント情報「a, b, c, · · ·」が含まれる。事象パターン I D 「B」の事象パターンには、イベント情報「a, c, · · ·」が含まれる。事象パターン I D 「C」の事象パターンには、イベント情報「a, e, · · ·」が含まれる。事象パターン I D 「D」の事象パターンには、イベント情報「b, c， · · ·」が含まれる。このようなイベントグループ 121と仮想事象パターン DB 125内の各事象パターンとのマッチングが行われると、図 33に示すような組み合わせマツチング結果 91が得られる。なお、図 33の例では、簡単のため 2つのイベント情報の組み合わせに対するマツチング結果のみを示している。

組み合わせマッチング結果 91では、イベント情報組み合わせ「a, b」に対応する事象パターンとして、事象パターン ID 「A」が抽出されている。ィベント情報組み合わせ「a， c」に対応する事象パターンとして、事象パターン ID 「A， B」が抽出されている。イベント情報組み合わせ「a, d」に対応する事象パターンとして、事象パターン I D 「C」が抽出されている。イベント情報組み合わせ「b， c」に対応する事象パターンとして、事象パターン I D 「D」が抽出されている。イベント情報組み合わせ「b, d」に対応する事象パターンは抽出されていない。イベント情報組み合わせ「c， d」に対応する事象パ夕一ンは抽出されていない。

このような組み合わせマッチング結果 91に基づいて、当日事象ログ 151が生成される。イベント情報「a」に対しては、事象パターン I D 「A， A, B, C」が関連付けられている。イベント情報「b」に対しては、事象パターン I D 「A， D」が関連付けられている。イベント情報「c」に対しては、事象パターン I D 「A， B , D」が関連付けられている。イベント情報「d」に対しては、事象パターン I D 「C」が関連付けられている。

当日事象ログ 1 5 1から結果格納ファイル 1 5 5が生成される。図 3 3の例では、障害の原因である可能性の高い順に、上からヒット件数が示されている。図

3 3では、事象パターン I D 「A」のヒット件数が「4」、事象パターン I D 「B」のヒット件数が「2」、事象パターン I D 「C」のヒット件数が「2」、事象パターン I D 「D」のヒット件数が「2」である。なお、図 3 3の例では、結果格納ファイル 1 5 5にヒット件数を示しているが、適合率を計算して設定することもできる。

以上のようにして、関連するイベント情報同士でイベントグループ 1 2 1を作成し、事象パターンと照合することで、可能性の高いイベント発生原因を抽出することができる。運用管理サーバ 1 0 0の管理者は、結果格納ファイルを参照することで、幛害の原因およびその対処方法を知ることができる。

ところで、上記の説明では、システムからイベントに応じたメッセージを運用管理サーバ 1 0 0で直接取り込み、イベント情報を宿動でグループ化して分析処理を行っているが、任意に指定したイベントグループの分析処理を行うこともできる。分析すべきイベントグループは、たとえば、イベントグループ検索画面から検索して抽出することができる。

図 3 4は、イベントグループ検索画面の一例を示す図である。イベントグループ検索画面 5 1 0は、照合対象のイベントグループを過去のログ情報（過去所定期間のイベントグループログが格納されたデータベース）から任意のイベントグル一プを検索するための検索画面である。

イベントグループ検索画面 5 1 0には、メッセージ指定情報入力部 5 1 1と、事象内容指定情報入力部 5 1 2とが設けられている。

メッセージ指定情報入力部 5 1 1には、イベント情報を含むメッセージを出力したシステムの顧客名と、検索期間とを入力することができる。そして、メッセージ指定情報入力部 5 1 1に入力された情報に適合するイベントグループが検索される。

事象内容指定情報入力部 5 1 2には、原因の入力領域と対処の入力領域とが設けられている。これらの入力領域にはチェックポックスが対応付けられており、チェックボックスが選択された入力領域が、検索キーとして有効となる。事象内容指定情報入力部 5 1 2において入力された上に基づいてイベントグループログの検索が行われる。

イベントダル一プ検索画面 5 1 0で検索を行つた結果、イベントダル一プが抽出され、画面表示される。このとき、イベントグループに含まれるイベント情報の中から、照合対応とするイベント情報を手動で選択し、選択されたイベント情報に基づいて、樟害原因や対策の解析を行うこともできる。

図 3 5は、イベント選択画面の例を示す図である。イベント選択画面 5 2 0には、検索等により抽出されたイベントグループログに含まれるイベント情報のリストが表示されている。表示されているイベント情報の一部 5 2 1を選択する。選択されたイベント情報を 1つのイベントグループとして、障害原因等の分析が可能である。

各種手順で指定されたイベントグループの分析を行い、結果格納ファイル 1 5 5が生成されると、その内容が分析結果表示画面に表示される。

図 3 6は、分析結果表示画面の例を示す図である。分析結果表示画面 5 3 0には、選択メッセ一ジ表示欄 5 3 1、検索条件表示欄 5 3 2、および事象内メッセ —ジ表示欄 5 3 3が設けられている。選択メッセージ表示欄 5 3 1には、選択されたイベントグループのイベント情報の内容が示されている。検索条件表示欄 5 3 2には、関係ある事象パターンの原因と対処方法との一覧が表示されている。事象内メッセージ表示欄 5 3 3には、事象パターンに定義されたイベント情報の内容が示されている。

[応用例]

上記の実施の形態では、サーバが発生したエラーイベントに基づいて障害内容を解析しているが、操作入力に応じた障害内容の解析も可能である。言い換えると、上記の実施の形態は、障害発生の結果出力されるイベント情報に基づいて、障害箇所等を特定しているのに対し、障害発生原因となる操作入力に基づいて、障害箇所等を特定することができる。これにより、利用者の環境によっては、単独で実行可能な処理が、他のアプリケーションが動作しているために実行できない場合等に、それらの処理の実行命令の入力履歴から、障害の内容を自動で特定することができる。

たとえば、データベースのバックアップ処理中は、そのデータベースに対するアクセスができない。この場合、従来では、データベースへのアクセスエラ一が出力される。しかし、ュ一ザは、データベースにアクセスできない理由までは認識することができない。

そこで、伺時実行不可能な複数のコマンドのセットをパターン定義グループとして蓄積しておき、そのコマンドセットが入力された場合には、障害が発生する原因と対策方法（たとえば、原因となるアプリケーションの停止）を表示することで、ユーザの誤操作を正すことができる。

しかも、複数のアプリケーションが同時に実行される場合、一方のアプリケ一シヨンの制約外の処理等が原因となり、エラーが発生する場合がある。このとき、一般的に、ユーザには、制約外の処理を行うアプリケーションプログラムの修正が許されていない。そこで、エラ一を引き起こす重複実行を指示する操作入力が行われたときに、エラーを起こさせずに所望の処理結果を得るための代替の操作入力方法をユーザに提示することで、エラーを回避させることができる。

このような処理は、図 1 1と同様の構成で実現することができる。ただし、サ —バあるいは他の端末装置からは、操作入力内容を示すメッセージが運用管理サーバ 1 0 0に送られ、運用管理サーバ 1 0 0は、そのメッセ一ジを履歴テーブルに格納する。また、運用管理サーバ 1 0 0には、障害が発生する操作パターンを格納する操作パターン D Bが設けられる。

図 3 7は、履歴テ一ブルのデータ構造例を示す図である。履歴テーブル 6 1 0 には、発生日時、コマンド名、サーバ名の欄が設けられている。発生日時は、操作入力の内容を示すメッセ一ジを運用管理サーバ 1 0 0が受信した時刻である。コマンド名は、操作入力されたコマンドの内容である。サーバ名は、そのメッセ

—ジを送信したサーバの名称である。なお、履歴テーブル 6 1 0は、所定時間 (たとえば、 1 3 : 3 0から 1 0分間）内の操作入力内容を示している。図 3 8は、操作パターン D Bのデータ構造例を示す図である。操作パターン D B 6 2 0には、操作パターンコード、操作パターン、現象、原因、対処の欄が設けられている。

操作パターンコードは、各操作パターンの識別番号である。操作パターンは、障害等を引き起こすコマンドの組である。現象は、障害の内容である。原因は、障害の原因である。対処は、障害を回避するための対処方法である。

たとえば、図 3 7に示す履歴テーブル 6 1 0から、 vi (エディ夕の起動コマンド）で hosts (ファイル）を編集後に、 mail (メ一ラの起動コマンド）を実行されている。このとき、エラーが発生すると、利用者は運用管理サーバ 1 0 0の解析結果を参照する。

このような操作パターンは、操作パターン D B 6 2 0の操作パターンコード「s00000002」と一致する。従って、運用管理サーバ 1 0 0は、該当する操作パターンの現象、原因、対処の情報を利用者の端末装置に表示する。利用者は、現象を確認し、示されているメッセージが実際に起きた現象通りであれば、操作パターンコード「s00000002」で示された現象が発生したことを認識できる。そこで、利用者は、原因と対処を参照して、障害の発生原因を取り除くことができる。なお、上記の処理機能は、コンピュータによって実現することができる。その場合、運用管理サーバが有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュー夕上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（HD D) 、フレキシブルディスク（F D ) 、磁気テープなどがある。光ディスクには、 D V D (Digital Versatile Disc)、 D VD - R AM (Random Access Memory)、 C D - R O M (Compact Disc Read Only Memory)、 C D - R (Recordable) / R W (Re Writable)などがある。光磁気記録媒体には、 M〇 (Magneto -Optical disc)などがある。

プログラムを流通させる場合には、たとえば、そのプログラムが記録された D V D、 C D— R OMなどの可搬型記録媒体が販売される。また、プログラムをサ一バコンピュー夕の記 j意装置に格納しておき、ネットワークを介して、サーバコンピュー夕から他のコンピュータにそのプログラムを転送することもできる。プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従つた処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。

以上説明したように本発明では、サーバ内の監視対象要素から出力されたィべント情報をグループィヒし、グループ化されたイベントグループに類似するパターン定義グループに応じた障害対策情報を抽出するようにしたため、サーバ内の監視対象要素から障害原因となる監視対象要素を容易に特定することができる。上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

1 . サーバの運用管理を行うための運用管理方法において、前記サーバで実行される複数の機能を監視対象要素として、前記監視対象要素で発生したイベント情報を収集し、

収集した複数の前記イベント情報をグルーブイ匕してイベントグループを生成し、障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の請

発生パ夕一ンが定義された複数のパ夕一ン定義グループと前記ィベントグループとの間で前記ィベント情報の発生パターンを照合し、

3

前記イベントグループに対して前記ィベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素囲

を示す障害対策情報を抽出する、

ことを特徴とする運用管理方法。 '

2 . 前記イベント情報は、複数のサーバから収集することを特徴とする請求の範囲第 1項記載の運用管理方法。

3 . 前記イベント情報を収集した際には、前記監視対象要素毎のデータ形式を、統一したデータ形式に変換することを特徴とする請求の範囲第 1項記載の運用管理方法。

4. 前記イベントグループを生成する際には、複数の前記監視対象要素同士の関連性が定義されたデ一夕ベースを参照し、関連性のある前記監視対象要素から出力された前記イベント情報同士をグループ化することを特徴とする請求の範囲第 1項記載の運用管理方法。

5 . 前記イベントグループを生成する際には、所定期間内に収集した前記ィべン卜情報同士をグループィヒすることを特徴とする請求の範囲第 1項記載の運用管理方法。

6 . 前記イベント情報の発生パターンの照合の際には、共通の前記イベント情報を検出することを特徴とする請求の範囲第 1項記載の運用管理方法。

7 . 前記障害対策情報が複数抽出された場合、前記イベントグループに対する前記パターン定義グループの前記イベント情報の発生パターンの共通度に応じて、複数の障害対策情報をソートすることを特徴とする請求の範囲第 1項記載の運用管理方法。 ― .. ―.

8 . 前記イベントグループと共通の前記イベント情報の数が多い前記パターン定義グループほど、共通度が高いと判断することを特徵とする請求の範囲第 7項記載の運用管理方法。

9 . 前記イベントグループと前記パターン定義グループとに含まれる前記ィべン卜情報のうち、一方にのみ含まれる前記ィベント情報の数が少ない前記パターン定義グループほど、共通度が高いと判断することを特徴とする請求の範囲第 7 項記載の運用管理方法。

1 0 . 前記障害対策情報には、障害発生の原因と、障害を解決するための対策情報とが含まれることを特徴とする請求の範囲第 1項記載の運用管理方法。

1 1 . サーバの運用管理を行うための運用管理方法において、

前記サーバに対して入力されたコマンドを収集し、

収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、

ことを特徴とする運用管理方法。

1 2 . サーバの運用管理を行うた運用管理装置において、

前記サーバで実行される複数の機能を監視対象要素として、前記監視対象要素で発生したィベント情報を収集する収集手段と、

収集した複数の前記イベント情報をグループ化してイベントグループを生成する生成手段と、

障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループと前記イベントグループとの間で前記ィベント情報の発生パターンを照合する照合手段と、

前記イベントグループに対して前記ィベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する抽出手段と、

を有することを特徴とする運用管理装置。

1 3 . サーバの運用管理を行うための運用管理装置において、

前記サーバに対して入力されたコマンドを収集する収集手段と、

収集した複数の前記コマンドをダル一プィヒして操作履歴情報を生成する生成手段と、

障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合する照合手段と、

前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パタ一ン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する抽出手段と、

を有することを特徴とする運用管理装置。

1 4 . サーバの運用管理を行うための運用管理プログラムにおいて、

コンピュータに、

前記サーバで実行される複数の機能を監視対象要素として、前記監視対象要素で発生したイベント情報を収集し、

収集した複数の前記イベント情報をグループィ匕してイベントグループを生成し、障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の発生パ夕一ンが定義された複数のパ夕一ン定義グループと前記ィベン卜グループとの間で前記ィベント情報の発生パターンを照合し、

前記イベントグループに対して前記ィベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、

処理を実行させることを特徴とする運用管理プログラム。

1 5 . サーバの運用管理を行うための運用管理プログラムにおいて、

コンピュータに、

前記サーバに対して入力されたコマンドを収集し、収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、障害発生の要因なるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、

前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パ夕一ン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、

処理を実行させることを特徴とする運用管理プログラム。

1 6 . サーバの運用管理を行うための運用管理プログラムを記録したコンビュ一夕読み取り可能な記録媒体において、

前記コンピュータに、

収集した複数の前記ィベント情報をグループィ匕してイベントグループを生成し、障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループと前記イベントグループとの間で前記イベント情報の発生パターンを照合し、

前記イベントグループに対して前記イベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、

処理を実行させることを特徴とする運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体。

1 7 . サーバの運用管理を行うための運用管理プログラムを記録したコンビュ一夕読み取り可能な記録媒体において、

前記コンピュータに、

前記サーバに対して入力されたコマンドを収集し、

収集した複数の前記コマンドをダル一プ化して操作履歴情報を生成し、障害発生の要因となるコマンド入力パターンが定義された複数の操作パ夕一ン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、

処理を実行させることを特徴とする運用管理プログラムを記録したコンピュー夕読み取り可能な記録媒体。