JPWO2004061681A1 - 運用管理方法および運用管理サーバ - Google Patents

運用管理方法および運用管理サーバ Download PDF

Info

Publication number
JPWO2004061681A1
JPWO2004061681A1 JP2004564435A JP2004564435A JPWO2004061681A1 JP WO2004061681 A1 JPWO2004061681 A1 JP WO2004061681A1 JP 2004564435 A JP2004564435 A JP 2004564435A JP 2004564435 A JP2004564435 A JP 2004564435A JP WO2004061681 A1 JPWO2004061681 A1 JP WO2004061681A1
Authority
JP
Japan
Prior art keywords
event
information
pattern
operation management
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004564435A
Other languages
English (en)
Other versions
JP4318643B2 (ja
Inventor
高橋 大作
大作 高橋
裕貴子 吉位
裕貴子 吉位
義朗 加来
義朗 加来
小野 仁
仁 小野
洋 鈴木
洋 鈴木
千晶 河嶋
千晶 河嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2004061681A1 publication Critical patent/JPWO2004061681A1/ja
Application granted granted Critical
Publication of JP4318643B2 publication Critical patent/JP4318643B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Abstract

障害箇所をソフトウェア単位で特定できるようにする。監視対象要素で発生したイベント情報を収集する(ステップST1)。次に、収集した複数のイベント情報をグループ化してイベントグループを生成する(ステップST2)。さらに、障害発生時に出力されるイベント情報の発生パターンが定義された複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンを照合する(ステップST3)。そして、イベント情報の発生パターンが類似するパターン定義グループに予め関連付けられた障害対策情報を抽出する(ステップST4)。

Description

本発明は監視対象装置の運用管理行うための運用管理方法、運用管理サーバ、運用管理プログラム、および運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体に関し、特に監視対象装置の障害対策に有効な運用管理方法、運用管理サーバ、運用管理プログラム、および運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
インターネット環境が普及している昨今では、システムの信頼性強化策としてシステムの多重化が行われている。システムを多重化することにより、一部のシステムに障害が発生しても、他のシステムを利用して支障なく運用を継続することができる。
一般に、サーバで障害等のイベントが発生すると、そのサーバから他の装置(たとえば、運用管理サーバ)に対してメッセージが送信される。多重化されたシステムでは、1つの障害が発生すると、障害が発生した機能に関連する他の機能からもエラーメッセージが出力される。そのため、あるサーバで異常が発生した場合、エラーメッセージを出力するサーバは1つとは限らず、関連する他のサーバからもエラーメッセージが出力される。
このように障害箇所とは別のサーバからもエラーメッセージが出力されると、障害箇所の特定が困難となる。従来は、ネットワーク等に精通した技術者が、過去の経験と照らし合わせて、障害箇所を特定していた。そのため、技術者の能力によっては、障害の復旧に長い時間を要する場合があった。このとき、企業内のネットワークが停止すると、その企業の業務遂行に多大な影響を及ぼす。そのため、技術者の経験則に頼らずに、ネットワークを迅速に復旧できることが望まれていた。
そこで、ネットワークの障害箇所と、その障害の発生時に発行される障害通知情報の時系列パターンとの対応関係をデータベースに保持し、実際にネットワークから通知される障害通知情報とデータベースの内容とを照合することで障害箇所を特定する発明が考えられた。これにより、障害箇所を自動的に特定することができ、ネットワークを迅速に復旧させることができる。たとえば、特開2001−257677号公報(第1図)参照。
しかし、特開2001−257677号公報(第1図)で対象としている障害は、ネットワーク上の通信障害であるため、サーバ上で実行されるアプリケーション等の障害については考慮されていない。したがって、サーバ上で実行されるアプリケーション、ミドルウェア、OS(Operating System)等が発生したエラーメッセージを利用した障害箇所の判定までは行われていない。
すなわち、1つの障害に関し、1つのサーバから複数のエラーメッセージが出力される場合、従来の技術では障害箇所を特定することができない。たとえば、サーバ上で実行されていたアプリケーションが停止した場合、アプリケーション自身がエラーメッセージを出力すると共に、そのアプリケーションに関連するミドルウェアやOSもエラーメッセージを出力する場合がある。しかも、複数のサーバが連携して動作している場合、障害の発生原因となったアプリケーションが実行されるサーバとは異なるサーバ上のアプリケーションからエラーメッセージが出されることもある。
このように、多機能のコンピュータシステム上で障害が発生すると、1つの障害に対して、複数のサーバ上の様々なアプリケーションからエラーメッセージが出力される。そのため、個別のメッセージを参照しただけでは、エラーの原因やエラーの発生場所を、サーバ内のソフトウェア単位で特定するのが困難である。
さらに、マルチタスク、マルチスレッド等のシステム環境では、メモリ管理等の問題により、個別のアプリケーションでは異常になっていないにも拘わらず、性能が低下したり、使用しているミドルウェアが原因不明でストップしたり等の障害が発生する。このような場合、障害が表面化したソフトウェアとは別の部分に原因が存在し、その原因を特定するのがさらに困難となっている。
本発明はこのような点に鑑みてなされたものであり、障害箇所をソフトウェア単位で特定できる運用管理方法、運用管理サーバ、運用管理プログラム、および運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
本発明では上記課題を解決するために、図1に示すような運用管理方法が提供される。本発明に係る運用管理方法は、運用管理を行うためのものである。運用管理方法では、以下の処理が行われる。まず、サーバで実行される複数の機能を監視対象要素として、監視対象要素で発生したイベント情報を収集する(ステップST1)。次に、収集した複数のイベント情報をグループ化してイベントグループを生成する(ステップST2)。さらに、障害発生時に複数の監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンを照合する(ステップST3)。そして、イベントグループに対してイベント情報の発生パターンが類似するパターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する(ステップST4)。
このような運用管理方法によれば、監視対象要素で発生したイベント情報が収集、グループ化され、イベントグループが生成される。すると、複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンが照合され、発生パターンが類似するパターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報が抽出される。
また、上記課題を解決するために、サーバの運用管理を行うための運用管理方法において、前記サーバに対して入力されたコマンドを収集し、収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、ことを特徴とする運用管理方法が提供される。
このような運用管理方法によれば、サーバに対して入力されたコマンドが収集、グループ化され、操作履歴情報が生成される。次に、操作パターン情報と操作履歴情報との間でコマンドのパターンが照合され、入力パターンが類似する操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報が抽出される。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
図1は、実施の形態に適用される発明の概念図である。
図2は、トラブル情報回帰型解決方法の運用例を示す図である。
図3は、メッセージ正規化処理を示す図である。
図4は、構成管理データの構造例を示す図である。
図5は、イベント情報のグループ化処理を示す概念図である。
図6は、照合処理を示す模式図である。
図7は、イベントグループの照合および対策情報出力例を示す図である。
図8は、照合結果のソート手順を示す図である。
図9は、照合部における処理手順を示すフローチャートである。
図10は、障害検出機能を提供するためのシステム構成例を示す図である。
図11は、本発明の実施の形態に用いる運用管理サーバのハードウェア構成例を示す図である。
図12は、運用管理サーバの内部構成を示すブロック図である。
図13は、ハードウェア構成情報のデータ構造例を示す図である。
図14は、ソフトウェア構成情報のデータ構造例を示す図である。
図15は、ネットワーク構成情報のデータ構造例を示す図である。
図16は、システム構成情報のデータ構造例を示す図である。
図17は、メッセージグループ化処理の手順を示すフローチャートである。
図18は、イベントグループ化例を示す図である。
図19は、イベントグループログのデータ構造例を示す図である。
図20は、顧客DBのデータ構造例を示す図である。
図21は、事象パターンDBのデータ構造例を示す図である。
図22は、当日事象ログのデータ構造例を示す図である。
図23は、当日イベントグループログのデータ構造例を示す図である。
図24は、パターンマッチング処理の手順を示すフローチャートである。
図25は、前処理の詳細を示すフローチャートである。
図26は、重複イベントフィルタリング処理の手順を示すフローチャートである。
図27は、事象パターン抽出処理の手順を示すフローチャートである。
図28は、仮想事象パターンDBのデータ構造例を示す図である。
図29は、組み合わせマッチング処理の手順を示すフローチャートである。
図30は、情報提供処理の手順を示すフローチャートである。
図31は、過去の事象確認処理の手順を示すフローチャートである。
図32は、後処理の手順を示すフローチャートである。
図33は、情報の流れを示す図である。
図34は、イベントグループ検索画面の一例を示す図である。
図35は、イベント選択画面の例を示す図である。
図36は、分析結果表示画面の例を示す図である。
図37は、履歴テーブルのデータ構造例を示す図である。
図38は、操作パターンDBのデータ構造例を示す図である。
以下、本発明の実施の形態を図面を参照して説明する。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。
図1は、実施の形態に適用される発明の概念図である。図1では、運用管理サーバ1が、本発明に係る運用管理方法を実行する。運用管理サーバ1は、複数のサーバ2〜4に接続されている。サーバ2では、アプリケーション2a、ミドルウェア2b、およびOS2cが実行されている。アプリケーション2a、ミドルウェア2b、およびOS2cが、運用管理サーバ1による監視対処要素である。他のサーバ3,4においても、同様のソフトウェアが実行されている。
また、運用管理サーバ1には、予めパターン定義グループデータベース(DB)1aと障害対策情報データベース(DB)1bとが設けられている。パターン定義グループDB1aには、障害発生時に複数の監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループが格納されている。障害対策情報DB1bには、パターン定義グループに予め関連付けられ、障害原因となる監視対象要素を示す障害対策情報が格納されている。障害対策情報には、障害箇所、障害原因、障害に対する対策方法が含まれる。ここで、運用管理サーバ1は、以下の処理を実行する。
運用管理サーバ1は、まず、サーバで実行される複数の機能を監視対象要素として、監視対象要素で発生したイベント情報を収集する(ステップST1)。次に、運用管理サーバ1は、収集した複数のイベント情報をグループ化してイベントグループを生成する(ステップST2)。さらに、運用管理サーバ1は、パターン定義グループDB1a内の各パターン定義グループとイベントグループとの間でイベント情報の発生パターンを照合する(ステップST3)。そして、運用管理サーバ1は、イベントグループに対してイベント情報の発生パターンが類似するパターン定義グループに予め関連付けられ、障害原因となる監視対象要素を示す障害対策情報を、障害対策情報DB1bから抽出する(ステップST4)。ここで、イベント情報の発生パターンが類似する場合とは、たとえば、共通のイベント情報が少なくとも1つ存在する場合である。
このような運用管理方法によれば、監視対象要素で発生したイベント情報が収集、グループ化され、イベントグループが生成される。すると、複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンが照合される。次に、発生パターンが類似するパターン定義グループに予め関連付けられた障害対策情報が抽出される。
これにより、抽出された障害対策情報に基づいて、障害箇所、障害原因、障害に対する対策方法を、運用管理サーバの管理者が認識することができる。なお、該当するパターン定義グループが発見されなかったイベントグループに関しては、障害解決後、対応するパターン定義グループをパターン定義グループDB1aに格納し、障害対策情報を障害対策情報DB1bに格納する。これにより、障害の対策方法等が、障害解決を行う作業者に適宜フィードバック(再利用)される。
このような運用管理方法を用いれば、作業者の能力に拘わらず、障害の解決時間を短縮することができる。しかも、過去の障害の内容をパターン定義グループや障害対策情報として蓄積することで、2度目以降の障害に対して、迅速に対応することができる。また、新規の障害を発見し、修復したときは、その内容をパターン定義グループや障害対策情報に反映させておけば、人づてに障害報告を行う必要が無くなる。その結果、人為的な不手際によるトラブルシューティングの長期化を防止することができる。
次に、本実施の形態における障害検出機能(トラブル情報回帰型解決方法)の概念を説明する。
図2は、トラブル情報回帰型解決方法の運用例を示す図である。図2に示す様に複数のサーバ11,12と運用管理サーバ20とがネットワーク13で接続されている。サーバ11には、ハード監視、ソフト監視、性能監視、セキュリティ監視、および構成監視等の監視機能が組み込まれている。サーバ12にも同様の監視機能が組み込まれている。
ハード監視機能は、サーバ内のハードウェアの動作(たとえば、ハードディスク装置の書き込みエラー発生率等)を監視する。ソフト監視機能は、各ソフトウェア(OS、ミドルウェア、アプリケーション)毎に設けられ、対応するソフトウェアの動作を監視する。性能監視機能は、動作状態(たとえば、メモリの空き容量)を監視する。セキュリティ監視機能は、サーバ11に対する不正アクセス等を監視する。構成監視機能は、サーバ11の構成変更等を監視する。
各監視機能は、エラーなどの所定の事象が発生すると、エラーイベントを発生させる。エラーイベントの内容を示すイベント情報がメッセージ31,32として、ネットワーク13を介して運用管理サーバ20に送られる。メッセージ31,32には、たとえば、サーバ11,12が発生するログ情報や、構成変更等の情報が含まれる。
運用管理サーバ20は、イベント抽出テーブル21、パターン定義グループ22、対策情報テーブル23、メッセージ正規化部24、グループ化部25、照合部26、および対策出力部27を有している。
イベント抽出テーブル21は、受信したメッセージから必要なイベント情報を抽出するための規則が定義された情報テーブルである。
パターン定義グループ22は、障害発生時に検出されるべきイベントの組み合わせを定義した情報である。
対策情報テーブル23は、障害発生時のイベントパターンに応じた障害対策に関する情報が登録された情報テーブルである。
メッセージ正規化部24は、サーバ11,12からのメッセージを受け取り、所定のデータ構造に正規化する。具体的には、メッセージ正規化部24は、メッセージを受け取ると、イベント抽出テーブル21を参照し、受信したメッセージに適用すべきイベント情報の抽出規則を取得する。そして、メッセージ正規化部24は、取得した規則に従って、メッセージからイベント情報を抽出する。
グループ化部25は、メッセージ正規化部24で抽出されたイベント情報を、関連性のあるもの同士でグループ化する。たとえば、監視対象要素同士(装置、OS、ミドルウェア、アプリケーション等)の関連性が予め定義されており、関連する監視対象要素から短時間(具体的な時間は、予め設定されている)に出力されたメッセージのイベント情報は、互いに関連するものと判断する。グループ化部25がイベント情報のグループ化を行った結果、イベントグループ33が生成される。イベントグループ33は、関連のあるイベント情報の集合である。
照合部26は、イベントグループ33とパターン定義グループ22とを照合し、イベントグループ33と同一もしくは類似のパターン定義グループ22を検出する。
対策出力部27は、対策情報テーブル23を参照し、検出されたパターン定義グループ22に対応する対策情報を取得する。そして、対策出力部27は、取得した対策情報を、運用管理サーバ20に接続された端末装置等に表示させる。
このような構成のシステムにおいて、サーバ11,12から出力され運用管理サーバ20に入力されたメッセージ31,32は、以下のように処理される。
まず、メッセージ31,32は、メッセージ正規化部24により正規化され、イベント情報が生成される。
図3は、メッセージ正規化処理を示す図である。図3の例では、メッセージ31,32はシリアルNo.、時刻、ホスト名、およびイベント内容の情報を含んでいる。シリアルNo.は、メッセージを一意に識別するための識別番号である。時間は、イベントの発生時刻である。ホスト名は、メッセージを出力したサーバのネットワーク13上での名称である。イベント内容は、サーバ内の監視機能を出力したイベントの内容である。
このようなメッセージ31,32をメッセージ正規化部24が受け取ると、メッセージ正規化部24は、イベント抽出テーブル21を参照する。
イベント抽出テーブル21には、HW(ハードウェア)またはSW(ソフトウェア)名、キーワード、抽出方法の欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連づけられて、メッセージ情報の抽出規則を構成している。HWまたはSW名は、イベントの発生原因となった要素の名称である。キーワードは、イベントの発生原因となる要素を特定するための情報である。抽出方法は、メッセージから必要なエラーコードを抽出するための規則である。
メッセージ正規化部24は、イベント抽出テーブル21を参照することで、メッセージ31,32からイベント情報31a,32aを生成することができる。具体的には、メッセージ31,32を受け取ると、メッセージ正規化部24は、イベント抽出テーブル21のキーワード欄を参照し、イベント本文に含まれるキーワードを検索する。メッセージ正規化部24は、検出されたキーワードに対応する抽出方法を参照し、その抽出方法に従って、イベント内容から必要なエラーコードを抽出する。
たとえば、メッセージ31が入力されると、イベント抽出テーブル21からキーワード「Kernel」が検出される。そこで、そのキーワードに対応する抽出方法「]の後ろのスペース以降”:”が入るまで」に従って、エラーコード「WARNING999」が抽出される。
メッセージ正規化部24は、エラーコードを含むイベント情報31a,32aを生成する。イベント情報31a,32aには、シリアルNo.、時刻、ホスト名、HWまたはSW名およびエラーコードが含まれる。シリアルNo.、時刻、およびホスト名については、メッセージ31,32から抽出される。HWまたはSW名およびエラーコードは、イベント抽出テーブル21内の検出されたキーワードに関連付けられた情報である。
このようにして、正規化されたイベント情報31a,32aが抽出される。
次に、グループ化部25により、関連するイベント情報がグループ化される。たとえば、グループ化部25は、監視対象要素同士の関連性が予め定義された構成管理データを有する。
図4は、構成管理データの構造例を示す図である。図4に示す構成管理データでは、監視対象要素が階層構造で管理されている。上層からシステム51,52、ルータ53,54、サーバ55〜59およびストレージ60、ミドルウェア61〜63、アプリケーション64〜66の順となっている。
システム51,52は、たとえば、顧客毎のネットワークシステムを示す。ルータ53,54は、システム51,52に関連付けられており、システム51,52にアクセスするためのパケットを中継するルータの識別情報を示している。サーバ55〜59は、ルータ53,54に関連付けられており、システム51,52内に構築されたサーバの識別情報を示している。ストレージ60は、ルータ54に関連付けられており、システム52内のストレージデバイスの識別情報を示している。ミドルウェア61〜63は、サーバ55に関連付けられており、サーバ55に実装されたミドルウェアの識別情報を示している。アプリケーション64〜66は、ミドルウェア61に関連付けられており、そのミドルウェア61で管理されているアプリケーションソフトウェアの識別情報を示している。
このように、監視対象要素間の関連づけをグループ化部25に定義しておくことで、グループ化部25は、関連性のあるイベント情報を判別することができる。すなわち、グループ化部25は、木構造の祖孫関係で関係づけられた監視対象要素から出力されたイベント情報同士が、互いに関連するものと判断する。
なお、図4に示した構成管理データを、保守作業中に関するイベント抑止に利用することもできる。すなわち、保守作業を行う場合、監視対象要素のイベント発生を抑止しておく必要がある。そのとき、保守作業対象である監視対象要素よりも下位に位置する監視対象要素からのイベント発生も抑止することが望まれる。
すなわち、上位の監視対象要素(たとえば、ミドルウェア)の保守作業中は、下位の監視対象要素(たとえば、アプリケーション)において障害が発生していなくても、エラーイベントが出力される場合がある。そこで、保守作業時には、作業対象よりも下位の監視対象要素におけるイベント発生を抑止しておくことで、保守作業中の無駄なイベント出力を停止させることができる。
たとえば、図4に示したルータ53を保守する場合、ルータ53の下位に属するサーバ55〜57、ミドルウェア61〜63、アプリケーション64〜66が、保守時のエラー発生対象として想定される。したがって、これらの下位構造からのイベント出力を抑止する。なお、イベント抑止のために、グループ化部25は、保守作業を行う監視対象要素が指定されると、構成管理データに基づいて抑止対象を選定する。そして、グループ化部25は、抑止時間を指定して、イベント発生抑止の情報を、抑止対象となる監視対象要素に対して送信する。
また、保守作業時に、保守対象からイベントが発生することもある。このとき発生したイベントはグループ化され、保守対象異常時のパターン定義グループとして保持される。
このように、グループ化部25は、構成管理データを利用して、イベント情報同士の関連性を判断し、イベント情報のグループ化を行う。
図5は、イベント情報のグループ化処理を示す概念図である。図5に示すように、メッセージ正規化部24で正規化されたイベント情報71〜73がグループ化部25に入力されると、関連するイベント情報によりイベントグループ33が生成される。イベントグループ33には、各イベントグループを一意に識別するためのID(識別子)が振られている。他の内容は、イベント情報と同じである。
生成されたイベントグループ33は、照合部26に渡される。照合部26では、イベントグループ33とパターン定義グループ22との照合が行われる。
図6は、照合処理を示す模式図である。パターン定義グループ22には、ハードウェア事象、OS事象、ミドルウェア、アプリケーションから、障害発生時に出力されるイベントの組み合わせが登録されている。照合部26は、このパターン定義グループ22とイベントグループ33とを照合(マッチング)することで、イベントグループ33の発生原因となった障害を判定する。
イベントグループ33に対応するパターン定義グループが特定されると、そのパターン定義グループに対応する対策情報が抽出される。
図7は、イベントグループの照合および対策情報出力例を示す図である。図7に示すように、イベントグループ33aのHWまたはSW名およびエラーコードの項目と、パターン定義グループ22aのHWまたはSW名およびエラーコードの項目が一致している。そこで、対策出力部27は、パターン定義グループ22aのID「PT0008」に対応する対策情報を、対策情報テーブル23から検索する。
対策情報テーブル23には、ID、原因、対策、緊急レベルの欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連づけられている。IDは、対策情報を一意に識別するための識別情報である。対策情報のIDは、対応するパターン定義グループのIDの下4桁が共通となっている。すなわち、ID「PT0008」のパターン定義グループには、ID「000008」の対策情報23aが対応する。原因は、障害の原因を示す情報であり、原因となる監視対象要素(たとえば、ディスク)に関する情報を含んでいる。対策は、障害に対する対策方法を示す情報である。緊急レベルは、障害の重要度を示しており、緊急に対処する必要がある障害ほど、緊急レベルの値が大きい。
図7の例では、パターン定義グループ22aに対応する対策情報が対策出力部27によって抽出される。対策情報23aによれば、障害の原因は「ディスク破損によるクラスタ切り替えが発生した。」ことであり、対策方法は「システム復旧後DBのリカバリを実行してください。」である。また、この対策情報の緊急レベルは「2」である。
なお、照合部26は、イベントグループと完全に一致するパターン定義グループを抽出するだけではなく、類似するパターン定義グループも抽出する。この際、照合部26は、抽出したパターン定義テーブルに一致数と端数との情報を付与する。一致数は、一致したイベント情報の数である。端数は、不一致のイベント情報の数である。パターン定義グループ内のイベント情報が不足している場合、端数の符号がマイナスとなる。また、パターン定義グループ内のイベント情報が過多である場合、端数の符号がプラスとなる。
対策出力部27は、対策情報を表示する際に、対応するパターン定義グループとイベントグループとの一致数や端数に応じてソートして、各パターン定義グループの対策情報を表示する。
図8は、照合結果のソート手順を示す図である。図8では、イベントグループ81と6つのパターン定義グループとを照合している。なお、パターン定義グループのIDを、それぞれPT1、PT2、PT3、PT4、PT5、PT6とする。
[ST1]まず、照合部26が、イベントグループ81と各パターン定義グループとを照合する。図8の例では、イベントグループ81には、イベント情報「a,b,c,d」が含まれる。ID「PT1」のパターン定義グループには、イベント情報「a,b,c」が含まれる。ID「PT2」のパターン定義グループには、イベント情報「a,c」が含まれる。ID「PT3」のパターン定義グループには、イベント情報「a,x,y,x,q」が含まれる。ID「PT4」のパターン定義グループには、イベント情報「a,b,c,d,y」が含まれる。ID「PT5」のパターン定義グループには、イベント情報「a,b,c,d」が含まれる。ID「PT6」のパターン定義グループには、イベント情報「d」が含まれる。
各パターン定義グループの照合の結果、各パターン定義グループの一致数と端数とが算出される。ID「PT1」のパターン定義グループは、一致数「3」、端数「−1」である。ID「PT2」のパターン定義グループは、一致数「2」、端数「−2」である。ID「PT3」のパターン定義グループは、一致数「1」、端数「+4」である。ID「PT4」のパターン定義グループは、一致数「4」、端数「+1」である。ID「PT5」のパターン定義グループは、一致数「4」、端数「0」である。ID「PT6」のパターン定義グループは、一致数「1」、端数「−3」である。
[ST2]照合結果を受け取った対策出力部27は、まず、一致数によりパターン定義グループをソートする。この場合、一致数が多いほど、上位に並べられる。すると、「PT4」、「PT5」、「PT1」、「PT2」、「PT3」、「PT6」の順となる。
[ST3]次に、対策出力部27は、端数によりソートする。この場合、端数の絶対値が少ないほど、上位に並べられる。すると、「PT5」、「PT4」、「PT1」、「PT2」、「PT6」、「PT3」の順となる。
[ST4]最後に対策出力部27は、各パターン定義グループに対応する対策情報における緊急レベルを参照する。そして、緊急レベルが所定値より高い(緊急レベルを示す値が大きい)対策情報を、強調表示対象とする。たとえば「PT2」と「PT5」とのパターン定義グループに関する対策情報の緊急レベルが高ければ、それらの対策情報が強調表示対象となる。
対策出力部27は、監視対象システムで発生したイベントに対する対策情報を、ソート順に表示すると共に、表徴表示対象となっている対策情報を強調表示する。強調表示手段としては、たとえば、他の対策情報とは異なる色で表示する。
図9は、照合部における処理手順を示すフローチャートである。以下、図9に示す処理をステップ番号に沿って説明する。
[ステップS101]照合部26は、イベントグループ33を取得する。このとき、取得したイベントグループ33に含まれるイベント情報の数をN(Nは自然数)とする。
[ステップS102]照合部26は、重複イベントフィルタリングを行い、複数のパターン定義グループ22が格納されたデータベースから、仮想テーブルを作成する。仮想テーブルは、処理対象となるシステムに適用可能なパターン定義グループ22のみを抽出したデータベースである。なお、仮想テーブルは、各システムに発生し得る共通のパターン定義グループが格納されたデータベース、顧客毎のシステム構成に応じて発生し得るパターン定義グループが格納されたデータベース、およびパターン定義グループに対応する障害情報が格納されたデータベース等で構成される。
[ステップS103]照合部26は、変数Iに1を設定し(I=1)、変数JにNを設定する(J=N)。その後、ステップS104〜S106の処理が並列に実行される。
[ステップS104]照合部26は、障害情報格納されたデータベースから、I番目のイベント情報に関連付けられた障害情報を検索する。
[ステップS105]照合部26は、顧客毎のシステム構成に応じて発生し得るやパターン定義グループが格納されたデータベースから、I番目のイベント情報に関連付けられたパターン定義グループを検索する。
[ステップS106]照合部26は、各システムに発生し得る共通のパターン定義グループが格納されたデータベースから、I番目のイベント情報に関連付けられたパターン定義グループを検索する。
[ステップS107]照合部26は、J=Iか否かを判断する。J=Iであれば処理がステップS109に進められ、そうでなければ処理がステップS108に進められる。
[ステップS108]照合部26は、Iをインクリメントする(I=I+1)。その後、ステップS104〜S106の処理に進められる。
[ステップS109]照合部26は、Iに1を設定し(I=1)、変数Jに検出されたパターン定義グループ数を設定する。
[ステップS110]照合部26は、ステップS105,S106で検出されたI番目のパターン定義グループを選択し、イベントグループと重複するイベント情報を抽出し、その数を数える。
[ステップS111]照合部26は、I=Jか否かを判断する。J=Iであれば処理がステップS113に進められ、そうでなければ処理がステップS112に進められる。
[ステップS112]照合部26は、Iをインクリメントする(I=I+1)。その後、ステップS110の処理に進められる。
[ステップS113]照合部26は、イベントをソートする。
[ステップS114]照合部26は、過去の同一事象の有無を確認する。
[ステップS115]対策出力部27は、イベント情報の少なくとも一部が一致したパターン定義グループの対策情報(障害原因や対策方法を含む)を表示する。
以上のようにして、システム内で発生したイベントの情報を集めてイベントグループに応じて、障害原因や対策方法を自動的に特定することができる。
このように、パターン定義グループを蓄積しておくことで、過去に発生したトラブルと同様のトラブルを早期に発見することが可能となる。しかも、原因や対処方法を関連付けておくことで、トラブルシューティングの時間が短縮される。
さらに、多数の顧客のパターン定義グループ等を一元管理して、運用管理サーバの管理者がパターン定義グループ等を適宜更新することで、各顧客は、他の顧客で発生したトラブルに関するパターン定義グループを利用し、障害を発見することができる。運用管理サーバの管理者は、システム運用者の運用形態や、ソフトウェア開発者から提供される情報等を元に、パターン定義グループを登録することで、高品質のサーバ運用監視サービスを提供することができる。
次に、以上のような障害検出機能を有する運用管理サーバを用いて、顧客システムの遠隔保守サービスを行う場合の具体例を詳細に説明する。
図10は、障害検出機能を提供するためのシステム構成例を示す図である。図10の例では、運用管理サーバ100は、ネットワーク14を介して中継装置210に接続されている。中継装置210には、複数のサーバ220,230,240が接続されている。なお、中継装置210とサーバ220,230,240とは、顧客のシステムである。運用管理サーバ100には、パターンマッチングエンジン110が設けられている。パターンマッチングエンジン110が、サーバ220,230,240からのメッセージを収集し、パターン定義グループとのパターンマッチングを行い、対策情報を出力する。
図11は、本発明の実施の形態に用いる運用管理サーバのハードウェア構成例を示す図である。運用管理サーバ100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
グラフィック処理装置104には、モニタ111が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ111の画面に表示させる。入力インタフェース105には、キーボード112とマウス113とが接続されている。入力インタフェース105は、キーボード112やマウス113から送られてくる信号を、バス107を介してCPU101に送信する。
通信インタフェース106は、ネットワーク14に接続されている。通信インタフェース106は、ネットワーク14を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図11には、運用管理サーバ100のハードウェア構成について説明したが、中継装置210やサーバ220,230,240も同様のハードウェア構成で実現することができる。
図12は、運用管理サーバの内部構成を示すブロック図である。図12に示すように運用管理サーバ100は、パターンマッチングエンジン110、イベントグループ121、顧客DB(データベース)122、各種構成情報DB123、事象パターンDB124、仮想事象パターンDB125、情報抽出部130、環境設定部140、当日事象ログ151、当月事象ログ152、当日イベントグループログ153、当月イベントグループログ154、および結果格納ファイル155を有している。
パターンマッチングエンジン110は、他の機能と連携してパターンマッチング処理全体を制御する。
イベントグループ121は、サーバ220,230,240から送られたメッセージによって構成されたイベントグループである。
顧客DB122には、顧客に関する情報が格納される。
各種構成情報DB123には、顧客のシステム構成(ハードウェアとソフトウェア)に関する情報が格納される。
事象パターンDB124は、サーポートしているシステムで想定される障害に関する事象パターン(パターン定義グループと対策情報)が格納されたデータベースである。
仮想事象パターンDB125は、顧客のシステム構成に応じて事象パターンDB124から抽出された事象パターンである。
情報抽出部130は、事象パターンDB124から、サービス対象の顧客のシステムに関係する事象パターンのみを抽出し、仮想事象パターンDB125を構築する。
当日事象ログ151は、当日発生した障害等に応じた事象パターンの識別情報や照合結果等を格納する記憶領域である。
当月事象ログ152は、当月発生した障害等に応じた事象パターンの識別情報や照合結果等を格納する記憶領域である。
当日イベントグループログ153は、当日発生したイベントグループを格納する記憶領域である。
当月イベントグループログ154は、当月発生したイベントグループを格納する記憶領域である。
結果格納ファイル155は、イベントグループに応じて検出された対策情報のリストである。
なお、各種構成情報DB123には、ハードウェア構成情報、ソフトウェア構成情報、ネットワーク構成情報、およびシステム構成情報が含まれる。各構成情報は、相互リンクのための情報を有している。
図13は、ハードウェア構成情報のデータ構造例を示す図である。ハードウェア構成情報123aには、機器ID、システム名、ホスト名、製品名、CPU数、メモリ(MEM)容量、ディスク(Disk)容量、LAN数の欄が設けられている。
機器IDは、サーバとして動作しているコンピュータの識別情報である。この機器IDは、システム内部でホスト名の長さに影響されないように割り当てられたコードである。システム名は、サーバが従属するシステム(サービスの種別)の名称である。ホスト名は、ネットワーク上、あるいな管理上決められたサーバの識別名である。製品名は、サーバとして動作しているコンピュータの製品名である。CPU数は、サーバに実装されているCPUの数である。メモリ(MEM)容量は、サーバに実装されているメインメモリの記憶容量である。ディスク(Disk)容量は、サーバに接続されているハードディスク装置の記憶容量である。LAN数は、サーバに実装されているネットワークインタフェースの数である。
図14は、ソフトウェア構成情報のデータ構造例を示す図である。ソフトウェア構成情報123bには、機器ID、ソフトウェア(ソフト)種別、ソフトウェア名、版数、修正版数の欄が設けられている。
機器IDは、ハードウェア構成情報123aの機器IDと同じ項目であり、この機器IDよって互いの情報が関連付けられる。ソフトウェア種別は、ソフトウェアの種別(OS、ミドルウェア、アプリケーション等)を示している。ソフトウェア名は、ソフトウェアの名称である。版数は、ソフトウェアのバージョン番号である。修正版数は、ソフトウェアに対して適用した障害修正データ(パッチ)の版数である。
図15は、ネットワーク構成情報のデータ構造例を示す図である。ネットワーク構成情報123cには、顧客コード、機器ID、ホスト名、IP、インタフェース名、IP種別の欄が設けられている。顧客コードは、システムを運用している顧客の識別情報である。機器IDは、ハードウェア構成情報123aやソフトウェア構成情報123bの機器IDと同じ項目であり、この機器IDよって互いの情報が関連付けられる。ホスト名は、ハードウェア構成情報123aのホスト名と同じ項目である。IPは、システムのIPアドレスである。インタフェース名は、装置内で各ネットワークインタフェースに割り当てられた識別番号である。IP種別は、IPアドレスの種別である。IP種別には、V(Vertual)とR(Real)とがある。V(Vertual)は、仮想IPアドレスを示す。R(Real)は、実IPアドレスを示す。
図16は、システム構成情報のデータ構造例を示す図である。システム構成情報123dには、顧客コード、機器ID、関連ホスト名、関連種別、関連ソフトの欄が設けられている。顧客コードは、ネットワーク構成情報123cの顧客コードと同じ項目である。機器IDは、ハードウェア構成情報123a、ソフトウェア構成情報123bおよびネットワーク構成情報123cの機器IDと同じ項目であり、この機器IDよって互いの情報が関連付けられる。関連ホスト名は、関連するコンピュータの機器IDである。関連ホスト名にPP9999が設定された場合、他の機器との関連性がないことが示される。
このような構成の運用管理サーバ100において、以下の様な処理が行われる。
まず、メッセージグループ化処理について説明する。
図17は、メッセージグループ化処理の手順を示すフローチャートである。以下、図17に示す処理をステップ番号に沿って説明する。
[ステップS1]情報抽出部130は、メッセージを取得する。すなわち、エラーが発生したサーバからエラーイベントが発生すると、エラーイベントの内容を示すメッセージがサーバから運用管理サーバ100へ送られる。運用管理サーバ100では、そのメッセージがパターンマッチングエンジン110に入力される。
[ステップS2]情報抽出部130は、メッセージを整形(正規化)すると共に、各種構成情報DB123を参照し、管理対象要素(ハードウェア、ソフトウェア等)を特定する。
[ステップS3]情報抽出部130は、各種構成情報DB123を参照し、他の管理対象要素との関連性を調査する。
[ステップS4]情報抽出部130は、関連イベントを受信したか否かを判断する。受信した場合、処理がステップS5に進められる。受信していない場合、処理がステップS6に進められる。
[ステップS5]情報抽出部130は、関連イベントをグループ化する。
[ステップS6]情報抽出部130は、ステップS1においてメッセージを受信してから所定時間経過したか否かを判断する。所定時間経過した場合、イベントグループを確定し、処理をパターンマッチングエンジン110に受け渡す。所定時間経過していなければ、処理がステップS4に進められる。
図18は、イベントグループ化例を示す図である。たとえば、「イベント#11」のメッセージが入力されると、そのイベント情報を有するイベントグループ411が生成される。その後、「イベント#21」のメッセージが入力されると、そのイベント情報を有するイベントグループ421が生成される。同様に、「イベント#31」のメッセージが入力されると、そのイベント情報を有するイベントグループ431が生成される。
ここで、「イベント#11」に関連する「イベント#12」のメッセージが入力されると、イベントグループ411に「イベント#12」のイベント情報が追加される。これにより、2つのイベント情報を含むイベントグループ412となる。さらに、「イベント#11」に関連する「イベント#13」のメッセージが入力されると、イベントグループ412に「イベント#13」のイベント情報が追加される。これにより、3つのイベント情報を含むイベントグループ413となる。
このようにしてグループ化されたイベント情報に基づいて、運用管理サーバ100内の他のデータベースが構築される。
図19は、イベントグループのデータ構造例を示す図である。イベントグループ121には、イベントグループID、グループ明細通番、イベントID、顧客ID、機器ID、インタフェース名、発生時刻、発生種別、発生略称、フィルタリング、メッセージの欄が設けられている。
イベントグループIDは、イベントグループ単位に設定される識別情報である。グループ明細通番は、イベントグループID内で設定される各レコード(1つのイベント情報で1つのレコードを構成する)の通し番号である。イベントIDは、各イベントに設定される識別情報である。顧客IDは、イベントを発生させたシステムを運用している顧客の識別情報である。機器IDは、イベントを発生させたサーバの識別情報である。インタフェース名は、イベント情報を含むメッセージを出力したネットワークインタフェースの識別情報である。発生時刻は、運用管理サーバ100にメッセージが到達した時刻である。発生種別は、イベントを発生させた監視対象要素の種別である。発生略称は、イベントを発生させた監視対象要素の略称である。フィルタリングは、フィルタリングの有無を示している。メッセージは、イベント情報のメッセージの内容を示している。
なお、図19には、イベントグループ121のデータ構造を示したが、当日イベントグループログ153、当月イベントグループログ154も同様のデータ構造である。
図20は、顧客DBのデータ構造例を示す図である。顧客DB122には、顧客ID、顧客名、顧客窓口、連絡先の欄が設けられている。顧客IDは、顧客の識別情報である。顧客名は、顧客の名称である。顧客窓口は、顧客側の窓口となる担当者の名称である。連絡先は、顧客の電話番号等の連絡先である。
図21は、事象パターンDBのデータ構造例を示す図である。事象パターンDB124には、事象パターンID、事象明細通番、対象種別、対象略称、エラーメッセージの欄が設けられている。事象パターンIDは、事象パターンDBで管理される一意の識別番号である。事象明細通番は、同一事象パターンID内の付与されるイベント情報の管理番号である。対象種別は、監視対象要素の種別である。エラーメッセージは、出力されたイベントの内容を示す情報である。
なお、図21には、事象パターンDB124のデータ構造例を示しているが、仮想事象パターンDB125のデータ構造も同様である。
図22は、当日事象ログのデータ構造例を示す図である。当日事象ログ151は、イベントグループID、マッチング時刻、事象パターンID、イベント数、ヒット数の欄が設けられている。イベントグループIDは、イベントグループの識別番号である。マッチング時刻は、パターンマッチングエンジン110において、パターンマッチング処理を行った時刻である。事象パターンIDは、イベントグループとの照合(マッチング)によって抽出された事象パターンの識別情報である。イベント数は、事象パターンIDで示される事象パターン内のイベント情報の数である。ヒット数は、事象パターンIDで示される事象パターン内のイベント情報のうち、照合対象のイベントグループにも同時に含まれるイベント情報の数である。
なお、当日事象ログ151のイベント数とヒット数とから、対応する事象パターンに関する重みを算出することができる。たとえば、ヒット数が大きいほど、重みの値を大きく(重要度を高く)する。このような重みを示す数値を予め計算し、当日事象ログ151に設定しておいてもよい。
図23は、当日イベントグループログのデータ構造例を示す図である。当日イベントグループログ153には、イベントグループID、イベント明細通番、イベントID、顧客ID、機器ID、発生時刻、発生種別、エラー番号orメッセージ、事象ID、重複事象ID数、マッチング結果などの情報が含まれる。
イベントグループIDは、イベントグループの識別情報である。イベント明細通番は、発止したイベントに付与される通番である。イベントIDは、各イベント情報の識別情報である。顧客IDは、イベントを発行したシステムを運用している顧客のIDである。機器IDは、イベントを発行したサーバの識別情報である。発生時刻は、イベントの発生時刻である。発生種別は、イベントの種別(エラー、ワーニング等)である。エラー番号orメッセージは、イベントの内容を示す識別情報である。事象IDは、イベントグループによって特定された事象パターンの識別情報である。重複事象ID数は、複数の事象パターンが検出されたときの検出事象パターン数である。マッチング結果は、検出された事象パターンに設定された対策情報の内容である。
次に、パターンマッチング処理について詳細に説明する。
図24は、パターンマッチング処理の手順を示すフローチャートである。以下、図24に示す処理をステップ番号に沿って説明する。
[ステップS11]パターンマッチングエンジン110は、前処理を行う。たとえば、パターンマッチングエンジン110は、RAM102内にワークテーブルを作成する。
[ステップS12]パターンマッチングエンジン110は、イベントグループ121からイベントグループを取り出し、重複イベントフィルタリングを行う。重複イベントフィルタリングとは、同一サーバから出力された同一イベント情報を検出して、1つのイベント情報を残し、他のイベント情報を削除する処理である。
[ステップS13]パターンマッチングエンジン110は、イベントグループに含まれるイベント情報が1件以下か否かを判断する。イベント情報が1件以下の場合、複数のイベント情報の発生パターンによる障害検出対象外であるため、処理がステップS19に進められる。イベント情報が2件以上の場合、処理がステップS14に進められる。
[ステップS14]パターンマッチングエンジン110は、仮想事象パターンDB125から組み合わせ対象の事象パターンを抽出する。
[ステップS15]パターンマッチングエンジン110は、事象パターンが少なくとも1件抽出できたか否かを判断する。1件も抽出できなかった場合(抽出0件)、処理がステップS19に進められる。少なくとも1件の事象パターンが抽出された場合、処理がステップS16に進められる。
[ステップS16]パターンマッチングエンジン110は、組み合わせマッチングを行う。具体的には、パターンマッチングエンジン110は、フィルタリングされたイベントグループ内のイベント情報と、仮想事象パターンDB125から抽出された各事象パターン内のイベント情報とを、総当たりでマッチングを行う。
[ステップS17]パターンマッチングエンジン110は、マッチング処理の結果を示す情報を提供する。たとえば、パターンマッチングエンジン110は、マッチング結果を運用管理サーバ100のモニタ等に表示させる。
[ステップS18]パターンマッチングエンジン110は、過去の事象確認を行う。具体的には、パターンマッチングエンジン110は、当月事象ログ152を参照し、同一事象ログの有無を確認する。同一事象ログがある場合に、結果ファイルに、その事象を追記する。
[ステップS19]パターンマッチングエンジン110は、後処理を行う。具体的には、パターンマッチングエンジン110は、当日事象ログ151と当月事象ログ152へマッチング結果を格納する。
以下、図24の各ステップの処理の詳細を説明する。
図25は、前処理の詳細を示すフローチャートである。以下、図25に示す処理をステップ番号に沿って説明する。
[ステップS21]パターンマッチングエンジン110は、新規のワークテーブルを作成する。たとえば、当日イベントグループログ153や当日事象ログ151のワークテーブルが作成される。
[ステップS22]パターンマッチングエンジン110は、ワーク領域を初期化する。
[ステップS23]パターンマッチングエンジン110は、引数のチェックを行う。具体的には、パターンマッチングエンジン110は、入力チェックとして、「イベントグループのID」、「出力先フォルダ」の有無を判断する。いずれかの項目が未入力の場合、エラーとなる。その後、図24に示す主処理に復帰する。
次に、重複イベントフィルタリング処理について説明する。
図26は、重複イベントフィルタリング処理の手順を示すフローチャートである。以下、図26に示す処理をステップ番号に沿って説明する。
[ステップS31]パターンマッチングエンジン110は、イベントグループ121内のレコード(イベント情報)を一件読み込む。読み込みは、たとえば、顧客ID、機器ID、エラー番号orメッセージの順で行われる。
[ステップS32]パターンマッチングエンジン110は、イベントグループ読み込みの正否を判断する。イベントグループを読み込んだ場合、処理がステップS33に進められる。読み込むべきイベントグループが無い場合、図24に示す主処理に復帰する。
[ステップS33]パターンマッチングエンジン110は、フィルタリングの要否を判断する。具体的には、一件前のレコードと同一機種、同一エラー番号orメッセージの場合、フィルタリングが必要と判断される。フィルタリングが必要な場合、処理がステップS31に進められる。フィルタリングが不要な場合、処理がステップS34に進められる。
[ステップS34]パターンマッチングエンジン110は、重複イベントフィルタリング後のイベントグループを、当日イベントグループログ(ワークテーブル)153に格納する。その後、処理がステップS31に進められる。
次に、事象パターン抽出処理について詳細に説明する。
図27は、事象パターン抽出処理の手順を示すフローチャートである。以下、図27に示す処理をステップ番号に沿って説明する。
[ステップS41]パターンマッチングエンジン110は、事象パターン抽出処理を、情報抽出部130に依頼する。すると、情報抽出部130は、当日イベントグループログ153からイベントグループを読み込む。読み込み順番は、顧客ID、機器ID、エラー番号orメッセージの順である。正常に読み込めた場合、以降の処理を行う。もし、読み込みに失敗したとき(読み込むべきイベントグループが無いとき)は、図24に示す主処理に復帰する。
[ステップS42]情報抽出部130は、各種構成情報DB123から、構成情報を読み込む。具体的には、パターンマッチングエンジン110は、ステップS41で読み込んだレコードの顧客ID、機器IDをキーに、各種構成情報DB123を検索し、検出された各構成情報の略称を読み込む。
[ステップS43]情報抽出部130は、事象パターンの抽出および追加を行う。具体的には、情報抽出部130は、ステップS42で読み込んだ各略称をキーにして、事象パターンDB124から事象パターンを抽出し、抽出したレコードを仮想事象パターンDB125に追加する。その後、図24に示す主処理に復帰する。
図28は、仮想事象パターンDBのデータ構造例を示す図である。仮想事象パターンDB125には、事象パターンID、事象明細通番、パターン内メッセージ数、対象種別、対象略称などの情報が含まれる。
事象パターンIDは、事象パターンの識別番号である。事象明細通番は、事象パターンに設定された通し番号である。エラー番号orメッセージは、障害の内容を示す識別情報である。対象種別は、監視対象要素の識別情報である。対象略称は、監視対象要素の略称である。
次に、組み合わせマッチング処理について詳細に説明する。
図29は、組み合わせマッチング処理の手順を示すフローチャートである。以下、図29に示す処理をステップ番号に沿って説明する。
[ステップS51]パターンマッチングエンジン110は、当日イベントグループログ153内の各イベントグループのメッセージ件数をカウントする。
[ステップS52]パターンマッチングエンジン110は、未処理のイベントグループを、当日イベントグループログ153から読み込む。このとき、全てのイベントグループの処理が終了している場合、エントリ終了のメッセージが返される。
[ステップS53]パターンマッチングエンジン110は、イベントグループが読み込まれたか否かを判断する。イベントグループが読み込まれた場合、処理がステップS54に進められる。エントリ終了の場合、処理がステップS60に進められる。
[ステップS54]パターンマッチングエンジン110は、仮想事象パターンDB125から事象パターン内のイベント情報を読み込む。このとき、全ての事象パターンの処理が終了している場合、エントリ終了のメッセージが返される。
[ステップS55]パターンマッチングエンジン110は、事象パターン内のイベント情報が読み込まれたか否かを判断する。事象パターン内のイベント情報が読み込まれた場合、処理がステップS56に進められる。エントリ終了の場合、処理がステップS59に進められる。
[ステップS56]パターンマッチングエンジン110は、ステップS52で読み込んだイベントグループ内に、ステップS54で読み込んだ事象パターン内の各イベント情報と同一のイベント情報が存在するか否かを、イベント情報毎に判断する。そして、判断対象となったイベント情報と同一イベント情報がイベントグループ内にある場合、メモリ内に作成されている当日事象ログ151(ワーク)として、ステップS54で読み込んだ事象パターンが存在するか否かを判断する。当日事象ログが存在しない場合、処理がステップS57に進められる。当日事象ログが存在する場合、処理がステップS58に進められる。
[ステップS57]パターンマッチングエンジン110は、ステップS54で読み込んだ事象パターンに対応するレコードを、当日事象ログ151のワークとしてメモリに格納する。その後、処置がステップS54に進められる。
当日事象ログ151として格納されるレコードのうち、事象パターンIDと事象明細通番とは、ステップS54で抽出された事象パターンから転記される。ヒット件数には、1が設定される。パターン内メッセージ数には、抽出された事象パターンに登録されているイベント情報の数が設定される。
[ステップS58]パターンマッチングエンジン110は、ステップS54で読み込んだ事象パターンに対応する当日事象ログ151のヒット件数の値を更新(1加算)する。その後、処理がステップS54に進められる。
[ステップS59]パターンマッチングエンジン110は、パターンマッチング結果の更新処理を行い、処理をステップS52に進める。具体的には、パターンマッチングエンジン110は、当日イベントグループログ153のワークテーブルに対して、情報を設定する。イベントグループID、イベント明細通番、イベントID、顧客ID、機器ID、発生時刻、発生種別、エラー番号orメッセージについては、ステップS52で抽出したイベントグループの情報が転記される。マッチング結果には、照合の結果、同一のイベント情報を有する事象パターンが検出されたか否かを示すフラグが設定される。
[ステップS60]パターンマッチングエンジン110は、当日事象ログ151として作成されたワークテーブルに、重みの値を設定する。具体的には、パターンマッチングエンジン110は、「イベントグループ内のメッセージ数>ヒット件数」の場合、「イベントグループ内のメッセージ数−ヒット件数」を重みとする。「イベントグループ内のメッセージ数<ヒット件数」の場合、「ヒット件数−イベントグループ内のメッセージ数」を重みとする。「イベントグループ内のメッセージ数=ヒット件数」の場合、メッセージ数を重みとする。
次に、情報提供処理について説明する。
図30は、情報提供処理の手順を示すフローチャートである。以下、図30に示す処理をステップ番号に沿って説明する。
[ステップS71]パターンマッチングエンジン110は、当日事象ログ151のワークテーブルの事象ログをソートする。ソートは、重みによるソートと同一イベント情報数(イベントグループに含まれるイベント情報のうち、各事象ログに含まれるイベント情報の数)によるソートとに分かれる。本実施の形態では、重みによるソートの方が優先度が高い。すなわち、パターンマッチングエンジン110は、重みにより事象ログをソートし、重みが同一の事象ログ同士で、同一イベント情報数によるソートが行われる。
[ステップS72]パターンマッチングエンジン110は、当日事象ログ151を、ソートされた配列の先頭から順に1件ずつ読み込む。読み込むべき事象ログが無い場合、レコード終了のメッセージが生成される。
[ステップS73]パターンマッチングエンジン110は、レコード終了か否かを判断する。処理が図24の主処理に復帰する。事象ログのレコードが読み込まれた場合、処理がステップS74に進められる。
[ステップS74]パターンマッチングエンジン110は、事象ログに対応する対策情報を読み込む。
[ステップS75]パターンマッチングエンジン110は、事象ログを編集する。具体的には、パターンマッチングエンジン110は、まず、適合率を算出する。適合率は、(ヒット件数÷イベントログ内のイベント情報数)×100で算出される。次に、パターンマッチングエンジン110は、事象パターンIDをキーにして当日事象ログ151内のレコードを読み込む。
[ステップS76]パターンマッチングエンジン110は、適合率と結果とを結果格納ファイル155に出力する。
次に、過去の事象確認処理について詳細に説明する。
図31は、過去の事象確認処理の手順を示すフローチャートである。以下、図31に示す処理をステップ番号に沿って説明する。
[ステップS81]パターンマッチングエンジン110は、当日事象ログ151の事象IDを読み込む。この際、読み込むべきレコードがなければ、レコード終了のメッセージが生成される。
[ステップS82]パターンマッチングエンジン110は、レコード終了か否かを判断する。レコード終了であれば、図24に示す主処理に復帰する。レコードが読み込まれた場合、処理がステップS83に進められる。
[ステップS83]パターンマッチングエンジン110は、過去の事象とのマッチング処理を行う。具体的には、当月事象ログ152から、同じレコードを検索する。
[ステップS84]パターンマッチングエンジン110は、ステップS83のマッチングの結果、一致するレコードがあったか否か判断する。一致するレコードがあった場合、処理がステップS85に進められる。一致するレコードが無い場合、図24に示す主処理に復帰する。
[ステップS85]パターンマッチングエンジン110は、一致したレコードが事象ログとして記録される元となったイベントグループIDを一件取得する。
[ステップS86]パターンマッチングエンジン110は、ステップS85で取得すべきレコードが終了したか否かを判断する。レコード終了の場合、処理が図24に示す主処理に復帰する。レコードが取得できた場合、処理がステップS87に進められる。
[ステップS87]パターンマッチングエンジン110は、ステップS81で読み込まれた事象IDに対応する事象パターン内の各イベント情報が、ステップS85で取得されたイベントグループIDに対するイベントグループ内に存在するか否かを確認する。
[ステップS88]パターンマッチングエンジン110は、ステップS87に処理において、全てのイベント情報が存在したか否かを判断する。全てのイベント情報が存在した場合、処理がステップS89に進められる。そうでない場合、処理がステップS85に進められる。
[ステップS89]パターンマッチングエンジン110は、ステップS85で取得したイベントグループIDが生成された時刻を出力する。その後、処理がステップS85に進められる。
次に、後処理について詳細に説明する。
図32は、後処理の手順を示すフローチャートである。以下、図32に示す処理をステップ番号に沿って説明する。
[ステップS91]パターンマッチングエンジン110は、当日事象ログ151を読み込む。
[ステップS92]パターンマッチングエンジン110は、レコード終了か否かを判断する。レコード終了であれば、処理がステップS94に進められる。レコード終了でなければ、処理がステップS93に進められる。
[ステップS93]パターンマッチングエンジン110は、読み込んだ当日事象ログ151のワークテーブルをHDD等に蓄積すると共に、当月事象ログ152にも蓄積する。また、当日事象ログ151の抽出原因である当日イベントグループログ153のワークテーブルを、HDD等に蓄積するとともに、当月イベントグループログ154にも蓄積する。その後、処理がステップS91に進められる。
[ステップS94]パターンマッチングエンジン110は、蓄積処理が正常に終了したか否かを判断する。正常に終了した場合には、処理がステップS95に進められる。そうでない場合には、処理がステップS96に進められる。
[ステップS95]パターンマッチングエンジン110は、蓄積処理をコミットする。その後、処理が終了する。
[ステップS96]パターンマッチングエンジン110は、ロールバック処理を行う。ロールバック処理とは、データベースに障害が発生したとき等に、記録してあるチェックポイントにまでデータを戻して、改めて処理を開始することである。その後、処理が終了する。
図33は、情報の流れを示す図である。図33の例では、イベントグループ121に、4つのイベント情報が含まれている。ここで、イベントグループ121に含まれる各イベント情報のIDを、「a,b,c,d」とする。
仮想事象パターンDB125には、複数の事象パターンが格納されている。ここで、各事象パターンの事象パターンIDを、それぞれ「A,B,C,D,・・・」とする。事象パターンID「A」の事象パターンには、イベント情報「a,b,c,・・・」が含まれる。事象パターンID「B」の事象パターンには、イベント情報「a,c,・・・」が含まれる。事象パターンID「C」の事象パターンには、イベント情報「a,e,・・・」が含まれる。事象パターンID「D」の事象パターンには、イベント情報「b,c,・・・」が含まれる。
このようなイベントグループ121と仮想事象パターンDB125内の各事象パターンとのマッチングが行われると、図33に示すような組み合わせマッチング結果91が得られる。なお、図33の例では、簡単のため2つのイベント情報の組み合わせに対するマッチング結果のみを示している。
組み合わせマッチング結果91では、イベント情報組み合わせ「a,b」に対応する事象パターンとして、事象パターンID「A」が抽出されている。イベント情報組み合わせ「a,c」に対応する事象パターンとして、事象パターンID「A,B」が抽出されている。イベント情報組み合わせ「a,d」に対応する事象パターンとして、事象パターンID「C」が抽出されている。イベント情報組み合わせ「b,c」に対応する事象パターンとして、事象パターンID「D」が抽出されている。イベント情報組み合わせ「b,d」に対応する事象パターンは抽出されていない。イベント情報組み合わせ「c,d」に対応する事象パターンは抽出されていない。
このような組み合わせマッチング結果91に基づいて、当日事象ログ151が生成される。イベント情報「a」に対しては、事象パターンID「A,A,B,C」が関連付けられている。イベント情報「b」に対しては、事象パターンID「A,D」が関連付けられている。イベント情報「c」に対しては、事象パターンID「A,B,D」が関連付けられている。イベント情報「d」に対しては、事象パターンID「C」が関連付けられている。
当日事象ログ151から結果格納ファイル155が生成される。図33の例では、障害の原因である可能性の高い順に、上からヒット件数が示されている。図33では、事象パターンID「A」のヒット件数が「4」、事象パターンID「B」のヒット件数が「2」、事象パターンID「C」のヒット件数が「2」、事象パターンID「D」のヒット件数が「2」である。なお、図33の例では、結果格納ファイル155にヒット件数を示しているが、適合率を計算して設定することもできる。
以上のようにして、関連するイベント情報同士でイベントグループ121を作成し、事象パターンと照合することで、可能性の高いイベント発生原因を抽出することができる。運用管理サーバ100の管理者は、結果格納ファイルを参照することで、障害の原因およびその対処方法を知ることができる。
ところで、上記の説明では、システムからイベントに応じたメッセージを運用管理サーバ100で直接取り込み、イベント情報を自動でグループ化して分析処理を行っているが、任意に指定したイベントグループの分析処理を行うこともできる。分析すべきイベントグループは、たとえば、イベントグループ検索画面から検索して抽出することができる。
図34は、イベントグループ検索画面の一例を示す図である。イベントグループ検索画面510は、照合対象のイベントグループを過去のログ情報(過去所定期間のイベントグループログが格納されたデータベース)から任意のイベントグループを検索するための検索画面である。
イベントグループ検索画面510には、メッセージ指定情報入力部511と、事象内容指定情報入力部512とが設けられている。
メッセージ指定情報入力部511には、イベント情報を含むメッセージを出力したシステムの顧客名と、検索期間とを入力することができる。そして、メッセージ指定情報入力部511に入力された情報に適合するイベントグループが検索される。
事象内容指定情報入力部512には、原因の入力領域と対処の入力領域とが設けられている。これらの入力領域にはチェックボックスが対応付けられており、チェックボックスが選択された入力領域が、検索キーとして有効となる。事象内容指定情報入力部512において入力された上に基づいてイベントグループログの検索が行われる。
イベントグループ検索画面510で検索を行った結果、イベントグループが抽出され、画面表示される。このとき、イベントグループに含まれるイベント情報の中から、照合対応とするイベント情報を手動で選択し、選択されたイベント情報に基づいて、障害原因や対策の解析を行うこともできる。
図35は、イベント選択画面の例を示す図である。イベント選択画面520には、検索等により抽出されたイベントグループログに含まれるイベント情報のリストが表示されている。表示されているイベント情報の一部521を選択する。
選択されたイベント情報を1つのイベントグループとして、障害原因等の分析が可能である。
各種手順で指定されたイベントグループの分析を行い、結果格納ファイル155が生成されると、その内容が分析結果表示画面に表示される。
図36は、分析結果表示画面の例を示す図である。分析結果表示画面530には、選択メッセージ表示欄531、検索条件表示欄532、および事象内メッセージ表示欄533が設けられている。選択メッセージ表示欄531には、選択されたイベントグループのイベント情報の内容が示されている。検索条件表示欄532には、関係ある事象パターンの原因と対処方法との一覧が表示されている。事象内メッセージ表示欄533には、事象パターンに定義されたイベント情報の内容が示されている。
[応用例]
上記の実施の形態では、サーバが発生したエラーイベントに基づいて障害内容を解析しているが、操作入力に応じた障害内容の解析も可能である。言い換えると、上記の実施の形態は、障害発生の結果出力されるイベント情報に基づいて、障害箇所等を特定しているのに対し、障害発生原因となる操作入力に基づいて、障害箇所等を特定することができる。これにより、利用者の環境によっては、単独で実行可能な処理が、他のアプリケーションが動作しているために実行できない場合等に、それらの処理の実行命令の入力履歴から、障害の内容を自動で特定することができる。
たとえば、データベースのバックアップ処理中は、そのデータベースに対するアクセスができない。この場合、従来では、データベースへのアクセスエラーが出力される。しかし、ユーザは、データベースにアクセスできない理由までは認識することができない。
そこで、同時実行不可能な複数のコマンドのセットをパターン定義グループとして蓄積しておき、そのコマンドセットが入力された場合には、障害が発生する原因と対策方法(たとえば、原因となるアプリケーションの停止)を表示することで、ユーザの誤操作を正すことができる。
しかも、複数のアプリケーションが同時に実行される場合、一方のアプリケーションの制約外の処理等が原因となり、エラーが発生する場合がある。このとき、一般的に、ユーザには、制約外の処理を行うアプリケーションプログラムの修正が許されていない。そこで、エラーを引き起こす重複実行を指示する操作入力が行われたときに、エラーを起こさせずに所望の処理結果を得るための代替の操作入力方法をユーザに提示することで、エラーを回避させることができる。
このような処理は、図11と同様の構成で実現することができる。ただし、サーバあるいは他の端末装置からは、操作入力内容を示すメッセージが運用管理サーバ100に送られ、運用管理サーバ100は、そのメッセージを履歴テーブルに格納する。また、運用管理サーバ100には、障害が発生する操作パターンを格納する操作パターンDBが設けられる。
図37は、履歴テーブルのデータ構造例を示す図である。履歴テーブル610には、発生日時、コマンド名、サーバ名の欄が設けられている。発生日時は、操作入力の内容を示すメッセージを運用管理サーバ100が受信した時刻である。コマンド名は、操作入力されたコマンドの内容である。サーバ名は、そのメッセージを送信したサーバの名称である。なお、履歴テーブル610は、所定時間(たとえば、13:30から10分間)内の操作入力内容を示している。
図38は、操作パターンDBのデータ構造例を示す図である。操作パターンDB620には、操作パターンコード、操作パターン、現象、原因、対処の欄が設けられている。
操作パターンコードは、各操作パターンの識別番号である。操作パターンは、障害等を引き起こすコマンドの組である。現象は、障害の内容である。原因は、障害の原因である。対処は、障害を回避するための対処方法である。
たとえば、図37に示す履歴テーブル610から、vi(エディタの起動コマンド)でhosts(ファイル)を編集後に、mail(メーラの起動コマンド)を実行されている。このとき、エラーが発生すると、利用者は運用管理サーバ100の解析結果を参照する。
このような操作パターンは、操作パターンDB620の操作パターンコード「s00000002」と一致する。従って、運用管理サーバ100は、該当する操作パターンの現象、原因、対処の情報を利用者の端末装置に表示する。利用者は、現象を確認し、示されているメッセージが実際に起きた現象通りであれば、操作パターンコード「s00000002」で示された現象が発生したことを認識できる。そこで、利用者は、原因と対処を参照して、障害の発生原因を取り除くことができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、運用管理サーバが有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto−Optical disc)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
以上説明したように本発明では、サーバ内の監視対象要素から出力されたイベント情報をグループ化し、グループ化されたイベントグループに類似するパターン定義グループに応じた障害対策情報を抽出するようにしたため、サーバ内の監視対象要素から障害原因となる監視対象要素を容易に特定することができる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims (17)

  1. サーバの運用管理を行うための運用管理方法において、
    前記サーバで実行される複数の機能を監視対象要素として、前記監視対象要素で発生したイベント情報を収集し、
    収集した複数の前記イベント情報をグループ化してイベントグループを生成し、
    障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループと前記イベントグループとの間で前記イベント情報の発生パターンを照合し、
    前記イベントグループに対して前記イベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、
    ことを特徴とする運用管理方法。
  2. 前記イベント情報は、複数のサーバから収集することを特徴とする請求の範囲第1項記載の運用管理方法。
  3. 前記イベント情報を収集した際には、前記監視対象要素毎のデータ形式を、統一したデータ形式に変換することを特徴とする請求の範囲第1項記載の運用管理方法。
  4. 前記イベントグループを生成する際には、複数の前記監視対象要素同士の関連性が定義されたデータベースを参照し、関連性のある前記監視対象要素から出力された前記イベント情報同士をグループ化することを特徴とする請求の範囲第1項記載の運用管理方法。
  5. 前記イベントグループを生成する際には、所定期間内に収集した前記イベント情報同士をグループ化することを特徴とする請求の範囲第1項記載の運用管理方法。
  6. 前記イベント情報の発生パターンの照合の際には、共通の前記イベント情報を検出することを特徴とする請求の範囲第1項記載の運用管理方法。
  7. 前記障害対策情報が複数抽出された場合、前記イベントグループに対する前記パターン定義グループの前記イベント情報の発生パターンの共通度に応じて、複数の障害対策情報をソートすることを特徴とする請求の範囲第1項記載の運用管理方法。
  8. 前記イベントグループと共通の前記イベント情報の数が多い前記パターン定義グループほど、共通度が高いと判断することを特徴とする請求の範囲第7項記載の運用管理方法。
  9. 前記イベントグループと前記パターン定義グループとに含まれる前記イベント情報のうち、一方にのみ含まれる前記イベント情報の数が少ない前記パターン定義グループほど、共通度が高いと判断することを特徴とする請求の範囲第7項記載の運用管理方法。
  10. 前記障害対策情報には、障害発生の原因と、障害を解決するための対策情報とが含まれることを特徴とする請求の範囲第1項記載の運用管理方法。
  11. サーバの運用管理を行うための運用管理方法において、
    前記サーバに対して入力されたコマンドを収集し、
    収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、
    障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、
    前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、
    ことを特徴とする運用管理方法。
  12. サーバの運用管理を行うた運用管理装置において、
    前記サーバで実行される複数の機能を監視対象要素として、前記監視対象要素で発生したイベント情報を収集する収集手段と、
    収集した複数の前記イベント情報をグループ化してイベントグループを生成する生成手段と、
    障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループと前記イベントグループとの間で前記イベント情報の発生パターンを照合する照合手段と、
    前記イベントグループに対して前記イベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する抽出手段と、
    を有することを特徴とする運用管理装置。
  13. サーバの運用管理を行うための運用管理装置において、
    前記サーバに対して入力されたコマンドを収集する収集手段と、
    収集した複数の前記コマンドをグループ化して操作履歴情報を生成する生成手段と、
    障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合する照合手段と、
    前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する抽出手段と、
    を有することを特徴とする運用管理装置。
  14. サーバの運用管理を行うための運用管理プログラムにおいて、
    コンピュータに、
    前記サーバで実行される複数の機能を監視対象要素として、前記監視対象要素で発生したイベント情報を収集し、
    収集した複数の前記イベント情報をグループ化してイベントグループを生成し、
    障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループと前記イベントグループとの間で前記イベント情報の発生パターンを照合し、
    前記イベントグループに対して前記イベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、
    処理を実行させることを特徴とする運用管理プログラム。
  15. サーバの運用管理を行うための運用管理プログラムにおいて、
    コンピュータに、
    前記サーバに対して入力されたコマンドを収集し、
    収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、
    障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、
    前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、
    処理を実行させることを特徴とする運用管理プログラム。
  16. サーバの運用管理を行うための運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体において、
    前記コンピュータに、
    前記サーバで実行される複数の機能を監視対象要素として、前記監視対象要素で発生したイベント情報を収集し、
    収集した複数の前記イベント情報をグループ化してイベントグループを生成し、
    障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の発生パターンが定義された複数のパターン定義グループと前記イベントグループとの間で前記イベント情報の発生パターンを照合し、
    前記イベントグループに対して前記イベント情報の発生パターンが類似する前記パターン定義グループに予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、
    処理を実行させることを特徴とする運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体。
  17. サーバの運用管理を行うための運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体において、
    前記コンピュータに、
    前記サーバに対して入力されたコマンドを収集し、
    収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、
    障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、
    前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、障害原因となる前記監視対象要素を示す障害対策情報を抽出する、
    処理を実行させることを特徴とする運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004564435A 2002-12-26 2002-12-26 運用管理方法、運用管理装置および運用管理プログラム Expired - Fee Related JP4318643B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2002/013719 WO2004061681A1 (ja) 2002-12-26 2002-12-26 運用管理方法および運用管理サーバ

Publications (2)

Publication Number Publication Date
JPWO2004061681A1 true JPWO2004061681A1 (ja) 2006-05-18
JP4318643B2 JP4318643B2 (ja) 2009-08-26

Family

ID=32697322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004564435A Expired - Fee Related JP4318643B2 (ja) 2002-12-26 2002-12-26 運用管理方法、運用管理装置および運用管理プログラム

Country Status (6)

Country Link
US (1) US7506195B2 (ja)
EP (1) EP1577783A4 (ja)
JP (1) JP4318643B2 (ja)
CN (1) CN1650274A (ja)
AU (1) AU2002359925B2 (ja)
WO (1) WO2004061681A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206083A (ja) * 2012-03-28 2013-10-07 Nippon Telegraph & Telephone East Corp 運用サイト切り替えシステム、運用サイト切り替え装置、運用サイト切り替え方法及び運用サイト切り替えプログラム
JP2019049802A (ja) * 2017-09-08 2019-03-28 日本電気株式会社 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162036B2 (en) * 2001-08-06 2007-01-09 Igt Digital identification of unique game characteristics
US20060036874A1 (en) * 2001-08-08 2006-02-16 Igt Data pattern verification in a gaming machine environment
US7743420B2 (en) 2003-12-02 2010-06-22 Imperva, Inc. Dynamic learning method and adaptive normal behavior profile (NBP) architecture for providing fast protection of enterprise applications
US7673037B2 (en) * 2004-02-13 2010-03-02 Net2Phone Cable telephony monitoring system
US7343529B1 (en) 2004-04-30 2008-03-11 Network Appliance, Inc. Automatic error and corrective action reporting system for a network storage appliance
US9489645B2 (en) * 2004-05-13 2016-11-08 International Business Machines Corporation Workflow decision management with derived scenarios and workflow tolerances
JP4746850B2 (ja) * 2004-06-21 2011-08-10 富士通株式会社 パターン生成プログラム
JP2006040222A (ja) 2004-07-30 2006-02-09 Fujitsu Ltd メッセージ表示方法およびメッセージ表示装置
CN100349158C (zh) * 2004-08-12 2007-11-14 华为技术有限公司 一种从问题数据中提取失效模式的方法及系统
JP4643204B2 (ja) * 2004-08-25 2011-03-02 株式会社エヌ・ティ・ティ・ドコモ サーバ装置
US7373552B2 (en) 2004-09-30 2008-05-13 Siemens Aktiengesellschaft Model based diagnosis and repair for event logs
US20060085690A1 (en) * 2004-10-15 2006-04-20 Dell Products L.P. Method to chain events in a system event log
US20060123108A1 (en) * 2004-12-08 2006-06-08 Parthasarathy Sarangam Embedding a unique identifier in asset information to identify the source of an event
JP4613598B2 (ja) * 2004-12-10 2011-01-19 株式会社日立製作所 ディスクシステム
US20060155848A1 (en) * 2005-01-10 2006-07-13 Brown William A Workflow decision management including identifying user reaction to workflows
US20060156276A1 (en) * 2005-01-10 2006-07-13 Brown William A Workflow decision management with heuristics
CN100433642C (zh) * 2005-03-15 2008-11-12 华为技术有限公司 一种故障定位和故障排除方法和系统
JP4652090B2 (ja) * 2005-03-15 2011-03-16 富士通株式会社 事象通知管理プログラム、事象通知管理装置及び事象通知管理方法
JP4506520B2 (ja) * 2005-03-16 2010-07-21 日本電気株式会社 管理サーバ、メッセージの抽出方法、及び、プログラム
US20060235655A1 (en) * 2005-04-18 2006-10-19 Qing Richard X Method for monitoring function execution
JP2006350654A (ja) * 2005-06-15 2006-12-28 Yaskawa Information Systems Co Ltd サーバ計算機
CN100479575C (zh) * 2005-06-30 2009-04-15 华为技术有限公司 在设备管理中实现预定操作的方法及装置
US7937344B2 (en) 2005-07-25 2011-05-03 Splunk Inc. Machine data web
US7865461B1 (en) * 2005-08-30 2011-01-04 At&T Intellectual Property Ii, L.P. System and method for cleansing enterprise data
US7934116B2 (en) * 2005-09-30 2011-04-26 Lockheed Martin Corporation Disaster recover/continuity of business adaptive solution framework
US8155119B2 (en) * 2005-11-01 2012-04-10 International Business Machines Corporation Intermediate message invalidation
US20070100990A1 (en) 2005-11-01 2007-05-03 Brown William A Workflow decision management with workflow administration capacities
US8010700B2 (en) * 2005-11-01 2011-08-30 International Business Machines Corporation Workflow decision management with workflow modification in dependence upon user reactions
US20070100884A1 (en) * 2005-11-01 2007-05-03 Brown William A Workflow decision management with message logging
JP4774929B2 (ja) * 2005-11-07 2011-09-21 富士通株式会社 監視装置、監視システム
CN100407656C (zh) * 2005-12-09 2008-07-30 华为技术有限公司 对终端设备进行管理的方法和系统
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
US7698597B2 (en) * 2006-02-28 2010-04-13 International Business Machines Corporation Method of isolating erroneous software program components
US7437359B2 (en) * 2006-04-05 2008-10-14 Arcsight, Inc. Merging multiple log entries in accordance with merge properties and mapping properties
US8635596B2 (en) 2006-04-21 2014-01-21 Microsoft Corporation Model-based event processing
US20070294590A1 (en) * 2006-05-16 2007-12-20 Texas Instruments Incorporated Compression scheme to reduce the bandwidth requirements for continuous trace stream encoding of system performance
CN100454272C (zh) * 2006-05-30 2009-01-21 上海科泰世纪科技有限公司 软件构件处理错误信息的方法
CN101131747B (zh) * 2006-08-22 2012-02-01 国际商业机器公司 捕获和/或分析客户端的Web页面事件的方法、装置及系统
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム
US8117461B2 (en) 2006-09-13 2012-02-14 Igt Method of randomly and dynamically checking configuration integrity of a gaming system
KR101266267B1 (ko) 2006-10-05 2013-05-23 스플렁크 인코퍼레이티드 시계열 검색 엔진
JP4585534B2 (ja) * 2007-03-01 2010-11-24 富士通株式会社 システム監視プログラム、システム監視方法およびシステム監視装置
WO2008129635A1 (ja) * 2007-04-12 2008-10-30 Fujitsu Limited 性能障害要因分析プログラムおよび性能障害要因分析装置
US8205215B2 (en) * 2007-05-04 2012-06-19 Microsoft Corporation Automated event correlation
US8095819B2 (en) 2007-06-06 2012-01-10 Nec Corporation Communication network failure cause analysis system, failure cause analysis method, and failure cause analysis program
JP4367962B2 (ja) * 2007-06-19 2009-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
JP4400834B2 (ja) * 2007-06-20 2010-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
US8316380B2 (en) * 2007-09-21 2012-11-20 Sap Ag Process log supporting multiple flavors of processes
EP2215775A1 (en) * 2007-11-21 2010-08-11 Motive, Incorporated System and method for identifying and calling a function of a service
JP2009217455A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd 情報処理装置、情報処理プログラム及び方法
US8219582B2 (en) * 2008-04-25 2012-07-10 International Business Machines Corporation System, method, and computer readable media for identifying a user-initiated log file record in a log file
US8090994B2 (en) * 2008-05-21 2012-01-03 International Business Machines Corporation System, method, and computer readable media for identifying a log file record in a log file
JP5198159B2 (ja) * 2008-06-13 2013-05-15 株式会社日立製作所 クライアント端末の管理システム
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP4753193B2 (ja) * 2008-07-31 2011-08-24 九州日本電気ソフトウェア株式会社 動線管理システムおよびプログラム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP5220555B2 (ja) * 2008-10-30 2013-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP5220556B2 (ja) * 2008-10-30 2013-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP5258040B2 (ja) * 2008-10-30 2013-08-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
US7992055B1 (en) * 2008-11-07 2011-08-02 Netapp, Inc. System and method for providing autosupport for a security system
KR101547721B1 (ko) * 2008-11-27 2015-08-26 인터내셔널 비지네스 머신즈 코포레이션 검출 이벤트에 따른 액션 실행을 지원하는 시스템, 검출 이벤트에 다른 액션 실행을 지원하는 방법, 지원 장치 및 컴퓨터 프로그램
JP5527503B2 (ja) * 2009-02-13 2014-06-18 富士ゼロックス株式会社 監視装置および情報処理システムおよびプログラム
JP5434155B2 (ja) * 2009-03-10 2014-03-05 日本電気株式会社 情報処理システム、メッセージ管理方法及びメッセージ管理プログラム
EP2455863A4 (en) 2009-07-16 2013-03-27 Hitachi Ltd MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE
US9389877B2 (en) 2009-07-20 2016-07-12 Google Technology Holdings LLC Multi-environment operating system
US20110047181A1 (en) * 2009-08-18 2011-02-24 Malnati James R Method and system for identifying commonality among pattern definitions
US20110047173A1 (en) * 2009-08-18 2011-02-24 Malnati James R Method and system for filtering matching content
US8255525B2 (en) * 2009-08-19 2012-08-28 International Business Machines Corporation System and method for circuit and path based event correlation
KR101277274B1 (ko) 2009-11-27 2013-06-20 한국전자통신연구원 자원 간의 물리적/논리적 관계를 맵핑하는 방법 및 장치
US8627138B1 (en) * 2010-03-26 2014-01-07 Emc Corporation Data protection system and method
US20110289117A1 (en) * 2010-05-19 2011-11-24 International Business Machines Corporation Systems and methods for user controllable, automated recording and searching of computer activity
US8595553B2 (en) * 2010-06-03 2013-11-26 Siemens Aktiengesellschaft Error pattern identification in an installed base of systems
CN101854263B (zh) * 2010-06-13 2013-03-13 北京星网锐捷网络技术有限公司 网络拓扑的分析处理方法、系统和管理服务器
JP5447668B2 (ja) * 2010-06-30 2014-03-19 富士通株式会社 証跡ログ解析システム、証跡ログ解析プログラム、および証跡ログ解析方法
JP4993005B2 (ja) * 2010-07-12 2012-08-08 株式会社日立製作所 ディスクシステム
JP5041044B2 (ja) * 2010-07-21 2012-10-03 富士通株式会社 システム監視プログラム、システム監視方法およびシステム監視装置
US20120066694A1 (en) 2010-09-10 2012-03-15 International Business Machines Corporation Event overflow handling by coalescing and updating previously-queued event notification
CN102346756B (zh) * 2010-12-24 2013-04-03 镇江诺尼基智能技术有限公司 一种设备故障解决方案知识管理与检索系统及方法
JP5609637B2 (ja) * 2010-12-28 2014-10-22 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
US20120239681A1 (en) 2011-03-14 2012-09-20 Splunk Inc. Scalable interactive display of distributed data
WO2012132388A1 (ja) * 2011-03-28 2012-10-04 日本電気株式会社 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム
JP5803246B2 (ja) * 2011-05-02 2015-11-04 日本電気株式会社 ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
US8719232B2 (en) * 2011-06-30 2014-05-06 Verisign, Inc. Systems and methods for data integrity checking
JP5707263B2 (ja) * 2011-07-14 2015-04-22 Kddi株式会社 障害発生箇所診断システムおよび障害発生箇所診断方法
JP6031224B2 (ja) * 2011-09-27 2016-11-24 Kddi株式会社 障害発生箇所診断システム
JP5751336B2 (ja) * 2011-10-18 2015-07-22 富士通株式会社 情報処理装置、時刻補正値決定方法、およびプログラム
JP5692414B2 (ja) * 2011-12-15 2015-04-01 富士通株式会社 検知装置、検知プログラムおよび検知方法
JP5741418B2 (ja) * 2011-12-19 2015-07-01 富士通株式会社 障害検出方法および障害検出システム
WO2013128550A1 (ja) * 2012-02-27 2013-09-06 株式会社日立製作所 監視システム及び監視プログラム
JP5924073B2 (ja) * 2012-03-30 2016-05-25 富士通株式会社 制御プログラム、制御方法および制御装置
US9342325B2 (en) 2012-05-17 2016-05-17 Google Technology Holdings LLC Synchronizing launch-configuration information between first and second application environments that are operable on a multi-modal device
US9213590B2 (en) * 2012-06-27 2015-12-15 Brocade Communications Systems, Inc. Network monitoring and diagnostics
JP5978804B2 (ja) 2012-07-02 2016-08-24 富士通株式会社 システムを管理するためのプログラム、方法及び情報処理装置
US9917800B2 (en) * 2012-08-24 2018-03-13 Cisco Technology, Inc. System and method for centralized virtual interface card driver logging in a network environment
US20140208217A1 (en) 2013-01-22 2014-07-24 Splunk Inc. Interface for managing splittable timestamps across event records
US9594814B2 (en) 2012-09-07 2017-03-14 Splunk Inc. Advanced field extractor with modification of an extracted field
US10394946B2 (en) 2012-09-07 2019-08-27 Splunk Inc. Refining extraction rules based on selected text within events
US8751963B1 (en) 2013-01-23 2014-06-10 Splunk Inc. Real time indication of previously extracted data fields for regular expressions
US8682906B1 (en) 2013-01-23 2014-03-25 Splunk Inc. Real time display of data field values based on manual editing of regular expressions
US9753909B2 (en) 2012-09-07 2017-09-05 Splunk, Inc. Advanced field extractor with multiple positive examples
WO2014043623A1 (en) * 2012-09-17 2014-03-20 Siemens Corporation Log-based predictive maintenance
US9071510B2 (en) * 2012-10-25 2015-06-30 Hewlett-Packard Development Company, L.P. Determining root causes of network issues
US9152929B2 (en) 2013-01-23 2015-10-06 Splunk Inc. Real time display of statistics and values for selected regular expressions
CN103207820B (zh) * 2013-02-05 2016-06-29 北京百度网讯科技有限公司 基于raid卡日志的硬盘的故障定位方法及装置
US9715282B2 (en) * 2013-03-29 2017-07-25 Microsoft Technology Licensing, Llc Closing, starting, and restarting applications
CN104102657B (zh) * 2013-04-09 2017-08-25 富士通株式会社 信息处理装置以及信息处理方法
JP6030996B2 (ja) * 2013-05-24 2016-11-24 株式会社日立製作所 情報管理装置及び情報管理方法
KR102168212B1 (ko) * 2014-04-15 2020-10-21 엘에스일렉트릭(주) 어플리케이션 로그 데이터의 처리 장치 및 그 방법
WO2014196129A1 (ja) * 2013-06-03 2014-12-11 日本電気株式会社 障害分析装置、障害分析方法、および、記録媒体
US10523728B1 (en) * 2013-06-28 2019-12-31 EMC IP Holding Company LLC Ingesting data from managed elements into a data analytics platform
WO2015042937A1 (zh) * 2013-09-30 2015-04-02 华为技术有限公司 故障管理的方法、实体和系统
US9246935B2 (en) 2013-10-14 2016-01-26 Intuit Inc. Method and system for dynamic and comprehensive vulnerability management
EP2866144B1 (en) 2013-10-28 2020-03-25 Software AG Self-correcting complex event processing system and corresponding method for error correction
US9313281B1 (en) 2013-11-13 2016-04-12 Intuit Inc. Method and system for creating and dynamically deploying resource specific discovery agents for determining the state of a cloud computing environment
US9501345B1 (en) * 2013-12-23 2016-11-22 Intuit Inc. Method and system for creating enriched log data
US9323926B2 (en) 2013-12-30 2016-04-26 Intuit Inc. Method and system for intrusion and extrusion detection
CN103701926B (zh) * 2013-12-31 2017-06-16 小米科技有限责任公司 一种获取故障原因信息的方法、装置和系统
US20150304343A1 (en) 2014-04-18 2015-10-22 Intuit Inc. Method and system for providing self-monitoring, self-reporting, and self-repairing virtual assets in a cloud computing environment
US9325726B2 (en) 2014-02-03 2016-04-26 Intuit Inc. Method and system for virtual asset assisted extrusion and intrusion detection in a cloud computing environment
US10757133B2 (en) 2014-02-21 2020-08-25 Intuit Inc. Method and system for creating and deploying virtual assets
US9866581B2 (en) 2014-06-30 2018-01-09 Intuit Inc. Method and system for secure delivery of information to computing environments
US9276945B2 (en) 2014-04-07 2016-03-01 Intuit Inc. Method and system for providing security aware applications
JP6008404B2 (ja) * 2014-03-14 2016-10-19 Necフィールディング株式会社 情報管理装置、情報管理方法、及びプログラム
US9753818B2 (en) 2014-09-19 2017-09-05 Splunk Inc. Data forwarding using multiple data pipelines
US9838346B2 (en) 2014-03-17 2017-12-05 Splunk Inc. Alerting on dual-queue systems
US9660930B2 (en) 2014-03-17 2017-05-23 Splunk Inc. Dynamic data server nodes
US9245117B2 (en) 2014-03-31 2016-01-26 Intuit Inc. Method and system for comparing different versions of a cloud based application in a production environment using segregated backend systems
US9626414B2 (en) * 2014-04-14 2017-04-18 International Business Machines Corporation Automatic log record segmentation
US11294700B2 (en) 2014-04-18 2022-04-05 Intuit Inc. Method and system for enabling self-monitoring virtual assets to correlate external events with characteristic patterns associated with the virtual assets
US9374389B2 (en) 2014-04-25 2016-06-21 Intuit Inc. Method and system for ensuring an application conforms with security and regulatory controls prior to deployment
US9900322B2 (en) 2014-04-30 2018-02-20 Intuit Inc. Method and system for providing permissions management
US9319415B2 (en) 2014-04-30 2016-04-19 Intuit Inc. Method and system for providing reference architecture pattern-based permissions management
US9330263B2 (en) 2014-05-27 2016-05-03 Intuit Inc. Method and apparatus for automating the building of threat models for the public cloud
CN103995762A (zh) * 2014-06-06 2014-08-20 山东超越数控电子有限公司 一种诊断板卡故障的方法
JP6295857B2 (ja) 2014-06-27 2018-03-20 富士通株式会社 抽出方法、装置、及びプログラム
US10102082B2 (en) 2014-07-31 2018-10-16 Intuit Inc. Method and system for providing automated self-healing virtual assets
US9473481B2 (en) 2014-07-31 2016-10-18 Intuit Inc. Method and system for providing a virtual asset perimeter
US9612897B1 (en) * 2014-12-12 2017-04-04 State Farm Mutual Automobile Insurance Company Method and system for detecting system outages using application event logs
US9922037B2 (en) 2015-01-30 2018-03-20 Splunk Inc. Index time, delimiter based extractions and previewing for use in indexing
WO2016175845A1 (en) * 2015-04-30 2016-11-03 Hewlett Packard Enterprise Development Lp Aggregation based event identification
US10909018B2 (en) 2015-09-04 2021-02-02 International Business Machines Corporation System and method for end-to-end application root cause recommendation
US10318366B2 (en) * 2015-09-04 2019-06-11 International Business Machines Corporation System and method for relationship based root cause recommendation
JP6631908B2 (ja) * 2015-09-07 2020-01-15 パナソニックIpマネジメント株式会社 情報処理装置、不具合原因特定方法及びプログラム
US10474519B2 (en) * 2015-09-17 2019-11-12 Netapp, Inc. Server fault analysis system using event logs
JP6597231B2 (ja) * 2015-11-27 2019-10-30 富士通株式会社 演算装置、プログラム、情報処理方法
US10599509B2 (en) * 2015-12-21 2020-03-24 Hitachi, Ltd. Management system and management method for computer system
US10528427B1 (en) * 2016-06-09 2020-01-07 Intuit, Inc. Self-healing system for distributed services and applications
CN107544780B (zh) * 2016-06-23 2021-11-30 北京忆恒创源科技股份有限公司 一种操作系统的安装方法与安装装置
CN106201757B (zh) * 2016-07-12 2020-05-26 网易(杭州)网络有限公司 一种异常处理方法和装置
US10331693B1 (en) * 2016-09-12 2019-06-25 Amazon Technologies, Inc. Filters and event schema for categorizing and processing streaming event data
US10379929B2 (en) * 2016-12-19 2019-08-13 Microsoft Technology Licensing, Llc Enhanced diagnostic and remediation system
US10496467B1 (en) 2017-01-18 2019-12-03 Amazon Technologies, Inc. Monitoring software computations of arbitrary length and duration
WO2018137765A1 (en) * 2017-01-26 2018-08-02 Telefonaktiebolaget Lm Ericsson (Publ) System and method for analyzing network performance data
EP3573727A1 (en) 2017-01-26 2019-12-04 Telefonaktiebolaget LM Ericsson (publ) System and method for analysing sports permormance data
JP6859831B2 (ja) * 2017-04-25 2021-04-14 富士通株式会社 生成プログラム、生成装置及び生成方法
US10467084B2 (en) * 2017-06-15 2019-11-05 Oracle International Corporation Knowledge-based system for diagnosing errors in the execution of an operation
US10409685B2 (en) * 2017-07-24 2019-09-10 Uber Technologies, Inc. Recovery of application functions via analysis of application operational requests
US11126494B2 (en) * 2017-10-31 2021-09-21 Paypal, Inc. Automated, adaptive, and auto-remediating system for production environment
US11113138B2 (en) * 2018-01-02 2021-09-07 Carrier Corporation System and method for analyzing and responding to errors within a log file
US10764149B2 (en) * 2018-09-12 2020-09-01 The Mitre Corporation Cyber-physical system evaluation
US11354320B2 (en) * 2018-10-11 2022-06-07 International Business Machines Corporation Determining causes of events in data
CN109714214B (zh) * 2018-12-29 2021-08-27 网宿科技股份有限公司 一种服务器异常的处理方法及管理设备
US10733213B2 (en) * 2018-12-31 2020-08-04 Iguazio Systems Ltd. Structuring unstructured machine-generated content
US10691728B1 (en) * 2019-08-13 2020-06-23 Datadog, Inc. Transforming a data stream into structured data
US10985970B1 (en) * 2019-10-18 2021-04-20 Splunk Inc. Automatic actionable event responder for operational clusters
JP6948470B1 (ja) * 2020-03-19 2021-10-13 株式会社日立製作所 修理支援システムおよび修理支援方法
JP2022006603A (ja) * 2020-06-24 2022-01-13 オムロン株式会社 ログ処理装置および制御プログラム
US11314510B2 (en) 2020-08-14 2022-04-26 International Business Machines Corporation Tracking load and store instructions and addresses in an out-of-order processor
CN114077525A (zh) * 2020-08-17 2022-02-22 鸿富锦精密电子(天津)有限公司 异常日志处理方法、装置、终端设备、云服务器及系统
US11474892B2 (en) 2020-12-03 2022-10-18 International Business Machines Corporation Graph-based log sequence anomaly detection and problem diagnosis
US11243835B1 (en) 2020-12-03 2022-02-08 International Business Machines Corporation Message-based problem diagnosis and root cause analysis
US11797538B2 (en) 2020-12-03 2023-10-24 International Business Machines Corporation Message correlation extraction for mainframe operation
US11513930B2 (en) 2020-12-03 2022-11-29 International Business Machines Corporation Log-based status modeling and problem diagnosis for distributed applications
US11599404B2 (en) 2020-12-03 2023-03-07 International Business Machines Corporation Correlation-based multi-source problem diagnosis
US11403326B2 (en) 2020-12-03 2022-08-02 International Business Machines Corporation Message-based event grouping for a computing operation
JP7047054B2 (ja) * 2020-12-28 2022-04-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 試験自動化装置、試験方法、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0824291B2 (ja) * 1993-03-25 1996-03-06 日本電気株式会社 ネットワーク管理システム
CN1286010C (zh) * 1994-04-05 2006-11-22 英特尔公司 监视与控制网络中的程序的方法与装置
US5768501A (en) * 1996-05-28 1998-06-16 Cabletron Systems Method and apparatus for inter-domain alarm correlation
JPH10105440A (ja) * 1996-09-25 1998-04-24 Hitachi Ltd システム障害監視装置及び記録媒体
JPH11232145A (ja) 1998-02-13 1999-08-27 Sharp Corp ログ情報記録装置
JPH11308222A (ja) * 1998-04-22 1999-11-05 Sumitomo Electric Ind Ltd ネットワーク管理システム
FR2802663B1 (fr) * 1999-12-21 2002-01-25 Bull Sa Procede de correlation d'alarmes dans un systeme d'administration hierarchisee
JP3760078B2 (ja) * 2000-03-14 2006-03-29 富士通株式会社 ネットワーク管理装置及びプログラム記録媒体
JP2001256032A (ja) * 2000-03-14 2001-09-21 Mitsubishi Electric Corp 障害メッセージ表示装置
US6604208B1 (en) * 2000-04-07 2003-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Incremental alarm correlation method and apparatus
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
JP2002342180A (ja) * 2001-05-15 2002-11-29 Nec Corp 障害自動監視復旧システム
JP2002342182A (ja) 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
US7051244B2 (en) * 2002-10-31 2006-05-23 Hewlett-Packard Development Company, L.P. Method and apparatus for managing incident reports

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206083A (ja) * 2012-03-28 2013-10-07 Nippon Telegraph & Telephone East Corp 運用サイト切り替えシステム、運用サイト切り替え装置、運用サイト切り替え方法及び運用サイト切り替えプログラム
JP2019049802A (ja) * 2017-09-08 2019-03-28 日本電気株式会社 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム

Also Published As

Publication number Publication date
US7506195B2 (en) 2009-03-17
AU2002359925B2 (en) 2008-10-23
WO2004061681A1 (ja) 2004-07-22
JP4318643B2 (ja) 2009-08-26
US20050172162A1 (en) 2005-08-04
EP1577783A1 (en) 2005-09-21
CN1650274A (zh) 2005-08-03
EP1577783A4 (en) 2008-04-16
AU2002359925A1 (en) 2004-07-29

Similar Documents

Publication Publication Date Title
JP4318643B2 (ja) 運用管理方法、運用管理装置および運用管理プログラム
JP5274652B2 (ja) 原因分析構成変更のための方法および装置
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
JP2011076161A (ja) インシデント管理システム
EP3663919A1 (en) System and method of automated fault correction in a network environment
US20100131315A1 (en) Resolving incident reports
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
US8090994B2 (en) System, method, and computer readable media for identifying a log file record in a log file
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
JP5417264B2 (ja) 分析情報提供方法
CN108173711B (zh) 企业内部系统数据交换监控方法
CN115186001A (zh) 一种补丁处理方法和装置
JP2006099249A (ja) 障害管理装置および障害管理方法
CN112486716B (zh) 计算机io hung事件的预警方法、装置、设备和介质
CN114500249A (zh) 一种根因定位方法和装置
JP5444071B2 (ja) 障害情報収集システムと方法およびプログラム
CN112966056A (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
JP5679347B2 (ja) 障害検知装置、障害検知方法、及びプログラム
CN112068979A (zh) 一种业务故障确定方法及装置
JP3992029B2 (ja) オブジェクト管理方法
JP7339542B2 (ja) 管理装置、管理システムおよび管理方法
TWI828506B (zh) 安全基準評估系統及其方法
JP2019057195A (ja) 管理システム、管理方法、及び管理プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090526

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4318643

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130605

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130605

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees