WO2015177840A1

WO2015177840A1 - 監視方法、監視装置及び記憶媒体

Info

Publication number: WO2015177840A1
Application number: PCT/JP2014/063239
Authority: WO
Inventors: 健太郎角井; 英男高橋; 高弘野澤
Original assignee: 株式会社日立製作所
Priority date: 2014-05-19
Filing date: 2014-05-19
Publication date: 2015-11-26

Abstract

【課題】　障害予兆検知処理の処理結果を迅速に提供し得る監視方法、監視装置及び記憶媒体を提案する。【解決手段】　監視対象システムにおける基準指標及びターゲット指標を含む複数の指標についての計測値を取得し、複数の指標の計測値に基づいて、基準指標の将来の値でなる予測値を予測し、監視対象システムのシステムモデル及び当該システムモデルの一部であるサブモデルを生成し、基準指標の予測値及び生成したサブモデルに基づいて、ターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論するようにした。

Description

監視方法、監視装置及び記憶媒体

　本発明は、監視方法、監視装置及び記憶媒体に関し、特に監視対象システムの稼働状況を監視し、システムに障害が発生する予兆を確率的な推論により検知し、推論の結果を通知する監視装置に適用して好適なものである。

　情報処理システムが企業活動や社会インフラの基盤としてますます重要な位置を占めるようになるにつれ、情報処理システムが提供するサービスの内容や品質についてＳＬＡ（Service Level Agreement）／ＳＬＯ（Service Level Objective）という形で具体的な数値目標を設定することが広く行われるようになった。

　その帰結として、こうした情報処理システムにおける障害の発生を早期に検知し、又は発生した障害の根本原因を分析して迅速な対処を図ることを目的とした様々な技術が開発され、システムの運用管理業務に適用されている。さらに近年では、こうした障害の発生に先立って、その予兆を検知しようとする障害予兆検知技術の重要性が注目されている。

　例えば特許文献１には、イベントログ及びシステムパラメタログといった情報を予測モデルに入力することで、コンピュータクラスタにおける重要イベントの発生を予測可能なハイブリッド予測システムが開示されている。このハイブリッド予測システムでは、確率モデルの一種であるベイジアンネットワークを用いて障害予兆検知を行う。

　ベイジアンネットワークを用いた予測は一般に確率推論と呼ばれる。これは、複数の確率変数の依存関係を表現する非循環有向グラフと条件付き確率表から、確率変数の周辺事後確率を求める演算である。ベイジアンネットワーク及び確率推論については、例えば非特許文献１に開示されている。

米国特許第７，８９５，３２３号明細書

Daphne Koller and Nir Friedman. 2009. Probabilistic Graphical Models: Principles and Techniques - Adaptive Computation and Machine Learning. The MIT Press

　ところで、確率推論の演算はＮＰ困難問題として知られており（非特許文献１を参照）、一般的にその計算量は、ベイジアンネットワークが含むノード数に対して指数関数的に増加する。

　近年の高度化、複雑化した情報処理システムには大量の監視ポイントが設定可能であり、それらから収集した監視データをベイジアンネットワークによりモデル化すると、必然的に多数のノードにより構成される大規模なモデルになることが想定される。こうしたモデルによる障害予兆検知は、計算量の増大に対してなんらかの対策を取らねばならない。

　仮に、障害予兆検知をサービスとして提供するのであれば、一定のインターバルを置いて確率推論をバッチ的に実行し、その結果を提示するといった運用により、演算を行う時間的な猶予を確保することができる。

　一方で、こうした高度な情報処理システムは、サーバのような物理的に独立した計算資源の単位を超えて、論理的に別個の複数のアプリケーションプログラムがデプロイメントされ、それらがデータベース管理サーバのような資源を共有するといった態様があり得る。そして、複数のアプリケーションプログラムについてそれぞれ個別の運用管理担当者が運用管理を担当するであろう。

　こうした態様では、障害予兆検知サービスが一律に提供する予測結果ではなく、当該障害予兆検知サービスの利用者である運用管理担当者が、障害予兆検知の前提条件を各々の関心の範囲で任意に設定し、その条件に基づいた予測結果を得ようとすることが考えられる。このようなインタラクティブに確率推論を実行する態様においては、バッチ実行のような時間的猶予はない。

　以上述べたような、ベイジアンネットワークでモデル化する情報処理システムの大規模化、計算資源の論理的な分割と関心範囲の多層化、インタラクティブ実行の必要性といった条件を鑑みるに、確率推論の高速化が必要である。またその方法は、確率推論を行うベイジアンネットワークのノード数の削減によって達成せねばならない。確率推論は厳密解法も近似解法もＮＰ困難であるためである。

　本発明は以上の点を考慮してなされたものであり、障害予兆検知処理の処理結果を迅速に提供し得る監視方法、監視装置及び記憶媒体を提案しようとするものである。

　かかる課題を解決するため本発明においては、１又は複数の計算機から構成される監視対象システムの稼働状況を監視し、当該監視対象システムにおける障害発生の予兆検知を行う監視装置において実行される監視方法において、前記監視装置は、各種処理に必要な情報が格納された記憶装置と、前記記憶装置に格納された前記情報を参照して処理を実行する処理部とを有し、前記処理部が、前記監視対象システムにおける基準指標及びターゲット指標を含む複数の指標についての計測値を取得する第１のステップと、前記処理部が、複数の前記指標の計測値に基づいて、前記基準指標の将来の値でなる予測値を予測する第２のステップと、前記処理部が、前記監視対象システムのシステムモデル及び当該システムモデルの一部であるサブモデルを生成し、前記基準指標の予測値及び生成した前記サブモデルに基づいて、前記ターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論する第３のステップとを設けるようにした。

　また本発明においては、１又は複数の計算機から構成される監視対象システムの稼働状況を監視し、当該監視対象システムにおける障害発生の予兆検知を行う監視装置において、各種処理に必要な情報が格納された記憶装置と、前記記憶装置に格納された前記情報を参照して処理を実行する処理部とを有し、前記処理部は、前記監視対象システムにおける基準指標及びターゲット指標を含む複数の指標についての計測値を取得するデータ取得部と、複数の前記指標の計測値に基づいて、前記基準指標の将来の値でなる予測値を予測する予測部と、前記監視対象システムのシステムモデルを生成する一方、当該システムモデルの一部であるサブモデルを生成するモデル生成部と、前記基準指標の予測値及び生成した前記サブモデルに基づいて、前記ターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論する確率推論部とを設けるようにした。

　さらに本発明においては、監視プログラムが格納された記憶媒体において、監視プログラムは、１又は複数の計算機から構成される監視対象システムの稼働状況を監視し、当該監視対象システムにおける障害発生の予兆検知を行う監視装置に、前記監視対象システムにおける基準指標及びターゲット指標を含む複数の指標についての計測値を取得する第１のステップと、複数の前記指標の計測値に基づいて、前記基準指標の将来の値でなる予測値を予測する第２のステップと、前記監視対象システムのシステムモデル及び当該システムモデルの一部であるサブモデルを生成し、前記基準指標の予測値及び生成した前記サブモデルに基づいて、前記ターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論する第３のステップとを備える処理を実行させるようにした。

　本監視方法、監視装置及び監視プログラムによれば、システムモデルを用いてターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論する場合と比して、格段的に少ない計算量でかかる推論を行うことができる。

　本発明によれば、障害予兆検知処理の処理結果を迅速に提供することができる。

情報処理装置の構成例を示すブロック図である。第１～第３の実施の形態による情報処理システムの構成例を示すブロック図である。監視対象システムの構成例を示すブロック図である。予兆サーバの構成例を示すブロック図である。システムプロファイルテーブルの構成例を示す概念図である。ベイジアンネットワークのグラフ構造の一例を示す図である。ベイジアンネットワークのグラフ構造の別の一例を示す図である。アプリケーション業務サーバ対応テーブルの構成例を示す概念図である。アプリケーション指標テーブルの構成例を示す概念図である。アプリケーションノードテーブルの構成例を示す概念図である。アプリケーション境界を明示したベイジアンネットワークのグラフ構造の一例を示す図である。アプリケーション境界に従って部分グラフを抽出したベイジアンネットワークのグラフ構造の一例を示す図である。システムモデルリポジトリの構成例を示す概念図である。予測モデルリポジトリの構成例を示す概念図である。予測プロファイルの構成例を示す概念図である。障害予兆検知処理の処理手順を示すフローチャートである。時系列予測処理の処理手順を示すフローチャートである。確率推論処理の処理手順を示すフローチャートである。第１の実施の形態によるサブモデル生成処理の処理手順を示すフローチャートである。クライアント画面における情報表示例を示すレイアウト図である。クライアント画面における他の情報表示例を示すレイアウト図である。第２の実施の形態によるサブモデル生成処理の処理手順を示すフローチャートである。第３の実施の形態によるサブモデル生成処理の処理手順を示すフローチャートである。

　以下図面について、本発明の一実施の形態を詳述する。

（１）第１の実施の形態
（１－１）情報処理装置の構成
　図１は、情報処理装置の構成例を示す。情報処理装置１は、例えばラックマウントサーバ、ブレードサーバ又はパーソナルコンピュータなどから構成され、プロセッサ２、メモリ３、ストレージ４、ネットワークインタフェース５及びコンソール６を備える。プロセッサ２は、メモリ３、ストレージ４、ネットワークインタフェース５及びコンソール６と接続される。

　プロセッサ２は、ＣＰＵ（Central Processing Unit）等のハードウェアである。メモリ３は、例えば揮発性の半導体メモリから構成され、プログラムやデータを一時的に保持するために利用される。またストレージ４は、例えばハードディスクドライブ（ＨＤＤ：Hard Disk Drive）、ソリッドステートドライブ（ＳＳＤ：Solid State Drive）、又はこれらを複数台組み合わせた記憶装置から構成され、プログラムやデータを長期間保持するために利用される。

　ストレージ４に格納されたオペレーティングシステム（ＯＳ：Operating System）７やユーザプロセス８が情報処理装置１の起動時やその実行時にメモリ３に読み出され、メモリ３に読み出されたこれらオペレーティングシステム７及びユーザプロセス８をプロセッサ２が実行することにより、情報処理装置１全体として後述のような各種処理が行われる。

　ネットワークインタフェース５は、例えばＮＩＣ（Network Interface Card）などから構成され、ネットワークスイッチ９を経由してネットワーク１０と接続される。ネットワークインタフェース５は、ネットワーク１０を介した他の情報処理装置との通信時におけるプロトコル制御を行う。なおネットワーク１０としては、例えばイーサネット（登録商標）や、ＩＥＥＥ（Institute of Electrical and Electronics Engineers）８０２．１１規格に基づく無線ネットワーク、ＳＤＨ／ＳＯＮＥＴ（Synchronous Optical Network/Synchronous Digital Hierarchy）規格に基づく広域ネットワーク、又は、これら複数のネットワーク技術を組み合わせたネットワークを適用することができる。

　コンソール６は、例えばキーボード及びマウス等の入力装置と、液晶パネル等のディスプレイ装置とから構成され、入力装置から与えられる各種操作入力に応じた操作信号を受信して操作入力内容をプロセッサ２に通知したり、プロセッサ２から与えられるテキスト情報やグラフィカル情報に基づくテキストや画像等をディスプレイ装置に表示する。

　なお情報処理装置１は、プロセッサ２、メモリ３、ストレージ４、ネットワークインタフェース５及びコンソール６の一部又は全部を複数備えることがある。また、情報処理装置１及びオペレーティングシステム７の関係は１対１に限定されず、仮想化技術に基づき１つの情報処理装置１が複数のオペレーティングシステム７を実装することもあり得る。

（１－２）本実施の形態による監視サービスシステムの構成
　図２は、本実施の形態による情報処理システム２０の概略構成を示す。この図２に示すように、本情報処理システム２０は、顧客サイト２１に設けられた顧客側システム２２と、顧客側システム２２を監視するシステム監視サービスを提供するサービス提供者のサービスサイト２３に設けられたサービス提供者側システム２４とから構成される。顧客側システム２２及びサービス提供者側システム２４は、いずれも図１について上述した情報処理装置１を１つ以上含み、これら情報処理装置１がネットワーク１０及び１つ以上のネットワークスイッチ９を介して相互に接続されている。

　顧客サイト２１及びサービスサイト２３は、典型的には地理的な遠隔地にあり、広域ネットワークにより接続されるが、これ以外の態様、例えば顧客サイト２１及びサービスサイト２３が同一のデータセンタ内に存在し、データセンタ内のネットワークにより接続されていても良い。いずれの態様によっても、顧客サイト２１に存する情報処理装置１と、サービスサイト２３に存する情報処理装置１は、顧客サイト２１及びサービスサイト２３間を接続するネットワークを経由して相互に通信することができる。

　こうした顧客サイト２１及びサービスサイト２３間の通信は、情報セキュリティの維持を理由として、ネットワークルータやファイアウォール装置の設定により制限されることもあり得るが、本実施の形態において必要となる通信は、それらを可能ならしめるよう設定されているものとする。

　顧客側システム２２は、それぞれ図１について上述した情報処理装置１から構成される１又は複数の業務サーバ３０と、ログ収集装置３１及び監視制御クライアント３２と、１又は複数の業務クライアント３３とを備える。

　業務サーバ３０は、ユーザプロセス８（図１）としてアプリケーションプログラム３４が実装されており、プロセッサ２（図１）がこれを実行することにより業務クライアント３３からの要求に応じた処理を実行する。

　ログ収集装置３１は、各業務サーバ３０から、ＣＰＵ稼働率、メモリ消費量、同時接続ユーザ数及び平均応答時間などの計測値といったその業務サーバ３０の稼働状況を表す情報（以下、これをシステム統計情報と呼ぶ）３５を定期的に収集する。この処理は、ログ収集装置３１のストレージ４（図１）に記憶されたプログラムをプロセッサ２（図１）が実行することにより行われる。システム統計情報３５を収集する対象は典型的には業務サーバ３０であるが、これに限定するものではなく、その他の情報処理装置１、業務クライアント３３及び又はネットワークスイッチ９（図１）等をかかる対象に含めることができる。

　監視制御クライアント３２には、ユーザプロセス８としてＷｅｂブラウザ３６が実装される。Ｗｅｂブラウザ３６は、コンソール６（図１）から顧客側システム２２の運用管理担当者の指示を受信することを契機として、後述するサービス提供者側システム２４のポータルサーバ４２に対して情報（ここでは障害予知検知処理の処理結果）の提示を要求し、この要求に応じてポータルサーバ４２から送信されてきた情報をコンソール６に表示する。ただし、Ｗｅｂブラウザ３６が事前に決められた任意の間隔で情報の提示をポータルサーバ４２に要求するよう構成しても良い。また顧客側システム２２の運用管理担当者への情報提示方法としては、監視制御クライアント３２のコンソール６に情報を表示する方法以外にも、監視制御クライアント３２の外部にある情報処理装置への転送や電子メールの送信等、運用管理担当者にとって適切な任意の手段を採用することができる。

　業務クライアント３３には、顧客の業務内容に応じた業務クライアントプログラム３７がユーザプロセス８として実装される。業務クライアントプログラム３７は、業務サーバ３０で実行されているアプリケーションプログラム３４と通信を行いながら必要な処理を実行する。こうしたプログラム間の相互通信により、特定の業務上の目的を達成するようアプリケーションプログラムを構成する方法はクライアント・サーバ方式と呼ばれ、典型的にはＷｅｂアプリケーションという態様にて当業者には周知のものである。なお業務クライアント３３は、顧客サイト２１から離れて存在しても良い。こうした業務クライアント３３は、それぞれが接続されたネットワーク１０（図１）を経由して業務サーバ３０と通信を行う。

　サービス提供者側システム２４は、顧客側システム２２の稼働状況を監視し、顧客側システム２２に障害が発生する予兆を確率的な推論により検知し、推論の結果を通知するシステム監視サービスを提供するシステムであり、それぞれ図１について上述した情報処理装置１から構成される蓄積サーバ４０、予兆サーバ４１及びポータルサーバ４２を備える。

　蓄積サーバ４０は、ログ収集装置３１が収集した各業務サーバ３０のシステム統計情報３５を定期的に受信し、受信したシステム統計情報３５を蓄積する。システム統計情報３５を受信するための通信は、ログ収集装置３１がその契機となる通信を開始する方法や、逆に蓄積サーバ４０がその契機となる通信を開始する方法のいずれを選択しても良い。

　予兆サーバ４１は、蓄積サーバ４０が蓄積するシステム統計情報３５を受信し、受信したシステム統計情報３５に基づいて、顧客側システム２２の稼働状況を監視し、顧客側システム２２に障害が発生する予兆を確率的な推論により検知する処理（以下、これを障害予兆検知処理と呼ぶ）を実行する。

　ポータルサーバ４２は、蓄積サーバ４０が蓄積するシステム統計情報３５や、予兆サーバ４１により行われた障害予兆検知処理の処理結果を顧客側システム２２の監視制御クライアント３２（正確には、監視制御クライアント３２上で稼働するＷｅｂブラウザ３６）からの要求に応じてその監視制御クライアント３２に通知する。

　なお顧客側システム２２のログ収集装置３１及び監視制御クライアント３２や、サービス提供者側システム２４の蓄積サーバ４０、予兆サーバ４１及びポータルサーバ４２の一部又は全部を、処理負荷の分散や可用性の向上等を目的として、複数台設けるようにしても、また１台の情報処理装置１に上述した複数種類のサーバの役割を兼用させるようにしても良い。物理的な情報処理装置１と、そのサーバとしての役割の対応関係には自由度があり、図２はその多数の組み合わせの中の一例であることは留意されたい。

　以上のようにサービス提供者側システム２４の蓄積サーバ４０、予兆サーバ４１及びポータルサーバ４２をサービスサイト２３に設置することで、顧客サイト２１にこれらのサーバ群を設置することなく、顧客側システム２２に対する障害予兆検知を行うことができる。これら蓄積サーバ４０、予兆サーバ４１及びポータルサーバ４２は、データの蓄積や処理を目的として、大容量のストレージや高速なプロセッサ等のハードウェア資源を必要とするため、顧客にとってはそうした高性能かつ高価なハードウェアの導入が不要になる効果がある。

　また、図２は、顧客側システム２２及びサービス提供者側システム２４がそれぞれ１つである場合を例示しているが、これは顧客側システム２２ごとに個別のサービス提供者側システム２４を用意すべきことを意味するものではない。１つのサービス提供者側システム２４によって、複数の顧客側システム２２の障害予兆検知を行うこともできる。

　この場合、サービス提供者側システム２４は、複数の顧客側システム２２に対するシステム監視サービスに供される。例えば蓄積サーバ４０は、複数の顧客側システム２２の各ログ収集装置３１からそれぞれ送信されるシステム統計情報３５を蓄積し、ポータルサーバ４２は、複数の顧客側システム２２の各監視制御クライアント３２に対してそれぞれ情報の提供を行う。同様に、予兆サーバ４１は、複数の顧客側システム２２から収集したシステム統計情報３５に基づいて、個々の顧客側システム２２の障害予兆検知を行う。

　サービス提供者側システム２４が複数の顧客側システム２２に対する障害予兆検知処理を実行する場合、サービス提供者側システム２４内において、各顧客側システム２２からそれぞれ収集したシステム統計情報３５を区別して取り扱うために、個々の顧客側システム２２の区別に供するためのコードを共有する。こうしたコードの付与によりデータの区別やセキュリティ保護を行う方法は当業者には周知のことであるため、以下の説明ではこのコードについては言及しないものとする。また、以下においては、各テーブルにそれぞれ記憶された情報や、コンソール６（図１）が表示する情報に関しても、当該コードの説明は省略するものとする。

（１－３）監視対象システム
　図３は、サービス提供者側システム２４の監視対象となる、顧客側システム２２内の監視対象システム５０の構成例を示す。

　システム監視サービスにおける監視対象は、顧客側システム２２内の業務サーバ３０を単位とすることが多いが、これに限るものではない。上述のように、業務サーバ３０はユーザプロセス８（図１）としてアプリケーションプログラム３４（図２）を実装する。こうしたアプリケーションプログラム３４は、業務サーバ３０が単独で実行するとは限らない。むしろ、複数の業務サーバ３０に、それぞれ別個の役割を持つアプリケーションプログラム３４や、その実行を支援するミドルウェアといったプログラムが実装されており、これら複数のプログラムが相互に通信を行いつつ、ある業務上の目的を達成すべく実行されているのが通常の顧客側システム２２の態様である。

　一般に、こうした複数の情報処理装置に分散して実装された多数のプログラムが協調して動作する機能（以下、アプリケーションプログラムにより実現される機能をアプリケーションと呼ぶ）を分散アプリケーションと呼び、こうしたシステムを分散処理システムと呼ぶ。システム監視サービスにおいて、分散アプリケーションの実行に係る装置の一群を監視対象システム５０と呼ぶ。監視対象システム５０は、顧客側システム２２を構成する装置群を分界し区別する単位を成す。

　典型的には、業務サーバ３０は、ユーザプロセス８としてアプリケーションプログラム３４を実装する。業務クライアント３３は、ユーザプロセス８として業務クライアントプログラム３７を実装する。業務サーバ３０及び業務クライアント３３はいずれも複数が存在し、ネットワーク１０がこれらを相互に接続する。

　業務サーバ３０はアプリケーションプログラム３４を実装するが、その具備する機能や業務上の目的が異なる複数のアプリケーションプログラム３４が存在することがあり得る。また業務サーバ３０は、データベース管理システム（ＤＢＭＳ）といったミドルウェア５１を実装することもあり得る。

　こうした複数のアプリケーションプログラム３４及びミドルウェア５１が協調して動作する態様として、例えば図３では、あるアプリケーション５２は、「ＡＰ１」という業務サーバ３０及び「ＤＢ１」という業務サーバ３０が、また別のアプリケーション５２Ｂは、「ＡＰ２」という業務サーバ３０及び「ＤＢ１」という業務サーバ３０が、それぞれ相互に通信を行いつつ、それぞれ業務上の目的を達成するべく設定されている状態を示している。また別のアプリケーション５２Ｃは、アプリケーション５２Ａ及びアプリケーション５２Ｂのいずれとも重複しない「ＡＰ３」という業務サーバ３０と、「ＤＢ２」という業務サーバ３０とが相互に通信を行いつつ業務上の目的を達成する。

　このように、監視対象システム５０は複数のアプリケーション５２（５２Ａ～５２Ｃ）を含むことがある。そして、こうした複数のアプリケーション５２は同一の業務サーバ３０を共有することがある。

　一般に顧客側システム２２の運用管理業務では、顧客サイト２１に存する情報処理装置１の個別の稼働状況を把握するのに留まらず、監視対象となる顧客側システム２２全体又はアプリケーション５２全体としての稼働状況を把握する必要がある。

（１－４）予兆サーバの論理構成
（１－４－１）予兆サーバの概要
　図４は、サービス提供者側システム２４の予兆サーバ４１の論理構成を示す。予兆サーバ４１には、ユーザプロセス８として予兆エンジン６０が実装される。予兆エンジン６０は、ストレージ４（図１）に記憶された予兆エンジンプログラム（図示せず）をメモリ３（図１）に読み出し、読み出した予兆エンジンプログラムをプロセッサ２（図１）が実行することにより具現化される。

　予兆エンジン６０は、データ取得部６１、データ記憶部６２、モデル生成部６３、予測部６４及び推論部６５を備えて構成される。また予兆サーバ４１のメモリ３（図１）には、システムプロファイル６６、システムモデルリポジトリ６７、予測プロファイル６８及び予測モデルリポジトリ６９が格納されている。なお、これら情報は、メモリ３に代えてストレージ４（図１）に記憶しても良いし、他のサーバに格納しておき必要に応じて通信により取得するように構成しても良い。

　以下、予兆エンジン６０のデータ取得部６１、データ記憶部６２、モデル生成部６３、予測部６４及び推論部６５について説明する。なお、これらの実体はプログラム関数、プログラムモジュール、ライブラリ又はクラスインスタンス等であっても、これらを複合したものでも、また他の実体であっても良い。さらには、これらの各部が提供する処理を達成できるのであれば、各部はプログラム又はユーザプロセスとして明確に区別できる存在である必要はなく、予兆エンジンプログラム単体又はＯＳ等の他のプログラムと共同で各部が提供する処理を行えれば問題ない。

　予兆エンジン６０のデータ取得部６１は、蓄積サーバ４０に対してシステム統計情報３５を送信するよう要求し、当該要求に応じて蓄積サーバ４０から送信されるシステム統計情報３５を受信してデータ記憶部６２に格納する。またモデル生成部６３は、データ記憶部６２に記憶されたシステム統計情報３５と、後述のように予測部６４から与えられる予測値とに基づいて監視対象システム５０のシステムモデルを生成し、生成したシステムモデルをシステムモデルリポジトリ６７に格納する。

　予測部６４は、データ記憶部６２に記憶されたシステム統計情報３５と、予測プロファイル６８に格納された情報と、予測モデルリポジトリ６９に格納された情報とに基づいて後述する時系列予測処理を実行し、当該時系列予測処理により得られた予測値を推論部６５及びモデル生成部６３に通知する。推論部６５は、受領した予測値と、システムモデルリポジトリ６７に格納されたシステムモデルと、予測プロファイル６８に格納された情報とに基づいて確率推論処理を実行し、得られた確率値又は確率分布をポータルサーバ４２に送信する。予測部６４及び推論部６５が実行する以上の一連の処理が障害予兆検知処理である。

　予兆エンジン６０がポータルサーバ４２に確率値又は確率分布を送信するにあたっては、必ずしも障害予兆検知処理に同期して行う必要はなく、確率推論処理により得られた確率値又は確率分布をメモリ３（図１）やストレージ４（図１）に格納しておき、ポータルサーバ４２からの情報の提示要求に応じてポータルサーバ４２に送信するようにしても良い。

　以下、予兆サーバ４１が実行する障害予兆検知処理の核心をなす、システムプロファイル６６及びシステムモデルリポジトリ６７の構成と、予兆エンジン６０のモデル生成部６３、予測部６４及び推論部６５によりそれぞれ実行される各処理とについて具体的に説明する。

（１－４－２）システムプロファイルの構成
　システムプロファイル６６は、少なくとも図５に示すシステムプロファイルテーブル７０を備える。システムプロファイルテーブル７０は、予兆エンジン６０（図４）が図３について上述した監視対象システム５０を管理するために利用するテーブルであり、図５に示すように、システムＩＤフィールド７０Ａ、システム名フィールド７０Ｂ及び任意の個数の計測値フィールド７０Ｃから構成される。システムプロファイルテーブル７０の１つのレコード（行）は、１つの監視対象システム５０に対応する。

　そしてシステムＩＤフィールド７０Ａには、監視対象システム５０に付与されたその監視対象システム５０に固有の識別子（システムＩＤ）が格納され、システム名フィールド７０Ｂには、対応する監視対象システム５０を顧客側システム２２の運用管理担当者が特定できるよう付与された当該監視対象システム５０の名称（システム名）が格納される。

　また各計測値フィールド７０Ｃには、対応する監視対象システム５０を構成する各業務サーバ３０からログ収集装置３１がそれぞれ収集したシステム統計情報３５に含まれる個々の計測値の名称がそれぞれ格納される。よって、使用する計測値フィールド７０Ｃの個数は、レコード（監視対象システム５０）によって異なるものとなる。本実施の形態においては、計測値の名称（「AP1.cpu」、「DB2.mem」、……）を業務サーバ３０の名称（「AP1」、「AP2」、……）と計測値の種別（「cpu」、「mem」、……）とに基づいて生成して付与しているが、予兆サーバ４１において実行される各処理の円滑な実行を阻害しないよう一意性を担保できる命名の方法であれば、計測値の名称の付与方法はこれに限定するものではない。

　またシステムプロファイルテーブル７０では、監視対象システム５０がその実行に係る分散アプリケーションの性能指標も計測値フィールド７０Ｃに格納される。この性能指標とは、例えばＷｅｂアプリケーションであれば、単位時間当たりの同時接続ユーザ数（「CU1」、「CU2」、……）、平均応答時間（「ART3」、……）といった数値で示される指標である。計測値と同様、こうした性能指標には各々を区別できる名称が付与される。

　システムプロファイルテーブル７０は、典型的には予兆サーバ４１のメモリ３（図１）に格納されているが、ストレージ４（図１）に格納されていても良いし、他のサーバに格納しておき必要に応じて予兆サーバ４１がそのサーバから通信により取得するようにしても良い。また本実施の形態においては、説明を容易とするためにシステムプロファイルテーブル７０に格納されるべきデータの管理形式としてテーブル形式を採用しているが、キー・バリュー形式やドキュメント指向データベースなど、他のデータ管理形式を採用しても良い。

　なおシステムプロファイルテーブル７０の各レコードは、例えば顧客側システム２２の運用管理担当者が入力した情報を用いて作成する。

　図６は、システムモデルリポジトリ６７（図４）に格納される、ベイジアンネットワークによるシステムモデルの一例を示す。システムモデルとは、システムプロファイルテーブル７０に記録されている、監視対象システム５０に係る計測値や性能指標について、その計測値又は性能指標の時系列データを確率変数とみなし、これらの相互の関係を記述する確率モデルである。本実施の形態においては、このようなモデルとしてベイジアンネットワークを利用する。

　ベイジアンネットワークは、複数の確率変数をノードとする非循環有向グラフと、該グラフの表現するノード間の依存関係に基づいた各変数の条件付き確率表又は条件付き確率密度関数により構成される。

　図６は、あるアプリケーション５２（図３）の同時接続ユーザ数（ＣＵ：Concurrent Users）及び平均応答時間（ＡＲＴ：Average Response Time）と、そのアプリケーション５２の実行に関与する業務サーバ３０（図３）のうちのアプリケーションサーバとして機能する業務サーバ３０のＣＰＵ使用率（AP.cpu）及びメモリ消費量（AP.mem）と、そのアプリケーション５２の実行に関与する業務サーバ３０（図３）のうちのデータベースサーバとして機能する業務サーバ３０のＣＰＵ使用率（DB.cpu）及びメモリ消費量（DB.mem）との６つの項目をそれぞれノード７１Ａ～７１Ｆとするベイジアンネットワークにモデル化した例である。

　このベイジアンネットワークによるシステムモデル７１の眼目は、同時接続ユーザ数ＣＵ及び平均応答時間ＡＲＴの依存関係を表現することであり、同時接続ユーザ数ＣＵを基準指標、平均応答時間ＡＲＴをターゲット指標と呼ぶ。ターゲット指標とは、ベイジアンネットワークの確率推論において、事後確率分布を求める対象となるノードを指す。このシステムモデル７１の基準指標である同時接続ユーザ数ＣＵについて、ある値をエビデンスとして設定し、ターゲット指標の事後確率分布を推定することが本実施例における確率推論の典型的な処理である。

　ここで、エビデンスとしてリアルタイムの計測値を設定する代わりに、時系列予測手法により導いた将来の値を設定することで、その将来の時点におけるターゲット指標の事後確率分布を推定することができる。これが本実施の形態における障害予兆検知処理である。

　一般に時系列予測とは、ある変数の通時的な変化を観測して得られたデータ（時系列データ）からモデルを構築し、構築したモデルに基づいて変数の将来の値を予測する技術である。このような技術に適用するモデル構築の手法として、例えば線形単回帰、指数平滑法及びＡＲＩＭＡモデル等が知られている。

　また、こうしたベイジアンネットワークによるモデルは、統計的学習により構築することができる。特に、各確率変数の観測値を利用して、非循環有向グラフの構造を決定することを構造学習、グラフの各ノードの条件付き確率表又は条件付き確率密度関数のパラメタを生成することをパラメタ学習と呼ぶ。

　本実施の形態では、監視対象システム５０をモデル化するベイジアンネットワークのグラフ構造と、条件付き確率表又は条件付き確率密度関数は所与のものとする。

　図７は、図３に示す２つのアプリケーション５２Ａ，５２Ｂを含む監視対象システム５０をベイジアンネットワークのモデルにモデル化した一例を示す。図７に示すシステムモデル７２は、「アプリケーション＃０１」というアプリケーション５２Ａの同時接続ユーザ数（ＣＵ１）及び平均応答時間（ＡＲＴ１）にそれぞれ対応するノード７２Ａ，７２Ｂと、「アプリケーション＃０２」というアプリケーション５２Ｂの同時接続ユーザ数（ＣＵ２）及び平均応答時間（ＡＲＴ２）にそれぞれ対応するノード７２Ｃ，７２Ｄとを含む。

　この２つのアプリケーション５２Ａ，５２Ｂは、それぞれ別個の業務サーバ３０で実行されている。すなわち「アプリケーション＃０１」というアプリケーション５２Ａは「ＡＰ１」という業務サーバ３０で実行され、「アプリケーション＃０２」というアプリケーション５２Ｂは「ＡＰ２」という業務サーバ３０で実行されている。一方、これら２つのアプリケーション５２Ａ，５２Ｂは、データベースサーバとして機能する「ＤＢ１」という業務サーバ３０を共有している。

　このため、かかるシステムモデル７２は、「アプリケーション＃０１」というアプリケーション５２Ａに関わる計測値である、「ＡＰ１」という業務サーバ３０のＣＰＵ使用率（AP1.cpu）及びメモリ消費量（AP1.mem）にそれぞれ対応するノード７２Ｅ，７２Ｆと、「アプリケーション＃０２」というアプリケーション５２Ｂに関わる計測値である、「ＡＰ２」という業務サーバ３０のＣＰＵ使用率（AP2.cpu）及びメモリ消費量（AP2.mem）にそれぞれ対応するノード７２Ｇ，７２Ｈとに加えて、「ＤＢ１」という業務サーバ３０のＣＰＵ使用率（DB1.cpu）及びメモリ消費量（DB1.mem）にそれぞれ対応するノード７２Ｉ，７２Ｊを含む。

　これらシステムモデル７２（ベイジアンネットワーク）が含むノード７２Ａ～７２Ｊを、アプリケーション５２Ａ，５２Ｂを単位として分類するために必要な情報は、システムプロファイル６６を構成するアプリケーションプロファイルである。

　図８～図１０は、図５について上述したシステムプロファイルテーブル７０と共にシステムプロファイル６６（図４）を構成するアプリケーションプロファイル７３～７５の構成例を示す。アプリケーションプロファイル７３～７５は、システム構成情報の一種であり、アプリケーション５２と業務サーバ３０の対応関係を格納するテーブルである。以下においては、図８に示すアプリケーションプロファイルをアプリケーション業務サーバ対応テーブル７３と呼び、図９に示すアプリケーションプロファイルをアプリケーション指標テーブル７４と呼び、図１０に示すアプリケーションプロファイルをアプリケーションノードテーブル７５と呼ぶものとする。

　アプリケーション業務サーバ対応テーブル７３は、アプリケーション５２と、当該アプリケーション５２の実行に関与する業務サーバ３０との対応関係を予兆エンジン６０（図４）が管理するために利用するテーブルであり、図８に示すように、ＩＤフィールド７３Ａ、アプリケーション名フィールド７３Ｂ及び業務サーバ名フィールド７３Ｃから構成される。

　そしてＩＤフィールド７３Ａには、監視対象システム５０内のアプリケーション５２にそれぞれ付与されたそのアプリケーション５２に固有の識別子（アプリケーションＩＤ）が格納され、アプリケーション名フィールド７３Ｂには、対応するアプリケーション５２に付与されたそのアプリケーション５２の名称（アプリケーション名）が格納される。

　また業務サーバ名フィールド７３Ｃは、監視対象システム５０内の各業務サーバ３０にそれぞれ対応させて設けられた複数の個別業務サーバ名フィールド７３ＣＡに区分され、各個別業務サーバ名フィールド７３ＣＡ内に、対応するアプリケーション５２において対応する業務サーバ３０を利用するか否かを表す情報（利用する場合には「Ｙ」、利用しない場合には「Ｎ」）が格納される。

　なおアプリケーション業務サーバ対応テーブル７３の各レコードは、例えば顧客側システム２２の運用管理担当者が入力した情報を用いて作成する。

　またアプリケーション指標テーブル７４は、各アプリケーション５２の性能指標（ここでは基準指標及びターゲット指標）を予兆エンジン６０（図４）が管理するために利用するテーブルであり、図９に示すように、ＩＤフィールド７４Ａ、アプリケーション名フィールド７４Ｂ、基準指標フィールド７４Ｃ及びターゲット指標フィールド７４Ｄから構成される。

　そしてＩＤフィールド７４Ａ及びアプリケーション名フィールド７４Ｂには、それぞれアプリケーション業務サーバ対応テーブル７３のＩＤフィールド７３Ａ及びアプリケーション名フィールド７３Ｂに格納される情報と同じ情報が格納される。また基準指標フィールド７４Ｃには、対応するアプリケーション５２における基準指標が格納され、ターゲット指標フィールド７４Ｄには、対応するアプリケーション５２におけるターゲット指標が格納される。

　以上のアプリケーション業務サーバ対応テーブル７３及びアプリケーション指標テーブル７４にそれぞれ格納された情報と、システムプロファイルテーブル７０に格納された情報とを、計測値の名称を基にマッチングすることで、アプリケーション５２ごとにその実行に関与するノードを抽出することができる。

　アプリケーションノードテーブル７５は、そのマッチングの結果を予兆エンジン６０（図４）が管理するために利用するテーブルであり、図１０に示すように、ＩＤフィールド７５Ａ及びアプリケーション名フィールド７５Ｂと、複数のノードフィールド７５Ｃとから構成される。

　そしてＩＤフィールド７５Ａ及びアプリケーション名フィールド７５Ｂには、それぞれアプリケーション業務サーバ対応テーブル７３（図８）のＩＤフィールド７３Ａ及びアプリケーション名フィールド７３Ｂに格納された情報と同じ情報が格納される。また各ノードフィールド７５Ｃには、対応するアプリケーション５２の実行に関与するノードのノード名が格納される。

　図１１は、システムモデル７２にアプリケーション境界を設定した一例を示す。これは図７に示した２つのアプリケーション５２Ａ，５２Ｂを含むシステムモデルに対して、図８～図１０に示したアプリケーションプロファイル（アプリケーション業務サーバ対応テーブル７３、アプリケーション指標テーブル７４及びアプリケーションノードテーブル７５）の情報に基づいて、各ノードがいずれのアプリケーション５２に関与するかで分類し、その結果からアプリケーション境界を設定したものである。このシステムモデル７２は、「アプリケーション＃０１」というアプリケーション５２Ａにのみ属するノード７２Ａ，７２Ｂ，７２Ｅ，７２Ｆと、「アプリケーション＃０２」というアプリケーション５２Ｂにのみ属するノード７２Ｃ，７２Ｄ，７２Ｇ，７２Ｈと、両アプリケーション５２Ａ，５２Ｂが共有するノード７２Ｉ，７２Ｊを含む。

　この図１１のモデルからも明らかなように、「アプリケーション＃０１」というアプリケーション５２Ａに関係するノード７２Ａ，７２Ｂ，７２Ｅ，７２Ｆのみを含む部分グラフを抽出するには、両アプリケーション５２Ａ，５２Ｂが共有する「DB1.cpu」及び「DB1.mem」という２つのノード７２Ｉ，７２Ｊについて、「アプリケーション＃０２」というアプリケーション５２Ｂにのみ関係するノード７２Ｃ，７２Ｄ，７２Ｇ，７２Ｈとの間のアークａ～ｃを削除し、かつベイジアンネットワークとして確率推論を実行できるよう、条件付き確率表又は条件付き確率密度関数を維持する必要がある。このアーク削除の方法を、以下の（Ａ）～（Ｃ）の３つに分類して説明する。

（Ａ）　アークａは、「アプリケーション＃０１」及び「アプリケーション＃０２」という２つのアプリケーション５２Ａ，５２Ｂが共有する「DB1.mem」というノード（以下、これを共有ノードと呼ぶ）７２Ｊと、当該ノード７２Ｊの親ノードである「CU2」というノード７２Ｃとの間を直接に接続している。この場合、「CU2」というノード７２Ｃに設定されるエビデンスから、その直接の子ノードである「DB1.mem」というノード７２Ｊの条件付き確率表を更新することでアークａを削除することができる。

（Ｂ）　アークｂは、まずアークａと同様にして「AP2.cpu」というノード７２Ｇ及び「AP2.mem」というノード７２Ｈの条件付き確率表を更新したのち、variable eliminationアルゴリズム（非特許文献１を参照）により、「AP2.cpu」というノード７２Ｇ及び「AP2.mem」というノード７２Ｈをグラフから削除し、「DB1.cpu」という共有ノード７２Ｉの条件付き確率表を更新することで削除することができる。

（Ｃ）　アークｃは、「DB1.mem」という共有ノード７２Ｊと、「ART2」というノード７２Ｄとの間を直接に接続しており、「ART2」というノード７２Ｄは「DB1.mem」というノード７２Ｊの子ノードである。このような末端ノードの場合、「ART2」というノード７２Ｄにエビデンスを設定しない限り、「ART1」というノード７２Ｂの確率分布に影響が及ぶことはない。よって何らの操作を行うことなく、アークｃを削除することができる。

　以上の手法を組み合わせることで、「アプリケーション＃０１」というアプリケーション５２Ａに関係するノード７２Ａ，７２Ｂ，７２Ｅ，７２Ｆ，７２Ｉ，７２Ｊのみを含む図１２に示すような部分グラフ７６を抽出することができる。こうして抽出された部分グラフ７６とこれに対応する条件付き確率表により、「アプリケーション＃０１」というアプリケーション５２Ａに関係するノード７２Ａ，７２Ｂ，７２Ｅ，７２Ｆ，７２Ｉ，７２Ｊのみで確率推論が可能であることに注意されたい。この部分グラフ７６によるベイジアンネットワークモデルをサブモデルと呼ぶ。

（１－４－３）システムリポジトリの構成
　図１３は、システムモデルリポジトリ６７（図４参照）の構成例を示す。システムモデルリポジトリ６７には、上述のように予兆エンジン６０のモデル生成部６３により生成されたシステムモデルが記録される。本実施の形態の場合、システムモデルリポジトリ６７は、ＩＤフィールド６７Ａ、モデル名フィールド６７Ｂ、グラフ構造フィールド７６Ｃ及びパラメタフィールド６７Ｄを備えるテーブル構造を有する。

　そしてＩＤフィールド６７Ａには、各システムモデルにそれぞれ付与されたそのシステムモデルに固有の識別子（システムモデルＩＤ）が格納される。またモデル名フィールド６７Ｂには、対応するシステムモデルに付与されたモデル名が格納される。このモデル名は、各システムモデルを弁別することが容易となるよう運用管理担当者が付与することができる。

　またグラフ構造フィールド６７Ｃには、構造学習により生成されたグラフ構造が格納され、パラメタフィールド６７Ｄには、パラメタ学習により生成された条件付き確率表又は条件付き確率密度関数のパラメタが格納される。なおシステムモデルが、構造学習により生成されたグラフ構造と、パラメタ学習により生成された条件付き確率表又は条件付き確率密度関数のパラメタ群とからなることは上述の通りである。従って、グラフ構造フィールド６７Ｃ及びパラメタフィールド６７Ｄに、対応するシステムモデルの実体が格納されることになる。

　ただし、これらグラフ構造やパラメタは、テーブルに直接格納するには適さない形でメモリ３（図１）上に存在することがある。この場合、テーブルには各々へのポインタを格納しても良い。本実施の形態では、説明を容易とするためにシステムモデルリポジトリ６７の構造としてテーブル形式を採用しているが、オブジェクトデータベースやグラフデータベースなど、他のデータ構造をシステムモデルリポジトリ６７の構造として採用しても良い。また、別途用意するコンテンツリポジトリや構成管理ツール等の機能を利用したり、単にファイルシステムに格納するようにしても良い。どのような態様であれ、システムモデルのグラフ構造をパラメタから独立して取得できるよう構成するのが望ましい。

（１－４－４）予測モデルリポジトリの構成
　一方、図１４は、予測モデルリポジトリ６９（図４）の構成例を示す。この予測モデルリポジトリ６９には、予測部６４（図４）が実行する時系列予測処理で用いる予測モデル（時系列予測モデル）が格納される。本実施の形態の予測モデルリポジトリ６９は、図１４からも明らかなように、少なくともＩＤフィールド６９Ａ、アルゴリズムフィールド６９Ｂ及び過去データ期間フィールド６９Ｃを備えるテーブル構造を有する。

　そしてＩＤフィールド６９Ａには、各予測モデルにそれぞれ付与されたその予測モデルに固有の識別子（予測モデルＩＤ）が格納される。またアルゴリズムフィールド６９Ｂには、対応する予測モデルの構築に用いるアルゴリズムのアルゴリズム名が格納され、過去データ期間フィールド６９Ｃには、時系列予測処理において使用する過去データの時間的な範囲が格納される。なお予測モデルリポジトリ６９には、これ以外にも予測モデル（時系列予測モデル）の構築に必要なパラメタを記録することができる。

（１－４－５）予測プロファイルの構成
　他方、図１５は、予測プロファイル６８の構成例を示す。この予測プロファイル６８には、予兆エンジン６０がバッチ的に実行すべき障害予兆検知処理の定義が格納される。予測プロファイル６８の各レコード（行）は、それぞれ１つの障害予兆検知処理に対応する。

　この予測プロファイル６８は、図１５に示すように、少なくともＩＤフィールド６８Ａ、システム名フィールド６８Ｂ、システムモデルＩＤフィールド６８Ｃ、予測モデルＩＤフィールド６８Ｄ、既定リードタイムフィールド６８Ｅ、基準指標フィールド６８Ｆ及びターゲット指標フィールド６８Ｇを備えるテーブル構造を有する。

　そしてＩＤフィールド６８Ａには、障害予兆検知処理にそれぞれ付与された識別子（障害予兆検知処理ＩＤ）が格納され、システム名フィールド６８Ｂには、システムプロファイルテーブル７０（図５）に記録されている対応する障害予兆検知処理の対象となる監視対象システム５０（図３）のシステム名が格納される。ただし、システム名フィールド６８Ｂに、対応する監視対象システム５０のシステムＩＤを格納するようにしても良い。

　またシステムモデルＩＤフィールド６８Ｃには、対応する監視対象システム５０について実行する障害予兆検知の確率推論処理で用いるシステムモデル（その監視対象システム５０についてモデル生成部６３が作成し、システムモデルリポジトリ６７（図１３）に格納されたシステムモデル）のシステムモデルＩＤが格納され、予測モデルＩＤフィールド６８Ｄには、対応する監視対象システム５０について実行する障害予兆検知の時系列予測処理で用いる予測モデルの予測モデルＩＤが格納される。

　既定リードタイムフィールド６８Ｅには、その時系列予測処理で用いる既定リードタイムの値が格納される。なお既定リードタイムとは、時系列予測処理で得られる予測値を、過去データの最終時点から何秒後の値とするかを示す値である。さらに基準指標フィールド６８Ｆ及びターゲット指標フィールド６８Ｇには、確率推論処理で用いる基準指標又はターゲット指標の値がそれぞれ格納される。

　予測プロファイル６８に格納された各情報の使用方法については、後述する。予測プロファイル６８の各レコードは、例えば顧客側システム２２の運用管理担当者が入力した情報を用いて作成する。

（１－５）予兆サーバにおいて実行される各種処理
　次に、予兆サーバ４１において実行される各種処理の処理内容について説明する。

（１－５－１）障害予兆検知処理
　図１６は、予兆エンジン６０（図４）において実行される障害予兆検知処理の処理手順の一例を示す。本実施の形態の障害予兆検知処理は、時系列予測によってある性能指標（基準指標）の将来の値を取得し、次いでその値をエビデンスとしてベイジアンネットワークによる確率推論を行う、という手順で行われる。

　実際上、予兆エンジン６０では、障害予兆検知処理の実行時、まず予測部６４（図４）が、予測プロファイル６８に格納された基準指標の計測値をデータ記憶部６２（図４）から取得し（Ｓ１）、取得した基準指標の計測値をメモリ３（図１）に格納する（Ｓ２）。そして予測部６４は、この後、同じく予測プロファイル６８に記録された予測モデルＩＤ及び既定リードタイムに従って基準指標の将来の値を時系列予測する時系列予測処理を実行する（Ｓ３）。

　続いて、推論部６５が、時系列予測処理によって得られた基準指標の既定リードタイム後の予測値と、予測プロファイル６８に格納されたシステムモデルＩＤ及びターゲット指標に従って確率推論を行い（Ｓ４）、この後、推論部６５が、確率推論によって得た既定リードタイム後のターゲット指標の確率分布を出力する（Ｓ５）。以上により、予兆エンジン６０における障害予兆検知処理が終了する。

　ここで、図１７は、図１６について上述した障害予兆検知処理のステップＳ３において予測部６４により実行される時系列予測処理の具体的な処理内容を示す。

　予測部６４は、障害予兆検知処理のステップＳ３に進むと、この図１７に示す時系列予測処理を開始し、まず、予測プロファイル６８に記録された対応する予測モデルＩＤを取得し、取得した予測モデルＩＤに従って、予測モデルリポジトリ６９から該当するアルゴリズムと時系列予測処理に必要なパラメタを読み出す（Ｓ１０）。

　続いて、予測部６４は、予測モデルリポジトリ６９から過去データ期間を取得すると共に（Ｓ１１）、取得した過去データ期間分の基準指標の計測値を取得し（Ｓ１２）、さらに予測プロファイル６８から既定リードタイムを取得する（Ｓ１３）。

　この後、予測部６４は、以上のようにして得られた時系列予測のアルゴリズム及びパラメタと、計測値及び既定リードタイムとを用いて、時系列予測処理を実行する（Ｓ１４）。そして予測部６４は、この時系列予測処理の結果得られた既定リードタイム後の基準指標の予測値をメモリ３（図１）に格納し（Ｓ１５）、この後、この時系列予測処理を終了する。

　また図１８は、図１６について上述した障害予兆検知処理のステップＳ４における推論部６５の具体的な処理内容を示す。推論部６５は、障害予兆検知処理のステップＳ４に進むと、この図１８に示す確率推論処理を開始し、まず、上述のようにメモリ３（図）に格納された既定リードタイム後の基準指標の予測値を取得する（ステップＳ２０）。

　続いて、推論部６５は、予測プロファイル６８に格納されている対応するシステムモデルのシステムモデルＩＤを取得し、取得したシステムモデルＩＤが付与されたシステムモデルをシステムモデルリポジトリ６７から取得する（Ｓ２１）。また推論部６５は、予測プロファイル６８からターゲット指標を取得する（Ｓ２２）。

　そして、推論部６５は、以上のステップＳ２０～ステップＳ２２で得られた予測値、システムモデル及びターゲット指標を用いて確率分布の推定処理（以下、これを確率分布推定処理と呼ぶ）を実行することにより既定リードタイム後のターゲット指標の確率分布を算出し（Ｓ２３）、この後、この確率推論処理を終了する。

（１－５－２）サブモデル生成処理
　図１９は、予兆エンジン６０（図４）で実行される、サブモデルを生成するための処理（以下、これをサブモデル生成処理と呼ぶ）の手順の一例を示す。本実施の形態の場合、サブモデル生成処理は、監視制御クライアント３２（図４）が送信するサブモデルについての情報提供要求をポータルサーバ４２（図４）を介して予兆サーバ４１が受信したことを契機として、予兆エンジン６０のモデル生成部６３（図４）により実行される。

　実際上、監視制御クライアント３２は、顧客側システム２２の運用管理担当者の操作に応じて、サブモデルの抽出元となるシステムモデルのモデル名及び抽出対象であるアプリケーション５２のアプリケーション名を指定した情報提供要求をポータルサーバ４２（図４）に送信する。そしてポータルサーバ４２は、この情報提供要求を受信すると、当該情報提供要求において指定されたモデル名及びアプリケーション名を指定したサブモデル生成要求を予兆サーバ４１に転送する。

　このサブモデル生成要求を予兆サーバ４１が受信すると、当該予兆サーバ４１の予兆エンジン６０のモデル生成部６３が図１９に示すサブモデル生成処理を開始し、まず、受信したサブモデル生成要求において指定されたシステムモデルをシステムモデルリポジトリ６７（図４）から取得する（Ｓ３０）。

　続いて、モデル生成部６３は、抽出対象であるアプリケーション５２のアプリケーション名を基に、アプリケーションプロファイル７３～７５（図８～図１０）が格納する情報を検索し、該アプリケーション５２の実行に関係するノードを抽出する（Ｓ３１）。この際、同様に他のアプリケーション５２と共有するノードも抽出する（Ｓ３２）。

　次いで、モデル生成部６３は、抽出対象以外のアプリケーション５２の基準指標について、エビデンスとなる予測値を予測部６４から取得し（Ｓ３３）、この後、このようにして取得した情報に基づいて、図１１について上述した手法により不要なアークの削除を行うことで部分グラフ７６（図１２）を抽出する（Ｓ３４）。

　さらにモデル生成部６３は、以上のようにして抽出した部分グラフ７６に基づくサブモデルを生成し、得られたサブモデルをシステムモデルリポジトリ６７（図４）に格納した後（Ｓ３５）、このサブモデル生成処理を終了する。

　なお予兆エンジン６０では、この後、図１６～図１８について上述した障害予兆検知処理が実行される。この場合、この障害予兆検知処理では、図１８について上述した確率推論処理のステップＳ２１において、システムモデルに代えて上述のサブモデル生成処理により生成されたサブモデルが取得され、当該確率推論処理のステップＳ２３において、このサブモデルを利用して確率分布推定処理を実行することにより既定リードタイム後のターゲット指標の確率分布が算出される。

（１－６）クライアント画面の構成
　図２０は、監視制御クライアント３２（図２）からの要求に応じてポータルサーバ４２（図２）から当該監視制御クライアント３２に送信される情報（障害予兆検知処理の処理結果）に基づき監視制御クライアント３２のＷｅｂブラウザ３６（図２）によりコンソール６（図１）に表示されるクライアント画面８０の表示例を示す。

　クライアント画面８０は、機能メニュー８１、サービス一覧８２、基準指標エリア８３及びネットワークエリア８４を備えて構成される。そして機能メニュー８１は、複数のボタン８１Ａ～８１Ｄを備えており、これらボタン８１Ａ～８１Ｄの１つとして「グラフィカル監視」ボタン８１Ｂが設けられている。

　またサービス一覧８２には、典型的には顧客側システム２２内の監視対象システム５０（図３）及びアプリケーション５２（図３）が階層構造で一覧表示され、これら一覧表示された項目の中から所望する項目に対してマウスクリック操作を行うことにより、その項目を選択することができる。そしてサービス一覧８２では、このようにして１つの項目が選択された場合、その項目が選択されていることを表す状態（以下、これを選択状態と呼ぶ）に表示される。なお、ある項目が選択状態にあることを表す方法としては、その項目に下線を引く、又は、フォントや背景色を周囲と異なったものとする等の手段を用いることができる。なお図２０は、サービス一覧８２に表示された各項目の中からいずれかの監視対象システム（図２０では「システム＃０１」）が選択された場合の表示例である。

　基準指標エリア８３には、選択状態にある項目に対応する監視対象システム５０において収集対象となっている基準指標に関する情報が表示される。具体的に、基準指標エリア８３には、リードタイム表示８５、基準指標ノード８６及び予測値表示８７が表示される。

　リードタイム表示８５は、予測プロファイル６８に格納された既定リードタイムを表示したものであり、対応する監視対象システム５０を対象とする障害予兆検知処理における時系列予測処理が何秒後の予測値を求めて確率推論処理に供しているかを表す。また基準指標ノード８６は、その監視対象システム５０における基準指標を表し、ネットワークグラフ図のノード様に表示される。さらに予測値表示８７は、時系列予測処理により得られた既定リードタイム後の基準指標の予測値を表わし、基準指標ノードの各々との対応関係が明らかであるように表示される。

　またネットワークエリア８４には、例えば図１１に示すような監視対象システム５０をモデル化したネットワークグラフ構造と、ターゲット指標ノード８８、確率値表示８９及び確率分布表示９０とが表示される。

　このうちターゲット指標ノード８８は、対応する監視対象システム５０が含むターゲット指標を表すものであり、ネットワークグラフ図のノード様に表示される。またネットワークグラフ構造では、基準指標ノード８６とターゲット指標ノード８８とを接続するように表示される。

　確率分布表示９０としては、確率推論処理により得られた既定リードタイム後のターゲット指標の確率分布に基づき、該確率分布のヒストグラムが、ターゲット指標のそれぞれとの対応関係が明らかであるように表示される。なおヒストグラムに代えて、直交座標プロットやその他の方式により確率分布を表示するようにしても良い。また、その確率分布からある事象の発生確率を求め、確率値表示８９に表示することもできる。これら確率分布又は確率の表示態様は、運用管理担当者の意図に応じて任意に変更できるよう構成するのが望ましい。

　基準指標エリア８３及びネットワークエリア８４は、クライアント画面８０のサービス一覧８２においていずれかの監視対象システム５０が選択されることを契機として、情報が表示され、又は、その表示内容が更新される。

　実際上、クライアント画面８０のサービス一覧８２においていずれかの監視対象システム５０が選択された場合、監視制御クライアント３２（図４）は、選択された監視対象システム５０を対象としたシステムモデルの情報提供要求を予兆サーバ４１（図４）に送信する。かくして予兆エンジン６０（図４）は、この情報提供要求の受信を契機として、選択された監視対象システム５０を対象とした障害予兆検知処理（図１６～図１８）を実行する。そしてこの障害予兆検知処理の処理結果がポータルサーバ４２を経由して監視制御クライント３２に与えられ、当該障害予兆検知処理の処理結果に基づく情報が基準指標エリア８３及びネットワークエリア８４に表示され、又は、その表示内容が更新される。

　ただし基準指標エリア８３及びネットワークエリア８４の表示内容の更新について任意のタイミングやインターバルを設定できるよう情報処理システム１０を構成しても良い。また、クライアント画面８０の表示内容の更新を画面全体を同期して行う必要はなく、部分的に適宜更新するようにしても良い。

　一方、図２１は、上述のクライアント画面８０において、サービス一覧８２に表示された項目の中からいずれかのアプリケーション５２（図２１では「アプリ＃０１」）が選択された場合の表示例を示す。

　クライアント画面８０のサービス一覧８２においていずれかの監視対象システム５０が選択された場合、図２０について上述したように、選択された監視対象システム５０全体のシステムモデルがネットワークグラフ図としてクライアント画面８０に表示されるのに対して、クライアント画面８０のサービス一覧８２においていずれかのアプリケーション５２が選択された場合には、選択されたアプリケーション（以下、これを選択アプリケーションと呼ぶ）５２のサブモデルがネットワークグラフ図としてクライアント画面８０に表示される。

　実際上、クライアント画面８０のサービス一覧８２においていずれかのアプリケーション５２が選択された場合、監視制御クライアント３２（図４）は、選択アプリケーション５２を対象としたサブモデルの情報提供要求をポータルサーバ４２（図４）に送信する。またポータルサーバ４２は、この情報提供要求を受信すると、指定されたサブモデルについてのサブモデル生成要求を予兆サーバ４１（図４）に送信する。かくして予兆エンジン６０（図４）は、このサブモデル生成要求の受信を契機として、選択アプリケーション５２を対象としたサブモデル生成処理及び障害予兆検知処理を実行する。そしてこれらサブモデル生成処理及び障害予兆検知処理の処理結果がポータルサーバ４２を経由して監視制御クライント３２に与えられ、当該サブモデル生成処理及び障害予兆検知処理の処理結果に基づく情報がクライアント画面８０に表示される。

　また図２１に示すクライアント画面８０では、基準指標エリア８３には、基準指標ノード８６として選択アプリケーション５２に含まれる基準指標のみが表示され、ネットワークエリア８４には、ターゲット指標ノード８８として、選択アプリケーション５２に含まれるターゲット指標のみが表示される。

　このとき基準指標エリア８３には、予測値制御エリア１００も表示される。予測値制御エリア１００には、プルダウンボタン１０１が設けられ、このプルダウンボタン１０１に対するマウスクリック操作を行うことによって、予測モデルの一覧が掲載されたプルダウンリストを表示させることができる。また予測値制御エリア１００には、運用管理担当者が予測値を入力することができるテキストボックス１０２及び再計算ボタン１０３も設けられている。

　そして監視制御クライアント３２は、運用管理担当者が上述のプルダウンリストから時系列予測の予測モデルを選択すると、これに応じた情報提供要求をポータルサーバ４２に送信する。またポータルサーバ４２は、この情報提供要求を受信すると、当該情報提供要求において指定されたサブモデル及び予測モデルを指定したサブモデル生成要求を予兆サーバ４１に送信する。かくしてこのサブモデル生成要求を受信した予兆サーバ４１の予兆エンジン６０（図４）は、現在の予測モデルに代えて、サブモデル生成要求において指定された予測モデルを使用して障害予兆検知処理（図１６～図１８）を実行し、その結果をポータルサーバ４２を介して監視制御クライアント３２に送信する。かくして、かかる障害予兆検知処理の処理結果がクライアント画面８０に表示される。

　また監視制御クライアント３２は、運用管理担当者が上述のテキストボックス１０２に予測値を入力し再計算ボタン１０３を押下すると、これに応じた情報提供要求をポータルサーバ４２に送信する。またポータルサーバ４２は、この情報提供要求を受信すると、当該情報提供要求において指定された予測値を指定したサブモデル生成要求を予兆サーバ４１に送信する。かくしてこのサブモデル生成要求を受信した予兆サーバ４１の予兆エンジン６０は、時系列予測処理を実行することなく、サブモデル生成要求において指定されたサブモデル及び予測値をエビデンスと設定して確率推論処理を実行し、その結果をポータルサーバ４２を介して監視制御クライアント３２に送信する。この結果、かかる確率推論処理（図１８）の処理結果がクライアント画面８０に表示される。

（１－７）本実施の形態の効果
　以上のように本実施の形態の情報処理システム１０では、サービス提供者側システム２４の予兆サーバ４１において、予め生成した監視対象システム５０のシステムモデルを利用して、顧客側システム２２の運用管理担当者により指定されたアプリケーションの実行に関与するノードのみからなるサブモデルを生成し、生成したサブモデルに基づいてターゲット指標の将来の値を確率推論により算出する。

　この場合、かかるサブモデルはシステムモデルと比してノード数が少なく、従って、当該サブモデルを利用した確率推論処理は、システムモデルを利用した確率推論処理に比べて格段的に少ない計算量で処理を行うことができる。

　かくするにつき、本情報処理システム１０によれば、アプリケーションごとのターゲット指標の将来の値を迅速に求めることができ、障害予兆検知処理の処理結果を迅速に顧客側システムの運用管理担当者に提供することができる。

（２）第２の実施の形態
　第１の実施の形態では、予兆サーバ４１が図８～図１０について上述したアプリケーションプロファイルとして記憶する情報（アプリケーション業務サーバ対応テーブル７３、アプリケーション指標テーブル７４及びアプリケーションノードテーブル７５にそれぞれ格納された情報）を基にアプリケーション境界を判定するシステム運用管理方式について説明した。

　このシステム運用管理方式は、アプリケーションプロファイルが、アプリケーション５２（図３）に関連する業務サーバ３０（図２）の業務サーバ名と、指標名とについて、アプリケーション境界を判定するに十分な情報を格納していることを前提としている。しかしながら、現実のシステム運用においては、十分でないことがあり得る。

　そこで本実施の形態では、ノードに対応する計測値の時系列データのメタ情報を使用するシステム運用管理方式について説明する。時系列データのメタ情報とは、例えばデータの収集を開始した時期についての情報、又は、データの収集が一時的に中断していた期間についての情報であるが、これらに限定されるものではない。

　すなわち、アプリケーション５２との対応が不明であるノードについて、そのメタ情報を取得する。次いで、メタ情報が一致又は類似する他のノードと共通のアプリケーション５２に対応すると判定する。以下、このような本実施の形態のシステム運用管理方式について説明する。

　図２において、１１０は全体として第２の実施の形態による情報処理システムを示す。この情報処理システム１１０は、サービス提供者側システム１１１（図２）における図４に示す予兆サーバ１１２の予兆エンジン１１３のモデル生成部１１４により実行されるサブモデル生成処理の処理内容が異なる点を除いて第１の実施の形態による情報処理システム１０と同様に構成されている。

　図２２は、かかるモデル生成部１１４により実行される本実施の形態のサブモデル生成処理の具体的な処理手順を示す。モデル生成部１１４は、監視制御クライアント３２（図４）からの情報提示要求に応じてポータルサーバ４２（図４）から送信されるサブモデル生成要求を予兆サーバ１１２が受信すると、この図２２に示すサブモデル生成処理を開始し、まず、受信したサブモデル生成要求において指定されたモデル名のシステムモデルをシステムモデルリポジトリ６７（図４）から取得する（Ｓ４０）。

　続いて、モデル生成部１１４は、アプリケーションプロファイルに格納された情報を基に、アプリケーション５２の実行に関係するノードを抽出し（Ｓ４１）、この後、監視対象システム５０の全てのノードがアプリケーション５２と対応付けられているかを判定する（Ｓ４２）。

　そしてモデル生成部１１４は、この判定で肯定結果を得ると、ステップＳ４４～ステップＳ４７を図１３について上述した第１の実施の形態によるサブモデル生成処理のステップＳ３～ステップＳ６と同様に処理し、この後、このサブモデル生成処理を終了する。

　これに対してモデル生成部１１４は、ステップＳ４２の判定で否定結果を得ると、ノードに対応する計測値のメタ情報を取得する。典型的には、その計測値を収集した期間に関する情報である。そして、モデル生成部１１４は、アプリケーション５２との対応が判明しているノードのメタ情報と、判明していないノードのメタ情報を比較し、類似する場合は同一のアプリケーション５２に関係するものと判定する（Ｓ４３）。比較の方法としては、例えばｋ近傍法のような統計的分類法を使用することができる。

　そしてモデル生成部１１４は、この後、ステップＳ４４～ステップＳ４７を図１３について上述した第１の実施の形態によるサブモデル生成処理のステップＳ３～ステップＳ６と同様に処理し、この後、このサブモデル生成処理を終了する。

　以上のような本実施の形態の情報処理システム１１０によれば、予兆サーバ１１２が保持するアプリケーションプロファイルが、アプリケーション境界を判定するに十分な情報を格納していない場合においても、モデル生成部１１４が要求されたアプリケーション５２の実行に関連するノードのみからなるサブモデルを生成することができる。従って、本情報処理システム１１０によれば、第１の実施の形態により得られる効果に加えて、より柔軟性の高い情報処理システムを実現することができる。

（３）第３の実施の形態
　第２の実施の形態では、アプリケーションプロファイルがアプリケーション境界を判定するのに十分な情報を格納していない状況に際して、時系列データのメタ情報を使用する構成について説明した。一方で、メタ情報を使用する方式の場合、判定の曖昧さや不確実さの影響を排除できない。例えばデータ収集開始時期の僅かな異同や、偶然の一致により判定を誤る可能性を排除できない。

　そこで本実施の形態では、システムモデルのグラフ構造を使用してノード及びアプリケーションの対応関係を判定するよう構成された障害予兆検知方式について説明する。すなわち、基準指標及びターゲット指標についてその対応するアプリケーション５２が判明していることを前提に、両者を結ぶ全経路を導出し、その経路上にあるものを当該アプリケーション５２と関係するものとみなす。以下、このような本実施の形態の障害予兆検知方式について説明する。

　図２において、１２０は全体として第３の実施の形態による情報処理システムを示す。この情報処理システム１２０は、サービス提供者側システム１２１における図４に示す予兆サーバ１２２の予兆エンジン１２３のモデル生成部１２４により実行されるサブモデル生成処理の処理内容が異なる点を除いて第２の実施の形態による情報処理システム１１０と同様に構成されている。

　図２３は、かかるモデル生成部１２４により実行される本実施の形態のサブモデル生成処理の具体的な処理手順を示す。モデル生成部１２４は、監視制御クライアント３２（図４）からの情報提示要求に応じてポータルサーバ４２（図４）から送信されるサブモデル生成要求を予兆サーバ１１２が受信すると、この図２２に示すサブモデル生成処理を開始し、ステップＳ５０～ステップＳ５２を図２２について上述した第２の実施の形態によるサブモデル生成処理のステップＳ４０～ステップＳ４２と同様に処理する。

　そしてモデル生成部１２４は、ステップＳ５２の判断で肯定結果を得るとステップＳ５４～ステップＳ５７を図１３について上述した第１の実施の形態によるサブモデル生成処理のステップＳ３～ステップＳ６と同様に処理し、この後、このサブモデル生成処理を終了する。

　これに対してモデル生成部１２４は、ステップＳ５２の判断で否定結果を得ると、アプリケーション指標テーブル７４（図９）に格納された基準指標とターゲット指標との情報を抽出する。そしてモデル生成部１２４は、監視対象システム５０のシステムモデルのグラフ構造において、アプリケーション５２ごとにその基準指標及びターゲット指標間を結ぶ全ての経路を探索する。経路探索には、例えばバックトラッキング法を使用することができる。そしてモデル生成部１２４は、あるアプリケーション５２の基準指標及びターゲット指標間で得られた経路上にあるノードは、該アプリケーション５２に関係するものと判定する（Ｓ５３）。

　そしてモデル生成部１２４は、この後、ステップＳ５４～ステップＳ５７を図１３について上述した第１の実施の形態によるサブモデル生成処理のステップＳ３～ステップＳ６と同様に処理し、この後、このサブモデル生成処理を終了する。

　以上のような本実施の形態の情報処理システム１２０によれば、第２の実施の形態と比してより信頼性高くアプリケーション５２と各ノードとの対応関係を抽出することができる。従って本情報処理システム１２０によれば、より柔軟性及び信頼性の高い情報処理システムを実現することができる。

（４）他の実施の形態
　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上述した第１～第３の実施の形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、第１～第３の実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また上述した第１～第３の実施の形態の各構成、機能、処理部及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良い。さらに第１～第３の実施の形態の各構成及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現しても良い。各機能を実現するプログラム、テーブル及び又はファイル等の情報は、メモリや、ＨＤＤ、ＳＳＤ等の記憶装置、またはＳＤカード、ＤＶＤ－ＲＯＭ（Digital Versatile Disk-Read Only Memory）等の記憶媒体に置くことができる。

　さらに上述した第１～第３の実施の形態の図面においては、説明上必要と考えられる制御線及び情報線のみを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんどすべての構成が相互に接続されていると考えても良い。

　本発明は、種々の情報処理システムに広く適用することができる。

　１……情報処理装置、２……プロセッサ、３……メモリ、４……ストレージ、２０，１１０，１２０……情報処理システム、２１……顧客サイト、２２……顧客側システム、２３……サービスサイト、２４，１１１，１２１……サービス提供者側システム、３０……業務サーバ、３１……ログ収集装置、３２……監視制御クライアント、３４……アプリケーションプログラム、３５……システム統計情報、３６……Ｗｅｂブラウザ、４１，１１２，１２２……予兆サーバ、４２……ポータルサーバ、５０……監視対象システム、５２，５２Ａ～５２Ｃ……アプリケーション、６０，１１３，１２３……予兆エンジン、６１……データ取得部、６２……データ記憶部、６３，１１４，１２４……モデル生成部、６４……予測部、６５……推論部、６６……システムプロファイル、６７……システムモデルリポジトリ、６８……予測プロファイル、６９……予測モデルリポジトリ、７０……システムプロファイルテーブル、７１，７２……システムモデル、７１Ａ～７１Ｆ，７２Ａ～７２Ｊ……ノード、７３……アプリケーション業務サーバ対応テーブル、７４……アプリケーション指標テーブル、７５……アプリケーションノードテーブル、７６……部分グラフ、８０……クライアント画面、８１……サービス一覧、８３……基準指標エリア、８４……ネットワークエリア、８５……リードタイム表示、８６……基準指標ノード、８７……予測値表示、８８……ターゲット指標ノード、８９……確率値表示、９０……確率分布表示、１００……予測値制御エリア、１０１……プルダウンボタン、１０２……テキストボックス、１０３……再計算ボタン。

Claims

　１又は複数の計算機から構成される監視対象システムの稼働状況を監視し、当該監視対象システムにおける障害発生の予兆検知を行う監視装置において実行される監視方法において、
　前記監視装置は、
　各種処理に必要な情報が格納された記憶装置と、
　前記記憶装置に格納された前記情報を参照して処理を実行する処理部と
　を有し、
　前記処理部が、前記監視対象システムにおける基準指標及びターゲット指標を含む複数の指標についての計測値を取得する第１のステップと、
　前記処理部が、複数の前記指標の計測値に基づいて、前記基準指標の将来の値でなる予測値を予測する第２のステップと、
　前記処理部が、前記監視対象システムのシステムモデル及び当該システムモデルの一部であるサブモデルを生成し、前記基準指標の予測値及び生成した前記サブモデルに基づいて、前記ターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論する第３のステップと
　を備えることを特徴とする監視方法。
　前記第３のステップにおいて、前記処理部は、
　前記システムモデルとして、ベイジアンネットワークのモデルを生成する
　ことを特徴とする請求項１に記載の監視方法。
　前記第３のステップにおいて、前記処理部は、
　生成した前記システムモデルに基づいて、前記監視対象システム内の指定されたアプリケーションに対応するサブモデルを生成する
　ことを特徴とする請求項１に記載の監視方法。
　前記記憶装置には、
　予め登録された、前記監視対象システムにおける複数の前記指標と、前記アプリケーションとの対応関係に関する情報が格納され、
　前記第３のステップにおいて、
　前記処理部は、前記記憶装置に格納された前記対応関係に関する情報に基づいて、指定された前記アプリケーションに対応する前記指標を抽出し、抽出結果に基づいて前記サブモデルを生成する
　ことを特徴とする請求項３に記載の監視方法。
　前記第２のステップにおいて、前記処理部は、
　予め設定された又は指定された既定リードタイム後の前記基準指標の予測値を予測する
　ことを特徴とする請求項１に記載の監視方法。
　前記第３のステップにおいて、前記処理部は、
　各前記指標のメタ情報を比較し、比較結果に基づいて前記監視対象システム内の指定された前記アプリケーションに対応する前記サブモデルを生成する
　ことを特徴とする請求項３に記載の監視方法。
　前記記憶装置には、
　予め登録された、前記監視対象システムにおける前記アプリケーションごとの前記基準指標及び前記ターゲット指標に関する情報が格納され、
　前記第３のステップにおいて、
　前記処理部は、前記記憶装置に格納された前記アプリケーションごとの前記基準指標及び前記ターゲット指標に関する情報に基づいて、生成した前記システムモデルにおいて、指定された前記アプリケーションの前記基準指標及び前記ターゲット指標間を結ぶ全ての経路を探索し、探索結果に基づいて、当該アプリケーション対応する前記サブモデルを生成する
　ことを特徴とする請求項３に記載の監視方法。
　１又は複数の計算機から構成される監視対象システムの稼働状況を監視し、当該監視対象システムにおける障害発生の予兆検知を行う監視装置において、
　各種処理に必要な情報が格納された記憶装置と、
　前記記憶装置に格納された前記情報を参照して処理を実行する処理部と
　を有し、
　前記処理部は、
　前記監視対象システムにおける基準指標及びターゲット指標を含む複数の指標についての計測値を取得するデータ取得部と、
　複数の前記指標の計測値に基づいて、前記基準指標の将来の値でなる予測値を予測する予測部と、
　前記監視対象システムのシステムモデルを生成する一方、当該システムモデルの一部であるサブモデルを生成するモデル生成部と、
　前記基準指標の予測値及び生成した前記サブモデルに基づいて、前記ターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論する確率推論部と
　を備える
　ことを特徴とする監視装置。
　前記モデル生成部は、
　前記システムモデルとして、ベイジアンネットワークのモデルを生成する
　ことを特徴とする請求項８に記載の監視装置。
　前記モデル生成部は、
　生成した前記システムモデルに基づいて、前記監視対象システム内の指定されたアプリケーションに対応するサブモデルを生成する
　ことを特徴とする請求項８に記載の監視装置。
　前記記憶装置には、
　予め登録された、前記監視対象システムにおける複数の前記指標と、前記アプリケーションとの対応関係に関する情報格納され、
　前記モデル生成部は、
　前記記憶装置に格納された前記対応関係に関する情報に基づいて、指定された前記アプリケーションに対応する前記指標を抽出し、抽出結果に基づいて前記サブモデルを生成する
　ことを特徴とする請求項１０に記載の監視装置。
　前記予測部は、
　予め設定された又は指定された既定リードタイム後の前記基準指標の予測値を予測する
　ことを特徴とする請求項８に記載の監視装置。
　前記モデル生成部は、
　各前記指標のメタ情報を比較し、比較結果に基づいて前記監視対象システム内の指定された前記アプリケーションに対応する前記サブモデルを生成する
　ことを特徴とする請求項１０に記載の監視装置。
　前記記憶装置には、
　予め登録された、前記監視対象システムにおける前記アプリケーションごとの前記基準指標及び前記ターゲット指標に関する情報が格納され、
　前記モデル生成部は、
　前記記憶装置に格納された前記アプリケーションごとの前記基準指標及び前記ターゲット指標に関する情報に基づいて、生成した前記システムモデルにおいて、指定された前記アプリケーションの前記基準指標及び前記ターゲット指標間を結ぶ全ての経路を探索し、探索結果に基づいて、当該アプリケーション対応する前記サブモデルを生成する
　ことを特徴とする請求項１０に記載の監視装置。
　１又は複数の計算機から構成される監視対象システムの稼働状況を監視し、当該監視対象システムにおける障害発生の予兆検知を行う監視装置に、
　前記監視対象システムにおける基準指標及びターゲット指標を含む複数の指標についての計測値を取得する第１のステップと、
　複数の前記指標の計測値に基づいて、前記基準指標の将来の値でなる予測値を予測する第２のステップと、
　前記監視対象システムのシステムモデル及び当該システムモデルの一部であるサブモデルを生成し、前記基準指標の予測値及び生成した前記サブモデルに基づいて、前記ターゲット指標の計測値が所定値又は所定値の範囲となる確率を推論する第３のステップと
　を備える処理を実行させることを特徴とする監視プログラムが格納された記憶媒体。