WO2011083687A1

WO2011083687A1 - 運用管理装置、運用管理方法、及びプログラム記憶媒体

Info

Publication number: WO2011083687A1
Application number: PCT/JP2010/073058
Authority: WO
Inventors: 英男長谷川
Original assignee: 日本電気株式会社
Priority date: 2010-01-08
Filing date: 2010-12-15
Publication date: 2011-07-14
Also published as: EP2523115A4; CN102713861A; JP5267684B2; CN102713861B; EP2523115A1; US20120278663A1; JPWO2011083687A1; US8645769B2; EP2523115B1

Abstract

　複数のサーバから異常を検出した場合に、管理者が障害の原因を特定するまでの時間を短縮する。　運用管理装置は、障害検出部２６と、波及判定部２７とを含む。障害検出部２６は、共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、複数の被監視対象装置の各々における計測値が異常な性能指標を異常項目として検出する。波及判定部２７は、複数の被監視対象装置の各々の異常項目から、複数の被監視対象装置の全てにおいて検出された異常項目を除外して、残った異常項目を出力する。

Description

運用管理装置、運用管理方法、及びプログラム記憶媒体

　本発明は、システムの稼働情報を監視する運用管理装置、運用管理方法、及びプログラム記憶媒体に関する。

　データセンタ等に設置された多数のサーバやネットワーク機器で構成される情報システムの技術分野において、ＷＥＢサービスや業務サービスなど、システムが提供するサービスの社会インフラとしての重要性が高まっている。このため、それらのサービスを管理する各サーバの安定稼働が不可欠になっている。このようなシステムを管理する技術として、複数のサーバの稼働状況を一元的に監視し、障害の発生を検出する統合管理システムが知られている。
　この統合管理システムとしては、例えば、監視対象となる複数のサーバから稼働状況に関する実測データをオンラインで取得し、この実測データが閾値を越えた場合に異常を検出するシステムが広く知られている。しかしながら、このシステムでは、異常が検出された場合、その原因がメモリ容量不足か、ＣＰＵ負荷か、ネットワーク負荷か等、修復のために原因を絞り込む必要があった。
　一般に異常の原因を解明するには、関係がありそうな計算機のシステムログやパラメータの調査を要する。この調査は、システムエンジニアの経験と勘に頼る必要あり、異常解明に時間と労力を要する。このため、通常の統合管理システムでは、複数の機器から収集したイベントデータ（状態通知）に基づいて、異常状態の組み合わせ等の分析を自動的に行い、大局的な問題点や原因を推定して管理者に通知し、対処支援を行うことが重要である。特に、サービスの長期連続運用での信頼性確保には、発生した異常だけでなく、明確な異常になっていない性能劣化や将来発生が予想される障害の兆候といった状態を検出し、計画的な設備増強を行うことが求められている。
　ここで、このような統合管理システムに関連する以下のような技術が開示されている。特開２００２−３４２１０７号公報に開示された技術は、検出されたシステム障害がソフトウェア障害と特定された場合に、そのソフトウェア障害が発生したプロセスの再起動の再開範囲をドメイン単位に限定することで、サービスの中断時間を短縮する。
　特開２００５−２８５０４０号公報に開示された技術は、複数のネットワーク装置から初期監視情報として連続量情報を収集し、この連続量情報の統計的な振舞いを監視し、通常と異なる振舞いを検出した場合に初めて、関連する複数の監視情報を収集して、その各値を判定することで障害の原因を特定する。
　特開２００６−２４４４４７号公報に開示された技術は、データ記憶アレイにおける各種パラメータの障害傾向を検出してシステムの障害を回避する。この技術は、複数のデータ記憶装置により構成されるメモリ・アレイ空間へのアクセスを制御し、履歴ログへ各データ記憶装置からの動作性能データを累積する。そして、この技術は、データ記憶装置の異常な動作を検出するために動作性能データを解析し、解析に応答してデータ記憶装置の訂正処置を開始する。
　特開２００８−９８４２号公報に開示された技術は、コンピュータシステムの稼動状態に関する情報を収集し、この収集された情報間の相関関係を示す相関情報を記録し、相関情報と収集情報からコンピュータシステムで実行されるサービスに生じた障害を検出し、この障害を回復するための処理を生成する。そして、この技術は、この処理の実行によってコンピュータシステムに与えられる効果及び影響を相関情報を参照して判定し、効果及び影響が判定された処理の実行の要否、実行順序及び実行時刻の少なくとも一つを決定する。
　特開２００９−１９９５３３号公報に開示された技術は、複数の被管理装置から複数種の性能種目毎の性能情報を取得し、性能種目又は被管理装置を要素とした場合に、少なくとも第１の要素に関する性能情報の時系列変化を示す第１の性能系列情報と、第２の要素に関する性能情報の時系列変化を示す第２の性能系列情報との相関関数に基づいて、相関モデルを各要素間の組み合わせについて生成する。そして、この技術は、被管理装置から新たに検出された性能情報が相関モデルを維持しているか否かを分析し、その結果が否であれば、その要素を異常とする。

　しかしながら、上述の関連技術では、サーバシステムが大規模になると、異常が検出されるサーバの数が多くなるため、管理者が障害発生源とは異なる箇所に注目し、障害発生源のサーバが特定されるまでに時間を要するという課題があった。
　例えば、複数のサーバ群により構成される多階層システムでは、１つのサーバで発生した障害による異常が多数のサーバに波及して影響を及ぼすことがある。この場合、この異常の波及により障害発生源が埋没してしまう。例えば、３階層システムでは、アプリケーションサーバで発生した障害による異常が上位のＷｅｂサーバ群に波及することにより、類似の異常がＷｅｂサーバ群で一斉に発生する。このような異常の波及は、１対多の関係で発生することが多く、１台のアプリケーションサーバの障害が１００台のＷｅｂサーバの異常として検出されることがある。ここで、管理者が、異常が検出されたサーバを順に調査するときに、１００台のＷｅｂサーバに着目してしまうと、障害発生源のアプリケーションサーバに行き着くまでに相当な時間がかかってしまう。
　本発明は、上記課題を解決して、複数のサーバから異常を検出した場合に、異常の要因となる障害発生源を特定するために有効な情報を提示し、管理者が異常原因を特定するまでに要する時間を短縮できる運用管理装置、運用管理方法、及びプログラム記憶媒体を提供することを目的とする。

　本発明の運用管理装置は、共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、前記複数の被監視対象装置の各々における計測値が異常な前記性能指標を異常項目として検出する障害検出手段と、前記複数の被監視対象装置の各々の前記異常項目から、前記複数の被監視対象装置の全てにおいて検出された前記異常項目を除外して、残った前記異常項目を出力する波及判定手段とを含む。
　本発明の運用管理方法は、共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、前記複数の被監視対象装置の各々における計測値が異常な前記性能指標を異常項目として検出し、前記複数の被監視対象装置の各々の前記異常項目から、前記複数の被監視対象装置の全てにおいて検出された前記異常項目を除外して、残った前記異常項目を出力する。
　本発明のプログラム記録媒体は、コンピュータに、共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、前記複数の被監視対象装置の各々における計測値が異常な前記性能指標を異常項目として検出し、前記複数の被監視対象装置の各々の前記異常項目から、前記複数の被監視対象装置の全てにおいて検出された前記異常項目を除外して、残った前記異常項目を出力する処理を実行させる運用管理プログラムを記録する。

　本発明の効果は、複数のサーバから異常を検出した際に、管理者がシステムで発生した障害の原因を迅速に特定できることである。

本発明にかかる一実施形態の監視システムの構成を示す機能ブロック図である。本実施形態における多階層システムの構成の一例を示す図である。本実施形態における多階層システムで発生する障害の波及状態の一例を示す図である。本実施形態における異常項目の一例を示す図である。本実施形態における管理用異常情報の一例を示す図である。本実施形態における異常スコア計算部２８から出力される情報の一例を示す図である。本実施形態における監視端末３の管理画面３１に表示される監視情報の一例を示す図である。本実施形態のサーバ運用管理装置の性能情報収集動作の一例示すフローチャートである。本実施形態のサーバ運用管理装置の相関モデル生成動作の一例を示すフローチャートである。本実施形態のサーバ運用管理装置の管理用異常情報生成動作の一例を示すフローチャートである。本実施形態のサーバ運用管理装置の異常スコア算出動作の一例を示すフローチャートである。本実施形態の特徴的な構成を示すブロック図である。

　以下、本発明にかかる一実施形態を、図面に基づいて説明する。
　図１は、本実施形態の監視システムの構成を示す機能ブロック図である。図１に示すように、本実施形態の監視システムは、サーバ運用管理装置２と、監視端末３とを含む。サーバ運用管理装置２は、複数の被監視サーバ１（被監視装置）を監視する。監視端末３は、管理者の操作により入力される調査指令に従って、サーバ運用管理装置２に対し各被監視サーバ１の異常の有無の調査依頼を送信すると共に、サーバ運用管理装置２から受けた調査結果を管理画面３１に表示する。
　被監視サーバ１は、サーバ運用管理装置２が監視対象としている多階層システムを構成するサーバである。多階層システムとは、サービスを提供するための情報処理を複数の階層に分離し、各階層に、負荷分散されたサーバ群を設けたシステムである。例えば、３階層システムは、ウェブサーバ群、アプリケーションサーバ群、及びデータベースサーバ群とからなる。図２は、本実施形態における多階層システムの構成の一例を示す図である。図２の例では、被監視サーバ１が３階層システムを構成している。この３階層システムは、被監視サーバ１として、２機のアプリケーションサーバと３機のウェブサーバとを含む。また、ＡＰサーバグループＢは、２機のアプリケーションサーバを含み、ＷｅｂサーバグループＡは、３機のウェブサーバを含む。図示していないクライアント又は他のサーバからのインターネットＤを介したＷｅｂサーバグループＡへのアクセスは、ロードバランサＣにより各ウェブサーバへ均等に負荷分散される。そして、それぞれのウェブサーバは、ランダムに第１又は第２のアプリケーションサーバにリクエストを転送する。
　また、各被監視サーバ１は、自機における複数の性能指標（メトリック）を一定間隔毎に計測し、この各性能指標の実測データを性能情報としてサーバ運用管理装置２へ送る。ここで、メトリックとは、サーバやネットワーク機器から観測できる性能指標のことを指す。例えば、性能指標としては、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）使用率、メモリ使用量、ディスク使用状況、サービスアプリケーションの稼働状況、最新の修正モジュールがＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）またはアプリケーションに適用されているか否か、パスワードエラーの回数などがある。
　本実施形態のサーバ運用管理装置２は、性能情報収集部２１と、性能情報蓄積部２２と、障害検出部２６と、波及判定部２７とを含む。性能情報収集部２１は、多階層システムを構成する複数の被監視サーバ１の各々から、複数の性能指標について、収集時刻毎に、計測された各実測データの組を性能情報として収集する。性能情報蓄積部２２は、収集された各被監視サーバ１の性能情報を蓄積する。障害検出部２６は、監視端末３からの調査依頼において管理者が指定した調査時刻に計測された各被監視サーバ１の性能情報を性能情報蓄積部２２から読み出し、各性能指標の実測データが正常か異常かを各モデルデータとの比較結果に基づいて判断し、異常な性能指標を異常項目として検出する。波及判定部２７は、障害検出部２６により検出された各被監視サーバ１の異常項目から、同一階層の全被監視サーバ１間で共通する異常項目を抽出して除外し、各被監視サーバ１の残りの異常項目を示す管理用異常情報を管理者への提示用として生成する。
　このような構成の本実施形態のサーバ運用管理装置２によれば、波及判定部２７により、同一階層の全サーバに共通する異常項目を他階層のサーバからの波及により生じたものであるとして除外し、各サーバの残りの異常項目を管理用異常情報とするため、階層間の異常の波及による障害発生源の埋没がない情報を管理者に提示することができる。
　ここで、異常の波及とは、１つのサーバで発生した障害が、そのサーバに接続された他の階層における多数のサーバに異常をもたらすことである。図３は、本実施形態における多階層システムで発生する障害の波及状態の一例を示す図である。例えば、図３に示すように、アプリケーションサーバ群の１つのサーバに障害が発生すると、ウェブサーバ群の全てのサーバに一様に影響を与えて、全てのウェブサーバで同一傾向の異常が同時発生する。その結果、１つのアプリケーションサーバの障害が波及すると、ウェブサーバではアプリケーションサーバの数倍の範囲で異常が検出される。
　また、本実施形態のサーバ運用管理装置２は、異常スコア計算部２８を含んでいてもよい。異常スコア計算部２８は、波及判定部２７により生成された管理用異常情報に基づいて各被監視サーバ１の異常項目数を集計し、被監視サーバ１毎に性能指標数に占める異常項目数の割合を異常スコアとして算出する。
　これにより、各被監視サーバ１の異常度合いを表す値として、性能指標数（メトリック数）の違いを打ち消した異常スコアを算出するので、各被監視サーバ１の性能指標数の違いに左右されずに異常が集中する被監視サーバ１を判定し、正確な原因候補のランキングを得ることができる。
　更に、本実施形態のサーバ運用管理装置２は、相関モデル生成部２３と、相関モデル記憶部２４とを含む。相関モデル生成部２３は、性能情報蓄積部２２に蓄積された一定期間分の正常な各被監視サーバ１の性能情報に基づいて、被監視サーバ１毎に、２つの性能指標の組み合わせ毎に、当該２つの性能指標の実測データ間の相関関係を示す変換関数を相関モデルとして生成する。相関モデル記憶部２４は、生成された各相関モデルを記憶する。障害検出部２６は、調査時刻に計測された各被監視サーバの性能情報における性能指標の組み合わせのうちの一方の実測データを、当該組み合わせに係る相関モデルに基づいて他方の実測データから算出されるモデルデータと比較する。そして、障害検出部２６は、その差分が一定の誤差範囲内を満たすか否かを判定し、否と判定された性能指標の組み合わせを、上述した異常項目として検出する。
　これにより、正常時の相関関係が崩れている性能指標の組を複数検出し、重複している性能指標を異常発生源として迅速に特定できる。
　また更に、本実施形態のサーバ運用管理装置２は、論理構成情報記憶部２５と、通信制御部２９とを含む。論理構成情報記憶部２５は、複数の各被監視サーバ１がどの階層に属しているかを示す多階層の論理構成情報を予め記憶する。通信制御部２９は、監視端末３との通信を制御する。
　サーバ運用管理装置２における性能情報収集部２１は、各被監視サーバ１で計測された各々の性能情報を各被監視サーバ１から収集し、性能情報蓄積部２２へ順次送る。
　性能情報蓄積部２２は、各被監視サーバ１の性能情報を、性能指標毎の時系列データとして保存管理すると共に、相関モデル生成部２３又は障害検出部２６からの要求に応じて、指定された期間の各被監視サーバ１の性能情報を出力する。
　相関モデル生成部２３は、各被監視サーバ１の一定期間分の正常な性能情報を性能情報蓄積部２２から取得する。ここで、相関モデル生成部２３は、各被監視サーバ１の全ての性能指標（メトリック）について、実測データを取得する。そして、相関モデル生成部２３は、予め定められた算術的アルゴリズムに基づいて、被監視サーバ１毎に、２つのメトリックの組み合わせ全てについて、相関関係を示す相関モデルを算出する。ここで、一定期間としては、例えば、１週間又は１ヶ月などが設定されていてもよい。また、相関モデル生成部２３は、特開２００９−１９９５３３号公報に記載された技術を用いて相関モデルを生成してもよい。
　例えば、相関モデル生成部２３は、算術的アルゴリズムとして、被監視サーバ１の性能情報における性能指標の組み合わせのうち、一方の性能指標の実測データをｘとし他方の性能指標の実測データをｙとした場合に、変換関数「ｙ＝Ａｘ＋Ｂ」が成り立つように係数Ａ、Ｂの値を算出する。そして、相関モデル生成部２３は、この算出した係数Ａ、Ｂの値を含む変換関数「ｙ＝Ａｘ＋Ｂ」を、この性能指標の組み合わせに対応する相関モデルとしてもよい。
　相関モデル記憶部２４は、相関モデル生成部２３により生成された相関モデルを受け取り記憶すると共に、障害検出部２６からの要求に対応して相関モデルを出力する。論理構成情報記憶部２５は、各被監視サーバ１の識別子にその被監視サーバ１が所属する階層の階層名を対応付けた、多階層の論理構成情報を予め記憶する。
　障害検出部２６は、各被監視サーバ１の、監視端末３からの調査依頼で指定された調査期間の性能情報を性能情報蓄積部２２から読み出すと共に各被監視サーバ１の相関モデルを相関モデル記憶部２４から読み出す。障害検出部２６は、調査期間内の収集時刻毎に、各被監視サーバ１の性能情報における性能指標（メトリック）の組み合わせの一方の実測データと、この組み合わせに係る相関モデルに他方の実測データを代入して算出したモデルデータとの間の残差値を算出する。障害検出部２６は、残差値が予め設定された値を超えていた場合、この性能指標（メトリック）の組み合わせを異常項目として検出する。
　例えば、性能指標の組み合わせを「システムプロセスのＣＰＵ使用率」と「メモリ使用量」とした場合、障害検出部２６は、「システムプロセスのＣＰＵ使用率」を入力として相関モデルを基に算出される「メモリ使用量」のモデルデータと、「メモリ使用量」の実測データとを比較する。そして、障害検出部２６は、その残差が予め設定された許容範囲内でない場合、この組み合わせを異常項目として検出する。
　波及判定部２７は、論理構成情報記憶部２５に予め記憶された論理構成情報を基に各被監視サーバ１が属する階層（サーバグループ）を同定し、障害検出部２６によって検出された各被監視サーバ１の異常項目から同一階層の全ての被監視サーバ１間で共通する異常項目を抽出する。そして、波及判定部２７は、この抽出した共通の異常項目を各被監視サーバの全異常項目から除外することで、異常の波及を考慮した管理用異常情報を生成する。
　ここで、波及判定部２７の機能を図４及び図５に示す具体例に基づいて説明する。図４は、本実施形態における異常項目の一例を示す図である。図４は、３つのウェブサーバと２つのアプリケーションサーバとを被監視サーバ１とした場合の、障害検出部２６が検出した各被監視サーバ１の異常項目である。図５は、本実施形態における管理用異常情報の一例を示す図である。図５は、図４に示す各被監視サーバ１の異常項目から、波及判定部２７が、各階層の被監視サーバ１間で共通な異常項目を抽出し、除外することにより生成した管理用異常情報である。
　図４及び図５における「Ｗｅｂ１」、「Ｗｅｂ２」、「Ｗｅｂ３」はそれぞれウェブサーバの識別子（サーバ名）を表し、「ＡＰ１」、「ＡＰ２」はそれぞれアプリケーションサーバの識別子（サーバ名）を表す。図４では、各サーバの異常項目として、相関関係の異常を検出した性能指標の組み合わせ（一方の性能指標ｕと他方の性能指標ｙ）が示されている。ここで、「ＣＰＵ　ｕｓｅｒ％」は、ユーザプロセスのＣＰＵ使用率を表す。「ＣＰＵ　ｓｙｓｔｅｍ％」は、システムプロセスのＣＰＵ使用率を表す。「Ｄｉｓｋ　ＩＯ／ｓｅｃ」は、ディスク入出力レートを表す。「Ｍｅｍ　ｕｓｅｄ％」は、メモリ使用量を表す。「Ｄｉｓｋ　ｕｓｅｄ％」は、ディスク使用量を表す。「ＣＰＵ　Ｗａｉｔ　Ｉ／Ｏ％」は、ＣＰＵ入出力待ち時間を表す。「Ｐａｃｋｅｔ　Ｒｅｃｖ」及び「Ｐａｃｋｅｔ　Ｓｅｎｔ」は、受信パケット数及び送信パケット数を表す。
　図４に示す例では、「Ｗｅｂ１」、「Ｗｅｂ２」、「Ｗｅｂ３」からなるウェブサーバグループにおいて、「ＣＰＵ　ｕｓｅｒ％」と「ＣＰＵ　ｓｙｓｔｅｍ％」の組み合わせ、及び「Ｍｅｍ　ｕｓｅｄ％」と「Ｄｉｓｋ　ｕｓｅｄ％」の組み合わせが３つのウェブサーバ間で、共通の異常項目である。一方で、「ＡＰ１」、「ＡＰ２」からなるアプリケーションサーバグループにおいて、共通の異常項目は無い。この結果、波及判定部２７によって生成される管理用異常情報は図５のようになる。
　異常スコア計算部２８は、波及判定部２７から管理用異常情報を受け取り、管理用異常情報を基に各被監視サーバ１の異常項目数をカウントする。そして、異常スコア計算部２８は、被監視サーバ１毎に、２つのメトリックの組み合わせ総数に占める異常項目数の割合を異常スコアとして算出し、各被監視サーバ１の異常スコアを示す情報と上述した管理用異常情報とを監視端末３へ送出する。図６は、本実施形態における異常スコア計算部２８から出力される情報の一例を示す図である。図６に示すように、異常スコア計算部２８が出力する情報は、サーバ識別子、異常項目数、メトリックの組み合わせ総数（相関モデル数）、異常スコアの４つのカラムを持つテーブルである。図６の例では、このテーブルの１番目のレコードに、サーバ識別子としてアプリケーションサーバの１つを表す「ＡＰ１」が記録されており、異常項目数に「７」、相関モデル数に「２０」、異常スコアに「０．３５」が記録されている。
　監視端末３は、管理者による操作に従って、サーバ運用管理装置２に調査指令を送る。また、監視端末３は、調査指令に対してサーバ運用管理装置２から送られてくる各被監視サーバ１の異常スコアと管理用異常情報とに基づく監視情報を管理画面３１に表示する。
　図７は、本実施形態における監視端末３の管理画面３１に表示される監視情報の一例を示す図である。図７に示す監視情報には、各被監視サーバ１の異常スコアを示すテーブル７１、相関異常マップ７２、実測データグラフ７３が含まれている。テーブル７１は、サーバ識別子及びその異常スコアのカラムを持つ。テーブル７１の行は、異常スコアに応じて整列されていてもよい。また、テーブル７１の行の数は、管理者が決めた数に限定されていてもよい。これにより、管理者は分析の結果もっとも異常の可能性の高い被監視サーバ１を容易に把握することができる。
　相関異常マップ７２には、各階層と各被監視サーバ１との関係が矩形のエリアで表される。そして、各被監視サーバ１のエリア内にメトリックを表す円が表示され、異常が検出されたメトリック間に直線が描画される。実データグラフ７３には、異常が検出された両メトリックの実測データを時系列で示したグラフと、障害検出部２６によって算出された、実測データと相関モデルとの差分を示したグラフが含まれる。
　ここで、本実施形態のサーバ運用管理装置２は、論理構成情報記憶部２５を含み、波及判定部２７が、論理構成情報記憶部２５に予め記憶された論理構成情報を基に各被監視サーバ１が属する階層（サーバグループ）を同定する。しかしながら、これに限らず、サーバ運用管理装置２が論理構成情報記憶部２５を含まずに、波及判定部２７が、上述した各被監視サーバ１の性能情報に含まれるサーバ識別子から、各被監視サーバ１が所属する階層を判別してもよい。例えば、波及判定部２７は、性能情報に含まれるサーバ識別子が「Ｗｅｂ２」であれば、「Ｗｅｂ」部分が同じ「Ｗｅｂ１」及び「Ｗｅｂ３」と同一階層に属すると判別してもよい。
　本実施形態のサーバ運用管理装置２によれば、波及判定部２７により同一階層の被監視サーバ１に共通する異常項目を他階層からの波及により生じたものとして除外し、残りの異常項目を管理用異常情報として表示するため、階層間の異常の波及による障害発生源の埋没を解消することができる。また、サーバ間のメトリック数の違いに左右されない指標である異常スコアを被監視サーバ１毎に算出するため、管理者は障害発生源である可能性が大きい被監視サーバ１を容易に特定することができる。
　次に、本実施形態におけるサーバ運用管理装置２の動作について説明する。ここで、以下の動作説明は、本発明のサーバ運用管理方法の実施形態の説明でもある。
　図８は、本実施形態のサーバ運用管理装置２の性能情報収集動作を示すフローチャートである。図８に示すように、まず、性能情報収集部２１が、予め一定間隔（例えば１分間隔）で設定された収集時刻になったか否かを判断し（図８のステップＳ８１）、収集時刻になったと判断すると被監視サーバ１にアクセスして性能情報を取得する（図８のステップＳ８２）。そして、この取得された被監視サーバ１の性能情報を性能情報蓄積部２２が記憶する（図８のステップＳ８３）。続いて、性能情報収集部２１が、論理構成情報記憶部２５の論理構成情報を参照して全ての被監視サーバ１から性能情報を取得したか否かを判断し（図８のステップＳ８４）、全ての被監視サーバ１から性能情報を取得した場合、次の収集時刻まで待機する。
　次に、図９は、本実施形態のサーバ運用管理装置２の相関モデル生成動作を示すフローチャートである。
　まず、相関モデル生成部２３が、監視端末３からの指示に従って、性能情報蓄積部２２に蓄積された一定期間分（例えば、１週間分）の正常な各被監視サーバ１の性能情報を読み出す（図９のステップＳ９１）。相関モデル生成部２３は、被監視サーバ１毎に、２つの性能指標の組み合わせ毎に、当該性能指標の実測データ間の相関関係を示す変換関数を相関モデルとして生成する（図９のステップＳ９２）。この生成された各相関モデルを相関モデル記憶部２４が記憶する（図９のステップＳ９３）。そして、相関モデル生成部２３は、すべての被監視サーバ１について相関モデルを生成したら（図９のステップＳ９４のはい）、相関モデル生成動作を終了する。
　次に、図１０は、本実施形態のサーバ運用管理装置２の管理用異常情報検出動作を示すフローチャートである。
　まず、障害検出部２６が、監視端末３に指定された調査対象期間（例えば、１週間）に含まれる測定時刻毎の各被監視サーバ１の性能情報を性能情報蓄積部２２から読み出す（図１０のステップＳ１０１）。障害検出部２６は、その各性能指標の実測データの組み合わせが、対応する相関モデル（変換関数）を一定の誤差範囲内で満たすか否かを判定し、否と判定された性能指標の組み合わせを異常項目として検出する（図１０のステップＳ１０２）。
　続いて、波及判定部２７が、論理構成情報を参照して、障害検出部２６によって検出された各被監視サーバ１の異常項目から、同一階層の全被監視サーバ１間で共通する異常項目を抽出する（図１０のステップＳ１０３）。波及判定部２７は、各被監視サーバ１の異常項目から、この抽出した共通の異常項目を除外した残りの異常項目を示す管理用異常情報を生成する（図１０のステップＳ１０４）。そして、波及判定部２７は、全ての階層について管理用異常情報を生成した場合に（図１０のステップＳ１０５のはい）、その管理用異常情報を異常スコア計算部２８へ出力する（図１０のステップＳ１０６）。
　これにより、同一階層の全被監視サーバ２に共通する異常項目を他階層からの波及により生じたものとして除外し、残りの異常項目を管理用異常情報とするので、階層間の異常の波及による異常発生源の埋没を抑制することができる。
　次に、図１１は、本実施形態のサーバ運用管理装置２の異常スコア算出動作を示すフローチャートである。
　まず、異常スコア計算部２８が、波及判定部２７から入力された管理用異常情報に基づいて、被監視サーバ１毎に異常項目数を計数する（図１１のステップＳ１１１）。異常スコア計算部２８は、相関モデル記憶部２４に記憶されている相関モデルを参照して、被監視サーバ１毎に相関モデル数を計数する（図１１のステップＳ１１２）。続いて、異常スコア計算部２８は、被監視サーバ１毎に異常項目数の相関モデル数に対する割合を異常スコアとして算出する（図１１のステップＳ１１３）。
　そして、全ての被監視サーバ１について異常スコアを算出した場合に（図１１のステップＳ１１４のはい）、各被監視サーバ１の異常スコアを監視端末３へ出力する（図１１のステップＳ１１５）。
　これにより、各被監視サーバ１についてメトリック数に応じた異常スコアを算出できるため、メトリック数に左右されず、異常が集中している被監視サーバ１を判定し、正確な原因候補のランキングを得ることが出来る。
　ここで、上述したサーバ運用管理装置２における、性能情報収集部２１、相関モデル生成部２３、障害検出部２６、波及判定部２７、及び異常スコア計算部２８については、その機能内容をプログラム化して、コンピュータに実行させるように構成してもよい。
　次に、本実施形態の特徴的な構成について説明する。図１２は、本実施形態の特徴的な構成を示すブロック図である。
　運用管理装置は、障害検出部２６と、波及判定部２７とを含む。
　ここで、障害検出部２６は、共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、複数の被監視対象装置の各々における計測値が異常な性能指標を異常項目として検出する。波及判定部２７は、複数の被監視対象装置の各々の異常項目から、複数の被監視対象装置の全てにおいて検出された異常項目を除外して、残った異常項目を出力する。
　以上のように、本実施形態のサーバ運用管理装置２は、負荷分散クラスタサーバ群の特徴を利用して、サーバグループ毎に発生した異常の類似性を判定し、サーバグループ間に発生する異常の波及を特定し、異常情報の補正を行うため、管理者は、異常原因を容易に判別できる。
　本実施形態のサーバ運用管理装置２は、多階層システムにおける複数の被監視サーバ１から異常を検出した場合に、各被監視サーバ１の異常項目から、同一階層の全被監視サーバ１に共通する異常項目を他階層のサーバからの波及により生じたものとして除外し、残りの異常項目を管理用異常情報とするため、障害発生源の被監視サーバ１の異常項目を相対的に多くして、障害発生源の埋没を抑えることができる。よって、管理者は分析の結果もっとも異常の可能性の高い被監視サーバ１を容易に把握することができ、多階層システムで発生した異常の原因解明を正確且つ迅速に実施することができる。
　また、上述の特開２００９−１９９５３３号公報等に開示された関連技術では、多階層システムにおいて、障害発生源のサーバのメトリック数が少数であった場合に、障害の原因が埋没してしまう問題があった。
　例えば、アプリケーションサーバとデータベースサーバとの間では、ディスク搭載数の違い、ソフトウェアの監視項目数の違いにより、何倍ものメトリック数の違いがあり、各階層のサーバグループ間では、メトリック数に相対的に大きな差異がある。ここで、メトリック総数が相対的に少ないサーバが障害の発生源である場合、その障害発生源のサーバは、異常メトリック数の上限が他に比べて少ないため、全てのメトリックが異常を示していても、障害が波及した他のサーバより異常メトリック数が少ない。管理者は、通常、異常メトリック数の絶対数が多いサーバから調査するため、障害発生源のサーバの異常は他のサーバ群に埋没してしまう。このため、管理者は誤ったサーバに着目してしまい、結果として異常原因を見誤る。
　本実施形態のサーバ運用管理装置２は、被監視サーバ１毎にメトリック数に応じた異常スコアを算出するため、相対的にメトリック数の少ない被監視サーバ１の分析をシームレスに可能にし、各被監視サーバ１間のメトリック数の違いに左右されず、異常が集中している被監視サーバ１を特定し、正確な原因候補のランキングを得ることができる。これにより、管理者は正確且つ迅速な障害箇所の特定が可能となる。
　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
　例えば、上記実施形態では、障害検出部２６が、２つの性能指標の計測値が当該２つの性能指標に対応する相関モデルを満足していない場合、当該２つの性能指標の組み合わせを異常項目として検出している。しかしながら、障害検出部２６は、各性能指標の計測値を所定の閾値と比較する等により、各性能指標が異常かどうかを判定し、異常と判定された各性能指標を異常項目として出力してもよい。
　この出願は、２０１０年１月８日に出願された日本出願特願２０１０−００３００８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、多階層システムにおける各サーバの稼働状況を監視する技術に適用可能である

　１　被監視サーバ
　２　サーバ運用管理装置
　３　監視端末
　２１　性能情報収集部
　２２　性能情報蓄積部
　２３　相関モデル生成部
　２４　相関モデル記憶部
　２５　論理構成情報記憶部
　２６　障害検出部
　２７　波及判定部
　２８　異常スコア計算部
　２９　通信制御部
　３１　管理画面

Claims

　共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、前記複数の被監視対象装置の各々における計測値が異常な前記性能指標を異常項目として検出する障害検出手段と、
　前記複数の被監視対象装置の各々の前記異常項目から、前記複数の被監視対象装置の全てにおいて検出された前記異常項目を除外して、残った前記異常項目を出力する波及判定手段と
を含む運用管理装置。
　さらに、前記複数の被監視対象装置の各々について、前記複数の性能指標の内の異なる２つの性能指標毎に、当該２つの性能指標間の相関関係を示す変換関数を記憶する相関モデル記憶手段を含み、
　前記障害検出手段は、前記複数の性能指標の内の２つの性能指標の一方の計測値を、当該２つの性能指標に対応する変換関数に入力して得られた値と、他方の計測値との差分が所定値以上の場合、当該２つの性能指標を前記異常項目として検出する
請求項１に記載の運用管理装置。
　さらに、前記複数の被監視対象装置の各々について、前記波及判定手段により出力された前記異常項目の数の、当該被監視装置の前記変換関数の数に対する割合を、異常スコアとして出力する異常スコア算出手段を含む
請求項２に記載の運用管理装置。
　さらに、
　前記複数の被監視対象装置の各々において計測された、前記複数の性能指標についての計測値を時系列に記憶する性能情報蓄積手段と、
　前記性能情報蓄積手段に記憶された所定期間の前記複数の性能指標の計測値をもとに前記変換関数を生成し、相関モデル記憶手段に保存する相関モデル生成手段と
を含む請求項３に記載の運用管理装置。
　共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、前記複数の被監視対象装置の各々における計測値が異常な前記性能指標を異常項目として検出し、
　前記複数の被監視対象装置の各々の前記異常項目から、前記複数の被監視対象装置の全てにおいて検出された前記異常項目を除外して、残った前記異常項目を出力する
運用管理方法。
　さらに、前記複数の被監視対象装置の各々について、前記複数の性能指標の内の異なる２つの性能指標毎に、当該２つの性能指標間の相関関係を示す変換関数を記憶し、
　前記異常項目を検出する場合、前記複数の性能指標の内の２つの性能指標の一方の計測値を、当該２つの性能指標に対応する変換関数に入力して得られた値と、他方の計測値との差分が所定値以上の場合、当該２つの性能指標を前記異常項目として検出する
請求項５に記載の運用管理方法。
　さらに、前記複数の被監視対象装置の各々について、前記異常項目の数の、当該被監視装置の前記変換関数の数に対する割合を、異常スコアとして出力する
請求項６に記載の運用管理方法。
　さらに、
　前記複数の被監視対象装置の各々において計測された、前記複数の性能指標についての計測値を時系列に記憶し、
　所定期間の前記複数の性能指標の計測値をもとに前記変換関数を生成する
請求項７に記載の運用管理方法。
　コンピュータに、
　共通の装置に接続された複数の被監視対象装置の各々を対象に、複数の性能指標について計測値を取得し、前記複数の被監視対象装置の各々における計測値が異常な前記性能指標を異常項目として検出し、
　前記複数の被監視対象装置の各々の前記異常項目から、前記複数の被監視対象装置の全てにおいて検出された前記異常項目を除外して、残った前記異常項目を出力する
処理を実行させる運用管理プログラムを記録したプログラム記録媒体。
　さらに、前記複数の被監視対象装置の各々について、前記複数の性能指標の内の異なる２つの性能指標毎に、当該２つの性能指標間の相関関係を示す変換関数を記憶し、
　前記異常項目を検出する場合、前記複数の性能指標の内の２つの性能指標の一方の計測値を、当該２つの性能指標に対応する変換関数に入力して得られた値と、他方の計測値との差分が所定値以上の場合、当該２つの性能指標を前記異常項目として検出する
前記運用管理プログラムを記録した請求項９に記載のプログラム記録媒体。
　さらに、前記複数の被監視対象装置の各々について、前記異常項目の数の、当該被監視装置の前記変換関数の数に対する割合を、異常スコアとして出力する
前記運用管理プログラムを記録した請求項１０に記載のプログラム記録媒体。
　さらに、
　前記複数の被監視対象装置の各々において計測された、前記複数の性能指標についての計測値を時系列に記憶し、
　所定期間の前記複数の性能指標の計測値をもとに前記変換関数を生成する
前記運用管理プログラムを記録した請求項１１に記載のプログラム記録媒体。