JPWO2014020908A1

JPWO2014020908A1 - システム状態判別支援装置、及び、システム状態判別支援方法

Info

Publication number: JPWO2014020908A1
Application number: JP2014528001A
Authority: JP
Inventors: 允裕大野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-08-03
Filing date: 2013-07-31
Publication date: 2016-07-21
Also published as: WO2014020908A1

Abstract

システムの状態を判別するときの監視状況がモデルデータ生成時の監視状況と異なる場合であっても、システムの状態を正しく判別する。インシデント判別支援装置（システム状態判別支援装置）２００は、判別モデル信頼度算出部２１０と判別閾値補正部２２０とを含む。判別モデル信頼度算出部２１０は、システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いたシステムの監視情報の信頼度であるモデル信頼度を算出する。判別閾値補正部２２０は、システムの判別対象の監視情報の信頼度である対象信頼度を算出し、モデル信頼度と対象信頼度とをもとに、判別モデルによる判別で用いる閾値を補正する。

Description

本発明は、システム状態判別支援装置、及び、システム状態判別支援方法に関する。

企業システムを対象とした運用管理では、ユーザがＩＴ（Information Technology）サービスを安定して利用できるように、管理者は、ユーザが正常にＩＴサービスを受けることができない状態、もしくは、そうなる可能性がある状態（インシデント）を検出し、それらのインシデントから対応すべきインシデントを判別する。

インシデントの判別技術として、コンピュータシステムのモデルデータをもとに、コンピュータシステムの状態を判別する技術が提案されている。このようなインシデントの判別技術を用いた装置（インシデント判別装置）の一例が、例えば、特許文献１に記載されている。特許文献１に記載の装置は、過去における、コンピュータシステムの正常時の稼動情報をもとに、モデルデータを生成する。そして、この装置は、モデルデータと現在のコンピュータシステムの稼動情報の値との統計的乖離度がある閾値以上である場合に、コンピュータシステムの状態が異常であると判別する。

ここで、コンピュータシステムの状態が正常か異常かを判別する閾値の設定には、異常な状態を正常な状態と判別する偽陽性と、正常な状態を異常な状態と判別する偽陰性と、のトレードオフがある。このため、管理者は、経験や知識をもとに、適切な閾値を設定する必要がある。

例えば、企業システムを対象とした運用管理では、運用開始前のテスト工程で、管理者は、インシデント判別装置を用いて、テスト環境におけるシステムの監視情報からインシデントを判別するためのモデルデータを生成し、その閾値を設定する。

具体的には、インシデント判別装置は、企業システムの正常な状態、もしくは、テスト環境での異常な状態における監視情報をもとに、インシデントを判別するためのモデルデータを生成する。そして、管理者は、上記のモデルデータとモデルデータに対する仮の閾値とを用いて、インシデント判別装置が、テスト環境における監視情報からインシデントを正しく検出し、判別できるかどうかをテストすることにより、閾値を設定する。

特に、管理者は、管理者がインシデントであると判別するケースを、インシデント判別装置がインシデントでないと判別することがないように、すなわち、偽陽性が少なくなるように閾値を設定する。これは、管理者は、ユーザが業務サービスを安定して利用できるように、インシデントを漏れなく検出できることを重視するためである。

そして、運用開始後の運用保守工程で、インシデント判別装置は、テスト環境で生成されたモデルデータと設定された閾値とを用いて、本番環境におけるシステムの監視情報からインシデントを判別する。

特開２０１１−０３４２０８号公報

上述の特許文献１のインシデント判別装置を用いたインシデント判別では、本番環境においても、テスト環境で生成されたモデルデータと設定された閾値とを用いてインシデント判別が行われる。

テスト環境は、コンピュータシステムの動作検証を目的とする環境である。テスト環境では、不要なプログラムの稼動やネットワークの通信障害等が生じないため、データ欠損が生じず、データ遅延が発生しない。従って、テスト環境においては、高品質な監視情報が得られる。一方、本番環境では、繁忙期や閑散期等のＩＴサービスの利用環境、ＩＴサービスを保守するためのウイルスチェックやアップデート、スキャンデスク等の常駐プログラムの稼動環境、実際のデータ転送量や通信障害頻度等のネットワークの通信環境が変化する。従って、本番環境では、様々な品質の監視情報が得られる。

インシデント判別装置は、システムにおいて監視情報を取得したときの状況（監視状況）がモデルデータ生成時とモデルデータ利用時とで同一である場合に、インシデントを正しく検出できるように動作する。このため、モデルデータを生成したテスト環境においてインシデントを正しく検出できるように閾値が設定されても、テスト環境と監視状況が異なる本番環境では、インシデントを正しく検出できないという課題がある。例えば、テスト環境において偽陽性が少なくなるように閾値が設定されても、本番環境のインシデント判別における偽陽性は少なくならないことがある。

本発明の目的は、上述の課題を解決し、システムの状態を判別するときの監視状況がモデルデータ生成時の監視状況と異なる場合であっても、システムの状態を正しく判別できるシステム状態判別支援装置、及び、システム状態判別支援方法を提供することである。

本発明の一態様におけるシステム状態判別支援装置は、システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いた前記システムの監視情報の信頼度であるモデル信頼度を算出する判別モデル信頼度算出手段と、前記システムの判別対象の監視情報の信頼度である対象信頼度を算出し、前記モデル信頼度と前記対象信頼度とをもとに、前記判別モデルによる判別で用いる閾値を補正する判別閾値補正手段と、を含む。

本発明の一態様におけるシステム状態判別支援方法は、システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いた前記システムの監視情報の信頼度であるモデル信頼度を算出し、前記システムの判別対象の監視情報の信頼度である対象信頼度を算出し、前記モデル信頼度と前記対象信頼度とをもとに、前記判別モデルによる判別で用いる閾値を補正する。

本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いた前記システムの監視情報の信頼度であるモデル信頼度を算出し、前記システムの判別対象の監視情報の信頼度である対象信頼度を算出し、前記モデル信頼度と前記対象信頼度とをもとに、前記判別モデルによる判別で用いる閾値を補正する、処理をコンピュータに実行させるプログラムを格納する。

本発明の効果は、システムの状態を判別するときの監視状況がモデルデータ生成時の監視状況と異なる場合であっても、システムの状態を正しく判別できることである。

本発明の実施の形態の特徴的な構成を示すブロック図である。本発明の実施の形態における、分散システムの構成を示すブロック図である。本発明の実施の形態におけるインシデント判別装置１００、及び、インシデント判別支援装置２００の構成を示すブロック図である。本発明の実施の形態におけるコンピュータシステム５００の構成を示すブロック図である。本発明の実施の形態における、インシデント判別装置１００、及び、インシデント判別支援装置２００の、判別モデル生成時の処理を示すフローチャートである。本発明の実施の形態における、監視情報の信頼度の算出処理（ステップＳ２０３）の詳細を示すフローチャートである。本発明の実施の形態における、インシデント判別装置１００、及び、インシデント判別支援装置２００の、インシデント判別時の処理を示すフローチャートである。本発明の実施の形態における、判別閾値補正処理（ステップＳ２５４）の詳細を示すフローチャートである。本発明の実施の形態における監視情報設定１４１の例を示す図である。本発明の実施の形態における監視情報履歴１５１の例を示す図である。本発明の実施の形態における判別モデル情報１６１の例を示す図である。本発明の実施の形態における判別閾値情報１７１（補正前）の例を示す図である。本発明の実施の形態における判別閾値情報１７１（補正後）の例を示す図である。本発明の実施の形態における判別履歴情報１８１の例を示す図である。本発明の実施の形態における監視状況設定２３１の例を示す図である。本発明の実施の形態における、モデル化期間の監視状況収集結果２５１の例を示す図である。本発明の実施の形態における判別モデル信頼度情報２４１の例を示す図である。本発明の実施の形態における、判別対象時刻の監視状況収集結果２６１の例を示す図である。本発明の実施の形態における対象信頼度算出結果２７１の例を示す図である。

次に、本発明の実施の形態について説明する。

はじめに、本発明の実施の形態の構成について説明する。

＜分散システムの構成＞
図２は、本発明の実施の形態における、分散システムの構成を示すブロック図である。図２を参照すると、分散システムは、インシデント判別装置（システム状態判別装置）１００、インシデント判別支援装置（システム状態判別支援装置）２００、管理端末３００、ユーザ端末４００、コンピュータシステム５００、及び、ネットワーク６００を含む。

ここで、コンピュータシステム５００は、ＩＴサービス（または、サービス）の処理を実行する。また、コンピュータシステム５００は、リソースの使用状態や稼動状態を示す監視情報のログ、及び、監視情報に係る監視状況のログを生成する。

インシデント判別装置１００は、コンピュータシステム５００から監視情報を収集し、インシデント判別を行うための判別モデルを生成する。インシデント判別装置１００は、判別対象の監視情報と判別モデルを用いて、コンピュータシステム５００のインシデント判別を行う。

インシデント判別支援装置２００は、監視状況をもとに、判別モデルの生成に用いた監視情報の信頼度（モデル信頼度）と判別対象の監視情報の信頼度（対象信頼度）とを算出する。また、インシデント判別支援装置２００は、算出したモデル信頼度、及び、対象信頼度をもとに、インシデント判別を行うための判別閾値を制御（補正）する。

ユーザ端末４００は、ユーザ等によるサービスの実行要求を受け付けて、コンピュータシステム５００に送信する。また、ユーザ端末４００は、コンピュータシステム５００によるサービスの実行結果を受信する。

ネットワーク６００は、例えば、インターネット、イントラネット、ローカルエリアネットワーク等により実現される。これらは、単独で用いられてもよく、混在して用いられてもよい。ネットワーク６００は、コンピュータシステム５００とユーザ端末４００とを接続する。

管理端末３００は、管理者等からの要求に応じて、インシデント判別装置１００に対して、判別モデルの生成、インシデント判別の実行を指示する。また、管理端末３００は、インシデント判別の判別結果を、管理者等に出力する。また、管理端末３００は、インシデント判別装置１００、インシデント判別支援装置２００、及び、コンピュータシステム５００に対する各種設定を行う。

＜コンピュータシステム５００の構成＞
図４は、本発明の実施の形態におけるコンピュータシステム５００の構成を示すブロック図である。コンピュータシステム５００は、１以上のフロントエンドノード５１０、及び、複数の処理ノード５２０を含む。コンピュータシステム５００は、例えば、クラウドコンピューティングシステム、グリッドコンピューティングシステム、並列分散コンピュータ、スーパーコンピュータ、サーバコンピュータ、パーソナルコンピュータ、及び、これらの任意の数同士の組み合わせ等によって実現される。

フロントエンドノード５１０は、ユーザ端末４００からサービスの実行要求を受け付け、処理ノード５２０へ転送する。また、フロントエンドノード５１０は、処理ノード５２０によるサービスの実行結果をユーザ端末４００へ転送する。フロントエンドノード５１０は、一定時間に受け付けるユーザ端末４００からのサービスの実行要求の数を制限してもよい。

処理ノード５２０は、サービスの処理を実行するコンピュータである。処理ノード５２０は、コンピュータ上に構築される仮想的なコンピュータ（仮想的な処理ノード）でもよい。

処理ノード５２０は、図示されていないリソースとして、物理または論理プロセッサ、物理または論理メモリ、物理または論理ストレージ、物理または論理通信インタフェースを含む。また、処理ノード５２０は、リソースとして、情報処理装置、計算機クラスタ、その他の情報処理を実行するハードウエアを含んでいてもよい。また、処理ノード５２０は、リソースとして、アプリケーションプログラム、オペレーティングシステム、その他のソフトウエアリソースを含んでいてもよい。

処理ノード５２０は、さらに、実行部５４０、監視部５５０、監視情報ログ記憶部５８０、及び、監視状況ログ記憶部５９０を含む。

ここで、実行部５４０は、サービスの処理の一部または全部を実行する。

監視部５５０は、処理ノード５２０の各リソースの監視情報、及び、監視情報に係る監視状況を監視し、それぞれ、監視情報ログ５８１、及び、監視状況ログ５９１に格納する。

監視情報ログ記憶部５８０、及び、監視状況ログ記憶部５９０は、それぞれ、監視情報ログ５８１、及び、監視状況ログ５９１を記憶する。

本発明の実施の形態では、監視部５５０は、監視情報として、リソースの使用状態や、リソースの稼動状態（例えば、正常、異常、エラー、停止、不明等）を監視する。ここで、使用状態に係る監視情報の種別（リソースタイプ）として、ＣＰＵ（Central Processing Unit）使用率（CPU_Usage）、メモリ使用量（MEM_Usage）、ストレージの記憶容量、ネットワーク使用量、スループット（Throughput）、平均リクエスト応答時間、平均トランザクション処理時間、トランザクション数等が用いられる。また、稼動状態に係るリソースタイプとして、稼動状態のログ（Syslog）等が用いられる。

また、本発明の実施の形態では、監視部５５０は、所定周期ごとに、１以上のリソースタイプの監視情報を監視（取得）し、監視情報ログ５８１に格納する。さらに、監視部５５０は、所定周期ごとの１以上のリソースタイプの監視情報の監視について、監視状況を監視（取得）し、監視状況ログ５９１に格納する。ここで、監視状況の種別（監視状況タイプ）として、例えば、１以上のリソースタイプの監視情報の監視における、監視間隔（取得間隔）、欠損頻度、遅延頻度等が用いられる。なお、監視状況タイプには、サービスを保守するためのウイルスチェックやアップデート、スキャンデスク等、処理ノード５２０上で実行される常駐プログラム（所定のプログラム）の稼動状況や、データ転送量や通信障害頻度等、処理ノード５２０上の通信インタフェース（所定のインタフェース）における通信状況が用いられてもよい。

＜インシデント判別装置１００の構成＞
図３は、本発明の実施の形態におけるインシデント判別装置１００、及び、インシデント判別支援装置２００の構成を示すブロック図である。図３を参照すると、インシデント判別装置１００は、サービス監視部１１０、判別モデル生成部１２０、判別部１３０、監視情報設定記憶部１４０、監視情報履歴記憶部１５０、判別モデル記憶部１６０、判別閾値記憶部１７０、及び、判別履歴記憶部１８０を含む。

ここで、監視情報設定記憶部１４０は、監視情報設定１４１を記憶する。監視情報設定１４１は、処理ノード５２０が、監視情報として監視する監視項目を示す。

図９は、本発明の実施の形態における監視情報設定１４１の例を示す図である。図９を参照すると、監視情報設定１４１は、サービスＩＤ、ノードＩＤ、リソースタイプ、及び、リソース閾値を含む。

ここで、サービスＩＤは、サービスの識別子である。

ノードＩＤは、サービスＩＤで示されるサービスを実行する処理ノード５２０の識別子である。

リソースタイプは、ノードＩＤで示される処理ノード５２０が監視する監視情報のリソースタイプである。

リソース閾値は、リソースタイプで示される監視情報の測定値が正常か異常かを判別するための閾値である。ここで、使用状態に係るリソースタイプのリソース閾値には、測定値の上限閾値、測定値の下限閾値、または、これらの両方が設定される。稼動状態に係るリソースタイプのリソース閾値には、異常な状態を示す文字列が設定される。

図９の監視情報設定１４１は、例えば、サービス「SID001」を実行する処理ノード５２０「LB011」が、監視情報として、リソースタイプ「Throughput」、「Syslog」を監視することを示している。また、リソースタイプ「Throughput」の監視情報の測定値が「5000」以上であれば、測定値が異常と判別されることを示している。同様に、リソースタイプ「Syslog」の監視情報の測定値が「failed」であれば、測定値が異常と判別されることを示している。

監視情報設定１４１は、管理者等により、管理端末３００を通して、予め設定される。

サービス監視部１１０は、管理端末３００からのサービス監視要求に応じて、監視情報設定１４１を参照して、処理ノード５２０の監視情報ログ５８１から、監視情報を収集する。サービス監視部１１０は、収集した監視情報を監視情報履歴１５１に格納し、監視情報履歴記憶部１５０に保存する。

監視情報履歴記憶部１５０は、監視情報履歴１５１を記憶する。

図１０は、本発明の実施の形態における監視情報履歴１５１の例を示す図である。図１０を参照すると、監視情報履歴１５１は、ログＩＤ、サービスＩＤ、サービス状態、ノードＩＤ、ノード状態、リソースタイプ、及び、リソースタイプ測定値を含む。

ここで、ログＩＤは、処理ノード５２０が、監視（取得）した１以上のリソースタイプの監視情報を監視情報ログ５８１に格納した時刻（所定周期ごとの時刻）を示す。

リソースタイプ測定値は、ノードＩＤで示される処理ノード５２０から収集した、ログＩＤで示される時刻におけるリソースタイプで示される監視情報の測定値である。

ノード状態は、ノードＩＤで示される処理ノード５２０から収集した、ログＩＤで示される時刻における当該処理ノード５２０の状態である。ノード状態には、例えば、「正常」、「一部異常」、「異常」が設定される。ここで、「正常」は、処理ノード５２０で監視する全リソースタイプの測定値が正常であることを示す。「一部異常」は、処理ノード５２０で監視するいずれかのリソースタイプの測定値が異常であることを示す。「異常」は、処理ノード５２０で監視する全リソースタイプの測定値が異常であることを示す。

ノード状態は、監視部５５０において、各リソースタイプの監視情報の測定値とリソース閾値とを比較し、測定値が正常か異常かを判別することにより設定される。

サービス状態は、サービスＩＤで示されるサービスの処理を行う処理ノード５２０群の状態である。サービス状態には、例えば、「正常」、「一部異常」、「異常」等が設定される。ここで、「正常」は、サービスの処理を行う全処理ノード５２０のノード状態が正常であることを示す。「一部異常」は、サービスの処理を行ういずれかの処理ノード５２０のノード状態が異常であることを示す。「異常」は、サービスの処理を行う全処理ノード５２０のノード状態が異常であることを示す。

サービス状態は、サービス監視部１１０において、処理ノード５２０から収集したノード状態をもとに設定される。

図１０の監視情報履歴１５１は、例えば、時刻「T0001」において、処理ノード５２０「LB011」、「WEB011」、「WEB012」のノード状態が「正常」であり、サービス「SID001」が「正常」であることを示している。

判別モデル生成部１２０は、監視情報履歴１５１を参照して、コンピュータシステム５００上の各サービスについて、判別モデルを生成する。サービス監視部１１０は、生成した判別モデルを、判別モデル情報１６１に格納し、判別モデル記憶部１６０に保存する。

判別モデル記憶部１６０は、判別モデル情報１６１を記憶する。判別モデル情報１６１は、サービスの各インシデントタイプに対する判別モデルを示す。

図１１は、本発明の実施の形態における判別モデル情報１６１の例を示す図である。図１１を参照すると、判別モデル情報１６１は、サービスＩＤ、モデルＩＤ、インシデントタイプ、リソースタイプ、及び、リソースタイプ統計量を含む。

ここで、インシデントタイプは、サービスＩＤで示されるサービスの処理を行うコンピュータシステム５００の状態（サービス状態とノード状態とを組み合わせた状態）を示す。インシデントタイプには、例えば、「ALLClear」、「PartialError」等が設定される。ここで、「ALLClear」は、サービス状態が「正常」であることを示す。また、「PartialError」は、サービス状態が「一部異常」で、一部の処理ノード５２０のノード状態が「異常」であることを示す。なお、ノード状態が「異常」である処理ノード５２０の組み合わせに応じて、「PartialError11」、「PartialError12」、…、等が設定されてもよい。

モデルＩＤは、判別モデルの識別子である。

リソースタイプ統計量は、サービスＩＤで示されるサービスの処理を行うコンピュータシステム５００の状態が、インシデントタイプの状態であるか否かを判別するための監視情報の統計値である。リソースタイプ統計量は、リソースタイプごとに設定される。統計量としては、例えば、監視情報の測定値に関する標本数、算術平均、標準偏差、中央値、最頻値、不偏標準偏差、不偏分散、尖度、歪度、最小値、最大値、範囲（最大値-最小値）、総和、n%信頼区間のうちの１以上の集合が用いられる。

図１１の判別モデル情報１６１において、例えば、判別モデル「Model011」は、サービス「SID001」について、インシデントタイプ「ALLClear」のインシデント判別を行う判別モデルである。また、判別モデル「Model011」は、コンピュータシステム５００の状態がインシデントタイプ「ALLClear」の場合、処理ノード５２０「LB011」におけるリソースタイプ「Throughput」の監視情報の統計量が、「N=100,avg=3500,std=200.0」であることを示す。ここで、Nは標本数、avgは平均、stdは標準偏差である。

判別閾値記憶部１７０は、判別閾値情報１７１を記憶する。判別閾値情報１７１は、判別モデルについて設定された判別閾値を示す。

図１２は、本発明の実施の形態における判別閾値情報１７１（補正前）の例を示す図である。図１２を参照すると、判別閾値情報１７１は、は、サービスＩＤ、モデルＩＤ、インシデントタイプ、ノードＩＤ、判別閾値、最大閾値、及び、最小閾値を含む。

ここで、判別閾値は、モデルＩＤで示される判別モデルにより、ノードＩＤで示される処理ノード５２０の監視情報の測定値が、インシデントタイプの状態であるか否かを判別するときに用いられる閾値である。判別閾値には、監視情報の測定値の範囲が設定される。判別閾値は、例えば、対応する判別モデルのリソースタイプ統計量を用いて、設定されてもよい。

最大閾値は、判別閾値補正部２２０が変更可能な判別閾値の最大幅である。最小閾値は、判別閾値補正部２２０が変更可能な判別閾値の最小幅である。

図１２の判別閾値情報１７１は、例えば、判別モデル「Model011」を用いてインシデント判別を行う場合に、処理ノード５２０「LB011」の監視情報の測定値が、判別閾値「avg（平均値）±2.0σ（標準偏差値）」の範囲内であれば、処理ノード５２０「LB011」がインシデントタイプ「ALLClear」の状態であると判別されることを示している。また、判別閾値は、最小閾値「avg±1.0σ」から最大閾値「avg±3.0σ」の範囲で、変更可能なことを示している。

判別閾値の初期値、最大閾値、及び、最小閾値は、管理者等により設定される。また、判別閾値の初期値、最大閾値、及び、最小閾値は、判別モデル生成部１２０により設定されてもよい。

判別部１３０は、判別モデル情報１６１と判別閾値情報１７１とを参照して、コンピュータシステム５００上の各サービスについて、インシデント判別を行う。判別部１３０は、インシデント判別の判別結果を判別履歴情報１８１に格納し、判別履歴記憶部１８０に保存する。

判別履歴記憶部１８０は、判別履歴情報１８１を記憶する。判別履歴情報１８１は、インシデント判別の判別結果を示す。

図１４は、本発明の実施の形態における判別履歴情報１８１の例を示す図である。図１４を参照すると、判別履歴情報１８１は、ログＩＤ、サービスＩＤ、モデルＩＤ、インシデントタイプ、及び、判別結果を含む。判別履歴情報１８１は、さらに、ノードＩＤ、及び、判別閾値を含んでいてもよい。

ここで、判別結果は、サービスＩＤで示されるサービスに係る監視情報が、インシデントタイプの状態であるか否かを示す。判別結果には、例えば、インシデントタイプで示す状態であることを示す「ＯＫ」、または、インシデントタイプで示す状態でないことを示す「ＮＧ」等が設定される。

判別閾値は、ノードＩＤで示される処理ノード５２０に対して、インシデント判別で用いられた判別閾値である。

図１４の判別履歴記憶部１８０は、例えば、時刻「T2001」のサービス「SID001」に係る監視情報が、判別モデル「Model011」を用いたインシデント判別により、インシデントタイプ「ALLClear」の状態であると判別されたことを示している。また、このインシデント判別では、例えば、処理ノード５２０「LB011」に対して、判別閾値「avg±2.4σ」が用いられたことを示している。

＜インシデント判別支援装置２００の構成＞
図３を参照すると、インシデント判別支援装置２００は、判別モデル信頼度算出部２１０、判別閾値補正部２２０、監視状況設定記憶部２３０、及び、判別モデル信頼度記憶部２４０を含む。

ここで、監視状況設定記憶部２３０は、監視状況設定２３１を記憶する。監視状況設定２３１は、処理ノード５２０が、監視状況として監視する監視項目を示す。

図１５は、本発明の実施の形態における監視状況設定２３１の例を示す図である。図１５を参照すると、監視状況設定２３１は、サービスＩＤ、ノードＩＤ、及び、監視状況タイプを含む。

ここで、監視状況タイプは、ノードＩＤで示される処理ノード５２０が監視する監視状況の監視状況タイプである。

図１５の監視状況設定２３１は、例えば、処理ノード５２０「LB011」が、監視状況タイプ「監視間隔」、「欠損頻度」、及び、「遅延頻度」の監視状態を監視することを示している。

監視状況設定２３１は、管理者等により、管理端末３００を通して、予め設定される。

判別モデル信頼度算出部２１０は、監視状況設定２３１を参照して、判別モデルの生成に用いた監視情報に係る監視状況を、各処理ノード５２０の監視状況ログ５９１から収集する。そして、判別モデル信頼度算出部２１０は、収集した監視状況をもとに、判別モデルの生成に用いた監視情報の信頼度（モデル信頼度）を算出する。判別モデル信頼度算出部２１０は、算出したモデル信頼度を、判別モデル信頼度情報２４１に格納し、判別モデル信頼度記憶部２４０に保存する。

判別モデル信頼度記憶部２４０は、判別モデル信頼度情報２４１を記憶する。判別モデル信頼度情報２４１は、判別モデルのモデル信頼度を示す。

図１７は、本発明の実施の形態における判別モデル信頼度情報２４１の例を示す図である。図１７を参照すると、判別モデル信頼度情報２４１は、サービスＩＤ、モデルＩＤ、インシデントタイプ、ノードＩＤ、モデル信頼度、最大モデル信頼度、及び、最小モデル信頼度を含む。

ここで、モデル信頼度、最大モデル信頼度、及び、最小モデル信頼度は、それぞれ、モデルＩＤで示される判別モデルの生成に用いた、ノードＩＤで示される処理ノード５２０の監視情報の信頼度の平均値、最大値、及び、最小値を示す。

判別閾値補正部２２０は、監視状況設定２３１を参照して、判別対象の監視情報に係る監視状況を、各処理ノード５２０の監視状況ログ５９１から収集する。そして、判別閾値補正部２２０は、収集した監視状況をもとに、判別対象の監視情報の信頼度（対象信頼度）を算出する。さらに、判別閾値補正部２２０は、対象信頼度と判別モデル信頼度情報２４１から取得したモデル信頼度とをもとに、判別閾値を補正する。

なお、インシデント判別装置１００、及び、インシデント判別支援装置２００は、それぞれ、ＣＰＵとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。

次に、本発明の実施の形態における、インシデント判別装置１００、及び、インシデント判別支援装置２００の動作について説明する。

＜判別モデル生成時の処理＞
図５は、本発明の実施の形態における、インシデント判別装置１００、及び、インシデント判別支援装置２００の、判別モデル生成時の処理を示すフローチャートである。

ここでは、管理者等により、図９の監視情報設定１４１、図１５の監視状況設定２３１が設定されていると仮定する。また、監視情報履歴１５１には、図１０のように、テスト環境において、サービスの処理が実行された期間（時刻「T0001」〜「T1000」）の監視情報の測定値が格納されていると仮定する。

インシデント判別装置１００の判別モデル生成部１２０は、管理端末３００から、判別モデル生成要求を受信する（ステップＳ１０１）。ここで、判別モデル生成要求は、判別モデルの生成に用いる監視情報の期間（モデル化期間）と判別モデルの生成対象のサービスのサービスＩＤとを含む。モデル化期間には、例えば、上述の、テスト環境においてサービスの処理が実行された期間（時刻「T0001」〜「T1000」）が指定される。

判別モデル生成部１２０は、監視情報履歴１５１から、判別モデル生成要求で指定されたサービスＩＤ、モデル化期間に対する監視情報の測定値を収集する（ステップＳ１０２）。

判別モデル生成部１２０は、収集した監視情報の測定値を、上述のインシデントタイプで分類する（ステップＳ１０３）。

判別モデル生成部１２０は、インシデントタイプで分類された各インシデントタイプの監視情報の測定値を用いて、各インシデントタイプの判別モデルを生成する（ステップＳ１０４）。ここで、判別モデル生成部１２０は、判別モデルとして、各処理ノード５２０のリソースタイプごとの測定値の統計量を算出する。そして、判別モデル生成部１２０は、算出したリソースタイプ統計量を、判別モデル情報１６１に格納する。

例えば、判別モデル生成要求において、モデル化期間「T0001〜T1000」、サービス「SID001」が指定された場合、判別モデル生成部１２０は、図１０の監視情報履歴１５１をもとに、図１１の判別モデル情報１６１における判別モデル「Model011」、「Model012」、…を生成する。

判別モデル生成部１２０は、判別モデル生成イベントをインシデント判別支援装置２００へ送信する（ステップＳ１０５）。ここで、判別モデル生成イベントは、生成された判別モデルに係るサービスＩＤ、モデルＩＤ、インシデントタイプ、及び、モデル化期間を含む。なお、判別モデル生成イベントは、モデル化期間のうち、各インシデントタイプに対応する時刻の情報を含んでいてもよい。

判別モデル生成部１２０は、管理端末３００へ、判別モデル生成完了通知を送信する（ステップＳ１０６）。

次に、インシデント判別支援装置２００の判別モデル信頼度算出部２１０は、インシデント判別装置１００から、判別モデル生成イベントを受信する（ステップＳ２０１）。

判別モデル信頼度算出部２１０は、処理ノード５２０から、判別モデル生成イベントで指定されたモデル化期間における、監視状況の測定値を収集する（ステップＳ２０２）。ここで、判別モデル信頼度算出部２１０は、監視状況設定２３１を参照し、判別モデル生成イベントで指定されたサービスＩＤに対応するノードＩＤと監視状況タイプを取得する。そして、判別モデル信頼度算出部２１０は、取得したノードＩＤに対応する処理ノード５２０から、取得した監視状況タイプの監視状況測定値を収集する。判別モデル信頼度算出部２１０は、収集した監視状況測定値をもとに、モデル化期間の監視状況収集結果２５１を生成する。

図１６は、本発明の実施の形態における、モデル化期間の監視状況収集結果２５１の例を示す図である。図１６を参照すると、監視状況収集結果２５１は、ログＩＤ、サービスＩＤ、モデルＩＤ、インシデントタイプ、ノードＩＤ、監視状況タイプ、及び、監視状況測定値を含む。

ここで、監視状況測定値は、ノードＩＤで示される処理ノード５２０から収集した、ログＩＤで示される時刻における、監視状況タイプで示される監視状況の測定値である。

監視状況測定値には、当該監視状況で得られる監視情報が高品質であるほど大きくなるように、実際の測定値が変換された値が格納される。例えば、収集間隔のように、得られる監視情報が高品質であるほど大きくなる場合、監視状況測定値には、実際の測定値がそのまま格納される。また、欠損頻度のように、得られる監視情報が高品質であるほど小さくなる場合、監視状況測定値には、最も低品質な状況を示す値から、実際の測定値を減算した値が格納される。例えば、最も高品質な状況を示す値が0、最も低品質な状況を示す値が100、実際の測定値が0.99の場合、監視状況測定値には、99.01（=100-0.99）が格納される。

例えば、判別モデル信頼度算出部２１０は、サービス「SID001」、モデル化期間「T0001〜T1000」について、図１６の監視状況収集結果２５１を生成する。

判別モデル信頼度算出部２１０は、収集した監視状況の測定値をもとに、モデル化期間における各時刻について、判別モデルの生成に用いた監視情報の信頼度を算出する（ステップＳ２０３）。

図６は、本発明の実施の形態における、監視情報の信頼度の算出処理（ステップＳ２０３）の詳細を示すフローチャートである。

はじめに、判別モデル信頼度算出部２１０は、各処理ノード５２０における、各監視状況タイプの監視状況測定値x_i（ここで、i=1,2,…, N_typeは、監視状況タイプを示す。また、_iは、添え字を示す。）の平均値x_iavg、偏差値x_istdev、及び、変動係数（偏差値x_istdev／平均値x_iavg）を算出する（ステップＳ２０３１）。ここで、平均値x_iavg、及び、偏差値x_istdevは、例えば、各処理ノード５２０の各監視状況タイプの監視状況の測定値の複数の時刻に関する平均値、及び、偏差値である。なお、判別モデル信頼度算出部２１０は、ステップＳ２０３１で平均値x_iavg、及び、偏差値x_istdevを算出する代わりに、予め算出した値や、管理者等により予め設定された値を用いてもよい。

判別モデル信頼度算出部２１０は、監視状況測定値のばらつきが大きい監視状況タイプほど注目すべき監視状況タイプであると仮定し、各監視状況タイプの変動係数の比に基づいて、各監視状況タイプに重みw_iを付与する（ステップＳ２０３２）。

例えば、３つの監視状況タイプの変動係数が0.4、0.6、1.0の場合、判別モデル信頼度算出部２１０は、全ての監視状況の重みの総和を1として、それぞれの監視状況タイプに、重み0.2、0.3、0.5を付与する。

判別モデル信頼度算出部２１０は、ステップＳ２０３１で算出した監視状況測定値x_iの平均値x_iavg、偏差値x_istdev、及び、ステップＳ２０３２で算出した重みw_iを用いて、各時刻について、各処理ノード５２０の監視情報の信頼度Dを、数１式、数２式により算出する（ステップＳ２０３３）。ここで、数１式は、監視情報の信頼度の算出式である。数２式は、監視状況の測定値を標準化するための式である。

次に、判別モデル信頼度算出部２１０は、ステップＳ２０３で算出した、各時刻の各処理ノード５２０における監視情報の信頼度をもとに、各インシデントタイプについて、判別モデルの生成に用いた監視情報の信頼度（モデル信頼度）を算出する（ステップＳ２０４）。ここで、判別モデル信頼度算出部２１０は、各インシデントタイプに対応する各時刻の監視情報の信頼度の、複数の時刻に関する平均値、最大値、及び、最小値を、それぞれ、当該インシデントタイプに対応する判別モデルのモデル信頼度、最大モデル信頼度、最小モデル信頼度として算出する。判別モデル信頼度算出部２１０は、算出したモデル信頼度、最大モデル信頼度、及び、最小モデル信頼度を、判別モデル信頼度情報２４１に格納する。

例えば、判別モデル信頼度算出部２１０は、図１６の監視状況収集結果２５１をもとに、サービス「SID001」の各判別モデル「Model011」、「Model012」、…について、図１７のように、モデル信頼度を算出する。

＜インシデント判別時の処理＞
図７は、本発明の実施の形態における、インシデント判別装置１００、及び、インシデント判別支援装置２００の、インシデント判別時の処理を示すフローチャートである。

ここでは、図１１の判別モデル情報１６１に対して、管理者等により、図１２の判別閾値情報１７１が設定されていると仮定する。また、監視情報履歴１５１には、図１０のように、本番環境において、サービスの処理が実行された期間（時刻「T2001」）の監視情報の測定値が格納されていると仮定する。

インシデント判別装置１００の判別部１３０は、管理端末３００から、インシデント判別要求を受信する（ステップＳ１５１）。ここで、インシデント判別要求は、インシデントの判別対象の時刻と判別対象のサービスのサービスＩＤとを含む。判別対象の時刻には、例えば、上述の、本番環境においてサービスの処理が実行された期間に含まれる時刻（時刻「T2001」）が指定される。

判別部１３０は、インシデント判別イベントをインシデント判別支援装置２００へ送信する（ステップＳ１５２）。ここで、インシデント判別イベントは、インシデント判別要求で指定された判別対象の時刻とサービスＩＤとを含む。

インシデント判別支援装置２００の判別閾値補正部２２０は、インシデント判別装置１００から、インシデント判別イベントを受信する（ステップＳ２５１）。

判別閾値補正部２２０は、処理ノード５２０から、インシデント判別イベントで指定された判別対象の時刻における、監視状況の測定値を収集する（ステップＳ２５２）。ここで、判別閾値補正部２２０は、監視状況設定２３１を参照し、インシデント判別イベントで指定されたサービスＩＤに対応するノードＩＤと監視状況タイプを取得する。そして、判別閾値補正部２２０は、取得したノードＩＤに対応する処理ノード５２０から、取得した監視状況タイプの監視状況測定値を収集する。判別モデル信頼度算出部２１０は、収集した監視状況測定値をもとに、判別対象の時刻の監視状況収集結果２６１を生成する。

図１８は、本発明の実施の形態における、判別対象時刻の監視状況収集結果２６１の例を示す図である。図１８を参照すると、監視状況収集結果２６１は、ログＩＤ、サービスＩＤ、ノードＩＤ、監視状況タイプ、及び、監視状況測定値を含む。

例えば、インシデント判別要求において、判別対象時刻「T2001」、サービス「SID001」が指定された場合、判別モデル信頼度算出部２１０は、時刻「T2001」、サービス「SID001」について、図１８の監視状況収集結果２６１を生成する。

判別閾値補正部２２０は、収集した各処理ノード５２０における監視状況の測定値をもとに、各処理ノード５２０について、判別対象の時刻の監視情報の信頼度（対象信頼度）を算出する（ステップＳ２５３）。ここで、判別モデル信頼度算出部２１０は、ステップＳ２０３１〜２０３３（図６）と同様の手順により、判別対象の時刻の監視情報の信頼度を算出する。判別モデル信頼度算出部２１０は、算出した信頼度を、対象信頼度として、対象信頼度算出結果２７１に格納する。

図１９は、本発明の実施の形態における対象信頼度算出結果２７１の例を示す図である。図１９を参照すると、対象信頼度算出結果２７１は、ログＩＤ、サービスＩＤ、ノードＩＤ、及び、対象信頼度を含む。

ここで、対象信頼度は、ログＩＤで示される時刻における、ノードＩＤで示される処理ノード５２０の監視情報の信頼度を示す。

例えば、判別モデル信頼度算出部２１０は、図１８の監視状況収集結果２６１をもとに、時刻「T2001」、サービス「SID001」について、図１９のように、対象信頼度を算出する。

次に、判別閾値補正部２２０は、対象信頼度とモデル信頼度を用いて、各判別モデルの判別閾値を補正する（ステップＳ２５４）。ここで、判別閾値補正部２２０は、インシデント判別装置１００の判別閾値情報１７１に格納されている、インシデント判別イベントで指定されたサービスＩＤに対応する各判別モデルの判別閾値を補正する。

図８は、本発明の実施の形態における、判別閾値補正処理（ステップＳ２５４）の詳細を示すフローチャートである。

はじめに、判別閾値補正部２２０は、対象信頼度算出結果２７１から、処理ノード５２０のノードＩＤを一つ選択する（ステップＳ２５４１）。

判別閾値補正部２２０は、対象信頼度算出結果２７１から、選択したノードＩＤに対する対象信頼度を取得する（ステップＳ２５４２）。

判別閾値補正部２２０は、判別モデル信頼度情報２４１から、判別対象のサービスＩＤに対する判別モデルのモデルＩＤを一つ選択する（ステップＳ２５４３）。

判別閾値補正部２２０は、判別モデル情報１６１から、ステップＳ２５４３で選択したモデルＩＤとステップＳ２５４１で選択したノードＩＤに対するモデル信頼度を取得する（ステップＳ２５４４）。

判別閾値補正部２２０は、ステップＳ２５４２で取得した対象信頼度と、ステップＳ２５４４で取得したモデル信頼度とを比較する（ステップＳ２５４５）。

ステップＳ２５４５において、対象信頼度とモデル信頼度が同じ場合、判別閾値補正部２２０は、ステップＳ２５４８へ進む。

ステップＳ２５４５において、対象信頼度がモデル信頼度より大きい場合、判別閾値補正部２２０は、対象信頼度とモデル信頼度との間の差分に応じて、判別閾値が示す範囲が狭くなるように、判別閾値を補正する（ステップＳ２５４６）。

ここで、判別閾値補正部２２０は、対象信頼度とモデル信頼度との差分として、対象信頼度からモデル信頼度を減じた値を、最大モデル信頼度から最小モデル信頼度を減じた値で除した値を算出する。

例えば、判別モデル「Model011」、処理ノード５２０「WB012」について判別閾値を補正する場合、図１９の対象信頼度算出結果２７１における処理ノード５２０「WB012」に対する対象信頼度は+0.6、図１７の判別モデル信頼度情報２４１における判別モデル「Model011」、処理ノード５２０「WB012」に対するモデル信頼度は+0.1、最大モデル信頼度は+1.0、最小モデル信頼度は-1.0である。この場合、判別閾値補正部２２０は、対象信頼度とモデル信頼度との差分として(0.6-0.1)/(1-(-1.0))=0.25を算出する。

そして、判別閾値補正部２２０は、判別閾値が示す範囲（判別閾値の最大値-最小値）から最小閾値が示す範囲（最小閾値の最大値-最小閾値の最小値）を減じた値に、上記の信頼度の差分を乗じた値、判別閾値が示す範囲を狭くする。

例えば、図１２の判別閾値情報１７１における判別モデル「Model011」、処理ノード５２０「WB012」に対する判別閾値はavg±2.0σ、最大閾値はavg±3.0σ、最小閾値はavg±1.0σである。この場合、判別閾値が示す範囲は4.0σ、最小閾値が示す範囲は2.0σ、判別閾値が示す範囲から最小閾値が示す範囲を減じた値は2.0σである。この値に、上記の対象信頼度とモデル信頼度との差分を乗じた値は、2.0σx0.25=0.5σである。従って、判別閾値補正部２２０は、判別閾値（avg±2.0σ）を0.5σ狭くしたavg±1.5σを、新たな判別閾値として算出する。

一方、ステップＳ２５４５において、対象信頼度がモデル信頼度より小さい場合、判別閾値補正部２２０は、対象信頼度とモデル信頼度との間の差分に応じて、判別閾値が示す範囲が広くなるように、判別閾値を補正する（ステップＳ２５４７）。

ここで、判別閾値補正部２２０は、対象信頼度とモデル信頼度との差分として、モデル信頼度から対象信頼度を減じた値を、最大モデル信頼度から最小モデル信頼度を減じた値で除した値を算出する。

例えば、判別モデル「Model011」、処理ノード５２０「LB011」について判別閾値を補正する場合、図１９の対象信頼度算出結果２７１における処理ノード５２０「LB011」に対する対象信頼度は+0.2、図１７の判別モデル信頼度情報２４１における判別モデル「Model011」、処理ノード５２０「LB011」に対するモデル信頼度は+0.6、最大モデル信頼度は+1.0、最小モデル信頼度は-1.0である。この場合、判別閾値補正部２２０は、対象信頼度とモデル信頼度との差分として(0.6-0.2)/(1-(-1.0))=0.20を算出する。

そして、判別閾値補正部２２０は、最大閾値が示す範囲（最大閾値の最大値-最大閾値の最小値）から判別閾値が示す範囲（判別閾値の最大値-最小値）を減じた値に、上記の信頼度の差分量を乗じた値、判別閾値が示す範囲を広くする。

例えば、図１２の判別閾値情報１７１における、判別モデル「Model011」、処理ノード５２０「LB011」に対する判別閾値はavg±2.0σ、最大閾値はavg±3.0σ、最小閾値はavg±1.0σである。この場合、最大閾値が示す範囲は6.0σ、判別閾値が示す範囲は4.0σ、最大閾値が示す範囲から判別閾値が示す範囲を減じた値は2.0σである。この値に、上記の対象信頼度とモデル信頼度との差分量を乗じた値は、2.0σx0.20=0.4σである。従って、判別閾値補正部２２０は、判別閾値avg±2.0σを0.4σ広くしたavg±2.4σを、新たな判別閾値として算出する。

なお、判別閾値補正部２２０は、ステップＳ２５４５において、対象信頼度とモデル信頼度との差が、所定の値以上の場合に、ステップＳ２５４６、または、ステップＳ２５４７を実行してもよい。

判別部１３０は、判別対象のサービスＩＤに対する全てのモデルＩＤについて、ステップＳ２５４３からＳ２５４７を繰り返す（ステップＳ２５４８）。

また、判別部１３０は、判別対象のサービスＩＤに対する全てのノードＩＤについて、ステップＳ２５４１からＳ２５４８を繰り返す（ステップＳ２５４９）。

図１３は、本発明の実施の形態における判別閾値情報１７１（補正後）の例を示す図である。例えば、判別閾値補正部２２０は、図１２の判別閾値情報１７１における、サービス「SID001」の各判別モデル「Model011」、「Model012」、…について、図１３のように、判別閾値を補正する。

判別閾値補正部２２０は、インシデント判別装置１００へ、判別閾値補正終了イベントを送信する（ステップＳ２５５）。

次に、判別部１３０は、インシデント判別支援装置２００から、判別閾値補正終了イベントを受信する（ステップＳ１５３）。

判別部１３０は、監視情報履歴１５１から、判別対象の時刻、サービスＩＤに対する監視情報の測定値を収集する（ステップＳ１５４）。

判別部１３０は、判別モデル情報１６１から、判別対象のサービスＩＤに対する判別モデルのモデルＩＤを一つ選択する（ステップＳ１５５）。

判別部１３０は、判別モデル情報１６１から、選択したモデルＩＤに対するリソースタイプ統計量を取得する。また、判別部１３０は、判別閾値情報１７１から、選択したモデルＩＤに対する判別閾値を取得する（ステップＳ１５６）。

判別部１３０は、ステップＳ１５６で取得したリソースタイプ統計量と判別閾値を用いて、ステップＳ１５４で収集した判別対象時刻の監視情報の測定値についてのインシデント判別を行う（ステップＳ１５７）。ここで、判別部１３０は、判別対象のサービスＩＤに係る各ノードＩＤの各リソースタイプの測定値が、当該ノードＩＤの判別閾値の範囲内にあるかどうかを判別する。判別部１３０は、判別対象のサービスＩＤに係る全ノードＩＤの全リソースタイプについて測定値が判別閾値の範囲内にある場合、判別結果に「ＯＫ」を設定し、そうでない場合、判別結果に「ＮＧ」を設定する。

例えば、判別部１３０は、図１０の監視情報履歴１５１における、時刻「T2001」、サービス「SID001」に対する各処理ノード５２０「LB011」、「WEB011」、…の各リソースタイプの測定値が、図１３の判別閾値情報１７１における判別モデル「Model011」に対する各処理ノード５２０「LB011」、「WEB011」、…の判別閾値の範囲内にあるかどうかを判別する。例えば、処理ノード５２０「LB011」について、リソースタイプ「Throughput」の測定値「3800」が、判別閾値「avg(3500)±2.4σ(200.0)」の範囲内かどうかが判別される。

判別部１３０は、インシデント判別の判別結果を、判別履歴情報１８１に格納する（ステップＳ１５８）。

判別部１３０は、判別対象のサービスＩＤに対する全ての判別モデルのモデルＩＤ（全てのインシデントタイプ）について、ステップＳ１５５からＳ１５８を繰り返す（ステップＳ１５９）。

例えば、判別部１３０は、サービス「SID001」の各判別モデル「Model011」、「Model012」、…について、図１４のように判別結果を格納する。

判別部１３０は、管理端末３００へ、インシデント判別完了通知を送信する（ステップＳ１６０）。管理端末３００は、判別履歴記憶部１８０から、判別履歴情報１８１を取得し、判別結果を管理者等へ出力（表示）する。また、管理端末３００は、インシデント判別完了通知に含まれる判別結果を管理者等へ出力（表示）してもよい。

なお、インシデント判別要求では、判別対象の期間が指定されていてもよい。この場合、指定された期間の各時刻について、インシデント判別支援装置２００が判別閾値を補正し、インシデント判別装置１００は、補正された判別閾値を用いてインシデント判別を行う。

以上により、本発明の実施の形態の動作が完了する。

次に、本発明の実施の形態の特徴的な構成を説明する。図１は、本発明の実施の形態の特徴的な構成を示すブロック図である。

図１を参照すると、インシデント判別支援装置（システム状態判別支援装置）２００は、判別モデル信頼度算出部２１０と、判別閾値補正部２２０と、を含む。

判別モデル信頼度算出部２１０は、システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いたシステムの監視情報の信頼度であるモデル信頼度を算出する。判別閾値補正部２２０は、システムの判別対象の監視情報の信頼度である対象信頼度を算出し、モデル信頼度と対象信頼度とをもとに、判別モデルによる判別で用いる閾値を補正する。

本発明の実施の形態によれば、システムの状態を判別するときの監視状況がモデルデータ生成時の監視状況と異なる場合であっても、システムの状態を正しく判別できる。その理由は、判別閾値補正部２２０が、判別モデルの生成に用いた監視情報の信頼度であるモデル信頼度と、判別対象の監視情報の信頼度である対象信頼度と、をもとに、判別モデルによる判別で用いる閾値を補正するためである。

また、特許文献１のインシデント判別装置を用いたインシデント判別では、管理者は、本番環境においてインシデントが正しく判別できるように、テスト環境で生成されたモデルデータの再生成や、設定された閾値の調整をする必要があった。

本発明の実施の形態によれば、本番環境における、モデルデータの再生成や、閾値の調整の手間を削減できる。その理由は、判別閾値補正部２２０が、テスト環境と本番環境との監視状況の違いに応じて、判別モデルによる判別で用いる閾値を補正するためである。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１２年８月３日に出願された日本出願特願２０１２−１７２９０８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００インシデント判別装置
１１０サービス監視部
１２０判別モデル生成部
１３０判別部
１４０監視情報設定記憶部
１４１監視情報設定
１５０監視情報履歴記憶部
１５１監視情報履歴
１６０判別モデル記憶部
１６１判別モデル情報
１７０判別閾値記憶部
１７１判別閾値情報
１８０判別履歴記憶部
１８１判別履歴情報
２００インシデント判別支援装置
２１０判別モデル信頼度算出部
２２０判別閾値補正部
２３０監視状況設定記憶部
２３１監視状況設定
２４０判別モデル信頼度記憶部
２４１判別モデル信頼度情報
２５１監視状況収集結果
２６１監視状況収集結果
２７１対象信頼度算出結果
３００管理端末
４００ユーザ端末
５００コンピュータシステム
５１０フロントエンドノード
５２０処理ノード
５４０実行部
５５０監視部
５８０監視情報ログ記憶部
５８１監視情報ログ
５９０監視状況ログ記憶部
５９１監視状況ログ
６００ネットワーク

Claims

システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いた前記システムの監視情報の信頼度であるモデル信頼度を算出する判別モデル信頼度算出手段と、
前記システムの判別対象の監視情報の信頼度である対象信頼度を算出し、前記モデル信頼度と前記対象信頼度とをもとに、前記判別モデルによる判別で用いる閾値を補正する判別閾値補正手段と、を含むシステム状態判別支援装置。
前記判別モデルは、前記システムの監視情報の値を示し、前記閾値は、前記判別モデルが示す値に対する範囲を示し、
前記判別閾値補正手段は、前記対象信頼度が前記モデル信頼度より大きい場合、前記対象信頼度と前記モデル信頼度との間の差分に応じて、前記閾値が示す範囲が狭くなるように、前記閾値を補正し、前記対象信頼度が前記モデル信頼度より小さい場合、前記対象信頼度と前記モデル信頼度との間の差分に応じて、前記閾値が示す範囲が広くなるように、前記閾値を補正する、
請求項１に記載のシステム状態判別支援装置。
前記監視情報の信頼度は、監視情報を監視したときの前記システムの状況に応じた当該監視情報の品質の度合いをもとに算出される、
請求項１または２に記載のシステム状態判別支援装置。
前記システムの状況は、複数の異なる監視情報の監視間隔、複数の異なる監視情報の欠損頻度、複数の異なる監視情報の遅延頻度、所定のプログラムの稼動状況、所定のインタフェースの通信状況のうちの少なくとも１つである、
請求項３に記載のシステム状態判別支援装置。
前記監視情報の信頼度は、監視情報を監視したときの前記システムの複数種別の状況の各々に対する品質の度合いを、前記複数種別の状況の各々の品質の度合いのばらつきに応じた重みで重み付けして合算することにより算出される、
請求項３に記載のシステム状態判別支援装置。
システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いた前記システムの監視情報の信頼度であるモデル信頼度を算出し、
前記システムの判別対象の監視情報の信頼度である対象信頼度を算出し、前記モデル信頼度と前記対象信頼度とをもとに、前記判別モデルによる判別で用いる閾値を補正する、
システム状態判別支援方法。
前記判別モデルは、前記システムの監視情報の値を示し、前記閾値は、前記判別モデルが示す値に対する範囲を示し、
前記閾値を補正する場合、前記対象信頼度が前記モデル信頼度より大きい場合、前記対象信頼度と前記モデル信頼度との間の差分に応じて、前記閾値が示す範囲が狭くなるように、前記閾値を補正し、前記対象信頼度が前記モデル信頼度より小さい場合、前記対象信頼度と前記モデル信頼度との間の差分に応じて、前記閾値が示す範囲が広くなるように、前記閾値を補正する、
請求項６に記載のシステム状態判別支援方法。
システムが所定状態にあるかどうかを判別するための判別モデルの生成に用いた前記システムの監視情報の信頼度であるモデル信頼度を算出し、
前記システムの判別対象の監視情報の信頼度である対象信頼度を算出し、前記モデル信頼度と前記対象信頼度とをもとに、前記判別モデルによる判別で用いる閾値を補正する、
処理をコンピュータに実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
前記判別モデルは、前記システムの監視情報の値を示し、前記閾値は、前記判別モデルが示す値に対する範囲を示し、
前記閾値を補正する場合、前記対象信頼度が前記モデル信頼度より大きい場合、前記対象信頼度と前記モデル信頼度との間の差分に応じて、前記閾値が示す範囲が狭くなるように、前記閾値を補正し、前記対象信頼度が前記モデル信頼度より小さい場合、前記対象信頼度と前記モデル信頼度との間の差分に応じて、前記閾値が示す範囲が広くなるように、前記閾値を補正する、処理をコンピュータに実行させる請求項８に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。