WO2017068623A1

WO2017068623A1 - 管理計算機及び閾値設定方法

Info

Publication number: WO2017068623A1
Application number: PCT/JP2015/079439
Authority: WO
Inventors: 瑛利沙野呂; 利明松尾; 雄太中戸川; 伸圭坂井
Original assignee: 株式会社日立製作所
Priority date: 2015-10-19
Filing date: 2015-10-19
Publication date: 2017-04-27

Abstract

管理計算機は、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力モジュールと、ストレージ側のリソースの性能値の第１の度数分布と、ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第２の度数分布を作成する度数分布作成モジュールと、前記第１の度数分布と前記第２の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出モジュールと、を備える。

Description

管理計算機及び閾値設定方法

　本発明は、管理計算機及び閾値設定方法に関する。

　ＳＡＮ環境におけるシステム管理ソフトウェアでは、ストレージ側の構成要素の性能指標を定期的に取得し、その性能指標の値が予め設定された閾値より悪化した場合にシステム管理者に通知する運用を行うことが多い。

　特許文献１は、上記の運用のための技術を開示している。特許文献１には、「管理ソフトウェアを用いて、管理対象機器に対し事前に性能監視のための閾値を設定し、性能取得値が閾値を超過した場合は性能障害イベントとして感知する」と記載されている。

特開２０１１－１９８２６２号公報米国特許７１０７１８５号公報

　一般に、ＳＡＮ環境では、ストレージが、多くのホストによって共用されている。このような構成の場合、ストレージ側の性能指標の悪化がホストに及ぼす影響を定量的に見積もることが困難である。したがって、従来より、ストレージ側の性能指標に対して適切な閾値を設定することは難しいという課題がある。

　ここで、設定した閾値が高すぎると、性能指標が本来検出すべきである異常値になっていたとしても、性能指標が閾値に達しないため、性能障害イベントとして検出できないことになる（以下、この状態を「未検出」状態と呼ぶ）。一方、設定した閾値が低すぎると、性能指標が異常値として検出すべき値になっていないにもかかわらず、性能指標が閾値に達してしまうため、性能障害イベントとして検出されてしまうことになる（以下、この状態を「過剰検出」状態と呼ぶ）。上記の通り、未検出状態と過剰検出状態はトレードオフの関係となる。

　特許文献１には、設定された閾値が未検出状態または過剰検出状態のどちらかに偏った値に設定されることを防ぐための技術が開示されている。特許文献１には、「イベントヒット状況に基づき、閾値再計算処理を実行し、機器本来の性能に比して高く、もしくは低く設定された閾値を補正する」と記載されている。

　しかしながら、システム管理者は、ある作業時間では過剰検出状態を許容し、未検出を可能な限り軽減したい場合がある。一方、別の作業時間では、システム管理者が、未検出状態を許容する運用を行いたい場合がある。特許文献１は、未検出状態及び過剰検出状態のどちらにも偏らない値に閾値を補正する技術を開示しているだけである。したがって、特許文献１の技術では、システム管理者が性能指標の閾値を過剰検出状態と未検出状態との間の所望の位置に設定することはできない。

　そこで、本発明は、性能指標の閾値を、過剰検出状態と未検出状態との間の所望の位置に設定することが可能な技術を提供する。

　例えば、上記課題を解決するために、請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムを管理する管理計算機が提供される。当該管理計算機は、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力モジュールと、前記ストレージ側のリソースの性能値の第１の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第２の度数分布を作成する度数分布作成モジュールと、前記第１の度数分布と前記第２の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出モジュールと、を備える。

　また、他の例によれば、ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムにおいて、前記ストレージ側のリソースの閾値を設定する閾値設定方法が提供される。当該閾値設定方法は、入力モジュールによって、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力ステップと、度数分布作成モジュールによって、前記ストレージ側の前記リソースの性能値の第１の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第２の度数分布とを作成する度数分布作成ステップと、閾値算出モジュールによって、前記第１の度数分布と前記第２の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出ステップと、を含む。

　本発明によれば、性能指標の閾値を、過剰検出状態と未検出状態との間の所望の位置に設定することが可能となる。なお、本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成及び効果は、以下の実施例の説明により明らかにされる。

計算機システムの一実施例の全体概要を示すブロック図である。記憶システムの詳細な内部構成例を示す図である。記憶システム性能管理モジュールの詳細な内部構成例を示す図である。ボリューム－ホスト側ポート関連表の一例である。ホスト側ポート－ＳＡＮスイッチ関連表の一例である。ＳＡＮスイッチ－ストレージ側ポート関連表の一例である。ストレージ側ポート－キャッシュ関連表の一例である。キャッシュ－論理ボリューム関連表の一例である。論理ボリューム－パリティグループ関連表の一例である。パリティグループ－物理ディスク関連表の一例である。リソース性能表の一例である。性能要件管理表の一例である。性能閾値管理表の一例である。ストレージ側のあるリソースに関する２つの度数分布を示す。図１４Ａの２つの度数分布上に閾値を定義した図である。検出感度指数の設定画面の一例である。計算機システムの各構成要素における処理の流れの一例を示すフローチャートである。図１６の度数分布作成処理（ステップ１６１４）の内容を示すフローチャートである。図１６の閾値設定処理（ステップ１６１５）の内容を示すフローチャートである。検出感度指数を指定した閾値設定処理のフローチャートである。予備警告上限数を指定した閾値設定処理のフローチャートである。図１９の閾値設定処理を説明する図である。図２０の閾値設定処理を説明する図である。図１６の性能判定処理（ステップ１６１６）の内容を示すフローチャートである。ユーザから各種情報が入力されたときのフローチャートである。

　以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

　図１は、計算機システムの一実施例の全体概要を示すブロック図である。本実施例の計算機システムは、ストレージ装置（単に、「ストレージ」と呼ぶこともある）１００と、業務サーバ（単に、「ホスト」と呼ぶこともある）１２０と、第１及び第２の性能情報収集サーバ１３０、１４０と、性能管理サーバ１５０とを備える。

　ストレージ装置１００と業務サーバ１２０とは、ネットワークを介して接続されている。具体的には、ストレージ装置１００と業務サーバ１２０とは、ＳＡＮ（Storage Area Network）スイッチ１６０を介して接続されている。本実施例では、ストレージ装置１００と業務サーバ１２０とＳＡＮスイッチ１６０によって記憶システム１８０が構成されている。なお、業務サーバ１２０は、複数存在してよい。

　各サーバ１２０、１３０、１４０、１５０は、コンピュータ、ワークステーションなどの計算機によって構成されている。当該計算機は、中央演算処理装置と、補助記憶装置と、主記憶装置とを備えてよい。中央演算処理装置は、ＣＰＵ（Central Processing Unit）などのプロセッサで構成されている。例えば、補助記憶装置はハードディスクであり、主記憶装置はメモリである。ハードディスクは、各種ソフトウェア及び各種情報等を格納するために用いられる。なお、ハードディスクに代えて、例えばフラッシュメモリのような半導体メモリ又は光ディスク装置等を適用するようにしてもよい。また、計算機は、表示部及び入力部を備えてよい。入力部は、キーボード、ポインティングデバイス（マウスなど）などである。表示部は、ディスプレイ、プリンタなどである。なお、図１において、各サーバ１２０、１３０、１４０、１５０の構成要素は、主要な構成要素（例えば、ＣＰＵ、メモリなど）のみを示しており、他の構成要素は省略されている。

　第１及び第２の性能情報収集サーバ１３０、１４０及び性能管理サーバ１５０は、ＬＡＮ（Local Area Network）１７０を介して、ストレージ装置１００、業務サーバ１２０、及びＳＡＮスイッチ１６０に接続されている。なお、業務サーバ１２０が複数存在する場合は、第１及び第２の性能情報収集サーバ１３０、１４０及び性能管理サーバ１５０が、ＬＡＮ１７０を介して各業務サーバ１２０に接続されていてもよい。

　ストレージ装置１００は、業務サーバ１２０にデータ記憶領域を提供するデータ記憶装置である。ストレージ装置１００は、ＣＰＵ１０１と、データを格納するための物理ディスク１０６、１０７、１０８、１０９と、ＳＡＮスイッチ１６０を介して業務サーバ１２０に接続するためのポート１１０、１１１、１１２と、業務サーバ１２０との間でやりとりするデータを一時的に記憶するキャッシュ１０４、１０５と、ポート１１０、１１１、１１２と物理ディスク１０６、１０７、１０８、１０９との間に介在し、両者の間でデータの受け渡しを行うコントローラ１０２、１０３とを備える。

　業務サーバ１２０は、業務システムの業務機能を提供する計算機である。業務サーバ１２０は、例えば、それらに接続された、図示しないクライアントコンピュータからファイルのＩ／Ｏ要求を受信し、それに基づいてストレージ装置１００へのアクセスを実現する。業務サーバ１２０は、ＣＰＵ１２１と、メモリ１２２と、ＳＡＮスイッチ１７０を介してストレージ装置１００に接続するためのポート１２３、１２４とを備える。業務サーバ１２０では、業務ソフト１２５と、ＯＳ（Operating System）１２６と、ホスト性能情報収集モジュール１２７が動作する。これらのソフトウェアは、メモリ１２２にロードされ、ＣＰＵ１２１によって実行される。なお、これらのソフトウェアは、ハードディスクに格納され、必要に応じてメモリ１２２に複写されてもよい。ホスト性能情報収集モジュール１２７は、業務サーバ１２０の構成情報及び性能情報を収集し、収集した構成情報及び性能情報を性能管理サーバ１５０へ送信する。

　第１の性能情報収集サーバ１３０は、ＣＰＵ１３１と、メモリ１３２とを備える。第１の性能情報収集サーバ１３０では、ＯＳ（図示省略）と、ストレージ性能情報収集モジュール１３３が動作する。これらのソフトウェアは、メモリ１３２にロードされ、ＣＰＵ１３１によって実行される。なお、これらのソフトウェアは、ハードディスクに格納され、必要に応じてメモリ１３２に複写されてもよい。ストレージ性能情報収集モジュール１３３は、ストレージ装置１００の構成情報及び性能情報を収集し、収集した構成情報及び性能情報を性能管理サーバ１５０へ送信する。

　第２の性能情報収集サーバ１４０は、ＣＰＵ１４１と、メモリ１４２とを備える。第２の性能情報収集サーバ１４０では、ＯＳ（図示省略）と、ＳＡＮスイッチ性能情報収集モジュール１４３が動作する。これらのソフトウェアは、メモリ１４２にロードされ、ＣＰＵ１４１によって実行される。なお、これらのソフトウェアは、ハードディスクに格納され、必要に応じてメモリ１４２に複写されてもよい。ＳＡＮスイッチ性能情報収集モジュール１４３は、ＳＡＮスイッチ１６０の構成情報及び性能情報を収集し、収集した構成情報及び性能情報を性能管理サーバ１５０へ送信する。

　性能管理サーバ１５０は、記憶システム１８０の構成情報及び性能情報を収集し、記憶システム１８０の構成要素を監視する管理計算機である。性能管理サーバ１５０は、ＣＰＵ１５１と、メモリ１５２とを備える。性能管理サーバ１５０では、ＯＳ（図示省略）と、記憶システム性能管理モジュール１５３が動作する。これらのソフトウェアは、メモリ１５２にロードされ、ＣＰＵ１５１によって実行される。記憶システム性能管理モジュール１５３は、記憶システム１８０を監視し、各構成デバイス（ストレージ装置１００、業務サーバ１２０、ＳＡＮスイッチ１６０）の処理性能を示す性能値を取得する。また、記憶システム性能管理モジュール１５３は、あらかじめ設定された閾値と、取得した性能値とを比較し、各構成デバイスの性能の異常を検知する。

　図２は、記憶システムの詳細な内部構成例を示す図であり、図１の記憶システム１８０のハードウェア構成をより詳細に示す図である。記憶システムは、ストレージ装置２００と、業務サーバＡ２２０と、業務サーバＢ２２１と、ＳＡＮスイッチＡ２４０と、ＳＡＮスイッチＢ２５０とを備える。

　業務サーバＡ２２０では、業務ソフトＡ２２２及び業務ソフトＢ２２３が動作する。業務ソフトＡ２２２はボリュームＡ２２５を使用し、業務ソフトＢ２２３はボリュームＢ２２６を使用する。また、業務サーバＡ２２０は、ポートＡ２２８～ポートＢ２２９を介して、ＳＡＮスイッチＡ２４０及びＳＡＮスイッチＢ２５０に接続される。

　業務サーバＢ２２１では、業務ソフトＣ２２４が動作する。業務ソフトＣ２２４はボリュームＣ２２７を使用する。業務サーバＢ２２１は、ポートＣ２３０を介して、ＳＡＮスイッチＢ２５０に接続される。

　ボリュームＡ２２５～ボリュームＣ２２７は、ファイルを外部記憶装置（ここでは、ストレージ装置２００）に格納するための領域としてＯＳ（図示省略）によって管理される。

　ボリュームＡ２２５～ボリュームＣ２２７は、それぞれ、ストレージ装置２００の論理ボリュームＡ２０１～論理ボリュームＤ２０４に割り当てられる。論理ボリュームＡ２０１～論理ボリュームＤ２０４は、それぞれ、パリティグループＡ２０５及びパリティグループＢ２０６のいずれかに割り当てられる。ここでは、論理ボリュームＡ２０１及び論理ボリュームＢ２０２がパリティグループＡ２０５に割り当てられ、論理ボリュームＣ２０３及び論理ボリュームＤ２０４がパリティグループＢ２０６に割り当てられる。パリティグループＡ２０５には、物理ディスクＡ２０７～物理ディスクＣ２０９が割り当てられ、パリティグループＢ２０６には、物理ディスクＤ２１０～物理ディスクＦ２１２が割り当てられる。

　また、論理ボリュームＡ２０１～論理ボリュームＤ２０４と、それらに割り当てられるボリュームＡ２２５～ボリュームＣ２２７との対応関係が定まると、それらの間でやり取りされるデータが経由するホスト側のポートＡ２２８～ポートＣ２３０と、ストレージ側のポートＮ２１５～ポートＰ２１７とが決定される。なお、ボリュームＡ２２５～ボリュームＣ２２７と論理ボリュームＡ２０１～論理ボリュームＤ２０４との間でやり取りされるデータは、コントローラ（図１を参照）を介して、キャッシュＡ２１３～キャッシュＢ２１４に一時的に記憶される。

　以下では、ストレージ側のリソースの性能指標の閾値の設定処理について説明するが、本実施例における「ストレージ側のリソース」とは、図２の点線２８０の範囲にある構成要素を想定している。したがって、点線２８０の範囲内にあるリソースが閾値の設定対象となる。なお、「ストレージ側のリソース」は、この例に限定されない。例えば、業務サーバＡ２２０及び業務サーバＢ２２１のバックエンド側の任意の範囲をストレージ側のリソースとして扱ってもよい。

　図３は、図１の記憶システム性能管理モジュール１５３の詳細な内部構成例を示す図である。記憶システム性能管理モジュール３００は、ＧＵＩ表示モジュール３０１と、ユーザ入力モジュール３０２と、ユーザ通知モジュール３０３と、閾値算出モジュール３０４と、度数分布作成モジュール３０５と、性能判定モジュール３０６とを備える。また、記憶システム性能管理モジュール３００は、リソース関連表３１０と、リソース性能表３２０と、設定情報表３３０とを備える。

　ＧＵＩ表示モジュール３０１は、性能管理サーバ１５０の表示部（例えば、ディスプレイ）に表示するＧＵＩ（Graphical User Interface）を表示するモジュールである。例えば、ＧＵＩ表示モジュール３０１は、設定情報表３３０に関する画面、及び、ストレージ側のリソースの性能の判定結果に関する画面などをディスプレイに表示する。

　ユーザ入力モジュール３０２は、ＧＵＩ表示モジュール３０１を介して受け取った入力情報（例えば、設定情報表３３０に関する入力情報）を受け取り、その入力情報を設定情報表３３０に設定する。

　ユーザ通知モジュール３０３は、性能判定モジュール３０６からストレージ側のリソースの性能の判定結果を受け取り、ＧＵＩ表示モジュール３０１を介してシステム管理者に通知する。なお、通知手段は、ディスプレイ表示に限定されず、メール通知などの他の通知方法でもよい。

　度数分布作成モジュール３０５は、ストレージ側のリソースの閾値設定処理に使用する度数分布を作成する。具体的には、度数分布作成モジュール３０５は、リソース関連表３１０と、リソース性能表３２０と、設定情報表３３０とを用いて、第１の度数分布と第２の度数分布を作成する。ここで、第１の度数分布は、過去に収集したストレージ側のリソースの性能値の集合のうち、全ての時間帯における性能値の度数分布である。第２の度数分布は、過去に収集したストレージ側のリソースの性能値の集合のうち、ホスト側（例えば、業務サーバＡ２２０、業務サーバＢ２２１）で性能問題が発生している時間帯における性能値の度数分布である。なお、ここでの例では、第１の度数分布及び第２の度数分布は、過去に収集した全ての時間帯の性能値の集合を対象としているが、過去に収集した一部の時間帯の性能値の集合を対象としてもよい。

　閾値算出モジュール３０４は、記憶システム１８０のストレージ側のリソースに関する閾値を算出する。閾値算出モジュール３０４は、算出した閾値を設定情報表３３０に設定する。設定情報表３３０に設定された閾値は、ストレージ側のリソースにおいて性能問題が発生したか否かを判定するために使用される。

　閾値算出モジュール３０４は、第１の度数分布及び第２の度数分布を用いて、ストレージ側のリソースの性能値の閾値を算出する。より具体的には、閾値算出モジュール３０４は、２つの方法のいずれかから閾値を算出する。第１の方法では、閾値算出モジュール３０４は、第１の度数分布と第２の度数分布とを用いて、ストレージ側の各リソースについて、検出感度指数を満たす閾値を算出する。閾値算出モジュール３０４は、第１の度数分布と第２の度数分布の上で閾値の位置を変動させて、システム管理者によって指定された検出感度指数を満たす閾値の位置を探索する。「検出感度指数」の詳細については後述する。なお、閾値の探索には、二分探索法などの公知の手法を用いることができる。

　第２の方法では、閾値算出モジュール３０４は、第１の度数分布と第２の度数分布とを用いて、ストレージ側の各リソースについて、予備警告上限数より小さい警告数となる閾値を算出する。閾値算出モジュール３０４は、第１の度数分布と第２の度数分布の上で閾値の位置を変動させて、システム管理者によって指定された予備警告上限数より小さい警告数となる閾値の位置を探索する。「予備警告上限数」の詳細については後述する。

　性能判定モジュール３０６は、ストレージ側のリソースに性能問題が発生しているかを判定する。具体的には、性能判定モジュール３０６は、リソース性能表３２０の中の性能判定対象のリソースの性能値と、設定情報表３３０の閾値とを比較することにより、そのリソースに性能問題が発生しているかを判定する。性能判定モジュール３０６は、判定結果をユーザ通知モジュール３０３に出力する。

　性能情報収集モジュール３４０は、図１のホスト性能情報収集モジュール１２７、ストレージ性能情報収集モジュール１３３、及び、ＳＡＮスイッチ性能情報収集モジュール１４３に対応するものである。性能情報収集モジュール３４０は、構成情報取得モジュール３４１と、性能情報取得モジュール３４２とを備える。構成情報取得モジュール３４１は、記憶システム構成装置ソフトウェア３５０から構成情報を取得する。ここでの構成情報は、図２で示した記憶システムのリソースの構成情報である。また、性能情報取得モジュール３４２は、記憶システム構成装置ソフトウェア３５０から性能情報を取得する。ここでの性能情報は、図２で示した記憶システムのリソースの性能情報である。

　記憶システム構成装置ソフトウェア３５０は、例えば、記憶システムの構成装置（業務サーバ、ストレージ装置、ＳＡＮスイッチ）に組み込まれるモジュールである。記憶システム構成装置ソフトウェア３５０は、記憶システムの構成装置において実行されるプログラムモジュール、又は、それらのハードウェアの一部である。一例として、記憶システム構成装置ソフトウェア３５０は、記憶システムの構成装置（業務サーバ、ストレージ装置など）のＯＳに組み込まれてもよい。記憶システム構成装置ソフトウェア３５０は、構成情報取得モジュール３５１と、性能情報取得モジュール３５２とを備え、各構成装置の構成情報及び性能情報を取得する。

　次に、本実施例で使用されるリソース関連表３１０、設定情報表３３０、及びリソース性能表３２０を説明する。各種情報について、以後の説明では「テーブル」構造を用いて説明するが、必ずしもテーブルによるデータ構造で表現されていなくてもよく、他のデータ構造で表現されていてもよい。

　リソース関連表３１０は、業務サーバ（業務サーバＡ２２０、業務サーバＢ２２１）とストレージ装置２００との間にある複数のリソース間の関連を示す情報である。リソース関連表３１０は、例えば、第２の度数分布を作成する際に使用することができる。あるリソースＡについて第２の度数分布を作成することを想定する。リソース関連表３１０を用いることによって、ある時刻におけるリソースＡと業務サーバのボリューム（ボリュームＡ２２５～ボリュームＣ２２７）との関連が分かるため、その時刻の業務サーバの性能値に基づいて、その時刻のリソースＡの性能値を第２の度数分布に反映させるかを判定することができる。

　また、リソース関連表３１０は、リソース間の性能の依存関係を示す情報として使用することができる。一つのリソースの性能に問題が発生すると、その性能問題の影響を受けて、ホスト側（業務サーバ）で性能問題が発生する場合がある。リソース関連表３１０は、ある時刻におけるリソース間の関連情報を表すため、この関連情報を用いて、あるリソースの性能問題が、ホスト側に性能問題が発生した場合の原因であるかを判定することができる。一例として、リソース関連表３１０は、根本原因解析（RCA: Root cause analysis）に用いることができる。ＲＣＡについては後述する。

　リソース関連表３１０は、ボリューム－ホスト側ポート関連表３１１と、ホスト側ポート－ＳＡＮスイッチ関連表３１２と、ＳＡＮスイッチ－ストレージ側ポート関連表３１３と、ストレージ側ポート－キャッシュ関連表３１４と、キャッシュ－論理ボリューム関連表３１５と、論理ボリューム－パリティグループ関連表３１６と、パリティグループ－物理ディスク関連表３１７とを含む。

　図４は、ボリューム－ホスト側ポート関連表３１１の一例である。ボリューム－ホスト側ポート関連表４００は、ある時刻におけるホスト（業務サーバＡ２２０、業務サーバＢ２２１）のボリュームとホスト側のポートとの関係を示す。ボリューム－ホスト側ポート関連表４００は、収集時刻４０１と、ボリューム４０２と、ホスト側ポート４０３とを構成項目として含む。

　図５は、ホスト側ポート－ＳＡＮスイッチ関連表３１２の一例である。ホスト側ポート－ＳＡＮスイッチ関連表５００は、ある時刻におけるホスト側のポートとＳＡＮスイッチ（ＳＡＮスイッチＡ２４０、ＳＡＮスイッチＢ２５０）との関係を示す。ホスト側ポート－ＳＡＮスイッチ関連表５００は、収集時刻５０１と、ホスト側ポート５０２と、ＳＡＮスイッチ５０３とを構成項目として含む。

　図６は、ＳＡＮスイッチ－ストレージ側ポート関連表３１３の一例である。ＳＡＮスイッチ－ストレージ側ポート関連表６００は、ある時刻におけるＳＡＮスイッチとストレージ装置のポート（ポートＮ２１５～ポートＰ２１７）との関係を示す。ＳＡＮスイッチ－ストレージ側ポート関連表６００は、収集時刻６０１と、ＳＡＮスイッチ６０２と、ストレージ側ポート６０３とを構成項目として含む。

　図７は、ストレージ側ポート－キャッシュ関連表３１４の一例である。ストレージ側ポート－キャッシュ関連表７００は、ある時刻におけるストレージ装置のポートとキャッシュ（キャッシュＡ２１３、キャッシュＢ２１４）との関係を示す。ストレージ側ポート－キャッシュ関連表７００は、収集時刻７０１と、ストレージ側ポート７０２と、キャッシュ７０３とを構成項目として含む。

　図８は、キャッシュ－論理ボリューム関連表３１５の一例である。キャッシュ－論理ボリューム関連表８００は、ある時刻におけるストレージ装置のキャッシュと論理ボリューム（論理ボリュームＡ～論理ボリュームＤ２０４）との関係を示す。キャッシュ－論理ボリューム関連表８００は、収集時刻８０１と、キャッシュ８０２と、論理ボリューム８０３とを構成項目として含む。

　図９は、論理ボリューム－パリティグループ関連表３１６の一例である。論理ボリューム－パリティグループ関連表９００は、ある時刻におけるストレージ装置の論理ボリュームとパリティグループ（パリティグループＡ２０５、パリティグループＢ２０６）との関係を示す。論理ボリューム－パリティグループ関連表９００は、収集時刻９０１と、論理ボリューム９０２と、パリティグループ９０３とを構成項目として含む。

　図１０は、パリティグループ－物理ディスク関連表３１７の一例である。パリティグループ－物理ディスク関連表１０００は、ある時刻におけるストレージ装置のパリティグループと物理ディスク（物理ディスクＡ２０７～物理ディスクＦ２１２）の関係を示す。パリティグループ－物理ディスク関連表１０００は、収集時刻１００１と、パリティグループ１００２と、物理ディスク１００３とを構成項目として含む。

　図１１は、リソース性能表３２０の一例である。リソース性能表１１００は、ある時刻におけるリソースの性能値を示す。リソース性能表１１００は、ホスト側及びストレージ側の両方のリソースの性能値を管理する。リソース性能表１１００は、収集時刻１１０１と、リソース１１０２と、性能指標の属性名１１０３と、性能値１１０４とを構成項目として含む。

　設定情報表３３０は、性能閾値管理表３３１と、予備警告上限数管理表３３２と、性能要件管理表３３３とを含む。

　図１２は、性能要件管理表３３３の一例である。性能要件管理表１２００は、ホスト（すなわち、業務サーバ）側の性能要件を管理するテーブルである。性能要件管理表１２００は、業務サーバのボリューム（ボリュームＡ２２５～ボリュームＣ２２７）の性能値の閾値を示す。ホストのボリュームの性能値がこの閾値を超えた場合、ホストに性能問題が発生していると判定される。性能要件管理表１２００は、リソース１２０１と、性能値の閾値（ここでは、Response Time）１２０２を構成項目として含む。

　予備警告上限数管理表は、予備警告上限数を管理するテーブルである。予備警告上限数は、単位時間当たりのシステム管理者が対応可能な警告上限数である。システム管理者によっては、性能問題が発生した場合の単位時間当たりの通知数（以下では「警告数」という）に上限を設け、その上限内でストレージ側のリソースの閾値を設定したい場合がある。予備警告上限数は、この目的のために使用される値である。ここでの例では、予備警告上限数は、記憶システムの全体に対して１つの値が設定される。しかしながら、この例に限定されない。予備警告上限数がストレージ側のリソースごとに設定されてもよい。

　図１３は、性能閾値管理表３３１の一例である。性能閾値管理表１３００は、ストレージ側のリソースの性能問題の発生を判定するための閾値を管理するテーブルである。性能閾値管理表１３００は、リソース１３０１と、リソースの性能指標の属性名１３０２と、閾値１３０３と、検出感度指数１３０４とを構成項目として含む。検出感度指数１３０４はシステム管理者によって指定される。閾値１３０３は、ストレージ側のリソースの性能問題の発生を判定するための閾値である。本実施例では、検出感度指数１３０４が指定されたとき、検出感度指数１３０４を用いて閾値１３０３が設定される。

　次に、検出感度指数について説明する。検出感度指数は、未検出状態及び過剰検出状態のリスクに対するシステム管理者の意向を示す指標である。本実施例において、検出感度指数は、（１）ホストにおいて性能問題が発生し、かつ、ストレージ側のリソースの性能問題が発生していない事象の頻度（以下、「未検出数」と呼ぶ）、及び、（２）ホストにおいて性能問題が発生しておらず、かつ、ストレージ側のリソースの性能問題が発生している事象の頻度（以下、「過剰検出数」と呼ぶ）の比率である。

　検出感度指数について図１４Ａ及び図１４Ｂを用いてより詳細に説明する。図１４Ａは、ストレージ側のあるリソースＡに関する２つの度数分布を示す。第１の度数分布１４０１は、リソースＡの性能値の全ての時間帯の度数分布である。第２の度数分布１４０２は、ホスト側（業務サーバＡ２２０、業務サーバＢ２２１）で性能問題が発生している時間帯における、リソースＡの性能値の度数分布である。

　図１４Ｂは、図１４Ａの２つの度数分布上に閾値を定義した図である。第１の度数分布１４０１及び第２の度数分布１４０２上に閾値ｘを定義する。このとき、符号１４０３で示される領域が未検出数に相当する。また、符号１４０４で示される領域が過剰検出数に相当する。本実施例では、検出感度指数を以下のように定義する。
　検出感度指数＝（過剰検出数１４０４）／（未検出数１４０３＋過剰検出数１４０４）

　検出感度指数は、その値が大きいほど、性能問題の検出数が大きくなる（すなわち、未検出を許容しない状態となっていく）。検出感度指数は、未検出を全く許容しない場合、１となる。一方、検出感度指数は、過剰検出を全く許容しない場合、０となる。

　なお、検出感度指数の定義は、上記の例に限定されない。図１４Ｂに示すように、第１の度数分布１４０１及び第２の度数分布１４０２と、閾値ｘとの関係から、他の事象の頻度も求めることができる。例えば、符号１４０５の領域は、ホストにおいて性能問題が発生しておらず、かつ、リソースＡにおいても性能問題が発生していない事象の頻度を示す。また、符号１４０６の領域は、ホストにおいて性能問題が発生しており、かつ、リソースＡにおいても性能問題が発生している事象の頻度を示す。このように第１の度数分布１４０１及び第２の度数分布１４０２と、閾値ｘとの関係から、符号１４０３～１４０６の４つの領域を定義できる。検出感度指数は、符号１４０３～１４０６の４つの領域の任意の組み合わせから計算されてもよい。

　図１５は、検出感度指数の設定画面の一例である。ＧＵＩ表示モジュール３０１は、性能管理サーバ１５０のディスプレイに検出感度指数設定画面を表示する。システム管理者は、スライダ１５０１を過剰検出抑制と未検出抑制との間で動かし、検出感度指数を所望の値で設定することができる。システム管理者は、ストレージ側のリソースの各々について性能指標の属性ごとに検出感度指数を設定する。本実施例では、検出感度指数を用いることにより、リソースの性能指標の閾値を、過剰検出状態と未検出状態との間の所望の位置に設定することが可能となる。

　図１６は、計算機システムの各構成要素における処理の流れの一例を示すフローチャートである。ストレージ性能情報収集モジュール１３３は、ステップ１６０１～１６０４のループ１を実行する。ループ１の終了条件は、ある時間帯のストレージ装置の構成情報及び性能情報が全て収集されるまで繰り返すという条件でもよいし、特定の時間の間だけ繰り返し実行するという条件でもよい。

（ステップ１６０２）
　ストレージ性能情報収集モジュール１３３は、記憶システム構成装置ソフトウェア３５０を介して、ストレージ装置の構成情報及び性能情報を収集する。

（ステップ１６０３）
　ストレージ性能情報収集モジュール１３３は、収集した構成情報をリソース関連表３１０の対応する関連表に格納する。また、ストレージ性能情報収集モジュール１３３は、収集した性能情報をリソース性能表３２０に格納する。

　次に、ＳＡＮスイッチ性能情報収集モジュール１４３は、ステップ１６０５～１６０８のループ２を実行する。ループ２の終了条件は、ある時間帯のＳＡＮスイッチの構成情報及び性能情報が全て収集されるまで繰り返すという条件でもよいし、特定の時間の間だけ繰り返し実行するという条件でもよい。

（ステップ１６０６）
　ＳＡＮスイッチ性能情報収集モジュール１４３は、記憶システム構成装置ソフトウェア３５０を介して、ＳＡＮスイッチの構成情報及び性能情報を収集する。

（ステップ１６０７）
　ＳＡＮスイッチ性能情報収集モジュール１４３は、収集した構成情報をリソース関連表３１０の対応する関連表に格納する。また、ＳＡＮスイッチ性能情報収集モジュール１４３は、収集した性能情報をリソース性能表３２０に格納する。

　次に、ホスト性能情報収集モジュール１２７は、ステップ１６０９～１６１３のループ３を実行する。ループ３の終了条件は、ある時間帯のホストの構成情報及び性能情報が全て収集されるまで繰り返すという条件でもよいし、特定の時間の間だけ繰り返し実行するという条件でもよい。

（ステップ１６１０）
　ホスト性能情報収集モジュール１２７は、記憶システム構成装置ソフトウェア３５０を介して、業務サーバの構成情報及び性能情報を収集する。

（ステップ１６１１）
　ホスト性能情報収集モジュール１２７は、ホストの冗長構成に基づいて、収集した構成情報及び性能情報を取捨選択する。例えば、業務サーバとストレージ装置との間で第１の経路（Primaryデータ経路）が使用されている場合、ホスト性能情報収集モジュール１２７は、第１の経路に関する構成情報及び性能情報を選択する。一方、ある時間帯では、第１の経路で性能問題が発生していたため、第２の経路（Secondaryデータ経路）が使用されていたとする。この場合、ホスト性能情報収集モジュール１２７は、第２の経路に関する構成情報及び性能情報を選択する。したがって、通常は、第１の経路の構成情報及び性能情報が、以降の度数分布の作成に使用されるが、第１の経路で性能問題が発生している場合には、第２の経路の構成情報及び性能情報が、度数分布の作成に使用されることになる。なお、経路の切替えは、例えば、業務サーバのＯＳが行い、使用しているリソースの情報は、例えば、業務サーバのＯＳから取得することができる。

（ステップ１６１２）
　ホスト性能情報収集モジュール１２７は、選択した構成情報をリソース関連表３１０の対応する関連表に格納する。また、ホスト性能情報収集モジュール１２７は、選択した性能情報をリソース性能表３２０に格納する。

（ステップ１６１４）
　度数分布作成モジュール３０５は、リソース関連表３１０の各関連表の情報及びリソース性能表３２０の情報を用いて、第１の度数分布及び第２の度数分布を作成する。ここでの実行される度数分布作成処理の詳細については後述する。

（ステップ１６１５）
　閾値算出モジュール３０４は、度数分布作成モジュール３０５で作成された２つの度数分布と設定情報表３３０の情報とを用いて、対象リソースの性能値の閾値を算出する。閾値算出モジュール３０４は、算出した閾値を設定情報表３３０に格納する。ここで実行される閾値設定処理の詳細については後述する。

（ステップ１６１６）
　性能判定モジュール３０６は、閾値算出モジュール３０４で設定された閾値（すなわち、設定情報表３３０内の更新された閾値）を用いて、対象リソースの性能判定を行う。ここで実行される性能判定処理の詳細については後述する。

（ステップ１６１７）
　上記の処理を実行した計算機システムの各構成要素が一定期間待機する。その後、ステップ１６０１の処理を開始する。

　このように、一定期間ごとに性能情報を収集して、第１及び第２の度数分布を作成し、これら第１及び第２の度数分布を用いてストレージ側のリソースの閾値を設定する。時間の経過とともに性能情報が蓄積され、蓄積された性能情報に応じて第１及び第２の度数分布が作成される。したがって、未検出状態及び過剰検出状態のリスクを左右する要因の変化に追従して、新たな閾値を自動的に設定することができる。また、本実施例では、新たな閾値が設定された後に、その閾値を用いて、ストレージ側のリソースの性能判定を行うことができる。

　次に、図１６の度数分布作成処理（ステップ１６１４）について説明する。図１７は、ステップ１６１４の処理の内容を示すフローチャートである。

　度数分布作成モジュール３０５は、ステップ１７０１～１７１０のループ１を実行する。ループ１は、リソース関連表３１０から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。

　度数分布作成モジュール３０５は、ステップ１７０２～１７０９のループ２を実行する。ループ２は、リソース性能表３２０から取得した全ての時間帯に対して実行される。なお、リソース性能表３２０から取得した全ての時間帯に対してループ２を実行する代わりに、過去の一部の時間帯に対して実行してもよい。

（ステップ１７０３）
　度数分布作成モジュール３０５は、ある対象リソースのある時間帯に関してリソース性能表３２０から性能値を取得し、その性能値を第１の度数分布に反映させる。

（ステップ１７０４）
　度数分布作成モジュール３０５は、リソース関連表３１０から、当該対象リソースと関連するホスト側（すなわち、業務サーバＡ２２０、業務サーバＢ２２１）のボリュームを取得する。

（ステップ１７０５）
　度数分布作成モジュール３０５は、リソース性能表３２０から、当該時間帯のホスト側のボリュームの性能値を取得する。度数分布作成モジュール３０５は、当該時間帯のボリュームの性能値と、性能要件管理表１２００の対応するボリュームの性能値の閾値１２０２とを比較する。度数分布作成モジュール３０５は、上記の比較結果から、ホスト側で性能問題が発生しているかを判定する。性能問題が発生していない場合は、ループ２を繰り返す（すなわち、別の時間帯に関してステップ１７０３～１７０８を実行する）。一方、性能問題が発生している場合は、ステップ１７０６に進む。

（ステップ１７０６）
　度数分布作成モジュール３０５は、根本原因解析（ＲＣＡ）を実行する。ＲＣＡは、問題発生の根本原因を推論するための手法である。本実施例において、度数分布作成モジュール３０５は、ＲＣＡを用いて、当該対象リソースがホスト側の性能問題の原因であるかを判定する。ＲＣＡとしては、公知の手法（例えば、特許文献２）を用いることができる。特許文献２では、一例として、リソースにおける閾値の超過をイベントとして定義し、イベントの組み合わせと性能問題の原因候補をルールとして記述し、このルールに基づいて障害の原因を推論する。ＲＣＡとして、他の公知の手法が用いられてもよい。

（ステップ１７０７）
　度数分布作成モジュール３０５は、ステップ１７０６において当該対象リソースがホスト側の性能問題の原因であると判定された場合、当該対象リソースの性能値を第２の度数分布に反映させる。なお、ステップ１７０６において当該対象リソースがホスト側の性能問題の原因でない場合、ループ２を繰り返す（すなわち、別の時間帯に関してステップ１７０３～１７０８を実行する）。

　以上の図１７のフローによれば、ストレージ側の各リソースに関して、全ての時間帯における性能値の度数分布である第１の度数分布と、ホスト側で性能問題が発生している時間帯における性能値の度数分布である第２の度数分布とが作成される。また、ＲＣＡを実行することにより、ホスト側の性能問題の原因となっているリソースの性能値だけを第２の度数分布に反映させることができる。このように、リソース間の性能の依存関係を考慮して、第２の度数分布を作成することができ、以降の閾値設定処理の精度が向上する。

　次に、図１６の閾値設定処理（ステップ１６１５）の例について説明する。図１８は、ステップ１６１５の処理の内容を示すフローチャートである。

（ステップ１８０１）
　閾値算出モジュール３０４は、予備警告上限数管理表３３２を参照し、予備警告上限数が設定されているかを判定する。

（ステップ１８０２）
　閾値算出モジュールは、予備警告上限数が設定されていない場合、図１９の処理を実行する。

（ステップ１８０３）
　閾値算出モジュールは、予備警告上限数が設定されている場合、図２０の処理を実行する。

　図１９は、検出感度指数を指定した閾値設定処理のフローチャートである。図２１Ａは、図１９の閾値設定処理を説明する図である。閾値算出モジュール３０４は、ステップ１９０１～１９１３のループ１を実行する。ループ１は、リソース関連表３１０から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。

（ステップ１９０２）
　閾値算出モジュール３０４は、閾値候補Ｘ’に、対象リソースの現在の閾値ｘを代入する。

（ステップ１９０３）
　閾値算出モジュール３０４は、閾値候補Ｘ’と第１及び第２の度数分布に基づいて、過剰検出数Ｎ₁と未検出数Ｎ₂を算出する。過剰検出数Ｎ₁は、図１４の符号１４０４の領域に対応し、未検出数Ｎ₂は、図１４の符号１４０３の領域に対応する。

（ステップ１９０４）
　閾値算出モジュール３０４は、以下の式（１）を満たすかを判定する。ここで、ｙは、対象リソースの検出感度指数である。閾値算出モジュール３０４は、ｙの値を性能閾値管理表３３１（すなわち、性能閾値管理表１３００の検出感度指数１３０４）から取得することができる。
　Ｎ₁×（１－ｙ）＝Ｎ₂×ｙ　　　・・・（１）
　式（１）を満たす場合、ステップ１９１３へ進み、ループ１を繰り返す。一方、式（１）を満たさない場合、ステップ１９０５に進む。

（ステップ１９０５）
　閾値算出モジュール３０４は、以下の式（２）を満たすかを判定する。
　Ｎ₁×（１－ｙ）＞Ｎ₂×ｙ　　　・・・（２）
　式（２）を満たす場合、ステップ１９０６～１９０８へ進む。一方、式（２）を満たさない場合、ステップ１９０９～１９１１に進む。以降のステップでは、図２１Ａに示すように、式（２）の判定に基づいて、閾値候補Ｘ’の値を、閾値設定の変化量の最小単位△Ｘずつ増加させていくか、又は、減少させていくことになる。この処理によって、システム管理者が指定した検出感度指数ｙを満たす閾値を探索する。

（ステップ１９０６）
　閾値算出モジュール３０４は、閾値候補Ｘ’に、Ｘ’＋△Ｘを代入する。なお、閾値設定の変化量の最小単位△Ｘは、あらかじめ設定されている。△Ｘは、システム管理者によって適宜変更されてもよい。

（ステップ１９０７）
　閾値算出モジュール３０４は、新しい閾値候補Ｘ’（すなわち、ステップ１９０６で算出されたＸ’）と第１の及び第２の度数分布に基づいて、過剰検出数Ｎ₁と未検出数Ｎ₂を算出する。

（ステップ１９０８）
　閾値算出モジュールは、以下の式（３）を満たすかを判定する。
　Ｎ₁×（１－ｙ）≦Ｎ₂×ｙ　　　・・・（３）
　式（３）を満たす場合、ステップ１９１２へ進む。一方、式（３）を満たさない場合、ステップ１９０６へ戻る。

（ステップ１９０９）
　閾値算出モジュール３０４は、閾値候補Ｘ’に、Ｘ’－△Ｘを代入する。

（ステップ１９１０）
　閾値算出モジュール３０４は、新しい閾値候補Ｘ’（すなわち、ステップ１９０９で算出されたＸ’）と第１の及び第２の度数分布に基づいて、過剰検出数Ｎ₁と未検出数Ｎ₂を算出する。

（ステップ１９１１）
　閾値算出モジュール３０４は、以下の式（４）を満たすかを判定する。
　Ｎ₁×（１－ｙ）≧Ｎ₂×ｙ　　　・・・（４）
　式（４）を満たす場合、ステップ１９１２へ進む。一方、式（４）を満たさない場合、ステップ１９０９へ戻る。

（ステップ１９１１）
　閾値算出モジュール３０４は、閾値候補Ｘ’で、性能閾値管理表３３１における対象リソースの閾値（すなわち、性能閾値管理表１３００の閾値１３０３）を更新する。

　上述の閾値設定処理によれば、管理対象の記憶システムのリソースの実際の性能値の分布に従って、指定された検出感度指数を満たす閾値が設定される。検出感度指数は、システム管理者が所望する過剰検出状態と未検出状態のそれぞれに対するリスクの重み付けを反映したものである。したがって、システム管理者が所望する閾値を設定し、その閾値を用いて障害発生を通知することが可能となる。

　図２０は、予備警告上限数を指定した閾値設定処理のフローチャートである。図２１Ｂは、図２０の閾値設定処理を説明する図である。

（ステップ２００１）
　まず、閾値算出モジュール３０４は、検出感度指数ｙに１を代入する。検出感度指数ｙ＝１は、未検出を全く許容しない状態であり、警告数が最も多い状態である。以下の処理では、この状態から検出感度指数ｙを徐々に小さくしていくことによって、システム管理者が指定した予備警告上限数より小さい警告数となる閾値を探索する。

（ステップ２００１）
　その後、閾値算出モジュール３０４は、ステップ２００２～２０１５のループ１を実行する。ループ１は、リソース関連表３１０から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。

（ステップ２００３）
　閾値算出モジュール３０４は、閾値候補Ｘ’に、現在の閾値ｘを代入する。

（ステップ２００４）
　閾値算出モジュール３０４は、閾値候補Ｘ’と第１及び第２の度数分布に基づいて、過剰検出数Ｎ₁と未検出数Ｎ₂を算出する。

（ステップ２００５）
　閾値算出モジュール３０４は、以下の式（１）を満たすかを判定する。
　Ｎ₁×（１－ｙ）＝Ｎ₂×ｙ　　　・・・（１）
　式（１）を満たす場合、ステップ２０１４へ進み、その後、ループ１を繰り返す。一方、式（１）を満たさない場合、ステップ２００６に進む。

（ステップ２００６）
　閾値算出モジュール３０４は、以下の式（２）を満たすかを判定する。
　Ｎ₁×（１－ｙ）＞Ｎ₂×ｙ　　　・・・（２）
　式（２）を満たす場合、ステップ２００７～２００９へ進む。一方、式（２）を満たさない場合、ステップ２０１０～２０１２に進む。

（ステップ２００７）
　閾値算出モジュール３０４は、閾値候補Ｘ’に、Ｘ’＋△Ｘを代入する。ここで、△Ｘは閾値設定の変化量の最小単位である。なお、△Ｘは、あらかじめ設定されている。△Ｘは、システム管理者によって適宜変更されてもよい。

（ステップ２００８）
　閾値算出モジュール３０４は、新しい閾値候補Ｘ’（すなわち、ステップ２００７で算出されたＸ’）と第１及び第２の度数分布に基づいて、過剰検出数Ｎ₁と未検出数Ｎ₂を算出する。

（ステップ２００９）
　閾値算出モジュール３０４は、以下の式（３）を満たすかを判定する。
　Ｎ₁×（１－ｙ）≦Ｎ₂×ｙ　　　・・・（３）
　式（３）を満たす場合、ステップ２０１３へ進む。一方、式（３）を満たさない場合、ステップ２００７へ戻る。

（ステップ２０１０）
　閾値算出モジュール３０４は、閾値候補Ｘ’に、Ｘ’－△Ｘを代入する。

（ステップ２０１１）
　閾値算出モジュール３０４は、新しい閾値候補Ｘ’（すなわち、ステップ２０１０で算出されたＸ’）と第１及び第２の度数分布に基づいて、過剰検出数Ｎ₁と未検出数Ｎ₂を算出する。

（ステップ２０１２）
　閾値算出モジュール３０４は、以下の式（４）を満たすかを判定する。
　Ｎ₁×（１－ｙ）≧Ｎ₂×ｙ　　　・・・（４）
　式（４）を満たす場合、ステップ２０１３へ進む。一方、式（４）を満たさない場合、ステップ２０１０へ戻る。

（ステップ２０１３）
　閾値算出モジュール３０４は、閾値候補Ｘ’で、性能閾値管理表３３１における対象リソースの閾値１３０３を更新する。

（ステップ２０１４）
　閾値算出モジュール３０４は、性能閾値管理表３３１における対象リソースの閾値と第１及び第２の度数分布を用いて、警告数ｚを集計する。警告数ｚは、図２１Ｂの符号２１０１で示される領域に対応し、当該閾値が設定された場合にシステム管理者が受ける警告数を意味する。閾値算出モジュール３０４は、ループ１の終了条件を満たすまで、警告数ｚを集計する。すなわち、ストレージ側のリソースとリソースのメトリックの全ての組み合わせについてｚを計算し、それらの総計が最終的に求められる。ループ１終了後、ステップ２０１６へ進む。

（ステップ２０１６）
　閾値算出モジュール３０４は、以下の２つの式i）、ii）のいずれかを満たすかを判定する。ここで、ｓは、ユーザが指定した予備警告上限数管理表３３２の予備警告上限数である。２つの式のいずれかを満たす場合、処理を終了する。２つの式のいずれかを満たさない場合、ステップ２０１７に進む。
　i）ｚ＜ｓ
　ii）ｙ＝０

（ステップ２０１７）
　閾値算出モジュール３０４は、検出感度指数ｙに、ｙ－△ｙを代入する。ここで、△ｙは検出感度指数の変化量の最小単位である。この後、ステップ２００２に戻る。

　システム管理者は、性能問題が発生した場合の単位時間当たりの通知数（警告数）に上限を設けたいという要望があるが、上述の閾値設定処理によれば、管理対象の記憶システムのリソースの実際の性能値の分布に従って、指定された予備警告上限数より小さい警告数となる閾値を設定することができる。

　図２２は、図１６の性能判定処理（ステップ１６１６）の内容を示すフローチャートである。

　性能判定モジュール３０６は、ステップ２２０１～ステップ２２０４のループ１を実行する。ループ１は、リソース関連表３１０から取得したストレージ側の全てのリソースと対象リソースのメトリックの組み合わせに対して実行される。

（ステップ２２０２）
　そして、性能判定モジュール３０６は、ストレージ側の性能判定対象のリソースに性能問題が発生しているかを判定する。具体的には、性能判定モジュール３０６は、リソース性能表３２０の中の性能判定対象のリソースの性能値と、性能閾値管理表３３１の閾値とを比較する。性能判定モジュール３０６は、その比較結果から、性能判定対象のリソースに性能問題が発生しているかを判定する。性能問題が発生している場合、ステップ２２０３に進む。一方、性能問題が発生していない場合、ループ１を繰り返し実行する。

（ステップ２２０３）
　性能判定モジュール３０６は、ユーザ通知モジュール３０３を介して、性能判定対象のリソースに性能問題が発生していることを、システム管理者に通知する。通知方法として、一例として、ユーザ通知モジュール３０３は、性能判定モジュール３０６から判定結果を受け取り、ＧＵＩ表示モジュール３０１に通知内容を出力する。ＧＵＩ表示モジュール３０１は、その通知内容を例えばディスプレイに表示する。

　図２３は、ユーザから各種情報が入力されたときのフローチャートである。例えば、ＧＵＩ表示モジュール３０１は、性能閾値管理表３３１の検出感度指数を更新するための画面、性能要件管理表３３３の閾値を更新するための画面、及び、予備警告上限数管理表３３２の予備警告上限数を更新するための画面をディスプレイに表示する。

（ステップ２３０１）
　ユーザ入力モジュール３０２は、ＧＵＩ表示モジュール３０１を介して、上記の画面において入力された情報を受け取る。ユーザ入力モジュール３０２は、ＧＵＩ表示モジュール３０１を介して情報を受け取った場合、ステップ２３０２に進む。

（ステップ２３０２）
　ユーザ入力モジュール３０２は、入力内容に応じて、次のステップに進む。性能閾値管理表３３１の検出感度指数が入力された場合、ステップ２３０３に進む。性能要件管理表３３３の閾値が入力された場合、ステップ２３０５に進む。予備警告上限数管理表３３２の予備警告上限数が入力された場合、ステップ２３０６に進む。

（ステップ２３０３）
　ユーザ入力モジュール３０２は、入力された検出感度指数によって性能閾値管理表３３１を更新する。

（ステップ２３０４）
　ユーザ入力モジュール３０２は、予備警告上限数管理表３３２から予備警告上限数を削除する。

（ステップ２３０５）
　ユーザ入力モジュール３０２は、入力された閾値によって性能要件管理表３３３を更新する。

（ステップ２３０６）
　ユーザ入力モジュール３０２は、入力された予備警告上限数によって予備警告上限数管理表３３２を更新する。

　上述の図２３のフローは、図１６の閾値設定処理（ステップ１６１５）より前の任意のタイミングで実行される。上述のフロー後に、閾値設定処理（ステップ１６１５）が実行され、入力内容（検出感度指数又は予備警告上限数）に応じてリソースの閾値が設定される。

　上述した実施例によれば、未検出状態と過剰検出状態のリスクに対するシステム管理者の意向がトレードオフの関係により一意に決まらない点に着目し、その意向を容易かつ適切に閾値に対して反映する手段を提供することができる。また、システム管理者の意向を機械処理可能な形（検出感度指数又は予備警告上限数）で表現してシステム管理者に入力させ、閾値設定時の制約条件として使用する。したがって、システム管理者の意向が反映された適切な閾値を設定することができる。さらに、未検出状態及び過剰検出状態のリスクを左右する要因の変化に追従して、新たな閾値を自動的に設定することができる。

　また、性能情報収集モジュール３４０は、ホストとストレージとの間のデータ経路の冗長構成に基づいて、ホストとストレージとの間にある複数のリソース間の関連を示す情報を収集する。例えば、リソース間の関連を示す情報（リソース関連表３１０）は、その時間帯で使用されていた経路の情報に基づいて選択される。したがって、各時間帯において関係のないリソース間の関連情報を排除することができる。

　また、度数分布作成モジュール３０５は、根本原因解析（ＲＣＡ）を実行し、ストレージ側のリソースがホスト側の性能問題の原因であると判定された場合、当該リソースの性能値を第２の度数分布に反映する。ホスト側の性能問題の原因となっているリソースの性能値だけを第２の度数分布に反映させるため、リソース間の性能の依存関係を考慮した閾値の設定処理が可能となる。

　本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。上記実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることもできる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例の構成の一部について、他の構成を追加・削除・置換することもできる。

　上述では、ストレージ側の複数のリソースの各々について検出感度指数を設定し、複数のリソースごとに、第１の及び第２の度数分布を用いて、検出感度指数を満たすリソースの性能値の閾値を算出する例を説明したが、この例に限定されない。例えば、ユーザ入力モジュール３０２は、ストレージ側の複数のリソースの全てに適応される１つの検出感度指数を受付けてもよい。この場合においても、度数分布作成モジュール３０５は、複数のリソースごとに、第１の度数分布と第２の度数分布を作成し、閾値算出モジュール３０４は、複数のリソースごとに、第１の度数分布と第２の度数分布を用いて、前記１つの検出感度指数を満たすリソースの性能値の閾値を算出する。

　上述では、システム管理者が検出感度指数を指定し、閾値を設定する例を記載したが、この例に限定されない。別の形態として、ユーザ入力モジュール３０２が、ストレージ側のリソースの閾値の値を受付けてもよい。この場合、閾値算出モジュール３０４が、第１の度数分布及び第２の度数分布を用いて、入力された閾値に対応する検出感度指数を算出し、算出された検出感度指数をユーザ通知モジュール３０３を介して出力してもよい。この構成によれば、システム管理者は、自身が入力した閾値がどの程度の検出感度指数であるかを確認することができる。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　上述の実施例において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００　　…ストレージ装置
１２０　　…業務サーバ
１３０　　…第１の性能情報収集サーバ
１４０　　…第２の性能情報収集サーバ
１５０　　…性能管理サーバ（管理計算機）
２００　　…ストレージ装置
２２０　　…業務サーバＡ
２２１　　…業務サーバＢ
２４０　　…ＳＡＮスイッチＡ
２５０　　…ＳＡＮスイッチＢ
３００　　…計算機システム性能管理モジュール
３０１　　…ＧＵＩ表示モジュール
３０２　　…ユーザ入力モジュール
３０３　　…ユーザ通知モジュール
３０４　　…閾値算出モジュール
３０５　　…度数分布作成モジュール
３０６　　…性能判定モジュール
３１０　　…リソース関連表
３２０　　…リソース性能表
３３０　　…設定情報表
３４０　　…性能情報収集モジュール
３５０　　…記憶システム構成装置ソフトウェア

Claims

　ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムを管理する管理計算機であって、
　過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力モジュールと、
　前記ストレージ側のリソースの性能値の第１の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第２の度数分布を作成する度数分布作成モジュールと、
　前記第１の度数分布と前記第２の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出モジュールと、
を備える管理計算機。
　請求項１に記載の管理計算機において、
　前記閾値算出モジュールによって算出された前記閾値を設定する設定情報表と、
　前記設定情報表を用いて、前記ストレージ側の前記リソースの性能問題を判定する性能判定モジュールと、
をさらに備えることを特徴とする管理計算機。
　請求項１に記載の管理計算機において、
　前記入力モジュールは、前記ストレージ側の複数のリソースごとに前記検出感度指数を受付けるか、又は、前記複数のリソースの全てに適応される１つの前記検出感度指数を受付け、
　前記度数分布作成モジュールは、前記複数のリソースごとに、前記第１の度数分布と前記第２の度数分布を作成し、
　前記閾値算出モジュールは、前記複数のリソースごとに、前記第１の度数分布と前記第２の度数分布を用いて、前記検出感度指数を満たす前記リソースの前記性能値の閾値を算出することを特徴とする管理計算機。
　請求項１に記載の管理計算機において、
　前記ホストと前記ストレージとの間のデータ経路の冗長構成に基づいて、前記ホストと前記ストレージとの間にある複数のリソース間の関連を示す情報を収集する性能情報収集モジュールをさらに備えることを特徴とする管理計算機。
　請求項１に記載の管理計算機において、
　前記度数分布作成モジュールは、根本原因解析（Root cause analysis）を実行し、前記ストレージ側の前記リソースが前記ホスト側の性能問題の原因であると判定された場合、当該リソースの性能値を前記第２の度数分布に反映することを特徴とする管理計算機。
　請求項１に記載の管理計算機において、
　前記入力モジュールは、予備警告上限数の入力を受付けるようにさらに構成され、
　前記閾値算出モジュールは、前記第１の度数分布と前記第２の度数分布を用いて、前記予備警告上限数より小さい警告数となる前記リソースの前記性能値の閾値を算出することを特徴とする管理計算機。
　ホストと、前記ホストとネットワークを介して接続されているストレージとを備える計算機システムにおいて、前記ストレージ側のリソースの閾値を設定する閾値設定方法であって、
　入力モジュールによって、過剰検出数と未検出数の比率を表す検出感度指数の入力を受付ける入力ステップと、
　度数分布作成モジュールによって、前記ストレージ側の前記リソースの性能値の第１の度数分布と、前記ホストにおいて性能問題が発生している時間帯における前記ストレージ側の前記リソースの性能値の第２の度数分布とを作成する度数分布作成ステップと、
　閾値算出モジュールによって、前記第１の度数分布と前記第２の度数分布を用いて、前記検出感度指数を満たす前記リソースの性能値の閾値を算出する閾値算出ステップと、
を含む閾値設定方法。
　請求項７に記載の閾値設定方法において、
　前記閾値算出モジュールによって、前記閾値算出ステップによって算出された前記閾値を設定情報表に設定するステップと、
　性能判定モジュールによって、前記設定情報表を用いて、前記ストレージ側の前記リソースの性能問題を判定するステップと、
をさらに含むことを特徴とする閾値設定方法。
　請求項７に記載の閾値設定方法において、
　前記入力ステップは、前記ストレージ側の複数のリソースごとに前記検出感度指数を受付けるか、又は、前記複数のリソースの全てに適応される１つの前記検出感度指数を受付けることを含み、
　前記度数分布作成ステップは、前記複数のリソースごとに、前記第１の度数分布と前記第２の度数分布を作成することを含み、
　前記閾値算出ステップは、前記複数のリソースごとに、前記第１の度数分布と前記第２の度数分布を用いて、前記検出感度指数を満たす前記リソースの前記性能値の閾値を算出することを含むことを特徴とする閾値設定方法。
　請求項７に記載の閾値設定方法において、
　性能情報収集モジュールによって、前記ホストと前記ストレージとの間のデータ経路の冗長構成を考慮して、前記ホストと前記ストレージとの間にある複数のリソース間の関連を示す情報を収集するステップをさらに含むことを特徴とする閾値設定方法。
　請求項７に記載の閾値設定方法において、
　前記度数分布作成ステップは、根本原因解析（Root cause analysis）を実行し、前記ストレージ側の前記リソースが前記ホスト側の性能問題の原因であると判定された場合、当該リソースの性能値を前記第２の度数分布に反映することを含むことを特徴とする閾値設定方法。
　請求項７に記載の閾値設定方法において、
　前記入力ステップは、予備警告上限数の入力を受付けることをさらに含み、
　前記閾値算出ステップは、前記第１の度数分布と前記第２の度数分布を用いて、前記予備警告上限数より小さい警告数となる前記リソースの前記性能値の閾値を算出することを含むことを特徴とする閾値設定方法。