JPWO2005017736A1

JPWO2005017736A1 - ディスクアレイ装置におけるボトルネックを検出するシステムおよびプログラム

Info

Publication number: JPWO2005017736A1
Application number: JP2005513194A
Authority: JP
Inventors: 匡史加藤; 豊日吉; 寿一坂井; 直樹平林; 貴明大和; 智成堀越
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-08-19
Filing date: 2004-08-17
Publication date: 2007-11-01
Also published as: WO2005017736A1; US20060106926A1; WO2005017735A1

Abstract

資源使用率だけを基にボトルネックを検出・特定する従来の方法では、本来解消すべきボトルネックを見逃し、未発生のボトルネックに対してボトルネック解消処理を行う場合があるという課題を有していた。そこで、クライアント端末にサービスを提供するサーバと、サーバが使用するデータが格納されるディスクアレイ装置と、ディスクアレイ装置のボトルネックを検出する監視端末とがネットワークを介して接続されるシステムを提供する。ディスクアレイ装置あるいはサーバは、サーバが発行するＩＯ要求の数と各ＩＯ要求を処理するのに要した時間とディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を算出する。監視端末は、パフォーマンス情報に含まれる処理時間をＩＯ要求数で割った平均応答時間に基づき基準点を定める。そして、基準点以前の所定期間における資源使用率に基づき、資源をボトルネックと特定することを特徴とする。

Description

本発明は、ディスクアレイ装置とそのディスクアレイ装置に対しデータの入出力を行うサーバを含むシステムに関する。

現在業務システムとして、ネットワークを介してクライアント端末にサービスを提供するサーバと、そのサーバにて稼動するアプリケーションプログラムが使用する各種データを格納するディスクアレイ装置とが接続されたシステムが随所で使用されている。このようなシステムでは、アプリケーションの処理に伴う時間が増大するとクライアント端末に提供するサービスを低下させてしまう。そこで、アプリケーションの処理に伴う時間が一定の基準以上となるよう、システムの性能に関する様々な情報（パフォーマンス情報）を監視し、アプリケーションの処理を遅らせる原因になり得る箇所（ボトルネック）が発生していないか検出する処理が実行され、ボトルネックが検出された場合、ボトルネックを特定し、そのボトルネックに対してボトルネックを解消する処理が行われている。

ディスクアレイ装置に関するボトルネックとしては、ディスアレイ装置内のＣＰＵ、物理ディスク等の資源がある。従来は、ディスクアレイ装置におけるボトルネックの検出・特定が一体として実行され、所定時間に資源が使用された時間の累積値を、その所定時間で割ることにより算出される資源使用率を利用し、資源使用率が閾値を超える場合、その資源がボトルネックであると特定していた。

しかしながら、資源使用率の上昇とボトルネックの発生は必ずしも対応しない場合がある。一例として、資源としてディスクが選択された場合を説明する。

図１は、アプリケーションの処理に伴うディスク使用率とボトルネックの発生を説明するための図である。縦軸が経過時間１１を表し、横軸がアプリケーションの処理に伴ってサーバにより発行される書き込み、読み込み等の入出力（ＩＯ）要求を処理するのに要する時間１２（応答時間）を表す。図１Ａは、ＩＯ要求がある時間に集中して到着する場合であり、図１Ｂは、ＩＯ要求が比較的均等に到着する場合である。

図１Ａでは、ディスクアレイ装置における処理能力以上のＩＯ要求が短時間に集中して到着した結果、ボトルネックが発生する例である。ＩＯ要求の処理が済まないうちに、次々とＩＯ要求が到着するため、後から到着したＩＯ要求ほど処理に時間を要している。図１Ｂでは、ＩＯ要求が順調に処理されており、ボトルネックの発生は見られない。

応答時間の累積値を所定時間に到着したＩＯ要求数で割った平均応答時間と、その所定時間に占めるディスクが使用された時間を合計した累積時間の割合であるディスク使用率をそれぞれ算出してみると、図１Ａでは、平均応答時間が３５ミリ秒（ｍｓ）、ディスク使用率が５３％であるのに対し、図１Ｂでは、平均応答時間１４ｍｓ、ディスク使用率が６７％になる。

ところが、従来の資源使用率を監視してボトルネックを検出する方法では、ディスク使用率の閾値を６０％とした場合、ディスクがボトルネックとして検出されるのは、図１Ｂの場合である。しかし、実際は図１Ｂの場合ボトルネック解消処理を行う必要はなく、ボトルネック解消処理が必要なのは図１Ａの場合である。資源としてディスク以外のＣＰＵや他の資源を監視する場合にも資源使用率と応答時間に関して図１と同じことが言える。

因みに関連する従来技術としては、ＩＯ競合を解消するディスクアレイ装置（特許文献１）等がある。
特開２０００−２１５００７号公報

このように、資源使用率だけを基にボトルネックを検出・特定する従来の方法では、本来解消すべきボトルネックを見逃し、未発生のボトルネックに対してボトルネック解消処理を行う場合があるという課題を有していた。

そこで本発明の目的は、ボトルネックの発生を適切に検出することが可能なシステムおよびプログラムを提供することにある。

上記目的は、ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置と、前記ネットワークを介して前記ディスクアレイ装置に接続され、前記ディスクアレイ装置のボトルネックを検出する監視端末を有するシステムであって、前記ディスクアレイ装置あるいは前記サーバは、前記サーバから前記ディスクアレイ装置に対して発行されるＩＯ要求の数と各ＩＯ要求を処理するのに要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を算出して前記監視端末に定期的に通知し、前記監視端末は、前記定期的に通知されるパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間が、第一の所定期間を超える時刻を基準点とし、前記基準点以前の第二の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定することを特徴とする請求の範囲第１項に記載のシステムを提供することにより達成される。

また上記目的は、請求の範囲第１項において、前記監視端末は、前記平均応答時間が前記第一の閾値を越える期間が、連続して前記第一の所定期間を超える時刻を基準点とすることを特徴とする請求の範囲第２項に記載のシステムを提供することにより達成される。

また上記目的は、請求の範囲第１項において、前記監視端末は、前記平均応答時間が前記第一の閾値を超える期間を第三の所定期間累積した結果が、前記第一の所定期間を超える時刻を基準点とすることを特徴とする請求の範囲第３項に記載のシステムを提供することにより達成される。

また上記目的は、請求の範囲第３項において、前記監視端末は、前記第三の所定期間毎に前記累積結果を求めることを特徴とする請求の範囲第４項に記載のシステムを提供することにより達成される。

また上記目的は、請求の範囲第３項において、前記監視端末は、前記第三の所定期間より短い間隔で前記累積結果を求めることを特徴とする請求の範囲第５項に記載のシステムを提供することにより達成される。

また上記目的は、請求の範囲第３項において、前記監視端末は、前記第三の所定期間内に前記平均応答時間が、前記第一の閾値より低い第三の閾値を下回った場合、累積された期間を一旦ゼロにリセットすることを特徴とする請求の範囲第６項に記載のシステムを提供することにより達成される。

また上記目的は、請求の範囲第１項において、前記監視端末は、前記基準点以前であって、更に前記平均応答時間が第四の閾値を超えた期間である第四の所定期間に占める、前記資源使用率が前記資源毎に設定された前記第二の閾値を超える期間の割合が、前記所定の割合を超える場合に、該資源をボトルネックと特定することを特徴とする請求の範囲第７項に記載のシステムを提供することにより達成される。

また上記目的は、ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置とを有するシステムに含まれ、該ネットワークを介して前記ディスクアレイ装置に接続された端末にて実行されるプログラムであって、前記端末に、前記サーバあるいは前記ディスクアレイ装置により定期的に通知される、前記ディスクアレイ装置に対して前記サーバから発行されるＩＯ要求の数と各ＩＯ要求の処理に要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を受信させ、前記受信したパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間が、第一の所定期間を超える時刻を基準点とし、前記基準点以前の第二の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定させることを特徴とする請求の範囲第８項に記載のプログラムを提供することにより達成される。

また上記目的は、ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置と、前記ネットワークを介して前記ディスクアレイ装置に接続され、前記ディスクアレイ装置のボトルネックを検出する監視端末を有するシステムであって、前記ディスクアレイ装置あるいは前記サーバは、前記サーバから前記ディスクアレイ装置に対して発行されるＩＯ要求の数と各ＩＯ要求を処理するのに要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を算出して前記監視端末に定期的に通知し、前記監視端末は、前記定期的に通知されるパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間に基づき基準点となる時間を決定し、前記基準点以前の第一の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定することを特徴とするシステムを提供することにより達成される。

より好ましい実施例によれば、基準点は、平均応答時間が第一の閾値を超える期間が、連続して第二の所定期間を超える時刻である。また、基準点は、平均応答時間が第一の閾値を超える期間を第三の所定期間累積した合計が第二の所定期間を超える時刻でもよい。更に、基準点は、平均応答時間が連続して第一の閾値を超える期間において、時間を横軸に、平均応答時間を縦軸に配置し、時間に対する平均応答時間をプロットしてできる波形と、平均応答時間が第一の閾値を示す横線とで囲まれる部分の面積が、所定の面積を超える時刻とすることもできる。また、基準点は、時間に対する平均応答時間をプロットしてできる波形と、平均応答時間が第一の閾値を示す横線とで囲まれる部分の面積を第三の所定期間累積した合計が、所定の面積を超える時刻であってもよい。

また上記目的は、ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置とを有するシステムに含まれ、該ネットワークを介して前記ディスクアレイ装置に接続された端末にて実行されるプログラムであって、前記端末に、前記サーバあるいは前記ディスクアレイ装置により定期的に通知される、前記ディスクアレイ装置に対して前記サーバから発行されるＩＯ要求の数と各ＩＯ要求の処理に要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を受信させ、前記受信したパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間に基づき基準点となる時間を決定させ、前記基準点以前の第一の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定させることを特徴とするプログラムを提供することにより達成される。

応答時間を基にボトルネックの検出を実施し、特定条件として応答時間とは異なる資源使用率を用いることで、２つの基準によってボトルネックの特定を行うことができ、従来よりもボトルネックの検出を適切に行うことが可能である。

アプリケーションの処理に伴うディスク使用率とボトルネックの発生を説明するための図である。本発明の実施形態におけるシステム全体の構成例を示す図である。サーバの構成例を示す図である。ディスクアレイ装置の構成例を示す図である。本発明の実施形態におけるボトルネック検出方法を説明するフローチャートである。基準点条件（その１）を説明する図である。基準点条件（その２）を説明する図である。累積期間の算出法の変形例である。累積期間が算出される間隔の例を説明する図である。ボトルネックを特定する条件（その１）を説明するための図である。ボトルネックを特定する条件（その２）を説明するための図である。基準点条件（その３）を説明する図である。基準点条件（その４）を説明する図である。

以下、本発明の実施の形態について図面に従って説明する。しかしながら、本発明の技術的範囲はかかる実施の形態に限定されるものではない。

図１に示されるように、ボトルネックが発生すると、ＩＯ要求の処理に要する応答時間が増大する。従って、ボトルネックの発生を検出するには応答時間を監視するのがよい。そこで本発明の実施形態においては、従来のように資源使用率を監視し、資源使用率によりボトルネックを検出するのではなく、応答時間に対して設定された条件に基づき、ボトルネックを検出する基準点を決定する。そして、基準点以前のパフォーマンス情報の履歴を参照し、資源使用率に対して設定された特定条件に基づき、ボトルネックを特定するものである。

図２は、本発明の実施形態における一般的なシステムの構成例を示す図である。サーバ２２は、ネットワーク２１を介してクライアント端末２４に対しサービスを提供する。サーバ２２上で稼動するアプリケーションに応じて、ウェブサーバ、メールサーバ、データベースサーバ等さまざまなサービスが提供される。監視端末２５は、サーバ２２やディスクアレイ装置２３の動作状態を監視するための端末である。

ＦＣ（ＦｉｂｅｒＣｈａｎｎｅｌ）スイッチ等を含む構成のＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）２６を介してサーバ２２に接続されたディスクアレイ装置２３には、上記のアプリケーションに使用されるさまざまなデータが格納される。クライアント端末からの要求に応じてサーバ２２は、ディスクアレイ装置２３に格納されたデータにアクセスし、アプリケーションに基づく処理結果をクライアント端末２４に応答する。

図３は、サーバ２２の構成例を示す図である。基本的な構成は、クライアント端末２４、監視端末２５でも同様である。サーバ２２は、ネットワークを介した通信を処理するネットワークインタフェース３６（ネットワークＩＦ）と、サーバ２２に接続するディスクアレイ装置２３、ＦＣスイッチ等の周辺機器とのデータ交換を処理する入出力ＩＦ３８と、ＯＳやアプリケーションがインストールされる内蔵ディスク３７と、実行のために読み出されたＯＳやアプリケーションが格納され、また処理に必要なデータが格納されるメモリ３５と、サーバ２２内の各装置をメモリに格納されたプログラムに従って制御するＣＰＵ３４とを有する。サーバ２２内の各装置は内部バス３９により接続される。

図４は、ディスクアレイ装置２３の構成例を示す図である。ディスクアレイ装置２３は、ネットワークを介した通信を処理するネットワークＩＦ４３と、ディスクアレイ装置２３に接続するサーバ２２、ＰＣスイッチ等の周辺機器４０とのデータ交換を処理する入出力ＩＦ４５と、データを格納するディスク４７を複数含むディスク群４６と、ディスクアレイ装置２３を制御するプログラムであるファームウェアが格納され、また処理に必要なデータが格納されるメモリ４２と、ディスクアレイ装置２３内の各装置をファームウェアに従って制御するＣＰＵ４１とを有する。ディスクアレイ装置２３内の各装置は内部バス４４により接続される。

続いて本発明の実施形態におけるボトルネック検出方法を説明する。本発明の実施形態においては、応答時間に対して設定された条件に基づき、ボトルネックを検出する基準点を決定する。そして、基準点以前のパフォーマンス情報の履歴を参照し、資源使用率に対して設定された特定条件に基づき、ボトルネックを特定するものである。

図５は、本発明の実施形態におけるボトルネック検出方法を説明するフローチャートである。例えば、監視端末２５のメモリ３６に格納されたプログラムを実行することにより、本発明のボトルネック検出方法が実施される。ここでは、図２の監視端末を用いてディスクアレイ装置のボトルネックを検出する様子を、図３、図４に示される各装置の構成例を参照して説明する。

まず、ボトルネックを検出する基準点を設定する際の応答時間に関する条件（基準点条件）を図２の監視端末２５に設定する（Ｓ１）。本実施形態においては、応答時間が基準点条件を満たすことにより、ボトルネックの検出が実行され、基準点以前のパフォーマンス情報の履歴を参照し、ボトルネックが特定される。基準点条件としては、例えば、平均応答時間が連続して所定の閾値を超える期間が所定期間に達することや、第一の所定期間内に平均応答時間が第一の閾値を超える期間の累積期間が第二の所定期間に達すること等と設定することができる。なお基準点条件については、図６から図９にて後述する。

これらの条件は、監視端末２５に含まれるメモリ３５や内蔵ディスク３７等の記憶手段に予め格納される。例えば、複数の条件にそれぞれ、基準点条件を特定する数字を対応させ、基準点条件に対応する変数にその数字を格納する。すると、基準点条件に対応する変数に格納された数字を読み出すことにより、条件を決定することができる。条件が１つのみであれば、自動的にその条件が使用される。

次に、ボトルネックを特定する条件（特定条件）をディスクアレイ装置２３に含まれる資源毎に監視端末２５に設定する（Ｓ２）。特定条件としては、例えば、所定期間に占める、ある資源の使用率がその資源に設定された所定の閾値を超える期間の割合が所定値を越えること等と設定することができる。基準点条件同様これらの条件は、監視端末２５に含まれるメモリ３５や内蔵ディスク３７等の記憶手段に変数として格納され、その変数を読み出すことにより特定条件が決定されるよう構成してもよい。なお特定条件については、図９、図１０にて後述する。

次に、監視端末２５にてディスクアレイ装置２３に関するパフォーマンス情報を取得する（Ｓ３）。ディスクアレイ装置２３においては、定期的にファームウェアをＣＰＵ４１が実行することにより、少なくともＩＯ要求数、ＩＯ応答時間、ディスクアレイ装置２３に含まれる資源の資源使用率を含むパフォーマンス情報を取得し、メモリ４２等の記憶手段に蓄積することができる。

また、サーバ２２やディスクアレイ装置２３にＳＮＭＰ（ＳｉｍｐｌｅＮｅｔｗｏｒｋＭａｎａｇｅｍｅｎｔＰｒｏｔｏｃｏｌ）エージェント機能を持つプログラムを組み込み、監視端末２５にＳＮＭＰマネージャ機能を持つプログラムを組み込むことで、ネットワークを介して、サーバ２２やディスクアレイ装置２３に蓄積されたパフォーマンス情報を定期的に監視端末２５にて取得し、監視端末２５に含まれる内蔵ディスク３７等の記憶手段に格納することができる。こうして、ステップＳ３において、監視端末２５にてディスクアレイ装置２３に関するパフォーマンス情報を取得することができる。

そして、監視端末２５にて、取得したパフォーマンス情報を基にボトルネックを検出するか判定し、ボトルネックの検出を実行する場合は基準点を決定する（Ｓ４）。ステップＳ４のボトルネック検出判定は、ステップＳ３で取得したパフォーマンス情報に含まれる応答時間がステップＳ１で設定された基準点条件を満たすかを判定すればよい。この判定の具体例については図６から図９に後述する。

ステップＳ４で基準点条件を満たさない場合、ボトルネック検出処理は行われないので、ステップＳ８に進み、一定時間待機した後、再びパフォーマンス情報を取得し（Ｓ３）、ボトルネックを検出するかを判定する（Ｓ４）処理を繰り返す。ステップＳ４で基準点条件を満たす場合、条件を満たす時刻を基準点と決定し、監視端末２５にて、ステップＳ３で取得したパフォーマンス情報を基に資源毎にその資源がボトルネックかを判定する（Ｓ５）。ステップＳ５では、取得したパフォーマンス情報に含まれる資源毎の資源使用率がステップＳ２で設定された特定条件を満たすかを判定すればよい。この判定の具体例については図１０および図１１に後述する。

ステップＳ５で条件を満たす場合、監視端末２５にてその資源をボトルネックと特定する（Ｓ６）。ボトルネックである資源が特定された後の処理はさまざまである。例えば、メールでシステム管理者に通知することもできるし、監視端末２５に接続された図示しないディスプレイ装置にその資源がボトルネックであることを表示することもできるし、自動的な処理をさせることもできる。自動的な処理をより具体的に述べると、例えば、ＣＰＵやディスクをシステム構成から切り離したり、ディスクを停止させたり、ＣＰＵの冷却ファン速度を上昇させたりすることである。

ステップＳ５で条件を満たさない場合、監視端末にてディスクアレイ装置２３に含まれるすべての資源についてステップＳ５の判定が完了したかを判定する（Ｓ７）。未だ、判定の行われていない資源がある場合（ステップＳ７でＮｏの場合）、ステップＳ５に戻り処理が続行する。すべての資源についてステップＳ５の判定が完了すれば（ステップＳ７でＹｅｓの場合）、ステップＳ８に進み、一定時間経過した後、再びパフォーマンス情報を取得し（Ｓ３）、ボトルネックを検出するかを判定する（Ｓ４）。

以上のボトルネック検出処理により、監視端末２５にて、定期的にパフォーマンス情報を取得し、ボトルネックの検出を行うことができる。ボトルネックを検出するかを判定するのに使用されるのは、ボトルネックの発生に連動して時間が増大する応答時間であり、ボトルネックの発生とは必ずしも連動しない資源使用率を利用する従来例よりもボトルネックの検出を適切に行うことが可能となる。またボトルネックを特定する条件として使用されるのは資源使用率であり、ボトルネック検出を実施する条件（基準点条件）として応答時間を用いることにより、単一のパフォーマンス情報（資源使用率）のみを用いる従来例よりも、ボトルネックの特定をより適切に行うことが可能となる。

なお、本発明の実施形態においては、監視端末２５にて、ボトルネック検出処理を実行する様子を説明したが、ネットワーク２１を介してディスクアレイ装置２３に接続されていればどの端末においても実行することが可能である。従ってサーバ２２にて実行することもでき、その場合新たなハードウェアを導入することなく本発明の方法を適用することができる。

続いて、ステップＳ１で設定される基準点条件について、いくつかの例を用いて説明する。まず、基準点条件として、平均応答時間が連続してある閾値を超える期間が所定期間に達することと設定することができる。

図６は、基準点条件（その１）を説明する図である。期間と共に変化する平均応答時間の一例を示す図６のグラフを基に、その条件を適用してボトルネック検出処理が実行される場合を説明する。

図６では、閾値として３０ｍｓ、所定期間として６００秒を採用する。つまり、平均応答時間が３０ｍｓを超える期間が６００秒連続した場合、図５のステップＳ５以降の処理が開始される。

図６で最初に連続して平均応答時間が３０ｍｓを超えるのは、区間６１である。しかし区間６１の期間合計（累積期間）は、所定期間の６００秒に満たない。そこで、区間６１では、ボトルネックの検出は実施されない。次に連続して平均応答時間が３０ｍｓを超える区間６２では、６００秒以上平均応答時間が閾値を超える状態が連続するため、累積期間が６００秒を超える時刻６３が基準点と決定され、ボトルネックの検出が実行される。

連続して平均応答時間が閾値を超えた期間の合計が所定期間に達するのは、平均応答時間の高い状態が持続していることを意味し、ボトルネックが発生している可能性が高い。従って、基準点条件をこのように設定することでボトルネックをより適切に検出することができる。

基準点条件の別の条件として、第一の所定期間内に平均応答時間がある閾値を超える期間の合計（累積期間）が、第二の所定期間に達することと設定することができる。図７は、基準点条件（その２）を説明する図である。期間と共に変化する平均応答時間の一例を示す図７のグラフを基に、その条件を適用してボトルネック検出処理が実行される場合を説明する。

図７では、第一の所定期間として３６００秒、第二の所定期間として、６００秒、閾値として３０ｍｓを採用する。つまり、３６００秒の内、平均応答時間が３０ｍｓを超える期間の合計が６００秒に達した場合、図５のステップＳ５以降の処理が開始される。

図７で３６００秒に区切られた最初のブロック７１では、平均応答時間が３０ｍｓを超える期間の合計は、第二の所定期間の６００秒に満たない。そこで、ブロック７１では、ボトルネックの検出は実行されない。次の３６００秒（ブロック７２）では、累積期間が６００秒を超える時、ボトルネックの検出が実行される。

ある期間内に平均応答時間が閾値を超えた期間の合計が（第二の）所定期間に達するのは、平均応答時間の高い状態が持続していることを意味し、ボトルネックの発生の可能性が高い。従って、基準点条件をこのように設定することでボトルネックをより検出しやすくすることができる。更に、図７の設定にすると、連続して平均応答時間が閾値を超える区間が短いため、図６の設定ではボトルネックの検出が行われない場合でも、ボトルネックの検出が実行されることがあり、よりボトルネックの検出精度を上げることができる。

図８は、図７における累積期間の算出法の変形例である。図７においては、単純に平均応答時間が閾値を超える期間を加算するが、図８では、第一の閾値より低い第二の閾値を用意し、平均応答時間が第二の閾値を下回る場合、それまでの累積期間をゼロにするようにして累積期間を算出するものである。

図８は、３６００秒に区切られたあるブロックにおける、期間と共に変化する平均応答時間の一例を示すグラフである。第二の閾値として５ｍｓを採用する。他の条件は図７と同様とする。今、平均応答時間が第一の閾値（３０ｍｓ）を越える区間８１で４００秒が累積される。しかし、その後平均応答時間が第二の閾値を下回るとき、それまでの累積期間がゼロにリセットされる。その後再び、平均応答時間が第一の閾値を超える区間８２が２００秒連続するが、累積値がリセットされているため、第二の所定期間には達しない（ちなみに累積期間がリセットされていなければこの時点が基準点と決定され、ボトルネックの検出が実施される）。

図８において平均応答時間が第二の閾値を下回る場合、平均応答時間が変動していることを意味する。ディスクアレイ装置２３においてボトルネックが発生する場合であれば、平均応答時間が高い状態が維持されるため、平均応答時間に変動が生じている場合、ディスクアレイ装置２３以外でボトルネックが発生している可能性を意味し、図８の累積期間算出法にはこれを除外する効果がある。

図９は、累積期間が算出される間隔の例を説明する図である。言い換えると、図７における第一の所定期間の取り方の変形例を説明する図である。図７においては、第一の所定期間（３６００秒）を互いに重ならない範囲として、３６００秒ごとに区切ったブロックが現れたが、図９では、３６００秒のブロックを少しずつずらして第一の所定時間を取るものである。

図９Ａは、図７と同じ方法を図に表したものである。３６００秒のブロック９１が互いに重ならないように位置する。図９Ｂは、３６００秒のブロック９１が少しずつずれて位置する。ずれの量は、均一でも不均一でも構わない。図９Ｂのようにブロックを取ることで、ボトルネックの検出処理が行われる回数を増やすことができ、よりボトルネックの検出精度を上げることができる。

次に、ステップＳ２で設定される特定条件について、いくつか例を用いて説明する。ボトルネックを特定する条件としては、所定期間内に資源使用率が第一の閾値を越える期間の合計時間が、その所定時間に占める割合（影響度）を算出し、その割合が所定値以上であることと設定することができる。

まず、所定期間の一例としては、単純に基準点から所定期間前までの時間範囲とすることである。期間と共に変化する平均応答時間の一例を示す図１０のグラフに基づき、その条件を適用してボトルネック検出処理が特定される場合を説明する。

図１０では、所定期間として３６００秒を採用する。資源毎に設定される資源使用率の閾値としては、ＣＰＵ使用率の閾値として８０％、ディスク使用率の閾値として６０％を採用する。そして、影響度に対する所定値として８０％を採用する。つまり、基準点から３６００秒前までの期間（影響度を見る範囲）において、ＣＰＵ使用率が８０％を超えた期間の合計が影響度を見る範囲全体の８０％以上であればＣＰＵがボトルネックと特定され、同様にディスク使用率が６０％を越えた期間の合計が影響度を見る範囲全体の８０％以上であればディスクがボトルネックと特定される。

図１０では、基準点から３６００秒前までにおいて、ＣＰＵ使用率が８０％を超えた区間１０２が、影響度を見る範囲１０１に占める割合が２０％であり、ディスク使用率が６０％を超えた区間１０３が、影響度を見る範囲１０１に占める割合が９５％であることがわかる。従って、影響度に対して設定された所定値（８０％）を超えるディスクがボトルネックであると特定される。

所定期間の別の一例としては、基準点から所定期間前までの履歴において、平均応答時間が第二の閾値を超える時間範囲とすることである。期間と共に変化する平均応答時間の一例を示す図１１のグラフに基づき、その条件を適用してボトルネックが特定される場合を説明する。

図１１では、第二の閾値として３０ｍｓを採用する。それ以外は図１０の場合と同様とする。図１１では、基準点から３６００秒前までにおいて、更に、平均応答時間が第二の閾値（３０ｍｓ）を超える時間範囲を影響度を見る範囲として抜き出す。すると２つの区間１１１、１１２が該当する。

そして、影響度を見る範囲（区間１１１、１１２）にて、ＣＰＵ使用率が８０％を超えた区間１１３が、影響度を見る範囲（区間１１１、１１２）に占める割合が２０％であり、ディスク使用率が６０％を超えた時間（区間１１４、１１５）の合計が、影響度を見る範囲（区間１１１、１１２）に占める割合が８５％であることがわかる。従って、影響度に対して設定された所定値（８０％）を超えるディスクがボトルネックであると特定される。

以上、本発明の実施形態をまとめると、ボトルネックと特定される資源は、基準点で応答時間が高い状態が継続しており、基準点以前に資源使用率も高い状態であった資源である。こうして、応答時間を基にボトルネックの検出を実施し、特定条件として応答時間とは異なる資源使用率を用いることで、２つの基準によってボトルネックの特定を行うことができ、従来よりもボトルネックの検出を適切に行うことが可能である。

なお、上記図６から図１１にて使用される数値は一例に過ぎず、実施の形態に合わせて自由に設定することが可能である。また、ディスクアレイ装置２３とサーバ２２間の接続法はＳＡＮを介す方法に限定されず、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ケーブル等を用いたダイレクト接続でも本発明の適用が可能である。

また、本発明の実施形態においては、ディスクアレイ装置２３におけるボトルネックを検出するために、ディスクアレイ装置２３に蓄積されるパフォーマンス情報を用いたが、サーバ２２でも、ＯＳに備えられたコマンド等を定期的にＣＰＵ３４が実行することにより、少なくともＩＯ要求数、ＩＯ応答時間、ディスクアレイ装置２３に含まれる資源の資源使用率を含むパフォーマンス情報を取得し、パフォーマンス情報を内蔵ディスク３７等の記憶手段に蓄積することができる。従って、サーバに蓄積されるパフォーマンス情報を利用することも可能である。

更に、本発明のボトルネック検出方法は、監視端末２５、あるいはサーバ２２にて実行されるプログラムとして実施することも可能である。

ここで更に、ボトルネックの検出を開始するための条件である、基準点条件の変形例について説明する。図６から図９に説明した基準点条件においては、平均応答時間が連続して所定の閾値を超える期間が所定期間に達することや、第一の所定期間内に平均応答時間が第一の閾値を超える期間の累積期間が第二の所定期間に達することを一例として挙げた。ここでは、平均応答時間が閾値を超える部分の面積が所定面積に達する場合や、所定期間内に平均応答時間が閾値を超える部分の面積（累積面積）が所定面積に達する場合に、ボトルネックの検出が開始される。

図１２は、基準点条件（その３）を説明する図である。期間と共に変化する平均応答時間の一例を示す図１２のグラフを基に、平均応答時間が連続してある閾値を超える部分の面積が所定面積に達すると、ボトルネック検出処理が実行される場合を説明する。

図１２では、閾値として３０ｍｓを採用する。つまり、平均応答時間が３０ｍｓを超える期間の平均応答時間と、閾値である３０ｍｓを示す横線とで囲まれる部分の面積が所定面積に達する場合、図５のステップＳ５以降の処理が開始される。

平均応答時間と、閾値である３０ｍｓを示す横線とで囲まれる部分の面積は、平均応答時間を関数により表せる場合（近似モデルにより近似される場合も含む）には、平均応答時間が３０ｍｓを超える期間の最初から最後までの積分値として求めることができる。また、図１２に示されるように、微小区間毎の長方形による近似により面積を求めても良い。

図１２で最初に連続して平均応答時間が３０ｍｓを超えるのは、区間１２１である。しかし区間１２１から算出される面積は、所定面積Ｓに満たない。そこで、区間１２１では、ボトルネックの検出は実施されない。

次に連続して平均応答時間が３０ｍｓを超える区間１２２から算出される面積は、所定面積を超える。従って、平均応答時間が３０ｍｓを超える期間の最後の時刻が基準点と決定され、ボトルネックの検出が実行される。なお、基準点は平均応答時間が３０ｍｓを超える期間のどの時刻が選択されてもよい。

平均応答時間が所定の閾値を超える期間は短いが、その応答遅延の程度が大きい場合には、ボトルネックが発生している可能性が高い。この面積方式を使用すると、平均応答時間が所定の閾値を超える期間が短いため、図６から図９に示す方式ではボトルネックの検出が行われない場合にも、ボトルネックの検出を開始することができる。つまり、短い時間帯で応答時間が極端に遅い場合であってもボトルネックの検出を開始することができ、基準点条件をこのように設定することでボトルネックをより適切に検出することができる。

図１３は、基準点条件（その４）を説明する図である。期間と共に変化する平均応答時間の一例を示す図１３のグラフを基に、所定期間内に平均応答時間が閾値を超える部分の面積が所定面積に達するとボトルネックの検出が実行される場合を説明する。

図１３では、所定期間として３６００秒、閾値として３０ｍｓを採用する。つまり、３６００秒の内、平均応答時間が３０ｍｓを超える期間における、平均応答時間が３０ｍｓを超える期間の平均応答時間と、閾値である３０ｍｓを示す横線とで囲まれる部分の面積が所定面積に達する場合、図５のステップＳ５以降の処理が開始される。

図１３で３６００秒に区切られた最初のブロック１３１では、平均応答時間が３０ｍｓを超える期間が２箇所あり、平均応答時間と、閾値である３０ｍｓを示す横線とで囲まれる部分の面積は、それぞれＳ１１、Ｓ１２であるとする。そして、その合計（Ｓ１１＋Ｓ１２）は所定面積を超えない。そこで、ブロック１３１では、ボトルネックの検出は実行されない。

次の３６００秒（ブロック１３２）では、平均応答時間が３０ｍｓを超える期間から算出される面積の合計（Ｓ２１＋Ｓ２２）が所定面積以上となる。従って、平均応答時間が３０ｍｓを超える期間の最後の時刻が基準点と決定され、ボトルネックの検出が実行される。なお、基準点は平均応答時間が３０ｍｓを超える期間のどの時刻が選択されてもよい。

ある期間内に平均応答時間が閾値を超えた期間から算出される面積の合計が所定面積に達するのは、短い時間帯で応答時間が極端に遅い場合が発生している可能性を示唆し、ボトルネックが発生している可能性が高い。従って、基準点条件をこのように設定することでボトルネックをより検出しやすくすることができる。更に、図１３の設定にすると、連続して平均応答時間が閾値を超える区間が短いため、図１２の設定ではボトルネックの検出が行われない場合でも、ボトルネックの検出が実行されることがあり、よりボトルネックの検出精度を上げることができる。

図６から図９に示した基準点条件では、閾値（例えば３０ｍｓ）を大きく超える現象に対する配慮を行っていない。つまり、所定の閾値を超える期間は短いが、その応答遅延の程度が大きい場合には、ボトルネックが発生している可能性が高いものの、それを適切に検出できない事態も起こりうる。一方、図１２、図１３に示される基準点条件によれば、短い時間帯で応答時間が極端に遅い場合であってもボトルネックの検出を開始することができ、より適切にボトルネックを検出することができるようになる。

また、図１３における累積面積の算出法として、図８に示されるように、第一の閾値（例えば３０ｍｓ）より低い第二の閾値（５ｍｓ）を用意し、平均応答時間が第二の閾値を下回る場合、それまでの累積面積をゼロにするようにして累積面積を算出してもよい。また、累積面積を算出する間隔として、図９Ｂに示されるように、所定長（例えば３６００秒）のブロックを少しずつずらして所定期間を取ることもできる。

図１２、図１３に示すような、面積に基づくボトルネック検出の開始法を採用しても、その後の処理は図５に示される場合と変わらずに行うことができる。つまり、ボトルネックの判断は、図１０、図１１に示されるように行って良い。また、図１２、図１３に示される変形例であっても、図１〜図１１に示される実施形態同様の効果を得ることができる。

本発明のボトルネック検出方法は、例えば、ネットワークを介してクライアント端末にサービスを提供するサーバと、そのサーバにて稼動するアプリケーションプログラムが使用する各種データを格納するディスクアレイ装置とが接続されたシステム等に適用が可能である。

本発明の保護範囲は、上記の実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶものである。

Claims

ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置と、前記ネットワークを介して前記ディスクアレイ装置に接続され、前記ディスクアレイ装置のボトルネックを検出する監視端末を有するシステムであって、
前記ディスクアレイ装置あるいは前記サーバは、前記サーバから前記ディスクアレイ装置に対して発行されるＩＯ要求の数と各ＩＯ要求を処理するのに要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を算出して前記監視端末に定期的に通知し、
前記監視端末は、前記定期的に通知されるパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間が、第一の所定期間を超える時刻を基準点とし、前記基準点以前の第二の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定することを特徴とするシステム。
請求項１において、
前記監視端末は、前記平均応答時間が前記第一の閾値を越える期間が、連続して前記第一の所定期間を超える時刻を基準点とすることを特徴とするシステム。
請求項１において、
前記監視端末は、前記平均応答時間が前記第一の閾値を超える期間を第三の所定期間累積した結果が、前記第一の所定期間を超える時刻を基準点とすることを特徴とするシステム。
請求項３において、
前記監視端末は、前記第三の所定期間毎に前記累積結果を求めることを特徴とするシステム。
請求項３において、
前記監視端末は、前記第三の所定期間より短い間隔で前記累積結果を求めることを特徴とするシステム。
請求項３において、
前記監視端末は、前記第三の所定期間内に前記平均応答時間が、前記第一の閾値より低い第三の閾値を下回った場合、累積された期間を一旦ゼロにリセットすることを特徴とするシステム。
請求項１において、
前記監視端末は、前記基準点以前であって、更に前記平均応答時間が第四の閾値を超えた期間である第四の所定期間に占める、前記資源使用率が前記資源毎に設定された前記第二の閾値を超える期間の割合が、前記所定の割合を超える場合に、該資源をボトルネックと特定することを特徴とするシステム。
ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置とを有するシステムに含まれ、該ネットワークを介して前記ディスクアレイ装置に接続された端末にて実行されるプログラムであって、
前記端末に、
前記サーバあるいは前記ディスクアレイ装置により定期的に通知される、前記ディスクアレイ装置に対して前記サーバから発行されるＩＯ要求の数と各ＩＯ要求の処理に要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を受信させ、
前記受信したパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間が、第一の所定期間を超える時刻を基準点とし、前記基準点以前の第二の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定させることを特徴とするプログラム。
請求項８において、
前記基準点は、前記平均応答時間が前記第一の閾値を越える期間が、連続して前記第一の所定期間を超える時刻であることを特徴とするプログラム。
請求項８において、
前記基準点は、前記平均応答時間が前記第一の閾値を超える期間を第三の所定期間累積した結果が、前記第一の所定期間を超える時刻であることを特徴とするプログラム。
請求項１０において、
前記第三の所定期間毎に前記累積結果が求められることを特徴とするプログラム。
請求項１０において、
前記第三の所定期間より短い間隔で前記累積結果を求めることを特徴とするプログラム。
請求項１０において、
前記第三の所定期間内に前記平均応答時間が、前記第一の閾値より低い第三の閾値を下回った場合、累積された期間が一旦ゼロにリセットされることを特徴とするプログラム。
請求項８において、
前記基準点以前の第二の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合の代わりに、前記基準点以前であって、更に前記平均応答時間が第四の閾値を超えた期間である第四の所定期間に占める、前記資源使用率が前記資源毎に設定された前記第二の閾値を超える期間の割合が、前記所定の割合を超える場合に、該資源をボトルネックと特定させることを特徴とするプログラム。
ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置と、前記ネットワークを介して前記ディスクアレイ装置に接続され、前記ディスクアレイ装置のボトルネックを検出する監視端末を有するシステムであって、
前記ディスクアレイ装置あるいは前記サーバは、前記サーバから前記ディスクアレイ装置に対して発行されるＩＯ要求の数と各ＩＯ要求を処理するのに要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を算出して前記監視端末に定期的に通知し、
前記監視端末は、前記定期的に通知されるパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間に基づき基準点となる時間を決定し、前記基準点以前の第一の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定することを特徴とするシステム。
請求項１５において、
前記基準点は、前記平均応答時間が前記第一の閾値を超える期間が、連続して第二の所定期間を超える時刻であることを特徴とするシステム。
請求項１５において、
前記基準点は、前記平均応答時間が前記第一の閾値を超える期間を第三の所定期間累積した合計が第二の所定期間を超える時刻であることを特徴とするシステム。
請求項１５において、
前記基準点は、前記平均応答時間が連続して前記第一の閾値を超える期間において、時間を横軸に、前記平均応答時間を縦軸に配置し、前記時間に対する前記平均応答時間をプロットしてできる波形と、前記平均応答時間が前記第一の閾値を示す横線とで囲まれる部分の面積が、所定の面積を超える時刻であることを特徴とするシステム。
請求項１５において、
前記基準点は、前記平均応答時間が前記第一の閾値を超える期間において、時間を横軸に、前記平均応答時間を縦軸に配置し、前記時間に対する前記平均応答時間をプロットしてできる波形と、前記平均応答時間が前記第一の閾値を示す横線とで囲まれる部分の面積を第三の所定期間累積した合計が、所定の面積を超える時刻であることを特徴とするシステム。
請求項１７又は１９において、
前記第三の所定期間毎に前記累積合計が求められることを特徴とするシステム。
請求項１７又は１９において、
前記第三の所定期間より短い間隔で前記累積合計が求められることを特徴とするシステム。
請求項１７又は１９において、
前記監視端末は、前記第三の所定期間内に前記平均応答時間が、前記第一の閾値より低い第三の閾値を下回った場合、前記累積合計が一旦ゼロにリセットされることを特徴とするシステム。
請求項１５において、
前記監視端末は、前記基準点以前であって、更に前記平均応答時間が第四の閾値を超えた期間である第四の所定期間に占める、前記資源使用率が前記資源毎に設定された前記第二の閾値を超える期間の割合が、前記所定の割合を超える場合に、該資源をボトルネックと特定することを特徴とするシステム。
ネットワークを介してクライアント端末にサービスを提供するサーバと、前記サーバおよび前記ネットワークに接続され、前記サーバが使用するデータが格納されるディスクアレイ装置とを有するシステムに含まれ、該ネットワークを介して前記ディスクアレイ装置に接続された端末にて実行されるプログラムであって、
前記端末に、
前記サーバあるいは前記ディスクアレイ装置により定期的に通知される、前記ディスクアレイ装置に対して前記サーバから発行されるＩＯ要求の数と各ＩＯ要求の処理に要した時間と該ディスクアレイ装置に含まれる資源毎の資源使用率を含むパフォーマンス情報を受信させ、
前記受信したパフォーマンス情報に含まれる前記処理時間を前記ＩＯ要求数で割った平均応答時間が第一の閾値を超える期間に基づき基準点となる時間を決定させ、前記基準点以前の第一の所定期間に占める、前記資源使用率が前記資源毎に設定された第二の閾値を超える期間の割合が、所定の割合を超える場合に、該資源をボトルネックと特定させることを特徴とするプログラム。
請求項２４において、
前記基準点は、前記平均応答時間が前記第一の閾値を超える期間が、連続して第二の所定期間を超える時刻であることを特徴とするプログラム。
請求項２４において、
前記基準点は、前記平均応答時間が前記第一の閾値を超える期間を第三の所定期間累積した合計が第二の所定期間を超える時刻であることを特徴とするプログラム。
請求項２４において、
前記基準点は、前記平均応答時間が連続して前記第一の閾値を超える期間において、時間を横軸に、前記平均応答時間を縦軸に配置し、前記時間に対する前記平均応答時間をプロットしてできる波形と、前記平均応答時間が前記第一の閾値を示す横線とで囲まれる部分の面積が、所定の面積を超える時刻であることを特徴とするプログラム。
請求項２４において、
前記基準点は、前記平均応答時間が前記第一の閾値を超える期間において、時間を横軸に、前記平均応答時間を縦軸に配置し、前記時間に対する前記平均応答時間をプロットしてできる波形と、前記平均応答時間が前記第一の閾値を示す横線とで囲まれる部分の面積を第三の所定期間累積した合計が、所定の面積を超える時刻であることを特徴とするプログラム。
請求項２６又は２８において、
前記第三の所定期間毎に前記累積合計が求められることを特徴とするプログラム。
請求項２６又は２８において、
前記第三の所定期間より短い間隔で前記累積結果が求められることを特徴とするプログラム。
請求項２６又は２８において、
前記第三の所定期間内に前記平均応答時間が、前記第一の閾値より低い第三の閾値を下回った場合、前記累積合計が一旦ゼロにリセットされることを特徴とするプログラム。
請求項２４において、
前記基準点以前であって、更に前記平均応答時間が第四の閾値を超えた期間である第四の所定期間に占める、前記資源使用率が前記資源毎に設定された前記第二の閾値を超える期間の割合が、前記所定の割合を超える場合に、該資源をボトルネックと特定させることを特徴とするプログラム。