WO2006046297A1

WO2006046297A1 - 分析方法及び装置

Info

Publication number: WO2006046297A1
Application number: PCT/JP2004/016051
Authority: WO
Inventors: Shinji Kikuchi; Ken Yokoyama; Akira Takeyama; Kenichi Shimazaki; Takamitsu Maeda; Koji Ishibashi; Seiya Shindo; Koutarou Tsuro
Original assignee: Fujitsu Limited
Priority date: 2004-10-28
Filing date: 2004-10-28
Publication date: 2006-05-04
Also published as: EP1806658B1; US20070214261A1; EP1806658A4; JPWO2006046297A1; JP4180638B2; EP1806658A1; US8560667B2

Abstract

　本発明は、複数のサーバを含むコンピュータ・システムのレスポンスに関する分析を行う分析方法であり、まず上記コンピュータ・システムから複数のサーバの各々のＣＰＵ使用率のデータを取得し、ＣＰＵ使用率格納部に格納する。そして、上記コンピュータ・システムにおいて生成される処理履歴データを取得し、当該コンピュータ・システムのユーザによるリクエスト頻度のデータを生成し、リクエスト頻度データ格納部に格納する。そして、ＣＰＵ使用率格納部に格納された各サーバのＣＰＵ使用率とリクエスト頻度格納部に格納されたリクエスト頻度とを用いて、各サーバにおける平均遅延時間を推定し、サーバ遅延時間格納部に格納する。このようにすることで分析対象のコンピュータ・システムを変更したり、余分なコストをかけずに分析を行うことができる。

Description

明細書

分析方法及び装置

技術分野

[0001] 本発明は、コンピュータ 'システムのレスポンスに関する分析技術に関する。

背景技術

[0002] ネットワークサービスの発展に伴い、サービスを提供するためのシステムが複雑、大規模ィ匕してきて、る。多くのサービスが多数のサーバを組み合わせて提供されるようになってきている。このようなシステムにおいては、それぞれのサーバのリソースの利用状況がユーザのレスポンスにどのような影響を与えているかを把握することが非常に困難になってきている。

[0003] 従来、複数のサーノからなるシステムにおいて、それぞれのサーバにおける遅延が、ユーザが体感するレスポンスタイムに対してどのくらいの割合を占めるかを調査するには下記の 2つの方法が知られていた。すなわち、（1)各サーバ間で送受信するメッセージに認識用の特別なタグを付けておき、そのタグを用いて遅延を計測するものである。 (2)各サーバ間で送受信されるメッセージをパケットキヤプチヤにより採取し、その情報を解析するものである。

[0004] しかし、（1)の方法では、既存のシステムやサービスに変更を加えなければならず、本機能の導入は容易ではない。また、（2)の方法では、パケットキヤプチヤのための高価な機器ゃ大容量のストレージが必要である。さらに、セキュリティの観点からもパケットキャプチヤは好まれな、。

[0005] また、特開 2004— 21756号公報には、情報システム上で動作する一つまたは複数のアプリケーションについて、種々の利用状況下での各アプリケーションの応答性能を、限られた実験回数で効果的に評価する技術が開示されている。より具体的には、アプリケーションの種々の利用状況に対応した負荷投入実験を複数回行う際、アプリケーシヨンの利用状況に関する数量と、アプリケーションの応答性能に関する数量と、ハードウェア 'リソースの利用状況に関する数量と、ハードウェア 'リソースの応答性能に関する数量を取得し、数量間の依存関係を記述する推定式群を作成する事により、推定式群を用いたアプリケーションの応答性能の評価を可能にするものである。しかし、この技術は「実験」が必要であり、通常の処理を行いながら分析を行うことはできない。

特許文献 1：特開 2004— 21756号公報

発明の開示

発明が解決しょうとする課題

[0006] 従って、本発明の目的は、分析対象（以下監視対象とも呼ぶ）のコンピュータ 'システム力も容易に取得できる情報を用いて当該コンピュータ ·システムのレスポンスに関する分析を実施するための技術を提供するものである。

課題を解決するための手段

[0007] 本発明に係る分析方法は、複数のサーバを含むコンピュータ 'システムのレスボンスに関する分析を行う分析方法であって、上記コンピュータ 'システム力も上記複数のサーバの各々の CPU使用率のデータを取得し、 CPU使用率格納部に格納するステツプと、上記コンピュータ 'システムにおいて生成される処理履歴データを取得し、上記コンピュータ 'システムのユーザによるリクエスト頻度のデータを生成し、リクエスト頻度データ格納部に格納するステップと、 CPU使用率格納部に格納された各サーバの CPU使用率とリクエスト頻度格納部に格納されたリクエスト頻度とを用いて、各サーバにおける平均遅延時間を推定し、サーバ遅延時間格納部に格納する推定ステップとを含む。

[0008] このように、 CPU使用率及び処理履歴データと、つた容易に取得できるデータを用いて処理を行うため、導入コストを軽減し、セキュリティ面でも問題を生じさせずに分析処理を実施することができる。

[0009] さらに、上で述べた推定ステップが、 CPU使用率格納部に格納された各サーバの CPU使用率とリクエスト頻度格納部に格納されたリクエスト頻度とを用いて、各サーバの 1リクエストあたりの平均消費 CPU時間を推定し、消費 CPU時間格納部に格納する消費 CPU時間推定ステップと、消費 CPU時間格納部に格納された各サーバの 1リクエストあたりの平均消費 CPU時間と CPU使用率格納部に格納された各サーバの CPU使用率とを用いて、各サーバにおける平均遅延時間を推定し、サーバ遅延時間格納部に格納するサーバ遅延時間推定ステップとを含むようにしてもょ、。

[0010] また、上で述べた消費 CPU時間推定ステップにおいて、予め指定された時間帯における各サーバの CPU使用率とリクエスト頻度とを用いて回帰分析を実施することにより、各サーバの 1リクエストあたりの平均消費 CPU時間を推定するようにしてもよい。このように予め指定された時間帯に限定することにより、ユーザによるリクエストをあまり処理していない時間帯を除外することができ、計算精度を向上させることができるようになる。

[0011] さらに、上で述べたサーバ遅延時間推定ステップにおいて、サーバの 1リクエストあたりの平均消費 CPU時間と当該サーバにおける平均遅延時間との関係を表す係数値を当該係数値を決定する要素である CPU使用率の所定単位毎及び CPU個数毎に格納するマトリクス格納部を参照して該当する係数値を読み出し、当該係数値と上記サーバの 1リクエストあたりの平均消費 CPU時間とから上記サーバにおける平均遅延時間を算出するようにしてもよい。上記係数値は CPU使用率と CPU個数の関数となっているので、都度計算することも可能であるが、実際的には計算量が増加するため、処理速度を上げるため上で述べたようにマトリクス格納部に格納しておく場合もある。

[0012] また、上記コンピュータ 'システムに含まれる複数のサーバ力実行する業務種別に応じてカテゴリ分けされている場合、当該カテゴリ毎に平均遅延時間を推定するステップをさらに含むようにしても良い。例えば層（レイヤ： Layer)が規定されているようなコンピュータでは、当該層をカテゴリとして層毎の平均遅延時間を算出することもある。例えば、業務毎に問題点を抽出するためである。

[0013] さらに、サーバ遅延時間格納部に格納されたデータを用いて、コンピュータ 'システム全体の平均遅延時間を推定し、システム遅延時間格納部に格納するステップをさらに含むようにしてもよい。

[0014] また、上記コンピュータ 'システムにおける、ユーザによるリクエストに対するレスポンス時間の平均実測値を取得し、平均実測値格納部に格納するステップと、平均実測値格納部に格納された平均実測値とシステム遅延時間格納部に格納された上記コンピュータ 'システム全体の平均遅延時間との差により、サーバ以外の箇所で発生した遅延時間を推定するステップとをさらに含むようにしてもよい。サーバ以外の箇所で発生した遅延時間がコンピュータ 'システム全体の平均遅延時間より短い場合には、何らかの理由により推定が不適切であり、そのような場合を検出することも可能となる。

[0015] さらに、カテゴリ毎に、平均消費 CPU時間の総和とリクエスト頻度との相関係数を算出し、当該相関係数に基づきカテゴリ毎の平均遅延時間の信頼度を決定し、信頼度データ格納部に格納するステップと、信頼度データ格納部に格納されたカテゴリ毎の平均遅延時間の信頼度に基づき、カテゴリ毎の平均遅延時間を補正し、記憶装置に格納する補正ステップとをさらに含むようにしてもょ、。例えば信頼度が高、平均遅延時間をそのまま使用し、信頼度が低い平均遅延時間については補正を大きく加えるようにする。

[0016] さらに、上で述べた補正ステップが、カテゴリ毎の平均遅延時間を信頼度の高！、順にソートするステップと、信頼度の高、順に前記カテゴリ毎の平均遅延時間を累積してゆき、累積された平均遅延時間が遅延実測値未満であって最大の値を有することとなる信頼度の順番を特定するステップと、特定された信頼度の順番の次の順番の遅延時間を、遅延実測値と信頼度の高い順にカテゴリ毎の平均遅延時間を特定された信頼度の順番まで累積することにより得られる値との差に補正するステップとを含むようにしてもよい。

[0017] また、リクエスト頻度が例えば試験的に変更された場合、当該変更後のリクエスト頻度に応じて各サーバの CPU使用率を変更し、記憶装置に格納するステップと、記憶装置に格納された変更後の各サーバの CPU使用率を用いて、各サーバにおける平均遅延時間を推定し、記憶装置に格納するステップと、サーバ遅延時間格納部及び記憶装置に格納された変更前後の各サーバの平均遅延時間を比較可能な態様で出力するステップとをさらに含むようにしてもよい。リクエスト頻度の変動に対して遅延時間がどのように変化するかを知ることができる。

[0018] また、 CPU数が例えば試験的に変更された場合、当該変更後の CPU数に応じて各前記サーバの CPU使用率を変更し、記憶装置に格納するステップと、記憶装置に格納された変更後の各サーバの CPU使用率と変更後の CPU数とを用いて、各サーバにおける平均遅延時間を推定し、記憶装置に格納するステップと、サーバ遅延時間格納部及び記憶装置に格納された変更前後の各サーバの平均遅延時間を比較可能な態様で出力するステップとをさらに含むようにしてもよい。 CPU数を例えば増カロさせた場合に遅延時間がどの程度減少する力試すことができ、その効果力も投資の是非を判断できるようになる。

[0019] また、サーバ数が変更された場合、当該変更後のサーバ数に応じて各サーバの 1リタエストあたりの平均消費 CPU時間を算出し、記憶装置に格納するステップと、 CPU 個数と記憶装置に格納された変更後の各サーバの 1リクエストあたりの平均消費 CP U時間とを用いて、変更後における各サーバの CPU使用率を算出し、記憶装置に格納するステップと、記憶装置に格納された変更後の各サーバの 1リクエストあたりの平均消費 CPU時間と変更後における各サーバの CPU使用率とを用いて、変更後における各サーバの平均遅延時間を推定し、記憶装置に格納するステップとをさらに含むようにしてもよい。サーバ数を例えば増加させた場合に遅延時間がどの程度減少するかを試すことができ、その効果力も投資の是非を判断できるようになる。

[0020] さらに、記憶装置に格納された変更後における各サーバの平均遅延時間と変更後のサーバ数とを用いて、コンピュータ.システムに含まれる複数のサーバを実行する業務種別に応じて分けることにより規定されるカテゴリ毎の平均遅延時間を推定し、記憶装置に格納するステップをさらに含むようにしてもょ、。

[0021] 上で述べた分析方法をコンピュータに実行させるためのプログラムを作成することができ、このプログラムは、例えばフレキシブルディスク、 CD-ROM,光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメモリ等の記憶装置に一時保管される。

図面の簡単な説明

[0022] [図 1]図 1は、本発明の原理を説明するための図である。

[図 2]図 2は、本発明の原理を説明するための図である。

[図 3]図 3は、本発明の実施例におけるシステム全体を説明するための図である。

[図 4A]図 4Aは、本発明の実施例における遅延時間分析装置の機能ブロックである。 [図 4B]図 4Bは、本発明の実施例における遅延時間分析装置の機能ブロックである。

[図 5]図 5は、本発明の実施例におけるメインの処理フローを示す図である。

[図 6]図 6は、取得データの一例を示す図である。

[図 7]図 7は、（a)及び (b)は、回帰計算を説明するための図である。

[図 8]図 8は、ビジネス時間に回帰計算の対象を限定する理由を説明するための図である。

[図 9]図 9は、信頼度算出処理の処理フローを示す図である。

[図 10]図 10は、信頼度に応じた遅延時間の補正処理の処理フローを示す図である。

[図 11]図 11 (a)乃至 (c)は、信頼度に応じた遅延時間の補正処理の具体例を説明するための図である。

[図 12]図 12は、リクエスト頻度変動時の遅延時間変化の推定処理の処理フローを示す図である。

[図 13]図 13は、 CPU数変動時の遅延時間変化の推定処理の処理フローを示す図である。

[図 14]図 14は、サーバ数変動時の遅延時間変化の推定処理の処理フローを示す図である。

[図 15]図 15は、処理結果のテーブル化の一例を示す図である。

[図 16]図 16は、処理結果のグラフ化の一例を示す図である。

[図 17]図 17は、コンピュータの機能ブロック図である。

発明を実施するための最良の形態

[本発明の原理]

A. Webシステムモデルにおける平均遅延時間の理論値: T (Xの上に'を付した記号を X：とも示すものとする）の導出

A— 1.単一サーバの遅延時間のモデルィ匕

まず、図 1を用いて複数の CPUを有する単一サーバ Sにおける平均遅延時間を導出することを考える。図 1に示すサーバ Sは CPU— 1から CPU— Cまでの C個の CP Uを有し、外部からリクエスト頻度え（req/sec)で入力されたリクエストは、待ち行列 Sw に入れられた後に C個の CPUで処理される。この際、 CPUの使用率を p (%)とする。そして、 MZMZS待ち行列モデルの解析結果より、サーバ sにおけるリクエストの平均滞在時間 T (C, λ , は、以下のようになる。

[数 1]

T

[0024] (1)式乃至（3)式より、サーバ Sにおける平均滞在時間 T (C, λ , は、以下の関係が成立する。なお、 αはサーバ Sに到達するリクエストの割合を表す。

[数 2]

[0025] A— 2.第 N層のサーバ層における遅延時間のモデルィ匕

ここでは、単一サーバにおける遅延モデルを用いて、複数層における特定の単一層におけるリクエストの平均遅延時間を求める。前提となるシステム 'モデルを図 2に表す。第 1層には、 M個のサーバ S 、 S 、 . . . S が存在しており、第 2層には

1 (1,1) (1,2) (Ι, Ι)

、 Μ個のサーバ S 、 S 、 . . . S が存在しており、さらに第 Ν層には、 Μ個の

2 (2,1) (2,2) (2, 2) Ν サーバ S 、 S 、 . . . S が存在している。また、 α は第 η層に到達するリクエス

(Ν,Ι) (Ν,2) (Ν,ΜΝ) η

トの割合を表し、各層におけるサーバにリクエストが均等に振り分けられ、本システムにえ（req/sec)というリクエスト頻度でリクエストが入力されると、第 1層の各サーバに all

は、 λ /Μのリクエストが入力され、第 1層力も離脱するリクエストは（1—ひ） λ で all all あり、第 2の層の各サーバには、ひ λ ΖΜというリクエストが入力され、第 2層から

2 all 2

離脱するリクエストは（α - a λ N-l

2 3 ) allであり、第層力離脱するリクエストは N-1 - a ) λ であり、第 Ν層の各サーバには、 OL λ /Μのリクエストが入力され、第 Ν

N all N all N

層から出力されるリクエストは α λ となる。なお、 l≤n≤N、 l≤m≤Mとする。

N all n

[0026] 各層には、例えばユーザに対するフロントエンドとして用いられる Webサーバや、リタエストを動的に処理するためのアプリケーションサーバ等、それぞれ異なる役割が割り当てられている c

[0027] そして、第 n層のサーバ S に入ってくるリクエスト頻度をえとすると、サーバ S

(n,m) (n,m)

にお 1け 1る平均遅延時間は T(C , λ , ρ )と表すことができる。また、第 η層

(n,m) (n,m) (n,m) (n,m)

に入ってくるリクエストの総量は α らが Μ個のサーバに均等に振り

n λ であり、それ

all n

分けられるとすると、以下の式が成り立つ。

[数 3]

リクエストは各サーバに均等に振り分けられるので、第 n層における全リクエストの平均遅延時間 Wは、第 n層に存在する全てのサーバの平均遅延時間の平均をとつたものになる。

[数 4]

ここで、（1)式乃至 (4)式を用いると、 Wは下記のようになる。

[数 5]

Γ|し, ., ,λ ., ,ρ, .、

Τ 九 cttt,P《_n,i] (6)

a. ；ニ 1

[0030] ここで表記を簡略ィ匕するため H_nを下記のように定義する。

[数 6]

^ =∑T(c_{(n )},A_a!!, _{(n )}) (7)

[0031] A— 3.システム全体における遅延時間のモデル化

ここでは、各層における遅延のモデルを用いて、システム全体における遅延時間のモデルィ匕を行う。全てのリクエストのうち、第 1層から第 n層までのサーバを利用した後、システム力も離脱するリクエストの数 Rは、下記のようになる。

[数 7]

[0032] また、第 1層から第 η層までのサーバを利用した後、システムカゝら離脱するリクエストの平均遅延 Lは、下記のようになる。

[数 8]

=∑^ (9)

[0033] また、定義より下記の関係が成り立つ。

[数 9]

L_n ~L_n__l = W_n (10)

[0034] 1リクエストあたりの平均遅延時間 ΧΊま、第 1層から第 i層までのサーバを利用してからシステムを離脱するリクエストについて、それらの遅延と、全リクエストに対する割合の積で表すことができるので、下記のようになる。

[数 10]

= («i -a + (c ₂ -a₃)L₂ + -a_N+、L_N (11)

= a_xL_x +a₂ {L₂— ノ + ... + _N {L_N― L_N__X ) - _N+lL_N

= a_lW_l + ₂W₂ + ... + _NW_N

N

二∑H_n

[0035] 上記の結果より、全リクエストの平均遅延時間を考えた場合、 H_nは各層で発生する遅延を表しており、その総和 ΧΊま、全リクエストに対するシステム全体での平均遅延時間を表していると言える。

[0036] [具体的処理]

図 3に監視対象システム 100及び遅延分析装置 120を含むシステムの概要を示す。監視対象システム 100は、ネットワークに接続されており、図 2に示したように ?^層（図 3では説明を簡略ィ匕するため 2層）の構成となっている。各層には、負荷分散装置 101及び 102が設けられており、当該負荷分散装置は、各層のサーバ群 S , S

(1,1) (1,2) 及び S 並びにサーバ群 S , S 及び S に対してほぼ均等にリクエストを分

(Ι, Ι) (Ν,Ι) (Ν,2) (Ν, Ν)

配する。第 1層のサーバには、サーバログ 11 laが設けられており、リクエストに対する処理を実施するとそのログデータが格納されるようになっている。また、各サーバには、 CPU (Central Processing Unit)使用率取得部 112a及び 112bが設けられており、本実施例では CPU使用率を％単位で取得するようになっている。この CPU使用率取得部 112a及び 112bは、 UNIX (登録商標） OS (Operating System)等の場合には sar、 mpstat、 iostatなどのコマンドで実行される一般的なツールであって、近年の OSには同様の機能を有しているものが多い。

[0037] 遅延分析装置 120は、監視対象システム 100に接続されており、サーバログ 11 la に格納されたログデータ及び CPU使用率を用いて処理を行う。このように従来とは異なり、監視対象システム 100内に特別の仕組みを組み込むことがないので遅延分析装置 120の導入は容易であり、さらに監視対象システム 100内で処理される全てのパケットを解析するものでもないので、大容量のストレージを用いる必要は無ぐセキユリティ上の問題も生じに《なっている。遅延分析装置 120は、表示装置、マウス、キーボードその他の入出力部 121に接続されている。

[0038] 図 4A及び図 4Bに遅延分析装置 120の機能ブロック図を示す。遅延分析装置 120 は、リクエスト頻度取得部 1201と、 CPU使用率取得部 1202と、ログデータ格納部 1 203と、リクエスト頻度格納部 1204と、遅延実測値格納部 1205と、 CPU使用率格納部 1206と、システム構成データ格納部 1207と、 CPU時間算出部 1208と、 CPU時間格納部 1209と、性能予測処理部 1213と、サーバ遅延時間算出部 1210と、 Gテ一ブル格納部 1211と、サーバ遅延時間格納部 1214と、層遅延時間算出部 1215と、層遅延時間格納部 1216と、システム遅延時間算出部 1217と、システム遅延時間格納部 1218と、残余遅延時間算出部 1219と、残余遅延時間格納部 1220と、信頼度算出部 1221と、信頼度格納部 1222と、遅延時間補正部 1223と、補正遅延時間格納部 1224とを有する。

[0039] リクエスト頻度取得部 1201は、監視対象システム 100のサーバログ 11 laからログデータを受信しログデータ格納部 1203に格納すると共に、入出力部 121からの入力データに従ってログデータ格納部 1203に格納されたログデータを処理してリクエスト頻度 (req/sec)を算出し、リクエスト頻度格納部 1204に格納する。また、ログデータ格納部 1203に格納されたログデータを処理して平均遅延実測値を算出し、当該平均遅延実測値を遅延実測値格納部 1205に格納する。 CPU使用率取得部 1202は、監視対象システム 100の CPU使用率取得部 112から CPU使用率のデータを取得し、当該データを CPU使用率格納部 1206に格納する。

[0040] CPU時間算出部は、リクエスト頻度格納部 1204と CPU使用率格納部 1206とシステム構成データ格納部 1207とを参照して 1リクエストあたりの消費 CPU時間を算出し、算出されたデータを CPU時間格納部 1209に格納する。サーバ遅延時間算出部 1 210は、 CPU時間格納部 1209と Gテーブル格納部 1211と CPU使用率格納部 120 6とを参照してサーバ毎の遅延時間を算出し、算出されたデータをサーバ遅延時間格納部 1214に格納する。なお、サーバ遅延時間算出部 1210は、 Gテーブル格納部 1211を参照しな!ヽ場合には、リクエスト頻度格納部 1204とシステム構成データ格納部 1207を参照することもある。

[0041] さらに層遅延時間算出部 1215は、サーバ遅延時間格納部 1214とシステム構成データ格納部 1207とを参照して層毎の遅延時間を算出し、算出されたデータを層遅延時間格納部 1216に格納する。システム遅延時間算出部 1217は、層遅延時間格納部 1216とシステム構成データ格納部 1207とを参照してシステム全体の遅延時間を算出し、算出したデータをシステム遅延時間格納部 1218に格納する。残余遅延時間算出部 1219は、遅延実測値格納部 1205とシステム遅延時間格納部 1218とを参照してサーバ以外の他の装置により消費された残余の遅延時間を算出し、算出されたデータを残余遅延時間格納部 1220に格納する。

[0042] また信頼度算出部 1221は、残余遅延時間格納部 1220とシステム構成データ格納部 1207と遅延実測値格納部 1205とリクエスト頻度格納部 1204と CPU使用率格納部 1206と層遅延時間格納部 1216とを参照し、サーバ以外の他の装置により消費された残余の遅延時間が 0未満である場合、各層の遅延時間について信頼度を算出し、算出された信頼度データを信頼度格納部 1222に格納する。遅延時間補正部 1223は、層遅延時間格納部 1216と信頼度格納部 1222とを参照して層毎の遅延時間を補正し、補正された遅延時間のデータを補正遅延時間格納部 1224に格納する。

[0043] 性能予測処理部 1213は、 CPU使用率格納部 1206とシステム構成データ格納部 1207と CPU時間格納部 1209とリクエスト頻度格納部 1204とを用 V、て処理を行う。

[0044] なお、入出力部 121は、遅延分析装置 120内の格納部内のデータを表示装置などに出力することができるようになって!/、る。

[0045] 次に図 5乃至図 16を用いて図 3並びに図 4A及び図 4Bに示したシステムの処理内容について説明する。まず、リクエスト頻度取得部 1201は、監視対象システム 100のサーバログ 11 laからログデータを取得してログデータ格納部 1203に格納し、 CPU 使用率取得部 1202は監視対象システム 100の CPU使用率取得部 112から CPU使用率のデータを受信し、 CPU使用率格納部 1206に格納する（図 5：ステップ S 1 )。

[0046] ログデータ格納部 1203に格納されるログデータの一例を以下に示す。

「192.168.164.108 - - [14/Sep/2004:12:27:50 +0900] "GET

/〜！ ioge/SSSS/SSSS— 20040816.pdf HTTP/1. ' 200 147067 "」' "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET Cし R 1.1.4322)" 0.053」（Windowsは登録商標）

[0047] これは、 Apache Webサーバにおいてカスタムログ形式で採取された 1つのログの一例である。一般的には監視対象システム 100に含まれる Webサーバの

/var/log/httpd/ディレクトリ配下などにサーバログ 11 laとして格納されて!、る。この第 1項「192.168.164.108」はアクセス元クライアントの IPアドレスを表す。第 2項及び第 3項は省略されている。第 4項「 [14/Sep/2004:12:27:50 +0900]」はアクセス時刻を表している。第 5項 GET /〜！ ioge/SSSS/SSSS— 20040816.pdf HTTP/1. Γ」はアクセス内容を示す。第 6項「200」はステータス (ここでは正常）を表す。第 7項「147067」は送受信バイト数を表す。第 8項「' "」はリクエストされた URLノスを表す。第 9項「 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)"」はァクセス元クライアントが使用しているブラウザを表す。第 10項「0.053」は、リクエストを扱うのにかかった時間（sec)を表す。

[0048] 次に、入出力部 121は、分析対象期間及びビジネス時間帯の設定入力を受け付け、例えばメインメモリ等の記憶装置に格納する (ステップ S3)。ビジネス時間帯とは、ュ一ザからのリクエスト以外の処理にサーバが費やす CPU時間が少ない時間帯をいう。ビジネス時間帯を指定することにより、夜間など、リクエストが少ないときに多量の C PU時間がサーバで消費されることに起因する推定誤差を減らすことができる。

[0049] そして、リクエスト頻度取得部 1201は、ログデータ格納部 1203から指定分析対象期間及びビジネス時間帯におけるログデータを読み出し、例えば 1時間毎にいくつのリクエストが処理されたかカウントし且つカウント値を 3600秒（= 1時間）で割ることにより 1秒あたりのリクエスト頻度え（req/sec)を算出し、リクエスト頻度格納部 1204に格納する。また、リクエスト頻度取得部 1201は、例えば 1時間毎に全てのリクエストを取り扱うのにかかった時間を加算してリクエスト数で除することにより平均遅延実測値を算出し、遅延実測値格納部 1205に格納する。さらに、 CPU使用率格納部 1206は、 CPU使用率格納部 1206に格納された CPU使用率のデータに基づき、 1時間毎に各サーバ S の平均 CPU使用率を算出し、 CPU使用率格納部 1206に格納

(n,m) (n,m)

する（ステップ S5)。 1つのサーバが複数の CPUを有する場合には、その複数の CP Uの平均 CPU使用率を算出して当該サーバの CPU使用率とする。なお、平均 CPU 使用率 p i における iは i番目の単位時間（ここでは 1時間毎）を表す。また、以下「

、n，m)

平均」と、う文字を省略することもある。

[0050] ここまでの処理結果をまとめると、例えば図 6に示すようになる。図 6の例では、各時間帯につき、単位時間番号 iと、リクエスト頻度え ¹ (req/sec)と、遅延実測値 A¹と、 CP U使用率、、、とが示されている。

(1,1) (1,2) (2,1) (3,1)

[0051] 次に、 CPU時間算出部 1208は、リクエスト頻度格納部 1204と CPU使用率格納部 1206とシステム構成データ格納部 1207とを参照して、 1リクエストあたりの消費 CPU 時間を算出し、 CPU時間格納部 1209に格納する (ステップ S7)。各サーバで発生する遅延時間を算出するためには、まず、システム全体に対して外部力入ってくるリクエストえ i(_req/_sec)に対して、各サーバで 1リクエストあたりどれだけの CPU時間が消費されているか求める必要がある。しかし、単純に時間 iにおけるサーバ S の CP

、n，m)

U使用率と CPUの個数 C との積をリクエスト頻度え iで割って、 1リクエストあ

(n,m) 、η，πν

たりの平均消費 CPU時間を

[数 11] (12)

として算出すると、以下のような不都合が生ずる。すなわち、サーバにおいては、通常、リクエストの処理以外にもシステムの維持等によって若干の CPU時間が消費されている。リクエスト頻度が極端に小さい場合、このような CPU時間の割合が相対的に大きくなるため、 1リクエストあたりの消費 CPU時間を大きく見積もってしまい、誤差の原因となる恐れがある。すなわち、図 7 (a)のように横軸をリクエスト頻度、縦軸を CPU 使用率とすると、（12)式をそのまま解釈するとリクエストがなければ CPU使用率も 0となるはずである。そこで、原点と各測定点とを結ぶ直線の傾きを 1リクエストあたりの消費 CPU時間とすると、大きなバラツキが生ずる。

[0052] この問題を解決するために、 1リクエストあたりの消費 CPU時間 1Z

(n,m)が以下のように表されるものと仮定する。

[数 12] p ,C₍ , =—^—λ' +α₍ 、 (13) そして 1リクエストあたりの消費 CPU時間 ΐΖ (n,m)を、回帰分析によって求め、以下の式で近似するものとする。

[数 13]

F(C₍ 、 , ' 、

[0053] 図 7 (b)に示すように、回帰計算を行えば、各測定点を結ぶ回帰直線の傾きを、 1リタエストあたりの消費 CPU時間として算出することができ、より実際に近い値を得ることがでさる。

[0054] なお、回帰計算を行う際には、ユーザが指定したビジネス時間帯内のデータのみを用いる。これは、分析対象期間の全データを利用した場合、リクエストの小さい夜間にバッチ処理などが実行され、多量の CPU時間が消費されるなどの事象が発生すると、リクエスト数が小さい場合の方が、リクエスト数が多い場合より CPU使用率が高いという現象が発生する。そうすると、回帰計算を用いた 1リクエストあたりの消費 CPU 時間推定において大きな誤差を生じさせる可能性がある。これは図 8に示すように、夜間バッチ処理による測定点を黒丸で表すと、リクエスト頻度が小さいにもかかわらず CPU使用率が高くなるため縦軸の上の方にプロットされてしまい、日中のリクエスト処理についての測定値（白丸で表す)と合わせて回帰計算を行うと、実線のような回帰直線が得られてしまう場合がある。一方、日中のリクエスト処理についての測定値のみを用いれば点線のような傾きが正の正しい回帰直線が得られる。従って、ビジネス時間帯にデータを絞る必要がある。

[0055] 上で述べた回帰計算をより詳しく述べると、分析対象期間のデータのうち、ユーザの指定したビジネス時間帯に該当するデータ (CPU使用率 p ,システム構成データである CPU個数 C ,リクエスト頻度え i)に対して、（13)式のような直線を引いた場合に、偏差が最も少なくなるように最小二乗法により傾き 1Z と切片 α を計算し、 CPU時間格納部 1209に格納する。但し、 a が負となるときは、傾きを過大に見積もつている可能性が高いので、切片 0として、再度以下の直線として回帰分析を実施して 1Z を求める。

[数 14]

また、傾き 1Z が負となるときには、そのサーバでの 1リクエストあたりの平均遅延時間は解析不能であると判断し、解析不能を表すコードを CPU時間格納部 1209 に格納する。このようなコードが格納されると、そのサーバが含まれる層で発生する平均遅延時間につヽても解析不能となる。図 5の説明に戻って、次にサーバ遅延時間算出部 1210は、 CPU使用率格納部 1 206とシステム構成データ格納部 1207と CPU時間格納部 1209と Gテーブル格納部 1211とを参照して、各サーバで発生する 1リクエストあたりの平均遅延時間を算出し、算出された値をサーバ遅延時間格納部 1214に格納する (ステップ S9)。 i番目の単位時間において、各サーバで発生する 1リクエストあたりの平均遅延時間 T¹ は、

(n,m) 以下の式で与えられる。

[数 15]

但し、；0 =0のとき、 G (C, 0) = 1とする。

[0058] ここで 1Z は 1リクエストあたりの消費 CPU時間を表している力これは負荷が

(n,m)

0%のときに発生する平均遅延時間に等しい。そして、負荷が pの時には、遅延が負荷 0%のときの G (C, p )倍になることを意味している。

[0059] G (C, p )につ!/、ては、（3)式に示したように、サーバの CPU個数と CPU使用率によって算出される。但し、（3)式をそのまま計算すると比較的時間が力かるので、分析の粒度が決まっている場合には、サーバの CPU数及び CPU使用率を変動させ、事前に算出することも可能である。例えば、分析の粒度が、 CPU使用率においては 1 %単位で十分であり、且つ想定される 1サーバあたりの CPUの個数が 50個以下である場合、 CPU使用率が 0乃至 99% (1%刻み）において、サーバの CPUが 1乃至 50 個のそれぞれの場合における G (C, を予め算出しておき、それを 100 X 50のマトリクスとして Gテーブル格納部 1211に格納しておく。そうすれば、システム構成データ格納部 1207から CPU個数を取得し、 CPU使用率格納部 1206から CPU使用率を取得し、 Gデーブル格納部 1211から G (C, の値を取得することができる。

[0060] 最終的には、（14)式に従って各サーバで発生する 1リクエストあたりの平均遅延時間 T¹ (以下、略して各サーバの平均遅延時間ともいう）が算出され、サーバ遅延時

(n,m)

間格納部 1214に格納される。

[0061] 次に、層遅延時間算出部 1215は、サーバ遅延時間格納部 1214とシステム構成データ格納部 1207とを参照して、各層における遅延時間 L¹を算出し、層遅延時間格納部 1216に格納する (ステップ SI 1)。各層における遅延時間は、各層のサーバの平均遅延時間の和であり、以下のように表される。 Mについてはシステム構成データ格納部 1207から取得する。

[数 16]

M_n

《 = ^n.m)

[0062] そして、システム遅延時間算出部 1217は、層遅延時間格納部 1216とシステム構成データ格納部 1207とを参照して、システム全体の遅延時間 D¹を算出し、システム遅延時間格納部 1218に格納する (ステップ S 13)。システム全体の遅延時間 D¹は、各層 nにおける遅延時間 L¹の和であり、以下のように表される。 Nについてはシステム構成データ格納部 1207から取得する。

[数 17]

N

=∑

[0063] その後、残余遅延時間算出部 1219は、遅延実測値格納部 1205とシステム遅延時間格納部 1218とを参照して、サーバ以外の箇所で力かる遅延時間 Ε¹を算出し、残余遅延時間格納部 1220に格納する (ステップ S15)。遅延時間 E¹は、システム全体の遅延時間 D¹と遅延実測値 A¹の差であって、以下のように算出される。

[数 18]

[0064] A¹く D¹ということは、上で述べたような推定結果が適切ではないということであり、そのような場合には Ei=0に設定される。

[0065] そして主に ^=0となった場合に遅延時間の補正を行うため、信頼度算出部 1221 は、残余遅延時間格納部 1220と層遅延時間格納部 1216とシステム構成データ格納部 1207とリクエスト頻度格納部 1204と CPU使用率格納部 1206と遅延実測値格納部 1205とを参照して、各層の平均遅延時間の信頼度を算出処理を実施し、処理結果を信頼度格納部 1222に格納する (ステップ S17)。この処理については図 9を用いて説明する。まず、信頼度算出部 1221は、第 n層の消費 CPU時間の総和 pとリクエスト頻度えとの間の相関係数を各層 _nの平均遅延時間の初期信頼度 R¹として算出し、信頼度格納部 1222に格納する (ステップ S31)。 correlを相関係数を求める関数とすると、以下のような式に従って信頼度 R¹を算出する。

[数 19]

(15)式における correl関数の第 1項が第 n層における消費 CPU時間の総和である。なお、相関係数も後の計算で用いられるため、各層につき保持しておく。

[0066] そして相関係数が負である力判断する (ステップ S33)。相関係数く 0であれば信頼度 Ri =0と設定する (ステップ S37)。消費 CPU時間とリクエスト頻度の間には正の相関があることを仮定しており、負の相関に意味が無いためである。一方、相関係数≥0であれば、平均遅延実測値 A¹よりシステム全体の推定遅延時間 D¹が長、か判断する (ステップ S35)。 >^が成り立つ場合には、あり得ない推定がなされており算出された遅延時間自体の信頼性が低いため、ステップ S37に移行する。すなわち、信頼度 =0と設定する。一方、 D^A¹であれば、ステップ S31で算出された相関係数をそのまま信頼度として使用する。

[0067] 図 5の説明に戻って、遅延時間補正部 1223は、信頼度格納部 1222と層遅延時間格納部 1216とを参照して、信頼度に応じた遅延時間の補正を行い、補正遅延時間格納部 1224に格納する（ステップ S19)。なお、 ≥ であれば、本ステップはスキップされる。この処理については図 10を用いて説明する。まず、遅延時間補正部 12 23は、層遅延時間格納部 1216と信頼度格納部 1222とを参照して、各層の遅延時間を信頼度の高い順にソートし、補正遅延時間格納部 1224に格納する (ステップ S4 D oなお、信頼度が 0の層が複数ある場合は、それらの相関係数の高い順にソートする。

[0068] そして、ソート結果に従って信頼度の高い順に層の遅延時間を加算し、当該加算値が平均遅延実測値未満の最大となるような信頼度の順番 Bを特定する (ステップ S 43)。ここで Ρ_χ=ηを、第 η層の信頼度の高さが上力も χ番目であるものとする。そうすると、 Ri > が常に成り立つ。そしてステップ S43では以下の式を満たす最大

Px Px+1

の yを求める。これが Bである。

[数 20]

[0069] このようにして求められた信頼度 B番目の層の遅延時間までについては補正は不要である。従って、信頼度 B+ 1番目の層の遅延時間を以下のように補正する (ステツプ S45)。すなわち、第 P 層の推定遅延時間 L¹ について補正を行い、その結果

B+1 Px+1

を L" とする。補正結果及び補正不要の層（信頼度 B番目までの層）の遅延時間は

Px+1

、補正遅延時間格納部 1224に格納される。

[数 21]

B

^L = ^A L ^ ^p,

x=l

この式は、遅延実測値と、各層の信頼度のうち、信頼度が高い方力 B+ 1番目までの遅延時間 (推定平均値)の総和とが等しくなるように信頼度 B+ 1番目の層の遅延時間を補正を行う。

[0070] また、信頼度 B+ 1番目の層の信頼度を以下のように補正する (ステップ S47)。すなわち、第 P

B+1層の信頼度 Px+1について補正を行い、その結果を R"

Px+1とする。補正結果及び補正不要の層（信頼度 B番目までの層）の信頼度データは、補正遅延時間格納部 1224に格納される。

[数 22]

t_i L^! _p ⁱ

^Κ B+l - ~ j ^ この式は、補正前の遅延時間と補正後の遅延時間の差が小さいほど、信頼度が高くなるように信頼度を補正して、る。

[0071] さらに、信頼度 Β + 2番目以降の層の遅延時間及び信頼を以下のように補正する（ステップ S49)。補正結果は、補正遅延時間格納部 1224に格納される。 I = 0 (n > B + l)

[0072] このような補正処理の具体例を図 1 1 (a)乃至（c)を用いて説明する。まず、図 1 1 (a )に遅延時間推定結果及び実測結果を示す。本例における監視対象システム 100の第 1層は Webサーバであり、第 2層はアプリケーションサーバであり、第 3層は DBサーバである。ここで、第 1層の推定遅延時間は 150msecであり、相関係数 0. 9で信頼度 0である。第 2層の推定遅延時間は 60msecであり、相関係数 0. 85で信頼度 0 . 85である。第 3層の推定遅延時間は 30msecであり、相関係数 0. 6で信頼度 0. 6 である。なお、平均遅延実測値が 100msecである。

[0073] そして、ステップ S41でソートすると、図 1 1 (b)に示すように、各層は、第 2層、第 3 層、第 1層の順番に並べられ、システム全体の遅延時間は明らかに平均遅延実測値を超えており、システム全体の推定遅延時間は第 1層の途中で超えてしまっている。

[0074] 従って、図 1 1 (c)に示すように、第 2層及び第 3層については、遅延時間及び信頼度についてはそのまま用い、第 1層の推定遅延時間については平均遅延実測値と第 2層及び第 3層の遅延時間の和との差に減らされ、 10msecとなる。また信頼度も 0. 06 ( = 10/ 150)【こネ ΐ正されてヽる。

[0075] このようにして推定値を実測値に合わせるような補正がなされる。

[0076] 図 5の説明に戻って、入出力部 121は、出力処理を実施する (ステップ S21)。入出力部 121が出力するデータは、（1)各サーバで発生する遅延時間の推定値 T¹ 、 (

(n,m)

2)各層で発生する遅延時間の推定値 L¹、（3)システム全体で発生する遅延時間の推定値、（4)サーバ以外の箇所の遅延時間、（5)各層の遅延時間の信頼度などである。信頼度の場合、値そのものを出力しても良いし、信頼度を例えば以下の 3 つのレベルに分類し、分類結果を出力するようにしても良い。すなわち、 > 0. 7であれば信頼度「高」、 0. 7≥Ri > 0. 3であれば信頼度「中」、 0. 3≥Riであれば信頼度「低」である。

[0077] 上で述べたような信頼度の高中低の分類は、相関係数における相関の強さの判断に一般的に用いられている値である。すなわち、一般的に、相関係数の絶対値が 0. 7以上であれば、 2つのパラメータの間に強い相関があると判断され、 0. 3乃至 0. 7 程度であれば、弱い相関があると判断され、 0. 3以下であればほとんど無相関であるとされている。これは、相関係数の二乗が変動の説明率であることに起因している。そして、相関係数が 0. 7のとき、説明率は 0. 49 (約 50%)となる。すなわち、従属変数の変化のうち、半分程度がその説明変数によって説明可能である。また、相関係数が 0. 3のときは、説明率は 0. 1 (約 10%)となり、従属変数の変化のうち、説明変数に起因するものは約 1割程度しかないため、説明変数と従属変数の間にはほとんど相関が無いとされる。

[0078] 本実施例でも同様に考え、相関係数が 0. 7以上あれば、 CPU使用率とリクエスト頻度の間に十分に相関があり、正しく 1リクエストあたりの消費 CUP時間を推定することができるため、信頼度が高くなると考えられる。また、この信頼度と予測誤差の関係の目安を、実験環境における実験結果から求めると、信頼度「高」であれば予測誤差 ± 50%以内程度、信頼度「中」であれば予測誤差 ± 100%以内程度、信頼度「低」であれば ± 100%以上の可能性が高い。但し、この結果はあくまでも実験結果に基づく目安であり、上記の精度 (誤差範囲）を保障するものではない。

[0079] このようにすれば以上述べたように、各サーバ、各層、システム全体の遅延時間を、既に監視対象システム 100に存在する要素を用いて算出することができるようになる。また、遅延実測値との関係から、遅延時間を補正することも可能であり、さらにその信頼度をユーザに提示することも可能である。

[0080] 次に、上で述べたようなモデルを用いた性能予測について説明する。

[0081] まず、リクエスト頻度変動時の遅延時間の変化の推定について図 12を用いて説明する。ここでは、ある時点 iにおいて、リクエスト頻度がえであったとすると、リクエスト頻度が λ力 λ 'に変化した場合の推定の平均遅延時間を算出するものとする。すなわち、入出力部 121から λ 'が入力され、遅延分析装置 120の性能予測処理部 1213 が受け付ける (ステップ S50)。そして、性能予測処理部 1213は、リクエスト頻度の変更に応じて、全てのサーバ S につ、て CPU使用率 pを変更し、 CPU使用率格納

(n,m)

部 1206に格納する（ステップ S51)。 CPU使用率 pについては以下のように p 'に変更する。また、サーバ遅延時間算出部 1210は、変更後の CPU使用率 p 'を用いて、変更後の各サーバの遅延時間を算出し、サーバ遅延時間格納部 1214に格納する（ステップ S53)。ステップ S51及び S53における計算は以下のとおりになる。

[数 23]

[0082] そして、層遅延時間算出部 1215は、サーバ遅延時間格納部 1214に格納された変更後の各サーバの遅延時間 T" を用いて、変更後の各層における遅延時間を

、n，m)

算出し、層遅延時間格納部 1216に格納する (ステップ S55)。さらに、システム遅延時間算出部 1217は、層遅延時間格納部 1216に格納された変更後の各層における遅延時間を用いて、変更後のシステム全体の遅延時間を算出し、システム遅延時間格納部 1218に格納する（ステップ S 57)。

[0083] その後、入出力部 121は、変更前と変更後の各遅延時間などを出力する (ステップ

S59)。これにより、ユーザは、リクエスト頻度の変動に応じた遅延時間の変化を考察することがでさるよう〖こなる。

[0084] 次に、 CPU数変動時における性能予測について図 13を用いて説明する。ここでは

、サーバ S の CPU個数を C 力 C' に変化させるものとする。従って、入出力

(n,m) (n,m) 、n，m)

部 121から CPU個数 C' が入力され、遅延分析装置 120の性能予測処理部 1213

、n，m)

が受け付ける (ステップ S61)。そして、性能予測処理部 1213は、 CPU個数の変更に応じて CPU使用率 pを変更し、 CPU使用率格納部 1206に格納する (ステップ S6 3)。 CPU使用率 pについては、 CPU個数の変更があったサーバについてのみ以下のように P 'に変更する。また、サーバ遅延時間算出部 1210は、変更後の CPU使用率 p 'を用いて、 CPU個数が変更された各サーバの遅延時間 T" を算出し、サ

、n，m)

ーバ遅延時間格納部 1214に格納する（ステップ S65)。ステップ S63及び S65における計算は以下のとおりになる。

[0085] そして層遅延時間算出部 1215は、サーバ遅延時間格納部 1214に格納された変更後のサーバの遅延時間を用いて、変更に係る層における遅延時間を算出し

、n，m)

、層遅延時間格納部 1216に格納する (ステップ S67)。さらに、システム遅延時間算出部 1217は、層遅延時間格納部 1216に格納された各層における遅延時間を用いて、変更後のシステム全体の遅延時間を算出し、システム遅延時間格納部 1218に格納する（ステップ S68)。

[0086] その後、入出力部 121は、変更前と変更後の各遅延時間などを出力する (ステップ S69)。これにより、ユーザは、 CPU個数の変動に応じた遅延時間の変化を考察することができるようになる。例えばこの結果を用いて CPU個数を増加させた場合の効果を検討する。

[0087] 次に、サーバ数変動時における性能予測について図 14を用いて説明する。ここでは、第 n層のサーバ数を M力 M'に変化させたときの推定遅延時間を求めるものとする。従って、入出力部 121から第 n層のサーバ数 M'が入力され、遅延分析装置 1 20の性能予測処理部 1213が受け付ける (ステップ S71)。そして、性能予測処理部 1213は、サーバ数の変更に応じて 1リクエストあたりの消費 CPU時間を補正し、 CP U時間格納部 1209に格納する（ステップ S73)。 1リクエストあたりの消費 CPU時間 1 / H

(n,m)については、以下のように 1Z ' (n,m)に変更する。また、性能予測処理部 121

3は、 1リクエストあたりの消費 CPU時間の補正に応じて、 CPU使用率 pを補正し、 C PU使用率格納部 1206に格納する (ステップ S75)。 CPU使用率 pについては、以下のように /0 'に変更する。

なお、 α は、 1Ζ を算出する際に求めた切片であり、 CPU時間格納部

、n，nv 、n，m) 120

9に格納されて、るのでこれを用いる。

次に、サーバ遅延時間算出部 1210は、 CPU使用率格納部 1206に格納された変更後の CPU使用率 p '及び CPU時間格納部 1209に格納された変更後の 1リクエストあたりの消費 CPU時間 1Z ' (n,m)を用いて、変更後のサーバ遅延時間を算出し、サーバ遅延時間格納部 1214に格納する (ステップ S77)。変更後のサーバ遅延時間 T " 、n，m)は以下のように表される。

[数 26]

そして、層遅延時間算出部 1215は、サーバ遅延時間格納部 1214に格納された変更後のサーバの遅延時間を用いて、各層における遅延時間を算出し、層遅

(n,m)

延時間格納部 1216に格納する（ステップ S79)。なお、本ステップにおいても性能予測処理部 1213からの M'を用いて以下のような計算を行う。

[数 27]

なお、（16)式から L'¹は、以下のようにも表わされる。

[数 28]

[0091] さらに、システム遅延時間算出部 1217は、層遅延時間格納部 1216に格納された各層における遅延時間を用いて、変更後のシステム全体の遅延時間を算出し、システム遅延時間格納部 1218に格納する (ステップ S81)。

[0092] その後、入出力部 121は、変更前と変更後の各遅延時間などを出力する (ステップ S83)。これにより、ユーザは、サーバ個数の変動に応じた遅延時間の変化を考察することができるようになる。例えばこの結果を用いてサーバ個数を増加させた場合の効果を検討する。

[0093] 以上本発明の実施例を説明した力本発明はこれに限定するものではない。例えば、図 4A及び図 4Bに示した機能ブロック図は一例であって、必ずしも実際のプログラム構成に対応しない場合もある。また、出力処理については、数値をそのまま表示するだけではなぐ図 15に示すようなテーブル（1リクエストあたりの消費 CPU時間、 CPU使用率、サーバ毎の平均遅延時間、各層の平均遅延時間、遅延実測値、サーバ以外の推定遅延時間、各層の遅延時間の信頼度を単位時間 i毎に表示するテーブル)や、図 16に示すようなグラフ (横軸が時刻、縦軸が遅延時間を表し、 Webサーノ (第 1層）、アプリケーションサーバ (第 2層）、 DBサーバ (第 3層）、その他についての遅延時間の時間変化を表すグラフ）を生成して、表示させるようにしても良い。なお、図 16のグラフを見れば、 9時から 12時の通常時には、ほぼ Webサーバの遅延が全体の半分以上になっており（図 16中の部分 A)、 12時から 15時に DBサーバの一時的な負荷増大によりレスポンスが著しく低下しており（図 16中の部分 B)、 18時以降サーバ以外の遅延時間が増加しており、何らかの問題が発生した力もしれないこと（図 16中の部分 C)などを判断することができるようになる。

[0094] また、上で述べた遅延分析装置 120は、コンピュータ装置であって、図 17に示すように、メモリ 2501 (記憶部）とじ？112503 (処理部）とハードディスク'ドラィブ0¾00) 2 505と表示装置 2509に接続される表示制御部 2507とリムーバブル'ディスク 2511 用のドライブ装置 2513と入力装置 2515とネットワークに接続するための通信制御部 2517とカス 2519で接続されて!、る。オペレーティング ·システム（OS： Operating System)及び本実施例における処理を実施するためのアプリケーション ·プログラムは、 HDD2505に格糸内されており、 CPU2503により実行される際には HDD2505力らメモリ 2501に読み出される。必要に応じて CPU2503は、表示制御部 2507、通信制御部 2517、ドライブ装置 2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ 2501に格納され、必要があれば HDD2505に格納される。本発明の実施例では、上で述べた処理を実施するためのアプリケーション'プログラムはリムーバブル'ディスク 2511に格納されて頒布され、ドライブ装置 2513から HDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部 2517を経由して、 HDD2505にインストールされる場合もある。このようなコンビュータ装置は、上で述べた CPU2503、メモリ 2501などのハードウェアと OS及び必要なアプリケーション 'プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

Claims

請求の範囲

[1] 複数のサーバを含むコンピュータ 'システムのレスポンスに関する分析を行う分析装置であって、

前記コンピュータ 'システム力前記複数のサーバの各々の CPU使用率のデータを取得し、 CPU使用率格納部に格納する手段と、

前記コンピュータ 'システムにおいて生成される処理履歴データを取得し、前記コンピュータ 'システムのユーザによるリクエスト頻度のデータを生成し、リクエスト頻度データ格納部に格納する手段と、

前記 CPU使用率格納部に格納された各サーバの CPU使用率と前記リクエスト頻度格納部に格納された前記リクエスト頻度とを用いて、各前記サーバにおける平均遅延時間を推定し、サーバ遅延時間格納部に格納する推定手段と、

を有する分析装置。

[2] 前記推定手段は、

前記 CPU使用率格納部に格納された各前記サーバの CPU使用率と前記リクエスト頻度格納部に格納された前記リクエスト頻度と用いて、各前記サーバの 1リクエストあたりの平均消費 CPU時間を推定し、消費 CPU時間格納部に格納する消費 CPU 時間推定手段と、

前記消費 CPU時間格納部に格納された各前記サーバの 1リクエストあたりの平均消費 CPU時間と前記 CPU使用率格納部に格納された各サーバの CPU使用率とを用いて、各前記サーバにおける平均遅延時間を推定し、前記サーバ遅延時間格納部に格納するサーバ遅延時間推定手段と、

を含む請求項 1記載の分析装置。

[3] 前記消費 CPU時間推定手段が、

予め指定された時間帯における各前記サーバの CPU使用率と前記リクエスト頻度とを用いて回帰分析を実施することにより、各前記サーバの 1リクエストあたりの平均消費 CPU時間を推定する

ことを特徴とする請求項 2記載の分析装置。

[4] 前記サーバ遅延時間推定手段が、前記サーバの 1リクエストあたりの平均消費 CPU時間と当該サーバにおける平均遅延時間との関係を表す係数値を当該係数値を決定する要素である前記 CPU使用率の所定単位毎及び CPU個数毎に格納するマトリクス格納部を参照して該当する係数値を読み出し、当該係数値と前記サーバの 1リクエストあたりの平均消費 CPU時間とから前記サーバにおける平均遅延時間を算出する

ことを特徴とする請求項 2記載の分析装置。

[5] 前記コンピュータ 'システムに含まれる複数のサーバが、実行する業務種別に応じてカテゴリ分けされている場合、当該カテゴリ毎に平均遅延時間を推定する手段をさらに含む請求項 1記載の分析装置。

[6] 前記サーバ遅延時間格納部に格納されたデータを用いて、前記コンピュータ 'システム全体の平均遅延時間を推定し、システム遅延時間格納部に格納する手段をさらに含む請求項 1記載の分析装置。

[7] 前記コンピュータ 'システムにおける、ユーザによるリクエストに対するレスポンス時間の平均実測値を取得し、平均実測値格納部に格納する手段と、

前記平均実測値格納部に格納された平均実測値と前記システム遅延時間格納部に格納された前記コンピュータ 'システム全体の平均遅延時間との差により、サーバ以外の箇所で発生した遅延時間を推定する手段と、

をさらに含む請求項 6記載の分析装置。

[8] 前記カテゴリ毎に、平均消費 CPU時間の総和とリクエスト頻度との相関係数を算出し、当該相関係数に基づき前記カテゴリ毎の平均遅延時間の信頼度を決定し、信頼度データ格納部に格納する手段と、

前記信頼度データ格納部に格納された前記カテゴリ毎の平均遅延時間の信頼度に基づき、前記カテゴリ毎の平均遅延時間を補正し、記憶装置に格納する補正手段と、

をさらに含む請求項 7記載の分析装置。

[9] 前記補正手段が、

前記カテゴリ毎の平均遅延時間を信頼度の高い順にソートする手段と、前記信頼度の高い順に前記カテゴリ毎の平均遅延時間を累積してゆき、累積された平均遅延時間が前記遅延実測値未満であって最大の値を有することとなる信頼度の順番を特定する手段と、

特定された前記信頼度の順番の次の順番の遅延時間を、前記遅延実測値と前記信頼度の高い順に前記カテゴリ毎の平均遅延時間を特定された前記信頼度の順番まで累積することにより得られる値との差に補正する手段と、

を含む請求項 8記載の分析装置。

[10] リクエスト頻度が変更された場合、当該変更後のリクエスト頻度に応じて各前記サーバの CPU使用率を変更し、記憶装置に格納する手段と、

前記記憶装置に格納された変更後の各前記サーバの CPU使用率を用いて、各前記サーバにおける平均遅延時間を推定し、記憶装置に格納する手段と、

前記サーバ遅延時間格納部及び前記記憶装置に格納された変更前後の各前記サーバの平均遅延時間を比較可能な態様で出力する手段と、

をさらに含む請求項 1記載の分析装置。

[11] CPU数が変更された場合、当該変更後の CPU数に応じて各前記サーバの CPU 使用率を変更し、記憶装置に格納する手段と、

前記記憶装置に格納された変更後の各前記サーバの CPU使用率と前記変更後の CPU数とを用いて、各前記サーバにおける平均遅延時間を推定し、記憶装置に格納する手段と、

をさらに含む請求項 1記載の分析装置。

[12] サーバ数が変更された場合、当該変更後のサーバ数に応じて各前記サーバの 1リタエストあたりの平均消費 CPU時間を算出し、記憶装置に格納する手段と、

CPU個数と前記記憶装置に格納された変更後の各前記サーバの 1リクエストあたりの平均消費 CPU時間とを用いて、変更後における各前記サーバの CPU使用率を算出し、記憶装置に格納する手段と、

前記記憶装置に格納された変更後の各前記サーバの 1リクエストあたりの平均消費 CPU時間と前記変更後における各前記サーバの CPU使用率とを用いて、変更後における各前記サーバの平均遅延時間を推定し、記憶装置に格納する手段と、をさらに含む請求項 2記載の分析装置。

[13] 前記記憶装置に格納された前記変更後における各前記サーバの平均遅延時間と変更後のサーバ数とを用いて、前記コンピュータ 'システムに含まれる前記複数のサーバを実行する業務種別に応じて分けることにより規定されるカテゴリ毎の平均遅延時間を推定し、記憶装置に格納する手段

をさらに含む請求項 12記載の分析装置。

[14] 請求項 1乃至 13のいずれか 1つ記載の分析装置における各手段をコンピュータに実現させるためのプログラム。

[15] 複数のサーバを含むコンピュータ 'システムのレスポンスに関する分析を行う分析方法であって、

前記コンピュータ 'システム力前記複数のサーバの各々の CPU使用率のデータを取得し、 CPU使用率格納部に格納するステップと、

前記コンピュータ 'システムにおいて生成される処理履歴データを取得し、前記コンピュータ 'システムのユーザによるリクエスト頻度のデータを生成し、リクエスト頻度データ格納部に格納するステップと、

前記 CPU使用率格納部に格納された各サーバの CPU使用率と前記リクエスト頻度格納部に格納された前記リクエスト頻度とを用いて、各前記サーバにおける平均遅延時間を推定し、サーバ遅延時間格納部に格納する推定ステップと、

を含み、コンピュータにより実行される分析方法。