WO2007052327A1

WO2007052327A1 - 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

Info

Publication number: WO2007052327A1
Application number: PCT/JP2005/019974
Authority: WO
Inventors: Shinji Kikuchi; Ken Yokoyama; Akira Takeyama; Koji Ishibashi; Kenichi Shimazaki; Lilian Harada; Nobuhiro Yugami; Yukiko Seki
Original assignee: Fujitsu Limited
Priority date: 2005-10-31
Filing date: 2005-10-31
Publication date: 2007-05-10
Also published as: JPWO2007052327A1; US20090048807A1; EP1944699A4; US7970584B2; EP1944699B1; EP1944699A1; JP4983604B2

Abstract

　資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と、性能異常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を判断するに際し、決定木の手法を用いて、決定木のある状況を表す親ノードを２つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて決定木を生成するようにした。

Description

性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

技術分野

[0001] 本発明は、例えば、複層サーバシステムなどの複雑なネットワークシステムにおいて

、性能異常の発生パターンを解析して明確にすることで、性能異常の早期原因特定や早期異常解消を支援する性能異常分析装置、性能異常分析方法及び性能異常分析プログラム、並びに性能異常分析装置の分析結果表示方法に関するものである

背景技術

[0002] 従来より、システムの性能異常の原因を解析する方法はいくつ力研究されてきている。下記非特許文献 1は、イベントトレーサという測定手段をリナックス (Linux)のカーネルに埋め込み、資源の利用状況をより直接的に観測し、その挙動の分析を行っている。この方法は、より詳細なデータを直接採取するので、システムのベンチマークテストなどの環境においては、非常に有効である。

[0003] しかし、運用中のシステムにおいて、カーネルに測定手段を埋め込むのは非常に困難である。また、この手段はオープンソースの OSにしか適用できない。

[0004] また、下記非特許文献 2は、システム性能分析の方法として、 "automated drill down "を提案している。この手法は、時間→分、サブネット→ホストというように、パラメータを観測する粒度を変化させながら分析を行、、性能異常の割合の大き、粒度を割り出している。

[0005] しかし、この手法にぉ、ては、リソース消費量など、連続量で表されるパラメータについては、粒度を設定することのできないパラメータは分析が困難である。よって、分祈に用いることのできるパラメータが非常に限られてしまうため、本発明の目的である、多数の数値パラメータの分析には適用することは困難である。

[0006] 決定木を利用した障害分析の方法としては、非特許文献 3にお、て、オープンソースのァ一タマイニングツーノレ (Weka 3: Data Mining Software in Java, http://www.es. waikato.ac.nz/ml/weka/)を用いて、オークションサイトの eBayで発生した障害を分析している。しかし、この手法における環境においては、分析に用いられるパラメータの種類が 6つしかなぐそれらはリクエストのタイプやホスト名など、全て離散的な情報であり、数値情報ではなぐそれぞれのパラメータが取りうる値の数の上限は非常に限られている。そして、どのシステム内のどの機器が障害の原因となっているかなどについて分析を行うが、その機器がどのような状態 (パラメータの値の範囲)になると障害が発生するかと!/、うことを知ることはできな!、。

[0007] さらに、この手法では、「C4.5」（分割統治法に基づくアルゴリズムを有し、各ノードを構築構築するための関数を再帰的に呼び出して木を構築し、木を構築する対象となるデータから、各ノードにおける分割情報を取得して分割対象となる属性を選択する手法)や「MinEntropy」などの既存の手法を用いて決定木を生成して、る。

非特干文献 1 : T.Horkawa, Application of Event Trace Framework for Performance Problem Solutions, I PS J SIG Technical Report, 2003.

非特許文献 2 : D.G.Hart, J丄. Hellerstein, and P.C.Yue, Failure Diagnosis Using Det ection Trees Automated Drill Down: An Approach to Automated Problem Isolation f or Performance Management, Proc. of the Computer Measurement Group, 1999. 非特許文献 3 : M.Chen, A.X.Zheng, J丄 loyd, M丄 Jordan, and E.Brewer, Failure Diag nosis Using Detection Trees, Proc. of International Conference on Autonomic Comp uting, 2004.

発明の開示

発明が解決しょうとする課題

[0008] ところで、近年のネットワークサービスの発展に伴い、そのサービスの品質の高さが問われるようになってきている。例えば、事業者とサービスプロバイダの間で Service 1 evel agreement (SLA)が締結され、サービス品質の劣化に対して、サービスプロバイダにペナルティが課せられるケースも出てきている。このため、システム管理者はサ一ビス品質を常に監視し、性能異常を減らすよう努める必要がある。

[0009] しカゝしながら、近年は Webシステムに代表されるネットワークシステムが大規模/複雑ィ匕してきている。従って、上述した従来の技術においては、それらを構成する機器の稼働状況を示す多種多様なパラメータから、システムの挙動を把握し、異常が発生した状況の特徴を分析し、異常の原因を特定するのは困難であるという問題がある

[0010] 本発明は上述した問題点を解決するためになされたものであり、実運用中のシステムに容易に適用可能になるように、サーバのログや基本コマンドの利用のみで採取可能な多種多様なパラメータを扱うことができ、精度が高ぐ信頼度の高い性能異常分析装置、方法及びプログラム、並びにその表示方法を提供することを目的とする。課題を解決するための手段

[0011] 上述した課題を解決するため、本発明は、複数のコンピュータ力もなるシステムの性能異常の分析をコンピュータに実行させる性能異常分析プログラムであって、システムの資源利用状況を取得する資源利用状況取得ステップと、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得ステツプと、性能異常の有無を判断する性能異常有無判断ステップと、前記資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析ステップであって、決定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高ヽ場合の条件を判断する前記条件分析ステツプとを備えてコンピュータに実行させるものである。

[0012] また、本発明の性能異常分析プログラムにおいて、前記条件分析ステップは、前記評価関数として、親ノードに属する正常サンプルの数 N及び異常サンプルの数 Aと

0 0

、一方の子ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サ

1

ンプルの数 Nの組、又は一方の子ノードに属する正常サンプルの数 N及び他方の

2 1

子ノードに属する異常サンプルの数 Aの組との、ずれかの組におけるそれぞれのサンプノレの数と

を用いた評価関数を用いることを特徴とする。

[0013] また、本発明の性能異常分析プログラムにおいて、前記条件分析ステップは、前記評価関数として、 A /Aと N /Nの積を用いることを特徴とする。

1 0 2 0

[0014] また、本発明の性能異常分析プログラムにお、て、前記条件分析ステップは、決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を選択することで、性能異常の発生割合が高！ヽ場合の条件を判断する。

[0015] また、本発明の性能異常分析プログラムにおいて、性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を、表形式又はベン図形式で出力する分析結果出力ステップを備えることを特徴とする。

[0016] また、本発明は、複数のコンピュータ力もなるシステムの性能異常の分析を行う性能異常分析方法であって、システムの資源利用状況を取得する資源利用状況取得ステップと、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得ステップと、性能異常の有無を判断する性能異常有無判断ステップと、前記資源利用状況取得ステップにより取得された資源利用状況とリタエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析ステップであって、決定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高い場合の条件を判断する前記条件分析ステップとを備える。

[0017] また、本発明は、複数のコンピュータ力もなるシステムの性能異常を分析する性能異常分析装置であって、システムの資源利用状況を取得する資源利用状況取得部と、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得部と、システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得部と、性能異常の有無を判断する性能異常有無判断部と、前記資源利用状況取得部により取得された資源利用状況とリクエスト発生頻度取得部により取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断部により判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析部であって、決定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高い場合の条件を判断する前記条件分析部とを備えてなる。

[0018] また、本発明に係る性能異常分析装置の分析結果表示方法は、性能異常の発生割合が高くなる場合の条件をパラメータとその閾値の集合で表し、性能異常の発生割合と該性能異常が発生するときの条件をベン図形式で表示するようにした。

[0019] この性能異常分析装置の分析結果表示方法にお!、て、ベン図の各領域の描画方法を、各領域が表す状況下における性能異常発生頻度又は発生回数に対応させて変化させることで、異なる条件下における性能異常発生頻度の差異を視覚的に表すことを特徴とすることができる。

[0020] また、分析の出力結果におけるパラメータ又は閾値を任意に変更することができ、その変更による結果を図表に反映することを特徴とすることもできる。

図面の簡単な説明

[0021] [図 1]実施の形態 1に係るの構成の一例を示すブロック図である。

[図 2]構造体形式で記述した分析用データ構造の一例を示す図である。

[図 3]決定木によって状況分析を行う方法の一例を示す図である。

[図 4]異常サンプルをほとんど含まないような葉を多数生成するような分岐を示す図である。

[図 5]条件分析ステップのフローチャートである。

[図 6]決定木の一例を示す図である。 [図 7]図 6に示した決定木を表形式で示した図である。

[図 8]図 6に示した決定木をベン図形式で表した例を示す図である。

[図 9]ベン図インタフェースを示す図である。

[図 10]分析対象システムの概要を示すブロック図である。

[図 11]リソース利用状況に関する情報を示す図である。

[図 12]実験条件下それぞれにおける評価関数 (TEF)の値を示す図である。

[図 13]図 12に示した実験条件下で生成された決定木において個々の異常状態の説明に必要なパラメータの平均個数を示す図である。

[図 14]パターン 1 (ゲイン）とパターン 3 (本実施の形態）における時間とパラメータ探索のためのループ回数の関係を示す図である。

[図 15]本実施の形態における評価関数 (FFS)の値が最大となる場合のベン図形式での出力結果を示す図である。

発明を実施するための最良の形態

[0022] 以下、本発明の実施の形態について図面を参照しつつ説明する。

[0023] [分析ターゲット]

本実施の形態において、性能異常の分析対象とするシステムは、一例として Webを基本としたシステムであり、複数の UNIXサーバなどが連携してトランザクション処理を行うようなシステムを対象としている。例えば、 e-commerceシステムや、ェンタプライズにおける基幹業務システムなどが挙げられる。

[0024] 監視対象となるサービスレベルを示すパラメータは、 Webトランザクションのレスポンスタイムとし、管理者が着目するトランザクションのレスポンス力設定された閾値を越えた場合、性能異常が発生したと判断する。

[0025] [アプローチ]

分析対象となるシステムを監視し、それらの挙動を示すパラメータを獲得するための手法には様々なものが存在している。例えば、監視のためのコードを OSに埋め込んだり、特別な監視用機器をネットワークに挿入したりする方法がある。しかし、それらの方法は、実際に稼働中のシステムに導入するのに困難が伴う場合が多、。

[0026] 本実施の形態では、より実装が容易な方法として、サーバのログや基本的なコマンド操作力も得られる情報のみを利用して分析を行うこととしている。なお、この手法は上記の手法の採用を妨げるものではない。このような前提に基づき、設定した本実施の形態の構成を図 1に示す。図 1において、 1は分析対象を表し、 1 Aは Webサーバ、 1Bはアプリケーションサーノ、 1Cはデータベースサーバを示す。性能異常分析装置 10は分析に必要な情報を測定データとして取得し記憶するデータベース 11、性能異常の条件を分析し判断する性能異常分析部 12、及びその分析結果を表示する分析結果表示部 13を有する。

[0027] 本実施の形態のシステムにおいて、監視対象であるトランザクションの発生頻度やレスポンスタイムは、 Webサーバのログから取得する。広く普及している Apache (登録商標）等の Webサーバ (Apache HTTP Server Project, http： //www. apache. org/)であれば、オプションを指定することにより、 msec単位でのレスポンスタイムをログに記録することが可能である。

[0028] また、各サーバのリソース利用状況を示すパラメータを、 sar,mpstat,iostatなど、標準的に利用できるコマンドを利用して、監視対象システムの全てのサーノくから定期的に採取する。これらのパラメータを決定木によって分析し、レスポンスタイムの閾値超えが発生した時点でのリクエスト発生頻度やリソースの使用率を分析し、性能異常が発生する条件を特定するものとする。ここにおいて、後述するように、性能異常分析装置 10は、本発明の資源利用状況取得部と、リクエスト発生頻度取得部と、処理時間取得部と、性能異常有無判断部と条件分析部とを有して!/ヽる。

[0029] [分析アルゴリズム]

(決定木）

決定不 (し Breiman, J.H.Friedman, R.A.Olsen, and C.J.Stone, し lassincation and R egression Trees, Wadsworth, 1984.)は、一般的には自動制御などの意思決定や事象の判断に用いられることが多い分類手法である。この決定木は、クラスタ分析など他の分類手法に比べて、分類や状況分析の理由を説明するのに適している。そこで、本実施の形態では、この手法を性能異常が発生した状況の分析に用いることにする。

[0030] (データ構造）分析に用いるデータの構造を構造体形式で記述したものを図 2に示す。データは（ 1)日時、（2)リクエスト頻度、（3)リソース消費量、そして (4)正常 Z異常を区別するフラグの 4つのカテゴリの情報によって構成されている。本実施の形態の手法においては、各パラメータを一定間隔のタイムスライスでサンプリングし、そのタイムスライス 1個分のデータを 1サンプルとして定義し、決定木による分析に用いる。

[0031] 各カテゴリに属するパラメータの種類は、管理者の着目するトランザクションや、システム力取得可能なパラメータによって任意に変更可能である力例えば、以下のような情報などの利用が想定される。

[0032] (1)日時情報：データのサンプリング日時

年、月、日、時、分

(2)リクエスト頻度：タイムスライス内で発生した HTTPリクエストの数を、以下の種類別にカウントしたもの

レスポンスコード (200, 304, 404, etc)

拡張子 (.html, .gif, .jsp, gi, etc)

リクエストタイプ (GET or POST)

性能異常監視対象のリクエスト (URL)

(3)リソース消費量:以下の場合を一例とする。

CPU使用率 (Usr, Sys, I/O wait, total,キュー長， etc)

Disk (読込 Z書込回数， R/W待ち時間等）

Memory (空きメモリ，ページフォルト数等）

Process (アクティブプロセス数）

(4)フラグ属性：各タイムスライスについて、そのタイムスライス内の着目リクエストのレスポンスタイムが所定の性能異常判定条件を満たした場合に、そのタイムスライスを性能異常サンプルと判定し、条件を満たさない場合は、正常サンプルと判定する。

[0033] 性能異常判定条件とは、例えば、タイムスライス内で、以下を満たす場合を含み得る。これらの条件は適宜設定することができるものとする。

(1)着目リクエストの閾値越えが 1回でも発生した。

(2)着目リクエストの閾値越えが所定の回数以上 (例えば 5回以上）発生した。 (3)着目リクエストの閾値越えが所定の割合以上 (例えば、そのタイムスライス内での着目リクエストの発生回数の 50%以上）発生した。

(4)着目リクエストのレスポンスタイムが長、もの力も上位 20%のレスポンスタイムが閾値を超えた。

[0034] (決定木の構成）

上記で定義したサンプルを、決定木によって状況分析を行う方法の例を図 3に示す

。図 3には、 1つの親ノード Pと、 2つの子ノード CI, C2からなる木が示されている。

[0035] それぞれのノードは「状況」を表しており、その状況に合致するサンプルがそのノードに属していると考えることができる。ここでは、親ノード Pには、 N個の正常サンプル

0

と A個の異常サンプルが含まれているものとする。そして、親ノード Pが表す状況を、

0

ノラメータ αが Τ未満である状況 C1 (正常サンプル Ν個と異常サンプル Α個が属す

1 1 る)と、 aが T以上である状況 C2(正常サンプル N個と、異常サンプル A個を含む)に

2 2

分岐している。

[0036] このような分岐を各ノードで再帰的に繰り返していき、状況を細分化することで、決定木を構築していく。そして、生成された決定木の葉のうち、異常サンプルを多く含む葉力根までのパスに存在する分岐条件をリストアップすることで、異常が発生しやすい条件を明らかにする。

[0037] 決定木を生成する際に重要なことは、分岐に用いるパラメータとその閾値の選択方法である。一般的な決定木においては、決定木の葉に含まれるサンプルの属性から、その葉が表す属性の「代表値」を多数決によって決定する場合が多い。このようなことから、決定木の葉には、なるべく 1つの属性値を持つサンプルが多数含まれ、他の属性値を持つサンプルがあまり含まれないように分割をする。

[0038] 例えば、代表的な決定木構築手法 ID3においては、式（1) (2)に示される情報利得という評価関数を用いて、分岐に利用するパラメータの選択を行う (S.J.Russell, and P.Norvig, Artificial intelligence, Prentice-Hall, 1995.ノ。

[0039] [数 1] Gain = -p(0) ₊ ^^- p(i) \ (1 )

! + W₀

Ρ(η) ' _t log₂ -

^An ^{+ N}n

' (2)

-log₂

A„ + N, A„ + N_K

[0040] しかし、本発明の目的である性能異常の発生状況の分析においては、性能異常の発生確率が低ぐ異常サンプルよりも正常サンプルの方がはるかに多い場合 (Ν≥A )

0 0 が多数存在すると考えられる。このような条件下においては、

[0041] [数 2]

+ N0 Q + N₀

[0042] となり、常にゲインが非常に小さくなつてしまい、有用な結果が導出しにくい可能性もめる。

[0043] さらに、このような分岐方法では、数の多い正常サンプルのみが発生する条件の抽出が容易になるため、図 4に示したように、異常サンプルほとんど含まないような葉を多数生成するような分岐が現れる可能性も高い。このような分岐を多数行っても、分岐前のノード (P)と分岐後のノード (C4)において、それらが表す状況 (含まれる異常サンプル)はほとんど変化しな!、。

[0044] それにも関わらず、状況の説明に必要な条件式の数はどんどん大きくなつてしまう。

本発明の目的である「異常が発生する状況の分析」においては、分析結果が簡潔である (状況の説明に必要な条件式が少な、；)方が好ま、ので、このような分岐方法は本実施の形態には適さない。

[0045] 上記の問題を解決するため、本実施の形態においては、状況を「異常値の発生割合が多、状況」と「正常値の発生割合が多、状況」に分類するための評価関数 SSF(S ituation Separating Function)を考案し採用した。この評価関数を最大にするようなパラメータと閾値の組を選択し、決定木の分岐を行うものとする。 [0046] [数 3]

[0047] 図 3に示すように、 1つの親ノード PP (正常サンプル N個、異常サンプル A個)を 2つ

0 0 の子ノードに分割する場合、片方の子ノード C1 (異常サンプル N1個)に、親ノードに含まれる異常サンプル Aの大部分が含まれ、もう一方の子ノード C2(正常サンプル N個)

0 2 に、親ノードに含まれる正常サンプル Nの大部分が含まれる場合、評価関数 SSFの

0

値は大きくなる。

[0048] この方法であれば、正常サンプル数と異常サンプル数の比率 (A /N )によらず、そ

0 0

れらのサンプルを「異常力比較的"発生しやすい状況」と「異常がほとんど発生しない状況」を適切に分離することが可能である。なお、本実施の形態では、評価関数として、親ノードに属する正常サンプルの数 N及び異常サンプルの数 Aと、一方の子

0 0

ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サンプルの数

1

Nの組を用いるようにした力これに代えて、親ノードに属する正常サンプルの数 N

2 0 及び異常サンプルの数 Aと、一方の子ノードに属する正常サンプルの数 N及び他

0 1 方の子ノードに属する異常サンプルの数 Aの組とを用いて同様の効果を有する評価

2

関数を用いるようにしても良、ことは、うまでもな!、。

[0049] 本実施の形態においては、上記の評価関数を用いて、状況の分岐を再帰的に行い、決定木を構築する。なお、決定木により状況が過度に細力べ分解されないように閾値を設け、ノード Czに属する異常サンプル数 Azと異常サンプル全体 Aの比 Ax/A

0 0 がその閾値を下回ったら、そのノードを終端するものとする。

[0050] (パラメータ選択）

決定木アルゴリズムは多数のパラメータの中から、分岐に適切と思われるパラメータを 1つずつ抽出して、状況の分岐を行うことで決定木を構築していくが、本発明の目的であるシステムの性能異常分析の場合のように、利用可能なパラメータの数が非常に大きかったり、独立でないパラメータが多数存在する場合には、最適なパラメ一タ選択を行うことができずに、状況を適切に表す決定木を獲得できないような状況も発生する。

[0051] このような問題を解決するために、本実施の形態においては、条件分析において、決定木の生成に使用するパラメータを探索的に選択変更させながら、複数の決定木を生成し、その中から最良の結果を選択する。本発明の条件分析部における条件分祈のアルゴリズムのフローチャートを図 5に示す。このアルゴリズムでは、以下のような手順でパラメータの選択を行う。

[0052] (Phase 1 :初期化）

ノメータとして使用可能なパラメータが n個あり、それらの集合が [ひ , α ,···, « ]で

1 2 η あるとき、 V= [ひ， α ,· · ·, a ]とおく。また、評価関数の最大値を表すパラメータ MAXを

1 2 n

0とおく（ステップ SI)。

[0053] (Phase2 :決定木構築）

ノラメータの集合 Vを使って決定木 Tを構築する (ステップ S 2)。このとき、集合 V中

0

の全てのパラメータが決定木の生成に使用されるとは限らない。集合 Vのうち、 τの

0 構築に実際に使用されたパラメータの集合を Vとする。そして、以下のように、 Vにパ

0 0 ラメータ aを加える、もしくは V力もパラメータ aを削除した集合を Vとする。

i 0 i i

[0054] 画

[0055] 上記の (1≤ η)を利用して、 η個の決定木 1^(1≤ η)を構築する。

[0056] (Phase3：決定木評価と選択）

ここでは、 Phase2で構築した n+1個の決定木 Τ ,Τ ,· · ·,Τの中から、もっとも適切な決

0 1 η

定木の選択を行う（ステップ S3)。決定木の適切さを評価する関数としては、一般的には「False positive rate J ^ TFalse negative rate」、そしてそれらの複合的な関数である「F-Measure」の値などが用いられている。し力し、前述したように、異常サンプルに比べて正常サンプルの数が非常に大きいような場合には、あらゆる葉で異常サンプルよりも正常サンプルの方が多ぐ全ての結果において「False negative]になるような場合も存在するため、これらの評価関数は本実施の形態が適用される分析対象には適さない。

[0057] このようなことから、本実施の形態では、以下の独自の評価関数 Tree Evaluation Fu notion (TEF)を用いて、決定木の適切さを判断するものとする。

[0058] [数 5]

A_l

- A ; (N - N . )

TEF(T) = - ' _F …(

i

[0059] ：で、 T:決定木

Ν:正常サンプノレ全体の数

Α:異常サンプル全体の数

Τ:閾値

L :決定木 Τの葉ノード

Α :葉 Lに属する異常サンプルの数

Ν：葉しに属する正常サンプルの数

[0060] この関数の考え方は基本的には分岐に用いた関数 SSFと同様であり、決定木の葉ノード Lに属する異常サンプルの、異常サンプル全体に対する割合 (Α/Α)が大きぐかつその Lに属する正常サンプルの、正常サンプル全体に対する割合 (Ν/Ν)が小さい場合に、評価関数 TEFは大きくなる。また、異常サンプル数が極度に少ない葉については、異常発生状況の説明にほとんど意味を持たないものと考え、そのような葉の影響を除去するために、一定の閾値を設け、その閾値以上の割合の異常サンプルを含むような葉のみを用いて上記の評価関数 TEFを評価するものとする。

[0061] この評価関数 TEFを用いて決定木 Τ ,Τ ,· ··,Τの評価を行い、 TEF(T )≥TEF(T )

0 1 n M M

≥TEF(T) (0≤ n)となる Mを導出し、 V=Vと設定する。

i M

[0062] (Phase4 :判定）

ここでは、 TEFの値が極大値になったかどうかを調査する（ステップ S4)。 Phase3で得られた TEF(T )を、以前のループにおける TEFの最大値 MAXと比較し、 TEF(T )>

M M

MAXの場合は、 MAX=TEF(T )と代入し (ステップ S5)、再度 Phase2よりループを繰り

M

返す。 TEF(T )=MAXの場合は、 TEF(T )の値が極大値に達したと判断し、ループを終了し、 Tを最終的に得られた決定木として採択する (ステップ S6)。

[0063] (出力）

決定木により、性能異常が発生しやすい状況を特定することは可能になるが、決定木のサイズが大きくなり、ノードの数が増加すると、決定木を見ただけでは、その決定木の分析結果を解釈することが非常に困難になる。実際、決定木を目にしたこともないシステム管理者も多数存在すると考えられる。本実施の形態では、管理者がより直感的に状況を把握できるように、決定木をそのまま出力するのではなぐその決定木の分析結果を表形式とベン図形式という、より分力りやすい形式で出力する。

[0064] (テーブル形式）

決定木の分析結果を表形式に変換するために、異常サンプルを含むような状況を表す決定木の葉に対して、根からそれらの葉までのそれぞれのパスに現れる条件式を抽出する。そして、その条件式を、日時、リクエスト頻度、リソース消費量の 3つの力テゴリにまとめて表形式で表示する。例として、図 6に決定木を、図 7にその決定木を表形式で現したものを示す。

[0065] (ベン図形式）

ベン図には、異常状態と関係の大きい 3つの条件式と、その AND/ORで構成されるエリアに、それぞれのエリアに該当する全サンプル数と異常サンプルの数及びそれらの比を表示する。

[0066] このベン図により、表形式で表されている条件のうち、どれが重要なのかを直感的に把握することができる。また、条件の間の関係 (例えば、「条件 Aかつ条件 B」のときに異常が発生するの力それとも「条件 Aまたは条件 B」のときに異常が発生するのかなど)を瞬時に把握することが可能になる。

[0067] ベン図の生成に用いる 3つの条件式は、決定木中に存在する全ての条件式について、それぞれの条件式を用いて全サンプルを分割したときの評価関数 SSFを評価し、これらの条件式のうち、 SSFが大きかったもの 3つを、ベン図で使用するものとする。また、ベン図内のそれぞれのエリアについて、異常発生割合が高いケースほど色が濃く表示されるようにし、より着目すべきポイントを分かりやすく表示する。

[0068] 図 6の決定木をベン図形式で表した例を図 8に示す。この図からは、異常が最も発生しやすい状況は、（1)日付が 26日以降、（2)*.htmlに対するリクエストが lOOreq/sec 以上、（3)CPU使用率が 70%以上という 3つの条件が同時に発生している場合であるということが直感的に理解できる。

[0069] 本実施の形態においては、ベン図を用いて単に結果を出力するだけでなぐベン図そのものにインタフェースとしての機能を持たせ、インタラクティブに解析結果に手を加えて、新たな分析を行うことを可能にすることで、より柔軟な状況解析を可能にする。このベン図インタフェースを Java Appletで作成したものスクリーンショットを図 9に示す。

[0070] このプロトタイプにおいては、ベン図のそれぞれのエリアにおける条件式のパラメ一タの種類をプルダウンメニューで、またパラメータの閾値をテキストボックスに値を直接入力することで変更することが可能になっている。そして、ベン図の右下に用意された Updateボタンを押すと、ユーザが変更した条件式に沿って、ベン図中の値やエリァの色の濃さが変化するようになって、る。

[0071] [調査]

(条件）

本実施の形態を実際に多数のユーザによって利用されている環境に適用し、その分析および評価を行った。

[0072] 図 10に分析対象システムの概要を示す。分析対象システムは、 4台の Webサーバ兼アプリサーバと、 1台の DBサーバからなる Webシステムである。 4つずつ CPUが搭載されている Webサーバ兼アプリサーバには、ロードバランサによりユーザリクエストが均等に分配されるようになって、る。

[0073] DBサーバは 8つの CPUを持っている。これら全てのサーバの OSは Solaris8 (登録商標）であり、 Webサーバには Apache,アプリサーバには Fujitsu Interstage (Fujitsu Inte r stage, http://interstage.fujitsu.com/ )、 DBサ ~~ノヽに ίま Fujitsu Symfoware (Fujitsu S ymfoware, http://www.fujitsu.com/ services/ software/ symfoware/) ll用 LTV、る。

[0074] ユーザ力も上記システムに送信されてくるリクエストのうち、比較的発生回数およびレスポンスタイムの大きいリクエスト (URL)を 1つ選択し、それを、本実施の形態における分析対象リクエストとした。そのリクエストのレスポンスタイムは、 Apache Webサーバのログ力も収集した。

[0075] また、ユーザリクエストをレスポンスコードや拡張子によって 17種類 (タイプ)に分類し、それぞれのタイプに属するリクエストの発生頻度を、 Webログ力もカウントした。

[0076] また、図 11に示す計 96種類のリソース利用状況に関する情報を、 5台のサーバより標準的な Unixコマンドによってそれぞれ獲得した。これらの情報を 26日間にわたり 1 0分間隔でサンプリングし、それらに 5種類の時刻情報 (年、月、日、時、分)を加え、総計 502種類のパラメータを、性能異常分析のためのパラメータとして準備した。

[0077] 上記のデータを分析するために、本実施の形態に係る異常分析装置を、 C言語を用ヽて Red Hat Enterprise Linux (Red Hat Enterprise Linux, http://www.redhat.com /software/rhel/)上に実装した。なお、前述の通りベン図インタフェースの部分のみ Ja va appletにより実装した。分析に用いた PCの CPUは Pentium (登録商標) 4、 3EGhz,メモリは 1Gbyteである。

[0078] 本発明の評価関数およびパラメータ選択手法の効果を確認するために、以下のように条件を変化させ分析を行った。

[0079] (パターン 1 :ゲイン）

比較のため、本実施の形態で説明したアルゴリズムにおいて、評価関数 SSFの代わりに、 Information Gainを用いて分析を行う。

[0080] (パターン 2：パラメータの選択をしな、場合）

決定木生成の評価関数には SSFを用いる力全パラメータを使用した場合の決定木のみを採用し、パラメータ探索のためのループを行わない。

[0081] (パターン 3 :本実施の形態）

本発明の実施の形態のアプローチそのものを使用する。評価関数 SSFを利用し、パラメータの探索を行う。

また、それぞれの条件下における分析結果の評価を行うために、以下の 3つの指標を設定した。

[0082] (確度）

作成された決定木を、評価関数 TEF (式 5)によって評価する。この値が大きいほど、正常サンプルと異常サンプルが適切に分離できていると評価できる。 [0083] (簡易性）

決定木において、異常サンプル全体の 10%以上の異常サンプルを含む決定木の葉に対し、根力葉に至る経路に現れるパラメータの個数をカウントし、決定木全体で平均する。この値が小さければ小さいほど、少ないパラメータで状況が分析できており、好ましいと評価できる。

[0084] (計算時間）

決定木の生成に力かった時間およびパラメータ選択におけるループ回数をカウントし、その値を評価する。計算時間が小さい方が好ましい。

[0085] [結果]

(確度）

図 12に、それぞれの実験条件下における評価関数 TEFの値を示す。図より、決定木の生成にゲインを用いた場合や、パラメータ探索を行わなカゝつた場合に比べて、本実施の形態におけるアルゴリズムは高い TEFの値を示している。このことから、本実施の形態における評価関数およびパラメータ選択手法は、分析の精度向上に大きく寄与している。

[0086] (簡易性）

図 13に、各条件下で生成された決定木において、個々の異常状態の説明に必要なパラメータの平均個数を示す。図 13より、評価関数としてゲインを用いた場合よりも、 SSFを利用した場合の方が説明に必要なパラメータの個数が少な力つた。よって、評価関数 SSFの利用は、状況の記述の簡潔化に寄与して!/、ると言える。

[0087] (計算時間）

図 14に実験パターン 1(ゲイン)とパターン 3(本実施の形態)における、計算時間とパラメータ探索のためのループ回数の関係を示す。図より、ゲインを用いた場合よりも、 SSFを用いた場合の方力結果が収束するまでに力かるループの回数は多いが、決定木の生成に力かる時間は非常に小さいことがわかる。また、ループ 1回あたりの平均計算時間は、ゲインの場合が 334.11秒なのに対し、 SSFの方は 21.308秒と、約 1/15 になっている。これは、ゲインの算出に必要な対数の計算に時間が力かることや、生成される決定木のサイズが大きくなるために、 1つの決定木を生成するのに力かる時間が大きくなることなどが原因であると考えられる。このことから、評価関数 SSFの採用は、精度や説明の簡潔さのみならず、計算時間の短縮にも寄与していると言える。

[0088] (ベン図出力）

上記の実験のうち、評価関数 TEFの値が一番大きカゝつた場合 (Pattern 3(本実施の形態)閾値 5秒)のときのベン図形式での出力結果を図 15に例として示す。この図においては、 DB (データベース）サーバの I/O read回数が 143203回 /10分という条件と、 DBサーバの総 Disk busy時間が 445秒以上 605秒以下 /10分という条件 (Diskが複数あるので、総計力 ¾00秒 /10分以上になる場合もある)と、 4台目のアプリサーバのプロセス間通信メッセージ関連システムコールの発行回数力 40回 /10分という 3つの条件によりベン図が構成されている。

[0089] ベン図を見ると、 DBサーバに関する 2つの条件のいずれかにあてはまる状況下における異常発生割合は、ほとんどの場合にぉ、てサンプル全体における平均異常発生割合 (14.3%)を大きく上回っている。よって、このシステムにおける性能異常の原因は、データベースサーバへのディスクアクセスの集中にあると考えられる。よって、データベースサーバアプリケーションにおけるディスクアクセス方法を改善したり、分散データベースサーバを利用したりすることにより、ディスクアクセスの集中を防ぐことにより、性能異常の大部分を解消できると考えられる。

[0090] 上述した本実施の形態によれば、次のような効果を奏する。

(1)多種多様なパラメータを出力する大規模システムにおいて、どのようなパラメータ力 Sどれくらいの値になると性能異常が発生しやすくなるかを瞬時に把握でき、システムの性能改善に力かる時間やコストを大幅に削減することが可能になる。

(2)また、決定木の手法を利用して、観測時の状況を、性能異常の発生割合が高い状況と、性能異常の発生割合が低い状況に分離し、性能異常の発生割合が高い場合の条件を判断することで、また、決定木中のある状況を表す親ノードを、 2つの子ノードに分岐する際に、親ノードに属する正常値の大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて決定木を生成し、性能異常の発生割合が高!、場合の条件を判断することで、異常が発生しやすい状況と正常な状況を、より少ない条件式で分離することが可能になるため、より少ない条件で異常が発生しやすい状況を説明することが可會になる。

(3)決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から最適な一つの決定木を選択することで、性能異常の発生割合が高い場合の条件を判断することで、より妥当な分析結果を得ることが可會になる。

(4)性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し、性能異常の発生頻度や発生割合と、それらの性能異常が発生したときの条件を、表形式およびベン図形式で出力することで、決定木そのものを出力するよりも、性能異常が発生しやすい条件をより直感的に把握することが可能になる。

(5)ベン図の各領域の描画方法 (色や模様など)を、各領域が表す状況下における性能異常発生頻度や発生回数に対応させて変化させることで、異なる条件下における性能異常発生頻度や割合の差異をより直感的に把握することが可能になる。

(6)分析の出力結果におけるパラメータや閾値を任意に変更する手段と、その変更による結果を図表に反映する手段を備えることにより、分析の結果として得られた条件を任意に変更し、その変更した条件下における性能異常発生割合や発生頻度を容易に確認することが可能になる。

[0091] 以上、本発明の実施の形態において、性能異常分析及びその表示方法をコンビュータにお、て実行させるプログラムを、性能異常分析プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、性能異常分析装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、 ROMや RAM 等のコンピュータに内部実装される内部記憶装置、 CD— ROMやフレキシブルディスク、 DVDディスク、光磁気ディスク、 ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータべースや、更に回線上の伝送媒体をも含むものである。

産業上の利用可能性

[0092] 以上説明したように、本発明によれば、実運用中のシステムに容易に適用可能になるように、サーバのログや基本コマンドの利用のみで採取可能な多種多様なパラメ一タを扱うことができ、精度が高ぐ信頼度の高い性能異常分析装置、方法及びプログラム、並びにその表示方法を提供することができると V、う効果を奏する。

Claims

請求の範囲

[1] 複数のコンピュータ力もなるシステムの性能異常の分析をコンピュータに実行させる性能異常分析プログラムであって、

システムの資源利用状況を取得する資源利用状況取得ステップと、

システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、

システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得ステップと、

性能異常の有無を判断する性能異常有無判断ステップと、

前記資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析ステップであって、決定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高!ヽ場合の条件を判断する前記条件分析ステップと

を備えてコンピュータに実行させる性能異常分析プログラム。

[2] 請求項 1に記載の性能異常分析プログラムにお、て、

前記条件分析ステップは、前記評価関数として、親ノードに属する正常サンプルの数 N及び異常サンプルの数 Aと、

0 0

一方の子ノードに属する異常サンプルの数 A及び他方の子ノードに属する正常サ

1

2 1

子ノードに属する異常サンプルの数 Aの組との、ずれかの組におけるそれぞれのサ

2

ンプノレの数と

を用いた評価関数を用いることを特徴とする性能異常分析プログラム。

[3] 請求項 2に記載の性能異常分析プログラムにお、て、前記条件分析ステップは、前記評価関数として、 A /Aと N /Nとの積を用いること

1 0 2 0

を特徴とする性能異常分析プログラム。

[4] 請求項 1に記載の性能異常分析プログラムにお、て、

前記条件分析ステップは、決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を選択することで、性能異常の発生割合が高ヽ場合の条件を判断する性能異常分析プログラム。

[5] 請求項 1に記載の性能異常分析プログラムにお、て、

性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し

、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を

、表形式又はベン図形式で出力する分析結果出力ステップを備えることを特徴とする性能異常分析プログラム。

[6] 複数のコンピュータ力なるシステムの性能異常の分析を行う性能異常分析方法であって、

性能異常の有無を判断する性能異常有無判断ステップと、

を備える性能異常分析方法。

[7] 請求項 6に記載の性能異常分析方法において、

0 0

1

2 1

2

ンプノレの数と

を用いた評価関数を用いることを特徴とする性能異常分析方法。

[8] 請求項 7に記載の性能異常分析方法において、

前記条件分析ステップは、前記評価関数として、 A /Aと N /Nの積を用いることを

1 0 2 0

特徴とする性能異常分析方法。

[9] 請求項 6に記載の性能異常分析方法において、

前記条件分析ステップは、決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を選択することで、性能異常の発生割合が高ヽ場合の条件を判断する性能異常分析方法。

[10] 請求項 6に記載の性能異常分析方法において、

性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を、表形式又はベン図形式で出力する分析結果出力ステップを備えることを特徴とする性能異常分析方法。

[11] 複数のコンピュータ力なるシステムの性能異常を分析する性能異常分析装置であって、

システムの資源利用状況を取得する資源利用状況取得部と、

システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得部とシステムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得部と、

性能異常の有無を判断する性能異常有無判断部と、

前記資源利用状況取得部により取得された資源利用状況とリクエスト発生頻度取得部により取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断部により判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析部であって、決定木の手法を用いて、決定木のある状況を表す親ノードを 2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高!ヽ場合の条件を判断する前記条件分析部と

を備えてなる性能異常分析装置。

[12] 請求項 11に記載の性能異常分析装置にぉ、て、

前記条件分析部は、前記評価関数として、親ノードに属する正常サンプルの数 N

0 及び異常サンプルの数 Aと、

0

1

2 1

2

ンプノレの数と

を用いた評価関数を用いることを特徴とする性能異常分析装置。

[13] 請求項 12に記載の性能異常分析装置において、

前記条件分析部は、前記評価関数として、 A /Aと N /Nの積を用いることを特徴

1 0 2 0

とする性能異常分析装置。

[14] 請求項 11に記載の性能異常分析装置にぉ、て、

前記条件分析部は、決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を選択することで、性能異常の発生割合が高!ヽ場合の条件を判断する分析装置

[15] 請求項 11の性能異常分析装置において、性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を、表形式又はベン図形式で出力する分析結果出力部を備えることを特徴とする性能異常分析装置。

[16] 請求項 15に記載の性能異常分析装置において、

前記分析結果出力部は、ベン図の各領域の描画方法を、各領域が表す状況下における性能異常発生頻度又は発生回数に対応させて変化させることで、異なる条件下における性能異常発生頻度の差異を視覚的に表すことを特徴とする性能異常分析装置。

[17] 請求項 15に記載の性能異常分析装置において、

前記分析結果出力部は、分析の出力結果におけるパラメータ又は閾値を任意に変更する手段と、その変更による結果を図表に反映する手段を備えることを特徴とする性能異常分析装置。

[18] 性能異常の発生割合が高くなる場合の条件をパラメータとその閾値の集合で表し、性能異常の発生割合と該性能異常が発生するときの条件をベン図形式で表示するようにした性能異常分析装置の分析結果表示方法。

[19] 請求項 8に記載の性能異常分析装置の分析結果表示方法において、

ベン図の各領域の描画方法を、各領域が表す状況下における性能異常発生頻度又は発生回数に対応させて変化させることで、異なる条件下における性能異常発生頻度の差異を視覚的に表すことを特徴とする性能異常分析装置の分析結果表示方法。

[20] 請求項 18に記載の性能異常分析装置の分析結果表示方法において、

分析の出力結果におけるパラメータ又は閾値を任意に変更することができ、その変更による結果を図表に反映することを特徴とする性能異常分析装置の分析結果表示方法。