WO2015136624A1

WO2015136624A1 - アプリケーション性能監視方法および装置

Info

Publication number: WO2015136624A1
Application number: PCT/JP2014/056358
Authority: WO
Inventors: 小林　恵美子; 清美和田
Original assignee: 株式会社日立製作所
Priority date: 2014-03-11
Filing date: 2014-03-11
Publication date: 2015-09-17
Also published as: US20160080229A1

Abstract

アプリケーションへのアクセスの応答時間を監視し、問題の可能性ある場合に管理者にアラートを通知することで、管理者の作業負荷を軽減する。アプリケーションの応答時間を計測して応答時間が基準値を超過するリクエストを抽出し、所定の時間幅ごとに超過するリクエストを集計する。そして、超過リクエストが存在する隣接した時間帯の間隔を算出して、超過発生の周期的な傾向を判断する。また、傾向に応じたレベルのアラートを出力する。

Description

アプリケーション性能監視方法および装置

　本発明はアプリケーションシステムの性能を監視するアプリケーション性能監視方法および装置に関するものである。

　従来、Webアプリケーションの性能監視においては、問題の可能性がある性能低下の現象を検知し、アラート等により管理者に異常を通知する方法が実施されている。性能指標の一つにアプリケーションの応答時間があり、リクエストに対するレスポンス時刻から応答時間を記録し、基準値と比較して超過の場合に性能低下として検知する監視方法がある。リクエストが送信される度にリアルタイムに応答時間を基準値であるベースラインと比較して検出する方法が特許文献１に示されている。

　また性能監視のためのベースライン作成においては、性能傾向として周期性を抽出し、周期性に従って予測を立て基準値とする方法が特許文献２に示されている。

国際公開第2013/186870号特開2013-214171号公報

　特許文献１に開示される技術は、リアルタイムにリクエスト毎の応答時間を記録し、基準値を超過した場合にアラーム通知を行う。しかし、基準値超過の傾向として、全リクエストがある時点以降、一斉に基準値を超過する場合だけでなく、時々、いくつかのリクエストが基準値を超過する場合がある。時々発生する基準値超過であっても、システムの問題ではなく、たまたまノイズ的に発生する場合もある。そうした場合にまで、特許文献１の開示技術のようにアラート通知を行うと管理者によるアラートの調査作業の負担が大きくなる可能性がある。よって監視精度を向上し、性能の傾向から問題の可能性が高いかどうかを判断して、可能性が低い場合にはアラートを通知しないようにして管理者の作業負荷を減らす必要がある。
　性能監視においては、傾向の一つとして、従来の特許文献２に開示される技術のように周期性に着目し、時系列の定期的な性能データを用いて傾向を抽出することは可能であるが、非定期に発生する大量の性能データから傾向を抽出するのは難しい。

　そこで、本発明の目的は、アプリケーションへのアクセスの応答時間を監視し、問題の可能性がある場合に管理者にアラートを通知することで、管理者の作業負荷を軽減するシステム性能監視方法および装置を提供することである。

　本発明は、端末装置からのリクエストに応じてアプリケーションサービスを提供するサーバの性能をコンピュータにより監視するシステム性能監視方法において、サーバのアプリケーションサービスに対する端末からのリクエストの応答時間を計測する応答時間計測工程と、所定の監視期間内で応答時間が所定の基準値を超過するリクエスト（超過リクエスト）を抽出し、超過リクエストが発生した時間帯を特定する基準値超過監視工程と、超過リクエストが発生した時間帯同士の時間間隔により超過リクエストの周期性を判断する周期性判断工程とを有するシステム性能監視方法として実現できる。

　また、本発明は、上記の方法をコンピュータプログラムでシステム性能監視装置として実現することができる。

　本発明によれば、システム性能に問題の可能性がある場合に管理者にアラートを通知することで、管理者の作業負荷を軽減することができる。

本発明の実施例１におけるコンピュータシステムのハードウェアおよび論理構成を示す図である。実施例１における性能監視プログラムの機能モジュールの構成を示す図である。実施例１における応答時間計測エージェントのモジュール構成を示す図である。実施例１における性能監視プログラムのフローチャートを示す図である。実施例１における性能監視プログラムの基準値超過監視処理のフローチャートを示す図である。実施例１におけるリクエスト管理テーブルのテーブル構成を示す図である。実施例１における超過データ管理テーブルのテーブル構成を示す図である。実施例１における判断基準管理テーブルのテーブル構成を示す図である。実施例１における基準値を超過するリクエストの管理の仕組みを示す図である。実施例１における性能監視プログラムの周期性判断処理のフローチャートを示す図である。実施例１における周期性判断処理で使用する一時保存テーブルのテーブル構成を示す図である。実施例１における周期性データ管理テーブルのテーブル構成を示す図である。実施例１における性能監視プログラムのアラート判断処理のフローチャートを示す図である。実施例１におけるアラート基準管理テーブルのテーブル構成を示す図である。実施例１における出力画面の例を示す図である。実施例４における構成情報管理テーブルのテーブル構成を示す図である。実施例５における実施例１に追加するアラート判断処理のフローチャートを示す図である。

　図１は本発明の一実施例によるコンピュータシステムのハードウェアおよび論理構成図である。本システムは、アプリケーションへのリクエストに対するレスポンスの応答性能を監視する性能監視サーバ１０１と、レスポンスの応答時間を計測する計測サーバ１０２と、Webアプリケーションを実行するWebサーバ１０３と、アプリケーションのデータを管理するデータベースサーバ１０４と、データを記録保存する記憶装置１０５と、ユーザがWebアプリケーションを使用するための複数の端末１０６とから構成される。Webサーバ１０３、データベースサーバ１０４、記憶装置１０５はそれぞれ複数台で構成されてもよい。

　端末１０６とWebサーバ１０３はネットワーク１３０で接続され、ネットワーク上のスイッチ１０７に計測サーバ１０２が接続される。Webサーバ１０３とデータベースサーバ１０４、記憶装置１０５はバックエンドのネットワーク１３１で接続される。性能監視サーバ１０１は管理用ネットワーク１３２で各サーバと接続される。

　性能監視サーバ１０１は１つ以上の処理装置（CPU）１１０と、メモリ１１１と、ハードディスク等の二次記憶装置１１２と、キーボード、マウスからの入力とディスプレイへの出力情報を制御する入出力インタフェース１１３と、管理用ネットワーク１３２に接続するネットワークインタフェース１１４とから構成される。

　また、端末１０６は、キーボード、マウスからの入力とディスプレイへの出力を制御する入出力インタフェース（図に記載なし）を有する。

　性能監視サーバ１０１のメモリ１１１上には性能監視プログラム１２０がロードされ、CPU１１０により実行される。また、二次記憶装置１１２には性能監視プログラム１２０が使用するテーブル１２２の情報が保存される。計測サーバ１０２ではレスポンスの応答時間を計測する応答時間計測エージェント１２１が実行される。Webサーバ１０３ではHTTP（HyperText Transfer Protocol）サーバプログラム１２３、およびアプリケーションプログラム１２５とその基盤であるアプリケーションサーバ（以降APサーバ）プログラム１２４が実行される。データベースサーバ１０４ではデータベース管理システム１２６が実行される。また各端末１０６ではWebブラウザ１２７が実行される。

　各サーバは物理マシンでなく仮想マシンとして実装されてもよく、Webサーバが仮想マシンの場合には、計測サーバが接続するスイッチは仮想スイッチであってもよい。
図２は性能監視プログラム１２０の機能モジュール構成を示す。計測サーバ１０２からリクエスト応答時間を収集する応答時間収集部２０１、収集した応答時間を監視する基準値超過監視部２０２、応答時間が基準値を超過したリクエスト（超過リクエスト）に対するレスポンス発生時刻の周期性を判断する周期性判断部２０３、周期性判断の結果からアラート送信を判断するアラート判断部２０４、アラートに情報を付加して出力するアラート出力部２０５、Webサーバ１０３やデータベースサーバ１０４においてOSまたはプログラムが使用するリソースの使用率等システムの性能情報を収集するシステム性能収集部２０６、周期性判断処理のモジュール起動のためのタイマ２０７、応答時間グラフなど性能情報を出力する性能情報出力部２０８、ユーザインタフェース２０９から構成される。

　ここで、基準値とは閾値として管理者またはシステムが設定した特定の時間であるか、又はシステムが自動的に作成する過去の実績に基づいたベースラインの値である。ベースラインの設定については特許文献１に開示された方法で実現してもよい。基準値はサービス毎に設定され、収集した応答時間データもサービス毎に管理し、サービスに設定された基準値との比較を行う。

　システム性能収集部２０６はWebサーバ１０３、データベースサーバ１０４のリソースの使用率等の項目を、両サーバ１０３と１０４が有する性能監視エージェントから収集する。別の収集方法として、各サーバにエージェントを配置しない形態であってもよく、その場合システム性能収集部２０６が各サーバに対して要求を送信して取得する。

　また性能監視プログラム１２０において情報を保存するためのテーブル１２２は、アプリケーションへのリクエストに対するレスポンスの応答時間を記録する応答時間データ蓄積テーブル２１０、基準値を超過したリクエストの属性等を記録するリクエスト管理テーブル２１１、超過したリクエストを所定の時間幅毎にまとめて管理する超過データ管理テーブル２１２、周期性を判断するための基準を管理する判断基準管理テーブル２１３、判断結果で周期性のあるデータを管理する周期性データ管理テーブル２１４、アラートレベルを判断するための基準を管理するアラート基準管理テーブル２１５、Webサーバ１０３やデータベースサーバ１０４のシステム性能情報を記録するシステム性能データ蓄積テーブル２１６から構成される。

　図３は計測サーバ１０２で実行される応答時間計測エージェント１２１の機能モジュール構成を示す。スイッチ１０７のミラーポートからパケットを取得するパケット取得処理部３０１、取得パケットからWebサーバ１０３へのHTTPリクエストと対応するレスポンスを解析するパケット解析処理部３０２、解析結果から応答時間を算出する応答時間算出処理部３０３、算出結果を性能監視サーバ１０１に送信するデータ送信処理部３０４、リクエストとレスポンスの属性等アクセス詳細情報３０６を記録するデータ格納処理部３０５から構成される。

　パケット取得処理部３０１では、監視対象であるWebサーバ１０３が接続するポートへの送受信パケットを取得する。パケット解析処理部３０２では、性能監視サーバ１０１から設定されるサービス定義３０７に従って、Webサーバ１０３宛てのパケットから特定のHTTPリクエストを識別し、ヘッダ情報等属性を記録しておき、Webサーバ１０３から送信されるパケットからHTTPレスポンスを識別して突き合せを行う。ここで、サービス定義３０７とは監視対象とするURLパス、URLクエリ等をサービスとして定義するもので、管理者が設定し、性能監視プログラム１２０で管理する。サービス定義３０７に変更のある場合、性能監視サーバ１０１は変更後の情報を応答時間監視エージェント１２１に送信する。

　応答時間算出処理部３０３では特定されたレスポンスのパケット取得時刻とリクエストパケットの取得時刻の差分から応答時間を算出する。
ここで応答時間計測エージェント１２１の処理は特許文献１に開示されたストリームデータ処理システムで実現してもよい。

　図４は性能監視プログラム１２０のフローチャートを示す。性能監視プログラム１２０は応答時間計測エージェント１２１から計測結果を収集する（Ｓ４０１）。応答時間計測エージェント１２１からの送信対象は計測ごと、または一定期間分（例えば１秒間分）をまとめた結果であってもよい。受信後、基準値超過監視処理（Ｓ４０２）を呼び出す。監視結果から、超過データがあった場合（Ｓ４０３）には、一定期間後に超過データの周期性判断処理（Ｓ４０４）を呼び出す。この判断処理の結果、超過データの発生に周期性や傾向を特定できた場合（Ｓ４０５）にはアラート判断処理（Ｓ４０６）を呼び出す。アラート判断処理後、または基準値超過データがない場合や超過データの発生の周期性や傾向が特定できなかった場合には処理を終了する。

　図５は性能監視プログラムにおける基準値超過監視処理（図４のＳ４０２）のフローチャートを示す。収集した応答時間データについて、データを基準値と比較する（Ｓ５０１）。　比較の結果、応答時間が基準値を超過している場合（Ｓ５０２）、基準値超過としてリクエスト管理テーブルに新規エントリとして登録する（Ｓ５０３）。次に超過データを所定の時間幅（単位時間帯）でまとめて管理するため超過データ管理テーブルに登録する。その際、単位時間帯のレコードが既に登録されているかを判断して（Ｓ５０４）、登録がない場合は新規レコードを作成して超過データの情報を登録し（Ｓ５１０）、登録後から特定時間経過するまでの超過データの傾向を判断するため、特定時間の経過時点を通知するタイマをセットし（Ｓ５１１）、タイマにセットする時間は、管理者またはシステムにより判断基準管理テーブル２１３に設定され、選択された基準の「分析期間」（図８の８０２）の値がそれに該当する。

　上述の単位時間帯に既にレコードがあった場合、超過データ管理テーブル２１２の超過リクエストIDフィールド７０３へリクエストの識別子IDを追加（Ｓ５０５）、超過リクエスト数のフィールド７０４を更新し（Ｓ５０６）、基準値との平均差分７０５を算出し直して更新する（Ｓ５０７）。次に単位時間帯の超過データについて、超過リクエスト数が一定数以上か、または基準値との差分が一定値以上かを判断する（Ｓ５０８）。ここでの基準値は管理者またはシステムが事前に設定した値とする。判断の結果、一定数以上か、又は一定値以上の場合はレベルを１として、アラート出力処理を呼び出す（Ｓ５０９）。アラート出力処理のフローチャートは図示しないが、設定されたレベルに従って、レベルとメッセージ情報を含むアラート通知を作成し、管理者またはシステムによって事前に定義された方法で通知する。例えばイベントとして出力、またはメール送信の方法がある。以降のフローチャートで呼び出されるアラート出力処理も同様である。

　図６は性能監視プログラム１２０が管理するリクエスト管理テーブル２１１の構成を示す。本テーブルはWebアプリケーションのURL毎または複数のURLを含むページ毎、または一連の処理のURLを含むトランザクション毎に作成する。ここではURL毎に本テーブルが作成されているものとする。リクエスト管理テーブルは、応答時間が基準値を超過したリクエストの情報を登録するもので、登録するリクエストに一意に割り当てるリクエストIDフィールド６０１、レスポンス時刻フィールド６０２、リクエストの属性であるURLパスフィールド６０３、URLクエリフィールド６０４、レスポンスの属性であるレスポンスコードフィールド６０５、転送データ量フィールド６０６、時間情報であるリクエスト時刻フィールド６０７、応答時間フィールド６０８から構成される。

　ここでURL毎に作成された本テーブルのレコードを、さらにレスポンスコードで分類して、別テーブルとしてもよい。レスポンスコードは１００番台、２００番台といった３ケタ番号による分類や、４００番台と５００番台のエラーとそれ以外のエラーでないコードといったエラー該否の分類でもよい。

　図７は性能監視プログラム１２０が管理する超過データ管理テーブル２１２の構成を示す。超過データ管理テーブル２１２は基準値超過のレスポンスを単位時間帯で区切って管理する。単位時間帯の時間幅は管理者またはシステムにより図８の判断基準管理テーブル２１３に設定され、選択された基準の時間幅８０３とし、図７の例では、単位時間幅として１分を採用している。レコードを一意に識別するための時間帯番号Ｔ＃フィールド７０１、単位時間帯の開始時刻と終了時刻で示す単位時間帯フィールド７０２、該当単位時間帯にレスポンス時刻が含まれる基準超過のリクエストのIDを登録する超過リクエストIDフィールド７０３、超過リクエスト数をカウントして登録する超過リクエスト数フィールド７０４、リクエストの各応答時間の平均値の基準値との差分を記録する平均差分フィールド７０５から構成される。ここで時間帯フィールド７０２の開始時刻は時刻を含む以降の時刻を示し、終了時刻は時刻を含まない未満の時刻を示す。以降、他のテーブルで使用する時間帯についても同様とする。

　図８は性能監視プログラム１２０が管理する判断基準管理テーブル２１３の構成を示す。判断基準管理テーブル２１３は、基準を一意に識別するための基準番号フィールドＢ＃８０１と、周期性や傾向を判断するための期間である分析期間フィールド８０２と単位時間帯の時間幅フィールド８０３から構成される。分析期間を時間幅で除した値が分析対象期間に含まれる単位時間帯の個数となる。適宜、性能監視サーバ１０１の入出力Ｉ/Ｆ１１３から、本テーブルの値を変更したり、新しい基準を追加することができる。判断基準については、一旦選択された基準で監視し、以降で説明する周期性抽出を行い、以前の周期性と比較した結果、持続時間が長くなっていると判断できる場合がある。その場合、性能監視プログラム１２０は使用中の基準を変更して、時間幅が長くて持続時間が近いものを選択し直すことも可能である。例えば、判断基準管理テーブル２１３の基準番号８０１のフィールドが「１」のものを選択し1分の時間幅で分析中に、平均持続時間が5分の結果が得られた場合、時間幅5分の基準番号８０１のフィールドが「３」の基準に変更する。この変更に伴い、分析期間も変更され、以降の超過リクエストの検出時に設定するタイマは1日となる。

　図９は基準値超過のリクエストを検出した場合に、管理テーブルに登録される情報との対応付けを示す図である。縦軸をリクエストの応答時間、横軸を時刻で示す。グラフ中の黒丸印９０１は、一つのリクエストのレスポンス処理に要する応答時間をプロットしたものである。ここでは、基準値として閾値とベースラインの両方を示しているが、どちらか一方の基準値であってもよい。基準値を超過しているデータが超過データであり、リクエスト管理テーブル２１１に登録される。判断基準管理テーブル２１３の基準番号１の基準が選択されている場合、時間幅９０２は１分である。１０：００～１０：０１までの時間帯９０２には３個の超過リクエストに対するレスポンスが発生しており、超過データ管理テーブル２１２に登録される。この３個のリクエストについて基準値として閾値を選択した場合、閾値との差分としてそれぞれの応答時間から算出した時間９０３の平均値１０秒は、超過データ管理テーブル２１２のＴ＃が１の行の平均差分フィールド７０５に登録される。

　図１０は性能監視プログラム１２０における超過データの周期性判断処理（Ｓ４０４）のフローチャートを示す。本処理は基準値超過監視処理がセットしたタイマのタイムアウトにより呼び出される。タイムアウトの時刻から分析期間だけ遡った時刻を算出し、この算出した時刻が超過データ管理テーブル２１２のどの単位時間帯に含まれるかを求めて、その単位時間帯以降でタイムアウトの時刻を含む単位時間帯までの間に含まれる超過リクエストを全て特定し（Ｓ１００１）、読み出す（Ｓ１００２）。
その後、レコードを時間帯の古いものから順番に取り出し、図１１の一時保存テーブルに登録する（Ｓ１００３）。次に、登録した全レコードについて、前のレコードの単位時間帯の終了時刻と次のレコードの単位時間帯の開始時刻が一致するかを判断する（Ｓ１００４）。一致する場合、超過のあった単位時間帯が連続していると判断して、図１１の一時保存テーブルの前のレコードの連続数１１０３をカウントアップし、１１０２の終了時刻を後のレコードの終了時刻に更新し、各レコードのデータから平均差分１１０４を算出し直して更新し、一時保存テーブルから後のレコードを削除する（Ｓ１００５）。さらに更新した連続数１１０３が基準数に一致する場合（Ｓ１００６）、アラート出力処理を行う（Ｓ１００７）。ここでの基準数は管理者またはシステムが事前に設定した値とする。超過データ管理テーブルから現時刻までの全てのレコードを処理するまで繰り返す（Ｓ１００８）。

　全レコード処理後、超過発生時間帯の各間隔を算出するため、一時保存テーブルに登録された各レコードの開始時刻と次のレコードの開始時刻との差分を、単位時間帯の時間幅の個数で算出する（Ｓ１００９）。例えば前のレコードの開始時刻が１１：００で次のレコードの開始時刻が１１：０３の場合、その間隔は時間幅１分の３個分となる。

　もう一つの方法として、超過発生時間帯の間隔として、前のレコードの終了時刻と次のレコードの開始時刻の差分を、時間幅の個数で算出する方法もある。その場合、前のレコードの終了時刻が１１：０１で次のレコードの開始時刻が１１：０３の場合、その間隔は時間幅1分の２個分となる。

　算出したそれぞれの間隔が同じ部分を抽出し（Ｓ１０１０）、間隔が同じ場合は周期性ありと判断して、周期性データ管理テーブルに登録する（Ｓ１０１１）。間隔が同じかどうかは、一時保存している全分析期間の間隔のうち、全てが同じ場合、または一定数連続で同じ間隔がある場合に、その期間のみを周期性ありと判断してもよい。また間隔が完全一致でなく、間隔の単位時間幅個数に±-α（例えば±１）の余裕を持たせてもよい。図１２に示す周期性データ管理テーブル２１４には分析期間１２０２の開始時刻と終了時刻、周期として算出した間隔１２０３、持続時間幅１２０４として一時保存テーブルの連続数フィールド１１０３の最大、最少、平均を、平均差分１２０５として一時保存テーブルの平均差分フィールド１１０４の最大、最少、平均をそれぞれ登録する。

　該当区間１２０７には、一時保存テーブルの時間帯に含まれる超過データ管理テーブル２１２の時間帯番号を登録する。判断基準は処理時に設定されている判断基準管理テーブル２１３の判断基準番号８０１を登録する。登録後は一時保存テーブルのデータをクリアする（Ｓ１０１２）。図１１（Ａ）は一時保存テーブルの構成を示す。本テーブルは周期性判断の処理において、時間帯の連続性を把握するために一時的に使用するものである。本テーブルは、データを一意に識別するための番号フィールド１１０１、単位時間帯フィールド１１０２、単位時間帯の連続数をカウントする連続数フィールド１１０３、各連続時間帯の超過データの基準値との差分を連続時間帯あたりの平均で示す平均差分フィールド１１０５、各連続時間帯の超過リクエスト数の単位時間帯あたりの平均を示す平均超過リクエスト数フィールド１１０５、発生時間の間隔を時間幅の個数で表す間隔フィールド１１０６から構成される。図１１（Ｂ）は一時保存テーブルに保存するデータ算出の仕組みを示している。

　図１２は周期性データ管理テーブルの構成を示す。本テーブルは、データを一意に識別するためのデータ番号フィールド１２０１、分析した期間の開始時刻と終了時刻を示す分析期間フィールド１２０２、時間幅の個数で間隔を示す周期フィールド１２０３、連続する時間幅の各持続時間の最大、最少、平均を単位時間幅の個数で示す持続時間幅フィールド１２０４、各平均差分の最大、最少、平均を示す平均差分フィールド１２０５、各超過リクエスト数の最大、最少、平均を示す超過リクエスト数フィールド１２０６、超過の時間帯番号を示す当区間フィールド１２０７、判断処理の分析期間と時間幅の基準を示す判断基準番号フィールド１２０８から構成される。

　図１３は性能監視プログラムにおけるアラート判断処理（Ｓ４０６）のフローチャートを示す。呼び出し時に渡される周期性データ管理テーブル２１４に新規登録されたレコード番号のデータを読み出す（Ｓ１３０１）。周期性データ管理テーブル２１４に登録されたレコードの中に、レコードの判断基準（図８の判断基準管理テーブル２１３の各行）と一致するレコードがあるか検索する（Ｓ１３０２）。周期性判断処理は単位時間帯の最初の超過リクエストに対するレスポンス発生時点を起点とする分析期間に行っているため、超過リクエストが発生した隣接する時間帯の時間間隔が小さい時には、周期性を判断する上記分析期間が重複する場合がある。同じ判断基準のレコードがある場合（Ｓ１３０３）、新規レコードの分析期間を含まない期間が分析期間となっているレコードで、終了時刻が最も後の最新レコードを読み出す（Ｓ１３０４）。

　上述の新規登録レコードと上記最新レコードのデータを比較して、図１４のアラート基準管理テーブル２１５で管理する１４０２の条件に一致する項目があるか判断する（Ｓ１３０５）。一致する項目がある場合、該当の条件のレベル値をアラートレベルとして設定する（Ｓ１３０６）。複数の項目で一致する場合で、レベルが異なる場合は数字も大きい方のレベルを設定する。

　同じ判断基準のレコードがない場合（Ｓ１３０３）、またはアラートの条件に一致する項目がない場合（Ｓ１３０５）はレベル１をアラートレベルとして設定する（Ｓ１３０７）。そしてアラート出力処理を呼び出し（Ｓ１３０８）、レベルのアラートを出力する。

　図１４はアラート基準管理テーブル２１５の構成を示す。本テーブルは、アラートのレベル付与の条件を管理するテーブルで、レコードを一意に識別するための番号フィールド１４０１、レベル付与の条件としてアラート対象項目とその条件からなるレベル付与条件フィールド１４０２、アラートレベルフィールド１４０３から構成される。アラートレベルは問題のレベルを示すもので、レベル値が大きいほど緊急性が高く、例えば情報提供レベルを１、注意レベルを２、警告レベルを３とする。
アラート対象項目として、図１４では例えば周期、平均持続時間幅、平均差分、平均超過リクエスト数、発生頻度を定義している。以上により、時々発生する基準値超過のデータについて、周期があるかを判断し、周期や傾向の変化に合わせて、適切なアラートを通知することができる。

　図１５は性能監視プログラム１２０が出力する画面の例を示す。WebアプリケーションのURLをサービスとして定義して管理し、上段にはサービス毎の性能グラフ１５０１を出力する。応答時間やスループット、エラー率等の性能指標のうち、応答時間について横軸に時刻、縦軸に応答時間の散布図で出力している。基準値に対する超過データは基準値の線を示すことで管理者が認識できる。超過データの周期パターンを抽出した場合、グラフ上に周期を示す帯を出力する。こうすることで管理者は帯状のデータに周期性があることが分かる。中段１５０２には、応答時間のグラフ１５０１で示されている超過データであるリクエストの属性を出力する。リクエスト管理テーブル２１１で保持するデータの一部または全部の項目を出力する。下段１５０３にはイベント一覧を出力する。周期や傾向の変化を検知したアラートはイベントしてここに出力され、例えば持続時間が以前より長くなったというアラートを確認できる。

　実施例１の変形例として、分析期間を超過リクエストの検出からタイマをセットした期間でなく、超過リクエストの検出から過去に遡る期間を対象とする方法を示す。図５の基準値超過監視処理で、超過データ管理テーブルの該当時間帯にレコードがあるかの判断において(Ｓ５０４)、該当時間帯のレコードがなく、同テーブルに新規レコードを追加した場合に、タイマセットは行わず、周期性判断処理を呼び出す。周期性判断処理は呼び出された時刻から、分析期間分経過後ではなく、反対に遡って超過リクエストの発生傾向があるかを判断する。S504で該当時間帯のレコードが既にある場合は、既に同時間帯に対する周期性判断処理は実施済であるので、呼び出しを行わない。周期性判断処理やアラート判断処理は前述の通りである。

　なお、性能監視サーバ１０１と計測サーバ１０２は同一サーバとしても良い。また、性能監視プログラム１２０と応答時間計測エージェント１２１は一つのプログラムに統合しても良い。

　上述の実施例１では超過リクエストの存在する時間帯の間隔から周期性を判断し、その変化でアラートレベルを決定している。本実施例２は、周期性ではなく、基準値超過のリクエストの発生頻度の変化でアラートレベルを決定する方法を示す。
実施例１では図１０のステップS１００９～S１０１１において超過発生の時間幅の間隔から周期ありかを判断している。実施例２では、このステップにおいて、分析期間の全単位時間帯の個数に対する超過発生の単位時間帯の個数の割合を算出して発生頻度とする。連続している単位時間帯はそれぞれ一つずつカウントする。図１１を例にとると、分析期間を1時間、時間幅を1分とした場合で、５個の時間幅で超過があったものとする。その場合は、頻度は5/60(0.08)である。次の分析時に１０個の時間幅で超過があった場合には、頻度が10/60(0.17)となる。

　図１４のアラート基準管理テーブル２１５において、番号フィールド１４０１の#５のレコードには発生頻度を基準として登録しておき、頻度が基準に一致した場合すなわち頻度が前回より高くなった場合にアラートをレベル３で出力する。
以上により、超過発生の傾向として発生頻度の変化を判断して、適切なアラートを通知できる。

　本実施例３は、周期性判断処理の別の実施例であり、周期性があるかどうかを特定するためによく知られたフーリエ変換処理を使用する方法を示す。ここでは超過リクエストの発生の周期を算出するため、非定期に発生する応答時間データをそのまま処理するのではなく、実施例１の図５の基準値超過監視処理の結果得られる時間幅毎に超過リクエストのあり、なしの２値情報に基づく。周期性判断処理では、分析期間について、超過リクエストがあった時間帯を１、なかった時間帯を０として、時系列のデータを作成する。作成したデータについてフーリエ変換処理を行うことで分析期間中に含まれる周波数の周期を抽出する。複数の周波数が抽出できる場合は、それぞれを周期性データとして登録する。以降の処理については実施例１と同様である。

　本実施例４は、実施例１で管理する情報に加えて、ホストのOS等のシステムの構成情報を管理し、周期性判断処理とアラート判断処理で使用する。ここでは、構成情報と構成変更ログを使用して構成変更を挟んだデータの分析を行わず、同じ構成の場合のみ実施例１の判断処理を行う方法を示す。
図１６はシステムの構成要素を管理する構成情報管理テーブルを示す。構成要素１６０１としてはHTTPサーバプログラム１２３、APサーバプログラム１２４、データベース管理システム１２６を実行するホストや、データベースのデータを保存するストレージ装置１０５の他、共有リソースとしてデータベースサーバへのコネクションプールや、ストレージ装置へのパス等がある。サービス毎１６０２に構成要素を登録して管理する。

　さらに各構成要素のログのうち、構成変更に関するログを管理する。ログの収集は対象ホストにエージェントを配置して定期的にログを検索して性能監視サーバに送信する方法、またはログ管理サーバを設けて、ホストがシステムログをログ管理サーバに送信し、性能監視サーバがログ管理サーバから構成変更に関するログを取得する方法等がある。ここで構成変更とは、ホストのOSやサーバプログラムの更新、ホストが仮想マシンの場合の別物理マシンへの移行、ハードウェアの仕様の変更等である。

　図１０の周期性判断処理では、ステップS１００１で分析期間前の時刻を算出する。その際、対象サービスの構成要素を前記図１６の構成情報管理テーブルから読み出して、ホストを特定する。ホストのログ情報を管理するログから検索して、分析期間前の時刻から現時刻までの間に構成変更が行われていないかを確認する。行われていない場合は以降の処理は実施例１と同様である。構成変更のログが特定できた場合、構成変更ログの最新時刻を特定する。超過データ管理テーブル２１２からレコードを読み出す処理（S1002）では、構成変更最新時刻以降の時間帯で、最新の時間帯のレコードから順に読み出す。以降の処理は実施例１と同様である。

　さらに、図１３のアラート判断処理においても、ステップS１３０４における最新レコードを読み出す際に、ログを検索して今回の分析期間と最新レコードの分析期間の間に、構成変更が行われていないかを確認する。構成変更が行われていない場合は以降の処理は実施例１と同様である。構成変更のログが特定できた場合、最新レコードは構成変更前なので、比較せずに、レベル１を設定して（Ｓ１３０７）終了する。

　構成情報を使用した別の方法として、アラート判断処理でシステムリソースの使用率等システム性能をアラート判断の条件に追加する方法を示す。実施例１で説明した図１３のアラート判断処理時に判断条件を追加する。図１３のステップS１３０５とステップS１３０８の間に図１７に示す処理を行う。
ステップＳ１３０５の後、周期があると判断した場合、構成情報管理テーブルからサービスが依存する構成要素を特定する（Ｓ１７０１）。
ここで性能監視プログラム１２０は、実施例１で示した通り、構成要素毎に監視項目を設定して対象ホストの情報を監視し、システム性能収集モジュールで収集して、システム性能データ蓄積テーブル２１６に保存する。特定した構成要素の監視項目について、今回の分析期間と前回の分析期間の性能データを抽出する（Ｓ１７０２）。

　まず今回の分析期間のデータについて、得られた周期の時間帯について、システム性能項目で、同様に悪化している（例えば使用率があがっている）項目があるかをチェックする（Ｓ１７０３）。同様の傾向の項目がある場合、前回の分析期間のデータについても、前回周期と比較して同様の悪化がある項目があるかをチェックする（Ｓ１７０４）。今回と前回で項目が一致している場合（Ｓ１７０５）、項目の情報（ホスト名、項目名等）をアラート情報に追加する（Ｓ１７０６）。同様の傾向がない場合、リソースには問題ないと判断して、レベル１とし、リソース問題なしの情報をアラート情報に追加する（Ｓ１７０８）。
今回と前回の分析期間において抽出した監視項目が異なる場合、期間別に各項目情報をアラート情報に追加する（Ｓ１７０７）。

　またフローチャートに図示はしていないが、図１３のステップＳ１３０５で、アラーとの条件に一致するレコードがない場合には、今回の分析期間のデータについてのみ、得られた周期の時間帯について、システム性能項目で、同様に悪化している（例えば使用率があがっている）項目があるかをチェックし、項目がある場合には、アラート情報に項目情報を追加する。

　さらにシステムリソースの性能に加えて、判断条件にアクセス数を追加する方法を示す。実施例１の応答時間監視エージェント１２１の処理に追加して、レスポンスがなかったリクエストも含めたアクセス数をカウントし、定期的に性能監視サーバに送信する。性能監視サーバでは収集したアクセス数をデータベースに保存する。分析期間のシステム性能の悪化する項目を抽出した場合に、分析期間のサービスに対するアクセス数を蓄積データから読み出す。アクセス数が同様の時間帯に増えているかどうかを判断する。前回の分析期間についても同様に、同時間帯のアクセス数が増えているかどうかを判断し、前回も今回も増加している場合は、レベルを１に設定し、アクセス数増加の情報をアラートに追加する。今回増加していない場合は、レベルはそのままでアクセス数増加なしの情報をアラートに追加する。前回は増加していなかったが今回は増加している場合は、レベルはそのままでアクセス数増加の情報をアラートに追加する。

　以上により、リクエストの応答時間の超過の傾向に、システム性能の傾向およびアクセス数の傾向を関連付けて、適切なアラートを出力できる。

１０１：性能監視サーバ、１０２：計測サーバ、１０３：Webサーバ、１０４：データベースサーバ、１０５：記憶装置、１０６：端末、１０７：ネットワークスイッチ、１２０：性能監視プログラム、１２１：応答時間計測エージェント、１２３：HTTPサーバプログラム、１２４：アプリケーションサーバプログラム、１２５：アプリケーションプログラム、１２６：データベース管理システム

Claims

端末装置からのリクエストに応じてアプリケーションサービスを提供するアプリケーションの性能をコンピュータにより監視するアプリケーション性能監視方法において、
該アプリケーションサービスに対する該端末からのリクエストの応答時間を計測する応答時間計測工程と、
所定の監視期間内で該応答時間が所定の基準値を超過するリクエスト（超過リクエスト）を抽出し、該超過リクエストが発生した時間帯を特定する基準値超過監視工程と
該超過リクエストが発生した時間帯同士の時間間隔により超過リクエストの周期性を判断する周期性判断工程と、
を有することを特徴とするアプリケーション性能監視方法。
前記基準値超過監視工程において、
前記監視期間内を所定の時間幅（単位時間幅）の時間帯（単位時間帯）で複数の区間に区切り、
単位時間帯ごとに超過リクエストを抽出して該超過リクエストが発生した時間帯を特定し、
前記周期性判断工程において、
該超過リクエストが発生した時間帯同士の時間間隔を単位時間幅の個数で算出し、
該個数が２間隔以上続けて同じ場合に該個数を周期として判断することを特徴とする請求項１に記載のアプリケーション性能監視方法。
前記周期性判断工程において判断された現在の周期が、前記監視期間以上遡った以前に判断された周期より短い場合に、前記端末装置にアラートを出力することを特徴とする請求項２に記載のアプリケーション性能監視方法。
前記基準値超過監視工程において、複数の単位時間帯をまたがって超過リクエストが存在する場合に、
該単位時間帯の連続数をカウントし、
現在の連続数が前記監視期間以上遡った以前の連続数より大きい場合に、
前記端末装置にアラートを出力することを特徴とする請求項２に記載のアプリケーション性能監視方法。
前記基準値超過監視工程において、
単位時間帯あたりの超過リクエストの応答時間に関する所定の基準値との差分の平均値を算出して平均差分値として管理し、
現在の平均差分値が前記監視期間以上遡った以前の平均差分値より大きい場合に、
前記端末装置にアラートを出力することを特徴とする請求項２に記載のアプリケーション性能監視方法。
前記基準値超過監視工程において、単位時間帯あたりの超過リクエストの平均個数を算出して管理し、現在の該平均個数が前記監視期間以上遡った以前の平均個数より多い場合に前記端末装置にアラートを出力することを特徴とする請求項２に記載のアプリケーション性能監視方法。
前記基準値超過監視工程において、
超過リクエストが存在する単位時間帯が前記監視期間内に何個あるかを算出し、この値を前記監視期間内の単位時間帯の総個数で除した値を発生頻度として、現在の発生頻度が前記監視期間以上遡った以前の発生頻度より大きい場合に前記端末装置にアラートを出力することを特徴とする請求項２に記載のアプリケーション性能監視方法。
前記端末装置に対して、前記応答時間のグラフを出力し、前記応答時間グラフに重ねて、
超過リクエストが存在する隣接した時間帯同士の時間間隔が２間隔以上続けて同じ時間帯に色づけし、
該時間間隔を周期として表示することを特徴とする請求項２に記載のアプリケーション性能監視方法。
端末装置からのリクエストに応じてアプリケーションサービスを提供するアプリケーションの性能を監視するアプリケーション性能監視装置において、
該アプリケーションの性能を監視するプログラム（性能監視プログラム）を実行する処理装置と、
該性能監視プログラム及び該性能監視のために使用される管理テーブルを格納する記憶部と、
を有し、
該処理装置は、前記性能監視プログラムを実行することにより、
該アプリケーションサービスに対する該端末装置からのリクエストの応答時間を計測する応答時間計測機能と、
該応答時間が所定の基準値を超過するリクエスト（超過リクエスト）を抽出し、
前記監視期間内を所定の時間幅（単位時間幅）の時間帯（単位時間帯）で複数の区間に区切り、各単位時間帯ごとに超過リクエストを抽出し、
前記監視期間内に超過リクエストが発生した時間帯を特定する基準値超過監視機能と、
該超過リクエストが発生した時間帯同士の時間間隔により応答時間超過の周期性を判断する周期性判断機能と、
を有することを特徴とするアプリケーション性能監視装置。
前記記憶部は、
前記超過リクエストを有する各単位時間帯を１レコードとして、
該単位時間帯の連続番号と、
該単位時間帯の開始時刻と終了時刻と、
該単位時間帯に存在する超過リクエストの識別番号と、
単位時間帯あたりの超過リクエストの応答時間に関する基準値との差分の平均値（平均差分値）と、
を属性項目とした超過データ管理テーブルを前記管理テーブルとして格納し、
該処理装置が各単位時間帯の超過リクエストを抽出した後、該テーブルの該当する単位時間帯の欄に抽出結果を記録することを特徴とする請求項９に記載のアプリケーション性能監視装置。
前記周期性判断機能において、該超過リクエストが発生した時間帯同士の時間間隔を単位時間幅の個数で算出して該個数が２間隔以上続けて同じ場合に該個数を周期とし、
前記記憶部は、
前記各分析期間を１レコードとして、
該分析期間の連続番号と、
該周期と、
複数の単位時間帯をまたがって超過リクエストが存在する場合の該単位時間帯の連続数である持続時間幅の平均値と、
単位時間帯あたりの超過リクエストの応答時間に関する所定の基準値との差分の平均値である平均差分値の平均値と、
超過リクエスト数の平均値と、
該分析期間内で超過リクエストが存在する単位時間帯の番号と、
を属性項目とした周期性データ管理テーブルを前記管理テーブルとして格納し、
該処理装置は各分析期間の超過リクエストの集計が終了した時に、該テーブルの該当する分析期間の欄に集計結果を記録し、該テーブルに記載された値のいずれかが所定値又は該分析期間以上遡った以前の値より大きい場合に、
前記処理装置は前記端末装置にアラートを出力することを特徴とする請求項９に記載のアプリケーション性能監視装置。