JPWO2014033894A1 - サービス性能監視方法 - Google Patents

サービス性能監視方法 Download PDF

Info

Publication number
JPWO2014033894A1
JPWO2014033894A1 JP2014532665A JP2014532665A JPWO2014033894A1 JP WO2014033894 A1 JPWO2014033894 A1 JP WO2014033894A1 JP 2014532665 A JP2014532665 A JP 2014532665A JP 2014532665 A JP2014532665 A JP 2014532665A JP WO2014033894 A1 JPWO2014033894 A1 JP WO2014033894A1
Authority
JP
Japan
Prior art keywords
monitoring
event
service
information
baseline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014532665A
Other languages
English (en)
Other versions
JP5914669B2 (ja
Inventor
清美 和田
清美 和田
峰義 増田
峰義 増田
健太郎 渡邊
健太郎 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP5914669B2 publication Critical patent/JP5914669B2/ja
Publication of JPWO2014033894A1 publication Critical patent/JPWO2014033894A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

ネットワークを通じてクライアント計算機にサービスを提供するサービス実行基盤を監視対象とする監視システムは、同基盤が提供するサービスの負荷毎にコンポーネントの監視値のベースラインを管理し、現在のサービス負荷に応じてベースラインを使い分ける。また、監視システムはベースラインでサービス監視値又はコンポーネント監視値の異常を検知した場合は、直近から所定時間分前までのイベントと、ベースラインの時間帯内のイベントとを比較して、差分イベント(つまり普通でない直近のイベント)を特定する。

Description

実施例は、情報システムを課監視する技術に関する。
従来、システム監視では、監視対象サーバおよび当該サーバで監視可能な監視項目に対して、閾値を設定して、各監視項目ごとに閾値監視をすることで、異常検知を行っていた。しかし、各監視項目に対して適切な閾値を設定することは難しく、設定作業負荷も大きいため、特許文献1では、「計算機システム1の過去の負荷情報に基づいてシステムの負荷の時間的な推移を示す負荷モデルデータを作成する負荷モデルデータ作成手段14と、負荷モデルデータに指定されたしきい値補正データを加算し、しきい値データを時系列に算出するしきい値データ作成手段16と、システム1の現在の負荷情報とそれに対応する時刻のしきい値データを比較することによりシステムの異常負荷を検出する異常負荷検出手段17とを具備する」技術を開示している。
特開2001−142746号公報
特許文献1に開示の技術では、ネットワークを通じてクライアント計算機にサービスを提供するシステムを監視対象とすることが難しい。その困難さはたとえば以下の(1)又は(2)である。
(1)ネットワークサービスを提供するシステム(サービス実行基盤)のコンポーネントを監視する場合、端末からのリクエスト内容(例えば、リクエストタイプや、単位時間当たりのリクエスト数)によって監視値は変化し得るが、特許文献1ではそういったリクエスト内容を加味して過去の監視値をベースラインとして管理していないため、誤った異常検知が多発する。
(2)サービス実行基盤で異常を検知した場合、迅速に当該システムで発生するイベントの分析をすることができない。
以上の課題、特に上記(1)を解決するため、サービス実行基盤を監視する監視システムは、同基盤が提供するサービスの負荷毎にコンポーネントの監視値のベースラインを管理し、現在のサービス負荷に応じてベースラインを使い分ける。また、上記(2)を解決するため、監視システムはベースラインでサービス監視値又はコンポーネント監視値の異常を検知した場合は、直近から所定時間分前までのイベントと、ベースラインの時間帯内のイベントとを比較して、差分イベント(つまり普通でない直近のイベント)を特定する。
本発明によって、ネットワークサービスを提供するサービス実行基盤を効果的に監視することができる。
実施例1の情報システムを示す図である。 実施例1の計算機のハードウェア構成を示す図である。 実施例1のサービス監視サーバの構成を示す図である。 実施例1のストリームデータ処理システムを用いたサービス監視マネージャの性能解析処理フローを示す図である。 実施例1の構成情報の例である。 実施例1のシステム実行基盤の一例であるWebシステムの構成例である。 実施例1のシステム実行基盤のサービスに関する、サービス監視情報ストリームと業務情報付きサービス監視情報ストリームの内容を示す図である。 実施例1のシステム実行基盤のコンポーネントに関する、システム監視情報ストリームと業務情報付きシステム監視情報ストリームの内容を示す図である。 実施例1のシステム実行基盤に関する、イベント監視情報ストリームと業務情報付きイベント情報ストリームの内容を示す図である。 実施例1の業務情報付きイベント情報ストリームの格納先の、イベント情報テーブル、差分イベント情報テーブル、及び類似イベント情報テーブルを示す図である。 実施例1の業務情報付きサービス性能情報ストリームの格納先の、サービス性能情報テーブルを示す図である。 実施例1の業務情報付きシステム性能情報ストリームの格納先の、システム性能情報テーブルを示す図である。 実施例1の業務情報付きサービスグループベースライン情報ストリームの格納先の、サービスグループ性能要約情報テーブルを示す図である。 実施例1の業務情報付きシステムベースライン情報ストリームの格納先の、システム性能要約情報テーブルを示す図である。 実施例1のサービスカタログテーブルと、サービスカタログに基づくシステム稼働情報テーブルを示す図である。 実施例1の性能解析処理部のフロー図である。 実施例1の類似事象検出処理のフロー図である。 実施例1の監視画面を示す図である。 実施例1の監視画面を示す図である。 実施例2の情報システムを示す図である。 実施例2のストリームデータ処理システムを用いたサービス監視マネージャの性能解析処理フローを示す図である。 実施例2のインシデントを取り扱うための情報を示した図である。 実施例2の類似事象検出処理のフロー図である。 実施例2のインシデント検索処理のフロー図である。 実施例2の監視画面を示す図である。
以下に実施例の内容を説明する。なお、以後の説明では以下の用語を用いるがその意味は少なくとも以下である。
ストリーム:イベントや測定値等、時間によって変化し得る情報の時間推移を表した、情報の流れである。
ベースライン:異常を判断する際の元となる過去の監視値又は監視値を統計処理した値である。
なお、以後の説明では「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等の表現にて本発明の情報を説明するが、これら情報は必ずしもテーブル、リスト、DB、キュー、等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等について「aaa情報」と呼ぶことがある。
さらに、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いるが、これらについてはお互いに置換が可能である。
以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御デバイス)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。
また、各種プログラムはプログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。この場合、プログラム配布サーバはCPUと記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムを記憶している。そして、配布プログラムをCPUが実行することで、プログラム配布サーバのCPUは配布対象のプログラムを他の計算機に配布する。
図1は、監視システムを含む情報システムの構成図である。監視対象は、サービス実行基盤のWebシステム101と、エンドユーザが各端末102からWebブラウザ103を用いてネットワーク104経由で利用するサービスである。監視システムは複数のWebシステムとその上で利用可能なサービスを監視する。なお、本実施例ではサービスの一例としてWebを例示するが、その他ファイル共有サービスや、その他のネットワークサービスがサービスに含まれる。
Webシステム101は、サーバ(プロセッサ、記憶資源、ネットワーク等から構成される)、OS、ミドルウェア等の物理的又は論理的なコンポーネントから構成されるサービス実行基盤である。そしてWebシステム101を監視する場合、たとえば監視対象サーバ内に常駐してOSやミドルウェアの稼働性能を監視するOS監視エージェント105やミドルウェア監視エージェント106が監視する。あるいは、システムリモート監視サーバ107が、システムを構成するサーバのOSやミドルウェアの稼働性能をリモート監視するOSリモート監視108やミドルウェアリモート監視109が監視する。OS監視エージェント105、ミドルウェア監視エージェント106、OSリモート監視108、ミドルウェアリモート監視108は、それぞれが監視対象としているコンポーネントの所定の監視項目についての監視値を、サービス監視サーバ113に送信する。
Webアクセスで利用するサービス監視は、ネットワークスイッチ110のミラーポートからWebシステム101の送受信パケットをミラーリングして、トラフィック監視サーバ111に送る。トラフィック監視サーバ111に搭載されたトラフィック監視エージェント112がHttpパケットを解析して、応答時間を算出する。トラフィック監視サーバ111は、監視結果のHttpパケットの概要と応答時間を、サービス監視サーバ113に送信する。ここで、トラフィック監視サーバ111が複数あり、それぞれ接続先スイッチからパケットを収集して解析してもよい。また、トラフィック監視サーバ111に限らず、ネットワークを流れるパケットを収集して、Httpパケットを解析して、応答時間を算出して、Httpパケット情報と応答時間を出力する機能を有するものであればよい。なおサービス監視の方法はこれ以外の方法、例えば、サービス実行基盤のWebサーバに応答時間を算出可能なプログラムを追加するといった方法を採用してもよい。
イベント監視サーバ115内のイベント監視マネージャ116は、監視対象であるWebシステム101や、各種監視サーバ107や111から通知される全てのイベント情報を取得する。なお、サービス実行基盤で発生する(別な言い方をするとイベント監視サーバが検知(受信も含む)する)イベントの種別としては、コンポーネントの障害や警告、コンポーネントの性能などの監視値が所定の基準を超えた場合、サービス実行基盤内で何らかの処理が始まった場合(例えばウィルススキャンやガーベージコレクション、デフラグ等)、とったものが例として考えられるが他の例でもかまわない。
サービス監視サーバ113に搭載されたサービス監視マネージャ114は、コンポーネント監視値をベースラインと比較し、異常判定を行い、異常通知をイベント監視サーバ115内イベント監視マネージャ116に通知する。また、Httpパケット概要と応答時間に基づいて、監視対象サービス毎に応答時間とベースラインとを比較し、異常判定を行い、異常通知イベントをイベント監視サーバ115内イベント監視マネージャ116に通知する。
ここで、コンポーネント監視値またはサービス性能が異常の場合は、当該サービスと関連システムに関するイベントのうち、ベースラインに採用した正常時間帯と異常時間帯のイベントを比較し、異常時に出現する差分イベントまたはイベントの組み合わせを検出する。そして、当該差分イベントと類似イベントまたはイベントの組み合わせが、過去のイベントの中に含まれているかどうかを検索する。
さらに、応答時間を平準化するための数値計算を行い、監視結果に基づいてベースラインを設定する。
サービス監視の結果は、端末117のWebブラウザ118を用いて、リモートから見ることができる。もちろん、サービス監視の結果を表示する端末117は、サービス提供を受ける端末102と同じであってもよく、別であってもよい。
なお、本実施例のおけるサービス実行基盤を監視する監視システムはトラフィック監視サーバ111、サービス監視サーバ113、イベント監視サーバ115の3つのサーバより構成されているが、最低1つのサーバで以後に示すトラフィック監視とサービス監視が処理できればよい。さらに、請求項において表示や入力について触れているのであれば監視システムには上記趣旨に沿った端末117が含まれてもよい。反対に、サービス監視サーバ等トラフィック監視やサービス監視処理を行うサーバで表示や入力を行うのであれば、監視システムには端末を含まなくても良い。また、監視処理の高信頼化や並列化、分散化といった目的で複数のサーバで監視処理を分担するのであればこれら処理を担うサーバをまとめた存在が監視システムである。
なお、以後はコンポーネントの監視値は性能値を例として説明を行うが、その他の監視値(コンポーネントへのアクセスリトライ数、パケットロス率、コンテキストスイッチ数、コンポーネントへのリクエストキュー長やキュー溢れ回数等)にも適用可能である。
次に実施例の端末102、Webシステム101に含まれるサーバ、トラフィック監視サーバ111、システムリモート監視サーバ107、イベント監視サーバ115、端末117以外の計算機のハードウェア構成を図2に示す。図2にあるようにこれら計算機は、プロセッサ201、メモリ202、記憶デバイス203、通信インターフェース204を含み、これらは互いに接続される。なお、計算機は必要であれば入力デバイス206、出力デバイス207を含むことがある。なお、各サーバ、端末をまとめて図2で説明したが、これら計算機が必ずしも同一ハードウェアでなくてもよい。そして、図1の各計算機の隅丸の四角で表されたプログラムは、メモリ202又は記憶デバイス203(以後、まとめて記憶資源と呼ぶ)に格納され、プロセッサ201によって実行される。
図3は、図2で示した計算機の記憶資源に格納される情報、プログラムを表した図である。なお、図ではサービス監視マネージャプログラム114(以後は単にサービス監視マネージャと呼ぶ)はメモリ202、そのほかの情報は記憶デバイス203に格納されているが、記憶資源に格納されるのであれば各プログラム及び情報はどちらに記憶されても良い。サービス監視マネージャ114は画面表示処理部301と性能解析処理部303を含む。記憶デバイス203には、構成情報304、性能情報305、ベースライン情報306、イベント情報307、システム稼働情報308が格納される。端末117からWebブラウザ118経由でやりとりする入出力情報、Webシステム101やシステムリモート監視サーバ107から受信するコンポーネント監視値情報、トラフィック監視サーバ111から受信するHttpパケットの情報、イベント監視サーバ115から受信するイベント情報は、通信インターフェース204により入出力される。なお、図2及び図3では入力デバイスと出力デバイスは別なデバイスとして図されているが、スマートフォンやタブレットコンピュータのような計算機がサーバや端末として用いることも想定されることから、入力デバイスと出力デバイスは1つのデバイスが兼ねても良い。
図4は、サービス監視サーバ113内の、サービス監視マネージャ114の構成と処理フローの例である。サービス監視マネージャ114は、ストリームデータ処理システム302を用いた性能解析処理部303をもつ。クエリリポジトリ406には、性能解析処理部303の各処理内容の実行コードが格納されている。ストリームデータ処理システム内部で、ストリームデータを格納する方法、受け付けられたクエリの解析、最適化および生成されたクエリ実行形式の登録方法などについては、特開2006−338432号公報に開示された技術を用いればよい。ただし、ただし本発明は必ずしも特開2006−338432号公報で実現する必要はなく、以下に示す入力ストリームからベースライン情報306、性能情報305、イベント情報307を更新又は作成できれば他の実現方式であってもよい。
ストリームデータ処理システム302は、トラフィック監視サーバ111からサービス監視情報ストリーム401、Webシステム101やシステムリモート監視サーバ107からシステム監視情報ストリーム402、イベント監視サーバ105からイベント監視情報ストリーム403を受信する。これら入力ストリーム(監視情報ストリーム)401から403は、ストリームデータフローマネージャ404を経由して、クエリ処理エンジン405を使用して、性能解析処理を行う。性能解析処理部303は、業務識別処理410、異常判定処理411、類似事象検出処理412、ベースライン設定処理413の順で実行される。
業務識別処理410では、入力ストリーム(監視情報ストリーム)401から403に、構成情報304のサービスとシステムからなる業務情報を付加した業務情報付き監視情報ストリームを生成する。業務情報付きイベント情報ストリーム407は、イベント情報307に格納する。
異常判定処理411では、所定時間内(例えば1分間)の業務情報付きサービス性能ストリームを、サービス毎に、性能値を統計処理(平均値、最大値、最小値、分散値を算出)し、統計値を、ベースライン情報306の業務別サービスグループ毎の、ベースライン採用日時のサービス性能要約情報と比較し、ベースライン許容範囲内かどうかを判定し、判定結果を含むサービス性能情報ストリーム408を、性能情報305に格納する。また、業務情報付きシステム監視情報ストリームの性能値を、ベースライン情報306の業務別システム毎の、ベースライン採用日時の、各ホストのエージェント別監視項目のサーバ性能要約情報と比較し、ベースライン許容範囲内かどうかを判定し、判定結果を含むシステム性能情報ストリーム408を、性能情報305に格納する。ここで、サービス性能およびシステム性能に対して異常と判定された場合は、イベント監視サーバ115に通知する。
類似事象検出処理412は、サービス性能またはシステム稼働性能がベースライン許容範囲を超過した場合に、イベント情報307から、当該業務に関する、異常となった時間帯のイベントと、ベースラインに採用した正常時間帯のイベントを取り出して比較し、異常時にしか現れない差分イベントを検出する。イベント情報307のうち、当該業務に関する過去のイベントに、差分イベントと類似のイベントがないかどうかを検索する。当該業務内に類似イベントがなければ、システム稼働情報308から、当該業務のシステム構成と類似のシステムを検出し、イベント情報307のうち、類似システムに関する業務のイベント情報も、検索対象とする。当該処理の結果、差分イベント情報407と類似イベント情報407を、イベント情報308に格納する。
ベースライン設定処理413は、所定時間内(例えば1時間)内の業務情報付きサービス性能ストリームを、サービスグループ毎に、性能値を統計処理(平均値、最大値、最小値、分散値を算出)し、ベースライン情報306に格納する。また、所定時間内(例えば1時間)内の業務情報付きシステム性能情報ストリームを、各ホストのエージェント別の監視項目毎に、性能値を統計処理(平均値、最大値、最小値、分散値を算出)し、ベースライン情報306に格納する。所定時間(例えば1時間)単位で、サービスグループ毎の、スループット/分の平均値と、ベースライン情報306に格納されている過去の同一時間帯のスループット/分の値が近い日時を検出して、翌時間帯の業務別ベースライン採用日時を、当該検出日の翌時間帯として、ベースライン情報306に格納する。
図5Aは、構成情報304を示す模式図である。構成情報304は、Webシステムに含まれる業務グループを含むコンポーネントに関する情報(例えばコンポーネントの設定情報や属性情報)や、コンポーネント同士の関係(通信関係や包含関係等)を格納している。図5では構成情報304に含まれる例として構成情報502、サービスグループ情報503、システム情報504、サービス情報505を含むことを示している。
業務情報502の内容は、業務名502a、サービスグループ名502b、システム名502cである。サービスグループ情報503の内容は、サービスグループ名502b、URIパス503aである。サービス情報505の内容は、サービスグループ名502b、サービス名505a、サービス内容505b、URIパス505c、URIクエリ505dである。システム情報504の内容は、システム名502c、ホスト名504a、IPアドレス504bである。
図5BはWebシステムの構成例を示した図である。業務グループ501は、複数の業務502から成る。業務502は、サービスグループ503とシステム504から成る。サービスグループ503は、複数のサービス505から成る。システム504は複数のホスト506から成る。ホスト506は複数のエージェントから成る。なお、1監視システム及びWebシステムで複数の業務を扱わないのであれば、業務グループは存在しなくてもよい。同様に複数のサービスを提供しないのであればサービスグループは存在しなくてもよい。
図6は、サービス監視情報ストリーム401と、業務識別処理410の出力結果の業務情報付きサービス監視情報ストリーム605である。
サービス監視情報ストリーム401は、時刻601、リクエスト情報602、レスポンス情報603、応答時間604より成る。リクエスト情報602の内容は、送信元IPアドレス602a、メソッド602b、URIパス602c、URIクエリ602dである。レスポンス情報603の内容は、HTTPステータスコード603a、転送データ量603bである。
業務情報付きサービス監視情報ストリームは、時刻601、業務名502a、サービスグループ名502b、サービス情報505、リクエスト情報602、レスポンス情報603、応答時間604から成る。サービス情報505の内容は、サービス名505a、サービス内容505bである。
図7は、システム監視情報ストリーム402と、業務識別処理410の出力結果の業務情報付きシステム監視情報ストリーム706である。
システム監視情報ストリーム402は、時刻701、ホスト情報702、エージェント名703、監視項目704、性能値705である。ホスト情報702の内容は、ホスト名702a、IPアドレス702bである。監視項目704の内容は、レコード名704a、フィールド名704bである。
業務情報付きシステム監視情報ストリーム706は、時刻701、業務名502a、システム名502c、ホスト情報702、エージェント名703、監視項目704、性能値705から成る。
図8は、イベント監視情報ストリーム403と、業務識別処理410の出力結果の業務情報付きサービスイベント情報ストリーム407aおよび業務情報付きシステムイベント情報ストリーム407bである。
イベント監視情報ストリーム403は、時刻801、イベント情報802、オブジェクトタイプ803、オブジェクト情報804から成る。イベント情報802の内容は、重大度802a、登録時刻802b、イベントID802c、ソース 802d、メッセージ802e、アクション802fである。オブジェクトタイプ803は、イベント発行元を識別するための情報で、サービス情報、システム情報、ジョブ情報などである。
業務情報付きサービスイベント情報ストリーム407aは、時刻801、業務名502a、サービスグループ名502b、サービス情報505、イベント情報802から成る。
業務情報付きシステムイベント情報ストリームは407bは、時刻801、業務名502a、システム名502c、ホスト情報702、イベント情報802から成る。
図9は、業務情報付きイベント情報ストリーム407を格納するイベント情報307内のイベント情報テーブル307a、類似事象検索処理412で差分イベントおよび類似イベントの、業務情報付きイベント監視情報ストリームを格納する、差分イベント情報テーブル307b、類似イベント情報テーブル307cのテーブル構成である。各イベント情報テーブル307a、307b、307cは、同一テーブル構成で、時刻801、業務名502a、サービスグループ名502b、サービス情報505、システム名502c、ホスト情報702、イベント情報802から成る。
図10は、業務情報付きサービス監視情報ストリーム605に対して、異常判定処理411で統計値を求めてベースライン判定した結果の、サービス性能情報ストリーム408aを格納する、性能情報306内のサービス性能情報テーブル305aである。業務情報付きサービス性能情報ストリーム408aは、時間1001、業務名502a、サービスグループ名502b、サービス情報505、判定1002、1分あたりの応答時間の統計値1003、1分あたりのスループット累積値1004、1分あたりのエラー率累積値1005から成る。サービス性能情報テーブル305aの内容は、時間1001、業務名502a、サービスグループ名502b、サービス情報505、判定1002、1分あたりの応答時間の統計値1003、1分あたりのスループット累積値1004、1分あたりのエラー率の累積値1005である。
図11は、業務情報付きシステム監視情報ストリーム706に対して、異常判定処理411でベースライン判定した結果の、システム性能情報ストリーム408bを格納する、性能情報306内のシステム性能情報テーブル305bである。業務情報付きシステム性能情報ストリーム408bは、時刻1101、業務名502a、システム名502c、ホスト情報702、エージェント名703、監視項目704、性能情報705、判定1102から成る。システム性能情報テーブル305bの内容は、時刻1101、業務名502a、システム名502c、ホスト情報702、エージェント名703、監視項目704、性能情報705、判定1102である。
図12は、業務情報付きサービス性能情報ストリーム408aに対して、ベースライン設定処理413で、所定時間(例えば1時間)で、サービスグループ毎の、サービス性能の統計値を求めて、同一サービスグループ内、同一時間帯で、1分あたりのスループット平均値が最も近い日を検出し、当該検出日の翌時間帯を、翌時間帯の業務別ベースライン採用日時とする、業務情報付きサービスグループベースライン情報ストリーム409aを格納する、ベースライン情報306のサービスグループ性能要約情報テーブル306aである。業務情報付きサービス性能ベースライン情報ストリーム409aは、時間1201、業務名502a、サービスグループ名502b、スループット(統計値)1202、エラー率(統計値)1203、応答時間(統計値)1204、ベースライン採用日時1205から成る。サービスグループ性能要約情報テーブル306aの内容は、時間1201、業務名502a、サービスグループ名502b、スループット統計値(1202)、エラー率(統計値)1203、応答時間(統計値)1204、ベースライン採用日時1205である。
図13は、業務情報付きシステム性能情報ストリーム408bに対して、ベースライン設定処理413で、所定時間(例えば1時間)で、システム内のホストのエージェントの監視項目に対する性能値の統計値を求めて、結果の業務情報付きシステムベースライン情報ストリーム409bを格納する、ベースライン情報306のシステム性能要約情報テーブル306bである。業務情報付きシステムベースライン情報ストリーム409bは、時間1301、業務名502a、システム名502c、ホスト情報702、エージェント名703、監視項目704、性能値(統計値)1302から成る。システム性能要約情報テーブル306bの内容は、時間1301、業務名502a、システム名502c、ホスト情報702、エージェント名703、監視項目704、性能値(統計値)1302である。
図7の業務情報付きシステム監視情報ストリーム706の時刻701が属する時間帯の、業務名502aと一致する、図12のサービスグループ性能要約情報テーブル306aの時間1201と業務名502aの、ベースライン採用日時1205をみて、図13のシステム性能要約情報テーブル306bの性能値(統計値)を使用する。
図14は、システム稼働情報308に含まれるサービスカタログテーブル1401と、システム稼働情報テーブル1402である。サービスカタログテーブル1401の内容は、システム種別1403、サーバスペック1404、OS種別1405、ミドルウェア種別1406、数量1407から成る。
システム稼働情報テーブル1402の内容は、システム名502c、システム種別1403、UP(User Program)情報1408、累積稼働日数1409、アラート発生件数1410、障害件数1411、所定期間の平均サービス性能情報1412、所定期間の平均システム性能情報1413から成る。
サービスカタログテーブル1401は、PaaS(Platform as a Service)提供者が、提供サービスを登録する。
システム稼働情報テーブル1402は、システムを構築時や更改時に、システム名502cと、サービスカタログテーブル1401から選択したシステム種別1403と、UP情報1408を登録する。また、累積稼働日数1409、アラート発生件数1410、障害件数1411は、別に管理されているインシデント管理から、定期的に登録更新される。さらに所定期間の平均サービス性能情報1412、所定期間の平均システム性能情報1413は、性能情報305から、定期的に集計処理されて登録更新される。
システム稼動情報テーブル1402は、対象システムとシステム種別1403が同一のシステムを検索したり、類似システムのうち、稼動実績の長いあるいは近いシステムを選択するために必要である。
図15は、性能解析処理部303の処理の流れである。性能解析処理部303は、業務識別処理410、異常判定処理411、類似事象検出処理412、ベースライン設定処理413の順で処理する。
業務識別処理410は、監視情報ストリームを受信する処理1501と、監視情報ストリームに業務情報を付加する処理1502からなる。受信処理1501は監視情報ストリームの新しい情報を受信する。
監視情報ストリームに業務情報を付加する処理1502は、構成情報304を参照して、サービス監視情報ストリームの場合は、URIが共通のサービスグループに関連する業務を取得し、URIとクエリが共通のサービス情報を取得し、業務種別付きサービス監視情報ストリームを作成する。
システム監視情報ストリームの場合は、ホストが含まれるシステムに関連する業務を取得し、業務情報付きシステム監視情報ストリームを作成する。
イベント監視情報ストリームの場合は、オブジェクトタイプがサービスの場合は、オブジェクト情報に格納されているサービス情報のうちのサービスグループに関連する業務を取得し、業務種別付きイベント監視情報を作成する。オブジェクトタイプがホストの場合は、ホストが含まれるシステムに関連する業務を取得し、業務種別付きイベント監視情報を作成する。業務種別付きイベント監視情報は、イベント情報307に格納する。
異常判定処理411は、所定時間内に到着する業務種別付きサービス監視情報ストリームに対して、性能値の統計値(平均、最大、最小、分散)を求めて、業務種別付きサービス性能情報ストリームを作成する処理1503と、業務種別付きサービス性能情報の統計値が、ベースラインを超過していないかを判定し、業務種別付きサービス性能情報ストリームを性能情報305に登録する、または業務種別付きシステム監視情報のホスト内エージェントの監視項目に対する性能値がベースラインを超過していないかを判定し、業務種別付きシステム性能情報ストリームを性能情報305に登録する処理1504から成る。
ベースライン許容範囲を超過するか否かの判定部1505の結果、ベースラインを超過する場合、類似事象検出処理412を実行する。類似事象検出処理412は、正常時と異常時のイベント情報を比較して差分イベントを検出する、イベント情報比較処理1506と、差分イベントと類似のイベントが過去に存在するかどうかを検索する、類似イベント検索処理1507から成る。
ベースライン設定処理413において、まず、所定時間内の性能要約情報を作成する処理1508は、業務毎に、サービスグループ毎の単位時間(例えば1分)あたりのサービス性能(応答時間、スループットなど)の、所定時間(例えば1時間)内の統計値を算出して、サービス性能要約情報を作成する。また、同処理1508は、システム内の各ホストのエージェント毎の監視項目の性能値の所定時間(例えば1時間)内の統計値を算出して、システム性能要約情報を作成する。同処理1508は、単位時間(例えば1分)おきに、性能情報の統計値(最大値、最小値、平均値)を累積していく。
次に、所定時間内のスループット統計値と近い過去の統計値を検出して翌時間帯のベースラインを決定する処理1509は、所定時間(例えば1時間)分の性能要約情報が累積された時点で、同一業務のサービスグループの、過去同一時間帯のスループット統計値のうち、最も近い日にちを見つけて、翌時間帯のベースライン採用日として、ベースライン情報306に格納する。
図16は、類似事象検出処理412の処理の流れである。類似事象検出処理412は、イベント情報比較処理1506と類似イベント検索処理1507から成る。
イベント情報比較処理1506は、業務毎に、ベースライン超過時点を含む直近の所定時間内のイベント情報を取得する処理1601と、ベースライン採用時間帯(正常時)のイベント情報を取得する処理1602と、ベースライン超過時間帯(異常時)のイベントと、ベースライン採用時間帯(正常時)のイベントで、イベントIDを比較し、正常時には出現しないが異常時に出現する差分イベントを検出し、差分イベントをイベント情報307に格納する処理1603から成る。
類似イベント検索処理1507は、同一業務の過去のイベントから、差分イベント(組み合わせ)とイベントIDが一致するものを検索する処理1604と、差分イベントとの適合性判定部1605と、適合イベントが見つかった場合に類似イベント(組み合わせ)をイベント情報307に格納する処理1606と、システム稼働情報308を参照して、当該業務と関連するシステムと、同一のシステム構成をもつ他システムを検索する処理1607と、システム類似度判定部1608と、類似システム関連業務の過去イベントから、差分イベント(組み合わせ)とイベントIDが一致するものを検索する処理1609成る。
図17から図18は、サービス監視サーバ113にインストールされたサービス監視マネージャ114の画面表示処理部301によって実行され、端末117のWebブラウザ118上で表示する監視画面である。
図17は、業務別に、サービスと関連システム性能をベースライン監視した結果、ベースライン超過を検知し、正常時には出現しない差分イベントを検出した際の、監視画面1700である。監視画面1700は、業務一覧表示部1701、表示期間指定部1702、トポロジー表示部1703、差分イベント一覧表示部1704、グラフ表示部1705から構成される。
本監視画面の使い方は、まず、統合イベント監視ツール側で、業務内サービスあるいはホストでの異常に気付くと、監視画面1700で、業務一覧表示部1701より、確認したい業務を選択する。次に、表示期間指定部1702で期間を指定して、トポロジー表示部1703により、業務を構成するサービスおよびシステム内ホストの稼働状況を確認する。また、このとき、差分イベント一覧表示部1704で、異常時にしか現れないイベントが表示される。そして、グラフ表示部1705では、表示期間指定部1702で指定した期間内の、トポロジー表示部1703で選択した異常箇所の性能傾向と、差分イベント一覧で選択したイベントの発生状況を、確認する。グラフ表示部1705において、ベースラインに採用するのは、直近のアクセス数が最も近い同一時間帯の日付の性能値であるため、イベント2が発生している日1706の応答時間のベースラインは、最もアクセス数が近い日1707の応答時間をベースラインとしている。
図18は、図17で検出した差分イベントに対して、同一業務および、同一システム構成の他業務の過去イベントのなかから、類似イベントを検出した結果の監視画面1800である。監視画面1800は、業務一覧表示部1801、表示期間指定部1802、差分イベント一覧表示部1803、類似イベント一覧表示部1804、グラフ表示部1805から構成される。
本監視画面の使い方は、図17で検出した異常時の差分イベントについて、差分イベント一覧表示部1803で、表示期間指定部1802で期間を指定して、差分イベントの発生状況を発生件数で確認する。ここで、差分イベントが頻繁に発生しており、無視できるイベントなのか、めったに発生しない注意すべきイベントなのかを判別する。
続いて、発生件数の少ない注意すべきイベントの場合、同一業務または類似システムからなる業務に関わる過去のイベントのなかから、類似イベントを検索し、検索結果を類似イベント一覧1804で表示する。
グラフ表示部1805で、類似イベント発生状況と性能傾向を、現時点と過去と比較し、障害発生を予測し、障害発生前に対処が可能な情報を提示する。
以上が実施例1の説明である。
次に実施例2を図を用いて説明する。
図19は、実施例2の構成を示した図であり、実施例1との差異はインシデント管理サーバ119を追加したことである。インシデント管理サーバ119内には、インシデント管理120プログラムを記憶資源に格納し、実行する。
図20は、図4のサービス監視サーバ113内の、サービス監視マネージャ114の構成と処理フローに、インシデント管理サーバ119のインシデント管理120と連携して、類似インシデント情報を追加する場合の構成と処理フローである。ストリームデータ処理システム302内の性能解析処理部303において、類似事象検出処理412は、サービス性能またはシステム稼働性能がベースライン許容範囲を超過した場合に、イベント情報307から、当該業務に関する、異常となった時間帯のイベントと、ベースラインに採用した正常時間帯のイベントを取り出して比較し、異常時にしか現れない差分イベントを検出する。そして、インシデント管理サーバ119内インシデント管理120のインシデント検索処理2001で、差分イベントが、当該業務に関する過去のイベントに基づいて登録済みのインシデント情報2002のなかに、類似のインシデント情報が存在するかどうかを検索する。検索の結果、類似インシデントが見つかった場合には、業務情報付きインシデント情報ストリーム2003を生成し、類似インシデント情報2004に格納する。
図21は、図20のインシデント検索処理2001の、入力情報2101と出力情報2103、インシデント情報2002内のインシデント情報テーブル2101と、類似インシデント情報2004内の類似インシデント情報テーブル2104である。
インシデント検索のための入力情報2101は、検索対象期間を示す開始日時2105と終了日時2106、検索対象の業務名502a、サービスグループ名502b、システム名502c、インシデントに関連するイベントID2107からなる。
インシデント情報テーブル2102は、タイトル2108、重要度2109、インシデントID2110、インシデントIDへのURL2111、業務名502a、サービスグループ名502b、システム名502c、発生日時2112、インシデントに関連するイベントID2113から成る。
インシデント検索結果の出力情報2103は、2102のインシデント情報テーブルの各項目に対応する内容である。
類似インシデント情報テーブル2104は、2103のインシデント検索結果を格納するために、インシデント情報に対応する各項目から成る。
図22は、図16の類似事象検出処理412の処理の流れに、類似障害検索処理2201を追加した処理フローである。類似事象検出処理412において、イベント情報比較処理1506により、差分イベントを検出し、イベント情報307に格納する。
次に、類似障害検索処理2201で、差分イベント(組み合わせ)と類似の関連イベントに基づくインシデントが存在するかどうかを検索する。類似障害検索処理2201は、検索期間と業務情報と差分イベント(組み合わせ)から成るデータセットを作成する処理2202と、作成したデータセットを入力パラメータとして、類似インシデントを返り値とする検索コマンドを生成する処理2203と、生成した検索コマンドをインシデント管理に送信し、類似インシデント情報一覧を受信する処理2204から成る。
類似障害検索処理2201の結果、類似インシデントが見つかったか否かの判定処理2205を行い、類似インシデントが見つかった場合は、類似インシデント情報一覧を類似インシデント情報テーブルに格納する処理2206を行い、類似インシデント情報2004に格納する。るインシデントが見つからなかった場合は、類似イベント検索処理1507を実行する。
図23は、インシデント管理サーバ119内のインシデント管理120での、インシデント検索処理2001の処理の流れである。インシデント検索処理2001は、検索開始日時から終了日時の期間内で、同一業務のインシデントを抽出する処理2301と、抽出したインシデントのうち、関連イベントが含まれるインシデントを抽出する処理2302と、抽出したインシデント情報から、“タイトル”、“重大度”、“インシデントID”、“インシデントIDへのURL”、“業務名”、“発生日時”、“関連イベントID”から成るデータセットを作成する処理2303と、作成したデータセットを送信する処理2304から成る。
図24は、サービス監視サーバ113にインストールされたサービス監視マネージャ114の画面表示処理部301によって実行され、端末117のWebブラウザ118上で表示する監視画面である。図24は、図18の、差分イベントに対して、類似イベントを検出した結果の監視画面1800と異なり、類似インシデントを検出した結果の監視画面2400である。
監視画面2400において、差分イベント一覧2401に対して、検索期間2402を指定すると、当該イベントの発生件数が表示される。
次に、類似検索対象にチェック2403の付与されたイベント(組み合わせ)に関するインシデントを検索した結果が、類似インシデント一覧2404に表示される。
さらに、インシデントID2405をクリックすると、インシデント詳細URL先のインシデント画面2406が表示される。インシデント画面2406内には、インシデント情報2407が表示され、現在発生しているイベントが、障害につながるかどうかを判断することができる。さらに、インシデント画面2406には、回避策や解決策といったサービス実行基盤の管理者が行い、そして入力した内容が表示されるため、サービス実行基盤の管理者は、これら表示情報を参考にして、障害発生前に対処することが可能となる。
以上、実施例1及び2の監視システムによって、例えば、不確定に変動するサービス利用と、定時に定型処理するバッチジョブなどのシステム内部処理とで、両方共に類似の利用状況の過去の性能情報であるベースラインを見つけるのは困難であったが、同一時間帯の過去のサービスのスループットのなかで、現在のスループットと近い日にちを見つけるので、定時実行内部処理を加味したシステムおよびサービスのベースラインを、短期間に精度よく見つけることができるようになった。
また、実施例1及び2の監視システムによって、ベースラインの許容範囲を超過した場合、この先放っておくと障害に至ってしまうため対処が必要なケースと、時間経過とともに自然回復するため対処が不要なケースがあるが、予兆段階で正しい判断をするための情報を提示できるようになった。
さらに、実施例1及び2の監視システムによって、サービス利用状況が近い、同一時間帯のシステム稼動性能をベースラインとすることで、外部アクセス変動(外乱)によらない、システム内部処理異常に気づくことができるようになった。従って、外部アクセスによる外的要因か、内部処理異常の内部要因かを切り分けられるようになり、原因調査に要する時間を削減でき、適切な対象方法をとることができるようになった。
なお、図16にあるように、ステップ1602にて取得するイベント情報は、採用されたベースラインの時間帯のイベント情報であるため、結果的に取得されるイベント情報もその時のサービス監視の値に適したものが選択される。これは例えばサービスリクエストが多い時と少ない時とで発生するイベントが相違する場合に好適である。しかし、図16の類似事象検出処理はベースラインをサービス監視の値と関連付けて管理しない場合でも適用することで、サービス実行基盤で異常を検知後に迅速にイベント分析は可能である。これは図22も同様である。
なお、コンポーネントの異常検知に用いるベースラインをその時のサービス監視値に近いベースラインを1つ選ぶ代わりに、複数のベースラインから擬似的なベースラインを合成(例えば2つのベースラインの平均化等)してもよい。このような合成はサービス実行基盤のサービス負荷がわずかに増加した場合にコンポーネントの監視値が急激に変化しない場合は好適である。一方の1つのベースラインを選択する場合は、図17のようなベースライン表示をした場合に、表示ベースラインは事実として発生したものであることから、監視システムのユーザーは事実ベースでの分析をより深く行うことが出来る。また、1つのベースラインを選択した場合のほうが、対応するイベント情報を選択しやすい。
なお、イベント監視サーバ115からストリームとして送信されてきたイベントは、イベント監視サーバ115がWebシステム101からイベントの内容を示すメッセージを受信したことでイベント監視サーバ115が検知するが考えられる。また、他のイベント検知の方法としては、イベント監視サーバ115がサービス実行基盤に状態取得要求を送信し、そこで受信した状態によってイベント検知を行う方法も考えられる。しかし、イベント検知は他の方法で実現してもよい。
101・・・Webシステム、102・・・端末、111・・・トラフィック監視サーバ、113サービス監視サーバ

Claims (15)

  1. 複数のコンポーネントを含み、前記コンポーネントを用いて所定のサービスを提供するサービス実行基盤と通信可能な通信インターフェースと、
    記憶資源と、
    前記サービス実行基盤から、前記所定のサービスの監視値であるサービス監視ストリームと、前記コンポーネントの監視値であるコンポーネント監視ストリームと、を受信処理するプロセッサと、
    を有する監視システムであって、
    前記プロセッサは、
    (A)過去の所定の時間帯のコンポーネント監視ストリームに基づいてコンポーネントベースラインを作成し、
    (B)過去の所定の時間帯のサービス測定ストリームの統計値を計算し、
    (C)前記作成したコンポーネントベースラインを、前記所定の時間帯及び(B)で計算した統計値と対応付けて前記記憶資源に格納し、
    (D)前記コンポーネントベースライン作成後、サービス監視ストリーム及びコンポーネント監視ストリームを新たに受信したら、当該新規受信したサービス監視ストリームに適するコンポーネントベースラインを選択し、前記選択したコンポーネントベースラインを基準に当該新規受信したコンポーネント監視ストリームの異常を判断する、
    を処理する監視システム。
  2. 請求項1記載の監視システムであって、
    前記監視システムは表示装置を有し、
    前記プロセッサは、
    前記新規受信したサービス監視値と、
    前記新規受信したコンポーネント監視値と、
    前記選択したコンポーネントベースラインと、
    を前記表示装置に表示させる、
    監視システム。
  3. 請求項2記載の監視システムであって、
    前記プロセッサは、
    (E)前記サービス実行基盤のイベントを検知し、検知した時間と共に記憶資源に格納し、
    (F)(D)にて異常と判断した場合、(D)のコンポーネントベースラインに対応付けられた前記所定の時間帯を取得し、取得した時間帯内に検知したイベントを選択し、
    (G)選択したイベントに基づいて、前記所定の時間帯では検知してなかった直近から所定期間前までのイベントを選択し、
    (H)(G)で選択したイベントの内容を表示する、
    監視システム。
  4. 請求項3記載の監視システムであって、
    前記プロセッサは、
    (I)(G)で選択したイベントを過去のイベントから検索することで、類似するイベントを当該類似イベントの検知時間と共に表示する、
    監視システム。
  5. 請求項4記載の監視システムであって、
    前記検索対象となる過去のイベントには、システム構成上類似する他のサービス実行基盤のイベントも含まれる、
    監視システム。
  6. 請求項3記載の監視システムであって、
    前記プロセッサは、
    (J)(G)で選択したイベントをインシデント情報に含まれるイベントと比較することで、前記直近から所定期間前までに新たに検知したイベントに関連する可能性があるインシデントの内容を表示する、
    監視システム。
  7. 複数のコンポーネントを含み、前記コンポーネントを用いて所定のサービスを提供するサービス実行基盤を監視する監視システムで実行する監視プログラムであって、
    前記監視プログラムは、
    前記サービス実行基盤から、前記所定のサービスの監視値であるサービス監視ストリームと、前記コンポーネントの監視値であるコンポーネント監視ストリームと、を受信し、
    (A)過去の所定の時間帯のコンポーネント監視ストリームに基づいてコンポーネントベースラインを作成し、
    (B)過去の所定の時間帯のサービス測定ストリームの統計値を計算し、
    (C)前記作成したコンポーネントベースラインを、前記所定の時間帯及び(B)で計算した統計値と対応付けて前記監視システムの記憶資源に格納し、
    (D)前記コンポーネントベースライン作成後、サービス監視ストリーム及びコンポーネント監視ストリームを新たに受信したら、当該新規受信したサービス監視ストリームに適するコンポーネントベースラインを選択し、前記選択したコンポーネントベースラインを基準に当該新規受信したコンポーネント監視ストリームの異常を判断する、
    ステップを含む監視プログラム。
  8. 請求項7記載の監視プログラムであって、
    前記監視プログラムは、
    前記新規受信したサービス監視値と、
    前記新規受信したコンポーネント監視値と、
    前記選択したコンポーネントベースラインと、
    を前記監視システムの表示装置に表示させる、
    ステップを含む監視プログラム。
  9. 請求項8記載の監視プログラムであって、
    前記監視プログラムは、
    (E)前記サービス実行基盤のイベントを検知し、検知した時間と共に記憶資源に格納し、
    (F)(D)にて異常と判断した場合、(D)のコンポーネントベースラインに対応付けられた前記所定の時間帯を取得し、取得した時間帯内に検知したイベントを選択し、
    (G)選択したイベントに基づいて、前記所定の時間帯では検知してなかった直近から所定期間前までのイベントを選択し、
    (H)(G)で選択したイベントの内容を表示する、
    ステップを含む監視プログラム。
  10. 請求項9記載の監視プログラムであって、
    前記監視プログラムは、
    (I)(G)で選択したイベントを過去のイベントから検索することで、類似するイベントを当該類似イベントの検知時間と共に表示する、
    ステップを含む監視プログラム。
  11. 請求項10記載の監視プログラムであって、
    前記検索対象となる過去のイベントには、システム構成上類似する他のサービス実行基盤のイベントも含まれる、
    監視プログラム。
  12. 請求項9記載の監視プログラムであって、
    前記監視プログラムは、
    (J)(G)で選択したイベントをインシデント情報に含まれるイベントと比較することで、前記直近から所定期間前までに新たに検知したイベントに関連する可能性があるインシデントの内容を表示する、
    ステップを含む監視プログラム。
  13. 請求項3記載の監視システムであって、
    前記イベントの検知とは、
    前記監視システムが前記サービス実行基盤からイベントの内容を記した情報を受信すること、
    または
    前記サービス実行基盤の状態を取得することで、前記監視システムが前記サービス実行基盤にてイベントが発生したと判断する、
    ことを特徴とする監視システム。
  14. 請求項9記載の監視プログラムであって、
    前記イベントの検知とは、
    前記監視システムが前記サービス実行基盤からイベントの内容を記した情報を受信すること、
    または
    前記サービス実行基盤の状態を取得することで、前記監視システムが前記サービス実行基盤にてイベントが発生したと判断する、
    ことを特徴とする監視プログラム。
  15. 複数のコンポーネントを含み、前記コンポーネントを用いて所定のサービスを提供するサービス実行基盤と、
    前記サービス実行基盤の監視値を含む監視ストリームを受信処理する監視システムと、
    を有するシステムであって、
    前記監視システムは、
    (1)前記サービス実行基盤のイベントを検知し、検知した時間と共に記憶資源に格納し、
    (2)過去の監視ストリームに基づいてベースラインを作成し、
    (3)前記作成したベースラインを、基となった前記過去の監視ストリームの時間帯と関連付けて前記記憶資源に格納し、
    (4)前記ベースライン作成後、監視ストリームを新たに受信したら、前記ベースラインを基準に当該新規受信した監視ストリームの異常を判断し、
    (5)(4)にて異常と判断した場合、(4)のベースラインに対応付けられた時間帯を取得し、取得した時間帯内に検知したイベントを選択し、
    (6)選択したイベントに基づいて、前記取得した時間帯では検知してなかった直近から所定期間前までのイベントを選択し、
    (7)(G)で選択したイベントの内容を表示する、
    システム。
JP2014532665A 2012-08-31 2012-08-31 サービス性能監視方法 Active JP5914669B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/072097 WO2014033894A1 (ja) 2012-08-31 2012-08-31 サービス性能監視方法

Publications (2)

Publication Number Publication Date
JP5914669B2 JP5914669B2 (ja) 2016-05-11
JPWO2014033894A1 true JPWO2014033894A1 (ja) 2016-08-08

Family

ID=50182742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014532665A Active JP5914669B2 (ja) 2012-08-31 2012-08-31 サービス性能監視方法

Country Status (3)

Country Link
US (1) US9509706B2 (ja)
JP (1) JP5914669B2 (ja)
WO (1) WO2014033894A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10324779B1 (en) * 2013-06-21 2019-06-18 Amazon Technologies, Inc. Using unsupervised learning to monitor changes in fleet behavior
US10255124B1 (en) 2013-06-21 2019-04-09 Amazon Technologies, Inc. Determining abnormal conditions of host state from log files through Markov modeling
JP6371478B2 (ja) * 2015-07-01 2018-08-08 三菱電機株式会社 分散型機器異常検出システム
US10482231B1 (en) * 2015-09-22 2019-11-19 Amazon Technologies, Inc. Context-based access controls
US9509710B1 (en) * 2015-11-24 2016-11-29 International Business Machines Corporation Analyzing real-time streams of time-series data
US10171335B2 (en) * 2015-12-01 2019-01-01 Microsoft Technology Licensing, Llc Analysis of site speed performance anomalies caused by server-side issues
US10263833B2 (en) 2015-12-01 2019-04-16 Microsoft Technology Licensing, Llc Root cause investigation of site speed performance anomalies
US10504026B2 (en) 2015-12-01 2019-12-10 Microsoft Technology Licensing, Llc Statistical detection of site speed performance anomalies
JP6622581B2 (ja) * 2015-12-11 2019-12-18 キヤノン株式会社 情報提示方法及び装置
CN105391602B (zh) * 2015-12-15 2019-02-26 北京奇虎科技有限公司 一种数据采集测试方法和装置
US10708155B2 (en) * 2016-06-03 2020-07-07 Guavus, Inc. Systems and methods for managing network operations
CN106250290A (zh) * 2016-08-03 2016-12-21 广州唯品会信息科技有限公司 异常信息的分析方法及装置
US10797964B2 (en) * 2016-11-26 2020-10-06 Amazon Technologies, Inc. System event notification service
US20220232025A1 (en) 2017-11-27 2022-07-21 Lacework, Inc. Detecting anomalous behavior of a device
US10425437B1 (en) 2017-11-27 2019-09-24 Lacework Inc. Extended user session tracking
US11792284B1 (en) 2017-11-27 2023-10-17 Lacework, Inc. Using data transformations for monitoring a cloud compute environment
US11770398B1 (en) 2017-11-27 2023-09-26 Lacework, Inc. Guided anomaly detection framework
US11741238B2 (en) 2017-11-27 2023-08-29 Lacework, Inc. Dynamically generating monitoring tools for software applications
US11818156B1 (en) 2017-11-27 2023-11-14 Lacework, Inc. Data lake-enabled security platform
US11765249B2 (en) 2017-11-27 2023-09-19 Lacework, Inc. Facilitating developer efficiency and application quality
US11973784B1 (en) 2017-11-27 2024-04-30 Lacework, Inc. Natural language interface for an anomaly detection framework
US11979422B1 (en) 2017-11-27 2024-05-07 Lacework, Inc. Elastic privileges in a secure access service edge
US11894984B2 (en) 2017-11-27 2024-02-06 Lacework, Inc. Configuring cloud deployments based on learnings obtained by monitoring other cloud deployments
US11849000B2 (en) 2017-11-27 2023-12-19 Lacework, Inc. Using real-time monitoring to inform static analysis
US11785104B2 (en) 2017-11-27 2023-10-10 Lacework, Inc. Learning from similar cloud deployments
US20220232024A1 (en) 2017-11-27 2022-07-21 Lacework, Inc. Detecting deviations from typical user behavior
CN108667688A (zh) * 2018-04-19 2018-10-16 北京搜狐新媒体信息技术有限公司 一种数据监控方法及装置
JP7367441B2 (ja) * 2019-10-04 2023-10-24 富士フイルムビジネスイノベーション株式会社 監視装置及び監視プログラム
US11256759B1 (en) 2019-12-23 2022-02-22 Lacework Inc. Hierarchical graph analysis
US11201955B1 (en) 2019-12-23 2021-12-14 Lacework Inc. Agent networking in a containerized environment
US11171853B2 (en) * 2020-01-30 2021-11-09 Ciena Corporation Constraint-based event-driven telemetry
US11403157B1 (en) * 2020-01-31 2022-08-02 Splunk Inc. Identifying a root cause of an error

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
US20020093527A1 (en) * 2000-06-16 2002-07-18 Sherlock Kieran G. User interface for a security policy system and method
US7917647B2 (en) * 2000-06-16 2011-03-29 Mcafee, Inc. Method and apparatus for rate limiting
US7386888B2 (en) * 2003-08-29 2008-06-10 Trend Micro, Inc. Network isolation techniques suitable for virus protection
JP2005316808A (ja) * 2004-04-30 2005-11-10 Nec Software Chubu Ltd 性能監視装置および性能監視方法並びにプログラム
US6885907B1 (en) * 2004-05-27 2005-04-26 Dofasco Inc. Real-time system and method of monitoring transient operations in continuous casting process for breakout prevention
CN103777628B (zh) * 2005-04-04 2017-01-18 费舍-柔斯芒特系统股份有限公司 用于使加工厂内收集的数据拟合到正弦波的方法
US7760861B1 (en) * 2005-10-31 2010-07-20 At&T Intellectual Property Ii, L.P. Method and apparatus for monitoring service usage in a communications network
JP5468837B2 (ja) * 2009-07-30 2014-04-09 株式会社日立製作所 異常検出方法、装置、及びプログラム
US9037922B1 (en) * 2012-05-01 2015-05-19 Amazon Technololgies, Inc. Monitoring and analysis of operating states in a computing environment

Also Published As

Publication number Publication date
US9509706B2 (en) 2016-11-29
JP5914669B2 (ja) 2016-05-11
WO2014033894A1 (ja) 2014-03-06
US20150135312A1 (en) 2015-05-14

Similar Documents

Publication Publication Date Title
JP5914669B2 (ja) サービス性能監視方法
JP5416833B2 (ja) 性能監視装置,方法,プログラム
WO2013186870A1 (ja) サービス監視システム、及び、サービス監視方法
US20120030346A1 (en) Method for inferring extent of impact of configuration change event on system failure
US9514387B2 (en) System and method of monitoring and measuring cluster performance hosted by an IAAS provider by means of outlier detection
JP5546686B2 (ja) 監視システム、及び監視方法
US9021077B2 (en) Management computer and method for root cause analysis
EP2874064B1 (en) Adaptive metric collection, storage, and alert thresholds
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US9705772B2 (en) Identification apparatus, identification method and identification program
US9692654B2 (en) Systems and methods for correlating derived metrics for system activity
JP5659108B2 (ja) 運用監視装置、運用監視プログラム及び記録媒体
US20130036214A1 (en) System and method for managing environment configuration using snapshots
JP6482984B2 (ja) クラウド管理方法及びクラウド管理システム
US9021078B2 (en) Management method and management system
US9645877B2 (en) Monitoring apparatus, monitoring method, and recording medium
JP2012181744A (ja) 分散ファイルシステムにおける運用監視システム及び運用監視方法
JP6926646B2 (ja) 事業者間一括サービス管理装置および事業者間一括サービス管理方法
EP3798950A1 (en) Management and aggregation of ticket data from multiple sources
EP3798955A1 (en) Management of tickets and resolution processes for an industrial automation environment
JP5624683B2 (ja) 管理サーバ、管理システム、および、管理方法
JP2002229871A (ja) ネットワークシステムの監視支援方法、および、監視支援システム
JP2016162282A (ja) 障害原因特定作業抽出装置、障害原因特定作業抽出方法及び障害原因特定作業抽出プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160404

R151 Written notification of patent or utility model registration

Ref document number: 5914669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151