JPWO2012056561A1 - 装置監視システム,方法およびプログラム - Google Patents

装置監視システム,方法およびプログラム Download PDF

Info

Publication number
JPWO2012056561A1
JPWO2012056561A1 JP2012540599A JP2012540599A JPWO2012056561A1 JP WO2012056561 A1 JPWO2012056561 A1 JP WO2012056561A1 JP 2012540599 A JP2012540599 A JP 2012540599A JP 2012540599 A JP2012540599 A JP 2012540599A JP WO2012056561 A1 JPWO2012056561 A1 JP WO2012056561A1
Authority
JP
Japan
Prior art keywords
monitoring
state
log
frequency
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012540599A
Other languages
English (en)
Inventor
内田 裕久
裕久 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2012056561A1 publication Critical patent/JPWO2012056561A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

監視対象装置の状態に応じて監視頻度を変更して監視するために,装置監視システムは,監視対象装置ごとに,複数の監視項目に関する状態を記憶する状態情報記憶部と,状態情報記憶部に記憶された監視項目に関する状態の変化を検出し,検出した状態の変化にもとづいて監視対象装置から監視項目に関する状態を取得する状態監視頻度を設定し,状態監視部に通知する異常監視部と,状態監視頻度に応じて監視対象装置から監視項目に関する状態を取得し,状態情報記憶部に格納する状態監視部とを備える。

Description

本発明は,監視対象となる複数の装置を複数の監視項目について監視する装置監視システム,方法およびプログラムに関する。
装置監視システムは,監視対象となる複数の装置(例えば,種々の処理を提供するサーバ)と,複数の監視対象装置を集中管理する監視装置とで構成され,監視対象装置の異常を検出し,原因究明のための情報を収集するシステムである。
より具体的には,装置監視システムの監視装置は,監視対象装置から定期的に状態に関する情報を取得し(状態監視),また,定期的に動作や状態に関するログを取得する(ログ収集)。
監視対象装置の状態に関する情報は,SNMP(Simple Network Management Protocol)やIPMI(Intelligent Platform Management Interface)などの標準技術を使用して取得する方法,監視ソフトウェアのエージェントから取得する方法などが一般的である。
また,監視対象装置のログ収集は,BMC(Baseboard Management Controller)が保持するSEL(system event log)から取得する方法,監視対象装置のOSが保持するログ,例えばUNIX(登録商標)であればsyslog,Windows(登録商標)であればイベントログなどから取得する方法等が一般的である。
上記の状態監視処理およびログ収集処理は定期的に実行されるが,それぞれの目的の相違により実行される頻度は異なる。状態監視は,異常を検出することが目的であるため,処理実行の頻度は,短いサイクルで設定される(例えば,1回/分)。ログ収集は,ログが漏れることのない範囲で収集できればよいので,処理実行の頻度は長めのサイクルに設定される(例えば,1回/週)。
従来手法として,サーバ監視の際に,監視情報の取得処理の時間間隔を2種類用意し,スケジュールに合わせていずれかの間隔に変更する方法が知られている。
特開2006−319707号公報
状態監視は,その目的に鑑みれば,実行頻度が高い方が良い。しかし,監視対象装置に与える負荷を考慮すると,監視対象装置が問題なく動作している場合は,装置に負荷を与えない方が好ましいので,監視頻度は低い方が良い。また,監視対象装置から異常につながる予兆が見つけられた場合は,監視頻度を高くすることが好ましく,実際に異常を検出した後は,既に異常を認識しているので,監視頻度を低くしても良い。
一方,ログ収集は,原因究明のために情報を収集する目的であるため,異常を検出するまでは実行頻度を低くし,異常を検出した後はログ情報の蓄積速度が高くなるため,情報の収集漏れを防ぐために収集頻度を高くする方が良い。
しかし,従来のサーバ監視システムでは,異常検出の有無に関係なく,状態監視の頻度,ログ収集の頻度は共に一定であったため,以下のような問題が発生していた。
・ 問題なく動作している監視対象装置に対する監視頻度が高いために,装置に余計な負荷を与える場合があった。
・ 異常検出後も同じ頻度で状態監視を行うため,問題が発生している装置に負荷をかけ続けるおそれがあった。
・ 異常が発生してから次にログ情報を取得するまでの収集間隔が長すぎると,原因究明に有効なログ情報が上書きされる可能性があり,原因特定に資する情報を取得する機会が失われてしまうおそれがあった。
従来の監視システムでは,最初のイベント発生に対して,その後のイベントの発生パターンを想定し,そのパターンによって監視頻度を可変にしているため,予め定めたスケジュールにもとづいて監視間隔を制御する。しかし,この監視システムでは,監視対象装置の状態変化に対応して監視間隔を変更することができなかった。
本発明は,監視対象装置の状態変化に対応して,必要に応じた監視項目に関する状態情報の取得,ログ情報の収集を柔軟な間隔で行える装置監視技術を提供することを目的とする。
開示する装置監視システムは,監視対象装置ごとに,複数の監視項目に関する状態を記憶する状態情報記憶部と,前記状態情報記憶部に記憶された監視項目に関する状態の変化を検出し,前記検出した状態の変化にもとづいて前記監視対象装置から監視項目に関する状態を取得する状態監視頻度を設定して前記状態監視部に通知する異常監視部と,前記状態監視頻度に応じて前記監視対象装置から前記監視項目に関する状態を取得し,前記状態情報記憶部に格納する状態監視部とを備える。
また,開示する装置監視方法は,上記の装置監視システムにおいてコンピュータが実行される各処理ステップを備える。また,開示する装置監視方法は,コンピュータに,上記装置監視方法の処理を実行させるためのものである。
開示する装置監視システムによれば,監視対象装置の状態にあわせて状態監視やログ収集の頻度を変更し,効率的な装置監視を実現することができる。
本発明の一実施形態として開示する装置監視システムの構成例を示す図である。 一実施形態における監視条件記憶部に記憶された監視頻度定義の例を示す図である。 一実施形態における状態情報記憶部に記憶される状態情報の例を示す図である。 一実施形態における異常監視部の構成例を示す図である。 一実施形態における状態取得部の処理フロー例を示す図である。 一実施形態における状態差分データの例を示す図である。 一実施形態における状態判断部の処理フロー例を示す図である。 一実施形態における変更指示データの例を示す図である。 一実施形態における変更指示部の処理フロー例を示す図である。 一実施形態における状態監視部の構成例を示す図である。 一実施形態における監視頻度変更指示部の処理フロー例を示す図である。 一実施形態における状態監視頻度記憶部に記憶されている状態監視頻度の例を示す図である。 一実施形態における解析部の処理フロー例を示す図である。 一実施形態におけるスケジュール部の処理フロー例を示す図である。 一実施形態における状態取得部の処理フロー例を示す図である。 一実施形態におけるログ監視部の構成例を示す図である。 一実施形態におけるログ監視頻度記憶部に記憶されているログ監視頻度の例を示す図である。 開示する装置監視システムの実施例における構成例を示す図である。 第1の実施例における状態情報,状態差分データ,変更指示データ,およびスケジュールデータの例を示す図である。 第2の実施例における状態情報,状態差分データ,および変更指示データの例を示す図である。 第2の実施例におけるスケジュールデータの例を示す図である。 一実施形態における監視サーバのハードウェア構成例を示す図である。
以下に,本発明の一態様として開示する装置監視システムを説明する。
図1は,本発明の一実施形態として開示する装置監視システムの構成例を示す図である。
装置監視システムは,監視対象となる複数の監視対象装置(監視対象サーバ)2A,2B,2C,…,2Nと,監視装置(監視サーバ)1とを備える。
監視サーバ1は,既知の監視装置に,異常監視部5と監視条件記憶部11とを新たに備えたものであり,監視対象サーバ2A,2B,2C,…,2Nの状態の変化を検出した場合に,予め記憶しておいた監視頻度定義にもとづいて,監視対象サーバ2に対する状態監視またはログ監視の頻度の変更を指示する。監視サーバ1は,CPUおよびメモリを備えるコンピュータまたは専用ハードウェアとして実施することができる。
監視サーバ1は,監視条件記憶部11,状態情報記憶部12,ログ情報記憶部13,異常監視部5,状態監視部6,およびログ監視部7を有する。
監視条件記憶部11は,各監視項目の状態ごとに,状態情報取得処理の頻度である状態監視頻度,および,ログ情報収集処理の頻度であるログ監視頻度を定義した監視頻度定義を記憶する。
状態情報記憶部12は,所定の監視項目に関する各監視対象サーバ2の状態を示す状態情報を記憶する。監視項目は,予め定められた監視内容を示す項目であり,例えば,CPUの稼働,リソースの使用,電源,電圧,筐体の状態などである。
ログ情報記憶部13は,所定の監視項目に関して監視対象サーバ2から収集されたログ情報を記憶する。ログ情報は,監視項目について,装置またはインストールされたソフトウェアの動作を記録した情報である。
異常監視部5は,状態情報記憶部12に記憶された状態情報から状態の変化を検出した場合に,該当する監視対象サーバ2および監視項目に対する状態監視頻度を変更し,状態監視部6に変更した状態監視頻度を通知する。
また,異常監視部5は,状態情報記憶部12に記憶された状態情報から状態の変化を検出した場合に,該当する監視対象サーバ2および監視項目に対するログ監視頻度を変更し,ログ監視部7に変更したログ監視頻度を通知する。
異常監視部5は,該当する監視対象サーバ2や監視項目に関連する監視対象サーバ2または監視項目に対する状態監視頻度やログ監視頻度を通知することができる。
状態監視部6は,異常監視部5から通知された状態監視頻度にもとづいて状態監視のスケジュールを作成し,監視対象サーバ2から監視項目に関する状態を取得して状態情報記憶部12に格納する。
ログ監視部7は,異常監視部5から通知されたログ監視頻度にもとづいて,ログ監視のスケジュールを作成し,監視対象サーバ2からログ情報を取得してログ情報記憶部13に格納する。
図2は,監視条件記憶部11に記憶された監視頻度定義の例を示す図である。
監視頻度定義は,検索用の監視項目および状態,並びに変更指示用の指示対象,監視項目,監視頻度のデータ項目を有する。検索用の監視項目および状態は,状態監視頻度またはログ監視頻度の変更の対象となる状態を定義する。変更指示用の指示対象および監視項目は,指示される状態監視頻度またはログ監視頻度の内容を定義する
変更指示用の指示対象は,頻度を変更する処理を示し,「状態監視」または「ログ監視」のいずれかが設定される。監視項目は,頻度が変更される監視項目を,監視頻度は,変更される頻度の内容を,それぞれ示す。
図2の監視頻度定義では,監視対象サーバ2Aから取得した状態情報が,監視項目「CPUステータス」について状態「Warning(警告)」である場合に,「ログ監視」として監視項目「ハードログ(ハードウェアのログ情報を示す)」のログ情報の収集頻度を「1日1回(1回/日)」に,「状態監視」として監視項目「CPUステータス」の状態情報の取得頻度を「1時間6回(6回/時)」に監視項目「CPU使用率」の状態情報の取得頻度を「1分1回(1回/分)」に変更することを示している。
図3は,状態情報記憶部12に記憶される状態情報の例を示す図である。
状態情報は,監視対象サーバ名,監視項目,状態,および変更時刻のデータ項目を有する。
監視対象サーバ名は,監視対象サーバ2を識別する情報である。監視項目は,監視対象となる項目を示し,状態は,監視項目に関する監視対象サーバ2の状態を示す。変更時刻は,状態情報が状態情報記憶部12に書き込まれた日付および時刻を示す。
以下,監視サーバ1の各処理部をより詳細に説明する。
図4は,異常監視部5の構成例を示す図である。
異常監視部5は,状態情報記憶部12を定期的に監視し,状態情報記憶部12に記憶されている状態情報の変更内容から,状態監視またはログ監視の監視頻度の変更を含む変更指示データを作成し,状態監視部6またはログ監視部7に変更を指示する。
異常監視部5は,状態取得部51,状態判断部53,および変更指示部55を有する。
状態取得部51は,状態情報記憶部12を定期的に監視して,状態情報の変化を検出し,状態情報の変化を示す差分データを状態判断部53に渡す。状態取得部51は,内部にタイマを備え,状態情報記憶部12の監視処理の直前の実行日時を示す「前回取得時刻」を保持する。
図5は,状態取得部51の処理フロー例を示す図である。
状態取得部51は,タイマにより定期的に起動されると,状態情報記憶部12から,前回取得時刻以降に書き換えられた状態情報を取得し,取得した結果を状態差分データとする(ステップS10)。状態情報に差分(状態差分データ)があれば(ステップS11のY),状態取得部51は,状態判断部53を起動して,状態差分データを渡す(ステップS12)。状態情報に差分(状態差分データ)がなければ(ステップS11のN),ステップS12の処理は実行されない。状態取得部51は,今回の取得処理時の時刻で,前回取得時刻を更新して(ステップS13),処理を終了する。
図6は,状態差分データの例を示す図である。
状態差分データは,状態の変化を検出した監視対象サーバ2,前回取得時刻以降に書き換えられた監視項目,およびその状態を含む。
状態判断部53は,状態差分データの変更内容(監視項目,状態)を検索キーにして,監視条件記憶部11の監視頻度定義を検索し,該当する変更指示用の指示対象,監視項目,監視頻度を取得して変更指示データを作成する。
図7は,状態判断部53の処理フロー例を示す図である。
状態判断部53は,状態取得部51から受け取った状態差分データの監視項目と状態とで,監視条件記憶部11の監視頻度定義を検索する(ステップS20)。状態判断部53は,検索結果の中に未処理のものがあれば(ステップS21のY),該当する検索用の監視項目および状態に対応する変更指示用の指示対象,監視項目,監視頻度などのデータをもとに,変更指示データを作成する(ステップS22)。そして,状態判断部53は,変更指示部55を起動し,変更指示データを渡す(ステップS23)。状態判断部53は,検索結果の中に未処理のものがなければ(ステップS21のN),処理を終了する。
図8は,変更指示データの例を示す図である。
変更指示データは,頻度変更の対象となる処理を示す指示対象,監視対象サーバ2を示す監視対象サーバ名,監視項目,変更される頻度を示す監視頻度を含む。
変更指示部55は,状態判断部53から受け取った変更指示データの内容にもとづいて,状態監視部6またはログ監視部7に監視頻度の変更を指示する。
図9は,変更指示部55の処理フロー例を示す図である。
変更指示部55は,変更指示データの指示対象を調べ,状態監視であれば(ステップS30の「状態監視」),状態監視部6に対し,変更する監視項目と監視頻度とを通知する(ステップS31)。ログ監視であれば(ステップS30の「ログ監視」),変更指示部55は,ログ監視部7に対し,変更する監視項目と監視頻度とを通知する(ステップS32)。
図10は,状態監視部6の構成例を示す図である。
状態監視部6は,異常監視部5から通知された変更指示にもとづいて状態監視のスケジュールを生成し,監視対象サーバ2から状態情報を取得する。
状態監視部6は,監視頻度変更指示部60,状態監視頻度記憶部61,解析部62,スケジュール部63,および状態取得部64を備える。
監視頻度変更指示部60は,異常監視部5から通知された変更指示データを受け付け,その内容(監視項目と監視頻度)を状態監視頻度記憶部61に格納し,状態監視頻度の解析およびスケジュールの変更を解析部62に要求する。
図11は,監視頻度変更指示部60の処理フロー例を示す図である。
監視頻度変更指示部60は,異常監視部5から,監視頻度の変更の通知を受け付け,取得した監視頻度を変更する監視項目と監視頻度とで,状態監視頻度記憶部61を更新する(ステップS40)。次に,監視頻度変更指示部60は,解析部62に対して状態監視頻度記憶部61の情報の解析とスケジュールデータの作成とを指示し(ステップS41),スケジュール部63に対して,再スケジュールを指示して(ステップS42),処理を終了する。
状態監視頻度記憶部61は,状態監視を行う各監視項目に対する状態監視頻度を記憶する。
図12は,状態監視頻度記憶部61に記憶されている状態監視頻度の例を示す図である。
状態監視頻度は,監視対象を示す監視対象サーバ名,監視項目,および監視頻度を含む。図12に示す状態監視頻度の例では,1つの状態監視として,監視対象サーバ名「A」に対して,監視項目「CPUステータス」に関する状態情報を,「毎日2回(2回/日)」の監視頻度で取得することが指定されていることを表す。
解析部62は,状態監視頻度記憶部61の状態監視頻度を解析し,状態監視のスケジュールデータを作成する。スケジュールデータは,状態監視の対象となる監視対象サーバと監視項目とを,実行予定時刻に対応付けて時系列に並べたデータである。
図13は,解析部62の処理フロー例を示す図である。
解析部62は,状態監視頻度記憶部61の状態監視頻度を読み込み(ステップS50),状態監視頻度を解析して,状態監視の実行予定に関する時系列データを作成してスケジュールデータとし(ステップS51),処理を終了する。
スケジュール部63は,内部にタイマを備え,解析部62で作成・変更されたスケジュールデータにもとづいて,状態取得部64に対し,状態情報の取得を指示する。
図14は,スケジュール部63の処理フロー例を示す図である。
スケジュール部63は,内部にタイマが定期的に処理開始のトリガーを上げると,そのトリガーを検出し(ステップS60),未処理のスケジュールから,トリガー発生時刻以前のものを抽出する(ステップS61)。次に,スケジュール部63は,スケジュールデータの中で未処理かつトリガー受信時刻以前のスケジュールがあれば(ステップS62のY),状態取得部64を起動し,スケジュールデータをもとに,監視対象サーバ名と監視項目とを渡して,状態監視(状態情報の取得)を指示し(ステップS63),処理を終了する。未処理のスケジュールがなければ(ステップS62のN),ステップS63の処理は実行されない。
状態取得部64は,指示された監視対象サーバ2から,監視項目に関する状態を示す状態情報を取得し,取得した状態が状態情報記憶部12に記憶されている状態情報の内容と一致しなかった場合に,状態情報記憶部12の状態情報を更新する。
図15は,状態取得部64の処理フロー例を示す図である。
状態取得部64は,スケジュール部63から指示された監視対象サーバ2から,監視項目に関する状態(状態情報)を取得する(ステップS70)。次に,状態取得部64は,状態情報記憶部12から,該当する監視対象サーバ2の監視項目に関する状態情報を取得し(ステップS71),取得した状態と,状態情報記憶部12から抽出した状態とが一致するかを調べる(ステップS72)。状態取得部64は,2つの状態が一致しなければ(ステップS72のN),状態情報記憶部12の該当する監視項目の状態を,取得した状態で更新し,変更時刻を更新し(ステップS73),処理を終了する。2つの状態が一致していれば(ステップS72のY),ステップS73の処理は実行されない。
図16は,ログ監視部7の構成例を示す図である。
ログ監視部7は,異常監視部5から通知された変更指示データにもとづいてログ監視のスケジュールを作成し,監視対象サーバ2からログ情報を取得する。
ログ監視部7は,監視頻度変更指示部70,ログ監視頻度記憶部71,解析部72,スケジュール部73,およびログ取得部74を有する。
監視頻度変更指示部70は,異常監視部5から通知された変更指示データを受け付け,変更の内容(監視項目と監視頻度)をログ監視頻度記憶部71に格納し,ログ監視頻度の解析およびスケジュールの変更を解析部72に要求する。
ログ監視頻度記憶部71は,ログ情報を取得する各監視項目に対する監視頻度を記憶する。
図17は,ログ監視頻度記憶部71に記憶されているログ監視頻度の例を示す図である。
ログ監視頻度は,監視対象を示す監視対象サーバ名,ログ情報を取得する監視項目,および監視頻度を含む。監視項目の「アプリケーションログ:アプリ独自ログ」は,監視対象サーバ2で実行されるアプリケーションソフトウェアが自ら蓄積するログ情報を表す。図17に示す状態監視頻度の例では,1つのログ監視として,監視対象サーバ名「A」に対して,監視項目「ハードログ:XSCF,BMC」に関するログ情報を,「毎月1回(1回/月)」の監視頻度で取得することが指定されていることを表す。
解析部72は,ログ監視頻度記憶部71の情報を解析し,ログ監視のスケジュールデータを作成する。スケジュールデータは,ログ監視の対象となる監視対象サーバと監視項目とを,実行予定時刻に対応付けて時系列に並べたデータである。
スケジュール部73は,内部にタイマを備え,解析部72で作成されたスケジュールデータにもとづいて,ログ取得部74に対し,ログ情報の取得を指示する。
ログ取得部74は,指示された監視対象サーバ2から,監視項目に関するログ情報を取得し,取得したログ情報をログ情報記憶部13に格納する。
監視頻度変更指示部70,解析部72,スケジュール部73,およびログ取得部74の処理フロー例は,図11,図13〜図15それぞれに示す監視頻度変更指示部60,解析部62,スケジュール部63,および状態取得部64の処理フローとほぼ同じであるので,説明を省略する。
以下に,装置監視システムにおける状態監視およびログ監視の実施例を示す。
図18は,実施例における構成例を示す図である。
本実施例において,装置監視システムは,監視サーバ1,複数の監視対象サーバ2,および監視情報を受け取る管理者のコンピュータであるクライアント8を備える。
本実施例では,監視対象サーバ2の状態情報は,SNMP,IPMIなどの既知の処理手法,または,監視ソフトウェアプログラムのエージェントから取得する処理手法で取得する。また,ログ情報は,BMCが保持するSELから取得する処理手法,監視対象サーバ2のOSが保持するログ情報などから取得する処理手法で取得する。
各監視対象サーバ2は,自装置の状態情報およびログ情報を収集するソフトウェアとして,SNMP,IPMI,その他監視ソフトウェアなどの監視エージェント20と,監視エージェント20が収集したログ情報を記憶するログ情報記憶装置21とを有する。
監視サーバ1は,監視対象サーバ2から状態情報,ログ情報を収集し,監視対象サーバ2の状態の監視を行う。監視対象サーバ2は,監視サーバ1からの情報収集要求に対して,要求された情報を返却する。クライアント8は,装置監視システムのビューを実装し,ユーザに,監視サーバ1が管理する監視情報を提供する。
〔第1の実施例〕
第1の実施例として,監視対象サーバ2AのCPUにエラーが発生した場合の処理動作を説明する。
状態情報記憶部12には,図3に示すような状態情報が記憶されているとする。
状態監視部6の状態取得部64は,2009年7月25日12:00に,監視項目「CPUステータス」について,図19(A)に示す内容の状態情報を監視対象サーバ2Aから取得したとする。
状態取得部64は,状態情報記憶部12の該当する監視項目の状態と変更時刻とを更新する。具体的には,監視対象サーバ2Aの監視項目「CPUステータス」の状態を「Error」に,変更時刻を「2009/07/25 12:00」に変更する。
その後,異常監視部5の状態取得部51は,図3に示す状態情報記憶部12を参照し,前回取得時刻以降に変更された情報を取得し(前回取得時刻は2009/07/25 11:55とする),図19(B)に示す状態差分データを作成し,内部に保持する「前回取得時刻」を更新する。
状態判断部53は,状態差分データの監視項目と状態とを検索キーとして,図2に示す監視条件記憶部11の監視頻度定義を検索し,検索結果をもとに,図19(C)〜(E)に示す3つの変更指示データ(1つのログ監視の変更指示データと2つの状態監視の変更指示データ)を作成する。
変更指示部55は,作成された変更指示データに従って,状態監視部6とログ監視部7とに対し,監視頻度の変更指示データを送信する。
ログ監視部7の監視頻度変更指示部70は,異常監視部5からの変更指示データを受け取り,その内容に従ってログ監視頻度記憶部71のログ監視頻度を変更する。さらに,監視頻度変更指示部70は,解析部72に,ログ監視頻度記憶部71のログ監視頻度の解析とスケジュールデータの作成とを指示する。
解析部72は,解析により,監視対象サーバ2Aに対する,ハードログの監視頻度が「1回/月」から「4回/時」へ変更されていることを得ると,図19(F)に示す監視対象サーバ2Aに対するスケジュールデータを作成する。
さらに,監視頻度変更指示部70は,スケジュール部73に再スケジュールを指示する。スケジュール部73は,解析部72が作成したスケジュールデータにもとづいて再スケジュールを行う。スケジュール部73は,タイマトリガーによって,スケジュールデータに設定された時刻に,ログ取得部74に対し,監視対象サーバ2Aからのハードログの取得を要求する。
状態監視部6による状態監視についても,異常監視部5からの変更指示データを得て,ログ監視の場合とほぼ同様にして状態監視頻度が変更され,状態監視のスケジュールが作成され,状態情報が収集される。
〔第2の実施例〕
第2の実施例として,監視対象サーバ2AのCPU使用率が80%を超えた場合の処理動作を説明する。
状態情報記憶部12には,図3に示すような状態情報が記憶されているとする。
状態監視部6の状態取得部64は,2009年7月25日12:00に,監視項目「CPU使用率」について,図20(A)に示す内容の状態情報を監視対象サーバ2Aから取得したとする。
状態取得部64は,状態情報記憶部12の該当する監視項目の状態と変更時刻とを更新する。具体的には,監視対象サーバ2Aの監視項目「CPU使用率」の状態を「80%」に,変更時刻を「2009/07/25 12:00」に変更する。
その後,異常監視部5の状態取得部51は,図3に示す状態情報記憶部12を参照し,前回取得時刻以降に変更された情報を取得し(前回取得時刻は2009/07/25 11:55とする),図20(B)に示す状態差分データを作成し,内部に保持する「前回取得時刻」を更新する。
状態判断部53は,状態差分データの監視項目と状態とを検索キーとして,図2に示す監視条件記憶部11の監視頻度定義を検索し,検索結果をもとに,図20(C)〜(E)に示す3つの状態監視の変更指示データを作成する。
変更指示部55は,作成された変更指示データに従って,状態監視部6に対し,監視頻度の変更を指示する。
状態監視部6の監視頻度変更指示部60は,異常監視部5からの監視頻度の変更指示データを受け取り,その内容に従って状態監視頻度記憶部61の内容を変更する。さらに,監視頻度変更指示部60は,解析部62に,状態監視頻度記憶部61の情報の解析とスケジュールデータの作成とを指示する。
解析部62は,解析により,監視対象サーバ2Aに対する,状態監視の監視項目「CPUステータス」,「CPU使用率」,「筐体温度」のそれぞれについて,監視頻度が「2回/日」から「1回/時」へ,「6回/時」から「2回/分」へ,「1回/日」から「1回/時」へ変更されていることを得ると,図21に示す監視対象サーバ2Aに対するスケジュールデータを作成する。
さらに,監視頻度変更指示部60は,スケジュール部63に再スケジュールを指示する。スケジュール部63は,解析部62が作成したスケジュールデータにもとづいて再スケジュールを行う。スケジュール部63は,タイマトリガーによって,スケジュールデータに設定された時刻に,状態取得部64に対し,監視対象サーバ2Aの「CPUステータス,CPU使用率,筐体温度」に関する状態情報の取得を要求する。
図22は,監視サーバ1のハードウェア構成例を示す図である。
図22に示すように,監視サーバ1は,CPU101,一時記憶装置(DRAM・Flash Memory等)102,永続性記憶装置(HDD・Flash Memory等)103,ネットワークインターフェース104を備えるコンピュータ100によって実施することができる。
また,監視サーバ1は,コンピュータ100が実行可能なプログラムによって実施することができる。この場合に,監視サーバ1が有すべき機能の処理内容を記述したプログラムが提供される。提供されたプログラムをコンピュータ100が実行することによって,上記説明した監視サーバ1の処理機能がコンピュータ100上で実現される。
すなわち,監視サーバ1の異常監視部5,状態監視部6およびログ監視部7等はプログラムで構成することができ,監視条件記憶部11,状態情報記憶部12,ログ情報記憶部13は永続性記憶装置103で構成することができる。
なお,コンピュータ100は,可搬型記録媒体から直接プログラムを読み取り,そのプログラムに従った処理を実行することもできる。さらに,このプログラムは,コンピュータ100で読み取り可能な記録媒体に記録しておくことができる。
以上説明したように,開示する装置監視システムは,CPUにエラーが発生したり,CPUの使用率が高い状態となったりした監視対象サーバ2Aのように,より頻繁に監視する必要がある対象について,CPUステータスに関する状態やハードログを通常(Normal)より高い頻度で収集するため,効率的に監視を行うことができる。
また,図2に示すように,監視条件記憶部11に記憶する監視頻度定義において,監視項目「CPUステータス」を例にとると,状態が「警告(Warning)」の場合の監視頻度は,平常時(Normal)に比べて高いが,「異常(Error)」の場合に比べて低く設定されている。このように設定することにより,CPUの障害へつながるような状態の場合には監視を強化することで,いち早く異常の発生を認知できるようにすると共に,警告により発生を予知し得た「異常」となった場合には,監視頻度を下げることにより,監視対象サーバ2での状態監視に関する処理負荷を軽減できるようにしている。また,異常の予兆となる状態で監視頻度を高く設定することにより,平常時の状態監視の頻度を下げることができ,平常時に監視対象サーバ2に与える負荷を下げることができる。
さらに,異常検出後にログの取得頻度を高く設定することにより,原因究明に必要なログ情報を確実に取得することができる。
したがって,装置監視システムによれば,任意に設定可能な監視頻度定義にもとづいて,監視対象の状態に応じた柔軟な装置監視を実現することができる。
1 監視サーバ
2 監視対象サーバ
5 異常監視部
51 状態取得部
53 状態判断部
55 変更指示部
6 状態監視部
60 監視頻度変更指示部
61 状態監視頻度記憶部
62 解析部
63 スケジュール部
64 状態取得部
7 ログ監視部
70 監視頻度変更指示部
71 ログ監視頻度記憶部
72 解析部
73 スケジュール部
74 ログ取得部
11 監視条件記憶部
12 状態情報記憶部
13 ログ情報記憶部
8 クライアント

Claims (9)

  1. 監視対象装置ごとに,複数の監視項目に関する状態を記憶する状態情報記憶部と,
    前記状態情報記憶部に記憶された監視項目に関する状態の変化を検出し,前記検出した状態の変化にもとづいて前記監視対象装置から監視項目に関する状態を取得する状態監視頻度を設定して前記状態監視部に通知する異常監視部と,
    前記状態監視頻度に応じて前記監視対象装置から前記監視項目に関する状態を取得し,前記状態情報記憶部に格納する状態監視部とを備える
    ことを特徴とする装置監視システム。
  2. 監視対象装置ごとに,複数の監視項目に関する状態を記憶する状態情報記憶部と,
    前記監視対象装置ごとに,装置の動作を記録したログを記憶するログ情報記憶部と,
    前記状態情報記憶部に記憶された監視項目に関する状態の変化を検出し,前記検出した状態の変化にもとづいて前記監視対象装置からログを取得するログ監視頻度を設定して前記ログ監視部に通知する異常監視部と,
    前記ログ監視頻度に応じて,前記監視対象装置からログを取得し,前記ログ情報記憶部に格納するログ監視部とを備える
    ことを特徴とする装置監視システム。
  3. 前記異常監視部は,前記検出した状態の変化にもとづいて,状態の変化が生じた監視項目および関連する監視項目に関する状態の取得に対する前記状態監視頻度を変更する
    ことを特徴とする請求項1に記載の装置監視システム。
  4. 前記異常監視部は,前記検出した状態の変化にもとづいて,状態の変化が生じた監視対象装置および関連する監視対象装置に対する前記状態監視頻度を変更する
    ことを特徴とする請求項1または請求項3に記載の装置監視システム。
  5. 前記異常監視部は,前記検出した状態の変化にもとづいて,状態の変化が生じた監視対象装置および関連する監視対象装置に対する前記ログ監視頻度を変更する
    ことを特徴とする請求項2に記載の装置監視システム。
  6. コンピュータが,
    監視対象装置ごとに,複数の監視項目に関する状態が記憶された状態情報記憶部を参照し,前記監視項目に関する状態の変化を検出する処理ステップと,
    前記検出した状態の変化にもとづいて,前記監視対象装置から監視項目に関する状態を取得する状態監視頻度を設定する処理ステップと,
    前記状態監視頻度に応じて前記監視対象装置から前記監視項目に関する状態を取得し,前記状態情報記憶部に格納する処理ステップとを実行する
    ことを特徴とする装置監視方法。
  7. コンピュータが,
    監視対象装置ごとに,複数の監視項目に関する状態を記憶する状態情報記憶部を参照し,前記監視項目に関する状態の変化を検出する処理ステップと,
    前記検出した状態の変化にもとづいて,前記監視対象装置から,装置の動作を記録したログを取得するログ監視頻度を設定する処理ステップと,
    前記ログ監視頻度に応じて前記監視対象装置から前記ログを取得し,前記ログ情報記憶部に格納する処理ステップとを実行する
    ことを特徴とする装置監視方法。
  8. コンピュータに,
    監視対象装置ごとに,複数の監視項目に関する状態が記憶された状態情報記憶部を参照し,前記監視項目に関する状態の変化を検出する処理と,
    前記検出した状態の変化にもとづいて,前記監視対象装置から監視項目に関する状態を取得する状態監視頻度を設定する処理と,
    前記状態監視頻度に応じて前記監視対象装置から前記監視項目に関する状態を取得し,前記状態情報記憶部に格納する処理とを実行させる
    ための装置監視プログラム。
  9. コンピュータに,
    監視対象装置ごとに,複数の監視項目に関する状態を記憶する状態情報記憶部を参照し,前記監視項目に関する状態の変化を検出する処理と,
    前記検出した状態の変化にもとづいて,前記監視対象装置から,装置の動作を記録したログを取得するログ監視頻度を設定する処理と,
    前記ログ監視頻度に応じて前記監視対象装置から前記ログを取得し,前記ログ情報記憶部に格納する処理とを実行させる
    ための装置監視プログラム。
JP2012540599A 2010-10-29 2010-10-29 装置監視システム,方法およびプログラム Pending JPWO2012056561A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/069303 WO2012056561A1 (ja) 2010-10-29 2010-10-29 装置監視システム,方法およびプログラム

Publications (1)

Publication Number Publication Date
JPWO2012056561A1 true JPWO2012056561A1 (ja) 2014-03-20

Family

ID=45993315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012540599A Pending JPWO2012056561A1 (ja) 2010-10-29 2010-10-29 装置監視システム,方法およびプログラム

Country Status (3)

Country Link
US (1) US20130246001A1 (ja)
JP (1) JPWO2012056561A1 (ja)
WO (1) WO2012056561A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018018251A (ja) * 2016-07-27 2018-02-01 ファナック株式会社 数値制御装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5672491B2 (ja) * 2011-03-29 2015-02-18 ソニー株式会社 情報処理装置および方法、並びにログ収集システム
US8839040B2 (en) * 2011-12-21 2014-09-16 Inventec Corporation Computer system and detecting-alarming method thereof
CN104346264A (zh) * 2013-07-26 2015-02-11 鸿富锦精密工业(深圳)有限公司 系统事件日志处理系统及方法
TW201541244A (zh) * 2014-04-28 2015-11-01 Hon Hai Prec Ind Co Ltd 動態調整監控模式的系統、方法及伺服器
JP2016144055A (ja) * 2015-02-03 2016-08-08 日本電気株式会社 通信装置、通信システム、制御方法及び通信プログラム
US9361175B1 (en) * 2015-12-07 2016-06-07 International Business Machines Corporation Dynamic detection of resource management anomalies in a processing system
JP6915484B2 (ja) * 2017-09-28 2021-08-04 日本電気株式会社 監視システム、監視装置、監視方法および監視プログラム
US11048320B1 (en) * 2017-12-27 2021-06-29 Cerner Innovation, Inc. Dynamic management of data centers
CN108400988A (zh) * 2018-02-28 2018-08-14 郑州云海信息技术有限公司 一种系统事件日志上传方法、装置及系统
US11382546B2 (en) * 2018-04-10 2022-07-12 Ca, Inc. Psychophysical performance measurement of distributed applications
CN109344026A (zh) * 2018-07-27 2019-02-15 阿里巴巴集团控股有限公司 数据监控方法、装置、电子设备及计算机可读存储介质
JP6724960B2 (ja) * 2018-09-14 2020-07-15 株式会社安川電機 リソース監視システム、リソース監視方法、及びプログラム
CN110502495A (zh) * 2019-09-02 2019-11-26 中国工商银行股份有限公司 一种应用服务器的日志收集方法及装置
CN111338908A (zh) * 2020-03-10 2020-06-26 山东超越数控电子股份有限公司 一种基于bmc自动调整部件监控周期的方法
US11354220B2 (en) 2020-07-10 2022-06-07 Metawork Corporation Instrumentation trace capture technique
US11327871B2 (en) * 2020-07-15 2022-05-10 Metawork Corporation Instrumentation overhead regulation technique
US11392483B2 (en) 2020-07-16 2022-07-19 Metawork Corporation Dynamic library replacement technique
CN114138617B (zh) * 2022-02-07 2022-05-24 杭州朗澈科技有限公司 自学习的变频监控方法、系统、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000357139A (ja) * 1999-04-16 2000-12-26 Matsushita Electric Ind Co Ltd ネットワーク管理装置およびその方法
JP2007318411A (ja) * 2006-05-25 2007-12-06 Matsushita Electric Works Ltd 画像監視装置、及び画像監視方法
JP2008165347A (ja) * 2006-12-27 2008-07-17 Fujitsu Ltd 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP2010134645A (ja) * 2008-12-03 2010-06-17 Ricoh Co Ltd 遠隔管理システム、遠隔管理装置、機器管理装置、監視間隔制御方法、監視間隔制御プログラム、及びそのプログラムを記録した記録媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3486125B2 (ja) * 1999-01-14 2004-01-13 富士通株式会社 ネットワーク機器制御システム及び装置
JP2008059102A (ja) * 2006-08-30 2008-03-13 Fujitsu Ltd コンピュータ資源監視プログラム
US9104471B2 (en) * 2007-10-15 2015-08-11 International Business Machines Corporation Transaction log management
JP5187082B2 (ja) * 2008-09-03 2013-04-24 株式会社リコー 機器管理装置、機器管理システム、機器監視方法、機器監視プログラム、及びそのプログラムを記録した記録媒体
JP5444673B2 (ja) * 2008-09-30 2014-03-19 富士通株式会社 ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム
JP5201415B2 (ja) * 2009-03-05 2013-06-05 富士通株式会社 ログ情報発行装置、ログ情報発行方法およびプログラム
JP5454235B2 (ja) * 2010-03-05 2014-03-26 富士通株式会社 監視プログラム、監視装置、および監視方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000357139A (ja) * 1999-04-16 2000-12-26 Matsushita Electric Ind Co Ltd ネットワーク管理装置およびその方法
JP2007318411A (ja) * 2006-05-25 2007-12-06 Matsushita Electric Works Ltd 画像監視装置、及び画像監視方法
JP2008165347A (ja) * 2006-12-27 2008-07-17 Fujitsu Ltd 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP2010134645A (ja) * 2008-12-03 2010-06-17 Ricoh Co Ltd 遠隔管理システム、遠隔管理装置、機器管理装置、監視間隔制御方法、監視間隔制御プログラム、及びそのプログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018018251A (ja) * 2016-07-27 2018-02-01 ファナック株式会社 数値制御装置

Also Published As

Publication number Publication date
WO2012056561A1 (ja) 2012-05-03
US20130246001A1 (en) 2013-09-19

Similar Documents

Publication Publication Date Title
WO2012056561A1 (ja) 装置監視システム,方法およびプログラム
US9639446B2 (en) Trace monitoring
JP4528116B2 (ja) 分散環境中でアプリケーションの性能を監視するための方法およびシステム
EP3346650B1 (en) Network monitoring system, network monitoring method, and program
EP2685380B1 (en) Operations management unit, operations management method, and program
JP5736881B2 (ja) ログ収集システム、装置、方法及びプログラム
US9841986B2 (en) Policy based application monitoring in virtualized environment
US10558545B2 (en) Multiple modeling paradigm for predictive analytics
US9459942B2 (en) Correlation of metrics monitored from a virtual environment
WO2015180291A1 (zh) 监控服务器集群的方法和系统
EP2240858B1 (en) Method for using dynamically scheduled synthetic transactions to monitor performance and availability of e-business systems
US9491247B2 (en) Automatic capture of detailed analysis information based on remote server analysis
US20110179160A1 (en) Activity Graph for Parallel Programs in Distributed System Environment
US20070203973A1 (en) Fuzzing Requests And Responses Using A Proxy
US8341637B2 (en) Utilization management
JP2008537610A (ja) トランザクション・ベースのシステムを監視するための方法及びシステム
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
JP2006277115A (ja) 異常検出プログラムおよび異常検出方法
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
JP2004348640A (ja) ネットワーク管理システム及びネットワーク管理方法
JP4575020B2 (ja) 障害解析装置
KR20100003597A (ko) 통합 성능 모니터링 방법 및 모니터링 시스템
JP2016053803A (ja) 電子機器、方法及びプログラム
JP2005141466A (ja) コンピュータの監視装置および監視対象のコンピュータに関するメッセージの処理方法
JP3596744B2 (ja) 資源利用状況監視制御方法およびそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140520