JPWO2012004891A1 - コンピュータの監視プログラム,監視方法及び監視装置 - Google Patents

コンピュータの監視プログラム,監視方法及び監視装置 Download PDF

Info

Publication number
JPWO2012004891A1
JPWO2012004891A1 JP2012523487A JP2012523487A JPWO2012004891A1 JP WO2012004891 A1 JPWO2012004891 A1 JP WO2012004891A1 JP 2012523487 A JP2012523487 A JP 2012523487A JP 2012523487 A JP2012523487 A JP 2012523487A JP WO2012004891 A1 JPWO2012004891 A1 JP WO2012004891A1
Authority
JP
Japan
Prior art keywords
monitoring
computer
path
computers
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012523487A
Other languages
English (en)
Other versions
JP5475130B2 (ja
Inventor
武俊 吉田
武俊 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2012004891A1 publication Critical patent/JPWO2012004891A1/ja
Application granted granted Critical
Publication of JP5475130B2 publication Critical patent/JP5475130B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3048Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the topology of the computing system or computing system component explicitly influences the monitoring activity, e.g. serial, hierarchical systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/065Generation of reports related to network devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management

Abstract

監視コンピュータは、複数のコンピュータからなるグループごとに、監視の起点となる監視元のコンピュータと、監視先かつ監視元となる少なくとも1台のコンピュータを関連付けた監視経路を格納したストレージを有する。そして、監視コンピュータは、グループの特定情報を含んだ指示があったときに、ストレージの監視経路を参照し、特定情報により特定されるグループに属する各コンピュータに対して、グループに関する監視経路を配布する。また、監視コンピュータは、監視経路において監視の起点となる監視元のコンピュータに対して、監視経路に則って他のコンピュータの監視を行うことを依頼する。

Description

本発明は、複数のコンピュータを監視する技術に関する。
複数のコンピュータによりサービスを提供するデータセンタなどでは、例えば、サービスの品質を確保するため、各コンピュータの作動状態を常時監視する。このため、各コンピュータをリング状に接続した監視経路に従って、各コンピュータが他のコンピュータの作動状態を順繰りに監視する技術が提案されている。
特開2002−312199号公報
しかしながら、従来技術においては、監視対象となるコンピュータの台数が増えると、リング状の監視経路を一巡するのにある程度の時間を要するようになり、各コンピュータの監視時間間隔が長くなってしまう。そして、コンピュータの監視時間間隔が長くなることで、あるコンピュータに発生した故障が迅速に検知されず、例えば、データセンタで提供されるサービスの品質が低下してしまうおそれがあった。
そこで、1つの側面では、本発明は、従来提案技術の問題点に鑑み、複数のコンピュータを効率よく監視する監視技術を提供することを目的とする。
監視コンピュータは、複数のコンピュータからなるグループごとに、監視の起点となる監視元のコンピュータと、監視先かつ監視元となる少なくとも1台のコンピュータと、を関連付けた監視経路を格納したストレージを有する。そして、監視コンピュータは、グループの特定情報を含んだ指示があったときに、ストレージの監視経路を参照し、特定情報により特定されるグループに属する各コンピュータに対して、グループに関する監視経路を配布する。また、監視コンピュータは、監視経路において監視の起点となるコンピュータに対して、監視経路に則って他のコンピュータの監視を行うことを依頼する。
複数のコンピュータを効率よく監視することができる。
実施形態における情報システムの一例を示す構成図である。 監視コンピュータの各種機能の一例を説明する機能ブロック図である。 監視経路テーブルの一例を説明するデータ構造図である。 監視項目テーブルの一例を説明するデータ構造図である。 プログラムテーブルの一例を説明するデータ構造図である。 監視対象テーブルの一例を説明するデータ構造図である。 監視結果テーブルの一例を説明するデータ構造図である。 コンピュータの各種機能の一例を説明する機能ブロック図である。 新規導入処理の一例を示すフローチャートである。 監視経路設定処理の一例を示すフローチャートである。 準備依頼送信処理の一例を示すフローチャートである。 監視データ配布処理の一例を示すフローチャートである。 監視依頼送信処理の一例を示すフローチャートである。 状態更新処理の一例を示すフローチャートである。 応答処理の一例を示すフローチャートである。 監視データ保存処理の一例を示すフローチャートである。 監視実行処理の一例を示すフローチャートである。 コンピュータ監視形態の第1実施例の説明図である。 第1実施例における監視経路テーブルの説明図である。 第1実施例における監視項目テーブルの説明図である。 第1実施例におけるプログラムテーブルの説明図である。 第1実施例における監視結果テーブルの説明図である。 コンピュータ監視形態の第2実施例の説明図である。 第2実施例における監視経路テーブルの説明図である。 第2実施例における監視項目テーブルの説明図である。 第2実施例における監視結果テーブルの説明図である。 コンピュータ監視形態の第3実施例の説明図である。 第3実施例における監視経路テーブルの説明図である。 第3実施例における監視項目テーブルの説明図である。 第3実施例における監視結果テーブルの説明図である。
以下、添付された図面を参照し、本発明を実施するための実施形態について詳細に説明する。
図1は、本実施形態における情報システムの一例を示す。
コンピュータの作動状態を監視する監視コンピュータ100は、インターネットなどのネットワーク200を介して、複数の監視対象コンピュータ(以下「コンピュータ」という)300に接続される。各コンピュータ300は、例えば、ルータ及びスイッチを介してネットワーク200に接続されていてもよい。
監視コンピュータ100は、図2〜図7に示すように、監視経路テーブル110A,監視項目テーブル110B,プログラムテーブル110C,監視対象テーブル110D及び監視結果テーブル110Eを格納するためのストレージ110を有する。ここで、ストレージ110としては、例えば、HD(Hard Disk),SSD(Solid State Drive)などの外部記憶装置を利用してもよい(以下同様)。
監視経路テーブル110Aは、グループごとに、あるコンピュータを起点として、順次どのコンピュータを監視すべきかの関係(監視経路)を示している。なお、グループは、例えば、情報システムを管理する管理者により適宜設定してもよく、例えば、各グループに複数のコンピュータが属するように設定する。
例えば、監視経路テーブル110Aは、図3に示すように、グループ1(ID#1)について、監視の起点となる監視元コンピュータとしてコンピュータ10のIDを格納し、その右隣に、コンピュータ10が監視すべき監視対象としてコンピュータ11のIDを格納し、更に、コンピュータ11が監視すべき監視対象としてコンピュータ12のIDを格納している。なお、左から順に監視経路をたどるように、コンピュータのIDを格納しているが、監視する側と監視される側が関連付いていれば他の格納方法でもよい。
他の、クループ2,3等についても、同様に、監視経路を示す情報がテーブルに格納されている。
監視項目テーブル110Bは、コンピュータごとに、例えば、CPU(Central Processing Unit)の温度,HDの温度など、その、コンピュータについて各種リソースの作動状態を監視すべき項目(監視項目)を定義したテーブルである。
なお、監視項目テーブル110Bは、図4に示すように、コンピュータのIDと、監視項目の内容を示す情報と、を関連付けたレコードを含む。監視項目の内容は、別のテーブル(例えば、図5)を参照するようにしてもよく、その場合は、監視項目テーブル110Bは、1または複数の監視項目のIDを格納してもよい。なお、図4に示す監視項目テーブル110Bでは、コンピュータ10については、項目1及び項目2、並びに、コンピュータ11については、項目1,項目2及び項目3を監視すべきことが定義されている。
プログラムテーブル110Cは、監視項目の内容を示すテーブルの一例として、プログラム名により監視内容を示すようにした例である。対応するプログラムを実行することにより、監視すべき各種リソースの作動状態が特定され、その監視を行うことができる。例えば、プログラムテーブル110Cは、図5に示すように、監視項目を特定するための監視項目IDと、監視項目IDにより特定される項目を監視するためのプログラム名と、を関連付けたレコードを含む。ここで、プログラム名には、プログラムの所在を示す絶対パスが付されてもよい。なお、図5に示すプログラムテーブル110Cでは、項目1を監視するプログラムは“c:\prg\programA.exe”、項目2を監視するプログラムは“c:\prg\programB.exe”であることが定義されている。なお、当該プログラムは図2のストレージ110に格納しておけばよい。
監視対象テーブル110Dは、各グループごとに、故障中やメンテナンス中など、実際に監視できないコンピュータ300を含んだ、監視対象となる複数のコンピュータ300を定義したテーブルである。監視対象テーブル110Dは、図6に示すように、グループを特定するためのグループIDと、コンピュータ300を特定するための監視対象IDと、を関連付けたレコードを含む。なお、図6に示す監視対象テーブル110Dでは、グループ1のコンピュータ10,コンピュータ11及びコンピュータ12、並びに、グループ2のコンピュータ20,コンピュータ21及びコンピュータ22が監視対象であることが定義されている。
監視結果テーブル110Eは、各項目についての監視結果が格納されるテーブルである。監視結果テーブル110Eは、図7に示すように、コンピュータのIDと、当該コンピュータについて少なくとも1つの監視項目IDと、監視結果と、を関連付けたレコードを含む。この例では、各監視項目についての作動状態を監視した結果である各監視項目の作動状態(OK又はNG)がテーブルに格納される。なお、図7に示す監視結果テーブル110Eでは、グループ1の監視結果を示しており、コンピュータ10の監視項目1及び監視項目2に関する作動状態、並びに、コンピュータ11の監視項目1,監視項目2及び監視項目3に関する作動状態が夫々格納されている。もちろん、他のグループについても同様に、監視結果が対応するテーブルに格納される。
ここで、監視経路テーブル110A,監視項目テーブル110B,プログラムテーブル110C及び監視対象テーブル110Dは、例えば、情報システムの管理者などがツールを使用して適宜設定する。なお、監視経路テーブル110A及び監視対象テーブル110Dは、後述する処理により自動的に設定されるようにしてもよい。
監視コンピュータ100は、監視プログラムを実行することで、図2に示すように、新規導入部120,監視経路設定部130,準備依頼送信部140,監視データ配布部150,監視依頼送信部160及び状態更新部170のそれぞれに対応する機能が実現される。監視プログラムは、例えば、CD−ROM(Compact Disk Read Only Memory),DVD−ROM(Digital Versatile Disk Read Only Memory)などのコンピュータ読取可能な記録媒体から、公知の手段を用いて、HD,SSDなどの外部記憶装置にインストールされる。
新規導入部120は、新たに導入するコンピュータ300のグループID及び監視対象IDを伴った導入指示があったことを契機として、ストレージ110の監視対象テーブル110Dに監視対象となるコンピュータ300を追加登録する。監視経路設定部130は、監視経路を設定するグループIDを伴った設定指示があったことを契機として、ストレージ110の監視対象テーブル110Dを参照し、コンピュータ300の負荷に基づいて、グループIDにより特定されるグループの監視経路を自動的に設定及び登録する。準備依頼送信部140は、コンピュータ300の監視を開始するグループIDを伴った開始指示があったことを契機として、グループIDにより特定されるグループに属する全てのコンピュータ300に準備依頼を送信する。監視データ配布部150は、コンピュータ300から準備依頼の応答があったことを契機として、監視対象であるグループに属する全てのコンピュータ300に対して、各種リソースの作動状態を監視するための監視データ(監視経路情報,監視項目情報及びプログラム)を、ストレージ110の記憶データから読み出して送信(配布)する。監視依頼送信部160は、監視データ配布部150から通知があったことを契機として、監視の起点となるコンピュータ300に監視依頼を送信する。状態更新部170は、監視結果の報告を行うように設定されたコンピュータ300(例えば、グループ内で監視経路の最後に設定されたコンピュータ)から監視結果が到着したことを契機として、ストレージ110の監視結果テーブル110Eを更新する。
さらに、監視コンピュータ100は、例えば、NIC(Network Interface Card)などの通信インタフェース部180を有する。そして、準備依頼送信部140,監視データ配布部150及び監視依頼送信部160は、夫々、通信インタフェース部180を介してネットワーク200に接続する。
一方、コンピュータ300は、図8に示すように、監視経路情報,監視項目情報及びプログラムを格納するためのストレージ310を有する。ここで、監視経路情報及び監視項目情報は、コンピュータ300が属するグループの監視経路、及び、コンピュータ300が監視する他のコンピュータ300の監視項目を示す情報である。また、コンピュータ300は、図8に示すように、応答部320,監視データ保存部330及び監視実行部340を夫々実装する。応答部320,監視データ保存部330及び監視実行部340は、情報システムの管理者などがコンピュータ300を新たに導入するとき、例えば、コンピュータ300にエージェントを予め組み込むことで実装される。
なお、応答部320,監視データ保存部330及び監視実行部340は、監視コンピュータ100の準備依頼送信部140が準備依頼を送信する前に、各コンピュータ300に配布したプログラムにより実現されるようにしてもよい。
応答部320は、監視コンピュータ100から準備依頼が到着したことを契機として、監視の準備ができた旨を示す応答を監視コンピュータ100に返送する。監視データ保存部330は、監視コンピュータ100に応答を返信したことに伴って監視データが到着したことを契機として、監視データである監視経路情報,監視項目情報及びプログラムをストレージ310に保存する。監視実行部340は、監視依頼が到着したことを契機として、監視経路情報に則って他のコンピュータ300の監視を実行する。
次に、監視コンピュータ100及びコンピュータ300の各部が実行する処理について説明する。
図9は、グループID及び監視対象IDを伴った導入指示があったことを契機として、監視コンピュータ100の新規導入部120が実行する新規導入処理の一例を示す。
ステップ1(図では「S1」と略記する。以下同様。)では、新規導入部120が、ストレージ110の監視対象テーブル110Dを参照し、グループIDにより特定されるレコードの最後に監視対象IDを追加登録する。
かかる新規導入処理によれば、情報システムの管理者などの導入指示に応じて、ストレージ110の監視対象テーブル110Dが順次更新される。このため、監視対象テーブル110Dを参照すれば、監視すべきコンピュータ300、及び、各グループに属するコンピュータ300を把握することができる。
図10は、グループIDを伴った設定指示があったことを契機として、監視コンピュータ100の監視経路設定部130が実行する監視経路設定処理の一例を示す。なお、設定指示には、故障中又はメンテナンス中など、監視対象から除外するコンピュータ300を指定した情報が付随する。
ステップ11では、監視経路設定部130が、ストレージ110の監視対象テーブル110Dを参照し、グループIDにより特定されるレコードに登録されているコンピュータ300の集合から、監視対象から除外するコンピュータ300を除外する。なお、監視経路設定部130は、監視対象から除外するコンピュータ300が指定されていないときには、グループIDにより特定されるレコードに登録されているコンピュータ300の集合を生成すればよい。なお、故障中やメンテナンス中などのコンピュータ300を監視対象から除外する場合には、除外する対象のコンピュータのIDを除外リストとしてストレージ110に格納し、適宜更新することが望ましい。
ステップ12では、監視経路設定部130が、グループIDにより特定されるレコードに登録されているコンピュータ300の集合から、負荷が第1の閾値を超える高負荷状態にあるコンピュータ300を抽出する。ここで、コンピュータ300の負荷は、例えば、負荷を測定するエージェントを事前にコンピュータ300に配布し、エージェントが提供する機能により求めるようにすればよい(以下同様)。
ステップ13では、監視経路設定部130が、高負荷状態のコンピュータ300があるか否かを判定する。そして、監視経路設定部130は、高負荷状態のコンピュータ300があると判定すれば処理をステップ14へと進める一方(Yes)、高負荷状態のコンピュータ300がないと判定すれば処理をステップ16へと進める(No)。
ステップ14では、監視経路設定部130が、コンピュータ300の集合から、負荷が第2の閾値を下回る低負荷状態にあるコンピュータ300を抽出する。ここで、第2の閾値は、低負荷状態にあるコンピュータ300を特定するため、第1の閾値よりも小さな値でもよい。
ステップ15では、監視経路設定部130が、高負荷状態にあるコンピュータ300を低負荷状態にあるコンピュータ300が均等に監視するように、監視経路を設定する。即ち、高負荷状態にあるコンピュータ300は、他のコンピュータ300を監視する余裕が少ないので、高負荷状態にあるコンピュータ300に監視処理を行わせないことで、処理能力不足によるボトルネックの発生を回避する。
ステップ16では、監視経路設定部130が、集合に含まれるコンピュータ300を、所定規則に則って並べた監視経路を設定する。ここで、所定規則としては、例えば、IP(Internet Protocol)アドレス又は監視対象IDが昇順又は降順となるように、コンピュータ300を順次並べる規則が適用できる。
ステップ17では、監視経路設定部130が、ステップ15又はステップ16で設定した監視経路を、ストレージ110の監視経路テーブル110Aに格納する。
かかる監視経路設定処理によれば、情報システムの管理者などの設定指示に応じて、ストレージ110の監視対象テーブル110Dに登録されているコンピュータ300について、負荷を考慮した監視経路が自動的に設定される。このとき、負荷が第1の閾値を超える高負荷状態のコンピュータ300があれば、負荷が第2の閾値を下回る低負荷状態のコンピュータ300が高負荷状態のコンピュータ300を均等に監視するように、監視経路が設定される。このため、高負荷状態のコンピュータ300が他のコンピュータ300を監視することがなく、処理能力不足によるボトルネックの発生を回避することができる。一方、高負荷状態のコンピュータ300がなければ、所定規則に則ってコンピュータ300を並べた監視経路が自動的に設定されるので、管理者などによる監視経路の設定に要する労力を低減することができる。また、監視対象テーブル110Dに登録されているコンピュータ300から、故障中やメンテナンス中などのコンピュータ300を除外して監視経路を設定できることから、実際に監視ができないコンピュータ300を含んだ監視経路が設定されることがない。
図11は、グループIDを伴った開始指示があったことを契機として、監視コンピュータ100の準備依頼送信部140が実行する準備依頼送信処理の一例を示す。
ステップ21では、準備依頼送信部140が、ストレージ110の監視経路テーブル110Aを参照し、グループIDにより特定されるレコードに登録されている各コンピュータ300に準備依頼を送信する。
ステップ22では、準備依頼送信部140が、監視データ配布部150に監視データの配布を開始すべき旨を通知する。なお、監視データ配布部150への通知には、監視対象となるグループを特定するためのグループIDが含まれる。
図12は、準備依頼送信部140から通知があったことを契機として、監視コンピュータ100の監視データ配布部150が実行する監視データ配布処理の一例を示す。
ステップ31では、監視データ配布部150が、監視対象であるコンピュータ300から応答があったか否かを判定する。そして、監視データ配布部150は、応答があったと判定すれば処理をステップ32へと進める一方(Yes)、応答がないと判定すれば本処理を繰り返す(No)。
ステップ32では、監視データ配布部150が、応答があったコンピュータ300に監視データを配布する。即ち、監視データ配布部150は、ストレージ110の監視経路テーブル110Aを参照し、グループIDにより特定されるレコードから監視経路に関するデータを抽出した監視経路情報を生成する。また、監視データ配布部150は、ストレージ110の監視項目テーブル110Bを参照し、監視経路情報に登録されている監視対象IDにより特定されるレコードを抽出した監視項目情報を生成する。さらに、監視データ配布部150は、ストレージ110のプログラムテーブル110Cを参照し、監視項目情報に登録されている監視項目IDにより特定されるプログラム名を取得する。そして、監視データ配布部150は、応答があったコンピュータ300に対して、監視経路情報、監視項目情報、及び、プログラム名により特定されるプログラムを送信する。
ステップ33では、監視データ配布部150が、監視経路情報を参照し、監視対象IDにより特定される全てのコンピュータ300に監視データを送信したか否かを判定する。そして、監視データ配布部150は、全てのコンピュータ300に監視データを送信したと判定すれば処理をステップ34へと進める一方(Yes)、全てのコンピュータ300に監視データを送信していないと判定すれば処理をステップ31へと戻す(No)。
ステップ34では、監視データ配布部150が、監視依頼送信部160に監視依頼を送信すべき旨を通知する。なお、監視依頼送信部160への通知には、監視対象となるグループを特定するためのグループIDが含まれる。
図13は、監視データ配布部150から通知があったことを契機として、監視コンピュータ100の監視依頼送信部160が実行する監視依頼送信処理の一例を示す。
ステップ41では、監視依頼送信部160が、ストレージ110の監視経路テーブル110Aを参照し、監視の起点となるコンピュータ300(例えばグループ1であれば、コンピュータ10)を特定する。
ステップ42では、監視依頼送信部160が、監視の起点となるコンピュータ300に監視依頼を送信する。
かかる準備依頼送信処理,監視データ配布処理及び監視依頼送信処理によれば、監視対象となるグループに属する全てのコンピュータ300に対して、他のコンピュータ300を監視するための監視経路情報,監視項目情報及びプログラムが配布される。そして、監視経路情報,監視項目情報及びプログラムが配布された後、監視対象となるグループにおいて監視の起点となるコンピュータ300に対して、他のコンピュータ300の監視を開始すべきことを通知する監視依頼が送信される。このため、監視経路,監視項目及びプログラムの少なくとも1つが変更されたときには、情報システムの管理者などの開始指示に応じて、監視対象となるコンピュータ300に最新の監視経路情報,監視項目情報及びプログラムが提供されることとなる。従って、監視データの管理が容易になり、管理者などの労力を低減することができる。
図14は、監視データの配布先であるコンピュータ300から監視結果が到着したことを契機として、監視コンピュータ100の状態更新部170が実行する状態更新処理の一例を示す。なお、監視結果には、グループID,監視対象ID,監視項目ID及び作動状態が含まれている。
ステップ51では、状態更新部170が、監視結果に基づいて、ストレージ110の監視結果テーブル110Eの作動状態を更新する。即ち、状態更新部170は、監視結果に含まれるグループID,監視対象ID及び監視項目IDにより特定される作動状態について、監視結果に含まれる作動状態を上書きする。
かかる状態更新処理によれば、コンピュータ300からの監視結果に基づいて監視結果テーブル110Eが順次更新されるため、監視結果テーブル110Eは最新の状態を表すこととなる。このため、監視結果テーブル110Eを参照すれば、あるグループに属するコンピュータ300の作動状態を容易に把握することができる。なお、監視コンピュータ100には、ストレージ110の監視結果テーブル110Eを参照し、コンピュータ300の作動状態を確認するための機能を組み込んでもよい。
図15は、監視コンピュータ100から準備依頼が到着したことを契機として、コンピュータ300の応答部320が実行する応答処理の一例を示す。
ステップ61では、応答部320が、監視コンピュータ100の監視データ配布部150に応答を返送する。
かかる応答処理によれば、監視対象となるコンピュータ300は、監視コンピュータ100からの準備依頼に対して応答を返送することで、監視データとしての監視経路情報,監視項目情報及びプログラムを受け入れる準備が完了したことを通知できる。
図16は、監視コンピュータ100から監視データが到着したことを契機として、コンピュータ300の監視データ保存部330が実行する監視データ保存処理の一例を示す。
ステップ71では、監視データ保存部330が、監視データ、即ち、監視経路情報,監視項目情報及びプログラムをストレージ310に保存する。
かかる監視データ保存処理によれば、監視対象となるコンピュータ300は、他のコンピュータ300を監視するための監視データをストレージ310に自動的に保存することができる。
図17は、監視依頼があったことを契機として、コンピュータ300の監視実行部340が実行する監視実行処理の一例を示す。
ステップ81では、監視実行部340が、ストレージ310の監視項目情報を参照し、他のコンピュータ300を監視するためのプログラムを起動する。なお、起動したプログラムは、明示の終了指示があるまで、他のコンピュータ300を監視し続ける。
ステップ82では、監視実行部340が、ストレージ310の監視経路情報を参照し、監視コンピュータ100に監視結果を通知する義務を負う通知元であるか否か、即ち、監視経路の最後に登録されているコンピュータ300であるか否かを判定する。そして、監視実行部340は、監視結果の通知元であると判定すれば処理をステップ83へと進める一方(Yes)、監視結果の通知元でないと判定すれば処理をステップ85へと進める(No)。
ステップ83では、監視実行部340が、プログラムの監視結果を得て、監視コンピュータ100に監視結果を通知する。ここで、監視結果の通知には、監視経路に沿って各コンピュータ300を監視した監視結果が含まれる。
ステップ84では、監視経路情報に則ってコンピュータ300の監視を繰り返すために、監視実行部340が、ストレージ310の監視経路情報を参照し、監視の起点となるコンピュータ300に監視依頼を送信する。
ステップ85では、監視実行部340が、プログラムの監視結果を得ると共に、ストレージ310の監視経路情報を参照し、次に登録されているコンピュータ300、即ち、監視先のコンピュータ300に監視結果及び監視依頼を送信する。
かかる監視実行処理によれば、監視対象となるコンピュータ300は、監視依頼が到着するとプログラムを起動し、監視経路情報に則って他のコンピュータ300の監視を実行する。そして、コンピュータ300は、監視結果を通知する義務を負っていれば、監視コンピュータ100にグループの監視結果を通知すると共に、監視の起点となるコンピュータ300に監視依頼を送信する。一方、コンピュータ300は、監視結果を通知する義務を負っていなければ、監視先のコンピュータ300に監視結果及び監視依頼を送信する。
このため、グループを構成する各コンピュータ300は協働して、監視経路情報に則って順繰りに他のコンピュータ300を監視しつつ、監視結果の報告を行うように設定されたコンピュータ300が、監視コンピュータ100に監視結果を通知する。従って、監視コンピュータ100は、監視対象となる各コンピュータ300に監視データを配布し、監視の起点となるコンピュータ300に監視依頼を送信した後は、コンピュータ300からの監視結果を受け取るだけとなる。よって、監視対象であるコンピュータ300の台数が多くなっても、監視コンピュータ100の負荷がさほど増加せず、複数のコンピュータ300を効率よく監視することができる。なお、監視の起点となるコンピュータ300を監視するためには、これを他のコンピュータ300が監視するように監視経路を設定すればよい。
ここで、本実施形態の理解を容易ならしめることを目的として、具体的な事例を想定した実施例について説明する。
[実施例1]
実施例1では、図18に示すように、グループAにおいて、コンピュータaがコンピュータbを監視し、コンピュータbが監視結果を通知する一方、グループBにおいて、コンピュータcがコンピュータdを監視し、コンピュータdが監視結果を通知する。
この場合、監視コンピュータ100のストレージ110には、図19に示すような監視経路テーブル110Aが格納される。監視経路テーブル110Aでは、監視コンピュータ100に監視結果を通知するコンピュータ300を特定可能とするために、例えば、監視対象IDの末尾に接尾辞「N」を付すこととする(以下同様)。また、監視コンピュータ100のストレージ110には、図20に示すような監視項目テーブル110B、及び、図21に示すようなプログラムテーブル110Cが夫々格納される。図20に示す監視項目テーブル110Bでは、コンピュータa及びcを監視するコンピュータが存在しないので、コンピュータa及びcの監視項目IDには、例えば、監視項目がないことを示すNULLなどが設定される。
そして、監視コンピュータ100から各コンピュータa〜dに監視データが配布されると共に、監視コンピュータ100から監視の起点となるコンピュータa及びdに監視依頼が送信されると、コンピュータb及びdの監視が開始される。その後、監視コンピュータ100は、コンピュータb及びdから監視結果を受け取ると、図22に示すように、ストレージ110の監視結果テーブル110Eの作動状態を更新する。なお、各グループを構成するコンピュータは、2台に限らず、3台以上であってもよい。
[実施例2]
実施例2では、図23に示すように、グループAにおいて、コンピュータaがコンピュータbを監視し、コンピュータbが監視結果を通知した後、コンピュータbがコンピュータaを監視し、コンピュータaが監視結果を通知する。即ち、2台のコンピュータa及びbが相互に相手を監視し合うことで、グループに属する特定のコンピュータが監視されないという事態を回避する。
この場合、監視コンピュータ100のストレージ110には、図24に示すような監視経路テーブル110A、及び、図25に示すような監視項目テーブル110Bが夫々格納される。なお、プログラムテーブル110Cは、実施例1と同一である。
そして、監視コンピュータ100から各コンピュータa及びbに監視データが配布されると共に、監視コンピュータ100から監視の起点となるコンピュータaに監視依頼が送信されると、コンピュータa及びbの相互監視が開始される。即ち、コンピュータaがコンピュータbを監視し、コンピュータbが監視結果を通知した後、コンピュータbがコンピュータaを監視し、コンピュータaが監視結果を通知する。その後、監視コンピュータ100は、コンピュータa又はbから監視結果を受け取ると、図26に示すように、ストレージ110の監視結果テーブル110Eの作動状態を更新する。なお、グループを構成するコンピュータは、2台に限らず、3台以上であってもよい。
[実施例3]
実施例3では、図27に示すように、グループAに含まれる複数のコンピュータa〜dのうち、コンピュータa〜cがコンピュータdを交互に監視し、コンピュータa〜cが監視結果を交互に通知する。このような監視が必要な理由として、例えば、コンピュータdが重要なサービスを提供しており、システムダウンなどが許されない場合が想定される。
この場合、監視コンピュータ100のストレージ110には、図28に示すような監視経路テーブル110A、及び、図29に示すような監視項目テーブル110Bが夫々格納される。ここで、監視項目テーブル110Bでは、コンピュータa〜cを監視するコンピュータが存在しないので、コンピュータa〜cの監視項目には、例えば、監視項目がないことを示すNULLなどが設定される。なお、プログラムテーブル110Cは、実施例1と同一である。
そして、監視コンピュータ100から各コンピュータa〜dに監視データが配布されると共に、監視コンピュータ100から監視の起点となるコンピュータaに監視依頼が送信されると、コンピュータaによるコンピュータdの監視が開始される。次に、コンピュータaからコンピュータbに監視依頼が送信され、コンピュータbによるコンピュータdの監視が開始される。このように、コンピュータa〜cが順番にコンピュータdを監視して監視結果を通知する。一方、監視コンピュータ100は、コンピュータa〜cから監視結果を受け取ると、図30に示すように、ストレージ110の監視結果テーブル110Eの作動状態を更新する。なお、グループを構成するコンピュータは、4台に限らず、3台以上であればよい。
従って、[実施例1]〜[実施例3]のように、監視経路テーブル110A,監視項目テーブル110B及びプログラムテーブル110Cを適宜変更することで、グループにおけるコンピュータの監視形態を定義することができる。なお、コンピュータの監視形態は、前述した[実施例1]〜[実施例3]に限らない。
100 監視コンピュータ
110 ストレージ
110A 監視経路テーブル
110B 監視項目テーブル
110C プログラムテーブル
130 監視経路設定部
150 監視データ配布部
160 監視依頼送信部
300 コンピュータ

Claims (10)

  1. 複数のコンピュータからなるグループごとに、一のコンピュータが他のコンピュータを順繰りに監視するように、監視の起点となる監視元のコンピュータと、監視先かつ監視元となる少なくとも1台のコンピュータと、を関連付けた監視経路を格納したストレージを有する監視コンピュータに、
    グループの特定情報を含んだ指示があったときに、前記ストレージの監視経路を参照し、前記特定情報により特定されるグループに属する各コンピュータに対して、該グループに関する監視経路を配布するステップと、
    前記監視経路において監視の起点となる監視元のコンピュータに対して、前記監視経路に則って他のコンピュータの監視を行うことを依頼するステップと、
    を実現させるためのコンピュータの監視プログラム。
  2. 前記グループは、少なくとも3台のコンピュータからなり、
    前記監視経路には、一のコンピュータを除く他のコンピュータが順番に、前記一のコンピュータを監視して前記監視コンピュータに監視結果を通知するように、前記起点となる監視元のコンピュータ及び監視先かつ監視元となるコンピュータが設定されていることを特徴とする請求項1記載のコンピュータの監視プログラム。
  3. 前記グループは、少なくとも2台のコンピュータからなり、
    前記監視経路には、一のコンピュータが他のコンピュータを連鎖的に監視し、最後に監視されるコンピュータが前記監視コンピュータに監視結果を通知するように、前記起点となる監視元のコンピュータ及び監視先かつ監視元となるコンピュータが設定されていることを特徴とする請求項1記載のコンピュータの監視プログラム。
  4. 前記グループは、少なくとも2台のコンピュータからなり、
    前記監視経路には、一のコンピュータが他のコンピュータを連鎖的に監視し、最後に監視される他のコンピュータが前記監視コンピュータに監視結果を通知した後、前記他のコンピュータが一のコンピュータを連鎖的に監視し、最後に監視される一のコンピュータが前記監視コンピュータに監視結果を通知するように、前記起点となる監視元のコンピュータ及び監視先かつ監視元となるコンピュータが設定されていることを特徴とする請求項1記載のコンピュータの監視プログラム。
  5. 前記監視経路を配布するステップは、前記監視経路に加えて、前記コンピュータを監視するためのプログラムを併せて配布することを特徴とする請求項1記載のコンピュータの監視プログラム。
  6. 前記ストレージは、監視対象であるコンピュータの監視項目を更に格納し、
    前記監視経路を配布するステップは、前記ストレージの監視項目を参照し、監視対象であるコンピュータの監視項目に適合したプログラムを配布することを特徴とする請求項5記載のコンピュータの監視プログラム。
  7. 前記監視コンピュータに、
    前記監視経路を設定するグループの特定情報を含んだ指示があったときに、前記ストレージの監視経路を参照し、前記特定情報により特定されるグループに属するコンピュータから、負荷が第1の閾値を超える高負荷状態のコンピュータを抽出するステップと、
    前記高負荷状態のコンピュータが抽出できたとき、前記グループに属するコンピュータから、負荷が第2の閾値を下回る低負荷状態のコンピュータを抽出し、前記低負荷状態のコンピュータが前記高負荷状態のコンピュータを均等に監視するように監視経路を設定する一方、前記高負荷状態のコンピュータが抽出できなかったとき、前記グループに属するコンピュータを所定規則に則って並べた監視経路を設定するステップと、
    を更に実現させることを特徴とする請求項1記載のコンピュータの監視プログラム。
  8. 前記監視コンピュータに、前記特定情報により特定されるグループに属するコンピュータから、指定されたコンピュータを除外するステップを更に実現させることを特徴とする請求項7記載のコンピュータの監視プログラム。
  9. 複数のコンピュータからなるグループごとに、一のコンピュータが他のコンピュータを順繰りに監視するように、監視の起点となる監視元のコンピュータと、監視先かつ監視元となる少なくとも1台のコンピュータと、を関連付けた監視経路を格納したストレージを有する監視コンピュータが、
    グループの特定情報を含んだ指示があったときに、前記ストレージの監視経路を参照し、前記特定情報により特定されるグループに属する各コンピュータに対して、該グループに関する監視経路を配布するステップと、
    前記監視経路において監視の起点となる監視元のコンピュータに対して、前記監視経路に則って他のコンピュータの監視を行うことを依頼するステップと、
    を実行することを特徴とするコンピュータの監視方法。
  10. 複数のコンピュータからなるグループごとに、一のコンピュータが他のコンピュータを順繰りに監視するように、監視の起点となる監視元のコンピュータと、監視先かつ監視元となる少なくとも1台のコンピュータと、を関連付けた監視経路を格納したストレージと、
    グループの特定情報を含んだ指示があったときに、前記ストレージの監視経路を参照し、前記特定情報により特定されるグループに属する各コンピュータに対して、該グループに関する監視経路を配布する監視データ配布部と、
    前記監視経路において監視の起点となる監視元のコンピュータに対して、前記監視経路に則って他のコンピュータの監視依頼を送信する監視依頼送信部と、
    を有することを特徴とするコンピュータの監視装置。
JP2012523487A 2010-07-09 2010-07-09 監視プログラム、監視システム及び監視方法 Expired - Fee Related JP5475130B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/061707 WO2012004891A1 (ja) 2010-07-09 2010-07-09 コンピュータの監視プログラム,監視方法及び監視装置

Publications (2)

Publication Number Publication Date
JPWO2012004891A1 true JPWO2012004891A1 (ja) 2013-09-02
JP5475130B2 JP5475130B2 (ja) 2014-04-16

Family

ID=45440890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012523487A Expired - Fee Related JP5475130B2 (ja) 2010-07-09 2010-07-09 監視プログラム、監視システム及び監視方法

Country Status (4)

Country Link
US (1) US9444698B2 (ja)
EP (1) EP2592561A4 (ja)
JP (1) JP5475130B2 (ja)
WO (1) WO2012004891A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6201678B2 (ja) * 2013-11-21 2017-09-27 富士通株式会社 ネットワーク管理システムにおけるネットワークエレメント、ネットワーク管理システム、及び、ネットワークの管理方法
JP2015114991A (ja) * 2013-12-13 2015-06-22 富士通株式会社 データ処理装置、データ処理装置監視方法およびデータ処理システム
JP6323243B2 (ja) * 2014-08-07 2018-05-16 富士通株式会社 システム及び異常検知方法
CN114189815B (zh) 2016-01-18 2024-02-09 三星电子株式会社 移动通信系统中终端通信的方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262042A (ja) * 1994-03-17 1995-10-13 Fujitsu Ltd プロセッサ障害検出方法
JPH08223161A (ja) * 1995-02-10 1996-08-30 Toshiba Corp システム間監視ネットワークの形成方法及びシステム間監視装置
JPH1074159A (ja) * 1996-08-30 1998-03-17 Hitachi Ltd 計算機システムの制御方法
JP2000148539A (ja) * 1998-11-04 2000-05-30 Ntt Data Corp 障害検知方法、コンピュータシステム及び構成装置、記録媒体
US6484022B1 (en) * 1999-09-07 2002-11-19 Ericsson Inc. Wireless communications device having externally controlled transmission of identity
GB2362230A (en) * 2000-05-09 2001-11-14 Marconi Comm Ltd Delegated fault detection in a network by mutual node status checking
US6859830B1 (en) * 2000-06-23 2005-02-22 Microsoft Corporation Method and system for detecting a dead server
US20020129355A1 (en) * 2001-03-01 2002-09-12 Mike Velten Method and system for monitoring an apparatus for a computer
JP2002312199A (ja) 2001-04-13 2002-10-25 Mitsubishi Electric Corp 異常検知電子機器及び異常検知方法及び異常検知電子機器システム及び異常検知プログラム及び異常検知プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003030161A (ja) * 2001-07-11 2003-01-31 Hitachi Ltd 移動エージェント障害監視方法
JP4852226B2 (ja) * 2002-12-27 2012-01-11 セイコーエプソン株式会社 デバイス監視システム
JP2006154991A (ja) * 2004-11-26 2006-06-15 Fujitsu Ltd 情報処理システム、情報処理システムの制御方法、監視装置、監視プログラム、保守管理プログラム
US8386609B2 (en) * 2007-11-09 2013-02-26 International Business Machines Corporation Reconnection to and migration of electronic collaboration sessions
US8667034B1 (en) * 2008-02-20 2014-03-04 Emc Corporation System and method for preserving symbolic links by a storage virtualization system
JP4890486B2 (ja) * 2008-03-07 2012-03-07 富士通テレコムネットワークス株式会社 監視制御システム及び監視制御方法
JP4900358B2 (ja) * 2008-10-10 2012-03-21 日本電気株式会社 サーバ管理システム,サーバ管理方法及びサーバ管理用プログラム
JP5091833B2 (ja) * 2008-10-28 2012-12-05 株式会社日立製作所 監視対象装置管理システム、管理サーバおよび監視対象装置管理方法

Also Published As

Publication number Publication date
US9444698B2 (en) 2016-09-13
JP5475130B2 (ja) 2014-04-16
US20130117447A1 (en) 2013-05-09
EP2592561A4 (en) 2017-12-20
WO2012004891A1 (ja) 2012-01-12
EP2592561A1 (en) 2013-05-15

Similar Documents

Publication Publication Date Title
JP5625998B2 (ja) 情報処理システム
JP6055009B2 (ja) パケット処理方法、装置及びシステム
JP2008519477A (ja) サーバ間の直接通信を用いることによってノード構成におけるサーバ・イベントを監視するための方法及びシステム
JP2012080216A (ja) 検疫装置、検疫システム、検疫方法、及びプログラム
JP2014515851A5 (ja)
JP5475130B2 (ja) 監視プログラム、監視システム及び監視方法
CN106506490A (zh) 一种分布式计算控制方法以及分布式计算系统
WO2015038604A1 (en) Apparatus and method for monitoring network performance
JP5874828B2 (ja) 制御対象フロー特定プログラム、制御対象フロー特定方法および制御対象フロー特定装置
JP2018201154A (ja) 送信制御プログラム、送信制御方法、及び情報処理装置
JP5268589B2 (ja) 情報処理装置及び情報処理装置の運用方法
CN103944784B (zh) 一种面向大规模云数据中心的服务器协同监控方法
JPWO2012160641A1 (ja) 管理装置、情報処理装置、情報処理システム及びデータ転送方法
JP5839664B2 (ja) ソフトウェア配布サーバ、ソフトウェア配布方法、ソフトウェア配布プログラム、および記録媒体
JP2020038506A (ja) 情報処理システム、情報処理方法、及び、プログラム
JP6483592B2 (ja) コントローラおよび制御システム
JP5483784B1 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
JP5658621B2 (ja) 信号振分複製先決定システム、信号振分複製先決定方法およびプログラム
JP2010244469A (ja) 分散処理システム及び分散処理方法
JP6111209B2 (ja) 仮想マシン管理システム、仮想マシン管理方法、環境管理サーバ及びプログラム
JP2015114991A (ja) データ処理装置、データ処理装置監視方法およびデータ処理システム
JP2008077293A (ja) ネットワーク監視装置
JP6318910B2 (ja) 管理装置,情報処理システム,プログラム
JP5727404B2 (ja) 死活監視サーバ、死活監視プログラム及び死活監視方法
JP6167867B2 (ja) 負荷分散装置、方法及びシステム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20131220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140205

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees