WO2014147699A1 - 管理装置、方法及びプログラム - Google Patents

管理装置、方法及びプログラム Download PDF

Info

Publication number
WO2014147699A1
WO2014147699A1 PCT/JP2013/057613 JP2013057613W WO2014147699A1 WO 2014147699 A1 WO2014147699 A1 WO 2014147699A1 JP 2013057613 W JP2013057613 W JP 2013057613W WO 2014147699 A1 WO2014147699 A1 WO 2014147699A1
Authority
WO
WIPO (PCT)
Prior art keywords
hardware
identification information
abnormality
unit
occurred
Prior art date
Application number
PCT/JP2013/057613
Other languages
English (en)
French (fr)
Inventor
史 中村
佐藤 寛子
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2015506385A priority Critical patent/JP5999254B2/ja
Priority to PCT/JP2013/057613 priority patent/WO2014147699A1/ja
Publication of WO2014147699A1 publication Critical patent/WO2014147699A1/ja
Priority to US14/851,671 priority patent/US9811411B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 本管理装置は、情報処理装置が備えるハードウェアの異常を監視する管理装置である。そして、本管理装置は、異常が発生したことを示す通知を情報処理装置から受信した場合に、異常が発生したハードウェアの識別情報が通知に含まれるか判断する第1処理部と、異常が発生したハードウェアの識別情報が通知に含まれないと第1処理部により判断された場合、ハードウェアの識別情報を取得するためのモジュールを実行することを要求する実行要求を情報処理装置に送信する第2処理部と、ハードウェアの識別情報を情報処理装置から受信した場合に、モジュールの実行を停止することを要求する停止要求を情報処理装置に送信する第3処理部とを有する。

Description

管理装置、方法及びプログラム
 ハードウェアを監視する技術に関する。
 コンピュータに異常が発生しないか監視する技術として、以下のような技術が知られている。
 例えば、監視対象の装置において動作するOS(Operating System)上に情報収集のためのプログラムを導入することにより、管理サーバが監視対象の装置の情報を収集するシステムが知られている。このシステムにおいては、管理サーバのメモリにおけるプログラムが、定期的に、監視対象の装置に対して情報収集のためのポーリングを行う。監視対象の装置のメモリにおけるプログラムは、管理サーバからのポーリングがあると、監視対象の装置の状態に関する情報及び性能に関する情報を管理サーバに送信する。
 しかし、このシステムにおいては、監視対象の装置に導入するプログラムがOSに依存するため、OSの改版等がある度にプログラムの更新を行うことになり手間がかかる。また、このシステムにおいては、監視対象の装置のメモリにプログラムが常駐することになるため、監視対象の装置に負荷がかかるという問題がある。さらに、特定の仮想化環境においては仮想化により物理情報の取得が困難であると共に、OSベンダのポリシーによってはホストOSから取得できる情報が制限される場合がある。
 これに対し、情報収集のためのプログラムを監視対象の装置に導入することなく監視を行えるシステム(以下、エージェントレス型の監視システムと呼ぶ)がある。このシステムにおいては、ジョブ監視サーバにおけるジョブ監視プログラムが、所定時間になると、環境設定情報に基づいて監視対象サーバのジョブログファイルからログを読み込み、監視対象ジョブの状態を判定し、判定結果を中間ログファイルに出力する。さらに、ジョブ監視サーバにおけるログ送信プログラムは、中間ログファイルから所定時間ごとに中間ログを読み出し、通信回線を介して遠隔監視サーバに送信する。
 エージェントレス型の監視システムは、エージェントレス型ではない監視システムの問題を解決できる。しかしながら、上で述べたエージェントレス型の監視システムは、ジョブの開始又は停止の状態を監視するものであり、ハードウェアの監視を行うことはできない。また、ログ送信プログラムは所定時間毎に処理を行うため、リアルタイムで監視を行うことができない。
 以上のように、従来の技術によっては、エージェントレス型の監視システムにおいて、ハードウェアの監視をリアルタイムで行うことはできない。
国際公開第2009/144969号パンフレット 特開2011-159011号公報
 従って、1つの側面では、本発明の目的は、エージェントレス型の監視システムにおいて、ハードウェアの監視をリアルタイムで行えるようにするための技術を提供することである。
 本発明に係る管理装置は、情報処理装置が備えるハードウェアの異常を監視する管理装置である。そして、本管理装置は、異常が発生したことを示す通知を情報処理装置から受信した場合に、異常が発生したハードウェアの識別情報が通知に含まれるか判断する第1処理部と、異常が発生したハードウェアの識別情報が通知に含まれないと第1処理部により判断された場合、ハードウェアの識別情報を取得するためのモジュールを実行することを要求する実行要求を情報処理装置に送信する第2処理部と、ハードウェアの識別情報を情報処理装置から受信した場合に、モジュールの実行を停止することを要求する停止要求を情報処理装置に送信する第3処理部とを有する。
 エージェントレス型の監視システムにおいて、ハードウェアの監視をリアルタイムで行えるようになる。
図1は、本実施の形態に係るシステム概要を示す図である。 図2は、ハードウェアデータ格納部に格納されるデータの一例を示す図である。 図3は、フィルタファイル格納部に格納されるデータの一例を示す図である。 図4は、判断フラグ格納部に格納されるデータの一例を示す図である。 図5は、処理のシーケンス図である。 図6は、メインの処理フローを示す図である。 図7は、取得処理の処理フローを示す図である。 図8は、データ取得ツールにより取得されるデータの一例を示す図である。 図9は、データ取得ツールにより取得されるデータの一例を示す図である。 図10は、ユーザ端末への通知に含まれるデータの一例を示す図である。 図11は、コンピュータの機能ブロック図である。
 図1に、本実施の形態に係るシステム概要を示す。本実施の形態における主要な処理を実行する管理ユニット1には、1又は複数のサーバユニット3と、ユーザ端末5とが接続されている。管理ユニット1は、サーバユニット3の監視を行う物理サーバである。サーバユニット3は、業務処理等を実行する物理サーバである。ユーザ端末5は、本実施の形態に係るシステムの管理者が操作する端末である。
 管理ユニット1においては、図示しないCPU(Central Processing Unit)により、判断部102、配置部103、削除部104及び出力部105を含むデータ処理部101と、ログ解析部109と、ログ取得部110とが実行される。ログ格納部106と、取得データ格納部107と、ハードウェアデータ格納部108と、フィルタファイル格納部111と、判断フラグ格納部112とは、メモリ又はその他の記憶装置に確保される、データを格納するための領域である。
 ログ取得部110は、サーバユニット3の状態及び性能等を示すメッセージを、サーバユニット3におけるログ転送部33から名前付きパイプにより受信し、ログ解析部109に出力する。ログ解析部109は、ログ取得部110から受け取ったメッセージとフィルタファイル格納部111に格納されているデータとを用いて、受け取ったメッセージが異常が発生したことを示すメッセージであるか判断する。ログ解析部109は、受け取ったメッセージが異常が発生したことを示すメッセージである場合に、そのメッセージをデータ処理部101に出力する。
 判断部102は、判断フラグ格納部112に格納されているデータを用いて、異常が発生したハードウェア(例えばネットワークインタフェースカード又はハードディスク等)の識別情報をサーバユニット3から取得するか判断する。異常が発生したハードウェアの識別情報をサーバユニット3から取得する場合、配置部103は、ハードウェアの識別情報を取得するためのモジュールであるデータ取得ツール31をサーバユニット3に送信し、サーバユニット3に実行させる。ハードウェアの識別情報は、例えば、ハードウェアが接続されるバスの情報或いはベンダの情報等である。削除部104は、データ取得ツール31からハードウェアの識別情報を受信した場合には、ハードウェアの識別情報を取得データ格納部107に格納すると共に、送信したモジュールの実行を停止することを要求する停止要求をサーバユニット3に送信する。出力部105は、受信したハードウェアの識別情報とハードウェアデータ格納部108に格納されているデータとを用いて通知を生成し、ユーザ端末5に送信する。
 サーバユニット3は、ネットワークインタフェースカード又はハードディスク等であるハードウェア34を有する。サーバユニット3においては、図示しないCPUにより、ログ転送部33を含むOS32が実行される。また、サーバユニット3にデータ取得ツール31が配置された場合には、図示しないCPUにより、データ取得ツール31が実行される。データ取得ツール31は常時実行されるわけではないため、図1において点線のブロックで示されている。
 データ取得ツール31は、ハードウェアの識別情報をハードウェア34から取得し、管理ユニット1に送信する。ログ転送部33は、サーバユニット3の状態及び性能等を示すメッセージを、管理ユニット1におけるログ取得部110に名前付きパイプにより送信する。ログ転送部33は、OS32が通常有するログ転送機能を実行する処理部であり、例えばLinux(登録商標)であればsyslogデーモンである。なお、ログ転送部33は、ハードウェアのドライバからメッセージを受け取った場合に名前付きパイプを用いて直ちにそのメッセージを送信するため、管理ユニット1がサーバユニット3の状態をリアルタイムに把握することが可能である。
 図2に、ハードウェアデータ格納部108に格納されるデータの一例を示す。図2に示した例は、ハードウェアがPCI(Peripheral Component Interconnect)カードである場合の例であり、この場合にはバス番号とPCIカードの搭載位置を示す情報とが対応付けて格納される。
 図3に、フィルタファイル格納部111に格納されるデータの一例を示す。図3に示すように、フィルタファイル格納部111には正規表現で表されたメッセージのパターンが格納される。ログ解析部109は、ログ取得部110から受け取ったメッセージがパターンのいずれかに一致した場合に、そのメッセージが異常が発生したことを示すメッセージ(すなわち通報対象のメッセージ)であると判定する。例えば、ログ解析部109が「eth0:Hardware Error」というメッセージを受け取った場合には、「eth[0-9]:Hardware Error」というパターンと一致するため、異常が発生したことを示すメッセージであると判定する。正規表現で表されたメッセージのパターンは、ハードウェアのドライバが出力するメッセージの各々に対して用意される。
 図4に、判断フラグ格納部112に格納されるデータの一例を示す。図4に示した例では、判断フラグ格納部112には、メッセージと、フラグとが格納される。判断部102は、フラグが「1」である場合にはハードウェアの識別情報を取得するべきメッセージであると判断し、フラグが「0」である場合にはハードウェアの識別情報を取得しなくてもよいメッセージであると判断する。
 次に、図5に示したシーケンス図を用いて、図1に示したシステムの動作の概要を説明する。
 前提として、サーバユニット3におけるハードウェア34において異常が発生したとする。このような場合、ログ転送部33は、ハードウェア34において異常が発生したことを検出し、異常が発生したことを示すメッセージを管理ユニット1におけるログ取得部110に名前付きパイプにより転送する。
 ログ取得部110は、ログ転送部33から受け取ったメッセージをログ解析部109に出力する。ログ解析部109は、ログ取得部110から受け取ったメッセージが異常が発生したことを示すメッセージであると判定した場合は、そのメッセージをデータ処理部101に出力する。
 データ処理部101は、受け取ったメッセージについてハードウェアの識別情報を取得すると判断した場合には、データ取得ツール31をサーバユニット3のOS上に配置し、サーバユニット3にデータ取得ツール31を実行させる。データ取得ツール31は、サーバユニット3においてハードウェアの識別情報の取得に成功した場合に、取得した識別情報を管理ユニット1に送信する。
 管理ユニット1のデータ処理部101は、ハードウェアの識別情報を受信した場合に、サーバユニット3におけるデータ取得ツール31の実行を停止(又は削除)する。データ処理部101は、受信したハードウェアの識別情報を含む通知を生成し、ユーザ端末5に送信する。
 以上のようにすれば、ユーザ端末5を操作するユーザは、どのハードウェアにおいて異常が発生したか認識することができるので、ハードウェアの交換等の対応を迅速に行うことができるようになる。
 次に、図6乃至図10を用いて、図1に示したシステムの動作について詳細に説明する。サーバユニット3におけるログ転送部33から取得したメッセージが、ログ解析部109により、異常が発生したことを示すメッセージであると判定されたとする。すると、ログ解析部109は、そのメッセージをデータ処理部101に出力する。データ処理部101における判断部102は、異常が発生したことを示すメッセージを受信する(図6:ステップS1)。
 判断部102は、異常が発生したハードウェアを特定可能であるか判断する(ステップS3)。ステップS3の判断は、判断フラグ格納部112において、受信したメッセージに対応付けて格納されているフラグが「0」であるか否かにより行う。フラグが「0」であればハードウェアの識別情報がメッセージに含まれ、フラグが「1」であればハードウェアの識別情報がメッセージに含まれない。
 異常が発生したハードウェアを特定可能である場合(ステップS3:Yesルート)、ステップS7の処理へ移行する。一方、異常が発生したハードウェアを特定可能ではない場合(ステップS3:Noルート)、判断部102は、取得処理の実行を配置部103及び削除部104に要求する。これに応じ、配置部103及び削除部104は、取得処理を実行する(ステップS5)。取得処理については、図7乃至図9を用いて説明する。
 まず、配置部103は、異常が発生したハードウェアを有するサーバユニット3に、コマンドを用いてデータ取得ツール31を配置する(図7:ステップS21)。すなわち、管理ユニット1が所持するデータ取得ツール31のコピーをサーバユニット3に送信し、サーバユニット3における所定の位置に格納させる。なお、上で説明したように、データ取得ツール31は、ハードウェアの識別情報を取得するためのモジュールである。データ取得ツール31には、ハードウェアの識別情報を取得するためのコマンド及びAPI(Application Program Interface)等が登録されている。
 配置部103は、サーバユニット3におけるOS32にssh(secure shell)等を用いてリモートログインすると共に(ステップS23)、データ取得ツール31を実行することを要求する実行要求をサーバユニット3に送信する(ステップS25)。
 サーバユニット3におけるデータ取得ツール31は、実行要求を受信すると、所定のコマンド及びAPI等を用いてハードウェア34の識別情報を取得する。
 ここでは、データ取得ツール31は、サーバユニット3が有するハードウェアを特定するためのコマンドを実行する。例えば、「♯ifconfig -a」というコマンドを実行すると、サーバユニット3が有するネットワークインタフェースを特定することができる。図8に、「♯ifconfig -a」というコマンドを実行した場合に取得されるデータの一例を示す。このようなデータにより、データ取得ツール31は、サーバユニット3は少なくとも「eth0」というネットワークインタフェースと「eth1」というネットワークインタフェースとを有することがわかる。但し、「eth0」及び「eth1」という名前は、OS32が独自に割り振った名前であるため、どのネットワークインタフェースカードのことであるのかユーザは分からない。
 そこで、データ取得ツール31は、さらにコマンドを実行することにより、サーバユニット3が有するハードウェアの各々について識別情報を取得する。例えば、「♯ethtool -i eth0」というコマンドを実行すれば、「eth0」というネットワークインタフェースについてバス情報を取得することができる。図9に示した例は、データ取得ツール31が「♯ethtool -i eth0」というコマンドを実行した場合に得られるデータの一例である。図9における「0000:01:10.0」という部分がバス情報であり、このようなバス情報を用いれば、どのネットワークインタフェースにおいて異常が発生したかを特定することができる。
 データ取得ツール31は、ハードウェアの識別情報を取得すると、管理ユニット1に送信する。
 管理ユニット1のデータ処理部101における削除部104は、データ取得ツール31からハードウェアの識別情報を受信したか判断する(ステップS27)。
 ハードウェアの識別情報を取得した場合(ステップS27:Yesルート)、削除部104は、データ取得ツール31の実行を停止することを要求する停止要求をサーバユニット3に送信する(ステップS33)。そして元の処理に戻る。これに応じ、サーバユニット3は、データ取得ツール31の実行を停止する。なお、停止要求に、データ取得ツール31を削除することを要求する削除要求を含ませるようにしてもよい。その場合には、サーバユニット3は、データ取得ツール31を削除する。
 一方、ハードウェアの識別情報を取得していない場合(ステップS27:Noルート)、予め定められたリトライ回数内であるか判断する(ステップS29)。リトライ回数内である場合(ステップS29:Yesルート)、リトライするため、ステップS27の処理に戻る。リトライ回数内ではない場合(ステップS29:Noルート)、データ取得ツール31は取得に失敗したので、削除部104は、取得失敗に関するデータをログ格納部106に格納する(ステップS31)。そしてステップS33の処理に移行する。
 取得失敗に関するデータとは、例えば「2012/1/10 13:30 Warning Failed to get PCI device information.」というようなデータである。このデータには、異常の発生日時と、エラーレベル(Warning、Error又はInformation)と、内容を示すデータとが含まれる。
 以上のような処理を実行すれば、サーバユニット3のOS32上に常駐のソフトウェアを導入しなくても、ハードウェア34の識別情報を取得できるようになる。
 図6の説明に戻り、出力部105は、取得されたハードウェアの識別情報をキーとして搭載位置を示すデータをハードウェアデータ格納部108から抽出し、抽出されたデータを含む通知を生成する(ステップS7)。
 図10に、ユーザ端末5への通知に含まれるデータの一例を示す。図10に示した例では、元のメッセージに含まれるデータに加えて、エラーレベル(Warning、Error又はInformation)、エラー番号、ハードウェアの搭載位置を示すデータ、ドライバ名、バス情報、ベンダの識別情報、デバイスの識別情報及び改版番号が含まれる。
 出力部105は、生成された通知をユーザ端末5に送信する(ステップS9)。そして処理を終了する。
 以上のような処理を実行すれば、異常が発生したハードウェアの識別情報がメッセージに含まれていない場合に限り管理ユニット3においてデータ取得ツール31が実行され、ハードウェアの識別情報が取得される。これにより、常駐のプログラムをサーバユニット3に導入せずとも、ハードウェアの監視をリアルタイムで行えるようになる。このように、リアルタイムで監視を行えるようになれば、異常の発生に対する対処を迅速に行うことができるようになる。
 また、データ取得ツール31はサーバユニット3のOS32に依存しないため、OS32の改版に影響を受けることはない。また、データ取得ツール31はサーバユニット3に常駐するわけではないため、リソースの使用量を抑制できるようになる。
 以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した管理ユニット1及びサーバユニット3の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
 また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
 また、データ取得ツール31を予めサーバユニット3に配置しておき、管理ユニット1が実行要求を送信するだけでハードウェアの識別情報を取得できるようにしてもよい。
 また、データ取得ツール31から取得したハードウェアの識別情報によってユーザが異常の発生箇所を特定できる場合には、ハードウェアの識別情報をそのままユーザへの通知に含ませるようにしてもよい。
 また、ネットワークインタフェースカードのファームウェア等に異常が発生した場合には、例えば「Ipfc:0000:1a:00.0 Failed to allocate memory」というようなメッセージがログ転送部33から出力される。このようにハードウェア自体の異常ではない場合には部品交換を行わなくてもよいので、取得処理を実行せず、異常が発生した箇所をユーザに通知しない。ユーザへの通知には、例えば「Warning 12242 Software Ipfc:0000:1a:00.0 Failed to allocate memory」のようなデータが含まれる。
 また、例えばVMware等を用いてサーバユニット3上に仮想化環境が実現される場合にも、本実施の形態を適用可能である。このような場合には、管理ユニット1がssh等を用いてホストOSに対してリモートアクセスすることを許可することにより、サーバユニット3上にデータ取得ツール31を配置してハードウェアの識別情報を取得することが可能である。
 なお、上で述べた管理ユニット1及びサーバユニット3は、コンピュータ装置であって、図11に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
 以上述べた本実施の形態をまとめると以下のようになる。
 本実施の形態の第1の態様に係る管理装置は、情報処理装置が備えるハードウェアの異常を監視する管理装置である。そして、本管理装置は、(A)異常が発生したことを示す通知を情報処理装置から受信した場合に、異常が発生したハードウェアの識別情報が通知に含まれるか判断する第1処理部と、(B)異常が発生したハードウェアの識別情報が通知に含まれないと第1処理部により判断された場合、ハードウェアの識別情報を取得するためのモジュールを実行することを要求する実行要求を情報処理装置に送信する第2処理部と、(C)ハードウェアの識別情報を情報処理装置から受信した場合に、モジュールの実行を停止することを要求する停止要求を情報処理装置に送信する第3処理部とを有する。
 通常のOSが有するログの転送機能等によってリアルタイムに転送されるログには、異常が発生したハードウェアの識別情報が含まれないことがあり、その場合にはユーザに異常の発生箇所を通知できない。そこで、上で述べたようにすれば、異常が発生したハードウェアの識別情報が通知に含まれていない場合に限り情報処理装置においてモジュールが実行され、ハードウェアの情報が取得される。これにより、常駐のモジュールを情報処理装置に導入しない、エージェントレス型の監視システムにおいて、ハードウェアの監視をリアルタイムで行えるようになる。
 また、上で述べた第2処理部は、(b1)異常が発生したハードウェアの識別情報が通知に含まれないと第1処理部により判断された場合、モジュールを情報処理装置に送信してもよい。そして、上で述べた停止要求には、モジュールを情報処理装置から削除することを要求する削除要求が含まれるようにしてもよい。このようにすれば、情報処理装置がモジュールを保持しなくてもよいので、記憶装置の使用容量を抑制できるようになる。
 また、本管理装置が、(D)異常が発生したハードウェアの識別情報が通知に含まれると第1処理部により判断された場合又はハードウェアの識別情報を情報処理装置から受信した場合に、異常が発生したハードウェアの情報を含む通知を生成し、出力する第4処理部をさらに有してもよい。このようにすれば、異常が発生したハードウェアの識別情報をユーザに通知できるようになる。
 本実施の形態の第2の態様に係る管理方法は、情報処理装置が備えるハードウェアの異常を監視する管理装置により実行される管理方法である。そして、本管理方法は、(E)異常が発生したことを示す通知を情報処理装置から受信した場合に、異常が発生したハードウェアの識別情報が通知に含まれるか判断し、(F)異常が発生したハードウェアの識別情報が通知に含まれないと判断された場合、ハードウェアの識別情報を取得するためのモジュールを実行することを要求する実行要求を情報処理装置に送信し、(G)ハードウェアの識別情報を情報処理装置から受信した場合に、モジュールの実行を停止することを要求する停止要求を情報処理装置に送信する処理を含む。
 なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD-ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

Claims (5)

  1.  情報処理装置が備えるハードウェアの異常を監視する管理装置であって、
     異常が発生したことを示す通知を前記情報処理装置から受信した場合に、前記異常が発生したハードウェアの識別情報が前記通知に含まれるか判断する第1処理部と、
     前記異常が発生したハードウェアの識別情報が前記通知に含まれないと前記第1処理部により判断された場合、前記ハードウェアの識別情報を取得するためのモジュールを実行することを要求する実行要求を前記情報処理装置に送信する第2処理部と、
     前記ハードウェアの識別情報を前記情報処理装置から受信した場合に、前記モジュールの実行を停止することを要求する停止要求を前記情報処理装置に送信する第3処理部と、
     を有する管理装置。
  2.  前記第2処理部は、
     前記異常が発生したハードウェアの識別情報が前記通知に含まれないと前記第1処理部により判断された場合、前記モジュールを前記情報処理装置に送信し、
     前記停止要求には、前記モジュールを前記情報処理装置から削除することを要求する削除要求が含まれる
     ことを特徴とする請求項1記載の管理装置。
  3.  前記異常が発生したハードウェアの識別情報が前記通知に含まれると前記第1処理部により判断された場合又は前記ハードウェアの識別情報を前記情報処理装置から受信した場合に、前記異常が発生したハードウェアの情報を含む通知を生成し、出力する第4処理部
     をさらに有する請求項1又は2記載の管理装置。
  4.  情報処理装置が備えるハードウェアの異常を監視する管理装置により実行される管理方法であって、
     異常が発生したことを示す通知を前記情報処理装置から受信した場合に、前記異常が発生したハードウェアの識別情報が前記通知に含まれるか判断し、
     前記異常が発生したハードウェアの識別情報が前記通知に含まれないと判断された場合、前記ハードウェアの識別情報を取得するためのモジュールを実行することを要求する実行要求を前記情報処理装置に送信し、
     前記ハードウェアの識別情報を前記情報処理装置から受信した場合に、前記モジュールの実行を停止することを要求する停止要求を前記情報処理装置に送信する、
     処理を前記管理装置が実行する管理方法。
  5.  情報処理装置が備えるハードウェアの異常を監視する管理装置に実行させるための管理プログラムであって、
     異常が発生したことを示す通知を前記情報処理装置から受信した場合に、前記異常が発生したハードウェアの識別情報が前記通知に含まれるか判断し、
     前記異常が発生したハードウェアの識別情報が前記通知に含まれないと判断された場合、前記ハードウェアの識別情報を取得するためのモジュールを実行することを要求する実行要求を前記情報処理装置に送信し、
     前記ハードウェアの識別情報を前記情報処理装置から受信した場合に、前記モジュールの実行を停止することを要求する停止要求を前記情報処理装置に送信する、
     処理を前記管理装置に実行させるための管理プログラム。
PCT/JP2013/057613 2013-03-18 2013-03-18 管理装置、方法及びプログラム WO2014147699A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015506385A JP5999254B2 (ja) 2013-03-18 2013-03-18 管理装置、方法及びプログラム
PCT/JP2013/057613 WO2014147699A1 (ja) 2013-03-18 2013-03-18 管理装置、方法及びプログラム
US14/851,671 US9811411B2 (en) 2013-03-18 2015-09-11 Management apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/057613 WO2014147699A1 (ja) 2013-03-18 2013-03-18 管理装置、方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/851,671 Continuation US9811411B2 (en) 2013-03-18 2015-09-11 Management apparatus, method and program

Publications (1)

Publication Number Publication Date
WO2014147699A1 true WO2014147699A1 (ja) 2014-09-25

Family

ID=51579437

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/057613 WO2014147699A1 (ja) 2013-03-18 2013-03-18 管理装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US9811411B2 (ja)
JP (1) JP5999254B2 (ja)
WO (1) WO2014147699A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3069474B1 (en) * 2013-11-15 2020-03-11 Nokia Solutions and Networks Oy Correlation of event reports
CN108768730B (zh) * 2018-05-31 2022-05-31 北京百度网讯科技有限公司 用于操作智能网卡的方法和装置
WO2023279815A1 (zh) * 2021-07-08 2023-01-12 华为技术有限公司 性能监控系统及相关方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09297693A (ja) * 1996-05-01 1997-11-18 Sony Corp 電子機器および故障原因解析方法
JP2002288067A (ja) * 2001-03-28 2002-10-04 Nec Corp 情報処理機器のサポートシステム、方法及びプログラム
JP2003006002A (ja) * 2001-06-20 2003-01-10 Fuji Xerox Co Ltd 障害解析支援方法および装置
JP2006139493A (ja) * 2004-11-11 2006-06-01 Brother Ind Ltd 遠隔診断装置
JP2009151407A (ja) * 2007-12-19 2009-07-09 Nec Computertechno Ltd 障害処理方式、及び、障害処理方法
WO2011051999A1 (ja) * 2009-10-26 2011-05-05 富士通株式会社 情報処理装置及び情報処理装置の制御方法
JP2011145824A (ja) * 2010-01-13 2011-07-28 Nec Computertechno Ltd 情報処理装置、障害解析方法及び障害解析プログラム
US20120158890A1 (en) * 2010-12-17 2012-06-21 Dell Products L.P. Native bi-directional communication for hardware management
JP2012198796A (ja) * 2011-03-22 2012-10-18 Nec Corp ログ収集システム、装置、方法及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3351318B2 (ja) 1997-11-07 2002-11-25 株式会社日立製作所 計算機システムの監視方法
US20090037496A1 (en) * 2007-08-01 2009-02-05 Chong Benedict T Diagnostic Virtual Appliance
US8086905B2 (en) 2008-05-27 2011-12-27 Hitachi, Ltd. Method of collecting information in system network
JP2011113243A (ja) 2009-11-26 2011-06-09 Hitachi Solutions Ltd 仮想化環境において稼動中のアプリケーション監視システム
JP2011159011A (ja) 2010-01-29 2011-08-18 Toshiba It Service Kk ジョブ監視システム及びジョブ監視プログラム
JP5425720B2 (ja) 2010-06-21 2014-02-26 株式会社日立システムズ 仮想化環境監視装置とその監視方法およびプログラム
US20150067139A1 (en) * 2013-08-28 2015-03-05 Unisys Corporation Agentless monitoring of computer systems
GB2528485B (en) * 2014-07-23 2016-05-18 Ibm Reducing size of diagnostic data downloads

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09297693A (ja) * 1996-05-01 1997-11-18 Sony Corp 電子機器および故障原因解析方法
JP2002288067A (ja) * 2001-03-28 2002-10-04 Nec Corp 情報処理機器のサポートシステム、方法及びプログラム
JP2003006002A (ja) * 2001-06-20 2003-01-10 Fuji Xerox Co Ltd 障害解析支援方法および装置
JP2006139493A (ja) * 2004-11-11 2006-06-01 Brother Ind Ltd 遠隔診断装置
JP2009151407A (ja) * 2007-12-19 2009-07-09 Nec Computertechno Ltd 障害処理方式、及び、障害処理方法
WO2011051999A1 (ja) * 2009-10-26 2011-05-05 富士通株式会社 情報処理装置及び情報処理装置の制御方法
JP2011145824A (ja) * 2010-01-13 2011-07-28 Nec Computertechno Ltd 情報処理装置、障害解析方法及び障害解析プログラム
US20120158890A1 (en) * 2010-12-17 2012-06-21 Dell Products L.P. Native bi-directional communication for hardware management
JP2012198796A (ja) * 2011-03-22 2012-10-18 Nec Corp ログ収集システム、装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台

Also Published As

Publication number Publication date
US9811411B2 (en) 2017-11-07
JP5999254B2 (ja) 2016-09-28
JPWO2014147699A1 (ja) 2017-02-16
US20150378810A1 (en) 2015-12-31

Similar Documents

Publication Publication Date Title
US8910172B2 (en) Application resource switchover systems and methods
US7882393B2 (en) In-band problem log data collection between a host system and a storage system
KR101944874B1 (ko) 오류 처리 방법, 관련 장치 및 컴퓨터
US8799709B2 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
JP4294353B2 (ja) ジョブ管理機能を有するストレージ系障害管理方法及び装置
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
US11157373B2 (en) Prioritized transfer of failure event log data
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
WO2015063889A1 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
JP5999254B2 (ja) 管理装置、方法及びプログラム
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
WO2013190694A1 (ja) 計算機の復旧方法、計算機システム及び記憶媒体
JP2018055481A (ja) ログ監視装置、ログ監視方法及びログ監視プログラム
US9317354B2 (en) Dynamically determining an external systems management application to report system errors
CN111104266A (zh) 访问资源的分配方法、装置、存储介质和电子设备
JP6114683B2 (ja) 処理要求読込転送装置、及び処理要求転送方法
US11734133B2 (en) Cluster system and fail-over control method of cluster system
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP6446285B2 (ja) マルチベンダサーバ機器のリモートログ収集システムおよび方法
JP6112205B2 (ja) 情報処理システム、装置、方法及びプログラム
JP5854130B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR100669153B1 (ko) 표준 관리 블럭에 기반을 둔 계층적 시스템 관리 시스템및 관리 방법
TWI602054B (zh) 用於電腦裝置的錯誤狀態資料提供方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13879050

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015506385

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13879050

Country of ref document: EP

Kind code of ref document: A1