JPWO2015194651A1 - 障害通知装置、障害通知方法及びプログラム - Google Patents

障害通知装置、障害通知方法及びプログラム Download PDF

Info

Publication number
JPWO2015194651A1
JPWO2015194651A1 JP2016529531A JP2016529531A JPWO2015194651A1 JP WO2015194651 A1 JPWO2015194651 A1 JP WO2015194651A1 JP 2016529531 A JP2016529531 A JP 2016529531A JP 2016529531 A JP2016529531 A JP 2016529531A JP WO2015194651 A1 JPWO2015194651 A1 JP WO2015194651A1
Authority
JP
Japan
Prior art keywords
unit
screen data
failure notification
failure
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016529531A
Other languages
English (en)
Other versions
JP6222759B2 (ja
Inventor
太一 平
太一 平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Fielding Ltd
Original Assignee
NEC Fielding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Fielding Ltd filed Critical NEC Fielding Ltd
Publication of JPWO2015194651A1 publication Critical patent/JPWO2015194651A1/ja
Application granted granted Critical
Publication of JP6222759B2 publication Critical patent/JP6222759B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

オペレーティングシステムの起動中に障害が発生した場合であっても、被監視対象装置の状態を的確に把握可能とする障害通知装置が望まれる。障害通知装置は、第1取得部と、通知部と、を備える。第1取得部は、被監視対象装置における障害検知を契機として、被監視対象装置が表示デバイスに表示する画面データを取得する。通知部は、取得された画面データが所定の期間に亘り変化しない場合に、取得された画面データから得られる情報を外部に通知する。

Description

(関連出願についての記載)
本発明は、日本国特許出願:特願2014−126807号(2014年6月20日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、障害通知装置、障害通知方法及びプログラムに関する。特に、表示デバイスを有する装置を被監視対象とする障害通知装置、障害通知方法及びプログラムに関する。
近年、コンピュータネットワークを基盤として様々な事業やサービスが行われており、コンピュータネットワークは社会的に重要なインフラとなっている。そのため、コンピュータネットワークを構成する各種装置(例えば、サーバ等)が正常に動作しているか否かを監視する重要性が増大している。
特許文献1において、確認対象装置との間の通信の断絶の原因及びその重大さを遠隔地で知ることができるようにするオペレーティングシステム(OS;Operating System)動作状態確認システムが開示されている。
特許文献2において、障害原因解析システムにおいて障害原因判定ルールの変更を検知し、迅速に修正するシステムが開示されている。
特開2012−038257号公報 特開2012−003713号公報
なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。
特許文献1及び2が開示するように、コンピュータシステムに生じた障害の検知を通知することや障害を迅速に回復するために、種々の対策や機能が実装されている。このような機能等は、システムを構成する装置間で協働して実現されることもあるし、コンピュータ装置単体で実現されることもある。
例えば、コンピュータが起動する際にはBIOS(Basic Input Output System)が起動し、コンピュータを構成するデバイスの初期化や状態確認を行うPOST(Power On Self Test)が行われることが多い。POSTが終了すると、OSが起動し、OSの持つ一機能としてハードウェア等に生じた障害(エラー)をイベントとして記憶するイベントログサービスが始まる。このような機能を有するコンピュータをシステムに組み込むことで、システム管理者はコンピュータに生じた障害を迅速に把握し、その対応をとることが可能となっている。
しかしながら、システム管理者がコンピュータに生じた障害を確認することが困難な場合もある。例えば、OSがイベントログを記憶できるようになるのはOS起動後である。従って、OSが起動する前には、イベントログの記憶はできない。即ち、POSTの終了後、OSの起動完了前(即ち、OSの起動中)にコンピュータに何らかの障害が発生した場合には、システム管理者はイベントログを入手できない。
そのため、上記の期間に生じた障害に関しては、障害を解析するための情報が少なく、システム管理者が被監視対象となっているコンピュータのシステム状態を的確に把握することが困難である。
本発明は、OSの起動中に障害が発生した場合であっても、被監視対象装置の状態を的確に把握可能とすることに寄与する障害通知装置、障害通知方法及びプログラムを提供することを目的とする。
本発明の第1の視点によれば、被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する第1取得部と、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する通知部と、を備える障害通知装置が提供される。
本発明の第2の視点によれば、被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する工程と、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する工程と、を含む障害通知方法が提供される。
本発明の第3の視点によれば、被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する処理と、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する処理と、を障害通知装置を制御するコンピュータに実行させるプログラムが提供される。
なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント(non-transient)なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。
本発明の各視点によれば、OSの起動中に障害が発生した場合であっても、被監視対象装置の状態を的確に把握可能とすることに寄与する障害通知装置、障害通知方法及びプログラムが、提供される。
一実施形態の概要を説明するための図である。 第1の実施形態に係る障害通知システムの全体構成の一例を示す図である。 ユーザコンピュータの内部構成の一例を示す図である。 障害通知装置の内部構成の一例を示す図である。 システムイベントログデータベースが記憶する情報の一例を示す図である。 エラー情報データベースが記憶する情報の一例を示す図である。 第1の実施形態に係る障害通知システムの動作の一例を示すシーケンス図である。
初めに、図1を用いて一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。
上述のように、OSの起動中に障害が発生した場合であっても、被監視対象装置の状態を的確に把握可能とする障害通知装置が望まれる。
そこで、一例として図1に示す障害通知装置100を提供する。障害通知装置100は、第1取得部101と、通知部102と、を備える。第1取得部101は、被監視対象装置における障害検知を契機として、被監視対象装置が表示デバイスに表示する画面データを取得する。通知部102は、取得された画面データが所定の期間に亘り変化しない場合に、取得された画面データから得られる情報を外部に通知する。
被監視対象装置(例えば、図2に示すユーザコンピュータ10)のOS起動中に障害が発生し、被監視対象装置がイベントログを生成できない状況であっても、液晶パネル等の表示デバイスには何からのメッセージが表示され続けているはずである。あるいは、OS起動中に動作不能状態(所謂、フリーズ状態)に陥っている場合には、被監視対象装置の画面表示は更新されないはずである。障害通知装置100は、このような被監視対象装置における画面表示の更新が止まったことを契機として、画面データから得られる情報を外部(例えば、図2の監視センタ)に通知する。その結果、例えば、監視センタでは、OS起動中にフリーズ状態に陥った被監視対象装置の存在を把握できる。
以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。
[第1の実施形態]
第1の実施形態について、図面を用いてより詳細に説明する。
図2は、第1の実施形態に係る障害通知システムの全体構成の一例を示す図である。図2を参照すると、障害通知システムは、ユーザコンピュータ10と、障害通知装置20と、受信端末30と、を含んで構成されている。
ユーザコンピュータ10と障害通知装置20は、インターネットやLAN(Local Area Network)等からなるネットワーク41を介して接続されている。同様に、障害通知装置20と受信端末30はネットワーク42を介して接続されている。
ユーザコンピュータ10は、障害通知システムにおける被監視対象となる装置である。ユーザコンピュータ10は、サーバ等の情報処理装置である。
障害通知装置20は、ユーザコンピュータ10の動作状況、障害発生状況を監視し、障害発生を契機として、ユーザコンピュータ10のシステム状態を監視センタに通知する装置である。また、ユーザコンピュータ10に生じた障害によっては、システム管理者による対応が必要となるため、障害通知装置20は必要に応じてシステム管理者による対応を必要とする旨を監視センタに通知する。
受信端末30は、監視センタ内に設置され、システム管理者等が使用する端末である。システム管理者は、受信端末30を介して得られるユーザコンピュータ10のシステム状態に応じて、適切な対応をとる。例えば、障害通知装置20からユーザコンピュータ10に生じた障害に対して何らかの対処が必要と通知された場合には、通知されるユーザコンピュータ10のシステム状態に応じた対応を行う。
図3は、ユーザコンピュータ10の内部構成の一例を示す図である。図3を参照すると、ユーザコンピュータ10は、制御部201と、記憶部202と、第1通信部203と、表示部204と、BMC部205と、第2通信部206と、を含んで構成される。
制御部201、記憶部202、第1通信部203、表示部204及びBMC部205は、それぞれバスを介して相互に接続されている。一方、第2通信部206は制御部201等とは接続されておらず、BMC部205に接続される。つまり、第2通信部206はBMC部205に対して設けられた専用の通信手段である。
制御部201は、CPU(Central Processing Unit)等のプロセッサにより構成され、ユーザコンピュータ10の全体を制御する手段である。制御部201は、記憶部202に記憶されたOSや各種アプリケーションに係るプログラムをCPUにて実行することで実現される。
記憶部202は、OS等のプログラムを記憶すると共に、制御部201の動作に必要な情報を記憶する。
第1通信部203は、制御部201が外部との通信に使用する手段である。例えば、ユーザコンピュータ10が図2には図示しないサーバ装置等にアクセスする場合には第1通信部203が使用される。
表示部204は、液晶パネル等の表示デバイスと、表示デバイスを駆動するためのドライバと、を含んで構成される。表示部204は、ユーザに対してユーザコンピュータ10が情報処理した結果を提供する手段である。
BMC部205は、制御部201とは独立して動作するプロセッサを含む制御手段である。BMC部205は、所謂BMC(Baseboard Management Controller)として動作する。BMC部205は、ユーザコンピュータ10を構成するハードウェアである制御部201や表示部204の状態を管理する。制御部201が主プロセッサにて構成されている場合に、BMC部205は副プロセッサにて構成されているといえる。
BMC部205は、ユーザコンピュータ10に発生したイベントをシステムイベントログ(SEL;System Event Log)として記憶部202に記憶する機能も有する。より具体的には、BMC部205はユーザコンピュータ10を構成するハードウェアに何からの障害が発生した場合に、システムイベントログを生成し、記憶部202に格納する。
第1の実施形態では、BMC部205と制御部201等とのインターフェイス仕様としてIPMI(Intelligent Platform Management Interface)規格を用いるものとして説明する。しかし、使用するインターフェイス規格を限定する趣旨ではなく、ユーザコンピュータ10のハードウェアを監視できる規格であればどのようなものでもよい。
BMC部205は、障害通知装置20からの要求に応じて、第2通信部206を介してユーザコンピュータ10に関する情報を障害通知装置20に送信する。BMC部205が、障害通知装置20に送信する情報には、少なくとも画面キャプチャデータとシステムイベントログが含まれる。
より具体的には、BMC部205は、表示部204から画面表示に係る画面データを取得し、当該画面データを画面キャプチャデータとして障害通知装置20に送信する。また、BMC部205は、記憶部202に格納されたシステムイベントログを読み出し、障害通知装置20に送信する。
図4は、障害通知装置20の内部構成の一例を示す図である。図4を参照すると、障害通知装置20は、制御部301と、記憶部302と、通信部303と、表示部304と、を含んで構成される。
制御部301、記憶部302、通信部303及び表示部304はそれぞれバスを介して相互に接続されている。
制御部301は、障害通知装置20の全体を制御する。制御部301は、通信部303を介してネットワークに接続されたユーザコンピュータ10や受信端末30と相互に通信する。制御部301は、表示部304を介してシステム管理者(又はオペレータ)に必要な情報を提供する。
また、制御部301は、ユーザコンピュータ10の動作状態を監視し、ユーザコンピュータ10に障害が発生した場合には、ユーザコンピュータ10のシステム状態とシステム管理者による対処の有無を監視センタの受信端末30に送信する機能を有する。なお、制御部301は、障害通知装置20に搭載されたコンピュータに、そのハードウェアを用いて、後に詳述する制御部301に含まれる各部の処理を実行させるコンピュータプログラムにより実現することもできる。
記憶部302は、制御部301の動作に必要な情報等を記憶する。また、記憶部302には、システムイベントログ(SEL)データベース401とエラー情報データベース402のデータベースが構築されている。さらに、記憶部302には、データを格納するデータ領域403も存在する。
制御部301は、動作状態監視部501と、画面キャプチャデータ取得部502と、システムイベントログ取得部503と、エラー情報取得管理部504と、エラー情報通知部505と、を含んで構成される。
動作状態監視部501は、ユーザコンピュータ10との間でピング(PING)コマンドに係るパケット等の通信を定期的に行い、ユーザコンピュータ10が正常に動作しているか否かを監視する。
画面キャプチャデータ取得部502は、ユーザコンピュータ10の動作確認の結果、ユーザコンピュータ10が正常に動作していないと判断する場合に、ユーザコンピュータ10の画面キャプチャデータを取得する。具体的には、画面キャプチャデータ取得部502は、ユーザコンピュータ10のBMC部205にアクセスし、画面キャプチャデータを取得する。
システムイベントログ取得部503は、ユーザコンピュータ10の動作確認の結果、ユーザコンピュータ10が正常に動作していないと判断する場合に、ユーザコンピュータ10のシステムイベントログを取得する。具体的には、システムイベントログ取得部503は、ユーザコンピュータ10のBMC部205にアクセスし、BMC部205を経由してシステムイベントログを取得する。
エラー情報取得管理部504は、画面キャプチャデータ取得部502により取得された画面キャプチャデータとシステムイベントログ取得部503により取得されたシステムイベントログに基づいて、これらのエラー情報の取得を継続するか停止するかを定める。即ち、エラー情報取得管理部504は、取得された画面キャプチャデータとシステムイベントログに基づき、画面キャプチャデータ取得部502とシステムイベントログ取得部503のデータ取得動作を管理する。
エラー情報取得管理部504は、取得されたシステムイベントログとシステムイベントログデータベース401に格納された情報とに基づき、エラー情報の取得を継続するか停止するかを判定する。さらに、エラー情報取得管理部504は、取得された画面キャプチャデータが所定の期間に亘り更新されているか否かに基づき、エラー情報の取得を継続するか停止するかを判定する。
エラー情報通知部505は、ユーザコンピュータ10に障害が発生した場合に、ユーザコンピュータ10のシステム状態を示す情報と、システム管理者による対処が必要か否かを示す情報と、を監視センタに通知する。具体的には、エラー情報通知部505は、ユーザコンピュータ10のシステム状態を示す情報として、取得した画面キャプチャデータやシステムイベントログを受信端末30に送信する。
システムイベントログデータベース401には、システムイベントログの取り得るデータ値ごとに、エラー情報の取得を継続するか否かと、システム管理者による対処の要否が予め登録されている。
図5は、システムイベントログデータベース401が記憶する情報の一例を示す図である。図5を参照すると、システムイベントログの取り得る値ごとに、エラー情報の取得を継続するのか停止するのか、及び、システム管理者による対処を必要とするのか否かが記憶されている。なお、図5に示す「Sensor Type」等と一緒に併記した括弧書きのバイト数は、IPMI仕様の「SEL Record Format」から得られる先頭からのバイト数である。例えば、「Sensor Type」はシステムイベントログの11バイト目を参照することで得ることができる。
エラー情報データベース402には、エラー発生時のメッセージごとに、エラー情報の取得を継続するか否かと、システム管理者による何らかの対処が必要となるか否かに関する情報が記憶されている。具体的には、エラー情報データベース402には障害発生時にユーザコンピュータ10の画面に表示されると予想されるエラーメッセージが文字列として予め登録されている。
図6は、エラー情報データベース402が記憶する情報の一例を示す図である。図6を参照すると、エラーメッセージごとに、エラー情報の取得を継続するか否かと、システム管理者により何らかの対処が必要となるか否かに関する情報が記憶されている。
次に、第1の実施形態に係る障害通知システムの動作について説明する。
図7は、第1の実施形態に係る障害通知システムの動作の一例を示すシーケンス図である。
ステップS101において、障害通知装置20は、ユーザコンピュータ10の動作状態の監視をする。具体的には、動作状態監視部501は、PINGコマンドによる「Echo Request」パケットをユーザコンピュータ10に向けて送信し、ユーザコンピュータ10の死活を確認する。
ユーザコンピュータ10が通常動作していれば、ユーザコンピュータ10は「Echo Reply」パケットを応答送信する(ステップS201)。
障害通知装置20は、ユーザコンピュータ10からの応答送信の受信有無を確認(ステップS102)し、応答送信を受信していればステップS101に係るパケット送信処理を繰り返す。つまり、ユーザコンピュータ10に障害が生じていなければ、障害通知装置20とユーザコンピュータ10はステップS101、S102とS201に係る動作を繰り返す。
次に、ユーザコンピュータ10に障害が発生した場合を考える。
この場合、ユーザコンピュータ10は障害通知装置20からの「Echo Request」パケットに対して応答送信ができない(ステップS102、No分岐)。そのため、障害通知装置20は、ステップS103以降の処理を実行する。動作状態監視部501は、PINGコマンドに対するユーザコンピュータ10から応答送信が確認できないことが確定した時点(PINGコマンドによる死活監視が途絶えた時点)でのタイムスタンプを記憶する。
なお、図7に示すシーケンス図には図示していないが、障害通知装置20はステップS102以降にユーザコンピュータ10に生じた障害が回復した場合に備えて、「Echo Request」に係るパケットを送信するものとする。
ステップS103において、障害通知装置20はユーザコンピュータ10の第2通信部206を介してBMC部205にアクセスする。
その後、ステップS104において、障害通知装置20はユーザコンピュータ10からエラー情報の取得を開始する。具体的には、画面キャプチャデータ取得部502はユーザコンピュータ10の画面キャプチャデータの取得を開始する。同様に、システムイベントログ取得部503はシステムイベントログの取得を開始する。
取得した画面キャプチャデータやシステムイベントログは、記憶部302のデータ領域403に格納される。
その後、エラー情報取得管理部504は、取得された(データ領域403に格納された)システムイベントログを、システムイベントログデータベース401に記憶された情報と照合確認する(ステップS105)。具体的には、エラー情報取得管理部504は、取得されたシステムイベントログの一部が、システムイベントログデータベース401に予め登録されたエラー情報取得の停止を示す値と一致するか否かを判定する。
判定の結果、取得されたシステムイベントログが、エラー情報取得の停止を指示するログであった場合には(ステップS105、Yes分岐)、ステップS110に移行する。
一方、判定の結果、取得されたシステムイベントログが、エラー情報取得の停止を指示するログでなければ(ステップS105、No分岐)、ステップS106以降の処理を実行する。
ステップS106において、動作状態監視部501は、ユーザコンピュータ10から応答送信の受信有無を確認(ステップS106)する。応答送信を受信している場合(ステップS106、Yes分岐)には、ステップS110に移行する。動作状態監視部501が、応答送信を受信していない場合(ステップS106、No分岐)には、ステップS107以降の処理が実行される。
ステップS107において、エラー情報取得管理部504は、画面キャプチャデータの更新有無を確認することで、ユーザコンピュータ10の画面変化があるか否かを判定する。つまり、障害通知装置20から、ユーザコンピュータ10上の画面表示の変化を監視する。
ユーザコンピュータ10に画面変化が認められる間は(ステップS107、Yes分岐)、ステップS106からの処理を繰り返す。
一方、所定の時間(例えば、1分間等)に渡って画面変化を確認できない場合(ステップS107、No分岐)には、ステップS108以降の処理が実行される。なお、画面キャプチャデータからなる画面の中に文字列が確認できない状態が続く場合も、ユーザコンピュータ10に画面変化が確認できないと判断される。また、画面変化の確認の有無には画面監視に係るアプリケーションが利用できる。
ステップS108において、エラー情報通知部505は、画面キャプチャデータからエラーメッセージを抽出する。具体的には、エラー情報通知部505は、文字認識に係るアプリケーション等を利用して、画面キャプチャデータに含まれるメッセージ(文字列)を抽出する。また、エラー情報通知部505は、データ領域403に記憶されているユーザコンピュータ10のシステムイベントログも抽出する。なお、エラー情報通知部505がエラー情報を抽出する期間は、PINGコマンドによる死活監視が途絶えた時点から本ステップまでの期間とする。
ステップS109において、エラー情報通知部505は、抽出したメッセージをエラー情報データベース402に記憶された情報と照合する。エラー情報通知部505は、このような照合処理により、監視センタに通知する情報(ユーザコンピュータ10のシステム状態に関する情報)を生成する。具体的には、エラー情報通知部505は、抽出したエラーメッセージに一致するメッセージがエラー情報データベース402に登録されていれば、当該登録された情報(文字列と対処の要否)を監視センタに通知する情報とする。一方、ユーザコンピュータ10の画面が所定の時間に亘り変化せず、エラー情報データベース402にも登録がないエラーメッセージ、あるいは、エラーメッセージ自体が表示されていない場合には、ユーザコンピュータ10のシステム状態はフリーズしていると考えられるので、エラー情報通知部505はその旨を監視センタに通知する情報とする。
ステップS110おいて、エラー情報取得管理部504は画面キャプチャデータ取得部502とシステムイベントログ取得部503に対してそれぞれのデータ取得動作の停止を指示する。
ステップS111において、エラー情報通知部505はユーザコンピュータ10のシステム状態を示す情報と、システム管理者による対処が必要か否かに係る情報と、を監視センタの受信端末30に送信する。
具体的には、取得されたシステムイベントログがシステムイベントログデータベース401にて記憶され、ログ取得の停止を示すログの場合には、当該取得されたシステムイベントログと画面キャプチャデータをユーザコンピュータ10のシステム状態として通知する。
また、ユーザコンピュータ10に障害が発生した場合であっても、ユーザコンピュータ10が正常に復帰(ステップS202)し、「Echo Reply」パケットの応答送信を行う場合(ステップS203)がある。このようにユーザコンピュータ10の動作状態が復帰した場合は、エラー情報通知部505は、ユーザコンピュータ10のOSが起動したものと判断し、画面のキャプチャを停止し、取得した画面キャプチャデータとシステムイベントログを監視センタに送信する。
さらに、ユーザコンピュータ10の画面表示が所定の期間に亘り停止している場合には、エラー情報通知部505は、画面キャプチャデータから抽出したエラーメッセージ、エラー情報データベース402に登録された情報、ユーザコンピュータ10がフリーズ状態にあることを示す情報のいずれかと、システムイベントログと、をシステム状態として監視センタに送信する。
監視センタの受信端末30はこれらの情報を受信する(ステップS301)。
このように、障害通知装置20は、ステップS105において取得したシステムイベントログの対処方法がシステムイベントログデータベース401にて確認できた場合には、既知の障害が発生したものと判断する。この場合には、障害通知装置20は、システムイベントログと画面キャプチャデータの取得を停止し、取得したこれらのデータを監視センタに送信する。
一方、システムイベントログとシステムイベントログデータベース401の情報との照合の結果、対処方法のない未知の問題と判断された場合には、画面キャプチャデータから得られるエラーメッセージとエラー情報データベース402の情報と照合が行われる。その際、ユーザコンピュータ10の画面表示が一定期間更新されない場合には、障害通知装置20はユーザコンピュータ10がフリーズ状態にある可能性を考慮し、その旨及び取得したシステムイベントログを監視センタに送信する。
なお、第1の実施形態に係る障害通知装置20等は例示であって種々の変形が可能である。例えば、第1の実施形態では障害通知装置20はユーザコンピュータ10のBMC部205が生成するシステムイベントログを取得する形態について説明した。しかし、障害通知装置20が取得するログの種別を限定する趣旨ではない。例えば、ユーザコンピュータ10に含まれる制御部201が、OSの起動前であってもユーザコンピュータ10を構成するハードウェアに生じた障害に関するログを採取し、記憶部202に格納できるのであれば、障害通知装置20はこのようなログも取得の対象としてもよい。
以上のように、第1の実施形態に係る障害通知装置20は、PINGコマンド等を用いてユーザコンピュータ10の死活を監視する。その際、ユーザコンピュータ10の動作が停止していると判断される場合には、ユーザコンピュータ10内のBMC部205にアクセスし、ハードウェア情報であるシステムイベントログと画面キャプチャデータを取得する。
さらに、ユーザコンピュータ10の画面が所定の期間に亘り変化していないと判断される場合には、障害通知装置20は、画面キャプチャデータからエラーメッセージを抽出し、ユーザコンピュータ10の障害発生を監視センタに通知する。あるいは、障害通知装置20は、ユーザコンピュータ10がフリーズしている可能性を監視センタに通知する。
その結果、第1の実施形態に係る障害通知装置20は、ユーザコンピュータ10に障害が発生し、OSの起動途中でフリーズしてしまうような場合であっても、システム状態に係る適切な情報をシステム管理者に提供できる。また、所定の期間が経過後には画面キャプチャデータやシステムイベントログの取得を行わないので、適切な期間に亘るエラー情報(画面キャプチャデータ、システムイベントログ)の取得が可能となる。また、画面キャプチャデータからのエラーメッセージとシステムイベントログを対応するデータベースの情報と照合することで、ユーザコンピュータ10のシステム状態を適切に判断できる。その結果、障害解析の精度を向上させることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
[付記1]
被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する第1取得部と、
前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する通知部と、
を備える障害通知装置。
[付記2]
前記被監視対象装置における障害検知を契機として、前記被監視対象装置が生成するログを取得する第2取得部をさらに備え、
前記通知部は、前記取得されたログを外部に通知する、付記1の障害通知装置。
[付記3]
前記取得された画面データとログに基づき、前記第1及び第2取得部のデータ取得動作を管理する管理部をさらに備える、付記2の障害通知装置。
[付記4]
前記管理部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記第1及び第2取得部のデータ取得動作を停止する、付記3の障害通知装置。
[付記5]
前記通知部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから抽出した文字列を外部に通知する、付記1乃至4のいずれか一に記載の障害通知装置。
[付記6]
前記管理部は、前記取得されたログの一部が予め定められた値と一致する場合に、前記第2取得部のデータ取得動作を停止する、付記3乃至5のいずれか一に記載の障害通知装置。
[付記7]
前記第1取得部は、前記被監視対象装置に含まれるプロセッサであって、オペレーティングシステムを動作させる主プロセッサとは独立して動作する副プロセッサから、前記画面データを取得し、
前記第2取得部は、前記副プロセッサから前記ログを取得する、付記2乃至6のいずれか一に記載の障害通知装置。
[付記8]
前記被監視対象装置の動作状態を、前記被監視対象装置に対して所定のパケットを送信し、前記被監視対象装置からの応答の有無に基づき監視する、監視部をさらに備える付記1乃至7のいずれか一に記載の障害通知装置。
[付記9]
被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する工程と、
前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する工程と、
を含む障害通知方法。
[付記10]
被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する処理と、
前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する処理と、
を障害通知装置を制御するコンピュータに実行させるプログラム。
なお、付記9及び付記10に係る形態は、付記1の形態と同様に、付記2〜付記8に係る形態に展開することが可能である。
なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
10 ユーザコンピュータ
20、100 障害通知装置
30 受信端末
41、42 ネットワーク
101 第1取得部
102 通知部
201、301 制御部
202、302 記憶部
203 第1通信部
204、304 表示部
205 BMC(Baseboard Management Controller)部
206 第2通信部
303 通信部
401 システムイベントログ(SEL;System Event Log)データベース
402 エラー情報データベース
403 データ領域
501 動作状態監視部
502 画面キャプチャデータ取得部
503 システムイベントログ取得部
504 エラー情報取得管理部
505 エラー情報通知部

Claims (10)

  1. 被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する第1取得部と、
    前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する通知部と、
    を備える障害通知装置。
  2. 前記被監視対象装置における障害検知を契機として、前記被監視対象装置が生成するログを取得する第2取得部をさらに備え、
    前記通知部は、前記取得されたログを外部に通知する、請求項1の障害通知装置。
  3. 前記取得された画面データとログに基づき、前記第1及び第2取得部のデータ取得動作を管理する管理部をさらに備える、請求項2の障害通知装置。
  4. 前記管理部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記第1及び第2取得部のデータ取得動作を停止する、請求項3の障害通知装置。
  5. 前記通知部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから抽出した文字列を外部に通知する、請求項1乃至4のいずれか一項に記載の障害通知装置。
  6. 前記管理部は、前記取得されたログの一部が予め定められた値と一致する場合に、前記第2取得部のデータ取得動作を停止する、請求項3乃至5のいずれか一項に記載の障害通知装置。
  7. 前記第1取得部は、前記被監視対象装置に含まれるプロセッサであって、オペレーティングシステムを動作させる主プロセッサとは独立して動作する副プロセッサから、前記画面データを取得し、
    前記第2取得部は、前記副プロセッサから前記ログを取得する、請求項2乃至6のいずれか一項に記載の障害通知装置。
  8. 前記被監視対象装置の動作状態を、前記被監視対象装置に対して所定のパケットを送信し、前記被監視対象装置からの応答の有無に基づき監視する、監視部をさらに備える請求項1乃至7のいずれか一項に記載の障害通知装置。
  9. 被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する工程と、
    前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する工程と、
    を含む障害通知方法。
  10. 被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する処理と、
    前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する処理と、
    を障害通知装置を制御するコンピュータに実行させるプログラム。
JP2016529531A 2014-06-20 2015-06-18 障害通知装置、障害通知方法及びプログラム Active JP6222759B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014126807 2014-06-20
JP2014126807 2014-06-20
PCT/JP2015/067670 WO2015194651A1 (ja) 2014-06-20 2015-06-18 障害通知装置、障害通知方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015194651A1 true JPWO2015194651A1 (ja) 2017-04-27
JP6222759B2 JP6222759B2 (ja) 2017-11-01

Family

ID=54935627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016529531A Active JP6222759B2 (ja) 2014-06-20 2015-06-18 障害通知装置、障害通知方法及びプログラム

Country Status (3)

Country Link
JP (1) JP6222759B2 (ja)
CN (1) CN106133699A (ja)
WO (1) WO2015194651A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6863920B2 (ja) * 2018-03-22 2021-04-21 Necプラットフォームズ株式会社 サーバ、サーバ管理システム、サーバの保守方法、およびサーバのプログラム
CN109254863A (zh) * 2018-08-30 2019-01-22 郑州云海信息技术有限公司 一种记录系统事件日志的方法、装置及受控终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116254A (ja) * 1996-08-16 1998-05-06 Compaq Computer Corp 分散型のコンピュータ・システム
JP2006065659A (ja) * 2004-08-27 2006-03-09 Fujitsu Ltd コンピュータ動作記録プログラム、コンピュータ動作解決プログラム、コンピュータ、管理装置、および方法
JP2010039519A (ja) * 2008-07-31 2010-02-18 Japan Digital Laboratory Co Ltd エラー通知方法、情報処理装置および通信システム
US20120137180A1 (en) * 2010-11-29 2012-05-31 Hon Hai Precision Industry Co., Ltd. Computing device and system error detection method
JP2013206073A (ja) * 2012-03-28 2013-10-07 Nec Corp ネットワーク管理システム、ネットワーク管理方法、ネットワーク監視システム、及び、ネットワーク管理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489460A (zh) * 2012-06-11 2014-01-01 鸿富锦精密工业(深圳)有限公司 测试装置及测试方法
CN102736970A (zh) * 2012-06-29 2012-10-17 浪潮电子信息产业股份有限公司 一种操作系统活动状态的监控方法
CN103617108A (zh) * 2013-12-17 2014-03-05 昆山中创软件工程有限责任公司 一种计算机设备运行状态的监测方法及装置
CN103810106A (zh) * 2014-03-06 2014-05-21 安一恒通(北京)科技有限公司 一种测试界面流畅度的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116254A (ja) * 1996-08-16 1998-05-06 Compaq Computer Corp 分散型のコンピュータ・システム
JP2006065659A (ja) * 2004-08-27 2006-03-09 Fujitsu Ltd コンピュータ動作記録プログラム、コンピュータ動作解決プログラム、コンピュータ、管理装置、および方法
JP2010039519A (ja) * 2008-07-31 2010-02-18 Japan Digital Laboratory Co Ltd エラー通知方法、情報処理装置および通信システム
US20120137180A1 (en) * 2010-11-29 2012-05-31 Hon Hai Precision Industry Co., Ltd. Computing device and system error detection method
JP2013206073A (ja) * 2012-03-28 2013-10-07 Nec Corp ネットワーク管理システム、ネットワーク管理方法、ネットワーク監視システム、及び、ネットワーク管理プログラム

Also Published As

Publication number Publication date
CN106133699A (zh) 2016-11-16
WO2015194651A1 (ja) 2015-12-23
JP6222759B2 (ja) 2017-11-01

Similar Documents

Publication Publication Date Title
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US20140032173A1 (en) Information processing apparatus, and monitoring method
EP2541418B1 (en) Method for increasing reliability in monitoring systems
JP6160171B2 (ja) 情報処理装置、制御方法、プログラム、及び情報処理システム
JP5617304B2 (ja) スイッチング装置、情報処理装置および障害通知制御プログラム
US10880153B2 (en) Method and system for providing service redundancy between a master server and a slave server
US10069988B2 (en) Image forming apparatus, computer readable recording medium stored with computer program for controlling image forming apparatus, and method for controlling image forming apparatus
US10664335B2 (en) System and method for maintaining the health of a machine
US9461879B2 (en) Apparatus and method for system error monitoring
JP6222759B2 (ja) 障害通知装置、障害通知方法及びプログラム
US9935867B2 (en) Diagnostic service for devices that employ a device agent
US7877646B2 (en) Method and system for monitoring a computing device
JP5623449B2 (ja) 報告書作成装置、報告書作成プログラムおよび報告書作成方法
JP2017207903A (ja) 処理装置、方法及びプログラム
US11487623B2 (en) Information processing system
US9880855B2 (en) Start-up control program, device, and method
JP6488600B2 (ja) 情報処理システム、プログラム及び情報処理装置
JP2010003132A (ja) 情報処理装置、その入出力装置の故障検出方法及びプログラム
JP5268820B2 (ja) 監視装置用プログラムの書き換え方法
US11442812B2 (en) System and method
JP6674916B2 (ja) 通信障害管理装置、及び通信システム
JP2024061405A (ja) 監視装置、管理装置、通信システム、および復旧方法
JP2020004323A (ja) クライアントサーバーシステム、クライアント、サーバー及びプログラム
JP2022044844A (ja) 監視システムおよび監視プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170928

R150 Certificate of patent or registration of utility model

Ref document number: 6222759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150