WO2015194651A1 - Malfunction notification apparatus, malfunction notification method, and program - Google Patents

Malfunction notification apparatus, malfunction notification method, and program Download PDF

Info

Publication number
WO2015194651A1
WO2015194651A1 PCT/JP2015/067670 JP2015067670W WO2015194651A1 WO 2015194651 A1 WO2015194651 A1 WO 2015194651A1 JP 2015067670 W JP2015067670 W JP 2015067670W WO 2015194651 A1 WO2015194651 A1 WO 2015194651A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
screen data
failure notification
failure
acquired
Prior art date
Application number
PCT/JP2015/067670
Other languages
French (fr)
Japanese (ja)
Inventor
太一 平
Original Assignee
Necフィールディング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necフィールディング株式会社 filed Critical Necフィールディング株式会社
Priority to CN201580015065.6A priority Critical patent/CN106133699A/en
Priority to JP2016529531A priority patent/JP6222759B2/en
Publication of WO2015194651A1 publication Critical patent/WO2015194651A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Definitions

  • the OS can store the event log after the OS is started. Therefore, the event log cannot be stored before the OS is started. In other words, if any failure occurs in the computer after the end of POST and before the completion of OS startup (that is, during OS startup), the system administrator cannot obtain the event log.
  • step S111 the error information notification unit 505 transmits information indicating the system state of the user computer 10 and information regarding whether or not a system administrator needs to deal with to the receiving terminal 30 of the monitoring center.
  • the failure notification device 20 determines that a known failure has occurred when the system event log database 401 can confirm the handling method of the system event log acquired in step S105. In this case, the failure notification device 20 stops the acquisition of the system event log and the screen capture data, and transmits the acquired data to the monitoring center.

Abstract

A malfunction notification apparatus that makes it possible to accurately ascertain the status of an apparatus being monitored even if a malfunction occurs while an operating system is running is desired. This malfunction notification apparatus comprises a first acquisition unit and a notification unit. If a malfunction is detected in an apparatus being monitored, the first acquisition unit acquires screen data that the apparatus being monitored is displaying on a display device. If the acquired screen data does not change for a prescribed length of time, the notification unit provides, to the outside, a notification of information obtained from said screen data.

Description

障害通知装置、障害通知方法及びプログラムFailure notification device, failure notification method and program
 (関連出願についての記載)
 本発明は、日本国特許出願:特願2014-126807号(2014年6月20日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
 本発明は、障害通知装置、障害通知方法及びプログラムに関する。特に、表示デバイスを有する装置を被監視対象とする障害通知装置、障害通知方法及びプログラムに関する。
(Description of related applications)
The present invention is based on the priority claim of Japanese patent application: Japanese Patent Application No. 2014-126807 (filed on June 20, 2014), the entire description of which is incorporated herein by reference. Shall.
The present invention relates to a failure notification device, a failure notification method, and a program. In particular, the present invention relates to a failure notification device, a failure notification method, and a program that target a device having a display device.
 近年、コンピュータネットワークを基盤として様々な事業やサービスが行われており、コンピュータネットワークは社会的に重要なインフラとなっている。そのため、コンピュータネットワークを構成する各種装置(例えば、サーバ等)が正常に動作しているか否かを監視する重要性が増大している。 In recent years, various businesses and services have been carried out based on computer networks, and computer networks have become a socially important infrastructure. For this reason, the importance of monitoring whether or not various devices (for example, servers) constituting the computer network are operating normally is increasing.
 特許文献1において、確認対象装置との間の通信の断絶の原因及びその重大さを遠隔地で知ることができるようにするオペレーティングシステム(OS;Operating System)動作状態確認システムが開示されている。 Patent Document 1 discloses an operating system (OS) operating state confirmation system that enables a remote location to know the cause and severity of communication interruption with a device to be confirmed.
 特許文献2において、障害原因解析システムにおいて障害原因判定ルールの変更を検知し、迅速に修正するシステムが開示されている。 Patent Document 2 discloses a system for detecting and quickly correcting a change in a failure cause determination rule in a failure cause analysis system.
特開2012-038257号公報JP 2012-038257 A 特開2012-003713号公報JP 2012-003713 A
 なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。 It should be noted that the disclosures of the above prior art documents are incorporated herein by reference. The following analysis was made by the present inventors.
 特許文献1及び2が開示するように、コンピュータシステムに生じた障害の検知を通知することや障害を迅速に回復するために、種々の対策や機能が実装されている。このような機能等は、システムを構成する装置間で協働して実現されることもあるし、コンピュータ装置単体で実現されることもある。 As disclosed in Patent Documents 1 and 2, various measures and functions are implemented in order to notify the detection of a failure that has occurred in a computer system and to quickly recover from the failure. Such functions and the like may be realized by cooperation between devices constituting the system, or may be realized by a single computer device.
 例えば、コンピュータが起動する際にはBIOS(Basic Input Output System)が起動し、コンピュータを構成するデバイスの初期化や状態確認を行うPOST(Power On Self Test)が行われることが多い。POSTが終了すると、OSが起動し、OSの持つ一機能としてハードウェア等に生じた障害(エラー)をイベントとして記憶するイベントログサービスが始まる。このような機能を有するコンピュータをシステムに組み込むことで、システム管理者はコンピュータに生じた障害を迅速に把握し、その対応をとることが可能となっている。 For example, when the computer starts up, BIOS (Basic Input Output System) is often started, and POST (Power On Self Test) is performed to initialize and check the status of devices constituting the computer. When POST ends, the OS is started, and an event log service for storing a failure (error) generated in hardware or the like as an event as one function of the OS is started. By incorporating a computer having such a function into the system, a system administrator can quickly grasp a failure that has occurred in the computer and take action accordingly.
 しかしながら、システム管理者がコンピュータに生じた障害を確認することが困難な場合もある。例えば、OSがイベントログを記憶できるようになるのはOS起動後である。従って、OSが起動する前には、イベントログの記憶はできない。即ち、POSTの終了後、OSの起動完了前(即ち、OSの起動中)にコンピュータに何らかの障害が発生した場合には、システム管理者はイベントログを入手できない。 However, there are cases where it is difficult for the system administrator to confirm a failure that has occurred in the computer. For example, the OS can store the event log after the OS is started. Therefore, the event log cannot be stored before the OS is started. In other words, if any failure occurs in the computer after the end of POST and before the completion of OS startup (that is, during OS startup), the system administrator cannot obtain the event log.
 そのため、上記の期間に生じた障害に関しては、障害を解析するための情報が少なく、システム管理者が被監視対象となっているコンピュータのシステム状態を的確に把握することが困難である。 Therefore, regarding the failure that occurred during the above period, there is little information for analyzing the failure, and it is difficult for the system administrator to accurately grasp the system status of the computer to be monitored.
 本発明は、OSの起動中に障害が発生した場合であっても、被監視対象装置の状態を的確に把握可能とすることに寄与する障害通知装置、障害通知方法及びプログラムを提供することを目的とする。 The present invention provides a failure notification device, a failure notification method, and a program that contribute to making it possible to accurately grasp the state of a monitored device even when a failure occurs during OS startup. Objective.
 本発明の第1の視点によれば、被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する第1取得部と、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する通知部と、を備える障害通知装置が提供される。 According to a first aspect of the present invention, a first acquisition unit that acquires screen data that the monitored device displays on a display device triggered by a failure detection in the monitored device, and the acquired screen data A failure notification device is provided that includes a notification unit that notifies the information obtained from the acquired screen data to the outside when the value does not change over a predetermined period.
 本発明の第2の視点によれば、被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する工程と、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する工程と、を含む障害通知方法が提供される。 According to the second aspect of the present invention, triggered by the failure detection in the monitored device, the screen data displayed on the display device by the monitored device is acquired, and the acquired screen data is a predetermined value. And a step of notifying information obtained from the acquired screen data to the outside when there is no change over a period of time.
 本発明の第3の視点によれば、被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する処理と、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する処理と、を障害通知装置を制御するコンピュータに実行させるプログラムが提供される。
 なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント(non-transient)なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。
According to the third aspect of the present invention, triggered by the failure detection in the monitored apparatus, the process for acquiring the screen data displayed on the display device by the monitored apparatus, and the acquired screen data is predetermined. There is provided a program for causing a computer that controls a failure notification device to execute a process of notifying information obtained from the acquired screen data to the outside when there is no change over a period of time.
This program can be recorded on a computer-readable storage medium. The storage medium may be non-transient such as a semiconductor memory, a hard disk, a magnetic recording medium, an optical recording medium, or the like. The present invention can also be embodied as a computer program product.
 本発明の各視点によれば、OSの起動中に障害が発生した場合であっても、被監視対象装置の状態を的確に把握可能とすることに寄与する障害通知装置、障害通知方法及びプログラムが、提供される。 According to each aspect of the present invention, even when a failure occurs during OS startup, a failure notification device, a failure notification method, and a program that contribute to making it possible to accurately grasp the state of the monitored device Is provided.
一実施形態の概要を説明するための図である。It is a figure for demonstrating the outline | summary of one Embodiment. 第1の実施形態に係る障害通知システムの全体構成の一例を示す図である。It is a figure which shows an example of the whole structure of the failure notification system which concerns on 1st Embodiment. ユーザコンピュータの内部構成の一例を示す図である。It is a figure which shows an example of an internal structure of a user computer. 障害通知装置の内部構成の一例を示す図である。It is a figure which shows an example of an internal structure of a failure notification apparatus. システムイベントログデータベースが記憶する情報の一例を示す図である。It is a figure which shows an example of the information which a system event log database memorize | stores. エラー情報データベースが記憶する情報の一例を示す図である。It is a figure which shows an example of the information which an error information database memorize | stores. 第1の実施形態に係る障害通知システムの動作の一例を示すシーケンス図である。It is a sequence diagram which shows an example of operation | movement of the failure notification system which concerns on 1st Embodiment.
 初めに、図1を用いて一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。 First, an outline of an embodiment will be described with reference to FIG. Note that the reference numerals of the drawings attached to the outline are attached to the respective elements for convenience as an example for facilitating understanding, and the description of the outline is not intended to be any limitation.
 上述のように、OSの起動中に障害が発生した場合であっても、被監視対象装置の状態を的確に把握可能とする障害通知装置が望まれる。 As described above, there is a demand for a failure notification device that can accurately grasp the state of a monitored device even when a failure occurs during OS startup.
 そこで、一例として図1に示す障害通知装置100を提供する。障害通知装置100は、第1取得部101と、通知部102と、を備える。第1取得部101は、被監視対象装置における障害検知を契機として、被監視対象装置が表示デバイスに表示する画面データを取得する。通知部102は、取得された画面データが所定の期間に亘り変化しない場合に、取得された画面データから得られる情報を外部に通知する。 Therefore, the failure notification apparatus 100 shown in FIG. 1 is provided as an example. The failure notification device 100 includes a first acquisition unit 101 and a notification unit 102. The first acquisition unit 101 acquires screen data that the monitored device displays on the display device when a failure is detected in the monitored device. The notification unit 102 notifies information obtained from the acquired screen data to the outside when the acquired screen data does not change over a predetermined period.
 被監視対象装置(例えば、図2に示すユーザコンピュータ10)のOS起動中に障害が発生し、被監視対象装置がイベントログを生成できない状況であっても、液晶パネル等の表示デバイスには何からのメッセージが表示され続けているはずである。あるいは、OS起動中に動作不能状態(所謂、フリーズ状態)に陥っている場合には、被監視対象装置の画面表示は更新されないはずである。障害通知装置100は、このような被監視対象装置における画面表示の更新が止まったことを契機として、画面データから得られる情報を外部(例えば、図2の監視センタ)に通知する。その結果、例えば、監視センタでは、OS起動中にフリーズ状態に陥った被監視対象装置の存在を把握できる。 Even if a failure occurs while the OS of the monitored device (for example, the user computer 10 shown in FIG. 2) is activated and the monitored device cannot generate an event log, the display device such as a liquid crystal panel does not The message from should continue to be displayed. Alternatively, when the OS is in an inoperable state (so-called freeze state) while the OS is starting up, the screen display of the monitored device should not be updated. The failure notification device 100 notifies the outside (for example, the monitoring center in FIG. 2) of information obtained from the screen data when the update of the screen display in the monitored device is stopped. As a result, for example, in the monitoring center, it is possible to grasp the existence of the monitoring target device that has fallen into a frozen state during OS startup.
 以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。 Hereinafter, specific embodiments will be described in more detail with reference to the drawings.
[第1の実施形態]
 第1の実施形態について、図面を用いてより詳細に説明する。
[First Embodiment]
The first embodiment will be described in more detail with reference to the drawings.
 図2は、第1の実施形態に係る障害通知システムの全体構成の一例を示す図である。図2を参照すると、障害通知システムは、ユーザコンピュータ10と、障害通知装置20と、受信端末30と、を含んで構成されている。 FIG. 2 is a diagram illustrating an example of the overall configuration of the failure notification system according to the first embodiment. Referring to FIG. 2, the failure notification system includes a user computer 10, a failure notification device 20, and a receiving terminal 30.
 ユーザコンピュータ10と障害通知装置20は、インターネットやLAN(Local Area Network)等からなるネットワーク41を介して接続されている。同様に、障害通知装置20と受信端末30はネットワーク42を介して接続されている。 The user computer 10 and the failure notification device 20 are connected via a network 41 such as the Internet or a LAN (Local Area Network). Similarly, the failure notification device 20 and the receiving terminal 30 are connected via a network 42.
 ユーザコンピュータ10は、障害通知システムにおける被監視対象となる装置である。ユーザコンピュータ10は、サーバ等の情報処理装置である。 The user computer 10 is a device to be monitored in the failure notification system. The user computer 10 is an information processing apparatus such as a server.
 障害通知装置20は、ユーザコンピュータ10の動作状況、障害発生状況を監視し、障害発生を契機として、ユーザコンピュータ10のシステム状態を監視センタに通知する装置である。また、ユーザコンピュータ10に生じた障害によっては、システム管理者による対応が必要となるため、障害通知装置20は必要に応じてシステム管理者による対応を必要とする旨を監視センタに通知する。 The failure notification device 20 is a device that monitors the operation status and failure occurrence status of the user computer 10 and notifies the monitoring center of the system status of the user computer 10 when the failure occurs. In addition, since a response from the system administrator is required depending on a failure that has occurred in the user computer 10, the failure notification device 20 notifies the monitoring center that a response from the system administrator is required if necessary.
 受信端末30は、監視センタ内に設置され、システム管理者等が使用する端末である。システム管理者は、受信端末30を介して得られるユーザコンピュータ10のシステム状態に応じて、適切な対応をとる。例えば、障害通知装置20からユーザコンピュータ10に生じた障害に対して何らかの対処が必要と通知された場合には、通知されるユーザコンピュータ10のシステム状態に応じた対応を行う。 The receiving terminal 30 is a terminal installed in the monitoring center and used by a system administrator or the like. The system administrator takes appropriate measures according to the system state of the user computer 10 obtained via the receiving terminal 30. For example, when the failure notification device 20 notifies the user computer 10 that some kind of countermeasure is required, a response corresponding to the notified system status of the user computer 10 is performed.
 図3は、ユーザコンピュータ10の内部構成の一例を示す図である。図3を参照すると、ユーザコンピュータ10は、制御部201と、記憶部202と、第1通信部203と、表示部204と、BMC部205と、第2通信部206と、を含んで構成される。 FIG. 3 is a diagram illustrating an example of the internal configuration of the user computer 10. Referring to FIG. 3, the user computer 10 includes a control unit 201, a storage unit 202, a first communication unit 203, a display unit 204, a BMC unit 205, and a second communication unit 206. The
 制御部201、記憶部202、第1通信部203、表示部204及びBMC部205は、それぞれバスを介して相互に接続されている。一方、第2通信部206は制御部201等とは接続されておらず、BMC部205に接続される。つまり、第2通信部206はBMC部205に対して設けられた専用の通信手段である。 The control unit 201, the storage unit 202, the first communication unit 203, the display unit 204, and the BMC unit 205 are connected to each other via a bus. On the other hand, the second communication unit 206 is not connected to the control unit 201 or the like, and is connected to the BMC unit 205. That is, the second communication unit 206 is a dedicated communication unit provided for the BMC unit 205.
 制御部201は、CPU(Central Processing Unit)等のプロセッサにより構成され、ユーザコンピュータ10の全体を制御する手段である。制御部201は、記憶部202に記憶されたOSや各種アプリケーションに係るプログラムをCPUにて実行することで実現される。 The control unit 201 is configured by a processor such as a CPU (Central Processing Unit) and is a means for controlling the entire user computer 10. The control unit 201 is realized by executing programs related to the OS and various applications stored in the storage unit 202 by the CPU.
 記憶部202は、OS等のプログラムを記憶すると共に、制御部201の動作に必要な情報を記憶する。 The storage unit 202 stores programs such as an OS and information necessary for the operation of the control unit 201.
 第1通信部203は、制御部201が外部との通信に使用する手段である。例えば、ユーザコンピュータ10が図2には図示しないサーバ装置等にアクセスする場合には第1通信部203が使用される。 The first communication unit 203 is a means used by the control unit 201 for communication with the outside. For example, when the user computer 10 accesses a server device or the like (not shown in FIG. 2), the first communication unit 203 is used.
 表示部204は、液晶パネル等の表示デバイスと、表示デバイスを駆動するためのドライバと、を含んで構成される。表示部204は、ユーザに対してユーザコンピュータ10が情報処理した結果を提供する手段である。 The display unit 204 includes a display device such as a liquid crystal panel and a driver for driving the display device. The display unit 204 is a means for providing a result of information processing performed by the user computer 10 to the user.
 BMC部205は、制御部201とは独立して動作するプロセッサを含む制御手段である。BMC部205は、所謂BMC(Baseboard Management Controller)として動作する。BMC部205は、ユーザコンピュータ10を構成するハードウェアである制御部201や表示部204の状態を管理する。制御部201が主プロセッサにて構成されている場合に、BMC部205は副プロセッサにて構成されているといえる。 The BMC unit 205 is a control unit including a processor that operates independently of the control unit 201. The BMC unit 205 operates as a so-called BMC (Baseboard Management Controller). The BMC unit 205 manages the states of the control unit 201 and the display unit 204 that are hardware constituting the user computer 10. When the control unit 201 is configured by a main processor, it can be said that the BMC unit 205 is configured by a sub processor.
 BMC部205は、ユーザコンピュータ10に発生したイベントをシステムイベントログ(SEL;System Event Log)として記憶部202に記憶する機能も有する。より具体的には、BMC部205はユーザコンピュータ10を構成するハードウェアに何からの障害が発生した場合に、システムイベントログを生成し、記憶部202に格納する。 The BMC unit 205 also has a function of storing events generated in the user computer 10 in the storage unit 202 as a system event log (SEL). More specifically, the BMC unit 205 generates a system event log and stores it in the storage unit 202 when a failure occurs in the hardware constituting the user computer 10.
 第1の実施形態では、BMC部205と制御部201等とのインターフェイス仕様としてIPMI(Intelligent Platform Management Interface)規格を用いるものとして説明する。しかし、使用するインターフェイス規格を限定する趣旨ではなく、ユーザコンピュータ10のハードウェアを監視できる規格であればどのようなものでもよい。 In the first embodiment, description will be made assuming that the IPMI (Intelligent Platform Management Interface) standard is used as the interface specification between the BMC unit 205 and the control unit 201. However, it is not intended to limit the interface standard to be used, and any standard that can monitor the hardware of the user computer 10 may be used.
 BMC部205は、障害通知装置20からの要求に応じて、第2通信部206を介してユーザコンピュータ10に関する情報を障害通知装置20に送信する。BMC部205が、障害通知装置20に送信する情報には、少なくとも画面キャプチャデータとシステムイベントログが含まれる。 The BMC unit 205 transmits information regarding the user computer 10 to the failure notification device 20 via the second communication unit 206 in response to a request from the failure notification device 20. Information transmitted from the BMC unit 205 to the failure notification device 20 includes at least screen capture data and a system event log.
 より具体的には、BMC部205は、表示部204から画面表示に係る画面データを取得し、当該画面データを画面キャプチャデータとして障害通知装置20に送信する。また、BMC部205は、記憶部202に格納されたシステムイベントログを読み出し、障害通知装置20に送信する。 More specifically, the BMC unit 205 acquires screen data related to screen display from the display unit 204 and transmits the screen data to the failure notification device 20 as screen capture data. Further, the BMC unit 205 reads the system event log stored in the storage unit 202 and transmits it to the failure notification device 20.
 図4は、障害通知装置20の内部構成の一例を示す図である。図4を参照すると、障害通知装置20は、制御部301と、記憶部302と、通信部303と、表示部304と、を含んで構成される。 FIG. 4 is a diagram illustrating an example of the internal configuration of the failure notification device 20. Referring to FIG. 4, the failure notification device 20 includes a control unit 301, a storage unit 302, a communication unit 303, and a display unit 304.
 制御部301、記憶部302、通信部303及び表示部304はそれぞれバスを介して相互に接続されている。 The control unit 301, the storage unit 302, the communication unit 303, and the display unit 304 are connected to each other via a bus.
 制御部301は、障害通知装置20の全体を制御する。制御部301は、通信部303を介してネットワークに接続されたユーザコンピュータ10や受信端末30と相互に通信する。制御部301は、表示部304を介してシステム管理者(又はオペレータ)に必要な情報を提供する。 The control unit 301 controls the entire failure notification device 20. The control unit 301 communicates with the user computer 10 and the receiving terminal 30 connected to the network via the communication unit 303. The control unit 301 provides necessary information to the system administrator (or operator) via the display unit 304.
 また、制御部301は、ユーザコンピュータ10の動作状態を監視し、ユーザコンピュータ10に障害が発生した場合には、ユーザコンピュータ10のシステム状態とシステム管理者による対処の有無を監視センタの受信端末30に送信する機能を有する。なお、制御部301は、障害通知装置20に搭載されたコンピュータに、そのハードウェアを用いて、後に詳述する制御部301に含まれる各部の処理を実行させるコンピュータプログラムにより実現することもできる。 In addition, the control unit 301 monitors the operating state of the user computer 10, and when a failure occurs in the user computer 10, the control unit 301 determines the system state of the user computer 10 and whether or not the system administrator has taken action. It has the function to transmit to. The control unit 301 can also be realized by a computer program that causes a computer mounted on the failure notification apparatus 20 to execute processing of each unit included in the control unit 301 described in detail later using the hardware thereof.
 記憶部302は、制御部301の動作に必要な情報等を記憶する。また、記憶部302には、システムイベントログ(SEL)データベース401とエラー情報データベース402のデータベースが構築されている。さらに、記憶部302には、データを格納するデータ領域403も存在する。 The storage unit 302 stores information necessary for the operation of the control unit 301. In the storage unit 302, a system event log (SEL) database 401 and an error information database 402 are constructed. Further, the storage unit 302 also has a data area 403 for storing data.
 制御部301は、動作状態監視部501と、画面キャプチャデータ取得部502と、システムイベントログ取得部503と、エラー情報取得管理部504と、エラー情報通知部505と、を含んで構成される。 The control unit 301 includes an operation state monitoring unit 501, a screen capture data acquisition unit 502, a system event log acquisition unit 503, an error information acquisition management unit 504, and an error information notification unit 505.
 動作状態監視部501は、ユーザコンピュータ10との間でピング(PING)コマンドに係るパケット等の通信を定期的に行い、ユーザコンピュータ10が正常に動作しているか否かを監視する。 The operation state monitoring unit 501 periodically performs communication such as a packet related to a ping (PING) command with the user computer 10 to monitor whether the user computer 10 is operating normally.
 画面キャプチャデータ取得部502は、ユーザコンピュータ10の動作確認の結果、ユーザコンピュータ10が正常に動作していないと判断する場合に、ユーザコンピュータ10の画面キャプチャデータを取得する。具体的には、画面キャプチャデータ取得部502は、ユーザコンピュータ10のBMC部205にアクセスし、画面キャプチャデータを取得する。 The screen capture data acquisition unit 502 acquires the screen capture data of the user computer 10 when determining that the user computer 10 is not operating normally as a result of the operation check of the user computer 10. Specifically, the screen capture data acquisition unit 502 accesses the BMC unit 205 of the user computer 10 and acquires screen capture data.
 システムイベントログ取得部503は、ユーザコンピュータ10の動作確認の結果、ユーザコンピュータ10が正常に動作していないと判断する場合に、ユーザコンピュータ10のシステムイベントログを取得する。具体的には、システムイベントログ取得部503は、ユーザコンピュータ10のBMC部205にアクセスし、BMC部205を経由してシステムイベントログを取得する。 The system event log acquisition unit 503 acquires the system event log of the user computer 10 when determining that the user computer 10 is not operating normally as a result of the operation check of the user computer 10. Specifically, the system event log acquisition unit 503 accesses the BMC unit 205 of the user computer 10 and acquires a system event log via the BMC unit 205.
 エラー情報取得管理部504は、画面キャプチャデータ取得部502により取得された画面キャプチャデータとシステムイベントログ取得部503により取得されたシステムイベントログに基づいて、これらのエラー情報の取得を継続するか停止するかを定める。即ち、エラー情報取得管理部504は、取得された画面キャプチャデータとシステムイベントログに基づき、画面キャプチャデータ取得部502とシステムイベントログ取得部503のデータ取得動作を管理する。 The error information acquisition management unit 504 continues or stops acquiring these error information based on the screen capture data acquired by the screen capture data acquisition unit 502 and the system event log acquired by the system event log acquisition unit 503. Decide what to do. That is, the error information acquisition management unit 504 manages data acquisition operations of the screen capture data acquisition unit 502 and the system event log acquisition unit 503 based on the acquired screen capture data and the system event log.
 エラー情報取得管理部504は、取得されたシステムイベントログとシステムイベントログデータベース401に格納された情報とに基づき、エラー情報の取得を継続するか停止するかを判定する。さらに、エラー情報取得管理部504は、取得された画面キャプチャデータが所定の期間に亘り更新されているか否かに基づき、エラー情報の取得を継続するか停止するかを判定する。 The error information acquisition management unit 504 determines whether to continue or stop acquiring error information based on the acquired system event log and information stored in the system event log database 401. Furthermore, the error information acquisition management unit 504 determines whether to continue or stop acquiring error information based on whether or not the acquired screen capture data has been updated over a predetermined period.
 エラー情報通知部505は、ユーザコンピュータ10に障害が発生した場合に、ユーザコンピュータ10のシステム状態を示す情報と、システム管理者による対処が必要か否かを示す情報と、を監視センタに通知する。具体的には、エラー情報通知部505は、ユーザコンピュータ10のシステム状態を示す情報として、取得した画面キャプチャデータやシステムイベントログを受信端末30に送信する。 When a failure occurs in the user computer 10, the error information notification unit 505 notifies the monitoring center of information indicating the system state of the user computer 10 and information indicating whether a system administrator needs to take action. . Specifically, the error information notification unit 505 transmits the acquired screen capture data and system event log to the receiving terminal 30 as information indicating the system state of the user computer 10.
 システムイベントログデータベース401には、システムイベントログの取り得るデータ値ごとに、エラー情報の取得を継続するか否かと、システム管理者による対処の要否が予め登録されている。 In the system event log database 401, for each data value that can be taken by the system event log, whether or not to continue acquiring error information and whether or not a system administrator needs to deal with are registered in advance.
 図5は、システムイベントログデータベース401が記憶する情報の一例を示す図である。図5を参照すると、システムイベントログの取り得る値ごとに、エラー情報の取得を継続するのか停止するのか、及び、システム管理者による対処を必要とするのか否かが記憶されている。なお、図5に示す「Sensor Type」等と一緒に併記した括弧書きのバイト数は、IPMI仕様の「SEL Record Format」から得られる先頭からのバイト数である。例えば、「Sensor Type」はシステムイベントログの11バイト目を参照することで得ることができる。 FIG. 5 is a diagram illustrating an example of information stored in the system event log database 401. Referring to FIG. 5, for each possible value of the system event log, whether the acquisition of error information is to be continued or stopped, and whether or not a system administrator needs to take action are stored. The number of bytes in parentheses written together with “Sensor Type” shown in FIG. 5 is the number of bytes from the head obtained from “SEL Record Format” of the IPMI specification. For example, “Sensor Type” can be obtained by referring to the 11th byte of the system event log.
 エラー情報データベース402には、エラー発生時のメッセージごとに、エラー情報の取得を継続するか否かと、システム管理者による何らかの対処が必要となるか否かに関する情報が記憶されている。具体的には、エラー情報データベース402には障害発生時にユーザコンピュータ10の画面に表示されると予想されるエラーメッセージが文字列として予め登録されている。 The error information database 402 stores information on whether or not to continue acquiring error information for each message when an error occurs and whether or not some action is required by the system administrator. Specifically, in the error information database 402, an error message expected to be displayed on the screen of the user computer 10 when a failure occurs is registered in advance as a character string.
 図6は、エラー情報データベース402が記憶する情報の一例を示す図である。図6を参照すると、エラーメッセージごとに、エラー情報の取得を継続するか否かと、システム管理者により何らかの対処が必要となるか否かに関する情報が記憶されている。 FIG. 6 is a diagram illustrating an example of information stored in the error information database 402. Referring to FIG. 6, for each error message, information regarding whether or not to continue acquiring error information and whether or not some action is required by the system administrator is stored.
 次に、第1の実施形態に係る障害通知システムの動作について説明する。 Next, the operation of the failure notification system according to the first embodiment will be described.
 図7は、第1の実施形態に係る障害通知システムの動作の一例を示すシーケンス図である。 FIG. 7 is a sequence diagram showing an example of the operation of the failure notification system according to the first embodiment.
 ステップS101において、障害通知装置20は、ユーザコンピュータ10の動作状態の監視をする。具体的には、動作状態監視部501は、PINGコマンドによる「Echo Request」パケットをユーザコンピュータ10に向けて送信し、ユーザコンピュータ10の死活を確認する。 In step S101, the failure notification device 20 monitors the operating state of the user computer 10. Specifically, the operation state monitoring unit 501 transmits an “Echo Request” packet based on a PING command to the user computer 10 to confirm whether the user computer 10 is active or not.
 ユーザコンピュータ10が通常動作していれば、ユーザコンピュータ10は「Echo Reply」パケットを応答送信する(ステップS201)。 If the user computer 10 is operating normally, the user computer 10 transmits an “Echo Reply” packet as a response (step S201).
 障害通知装置20は、ユーザコンピュータ10からの応答送信の受信有無を確認(ステップS102)し、応答送信を受信していればステップS101に係るパケット送信処理を繰り返す。つまり、ユーザコンピュータ10に障害が生じていなければ、障害通知装置20とユーザコンピュータ10はステップS101、S102とS201に係る動作を繰り返す。 The failure notification device 20 confirms whether or not a response transmission from the user computer 10 is received (step S102), and if the response transmission is received, repeats the packet transmission processing according to step S101. That is, if there is no failure in the user computer 10, the failure notification device 20 and the user computer 10 repeat the operations according to steps S101, S102, and S201.
 次に、ユーザコンピュータ10に障害が発生した場合を考える。 Next, consider a case where a failure occurs in the user computer 10.
 この場合、ユーザコンピュータ10は障害通知装置20からの「Echo Request」パケットに対して応答送信ができない(ステップS102、No分岐)。そのため、障害通知装置20は、ステップS103以降の処理を実行する。動作状態監視部501は、PINGコマンドに対するユーザコンピュータ10から応答送信が確認できないことが確定した時点(PINGコマンドによる死活監視が途絶えた時点)でのタイムスタンプを記憶する。 In this case, the user computer 10 cannot transmit a response to the “Echo Request” packet from the failure notification device 20 (step S102, No branch). Therefore, the failure notification device 20 executes the processing after step S103. The operation state monitoring unit 501 stores a time stamp at the time when it is determined that the response transmission from the user computer 10 to the PING command cannot be confirmed (at the time when alive monitoring by the PING command stops).
 なお、図7に示すシーケンス図には図示していないが、障害通知装置20はステップS102以降にユーザコンピュータ10に生じた障害が回復した場合に備えて、「Echo Request」に係るパケットを送信するものとする。 Although not shown in the sequence diagram shown in FIG. 7, the failure notification device 20 transmits a packet related to “Echo Request” in case the failure that has occurred in the user computer 10 after step S102 is recovered. Shall.
 ステップS103において、障害通知装置20はユーザコンピュータ10の第2通信部206を介してBMC部205にアクセスする。 In step S103, the failure notification device 20 accesses the BMC unit 205 via the second communication unit 206 of the user computer 10.
 その後、ステップS104において、障害通知装置20はユーザコンピュータ10からエラー情報の取得を開始する。具体的には、画面キャプチャデータ取得部502はユーザコンピュータ10の画面キャプチャデータの取得を開始する。同様に、システムイベントログ取得部503はシステムイベントログの取得を開始する。 Thereafter, in step S <b> 104, the failure notification device 20 starts acquiring error information from the user computer 10. Specifically, the screen capture data acquisition unit 502 starts acquiring screen capture data of the user computer 10. Similarly, the system event log acquisition unit 503 starts acquiring the system event log.
 取得した画面キャプチャデータやシステムイベントログは、記憶部302のデータ領域403に格納される。 The acquired screen capture data and system event log are stored in the data area 403 of the storage unit 302.
 その後、エラー情報取得管理部504は、取得された(データ領域403に格納された)システムイベントログを、システムイベントログデータベース401に記憶された情報と照合確認する(ステップS105)。具体的には、エラー情報取得管理部504は、取得されたシステムイベントログの一部が、システムイベントログデータベース401に予め登録されたエラー情報取得の停止を示す値と一致するか否かを判定する。 After that, the error information acquisition management unit 504 checks the acquired system event log (stored in the data area 403) against information stored in the system event log database 401 (step S105). Specifically, the error information acquisition management unit 504 determines whether a part of the acquired system event log matches a value indicating stoppage of error information acquisition registered in the system event log database 401 in advance. To do.
 判定の結果、取得されたシステムイベントログが、エラー情報取得の停止を指示するログであった場合には(ステップS105、Yes分岐)、ステップS110に移行する。 As a result of the determination, if the acquired system event log is a log instructing to stop the acquisition of error information (step S105, Yes branch), the process proceeds to step S110.
 一方、判定の結果、取得されたシステムイベントログが、エラー情報取得の停止を指示するログでなければ(ステップS105、No分岐)、ステップS106以降の処理を実行する。 On the other hand, as a result of the determination, if the acquired system event log is not a log instructing to stop the acquisition of error information (No in step S105), the processing from step S106 is executed.
 ステップS106において、動作状態監視部501は、ユーザコンピュータ10から応答送信の受信有無を確認(ステップS106)する。応答送信を受信している場合(ステップS106、Yes分岐)には、ステップS110に移行する。動作状態監視部501が、応答送信を受信していない場合(ステップS106、No分岐)には、ステップS107以降の処理が実行される。 In step S106, the operation state monitoring unit 501 confirms whether or not a response transmission is received from the user computer 10 (step S106). When the response transmission is received (step S106, Yes branch), the process proceeds to step S110. If the operating state monitoring unit 501 has not received a response transmission (step S106, No branch), the processing from step S107 onward is executed.
 ステップS107において、エラー情報取得管理部504は、画面キャプチャデータの更新有無を確認することで、ユーザコンピュータ10の画面変化があるか否かを判定する。つまり、障害通知装置20から、ユーザコンピュータ10上の画面表示の変化を監視する。 In step S107, the error information acquisition management unit 504 determines whether there is a screen change of the user computer 10 by checking whether the screen capture data is updated. That is, the failure notification device 20 monitors changes in the screen display on the user computer 10.
 ユーザコンピュータ10に画面変化が認められる間は(ステップS107、Yes分岐)、ステップS106からの処理を繰り返す。 While the screen change is recognized in the user computer 10 (step S107, Yes branch), the processing from step S106 is repeated.
 一方、所定の時間(例えば、1分間等)に渡って画面変化を確認できない場合(ステップS107、No分岐)には、ステップS108以降の処理が実行される。なお、画面キャプチャデータからなる画面の中に文字列が確認できない状態が続く場合も、ユーザコンピュータ10に画面変化が確認できないと判断される。また、画面変化の確認の有無には画面監視に係るアプリケーションが利用できる。 On the other hand, when the screen change cannot be confirmed over a predetermined time (for example, 1 minute) (step S107, No branch), the processing after step S108 is executed. Even when a state in which a character string cannot be confirmed continues in the screen composed of screen capture data, it is determined that the screen change cannot be confirmed in the user computer 10. In addition, an application relating to screen monitoring can be used to check whether or not a screen change has been confirmed.
 ステップS108において、エラー情報通知部505は、画面キャプチャデータからエラーメッセージを抽出する。具体的には、エラー情報通知部505は、文字認識に係るアプリケーション等を利用して、画面キャプチャデータに含まれるメッセージ(文字列)を抽出する。また、エラー情報通知部505は、データ領域403に記憶されているユーザコンピュータ10のシステムイベントログも抽出する。なお、エラー情報通知部505がエラー情報を抽出する期間は、PINGコマンドによる死活監視が途絶えた時点から本ステップまでの期間とする。 In step S108, the error information notification unit 505 extracts an error message from the screen capture data. Specifically, the error information notification unit 505 extracts a message (character string) included in the screen capture data using an application or the like related to character recognition. The error information notification unit 505 also extracts the system event log of the user computer 10 stored in the data area 403. Note that the period during which the error information notification unit 505 extracts error information is a period from the point in time when life and death monitoring by the PING command stops to this step.
 ステップS109において、エラー情報通知部505は、抽出したメッセージをエラー情報データベース402に記憶された情報と照合する。エラー情報通知部505は、このような照合処理により、監視センタに通知する情報(ユーザコンピュータ10のシステム状態に関する情報)を生成する。具体的には、エラー情報通知部505は、抽出したエラーメッセージに一致するメッセージがエラー情報データベース402に登録されていれば、当該登録された情報(文字列と対処の要否)を監視センタに通知する情報とする。一方、ユーザコンピュータ10の画面が所定の時間に亘り変化せず、エラー情報データベース402にも登録がないエラーメッセージ、あるいは、エラーメッセージ自体が表示されていない場合には、ユーザコンピュータ10のシステム状態はフリーズしていると考えられるので、エラー情報通知部505はその旨を監視センタに通知する情報とする。 In step S 109, the error information notification unit 505 checks the extracted message against information stored in the error information database 402. The error information notification unit 505 generates information (information related to the system state of the user computer 10) to be notified to the monitoring center through such collation processing. Specifically, if a message that matches the extracted error message is registered in the error information database 402, the error information notification unit 505 sends the registered information (character string and necessity of handling) to the monitoring center. Information to be notified. On the other hand, when the screen of the user computer 10 does not change for a predetermined time and the error message not registered in the error information database 402 or the error message itself is not displayed, the system state of the user computer 10 is Since it is considered that the image is frozen, the error information notification unit 505 sets the information to notify the monitoring center to that effect.
 ステップS110おいて、エラー情報取得管理部504は画面キャプチャデータ取得部502とシステムイベントログ取得部503に対してそれぞれのデータ取得動作の停止を指示する。 In step S110, the error information acquisition management unit 504 instructs the screen capture data acquisition unit 502 and the system event log acquisition unit 503 to stop the respective data acquisition operations.
 ステップS111において、エラー情報通知部505はユーザコンピュータ10のシステム状態を示す情報と、システム管理者による対処が必要か否かに係る情報と、を監視センタの受信端末30に送信する。 In step S111, the error information notification unit 505 transmits information indicating the system state of the user computer 10 and information regarding whether or not a system administrator needs to deal with to the receiving terminal 30 of the monitoring center.
 具体的には、取得されたシステムイベントログがシステムイベントログデータベース401にて記憶され、ログ取得の停止を示すログの場合には、当該取得されたシステムイベントログと画面キャプチャデータをユーザコンピュータ10のシステム状態として通知する。 Specifically, the acquired system event log is stored in the system event log database 401, and in the case of a log indicating the stop of log acquisition, the acquired system event log and screen capture data are stored in the user computer 10. Notify as system status.
 また、ユーザコンピュータ10に障害が発生した場合であっても、ユーザコンピュータ10が正常に復帰(ステップS202)し、「Echo Reply」パケットの応答送信を行う場合(ステップS203)がある。このようにユーザコンピュータ10の動作状態が復帰した場合は、エラー情報通知部505は、ユーザコンピュータ10のOSが起動したものと判断し、画面のキャプチャを停止し、取得した画面キャプチャデータとシステムイベントログを監視センタに送信する。 Further, even when a failure occurs in the user computer 10, there is a case where the user computer 10 returns to normal (step S202) and transmits a response of an “Echo Reply” packet (step S203). When the operating state of the user computer 10 is thus restored, the error information notification unit 505 determines that the OS of the user computer 10 has started, stops screen capture, and acquires the acquired screen capture data and system event. Send the log to the monitoring center.
 さらに、ユーザコンピュータ10の画面表示が所定の期間に亘り停止している場合には、エラー情報通知部505は、画面キャプチャデータから抽出したエラーメッセージ、エラー情報データベース402に登録された情報、ユーザコンピュータ10がフリーズ状態にあることを示す情報のいずれかと、システムイベントログと、をシステム状態として監視センタに送信する。 Further, when the screen display of the user computer 10 is stopped for a predetermined period, the error information notification unit 505 displays the error message extracted from the screen capture data, the information registered in the error information database 402, the user computer One of the information indicating that 10 is in the freeze state and the system event log are transmitted to the monitoring center as a system state.
 監視センタの受信端末30はこれらの情報を受信する(ステップS301)。 The receiving terminal 30 of the monitoring center receives these pieces of information (step S301).
 このように、障害通知装置20は、ステップS105において取得したシステムイベントログの対処方法がシステムイベントログデータベース401にて確認できた場合には、既知の障害が発生したものと判断する。この場合には、障害通知装置20は、システムイベントログと画面キャプチャデータの取得を停止し、取得したこれらのデータを監視センタに送信する。 As described above, the failure notification device 20 determines that a known failure has occurred when the system event log database 401 can confirm the handling method of the system event log acquired in step S105. In this case, the failure notification device 20 stops the acquisition of the system event log and the screen capture data, and transmits the acquired data to the monitoring center.
 一方、システムイベントログとシステムイベントログデータベース401の情報との照合の結果、対処方法のない未知の問題と判断された場合には、画面キャプチャデータから得られるエラーメッセージとエラー情報データベース402の情報と照合が行われる。その際、ユーザコンピュータ10の画面表示が一定期間更新されない場合には、障害通知装置20はユーザコンピュータ10がフリーズ状態にある可能性を考慮し、その旨及び取得したシステムイベントログを監視センタに送信する。 On the other hand, if it is determined that the system event log and the information in the system event log database 401 are unknown problems that do not have a countermeasure, the error message obtained from the screen capture data and the information in the error information database 402 Verification is performed. At that time, when the screen display of the user computer 10 is not updated for a certain period, the failure notification device 20 considers the possibility that the user computer 10 is in a frozen state, and sends the fact and the acquired system event log to the monitoring center. To do.
 なお、第1の実施形態に係る障害通知装置20等は例示であって種々の変形が可能である。例えば、第1の実施形態では障害通知装置20はユーザコンピュータ10のBMC部205が生成するシステムイベントログを取得する形態について説明した。しかし、障害通知装置20が取得するログの種別を限定する趣旨ではない。例えば、ユーザコンピュータ10に含まれる制御部201が、OSの起動前であってもユーザコンピュータ10を構成するハードウェアに生じた障害に関するログを採取し、記憶部202に格納できるのであれば、障害通知装置20はこのようなログも取得の対象としてもよい。 Note that the failure notification device 20 according to the first embodiment is an example, and various modifications are possible. For example, in the first embodiment, the failure notification apparatus 20 has been described as acquiring the system event log generated by the BMC unit 205 of the user computer 10. However, it is not intended to limit the type of log acquired by the failure notification device 20. For example, if the control unit 201 included in the user computer 10 can collect a log regarding a failure that has occurred in the hardware configuring the user computer 10 and store it in the storage unit 202 even before the OS is started, The notification device 20 may also acquire such a log.
 以上のように、第1の実施形態に係る障害通知装置20は、PINGコマンド等を用いてユーザコンピュータ10の死活を監視する。その際、ユーザコンピュータ10の動作が停止していると判断される場合には、ユーザコンピュータ10内のBMC部205にアクセスし、ハードウェア情報であるシステムイベントログと画面キャプチャデータを取得する。 As described above, the failure notification device 20 according to the first embodiment monitors the life and death of the user computer 10 using the PING command or the like. At this time, if it is determined that the operation of the user computer 10 is stopped, the BMC unit 205 in the user computer 10 is accessed, and a system event log and screen capture data that are hardware information are acquired.
 さらに、ユーザコンピュータ10の画面が所定の期間に亘り変化していないと判断される場合には、障害通知装置20は、画面キャプチャデータからエラーメッセージを抽出し、ユーザコンピュータ10の障害発生を監視センタに通知する。あるいは、障害通知装置20は、ユーザコンピュータ10がフリーズしている可能性を監視センタに通知する。 Further, when it is determined that the screen of the user computer 10 has not changed over a predetermined period, the failure notification device 20 extracts an error message from the screen capture data and monitors the occurrence of a failure in the user computer 10. Notify Alternatively, the failure notification device 20 notifies the monitoring center of the possibility that the user computer 10 is frozen.
 その結果、第1の実施形態に係る障害通知装置20は、ユーザコンピュータ10に障害が発生し、OSの起動途中でフリーズしてしまうような場合であっても、システム状態に係る適切な情報をシステム管理者に提供できる。また、所定の期間が経過後には画面キャプチャデータやシステムイベントログの取得を行わないので、適切な期間に亘るエラー情報(画面キャプチャデータ、システムイベントログ)の取得が可能となる。また、画面キャプチャデータからのエラーメッセージとシステムイベントログを対応するデータベースの情報と照合することで、ユーザコンピュータ10のシステム状態を適切に判断できる。その結果、障害解析の精度を向上させることができる。 As a result, the failure notification device 20 according to the first embodiment provides appropriate information related to the system state even when a failure occurs in the user computer 10 and freezes during the startup of the OS. Can be provided to system administrators. Further, since the screen capture data and the system event log are not acquired after the predetermined period has elapsed, it is possible to acquire error information (screen capture data and system event log) over an appropriate period. Further, the system state of the user computer 10 can be appropriately determined by comparing the error message from the screen capture data and the system event log with the corresponding database information. As a result, the accuracy of failure analysis can be improved.
 上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。 Some or all of the above embodiments may be described as in the following supplementary notes, but are not limited to the following.
 [付記1]
 被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する第1取得部と、
 前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する通知部と、
 を備える障害通知装置。
 [付記2]
 前記被監視対象装置における障害検知を契機として、前記被監視対象装置が生成するログを取得する第2取得部をさらに備え、
 前記通知部は、前記取得されたログを外部に通知する、付記1の障害通知装置。
 [付記3]
 前記取得された画面データとログに基づき、前記第1及び第2取得部のデータ取得動作を管理する管理部をさらに備える、付記2の障害通知装置。
 [付記4]
 前記管理部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記第1及び第2取得部のデータ取得動作を停止する、付記3の障害通知装置。
 [付記5]
 前記通知部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから抽出した文字列を外部に通知する、付記1乃至4のいずれか一に記載の障害通知装置。
 [付記6]
 前記管理部は、前記取得されたログの一部が予め定められた値と一致する場合に、前記第2取得部のデータ取得動作を停止する、付記3乃至5のいずれか一に記載の障害通知装置。
 [付記7]
 前記第1取得部は、前記被監視対象装置に含まれるプロセッサであって、オペレーティングシステムを動作させる主プロセッサとは独立して動作する副プロセッサから、前記画面データを取得し、
 前記第2取得部は、前記副プロセッサから前記ログを取得する、付記2乃至6のいずれか一に記載の障害通知装置。
 [付記8]
 前記被監視対象装置の動作状態を、前記被監視対象装置に対して所定のパケットを送信し、前記被監視対象装置からの応答の有無に基づき監視する、監視部をさらに備える付記1乃至7のいずれか一に記載の障害通知装置。
 [付記9]
 被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する工程と、
 前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する工程と、
 を含む障害通知方法。
 [付記10]
 被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する処理と、
 前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する処理と、
 を障害通知装置を制御するコンピュータに実行させるプログラム。
 なお、付記9及び付記10に係る形態は、付記1の形態と同様に、付記2~付記8に係る形態に展開することが可能である。
[Appendix 1]
Triggered by a failure detection in the monitored device, a first acquisition unit that acquires screen data displayed on the display device by the monitored device;
When the acquired screen data does not change over a predetermined period, a notification unit that notifies the information obtained from the acquired screen data to the outside,
A failure notification device comprising:
[Appendix 2]
Triggered by a failure detection in the monitored device, further comprising a second acquisition unit that acquires a log generated by the monitored device,
The failure notification device according to appendix 1, wherein the notification unit notifies the acquired log to the outside.
[Appendix 3]
The failure notification device according to appendix 2, further comprising a management unit that manages data acquisition operations of the first and second acquisition units based on the acquired screen data and log.
[Appendix 4]
The failure notification device according to appendix 3, wherein the management unit stops the data acquisition operation of the first and second acquisition units when the acquired screen data does not change over a predetermined period.
[Appendix 5]
The notification unit according to any one of appendices 1 to 4, wherein when the acquired screen data does not change over a predetermined period, the notification unit notifies the character string extracted from the acquired screen data to the outside. Fault notification device.
[Appendix 6]
The failure according to any one of appendices 3 to 5, wherein the management unit stops the data acquisition operation of the second acquisition unit when a part of the acquired log matches a predetermined value. Notification device.
[Appendix 7]
The first acquisition unit is a processor included in the monitored device, acquires the screen data from a sub processor that operates independently of a main processor that operates an operating system, and
The failure notification device according to any one of appendices 2 to 6, wherein the second acquisition unit acquires the log from the sub processor.
[Appendix 8]
Appendices 1 to 7 further comprising a monitoring unit that monitors the operation state of the monitored device based on the presence or absence of a response from the monitored device by transmitting a predetermined packet to the monitored device. The failure notification device according to any one of the above.
[Appendix 9]
Triggered by a failure detection in the monitored device, obtaining the screen data displayed on the display device by the monitored device;
A step of notifying the information obtained from the acquired screen data to the outside when the acquired screen data does not change over a predetermined period;
Failure notification method.
[Appendix 10]
Triggered by a failure detection in the monitored device, a process of acquiring screen data displayed on the display device by the monitored device;
When the acquired screen data does not change over a predetermined period, processing to notify the information obtained from the acquired screen data to the outside,
For causing a computer that controls the failure notification apparatus to execute
The forms according to Supplementary Note 9 and Supplementary Note 10 can be expanded to the forms according to Supplementary Note 2 to Supplementary Note 8, similarly to the form of Supplementary Note 1.
 なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。 In addition, each disclosure of the above cited patent documents, etc. shall be incorporated by reference into this document. Within the scope of the entire disclosure (including claims) of the present invention, the embodiments and examples can be changed and adjusted based on the basic technical concept. In addition, various combinations or selections of various disclosed elements (including each element in each claim, each element in each embodiment or example, each element in each drawing, etc.) within the scope of the entire disclosure of the present invention. Is possible. That is, the present invention of course includes various variations and modifications that could be made by those skilled in the art according to the entire disclosure including the claims and the technical idea. In particular, with respect to the numerical ranges described in this document, any numerical value or small range included in the range should be construed as being specifically described even if there is no specific description.
10 ユーザコンピュータ
20、100 障害通知装置
30 受信端末
41、42 ネットワーク
101 第1取得部
102 通知部
201、301 制御部
202、302 記憶部
203 第1通信部
204、304 表示部
205 BMC(Baseboard Management Controller)部
206 第2通信部
303 通信部
401 システムイベントログ(SEL;System Event Log)データベース
402 エラー情報データベース
403 データ領域
501 動作状態監視部
502 画面キャプチャデータ取得部
503 システムイベントログ取得部
504 エラー情報取得管理部
505 エラー情報通知部
10 User computer 20, 100 Failure notification device 30 Receiving terminal 41, 42 Network 101 First acquisition unit 102 Notification unit 201, 301 Control unit 202, 302 Storage unit 203 First communication unit 204, 304 Display unit 205 BMC (Baseboard Management Controller) ) Unit 206 second communication unit 303 communication unit 401 system event log (SEL) database 402 error information database 403 data area 501 operation state monitoring unit 502 screen capture data acquisition unit 503 system event log acquisition unit 504 error information acquisition Management unit 505 Error information notification unit

Claims (10)

  1.  被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する第1取得部と、
     前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する通知部と、
     を備える障害通知装置。
    Triggered by a failure detection in the monitored device, a first acquisition unit that acquires screen data displayed on the display device by the monitored device;
    When the acquired screen data does not change over a predetermined period, a notification unit that notifies the information obtained from the acquired screen data to the outside,
    A failure notification device comprising:
  2.  前記被監視対象装置における障害検知を契機として、前記被監視対象装置が生成するログを取得する第2取得部をさらに備え、
     前記通知部は、前記取得されたログを外部に通知する、請求項1の障害通知装置。
    Triggered by a failure detection in the monitored device, further comprising a second acquisition unit that acquires a log generated by the monitored device,
    The failure notification device according to claim 1, wherein the notification unit notifies the acquired log to the outside.
  3.  前記取得された画面データとログに基づき、前記第1及び第2取得部のデータ取得動作を管理する管理部をさらに備える、請求項2の障害通知装置。 The failure notification device according to claim 2, further comprising a management unit that manages data acquisition operations of the first and second acquisition units based on the acquired screen data and log.
  4.  前記管理部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記第1及び第2取得部のデータ取得動作を停止する、請求項3の障害通知装置。 The failure notification device according to claim 3, wherein the management unit stops the data acquisition operation of the first and second acquisition units when the acquired screen data does not change over a predetermined period.
  5.  前記通知部は、前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから抽出した文字列を外部に通知する、請求項1乃至4のいずれか一項に記載の障害通知装置。 5. The notification unit according to claim 1, wherein the notification unit notifies the character string extracted from the acquired screen data to the outside when the acquired screen data does not change over a predetermined period. 6. The failure notification device described.
  6.  前記管理部は、前記取得されたログの一部が予め定められた値と一致する場合に、前記第2取得部のデータ取得動作を停止する、請求項3乃至5のいずれか一項に記載の障害通知装置。 The said management part stops data acquisition operation | movement of a said 2nd acquisition part, when a part of said acquired log corresponds with a predetermined value, The control part as described in any one of Claim 3 thru | or 5 Failure notification device.
  7.  前記第1取得部は、前記被監視対象装置に含まれるプロセッサであって、オペレーティングシステムを動作させる主プロセッサとは独立して動作する副プロセッサから、前記画面データを取得し、
     前記第2取得部は、前記副プロセッサから前記ログを取得する、請求項2乃至6のいずれか一項に記載の障害通知装置。
    The first acquisition unit is a processor included in the monitored device, acquires the screen data from a sub processor that operates independently of a main processor that operates an operating system, and
    The failure notification device according to claim 2, wherein the second acquisition unit acquires the log from the sub processor.
  8.  前記被監視対象装置の動作状態を、前記被監視対象装置に対して所定のパケットを送信し、前記被監視対象装置からの応答の有無に基づき監視する、監視部をさらに備える請求項1乃至7のいずれか一項に記載の障害通知装置。 The monitoring part which further transmits the predetermined | prescribed packet with respect to the said to-be-monitored apparatus, and monitors the operation state of the to-be-monitored apparatus based on the presence or absence of the response from the to-be-monitored apparatus. The failure notification device according to any one of the above.
  9.  被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する工程と、
     前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する工程と、
     を含む障害通知方法。
    Triggered by a failure detection in the monitored device, obtaining the screen data displayed on the display device by the monitored device;
    A step of notifying the information obtained from the acquired screen data to the outside when the acquired screen data does not change over a predetermined period;
    Failure notification method.
  10.  被監視対象装置における障害検知を契機として、前記被監視対象装置が表示デバイスに表示する画面データを取得する処理と、
     前記取得された画面データが所定の期間に亘り変化しない場合に、前記取得された画面データから得られる情報を、外部に通知する処理と、
     を障害通知装置を制御するコンピュータに実行させるプログラム。
    Triggered by a failure detection in the monitored device, a process of acquiring screen data displayed on the display device by the monitored device;
    When the acquired screen data does not change over a predetermined period, processing to notify the information obtained from the acquired screen data to the outside,
    For causing a computer that controls the failure notification apparatus to execute
PCT/JP2015/067670 2014-06-20 2015-06-18 Malfunction notification apparatus, malfunction notification method, and program WO2015194651A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201580015065.6A CN106133699A (en) 2014-06-20 2015-06-18 Malfunction informing device, failure notification method and program
JP2016529531A JP6222759B2 (en) 2014-06-20 2015-06-18 Failure notification device, failure notification method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014126807 2014-06-20
JP2014-126807 2014-06-20

Publications (1)

Publication Number Publication Date
WO2015194651A1 true WO2015194651A1 (en) 2015-12-23

Family

ID=54935627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/067670 WO2015194651A1 (en) 2014-06-20 2015-06-18 Malfunction notification apparatus, malfunction notification method, and program

Country Status (3)

Country Link
JP (1) JP6222759B2 (en)
CN (1) CN106133699A (en)
WO (1) WO2015194651A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254863A (en) * 2018-08-30 2019-01-22 郑州云海信息技术有限公司 A kind of method, apparatus and controlled terminal recording System Event Log

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116254A (en) * 1996-08-16 1998-05-06 Compaq Computer Corp Decentralized computer system
JP2006065659A (en) * 2004-08-27 2006-03-09 Fujitsu Ltd Computer operation recording program, computer operation solving program, computer, management apparatus, and method
JP2010039519A (en) * 2008-07-31 2010-02-18 Japan Digital Laboratory Co Ltd Error notification method, information processor, and communication system
US20120137180A1 (en) * 2010-11-29 2012-05-31 Hon Hai Precision Industry Co., Ltd. Computing device and system error detection method
JP2013206073A (en) * 2012-03-28 2013-10-07 Nec Corp Network management system, network management method, network monitoring system, and network management program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489460A (en) * 2012-06-11 2014-01-01 鸿富锦精密工业(深圳)有限公司 Test device and test method
CN102736970A (en) * 2012-06-29 2012-10-17 浪潮电子信息产业股份有限公司 Method for monitoring activity state of operating system
CN103617108A (en) * 2013-12-17 2014-03-05 昆山中创软件工程有限责任公司 Method and device for monitoring computer equipment operating states
CN103810106A (en) * 2014-03-06 2014-05-21 安一恒通(北京)科技有限公司 Method and device for testing fluency of interfaces

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116254A (en) * 1996-08-16 1998-05-06 Compaq Computer Corp Decentralized computer system
JP2006065659A (en) * 2004-08-27 2006-03-09 Fujitsu Ltd Computer operation recording program, computer operation solving program, computer, management apparatus, and method
JP2010039519A (en) * 2008-07-31 2010-02-18 Japan Digital Laboratory Co Ltd Error notification method, information processor, and communication system
US20120137180A1 (en) * 2010-11-29 2012-05-31 Hon Hai Precision Industry Co., Ltd. Computing device and system error detection method
JP2013206073A (en) * 2012-03-28 2013-10-07 Nec Corp Network management system, network management method, network monitoring system, and network management program

Also Published As

Publication number Publication date
JPWO2015194651A1 (en) 2017-04-27
JP6222759B2 (en) 2017-11-01
CN106133699A (en) 2016-11-16

Similar Documents

Publication Publication Date Title
JP6333410B2 (en) Fault processing method, related apparatus, and computer
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US8943366B2 (en) Administering checkpoints for incident analysis
US9384114B2 (en) Group server performance correction via actions to server subset
US20120331347A1 (en) Restarting Event And Alert Analysis After A Shutdown In A Distributed Processing System
US20140032173A1 (en) Information processing apparatus, and monitoring method
EP2541418B1 (en) Method for increasing reliability in monitoring systems
JP6160171B2 (en) Information processing apparatus, control method, program, and information processing system
JP5617304B2 (en) Switching device, information processing device, and fault notification control program
JPWO2012046293A1 (en) Fault monitoring apparatus, fault monitoring method and program
US10069988B2 (en) Image forming apparatus, computer readable recording medium stored with computer program for controlling image forming apparatus, and method for controlling image forming apparatus
US9461879B2 (en) Apparatus and method for system error monitoring
US10880153B2 (en) Method and system for providing service redundancy between a master server and a slave server
US10842041B2 (en) Method for remotely clearing abnormal status of racks applied in data center
US7877646B2 (en) Method and system for monitoring a computing device
JP6222759B2 (en) Failure notification device, failure notification method and program
US20200305300A1 (en) Method for remotely clearing abnormal status of racks applied in data center
JP5623449B2 (en) Report creation apparatus, report creation program, and report creation method
US11487623B2 (en) Information processing system
JP6488600B2 (en) Information processing system, program, and information processing apparatus
US9880855B2 (en) Start-up control program, device, and method
JP2010003132A (en) Information processor, and fault detection method of input/output device thereof, and program thereof
JP5268820B2 (en) Rewriting method for monitoring device program
WO2024084776A1 (en) Monitoring device, management device, communication system, and recovery method
CN116701055A (en) Fault isolation method, device, equipment and medium of server

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15808979

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016529531

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15808979

Country of ref document: EP

Kind code of ref document: A1