WO2012053110A1 - 障害監視装置、障害監視方法及びプログラム - Google Patents

障害監視装置、障害監視方法及びプログラム Download PDF

Info

Publication number
WO2012053110A1
WO2012053110A1 PCT/JP2010/068753 JP2010068753W WO2012053110A1 WO 2012053110 A1 WO2012053110 A1 WO 2012053110A1 JP 2010068753 W JP2010068753 W JP 2010068753W WO 2012053110 A1 WO2012053110 A1 WO 2012053110A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
register
wdt
monitored object
firmware
Prior art date
Application number
PCT/JP2010/068753
Other languages
English (en)
French (fr)
Inventor
古越正信
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2010/068753 priority Critical patent/WO2012053110A1/ja
Priority to JP2012539551A priority patent/JPWO2012053110A1/ja
Publication of WO2012053110A1 publication Critical patent/WO2012053110A1/ja
Priority to US13/856,008 priority patent/US20130227333A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Definitions

  • the present invention relates to a failure monitoring device, a failure monitoring method, and a program.
  • FIG. 1 is a schematic configuration diagram of a conventional failure monitoring apparatus.
  • the failure monitoring apparatus 10 is a blade server compliant with, for example, ATCA (Advanced Telecom Computing Architecture).
  • ATCA is a computer hardware standard for carriers.
  • the fault monitoring apparatus 10 monitors a fault such as an OS (Operating System), an application, or a BIOS (Basic Input / Output System) using a watchdog timer defined by the IPMI (Intelligent Platform Management Interface) specification.
  • the failure monitoring apparatus 10 includes a nonvolatile memory 1, a microcomputer 2, a watchdog timer (WDT) control unit 3, a watchdog timer (WDT) unit 4, and a monitored object 5.
  • WDT watchdog timer
  • WDT watchdog timer
  • the microcomputer 2 is equipped with firmware for controlling the microcomputer 2 itself.
  • the WDT control unit 3 and the WDT unit 4 operate on firmware.
  • the WDT control unit 3 includes a register 11 indicating a timer status, a register 12 indicating a pre-timeout operation executed by the firmware, and a register 13 indicating a time-out operation executed by the firmware.
  • the WDT control unit 3 confirms the continuation of the operation of the monitored device 5 by using a watch dog timer (WDT) 14 mounted on the WDT unit 4 in order to monitor the failure of the monitored device 5.
  • the WDT unit 4 includes a register 15 that indicates the WDT 14 and the count start and stop of the WDT 14.
  • the monitored object 5 is an OS, an application, a BIOS, or the like.
  • the WDT control unit 3 is connected to the microcomputer 2, the WDT unit 4, and the monitored object 5 through three write / read / reset control lines.
  • the WDT control unit 3 is connected to the WDT unit 4 via a pre-timeout interrupt line and a time-out interrupt line.
  • the WDT control unit 3 is connected to the monitored object 5 through an interrupt line.
  • FIG. 2 is a sequence diagram illustrating the operation of the failure monitoring apparatus 10 when the monitored target 5 is in a normal state.
  • the WDT 14 starts counting down (step S1).
  • the maximum value of the WDT 14, the pre-time-out value of the WDT 14, the pre-time-out operation, and the time-out operation are set in advance by the monitoring target (for example, OS).
  • the maximum value and the pre-timeout value of the WDT 14 are set in the WDT unit 4.
  • a value defining the pre-timeout operation is set in the register 12.
  • a value that defines the timeout operation is set in the register 13.
  • the monitored object 5 transmits a reset instruction for the WDT 14 to the WDT controller 3 at a predetermined reset interval (step S2).
  • the reset interval is determined in advance by the monitored object 5 and is sufficiently smaller than a value obtained by subtracting the pre-timeout value from the maximum value of the WDT 14.
  • the WDT control unit 3 resets the WDT 14 every time a reset instruction is received from the monitored object 5 (step S3). Thereafter, the operations in steps S2 and S3 are repeatedly executed.
  • FIG. 3 is a sequence diagram showing the operation of the failure monitoring apparatus 10 when the monitored object 5 is in an abnormal state (that is, a failure has occurred).
  • step S11 when the WDT unit 4 is activated, the WDT 14 starts counting down (step S11). The operations in steps S2 and S3 are repeated. When a failure occurs in the monitored object 5, the monitored object 5 cannot transmit a reset instruction for the WDT 14 to the WDT control unit 3 at a predetermined reset interval (step S12).
  • the WDT unit 4 transmits an interrupt for a pre-timeout operation to the WDT control unit 3 when the WDT 14 reaches the pre-timeout value (step S13).
  • the WDT controller 3 receives the pre-timeout operation interrupt, changes the register 11 indicating the timer status to “pre-timeout”, and notifies the firmware of the microcomputer 2 of the interrupt (step S14).
  • the timer status is predetermined according to the IPMI specification, and includes normal, pre-timeout, and timeout. When the timer status is normal, the value “0h” is set in the register 11. If the timer status is pre-timeout, the value “1h” is set in the register 11. When the timer status is timeout, the value “2h” is set in the register 11.
  • the firmware When the firmware receives an interrupt from the WDT controller 3, the firmware reads the value of the register 11, reads the value of the register 12 based on the read value, and executes a pre-timeout operation according to the value of the register 12 (step S15). For example, when the value of the register 12 is “00b”, the firmware does nothing. When the value of the register 12 is “01b”, the firmware waits for a timing at which the monitored target 5 can receive the interrupt, and transmits the interrupt to the monitored target 5. When the value of the register 12 is “10b”, the firmware immediately transmits an interrupt to the monitored object 5. When the value of the register 12 is “11b”, the firmware transmits an interrupt to the monitored object 5 when receiving a poll from the monitored object 5. The monitored object 5 starts a failure recovery operation triggered by an interrupt from the firmware. Further, the firmware records a message (SEL Event) indicating the occurrence of the pre-timeout in the nonvolatile memory 1 connected to the microcomputer 2 (step S16).
  • SEL Event indicating the occurrence of the
  • Step S17 If the monitored object 5 is not recovered by the failure recovery operation, the WDT 14 counts down, and the WDT unit 4 transmits an interrupt for timeout operation to the WDT control unit 3 when the WDT 14 reaches the timeout value.
  • the WDT control unit 3 receives the interrupt for timeout operation, changes the register 11 indicating the timer status to “timeout”, and notifies the firmware of the microcomputer 2 of the interrupt (step S18).
  • Step S19 When the firmware receives an interrupt from the WDT control unit 3, the firmware reads the value of the register 11, reads the value of the register 13 based on the read value, and performs a time-out operation as a failure recovery operation according to the value of the register 13. Execute (Step S19). For example, when the value of the register 13 is “00b”, the firmware does nothing. When the value of the register 13 is “01b”, the firmware restarts the monitoring target 5 in a state where the failure monitoring apparatus 10 is powered on. When the value of the register 13 is “10b”, the firmware turns off the power of the failure monitoring apparatus 10. When the value of the register 13 is “11b”, the firmware turns on the power after the failure monitoring apparatus 10 is turned off. Further, the firmware records a message (SEL Event) indicating the occurrence of a timeout in the nonvolatile memory 1 connected to the microcomputer 2 (step S20).
  • SEL Event indicating the occurrence of a timeout in the nonvolatile memory 1 connected to the microcomputer 2
  • an abnormality monitoring apparatus that monitors an abnormal operation of an OS or an application using a watchdog timer is conventionally known (see, for example, Patent Document 1).
  • a method of monitoring the activation of a plurality of programs using a plurality of watchdog timers is known (see, for example, Patent Document 2).
  • a watchdog timer configured with hardware monitors activation of one of a plurality of programs
  • a watchdog timer configured with software monitors activation of the remaining programs.
  • the failure monitoring apparatus 10 monitors the failure of the monitored object 5, but if a failure occurs in the firmware, the firmware cannot detect its own failure. In addition, when a failure occurs in the firmware, an interrupt is not transmitted from the firmware to the monitored object 5, and the monitored object 5 may not execute the failure recovery operation at the time of pre-timeout. In addition, since the monitored object 5 cannot detect a firmware failure, the failure monitoring apparatus 10 continues to operate in an abnormal state (a state in which a malfunction may occur) when a firmware failure occurs.
  • the fault monitoring device, fault monitoring method, and program disclosed in the specification are intended to be able to detect the occurrence of a fault in the control means and the monitored object.
  • a failure monitoring device disclosed in the specification is mounted on a computing device, and controls means for controlling the computing device, a monitored object operated by the computing device, and a failure in the control means. And monitoring means for monitoring the failure of the monitored object, and switching means for alternately switching the monitoring destination by the monitoring means.
  • the fault monitoring method disclosed in the specification is a first procedure for monitoring a fault that occurs in a control unit that is mounted on a computer and is controlled by a computing device and that is controlled by the computing device and that is generated in a monitored object that is operated by the arithmetic device. And a second procedure for alternately switching the monitoring destination according to the first procedure.
  • a program disclosed in the specification is implemented in a computer, a first procedure for monitoring a failure that occurs in a control unit that controls the calculation device and a failure that occurs in a monitored object that is operated by the calculation device;
  • the second procedure for alternately switching the monitoring destination in the first procedure is executed.
  • the failure monitoring apparatus, the failure monitoring method, and the program disclosed in the specification can detect the occurrence of the failure of the control means and the monitoring target.
  • FIG. 5 is a schematic configuration diagram of a register unit 42 in FIG. 4. It is a sequence diagram which shows operation
  • FIG. 6 is a sequence diagram illustrating an operation of the failure monitoring apparatus 100 when a failure occurs in the monitored object 35. It is a sequence diagram which shows operation
  • FIG. 4 is a schematic configuration diagram of the failure monitoring apparatus according to the present embodiment.
  • the failure monitoring apparatus 100 is a blade server compliant with, for example, ATCA (Advanced Telecom Computing) Architecture.
  • ATCA is a computer hardware standard for carriers.
  • the failure monitoring apparatus 100 uses a watchdog timer defined by the IPMI (Intelligent Platform Management Interface) specification to detect a failure such as firmware, OS (Operating System), application, or BIOS (Basic Input / Output System). Monitor.
  • IPMI Intelligent Platform Management Interface
  • OS Operating System
  • BIOS Basic Input / Output System
  • the fault monitoring apparatus 100 includes a nonvolatile memory 31, a microcomputer 32, a watchdog timer (WDT) control unit 33, a watchdog timer (WDT) unit 34, a monitored object 35, and a hard disk drive (HDD) 36. Yes.
  • the nonvolatile memory 31 and the HDD 36 function as a recording medium.
  • the microcomputer 32 as an arithmetic device is equipped with firmware (functioning as control means) for controlling the microcomputer 32 itself.
  • the microcomputer 32 stores a message indicating that a pre-timeout or timeout has occurred in the monitored object 35 in the nonvolatile memory 31.
  • the WDT control unit 33 and the WDT unit 34 operate on firmware.
  • the WDT control unit 33 includes a first interface (I / F) unit 41, a register unit 42, a second interface (I / F) unit 43, a route switch 44, and a register controller 45.
  • the route switch 44 and the register controller 45 function as switching means.
  • the first interface (I / F) unit 41 is connected to the microcomputer 32 via a write / read / reset control line and an interrupt line.
  • the first interface (I / F) unit 41 relays access from the firmware to the WDT unit 34 and relays instructions transmitted and received between the firmware and the monitored target 35.
  • the register unit 42 includes a plurality of registers. Details of these registers will be described later.
  • the second interface (I / F) unit 43 is connected to the monitored object 35 via a write / read / reset control line and an interrupt line.
  • the second interface (I / F) unit 43 relays access from the monitored target 35 to the WDT unit 34 and relays instructions transmitted and received between the firmware and the monitored target 35.
  • the route switch 44 switches the access target to the WDT unit 34 to either the microcomputer 32 or the monitored object 35, that is, the route from the WDT unit 34 to the microcomputer 32 or the monitored target 35 from the WDT unit 34. Switch to one of the directions to. In the initial state, the target to access the WDT unit 34 is set to the monitored target 35, for example.
  • the register controller 45 controls the switching operation of the route switch 44 and the read / write operation of the values of a plurality of registers included in the register unit 42.
  • the register controller 45 confirms the continuation of the operation of the monitored device 35 or firmware using a watchdog timer (WDT) 51 mounted in the WDT unit 34 in order to monitor the failure of the monitored device 35 or firmware. .
  • WDT watchdog timer
  • the WDT unit 34 includes a WDT 51, a register 52 that indicates the start and stop of the count of the WDT 51, and a route register 53 that specifies an object to be monitored.
  • the maximum value, pre-timeout value (first threshold value), and timeout value (second threshold value) of the WDT 51 are set in advance by the monitored object 35.
  • the timeout value of the WDT 51 is the minimum value “0”.
  • the register 52 When the WDT unit 34 receives a countdown start instruction from the firmware, the register 52 is set to a value “1” indicating the count start of the WDT 51. When the WDT unit 34 receives a countdown stop instruction from the firmware, the register 52 is set to a value “0” indicating that the WDT 51 stops counting. In the route register 53, “0” or “1” is set. When the value of the route register 53 is “0”, the WDT 51 counts down to detect the occurrence of a failure in the monitored object 35. When the value of the route register 53 is “1”, the WDT 51 counts down to detect the occurrence of a firmware failure.
  • the monitored object 35 is an OS, an application, a BIOS, or the like.
  • the monitored object 35 stores a message indicating that a pre-timeout or timeout has occurred in the firmware in the hard disk drive (HDD) 36.
  • HDD hard disk drive
  • the WDT control unit 33 is connected to the microcomputer 32, the WDT unit 34, and the monitored object 35 through three write / read / reset control lines, respectively.
  • the WDT control unit 33 is connected to the WDT unit 34 via a pre-timeout interrupt line and a time-out interrupt line.
  • the WDT control unit 33 is connected to the microcomputer 32 and the monitored object 35 through two interrupt lines, respectively.
  • the register unit 42 includes registers 61 to 64.
  • the register 61 defines the timer status of the WDT 51.
  • the timer status of the WDT 51 is determined in advance by the IPMI specification and includes, for example, “normal”, “pre-timeout”, and “timeout”.
  • the value “0h” is set in the register 61.
  • the value “1h” is set in the register 61.
  • the value “2h” is set in the register 61.
  • the register 62 defines a pre-timeout operation executed by the firmware or the monitored target 35.
  • the pre-timeout operation is an operation executed by the firmware or the monitored target 35 when the timer status of the WDT 51 is “pretimeout”. For example, when a failure occurs in the monitored target 35 and the value of the register 62 is “00b”, the firmware does nothing. When a failure occurs in the monitored target 35 and the value of the register 62 is “01b”, the firmware waits for a timing at which the monitored target 35 can receive an interrupt, and transmits the interrupt to the monitored target 35. When a failure occurs in the monitored object 35 and the value of the register 62 is “10b”, the firmware immediately transmits an interrupt to the monitored object 35.
  • the firmware transmits an interrupt to the monitored target 35 when polling is received from the monitored target 35.
  • the monitored object 35 starts a failure recovery operation triggered by an interrupt from the firmware.
  • the monitored object 35 does not execute anything.
  • the monitored target 35 transmits an interrupt for restarting the firmware without turning off the power of the failure monitoring apparatus 100 to the firmware.
  • the monitored target 35 transmits an interrupt to the firmware to restart the firmware by temporarily turning off the failure monitoring apparatus 100.
  • the firmware starts a failure recovery operation triggered by an interrupt from the monitored object 35.
  • the register 63 defines a time-out operation executed by the firmware or the monitored object 35.
  • the timeout operation is an operation executed by the firmware or the monitored object 35 when the timer status of the WDT 51 is “timeout”. For example, when a failure occurs in the monitored object 35 and the value of the register 63 is “00b”, the firmware does nothing. When a failure occurs in the monitored object 35 and the value of the register 63 is “01b”, the firmware restarts the monitored object 5 with the power supply of the failure monitoring apparatus 100 turned on. When a failure occurs in the monitored object 35 and the value of the register 63 is “10b”, the firmware turns off the power of the failure monitoring apparatus 100. If a failure occurs in the monitored object 35 and the value of the register 63 is “11b”, the firmware turns off the failure monitoring device 100 and then turns on the failure monitoring device 100.
  • the monitored object 35 does not execute anything.
  • the monitored object 35 restarts the failure monitoring apparatus 100.
  • the monitored target 35 shuts down the power supply of the failure monitoring apparatus 100.
  • the register 64 reflects the value of the route register 53, that is, shows the same value as the value of the route register 53.
  • the register controller 45 updates the value of the register 64 according to the value of the route register 53.
  • the register controller 45 controls the route switch 44 to switch the route based on the value of the register 64, that is, the value of the route register 53. For example, when the value of the route register 53 is “0”, the register controller 45 selects a route from the WDT unit 34 to the monitored object 5 (hereinafter referred to as route “0”).
  • route “0” a route from the WDT unit 34 to the monitored object 5
  • the register controller 45 controls the route switch 44 so as to select a route from the WDT unit 34 to the firmware (hereinafter referred to as “route 1”). To do.
  • the route switch 44 switches the route connected to the WDT unit 34 to either the route “0” or the route “1” based on the value of the route register 53.
  • FIG. 6 is a sequence diagram illustrating the operation of the failure monitoring apparatus 100 when the firmware and the monitored target 35 are in a normal state.
  • the monitored target 35 notifies the activation instruction of the WDT 51 to the firmware of the microcomputer 32 via the two interrupt lines connected to the WDT control unit 33 (step S21).
  • the firmware reads the value of each register stored in the register unit 42 and the DWT unit 34 (step S22). After reading the value of each register, the firmware returns a response to the activation instruction of the WDT 51 (for example, a response indicating the completion of preparation) to the monitored object 35 via the two interrupt lines connected to the WDT control unit 33. (Step S23). Thereafter, the firmware notifies the WDT unit 34 of an instruction to start the countdown of the WDT 51 via the WDT control unit 33 (step S24).
  • the WDT 51 starts the countdown triggered by this countdown start instruction (step S25).
  • the maximum value, the pre-timeout value, the time-out value, the pre-timeout operation, and the time-out operation of the WDT 51 are set in advance by the monitoring target (for example, OS).
  • the maximum value, pre-timeout value, and timeout value of the WDT 51 are set in the WDT unit 34.
  • the timeout value of the WDT 51 is the minimum value “0”.
  • a value that defines the pre-timeout operation is set in the register 62.
  • a value that defines the timeout operation is set in the register 63.
  • the monitored object 35 transmits a reset instruction of the WDT 51 to the register controller 45 of the WDT control unit 33 via the write / read / reset control line at a fixed reset interval (step S26).
  • the reset interval is determined in advance by the monitored object 5 and is sufficiently smaller than a value obtained by subtracting the pre-timeout value from the maximum value of the WDT 51.
  • the register controller 45 of the WDT control unit 33 receives the reset instruction of the WDT 51 via the second I / F unit 43 and the register unit 42, inverts the value of the route register 53 (0 ⁇ 1), and the route switch 44 Is switched (0 ⁇ 1) (step S27).
  • the register controller 45 resets, that is, initializes the WDT 51 (step S28).
  • the register controller 45 transmits an interrupt to the firmware via the first I / F unit 41, the register unit 42, and the interrupt line (step S29).
  • the firmware returns an instruction to reset the WDT 51 to the register controller 45 via the write / read / reset control line in response to an interrupt from the register controller 45 (step S30).
  • the register controller 45 receives the reset instruction of the WDT 51 via the first I / F unit 41 and the register unit 42, inverts the value of the route register 53 (1 ⁇ 0), and sets the route (1 to 1) of the route switch 44. ⁇ 0) (step S31). Further, the register controller 45 resets, that is, initializes the WDT 51 (step S32). When the firmware and the monitored object 35 are in a normal state, the procedures of steps S26 to S32 are repeatedly executed.
  • the register controller 45 switches the monitoring destination from the monitored target 35 to the firmware in response to a reset instruction received from the monitored target 35, and initializes the WDT 51.
  • the first operation is switched from the firmware to the monitored target 35, and the second operation for initializing the WDT 51 is alternately repeated at regular intervals. Therefore, the register controller 45 can continuously monitor the firmware and the monitored object 35 by using one WDT 51.
  • the first monitoring destination is set in advance as the monitored target 35, but the present embodiment is not limited to this.
  • the first monitoring destination may be set in advance in firmware. In this case, the register controller 45 first executes the second operation and then executes the first operation.
  • FIG. 7 is a sequence diagram showing the operation of the failure monitoring apparatus 100 when a failure occurs in the monitored object 35.
  • the same operations as those shown in FIG. 6 are denoted by the same step numbers, and the description thereof is omitted.
  • steps S26 to S32 in FIG. 6 are repeatedly executed.
  • the monitored object 35 When a failure occurs in the monitored object 35, the monitored object 35 does not transmit a reset instruction for the WDT 51 to the register controller 45 (step S41). Since the register controller 45 waits for a reset instruction of the WDT 51 from the monitored object 35, the route register 53 at this time is in a “0” state. The route switch 44 is in a state where the route “0” is selected.
  • the WDT 51 continues to count down, and the WDT unit 34 transmits a pre-timeout operation interrupt to the register controller 45 when the WDT 51 reaches the pre-timeout value (step S42).
  • the register controller 45 receives the interrupt for the pre-timeout operation, changes the register 61 indicating the timer status to “pre-timeout”, and is opposite to the value “0 (monitored target 35)” indicated by the route register 53.
  • An interrupt for pre-timeout operation is notified to the firmware corresponding to ("1") (step S43). This pre-timeout operation interrupt indicates that a failure has occurred in the monitored object 35.
  • the firmware executes a pre-timeout operation according to the value of the register 62 (step S44).
  • the pre-timeout operation is determined according to the value of the register 62 as described above.
  • the firmware does nothing.
  • the firmware transmits an interrupt as a failure recovery request to the monitored target 35 as a pre-timeout operation.
  • the firmware records a message (SEL Event) indicating the occurrence of the pre-timeout in the nonvolatile memory 31 (step S45).
  • the monitored object 35 starts the first failure recovery operation triggered by an interrupt from the firmware (that is, a failure recovery request) (step S46).
  • the monitored object 35 executes a failure recovery operation by itself in response to a failure recovery request from the firmware.
  • the first failure recovery operation is, for example, retransmission of the reset instruction of the WDT 51 or restart of the monitored object 35, and is determined in advance by the monitored object 35.
  • Step S47 When the monitored object 35 is recovered by the first failure recovery operation, the process returns to step S26 in FIG.
  • the countdown of the WDT 51 proceeds, and the WDT unit 34 transmits an interrupt for timeout operation to the register controller 45 when the WDT 51 reaches the timeout value. (Step S47).
  • the register controller 45 receives the interrupt for the timeout operation, changes the register 61 indicating the timer status to “timeout”, and reverses the value “0 (monitored target 35)” indicated by the route register 53 (“ 1 ”) is notified of a timeout operation interrupt (step S48).
  • This interruption for timeout operation indicates that the failure of the monitored object 35 is in an unrecoverable state.
  • the firmware When the firmware receives a timeout operation interrupt from the register controller 45, the firmware records a message (SEL Event) indicating the occurrence of a timeout in the nonvolatile memory 31 (step S49). By storing a pre-timeout or a message indicating the occurrence of a time-out in the nonvolatile memory 31, the administrator of the failure monitoring apparatus 100 can recognize that a failure has occurred in the monitored target 35. Furthermore, the firmware executes a timeout operation corresponding to the value of the register 63, that is, a second failure recovery operation (step S50). The time-out operation is determined according to the value of the register 63 as described above. When the value of the register 63 is “00b”, the firmware does nothing.
  • the firmware restarts the monitored object 35 in a state where the failure monitoring apparatus 100 is powered on.
  • the firmware turns off the power of the failure monitoring apparatus 100. If the value of the register 63 is “11b”, the firmware turns on the power after the failure monitoring apparatus 100 is turned off. That is, when the value of the register 63 is “01b” or “11b”, the firmware in the normal state can execute the recovery operation of the failure of the monitored target 35.
  • FIG. 8 is a sequence diagram showing the operation of the failure monitoring apparatus 100 when a failure occurs in the firmware.
  • the same operations as those shown in FIG. 6 are denoted by the same step numbers, and the description thereof is omitted.
  • steps S26 to S32 in FIG. 6 are repeatedly executed.
  • the firmware When a failure occurs in the firmware, the firmware does not transmit a reset instruction of the WDT 51 to the register controller 45 (step S51). Since the firmware cannot respond to the interrupt from the register controller 45, the route register 53 at this time is in the “1” state. The route switch 44 is in a state where the route “1” is selected.
  • the monitored object 35 transmits a reset instruction of the WDT 51 to the register controller 45 via the write / read / reset control line at a fixed reset interval (step S52).
  • the register controller 45 receives the reset instruction of the WDT 51 via the second I / F unit 43 and the register unit 42, but maintains the value of the route register 53 (1 ⁇ 1), and the route of the route switch 44 ( 1 ⁇ 1) is maintained (step S53). Since a failure has occurred in the firmware, the operations in steps S52 and S53 are repeated. The countdown of WDT 51 is continued.
  • the WDT unit 34 transmits a pre-timeout operation interrupt to the register controller 45 when the WDT 51 has reached the pre-timeout value (step S54).
  • the register controller 45 receives the interrupt for the pre-timeout operation, changes the register 61 indicating the timer status to “pre-timeout”, and reverses the value “1 (firmware)” indicated by the route register 53 (“0 ”) Is notified to the monitored object 35 corresponding to“) ”(step S55).
  • This pre-timeout operation interrupt indicates that a failure has occurred in the firmware.
  • the monitored object 35 executes the pre-timeout operation according to the value of the register 62 (step S56).
  • the pre-timeout operation is determined according to the value of the register 62 as described above. For example, when the value of the register 62 is “00b”, the monitored object 35 does not execute anything. When the value of the register 62 is “01b”, the monitored target 35 transmits an interrupt for restarting the firmware without turning off the power of the failure monitoring apparatus 100 to the firmware. When the value of the register 62 is “10b”, the monitored object 35 transmits an interrupt to the firmware to restart the firmware by temporarily turning off the failure monitoring apparatus 100.
  • the monitored object 35 records a message (SEL Event) indicating the occurrence of the pre-timeout in the HDD 36 (step S57).
  • the firmware starts the third failure recovery operation in response to an interrupt from the monitored object 35 (that is, a failure recovery request) (step S58). That is, the firmware executes the failure recovery operation in response to the failure recovery request from the monitored target 35.
  • the third failure recovery operation is, for example, restart of firmware, and is determined in advance by the monitoring target 35.
  • step S59 When the firmware is recovered by the third failure recovery operation, the procedure returns to step S30 in FIG.
  • the WDT 51 counts down, and the WDT unit 34 transmits a timeout operation interrupt to the register controller 45 when the WDT 51 reaches the timeout value (step S59).
  • the register controller 45 receives the interruption for timeout operation, changes the register 61 indicating the timer status to “timeout”, and reverses the value “1 (firmware)” indicated by the route register 53 (“0”).
  • a time-out operation interrupt is notified to the monitored object 35 corresponding to (step S60). This timeout operation interrupt indicates that the firmware failure is in an unrecoverable state.
  • the monitored object 35 When the monitored object 35 receives an interruption for timeout operation from the register controller 45, the monitored object 35 records a message (SEL Event) indicating the occurrence of timeout in the HDD 36 (step S61). By storing a pre-timeout or a message indicating the occurrence of a timeout in the HDD 36, the administrator of the failure monitoring apparatus 100 can recognize that a failure has occurred in the firmware. Furthermore, the monitored object 35 executes a time-out operation corresponding to the value of the register 63, that is, a fourth failure recovery operation (step S62). The time-out operation is determined according to the value of the register 63 as described above. When the value of the register 63 is “00b”, the monitored object 35 does nothing.
  • the monitored object 35 When the value of the register 63 is “01b”, the monitored object 35 restarts the failure monitoring apparatus 100. When the value of the register 63 is “10b”, the monitored target 35 shuts down the power supply of the failure monitoring apparatus 100. That is, when the value of the register 63 is “01b” or “10b”, the monitored object 35 in the normal state can execute the recovery operation of the firmware failure.
  • the failure monitoring apparatus 100 includes the WDT 51 that monitors the failure of the firmware that controls the microcomputer 32 and the failure of the monitored target 35 that is operated by the microcomputer 32, and the WDT 51.
  • a route switch 44 and a register controller 45 that alternately switch the monitoring destination are provided. Therefore, the failure monitoring apparatus 100 can detect the occurrence of a failure in the firmware and the monitored target 35 using one watchdog timer.
  • the WDT control unit 33 reads and executes the program stored in the storage medium.
  • Examples of the storage medium for supplying the program include a CD-ROM, DVD, Blu-ray, or SD card.
  • the WDT control unit 33 can achieve the same effect as that of the above embodiment by executing a software program for realizing the function of the failure monitoring apparatus 100.
  • Non-volatile memory 32
  • Microcomputer 33
  • Watchdog timer (WDT) control unit 34
  • Watchdog timer (WDT) unit 35
  • Monitoring target 36
  • Hard disk drive (HDD) 41
  • First I / F Unit 42
  • Register Unit 43
  • Second I / F Unit 44
  • Route Switch 45
  • Register Controller 51
  • Watchdog Timer (WDT) 100 Fault monitoring device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 障害監視装置は、演算装置に実装され、当該演算装置を制御する制御手段と、演算装置によって稼働する被監視対象と、制御手段の障害及び被監視対象の障害を監視する監視手段と、監視手段による監視先を交互に切り替える切替手段とを備える。

Description

障害監視装置、障害監視方法及びプログラム
 本発明は、障害監視装置、障害監視方法及びプログラムに関する。
 図1は、従来の障害監視装置の概略構成図である。図1において、障害監視装置10は、例えば、ATCA(Advanced Telecom Computing Architecture)に準拠するブレードサーバである。ATCAとは、通信事業者向けコンピュータのハードウエア規格である。また、障害監視装置10は、IPMI(Intelligent Platform Management Interface)仕様によって規定されたウォッチドッグタイマを使って、OS(Operating System)、アプリケーション、又はBIOS(Basic Input/Output System)などの障害を監視する。障害監視装置10は、不揮発性メモリ1、マイクロコンピュータ2、ウォッチドッグタイマ(WDT)制御部3、ウォッチドッグタイマ(WDT)部4、及び被監視対象5を備えている。
 マイクロコンピュータ2は、マイクロコンピュータ2自身を制御するファームウェアを実装している。WDT制御部3及びWDT部4は、ファームウェア上で動作する。WDT制御部3は、タイマステータスを示すレジスタ11、ファームウェアが実行するプレタイムアウト動作を示すレジスタ12、及びファームウェアが実行するタイムアウト動作を示すレジスタ13を備えている。WDT制御部3は、被監視装置5の障害監視のために、WDT部4に実装されたウォッチドッグタイマ(WDT)14を使って被監視装置5の動作の継続を確認している。WDT部4は、WDT14及びWDT14のカウント開始及び停止を示すレジスタ15を備えている。被監視対象5は、OS、アプリケーション、又はBIOSなどである。
 WDT制御部3は、3本のライト/リード/リセット制御線を介してマイクロコンピュータ2、WDT部4、及び被監視対象5にそれぞれ接続されている。また、WDT制御部3は、プレタイムアウト用割り込み線及びタイムアウト用割り込み線を介してWDT部4に接続されている。WDT制御部3は、割り込み線を介して被監視対象5に接続されている。
 次に、障害監視装置10の動作について説明する。図2は、被監視対象5が正常状態であるときの障害監視装置10の動作を示すシーケンス図である。
 まず、WDT部4が起動すると、WDT14はカウントダウンを開始する(ステップS1)。ここで、WDT14の最大値、WDT14のプレタイムアウト値、プレタイムアウト動作及びタイムアウト動作は、予め被監視対象(例えば、OS)によって設定されている。WDT14の最大値及びプレタイムアウト値は、WDT部4に設定される。プレタイムアウト動作を規定する値は、レジスタ12に設定される。タイムアウト動作を規定する値は、レジスタ13に設定される。次に、被監視対象5は、予め決められたリセット間隔で、WDT14のリセット指示をWDT制御部3に送信する(ステップS2)。リセット間隔は、予め被監視対象5によって決められており、WDT14の最大値からプレタイムアウト値を減じた値よりも十分に小さい値である。WDT制御部3は、被監視対象5からリセット指示を受信する度に、WDT14をリセットする(ステップS3)。その後、ステップS2及びS3の動作が繰り返し実行される。
 図3は、被監視対象5が異常状態である(即ち、障害が発生している)ときの障害監視装置10の動作を示すシーケンス図である。
 まず、WDT部4が起動すると、WDT14はカウントダウンを開始する(ステップS11)。上記ステップS2及びS3の動作が繰り返される。被監視対象5に障害が発生すると、被監視対象5は、予め決められたリセット間隔で、WDT14のリセット指示をWDT制御部3に送信できなくなる(ステップS12)。
 WDT部4は、WDT14がプレタイムアウト値に到達したことを契機として、プレタイムアウト動作用の割り込みをWDT制御部3に送信する(ステップS13)。WDT制御部3はプレタイムアウト動作用の割り込みを受信し、タイマステータスを示すレジスタ11を「プレタイムアウト」に変更して、マイクロコンピュータ2のファームウェアに割り込みを通知する(ステップS14)。タイマステータスは、IPMI仕様により予め決められており、ノーマル、プレタイムアウト、及びタイムアウトがある。タイマステータスがノーマルである場合は、値「0h」がレジスタ11に設定される。タイマステータスがプレタイムアウトである場合は、値「1h」がレジスタ11に設定される。タイマステータスがタイムアウトである場合は、値「2h」がレジスタ11に設定される。
 ファームウェアは、WDT制御部3から割り込みを受信すると、レジスタ11の値を読み出し、読み出された値に基づいてレジスタ12の値を読み出し、レジスタ12の値に応じたプレタイムアウト動作を実行する(ステップS15)。例えば、レジスタ12の値が「00b」である場合、ファームウェアは、何も実行しない。レジスタ12の値が「01b」である場合、ファームウェアは、被監視対象5が割り込みを受信できるタイミングを待って、割り込みを被監視対象5に送信する。レジスタ12の値が「10b」である場合、ファームウェアは、割り込みを即座に被監視対象5に送信する。レジスタ12の値が「11b」である場合、ファームウェアは、被監視対象5からポーリングを受けたときに、割り込みを被監視対象5に送信する。被監視対象5は、ファームウェアからの割り込みを契機として、障害復旧動作を開始する。さらに、ファームウェアは、マイクロコンピュータ2に接続されている不揮発性メモリ1にプレタイムアウトの発生を表すメッセージ(SEL Event)を記録する(ステップS16)。
 障害復旧動作によっても被監視対象5が復旧しない場合、WDT14のカウントダウンが進み、WDT部4は、WDT14がタイムアウト値に到達したことを契機として、タイムアウト動作用の割り込みをWDT制御部3に送信する(ステップS17)。WDT制御部3はタイムアウト動作用の割り込みを受信し、タイマステータスを示すレジスタ11を「タイムアウト」に変更して、マイクロコンピュータ2のファームウェアに割り込みを通知する(ステップS18)。
 ファームウェアは、WDT制御部3から割り込みを受信すると、レジスタ11の値を読み出し、読み出された値に基づいてレジスタ13の値を読み出し、レジスタ13の値に応じて障害復旧動作としてのタイムアウト動作を実行する(ステップS19)。例えば、レジスタ13の値が「00b」である場合、ファームウェアは、何も実行しない。レジスタ13の値が「01b」である場合、ファームウェアは、障害監視装置10の電源が投入された状態で、監視対象5を再起動する。レジスタ13の値が「10b」である場合、ファームウェアは、障害監視装置10の電源をオフにする。レジスタ13の値が「11b」である場合、ファームウェアは、障害監視装置10の電源をオフにした後、オンにする。さらに、ファームウェアは、マイクロコンピュータ2に接続されている不揮発性メモリ1にタイムアウトの発生を表すメッセージ(SEL Event)を記録する(ステップS20)。
 このように、ウォッチドッグタイマを使ってOSやアプリケーションの異常動作を監視する異常監視装置は、従来から知られている(例えば、特許文献1参照)。また、従来より、複数のウォッチドッグタイマを使って、複数のプログラムの起動を監視する方法が知られている(例えば、特許文献2参照)。この方法では、ハードウェアで構成されたウォッチドッグタイマが複数のプログラムの1つの起動を監視し、ソフトウェアで構成されたウォッチドッグタイマが残りのプログラムの起動を監視する。
特開2009-20545号公報 特開平8-30490号公報
 ところで、上記障害監視装置10は、被監視対象5の障害を監視するが、ファームウェアに障害が発生すると、ファームウェアが自身の障害を検知できない。また、ファームウェアに障害が発生すると、ファームウェアから被監視対象5に割り込みが送信されず、プレタイムアウト時に被監視対象5が障害復旧動作を実行しないおそれがある。また、被監視対象5はファームウェアの障害を検知できないため、ファームウェアに障害が発生すると、障害監視装置10は異常状態(誤動作を起こし得る状態)で動作を継続する。
 上記課題に鑑み、明細書に開示された障害監視装置、障害監視方法及びプログラムは、制御手段及び被監視対象の障害の発生を検出できることを目的とする。
 上記目的を達成するため、明細書に開示された障害監視装置は、演算装置に実装され、当該演算装置を制御する制御手段と、前記演算装置によって稼働する被監視対象と、前記制御手段の障害及び前記被監視対象の障害を監視する監視手段と、前記監視手段による監視先を交互に切り替える切替手段とを備える。
 明細書に開示された障害監視方法は、コンピュータに、演算装置に実装され、当該演算装置を制御する制御手段に生じる障害及び前記演算装置によって稼働する被監視対象に生じる障害を監視する第1手順と、前記第1手順による監視先を交互に切り替える第2手順とを実行させる。
 明細書に開示されたプログラムは、コンピュータに、演算装置に実装され、当該演算装置を制御する制御手段に生じる障害及び前記演算装置によって稼働する被監視対象に生じる障害を監視する第1手順と、前記第1手順による監視先を交互に切り替える第2手順とを実行させる。
 明細書に開示された障害監視装置、障害監視方法及びプログラムは、制御手段及び被監視対象の障害の発生を検出できる。
従来の障害監視装置の概略構成図である。 被監視対象5が正常状態であるときの障害監視装置10の動作を示すシーケンス図である。 被監視対象5が異常状態であるときの障害監視装置10の動作を示すシーケンス図である。 本実施の形態に係る障害監視装置100の概略構成図である。 図4のレジスタ部42の概略構成図である。 ファームウェア及び被監視対象35が正常状態であるときの障害監視装置100の動作を示すシーケンス図である。 被監視対象35に障害が発生したときの障害監視装置100の動作を示すシーケンス図である。 ファームウェアに障害が発生したときの障害監視装置100の動作を示すシーケンス図である。
 以下、図面を参照しながら本発明の実施の形態を説明する。
 図4は、本実施の形態に係る障害監視装置の概略構成図である。
 図4において、障害監視装置100は、例えば、ATCA(Advanced Telecom Computing Architecture)に準拠するブレードサーバである。ATCAとは、通信事業者向けコンピュータのハードウエア規格である。また、障害監視装置100は、IPMI(Intelligent Platform Management Interface)仕様によって規定されたウォッチドッグタイマを使って、ファームウェア、OS(Operating System)、アプリケーション、又はBIOS(Basic Input/Output System)などの障害を監視する。
 障害監視装置100は、不揮発性メモリ31、マイクロコンピュータ32、ウォッチドッグタイマ(WDT)制御部33、ウォッチドッグタイマ(WDT)部34、及び被監視対象35、及びハードディスクドライブ(HDD)36を備えている。不揮発性メモリ31及びHDD36は記録媒体として機能する。演算装置としてのマイクロコンピュータ32は、マイクロコンピュータ32自身を制御するファームウェア(制御手段として機能する)を実装している。マイクロコンピュータ32は、被監視対象35にプレタイムアウト又はタイムアウトが発生したことを表すメッセージを不揮発性メモリ31に格納する。WDT制御部33及びWDT部34は、ファームウェア上で動作する。
 WDT制御部33は、第1インターフェース(I/F)部41、レジスタ部42、第2インターフェース(I/F)部43、方路スイッチ44、及びレジスタコントローラ45を備えている。方路スイッチ44及びレジスタコントローラ45は、切替手段として機能する。第1インターフェース(I/F)部41は、ライト/リード/リセット制御線及び割り込み線を介してマイクロコンピュータ32に接続されている。第1インターフェース(I/F)部41は、ファームウェアからWDT部34へのアクセスを中継したり、ファームウェアと被監視対象35との間で送受信される指示を中継する。レジスタ部42は、複数のレジスタを含む。これらのレジスタの詳細は後述する。第2インターフェース(I/F)部43は、ライト/リード/リセット制御線及び割り込み線を介して被監視対象35に接続されている。第2インターフェース(I/F)部43は、被監視対象35からWDT部34へのアクセスを中継したり、ファームウェアと被監視対象35との間で送受信される指示を中継する。
 方路スイッチ44は、WDT部34へアクセスする対象をマイクロコンピュータ32又は被監視対象35のいずれかに切り替える、即ち、WDT部34からマイクロコンピュータ32への方路又はWDT部34から被監視対象35への方路のいずれかに切り替える。初期状態では、WDT部34へのアクセスする対象は、例えば被監視対象35に設定されている。レジスタコントローラ45は、方路スイッチ44の切替動作及びレジスタ部42に含まれる複数のレジスタの値の読み書き動作を制御する。レジスタコントローラ45は、被監視装置35又はファームウェアの障害監視のために、WDT部34に実装されたウォッチドッグタイマ(WDT)51を使って被監視装置35又はファームウェアの動作の継続を確認している。
 WDT部34は、WDT51、WDT51のカウント開始及び停止を示すレジスタ52、及び監視する対象を特定する方路レジスタ53を備えている。WDT51の最大値、プレタイムアウト値(第1の閾値)及びタイムアウト値(第2の閾値)は、予め被監視対象35によって設定されている。WDT51のタイムアウト値は、最小値「0」である。WDT51は最大値からカウントダウンし、プレタイムアウト値に到達すると、WDT部34は割り込みをプレタイムアウト用割り込み線を介してWDT制御部33のレジスタコントローラ45に通知する。また、WDT51がタイムアウト値に到達すると、WDT部34は割り込みをタイムアウト用割り込み線を介してWDT制御部33のレジスタコントローラ45に通知する。
 WDT部34がファームウェアからカウントダウンの開始指示を受信すると、レジスタ52は、WDT51のカウント開始を示す値「1」に設定される。WDT部34がファームウェアからカウントダウンの停止指示を受信すると、レジスタ52は、WDT51のカウント停止を示す値「0」に設定される。方路レジスタ53には、「0」又は「1」が設定される。方路レジスタ53の値が「0」である場合には、WDT51は、被監視対象35の障害発生を検知するためにカウントダウンする。方路レジスタ53の値が「1」である場合には、WDT51は、ファームウェアの障害発生を検知するためにカウントダウンする。
 被監視対象35は、OS、アプリケーション、又はBIOSなどである。被監視対象35は、ファームウェアにプレタイムアウト又はタイムアウトが発生したことを表すメッセージをハードディスクドライブ(HDD)36に格納する。
 WDT制御部33は、3本のライト/リード/リセット制御線を介してそれぞれマイクロコンピュータ32、WDT部34、及び被監視対象35に接続されている。また、WDT制御部33は、プレタイムアウト用割り込み線及びタイムアウト用割り込み線を介しWDT部34に接続されている。WDT制御部33は、2本の割り込み線を介してそれぞれマイクロコンピュータ32及び被監視対象35に接続されている。
 図5に示すように、レジスタ部42は、レジスタ61~64を備えている。レジスタ61は、WDT51のタイマステータスを規定する。WDT51のタイマステータスは、IPMI仕様により予め決められており、例えば、「ノーマル」、「プレタイムアウト」、「タイムアウト」がある。WDT51が「ノーマル」である場合は、値「0h」がレジスタ61に設定される。WDT51が「プレタイムアウト」である場合は、値「1h」がレジスタ61に設定される。WDT51が「タイムアウト」である場合は、値「2h」がレジスタ61に設定される。
 レジスタ62は、ファームウェア又は被監視対象35が実行するプレタイムアウト動作を規定する。プレタイムアウト動作とは、WDT51のタイマステータスが「プレタイムアウト」である場合に、ファームウェア又は被監視対象35が実行する動作である。例えば、被監視対象35に障害が発生し、レジスタ62の値が「00b」である場合、ファームウェアは、何も実行しない。被監視対象35に障害が発生し、レジスタ62の値が「01b」である場合、ファームウェアは、被監視対象35が割り込みを受信できるタイミングを待って、割り込みを被監視対象35に送信する。被監視対象35に障害が発生し、レジスタ62の値が「10b」である場合、ファームウェアは、割り込みを即座に被監視対象35に送信する。被監視対象35に障害が発生し、レジスタ62の値が「11b」である場合、ファームウェアは、被監視対象35からポーリングを受けたときに、割り込みを被監視対象35に送信する。被監視対象35は、ファームウェアからの割り込みを契機として、障害復旧動作を開始する。
 また、例えば、ファームウェアに障害が発生し、レジスタ62の値が「00b」である場合、被監視対象35は、何も実行しない。ファームウェアに障害が発生し、レジスタ62の値が「01b」である場合、被監視対象35は、障害監視装置100の電源を切らずにファームウェアの再起動を行うための割り込みをファームウェアに送信する。ファームウェアに障害が発生し、レジスタ62の値が「01b」である場合、被監視対象35は、障害監視装置100の電源を一旦切ってファームウェアの再起動を行うための割り込みをファームウェアに送信する。ファームウェアは、被監視対象35からの割り込みを契機として、障害復旧動作を開始する。
 レジスタ63は、ファームウェア又は被監視対象35が実行するタイムアウト動作を規定する。タイムアウト動作とは、WDT51のタイマステータスが「タイムアウト」である場合に、ファームウェア又は被監視対象35が実行する動作である。例えば、被監視対象35に障害が発生し、レジスタ63の値が「00b」である場合、ファームウェアは、何も実行しない。被監視対象35に障害が発生し、レジスタ63の値が「01b」である場合、ファームウェアは、障害監視装置100の電源が投入された状態で、監視対象5を再起動する。被監視対象35に障害が発生し、レジスタ63の値が「10b」である場合、ファームウェアは、障害監視装置100の電源をオフにする。被監視対象35に障害が発生し、レジスタ63の値が「11b」である場合、ファームウェアは、障害監視装置100の電源をオフにした後、障害監視装置100の電源をオンにする。
 また、例えば、ファームウェアに障害が発生し、レジスタ63の値が「00b」である場合、被監視対象35は、何も実行しない。ファームウェアに障害が発生し、レジスタ63の値が「01b」である場合、被監視対象35は、障害監視装置100の再起動を行う。ファームウェアに障害が発生し、レジスタ63の値が「10b」である場合、被監視対象35は、障害監視装置100の電源をシャットダウンする。
 レジスタ64は、方路レジスタ53の値を反映する、即ち方路レジスタ53の値と同じ値を示す。方路レジスタ53の値が更新される度に、レジスタコントローラ45は、方路レジスタ53の値に応じて、レジスタ64の値を更新する。また、レジスタコントローラ45は、レジスタ64の値、即ち、方路レジスタ53の値に基づいて、方路を切り替えるように方路スイッチ44を制御する。例えば、方路レジスタ53の値が「0」である場合には、レジスタコントローラ45は、WDT部34から被監視対象5への方路(以下方路「0」という)を選択するように方路スイッチ44を制御する。方路レジスタ53の値が「1」である場合には、レジスタコントローラ45は、WDT部34からファームウェアへの方路(以下「方路1」という)を選択するように方路スイッチ44を制御する。換言すれば、方路スイッチ44は、方路レジスタ53の値に基づいて、WDT部34に接続される方路を方路「0」又は方路「1」のいずれかに切り替える。
 次に、障害監視装置100の動作について説明する。図6は、ファームウェア及び被監視対象35が正常状態であるときの障害監視装置100の動作を示すシーケンス図である。
 まず、被監視対象35が、WDT51の起動指示をWDT制御部33に接続される2本の割り込み線を介してマイクロコンピュータ32のファームウェアに通知する(ステップS21)。ファームウェアは、レジスタ部42及びDWT部34に格納された各レジスタの値を読み出す(ステップS22)。ファームウェアは、各レジスタの値を読み出した後、WDT51の起動指示に対する応答(例えば、準備完了を示す応答)をWDT制御部33に接続される2本の割り込み線を介して被監視対象35に返信する(ステップS23)。その後、ファームウェアは、WDT51のカウントダウン開始の指示をWDT制御部33を介してWDT部34に通知する(ステップS24)。
 WDT51は、このカウントダウン開始の指示を契機として、カウントダウンを開始する(ステップS25)。ここで、WDT51の最大値、プレタイムアウト値、タイムアウト値、プレタイムアウト動作及びタイムアウト動作は、予め被監視対象(例えば、OS)によって設定されている。WDT51の最大値、プレタイムアウト値及びタイムアウト値は、WDT部34に設定される。WDT51のタイムアウト値は、最小値「0」である。プレタイムアウト動作を規定する値は、レジスタ62に設定される。タイムアウト動作を規定する値は、レジスタ63に設定される。
 次に、被監視対象35は、一定のリセット間隔で、WDT51のリセット指示をライト/リード/リセット制御線を介してWDT制御部33のレジスタコントローラ45に送信する(ステップS26)。リセット間隔は、予め被監視対象5によって決められており、WDT51の最大値からプレタイムアウト値を減じた値よりも十分に小さい値である。
 WDT制御部33のレジスタコントローラ45は、WDT51のリセット指示を第2I/F部43及びレジスタ部42を介して受信し、方路レジスタ53の値を反転し(0→1)、方路スイッチ44の方路(0→1)を切り替える(ステップS27)。レジスタコントローラ45は、WDT51をリセットする、即ち、初期化する(ステップS28)。レジスタコントローラ45は、割り込みを第1I/F部41、レジスタ部42及び割り込み線を介してファームウェアに送信する(ステップS29)。
 ファームウェアは、レジスタコントローラ45からの割り込みを契機として、WDT51のリセット指示をライト/リード/リセット制御線を介してレジスタコントローラ45に返信する(ステップS30)。
 レジスタコントローラ45は、WDT51のリセット指示を第1I/F部41及びレジスタ部42を介して受信し、方路レジスタ53の値を反転し(1→0)、方路スイッチ44の方路(1→0)を切り替える(ステップS31)。さらに、レジスタコントローラ45は、WDT51をリセットする、即ち、初期化する(ステップS32)。ファームウェア及び被監視対象35が正常状態であるときは、ステップS26~S32の手順が繰り返し実行される。
 図6によれば、レジスタコントローラ45は、ファームウェア及び被監視対象35の正常時に、被監視対象35から受信するリセット指示に応じて、監視先を被監視対象35からファームウェアに切り替え、WDT51を初期化する第1の動作と、ファームウェアからのリセット指示に応じて監視先をファームウェアから被監視対象35に切り替え、WDT51を初期化する第2の動作とを一定間隔で交互に繰り返す。よって、レジスタコントローラ45は、1つのWDT51を利用してファームウェア及び被監視対象35を交互に監視し続けることができる。尚、図6では、最初の監視先が予め被監視対象35に設定されているが、本実施の形態は、これに限定されない。例えば、最初の監視先が予めファームウェアに設定されていてもよい。この場合、レジスタコントローラ45は、最初に第2の動作を実行し、次に第1の動作を実行する。
 図7は、被監視対象35に障害が発生したときの障害監視装置100の動作を示すシーケンス図である。ここで、図6に示す動作と同様の動作については、同一のステップ番号を付し、その説明を省略する。
 まず、ファームウェア及び被監視対象35が正常状態であるときは、図6のステップS26~S32の手順が繰り返し実行される。
 被監視対象35に障害が発生すると、被監視対象35は、WDT51のリセット指示をレジスタコントローラ45に送信しなくなる(ステップS41)。レジスタコントローラ45は被監視対象35からのWDT51のリセット指示を待っているので、この時点の方路レジスタ53は「0」の状態である。方路スイッチ44は、方路「0」を選択している状態である。
 その後、WDT51のカウントダウンが継続し、WDT部34は、WDT51がプレタイムアウト値に到達したことを契機として、プレタイムアウト動作用の割り込みをレジスタコントローラ45に送信する(ステップS42)。レジスタコントローラ45はプレタイムアウト動作用の割り込みを受信し、タイマステータスを示すレジスタ61を「プレタイムアウト」に変更して、方路レジスタ53の示す値「0(被監視対象35)」と逆の値(「1」)に対応するファームウェアにプレタイムアウト動作用の割り込みを通知する(ステップS43)。このプレタイムアウト動作用の割り込みは、被監視対象35に障害が発生していることを示す。
 ファームウェアは、レジスタコントローラ45からプレタイムアウト動作用の割り込みを受信すると、レジスタ62の値に応じたプレタイムアウト動作を実行する(ステップS44)。プレタイムアウト動作は、上述したように、レジスタ62の値に応じて決められている。レジスタ62の値が「00b」である場合、ファームウェアは、何も実行しない。レジスタ62の値が「01b」「10b」又は「11b」である場合、ファームウェアは、プレタイムアウト動作として、障害の復旧要求としての割り込みを被監視対象35に送信する。さらに、ファームウェアは、不揮発性メモリ31にプレタイムアウトの発生を表すメッセージ(SEL Event)を記録する(ステップS45)。被監視対象35は、ファームウェアからの割り込み(即ち、障害の復旧要求)を契機として、第1障害復旧動作を開始する(ステップS46)。つまり、被監視対象35は、ファームウェアからの障害の復旧要求に応じて、自ら障害の復旧動作を実行する。ここで、第1障害復旧動作は、例えば、WDT51のリセット指示の再送信、又は被監視対象35の再起動などであり、予め被監視対象35で決められている。
 第1障害復旧動作によって被監視対象35が復旧した場合には、図6のステップS26の手順に戻る。第1障害復旧動作によって被監視対象35が復旧しない場合、WDT51のカウントダウンが進み、WDT部34は、WDT51がタイムアウト値に到達したことを契機として、タイムアウト動作用の割り込みをレジスタコントローラ45に送信する(ステップS47)。
 レジスタコントローラ45はタイムアウト動作用の割り込みを受信し、タイマステータスを示すレジスタ61を「タイムアウト」に変更して、方路レジスタ53の示す値「0(被監視対象35)」と逆の値(「1」)に対応するファームウェアにタイムアウト動作用の割り込みを通知する(ステップS48)。このタイムアウト動作用の割り込みは、被監視対象35の障害が復旧不能状態であることを示す。
 ファームウェアは、レジスタコントローラ45からタイムアウト動作用の割り込みを受信すると、不揮発性メモリ31にタイムアウトの発生を表すメッセージ(SEL Event)を記録する(ステップS49)。不揮発性メモリ31にプレタイムアウト又はタイムアウトの発生を表すメッセージを記憶することにより、障害監視装置100の管理者は、被監視対象35に障害が発生していることを認識することができる。さらに、ファームウェアは、レジスタ63の値に応じたタイムアウト動作、即ち第2障害復旧動作を実行する(ステップS50)。タイムアウト動作は、上述したように、レジスタ63の値に応じて決められている。レジスタ63の値が「00b」である場合、ファームウェアは、何も実行しない。レジスタ63の値が「01b」である場合、ファームウェアは、障害監視装置100の電源が投入された状態で、被監視対象35を再起動する。レジスタ63の値が「10b」である場合、ファームウェアは、障害監視装置100の電源をオフにする。レジスタ63の値が「11b」である場合、ファームウェアは、障害監視装置100の電源をオフにした後、オンにする。つまり、レジスタ63の値が「01b」又は「11b」である場合には、正常状態にあるファームウェアが、被監視対象35の障害の復旧動作を実行することができる。
 図8は、ファームウェアに障害が発生したときの障害監視装置100の動作を示すシーケンス図である。ここで、図6に示す動作と同様の動作については、同一のステップ番号を付し、その説明を省略する。
 まず、ファームウェア及び被監視対象35が正常状態であるときは、図6のステップS26~S32の手順が繰り返し実行される。
 ファームウェアに障害が発生すると、ファームウェアは、WDT51のリセット指示をレジスタコントローラ45に送信しなくなる(ステップS51)。ファームウェアは、レジスタコントローラ45からの割り込みに応答できない状態なので、この時点の方路レジスタ53は「1」の状態である。方路スイッチ44は、方路「1」を選択している状態である。
 一方、被監視対象35は、一定のリセット間隔で、WDT51のリセット指示をライト/リード/リセット制御線を介してレジスタコントローラ45に送信する(ステップS52)。レジスタコントローラ45は、WDT51のリセット指示を第2I/F部43及びレジスタ部42を介して受信するが、方路レジスタ53の値を維持し(1→1)、方路スイッチ44の方路(1→1)を維持する(ステップS53)。ファームウェアに障害が発生しているため、ステップS52,S53の動作が繰り返し実行される。WDT51のカウントダウンは継続されている。
 その後、WDT部34は、WDT51がプレタイムアウト値に到達したことを契機として、プレタイムアウト動作用の割り込みをレジスタコントローラ45に送信する(ステップS54)。レジスタコントローラ45はプレタイムアウト動作用の割り込みを受信し、タイマステータスを示すレジスタ61を「プレタイムアウト」に変更して、方路レジスタ53の示す値「1(ファームウェア)」と逆の値(「0」)に対応する被監視対象35にプレタイムアウト動作用の割り込みを通知する(ステップS55)。このプレタイムアウト動作用の割り込みは、ファームウェアに障害が発生していることを示す。
 被監視対象35は、レジスタコントローラ45からプレタイムアウト動作用の割り込みを受信すると、レジスタ62の値に応じたプレタイムアウト動作を実行する(ステップS56)。プレタイムアウト動作は、上述したように、レジスタ62の値に応じて決められている。例えば、レジスタ62の値が「00b」である場合、被監視対象35は、何も実行しない。レジスタ62の値が「01b」である場合、被監視対象35は、障害監視装置100の電源を切らずにファームウェアの再起動を行うための割り込みをファームウェアに送信する。レジスタ62の値が「10b」である場合、被監視対象35は、障害監視装置100の電源を一旦切ってファームウェアの再起動を行うための割り込みをファームウェアに送信する。さらに、被監視対象35は、HDD36にプレタイムアウトの発生を表すメッセージ(SEL Event)を記録する(ステップS57)。ファームウェアは、被監視対象35からの割り込み(即ち、障害の復旧要求)を契機として、第3障害復旧動作を開始する(ステップS58)。つまり、ファームウェアは、被監視対象35からの障害の復帰要求に応じて自ら障害の復旧動作を実行する。ここで、第3障害復旧動作は、例えば、ファームウェアの再起動であり、予め被監視対象35で決められている。
 第3障害復旧動作によってファームウェアが復旧した場合には、図6のステップS30の手順に戻る。障害復旧動作によってファームウェアが復旧しない場合、WDT51のカウントダウンが進み、WDT部34は、WDT51がタイムアウト値に到達したことを契機として、タイムアウト動作用の割り込みをレジスタコントローラ45に送信する(ステップS59)。
 レジスタコントローラ45はタイムアウト動作用の割り込みを受信し、タイマステータスを示すレジスタ61を「タイムアウト」に変更して、方路レジスタ53の示す値「1(ファームウェア)」と逆の値(「0」)に対応する被監視対象35にタイムアウト動作用の割り込みを通知する(ステップS60)。このタイムアウト動作用の割り込みは、ファームウェアの障害が復旧不能状態であることを示す。
 被監視対象35は、レジスタコントローラ45からタイムアウト動作用の割り込みを受信すると、被監視対象35は、HDD36にタイムアウトの発生を表すメッセージ(SEL Event)を記録する(ステップS61)。HDD36にプレタイムアウト又はタイムアウトの発生を表すメッセージを記憶することにより、障害監視装置100の管理者は、ファームウェアに障害が発生していることを認識することができる。さらに、被監視対象35は、レジスタ63の値に応じたタイムアウト動作、即ち第4障害復旧動作を実行する(ステップS62)。タイムアウト動作は、上述したように、レジスタ63の値に応じて決められている。レジスタ63の値が「00b」である場合、被監視対象35は、何も実行しない。レジスタ63の値が「01b」である場合、被監視対象35は、障害監視装置100の再起動を行う。レジスタ63の値が「10b」である場合、被監視対象35は、障害監視装置100の電源をシャットダウンする。つまり、レジスタ63の値が「01b」又は「10b」である場合には、正常状態にある被監視対象35が、ファームウェアの障害の復旧動作を実行することができる。
 以上説明したように、本実施の形態によれば、障害監視装置100は、マイクロコンピュータ32を制御するファームウェアの障害及びマイクロコンピュータ32によって稼働する被監視対象35の障害を監視するWDT51と、WDT51による監視先を交互に切り替える方路スイッチ44及びレジスタコントローラ45とを備えている。よって、障害監視装置100は、1つのウォッチドッグタイマを使用して、ファームウェア及び被監視対象35の障害の発生を検出できる。
 障害監視装置100の機能を実現するためのソフトウェアのプログラムが記録されている記録媒体を、障害監視装置100に供給し、WDT制御部33が記憶媒体に格納されたプログラムを読み出し実行することによっても、上記実施の形態と同様の効果を奏する。プログラムを供給するための記憶媒体としては、例えば、CD-ROM、DVD、ブルーレイ又はSDカードなどがある。また、WDT制御部33が、障害監視装置100の機能を実現するためのソフトウェアのプログラムを実行することによっても、上記実施の形態と同様の効果を奏する。
31 不揮発性メモリ
32 マイクロコンピュータ
33 ウォッチドッグタイマ(WDT)制御部
34 ウォッチドッグタイマ(WDT)部
35 被監視対象
36 ハードディスクドライブ(HDD)
41 第1I/F部
42 レジスタ部
43 第2I/F部
44 方路スイッチ
45 レジスタコントローラ
51 ウォッチドッグタイマ(WDT)
100 障害監視装置

Claims (7)

  1.  演算装置に実装され、当該演算装置を制御する制御手段と、
     前記演算装置によって稼働する被監視対象と、
     前記制御手段の障害及び前記被監視対象の障害を監視する監視手段と、前記監視手段による監視先を交互に切り替える切替手段とを備えることを特徴とする障害監視装置。
  2.  前記監視手段は、カウントダウンを実行するウォッチドッグタイマを備え、
     前記切替手段は、前記制御手段及び前記被監視対象の正常時に、前記被監視対象から受信する指示に応じて、前記監視先を前記制御手段に切り替え、前記ウォッチドッグタイマを初期化する第1の動作と、前記制御手段からの指示に応じて前記監視先を前記被監視対象に切り替え、前記ウォッチドッグタイマを初期化する第2の動作とを一定間隔で繰り返すことを特徴とする請求項1に記載の障害監視装置。
  3.  前記切替手段が前記制御手段及び前記被監視対象のいずれか一方から前記ウォッチドッグタイマの初期化指示を受信せず、かつ前記ウォッチドッグタイマのカウントダウンが予め決められた第1の閾値に到達しても前記ウォッチドッグタイマが初期化されない場合に、前記切替手段は、前記ウォッチドッグタイマの初期化指示を送信しない前記制御手段及び前記被監視対象のいずれか一方の障害の発生を前記制御手段及び前記被監視対象の他方へ通知し、
     当該障害の発生を通知された前記制御手段及び前記被監視対象の他方は、前記障害の発生を示す情報を記録媒体に記憶することを特徴とする請求項2に記載の障害監視装置。
  4.  前記障害の発生を通知された前記制御手段及び前記被監視対象の他方は、前記障害が発生している前記制御手段及び前記被監視対象のいずれか一方へ当該障害の復旧要求を通知し、前記障害が発生している前記制御手段及び前記被監視対象のいずれか一方が当該障害の復旧動作を実行することを特徴とする請求項3に記載の障害監視装置。
  5.  前記障害の復旧動作によって当該障害が復旧せず、かつ前記ウォッチドッグタイマのカウントダウンが予め決められた第2の閾値に到達しても前記ウォッチドッグタイマが初期化されない場合に、前記切替手段は、前記ウォッチドッグタイマの初期化指示を送信しない前記制御手段及び前記被監視対象のいずれか一方の障害の復旧不能状態を前記制御手段及び前記被監視対象の他方へ通知し、
     当該障害の発生を通知された前記制御手段及び前記被監視対象の他方は、前記障害の復旧不能状態を示す情報を前記記録媒体に記憶すると共に他の障害の復旧動作を実行することを特徴とする請求項4に記載の障害監視装置。
  6.  コンピュータに、
     演算装置に実装され、当該演算装置を制御する制御手段に生じる障害及び前記演算装置によって稼働する被監視対象に生じる障害を監視する第1手順と、
     前記第1手順による監視先を交互に切り替える第2手順と
     を実行させることを特徴とする障害監視方法。
  7.  コンピュータに、
     演算装置に実装され、当該演算装置を制御する制御手段に生じる障害及び前記演算装置によって稼働する被監視対象に生じる障害を監視する第1手順と、
     前記第1手順による監視先を交互に切り替える第2手順と
     を実行させることを特徴とするプログラム。
PCT/JP2010/068753 2010-10-22 2010-10-22 障害監視装置、障害監視方法及びプログラム WO2012053110A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2010/068753 WO2012053110A1 (ja) 2010-10-22 2010-10-22 障害監視装置、障害監視方法及びプログラム
JP2012539551A JPWO2012053110A1 (ja) 2010-10-22 2010-10-22 障害監視装置、障害監視方法及びプログラム
US13/856,008 US20130227333A1 (en) 2010-10-22 2013-04-03 Fault monitoring device, fault monitoring method, and non-transitory computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/068753 WO2012053110A1 (ja) 2010-10-22 2010-10-22 障害監視装置、障害監視方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/856,008 Continuation US20130227333A1 (en) 2010-10-22 2013-04-03 Fault monitoring device, fault monitoring method, and non-transitory computer-readable recording medium

Publications (1)

Publication Number Publication Date
WO2012053110A1 true WO2012053110A1 (ja) 2012-04-26

Family

ID=45974843

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/068753 WO2012053110A1 (ja) 2010-10-22 2010-10-22 障害監視装置、障害監視方法及びプログラム

Country Status (3)

Country Link
US (1) US20130227333A1 (ja)
JP (1) JPWO2012053110A1 (ja)
WO (1) WO2012053110A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156603A (ja) * 2017-03-21 2018-10-04 日本電気株式会社 情報処理装置及び情報処理方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747184B2 (en) * 2013-12-16 2017-08-29 Artesyn Embedded Computing, Inc. Operation of I/O in a safe system
KR101673303B1 (ko) * 2014-11-12 2016-11-22 현대자동차주식회사 와치독 제어 방법 및 장치
TWI529624B (zh) * 2015-03-19 2016-04-11 Univ Nat Central Method and system of fault tolerance for multiple servers
KR102355424B1 (ko) * 2017-09-13 2022-01-26 현대자동차주식회사 차량용 중앙 처리 장치를 제어하는 워치독 회로의 신뢰성을 향상시키는 장치 및 방법
TWI808362B (zh) * 2020-12-03 2023-07-11 宜鼎國際股份有限公司 可自我監視及恢復作業系統運作的電腦系統及方法
CN113312214B (zh) * 2021-06-10 2024-05-31 北京百度网讯科技有限公司 操作计算机的方法、装置、电子设备和存储介质
CN114780283B (zh) * 2022-06-20 2022-11-01 新华三信息技术有限公司 一种故障处理的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147255A (ja) * 1994-11-18 1996-06-07 Hitachi Ltd 障害監視方式
JPH09244923A (ja) * 1996-03-11 1997-09-19 Hitachi Ltd ウォッチドッグタイマを用いた異常監視装置
JPH1063544A (ja) * 1996-08-20 1998-03-06 Toshiba Corp タイムアウト監視方式
JP2002091802A (ja) * 2000-09-14 2002-03-29 Denso Corp 電子制御システムの暴走監視装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61226845A (ja) * 1985-03-30 1986-10-08 Nec Corp ウオツチドツグタイマ
US6959404B2 (en) * 2001-08-23 2005-10-25 Texas Instruments Incorporated Extended dynamic range watchdog timer
KR20040083869A (ko) * 2003-03-25 2004-10-06 유티스타콤코리아 유한회사 하드웨어 감시장치 기능을 이용한 트렁크 라인 이중화절체 방법
JP4437812B2 (ja) * 2006-12-19 2010-03-24 富士通テン株式会社 電子制御装置
WO2008111124A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited マルチcpu異常検出復旧システム、方法及びプログラム
JP5074457B2 (ja) * 2009-06-04 2012-11-14 株式会社日立製作所 計算機システム、スイッチ切り替え方法及びpciスイッチ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147255A (ja) * 1994-11-18 1996-06-07 Hitachi Ltd 障害監視方式
JPH09244923A (ja) * 1996-03-11 1997-09-19 Hitachi Ltd ウォッチドッグタイマを用いた異常監視装置
JPH1063544A (ja) * 1996-08-20 1998-03-06 Toshiba Corp タイムアウト監視方式
JP2002091802A (ja) * 2000-09-14 2002-03-29 Denso Corp 電子制御システムの暴走監視装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156603A (ja) * 2017-03-21 2018-10-04 日本電気株式会社 情報処理装置及び情報処理方法
JP7069551B2 (ja) 2017-03-21 2022-05-18 日本電気株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
US20130227333A1 (en) 2013-08-29
JPWO2012053110A1 (ja) 2014-02-24

Similar Documents

Publication Publication Date Title
WO2012053110A1 (ja) 障害監視装置、障害監視方法及びプログラム
JP6555096B2 (ja) 情報処理装置およびプログラム更新制御方法
JP5754508B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5659894B2 (ja) ソフトウェア更新装置、ソフトウェア更新方法、及びソフトウェア更新プログラム
AU2014376751B2 (en) Redundant system and method for managing redundant system
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
US20190317583A1 (en) System and Method of Remote Power/Power Over Ethernet (POE) Device Controls
JP2015035175A (ja) 情報処理装置、仮想マシン制御方法および仮想マシン制御プログラム
JP2003099146A (ja) 計算機システムの起動制御方式
JP2009245391A (ja) 情報処理装置、エラー処理方法及びプログラム
JP2014191491A (ja) 情報処理装置および情報処理システム
JP2013125493A (ja) コンピュータシステム、待機電力削減方法、及びプログラム
JP2010086363A (ja) 情報処理装置及び装置構成組み換え制御方法
JP5332518B2 (ja) ビルドアップ方式電子計算機、切替制御方法及びプログラム
JP2005122424A (ja) ウオッチドッグタイマ
JP5651004B2 (ja) 計算機切替システム、計算機切替プログラム、および計算機切替方法
JP2010009293A (ja) コンピュータシステム及び系切替方法
JP2018147510A (ja) サーバ装置およびサーバシステム
JP6627366B2 (ja) 情報処理システム、情報処理方法およびプログラム
JP2019164578A (ja) 制御システム、情報処理装置、制御方法、raidコントローラの復旧方法及びプログラム。
JP2012098767A (ja) ディスクアレイコントローラ装置及びその制御方法
KR101969393B1 (ko) 2단계 컨트롤을 통한 cctv 녹화기 와치독 시스템
JP6710128B2 (ja) 通信装置及び通信装置の復旧方法
JP2005327045A (ja) 演算処理装置の障害情報記録システム、障害情報の記録方法
JP6123375B2 (ja) 監視制御装置及び方法、組み込み制御装置、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10858664

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012539551

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10858664

Country of ref document: EP

Kind code of ref document: A1