WO2016194170A1 - 障害検出装置および障害検出システム - Google Patents

障害検出装置および障害検出システム Download PDF

Info

Publication number
WO2016194170A1
WO2016194170A1 PCT/JP2015/066053 JP2015066053W WO2016194170A1 WO 2016194170 A1 WO2016194170 A1 WO 2016194170A1 JP 2015066053 W JP2015066053 W JP 2015066053W WO 2016194170 A1 WO2016194170 A1 WO 2016194170A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
monitoring target
wdt
signal
counter
Prior art date
Application number
PCT/JP2015/066053
Other languages
English (en)
French (fr)
Inventor
治英 鬼村
貴憲 河野
朋永 糸井
一輝 佐藤
拓也 棚林
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2015/066053 priority Critical patent/WO2016194170A1/ja
Publication of WO2016194170A1 publication Critical patent/WO2016194170A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring

Definitions

  • the present invention relates to a failure detection device and a failure detection system for detecting a failure to be monitored.
  • Patent Document 1 states that “a trigger signal is generated by software and a hardware timer having a period (TW) is activated. Thereafter, a re-trigger signal is always generated by software within a time period that does not exceed the period (TW) of the hardware timer.
  • the program is configured to continue to be applied to the hardware timer, and a retriggerable timer is used as the hardware timer, and the timer is timed out as long as the retrigger signal is given within a time not exceeding the period Tw.
  • the program code for generating the retrigger signal is embedded in an appropriate place in the software, and the retrigger signal is always generated within Tw as long as the system operates normally.
  • the retrigger signal cannot be generated and the hardware timer times up. It is possible to detect an abnormality in the system ”.
  • WDT watchdog timer
  • Patent Document 1 is a detection method capable of performing a periodic reset of WDT by combining WDT and a bus timer.
  • the abnormality is permanent, time-up of WDT is repeated forever. There is a problem.
  • An object of the present invention is to suppress continuation of a runaway state during activation of a monitoring target.
  • a failure detection device is a failure detection device that detects a failure to be monitored that outputs a reset signal within a predetermined time from the start of activation, and is longer than the predetermined time, and A first time-up time that is shorter than the time required for the monitoring target to start is set, the first counter is reset by the start of the monitoring target start or the input of the reset signal, and the time measurement is started.
  • a first time-up signal indicating the progress is output to the monitoring target to start the monitoring target again, and the first counter is reset to measure time 1 timer and a second time-up time that is longer than the time required for the monitoring target to start up are set.
  • a second timer that outputs a second time-up signal indicating the elapse of time, power is supplied to the monitoring target, and the second time-up signal is output.
  • a supply source for stopping supply of power to the monitoring target when the second time-up signal is input from the timer.
  • FIG. 4 is a sequence diagram showing an operation processing sequence example 1 of the SVP shown in FIG. 3.
  • FIG. 6 is a sequence diagram showing an operation processing sequence example 2 of the SVP shown in FIG. 3.
  • FIG. 3 shows the other example of the block configuration of a failure detection apparatus.
  • FIG. 1 is an explanatory diagram illustrating a block configuration example of the failure detection apparatus.
  • the failure detection apparatus 1 includes a microcomputer 100, which is an example of a monitoring target, a first WDT 101, a second WDT 102, a power supply circuit 104, a first OR circuit 105, and a second OR circuit 106.
  • the microcomputer 100 includes a memory that stores a predetermined program and a processor that executes the predetermined program.
  • the output of the microcomputer 100 is connected to the input of the first OR circuit 105, the input of the second WDT 102, and the input of the power supply circuit 104. Further, the input of the microcomputer 100 is connected to the output of the first WDT 101 and the output of the power supply circuit 104.
  • the microcomputer 100 starts the program.
  • the microcomputer 100 periodically outputs a first WDT periodic reset signal 121 to the first OR circuit 105.
  • the first WDT periodic reset signal 121 is a signal for preventing the time-up of the first WDT 101 when the program is normally activated.
  • the microcomputer 100 is communicably connected to the other microcomputer 100 in the other failure detection device 1 and detects the restart of the other microcomputer 100, the second WDT reset signal 122 is output to the first OR circuit 105 and the second OR circuit 106.
  • the second WDT reset signal 122 is a signal for resetting the counter of the second WDT.
  • the microcomputer 100 outputs a start completion signal 123 to the second WDT 102.
  • the first WDT 101 is a timer that detects a failure to be monitored.
  • the output of the first WDT 101 is connected to the input of the first OR circuit 105 and the input of the microcomputer 100, and the input of the first WDT 101 is connected to the output of the first OR circuit 105.
  • a first time-up time T1 that is shorter than the time required to start the microcomputer 100 is set.
  • the first WDT 101 When the first WDT 101 receives the input of the power-on reset signal 120 from the power supply circuit 104 via the first OR circuit 105, the first WDT 101 clears the counter and starts timing. When the first time-up time T1 elapses, the first WDT 101 outputs the first WDT time-up signal 124 to the microcomputer 100 and the first OR circuit 105.
  • the first WDT time-up signal 124 is a signal notifying that the first time-up time T1 has elapsed.
  • the first WDT 101 when the first WDT 101 receives the input of the first WDT time-up signal 124 from the first OR circuit 105, the first WDT 101 clears the counter and re-executes time measurement. In addition, when the first WDT 101 receives an input of the first WDT periodic reset signal 121 from the microcomputer 100 via the first OR circuit 105, the first WDT 101 clears the counter and re-executes time measurement.
  • the first WDT 101 when the first WDT 101 receives an input of the first WDT periodic reset signal 121 from the microcomputer 100 via the first OR circuit 105, the first WDT 101 clears the counter and re-executes time measurement.
  • the second WDT 102 is a timer that controls the first WDT 101 to prevent the first WDT 101 from causing a fault detection runaway.
  • the output of the second WDT 102 is connected to the input of the power supply circuit 104, and the input of the second WDT 102 is connected to the output of the second OR circuit 106.
  • the second WDT 102 is set with a time sufficient for the microcomputer 100 to complete startup normally, that is, a second time-up time T2 longer than the time required for startup.
  • the second WDT 102 When the second WDT 102 receives the input of the power-on reset signal 120 from the power supply circuit 104 or the second WDT reset signal 122 from the microcomputer 100 via the second OR circuit 106, the second WDT 102 clears the counter and starts timing. Then, the second WDT 102 outputs a second WDT time-up signal 125 to the power supply circuit 104 when the second time-up time T2 has elapsed.
  • the second WDT time-up signal 125 is a signal notifying that the second time-up time T2 has elapsed.
  • the second WDT 102 When the second WDT 102 receives an input of the activation completion signal 123 from the microcomputer 100, the second WDT 102 stops time counting by the counter. As a result, it is possible to suppress the power-off of the microcomputer 100 after the microcomputer 100 is normally activated.
  • the power supply circuit 104 is a supply source that supplies power to the microcomputer 100, the first WDT 101, and the second WDT 102. Then, the power supply circuit 104 outputs a power-on reset signal 120 to the microcomputer 100, the first OR circuit 105, and the second OR circuit 106 in order to activate the microcomputer 100, the first WDT 101, and the second WDT 102.
  • the first OR circuit 105 is a 3-input 1-output OR circuit.
  • the first OR circuit 105 receives at least one of the power-on reset signal 120 from the power supply circuit 104, the first WDT periodic reset signal 121 from the microcomputer 100, or the first WDT time-up signal 124 from the first WDT 101.
  • a reset signal for resetting the counter of the first WDT 101 is output to the first WDT 101.
  • the second OR circuit 106 is a two-input one-output OR circuit.
  • the second OR circuit 106 receives a reset signal for resetting the counter of the second WDT 102 when at least one of the power-on reset signal 120 from the power supply circuit 104 or the second WDT reset signal 122 from the first WDT 101 is input. Output to the second WDT 102.
  • the microcomputer 100 when the microcomputer 100 is in a normal state, the microcomputer 100 periodically outputs the first WDT periodic reset signal 121 to the first WDT 101 via the first OR circuit 105, so that the first time-up time T1 has elapsed. Reset the counter of the first WDT 101 before. Therefore, time-up does not occur in the first WDT 101. Also, the second WDT 102 does not time up if the microcomputer 100 is activated in time.
  • the microcomputer 100 When an abnormality occurs in the microcomputer 100, the microcomputer 100 does not output the first WDT periodic reset signal 121 to the first WDT 101 via the first OR circuit 105. Therefore, the first WDT 101 outputs the first WDT time-up signal 124 to the microcomputer 100 when the first time-up time T1 has elapsed. When the microcomputer 100 receives the input of the first WDT time-up signal 124, the microcomputer 100 restarts the program. Accordingly, if the abnormality of the microcomputer 100 is a failure that the first WDT periodic reset signal 121 cannot be output or a temporary failure, the microcomputer 100 is normally started by restarting the program.
  • the microcomputer 100 repeats restart of the program.
  • the runaway condition continues. Therefore, in the failure detection device 1, in order to prevent the runaway state from continuing, the second WDT 102 causes the second WDT to pass through the second time-up time T2 when the activation completion signal 123 and the second WDT reset signal 122 are not input from the microcomputer 100.
  • a time-up signal 125 is output to the power supply circuit 104.
  • the power supply circuit 104 stops the power supply of the microcomputer 100, and the power supply of the microcomputer 100 is turned off. Thereby, although an abnormality has occurred in the microcomputer 100, if the abnormality is a failure that allows the first WDT periodic reset signal 121 to be output or a permanent failure, the continuation of the runaway state can be suppressed.
  • FIG. 2 is a flowchart illustrating an example of an operation processing procedure in the failure detection apparatus 1.
  • the left side shows an example of an operation processing procedure of the microcomputer 100
  • the center shows an example of the operation processing procedure of the first WDT 101
  • the right side shows an example of the operation processing procedure of the second WDT 102.
  • the microcomputer 100 When the microcomputer 100 receives the input of the power-on reset signal 120 from the power supply circuit 104, the microcomputer 100 starts to start the program (step S201). Then, the microcomputer 100 repeats the first WDT reset (step S202). The first WDT reset (step S202) is to output the first WDT periodic reset signal 121. Thereby, the 1st WDT 101 will reset a counter, if the 1st WDT regular reset signal 121 is inputted (Step S212).
  • step S203 the microcomputer 100 stops the second WDT 102 (step S204). Specifically, the microcomputer 100 outputs a start completion signal 123 to the second WDT 102. Thereby, the second WDT 102 stops the operation of the second WDT 102 (step S226). After starting the program, the microcomputer 100 repeats the output of the first periodic reset signal of the first WDT 101 (step S205) and the monitoring target process (step S206) as usual.
  • step S206 When the monitoring target process (step S206) is stopped due to a failure, the microcomputer 100 is reset (step S216) due to the time up of the first time-up time T1 (step S215), the program is restarted (step S201), and the first WDT 101 Counter clear (step S212) and counter clear of the second WDT 102 (step S221) are executed.
  • Step S212 is also executed when the input of the first WDT periodic reset signal 121 is accepted by the WDT reset of the microcomputer 100 (step S202).
  • step S213 After 1 second sleep (step S213), the first WDT 101 increments the counter (step S214), and determines whether the time is up, that is, whether the value of the counter exceeds the first time-up time T1 (step S214). Step S215). When the time is not up (step S215: No), the first WDT 101 repeats the 1-second sleep (step S213) and the counter addition (step S214).
  • step S215 If the time is up (step S215: Yes), the first WDT 101 restarts the microcomputer 100 (step S216). That is, the first WDT 101 outputs the first WDT time-up signal 124 to the microcomputer 100. Thereby, the microcomputer 100 starts restart of the program (step S201). Thereafter, the first WDT 101 returns to step S212 and clears the counter (step S212).
  • the second WDT 102 When the second WDT 102 receives the input of the power-on reset signal 120 from the power supply circuit 104 after the first WDT 101 is activated, the second WDT 102 clears the counter that measures the second time-up time T2 (step S222).
  • the second WDT 102 adds a counter (step S224) and determines whether or not there is a stop instruction (step S225). Specifically, the second WDT 102 determines whether or not the input of the activation completion signal 123 from the microcomputer 100 has been received. When there is a stop instruction (step S225: Yes), that is, when the activation completion signal 123 is input, the activation of the microcomputer 100 is completed, and the second WDT 102 stops the operation (step S226).
  • step S225 when there is no stop instruction (step S225: No), that is, when the start completion signal 123 is not input, the second WDT 102 determines whether the time is up, that is, the counter value exceeds the second time-up time T2. It is determined whether or not (step S227). When the time is not up (step S227: No), the second WDT 102 repeats the 1-second sleep (step S223) and the counter addition (step S224).
  • step S227 If the time is up (step S227: Yes), the second WDT 102 outputs the second WDT time-up signal 125 to the power supply circuit 104, and the power supply circuit 104 stops the power supply of the failure detection apparatus 1 (step S228). As a result, the power supply circuit 104 turns off the power supply of the failure detection apparatus 1, and thus the runaway of the first WDT 101 is suppressed.
  • FIG. 3 is an explanatory diagram showing an example of redundancy of the failure detection apparatus 1 shown in FIG.
  • FIG. 3 shows a failure detection system as an example of redundancy of the failure detection apparatus 1 mounted on the blade server 300.
  • the blade server 300 which is a failure detection system includes a chassis 301, a blade group 303 which is one or more detachable blades 302, and two service processors (hereinafter referred to as SVP (Service Processor)) 304-1 and 304-2. And having.
  • the blade group 303 and the first SVP 304-1 are communicably connected via a network.
  • the blade group 303 and the second SVP 304-2 are communicably connected via a network.
  • the branch number is omitted, and is simply expressed as “SVP 304”. The same applies to other codes.
  • the chassis 301 is a housing to which the blade group 303 can be attached and detached.
  • the blade 302 is a server that executes a web service, a database service, an analysis service, and other information processing.
  • the SVP 304 is a module that manages the blade group 303.
  • the SVP 304 includes a network switch 305 and the failure detection apparatus 1.
  • the network switch 305 switches the blade 302 that is a connection partner with the failure detection apparatus 1.
  • the first microcomputer 100-1 of the first failure detection device 1-1 and the microcomputer 100-2 of the second failure detection device 1-2 are communicably connected via a line 307. Both the microcomputers 100-1 and 100-2 determine the main system and the standby system in synchronization, and detect the restart of the other SVP 304 and the power OFF.
  • the blade server 300 determines one of the SVPs 304 as the main system and the other SVP 304 as the standby system at the time of activation. In the blade server 300, since the start-up process of the microcomputer 100 of one of the SVPs 304 is suppressed even when starting up, the other SVP 304 is operated as the main system.
  • FIG. 4 is a sequence diagram showing an operation processing sequence example 1 of the SVP 304 shown in FIG.
  • the operation processing of each failure detection apparatus 1 is as shown in FIG. 2, but FIG. 4 will be described by focusing on the sequence between both SVPs 304.
  • FIG. 4 shows a normal sequence example when no failure occurs in any microcomputer 100.
  • the power supply circuit 104 of each SVP 304 supplies power to the microcomputer 100, the first WDT 101, and the second WDT 102 in the own SVP 304. As a result, the first WDT 101 and the second WDT 102 are activated.
  • the microcomputer 100 starts the program in response to the input of the power-on reset signal 120 from the power supply circuit 104 (step S400).
  • Both microcomputers 100 synchronize to determine the main system (steps S401 to S403), and determine the main system and the standby system (step S404). In the meantime, each microcomputer 100 outputs the first WDT periodic reset signal 121 to the first WDT 101 of its own SVP (step S405). When the activation of the program is completed, each microcomputer 100 outputs an activation completion signal 123 to the second WDT 102 (step S406). Thereby, the operation of the second WDT 102 is stopped.
  • FIG. 5 is a sequence diagram showing an operation processing sequence example 2 of the SVP 304 shown in FIG.
  • the operation processing of each failure detection apparatus 1 is as shown in FIG. 2, but also in FIG. 5, description will be given focusing on the sequence between both SVPs 304.
  • the microcomputer 100-2 when the microcomputer 100-2 also fails during synchronization between the microcomputers 100, and the abnormality is a failure that can output the first WDT periodic reset signal 121, or a permanent failure. It is a sequence example at the time of a failure. Therefore, the microcomputer 100-2 will fail even after restarting.
  • the same steps as those in FIG. 4 are denoted by the same step numbers.
  • the power supply circuit 104 of each SVP 304 supplies power to the microcomputer 100, the first WDT 101, and the second WDT 102 in the own SVP 304. As a result, the first WDT 101 and the second WDT 102 are activated.
  • the microcomputer 100 starts the program in response to the input of the power-on reset signal 120 from the power supply circuit 104 (step S400).
  • Both microcomputers 100 synchronize to determine the main system (steps S401 and S402), but after synchronization 2 (step S402), a failure occurs in the microcomputer 100-2. Since the operation of the microcomputer 100-2 is stopped due to the occurrence of a failure, the first WDT 101-2 outputs the first WDT time-up signal 124 to the microcomputer 100-2 when the time of the first WDT 101-2 is increased (step S501). Further, the first WDT 101-2 feeds back the first WDT time-up signal 124 and resets it, that is, clears the counter (step S502). The second WDT 102-2 does not clear the counter and continues the counter addition (step S224).
  • the microcomputer 100-2 when the microcomputer 100-2 receives the input of the first WDT time-up signal 124, the microcomputer 100-2 starts restarting the program (step S503), and transmits a restart start notification to the microcomputer 100-1 via the line 307 (step S504). ).
  • the microcomputer 100-1 starts restarting the program for re-synchronization (step S505).
  • the first WDT 101-1 and the second WDT 102-1 are reset, that is, clear the counter (steps S505 and S506).
  • the microcomputer 100-1 outputs the first WDT periodic reset signal 121 to the first WDT 101-1 via the first OR circuit 105-1, and the second WDT reset signal 122 via the second OR circuit 106-1. Output to the second WDT 102-1.
  • both the microcomputers 100 synchronize again for determining the main system (steps S401 and S402), but after the synchronization 2 (step S402), the failure occurs again in the microcomputer 100-2. Since the operation of the microcomputer 100-2 is stopped due to the occurrence of a failure, the first WDT 101-2 outputs the first WDT time-up signal 124 to the microcomputer 100-2 when the time of the first WDT 101-2 is increased (step S501). Further, the first WDT 101-2 feeds back the first WDT time-up signal 124 and resets it, that is, clears the counter (step S502). The second WDT 102-2 does not clear the counter and continues the counter addition (step S224).
  • the microcomputer 100-2 when the microcomputer 100-2 receives the input of the first WDT time-up signal 124, the microcomputer 100-2 starts restarting the program (step S503), and transmits a restart start notification to the microcomputer 100-1 via the line 307 (step S504). ).
  • the microcomputer 100-1 starts restarting the program for re-synchronization (step S505).
  • the first WDT 101-1 and the second WDT 102-1 are reset, that is, clear the counter (steps S505 and S506).
  • the microcomputer 100-1 outputs the first WDT periodic reset signal 121 to the first WDT 101-1 via the first OR circuit 105-1, and the second WDT reset signal 122 via the second OR circuit 106-1. Output to the second WDT 102-1.
  • step S508 the repeated restart due to the failure detection of the microcomputer 100-2 is suppressed.
  • the microcomputer 100-1 determines itself as the main system by detecting the power OFF of the microcomputer 100-2 (step S509).
  • the microcomputer 100-1 completes the activation of the program, it outputs an activation completion signal 123 to the second WDT 102-1 (step S406-1). As a result, the operation of the second WDT 102-1 is stopped.
  • the microcomputer 100-2 even if the microcomputer 100-2 is repeatedly restarted and a failure occurs due to the failure of the microcomputer 100-2, the power of the microcomputer 100-2 is turned off due to the time-up of the second WDT 102. Therefore, the runaway of the microcomputer 100-2 can be suppressed. Further, when the microcomputer 100-1 detects that the power of the microcomputer 100-2 is turned off, the first SVP 304-1 is determined as the main system, and the activation process is completed.
  • the synchronization processing (steps S401 and S402) is terminated, and the microcomputer 100- Since the second SVP 304-2 to which 2 belongs is disconnected, the blade server 300 can suppress a delay in the startup process.
  • the faulty microcomputer 100-2 may be connected to the blade server 300 again when it is restored to a normal state by maintenance.
  • the second WDT 102 has been described as turning off the power supply of the microcomputer 100 due to time-up. However, the restart of the microcomputer 100 is stopped when the time of the second WDT 102 is not time-off but the second WDT 102 time-up. You may control.
  • FIG. 6 is an explanatory diagram showing another example of the block configuration of the failure detection apparatus.
  • the failure detection apparatus 10 includes an AND circuit 600.
  • the AND circuit 600 is a 2-input 1-output AND circuit, and is an output control unit that controls the output of the first WDT time-up signal 124 by the second WDT time-up signal 125.
  • One input of the AND circuit 600 is connected to the output of the first WDT 101, and the other input is connected to the output of the second WDT 102.
  • the output of the AND circuit 600 is connected to the input of the microcomputer 100 and the input of the first OR circuit 105. In FIG. 6, the output of the second WDT 102 is not connected to the power supply circuit 104 but is connected to the negative input of the AND circuit 600.
  • the AND circuit 600 outputs the first WDT time-up signal 124 to the microcomputer 100 when the first WDT time-up signal 124 is output by the time-up of the first WDT 101 and the second WDT time-up signal 125 is not output from the second WDT 102. To do. Thereby, the microcomputer 100 starts restart of the program, the first WDT 101 also clears the counter, and re-executes time measurement.
  • the second WDT 102 When the microcomputer 100 runs away due to a failure, the second WDT 102 outputs the second WDT time-up signal 125 to the negative input of the AND circuit 600 due to the time-up of the second WDT 102. As a result, the output of the first WDT time-up signal 124 from the AND circuit 600 is stopped, the microcomputer 100 is not restarted, and the first WDT 101 is not reset. Therefore, the microcomputer 100 and the first WDT do not operate.
  • the microcomputer 100-1 detects that the power of the microcomputer 100-2 is turned off. However, when the failure detection device 10 of FIG. 6 is installed, the power of the microcomputer 100-2 is not turned off. Therefore, in this case, the microcomputer 100-1 determines itself as the main system when there is no response from the microcomputer 100-2 for a certain period.
  • the present embodiment it is possible to suppress the runaway of the monitoring target at the time of startup by turning off the power supply or stopping the restart of the monitoring target in which the failure has occurred. Further, when the failure detection apparatus is made redundant, the monitoring target in which the failure has occurred can be separated from the system by suppressing the runaway at the start of the monitoring target in which the failure has occurred. Therefore, it is possible to suppress the delay of the startup time of the monitoring target in which no failure has occurred, and to start the system early.
  • the failure detection apparatus 1 of FIG. 1 is mounted on both SVPs 304
  • the failure detection apparatus 10 of FIG. 6 may be mounted on both SVPs 204, and one SVP 304 may be mounted.
  • the failure detection device 1 may be mounted on the other SVP 304, and the failure detection device 10 may be mounted on the other SVP 304.
  • the present invention is not limited to the above-described embodiments, and includes various modifications and equivalent configurations within the scope of the appended claims.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and the present invention is not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment may be replaced with the configuration of another embodiment.
  • each of the above-described configurations, functions, processing units, processing means, etc. may be realized in hardware by designing a part or all of them, for example, with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing the program to be executed.
  • Information such as programs, tables, and files that realize each function can be stored in a storage device such as a memory, a hard disk, and an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, and a DVD.
  • a storage device such as a memory, a hard disk, and an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, and a DVD.
  • control lines and information lines indicate what is considered necessary for the explanation, and do not necessarily indicate all control lines and information lines necessary for mounting. In practice, it can be considered that almost all the components are connected to each other.

Abstract

起動開始から所定時間内にリセット信号を出力する監視対象の障害を検出する障害検出装置は、所定時間より長くかつ監視対象の起動時間より短い第1タイムアップ時間が設定されており、監視対象の起動開始またはリセット信号の入力により第1カウンタをリセットして計時を開始し、第1タイムアップ時間が経過した場合、第1タイムアップ信号を監視対象に出力して再起動させかつ第1カウンタをリセットする第1タイマと、監視対象の起動時間より長い第2タイムアップ時間が設定されており、監視対象の起動開始により第2カウンタをリセットして計時を開始し、第2タイムアップ時間が経過した場合、第2タイムアップ信号を出力する第2タイマと、監視対象に電力を供給し、第2タイムアップ信号が入力された場合、監視対象への電力供給を停止する供給源と、を有する。

Description

障害検出装置および障害検出システム
 本発明は、監視対象の障害を検出する障害検出装置および障害検出システムに関する。
 計算機の暴走検知方法として、ウォッチドッグタイマを用いる方式がある。特許文献1には、「ソフトウェアによりトリガ信号を生成し、周期(TW)のハードウェアタイマに起動をかける。その後、ソフトウェアによりハードウェアタイマの周期(TW)を越えない時間内に必ずリトリガ信号をハードウェアタイマに与え続ける様プログラムを構成する。なお、ハードウェアタイマには、リトリガブル・タイマが使用され、その周期Twを越えない時間内にリトリガ信号が与えられる限り、タイマのタイムアップが発生することはない。一方、ソフトウェアには、リトリガ信号発生用のプログラムコードが適当な箇所に埋め込まれており、システムが正常に動作している限り、Tw以内にリトリガ信号が必ず生成されるように設計されている。以上の構成において、システムに何らかの異常が発生し、プログラムの暴走、無限ループ実行となった場合や、ホールド状態への移行等の現象に波及した場合には、リトリガ信号の生成が不可となり、ハードウェアタイマがタイムアップする。このタイムアップ信号を利用することにより、システムの異常を検知することが可能となる。」という記載がある。
特開平4-44132号公報
 ウォッチドッグタイマ(以降、「WDT」)を使った障害検知方法では、異常が恒久的である場合、WDTのタイムアップが永久に繰り返されるという問題がある。また、異常であるがWDTの定期リセットが可能な場合(たとえば、WDTの定期リセット処理を含んだ形での無限ループ)、WDTはタイムアップしないという問題がある。
 また、特許文献1は、WDTとバスタイマとを組み合わせることで、異常であるがWDTの定期リセットが可能な検知方法であるが、異常が恒久的である場合、WDTのタイムアップが永久に繰り返されるという問題がある。本発明は、監視対象の起動中における暴走状態の継続を抑止することを目的とする。
 本願において開示される発明の一側面となる障害検出装置は、起動開始から所定時間内にリセット信号を出力する監視対象の障害を検出する障害検出装置であって、前記所定時間よりも長く、かつ、前記監視対象が起動に要する時間よりも短い第1タイムアップ時間が設定されており、前記監視対象の起動開始または前記リセット信号の入力により第1カウンタをリセットして計時を開始し、前記第1タイムアップ時間が経過した場合、当該経過を示す第1タイムアップ信号を前記監視対象に出力することにより前記監視対象の起動を再度開始させ、かつ、前記第1カウンタをリセットして計時する第1タイマと、前記監視対象が起動に要する時間よりも長い第2タイムアップ時間が設定されており、前記監視対象の起動開始により第2カウンタをリセットして計時を開始し、前記第2タイムアップ時間が経過した場合、当該経過を示す第2タイムアップ信号を出力する第2タイマと、前記監視対象に電力を供給し、前記第2タイマから前記第2タイムアップ信号が入力された場合、前記監視対象への電力の供給を停止する供給源と、を有することを特徴とする。
 本発明の代表的な実施の形態によれば、監視対象の起動中における暴走状態の継続を抑止することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
障害検出装置のブロック構成例を示す説明図である。 障害検出装置における動作処理手順例を示すフローチャートである。 図2に示した障害検出装置の冗長化例を示す説明図である。 図3に示したSVPの動作処理シーケンス例1を示すシーケンス図である。 図3に示したSVPの動作処理シーケンス例2を示すシーケンス図である。 障害検出装置のブロック構成の他の例を示す説明図である。
 <障害検出装置のブロック構成例>
 図1は、障害検出装置のブロック構成例を示す説明図である。障害検出装置1は、監視対象の一例であるマイコン100と、第1WDT101と、第2WDT102と、電源回路104と、第1OR回路105と、第2OR回路106と、を有する。
 マイコン100は、所定のプログラムを記憶するメモリと、所定のプログラムを実行するプロセッサとを内蔵する。マイコン100の出力は、第1OR回路105の入力と第2WDT102の入力と電源回路104の入力に接続される。また、マイコン100の入力は、第1WDT101の出力と電源回路104の出力に接続される。マイコン100は、電源回路104からパワーオンリセット信号120の入力を受け付けると、プログラムの起動を開始する。
 マイコン100は、定期的に第1WDT定期リセット信号121を第1OR回路105に出力する。第1WDT定期リセット信号121は、プログラムが正常に起動している場合に、第1WDT101のタイムアップを阻止するための信号である。マイコン100は、障害検出装置1が冗長化構成である場合、他の障害検出装置1内の他のマイコン100と通信可能に接続され、他のマイコン100の再起動を検出すると、第2WDTリセット信号122を、第1OR回路105および第2OR回路106に出力する。第2WDTリセット信号122は、第2WDTのカウンタをリセットするための信号である。また、マイコン100は、プログラムの起動が完了すると、起動完了信号123を第2WDT102に出力する。
 第1WDT101は、監視対象の障害を検出するタイマである。第1WDT101の出力は、第1OR回路105の入力およびマイコン100の入力に接続されており、また、第1WDT101の入力は、第1OR回路105の出力に接続されている。第1WDT101には、マイコン100の起動に要する時間よりも短い第1タイムアップ時間T1が設定されている。
 第1WDT101は、第1OR回路105を介して電源回路104からのパワーオンリセット信号120の入力を受け付けると、カウンタをクリアし計時を開始する。そして、第1タイムアップ時間T1が経過すると、第1WDT101は、第1WDTタイムアップ信号124をマイコン100および第1OR回路105に出力する。第1WDTタイムアップ信号124は、第1タイムアップ時間T1が経過したことを通知する信号である。
 また、第1WDT101は、第1OR回路105から第1WDTタイムアップ信号124の入力を受け付けると、カウンタをクリアし、計時を再実行する。また、第1WDT101は、第1OR回路105を介してマイコン100から第1WDT定期リセット信号121の入力を受け付けると、カウンタをクリアし、計時を再実行する。
 また、第1WDT101は、第1OR回路105を介してマイコン100から第1WDT定期リセット信号121の入力を受け付けると、カウンタをクリアし、計時を再実行する。
 第2WDT102は、第1WDT101を制御して、第1WDT101による障害検出の暴走を抑止するタイマである。第2WDT102の出力は電源回路104の入力に接続されており、第2WDT102の入力は、第2OR回路106の出力に接続されている。第2WDT102には、マイコン100が正常に起動完了するのに十分な時間、すなわち、起動に要する時間よりも長い第2タイムアップ時間T2が設定されている。
 第2WDT102は、第2OR回路106を介して電源回路104からのパワーオンリセット信号120またはマイコン100からの第2WDTリセット信号122の入力を受け付けると、カウンタをクリアし、計時を開始する。そして、第2WDT102は、第2タイムアップ時間T2が経過すると、第2WDTタイムアップ信号125を電源回路104に出力する。第2WDTタイムアップ信号125は、第2タイムアップ時間T2が経過したことを通知する信号である。また、第2WDT102は、第2OR回路106を介してマイコン100から第2WDTリセット信号122の入力を受け付けると、カウンタをクリアし、計時を再実行する。第2WDT102は、マイコン100から起動完了信号123をの入力を受け付けると、カウンタによる計時を停止する。これにより、正常にマイコン100が起動した後におけるマイコン100の電源断を抑止することができる。
 電源回路104は、マイコン100、第1WDT101、および第2WDT102に電力を供給する供給源である。そして、電源回路104は、マイコン100、第1WDT101、および第2WDT102を起動するために、マイコン100、第1OR回路105、および第2OR回路106に、パワーオンリセット信号120を出力する。
 第1OR回路105は、3入力1出力のOR回路である。第1OR回路105は、電源回路104からのパワーオンリセット信号120、マイコン100からの第1WDT定期リセット信号121、または、第1WDT101からの第1WDTタイムアップ信号124の少なくともいずれか1つが入力された場合に、第1WDT101のカウンタをリセットするリセット信号を第1WDT101に出力する。
 第2OR回路106は、2入力1出力のOR回路である。第2OR回路106は、電源回路104からのパワーオンリセット信号120、または、第1WDT101からの第2WDTリセット信号122の少なくともいずれか1つが入力された場合に、第2WDT102のカウンタをリセットするリセット信号を第2WDT102に出力する。
 障害検出装置1では、マイコン100が正常状態の場合、マイコン100は定期的に第1WDT定期リセット信号121を第1OR回路105を介して第1WDT101に出力することにより、第1タイムアップ時間T1の経過前に第1WDT101のカウンタをリセットする。したがって、第1WDT101においてタイムアップは発生しない。また、第2WDT102も、マイコン100が時間内に起動すればタイムアップしない。
 マイコン100に異常が発生した場合、マイコン100は第1WDT定期リセット信号121を第1OR回路105を介して第1WDT101に出力しなくなる。したがって、第1WDT101は第1タイムアップ時間T1の経過により、第1WDTタイムアップ信号124をマイコン100に出力する。マイコン100は、第1WDTタイムアップ信号124の入力を受け付けると、プログラムを再起動する。これにより、マイコン100の異常が、第1WDT定期リセット信号121が出力できない障害であったり、一時的な障害であれば、プログラムの再起動によりマイコン100が正常に起動することになる。
 また、マイコン100に異常が発生したが、当該異常が第1WDT定期リセット信号121が出力できる障害であったり、恒久的な障害である場合、マイコン100は、プログラムの再起動を繰り返すことになり、暴走状態が継続する。したがって、障害検出装置1では、暴走状態の継続抑止のため、第2WDT102は、マイコン100から起動完了信号123や第2WDTリセット信号122が入力されずに第2タイムアップ時間T2が経過すると、第2WDTタイムアップ信号125を電源回路104に出力する。電源回路104は、第2WDTタイムアップ信号125の入力を受け付けると、マイコン100の電力供給を停止し、マイコン100の電源はOFFになる。これにより、マイコン100に異常が発生したが、当該異常が第1WDT定期リセット信号121が出力できる障害であったり、恒久的な障害である場合、暴走状態の継続を抑止することができる。
 <障害検出装置1における動作処理手順例>
 図2は、障害検出装置1における動作処理手順例を示すフローチャートである。図2において、左側がマイコン100の動作処理手順例、中央が第1WDT101の動作処理手順例、右側が第2WDT102の動作処理手順例を示す。利用者の操作または外部からのトリガにより障害検出装置1の電源がONになると(ステップS200)、電源回路104からマイコン100、第1WDT101および第2WDT102に電力供給され、第1WDT101および第2WDT102が起動する(ステップS211、S221)。
 まず、マイコン100の動作から説明する。マイコン100は、電源回路104からパワーオンリセット信号120の入力を受け付けると、プログラムの起動を開始する(ステップS201)。そして、マイコン100は、第1WDTリセット(ステップS202)を繰り返す。第1WDTリセット(ステップS202)とは、第1WDT定期リセット信号121を出力することである。これにより、第1WDT101は、第1WDT定期リセット信号121が入力されると、カウンタをリセットする(ステップS212)。
 そして、プログラムの起動が完了すると(ステップS203)、マイコン100は、第2WDT102を停止させる(ステップS204)。具体的には、マイコン100は、起動完了信号123を第2WDT102に出力する。これにより、第2WDT102は、第2WDT102の動作を停止する(ステップS226)。プログラムの起動後は、マイコン100は、通常通り、第1WDT101の第1定期リセット信号の出力(ステップS205)と、監視対象処理(ステップS206)と、を繰り返す。監視対象処理(ステップS206)が障害により停止すると、第1タイムアップ時間T1のタイムアップ(ステップS215)により、マイコン100がリセットされ(ステップS216)、プログラムの再起動(ステップS201)、第1WDT101のカウンタクリア(ステップS212)、および第2WDT102のカウンタクリア(ステップS221)が実行されることになる。
 つぎに、第1WDT101の動作について説明する。第1WDT101は、第1WDT101の起動後、電源回路104からパワーオンリセット信号120の入力を受け付けると、第1タイムアップ時間T1を計時するカウンタをクリアする(ステップS212)。ステップS212は、マイコン100のWDTリセット(ステップS202)により、第1WDT定期リセット信号121の入力を受け付けた場合も実行される。
 そして、1秒スリープ後(ステップS213)、第1WDT101はカウンタを加算し(ステップS214)、タイムアップか否か、すなわち、カウンタの値が第1タイムアップ時間T1を超えたか否かを判断する(ステップS215)。タイムアップでない場合(ステップS215:No)、第1WDT101は、1秒スリープ(ステップS213)とカウンタ加算(ステップS214)を繰り返す。
 タイムアップである場合(ステップS215:Yes)、第1WDT101は、マイコン100を再起動させる(ステップS216)。すなわち、第1WDT101は、第1WDTタイムアップ信号124をマイコン100に出力する。これにより、マイコン100はプログラムの再起動を開始する(ステップS201)。その後、第1WDT101は、ステップS212に戻り、カウンタをクリアする(ステップS212)。
 つぎに、第2WDT102の動作について説明する。第2WDT102は、第1WDT101の起動後、電源回路104からパワーオンリセット信号120の入力を受け付けると、第2タイムアップ時間T2を計時するカウンタをクリアする(ステップS222)。
 そして、1秒スリープ後(ステップS223)、第2WDT102はカウンタを加算し(ステップS224)、停止指示があるか否かを判断する(ステップS225)。具体的には、第2WDT102は、マイコン100からの起動完了信号123の入力を受け付けたか否かを判断する。停止指示がある場合(ステップS225:Yes)、すなわち、起動完了信号123の入力があった場合、マイコン100の起動が完了したため、第2WDT102は、動作を停止する(ステップS226)。一方、停止指示がない場合(ステップS225:No)、すなわち、起動完了信号123の入力がない場合、第2WDT102は、タイムアップか否か、すなわち、カウンタの値が第2タイムアップ時間T2を超えたか否かを判断する(ステップS227)。タイムアップでない場合(ステップS227:No)、第2WDT102は、1秒スリープ(ステップS223)とカウンタ加算(ステップS224)を繰り返す。
 タイムアップである場合(ステップS227:Yes)、第2WDT102は、第2WDTタイムアップ信号125を電源回路104に出力して、電源回路104により障害検出装置1の電力供給を停止させる(ステップS228)。これにより、電源回路104は、障害検出装置1の電源をOFFにするため、第1WDT101の暴走が抑止される。
 <障害検出装置1の冗長化例>
 図3は、図2に示した障害検出装置1の冗長化例を示す説明図である。図3は、ブレードサーバ300に実装された障害検出装置1の冗長化例でる障害検出システムを示す。障害検出システムであるブレードサーバ300は、シャーシ301と、着脱可能な1以上のブレード302であるブレード群303と、2台のサービスプロセッサ(以下、SVP(Service Processor))304-1,304-2と、を有する。ブレード群303と第1SVP304-1とは、ネットワークにより通信可能に接続される。ブレード群303と第2SVP304-2とは、ネットワークにより通信可能に接続される。第1SVP304-1と第2SVP304-2を区別しない場合は、枝番を省略して、単に「SVP304」と表記する。他の符号も同様である。
 シャーシ301は、ブレード群303が着脱可能な筐体である。ブレード302は、Webサービス、データベースサービス、分析サービスその他何らかの情報処理を実行するサーバである。SVP304は、ブレード群303を管理するモジュールである。SVP304は、ネットワークスイッチ305と障害検出装置1とを有する。ネットワークスイッチ305は、障害検出装置1との接続相手となるブレード302を切り替える。第1の障害検出装置1-1の第1のマイコン100-1と第2の障害検出装置1-2のマイコン100-2とは、回線307により通信可能に接続される。両マイコン100-1,100-2は、同期をとりあって主系および待機系を決定したり、他方のSVP304の再起動や電源OFFを検出しあう。
 ブレードサーバ300は、起動時に両SVP304のうちいずれか一方のSVP304を主系に決定し、他方のSVP304を待機系に決定する。ブレードサーバ300では、起動時にいずれか一方のSVP304のマイコン100の起動処理が暴走しても抑止されるため、他方のSVP304が主系となって運用される。
 <SVPの動作処理手順例>
 図4は、図3に示したSVP304の動作処理シーケンス例1を示すシーケンス図である。各障害検出装置1の動作処理は、図2に示した通りであるが、図4では、両SVP304間のシーケンスに着目して説明する。なお、図4では、いずれのマイコン100にも障害が発生しない場合の正常時のシーケンス例である。
 ブレードサーバ300の主電源がONになると、各SVP304の電源回路104は、自SVP304内のマイコン100、第1WDT101および第2WDT102に電力供給する。これにより、第1WDT101および第2WDT102が起動する。マイコン100は、電源回路104からのパワーオンリセット信号120の入力によりプログラムの起動を開始する(ステップS400)。
 両マイコン100は、主系決定のため同期をとりあい(ステップS401~S403)、主系および待機系を確定させる(ステップS404)。その間、各マイコン100は、第1WDT定期リセット信号121を自SVPの第1WDT101に出力する(ステップS405)。各マイコン100は、プログラムの起動が完了すると、起動完了信号123を第2WDT102に出力する(ステップS406)。これにより、第2WDT102の動作が停止する。
 図5は、図3に示したSVP304の動作処理シーケンス例2を示すシーケンス図である。各障害検出装置1の動作処理は、図2に示した通りであるが、図5でも、両SVP304間のシーケンスに着目して説明する。なお、図5では、マイコン100間の同期中にマイコン100-2も障害が発生し、かつ、当該異常が第1WDT定期リセット信号121が出力できる障害であったり、恒久的な障害である場合の障害時のシーケンス例である。したがって、マイコン100-2は再起動開始後も障害が発生することになる。なお、図4と同一処理には同一ステップ番号を付す。
 ブレードサーバ300の主電源がONになると、各SVP304の電源回路104は、自SVP304内のマイコン100、第1WDT101および第2WDT102に電力供給する。これにより、第1WDT101および第2WDT102が起動する。マイコン100は、電源回路104からのパワーオンリセット信号120の入力によりプログラムの起動を開始する(ステップS400)。
 両マイコン100は、主系決定のため同期をとりあう(ステップS401、S402)が、同期2(ステップS402)のあとに、マイコン100-2で障害が発生する。障害発生により、マイコン100-2の動作が停止するため、第1WDT101-2のタイムアップにより、第1WDT101-2は第1WDTタイムアップ信号124をマイコン100-2に出力する(ステップS501)。また、第1WDT101-2は、第1WDTタイムアップ信号124を帰還させてリセット、すなわち、カウンタをクリアする(ステップS502)。なお、第2WDT102-2はカウンタをクリアせずに、カウンタ加算を継続する(ステップS224)。
 また、マイコン100-2は、第1WDTタイムアップ信号124の入力を受け付けるとプログラムの再起動を開始し(ステップS503)、再起動開始通知を回線307経由でマイコン100-1に送信する(ステップS504)。マイコン100-1は、再起動開始通知をマイコン100-2から受信すると、同期のやり直しのため、プログラムの再起動を開始する(ステップS505)。また、これにともない、第1WDT101-1および第2WDT102-1はリセット、すなわち、カウンタをクリアする(ステップS505、S506)。具体的には、マイコン100-1は、第1WDT定期リセット信号121を第1OR回路105-1を介して第1WDT101-1に出力し、第2WDTリセット信号122を第2OR回路106-1を介して第2WDT102-1に出力する。
 その後、両マイコン100は、再度主系決定のため同期をとりあう(ステップS401、S402)が、同期2(ステップS402)のあとに、マイコン100-2で再度障害が発生する。障害発生により、マイコン100-2の動作が停止するため、第1WDT101-2のタイムアップにより、第1WDT101-2は第1WDTタイムアップ信号124をマイコン100-2に出力する(ステップS501)。また、第1WDT101-2は、第1WDTタイムアップ信号124を帰還させてリセット、すなわち、カウンタをクリアする(ステップS502)。なお、第2WDT102-2はカウンタをクリアせずに、カウンタ加算を継続する(ステップS224)。
 また、マイコン100-2は、第1WDTタイムアップ信号124の入力を受け付けるとプログラムの再起動を開始し(ステップS503)、再起動開始通知を回線307経由でマイコン100-1に送信する(ステップS504)。マイコン100-1は、再起動開始通知をマイコン100-2から受信すると、同期のやり直しのため、プログラムの再起動を開始する(ステップS505)。また、これにともない、第1WDT101-1および第2WDT102-1はリセット、すなわち、カウンタをクリアする(ステップS505、S506)。具体的には、マイコン100-1は、第1WDT定期リセット信号121を第1OR回路105-1を介して第1WDT101-1に出力し、第2WDTリセット信号122を第2OR回路106-1を介して第2WDT102-1に出力する。
 このあと、第2SVP304-2の第2WDT102でタイムアップが発生し、第2WDT102-2は第2WDTタイムアップ信号125を電源回路104-2に出力し、電源回路104-2は、第2SVP304-2の電源をOFFにする(ステップS508)。これにより、マイコン100-2の障害検出による再起動の繰り返しが抑止される。
 また、第1SVP304-1では、マイコン100-1はマイコン100-2の電源OFFを検出することで、自身を主系に確定する(ステップS509)。マイコン100-1は、プログラムの起動を完了すると、起動完了信号123を第2WDT102-1に出力する(ステップS406-1)。これにより、第2WDT102-1の動作が停止する。
 このように、マイコン100-2の障害によりマイコン100-2が再起動と障害発生を繰り返しても、第2WDT102のタイムアップにより、マイコン100-2の電源がOFFになる。したがって、マイコン100-2の暴走を抑止することができる。また、マイコン100-2の電源OFFをマイコン100-1が検出することにより、第1SVP304-1が主系に決定され、起動処理が完了する。したがって、マイコン100-2の異常が第1WDT定期リセット信号121が出力できる障害であったり、恒久的な障害である場合であっても、同期処理(ステップS401、S402)が打ち切られ、マイコン100-2が所属する第2SVP304-2が切り離されるため、ブレードサーバ300は、起動処理の遅延を抑制することができる。まお、障害があるマイコン100-2については、メンテナンスにより正常な状態に復旧した場合に、再度ブレードサーバ300に接続すればよい。
 <障害検出装置1の他の例>
 なお、上述した実施例では、第2WDT102はタイムアップによりマイコン100の電源をOFFにさせる点について説明したが、電源OFFではなく、第2WDT102のタイムアップにより、マイコン100の再起動を停止するように制御してもよい。
 図6は、障害検出装置のブロック構成の他の例を示す説明図である。図6では、図1との相違点を中心に説明し、図1と同一構成には同一符号を付し、説明を省略する。障害検出装置10は、AND回路600を有する。AND回路600は、2入力1出力のAND回路であり、第1WDTタイムアップ信号124の出力を第2WDTタイムアップ信号125により制御する出力制御部である。
 AND回路600の一方の入力が第1WDT101の出力に接続され、他方の入力が第2WDT102の出力と接続されている。他方の入力である否定入力は、第2WDT102から出力される第2WDTタイムアップ信号125が入力される。AND回路600の出力は、マイコン100の入力および第1OR回路105の入力に接続される。また、図6では、第2WDT102の出力が電源回路104に接続されておらず、AND回路600の否定入力に接続される。
 AND回路600は、第1WDT101のタイムアップにより第1WDTタイムアップ信号124が出力され、かつ、第2WDT102から第2WDTタイムアップ信号125が出力されていない場合、第1WDTタイムアップ信号124をマイコン100に出力する。これにより、マイコン100はプログラムの再起動を開始し、第1WDT101もカウンタをクリアし、計時を再実行する。
 マイコン100が障害により暴走した場合、第2WDT102のタイムアップにより、第2WDT102は第2WDTタイムアップ信号125をAND回路600の否定入力に出力する。これにより、AND回路600からの第1WDTタイムアップ信号124の出力が停止され、マイコン100は再起動されず、第1WDT101もリセットされない。したがって、マイコン100および第1WDTは動作しない。
 また、図5のシーケンスでは、マイコン100-2の電源OFFをマイコン100-1が検出したが、図6の障害検出装置10を実装した場合、マイコン100-2の電源はOFFにならない。したがって、この場合は、マイコン100-1は、マイコン100-2の応答が一定期間ない場合に自身を主系に確定する。
 このように、本実施例によれば、障害が発生した監視対象の再起動を電源断または再起動停止をすることにより、起動時における監視対象の暴走を抑止することができる。また、障害検出装置を冗長化した場合、障害が発生した監視対象の起動時における暴走を抑止することにより、障害が発生した監視対象をシステムから切り離すことができる。したがって、障害が発生していない監視対象の起動時間の遅延を抑制することができ、システムの早期運用開始を図ることができる。
 また、上述したブレードサーバ300において、両SVP304に図1の障害検出装置1を実装する例を説明したが、両SVP204に図6の障害検出装置10を実装してもよく、また、一方のSVP304に障害検出装置1を実装し、他方のSVP304に障害検出装置10を実装してもよい。
 なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
 また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
 各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims (7)

  1.  起動開始から所定時間内にリセット信号を出力する監視対象の障害を検出する障害検出装置であって、
     前記所定時間よりも長く、かつ、前記監視対象が起動に要する時間よりも短い第1タイムアップ時間が設定されており、前記監視対象の起動開始または前記リセット信号の入力により第1カウンタをリセットして計時を開始し、前記第1タイムアップ時間が経過した場合、当該経過を示す第1タイムアップ信号を前記監視対象に出力することにより前記監視対象の起動を再度開始させ、かつ、前記第1カウンタをリセットして計時する第1タイマと、
     前記監視対象が起動に要する時間よりも長い第2タイムアップ時間が設定されており、前記監視対象の起動開始により第2カウンタをリセットして計時を開始し、前記第2タイムアップ時間が経過した場合、当該経過を示す第2タイムアップ信号を出力する第2タイマと、
     前記監視対象に電力を供給し、前記第2タイマから前記第2タイムアップ信号が入力された場合、前記監視対象への電力の供給を停止する供給源と、
     を有することを特徴とする障害検出装置。
  2.  起動開始から所定時間内にリセット信号を出力する監視対象の障害を検出する障害検出装置であって、
     前記所定時間よりも長く、かつ、前記監視対象が起動に要する時間よりも短い第1タイムアップ時間が設定されており、前記監視対象の起動開始または前記リセット信号の入力により第1カウンタをリセットして計時を開始し、前記第1タイムアップ時間が経過した場合、当該経過を示す第1タイムアップ信号を出力する第1タイマと、
     前記監視対象が起動に要する時間よりも長い第2タイムアップ時間が設定されており、前記監視対象の起動開始により第2カウンタをリセットして計時を開始し、前記第2タイムアップ時間が経過した場合、当該経過を示す第2タイムアップ信号を出力する第2タイマと、
     前記第1タイムアップ信号および前記第2タイムアップ信号のうち、前記第1タイムアップ信号のみが入力された場合、前記第1タイムアップ信号を前記監視対象に出力することにより前記監視対象の起動を再度開始させ、かつ、前記第1カウンタをリセットし、さらに、前記第2タイムアップ信号が入力された場合、前記監視対象への前記第1タイムアップ信号の出力を停止する出力制御部と、
     を有することを特徴とする障害検出装置。
  3.  前記監視対象は、前記第1タイムアップ信号が入力された場合、再起動を開始して、前記リセット信号を出力し、
     前記第1タイマは、前記第1タイムアップ信号が入力された場合、前記第1カウンタをリセットして計時することを特徴とする請求項1または2に記載の障害検出装置。
  4.  前記第2タイマは、前記監視対象の起動が完了した場合、前記第2カウンタによる計時を停止することを特徴とする請求項1または2に記載の障害検出装置。
  5.  障害検出装置を複数有する障害検出システムであって、
     前記障害検出装置の各々は、
     起動開始から所定時間内にリセット信号を出力し、かつ、他の障害検出装置における他の監視対象と同期処理を実行する監視対象と、
     前記所定時間よりも長く、かつ、前記監視対象が起動に要する時間よりも短い第1タイムアップ時間が設定されており、前記監視対象の起動開始または前記リセット信号の入力により第1カウンタをリセットして計時を開始し、前記第1タイムアップ時間が経過した場合、当該経過を示す第1タイムアップ信号を前記監視対象に出力することにより前記監視対象の起動を再度開始させ、かつ、前記第1カウンタをリセットして計時する第1タイマと、
     前記監視対象が起動に要する時間よりも長い第2タイムアップ時間が設定されており、前記監視対象の起動開始により第2カウンタをリセットして計時を開始し、前記第2タイムアップ時間が経過した場合、当該経過を示す第2タイムアップ信号を出力する第2タイマと、
     前記監視対象に電力を供給し、前記第2タイマから前記第2タイムアップ信号が入力された場合、前記監視対象への電力の供給を停止する供給源と、を有し、
     前記監視対象は、前記他の監視対象の再起動を検出した場合、前記第1カウンタおよび前記第2カウンタをリセットし、かつ、前記監視対象の起動を再度開始し、
     前記監視対象は、前記他の監視対象への電力の供給の停止を検出した場合、前記同期処理を終了してから、起動を完了することを特徴とする障害検出システム。
  6.  前記監視対象は、前記第1タイムアップ信号が入力された場合、再起動を開始して、前記リセット信号を出力し、
     前記第1タイマは、前記第1タイムアップ信号が入力された場合、前記第1カウンタをリセットして計時することを特徴とする請求項5に記載の障害検出システム。
  7.  前記第2タイマは、前記監視対象の起動が完了した場合、前記第2カウンタによる計時を停止することを特徴とする請求項5または6に記載の障害検出システム。
PCT/JP2015/066053 2015-06-03 2015-06-03 障害検出装置および障害検出システム WO2016194170A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/066053 WO2016194170A1 (ja) 2015-06-03 2015-06-03 障害検出装置および障害検出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/066053 WO2016194170A1 (ja) 2015-06-03 2015-06-03 障害検出装置および障害検出システム

Publications (1)

Publication Number Publication Date
WO2016194170A1 true WO2016194170A1 (ja) 2016-12-08

Family

ID=57440335

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/066053 WO2016194170A1 (ja) 2015-06-03 2015-06-03 障害検出装置および障害検出システム

Country Status (1)

Country Link
WO (1) WO2016194170A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5451438A (en) * 1977-09-30 1979-04-23 Fujitsu Ltd Control system for system failure detection
JPH0675824A (ja) * 1992-08-27 1994-03-18 Fujitsu Ten Ltd Cpuの動作監視装置
JP2007226527A (ja) * 2006-02-23 2007-09-06 Denso Corp 制御装置及びウォッチドッグタイマ
JP2008225807A (ja) * 2007-03-13 2008-09-25 Yaskawa Electric Corp 制御装置およびそのプログラム暴走監視方法
JP2008225858A (ja) * 2007-03-13 2008-09-25 Nec Corp Biosストール障害時の復旧装置、その方法及びそのプログラム
JP2015049827A (ja) * 2013-09-04 2015-03-16 Necプラットフォームズ株式会社 回路装置および回路装置の復旧方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5451438A (en) * 1977-09-30 1979-04-23 Fujitsu Ltd Control system for system failure detection
JPH0675824A (ja) * 1992-08-27 1994-03-18 Fujitsu Ten Ltd Cpuの動作監視装置
JP2007226527A (ja) * 2006-02-23 2007-09-06 Denso Corp 制御装置及びウォッチドッグタイマ
JP2008225807A (ja) * 2007-03-13 2008-09-25 Yaskawa Electric Corp 制御装置およびそのプログラム暴走監視方法
JP2008225858A (ja) * 2007-03-13 2008-09-25 Nec Corp Biosストール障害時の復旧装置、その方法及びそのプログラム
JP2015049827A (ja) * 2013-09-04 2015-03-16 Necプラットフォームズ株式会社 回路装置および回路装置の復旧方法

Similar Documents

Publication Publication Date Title
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
US8667315B2 (en) Synchronization control apparatus, information processing apparatus, and synchronization management method for managing synchronization between a first processor and a second processor
US20060259815A1 (en) Systems and methods for ensuring high availability
US8661290B2 (en) Saving power in computing systems with redundant service processors
US20210255939A1 (en) System and method for improving detection and capture of a host system catastrophic failure
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
TWI529624B (zh) Method and system of fault tolerance for multiple servers
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JP2003150280A (ja) バックアップ管理システムおよび方法
US20120131384A1 (en) Computer system
JPWO2015104841A1 (ja) 多重系システムおよび多重系システム管理方法
TW201423390A (zh) 電腦系統及其操作方法
US20110296236A1 (en) Information Processing Apparatus
US10852792B2 (en) System and method for recovery of sideband interfaces for controllers
US10416913B2 (en) Information processing device that monitors operation of storage utilizing specific device being connected to storage
JP5909948B2 (ja) 情報処理装置および情報処理装置の試験方法
WO2016194170A1 (ja) 障害検出装置および障害検出システム
TWI675296B (zh) 備援方法及備援系統
JP2008015704A (ja) マルチプロセッサシステム
TWI779682B (zh) 電腦系統、電腦伺服器及其啟動方法
JP2003256240A (ja) 情報処理装置及びその障害回復方法
WO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP5335150B2 (ja) 計算機装置及びプログラム
JP2013186688A (ja) ストレージ制御装置、ストレージ装置、ストレージ装置の制御方法及びプログラム
KR101564144B1 (ko) 펌웨어 관리 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15894203

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15894203

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP