WO2019053939A1 - ノード装置、回復動作制御方法、及び回復動作制御プログラムを格納する非一時的なコンピュータ可読媒体 - Google Patents
ノード装置、回復動作制御方法、及び回復動作制御プログラムを格納する非一時的なコンピュータ可読媒体 Download PDFInfo
- Publication number
- WO2019053939A1 WO2019053939A1 PCT/JP2018/018027 JP2018018027W WO2019053939A1 WO 2019053939 A1 WO2019053939 A1 WO 2019053939A1 JP 2018018027 W JP2018018027 W JP 2018018027W WO 2019053939 A1 WO2019053939 A1 WO 2019053939A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- node device
- recovery operation
- node
- report
- devices
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2043—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/1425—Reconfiguring to eliminate the error by reconfiguration of node membership
Definitions
- the present invention relates to a node device, a recovery operation control method, and a recovery operation control program.
- a cluster system for example, a high availability cluster system (HA) having a cooperative configuration of a plurality of node devices (for example, a plurality of computers) has been proposed (for example, a patent) Literature 1).
- HA high availability cluster system
- a plurality of node devices for example, a plurality of computers
- Patent Document 1 when a failure occurs in a certain system in a cluster, in order to prevent all the systems from being reset, the system in the cluster that has detected the failure is Reset is issued based on the reset delay time according to the priority.
- An object of the present invention is to provide a node device capable of preventing all node devices from being stopped by recovery operation even when time synchronization is not achieved among a plurality of node devices in a cluster system.
- An operation control method and a recovery operation control program are provided.
- the node device is a node device in a cluster system having a cooperative configuration of a plurality of node devices, and when the own node device detects a system failure, the own node device performs recovery operation A determination unit that determines whether or not to avoid the recovery operation over execution and a determination unit for determining whether or not to avoid recovery operation, and one or more other node devices other than the own node device in the cluster system A report request unit that transmits a request signal for requesting a report on the normal state and the abnormal state of another node device; and if the determination unit determines that the own node device is the avoidance priority device, the report request unit And transmits the request signal, and executes the recovery operation of the own node device based on the report from the one or more other node devices.
- Luke or said determining whether to avoid performing recovery operation of the node device comprises a, a recovery operation control unit.
- a recovery operation control method is a recovery operation control method executed by a first node device in a cluster system having a cooperative configuration of a plurality of node devices, wherein the first node device is a system.
- the first node device is an avoidance priority device that prioritizes avoiding recovery operation over execution of recovery operation, and the first node device is the avoidance priority device. If it is determined that there is, it sends a request signal for requesting reports on the normal state and abnormal state of each other node device to one or more other node devices other than the first node device in the cluster system. Performing a recovery operation of the first node device based on the report from the one or more other node devices, or of the first node device To determine whether to avoid the execution of the recovery operation.
- the recovery operation control program when the first node device detects a system failure in the first node device in a cluster system having a cooperative configuration of a plurality of node devices, the first node It is determined whether the device is an avoidance priority device that prioritizes avoiding recovery operation over execution of recovery operation, and when it is determined that the first node device is the avoidance priority device, the cluster system Transmitting to the one or more other node devices other than the first node device in the above, a request signal requesting a report on the normal state and abnormal state of each other node device, and the one or more other node devices Determine whether to execute the recovery operation of the first node device or to avoid performing the recovery operation of the first node device based on the report from , The process, to be executed.
- a method and recovery operation control program can be provided.
- FIG. 1 is a diagram illustrating an example of a cluster system according to the first embodiment.
- a cluster system 1 has a plurality of node devices 10 connected to one another via a communication network N1.
- the node devices 10-1 and 10-2 cooperate to provide a service continuously.
- the cluster system 1 has two node devices 10-1 and 10-2, but the number of node devices 10 included in the cluster system 1 is not limited to two.
- the node devices 10-1 and 10-2 have the same configuration.
- the node devices 10-1 and 10-2 may be collectively referred to as a node device 10.
- One node device 10 of the node devices 10-1 and 10-2 is set as the "evacuation priority device", while the other node device 10 is not the avoidance priority device.
- the node device 10-1 is set as the “avoidance priority device”.
- the node device 10-1 determines whether the node device 10-1 is the “avoidance priority device”.
- the “avoidance priority device” is a device that gives priority to the self node device avoiding the recovery operation over the execution of the recovery operation.
- the node device 10-1 determines that its own node device is the avoidance device.
- the node device 10-2 also detects a system failure in the cluster system 1, it determines whether or not the node device 10-1 is an "avoidance priority device”. It will be determined that there is no.
- the node device 10-1 When it is determined that the node device 10-1 is the avoidance priority device, the node device 10-1 sends a “request signal” to the node device 10 other than the node device 10-1, that is, to the node device 10-2.
- Send The “request signal” is a signal requesting a report on the normal state and the abnormal state of the node device 10-2.
- the node device 10-1 determines whether to execute the recovery operation of the own node device or to avoid the execution of the recovery operation of the own node device.
- the node device 10-1 when detecting a system failure in the cluster system 1, the node device 10-1 determines whether the node device 10-1 is the “avoidance priority device”. Then, if it is determined that the own node device is the avoidance priority device, the node device 10-1 transmits a “request signal” to the node devices 10-2 other than the node device 10-1. Then, based on the report from the node device 10-2, the node device 10-1 determines whether to execute the recovery operation of the own node device or to avoid the execution of the recovery operation of the own node device.
- the node device 10-1 executes the recovery operation of its own node device or avoids the execution of the recovery operation of its own node device based on a report from the node device 10-2 Since the determination is made, it is possible to prevent all the node devices from being stopped by the recovery operation. Further, when the node device 10-1 detects a system failure in the cluster system 1 and the node device 10-1 is an avoidance priority device, the node device 10-1 transmits a "request signal" to transmit the node device 10-2. Since the state of is confirmed, it is possible to prevent all the node devices from being stopped by the recovery operation even when time synchronization is not achieved between the node devices.
- FIG. 2 is a block diagram showing an example of a node device according to the first embodiment.
- the node device 10 has a control unit 11.
- the control unit 11 includes a system failure monitoring unit 12, a determination unit 13, a report request unit 14, a recovery operation control unit 15, and a report transmission unit 16.
- the system fault monitoring unit 12 monitors faults in the own node device 10 and the communication network N1 (that is, system faults).
- the functional unit for example, the system failure monitoring unit 12
- the own node device 10 means the node device 10-1
- the other node device 10 means the node device 10-2.
- the determining unit 13 determines whether or not the own node device 10 is an avoidance priority device that prioritizes avoiding the recovery operation over the execution of the recovery operation. .
- the recovery operation control unit 15 directs the request signal to the report request unit 14 to the other node device 10 other than the own node device 10 Send it. Then, based on the report from the other node device 10, the recovery operation control unit 15 determines whether to execute the recovery operation of the own node device 10 or to avoid the execution of the recovery operation of the own node device 10. For example, when the report from the other node device 10 indicates the normal state of the other node device 10, the recovery operation control unit 15 determines to execute the recovery operation, while the report from the other node device 10 indicates the other node device If 10 abnormal states are indicated, it is decided to avoid the execution of the recovery operation.
- the report request unit 14 transmits a request signal to other node devices 10 other than the own node device 10 according to the control of the recovery operation control unit 15.
- the report transmission unit 16 transmits the report to the other node device 10. For example, when the system failure monitoring unit 12 detects a system failure, the report transmission unit 16 transmits a report indicating that the node device 10 is in an abnormal state, while the system failure monitoring unit 12 detects a system failure. If not detected, a report indicating that the node device 10 is in a normal state is transmitted.
- FIG. 3 is a flow chart showing an example of the processing operation of the node device of the first embodiment.
- the node device 10-1 will be described as an example.
- the system fault monitoring unit 12 repeatedly determines whether a system fault has been detected (step S101 NO).
- the determining unit 13 prevents the own node device 10 (that is, the node device 10-1) from avoiding the recovery operation rather than executing the recovery operation. It is determined whether it is an avoidance priority device to which priority is given (step S102).
- the recovery operation control unit 15 sends a request signal to the report request unit 14 It is transmitted toward the other node device 10 (that is, the node device 10-2) other than the own node device 10 (step S103).
- step S104 NO If the recovery operation control unit 15 waits for a report from the other node device 10 (that is, the node device 10-2) (step S104 NO) and receives a report from the other node device 10 (YES in step S104), the other node device It is determined whether the report from 10 (that is, the node device 10-2) indicates a normal state (step S105).
- the recovery operation control unit 15 determines to perform the recovery operation (step S106). Then, the recovery operation is performed and the flow of FIG. 3 ends once, and the flow of FIG. 3 starts again.
- step S105 NO recovery operation control
- the unit 15 determines that the execution of the recovery operation is to be avoided (step S107). Then, the flow returns to step S101.
- the recovery operation control unit 15 does not transmit the request signal to the report request unit 14 and performs the recovery operation. To execute (step S106). That is, such processing is executed in the node device 10-2 which is not set as the avoidance priority device. In this way, it is possible to satisfy the cluster system requirement that the time from failure detection to execution of recovery operation be as short as possible.
- the node device 10-1 when the system failure monitoring unit 12 detects a system failure in the node device 10-1, the node device 10-1 recovers more than the execution of the recovery operation. It is determined whether or not the device is an avoidance priority device that gives priority to avoiding the operation. When the determination unit 13 determines that the node device 10-1 is the avoidance priority device, the recovery operation control unit 15 sends a request signal to the report request unit 14 to a node device 10-2 other than the node device 10-1. Send to
- the recovery operation of the node device 10-1 is executed or the execution of the recovery operation of the node device 10-1 is avoided based on the report from the node device 10-2 by the configuration of the node device 10-1 Since the determination is made, it is possible to prevent all the node devices 10 from being stopped by the recovery operation. Further, when the node device 10-1 detects a system failure in the cluster system 1 and the node device 10-1 is an avoidance priority device, the node device 10-1 transmits a "request signal" to transmit the node device 10-2. To check that all node devices 10-1 and 10-2 are stopped by recovery even if time synchronization is not achieved between node devices 10-1 and 10-2. can do.
- the node device 10-1 transmits a "request signal" to confirm the state of the node device 10-2, not only the alive monitoring of the node device 10-2 (that is, the life and death of the node device 10-2) Not only that, it is possible to confirm the failure status of individual resources of the node device 10-2 (that is, whether the node device 10-2 is alive, but the resource used in business is normal or abnormal).
- the recovery operation control unit 15 can execute the following processing. That is, when the report from at least one other node device 10 of the plurality of other node devices 10 indicates a normal state, the recovery operation control unit 15 controls the execution of the recovery operation of the own node device 10, When all the reports from the other node device 10 indicate an abnormal state, the execution of the recovery operation of the own node device 10 may be avoided.
- the determination unit 13 can execute the following process. That is, among the plurality of start node devices including the own node device 10 in the active state among the plurality of node devices 10 included in the cluster system 1, the “avoidance priority” assigned to the own node device 10 is When it is higher than the avoidance priority assigned to any starting node other than the own node device 10, it is determined that the own node device 10 is the avoidance priority device. For example, when the cluster system 1 includes five node devices 10, avoidance priorities 1 to 5 are set for the five node devices 10, respectively.
- the node devices 10 with avoidance priority 2 are Only the determination unit 13 determines that the own node device 10 is the avoidance priority device.
- FIG. 4 is a diagram illustrating an example of a cluster system according to the second embodiment.
- the cluster system 2 includes node devices 20-1 and 20-2 and NICs (network interface cards) 30-1 and 30-2 attached to the node devices 20-1 and 20-2, respectively.
- a HUB (network device) 40 is provided to connect between the node device 20-1 and the node device 20-2 via the interface devices 1 and 30-2.
- the node device 20-1 and the node device 20-2 are connected by the communication network N1 as in the node devices 10-1 and 10-2 of the first embodiment.
- the communication network N1 of the second embodiment has a first communication route R1 and a second communication route R2.
- the route including the NIC 30-1, the HUB 40, and the NIC 30-2 is the first communication route R1.
- the node device 20-1 and the node device 20-2 have the same configuration.
- the node devices 20-1 and 20-2 may be collectively referred to as a node device 20.
- One node device 20 of the node devices 20-1 and 20-2 is set as the "evacuation priority device", while the other node devices 20 are not the avoidance priority device.
- the node device 20-1 is set as the “avoidance priority device”.
- FIG. 5 is a block diagram showing an example of a node device according to the second embodiment.
- the node device 20 includes a control unit 21.
- the control unit 21 includes a system failure monitoring unit 22, a determination unit 23, a report request unit 24, a recovery operation control unit 25, and a report transmission unit 26.
- the system fault monitoring unit 22 monitors faults in the own node device 20 and the communication network N1 (that is, system faults) as in the system fault monitoring unit 12 of the first embodiment.
- the own node device 20 means the node device 20-1 and the other node device 20 means the node device 20-2.
- the system failure monitoring unit 22 monitors, for example, a failure of the NIC 30 attached to the own node device 20 and a failure of the HUB 40, that is, a failure of the first communication route R1.
- the failure of the first communication route R1 includes, for example, a disconnection of a LAN cable connected to the NIC 30, and a failure of the HUB 40. In either case, the system failure monitoring unit 22 detects a link disconnection of the NIC 30.
- the system failure monitoring unit 22 of the node device 20-1 detects the failure while the failure of the node device 20-2 is detected.
- the system fault monitoring unit 22 does not detect a fault. Therefore, when a failure occurs in the NIC 30-1, since the node device 20-2 does not execute the recovery operation, all the node devices 20 of the cluster system 2 do not stop.
- the failure when a failure occurs in the HUB 40, the failure is detected by both the system failure monitoring unit 22 of the node device 20-1 and the system failure monitoring unit 22 of the node device 20-2. Therefore, when the recovery operation is performed in both of the node devices 20-1 and 20-2, there is a problem.
- determining unit 23 is an avoidance priority device that prioritizes that the own node device 20 avoids the recovery operation over the execution of the recovery operation when the system failure monitoring unit 22 detects a failure of the first communication route R1 It is determined whether or not.
- the recovery operation control unit 25 directs the request signal to the report request unit 24 to the other node devices 20 other than the own node device 20. , And transmit via the second communication route R2. Then, based on the report from the other node device 20, the recovery operation control unit 25 determines whether to execute the recovery operation of the own node device 20 or to avoid the execution of the recovery operation of the own node device 20.
- the report request unit 24 transmits the request signal to the other node devices 20 other than the own node device 20 through the second communication route R2 under the control of the recovery operation control unit 25.
- the report transmission unit 26 directs a report to the other node device 10 when the own node device 20 receives a request signal from the other node device 20 which is not the avoidance priority device and is the avoidance priority device via the second communication route R2. To transmit via the second communication route R2.
- the determination unit 23 when a failure in the first communication route R1 is detected in the node device 20-1, the determination unit 23 performs recovery operation more than execution of recovery operation by the node device 20-1. It is determined whether it is an avoidance priority device that gives priority to avoiding. Then, when the determination unit 23 determines that the node device 20-1 is the avoidance priority device, the recovery operation control unit 25 directs the request signal to the report request unit 24 to the node device 20-2, 2 Transmission via communication route R2. Then, based on the report from the node device 20-2, the recovery operation control unit 25 determines whether to execute the recovery operation of the node device 20-1 or to avoid the execution of the recovery operation of the node device 20-1. Do.
- the node device 20-1 and the node device 20- Both of the two can be prevented from stopping for recovery operation.
- FIG. 6 is a diagram illustrating an example of a cluster system according to the third embodiment.
- the cluster system 3 includes node devices 50-1 and 50-2 and NICs (network interface cards) 30-1 and 30-2 attached to the node devices 50-1 and 50-2, respectively.
- a hub device (network device) 40 is provided to connect between the node device 50-1 and the node device 50-2 via the interface devices 1 and 30-2.
- the node device 50-1 and the node device 50-2 are connected by the communication network N1 as in the node devices 20-1 and 20-2 of the second embodiment.
- the node device 50-1 and the node device 50-2 have the same configuration.
- the node devices 50-1 and 50-2 may be collectively referred to as a node device 50.
- One node device 50 of the node devices 50-1 and 50-2 is set as the "avoidance priority device", while the other node device 50 is not the avoidance priority device.
- the node device 50-1 is set as the “avoidance priority device”.
- FIG. 7 is a block diagram showing an example of a node device according to the third embodiment.
- the node device 50 includes a control unit 51.
- the control unit 51 includes a system failure monitoring unit 52, a determination unit 53, a report request unit 54, a recovery operation control unit 55, a report transmission unit 56, and a heartbeat control unit 57.
- the heartbeat control unit 57 includes a heartbeat transmission unit 57A, a heartbeat reception unit 57B, and an abnormality detection unit 57C.
- the system failure monitoring unit 52 monitors failures (that is, system failures) in the node device 50 and the communication network N1 as in the system failure monitoring unit 22 of the second embodiment.
- the system failure monitoring unit 52 monitors, for example, a failure of the NIC 30 attached to the own node device 50 and a failure of the HUB 40, that is, a failure of the first communication route R1.
- the functional unit (for example, the system failure monitoring unit 22) of the node device 50-1 the own node device 50 means the node device 50-1
- the other node device 50 means the node device 50-2.
- the system failure monitoring unit 22 detects a failure of the first communication route R1
- the own node device 50 performs recovery operation rather than execution of recovery operation. It is determined whether it is an avoidance priority device that gives priority to avoiding.
- the heartbeat transmitting unit 57A transmits a heartbeat signal at a predetermined cycle via each of the first communication route R1 and the second communication route R2.
- the heartbeat receiving unit 57B receives the heartbeat signal transmitted from the other node device 50 via the first communication route R1 and the second communication route R2.
- the abnormality detection unit 57C If the abnormality detection unit 57C does not receive a heartbeat signal from the other node device 50 at a predetermined cycle, the abnormality detection unit 57C detects that the other node device 50 is abnormal. On the other hand, when receiving a heartbeat signal from the other node device 50 at a predetermined cycle, the abnormality detection unit 57C detects that the other node device 50 is normal.
- the recovery operation control unit 55 sends a notification to the report request unit 54. Then, the request signal is transmitted to the other node device 50 via the second communication route R2. Then, based on the report from the other node device 50, the recovery operation control unit 55 determines whether to execute the recovery operation of the own node device 50 or to avoid the execution of the recovery operation of the own node device 50.
- the recovery operation control unit 55 reports the request unit 54. It is determined that the execution of the recovery operation of the own node device 50 is to be avoided without transmitting a request signal. As a result, it is possible to satisfy the request of the cluster system to reduce the processing load of the control unit 51 as much as possible. In addition, since it is determined that the execution of the recovery operation of the own node device 50 is to be avoided without transmitting the request signal to the report request unit 54, the determination can be made without delay.
- the report request unit 54 transmits a request signal to other node devices 50 other than the own node device 50 via the second communication route R2.
- the report transmitting unit 56 directs a report to the other node device 50 when the own node device 50 receives a request signal from the other node device 50 which is not the avoidance priority device and is the avoidance priority device via the second communication route R2. To transmit via the second communication route R2.
- FIG. 8 is a flowchart illustrating an example of heartbeat transmission processing of the node device according to the third embodiment.
- the heartbeat transmitting unit 57A transmits a heartbeat signal through each of the first communication route R1 and the second communication route R2, and starts a transmission timer (not shown) included in the heartbeat transmitting unit 57A. (Step S201).
- the heartbeat transmitting unit 57A waits until the elapsed time from the transmission timing of the heartbeat signal reaches the heartbeat transmission interval value (NO in step S202).
- the processing step returns to step S201. That is, the heartbeat transmitting unit 57A transmits the heartbeat signal via each of the first communication route R1 and the second communication route R2, and the transmission timer (not shown) included in the heartbeat transmitting unit 57A.
- the heartbeat transmitting unit 57A transmits the heartbeat signal at a predetermined cycle via each of the first communication route R1 and the second communication route R2.
- FIG. 9 is a flowchart illustrating an example of the abnormality detection process of the node device according to the third embodiment. This abnormality detection process is performed in parallel with the above-described heartbeat transmission process.
- the abnormality detection unit 57C waits until the heartbeat signal from the other node device 50 is received (step S301 NO).
- the abnormality detection unit 57C updates the status information of the other node device 50 to "normal", and the reception timer possessed by the abnormality detection unit 57C. (Not shown) is started (step S302).
- the abnormality detection unit 57C determines whether the elapsed time from the reception timing has exceeded the heartbeat transmission interval value by a predetermined value or more (step S303).
- the predetermined value is zero or a positive value.
- the abnormality detection unit 57C determines whether a heartbeat signal from the other node device 50 has been received (step S304). .
- step S304 NO If the heartbeat signal from the other node device 50 has not been received (step S304 NO), the processing step returns to step S303.
- step S304 YES When the heartbeat signal from the other node device 50 is received (step S304 YES), the processing step returns to step S302.
- the abnormality detection unit 57C waits for reception of the heartbeat signal from the other node device 50 until the elapsed time from the reception timing exceeds the heartbeat transmission interval value by a predetermined value or more (steps S303 NO and S304 NO). Then, when the abnormality detection unit 57C receives a heartbeat signal from the other node device 50 before the elapsed time exceeds the heartbeat transmission interval value by a predetermined value or more (step S303 NO, step S304 YES), the status of the other node device 50 The information is updated to "normal", and the reception timer (not shown) is reset (step S302).
- step S303 YES When an elapsed time exceeds a heartbeat transmission interval value by a predetermined value or more without receiving a heartbeat signal from another node device 50 before the elapsed time exceeds the heartbeat transmission interval value by a predetermined value or more (step S303 YES), the abnormality detection unit 57C updates the status information of the other node device 50 to “abnormal” (step S305). Then, the processing step returns to step S301.
- FIG. 10 is a flowchart illustrating an example of control processing of recovery operation of the node device according to the third embodiment. The control process of this recovery operation is executed in parallel with the above-mentioned abnormality detection process of the other node device.
- steps S401 and S402 are the same as steps S101 and 102 of FIG.
- the recovery operation control unit 55 determines whether an abnormality of the other node device 50 is detected based on the heartbeat signal. Is determined (step S403). That is, the recovery operation control unit 55 refers to the status information updated in the abnormality detection process of FIG. 9 to determine whether the other node device 50 is abnormal.
- step S404 the recovery operation control unit 55 sends a request signal to the report request unit 54 to the other node device 50 other than the own node device 50.
- step S404 The processing operation of step S404 to step S408 is the same as step S103 to step S107 of FIG.
- the recovery operation control unit 55 does not transmit the request signal to the report request unit 54. It is determined to avoid execution of the recovery operation of the own node device 50 (step S408).
- the recovery operation control unit 55 determines that the node device 50-1 is the avoidance priority device by the determination unit 53, and the abnormality detection unit 57C When an abnormality of the device 50-2 is detected, it is determined not to transmit the request signal to the report request unit 54, and to prevent execution of the recovery operation of the node device 50-1.
- the node device 50-1 can satisfy the request of the cluster system to reduce the processing load of the control unit 51 as much as possible.
- FIG. 11 is a diagram illustrating an example of a hardware configuration of a node device.
- the node device 100 in FIG. 11 includes a processor 101 and a memory 102.
- the control units 11, 21, and 51 of the node devices 10, 20, and 50 of the first to third embodiments are realized by the processor 101 reading and executing a program stored in the memory 102.
- the program can be stored using various types of non-transitory computer readable media and supplied to a computer.
- Non-transitory computer readable media include tangible storage media of various types.
- non-transitory computer readable media are magnetic recording media (eg flexible disk, magnetic tape, hard disk drive), magneto-optical recording media (eg magneto-optical disk), CD-ROM (Read Only Memory) CD-R, CD And semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
- the programs may be supplied to the computer by various types of transitory computer readable media.
- Examples of temporary computer readable media include electrical signals, light signals, and electromagnetic waves.
- the temporary computer readable medium can provide the program to the computer via a wired communication path such as electric wire and optical fiber, or a wireless communication path.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
クラスタシステム内の複数のノード装置の間で時刻同期がとられていない場合でも回復動作によってすべてのノード装置が停止してしまうことを防止することができる、ノード装置、回復動作制御方法、及び回復動作制御プログラムを提供する。ノード装置(10-1)は、クラスタシステム(1)におけるシステム障害を検知した場合、ノード装置(10-1)が回避優先装置であるか否かを判定する。そして、ノード装置(10-1)は、自ノード装置が回避優先装置であると判定された場合、ノード装置(10-1)以外のノード装置(10-2)に向けて、要求信号を送信する。要求信号は、ノード装置(10-2)の正常状態及び異常状態に関する報告を要求する信号である。そして、ノード装置(10-1)は、ノード装置(10-2)からの報告に基づいて、自ノード装置の回復動作を実行するか又は自ノード装置の回復動作の実行を回避するかを決定する。
Description
本発明は、ノード装置、回復動作制御方法、及び回復動作制御プログラムに関する。
従来、継続的にサービスを提供するために、複数のノード装置(例えば、複数のコンピュータ)による連携構成を有するクラスタシステム(例えば、HA(High Availability)クラスタシステム)が提案されている(例えば、特許文献1)。特許文献1に開示されているクラスタシステムでは、クラスタ内で或る系に障害が発生した場合に、すべての系がリセットされることを防止するために、その障害を検知したクラスタ内の系が優先度に応じたリセット遅延時間に基づいて、リセットを発行する。
しかしながら、上記関連技術のクラスタシステムでは、予備系が障害系に対してリセット遅延時間に基づくタイミングでリセットを発行するため、クラスタシステム内の複数のノード装置の間で時刻同期している必要がある。このため、複数のノード装置の間で時刻同期が実現されていない場合、クラスタシステムにおいて障害が発生したときにクラスタシステムにおける複数のノード装置のすべてが回復動作(アプリケーション再起動、フェールオーバー、ノード停止など)を実行して、すべてのノード装置が停止してしまう可能性がある。
本発明の目的は、クラスタシステム内の複数のノード装置の間で時刻同期がとられていない場合でも回復動作によってすべてのノード装置が停止してしまうことを防止することができる、ノード装置、回復動作制御方法、及び回復動作制御プログラムを提供することにある。
本発明の第1の態様にかかるノード装置は、複数のノード装置による連携構成を有するクラスタシステムにおけるノード装置であって、自ノード装置がシステム障害を検知した場合、前記自ノード装置が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する判定部と、前記クラスタシステムにおける前記自ノード装置以外の1つ又は複数の他ノード装置に向けて、各他ノード装置の正常状態及び異常状態に関する報告を要求する要求信号を送信する報告要求部と、前記判定部によって前記自ノード装置が前記回避優先装置であると判定された場合、前記報告要求部に対して前記要求信号を送信させ、前記1つ又は複数の他ノード装置からの前記報告に基づいて、前記自ノード装置の回復動作を実行するか又は前記自ノード装置の回復動作の実行を回避するかを決定する、回復動作制御部と、を具備する。
本発明の第2の態様にかかる回復動作制御方法は、複数のノード装置による連携構成を有するクラスタシステムにおける第1ノード装置によって実行される回復動作制御方法であって、前記第1ノード装置がシステム障害を検知した場合、前記第1ノード装置が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定し、前記第1ノード装置が前記回避優先装置であると判定された場合、前記クラスタシステムにおける前記第1ノード装置以外の1つ又は複数の他ノード装置に向けて、各他ノード装置の正常状態及び異常状態に関する報告を要求する要求信号を送信し、前記1つ又は複数の他ノード装置からの前記報告に基づいて、前記第1ノード装置の回復動作を実行するか又は前記第1ノード装置の回復動作の実行を回避するかを決定する。
本発明の第3の態様にかかる回復動作制御プログラムは、複数のノード装置による連携構成を有するクラスタシステムにおける第1ノード装置に、前記第1ノード装置がシステム障害を検知した場合、前記第1ノード装置が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定し、前記第1ノード装置が前記回避優先装置であると判定された場合、前記クラスタシステムにおける前記第1ノード装置以外の1つ又は複数の他ノード装置に向けて、各他ノード装置の正常状態及び異常状態に関する報告を要求する要求信号を送信し、前記1つ又は複数の他ノード装置からの前記報告に基づいて、前記第1ノード装置の回復動作を実行するか又は前記第1ノード装置の回復動作の実行を回避するかを決定する、処理を、実行させる。
本発明により、クラスタシステム内の複数のノード装置の間で時刻同期がとられていない場合でも回復動作によってすべてのノード装置が停止してしまうことを防止することができる、ノード装置、回復動作制御方法、及び回復動作制御プログラムを提供することができる。
以下、図面を参照しつつ、実施形態について説明する。なお、実施形態において、同一又は同等の要素には、同一の符号を付し、重複する説明は省略される。
<第1実施形態>
<クラスタシステムの概要>
図1は、第1実施形態のクラスタシステムの一例を示す図である。図1において、クラスタシステム1は、通信ネットワークN1を介して互いに接続されている、複数のノード装置10を有している。ノード装置10-1,10-2は、継続的にサービスを提供するために、連携している。ここでは、クラスタシステム1はノード装置10-1,10-2の2つを有しているが、クラスタシステム1に含まれるノード装置10の数は、2つに限定されるものではない。ノード装置10-1,10-2は、互いに同じ構成を有している。以下では、ノード装置10-1,10-2を総称して、ノード装置10と呼ぶことがある。ノード装置10-1,10-2のうちの1つのノード装置10は、「回避優先装置」として設定されている一方、他のノード装置10は、回避優先装置ではない。ここでは、ノード装置10-1が「回避優先装置」として設定されているものとする。
<クラスタシステムの概要>
図1は、第1実施形態のクラスタシステムの一例を示す図である。図1において、クラスタシステム1は、通信ネットワークN1を介して互いに接続されている、複数のノード装置10を有している。ノード装置10-1,10-2は、継続的にサービスを提供するために、連携している。ここでは、クラスタシステム1はノード装置10-1,10-2の2つを有しているが、クラスタシステム1に含まれるノード装置10の数は、2つに限定されるものではない。ノード装置10-1,10-2は、互いに同じ構成を有している。以下では、ノード装置10-1,10-2を総称して、ノード装置10と呼ぶことがある。ノード装置10-1,10-2のうちの1つのノード装置10は、「回避優先装置」として設定されている一方、他のノード装置10は、回避優先装置ではない。ここでは、ノード装置10-1が「回避優先装置」として設定されているものとする。
ノード装置10-1は、クラスタシステム1におけるシステム障害を検知した場合、ノード装置10-1が「回避優先装置」であるか否かを判定する。「回避優先装置」は、自ノード装置が回復動作の実行よりも回復動作を回避することを優先する装置である。ここでは、ノード装置10-1が「回避優先装置」として設定されていることを前提としているので、ノード装置10-1は、自ノード装置が回避優先装置であると判定する。一方で、ノード装置10-2も、クラスタシステム1におけるシステム障害を検知した場合、ノード装置10-1が「回避優先装置」であるか否かを判定するが、自ノード装置は回避優先装置ではないと判定することになる。
そして、ノード装置10-1は、自ノード装置が回避優先装置であると判定された場合、ノード装置10-1以外のノード装置10、つまり、ノード装置10-2に向けて、「要求信号」を送信する。「要求信号」は、ノード装置10-2の正常状態及び異常状態に関する報告を要求する信号である。
そして、ノード装置10-1は、ノード装置10-2からの報告に基づいて、自ノード装置の回復動作を実行するか又は自ノード装置の回復動作の実行を回避するかを決定する。
以上のようにクラスタシステム1において、ノード装置10-1は、クラスタシステム1におけるシステム障害を検知した場合、ノード装置10-1が「回避優先装置」であるか否かを判定する。そして、ノード装置10-1は、自ノード装置が回避優先装置であると判定された場合、ノード装置10-1以外のノード装置10-2に向けて、「要求信号」を送信する。そして、ノード装置10-1は、ノード装置10-2からの報告に基づいて、自ノード装置の回復動作を実行するか又は自ノード装置の回復動作の実行を回避するかを決定する。
このクラスタシステム1の構成により、ノード装置10-1がノード装置10-2からの報告に基づいて、自ノード装置の回復動作を実行するか又は自ノード装置の回復動作の実行を回避するかを決定するので、すべてのノード装置が回復動作によって停止してしまうことを防止することができる。また、ノード装置10-1がクラスタシステム1におけるシステム障害を検知し且つノード装置10-1が回避優先装置である場合、ノード装置10-1が「要求信号」を送信してノード装置10-2の状態を確認するので、ノード装置間で時刻同期がとられていない場合でも、すべてのノード装置が回復動作によって停止してしまうことを防止することができる。
<ノード装置の構成例>
図2は、第1実施形態のノード装置の一例を示すブロック図である。図2において、ノード装置10は、制御部11を有する。制御部11は、システム障害監視部12と、判定部13と、報告要求部14と、回復動作制御部15と、報告送信部16とを有している。
図2は、第1実施形態のノード装置の一例を示すブロック図である。図2において、ノード装置10は、制御部11を有する。制御部11は、システム障害監視部12と、判定部13と、報告要求部14と、回復動作制御部15と、報告送信部16とを有している。
システム障害監視部12は、自ノード装置10及び通信ネットワークN1における障害(つまり、システム障害)を監視する。なお、ここでは、ノード装置10-1の機能部(例えば、システム障害監視部12)にとって、自ノード装置10はノード装置10-1を意味し、他ノード装置10はノード装置10-2を意味する。
判定部13は、システム障害監視部12によってシステム障害が検知された場合、自ノード装置10が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する。
回復動作制御部15は、判定部13によって自ノード装置10が回避優先装置であると判定された場合、報告要求部14に対して要求信号を自ノード装置10以外の他ノード装置10に向けて送信させる。そして、回復動作制御部15は、他ノード装置10からの報告に基づいて、自ノード装置10の回復動作を実行するか又は自ノード装置10の回復動作の実行を回避するかを決定する。例えば、回復動作制御部15は、他ノード装置10からの報告が他ノード装置10の正常状態を示している場合、回復動作を実行すると決定する一方、他ノード装置10からの報告が他ノード装置10の異常状態を示している場合、回復動作の実行を回避すると決定する。
報告要求部14は、回復動作制御部15による制御に従って、要求信号を自ノード装置10以外の他ノード装置10に向けて送信する。
報告送信部16は、自ノード装置10が回避優先装置でなく且つ回避優先装置である他ノード装置10から要求信号を受け取った場合、報告を他ノード装置10に向けて送信する。例えば、報告送信部16は、システム障害監視部12がシステム障害を検知している場合、自ノード装置10が異常状態にあることを示す報告を送信する一方、システム障害監視部12がシステム障害を検知していない場合、自ノード装置10が正常状態にあることを示す報告を送信する。
<ノード装置の動作例>
以上の構成を有するノード装置10の処理動作の一例について説明する。図3は、第1実施形態のノード装置の処理動作の一例を示すフローチャートである。以下では、ノード装置10-1を例にとって説明する。
以上の構成を有するノード装置10の処理動作の一例について説明する。図3は、第1実施形態のノード装置の処理動作の一例を示すフローチャートである。以下では、ノード装置10-1を例にとって説明する。
ノード装置10-1においてシステム障害監視部12は、システム障害を検知したか否かを繰り返し判定する(ステップS101NO)。
システム障害監視部12によってシステム障害が検知された場合(ステップS101YES)、判定部13は、自ノード装置10(つまり、ノード装置10-1)が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する(ステップS102)。
回復動作制御部15は、判定部13によって自ノード装置10(つまり、ノード装置10-1)が回避優先装置であると判定された場合(ステップS102YES)、報告要求部14に対して要求信号を自ノード装置10以外の他ノード装置10(つまり、ノード装置10-2)に向けて送信させる(ステップS103)。
回復動作制御部15は、他ノード装置10(つまり、ノード装置10-2)からの報告を待って(ステップS104NO)、他ノード装置10からの報告を受け取った場合(ステップS104YES)、他ノード装置10(つまり、ノード装置10-2)からの報告が正常状態を示しているか否かを判定する(ステップS105)。
他ノード装置10(つまり、ノード装置10-2)からの報告が正常状態を示している場合(ステップS105YES)、回復動作制御部15は、回復動作を実行すると決定する(ステップS106)。そして、回復動作が実行されて図3のフローが一度終了し、再度、図3のフローがスタートする。
他ノード装置10(つまり、ノード装置10-2)からの報告が正常状態を示していない場合、つまり、他ノード装置10からの報告が異常状態を示している場合(ステップS105NO)、回復動作制御部15は、回復動作の実行を回避すると決定する(ステップS107)。そして、フローは、ステップS101に戻る。
ここで、判定部13によって自ノード装置10が回避優先装置でないと判定された場合(ステップS102NO)、回復動作制御部15は、報告要求部14に対して要求信号を送信させずに、回復動作を実行すると決定する(ステップS106)。すなわち、回避優先装置に設定されていないノード装置10-2では、このような処理が実行されることになる。これにより、障害検出から回復動作の実行までの時間をできるだけ短くするというクラスタシステムの要求を満たすことができる。
以上のように第1実施形態によれば、ノード装置10-1において判定部13は、システム障害監視部12によってシステム障害が検知された場合、ノード装置10-1が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する。回復動作制御部15は、判定部13によってノード装置10-1が回避優先装置であると判定された場合、報告要求部14に対して要求信号をノード装置10-1以外のノード装置10-2に向けて送信させる。
このノード装置10-1の構成により、ノード装置10-2からの報告に基づいて、ノード装置10-1の回復動作を実行するか又はノード装置10-1の回復動作の実行を回避するかを決定するので、すべてのノード装置10が回復動作によって停止してしまうことを防止することができる。また、ノード装置10-1がクラスタシステム1におけるシステム障害を検知し且つノード装置10-1が回避優先装置である場合、ノード装置10-1が「要求信号」を送信してノード装置10-2の状態を確認するので、ノード装置10-1,10-2間で時刻同期がとられていない場合でも、すべてのノード装置10-1,10-2が回復動作によって停止してしまうことを防止することができる。また、ノード装置10-1が「要求信号」を送信してノード装置10-2の状態を確認するので、ノード装置10-2の死活監視だけでなく(つまり、ノード装置10-2の生死)だけでなく、ノード装置10-2の個別リソースの障害状況(つまり、ノード装置10-2は生きているが、業務で利用するリソースが正常か異常か)について確認することができる。
<変形例>
<1>以上の説明では、クラスタシステム1に含まれるノード装置10が2つであることを前提に説明を行ったが、クラスタシステム1に含まれるノード装置10が3つ以上である場合には、回復動作制御部15は次のような処理を実行することができる。すなわち、回復動作制御部15は、複数の他ノード装置10のうちの少なくとも1つの他ノード装置10からの報告が正常状態を示す場合、自ノード装置10の回復動作の実行を制御する一方、複数の他ノード装置10からのすべての報告が異常状態を示す場合、自ノード装置10の回復動作の実行を回避してもよい。
<1>以上の説明では、クラスタシステム1に含まれるノード装置10が2つであることを前提に説明を行ったが、クラスタシステム1に含まれるノード装置10が3つ以上である場合には、回復動作制御部15は次のような処理を実行することができる。すなわち、回復動作制御部15は、複数の他ノード装置10のうちの少なくとも1つの他ノード装置10からの報告が正常状態を示す場合、自ノード装置10の回復動作の実行を制御する一方、複数の他ノード装置10からのすべての報告が異常状態を示す場合、自ノード装置10の回復動作の実行を回避してもよい。
<2>以上の説明では、クラスタシステム1に含まれるノード装置10が2つであることを前提に説明を行ったが、クラスタシステム1に含まれるノード装置10が3つ以上である場合には、判定部13は次のような処理を実行することができる。すなわち、クラスタシステム1に含まれる複数のノード装置10のうちで起動状態にある自ノード装置10を含む複数の起動ノード装置の中で、自ノード装置10に割り当てられている「回避優先度」が自ノード装置10以外のいずれの起動ノードに割り当てられている回避優先度よりも高い場合に、自ノード装置10が回避優先装置であると判定する。例えば、クラスタシステム1に5つのノード装置10が含まれる場合、該5つのノード装置10に対して回避優先度1~5がそれぞれ設定される。そして、今、回避優先度2,4,5の3つのノード装置10が起動状態にあり、回避優先度1,4のノード装置10が停止状態にある場合、回避優先度2のノード装置10の判定部13だけが、自ノード装置10が回避優先装置であると判定することになる。
<第2実施形態>
<クラスタシステムの概要>
図4は、第2実施形態のクラスタシステムの一例を示す図である。図4において、クラスタシステム2は、ノード装置20-1,20-2と、ノード装置20-1,20-2にそれぞれ装着されたNIC(ネットワークインタフェースカード)30-1,30-2と、NIC30-1,30-2を介してノード装置20-1とノード装置20-2との間を接続するHUB(ネットワーク装置)40とを有している。ノード装置20-1とノード装置20-2とは、第1実施形態のノード装置10-1,10-2と同様に、通信ネットワークN1によって接続されている。第2実施形態の通信ネットワークN1は、第1通信ルートR1と第2通信ルートR2とを有している。図4において、NIC30-1、HUB40、及びNIC30-2を含むルートが、第1通信ルートR1である。
<クラスタシステムの概要>
図4は、第2実施形態のクラスタシステムの一例を示す図である。図4において、クラスタシステム2は、ノード装置20-1,20-2と、ノード装置20-1,20-2にそれぞれ装着されたNIC(ネットワークインタフェースカード)30-1,30-2と、NIC30-1,30-2を介してノード装置20-1とノード装置20-2との間を接続するHUB(ネットワーク装置)40とを有している。ノード装置20-1とノード装置20-2とは、第1実施形態のノード装置10-1,10-2と同様に、通信ネットワークN1によって接続されている。第2実施形態の通信ネットワークN1は、第1通信ルートR1と第2通信ルートR2とを有している。図4において、NIC30-1、HUB40、及びNIC30-2を含むルートが、第1通信ルートR1である。
ノード装置20-1とノード装置20-2とは、互いに同じ構成を有している。以下では、ノード装置20-1,20-2を総称して、ノード装置20と呼ぶことがある。ノード装置20-1,20-2のうちの1つのノード装置20は、「回避優先装置」として設定されている一方、他のノード装置20は、回避優先装置ではない。ここでは、ノード装置20-1が「回避優先装置」として設定されているものとする。
<ノード装置の構成例>
図5は、第2実施形態のノード装置の一例を示すブロック図である。図5において、ノード装置20は、制御部21を有している。制御部21は、システム障害監視部22と、判定部23と、報告要求部24と、回復動作制御部25と、報告送信部26とを有している。
図5は、第2実施形態のノード装置の一例を示すブロック図である。図5において、ノード装置20は、制御部21を有している。制御部21は、システム障害監視部22と、判定部23と、報告要求部24と、回復動作制御部25と、報告送信部26とを有している。
システム障害監視部22は、第1実施形態のシステム障害監視部12と同様に、自ノード装置20及び通信ネットワークN1における障害(つまり、システム障害)を監視する。なお、ここでは、ノード装置20-1の機能部(例えば、システム障害監視部22)にとって、自ノード装置20はノード装置20-1を意味し、他ノード装置20はノード装置20-2を意味する。
システム障害監視部22は、例えば、自ノード装置20に装着されているNIC30の障害及びHUB40の障害、つまり、第1通信ルートR1の障害を監視している。第1通信ルートR1の障害としては、例えば、NIC30に繋がるLANケーブルの断線、及び、HUB40の故障が含まれ、いずれの場合も、システム障害監視部22は、NIC30のリンク断線として検知する。
ここで、ノード装置20-1に装着されているNIC30-1で障害が発生した場合、ノード装置20-1のシステム障害監視部22では、障害が検知される一方で、ノード装置20-2のシステム障害監視部22では、障害が検知されない。従って、NIC30-1で障害が発生した場合、ノード装置20-2は回復動作を実行しないので、クラスタシステム2のすべてのノード装置20が停止することはない。これに対して、HUB40で障害が発生した場合、ノード装置20-1のシステム障害監視部22及びノード装置20-2のシステム障害監視部22の両方によって、障害が検知される。従って、ノード装置20-1,20-2の両方にて回復動作が実行されてしまうと問題となる。
判定部23は、システム障害監視部22で第1通信ルートR1の障害が検知された場合、自ノード装置20が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する。
回復動作制御部25は、判定部23によって自ノード装置20が回避優先装置であると判定された場合、報告要求部24に対して要求信号を自ノード装置20以外の他ノード装置20に向けて、第2通信ルートR2を介して送信させる。そして、回復動作制御部25は、他ノード装置20からの報告に基づいて、自ノード装置20の回復動作を実行するか又は自ノード装置20の回復動作の実行を回避するかを決定する。
報告要求部24は、回復動作制御部25による制御に従って、要求信号を自ノード装置20以外の他ノード装置20に向けて、第2通信ルートR2を介して送信する。
報告送信部26は、自ノード装置20が回避優先装置でなく且つ回避優先装置である他ノード装置20から要求信号を第2通信ルートR2を介して受け取った場合、報告を他ノード装置10に向けて第2通信ルートR2を介して送信する。
以上のように第2実施形態によれば、ノード装置20-1において判定部23は、第1通信ルートR1の障害が検知された場合、ノード装置20-1が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する。そして、回復動作制御部25は、判定部23によってノード装置20-1が回避優先装置であると判定された場合、報告要求部24に対して要求信号をノード装置20-2に向けて、第2通信ルートR2を介して送信させる。そして、回復動作制御部25は、ノード装置20-2からの報告に基づいて、ノード装置20-1の回復動作を実行するか又はノード装置20-1の回復動作の実行を回避するかを決定する。
このノード装置20-1の構成により、ノード装置20-1及びノード装置20-2の両方によって検知される第1通信ルートR1の障害が発生した場合でも、ノード装置20-1及びノード装置20-2の両方が回復動作のために停止してしまうことを防止することができる。
<第3実施形態>
<クラスタシステムの概要>
図6は、第3実施形態のクラスタシステムの一例を示す図である。図6において、クラスタシステム3は、ノード装置50-1,50-2と、ノード装置50-1,50-2にそれぞれ装着されたNIC(ネットワークインタフェースカード)30-1,30-2と、NIC30-1,30-2を介してノード装置50-1とノード装置50-2との間を接続するHUB(ネットワーク装置)40とを有している。ノード装置50-1とノード装置50-2とは、第2実施形態のノード装置20-1,20-2と同様に、通信ネットワークN1によって接続されている。
<クラスタシステムの概要>
図6は、第3実施形態のクラスタシステムの一例を示す図である。図6において、クラスタシステム3は、ノード装置50-1,50-2と、ノード装置50-1,50-2にそれぞれ装着されたNIC(ネットワークインタフェースカード)30-1,30-2と、NIC30-1,30-2を介してノード装置50-1とノード装置50-2との間を接続するHUB(ネットワーク装置)40とを有している。ノード装置50-1とノード装置50-2とは、第2実施形態のノード装置20-1,20-2と同様に、通信ネットワークN1によって接続されている。
ノード装置50-1とノード装置50-2とは、互いに同じ構成を有している。以下では、ノード装置50-1,50-2を総称して、ノード装置50と呼ぶことがある。ノード装置50-1,50-2のうちの1つのノード装置50は、「回避優先装置」として設定されている一方、他のノード装置50は、回避優先装置ではない。ここでは、ノード装置50-1が「回避優先装置」として設定されているものとする。
<ノード装置の構成例>
図7は、第3実施形態のノード装置の一例を示すブロック図である。図7において、ノード装置50は、制御部51を有している。制御部51は、システム障害監視部52と、判定部53と、報告要求部54と、回復動作制御部55と、報告送信部56と、ハートビート制御部57とを有している。ハートビート制御部57は、ハートビート送信部57Aと、ハートビート受信部57Bと、異常検出部57Cとを有している。
図7は、第3実施形態のノード装置の一例を示すブロック図である。図7において、ノード装置50は、制御部51を有している。制御部51は、システム障害監視部52と、判定部53と、報告要求部54と、回復動作制御部55と、報告送信部56と、ハートビート制御部57とを有している。ハートビート制御部57は、ハートビート送信部57Aと、ハートビート受信部57Bと、異常検出部57Cとを有している。
システム障害監視部52は、第2実施形態のシステム障害監視部22と同様に、自ノード装置50及び通信ネットワークN1における障害(つまり、システム障害)を監視する。システム障害監視部52は、例えば、自ノード装置50に装着されているNIC30の障害及びHUB40の障害、つまり、第1通信ルートR1の障害を監視している。ここでは、ノード装置50-1の機能部(例えば、システム障害監視部22)にとって、自ノード装置50はノード装置50-1を意味し、他ノード装置50はノード装置50-2を意味する。
判定部53は、第2実施形態の判定部23と同様に、システム障害監視部22によって例えば第1通信ルートR1の障害が検知された場合、自ノード装置50が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する。
ハートビート送信部57Aは、第1通信ルートR1及び第2通信ルートR2のそれぞれを介して、ハートビート信号を所定周期で送信する。
ハートビート受信部57Bは、他ノード装置50から送信されたハートビート信号を第1通信ルートR1及び第2通信ルートR2を介して受信する。
異常検出部57Cは、他ノード装置50からハートビート信号を所定周期で受信しない場合、他ノード装置50が異常であることを検出する。一方で、異常検出部57Cは、他ノード装置50からハートビート信号を所定周期で受信する場合、他ノード装置50が正常であることを検出する。
回復動作制御部55は、判定部53によって自ノード装置50が回避優先装置であると判定され且つ異常検出部57Cによって他ノード装置50が正常であると検出された場合、報告要求部54に対して要求信号を他ノード装置50に向けて第2通信ルートR2を介して送信させる。そして、回復動作制御部55は、他ノード装置50からの報告に基づいて、自ノード装置50の回復動作を実行するか又は自ノード装置50の回復動作の実行を回避するかを決定する。
また、回復動作制御部55は、判定部53によって自ノード装置50が回避優先装置であると判定され且つ異常検出部57Cによって他ノード装置50が異常であると検出された場合、報告要求部54に対して要求信号を送信させずに、自ノード装置50の回復動作の実行を回避することを決定する。これにより、制御部51の処理負荷をできるだけ小さくするというクラスタシステムの要求を満たすことができる。また、報告要求部54に対して要求信号を送信させずに、自ノード装置50の回復動作の実行を回避することを決定するので、遅延無く決定を行うことができる。
報告要求部54は、回復動作制御部55による制御に従って、要求信号を自ノード装置50以外の他ノード装置50に向けて、第2通信ルートR2を介して送信する。
報告送信部56は、自ノード装置50が回避優先装置でなく且つ回避優先装置である他ノード装置50から要求信号を第2通信ルートR2を介して受け取った場合、報告を他ノード装置50に向けて第2通信ルートR2を介して送信する。
<ノード装置の動作例>
以上の構成を有するノード装置50の処理動作の一例について説明する。図8~図10は、第3実施形態のノード装置の処理動作の一例を示すフローチャートである。
以上の構成を有するノード装置50の処理動作の一例について説明する。図8~図10は、第3実施形態のノード装置の処理動作の一例を示すフローチャートである。
〈ハートビート送信処理〉
図8は、第3実施形態のノード装置のハートビート送信処理の一例を示すフローチャートである。
図8は、第3実施形態のノード装置のハートビート送信処理の一例を示すフローチャートである。
ハートビート送信部57Aは、第1通信ルートR1及び第2通信ルートR2のそれぞれを介してハートビート信号を送信すると共に、ハートビート送信部57Aが有している送信タイマ(図示せず)をスタートさせる(ステップS201)。
ハートビート送信部57Aは、ハートビート信号の送信タイミングからの経過時間がハートビート送信間隔値に到達するまで待つ(ステップS202NO)。
そして、経過時間がハートビート送信間隔値に到達すると(ステップS202YES)、処理ステップは、ステップS201に戻る。すなわち、ハートビート送信部57Aは、第1通信ルートR1及び第2通信ルートR2のそれぞれを介してハートビート信号を送信すると共に、ハートビート送信部57Aが有している送信タイマ(図示せず)をリセットする。
以上のようにして、ハートビート送信部57Aは、第1通信ルートR1及び第2通信ルートR2のそれぞれを介して、ハートビート信号を所定周期で送信する。
〈他ノード装置の異常検出処理〉
図9は、第3実施形態のノード装置の異常検出処理の一例を示すフローチャートである。この異常検出処理は、上記のハートビート送信処理と並行して実行される。
図9は、第3実施形態のノード装置の異常検出処理の一例を示すフローチャートである。この異常検出処理は、上記のハートビート送信処理と並行して実行される。
異常検出部57Cは、他ノード装置50からのハートビート信号を受信するまで待つ(ステップS301NO)。
他ノード装置50からのハートビート信号を受信すると(ステップS301YES)、異常検出部57Cは、他ノード装置50のステータス情報を「正常」に更新すると共に、異常検出部57Cが有している受信タイマ(図示せず)をスタートさせる(ステップS302)。
次いで、異常検出部57Cは、受信タイミングからの経過時間がハートビート送信間隔値よりも所定値以上超えたか否かを判定する(ステップS303)。なお、所定値は、ゼロ又は正の値である。
経過時間がハートビート送信間隔値よりも所定値以上超えていない場合(ステップS303NO)、異常検出部57Cは、他ノード装置50からのハートビート信号を受信したか否かを判定する(ステップS304)。
他ノード装置50からのハートビート信号を受信していない場合(ステップS304NO)、処理ステップは、ステップS303に戻る。
他ノード装置50からのハートビート信号を受信した場合(ステップS304YES)、処理ステップは、ステップS302に戻る。
すなわち、異常検出部57Cは、受信タイミングからの経過時間がハートビート送信間隔値よりも所定値以上超えるまで他ノード装置50からのハートビート信号の受信を待つ(ステップS303NO、ステップS304NO)。そして、異常検出部57Cは、経過時間がハートビート送信間隔値よりも所定値以上超える前に他ノード装置50からのハートビート信号を受信すると(ステップS303NO、ステップS304YES)、他ノード装置50のステータス情報を「正常」に更新すると共に、受信タイマ(図示せず)をリセットする(ステップS302)。
経過時間がハートビート送信間隔値よりも所定値以上超える前に他ノード装置50からのハートビート信号を受信することなしに、経過時間がハートビート送信間隔値よりも所定値以上超えた場合(ステップS303YES)、異常検出部57Cは、他ノード装置50のステータス情報を「異常」に更新する(ステップS305)。そして、処理ステップは、ステップS301に戻る。
〈回復動作の制御処理〉
図10は、第3実施形態のノード装置の回復動作の制御処理の一例を示すフローチャートである。この回復動作の制御処理は、上記の他ノード装置の異常検出処理と並列して実行される。
図10は、第3実施形態のノード装置の回復動作の制御処理の一例を示すフローチャートである。この回復動作の制御処理は、上記の他ノード装置の異常検出処理と並列して実行される。
ステップS401,S402の処理動作は、図3のステップS101,102と同じである。
回復動作制御部55は、判定部53によって自ノード装置50が回避優先装置であると判定された場合(ステップS402YES)、ハートビート信号に基づいて他ノード装置50の異常が検出されているか否かを判定する(ステップS403)。すなわち、回復動作制御部55は、図9の異常検出処理で更新されるステータス情報を参照して、他ノード装置50が異常であるか否かを判定する。
ハートビート信号に基づいて他ノード装置50の異常が検出されていない場合(ステップS403NO)、回復動作制御部55は、報告要求部54に対して要求信号を自ノード装置50以外の他ノード装置50に向けて送信させる(ステップS404)。ステップS404からステップS408の処理動作は、図3のステップS103からステップS107と同じである。
これに対して、ハートビート信号に基づいて他ノード装置50の異常が検出されている場合(ステップS403YES)、回復動作制御部55は、報告要求部54に対して要求信号を送信させずに、自ノード装置50の回復動作の実行を回避することを決定する(ステップS408)。
以上のように第3実施形態によれば、ノード装置50-1において回復動作制御部55は、判定部53によってノード装置50-1が回避優先装置であると判定され且つ異常検出部57Cによってノード装置50-2の異常が検出されている場合、報告要求部54に対して要求信号を送信させずに、ノード装置50-1の回復動作の実行を回避することを決定する。
このノード装置50-1により、制御部51の処理負荷をできるだけ小さくするというクラスタシステムの要求を満たすことができる。
<他の実施形態>
図11は、ノード装置のハードウェア構成例を示す図である。図11においてノード装置100は、プロセッサ101と、メモリ102とを有している。第1実施形態から第3実施形態のノード装置10,20,50の制御部11,21,51は、プロセッサ101がメモリ102に記憶されたプログラムを読み込んで実行することにより実現される。また、該プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
図11は、ノード装置のハードウェア構成例を示す図である。図11においてノード装置100は、プロセッサ101と、メモリ102とを有している。第1実施形態から第3実施形態のノード装置10,20,50の制御部11,21,51は、プロセッサ101がメモリ102に記憶されたプログラムを読み込んで実行することにより実現される。また、該プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2017年9月13日に出願された日本出願特願2017-175505を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1,2,3 クラスタシステム
10,20,50 ノード装置
11,21,51 制御部
12,22,52 システム障害監視部
13,23,53 判定部
14,24,54 報告要求部
15,25,55 回復動作制御部
16,26,56 報告送信部
57 ハートビート制御部
57A ハートビート送信部
57B ハートビート受信部
57C 異常検出部
10,20,50 ノード装置
11,21,51 制御部
12,22,52 システム障害監視部
13,23,53 判定部
14,24,54 報告要求部
15,25,55 回復動作制御部
16,26,56 報告送信部
57 ハートビート制御部
57A ハートビート送信部
57B ハートビート受信部
57C 異常検出部
Claims (7)
- 複数のノード装置による連携構成を有するクラスタシステムにおけるノード装置であって、
自ノード装置がシステム障害を検知した場合、前記自ノード装置が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定する判定手段と、
前記クラスタシステムにおける前記自ノード装置以外の1つ又は複数の他ノード装置に向けて、各他ノード装置の正常状態及び異常状態に関する報告を要求する要求信号を送信する報告要求手段と、
前記判定手段によって前記自ノード装置が前記回避優先装置であると判定された場合、前記報告要求手段に対して前記要求信号を送信させ、前記1つ又は複数の他ノード装置からの前記報告に基づいて、前記自ノード装置の回復動作を実行するか又は前記自ノード装置の回復動作の実行を回避するかを決定する、回復動作制御手段と、
を具備するノード装置。 - 前記複数のノード装置が、第1通信ルート及び第2通信ルートによって互いに接続された、第1ノード装置及び第2ノード装置であり、且つ、前記自ノード装置が、前記第1ノード装置であるとき、
前記判定手段は、前記第1ノード装置が前記システム障害として前記第1通信ルートの通信障害を検知した場合、前記第1ノード装置が前記回避優先装置であるか否かを判定し、
前記回復動作制御手段は、前記判定手段によって前記第1ノード装置が前記回避優先装置であると判定された場合、前記報告要求手段に対して前記要求信号を前記第2ノード装置に向けて前記第2通信ルートを介して送信させ、前記第2ノード装置からの前記報告に基づいて、前記第1ノード装置の回復動作を実行するか又は前記第1ノード装置の回復動作の実行を回避するかを決定する、
請求項1に記載のノード装置。 - 前記第1通信ルート及び第2通信ルートのそれぞれを介して前記第2ノード装置から送信されるハートビート信号に基づいて、前記第2ノード装置が正常であるか異常であるかを検出する検出手段をさらに具備し、
前記回復動作制御手段は、
前記判定手段によって前記第1ノード装置が前記回避優先装置であると判定され且つ前記検出手段によって前記第2ノード装置が正常であると検出されている場合、前記報告要求手段に対して前記要求信号を前記第2ノード装置に向けて前記第2通信ルートを介して送信させ、前記第2ノード装置からの前記報告に基づいて、前記第1ノード装置の回復動作を実行するか又は前記第1ノード装置の回復動作の実行を回避するかを決定し、
前記判定手段によって前記第1ノード装置が前記回避優先装置であると判定され且つ前記検出手段によって前記第2ノード装置が異常であると検出されている場合、前記報告要求手段に対して前記要求信号を送信させずに、前記第1ノード装置の回復動作の実行を回避することを決定する、
請求項2記載のノード装置。 - 前記回復動作制御手段は、前記1つ又は複数の他ノード装置のうちの少なくとも1つの他ノード装置からの前記報告が正常状態を示す場合、前記自ノード装置の回復動作の実行を制御する一方、前記1つ又は複数の他ノード装置からのすべての前記報告が異常状態を示す場合、前記自ノード装置の回復動作の実行を回避する、
請求項1記載のノード装置。 - 前記判定手段は、前記複数のノード装置のうちで起動状態にある前記自ノード装置を含む複数の起動ノード装置の中で、前記自ノード装置に割り当てられている回避優先度が前記自ノード装置以外のいずれの起動ノード装置に割り当てられている回避優先度よりも高い場合に、前記自ノード装置が前記回避優先装置であると判定する、
請求項4記載のノード装置。 - 複数のノード装置による連携構成を有するクラスタシステムにおける第1ノード装置によって実行される回復動作制御方法であって、
前記第1ノード装置がシステム障害を検知した場合、前記第1ノード装置が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定し、
前記第1ノード装置が前記回避優先装置であると判定された場合、前記クラスタシステムにおける前記第1ノード装置以外の1つ又は複数の他ノード装置に向けて、各他ノード装置の正常状態及び異常状態に関する報告を要求する要求信号を送信し、
前記1つ又は複数の他ノード装置からの前記報告に基づいて、前記第1ノード装置の回復動作を実行するか又は前記第1ノード装置の回復動作の実行を回避するかを決定する、
回復動作制御方法。 - 複数のノード装置による連携構成を有するクラスタシステムにおける第1ノード装置に、
前記第1ノード装置がシステム障害を検知した場合、前記第1ノード装置が回復動作の実行よりも回復動作を回避することを優先する回避優先装置であるか否かを判定し、
前記第1ノード装置が前記回避優先装置であると判定された場合、前記クラスタシステムにおける前記第1ノード装置以外の1つ又は複数の他ノード装置に向けて、各他ノード装置の正常状態及び異常状態に関する報告を要求する要求信号を送信し、
前記1つ又は複数の他ノード装置からの前記報告に基づいて、前記第1ノード装置の回復動作を実行するか又は前記第1ノード装置の回復動作の実行を回避するかを決定する、
処理を、実行させる、回復動作制御プログラムを格納する非一時的なコンピュータ可読媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/646,199 US11150980B2 (en) | 2017-09-13 | 2018-05-10 | Node device, recovery operation control method, and non-transitory computer readable medium storing recovery operation control program |
JP2019541635A JP6935819B2 (ja) | 2017-09-13 | 2018-05-10 | ノード装置、回復動作制御方法、及び回復動作制御プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017175505 | 2017-09-13 | ||
JP2017-175505 | 2017-09-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019053939A1 true WO2019053939A1 (ja) | 2019-03-21 |
Family
ID=65722537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/018027 WO2019053939A1 (ja) | 2017-09-13 | 2018-05-10 | ノード装置、回復動作制御方法、及び回復動作制御プログラムを格納する非一時的なコンピュータ可読媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11150980B2 (ja) |
JP (1) | JP6935819B2 (ja) |
WO (1) | WO2019053939A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09152978A (ja) * | 1995-11-30 | 1997-06-10 | Oki Tsushin Syst Kk | 情報処理装置の再開処理システム |
JP2012014671A (ja) * | 2010-06-04 | 2012-01-19 | Nippon Telegr & Teleph Corp <Ntt> | クラスタシステム復旧方法、サーバ及びソフトウェア |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050204214A1 (en) * | 2004-02-24 | 2005-09-15 | Lucent Technologies Inc. | Distributed montoring in a telecommunications system |
JP4353005B2 (ja) | 2004-06-29 | 2009-10-28 | 株式会社日立製作所 | クラスタ構成コンピュータシステムの系切替方法 |
-
2018
- 2018-05-10 JP JP2019541635A patent/JP6935819B2/ja active Active
- 2018-05-10 US US16/646,199 patent/US11150980B2/en active Active
- 2018-05-10 WO PCT/JP2018/018027 patent/WO2019053939A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09152978A (ja) * | 1995-11-30 | 1997-06-10 | Oki Tsushin Syst Kk | 情報処理装置の再開処理システム |
JP2012014671A (ja) * | 2010-06-04 | 2012-01-19 | Nippon Telegr & Teleph Corp <Ntt> | クラスタシステム復旧方法、サーバ及びソフトウェア |
Also Published As
Publication number | Publication date |
---|---|
US11150980B2 (en) | 2021-10-19 |
US20200272534A1 (en) | 2020-08-27 |
JPWO2019053939A1 (ja) | 2020-10-01 |
JP6935819B2 (ja) | 2021-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2637102B1 (en) | Cluster system with network node failover | |
JP4695705B2 (ja) | クラスタシステムおよびノード切り替え方法 | |
US10911295B2 (en) | Server apparatus, cluster system, cluster control method and program | |
JP2004094774A (ja) | ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム | |
WO2019049433A1 (ja) | クラスタシステム、クラスタシステムの制御方法、サーバ装置、制御方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
JP2008172592A (ja) | クラスタシステム、コンピュータおよびその異常検出方法 | |
JP2018056633A (ja) | クラスタシステム、サーバ、サーバの動作方法、及びプログラム | |
WO2019053939A1 (ja) | ノード装置、回復動作制御方法、及び回復動作制御プログラムを格納する非一時的なコンピュータ可読媒体 | |
JP2013025765A (ja) | マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム | |
JP6134720B2 (ja) | 接続方法 | |
JP5077153B2 (ja) | リング型ネットワークシステム及びリング型ネットワークシステムの復旧方法 | |
US11954509B2 (en) | Service continuation system and service continuation method between active and standby virtual servers | |
JP4511455B2 (ja) | ファイバーチャネルスイッチおよびそれを用いたコンピュータシステム | |
JP2004007930A (ja) | 電力系統監視制御システムおよびプログラム | |
JP2006178851A (ja) | 障害監視方法、障害監視システムおよびプログラム | |
KR20150059697A (ko) | 소프트웨어 정의 네트워크에서의 네트워크 결함 검출 방법 및 시스템 | |
JP5459117B2 (ja) | データ伝送装置及びデータ伝送方法 | |
JP2007026038A (ja) | パス監視システム,パス監視方法,およびパス監視プログラム | |
JP6581880B2 (ja) | 接続状態確認方法、燃料電池システム、燃料電池装置、及び監視装置 | |
JP5554112B2 (ja) | 管理方法および管理装置 | |
JP2008152643A (ja) | 障害切り分けシステム、障害切り分け方法、およびプログラム | |
JP5257384B2 (ja) | 物理装置制御システム | |
JP2007122582A (ja) | 警報監視システム | |
JPH08147255A (ja) | 障害監視方式 | |
JP2014191517A (ja) | 異常制御装置および方法、情報処理装置、並びに、コンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18857246 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019541635 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18857246 Country of ref document: EP Kind code of ref document: A1 |