WO2015098589A1 - クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents
クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- WO2015098589A1 WO2015098589A1 PCT/JP2014/083085 JP2014083085W WO2015098589A1 WO 2015098589 A1 WO2015098589 A1 WO 2015098589A1 JP 2014083085 W JP2014083085 W JP 2014083085W WO 2015098589 A1 WO2015098589 A1 WO 2015098589A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- communication path
- determined
- server
- server device
- reliability
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2033—Failover techniques switching over of hardware resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/82—Solving problems relating to consistency
Definitions
- the present invention relates to a cluster system including a plurality of server devices, a server device used therefor, a cluster system management method, and a computer-readable recording medium on which a program for realizing these is recorded.
- a cluster system is adopted so that business can continue even if a system failure occurs.
- the cluster system a plurality of server devices are connected, and these server devices behave as if they are one server device as a whole for the user.
- Heartbeat communication refers to transmitting a signal indicating the presence of each other (hereinafter referred to as “heartbeat signal”) between server apparatuses at a set interval.
- each server device first determines whether a timeout has occurred for each communication path in heartbeat communication. If a timeout has occurred, it is determined that some kind of failure has occurred. When it is determined that a failure has occurred, each server determines whether the received packet has arrived within the set timeout period via the network. If it is determined that there is a communication failure and has arrived, it is determined that an abnormality has occurred in the other server.
- An example of an object of the present invention is to solve the above-described problem and avoid occurrence of a situation where processing contents collide in a cluster system, a cluster system, a server device, a cluster system management method, and a computer-readable record To provide a medium.
- a cluster system includes a plurality of server devices connected by a communication path, Each of the plurality of server devices includes: A signal transmission unit that transmits a signal indicating the presence of the server to another server device via the communication path; A reliability determination unit that determines whether the communication path has reliability; and When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device has reliability. If the communication path is not determined to be reliable, a process management unit that stops the process being executed; It is characterized by having.
- a server apparatus is a server apparatus connected to another server apparatus through a communication path, A signal transmission unit that transmits a signal indicating the presence of the other server device via the communication path; A reliability determination unit that determines whether the communication path has reliability; and When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device has reliability. If the communication path is not determined to be reliable, a process management unit that stops the process being executed; It is characterized by having.
- the cluster system management method uses a plurality of server devices connected by communication paths, Executed by each of the plurality of server devices, (A) transmitting a signal indicating its own existence to another server device via the communication path; (B) determining whether the communication path is reliable; (C) When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device is reliable. As a result, if the communication path is not determined to be reliable, the process being executed is stopped, and It is characterized by having.
- a computer-readable recording medium is provided on a computer connected to another computer via a communication path.
- FIG. 1 is a diagram showing a schematic configuration of a cluster system according to an embodiment of the present invention.
- FIG. 2 is a block diagram specifically showing the configurations of the cluster system and the server device according to the embodiment of the present invention.
- FIG. 3 is a flowchart showing the operation of the server apparatus constituting the cluster system in the embodiment of the present invention.
- FIG. 4 is a diagram showing the result of reliability determination in each server device constituting the cluster system in the embodiment of the present invention.
- FIG. 5 is a block diagram illustrating an example of a computer that implements the server device according to the embodiment of the present invention.
- FIG. 1 is a diagram showing a schematic configuration of a cluster system according to an embodiment of the present invention.
- the cluster system 100 in this embodiment includes server devices 10 and 20 connected by communication paths 30 to 50.
- the other server device takes over the processing performed by the server device in which the failure has occurred, and the occurrence of a situation where the business is stopped is avoided.
- Each of the server devices 10 and 20 transmits a signal indicating its presence, that is, a heartbeat signal to the other server device via the communication paths 30 to 50.
- the communication path It can also be determined whether 30 to 50 have reliability.
- each of the server devices 10 and 20 determines that the communication paths 30 to 50 with the server device are reliable when the heartbeat signal cannot be received from the other server device. Check if. Subsequently, as a result of the confirmation, each server device can stop a process being executed when it is not determined that the communication paths 30 to 50 have reliability.
- the server apparatuses 10 and 20 determine the reliability of the communication paths 30 to 50 for heartbeat communication, and depending on the result, the server apparatuses 10 and 20 may not actually be down, Processing can be stopped. For this reason, the situation where processing contents collide, that is, the occurrence of so-called split brain syndrome is avoided.
- FIG. 2 is a block diagram specifically showing the configurations of the cluster system and the server device according to the embodiment of the present invention.
- the communication path 30 is a communication path that passes through a network 31, and is a public LAN (Local Area Network).
- the communication path 40 is a communication path that directly connects server apparatuses and is an interconnect LAN.
- the communication path 50 is a communication path via the storage device 51.
- the server devices 10 and 20 and the storage device 51 are connected by a connection method such as SCSI (Small computer system Interface) or FC (Fiber Channel). Further, the communication path 50 may be constructed using a network such as the Internet instead of a dedicated cable.
- SCSI Small computer system Interface
- FC Fiber Channel
- the server device 10 includes a signal transmission unit 11, a reliability determination unit 12, a process management unit 13, a signal reception unit 14, and an automatic stop unit 15. , Communication interfaces 16 to 18 corresponding to each communication path, and a business process execution unit 19 are provided.
- the communication interfaces 16 to 18 are constituted by, for example, a NIC (Network Interface Card).
- the signal transmission unit 11 transmits a heartbeat signal to the other server devices via the communication paths 30 to 50. Further, the signal transmission unit 11 transmits the heartbeat signal to the automatic stop unit 15 in addition to the communication paths 30 to 50 at the same timing as when transmitting from each communication path.
- the heartbeat signal may be transmitted periodically or according to a set condition.
- the signal receiver 14 receives heartbeat signals from other server devices via the communication interfaces 16-18. Further, the signal receiving unit 14 determines whether or not the heartbeat signal from another server device cannot be received, specifically, whether or not the heartbeat signal has timed out.
- the reliability determination unit 12 determines whether the communication paths 30 to 50 have reliability. Specifically, for the communication path 40, the reliability determination unit 12 transmits a request (ICMP echo request) to the device (router) 32 existing on the network 31, and the response to the request (ICMP echo reply) from the device 32. ) Is returned, it is determined that it has reliability.
- the reliability determination unit 12 determines that the communication path 40 has reliability when the NIC functioning as the communication interface 17 is in an energized state. Further, for the communication path 50, the reliability determination unit 12 transmits a command defined by SCSI or FC to the storage device 51, and when the response to the command is returned from the storage device 51, the reliability determination unit 12 It is determined that it has
- the business process execution unit 19 executes a process for business (business process) performed by the cluster system 100.
- the business process execution unit 19 is constructed by an application program for business processes, and is constructed for each business.
- the processing management unit 13 determines that the signal receiving unit 14 cannot receive a heartbeat signal from another server device, the processing management unit 13 has reliability with respect to the communication paths 30 to 50 by the reliability determining unit 12. Check if it is determined that
- the process management unit 13 causes the business process execution unit 19 to stop the process being executed.
- the process management unit 13 determines that an abnormality has occurred in another server device. Then, when the business process execution unit 19 is already executing the business process, the process management unit 13 continuously executes the process being executed. Further, when the business process execution unit 19 is not executing the business process, the process management unit 13 causes the business process execution unit 19 to execute the business process being executed on another server device instead.
- the automatic stop unit 15 stops the server device 10 when the transmission of the heartbeat signal from the signal transmission unit 11 stops.
- the automatic stop unit 15 is realized by a watchdog timer that is mounted in advance in the server device 10. Further, since such an automatic fixing unit 15 is provided, for example, even when the server device 10 is simply hung, the server device 10 is stopped. This is because the server apparatus 10 recovers from the hang state even though the server apparatus 20 determines that a failure has occurred in the server apparatus 10 after the server apparatus 10 hangs and takes over the processing of the server apparatus 10. This is because split brain syndrome occurs.
- the server device 20 also includes a signal transmission unit 21, a reliability determination unit 22, a process management unit 23, a signal reception unit 24, an automatic stop unit 25, and communication interfaces 16 to 18 corresponding to each communication path. And a business process execution unit 29.
- the server device 10 and the server device 20 have the same configuration and function, and thus description of each part of the server device 20 is omitted.
- the number of server devices is not particularly limited.
- FIG. 3 is a flowchart showing the operation of the server apparatus constituting the cluster system in the embodiment of the present invention.
- the server apparatus 10 will be mainly described with reference to FIG. Furthermore, in this embodiment, the cluster system management method is implemented by operating the cluster system 100. Therefore, the description of the cluster system management method in the present embodiment is replaced with the following description of the operation of the cluster system.
- the signal transmission unit 11 transmits a heartbeat signal from the communication interfaces 16 to 18 to the server device 20 at a set interval. Further, in the server device 10, the reliability determination unit 12 determines whether or not the communication paths 30 to 50 have reliability in synchronization with the transmission or reception timing of the heartbeat signal.
- the signal transmission unit 21 transmits a heartbeat signal to the server device 10 from the communication interfaces 26 to 28 at set intervals.
- the reliability determination unit 22 determines whether or not the communication paths 30 to 50 have reliability in synchronization with the transmission or reception timing of the heartbeat signal.
- the signal receiving unit 14 determines whether or not the reception of the heartbeat signal from the server device 20 has timed out (step A1).
- step A1 If the result of determination in step A1 is that a timeout has not occurred, the signal receiving unit 14 executes step A1 again after the set time has elapsed. On the other hand, if the result of determination in step A ⁇ b> 1 is a timeout, the signal reception unit 14 notifies the process management unit 13 of this.
- the process management unit 13 determines whether or not there is a reliable communication path among the communication paths 30 to 50 (step A2). If there is a reliable communication path as a result of the determination in step A2, the process management unit 13 determines whether the business process execution unit 19 is executing the business process (step A3).
- step A3 determines whether the business process is being executed. If the result of the determination in step A3 is that the business process is being executed, the process management unit 13 causes the business process execution unit 19 to continue the business process as it is (step A4). On the other hand, if the result of determination in step A3 is that the business process is not being executed, the process management unit 13 causes the business process execution unit 19 to take over the process being executed on the server device 20 (step A5).
- the process management unit 13 determines whether or not the business process execution unit 19 is executing a business process. (Step A6).
- step A6 If the result of determination in step A6 is that business processing is not being executed, processing in the server device 10 ends. On the other hand, as a result of the determination in step A6, if the business process is being executed, the process management unit 13 causes the business process execution unit 19 to stop the business process (step A7).
- steps A1 to A7 are repeatedly executed in the server device 10.
- the same steps as steps A1 to A7 are repeatedly executed.
- FIG. 4 is a diagram showing the result of reliability determination in each server device constituting the cluster system in the embodiment of the present invention.
- the server apparatus 10 and the server apparatus 20 illustrated in FIG. 2 have a situation in which a heartbeat signal cannot be received from any communication path.
- the reliability determination unit 12 determines the presence / absence of current reliability in each of the communication paths 30 to 50.
- the server apparatus 10 As a result of the determination, as shown in FIG. 4, if it is determined that the server apparatus 10 is reliable in the communication paths 30 and 40, the server apparatus 10 has a failure in the server apparatus 20. Judge. This is because, from the viewpoint of the server device 10, the server device 20 cannot transmit the heartbeat signal even though there is a reliable communication path because it is considered that there is a problem with the server device 20.
- the server apparatus 20 determines that there is no reliability in all the communication paths 30 to 50. Therefore, when a business process is being executed, even if a failure has not occurred. Stop business processing. As a result, the occurrence of split brain syndrome is avoided.
- the server device 20 does not execute the above-described steps A1 to A7, but the business processing has already been stopped. Therefore, the split brain syndrome does not occur.
- the server device 10 determines that a failure has occurred in the server device 20. However, since this is just a hang, the server device 20 may recover from the hang state after a while, and a split brain syndrome may occur. Therefore, in the present embodiment, as described above, the server apparatuses 10 and 20 are provided with the automatic stop unit 15, and the occurrence of such a situation is avoided.
- the program in this embodiment may be a program that causes a computer to execute steps A1 to A7 shown in FIG.
- the CPU (Central Processing Unit) of the computer serving as the server device 10 functions as a signal transmission unit 11, a reliability determination unit 12, a process management unit 13, a signal reception unit 14, and an automatic stop unit 15, and performs processing.
- a CPU (Central Processing Unit) of the computer serving as the server device 20 functions as a signal transmission unit 21, a reliability determination unit 22, a process management unit 23, a signal reception unit 24, and an automatic stop unit 25 to perform processing. .
- the reliability determination unit determines the reliability for all communication paths.
- the present embodiment is not limited to this aspect. This embodiment may be an aspect in which the reliability determination unit determines whether or not only some communication paths have reliability.
- public LANs, interconnect LANs, and SCSI / FC communication paths are illustrated as communication paths.
- the number and types of communication paths that connect server apparatuses are particularly limited. It is not limited.
- Other communication paths include a LAN for BMC (Baseboard Management Controller) control, a communication path using an RS232C port, a communication path using a wireless LAN, a communication path using a USB terminal, and the like.
- FIG. 5 is a block diagram illustrating an example of a computer that implements the server device according to the embodiment of the present invention.
- the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected to each other via a bus 121 so that data communication is possible.
- the CPU 111 performs various operations by developing the program (code) in the present embodiment stored in the storage device 113 in the main memory 112 and executing them in a predetermined order.
- the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
- the program in the present embodiment is provided in a state of being stored in a computer-readable recording medium 120. Note that the program in the present embodiment may be distributed on the Internet connected via the communication interface 117.
- the storage device 113 include a semiconductor storage device such as a flash memory in addition to a hard disk.
- the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and a mouse.
- the display controller 115 is connected to the display device 119 and controls display on the display device 119.
- the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, and reads a program from the recording medium 120 and writes a processing result in the computer 110 to the recording medium 120.
- the communication interface 117 mediates data transmission between the CPU 111 and another computer.
- the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic storage media such as a flexible disk, or CD- Optical storage media such as ROM (Compact Disk Read Only Memory) are listed.
- CF Compact Flash
- SD Secure Digital
- magnetic storage media such as a flexible disk
- CD- Optical storage media such as ROM (Compact Disk Read Only Memory) are listed.
- a cluster system characterized by comprising:
- the plurality of server devices are connected to each other by two or more communication paths, The process management unit of each server apparatus determines that an abnormality has occurred in the other server apparatus when any one of the communication paths is determined to be reliable.
- the plurality of server devices are connected to each other by a communication path directly connecting the server devices, a communication path via a network, and a communication path via a storage device,
- the reliability determination unit For the communication path directly connecting the server devices, when the communication interface is in an energized state, it is determined to have reliability, For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
- the cluster system according to appendix 4.
- Each of the plurality of server devices further includes an automatic stop unit that stops the server device when transmission of the signal from the signal transmission unit is interrupted.
- a server device connected to another server device via a communication path, A signal transmission unit that transmits a signal indicating the presence of the other server device via the communication path; A reliability determination unit that determines whether the communication path has reliability; and When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device has reliability. If the communication path is not determined to be reliable, a process management unit that stops the process being executed;
- the server apparatus characterized by the above-mentioned.
- Appendix 9 It is connected to the other server device by two or more communication paths, The server according to appendix 8, wherein the process management unit determines that an abnormality has occurred in the other server device when it is determined that any one of the communication paths has reliability. apparatus.
- the reliability determination unit For the communication path directly connecting the server devices, when the communication interface is in an energized state, it is determined to have reliability, For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
- the server device according to attachment 10.
- step (c) If it is determined in step (c) that the communication path is reliable as a result of confirmation, it is determined that an abnormality has occurred in the other server device, and the server Causing the apparatus to continuously execute the process being executed, or to execute the process being executed by the other server apparatus instead.
- the plurality of server devices are connected to each other by two or more communication paths, The supplementary note 14, wherein in the step (c), if any of the communication paths is determined to be reliable, it is determined that an abnormality has occurred in the other server device.
- Cluster system management method if any of the communication paths is determined to be reliable, it is determined that an abnormality has occurred in the other server device.
- the plurality of server devices are connected to each other by a communication path directly connecting the server devices, a communication path via a network, and a communication path via a storage device, The cluster system management method according to attachment 15.
- step (b) For the communication path directly connecting the server devices, when the communication interface is in an energized state, it is determined to have reliability, For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
- the cluster system management method according to appendix 16.
- the method further includes a step of stopping the server device when transmission of the signal in step (a) is interrupted.
- step (c) If it is determined in step (c) that the communication path is reliable as a result of the confirmation, it is determined that an abnormality has occurred in the other computer, and the computer Continuously executing a process being executed, or alternatively executing a process being executed by the other computer, The computer-readable recording medium according to appendix 19.
- the computer is connected to the other computer by two or more communication paths;
- the appendix 20 according to appendix 20, wherein in the step (c), when any one of the communication paths is determined to be reliable, it is determined that an abnormality has occurred in the other computer.
- Computer-readable recording medium
- the computer is connected to the other computer by a communication path directly connecting the computers, a communication path via a network, and a communication path via a storage device.
- step (b) For the communication path directly connecting the computers, when the communication interface is energized, it is determined that the communication / BR> For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
- the computer-readable recording medium according to appendix 22.
- the present invention is useful for managing a cluster system.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Cardiology (AREA)
- Computer And Data Communications (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とする。
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
以下、本発明の実施の形態における、クラスタシステム、サーバ装置、サーバ装置の管理方法、及びプログラムについて、図1~図5を参照しながら説明する。
最初に、図1を用いて、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成について説明する。図1は、本発明の実施の形態におけるクラスタシステムの概略構成を示す図である。
次に、本発明の実施の形態におけるクラスタシステム100の動作について図3を用いて説明する。図3は、本発明の実施の形態におけるクラスタシステムを構成するサーバ装置の動作を示すフロー図である。
ここで、図4を用いて具体例について説明する。図4は、本発明の実施の形態におけるクラスタシステムを構成する各サーバ装置での信頼性判定の結果を示す図である。
本形態におけるプログラムは、コンピュータに、図3に示すステップA1~A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、クラスタシステム、サーバ装置、クラスタシステムの管理方法を実現することができる。この場合、サーバ装置10となるコンピュータのCPU(Central Processing Unit)は、信号送信部11、信頼性判定部12、処理管理部13、信号受信部14、及び自動停止部15として機能し、処理を行なう。また、サーバ装置20となるコンピュータのCPU(Central Processing Unit)は、信号送信部21、信頼性判定部22、処理管理部23、信号受信部24、及び自動停止部25として機能し、処理を行なう。
上述した例では、各サーバ装置において、信頼性判定部は、全ての通信経路について信頼性を判定しているが、本実施の形態は、この態様に限定される趣旨ではない。本実施の形態は、信頼性判定部が、一部の通信経路についてのみ、信頼性を有しているかどうかを判定する態様であっても良い。
ここで、本実施の形態におけるプログラムを実行することによって、サーバ装置を実現するコンピュータについて図5を用いて説明する。図5は、本発明の実施の形態におけるサーバ装置を実現するコンピュータの一例を示すブロック図である。
通信経路によって接続された複数のサーバ装置を備え、
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするクラスタシステム。
前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記1に記載のクラスタシステム。
前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
各サーバ装置の処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記2に記載のクラスタシステム。
前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記3に記載のクラスタシステム。
前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記4に記載のクラスタシステム。
前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
付記1に記載のクラスタシステム。
通信経路によって他のサーバ装置と接続されるサーバ装置であって、
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするサーバ装置。
前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記7に記載のサーバ装置。
2つ以上の通信経路によって前記他のサーバ装置と接続されており、
前記処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記8に記載のサーバ装置。
サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
付記9に記載のサーバ装置。
前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記10に記載のサーバ装置。
前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
付記7に記載のサーバ装置。
通信経路によって接続された複数のサーバ装置を用い、
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とするクラスタシステムの管理方法。
前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記13に記載のクラスタシステムの管理方法。
前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記14に記載のクラスタシステムの管理方法。
前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記15に記載のクラスタシステムの管理方法。
前記(b)のステップにおいて、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記16に記載のクラスタシステムの管理方法。
前記複数のサーバ装置それぞれによって実行される、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
付記13に記載のクラスタシステムの管理方法。
通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる命令を含む、プログラムを記憶しているコンピュータ読み取り可能な記録媒体。
前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のコンピュータに異常が発生していると判断して、当該コンピュータで実行中にある処理を継続して実行し、又は、前記他のコンピュータが実行している処理を代わりに実行する、
付記19に記載のコンピュータ読み取り可能な記録媒体。
前記コンピュータが、2つ以上の通信経路によって前記他のコンピュータと接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のコンピュータに異常が発生していると判断する、付記20に記載のコンピュータ読み取り可能な記録媒体。
前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
付記21に記載のコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、
前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信・BR>叶ォを有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記22に記載のコンピュータ読み取り可能な記録媒体。
前記プログラムが、前記コンピュータに、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを実行させる、命令を更に含む、
付記19に記載のコンピュータ読み取り可能な記録媒体。
11 信号送信部
12 信頼性判定部
13 処理管理部
14 信号受信部
15 自動停止部
16、17、18 通信インターフェイス
19 業務処理実行部
20 サーバ装置
21 信号送信部
22 信頼性判定部
23 処理管理部
24 信号受信部
25 自動停止部
26、27、28 通信インターフェイス
29 業務処理実行部
30 通信経路
31 ネットワーク
32 ルーター
40 通信経路
50 通信経路
51 記憶装置
100 クラスタシステム
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
Claims (24)
- 通信経路によって接続された複数のサーバ装置を備え、
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするクラスタシステム。 - 前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
請求項1に記載のクラスタシステム。 - 前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
各サーバ装置の処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、請求項2に記載のクラスタシステム。 - 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
請求項3に記載のクラスタシステム。 - 前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項4に記載のクラスタシステム。 - 前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
請求項1~5のいずれかに記載のクラスタシステム。 - 通信経路によって他のサーバ装置と接続されるサーバ装置であって、
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするサーバ装置。 - 前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
請求項7に記載のサーバ装置。 - 2つ以上の通信経路によって前記他のサーバ装置と接続されており、
前記処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、請求項8に記載のサーバ装置。 - サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
請求項9に記載のサーバ装置。 - 前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項10に記載のサーバ装置。 - 前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
請求項7~11のいずれかに記載のサーバ装置。 - 通信経路によって接続された複数のサーバ装置を用い、
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とするクラスタシステムの管理方法。 - 前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
請求項13に記載のクラスタシステムの管理方法。 - 前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、請求項14に記載のクラスタシステムの管理方法。 - 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
請求項15に記載のクラスタシステムの管理方法。 - 前記(b)のステップにおいて、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項16に記載のクラスタシステムの管理方法。 - 前記複数のサーバ装置それぞれによって実行される、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
請求項13~17のいずれかに記載のクラスタシステムの管理方法。 - 通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる命令を含む、プログラムを記憶しているコンピュータ読み取り可能な記録媒体。 - 前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のコンピュータに異常が発生していると判断して、当該コンピュータで実行中にある処理を継続して実行し、又は、前記他のコンピュータが実行している処理を代わりに実行する、
請求項19に記載のコンピュータ読み取り可能な記録媒体。 - 前記コンピュータが、2つ以上の通信経路によって前記他のコンピュータと接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のコンピュータに異常が発生していると判断する、請求項20に記載のコンピュータ読み取り可能な記録媒体。 - 前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
請求項21に記載のコンピュータ読み取り可能な記録媒体。 - 前記(b)のステップにおいて、
前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項22に記載のコンピュータ読み取り可能な記録媒体。 - 前記プログラムが、前記コンピュータに、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを実行させる、命令を更に含む、
請求項19~23のいずれかに記載のコンピュータ読み取り可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015554749A JP6183931B2 (ja) | 2013-12-25 | 2014-12-15 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 |
CN201480070639.5A CN105849702A (zh) | 2013-12-25 | 2014-12-15 | 集群系统,服务器设备,集群系统管理方法和计算机可读记录介质 |
US15/107,066 US10102088B2 (en) | 2013-12-25 | 2014-12-15 | Cluster system, server device, cluster system management method, and computer-readable recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013-267038 | 2013-12-25 | ||
JP2013267038 | 2013-12-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015098589A1 true WO2015098589A1 (ja) | 2015-07-02 |
Family
ID=53478453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/083085 WO2015098589A1 (ja) | 2013-12-25 | 2014-12-15 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10102088B2 (ja) |
JP (1) | JP6183931B2 (ja) |
CN (1) | CN105849702A (ja) |
WO (1) | WO2015098589A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3226485A1 (en) | 2016-04-01 | 2017-10-04 | Yokogawa Electric Corporation | Redundancy device, redundancy system, and redundancy method |
EP3240241A1 (en) | 2016-04-28 | 2017-11-01 | Yokogawa Electric Corporation | Service providing device, alternative service providing device, relaying device, service providing system, and service providing method |
EP3300305A1 (en) | 2016-09-26 | 2018-03-28 | Yokogawa Electric Corporation | Processing device, control method of processing device, and recording medium |
JP2021120827A (ja) * | 2020-01-31 | 2021-08-19 | 株式会社日立製作所 | 制御システム、制御方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452952B (zh) * | 2016-09-29 | 2019-11-22 | 华为技术有限公司 | 一种检测集群系统通信状态的方法及网关集群 |
CN110377487A (zh) * | 2019-07-11 | 2019-10-25 | 无锡华云数据技术服务有限公司 | 一种处理高可用集群脑裂的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08171507A (ja) * | 1994-12-16 | 1996-07-02 | Mitsubishi Electric Corp | 異常監視方法 |
US6785840B1 (en) * | 1999-08-31 | 2004-08-31 | Nortel Networks Limited | Call processor system and methods |
JP2005073277A (ja) * | 2003-08-27 | 2005-03-17 | Internatl Business Mach Corp <Ibm> | クラスタにおける信頼性の高い障害解決 |
JP2012168623A (ja) * | 2011-02-10 | 2012-09-06 | Nec Corp | 待機系計算機、クラスタシステム、サービス提供方法およびプログラム |
JP2013250918A (ja) * | 2012-06-04 | 2013-12-12 | Hitachi Ltd | 複数計算機が独立動作する制御システム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6785678B2 (en) * | 2000-12-21 | 2004-08-31 | Emc Corporation | Method of improving the availability of a computer clustering system through the use of a network medium link state function |
JP4102060B2 (ja) | 2001-12-06 | 2008-06-18 | 三菱電機株式会社 | データ受信装置 |
US7076687B2 (en) * | 2002-10-16 | 2006-07-11 | Hitachi, Ltd. | System and method for bi-directional failure detection of a site in a clustering system |
JP2004302512A (ja) * | 2003-03-28 | 2004-10-28 | Hitachi Ltd | クラスタコンピューティングシステム、および、そのフェールオーバー方法 |
US8543781B2 (en) * | 2004-02-06 | 2013-09-24 | Vmware, Inc. | Hybrid locking using network and on-disk based schemes |
US7590737B1 (en) * | 2004-07-16 | 2009-09-15 | Symantec Operating Corporation | System and method for customized I/O fencing for preventing data corruption in computer system clusters |
US7739677B1 (en) * | 2005-05-27 | 2010-06-15 | Symantec Operating Corporation | System and method to prevent data corruption due to split brain in shared data clusters |
JP2008172592A (ja) | 2007-01-12 | 2008-07-24 | Hitachi Ltd | クラスタシステム、コンピュータおよびその異常検出方法 |
US8498967B1 (en) * | 2007-01-30 | 2013-07-30 | American Megatrends, Inc. | Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome |
CN101291243B (zh) * | 2007-04-16 | 2012-10-10 | 广东新支点技术服务有限公司 | 高可用集群系统的裂脑预防方法 |
US8001413B2 (en) * | 2008-05-05 | 2011-08-16 | Microsoft Corporation | Managing cluster split-brain in datacenter service site failover |
CN101582787B (zh) * | 2008-05-16 | 2011-12-07 | 中兴通讯股份有限公司 | 一种双机备份系统及备份方法 |
US8671218B2 (en) * | 2009-06-16 | 2014-03-11 | Oracle America, Inc. | Method and system for a weak membership tie-break |
CN101674331B (zh) * | 2009-10-21 | 2012-11-07 | 成都市华为赛门铁克科技有限公司 | 集群存储系统及其脑裂处理方法 |
US8108715B1 (en) * | 2010-07-02 | 2012-01-31 | Symantec Corporation | Systems and methods for resolving split-brain scenarios in computer clusters |
US8806264B2 (en) * | 2010-08-30 | 2014-08-12 | Oracle International Corporation | Methods for detecting split brain in a distributed system |
US8560628B2 (en) * | 2011-01-11 | 2013-10-15 | International Business Machines Corporation | Supporting autonomous live partition mobility during a cluster split-brained condition |
JP2012173996A (ja) * | 2011-02-22 | 2012-09-10 | Nec Corp | クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム |
CN102457400B (zh) | 2011-06-09 | 2014-11-05 | 中标软件有限公司 | 一种防止磁盘镜像资源发生脑裂的方法 |
CN102394914A (zh) | 2011-09-22 | 2012-03-28 | 浪潮(北京)电子信息产业有限公司 | 集群脑裂处理方法和装置 |
CN102799394B (zh) * | 2012-06-29 | 2015-02-25 | 华为技术有限公司 | 一种实现高可用集群的心跳服务的方法及装置 |
CN102932118B (zh) | 2012-11-05 | 2015-11-25 | 中国铁道科学研究院 | 一种双机主备裁决的方法及系统 |
CN103051470B (zh) | 2012-11-29 | 2015-10-07 | 中标软件有限公司 | 一种集群及其磁盘心跳的控制方法 |
CN103209095B (zh) * | 2013-03-13 | 2017-05-17 | 广东中兴新支点技术有限公司 | 一种基于磁盘服务锁的裂脑预防的方法和装置 |
-
2014
- 2014-12-15 CN CN201480070639.5A patent/CN105849702A/zh active Pending
- 2014-12-15 WO PCT/JP2014/083085 patent/WO2015098589A1/ja active Application Filing
- 2014-12-15 US US15/107,066 patent/US10102088B2/en active Active
- 2014-12-15 JP JP2015554749A patent/JP6183931B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08171507A (ja) * | 1994-12-16 | 1996-07-02 | Mitsubishi Electric Corp | 異常監視方法 |
US6785840B1 (en) * | 1999-08-31 | 2004-08-31 | Nortel Networks Limited | Call processor system and methods |
JP2005073277A (ja) * | 2003-08-27 | 2005-03-17 | Internatl Business Mach Corp <Ibm> | クラスタにおける信頼性の高い障害解決 |
JP2012168623A (ja) * | 2011-02-10 | 2012-09-06 | Nec Corp | 待機系計算機、クラスタシステム、サービス提供方法およびプログラム |
JP2013250918A (ja) * | 2012-06-04 | 2013-12-12 | Hitachi Ltd | 複数計算機が独立動作する制御システム |
Non-Patent Citations (1)
Title |
---|
HAYAMI AKIYAMA ET AL., VMWARE TETTEI NYUMON, 12 November 2008 (2008-11-12), pages 280 - 283 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3226485A1 (en) | 2016-04-01 | 2017-10-04 | Yokogawa Electric Corporation | Redundancy device, redundancy system, and redundancy method |
JP2017187868A (ja) * | 2016-04-01 | 2017-10-12 | 横河電機株式会社 | 冗長化装置、冗長化システム、及び冗長化方法 |
US10339018B2 (en) | 2016-04-01 | 2019-07-02 | Yokogawa Electric Corporation | Redundancy device, redundancy system, and redundancy method |
EP3240241A1 (en) | 2016-04-28 | 2017-11-01 | Yokogawa Electric Corporation | Service providing device, alternative service providing device, relaying device, service providing system, and service providing method |
US10812359B2 (en) | 2016-04-28 | 2020-10-20 | Yokogawa Electric Corporation | Service providing device, alternative service providing device, relaying device, service providing system, and service providing method |
EP3300305A1 (en) | 2016-09-26 | 2018-03-28 | Yokogawa Electric Corporation | Processing device, control method of processing device, and recording medium |
US10534352B2 (en) | 2016-09-26 | 2020-01-14 | Yokogawa Electric Corporation | Processing device, network device, control method of processing device, control method of network device, and recording medium |
JP2021120827A (ja) * | 2020-01-31 | 2021-08-19 | 株式会社日立製作所 | 制御システム、制御方法 |
JP7328907B2 (ja) | 2020-01-31 | 2023-08-17 | 株式会社日立製作所 | 制御システム、制御方法 |
Also Published As
Publication number | Publication date |
---|---|
US20170039118A1 (en) | 2017-02-09 |
JP6183931B2 (ja) | 2017-08-23 |
CN105849702A (zh) | 2016-08-10 |
US10102088B2 (en) | 2018-10-16 |
JPWO2015098589A1 (ja) | 2017-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6183931B2 (ja) | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 | |
JP5872731B2 (ja) | クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム | |
US10715411B1 (en) | Altering networking switch priority responsive to compute node fitness | |
US10693813B1 (en) | Enabling and disabling links of a networking switch responsive to compute node fitness | |
US11265266B2 (en) | Computer-readable recording medium recording port switching program and port switching method | |
US6658595B1 (en) | Method and system for asymmetrically maintaining system operability | |
US7937610B2 (en) | Fast node failure detection via disk based last gasp mechanism | |
US20120297107A1 (en) | Storage controller system with data synchronization and method of operation thereof | |
JP5112138B2 (ja) | セッション管理方法、ストレージ装置、及び、計算機システム | |
JP6134720B2 (ja) | 接続方法 | |
JP2015070522A (ja) | 情報処理装置、情報処理システム、及びプログラム | |
JP5488693B2 (ja) | マルチクラスタシステム | |
JP2011253285A (ja) | 診断システム、診断装置及び診断プログラム | |
JPWO2018131550A1 (ja) | コネクション管理ユニット、およびコネクション管理方法 | |
JP2012133622A (ja) | 計算機切替システム、計算機切替プログラム、および計算機切替方法 | |
JP5433219B2 (ja) | クラスタシステム | |
US10855610B2 (en) | Information processing apparatus, information processing system, information processing method, and storage medium | |
JP5170000B2 (ja) | 冗長化ペア検出方法、通信装置、冗長化ペア検出プログラム、記録媒体 | |
WO2016117008A1 (ja) | ストレージシステム、計算機システム、及び障害箇所推定方法 | |
CN117806898A (zh) | 进程监控方法、装置及设备 | |
JP2011048577A (ja) | 障害監視システム | |
JP2000010823A (ja) | 計算機及び計算機システム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2010004449A (ja) | 通信システム及びクライアント装置及びサーバ装置 | |
KR20150077350A (ko) | 클러스터 시스템에서 클러스터를 처리하기 위한 방법과 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14874235 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2015554749 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15107066 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14874235 Country of ref document: EP Kind code of ref document: A1 |