WO2015098589A1 - クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2015098589A1
WO2015098589A1 PCT/JP2014/083085 JP2014083085W WO2015098589A1 WO 2015098589 A1 WO2015098589 A1 WO 2015098589A1 JP 2014083085 W JP2014083085 W JP 2014083085W WO 2015098589 A1 WO2015098589 A1 WO 2015098589A1
Authority
WO
WIPO (PCT)
Prior art keywords
communication path
determined
server
server device
reliability
Prior art date
Application number
PCT/JP2014/083085
Other languages
English (en)
French (fr)
Inventor
下問勝司
Original Assignee
Necソリューションイノベータ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necソリューションイノベータ株式会社 filed Critical Necソリューションイノベータ株式会社
Priority to JP2015554749A priority Critical patent/JP6183931B2/ja
Priority to CN201480070639.5A priority patent/CN105849702A/zh
Priority to US15/107,066 priority patent/US10102088B2/en
Publication of WO2015098589A1 publication Critical patent/WO2015098589A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency

Definitions

  • the present invention relates to a cluster system including a plurality of server devices, a server device used therefor, a cluster system management method, and a computer-readable recording medium on which a program for realizing these is recorded.
  • a cluster system is adopted so that business can continue even if a system failure occurs.
  • the cluster system a plurality of server devices are connected, and these server devices behave as if they are one server device as a whole for the user.
  • Heartbeat communication refers to transmitting a signal indicating the presence of each other (hereinafter referred to as “heartbeat signal”) between server apparatuses at a set interval.
  • each server device first determines whether a timeout has occurred for each communication path in heartbeat communication. If a timeout has occurred, it is determined that some kind of failure has occurred. When it is determined that a failure has occurred, each server determines whether the received packet has arrived within the set timeout period via the network. If it is determined that there is a communication failure and has arrived, it is determined that an abnormality has occurred in the other server.
  • An example of an object of the present invention is to solve the above-described problem and avoid occurrence of a situation where processing contents collide in a cluster system, a cluster system, a server device, a cluster system management method, and a computer-readable record To provide a medium.
  • a cluster system includes a plurality of server devices connected by a communication path, Each of the plurality of server devices includes: A signal transmission unit that transmits a signal indicating the presence of the server to another server device via the communication path; A reliability determination unit that determines whether the communication path has reliability; and When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device has reliability. If the communication path is not determined to be reliable, a process management unit that stops the process being executed; It is characterized by having.
  • a server apparatus is a server apparatus connected to another server apparatus through a communication path, A signal transmission unit that transmits a signal indicating the presence of the other server device via the communication path; A reliability determination unit that determines whether the communication path has reliability; and When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device has reliability. If the communication path is not determined to be reliable, a process management unit that stops the process being executed; It is characterized by having.
  • the cluster system management method uses a plurality of server devices connected by communication paths, Executed by each of the plurality of server devices, (A) transmitting a signal indicating its own existence to another server device via the communication path; (B) determining whether the communication path is reliable; (C) When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device is reliable. As a result, if the communication path is not determined to be reliable, the process being executed is stopped, and It is characterized by having.
  • a computer-readable recording medium is provided on a computer connected to another computer via a communication path.
  • FIG. 1 is a diagram showing a schematic configuration of a cluster system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram specifically showing the configurations of the cluster system and the server device according to the embodiment of the present invention.
  • FIG. 3 is a flowchart showing the operation of the server apparatus constituting the cluster system in the embodiment of the present invention.
  • FIG. 4 is a diagram showing the result of reliability determination in each server device constituting the cluster system in the embodiment of the present invention.
  • FIG. 5 is a block diagram illustrating an example of a computer that implements the server device according to the embodiment of the present invention.
  • FIG. 1 is a diagram showing a schematic configuration of a cluster system according to an embodiment of the present invention.
  • the cluster system 100 in this embodiment includes server devices 10 and 20 connected by communication paths 30 to 50.
  • the other server device takes over the processing performed by the server device in which the failure has occurred, and the occurrence of a situation where the business is stopped is avoided.
  • Each of the server devices 10 and 20 transmits a signal indicating its presence, that is, a heartbeat signal to the other server device via the communication paths 30 to 50.
  • the communication path It can also be determined whether 30 to 50 have reliability.
  • each of the server devices 10 and 20 determines that the communication paths 30 to 50 with the server device are reliable when the heartbeat signal cannot be received from the other server device. Check if. Subsequently, as a result of the confirmation, each server device can stop a process being executed when it is not determined that the communication paths 30 to 50 have reliability.
  • the server apparatuses 10 and 20 determine the reliability of the communication paths 30 to 50 for heartbeat communication, and depending on the result, the server apparatuses 10 and 20 may not actually be down, Processing can be stopped. For this reason, the situation where processing contents collide, that is, the occurrence of so-called split brain syndrome is avoided.
  • FIG. 2 is a block diagram specifically showing the configurations of the cluster system and the server device according to the embodiment of the present invention.
  • the communication path 30 is a communication path that passes through a network 31, and is a public LAN (Local Area Network).
  • the communication path 40 is a communication path that directly connects server apparatuses and is an interconnect LAN.
  • the communication path 50 is a communication path via the storage device 51.
  • the server devices 10 and 20 and the storage device 51 are connected by a connection method such as SCSI (Small computer system Interface) or FC (Fiber Channel). Further, the communication path 50 may be constructed using a network such as the Internet instead of a dedicated cable.
  • SCSI Small computer system Interface
  • FC Fiber Channel
  • the server device 10 includes a signal transmission unit 11, a reliability determination unit 12, a process management unit 13, a signal reception unit 14, and an automatic stop unit 15. , Communication interfaces 16 to 18 corresponding to each communication path, and a business process execution unit 19 are provided.
  • the communication interfaces 16 to 18 are constituted by, for example, a NIC (Network Interface Card).
  • the signal transmission unit 11 transmits a heartbeat signal to the other server devices via the communication paths 30 to 50. Further, the signal transmission unit 11 transmits the heartbeat signal to the automatic stop unit 15 in addition to the communication paths 30 to 50 at the same timing as when transmitting from each communication path.
  • the heartbeat signal may be transmitted periodically or according to a set condition.
  • the signal receiver 14 receives heartbeat signals from other server devices via the communication interfaces 16-18. Further, the signal receiving unit 14 determines whether or not the heartbeat signal from another server device cannot be received, specifically, whether or not the heartbeat signal has timed out.
  • the reliability determination unit 12 determines whether the communication paths 30 to 50 have reliability. Specifically, for the communication path 40, the reliability determination unit 12 transmits a request (ICMP echo request) to the device (router) 32 existing on the network 31, and the response to the request (ICMP echo reply) from the device 32. ) Is returned, it is determined that it has reliability.
  • the reliability determination unit 12 determines that the communication path 40 has reliability when the NIC functioning as the communication interface 17 is in an energized state. Further, for the communication path 50, the reliability determination unit 12 transmits a command defined by SCSI or FC to the storage device 51, and when the response to the command is returned from the storage device 51, the reliability determination unit 12 It is determined that it has
  • the business process execution unit 19 executes a process for business (business process) performed by the cluster system 100.
  • the business process execution unit 19 is constructed by an application program for business processes, and is constructed for each business.
  • the processing management unit 13 determines that the signal receiving unit 14 cannot receive a heartbeat signal from another server device, the processing management unit 13 has reliability with respect to the communication paths 30 to 50 by the reliability determining unit 12. Check if it is determined that
  • the process management unit 13 causes the business process execution unit 19 to stop the process being executed.
  • the process management unit 13 determines that an abnormality has occurred in another server device. Then, when the business process execution unit 19 is already executing the business process, the process management unit 13 continuously executes the process being executed. Further, when the business process execution unit 19 is not executing the business process, the process management unit 13 causes the business process execution unit 19 to execute the business process being executed on another server device instead.
  • the automatic stop unit 15 stops the server device 10 when the transmission of the heartbeat signal from the signal transmission unit 11 stops.
  • the automatic stop unit 15 is realized by a watchdog timer that is mounted in advance in the server device 10. Further, since such an automatic fixing unit 15 is provided, for example, even when the server device 10 is simply hung, the server device 10 is stopped. This is because the server apparatus 10 recovers from the hang state even though the server apparatus 20 determines that a failure has occurred in the server apparatus 10 after the server apparatus 10 hangs and takes over the processing of the server apparatus 10. This is because split brain syndrome occurs.
  • the server device 20 also includes a signal transmission unit 21, a reliability determination unit 22, a process management unit 23, a signal reception unit 24, an automatic stop unit 25, and communication interfaces 16 to 18 corresponding to each communication path. And a business process execution unit 29.
  • the server device 10 and the server device 20 have the same configuration and function, and thus description of each part of the server device 20 is omitted.
  • the number of server devices is not particularly limited.
  • FIG. 3 is a flowchart showing the operation of the server apparatus constituting the cluster system in the embodiment of the present invention.
  • the server apparatus 10 will be mainly described with reference to FIG. Furthermore, in this embodiment, the cluster system management method is implemented by operating the cluster system 100. Therefore, the description of the cluster system management method in the present embodiment is replaced with the following description of the operation of the cluster system.
  • the signal transmission unit 11 transmits a heartbeat signal from the communication interfaces 16 to 18 to the server device 20 at a set interval. Further, in the server device 10, the reliability determination unit 12 determines whether or not the communication paths 30 to 50 have reliability in synchronization with the transmission or reception timing of the heartbeat signal.
  • the signal transmission unit 21 transmits a heartbeat signal to the server device 10 from the communication interfaces 26 to 28 at set intervals.
  • the reliability determination unit 22 determines whether or not the communication paths 30 to 50 have reliability in synchronization with the transmission or reception timing of the heartbeat signal.
  • the signal receiving unit 14 determines whether or not the reception of the heartbeat signal from the server device 20 has timed out (step A1).
  • step A1 If the result of determination in step A1 is that a timeout has not occurred, the signal receiving unit 14 executes step A1 again after the set time has elapsed. On the other hand, if the result of determination in step A ⁇ b> 1 is a timeout, the signal reception unit 14 notifies the process management unit 13 of this.
  • the process management unit 13 determines whether or not there is a reliable communication path among the communication paths 30 to 50 (step A2). If there is a reliable communication path as a result of the determination in step A2, the process management unit 13 determines whether the business process execution unit 19 is executing the business process (step A3).
  • step A3 determines whether the business process is being executed. If the result of the determination in step A3 is that the business process is being executed, the process management unit 13 causes the business process execution unit 19 to continue the business process as it is (step A4). On the other hand, if the result of determination in step A3 is that the business process is not being executed, the process management unit 13 causes the business process execution unit 19 to take over the process being executed on the server device 20 (step A5).
  • the process management unit 13 determines whether or not the business process execution unit 19 is executing a business process. (Step A6).
  • step A6 If the result of determination in step A6 is that business processing is not being executed, processing in the server device 10 ends. On the other hand, as a result of the determination in step A6, if the business process is being executed, the process management unit 13 causes the business process execution unit 19 to stop the business process (step A7).
  • steps A1 to A7 are repeatedly executed in the server device 10.
  • the same steps as steps A1 to A7 are repeatedly executed.
  • FIG. 4 is a diagram showing the result of reliability determination in each server device constituting the cluster system in the embodiment of the present invention.
  • the server apparatus 10 and the server apparatus 20 illustrated in FIG. 2 have a situation in which a heartbeat signal cannot be received from any communication path.
  • the reliability determination unit 12 determines the presence / absence of current reliability in each of the communication paths 30 to 50.
  • the server apparatus 10 As a result of the determination, as shown in FIG. 4, if it is determined that the server apparatus 10 is reliable in the communication paths 30 and 40, the server apparatus 10 has a failure in the server apparatus 20. Judge. This is because, from the viewpoint of the server device 10, the server device 20 cannot transmit the heartbeat signal even though there is a reliable communication path because it is considered that there is a problem with the server device 20.
  • the server apparatus 20 determines that there is no reliability in all the communication paths 30 to 50. Therefore, when a business process is being executed, even if a failure has not occurred. Stop business processing. As a result, the occurrence of split brain syndrome is avoided.
  • the server device 20 does not execute the above-described steps A1 to A7, but the business processing has already been stopped. Therefore, the split brain syndrome does not occur.
  • the server device 10 determines that a failure has occurred in the server device 20. However, since this is just a hang, the server device 20 may recover from the hang state after a while, and a split brain syndrome may occur. Therefore, in the present embodiment, as described above, the server apparatuses 10 and 20 are provided with the automatic stop unit 15, and the occurrence of such a situation is avoided.
  • the program in this embodiment may be a program that causes a computer to execute steps A1 to A7 shown in FIG.
  • the CPU (Central Processing Unit) of the computer serving as the server device 10 functions as a signal transmission unit 11, a reliability determination unit 12, a process management unit 13, a signal reception unit 14, and an automatic stop unit 15, and performs processing.
  • a CPU (Central Processing Unit) of the computer serving as the server device 20 functions as a signal transmission unit 21, a reliability determination unit 22, a process management unit 23, a signal reception unit 24, and an automatic stop unit 25 to perform processing. .
  • the reliability determination unit determines the reliability for all communication paths.
  • the present embodiment is not limited to this aspect. This embodiment may be an aspect in which the reliability determination unit determines whether or not only some communication paths have reliability.
  • public LANs, interconnect LANs, and SCSI / FC communication paths are illustrated as communication paths.
  • the number and types of communication paths that connect server apparatuses are particularly limited. It is not limited.
  • Other communication paths include a LAN for BMC (Baseboard Management Controller) control, a communication path using an RS232C port, a communication path using a wireless LAN, a communication path using a USB terminal, and the like.
  • FIG. 5 is a block diagram illustrating an example of a computer that implements the server device according to the embodiment of the present invention.
  • the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected to each other via a bus 121 so that data communication is possible.
  • the CPU 111 performs various operations by developing the program (code) in the present embodiment stored in the storage device 113 in the main memory 112 and executing them in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program in the present embodiment is provided in a state of being stored in a computer-readable recording medium 120. Note that the program in the present embodiment may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 include a semiconductor storage device such as a flash memory in addition to a hard disk.
  • the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and a mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119.
  • the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, and reads a program from the recording medium 120 and writes a processing result in the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic storage media such as a flexible disk, or CD- Optical storage media such as ROM (Compact Disk Read Only Memory) are listed.
  • CF Compact Flash
  • SD Secure Digital
  • magnetic storage media such as a flexible disk
  • CD- Optical storage media such as ROM (Compact Disk Read Only Memory) are listed.
  • a cluster system characterized by comprising:
  • the plurality of server devices are connected to each other by two or more communication paths, The process management unit of each server apparatus determines that an abnormality has occurred in the other server apparatus when any one of the communication paths is determined to be reliable.
  • the plurality of server devices are connected to each other by a communication path directly connecting the server devices, a communication path via a network, and a communication path via a storage device,
  • the reliability determination unit For the communication path directly connecting the server devices, when the communication interface is in an energized state, it is determined to have reliability, For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
  • the cluster system according to appendix 4.
  • Each of the plurality of server devices further includes an automatic stop unit that stops the server device when transmission of the signal from the signal transmission unit is interrupted.
  • a server device connected to another server device via a communication path, A signal transmission unit that transmits a signal indicating the presence of the other server device via the communication path; A reliability determination unit that determines whether the communication path has reliability; and When the signal cannot be received from the other server device, it is confirmed whether or not it is determined that the communication path with the other server device has reliability. If the communication path is not determined to be reliable, a process management unit that stops the process being executed;
  • the server apparatus characterized by the above-mentioned.
  • Appendix 9 It is connected to the other server device by two or more communication paths, The server according to appendix 8, wherein the process management unit determines that an abnormality has occurred in the other server device when it is determined that any one of the communication paths has reliability. apparatus.
  • the reliability determination unit For the communication path directly connecting the server devices, when the communication interface is in an energized state, it is determined to have reliability, For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
  • the server device according to attachment 10.
  • step (c) If it is determined in step (c) that the communication path is reliable as a result of confirmation, it is determined that an abnormality has occurred in the other server device, and the server Causing the apparatus to continuously execute the process being executed, or to execute the process being executed by the other server apparatus instead.
  • the plurality of server devices are connected to each other by two or more communication paths, The supplementary note 14, wherein in the step (c), if any of the communication paths is determined to be reliable, it is determined that an abnormality has occurred in the other server device.
  • Cluster system management method if any of the communication paths is determined to be reliable, it is determined that an abnormality has occurred in the other server device.
  • the plurality of server devices are connected to each other by a communication path directly connecting the server devices, a communication path via a network, and a communication path via a storage device, The cluster system management method according to attachment 15.
  • step (b) For the communication path directly connecting the server devices, when the communication interface is in an energized state, it is determined to have reliability, For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
  • the cluster system management method according to appendix 16.
  • the method further includes a step of stopping the server device when transmission of the signal in step (a) is interrupted.
  • step (c) If it is determined in step (c) that the communication path is reliable as a result of the confirmation, it is determined that an abnormality has occurred in the other computer, and the computer Continuously executing a process being executed, or alternatively executing a process being executed by the other computer, The computer-readable recording medium according to appendix 19.
  • the computer is connected to the other computer by two or more communication paths;
  • the appendix 20 according to appendix 20, wherein in the step (c), when any one of the communication paths is determined to be reliable, it is determined that an abnormality has occurred in the other computer.
  • Computer-readable recording medium
  • the computer is connected to the other computer by a communication path directly connecting the computers, a communication path via a network, and a communication path via a storage device.
  • step (b) For the communication path directly connecting the computers, when the communication interface is energized, it is determined that the communication / BR> For a communication path via the network, when a request is transmitted to a device existing on the network and a response to the request is returned from the device, it is determined that the device has reliability. For a communication path via the storage device, a command is transmitted to the storage device, and when a response to the command is returned from the storage device, it is determined to have reliability.
  • the computer-readable recording medium according to appendix 22.
  • the present invention is useful for managing a cluster system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 クラスタシステムは、通信経路によって接続されたサーバ装置10及び20を備える。各サーバ装置は、他のサーバ装置に対して、通信経路30~50を介して、自身の存在を示す信号を送信する、信号送信部11と、通信経路30~50が信頼性を有しているかどうかを判定する、信頼性判定部12と、他のサーバ装置から信号を受信できない状況となると、他のサーバ装置との間の通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部13とを備えている。

Description

クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、複数のサーバ装置を備えるクラスタシステム、これに用いられるサーバ装置、クラスタシステムの管理方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 企業等においては、システムに障害が発生しても、業務を継続して行なえるようにするため、クラスタシステムが採用されている。クラスタシステムでは、複数のサーバ装置が連結されており、これらのサーバ装置は、ユーザに対しては全体で一台のサーバ装置であるかのように振る舞うことになる。
 また、クラスタシステムにおいては、業務の停止を回避するため、サーバ装置間においてハートビート通信を行うことによって、障害の検出が行われている(例えば、特許文献1及び2参照。)。ハートビート通信とは、サーバ装置間で互いに、自身の存在を示す信号(以下、「ハートビート信号」と表記する。)を設定間隔で送信することをいう。
 具体的には、特許文献1及び2に開示されたシステムでは、各サーバ装置は、まず、ハートビート通信において、通信経路毎にタイムアウトが発生していないかどうかを判定する。そして、タイムアウトが発生している場合は、何らかの障害が発生していると判断する。そして、障害が発生していると判断した場合は、各サーバは、ネットワークを経由して、設定したタイムアウト時間内に受信パケットが到着したかどうかを判定し、到着していない場合(タイムアウト)は通信障害と判断し、到着している場合は相手方のサーバに異常が発生したと判断する。
 そして、特許文献1及び2に開示されたシステムでは、障害の発生が検出されると、障害の発生していないサーバ装置が、障害が発生したサーバ装置の業務を引き継ぎ、業務の停止が回避される。
特開2003-173299号公報 特開2008-172592号公報
 しかしながら、特許文献1及び2に開示されたシステムでは、ハートビート信号の受信の有無と、ネットワークから受信されるパケットの受信状況とに基づいて、障害の発生を検出しているため、いわゆるスプリットブレインシンドロームが発生する可能生がある。
 例えば、特許文献1及び2に開示されたシステムにおいて、一方のサーバ装置の通信インターフェース(ネットワークカード)が故障したとする。この場合、一方のサーバ装置は、ハートビート信号と、ネットワークからのパケットとの両方を受信できないので、通信障害が発生していると判断する。しかし、他方のサーバ装置は、ハートビート信号については受信できないが、ネットワークからのパケットについては受信できるので、一方のサーバ装置が障害発生によってダウンしたと判断する。よって、一方のサーバ装置が業務処理を行っていた場合は、他方のサーバ装置も業務処理を開始してしまうため、双方において、同じ業務処理が行われる事態が発生する。
 そして、このような事態が発生した場合において、業務処理が、情報提示のみを行う静的なWebサイトの提供等であれば問題ないが、業務処理がデータベースの更新であると、処理内容が衝突してしまう事態が発生する。これがスプリットブレインシンドロームである。
 本発明の目的の一例は、上記問題を解消し、クラスタシステムにおいて処理内容が衝突してしまう事態の発生を回避し得る、クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面におけるクラスタシステムは、通信経路によって接続された複数のサーバ装置を備え、
 前記複数のサーバ装置それぞれは、
 他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
 前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
 前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
 上記目的を達成するため、本発明の一側面におけるサーバ装置は、通信経路によって他のサーバ装置と接続されるサーバ装置であって、
 前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
 前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
 前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
 また、上記目的を達成するため、本発明の一側面におけるクラスタシステムの管理方法は、通信経路によって接続された複数のサーバ装置を用い、
 前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
 以上のように、本発明によれば、クラスタシステムにおいて処理内容が衝突してしまう事態の発生を回避することができる。
図1は、本発明の実施の形態におけるクラスタシステムの概略構成を示す図である。 図2は、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成を具体的に示すブロック図である。 図3は、本発明の実施の形態におけるクラスタシステムを構成するサーバ装置の動作を示すフロー図である。 図4は、本発明の実施の形態におけるクラスタシステムを構成する各サーバ装置での信頼性判定の結果を示す図である。 図5は、本発明の実施の形態におけるサーバ装置を実現するコンピュータの一例を示すブロック図である。
 (実施の形態)
 以下、本発明の実施の形態における、クラスタシステム、サーバ装置、サーバ装置の管理方法、及びプログラムについて、図1~図5を参照しながら説明する。
 [システム構成]
 最初に、図1を用いて、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成について説明する。図1は、本発明の実施の形態におけるクラスタシステムの概略構成を示す図である。
 図1に示すように、本実施の形態におけるクラスタシステム100は、通信経路30~50によって接続されたサーバ装置10及び20を備えている。クラスタシステム100では、一方のサーバ装置に障害が発生すると、他方のサーバ装置が、障害が発生したサーバ装置で行われている処理を引き継ぎ、業務が停止してしまう事態の発生が回避される。
 また、サーバ装置10及び20それぞれは、他方のサーバ装置に対して、通信経路30~50を介して、自身の存在を示す信号、即ち、ハートビート信号を送信するが、それに加えて、通信経路30~50が信頼性を有しているかどうかを判定することもできる。
 そして、サーバ装置10及び20それぞれは、他方のサーバ装置からハートビート信号を受信できない状況となると、このサーバ装置との間の通信経路30~50について信頼性を有していると判定しているかどうかを確認する。続いて、各サーバ装置は、確認の結果、通信経路30~50が信頼性を有していると判定していない場合は、実行中にある処理を停止することができる。
 このように、本実施の形態では、サーバ装置10及び20は、ハートビート通信のための通信経路30~50について信頼性を判定し、その結果によっては、実際にはダウンしていなくても、処理を停止することができる。このため、処理内容が衝突してしまう事態、いわゆるスプリットブレインシンドロームの発生が回避される。
 ここで、図2を用いて、本実施の形態におけるクラスタシステム及びサーバ装置の構成について更に具体的に説明する。図2は、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成を具体的に示すブロック図である。
 図2に示すように、本実施の形態では、通信経路30は、ネットワーク31を経由する通信経路であり、パブリックLAN(Local Area Network)である。通信経路40は、サーバ装置間を直接結ぶ通信経路であり、インターコネクトLANである。通信経路50は、記憶装置51を介した通信経路である。
 また、通信経路50では、サーバ装置10及び20と記憶装置51とは、SCSI(Small computer System Interface)又はFC(Fiber Channel)といった接続方式によって接続されている。更に、通信経路50は、専用のケーブルではなく、インターネット等のネットワークを利用して構築されていても良い。
 また、本実施の形態では、図2に示すように、サーバ装置10は、信号送信部11と、信頼性判定部12と、処理管理部13と、信号受信部14と、自動停止部15と、各通信経路に対応した通信インターフェイス16~18と、業務処理実行部19とを備えている。このうち、通信インターフェイス16~18は、例えば、NIC(Network Interface Card)によって構成されている。
 信号送信部11は、他のサーバ装置に対して、通信経路30~50を介して、ハートビート信号を送信する。また、信号送信部11は、ハートビート信号を、通信経路30~50に加え、自動停止部15にも、各通信経路から送信する場合と同じタイミングで送信している。なお、ハートビート信号の送信は、定期的に行われても良いし、設定された条件に応じて行われても良い。
 信号受信部14は、通信インターフェイス16~18を介して、他のサーバ装置からのハートビート信号を受信する。また、信号受信部14は、他のサーバ装置からのハートビート信号を受信できない状況にあるかどうか、具体的には、ハートビート信号がタイムアウトしていないかどうかを判断する。
 信頼性判定部12は、通信経路30~50が信頼性を有しているかどうかを判定する。具体的には、信頼性判定部12は、通信経路40については、ネットワーク31上に存在する機器(ルータ)32にリクエスト(ICMP echo request)を送信し、機器32からリクエストに対するレスポンス(ICMP echo reply)が返信されてきた場合に、信頼性を有していると判定する。
 また、信頼性判定部12は、通信経路40については、通信インターフェイス17として機能するNICが通電状態にある場合に、信頼性を有していると判定する。更に、信頼性判定部12は、通信経路50については、記憶装置51に、SCSI又はFCで規定されているコマンドを送信し、記憶装置51からコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する。
 業務処理実行部19は、クラスタシステム100が行う業務のための処理(業務処理)を実行する。具体的には、業務処理実行部19は、業務処理のためのアプリケーションプログラムによって構築されており、業務毎に構築される。
 処理管理部13は、信号受信部14が他のサーバ装置からのハートビート信号を受信できない状況にあると判断したときに、通信経路30~50について、信頼性判定部12によって信頼性を有していると判定されているかどうかを確認する。
 そして、処理管理部13は、確認の結果、通信経路30~50が信頼性を有していると判定されていない場合は、業務処理実行部19に、実行中にある処理を停止させる。一方、処理管理部13は、確認の結果、いずれかの通信経路が信頼性を有していると判定されている場合は、他のサーバ装置に異常が発生していると判断する。そして、処理管理部13は、業務処理実行部19が業務処理を既に実行中である場合は、実行中にある処理を継続して実行させる。また、処理管理部13は、業務処理実行部19が業務処理を実行中でない場合は、業務処理実行部19に、他のサーバ装置で実行されている業務処理を代わりに実行させる。
 自動停止部15は、信号送信部11からのハートビート信号の送信が途絶えた場合に、サーバ装置10を停止させる。具体的には、自動停止部15は、サーバ装置10に予め実装されているウォッチドッグタイマによって実現されている。また、このような自動定部15が備えられているため、例えば、単にサーバ装置10がハングした場合であっても、サーバ装置10は停止されることになる。これは、サーバ装置10がハングした後に、サーバ装置20が、サーバ装置10に障害が発生したと判断して、サーバ装置10の処理を引き継いだにも係わらず、サーバ装置10がハング状態から復旧してしまうと、スプリットブレインシンドロームが発生してしまうからである。
 更に、サーバ装置20も、信号送信部21と、信頼性判定部22と、処理管理部23と、信号受信部24と、自動停止部25と、各通信経路に対応した通信インターフェイス16~18と、業務処理実行部29とを備えている。なお、サーバ装置10とサーバ装置20とは、同一の構成及び機能を備えているため、サーバ装置20の各部における説明は省略する。また、図1及び図2の例では、クラスタシステム100を構成するサーバ装置は2台のみであるが、本実施の形態において、サーバ装置の台数は特に限定されるものではない。
 [システム動作]
 次に、本発明の実施の形態におけるクラスタシステム100の動作について図3を用いて説明する。図3は、本発明の実施の形態におけるクラスタシステムを構成するサーバ装置の動作を示すフロー図である。
 また、以下の説明においては、適宜図2を参酌しながら、サーバ装置10を中心に説明する。更に、本実施の形態では、クラスタシステム100を動作させることによって、クラスタシステムの管理方法が実施される。よって、本実施の形態におけるクラスタシステムの管理方法の説明は、以下のクラスタシステムの動作説明に代える。
 まず、前提として、サーバ装置10において、信号送信部11は、設定された間隔で、通信インターフェイス16~18から、サーバ装置20に向けてハートビート信号を送信する。更に、サーバ装置10において、信頼性判定部12は、ハートビート信号の送信又は受信のタイミングと同期して、通信経路30~50が信頼性を有しているかどうかを判定する。
 また、同様に、サーバ装置20においても、信号送信部21は、設定された間隔で、通信インターフェイス26~28から、サーバ装置10に向けてハートビート信号を送信する。更に、サーバ装置20においても、信頼性判定部22は、ハートビート信号の送信又は受信のタイミングと同期して、通信経路30~50が信頼性を有しているかどうかを判定する。
 図3に示すように、サーバ装置10において、信号受信部14は、サーバ装置20からのハートビート信号の受信が、タイムアウトしていないかどうかを判定する(ステップA1)。
 ステップA1の判定の結果、タイムアウトしていない場合は、信号受信部14は、設定時間の経過後に、再度、ステップA1を実行する。一方、ステップA1の判定の結果、タイムアウトしている場合は、信号受信部14は、そのことを処理管理部13に通知する。
 次に、処理管理部13は、通知を受けると、通信経路30~50の中に、信頼性を有している通信経路が存在しているかどうかを判定する(ステップA2)。ステップA2の判定の結果、信頼性を有している通信経路が存在している場合は、処理管理部13は、業務処理実行部19が業務処理を実行中であるかどうかを判定する(ステップA3)。
 そして、処理管理部13は、ステップA3の判定の結果、業務処理が実行中である場合は、業務処理実行部19に、業務処理をそのまま継続させる(ステップA4)。反対に、ステップA3の判定の結果、業務処理が実行中でない場合は、処理管理部13は、業務処理実行部19にサーバ装置20で実行されている処理を引き継がせる(ステップA5)。
 また、ステップA2の判定の結果、信頼性を有している通信経路が存在していない場合も、処理管理部13は、業務処理実行部19が業務処理を実行中であるかどうかを判定する(ステップA6)。
 そして、ステップA6の判定の結果、業務処理が実行中でない場合は、サーバ装置10における処理は終了する。一方、ステップA6の判定の結果、業務処理が実行中である場合は、処理管理部13は、業務処理実行部19に、業務処理を停止させる(ステップA7)。
 以上のステップA1~A7は、サーバ装置10において、繰り返し実行される。また、サーバ装置20においても、ステップA1~A7と同様のステップが、繰り返し実行される。
 [具体例]
 ここで、図4を用いて具体例について説明する。図4は、本発明の実施の形態におけるクラスタシステムを構成する各サーバ装置での信頼性判定の結果を示す図である。
 例えば、図2に示すサーバ装置10及びサーバ装置20において、いずれの通信経路からもハートビート信号を受信できない事態が発生したとする。この場合、サーバ装置10では、信頼性判定部12は、通信経路30~50それぞれにおける現在の信頼性の有無を判定する。
 そして、判定の結果、図4に示すように、サーバ装置10では、通信経路30及び40において信頼性有りと判定されているとすると、サーバ装置10は、サーバ装置20に障害が発生していると判断する。これは、サーバ装置10側の視点では、信頼性を有する通信経路があるのに、サーバ装置20がハートビート信号を送信できないのは、サーバ装置20に問題があると考えられるからである。
 一方、サーバ装置20には、実際には、障害が発生しておらず、通信経路30~50のサーバ装置20側の部分に問題があって、ハートビート信号の送受信ができなかったとする。この場合、図4に示すように、サーバ装置20は、全ての通信経路30~50において、信頼性無しと判定するので、業務処理を実行している場合は、障害が発生していなくても、業務処理を停止する。この結果、スプリットブレインシンドロームの発生が回避される。
 また、サーバ装置20に障害が発生し、これにより、ハートビート信号が送信できなかった場合、サーバ装置20では、上述のステップA1~A7の処理は実行されないが、既に業務処理は停止されているので、スプリットブレインシンドロームが発生することはない。
 ところで、サーバ装置20が単にハングしたために、サーバ装置10にハートビート信号を送れない場合も、サーバ装置10は、サーバ装置20に障害が発生していると判断する。しかし、単なるハングであるため、暫くの後、サーバ装置20がハング状態から復旧して、スプリットブレインシンドロームが発生してしまう可能がある。このため、本実施の形態では、上述したように、サーバ装置10及び20には、自動停止部15が設けられており、このような事態の発生が回避される。
 [プログラム]
 本形態におけるプログラムは、コンピュータに、図3に示すステップA1~A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、クラスタシステム、サーバ装置、クラスタシステムの管理方法を実現することができる。この場合、サーバ装置10となるコンピュータのCPU(Central Processing Unit)は、信号送信部11、信頼性判定部12、処理管理部13、信号受信部14、及び自動停止部15として機能し、処理を行なう。また、サーバ装置20となるコンピュータのCPU(Central Processing Unit)は、信号送信部21、信頼性判定部22、処理管理部23、信号受信部24、及び自動停止部25として機能し、処理を行なう。
 [変形例]
 上述した例では、各サーバ装置において、信頼性判定部は、全ての通信経路について信頼性を判定しているが、本実施の形態は、この態様に限定される趣旨ではない。本実施の形態は、信頼性判定部が、一部の通信経路についてのみ、信頼性を有しているかどうかを判定する態様であっても良い。
 また、上述の例では、通信経路として、パブリックLAN、インターコネクトLAN、SCSI/FCによる通信経路が例示されているが、本実施の形態では、サーバ装置間を接続する通信経路の数及び種類は特に限定されるものではない。他の通信経路としては、BMC(Baseboard Management Controller)制御用のLAN、RS232Cポートを利用した通信経路、無線LANを利用した通信経路、USB端子を利用した通信経路等が挙げられる。
 [物理構成]
 ここで、本実施の形態におけるプログラムを実行することによって、サーバ装置を実現するコンピュータについて図5を用いて説明する。図5は、本発明の実施の形態におけるサーバ装置を実現するコンピュータの一例を示すブロック図である。
 図5に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
 上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記24)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
 通信経路によって接続された複数のサーバ装置を備え、
 前記複数のサーバ装置それぞれは、
 他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
 前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
 前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするクラスタシステム。
(付記2)
 前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記1に記載のクラスタシステム。
(付記3)
 前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
 各サーバ装置の処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記2に記載のクラスタシステム。
(付記4)
 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記3に記載のクラスタシステム。
(付記5)
 前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記4に記載のクラスタシステム。
(付記6)
 前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
付記1に記載のクラスタシステム。
(付記7)
 通信経路によって他のサーバ装置と接続されるサーバ装置であって、
 前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
 前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
 前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするサーバ装置。
(付記8)
 前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記7に記載のサーバ装置。
(付記9)
 2つ以上の通信経路によって前記他のサーバ装置と接続されており、
 前記処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記8に記載のサーバ装置。
(付記10)
 サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
付記9に記載のサーバ装置。
(付記11)
 前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記10に記載のサーバ装置。
(付記12)
 前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
付記7に記載のサーバ装置。
(付記13)
 通信経路によって接続された複数のサーバ装置を用い、
 前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とするクラスタシステムの管理方法。
(付記14)
 前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記13に記載のクラスタシステムの管理方法。
(付記15)
 前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
 前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記14に記載のクラスタシステムの管理方法。
(付記16)
 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記15に記載のクラスタシステムの管理方法。
(付記17)
 前記(b)のステップにおいて、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記16に記載のクラスタシステムの管理方法。
(付記18)
 前記複数のサーバ装置それぞれによって実行される、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
付記13に記載のクラスタシステムの管理方法。
(付記19)
 通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる命令を含む、プログラムを記憶しているコンピュータ読み取り可能な記録媒体。
(付記20)
 前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のコンピュータに異常が発生していると判断して、当該コンピュータで実行中にある処理を継続して実行し、又は、前記他のコンピュータが実行している処理を代わりに実行する、
付記19に記載のコンピュータ読み取り可能な記録媒体。
(付記21)
 前記コンピュータが、2つ以上の通信経路によって前記他のコンピュータと接続されており、
 前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のコンピュータに異常が発生していると判断する、付記20に記載のコンピュータ読み取り可能な記録媒体。
(付記22)
 前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
付記21に記載のコンピュータ読み取り可能な記録媒体。
(付記23)
 前記(b)のステップにおいて、
前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信・BR>叶ォを有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記22に記載のコンピュータ読み取り可能な記録媒体。
(付記24)
 前記プログラムが、前記コンピュータに、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを実行させる、命令を更に含む、
付記19に記載のコンピュータ読み取り可能な記録媒体。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年12月25日に出願された日本出願特願2013-267038を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上のように、本発明によれば、クラスタシステムにおいて処理内容が衝突してしまう事態の発生を回避することができる。本発明は、クラスタシステムの管理に有用である。
 10 サーバ装置
 11 信号送信部
 12 信頼性判定部
 13 処理管理部
 14 信号受信部
 15 自動停止部
 16、17、18 通信インターフェイス
 19 業務処理実行部
 20 サーバ装置
 21 信号送信部
 22 信頼性判定部
 23 処理管理部
 24 信号受信部
 25 自動停止部
 26、27、28 通信インターフェイス
 29 業務処理実行部
 30 通信経路
 31 ネットワーク
 32 ルーター
 40 通信経路
 50 通信経路
 51 記憶装置
 100 クラスタシステム
 110 コンピュータ
 111 CPU
 112 メインメモリ
 113 記憶装置
 114 入力インターフェイス
 115 表示コントローラ
 116 データリーダ/ライタ
 117 通信インターフェイス
 118 入力機器
 119 ディスプレイ装置
 120 記録媒体
 121 バス

Claims (24)

  1.  通信経路によって接続された複数のサーバ装置を備え、
     前記複数のサーバ装置それぞれは、
     他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
     前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
     前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
    を備えている、ことを特徴とするクラスタシステム。
  2.  前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
    請求項1に記載のクラスタシステム。
  3.  前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
     各サーバ装置の処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、請求項2に記載のクラスタシステム。
  4.  前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
    請求項3に記載のクラスタシステム。
  5.  前記信頼性判定部は、
    前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項4に記載のクラスタシステム。
  6.  前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
    請求項1~5のいずれかに記載のクラスタシステム。
  7.  通信経路によって他のサーバ装置と接続されるサーバ装置であって、
     前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
     前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
     前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
    を備えている、ことを特徴とするサーバ装置。
  8.  前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
    請求項7に記載のサーバ装置。
  9.  2つ以上の通信経路によって前記他のサーバ装置と接続されており、
     前記処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、請求項8に記載のサーバ装置。
  10.  サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
    請求項9に記載のサーバ装置。
  11.  前記信頼性判定部は、
    前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項10に記載のサーバ装置。
  12.  前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
    請求項7~11のいずれかに記載のサーバ装置。
  13.  通信経路によって接続された複数のサーバ装置を用い、
     前記複数のサーバ装置それぞれによって実行される、
    (a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
    (b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
    (c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
    を有する、ことを特徴とするクラスタシステムの管理方法。
  14.  前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
    請求項13に記載のクラスタシステムの管理方法。
  15.  前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
     前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、請求項14に記載のクラスタシステムの管理方法。
  16.  前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
    請求項15に記載のクラスタシステムの管理方法。
  17.  前記(b)のステップにおいて、
    前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項16に記載のクラスタシステムの管理方法。
  18.  前記複数のサーバ装置それぞれによって実行される、
    (d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
    請求項13~17のいずれかに記載のクラスタシステムの管理方法。
  19.  通信経路によって他のコンピュータと接続されるコンピュータに、
    (a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
    (b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
    (c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
    を実行させる命令を含む、プログラムを記憶しているコンピュータ読み取り可能な記録媒体。
  20.  前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のコンピュータに異常が発生していると判断して、当該コンピュータで実行中にある処理を継続して実行し、又は、前記他のコンピュータが実行している処理を代わりに実行する、
    請求項19に記載のコンピュータ読み取り可能な記録媒体。
  21.  前記コンピュータが、2つ以上の通信経路によって前記他のコンピュータと接続されており、
     前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のコンピュータに異常が発生していると判断する、請求項20に記載のコンピュータ読み取り可能な記録媒体。
  22.  前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
    請求項21に記載のコンピュータ読み取り可能な記録媒体。
  23.  前記(b)のステップにおいて、
    前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項22に記載のコンピュータ読み取り可能な記録媒体。
  24.  前記プログラムが、前記コンピュータに、
    (d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを実行させる、命令を更に含む、
    請求項19~23のいずれかに記載のコンピュータ読み取り可能な記録媒体。
PCT/JP2014/083085 2013-12-25 2014-12-15 クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 WO2015098589A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015554749A JP6183931B2 (ja) 2013-12-25 2014-12-15 クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。
CN201480070639.5A CN105849702A (zh) 2013-12-25 2014-12-15 集群系统,服务器设备,集群系统管理方法和计算机可读记录介质
US15/107,066 US10102088B2 (en) 2013-12-25 2014-12-15 Cluster system, server device, cluster system management method, and computer-readable recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-267038 2013-12-25
JP2013267038 2013-12-25

Publications (1)

Publication Number Publication Date
WO2015098589A1 true WO2015098589A1 (ja) 2015-07-02

Family

ID=53478453

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/083085 WO2015098589A1 (ja) 2013-12-25 2014-12-15 クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体

Country Status (4)

Country Link
US (1) US10102088B2 (ja)
JP (1) JP6183931B2 (ja)
CN (1) CN105849702A (ja)
WO (1) WO2015098589A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3226485A1 (en) 2016-04-01 2017-10-04 Yokogawa Electric Corporation Redundancy device, redundancy system, and redundancy method
EP3240241A1 (en) 2016-04-28 2017-11-01 Yokogawa Electric Corporation Service providing device, alternative service providing device, relaying device, service providing system, and service providing method
EP3300305A1 (en) 2016-09-26 2018-03-28 Yokogawa Electric Corporation Processing device, control method of processing device, and recording medium
JP2021120827A (ja) * 2020-01-31 2021-08-19 株式会社日立製作所 制御システム、制御方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452952B (zh) * 2016-09-29 2019-11-22 华为技术有限公司 一种检测集群系统通信状态的方法及网关集群
CN110377487A (zh) * 2019-07-11 2019-10-25 无锡华云数据技术服务有限公司 一种处理高可用集群脑裂的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08171507A (ja) * 1994-12-16 1996-07-02 Mitsubishi Electric Corp 異常監視方法
US6785840B1 (en) * 1999-08-31 2004-08-31 Nortel Networks Limited Call processor system and methods
JP2005073277A (ja) * 2003-08-27 2005-03-17 Internatl Business Mach Corp <Ibm> クラスタにおける信頼性の高い障害解決
JP2012168623A (ja) * 2011-02-10 2012-09-06 Nec Corp 待機系計算機、クラスタシステム、サービス提供方法およびプログラム
JP2013250918A (ja) * 2012-06-04 2013-12-12 Hitachi Ltd 複数計算機が独立動作する制御システム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785678B2 (en) * 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
JP4102060B2 (ja) 2001-12-06 2008-06-18 三菱電機株式会社 データ受信装置
US7076687B2 (en) * 2002-10-16 2006-07-11 Hitachi, Ltd. System and method for bi-directional failure detection of a site in a clustering system
JP2004302512A (ja) * 2003-03-28 2004-10-28 Hitachi Ltd クラスタコンピューティングシステム、および、そのフェールオーバー方法
US8543781B2 (en) * 2004-02-06 2013-09-24 Vmware, Inc. Hybrid locking using network and on-disk based schemes
US7590737B1 (en) * 2004-07-16 2009-09-15 Symantec Operating Corporation System and method for customized I/O fencing for preventing data corruption in computer system clusters
US7739677B1 (en) * 2005-05-27 2010-06-15 Symantec Operating Corporation System and method to prevent data corruption due to split brain in shared data clusters
JP2008172592A (ja) 2007-01-12 2008-07-24 Hitachi Ltd クラスタシステム、コンピュータおよびその異常検出方法
US8498967B1 (en) * 2007-01-30 2013-07-30 American Megatrends, Inc. Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome
CN101291243B (zh) * 2007-04-16 2012-10-10 广东新支点技术服务有限公司 高可用集群系统的裂脑预防方法
US8001413B2 (en) * 2008-05-05 2011-08-16 Microsoft Corporation Managing cluster split-brain in datacenter service site failover
CN101582787B (zh) * 2008-05-16 2011-12-07 中兴通讯股份有限公司 一种双机备份系统及备份方法
US8671218B2 (en) * 2009-06-16 2014-03-11 Oracle America, Inc. Method and system for a weak membership tie-break
CN101674331B (zh) * 2009-10-21 2012-11-07 成都市华为赛门铁克科技有限公司 集群存储系统及其脑裂处理方法
US8108715B1 (en) * 2010-07-02 2012-01-31 Symantec Corporation Systems and methods for resolving split-brain scenarios in computer clusters
US8806264B2 (en) * 2010-08-30 2014-08-12 Oracle International Corporation Methods for detecting split brain in a distributed system
US8560628B2 (en) * 2011-01-11 2013-10-15 International Business Machines Corporation Supporting autonomous live partition mobility during a cluster split-brained condition
JP2012173996A (ja) * 2011-02-22 2012-09-10 Nec Corp クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム
CN102457400B (zh) 2011-06-09 2014-11-05 中标软件有限公司 一种防止磁盘镜像资源发生脑裂的方法
CN102394914A (zh) 2011-09-22 2012-03-28 浪潮(北京)电子信息产业有限公司 集群脑裂处理方法和装置
CN102799394B (zh) * 2012-06-29 2015-02-25 华为技术有限公司 一种实现高可用集群的心跳服务的方法及装置
CN102932118B (zh) 2012-11-05 2015-11-25 中国铁道科学研究院 一种双机主备裁决的方法及系统
CN103051470B (zh) 2012-11-29 2015-10-07 中标软件有限公司 一种集群及其磁盘心跳的控制方法
CN103209095B (zh) * 2013-03-13 2017-05-17 广东中兴新支点技术有限公司 一种基于磁盘服务锁的裂脑预防的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08171507A (ja) * 1994-12-16 1996-07-02 Mitsubishi Electric Corp 異常監視方法
US6785840B1 (en) * 1999-08-31 2004-08-31 Nortel Networks Limited Call processor system and methods
JP2005073277A (ja) * 2003-08-27 2005-03-17 Internatl Business Mach Corp <Ibm> クラスタにおける信頼性の高い障害解決
JP2012168623A (ja) * 2011-02-10 2012-09-06 Nec Corp 待機系計算機、クラスタシステム、サービス提供方法およびプログラム
JP2013250918A (ja) * 2012-06-04 2013-12-12 Hitachi Ltd 複数計算機が独立動作する制御システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAYAMI AKIYAMA ET AL., VMWARE TETTEI NYUMON, 12 November 2008 (2008-11-12), pages 280 - 283 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3226485A1 (en) 2016-04-01 2017-10-04 Yokogawa Electric Corporation Redundancy device, redundancy system, and redundancy method
JP2017187868A (ja) * 2016-04-01 2017-10-12 横河電機株式会社 冗長化装置、冗長化システム、及び冗長化方法
US10339018B2 (en) 2016-04-01 2019-07-02 Yokogawa Electric Corporation Redundancy device, redundancy system, and redundancy method
EP3240241A1 (en) 2016-04-28 2017-11-01 Yokogawa Electric Corporation Service providing device, alternative service providing device, relaying device, service providing system, and service providing method
US10812359B2 (en) 2016-04-28 2020-10-20 Yokogawa Electric Corporation Service providing device, alternative service providing device, relaying device, service providing system, and service providing method
EP3300305A1 (en) 2016-09-26 2018-03-28 Yokogawa Electric Corporation Processing device, control method of processing device, and recording medium
US10534352B2 (en) 2016-09-26 2020-01-14 Yokogawa Electric Corporation Processing device, network device, control method of processing device, control method of network device, and recording medium
JP2021120827A (ja) * 2020-01-31 2021-08-19 株式会社日立製作所 制御システム、制御方法
JP7328907B2 (ja) 2020-01-31 2023-08-17 株式会社日立製作所 制御システム、制御方法

Also Published As

Publication number Publication date
US20170039118A1 (en) 2017-02-09
JP6183931B2 (ja) 2017-08-23
CN105849702A (zh) 2016-08-10
US10102088B2 (en) 2018-10-16
JPWO2015098589A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6183931B2 (ja) クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。
JP5872731B2 (ja) クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム
US10715411B1 (en) Altering networking switch priority responsive to compute node fitness
US10693813B1 (en) Enabling and disabling links of a networking switch responsive to compute node fitness
US11265266B2 (en) Computer-readable recording medium recording port switching program and port switching method
US6658595B1 (en) Method and system for asymmetrically maintaining system operability
US7937610B2 (en) Fast node failure detection via disk based last gasp mechanism
US20120297107A1 (en) Storage controller system with data synchronization and method of operation thereof
JP5112138B2 (ja) セッション管理方法、ストレージ装置、及び、計算機システム
JP6134720B2 (ja) 接続方法
JP2015070522A (ja) 情報処理装置、情報処理システム、及びプログラム
JP5488693B2 (ja) マルチクラスタシステム
JP2011253285A (ja) 診断システム、診断装置及び診断プログラム
JPWO2018131550A1 (ja) コネクション管理ユニット、およびコネクション管理方法
JP2012133622A (ja) 計算機切替システム、計算機切替プログラム、および計算機切替方法
JP5433219B2 (ja) クラスタシステム
US10855610B2 (en) Information processing apparatus, information processing system, information processing method, and storage medium
JP5170000B2 (ja) 冗長化ペア検出方法、通信装置、冗長化ペア検出プログラム、記録媒体
WO2016117008A1 (ja) ストレージシステム、計算機システム、及び障害箇所推定方法
CN117806898A (zh) 进程监控方法、装置及设备
JP2011048577A (ja) 障害監視システム
JP2000010823A (ja) 計算機及び計算機システム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010004449A (ja) 通信システム及びクライアント装置及びサーバ装置
KR20150077350A (ko) 클러스터 시스템에서 클러스터를 처리하기 위한 방법과 장치 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14874235

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015554749

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15107066

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14874235

Country of ref document: EP

Kind code of ref document: A1