WO2013145325A1 - 情報処理システム、障害検知方法および情報処理装置 - Google Patents

情報処理システム、障害検知方法および情報処理装置 Download PDF

Info

Publication number
WO2013145325A1
WO2013145325A1 PCT/JP2012/058754 JP2012058754W WO2013145325A1 WO 2013145325 A1 WO2013145325 A1 WO 2013145325A1 JP 2012058754 W JP2012058754 W JP 2012058754W WO 2013145325 A1 WO2013145325 A1 WO 2013145325A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
nic
beat
processing apparatus
notification
Prior art date
Application number
PCT/JP2012/058754
Other languages
English (en)
French (fr)
Inventor
琳 宋
一滋 黒川
康之 福場
栄子 中川
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2014507300A priority Critical patent/JP5858144B2/ja
Priority to PCT/JP2012/058754 priority patent/WO2013145325A1/ja
Publication of WO2013145325A1 publication Critical patent/WO2013145325A1/ja
Priority to US14/499,607 priority patent/US20150019671A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports

Definitions

  • the present invention relates to an information processing system, a failure detection method, and an information processing apparatus.
  • Hadoop is known as open source software that efficiently distributes large-scale data.
  • Hadoop is composed of many elements, but mainly known is a distributed file system HDFS (Hadoop Distributed File System) and Hadoop MapReduce that executes distributed processing of large-scale data.
  • HDFS Hadoop Distributed File System
  • MapReduce Hadoop MapReduce
  • a system using Hadoop has a “master server” that manages the entire system and a plurality of “slave servers” that execute parallel processing.
  • the master server uses heartbeats to monitor the survival status of slave servers. For example, each slave server transmits a heartbeat every 3 seconds to the master server. When the master server cannot receive the heartbeat from the slave server for 10 minutes, the master server determines that the slave server has failed and disconnects the slave server from the system. In this way, the slave server enters the recovery mode.
  • the master server when a new slave server is added to the system, the master server sends a command to the new slave server to execute the incorporation work into the system.
  • the master server periodically receives heartbeats from the new slave server, the master server recognizes that the new slave server has been normally incorporated into the system.
  • a system using Hadoop performs failure monitoring and management of a slave server by heartbeat.
  • the survival status of a slave server as a monitored device is monitored, and the survival status or status change of the monitored device is responded to the client terminal in response to a request from the client terminal.
  • the technology to do is known. Also known is a device device that detects a software failure of a server device used as a slave server by itself and disconnects from other devices.
  • the master server cannot receive the heartbeat from the slave server, there are two possible causes.
  • the first is a case where the slave server itself fails and does not transmit a heartbeat.
  • the second case is a case where the slave server transmits a heartbeat, but a heartbeat does not reach the master server because a failure has occurred in the network connecting the slave server and the master server.
  • the master server since the master server performs failure monitoring depending on whether or not a heartbeat has been received from a slave server, it cannot be determined for which reason the heartbeat cannot be received. Also, the master server cannot analyze the failure when it cannot receive the heartbeat. Further, when the master server cannot receive the heartbeat, the master server determines that a failure has occurred in the slave server, and disconnects the slave server from the system. For this reason, even when there is a failure in the network, the recovery work is performed on the slave server, and a wasteful work is also performed.
  • An object of one aspect of the present invention is to provide an information processing system, a failure detection method, and an information processing apparatus that can identify a location where a failure has occurred.
  • the first proposal is an information processing system including a first information processing apparatus and a second information processing apparatus that monitors the first information processing apparatus.
  • the first information processing apparatus includes a first input / output device and a processor on which an operating system operates.
  • the first information processing apparatus can communicate with the second information processing apparatus, and transmits from the first input / output apparatus even when notification from the operating system cannot be obtained.
  • a first input / output unit configured to transmit a notification signal to the second information processing apparatus; In the second information processing apparatus, when the second input / output device and the second input / output device do not receive the notification signal from the first input / output device, there is a failure in the network. And a failure detection unit that detects occurrence.
  • FIG. 1 is a diagram illustrating an example of the overall configuration of a system according to the first embodiment.
  • FIG. 2 is a diagram for explaining the flow of a NIC beat.
  • FIG. 3 is a diagram illustrating a hardware configuration example.
  • FIG. 4 is a functional block diagram showing the configuration of the slave server.
  • FIG. 5 is a diagram illustrating a data configuration example of the heartbeat.
  • FIG. 6 is a diagram illustrating an example of information managed by the state management unit.
  • FIG. 7 is a diagram illustrating a data structure example of a NIC beat.
  • FIG. 8 is a functional block diagram showing the configuration of the master server.
  • FIG. 9 is a diagram illustrating an example of information managed by the slave server management unit.
  • FIG. 10 is a diagram illustrating a normal sequence.
  • FIG. 10 is a diagram illustrating a normal sequence.
  • FIG. 11 is a diagram illustrating a sequence when the OS is abnormal.
  • FIG. 12 is a diagram illustrating a sequence during power saving transition.
  • FIG. 13 is a diagram illustrating a sequence when the network is abnormal.
  • FIG. 14 is a flowchart showing the flow of NIC beat transmission processing executed by the slave server.
  • FIG. 15 is a flowchart showing the flow of NIC beat reception processing executed by the master server.
  • FIG. 16 is a flowchart showing the flow of the state monitoring process executed by the master server.
  • FIG. 1 is a diagram illustrating an example of the overall configuration of a system according to the first embodiment.
  • a master server 50 and a plurality of racks 5 have L2 switches (layer 2 switches) and are connected to each other via a network.
  • This system is a distributed processing system using Hadoop.
  • the master server 50 is a server device that manages the plurality of racks 5 and the slave servers 10 mounted in the racks 5.
  • the master server 50 is a name server of HDFS (Hadoop Distributed File System), a job tracker of MapReduce, or the like.
  • the L2 switch 2 is a relay device that connects the L2 switch 6 and the slave server 10 housed in each rack 5 to the master server 50.
  • the L2 switch 2 may be an L3 switch or a router.
  • the rack 5 is a device that stores electronic devices installed in a data center or the like.
  • the rack 5 houses one or more slave servers 10 and the L2 switch 6.
  • the L2 switch 6 is a relay device that relays communication between each slave server 10 and the L2 switch 2.
  • the L2 switch 6 may be an L3 switch or a router.
  • the slave server 10 is a server that executes distributed processing.
  • the slave server 10 is an HDFS data node, a MapReduce task tracker, or the like.
  • each slave server 5 has a network card. If the network card is operating normally, the network card transmits a notification signal for notifying that the network is operating normally, regardless of whether the host OS is active or not.
  • a notification signal is referred to as a NIC (Network Interface Card) beat.
  • the network card of each slave server 10 transmits the generated NIC beat to the master server 50.
  • the master server 50 detects that a failure has occurred in the network when the NIC beat is not received from the network card of each slave server 10. In general, the possibility that a failure occurs in the network card is higher than the occurrence of a failure in the host OS.
  • the status of the upper OS such as whether the upper OS is operating normally, may be detected from a heartbeat from the upper OS, and the detected upper status information may be included in the heartbeat. Thereby, although there is no network failure, it is possible to notify that a failure has occurred in the upper OS.
  • FIG. 2 is a diagram for explaining the flow of a NIC beat.
  • a heartbeat which is life / death notification information indicating that the OS (Operating System) is operating normally.
  • This heartbeat is sent to the NIC via the driver.
  • the NIC beat device in the NIC generates a NIC beat separately from the received heart beat and transmits it to the master server 50 via a LAN (Local Area Network) port.
  • This NIC beat is received by the L2 switch 2 and relayed to the master server 50.
  • the NIC beat device executed in the NIC of the master server 50 receives the NIC beat transmitted from each slave server 5 via the L2 switch 2. Then, the NIC beat device performs NIC beat analysis. Thereafter, the NIC beat device extracts the heartbeat from the NIC beat and sends it to Hadoop via the driver.
  • the NIC beat device of each slave server 10 notifies the master server 50 of the NIC beat generated separately from the heartbeat of the OS, and the master server 50 transmits the NIC beat from the NIC beat device of each slave server 10.
  • the NIC beat device of each slave server 10 transmits the content of occurrence of the heartbeat in the NIC beat when the heartbeat occurs, and the heartbeat does not occur when the heartbeat does not occur. Is included in the NIC beat and transmitted.
  • the master server 50 can receive the NIC beat, it can determine that at least a failure has not occurred in the network. Therefore, the master server 50 can perform fault isolation.
  • FIG. 3 is a diagram illustrating a hardware configuration example.
  • the server 100 includes a CPU (Central Processing Unit) 101, a memory 102, a hard disk 103, and a NIC 104.
  • the hardware shown here is merely an example, and the present invention is not limited to this.
  • the CPU 101 is a processing unit that controls the processing of the entire server 100. For example, the CPU 101 executes Hadoop and a driver. This Hadoop generates a heartbeat and sends it to the NIC.
  • the memory 102 is a storage device that stores a program executed by the CPU 101 and data used by each program.
  • the hard disk 103 is a storage device that stores data, tables, databases, and the like to be distributed.
  • the NIC 104 includes a flash ROM (Read Only Memory) 104a and a controller 104b, and executes generation, transmission, reception, and the like of NIC beats. A current is supplied to the NIC 104 separately from the CPU 101. That is, even when the power supply of the CPU 101 is interrupted, the power is supplied to the NIC 104.
  • flash ROM Read Only Memory
  • the flash ROM 104a holds an electronic circuit or the like that performs the same function as a processing unit shown in FIGS. That is, the flash ROM 104a performs the same function as the NIC beat device of the slave server 10 or the NIC beat device of the master server 50.
  • the controller 104b executes data transmission from the NIC 104 to other devices and reception of data transmitted from other devices. For example, the controller 104b performs transmission and reception of NIC beats.
  • the flash ROM 104a stores a program that executes the same function as the processing unit shown in FIGS. 4 and 8, and the controller 104b reads out and executes the program so that the processing unit shown in FIG. 4 and FIG. The same function may be executed.
  • FIG. 4 is a functional block diagram showing the configuration of the slave server. As illustrated in FIG. 4, the slave server 10 includes a Hadoop 11, a power saving processing daemon 12, an OS 13, a driver 14, and a NIC 15.
  • the slave server 10 includes a Hadoop 11, a power saving processing daemon 12, an OS 13, a driver 14, and a NIC 15.
  • Hadoop 11 is open source software that efficiently distributes large-scale data, and is executed by the OS 13.
  • the Hadoop 11 performs normal monitoring in the slave server 10. For example, Hadoop 11 generates a heartbeat once every 3 seconds and sends it to the NIC 15.
  • FIG. 5 is a diagram illustrating a data configuration example of the heartbeat.
  • the heartbeat includes, for example, “status” data, “restarted” data, “initial Contact” data, “acceptNewTasks” data, and “responseId” data.
  • “Status” data includes the task name, host identifier, http (hypertext transfer protocol) request processing port number, detailed information on the task being executed, the number of failed tasks, the maximum number of map tasks being executed, the maximum number of currently being executed It consists of the number of Reduce tasks.
  • “restarted” data “1” is set during process execution, and “0” is set in other cases.
  • “initial Contact” data “1” is set for the first communication after the refresh, and “0” is set in the other cases.
  • “acceptNewTasks” data “1” is set when a new task can be executed, and “0” is set when a new task cannot be executed.
  • the “responseId” data is the ID number of the last successful response.
  • the power saving processing daemon 12 is a processing unit that shifts the slave server 10 to the power saving mode or restores the slave server 10 from the power saving mode.
  • the power saving processing daemon 12 is executed by the OS 13.
  • the power saving processing daemon 12 when the power saving processing daemon 12 detects that there are no jobs or tasks to be executed by the slave server 10, the power saving processing daemon 12 turns off the power supply other than the NIC 15.
  • the power-off means that the power is adjusted to a minimum amount of power that can generate a job or a task, instead of shutting off all power.
  • the power saving processing daemon 12 shifts the power state from the power saving mode to the normal mode when detecting that a job or task has occurred in the slave server 10 or receiving a return instruction from the master server 50. .
  • the OS 13 is a processing unit for managing hard disks and memory and executing applications.
  • the OS 13 executes Hadoop 11, a power saving processing daemon 12, and a driver 14. Further, the OS 13 manages the generation of jobs and tasks with a minimum amount of power in the power saving mode.
  • the driver 14 is a processing unit that controls devices mounted inside the slave server 10 and devices connected to the outside. Specifically, the driver 14 controls communication between the OS 13 and applications and the NIC 15. For example, the driver 14 receives the heartbeat sent from the Hadoop 11 from the OS 13 and sends it to the NIC 15. Further, the driver 14 receives the error notification sent from the NIC 15 and sends it to the Hadoop 11 via the OS 13. The driver 14 is executed by the OS 13. The driver 14 may be built in the OS 13.
  • the NIC 15 includes a controller 16 and a NIC beat device 17 and controls generation and transmission of a NIC beat. In addition to the NIC beat, the NIC 15 transmits and receives data and messages generated in the distributed processing system.
  • the controller 16 includes a transmission processing unit 16a and a reception processing unit 16b, and is a processing unit that transmits and receives various data to and from other slave servers and the master server 50 via a network.
  • the transmission processing unit 16a is a processing unit that transmits each data. For example, the transmission processing unit 16 a transmits the NIC beat sent from the NIC beat device 17 to the master server 50. Further, the transmission processing unit 16a transmits various data and messages transmitted from the Hadoop 11 to the destination server.
  • the reception processing unit 16b is a processing unit that receives each data. For example, the reception processing unit 16b receives various data and messages from other slave servers and sends them to the Hadoop 11. In addition, the reception processing unit 16 b receives a return instruction from the power saving mode from the master server 50 and sends it to the power saving processing daemon 12.
  • the NIC beat device 17 includes a heart beat determination unit 17a, a power saving mode processing unit 17b, a state management unit 17c, a NIC beat generation unit 17d, and a NIC beat transmission unit 17e, which generate and transmit NIC beats.
  • the NIC beat device 17 is separated in power supply from other processing units, and is supplied with power even when power supply to the other processing units is interrupted.
  • the heartbeat determination unit 17a is a processing unit that notifies the state management unit 17c of the determination result of determining whether or not the heartbeat has been received and the content of the heartbeat. Specifically, the heartbeat determination unit 17a identifies the job execution status, the state of the OS 13, the heartbeat transmission interval, and the like from the heartbeat and notifies the state management unit 17c. For example, the heartbeat determination unit 17a indicates that the OS 13 is abnormal when the “number of failed tasks” in the received heartbeat is “1” or more or “acceptNewTasks” is “0”. The failure notification information is notified to the state management unit 17c.
  • the heartbeat determination unit 17a notifies the state management unit 17c of failure notification information indicating that the OS 13 is abnormal. More specifically, the heartbeat determination unit 17a manages the failure notification information indicating that the OS 13 is abnormal when the heartbeat cannot be received at the timing of once every 3 seconds or when the heartbeat itself cannot be received. Notification to the unit 17c. At this time, if the slave server 10 is in the power saving mode, the heartbeat determination unit 17a determines that it is normal without determining that it is abnormal. The heart beat determination unit 17a sends the received heart beat itself to the NIC beat generation unit 17d.
  • the power saving mode processing unit 17b is a processing unit that notifies the state management unit 17c of the transition status information to the power saving mode. For example, when the slave server 10 shifts to the power saving mode by the power saving processing daemon 12, the power saving mode processing unit 17b notifies the state management unit 17c of the transfer notification information. The power saving mode processing unit 17b notifies the state management unit 17c of the release notification information when the slave server 10 shifts from the power saving mode to the normal mode by the power saving processing daemon 12. Further, when the power saving mode processing unit 17b receives the instruction information for shifting to the power saving mode or the instruction for shifting to the normal mode from the master server 50, the power saving mode processing unit 17b sends the instruction information to the power saving processing daemon 12.
  • the state management unit 17 c is a processing unit that manages the state of the slave server 10. Specifically, the state management unit 17c is a processing unit that manages the determination result information notified from the heartbeat determination unit 17a and the transition status information notified from the power saving mode processing unit 17b.
  • FIG. 6 is a diagram illustrating an example of information managed by the state management unit. As illustrated in FIG. 6, the state management unit 17 c manages “heartbeat transmission time”, “OS abnormality detection flag”, “power saving mode”, and “NIC beat transmission time”.
  • Heartbeat transmission time” managed here indicates the time when the heartbeat is transmitted from Hadoop11.
  • the “OS abnormality detection flag” indicates whether or not there is an abnormality in the OS 13, and 1 is set when there is an abnormality, and 0 is set when there is no abnormality.
  • Power saving mode indicates whether or not the slave server 10 is in the power saving mode, and is set to 1 if the slave server 10 is in the power saving mode and set to 0 if the mode is the normal mode.
  • NIC beat transmission time indicates the time at which the NIC beat transmission unit 17e transmits a NIC beat.
  • the state management unit 17c when the state management unit 17c receives a heartbeat reception time from the heartbeat determination unit 17a, the state management unit 17c stores the time in the “heartbeat transmission time”. In addition, the state management unit 17c sets the OS abnormality detection flag to 1 when notified from the heartbeat determination unit 17a that the OS is abnormal. Similarly, the state management unit 17c sets the power saving mode to 1 when the transition notification information is notified from the power saving mode processing unit 17b, and the release notification information is notified from the power saving mode processing unit 17b. The power saving mode is set to 0. Further, the state management unit 17c stores the time at which the NIC beat transmission unit 17e transmits the NIC beat in “NIC beat transmission time”.
  • the NIC beat generation unit 17d is a processing unit that generates a NIC beat. Specifically, the NIC beat generation unit 17d generates a NIC beat from the OS status managed by the state management unit 17c and the heartbeat input from the heartbeat determination unit 17a at an interval of once per minute. To the NIC beat transmitter 17e.
  • FIG. 7 is a diagram illustrating a data structure example of a NIC beat. As shown in FIG. 7, the NIC beat is composed of a “heart beat”, an “OS status bit”, a “WOL (Wake-on-LAN) function bit”, and an “OS abnormal bit”.
  • “Heartbeat” is the content of the heartbeat described in FIG.
  • the “OS status bit” indicates whether or not the job is being executed. If the OS is executing the job, that is, “1” is set in the normal mode, and the OS is not executing the job. That is, “0” is set in the power saving mode.
  • the “WOL function bit” indicates whether or not the WOL function is valid, and is set to “1” when operating in the power saving mode, and “0” when operating in the normal mode. Is set.
  • the “OS abnormality bit” indicates whether or not an abnormality has occurred in the OS. When the abnormality has occurred in the OS, “1” is set, and when the OS is normal, “0” is set. Is set.
  • the NIC beat generation unit 17d refers to the state management unit 17c at a timing of once per minute. Then, if the “OS abnormality detection flag” of the state management unit 17c is “1”, the NIC beat generation unit 17d determines that an abnormality has occurred in the OS, and sets the “OS abnormality bit” to “ Set to “1”. Further, the NIC beat generation unit 17d sets the “OS state bit” to “0” and the “WOL function bit” to “1” when the “power saving mode” of the state management unit 17c is “1”. To "". Thereafter, the NIC beat generation unit 17d generates a NIC beat with the bit information added to the latest heart beat transmitted from the heart beat determination unit 17a, and transmits the NIC beat to the NIC beat transmission unit 17e.
  • the NIC beat transmission unit 17 e is a processing unit that transmits a NIC beat to the master server 50. Specifically, the NIC beat transmission unit 17e transmits the NIC beat transmitted from the NIC beat generation unit 17d to the transmission processing unit 16a. Then, the NIC beat transmission unit 17e notifies the state management unit 17c of the time when the NIC beat is transmitted.
  • FIG. 8 is a functional block diagram showing the configuration of the master server.
  • the master server 50 includes a Hadoop 51, a state monitoring daemon 52, an OS 53, a driver 54, and a NIC 55.
  • Hadoop 51 is open source software that efficiently distributes large-scale data, and is executed by the OS 53.
  • the Hadoop 51 monitors the survival state of the slave server 10 based on the contents of the heartbeat and the notification from the state monitoring daemon 52. When it is determined that the slave server 10 has an abnormality, the Hadoop 51 disconnects the slave server 10 from the network. If the Hadoop 51 determines that there is an abnormality in the network, the Hadoop 51 notifies the administrator or the like of the abnormality. For example, when the “number of failed tasks” of the “status” of the received heartbeat is described, the Hadoop 51 requests the corresponding slave server 10 to re-execute the task, Notification of abnormalities.
  • the state monitoring daemon 52 is a processing unit that monitors the state of the slave server 10 based on the NIC beat, and is executed by the OS 53. Specifically, the state monitoring daemon 52 refers to the information managed by the slave server management unit 57b, and notifies the Hadoop 51 of the failure content information when the abnormality of the slave server 10 or the abnormality of the network is detected. As a notification method, a message may be transmitted or a log may be output.
  • the state monitoring daemon 52 detects the slave server 10 whose OS abnormality notification flag managed by the slave server management unit 57b is 1 (ON)
  • the state monitoring daemon 52 informs the Hadoop 51 that the OS 53 of the slave server 10 is abnormal.
  • the status monitoring daemon 52 detects the slave server 10 managed by the slave server management unit 57b and whose power saving mode is 1 (ON)
  • the state monitoring daemon 52 indicates that the slave server 10 is operating in the power saving mode.
  • the status monitoring daemon 52 detects the slave server 10 that cannot receive the NIC beats at intervals of 1 minute based on the NIC beat reception time managed by the slave server management unit 57b, there is an abnormality in the network.
  • To Hadoop51 when the state monitoring daemon 52 detects the slave server 10 whose OS abnormality notification flag managed by the slave server management unit 57b is 1 (ON), the state monitoring daemon 52 informs the Hadoop 51 that the OS 53 of the slave server 10 is abnormal.
  • the OS 53 is a processing unit that manages hard disks and memories and executes applications.
  • the OS 53 executes a Hadoop 51, a state monitoring daemon 52, and a driver 54.
  • the driver 54 is a processing unit that controls devices mounted inside the master server 50 and devices connected to the outside. Specifically, the driver 54 controls communication between the OS 53 and the application and the NIC 55. For example, the driver 54 sends the heartbeat sent from the NIC beat device 57 to the Hadoop 51.
  • the driver 54 may be built in the OS 53.
  • the NIC 55 includes a controller 56 and a NIC beat device 57, and controls NIC beat reception, heart beat extraction, and the like. In addition to the NIC beat, the NIC 55 transmits and receives data and messages generated in the distributed processing system.
  • the controller 56 includes a transmission processing unit 56a and a reception processing unit 56b, and is a processing unit that transmits and receives various data to and from each slave server 10 via a network.
  • the transmission processing unit 56a is a processing unit that transmits each data.
  • the transmission processing unit 56a transmits an instruction to return from the power saving mode, data and messages generated in the distributed processing system, to each slave server 10.
  • the reception processing unit 56b is a processing unit that receives each data.
  • the reception processing unit 56b receives a NIC beat from each slave server 10 and sends it to the NIC beat receiving unit 57a.
  • the NIC beat device 57 includes a NIC beat receiving unit 57a, a slave server management unit 57b, and a notification unit 57c, and is a processing unit that manages the state of each slave server 10 by these.
  • the NIC beat device 57 has power supply separated from other processing units, and power is supplied even when power supply to other processing units is interrupted.
  • the NIC beat receiving unit 57a is a processing unit that receives the NIC beat transmitted from each slave server 10 and extracts information. Specifically, the NIC beat receiving unit 57a extracts a heartbeat from the NIC beat received by the reception processing unit 56b and sends it to the notification unit 57c. Further, the NIC beat receiving unit 57a updates information managed by the slave server managing unit 57b based on the OS abnormality detection flag, the power saving mode, the slave server name, and the like included in the received NIC beat.
  • the NIC beat receiving unit 57a extracts the slave server name from the NIC beat or heartbeat, and identifies the corresponding record in the slave server managing unit 57b. If there is no corresponding record, the NIC beat receiving unit 57a generates a new record in the slave server management unit 57b.
  • the NIC beat receiving unit 57a notifies the slave server managing unit 57b of the time when the NIC beat is received. If the “OS abnormality detection flag” in the NIC beat is “1”, the NIC beat receiving unit 57a notifies the slave server management unit 57b that the OS 53 of the slave server 10 is abnormal. On the other hand, if the “OS abnormality detection flag” in the NIC beat is “0”, the NIC beat reception unit 57a notifies the slave server management unit 57b that the OS 53 of the slave server 10 is normal. Similarly, if the “power saving mode” in the NIC beat is “1”, the NIC beat receiving unit 57a notifies the slave server managing unit 57b that the slave server 10 is operating in the power saving mode. . If the “power saving mode” in the NIC beat is “0”, the NIC beat reception unit 57a notifies the slave server management unit 57b that the slave server 10 is operating in the normal mode.
  • the slave server management unit 57 b is a processing unit that manages the state of each slave server 10. Specifically, the slave server management unit 57b generates and manages information indicating the state of the slave server 10 based on various information notified from the NIC beat reception unit 57a.
  • FIG. 9 is a diagram illustrating an example of information managed by the slave server management unit.
  • the slave server management unit 57b manages “slave server name”, “NIC beat reception time”, “OS abnormality notification flag”, and “power saving mode”.
  • the “slave server name” managed here is information for identifying the slave server 10, and for example, a host name or the like is set.
  • “NIC beat reception time” indicates a time at which a NIC beat is received.
  • the “OS abnormality notification flag” is information indicating whether or not the OS of the slave server is abnormal. When there is an abnormality, 1 is set, and when there is no abnormality, 0 is set.
  • the “power saving mode” is information indicating whether or not the operation mode of the slave server 10 is the power saving mode, and is set to 1 if the operation mode is the power saving mode, and is set to 0 if the operation mode is the normal mode. .
  • the slave server management unit 57b stores the slave server name and the reception time notified from the NIC beat reception unit 57a in a slave server name storage unit and a NIC beat reception time storage unit (not shown), respectively. Further, when the NIC beat receiving unit 57a is notified that the OS 53 is abnormal, the slave server managing unit 57b sets the OS abnormality notification flag of the corresponding slave server name to 1. On the other hand, when the NIC server 57b notifies the OS beat 53 that the OS 53 is normal, the slave server manager 57b sets the OS abnormality notification flag of the corresponding slave server name to 0.
  • the slave server management unit 57b sets the power saving mode of the corresponding slave server name to 1.
  • the slave server management unit 57b sets the power saving mode of the corresponding slave server name to 0.
  • the notification unit 57c receives the heartbeat included in the NIC beat received from the slave server 10 from the NIC beat reception unit 57a. Then, the notification unit 57 c sends the received heartbeat to the Hadoop 51 via the driver 54 and the OS 53.
  • the heartbeat transmitted here has the data structure shown in FIG. 5, for example.
  • FIG. 10 is a diagram illustrating a normal sequence.
  • the Hadoop 11 of the slave server 10 transmits a heartbeat every 3 seconds to the NIC beat device 17 via the OS 13 and the driver 14 (S101 and S102). Then, the heart beat determination unit 17a of the NIC beat device 17 receives the heart beat every 3 seconds and updates the state management unit 17c (S103).
  • the NIC beat generation unit 17d generates a NIC beat indicating that the slave server 10 is normal every minute, and the NIC beat transmission unit 17e transmits the NIC beat to the master server 50 (S104 and S105).
  • the NIC beat receiving unit 57a of the master server 50 receives the NIC beat (S106). At this time, the NIC beat receiving unit 57a extracts the heartbeat and sends it to the notification unit 57c. Also, the slave server management unit 57b specifies that the OS 13 is normal from the NIC beat and updates the management information.
  • the notification part 57c notifies the heartbeat which shows normal operation to Hadoop51 via the driver 54 and OS53 (S107 and S108).
  • the Hadoop 51 recognizes that the slave server 10 is operating normally (S109).
  • FIG. 11 is a diagram illustrating a sequence when the OS is abnormal.
  • the Hadoop 11 of the slave server 10 has irregular heartbeat transmission timings transmitted to the NIC beat device 17 via the OS 13 and the driver 14 (S201 and S202). Then, the heartbeat determination unit 17a of the NIC beat device 17 determines that the OS 13 is abnormal based on the fact that the power saving mode is OFF and the heartbeat is irregular, and updates the state management unit 17c (S203).
  • the NIC beat generation unit 17d generates a NIC beat indicating that the OS 13 of the slave server 10 is abnormal, and the NIC beat transmission unit 17e transmits the NIC beat to the master server 50 (S204 and S205).
  • the NIC beat receiving unit 57a of the master server 50 receives the NIC beat (S206). At this time, the NIC beat receiving unit 57a extracts the heartbeat and sends it to the notification unit 57c. Also, the slave server management unit 57b specifies that the OS 13 is abnormal from the NIC beat and updates the management information.
  • the notification unit 57c notifies the state monitoring daemon 52 that the OS is abnormal via the driver 54 and the OS 53 (S207 and S208).
  • the state monitoring daemon 52 may periodically monitor the slave server management unit 57b to specify that the OS 13 is abnormal.
  • the notification unit 57c notifies the Hadoop 51 of the heartbeat.
  • the state monitoring daemon 52 outputs a log indicating that the OS 13 of the slave server 10 is abnormal (S209).
  • the Hadoop 51 and the administrator detect an OS abnormality of the slave server 10.
  • the log is stored in a hard disk or the like.
  • FIG. 12 is a diagram illustrating a sequence during power saving transition.
  • the power saving processing daemon 12 of the slave server 10 detects that there is no job or task executed by the OS 13 or the like (S301)
  • the slave server 10 is shifted to the power saving mode (S302).
  • the power saving processing daemon 12 notifies the NIC beat device 17 of the transition (S303 and S304).
  • the power saving mode processing unit 17b has shifted to the power saving mode and notifies the state management unit 17c, and the state management unit 17c updates the management information (S305).
  • the NIC beat generation unit 17d generates a NIC beat indicating that the slave server 10 has shifted to the power saving mode, and the NIC beat transmission unit 17e transmits the NIC beat to the master server 50 (S306 and S307).
  • the NIC beat receiving unit 57a of the master server 50 receives the NIC beat (S308). At this time, the NIC beat receiving unit 57a extracts the heartbeat and sends it to the notification unit 57c. Further, the slave server management unit 57b specifies that the slave server 10 has shifted to the power saving mode from the NIC beat and updates the management information.
  • the notification unit 57c notifies the state monitoring daemon 52 of the shift to the power saving mode via the driver 54 and the OS 53 (S309 and S310).
  • the state monitoring daemon 52 may periodically monitor the slave server management unit 57b to identify the transition to the power saving mode.
  • the notification unit 57c notifies the Hadoop 51 of the heartbeat.
  • the state monitoring daemon 52 outputs a log indicating that the slave server 10 has shifted to the power saving mode (S311). With reference to this log, the Hadoop 51 and the administrator detect that the slave server 10 has shifted to the power saving mode.
  • the slave server 10 that has shifted to the power saving mode suppresses generation and transmission of a NIC beat until the power saving mode is canceled.
  • the slave server 10 can take the initiative to cancel the power saving mode and shift to the normal mode.
  • the master server 50 can detect the occurrence of a job or the like to the slave server 10 and the master server 50 can take the initiative to cancel the power saving mode.
  • FIG. 13 is a diagram illustrating a sequence when the network is abnormal.
  • the Hadoop 11 of the slave server 10 transmits a heartbeat every 3 seconds to the NIC beat device 17 via the OS 13 and the driver 14 as in the normal state (S401 and S402).
  • the heart beat determination unit 17a of the NIC beat device 17 receives the heart beat every 3 seconds and updates the state management unit 17c (S403).
  • the NIC beat generation unit 17d generates a NIC beat indicating that the slave server 10 is normal every minute, and the NIC beat transmission unit 17e transmits the NIC beat to the master server 50 (S404 and S405).
  • the NIC beat receiving unit 57a of the master server 50 cannot receive the NIC beat even if one minute or a predetermined time elapses (S406).
  • the slave server management unit 57b specifies that the NIC beat cannot be received, and specifies that an abnormality has occurred in the network.
  • the notification unit 57c notifies the network 51 notified from the slave server management unit 57b to the Hadoop 51 via the driver 54 and the OS 53 (S407 and S408). Thereafter, the Hadoop 51 outputs a log indicating that an abnormality has occurred in the network (S409). With reference to this log, the Hadoop 51 and the administrator detect that an abnormality has occurred in the network.
  • FIG. 14 is a flowchart showing the flow of NIC beat transmission processing executed by the slave server.
  • the state management unit 17c of the slave server 10 determines whether “1” is stored in the “power saving mode” to be managed (S501). If it is determined that “1” is stored in the “power saving mode” (S501: Yes), the state management unit 17c stores “0” in the “OS abnormality detection flag” (S502).
  • the NIC beat generation unit 17d determines whether or not one minute has elapsed from the “NIC beat transmission time” managed by the state management unit 17c (S503).
  • the NIC beat generation unit 17d determines that one minute has elapsed from the “NIC beat transmission time” (S503: Yes)
  • the NIC beat transmitting unit 17e requests the transmission processing unit 16a of the controller 16 to transmit the NIC beat packet generated in S504 (S505). In this way, the transmission processing unit 16a transmits the NIC beat to the master server 50. Thereafter, the NIC beat transmission unit 17e notifies the state management unit 17c of the transmission time, and the state management unit 17c updates the “NIC beat transmission time” (S506).
  • the NIC beat device 17 waits for 1 second (S507), and then repeats S501 and subsequent steps.
  • S503 when the NIC beat generation unit 17d determines that one minute has not elapsed since the “NIC beat transmission time” (S503: No), the NIC beat device 17 executes S507.
  • the state management unit 17c determines whether or not 3 seconds have elapsed from the “heartbeat transmission time”. (S508).
  • the state management unit 17c determines whether “0” is stored in the “OS abnormality detection flag”. (S509). If it is determined that “0” is stored in the “OS abnormality detection flag” (S509: Yes), the state management unit 17c updates the “OS abnormality detection flag” to “1” (S510). That is, the state management unit 17c determines that an abnormality has occurred in the OS 13 because the heartbeat cannot be periodically received. Thereafter, S512 and subsequent steps are executed.
  • the NIC beat transmission unit 17e requests the transmission processing unit 16a of the controller 16 to transmit the NIC beat packet generated in S512 (S513). In this way, the transmission processing unit 16a transmits the NIC beat to the master server 50. Thereafter, the NIC beat transmission unit 17e notifies the transmission time to the state management unit 17c, and the state management unit 17c updates the “NIC beat transmission time” (S514).
  • the NIC beat device 17 waits for 1 second (S507), and then repeats S501 and subsequent steps.
  • S511 when the NIC beat generation unit 17d determines that one minute has not elapsed since the “NIC beat transmission time” (No in S511), the NIC beat device 17 executes S507.
  • the state management unit 17c stores “0” in the “OS abnormality detection flag” (S515).
  • the NIC beat generation unit 17d determines whether or not one minute has elapsed from the “NIC beat transmission time” managed by the state management unit 17c (S516).
  • the NIC beat generation unit 17d determines that one minute has elapsed from the “NIC beat transmission time” (S516: Yes)
  • the NIC beat transmission unit 17e requests the transmission processing unit 16a of the controller 16 to transmit the NIC beat packet generated in S517 (S518). In this way, the transmission processing unit 16a transmits the NIC beat to the master server 50. Thereafter, the NIC beat transmission unit 17e notifies the transmission time to the state management unit 17c, and the state management unit 17c updates the “NIC beat transmission time” (S519).
  • the NIC beat device 17 waits for 1 second (S507), and then repeats S501 and subsequent steps.
  • S516 when the NIC beat generation unit 17d determines that one minute has not elapsed since the “NIC beat transmission time” (S516: No), the NIC beat device 17 executes S507.
  • FIG. 15 is a flowchart showing the flow of NIC beat reception processing executed by the master server.
  • the NIC beat receiving unit 57a of the master server 50 notifies the current time to the slave server managing unit 57b (S602). That is, the slave server management unit 57b stores the notified current time in “NIC beat reception time” in the record of the corresponding slave server 10.
  • the notifying unit 57c sends the heartbeat extracted from the NIC beat to the Hadoop 51 by the NIC beat receiving unit 57a. (S604).
  • the slave server management unit 57b selects the “power saving mode corresponding to the corresponding slave server 10”. "1" is stored in “" (S606). Thereafter, the NIC beat device 57 executes S604.
  • the slave server management unit 57b "OS abnormality notification flag" corresponding to the corresponding slave server 10 “1” is stored in (S608). Thereafter, the NIC beat device 57 executes S604. If the NIC beat receiving unit 57a does not determine that an abnormality has occurred in the OS 13 of the slave server 10 (S607: No), the NIC beat device 57 ends the process.
  • FIG. 16 is a flowchart showing the flow of the state monitoring process executed by the master server.
  • the status monitoring daemon 52 of the master server 50 refers to the slave server management unit 57b and determines whether or not there is a slave server 10 that has passed 3 minutes or more from the NIC beat reception time. (S701). That is, the state monitoring daemon 52 determines whether or not there is a slave server 10 whose NIC beat reception time managed by the slave server management unit 57b is not updated for 3 minutes or more.
  • the state monitoring daemon 52 determines that there is a slave server 10 that has passed three minutes or more from the NIC beat reception time (S701: Yes), it outputs a log indicating that a failure has occurred in the network. (S702). Thereafter, the state monitoring daemon 52 waits for one second (S703), returns to S701, and repeats the subsequent processing.
  • state monitoring daemon 52 determines that there is a slave server 10 in which “1” is stored in the “OS abnormality notification flag” (S704: Yes), an abnormality has occurred in the OS of the slave server 10. A log indicating that the data is present is output (S705). Thereafter, the state monitoring daemon 52 waits for one second (S703), returns to S701, and repeats the subsequent processing.
  • the status monitoring daemon 52 determines that there is no slave server 10 in which “1” is stored in the “OS abnormality notification flag” (S704: No), “1” is stored in the “power saving mode”. It is determined whether there is a slave server 10 that has been set (S706).
  • the status monitoring daemon 52 determines that there is a slave server 10 in which “1” is stored in the “power saving mode” (S706: Yes), it indicates that the slave server 10 has shifted to the power saving mode. The indicated log is output (S707). Thereafter, the state monitoring daemon 52 waits for one second (S703), returns to S701, and repeats the subsequent processing. If the status monitoring daemon 52 determines that there is no slave server 10 in which “1” is stored in the “power saving mode” (S706: No), after waiting for one second (S703), the process returns to S701. Repeat the subsequent steps.
  • the load of the master server 50 is reduced by using a NIC beat that can flexibly change the transmission time and the like instead of a single transmission rule. Can be reduced.
  • the NIC beat it is possible to identify the location where the failure occurred while maintaining the function of transmitting the survival information possessed by the heartbeat. Furthermore, it is possible to prevent erroneous determination of a failure location with respect to the slave server 10, and to improve work efficiency with respect to the cause of the failure.
  • the slave server 10 that has completed the processing saves power, so that the power cost can be significantly reduced. Furthermore, by transmitting the NIC beat, it is possible to prevent the master server 50 from making an erroneous determination with respect to the slave server 10 in the power saving mode. Further, in response to a job processing request from the master server 50, the slave server 10 can return from the power saving mode to the normal processing mode.
  • the present invention is not limited to this, and any transmission interval can be arbitrarily changed. be able to.
  • the NIC beat transmission interval is preferably longer than the heartbeat transmission interval.
  • each component of each illustrated apparatus is functionally conceptual and does not necessarily need to be physically configured as illustrated. That is, the specific form of distribution / integration of each device is not limited to that shown in the figure. That is, all or a part of them can be configured to be functionally or physically distributed / integrated in arbitrary units according to various loads or usage conditions. Further, all or any part of each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

 第1の情報処理装置は、自装置を監視する第2の情報処理装置と通信可能であって、プロセッサが動作させるオペレーティングシステムからの通知が得られない場合であっても、第1の入出力装置から送信する通知信号を第2の情報処理装置に送信する第1の入出力部を有する。第2の情報処理装置は、第2の入出力装置と、第2の入出力装置が第1の入出力装置から通知信号を受信しなかった場合に、ネットワークに障害が発生したと検知する障害検知部とを有する。

Description

情報処理システム、障害検知方法および情報処理装置
 本発明は、情報処理システム、障害検知方法および情報処理装置に関する。
 従来、大規模データを効率的に分散処理するオープンソースソフトウェアとして、Hadoopが知られている。Hadoopは、多くの要素で構成されるが、主に分散ファイルシステムのHDFS(Hadoop Distributed File System)や大規模データの分散処理を実行するHadoop MapReduceが知られている。
 Hadoopを用いたシステムは、システム全体を管理する「マスタサーバ」と、並列処理を実行する複数台の「スレーブサーバ」とを有する。マスタサーバは、スレーブサーバの生存状態を監視するのに、ハートビートを利用する。例えば、各スレーブサーバは、マスタサーバに対して、3秒ごとにハートビートを送信する。マスタサーバは、スレーブサーバからのハートビートを10分間受信できない場合に、そのスレーブサーバが故障したと判定し、当該スレーブサーバをシステムから切り離す。このようにして、当該スレーブサーバは、復旧モードに入る。
 また、新規のスレーブサーバをシステムに追加する場合、マスタサーバは、新規のスレーブサーバに命令を送出し、システムへの組み込み作業を実行させる。そして、マスタサーバは、新規のスレーブサーバから周期的にハートビートを受信すると、当該新規のスレーブサーバがシステムに正常に組み込まれたと認識する。このように、Hadoopを用いたシステムは、ハートビートによってスレーブサーバの障害監視や管理を行う。
 一般的なシステムの障害監視としては、例えば、監視対象機器としてのスレーブサーバの生存状態を監視し、クライアント端末からの要求に応じて、監視対象機器の生存状態や状態の変化をクライアント端末に応答する技術が知られている。また、スレーブサーバとして利用されるサーバ装置のソフトウェアの障害をデバイス自身で検出し、他デバイスとの接続を切断するデバイス装置なども知られている。
特開2009-182667号公報 特開2000-307600号公報
 しかしながら、従来技術では、スレーブサーバから、スレーブサーバが正常に動作していることを示すハートビートなどの死活通知情報を受信できなかった場合に、スレーブサーバ自体に障害が発生したのか、ネットワークで障害が発生したのかを切り分けることができないという問題がある。
 例えば、マスタサーバがスレーブサーバからハートビートを受信できなくなった場合には2つの原因が考えられる。1つ目は、スレーブサーバ自体が故障してハートビートを送信していない場合である。2つ目は、スレーブサーバはハートビートを送信しているが、スレーブサーバとマスタサーバとを接続するネットワークで障害が発生していることから、マスタサーバにハートビートが届かない場合である。
 ところが、マスタサーバは、スレーブサーバからハートビートを受信したか否かによって障害監視を行うので、いずれの原因でハートビートを受信できないかを特定することができない。また、マスタサーバは、ハートビートを受信できない場合には、障害を解析することもできない。さらに、マスタサーバは、ハートビートを受信できない場合に、一律にスレーブサーバに障害が発生したと判定して、当該スレーブサーバをシステムから切り離す。このため、ネットワークに障害がある場合でも、スレーブサーバに復旧作業が実行されることになり、無駄な作業が行われることにもなる。
 1つの側面では、障害発生箇所を切分けることができる情報処理システム、障害検知方法および情報処理装置を提供することを目的とする。
 第1の案では、第1の情報処理装置と、前記第1の情報処理装置を監視する第2の情報処理装置とを含む情報処理システムである。前記第1の情報処理装置は、第1の入出力装置と、オペレーティングシステムが動作するプロセッサとを有する。また、前記第1の情報処理装置は、前記第2の情報処理装置と通信可能であって、オペレーティングシステムからの通知が得られない場合であっても、前記第1の入出力装置から送信する通知信号を前記第2の情報処理装置に送信する第1の入出力部を有する。前記第2の情報処理装置は、第2の入出力装置と、前記第2の入出力装置が、前記第1の入出力装置から前記通知信号を受信しなかった場合に、前記ネットワークに障害が発生したと検知する障害検知部とを有する。
 本発明の1実施態様によれば、障害の発生箇所を切分けることができる。
図1は、実施例1に係るシステムの全体構成例を示す図である。 図2は、NICビートの流れを説明する図である。 図3は、ハードウェア構成例を示す図である。 図4は、スレーブサーバの構成を示す機能ブロック図である。 図5は、ハートビートのデータ構成例を示す図である。 図6は、状態管理部が管理する情報の例を示す図である。 図7は、NICビートのデータ構造例を示す図である。 図8は、マスタサーバの構成を示す機能ブロック図である。 図9は、スレーブサーバ管理部が管理する情報の例を示す図である。 図10は、正常時のシーケンスを示す図である。 図11は、OS異常時のシーケンスを示す図である。 図12は、省電力移行時のシーケンスを示す図である。 図13は、ネットワーク異常時のシーケンスを示す図である。 図14は、スレーブサーバが実行するNICビート送信処理の流れを示すフローチャートである。 図15は、マスタサーバが実行するNICビート受信処理の流れを示すフローチャートである。 図16は、マスタサーバが実行する状態監視処理の流れを示すフローチャートである。
 以下に、本発明にかかる情報処理システム、障害検知方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
[全体構成]
 図1は、実施例1に係るシステムの全体構成例を示す図である。図1に示すように、このシステムは、マスタサーバ50と複数のラック5とをL2スイッチ(レイヤ2スイッチ)を有し、ネットワークを介して相互に通信可能に接続される。このシステムは、Hadoopを用いた分散処理システムである。
 マスタサーバ50は、複数のラック5やラック5に搭載される各スレーブサーバ10を管理するサーバ装置である。例えば、マスタサーバ50は、HDFS(Hadoop Distributed File System)のネームサーバやMapReduceのジョブトラッカーなどである。
 L2スイッチ2は、各ラック5に収納されるL2スイッチ6やスレーブサーバ10と、マスタサーバ50とを接続する中継装置である。また、L2スイッチ2は、L3スイッチやルータなどであってもよい。
 ラック5は、データセンター等に設置される電子機器を収納する装置である。このラック5は、1台以上のスレーブサーバ10とL2スイッチ6とを収納する。L2スイッチ6は、各スレーブサーバ10とL2スイッチ2との通信を中継する中継装置である。また、L2スイッチ6は、L3スイッチやルータなどであってもよい。スレーブサーバ10は、分散処理を実行するサーバである。例えば、スレーブサーバ10は、HDFSのデータノードやMapReduceのタスクトラッカーなどである。
 このような状態において、各スレーブサーバ5は、ネットワークカードを有する。このネットワークカードは、ネットワークカードは、ネットワークカードが正常に動作していれば、上位のOSなどの死活にかかわらずに、ネットワークが正常に動作していることを通知する通知信号を送信する。ここでは、そのような通知信号をNIC(Network Interface Card)ビートと称することとする。各スレーブサーバ10のネットワークカードは、生成したNICビートをマスタサーバ50に送信する。マスタサーバ50は、各スレーブサーバ10のネットワークカードからNICビートを受信しなかった場合に、ネットワークに障害が発生したと検知する。なお、ネットワークカードに障害が発生する可能性は、上位のOSに障害が発生することよりも高いことが一般である。また、上位のOSが正常に動作しているかどうか等の上位のOSの状態を上位のOSからのハートビートなどから検出し、検出した上位の状態情報をハートビートに含めることとしてもよい。これにより、ネットワークの障害がないものの、上位のOSに障害が発生していることを通知することができる。
 ここで、NICビートの流れを説明する。図2は、NICビートの流れを説明する図である。図2に示すように、各スレーブサーバ10内で実行されるHadoopは、定期的に、OS(Operating System)が正常に動作していることを示す死活通知情報であるハートビートを発行する。このハートビートは、ドライバを介してNICに送出される。そして、NIC内のNICビート装置は、受信したハートビートとは別にNICビートを生成し、LAN(Local Area Network)ポートを介してマスタサーバ50に送信する。このNICビートは、L2スイッチ2に受信されて、マスタサーバ50に中継される。
 マスタサーバ50のNIC内で実行されるNICビート装置は、L2スイッチ2を介して、各スレーブサーバ5から送信されたNICビートを受信する。そして、NICビート装置は、NICビートの解析を実行する。その後、NICビート装置は、NICビートからハートビートを取り出し、ドライバを介してHadoopに送出する。
 このようにして、各スレーブサーバ10のNICビート装置は、OSのハートビートとは別に生成したNICビートをマスタサーバ50に通知し、マスタサーバ50は、各スレーブサーバ10のNICビート装置からNICビートを受信する。各スレーブサーバ10のNICビート装置は、ハートビートが発生した場合にはハートビートの発生内容をNICビートに含めて送信し、ハートビートが発生しなかった場合にはハートビートが発生していないことをNICビートに含めて送信する。この結果、マスタサーバ50は、NICビートを受信できた場合には、少なくもネットワークに障害が発生していないと判定することができる。したがって、マスタサーバ50は、障害切分けを行うことができる。
[ハードウェア構成]
 次に、スレーブサーバ10とマスタサーバ50のハードウェア構成を説明する。各サーバは、同様の構成を有するので、ここでは、サーバ100として説明する。図3は、ハードウェア構成例を示す図である。
 図3に示すように、サーバ100は、CPU(Central Processing Unit)101とメモリ102とハードディスク103とNIC104とを有する。なお、ここで示したハードウェアはあくまで例示であり、これに限定されるものではない。
 CPU101は、サーバ100全体の処理を司る処理部である。例えば、CPU101は、Hadoopやドライバを実行する。このHadoopは、ハートビートを生成してNICに送出する。メモリ102は、CPU101が実行するプログラムや各プログラムが使用するデータを記憶する記憶装置である。ハードディスク103は、分散処理の対象となるデータ、テーブル、データベース等を記憶する記憶装置である。
 NIC104は、フラッシュROM(Read Only Memory)104aとコントローラ104bとを有し、NICビートの生成、送信、受信等を実行する。このNIC104には、CPU101とは別に電流が供給される。つまり、CPU101の電源供給が遮断された場合でも、NIC104には電源が供給されるようになっている。
 フラッシュROM104aは、後述する図4や図8に示す処理部と同様の機能を実行する電子回路等を保持する。すなわち、フラッシュROM104aは、スレーブサーバ10のNICビート装置またはマスタサーバ50のNICビート装置と同様の機能を実行する。コントローラ104bは、NIC104から他装置へのデータ送信や他装置から送信されたデータの受信を実行する。例えば、コントローラ104bは、NICビートの送信や受信を実行する。
 なお、ここでは、フラッシュROM104aが図4や図8に示す処理部と同様の機能を実行する電子回路等を保持する例を説明したが、これに限定されるものではない。例えば、フラッシュROM104aが、図4や図8に示す処理部と同様の機能を実行するプログラムを記憶し、コントローラ104bが、このプログラムを読み出して実行することで、図4や図8に示す処理部と同様の機能を実行してもよい。
[スレーブサーバ構成]
 図4は、スレーブサーバの構成を示す機能ブロック図である。図4に示すように、スレーブサーバ10は、Hadoop11、省電力処理デーモン12、OS13、ドライバ14、NIC15を有する。
 Hadoop11は、大規模データを効率的に分散処理するオープンソースソフトウェアであり、OS13によって実行される。また、Hadoop11は、スレーブサーバ10内の正常監視を実行する。例えば、Hadoop11は、3秒間に1回ハートビートを生成してNIC15に向けて送出する。
 ここで、ハートビートについて説明する。図5は、ハートビートのデータ構成例を示す図である。図5に示すように、ハートビートは、例えば、「status」データ、「restarted」データ、「initialContact」データ、「acceptNewTasks」データ、「responseId」データから構成される。
 「status」データは、タスクの名前、Host識別子、http(hypertext transfer protocol)リクエストを処理しているport番号、実行中タスクの詳細情報、失敗したタスク数、最大実行中Mapタスク数、最大実行中Reduceタスク数から構成される。「restarted」データは、プロセス実行中には「1」が設定され、その他の場合には「0」が設定される。「initialContact」データは、リフレッシュ後の初の通信の場合には「1」が設定され、その他の場合には「0」が設定される。「acceptNewTasks」データは、新たなタスクが実行可能である場合には「1」が設定され、新たなタスクが実行不可能である場合には「0」が設定される。「responseId」データは、最後に成功したレスポンスのID番号である。
 図4に戻り、省電力処理デーモン12は、スレーブサーバ10を省電力モードに遷移させたり、スレーブサーバ10を省電力モードから復活させたりする処理部である。この省電力処理デーモン12は、OS13によって実行される。
 例えば、省電力処理デーモン12は、スレーブサーバ10が実行対象とするジョブやタスクが存在しなくなったことを検出すると、NIC15以外の電源をオフにする。なお、ここでいう電源オフとは、全ての電源を遮断するのではなく、ジョブやタスクが発生することができる、最低限の電力量に調整することをいう。また、省電力処理デーモン12は、スレーブサーバ10でジョブやタスクが発生したことを検知した場合や、マスタサーバ50から復帰指示を受信した場合に、省電力モードから通常モードに電源状態を遷移させる。
 OS13は、ハードディスクやメモリの管理、アプリケーションを実行する処理部である。このOS13は、Hadoop11、省電力処理デーモン12、ドライバ14を実行する。また、OS13は、省電力モード時は、最低限の電力量でジョブやタスクの発生を管理する。
 ドライバ14は、スレーブサーバ10内部に装着された装置や、外部に接続した機器を制御する処理部である。具体的に、ドライバ14は、OS13やアプリケーションと、NIC15との通信を制御する。例えば、ドライバ14は、Hadoop11が送出したハートビートをOS13から受信してNIC15に送出する。また、ドライバ14は、NIC15が送出したエラー通知を受信し、OS13を介してHadoop11に送出する。なお、ドライバ14は、OS13によって実行される。また、ドライバ14は、OS13に内蔵されていてもよい。
 NIC15は、コントローラ16とNICビート装置17とを有し、NICビートの生成や送信を制御する。このNIC15は、NICビート以外にも、分散処理システムで発生するデータやメッセージ等を送受信する。
 コントローラ16は、送信処理部16aと受信処理部16bとを有し、ネットワークを介して、他のスレーブサーバやマスタサーバ50との間で、各種データを送受信する処理部である。
 送信処理部16aは、各データを送信する処理部である。例えば、送信処理部16aは、NICビート装置17から送出されたNICビートをマスタサーバ50に送信する。また、送信処理部16aは、Hadoop11から送出された各種データやメッセージを宛先のサーバに送信する。
 受信処理部16bは、各データを受信する処理部である。例えば、受信処理部16bは、他のスレーブサーバから各種データやメッセージを受信してHadoop11に送出する。また、受信処理部16bは、マスタサーバ50から省電力モードからの復帰指示を受信して、省電力処理デーモン12に送出する。
 NICビート装置17は、ハートビート判定部17a、省電力モード処理部17b、状態管理部17c、NICビート生成部17d、及びNICビート送信部17eを有し、これらによって、NICビートの生成や送信を実行する処理部である。このNICビート装置17は、他の処理部とは電源供給が分離されており、他の処理部への電源供給が遮断された場合でも、電源が供給される。
 ハートビート判定部17aは、ハートビートの受信有無やハートビートの内容を判定した判定結果を、状態管理部17cに通知する処理部である。具体的には、ハートビート判定部17aは、ジョブの実行状況、OS13の状態、ハートビートの送信間隔等をハートビートから特定して状態管理部17cに通知する。例えば、ハートビート判定部17aは、受信したハートビートに「失敗したタスク数」が「1」以上である場合や「acceptNewTasks」が「0」である場合には、OS13が異常であることを示す障害通知情報を状態管理部17cに通知する。
 また、ハートビート判定部17aは、ハートビートの受信タイミングが不定期になった場合に、OS13が異常であることを示す障害通知情報を状態管理部17cに通知する。より具体的には、ハートビート判定部17aは、3秒間1回のタイミングでハートビートを受信できない場合やハートビート自体を受信できない場合に、OS13が異常であることを示す障害通知情報を状態管理部17cに通知する。このとき、ハートビート判定部17aは、スレーブサーバ10が省電力モードであれば、異常と判定せずに正常と判定する。なお、ハートビート判定部17aは、受信したハートビート自体をNICビート生成部17dに送出する。
 省電力モード処理部17bは、省電力モードへの移行状況情報を状態管理部17cに通知する処理部である。例えば、省電力モード処理部17bは、省電力処理デーモン12によって、スレーブサーバ10が省電力モードに移行した場合に、移行通知情報を状態管理部17cに通知する。また、省電力モード処理部17bは、省電力処理デーモン12によって、スレーブサーバ10が省電力モードから通常モードに移行した場合に、解除通知情報を状態管理部17cに通知する。また、省電力モード処理部17bは、マスタサーバ50から省電力モードへの移行指示情報や通常モードへの移行指示情報を受信した場合には、当該指示情報を省電力処理デーモン12に送出する。
 状態管理部17cは、スレーブサーバ10の状態を管理する処理部である。具体的には、状態管理部17cは、ハートビート判定部17aから通知された判定結果情報や省電力モード処理部17bから通知された移行状況情報を管理する処理部である。図6は、状態管理部が管理する情報の例を示す図である。図6に示すように、状態管理部17cは、「ハートビート送信時刻」、「OS異常検出フラグ」、「省電力モード」、及び「NICビート送信時刻」を管理する。
 ここで管理される「ハートビート送信時刻」は、Hadoop11からハートビートが送信された時刻を示す。「OS異常検出フラグ」は、OS13に異常があるか否かを示し、異常がある場合には1が設定され、異常がない場合には0が設定される。「省電力モード」は、スレーブサーバ10が省電力モードであるか否かを示し、省電力モード中であれば1が設定され、通常モードであれば0が設定される。「NICビート送信時刻」は、NICビート送信部17eがNICビートを送信した時刻を示す。
 例えば、状態管理部17cは、ハートビート判定部17aからハートビートの受信時刻を受け付けた場合、当該時刻を「ハートビート送信時刻」に格納する。また、状態管理部17cは、ハートビート判定部17aからOSが異常であることが通知された場合、OS異常検出フラグを1に設定する。同様に、状態管理部17cは、省電力モード処理部から17bから移行通知情報が通知された場合、省電力モードを1に設定し、省電力モード処理部17bから解除通知情報が通知された場合、省電力モードを0に設定する。また、状態管理部17cは、NICビート送信部17eがNICビートを送信した時刻を「NICビート送信時刻」に格納する。
 NICビート生成部17dは、NICビートを生成する処理部である。具体的には、NICビート生成部17dは、1分間1回の間隔で、状態管理部17cで管理されるOS状況と、ハートビート判定部17aから入力されたハートビートとからNICビートを生成して、NICビート送信部17eに送出する。図7は、NICビートのデータ構造例を示す図である。図7に示すように、NICビートは、「ハートビート」、「OS状態ビット」、「WOL(Wake-on-LAN)機能ビット」、及び「OS異常ビット」から構成される。
 「ハートビート」は、図5で説明したハートビートの内容である。「OS状態ビット」は、ジョブが実行中であるか否かを示し、OSがジョブを実行している場合すなわち通常モードであれば「1」が設定され、OSがジョブを実行していない場合すなわち省電力モードであれば「0」が設定される。「WOL機能ビット」は、WOL機能が有効であるか否かを示し、省電力モードで動作している場合には「1」が設定され、通常モードで動作している場合には「0」が設定される。「OS異常ビット」は、OSに異常が発生しているか否かを示し、OSに異常が発生している場合には「1」が設定され、OSが正常である場合には「0」が設定される。
 例えば、NICビート生成部17dは、1分間1度のタイミングで、状態管理部17cを参照する。そして、NICビート生成部17dは、状態管理部17cの「OS異常検出フラグ」が「1」である場合には、OSに異常が発生していると判定して、「OS異常ビット」を「1」に設定する。また、NICビート生成部17dは、状態管理部17cの「省電力モード」が「1」である場合には、「OS状態ビット」を「0」に設定し、「WOL機能ビット」を「1」に設定する。その後、NICビート生成部17dは、ハートビート判定部17aから送出された最新のハートビートに、上記各ビット情報を付加したNICビートを生成して、NICビート送信部17eに送出する。
 NICビート送信部17eは、NICビートをマスタサーバ50に送信する処理部である。具体的には、NICビート送信部17eは、NICビート生成部17dから送出されたNICビートを送信処理部16aに送出する。そして、NICビート送信部17eは、NICビートを送出した時刻を、状態管理部17cに通知する。
[マスタサーバ構成]
 図8は、マスタサーバの構成を示す機能ブロック図である。図8に示すように、マスタサーバ50は、Hadoop51、状態監視デーモン52、OS53、ドライバ54、NIC55を有する。
 Hadoop51は、大規模データを効率的に分散処理するオープンソースソフトウェアであり、OS53によって実行される。Hadoop51は、ハートビートの内容や状態監視デーモン52の通知に基づいて、スレーブサーバ10の生存状態を監視する。そして、Hadoop51は、スレーブサーバ10に異常があると判定された場合には、スレーブサーバ10をネットワークから切り離す。また、Hadoop51は、ネットワークに異常があると判定した場合には、管理者等に異常を通知する。例えば、Hadoop51は、受信されたハートビートの「status」の「失敗したタスク数」が記載されている場合には、当該タスクの再実行を該当するスレーブサーバ10に依頼したり、管理者にタスクの異常を通知したりする。
 状態監視デーモン52は、NICビートに基づいてスレーブサーバ10の状態を監視する処理部であり、OS53によって実行される。具体的には、状態監視デーモン52は、スレーブサーバ管理部57bが管理する情報を参照し、スレーブサーバ10の異常やネットワークの異常を検出した場合に、Hadoop51に障害内容情報を通知する。通知の方法としては、メッセージを送信してもよく、ログを出力してもよい。
 例えば、状態監視デーモン52は、スレーブサーバ管理部57bによって管理されるOS異常通知フラグが1(ON)であるスレーブサーバ10を検出した場合、当該スレーブサーバ10のOS53が異常であることをHadoop51に通知する。また、状態監視デーモン52は、スレーブサーバ管理部57bによって管理され省電力モードが1(ON)であるスレーブサーバ10を検出した場合、当該スレーブサーバ10が省電力モードで動作していることをHadoop51に通知する。また、状態監視デーモン52は、スレーブサーバ管理部57bによって管理されるNICビート受信時刻に基づいて、NICビートを1分間隔で受信できていないスレーブサーバ10を検出した場合、ネットワークに異常があることをHadoop51に通知する。
 OS53は、ハードディスクやメモリの管理、アプリケーションを実行する処理部である。このOS53は、Hadoop51、状態監視デーモン52、ドライバ54を実行する。
 ドライバ54は、マスタサーバ50内部に装着された装置や、外部に接続した機器を制御する処理部である。具体的に、ドライバ54は、OS53やアプリケーションと、NIC55との通信を制御する。例えば、ドライバ54は、NICビート装置57から送出されたハートビートをHadoop51に送出する。また、ドライバ54は、OS53に内蔵されていてもよい。
 NIC55は、コントローラ56とNICビート装置57とを有し、NICビートの受信、ハートビートの抽出等を制御する。このNIC55は、NICビート以外にも、分散処理システムで発生するデータやメッセージ等を送受信する。
 コントローラ56は、送信処理部56aと受信処理部56bとを有し、ネットワークを介して、各スレーブサーバ10との間で、各種データを送受信する処理部である。送信処理部56aは、各データを送信する処理部である。例えば、送信処理部56aは、省電力モードからの復帰指示、分散処理システムで発生するデータやメッセージ等を各スレーブサーバ10に送信する。受信処理部56bは、各データを受信する処理部である。例えば、受信処理部56bは、各スレーブサーバ10からNICビートを受信して、NICビート受信部57aに送出する。
 NICビート装置57は、NICビート受信部57aとスレーブサーバ管理部57bと通知部57cとを有し、これらによって、各スレーブサーバ10の状態を管理する処理部である。このNICビート装置57は、他の処理部とは電源供給が分離されており、他の処理部への電源供給が遮断された場合でも、電源が供給される。
 NICビート受信部57aは、各スレーブサーバ10から送信されたNICビートを受信して情報を抽出する処理部である。具体的には、NICビート受信部57aは、受信処理部56bが受信したNICビートからハートビートを抽出し、通知部57cに送出する。また、NICビート受信部57aは、受信されたNICビートに含まれるOS異常検出フラグ、省電力モード、スレーブサーバ名等に基づいて、スレーブサーバ管理部57bに管理される情報を更新する。
 例えば、NICビート受信部57aは、NICビートやハートビートからスレーブサーバ名を抽出し、スレーブサーバ管理部57b内で該当するレコードを特定する。なお、NICビート受信部57aは、該当するレコードがなければ、スレーブサーバ管理部57b内に新たなレコードを生成する。
 そして、NICビート受信部57aは、NICビートを受信した時刻をスレーブサーバ管理部57bに通知する。また、NICビート受信部57aは、NICビート内の「OS異常検出フラグ」が「1」であれば、当該スレーブサーバ10のOS53が異常であることをスレーブサーバ管理部57bに通知する。一方、NICビート受信部57aは、NICビート内の「OS異常検出フラグ」が「0」であれば、当該スレーブサーバ10のOS53が正常であることをスレーブサーバ管理部57bに通知する。同様に、NICビート受信部57aは、NICビート内の「省電力モード」が「1」であれば、当該スレーブサーバ10が省電力モードで動作していることをスレーブサーバ管理部57bに通知する。また、NICビート受信部57aは、NICビート内の「省電力モード」が「0」であれば、当該スレーブサーバ10が通常モードで動作していることをスレーブサーバ管理部57bに通知する。
 スレーブサーバ管理部57bは、各スレーブサーバ10の状態を管理する処理部である。具体的には、スレーブサーバ管理部57bは、NICビート受信部57aから通知された各種情報に基づいて、スレーブサーバ10の状態を示す情報を生成して管理する。図9は、スレーブサーバ管理部が管理する情報の例を示す図である。
 図9に示すように、スレーブサーバ管理部57bは、「スレーブサーバ名」、「NICビート受信時刻」、「OS異常通知フラグ」、及び「省電力モード」を管理する。ここで管理される「スレーブサーバ名」は、スレーブサーバ10を識別する情報であり、例えばホスト名などが設定される。「NICビート受信時刻」は、NICビートが受信された時刻を示す。「OS異常通知フラグ」は、スレーブサーバのOSが異常であるか否かを示す情報であり、異常がある場合には1が設定され、異常がない場合には0が設定される。「省電力モード」は、スレーブサーバ10の動作モードが省電力モードであるか否かを示す情報であり、省電力モード中であれば1が設定され、通常モードであれば0が設定される。
 例えば、スレーブサーバ管理部57bは、NICビート受信部57aから通知されたスレーブサーバの名称及び受信時刻を、不図示のスレーブサーバ名の格納部、及びNICビート受信時刻の格納部にそれぞれ格納する。また、スレーブサーバ管理部57bは、NICビート受信部57aからOS53が異常であることが通知された場合、該当するスレーブサーバ名のOS異常通知フラグを1に設定する。一方、スレーブサーバ管理部57bは、NICビート受信部57aからOS53が正常であることが通知された場合、該当するスレーブサーバ名のOS異常通知フラグを0に設定する。また、スレーブサーバ管理部57bは、NICビート受信部57aから省電力モードで動作中であることが通知された場合、該当するスレーブサーバ名の省電力モードを1に設定する。一方、スレーブサーバ管理部57bは、NICビート受信部57aから通常モードで動作中であることが通知された場合、該当するスレーブサーバ名の省電力モードを0に設定する。
 通知部57cは、スレーブサーバ10から受信されたNICビートに含まれるハートビートをNICビート受信部57aから受信する。そして、通知部57cは、ドライバ54とOS53とを介して、受信したハートビートをHadoop51に送出する。なお、ここで送出されたハートビートは、例えば図5に示したデータ構造である。
[処理の流れ(シーケンス)]
 次に、スレーブサーバ10が、ハートビートからNICビートを生成してマスタサーバ50に送信し、マスタサーバ50が、NICビートからスレーブサーバの状態を把握する一連の流れを説明する。ここでは、正常時、OS異常時、省電力モード移行時、ネットワーク異常時の各々について説明する。
(正常時)
 図10は、正常時のシーケンスを示す図である。スレーブサーバ10のHadoop11は、OS13やドライバ14を介してNICビート装置17に、3秒ごとにハートビートを送信する(S101とS102)。すると、NICビート装置17のハートビート判定部17aは、3秒ごとにハートビートを受信して状態管理部17cを更新する(S103)。
 そして、NICビート生成部17dが、1分間ごとにスレーブサーバ10が正常であることを示すNICビートを生成し、NICビート送信部17eが、NICビートをマスタサーバ50に送信する(S104とS105)。このときのNICビートは、ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=0から構成される。
 一方で、マスタサーバ50のNICビート受信部57aは、NICビートを受信する(S106)。このとき、NICビート受信部57aは、ハートビートを抽出して通知部57cに送出する。また、スレーブサーバ管理部57bは、NICビートからOS13が正常であることを特定して管理情報を更新する。
 そして、通知部57cは、ドライバ54やOS53を介して、正常稼動中を示すハートビートをHadoop51に通知する(S107とS108)。この結果、Hadoop51は、スレーブサーバ10が正常稼動中であることを認識する(S109)。
(OS異常時)
 図11は、OS異常時のシーケンスを示す図である。スレーブサーバ10のHadoop11は、OS13やドライバ14を介してNICビート装置17に送信するハートビートの送信タイミングが不規則になる(S201とS202)。すると、NICビート装置17のハートビート判定部17a、省電力モードがOFFかつハートビートが不定期であることに基づいてOS13が異常であると判定し、状態管理部17cを更新する(S203)。
 そして、NICビート生成部17dがスレーブサーバ10のOS13が異常であることを示すNICビートを生成し、NICビート送信部17eがNICビートをマスタサーバ50に送信する(S204とS205)。このときのNICビートは、ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=1から構成される。
 一方で、マスタサーバ50のNICビート受信部57aは、NICビートを受信する(S206)。このとき、NICビート受信部57aは、ハートビートを抽出して通知部57cに送出する。また、スレーブサーバ管理部57bは、NICビートからOS13が異常であることを特定して管理情報を更新する。
 そして、通知部57cは、ドライバ54やOS53を介して、OS異常であることを状態監視デーモン52に通知する(S207とS208)。なお、状態監視デーモン52が定期的にスレーブサーバ管理部57bを監視して、OS13が異常であることを特定してもよい。また、通知部57cは、ハートビートをHadoop51に通知する。この結果、状態監視デーモン52は、スレーブサーバ10のOS13が異常であるログを出力する(S209)。このログを参照してHadoop51や管理者は、スレーブサーバ10のOS異常を検出する。なお、ログは、ハードディスク等に格納される。
(省電力モード移行時)
 図12は、省電力移行時のシーケンスを示す図である。図12に示すように、スレーブサーバ10の省電力処理デーモン12は、OS13等で実行されるジョブやタスクがないことを検出すると(S301)、スレーブサーバ10を省電力モードに移行させる(S302)。続いて、省電力処理デーモン12は、移行したことをNICビート装置17に通知する(S303とS304)。
 そして、省電力モード処理部17bが省電力モードへ移行したことを検出して状態管理部17cに通知し、状態管理部17cが管理情報を更新する(S305)。その後、NICビート生成部17dが、スレーブサーバ10が省電力モードへ移行したことを示すNICビートを生成し、NICビート送信部17eが、NICビートをマスタサーバ50に送信する(S306とS307)。このときのNICビートは、ハートビート、OS状態ビット=0、WOL機能ビット=1、OS異常ビット=0から構成される。
 一方で、マスタサーバ50のNICビート受信部57aは、NICビートを受信する(S308)。このとき、NICビート受信部57aは、ハートビートを抽出して通知部57cに送出する。また、スレーブサーバ管理部57bは、NICビートからスレーブサーバ10が省電力モードへ移行したことを特定して管理情報を更新する。
 そして、通知部57cは、ドライバ54やOS53を介して、省電力モードへ移行したことを状態監視デーモン52に通知する(S309とS310)。なお、状態監視デーモン52が定期的にスレーブサーバ管理部57bを監視して、省電力モードへ移行したことを特定してもよい。また、通知部57cは、ハートビートをHadoop51に通知する。この結果、状態監視デーモン52は、スレーブサーバ10が省電力モードへ移行したことを示すログを出力する(S311)。このログを参照してHadoop51や管理者は、スレーブサーバ10が省電力モードへ移行したことを検出する。省電力モードへ移行したスレーブサーバ10は、省電力モードが解除されるまで、NICビートの生成や送信を抑止する。
 その後、スレーブサーバ10側がジョブ等の発生を検知して、スレーブサーバ10が主導で省電力モードを解除して通常モードに移行することもできる。また、マスタサーバ50がスレーブサーバ10へのジョブ等の発生を検知して、マスタサーバ50が主導で省電力モードを解除させることもできる。
(ネットワーク異常時)
 図13は、ネットワーク異常時のシーケンスを示す図である。図13に示すように、スレーブサーバ10のHadoop11は、正常時と同様、OS13やドライバ14を介してNICビート装置17に、3秒ごとにハートビートを送信する(S401とS402)。すると、NICビート装置17のハートビート判定部17aは、3秒ごとにハートビートを受信して状態管理部17cを更新する(S403)。
 そして、NICビート生成部17dが、1分間ごとにスレーブサーバ10が正常であることを示すNICビートを生成し、NICビート送信部17eが、NICビートをマスタサーバ50に送信する(S404とS405)。このときのNICビートは、「ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=0」から構成される。
 一方で、マスタサーバ50のNICビート受信部57aでは、1分間または所定時間経過してもNICビートを受信できない(S406)。このとき、スレーブサーバ管理部57bは、NICビートが受信できないことを特定し、ネットワークに異常が発生したことを特定する。
 そして、通知部57cは、スレーブサーバ管理部57bから通知されたネットワーク異常を、ドライバ54やOS53を介してHadoop51に通知する(S407とS408)。その後、Hadoop51は、ネットワークに異常が発生したことを示すログを出力する(S409)。このログを参照してHadoop51や管理者は、ネットワークに異常が発生したことを検出する。
[スレーブサーバ(フローチャート)]
 次に、スレーブサーバ10が実行するNICビート送信処理の流れを説明する。図14は、スレーブサーバが実行するNICビート送信処理の流れを示すフローチャートである。
 図14に示すように、スレーブサーバ10の状態管理部17cは、管理する「省電力モード」に「1」が格納されているか否かを判定する(S501)。そして状態管理部17cは、「省電力モード」に「1」が格納されていると判定した場合(S501:Yes)、「OS異常検出フラグ」に「0」を格納する(S502)。
 続いて、NICビート生成部17dは、状態管理部17cに管理される「NICビート送信時刻」から1分経過したか否かを判定する(S503)。そして、NICビート生成部17dは、「NICビート送信時刻」から1分経過したと判定した場合(S503:Yes)、「ハートビート、OS状態ビット=0、WOL機能ビット=1、OS異常ビット=0」から構成されるNICビートを生成する(S504)。
 そして、NICビート送信部17eは、S504で生成されたNICビートのパケットの送信を、コントローラ16の送信処理部16aに依頼する(S505)。こうして、送信処理部16aは、NICビートをマスタサーバ50に送信する。その後、NICビート送信部17eが送信時刻を状態管理部17cに通知し、状態管理部17cが、「NICビート送信時刻」を更新する(S506)。
 その後、NICビート装置17は、1秒間待機した後(S507)、S501以降を繰り返す。なお、S503において、NICビート生成部17dが「NICビート送信時刻」から1分経過していないと判定した場合(S503:No)、NICビート装置17は、S507を実行する。
 一方、状態管理部17cは、「省電力モード」に「0」が格納されていると判定した場合(S501:No)、「ハートビート送信時刻」から3秒が経過したか否かを判定する(S508)。
 そして、状態管理部17cは、「ハートビート送信時刻」から3秒が経過したと判定した場合(S508:Yes)、「OS異常検出フラグ」に「0」が格納されているか否かを判定する(S509)。状態管理部17cは、「OS異常検出フラグ」に「0」が格納されていると判定した場合(S509:Yes)、「OS異常検出フラグ」を「1」に更新する(S510)。つまり、状態管理部17cは、ハートビートを定期的に受信できないことから、OS13に異常が発生したと判定する。その後、S512以降が実行される。
 一方、状態管理部17cによって「OS異常検出フラグ」に「0」が格納されていないと判定された場合(S509:No)、NICビート生成部17dは、状態管理部17cに管理される「NICビート送信時刻」から1分経過したか否かを判定する(S511)。そして、NICビート生成部17dは、「NICビート送信時刻」から1分経過したと判定した場合(S511:Yes)、「ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=1」から構成されるNICビートを生成する(S512)。
 そして、NICビート送信部17eは、S512で生成されたNICビートのパケットの送信を、コントローラ16の送信処理部16aに依頼する(S513)。こうして、送信処理部16aは、NICビートをマスタサーバ50に送信する。その後、NICビート送信部17eが送信時刻を状態管理部17cに通知し、状態管理部17cが、「NICビート送信時刻」を更新する(S514)。
 その後、NICビート装置17は、1秒間待機した後(S507)、S501以降を繰り返す。なお、S511において、NICビート生成部17dが「NICビート送信時刻」から1分経過していないと判定した場合(S511No)、NICビート装置17は、S507を実行する。
 一方、状態管理部17cは、「ハートビート送信時刻」から3秒が経過していないと判定した場合(S508:No)、「OS異常検出フラグ」に「0」を格納する(S515)。
 そして、NICビート生成部17dは、状態管理部17cに管理される「NICビート送信時刻」から1分経過したか否かを判定する(S516)。そして、NICビート生成部17dは、「NICビート送信時刻」から1分経過したと判定した場合(S516:Yes)、「ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=0」から構成されるNICビートを生成する(S517)。
 続いて、NICビート送信部17eは、S517で生成されたNICビートのパケットの送信を、コントローラ16の送信処理部16aに依頼する(S518)。こうして、送信処理部16aは、NICビートをマスタサーバ50に送信する。その後、NICビート送信部17eが送信時刻を状態管理部17cに通知し、状態管理部17cが、「NICビート送信時刻」を更新する(S519)。
 その後、NICビート装置17は、1秒間待機した後(S507)、S501以降を繰り返す。なお、S516において、NICビート生成部17dが「NICビート送信時刻」から1分経過していないと判定した場合(S516:No)、NICビート装置17は、S507を実行する。
[マスタサーバ(フローチャート)]
 次に、マスタサーバ50が実行するNICビート受信処理の流れと状態監視処理の流れとを説明する。
(NICビート受信処理)
 図15は、マスタサーバが実行するNICビート受信処理の流れを示すフローチャートである。マスタサーバ50のNICビート受信部57aは、スレーブサーバ10からNICビートを受信すると(S601)、現在の時刻をスレーブサーバ管理部57bに通知する(S602)。すなわち、スレーブサーバ管理部57bは、該当するスレーブサーバ10のレコードにおける「NICビート受信時刻」に、通知された現在の時刻を格納する。
 続いて、NICビート受信部57aは、「ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=0」から構成されるNICビートを受信したか否かを判定する(S603)。つまり、NICビート受信部57aは、異常がないNICビートを受信したか否かを判定する。
 そして、NICビート受信部57aは、異常がないNICビートを受信したと判定した場合(S603:Yes)、通知部57cは、NICビート受信部57aがNICビートから抽出したハートビートをHadoop51に送出する(S604)。
 一方、NICビート受信部57aは、「ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=0」から構成されるNICビートではないと判定した場合(S603:No)、S605を実行する。すなわち、NICビート受信部57aは、「ハートビート、OS状態ビット=0、WOL機能ビット=1、OS異常ビット=0」から構成されるNICビートを受信したか否かを判定する。つまり、NICビート受信部57aは、スレーブサーバ10が省電力モードで動作中であるか否かを判定する。
 そして、スレーブサーバ管理部57bは、NICビート受信部57aによってスレーブサーバ10が省電力モードで動作中であると判定された場合(S605:Yes)、該当するスレーブサーバ10に対応する「省電力モード」に「1」を格納する(S606)。その後、NICビート装置57は、S604を実行する。
 また、S605において、NICビート受信部57aは、「ハートビート、OS状態ビット=0、WOL機能ビット=1、OS異常ビット=0」から構成されるNICビートではないと判定した場合(S605:No)、S607を実行する。すなわち、NICビート受信部57aは、「ハートビート、OS状態ビット=1、WOL機能ビット=0、OS異常ビット=1」から構成されるNICビートを受信したか否かを判定する。つまり、NICビート受信部57aは、スレーブサーバ10のOS13に異常が発生したか否かを判定する。
 そして、スレーブサーバ管理部57bは、NICビート受信部57によってスレーブサーバ10のOS13に異常が発生したと判定された場合(S607:Yes)、該当するスレーブサーバ10に対応する「OS異常通知フラグ」に「1」を格納する(S608)。その後、NICビート装置57は、S604を実行する。なお、NICビート受信部57aによってスレーブサーバ10のOS13に異常が発生したと判定されなかった場合(S607:No)、NICビート装置57は、処理を終了する。
(状態監視処理)
 図16は、マスタサーバが実行する状態監視処理の流れを示すフローチャートである。図16に示すように、マスタサーバ50の状態監視デーモン52は、スレーブサーバ管理部57bを参照し、NICビート受信時刻から3分以上が経過しているスレーブサーバ10が存在するか否かを判定する(S701)。つまり、状態監視デーモン52は、スレーブサーバ管理部57bが管理するNICビート受信時刻が3分以上更新されないスレーブサーバ10が存在するか否かを判定する。
 そして、状態監視デーモン52は、NICビート受信時刻から3分以上が経過しているスレーブサーバ10が存在すると判定した場合(S701:Yes)、ネットワークに障害が発生していることを示すログを出力する(S702)。その後、状態監視デーモン52は、1秒間待機した後(S703)、S701に戻って以降の処理を繰り返す。
 一方、状態監視デーモン52は、NICビート受信時刻から3分以上が経過しているスレーブサーバ10が存在しないと判定した場合(S701:No)、「OS異常通知フラグ」に「1」が格納されているスレーブサーバが存在するか否かを判定する(S704)。
 そして、状態監視デーモン52は、「OS異常通知フラグ」に「1」が格納されているスレーブサーバ10が存在すると判定した場合(S704:Yes)、当該スレーブサーバ10でOSに異常が発生していることを示すログを出力する(S705)。その後、状態監視デーモン52は、1秒間待機した後(S703)、S701に戻って以降の処理を繰り返す。
 また、状態監視デーモン52は、「OS異常通知フラグ」に「1」が格納されているスレーブサーバ10が存在しないと判定した場合(S704:No)、「省電力モード」に「1」が格納されているスレーブサーバ10が存在するか否かを判定する(S706)。
 そして、状態監視デーモン52は、「省電力モード」に「1」が格納されているスレーブサーバ10が存在すると判定した場合(S706:Yes)、当該スレーブサーバ10が省電力モードに移行したことを示すログを出力する(S707)。その後、状態監視デーモン52は、1秒間待機した後(S703)、S701に戻って以降の処理を繰り返す。なお、状態監視デーモン52は、「省電力モード」に「1」が格納されているスレーブサーバ10が存在しないと判定した場合(S706:No)、1秒間待機した後(S703)、S701に戻って以降の処理を繰り返す。
 このように、従来のように3秒間に1度送信されたハートビートと比べ、単一な送信ルールではなく、送信時間等を柔軟に変更できるNICビートを使用することによって、マスタサーバ50の負荷を軽減することができる。また、NICビートを用いることで、ハートビートが持っていた生存情報を伝える機能を保持した上、故障した場所の特定ができる。さらに、スレーブサーバ10に対する故障箇所の誤判断を防ぐことができ、故障原因に対して作業の効率向上を実現できる。
 また、ジョブ処理に関して、処理が完了したスレーブサーバ10が省電力になることから、電力コストの大幅な減少が実現できる。さらに、NICビートを送信することによって、省電力モードになったスレーブサーバ10に対して、マスタサーバ50の誤判断を防ぐことができる。また、マスタサーバ50のジョブ処理の要求に応じて、スレーブサーバ10が、省電力モードから通常処理モードに戻ることができる。
 さらに、OS異常とネットワーク障害の切り分けができ、OS異常のときは代替スレーブサーバ10への切り替えを即時に開始できる。そして、ネットワーク障害のときはスレーブサーバ10に保存されたデータが破損する可能性がないためネットワークの復旧を待つなど、マスタサーバ50がスレーブサーバ10に対する対処方法を柔軟に変更することができる。
 さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
(通知内容)
 実施例1では、OS状態ビット、省電力モード、OS異常ビットをNICビートで送信する例を説明したが、これに限定されるものではなく、いずれか1つを送信するようにしてもよい。また、任意の組み合わせで送信してもよい。
(送信間隔)
 実施例1では、ハートビートが3秒間隔で送信され、NICビートが1分間隔で送信される例を説明したが、これに限定されるものではなく、いずれの送信間隔も任意に設定変更することができる。ただし、マスタサーバ50の負荷を軽減するために、NICビートの送信間隔は、ハートビートの送信間隔よりも長いことが好ましい。
(システム)
 また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 10 スレーブサーバ
 11 Hadoop
 12 省電力処理デーモン
 13 OS
 14 ドライバ
 15 NIC
 16 コントローラ
 16a 送信処理部
 16b 受信処理部
 17 NICビート装置
 17a ハートビート判定部
 17b 省電力モード処理部
 17c 状態管理部
 17d NICビート生成部
 17e NICビート送信部
 50 マスタサーバ
 51 Hadoop
 52 状態監視デーモン
 53 OS
 54 ドライバ
 55 NIC
 56 コントローラ
 56a 送信処理部
 56b 受信処理部
 57 NICビート装置
 57a NICビート受信部
 57b スレーブサーバ管理部
 57c 通知部

Claims (9)

  1.  第1の情報処理装置と、前記第1の情報処理装置を監視する第2の情報処理装置とを含む情報処理システムであって、
     前記第1の情報処理装置は、
     第1の入出力装置と、
     オペレーティングシステムが動作するプロセッサと、
     前記第2の情報処理装置と通信可能であって、オペレーティングシステムからの通知が得られない場合であっても、前記第1の入出力装置から送信する通知信号を前記第2の情報処理装置に送信する第1の入出力部と、を有し、
     前記第2の情報処理装置は、
     第2の入出力装置と、
     前記第2の入出力装置が、前記第1の入出力装置から前記通知信号を受信しなかった場合に、前記ネットワークに障害が発生したと検知する障害検知部と、
     を有することを特徴とする情報処理システム。
  2.  前記第1の入出力部は、オペレーティングシステムからの通知に応じて該オペレーティングシステムの状態情報を生成する生成部を有し、
     前記第1の入出力部は、該生成部が生成した該状態情報を、前記通知信号に含めて前記第2の情報処理装置に送信する、
    ことを特徴とする請求項1に記載の情報処理システム。
  3.  前記第1の情報処理装置の生成部は、
     前記オペレーティングシステムからの通知の発生周期が不規則になった場合、または、前記オペレーティングシステムからの通知を受信できなくなった場合に、前記第1の情報処理装置で異常が発生したことを示す異常通知情報を生成し、
     前記第1の入出力部は、前記生成部が生成した前記異常通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
     前記第2の情報処理装置の障害検知部は、
     前記第1の情報処理装置から受信した通知信号に、前記異常通知情報が含まれている場合には、前記第1の情報処理装置で障害が発生したと検知することを特徴とする請求項2に記載の情報処理システム。
  4.  前記第1の情報処理装置の生成部は、
     前記第1の情報処理装置が実行対象とするジョブが存在しなくなった場合に、電力消費を抑制する省電力モードに移行することを示す移行通知情報を生成し、
     前記第1の入出力部は、前記生成部が生成した前記移行通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
     前記第2の情報処理装置の障害検知部は、
     前記第1の情報処理装置から受信した通知信号に、前記移行通知情報が含まれている場合には、前記第1の情報処理装置を監視対象から除外することを特徴とする請求項2に記載の情報処理システム。
  5.  前記第1の情報処理装置の第1の入出力部は、前記移行通知情報を含む前記通知信号が前記第2の情報処理装置に送信された後、前記省電力モードが解除されるまで、前記通知信号の送信を抑制することを特徴とする請求項4に記載の情報処理システム。
  6.  前記第1の情報処理装置の生成部は、
     前記第1の情報処理装置に前記ジョブが発生した場合に、前記省電力モードを解除することを示す解除通知情報を生成し、
      前記第1の入出力部は、前記生成部が生成した前記解除通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
    前記第2の情報処理装置の障害検知部は、
     前記第1の情報処理装置から受信した通知信号に、前記解除通知情報が含まれている場合には、前記第1の情報処理装置を監視対象に戻すことを特徴とする請求項5に記載の情報処理システム。
  7.  第1の情報処理装置と、前記第1の情報処理装置を監視する第2の情報処理装置とを含む情報処理システムに適した障害検知方法において、
     前記第1の情報処理装置が、
     前記第2の情報処理装置と通信可能であって、プロセッサが動作させるオペレーティングシステムからの通知が得られない場合であっても、第1の入出力装置から送信する通知信号を前記第2の情報処理装置に送信し、
     前記第2の情報処理装置が、
     第2の入出力装置が、前記第1の入出力装置から前記通知信号を受信しなかった場合に、前記ネットワークに障害が発生したと検知する、
     を実行することを特徴とする障害検知方法。
  8.  第1の入出力装置と、
     オペレーティングシステムが動作するプロセッサと、
     監視装置と通信可能であって、オペレーティングシステムからの通知が得られない場合であっても、前記第1の入出力装置から送信する通知信号を監視装置に送信する第1の入出力部と、
     を有することを特徴とする情報処理装置。
  9.  第2の入出力装置と、
     前記第2の入出力装置が監視対象の装置から通知信号を受信しなかった場合に、前記監視対象の装置と自装置との間のネットワークに障害が発生したと検知する障害検知部と、
     を有することを特徴とする情報処理装置。
PCT/JP2012/058754 2012-03-30 2012-03-30 情報処理システム、障害検知方法および情報処理装置 WO2013145325A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014507300A JP5858144B2 (ja) 2012-03-30 2012-03-30 情報処理システム、障害検知方法および情報処理装置
PCT/JP2012/058754 WO2013145325A1 (ja) 2012-03-30 2012-03-30 情報処理システム、障害検知方法および情報処理装置
US14/499,607 US20150019671A1 (en) 2012-03-30 2014-09-29 Information processing system, trouble detecting method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/058754 WO2013145325A1 (ja) 2012-03-30 2012-03-30 情報処理システム、障害検知方法および情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/499,607 Continuation US20150019671A1 (en) 2012-03-30 2014-09-29 Information processing system, trouble detecting method, and information processing apparatus

Publications (1)

Publication Number Publication Date
WO2013145325A1 true WO2013145325A1 (ja) 2013-10-03

Family

ID=49258687

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/058754 WO2013145325A1 (ja) 2012-03-30 2012-03-30 情報処理システム、障害検知方法および情報処理装置

Country Status (3)

Country Link
US (1) US20150019671A1 (ja)
JP (1) JP5858144B2 (ja)
WO (1) WO2013145325A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067141A1 (en) * 2013-08-30 2015-03-05 Shimadzu Corporation Analytical device control system
CN106603301A (zh) * 2016-12-29 2017-04-26 杭州宏杉科技股份有限公司 一种基于存储集群多节点对的仲裁者实现方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5687173B2 (ja) * 2011-11-15 2015-03-18 株式会社日立製作所 通信システム及び方法、ハートビート代行サーバ
US9819563B2 (en) * 2014-12-19 2017-11-14 Verizon Patent And Licensing Inc. Failure management for electronic transactions
CN107294799B (zh) * 2016-03-31 2020-09-01 阿里巴巴集团控股有限公司 一种分布式系统中节点的处理方法和装置
JP6662185B2 (ja) * 2016-04-28 2020-03-11 横河電機株式会社 処理装置、代替処理装置、中継装置、処理システム及び処理方法
WO2017220683A1 (en) 2016-06-22 2017-12-28 Roche Diabetes Care Gmbh Medical device for transcutaneously inserting an insertable element into a body tissue
US10191794B2 (en) * 2016-09-28 2019-01-29 Mcafee, Llc Monitoring and analyzing watchdog messages in an internet of things network environment
CN110933142A (zh) * 2019-11-07 2020-03-27 浪潮电子信息产业股份有限公司 一种icfs集群网卡监控方法、装置和设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262148A (ja) * 1994-03-22 1995-10-13 Nec Corp コンピュータシステム
JP4657800B2 (ja) * 2005-05-16 2011-03-23 本田技研工業株式会社 航空機用ガスタービン・エンジンの制御装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAZUHIRO MURAYAMA ET AL.: "Design of high- available middleware for large-scale distributed systems", IPSJ SIG NOTES(MULTIMEDIA TO BUNSAN SHORI COMPUTER SECURITY), vol. 2003, no. 18, 28 February 2003 (2003-02-28), pages 191 - 196 *
MASARU SAKAI: "'Kikan IA Server 'PRIMEQUEST' to PRIMECLUSTER no Renkei'", FUJITSU, vol. 56, no. 3, 10 May 2005 (2005-05-10), pages 226 - 230 *
RODDO GAMASHE ET AL.: "IEEE COMPUTER NT no Kayosei Kojo no Tameni Cluster ga Teikyo suru Kino Kiso Gainen kara Application Tekiyo made", NIKKEI COMPUTER, 7 December 1998 (1998-12-07), pages 143 - 149 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067141A1 (en) * 2013-08-30 2015-03-05 Shimadzu Corporation Analytical device control system
US9712380B2 (en) * 2013-08-30 2017-07-18 Shimadzu Corporation Analytical device control system
CN106603301A (zh) * 2016-12-29 2017-04-26 杭州宏杉科技股份有限公司 一种基于存储集群多节点对的仲裁者实现方法及装置
CN106603301B (zh) * 2016-12-29 2019-09-06 杭州宏杉科技股份有限公司 一种基于存储集群多节点对的仲裁者实现方法及装置

Also Published As

Publication number Publication date
JPWO2013145325A1 (ja) 2015-08-03
US20150019671A1 (en) 2015-01-15
JP5858144B2 (ja) 2016-02-10

Similar Documents

Publication Publication Date Title
JP5858144B2 (ja) 情報処理システム、障害検知方法および情報処理装置
US20170048123A1 (en) System for controlling switch devices, and device and method for controlling system configuration
CN106330475B (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
US20140095925A1 (en) Client for controlling automatic failover from a primary to a standby server
US9208124B2 (en) Reset of processing core in multi-core processing system
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储系统及其方法
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
EP3291487B1 (en) Method for processing virtual machine cluster and computer system
EP2637102A1 (en) Cluster system with network node failover
WO2016165157A1 (zh) 家庭服务系统的故障处理方法及家电设备、服务器
JPWO2015104841A1 (ja) 多重系システムおよび多重系システム管理方法
CN107071189B (zh) 一种通讯设备物理接口的连接方法
US20140129865A1 (en) System controller, power control method, and electronic system
WO2014050493A1 (ja) 予備系装置、運用系装置、冗長構成システム、及び負荷分散方法
KR102131863B1 (ko) 라우팅 처리기의 동작 모드 천이 방법
JP2015097331A (ja) ネットワーク管理サーバおよび復旧方法
JP2010244463A (ja) イベント検出制御方法及びシステム
JP2009223368A (ja) クラスタリング制御装置、制御システム、制御方法及び制御プログラム
JP2014048933A (ja) プラント監視システム、プラント監視方法およびプラント監視プログラム
JP2013025765A (ja) マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム
JP2009075710A (ja) 冗長化システム
CN110213364B (zh) 快递柜监控方法、系统、存储介质和设备
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
JP2016100659A (ja) 周期型データ共有システム及び方法
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12873132

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014507300

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12873132

Country of ref document: EP

Kind code of ref document: A1