WO2013018183A1 - システム制御装置、電力制御方法及び電子システム - Google Patents

システム制御装置、電力制御方法及び電子システム Download PDF

Info

Publication number
WO2013018183A1
WO2013018183A1 PCT/JP2011/067553 JP2011067553W WO2013018183A1 WO 2013018183 A1 WO2013018183 A1 WO 2013018183A1 JP 2011067553 W JP2011067553 W JP 2011067553W WO 2013018183 A1 WO2013018183 A1 WO 2013018183A1
Authority
WO
WIPO (PCT)
Prior art keywords
system control
control device
mutual monitoring
unit
monitoring
Prior art date
Application number
PCT/JP2011/067553
Other languages
English (en)
French (fr)
Inventor
数実 小島
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2011/067553 priority Critical patent/WO2013018183A1/ja
Publication of WO2013018183A1 publication Critical patent/WO2013018183A1/ja
Priority to US14/154,256 priority patent/US20140129865A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3209Monitoring remote activity, e.g. over telephone lines or network connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Definitions

  • the present invention relates to a system control device, a power control method, and an electronic system.
  • HPC High Performance Computer
  • a service processor (Service Processor: hereinafter referred to as SP) that controls the information processing apparatus is duplicated, and the information processing apparatus has an active side SP and a standby side SP.
  • SP Service Processor
  • the active side SP controls the information processing apparatus as an active system.
  • the standby side SP is a standby system, and normally stands by without controlling the information processing apparatus.
  • the standby side SP continuously monitors the survival state of the active side SP, and when the active side fails, switches the standby side SP to the active side to continue the operation of the information processing apparatus.
  • the standby side SP is normally only waiting and does not execute control of the system. For this reason, if there is no failure in the system, the standby side SP only consumes power wastefully.
  • the HPC has a redundant configuration or duplex configuration of the SP. It cannot be canceled. For this reason, the power supply of the standby side SP is always kept on. Similarly, even when a device dedicated to monitoring is used, the power is always turned on.
  • HPC is required to have high performance, and hundreds of devices may be introduced as a whole data center. When such a large number of devices are introduced, the power consumption becomes very large. Therefore, it is desired to reduce the power consumption per device.
  • An object of one aspect of the present invention is to provide a system control device, a power control method, and an electronic system that can reduce power consumption of a system control device that is a standby system.
  • the first proposal is a system control device included in an electronic device connected to another electronic device via a network.
  • the system control device mutually monitors the live state with the active system control device of other electronic devices. Then, when the system control apparatus starts monitoring the survival state of the active system control apparatus included in the other electronic apparatus, the system control apparatus controls the power of the other system control apparatus included in the electronic apparatus to be turned off.
  • FIG. 1 is a diagram illustrating a system configuration example of HPC.
  • FIG. 2 is a block diagram illustrating a configuration of the information processing apparatus.
  • FIG. 3 is a functional block diagram illustrating the configuration of the SP according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of information stored as a mutual monitoring table.
  • FIG. 5 is a diagram illustrating an example of a type determination notification transmitted by the monitoring target specifying unit.
  • FIG. 6 is a diagram illustrating an example of a mutual monitoring target notification transmitted by the monitoring target specifying unit.
  • FIG. 7 is a diagram illustrating an example of the mutual monitoring table updated by the monitoring request response unit.
  • FIG. 8A is a diagram illustrating a processing operation for transmitting a type determination notification.
  • FIG. 8B is a diagram illustrating a processing operation for transmitting a mutual monitoring target notification.
  • FIG. 8C is a diagram illustrating a processing operation after starting mutual monitoring.
  • FIG. 9A is a diagram illustrating a processing operation when the occurrence of an abnormality is detected.
  • FIG. 9B is a diagram illustrating a processing operation for requesting mutual monitoring after the occurrence of an abnormality is detected.
  • FIG. 9C is a diagram illustrating an example of a mutual monitoring table updated when a response permitting mutual monitoring is received.
  • FIG. 10 is a diagram illustrating a processing operation when there is no mutual monitoring partner.
  • FIG. 11 is a diagram illustrating a processing operation at the time of maintenance setting.
  • FIG. 12 is a flowchart illustrating the processing procedure of the processing by the SP according to the first embodiment.
  • FIG. 13 is a flowchart illustrating a processing procedure of processing for requesting mutual monitoring by the SP according to the first embodiment.
  • FIG. 14 is a flowchart illustrating a processing procedure of processing when an abnormality occurs due to the SP according to the first embodiment.
  • FIG. 15 is a flowchart illustrating a processing procedure of notification processing at the time of maintenance setting by the SP according to the first embodiment.
  • FIG. 16 is a flowchart illustrating a processing procedure of a response process to the mutual monitoring target notification by the SP according to the first embodiment.
  • FIG. 17 is a flowchart illustrating a processing procedure of processing to respond to the maintenance setting notification.
  • a service processor (hereinafter referred to as SP) will be described as an example of a system control device.
  • This SP is provided in each information processing apparatus in an HPC (High Performance Computer: hereinafter referred to as HPC) having a plurality of information processing apparatuses.
  • HPC High Performance Computer
  • Example 1 an example of an HPC system configuration, an SP configuration according to the first embodiment, a processing operation by the SP according to the first embodiment, a processing procedure of the processing by the SP according to the first embodiment, and an implementation The effects of Example 1 will be described in order.
  • FIG. 1 is a diagram illustrating a system configuration example of HPC. As illustrated in FIG. 1, the HPC 1 includes information processing apparatuses 98, 99, 100, 101, and 102. Each information processing apparatus is connected to another information processing apparatus via a network so that they can communicate with each other. Note that the system configuration example of the HPC shown in FIG. 1 is merely an example, and the number of information processing apparatuses is not limited to this.
  • the SP 98a and SP 98b included in the information processing apparatus 98 operate independently of the information processing apparatus 98 and control the information processing apparatus 98.
  • one of SP 98 a and SP 98 b operates as an operating system that controls the information processing apparatus 98, and the other is a standby system that stands by without controlling the information processing apparatus 98.
  • the SP that is the standby system continues the operation of controlling the information processing apparatus 98 by switching itself to the active system when the SP that is the active system fails. That is, in the information processing apparatus 98, the SP is duplicated by SP98a and SP98b.
  • SP98a will be described as an active system and SP98b as a standby system unless otherwise specified.
  • the configuration of the information processing devices 99, 100, and 101 is the same as the configuration of the information processing device 98, detailed description of the configuration of the information processing devices 99, 100, and 101 is omitted.
  • SP99a included in the information processing apparatus 99 is the active system
  • SP99b is the standby system
  • SP100a included in the information processing apparatus 100 is the active system
  • SP100b is the standby system
  • SP101a included in the information processing apparatus 101 is the active system
  • SP101b is the standby system. This is explained as a system.
  • the information processing apparatus 102 has only the SP 102a. That is, in the information processing apparatus 102, the SP is not duplicated. Note that although the SP 102a operates as a normal operation system, the operation system SP in the following description will be described as not including the SP 102a.
  • SP98a, SP98b, SP99a, SP99b, SP100a, SP100b, SP101a, and SP101b shown in FIG. 1 have the device type A
  • SP102a has the device type B
  • SP98a, SP98b, SP99a, SP99b, SP100a, SP100b, SP101a, SP101b are the same type of devices.
  • the same type of active SPs mutually monitor the survival state with other active SPs selected according to a predetermined rule. That is, the same type of operational SPs are duplicated by other operational SPs. Then, each operating system SP mutually monitors the survival state with the other operating system SP, so that each standby system SP does not have to monitor the operating system SP for itself. As a result, the power supply of each standby system SP is controlled to be off.
  • FIG. 2 is a block diagram illustrating a configuration of the information processing apparatus.
  • the information processing apparatus 98 includes SP 98a, SP 98b, a system board 98c, a crossbar board 98d, an IO (Input Output) board 98e, a panel 98f, a fan 98g, and a power source 98h.
  • the configuration of the information processing apparatus will be described by taking the information processing apparatus 98 as an example, but the configuration of the information processing apparatuses 99, 100, and 101 is the same as the configuration of the information processing apparatus 98.
  • the configuration of the information processing apparatus 102 is the same as the configuration of the information processing apparatus 98 except that the SP is not duplicated. Since SP 98a and SP 98b will be described later, here, the system board 98c, the crossbar board 98d, the IO board 98e, the panel 98f, the fan 98g, and the power supply 98h will be described.
  • the system board 98c has a plurality of CPUs and DIMMs (Dual Inline Memory Modules), and executes various arithmetic processes.
  • the information processing apparatus 98 includes a plurality of system boards 98c, and exchanges data between the system boards via the crossbar board 98d.
  • An IO (Input Output) board 98e has a PCI (Peripheral Component Interconnect) slot and controls data input / output between the system board 98c and an external IO device connected by a network.
  • the IO board 98e may incorporate a hard disk.
  • the panel 98f provides an interface for accepting an operation for controlling the power supply 98h on and off from the user. Further, the panel 98f outputs information inside the information processing apparatus 98 such as an operating time of the information processing apparatus 98 so that the user can visually recognize the information.
  • the fan 98g cools electronic devices such as the system board 98c, the crossbar board 98d, and the IO board 98e included in the information processing apparatus 98.
  • the power source 98h supplies power to the information processing apparatus.
  • the power source 98h may have a spare power source.
  • FIG. 3 is a functional block diagram illustrating the configuration of the SP according to the first embodiment.
  • the configurations of SP98a, SP98b, SP99a, SP99b, SP100b, SP101a, and SP101b are the same as the configuration of SP98a.
  • the SP 100a includes a communication unit 201, a mutual monitoring table 202, a monitoring target specifying unit 203, a monitoring request response unit 204, a mutual monitoring unit 205, a power control unit 206, an abnormality processing unit 207, a maintenance unit 208, A system control unit 209 and a power source 210 are included.
  • the power supply control unit 206 is connected to the power supply and the bus of the SP 100b in the same information processing apparatus as the own apparatus.
  • the power supply 210 is connected to a power supply control unit included in the SP 100b in the same information processing apparatus as that of the own apparatus through a bus.
  • the communication unit 201 controls exchange of information with the SP connected via the network. For example, the communication unit 201 transmits a packet generated by the monitoring target specifying unit 203 described later to the SP 99a. In addition, the communication unit 201 outputs the packet received from the SP 99a to the monitoring target specifying unit 203 described later.
  • the mutual monitoring table 202 stores information such as SPs that are mutually monitored by the own device.
  • An example of information stored as the mutual monitoring table 202 will be described with reference to FIG.
  • FIG. 4 is a diagram illustrating an example of information stored as a mutual monitoring table. As shown in FIG. 4, the mutual monitoring table 202 stores “IP address”, “device type”, and “mutual monitoring target” in association with each other.
  • IP address stored as the mutual monitoring table 202 indicates an IP (Internet Protocol) address assigned to each SP. For example, “192.168.1.98”, “192.168.1.99”, “192.168.1.100”, and the like are stored in the “IP address”.
  • the “device type” stored as the mutual monitoring table 202 indicates whether or not the SP associated with the IP address is the same type of device as the own device.
  • the “same type device” here indicates that the device type is the same type.
  • “device type” stores “same device” indicating the same device, “self device” indicating the own device, and the like.
  • “mutual monitoring target” stored as the mutual monitoring table 202 indicates whether or not the SP linked by the IP address is the mutual monitoring target.
  • “mutual monitoring target” indicates “SP that is a target for mutual monitoring of the survival state”. For example, “1” is stored in “mutual monitoring target” when the SP linked by the IP address is the mutual monitoring target, and “0” is stored when the SP linked by the IP address is not the mutual monitoring target. Stored.
  • the mutual monitoring table 202 indicates that the SP whose IP address is “192.168.1.98” is the same type of device and is not a target for mutual monitoring. Further, the mutual monitoring table 202 indicates that the SP whose IP address is “192.168.1.99” is the same type of device and is a mutual monitoring target.
  • the monitoring target specifying unit 203 specifies the SPs that are to be monitored for the living state from among the active SPs connected to the own apparatus via the network.
  • the monitoring target specifying unit 203 specifies the same type of device that can be a candidate for the SP that is the target of monitoring the survival state. For example, the monitoring target specifying unit 203 communicates by broadcast to all the SPs included in the HPC 1, and detects the same type of device that can be a mutual monitoring target.
  • the monitoring target specifying unit 203 transmits a packet by SNMP (Simple Network Management Protocol) using, for example, IPMI (Intelligent Platform Management Interface).
  • SNMP Simple Network Management Protocol
  • IPMI Intelligent Platform Management Interface
  • FIG. 5 is a diagram illustrating an example of a type determination notification transmitted by the monitoring target specifying unit.
  • the type determination notification transmitted by the monitoring target specifying unit 203 includes fields of “code type” of 2 bytes, “model information” of 2 bytes, “status” of 2 bytes, and “mode” of 2 bytes. .
  • Code type is information indicating whether the packet is a packet for inquiring the same type of device or a response packet to the inquiry. For example, “0001” indicating that the packet is an inquiry for the same type of device and “0002” indicating a response packet are stored in the “code type”.
  • Model information is information indicating the type of device. For example, “0001” indicating that the device type is A, “0002” indicating that the device type is B, and the like are stored in the “model information”.
  • “status” is information indicating the state of the SP. For example, “Status” stores “0001” indicating that the SP is singled, “0002” indicating that the SP is duplexed, “0003” indicating that the SP is in an abnormal state, and the like. Is done.
  • the “mode” is information indicating the operating state of the SP.
  • “mode” includes “0000” indicating that the SP is operating normally, “0001” indicating that the SP is stopped, “0002” indicating that the SP is in a maintenance state, and the like. Stored.
  • the monitoring target specifying unit 203 transmits a type determination notification in which “0001” is stored in the “code type” illustrated in FIG. 5 to all SPs on the network.
  • the monitoring target specifying unit 203 receives a response to the type determination notification from each device of the same type, reads “model information”, and determines whether there is a device of the same type. If the monitoring target specifying unit 203 determines that there are devices of the same type, the monitoring target specifying unit 203 extracts the IP addresses included in the response to the type determination notification for all devices of the same type. Then, the monitoring target specifying unit 203 sorts the extracted list of devices of the same type in the order of IP addresses.
  • the monitoring target specifying unit 203 of the SP 100a receives a response to the type determination notification and sorts a list of devices of the same type in order of IP address.
  • an IP address is assigned to each SP as follows. That is, the IP address “192.168.1.98” is allocated to the SP 98a, and the IP address “192.168.1.99” is allocated to the SP 99a. Further, the IP address “192.168.1.100” is assigned to the SP 100a, and the IP address “192.168.1.101” is assigned to the SP 101a.
  • the assignment of the IP address to each SP is not limited to this, and can be arbitrarily changed.
  • the monitoring target specifying unit 203 receives a response to the type determination notification from SP98a, SP99a, and SP101a that are the same type of devices. Then, the monitoring target specifying unit 203 sorts a list of devices of the same type that have received a response to the type determination notification in the order of IP addresses. As an example, the monitoring target specifying unit 203 sorts IP addresses in the order of “192.168.1.98”, “192.168.1.99”, and “192.168.1.101”.
  • the monitoring target specifying unit 203 selects a mutual monitoring target candidate according to a predetermined rule. For example, the monitoring target specifying unit 203 selects, as a predetermined rule, two devices before and after the own device among the sorted IP addresses as candidates for mutual monitoring targets.
  • the monitoring target specifying unit 203 selects SP99a having an IP address of “192.168.1.99” and SP101a having an IP address of “192.168.1.101” as mutual monitoring target candidates. select.
  • two front and rear are described as mutual monitoring targets.
  • the present invention is not limited to this.
  • one or three or more mutual monitoring targets may be used.
  • the monitoring target specifying unit 203 generates a packet that requests mutual monitoring for the selected candidate for mutual monitoring, and transmits the generated packet to the request destination of mutual monitoring.
  • a packet requesting mutual monitoring is appropriately described as “mutual monitoring target notification”.
  • FIG. 6 is a diagram illustrating an example of a mutual monitoring target notification transmitted by the monitoring target specifying unit 203.
  • the mutual monitoring target notification transmitted by the monitoring target specifying unit 203 is a field of “code type” of 2 bytes, “request code” of 2 bytes, “polling interval” of 2 bytes, and “reserve” of 2 bytes.
  • Code type is information indicating whether the packet is a packet requesting mutual monitoring or a response packet to the request for mutual monitoring. For example, “0001” indicating a packet requesting mutual monitoring and “0002” indicating a response packet to the request for mutual monitoring are stored in the “code type”.
  • “Request code” is information indicating whether the mutual monitoring target notification is a packet requesting mutual monitoring or a notification of the maintenance mode. For example, “request code” stores “0001” indicating that the mutual monitoring target notification is a packet requesting mutual monitoring, and “0002” indicating that the maintenance mode is notified.
  • “Polling interval” is information indicating the interval of mutual monitoring. For example, when mutual monitoring is performed at intervals of 5 seconds, “0005” is stored in the “polling interval”. “Reserve” is a free space and is used to align data to 8 bytes.
  • the monitoring target specifying unit 203 transmits a mutual monitoring target notification in which “0001” is stored in the “request code” illustrated in FIG. 5 and “0005” is stored in the “polling interval” to the candidate for the mutual monitoring target.
  • the monitoring target specifying unit 203 receives a response to the transmitted mutual monitoring target notification from the selected mutual monitoring request destination, and determines whether or not the mutual monitoring target notification is permitted based on the received response. judge.
  • the monitoring target specifying unit 203 determines whether or not the response to the mutual monitoring target notification received from the mutual monitoring request destination includes permission for mutual monitoring.
  • the monitoring target specifying unit 203 determines that a response permitting mutual monitoring has been received when the information indicating that mutual monitoring is permitted is included. Then, the monitoring target specifying unit 203 updates the mutual monitoring table 202 to specify the operational SP that has permitted the mutual monitoring as the mutual monitoring target.
  • the monitoring target specifying unit 203 when the monitoring target specifying unit 203 receives a response permitting mutual monitoring from the SP 99a and the SP 101a, the monitoring target specifying unit 203 updates the mutual monitoring table 202 as shown in FIG. 4 to change the SP 99a and SP 101a to the mutual monitoring target.
  • “1” is stored in the “mutual monitoring target” linked to the IP address “192.168.1.99” of the SP99a, and “1.168.1.101” linked to the IP address “192.168.1.101” of the SP101a.
  • “1” is stored in “mutual monitoring target”.
  • the monitoring target specifying unit 203 determines that a response that does not permit mutual monitoring has been received. As a result, the monitoring target specifying unit 203 selects a new mutual monitoring target candidate, and transmits a mutual monitoring target notification to the selected mutual monitoring target candidate.
  • the monitoring request response unit 204 accepts a request to mutually monitor the living state from the active SP connected to the own apparatus via the network, and permits the monitoring of the living state to each other. It is determined whether or not.
  • the monitoring request response unit 204 determines whether the own device is the same type device as the type determination notification source SP.
  • the monitoring request response unit 204 transmits a response packet to the type determination notification when it determines that the own device is the same type of device as the type determination notification transmission source SP.
  • the monitoring request response unit 204 generates a packet including the device type, information indicating whether the SP is duplexed, and information indicating whether the SP is valid as a mutual monitoring target. Is transmitted to the source SP of the type determination notification as a response to the type determination notification.
  • the monitoring request response unit 204 when the monitoring request response unit 204 receives a mutual monitoring target notification from the active SP connected to the own apparatus via the network, the monitoring request response unit 204 sets the survival status to the transmission source of the received mutual monitoring target notification. It is determined whether or not monitoring is permitted.
  • the monitoring request response unit 204 updates the mutual monitoring table 202 and determines whether it is appropriate as a mutual monitoring target.
  • FIG. 7 is a diagram illustrating an example of the mutual monitoring table updated by the monitoring request response unit.
  • the monitoring request response unit 204 of the SP 99 a whose IP address is “192.168.1.99” receives the mutual monitoring target notification from the SP 100 a whose IP address is “192.168.1.100”.
  • the case where the mutual monitoring table 202 is updated is taken as an example.
  • the SP 99 a stores “1” in “mutual monitoring target” associated with the IP address “192.168.1.100”.
  • the monitoring request response unit 204 determines that the monitoring of the survival state is permitted, the monitoring request response unit 204 generates a packet including the permission for mutual monitoring, and sends the generated packet as a response to the mutual monitoring target notification. It transmits to the transmission source SP of the monitoring target notification.
  • the monitoring request response unit 204 determines that the monitoring of the survival state is not permitted, the monitoring request response unit 204 generates a packet including that the mutual monitoring is not permitted, and uses the generated packet as a response to the mutual monitoring target notification. It transmits to the transmission source SP of the mutual monitoring target notification.
  • the mutual monitoring unit 205 refers to the mutual monitoring table 202, and exchanges the active SP and the survival state in the information processing apparatus connected to the information processing apparatus having the own apparatus via the network. Monitor.
  • the mutual monitoring unit 205 when the monitoring target specifying unit 203 is notified that the mutual monitoring target has been specified, the mutual monitoring unit 205 mutually monitors the active SP and the living state that are the specified mutual monitoring pair. Then, the mutual monitoring unit 205 specifies the mutual monitoring target with reference to the mutual monitoring table 202 after starting the mutual monitoring. That is, when the mutual monitoring table 202 is updated, the mutual monitoring unit 205 performs mutual monitoring with the updated mutual monitoring target.
  • the mutual monitoring unit 205 notifies the power supply control unit 206 that the mutual monitoring has started.
  • the power supply control unit 206 controls the power supply of the SP 100b, which is a standby system, to the own apparatus to be turned off.
  • the mutual monitoring unit 205 monitors the survival status of the mutual monitoring target SP by determining whether or not communication with the mutual monitoring target SP is possible via the communication unit 201. If the mutual monitoring unit 205 determines that communication with the SP as the mutual monitoring target is possible via the communication unit 201, the mutual monitoring unit 205 determines that the SP as the mutual monitoring target is normal. On the other hand, if the mutual monitoring unit 205 determines that communication with the SP as the mutual monitoring target cannot be performed via the communication unit 201, the mutual monitoring unit 205 determines that the mutual monitoring target SP is abnormal.
  • the mutual monitoring unit 205 determines that the SP to be monitored is abnormal, the mutual monitoring unit 205 notifies the abnormality processing unit 207 of its own device that communication with the mutual monitoring target is no longer possible. As a result, the abnormality processing unit 207 executes abnormality processing described later.
  • the mutual monitoring unit 205 executes the mutual monitoring with the updated mutual monitoring target.
  • the power control unit 206 receives various notifications from the mutual monitoring unit 205, the abnormality processing unit 207, or the maintenance unit 208, and turns on or off the power source 210 or turns on the power source of the SP 100b in the same information processing apparatus as the own device. And control off.
  • the power control unit 206 has a power supply that the SP 100b that is the standby system has. Control off.
  • the power supply control unit 206 controls the power supply of the SP 100b that is the standby system to be turned on for its own device when it is determined by the abnormality processing unit 207, which will be described later, that the active SP to be monitored cannot be specified. .
  • the power supply control unit 206 controls the power supply 210 to be turned on. This control is executed when the SP 100a is a standby system with respect to the SP 100b and an abnormality occurs in the operating system SP 100b.
  • the power control unit 206 controls the power supply of the SP 100b that is the standby system to be turned on.
  • the power supply control unit 206 when the power supply control unit 206 is notified by the maintenance unit 208 that the power supply of the standby system SP 100b is controlled to be turned on, the power supply unit 206 has the power supply of the standby system SP 100b. Control on. This control is executed when the maintenance unit 208 receives a maintenance setting notification from the active SP that is the target of mutual monitoring and determines that the active SP that is the target of mutual monitoring cannot be identified. The maintenance setting notification will be described later.
  • the abnormality processing unit 207 executes the abnormality processing. For example, the abnormality processing unit 207 controls to turn on the power of the standby system SP99b for the SP99a to be monitored.
  • the abnormality processing unit 207 notifies the abnormality processing unit included in the SP 99b that an abnormality has occurred in the SP 99a via the communication unit 201.
  • the abnormality processing unit included in the SP99b notifies the power supply control unit to turn on the power supply included in the own device.
  • the abnormality processing unit 207 specifies a new mutual monitoring target according to a predetermined rule.
  • the predetermined rule here is the same as the predetermined rule used in the description of the monitoring target specifying unit 203.
  • the abnormality processing unit 207 updates the mutual monitoring table 202 so that the SP in which an abnormality has occurred is excluded from the mutual monitoring target, and specifies a new candidate for the mutual monitoring target from the updated mutual monitoring table 202.
  • the operation of the abnormality processing unit 207 will be described by taking as an example a case where an abnormality has occurred in the SP 99a whose IP address is “192.168.1.99”.
  • the abnormality processing unit 207 stores “0” in the “mutual monitoring target” corresponding to the IP address “192.168.1.99” and the SP 98 a having the IP address “192.168.1.98”. Identify candidates for mutual monitoring.
  • the abnormality processing unit 207 generates a mutual monitoring target notification requesting the mutual monitoring target candidate for the specified mutual monitoring target, and transmits the generated mutual monitoring target notification to the request destination of the mutual monitoring.
  • the mutual monitoring target notification transmitted by the abnormality processing unit 207 is the same as the mutual monitoring target notification transmitted by the monitoring target specifying unit 203.
  • the abnormality processing unit 207 receives a response to the transmitted mutual monitoring target notification from the active SP that is a candidate for the mutual monitoring target, and determines whether or not the mutual monitoring target notification is permitted based on the received response. judge.
  • the abnormality processing unit 207 determines whether or not the response to the mutual monitoring target notification received from the active SP includes permission for mutual monitoring. Here, if it is included that permission for mutual monitoring is included, the abnormality processing unit 207 determines that a response permitting mutual monitoring has been received, updates the mutual monitoring table 202, and newly selects a candidate for mutual monitoring. Specified as a target for mutual monitoring.
  • the abnormality processing unit 207 when the abnormality processing unit 207 receives a response permitting mutual monitoring from the SP 98a, the abnormality processing unit 207 sets “1” to “mutual monitoring target” corresponding to the IP address “192.168.1.98” of the SP 98a. Store.
  • the abnormality processing unit 207 determines that a response that does not permit mutual monitoring has been received. As a result, the abnormality processing unit 207 identifies a new mutual monitoring target candidate, and transmits a mutual monitoring target notification to the identified mutual monitoring target candidate.
  • the abnormality processing unit 207 controls the power supply control unit 206 to turn on the power of the SP 100b that is a standby system for the own device. To be notified.
  • the maintenance unit 208 When the maintenance unit 208 is set to the maintenance mode by the user, the maintenance unit 208 notifies the power supply control unit 206 that the maintenance mode is set. As a result, the power supply control unit 206 controls the power supply of the SP 100b, which is a standby system, to the own apparatus.
  • the maintenance mode indicates that the SP receives a work for maintaining its own device.
  • the maintenance unit 208 when the own device is set to the maintenance mode, notifies the maintenance unit of the active SP that mutually monitors the survival state that the own device is set to the maintenance mode, Generate and send a packet requesting that the device be removed from the mutual monitoring target. In such a case, the maintenance unit 208 stores “0002” indicating that the maintenance mode is to be notified in the “request code” of the mutual monitoring target notification, and transmits it to the mutual monitoring target. In the following, a packet for notifying that the maintenance mode has been set is appropriately described as “maintenance setting notification”.
  • the maintenance unit 208 determines whether there is a candidate for mutual monitoring.
  • the maintenance unit 208 transmits a mutual monitoring target notification to the mutual monitoring target candidate.
  • the maintenance unit 208 receives a response to the transmitted mutual monitoring target notification from the active SP that is a candidate for the mutual monitoring target, and determines whether the mutual monitoring target notification is permitted based on the received response.
  • the maintenance unit 208 determines whether or not the response to the mutual monitoring target notification received from the active SP includes permission for mutual monitoring. Here, if it is included that permission for mutual monitoring is included, the maintenance unit 208 determines that a response permitting mutual monitoring has been received, updates the mutual monitoring table 202, and sets a new candidate for mutual monitoring. Identify as mutual monitoring targets.
  • the maintenance unit 208 determines that it has received a response that does not permit mutual monitoring if it does not include permission to permit mutual monitoring. As a result, the maintenance unit 208 identifies a new mutual monitoring target candidate, and transmits a mutual monitoring target notification to the identified mutual monitoring target candidate.
  • the maintenance unit 208 controls the power source control unit 206 to turn on the power of the SP 100b that is a standby system for the own device.
  • the maintenance unit 208 sets that the maintenance mode is set in the nonvolatile area of the SP 100a.
  • the value set in this non-volatile area is retained without being erased even when the SP 100a reboots.
  • the system control unit 209 controls the information processing apparatus 100 by monitoring the operation status in the information processing apparatus 100 and acquiring an operation history.
  • the power source 210 is a power source for the SP 100a, and is controlled to be turned on / off by the power source control unit 206 and the power source control unit of the SP 100b.
  • the monitoring target specifying unit 203, the monitoring request response unit 204, the mutual monitoring unit 205, the power supply control unit 206, the abnormality processing unit 207, the maintenance unit 208, and the system control unit 209 are, for example, an ASIC (Application Specific Integrated Circuit). It can be created with an integrated circuit.
  • ASIC Application Specific Integrated Circuit
  • FIG. 8A is a diagram illustrating a processing operation for transmitting a type determination notification
  • FIG. 8B is a diagram illustrating a processing operation for transmitting a mutual monitoring target notification
  • FIG. 8C illustrates a processing operation after starting the mutual monitoring.
  • both the SP 100a and the SP 100b are powered on. Then, the SP 100a that is the active system transmits a type determination notification to each SP of the information processing devices 98, 99, 101, and 102 (step S11).
  • the SP 100a receives a response to the type determination notification (step S12), and transmits a mutual monitoring target notification to the SP 99a and SP 101a based on the received response (step S13).
  • the SP 100a receives a response permitting mutual monitoring from the SP 99a and SP 101a
  • the SP 100a starts mutual monitoring with the SP 99a and SP 101a.
  • the SP 100a starts mutual monitoring with the SP 99a and the SP 101a (step S14), and controls the SP 100b to be turned off (step S15). In this way, by controlling the power supply of the standby system SP 100b to be off, the SP 100a can reduce the power consumption of the standby system.
  • FIG. 9A is a diagram showing a processing operation when an abnormality occurrence is detected
  • FIG. 9B is a diagram showing a processing operation for requesting mutual monitoring after the occurrence of the abnormality is detected
  • FIG. 9C is a diagram showing mutual monitoring. It is a figure which shows an example of the mutual monitoring table updated when the response to permit is received.
  • the SP 100a performs mutual monitoring with the SP 99a and the SP 101a (step S16), and detects that an abnormality has occurred in the SP 99a. Then, the SP 100a controls the SP 99a that is a standby system to turn on the power to the SP 99a (step S17).
  • the SP 100a removes the SP 99a from the mutual monitoring target (step S18), and transmits a mutual monitoring target notification to the SP 98a (step S19).
  • the SP 100a receives a response permitting mutual monitoring from the SP 98a (step S20)
  • the SP 100a updates the mutual monitoring table 202 as shown in FIG. 9C. That is, the SP 100a stores “1” in “mutual monitoring target” associated with the IP address “192.168.1.98” (step S21).
  • FIG. 10 is a diagram illustrating a processing operation when there is no mutual monitoring partner.
  • FIG. 10 shows a case where the SP 100a has transmitted a mutual monitoring target notification (step S22), but no response permitting mutual monitoring has been received from any of the SP 98a, SP 99a, and SP 101a.
  • the SP 100a controls the SP 100b to turn on (step S23), and is duplexed by the SP 100b without performing mutual monitoring with other operational SPs.
  • FIG. 11 is a diagram illustrating a processing operation at the time of maintenance setting.
  • SP98a and SP99a mutually monitor
  • SP99a and SP100a mutually monitor
  • SP100a and SP101a mutually monitor.
  • the SP 100a controls the power supply of the SP 100b to be turned on (step S24), and transmits a maintenance setting notification to the SP 99a and SP 101a that are the mutual monitoring targets (step S25).
  • the SP 100a receives a response to the maintenance setting notification from the SP 99a and the SP 101a, the SP 100a is excluded from the mutual monitoring target by the SP 99a and the SP 101a.
  • SP99a and SP101a start mutual monitoring (step S26).
  • FIG. 12 is a flowchart illustrating the processing procedure of the processing by the SP according to the first embodiment.
  • the SPs 98a, 99a, 100a, and 101a execute processing when the own apparatus is activated. Further, in this case, it is assumed that the power of the standby system SP is also turned on.
  • the overall processing flow will be described using the SP 100a as an example, but the same processing is executed in other SPs.
  • the SP 100a detects a device to be mutually monitored (step S101). Then, the SP 100a performs mutual monitoring with the detected device (step S102), and determines whether or not an abnormality has occurred in the devices to be mutually monitored (step S103).
  • step S103 when the SP 100a determines that an abnormality has occurred in the devices to be mutually monitored (step S103, Yes), the SP 100a executes an abnormality process (step S104). Then, the SP 100a proceeds to Step S105 after executing the abnormality process. On the other hand, when the SP 100a determines that no abnormality has occurred in the devices to be monitored with each other (step S103, No), the process proceeds to step S105.
  • the SP 100a proceeds to Step S105 and determines whether or not the maintenance setting has been accepted (Step S105).
  • Step S105 determines whether or not the maintenance setting has been accepted
  • the SP 100a proceeds to Step S102 and executes mutual monitoring.
  • step S105 determines that the maintenance setting has been accepted (step S105, Yes)
  • the SP 100a executes the maintenance process (step S106) and ends the process.
  • FIG. 13 is a flowchart illustrating a processing procedure of processing for requesting mutual monitoring by the SP according to the first embodiment. This process corresponds to the process of step S101 shown in FIG.
  • a process for requesting mutual monitoring will be described using the SP 100a as an example, but the same process is executed in other SPs.
  • the SP 100a searches for devices of the same type via the network (step S201).
  • the SP 100a determines whether there is a device of the same type (step S202).
  • the SP 100a determines that there are devices of the same type (step S202, Yes)
  • it extracts all devices of the same type (step S203).
  • the SP 100a sorts the extracted list of devices of the same type in the order of IP addresses (step S204). Subsequently, the SP 100a identifies a mutual monitoring target according to a predetermined rule, and transmits a mutual monitoring target notification to the identified mutual monitoring target (step S205). Thereafter, the SP 100a determines whether or not a response permitting mutual monitoring has been received (step S206).
  • the SP 100a determines that a response permitting mutual monitoring has been received (step S206, Yes)
  • the SP 100a updates the mutual monitoring table 202 (step S207) and executes mutual monitoring (step S208). Then, the SP 100a turns off the power of the standby system SP 100b with respect to its own device (step S209), and ends the process of requesting mutual monitoring.
  • step S202 determines in step S202 that there is no device of the same type (No in step S202)
  • the SP 100a operates redundantly with the SP 100b (step S210), and executes survival monitoring (step S211). Then, the SP 100a ends the process for requesting mutual monitoring. If the SP 100a determines in step S206 that a response that does not permit mutual monitoring has been received (step S206, No), the process proceeds to step S205.
  • FIG. 14 is a flowchart showing a processing procedure of processing when an abnormality occurs due to SP. This process corresponds to the process of step S104 shown in FIG. Further, here, the processing when an abnormality occurs by the SP 100a will be described by taking as an example the case where an abnormality occurs in the SP 99a.
  • the SP 100a confirms the state of the standby system SP 99b with respect to the SP 99a that has become unable to communicate (step S301), and determines whether or not the power is on (step S302). If the SP 100a determines that the power of the SP 99b is not turned on (No at Step S302), the SP 100a turns on the power of the standby system SP 99b with respect to the SP 99a (Step S303), and proceeds to Step S304.
  • step S302 when the SP 100a determines that the power source of the SP 99b is on (step S302, Yes), the SP 100a proceeds to step S304. That is, the SP 100a updates the mutual monitoring table 202 (step S304).
  • the SP 100a determines whether or not a mutual monitoring target exists (step S305). If the SP 100a determines that a mutual monitoring target exists (step S305, Yes), the SP 100a identifies the mutual monitoring target according to the rule, and transmits a mutual monitoring target notification to the identified mutual monitoring target (step S306). Thereafter, the SP 100a determines whether or not a response permitting mutual monitoring has been received (step S307).
  • step S307 when the SP 100a determines that a response permitting mutual monitoring has been received (step S307, Yes), the SP 100a updates the mutual monitoring table 202 (step S308) and executes mutual monitoring (step S309). On the other hand, if the SP 100a determines in step S307 that it has received a response that does not permit mutual monitoring (No in step S307), the process proceeds to step S306.
  • step S305 If the SP 100a determines in step S305 that there is no mutual monitoring target (No in step S305), the SP 100a executes the following processing. That is, the SP 100a turns on the power to the SP 100b that is a standby system for its own device (step S310), and monitors the survival (step S311). The SP 100a ends the process when an abnormality occurs after the process of step S309 or the process of step S311 ends.
  • FIG. 15 is a flowchart showing a processing procedure of notification processing at the time of maintenance setting by the SP. This process corresponds to the process of step S106 shown in FIG.
  • the notification process at the time of maintenance setting will be described using the SP 100a as an example, but the same process is executed in other SPs.
  • the SP 100a accepts the maintenance setting (step S401), and turns on the power of the standby system SP 100b to the own apparatus (step S402). Then, the SP 100a notifies the maintenance setting to the mutual monitoring target (step S403).
  • the SP 100a obtains a response from the mutual monitoring target, updates the mutual monitoring table 202 (step S404), and ends the process.
  • FIG. 16 is a flowchart illustrating a processing procedure of a response process to the mutual monitoring target notification by the SP.
  • the SPs 98a, 99a, 100a, and 101a execute processing upon receiving the type determination notification.
  • the response process for the mutual monitoring target notification will be described taking the case where the SP 99a receives the mutual monitoring target notification from the SP 100a as an example, but similar processing is also executed in other SPs.
  • the SP 99a accepts the type determination notification (step S501) and responds to the accepted type determination notification (step S502). Then, the SP 99a determines whether or not a mutual monitoring target notification has been received (step S503). Here, when the SP 99a determines that the mutual monitoring target notification has not been received (step S503, No), the process ends.
  • the SP 99a determines whether or not the partner device, the SP 100a is appropriate as the mutual monitoring target (step S504).
  • Step S504 when the SP 99a determines that the counterpart device is valid as a mutual monitoring target (Yes in Step S504), the SP 99a updates the mutual monitoring table 202 (Step S505). Further, the SP 99a responds that the partner device is permitted as a mutual monitoring target (step S506), and ends the process.
  • step S504 the SP 99a determines that the counterpart device is not valid as a mutual monitoring target (No in step S504), the SP 99a responds that the counterpart device is not permitted as a mutual monitoring target (step S507), and ends the process.
  • FIG. 17 is a flowchart illustrating a processing procedure of processing to respond to the maintenance setting notification.
  • the SPs 98a, 99a, 100a, and 101a execute processing upon receiving the maintenance setting notification.
  • the process of responding to the maintenance setting notification will be described by taking the case where the SP 99a receives the maintenance setting notification from the SP 100a as an example, but the same processing is executed in other SPs.
  • the SP 99a accepts the maintenance setting notification (step S601), and determines whether or not there is a mutual monitoring target (step S602). If the SP 99a determines that a mutual monitoring target exists (step S602, Yes), the SP 99a identifies the mutual monitoring target according to the rule, and transmits a mutual monitoring target notification to the specified mutual monitoring target (step S603). Thereafter, the SP 99a determines whether or not a response permitting mutual monitoring has been received (step S604).
  • step S604 If the SP 99a determines that a response permitting mutual monitoring has been received (step S604, Yes), it updates the mutual monitoring table 202 (step S605), executes mutual monitoring (step S606), and step S610. Migrate to On the other hand, if the SP 99a determines in step S604 that a response that does not permit mutual monitoring has been received (step S604, No), the process proceeds to step S603.
  • step S602 when it is determined in step S602 that there is no mutual monitoring target (step S602, No), the following processing is executed. That is, the SP 99a turns on the power of the device SP99b that is a standby system for the device itself (step S607), and monitors the survival (step S608). Then, the SP 99a updates the mutual monitoring table 202 (step S609), and proceeds to step S610.
  • step S610 the SP 99a transmits a response to the maintenance setting notification (step S610), and ends the process of responding to the maintenance setting notification.
  • the SP according to the first embodiment controls the power supply of the SP that is a standby system to be on for the mutual monitoring target when an abnormality occurs in the mutual monitoring target. Then, a target to be mutually monitored is selected from operational SPs included in other information processing apparatuses. As described above, the SP according to the first embodiment automatically detects a target to be mutually monitored. For this reason, the user can omit the trouble of changing the definition even if an abnormality occurs in the mutual monitoring target or the configuration of the data center is changed by newly adding an information processing apparatus to the HPC 1. it can.
  • the SP according to the first embodiment operates in a duplex manner by turning on the power of the SP that is a standby system for the own device when there is no mutual monitoring target. That is, the SP according to the first embodiment can turn off the standby SP until no mutual monitoring target exists. As a result, in the power control method using the SP according to the first embodiment, a high power saving effect can be obtained. Further, the SP according to the first embodiment can realize power saving without applying an extra load to the network by limiting the range of mutual monitoring by each SP.
  • the SP according to the first embodiment notifies the SPs that are to be mutually monitored to remove the own device from the mutual monitoring target. Then, the SP that has been performing mutual monitoring with the SP to be maintained selects a new mutual monitoring target, and performs mutual monitoring with the selected SP. As a result, the SP that has mutually monitored the devices to be maintained erroneously recognizes that the SP to be maintained has failed even when the information processing device having the SP to be maintained or the SP to be maintained is turned off. Can be prevented.
  • the SP according to the first embodiment can arbitrarily change a predetermined rule for selecting a mutual monitoring target and a mutual monitoring interval. For this reason, the user can apply the power control method disclosed in the present application in accordance with the scale of the data center.
  • the power control method disclosed in the present application can be realized with the current hardware configuration without newly adding physical parts or devices. For this reason, for example, the user can save the cost for initial investment when saving power in the data center.
  • the present invention may be implemented in various different forms other than the above-described embodiments.
  • the second embodiment another embodiment included in the present invention will be described.
  • a computer system in which information processing apparatuses having redundant system control apparatuses are connected via a network has been described as an example.
  • the disclosed technology is not limited thereto.
  • the disclosed technique can also be applied to an electronic apparatus having a duplex system control apparatus.
  • the SP is used as an example of the system control device.
  • the present invention is not limited to this. For example, it can be used to reduce power consumption in other duplex system systems.
  • the case where an abnormality occurs in the operational SP has been described.
  • the SP in which the abnormality has occurred is replaced with a normal SP.
  • the disclosed technique can also be applied to such a case.
  • the standby SP when an abnormality occurs in the operational SP in the duplexed SP, the standby SP operates. Then, the SP duplex configuration is restored by replacing the SP in which an abnormality has occurred with a normal SP. Then, the operational SP executes mutual monitoring again after the SP duplex configuration is established. This mutual monitoring is executed according to the processing procedure described in the first embodiment. As a result, the active SP can control the standby SP to be turned off when mutual monitoring is established. That is, the power consumption of the standby SP can be reduced.
  • the monitoring target specifying unit 203 has been described as receiving a response to the type determination notification from the SP, which is the same type of device, and sorting in order of IP address, but is not limited to this.
  • the monitoring target specifying unit 203 may sort in the order of MAC (Media Access Control) addresses.
  • the information stored in the illustrated mutual monitoring table 202 is merely an example, and it is not always necessary to store the information as illustrated.
  • the mutual monitoring table 202 may store only “IP address” and “mutual monitoring target” in association with each other.
  • each illustrated component does not necessarily have to be physically configured as illustrated.
  • the monitoring target specifying unit 203 and the monitoring request response determining unit 204 may be integrated.
  • all or a part of each processing function performed in each device may be realized by a CPU and a program that is analyzed and executed by the CPU, or may be realized as hardware by wired logic.

Abstract

 ネットワークを介して他の情報処理装置と接続された情報処理装置に含まれるSP(100a)は、相互監視部(205)と、電源制御部(206)とを有する。相互監視部(205)は、他の情報処理装置が有する運用系のSPと生存状態を相互に監視する。電源制御部(206)は、相互監視部(205)が他の情報処理装置が有する運用系のSPの生存状態の監視を開始した場合、情報処理装置が有する他のSPの電源をオフに制御する。

Description

システム制御装置、電力制御方法及び電子システム
 本発明は、システム制御装置、電力制御方法及び電子システムに関する。
 従来、複数の情報処理装置を有するスーパーコンピュータでは、部品の故障が起きてもシステムを停止させずに動作し続けられるように、大部分の部品が二重化または冗長化されている。このようなスーパーコンピュータを構築する技術として、例えば、HPC(High Performance Computer:以降、HPCと記す)がある。
 例えば、HPCにおいて、情報処理装置の制御を行うサービスプロセッサ(Service Processor:以降、SPと記す)が二重化されており、情報処理装置は、アクティブ側SPとスタンバイ側SPとを有する。
 アクティブ側SPは、運用系として情報処理装置の制御を行う。一方、スタンバイ側SPは待機系であり、通常時には情報処理装置の制御を行わず待機している。そして、スタンバイ側SPは、アクティブ側SPの生存状態を常時監視し、アクティブ側が故障した場合に、自身をアクティブ側に切り替えることで、情報処理装置の動作を継続させる。
 また、二重化されたSPに加えて、監視を専用に行う装置を用いて情報処理装置の生存を監視する技術も知られている。
特開平9-274575号公報
 しかしながら、上述した従来の技術では、待機系であるシステム制御装置が無駄に電力を消費するという課題がある。
 具体的には、従来の技術では、スタンバイ側SPは、通常時には待機しているだけであり、システムの制御を実行していない。このため、システムに障害が生じなければ、スタンバイ側SPは無駄に電力を消費するだけであるが、部品が故障した場合のシステムの可用性を想定すると、HPCは、SPの冗長構成や二重化構成を解除することはできない。このため、スタンバイ側SPの電源は常に入ったままにすることになる。また、監視を専用に行う装置を用いた場合でも同様に電源は常に入ったままである。
 さらに、HPCは高性能を求められており、データセンター全体として数百台の装置が導入される場合がある。このように多数の装置が導入されると、消費電力は非常に大きくなるので、装置1台あたりの消費電力を減らすことが望まれている。
 本発明の1つの側面では、待機系であるシステム制御装置の消費電力を削減することができるシステム制御装置、電力制御方法及び電子システムを提供することを目的とする。
 第1の案では、ネットワークを介して他の電子装置と接続された電子装置に含まれるシステム制御装置である。システム制御装置は、他の電子装置が有する運用系のシステム制御装置と生存状態を相互に監視する。そして、システム制御装置は、他の電子装置が有する運用系のシステム制御装置の生存状態の監視を開始した場合、電子装置が有する他のシステム制御装置の電源をオフに制御する。
 本発明の1側面では、待機系であるシステム制御装置の消費電力を削減することができる。
図1は、HPCのシステム構成例を示す図である。 図2は、情報処理装置の構成を示すブロック図である。 図3は、実施例1に係るSPの構成を示す機能ブロック図である。 図4は、相互監視テーブルとして記憶される情報の一例を示す図である。 図5は、監視対象特定部が送信する種別判定通知の一例を示す図である。 図6は、監視対象特定部が送信する相互監視対象通知の一例を示す図である。 図7は、監視依頼応答部により更新される相互監視テーブルの一例を示す図である。 図8Aは、種別判定通知を送信する処理動作を示す図である。 図8Bは、相互監視対象通知を送信する処理動作を示す図である。 図8Cは、相互監視を開始後の処理動作を示す図である。 図9Aは、異常発生を検出した場合の処理動作を示す図である。 図9Bは、異常発生を検出した後の相互監視を要求する処理動作を示す図である。 図9Cは、相互監視を許可する応答を受信した場合に更新された相互監視テーブルの一例を示す図である。 図10は、相互監視相手が存在しない場合の処理動作を示す図である。 図11は、保守設定時の処理動作を示す図である。 図12は、実施例1に係るSPによる処理の処理手順を示すフローチャートである。 図13は、実施例1に係るSPによる相互監視を要求する処理の処理手順を示すフローチャートである。 図14は、実施例1に係るSPによる異常発生時の処理の処理手順を示すフローチャートである。 図15は、実施例1に係るSPによる保守設定時の通知処理の処理手順を示すフローチャートである。 図16は、実施例1に係るSPによる相互監視対象通知に対する応答処理の処理手順を示すフローチャートである。 図17は、保守設定通知に応答する処理の処理手順を示すフローチャートである。
 以下に、システム制御装置、電力制御方法及び電子システムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 実施例1では、システム制御装置の一例として、サービスプロセッサ(Service Processor:以降、SPと記す)を例に挙げて説明する。このSPは、複数の情報処理装置を有する、HPC(High Performance Computer:以降、HPCと記す)において、各情報処理装置に設けられる。
 以下では、図1から図15を用いて、HPCのシステム構成例、実施例1に係るSPの構成、実施例1に係るSPによる処理動作、実施例1に係るSPによる処理の処理手順、実施例1の効果を順に説明する。
[HPCのシステム構成例]
 図1は、HPCのシステム構成例を示す図である。図1に示すように、HPC1は、情報処理装置98、99、100、101、102を有する。そして、各情報処理装置は、ネットワークを介して他の情報処理装置と互いに通信可能に接続される。なお、図1に示すHPCのシステム構成例は、あくまで一例であり、情報処理装置の台数はこれに限定されるものではない。
 情報処理装置98が有するSP98a及びSP98bは、情報処理装置98とは独立して動作し、情報処理装置98の制御を行う。ここで、SP98a及びSP98bのうち一方が情報処理装置98の制御を行う運用系として動作し、他方は情報処理装置98の制御を行わずに待機する待機系である。
 そして、待機系であるSPは、運用系であるSPが故障した場合に自身を運用系に切り替えて情報処理装置98を制御する動作を継続する。すなわち、情報処理装置98において、SPは、SP98aとSP98bとによって二重化されている。なお、以下の説明では、特記しない限りSP98aを運用系、SP98bを待機系として説明する。
 また、情報処理装置99、100、101の構成は、情報処理装置98の構成と同様であるので、情報処理装置99、100、101の構成については、詳細な説明を省略する。なお、情報処理装置99が有するSP99aを運用系、SP99bを待機系とし、情報処理装置100が有するSP100aを運用系、SP100bを待機系とし、情報処理装置101が有するSP101aを運用系、SP101bを待機系として説明する。
 情報処理装置102は、情報処理装置98と異なりSP102aのみを有する。すなわち、情報処理装置102において、SPは、二重化されていない。なお、SP102aは常時運用系として動作するが、以下の説明における運用系SPには、SP102aを含まないものとして説明する。
 また、図1に示すSP98a、SP98b、SP99a、SP99b、SP100a、SP100b、SP101a、SP101bは、装置タイプがAであるものとし、SP102aは装置タイプがBであるとする。すなわち、SP98a、SP98b、SP99a、SP99b、SP100a、SP100b、SP101a、SP101bは、同種の装置である。
 このようなHPC1において、同種の各運用系SPは、所定のルールに従って選択した他の運用系SPと生存状態を相互に監視する。すなわち、同種の各運用系SPは、他の運用系SPによって二重化される。そして、各運用系SPが他の運用系SPと生存状態を相互監視することで、各待機系SPは、自身に対する運用系SPの監視をしなくてもよくなる。この結果、各待機系SPの電源がオフに制御される。
[情報処理装置の構成]
 次に、図2を用いて、情報処理装置98、99、100、101、102の構成を説明する。図2は、情報処理装置の構成を示すブロック図である。図2に示すように、情報処理装置98は、SP98a、SP98b、システムボード98c、クロスバボード98d、IO(Input Output)ボード98e、パネル98f、ファン98g、電源98hを有する。
 なお、ここでは、情報処理装置98を例に情報処理装置の構成を説明するが、情報処理装置99、100、101の構成についても情報処理装置98の構成と同様である。また、情報処理装置102の構成は、SPが二重化されていない点を除けば、情報処理装置98の構成と同様である。また、SP98a及びSP98bについては後述するので、ここでは、システムボード98c、クロスバボード98d、IOボード98e、パネル98f、ファン98g、電源98hについて説明する。
 システムボード98cは、複数のCPUとDIMM(Dual Inline Memory Module)とを有し、各種演算処理を実行する。情報処理装置98は、このシステムボード98cを複数有し、クロスバボード98dを介して各システムボード間のデータをやり取りする。
 IO(Input Output)ボード98eは、PCI(Peripheral Component Interconnect)スロットを有し、システムボード98cと、ネットワークによって接続される外部のIO装置との間のデータの入出力を制御する。また、IOボード98eは、ハードディスクを内蔵していてもよい。
 パネル98fは、電源98hをオン、オフに制御する操作を利用者から受け付けるインターフェースを提供する。また、パネル98fは、情報処理装置98の稼動時間など情報処理装置98内部の情報を利用者が視認可能に出力する。
 ファン98gは、情報処理装置98が有するシステムボード98c、クロスバボード98d、IOボード98eなどの電子機器を冷却する。
 電源98hは、情報処理装置に電力を供給する。この電源98hは、予備の電源を有していてもよい。
[実施例1に係るSPの構成]
 次に、図3を用いて、実施例1に係るSP98a、SP98b、SP99a、SP99b、SP100a、SP100b、SP101a、SP101bの構成を説明する。ここでは、図1に示すSP100aの構成を例にして説明する。図3は、実施例1に係るSPの構成を示す機能ブロック図である。なお、SP98a、SP98b、SP99a、SP99b、SP100b、SP101a、SP101bの構成は、SP98aの構成と同様である。
 図3に示すように、SP100aは、通信部201、相互監視テーブル202、監視対象特定部203、監視依頼応答部204、相互監視部205、電源制御部206、異常処理部207、保守部208、システム制御部209、電源210を有する。ここで、電源制御部206は、自装置と同じ情報処理装置内のSP100bが有する電源とバスにより接続される。また、電源210は、自装置と同じ情報処理装置内のSP100bが有する電源制御部とバスにより接続される。
 通信部201は、ネットワークを介して接続されるSPとの情報のやり取りを制御する。例えば、通信部201は、後述する監視対象特定部203によって生成されたパケットをSP99aに送信する。また、通信部201は、SP99aから受信したパケットを後述する監視対象特定部203に出力する。
 相互監視テーブル202は、自装置が相互監視しているSPなどの情報を記憶する。図4を用いて、相互監視テーブル202として記憶される情報の一例を説明する。図4は、相互監視テーブルとして記憶される情報の一例を示す図である。図4に示すように、相互監視テーブル202は、「IPアドレス」、「装置の種別」、「相互監視対象」を対応付けて記憶する。
 ここで、相互監視テーブル202として記憶される「IPアドレス」は、各SPに割り当てられたIP(Internet Protocol)アドレスを示す。例えば、「IPアドレス」には、「192.168.1.98」、「192.168.1.99」、「192.168.1.100」などが格納される。
 また、相互監視テーブル202として記憶される「装置の種別」は、IPアドレスで紐付けられるSPが自装置と同種の装置であるか否かを示す。ここでいう「同種の装置」とは、装置タイプが同じ種類であることを示す。例えば、「装置の種別」には、同種の装置であることを示す「同種の装置」、自装置であることを示す「自装置」などが格納される。
 また、相互監視テーブル202として記憶される「相互監視対象」は、IPアドレスで紐付けられるSPが相互監視対象であるか否かを示す。ここでいう「相互監視対象」とは、「生存状態を相互に監視する対象となるSP」のことを示す。例えば、「相互監視対象」には、IPアドレスで紐付けられるSPが相互監視対象である場合、「1」が格納され、IPアドレスで紐付けられるSPが相互監視対象でない場合、「0」が格納される。
 図4に示す例では、相互監視テーブル202は、IPアドレスが「192.168.1.98」であるSPは、同種の装置であり、相互監視対象ではないことを示す。また、相互監視テーブル202は、IPアドレスが「192.168.1.99」であるSPは、同種の装置であり、相互監視対象であることを示す。
 図3に戻り、監視対象特定部203は、自装置とネットワークを介して接続される運用系のSPのなかから生存状態を相互に監視する対象となるSPを特定する。
 まず、監視対象特定部203は、生存状態を相互に監視する対象となるSPの候補となり得る同種の装置を特定する。例えば、監視対象特定部203は、HPC1に含まれるすべてのSPに対してブロードキャストで通信を行い、相互監視対象となり得る同種の装置を検出する。ここで、監視対象特定部203は、例えば、IPMI(Intelligent Platform Management Interface)を利用して、SNMP(Simple Network Management Protocol)でパケットを送信する。なお、監視対象特定部203が送信する、相互監視対象となり得る同種の装置を検出するパケットを「種別判定通知」として説明する。
 図5を用いて、監視対象特定部203が送信する種別判定通知を説明する。図5は、監視対象特定部が送信する種別判定通知の一例を示す図である。図5に示すように、監視対象特定部203により送信される種別判定通知は、2byteの「コードタイプ」、2byteの「モデル情報」、2byteの「ステータス」、2byteの「モード」のフィールドを有する。
 「コードタイプ」は、同種の装置を問い合わせるパケットであるか、問い合わせに対する応答パケットであるかを示す情報である。例えば、「コードタイプ」には、同種の装置を問い合わせるパケットであることを示す「0001」、応答パケットであることを示す「0002」が格納される。
 また、「モデル情報」は、装置の種別を示す情報である。例えば、「モデル情報」には、装置タイプがAであることを示す「0001」、装置タイプがBであることを示す「0002」などが格納される。
 また、「ステータス」は、SPの状態を示す情報である。例えば、「ステータス」には、SPが一重化されていることを示す「0001」、SPが二重化されていることを示す「0002」、SPが異常状態であることを示す「0003」などが格納される。
 また、「モード」は、SPの運転状態を示す情報である。例えば、「モード」には、SPが正常に運転していることを示す「0000」、SPが停止中であることを示す「0001」、SPが保守状態であることを示す「0002」などが格納される。
 例えば、監視対象特定部203は、図5に示す「コードタイプ」に「0001」を格納した種別判定通知をネットワーク上のすべてのSPに送信する。
 続いて、監視対象特定部203は、同種の装置それぞれから種別判定通知に対する応答を受信し、「モデル情報」を読み出し、同一種別の装置があるか否かを判定する。ここで、監視対象特定部203は、同一種別の装置があると判定した場合、全ての同一種別の装置について、種別判定通知に対する応答に含まれるIPアドレスを抽出する。そして、監視対象特定部203は、抽出した同一種別の装置の一覧をIPアドレス順にソートする。
 図1に示す例において、SP100aの監視対象特定部203が種別判定通知に対する応答を受信し、同一種別の装置の一覧をIPアドレス順にソートした場合を説明する。ここで、各SPに対してIPアドレスが以下のように割り当てられているとする。すなわち、SP98aに対してIPアドレス「192.168.1.98」が割り当てられ、SP99aに対してIPアドレス「192.168.1.99」が割り当てられる。また、SP100aに対してIPアドレス「192.168.1.100」が割り当てられ、SP101aに対してIPアドレス「192.168.1.101」が割り当てられる。なお、各SPに対するIPアドレスの割り当てはこれに限定されるものではなく、任意に変更可能である。
 例えば、監視対象特定部203は、同種の装置であるSP98a、SP99a、SP101aから種別判定通知に対する応答を受信する。そして、監視対象特定部203は、種別判定通知に対する応答を受信した同一種別の装置の一覧をIPアドレス順にソートする。一例をあげると、監視対象特定部203は、「192.168.1.98」、「192.168.1.99」、「192.168.1.101」の順にIPアドレスをソートする。
 続いて、監視対象特定部203は、予め定められた所定のルールに従って、相互監視対象の候補を選択する。例えば、監視対象特定部203は、所定のルールとして、ソートしたIPアドレスのうち自装置の前後2つの装置を相互監視対象の候補に選択する。
 例えば、監視対象特定部203は、相互監視対象の候補として、IPアドレスが「192.168.1.99」であるSP99aと、IPアドレスが「192.168.1.101」であるSP101aとを選択する。なお、本実施例において、前後2つを相互監視対象として説明するが、これに限定されるものではなく、例えば、相互監視対象を1つとしても、3つ以上にしてもよい。
 監視対象特定部203は、選択した相互監視対象の候補に相互監視を要求するパケットを生成し、生成したパケットを相互監視の要求先に送信する。なお、以下では、相互監視を要求するパケットのことを「相互監視対象通知」として適宜記載する。
 図6を用いて、監視対象特定部203が送信する相互監視対象通知を説明する。図6は、監視対象特定部203が送信する相互監視対象通知の一例を示す図である。図6に示すように、監視対象特定部203により送信される相互監視対象通知は、2byteの「コードタイプ」、2byteの「依頼コード」、2byteの「ポーリング間隔」、2byteの「リザーブ」のフィールドを有する。
 「コードタイプ」は、相互監視を要求するパケットであるか、相互監視の要求に対する応答パケットであるかを示す情報である。例えば、「コードタイプ」には、相互監視を要求するパケットであることを示す「0001」、相互監視の要求に対する応答パケットであることを示す「0002」が格納される。
 「依頼コード」は、相互監視対象通知が相互監視を要求するパケットであるか、保守モードを通知するものであるかを示す情報である。例えば、「依頼コード」には、相互監視対象通知が相互監視を要求するパケットであることを示す「0001」、保守モードを通知するものであることを示す「0002」が格納される。
 「ポーリング間隔」は、相互監視する間隔を示す情報である。例えば、5秒間隔で相互監視する場合、「ポーリング間隔」には、「0005」が格納される。「リザーブ」は、空き領域であり、データを8byteに揃えるために利用される。
 例えば、監視対象特定部203は、図5に示す「依頼コード」に「0001」を格納し、「ポーリング間隔」に「0005」を格納した相互監視対象通知を相互監視対象の候補に送信する。
 図3に戻り、監視対象特定部203は、送信した相互監視対象通知に対する応答を選択した相互監視の要求先から受信し、受信した応答に基づいて、相互監視対象通知が許可されたか否かを判定する。
 例えば、監視対象特定部203は、相互監視の要求先から受信した相互監視対象通知に対する応答に相互監視を許可する旨が含まれているか否かを判定する。ここで、監視対象特定部203は、相互監視を許可する旨が含まれていた場合、相互監視を許可する応答を受信したと判定する。そして、監視対象特定部203は、相互監視テーブル202を更新して、相互監視を許可した運用系SPを相互監視対象として特定する。
 一例を示すと、監視対象特定部203は、SP99aとSP101aとから相互監視を許可する応答を受信した場合、図4に示すように相互監視テーブル202を更新し、SP99aとSP101aとを相互監視対象として特定する。すなわち、SP99aのIPアドレス「192.168.1.99」に紐付けられる「相互監視対象」に「1」を格納し、SP101aのIPアドレス「192.168.1.101」に紐付けられる「相互監視対象」に「1」を格納する。
 また、監視対象特定部203は、相互監視を許可する旨が含まれていない場合、相互監視を許可するものではない応答を受信したと判定する。この結果、監視対象特定部203は、新たな相互監視対象の候補を選択し、選択した相互監視対象の候補に相互監視対象通知を送信する。
 図3に戻り、監視依頼応答部204は、自装置とネットワークを介して接続される運用系のSPから、生存状態を相互に監視する要求を受付け、生存状態を相互に監視することを許可するか否かを判定する。
 例えば、監視依頼応答部204は、種別判定通知を他の運用系SPから受信した場合、自装置が種別判定通知の送信元SPと同種の装置であるか否かを判定する。監視依頼応答部204は、自装置が種別判定通知の送信元SPと同種の装置であると判定した場合、種別判定通知に対する応答パケットを送信する。ここで、監視依頼応答部204は、装置の種別、SPが二重化されているか否かを示す情報、相互監視対象として妥当であるか否かを示す情報を含んだパケットを生成し、生成したパケットを種別判定通知に対する応答として種別判定通知の送信元SPに送信する。
 また、監視依頼応答部204は、自装置とネットワークを介して接続される運用系のSPから相互監視対象通知を受信した場合、受信した相互監視対象通知の送信元に対して、生存状態を相互に監視することを許可するか否かを判定する。
 例えば、監視依頼応答部204は、相互監視テーブル202を更新し、相互監視対象として妥当であるか否かを判定する。図7は、監視依頼応答部によって更新された相互監視テーブルの一例を示す図である。図7において、IPアドレスが「192.168.1.99」であるSP99aの監視依頼応答部204が、IPアドレスが「192.168.1.100」であるSP100aから相互監視対象通知を受信し、相互監視テーブル202を更新した場合を例にする。図7に示すように、SP99aは、IPアドレスが「192.168.1.100」で紐付けられる「相互監視対象」に「1」を格納する。
 そして、監視依頼応答部204は、生存状態を相互に監視することを許可すると判定した場合、相互監視を許可する旨を含んだパケットを生成し、生成したパケットを相互監視対象通知に対する応答として相互監視対象通知の送信元SPに送信する。
 一方、監視依頼応答部204は、生存状態を相互に監視することを許可しないと判定した場合、相互監視を許可しない旨を含んだパケットを生成し、生成したパケットを相互監視対象通知に対する応答として相互監視対象通知の送信元SPに送信する。
 図3に戻り、相互監視部205は、相互監視テーブル202を参照して、自装置を有する情報処理装置にネットワークを介して接続される情報処理装置内の運用系のSPと生存状態を相互に監視する。
 例えば、相互監視部205は、相互監視対象が特定されたことを監視対象特定部203から通知された場合、特定された相互監視対である運用系のSPと生存状態を相互に監視する。そして、相互監視部205は、相互監視を開始後、相互監視テーブル202を参照して、相互監視対象を特定する。すなわち、相互監視部205は、相互監視テーブル202が更新された場合、更新後の相互監視対象と相互監視を実行する。
 また、相互監視部205は、相互監視を開始したことを電源制御部206に通知する。この結果、電源制御部206は、自装置に対して待機系であるSP100bが有する電源をオフに制御する。
 相互監視部205は、通信部201を介して相互監視対象のSPとの通信ができるか否かを判定することで相互監視対象のSPの生存状態を監視する。そして、相互監視部205は、通信部201を介して相互監視対象のSPとの通信ができると判定した場合、相互監視対象のSPが正常であると判定する。一方、相互監視部205は、通信部201を介して相互監視対象のSPとの通信ができないと判定した場合、相互監視対象のSPが異常であると判定する。
 そして、相互監視部205は、相互監視対象のSPが異常であると判定した場合、相互監視対象との通信ができなくなったことを自装置の異常処理部207に通知する。この結果、異常処理部207は、後述する異常処理を実行する。
 ここで、相互監視部205は、異常処理部207によって相互監視対象が更新された場合、更新された相互監視対象と相互監視を実行する。
 電源制御部206は、相互監視部205、異常処理部207、または保守部208から各種の通知を受付けて、電源210のオンとオフまたは自装置と同じ情報処理装置内のSP100bが有する電源のオンとオフを制御する。
 例えば、電源制御部206は、相互監視部205から、相互監視対象である運用系SPとの相互監視が開始されたことを通知された場合、自装置に対して待機系であるSP100bが有する電源をオフに制御する。
 また、電源制御部206は、後述する異常処理部207によって監視対象となる運用系のSPを特定できないと判定された場合、自装置に対して待機系であるSP100bが有する電源をオンに制御する。
 また、電源制御部206は、異常処理部207から自装置が有する電源210をオンに制御することを通知された場合、電源210をオンに制御する。なお、この制御は、SP100aがSP100bに対して待機系であり、運用系であるSP100bに異常が生じた場合に実行される。
 また、電源制御部206は、後述する保守部208によって保守設定が受付けられたことを通知された場合、自装置に対して待機系であるSP100bが有する電源をオンに制御する。
 また、電源制御部206は、保守部208から自装置に対して待機系であるSP100bが有する電源をオンに制御することを通知された場合、自装置に対して待機系であるSP100bが有する電源をオンに制御する。なお、この制御は、保守部208が相互監視対象である運用系SPから保守設定通知を受信した後に、相互監視対象となる運用系のSPを特定できないと判定した場合に実行される。なお、保守設定通知については後述する。
 図3に戻り、異常処理部207は、相互監視部205から相互監視対象に異常が生じたことを通知された場合、異常処理を実行する。例えば、異常処理部207は、相互監視対象のSP99aに対して待機系であるSP99bの電源をオンに制御する。
 一例をあげると、異常処理部207は、通信部201を介して、SP99bが有する異常処理部にSP99aに異常が生じたことを通知する。この結果、SP99bが有する異常処理部は、自装置が有する電源をオンに制御するように電源制御部に通知する。
 また、異常処理部207は、予め定められた所定のルールに従って、新たな相互監視対象を特定する。なお、ここでいう所定のルールとは、監視対象特定部203の説明に用いた所定のルールと同じものである。例えば、異常処理部207は、異常が生じたSPを相互監視対象から外すように相互監視テーブル202を更新し、更新した相互監視テーブル202から新たな相互監視対象の候補を特定する。
 図4に示す相互監視テーブル202において、IPアドレスが「192.168.1.99」であるSP99aに異常が生じた場合を例に異常処理部207の動作を説明する。異常処理部207は、IPアドレスが「192.168.1.99」に対応する「相互監視対象」に「0」を格納し、IPアドレスが「192.168.1.98」であるSP98aを相互監視対象の候補に特定する。
 そして、異常処理部207は、特定した相互監視対象の候補に相互監視を要求する相互監視対象通知を生成し、生成した相互監視対象通知を相互監視の要求先に送信する。なお、異常処理部207が送信する相互監視対象通知は、監視対象特定部203が送信する相互監視対象通知と同様である。
 また、異常処理部207は、送信した相互監視対象通知に対する応答を相互監視対象の候補である運用系のSPから受信し、受信した応答に基づいて、相互監視対象通知が許可されたか否かを判定する。
 例えば、異常処理部207は、運用系のSPから受信した相互監視対象通知に対する応答に相互監視を許可する旨が含まれているか否かを判定する。ここで、異常処理部207は、相互監視を許可する旨が含まれていた場合、相互監視を許可する応答を受信したと判定し、相互監視テーブル202を更新し、相互監視対象の候補を新たな相互監視対象として特定する。
 一例を示すと、異常処理部207は、SP98aから相互監視を許可する応答を受信した場合、SP98aのIPアドレス「192.168.1.98」に対応する「相互監視対象」に「1」を格納する。
 また、異常処理部207は、相互監視を許可する旨が含まれていない場合、相互監視を許可するものではない応答を受信したと判定する。この結果、異常処理部207は、新たな相互監視対象の候補を特定し、特定した相互監視対象の候補に相互監視対象通知を送信する。
 なお、異常処理部207は、相互監視を許可する応答をいずれのSPからも受信できなかった場合、電源制御部206に、自装置に対して待機系であるSP100bが有する電源をオンに制御するように通知する。
 保守部208は、利用者によって保守モードに設定された場合、保守モードに設定されたことを電源制御部206に通知する。この結果、電源制御部206は、自装置に対して待機系であるSP100bが有する電源をオンに制御する。なお、保守モードとは、SPが、自装置を保守する作業を受けることを示す。
 また、保守部208は、自装置が保守モードに設定された場合、生存状態を相互に監視している運用系のSPが有する保守部に自装置が保守モードに設定されたことを通知し、自装置を相互監視対象から外すことを要求するパケットを生成して送信する。このような場合、保守部208は、相互監視対象通知の「依頼コード」に保守モードを通知するものであることを示す「0002」を格納して、相互監視対象に送信する。なお、以下では、保守モードに設定されたことを通知するパケットを「保守設定通知」として適宜記載する。
 また、保守部208は、ネットワークを介して他の情報処理装置が有するSPから保守設定通知を受信した場合、相互監視対象の候補があるか否かを判定する。そして、保守部208は、相互監視対象の候補があると判定した場合、相互監視対象の候補に相互監視対象通知を送信する。
 保守部208は、送信した相互監視対象通知に対する応答を相互監視対象の候補である運用系のSPから受信し、受信した応答に基づいて、相互監視対象通知が許可されたか否かを判定する。
 例えば、保守部208は、運用系のSPから受信した相互監視対象通知に対する応答に相互監視を許可する旨が含まれているか否かを判定する。ここで、保守部208は、相互監視を許可する旨が含まれていた場合、相互監視を許可する応答を受信したと判定し、相互監視テーブル202を更新し、相互監視対象の候補を新たな相互監視対象として特定する。
 一方、保守部208は、相互監視を許可する旨が含まれていない場合、相互監視を許可するものではない応答を受信したと判定する。この結果、保守部208は、新たな相互監視対象の候補を特定し、特定した相互監視対象の候補に相互監視対象通知を送信する。
 なお、保守部208は、相互監視を許可する応答をいずれのSPからも受信できなかった場合、電源制御部206に、自装置に対して待機系であるSP100bが有する電源をオンに制御するように通知する。
 また、保守部208は、保守モードに設定されたことをSP100aが有する不揮発性領域に設定する。この不揮発性領域に設定された値は、SP100aがリブートしても消去されずに保持される。
 システム制御部209は、情報処理装置100内の動作状況の監視及び動作履歴を取得することで、情報処理装置100を制御する。電源210は、SP100aの電源であり、電源制御部206及びSP100bが有する電源制御部によってオン、オフを制御される。
 なお、監視対象特定部203、監視依頼応答部204、相互監視部205、電源制御部206、異常処理部207、保守部208、システム制御部209は、例えば、ASIC(Application Specific Integrated Circuit)などの集積回路で作成可能である。
 また、電源をオフに制御された待機系のSPが有する、通信部、異常処理部及び電源制御部には常時電力が供給される。したがって、他の情報処理装置が有するSPから、自装置と同じ情報処理装置内にある運用系のSPに異常が生じたことを通知された場合、電源をオフにした待機系のSPは、自装置の電源をオンに制御することができる。
[実施例1に係るSPによる処理動作]
 次に、実施例1に係るSP98a、99a、100a、101aの処理動作を説明する。ここでは、図8A~図8Cを用いて、相互監視を要求する処理動作を説明し、図9A~図9Cを用いて、異常発生時の処理動作を説明し、図10を用いて、相互監視相手が存在しない場合の処理動作を説明し、図11を用いて、保守設定時の処理動作を説明する。
(相互監視を要求する処理動作)
 図8Aは、種別判定通知を送信する処理動作を示す図であり、図8Bは、相互監視対象通知を送信する処理動作を示す図であり、図8Cは、相互監視を開始後の処理動作を示す図である。
 図8Aでは、情報処理装置100が起動した直後であり、SP100aとSP100bとが共に電源がオンである。そして、運用系であるSP100aは、情報処理装置98、99、101、102が有する各SPに種別判定通知を送信する(ステップS11)。
 図8Bでは、SP100aが種別判定通知に対する応答を受信し(ステップS12)、受信した応答に基づいて、SP99a及びSP101aに相互監視対象通知を送信する(ステップS13)。そして、SP100aは、SP99a及びSP101aから相互監視を許可する応答を受信した場合、SP99a及びSP101aと相互監視を開始する。
 図8Cでは、SP100aは、SP99a及びSP101aと相互監視を開始し(ステップS14)、SP100bに対して電源をオフに制御する(ステップS15)。このように、待機系であるSP100bの電源をオフに制御することによって、SP100aは、待機系の消費電力を削減することができる。
(異常発生時の処理動作)
 図9Aは、異常発生を検出した場合の処理動作を示す図であり、図9Bは、異常発生を検出した後の相互監視を要求する処理動作を示す図であり、図9Cは、相互監視を許可する応答を受信した場合に更新された相互監視テーブルの一例を示す図である。
 図9Aでは、SP100aは、SP99a及びSP101aと相互監視しており(ステップS16)、SP99aに異常が生じたことを検出する。そして、SP100aは、SP99aに対して待機系であるSP99bの電源をオンに制御する(ステップS17)。
 続いて、図9Bでは、SP100aは、SP99aを相互監視対象から外し(ステップS18)、SP98aに相互監視対象通知を送信する(ステップS19)。そして、SP100aは、SP98aから相互監視を許可する応答を受信した場合(ステップS20)、図9Cに示すように相互監視テーブル202を更新する。すなわち、SP100aは、IPアドレスが「192.168.1.98」に紐付けられる「相互監視対象」に「1」を格納する(ステップS21)。
(相互監視相手が存在しない場合の処理動作)
 図10は、相互監視相手が存在しない場合の処理動作を示す図である。図10では、SP100aが相互監視対象通知を送信したが(ステップS22)、SP98a、SP99a、SP101aのいずれからも相互監視を許可する応答を受信できなかった場合を示す。この場合、SP100aは、SP100bの電源をオンに制御し(ステップS23)、他の運用系SPと相互監視をすることなく、SP100bによって二重化される。
(保守設定時の処理動作)
 図11は、保守設定時の処理動作を示す図である。図11では、SP98aとSP99aとが相互監視し、SP99aとSP100aとが相互監視し、SP100aとSP101aとが相互監視している。
 このような状態において、SP100aが保守状態に設定された場合、SP100aは、SP100bの電源をオンに制御し(ステップS24)、相互監視対象であるSP99a及びSP101aに保守設定通知を送信する(ステップS25)。そして、SP100aは、SP99a及びSP101aから保守設定通知に対する応答を受信した場合、SP99a及びSP101aによる相互監視対象から外れる。この結果、SP99aとSP101aとが相互監視を開始する(ステップS26)。
[実施例1に係るSPによる処理の処理手順]
 次に図12~17を用いて、実施例1に係るSP98a、99a、100a、101aによる処理の処理手順を説明する。
(全体の処理の流れ)
 まず、図12を用いて、実施例1に係るSP98a、99a、100a、101aによる処理を説明する。図12は、実施例1に係るSPによる処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、例えば、自装置が起動したことを契機に処理を実行する。また、この場合、自装置に対して待機系であるSPの電源も投入されているものとする。なお、ここでは、SP100aを例に全体の処理の流れを説明するが、他のSPにおいても同様の処理を実行する。
 図12に示すように、SP100aは、相互監視する装置を検出する(ステップS101)。そして、SP100aは、検出した装置と相互監視を実行し(ステップS102)、相互監視する装置に異常が生じたか否かを判定する(ステップS103)。
 ここで、SP100aは、相互監視する装置に異常が生じたと判定した場合(ステップS103、Yes)、異常処理を実行する(ステップS104)。そして、SP100aは、異常処理の実行後、ステップS105に移行する。一方、SP100aは、相互監視する装置に異常が生じていないと判定した場合(ステップS103、No)、ステップS105に移行する。
 SP100aは、ステップS105に移行し、保守設定を受付けたか否かを判定する(ステップS105)。ここで、SP100aは、保守設定を受付けていないと判定した場合(ステップS105、No)、ステップS102に移行して相互監視を実行する。
 一方、SP100aは、保守設定を受付けたと判定した場合(ステップS105、Yes)、保守処理を実行し(ステップS106)、処理を終了する。
(相互監視を要求する処理)
 次に、図13を用いて、実施例1に係るSP98a、99a、100a、101aによる相互監視を要求する処理を説明する。図13は、実施例1に係るSPによる相互監視を要求する処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS101の処理に対応する。また、ここでは、SP100aを例に相互監視を要求する処理を説明するが、他のSPにおいても同様の処理を実行する。
 図13に示すように、SP100aは、ネットワーク経由で同一種別の装置を検索する(ステップS201)。そして、SP100aは、同一種別の装置があるか否かを判定する(ステップS202)。ここで、SP100aは、同一種別の装置があると判定した場合(ステップS202、Yes)、全ての同一種別の装置を抽出する(ステップS203)。
 そして、SP100aは、抽出した同一種別の装置の一覧をIPアドレス順にソートする(ステップS204)。続いて、SP100aは、所定のルールに従って、相互監視対象を特定し、特定した相互監視対象に相互監視対象通知を送信する(ステップS205)。その後、SP100aは、相互監視を許可する応答を受信したか否かを判定する(ステップS206)。
 ここで、SP100aは、相互監視を許可する応答を受信したと判定した場合(ステップS206、Yes)、相互監視テーブル202を更新し(ステップS207)、相互監視を実行する(ステップS208)。そして、SP100aは、自装置に対して待機系であるSP100bの電源をオフにして(ステップS209)、相互監視を要求する処理を終了する。
 また、SP100aは、ステップS202において、同一種別の装置がないと判定した場合(ステップS202、No)、SP100aは、SP100bと二重化で動作し(ステップS210)、生存監視を実行する(ステップS211)。そして、SP100aは、相互監視を要求する処理を終了する。また、SP100aは、ステップS206において、相互監視を許可するものではない応答を受信したと判定した場合(ステップS206、No)、ステップS205に移行する。
(異常発生時の処理)
 続いて、図14を用いて、実施例1に係るSP98a、99a、100a、101aによる異常発生時の処理を説明する。図14は、SPによる異常発生時の処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS104の処理に対応する。また、ここでは、SP99aに異常が生じた場合を例に、SP100aによる異常発生時の処理を説明する。
 図14に示すように、SP100aは、通信ができなくなったSP99aに対して待機系であるSP99bの状態を確認し(ステップS301)、電源がオンであるか否かを判定する(ステップS302)。ここで、SP100aは、SP99bの電源がオンでないと判定した場合(ステップS302、No)、SP99aに対して待機系であるSP99bに対して電源をオンにし(ステップS303)、ステップS304に移行する。
 一方、SP100aは、SP99bの電源がオンであると判定した場合(ステップS302、Yes)、ステップS304に移行する。すなわち、SP100aは、相互監視テーブル202を更新する(ステップS304)。
 そして、SP100aは、相互監視対象が存在するか否かを判定する(ステップS305)。ここで、SP100aは、相互監視対象が存在すると判定した場合(ステップS305、Yes)、ルールに従って、相互監視対象を特定し、特定した相互監視対象に相互監視対象通知を送信する(ステップS306)。その後、SP100aは、相互監視を許可する応答を受信したか否かを判定する(ステップS307)。
 ここで、SP100aは、相互監視を許可する応答を受信したと判定した場合(ステップS307、Yes)、相互監視テーブル202を更新し(ステップS308)、相互監視を実行する(ステップS309)。一方、SP100aは、ステップS307において、相互監視を許可するものではない応答を受信したと判定した場合(ステップS307、No)、ステップS306に移行する。
 また、SP100aは、ステップS305において、相互監視対象が存在しないと判定した場合(ステップS305、No)、以下の処理を実行する。すなわち、SP100aは、自装置に対して待機系であるSP100bに対して電源をオンにし(ステップS310)、生存を監視する(ステップS311)。SP100aは、ステップS309の処理の終了後、またはステップS311の処理が終了後、異常発生時の処理を終了する。
(保守設定時の通知処理)
 次に、図15を用いて、実施例1に係るSP98a、99a、100a、101aによる保守設定時の通知処理の処理手順について説明する。図15は、SPによる保守設定時の通知処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS106の処理に対応する。また、ここでは、SP100aを例に保守設定時の通知処理を説明するが、他のSPにおいても同様の処理を実行する。
 図15に示すように、SP100aは、保守設定を受付け(ステップS401)、自装置に対して待機系であるSP100bの電源をオンにする(ステップS402)。そして、SP100aは、相互監視対象に保守設定を通知する(ステップS403)。
 続いて、SP100aは、相互監視対象から応答を得え、相互監視テーブル202を更新し(ステップS404)、処理を終了する。
(相互監視対象通知に対する応答処理)
 次に、図16を用いて、実施例1に係るSP98a、99a、100a、101aによる相互監視対象通知に対する応答処理の処理手順を説明する。図16は、SPによる相互監視対象通知に対する応答処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、種別判定通知を受付けたことを契機に処理を実行する。なお、ここでは、SP99aが、SP100aから相互監視対象通知を受信した場合を例に相互監視対象通知に対する応答処理を説明するが、他のSPにおいても同様の処理を実行する。
 図16に示すように、SP99aは、種別判定通知を受付け(ステップS501)、受付けた種別判定通知に応答する(ステップS502)。そして、SP99aは、相互監視対象通知を受信したか否かを判定する(ステップS503)。ここで、SP99aは、相互監視対象通知を受信していないと判定した場合(ステップS503、No)、処理を終了する。
 一方、SP99aは、相互監視対象通知を受信したと判定した場合(ステップS503、Yes)、相手装置、SP100aが相互監視対象として妥当であるか否かを判定する(ステップS504)。
 ここで、SP99aは、相手装置が相互監視対象として妥当であると判定した場合(ステップS504、Yes)、相互監視テーブル202を更新する(ステップS505)。また、SP99aは、相手装置に相互監視対象として許可することを応答し(ステップS506)、処理を終了する。
 一方、SP99aは、相手装置が相互監視対象として妥当でないと判定した場合(ステップS504、No)、相手装置に相互監視対象として許可しないことを応答し(ステップS507)、処理を終了する。
(保守設定通知に応答する処理)
 次に、図17を用いて、実施例1に係るSP98a、99a、100a、101aによる保守設定通知に応答する処理の処理手順を説明する。図17は、保守設定通知に応答する処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、保守設定通知を受付けたことを契機に処理を実行する。なお、ここでは、SP99aが、SP100aから保守設定通知を受信した場合を例に保守設定通知に応答する処理を説明するが、他のSPにおいても同様の処理を実行する。
 図17に示すように、SP99aは、保守設定通知を受付け(ステップS601)、相互監視対象が存在するか否かを判定する(ステップS602)。ここで、SP99aは、相互監視対象が存在すると判定した場合(ステップS602、Yes)、ルールに従って、相互監視対象を特定し、特定した相互監視対象に相互監視対象通知を送信する(ステップS603)。その後、SP99aは、相互監視を許可する応答を受信したか否かを判定する(ステップS604)。
 ここで、SP99aは、相互監視を許可する応答を受信したと判定した場合(ステップS604、Yes)、相互監視テーブル202を更新し(ステップS605)、相互監視を実行し(ステップS606)、ステップS610に移行する。一方、SP99aは、ステップS604において、相互監視を許可するものではない応答を受信したと判定した場合(ステップS604、No)、ステップS603に移行する。
 一方、ステップS602において、相互監視対象が存在しないと判定した場合(ステップS602、No)、以下の処理を実行する。すなわち、SP99aは、自装置に対して待機系である装置SP99bに対して電源をオンにし(ステップS607)、生存を監視する(ステップS608)。そして、SP99aは、相互監視テーブル202を更新し(ステップS609)、ステップS610に移行する。
 ステップS610において、SP99aは、保守設定通知に対する応答を送信して(ステップS610)、保守設定通知に応答する処理を終了する。
[実施例1の効果]
 上述してきたように、実施例1に係るSPは、他の運用系SPと生存状態を相互に監視するので、待機系SPの電源をオフにすることができ、省電力化を図ることができる。
 また、実施例1に係るSPは、相互監視する対象に異常が生じた場合、相互監視対象に対して待機系であるSPの電源をオンに制御する。そして、他の情報処理装置が有する運用系SPから相互監視する対象を選択する。このように、実施例1に係るSPは、相互監視する対象を自動で検知する。このため、利用者は、相互監視する対象に異常が生じた場合や、新たに情報処理装置をHPC1に追加することでデータセンターの構成が変わっても、定義変更などの手間を省略することができる。
 また、実施例1に係るSPは、相互監視する対象が存在しなくなった場合に、自装置に対して待機系であるSPの電源をオンにして二重化で動作する。すなわち、実施例1に係るSPは、相互監視対象が存在しなくなるまでは待機系SPの電源をオフにすることができる。この結果、実施例1に係るSPを用いた電力制御方法では、高い省電力効果を得ることができる。また、実施例1に係るSPは、各SPで相互監視する範囲を限定することによって、ネットワークに余分な負荷をかけることなく省電力化を実現できる。
 また、実施例1に係るSPは、自装置が保守される場合、相互監視するSPに自装置を相互監視対象から外すように通知する。そして、保守されるSPと相互監視をしていたSPは、新たな相互監視対象を選択し、選択したSPと相互監視を実行する。この結果、保守される装置を相互監視していたSPは、保守されるSPや保守されるSPを有する情報処理装置の電源をオフにされた場合でも、保守されるSPが故障したと誤認識するのを防止できる。
 また、実施例1に係るSPは、相互監視対象を選択する所定のルール及び相互監視する間隔を任意に変更することができる。このため、利用者は、データセンターの規模に応じて本願の開示する電力制御方法を適用することができる。
 さらに、本願の開示する電力制御方法は、物理的な部品や装置を新たに追加することなく、現状のハード構成のまま実現できる。このため、利用者は、例えば、データセンターを省電力するにあたり、初期投資にかかる費用を節約できる。
 ところで、本発明は、上述した実施例以外にも、種々の異なる形態にて実施されてよい。そこで、実施例2では、本発明に含まれる他の実施例について説明する。
(システム構成等)
 実施例1において説明した各処理のうち自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、制御手順、具体的名称については、特記する場合を除いて任意に変更することができる。
 実施例1では、二重化されたシステム制御装置を有する情報処理装置をネットワークで接続するコンピュータシステムを例に説明したが、開示の技術は、これに限定されるものではない。例えば、開示の技術は、二重化されたシステム制御装置を有する電子装置にも適用可能である。
 また、実施例1では、システム制御装置の一例としてSPを例に用いて説明したが、これに限定されるものではない。例えば、他の二重化された系統のシステムにおいて、消費電力の削減にも利用可能である。
 また、実施例1では、運用系SPに異常が生じた場合について説明した。このように、運用系SPに異常が生じた場合、異常が生じたSPは、正常なSPに交換されることになる。開示の技術は、このような場合にも適用可能である。
 例えば、二重化されたSPにおいて、運用系SPに異常が生じた場合、待機系SPが動作する。そして、異常が生じたSPを正常なSPに交換することによってSPの二重化構成が復旧する。そして、運用系SPは、SPの二重化構成が確立した後に、再び相互監視を実行する。この相互監視は、実施例1で説明した処理手順で実行される。この結果、運用系SPは、相互監視が確立した場合、待機系SPの電源をオフに制御できる。すなわち、待機系SPの消費電力を削減することができる。
 監視対象特定部203は、同種の装置であるSPから種別判定通知に対する応答を受信し、IPアドレスの順にソートするものとして説明したが、これに限定されるものではない。例えば、監視対象特定部203は、MAC(Media Access Control)アドレスの順にソートするようにしてもよい。
 また、図示した相互監視テーブル202が格納する情報は一例に過ぎず、必ずしも図示のごとく情報が格納される必要はない。例えば、相互監視テーブル202は、「IPアドレス」と「相互監視対象」とだけを対応付けて記憶するようにしてもよい。
 また、各種の負荷や使用状況などに応じて、各実施例において説明した各処理の各ステップでの処理の順番を変更してもよい。
 また、図示した各構成部は、必ずしも物理的に図示のごとく構成されていることを要しない。例えば、SP100aにおいて、監視対象特定部203と監視依頼応答定部204とが統合されてもよい。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 1 HPC
 98、99、100、101、102 情報処理装置
 98a、98b、99a、99b、100a、100b、101a、101b、102a SP
 201 通信部
 202 相互監視テーブル
 203 監視対象特定部
 204 監視依頼応答部
 205 相互監視部
 206 電源制御部
 207 異常処理部
 208 保守部
 209 システム制御部
 210 電源

Claims (16)

  1.  ネットワークを介して他の電子装置と接続された電子装置に含まれるシステム制御装置において、
     他の電子装置が有する運用系のシステム制御装置と生存状態を相互に監視する監視部と、
     前記監視部が前記他の電子装置が有する運用系のシステム制御装置の生存状態の監視を開始した場合、前記電子装置が有する他のシステム制御装置の電源をオフに制御する電源制御部と
     を有することを特徴とするシステム制御装置。
  2.  前記監視部によって前記他の電子装置が有する運用系のシステム制御装置の異常が検出された場合、前記他の電子装置が有する待機系システム制御装置の電源をオンに制御し、自装置とネットワークを介して接続される他の電子装置が有する運用系のシステム制御装置のなかから生存状態を相互に監視するシステム制御装置を特定する異常処理部を更に有し、
     前記監視部は、前記異常処理部によって特定された他の電子装置のシステム制御装置との間で生存状態を相互に監視する
     ことを特徴とする請求項1に記載のシステム制御装置。
  3.  前記異常処理部によって生存状態を相互に監視する他の電子装置のシステム制御装置を特定できないと判定された場合、
     前記電源制御部は、前記電子装置が有する他のシステム制御装置の電源をオンに制御し、
     前記監視部は、電源がオンに制御された前記他のシステム制御装置との間で生存状態を相互に監視する
     ことを特徴とする請求項2に記載のシステム制御装置。
  4.  他の電子装置が有する運用系のシステム制御装置のなかから、生存状態を相互に監視するシステム制御装置を特定する特定部を更に有し、
     前記監視部は、前記特定部によって特定されたシステム制御装置と生存状態を相互に監視することを特徴とする請求項1に記載のシステム制御装置。
  5.  他の電子装置が有する運用系のシステム制御装置から生存状態を相互に監視する要求を受付け、前記要求を発したシステム制御装置との間で生存状態を相互に監視することを許可するか否かを判定する判定部を更に有することを特徴とする請求項4に記載のシステム制御装置。
  6.  前記特定部は、他の電子装置が有する運用系のシステム制御装置の判定部に生存状態を相互に監視することを要求し、該判定部から生存状態を相互に監視することを許可された場合に、前記他の電子装置が有する運用系のシステム制御装置を、生存状態を相互に監視するシステム制御装置として特定することを特徴とする請求項5に記載のシステム制御装置。
  7.  自装置が保守モードに設定されたことを受付け、生存状態を相互に監視している運用系のシステム制御装置に自装置を生存状態の監視対象から外すことを要求する保守部を更に有し、
     前記電源制御部は、前記保守部によって自装置が保守モードに設定された場合、前記電子装置が有する他のシステム制御装置の電源をオンに制御することを特徴とする請求項1に記載のシステム制御装置。
  8.  ネットワークを介して他の電子装置と接続された電子装置に含まれるシステム制御装置が、
     他の電子装置が有する運用系のシステム制御装置と生存状態を相互に監視し、
     前記他の電子装置が有する運用系のシステム制御装置の生存状態の監視を開始した場合に、自装置に対して待機系である、前記電子装置が有するシステム制御装置の電源をオフに制御する
     処理を実行することを特徴とする電力制御方法。
  9.  前記システム制御装置が、更に
     前記他の電子装置が有する運用系のシステム制御装置の異常を検出した場合、前記他の電子装置が有する待機系システム制御装置の電源をオンに制御し、自装置とネットワークを介して接続される他の電子装置が有する運用系のシステム制御装置のなかから生存状態を相互に監視するシステム制御装置を特定し、
     前記監視する処理は、前記特定された他の電子装置のシステム制御装置との間で生存状態を相互に監視する
     処理を実行することを特徴とする請求項8に記載の電力制御方法。
  10.  前記特定する処理によって、生存状態を相互に監視する他の電子装置のシステム制御装置を特定できないと判定された場合、
     前記電源を制御する処理は、前記電子装置が有する他のシステム制御装置の電源をオンに制御し、
     前記監視する処理は、電源がオンに制御された前記他のシステム制御装置との間で生存状態を相互に監視する
     処理を実行することを特徴とする請求項9に記載の電力制御方法。
  11.  前記システム制御装置が、更に
     他の電子装置が有する運用系のシステム制御装置のなかから、生存状態を相互に監視するシステム制御装置を特定し、
     前記監視する処理は、前記特定されたシステム制御装置と生存状態を相互に監視する処理を実行することを特徴とする請求項8に記載の電力制御方法。
  12.  前記システム制御装置が、更に
     他の電子装置が有する運用系のシステム制御装置から生存状態を相互に監視する要求を受付け、前記要求を発したシステム制御装置との間で生存状態を相互に監視することを許可するか否かを判定する処理を実行することを特徴とする請求項11に記載の電力制御方法。
  13.  前記特定する処理は、他の電子装置が有する運用系のシステム制御装置に生存状態を相互に監視することを要求し、生存状態を相互に監視することを許可された場合に、前記他の電子装置が有する運用系のシステム制御装置を、生存状態を相互に監視するシステム制御装置として特定する処理を実行することを特徴とする請求項12に記載の電力制御方法。
  14.  前記システム制御装置が、更に
     自装置が保守モードに設定されたことを受付け、生存状態を相互に監視している運用系のシステム制御装置に自装置を生存状態の監視対象から外すことを要求し、
     前記電源を制御する処理は、自装置が保守モードに設定された場合、前記電子装置が有する他のシステム制御装置の電源をオンに制御する処理を実行することを特徴とする請求項8に記載の電力制御方法。
  15.  運用系と待機系とで冗長化されたシステム制御装置を有する複数の電子装置がネットワークにより接続された電子システムにおいて、
     前記電子装置が有するシステム制御装置は、
     自装置が運用系に設定された場合に、ネットワークを介して他の電子装置が有する運用系のシステム制御装置との間で生存状態を相互に監視する監視部と、
     前記監視部によって前記他の電子装置が有する運用系のシステム制御装置の生存状態の監視が開始された場合に、自装置に対して待機系であるシステム制御装置の電源をオフに制御する電源制御部と
     を有する
     ことを特徴とする電子システム。
  16.  前記監視部によって前記他の電子装置が有する運用系のシステム制御装置の異常が検出された場合、前記他の電子装置が有する待機系システム制御装置の電源をオンに制御し、自装置とネットワークを介して接続される他の電子装置が有する運用系のシステム制御装置のなかから生存状態を相互に監視するシステム制御装置を特定する異常処理部を更に有し、
     前記監視部は、前記異常処理部によって特定された他の電子装置のシステム制御装置との間で生存状態を相互に監視する
     ことを特徴とする請求項15に記載の電子システム。
PCT/JP2011/067553 2011-07-29 2011-07-29 システム制御装置、電力制御方法及び電子システム WO2013018183A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2011/067553 WO2013018183A1 (ja) 2011-07-29 2011-07-29 システム制御装置、電力制御方法及び電子システム
US14/154,256 US20140129865A1 (en) 2011-07-29 2014-01-14 System controller, power control method, and electronic system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/067553 WO2013018183A1 (ja) 2011-07-29 2011-07-29 システム制御装置、電力制御方法及び電子システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/154,256 Continuation US20140129865A1 (en) 2011-07-29 2014-01-14 System controller, power control method, and electronic system

Publications (1)

Publication Number Publication Date
WO2013018183A1 true WO2013018183A1 (ja) 2013-02-07

Family

ID=47628751

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/067553 WO2013018183A1 (ja) 2011-07-29 2011-07-29 システム制御装置、電力制御方法及び電子システム

Country Status (2)

Country Link
US (1) US20140129865A1 (ja)
WO (1) WO2013018183A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015015544A1 (ja) * 2013-07-29 2015-02-05 富士通株式会社 情報処理システム、装置、方法及びプログラム
JP2017151608A (ja) * 2016-02-23 2017-08-31 アズビル株式会社 コントローラおよびその制御方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5962304B2 (ja) * 2012-07-31 2016-08-03 富士通株式会社 電源装置、処理装置、情報処理システム、及び電源制御方法
CN104375930A (zh) * 2013-08-13 2015-02-25 鸿富锦精密工业(深圳)有限公司 固件检测系统及方法
JP6451467B2 (ja) * 2015-04-07 2019-01-16 三菱電機株式会社 統合監視制御装置および統合監視制御システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58214952A (ja) * 1982-06-08 1983-12-14 Nec Corp 情報処理方式
JPH0683657A (ja) * 1992-08-27 1994-03-25 Hitachi Ltd サービスプロセッサの切り換え方式
JPH0756761A (ja) * 1993-08-13 1995-03-03 Mitsubishi Electric Corp 計算機装置
JPH10171769A (ja) * 1996-12-11 1998-06-26 Hitachi Ltd 複合計算機システム
JP2004246621A (ja) * 2003-02-13 2004-09-02 Fujitsu Ltd 情報採取プログラム、情報採取装置および情報採取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760859B1 (en) * 2000-05-23 2004-07-06 International Business Machines Corporation Fault tolerant local area network connectivity
US20080126854A1 (en) * 2006-09-27 2008-05-29 Anderson Gary D Redundant service processor failover protocol
US7836335B2 (en) * 2008-04-11 2010-11-16 International Business Machines Corporation Cost-reduced redundant service processor configuration
US8381014B2 (en) * 2010-05-06 2013-02-19 International Business Machines Corporation Node controller first failure error management for a distributed system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58214952A (ja) * 1982-06-08 1983-12-14 Nec Corp 情報処理方式
JPH0683657A (ja) * 1992-08-27 1994-03-25 Hitachi Ltd サービスプロセッサの切り換え方式
JPH0756761A (ja) * 1993-08-13 1995-03-03 Mitsubishi Electric Corp 計算機装置
JPH10171769A (ja) * 1996-12-11 1998-06-26 Hitachi Ltd 複合計算機システム
JP2004246621A (ja) * 2003-02-13 2004-09-02 Fujitsu Ltd 情報採取プログラム、情報採取装置および情報採取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015015544A1 (ja) * 2013-07-29 2015-02-05 富士通株式会社 情報処理システム、装置、方法及びプログラム
JP2017151608A (ja) * 2016-02-23 2017-08-31 アズビル株式会社 コントローラおよびその制御方法

Also Published As

Publication number Publication date
US20140129865A1 (en) 2014-05-08

Similar Documents

Publication Publication Date Title
US6859889B2 (en) Backup system and method for distributed systems
US8713352B2 (en) Method, system and program for securing redundancy in parallel computing system
CN101714109B (zh) 双cpu系统主板的控制方法及设备
EP3306476B1 (en) Method and apparatus for hot cpu removal and hot cpu adding during operation
CN103324495A (zh) 数据中心服务器开机管理方法及系统
WO2013018183A1 (ja) システム制御装置、電力制御方法及び電子システム
JP2008310489A (ja) I/oデバイス切り替え方法
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
JP6561132B2 (ja) 燃料電池装置、燃料電池システム、燃料電池システムの制御方法、及びコントローラ
WO2013145325A1 (ja) 情報処理システム、障害検知方法および情報処理装置
JP2008015803A (ja) ブレード型コンピュータ管理システム
JP5531487B2 (ja) サーバシステム及びサーバシステムの管理方法
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP2013167922A (ja) 冗長化通信システムおよび冗長化通信方法
JP5282569B2 (ja) 管理装置、管理システム、管理方法及び管理プログラム
US8560867B2 (en) Server system and method for processing power off
WO2017215672A1 (zh) Poe系统中的供电方法和供电设备
US20080303692A1 (en) Method and System for Assigning Identity Addresses to Local Management Modules
KR20150104435A (ko) 라우팅 처리기의 동작 모드 천이 방법
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
JP4806382B2 (ja) 冗長化システム
JPWO2013018183A1 (ja) システム制御装置、電力制御方法及び電子システム
KR20160028250A (ko) 소프트웨어 정의 네트워크에서 컨트롤러의 이중화 제어 시스템 및 그 방법
JP2010244129A (ja) 計算機システム
US11853175B2 (en) Cluster system and restoration method that performs failover control

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11870262

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013526646

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11870262

Country of ref document: EP

Kind code of ref document: A1