WO2011061828A1 - 情報処理装置、情報処理装置の制御方法及び制御プログラム - Google Patents

情報処理装置、情報処理装置の制御方法及び制御プログラム Download PDF

Info

Publication number
WO2011061828A1
WO2011061828A1 PCT/JP2009/069626 JP2009069626W WO2011061828A1 WO 2011061828 A1 WO2011061828 A1 WO 2011061828A1 JP 2009069626 W JP2009069626 W JP 2009069626W WO 2011061828 A1 WO2011061828 A1 WO 2011061828A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing apparatus
information
control
information processing
unit
Prior art date
Application number
PCT/JP2009/069626
Other languages
English (en)
French (fr)
Inventor
行展 野々村
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2009/069626 priority Critical patent/WO2011061828A1/ja
Publication of WO2011061828A1 publication Critical patent/WO2011061828A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space

Definitions

  • the present invention relates to an information processing apparatus, a control method for the information processing apparatus, and a control program.
  • a power supply control circuit that holds a power supply output voltage at a specified value for a predetermined period after operation is known.
  • an on / off signal output by the power supply control unit is output to the power supply unit in response to an enable signal output from the upper control unit that controls the power supply control unit.
  • a power supply control system is known.
  • an object is to provide a configuration that allows the operation of the processing apparatus to be continued.
  • a first arithmetic processing device that controls the information processing device and a periodic notification signal are transmitted periodically, and when an abnormality is detected, control of the information processing device by the first arithmetic processing device is stopped. And a system control device including one control unit. Further, a second arithmetic processing unit that processes information and a second processing unit that controls the information processing apparatus instead of the first control unit when an abnormality of the system control apparatus is detected based on reception of the periodic notification signal. And a processing device including a control unit.
  • the processing apparatus executes the operation performed when the system control apparatus is normal and when the processing apparatus is abnormal. Therefore, even when the system control apparatus is abnormal, it is possible to continue without stopping the operation of the processing apparatus.
  • FIG. 2 is a block diagram of the system board shown in FIG. 1. It is a block diagram of the computer of an Example.
  • FIG. 4 is a block diagram of the system board shown in FIG. 3.
  • FIG. 4 is a diagram showing an operation flow in the computer of the embodiment when a fixed failure occurs in the service processor shown in FIG. 3. It is a flowchart which shows the operation
  • FIG. 5 is a flowchart showing an operation flow of the system board shown in FIG. 4 when a fixed failure occurs in the service processor shown in FIG. 3.
  • FIG. 5 is a flowchart showing a normal operation flow of the service processor shown in FIG. 3 when information indicating an environmental abnormality is received from the system board shown in FIG. 4.
  • a computer as an information processing device is a computer having a system board as a plurality of processing devices each having an arithmetic processing device that performs a calculation and a service processor (SVP) as a system control device.
  • SVP service processor
  • Each of the plurality of system boards has a computer information processing function, and the service processor performs system control and monitoring of the plurality of system boards.
  • the plurality of system boards and service processors are provided in one casing.
  • individual system information indicating the operating status of an OS (Operating System, operating system, the same applies below) and the like that can be accessed from the service processor is provided on each system board.
  • the system individual information is information indicating the system board operating status, for example, OBP (Open Boot PROM) status (firmware is running), OS booting, OS running, and shutdown Contains information (the same applies hereinafter).
  • OBP Open Boot PROM
  • OS booting firmware is running
  • OS running OS running
  • shutdown Contains information (the same applies hereinafter).
  • each system board has a function of monitoring and controlling the environment of the system board itself and holding the power supply transition state and the monitoring state of the system board itself.
  • FIG. 1 shows a block diagram of a computer 1100 as a reference computer.
  • a reference example computer 1100 includes a plurality of system boards 120-1, 120-2,..., 120-n, a service processor 110, a power supply unit (hereinafter simply referred to as a PSU (Power Supply Unit)) 130, and an operator panel 140. , A fan unit 160 and a fan control board 150.
  • PSU Power Supply Unit
  • the OS operates on each system board 120-1, 120-2,..., 120-n (hereinafter sometimes collectively referred to as the system board 120).
  • the service processor 110 performs power supply control, initialization, monitoring, and the like for the plurality of system boards 120.
  • the PSU 130 supplies a primary DC voltage to the plurality of system boards 120.
  • the operator panel 140 is used by the operator to operate the computer system, and holds computer system information.
  • the fan unit 160 cools the plurality of system boards 120, and the fan control board 150 controls the fan unit 160.
  • the service processor 110 has a sub processor 112 as an arithmetic processing unit different from the main processor 122P mounted on the system board.
  • a memory 113, FMEM (Flash MEMORY: flash memory, The same applies below) 114, and the maintenance bus controller 111 is connected.
  • the maintenance bus controller 111 is connected to a plurality of system boards 120 and collectively performs control such as power control, cooling control, temperature monitoring, voltage monitoring, log collection and the like for all the system boards 120.
  • system information such as the power-on state and OS operating state of each system board 120 is held in the memory 133, and the system information held in the memory 133 is updated whenever the system state changes.
  • the maintenance bus controller 111 is connected to the PSU 130, and controls the power supply of the PSU 130 by writing information to an on register 111R included in the maintenance bus controller 111.
  • the maintenance bus controller 111 receives various power supply abnormality signals from the PSU 130.
  • the maintenance bus controller 111 has a watch dog timer (hereinafter simply referred to as WDT (Watch Dog Timer)) 111T, and detects an error such as a hang-up of the sub processor 112.
  • WDT Watch Dog Timer
  • the WDT 111T operates and the system of the service processor 110 is restarted (rebooted), and the service processor 110 returns to a normal operation state after the restart.
  • reset and restart by the WDT 111T are repeated, and after the number of repetitions reaches the specified number N, the service processor 110 stops and the system cannot be controlled. This point will be described later with reference to FIG.
  • the service processor 110 includes an operator panel 140 equipped with an operator operation switch, a status display LED (Light Emitting Diode) (both not shown), and an EEPROM (Electrically Erasable Programmable Read Only Memory) 140M that holds the entire system information. It is connected with I2C (Inter-Integrated Circuit) and controls the operator panel 140.
  • the service processor 110 is also connected to a fan control board 150 on which a fan control IC (Integrated Circuit) 150I for controlling the fan unit 160 is mounted by I2C, and controls and monitors the rotation speed of the cooling fan of the computer 1100. Do. In a system that requires higher reliability, the service processor 110 is duplicated, and when one service processor fails, the service processor can be exchanged without dropping the system by performing another processing process with another service processor.
  • FIG. 2 shows a block diagram of each system board 120 (120-i in the figure).
  • the system board 120 includes a main processor 122P, a memory 122M, a system controller (SC) 122C, and an IO controller (IOC) 122I, which are basic components of the computer.
  • the system board 120 further includes an external I / F (Interface: interface, hereinafter the same) (PCI-E: Peripheral Component Interconnect Express) 122E.
  • I / F Interface: interface, hereinafter the same
  • PCI-E Peripheral Component Interconnect Express
  • the system board 120 also has a DC-DC (Direct Current-Direct Current) converter 127.
  • the DC-DC converter 127 supplies a main power supply voltage (primary DC voltage) common to the system supplied from the PSU 130, This is converted into a plurality of main power supply voltages (secondary DC voltages) used in the system board 120.
  • the main power supply voltage (secondary DC voltage) is on / off controlled, set and monitored by a maintenance bus controller (main system) 121.
  • the maintenance bus controller is provided in both the system board 120 and the service processor. Therefore, the maintenance bus controller in the system board 120 may be referred to as a maintenance bus controller (main system), and the maintenance bus controller in the service processor 110 may be referred to as a maintenance bus controller (subsystem).
  • the system board 120 also has a temperature sensor 125 and a voltage sensor 126 of the secondary DC power source, and is connected to the maintenance bus controller (main system) 121 via I2C.
  • a threshold value for detecting an abnormality is set in each of the sensors 125 and 126, and an interruption is generated in the maintenance bus controller 121 when an abnormality occurs.
  • the system board 120 includes an SRAM (Static Random Access Memory) 124 and an FMEM 123.
  • SRAM Static Random Access Memory
  • FMEM FMEM
  • the SRAM 124 and the FMEM 123 are used for a shared memory between the OS of the system board 120 and the service processor 110, for storing a boot program of the OS, and the like, and are connected to a maintenance bus controller (main system) 121 by a bus.
  • main system main system
  • the maintenance bus controller (main system) 121 communicates with the service processor 110 to control the system board 120.
  • the maintenance bus controller (main system) 121 has an SC bus control unit 121B.
  • the SC bus control unit 121B has a shutdown request register 121R that makes a shutdown request to the OS. If necessary, the service processor 110 uses the shutdown request register 121R to request a shutdown from the OS operating on the system board 120 via the SC bus.
  • the maintenance bus controller (main system) 121 also has a power control unit 121D.
  • the power control unit 121D performs setting and monitoring of the DC-DC converter 127, and performs on / off control of the DC-DC converter 127 by updating the power control information 121I in response to a power on / off instruction from the service processor 110. Further, a threshold value for detecting an environmental abnormality is set in the temperature sensor 125 and the voltage sensor 126, and when the environmental abnormality occurs, an interrupt is received from the temperature sensor 125 and the voltage sensor 126 and notified to the service processor 110.
  • the maintenance bus controller (main system) 121 includes a memory bus control unit 121A.
  • the memory bus control unit 121A performs arbitration when the service processor 110 or the OS accesses the FMEM 123 and the SRAM 124.
  • the maintenance bus controller (main system) 121 includes an LSI (Large Scale Integrated Circuit) control unit 121C.
  • the LSI control unit 121C controls various LSIs such as the system controller 122C, the main processor 122P, and the IO controller 122I, and performs initial setting and log collection based on instructions from the service processor 110.
  • the maintenance bus controller (main system) 121 has a sub processor I / F 121F.
  • the sub-processor I / F 121F is used when the maintenance bus controller (main system) 121 communicates with the service processor 110.
  • the service processor 110 gives an instruction to turn on, turn off, restart, etc. each system board 120
  • various controls are performed based on the instructions.
  • the maintenance bus controllers 111 and 121 of the service processor 110 and each system board 120 perform the above-described various controls.
  • the maintenance bus controllers 111 and 121 also report errors and environmental abnormalities that have occurred in each system board 120, as described above.
  • the DC-DC converter 127 of the corresponding system board 120 is turned off and the power of the system board 120 is turned off.
  • the PSU 130 is turned on when one or more system boards 120 are powered on, and the PSU 130 is turned off when all system boards 120 are powered off.
  • the operation of the computer 1100 when the service processor 110 fails will be described below.
  • the service processor 110 is reset while the WDT 111T of the service processor 110 is activated and the power-on state of the PSU 130 is maintained, and the normal operation is resumed after the restart.
  • the failure of the service processor 110 is a fixed failure, resetting and restarting by the WDT 111T are repeated, and after the number of repetitions reaches the specified number N, the service processor 110 stops. This point will be described later with reference to FIG.
  • the service processor 110 is replaced, all the system boards 120 are turned off, and then the AC power supplied to the PSU 130 is turned off.
  • the new service processor 110 reads the entire system information stored in the EEPROM 140M in the operator panel 140. Further, the service processor 110 stores the collected system information of each system board 120 in the memory 113I.
  • each system board when a service processor fails, each system board detects the failure, and each system board monitors its own environment while the power-on state is continued. In this case, each system board requests a shutdown to the OS executed by the system board itself only when an environmental abnormality is detected, and turns off the secondary DC power supply.
  • the system board can also be degenerated by requesting the OS to disconnect the system board from the computer.
  • each system board holds power control information related to power-on of its own system board and system information such as the operating status of the OS.
  • the service processor can be replaced while maintaining the function of each system board.
  • the environmental abnormality means an abnormality in the power supply voltage of the DC-DC converter 27 detected by the voltage sensor 26 described later, an abnormality in the temperature of the main processor 22P detected by the temperature sensor 25, or the like.
  • FIG. 3 is a block diagram of a computer system that is the computer 100 of the embodiment.
  • the computer 100 includes a plurality of system boards 20-1, 20-2,..., 20-n (hereinafter sometimes simply referred to as system board 20), a service processor 10, and a PSU 30.
  • the computer 100 further includes an operator panel 40, a fan unit 60, and a fan control board 50.
  • Each system board 20 has an information processing function inherent to the computer 100, and an OS operates on each system board 20 individually.
  • the service processor 10 performs power control, initialization, monitoring, etc. of the plurality of system boards 20.
  • the PSU 30 supplies primary DC power to a plurality of system boards 20.
  • the operator panel 40 is used by the operator to operate the system of the computer 100, and holds the entire system information 40I in an EEPROM 40M provided therein.
  • the overall system information 40I includes, for example, the device name, serial number, and device configuration information of the computer 100.
  • the fan unit 60 cools the plurality of system boards 20, and the fan control board 50 controls the fan unit 60.
  • the service processor 10 has a sub-processor 12 that is a processor.
  • the memory 13, the FMEM 14, and the maintenance bus controller 11 are connected to the bus of the sub processor 12.
  • the maintenance bus controller 11 is connected to a plurality of system boards 20 and collectively performs control such as power control, cooling control, temperature monitoring, voltage monitoring, and log collection for all the system boards 20.
  • the maintenance bus controller 11 of the service processor 10 detects an environmental abnormality in the system board 20 based on the environmental abnormality information signal EA transmitted from the maintenance bus controller 21 of the system board 20.
  • the maintenance bus controller 11 of the service processor 10 performs control to shut down the system board 20 and turn off the power of the system board 20 when an environmental abnormality is detected.
  • the maintenance bus controller 11 of the service processor 10 grasps the fact that the system board 20 is shut down and the power is turned off, and writes the fact into the corresponding system information 13I in the system information table 13T.
  • information indicating the power on / off state of each system board 20, the OS operating state, and the like is held as system information 13 ⁇ / b> I in a system information table 13 ⁇ / b> I provided in the memory 13 for each system board 20.
  • the corresponding system information 13I is updated each time as described above.
  • the system board can be degenerated by requesting the OS to disconnect the system board from the computer.
  • the maintenance bus controller 11 of the service processor 10 is also connected to the PSU 30 via I2C, and controls the power supplied in common in the system of the computer 100. Further, the maintenance bus controller 11 receives a power supply abnormality report from the PSU 30 by an interrupt signal (INT: Interrupt).
  • INT Interrupt
  • the maintenance bus controller 11 of the service processor 10 has a watch dog timer (hereinafter simply referred to as WDT 1) 11T, and detects errors such as a hang-up of the sub processor 12. If the error such as hang-up is a transient failure, WDT1 and 11T are activated, the system of the service processor 10 is restarted, and after the restart, the normal operation is resumed. On the other hand, when an error such as hang-up is a fixed failure, restart by WDT1 and 11T is repeated, and after the number of repetitions reaches the specified number N, the service processor 10 stops. This point will be described later with reference to FIG. When the service processor 10 stops, the communication between the service processor 10 and each system board 20 is cut off.
  • WDT 1 and 11T the watch dog timer
  • the service processor 10 is connected to an operator panel 40 equipped with an operator operation switch, a status display LED (both not shown), an EEPROM holding the entire system information 40I, and 40M, and controls the operator panel 40. .
  • the service processor 10 is also connected to a fan control board 50 on which a fan control IC 50I for controlling the fan unit 60 and a fan control board 50 are mounted by I2C, and controls and monitors the rotational speed of the fan of the fan unit 60.
  • Fan control information for controlling the fan unit 60 is held in the control IC 50I. Even if communication with the service processor 10 is interrupted by the held fan control information, the fan does not stop.
  • the service processor 10 reads the EEPROM of the operator panel 40, the entire system information stored in the 40M, and the information of the on-register 30R of the PSU 30 at startup.
  • the service processor 10 When the service processor 10 is activated, the service processor 10 reads the power supply control information 21I of each system board 20 and the system individual information 24I including the OS operating state information.
  • the service processor 10 reads these pieces of information at the time of activation to determine the situation when the service processor 10 is activated. That is, it is determined whether the service processor 10 is activated by turning on the AC power supply to the computer 100 or is replaced and activated due to a failure during the system operation of the computer 100.
  • the service processor 10 determines that the service processor 10 has been replaced and started during the system operation of the computer 100.
  • the service processor 10 determines that the AC power of the computer 100 itself is turned on and started.
  • the service processor 10 may make the above determination based on the power supply control information 21I read from each system board 20 at the time of activation. In this case, the service processor 10 determines from the power supply control information 21I whether it was activated by turning on the AC power supply to the computer 100 or whether it was replaced and activated during the system operation of the computer 100.
  • the service processor 10 determines that the service processor 10 has been replaced and started during the system operation of the computer 100.
  • “DC-DC converter 27 is OFF” is indicated, service processor 10 determines that AC power of computer 100 itself is turned on and started.
  • the service processor 10 When the service processor 10 is activated and replaced while the system of the computer 100 is operating, the service processor 10 restores the system information of each system board 20 in the system information table 13T of the memory 13 based on the information read at the time of activation as described above. To do. In this case, the system information of each system board 20 before the stop of the service processor 10 before replacement may be restored, or the system information generated during the stop of the service processor 10 may be restored together. Is also good (the same applies below).
  • FIG. 4 is a block diagram of one system board 20 (20-i in the figure) among the plurality of system boards 20, and the one system board 20 will be described below. Since the plurality of system boards 20 have the same configuration and function, description of each of the other system boards 20 among the plurality of system boards 20 is omitted.
  • the system board 20 includes a main processor 22P, a memory 22M, a system controller (SC) 22C, an IO controller (IOC) 22I, and an external I / F (PCI-E) 22E, which are basic components of the computer.
  • the system board 20 has a DC-DC converter 27.
  • the DC-DC converter 27 uses a main power source (primary DC power source) common to the system of the computer 100 supplied from the PSU 30 as a plurality of main power sources (secondary DC power sources) used in the system board 20. Convert.
  • the main power source (secondary DC power source) is on / off controlled, set, and monitored by a maintenance bus controller (main system) 21.
  • the system board 20 has a temperature sensor 25 and a voltage sensor 26 of the secondary DC power source.
  • the temperature sensor 25 and the voltage sensor 26 are connected to a maintenance bus controller (main system) 21 through I2C.
  • a threshold value for detecting an environmental abnormality is set for each sensor 25, 26, and an interrupt signal INT is transmitted from each sensor 25, 26 to the maintenance bus controller 21 when an environmental abnormality occurs.
  • the system board 20 has an SRAM 24 and an FMEM 23.
  • the SRAM 24 and the FMEM 23 hold system individual information indicating the operating state of the OS of the system board 20.
  • the SRAM 24 and the FMEM 23 are used as a shared memory between the OS of the system board 20 and the service processor 10, and are used for storing a boot program of the OS.
  • the SRAM 24 and the FMEM 23 are connected to a maintenance bus controller (main system) 21 by a bus.
  • the system individual information 24I held in the SRAM 24 of the system board 20 is information indicating the system operating state of the system board 20, for example, OBP (OpenBoot PROM) state (indicating that the firmware is operating), OS, Each information includes information indicating that the boot is in progress, the OS is running, and that the shutdown has occurred.
  • the system individual information 24I is updated by the main processor 22P each time the system operation commission state changes.
  • the system individual information 24I includes information indicating that the system has been shut down.
  • the DC-DC converter 27 is not necessarily turned off at the time of shutdown. Therefore, it is necessary to individually hold the system individual information 24I including information indicating that the shutdown has been performed and the power supply control information 21I including information indicating that the DC-DC converter 27 has been turned off.
  • a maintenance bus controller (main system) 21 of the system board 20 communicates with the service processor 10 to control the system board 20.
  • the maintenance bus controller (main system) 21 of the system board 20 has an SC bus control unit 21B.
  • the SC bus control unit 21B has a shutdown request register 21R that requests the OS of the system board 20 to shut down. If necessary, the service processor 10 or an alternative monitoring circuit 21E described later writes information into the shutdown request register 21R via the sub processor I / F 21F or the internal bus, and thereby the system board 20 via the SC bus.
  • Request shutdown (stop request) to OS. When information for requesting shutdown is written in the shutdown request register 21R, the OS detects this and shuts down the system board 20. As a result, the execution of the OS by the main processor 22P of the system board 20 is stopped.
  • the system board 20 requests the shutdown of itself, the system board 20 can be degenerated by requesting the OS to disconnect the system board 20 from the computer.
  • the maintenance bus controller (main system) 21 of the system board 20 also has a power control unit 21D.
  • the power control unit 21D performs setting and monitoring of the DC-DC converter 27.
  • the power control unit 21D receives the power on / off instruction from the service processor 10 and updates the power control information 21I. Then, the power control unit 21D performs on / off control of the DC-DC converter 27 based on the power control information 21I.
  • the power control unit 21D monitors the operating state of the DC-DC converter 27, and updates the power control information 21I whenever the operating state changes. For example, when the DC-DC converter 27 is stopped due to detection of an environmental abnormality, the fact that the power is turned off due to the stop is written in the power control information 21I.
  • the power supply control unit 21D also sets threshold values for detecting environmental abnormalities in the temperature sensor 25 and the voltage sensor 26. When an environmental abnormality is detected by the temperature sensor 25 or the voltage sensor 26, the power supply control unit 21D receives the interrupt signal INT from the corresponding sensor and transmits the interrupt signal to the service processor 10.
  • the maintenance bus controller (main system) 21 of the system board 20 has an alternative monitoring circuit 21E.
  • the alternative monitoring circuit 21E has a watchdog timer (hereinafter simply referred to as WDT2) 21T, and receives the heartbeat signal HB from the maintenance bus controller 11 of the service processor 10.
  • WDT2 watchdog timer
  • the heartbeat signal HB periodic notification signal
  • the alternative monitoring circuit 21E receives the heartbeat signal HB to confirm that the service processor 10 is operating normally. Instead of the maintenance bus controller 11 of the service processor 10 transmitting the heartbeat signal HB, the alternative monitoring circuit 21E may transmit a command to the maintenance bus controller 11.
  • the alternative monitoring circuit 21E obtains a predetermined response to the command from the maintenance bus controller 11 to confirm that the service processor 10 is operating normally (the same applies hereinafter).
  • WDT2 and 21T detect a time-out when the heartbeat signal HB is not received from the maintenance bus controller 11 of the service processor 10 for a time required for the service processor 10 to stop after being restarted N times a predetermined number of times.
  • 21E determines that the service processor 10 has failed. This point will be described later with reference to FIG.
  • the alternative monitoring circuit 21E instructs the power supply control unit 21D to suppress the reporting operation to the service processor 10 when an environmental abnormality is detected by the temperature sensor 25 or the voltage sensor 26.
  • the alternative monitoring circuit 21E When an environmental abnormality is detected by the temperature sensor 25 or the voltage sensor 26, the alternative monitoring circuit 21E requests the OS of the system board 20 to shut down instead of the service processor 10. Further, in this case, the alternative monitoring circuit 21E performs a process of stopping the DC-DC converter 27 and turning off the power of the system board. As described above, when the alternative monitoring circuit 21E stops the DC-DC converter 27 due to the detection of an abnormality, the operation state and monitoring information of the DC-DC converter 27 are reflected in the power supply control information 21I.
  • the monitoring information is information indicating that an environmental abnormality has been detected by the temperature sensor 25 or the voltage sensor 26.
  • the maintenance bus controller (main system) 21 of the system board 20 has a memory bus control unit 21A.
  • the memory bus control unit 21A performs arbitration when the service processor 10 and the OS of the system board 20 access the FMEM 23 and the SRAM 24.
  • the maintenance bus controller (main system) 21 of the system board 20 has an LSI control unit 21C.
  • the LSI control unit 21C controls various LSIs such as the system controller 22C, the main processor 22P, and the IO controller 22I, and performs initial setting and log collection based on instructions from the service processor 10.
  • the maintenance bus controller (main system) 21 of the system board 20 has a sub processor I / F 21F.
  • the sub-processor I / F 21F is used when the maintenance bus controller (main system) 21 communicates with the service processor 10.
  • the PSU 30 of the computer 100 is a power supply unit that converts AC power into DC power.
  • the PSU 30 has a redundant configuration and can be exchanged while the computer 100 is operating.
  • the PSU 30 supplies standby power to the service processor 10 and a circuit related to system control of the computer 100.
  • the PSU 30 further supplies main power (primary DC) to the plurality of system boards 20 and the fan unit 60.
  • the PSU 30 is connected to the service processor 10 through I2C, and the service processor 10 performs power-on, power-off, power monitoring, and the like of the PSU 30.
  • the on / off of the standby power supplied by the PSU 30 is linked with the on / off of the AC power to the computer 100.
  • the main power supply (primary DC) supplied by the PSU 30 is on / off controlled by the service processor 10 writing information to the on register 30R.
  • the on register 30 ⁇ / b> R that controls on / off of the main power supply (primary DC) maintains the retained information even when communication between the service processor 10 and the PSU 30 is interrupted. Therefore, even when the service processor 10 is replaced due to a failure, the supply of main power (primary DC) to each system board 20 or the like is maintained.
  • FIG. 5 is a diagram showing transition of each state of the PSU 30, the operator panel 40, the service processor 10, and the system board 20 when a fixed failure occurs in the service processor 10.
  • step S1 the system board 20 is in a power-on state, and the service processor 10 monitors the power of the system board 20.
  • step S2 a failure occurs in the service processor 10, the WDTs 1 and 11T detect a timeout, and as a result, the service processor 10 restarts.
  • the detection and restart of the timeout by WDT1 and 11T are repeated, and after repeating the prescribed number N, the service processor 10 stops.
  • the WDT 2 and 21 T of the system board 20 monitor the heartbeat signal HB from the maintenance bus controller 11 of the service processor 10.
  • the heartbeat signal HB since the heartbeat signal HB is not received from the service processor 10 for a predetermined number of times N, the heartbeat signal HB from the service processor 10 is not received for more than the restart time, WDT2 and 21T detect a timeout. This point will be described later with reference to FIG.
  • step S3 as a result of the time-out detection by the WDT2 and 21T, the alternative monitoring circuit 21E changes the environmental monitoring mode from the monitoring mode by the service processor 10 to the self-monitoring mode by the alternative monitoring circuit 21E of the system board 20.
  • the environment monitoring mode refers to a mode for monitoring the detection of environmental abnormality by the temperature sensor 25 and the voltage sensor 26 of the system board 20.
  • step S4 the service processor 10 is replaced by the operator while the system board 20 is operating. If an environmental abnormality occurs while the system board 20 is in the self-monitoring mode, the alternative monitoring circuit 21E requests the OS to shut down by writing information to the shutdown request register 21R. When the information for requesting the shutdown is written in the shutdown request register 21R as described above, the OS detects this and shuts down the system of the system board 20. When the OS shuts down the system of the system board 20, the main processor 22 ⁇ / b> P writes that the shutdown has been performed as system individual information held in the SRAM 24. The alternative monitoring circuit 21E further updates the power control information 21I of the power control unit 21D to stop the DC-DC converter 27 and turn off the power of the system board 20.
  • the new service processor 10 related to the replacement reads the EEPROM of the operator panel 40, the entire system information 40I of 40M and the information of the on-register 30R of the PSU 30. Further, the new service processor 10 reads the system individual information 24I stored in the respective SRAMs 24 of the plurality of system boards 20 and the power supply control information 21I stored in the power supply control unit 21D. As a result, the new service processor 10 recognizes that it has been replaced while the computer 100 is operating. Here, as described above, the service processor 10 is replaced with the service processor 10 while the computer 100 is in operation because, for example, the information in the on-register 30R of the read PSU 30 indicates “the PSU 30 is supplying main power”.
  • the new service processor 10 restores the system information 13I in the system information table 13T of the memory 13 based on the system individual information 24I and the power supply control information 21I read from each of the plurality of system boards 20 as described above.
  • the system information 13I in the system information table 13T is individually held for each of the plurality of system boards 20 as described above.
  • step S5 the maintenance bus controller 11 of the service processor 10 starts transmitting the heartbeat signal HB, and when the alternative monitoring circuit 21E receives the heartbeat signal HB, the environmental monitoring mode is set to the self-monitoring mode by the alternative monitoring circuit 21E. To the monitoring mode by the service processor 10.
  • FIG. 6 is a flowchart showing the flow of operations when the service processor 10 is started up and when a failure occurs.
  • step S11 the AC power of the computer 100 is turned on, and the service processor 10 is activated.
  • the service processor 10 is replaced while the AC power supply of the computer 100 is on. After the replacement, power is supplied to the service processor 10 and the service processor 10 is activated.
  • the service processor 10 initializes the memory 13 in step S12, and initializes the maintenance bus controller 11 in step S13.
  • step S14 the service processor 10 validates WDT1 and 11T
  • step S15 the service processor 10 reads the entire system information 40I from the operator panel 40 and reads the information of the on register 30R from the PSU 30.
  • the service processor 10 further reads the system individual information 24I from each of the plurality of system boards 20.
  • step S16 the service processor 10 determines whether the activation is exchanged due to a failure or the like during the system operation of the computer 100 based on the various information read in step S15. If the service processor 10 has not been replaced and activated due to a failure or the like during the system operation of the computer 100 (NO), the service processor 10 initializes the system information table 13T in step S18.
  • Initialization of the system information table 13T means writing initial information in the system information table 13T.
  • Initial information means information prepared in advance as contents to be written in the system information table 13T when the AC power supply of the computer 100 is turned on. To tell.
  • the system information table 13T is restored in step S17. That is, based on the system individual information 24I read from each of the plurality of system boards 20 in step S15, the individual system information of each system board 20 is written in the system information table 13T.
  • step S19 the service processor 10 starts environmental monitoring in the monitoring mode by the service processor 10.
  • the environmental monitoring includes monitoring whether or not an environmental abnormality is detected by each of the temperature sensor 25 and the voltage sensor 26 of each of the plurality of system boards 20. Details of the environmental monitoring will be described later with reference to FIG.
  • step S20 the service processor 10 determines whether or not a timeout is detected by WDT1 and 11T enabled in step S14. If a timeout due to WDT1 and 11T is not detected ("normal"), the process returns to step S19, and environmental monitoring is continued in the monitoring mode by the service processor 10. On the other hand, if a timeout due to WDT1 and 11T is detected ("abnormal"), the service processor 10 proceeds to step S21, restarts the system of the service processor 10 itself, and counts up the reboot counter. In step S22, it is determined whether the count value of the reboot counter is equal to or greater than a predetermined value N. If the count value of the reboot counter is equal to or greater than the predetermined value N (YES), the service processor 10 stops its operation. On the other hand, if the count value of the reboot counter is less than the predetermined value N (NO), the system of the service processor 10 is restarted in step S24.
  • the service processor 10 then returns to step S14 and executes S14, S15, S16, S17 or S18, S19, S20 described above.
  • steps S15, S16, S17 or S18, S19 are not executed, the process proceeds directly from step S14 to step S20, and a timeout due to WDT1 is detected again ("abnormal"). ).
  • the process returns to step S21.
  • the loop operation of steps S14, S20, S21, S22, S24, and S14 is repeated.
  • the determination result in step S22 is YES, and the service processor 10 stops in step S23.
  • steps S12, S13, S14, S15, S16, S17, S18, S19, and S20 are mainly executed by the sub processor 12 executing the firmware program stored in the memory 13 or the FMEM 14.
  • the Steps S21, S22, S23, and S24 are executed by hardware (maintenance bus controller 11) (steps S21, S22, S23, and S24 can be executed by software).
  • FIG. 7 is a flowchart showing a failure detection operation of the service processor 10 by the alternative monitoring circuit 21E of the system board 20 and a subsequent operation flow of the system board 20 when a failure of the service processor 10 is detected.
  • step S31 the alternative monitoring circuit 21E of the system board 20 determines whether or not the WDT 2 and 21T are cleared by receiving the heartbeat signal HB from the maintenance bus controller 11 of the service processor 10. That is, it is determined whether or not a timeout has been detected by WDT2 and 21T.
  • WDT2 and 21T are timed out when the heartbeat signal HB is not received from the maintenance bus controller 11 of the service processor 10 for the time required for the service processor 10 to stop after a specified number of times N and restart. To detect. As described above with reference to FIG. 6, when the service processor 10 has a fixed failure, the loop operation of steps S14, S20, S21, S22, S24, and S14 is repeated. When the number of repetitions of the repetitive operation reaches the specified number N, the determination result in step S22 is YES, and the service processor 10 stops in step S23.
  • the time required for the service processor 10 to stop after being restarted N times the specified number of times is that the WDT2 and 21T repeat the loop operation N times, and then the service processor 10 stops (step S23).
  • the WDT 2 and 21T measure the time, and detect a fixed failure of the service processor 10 by detecting a timeout when the heartbeat signal HB from the service processor 10 is not received during that time.
  • the service processor 10 transmits the heartbeat signal HB within at least the time required for the service processor 10 to stop after being restarted N times the specified number of times. To do. For this reason, no timeout is detected by WDT2 and 21T (“normal” in step S31). If no timeout is detected by WDT2 and 21T in step S31 (“normal”), environmental monitoring and power supply control are performed by the service processor 10 in step S32. Details of environmental monitoring and power supply control by the service processor 10 will be described later with reference to FIG.
  • step S31 if a timeout due to WDT2 and 21T is detected in step S31 ("abnormal"), the process proceeds to step S33.
  • step S33 the alternative monitoring circuit 21E switches the environmental monitoring mode from the monitoring mode by the service processor 10 to the self-monitoring mode by the alternative monitoring circuit 21E of the system board 20.
  • step S34 it is determined whether an environmental abnormality is detected in the self-monitoring mode by the alternative monitoring circuit 21E. If no environmental abnormality is detected (NO in step S34), it is determined in step S35 whether the heartbeat signal HB from the service processor 10 has been received.
  • step S35 When the heartbeat signal HB from the service processor 10 is received (“normal” in step S35), the process proceeds to step S32, and the alternative monitoring circuit 21E changes the environment monitoring mode from the self-monitoring mode to the monitoring mode by the service processor 10. return. Then, environmental monitoring and power control by the service processor 10 are executed.
  • the heartbeat signal HB is received from the service processor 10 in step S35 (“normal”), for example, the service processor 10 having a fixed failure is replaced by an operator, and the normal service processor 10 This is the case.
  • step S35 the process returns to step S34 to determine whether an environmental abnormality is detected in the self-monitoring mode by the alternative monitoring circuit 21E.
  • the heartbeat signal HB from the service processor 10 is not received in step S35 (“abnormal”), for example, the service processor 10 having a fixed failure has not been replaced yet, and the service processor 10 This is a case where the abnormal state continues.
  • the alternative monitoring circuit 21E requests the OS of the system board 20 to shut down the system in step S36. Specifically, a message to request shutdown is written in the shutdown request register 21R. When information for requesting shutdown is written in the shutdown request register 21R, the OS detects this and shuts down the system of the system board 20. In step S37, the main processor 22P of the system board 20 updates the system individual information 24I. That is, when the system of the system board 20 is shut down due to the system shutdown request as described above, the main processor 22P writes the shutdown information in the system individual information 24I.
  • the alternative monitoring circuit 21E writes in the power supply control information 21I that power is off in step S38, and as a result, the power supply control unit 21D stops the DC-DC converter 27 in step S39. As a result, the power supply of the system board 20 is turned off. Further, the fact that the system board 20 is turned off due to the stop of the DC-DC converter 27 is written in the power supply control information 21I.
  • the alternative monitoring circuit 21E determines whether the heartbeat signal HB from the service processor 10 has been received. When the heartbeat signal HB is received from the service processor 10 (“normal” in step S40), the process proceeds to step S32, and the alternative monitoring circuit 21E returns the environmental monitoring mode from the self-monitoring mode to the monitoring mode by the SVP 10.
  • step S40 the service processor 10 having a fixed failure is replaced by an operator, and the normal service processor 10 This is the case.
  • step S40 the process returns to step 40 to determine whether the heartbeat signal HB from the service processor 10 has been received.
  • heartbeat signal HB from the service processor 10 is not received in step S40 (“abnormal”), for example, the service processor 10 having a fixed failure has not been replaced yet, and the service processor 10 This is a case where the abnormal state continues.
  • step S37 is executed by the main processor 22P executing an OS (software program) stored in the memory 22M or an OBP (firmware program) stored in the FMEM 23.
  • Steps S31, S33, S34, S35, S36, S38, S39, and S40 are executed by the alternative monitoring circuit 21E (hardware).
  • Step S32 is executed by the SC bus control unit 21B (hardware) and the power supply control unit 21D (hardware) under the control of the service processor 10.
  • the system shutdown when an environmental abnormality is detected is executed by the main processor 22P executing the OS (software program) stored in the memory 22M.
  • FIG. 8 is a flowchart showing the flow of environmental monitoring and power supply control operations performed by the service processor 10 in a normal state.
  • step S51 when the environmental abnormality information signal EA transmitted from any of the maintenance bus controllers 21 of the plurality of system boards 20 is received in step S51 (YES), the process proceeds to step S52. On the other hand, when the environmental abnormality information signal EA is not received from any of the maintenance bus controllers 21 of the plurality of system boards 20 in step S51 (NO), the process returns to step S51. In step S51, it is determined whether the environmental abnormality information signal EA has been received from any of the maintenance bus controllers 21 of the plurality of system boards 20.
  • step S52 the OS of the system board 20 that has transmitted the environmental abnormality information signal EA in step S51 is requested to shut down the system. Specifically, the fact that a shutdown request is made is written in the shutdown request register 21R via the sub-processor I / F, 21F of the system board 20. As a result, the OS of the system board 20 controls the main processor 22P to shut down the system of the system board 20. In step S53, the main processor 22P writes the shutdown information in the system individual information 24I. Further, the service processor 10 grasps the fact of shutdown via the sub-processor I / F and 21F of the system board 20, and writes the fact into the system information 13I related to the system board 20 included in the system information table 13T.
  • step S54 the service processor 10 writes in the power control information 21I that the power is to be turned off via the sub processors I / F and 21F of the system board 20 in which the environmental abnormality has occurred.
  • the power supply control unit 21D stops the DC-DC converter 27, and the power supply of the system board 20 is turned off. Further, the fact that the system board 20 is turned off due to the stop of the DC-DC converter 27 is written in the power supply control information 21I. Further, the service processor 10 grasps the fact that the power of the system board 20 is turned off due to the stop of the DC-DC converter 27 via the sub-processor I / F and 21F of the system board 20. Then, the service processor 10 writes the fact in the system information 13I related to the system board 20 included in the system information table 13T.
  • the service processor 10 can be replaced without stopping all the system boards 20 of the computer 100. As a result, the reliability and availability of the entire computer 100 system are improved.
  • “availability” means Availability, which means that the system is not easily broken. Availability is measured by the difficulty of a system failure and the speed of repair when a failure occurs. That is, if a failure does not occur, the availability will be high, and if the system can continue to operate even if a failure occurs, the system will have high availability as well. Further, since it is not necessary to duplicate the service processor 10, the quantity and cost can be reduced.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 情報処理装置の制御を行う第1の演算処理装置と、定期通知信号を定期的に送信するとともに、自己の異常を検出した場合、第1の演算処理装置による情報処理装置の制御を停止させる第1の制御部とを備えるシステム制御装置と、情報の処理を行う第2の演算処理装置と、定期通知信号の受信に基づきシステム制御装置の異常を検出した場合、情報処理装置の制御を第1の制御部に替わって行う第2の制御部とを備える処理装置とを有する。

Description

情報処理装置、情報処理装置の制御方法及び制御プログラム
 本発明は、情報処理装置、情報処理装置の制御方法及び制御プログラムに関する。
 電源の供給を受ける電子機器が電源オフ信号の受付から電源投入時におけるリセット信号の受付までの期間内にハードウェアの初期化処理等の各種処理を行うことを可能にするため、電源スイッチのオフ操作後所定期間、電源出力電圧を規定値に保持する電源制御回路が知られている。
 又、電源制御ユニットの異常動作による電源ユニットの誤動作を防止するため、当該電源制御ユニットを制御する上位の制御ユニットが出力するイネーブル信号に応じて電源制御ユニットが出力するオンオフ信号を電源ユニットに出力する電源制御システムが知られている。
特公平6-100947号公報 特開平11-206013号公報
 処理装置の異常の報告に応じて当該処理装置をシャットダウンするとともに当該処理装置の電源をオフするシステム制御装置が異常の場合を想定する。当該場合において、処理装置の運用を継続可能とする構成を提供することを目的とする。
 情報処理装置の制御を行う第1の演算処理装置と、定期通知信号を定期的に送信するとともに、自己の異常を検出した場合、第1の演算処理装置による情報処理装置の制御を停止させる第1の制御部とを備えるシステム制御装置を有する。更に、情報の処理を行う第2の演算処理装置と、定期通知信号の受信に基づきシステム制御装置の異常を検出した場合、情報処理装置の制御を第1の制御部に替わって行う第2の制御部とを備える処理装置を有する。
 このように本発明によれば、システム制御装置が異常の場合、システム制御装置が正常時に実行する、処理装置が異常の際の動作を、処理装置が実行する。したがってシステム制御装置が異常の場合でも、処理装置の動作を停止することなく、そのまま継続することができる。
参考例の計算機のブロック図である。 図1に示されるシステムボードのブロック図である。 実施例の計算機のブロック図である。 図3に示されるシステムボードのブロック図である。 図3に示されるサービスプロセッサに固定的な障害が発生した場合の、実施例の計算機における動作の流れを示す図である。 電源がオンされた場合の、図3に示されるサービスプロセッサの動作の流れを示すフローチャートである。 図3に示されるサービスプロセッサに固定的な障害が発生した場合の、図4に示されるシステムボードの動作の流れを示すフローチャートである。 図4に示されるシステムボードから環境異常を示す情報が受信された場合の、図3に示されるサービスプロセッサの正常時の動作の流れを示すフローチャートである。
 以下に実施例について詳細に説明する。
 実施例による情報処理装置としての計算機は、演算を行う演算処理装置をそれぞれ有する複数の処理装置としてのシステムボードとシステム制御装置としてのサービスプロセッサ(SVP:Service Processor)とを有する計算機である。複数のシステムボードはそれぞれが計算機の情報処理機能を有し、サービスプロセッサは複数のシステムボードのシステム制御および監視を行う。当該計算機では、これら複数のシステムボードおよびサービスプロセッサが一の筐体内に設けられる。また当該計算機では、各システムボードに、サービスプロセッサからアクセス可能な、OS(Operating System,オペレーティングシステム、以下同様)の稼働状況等を示すシステム個別情報を設ける。システム個別情報は、システムボードのシステムの稼働状態を示す情報、例えばOBP(Open Boot PROM)状態(ファームウェア動作中の旨)、OSブート中の旨、OSランニング中の旨、およびシャットダウンした旨の各情報を含む(以下同様)。また当該計算機では、各システムボードが、システムボード自身に対する環境監視、制御を行い、システムボード自身の電源遷移状態および監視状態を保持する機能を有する。
 近年、基幹システム等で使用される計算機においては高い信頼性が要求される。具体的には、一部のハードウェアが故障しても代替機能等により継続した動作が可能であり、ハードウェアの交換の際にも計算機全体を停止させる必要のない計算機が要求される。
 図1に参考例の計算機としての計算機1100のブロック図を示す。参考例の計算機1100は複数のシステムボード120-1,120-2,...,120-n、サービスプロセッサ110,パワーサプライユニット(以下単にPSU(Power Supply Unit)と称する)130、オペレータパネル140,ファンユニット160およびファン制御ボード150を有する。
 各システムボード120-1,120-2,...,120-n(以下総称してシステムボード120と称する場合がある)ではOSが動作する。サービスプロセッサ110は複数のシステムボード120の電源制御、初期化、監視等を行う。PSU130は複数のシステムボード120に一次直流電圧を供給する。オペレータパネル140はオペレータが計算機のシステムの操作を行うものであり、計算機のシステム情報を保持する。ファンユニット160は複数のシステムボード120を冷却し、ファン制御ボード150はファンユニット160を制御する。
 サービスプロセッサ110はシステムボードに搭載されるメインプロセッサ122Pとは異なる演算処理装置としてのサブプロセッサ112を有し、サブプロセッサ112に接続されるバス上に、メモリ113、FMEM(Flash MEMORY:フラッシュメモリ、以下同様)114、メンテナンスバスコントローラ111が接続される。メンテナンスバスコントローラ111は複数のシステムボード120と接続され、全てのシステムボード120に対する電源制御、冷却制御、温度監視、電圧監視、ログ収集等の制御を一括して行う。
 またサービスプロセッサ110において、各システムボード120の電源投入状態、OS稼働状態等のシステム情報がメモリ133に保持され、メモリ133に保持されるシステム情報はシステムの状態が遷移した場合はその都度更新される。メンテナンスバスコントローラ111はPSU130と接続され、メンテナンスバスコントローラ111が有するオンレジスタ111Rに情報を書き込むことでPSU130の電源を制御する。また、メンテナンスバスコントローラ111はPSU130から各種電源異常信号を受け取る。
 メンテナンスバスコントローラ111はウォッチドッグタイマ(以下単にWDT(Watch Dog Timer)と称する)111Tを有し、サブプロセッサ112のハングアップ等のエラーを検出する。ここで上記ハングアップ等のエラーが一過性の障害であれば、WDT111Tが働きサービスプロセッサ110のシステムが再起動(リブート)され、サービスプロセッサ110は再起動後に通常の運用状態に戻る。他方ハングアップ等のエラーが固定障害による場合、WDT111Tによるリセットおよび再起動が繰り返され、繰り返し回数が規定回数Nに達した後、サービスプロセッサ110は停止し、システムの制御が不能となる。この点は図6とともに後述する。
 サービスプロセッサ110は、オペレータ操作用スイッチ、状態表示LED(Light Emitting Diode)(いずれも図示を省略)、およびシステム全体情報を保持するEEPROM(Electric Erasable Programmable Read Only Memory)140Mを搭載するオペレータパネル140とI2C(Inter-Integrated Circuit)で接続され、オペレータパネル140の制御を行う。サービスプロセッサ110はまた、ファンユニット160を制御するファン制御IC(Integrated Circuit)150Iが搭載されたファン制御ボード150とI2Cで接続され、当該計算機1100の冷却用のファンの回転数の制御および監視を行う。より信頼性を求められるシステムではサービスプロセッサ110が二重化され、一のサービスプロセッサの故障時には他のサービスプロセッサが代替処理を行うことでシステムを落とすことなくサービスプロセッサの交換が可能となる。
 次に参考例の計算機1100における各システムボード120について説明する。図2は各システムボード120(図中、120-i)のブロック図を示す。システムボード120は計算機の基本構成であるメインプロセッサ122P、メモリ122M、システムコントーラ(SC:System Controller)122C、IOコントローラ(IOC:Input Output Controller)122Iを有する。システムボード120は更に、外部I/F(Interface:インタフェース、以下同様)(PCI-E:Peripheral Component Interconnect Express)122Eを有する。
 システムボード120はまたDC-DC(Direct Current-Direct Current)コンバータ127を有し、DC-DCコンバータ127は、上記PSU130から供給された、システムで共通のメイン電源電圧(1次直流電圧)を、当該システムボード120で使用される複数のメイン電源電圧(2次直流電圧)に変換する。メイン電源電圧(2次直流電圧)はメンテナンスバスコントローラ(メインシステム)121によってオン/オフ制御、設定および監視がなされる。ここでメンテナンスバスコントローラは、システムボード120とサービスプロセッサとの双方に設けられている。そこでシステムボード120内のメンテナンスバスコントローラをメンテナンスバスコントローラ(メインシステム)と称し、サービスプロセッサ110内のメンテナンスバスコントローラをメンテナンスバスコントローラ(サブシステム)と称する場合がある。
 システムボード120はまた温度センサ125および上記2次直流電源の電圧センサ126を有し、I2Cを介してメンテナンスバスコントローラ(メインシステム)121に接続される。上記各センサ125,126には異常を検出する閾値が設定され、異常の発生時にはメンテナンスバスコントローラ121に割り込みを発生させる。
 システムボード120はSRAM(Static Random Access Memory)124、FMEM123を有する。SRAM124、FMEM123は当該システムボード120のOSとサービスプロセッサ110との共有メモリ、OSのブートプログラムの格納用等に使用され、メンテナンスバスコントローラ(メインシステム)121にバス接続される。
 メンテナンスバスコントローラ(メインシステム)121はサービスプロセッサ110と通信を行い、当該システムボード120のシステム制御を行う。メンテナンスバスコントローラ(メインシステム)121はSCバス制御部121Bを有する。SCバス制御部121BはOSへのシャットダウン要求を行うシャットダウン要求レジスタ121Rを有する。サービスプロセッサ110は必要に応じ、当該シャットダウン要求レジスタ121Rを使用してSCバスを経由してシステムボード120の上で動作するOSへシャットダウンを要求する。
 メンテナンスバスコントローラ(メインシステム)121はまた電源制御部121Dを有する。電源制御部121DはDC-DCコンバータ127の設定、監視を行い、また、サービスプロセッサ110から電源オンオフ指示を受けて電源制御情報121Iを更新することにより、DC-DCコンバータ127のオンオフ制御を行う。また温度センサ125、電圧センサ126へ環境異常を検出する閾値の設定を行い、また環境異常の発生時には温度センサ125、電圧センサ126から割り込みを受け取りサービスプロセッサ110に通知する。
 メンテナンスバスコントローラ(メインシステム)121はメモリバス制御部121Aを有し、メモリバス制御部121Aはサービスプロセッサ110あるいはOSがFMEM123、SRAM124にアクセスする際の調停を行う。
 メンテナンスバスコントローラ(メインシステム)121はLSI(Large Scale Integrated circuit)制御部121Cを有する。LSI制御部121Cはシステムコントローラ122C、メインプロセッサ122P、IOコントローラ122I等の各種LSIを制御し、サービスプロセッサ110からの指示に基づき初期設定、ログ収集を行う。
 メンテナンスバスコントローラ(メインシステム)121はサブプロセッサI/F121Fを有する。サブプロセッサI/F121Fはメンテナンスバスコントローラ(メインシステム)121がサービスプロセッサ110との通信を行う際に使用される。
 上述の計算機1100では、サービスプロセッサ110から各システムボード120の電源投入、電源切断、再起動等の指示が出されると、当該指示に基づいて各種の制御が行われる。この場合、サービスプロセッサ110及び各システムボード120の夫々のメンテナンスバスコントローラ111,121が上記各種の制御を行う。また各システムボード120で発生したエラー、環境異常の報告も上記同様メンテナンスバスコントローラ111,121が行う。サービスプロセッサ110のメンテナンスバスコントローラ111は、環境異常の報告を受けると 該当するシステムボード120のDC-DCコンバータ127をオフして当該システムボード120の電源を落とす。一つ以上のシステムボード120が電源投入されている場合はPSU130がオンされ、全てのシステムボード120で電源切断されている場合はPSU130がオフされる。
 以下にサービスプロセッサ110が故障した際の計算機1100の動作を説明する。サービスプロセッサ110の故障が一過性の障害の場合、サービスプロセッサ110のWDT111Tが働きPSU130の電源投入状態を保持したまま、サービスプロセッサ110がリセットされ、再起動後通常運用に戻る。他方サービスプロセッサ110の故障が固定的な障害の場合、WDT111Tによるリセットおよび再起動が繰り返され、繰り返し回数が規定回数Nに達した後サービスプロセッサ110は停止する。この点は図6とともに後述する。サービスプロセッサ110を交換する場合は、全てのシステムボード120の電源をオフした後、PSU130に供給されるAC電源をオフして行う。サービスプロセッサ110が交換された場合、新たなサービスプロセッサ110はオペレータパネル140内のEEPROM140Mに格納されたシステム全体情報を読み出す。更にサービスプロセッサ110は、メモリ113Iに、収集した各システムボード120のシステム情報を格納する。
 上述の参考例の計算機1100の場合、サービスプロセッサ110の故障時には、サービスプロセッサ110が行っていたシステムボード120の電源制御、監視、シャットダウン、再起動、エラーログ収集等の機能が停止する。このためサービスプロセッサ110を早急に交換する必要がある。またサービスプロセッサ110の交換の際には上記の如く、全てのシステムボード120の電源をオフする必要がある。なお、サービスプロセッサ110を二重化することも考えられるが、その場合物量及びコストが増大する。また、サービスプロセッサ110の二重化の制御を担う共通部分(セレクタ等)が故障の場合は二重化の利点が発揮されない。
 以下に述べる実施例では、サービスプロセッサが故障した際、各システムボードが当該故障を検出し、各システムボードにおいては電源投入状態を継続したまま自装置の環境監視を行う。この場合各システムボードは環境異常を検出した際にのみ、システムボード自身が実行するOSに対してシャットダウンを要求し、2次側直流電源をオフする。
 ここで、システムボード自身が実行するOSに対してシャットダウンを要求する場合に、併せて当該システムボードの計算機からの切り離しをOSに対して要求することにより、システムボードの縮退をすることもできる。
 また実施例では各システムボードにて、自システムボードの電源投入に関する電源制御情報およびOS稼働状態等のシステム情報を保持する。その結果実施例では、各システムボードの機能を維持したままサービスプロセッサの交換を行い得る。なお上記環境異常とは、後述する電圧センサ26によって検出されるDC-DCコンバータ27の電源電圧の異常、あるいは温度センサ25によって検出されるメインプロセッサ22Pの温度の異常等を意味する。
 以下に図とともに実施例の計算機の詳細について説明する。図3は実施例の計算機100である計算機システムのブロック図を示す。計算機100は複数のシステムボード20-1,20-2,...,20-n(以下単にシステムボード20と総称する場合がある)、サービスプロセッサ10,PSU30を有する。計算機100は更に,オペレータパネル40,ファンユニット60およびファン制御ボード50を有する。各システムボード20は当該計算機100本来の情報処理機能を有し、個々のシステムボード20において個別にOSが動作する。サービスプロセッサ10は複数のシステムボード20の電源制御、初期化、監視等を行う。
 PSU30は複数のシステムボード20に一次直流電源を供給する。オペレータパネル40はオペレータが当該計算機100のシステムの操作を行うものであり、内部に設けられたEEPROM40Mにシステム全体情報40Iを保持する。システム全体情報40Iとは、例えば、当該計算機100の装置名称、シリアル番号、装置の構成情報等を含む。ファンユニット60は複数のシステムボード20を冷却し、ファン制御ボード50はファンユニット60を制御する。
 サービスプロセッサ10はプロセッサであるサブプロセッサ12を有する。サブプロセッサ12のバスには、メモリ13、FMEM14、およびメンテナンスバスコントローラ11が接続される。メンテナンスバスコントローラ11は複数のシステムボード20と接続され、全てのシステムボード20に対する、電源制御、冷却制御、温度監視、電圧監視、ログ収集等の制御を一括して行う。例えばサービスプロセッサ10のメンテナンスバスコントローラ11は、システムボード20のメンテナンスバスコントローラ21から送信される環境異常情報信号EAにより、当該システムボード20における環境異常を検出する。サービスプロセッサ10のメンテナンスバスコントローラ11は環境異常の検出により、当該システムボード20をシャットダウンし当該システムボード20の電源をオフする制御を行う。更にサービスプロセッサ10のメンテナンスバスコントローラ11は当該システムボード20のシャットダウンおよび電源のオフの事実を把握し、当該事実をシステム情報テーブル13T内の該当するシステム情報13Iに書き込む。 サービスプロセッサ10において各システムボード20の電源オンオフ状態、OS稼働状態等を示す情報はシステム情報13Iとして、メモリ13に設けられたシステム情報テーブル13Iにシステムボード20毎に保持される。各システムボード20の状態が遷移した場合は上記の如く、その都度該当するシステム情報13Iが更新される。
 ここで、システムボード自身に対してシャットダウンを要求する場合に、併せて当該システムボードの計算機からの切り離しをOSに対して要求することにより、システムボードの縮退をすることもできる。
 サービスプロセッサ10のメンテナンスバスコントローラ11はまたPSU30とI2Cで接続され、当該計算機100のシステムにおいて共通して供給される電源を制御する。またメンテナンスバスコントローラ11は、割り込み信号(INT:Interrupt)によりPSU30から電源異常報告を受け取る。
 サービスプロセッサ10のメンテナンスバスコントローラ11はウォッチドッグタイマ(以下単にWDT1と称する)11Tを有し、サブプロセッサ12のハングアップ等のエラーを検出する。上記ハングアップ等のエラーが一過性の障害であれば、WDT1、11Tが働きサービスプロセッサ10のシステムが再起動され、再起動後、通常運用に戻る。他方ハングアップ等のエラーが固定的な障害の場合、WDT1、11Tによる再起動が繰り返され、繰り返し回数が規定回数Nに達した後、サービスプロセッサ10は停止する。この点は図6とともに後述する。サービスプロセッサ10が停止すると、サービスプロセッサ10と各システムボード20との通信は遮断される。
 サービスプロセッサ10はオペレータ操作用スイッチ、状態表示LED(いずれも図示を省略)、およびシステム全体情報40Iを保持するEEPROM、40Mを搭載するオペレータパネル40とI2Cで接続され、オペレータパネル40の制御を行う。
 サービスプロセッサ10はまた、ファンユニット60を制御するファン制御IC、50Iが搭載されるファン制御ボード50とI2Cで接続され、ファンユニット60のファンの回転数制御および監視を行う。ファンユニット60を制御するファン制御情報は制御IC、50Iに保持され、当該保持されたファン制御情報により、サービスプロセッサ10との通信が遮断されてもファンが停止することはない。
 サービスプロセッサ10は起動時にオペレータパネル40のEEPROM、40Mに格納されるシステム全体情報、およびPSU30のオンレジスタ30Rの情報を読み込む。サービスプロセッサ10は起動時更に、各システムボード20が有する電源制御情報21I、およびOS稼働状態の情報を含むシステム個別情報24Iを読み込む。サービスプロセッサ10は起動時にこれらの情報を読み込むことにより、サービスプロセッサ10が起動された際の状況を判断する。すなわちサービスプロセッサ10が当該計算機100へのAC電源の投入によって起動されたのか、あるいは当該計算機100のシステム稼働中に故障等により交換されて起動されたのかを判断する。ここでは例えば上記PSU30のオンレジスタ30Rの情報が「PSU30がメイン電源を供給中」を示す場合、サービスプロセッサ10は計算機100のシステム稼働中に交換されて起動されたと判断する。また上記PSU30のオンレジスタ30Rの情報が「PSU30がメイン電源を切断中」を示す場合、サービスプロセッサ10は計算機100自体のAC電源が投入されて起動されたと判断する。あるいはサービスプロセッサ10は、起動時に各システムボード20から読み込んだ電源制御情報21Iに基づいて上記判断を行っても良い。この場合、サービスプロセッサ10は、当該計算機100へのAC電源の投入によって起動されたのか、当該計算機100のシステム稼働中に交換されて起動されたのかを電源制御情報21Iから判断する。すなわち、電源制御情報21Iが「DC-DCコンバータ27がオン」を示す場合、サービスプロセッサ10は計算機100のシステム稼働中に交換されて起動されたと判断する。また「DC-DCコンバータ27がオフ」を示す場合、サービスプロセッサ10は計算機100自体のAC電源が投入されて起動されたと判断する。
 サービスプロセッサ10が計算機100のシステム稼働中に交換された起動された場合、上記の如く起動時に読み込む情報に基づき、サービスプロセッサ10はメモリ13のシステム情報テーブル13Tの各システムボード20のシステム情報を復元する。この場合、交換前のサービスプロセッサ10の停止前の各システムボード20のシステム情報を復元するようにしてもよいし、あるいは更に、サービスプロセッサ10の停止中に生じたシステム情報を併せて復元しても良い(以下同様)。
 図4は上記複数のシステムボード20のうちの一のシステムボード20(図中、20-i)のブロック図であり、以下に当該一のシステムボード20について説明する。なお複数のシステムボード20は夫々同様の構成および機能を有するため、複数のシステムボード20のうちの他の各々のシステムボード20についての説明を省略する。
 システムボード20は、計算機の基本構成であるメインプロセッサ22P、メモリ22M、システムコントーラ(SC)22C、IOコントローラ(IOC)22I、および外部I/F(PCI-E)22Eを有する。
 またシステムボード20はDC-DCコンバータ27を有する。DC-DCコンバータ27は、PSU30から供給される、当該計算機100のシステムで共通のメイン電源(1次直流電源)を、当該システムボード20で使用される複数のメイン電源(2次直流電源)に変換する。当該メイン電源(2次直流電源)はメンテナンスバスコントローラ(メインシステム)21により、オンオフ制御、設定、監視がなされる。
 システムボード20は温度センサ25,および上記2次DC電源の電圧センサ26を有し、これら温度センサ25および電圧センサ26はI2Cを介してメンテナンスバスコントローラ(メインシステム)21に接続される。各センサ25,26には環境異常を検出する閾値が設定され、環境異常の発生時には各センサ25,26からメンテナンスバスコントローラ21に対し、割り込み信号INTが発信される。
 システムボード20はSRAM24、FMEM23を有する。SRAM24、FMEM23には、当該システムボード20のOSの稼働状態を示すシステム個別情報が保持される。またSRAM24、FMEM23は当該システムボード20のOSとサービスプロセッサ10との共有メモリとして使用され、またOSのブートプログラムの格納等に使用される。SRAM24、FMEM23はメンテナンスバスコントローラ(メインシステム)21にバス接続される。
 ここでシステムボード20のSRAM24に保持される上記システム個別情報24Iは、上記の如く、システムボード20のシステムの稼働状態を示す情報、例えばOBP(OpenBoot PROM)状態(ファームウェア動作中の旨)、OSブート中の旨、OSランニング中の旨、およびシャットダウンした旨の各情報を含む。システム個別情報24Iはシステムの稼働委状態の変化に応じ、その都度メインプロセッサ22Pが更新する。ここで上記の如くシステム個別情報24Iはシャットダウンした旨の情報を含むが、シャットダウンの際、必ずしもDC-DCコンバータ27がオフするとは限らない。このため、シャットダウンした旨の情報を含むシステム個別情報24Iと、DC-DCコンバータ27がオフした旨の情報を含む電源制御情報21Iとを個別に保持する必要がある。
 システムボード20のメンテナンスバスコントローラ(メインシステム)21はサービスプロセッサ10と通信を行い、当該システムボード20のシステム制御を行う。システムボード20のメンテナンスバスコントローラ(メインシステム)21はSCバス制御部21Bを有する。SCバス制御部21Bは当該システムボード20のOSへシャットダウンを要求するシャットダウン要求レジスタ21Rを有する。サービスプロセッサ10または後述する代替監視回路21Eは必要に応じ、サブプロセッサI/F21F又は内部バスを経由して上記シャットダウン要求レジスタ21Rに情報を書き込むことにより、SCバスを経由して当該システムボード20のOSへシャットダウンを要求(停止要求)する。シャットダウン要求レジスタ21Rにシャットダウンを要求する旨の情報が書き込まれると、OSはこれを検出し、システムボード20をシャットダウンする。その結果当該システムボード20のメインプロセッサ22PによるOSの実行が停止される。
 ここで、システムボード20が自身に対してシャットダウンを要求する場合に、併せて当該システムボード20の計算機からの切り離しをOSに対して要求することにより、システムボード20の縮退をすることもできる。
 システムボード20のメンテナンスバスコントローラ(メインシステム)21はまた電源制御部21Dを有する。電源制御部21Dは、DC-DCコンバータ27の設定、監視を行う。電源制御部21Dはサービスプロセッサ10から電源オンオフ指示を受けて電源制御情報21Iを更新する。そして電源制御部21Dは電源制御情報21Iに基づいてDC-DCコンバータ27のオンオフ制御を行う。また電源制御部21DはDC-DCコンバータ27の稼働状態を監視し、稼働状態が変化すると、その都度電源制御情報21Iを更新する。例えば環境異常の検出によりDC-DCコンバータ27が停止された場合、当該停止による電源オフの事実が電源制御情報21Iに書き込まれる。電源制御部21Dはまた温度センサ25、電圧センサ26へ環境異常を検出する閾値を設定する。温度センサ25または電圧センサ26にて環境異常が検出された場合、電源制御部21Dは該当するセンサから割り込み信号INTを受け取り、当該割り込み信号をサービスプロセッサ10に送信する。
 システムボード20のメンテナンスバスコントローラ(メインシステム)21は代替監視回路21Eを有する。代替監視回路21Eはウォッチドッグタイマ(以下単にWDT2と称する)21Tを有し、サービスプロセッサ10のメンテナンスバスコントローラ11からハートビート信号HBを受信する。ここでハートビート信号HB(定期通知信号)とは、サービスプロセッサ10のメンテナンスバスコントローラ11が定期的に送信する信号である。代替監視回路21Eはハートビート信号HBを受信することにより、サービスプロセッサ10が正常に動作していることを確認する。なおサービスプロセッサ10のメンテナンスバスコントローラ11がハートビート信号HBを送信する代わりに、代替監視回路21Eがメンテナンスバスコントローラ11に対しコマンドを送信するようにしてもよい。この場合代替監視回路21Eはメンテナンスバスコントローラ11から当該コマンドに対する所定の応答を得ることによりサービスプロセッサ10が正常に動作していることを確認する(以下同様)。WDT2、21Tはサービスプロセッサ10が規定回数N、再起動した後に停止する際に要する時間以上サービスプロセッサ10のメンテナンスバスコントローラ11からのハートビート信号HBが受信されない場合にタイムアウトを検出し、代替監視回路21Eはサービスプロセッサ10の故障と判断する。この点は図6とともに後述する。この場合代替監視回路21Eは電源制御部21Dに対し、温度センサ25あるいは電圧センサ26によって環境異常が検出された場合のサービスプロセッサ10への報告動作を抑止する指示を行う。そして温度センサ25あるいは電圧センサ26によって環境異常が検出された場合には、代替監視回路21Eがサービスプロセッサ10に代わって当該システムボード20のOSにシャットダウンを要求する。更にこの場合代替監視回路21EはDC-DCコンバータ27を停止して当該システムボードの電源をオフする処理を行う。このように代替監視回路21Eが異常の検出によりDC-DCコンバータ27を停止する場合、DC-DCコンバータ27の動作状態及び監視情報を電源制御情報21Iに反映する。監視情報とは温度センサ25あるいは電圧センサ26によって環境異常が検出された旨を示す情報である。
 システムボード20のメンテナンスバスコントローラ(メインシステム)21はメモリバス制御部21Aを有する。メモリバス制御部21Aはサービスプロセッサ10および当該システムボード20のOSがFMEM23、SRAM24にアクセスする際の調停を行う。
 システムボード20のメンテナンスバスコントローラ(メインシステム)21はLSI制御部21Cを有する。LSI制御部21Cはシステムコントローラ22C、メインプロセッサ22P、IOコントローラ22I等の各種LSIを制御し、サービスプロセッサ10からの指示に基づいて初期設定、ログ収集を行う。
 システムボード20のメンテナンスバスコントローラ(メインシステム)21はサブプロセッサI/F21Fを有する。サブプロセッサI/F21Fはメンテナンスバスコントローラ(メインシステム)21がサービスプロセッサ10と通信を行う際に使用される。
 計算機100のPSU30はAC電源をDC電源に変換する電源ユニットである。PSU30は冗長構成を有し、当該計算機100のシステム稼働中に交換が可能である。PSU30はサービスプロセッサ10および計算機100のシステム制御に係る回路にスタンバイ電源を供給する。PSU30は更に、複数のシステムボード20、およびファンユニット60にメイン電源(1次DC)を供給する。PSU30はサービスプロセッサ10とI2Cで接続され、サービスプロセッサ10はPSU30の電源投入、電源切断、電源監視等を行う。
 PSU30が供給するスタンバイ電源のオンオフは計算機100に対するAC電源のオンオフと連動する。PSU30が供給するメイン電源(1次DC)は、サービスプロセッサ10がオンレジスタ30Rに情報を書き込むことにより、オンオフ制御される。メイン電源(1次DC)のオンオフを制御するオンレジスタ30Rは、サービスプロセッサ10とPSU30との通信が遮断されてもその保持情報を維持する。したがってサービスプロセッサ10が故障で交換される際にも、各システムボード20等に対するメイン電源(1次DC)の供給は維持される。
 次に図5,図6,図7、図8とともに、実施例の計算機100の動作について説明する。ここでも複数のシステムボード20のうちの一のシステムボード20(図5中、20-i)について説明を行う。複数のシステムボード20のうちの他の各々のシステムボード20も夫々同様の動作を行うため、他の各々のシステムボード20についての説明を省略する。
 図5はサービスプロセッサ10に固定的な障害が発生した際の、PSU30,オペレータパネル40,サービスプロセッサ10,システムボード20のそれぞれの状態の遷移を示す図である。
 図5中、ステップS1にて、システムボード20は電源オン状態であり、サービスプロセッサ10がシステムボード20の電源監視を行う。
 ステップS2にて、サービスプロセッサ10で障害が発生し、WDT1、11Tがタイムアウトを検出し、その結果サービスプロセッサ10が再起動する。固定障害の場合、WDT1,11Tによるタイムアウトの検出および再起動が繰り返され、規定回数Nの繰り返しの後サービスプロセッサ10は停止する。またシステムボード20のWDT2、21Tがサービスプロセッサ10のメンテナンスバスコントローラ11からのハートビート信号HBを監視している。サービスプロセッサ10の固定障害の場合にはサービスプロセッサ10が規定回数N、再起動する時間以上サービスプロセッサ10からのハートビート信号HBが受信されないため、WDT2、21Tがタイムアウトを検出する。この点は図6とともに後述する。
 ステップS3にて、上記WDT2、21Tによるタイムアウトの検出の結果、代替監視回路21Eは、環境監視モードを、サービスプロセッサ10による監視モードから、システムボード20の代替監視回路21Eによる自己監視モードへ変更する。環境監視モードとは、当該システムボード20の温度センサ25および電圧センサ26による環境異常の検出を監視するモードを言う。
 ステップS4にて、オペレータにより、システムボード20のシステム稼働中にサービスプロセッサ10が交換される。なお、システムボード20が上記自己監視モードの状態で環境異常が発生した場合、代替監視回路21Eはシャットダウン要求レジスタ21Rに情報を書き込むことによりOSにシャットダウンを要求する。上記の如くシャットダウン要求レジスタ21Rにシャットダウンを要求する旨の情報が書き込まれると、OSはこれを検出し、システムボード20のシステムをシャットダウンする。OSがシステムボード20のシステムのシャットダウンを行うと、メインプロセッサ22PはSRAM24に保持されるシステム個別情報として当該シャットダウンした旨を書き込む。代替監視回路21Eはさらに、電源制御部21Dの電源制御情報21Iを更新することによりDC-DCコンバータ27を停止し、システムボード20の電源をオフする。
 上記したオペレータによるサービスプロセッサ10の交換後、当該交換に係る新たなサービスプロセッサ10は、オペレータパネル40のEEPROM、40Mのシステム全体情報40IおよびPSU30のオンレジスタ30Rの情報を読み込む。更に上記新たなサービスプロセッサ10は、複数のシステムボード20の夫々のSRAM24に格納されるシステム個別情報24Iおよび電源制御部21Dに格納される電源制御情報21Iを読み込む。その結果当該新たなサービスプロセッサ10は、計算機100の稼働中に交換されたことを認識する。ここでは上記の如く、当該サービスプロセッサ10は、例えば読み込んだPSU30のオンレジスタ30Rの情報が「PSU30がメイン電源を供給中」を示すことから、計算機100が稼働中にサービスプロセッサ10が交換されて起動されたと認識する。また起動時に各システムボード20から読み込んだ電源制御情報21Iに基づいて上記認識を行うことも可能である。この場合、読み込んだ電源制御情報21Iが「DC-DCコンバータ27が稼働中」を示すことから、サービスプロセッサ10は計算機100のシステム稼働中に交換されて起動されたと認識する。尚実施例の場合サービスプロセッサ10の交換中もPSU30のオンレジスタ30Rの保持情報が維持されるため、サービスプロセッサ10の交換中もPSU30はメイン電源を各システムボード20に供給し続ける。その結果サービスプロセッサ10の交換中もシステムボード20のDC-DCコンバータ27は稼働し続ける。
 また当該新たなサービスプロセッサ10は、上記の如く複数のシステムボード20の夫々から読み込んだシステム個別情報24Iおよび電源制御情報21Iに基づき、メモリ13のシステム情報テーブル13Tのシステム情報13Iを復元する。システム情報テーブル13Tのシステム情報13Iは上記の如く、複数のシステムボード20の各々につき個別に保持される。
 ステップS5にて、サービスプロセッサ10のメンテナンスバスコントローラ11はハートビート信号HBの発信を開始し、代替監視回路21Eは当該ハートビート信号HBを受信すると、環境監視モードを代替監視回路21Eによる自己監視モードからサービスプロセッサ10による監視モードに戻す。
 次に図6とともに、サービスプロセッサ10の起動時および故障時の動作について説明する。図6はサービスプロセッサ10の起動時および故障時の動作の流れを示すフローチャートである。
 図6中、ステップS11にて、計算機100のAC電源が投入され、サービスプロセッサ10が起動される。あるいはサービスプロセッサ10の故障等により、計算機100のAC電源がオンの状態でサービスプロセッサ10が交換され、交換後にサービスプロセッサ10に電源が供給されてサービスプロセッサ10が起動される。
 ステップS12にてサービスプロセッサ10はメモリ13を初期化し、ステップS13でメンテナンスバスコントローラ11を初期化する。
 更にステップS14にてサービスプロセッサ10はWDT1、11Tを有効にし、ステップS15で、サービスプロセッサ10はオペレータパネル40からシステム全体情報40Iを読み込み、PSU30からオンレジスタ30Rの情報を読み込む。サービスプロセッサ10は、更に複数のシステムボード20の各々からシステム個別情報24Iを読み込む。
 次にステップS16にてサービスプロセッサ10は、ステップS15にて読み込んだ各種の情報に基づき、当該起動が、計算機100のシステム稼働中に故障等により交換されて起動されたのか否かを判断する。サービスプロセッサ10が計算機100のシステム稼働中に故障等により交換されて起動されたのではない場合(NO)、サービスプロセッサ10はステップS18でシステム情報テーブル13Tを初期化する。システム情報テーブル13Tの初期化とはシステム情報テーブル13Tに初期情報を書き込むことを言い、初期情報とは計算機100のAC電源がオンされた際にシステム情報テーブル13Tに書き込む内容として予め用意する情報を言う。他方、サービスプロセッサ10は計算機100のシステム稼働中に故障等により交換されて起動された場合(YES)、ステップS17でシステム情報テーブル13Tを復元する。すなわち、ステップS15で複数のシステムボード20の各々から読み込んだシステム個別情報24Iに基づき、各システムボード20の個別のシステム情報をシステム情報テーブル13Tに書き込む。
 次にステップS19でサービスプロセッサ10は、サービスプロセッサ10による監視モードで環境監視を開始する。当該環境監視は、複数のシステムボード20の各々の温度センサ25,電圧センサ26のそれぞれによる環境異常の検出の有無の監視を含む。上記環境監視の詳細につき、図8とともに後述する。
 次にステップS20でサービスプロセッサ10は、上記ステップS14で有効化したWDT1、11Tによるタイムアウトの検出の有無を判断する。WDT1,11Tによるタイムアウトが検出されない場合(「正常」)、ステップS19に戻り、サービスプロセッサ10による監視モードで環境監視を続行する。他方WDT1,11Tによるタイムアウトが検出された場合(「異常」)、サービスプロセッサ10はステップS21に移行し、サービスプロセッサ10自体のシステムを再起動するとともに、リブートカウンタをカウントアップする。そしてステップS22にて、リブートカウンタの計数値が所定値N以上か否かを判定する。リブートカウンタの計数値が所定値N以上の場合(YES)、サービスプロセッサ10は動作を停止する。他方リブートカウンタの計数値の所定値N未満の場合(NO),ステップS24でサービスプロセッサ10のシステムの再起動を行う。
 サービスプロセッサ10はその後ステップS14に戻り、上記したS14、S15,S16,S17またはS18,S19,S20を実行する。ここでサービスプロセッサ10が固定的な故障の場合、ステップS15,S16,S17またはS18,S19は実行されず、直接ステップS14からステップS20に移行し、再びWDT1によるタイムアウトが検出される(「異常」)。その結果ステップS21に戻る。このように、サービスプロセッサ10が固定的な故障の場合、ステップS14,S20,S21,S22,S24,S14のループ動作が繰り返される。当該繰り返し動作の繰り返し回数がNに達するとステップS22の判断結果がYESとなり、ステップS23でサービスプロセッサ10が停止する。
 尚、図6中、ステップS12、S13,S14,S15,S16,S17,S18,S19,S20は、主に、メモリ13またはFMEM14に格納されたファームウェアプログラムをサブプロセッサ12が実行することにより実行される。ステップS21,S22,S23,S24はハードウェア(メンテナンスバスコントローラ11)によって実行される(ステップS21,S22,S23,S24はソフトウェアによって実行することも可能委である)。
 次に図7とともに、システムボード20の代替監視回路21Eによるサービスプロセッサ10の故障の検出動作およびサービスプロセッサ10の故障が検出された場合の、その後のシステムボード20の動作について説明する。図7はシステムボード20の代替監視回路21Eによるサービスプロセッサ10の故障の検出動作およびサービスプロセッサ10の故障が検出された場合の、その後のシステムボード20の動作の流れを示すフローチャートである。
 図7中、ステップS31でシステムボード20の代替監視回路21Eは、WDT2、21Tが、サービスプロセッサ10のメンテナンスバスコントローラ11からハートビート信号HBを受信することによってクリアされたか否かを判断する。すなわちWDT2,21Tによってタイムアウトが検出されなかった否かを判断する。
 ここで上記の如く、WDT2、21Tはサービスプロセッサ10が規定回数N,再起動した後に停止する際に要する時間以上サービスプロセッサ10のメンテナンスバスコントローラ11からのハートビート信号HBが受信されない場合にタイムアウトを検出する。図6とともに上述した如く、サービスプロセッサ10が固定的な故障の場合、ステップS14,S20,S21,S22,S24,S14のループ動作が繰り返される。当該繰り返し動作の繰り返し回数が規定回数Nに達するとステップS22の判断結果がYESとなり、ステップS23でサービスプロセッサ10が停止する。したがって上記サービスプロセッサ10が規定回数N,再起動した後に停止する際に要する時間とは、WDT2,21Tは、上記ループ動作がN回繰り返され、その後にサービスプロセッサ10が停止する(ステップS23)迄の時間を意味する。WDT2,21Tは当該時間を計測し、その間サービスプロセッサ10からのハートビート信号HBが受信されなかった場合タイムアウトを検出することにより、サービスプロセッサ10の固定的な故障を検出する。他方サービスプロセッサ10が正常の場合あるいは一過性の故障の場合、サービスプロセッサ10は少なくとも、上記サービスプロセッサ10が規定回数N,再起動した後に停止する際に要する時間内にハートビート信号HBを送信する。このためWDT2,21Tによってタイムアウトが検出されない(ステップS31の「正常」)。ステップS31でWDT2,21Tによってタイムアウトが検出されなかった場合(「正常」)、ステップS32にて、サービスプロセッサ10による環境監視および電源制御がなされる。サービスプロセッサ10による環境監視および電源制御の詳細につき、図8とともに後述する。
 他方ステップS31でWDT2,21Tによるタイムアウトが検出された場合(「異常」)、ステップS33に移行する。ステップS33にて、代替監視回路21Eは、環境監視モードをサービスプロセッサ10による監視モードからシステムボード20の代替監視回路21Eによる自己監視モードに切り替える。そしてステップS34にて、代替監視回路21Eによる自己監視モードにおいて環境異常が検出されたか判断する。環境異常が検出されなかった場合(ステップS34のNO),ステップS35でサービスプロセッサ10からのハートビート信号HBが受信されたかを判断する。サービスプロセッサ10からのハートビート信号HBが受信された場合(ステップS35の「正常」)、ステップS32に移行し、代替監視回路21Eは環境監視モードを、自己監視モードからサービスプロセッサ10による監視モードに戻す。そしてサービスプロセッサ10による環境監視および電源制御が実行される。ここで、上記ステップS35でサービスプロセッサ10からのハートビート信号HBが受信された場合(「正常」)とは、例えば固定的な故障のサービスプロセッサ10がオペレータにより交換され、正常なサービスプロセッサ10となった場合である。
 他方、ステップS35でサービスプロセッサ10からのハートビート信号HBが受信されなかった場合、ステップS34に戻り、代替監視回路21Eによる自己監視モードにおいて環境異常が検出されたか判断する。ここで、上記ステップS35でサービスプロセッサ10からのハートビート信号HBが受信されなかった場合(「異常」)とは、例えば固定的な故障のサービスプロセッサ10が未だ交換されておらず、サービスプロセッサ10の異常状態が継続している場合である。
 またステップS34で代替監視回路21Eによる自己監視モードにおいて環境異常が検出された場合(YES),ステップS36にて、代替監視回路21Eは当該システムボード20のOSに対し、システムのシャットダウンを要求する。具体的にはシャットダウン要求レジスタ21Rにシャットダウンを要求する旨を書き込む。シャットダウン要求レジスタ21Rにシャットダウンを要求する旨の情報が書き込まれると、OSはこれを検出し、システムボード20のシステムをシャットダウンする。そしてステップS37にてシステムボード20のメインプロセッサ22Pがシステム個別情報24Iを更新する。すなわち上記の如くのシステムのシャットダウンの要求によりシステムボード20のシステムがシャットダウンすると、メインプロセッサ22Pが当該シャットダウンの旨をシステム個別情報24Iに書き込む。
 次に代替監視回路21EはステップS38にて電源制御情報21Iに電源オフの旨を書き込み、その結果ステップS39にて電源制御部21DはDC-DCコンバータ27を停止する。その結果システムボード20の電源はオフする。また当該DC-DCコンバータ27の停止によるシステムボード20の電源のオフの事実が電源制御情報21Iに書き込まれる。そして代替監視回路21EはステップS40でサービスプロセッサ10からのハートビート信号HBが受信されたか判断する。サービスプロセッサ10からのハートビート信号HBが受信された場合(ステップS40の「正常」)、ステップS32に移行し、代替監視回路21Eは環境監視モードを、自己監視モードからSVP10による監視モードに戻す。そしてサービスプロセッサ10による環境監視および電源制御が実行される。ここで、上記ステップS40でサービスプロセッサ10からのハートビート信号HBが受信された場合(「正常」)とは、例えば固定的な故障のサービスプロセッサ10がオペレータにより交換され、正常なサービスプロセッサ10となった場合である。
 他方、ステップS40でサービスプロセッサ10からのハートビート信号HBが受信されなかった場合、更にステップ40に戻り、サービスプロセッサ10からのハートビート信号HBが受信されたか判断する。ここで、上記ステップS40でサービスプロセッサ10からのハートビート信号HBが受信されなかった場合(「異常」)とは、例えば固定的な故障のサービスプロセッサ10が未だ交換されておらず、サービスプロセッサ10の異常状態が継続している場合である。
 図7中、ステップS37はメモリ22Mに格納されたOS(ソフトウェアプログラム)またはFMEM23に格納されたOBP(ファームウェアプログラム)をメインプロセッサ22Pが実行することにより実行される。ステップS31,S33,S34,S35,S36,S38,S39,S40は代替監視回路21E(ハードウェア)によって実行される。ステップS32はサービスプロセッサ10の制御の下、SCバス制御部21B(ハードウェア)および電源制御部21D(ハードウェア)によって実行される。但しステップS32に関し、環境異常が検出された場合のシステムのシャットダウンは、メモリ22Mに格納されたOS(ソフトウェアプログラム)をメインプロセッサ22Pが実行することにより実行される。
 次に図8とともに、図6中、ステップS19の動作である、サービスプロセッサ10が正常時に行う環境監視および電源制御について説明する。図8はサービスプロセッサ10が正常時に行う環境監視および電源制御の動作の流れを示すフローチャートである。
 図8中、ステップS51で、複数のシステムボード20のいずれかのメンテナンスバスコントローラ21から送信された環境異常情報信号EAが受信された場合(YES),ステップS52に移行する。他方ステップS51で複数のシステムボード20のいずれかのメンテナンスバスコントローラ21からも環境異常情報信号EAが受信されなかった場合(NO),ステップS51に戻る。そしてステップS51で引き続き複数のシステムボード20のいずれかのメンテナンスバスコントローラ21から環境異常情報信号EAが受信されたかを判断する。
 ステップS52では、ステップS51で環境異常情報信号EAを送信したシステムボード20のOSに対し、システムのシャットダウンを要求する。具体的には当該システムボード20のサブプロセッサI/F、21Fを介し、シャットダウン要求レジスタ21Rにシャットダウンを要求する旨を書き込む。その結果当該システムボード20のOSがメインプロセッサ22Pを制御して当該システムボード20のシステムをシャットダウンする。そしてステップS53にて、当該メインプロセッサ22Pは当該シャットダウンの旨をシステム個別情報24Iに書き込む。またサービスプロセッサ10は当該システムボード20のサブプロセッサI/F、21Fを介してシャットダウンの事実を把握し、当該事実をシステム情報テーブル13Tに含まれる当該システムボード20に係るシステム情報13Iに書き込む。
 次にサービスプロセッサ10はステップS54にて、当該環境異常を生じたシステムボード20のサブプロセッサI/F、21Fを介し、電源制御情報21Iに電源をオフする旨を書き込む。その結果ステップS55にて電源制御部21DはDC-DCコンバータ27を停止し、当該システムボード20電源がオフする。また当該DC-DCコンバータ27の停止によるシステムボード20の電源のオフの事実が電源制御情報21Iに書き込まれる。またサービスプロセッサ10は当該システムボード20のサブプロセッサI/F、21Fを介してDC-DCコンバータ27の停止によるシステムボード20の電源のオフの事実を把握する。そしてサービスプロセッサ10は当該事実をシステム情報テーブル13Tに含まれる当該システムボード20に係るシステム情報13Iに書き込む。
 上述の実施例によれば計算機100の全てのシステムボード20を停止することなく、サービスプロセッサ10の交換が可能となる。結果として、計算機100のシステム全体の信頼性・可用性向上につながる。ここで「可用性」とはAvailabilityを意味し、システムの壊れにくさを意味する。可用性はシステムにおける障害の発生しにくさや、障害発生時の修復速度などによって計られる。つまり、障害が発生しなければ可用性は高くなり、また、障害が発生してもシステムが動き続けられれば同様に当該システムは高い可用性を持つことになる。またサービスプロセッサ10を二重化する必要がなくなるため、物量・コスト削減が可能となる。
 10 サービスプロセッサ
 11T ウオッチドックタイマ(WDT1)
 12 サブプロセッサ
 13 メモリ
 13T システム情報テーブル
 13I システム情報
 20,20-1,20-2,...,20-n システムボード
 21D 電源制御部
 21E 代替監視回路 
 21I 電源制御情報
 21R システムシャットダウン要求レジスタ
 21T ウオッチドックタイマ(WDT2)
 22P メインプロセッサ
 24I システム個別情報
 25 温度センサ
 26 電圧センサ
 30 パワーサプライユニット(PSU)
 30R オンレジスタ(ONレジスタ)
 40I システム全体情報

Claims (15)

  1.  情報の処理を行う情報処理装置であって、
     前記情報処理装置の制御を行う第1の演算処理装置と、定期通知信号を定期的に送信するとともに、自己の異常を検出した場合、前記第1の演算処理装置による前記情報処理装置の制御を停止させる第1の制御部とを備えるシステム制御装置と、
     前記情報の処理を行う第2の演算処理装置と、前記定期通知信号の受信に基づき前記システム制御装置の異常を検出した場合、前記情報処理装置の制御を前記第1の制御部に替わって行う第2の制御部とを備える処理装置とを有することを特徴とする情報処理装置。
  2.  前記第1の制御部から前記第2の制御部に前記定期通知信号を送信する代わりに、前記第2の制御部から前記第1の制御部にコマンドを送信することを特徴とする請求項1記載の情報処理装置。
  3.  前記情報処理装置は更に、前記システム制御装置が有する、前記情報処理装置の第1の状態情報を格納する第1の記憶部と、
     前記処理装置が有する、前記情報処理装置の第2の状態情報を格納する第2の記憶部とを有し、
     前記第1の制御部は前記処理部が有する前記第2の記憶部に格納された第2の状態情報に基づき、前記第1の演算処理装置による前記情報処理装置の制御の停止前における、前記システム制御装置が有する前記第1の記憶部に格納された前記第1の状態情報を復元することを特徴とする請求項1記載の情報処理装置。
  4.  前記情報処理装置はさらに、
     前記処理装置に電力を供給する電源装置を有し、
     前記第1の制御部は、環境異常情報信号の受信に基づき、前記処理装置の異常を検出した場合、前記電源装置による前記処理装置への電力の供給を停止させることを特徴とする請求項1記載の情報処理装置。
  5.  前記情報処理装置において、
     前記第2の演算処理装置は、オペレーティングシステムを実行し、
     前記処理装置は、前記オペレーティングシステムへの停止要求を保持する第3の記憶部を有し、
     前記システム制御装置は、前記第3の記憶部に前記停止要求を出力することにより、前記第2の演算処理装置による前記オペレーティングシステムの実行を停止させることを特徴とする請求項1記載の情報処理装置。
  6.  情報の処理を行う処理装置と、前記処理装置の制御を行うシステム制御装置とを有する情報処理装置の制御方法において、
     前記システム制御装置が有する第1の演算処理装置が、前記情報処理装置の制御を行うステップと、
     前記システム制御装置が有する第1の制御部が、定期通知信号を定期的に送信するステップと、
     前記第1の制御部が、前記第1の制御部の異常を検出した場合、前記第1の演算処理装置による前記情報処理装置の制御を停止させるステップと、
     前記処理装置が有する第2の演算処理装置が、前記情報の処理を行うステップと、
     前記処理装置が有する第2の制御部が、前記定期通知信号の受信に基づき前記システム制御装置の異常を検出した場合、前記情報処理装置の制御を前記第1の制御部に替わって行うステップを有することを特徴とする情報処理装置の制御方法。
  7.  前記第1の制御部から前記第2の制御部に前記定期通知信号を送信する代わりに、前記第2の制御部から前記第1の制御部にコマンドを送信することを特徴とする請求項6記載の情報処理装置の制御方法。
  8.  前記情報処理装置は更に、前記システム制御装置が有する、前記情報処理装置の第1の状態情報を格納する第1の記憶部と、
     前記処理装置が有する、前記情報処理装置の第2の状態情報を格納する第2の記憶部とを有し、
     前記第1の制御部は前記処理部が有する前記第2の記憶部に格納された第2の状態情報に基づき、前記第1の演算処理装置による前記情報処理装置の制御の停止前における、前記システム制御装置が有する前記第1の記憶部に格納された前記第1の状態情報を復元することを特徴とする請求項6記載の情報処理装置の制御方法。
  9.  前記情報処理装置はさらに、
     前記処理装置に電力を供給する電源装置を有し、
     前記第1の制御部は、環境異常情報信号の受信に基づき、前記処理装置の異常を検出した場合、前記電源装置による前記処理装置への電力の供給を停止させることを特徴とする請求項6記載の情報処理装置の制御方法。
  10.  前記第2の演算処理装置は、オペレーティングシステムを実行し、
     前記処理装置は、前記オペレーティングシステムへの停止要求を保持する第3の記憶部を有し、
     前記システム制御装置は、前記第3の記憶部に前記停止要求を出力することにより、前記第2の演算処理装置による前記オペレーティングシステムの実行を停止させることを特徴とする請求項6記載の情報処理装置の制御方法。
  11.  情報の処理を行う処理装置と、前記処理装置の制御を行うシステム制御装置とを有する情報処理装置の制御プログラムにおいて、
     前記システム制御装置が有する第1の演算処理装置が、前記情報処理装置の制御を行うステップと、
     前記システム制御装置が有する第1の制御部が、定期通知信号を定期的に送信するステップと、
     前記第1の制御部が、前記第1の制御部の異常を検出した場合、前記第1の演算処理装置による前記情報処理装置の制御を停止させるステップと、
     前記処理装置が有する第2の演算処理装置が、前記情報の処理を行うステップと、
     前記処理装置が有する第2の制御部が、前記定期通知信号の受信に基づき前記システム制御装置の異常を検出した場合、前記情報処理装置の制御を前記第1の制御部に替わって行うステップを前記第1の演算処理装置に実行させることを特徴とする情報処理装置の制御プログラム。
  12.  前記第1の制御部から前記第2の制御部に前記定期通知信号を送信する代わりに、前記第2の制御部から前記第1の制御部にコマンドを送信することを特徴とする請求項11記載の情報処理装置の制御プログラム。
  13.  前記情報処理装置は更に、前記システム制御装置が有する、前記情報処理装置の第1の状態情報を格納する第1の記憶部と、
     前記処理装置が有する、前記情報処理装置の第2の状態情報を格納する第2の記憶部とを有し、
     前記第1の制御部は前記処理部が有する前記第2の記憶部に格納された第2の状態情報に基づき、前記第1の演算処理装置による前記情報処理装置の制御の停止前における、前記システム制御装置が有する前記第1の記憶部に格納された前記第1の状態情報を復元することを特徴とする請求項11記載の情報処理装置の制御プログラム。
  14.  前記情報処理装置はさらに、
     前記処理装置に電力を供給する電源装置を有し、
     前記第1の制御部は、環境異常情報信号の受信に基づき、前記処理装置の異常を検出した場合、前記電源装置による前記処理装置への電力の供給を停止させることを特徴とする請求項11記載の情報処理装置の制御プログラム。
  15.  前記第2の演算処理装置は、オペレーティングシステムを実行し、
     前記処理装置は、前記オペレーティングシステムへの停止要求を保持する第3の記憶部を有し、
     前記システム制御装置は、前記第3の記憶部に前記停止要求を出力することにより、前記第2の演算処理装置による前記オペレーティングシステムの実行を停止させることを特徴とする請求項11記載の情報処理装置の制御プログラム。
PCT/JP2009/069626 2009-11-19 2009-11-19 情報処理装置、情報処理装置の制御方法及び制御プログラム WO2011061828A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/069626 WO2011061828A1 (ja) 2009-11-19 2009-11-19 情報処理装置、情報処理装置の制御方法及び制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/069626 WO2011061828A1 (ja) 2009-11-19 2009-11-19 情報処理装置、情報処理装置の制御方法及び制御プログラム

Publications (1)

Publication Number Publication Date
WO2011061828A1 true WO2011061828A1 (ja) 2011-05-26

Family

ID=44059329

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/069626 WO2011061828A1 (ja) 2009-11-19 2009-11-19 情報処理装置、情報処理装置の制御方法及び制御プログラム

Country Status (1)

Country Link
WO (1) WO2011061828A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3895873A4 (en) * 2018-12-12 2021-12-01 Sumitomo Heavy Industries, Ltd. INJECTION MOLDING MACHINE AND CONTROL

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362744A (ja) * 1991-06-10 1992-12-15 Oki Electric Ind Co Ltd 二重化システムの系切替え制御装置
JPH0652014A (ja) * 1992-07-29 1994-02-25 Fujitsu Ltd システムダウン回避方式
JPH0652130A (ja) * 1992-07-30 1994-02-25 Mitsubishi Electric Corp マルチプロセッサシステム
JPH09251443A (ja) * 1996-03-18 1997-09-22 Hitachi Ltd 情報処理システムのプロセッサ障害回復処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362744A (ja) * 1991-06-10 1992-12-15 Oki Electric Ind Co Ltd 二重化システムの系切替え制御装置
JPH0652014A (ja) * 1992-07-29 1994-02-25 Fujitsu Ltd システムダウン回避方式
JPH0652130A (ja) * 1992-07-30 1994-02-25 Mitsubishi Electric Corp マルチプロセッサシステム
JPH09251443A (ja) * 1996-03-18 1997-09-22 Hitachi Ltd 情報処理システムのプロセッサ障害回復処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3895873A4 (en) * 2018-12-12 2021-12-01 Sumitomo Heavy Industries, Ltd. INJECTION MOLDING MACHINE AND CONTROL

Similar Documents

Publication Publication Date Title
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
US10055296B2 (en) System and method for selective BIOS restoration
US7251746B2 (en) Autonomous fail-over to hot-spare processor using SMI
TWI446161B (zh) 處理一多處理器資訊處理系統之一故障處理器的裝置及方法
US20070055740A1 (en) System and method for interacting with a remote computer
CN111831488B (zh) 具有安全等级设计的tcms-mpu控制单元
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
JP5234115B2 (ja) 情報処理装置,処理部切換方法及び処理部切換プログラム
TW201119173A (en) Method of using power supply to execute remote monitoring of an electronic system
CN110750309A (zh) 可远程控制电子设备的系统及方法
US20120159241A1 (en) Information processing system
JP2015035175A (ja) 情報処理装置、仮想マシン制御方法および仮想マシン制御プログラム
JP4886558B2 (ja) 情報処理装置
TWI713325B (zh) 可遠端控制電子設備的系統及方法
WO2011061828A1 (ja) 情報処理装置、情報処理装置の制御方法及び制御プログラム
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
JP2013125493A (ja) コンピュータシステム、待機電力削減方法、及びプログラム
JP4715552B2 (ja) 障害検出方式
JP2003256240A (ja) 情報処理装置及びその障害回復方法
US8738829B2 (en) Information system for replacing failed I/O board with standby I/O board
JP5561790B2 (ja) ハードウェア障害被疑特定装置、ハードウェア障害被疑特定方法、及びプログラム
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09851450

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09851450

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP