WO2013136462A1 - 監視装置,情報処理装置,監視方法,および監視プログラム - Google Patents

監視装置,情報処理装置,監視方法,および監視プログラム Download PDF

Info

Publication number
WO2013136462A1
WO2013136462A1 PCT/JP2012/056541 JP2012056541W WO2013136462A1 WO 2013136462 A1 WO2013136462 A1 WO 2013136462A1 JP 2012056541 W JP2012056541 W JP 2012056541W WO 2013136462 A1 WO2013136462 A1 WO 2013136462A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
monitoring
unit
type
stop
Prior art date
Application number
PCT/JP2012/056541
Other languages
English (en)
French (fr)
Inventor
啓宏 宇都宮
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2012/056541 priority Critical patent/WO2013136462A1/ja
Publication of WO2013136462A1 publication Critical patent/WO2013136462A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Definitions

  • This case relates to a monitoring device, an information processing device, a monitoring method, and a monitoring program.
  • information processing apparatuses such as server apparatuses may require higher reliability than before.
  • a service processor Service Processor; hereinafter referred to as SP
  • SP Service Processor
  • the reliability can be improved.
  • the SP (monitoring unit) is software (for example, firmware), and the functions of the SP are realized by SPB (Service Processor Board) which is hardware.
  • SPB Service Processor Board
  • the SP controls, for example, SPB, SB (System Board), fan, PSU (Power Supply Unit), SENB (Sensor Board) and the like as monitoring target devices (monitoring targets) in the information processing apparatus.
  • the SB is hardware on which the main processor is mounted, and a service provided by the information processing apparatus is executed.
  • the PSU supplies power to the SPB, SB, fan, SENB and the like in the information processing apparatus, and the SENB is a sensor for measuring the temperature and the like in the information processing apparatus.
  • SPB SP that one SP (SPB) fails
  • the other SP takes over the operation of the failed SP and controls the monitoring target device, so that the monitoring target device continues to operate. can do.
  • an operator such as a maintenance person can perform active replacement of the SPB while continuing the operation of the monitoring target device.
  • system monitoring device that stores information in the nonvolatile memory as saved information when recognizing changes in hardware status information and OS (Operating System) software status information.
  • OS Operating System
  • a disk control system having a RAID (Redundant Arrays of Inexpensive Disks) controller data is written in response to a write request, and addresses are converted into logical address log areas on a plurality of disks.
  • addresses are converted into logical address log areas on a plurality of disks.
  • the checksum value written in the logical address log area for the stripe in the middle of the writing process is obtained from the write data in the data area. Check whether the data matches, and determine whether the data is valid or invalid.
  • an information processing apparatus equipped with a redundant (for example, duplexed) SP when one SP fails and the other SP fails during active replacement of the failed SP, there is no SP that controls the monitored device. It becomes difficult to continue the operation of the monitoring target device. For example, when both of the duplicated SPs fail, the monitored device does not receive a request to the SP or waits for control by the SP, so that other processing cannot be executed. It becomes difficult to continue the operation. In this case, the operator stops the operation of the monitoring target device, replaces two SPs (stop replacement), and restarts the monitoring target device and the SP.
  • a redundant for example, duplexed
  • the system monitoring apparatus when the system monitoring apparatus recognizes the restart associated with the active replacement of the failed system monitoring apparatus, the system monitoring apparatus reads the save information from the non-volatile memory and corresponding information before the apparatus failure. To restore.
  • this technique does not disclose a method for recognizing a restart associated with active replacement of a failed system monitoring apparatus.
  • the hardware type is set when the stop type (stopping the entire system, restarting the system monitoring device, etc.) is set in the hardware. It is also conceivable to operate so as to acquire the type of stop.
  • the stop type cannot be set in the hardware, or incorrect information is set.
  • the previous stop type cannot be recognized or is erroneously recognized.
  • the process of reading the saved information from the nonvolatile memory and restoring the corresponding information before the apparatus failure is not performed. .
  • the system monitoring device misrecognizes the type of the previous stop, for example, the type that initializes the hardware of the monitoring target device after restarting, the system monitoring device initializes the hardware after restarting due to hot replacement As a result, there is a case where the power supply of the monitoring target device, sensor erroneous detection, or the like occurs.
  • the information processing device can take over the information before the stop by the stop replacement, but since it is not the active replacement, the monitoring target device is stopped, which is fatal for a large-scale system. Become.
  • an object of the present invention is to continue the operation of a monitoring target even if a plurality of monitoring units are actively replaced.
  • the present invention is not limited to the above-described object, and other effects of the present invention can be achieved by the functions and effects derived from the respective configurations shown in the embodiments for carrying out the invention which will be described later. It can be positioned as one of
  • the monitoring device of the present case is a monitoring device including a plurality of monitoring units that perform control of a monitoring target, and holds activation information related to activation processing of the plurality of monitoring units, and each of the plurality of monitoring units
  • Each of the plurality of monitoring units includes a holding unit that holds type information indicating a type of stop when stopped according to a stop process and error detection information for detecting an error in the type information.
  • the other monitoring units of the plurality of monitoring units are in a stopped state when activated, the type of the previous stop is determined based on the type information and the error detection information held by the holding unit A determination unit; and a processing unit that performs the activation process using the activation information held by the holding unit according to a determination result by the determination unit.
  • the information processing apparatus of the present case holds a monitoring target, a plurality of monitoring units that control the monitoring target, and activation information related to activation processing of the plurality of monitoring units, and each of the plurality of monitoring units
  • a plurality of monitoring units each of which includes: a holding unit that holds type information indicating a type of stop when stoppage is performed according to a stop process; and error detection information for detecting an error in the type information
  • a processing unit that performs the activation process using the activation information held by the holding unit according to a determination result by the determination unit.
  • the monitoring method of this case is a monitoring method in which the monitoring target is controlled by a plurality of monitoring units, and when the other monitoring units among the plurality of monitoring units are in a stopped state when activated, the holding unit is Based on the held type information indicating the type of stop when each of the plurality of monitoring units is stopped according to the stop process, and error detection information for detecting an error in the type information, the previous time The type of stop is determined, and the activation process is performed using activation information related to activation processes of the plurality of monitoring units held by the holding unit according to the determination result of the determination.
  • the monitoring program in this case is a monitoring program that causes a computer that constitutes one of a plurality of monitoring units to execute a process for controlling a monitoring target, and when activated, the other monitoring programs of the plurality of monitoring units
  • the holding unit holds type information indicating a type of stop when each of the plurality of monitoring units is stopped according to a stop process, and for detecting an error in the type information Based on the error detection information, the type of the previous stop is determined, and the start using the start information related to the start processing of the plurality of monitoring units held by the holding unit according to the determination result by the determination
  • the processing is performed, and the processing is executed by the computer.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing device 1 according to an embodiment. .
  • the information processing apparatus 1 includes a monitoring device 10 that controls the monitoring target 4 and the monitoring target 4.
  • the monitoring device 10 includes a plurality of, for example, two monitoring units 20-1 and 20-2 (in the following description, when the monitoring units 20-1 and 20-2 are not distinguished, they are simply indicated by reference numeral 20) and a holding unit 3. I have it.
  • Each of the monitoring units 20-1 and 20-2 is connected to the monitoring target 4 so as to be communicable and is connected to the holding unit 3 so as to be capable of writing and reading.
  • the holding unit 3 holds type information 31, error detection information 32, and activation information 33.
  • the type information 31 is information indicating the type of stop when each of the plurality of monitoring units 20 is stopped according to the stop process
  • the error detection information 32 is information for detecting an error in the type information 31. is there.
  • the activation information 33 is information related to activation processing of the plurality of monitoring units 20 and is used in activation processing by the processing unit 22 described later.
  • the monitoring unit 20 monitors and controls the monitoring target 4 and includes a determination unit 21 and a processing unit 22.
  • the determination unit 21 stores the type information 31 and the error detection information 32 held by the holding unit 3. Based on this, the type of the previous stop is determined.
  • the processing unit 22 performs activation processing using the activation information 33 held by the holding unit 3 according to the determination result by the determination unit 21.
  • FIG. 2 is a flowchart for explaining an example of the procedure of the activation process of the monitoring unit 20 by the monitoring device 10 according to the present embodiment.
  • the monitoring unit 20 determines whether another monitoring unit 20 is in a stopped state (step S2).
  • the determination unit 21 determines the type of the previous stop based on the type information 31 and the error detection information 32 held in the holding unit 3. (Step S3).
  • step S4 the processing unit 22 performs a startup process using the startup information 33 held in the holding unit 3 according to the determination result by the determination unit 21 (step S4), and the startup process of the monitoring unit 20 ends.
  • step S2 when the other monitoring part 20 is not a stop state (No route of step S2), since the information which concerns on starting processing can be acquired from the other monitoring part 20 which has started, for example, by processing part 22, A predetermined activation process is performed (step S5).
  • the determination unit 21 determines the type information. Based on 31 and error detection information 32, the type of the previous stop is determined.
  • the type information 31 is information indicating the type of stop when each of the plurality of monitoring units 20 is stopped according to the stop process. That is, in the situation such as when the monitoring unit 20 was previously stopped without performing a normal stop process (for example, due to a failure, an accident, or a disaster), the type information 31 indicates the type of the previous stop of the monitoring unit 20. It is not a thing.
  • the type of the previous stop is unknown or misrecognized as another type of stop, and the appropriate activation process of the monitoring unit 20 However, it is difficult to continue the operation of the monitoring target 4.
  • the determination unit 21 determines the type of the previous stop based on the type information 31 and the error detection information 32 for detecting an error in the type information 31. Thereby, the determination part 21 can detect the error of the classification information 31 by the error detection information 32, and can determine the classification of the last stop reliably. Further, the processing unit 22 performs a startup process using the startup information 33 held by the holding unit 3 according to the determination result by the determination unit 21. Therefore, even when the activation is performed after the active replacement, for example, the activation information is retained in the retaining unit 3 without being lost by the replacement of the monitoring unit 20, so that the monitoring unit 20 is activated while the operation of the monitoring target 4 is continued. Processing can be performed.
  • the processing unit 22 can perform an appropriate startup process.
  • the monitoring target 4 can be monitored by the startup process corresponding to the erroneously recognized stop type. It is also possible to suppress a serious influence that makes it difficult to continue the operation.
  • the operation of the monitoring target 4 can be continued even if the plurality of monitoring units 20 are actively exchanged.
  • the monitoring target 4 has a large-scale configuration
  • the influence of the monitoring target 4 being stopped (power off) is very large compared to the case of the small-scale configuration. Therefore, even if all of the plurality of monitoring units 20 have temporarily failed, according to the monitoring device 10 according to the present embodiment, the monitoring target 4 can be continuously operated by hot replacement of the monitoring unit 20, When the target 4 stops, the influence on other systems or users can be suppressed.
  • FIG. 3 is a diagram illustrating a hardware configuration example of the information processing device 1 according to the present embodiment
  • FIG. 4 illustrates a detailed functional configuration of the information processing device 1. It is a figure which shows an example.
  • the information processing apparatus 1 may include the hardware illustrated in FIG. 3, and the monitoring apparatus 10 may have the configuration illustrated in FIG.
  • FIGS. 3 and 4 a detailed configuration example of the information processing apparatus 1 according to the present embodiment will be described with reference to FIGS. 3 and 4.
  • the information processing apparatus 1 includes a monitoring device 10, a plurality of, for example, n SBs 6-1 to 6-n, a fan BP (Back Panel) 71, a plurality of fans 72, a PSUBP (Power Supply Unit). Back Panel) 81 and a plurality of PSUs 82 are provided.
  • the monitoring apparatus 10 includes a plurality of, for example, two SPBs 2-1 and 2-2, and SENB5. In the following description, when SPBs 2-1 and 2-2 are not distinguished, they are simply indicated by reference numeral 2, and when SBs 6-1 to 6-n are not distinguished, they are indicated only by reference numeral 6.
  • the monitoring device 10 has a plurality of, for example, two redundant (duplicated) SPs 20-1 and 20-2 (see FIG. 4).
  • the object to be monitored 4 is controlled.
  • the monitoring target 4 of the SPs 20-1 and 20-2 includes at least one of the SPB 2-1 and 2-2 itself, SENB 5, SB 6, fan 72, PSU 82, and the like. That is, the monitoring target 4 includes hardware related to the operation of the information processing apparatus 1.
  • the monitoring target 4 according to the present embodiment is the SPBs 2-1 and 2-2 themselves, SENB5, SB6, fan 72, and PSU82.
  • SPBs 2-1 and 2-2 are hardware for realizing SPs 20-1 and 20-2 for monitoring and controlling the monitoring target 4, respectively. Since one SP20 is realized by one SPB2, two SPs 20-1 and 20-2 are realized by SPBs 2-1 and 2-2 in the monitoring apparatus 10 shown in FIG. The SPBs 2-1 and 2-2 are connected to the monitoring target 4 via a communication line such as a bus.
  • Each SPB 2 includes an MPU (Micro Processing Unit) 2a, a RAM (Random Access Memory) 2b, an SDRAM (Synchronous Dynamic RAM) 2c, an SP controller 2d, and a ROM (Read Only Memory) 2e.
  • Each SPB 2 further has an I2C (Inter-IntegratedIntegrCircuit) controller 2f, FMEM (Flash Memory) 2g, NVRAM (Non Volatile RAM) 2h, serial port 2i, LAN (Local Area Network) adapter 2j, and LAN port 2k. I have it.
  • the MPU 2a is a processing device (processor) that performs various controls and operations, and implements various functions in the SPB 2 by executing programs stored in the NVRAM 2h, a ROM (not shown), or the like. In the present embodiment, the MPU 2a executes monitoring programs held by the NVRAM 2h, thereby executing monitoring and control of the monitoring target 4 as SP20.
  • the functions of the MPU 2a may be realized by an integrated circuit such as ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array), or a processing device such as a CPU (Central Processing Unit).
  • the RAM 2b is a storage device that temporarily stores various data and programs. When the MPU 2a executes a program, the RAM 2b temporarily stores and expands the data and program.
  • the NVRAM 2h holds a monitoring program (for example, firmware) that causes the MPU 2a to execute the function as the SP20.
  • the SDRAM 2c is a storage device that holds various information related to the control of the monitoring target 4 by the SP 20, and is used as a database (DB) by the SP 20.
  • Each of the SP controller 2d and the I2C controller 2f connects the SPB 2 to the monitoring target 4 to control access such as monitoring and control of the monitoring target 4.
  • Examples of these controllers 2d and 2f include an interface controller. Is mentioned. Note that the SP controller 2d reads and initializes the initial setting information stored in the ROM 2e when starting access control, for example, when the SPB 2 is activated.
  • the SP controller 2d of each SPB 2 is connected to the SB controllers 6c of n SBs 6 via the control bus 1a, and transmits / receives data and commands related to monitoring and control to / from the SB 6.
  • the I2C controller 2f of each SPB2 is connected to the SENB5, the fan BP71 (fan 72), and the PSUBP81 (PSU82) via the I2C bus 1b, respectively. And send / receive commands.
  • the serial port 2i is a port for serially connecting the SPB 2 to other devices.
  • the SPB 2-1 and the SPB 2-2 are connected to each other via the serial port 2i so as to communicate with each other.
  • the LAN adapter 2j is an interface for connecting the SPB 2 to another device or the like via a LAN.
  • the LAN port 2k is a port for LAN connection of the SPB 2 with other devices, and SPB 2-1 and SPB 2-2, or devices external to the SPB 2 and the information processing device 1 are mutually connected via the LAN port 2k. Connected.
  • Each of the SBs 6-1 to 6-n executes a service provided by the information processing device 1, and according to an instruction input via an input device such as a keyboard or a mouse (not shown) or a network such as a LAN. A predetermined process is executed.
  • Each SB 6 includes a plurality of, for example, four CPUs 6a, a DIMM (Dual Inline Memory Module) 6b, an SB controller 6c, a ROM 6d, an SRAM (Static RAM) 6e, an FMEM 6f, a temperature sensor 6g, and a POL (Point Of Load) 6h.
  • Each CPU 6a is a processing device (processor) that performs various controls and operations, and implements various functions in the SB 6 by executing programs stored in the DIMM 6b, a ROM (not shown), or the like. In the present embodiment, each CPU 6a functions as a node by executing an OS program held by the DIMM 6b.
  • the DIMM 6b is a storage device that temporarily stores various data and programs. When the CPU 6a executes the programs, the data and programs are temporarily stored and expanded. Note that a single inline memory module (SIMM) may be used instead of the DIMM 6b.
  • SIMM single inline memory module
  • the SB controller 6c connects the SB 6 to each SPB 2 to control various requests to the SPB 2 and access from the SPB 2.
  • the SB controller 6c includes, for example, an interface controller.
  • the SB controller 6c reads and initializes the initial setting information stored in the ROM 6d when starting access control, for example, when the SB 6 is activated.
  • the SB controller 6c is connected to the SP controllers 2d of the two SPBs 2 via the control bus 1a, and transmits / receives data and commands related to monitoring and control to / from the SPB 2.
  • the SRAM 6e and the FMEM 6f are storage devices used by the SB controller 6c, and hold setting information and the like of the SB controller 6c.
  • the temperature sensor 6g is a device that measures the temperature around the SB 6 and is provided in contact or non-contact with one or more locations of the SB 6.
  • the POL 6h is a device that converts and supplies power from a plurality of PSUs 82 that are power sources of the SB 6 to devices that consume power, such as the CPU 6a of the SB 6, the SB controller 6c, and each storage device.
  • the CPU 6a, DIMM 6b, SB controller 6c, temperature sensor 6g, and POL 6h are connected by a system bus.
  • the plurality of fans 72 are cooling devices for the information processing apparatus 1 and are provided at one or more locations in the information processing apparatus 1, and the rotational speed and the like are monitored and controlled by the SP 20 via the fan BP71.
  • the plurality of PSUs 82 are power supply devices that supply power supplied from the outside of the information processing apparatus 1 to the information processing apparatus 1.
  • the operating status of each PSU 82 and the setting of the power supply destination are set by the SP 20 via the PSUBBP 81. Monitored and controlled.
  • the SENB 5 is a unit that measures and holds the state of the information processing apparatus 1 and includes, for example, an EEPROM (ElectricallyrErasable Programmable ROM) 3 and a temperature sensor 51.
  • the temperature sensor 51 is a device that measures the temperature of the information processing apparatus 1, and is provided in contact or non-contact with one or more locations in the information processing apparatus 1, and the temperature measurement result indicates a failure of the monitoring target 4 by the SP 20. It is used for judgment.
  • the EEPROM 3 is a non-volatile memory that holds setting information of the temperature sensor 51 and the like. Further, as shown in FIG. 4, the EEPROM 3 includes areas of a reset factor field 3A, a checksum field 3B, and a system information field 3C, and is used as a holding unit according to the present embodiment. Note that the EEPROM 3 as the holding unit may not be provided in the SENB 5 and may be provided inside or outside the information processing apparatus 1.
  • the SPs 20-1 and 20-2 realized by the SBPs 2-1 and 2-2 are connected to each other so as to communicate with each other and are made redundant (duplex), and one side is set as an active side. Monitoring and control of the monitoring target 4 are executed, and the other is on standby as a standby side.
  • the standby-side SP 20 monitors the operation of the active-side SP 20, and when the storage unit 26 (for example, SDRAM 2c) is updated, performs synchronization processing via serial connection or LAN to activate its own DB. Synchronizes with the content of the DB of the SP20 on the side.
  • the standby SP 20 takes over the operation of the failed SP 20 (that is, switches to active) and controls the monitoring target 4.
  • the SP 20 notifies an output device such as a monitor (not shown) or another information processing device connected via serial connection or LAN that the failure has been detected.
  • an operator such as a maintenance staff keeps control of the monitoring target 4 on the SP 20 that has not failed, that is, while the operation of the monitoring target 4 continues, SPB2 of the failed SP 20.
  • FIG. 5 is a diagram showing an example of the data structure in the reset factor field 3A and the checksum field 3B provided by the holding unit 3 according to the present embodiment.
  • FIG. 6 shows the data structure in the system information field 3C provided by the holding unit 3. It is a figure which shows an example of a data structure.
  • the reset factor field (first region) 3A is a region where information related to SP20 is set, and the reset factor 31 and SP state information 34 are set in the reset factor field 3A.
  • the reset factor (type information) 31 is information indicating the type of stop when each SP 20 is stopped in response to the stop process.
  • the reset factor 31 includes “ClearClReset” (default value), “Preserved Reset. ",” Replace Reset “, etc. are included.
  • “Clear Reset” is a type of stop indicating normal power-off of the entire monitoring target 4 (information processing apparatus 1) including the SP 20, that is, shutdown.
  • “Preserved Reset” is a type of stop indicating that the SP 20 is normally powered off by restarting the SP 20.
  • Replace Reset is, for example, a type of stop indicating a normal power-off of the SP 20 performed when the SPB 2 is detected to be faulty and the SP 20 is actively replaced.
  • the SP status information (status information) 34 is information indicating the status of the SP 20, and as shown in FIG. 5, the SP status information 34 includes an SPB number, SPB status, SPB error information, SPB address, duplex status, and DB initialization information and the like are included.
  • the SPB number is information for identifying a plurality of SPBs 2. Examples of the SPB number include a slot number in the information processing apparatus 1 to which the SPB 2 is attached.
  • the SPB status is information indicating the progress status of the start or stop process of the SPB 2, and is, for example, data of a predetermined length to which a bit is assigned for each stage in the start and stop processes. In the start or stop process, the SP 20 changes the value of the corresponding bit every time each stage is completed. For example, when all start processes are completed, all bits are set to “1” and all stop processes are performed. When completed, all bits are “0”. Examples of the stages in the start and stop processing include SPB2 hardware initialization processing, start completion (operation state), and the like
  • the activation process is a process executed by the activation processing unit 22 to be described later after power is supplied to the SPB 2 and the SP 20 is started, and the SP 20 is set in a state (operation state) in which the monitoring target 4 can be controlled. It is processing to do. Further, the stop process is normally executed in response to a stop instruction (request) from an input device (not shown), another information processing device, or SB 6 (hereinafter referred to as an input device, etc.) in the operating state. This is a process of stopping, and is a process of stopping the SPB 2 alone or the entire information processing apparatus 1 in response to an instruction (request).
  • SPB error information is information that is set when a failure is detected in SPB 2 by SP 20, and examples of SPB error information include information indicating the component in which the failure was detected and the degree of failure. Note that the SP20 failure detection by the SP 20 can be performed by various known methods, and detailed description thereof is omitted.
  • the SPB address is an address of SPB2, for example, a MAC (Media Access Control Address) address. The value of the SPB address is changed according to the change of the MAC address of SBP2, for example.
  • the duplex status is information indicating whether the duplexed SP 20 is active (Active) or standby (Standby).
  • the DB initialization information is information indicating whether or not the SDRAM 2c used as the DB has been initialized.
  • the checksum field (second area) 3B is an area in which the checksum 32 of the reset factor field 3A is set.
  • the checksum (error detection information) 32 is information for detecting an error of the reset factor 31, and is calculated based on each information (reset factor 31 and SP state information 34) in the reset factor field 3A.
  • the system information field (third area) 3C is an area in which system information 33, which is information for continuing the operation of the monitoring target 4, is set.
  • the system information (startup information, control information) 33 is a backup of information for the SP 20 to control the monitoring target 4 and is start information related to the start processing of each SP 20.
  • each SP 20 acquires the system information 33 set in the system information field 3C in the startup process, so that even if the SP 20 itself does not hold the system information 33, monitoring is performed in the operational state after the startup process is completed. Control related to the object 4 can be performed.
  • the system information 33 includes configuration information, faulty part information, trace information, and log information.
  • the configuration information is information indicating the configuration of the system, such as information about devices mounted in the information processing apparatus 1.
  • the faulty part information is fault information of a part (device) that is the monitoring target 4, and states such as “normal”, “mounted”, “not mounted”, and “failed” are set for each part.
  • the trace information is trace information in SP20 until immediately before SP20 (SPB2) fails.
  • the log information is detailed information on a failure related to the component of the monitoring target 4 in which the failure is detected.
  • the SPs 20-1 and 20-2 each include a determination unit 21, a start processing unit 22, a stop processing unit 23, an SP information setting unit 24, a monitoring information setting unit 25, and a storage unit 26.
  • the storage unit 26 holds system information 33, which is information for continuing the operation of the monitoring target 4, and SP status information 34, which is information indicating the status of the SP 20, and is used as a database (DB) in the SP 20.
  • the system information 33 held by the storage unit 26 is used for controlling the monitoring target 4 by the SP 20.
  • Each piece of information stored in the storage unit 26 is set (updated) by the SP 20 each time the configuration of the information processing apparatus 1 is changed or a failure is detected in the SP 20 (SPB 2) or the monitoring target 4.
  • Examples of the storage unit 26 include the SDRAM 2c (see FIG. 3) described above.
  • the SP information setting unit (second setting unit) 24 sets (updates) the update data of the SP state information 34 in the storage unit 26 and sets it in the storage unit 26 every time a change in the state of the SP 20 is detected. The same data is set (updated) in the reset factor field 3A of the EEPROM 3.
  • the monitoring information setting unit (third setting unit) 25 sets (updates) update data of the system information 33 in the storage unit 26 each time a change in information for controlling the monitoring target 4 is detected, and also stores the storage unit 26. The same data as set in (2) is set (updated) in the EEPROM 3.
  • the stop processing unit (first setting unit) 23 executes the above-described stop processing of the SP 20 in response to an instruction (request). Further, the stop processing unit 23 sets (saves) the reset factor 31 related to the stop processing in the reset factor field 3A of the EEPROM 3 when the SP 20 is stopped in response to the stop processing. Further, the stop processing unit 23 acquires (calculates) a checksum (first checksum, first error detection information) 32 based on the information set in the reset factor field 3A of the EEPROM 3. Then, the stop processing unit 23 sets (saves) the calculated checksum 32 in the checksum field 3B of the EEPROM 3.
  • the stop processing unit 23 calculates the checksum 32 by adding the lower 4 bytes (Byte) to the entire reset factor field 3A.
  • the stop processing unit 23 may calculate the checksum 32 by, for example, obtaining a CRC (Cyclic Redundancy Check) or hash for the entire reset factor field 3A.
  • the determination unit 21 checks the reset factor 31 held by the EEPROM 3 when the other SP 20 among the plurality of SPs 20 is in a stopped state when activated, for example, when the own SP 20 starts up with all the SPs 20 stopped. Based on the thumb 32, the type of the previous stop is determined.
  • the time of starting may be, for example, when power is supplied (powered on) to the MPU 2a of the SPB 2 and the MPU 2a becomes operable as the determination unit 21.
  • the determination unit 21 checks the checksum (second checksum, second error detection based on the information set in the reset factor field 3A of the EEPROM 3). Information) 32 is acquired (calculated). Note that the calculation method of the checksum 32 by the determination unit 21 is the same as the calculation method by the stop processing unit 23 described above.
  • the determination unit 21 then resets the reset factor 31 set in the reset factor field 3A of the EEPROM 3, the first checksum 32 set in the checksum field 3B, and the second acquired by the determination unit 21 when activated. Based on the checksum 32, the type of the previous stop is determined. That is, the determination unit 21 determines the reset factor by the data consistency check using CRC or the like together with the reset factor 31.
  • the determination unit 21 determines that the reset factor 31 is “Replace Reset” indicating activity exchange, or the first checksum 32 and the second checksum 32 are different, that is, a checksum error is detected.
  • the previous stop type is a stop type with SP 20 replacement.
  • the determination unit 21 determines that the reset factor 31 is correct when the first and second checksums 32 match, that is, when the checksum error is not detected, and the type of the previous stop is the reset factor 31. Is determined to be the type indicated by.
  • the determination unit 21 updates the reset factor 31 held by the EEPROM 3 using the determined type of previous stop. At this time, the determination unit 21 does not calculate the checksum 32 and set the checksum field 3B. As described above, the determination unit 21 determines the type of the previous stop based on the reset factor 31, the first checksum 32, and the second checksum 32 calculated from the reset factor 31 and the SP state information 34. That is, the true reset factor is determined.
  • the reset factor 31, the checksum 32, and the SP information setting unit 24 are information for obtaining the type of the previous stop, these may be collectively referred to as a reset factor 30.
  • the determination unit 21 stops the previous stop after the SP information setting unit 24 sets the SP state information 34 in the reset factor field 3A. Judgment of type is started. Further, the determination unit 21 notifies the activation processing unit 22 without making a determination when another SP 20 is in an operating state when activated.
  • the activation processing unit (processing unit) 22 performs the above-described activation processing of the SP 20 using the system information 33 held in the EEPROM 3 according to the determination result by the determination unit 21. For example, the activation processing unit 22 initializes the SPB 2 and acquires the system information 33 from the EEPROM 3 when the determination result by the determination unit 21 is a type of stop accompanied by the replacement (active replacement) of the SP 20. Set in the storage unit 26. That is, the activation processing unit 22 takes over the system information 33 stored in the EEPROM 3 before SPB2 active replacement when the determination result is a type indicating active replacement.
  • the activation processing unit 22 performs various controls.
  • the mounting state of the configuration (each monitoring target component) of the target 4 (information processing apparatus 1) is recognized.
  • the activation processing unit 22 initializes all the monitoring target components recognized as being mounted, for example, SPB2, SENB5, SB6 (CPU 6a, DIMM 6b, etc.), FAN 72, PSU 82, and the like. Further, the activation processing unit 22 determines whether or not a condition for continuing the processing is satisfied for each initialized component.
  • the activation processing unit 22 sets the system information 33 acquired from the monitoring target 4 and held in the storage unit 26 of each SP 20, for example, the status and alarm information of each component, in the system information field 3 C of the EEPROM 3. Note that the activation processing unit 22 does not transmit log information or the like in the system information 33 when there is no failed part, for example. Further, the activation processing unit 22 initializes the SPB 2 when the determination result is a type indicating that the power is turned off due to the restart of the SP 20. In this case, since the system information 33 is held in the storage unit 26 of the SP 20, the SP 20 executes control of the monitoring target 4 using the system information 33 held in the storage unit 26 after completion of the activation process. Can do. Note that when the power is turned off by restarting the SP 20, the power supplied to the SDRAM 2 c or the like that is the storage unit 26 does not stop, so the system information 33 and the SP state information 34 can be maintained in the storage unit 26. .
  • the activation processing unit 22 may have failed SPB2 or SENB5 (EEPROM3) after active replacement. Judgment is high. In this case, the SP 20 notifies an output device such as a monitor (not shown) or another information processing device connected via serial connection or LAN that a failure has been detected.
  • an output device such as a monitor (not shown) or another information processing device connected via serial connection or LAN that a failure has been detected.
  • the activation processing unit 22 initializes the SPB 2 when the determination unit 21 is notified that the other SP 20 is in the operating state, or when the other SP 20 is in the operating state in the activation process, and stores the system information 33. Obtained from the operating state SP 20 via the LAN.
  • Checksum Here, in the determination by the determination unit 21, the case where the first checksum 32 and the second checksum 32 are different is shown in FIG. 7 and FIG. The description will be given with reference. 7 is a diagram showing an example of data in the reset factor field 3A and the checksum field 3B provided by the holding unit 3 according to the present embodiment when the SP 20 finally performs a normal stop process. These are figures which show an example of data when SP20 starts after active exchange in the reset factor field 3A and the checksum field 3B.
  • the determination unit 21 uses the checksum (first checksum) 32 last set in the EEPROM 3 and the checksum (second checksum) 32 acquired when the SP 20 is activated to checksum error. Whether the reset factor 31 is correct is determined.
  • the first checksum 32 when the SP 20 performs the normal stop process at the end is acquired based on the value before change indicated by A, and is set in the checksum field 3B.
  • the second checksum 32 when the SP 20 is activated after the active exchange is acquired based on the changed value indicated by A ′. Therefore, the determination unit 21 can detect a checksum error based on the first checksum 32 and the second checksum 32 as shown in FIGS.
  • a and A ′ are SPB numbers.
  • the SP information setting unit 24 detects a change in the SPB number of SPB2 related to hot swap in the startup process. Then, the SP information setting unit 24 sets the changed SPB number for the SP state information 34 of the EEPROM 3. That is, the first checksum 32 is set based on the SPB number before the change, while the second checksum 32 is acquired based on the SPB number after the change. Therefore, the determination unit 21 can detect a checksum error.
  • the SP information setting unit 24 changes the value of the corresponding bit to, for example, “1” every time the activation process is completed, so that all bits are set to “1” in the operation state. To do.
  • the SP status information 34 indicates that the stop process of SP20 is completed by changing the corresponding bit value to, for example, “0” every time the stop process of each stage is completed. Sometimes all bits are set to "0". That is, the first checksum 32 is set based on the SPB status in which all bits are “0”.
  • the determination unit 21 can detect a checksum error.
  • a and A ′ are SPB error information.
  • SPB error information information on the failure that occurred in the SP is set in the EEPROM 3 as SPB error information, but the first checksum 32 is normally stopped before that. Is set on the basis of the SPB error information at the time.
  • SPB2 when SP20 is activated by hot replacement, SPB2 has not been initialized yet because SPB2 has not yet been initialized, and the SPB error information in storage unit 26 has not been updated. Based on the SPB error information. Therefore, the determination unit 21 can detect a checksum error.
  • FIGS. 9 to 11 are flowcharts showing an example of the SP stop processing procedure by the stop processing unit 23 according to the present embodiment.
  • FIG. 9 shows SP active replacement
  • FIG. 10 shows power-off of the monitoring target 4
  • FIG. This is a stop process in the restart of SP20.
  • the stop processing unit 23 sets “ReplaceReReset” as the reset factor. (Step A2). Then, the stop processing unit 23 stores the reset factor in the EEPROM 3 (step A3), and notifies the user or the like via the output device that the SPB 2 can be replaced (step A4). The stop process ends.
  • step B 1 when the SP 20 receives a SP 20 stop processing request accompanying the power-off of the monitoring target 4 from the user or the like via the input device or the like (step B 1), the stop processing unit 23 resets the SP 20.
  • the default value “Clear Reset” is set for the factor (step B2).
  • the stop processing unit 23 stores the reset factor in the EEPROM 3 (step B3), the SP 20 is stopped (power off) (step B4), and the SP 20 stop processing accompanying the power off of the monitoring target 4 is completed.
  • the stop processing unit 23 sets “PreservedPreReset” as the reset factor. It is set (step C2). Then, the stop processing unit 23 stores the reset factor in the EEPROM 3 (step C3), the SP 20 is restarted (step C4), and the stop processing of the SP 20 ends.
  • FIG. 12 is a flowchart illustrating an example of a processing procedure after the SP is activated by the monitoring apparatus 10 according to the present embodiment. Further, FIGS. 13 to 16 show the case after SP activation when SP 20 is actively replaced, when the power of monitoring target 4 is turned on, when SP 20 is restarted, when SENB 5 or replaced SP 20 fails, respectively. It is a sequence diagram which shows an example of the procedure of a process.
  • step S1 when the SP 20 is activated (step S1; steps A12, B11, C11, D2), the determination unit 21 determines whether or not the other-system SP 20 has failed or stopped (step S2). Steps A13, B12, C12, D3).
  • the activation of the SP 20 in step S1 is, for example, activation after the active replacement of the failed SP 20 when the failure of the SP 20 occurs in steps A11 and D1.
  • step S2 if the SP of the other system is stopped or malfunctioning (Yes route in step S2), the determination unit 21 collects the reset factor 30 (step S3; steps A14, B13, C13, D4). Then, the determination unit 21 determines whether the acquired reset factor 31 is “ReplaceReReset” or whether a checksum error has been detected (step S4).
  • Step A16 the determination unit 21 determines that the previous stop type is “Replace Reset”.
  • the determination unit 21 overwrites the reset factor 31 of the EEPROM 3 with the previous stop type (reset factor), that is, “Replace Reset” (step S5; step A17).
  • the activation processing unit 22 initializes the hardware of the SPB 2 (step S6; step A18), the system information 33 is collected from the EEPROM 3 (step S7; step A19), and the activation of the SP 20 is completed (step S7; step A19).
  • the determination unit 21 sets the reset factor 31 as the default. It is determined whether or not the value is “Clear Reset” (step S9).
  • the reset factor 31 is “Clear Reset” (Yes route of Step S9; Step B15)
  • the determination unit 21 determines that the previous stop type is “Clear Reset” (Step B16), and the EEPROM 3 is reset.
  • the factor 31 is overwritten with “Clear ⁇ Reset” (step S10; step B17).
  • the activation processing unit 22 recognizes the configuration of the monitoring target 4 (step S11; step B18), and initializes the hardware of all the monitoring targets 4 (step S12; step B19). In addition, the activation processing unit 22 determines whether or not the monitoring target 4 satisfies a condition for continuing the processing (step S13; step B20), and the collected system information 33 is stored in the EEPROM 3 (step S14; step). B21), the activation of SP20 is completed (step S15; step B22).
  • step S9 when the reset factor 31 is not “Clear” Reset ”(No route of step S9; steps C15 and D6), the determination unit 21 determines whether or not the reset factor 31 is“ Preserved Reset ”. (Step S16).
  • the determination unit 21 determines that the previous stop type is “Preserved Reset” (Step C17), and the EEPROM 3 is reset. “Preserved“ Reset ”is overwritten on the factor 31 (step S17; step C18).
  • the activation processor 22 initializes the hardware of the SPB 2 (step S18; step C19), and the activation of the SP20 is completed (step S19; step C20).
  • step S16 when the reset factor 31 is not “Preserved ⁇ ⁇ ⁇ ⁇ Reset” (No route of step S16; step D7), the activation processing unit 22 causes the SENB5 (EEPROM3) or SPB2, which is the replacement member after the active replacement, to fail. It is judged that there is a high possibility. Then, the activation processing unit 22 requests the user or the like to replace the hardware (Step S20; Step D8), and the process ends.
  • SENB5 EEPROM3
  • SPB2 which is the replacement member after the active replacement
  • step S2 if the other system SP 20 has not failed or stopped (No route in step S2), the activation processing unit 22 synchronizes the other system SP 20 and the data such as the system information 33 (step S21). ). Further, the activation processing unit 22 initializes the hardware of the SPB 2 (step S22), and the activation of the SP 20 is completed (step S23).
  • FIGS. 17 and 18 are a sequence diagram and a flowchart, respectively, illustrating an example of a processing procedure performed by the monitoring apparatus 10 when a failure occurs in the operating state SP according to the present embodiment.
  • those whose step codes begin with S are those shown in FIG. 12, and those whose steps begin with E are steps shown in FIG.
  • step T2 the determination unit 21 determines that the reset factor is “Clear Reset” and the monitoring target 4 is turned on (steps S4, S9 to S13, E31). To E34) are executed.
  • Step T3 a write process to the DB (SDRAM 2c) occurs in the SP 20-1 on the active side
  • a synchronization process is performed with the DB of the SP 20-2 on the standby side via the SP duplex LAN / serial between the SPs 20 (step T3).
  • Step E35 the system information 33 is stored in the EEPROM 3 via the I2C bus 1b by the monitoring information setting unit 25 in each SP 20 (step T4; steps S14 and E36).
  • step T5 it is assumed that a failure has occurred in SP20-1 on the active side (step T5) and SP20-1 has gone offline (stopped).
  • the standby side SP 20-2 periodically checks the existence of the active side SP 20-1 via the SP redundant LAN / serial. If the existence of the active side SP 20-1 cannot be confirmed, the standby side SP 20-2 switches the duplex, Processing for switching to SP20 is performed (step T6; steps E37 and E38).
  • each node of each SB 6 is notified of the offline by an interrupt, and access to the SP 20 from each node is suppressed.
  • the SP 20-2 goes offline.
  • the active exchange of SPB2-1 is performed (step T8), and when SP20-1 is activated, reset factor 30 is acquired from EEPROM 3 via I2C bus 1b (step T9; step S3).
  • step T10 the determination unit 21 determines that the reset factor is “Replace Reset” and the SPB 2-1 is actively replaced (steps S4 to S6, E39, E40). Is executed. Further, the system information 33 is collected from the EEPROM 3 by the activation processing unit 22 of the SP 20-1 (Step T11; Steps S7 and E41).
  • SPB2-2 performs active exchange of SPB2-2 (step T12), SP20-2 that has been activated performs duplex synchronization of SP20, and system information 33 is collected from SP20-1 (step T13). Step S22). Then, the activation processing unit 22 of the SP 20-2 initializes the hardware of the SPB 2-2 (step T14; step S23), and the process ends.
  • FIG. 19 is a diagram illustrating a state matrix according to the type of previous stop in the monitoring apparatus 10 according to the present embodiment.
  • the types of stop (1) to (4) are all “ ⁇ ” because the SP 20 is a single (single) state and there is no SP 20 in the standby state. Further, the stop type (5) is a duplex state, and the standby state SP 20 is “Yes”. In the types (1), (3), and (5) of the stop, since the monitoring target 4 does not stop, the continuation of the operation of the monitoring target 4 is valid “O”. In the case of the stop type (4), since it is not possible to even write to the EEPROM 3, it is stopped after instructing the user or the like to switch to the backup system without inadvertently starting up the SP 20, and the SENB 5 The replacement member SPB2 is replaced.
  • the type of stop (1) is a case where SP20 is determined to be faulty or stopped while SP20 is in a single state, and SPB2 is actively replaced
  • the type of stop (2) is a state where SP20 is in a single state. This is a case where the SP 20 is activated by determining that the monitoring target 4 is powered on.
  • the stop type (3) is a case in which the SP 20 is in a single state and the SP 20 reboots only the SP itself (SP reboot).
  • the stop type (4) is in the single state in which the SP 20 is in a single state. This is a case where SPB2 of the replacement member has failed.
  • the type of stop (5) is a case where the SP20 is subjected to hot replacement by determining the failure or stop of the SP20 in the duplex state.
  • FIGS. 20 and 21 are a sequence diagram and a flowchart, respectively, illustrating an example of a processing procedure by the SP when a failure occurs in the operating SP.
  • the steps having the symbol starting with S are steps shown in FIG.
  • step T101 when SP # 0 is active and SP # 1 is in a standby state and SP # 0 is activated, the activation process by SP # 0 is executed (step T101; steps S101 to S103).
  • step T101 the configuration recognition of the monitoring target component (step S101), the initialization of hardware (SPB / SB / fan / PSU / SENB), and the configuration determination of each component (step S103). ) Is performed.
  • step T102 every time a write process to the DB occurs at the SP # 0 on the active side, a synchronization process is performed between the SP and the DB of the SP # 1 on the standby side (step T102; step S104).
  • a failure occurs in SP # 0 on the active side (step T103) and SP # 0 goes offline (stops).
  • the standby side SP # 1 periodically checks the existence of the active side SP # 0. When the existence cannot be confirmed, the standby side SP # 1 switches the duplex and performs the process of switching itself to the active side SP ( Step T104; Steps S105 and S106).
  • step T105 when a failure occurs in SP # 1 on the active side (step T105), SP # 1 goes offline.
  • the SPB is hot-exchanged at SP # 0 (step T106).
  • step T107 the activation process by SP # 0 is executed (step T107).
  • the hardware SPB / SB / fan / PSU / SENB) is initialized in step T107.
  • the activation processing unit 22 collects information used for continuing the operation of the monitoring target 4 from the EEPROM 3 and performs a process of taking over. Can be done. Therefore, even if two duplicated SPs 20 fail at the same time, the hot replacement of the SPs 20 can be performed while the monitoring target 4 continues to operate.
  • the determination unit performs a previous stop based on the reset factor 31 and the checksum 32. Can be reliably determined. Therefore, the SP 20 can reliably take over the system information 33 from the EEPROM 3 by the activation after the active replacement.
  • the determination unit 21 rewrites the reset factor 31 in the EEPROM 3 after determining the type of the previous stop of the activated SP 20.
  • the SP20 failure can be detected because the value of the checksum 32 differs depending on the value of the reset factor 31 that has been rewritten.
  • the SP information setting unit 24 and the monitoring information setting unit 25 have been described as storing update data in the EEPROM 3 each time the SP state information 34 and the system information 33 are updated, the present invention is not limited to this.
  • the SP information setting unit 24 and the monitoring information setting unit 25 may set the SP state information 34 and the system information 33 held in the storage unit 26 by the SP 20 in the operation state in the EEPROM 3 at a predetermined timing in the operation state.
  • the predetermined timing may be, for example, every predetermined time, and may be when there is a predetermined instruction (request).
  • the reset factor 31 has been described as including “Clear Reset”, “Preserved Reset”, and “Replace Reset”, but is not limited to this, and the configuration and function of the monitoring device 10 and the monitoring target 4 Other types of stops may be included according to the above.
  • the start processing unit 22 and the stop processing unit 23 may perform start / stop processing according to other stop types.
  • the determination unit 21 may omit the determination of the type of the previous stop using the reset factor 31 partially as necessary.
  • the functions as the determination unit 21, the start processing unit 22, the stop processing unit 23, the SP information setting unit 24, and the monitoring information setting unit 25 described above may be integrated or distributed in any combination.
  • the monitoring unit 20 has functions as the determination unit 21 and the activation processing unit 22, and further has functions as a stop processing unit 23, an SP information setting unit 24, and a monitoring information setting unit 25. Also good.
  • the program (monitoring program) for realizing the function as the monitoring unit 20 is, for example, a flexible disk, a CD (CD-ROM, CD-R, CD-RW, etc.), DVD (DVD-ROM, DVD-RAM, DVD).
  • the computer reads the program from the recording medium using, for example, a reading device, transfers the program to an internal storage device or an external storage device, and uses it. Further, the program may be recorded in a storage device (recording medium) such as a magnetic disk, an optical disk, or a magneto-optical disk, and provided from the storage device to a computer via a communication line.
  • a storage device such as a magnetic disk, an optical disk, or a magneto-optical disk
  • a program stored in an internal storage device (RAM 2b, SDRAM 2c, FMEM 2g, NVRAM 2h, or ROM (not shown) in this embodiment) is stored in a microprocessor of the computer (MPU 2a in this embodiment). ) Is executed. At this time, the program recorded on the recording medium may be read and executed by a computer using, for example, a reading device.
  • the computer is a concept including hardware and an operating system, and means hardware that operates under the control of the operating system. Further, when an operating system is unnecessary and hardware is operated by an application program alone, the hardware itself corresponds to a computer.
  • the hardware includes at least a microprocessor such as a CPU and means for reading a computer program recorded on a recording medium.
  • the monitoring device 10 (SPB2) functions as a computer. It has.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 監視対象(4)の制御を行なう複数の監視部(20)を備えた監視装置(10)であって、前記複数の監視部(20)の起動処理に係る起動情報(33)を保持するとともに、前記複数の監視部(20)の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報(31)と、前記種別情報(31)の誤りを検出するための誤り検出情報(32)と、を保持する保持部(3)を備え、前記複数の監視部(20)の各々は、起動したときに前記複数の監視部(20)のうちの他の監視部(20)が停止状態の場合、前記保持部(3)が保持する前記種別情報(31)と前記誤り検出情報(32)とに基づいて、前回の停止の種別を判定する判定部(21)と、前記判定部(21)による判定結果に応じて、前記保持部(3)が保持する前記起動情報(33)を用いて前記起動処理を行なう処理部(22)と、を備える。

Description

監視装置,情報処理装置,監視方法,および監視プログラム
 本件は、監視装置,情報処理装置,監視方法,および監視プログラムに関する。
 近年、サーバ装置等の情報処理装置において、以前よりも増して高い信頼性が要求される場合がある。情報処理装置の信頼性を向上させるために、例えば、情報処理装置にメインプロセッサとは独立したサービスプロセッサ(Service Processor;以下、SPという)を搭載することで、信頼性を高めることができる。この場合、さらに、SPを冗長化(例えば二重化)して信頼性を向上させることができる。
 なお、SP(監視部)は、ソフトウェア(例えばファームウェア)であり、SPの機能は、ハードウェアであるSPB(Service Processor Board)により実現される。以下、1つのSPBにより1つのSPが実行されるものとし、SPが冗長化される場合、情報処理装置にはSPと同数のSPBが搭載されるものとして説明する。
 SPは、情報処理装置内の監視対象装置(監視対象)として、例えばSPB,SB(System Board),ファン,PSU(Power Supply Unit),SENB(Sensor Board)等を制御する。SBは、メインプロセッサが搭載されるハードウェアであり、情報処理装置が提供するサービスが実行される。PSUは、情報処理装置内のSPB,SB,ファン,SENB等に電力を供給するものであり、SENBは、情報処理装置内の温度等を測定するセンサである。
 例えば、情報処理装置においてSPを二重化する場合、1つのSP(SPB)が故障すると、他方のSPは、故障したSPの動作を引き継ぎ監視対象装置の制御を行なうため、監視対象装置は動作を継続することができる。また、故障したSPについては、例えば保守担当者等の作業者が、監視対象装置の動作を継続させたままSPBの活性交換を行なうことができる。
 なお、関連する技術として、ハードウェア状態情報及びOS(Operating System)ソフトウェア状態情報の変化を認識した際に退避情報として不揮発性メモリに記憶するシステム監視装置がある。このシステム監視装置は、故障したシステム監視装置の活性交換に伴う再起動を認識した際に、不揮発性メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元する。
 また、関連する他の技術として、RAID(Redundant Arrays of Inexpensive Disks)コントローラを有するディスク制御システムにおいて、ライトリクエストに応答して、データを書き込むとともに、複数のディスク上の論理アドレスログ領域に、アドレス変換前のアドレス値である論理アドレスを書き込む技術がある。この技術では、書き込み中にシステムの障害が発生した場合には、書込処理途中のストライプに関して、その論理アドレスログ領域に書き込まれているチェックサム値がデータ領域の書込データから求めたチェックサム値との一致を確認して、データの有効/無効を判断する。
国際公開WO2007/088575号パンフレット 特開2002-207572号公報
 冗長化(例えば二重化)したSPを搭載する情報処理装置において、一方のSPが故障し、故障したSPの活性交換中に他方のSPも故障した場合、監視対象装置を制御するSPが存在しなくなり、監視対象装置の動作を継続することが困難になる。例えば、二重化したSPがともに故障した場合、監視対象装置は、SPへの要求が受領されず、或いはSPによる制御待ちの状態が続くため、他の処理を実行することができず、監視対象装置の動作を継続することが困難になる。なお、この場合、作業者は、監視対象装置の動作を停止させ、2つのSPを交換(停止交換)して、監視対象装置及びSPを再起動することになる。
 ここで、上述した関連する技術では、システム監視装置は、故障したシステム監視装置の活性交換に伴う再起動を認識した際に、不揮発性メモリから退避情報を読み出して対応する装置故障前の各情報を復元する。しかしながら、この技術では、故障したシステム監視装置の活性交換に伴う再起動を認識するための手法は開示されていない。
 例えば、上述した関連する技術において、システム監視装置が、停止処理を行なう際にハードウェアに停止の種別(システム全体の停止,システム監視装置の再起動等)を設定し、起動したときにハードウェアから停止の種別を取得するように動作させることも考えられる。しかし、例えば、システム監視装置は、故障のために正常な停止処理を行なわずに停止すると、ハードウェアに停止の種別を設定できない、或るいは誤った情報を設定することになり、再起動後に前回の停止の種別を認識できない、或いは誤認識してしまう。この場合、システム監視装置は、故障したシステム監視装置の活性交換に伴う再起動を認識できないため、不揮発性メモリから退避情報を読み出して対応する装置故障前の各情報を復元する処理も行なわれない。また、システム監視装置は、前回の停止の種別を、例えば再起動後に監視対象装置のハードウェアを初期化することになる種別と誤認識すると、活性交換に伴う再起動後に、ハードウェアの初期化により監視対象装置の電源断やセンサ誤検出等が発生する場合もある。
 このように、上述した関連する技術においても、冗長化したシステム監視装置がともに故障した場合、監視対象装置の動作を継続することが困難になる。
 また、情報処理装置は、停止交換によっても停止前の情報を引き継ぐこともできるが、活性交換ではないため監視対象装置を停止することになり、大規模なシステムにとっては停止することが致命的となる。
 1つの側面では、本発明は、複数の監視部を活性交換しても監視対象の動作を継続させることを目的とする。
 なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。
 本件の監視装置は、監視対象の制御を行なう複数の監視部を備えた監視装置であって、前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部を備え、前記複数の監視部の各々は、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、を備えるものである。
 また、本件の情報処理装置は、監視対象と、前記監視対象の制御を行なう複数の監視部と、前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部と、を備え、前記複数の監視部の各々は、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、を備えるものである。
 さらに、本件の監視方法は、監視対象の制御を複数の監視部により行なう監視方法であって、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なうものである。
 また、本件の監視プログラムは、監視対象の制御を行なう処理を複数の監視部の一つを成すコンピュータに実行させる監視プログラムであって、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なう、処理を前記コンピュータに実行させるものである。
 開示の技術によれば、複数の監視部を活性交換しても監視対象の動作を継続させることができる。
一実施形態に係る情報処理装置の構成例を示す図である。 本実施形態に係る監視装置による監視部の起動処理の手順の一例を説明するフローチャートである。 本実施形態に係る情報処理装置のハードウェア構成例を示す図である。 本実施形態に係る情報処理装置の詳細な機能構成例を示す図である。 本実施形態に係る保持部がそなえるリセット因子フィールド及びチェックサムフィールド内のデータ構造の一例を示す図である。 本実施形態に係る保持部がそなえるシステム情報フィールド内のデータ構造の一例を示す図である。 本実施形態に係る保持部がそなえるリセット因子フィールド及びチェックサムフィールド内の、SPが最後に正常な停止処理を行なったときのデータの一例を示す図である。 本実施形態に係る保持部がそなえるリセット因子フィールド及びチェックサムフィールド内の、SPが活性交換後に起動したときの一例を示す図である。 本実施形態に係る停止処理部によるSP活性交換におけるSP停止処理の手順の一例を示すフローチャートである。 本実施形態に係る停止処理部による監視対象の電源オフにおけるSP停止処理の手順の一例を示すフローチャートである。 本実施形態に係る停止処理部によるSP再起動におけるSP停止処理の手順の一例を示すフローチャートである。 本実施形態に係る監視装置によるSP起動後の処理の手順の一例を示すフローチャートである。 本実施形態に係る監視装置によるSPが活性交換された場合のSP起動後の処理の手順の一例を示すシーケンス図である。 本実施形態に係る監視装置による監視対象の電源が入った場合のSP起動後の処理の手順の一例を示すシーケンス図である。 本実施形態に係る監視装置によるSPが再起動した場合のSP起動後の処理の手順の一例を示すシーケンス図である。 本実施形態に係る監視装置によるSENB又は交換したSPが故障した場合のSP起動後の処理の手順の一例を示すシーケンス図である。 本実施形態に係る運用状態のSPに故障が発生した場合の監視装置による処理の手順の一例を示すシーケンス図である。 本実施形態に係る運用状態のSPに故障が発生した場合の監視装置による処理の手順の一例を示すフローチャートである。 本実施形態に係る監視装置における前回の停止の種別に応じた状態マトリクスを示す図である。 運用状態のSPに故障が発生した場合のSPによる処理の手順の一例を示すシーケンス図である。 運用状態のSPに故障が発生した場合のSPによる処理の手順の一例を示すフローチャートである。
 以下、図面を参照して実施の形態を説明する。
 〔1〕一実施形態
  〔1-1〕情報処理装置の説明
   〔1-1-1〕情報処理装置の構成例
 図1は、一実施形態に係る情報処理装置1の構成例を示す図である。
 図1に示すように、情報処理装置1は、監視対象4を制御する監視装置10及び監視対象4をそなえる。監視装置10は、複数、例えば2つの監視部20-1及び20-2(以下の説明において監視部20-1,20-2を区別しない場合には単に符号20で示す)及び保持部3をそなえる。なお、監視部20-1,20-2の各々は、監視対象4と通信可能に接続されるとともに、保持部3と書込及び読出可能に接続される。
 保持部3は、種別情報31,誤り検出情報32,及び起動情報33を保持する。種別情報31は、複数の監視部20の各々が停止処理に応じて停止されるときの停止の種別を示す情報であり、誤り検出情報32は、種別情報31の誤りを検出するための情報である。また、起動情報33は、複数の監視部20の起動処理に係る情報であり、後述する処理部22による起動処理で用いられる。
 監視部20は、監視対象4の監視及び制御を行なうものであり、判定部21及び処理部22をそなえる。判定部21は、起動したときに複数の監視部20-1,20-2のうちの他の監視部20が停止状態の場合、保持部3が保持する種別情報31と誤り検出情報32とに基づいて、前回の停止の種別を判定する。処理部22は、判定部21による判定結果に応じて、保持部3が保持する起動情報33を用いて起動処理を行なう。
   〔1-1-2〕監視装置の動作例
 次に、上述の如く構成された本実施形態の一例としての監視装置10の動作例を、図2を参照して説明する。図2は、本実施形態に係る監視装置10による監視部20の起動処理の手順の一例を説明するフローチャートである。
 はじめに、図2に示すように、監視部20が起動すると(ステップS1)、監視部20(判定部21)により他の監視部20が停止状態か否かが判定される(ステップS2)。他の監視部20が停止状態である場合(ステップS2のYesルート)、判定部21により、保持部3に保持された種別情報31及び誤り検出情報32に基づいて、前回の停止の種別が判定される(ステップS3)。
 そして、処理部22により、判定部21による判定結果に応じて、保持部3に保持された起動情報33を用いて起動処理が行なわれ(ステップS4)、監視部20の起動処理が終了する。なお、ステップS2において、他の監視部20が停止状態でない場合(ステップS2のNoルート)、例えば起動している他の監視部20から起動処理に係る情報を取得できるため、処理部22により、所定の起動処理が行なわれる(ステップS5)。
 このように、本実施形態に係る監視装置10(情報処理装置1)によれば、例えば全ての監視部20が停止した状態で自身の監視部20が立ち上がった場合、判定部21により、種別情報31と誤り検出情報32とに基づいて、前回の停止の種別が判定される。
 ここで、種別情報31は、複数の監視部20の各々が停止処理に応じて停止されるときの停止の種別を示す情報である。すなわち、前回、監視部20が正常な停止処理を行なわずに(例えば故障や事故、災害により)停止した場合等の状況では、種別情報31は、この監視部20の前回の停止の種別を示すものではない。従って、例えば種別情報31に基づいて前回の停止の種別を判定しようとすると、前回の停止の種別が分からない、或いは他の停止の種別と誤認識してしまい、監視部20の適切な起動処理が行なえず、監視対象4の動作を継続することが困難になってしまう。
 そこで、本実施形態に係る判定部21は、種別情報31と種別情報31の誤りを検出するための誤り検出情報32とに基づいて、前回の停止の種別を判定するのである。これにより、判定部21は、誤り検出情報32により種別情報31の誤りを検出して、前回の停止の種別を確実に判定することができる。
 また、処理部22により、判定部21による判定結果に応じて、保持部3が保持する起動情報33を用いて起動処理が行なわれる。従って、例えば活性交換後に起動した場合であっても、起動情報が監視部20の交換により失われずに保持部3に保持されているため、監視対象4の動作を継続したまま監視部20の起動処理を行なうことができる。また、判定部21により前回の停止の種別が確実に判定されるため、処理部22は適切な起動処理を行なうことができ、例えば誤認識した停止の種別に応じた起動処理により、監視対象4に対して動作継続が困難になるような深刻な影響を与えることも抑止できる。
 以上のように、本実施形態に係る監視装置10によれば、複数の監視部20を活性交換しても監視対象4の動作を継続させることができる。特に、監視対象4が大規模な構成の場合、小規模構成のときと比べて監視対象4が停止(電源オフ)することの影響が非常に大きい。従って、仮に複数の監視部20が一時的に全て故障した場合でも、本実施形態に係る監視装置10によれば、監視部20の活性交換によって監視対象4を動作継続させることができるため、監視対象4が停止することにより他のシステム或いは使用者等に与える影響を抑止することができる。
  〔1-2〕情報処理装置の詳細な構成例
 図3は、本実施形態に係る情報処理装置1のハードウェア構成例を示す図であり、図4は、情報処理装置1の詳細な機能構成例を示す図である。
 上述した実施形態(図1及び図2参照)において、情報処理装置1は、図3に示すハードウェアをそなえても良く、監視装置10は、図4に示す構成としても良い。以下、図3及び図4を参照して、本実施形態に係る情報処理装置1の詳細な構成例を説明する。
   〔1-2-1〕情報処理装置のハードウェア構成例
 はじめに、情報処理装置1のハードウェア構成例について図3を参照して説明する。
 図3に例示するように、情報処理装置1は、監視装置10,複数、例えばn個のSB6-1~6-n,ファンBP(Back Panel)71,複数のファン72,PSUBP(Power Supply Unit Back Panel)81,及び複数のPSU82をそなえる。また、監視装置10は、複数、例えば2つのSPB2-1及び2-2,並びにSENB5をそなえる。なお、以下の説明においてSPB2-1,2-2を区別しない場合には単に符号2で示し、SB6-1~6-nを区別しない場合には単に符号6で示す。
 監視装置10は、複数、例えば2つの冗長化(二重化)されたSP20-1,20-2(図4参照;以下の説明においてSP20-1,20-2を区別しない場合には単に符号20で示す)により、監視対象4の制御を行なうものである。
 ここで、SP20-1,20-2の監視対象4としては、SPB2-1及び2-2自身,SENB5,SB6,ファン72,PSU82等の少なくとも1つが挙げられる。つまり、監視対象4としては、情報処理装置1の動作に関わるハードウェアが挙げられる。以下、本実施形態に係る監視対象4は、SPB2-1及び2-2自身,SENB5,SB6,ファン72,PSU82であるものとして説明する。
 SPB2-1,2-2は、それぞれ監視対象4の監視及び制御を行なうSP20-1,20-2を実現するハードウェアである。なお、1つのSPB2により1つのSP20が実現されるため、図3に示す監視装置10においては、SPB2-1,2-2により、2つのSP20-1,20-2が実現される。また、SPB2-1,2-2は、監視対象4とバス等の通信線を介して接続される。
 各SPB2は、MPU(Micro Processing Unit)2a,RAM(Random Access Memory)2b,SDRAM(Synchronous Dynamic RAM)2c,SPコントローラ2d,及びROM(Read Only Memory)2eをそなえる。また、各SPB2はさらに、I2C(Inter-Integrated Circuit)コントローラ2f,FMEM(Flash Memory)2g,NVRAM(Non Volatile RAM)2h,シリアルポート2i,LAN(Local Area Network)アダプタ2j,及びLANポート2kをそなえる。
 MPU2aは、種々の制御や演算を行なう処理装置(プロセッサ)であり、NVRAM2hや図示しないROM等に格納されたプログラムを実行することにより、SPB2における種々の機能を実現する。本実施形態においては、MPU2aは、NVRAM2hが保持する監視プログラムを実行することで、SP20として監視対象4の監視及び制御を実行する。なお、MPU2aの機能は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路や、CPU(Central Processing Unit)等の処理装置により実現されても良い。
 RAM2bは、種々のデータやプログラムを一時的に格納する記憶装置であって、MPU2aがプログラムを実行する際に、データやプログラムを一時的に格納・展開して用いる。NVRAM2hは、SP20としての機能をMPU2aに実行させる監視プログラム(例えばファームウェア)を保持する。
 SDRAM2cは、SP20による監視対象4の制御に係る各種情報を保持する記憶装置であり、SP20によりデータベース(DB)として用いられる。
 SPコントローラ2d及びI2Cコントローラ2fは、それぞれ、SPB2を監視対象4と接続して、監視対象4の監視や制御等のアクセスを制御するものであり、これらのコントローラ2d及び2fとしては、例えばインタフェースコントローラが挙げられる。なお、SPコントローラ2dは、例えばSPB2が起動したとき等、アクセス制御を開始するときに、ROM2eに格納された初期設定の情報を読み出して初期化を行なう。
 例えば、各SPB2のSPコントローラ2dは、制御バス1aを介してn個のSB6のSBコントローラ6cとそれぞれ接続され、SB6との間で監視及び制御に係るデータやコマンド等の送受信を行なう。また、各SPB2のI2Cコントローラ2fは、I2Cバス1bを介してSENB5,ファンBP71(ファン72),及びPSUBP81(PSU82)とそれぞれ接続され、これらの監視対象4との間で監視及び制御に係るデータやコマンド等の送受信を行なう。
 FMEM2gは、SP20のファームアップデータを保持する。シリアルポート2iは、SPB2を他の装置とシリアル接続するためのポートであり、例えばSPB2-1とSPB2-2とがシリアルポート2iを介して、相互に通信可能に接続される。LANアダプタ2jは、SPB2を他の装置等とLAN経由で接続するためのインタフェースである。LANポート2kは、SPB2を他の装置とLAN接続するためのポートであり、SPB2-1及びSPB2-2、又は、SPB2及び情報処理装置1の外部の装置がLANポート2kを介して、相互に接続される。
 なお、RAM2b,SDRAM2cとしては、他の揮発性メモリが用いられても良く、ROM2e,FMEM2g,NVRAM2hとしては、他の不揮発性メモリが用いられても良い。
 SB6-1~6-nは、それぞれ情報処理装置1が提供するサービスを実行するものであり、図示しないキーボードやマウス等の入力装置、又はLAN等のネットワーク経由で入力された指示に応じて、所定の処理を実行する。
 各SB6は、複数、例えば4つのCPU6a,DIMM(Dual Inline Memory Module)6b,SBコントローラ6c,ROM6d,SRAM(Static RAM)6e,FMEM6f,温度センサ6g,及びPOL(Point Of Load)6hをそなえる。
 各CPU6aは、種々の制御や演算を行なう処理装置(プロセッサ)であり、DIMM6bや図示しないROM等に格納されたプログラムを実行することにより、SB6における種々の機能を実現する。本実施形態においては、各CPU6aは、DIMM6bが保持するOSプログラムを実行することで、それぞれがノードとして機能する。DIMM6bは、種々のデータやプログラムを一時的に格納する記憶装置であって、CPU6aがプログラムを実行する際に、データやプログラムを一時的に格納・展開して用いる。なお、DIMM6bに替えて、SIMM(Single Inline Memory Module)が用いられても良い。
 SBコントローラ6cは、SB6を各SPB2と接続して、SPB2への各種要求やSPB2からのアクセスを制御するものであり、SBコントローラ6cとしては、例えばインタフェースコントローラが挙げられる。なお、SBコントローラ6cは、例えばSB6が起動したとき等、アクセス制御を開始するときに、ROM6dに格納された初期設定の情報を読み出して初期化を行なう。例えば、SBコントローラ6cは、制御バス1aを介して2つのSPB2のSPコントローラ2dとそれぞれ接続され、SPB2との間で監視及び制御に係るデータやコマンド等の送受信を行なう。SRAM6e及びFMEM6fは、SBコントローラ6cによって用いられる記憶装置であり、SBコントローラ6cの設定情報等を保持する。
 温度センサ6gは、SB6周辺の温度を測定するデバイスであり、SB6の1以上の個所に接触又は非接触で設けられる。POL6hは、SB6のCPU6a,SBコントローラ6c,各記憶装置等の電力を消費するデバイスに対して、SB6の電源である複数のPSU82からの電力を変換して供給するデバイスである。
 なお、CPU6a,DIMM6b,SBコントローラ6c,温度センサ6g,及びPOL6hは、システムバスにより接続される。
 複数のファン72は、情報処理装置1の冷却装置であり、情報処理装置1内の1以上の個所に設けられ、SP20によりファンBP71を介して回転数等が監視及び制御される。複数のPSU82は、情報処理装置1の外部から供給される電力を情報処理装置1内に供給する電源装置であり、SP20によりPSUBP81を介して各PSU82の稼働状況や電力の供給先の設定等が監視及び制御される。
 SENB5は、情報処理装置1の状態を測定し保持するユニットであり、例えばEEPROM(Electrically Erasable Programmable ROM)3及び温度センサ51をそなえる。温度センサ51は、情報処理装置1の温度を測定するデバイスであり、情報処理装置1内の1以上の個所に接触又は非接触で設けられ、温度の測定結果は、SP20による監視対象4の故障等の判断に用いられる。
 EEPROM3は、温度センサ51の設定情報等を保持する不揮発性メモリである。また、EEPROM3は、図4に示すように、リセット因子フィールド3A,チェックサムフィールド3B,及びシステム情報フィールド3Cの領域をそなえ、本実施形態に係る保持部として用いられる。なお、保持部としてのEEPROM3は、SENB5内にそなえられなくても良く、情報処理装置1の内部或いは外部にそなえられても良い。
   〔1-2-2〕情報処理装置の詳細な機能構成例
 次に、情報処理装置1の詳細な機能構成例について図4を参照して説明する。
 図4に示すように、SBP2-1,2-2により実現されるSP20-1,20-2は、互いに通信可能に接続されるとともに、冗長化(二重化)されており、一方がアクティブ側として監視対象4の監視及び制御を実行し、他方がスタンバイ側として待機する。なお、スタンバイ側のSP20は、アクティブ側のSP20の動作を監視し、記憶部26(例えばSDRAM2c)に対して更新が行なわれると、シリアル接続又はLAN経由で同期処理を行ない、自身のDBをアクティブ側のSP20のDBの内容と同期する。
 また、アクティブ側のSP20で故障が検出された場合、或いは故障等により停止した場合、スタンバイ側のSP20は、故障したSP20の動作を引き継ぎ(つまりアクティブに切り替わり)監視対象4の制御を行なう。なお、SP20の故障が検出された場合、SP20は、図示しないモニタ等の出力装置、或いはシリアル接続又はLAN経由で接続された他の情報処理装置に対して、故障が検出されたことを通知する。例えば保守担当者等の作業者は、この通知に応じて、故障していないSP20に監視対象4の制御を継続させたまま、つまり監視対象4の動作を継続させたまま、故障したSP20のSPB2の活性交換を行なうことができる。
 ここで、保持部としてのEEPROM3について説明する。
 図5は、本実施形態に係る保持部3がそなえるリセット因子フィールド3A及びチェックサムフィールド3B内のデータ構造の一例を示す図であり、図6は、保持部3がそなえるシステム情報フィールド3C内のデータ構造の一例を示す図である。
 図4及び図5に示すように、リセット因子フィールド(第1領域)3Aは、SP20に関する情報が設定される領域であり、リセット因子フィールド3Aには、リセット因子31及びSP状態情報34が設定される。
 リセット因子(種別情報)31は、SP20の各々が停止処理に応じて停止されるときの停止の種別を示す情報であり、リセット因子31には、“Clear Reset”(デフォルト値),“Preserved Reset”,及び“Replace Reset”等が含まれる。“Clear Reset”は、SP20を含む監視対象4(情報処理装置1)全体の正常な電源オフ、つまりシャットダウンを示す停止の種別である。“Preserved Reset”は、SP20に対する再起動によるSP20の正常な電源オフを示す停止の種別である。“Replace Reset”は、例えばSPB2の故障が検出され、SP20を活性交換するために行なわれたSP20の正常な電源オフを示す停止の種別である。
 SP状態情報(状態情報)34は、SP20の状態を示す情報であり、図5に示すように、SP状態情報34には、SPB番号,SPBステータス,SPBエラー情報,SPBアドレス,二重化ステータス,及びDB初期化情報等が含まれる。
 SPB番号は、複数のSPB2を特定する情報であり、SPB番号としては、例えばSPB2が取り付けられた情報処理装置1内のスロットの番号等が挙げられる。SPBステータスは、SPB2の起動又は停止処理の進捗状況を示す情報であり、例えば起動及び停止処理における段階ごとにビットが割り当てられた所定長のデータである。SP20は、起動又は停止処理において、各段階が完了するごとに対応するビットの値を変更することで、例えば全ての起動処理が完了したときは全ビットが“1”に、全ての停止処理が完了したときには全ビットが“0”になる。なお、起動及び停止処理における段階としては、例えばSPB2のハードウェア初期化処理,起動完了(運用状態)等が挙げられる。
 なお、起動処理は、SPB2に電力が供給され、SP20が立ち上がった後に、後述する起動処理部22によって実行される処理であり、監視対象4の制御が行なえる状態(運用状態)にSP20を設定する処理である。また、停止処理は、運用状態において、図示しない入力装置や他の情報処理装置、或いはSB6等(以下、入力装置等という)から停止の指示(要求)を受けて実行される、SP20を正常に停止させる処理であり、指示(要求)に応じてSPB2単体や情報処理装置1全体を停止させる処理である。
 SPBエラー情報は、SP20によりSPB2において故障が検出した場合に設定される情報であり、SPBエラー情報としては、故障が検出された部品や故障の程度を示す情報等が挙げられる。なお、SP20によるSPB2の故障の検出は、既知の種々の手法により行なうことが可能であり、その詳細な説明は省略する。SPBアドレスは、SPB2のアドレス、例えばMAC(Media Access Control address)アドレスである。SPBアドレスの値は、例えばSBP2のMACアドレスの変更に応じて変更される。二重化ステータスは、二重化されたSP20がアクティブ(Active)かスタンバイ(Standby)かを示す情報である。DB初期化情報は、DBとして用いられるSDRAM2cが初期化されたか否かを示す情報である。
 チェックサムフィールド(第2領域)3Bは、リセット因子フィールド3Aのチェックサム32が設定される領域である。チェックサム(誤り検出情報)32は、リセット因子31の誤りを検出するための情報であり、リセット因子フィールド3Aの各情報(リセット因子31及びSP状態情報34)に基づいて算出される。
 システム情報フィールド(第3領域)3Cは、監視対象4を動作継続させるための情報であるシステム情報33が設定される領域である。システム情報(起動情報,制御情報)33は、SP20が監視対象4の制御を行なうための情報のバックアップであるとともに、各SP20の起動処理に係る起動情報である。例えば、各SP20は、起動処理においてシステム情報フィールド3Cに設定されたシステム情報33を取得することで、SP20自身がシステム情報33を保持していなくても、起動処理の完了後、運用状態において監視対象4に係る制御を行なうことができる。
 図6に示すように、システム情報33には、構成情報,故障部品情報,トレース情報,及びログ情報が含まれる。構成情報は、例えば情報処理装置1内に搭載されているデバイスの情報等、システムの構成を示す情報である。故障部品情報は、監視対象4である部品(デバイス)の故障情報であり、部品ごとに“正常”,“実装”,“未実装”,“故障”等の状態が設定される。トレース情報は、SP20(SPB2)が故障する直前までのSP20におけるトレースの情報である。ログ情報は、故障が検出された監視対象4の部品に関する故障の詳細情報である。
 次に、SP20について説明する。
 SP20-1,20-2は、それぞれ判定部21,起動処理部22,停止処理部23,SP情報設定部24,監視情報設定部25,及び記憶部26をそなえる。
 記憶部26は、監視対象4を動作継続させるための情報であるシステム情報33及びSP20の状態を示す情報であるSP状態情報34を保持するものであり、SP20におけるデータベース(DB)として用いられる。記憶部26が保持するシステム情報33は、SP20による監視対象4の制御に用いられる。なお、記憶部26が保持する各情報は、情報処理装置1の構成が変更されたり、SP20(SPB2)や監視対象4で故障が検出される都度、SP20により設定(更新)される。記憶部26としては、上述したSDRAM2c(図3参照)が挙げられる。
 SP情報設定部(第2設定部)24は、SP20の状態の変化を検出する都度、SP状態情報34の更新データを記憶部26に設定(更新)するとともに、記憶部26に設定したものと同じデータをEEPROM3のリセット因子フィールド3Aに設定(更新)する。
 監視情報設定部(第3設定部)25は、監視対象4を制御するための情報の変化を検出する都度、システム情報33の更新データを記憶部26に設定(更新)するとともに、記憶部26に設定したものと同じデータをEEPROM3に設定(更新)する。
 停止処理部(第1設定部)23は、指示(要求)に応じてSP20の上述した停止処理を実行するものである。また、停止処理部23は、SP20が停止処理に応じて停止される場合に、停止処理に係るリセット因子31をEEPROM3のリセット因子フィールド3Aに設定(保存)する。さらに、停止処理部23は、EEPROM3のリセット因子フィールド3Aに設定された情報に基づきチェックサム(第1のチェックサム,第1の誤り検出情報)32を取得(算出)する。そして、停止処理部23は、算出したチェックサム32をEEPROM3のチェックサムフィールド3Bに設定(保存)する。
 例えば、停止処理部23は、リセット因子フィールド3A全体を下位4バイト(Byte)ずつ加算することによりチェックサム32を算出する。なお、停止処理部23は、例えばリセット因子フィールド3A全体について、CRC(Cyclic Redundancy Check)やハッシュを求めることにより、チェックサム32を算出しても良い。
 判定部21は、起動したときに複数のSP20のうちの他のSP20が停止状態の場合、例えば全てのSP20が停止した状態で自身のSP20が立ち上がった場合、EEPROM3が保持するリセット因子31とチェックサム32とに基づいて、前回の停止の種別を判定する。
 なお、起動したときとは、例えばSPB2のMPU2aに電力が供給(電源オン)され、MPU2aが判定部21として動作可能になったときであって良い。
 具体的には、判定部21は、起動したときに他のSP20が停止状態の場合、EEPROM3のリセット因子フィールド3Aに設定された情報に基づきチェックサム(第2のチェックサム,第2の誤り検出情報)32を取得(算出)する。なお、判定部21によるチェックサム32の算出手法は、上述した停止処理部23による算出手法と同様である。そして、判定部21は、EEPROM3のリセット因子フィールド3Aに設定されたリセット因子31と、チェックサムフィールド3Bに設定された第1のチェックサム32と、起動したときに判定部21が取得した第2のチェックサム32と、に基づいて、前回の停止の種別を判定する。つまり、判断部21は、リセット因子31とともに、CRC等によるデータの整合性チェックによってリセット要因を判断する。
 例えば、判定部21は、リセット因子31が活性交換を示す“Replace Reset”の場合、又は、第1のチェックサム32と第2のチェックサム32とが異なる、つまりチェックサムエラーが検出された場合に、前回の停止の種別が、SP20の交換を伴う停止の種別であると判定する。また、判定部21は、第1及び第2のチェックサム32が一致する、つまりチェックサムエラーが未検出の場合には、リセット因子31が正しいと判断し、前回の停止の種別はリセット因子31が示す種別であると判定する。
 また、判定部21は、判定した前回の停止の種別を用いて、EEPROM3が保持するリセット因子31を更新する。なお、このとき、判定部21は、チェックサム32の算出及びチェックサムフィールド3Bへの設定は行なわない。
 上述のように、判定部21は、リセット因子31,第1のチェックサム32,並びにリセット因子31とSP状態情報34とから算出した第2のチェックサム32に基づいて、前回の停止の種別、つまり真のリセット要因を判定する。以下、リセット因子31,チェックサム32,及びSP情報設定部24は、前回の停止の種別を求めるための情報であるため、これらをまとめてリセット要因30という場合がある。
 なお、起動したときにSP情報設定部24がSP20の状態の変化を検出した場合、判定部21は、SP情報設定部24がSP状態情報34をリセット因子フィールド3Aに設定した後に、前回の停止の種別の判定を開始する。
 また、判定部21は、起動したときに他のSP20が運用状態の場合、判定を行なわず、起動処理部22に通知する。
 起動処理部(処理部)22は、判定部21による判定結果に応じて、EEPROM3が保持するシステム情報33を用いてSP20の上述した起動処理を行なう。
 例えば、起動処理部22は、判定部21による判定結果がSP20の交換(活性交換)を伴う停止の種別である場合に、SPB2を初期化するとともに、EEPROM3からシステム情報33を取得してSP20の記憶部26に設定する。つまり、起動処理部22は、判定結果が活性交換を示す種別である場合、SPB2活性交換前にEEPROM3に保存されたシステム情報33を引き継ぐのである。
 また、起動処理部22は、判定結果が監視対象4全体の電源オフを示す種別である場合、つまり監視対象4の電源オフ後1回目の電源オンにより起動したとき、各種制御を行なうため、監視対象4(情報処理装置1)の構成(各監視対象部品)の実装状態を認識する。また、起動処理部22は、実装状態であると認識した全ての監視対象部品、例えばSPB2,SENB5,SB6(CPU6a,DIMM6b等),FAN72,PSU82等に対して初期化を行なう。さらに、起動処理部22は、初期化した各部品に対して、処理を継続するための条件を満たしているかを判定する。
 そして、起動処理部22は、監視対象4から取得して各SP20の記憶部26に保持されたシステム情報33、例えば各部品のステータスやアラーム情報等を、EEPROM3のシステム情報フィールド3Cに設定する。なお、起動処理部22は、例えば故障部品がない場合には、システム情報33のうちのログ情報等は送信しない。
 さらに、起動処理部22は、判定結果がSP20の再起動による電源オフを示す種別である場合に、SPB2を初期化する。この場合、システム情報33は、SP20の記憶部26に保持されているため、SP20は、起動処理完了後に、記憶部26に保持されたシステム情報33を用いて監視対象4の制御を実行することができる。なお、SP20の再起動による電源オフでは、記憶部26であるSDRAM2c等に供給される電力が止まるわけではないため、システム情報33やSP状態情報34を記憶部26に維持しておくことができる。
 なお、起動処理部22によるハードウェアの初期化の処理では、各部品のチップやレジスタ等の設定が行なわれる。
 また、起動処理部22は、判定結果が“Clear Reset”,“Preserved Reset”,及び“Replace Reset”のいずれにも該当しない場合、活性交換後のSPB2又はSENB5(EEPROM3)が故障している可能性が高いと判断する。この場合、SP20は、図示しないモニタ等の出力装置、或いはシリアル接続又はLAN経由で接続された他の情報処理装置に対して、故障が検出されたことを通知する。
 なお、起動処理部22は、判定部21から他のSP20が運用状態であると通知された場合、又は、起動処理において他のSP20が運用状態の場合、SPB2を初期化して、システム情報33を運用状態のSP20からLAN経由で取得する。
   〔1-2-3〕チェックサムについて
 ここで、判定部21による判定において、第1のチェックサム32と第2のチェックサム32とがどのような場合に異なるかを、図7及び図8を参照して説明する。図7は、本実施形態に係る保持部3がそなえるリセット因子フィールド3A及びチェックサムフィールド3B内の、SP20が最後に正常な停止処理を行なったときのデータの一例を示す図であり、図8は、リセット因子フィールド3A及びチェックサムフィールド3B内の、SP20が活性交換後に起動したときのデータの一例を示す図である。
 上述の如く、SP20が、正常に停止処理が行なわれずに異常終了すると、前回の停止の種別はEEPROM3のリセット因子31に設定されない。そこで、判定部21は、EEPROM3に最後に設定されたチェックサム(第1のチェックサム)32と、SP20が起動したときに取得したチェックサム(第2のチェックサム)32とにより、チェックサムエラーの有無を判断することで、リセット因子31が正しいか否かを判断する。
 図7に示すように、SP20が最後に正常な停止処理を行なったときの第1のチェックサム32は、Aで示される変更前の値に基づき取得され、チェックサムフィールド3Bに設定されている。一方、図8に示すように、SP20が活性交換後に起動したときの第2のチェックサム32は、A′で示される変更後の値に基づき取得されている。従って、判定部21は、図7及び図8に示すように、第1のチェックサム32と第2のチェックサム32とに基づきチェックサムエラーを検出することができる。
 例えば、A,A′がSPB番号である場合について説明する。SP20において故障が発生して異常終了し、活性交換によりSPB2が搭載されたスロットが変更した場合、SP情報設定部24は、起動処理において活性交換に係るSPB2のSPB番号の変化を検出する。そして、SP情報設定部24は、EEPROM3のSP状態情報34に対して変更後のSPB番号を設定する。つまり、第1のチェックサム32は、変更前のSPB番号に基づいて設定される一方、第2のチェックサム32は、変更後のSPB番号に基づいて取得される。従って、判定部21は、チェックサムエラーを検出することができる。
 また、例えば、A,A′がSPBステータスである場合について説明する。SP情報設定部24は、SPBステータスについて、起動処理の各段階が完了するごとに対応するビットの値を例えば“1”に変更することで、運用状態のときに全てのビットを“1”にする。一方、SPB2の停止処理が行われる場合、SP状態情報34は、各段階の停止処理が完了するごとに対応するビットの値を例えば“0”に変更することで、SP20の停止処理が完了したときに全てのビットを“0”にする。つまり、第1のチェックサム32は、全てのビットが“0”のSPBステータスに基づいて設定される。一方、SP20の運用状態で故障が発生して異常終了した場合、SPBステータスは全てのビットが“1”のままであるため、第2のチェックサム32は、全てのビットが“1”のSPBステータスに基づいて取得されることになる。従って、判定部21は、チェックサムエラーを検出することができるのである。
 さらに、例えば、A,A′がSPBエラー情報である場合について説明する。SP20において故障が発生して異常終了する際に、EEPROM3にはSPBエラー情報としてSPに発生した故障の情報が設定されるが、第1のチェックサム32は、その前に正常に停止処理が行なわれたときのSPBエラー情報に基づいて設定される。一方、活性交換によりSP20が起動したとき、SPB2の初期化がまだ行なわれていないため、記憶部26内のSPBエラー情報は更新されておらず、第2のチェックサム32は、異常終了した際のSPBエラー情報に基づいて取得される。従って、判定部21は、チェックサムエラーを検出することができるのである。
  〔1-3〕監視装置の動作例
 次に、上述の如く構成された本実施形態に係る監視装置10(図3及び図4参照)の動作例を、図9~図18を参照して説明する。
   〔1-3-1〕停止処理
 はじめに、停止処理の動作例を図9~図11を参照して説明する。図9~図11は、本実施形態に係る停止処理部23によるSP停止処理の手順の一例を示すフローチャートであり、図9はSP活性交換,図10は監視対象4の電源オフ,図11はSP20の再起動における停止処理である。
 図9に示すように、SP20が、使用者等から入力装置等を介してSP20の交換作業開始要求を受信すると(ステップA1)、停止処理部23により、リセット因子に“Replace Reset”が設定される(ステップA2)。そして、停止処理部23により、EEPROM3にリセット要因が保存され(ステップA3)、SPB2の交換が可能な状態であることが出力装置等を介して使用者等に通知されて(ステップA4)、SP20の停止処理が終了する。
 また、図10に示すように、SP20が、使用者等から入力装置等を介して監視対象4の電源オフに伴うSP20の停止処理要求を受信すると(ステップB1)、停止処理部23により、リセット因子にデフォルト値“Clear Reset”が設定される(ステップB2)。そして、停止処理部23により、EEPROM3にリセット要因が保存され(ステップB3)、SP20が停止(電源オフ)されて(ステップB4)、監視対象4の電源オフに伴うSP20の停止処理が終了する。
 さらに、図11に示すように、SP20が、使用者等から入力装置等を介してSP20の再起動処理要求を受信すると(ステップC1)、停止処理部23により、リセット因子に“Preserved Reset”が設定される(ステップC2)。そして、停止処理部23により、EEPROM3にリセット要因が保存され(ステップC3)、SP20が再起動されて(ステップC4)、SP20の停止処理が終了する。
   〔1-3-2〕SP起動後の処理
 次に、SP20の起動後の動作例を図12~図16を参照して説明する。図12は、本実施形態に係る監視装置10によるSP起動後の処理の手順の一例を示すフローチャートである。また、図13~図16は、それぞれ、SP20が活性交換された場合,監視対象4の電源が入った場合,SP20が再起動した場合,SENB5又は交換したSP20が故障した場合におけるSP起動後の処理の手順の一例を示すシーケンス図である。
 なお、以下の説明において、ステップの符号がAで始まるものは図13,Bで始まるものは図14,Cで始まるものは図15,Dで始まるものは図16に示すステップである。
 図12に示すように、SP20が起動すると(ステップS1;ステップA12,B11,C11,D2)、判定部21により、他系のSP20が故障又は停止しているか否かが判定される(ステップS2;ステップA13,B12,C12,D3)。なお、ステップS1におけるSP20の起動は、例えばステップA11,D1においてSP20の故障が発生した場合、故障したSP20の活性交換後の起動となる。
 ステップS2において、他系のSPが停止又は故障している場合(ステップS2のYesルート)、判定部21により、リセット要因30が採取される(ステップS3;ステップA14,B13,C13,D4)。そして、判定部21により、取得したリセット因子31が“Replace Reset”であるか、又はチェックサムエラーが検出されたか否かが判定される(ステップS4)。
 リセット因子31が“Replace Reset”である、又はチェックサムエラーが検出された場合(ステップS4のYesルート;ステップA15)、判定部21により、前回の停止の種別が“Replace Reset”であると判定される(ステップA16)。そして、判定部21により、EEPROM3のリセット因子31に、前回の停止の種別(リセット要因)、つまり“Replace Reset”が上書きされる(ステップS5;ステップA17)。また、起動処理部22により、SPB2のハードウェアの初期化が行なわれ(ステップS6;ステップA18)、EEPROM3からシステム情報33が採取されて(ステップS7;ステップA19)、SP20の起動が完了する(ステップS8;ステップA20)。
 一方、ステップS4において、リセット因子31が“Replace Reset”でなく、チェックサムエラーも未検出の場合(ステップS4のNoルート;ステップB14,C14,D5)、判定部21により、リセット因子31がデフォルト値“Clear Reset”であるか否かが判定される(ステップS9)。リセット因子31が“Clear Reset”である場合(ステップS9のYesルート;ステップB15)、判定部21により、前回の停止の種別が“Clear Reset”であると判定され(ステップB16)、EEPROM3のリセット因子31に、“Clear Reset”が上書きされる(ステップS10;ステップB17)。そして、起動処理部22により、監視対象4の構成が認識されて(ステップS11;ステップB18)、全ての監視対象4のハードウェアの初期化が行なわれる(ステップS12;ステップB19)。また、起動処理部22により、監視対象4が処理を継続する条件を満たしているか否かが判定され(ステップS13;ステップB20)、採取したシステム情報33がEEPROM3に保存されて(ステップS14;ステップB21)、SP20の起動が完了する(ステップS15;ステップB22)。
 また、ステップS9において、リセット因子31が“Clear Reset”でない場合(ステップS9のNoルート;ステップC15,D6)、判定部21により、リセット因子31が“Preserved Reset”であるか否かが判定される(ステップS16)。リセット因子31が“Preserved Reset”である場合(ステップS16のYesルート;ステップC16)、判定部21により、前回の停止の種別が“Preserved Reset”であると判定され(ステップC17)、EEPROM3のリセット因子31に、“Preserved Reset”が上書きされる(ステップS17;ステップC18)。そして、起動処理部22により、SPB2のハードウェアの初期化が行なわれ(ステップS18;ステップC19)、SP20の起動が完了する(ステップS19;ステップC20)。
 さらに、ステップS16において、リセット因子31が“Preserved Reset”でない場合(ステップS16のNoルート;ステップD7)、起動処理部22により、SENB5(EEPROM3)又は活性交換後の交換部材であるSPB2が故障している可能性が高いと判断される。そして、起動処理部22により、使用者等にハードウェアの交換が要求され(ステップS20;ステップD8)、処理が終了する。
 また、ステップS2において、他系のSP20が故障又は停止していない場合(ステップS2のNoルート)、起動処理部22により、他系のSP20とシステム情報33等のデータが同期される(ステップS21)。また、起動処理部22により、SPB2のハードウェアの初期化が行なわれ(ステップS22)、SP20の起動が完了する(ステップS23)。
   〔1-3-3〕運用状態のSPに故障が発生した場合の処理
 次に、運用状態のSP20に故障が発生した場合の動作例を図12,図17,及び図18を参照して説明する。図17及び図18は、それぞれ、本実施形態に係る運用状態のSPに故障が発生した場合の監視装置10による処理の手順の一例を示すシーケンス図,フローチャートである。なお、以下の説明において、ステップの符号がSで始まるものは図12,Eで始まるものは図18に示すステップである。
 図17に示すように、SP20-1(SP#0)がアクティブ、SP20-2(SP#1)がスタンバイの状態である監視装置10において、SP20-1が起動すると、SP20-1の判定部21により、EEPROM3からI2Cバス1b経由でリセット要因30が取得される(ステップT1;ステップS3)。
 そして、SP20-1の判定部21及び起動処理部22により、SP20-1の起動処理が実行される(ステップT2)。なお、図17に示す例では、ステップT2において、判定部21によりリセット要因が“Clear Reset”と判定され、監視対象4が電源オンになった場合の起動処理(ステップS4,S9~S13,E31~E34)が実行される。
 また、アクティブ側のSP20-1でDB(SDRAM2c)への書き込み処理が発生する度に、SP20間のSP二重化LAN/シリアル経由でスタンバイ側のSP20-2のDBと同期処理が行なわれる(ステップT3;ステップE35)。次いで、各SP20内の監視情報設定部25により、システム情報33がI2Cバス1b経由でEEPROM3に保存される(ステップT4;ステップS14,E36)。
 ここで、アクティブ側のSP20-1で故障が発生し(ステップT5)、SP20-1がオフライン(停止)になったとする。スタンバイ側SP20-2は、定期的にSP二重化LAN/シリアル経由でアクティブ側のSP20-1の生存確認を行なっており、生存が確認できない際には、二重化の切り替えを行ない、自身がアクティブ側のSP20に切り替わる処理を行なう(ステップT6;ステップE37,E38)。
 なお、SP20がオフラインになった場合、各SB6の各ノードに対して割り込みによってオフラインが通知され、各ノードからのSP20へのアクセスは抑止される。
 ここで、アクティブ側になったSP20-2で故障が発生すると(ステップT7)、SP20-2がオフラインになる。一方、SP20-1ではSPB2-1の活性交換が行なわれ(ステップT8)、SP20-1が起動すると、EEPROM3からI2Cバス1b経由でリセット要因30が取得される(ステップT9;ステップS3)。
 そして、SP20-1の判定部21及び起動処理部22により、SP20-1の起動処理が実行される(ステップT10)。なお、図17に示す例では、ステップT10において、判定部21によりリセット要因が“Replace Reset”と判定され、SPB2-1が活性交換された場合の起動処理(ステップS4~S6,E39,E40)が実行される。
 また、SP20-1の起動処理部22により、システム情報33がEEPROM3から採取される(ステップT11;ステップS7,E41)。
 さらに、SP20-2ではSPB2-2の活性交換が行なわれ(ステップT12)、起動したSP20-2により、SP20の二重化同期が行なわれて、SP20-1からシステム情報33が採取される(ステップT13;ステップS22)。そして、SP20-2の起動処理部22により、SPB2-2のハードウェアの初期化が行なわれ(ステップT14;ステップS23)、処理が終了する。
  〔1-4〕まとめ
 上述したように、本実施形態に係る監視装置10(図3及び図4参照)によれば、上述した図1に係る監視装置10と同様の効果を奏することができる。
 ここで、本実施形態に係る監視装置10による、前回の停止の種別に応じた監視対象4の動作継続の有無について、図19を参照して説明する。図19は、本実施形態に係る監視装置10における前回の停止の種別に応じた状態マトリクスを示す図である。
 図19に示すように、停止の種別(1)~(4)は、それぞれSP20が単体(一重化)の状態であり、スタンバイの状態のSP20は存在しないため、全て“-”としている。また、停止の種別(5)は二重化の状態であり、スタンバイの状態のSP20は有“○”としている。
 停止の種別(1),(3),(5)は、監視対象4の停止が発生しないため、監視対象4の動作継続を有効“○”としている。また、停止の種別(4)の場合は、EEPROM3への書き込みさえできない状況であるため、SP20を不用意に立ち上げることなくバックアップシステムへの切り替えを使用者等に指示した後に停止させ、SENB5と交換部材であるSPB2の交換を行なう。
 なお、停止の種別(1)は、SP20が一重化の状態でSP20の故障又は停止を判定してSPB2の活性交換を行なう場合であり、停止の種別(2)は、SP20が一重化の状態で監視対象4の電源オンを判定してSP20が起動する場合である。また、停止の種別(3)は、SP20が一重化の状態でSP20がSP自身のみをリブート(SPリブート)する場合であり、停止の種別(4)は、SP20が一重化の状態でSENB5又は交換部材のSPB2が故障している場合である。さらに、停止の種別(5)は、SP20が二重化の状態でSP20の故障又は停止を判定してSPB2の活性交換を行なう場合である。
 次に、各SPがEEPROM3を用いず、判定部21によるリセット要因の判定を行なわない情報処理装置において、運用状態のSPに故障が発生した場合のSPによる処理の手順の一例を、図20及び図21を用いて説明する。
 図20及び図21は、それぞれ、運用状態のSPに故障が発生した場合のSPによる処理の手順の一例を示すシーケンス図,フローチャートである。なお、以下の説明において、ステップの符号がSで始まるものは図21に示すステップである。
 図20に示すように、SP#0がアクティブ、SP#1がスタンバイの状態であり、SP#0が起動すると、SP#0による起動処理が実行される(ステップT101;ステップS101~S103)。なお、図20に示す例では、ステップT101において、監視対象部品の構成認識(ステップS101),ハードウェア(SPB/SB/ファン/PSU/SENB)の初期化,及び各部品の構成判定(ステップS103)が行なわれる。
 また、アクティブ側のSP#0でDBへの書き込み処理が発生する度に、SP間でスタンバイ側のSP#1のDBと同期処理が行なわれる(ステップT102;ステップS104)。
 ここで、アクティブ側のSP#0で故障が発生し(ステップT103)、SP#0がオフライン(停止)になったとする。スタンバイ側SP#1は、定期的にアクティブ側のSP#0の生存確認を行なっており、生存が確認できない際には、二重化の切り替えを行ない、自身がアクティブ側のSPに切り替わる処理を行なう(ステップT104;ステップS105,S106)。
 また、アクティブ側になったSP#1で故障が発生すると(ステップT105)、SP#1がオフラインになる。一方、SP#0ではSPBの活性交換が行なわれ(ステップT106)、SP#0が起動すると、SP#0による起動処理が実行される(ステップT107)。なお、図20に示す例では、ステップT107において、ハードウェア(SPB/SB/ファン/PSU/SENB)の初期化が行なわれる。
 このように、図20及び図21に示す例では、監視対象4を制御するための情報をSP#0自身でのみ保持しているため、図20のステップT103において故障停止した場合に、監視対象の動作継続ができない。また、SP#0の活性交換後に、前回の停止の種別を判断することができず、ステップT107において再度監視対象全体のハードウェアの初期化が行なわれており、監視対象に対して与える影響が大きい。
 これに対して、本実施形態に係る監視装置10によれば、判定部21による判定結果に応じて、起動処理部22により監視対象4の動作継続に用いる情報をEEPROM3から採取し、引き継ぐ処理を行なうことができる。従って、二重化したSP20が同時に2つとも故障した場合であっても、監視対象4を動作継続したままSP20の活性交換を行なうことができる。
 なお、SP20を2つ同時に活性交換した後のSP20の起動において、SP20がリセット要因を監視対象4の電源オンによる停止の種別であると誤認識すると、SP20の制御対象4の全てのハードウェア(SPB2/SB6/ファン72/PSU82/SENB5)が再度初期化されてしまう(図20のステップT107参照)。その結果、SB20上で動作中のノードが電源断され、さらにPOL6hや温度センサ6g等の異常検出機能も動作しなくなり、監視対象4に重大な影響を与えてしまう。本実施形態に係る監視装置10によれば、このような監視対象4に重大な影響を与えてしまう事象を回避するために、判定部によりリセット因子31とチェックサム32とに基づいて前回の停止の種別を確実に判定することができる。従って、SP20は、活性交換後の起動でEEPROM3からシステム情報33を確実に引き継ぐことができる。
 さらに、本実施形態に係る監視装置10によれば、判定部21により、起動したSP20の前回の停止の種別の判定後に、EEPROM3に対してリセット因子31が書き換えられる。これにより、不意なSP20の故障が発生した際には、書き換えたリセット因子31の値によって、チェックサム32の値が食い違うために、SP20の故障を検知することができる。
 〔2〕その他
 以上、本発明の好ましい実施形態について詳述したが、本発明は、かかる特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
 例えば、上述した一実施形態に係る監視装置10は、二重化した2つの監視部20をそなえるものとして説明したが、これに限定されるものではなく、多重化した複数の監視部20をそなえても良い。
 また、SP情報設定部24及び監視情報設定部25は、SP状態情報34及びシステム情報33の更新の都度、更新データをEEPROM3に保存するものとして説明したが、これに限定されるものではない。例えば、SP情報設定部24及び監視情報設定部25は、運用状態における所定のタイミングで、運用状態のSP20が記憶部26に保持するSP状態情報34及びシステム情報33をEEPROM3に設定しても良い。ここで、所定のタイミングとは、例えば一定時間ごとであっても良く、所定の指示(要求)があったとき等が挙げられる。
 さらに、リセット因子31には“Clear Reset”,“Preserved Reset”,“Replace Reset”が含まれるものとして説明したが、これに限定されるものではなく、監視装置10や監視対象4の構成,機能等に応じて他の停止の種別が含まれても良い。この場合、起動処理部22及び停止処理部23により、他の停止の種別に応じた起動/停止処理が行なわれても良い。
 また、例えば判定部21は、必要に応じて部分的にリセット因子31を用いた前回の停止の種別の判定を省略しても良い。
 さらに、上述した判定部21,起動処理部22,停止処理部23,SP情報設定部24,及び監視情報設定部25としての機能を任意の組み合わせで統合又は分散しても良い。
 なお、監視部20は、上述の如く、判定部21及び起動処理部22としての機能をそなえ、さらに、停止処理部23,SP情報設定部24,及び監視情報設定部25としての機能もそなえても良い。この監視部20としての機能を実現するためのプログラム(監視プログラム)は、例えばフレキシブルディスク,CD(CD-ROM,CD-R,CD-RW等),DVD(DVD-ROM,DVD-RAM,DVD-R,DVD+R,DVD-RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供されても良い。そして、コンピュータは例えば読取装置によりその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。また、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしても良い。
 監視部20としての機能を実現する際には、内部記憶装置(本実施形態ではRAM2b,SDRAM2c,FMEM2g,NVRAM2h,又は図示しないROM)に格納されたプログラムがコンピュータのマイクロプロセッサ(本実施形態ではMPU2a)によって実行される。このとき、記録媒体に記録されたプログラムを例えば読取装置によりコンピュータが読み取って実行するようにしても良い。
 なお、本実施形態において、コンピュータとは、ハードウェアとオペレーティングシステムとを含む概念であり、オペレーティングシステムの制御の下で動作するハードウェアを意味している。また、オペレーティングシステムが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえており、本実施形態においては、監視装置10(SPB2)がコンピュータとしての機能を有しているのである。
 1  情報処理装置
 1a  制御バス
 1b  I2Cバス
 2,2-1,2-2  サービスプロセッサボード
 2a  MPU
 2b  RAM
 2c  SDRAM
 2d  SPコントローラ
 2e,6d  ROM
 2f  I2Cコントローラ
 2g,6f  フラッシュメモリ
 2h  NVRAM
 2i  シリアルポート
 2j  LANアダプタ
 2k  LANポート
 20,20-1,20-2  サービスプロセッサ(監視部)
 21  判定部
 22  起動処理部(処理部)
 23  停止処理部(第1設定部)
 24  SP情報設定部(第2設定部)
 25  監視情報設定部(第3設定部)
 26  記憶部
 3  EEPROM(保持部)
 3A  リセット因子フィールド(第1領域)
 3B  チェックサムフィールド(第2領域)
 3C  システム情報フィールド
 30  リセット要因
 31  リセット因子(種別情報)
 32  チェックサム(誤り検出情報,第1の誤り検出情報,第2の誤り検出情報)
 33  システム情報(起動情報,制御情報)
 34  SP状態情報(状態情報)
 4  監視対象
 5  センサボード
 51,6g  温度センサ
 6,6-1~6-n  システムボード
 6a  CPU
 6b  DIMM
 6c  SBコントローラ
 6e  SRAM
 6h  POL
 71  ファンバックパネル
 72  ファン
 81  PSUバックパネル
 82  PSU 

Claims (20)

  1.  監視対象の制御を行なう複数の監視部を備えた監視装置であって、
     前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部を備え、
     前記複数の監視部の各々は、
     起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、
     前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、
     を備えたことを特徴とする、監視装置。
  2.  前記複数の監視部の各々は、
     前記停止処理に応じて停止される場合に、前記停止処理に係る種別情報を前記保持部の第1領域に設定するとともに、前記保持部の前記第1領域に設定された情報に基づき取得した第1の誤り検出情報を前記保持部の第2領域に設定する第1設定部をさらに備え、
     前記判定部は、起動したときに前記他の監視部が停止状態の場合、前記保持部の前記第1領域に設定された前記種別情報と、前記保持部の前記第2領域に設定された前記第1の誤り検出情報と、前記保持部の前記第1領域に設定された情報に基づき起動したときに取得した第2の誤り検出情報と、に基づいて、前記前回の停止の種別を判定することを特徴とする、請求項1記載の監視装置。
  3.  前記複数の監視部の各々は、
     状態の変化に応じて自身の状態情報を前記保持部の前記第1領域に設定する第2設定部をさらに備え、
     前記第2の誤り検出情報は、前記第1設定部により設定された前記種別情報と、前記第2設定部により設定された前記状態情報と、を含む前記第1領域に設定された情報に基づき取得されることを特徴とする、請求項2記載の監視装置。
  4.  前記状態情報は、前記第2設定部を備える監視部に係る、識別情報,起動処理又は停止処理の進捗情報,及びエラー情報のうちの少なくとも1つであることを特徴とする、請求項3記載の監視装置。
  5.  前記判定部は、起動したときに前記他の監視部が停止状態の場合であって、前記種別情報が活性交換を示す情報の場合又は前記第1の誤り検出情報と前記第2の誤り検出情報とが異なる場合に、前記前回の停止の種別が、監視部の交換を伴う停止の種別であると判定することを特徴とする、請求項3記載の監視装置。
  6.  前記判定部は、判定した前記前回の停止の種別を用いて、前記保持部が保持する前記種別情報を更新することを特徴とする、請求項1~5のいずれか1項記載の監視装置。
  7.  前記起動情報は、前記監視対象の制御を行なうための制御情報であり、
     前記複数の監視部の各々は、
     前記制御情報を保持する記憶部をさらに備え、
     前記処理部は、
     前記判定部による判定結果が前記監視部の交換を伴う停止の種別である場合に、前記保持部から前記制御情報を取得して前記記憶部に設定することを特徴とする、請求項5記載の監視装置。
  8.  前記複数の監視部の各々は、
     前記制御情報の変化に応じて、前記運用状態の監視部が前記記憶部に保持する前記制御情報を前記保持部に設定する第3設定部をさらに備えることを特徴とする、請求項7記載の監視装置。
  9.  前記複数の監視部の各々は、互いに通信可能に接続され、
     前記処理部は、前記起動処理において前記他の監視部が運用状態の場合に、前記制御情報を前記他の監視部から取得して、前記起動処理を行なうことを特徴とする、請求項7記載の監視装置。
  10.  前記保持部は、前記複数の監視部の各々に接続された不揮発性メモリであることを特徴とする、請求項1~9のいずれか1項記載の監視装置。
  11.  監視対象と、
     前記監視対象の制御を行なう複数の監視部と、
     前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部と、を備え、
     前記複数の監視部の各々は、
     起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、
     前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、
     を備えたことを特徴とする、情報処理装置。
  12.  監視対象の制御を複数の監視部により行なう監視方法であって、
     起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、
     前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なう、
     ことを特徴とする、監視方法。
  13.  前記停止処理に応じて停止される場合に、前記停止処理に係る種別情報を前記保持部の第1領域に設定するとともに、前記保持部の前記第1領域に設定された情報に基づき取得した第1の誤り検出情報を前記保持部の第2領域に設定し、
     前記判定する処理において、起動したときに前記他の監視部が停止状態の場合、前記保持部の前記第1領域に設定された前記種別情報と、前記保持部の前記第2領域に設定された前記第1の誤り検出情報と、前記保持部の前記第1領域に設定された情報に基づき起動したときに取得した第2の誤り検出情報と、に基づいて、前記前回の停止の種別を判定することを特徴とする、請求項12記載の監視方法。
  14.  状態の変化に応じて前記起動した監視部の状態情報を前記保持部の前記第1領域に設定し、
     前記第2の誤り検出情報は、前記種別情報と、前記状態情報と、を含む前記第1領域に設定された情報に基づき取得されることを特徴とする、請求項13記載の監視方法。
  15.  前記状態情報は、前記状態情報を設定した監視部に係る、識別情報,起動処理又は停止処理の進捗情報,及びエラー情報のうちの少なくとも1つであることを特徴とする、請求項14記載の監視方法。
  16.  前記判定する処理において、起動したときに前記他の監視部が停止状態の場合であって、前記種別情報が活性交換を示す情報の場合又は前記第1の誤り検出情報と前記第2の誤り検出情報とが異なる場合に、前記前回の停止の種別が、監視部の交換を伴う停止の種別であると判定することを特徴とする、請求項14記載の監視方法。
  17.  前記判定する処理において、判定した前記前回の停止の種別を用いて、前記保持部が保持する前記種別情報を更新することを特徴とする、請求項12~16のいずれか1項記載の監視方法。
  18.  前記起動情報は、前記監視対象の制御を行なうための制御情報であり、
     前記起動処理を行なう処理において、前記判定する処理による判定結果が前記監視部の交換を伴う停止の種別である場合に、前記保持部から前記制御情報を取得して前記監視部が備える前記制御情報を保持する記憶部に設定することを特徴とする、請求項16記載の監視方法。
  19.  前記制御情報の変化に応じて、前記運用状態の監視部が前記記憶部に保持する前記制御情報を前記保持部に設定することを特徴とする、請求項18記載の監視方法。
  20.  監視対象の制御を行なう処理を複数の監視部の一つを成すコンピュータに実行させる監視プログラムであって、
     起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、
     前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なう、
     処理を前記コンピュータに実行させることを特徴とする、監視プログラム。
PCT/JP2012/056541 2012-03-14 2012-03-14 監視装置,情報処理装置,監視方法,および監視プログラム WO2013136462A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/056541 WO2013136462A1 (ja) 2012-03-14 2012-03-14 監視装置,情報処理装置,監視方法,および監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/056541 WO2013136462A1 (ja) 2012-03-14 2012-03-14 監視装置,情報処理装置,監視方法,および監視プログラム

Publications (1)

Publication Number Publication Date
WO2013136462A1 true WO2013136462A1 (ja) 2013-09-19

Family

ID=49160430

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/056541 WO2013136462A1 (ja) 2012-03-14 2012-03-14 監視装置,情報処理装置,監視方法,および監視プログラム

Country Status (1)

Country Link
WO (1) WO2013136462A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020144809A (ja) * 2019-03-08 2020-09-10 ラトナ株式会社 コンテナオーケストレーション技術を利用したセンサ情報処理システム、センサ情報処理システムの制御方法、センサ情報処理システムの制御に用いるコンピュータプログラム、及び、その記録媒体。

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260870A (ja) * 1997-03-19 1998-09-29 Nec Corp システム起動/終了制御装置
WO2007088575A1 (ja) * 2006-01-31 2007-08-09 Fujitsu Limited システム監視装置の制御方法、プログラム及びコンピュータシステム
JP2008090433A (ja) * 2006-09-29 2008-04-17 Toshiba Corp メモリコントローラ、メモリシステム及びデータ転送方法
JP2008225929A (ja) * 2007-03-13 2008-09-25 Toshiba Corp 情報処理装置
JP2009211279A (ja) * 2008-03-03 2009-09-17 Hitachi High-Tech Control Systems Corp 操業データ管理サーバシステム
JP2011048681A (ja) * 2009-08-27 2011-03-10 Toshiba Corp プロセッサ
JP2012014243A (ja) * 2010-06-29 2012-01-19 Fujitsu Ltd 情報端末、情報処理方法及びコンピュータプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260870A (ja) * 1997-03-19 1998-09-29 Nec Corp システム起動/終了制御装置
WO2007088575A1 (ja) * 2006-01-31 2007-08-09 Fujitsu Limited システム監視装置の制御方法、プログラム及びコンピュータシステム
JP2008090433A (ja) * 2006-09-29 2008-04-17 Toshiba Corp メモリコントローラ、メモリシステム及びデータ転送方法
JP2008225929A (ja) * 2007-03-13 2008-09-25 Toshiba Corp 情報処理装置
JP2009211279A (ja) * 2008-03-03 2009-09-17 Hitachi High-Tech Control Systems Corp 操業データ管理サーバシステム
JP2011048681A (ja) * 2009-08-27 2011-03-10 Toshiba Corp プロセッサ
JP2012014243A (ja) * 2010-06-29 2012-01-19 Fujitsu Ltd 情報端末、情報処理方法及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020144809A (ja) * 2019-03-08 2020-09-10 ラトナ株式会社 コンテナオーケストレーション技術を利用したセンサ情報処理システム、センサ情報処理システムの制御方法、センサ情報処理システムの制御に用いるコンピュータプログラム、及び、その記録媒体。
WO2020184362A1 (ja) * 2019-03-08 2020-09-17 ラトナ株式会社 コンテナオーケストレーション技術を利用したセンサ情報処理システム
US11303852B2 (en) 2019-03-08 2022-04-12 Latona, Inc. Sensor information processing system using container orchestration technique

Similar Documents

Publication Publication Date Title
JP4568764B2 (ja) システム監視装置の制御方法、プログラム及びコンピュータシステム
US9779016B1 (en) Computing system with backup and recovery mechanism and method of operation thereof
US9606889B1 (en) Systems and methods for detecting memory faults in real-time via SMI tests
TW201715395A (zh) 基板管理控制器的回復方法及基板管理控制器
US10691565B2 (en) Storage control device and storage control method
JP2002328815A (ja) 冗長コントローラシステムからコントローラをオンライン除去する方法
TW201520895A (zh) Bios自動恢復系統及方法
JP5183542B2 (ja) 計算機システム及び設定管理方法
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
US20140025989A1 (en) Information processing system and processing method for information processing system
WO2015045122A1 (ja) ストレージ装置、ストレージシステム、およびデータ管理方法
JP6124644B2 (ja) 情報処理装置および情報処理システム
WO2013136462A1 (ja) 監視装置,情報処理装置,監視方法,および監視プログラム
JP5909948B2 (ja) 情報処理装置および情報処理装置の試験方法
JP2011076344A (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
JP4483876B2 (ja) 二重化システムにおける記憶装置の制御方法
TW202340963A (zh) 串列連接的非揮發性記憶體
JP2007087088A (ja) 情報処理装置、情報処理復旧方法及び情報処理復旧プログラム
US11742054B2 (en) Memory power fault resilience in information handling systems
JPWO2013136462A1 (ja) 監視装置,情報処理装置,監視方法,および監視プログラム
JP4819116B2 (ja) 制御装置、ストレージ装置および制御方法
JP2014010712A (ja) 電子装置、電子装置制御方法及び電子装置制御プログラム
JP2017041110A (ja) マルチコンピュータシステム,管理装置および管理プログラム
JP5335150B2 (ja) 計算機装置及びプログラム
JP4830698B2 (ja) 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12870985

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014504551

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12870985

Country of ref document: EP

Kind code of ref document: A1