WO2009147716A1 - データ処理システム、データ処理方法およびデータ処理プログラム - Google Patents

データ処理システム、データ処理方法およびデータ処理プログラム Download PDF

Info

Publication number
WO2009147716A1
WO2009147716A1 PCT/JP2008/060166 JP2008060166W WO2009147716A1 WO 2009147716 A1 WO2009147716 A1 WO 2009147716A1 JP 2008060166 W JP2008060166 W JP 2008060166W WO 2009147716 A1 WO2009147716 A1 WO 2009147716A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing device
data processing
control unit
unit
partition
Prior art date
Application number
PCT/JP2008/060166
Other languages
English (en)
French (fr)
Inventor
祐美 福村
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2010515686A priority Critical patent/JP5212471B2/ja
Priority to EP08764979.4A priority patent/EP2302524B1/en
Priority to PCT/JP2008/060166 priority patent/WO2009147716A1/ja
Publication of WO2009147716A1 publication Critical patent/WO2009147716A1/ja
Priority to US12/926,669 priority patent/US8806276B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers

Definitions

  • the present invention relates to a data processing system, a data processing method, and a data processing program.
  • the configuration of the computer system will be specifically described.
  • the computer system has a plurality of data transfer circuits called crossbar units (XB), and a plurality of system boards are connected to each crossbar unit.
  • XB data transfer circuits
  • system boards are connected to each crossbar unit.
  • the computer system manages the first control unit and the second control unit of each crossbar unit, and controls communication between the system boards belonging to the same partition (for example, SCF ( System Control Facility) and MMB (Management Board).
  • SCF System Control Facility
  • MMB Management Board
  • the first control unit corresponds to each system board connected to the crossbar unit, and between each system board under control among the system boards connected to the crossbar unit and the crossbar unit. Control communication and execute priority control of communication between system boards.
  • the second control unit corresponds to a crossbar unit different from the crossbar unit having the second control unit, and communicates between the crossbar unit having the second control unit and another crossbar unit. To control the priority of communication between the system boards.
  • the system board corresponding to the control unit in which the failure has occurred is controlled by the control in which the failure has occurred.
  • Degeneration control is performed to degenerate (separate) from the control of the unit.
  • the crossbar unit transmits an error signal to the system control unit.
  • the system control unit that has received the error signal transmits a stop command to temporarily stop driving all the system boards. Subsequently, the system control unit transmits a re-drive command for re-driving each system board excluding the system board corresponding to the first control unit in which the failure has occurred.
  • the computer system degenerates the system board corresponding to the control unit in which the failure has occurred under the control of the control unit in which the failure has occurred.
  • the above-described conventional technique has a problem that the operating rate of the computer system is lowered when the degeneration control is executed.
  • the drive of the system board that is not under the control of the control unit in which the failure has occurred in other words, the drive of the system board that does not have to stop the drive when executing the degeneration control, is also stopped.
  • the operating rate of the computer system was lowered.
  • An object is to provide a possible data processing system, a data processing method, and a data processing program.
  • the disclosed data processing system includes a control unit that controls communication between each data processing device, and each data processing when a failure occurs in the control unit.
  • a processing device information transmitting unit that transmits processing device information corresponding to each data processing device under the control of the control unit in which the failure has occurred to the system control device from among the processing device information uniquely assigned to the device.
  • the data transfer device and each data processing device corresponding to each processing device information received from the data transfer device belong to a partition logically partitioned in the system, and the specified partition It is necessary to have a system control device having a stop command transmission unit that transmits a stop command for stopping the drive of each data processing device belonging to the above.
  • FIG. 1 is a diagram showing a physical connection relationship of a computer system.
  • FIG. 2 is a diagram for explaining partitions built in the computer system.
  • FIG. 3 is a diagram illustrating an example of the configuration of a computer system.
  • FIG. 4 is a diagram illustrating an example of information stored in the partition ID register.
  • FIG. 5 is a diagram showing an example of the configuration of the system board.
  • FIG. 6 is a diagram illustrating an example of the connection relationship between the components.
  • FIG. 7 is a diagram illustrating an example of the configuration of the crossbar unit.
  • FIG. 8 is a flowchart showing the flow of processing by the crossbar unit.
  • FIG. 9 is a flowchart showing the flow of processing by the system control unit.
  • FIG. 1 is a diagram showing a physical connection relationship of a computer system.
  • FIG. 2 is a diagram for explaining partitions built in the computer system.
  • FIG. 3 is a diagram illustrating an example of the configuration of a computer system.
  • FIG. 10 is a diagram illustrating a physical connection relationship of the computer system according to the first embodiment.
  • FIG. 11 is a diagram for explaining partitions built in the computer system according to the first embodiment.
  • FIG. 12 is a diagram illustrating an example of information stored in the partition ID register according to the first embodiment.
  • FIG. 13 is a diagram for explaining processing by the enable signal generation unit according to the first embodiment.
  • FIG. 14 is a diagram for explaining processing by the enable signal generation unit according to the first embodiment.
  • FIG. 15 is a diagram illustrating an example of a circuit configuration of the enable signal generation unit according to the first embodiment.
  • FIG. 16 is a diagram illustrating an example of a circuit configuration of the error reporting unit according to the first embodiment.
  • FIG. 17 is a diagram illustrating an example of a circuit configuration of the error reporting unit according to the first embodiment.
  • FIG. 18 is a diagram illustrating a physical connection relationship of the computer system according to the second embodiment.
  • FIG. 19 is a diagram for explaining partitions built in the computer system according to the second embodiment.
  • FIG. 20 is a diagram illustrating an example of information stored in the partition ID register according to the second embodiment.
  • FIG. 21 is a diagram for explaining the process performed by the enable signal generation unit according to the second embodiment.
  • FIG. 22 is a diagram for explaining processing by the enable signal generation unit according to the second embodiment.
  • FIG. 23 is a diagram for explaining processing by the enable signal generation unit according to the second embodiment.
  • FIG. 24 is a diagram for explaining processing by the enable signal generation unit according to the second embodiment.
  • FIG. 25 is a diagram for explaining processing by the enable signal generation unit according to the second embodiment.
  • FIG. 26 is a diagram illustrating an example of a circuit configuration of the enable signal generation unit according to the second embodiment.
  • FIG. 27 is a diagram illustrating an example of a circuit configuration of the error reporting unit according to the second embodiment.
  • FIG. 28 is a diagram illustrating an example of a circuit configuration of the error reporting unit according to the second embodiment.
  • FIG. 29 is a diagram illustrating a computer that executes a data processing program.
  • FIG. 1 is a diagram showing a physical connection relationship of a computer system.
  • FIG. 2 is a diagram for explaining partitions built in the computer system.
  • the computer system 10 includes a plurality of crossbar units (XB) 20, a plurality of system boards (SB) 30, and a system control unit 40, as shown in FIG.
  • XB crossbar units
  • SB system boards
  • system control unit 40 system control unit
  • Each system board 30 is given an ID (for example, “SB0”, “SB1”, etc.) for identifying the system board 30.
  • the system board 30 corresponding to “SB0” is described as the system board 30 “SB0”.
  • IDs for example, “# 0”, “# 1”, etc.
  • IDs for example, “# 0”, “# 1”, etc.
  • the first control unit 21 corresponding to “# 0” is described as the first control unit 21 “# 0”.
  • the crossbar unit 20 of the computer system 10 is configured such that when a failure occurs in the control unit (the first control unit 21 or the second control unit 22), the control in which the failure has occurred from among the system boards 30. An error signal corresponding to each system board 30 under the control of each unit is transmitted to the system control unit 40.
  • the system control unit 40 identifies and identifies the partition to which each system board 30 corresponding to each error signal received from the crossbar unit 20 belongs logically in the system.
  • a stop command for stopping the driving of each system board 30 belonging to the partition is transmitted.
  • a unique partition ID (for example, “ID # 1” or “ID # 2”) is assigned to each partition to which the system board 30 belongs.
  • partition corresponding to “ID # 1” is referred to as partition “ID # 1”.
  • the crossbar unit 20 “# 0” includes the system board 30 “SB0” and the system board 30 “under control of the first control unit 21“ # 1 ”included in the crossbar unit 20“ # 0 ”.
  • the error signal “SB1” is transmitted to the system control unit 40.
  • the system control unit 40 that has received the error signals of the system board 30 “SB0” and the system board 30 “SB1” specifies that the system board 30 “SB0” and the system board 30 “SB1” belong to the partition “ID # 1”. To do.
  • the system control unit 40 transmits a stop command for stopping the driving of the system board 30 “SB0” and the system board 30 “SB1” belonging to the partition “ID # 1”.
  • system control unit 40 transmits a re-drive command for re-driving the system board 30 “SB0” to complete the degeneration control.
  • the crossbar unit 20 “# 0” includes the system board 30 “SB2” and the system board 30 “under control of the first control unit 21“ # 4 ”included in the crossbar unit 20“ # 0 ”.
  • the system controller 40 is notified of error signals of “SB3” and the system board 30 “SB4”.
  • the system control unit 40 Upon receiving the error signals of the system board 30 “SB2”, the system board 30 “SB3”, and the system board 30 “SB4”, the system control unit 40 sets the system board 30 “SB2” and the system board 30 “SB3” to the partition “ID #”. 2 ”is specified.
  • system control unit 40 specifies that the system board 30 “SB4” belongs to the partition “ID # 3”.
  • the system control unit 40 transmits a stop command to stop driving the system board 30 “SB2”, the system board 30 “SB3”, and the system board 30 “SBn” belonging to the partition “ID # 2”.
  • system control unit 40 transmits a stop command for stopping driving of the system board 30 “SB4”, the system board 30 “SBn + 1”, and the system board 30 “SBn + 2” belonging to the partition “ID # 3”.
  • system control unit 40 issues a re-drive command to re-drive the system board 30 “SB2”, the system board 30 “SB3”, the system board 30 “SBn”, the system board 30 “SBn + 1”, and the system board 30 “SBn + 2”. Send and complete the degeneration control.
  • the crossbar unit 20 “#m” includes the system board 30 “SBn” and the system board 30 “under control of the second control unit 22“ #m ”included in the crossbar unit 20“ #m ”.
  • the system controller 40 is notified of error signals of “SBn + 1” and the system board 30 “SBn + 2”.
  • the system control unit 40 Upon receiving the error signals of the system board 30 “SBn”, the system board 30 “SBn + 1”, and the system board 30 “SBn + 2”, the system control unit 40 specifies that the system board 30 “SBn” belongs to the partition “ID # 2”. To do.
  • system control unit 40 specifies that the system board 30 “SBn + 1” and the system board 30 “SBn + 2” belong to the partition “ID # 3”.
  • the system control unit 40 transmits a stop command to stop driving the system board 30 “SB2”, the system board 30 “SB3”, and the system board 30 “SBn” belonging to the partition “ID # 2”.
  • system control unit 40 transmits a stop command for stopping driving of the system board 30 “SB4”, the system board 30 “SBn + 1”, and the system board 30 “SBn + 2” belonging to the partition “ID # 3”.
  • system control unit 40 transmits a re-drive command for re-driving the system board 30 “SB2”, the system board 30 “SB3”, and the system board 30 “SB4” to complete the degeneration control.
  • FIG. 3 is a diagram illustrating an example of the configuration of a computer system.
  • FIG. 4 is a diagram illustrating an example of information stored in the partition ID register.
  • FIG. 5 is a diagram showing an example of the configuration of the system board.
  • FIG. 6 is a diagram illustrating an example of the connection relationship between the components.
  • FIG. 7 is a diagram illustrating an example of the configuration of the crossbar unit.
  • the computer system 10 includes a plurality of crossbar units 20, a plurality of system boards 30, and a system control unit 40.
  • the crossbar unit 20 includes a plurality of first control units 21, a single (or plural) second control unit 22, and in particular a partition ID register 23, an enable signal generation unit 24, an error report unit 25, Have
  • the first control unit 21 controls communication between the system boards 30 connected to the crossbar unit 20. In other words, the first control unit 21 performs priority control of communication between the crossbar unit 20 and each system board 30.
  • the second control unit 22 is connected to the first control unit 21 and controls communication to other crossbar units 20. In other words, the second control unit 22 executes priority control for communication between the crossbar units 20.
  • the partition ID register 23 stores information obtained by copying the partition ID stored in the partition ID register 41 described later.
  • the partition ID register 23 is also referred to as a “copy information storage unit” described in the claims.
  • the enable signal generation unit 24 uses the partition ID stored in the partition ID register 23 to determine whether each system board 30 connected to the crossbar unit 20 is under the control of the control unit in which a failure has occurred. An enable signal is generated for determining whether or not.
  • the error report unit 25 transmits an error signal of each system board 30 under the control of the control unit in which the failure has occurred to the system control unit 40.
  • the error report unit 25 receives an error signal that identifies the control unit transmitted from the control unit in which the failure has occurred.
  • the error report unit 25 generates a failure from each system board 30 connected to the crossbar unit 20 based on the received error signal and the enable signal generated by the enable signal generation unit 24.
  • the system board 30 under the control of the control unit is discriminated.
  • the error reporting unit 25 transmits the determined error signal of the system board 30 to the system control unit 40.
  • the error reporting unit 25 is also referred to as a “processing device information transmitting unit” described in the claims.
  • the error report unit 25 receives an error signal transmitted from the first control unit 21, the error report unit 25 further transmits this error signal to the system control unit 40.
  • the error report unit 25 receives an error signal transmitted from the second control unit 22, the error report unit 25 of the system board 30 configured to be able to identify the second control unit 22 that has transmitted the error signal. An error signal is transmitted to the system control unit 40.
  • system control unit 40 particularly includes a partition ID register 41, a partition specifying unit 42, a stop command transmission unit 43, a register update unit 44, and a redrive command transmission unit 45.
  • the partition ID register 41 stores the partition ID uniquely assigned to the partition to which the system board 30 belongs in association with each system board 30.
  • the partition ID register 41 is associated with each system board 30, and partition information (PID) and valid information (not shown) indicating whether or not a re-drive command is transmitted. VAL).
  • partition ID register 41 is also referred to as “partition information storage unit” recited in the claims.
  • the partition specifying unit 42 specifies to which partition the system board 30 corresponding to the error signal of the system board 30 received from the crossbar unit 20 belongs logically divided in the system.
  • the partition specifying unit 42 determines from the partition ID register 41 the system board 30 associated with the same partition as the partition ID corresponding to the error signal of each system board 30 received from the crossbar unit 20. To do.
  • the partition ID register 41 is also referred to as a “stop command transmission unit” recited in the claims.
  • the stop command transmission unit 43 transmits a stop command to each determined system board 30.
  • the stop command transmission unit 43 is also referred to as a “stop command transmission unit” recited in the claims.
  • the register update unit 44 associates the system board 30 that is not a transmission target of the re-drive command with the transmission impossible information in the partition ID register 41. sign up.
  • the register update unit 44 when the register update unit 44 receives the error signal of the system board 30 of the second control unit 22, the register update unit 44 registers the transmission disable information in the partition ID register 41 in association with the error signal of the system board 30.
  • the register updating unit 44 copies the partition ID stored in the partition ID register 41 to generate copy information, and updates the partition ID register 23.
  • the redrive command transmission unit 45 associates the transmission disable information with the partition ID register 41 for each system board 30 acquired by the stop command transmission unit 43 after the register update unit 44 registers the transmission disable information. It is determined whether or not it is stored.
  • the re-drive command transmission unit 45 transmits a re-drive command to the system board 30 corresponding to the system board 30 that has obtained the determination result that the transmission disable information is not stored in association with it.
  • the system board 30 is a device as shown in FIG.
  • SC system bus controller
  • MAC memory access controller
  • MMC maintenance bus controller
  • each MBC is connected by a serial interface called a maintenance bus, and functions are realized by firmware.
  • the information stored in the partition ID register 23 is information set in JTAG (Joint Test Action Group) by the firmware via the MBC.
  • the crossbar unit 20 is a device as shown in FIG.
  • (A) of FIG. 7 is an error signal transmitted from each control unit to an error report unit 25 (not shown in FIG. 7).
  • (B) in FIG. 7 and (C) in FIG. 7 are signals used for priority control by the second control unit 22.
  • (D) in FIG. 7 is a signal used for priority control by the first control unit 21.
  • FIG. 8 is a flowchart showing the flow of processing by the crossbar unit.
  • FIG. 9 is a flowchart showing the flow of processing by the system control unit.
  • step S1001 when the crossbar unit 20 detects that a failure has occurred in the control unit (Yes in step S1001), the crossbar unit 20 outputs an error signal from the control unit in which the failure has occurred (step S1002).
  • the crossbar unit 20 determines the system board 30 under the control of the control unit in which the failure has occurred, and transmits an error signal of the determined system board 30 to the system control unit 40 (step S1003).
  • the crossbar unit 20 stops the driving of the system board 30 in accordance with the stop command received from the system control unit 40 (step S1004).
  • the crossbar unit 20 receives the copy information from the system control unit 40 and updates the information recorded in the partition ID register 23 (step S1005).
  • the crossbar unit 20 resumes driving of the system board 30 in response to the re-drive command received from the system control unit 40 (step S1006), and ends the process.
  • Step S2002 when the system control unit 40 receives an error signal of the system board 30 from the crossbar unit 20 (Yes in step S2001), the system control unit 40 specifies a partition to which the system board 30 corresponding to the received system board 30 belongs ( Step S2002).
  • the system control unit 40 transmits a stop command for stopping the driving of each system board 30 belonging to the specified partition (step S2003), registers the transmission disable information in the partition ID register 41, and the partition ID register 23 is updated (step S2004).
  • the system control unit 40 transmits a re-drive command to the system board 30 corresponding to the system board 30 that has obtained the determination result indicating that the transmission disable information is not stored in association (step S2005). The process is terminated.
  • the computer system 10 executes the degeneration control without reducing the operating rate of the computer system.
  • the computer system 10 executes the degeneration control without stopping the drive of each system board 30 that is not controlled by the control unit in which the failure has occurred, so that the degeneration control is performed without reducing the operating rate of the computer system. It is possible to execute.
  • the computer system 10 can identify the partition to which the system board 30 under the control of the control unit in which the failure belongs, based on the correspondence information between the system board 30 and the partition ID. It is possible to execute the degeneration control without reducing the operating rate of the computer system.
  • the system board 30 under the control of the control unit in which the failure has occurred can be determined based on the enable signal and the error signal, thereby reducing the operating rate of the computer system. It is possible to execute the degeneration control without doing so.
  • the computer system 10 among the system boards under the control of the control unit in which the failure has occurred, the driving of each system board excluding the system board corresponding to the control unit in which the failure has occurred is resumed. Therefore, it is possible to execute the degeneration control without reducing the operating rate of the computer system.
  • the computer system 10 will be described in more detail with specific examples.
  • the configuration of the computer system according to the first embodiment and the effects of the first embodiment will be described in this order.
  • FIG. 10 is a diagram illustrating a physical connection relationship of the computer system according to the first embodiment.
  • FIG. 11 is a diagram for explaining partitions built in the computer system according to the first embodiment.
  • FIG. 12 is a diagram illustrating an example of information stored in the partition ID register according to the first embodiment.
  • FIGS. 13 and 14 are diagrams for explaining processing by the enable signal generation unit according to the first embodiment.
  • FIG. 15 is a diagram illustrating an example of a circuit configuration of the enable signal generation unit according to the first embodiment.
  • 16 and 17 are diagrams illustrating an example of a circuit configuration of the error reporting unit according to the first embodiment.
  • each component of the computer system 10 according to the first embodiment has a physical connection relationship as shown in FIG. It is assumed that the computer system 10 according to the first embodiment has a partition as shown in FIG.
  • the first control unit 21 has a failure checker that detects a failure that has occurred in the first control unit 21, such as a bus parity checker or a priority conflict checker.
  • the failure checker of the first control unit 21 always transmits to the error reporting unit 25 an error signal including availability information indicating whether the error signal is valid and the ID of the first control unit 21.
  • the failure checker of the first control unit 21 for example, the first control unit 21 “# 0” failure checker transmits an error signal “control unit 1 # 0_ERR“ 1 ””.
  • the second control unit 22 has a failure checker that detects a failure occurring in the second control unit 22 such as a bus checker.
  • the failure checker of the second control unit 22 always transmits to the error report unit 25 an error signal including availability information indicating whether the error signal is valid and the ID of the second control unit 22. .
  • the failure checker of the second control unit 22 “# 1” transmits an error signal “control unit 2 # 1_ERR“ 1 ””.
  • the partition ID register 23 and the partition ID register 41 transmit a partition ID (PID) and a redrive command in association with the ID of the system board 30 for each crossbar unit 20.
  • the valid information (VAL) indicating the above is stored.
  • the partition ID register 23 and the partition ID register 41 may store the ID of the crossbar unit 20 to which the system board 30 is connected in association with the error signal of the system board 30.
  • the enable signal generation unit 24 always transmits an enable signal generated using the matching theory shown in FIG. 13 or 14 to the error report unit 25.
  • the enable signal generator 24 has a circuit as shown in FIG.
  • FIG. 13 and 15 correspond to the enable signal generation unit 24 (hereinafter referred to as enable signal generation unit 24 “# 0”) of the crossbar unit 20 “# 0”, and FIG. 14 illustrates the crossbar unit 20 20 corresponds to the enable signal generation unit 24 included in “# 1”.
  • the enable signal generator 24 “# 1” includes “SB0”, “SB4”, “SB2”, “SB5”, “SB5”, “SB5”, “SB5”, “SB5”, “SB5”, “SB3”, “SB0”, “SB4” is replaced with “SB1”, and “SB5” is replaced with “SB3”.
  • the enable signal generation unit 24 “# 0” uses the ID of the partition to which the system board 30 belongs and the ID of the partition to which all the system boards 30 mounted on the computer system 10 belong. It is determined whether the partition information is the same (see (A) of FIG. 13 and (A) of FIG. 15).
  • (A-1) in FIG. 13 shows a determination result “1” indicating that the partition “# 1” of the system board 30 “SB0” and the partition “# 1” of the system board 30 “SB0” are the same. "1” means obtained.
  • FIG. 13 shows a determination result “0” indicating that the partition “# 0” of the system board 30 “SB0” and the partition “# 2” of the system board 30 “SB2” are not the same. Is obtained.
  • the enable signal generation unit 24 “# 0” includes each system board 30 connected to the crossbar unit 20 “# 0” and the second crossbar unit 20 “# 0” has the second An enable signal for specifying whether or not the control unit 22 is under control is generated (see FIG. 13B and FIG. 15B).
  • (B-1) in FIG. 13 is an enable signal “" indicating that there is no system board 30 “SB0” under the control of the second controller 22 “# 1” of the crossbar unit 20 “# 0”.
  • XB1_ERR_ENB [0] '0' is generated.
  • 13B-2 shows an enable signal “XB1_ERR_ENB [2] ′” indicating that the system board 30 “SB2” is under the control of the second control unit 22 of the crossbar unit 20 “# 0”. 1 '"means that it has been generated.
  • the enable signal generation unit 24 “# 0” determines that each system board 30 connected to the crossbar unit 20 “# 0” is based on the determination result and each generated enable signal.
  • An enable signal for specifying whether or not “# 0” is under the control of the first control unit 21 is generated (see FIG. 13C and FIG. 15C).
  • (C-1) in FIG. 13 indicates that an enable signal “SB0” indicating that the system board 30 “SB0” is under the control of the first controller 21 “# 0” of the crossbar unit 20 “# 0”. This means that SB0_ERR_ENB [0] '1' "has been generated.
  • (C-2) of FIG. 13 shows an enable signal “SB0_ERR_ENB” indicating that the system board 30 “SB0” is not under the control of the first control unit 21 “# 2” of the crossbar unit 20 “# 0”. [2] means that “0” ”has been generated.
  • the error report unit 25 has a circuit as shown in FIGS. Then, the error report unit 25 always transmits to the system control unit 40 the ID of the system board 30 including availability information indicating whether or not the ID of the system board 30 is valid.
  • the error report unit 25 always transmits the error signal received from the failure checker of the first control unit 21 to the register update unit 44.
  • the error report unit 25 sends the ID of the system board 30 including the ID of the second control unit 22 and the availability information indicating whether the ID of the system board 30 is valid to the system control unit 40. Always send.
  • 16 and 17 are based on the assumption that a failure has occurred in the first control unit 21 “# 1” of the crossbar unit 20 “# 0” (see “failure 1” in FIG. 11).
  • the error report unit 25 “# 0” uses the error signal “control unit 1 # 0_ERR '1” ”received from the failure checker of the first control unit 21“ # 1 ”as a system. It transmits with respect to the control part 40.
  • the error reporting unit 25 “# 0” includes the enable signal “SB0_ERR_ENB [0] ′ 1 ′” generated by the enable signal generating unit 24 “# 0” and the error signal “control unit 1 # 0_ERR“ 1 ””. (See FIG. 16A).
  • the error report unit 25 “# 0” indicates whether it is valid in each signal (for example, “control unit 1 # 0_ERR [0]“ 1 ””) obtained by the matching. It is determined whether there is a signal including “1”.
  • the error report unit 25 “# 0” includes a signal including the availability information “′ 1” indicating that it is valid
  • the system board 30 including the availability information indicating that it is valid.
  • the ID of “SB0” (“PRTITION_ERR_SB0“ 1 ””) is always transmitted to the system control unit 40 (see FIG. 17A).
  • the error reporting unit 25 “# 0” includes an enable signal “XB1_ERR_ENB [2] ′ 1 ′” generated by the enable signal generating unit 24 “# 0” and an error signal “control unit 2 # 1_ERR“ 1 ””. (See FIG. 16B).
  • the error report unit 25 “# 0” transmits each signal (for example, “control unit 2 # 1_ERR [0]“ 1 ””) obtained by the matching to the system control unit 40.
  • the error report unit 25 “# 0” indicates whether or not the signal is valid in each signal (for example, “control unit 2 # 1_ERR [2] '1” ”) obtained by the matching. It is determined whether there is a signal including “1”.
  • the partition specifying unit 42 receives the ID (“PRTITION_ERR_SB0“ 1 ””) of the system board 30 “SB0” including the availability information indicating that it is valid, the system included in this error report Recognize board 30 “SB0” error.
  • the partition specifying unit 42 acquires the ID of the partition “ID # 1” corresponding to the system board 30 “SB0” from the partition ID register 41.
  • the partition specifying unit 42 specifies the partition “ID # 1” as the partition to which the system board 30 “SB0” belongs.
  • the stop command transmission unit 43 specifies the system board 30 “SB0” and the system board 30 “SB1” partition ID register 41 corresponding to the ID of the partition “ID # 1”. Get from.
  • the stop command transmission unit 43 transmits a stop command to the system board 30 “SB0” and the system board 30 “SB1”, respectively.
  • the register update unit 44 receives the first control unit 21 included in the crossbar unit 20“ # 1 ”.
  • the valid information “1” is registered in the partition ID register 41 in association with the ID of the system board 30 “SB0” corresponding to “# 1”.
  • register control unit 44 receives “control unit 2 # 1_ERR [0] '1” ”from error reporting unit 25“ # 1 ”, system register 30“ SB0 ”is extracted, and valid information“ 1 ”is registered in the partition ID register 41 in association with the system board 30“ SB0 ”.
  • the redrive command transmission unit 45 for example, the system board 30 “SB0” and the system corresponding to the ID of the partition “ID # 1” It is determined whether or not the valid information “1” is registered in association with the board 30 “SB1”.
  • the re-drive command transmission unit 45 obtains a determination result indicating that the valid information “0” is not stored in association with the system board 30 “SB0”
  • the re-drive command transmission unit 45 sets the system board 30 “SB0”.
  • a re-drive command is transmitted.
  • the driving of the system board 30 “SB0” can be resumed.
  • the computer system 10 will be described with another specific example.
  • the configuration of the computer system according to the second embodiment and the effects of the second embodiment will be described in this order.
  • FIG. 18 is a diagram illustrating a physical connection relationship of the computer system according to the second embodiment.
  • FIG. 19 is a diagram for explaining partitions built in the computer system according to the second embodiment.
  • FIG. 20 is a diagram illustrating an example of information stored in the partition ID register according to the second embodiment.
  • FIGS. 21 to 25 are diagrams for explaining processing by the enable signal generation unit according to the second embodiment.
  • FIG. 26 is a diagram illustrating an example of a circuit configuration of the enable signal generation unit according to the second embodiment.
  • 27 and 28 are diagrams illustrating an example of a circuit configuration of the error reporting unit according to the second embodiment.
  • each component of the computer system 10 according to the second embodiment has a physical connection relationship as shown in FIG. It is assumed that the computer system 10 according to the second embodiment has a partition as shown in FIG.
  • the partition ID register 23 and the partition ID register 41 store an ID of the system board 30, a partition ID (PID), and valid information (VAL) as shown in FIG.
  • the enable signal generation unit 24 always transmits an enable signal generated using the matching theory shown in FIGS. 21 to 25 to the error report unit 25.
  • the enable signal generation unit 24 has a circuit as shown in FIG.
  • FIGS. 21, 22, and 26 correspond to the enable signal generation unit 24 “# 0”
  • FIG. 23 corresponds to the enable signal generation unit 24 “# 1”
  • FIG. 24 illustrates the enable signal generation unit. 24 corresponds to the enable signal generation unit 24 “# 4”.
  • the error report unit 25 has a circuit as shown in FIGS. 27 and 28 are based on the assumption that a failure has occurred in the second control unit 22 “# 3” of the crossbar unit 20 “# 0” (see “failure 2” in FIG. 19).
  • the driving of the system board 30 “SB13”, the system board 30 “SB14”, and the system board 30 “SB15” can be resumed.
  • the present data processing system, data processing method, and data processing program may be implemented in various different forms other than the above-described embodiments. Therefore, another embodiment will be described below as a third embodiment.
  • the computer system 10 may stop driving of the control unit related to the control unit in which the failure has occurred.
  • the computer system 10 when the failure 1 occurs (see FIG. 11), the computer system 10 according to the first embodiment includes the first control unit 21 “# 0” included in the crossbar unit 20 “# 0” and The driving of the first control unit 21 “# 1” may be stopped.
  • the computer system 10 when the failure 2 occurs (see FIG. 19), the computer system 10 according to the second embodiment has the first control unit 21 “# 2” and the first control unit 21 “included in the crossbar unit 20“ # 0 ”. # 3 ”, second control unit 22“ # 3 ”, and first control unit 21“ # 1 ”, first control unit 21“ # 2 ”, and first control unit 21 included in the crossbar unit 20“ # 3 ”. The driving of “# 3” and the second control unit 22 “# 3” may be stopped.
  • each component of each illustrated apparatus is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.
  • the partition specifying unit 42 and the stop command transmitting unit 43 shown in FIG. 3 can be integrated.
  • each processing function performed in each device can be realized in whole or in any part by a CPU and a program that is analyzed and executed by the CPU.
  • FIG. 29 is a diagram illustrating a computer that executes an error processing program.
  • the computer system 10 has a ROM 50
  • the crossbar unit 20 has a CPU 26 and a RAM 27
  • the system control unit 40 has a CPU 46 and a RAM 47, in particular.
  • ROM 50 a data processing program that exhibits the same function as the computer system 10 shown in the first embodiment, that is, as shown in FIG. 29, an error report program 50a, an enable signal generation program 50b, and a stop command transmission.
  • a program 50c, a redrive command transmission program 50d, a partition specifying program 50e, and a register update program 50f are stored in advance. Note that these programs 130a to 130f may be appropriately integrated or distributed in the same manner as each component of the computer system 10 shown in FIG.
  • the CPU 26 reads out and executes the error report program 50a and the enable signal generation program 50b from the ROM 50, and the CPU 46 executes the stop command transmission program 50c, the re-drive command transmission program 50d, the partition specifying program 50e, and the register update program 50f. Are read from the ROM 50 and executed.
  • the computer system 10 converts the program 50a to program 50f into an error report program process 26a, an enable signal generation process 26b, a stop command transmission program 26c, a redrive command transmission program 26d,
  • the partition specifying program 26e and the register update program 26f are caused to function.
  • the process 26a to process 26f include the enable signal generation unit 24, the error report unit 25, the partition identification unit 42, the stop command transmission unit 43, the register update unit 44, and the redrive command transmission illustrated in FIG. This corresponds to each of the parts 45.
  • the CPU 26 executes processing based on the partition ID data 27 a stored in the RAM 27, and the CPU 46 executes processing based on the partition ID data 47 a stored in the RAM 47.
  • the partition ID data 27a corresponds to the partition ID register 23 shown in FIG. 3, and the partition ID data 47a corresponds to the partition ID register 41 shown in FIG.
  • the above-described programs 50a to 50e are not necessarily stored in the ROM 50 from the beginning.
  • a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk to be inserted into the computer system 10 are not necessary.
  • “Portable physical media” such as disks and IC cards, or “fixed physical media” such as HDDs provided inside and outside the computer system 10, and further computer systems via public lines, the Internet, LAN, WAN, etc.
  • Each program may be stored in “another computer (or server)” connected to the computer 10, and the computer system 10 may read and execute each program from now on.
  • the data processing method described in the present embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation.
  • This program can be distributed via a network such as the Internet.
  • the program can also be executed by being recorded on a computer-readable recording medium such as a hard disk, a flexible disk (FD), a CD-ROM, an MO, and a DVD and being read from the recording medium by the computer.
  • a computer-readable recording medium such as a hard disk, a flexible disk (FD), a CD-ROM, an MO, and a DVD and being read from the recording medium by the computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

 データを処理するシステムボードと、各システムボード間の通信を制御する制御部を有するクロスバユニットと、システム制御装置とを有するデータ処理システムにおいて、コンピュータシステムの稼働率を低下させずに縮退制御を実行することを課題とする。そのために、クロスバユニットは、制御部に故障が発生した場合に、各システムボードに一意に付与されるIDの中から、故障が発生した制御部の制御下にある各システムボードに対応したIDをシステム制御装置に対して送信する。また、システム制御装置は、クロスバユニットから受け付けたIDに対応する各システムボードが、システム内を論理的に区分してなるパーティションのいずれに属するかを特定し、特定されたパーティションに属する各システムボードの駆動を停止させるための停止指令を送信する。

Description

データ処理システム、データ処理方法およびデータ処理プログラム
 この発明は、データ処理システム、データ処理方法およびデータ処理プログラムに関する。
 従来より、コンピュータシステムに搭載される複数のシステムボード(SB)の中で、所定のシステムボードの組合せを、システム内を論理的に区分してなるパーティションとして管理して、各パーティションに属するシステムボードごとにデータ処理それぞれを実行するコンピュータシステムがある(特許文献1参照)。
 コンピュータシステムの構成について具体的に説明すると、コンピュータシステムは、クロスバユニット(XB)と呼ばれるデータ転送回路を複数有し、各クロスバユニットには、それぞれ複数のシステムボードが接続されている。
 そして、コンピュータシステムは、各クロスバユニットがそれぞれ有する各第1制御部および第2制御部を管理して、同一のパーティションに属する各システムボードの間の通信を制御するシステム制御部(例えば、SCF(System Control Facility)やMMB(Management Board)に相当する)を有する。
 このうち、第1制御部は、クロスバユニットに接続された各システムボードにそれぞれ対応し、クロスバユニットに接続された各システムボードの中で制御下にある各システムボードと、クロスバユニットとの間の通信を制御して、各システムボード間の通信のプライオリティ制御を実行する。
 また、第2制御部は、この第2制御部を有するクロスバユニットとは別のクロスバユニットにそれぞれ対応し、この第2制御部を有するクロスバユニットと、別のクロスバユニットとの間の通信をそれぞれ制御して、各システムボード間の通信のプライオリティ制御を実行する。
 このようなコンピュータシステムでは、クロスバユニットが有する制御部(第1制御部もしくは第2制御部)に故障が発生したときに、故障が発生した制御部に対応するシステムボードを、故障が発生した制御部の制御下から縮退させる(切り離す)ための縮退制御が行われる。
 この縮退制御の一例を具体的に説明すると、クロスバユニットは、第1制御部に故障が発生すると、システム制御部に対してエラー信号を送信する。
 エラー信号を受信したシステム制御部は、全てのシステムボードの駆動を一時的に停止させる停止指令を送信する。続いて、システム制御部は、故障が発生した第1制御部に対応するシステムボードを除いた各システムボードを再駆動させる再駆動指令を送信する。
 このようにして、コンピュータシステムは、故障が発生した制御部に対応するシステムボードを、故障が発生した制御部の制御下から縮退させる。
特開2006-31199号公報
 ところで、上記した従来の技術は、縮退制御を実行するときにコンピュータシステムの稼働率が低下するという課題があった。すなわち、従来のコンピュータシステムでは、故障が発生した制御部の制御を受けていないシステムボード、言い換えると、縮退制御を実行するときに駆動を停止しなくても良いシステムボードの駆動も停止するので、コンピュータシステムの稼働率が低下するという問題点があった。
 そこで、このデータ処理システム、データ処理方法およびデータ処理プログラムは、上述した従来技術の課題を解決するためになされたものであり、コンピュータシステムの稼働率を低下させずに縮退制御を実行することが可能なデータ処理システム、データ処理方法およびデータ処理プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するため、開示のデータ処理システムは、各データ処理装置間の通信を制御する制御部を有し、当該制御部に故障が発生した場合に、各データ処理装置に一意に付与される処理装置情報の中から、故障が発生した制御部の制御下にある各データ処理装置に対応した処理装置情報をシステム制御装置に対して送信する処理装置情報送信部を有するデータ転送装置と、前記データ転送装置から受け付けた各処理装置情報に対応する各データ処理装置が、システム内を論理的に区分してなるパーティションのいずれに属するかを特定し、特定されたパーティションに属する各データ処理装置の駆動を停止させるための停止指令を送信する停止指令送信部を有するシステム制御装置とを有することを要する。
 開示のデータ処理システム、データ処理方法およびデータ処理プログラムによれば、コンピュータシステムの稼働率を低下させずに縮退制御を実行することができる。
図1は、コンピュータシステムの物理的な接続関係を示した図である。 図2は、コンピュータシステムに構築されたパーティションを説明するための図である。 図3は、コンピュータシステムの構成の一例を示した図である。 図4は、パーティションIDレジスタに記憶される情報の一例を示した図である。 図5は、システムボードの構成の一例を示した図である。 図6は、構成要素の接続関係の一例を示した図である。 図7は、クロスバユニットの構成の一例を示した図である。 図8は、クロスバユニットによる処理の流れを示すフローチャート図である。 図9は、システム制御部による処理の流れを示すフローチャート図である。 図10は、実施例1に係るコンピュータシステムの物理的な接続関係を示した図である。 図11は、実施例1に係るコンピュータシステムに構築されたパーティションを説明するための図である。 図12は、実施例1に係るパーティションIDレジスタに記憶される情報の一例を示した図である。 図13は、実施例1に係るイネーブル信号生成部による処理を説明するための図である。 図14は、実施例1に係るイネーブル信号生成部による処理を説明するための図である。 図15は、実施例1に係るイネーブル信号生成部の回路構成の一例を示した図である。 図16は、実施例1に係るエラー報告部の回路構成の一例を示した図である。 図17は、実施例1に係るエラー報告部の回路構成の一例を示した図である。 図18は、実施例2に係るコンピュータシステムの物理的な接続関係を示した図である。 図19は、実施例2に係るコンピュータシステムに構築されたパーティションを説明するための図である。 図20は、実施例2に係るパーティションIDレジスタに記憶される情報の一例を示した図である。 図21は、実施例2に係るイネーブル信号生成部による処理を説明するための図である。 図22は、実施例2に係るイネーブル信号生成部による処理を説明するための図である。 図23は、実施例2に係るイネーブル信号生成部による処理を説明するための図である。 図24は、実施例2に係るイネーブル信号生成部による処理を説明するための図である。 図25は、実施例2に係るイネーブル信号生成部による処理を説明するための図である。 図26は、実施例2に係るイネーブル信号生成部の回路構成の一例を示した図である。 図27は、実施例2に係るエラー報告部の回路構成の一例を示した図である。 図28は、実施例2に係るエラー報告部の回路構成の一例を示した図である。 図29は、データ処理プログラムを実行するコンピュータを示す図である。
符号の説明
 10 コンピュータシステム
 20 クロスバユニット
 21 第1制御部
 22 第2制御部
 23 パーティションIDレジスタ
 24 イネーブル信号生成部
 25 エラー報告部
 26 CPU(Central Processing Unit)
 26a イネーブル信号生成プロセス
 26b エラー報告プロセス
 27 RAM(Random Access Memory)
 27a パーティションIDデータ
 30 システムボード
 40 システム制御部
 41 パーティションIDレジスタ
 42 パーティション特定部
 43 停止指令送信部
 44 レジスタ更新部
 45 再駆動指令送信部
 46 CPU(Central Processing Unit)
 46a パーティション特定プロセス
 46b 停止指令送信プロセス
 46c レジスタ更新プロセス
 46d 再駆動指令送信プロセス
 47 RAM(Random Access Memory)
 47a パーティションIDデータ
 以下に添付図面を参照して、本実施形態の一例に係るデータ処理システム、データ処理方法およびデータ処理プログラムの係る一実施形態を詳細に説明する。なお、以下では、本実施例が適用されたコンピュータシステムの実施形態について、コンピュータシステムの概要、コンピュータシステムの構成、コンピュータシステムによる処理の順に説明し、最後に、コンピュータシステムによる効果を説明する。
[コンピュータシステムの概要]
 まず最初に、図1および、図2を用いて、コンピュータシステム10の概要を説明する。図1は、コンピュータシステムの物理的な接続関係を示した図である。図2は、コンピュータシステムに構築されたパーティションを説明するための図である。
 コンピュータシステム10は、図1に示すように、複数のクロスバユニット(XB)20、複数のシステムボード(SB)30およびシステム制御部40を有する。そして、コンピュータシステム10の各構成要素は、図1に示すような、物理的な接続関係を有している。
 なお、各システムボード30には、システムボード30を識別するID(例えば、「SB0」や「SB1」など)がそれぞれ付与されている。以下では、「SB0」に対応するシステムボード30を、システムボード30「SB0」と記載する。
 また、クロスバユニット20、第1制御部21および第2制御部22には、各構成要素を識別するID(例えば、「#0」や「#1」など)がそれぞれ付与されている。以下では、例えば、「#0」に対応する第1制御部21を、第1制御部21「#0」と記載する。
 このようなコンピュータシステム10のクロスバユニット20は、制御部(第1制御部21、もしくは、第2制御部22)に故障が発生した場合に、各システムボード30の中から、故障が発生した制御部の制御下にある各システムボード30に対応したエラー信号をシステム制御部40に対して送信する。
 続いて、システム制御部40は、クロスバユニット20から受け付けた各エラー信号に対応する各システムボード30が、システム内を論理的に区分してなるパーティションのいずれに属するかを特定し、特定されたパーティションに属する各システムボード30の駆動を停止させるための停止指令を送信する。
(故障1)
 以下では、コンピュータシステム10による縮退制御を、具体的な故障の例をあげて説明する。なお、システムボード30が属するパーティションごとに、一意に付与されたパーティションのID(例えば、「ID#1」や「ID#2」など)が付与されている。以下では、「ID#1」に対応するパーティションをパーティション「ID#1」と記載する。
 まず、クロスバユニット20「#0」が有する第1制御部21「#1」に故障が発生した場合を、(故障1)として説明する(図2の故障1参照)。
 故障1の場合には、クロスバユニット20「#0」は、クロスバユニット20「#0」が有する第1制御部21「#1」の制御下にあるシステムボード30「SB0」およびシステムボード30「SB1」のエラー信号をシステム制御部40に対して送信する。
 システムボード30「SB0」およびシステムボード30「SB1」のエラー信号を受け付けたシステム制御部40は、システムボード30「SB0」およびシステムボード30「SB1」がパーティション「ID#1」に属することを特定する。
 続いて、システム制御部40は、パーティション「ID#1」に属するシステムボード30「SB0」およびシステムボード30「SB1」の駆動を停止する停止指令を送信する。
 その後、システム制御部40は、システムボード30「SB0」を再駆動させる再駆動指令を送信して縮退制御を完了する。
(故障2)
 次に、クロスバユニット20「#0」が有する第1制御部21「#4」に故障が発生した場合を、(故障2)として説明する(図2の故障2参照)。
 故障2の場合には、クロスバユニット20「#0」は、クロスバユニット20「#0」が有する第1制御部21「#4」の制御下にあるシステムボード30「SB2」、システムボード30「SB3」およびシステムボード30「SB4」のエラー信号をシステム制御部40に対して通知する。
 システムボード30「SB2」、システムボード30「SB3」およびシステムボード30「SB4」のエラー信号を受け付けたシステム制御部40は、システムボード30「SB2」およびシステムボード30「SB3」がパーティション「ID#2」に属することを特定する。
 また、システム制御部40は、システムボード30「SB4」がパーティション「ID#3」に属することを特定する。
 続いて、システム制御部40は、パーティション「ID#2」に属するシステムボード30「SB2」、システムボード30「SB3」およびシステムボード30「SBn」の駆動を停止する停止指令を送信する。
 また、システム制御部40は、パーティション「ID#3」に属するシステムボード30「SB4」、システムボード30「SBn+1」およびシステムボード30「SBn+2」の駆動を停止する停止指令を送信する。
 その後、システム制御部40は、システムボード30「SB2」、システムボード30「SB3」、システムボード30「SBn」、システムボード30「SBn+1」およびシステムボード30「SBn+2」を再駆動させる再駆動指令を送信して縮退制御を完了する。
(故障3)
 次に、クロスバユニット20「#m」が有する第2制御部22「#m」に故障が発生した場合を、(故障3)として説明する(図2の故障3参照)。
 故障3の場合には、クロスバユニット20「#m」は、クロスバユニット20「#m」が有する第2制御部22「#m」の制御下にあるシステムボード30「SBn」、システムボード30「SBn+1」およびシステムボード30「SBn+2」のエラー信号をシステム制御部40に対して通知する。
 システムボード30「SBn」、システムボード30「SBn+1」およびシステムボード30「SBn+2」のエラー信号を受け付けたシステム制御部40は、システムボード30「SBn」がパーティション「ID#2」に属することを特定する。
 また、システム制御部40は、システムボード30「SBn+1」およびシステムボード30「SBn+2」がパーティション「ID#3」に属することを特定する。
 続いて、システム制御部40は、パーティション「ID#2」に属するシステムボード30「SB2」、システムボード30「SB3」およびシステムボード30「SBn」の駆動を停止する停止指令を送信する。
 また、システム制御部40は、パーティション「ID#3」に属するシステムボード30「SB4」、システムボード30「SBn+1」およびシステムボード30「SBn+2」の駆動を停止する停止指令を送信する。
 その後、システム制御部40は、システムボード30「SB2」、システムボード30「SB3」およびシステムボード30「SB4」を再駆動させる再駆動指令を送信して縮退制御を完了する。
[コンピュータシステムの構成]
 次に、図3~図7を用いて、コンピュータシステム10の機能構成を説明する。図3は、コンピュータシステムの構成の一例を示した図である。図4は、パーティションIDレジスタに記憶される情報の一例を示した図である。図5は、システムボードの構成の一例を示した図である。図6は、構成要素の接続関係の一例を示した図である。図7は、クロスバユニットの構成の一例を示した図である。
 図3に示すように、コンピュータシステム10は、複数のクロスバユニット20と、複数のシステムボード30と、システム制御部40とを有する。
 クロスバユニット20は、複数の第1制御部21と、単数(または、複数)の第2制御部22と他に、特に、パーティションIDレジスタ23と、イネーブル信号生成部24と、エラー報告部25とを有する。
 第1制御部21は、クロスバユニット20に接続された各システムボード30間の通信を制御する。言い換えると、第1制御部21は、クロスバユニット20と、各システムボード30との間の通信のプライオリティ制御を実行する。
 第2制御部22は、第1制御部21に接続され、他のクロスバユニット20への通信を制御する。言い換えると、第2制御部22は、クロスバユニット20間の通信のプライオリティ制御を実行する。
 パーティションIDレジスタ23は、後述のパーティションIDレジスタ41に記憶されているパーティションのIDを複写した情報を記憶する。なお、パーティションIDレジスタ23は、請求の範囲に記載の「複写情報記憶部」とも言う。
 イネーブル信号生成部24は、パーティションIDレジスタ23に記憶されているパーティションのIDを用いて、クロスバユニット20に接続されている各システムボード30について、故障が発生した制御部の制御下にあるか否かを判別するためのイネーブル信号を生成する。
 エラー報告部25は、制御部に故障が発生した場合に、故障が発生した制御部の制御下にある各システムボード30のエラー信号をシステム制御部40に対して送信する。
 具体的には、エラー報告部25は、故障が発生した制御部から発信された、この制御部を特定するエラー信号を受け付ける。
 続いて、エラー報告部25は、受け付けたエラー信号と、イネーブル信号生成部24によって生成されたイネーブル信号とに基づいて、クロスバユニット20に接続されている各システムボード30の中から、故障が発生した制御部の制御下にあるシステムボード30を判別する。
 そして、エラー報告部25は、判別されたシステムボード30のエラー信号をシステム制御部40に対して送信する。なお、エラー報告部25は、請求の範囲に記載の「処理装置情報送信部」とも言う。
 なお、エラー報告部25は、第1制御部21から発信されたエラー信号を受け付けた場合には、このエラー信号をさらにシステム制御部40に対して送信する。
 また、エラー報告部25は、第2制御部22から発信されたエラー信号を受け付けた場合には、このエラー信号を発信した第2制御部22を特定可能な状態で構成されたシステムボード30のエラー信号をシステム制御部40に対して送信する。
 また、システム制御部40は、特に、パーティションIDレジスタ41と、パーティション特定部42と、停止指令送信部43と、レジスタ更新部44と、再駆動指令送信部45とを有する。
 パーティションIDレジスタ41は、各システムボード30にそれぞれ対応付けて、システムボード30が属しているパーティションに一意に付与されるパーティションのIDを記憶する。
 具体的には、パーティションIDレジスタ41は、図4に示すように、各システムボード30に対応付けて、パーティションのID(PID)と、再駆動指令を送信するか否かを示したバリッド情報(VAL)とを記憶する。
 ここで、バリッド情報「0」は、再駆動指令を送信することを意味し、バリッド情報「1」は、再駆動指令を送信しないことを意味する。なお、パーティションIDレジスタ41は、請求の範囲に記載の「パーティション情報記憶部」とも言う。
 パーティション特定部42は、クロスバユニット20から受け付けたシステムボード30のエラー信号に対応するシステムボード30が、システム内が論理的に区分けされたパーティションのいずれに属するかを特定する。
 具体的には、パーティション特定部42は、クロスバユニット20から受け付けた各システムボード30のエラー信号に対応するパーティションのIDと同一のパーティションに対応付けられたシステムボード30をパーティションIDレジスタ41からそれぞれ判定する。なお、パーティションIDレジスタ41は、請求の範囲に記載の「停止指令送信部」とも言う。
 停止指令送信部43は、判定された各システムボード30に対してそれぞれ停止指令を送信する。なお、停止指令送信部43は、請求の範囲に記載の「停止指令送信部」とも言う。
 レジスタ更新部44は、第1制御部21が発信元であるエラー信号を受け付けた場合には、再駆動指令の送信対象とならないシステムボード30に対応付けて、パーティションIDレジスタ41に送信不可情報を登録する。
 また、レジスタ更新部44は、第2制御部22のシステムボード30のエラー信号を受け付けた場合には、システムボード30のエラー信号に対応付けてパーティションIDレジスタ41に送信不可情報を登録する。
 そして、レジスタ更新部44は、パーティションIDレジスタ41に記憶されているパーティションのIDを複写して複写情報を生成し、パーティションIDレジスタ23を更新させる。
 再駆動指令送信部45は、レジスタ更新部44によって送信不可情報が登録された後、停止指令送信部43によって取得された各システムボード30ごとに、パーティションIDレジスタ41に送信不可情報が対応付けて記憶されているか否かを判定する。
 ここで、再駆動指令送信部45は、送信不可情報が対応付けて記憶されていない旨の判定結果を得たシステムボード30に対応するシステムボード30に対して、再駆動指令を送信する。
 なお、システムボード30は、図5に示すような装置である。ここで、「SC(システムバスコントローラ)」は、CPU、SC、MAC、クロスバユニット20の間のバス制御を実行する。また、「MAC(メモリアクセスコントローラ)」は、メモリー(例えば、DIMM)の間のバス制御を実行する。また、「MBC(メンテナンスバスコントローラ)」は、システムボード30が有する全てのチップとの間のインターフェースを有するとともに、システムボード30と、システム制御部40との間のバス制御を実行する。
 また、コンピュータシステム10は、図6に示すように、クロスバユニット20およびシステムボード30は、システム制御部40との間で通信を行う。ここで、各MBCは、メンテナンスバスと呼ばれるシリアルインターフェイスで接続されており、ファームウェアにより機能を実現している。例えば、パーティションIDレジスタ23に記憶されている情報は、MBCを経由して、ファームウェアによりJTAG(Joint Test Action Group)設定された情報である。
 また、クロスバユニット20は、図7に示すような装置である。ここで、図7の(A)は、各制御部から図7には図示しないエラー報告部25に対して送信されるエラー信号である。また、図7の(B)および図7の(C)は、第2制御部22によるプライオリティ制御に用いられる信号である。また、図7の(D)は、第1制御部21によるプライオリティ制御に用いられる信号である。
[コンピュータシステムの構成]
 次に、図8および図9を用いて、コンピュータシステム10による処理を説明する。図8は、クロスバユニットによる処理の流れを示すフローチャート図である。図9は、システム制御部による処理の流れを示すフローチャート図である。
 図8に示すように、クロスバユニット20は、制御部に故障が発生したことを検知すると(ステップS1001肯定)、故障が発生した制御部からエラー信号を出力する(ステップS1002)。
 続いて、クロスバユニット20は、故障が発生した制御部の制御下にあるシステムボード30を判別して、判別されたシステムボード30のエラー信号をシステム制御部40に対して送信する(ステップS1003)。
 その後、クロスバユニット20は、システム制御部40から受け付けた停止指令に応じて、システムボード30の駆動を停止させる(ステップS1004)。
 続いて、クロスバユニット20は、システム制御部40から複写情報を受け付けて、パーティションIDレジスタ23に記録されている情報を更新する(ステップS1005)。
 そして、クロスバユニット20は、システム制御部40から受け付けた再駆動指令に応じて、システムボード30の駆動を再開させ(ステップS1006)、処理を終了する。
 図9に示すように、システム制御部40は、クロスバユニット20からシステムボード30のエラー信号を受け付けると(ステップS2001肯定)、受け付けたシステムボード30に対応するシステムボード30が属するパーティションを特定する(ステップS2002)。
 続いて、システム制御部40は、特定されたパーティションに属する各システムボード30の駆動を停止させる停止指令を送信し(ステップS2003)、パーティションIDレジスタ41に送信不可情報を登録するとともに、パーティションIDレジスタ23を更新する(ステップS2004)。
 続いて、システム制御部40は、送信不可情報が対応付けて記憶されていない旨の判定結果を得たシステムボード30に対応するシステムボード30に対して、再駆動指令を送信し(ステップS2005)、処理を終了する。
[コンピュータシステムによる効果]
 上記したように、コンピュータシステム10によれば、コンピュータシステムの稼働率を低下させずに縮退制御を実行することが可能である。例えば、コンピュータシステム10は、故障が発生した制御部による制御を受けていない各システムボード30の駆動を停止させること無く縮退制御を実行する結果、コンピュータシステムの稼働率を低下させずに縮退制御を実行することが可能である。
 また、コンピュータシステム10によれば、システムボード30と、パーティションのIDとの対応情報に基づいて、故障が発生した制御部の制御下にあるシステムボード30が属するパーティションを特定することができ、もって、コンピュータシステムの稼働率を低下させずに縮退制御を実行することが可能である。
 また、コンピュータシステム10によれば、イネーブル信号と、エラー信号とに基づいて、故障が発生した制御部の制御下にあるシステムボード30を判別することができ、もって、コンピュータシステムの稼働率を低下させずに縮退制御を実行することが可能である。
 また、コンピュータシステム10によれば、故障が発生した制御部の制御下にある各システムボードの中で、故障が発生した制御部に対応するシステムボードを除いた各システムボードの駆動を再開することができ、もって、コンピュータシステムの稼働率を低下させずに縮退制御を実行することが可能である。
 実施例1では、コンピュータシステム10について、具体的な例をあげてさらに詳しく説明する。なお、実施例1では、実施例1に係るコンピュータシステムの構成および実施例1の効果の順に説明する。
[実施例1に係るコンピュータシステムの構成]
 まず図10~図17を用いて、実施例1に係るコンピュータシステムの構成を説明する。以下では、上述したコンピュータシステム10の構成の詳細な点について説明する。
 図10は、実施例1に係るコンピュータシステムの物理的な接続関係を示した図である。図11は、実施例1に係るコンピュータシステムに構築されたパーティションを説明するための図である。図12は、実施例1に係るパーティションIDレジスタに記憶される情報の一例を示した図である。
 また、図13および図14は、実施例1に係るイネーブル信号生成部による処理を説明するための図である。図15は、実施例1に係るイネーブル信号生成部の回路構成の一例を示した図である。図16および図17は、実施例1に係るエラー報告部の回路構成の一例を示した図である。
 実施例1に係るコンピュータシステム10の各構成要素は、図10に示すような、物理的な接続関係を有しているものとする。そして、実施例1に係るコンピュータシステム10には、図11に示すようなパーティションが構築されているものとする。
 第1制御部21は、バスパリティチェッカやプライオリティ矛盾チェッカなどの、第1制御部21に発生した故障を検知する故障チェッカを有する。
 第1制御部21の故障チェッカは、エラー信号が有効であるか否かを示した可否情報と、第1制御部21のIDとを含んだエラー信号をエラー報告部25に対して常に発信する。例えば、第1制御部21の故障チェッカは、例えば、第1制御部21「#0」故障チェッカは、エラー信号「制御部1#0_ERR ‘1’」を発信する。
 ここで、「‘1’」は、エラー信号が有効であることを示し、「‘0’」は、エラー信号が無効であることを示す。
 第2制御部22は、バスチェッカなどの、第2制御部22に発生した故障を検知する故障チェッカを有する。
 第2制御部22の故障チェッカは、エラー信号が有効であるか否かを示した可否情報と、第2制御部22のIDとを含んだエラー信号をエラー報告部25に対して常に発信する。例えば、第2制御部22「#1」の故障チェッカは、エラー信号「制御部2#1_ERR ‘1’」を発信する。
 パーティションIDレジスタ23およびパーティションIDレジスタ41は、図12に示すように、クロスバユニット20ごとに、システムボード30のIDに対応付けて、パーティションのID(PID)と、再駆動指令を送信するか否かを示したバリッド情報(VAL)とを記憶する。
 なお、パーティションIDレジスタ23およびパーティションIDレジスタ41は、システムボード30のエラー信号に対応付けて、システムボード30が接続されるクロスバユニット20のIDを記憶するようにしてもよい。
 イネーブル信号生成部24は、図13もしくは図14に示すマッチング理論を用いて生成されたイネーブル信号を、エラー報告部25に対して常に送信する。また、イネーブル信号生成部24は、図15に示すような回路を有する。
 なお、図13および図15は、クロスバユニット20「#0」が有するイネーブル信号生成部24(以下では、イネーブル信号生成部24「#0」と記載する)に対応し、図14は、クロスバユニット20「#1」が有するイネーブル信号生成部24に対応する。
 なお、イネーブル信号生成部24「#1」には、図15に示した回路について、「SB0」を「SB3」に、「SB1」を「SB4」に、「SB2」を「SB5」に、「SB3」を「SB0」に、「SB4」を「SB1」に、「SB5」を「SB3」にそれぞれ読み替えたものが対応する。
 具体的に一例をあげて説明すると、イネーブル信号生成部24「#0」は、システムボード30が属するパーティションのIDと、コンピュータシステム10に搭載された全てのシステムボード30が属するパーティションのIDとを突き合わせて、同一のパーティション情報であるか否かを判定する(図13の(A)および図15の(A)参照)。
 ここで、図13の(A-1)は、システムボード30「SB0」のパーティション「#1」と、システムボード30「SB0」のパーティション「#1」とが同一であることを示す判定結果「1」が得られたことを意味する。
 また、図13の(A-2)は、システムボード30「SB0」のパーティション「#0」と、システムボード30「SB2」のパーティション「#2」とが同一でないことを示す判定結果「0」が得られたことを意味する。
 続いて、イネーブル信号生成部24「#0」は、この判定結果に基づいて、クロスバユニット20「#0」に接続されている各システムボード30が、クロスバユニット20「#0」が有する第2制御部22の制御下にあるか否かをそれぞれ特定するためのイネーブル信号を生成する(図13の(B)および図15の(B)参照)。
 ここで、図13の(B-1)は、クロスバユニット20「#0」が有する第2制御部22「#1」の制御下にシステムボード30「SB0」がないことを示したイネーブル信号「XB1_ERR_ENB[0]‘0’」が生成されていることを意味する。
 また、図13の(B-2)は、クロスバユニット20「#0」が有する第2制御部22の制御下にシステムボード30「SB2」があることを示したイネーブル信号「XB1_ERR_ENB[2]‘1’」が生成されていることを意味する。
 続いて、イネーブル信号生成部24「#0」は、判定結果と、生成された各イネーブル信号とに基づいて、クロスバユニット20「#0」に接続されている各システムボード30が、クロスバユニット20「#0」が有する第1制御部21の制御下にあるか否かをそれぞれ特定するためのイネーブル信号を生成する(図13の(C)および図15の(C)参照)。
 ここで、図13の(C-1)は、クロスバユニット20「#0」が有する第1制御部21「#0」の制御下にシステムボード30「SB0」があることを示したイネーブル信号「SB0_ERR_ENB[0]‘1’」が生成されていることを意味する。
 また、図13の(C-2)は、クロスバユニット20「#0」が有する第1制御部21「#2」の制御下にシステムボード30「SB0」がないことを示したイネーブル信号「SB0_ERR_ENB[2]‘0’」が生成されていることを意味する。
 エラー報告部25は、図16および図17に示すような回路を有する。そして、エラー報告部25は、システムボード30のIDが有効であるか否かを示した可否情報を含んだシステムボード30のIDをシステム制御部40に対して常に送信する。
 また、エラー報告部25は、第1制御部21の故障チェッカから受け付けたエラー信号をレジスタ更新部44に対して常に送信する。また、エラー報告部25は、第2制御部22のIDと、システムボード30のIDが有効であるか否かを示した可否情報とを含んだシステムボード30のIDをシステム制御部40に対して常に送信する。
 なお、図16および図17は、クロスバユニット20「#0」が有する第1制御部21「#1」に故障が発生していることを前提としている(図11の「故障1」参照)。
 具体的に一例をあげて説明すると、エラー報告部25「#0」は、第1制御部21「#1」の故障チェッカから受け付けたエラー信号「制御部1#0_ERR ‘1’」を、システム制御部40に対して送信する。
 また、エラー報告部25「#0」は、イネーブル信号生成部24「#0」によって生成されたイネーブル信号「SB0_ERR_ENB[0]‘1’」と、エラー信号「制御部1#0_ERR ‘1’」とを突き合わせる(図16の(A)参照)。
 そして、エラー報告部25「#0」は、突き合わせによって得られた各信号(例えば、「制御部1#0_ERR[0] ‘1’」など)の中に、有効であることを示した可否情報「‘1’」を含んだ信号があるか否かを判定する。
 ここで、エラー報告部25「#0」は、有効であることを示した可否情報「‘1’」を含んだ信号があるため、有効であること示した可否情報を含んだシステムボード30「SB0」のID(「PRTITION_ERR_SB0 ‘1’」)をシステム制御部40に対して常に送信する(図17の(A)参照)。
 また、エラー報告部25「#0」は、イネーブル信号生成部24「#0」によって生成されたイネーブル信号「XB1_ERR_ENB[2]‘1’」と、エラー信号「制御部2#1_ERR ‘1’」とを突き合わせる(図16の(B)参照)。
 そして、エラー報告部25「#0」は、突き合わせによって得られた各信号(例えば、「制御部2#1_ERR[0] ‘1’」)をシステム制御部40に対してそれぞれ送信する。
 そして、エラー報告部25「#0」は、突き合わせによって得られた各信号(例えば、「制御部2#1_ERR[2] ‘1’」など)の中に、有効であることを示した可否情報「‘1’」を含んだ信号があるか否かを判定する。
 ここで、エラー報告部25「#0」は、有効であることを示した可否情報「‘1’」を含んだ信号がないため、有効であること示した可否情報を含んだシステムボード30「SB2」のID(「PRTITION_ERR_SB2 ‘0’」)をシステム制御部40に対して常に送信する(図17の(B)参照)。
 パーティション特定部42は、例えば、有効であること示した可否情報を含んだシステムボード30「SB0」のID(「PRTITION_ERR_SB0 ‘1’」)を受け付けた場合に、このエラー報告に含まれているシステムボード30「SB0」エラーを認識する。
 続いてパーティション特定部42は、システムボード30「SB0」に対応するパーティション「ID#1」のIDをパーティションIDレジスタ41から取得する。
 そして、パーティション特定部42は、パーティション「ID#1」をシステムボード30「SB0」が属するパーティションとして特定する。
 停止指令送信部43は、例えば、パーティション「ID#1」が特定された場合に、パーティション「ID#1」のIDに対応するシステムボード30「SB0」およびシステムボード30「SB1」パーティションIDレジスタ41から取得する。
 そして、停止指令送信部43は、システムボード30「SB0」およびシステムボード30「SB1」に対してそれぞれ停止指令を送信する。
 レジスタ更新部44は、例えば、エラー報告部25「#1」からエラー信号「制御部1#1_ERR ‘1’」を受け付けた場合には、クロスバユニット20「#1」が有する第1制御部21「#1」に対応するシステムボード30「SB0」のIDに対応付けて、パーティションIDレジスタ41にバリッド情報「1」を登録する。
 また、レジスタ更新部44は、例えば、エラー報告部25「#1」から「制御部2#1_ERR[0] ‘1’」を受け付けた場合には、この信号に含まれているシステムボード30「SB0」を抽出し、システムボード30「SB0」に対応付けて、パーティションIDレジスタ41にバリッド情報「1」を登録する。
 再駆動指令送信部45は、例えば、停止指令送信部43によってパーティション「ID#1」のIDが取得された場合に、パーティション「ID#1」のIDに対応するシステムボード30「SB0」およびシステムボード30「SB1」に対応付けて、バリッド情報「1」が登録されているか否かを判定する。
 ここで、再駆動指令送信部45は、システムボード30「SB0」に対応付けて、バリッド情報「0」が記憶されていない旨の判定結果を得た場合には、システムボード30「SB0」に対して、再駆動指令を送信する。
[実施例1の効果]
 上記したように、実施例1に係るコンピュータシステム10によれば、クロスバユニット20「#0」が有する第1制御部21「#1」に故障が発生した場合に、システムボード30「SB0」およびシステムボード30「SB1」の駆動を停止することができる。
 また、実施例1に係るコンピュータシステム10によれば、システムボード30「SB0」の駆動を再開することができる。
 このようにすることで、実施例1に係るコンピュータシステム10によれば、コンピュータシステム10の稼働率を低下させずに縮退制御を実行することが可能である。
 実施例2では、コンピュータシステム10について、具体的な別の例をあげて説明する。なお、実施例2では、実施例2に係るコンピュータシステムの構成および実施例2の効果の順に説明する。
[実施例2に係るコンピュータシステムの構成]
 まず、図18~図28を用いて、実施例2に係るコンピュータシステムの構成を説明する。なお、以下では、実施例1に係るコンピュータシステム10の構成と異なる点について説明する。
 図18は、実施例2に係るコンピュータシステムの物理的な接続関係を示した図である。図19は、実施例2に係るコンピュータシステムに構築されたパーティションを説明するための図である。図20は、実施例2に係るパーティションIDレジスタに記憶される情報の一例を示した図である。
 また、図21~図25は、実施例2に係るイネーブル信号生成部による処理を説明するための図である。図26は、実施例2に係るイネーブル信号生成部の回路構成の一例を示した図である。図27および図28は、実施例2に係るエラー報告部の回路構成の一例を示した図である。
 実施例2に係るコンピュータシステム10の各構成要素は、図18に示すような、物理的な接続関係を有しているものとする。そして、実施例2に係るコンピュータシステム10には、図19に示すようなパーティションが構築されているものとする。
 パーティションIDレジスタ23およびパーティションIDレジスタ41は、図20に示すような、システムボード30のIDと、パーティションのID(PID)と、バリッド情報(VAL)とを記憶する。
 イネーブル信号生成部24は、図21~図25に示すマッチング理論を用いて生成されたイネーブル信号を、エラー報告部25に対して常に送信する。また、イネーブル信号生成部24は、図26に示すような回路を有する。
 なお、図21、図22および図26は、イネーブル信号生成部24「#0」に対応し、図23は、イネーブル信号生成部24「#1」に対応し、図24は、イネーブル信号生成部24「#2」に対応し、図25は、イネーブル信号生成部24「#4」に対応する。図22~図26に示したマッチング理論または回路は、説明の便宜上、一部の省略している。
 また、図21~図26の「SBa」は、「SB10」に対応し、「SBb」は、「SB11」に対応し、「SBc」は、「SB12」に対応し、「SBd」は、「SB13」に対応し、「SBe」は、「SB14」に対応し、「SBf」は、「SB15」に対応する。
 エラー報告部25は、図27および図28に示すような回路を有する。なお、図27および図28は、クロスバユニット20「#0」が有する第2制御部22「#3」に故障が発生していることを前提としている(図19の「故障2」参照)。
[実施例2の効果]
 実施例2に係るコンピュータシステム10によれば、クロスバユニット20「#0」が有する第2制御部22「#3」に故障が発生した場合に、システムボード30「SB2」、システムボード30「SB3」、システムボード30「SB13」、システムボード30「SB14」およびシステムボード30「SB15」の駆動を停止することができる。
 また、実施例1に係るコンピュータシステム10によれば、システムボード30「SB13」、システムボード30「SB14」およびシステムボード30「SB15」の駆動を再開することができる。
 このようにすることで、実施例2に係るコンピュータシステム10によれば、コンピュータシステム10の稼働率を低下させずに縮退制御を実行することが可能である。
 さて、本データ処理システム、データ処理方法およびデータ処理プログラムは上述した実施形態以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、実施例3として、他の実施例を説明する。
 例えば、コンピュータシステム10は、故障が発生した制御部と関連する制御部の駆動を停止するようにしても良い。
 具体的に例をあげると、実施例1に係るコンピュータシステム10は、故障1が発生した場合に(図11参照)、クロスバユニット20「#0」が有する第1制御部21「#0」および第1制御部21「#1」の駆動を停止するようにしても良い。
 また、実施例2に係るコンピュータシステム10は、故障2が発生した場合に(図19参照)、クロスバユニット20「#0」が有する第1制御部21「#2」、第1制御部21「#3」、第2制御部22「#3」、および、クロスバユニット20「#3」が有する第1制御部21「#1」、第1制御部21「#2」、第1制御部21「#3」、第2制御部22「#3」の駆動を停止するようにしても良い。
 また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報(例えば、図4、図12および図20に示した記憶情報など)については、特記する場合を除いて任意に変更することができる。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図3に示したパーティション特定部42と、停止指令送信部43とを統合して構成することができる。
 さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され得る。
 ところで、本実施例はあらかじめ用意されたプログラムをコンピュータシステム10で実行することによって実現するようにしてもよい。そこで、以下では、図29を用いて、上記の実施例に示したコンピュータシステム10と同様の機能を有するエラー処理プログラムを実行するコンピュータを一例として説明する。図29は、エラー処理プログラムを実行するコンピュータを示す図である。
 図29に示すように、コンピュータシステム10は、特にROM50を有し、クロスバユニット20は、特にCPU26およびRAM27を有し、システム制御部40は、特にCPU46およびRAM47を有する。
 ROM50には、上記の実施例1に示したコンピュータシステム10と同様の機能を発揮するデータ処理プログラム、つまり、図29に示すようにエラー報告プログラム50aと、イネーブル信号生成プログラム50bと、停止指令送信プログラム50cと、再駆動指令送信プログラム50dと、パーティション特定プログラム50eと、レジスタ更新プログラム50fとが、あらかじめ記憶されている。なお、これらのプログラム130a~プログラム130fについては、図3に示したコンピュータシステム10の各構成要素と同様、適宜統合または、分散してもよい。
 そして、CPU26がエラー報告プログラム50aと、イネーブル信号生成プログラム50bをROM50から読み出して実行し、CPU46が停止指令送信プログラム50cと、再駆動指令送信プログラム50dと、パーティション特定プログラム50eと、レジスタ更新プログラム50fとをROM50から読み出して実行する。
 そして、コンピュータシステム10は、図29に示すように、プログラム50a~プログラム50fを、エラー報告プログラムプロセス26aと、イネーブル信号生成プロセス26bと、停止指令送信プログラム26cと、再駆動指令送信プログラム26dと、パーティション特定プログラム26eと、レジスタ更新プログラム26fして機能させる。なお、プロセス26a~プロセス26fは、図3に示した、イネーブル信号生成部24と、エラー報告部25、パーティション特定部42と、停止指令送信部43と、レジスタ更新部44と、再駆動指令送信部45とにそれぞれ対応する。
 そして、CPU26は、RAM27に格納されたパーティションIDデータ27aに基づいて処理を実行し、CPU46は、RAM47に格納されたパーティションIDデータ47aに基づいて処理を実行する。
 なお、パーティションIDデータ27aは、図3に示した、パーティションIDレジスタ23に対応し、パーティションIDデータ47aは、図3に示した、パーティションIDレジスタ41にそれぞれ対応する。
 なお、上記した各プログラム50a~プログラム50eについては、必ずしも最初からROM50に記憶させておく必要はなく、例えば、コンピュータシステム10に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、またはコンピュータシステム10の内外に備えられるHDDなどの「固定用の物理媒体」、さらには公衆回線、インターネット、LAN、WANなどを介してコンピュータシステム10に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータシステム10がこれから各プログラムを読み出して実行するようにしてもよい。
 なお、本実施例で説明したデータ処理方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。

Claims (6)

  1.  データを処理するデータ処理装置と、
     各データ処理装置間の通信を制御する制御部を有し、当該制御部に故障が発生した場合に、各データ処理装置に一意に付与される処理装置情報の中から、故障が発生した制御部の制御下にある各データ処理装置に対応した処理装置情報をシステム制御装置に対して送信する処理装置情報送信部を有するデータ転送装置と、
     前記データ転送装置から受け付けた各処理装置情報に対応する各データ処理装置が、システム内を論理的に区分してなるパーティションのいずれに属するかを特定し、特定されたパーティションに属する各データ処理装置の駆動を停止させるための停止指令を送信する停止指令送信部を有するシステム制御装置と、
     を有することを特徴とするデータ処理システム。
  2.  前記システム制御装置は、
     各データ処理装置に一意に付与される処理装置情報にそれぞれ対応付けて、データ処理装置が属しているパーティションに一意に付与されるパーティション情報を記憶するパーティション情報記憶部をさらに有し、
     前記停止指令送信部は、前記データ転送装置から受け付けた各処理装置情報に対応するパーティション情報と同一のパーティションに対応付けられた処理装置情報を前記パーティション情報記憶部からそれぞれ取得して、取得された各処理装置情報に対応する各データ処理装置に対してそれぞれ停止指令を送信することを特徴とする請求項1に記載のデータ処理システム。
  3.  前記データ転送装置は、
     前記パーティション情報記憶部に記憶されている前記処理装置情報および前記パーティション情報を複写して生成された複写情報を記憶する複写情報記憶部と、
     前記複写情報記憶部に記憶されているパーティション情報を用いて、前記データ転送装置に接続されている各データ処理装置について故障が発生した制御部の制御下にあるか否かを判別するためのイネーブル信号を生成するイネーブル信号生成部と、
     をさらに有し、
     前記処理装置情報送信部は、前記イネーブル信号生成部によって生成されたイネーブル信号と、故障が発生した制御部から発信されるエラー信号とに基づいて、前記データ転送装置に接続されている各データ処理装置の中から、故障が発生した制御部の制御下にあるデータ処理装置を判別し、判別されたデータ処理装置の処理装置情報をシステム制御装置に対して送信することを特徴とする請求項1に記載のデータ処理システム。
  4.  前記システム制御装置は、
     前記停止指令送信部によって取得された各処理装置情報に対応する各データ処理装置の中から、故障が発生した制御部に対応して縮退されるデータ処理装置を除いた各データ処理装置の駆動を再開させる再駆動指令を送信する再駆動指令送信部と、
     をさらに有することを特徴とする請求項1に記載のデータ処理システム。
  5.  データを処理するデータ処理装置と、
     各データ処理装置間の通信を制御する制御部を有し、当該制御部に故障が発生した場合に、各データ処理装置に一意に付与される処理装置情報の中から、故障が発生した制御部の制御下にある各データ処理装置に対応した処理装置情報をシステム制御装置に対して送信する処理装置情報送信ステップを含んだデータ転送装置と、
     前記データ転送装置から受け付けた各処理装置情報に対応する各データ処理装置が、システム内を論理的に区分してなるパーティションのいずれに属するかを特定し、特定されたパーティションに属する各データ処理装置の駆動を停止させるための停止指令を送信する停止指令送信ステップを含んだシステム制御装置と、
     を有することを特徴とするデータ処理システムによるデータ処理方法。
  6.  データを処理するデータ処理装置と、
     各データ処理装置間の通信を制御する制御部を有し、当該制御部に故障が発生した場合に、各データ処理装置に一意に付与される処理装置情報の中から、故障が発生した制御部の制御下にある各データ処理装置に対応した処理装置情報をシステム制御装置に対して送信する処理装置情報送信手順を実行するデータ転送装置と、
     前記データ転送装置から受け付けた各処理装置情報に対応する各データ処理装置が、システム内を論理的に区分してなるパーティションのいずれに属するかを特定し、特定されたパーティションに属する各データ処理装置の駆動を停止させるための停止指令を送信する停止指令送信手順を実行するシステム制御装置と、
     を有することを特徴とするコンピュータとしてのデータ処理システムによるデータ処理プログラム。
PCT/JP2008/060166 2008-06-02 2008-06-02 データ処理システム、データ処理方法およびデータ処理プログラム WO2009147716A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010515686A JP5212471B2 (ja) 2008-06-02 2008-06-02 データ処理システム、データ処理方法およびデータ処理プログラム
EP08764979.4A EP2302524B1 (en) 2008-06-02 2008-06-02 Data processing system, data processing method, and data processing program
PCT/JP2008/060166 WO2009147716A1 (ja) 2008-06-02 2008-06-02 データ処理システム、データ処理方法およびデータ処理プログラム
US12/926,669 US8806276B2 (en) 2008-06-02 2010-12-02 Control system for driving a data processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/060166 WO2009147716A1 (ja) 2008-06-02 2008-06-02 データ処理システム、データ処理方法およびデータ処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/926,669 Continuation US8806276B2 (en) 2008-06-02 2010-12-02 Control system for driving a data processing apparatus

Publications (1)

Publication Number Publication Date
WO2009147716A1 true WO2009147716A1 (ja) 2009-12-10

Family

ID=41397807

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/060166 WO2009147716A1 (ja) 2008-06-02 2008-06-02 データ処理システム、データ処理方法およびデータ処理プログラム

Country Status (4)

Country Link
US (1) US8806276B2 (ja)
EP (1) EP2302524B1 (ja)
JP (1) JP5212471B2 (ja)
WO (1) WO2009147716A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015151239A1 (ja) * 2014-04-02 2015-10-08 株式会社日立製作所 通信用半導体集積回路、ストレージ装置およびストレージ装置の障害管理方法
CN106649044A (zh) * 2016-12-28 2017-05-10 深圳市深信服电子科技有限公司 一种基于容器云系统的日志处理方法、装置及其系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134546A (ja) * 1999-11-05 2001-05-18 Nec Corp マルチプロセッサシステムの障害処理方法
JP2002229811A (ja) * 2001-02-05 2002-08-16 Nec Eng Ltd 論理分割システムの制御方法
JP2003076671A (ja) * 2001-06-29 2003-03-14 Fujitsu Ltd 共有リソースを有し、区画に分割されたシステムにおけるエラー抑制及びエラー処理
JP2004062535A (ja) * 2002-07-29 2004-02-26 Nec Corp マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP2006031199A (ja) 2004-07-14 2006-02-02 Nec Computertechno Ltd 大規模システム、クロスバ装置及びそれらに用いる障害通知方法
JP2006260325A (ja) * 2005-03-18 2006-09-28 Fujitsu Ltd 障害の伝達方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6085334A (en) * 1998-04-17 2000-07-04 Motorola, Inc. Method and apparatus for testing an integrated memory device
US7380001B2 (en) * 2001-05-17 2008-05-27 Fujitsu Limited Fault containment and error handling in a partitioned system with shared resources
US6910108B2 (en) * 2002-01-09 2005-06-21 International Business Machines Corporation Hardware support for partitioning a multiprocessor system to allow distinct operating systems
US7024510B2 (en) * 2003-03-17 2006-04-04 Hewlett-Packard Development Company, L.P. Supporting a host-to-input/output (I/O) bridge
US7313717B2 (en) * 2003-04-17 2007-12-25 Sun Microsystems, Inc. Error management
US7430691B2 (en) * 2003-10-09 2008-09-30 International Business Machines Corporation Method, system, and product for providing extended error handling capability in host bridges
US7343515B1 (en) * 2004-09-30 2008-03-11 Unisys Corporation System and method for performing error recovery in a data processing system having multiple processing partitions
WO2007088575A1 (ja) * 2006-01-31 2007-08-09 Fujitsu Limited システム監視装置の制御方法、プログラム及びコンピュータシステム
JP5051121B2 (ja) * 2006-02-28 2012-10-17 富士通株式会社 パーティションプライオリティ制御システムおよび方法
US7743375B2 (en) * 2008-06-27 2010-06-22 International Business Machines Corporation Information handling system including dynamically merged physical partitions
US8140717B2 (en) * 2008-09-26 2012-03-20 International Business Machines Corporation Controlling access to physical indicators in a logically partitioned computer system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134546A (ja) * 1999-11-05 2001-05-18 Nec Corp マルチプロセッサシステムの障害処理方法
JP2002229811A (ja) * 2001-02-05 2002-08-16 Nec Eng Ltd 論理分割システムの制御方法
JP2003076671A (ja) * 2001-06-29 2003-03-14 Fujitsu Ltd 共有リソースを有し、区画に分割されたシステムにおけるエラー抑制及びエラー処理
JP2004062535A (ja) * 2002-07-29 2004-02-26 Nec Corp マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP2006031199A (ja) 2004-07-14 2006-02-02 Nec Computertechno Ltd 大規模システム、クロスバ装置及びそれらに用いる障害通知方法
JP2006260325A (ja) * 2005-03-18 2006-09-28 Fujitsu Ltd 障害の伝達方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015151239A1 (ja) * 2014-04-02 2015-10-08 株式会社日立製作所 通信用半導体集積回路、ストレージ装置およびストレージ装置の障害管理方法
JPWO2015151239A1 (ja) * 2014-04-02 2017-04-13 株式会社日立製作所 通信用半導体集積回路、ストレージ装置およびストレージ装置の障害管理方法
US10055279B2 (en) 2014-04-02 2018-08-21 Hitachi, Ltd. Semiconductor integrated circuit for communication, storage apparatus, and method for managing failure in storage apparatus
CN106649044A (zh) * 2016-12-28 2017-05-10 深圳市深信服电子科技有限公司 一种基于容器云系统的日志处理方法、装置及其系统

Also Published As

Publication number Publication date
US8806276B2 (en) 2014-08-12
EP2302524A4 (en) 2012-06-20
JPWO2009147716A1 (ja) 2011-10-20
EP2302524A1 (en) 2011-03-30
US20110173494A1 (en) 2011-07-14
EP2302524B1 (en) 2019-01-23
JP5212471B2 (ja) 2013-06-19

Similar Documents

Publication Publication Date Title
JP6976729B2 (ja) 通信装置、通信方法、プログラム、および、通信システム
CN102904927B (zh) 具有时间相关证书的分布式计算机系统
CN102081574B (zh) 用于加快系统的唤醒时间的方法和系统
US9507664B2 (en) Storage system including a plurality of storage units, a management device, and an information processing apparatus, and method for controlling the storage system
US7568054B2 (en) Duplicate synchronization system and method of operating duplicate synchronization system
US20100100776A1 (en) Information processing apparatus, failure processing method, and recording medium in which failure processing program is recorded
KR20200017839A (ko) 열차간 합의에 의한 선로 자원 공유 방법 및 그 장치
CN101158915B (zh) 作为修改记录操作的部分的核实记录的方法和系统
JP5212471B2 (ja) データ処理システム、データ処理方法およびデータ処理プログラム
CN107817951A (zh) 一种实现Ceph集群融合的方法及装置
CN102750109A (zh) 资料同步系统及方法
CN105892954A (zh) 基于多副本的数据存储方法和装置
JP4985642B2 (ja) 初期診断プログラムの管理装置、管理方法およびプログラム
CN107547255A (zh) 集群系统的升级方法、主用主控板及集群系统
JP7131363B2 (ja) ライセンス管理装置、ライセンス管理システム、ライセンス管理方法、プログラム
JP6976728B2 (ja) 通信装置、通信方法、プログラム、および、通信システム
JP4555781B2 (ja) 分散型連動システムにおける監視方式
KR102503558B1 (ko) 이력 무결성 시스템이 구비된 열차제어장치
JP6701846B2 (ja) 管理装置、バックアップシステム、バックアップ管理方法、プログラム
US8549221B2 (en) RAID management apparatus, RAID management method, and computer product
KR100227779B1 (ko) 고속병렬 컴퓨터의 부트 섹터 구성 방법
JP2000276308A (ja) ディスクサブシステム及びディスクサブシステムにおけるデータ復元方法
JP2007323190A (ja) データ通信を行う計算制御システム及びその通信方法
CN118567554A (zh) 集群多机的数据完整性校验方法、装置及设备
JP2006092166A (ja) ライブラリ制御システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08764979

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010515686

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2008764979

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE