WO2010070713A1 - 情報処理装置、制御方法 - Google Patents

情報処理装置、制御方法 Download PDF

Info

Publication number
WO2010070713A1
WO2010070713A1 PCT/JP2008/003858 JP2008003858W WO2010070713A1 WO 2010070713 A1 WO2010070713 A1 WO 2010070713A1 JP 2008003858 W JP2008003858 W JP 2008003858W WO 2010070713 A1 WO2010070713 A1 WO 2010070713A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
control
data
transmission
processing apparatus
Prior art date
Application number
PCT/JP2008/003858
Other languages
English (en)
French (fr)
Inventor
今河環
松森和
沼田道男
前河利治
酒井聡
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2008/003858 priority Critical patent/WO2010070713A1/ja
Publication of WO2010070713A1 publication Critical patent/WO2010070713A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/348Circuit details, i.e. tracer hardware

Definitions

  • the present invention relates to an information processing system in which a control board for controlling computer hardware has a redundant configuration.
  • Such an information processing system is, for example, a server that can be used for many purposes, and is a system that achieves high reliability by making a control mechanism (control board) redundant.
  • one control board controls computer hardware (management and monitoring of computer hardware) as the current use.
  • the other spare control boards are in a standby state in preparation for a case where the active (active) control board fails.
  • the information processing apparatus switches the spare control board to the current one.
  • control board is switched uniformly regardless of the cause of the failure, the failure is detected, and the current control board is replaced. Therefore, even when the cause of failure is not in the control board, there has been a problem that the control board is unnecessarily replaced.
  • an object of the information processing apparatus is to improve maintenance of the entire information processing apparatus by switching paths without unnecessarily replacing a current control board even if a communication failure occurs.
  • a command that instructs transmission / reception of data necessary for the monitoring of the calculation processing apparatus is generated Necessary for monitoring the calculation processing device, and an in-operation control unit including a first processing unit, a first data transfer unit that transmits and receives data to and from the calculation processing device in response to a command from the first processing unit
  • Preliminary control comprising a second processing unit that generates a command for instructing transmission / reception of correct data, and a second data transfer unit that transmits / receives data to / from the calculation processing device in response to a command from the second processing unit
  • the first data transfer including a first processing unit, a first data transfer unit that transmits and receives data to and from the calculation processing device in response to a command from the first processing unit
  • Preliminary control comprising a second processing unit that generates a command for
  • SYMBOLS 100 Information processing apparatus 101 ... Control board 102 ... Control board 103 ... Computer hardware component 104 ... Computer hardware component 105 ... Processor 106 ... Control device 107 ... Memory 108 ... Control part 109 ... Transmission / reception part 110 ... Transmission / reception part 111 ... Communication Unit 119 ... Target control device 120 ... Control unit 121 ... Transmission / reception unit 122 ... Transmission / reception unit 123 ... ASIC 124 ... ASIC DESCRIPTION OF SYMBOLS 201 ... Transmission circuit 202 ... Reception circuit 203 ... Failure detection circuit 204 ... Failure detection flag 209 ... Transmission control circuit 210 ... Reception control circuit 211 ... Comparison mechanism 212 ... Transmission / reception circuit 213 ... Failure detection flag 214 ... Double failure detection flag 215 ... Failure detection flag 216 ... Double failure detection flag
  • the information processing apparatus 100 is a server that can be used for many purposes, for example, and is an apparatus that realizes high reliability.
  • FIG. 1 is a hardware block diagram of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 includes control boards 101 and 102 and computer hardware components 103 and 104.
  • the control board 101 and the control board 102 have a redundant configuration, and the control mechanism is duplicated by the control boards 101 and 102.
  • duplexing of paths connecting the control board 101 and the computer hardware components 103 and 104 is realized.
  • a duplex path for connecting the control board 102 and the computer hardware components 103 and 104 is realized. Then, the information processing apparatus 100 can determine the type of communication failure between the control board 101 and the computer hardware components 103 and 104 and prevent unnecessary switching between the control board 101 and the control board 102.
  • the information processing apparatus 100 cannot always communicate with the computer hardware component 103 even if the control board 102 is switched to the current one. Therefore, the information processing apparatus 100 provides a path between the control board 101 and the control board 102 to duplicate the path connecting the control board 101 and the computer hardware component 103. That is, by providing a path between the control board 101 and the control board 102, the control board 101 can communicate with the computer hardware component 103 via the control board 102.
  • the information processing apparatus 100 performs switching between the paths 10 and 12 or switching between the control boards 101 and 102 according to the cause of the communication failure between the control board 101 and the computer hardware component 103. Accordingly, when the control board 101 cannot communicate with the computer hardware component 103 due to a failure of the computer hardware component 103, the control board 101 communicates with the computer hardware component 103 via the control board 102 and the path 12. , And communicate with the computer hardware component 104 via path 11. As a result, the information processing apparatus 100 can prevent unnecessary switching between the control boards 101 and 102, and can continue the processing more efficiently than in the past even if a failure occurs.
  • the communication path switching operation performed by the information processing apparatus 100 is switching between the path 10 and the path 12 and switching operation between the path 11 and the path 13.
  • the control boards 101 and 102 are units that collectively control the operation of the information processing apparatus 100, respectively.
  • the control board 101 is active, that is, in an active state, and controls the computer hardware components 103 and 104.
  • the control board 102 is a spare for the control board 101, and prepares for the failure of the control board 101 in the standby state. That is, the control boat 101 and the control board 102 have a redundant configuration.
  • the active state of the control board 101 is a state in which the control board 101 is communicating with the computer hardware components 103 and 104 and is controlling the computer hardware components 103 and 104.
  • the computer hardware components 103 and 104 are units that perform calculation processing.
  • the computer hardware components 103 and 104 transmit and receive data necessary for management and the like to and from the control board 101 based on instructions received from the control board 101. Therefore, the instructions received by the computer hardware components 103 and 104 from the control board 101 are instructions related to monitoring and control of the information processing apparatus 100.
  • the standby state of the control board 102 is a state where the control board 102 is not controlling the computer hardware component 103.
  • the control board 102 takes over the control processing of the control board 101.
  • the control performed by the control board 101 for the computer hardware components 103 and 104 is the power ON / OFF of the computer hardware components 103 and 104, the temperature monitoring of the devices mounted on the computer hardware components 103 and 104, For example, management of validity / invalidity of electrical connection.
  • the control board 101 includes a processor 105, a control device 106, and a memory 107.
  • the control board 101 uses these units to control the computer hardware components 103 and 104.
  • the control board 102 includes a processor 112, a control device 113, and a memory 114.
  • the control board 101 breaks down, the control board 102 switched from the standby to the current one uses these units to control the computer hardware component 103.
  • the processor 105 instructs the control device 106 to transfer data to and from the target control device 121.
  • the processor 105 instructs the start of data transfer performed by the control device 106 and the setting of the control device 106 associated therewith.
  • the processor 105 analyzes data stored in the memory 107 and manages and monitors the computer hardware components 103 and 104.
  • the processor 105 refers to the temperature information of the LSI such as the ASICs 123, 124, 129, and 130 installed in the computer hardware components 103 and 104 from the memory 107, and performs LSI temperature monitoring.
  • the processor 104 refers to the voltage information of the LSI mounted on the computer hardware components 103 and 104 from the memory 107 and monitors the voltage of the LSI.
  • the processor 104 notifies the processing request to the processor 112 on the control board 102.
  • the processing request here is an instruction from the processor 105 to the control device 106.
  • the processor 105 notifies the processor 112 of a processing request to the control device 106 of the processor 104, so that even if the processing request is shared between the control boards 101 and 102 and a failure occurs in the control board 101, the information processing apparatus 100 Switching from the control board 101 to the control board 102 is possible.
  • the control device 106 on the control board 101 performs data transfer with the computer hardware components 103 and 104 in accordance with an instruction (command) from the processor 105. More specifically, the control device 106 receives the target control device 119 mounted in the computer hardware component 103 and the target control device 125 mounted in the computer hardware component 104 and data in accordance with an instruction from the processor 105. Perform the transfer.
  • Control devices 106 and 113 are devices having a function of DMA (Direct Memory Access) master. That is, the control device 106 performs DMA transfer with the target control devices 119 and 125 without using the processor 105. Similarly, when the control device 113 performs data transfer with the target control devices 119 and 125, the control device 113 performs DMA transfer without using the processor 112.
  • DMA Direct Memory Access
  • the control device 106 includes a control unit 108, transmission / reception units 109 and 110, and a communication unit 111.
  • the control device 113 includes a control unit 115, transmission / reception units 116 and 117, and a communication unit 118.
  • the control device 106 is connected to the computer hardware component 103 via the transmission / reception unit 109 (path 10), and is connected to the computer hardware component 104 via the transmission / reception unit 110 (path 11).
  • the control device 113 is connected to the computer hardware component 103 via the transmission / reception unit 116 (path 12), and is connected to the computer hardware component 104 via the transmission / reception unit 117 (path 13).
  • the communication unit 111 of the control device 106 and the communication unit 118 of the control device 113 are connected by the communication path 14.
  • FIG. 2 is a detailed hardware block diagram of the control device 106 according to the present embodiment. The detailed operation of the control device 106 is described in [2. A configuration diagram of the control device 106] will be described later.
  • the memory 107 is a storage unit that stores data that the control device 106 reads from the target control devices 121 and 127 and data that the control device 106 writes to the target control devices 121 and 127.
  • the memory 114 is a storage unit that stores data that the control device 113 reads from the target control devices 121 and 127 and data that the control device 113 writes to the target control devices 121 and 127. [1.2.
  • the computer hardware component 103 is a unit that performs calculation processing, and is a unit that performs main processing among the processing executed by the information processing apparatus 100.
  • the computer hardware component 104 is also a unit that performs calculation processing.
  • the computer hardware component 103 includes a target control device 119 and ASICs 123 and 124.
  • the computer hardware component 104 has a target control device 125 and ASICs 129 and 130.
  • the ASICs 123, 124, 129, and 130 are custom LSIs and are dedicated circuits used for specific applications.
  • the target control device 119 is connected to the ASICs 123 and 124.
  • the target control device 125 is connected to the ASICs 129 and 130. Similar to the control devices 106 and 113, the target control devices 119 and 125 also have a DMA master function.
  • the target control devices 119 and 125 also perform DMA transfer with the control devices 106 and 113 without using the CPU mounted on the computer hardware components 103 and 104, respectively. Then, for example, the target control device 119 analyzes the command transferred from the control device 106 or the control device 113, executes the operation of the ASICs 123 and 124, and transmits the processing results received from the ASICs 123 and 124 to the control devices 106 and 113. To do.
  • the target control device 125 analyzes the command transferred from the control device 106 or the control device 113, executes the operation of the ASICs 129 and 130, and transmits the processing result received from the ASICs 129 and 130 to the control devices 106 and 113. To do.
  • the target control device 119 has a control unit 120 and transmission / reception units 121 and 122.
  • the control unit 120 receives a command transferred from the control boards 101 and 102, more specifically, the control devices 106 and 113 via the transmission / reception units 121 and 122, and performs command analysis.
  • the control unit 120 executes the operation of the ASICs 123 and 124 from the analysis results, and the processing results received from the ASICs 123 and 124 are transmitted to the control boards 101 and 102, more specifically, the control devices 106 and 113 via the transmission / reception units 121 and 122.
  • the transmission / reception unit 121 is connected to the transmission / reception unit 109 of the control device 106 via the path 10.
  • the transmission / reception unit 122 is connected to the transmission / reception unit 116 of the control device 113 via the path 12.
  • the target control device 125 also includes a control unit 126 and transmission / reception units 127 and 128.
  • the control unit 126 receives a command transferred from the control boards 101 and 102, more specifically the control devices 106 and 113 via the transmission / reception units 127 and 128, and performs command analysis. Then, the control unit 126 executes the operation of the ASICs 129 and 130 from the analysis result, and receives the processing results received from the ASICs 129 and 130 via the transmission / reception units 127 and 128, more specifically, the control device 106. , 113.
  • the transmission / reception unit 127 is connected to the transmission / reception unit 110 of the control device 106 via the path 11.
  • the transmission / reception unit 128 is connected to the transmission / reception unit 117 of the control device 113 via the path 13.
  • the computer hardware component 103 includes LSIs necessary for calculation processing in addition to the ASICs 123 and 124, but is not shown in FIG. 1 for simplification.
  • the computer hardware component 104 includes LSIs necessary for calculation processing in addition to the ASICs 129 and 130.
  • FIG. 2 is a detailed hardware block diagram of the control device 106 according to the present embodiment. As described above, the control device 106 is a unit that performs DMA transfer with the target control device 119 of the computer hardware component 103 and the target control device 125 of the computer hardware component 104.
  • the control device 106 includes a control unit 108, transmission / reception units 109 and 110, and a communication unit 111.
  • the control device 106 includes a communication unit 111, and the communication unit 111 is connected to the communication unit 118 of the control device 102 through the communication path 14.
  • the control unit 108 is a unit that receives a processing request from the processor 105, analyzes the received command, and comprehensively controls the DMA transfer executed by the control device 106.
  • the processing request is an instruction to set each register (not shown) included in the control device 106, an instruction to start processing of DMA transfer, or the like.
  • the control unit 108 is connected to the processor 105 and the memory 107. Further, the control unit 108 is connected to the transmission / reception units 109 and 110 and the communication unit 111.
  • the control unit 108 transmits a processing request (command) to the transmission / reception unit 109 and controls command transmission to the target control device 119 via the transmission / reception unit 109.
  • the control unit 108 transmits a processing request (command) to the transmission / reception unit 110 and controls command transmission to the target control device 125 via the transmission / reception unit 110.
  • the transmission / reception unit 109 includes a transmission circuit 201, a reception circuit 202, and a failure detection circuit 203.
  • the transmission circuit 201, the reception circuit 202, and the failure detection circuit 203 are each connected to the control unit 108.
  • the transmission circuit 201, the reception circuit 202, and the failure detection circuit 203 are connected to the target control device 119 via the path 10.
  • the transmission circuit 201 transmits data (packets) to be DMA transferred to the target control device 119 (more specifically, the reception circuit of the target control device 119).
  • the reception circuit 202 receives data (packets) for DMA transfer from the target control device 119 (more specifically, the transmission circuit of the target control device 119).
  • the failure detection circuit 203 has an area for recording a failure detection flag 204.
  • the failure detection flag 204 is a flag that is set when the failure detection circuit 203 detects a communication failure in the path 10.
  • the failure detection circuit 203 transmits the value set in the failure detection flag 204 to the control unit 108 as a failure detection signal.
  • the communication failure of the path 10 detected by the failure detection circuit 203 includes, for example, transmission timeout and reception data abnormality.
  • the transmission timeout means that the reception circuit 202 does not receive a result for the command or data (packet) transmitted from the transmission circuit 201 to the target control device 119 from the target control device 119 within a predetermined time.
  • the abnormality of the received data means that an error exists in the data received by the receiving circuit 202 from the target control device 119.
  • the control unit 108 analyzes the failure detection signal and the failure detection status in the control device 113 of the control board 102 and reports the failure of the path 10 to the processor 105.
  • the analysis of the failure detection status in the control device 113 is an analysis of whether or not the control device 113 can communicate with the computer hardware component 103 via the path 12. Specifically, for example, when the transmission / reception unit 116 of the control device 113 cannot communicate with the computer hardware component 103 via the path 12, the communication unit 118 of the control device 113 transmits an error packet to the communication unit 111. In this case, the communication unit 111 transmits a double failure detection signal to the control unit 108. Then, the control unit 108 reports to the processor that both paths 10 and 12 are faulty.
  • the double failure detection signal is a signal indicating that the control device 106 cannot transmit / receive data via the computer hardware component 103 and either of the paths
  • the transmission / reception unit 110 includes a transmission circuit 205, a reception circuit 206, and a failure detection circuit 207.
  • the transmission circuit 205, the reception circuit 206, and the failure detection circuit 207 are connected to the control unit 108.
  • the transmission circuit 205, the reception circuit 206, and the failure detection circuit 207 are connected to the target control device 125 via the path 11.
  • the transmission circuit 205 transmits data (packets) to be DMA transferred to the target control device 125 (more specifically, the reception circuit of the target control device 125).
  • the reception circuit 206 receives data (packets) to be DMA transferred from the target control device 125 (more specifically, the transmission circuit of the target control device 125).
  • the failure detection circuit 207 has an area for recording the failure detection flag 208.
  • the failure detection flag 208 is a flag that is set when the failure detection circuit 207 detects a communication failure in the path 11.
  • the failure detection circuit 203 transmits the value set in the failure detection flag 208 to the control unit 108 as a failure detection signal.
  • the communication failure of the path 11 detected by the failure detection circuit 207 includes, for example, transmission timeout and reception data abnormality.
  • the transmission timeout means that the reception circuit 206 does not receive a result for the command or data (packet) transmitted from the transmission circuit 205 to the target control device 125 within a predetermined time from the target control device 125.
  • the abnormality of received data means that an error exists in data received by the receiving circuit 206 from the target control device 125.
  • the control unit 108 analyzes the failure detection signal and the failure detection status in the control device 113 of the control board 102 and reports the failure of the path 11 to the processor 105.
  • the communication unit 111 is a unit that controls communication between the control device 106 and the control device 113.
  • the communication unit 111 is connected to the communication unit 118 included in the control device 113.
  • the communication unit 111 and the communication unit 118 are connected by a serial line, and are connected by a data transmission line and a data reception line.
  • the communication unit 111 and the communication unit 118 are connected via a serial line, so that the number of signal lines is reduced compared to the case where the communication unit 111 and the communication unit 118 are connected via a parallel line. Can be connected.
  • the control unit 108 transmits data to the communication unit 118 via the communication unit 111.
  • the control unit 115 transmits a command and data to the communication unit 111 via the communication unit 118.
  • the communication unit 111 selects the transmission / reception unit 109 or the transmission / reception unit 110 as a destination to which the command and data received from the communication unit 118 are transmitted. Then, the transmission / reception unit 111 transmits the command and data received from the communication unit 118 to the selected transmission / reception unit 109 or the transmission / reception unit 110.
  • the communication unit 111 includes a transmission control circuit 209, a reception control circuit 210, a comparison mechanism 211, and a transmission / reception circuit 212.
  • the reception control circuit 210 has failure detection flags 213 and 215 and double failure detection flags 214 and 216.
  • FIG. 3 is a hardware block diagram of the transmission control circuit 209 according to the present embodiment.
  • the transmission control circuit 209 has a packet conversion circuit 301.
  • the transmission control circuit 209 is connected to the transmission / reception circuit 212.
  • the packet conversion circuit 301 generates a packet that can be transmitted to the communication unit 118 using the packet received from the control unit 108 and transmits the packet to the transmission / reception circuit 212.
  • the packet conversion circuit 301 generates a packet that can pass through the communication path 14 and transmits the packet to the transmission / reception circuit 212.
  • the transmission / reception circuit 209 is connected to the control unit 108.
  • the packet conversion circuit 301 transmits a packet received from the control unit 108 to any transmission / reception unit (the transmission / reception unit 116 or the transmission / reception unit 117) installed in the control device 113.
  • the information indicating whether to do is added.
  • the packet conversion circuit 301 also selects a transmission destination (transmission / reception unit 116 or transmission / reception unit 117) indicated by the added information based on the failure detection signal received from the failure detection circuits 203 and 207.
  • the transmission control circuit 209 receives a failure detection signal from both of the failure detection circuits 203 and 207. Therefore, in this case, the packet conversion circuit 301 selects both the transmission / reception unit 116 and the transmission / reception unit 117 as packet transmission destinations. Information indicating that the packet conversion circuit 301 transmits a packet received from the control unit 108 (more specifically, the transmission / reception units 109 and 110 via the control unit 108) to both the transmission / reception unit 116 and the transmission / reception unit 117. And the generated packet is transmitted to the transmission / reception circuit 212. Note that the control unit 115 of the control device 113 performs DMA transfer processing to only one computer hardware component at a time. Therefore, only one packet transmitted to either computer hardware component by the transmission / reception unit 116 or the transmission / reception unit 117 is a valid packet, and there is no problem even if it is transmitted to both.
  • the selector 302 When the selector 302 receives both the packet (transmission data) and the failure detection signal indicating that the failure detection flag 204 is ON from the transmission / reception unit 109 via the control unit 108, the received packet is transferred to the selector 304.
  • the selector 303 receives both the packet (transmission data) and the failure detection signal indicating that the failure detection flag 208 is on from the transmission / reception unit 110 via the control unit 108, the selector 303 transfers the transmission data to the selector 304. .
  • the selector 304 When the selector 304 receives packets from both of the transmission / reception units 109 and 110 via the selectors 302 and 303, the selector 304 sequentially transfers each packet to the packet conversion circuit 301.
  • FIG. 4 is a hardware block diagram of the reception control circuit 210 according to the embodiment.
  • the reception control circuit 210 has a packet conversion circuit 401.
  • the reception control circuit 210 has failure detection flags 213 and 215 and double failure detection flags 214 and 216.
  • the reception control circuit 210 receives commands and data (packets) from the communication unit 118 of the control device 102.
  • the reception control circuit 210 receives a failure detection signal from the failure detection circuits 203 and 207.
  • the packet conversion circuit 401 receives a packet (received data) received from the communication unit 118 of the control device 113 via either a path between the control unit 108 and the transmission / reception unit 109 or a path between the transmission / reception unit 110. Select whether to transmit to the control unit 108.
  • the packet conversion circuit 401 receives the transmission path (108-109 path or 108-110 path) of the received data based on the failure detection signal received from the fault detection circuit 203, 207, the fault and the information added to the received data.
  • the information added to the received data is information added by the transmission control circuit 209 included in the communication unit 118, and any transmission / reception unit (transmission / reception unit 109 or This is information indicating whether the packet corresponds to the transmission / reception unit 110).
  • the packet conversion circuit 401 transmits the packet from the transmission / reception unit 116 to the control unit 108 through the selector 402. However, when the selector 402 does not receive the failure detection signal from the failure detection circuit 203, the packet conversion circuit 401 transfers the packet from the packet conversion circuit 401. Packets are not transmitted to the control unit 108. The packet conversion circuit 401 transmits the packet from the transmission / reception unit 117 to the control unit 108 through the selector 403. However, when the selector 403 has not received a failure detection signal from the failure detection circuit 207, the selector 403 does not transmit the packet transferred from the packet conversion circuit 401 to the control unit 108.
  • the reception control circuit 210 controls the setting of each flag, that is, the failure detection flags 213 and 215 and the double failure detection flags 214 and 216.
  • the reception control circuit 210 sets a failure detection flag 213 when receiving an error packet based on a failure detection signal of the transmission / reception unit 116 from the communication unit 118. Also, when an error packet is received by the failure detection signal of the transmission / reception unit 117, the failure detection flag 215 is set.
  • the selector 404 of the reception control circuit 210 receives the failure detection signal from the failure detection circuit 203 and further receives an error packet based on the failure detection signal from the transmission / reception unit 116, the double failure detection flag 214 is set.
  • FIG. 9 is a configuration diagram of the control board 101 showing details of the comparison mechanism 211 according to the present embodiment.
  • the comparison mechanism 211 includes a comparison circuit 901 and a memory 904.
  • the comparison circuit 901 includes a failure number counter 902 and a comparator 903.
  • the failure number counter 902 counts failure detection signals transmitted from the failure detection circuits 203 and 207. If both of the failure detection flags 204 and 208 are on, the failure number counter 902 indicates “2”. If either of the failure detection flags 204 and 208 is on, the failure number counter 902 indicates “1”. If both of the failure detection flags 204 and 208 are OFF, the failure number counter 902 indicates “0”.
  • the memory 904 holds a predetermined threshold value.
  • the comparator 1003 compares the value indicated by the failure number counter 904 with the threshold value stored in the memory 904. When the comparator 903 determines that the value indicated by the failure detection counter 904 is greater than the threshold value, the comparator 903 transmits an error report to the control unit 108.
  • the threshold stored in the memory 904 is “1”. Therefore, the comparator 903 transmits an error report to the control unit 108 when the value indicated by the failure detection counter 904 is “2”, that is, when both the failure detection flags 204 and 208 are on.
  • the information processing apparatus 100 in the present embodiment switches from the control board 101 to the control board 102 as the current control board. This is because both paths 10 and 11 are faulty, and the control board 101 cannot control the computer hardware components 103 and 104.
  • the communication failure that can be remedied in the information processing apparatus 100 is a failure that occurs in any of the following locations.
  • the failure location is a part of the transmission / reception unit in the control device 106, that is, the transmission / reception unit 109 or the transmission / reception unit 110, a part of the transmission / reception unit in the target control device 119 (transmission / reception unit 121 or transmission / reception unit 122) , One of the paths 11.
  • the control board 101 is for current use, and the control board 102 is for standby use.
  • the transmission / reception circuit 212 is a unit that performs packet transmission / reception between the control board 101 and the control board 102.
  • the transmission / reception circuit 212 transmits data in the control device 106 to the control device 113 and receives data in the control device 113 from the control device 113.
  • the control board 101 controls the computer hardware components 103 and 104 for the current use, and the control board 102 stands by for the standby use.
  • the control boards 101 and 102 control the computer hardware components 103 and 104 by transferring commands and data (packets) to and from the computer hardware components 103 and 104.
  • FIG. 5 is a diagram illustrating a normal operation of the information processing apparatus 100 according to the present embodiment.
  • a program operating on the current control board 101 controls the computer hardware components 103 and 104.
  • the control board 101 controls the computer hardware component 103 by transferring the packet through the following route.
  • the processor 105 issues a command to the control unit 108 (A).
  • the issued command includes information for identifying the target computer hardware component 103 and information on the operation executed by the control unit 108.
  • the control unit 108 analyzes the command received from the processor 105 and generates a control packet.
  • the control unit 108 transmits a control packet to the transmission / reception unit 109 (B).
  • the transmission / reception unit 109 transmits a control packet to the transmission / reception unit 121 via the path 10 (C). At this time, the failure detection flag 204 in the transmission / reception unit 109 is off.
  • the transmission / reception unit 121 transmits the control packet received from the transmission / reception unit 109 to the control unit 120 (D).
  • the control unit 120 converts the control packet into a control command for the ASICs 123 and 124, and executes control of the ASICs 123 and 124 (E).
  • the control unit 120 transmits the execution result as a reply packet to the transmission / reception unit 121 (F).
  • the transmission / reception unit 121 transmits a reply packet to the transmission / reception unit 109 via the path 10 (G).
  • the transmission / reception unit 109 transmits the received reply packet to the control unit 108 (H).
  • the control unit 108 transmits a reply packet to the processor 105 and returns an execution result (I).
  • FIG. 6 is a diagram illustrating a path switching operation by hardware execution of the information processing apparatus 100 according to the present embodiment.
  • the control unit 105 continues the operation of the re-executed command using the switched path.
  • the information processing apparatus 100 can continue the operation of the information processing apparatus 100 only by switching the path from the path 10 to the path 12 without switching the control boards 101 and 102.
  • a series of path switching operations in the information processing apparatus 100 will be described.
  • the processor 105 of the control board 101 issues a command to the control unit 108 (A).
  • the issued command includes information for identifying the target computer hardware component 103 and information on the operation executed by the control unit 108.
  • the control unit 108 analyzes the received command and generates a control packet. Then, the control unit 108 transmits the control packet to the transmission / reception unit 109 (B).
  • the transmission / reception unit 109 transmits a control packet to the transmission / reception unit 121 via the path 10 (C).
  • the transmission / reception unit 109 detects a communication failure via the path 10 (D).
  • a failure in communication via the path 10 indicates a failure in the transmission / reception unit 109, a failure in the transmission / reception unit 121, or a failure in the path 10.
  • the transmission / reception unit 109 turns on the failure detection flag 204 in response to the failure detection (E).
  • the hardware re-execution processing unit 61 mounted in the control unit 108 detects that the failure detection flag 204 is on, and stops the command processing. Then, the re-execution processing unit 61 returns the internal state of the control unit 108 before the start of command processing (F).
  • the re-execution processing unit 61 of the control unit 108 re-executes the executed command (G).
  • the transmission / reception unit 109 stops the packet transmission because the failure detection flag 204 is on (H).
  • the communication unit 111 receives a failure detection signal indicating that the failure detection flag 204 is on from the failure detection circuit 203.
  • the communication unit 111 (more specifically, the packet conversion circuit 301) adds information indicating that the packet is transmitted to the transmission / reception unit 116 to the packet received from the control unit 108.
  • the transmission unit 111 transmits a packet to which the information is added (hereinafter referred to as an additional packet) to the control device 113 (I).
  • the communication unit 118 of the control device 113 receives the packet added with the information from the communication unit 111 (J).
  • the communication unit 118 transmits the additional packet to the transmission / reception unit 116 (K).
  • the transmission / reception unit 116 transmits the additional packet to the transmission / reception unit 122 of the computer hardware component 103 via the path 12 (L).
  • the transmission / reception unit 122 of the computer hardware component 103 transmits the received additional packet to the control unit 120 (M).
  • the control unit 120 of the computer hardware component 103 converts the received additional packet into a control command for the ASICs 123 and 124, and executes control of the ASICs 123 and 124 (N).
  • the control unit 120 of the computer hardware component 103 transmits the execution result as a reply packet to the transmission / reception unit 122 (O).
  • the transmission / reception unit 122 of the computer hardware component 103 transmits a reply packet to the transmission / reception unit 116 of the control board 102 via the path 12 (P).
  • the transmission / reception unit 116 of the control board 102 transmits the received reply packet to the communication unit 118 (Q).
  • the communication unit 118 adds target information indicating that it is a response result from the computer hardware component 103 to the reply packet and transmits it to the communication unit 111 (R).
  • the communication unit 111 receives a reply packet from the communication unit 118 (S).
  • FIG. 7 is a diagram illustrating a path switching operation by software execution of the information processing apparatus 100 according to the present embodiment.
  • the processor 105 of the control board 101 issues a command to the control unit 108 (A).
  • the command includes a number for identifying the target computer hardware component 103 and information on an operation executed by the control unit 108.
  • the control unit 108 analyzes the received command and generates a control packet.
  • the control unit 108 transmits the control packet to the transmission / reception unit 109 (B).
  • the transmission / reception unit 109 transmits a control packet to the transmission / reception unit 121 via the path 10 (C).
  • the transmission / reception unit 109 detects a communication failure via the path 10 (D).
  • the transmission / reception unit 109 turns on the failure detection flag 204 (E).
  • the control unit 108 detects that the failure detection flag 204 is on, and stops processing the command. Then, the control unit 108 notifies the processor 105 of the failure of the path 10 (F).
  • the program running on the processor 105 receives the failure notification of the path 10, the program that has been executed is re-executed (G).
  • the transmission / reception unit 109 stops the packet transmission because the failure detection flag 204 is on (H).
  • the communication unit 111 receives a failure detection signal indicating that the failure detection flag 204 is on from the failure detection circuit 203.
  • the communication unit 111 (more specifically, the packet conversion circuit 301) adds information indicating that the packet is transmitted to the transmission / reception unit 116 to the packet received from the control unit 108.
  • the transmitting unit 111 transmits a packet to which the information is added (hereinafter referred to as an additional packet) to the control device 113 (I).
  • the communication unit 118 of the control device 113 receives the packet added with the information from the communication unit 111 (J).
  • the communication unit 118 transmits the additional packet to the transmission / reception unit 116 (K).
  • the transmission / reception unit 116 transmits the additional packet to the transmission / reception unit 122 of the computer hardware component 103 via the path 12 (L).
  • the transmission / reception unit 122 of the computer hardware component 103 transmits the received additional packet to the control unit 120 (M).
  • the control unit 120 of the computer hardware component 103 converts the received additional packet into a control command for the ASICs 123 and 124, and executes control of the ASICs 123 and 124 (N).
  • the control unit 120 of the computer hardware component 103 transmits the execution result as a reply packet to the transmission / reception unit 122 (O).
  • the transmission / reception unit 122 of the computer hardware component 103 transmits a reply packet to the transmission / reception unit 116 of the control board 102 via the path 12 (P).
  • the transmission / reception unit 116 of the control board 102 transmits the received reply packet to the communication unit 118 (Q).
  • the communication unit 118 adds target information indicating that it is a response result from the computer hardware component 103 to the reply packet and transmits it to the communication unit 111 (R).
  • the communication unit 111 receives the reply packet to which the target information is added from the communication unit 118 (S).
  • FIG. 8 is a diagram illustrating the path double failure detection operation of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 performs a path double failure detection operation by hardware execution.
  • the information processing apparatus 100 can perform the path double failure detection operation even in software execution.
  • the processor 105 of the control board 101 issues a command to the control unit 108 (A).
  • the command includes a number for identifying the target computer hardware component 103 and information on an operation executed by the control unit 108.
  • the control unit 108 analyzes the received command and generates a control packet.
  • the control unit 108 transmits the control packet to the transmission / reception unit 109 (B).
  • the transmission / reception unit 109 transmits a control packet to the transmission / reception unit 121 via the path 10 (C).
  • the transmission / reception unit 109 detects a communication failure via the path 10 (D).
  • the transmission / reception unit 109 turns on the failure detection flag 204 (described in FIG. 2) (E).
  • the control unit 108 detects that the failure detection flag 204 is on, and stops processing the command. Then, the control unit 108 returns the internal state of the control unit 108 before the start of command processing (F).
  • the control unit 108 re-executes the executed command (G).
  • the transmission / reception unit 109 stops the packet transmission because the failure detection flag 204 is on (H).
  • the communication unit 111 receives a failure detection signal indicating that the failure detection flag 204 is on from the failure detection circuit 203.
  • the communication unit 111 (more specifically, the packet conversion circuit 301) adds information indicating that the packet is transmitted to the transmission / reception unit 116 to the packet received from the control unit 108.
  • the transmitting unit 111 transmits a packet to which the information is added (hereinafter referred to as an additional packet) to the control device 113 (I).
  • the communication unit 118 of the control device 113 receives the packet added with the information from the communication unit 111 (J).
  • the communication unit 118 transmits the additional packet to the transmission / reception unit 116 (K).
  • the transmission / reception unit 116 transmits the additional packet to the transmission / reception unit 122 of the computer hardware component 103 via the path 12 (L).
  • the transmission / reception unit 116 of the control board 102 detects a failure of the path 12 (M).
  • the transmission / reception unit 116 of the control board 102 turns on the failure detection flag 51 included in the transmission / reception unit 116 (N).
  • the communication unit 118 of the control board 102 detects that the failure detection flag 51 of the transmission / reception unit 116 is turned on.
  • the communication unit 118 transmits an error packet to the communication unit 111 (O).
  • the communication unit 111 receives the error packet from the communication unit 118 and turns on the double failure detection flag 214 included in the communication unit 111 (P).
  • the communication unit 111 (more specifically, the transmission / reception control circuit 210) transmits a double failure detection signal indicating ON of the double failure detection flag 214 to the control unit 108 (Q).
  • the control unit 108 reports the double failure of the paths 10 and 12 to the processor 105 (R).
  • the program on the processor 105 performs degeneration of the computer hardware component 103.
  • the degeneration of the computer hardware component 113 means that the computer hardware component 103 has failed. That is, when the processor 105 detects a double failure in the path 10 and the path 12, the processor 105 determines that the computer hardware component 103 has failed.
  • FIG. 12 is a flowchart of failure location determination according to the present embodiment.
  • the control board 101 is active and active, and the control board 102 is standby and standby.
  • the control board 101 communicates with the computer hardware components 103 and 104.
  • step S1201 when the transmission / reception unit 109 detects a communication failure via the path 10 (step S1201), the control unit 108 switches the communication via the path 10 to communication via the path 12 (step S1202). Then, the control unit 108 determines whether an error report has been received from the transmission / reception unit 109 (step S1203). When it is determined that the control unit 108 has received an error report (YES in step S1203), the control unit 108 determines that the control board 101 has failed (step S1204). Then, the processor 105 switches the control board 102 to the active state in use (step S1205).
  • the control unit 108 determines whether a failure has been detected in the transmission / reception unit 116 (step S1206). That is, the control unit 108 determines whether there is a double failure in the paths 10 and 12. When it is determined that the control unit 108 has detected a failure in the transmission / reception unit 116 (YES in step S1206), the control unit 108 determines that the computer hardware component 103 has failed (step S1207). Then, the program on the processor 105 executes degeneration of the computer hardware component 103 (step S1208).
  • control unit 108 determines that there is a failure in the path 10 (step S1209). Then, the control unit 108 operates the path 12 as a control path for the computer hardware component 103 (step 1210).
  • FIG. 13 is a configuration diagram of the information processing apparatus 1300.
  • the information processing apparatus 1300 is configured to monitor a plurality of computer hardware components of the computer hardware components 1303 to 1305 with redundant control boards 1301 and 1302.
  • the control board 1301 includes a processor 1306 and control devices 1307 and 1308.
  • the control board 1302 includes a processor 1310, a control device 1311, and a memory 1310.
  • the control devices 1307 and 1311 have communication units 1309 and 1313, respectively.
  • the control device 1307 and the control device 1313 are connected via the communication units 1309 and 1313.
  • the control board 1301 is in use and monitors the computer hardware components 1303 to 1305, and the control board 1302 is on standby for a failure of the control board 1301.
  • FIG. 10 is a configuration diagram of the control board 101 on which the comparison circuit 1001 is mounted.
  • the comparison circuit 1001 is connected to the threshold value generation circuit 1002.
  • the threshold generation circuit 1002 is connected to a DIP-SW (DIP switch) 1003 provided outside the control device 106.
  • the threshold generation circuit 1002 takes in a value set by the DIP switch 1003 as an external signal and generates a threshold.
  • the information processing apparatus 100 can set the threshold value for the number of failures in accordance with the computer hardware components installed in the information processing apparatus 100. (Third embodiment) Further, another embodiment of the comparison circuit will be described.
  • FIG. 11 is a configuration diagram of the control board 101 on which the comparison circuit 1101 is mounted.
  • the communication unit 109 of the control device 106 has a threshold setting register 1102.
  • the threshold setting register 1102 is connected to the comparison circuit 1101.
  • the processor 105 can access the threshold setting register 1102 via the control unit 108.
  • a program on the processor 105 sets a threshold in the threshold setting register 1102 and changes the threshold. For example, when the number of computer hardware components installed in the information processing apparatus 100 changes, the program on the processor 105 changes the threshold value of the threshold setting register 1102.
  • the information processing apparatus 100 is an information processing apparatus including the computer hardware components 103 and 104 that execute calculation processing.
  • the information processing apparatus 100 is not limited to this, and may be an apparatus that controls a calculation processing apparatus physically provided outside the apparatus. That is, the information processing apparatus 100 may be an apparatus in which a control unit that monitors an external calculation processing apparatus is configured redundantly.
  • the information processing apparatus is equipped with a redundantly configured control board and efficiently switches the control board according to the detected failure type.
  • the information processing apparatus according to the present invention is extremely useful for switching a redundant control board to be mounted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

 本願発明に係る情報処理装置は、現用の制御ボードを不必要に交換せずに、パスを切り替えて情報処理装置全体の保守を向上することを目的とする。 本実施例に係る情報処理装置の一側面によれば、計算処理装置を現用-予備構成で監視する情報処理装置において、監視に必要なデータの送受信を指示するコマンドを生成する第1処理部と、該第1処理部からのコマンドに応じデータの送受信を行う第1データ転送部とを備えた運用中制御部と、該計算処理装置の監視に必要なデータの送受信を指示するコマンドを生成する第2処理部と、該第2処理部からのコマンドに応じデータの送受信を行う第2データ転送部とを備えた予備用制御部とを備え、該第1データ転送部が該計算処理装置とデータの送受信ができないとき、該第2データ転送部を経由してデータの送受信を行うことを特徴とする。

Description

情報処理装置、制御方法
 本発明は計算機ハードウェアを制御する制御ボードを冗長構成とする情報処理システムに関する。
 計算機ハードウェアを制御する制御ボードを冗長構成とする情報処理システムがある。このような情報処理システムは例えば多用途に使用可能なサーバなどであり、制御機構(制御ボード)を冗長化することによって、高信頼化を実現しているシステムである。
 この情報処理装置において、1つの制御ボードは、現用として計算機ハードウェアの制御(計算機ハードウェアの管理、監視)を行う。そして現用(アクティブ状態)の制御ボードが故障した場合に備えて、他の予備の制御ボードはスタンバイ状態になっている。そして計算機ハードウェアとの通信において、現用の制御ボードが故障を検出した場合、情報処理装置は予備の制御ボードを現用に切り替える。
 しかしながら従来の情報処理装置では、故障原因に関わらず一律に制御ボードを切り替えて、故障検出をして現用だった制御ボードを交換していた。そのため故障原因が制御ボードにない場合であっても、制御ボードを不必要に交換してしまうといった問題があった。
 制御ボードを冗長構成とする情報処理装置に関して、以下の特許文献がある。
特開平10-340227号公報
(発明が解決しようとする課題)
 そこで本願発明に係る情報処理装置は、通信故障が発生しても、現用の制御ボードを不必要に交換せずに、パスを切り替えて情報処理装置全体の保守を向上することを目的とする。
(課題を解決するための手段)
本実施例に係る情報処理装置の一側面によれば、計算処理装置を現用-予備構成で監視する情報処理装置において、該計算処理装置の監視に必要なデータの送受信を指示するコマンドを生成する第1処理部と、該第1処理部からのコマンドに応じて該計算処理装置とデータの送受信を行う第1データ転送部とを備えた運用中制御部と、該計算処理装置の監視に必要なデータの送受信を指示するコマンドを生成する第2処理部と、該第2処理部からのコマンドに応じて該計算処理装置とデータの送受信を行う第2データ転送部とを備えた予備用制御部とを備え、該第1データ転送部が該計算処理装置とデータの送受信ができないとき、該第1データ転送部が該第2データ転送部を経由してデータの送受信を行うことを特徴とする。
(発明の効果)
 本願発明に係る制御方法によれば、冗長構成している制御ボード間に通信パスを設けることによって、両方の制御ボードからも他方の制御パスを使用できるようにして、ボード制御パスのみ切り替えることができる。
本実施例に係る情報処理装置100の構成図である。 本実施例に係る制御デバイス106の構成図である。 本実施例に係る通信制御回路209の構成図である。 本実施例に係る受信制御回路210の構成図である。 本実施例に係る情報処理装置100の正常動作を示す図である。 本実施例に係る情報処理装置100の制御パスの切り替え動作を示す図である。 本実施例に係る情報処理装置100の制御パスの切り替え動作を示す図である。 本実施例に係る計算機ハードウェアコンポーネントの故障の場合における情報処理装置100の動作を示す図である。 本実施例に係る制御デバイス106の構成図である。 本実施例に係る制御デバイス106の構成図である。 本実施例に係る制御デバイス106の構成図である。 本実施例に係る情報処理装置100の故障判別フローチャートである。 本実施例に係る情報処理装置1300の構成図である。
符号の説明
 100…情報処理装置
 101…制御ボード
 102…制御ボード
 103…計算機ハードウェアコンポーネント
 104…計算機ハードウェアコンポーネント
 105…プロセッサ
 106…制御デバイス
 107…メモリ
 108…制御部
 109…送受信部
 110…送受信部
 111…通信部
 119…ターゲット制御デバイス
 120…制御部
 121…送受信部
 122…送受信部
 123…ASIC
 124…ASIC
 201…送信回路
 202…受信回路
 203…故障検出回路
 204…故障検出フラグ
 209…送信制御回路
 210…受信制御回路
 211…比較機構
 212…送受信回路
 213…故障検出フラグ
 214…二重故障検出フラグ
 215…故障検出フラグ
 216…二重故障検出フラグ
(第1の実施例)
[1.情報処理装置100]
 まず図1を用いて本実施例に係る情報処理装置100の概要について説明する。情報処理装置100は、例えば多用途に使用可能なサーバであり、高信頼性を実現する装置である。
 図1は本実施例に係る情報処理装置100のハードブロック図である。情報処理装置100は制御ボード101、102、及び計算機ハードウェアコンポーネント103、104を備える。本実施例に係る情報処理装置100は、制御ボード101と制御ボード102が冗長構成となっており、制御ボード101、102によって、制御機構が二重化されている。
 本実施例における情報処理装置100では、制御ボード101と計算機ハードウェアコンポーネント103、104とを接続するパスの二重化を実現する。同様に本実施例における情報処理装置100では、制御ボード102と計算機ハードウェアコンポーネント103、104とを接続するパスの二重化を実現する。そして情報処理装置100は、制御ボード101と計算機ハードウェアコンポーネント103、104との通信故障の種別を判別して、制御ボード101と制御ボード102の不必要な切り替えを防止することができる。
 例えば計算機ハードウェアコンポーネント103の故障が原因で、制御ボード101が計算機ハードウェアコンポーネント103と通信できない場合を考える。この場合、情報処理装置100は制御ボード102を現用に切り替えても、計算機ハードウェアコンポーネント103と通信できるとは限らない。そのため情報処理装置100は、制御ボード101と制御ボード102の間にパスを設けて、制御ボード101と計算機ハードウェアコンポーネント103を接続するパスを二重化する。つまり制御ボード101と制御ボード102の間にパスを設けることにより、制御ボード101が、制御ボード102を介して、計算機ハードウェアコンポーネント103と通信可能となる。そして、制御ボード101と計算機ハードウェアコンポーネント103との通信の故障原因に応じて、情報処理装置100はパス10、12間の切り替え、または制御ボード101、102間の切り替えを行う。これより計算機ハードウェアコンポーネント103の故障が原因で、制御ボード101が計算機ハードウェアコンポーネント103と通信できない場合、制御ボード101は、制御ボード102とパス12を介して計算機ハードウェアコンポーネント103と通信すると共に、パス11を介して計算機ハードウェアコンポーネント104と通信する。これにより情報処理装置100は、制御ボード101、102間の不必要な切り替えを防止して、障害が発生しても従来に比して効率的に処理を続行することができる。
 以下、情報処理装置100の各ユニット、つまり制御ボード101、102、及び計算機ハードウェアコンポーネント103、104について説明し、情報処理装置100が行う通信パス切り替えの動作について説明する。なお情報処理装置100が行う通信パス切り替えの動作とは、パス10とパス12間の切り替え、パス11とパス13間の切り替え動作である。
[1.1.制御ボード101、102]
制御ボード101、102は、それぞれ情報処理装置100の動作を統括的に制御するユニットである。本実施例では、制御ボード101が現用、つまりアクティブ状態であり、計算機ハードウェアコンポーネント103、104を制御している。一方、制御ボード102は制御ボード101の予備用であり、スタンバイ状態で制御ボード101の故障に備えている。つまり制御ボート101と制御ボード102は冗長構成となっている。制御ボード101のアクティブ状態とは、制御ボード101が計算機ハードウェアコンポーネント103、104と通信を行っている状態であり、計算機ハードウェアコンポーネント103、104を制御している状態である。
 計算機ハードウェアコンポーネント103、104は、計算処理を行うユニットである。また計算機ハードウェアコンポーネント103、104は、制御ボード101から受信する指示に基づいて、制御ボード101が管理などに必要なデータを制御ボード101との間で送受信している。そのため計算機ハードウェアコンポーネント103、104が制御ボード101から受信する指示は、情報処理装置100の監視、制御に関する指示である。
 制御ボード102のスタンバイ状態とは、制御ボード102が計算機ハードウェアコンポーネント103を制御していない状態である。制御ボード101が故障した場合に、制御ボード102は制御ボード101の制御処理を引き継ぐ。ここで制御ボード101が計算機ハードウェアコンポーネント103、104に対して行う制御は、計算機ハードウェアコンポーネント103、104の電源のON/OFF、計算機ハードウェアコンポーネント103、104に搭載されたデバイスの温度監視、電気的接続の有効/無効の管理などである。
 制御ボード101はプロセッサ105、制御デバイス106、メモリ107を有している。制御ボード101はこれらのユニットを用いて、計算機ハードウェアコンポーネント103、104の制御を行う。同様にして制御ボード102はプロセッサ112、制御デバイス113、メモリ114を有している。制御ボード101が故障した場合には、予備から現用に切り替えられた制御ボード102はこれらのユニットを用いて、計算機ハードウェアコンポーネント103の制御を行う。
 以下、制御ボード101、102が有する各ユニットについて説明する。
[1.1.1.プロセッサ105、112]
 プロセッサ105は、制御デバイス106に対してターゲット制御デバイス121との間でのデータ転送を指示する。プロセッサ105は制御デバイス106が行うデータ転送の開始指示、およびそれに伴う制御デバイス106の設定を指示する。またプロセッサ105は、メモリ107に格納するデータの解析などを行って計算機ハードウェアコンポーネント103、104の管理、監視などを行う。例えばプロセッサ105は、メモリ107から計算機ハードウェアコンポーネント103、104が搭載するASIC123、124、129、130などのLSIの温度情報を参照して、LSIの温度監視を行う。またプロセッサ104は、メモリ107から計算機ハードウェアコンポーネント103、104が搭載するLSIの電圧情報を参照して、LSIの電圧監視を行う。
 またプロセッサ104は、処理要求を、制御ボード102上のプロセッサ112に対して通知する。ここでいう処理要求は、プロセッサ105から制御デバイス106への指示のことである。プロセッサ105は随時、プロセッサ104の制御デバイス106に対する処理要求をプロセッサ112に通知することにより、処理要求が制御ボード101と102とで共有され制御ボード101に障害が発生しても情報処理装置100は制御ボード101から制御ボード102への切り替えを可能としている。
[1.1.2.制御デバイス106、113]
 制御ボード101上の制御デバイス106は、プロセッサ105の指示(コマンド)に応じて、計算機ハードウェアコンポーネント103、104との間でデータ転送を行う。より具体的には制御デバイス106は、プロセッサ105の指示に応じて、計算機ハードウェアコンポーネント103内に搭載されたターゲット制御デバイス119、および計算機ハードウェアコンポーネント104内に搭載されたターゲット制御デバイス125とデータ転送を行う。
 制御デバイス106、113はDMA(Direct Memory Access)マスタの機能を有するデバイスである。つまり制御デバイス106はターゲット制御デバイス119、125との間で、プロセッサ105を介さずにDMA転送を行う。同様にして制御デバイス113はターゲット制御デバイス119、125との間でデータ転送を行う場合、プロセッサ112を介さずにDMA転送を行う。
 制御デバイス106は、制御部108、送受信部109、110、及び通信部111を有している。同様に制御デバイス113は制御部115、送受信部116、117、及び通信部118を有している。制御デバイス106は、送受信部109を介して計算機ハードウェアコンポーネント103と接続しており(パス10)、送受信部110を介して計算機ハードウェアコンポーネント104と接続している(パス11)。制御デバイス113は、送受信部116を介して計算機ハードウェアコンポーネント103と接続しており(パス12)、送受信部117を介して計算機ハードウェアコンポーネント104と接続している(パス13)。そして制御デバイス106の通信部111と制御デバイス113の通信部118は通信パス14で接続している。
 図2は本実施例に係る制御デバイス106の詳細なハードブロック図であり、制御デバイス106の詳細な動作については[2.制御デバイス106の構成図]で後述する。
[1.1.3.メモリ107、114]
 メモリ107は、制御デバイス106がターゲット制御デバイス121、127からリードするデータや、制御デバイス106がターゲット制御デバイス121、127にライトするデータを格納する記憶部である。メモリ114は制御デバイス113がターゲット制御デバイス121、127からリードするデータ、制御デバイス113がターゲット制御デバイス121、127にライトするデータを格納する記憶部である。
[1.2.計算機ハードウェアコンポーネント103]
 計算機ハードウェアコンポーネント103は計算処理を行うユニットであり、情報処理装置100が実行する処理のうち主となる処理を担うユニットである。同様にして計算機ハードウェアコンポーネント104も計算処理を行うユニットである。計算機ハードウェアコンポーネント103は、ターゲット制御デバイス119、及びASIC123、124を有している。計算機ハードウェアコンポーネント104はターゲット制御デバイス125、ASIC129、130を有している。ASIC123、124、129、130はカスタムLSIであり、特定用途に用いる専用の回路である。
 ターゲット制御デバイス119はASIC123、124と接続している。またターゲット制御デバイス125はASIC129、130と接続している。制御デバイス106、113と同様に、ターゲット制御デバイス119、125もDMAマスタの機能を有する。ターゲット制御デバイス119、125もそれぞれ、計算機ハードウェアコンポーネント103、104に搭載するCPUを介さずに、制御デバイス106、113とDMA転送を行う。そして例えばターゲット制御デバイス119は、制御デバイス106、又は制御デバイス113から転送されたコマンドを解析してASIC123、124の操作を実行し、ASIC123、124から受信する処理結果を制御デバイス106、113に送信する。同様にターゲット制御デバイス125は、制御デバイス106、又は制御デバイス113から転送されたコマンドを解析してASIC129、130の操作を実行し、ASIC129、130から受信する処理結果を制御デバイス106、113に送信する。
 ターゲット制御デバイス119は制御部120、送受信部121、122を有している。制御部120は、送受信部121、122を介して制御ボード101、102、より具体的には制御デバイス106、113から転送されてきたコマンドを受信してコマンド解析を行う。そして制御部120は解析結果からASIC123、124の操作を実行し、ASIC123、124から受信する処理結果を送受信部121、122を介して制御ボード101、102、より具体的には制御デバイス106、113に送信する。ここで送受信部121は、パス10を介して制御デバイス106の送受信部109と接続している。送受信部122は、パス12を介して制御デバイス113の送受信部116と接続している。
 同様にターゲット制御デバイス125も制御部126、送受信部127、128を有している。制御部126は、送受信部127、128を介して制御ボード101、102、より具体的には制御デバイス106、113から転送されてきたコマンドを受信してコマンド解析を行う。そして制御部126は、解析結果からASIC129、130の操作を実行し、ASIC129、130から受信する処理結果を、送受信部127、128を介して制御ボード101、102、より具体的には制御デバイス106、113に送信する。ここで送受信部127は、パス11を介して制御デバイス106の送受信部110と接続している。送受信部128は、パス13を介して制御デバイス113の送受信部117と接続している。
 なお計算機ハードウェアコンポーネント103はASIC123、124以外にも計算処理に必要なLSIを搭載しているが、図1には簡略化のため図示していない。計算機ハードウェアコンポーネント104も同様に、ASIC129、130以外に計算処理に必要なLSIを搭載している。
[2.制御デバイス106の構成図]
 図2は本実施例に係る制御デバイス106の詳細なハードブロック図である。上述のとおり、制御デバイス106は計算機ハードウェアコンポーネント103のターゲット制御デバイス119、計算機ハードウェアコンポーネント104のターゲット制御デバイス125とDMA転送を実行するユニットである。制御デバイス106は、制御部108、送受信部109、110、及び通信部111を有している。本実施例に係る制御デバイス106は、通信部111を有しており、通信部111が制御デバイス102の通信部118と通信パス14により接続している。以下、制御デバイス106を構成する各ユニットについて説明する。
[2.1.制御部108]
 制御部108は、プロセッサ105から処理要求を受信し、受信したコマンドの解析を行い、制御デバイス106が実行するDMA転送を統括的に制御するユニットである。処理要求は、制御デバイス106が有する各レジスタ(不図示)の設定指示、DMA転送の処理開始の指示などである。制御部108は、プロセッサ105、メモリ107と接続している。さらに制御部108は送受信部109、110、および通信部111と接続している。また制御部108は、送受信部109へ処理要求(コマンド)を送信し、送受信部109を介してターゲット制御デバイス119へのコマンド送信を制御する。制御部108は、送受信部110へ処理要求(コマンド)を送信し、送受信部110を介してターゲット制御デバイス125へのコマンド送信を制御する。
[2.2.送受信部109]
 送受信部109は、送信回路201、受信回路202、及び故障検出回路203を有している。送信回路201、受信回路202、故障検出回路203はそれぞれ、制御部108と接続している。また送信回路201、受信回路202、故障検出回路203はターゲット制御デバイス119とパス10を介して接続している。
 送信回路201は、DMA転送するデータ(パケット)をターゲット制御デバイス119(より具体的にはターゲット制御デバイス119の受信回路)に送信する。受信回路202は、DMA転送するデータ(パケット)をターゲット制御デバイス119(より具体的にはターゲット制御デバイス119の送信回路)から受信する。
 故障検出回路203は故障検出フラグ204を記録する領域を有している。故障検出フラグ204は、故障検出回路203がパス10における通信故障を検出した場合にセットされるフラグである。故障検出回路203は、故障検出フラグ204にセットした値を故障検出信号として制御部108に送信する。故障検出回路203が検出するパス10の通信故障は、例えば送信タイムアウト、受信データの異常などがある。送信タイムアウトとは、送信回路201がターゲット制御デバイス119に送信したコマンドやデータ(パケット)に対する結果を、受信回路202がターゲット制御デバイス119から所定時間内に受信しないことをいう。受信データの異常とは、受信回路202がターゲット制御デバイス119から受信したデータにエラーが存在することをいう。制御部108は故障検出信号と制御ボード102の制御デバイス113における故障検出状況を解析して、プロセッサ105にパス10の故障を報告する。制御デバイス113における故障検出状況を解析は、制御デバイス113がパス12を介して計算機ハードウェアコンポーネント103と通信可能であるか否かの解析である。具体的には、例えば制御デバイス113の送受信部116がパス12を介して計算機ハードウェアコンポーネント103と通信できない場合には、制御デバイス113の通信部118はエラーパケットを通信部111に送信する。この場合、通信部111は二重故障検出信号を制御部108に送信する。そして制御部108はプロセッサにパス10、12の両方が故障であることを報告する。二重故障検出信号は、制御デバイス106が計算機ハードウェアコンポーネント103とパス10、12どちらを介してもデータの送受信ができないことを示す信号である。
 送受信部110は、送信回路205、受信回路206、及び故障検出回路207を有している。送信回路205、受信回路206、及び故障検出回路207は、制御部108と接続している。また送信回路205、受信回路206、及び故障検出回路207はターゲット制御デバイス125とパス11を介して接続している。
 送信回路205は、DMA転送するデータ(パケット)をターゲット制御デバイス125(より具体的にはターゲット制御デバイス125の受信回路)に送信する。受信回路206は、DMA転送するデータ(パケット)をターゲット制御デバイス125(より具体的にはターゲット制御デバイス125の送信回路)から受信する。
 故障検出回路207は故障検出フラグ208を記録する領域を有している。故障検出フラグ208は、故障検出回路207がパス11における通信故障を検出した場合にセットされるフラグである。故障検出回路203は、故障検出フラグ208にセットした値を故障検出信号として制御部108に送信する。故障検出回路207が検出するパス11の通信故障は、例えば送信タイムアウト、受信データの異常などがある。送信タイムアウトとは、送信回路205がターゲット制御デバイス125に送信したコマンドやデータ(パケット)に対する結果を、受信回路206がターゲット制御デバイス125から所定時間内に受信しないことをいう。受信データの異常とは、受信回路206がターゲット制御デバイス125から受信したデータにエラーが存在することをいう。制御部108は故障検出信号と制御ボード102の制御デバイス113における故障検出状況を解析して、プロセッサ105にパス11の故障を報告する。
[2.3.通信部111]
  通信部111は、制御デバイス106と制御デバイス113との間の通信を制御するユニットである。通信部111は、制御デバイス113が有する通信部118と接続している。通信部111と通信部118との接続形態は、シリアルラインで接続される形態であり、データの送信ラインとデータの受信ラインで接続している。通信部111と通信部118はシリアルラインで接続することによって、情報処理装置100は、データ送受信を高速に行うことができる。また通信部111と通信部118はシリアルラインで接続することにより、通信部111と通信部118とがパラレルラインで接続するよりも信号線の数を少なくして通信部111と通信部118間を接続することができる。
 送受信部109、110が通信故障を検出した場合、制御部108は通信部111を介してデータを通信部118に送信する。また送受信部116、117が通信故障を検出した場合、制御部115は通信部118を介して通信部111にコマンド、データを送信する。通信部111は、通信部118から受信したコマンド、データを送信する先として送受信部109、または送受信部110を選択する。そして送受信部111は、選択した送受信部109、または送受信部110へ通信部118から受信したコマンド、データを送信する。
 通信部111は、送信制御回路209、受信制御回路210、比較機構211、及び送受信回路212を有する。また受信制御回路210は故障検出フラグ213、215、二重故障検出フラグ214、216を有している。
 受信制御回路210は、故障検出フラグ213、215、二重故障検出フラグ214、216のセットを制御する。以下、通信部111が有する各ユニットの動作について説明する。
[2.3.1.送信制御回路209]
 図3は本実施例に係る送信制御回路209のハードブロック図である。送信制御回路209は、パケット変換回路301を有している。送信制御回路209は、送受信回路212と接続している。パケット変換回路301は、制御部108から受信するパケットを用いて、通信部118へ送信可能なパケットを生成して、送受信回路212に送信する。換言すれば、パケット変換回路301は、通信パス14を通ることができるパケットを生成して、送受信回路212に送信する。
 また送受信回路209は制御部108と接続している。パケット変換回路301は、通信部118へ送信可能なパケットを生成するに際し、制御部108から受信するパケットに、制御デバイス113が搭載するいずれの送受信部(送受信部116、または送受信部117)に送信するかを示す情報を付加する。パケット変換回路301は、また故障検出回路203、207から受信する故障検出信号に基づいて、この付加する情報が示す送信先(送受信部116、または送受信部117)を選択する。
 故障検出フラグ204、208の両方がオンになっている場合、送信制御回路209は、故障検出回路203、207の両方から故障検出信号を受信する。そのためパケット変換回路301は、この場合送受信部116、送受信部117の両方をパケットの送信先として選択する。そしてパケット変換回路301は、制御部108(より具体的には制御部108を介して送受信部109、110)から受信するパケットに、送受信部116、送受信部117の両方に送信することを示す情報を付加して、生成したパケットを送受信回路212に送信する。なお制御デバイス113の制御部115は、一度に一つの計算機ハードウェアコンポーネントへしかDMA転送の処理をしない。そのため送受信部116、送受信部117のうちどちらかが各計算機ハードウェアコンポーネントに送信する1つのパケットのみが有効なパケットであり、両方へ送信しても問題はない。
 セレクタ302が制御部108を介して送受信部109からパケット(送信データ)と故障検出フラグ204がオンであることを示す故障検出信号との両方を受信すると、受信したパケットをセレクタ304に転送する。またセレクタ303は制御部108を介して送受信部110からパケット(送信データ)と故障検出フラグ208がオンであることを示す故障検出信号との両方を受信すると、その送信データをセレクタ304に転送する。セレクタ304はセレクタ302、303を介して、送受信部109、110の両方からパケットを受信した場合、セレクタ304は順次それぞれのパケットをパケット変換回路301に転送する。そしてパケット変換回路301は、パケットに送受信部116、117の両方に送信することを示す情報を付加して、生成したパケットを送受信回路212に送信する。
[2.3.2.受信制御回路210]
 図4は実施例に係る受信制御回路210のハードブロック図である。受信制御回路210はパケット変換回路401を有している。また受信制御回路210は故障検出フラグ213、215、二重故障検出フラグ214、216を有している。
 受信制御回路210は、制御デバイス102の通信部118からコマンド、データ(パケット)を受信する。また受信制御回路210は、故障検出回路203、207から故障検出信号を受信する。
 パケット変換回路401は、制御デバイス113の通信部118から受信したパケット(受信データ)を、制御部108と送受信部109との間のパスか、送受信部110との間のパスのどちらを介して制御部108に送信するかを選択する。ここでパケット変換回路401は, 故障検出回路203、207から受信する故障検出信号, および受信データに付加されている情報に基づいて受信データの送信パス(108-109間パス、または108-110間パス)を選択する. 受信データに付加されている情報とは, 通信部118が有する送信制御回路209が付加する情報であって, 制御デバイス106が搭載するいずれの送受信部(送受信部109、または送受信部110)に対応するパケットであるかを示す情報である。
  パケット変換回路401はセレクタ402を通して、送受信部116からのパケットを制御部108に送信する. ただし、セレクタ402は故障検出回路203から故障検出信号を受信していない場合、パケット変換回路401から転送されるパケットを制御部108に送信しない。またパケット変換回路401はセレクタ403を通して、送受信部117からのパケットを制御部108に送信する。ただし、セレクタ403は故障検出回路207から故障検出信号を受信していない場合、パケット変換回路401から転送されるパケットを制御部108に送信しない。
 受信制御回路210は、各フラグ、つまり故障検出フラグ213、215、二重故障検出フラグ214、216のセットを制御する。受信制御回路210は、通信部118から送受信部116の故障検出信号によるエラーパケットを受信した場合、故障検出フラグ213をセットする。また、送受信部117の故障検出信号によるエラーパケットを受信した場合、故障検出フラグ215をセットする。受信制御回路210のセレクタ404が、故障検出回路203から故障検出信号を受信し、さらに送受信部116から故障検出信号によるエラーパケットを受信した場合、二重故障検出フラグ214をセットする. 受信制御回路210のセレクタ405が, 故障検出回路207から故障検出信号を受信し、さらに送受信部117から故障検出信号によるエラーパケットを受信した場合、二重故障検出フラグ216をセットする。受信制御回路210が二重故障フラグ214、216をセットすると、パケット変換回路401は制御部108にそれぞれのフラグに対応して二重故障信号を送信する。
[2.3.3.比較機構211]
 図9は本実施例に係る比較機構211の詳細を示す制御ボード101の構成図である。比較機構211は、比較回路901、メモリ904を有する。比較回路901は、故障本数カウンタ902、比較器903を有する。
 故障本数カウンタ902は、故障検出回路203、207が送信する故障検出信号をカウントする。故障検出フラグ204、208が共にオンであれば、故障本数カウンタ902は、「2」を示す。故障検出フラグ204、208のいずれかがオンであれば、故障本数カウンタ902は「1」を示す。故障検出フラグ204、208の両方がオフであれば、故障本数カウンタ902は、「0」を示す。
 メモリ904は、予め定められた閾値を保持している。比較器1003は、故障本数カウンタ904が示す値とメモリ904に格納する閾値を比較する。比較器903が、故障検出カウンタ904が示す値が閾値よりも大きいと判別した場合には、比較器903はエラー報告を制御部108に送信する。本実施例ではメモリ904が格納する閾値は「1」とする。そのため比較器903は、故障検出カウンタ904が示す値が「2」の場合、つまり故障検出フラグ204、208が共にオンの場合、エラー報告を制御部108に送信する。
 本実施例における情報処理装置100は、エラー報告を制御部108が受信すると、現用の制御ボードとして制御ボード101から制御ボード102へ切り替える。これはパス10、11の両方が故障であり、制御ボード101が計算機ハードウェアコンポーネント103、104の制御処理できないからである。
 本実施例に係る情報処理装置100において救済可能な通信故障は、以下のいずれかの場所で発生する故障である。故障場所は、制御デバイス106内の一部の送受信部、つまり送受信部109、または送受信部110、ターゲット制御デバイス119内の一部の送受信部(送受信部121、または送受信部122)、またはパス10、パス11のいずれかである。なお制御ボード101が現用、制御ボード102が予備用である。
 また情報処理装置100内の複数の場所において故障が発生して、情報処理装置100が複数のパス切り替えを実行する場合は、制御ボード101に故障があり、その影響が広範囲に及んでいる可能が高い。そのため情報処理装置100内の複数の場所において故障が発生している場合、つまり制御ボード101において所定の閾値より故障検出信号が多い場合には、制御ボード101と制御ボード102自体を切り替える。これは比較器1003の制御部1008のエラー報告の有無によって、プロセッサ105上のプログラムが制御ボード101と制御ボード102の切り替えを行う。
[2.3.4.送受信回路212]
 また送受信回路212は、制御ボード101と制御ボード102との間におけるパケット送受信を実行するユニットである。送受信回路212は制御デバイス106内のデータを制御デバイス113に送信し、また制御デバイス113から制御デバイス113内のデータを受信する。
[3.情報処理装置100の動作]
 次に図5~図8を用いて、情報処理装置100が行う動作について説明する。情報処理装置100は、現用として制御ボード101が計算機ハードウェアコンポーネント103、104を制御し、予備用として制御ボード102が待機している。制御ボード101、102は計算機ハードウェアコンポーネント103、104との間で、コマンド、データ(パケット)を転送することにより、計算機ハードウェアコンポーネント103、104の制御を行っている。以下、情報処理装置100の各動作について説明する。
[3.1.正常動作]
 図5は本実施例に係る情報処理装置100の正常動作を示す図である。情報処理措置100が正常動作しているとき、現用の制御ボード101上で動作するプログラムが計算機ハードウェアコンポーネント103、104を制御している。この場合制御ボード101は以下の経路でパケットを転送して計算機ハードウェアコンポーネント103を制御する。
 プロセッサ105は制御部108に対してコマンドを発行する(A)。発行するコマンドには、ターゲットになる計算機ハードウェアコンポーネント103を識別する情報と制御部108が実行する動作の情報を含む。制御部108は、プロセッサ105から受信したコマンドを解析して、制御用パケットを生成する。制御部108は制御用パケットを送受信部109に送信する(B)。送受信部109はパス10を介して送受信部121へ制御用パケットを送信する(C)。この際、送受信部109内の故障検出フラグ204はオフである。なおここで送受信部110の故障検出フラグ208、送受信部116の故障検出フラグ51、送受信部117の故障検出フラグ52もオフである。送受信部121は、送受信部109から受信した制御用パケットを制御部120に送信する(D)。制御部120は、制御用パケットをASIC123、124の制御コマンドに変換し、ASIC123、124の制御を実行する(E)。制御部120は制御コマンドの実行を完了すると、実行結果をリプライパケットとして送受信部121へ送信する(F)。送受信部121は、パス10を介して送受信部109へリプライパケットを送信する(G)。送受信部109は、受信したリプライパケットを制御部108へ送信する(H)。制御部108は、リプライパケットをプロセッサ105に送信して、実行結果を返信する(I)
[3.2.ハード実行によるパス切り替え動作]
 パス10を介したパケット転送において故障が発生した場合において情報処理装置100が実行する動作について説明する。図6は本実施例に係る情報処理装置100のハード実行によるパス切り替え動作を示す図である。
制御部108は故障の発生をプロセッサ105に対して報告するが、プロセッサ105上のプログラムではコマンドの再実行を行なわない。制御部108は、プロセッサ105が実行していたコマンドを中断直前まで戻して再実行する。制御部105は、再実行したコマンドを、切替えられたパスを使用して動作を継続する。これにより情報処理装置100は、制御ボード101、102の切換えを伴わずにパス10からパス12へパスを切り替えただけで、情報処理装置100の動作を継続することができる。以下、情報処理装置100におけるパス切替え動作の一連シーケンスを示す。
 制御ボード101のプロセッサ105は、制御部108にコマンドを発行する(A)。発行するコマンドには、ターゲットになる計算機ハードウェアコンポーネント103を識別する情報と制御部108が実行する動作の情報を含む。制御部108は、受信したコマンドを解析して、制御用パケットを生成する。そして制御部108は制御用パケットを送受信部109に送信する(B)。送受信部109は、パス10を介して送受信部121へ制御用パケットを送信する(C)。
 送受信部109は、パス10を介した通信の故障を検出したものとする(D)。ここでパス10を介した通信の故障は、送受信部109の故障、送受信部121の故障、またはパス10の故障を示す。送受信部109は、故障検出に応じて故障検出フラグ204をオンにする(E)。制御部108内に搭載するハードウェアの再実行処理部61は、故障検出フラグ204がオンであることを検出し、コマンドの処理を中止する。そして再実行処理部61は、制御部108の内部状態をコマンドの処理開始前に戻す(F)。制御部108の再実行処理部61は、実行していたコマンドを再実行する(G)。
 送受信部109は、故障検出フラグ204がオンになっているのでパケット送信を中止する(H)。通信部111は、故障検出フラグ204がオンになっていることを示す故障検出信号を故障検出回路203から受信する。通信部111(より具体的にはパケット変換回路301)は、制御部108から受信するパケットに、そのパケットを送受信部116に送信することを示す情報を付加する。送信部111は、その情報を付加したパケット(以下、付加パケットと呼ぶ。)を制御デバイス113へ送信する(I)。
 制御デバイス113の通信部118は、その情報を付加したパケットを通信部111から受信する(J)。通信部118は、送受信部116へ付加パケットを送信する(K)。送受信部116は、パス12を介して計算機ハードウェアコンポーネント103の送受信部122へ付加パケットを送信する(L)。計算機ハードウェアコンポーネント103の送受信部122は、受信した付加パケットを制御部120に送信する(M)。計算機ハードウェアコンポーネント103の制御部120は、受信した付加パケットをASIC123、124の制御コマンドに変換し、ASIC123、124の制御を実行する(N)。計算機ハードウェアコンポーネント103の制御部120は、制御コマンドの実行を完了すると、実行結果をリプライパケットとして送受信部122へ送信する(O)。計算機ハードウェアコンポーネント103の送受信部122は、パス12を介して制御ボード102の送受信部116へリプライパケットを送信する(P)。制御ボード102の送受信部116は、受信したリプライパケットを通信部118へ送信する(Q)。通信部118は、計算機ハードウェアコンポーネント103からの応答結果であることを示すターゲット情報をリプライパケットに付加して通信部111に送信する(R)。通信部111は、通信部118からリプライパケット受信する(S)。通信部111は、受信したリプライパケットを制御部108に送信する(T)。制御部108は、リプライパケットを解析してプロセッサ105に解析結果を返す(U)。通信部111は、パス10の故障を制御部108に報告する(V)。制御部108は、パス10の故障をプロセッサ105に報告する(W)。
[3.3.ソフト実行によるパス切り替え動作]
 図7は本実施例に係る情報処理装置100のソフト実行によるパス切り替え動作を示す図である。
 制御ボード101のプロセッサ105は、制御部108にコマンドを発行する(A)。前記コマンドには、ターゲットになる計算機ハードウェアコンポーネント103を識別する番号と制御部108が実行する動作の情報を含む。そして制御部108は、受信したコマンドを解析して、制御用パケットを生成する。そして制御部108は制御用パケットを送受信部109に送信する(B)。送受信部109は、パス10を介して送受信部121へ制御用パケットを送信する(C)。
 送受信部109は、パス10を介した通信の故障を検出する(D)。送受信部109は、故障検出フラグ204をオンにする(E)。制御部108は、故障検出フラグ204がオンであることを検出し、コマンドの処理を中止する。そして制御部108は、プロセッサ105にパス10の故障を通知する(F)。プロセッサ105上で動作しているプログラムは、パス10の故障通知を受け取ると、実行していたコマンドを再実行する(G)。
 送受信部109は、故障検出フラグ204がオンになっているのでパケット送信を中止する(H)。通信部111は、故障検出フラグ204がオンになっていることを示す故障検出信号を故障検出回路203から受信する。通信部111(より具体的にはパケット変換回路301)は、制御部108から受信するパケットに、そのパケットを送受信部116に送信することを示す情報を付加する。送信部111は、その情報を付加したパケット(以下、付加パケットと呼ぶ。)を制御デバイス113へ送信する(I)。
 制御デバイス113の通信部118は、その情報を付加したパケットを通信部111から受信する(J)。通信部118は、送受信部116へ付加パケットを送信する(K)。送受信部116は、パス12を介して計算機ハードウェアコンポーネント103の送受信部122へ付加パケットを送信する(L)。計算機ハードウェアコンポーネント103の送受信部122は、受信した付加パケットを制御部120に送信する(M)。計算機ハードウェアコンポーネント103の制御部120は、受信した付加パケットをASIC123、124の制御コマンドに変換し、ASIC123、124の制御を実行する(N)。計算機ハードウェアコンポーネント103の制御部120は、制御コマンドの実行を完了すると、実行結果をリプライパケットとして送受信部122へ送信する(O)。計算機ハードウェアコンポーネント103の送受信部122は、パス12を介して制御ボード102の送受信部116へリプライパケットを送信する(P)。制御ボード102の送受信部116は、受信したリプライパケットを通信部118へ送信する(Q)。通信部118は、計算機ハードウェアコンポーネント103からの応答結果であることを示すターゲット情報をリプライパケットに付加して通信部111に送信する(R)。通信部111は、通信部118からターゲット情報が付加されたリプライパケット受信する(S)。通信部111は、受信したリプライパケットを制御部108に送信する(T)。制御部108は、リプライパケットを解析してプロセッサ105に解析結果を返す(U)。通信部111は、パス10の故障を制御部108に報告する(V)。制御部108は、パス10の故障をプロセッサ105に報告する(W)。
[3.4.パスの二重故障の検出]
 図8は本実施例に係る情報処理装置100のパス二重故障検出の動作を示す図である。本実施例において情報処理装置100は、ハード実行でパス二重故障検出の動作を行う。もちろんソフト実行でも情報処理装置100は、パス二重故障検出の動作を行うことができる。
 制御ボード101のプロセッサ105は、制御部108にコマンドを発行する(A)。前記コマンドには、ターゲットになる計算機ハードウェアコンポーネント103を識別する番号と制御部108が実行する動作の情報を含む。そして制御部108は、受信したコマンドを解析して、制御用パケットを生成する。そして制御部108は制御用パケットを送受信部109に送信する(B)。送受信部109は、パス10を介して送受信部121へ制御用パケットを送信する(C)。
 送受信部109は、パス10を介した通信の故障を検出する(D)。送受信部109は、故障検出フラグ204(図2中に記載)をオンにする(E)。制御部108は、故障検出フラグ204がオンであることを検出し、コマンドの処理を中止する。そして制御部108は、制御部108の内部状態をコマンドの処理開始前に戻す(F)。制御部108は、実行していたコマンドを再実行する(G)。
 送受信部109は、故障検出フラグ204がオンになっているのでパケット送信を中止する(H)。通信部111は、故障検出フラグ204がオンになっていることを示す故障検出信号を故障検出回路203から受信する。通信部111(より具体的にはパケット変換回路301)は、制御部108から受信するパケットに、そのパケットを送受信部116に送信することを示す情報を付加する。送信部111は、その情報を付加したパケット(以下、付加パケットと呼ぶ。)を制御デバイス113へ送信する(I)。
 制御デバイス113の通信部118は、その情報を付加したパケットを通信部111から受信する(J)。通信部118は、送受信部116へ付加パケットを送信する(K)。送受信部116は、パス12を介して計算機ハードウェアコンポーネント103の送受信部122へ付加パケットを送信する(L)。
 そして制御ボード102の送受信部116は、パス12の故障を検出する(M)。制御ボード102の送受信部116は、送受信部116が有する故障検出フラグ51をオンにする(N)。制御ボード102の通信部118は、送受信部116の故障検出フラグ51がオンになっているのを検出する。通信部118は、通信部111へエラーパケットを送信する(O)。
 通信部111は、通信部118からエラーパケットを受信し、通信部111が有する二重故障検出フラグ214をオンにする(P)。通信部111(より具体的には送受信制御回路210)は、二重故障検出フラグ214のオンを示す二重故障検出信号を制御部108に送信する(Q)。制御部108は、パス10、12の二重故障をプロセッサ105に報告する(R)。プロセッサ105上のプログラムは、計算機ハードウェアコンポーネント103の縮退を実行する。ここで計算機ハードウェアコンポーネント113の縮退とは、計算機ハードウェアコンポーネント103が故障していることである。つまりプロセッサ105がパス10とパス12の二重故障を検出した場合、プロセッサ105は計算機ハードウェアコンポーネント103が故障していると判別する。
[4.故障箇所判別のフローチャート]
 図12は本実施例に係る故障箇所判別のフローチャートである。制御ボード101は現用でアクティブ状態であり、制御ボード102は予備用でスタンバイ状態である。
 制御ボード101が計算機ハードウェアコンポーネント103、104と通信を行う。
 まず送受信部109がパス10を介した通信の故障を検出すると(ステップS1201)、制御部108はパス10経由の通信をパス12経由の通信に切り替える(ステップS1202)。そして制御部108は、送受信部109からエラー報告を受信したか否か判別する(ステップS1203)。制御部108がエラー報告をうけたと判別する場合(ステップS1203 YES)、制御部108は制御ボード101が故障した判別する(ステップS1204)。そしてプロセッサ105は、制御ボード102を現用でアクティブ状態に切り替える(ステップS1205)。また制御部108が送受信部109からエラーを受信していないと判別する場合(ステップS1203 NO)、制御部108は送受信部116で故障を検出したか否かを判別する(ステップS1206)。つまり制御部108はパス10、12における二重故障があるか否かを判別する。制御部108が送受信部116で故障を検出したと判別する場合(ステップS1206 YES)、制御部108は計算機ハードウェアコンポーネント103が故障したと判別する(ステップS1207)。そしてプロセッサ105上のプログラムは、計算機ハードウェアコンポーネント103の縮退を実行する(ステップS1208)。制御部108が送受信部116で故障を検出していないと判別する場合(ステップS1206 NO)、制御部108はパス10の故障と判別する(ステップS1209)。そして制御部108は、パス12を計算機ハードウェアコンポーネント103の制御パスとして運用する(ステップ1210)。
 また図13は情報処理装置1300の構成図である。情報処理装置1300は計算機ハードウェアコンポーネント1303~1305の複数の計算機ハードウェアコンポーネントを冗長構成した制御ボード1301、1302で監視する構成となっている。制御ボード1301はプロセッサ1306、制御デバイス1307、1308を有し、同様に制御ボード1302はプロセッサ1310、制御デバイス1311、メモリ1310を有している。そして制御デバイス1307、1311はそれぞれ通信部1309、1313を有し、制御デバイス1307と制御デバイス1313は通信部1309、1313を介して接続している。制御ボード1301が現用で計算機ハードウェアコンポーネント1303~1305を監視し、制御ボード1302が制御ボード1301の故障に備え待機している。そして制御ボード1301は例えば計算機ハードウェアコンポーネント1303と通信できなくなった場合、図12に示す故障箇所判別のフローチャートに準じて、制御デバイス1311を介して計算機ハードウェアコンポーネント1303と通信するか、制御ボード1302を現用に切り替えるか、若しくは計算機ハードウェアコンポーネント1303の運転を停止する。これにより制御ボード1301が計算機ハードウェアコンポーネント1303と通信できない場合、制御ボード1301を不必要に制御ボード1302に切り替える必要がないので、計算機ハードウェアコンポーネント1304~1305を監視するパス(制御デバイス1307と接続しているパス)を切り替え必要がない。そのため情報処理装置1300の保守の効率を向上することができる。
(第2の実施例)
 次に比較回路の他の形態について説明する。図10は比較回路1001を搭載する制御ボード101の構成図である。
 比較回路1001は閾値生成回路1002と接続している。閾値生成回路1002は、制御デバイス106の外部に設けたDIP-SW(DIPスイッチ)1003と接続している。閾値生成回路1002は、DIPスイッチ1003で設定する値を外部信号として取り込んで閾値を生成する。これにより情報処理装置100は、情報処理装置100に搭載する計算機ハードウェアコンポーネントに合わせて故障本数の閾値を設定することができる。
(第3の実施例)
 さらに比較回路の他の形態について説明する。図11は比較回路1101を搭載する制御ボード101の構成図である。
 制御デバイス106の通信部109は、閾値設定用レジスタ1102を有している。閾値設定用レジスタ1102は、比較回路1101と接続している。またプロセッサ105は、制御部108を介して閾値設定用レジスタ1102にアクセスできる。プロセッサ105上のプログラムが閾値設定用レジスタ1102に閾値を設定、その閾値の変更を行う。たとえば情報処理装置100が搭載する計算機ハードウェアコンポーネントの台数の変更が生じた場合、プロセッサ105上のプログラムが閾値設定用レジスタ1102の閾値を変更する。
 また上記までの説明において情報処理装置100は、計算処理を実行する計算機ハードウェアコンポーネント103、104を搭載する情報処理装置である。情報処理装置100はこれに限定されることはなく、物理的に装置外部に設けられた計算処理装置を制御する装置であってもよい。つまり情報処理装置100は、外部の計算処理装置を監視する制御部を冗長構成した装置であってもよい。
 本発明による情報処理装置は冗長構成した制御ボードを搭載し、検出する故障種別に応じて、効率よく制御ボードの切り替えを行うものである。そして本発明による情報処理装置は、搭載する冗長構成した制御ボードを切り替える上で極めて有用である。
 

Claims (6)

  1. 計算処理装置を現用-予備構成で監視する情報処理装置において、
     該計算処理装置の監視に必要なデータの送受信を指示するコマンドを生成する第1処理部と、該第1処理部からのコマンドに応じて該計算処理装置とデータの送受信を行う第1データ転送部とを備えた運用中制御部と、
     該計算処理装置の監視に必要なデータの送受信を指示するコマンドを生成する第2処理部と、該第2処理部からのコマンドに応じて該計算処理装置とデータの送受信を行う第2データ転送部とを備えた予備用制御部とを備え、
     該第1データ転送部が該計算処理装置とデータの送受信ができないとき、該第1データ転送部が該第2データ転送部を経由してデータの送受信を行うことを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置において、
     該第1データ転送部が該計算処理装置とデータの送受信ができないとき、該第1処理部が生成するコマンドに応じて、該第1データ転送部が該第2データ転送部を経由して該計算処理装置と該データの送受信を行うことを特徴とする情報処理装置。
  3. 請求項1に記載の情報処理装置において、
     該第1データ転送部は、該計算処理装置とデータの送受信ができないとき、該データの送信先アドレスを該計算処理装置から該予備用制御部に変換することを特徴する情報処理装置。
  4. 請求項3に記載の情報処理装置において、
     該データ転送部は、該データが該計算処理装置へ送信するデータであることを示す付加情報を該データに付加して、該予備用制御部の該第2データ転送部に送信することを特徴とする情報処理装置。
  5. 請求項1に記載の情報処理装置において、
     該第1データ転送部は、該予備用制御部の該第2データ転送部を経由しても該データの送受信ができない場合、該計算処理装置に故障があると判別することを特徴とする情報処理装置。
  6. 計算処理装置を現用-予備構成の制御部で監視する情報処理装置であって、運用中制御部は第1処理部及び第1データ転送部を有し、予備用制御部は第2処理部及び第2データ転送部を有する情報処理装置の制御方法において、
     該第1処理部は該計算処理装置の監視に必要なデータの送受信を指示するコマンドを生成し、
     該第1データ転送部は該第1処理部からのコマンドに応じて該計算処理装置とデータの送受信を開始し、
     該第1データ転送部は該計算処理装置とデータの送受信ができないとき、該第1データ転送部が該予備用制御部の該第2データ転送部を経由してデータの送受信を行う
     ことを特徴とする制御方法。
     
     
PCT/JP2008/003858 2008-12-19 2008-12-19 情報処理装置、制御方法 WO2010070713A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/003858 WO2010070713A1 (ja) 2008-12-19 2008-12-19 情報処理装置、制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/003858 WO2010070713A1 (ja) 2008-12-19 2008-12-19 情報処理装置、制御方法

Publications (1)

Publication Number Publication Date
WO2010070713A1 true WO2010070713A1 (ja) 2010-06-24

Family

ID=42268404

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/003858 WO2010070713A1 (ja) 2008-12-19 2008-12-19 情報処理装置、制御方法

Country Status (1)

Country Link
WO (1) WO2010070713A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8268783B2 (en) 2007-09-28 2012-09-18 Portola Pharmaceuticals, Inc. Antidotes for factor Xa inhibitors and methods of using the same

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6257337A (ja) * 1985-09-05 1987-03-13 Nec Corp デ−タ伝送装置
JPH0421059A (ja) * 1990-05-14 1992-01-24 Nippon Telegr & Teleph Corp <Ntt> プロセッサ間結合装置切替え方式
JPH04337942A (ja) * 1991-05-15 1992-11-25 Fujitsu Ltd 迂回経路設定方法
JPH08106400A (ja) * 1994-10-06 1996-04-23 Fuji Electric Co Ltd プロセス入出力装置を二重化した二重化制御装置
JP2006260140A (ja) * 2005-03-17 2006-09-28 Fujitsu Ltd データ処理システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6257337A (ja) * 1985-09-05 1987-03-13 Nec Corp デ−タ伝送装置
JPH0421059A (ja) * 1990-05-14 1992-01-24 Nippon Telegr & Teleph Corp <Ntt> プロセッサ間結合装置切替え方式
JPH04337942A (ja) * 1991-05-15 1992-11-25 Fujitsu Ltd 迂回経路設定方法
JPH08106400A (ja) * 1994-10-06 1996-04-23 Fuji Electric Co Ltd プロセス入出力装置を二重化した二重化制御装置
JP2006260140A (ja) * 2005-03-17 2006-09-28 Fujitsu Ltd データ処理システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8268783B2 (en) 2007-09-28 2012-09-18 Portola Pharmaceuticals, Inc. Antidotes for factor Xa inhibitors and methods of using the same

Similar Documents

Publication Publication Date Title
JP4054509B2 (ja) フィールド機器制御システムおよびコンピュータが読取り可能な記憶媒体
JPH0844579A (ja) 障害処理方法および情報処理システム
JP2006260259A (ja) 情報処理システムの制御方法、情報処理システム、情報処理システムの制御プログラム、冗長構成制御装置
CN104679610B (zh) 计算机系统的管理方法和装置
KR20030044354A (ko) 데이터 버스 시스템 및 그 제어방법
US11874786B2 (en) Automatic switching system and method for front end processor
WO2010070713A1 (ja) 情報処理装置、制御方法
JP2009040199A (ja) 運行管理用フォルトトレラントシステム
JP6134720B2 (ja) 接続方法
JP7188895B2 (ja) 通信システム
JP2009075719A (ja) 冗長構成装置及びその自己診断方法
JP5516569B2 (ja) 情報処理装置及び制御方法
JP6762032B2 (ja) 受電装置および制御方法
US20120331334A1 (en) Multi-cluster system and information processing system
JP3261014B2 (ja) データ処理システムにおけるモジュール交換方法および自己診断方法
JP5145860B2 (ja) メモリ二重化システム及び情報処理装置
JP6464704B2 (ja) フォールトトレラントシステム、稼働系装置、待機系装置、フェイルオーバー方法、および、フェイルオーバープログラム
JP6288609B2 (ja) 二重化制御装置
JP2014164472A (ja) 情報処理システム、及び情報処理装置の障害処理方法
JP5549570B2 (ja) データ伝送装置及びデータ伝送方法
US10621031B2 (en) Daisy-chain of safety systems
WO2008062511A1 (fr) Système multiprocesseur
US11914338B2 (en) Redundant automation system and method for operating the redundant automation system
JP2013254333A (ja) 多重系制御システム及びその制御方法
JP5061739B2 (ja) データ処理装置、二重化装置、その障害時系切替方法および障害時系切替プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08878881

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08878881

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP