WO2000051000A1 - Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique - Google Patents

Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique Download PDF

Info

Publication number
WO2000051000A1
WO2000051000A1 PCT/JP1999/000836 JP9900836W WO0051000A1 WO 2000051000 A1 WO2000051000 A1 WO 2000051000A1 JP 9900836 W JP9900836 W JP 9900836W WO 0051000 A1 WO0051000 A1 WO 0051000A1
Authority
WO
WIPO (PCT)
Prior art keywords
bus
computer
management device
cpu
signal
Prior art date
Application number
PCT/JP1999/000836
Other languages
English (en)
French (fr)
Inventor
Tomoki Sekiguchi
Toshiaki Arai
Hiroshi Furukawa
Kazumi Ikeda
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Priority to US09/622,372 priority Critical patent/US6948100B1/en
Priority to JP2000601532A priority patent/JP3991590B2/ja
Priority to PCT/JP1999/000836 priority patent/WO2000051000A1/ja
Priority to EP99906465A priority patent/EP1172732A4/en
Priority to TW088119943A priority patent/TW449687B/zh
Publication of WO2000051000A1 publication Critical patent/WO2000051000A1/ja
Priority to US11/078,385 priority patent/US7426662B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus

Definitions

  • the present invention relates to a computer system, and more particularly, to a computer system that efficiently performs failure processing.
  • a remote management device which is an input / output device for remote management, is connected to a computer via an I0 bus such as a PCI bus, and the computer is managed by the remote management device.
  • the remote management device has an input / output device for communication such as a network adapter or a modem, and is connected to another computer via a LAN, a telephone line, or the like, and is connected to another remote computer. Manages computers from.
  • the remote management device acquires computer operation information via the I / O bus or a dedicated bus that transfers management information for the computer to be managed.
  • the remote management device holds registers and memory that can be accessed by the CPU of the computer to be managed via the I / O bus.
  • Japanese Patent Application Laid-Open No. 9-530386 and Japanese Patent Application Laid-Open No. 5-257914 and Japanese Patent Laid-Open No. It may be configured as a computer (management device computer) that has an I / O device that includes a communication device such as a network adapter and a modem.
  • the CPU on the management computer can execute the management program independently of the management target computer, and can execute the management program regardless of the execution state of the management target computer. You. In other words, the operation of the computer Before starting the operating system (OS), at the time of a failure stop, or even in a state where external operations are not accepted (hangup), the management computer is executable.
  • OS operating system
  • the management computer is executable.
  • Conventional management devices connected to the I / O bus use methods such as resetting the CPU or turning off the power of the managed computer when a failure occurs that causes the managed computer to hang. Has restarted the computer. This restart is performed by connecting the management device and the managed computer with a dedicated signal line, sending a reset signal to the CPU of the managed computer via the signal line, or This is achieved by sending an interrupt that transfers control to firmware on the managed computer.
  • a dedicated line is necessary because the IZO bus does not have a signal line that sends an interrupt that forcibly stops execution of OS.
  • the conventional method of restarting the management device is based on resetting the CPU, so there is no opportunity for the OS to intervene. Content is lost. This makes it difficult to analyze the cause of the failure. In the case of faults that are not reproducible, fault analysis cannot be performed, which is a problem.
  • I / O buses such as PCs
  • the interrupt that forcibly shifts the execution of the OS to the failure processing is managed by the management device. Cannot send to computer.
  • I / O Has a signal line that transfers the address, command, and additional information (for example, parity bits) that guarantees the accuracy of data, etc., transferred via the Iz0 bus. if it is also a certain (PCI Hardware and Software Architecture Design, ppl72 ⁇ 174, Annabooks, 1994) 0 I 0 bus that can transfer this good La biasing Karo information If you are, managed computer and input and output devices, IZO It is possible to verify the accuracy of data on the IZO bus during data transfer via the bus.
  • the I0 bus having the above function when used, the I0 bus having a signal line for notifying the CPU of a failure when an invalid signal is detected based on the additional information of the I0 bus.
  • a control device Microprocessor Report, ppll-12, Vol. 12, Number 9, July, 1998.
  • the conventional management device required a signal line different from the I0 bus, or a circuit or firmware for executing a CPU reset process on a computer.
  • This method has a problem that the computers to which the management device can be connected are limited.
  • An object of the present invention is to provide a computer system capable of acquiring failure information even when a failure occurs in a computer in which failure processing of 0S cannot be performed.
  • Another object of the present invention is to provide a computer system capable of initializing a bus of a computer to be managed via an IZO bus. Disclosure of the invention
  • the management device sends an IZO bus signal notifying the occurrence of an I / O bus failure to the I / O bus management device in the computer. Then, after initializing the IZO bus, the IZO bus management device notifies the I / O bus failure to the CPU of the computer as an interrupt to be processed by the OS.
  • IZ 0 bus A computer system capable of initializing a bus of a computer to be managed via the management server is provided.
  • FIG. 1 is a system configuration diagram of an embodiment of the present invention.
  • FIG. 2 is a configuration diagram of a program according to the embodiment of the present invention.
  • FIG. 3 is a configuration diagram of the device control device.
  • FIG. 4 is a configuration diagram of an I / O bus control device.
  • FIG. 5 is a configuration diagram of a failure processing part in the CPU.
  • FIG. 6 is a configuration diagram of a bus initialization portion in the CPU.
  • Fig. 7 is a flowchart of the processing of the OSS interrupter interrupt handler.
  • Fig. 8 is a flowchart of the processing of the management program executed by the management device.
  • FIG. 9 is a diagram showing the timing of signals on the 0 bus.
  • FIG. 10 is a configuration diagram of a bus unlocking device in the management device according to the second embodiment of the present invention. .
  • FIG. 11 is a flowchart of a process of a management program executed by the management device according to the second embodiment of the present invention.
  • FIG. 12 is a configuration diagram of a fault generation device in the management device according to the third embodiment of the present invention.
  • FIG. 13 is a configuration diagram of a computer and a management device according to the fourth embodiment of the present invention.
  • FIG. 14 is a flowchart of a computer stop process executed by the management device according to the fourth embodiment of the present invention.
  • FIG. 15 is a flowchart of a process executed by the management device according to the fifth embodiment of the present invention. This is a flowchart of computer stop processing. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a diagram showing a system configuration of an embodiment of the present invention.
  • the computer 100 is a computer to be managed by the management device 120.
  • the configuration of the computer 100 will be described.
  • the CPU 101 and the main memory 102 are connected by a bus 103.
  • the bus 103 is connected to an IZ0 bus controller 104 that controls the I / ⁇ bus 107.
  • the bus 103 includes a signal line for instructing the CPU 101 and the I / O bus controller 104 to reset the internal state of the node 103.
  • an INO0 bus 107 extends.
  • a management device 120, an external storage device 105, a console 106 composed of interactive devices such as a keyboard and a display are connected. .
  • the I / O bus controller 104 transfers I / O operations executed by the CPU 101 to the I / O bus 107 and transfers data from I / O devices connected to the IZO bus 107. Transfers to the main memory 102 and registers in the CPU 101, transfers interrupts to the CPU 101, and so on.
  • I / O bus controller 104 and CPU 101 are bus error notification lines 10
  • the bus error notification line 108 is a bus signal for notifying the CPU 101 of a bus error when the I / O bus controller 104 detects an error on the I / O bus 107. Line.
  • the management device 120 is a type of external input / output device that is connected to the I / O bus 107 of the computer 100, and remotely monitors the execution status of the computer 100 and performs operation operations such as starting and stopping. Realize .
  • the management device 120 constitutes a computer by itself, and programs executed there can be independently executed even when the OS of the computer 100 is stopped.
  • the program running on the management device 120 controls the modem 127 and the network adapter 128 to cooperate with the computer 151 and the remote computer such as 170. Thus, an operation for operating the computer 100 from a remote computer is realized.
  • the CPU 121 on the management device 120 and the main memory 122 are connected by a node 123.
  • An IZ0 bus controller 124 is connected to the bus 123, and an I / O node 125 extends from the IZ0 bus controller 124.
  • the IZ0 node 125 has a modem 127 and a network adapter 128 so that it can communicate with a remote computer.
  • the management device 120 is connected to the IZO bus 107 of the computer 100 via the device control device 126.
  • the device control device 126 receives an input / output operation request for the management device 120 executed by the CPU 101 and performs control according to the request. For example, operations such as changing the contents of the main memory 122 and transmitting an interrupt to the CPU 121 are performed.
  • the device control device 126 is configured so that it can be viewed as an input / output device also from the CPU 121.
  • the device controller 126 receives an input / output operation performed by the CPU 121 and performs an operation such as writing data to the I / O bus 107.
  • the fault generation device 130 is a device that receives an instruction from the CPU 121 and sends an incorrect signal to the I / O node 107. If the I / O bus controller 104 of the computer 100 detects an invalid signal on the I / ⁇ bus 107, the CPU 101 fails due to the no-error notification line 108. Notify.
  • FIG. 2 is a software configuration diagram of the embodiment of the present invention.
  • the management device 120 is connected to the I / O bus 107 of the computer 100, and the network adapter 12.8 of the management device 120 is managed via the network. It is connected to calculator 1 5 1.
  • Each of the computers 100 and 151 and the management device 120 is loaded with and operated with 0S201, 0S221 and OS213.
  • a normal application program group 202 is executing.
  • a management agent program 203 that is executed in cooperation with the management device 120 is running.
  • the management agent 203 collects the execution status of the program 202 and the OS 201 executed on the computer 100, transmits the execution status to the management device 120, transmits the execution status to the management device 120, and manages the management device 12
  • the operation instruction to 0, the acquisition of the execution status information of the computer 100 collected by the management device 120, and the operation management process are performed.
  • the operation management processing includes setting the automatic start / stop time of the computer 100, shutting down, rebooting, powering off the computer 100, displaying management information, and managing the network. Information transmission, etc.
  • a communication control program 211 for communicating with a remote computer 151 and a management program 211 for performing operation management processing of the computer 100 are executed.
  • the management program 211 acquires the operation status of the computer 100, controls the power of the computer 100 by specifying the time, automatically starts / stops the OS 201, and manages the management agent 203 It executes the transfer to the remote management computer 151, the processing of the operation request from the remote computer 151, and the like.
  • the program 2 1 1 or 2 1 3 on the management device 1 2 0 can be executed even when the OS 2 0 1 of the computer 1 0 is stopped.
  • the management program 211 acquires the contents of the main memory 102 via the IZO bus 107 and sends it to the remote computer 150. Disability Perform fault processing such as transmission of information.
  • a process of driving the fault generator 130 to send a fault signal to the 10 bus 107 and starting the fault process of the OS 201 is performed.
  • the remote computers 151 and 170 are connected to the management device 120 via a network 150 such as a LAN or a communication line 140 such as a telephone line.
  • the remote computer management program 220 is running.
  • the program 220 exchanges management information by communication with the management program 211 on the management device 120, and executes the operation management operation of the computer 100. For example, display of operation management information of computer 100, remote stop / reboot, execution of OS 201 fault processing start instruction, etc.
  • OS 201 When a failure occurs, the CPU 101 generates a bus error interrupt and executes the failure processing.
  • an interrupt handler 204 that handles bus error interrupts.
  • the interrupt handler 204 is registered in the interrupt vector of the CPU 101 and is set to be executed when a bus error interrupt occurs.
  • FIG. 3 is a diagram showing a configuration of the device control device 126 according to the present embodiment.
  • the device control device 126 is connected to the IZO bus 125 of the management device 120 and the I / O bus 100 of the computer 100 via the I / O bus interface circuit 301. 7 is connected.
  • the circuit 301 is a circuit for extracting data from each IZO node to the device control device 126 or transmitting data from the CPU to the I0 bus.
  • the circuit 301 drives other circuits in the device control device 126 according to the data content obtained from the I / O bus 107.
  • the control device 126 incorporates a parity generation circuit 302 for the IZ 0 noise 107 and a failure generation device 130.
  • the parity generation circuit 302 generates a parity signal 107a relating to the address signal 107b to be transmitted to the IZO bus 107 by a combination of exclusive OR circuits. During normal execution, the data generated by the parity generation circuit 302 is used. Transmits the integrity signal to the I / O bus 107 as it is.
  • the fault generating device 130 inverts the parity signal generated by the parity generating circuit 302 to generate a signal defined as a fault on the IZO bus 10.7.
  • the generation of the fault signal is controlled by the fault generation register 303.
  • register 303 should be set to 0.
  • the fault generator 130 inverts the signal generated by the parity generating circuit 302 and sends a fault signal to the IZO bus 107. .
  • the register 303 is configured so that it can be accessed by the input / output instruction of the CPU 121 of the management device 120.
  • the management program 211 sets the register 303 to 1 and executes an operation to access the bus 107, thereby forcibly stopping the OS 201 of the computer 100. it can.
  • the fault generation device 130 sets the fault generation status register 304 to 1 when transmitting an invalid signal to the parity signal 107a. Also, reset register 303 to 0 so that fault injection to I / O bus 107 does not occur continuously.
  • a fault is sent to the I0 bus by setting the parity of the address signal to an invalid value, but the method of generating an invalid bus signal is not limited to this.
  • FIG. 4 is a diagram showing a part of the configuration of the IZ0 bus control device 104 in the present embodiment.
  • the I0 bus controller 104 transmits data to the IZ ⁇ bus 107 and fetches data from the I / O bus 107.
  • the parity calculation circuit 401 in the IZ0 bus control device 104 obtains a parity value from the address signal 107b.
  • the 0 parity value is compared with the parity signal 107 a of the I / O bus 107. If they do not match, the bus error is notified to the CPU 101 by the error notification line 108.
  • the parity value becomes invalid, so that the CPU 101 is notified of the bus fault.
  • Fig. 5 shows the configuration related to bus failure processing on the CPU 101 side.
  • the CPU 101 When notified of a bus failure by the bus error signal line 108, the CPU 101 initializes the bus 103 by the bus initialization circuit 501.
  • the initialization of the bus 103 indicates that the state of the bus inside the CPU 101 is set to the initial state, and is not a reset of the CPU 101.
  • This bus initialization process is necessary for other devices connected to the bus 103, and the other devices are instructed to perform bus initialization as the bus initialization signal 103b.
  • the CPU 101 delays the error notification signal 108 by the delay circuit 502, and drives the interrupt control circuit 504 when the initialization of the bus 103 is completed. Generates a bus error interrupt internally.
  • the normal external interrupt is notified to the processor by the external interrupt signal 103a.
  • the external interrupt is masked by the value of the interrupt disable register 503. If the interrupt by the bus error notification is configured to drive the interrupt control circuit 504 by bypassing the mask control by the interrupt disable register 503, the CPU 101 Even when external interrupts are disabled, an interrupt due to a bus failure can be generated.
  • FIG. 2 is a diagram showing a configuration example of a bus initialization circuit 501 of 101; Circuits related to the CPU 101 bus are driven in synchronization with the clock signal 604. .
  • CPU 101 Within CPU 101 is a circuit that controls node 103. Among them, there is a portion that holds a state related to data that has flowed through the bus 103 in the past.
  • a register 603 constituted by flip-flops stores the bus state. Register 603 captures the bus state in synchronization with clock signal 604.
  • the value of the register 603 during normal operation is determined by the bus control circuit 601.
  • the switch circuit 605 is set so that the output value of the bus control circuit 601 reaches the register 603. Constitute.
  • the switch circuit 605 When the bus initialization signal 103b is active, the switch circuit 605 is configured so that the value set in the initial state register 602 reaches the register 603. I do.
  • the value of the initial state register 602 is set in advance in CPU 101 or by initialization at the time of turning on the power of the computer 101. This allows the CPU 101 to set the register 603 to the initial state in response to the bus initialization signal 103b.
  • the CPU 101 sends the bus initialization signal 103b to the bus 103, but each device connecting the bus error notification signal 108 to the bus 103 detects the signal. Then, the initialization may be performed in each device.
  • the management device 120 connected to the IZ0 bus 107 of the computer 100 can execute an arbitrary operation independent of the execution state of the computer 100.
  • a signal defined as a fault on the IZ0 bus 107 is sent to the I / 0 bus 107, and the signal is sent to the bus 103 held by each device connected to the path 103.
  • the relevant internal state can be initialized and the CPU 101 can generate a bus error interrupt.
  • FIG. 7 is a flowchart showing the processing of the interrupt handler 204 for a bus error in the OS 201 executed by the computer 100.
  • the CPU 101 When the CPU 101 captures a bus error interrupt, it passes control to the interrupt handler 204 starting at step 701.
  • the bus error interrupt may or may not occur intentionally by the management device 120.
  • the interrupt handler 204 first, the value of the fault generation status register 304 of the management device 120 is obtained (step 701).
  • the register 304 is configured to be accessible from the CPU 101 via the IZO bus 107.
  • the acquired value of the register 304 is inspected (step 720), and if the value of the register 304 is 0, that is, the management device 120 sends a bus failure. If so, perform normal bus error processing (step 705). For example, in the case of register 1, which indicates failure information displayed on console 106, dump of main memory 102 to external storage device 105, restart of computer 100, etc. In the case of a bus error caused by the management device 120 injecting a fault into the IZ 0 node 107, the fault status generating register is reset (step 703), and the effect is set. Is displayed on the console 106 (step 704). 720 is an example of a console screen display.
  • FIG. 8 is a flowchart showing a processing example of the management program 211.
  • step 811 it is checked whether or not there is a stop request to the computer 100.
  • 'Stop request is sent from a remote computer 151 or 170 via a communication line.
  • the operation status of the computer 100 is collected and stored in the management data 210 (step 802). Based on the acquired data 210, it is determined whether the computer 100 is executing normally (step 803). If so, the operation status is sent to the remote computer (step 804). If it has stopped, proceed to step 807 to obtain fault information and send it to the remote computer.
  • the fault generation register 303 is set to 1 and an instruction to access the IZO bus 107 is executed (step 806).
  • a bus error interrupt is generated by the CPU 101, and control is transferred to the bus error interrupt handler 204.
  • step 807 to send the fault information to the remote computer.
  • the hardware configuration and the software procedure described above allow the management device connected to the IZO bus 107 to be connected. From 120, it is possible to execute the bus error interrupt handler 204, which is the OS error handling, by forcibly stopping the execution of the computer 201 Become.
  • the fault generation device 130 of the management device 120 sends a faulty signal to the IZ0 bus 107 at any time regardless of the execution state of the computer 100.
  • the OS 201 executed on the computer 100 is forcibly stopped.
  • the computer 100 and the management device 120 are connected only by the I / O bus 107.
  • the restriction on the computer 100 to which the management device 120 can be connected is relaxed, compared with the conventional method of connecting the management device and the computer with a dedicated signal line.
  • the conventional management device restarted the computer by resetting the CPU when the execution of the OS was stopped due to a failure, which made it difficult to analyze the cause of the failure.
  • the IZ0 bus controller 104 notifies the CPU 101 of a bus error, and the CPU 101 generates an interrupt in response to the bus error and generates an interrupt handler. Perform 2 0 4.
  • failure processing such as storing the contents of the main memory 102 in the external storage device 105, analyzing failure factors, removing failure factors, and executing OS 201 Stop processing can be performed, facilitating later failure analysis and recovery.
  • the CPU 101 and each device connected to the bus 103 initialize the internal state related to the bus 103, the CPU 101 generates an interrupt. It is more likely that handler 204 can be executed.
  • the contents of the main memory 102 are stored in the external storage device 105 by the bus error interrupt handler 204, but all of the contents of the main memory 102 or A part or the failure analysis information by the interrupt handler 204 may be stored in the main storage device 122 of the management device 120.
  • the management device 120 sends a failure signal to the I / O bus 107.
  • a device such as a network adapter or a modem sends a specific packet or data to a device such as a modem.
  • a failure signal generator 130 may be incorporated so as to transmit a failure signal to the I / O bus 107 when receiving the signal.
  • the management device 120 it is necessary to send a signal recognized as a failure from the management device 102 connected to the I I bus 107 to the IZ0 bus 107.
  • the right to access the management device 120 canon 0 107 must be obtained.
  • the right to use the bus must be obtained through arbitration of the news 107.
  • the management device 120 may not be able to obtain the right to use the IZ0 bus 107 in some cases.
  • the CPU 101 exclusively uses the I / O bus 107 when it performs some connected undivided processing on the device connected to the I / O bus 107. Acquire the right to use the bus when using it. This is called locking the bus. At this time, if the device cannot respond because the target device is out of order, the right to use the bus 107 remains unreleased.
  • the fault signal cannot be injected into the I / O bus 107 in the first embodiment, so that the fault processing of the OS 201 of the computer 100 cannot be started from the management device 120. .
  • the management device 120 can check the lock state of the I0 bus 107. Further, in response to the I / O bus request that is not completed while the path is locked, the management device 120 sends arbitrary data to pretend that the request operation has been completed, and notifies the request issuing source. Release the bus entrance.
  • FIG. 9 is a timing diagram showing a data flow on the I0 bus 107 in the present embodiment.
  • FIG. 9 shows the state of the bus signals when the access right of the 10 bus 107 has been arbitrated and the data transfer is actually performed overnight.
  • the device that accesses the I0 bus 107 obtains the access right, and then outputs an address signal 107b that specifies the device to be accessed.
  • the device connected to the IZ0 bus 107 must be connected to the I / O bus 107 while the lock signal 107c is active. It is configured so that the next request cannot be made on 107.
  • the requesting device should activate the bus lock signal 107c until the operation is completed.
  • the device specified by the address signal 107 b activates the response signal 107 d when the operation is completed, and the data signal line 107 e when there is data. Output data to
  • the request source device detects that the response signal 10 ⁇ d has become active, captures data from the data signal line 107e, and receives the bus lock signal 107c. Release the activation.
  • FIG. 10 is a diagram showing a configuration of a control device 120 according to the second embodiment. It is assumed that CPU 101 issues a non-segmented continuous IZO request to device 102, but device 102 cannot respond.
  • the I / O bus controller 104 activates the bus lock signal 107c of the IZ0 bus 107. .
  • the control device 120 is provided with a bus lock state register 106 that holds the bus lock signal 107 c at each time.
  • the bus lock status register 106 is configured so that it can be referred to from the CPU 201 on the management device 120, and the management program 211 can know the value.
  • the management device 120 outputs a response signal 107d only when the address signal 107b of the I / O bus 107 specifies the control device 120. It is configured as follows. In addition, it has a means for sending a response signal 107d to the IZO bus 107 at an arbitrary time according to the instruction of the management program 211.
  • the response signal 107d is controlled by the proxy response control register 1001.
  • the device control circuit 1 0 0 2 Is output as the response signal 107d of the I0 bus. .
  • the IZO bus data signal 107 e is also controlled by the proxy response control register 1001.
  • the switch circuit 105 outputs the output value of the device control circuit 1002 or the output value of the proxy response value register 1004 to the data according to the value of the register 1001. Output to signal 107e.
  • the proxy response control register 1001 when the proxy response control register 1001 is set to 1, the response signal 107d becomes active, and the value stored in the proxy response value register 1004 becomes Transmitted to bus data signal 107 e.
  • FIG. 11 is a flowchart showing the forced stop processing of OS 201 of the control program 211.
  • control program 211 checks whether or not the IZ0 bus 107 is locked by referring to the lock status register 1006 (step 111). ). If it is not locked, go to step 1103, set the fault generation register 303 to 1 in the same procedure as in the first embodiment, and set the IZO bus 10 Inject a fault signal into 7.
  • step 1102 the proxy response control register is set to 1. As a result, unlocking of the I / O bus 107 is attempted, the process returns to step 1101, and the bus lock state is checked again. If the bus lock is released, the process proceeds to step 1103 to inject a fault signal.
  • the management device 120 can inject the fault signal to the IZO bus 107 even if the I-no bus 107 is locked to another device. Becomes possible. As a result, it is impossible to forcibly stop the management device 12 0 connected to the computer 10 () by using the IZ ⁇ bus 10 7. The range of harm expands.
  • FIG. 12 is a diagram showing a configuration of the fault generation device 122 of the present embodiment.
  • the fault generating device 122 includes a fault generating circuit 122 and a bus lock canceling circuit 123.
  • the fault generating circuit 122 has the same configuration as the fault generating device 130 shown in FIG. 3 of the first embodiment.
  • the bus unlocking circuit 123 also has the same configuration as the configuration shown in FIG. 10 of the second embodiment.
  • the fault generator 1221 in synchronism with the clock 604, samples the clock signal 107c of the IZO bus 107, and then checks the lock state. Stored in register 124.
  • the fault generation device 1221 controls the injection of the fault signal by using the fault generation register 125.
  • the fault generation register 125 is 0, the fault generation circuit 122 and the bus lock release circuit 123 do not operate.
  • the control program 211 sets the fault generation register 125 to 1 when the execution of OS 201 stops.
  • the fault generator circuit 123 If the bus lock signal 107c is not active when the fault generator register 125 is set to 1, the fault generator circuit 123 operates. The circuit 123 sends a disturbing signal to the 1/0 bus 107.
  • the fault generation circuit 1203 When the bus lock is released, that is, when the bus signal 107c becomes inactive, the fault generation circuit 1203 is activated to output the fault signal to the I / O bus. It is sent to the news box 107.
  • the execution of the computer 100 can be performed more reliably than monitoring the lock signal by software and injecting a failure signal as in the second embodiment. Can be stopped. Further, the control unit by the software driver in the second embodiment can be eliminated.
  • the management device 120 sends a pseudo response signal to the I / O bus 107 to release the bus lock.
  • the management device 120 may record the identifier on the bus of the device that has transmitted the bus transaction requiring the bus lock.
  • FIG. 13 is a diagram illustrating the configuration of a computer 100 and a management device 120 according to the fourth embodiment.
  • FIG. 13 illustrates the configuration of the computer 100 and the management device 120 according to the fourth embodiment.
  • the computer 100 has a reset circuit 1302 for resetting the CPU 101.
  • the reset circuit 1302 is connected to the management device 120 via a reset control line 133. Reset control line 1 3 0 3 When is activated, the reset circuit 1302 is activated and the CPU 101 is reset. This resets the entire computer.
  • the management device 120 has a reset control register 1301.
  • Reset control register 1301 is configured to be configurable from CPU 121. Configure the reset control line to be active when reset control register 13301 is set to 1.
  • FIG. 14 shows the flowchart.
  • the fault generator 130 is driven to send a fault signal to the IZO bus 1 (step 1441).
  • the OS 201 has executed the failure processing (step 1443). If the processing has not been executed, the reset control register 13302 is set to 1 in step 1444, and the computer 100 is reset.
  • the reset control register 13302 is set to 1 in step 1444, and the computer 100 is reset.
  • a remote computer or an operator gives an opportunity to send a fault to the IZ0 bus 107, but the management device 120 and the management program 211 cause a fault. You may decide whether or not to send.
  • a method will be described in which the management agent program 203 and the management program 211 execute a failure transmission by cooperation.
  • the management device 120 has an agent start register indicating that the management agent 203 is running.
  • the agent start register is configured so as to be accessible from both the CPU 1001 of the computer 100 and the CPU 201 of the management device 120 (not shown).
  • the management agent 203 is configured to run at regular time intervals and to set the agent startup register at runtime (flow chart savings). Omitted).
  • the management apparatus 120 determines whether the computer 100 is executing normally by referring to the agent start register.
  • FIG. 15 is a flowchart showing the processing of the management program 211 executed by the management apparatus 120.
  • the processing shown in FIG. 15 is configured to be executed at regular time intervals.
  • the management program 211 holds a variable (number of times of non-startup) that records the number of times the register has not been set when checking the agent start-up register.
  • the agent start register of the management apparatus 120 is inspected (step 1501). If this register is set, clear this register (step 1 ⁇ 04), set the number of unstarts to 0 (step 1505), If the register to be terminated has not been set, check the number of unstarts (Step 1502). If the number of times of non-activation is a predetermined positive integer X, a failure signal is sent to the I / O bus 107 (step 1503). If it is not X, 1 is added to the number of unstarted times (step 1506), and the processing ends.
  • the management program 211 it becomes possible for the management program 211 to check the execution state of the computer 100 and to voluntarily send a fault to the I / O bus 107.
  • a message indicating that the computer 100 was forcibly stopped may be transmitted to the remote computers 151 and 170.
  • a fault is sent to the I / O bus 107 by a software program. However, unless the management device 120 is reset for a certain period of time, the fault is sent to the I / O bus 107.
  • a watchdog timer configured to drive the fault generating device 130 may be provided.
  • the management agent 203 executes at regular time intervals and executes Configure the watchdog timer to be reset at run time. No special processing is required on the part of the management program 211. .
  • the management program 120 checks the execution status of the OS 201 with reference to the contents of the main memory 102 of the computer 100, and in accordance with the inspection status, sends the IZO bus 107 to the IZO bus 107. A fault signal may be sent.
  • a fault occurrence signal is sent from the management device to the managed computer via the IZO bus, and the managed computer receives this signal as a trigger. It is suitable for initializing the bus and for constructing a computer system that generates interrupts.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

明 細 書 計算機システム及び計算機システムにおける障害処理方法 技術分野
本発明は、 計算機システムに関 し、 特に、 障害処理を効率よ く 行な う 計算機システムに関する。 背景技術
遠隔管理用の入出力装置である リ モー ト管理装置を P C I バス等の I 0バスを介して計算機に接続して、 リ モー ト管理装置によ り計算機を 管理する方法がある。 リ モー ト管理装置は、 ネ ッ ト ワーク アダプタゃモ デムといった通信用の入出力装置を'有し、 L A Nや電話回線等によ り他 の計算機と接続して、 遠隔地にある他の計算機から計算機を管理してい る。
リ モー ト管理装置は、 I ノ 0バス、 あるいは、 管理対象の計算機の管 理情報を転送する専用のバスを経由 して、 計算機の稼動情報を取得する
。 リ モー ト管理装置は、 管理対象の計算機の C P Uが I / Oバス経由で アクセス可能な レジスタやメ モ リ を保持している。
また、 特開平 9— 5 0 3 8 6ゃ特開平 5 — 2 5 7 9 1 4、 および、 特 開平 5 — 2 5 0 2 8 4のよ う に、 リ モー ト管理装置は、 C P U、 メ モ リ 、 および、 ネ ッ ト ワークアダプタやモデムといった通信装置を含む I ノ 0装置を持つ計算機 (管理装置計算機) と して構成される場合もある。 この場合、 管理装置計算機上の C P Uは、 管理対象の計算機とは独立 し て管理用のプロ グラムを実行でき、 管理対象の計算機の実行状態に関わ らず管理プロ グラムを実行する こ とができ る。 つま り 、 計算機のォペ レ 一ティ ングシステム ( O S ) の起動前、 障害停止時、 外部からの操作を 受け付けない状態 (ハングア ッ プ) 時でも、 管理装置計算機は実行可能 にな っている。
I / 0バスに接続される従来の管理装置は、 管理対象の計算機がハン グア ッ プする障害が発生した場合、 C P Uの リ セ ッ ト、 あるいは、 管理 対象の計算機の電源の遮断等の方法によ り 計算機を再起動 している。 こ の再起動は、 管理装置と管理対象の計算機を専用の信号線で接続して、 その信号線を経由 して管理対象の計算機の C P Uに リ セ ッ ト信号を送つ た り 、 あるいは、 管理対象の計算機上のフ ァームウ ェアに制御を移す割 り込みを送る こ とによ り 実現している。 専用線が必要なのは、 I Z Oバ スには O Sの実行を強制的に停止させるよ う な割 り込みを送る信号線が ないためである。
この再起動方法を実施するには、 管理装置と管理対象の計算機との間 に I 0バス以外の信号線を設置 しなければな らない。 このため、 管理 装置を接続可能な管理対象の計算機が限定されて しま う 問題がある。 つ ま り 、 管理装置と管理対象の計算機を専用線で接続でき る組み合わせで なければ、 障害発生時に管理装置から管理対象の計算機を再起動できな い。
. また、 従来の管理装置の再起動方法は、 C P Uの リ セ ッ ト によるため O Sが介在する機会がな く 、 加えて、 O S の再起動によ り管理対象の計 算機の主記憶の内容が失われて しま う 。 このため、 障害原因の解析を困 難 している。 さ らに再現性のない障害の場合、 障害解析をする こ とがで きず問題である。
一方、 P C [ スのよ う な汎用の I / Oバスについてみる と、 前に述 ベたよ う に、 O S の実行を強制的に障害処理へ移行させる割 り込みを管 理装置から管理対象の計算機に送る こ とができない。 しか し、 I / Oバ スが、 I z 0バス経由で転送されるア ド レス、 コマン ド、 および、 デー タ等の正確性を保証するための付加情報 (例えばパリ ティ ビッ ト) を転 送する信号線を持っている場合もある (PCI Hardware and Software Architecture Design, ppl72~ 174, Annabooks, 1994 ) 0 このよ ラ な付カロ 情報を転送でき る I 0バスであれば、 管理対象の計算機や入出力装置 は、 I Z Oバス経由のデータ転送において I Z Oバス上のデータの正確 性を検証する こ とは可能である。
更に、 前記の機能を持つ 'I 0バスを使用 している場合、 I 0バス の付加情報によ り不正な信号を検出 した時に、 障害を C P Uに通知する ための信号線を持つ I 0バス制御装置もある (Microprocessor Report, ppll- 12, Vol.12, Number 9, July, 1998 ) 。
管理対象の計算機の C P Uについてみる と、 バスに障害が発生する と 、 メ モ リ アクセスができな く なって、 C P Uが動作できない状況が発生 し得る。 このよ う にバスがロ ッ ク している場合、 C P Uに割 り込み信号 を送っただけでは、 C P Uの実行を再開する こ とはできない。 これは、 バス障害のためにメ モ リ アク セスができないため、 割 り込みハン ドラを 起動できないためである。
このよ う な障害に対して、 バスに関する障害信号を検出 した場合に、 C P Uを リ セッ トするのではな く ノ スだけを再初期化 して、 その後に内 部的に割 り込みを生成して割 り込みハン ドラに制御を渡す C P Uがある ( Microprocessor Report, ppl, 6〜 10, Vol.12, Number 9, July, 1998) 。 この C P Uに依れば、 ノく スがロ ッ ク して しま っても C P Uの実 行を再開させる こ とができ、 O Sの障害処理を開始させる こ と も可能と なる。
従来の 1 0バスに接続する計算機の管理装置では、 O Sの障害処理 が実行できな く なる障害が計算機に発生 した時、 I ノ 0バス以外の信号 線によ り計算機の C P Uを リ セ ッ 卜する、 あるいは、 計算機上のフ ァー ムウ ェアによ り C P Uを リ セ ッ ト して、 計算機全体を再起動 している。 これら方法では、 C P Uがリ セ ッ ト されて しま う ため、 0 Sは障害処理 を実行する こ とができず、 障害情報が取得できな く なる という 問題があ つ た。
また、 従来の管理装置では、 I 0バスとは別の信号線、 あるいは、 計算機上に C P Uの リ セ ッ ト処理を実行する回路やフ ァームウ ェアが必 要であった。 こ の方式には、 管理装置の接続可能な計算機が限定される という 問題があった。
本発明の目的は、 0 Sの障害処理が実行できな く なる障害が計算機に 発生 した場合でも、 障害情報を取得可能な計算機システムを提供する こ とにある。
また、 本発明の別の 目的は、 I Z Oバスを介して管理対象の計算機の バスを初期化可能な計算機システムを提供する こ とにある。 発明の開示
上記目的を達成するために、 本発明では、 計算機と管理装置が 1 0 バスによ り接続された計算機システムにおいて、 0 Sの障害処理が実行 できな く なる障害が計算機に発生 した場合、 障害管理装置から計算機内 の I / 0バス管理装置に I / 0バス障害の発生を通知する I Z Oバス信 号を送る。 そ して、 I Z Oバス管理装置は、 I Z Oバスを初期化した後 、 I / 0バス障害を計算機の C P Uに O Sが処理する割 り 込みと して通 知する。
このよ う に して、 従来、 O Sの障害処理が実行できな く なる障害が計 算機に発生 した場合でも、 O Sへの割 り 込みを契機と して障害情報を取 得可能な計算機システムを提供する こ とができ る。 また、 I Z 0バスを 介して管理対象の計算機のバスを初期化可能な計算機システムを提供で さ る。 図面の簡単な説明
第 1 図は、 本発明の実施形態の システム構成図である。
第 2 図は、 本発明の実施形態のプログラムの構成図である。
第 3 図は、 デバイ ス制御装置の構成図である。
第 4 図は、 I / Oバス制御装置の構成図である。
第 5 図は、 C P U内の障害処理部分の構成図である。
第 6 図は C P U 内のバス初期化部分の構成図である。
第 7 図は O S のノく スエラ一割 り込みハ ン ドラの処理のフ ロ チ ャ トである。
第 8 図は 管理装置で実行する管理プログラムの処理のフ ローチャ一 トである。
第 9 図は 0バス上の信号のタ イ ミ ングを示す図である 第 1 0 図は、 本発明の第 2 の実施形態における、 管理装置内のバス 口 ッ ク解除装置の構成図である。
第 1 1 図は、 本発明の第 2 の実施形態における、 管理装置で実行する 管理プログラムの処理のフ ローチ ヤ一トである。
第 1 2 図は、 本発明の第 3 の実施形態における、 管理装置内の障害生 成装置の構成図である。
第 1 3 図は、 本発明の第 4 の実施形態における、 計算機と管理装置の 構成図である。
第 1 4 図は、 本発明の第 4 の実施形態における、 管理装置で実行する 計算機停止処理のフ ローチ ヤ一 トである。
第 1 5 図は、 本発明の第 5 の実施形態における、 管理装置で実行する 計算機停止処理のフ ローチヤ一トである。 発明を実施するための最良の形態
以下、 図面を用いて本発明の実施例を説明する。
( 1 ) 第 1 の実施形態
第 1図は、 本発明の実施形態のシステム構成を示す図である。 計算機 1 0 0 は、 管理装置 1 2 0の管理対象となる計算機である。
計算機 1 0 0の構成について説明する。 C P U 1 0 1 と主記憶 1 0 2 は、 バス 1 0 3 によ り接続している。 バス 1 0 3 には、 I /〇バス 1 0 7を制御する I Z 0バス制御装置 1 0 4が接続している。 バス 1 0 3 に は、 C P U 1 0 1 や I / 0バス制御装置 1 0 4 に、 ノ<ス 1 0 3 に関する 内部状態の リ セ ッ トを指示する信号線が含まれる。 I Z 0バス制御装置 1 0 4からは I ノ 0バス 1 0 7が伸びている。 I 0ノく ス 1 0 7 には、 管理装置 1 2 0 、 外部記憶装置 1 0 5、 キーボー ド、 ディ スプレイ等の 対話型デバイ スから構成される コ ン ソール 1 0 6等が接続される。
I / Oバス制御装置 1 0 4 は、 C P U 1 0 1 が実行する入出力操作の I / 0バス 1 0 7への転送や、 I Z Oバス 1 0 7 に接続する入出力機器 からのデータの、 主記憶 1 0 2や C P U 1 0 1 内の レ ジスタへの転送、 割 り込みの C P U 1 0 1への転送等を実施する。
I / 0バス制御装置 1 0 4 と C P U 1 0 1 は、 バスエラー通知線 1 0
8 によ り 接続している。 バスエラ一通知線 1 0 8 は、 I / Oバス制御装 置 1 0 4が、 I / Oバス 1 0 7上でエラーを検出 した時に、 C P U 1 0 1 にバスエラ一を通知するためのバス信号線である。
次に、 管理装置 1 2 0 について説明する。 管理装置 1 2 0 は、 計算機 1 0 0の I / 0バス 1 0 7に接続する外部入出力装置の一種で、 遠隔か ら計算機 1 0 0 の実行状況の監視や起動 · 停止等の運用操作を実現する 。 管理装置 1 2 0 は、 それ自体で計算機を構成してお り 、 そこで実行す るプロ グラムは、 計算機 1 0 0 の O S が停止している時でも独立して実 行可能である。 管理装置 1 2 0 で実行するプログラムは、 モデム 1 2 7 ゃネ ッ ト ワーク アダプタ 1 2 8 を制御 して、 計算機 1 5 1 、 および、 1 7 0 のよ う な遠隔にある計算機と連携 して、 遠隔にある計算機からの計 算機 1 0 0 の運用のための操作を実現する。
管理装置 1 2 0 上の C P U 1 2 1 と主記憶 1 2 2 は、 ノくス 1 2 3 で接 続している。 バス 1 2 3 には、 I Z 0バス制御装置 1 2 4 が接続し、 I Z 0バス制御装置 1 2 4 からは I / 0ノ ス 1 2 5 が伸びている。 I Z 0 ノ ス 1 2 5 には、 モデム 1 2 7 ゃネ ッ ト ワークアダプタ 1 2 8 があ り 、 遠隔の計算機と通信可能となっている。
管理装置 1 2 0 は、 デバイ ス制御装置 1 2 6 を介して、 計算機 1 0 0 の I Z Oバス 1 0 7 と接続する。 デバイ ス制御装置 1 2 6 は、 C P U 1 0 1 が実行する管理装置 1 2 0 に対する入出力操作要求を受信して、 要 求に応じた制御を実施する。 例えば、 主記憶 1 2 2 の内容を変更する、 C P U 1 2 1 に割 り 込みを送信する等の操作である。
デバイ ス制御装置 1 2 6 は、 C P U 1 2 1 から も入出力装置と して見 えるよ う に構成する。 デバイ ス制御装置 1 2 6 は、 C P U 1 2 1 の実行 する入出力操作を受けて I / 0バス 1 0 7 にデータを書き出す等の操作 を実施する。
デバイ ス制御装置 1 2 6 の中に、 障害生成装置 1 3 0 がある。 障害生 成装置 1 3 0 は、 C P U 1 2 1 の指示を受けて I ノ 0ノく ス 1 0 7 に不正 な信号を送出する装置である。 計算機 1 0 0 の I ノ 0バス制御装置 1 0 4 は、 I /〇バス 1 0 7 上で不正な信号を検出 した場合、 ノ スエラー通 知線 1 0 8 によ り C P U 1 0 1 に障害を通知する。
第 2図は、 本発明の実施形態のソ フ ト ウ エア構成図である。 こ こでは 、 計算機 1 0 0 の I / Oバス 1 0 7 に管理装置 1 2 0 が接続されてお り 、 管理装置 1 2 0 のネ ッ ト ワーク アダプタ 1 2 .8 がネ ッ ト ワークを介し て管理計算機 1 5 1 に接続されている。
計算機 1 0 0 と 1 5 1 、 および、 管理装置 1 2 0 のそれぞれには、 0 S 2 0 1 、 0 S 2 2 1 、 および、 O S 2 1 3 力 ローデイ ングされ、 動作 している。 計算機 1 0 0 では、 通常のアプリ ケーシ ョ ンプログラム群 2 0 2 が実行している。 加えて、 計算機 1 0 0 では、 管理装置 1 2 0 と連 携 して実行する管理エージヱ ン トプロ グラ ム 2 0 3 が動作している。 管 理エー ジ ヱ ン ト 2 0 3 は、 計算機 1 0 0 で実行するプログラム 2 0 2、 および O S 2 0 1 の実行状況の収集、 管理装置 1 2 0 への実行状況送信 、 管理装置 1 2 0への動作指示、 管理装置 1 2 0 が収集 した計算機 1 0 0 の実行状況情報の取得、 運用管理処理を実施する。 運用管理処理とは 、 計算機 1 0 0 の 自動起動 · 停止時刻の設定、 計算機 1 0 0 のシ ャ ツ ト ダウ ン、 リ ブー ト、 電源断、 管理情報の表示ゃネ ッ ト ワークへの管理情 報送信等である。
管理装置 1 2 0 では、 遠隔の計算機 1 5 1 との通信を行う通信制御プ ログラム 2 1 2 と、 計算機 1 0 0 の運用管理処理をする管理プログラム 2 1 1 が実行している。 管理プログラム 2 1 1 は、 計算機 1 0 0 の動作 状況の取得、 時刻指定による計算機 1 0 0 の電源制御、 O S 2 0 1 の自 動起動 · 停止処理、 管理エージェ ン ト 2 0 3 収集情報の遠隔管理計算機 1 5 1 への転送、 遠隔計算機 1 5 1 からの運用操作要求の処理等を実行 する。
管理装置 1 2 0 上のプログラム 2 1 1 ない し 2 1 3 は、 計算機 1 0 0 の O S 2 0 1 が停止していても実行可能である。 計算機 1 0 0 が O S 2 0 1 の障害のため停止している時、 管理プログラム 2 1 1 は、 I Z Oバ ス 1 0 7 経由で主記憶 1 0 2 の内容を取得、 遠隔計算機 1 5 1 へ障害情 報の送信等の障害処理を実施する。 加えて、 本実施形態では、 障害生成 装置 1 3 0 を駆動 して 1 0バス 1 0 7 に障害.信号を送出 し、 O S 2 0 1 の障害処理を起動させる処理を実施する。
遠隔の計算機 1 5 1 や 1 7 0 は、 L A Nのよ う なネ ッ ト ワーク 1 5 0 、 あるいは、 電話回線といっ た通信回線 1 4 0 で管理装置 1 2 0 と接続 している。 遠隔計算機 1 5 1 では、 遠隔計算機管理プログラム 2 2 0 が 実行している。 このプログラム 2 2 0 は、 管理装置 1 2 0 上の管理プロ グラム 2 1 1 と通信によ り管理情報を交換して、 計算機 1 0 0 の運用管 理操作を実行する。 例えば、 計算機 1 0 0 の運用管理情報の表示、 遠隔 からの停止 · リ ブー ト、 O S 2 0 1 の障害処理開始指示などを実行する ノく ス 1 0 3 や I / 0バス 1 0 7 で障害が発生する と、 C P U 1 0 1 は バスエラ一割 り込みを生成して障害処理を実行する。 O S 2 0 1 内には 、 バ スエラー割 り込みを処理する割 り込みハン ドラ 2 0 4 がある。 割り 込みハン ドラ 2 0 4 は、 C P U 1 0 1 の割 り込みベク タ に登録されて、 バスエラ一割 り 込み発生時に実行されるよ う に設定される。
第 3図は、 本実施形態におけるデバイ ス制御装置 1 2 6 の構成を示し た図である。 デバイ ス制御装置 1 2 6 は、 I ノ 0バスイ ンターフ ェイ ス 回路 3 0 1 を介して管理装置 1 2 0 の I Z Oバス 1 2 5 、 および、 計算 機 1 0 0 の I / Oバス 1 0 7 と接続している。 回路 3 0 1 は、 各 I Z O ノ スからのデバイ ス制御装置 1 2 6 宛てデータの取出 し、 あるいは、 C P Uからの I 0バスへのデータの送出を実施する回路である。 回路 3 0 1 は、 I / Oバス 1 0 7 よ り 取得 したデータ内容に従って、 デバイ ス 制御装置 1 2 6 内の他の回路を駆動する。
制御装置 1 2 6 には、 I Z 0ノく ス 1 0 7用のパリ ティ 生成回路 3 0 2 と、 障害生成'装置 1 3 0 が組み込まれている。 本実施形態では、 ハ° リ テ ィ 生成回路 3 0 2 は、 I Z Oバス 1 0 7 に送出するア ド レス信号 1 0 7 b に関するパ リ ティ 信号 1 0 7 a を、 排他的論理和回路の組み合わせに よ り 生成している。 通常実行時は、 パリ ティ 生成回路 3 0 2 で生成した ノ、。 リ ティ 信号をそのま ま I / 0バス 1 0 7 に送出する。
障害生成装置 1 3 0 は、 パリ ティ 生成回路 3 0 2 が生成したパリ ティ 信号を反転して、 I Z Oバス 1 0 .7 で障害と定義される信号を生成する 。 障害信号の生成は、 障害生成レ ジスタ 3 0 3 で制御する。 通常動作時 は、 レジスタ 3 0 3 は 0 に設定する。 レジスタ 3 0 3 を 1 に設定する と 、 障害生成装置 1 3 0 はパ リ ティ 生成回路 3 0 2 で生成された信号を反 転して、 I Z Oバス 1 0 7 に障害となる信号を送出する。
レジスタ 3 0 3 は、 管理装置 1 2 0 の C P U 1 2 1 の入出力命令によ り アク セス可能なよ う に構成.する。 管理プロ グラム 2 1 1 は、 レジスタ 3 0 3 を 1 にセ ッ ト して 1 ノ 0バス 1 0 7 にアクセスする操作を実行す る こ とで計算機 1 0 0 の O S 2 0 1 を強制停止できる。
障害生成装置 1 3 0 は、 パリ ティ 信号 1 0 7 a に不正な信号を送出 し た時点で障害生成状態レジスタ 3 0 4 を 1 にセ ッ トする。 また、 I / O バス 1 0 7への障害注入が連続して発生しないよ う に、 レ ジスタ 3 0 3 を 0 に リ セ ッ トする。
本実施形態では、 ァ ド レス信号のパ リ ティ を不正な値にする こ とで I 0バスに障害を送出 したが、 不正なバス信号の生成の仕方はこの限り ではない。
I 0バス制御装置 1 0 4 について説明する。 第 4 図は、 本実施形態 における I Z 0バス制御装置 1 0 4 の構成の一部を示す図である。
I 0バス制御装置 1 0 4 は、 I Z〇バス 1 0 7へのデータの送出、 および、 I / Oバス 1 0 7 からのデータの取り 込みを実施する。 データ 取り 込みの際、 1 / 0バス 1 0 7上のデータが不正にな っ ていないかを 検査するため、 ア ド レス信号 I 0 7 b に関する ティ 信号 1 0 7 a を 参照する。 I Z 0バス制御装置 1 0 4 内のパ リティ 計算回路 4 0 1 は、 ア ド レス信号 1 0 7 b よ りパリ ティ 値を求める。 こ の 0リ ティ 値と I / 0バス 1 0 7 のパリ ティ 信号 1 0 7 a を比較する。 一致 しない場合、 スエラー通知線 1 0 8 によ り 、 C P U 1 0 1 にバス障害を通知する。 障害生成装置 1 3 0 によ り I Z 0バス 1 0 7 に障害となる信号が送出 された場合、 パリ ティ 値が不正になるため、 C P U 1 0 1 にバス障害が 通知される。
第 5 図に C P U 1 0 1 側のバス障害処理に関する構成を示す。 C P U 1 0 1 は、 バスエラー信号線 1 0 8 よ りバス障害を通知される と、 バス 初期化回路 5 0 1 によ り /くス 1 0 3 の初期化を実施する。 こ こ でバス 1 0 3 の初期化とは、 C P U 1 0 1 内部にあるバスに関する状態を初期状 態に設定する こ とを示 し、 C P U 1 0 1 の リ セ ッ トではない。 このバス 初期化処理は、 バス 1 0 3 に接続している他の装置でも必要であ り 、 バ ス初期化信号 1 0 3 b と して他の装置に もバス初期化を指示する。
ま た、 C P U 1 0 1 は、 遅延回路 5 0 2 でエラー通知信号 1 0 8 を遅 延させて、 バス 1 0 3 の初期化が終了 した時点で、 割込み制御回路 5 0 4 を駆動 して内部的にバスエラー割 り込みを生成する。
通常の外部割 り込みは、 外部割 り込み信号 1 0 3 a でプロセ ッ サに通 知される。 外部割り込みは、 割 り込み禁止レ ジスタ 5 0 3 の値によ り マ スク される。 バスエラ一通知による割 り込みが、 割 り込み禁止レ ジスタ 5 0 3 によ るマスク制御を迂回 して割 り 込み制御回路 5 0 4 を駆動する よ う に構成すれば、 C P U 1 0 1 が外部割 り込み禁止の状態でも、 バス 障害によ る割 り込みを生成でき る。
C P U 1 0 1 のバス初期化処理について説明する。 第 6 図は、 C P U
1 0 1 のバス初期化回路 5 0 1 の構成例を示 した図である。 C P U 1 0 1 のバスに関係する回路は、 ク ロ ッ ク信号 6 0 4 に同期し て駆動する。 .
C P U 1 0 1 内には、 ノ ス 1 0 3 を制御する回路がある。 その中には 、 過去にバス 1 0 3 を流れたデータ に関連する状態を保持 している部分 がある。 こ の例では、 フ リ ッ プフ ロ ッ プによ り構成された レ ジスタ 6 0 3 がバス状態を保存している とする。 レジスタ 6 0 3 は、 ク ロ ッ ク信号 6 0 4 と同期 して、 バス状態を取り込む。
通常動作時の レジスタ 6 0 3 の値は、 バス制御回路 6 0 1 によ り 決定 される。 バス初期化信号 1 0 3 b がアクティ ブでない、 つま り 0 の場合 は、 バス制御回路 6 0 1 の出力値がレ ジスタ 6 0 3 に到達するよ う にス イ ッ チ回路 6 0 5 を構成する。
バス初期化信号 1 0 3 b がアクティ ブの場合は、 初期状態 レジスタ 6 0 2 に設定されている値がレ ジス夕 6 0 3 に到達するよ う にスィ ッ チ回 路 6 0 5 を構成する。 初期状態レ ジスタ 6 0 2 の値は、 C P U 1 0 1 に 予め設定されている、 あるいは、 計算機 1 0 1 の電源投入時の初期化に よ り 設定される。 これによ り、 C P U 1 0 1 は、 バス初期化信号 1 0 3 b を受けて レ ジスタ 6 0 3 を初期状態に設定でき る。
本実施形態では、 C P U 1 0 1 がバス初期化信号 1 0 3 b をバス 1 0 3 に送出 したが、 バスエラ一通知信号 1 0 8 をバス 1 0 3 に接続する各 々 の装置が検出 して、 各装置で初期化を実施しても良い。
本実施形態では、 以上のハー ドウ ェア構成によ り 、 計算機 1 0 0 の I Z 0バス 1 0 7 に接続する管理装置 1 2 0 が、 計算機 1 0 0 の実行状態 とは独立した任意の時点に、 I Z 0バス 1 0 7 で障害と定義される信号 を I / 0バス 1 0 7 へ送出するこ とで、 パ'ス 1 0 3 に接続する各装置が 保持するバス 1 0 3 に関連する内部状態を初期化して、 C P U 1 0 1 で バスエラー割 り 込みを生成する こ とが可能となる。 次に、 本実施形態のソ フ ト ウ ェ アの処理について説明する。 第 7 図は 、 計算機 1 0 0 で実行する O S 2 0 1 内の、 バスエラー用の割 り込みハ ン ドラ 2 0 4 の処理を示すフローチヤ一トである。
C P U 1 0 1 は、 バスエラ一割 り 込みを捕獲する と、 ステッ プ 7 0 1 から始ま る割 り込みハ ン ドラ 2 0 4 に制御を渡す。 バスエラー割 り込み は、 管理装置 1 2 0 が意図的に発生する場合と、 そ う でない場合がある 。 割 り込みハン ドラ 2 0 4 では、 まず、 管理装置 1 2 0 の障害生成状態 レ ジスタ 3 0 4 の値を取得する (ステッ プ 7 0 1 ) 。 レジスタ 3 0 4 は 、 C P U 1 0 1 から I Z Oバス 1 0 7経由でアク セス可能なよ う に構成 されている。
続いて取得 した レジスタ 3 0 4 の値を検査し (ステ ッ プ 7 0 2 ) 、 レ ジス夕 3 0 4 の値が 0 である場合、 つま り 、 管理装置 1 2 0 がバス障害 を送出 したのではに場合は、 通常のバスエラー処理 (ステ ッ プ 7 0 5 ) を実行する。 例えば、 障害情報のコ ンソール 1 0 6 への表示、 主記憶 1 0 2 の外部記憶装置 1 0 5 へのダンプ、 計算機 1 0 0 の再起動等である レジスタ 3 0 4 力 1 の場合、 すなわち、 管理装置 1 2 0 が I Z 0 ノく ス 1 0 7 に障害を注入したこ とによるバスエラ ーの場合は、 障害状態生成レ ジスタを リ セ ッ ト し (ステッ プ 7 0 3 ) 、 その旨をコ ンソール 1 0 6 に 表示する (ステッ プ 7 0 4 ) 。 7 2 0 は、 コ ン ソール画面表示の例であ る。
管理装置 1 2 0 内の管理プログラム 2 1 1 の処理について説明する。 第 8 図は、 管理プログラム 2 1 1 の処理例を示すフ ローチ ャー トである まず、 ステッ プ 8 0 1 で、 計算機 1 0 0 への停止要求があるかどう か 検査する。 '停止要求は、 遠隔の計算機 1 5 1 や 1 7 0 から通信回線経由 でモデム 1 2 7ゃネ ッ ト ワーク アダプタ 1 2 8 に送られた り 、 および、 緊急停止ボタ ン 1 2 9の押下等'によ り 生 じる。 .
停止要求がない場合は、 計算機 1 0 0の動作状況を収集して管理デ— 夕 2 1 0 に格納する (ステ ッ プ 8 0 2 ) 。 取得 したデータ 2 1 0 よ り 、 計算機 1 0 0が正常に実行しているか判定する (ステッ プ 8 0 3 ) 。 実 行している場合は、 動作状況を遠隔の計算機に送信する (ステ ッ プ 8 0 4 ) 。 停止している場合は、 ステッ プ 8 0 7へ進み、 障害情報を取得 し て遠隔の計算機に送信する。
停止要求がある場合は、 ステ ッ プ 8 0 5を実行する。 こ こでは、 障害 生成 レジスタ 3 0 3を 1 に設定 し、 I Z Oバス 1 0 7へアクセスする命 令を実行する (ステ ッ プ 8 0 6 ) 。 これによ り 、 C P U 1 0 1 でバスェ ラー割 り込みが生成されて、 バスエラー割 り込みハン ドラ 2 0 4 に制御 が渡る。
その後、 ステッ プ 8 0 7へ進み、 障害情報を遠隔の計算機に送信する 以上のハー ドウ ェア構成、 および、 ソ フ ト ゥ ヱァ手順によ り 、 I Z O バス 1 0 7に接続した管理装置 1 2 0 よ り 、 計算機 1 0 0 で実行する 0 S 2 0 1 の実行を強制停止して、 O Sの障害処理であるバスエラー割 り 込みハン ドラ 2 0 4を実行する こ とが可能となる。
本実施形態は、 管理装置 1 2 0の障害生成装置 1 3 0が、 計算機 1 0 0 の実行状態とは無関係の任意の時点に、 I Z 0バス 1 0 7に障害となる 信号を送出する こ とによ り 、 計算機 1 0 0で実行する O S 2 0 1 の強制 停止を実現している。 この実施形態では、 計算機 1 0 0 と管理装置 1 2 0を I / 0バス 1 0 7だけで接続する。 従来の専用信号線で管理装置と 計算機を接続する方式と比べて、 管理装置 1 2 0が接続でき る計算機 1 0 0の制限が緩和される。 また、 従来の管理装置が、 障害によ る O S実行停止時に C P U リ セ ッ ト によ り計算機の再起動を実行していたため、 .障害原因の解析を困難に していた。 それに対し、 本実施形態では、 I Z 0バス制御装置 1 0 4 が バスエラ一を. C P U 1 0 1 に通知し、 C P U 1 0 1 はそれを受けて割 り 込みを生成して割 り込みハン ドラ 2 0 4 を実行する。 この割 り込みハン ドラ 2 0 4 の延長で、 主記憶 1 0 2 の内容の外部記憶装置 1 0 5 への格 納、 障害要因解析、 障害要因除去などの障害処理や、 O S 2 0 1 の停止 処理を実行でき るため、 後の障害解析と回復が容易になる。
また、 C P U 1 0 1 、 および、 バス 1 0 3 に接続する各々 の装置がバ ス 1 0 3 に関する内部状態を初期化してから C P U 1 0 1 が割 り込みを 生成するため、 割 り込みハ ン ドラ 2 0 4 が実行でき る可能性が高ま る。 本実施形態では、 バスエラー割 り込みハ ン ドラ 2 0 4 で主記憶 1 0 2 の内容を外部記憶装置 1 0 5 に格納する と したが、 主記憶 1 0 2 の内容 の全て、 あるいは、 一部や、 割 り込みハン ドラ 2 0 4 による障害解析情 報を、 管理装置 1 2 0 の主記憶装置 1 2 2 に格納 しても良い。
こ の実施形態では、 管理装置 1 2 0 が I / 0バス 1 0 7 に障害信号を 送出する と したが、 ネ ッ ト ワークアダプタやモデムといっ た装置に、 特 定のバケ ツ トあるいはデータを受信した時に、 I / 0バス 1 0 7 に障害 信号を送出するよ う に障害信号生成装置 1 3 0 を組み込んでも良い。 ( 2 ) 第 2 の実施形態
次に、 本発明の第 2 の実施形態について説明する。
第 1 の実施形態では、 I 〇バス 1 0 7 に接続している管理装置 1 0 2 から I Z 0バス 1 0 7 に、 障害と認識される信号を送出する必要があ つ た。 このためには、 管理装置 1 2 0 カ 1 ノ 0 ノく ス 1 0 7へアク セスす る権利を取得 しなければな らない。 つま り 、 ノく ス 1 0 7 の調停でバスの 使用権を獲得 しなければな らない。 と こ ろが、 管理装置 1 2 0 が、 I Z 0バス 1 0 7 の使用権が取得でき ない場合がある。 C P U 1 0 1 が、 I / 0バス.1 0 7 に接続しているデ バイ スに対 してある連繞した非分割の処理を実行する場合、 I ノ 0バス 1 0 7 を排他的に使用する と してバス使用権を獲得する。 これを、 バス をロ ッ クする と呼ぶ。 こ の時に、 対象デバイ スが故障している等の理由 でデバイ スが応答できなければ、 バス 1 0 7 の使用権が解放されないま ま になる。
このよ う な場合、 第 1 の実施形態では Iノ 0バス 1 0 7 に障害信号を 注入できないため、 管理装置 1 2 0 か ら計算機 1 0 0 の O S 2 0 1 の障 害処理を起動できない。
本発明の第 2の実施形態では、 バスが口 ッ ク している状態を解除 して から、 障害信号を送出する手段と手順について説明する。 本実施形態で は、 管理装置 1 2 0 が I 0バス 1 0 7 の ロ ッ ク状態を検査でき るよ う にする。 更に、 管理装置 1 2 0 が、 パ'スをロ ッ ク したまま完了 しない I / 0バス要求に対して、 任意のデータを送出する こ とで要求操作が完了 した と見せかけ、 要求発行元にバス 口 ッ クを解除させる。
1 0バス上のデータの流れについて説明する。 第 9 図は、 本実施形 態における I 0バス 1 0 7上でのデータの流れを示すタイ ミ ング図で ある。
第 9 図は、 1 0バス 1 0 7 のアク セス権調停が済んで、 実際にデ一 夕の受け渡 しをする時のバス信号の状態を示 している。 I 0バス 1 0 7 にアクセスするデバイ スは、 ァグセス権を獲得 した後、 アク セス対象 デバイ スを指定するア ド レス信号 1 0 7 b を出力する。
このアクセスを排他的に実行したい場合は、 I / 0バスロ ッ ク信号 1 0 7 c を同時にアクティ ブにする。 I Z 0バス 1 0 7 に接続するデバイ ス は、 <ス ロ ッ ク信号 1 0 7 c がアク テ ィ ブにな っている間、 I / 0バス 1 0 7 に次の要求を出すこ とができないよ う構成される。 要求元デバイ スは、 操作が終了するまでバス ロ ッ ク信号 1 0 7 c をアクティ ブに して お く 。
ア ド レス信号 1 0 7 b によ り 指定されたデバイ スは、 操作を完了する と応答信号 1 0 7 dをアクティ ブに して、 データが有ればデ一タ信号線 1 0 7 e にデータを出力する。
要求元デバイ スは、 応答信号 1 0 Ί dがアク ティ ブになっ たのを検出 して、 データ信号線 1 0 7 e よ り データを取 り込み、 バス ロ ッ ク信号 1 0 7 c のアクティ ブを解除する。
第 1 0 図は、 第 2の実施形態での制御装置 1 2 0 の構成を示 した図で ある。 C P U 1 0 1 がデバイ ス 1 0 2 0 に対 して非分割の連続 I Z O要 求を発行 したが、 デバイ ス 1 0 2 0 が応答できないと して説明する。
C P U 1 0 1 が非分割の I Z 0要求を発行する と、 〖 / 0バス制御装 置 1 0 4 は、 I Z 0バス 1 0 7 のバス ロ ッ ク信号 1 0 7 c をアク ティ ブ にする。
制御装置 1 2 0 には、 各時点のバス ロ ッ ク信号 1 0 7 c を保持するバ ス ロ ッ ク状態レ ジスタ 1 0 0 6 を設ける。 バス ロ ッ ク状態レジスタ 1 0 0 6 は、 管理装置 1 2 0 上の C P U 2 0 1 から参照可能なよ う に構成さ れ、 管理プログラム 2 1 1 はその値を知る こ とができ る。
管理装置 1 2 0 は、 通常動作時は、 I / Oバス 1 0 7 のア ド レス信号 1 0 7 b が制御装置 1 2 0 を指定 した時だけ応答信号 1 0 7 d を出力す る よ う に構成されている。 これに加えて、 管理プロ グラム 2 1 1 の指示 によ り 、 任意の時点に I Z Oバス 1 0 7 へ応答信号 1 0 7 d を送出する 手段を持つている。
応答信号 1 0 7 d は、 代理応答制御 レ ジ ス タ 1 0 0 1 で制御する。 代 理応答制御 レ ジスタ 1 0 0 1 力 0 の場合は、 デバイ ス制御回路 1 0 0 2 が出力する応答信号 1 0 0 3 が、 I 0バスの応答信号 1 0 7 d と して 出力される。 .
I Z Oバスデータ信号 1 0 7 e も、 代理応答制御レ ジスタ 1 0 0 1 に よ り制御する。 スィ ッ チ回路 1 0 0 5 が、 レ ジスタ 1 0 0 1 の値に応 じ て、 デバイ ス制御回路 1 0 0 2 の出力値か、 代理応答値レジスタ 1 0 0 4 の出力値を、 データ信号 1 0 7 e に出力する。
つま り、 代理応答制御 レジスタ 1 0 0 1 を 1 にセ ッ トする と、 応答信 号 1 0 7 dがアクティ ブにな り 、 代理応答値レジスタ 1 0 0 4 に格納さ れている値がバスデータ信号 1 0 7 e に送出される。
次に、 本実施形態の制御プログラ ム 2 1 1 の処理について説明する。 第 1 1 図は、 制御プロ グラム 2 1 1 の、 O S 2 0 1 の強制停止処理を示 すフ ローチ ヤ一 トである。
まず、 制御プログラム 2 1 1 は、 ノくスロ ッ ク状態レジスタ 1 0 0 6 参 照 して、 I Z 0バス 1 0 7 がロ ッ ク されているかどう か検査する (ステ ッ プ 1 1 0 1 ) 。 ロ ッ ク されていない場合は、 ステ ッ プ 1 1 0 3 へ進み 、 第 1 の実施形態と同 じ手順で、 障害生成レ ジスタ 3 0 3 を 1 にセ ッ ト して、 I Z Oバス 1 0 7 に障害信号を注入する。
ロ ッ ク されている場合は、 ステ ッ プ 1 1 0 2 へ進む。 ステッ プ 1 1 0 2 では、 代理応答制御レジスタを 1 にセ ッ トする。 これによ り 、 I / O バス 1 0 7 のロ ッ ク解除を試み、 ステ ッ プ 1 1 0 1 へ戻って、 再度バス ロ ッ ク状態を検査する。 これで、 バス ロ ッ クが解除されれば、 ステッ プ 1 1 0 3へ進み、 障害信号を注入する。
以上の手段と手順によ り 、 管理装置 1 2 0 は、 I ノ 0バス 1 0 7 が他 のデバイ スにロ ッ ク されていても、 障害信号を I Z Oバス 1 0 7 に注入 する こ とが可能になる。 これによ り 、 I Z〇バス 1 0 7 だけで計算機 1 0 () に接続している管理装置 1 2 0 から 0 S 2 0 1 を強制停止でき る障 害範囲が拡大する。
( 3 ) 第 3 の実施形態
次に、 本発明の第 3 の実施形態について説明する。 第 2 の実施形態で は、 1 0バス 1 0 7 のロ ッ クの解除と、 1 0バス 1 0 7 への障害注 入の制御を個別に実行した。 本実施形態では、 これらを 1 つの回路と し てま とめて制御装置 1 2 0 に実現する手段について説明する。
第 1 2 図は、 本実施形態の障害生成装置 1 2 0 1 の構成を示す図であ る。 障害生成装置 1 2 0 1 には、 障害生成回路 1 2 0 2 とバスロ ッ ク解 除回路 1 2 0 3 が含まれている。 障害生成回路 1 2 0 2 は、 第 1 の実施 形態の第 3 図に示した障害生成装置 1 3 0 と同様の構成である。 バス口 ッ ク解除回路 1 2 0 3 も、 第 2 の実施形態の第 1 0 図に示 した構成と同 様の構成である。
障害生成装置 1 2 0 1 は、 ク ロ ッ ク 6 0 4 と同期して I Z Oバス 1 0 7 のノ 'ス ロ ッ ク信号 1 0 7 c を採取 して、 ノく ス ロ ッ ク状態レ ジスタ 1 2 0 4 に格納 している。
障害生成装置 1 2 0 1 は、 障害信号注入の制御を、 障害生成レジスタ 1 2 0 5 によ り 実施する。 障害生成レ ジスタ 1 2 0 5 が 0 の時、 障害生 成回路 1 2 0 2 とバスロ ッ ク解除回路 1 2 0 3 は、 作動 しない。 制御プ ロ グラ ム 2 1 1 は、 O S 2 0 1 の実行を停止する時、 障害生成レ ジスタ 1 2 0 5 を 1 に設定する。
障害生成レジスタ 1 2 0 5 を 1 に設定 した時にバスロ ッ ク信号 1 0 7 c がアク テ ィ ブでなければ、 障害生成回路 1 2 0 3 が作動する。 回路 1 2 0 3 は、 1 / 0バス 1 0 7 に障害となる信号を送出する。
レ ジスタ 1 2 0 5 を 1 に設定 した時にパ'ス ロ ッ ク信号 1 0 7 c がァク テ ィ ブである場合は、 バスロ ッ ク解除回路 1 2 0 4 が作動する。 回路 1 - 2 0 4 は、 I Z 0 ノく ス 1 0 7 にバス応答信号 1 0 7 d とバスデータ信号 1 0 7 e を送出 して、 ノ スロ ッ クの解除を試みる。
バスロ ッ クが解除される と、 つま り 、 バス 口.ッ ク信号 1 0 7 c がァク ティ ブでな く なる と、 障害生成回路 1 2 0 3 が作動 し、 障害信号を I / 0 ノく ス 1 0 7 に送出する。
本実施形態に依れば、 第 2 の実施形態でのよ う にソフ ト ウ エアによ り ロ ッ ク信号を監視して障害信号を注入する よ り も、 確実に計算機 1 0 0 の実行を停止できる。 また、 第 2 の実施形態でのソフ ト ゥ ヱァによる制 御部を除去できる。
第 2 .と第 3の実施形態では、 管理装置 1 2 0 が疑似の応答信号を I / 0バス 1 0 7 に送出 してバスロ ッ クを解除 した。 I Z 〇 ノくス 1 0 7 の構 成によ っては、 応答に応答先を指定 しなければな らないバス もある。 こ の場合は、 管理装置 1 2 0 がバス ロ ッ クを要するバス ト ラ ンザク シ ョ ン を送出 した装置のバス上の識別子を記録しておけば良い。
( 4 ) 第 4 の実施形態
次に、 本発明の第 4 の実施形態について説明する。 これまで説明 した 実施形態では、 I Z 0バス 1 0 7 だけの接続によ り計算機 1 0 0 の実行 を停止する方式について説明 したが、 管理装置 1 2 0 が従来の専用信号 線も備えていても良い。 例えば、 計算機 1 0 0 の実行を停止する場合、 まず、 本発明の手段によ り O S 2 0 1 の停止を試み、 本発明の手段によ り 停止できなければ、 従来の手段によ り 計算機 1 0 0 を リ セ ッ トする。 これを実現する計算機 1 0 0 と管理装置 1 2 0 の構成について説明する 第 1 3 図は、 第 4 の実施形態の計算機 1 0 0 と管理装置 1 2 0 の構成 を示す図である。 計算機 1 0 0 には、 C P U 1 0 1 を リ セ ッ トする リ セ ッ ト回路 1 3 0 2 がある。 リ セ ッ ト回路 1 3 0 2 は、 リ セ ッ ト制御線 1 3 0 3 によ り管理装置 1 2 0 と接続している。 リ セ ッ ト制御線 1 3 0 3 がアクティ ブにな った時に、 リ セ ッ ト 回路 1 3 0 2 が作動し、 C P U 1 0 1 を リ セ ッ トする。 これによ り 計算機全体が.リ セ ッ ト される。
管理装置 1 2 0 には、 リ セ ッ ト制御 レジスタ 1 3 0 1 がある。 リ セ ッ ト制御 レジスタ 1 3 0 1 は、 C P U 1 2 1 から設定可能なよ う に構成す る。 リ セ ッ ト制御 レジスタ 1 3 0 1 が 1 に設定されたときに、 リ セ ッ ト 制御線がァクテ ィ ブになるよ う構成する。
次に、 管理プログラム 2 1 1 の計算機 1 0 0 停止の処理フ ロ一につい て説明する。 第 1 4 図は、 そのフ ローチ ャー トを示 している。 まず、 障 害生成装置 1 3 0 を駆動して、 I Z Oバス 1 ひ 7 に障害信号を送出 して みる (ステ ッ プ 1 4 0 1 ) 。 あ らかじめ定めた時間を待ってから (ステ ッ プ 1 4 0 2 ) 、 O S 2 0 1 が障害処理を実行 したかを検査する (ステ ッ プ 1 4 0 3 ) 。 処理が実行されていなければ、 ステッ プ 1 4 0 4 でリ セ ッ ト制御 レジスタ 1 3 0 2 を 1 に して、 計算機 1 0 0 を リ セ ッ トする ( 5 ) 第 5 の実施形態
これまで説明 した実施形態では、 遠隔の計算機や操作者が I Z 0バス 1 0 7への障害送出の契機を与える と しているが、 管理装置 1 2 0 や管 理プロ グラム 2 1 1 が障害送出の実施するかを決定 しても良い。 本発明 の第 5の実施形態では、 管理エージヱ ン トプロ グラム 2 0 3 と管理プロ グラ ム 2 1 1 が連携によ り 、 障害送出を実施する方式について述べる。 管理装置 1 2 0 には、 管理エージヱ ン ト 2 0 3 が実行している こ とを示 す、 エー ジ ェ ン ト起動 レジスタがある。 エー ジ ェ ン ト起動レジスタは、 計算機 1 0 0 の C P U 1 0 1 と管理装置 1 2 0 の C P U 2 0 1 の両方か らアク セス可能なよ う に構成される (図省略) 。
管理エー ジ ェ ン ト 2 0 3 は、 一定時間間隔で実行して、 実行時にエー ジ ェ ン ト起動 レ ジスタをセ ッ 卜するよ う に構成する (フ ローチ ャー ト省 略) 。 管理装置 1 2 0 の側では、 エー ジ ェ ン ト起動レ ジスタを参照する こ とによ り 、 計算機 1 0 0 が正常実行しているか判定する。
第 1 5 図は、 管理装置 1 2 0 で実行する管理プロ グラム 2 1 1 の処理 を示すフ ローチ ャ ー トである。 第 1 5 図に示 した処理は、 一定時間間隔 で実行されるよ う に構成する。
管理プログラム 2 1 1 は、 エー ジ ヱ ン ト起動 レジスタを検査した時に 、 レ ジスタがセ ッ 卜 されていない回数を記録する変数 (未起動回数) を 保持 している。
管理プログラム 2 1 1 の処理について説明する。 まず、 管理装置 1 2 0 のエー ジ ン ト起動 レ ジスタを検査する (ステッ プ 1 5 0 1 ) 。 本レ ジス夕がセ ッ ト されている場合は、 本 レ ジスタをク リ ア し (ステッ プ 1 δ 0 4 ) 、 未起動回数を 0 に設定 して (ステ ッ プ 1 5 0 5 ) 、 終了する レ ジス タがセ ッ 卜 されていない場合、 未起動回数を検査する (ステツ プ 1 5 0 2 ) 。 未起動回数が予め定めた正整数 Xである場合、 I / Oバ ス 1 0 7 に障害信号を送出する (ステ ッ プ 1 5 0 3 ) 。 Xでない場合は 、 未起動回数に 1 を加算 して (ステ ッ プ 1 5 0 6 ) 、 終了する。
以上によ り 、 管理プログラム 2 1 1 が計算機 1 0 0 の実行状態を検査 して、 自発的に I Ζ Οバス 1 0 7 に障害を送出する こ とが可能となる。 障害を送出する時に、 遠隔の計算機 1 5 1 や 1 7 0 に、 計算機 1 0 0 を 強制停止したこ とを示すメ ッ セー ジを送信 しても良い。
また、 第 5 の実施形態では、 ソフ ト ゥ ヱ ァによ り I / 0バス 1 0 7へ の障害送出を実施するよ う に したが、 管理装置 1 2 0 に一定時間再設定 されなければ障害生成装置 1 3 0 を駆動するよ う に構成したウ ォ ッ チ ド ッ グタイマを設けてもよい。
こ の場合、 管理エージヱ ン 卜 2 0 3 は、 一定時間間隔で実行して、 実 行時にウ ォ ッ チ ドッ グタイ マを再設定するよ う 構成する。 管理プログラ ム 2 1 1 の側では、 特別な処理は不要になる。 .
また、 管理プロ グラム 1 2 0 が、 計算機 1 0 0 の主記憶 1 0 2 の内容 を参照して、 O S 2 0 1 の実行状況を検査して、 それに応 じて I Z Oバ ス 1 0 7 に障害信号を送出 して も良い。 産業上の利用可能性
以上のよ う に、 本発明にかかる計算機の障害処理方法及び装置は、 管 理装置から I Z Oバス経由で管理対象の計算機に障害発生の信号を送り 、 管理対象の計算機ではこの信号の受信を契機と してバスの初期化を行 な う と と もに、 割 り込みを生成する計算機システムを構築するのに適し ている。

Claims

請 求 の 範 囲
1 . 計算機と管理装置が I / 0バスによ り 接続.された計算機システムに おける障害処理方法であって、 所定の時点で前記管理装置から前記計算 機内の I Z Oバス管理装置に I / 0バス障害の発生を通知する I / 0バ ス信号を送 り 、 当該 I Z 0バス管理装置において前記 I ノ 0バスを初期 化 した後、 I Z Oバス障害を当該計算機の C P U に当該 C P U にて動作 する 0 S が処理する割 り込みと して通知する こ とを特徴とする計算機シ ステムにおける障害処理方法。
2 . 前記所定の時点は、 障害が前記計算機に発生 した時点である請求の 範囲第 1 項記載の計算機システムにおける障害処理方法。
3 . 前記所定の時点は、 前記計算機から前記管理装置に不正なデータが 送られた時点である請求の範囲第 1 項記載の計算機システムにおける障 害処理方法。
4 . 前記 O S は、 割 り込みを契機と して障害処理を行なう こ とを特徴と する請求の範囲第 1 項記載の計算機システムにおける障害処理方法。
5 . 前記所定の時点は、 前記計算機が所定時間内に所定の記憶装置の内 容を更新 しない時点である請求の範囲第 1 項記載の計算機システムにお ける障害処理方法。
6 . 計算機と、 管理装置と、 前記計算機と前記管理装置とを接続する I Z 0バスから構成され、 前記管理装置は所定の時点で前記計算機内の I / 0バス管理装置に I 0バス障害の発生を通知する I 0バス信号を 送 り 、 当該 1 Z 0バス管理装置は前記 I Z 0バス信号を受信したこ とに 応 じて、 前記 I ノ 0バスを初期化 した後、 I Z 0バス障害を当該計算機 の C P U に当該 C P Uにて動作する 0 S が処理する割 り込みと して通知 する こ とを特徴とする計算機システム。
7 . . 前記所定の時点は、 障害が前記計算機に発生 した時点である請求の 範囲第 6 項記載の計算機システム。
8 . 前記所定の時点は、 前記計算機から前記管理装置に不正なデータが 送られた時点である請求の範囲第 6 項記載の計算機システム。
9 . 前記 O S は、 割 り込みを契機と して障害処理を行な う こ とを特徴と する請求の範囲第 6 項記載の計算機システム。
1 0 . 前記所定の時点は、 前記計算機が所定時間内に所定の記憶装置の 内容を更新しない時点である請求の範囲第 6 項記載の計算機システム。
PCT/JP1999/000836 1999-02-24 1999-02-24 Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique WO2000051000A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US09/622,372 US6948100B1 (en) 1999-02-24 1999-02-24 Computer system and method of handling trouble of computer system
JP2000601532A JP3991590B2 (ja) 1999-02-24 1999-02-24 計算機システム及び計算機システムにおける障害処理方法
PCT/JP1999/000836 WO2000051000A1 (fr) 1999-02-24 1999-02-24 Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique
EP99906465A EP1172732A4 (en) 1999-02-24 1999-02-24 COMPUTER SYSTEM AND METHOD FOR MANAGING DISTURBANCES AFFECTING A COMPUTER SYSTEM
TW088119943A TW449687B (en) 1999-02-24 1999-11-16 Computer system and its method of handling trouble
US11/078,385 US7426662B2 (en) 1999-02-24 2005-03-14 Computer system and fault processing method in computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/000836 WO2000051000A1 (fr) 1999-02-24 1999-02-24 Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US09622372 A-371-Of-International 1999-02-24
US11/078,385 Continuation US7426662B2 (en) 1999-02-24 2005-03-14 Computer system and fault processing method in computer system

Publications (1)

Publication Number Publication Date
WO2000051000A1 true WO2000051000A1 (fr) 2000-08-31

Family

ID=14235006

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/000836 WO2000051000A1 (fr) 1999-02-24 1999-02-24 Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique

Country Status (5)

Country Link
US (2) US6948100B1 (ja)
EP (1) EP1172732A4 (ja)
JP (1) JP3991590B2 (ja)
TW (1) TW449687B (ja)
WO (1) WO2000051000A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005235214A (ja) * 2004-02-19 2005-09-02 Marconi Intellectual Property (Ringfence) Inc 不具合が存在するときにスイッチ障害を防止する方法、装置及びソフトウエア
JP2019219803A (ja) * 2018-06-18 2019-12-26 株式会社リコー 制御装置、画像形成装置、制御方法及び制御プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7453922B2 (en) * 2001-03-14 2008-11-18 Mercury Computer Systems, Inc. Wireless communication systems and methods for contiguously addressable memory enabled multiple processor based multiple user detection
WO2005017690A2 (en) 2003-08-11 2005-02-24 Chorus Systems, Inc. Systems and methods for creation and use of an adaptive reference model
EP1661047B1 (en) * 2003-08-11 2017-06-14 Triumfant, Inc. Systems and methods for automated computer support
US7734797B2 (en) * 2004-03-29 2010-06-08 Marvell International Ltd. Inter-processor communication link with manageability port
JP2008009721A (ja) * 2006-06-29 2008-01-17 Nec Electronics Corp 評価システム及びその評価方法
JP5215655B2 (ja) * 2007-12-27 2013-06-19 ルネサスエレクトロニクス株式会社 データ処理装置及びデータ処理装置におけるバスアクセス制御方法
JP4612699B2 (ja) * 2008-03-11 2011-01-12 株式会社東芝 監視診断装置及び遠隔監視診断システム
JP4911372B2 (ja) * 2009-10-06 2012-04-04 日本電気株式会社 Cpu再リセットを伴うcpu再初期化時におけるタイムアウト防止方法、その装置及びそのプログラム
DE112011105867B4 (de) * 2011-11-22 2020-03-19 Intel Corporation Kollaboratives Prozessor- und Systemleistungs- und Energiemanagement
WO2014196059A1 (ja) * 2013-06-06 2014-12-11 株式会社日立製作所 マイコン故障注入方法及びシステム
WO2016068897A1 (en) * 2014-10-29 2016-05-06 Hewlett Packard Enterprise Development Lp Cpu with external fault response handling
US10402218B2 (en) * 2016-08-30 2019-09-03 Intel Corporation Detecting bus locking conditions and avoiding bus locks

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01292553A (ja) * 1988-05-20 1989-11-24 Mitsubishi Electric Corp 情報処理装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4149038A (en) * 1978-05-15 1979-04-10 Wescom Switching, Inc. Method and apparatus for fault detection in PCM muliplexed system
US5001712A (en) * 1988-10-17 1991-03-19 Unisys Corporation Diagnostic error injection for a synchronous bus system
US5008885A (en) * 1988-12-29 1991-04-16 International Business Machines Corporation Event-controlled error injection system
US5058112A (en) * 1989-07-31 1991-10-15 Ag Communication Systems Corporation Programmable fault insertion circuit
JPH047646A (ja) 1990-04-25 1992-01-13 Hitachi Ltd データ処理装置
US5204864A (en) * 1990-08-16 1993-04-20 Westinghouse Electric Corp. Multiprocessor bus debugger
CA2071804A1 (en) 1991-06-24 1992-12-25 Ronald G. Ward Computer system manager
EP0532249B1 (en) 1991-09-09 1999-11-17 Compaq Computer Corporation Remote reboot system and method of effecting rebooting of a computer system
JP2833387B2 (ja) * 1992-11-30 1998-12-09 日本電気株式会社 交換機バスモニタ回路
US5428624A (en) * 1993-10-12 1995-06-27 Storage Technology Corporation Fault injection using boundary scan
JPH08212110A (ja) * 1995-02-07 1996-08-20 Hitachi Ltd システムの遠隔メンテナンス方式
JP3653335B2 (ja) 1995-05-31 2005-05-25 株式会社日立製作所 コンピュータ管理システム
US5819027A (en) * 1996-02-28 1998-10-06 Intel Corporation Bus patcher
US6032271A (en) * 1996-06-05 2000-02-29 Compaq Computer Corporation Method and apparatus for identifying faulty devices in a computer system
US6185248B1 (en) * 1998-03-12 2001-02-06 Northrop Grumman Corporation Wideband digital microwave receiver
US6182248B1 (en) * 1998-04-07 2001-01-30 International Business Machines Corporation Method and tool for computer bus fault isolation and recovery design verification
US6519718B1 (en) * 2000-02-18 2003-02-11 International Business Machines Corporation Method and apparatus implementing error injection for PCI bridges

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01292553A (ja) * 1988-05-20 1989-11-24 Mitsubishi Electric Corp 情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005235214A (ja) * 2004-02-19 2005-09-02 Marconi Intellectual Property (Ringfence) Inc 不具合が存在するときにスイッチ障害を防止する方法、装置及びソフトウエア
JP2019219803A (ja) * 2018-06-18 2019-12-26 株式会社リコー 制御装置、画像形成装置、制御方法及び制御プログラム
JP7001001B2 (ja) 2018-06-18 2022-01-19 株式会社リコー 制御装置、画像形成装置、制御方法及び制御プログラム

Also Published As

Publication number Publication date
US20050172169A1 (en) 2005-08-04
TW449687B (en) 2001-08-11
EP1172732A1 (en) 2002-01-16
JP3991590B2 (ja) 2007-10-17
EP1172732A4 (en) 2009-08-19
US6948100B1 (en) 2005-09-20
US7426662B2 (en) 2008-09-16

Similar Documents

Publication Publication Date Title
US7426662B2 (en) Computer system and fault processing method in computer system
US20180150359A1 (en) Electronic apparatus, restarting method, and non-transitory recording medium
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US20040034816A1 (en) Computer failure recovery and notification system
JP2001516479A (ja) 機能するオペレーティング・システムなしにコンピュータのリモート管理を可能にするネットワーク機能拡張bios
TWI261748B (en) Policy-based response to system errors occurring during OS runtime
JPH0693229B2 (ja) デ−タ処理装置
JP2003186697A (ja) 周辺デバイス試験システム及び方法
US7418630B1 (en) Method and apparatus for computer system diagnostics using safepoints
JP2003256240A (ja) 情報処理装置及びその障害回復方法
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 1999906465

Country of ref document: EP

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09622372

Country of ref document: US

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2000 601532

Kind code of ref document: A

Format of ref document f/p: F

WWP Wipo information: published in national office

Ref document number: 1999906465

Country of ref document: EP