WO2018110452A1 - 周辺装置、ホスト装置、保守装置、情報処理システム、方法および記録媒体 - Google Patents

周辺装置、ホスト装置、保守装置、情報処理システム、方法および記録媒体 Download PDF

Info

Publication number
WO2018110452A1
WO2018110452A1 PCT/JP2017/044195 JP2017044195W WO2018110452A1 WO 2018110452 A1 WO2018110452 A1 WO 2018110452A1 JP 2017044195 W JP2017044195 W JP 2017044195W WO 2018110452 A1 WO2018110452 A1 WO 2018110452A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
failure information
peripheral device
host device
information
Prior art date
Application number
PCT/JP2017/044195
Other languages
English (en)
French (fr)
Inventor
理仁 深沢
Original Assignee
Necプラットフォームズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necプラットフォームズ株式会社 filed Critical Necプラットフォームズ株式会社
Priority to US16/463,890 priority Critical patent/US11461157B2/en
Publication of WO2018110452A1 publication Critical patent/WO2018110452A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Definitions

  • the present invention relates to a technique for handling a failure related to a peripheral device.
  • Patent Document 1 An example of a technique for acquiring information regarding a failure in an information processing system is described in Patent Document 1. This related technique monitors whether the processor is operating normally. In this related technique, when the processor does not operate normally, the operation log is acquired by DMA (Direct Memory Access) transfer from the main storage device storing the operation log of the processor.
  • DMA Direct Memory Access
  • a failure notification unit and a nonvolatile memory are arranged in a PCI box that connects a PCI (Peripheral Component) Interconnect device and a host device.
  • the failure notification unit is also connected to the monitoring device.
  • the failure notification unit detects a failure in the PCI device
  • the failure notification unit acquires information about the failure from the PCI device, stores the information in the nonvolatile memory, and notifies the monitoring apparatus of the error.
  • the monitoring device reads out information related to the failure from the non-volatile memory arranged in the PCI box.
  • Failures related to peripheral devices may be automatically recovered by resetting peripheral devices. By automatically recovering from a failure, the time to recovery is shorter. However, the peripheral device loses information about the failure when it is reset.
  • Patent Document 1 uses DMA transfer in order to acquire information about a failure before the processor is reset. However, when a failure occurs in the DMA path, this related technique cannot acquire information regarding the failure. In addition, although this related technique obtains information regarding a failure before the processor is reset, it does not describe how to recover the failure of the processor.
  • Patent Document 2 requires a special hardware element called a PCI box, although information about a failure is stored in the PCI box even if the PCI device is reset.
  • this related technique acquires information related to a failure of a PCI device, it does not describe how to recover from a failure of the PCI device.
  • an object of the present invention is to provide a technique for further shortening the time required to recover from a failure while ensuring the acquisition of information related to the failure when a failure related to a peripheral device occurs.
  • the peripheral device includes a storage unit that stores information, a failure detection unit that notifies the host device of the occurrence of a failure when a failure associated with the host device is detected, and a host after the notification of the occurrence of the failure.
  • failure information related to a failure is requested from the device, the failure information is transmitted to the host device.
  • the failure information is stored in the storage means, and the saved failure information is requested from the host device.
  • the failure information processing means for reading the failure information from the storage means and transmitting it to the host device, and when the host device is instructed to initialize, the device is initialized according to the instruction, and the failure information is stored in the storage means.
  • an initialization unit that initializes the device itself after the storage.
  • the host device requests failure information from the peripheral device when notified of the occurrence of the failure from the above-described peripheral device, and initializes the peripheral device after obtaining the failure information. If the failure information is not yet acquired when detecting the first failure information acquisition means to be instructed and the initialization of the peripheral device, the second failure information acquisition is performed by requesting the failure information from the peripheral device. Means.
  • the maintenance device when connected to the storage unit via the maintenance device connection unit provided in the above-described peripheral device, reads the failure information from the storage unit and acquires third failure information An acquisition means is provided.
  • an information processing system includes the above-described peripheral device and the above-described host device.
  • the peripheral device when the peripheral device detects a failure related to the own device, the peripheral device notifies the host device of the occurrence of the failure, and the host device responds to the notification of the occurrence of the failure.
  • Requesting fault information relating to the fault the peripheral device sends the fault information to the host device in response to the request, the host device instructs the peripheral device to initialize after acquiring the fault information, and the peripheral device
  • the own device is initialized, and after the peripheral device notifies the host device of the occurrence of the failure, if there is no failure information request from the host device, the failure information is stored in the storage means, If the host device detects initialization of the peripheral device when it has initialized its own device and has not yet acquired the failure information, it requests the failure information from the peripheral device, and the peripheral device responds to the request with the failure information. Read from storage In sending to the host device.
  • the peripheral device when the peripheral device detects a failure related to the own device, the peripheral device notifies the host device of the occurrence of the failure, and the failure information related to the failure is notified from the host device after notification of the occurrence of the failure. If requested, the failure information is sent to the host device.
  • the host device When the host device is instructed to initialize, the device initializes itself according to the instruction, and there is no request for failure information from the host device after notification of the occurrence of the failure.
  • the failure information is stored in the storage unit, the device itself is initialized after the storage, and when the stored failure information is requested from the host device, the failure information is read from the storage unit and transmitted to the host device.
  • the recording medium is configured to notify the host device of the occurrence of a failure when a failure related to the own device is detected, and to receive failure information related to the failure from the host device after notification of the occurrence of the failure. If the host device is instructed to initialize, the host device initializes itself according to the instruction, and the host device notifies If there is no request, the failure information is saved in the storage means, and the host device is initialized after saving, and when the saved failure information is requested from the host device, the failure information is read from the storage means and transmitted to the host device. And a program for causing the peripheral device to execute the processing to be recorded in a computer-readable manner.
  • the present invention can provide a technique for further shortening the time required to recover from a failure while more reliably acquiring information related to the failure when a failure related to a peripheral device occurs.
  • FIG. 6 is a sequence diagram illustrating a processing flow of the information processing system when a failure occurs in the peripheral device but there is no failure in the connection bus with the host device in the first exemplary embodiment of the present invention.
  • FIG. 6 is a sequence diagram illustrating a processing flow of the information processing system when a failure occurs at least in a connection bus with a host device in a peripheral device in the first exemplary embodiment of the present invention. It is a block diagram which shows the structure of the information processing system as the 2nd Embodiment of this invention. It is a figure which shows an example of the hardware constitutions of the information processing system as the 2nd Embodiment of this invention. 10 is a flowchart for explaining the operation of the information processing system when a failure occurs in a peripheral device in the second embodiment of the present invention. 10 is a flowchart for explaining the operation of the information processing system when the peripheral device has been successfully initialized in the second embodiment of the present invention.
  • FIG. 10 is a flowchart for explaining the operation of the information processing system when the peripheral device fails in initialization in the second embodiment of the present invention.
  • FIG. 10 is a sequence diagram illustrating a processing flow of an information processing system when a failure occurs in at least a connection bus with a host device in a peripheral device and initialization is successful in the second exemplary embodiment of the present invention.
  • FIG. 10 is a sequence diagram illustrating a processing flow of an information processing system when a failure occurs in at least a connection bus with a host device in a peripheral device and initialization fails in the second embodiment of the present invention. It is a block diagram which shows the structure of the peripheral device as the 3rd Embodiment of this invention.
  • 10 is a flowchart for explaining the operation of a peripheral device when a failure occurs in the own device in the third embodiment of the present invention. It is a flowchart explaining operation
  • FIG. 1 shows a functional block configuration of an information processing system 1 as a first embodiment of the present invention.
  • the information processing system 1 includes a peripheral device 100 and a host device 200.
  • the peripheral device 100 includes a storage unit 101, a failure detection unit 102, a failure information processing unit 103, and an initialization unit 104.
  • the host device 200 includes a first failure information acquisition unit 201 and a second failure information acquisition unit 202.
  • the peripheral device 100 and the host device 200 are connected to be communicable.
  • the information processing system 1 can be configured by hardware elements as shown in FIG.
  • the peripheral device 100 includes a processor 1001, a microcontroller 1002 including a timer and a memory, a nonvolatile memory 1003, and a peripheral device connection interface 1004.
  • the processor 1001 mainly performs processing during operation of the peripheral device 100.
  • the processor 1001 may be a GPGPU (general purpose graphic processing unit).
  • the microcontroller 1002 mainly performs processing when a failure occurs in the peripheral device 100.
  • the peripheral device connection interface 1004 is an interface connected to the host device 200 via the bus 90.
  • the bus 90 may be a PCI (Peripheral Component Interconnect) bus.
  • the storage unit 101 of the peripheral device 100 is configured by a nonvolatile memory 1003.
  • Each other functional block of the peripheral device 100 includes a processor 1001 and a microcontroller 1002.
  • the host device 200 includes a CPU (Central Processing Unit) 2001, a memory 2002, and a peripheral device connection interface 2004.
  • the memory 2002 includes a RAM (Random Access Memory), a ROM (Read Only Memory), an auxiliary storage device (such as a hard disk), and the like.
  • the peripheral device connection interface 2004 is an interface connected to the peripheral device 100 via the bus 90.
  • the peripheral device connection interface 2004 may be an interface connected to the PCI bus.
  • each functional block of the host device 200 is configured by a CPU 2001 that reads and executes a computer program stored in the memory 2002.
  • each device and each functional block constituting the information processing system 1 is not limited to the above-described configuration.
  • the storage unit 101 stores information. Specifically, the storage unit 101 stores failure information based on the control of the failure information processing unit 103 described later.
  • the failure detection unit 102 When the failure detection unit 102 detects a failure related to the own device, the failure detection unit 102 notifies the host device 200 of the occurrence of the failure. The notification is performed by transmitting an interrupt signal via the bus 90, for example.
  • the failure information processing unit 103 transmits failure information to the host device 200 when failure information is requested from the host device 200 after notification of the occurrence of the failure.
  • the failure information is information on failures that can be collected in the peripheral device 100 when a failure occurs.
  • the failure information processing unit 103 stores the failure information in the storage unit 101 when there is no request for failure information from the host device 200 after notifying the occurrence of the failure. For example, when a failure has occurred in the bus 90, the notification of the occurrence of the failure from the peripheral device 100 to the host device 200 will not be reached, and there will be no request for failure information from the host device 200.
  • the failure information processing unit 103 may start a timer after counting the occurrence of a failure and count a predetermined time. In this case, when the failure information processing unit 103 receives a request from the host device 200 before the timer count expires, the failure information processing unit 103 may perform a process of transmitting failure information to the host device 200. Further, in this case, when the failure information processing unit 103 does not receive a request from the host device 200 until the timer count expires, the failure information processing unit 103 may perform processing for saving the failure information in the storage unit 101.
  • the failure information processing unit 103 reads the failure information from the storage unit 101 and transmits it to the host device 200.
  • the initialization unit 104 When the initialization unit 104 is instructed to initialize after transmitting failure information to the host device 200, the initialization unit 104 initializes its own device according to the instruction. In addition, when the failure information is stored in the storage unit 101, the initialization unit 104 initializes its own device after the storage.
  • the first failure information acquisition unit 201 When the first failure information acquisition unit 201 is notified of the occurrence of a failure from the peripheral device 100, the first failure information acquisition unit 201 requests failure information from the peripheral device 100. Also, the first failure information acquisition unit 201 instructs the peripheral device 100 to perform initialization after acquiring the failure information. The instruction for initialization is performed by transmitting a reset signal via the bus 90, for example.
  • the second failure information acquisition unit 202 requests and acquires the failure information from the peripheral device 100 if the failure information has not yet been acquired. Specifically, when detecting that the peripheral device 100 has been initialized, the second failure information acquisition unit 202 determines whether failure information has already been acquired. The second failure information acquisition unit 202 may request the failure information from the peripheral device 100 when determining that the failure information has not been acquired.
  • FIG. 3 shows an operation of the information processing system 1 when a failure related to the peripheral device 100 occurs.
  • the left diagram shows the operation of the host device 200
  • the right diagram shows the operation of the peripheral device 100.
  • the failure detection unit 102 of the peripheral device 100 detects a failure related to the own device (Yes in step A1), the failure detection unit 102 notifies the host device 200 of the occurrence of the failure (step A2).
  • the first failure information acquisition unit 201 of the host device 200 requests failure information from the peripheral device 100 (step B1).
  • Step A3 when the failure information processing unit 103 of the peripheral device 100 receives a request for failure information (Yes in Step A3), the failure information processing unit 103 transmits the failure information to the host device 200 (Step A4).
  • the first failure information acquisition unit 201 of the host device 200 acquires the failure information (step B2)
  • the first failure information acquisition unit 201 instructs the peripheral device 100 to perform initialization (step B3).
  • the initialization unit 104 of the peripheral device 100 initializes its own device in accordance with the initialization instruction (step A5).
  • failure information is not requested from the host device 200 after the peripheral device 100 notifies the host device 200 of the occurrence of the failure (No in step A3). This is due to factors such as the fact that the failure notification in step A2 does not reach the host device 200 due to the occurrence of a failure in the bus 90 as described above.
  • the failure information processing unit 103 of the peripheral device 100 stores failure information regarding the occurred failure in the storage unit 101 (step A6).
  • step A7 The initialization part 104 initializes an own apparatus.
  • the information processing system 1 ends the operation when a failure related to the peripheral device 100 occurs.
  • FIG. 4 shows the operation of the information processing system 1 when the peripheral device 100 is initialized.
  • the left diagram shows the operation of the host device 200
  • the right diagram shows the operation of the peripheral device 100.
  • Step S11 when detecting that the peripheral device 100 has been initialized (Yes in Step B11), the second failure information acquisition unit 202 of the host device 200 determines whether failure information has already been acquired (Step S11). B12).
  • Step B12 when the failure information has already been acquired (Yes in Step B12), the information processing system 1 ends the operation.
  • the second failure information acquisition unit 202 requests failure information from the peripheral device 100 (Step B13).
  • the failure information processing unit 103 of the peripheral device 100 reads the failure information from the storage unit 101 and transmits it to the host device 200 (step A11).
  • the second failure information acquisition unit 202 of the host device 200 acquires failure information (step B14).
  • the information processing system 1 ends the operation when the peripheral device 100 is initialized.
  • FIG. 5 shows a processing sequence when the bus 90 is normal when a failure related to the peripheral device 100 occurs.
  • the failure detection unit 102 of the peripheral device 100 detects the failure (step A1).
  • the failure detection unit 102 notifies the host device 200 of the occurrence of the failure (step A2).
  • the first failure information acquisition unit 201 of the host device 200 requests failure information from the peripheral device 100 via the bus 90 (step B1).
  • Step A3 when the failure information processing unit 103 of the peripheral device 100 receives the failure information request (Yes in Step A3), the failure information processing unit 103 transmits the failure information to the host device 200 (Step A4).
  • the first failure information acquisition unit 201 of the host device 200 instructs the peripheral device 100 to perform initialization via the bus 90 (step B3).
  • the initialization unit 104 of the peripheral device 100 performs initialization according to the instruction (step A5).
  • the host device 200 can automatically recover the peripheral device 100 after acquiring the failure information.
  • FIG. 6 shows a processing sequence when the bus 90 is not normal when a failure related to the peripheral device 100 occurs.
  • the failure detection unit 102 of the peripheral device 100 detects the failure (step A1).
  • the failure detection unit 102 notifies the host device 200 of the occurrence of the failure (step A2). However, the notification is not delivered because the bus 90 is not normal.
  • the failure information processing unit 103 starts a timer so as to count a predetermined time after notification of the occurrence of the failure.
  • the failure information processing unit 103 determines that there is no request for failure information from the host device 200 until the timer expires (No in step A3).
  • the failure information processing unit 103 stores the failure information in the storage unit 101 (step A6).
  • the initialization unit 104 initializes its own device (step A7).
  • the second failure information acquisition unit 202 of the host device 200 determines that the peripheral device 100 is initialized (Yes in Step B11) and has not yet acquired failure information (No in Step B12).
  • the second failure information acquisition unit 202 requests failure information from the peripheral device 100 via the bus 90 (step B13).
  • the failure information processing unit 103 of the peripheral device 100 reads the failure information from the storage unit 101 and transmits it to the host device 200 (step A11).
  • the second failure information acquisition unit 202 of the host device 200 acquires failure information (step B14).
  • the peripheral device 100 can automatically provide recovery information to the host device 200 after being restored.
  • the information processing system as the first exemplary embodiment of the present invention further shortens the time required to recover from a failure while more reliably acquiring information about the failure when a failure related to a peripheral device occurs. be able to.
  • the peripheral device includes a storage unit, a failure detection unit, a failure information processing unit, and an initialization unit. Further, the host device has a first failure information acquisition unit and a second failure information acquisition unit.
  • the failure detection unit of the peripheral device detects a failure related to the own device, it notifies the host device of the occurrence of the failure.
  • the first failure information acquisition unit of the host device requests failure information from the peripheral device.
  • the failure information processing unit of the peripheral device transmits failure information to the host device.
  • the first failure information acquisition unit of the host device instructs the peripheral device to initialize after acquiring the failure information. This is because the initialization unit of the peripheral device initializes its own device in response to the instruction.
  • the failure information processing unit of the peripheral device If the failure information processing unit of the peripheral device notifies the occurrence of the failure to the host device and there is no request for failure information from the host device, the failure information is stored in the storage unit, and the own device is initialized after the storage. Then, the second failure information acquisition unit of the host device requests the failure information from the peripheral device if the failure information has not yet been acquired after the peripheral device has been successfully initialized. In response to the request, the failure information processing unit of the peripheral device reads the failure information from the storage unit and transmits it to the host device.
  • the peripheral device when a failure related to the peripheral device occurs during operation of the information processing system, the peripheral device is automatically set regardless of whether or not communication with the peripheral device is possible. Recover failure information reliably while recovering.
  • the present embodiment is composed of a host device and peripheral devices. For this reason, the present embodiment increases the maintainability of the peripheral device without requiring a special hardware element between the host device and the peripheral device, as in the related art described in Patent Document 2. There is also an effect.
  • FIG. 7 shows the configuration of the information processing system 2 according to the second embodiment of the present invention.
  • the information processing system 2 includes a peripheral device 120, a host device 220, and a maintenance device 320.
  • the peripheral device 120 and the host device 220 are connected so that they can communicate during operation.
  • the peripheral device 120 and the maintenance device 320 may not be connected at the time of operation, and are connected as necessary in connection with the occurrence of a failure related to the peripheral device 120.
  • the peripheral device 120 differs from the peripheral device 100 according to the first embodiment of the present invention in that it includes a failure information processing unit 123 instead of the failure information processing unit 103, and further includes a maintenance device connection unit 124. .
  • the host device 220 is different from the host device 200 according to the first embodiment of the present invention in that it includes a second failure information acquisition unit 222 instead of the second failure information acquisition unit 202.
  • the maintenance device 320 includes a third failure information acquisition unit 321.
  • the information processing system 2 can be configured by hardware elements as shown in FIG.
  • the peripheral device 120 includes a peripheral device connection interface 1005 in addition to the same hardware elements as the peripheral device 100 described with reference to FIG.
  • the peripheral device connection interface 1005 is an interface connected to the maintenance device 320 via the bus 91.
  • the peripheral device connection interface 1005 is connected to the storage unit 101 via the bus 92.
  • the maintenance device connection unit 124 includes a bus 92 and a peripheral device connection interface 1005.
  • the peripheral device connection interface 1005 may be a connection interface of a standard different from that of the peripheral device connection interface 1004.
  • the host device 220 is configured by the same hardware elements as the host device 200 described with reference to FIG. 8.
  • the maintenance device 320 includes a CPU 3001, a memory 3002, and a peripheral device connection interface 3005.
  • the memory 3002 includes a RAM, a ROM, an auxiliary storage device, and the like.
  • the peripheral device connection interface 3005 is an interface connected to the peripheral device connection interface 1005 of the peripheral device 120 via the bus 91.
  • the functional block of the maintenance device 320 is configured by a CPU 3001 that reads and executes a computer program stored in the memory 3002.
  • each device and each functional block constituting the information processing system 2 is not limited to the above-described configuration.
  • the failure information processing unit 123 is configured as follows in addition to the same configuration as the failure information processing unit 103 in the first embodiment of the present invention. That is, the failure information processing unit 123 indicates that failure information has not been acquired when storing failure information in the storage unit 101 when there is no request for failure information from the host device 220 after notifying the occurrence of a failure. Save together.
  • the flag is information indicating whether failure information has not been acquired by the host device 220 or the maintenance device 320.
  • the flag is on. Saving a flag indicating that failure information has not been acquired is also described as turning on the flag.
  • the failure information indicates that it has been acquired, it is also described that the flag is off. Saving a flag indicating that failure information has been acquired is also referred to as turning off the flag.
  • failure information processing unit 123 transmits the flag stored in the storage unit 101 in response to a request from the host device 220. Further, the failure information processing unit 123 turns off the flag stored in the storage unit 101 in response to an instruction from the host device 220.
  • the failure information processing unit 123 reads the failure information from the storage unit 101 and transmits it to the host device 220.
  • the maintenance device connection unit 124 connects the storage unit 101 to the maintenance device 320.
  • the second failure information acquisition unit 222 is configured as follows in addition to the same configuration as the second failure information acquisition unit 202 in the first embodiment of the present invention. That is, when the second failure information acquisition unit 222 detects that the peripheral device 120 is initialized, the second failure information acquisition unit 222 determines whether failure information has not been acquired based on the flag of the storage unit 101 of the peripheral device 120. To do. Then, the second failure information acquisition unit 222 requests failure information from the peripheral device 120 when the flag is on. Also, the second failure information acquisition unit 222 instructs the peripheral device 120 to turn off the flag of the storage unit 101 after acquiring the failure information.
  • the third failure information acquisition unit 321 acquires failure information from the storage unit 101 when connected to the storage unit 101 of the peripheral device 120 via the maintenance device connection unit 124.
  • the maintenance device 320 is connected to the storage unit 101 of the peripheral device 120 via the maintenance device connection unit 124. Then, when detecting that the third failure information acquisition unit 321 is connected to the peripheral device 120, the third failure information acquisition unit 321 reads the flag from the storage unit 101 via the maintenance device connection unit 124, and the failure information is obtained based on the read flag. It is determined whether it has not been acquired. Then, the third failure information acquisition unit 321 reads and acquires the failure information from the storage unit 101 of the peripheral device 120 when the flag is on. In addition, after acquiring the failure information, the third failure information acquisition unit 321 accesses the storage unit 101 via the maintenance device connection unit 124 and turns off the flag.
  • FIG. 9 shows the operation of the information processing system 2 when a failure related to the peripheral device 120 occurs.
  • the operation of the information processing system 2 is substantially the same as the operation of the information processing system 1 described with reference to FIG. However, the difference is that the peripheral device 120 executes step A26 instead of step A6 when there is no request for failure information from the host device 220 after notifying the occurrence of the failure to the host device 220.
  • the failure information processing unit 123 turns on the flag in addition to storing the failure information in the storage unit 101 (step A26).
  • the initialization unit 104 initializes its own device in the same manner as in the first embodiment of the present invention (step A7).
  • FIG. 10 shows the operation of the information processing system 2 after the peripheral device 120 has been successfully initialized.
  • the peripheral device 120 has been successfully initialized and can normally communicate with the host device 220.
  • Step B21 when the second failure information acquisition unit 222 of the host device 220 detects that the peripheral device 120 is initialized (Yes in Step B11), it requests a flag from the peripheral device 120 (Step B21). .
  • the failure information processing unit 123 of the peripheral device 120 reads the flag from the storage unit 101 and transmits it to the host device 220 in response to the request (step A21).
  • the second failure information acquisition unit 222 of the host device 220 determines whether or not the flag is on (step B22).
  • step B22 a case where the flag is on (Yes in step B22) will be described.
  • the host device 220 and the peripheral device 120 execute Steps B13, A11, and B14 as in the first embodiment of the present invention. Thereby, the host device 220 acquires failure information from the peripheral device 120.
  • the second failure information acquisition unit 222 of the host device 220 instructs the peripheral device 120 to turn off the flag (step B25).
  • the failure information processing unit 123 of the peripheral device 120 turns off the flag stored in the storage unit 101 (step A22).
  • the information processing system 2 ends the operation after the peripheral device 120 has been successfully initialized.
  • FIG. 11 shows the operation of the information processing system 2 after the peripheral device 120 fails to be initialized.
  • the peripheral device 120 is connected to the maintenance device 320.
  • the peripheral device 120 is connected to the maintenance device 320 typically when the initialization of the peripheral device 120 has failed and communication with the host device 220 has not been performed normally. In such a case, for example, the peripheral device 120 is removed from the host device 220 and connected to the maintenance device 320.
  • Step C when the third failure information acquisition unit 321 of the maintenance device 320 detects that it is connected to the peripheral device 120 (Yes in Step C ⁇ b> 21), the third failure information acquisition unit 321 reads from the storage unit 101 via the maintenance device connection unit 124. A flag is acquired (step C22).
  • the third failure information acquisition unit 321 determines whether or not the acquired flag is on (step C23).
  • the third failure information acquisition unit 321 acquires failure information from the storage unit 101 via the maintenance device connection unit 124 (step C24).
  • the third failure information acquisition unit 321 accesses the storage unit 101 via the maintenance device connection unit 124 and turns off the flag (step C25).
  • the information processing system 2 ends the operation after the peripheral device 120 fails to be initialized.
  • processing sequence when the bus 90 is normal when a failure related to the peripheral device 120 occurs is the processing sequence of the information processing system 1 according to the first embodiment of the present invention described with reference to FIG. Since this is the same as the processing sequence, description thereof is omitted.
  • FIG. 12 shows a processing sequence when the automatic recovery of the peripheral device 120 succeeds after a failure related to the bus 90 connecting at least the peripheral device 120 to the host device 220 occurs.
  • the processing sequence of the information processing system 2 is the same as that of the information processing system 1 as the first embodiment of the present invention described with reference to FIG. 6 from step A1 to A3.
  • the peripheral device 120 starts the timer after notifying the occurrence of the failure to the host device 220, and determines that there is no request for failure information from the host device 220 to the peripheral device 120 before the timer expires. .
  • the failure information processing unit 123 of the peripheral device 120 stores the failure information in the storage unit 101 and turns on the flag (step A26).
  • the initialization unit 104 initializes its own device (step A7).
  • Step B11 when the peripheral device 120 is initialized (Yes in Step B11), the second failure information acquisition unit 222 of the host device 220 requests a flag of the peripheral device 120 (Step B21). A flag indicating ON is transmitted from the peripheral device 120 (Yes in Step A21 and Step B22).
  • the processing sequence of the information processing system 2 is the same as that of the information processing system 1 as the first embodiment of the present invention described with reference to FIG. 6 up to steps B13, A11, and B14.
  • the host device 220 acquires failure information.
  • the second failure information acquisition unit 222 instructs the peripheral device 120 to turn off the flag (step B25).
  • the failure information processing unit 123 of the peripheral device 120 turns off the flag (step A22).
  • the peripheral device 120 can automatically provide recovery information to the host device 220 after being restored.
  • FIG. 13 a processing sequence in a case where automatic recovery of the peripheral device 120 fails after a failure related to the bus 90 connecting at least the peripheral device 120 to the host device 220 occurs in FIG. 13. Show.
  • the processing sequence of the information processing system 2 is the same as the processing sequence in the case where the automatic recovery described with reference to FIG. 12 is successful, from steps A1 to A3, A26, and A7. Accordingly, the peripheral device 120 attempts initialization after storing the failure information and the flag (ON) in the storage unit 101.
  • the third failure information acquisition unit 321 of the maintenance device 320 acquires a flag from the storage unit 101 via the maintenance device connection unit 124 (Step C22). ). At this time, the acquired flag is on (Yes in step C23).
  • the third failure information acquisition unit 321 acquires failure information from the storage unit 101 via the maintenance device connection unit 124 (step C24).
  • the third failure information acquisition unit 321 accesses the storage unit 101 via the maintenance device connection unit 124 and turns off the flag (step C25).
  • peripheral device 120 is expected to be repaired.
  • the peripheral device 120 can provide failure information to the maintenance device 320 even when the bus 90 is not normal and automatic recovery fails.
  • the information processing system fails even when a failure related to a peripheral device occurs and when automatic recovery for shortening the time required to recover from the failure is successful. Even in this case, it is possible to acquire information on the failure more reliably.
  • the peripheral device has a maintenance device connection unit that connects the storage unit to the maintenance device. Then, when the maintenance device is connected to the storage unit of the peripheral device that failed to be initialized via the maintenance device connection unit, the third failure information acquisition unit acquires the failure information from the storage unit.
  • the failure information processing unit of the peripheral device when the failure information processing unit of the peripheral device stores the failure information in the storage unit, the failure information processing unit also stores a flag indicating that the failure information has not been acquired. Then, the second failure information acquisition unit of the host device or the third failure information acquisition unit of the maintenance device determines that the failure information has not been acquired based on the flag in the process of acquiring the failure information from the peripheral device. It is because it will be executed if it does.
  • the host device when a failure related to a peripheral device occurs during operation of the information processing system, the host device regardless of whether the automatic recovery of the peripheral device succeeds or fails.
  • the failure information can be reliably acquired by the maintenance device.
  • the peripheral device 10 having the minimum configuration according to the embodiment of the present invention will be described with reference to the drawings.
  • the peripheral device 10 includes a storage unit 11, a failure detection unit 12, a failure information processing unit 13, and an initialization unit 14.
  • the peripheral device 10 is connected to the host device.
  • the storage unit 11 stores information.
  • the failure detection unit 12 When the failure detection unit 12 detects a failure related to the own device, the failure detection unit 12 notifies the host device of the occurrence of the failure.
  • the failure information processing unit 13 transmits failure information to the host device when failure information is requested from the host device after notification of the occurrence of the failure.
  • the failure information processing unit 13 stores the failure information in the storage unit 11 when there is no request for failure information from the host device after notifying the occurrence of the failure.
  • the failure information processing unit 13 reads the failure information from the storage unit 11 and transmits it to the host device.
  • the initialization unit 14 When the initialization unit 14 is instructed to initialize after transmitting failure information to the host device, the initialization unit 14 initializes its own device according to the instruction. In addition, when the failure information is stored in the storage unit 11, the initialization unit 14 initializes its own device after the storage.
  • peripheral device 10 configured as described above will be described with reference to the drawings.
  • FIG. 15 shows the operation of the peripheral device 10 when a failure related to the own device occurs.
  • Step A101 when the failure detection unit 12 detects a failure related to its own device (Yes in Step A101), the failure detection unit 12 notifies the host device of the occurrence of the failure (Step A102).
  • the failure information processing unit 13 determines whether a failure information request has been received from the host device (step A103).
  • the failure information processing unit 13 transmits the failure information to the host device (Step A104).
  • the initialization unit 14 initializes its own device in accordance with an instruction from the host device (step A105).
  • the failure information processing unit 13 stores the failure information in the storage unit 11 (Step A106).
  • the initialization part 14 initializes an own apparatus (step A107).
  • the peripheral device 10 ends the operation when a failure related to the own device occurs.
  • FIG. 16 shows an operation after the peripheral device 10 is initialized.
  • the failure information processing unit 13 when receiving a request for failure information from the host device, the failure information processing unit 13 reads the failure information from the storage unit 11 and transmits it to the host device (step A111).
  • the peripheral device 10 finishes the operation after being initialized.
  • the peripheral device according to the third embodiment of the present invention further reduces the time required to recover from a failure while providing information about the failure more reliably to the outside when a failure related to the device occurs. can do.
  • the failure detection unit when the failure detection unit detects a failure related to the own device, the failure detection unit notifies the host device of the occurrence of the failure.
  • the failure information processing unit transmits the failure information to the host device.
  • the initialization unit initializes its own device in accordance with an instruction from the host device.
  • the failure information processing unit stores the failure information in the storage unit and initializes the own device after the storage. This is because the failure information processing unit reads failure information from the storage unit and sends it to the host device when failure information is requested from the host device.
  • the peripheral device provides failure information more reliably to the outside regardless of whether communication with the host device is possible or not when a failure related to the own device occurs. At the same time, the device is restored by initialization.
  • the minimum configuration host device 20 according to the embodiment of the present invention will be described with reference to the drawings.
  • the host device 20 includes a first failure information acquisition unit 21 and a second failure information acquisition unit 22.
  • the host device 20 is connected to a peripheral device.
  • the first failure information acquisition unit 21 requests failure information from the peripheral device when the peripheral device is notified of the occurrence of the failure.
  • the first failure information acquisition unit 21 instructs the peripheral device to initialize after acquiring the failure information.
  • the second failure information acquisition unit 22 requests the failure information from the peripheral device and acquires the failure information if the failure information has not yet been acquired.
  • FIG. 18 shows the operation of the host device 20 when a peripheral device is notified of the occurrence of a failure.
  • the first failure information acquisition unit 21 requests failure information from the peripheral device (step B101).
  • the first failure information acquisition unit 21 acquires failure information transmitted from the peripheral device (step B102).
  • the first failure information acquisition unit 21 instructs the peripheral device to perform initialization (step B103).
  • the host device 20 ends the operation when the peripheral device is notified of the occurrence of the failure.
  • FIG. 19 shows the operation of the host device 20 when the peripheral device is initialized.
  • Step B111 when detecting that the peripheral device has been initialized (Yes in Step B111), the second failure information acquisition unit 22 determines whether failure information has already been acquired (Step B112).
  • Step B112 when the failure information has already been acquired (Yes in Step B112), the host device 20 ends the operation.
  • the second failure information acquisition unit 22 requests failure information from the peripheral device (Step B113).
  • the second failure information acquisition unit 22 acquires the failure information transmitted from the peripheral device (step B114).
  • the host device 20 ends the operation when the peripheral device is initialized.
  • the host device further shortens the time required to recover from a failure while more reliably acquiring information about the failure when a failure related to a peripheral device occurs. Can do.
  • the first failure information acquisition unit when the first failure information acquisition unit is notified of the occurrence of a failure from the peripheral device, it requests failure information from the peripheral device. Then, the first failure information acquisition unit instructs the peripheral device to initialize after acquiring the failure information. Further, when the second failure information acquisition unit detects the initialization of the peripheral device, if the failure information has not yet been acquired, the failure information is requested and acquired from the peripheral device.
  • the host device can use the peripheral device regardless of whether or not communication with the peripheral device is possible when a failure related to the peripheral device occurs during the operation of the peripheral device. Failure information can be acquired while automatically recovering.
  • the maintenance device 30 having the minimum configuration according to the embodiment of the present invention will be described in detail with reference to the drawings.
  • the functional block configuration of the maintenance device 30 is shown in FIG.
  • the maintenance device 30 includes a third failure information acquisition unit 31.
  • the maintenance device 30 can be connected to a storage unit of the peripheral device via a maintenance device connection unit provided in the peripheral device.
  • the third failure information acquisition unit 31 acquires failure information from the storage unit of the peripheral device via the maintenance device connection unit.
  • Step C101 when the third failure information acquisition unit 31 detects that it is connected to the storage unit of the peripheral device via the maintenance device connection unit (Yes in Step C101), the failure is acquired from the storage unit of the peripheral device. Information is acquired (step C102).
  • the peripheral device is connected to the maintenance device 30 typically when the initialization of the peripheral device fails after a failure related to the peripheral device occurs. In such a case, for example, the peripheral device is removed from the host device and connected to the maintenance device 30.
  • the maintenance device 30 ends the operation.
  • the maintenance device can reliably acquire information on a failure from a peripheral device that has failed to be automatically restored after the failure has occurred.
  • the failure information acquisition unit when the third failure information acquisition unit is connected to the maintenance device connection unit provided in the peripheral device that failed to initialize, the failure is detected from the storage unit of the peripheral device via the maintenance device connection unit. This is because information is acquired.
  • the peripheral device is a PCI device connected to the host device via the PCI bus.
  • the standard for connecting a peripheral device to a host device is not limited to this.
  • the peripheral device is a device equipped with GPGPU.
  • the processor mounted on the peripheral device is not limited to GPGPU.
  • the peripheral device may be a device equipped with a network controller, a sound controller, or the like.
  • the maintenance device is connected to a peripheral device that has failed during automatic operation due to a failure during operation.
  • the maintenance device may be connected to peripheral devices in other states.
  • the second failure information acquisition unit of the host device and the third failure information acquisition unit of the maintenance device are stored together with the failure information in the storage unit of the peripheral device.
  • An example in which it is determined whether failure information has not been acquired based on the flag has been described.
  • the second and third failure information acquisition units may determine whether failure information has not been acquired using other information.
  • the second and third failure information acquisition units may determine whether failure information has not been acquired based on whether failure information has been stored in the own device.
  • each functional block is realized by a processor that executes a computer program stored in a memory.
  • the present invention is not limited to this, and some, all, or a combination of each functional block may be realized by dedicated hardware.
  • each device described with reference to each flowchart is stored in a storage device (storage medium) of the computer device as a computer program of the present invention.
  • the computer program may be read and executed by the processor.
  • the present invention is constituted by the code of the computer program or a storage medium.
  • (Appendix 1) Storage means for storing information; When detecting a failure related to the device itself, failure detection means for notifying the host device of the occurrence of the failure; After the notification of the occurrence of the failure, when the failure information related to the failure is requested from the host device, the failure information is transmitted to the host device, and when the failure information is not requested from the host device, the storage unit Fault information processing means for storing the fault information and reading the fault information from the storage means and transmitting the fault information to the host apparatus when the stored fault information is requested from the host device; When initialization is instructed from the host device, the device initializes itself according to the instruction, and when the failure information is stored in the storage unit, initialization unit initializes the device after the storage; Peripheral device.
  • Appendix 3 When the occurrence of the failure is notified from the peripheral device described in Appendix 1 or 2, the failure information is requested from the peripheral device, and the peripheral device is instructed to be initialized after obtaining the failure information
  • First failure information acquisition means for When the initialization of the peripheral device is detected, if the failure information has not yet been acquired, a second failure information acquisition unit that requests and acquires the failure information from the peripheral device;
  • Host device with A maintenance device comprising a third failure information acquisition unit that reads and acquires the failure information from the storage unit when connected to the storage unit of the peripheral device according to attachment 2 via the maintenance device connection unit.
  • the third failure information acquisition unit executes the process of acquiring the failure information from the peripheral device according to appendix 7 subordinate to appendix 2 when it is determined that the fault information has not been acquired based on the flag.
  • the maintenance device according to appendix 4, wherein (Appendix 10)
  • the peripheral device detects a failure related to its own device, it notifies the host device of the occurrence of the failure, In response to the notification of the occurrence of the failure, the host device requests failure information related to the failure from the peripheral device, In response to the request, the peripheral device transmits the failure information to the host device, The host device instructs the peripheral device to initialize after acquiring the failure information, The peripheral device initializes its own device in response to the initialization instruction, After the peripheral device notifies the host device of the occurrence of the failure, if there is no request for the failure information from the host device, the failure information is stored in the storage means, and the device is initialized after the storage, When the host device detects initialization of the peripheral device, if it has not

Abstract

周辺装置に関連する障害が発生した場合に、障害に関する情報の取得をより確実にしながら、障害の復旧までに要する時間をより短縮するため、本発明の周辺装置は、記憶手段と、障害の発生をホスト装置に通知する障害検出手段と、障害の発生の通知後に、ホスト装置から障害情報を要求された場合、障害情報をホスト装置に送信し、ホスト装置から障害情報の要求がない場合、記憶手段に障害情報を保存し、保存した障害情報をホスト装置から要求された場合、記憶手段から障害情報を読み込んでホスト装置に送信する障害情報処理手段と、ホスト装置から初期化を指示された場合、指示に応じて自装置を初期化し、障害情報が記憶手段に保存された場合、保存後に自装置を初期化する初期化手段とを備える。

Description

周辺装置、ホスト装置、保守装置、情報処理システム、方法および記録媒体
 本発明は、周辺装置に関連する障害を処理する技術に関する。
 情報処理システムにおいて周辺装置に関連する障害が発生した場合、早期復旧のため、障害に関する情報を取得することが重要となる。
 情報処理システムにおける障害に関する情報を取得する技術の一例が、特許文献1に記載されている。この関連技術は、プロセッサが正常に動作しているか否かを監視する。そして、この関連技術は、プロセッサが正常に動作しなくなったとき、プロセッサの動作ログが保存されている主記憶装置から、DMA(Direct Memory Access)転送により動作ログを取得する。
 また、周辺装置に関連する障害に関する情報を取得する技術の他の一例が、特許文献2に記載されている。この関連技術は、PCI(Peripheral Component Interconnect)デバイスとホスト装置との間を接続するPCIボックスに、障害通知部と、不揮発性メモリとを配置する。また、障害通知部は、監視装置にも接続される。そして、障害通知部は、PCIデバイスの障害を検知すると、PCIデバイスから障害に関する情報を取得して不揮発性メモリに保存し、エラーを監視装置に通知する。監視装置は、エラーの通知に応じて、PCIボックスに配置された不揮発性メモリから障害に関する情報を読み出す。
特開2014-182676号公報 特開2014-48782号公報
 しかしながら、上述の関連技術には、以下の課題がある。
 周辺装置に関連する障害は、周辺装置のリセットにより自動で復旧可能な場合がある。自動で障害から復旧することにより、復旧までの時間がより短くなる。しかしながら、周辺装置は、リセットされると障害に関する情報を失ってしまう。
 特許文献1に記載された関連技術は、プロセッサがリセットされる前に障害に関する情報を取得するために、DMA転送を用いている。しかしながら、DMAの経路に障害が発生した場合、この関連技術は、障害に関する情報を取得することができない。また、この関連技術は、プロセッサがリセットされる前に障害に関する情報を取得するものの、プロセッサの障害を復旧することに関しては記載されていない。
 また、特許文献2に記載された関連技術は、PCIデバイスをリセットしても、PCIボックスに障害に関する情報が保存されているものの、PCIボックスという特別なハードウェア要素を必要とする。また、この関連技術は、PCIデバイスの障害に関する情報を取得するものの、PCIデバイスの障害を復旧することに関しては記載されていない。
 本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、周辺装置に関連する障害が発生した場合に、障害に関する情報の取得をより確実にしながら、障害の復旧までに要する時間をより短縮する技術を提供することを目的とする。
 本発明の一形態における周辺装置は、情報を記憶する記憶手段と、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する障害検出手段と、障害の発生の通知後に、ホスト装置から障害に関する障害情報を要求された場合、障害情報をホスト装置に送信し、ホスト装置から障害情報の要求がない場合、記憶手段に障害情報を保存し、保存した障害情報をホスト装置から要求された場合、記憶手段から障害情報を読み込んでホスト装置に送信する障害情報処理手段と、ホスト装置から初期化を指示された場合、指示に応じて自装置を初期化し、障害情報が記憶手段に保存された場合、保存後に自装置を初期化する初期化手段と、を備える。
 また、本発明の一形態におけるホスト装置は、上述の周辺装置から障害の発生を通知された場合、周辺装置に対して障害情報を要求し、障害情報の取得後に周辺装置に対して初期化を指示する第1の障害情報取得手段と、周辺装置の初期化を検出した場合、障害情報を未だ取得していなければ、周辺装置に対して障害情報を要求して取得する第2の障害情報取得手段と、を備える。
 また、本発明の一形態における保守装置は、上述の周辺装置に備えられた保守装置接続手段を介して記憶手段に接続されると、障害情報を記憶手段から読み込んで取得する第3の障害情報取得手段を備える。
 また、本発明の一形態における情報処理システムは、上述の周辺装置と、上述のホスト装置と、を備える。
 また、本発明の一形態における方法は、周辺装置が、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知し、ホスト装置が、障害の発生の通知に応じて、周辺装置に対して障害に関する障害情報を要求し、周辺装置が、要求に応じて、障害情報をホスト装置に送信し、ホスト装置が、障害情報の取得後に周辺装置に初期化を指示し、周辺装置が、初期化の指示に応じて自装置を初期化し、周辺装置が、障害の発生をホスト装置に通知後、ホスト装置から障害情報の要求がない場合、記憶手段に障害情報を保存し、保存後に自装置を初期化し、ホスト装置が、周辺装置の初期化を検出した場合、障害情報を未だ取得していなければ、周辺装置に障害情報を要求し、周辺装置が、要求に応じて、障害情報を記憶手段から読み込んでホスト装置に送信する。
 また、本発明の他の形態における方法は、周辺装置が、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知し、障害の発生の通知後にホスト装置から障害に関する障害情報を要求された場合、障害情報をホスト装置に送信し、ホスト装置から初期化を指示された場合、指示に応じて自装置を初期化し、障害の発生の通知後にホスト装置から障害情報の要求がない場合、記憶手段に障害情報を保存し、保存後に自装置を初期化し、保存した障害情報をホスト装置から要求された場合、記憶手段から障害情報を読み込んでホスト装置に送信する。
 また、本発明の一形態における記録媒体は、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する処理と、障害の発生の通知後にホスト装置から障害に関する障害情報を要求された場合、障害情報をホスト装置に送信する処理と、ホスト装置から初期化を指示された場合、指示に応じて自装置を初期化する処理と、障害の発生の通知後にホスト装置から障害情報の要求がない場合、記憶手段に障害情報を保存し、保存後に自装置を初期化する処理と、保存した障害情報をホスト装置から要求された場合、記憶手段から障害情報を読み込んでホスト装置に送信する処理と、を周辺装置に実行させるプログラムをコンピュータ読み取り可能に記録する。
 本発明は、周辺装置に関連する障害が発生した場合に、障害に関する情報の取得をより確実にしながら、障害の復旧までに要する時間をより短縮する技術を提供することができる。
本発明の第1の実施の形態としての情報処理システムの構成を示すブロック図である。 本発明の第1の実施の形態としての情報処理システムのハードウェア構成の一例を示す図である。 本発明の第1の実施の形態において周辺装置に障害が発生した際の情報処理システムの動作を説明するフローチャートである。 本発明の第1の実施の形態において周辺装置が初期化された際の情報処理システムの動作を説明するフローチャートである。 本発明の第1の実施の形態において周辺装置に障害が発生するがホスト装置との接続バスには障害がない場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第1の実施の形態において周辺装置において少なくともホスト装置との接続バスに障害が発生した場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第2の実施の形態としての情報処理システムの構成を示すブロック図である。 本発明の第2の実施の形態としての情報処理システムのハードウェア構成の一例を示す図である。 本発明の第2の実施の形態において周辺装置に障害が発生した際の情報処理システムの動作を説明するフローチャートである。 本発明の第2の実施の形態において周辺装置が初期化に成功した場合の情報処理システムの動作を説明するフローチャートである。 本発明の第2の実施の形態において周辺装置が初期化に失敗した場合の情報処理システムの動作を説明するフローチャートである。 本発明の第2の実施の形態において周辺装置において少なくともホスト装置との接続バスに障害が発生し初期化に成功する場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第2の実施の形態において周辺装置において少なくともホスト装置との接続バスに障害が発生し初期化にも失敗する場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第3の実施の形態としての周辺装置の構成を示すブロック図である。 本発明の第3の実施の形態において自装置に障害が発生した際の周辺装置の動作を説明するフローチャートである。 本発明の第3の実施の形態において自装置を初期化後の周辺装置の動作を説明するフローチャートである。 本発明の第4の実施の形態としてのホスト装置の構成を示すブロック図である。 本発明の第4の実施の形態において周辺装置から障害の発生が通知された際のホスト装置の動作を説明するフローチャートである。 本発明の第4の実施の形態において周辺装置が初期化された際のホスト装置の動作を説明するフローチャートである。 本発明の第5の実施の形態としての保守装置の構成を示すブロック図である。 本発明の第5の実施の形態において周辺装置が接続された際の保守装置の動作を説明するフローチャートである。
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (第1の実施の形態)
 本発明の第1の実施の形態としての情報処理システム1の機能ブロック構成を図1に示す。図1において、情報処理システム1は、周辺装置100と、ホスト装置200とを備える。周辺装置100は、記憶部101と、障害検出部102と、障害情報処理部103と、初期化部104とを有する。また、ホスト装置200は、第1の障害情報取得部201と、第2の障害情報取得部202とを有する。また、周辺装置100およびホスト装置200は、通信可能に接続される。
 ここで、情報処理システム1は、図2に示すようなハードウェア要素によって構成可能である。図2において、周辺装置100は、プロセッサ1001と、タイマおよびメモリを含むマイクロコントローラ1002と、不揮発性メモリ1003と、周辺装置接続インタフェース1004とを含む。プロセッサ1001は、周辺装置100の運用時の処理を主に行う。例えば、プロセッサ1001は、GPGPU(general purpose graphic processing unit)であってもよい。マイクロコントローラ1002は、周辺装置100における障害発生時の処理を主に行う。周辺装置接続インタフェース1004は、バス90を介してホスト装置200に接続するインタフェースである。例えば、バス90は、PCI(Peripheral Component Interconnect)バスであってもよい。このようなハードウェア構成において、周辺装置100の記憶部101は、不揮発性メモリ1003によって構成される。また、周辺装置100のその他の各機能ブロックは、プロセッサ1001およびマイクロコントローラ1002によって構成される。
 また、図2において、ホスト装置200は、CPU(Central Processing Unit)2001、メモリ2002、および、周辺装置接続インタフェース2004を含む。メモリ2002は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)等によって構成される。周辺装置接続インタフェース2004は、バス90を介して周辺装置100に接続するインタフェースである。例えば、前述のように、周辺装置接続インタフェース2004は、PCIバスに接続するインタフェースであってもよい。このようなハードウェア構成において、ホスト装置200の各機能ブロックは、メモリ2002に格納されるコンピュータ・プログラムを読み込んで実行するCPU2001によって構成される。
 なお、情報処理システム1を構成する各装置およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
 次に、周辺装置100の機能ブロックの詳細について説明する。
 記憶部101は、情報を記憶する。詳細には、記憶部101は、後述の障害情報処理部103の制御の基に障害情報を記憶する。
 障害検出部102は、自装置に関連する障害を検出すると、障害の発生をホスト装置200に通知する。通知は、例えば、バス90を介した割り込み信号の送信によって行われる。
 障害情報処理部103は、障害の発生の通知後に、ホスト装置200から障害情報を要求された場合、障害情報をホスト装置200に送信する。ここで、障害情報は、周辺装置100において、障害の発生時に収集可能な障害に関する情報であるものとする。
 また、障害情報処理部103は、障害の発生を通知後に、ホスト装置200から障害情報の要求がない場合、記憶部101に障害情報を保存する。例えば、バス90に障害が発生している場合、周辺装置100からホスト装置200への障害の発生の通知は不達となり、ホスト装置200から障害情報の要求がないことになる。
 例えば、障害情報処理部103は、障害の発生の通知後にタイマを起動して所定時間をカウントしてもよい。この場合、障害情報処理部103は、タイマのカウントが満了するまでにホスト装置200からの要求を受信した場合は、障害情報をホスト装置200に送信する処理を行えばよい。また、この場合、障害情報処理部103は、タイマのカウントが満了するまでにホスト装置200からの要求を受信しなかった場合は、障害情報を記憶部101に保存する処理を行えばよい。
 また、障害情報処理部103は、記憶部101に保存した障害情報をホスト装置200から要求された場合、記憶部101から障害情報を読み込んでホスト装置200に送信する。
 初期化部104は、ホスト装置200に障害情報を送信後に、ホスト装置200から初期化を指示された場合、指示に応じて自装置を初期化する。また、初期化部104は、障害情報が記憶部101に保存された場合、保存後に自装置を初期化する。
 次に、ホスト装置200の機能ブロックの詳細について説明する。
 第1の障害情報取得部201は、周辺装置100から障害の発生を通知された場合、周辺装置100に対して障害情報を要求する。また、第1の障害情報取得部201は、障害情報の取得後に、周辺装置100に対して初期化を指示する。初期化の指示は、例えば、バス90を介したリセット信号の送信により行われる。
 第2の障害情報取得部202は、周辺装置100が初期化に成功した場合、未だ障害情報を取得していなければ、周辺装置100に対して障害情報を要求して取得する。具体的には、第2の障害情報取得部202は、周辺装置100が初期化されたことを検出すると、障害情報を取得済みであるか否かを判断する。そして、第2の障害情報取得部202は、障害情報を取得済みでないと判断した場合に、周辺装置100に対して障害情報を要求してもよい。
 以上のように構成された情報処理システム1の動作について、図面を参照して説明する。
 まず、周辺装置100に関連する障害が発生した際の情報処理システム1の動作を図3に示す。なお、図3において、左図はホスト装置200の動作を示し、右図は周辺装置100の動作を示す。
 まず、周辺装置100の障害検出部102は、自装置に関連する障害を検出した場合(ステップA1でYes)、障害の発生をホスト装置200に通知する(ステップA2)。
 次に、ホスト装置200の第1の障害情報取得部201は、障害の発生の通知を受信すると、周辺装置100に対して障害情報を要求する(ステップB1)。
 次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると(ステップA3でYes)、障害情報をホスト装置200に送信する(ステップA4)。
 そして、ホスト装置200の第1の障害情報取得部201は、障害情報を取得すると(ステップB2)、周辺装置100に対して初期化を指示する(ステップB3)。
 次に、周辺装置100の初期化部104は、初期化の指示に応じて、自装置を初期化する(ステップA5)。
 また、周辺装置100から障害の発生をホスト装置200に通知後に、ホスト装置200から障害情報の要求がない場合(ステップA3でNo)について説明する。これは、例えば、前述のように、バス90における障害の発生等により、ステップA2での障害の発生の通知が、ホスト装置200に到達しない等の要因による。
 この場合、周辺装置100の障害情報処理部103は、発生した障害に関する障害情報を、記憶部101に記憶する(ステップA6)。
 そして、初期化部104は、自装置を初期化する(ステップA7)。
 以上で、情報処理システム1は、周辺装置100に関連する障害が発生した際の動作を終了する。
 次に、周辺装置100が初期化された際の情報処理システム1の動作を図4に示す。なお、図4において、左図はホスト装置200の動作を示し、右図は周辺装置100の動作を示す。
 まず、ホスト装置200の第2の障害情報取得部202は、周辺装置100が初期化されたことを検出すると(ステップB11でYes)、障害情報を既に取得しているか否かを判断する(ステップB12)。
 ここで、障害情報を既に取得している場合(ステップB12でYes)、情報処理システム1は、動作を終了する。
 一方、障害情報を未だ取得していない場合(ステップB12でNo)、第2の障害情報取得部202は、周辺装置100に対して障害情報を要求する(ステップB13)。
 次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると、障害情報を記憶部101から読み込んでホスト装置200に送信する(ステップA11)。
 次に、ホスト装置200の第2の障害情報取得部202は、障害情報を取得する(ステップB14)。
 以上で、情報処理システム1は、周辺装置100が初期化された際の動作を終了する。
 次に、情報処理システム1において、運用中に周辺装置100に関連する障害が発生した際の処理シーケンスについて、図面を参照して説明する。
 まず、周辺装置100に関連する障害が発生した際に、バス90が正常である場合の処理シーケンスを図5に示す。
 まず、周辺装置100に関連する障害が発生すると、周辺装置100の障害検出部102は、その障害を検出する(ステップA1)。
 次に、障害検出部102は、ホスト装置200に対して、障害の発生を通知する(ステップA2)。
 次に、ホスト装置200の第1の障害情報取得部201は、障害の発生の通知を受信すると、周辺装置100に対して、バス90を介して、障害情報を要求する(ステップB1)。
 次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると(ステップA3でYes)、ホスト装置200に対して、障害情報を送信する(ステップA4)。
 次に、ホスト装置200の第1の障害情報取得部201は、障害情報を取得後(ステップB2)、周辺装置100に対して、バス90を介して初期化を指示する(ステップB3)。
 そして、周辺装置100の初期化部104は、指示に応じて初期化を実行する(ステップA5)。
 これにより、ホスト装置200は、障害情報を取得した上で、周辺装置100を自動で復旧させることができる。
 次に、周辺装置100に関連する障害が発生した際に、バス90が正常でない場合の処理シーケンスを図6に示す。
 まず、周辺装置100に関連する障害が発生すると、周辺装置100の障害検出部102は、その障害を検出する(ステップA1)。
 次に、障害検出部102は、ホスト装置200に対して、障害の発生を通知する(ステップA2)。しかしながら、バス90が正常でないため、通知は不達となる。
 次に、障害情報処理部103は、障害の発生の通知後、所定時間をカウントするようタイマを起動する。そして、障害情報処理部103は、タイマが満了するまでに、ホスト装置200から障害情報の要求がないと判断する(ステップA3でNo)。
 次に、障害情報処理部103は、障害情報を記憶部101に保存する(ステップA6)。
 次に、初期化部104は、自装置を初期化する(ステップA7)。
 次に、ホスト装置200の第2の障害情報取得部202は、周辺装置100が初期化され(ステップB11でYes)、障害情報を未だ取得していない(ステップB12でNo)と判断する。
 そこで、第2の障害情報取得部202は、周辺装置100に対して、バス90を介して、障害情報を要求する(ステップB13)。
 次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると、障害情報を記憶部101から読み込んでホスト装置200に送信する(ステップA11)。
 次に、ホスト装置200の第2の障害情報取得部202は、障害情報を取得する(ステップB14)。
 これにより、周辺装置100は自動で復旧した上で、ホスト装置200に対して障害情報を提供することができる。
 次に、本発明の第1の実施の形態の効果について述べる。
 本発明の第1の実施の形態としての情報処理システムは、周辺装置に関連する障害が発生した場合に、障害に関する情報の取得をより確実にしながら、障害の復旧までに要する時間をより短縮することができる。
 その理由について説明する。本実施の形態では、周辺装置が、記憶部と、障害検出部と、障害情報処理部と、初期化部とを有する。また、ホスト装置が、第1の障害情報取得部と、第2の障害情報取得部とを有する。そして、周辺装置の障害検出部が、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する。通知に応じて、ホスト装置の第1の障害情報取得部が、周辺装置に対して障害情報を要求する。要求に応じて、周辺装置の障害情報処理部が、障害情報をホスト装置に送信する。そして、ホスト装置の第1の障害情報取得部が、障害情報の取得後に、周辺装置に初期化を指示する。指示に応じて、周辺装置の初期化部が、自装置を初期化するからである。また、周辺装置の障害情報処理部が、障害の発生をホスト装置に通知後、ホスト装置から障害情報の要求がない場合、記憶部に障害情報を保存し、保存後に自装置を初期化する。そして、ホスト装置の第2の障害情報取得部が、周辺装置が初期化に成功した後、障害情報を未だ取得していなければ、周辺装置に障害情報を要求する。そして、要求に応じて、周辺装置の障害情報処理部が、障害情報を記憶部から読み込んでホスト装置に送信するからである。
 このように、本実施の形態は、情報処理システムの運用中に、周辺装置に関連する障害が発生した際に、周辺装置との通信が可能であるか否かに関わらず、周辺装置を自動で復旧させながらも、障害情報を確実に取得する。
 また、本実施の形態は、ホスト装置と、周辺装置とによって構成される。このため、本実施の形態は、特許文献2に記載された関連技術のように、ホスト装置と周辺装置との間に特別なハードウェア要素を必要とせずに、周辺装置の保守性を高めるという効果も奏している。
 (第2の実施の形態)
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
 まず、本発明の第2の実施の形態における情報処理システム2の構成を図7に示す。図7において、情報処理システム2は、周辺装置120と、ホスト装置220と、保守装置320とを有する。ここで、周辺装置120およびホスト装置220は、運用時に通信可能に接続されている。周辺装置120および保守装置320は、運用時には接続されていなくてもよく、周辺装置120に関連する障害の発生に関連して、必要に応じて接続される。
 周辺装置120は、本発明の第1の実施の形態における周辺装置100に対して、障害情報処理部103に替えて障害情報処理部123を有し、さらに保守装置接続部124を有する点が異なる。ホスト装置220は、本発明の第1の実施の形態におけるホスト装置200に対して、第2の障害情報取得部202に替えて第2の障害情報取得部222を有する点が異なる。保守装置320は、第3の障害情報取得部321を有する。
 ここで、情報処理システム2は、図8に示すようなハードウェア要素によって構成可能である。図8において、周辺装置120は、図2を参照して説明した周辺装置100と同一のハードウェア要素に加えて、周辺装置接続インタフェース1005を含んで構成される。周辺装置接続インタフェース1005は、バス91を介して保守装置320に接続するインタフェースである。また、周辺装置接続インタフェース1005は、バス92を介して記憶部101に接続される。このようなハードウェア構成において、保守装置接続部124は、バス92および周辺装置接続インタフェース1005によって構成される。なお、周辺装置接続インタフェース1005は、周辺装置接続インタフェース1004とは異なる規格の接続インタフェースであってよい。
 また、図8において、ホスト装置220は、図2を参照して説明したホスト装置200と同一のハードウェア要素によって構成される。
 また、図8において、保守装置320は、CPU3001、メモリ3002、および、周辺装置接続インタフェース3005を含む。メモリ3002は、RAM、ROM、補助記憶装置等によって構成される。周辺装置接続インタフェース3005は、バス91を介して周辺装置120の周辺装置接続インタフェース1005に接続するインタフェースである。このようなハードウェア構成において、保守装置320の機能ブロックは、メモリ3002に格納されるコンピュータ・プログラムを読み込んで実行するCPU3001によって構成される。
 なお、情報処理システム2を構成する各装置およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
 次に、周辺装置120の機能ブロックのうち、本発明の第1の実施の形態と異なる機能ブロックについて説明する。
 障害情報処理部123は、本発明の第1の実施の形態における障害情報処理部103と同様に構成されることに加えて、次のように構成される。すなわち、障害情報処理部123は、障害の発生を通知後にホスト装置220から障害情報の要求がない場合、記憶部101に障害情報を保存する際に、障害情報が未取得であることを表すフラグを併せて保存する。フラグは、障害情報がホスト装置220または保守装置320によって未取得であるか否かを表す情報である。以降、障害情報が未取得であることを表す場合に、フラグがオンであるとも記載する。また、障害情報が未取得であることを表すフラグを保存することを、フラグをオンにするとも記載する。また、障害情報が取得済みであることを表す場合に、フラグがオフであるとも記載する。また、障害情報が取得済みであることを表すフラグを保存することを、フラグをオフにするとも記載する。
 また、障害情報処理部123は、ホスト装置220の要求に応じて、記憶部101に記憶されたフラグを送信する。また、障害情報処理部123は、ホスト装置220の指示に応じて、記憶部101に記憶されたフラグをオフにする。
 また、障害情報処理部123は、記憶部101に保存した障害情報をホスト装置220から要求された場合、記憶部101から障害情報を読み込んでホスト装置220に送信する。
 保守装置接続部124は、記憶部101を保守装置320に接続する。
 次に、ホスト装置220の機能ブロックのうち、本発明の第2の実施の形態と異なる機能ブロックについて説明する。
 第2の障害情報取得部222は、本発明の第1の実施の形態における第2の障害情報取得部202と同様に構成されることに加えて、次のように構成される。すなわち、第2の障害情報取得部222は、周辺装置120が初期化されたことを検出すると、周辺装置120の記憶部101のフラグに基づいて、障害情報が未取得であるか否かを判断する。そして、第2の障害情報取得部222は、フラグがオンの場合に、周辺装置120に対して、障害情報を要求する。また、第2の障害情報取得部222は、障害情報を取得後、記憶部101のフラグをオフにするよう周辺装置120に対して指示する。
 次に、保守装置320の機能ブロックについて説明する。
 第3の障害情報取得部321は、保守装置接続部124を介して周辺装置120の記憶部101に接続されると、記憶部101から障害情報を取得する。
 ここで、典型的には、保守装置320は、周辺装置120が初期化に失敗した場合に、保守装置接続部124を介して周辺装置120の記憶部101に接続される。そして、第3の障害情報取得部321は、周辺装置120に接続されたことを検出すると、保守装置接続部124を介して記憶部101からフラグを読み出し、読み出したフラグに基づいて、障害情報が未取得であるか否かを判断する。そして、第3の障害情報取得部321は、フラグがオンの場合に、周辺装置120の記憶部101から障害情報を読み出して取得する。また、第3の障害情報取得部321は、障害情報を取得後、保守装置接続部124を介して記憶部101にアクセスし、フラグをオフにする。
 以上のように構成された情報処理システム2の動作について、図面を参照して説明する。
 まず、周辺装置120に関連する障害が発生した際の情報処理システム2の動作を図9に示す。図9において、情報処理システム2の動作は、図3を参照して説明した情報処理システム1の動作と略同様である。ただし、周辺装置120が、障害の発生をホスト装置220に通知後に、ホスト装置220から障害情報の要求がない場合に、ステップA6の代わりにステップA26を実行する点が異なる。
 すなわち、この場合、障害情報処理部123は、記憶部101に障害情報を保存することに加えて、フラグをオンにする(ステップA26)。
 その後、初期化部104は、本発明の第1の実施の形態と同様に、自装置を初期化する(ステップA7)。
 以上で、周辺装置120に関連する障害が発生した際の情報処理システム2の動作の説明を終了する。
 次に、周辺装置120が初期化に成功した後の情報処理システム2の動作を図10に示す。ここでは、周辺装置120の初期化が成功し、ホスト装置220との正常な通信が可能な状態を想定する。
 まず、ホスト装置220の第2の障害情報取得部222は、周辺装置120が初期化されたことを検出すると(ステップB11でYes)、周辺装置120に対して、フラグを要求する(ステップB21)。
 次に、周辺装置120の障害情報処理部123は、要求に応じて、記憶部101からフラグを読み込んで、ホスト装置220に対して送信する(ステップA21)。
 次に、ホスト装置220の第2の障害情報取得部222は、フラグがオンであるか否かを判断する(ステップB22)。
 ここで、フラグがオンでない場合(ステップB22でNo)、情報処理システム2は、動作を終了する。
 一方、フラグがオンである場合(ステップB22でYes)について説明する。この場合、ホスト装置220および周辺装置120は、本発明の第1の実施の形態と同様にステップB13、A11、B14を実行する。これにより、ホスト装置220は、障害情報を周辺装置120から取得する。
 次に、ホスト装置220の第2の障害情報取得部222は、周辺装置120に対して、フラグをオフにするよう指示する(ステップB25)。
 次に、周辺装置120の障害情報処理部123は、記憶部101に記憶されたフラグをオフにする(ステップA22)。
 以上で、情報処理システム2は、周辺装置120が初期化に成功した後の動作を終了する。
 次に、周辺装置120が初期化に失敗した後の情報処理システム2の動作を図11に示す。ここでは、周辺装置120が、保守装置320に接続された状態を想定する。なお、周辺装置120が保守装置320に接続されるのは、典型的には、周辺装置120の初期化が失敗してホスト装置220との通信が正常に行われなかった場合である。このような場合、例えば、周辺装置120は、ホスト装置220から取り外されて保守装置320に接続される。
 図11では、まず、保守装置320の第3の障害情報取得部321は、周辺装置120に接続されたことを検出すると(ステップC21でYes)、保守装置接続部124を介して記憶部101からフラグを取得する(ステップC22)。
 次に、第3の障害情報取得部321は、取得したフラグがオンであるか否かを判断する(ステップC23)。
 ここで、フラグがオンでない場合(ステップC23でNo)、情報処理システム2は、動作を終了する。
 一方、フラグがオンである場合(ステップC23でYes)について説明する。この場合、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101から障害情報を取得する(ステップC24)。
 次に、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101にアクセスし、フラグをオフにする(ステップC25)。
 以上で、情報処理システム2は、周辺装置120が初期化に失敗した後の動作を終了する。
 次に、情報処理システム2において、運用中に周辺装置120に関連する障害が発生した際の処理シーケンスについて、図面を参照して説明する。
 なお、周辺装置120に関連する障害が発生した際に、バス90が正常である場合の処理シーケンスは、図5を参照して説明した本発明の第1の実施の形態における情報処理システム1の処理シーケンスと同様であるため、説明を省略する。
 ここでは、まず、少なくとも周辺装置120をホスト装置220に接続するバス90に関連する障害が発生した後、周辺装置120の自動での復旧に成功する場合の処理シーケンスを図12に示す。
 図12において、情報処理システム2の処理シーケンスは、ステップA1~A3まで、図6を参照して説明した本発明の第1の実施の形態としての情報処理システム1と同様である。これにより、周辺装置120は、ホスト装置220に対して障害の発生を通知後、タイマを起動し、タイマが満了するまでに、ホスト装置220から周辺装置120に障害情報の要求がないと判断する。
 そして、周辺装置120の障害情報処理部123は、記憶部101に障害情報を保存するとともに、フラグをオンにする(ステップA26)。
 次に、初期化部104は、自装置を初期化する(ステップA7)。
 次に、ホスト装置220の第2の障害情報取得部222は、周辺装置120が初期化されると(ステップB11でYes)、周辺装置120のフラグを要求する(ステップB21)。周辺装置120からは、オンを表すフラグが送信される(ステップA21、ステップB22でYes)。
 以降、情報処理システム2の処理シーケンスは、ステップB13、A11、B14まで、図6を参照して説明した本発明の第1の実施の形態としての情報処理システム1と同様である。これにより、ホスト装置220は、障害情報を取得する。
 そして、第2の障害情報取得部222は、周辺装置120に対して、フラグをオフにするよう指示する(ステップB25)。
 次に、周辺装置120の障害情報処理部123は、フラグをオフにする(ステップA22)。
 これにより、周辺装置120は自動で復旧した上で、ホスト装置220に対して障害情報を提供することができる。
 次に、情報処理システム2において、少なくとも周辺装置120をホスト装置220に接続するバス90に関連する障害が発生した後、周辺装置120の自動での復旧に失敗する場合の処理シーケンスを図13に示す。
 図13において、情報処理システム2の処理シーケンスは、ステップA1~A3、A26、A7まで、図12を参照して説明した自動での復旧に成功する場合の処理シーケンスと同様である。これにより、周辺装置120は、障害情報およびフラグ(オン)を記憶部101に保存後、初期化を試みる。
 ここで、初期化に失敗したことを想定する。そして、周辺装置120が、保守装置320に接続されたとする。
 そこで、保守装置320の第3の障害情報取得部321は、周辺装置120が接続されると(ステップC21でYes)、保守装置接続部124を介して記憶部101からフラグを取得する(ステップC22)。このとき、取得したフラグはオンである(ステップC23でYes)。
 そこで、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101から障害情報を取得する(ステップC24)。
 そして、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101にアクセスし、フラグをオフにする(ステップC25)。
 その後、典型的には、周辺装置120は、修理されることが期待される。
 これにより、周辺装置120は、バス90が正常でなく、自動での復旧に失敗した場合も、保守装置320に対して障害情報を提供することができる。
 次に、本発明の第2の実施の形態の効果について述べる。
 本発明の第2の実施の形態としての情報処理システムは、周辺装置に関連する障害が発生した場合に、障害の復旧までに要する時間をより短縮するための自動復旧に成功する場合も失敗する場合も、障害に関する情報をより確実に取得することができる。
 その理由について説明する。本実施の形態では、本発明の第1の実施の形態と同様の構成に加えて、周辺装置が、記憶部を保守装置に接続する保守装置接続部を有するからである。そして、保守装置が、初期化に失敗した周辺装置の記憶部に保守装置接続部を介して接続されると、第3の障害情報取得部が、記憶部から障害情報を取得するからである。
 また、さらなる理由について説明する。本実施の形態では、周辺装置の障害情報処理部は、記憶部に障害情報を保存する際に、障害情報が未取得であることを表すフラグを併せて保存する。そして、ホスト装置の第2の障害情報取得部、または、保守装置の第3の障害情報取得部が、周辺装置から障害情報を取得する処理を、フラグに基づき障害情報が未取得であると判断した場合に実行するからである。
 このように、本実施の形態は、情報処理システムの運用中に、周辺装置に関連する障害が発生した際に、周辺装置の自動での復旧が成功するか失敗するかに関わらず、ホスト装置または保守装置によって、障害情報を確実に取得することができる。
 (第3の実施の形態)
 次に、本発明の実施の形態の最小構成の周辺装置10について、図面を参照して説明する。まず、周辺装置10の機能ブロック構成を図14に示す。図14において、周辺装置10は、記憶部11と、障害検出部12と、障害情報処理部13と、初期化部14とを有する。周辺装置10は、ホスト装置に接続されている。
 記憶部11は、情報を記憶する。
 障害検出部12は、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する。
 障害情報処理部13は、障害の発生の通知後に、ホスト装置から障害情報を要求された場合、障害情報をホスト装置に送信する。
 また、障害情報処理部13は、障害の発生を通知後に、ホスト装置から障害情報の要求がない場合、記憶部11に障害情報を保存する。
 また、障害情報処理部13は、記憶部11に保存した障害情報をホスト装置から要求された場合、記憶部11から障害情報を読み込んでホスト装置に送信する。
 初期化部14は、ホスト装置に障害情報を送信後に、ホスト装置から初期化を指示された場合、指示に応じて自装置を初期化する。また、初期化部14は、障害情報が記憶部11に保存された場合、保存後に自装置を初期化する。
 以上のように構成された周辺装置10の動作について、図面を参照して説明する。
 まず、自装置に関連する障害が発生した際の周辺装置10の動作を図15に示す。
 まず、障害検出部12は、自装置に関連する障害を検出した場合(ステップA101でYes)、障害の発生をホスト装置に通知する(ステップA102)。
 次に、障害情報処理部13は、ホスト装置から障害情報の要求を受信したか否かを判断する(ステップA103)。
 ここで、障害情報の要求を受信した場合(ステップA103でYes)、障害情報処理部13は、障害情報をホスト装置に送信する(ステップA104)。
 そして、初期化部14は、ホスト装置からの指示に応じて、自装置を初期化する(ステップA105)。
 一方、障害情報の要求を受信しなかった場合(ステップA103でNo)、障害情報処理部13は、障害情報を記憶部11に記憶する(ステップA106)。
 そして、初期化部14は、自装置を初期化する(ステップA107)。
 以上で、周辺装置10は、自装置に関連する障害が発生した際の動作を終了する。
 次に、周辺装置10が初期化された後の動作を図16に示す。
 ここでは、障害情報処理部13は、ホスト装置から障害情報の要求を受信すると、記憶部11から障害情報を読み込んでホスト装置に送信する(ステップA111)。
 以上で、周辺装置10は、初期化された後の動作を終了する。
 次に、本発明の第3の実施の形態の効果について述べる。
 本発明の第3の実施の形態としての周辺装置は、自装置に関連する障害が発生した場合に、障害に関する情報をより確実に外部に提供しながら、障害の復旧までに要する時間をより短縮することができる。
 その理由について説明する。本実施の形態の周辺装置では、障害検出部が、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する。そして、通知先のホスト装置から障害情報の要求があった場合、障害情報処理部が、障害情報をホスト装置に送信する。そして、初期化部が、ホスト装置の指示に応じて、自装置を初期化する。また、障害の発生をホスト装置に通知後、通知先のホスト装置から障害情報の要求がない場合、障害情報処理部が、記憶部に障害情報を保存し、保存後に自装置を初期化する。そして、障害情報処理部が、ホスト装置から障害情報を要求された場合、記憶部から障害情報を読み込んでホスト装置に送信するからである。
 このように、本実施の形態の周辺装置は、自装置に関連する障害が発生した際に、ホスト装置との通信が可能であるか否かに関わらず、障害情報をより確実に外部に提供するとともに自装置を初期化により復旧する。
 (第4の実施の形態)
 次に、本発明の実施の形態の最小構成のホスト装置20について、図面を参照して説明する。まず、ホスト装置20の機能ブロック構成を図17に示す。図17において、ホスト装置20は、第1の障害情報取得部21と、第2の障害情報取得部22とを有する。また、ホスト装置20は、周辺装置に接続される。
 第1の障害情報取得部21は、周辺装置から障害の発生を通知された場合、周辺装置に対して障害情報を要求する。また、第1の障害情報取得部21は、障害情報の取得後に、周辺装置に対して初期化を指示する。
 第2の障害情報取得部22は、周辺装置が初期化に成功した場合、未だ障害情報を取得していなければ、周辺装置に対して障害情報を要求して障害情報を取得する。
 以上のように構成されたホスト装置20の動作について、図面を参照して説明する。
 まず、周辺装置から障害の発生を通知された際のホスト装置20の動作を図18に示す。
 まず、第1の障害情報取得部21は、障害の発生の通知を受信すると、周辺装置に対して障害情報を要求する(ステップB101)。
 次に、第1の障害情報取得部21は、周辺装置から送信された障害情報を取得する(ステップB102)。
 次に、第1の障害情報取得部21は、周辺装置に対して初期化を指示する(ステップB103)。
 以上で、ホスト装置20は、周辺装置から障害の発生を通知された際の動作を終了する。
 次に、周辺装置が初期化された際のホスト装置20の動作を図19に示す。
 まず、第2の障害情報取得部22は、周辺装置が初期化されたことを検出すると(ステップB111でYes)、障害情報を既に取得しているか否かを判断する(ステップB112)。
 ここで、障害情報を既に取得している場合(ステップB112でYes)、ホスト装置20は、動作を終了する。
 一方、障害情報を未だ取得していない場合(ステップB112でNo)、第2の障害情報取得部22は、周辺装置に対して障害情報を要求する(ステップB113)。
 次に、第2の障害情報取得部22は、周辺装置から送信された障害情報を取得する(ステップB114)。
 以上で、ホスト装置20は、周辺装置が初期化された際の動作を終了する。
 次に、本発明の第4の実施の形態の効果について述べる。
 本発明の第4の実施の形態としてのホスト装置は、周辺装置に関連する障害が発生した場合に、障害に関する情報をより確実に取得しながら、障害の復旧までに要する時間をより短縮することができる。
 その理由について説明する。本実施の形態のホスト装置では、第1の障害情報取得部が、周辺装置から障害の発生を通知されると、周辺装置に対して障害情報を要求する。そして、第1の障害情報取得部が、障害情報の取得後に、周辺装置に初期化を指示する。また、第2の障害情報取得部が、周辺装置の初期化を検出した場合、障害情報を未だ取得していなければ、周辺装置に障害情報を要求して取得するからである。
 このように、本実施の形態のホスト装置は、周辺装置の運用中に周辺装置に関連する障害が発生した際に、周辺装置との通信が可能であるか否かに関わらず、周辺装置を自動で復旧させながらも、障害情報を取得することができる。
 (第5の実施の形態)
 次に、本発明の実施の形態の最小構成の保守装置30について、図面を参照して詳細に説明する。まず、保守装置30の機能ブロック構成を図20に示す。図20において、保守装置30は、第3の障害情報取得部31を有する。また、保守装置30は、周辺装置に備えられた保守装置接続部を介して、周辺装置の記憶部に接続可能となっている。
 第3の障害情報取得部31は、保守装置接続部を介して、周辺装置の記憶部から障害情報を取得する。
 以上のように構成された保守装置30の動作を図21に示す。
 図21では、まず、第3の障害情報取得部31は、保守装置接続部を介して周辺装置の記憶部に接続されたことを検出すると(ステップC101でYes)、周辺装置の記憶部から障害情報を取得する(ステップC102)。
 なお、周辺装置が保守装置30に接続されるのは、典型的には、周辺装置に関連する障害が発生後、周辺装置の初期化が失敗した場合である。このような場合、例えば、周辺装置は、ホスト装置から取り外されて保守装置30に接続される。
 以上で、保守装置30は、動作を終了する。
 次に、本発明の第5の実施の形態の効果について述べる。
 本発明の第5の実施の形態としての保守装置は、障害が発生した後に自動での復旧に失敗した周辺装置から、障害に関する情報を確実に取得することができる。
 その理由について説明する。本実施の形態では、第3の障害情報取得部が、初期化に失敗した周辺装置に備えられた保守装置接続部に接続されると、保守装置接続部を介して周辺装置の記憶部から障害情報を取得するからである。
 なお、上述した本発明の第1の実施の形態において、周辺装置が、PCIバスによりホスト装置に接続されるPCIデバイスである例について説明した。ただし、本発明の各実施の形態において、周辺装置をホスト装置に接続する規格は、これに限定されない。
 また、上述した本発明の第1の実施の形態において、周辺装置が、GPGPUを搭載した装置である例について説明した。ただし、本発明の各実施の形態において、周辺装置に搭載されるプロセッサは、GPGPUに限定されない。例えば、周辺装置は、ネットワークコントローラやサウンドコントローラ等を搭載した装置であってもよい。
 また、上述した本発明の第2および第5の実施の形態において、保守装置は、運用中に障害が発生して自動での復旧に失敗した周辺装置に接続される例について説明した。これに限らず、保守装置は、その他の状態の周辺装置に接続されてもよい。
 また、上述した本発明の第3の実施の形態では、ホスト装置の第2の障害情報取得部および保守装置の第3の障害情報取得部が、周辺装置の記憶部に障害情報と共に記憶されたフラグに基づいて、障害情報を未取得であるか否かを判断する例について説明した。これに限らず、本発明の各実施の形態において、第2および第3の障害情報取得部は、その他の情報を用いて障害情報を未取得であるか否かを判断してもよい。例えば、第2および第3の障害情報取得部は、自装置に障害情報が保存済みであるか否かに基づいて、障害情報を未取得であるか否かを判断してもよい。
 また、上述した本発明の各実施の形態において、各機能ブロックが、メモリに記憶されたコンピュータ・プログラムを実行するプロセッサによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせが専用のハードウェアにより実現されていてもよい。
 また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した各装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納しておく。そして、係るコンピュータ・プログラムをプロセッサが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
 また、上述した本発明の各実施の形態は、適宜組み合わせて実施されることが可能である。
 また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
 また、上述した各実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 情報を記憶する記憶手段と、
 自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知する障害検出手段と、
 前記障害の発生の通知後に、前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、前記ホスト装置から前記障害情報の要求がない場合、前記記憶手段に前記障害情報を保存し、保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する障害情報処理手段と、
 前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、前記障害情報が前記記憶手段に保存された場合、前記保存後に自装置を初期化する初期化手段と、
 を備えた周辺装置。
(付記2)
 前記記憶手段を保守装置に接続する保守装置接続手段をさらに備えることを特徴とする付記1に記載の周辺装置。
(付記3)
 付記1または付記2に記載の周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得手段と、
 前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得手段と、
 を備えたホスト装置。
(付記4)
 付記2に記載の周辺装置の前記記憶手段に前記保守装置接続手段を介して接続されると、前記障害情報を前記記憶手段から読み込んで取得する第3の障害情報取得手段を備えた保守装置。
(付記5)
 付記1または付記2に記載の周辺装置と、
 付記3に記載のホスト装置と、
 を備えた情報処理システム。
(付記6)
 付記2に記載の周辺装置と、
 付記3に記載のホスト装置と、
 付記4に記載の保守装置と、
 を備えた情報処理システム。
(付記7)
 前記障害情報処理手段は、前記記憶手段に前記障害情報を保存する際に、前記障害情報が未取得であることを表すフラグを併せて保存することを特徴とする付記1または付記2に記載の周辺装置。
(付記8)
 前記第2の障害情報取得手段は、付記7に記載の周辺装置から前記障害情報を取得する処理を、前記フラグに基づき前記障害情報が未取得であると判断した場合に実行することを特徴とする付記3に記載のホスト装置。
(付記9)
 前記第3の障害情報取得手段は、付記2に従属する付記7に記載の周辺装置から前記障害情報を取得する処理を、前記フラグに基づき前記障害情報が未取得であると判断した場合に実行することを特徴とする付記4に記載の保守装置。
(付記10)
 周辺装置が、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
 前記ホスト装置が、前記障害の発生の通知に応じて、前記周辺装置に対して前記障害に関する障害情報を要求し、
 前記周辺装置が、前記要求に応じて、前記障害情報を前記ホスト装置に送信し、
 前記ホスト装置が、前記障害情報の取得後に前記周辺装置に初期化を指示し、
 前記周辺装置が、前記初期化の指示に応じて自装置を初期化し、
 前記周辺装置が、前記障害の発生を前記ホスト装置に通知後、前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
 前記ホスト装置が、前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に前記障害情報を要求し、
 前記周辺装置が、前記要求に応じて、前記障害情報を前記記憶手段から読み込んで前記ホスト装置に送信する方法。
(付記11)
 前記周辺装置が、前記記憶手段に前記障害情報を保存後に自装置を初期化して初期化に失敗した場合、
 保守装置が、前記周辺装置に備えられた保守装置接続手段を介して前記記憶手段に接続されると、前記障害情報を前記記憶手段から読み込んで取得する付記10に記載の方法。
(付記12)
 周辺装置が、
 自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
 前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、
 前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、
 前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
 保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する方法。
(付記13)
 自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知する処理と、
 前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信する処理と、
 前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化する処理と、
 前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化する処理と、
 保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する処理と、
 を周辺装置に実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
(付記14)
 付記13に記載の記録媒体に記録されたプログラムを実行する周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得処理と、
 前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得処理と、
 をホスト装置に実行させるプログラムをコンピュータ読み取り可能に記録した記録媒体。
(付記15)
 付記13に記載の記録媒体に記録されたプログラムを実行する周辺装置の前記記憶手段に、前記周辺装置に備えられた保守装置接続手段を介して接続されると、前記障害情報を前記記憶手段から読み込んで取得する第3の障害情報取得処理を保守装置に実行させるプログラムをコンピュータ読み取り可能に記録した記録媒体。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 この出願は、2016年12月13日に出願された日本出願特願2016-240864を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1、2  情報処理システム
 10、100、120  周辺装置
 11、101  記憶部
 12、102  障害検出部
 13、103、123  障害情報処理部
 14、104  初期化部
 124  保守装置接続部
 20、200、220  ホスト装置
 21、201  第1の障害情報取得部
 22、202、222  第2の障害情報取得部
 30、320  保守装置
 31、321  第3の障害情報取得部
 90、91、92  バス
 1001  プロセッサ
 1002  マイクロコントローラ
 1003  不揮発性メモリ
 1004、1005  周辺装置接続インタフェース
 1005  周辺装置接続インタフェース
 2001、3001  CPU
 2002、3002  メモリ
 2004、3005  周辺装置接続インタフェース

Claims (15)

  1.  情報を記憶する記憶手段と、
     自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知する障害検出手段と、
     前記障害の発生の通知後に、前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、前記ホスト装置から前記障害情報の要求がない場合、前記記憶手段に前記障害情報を保存し、保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する障害情報処理手段と、
     前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、前記障害情報が前記記憶手段に保存された場合、前記保存後に自装置を初期化する初期化手段と、
     を備えた周辺装置。
  2.  前記記憶手段を保守装置に接続する保守装置接続手段をさらに備えることを特徴とする請求項1に記載の周辺装置。
  3.  請求項1または請求項2に記載の周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得手段と、
     前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得手段と、
     を備えたホスト装置。
  4.  請求項2に記載の周辺装置の前記記憶手段に前記保守装置接続手段を介して接続されると、前記障害情報を前記記憶手段から読み込んで取得する第3の障害情報取得手段を備えた保守装置。
  5.  請求項1または請求項2に記載の周辺装置と、
     請求項3に記載のホスト装置と、
     を備えた情報処理システム。
  6.  請求項2に記載の周辺装置と、
     請求項3に記載のホスト装置と、
     請求項4に記載の保守装置と、
     を備えた情報処理システム。
  7.  前記障害情報処理手段は、前記記憶手段に前記障害情報を保存する際に、前記障害情報が未取得であることを表すフラグを併せて保存することを特徴とする請求項1または請求項2に記載の周辺装置。
  8.  前記第2の障害情報取得手段は、請求項7に記載の周辺装置から前記障害情報を取得する処理を、前記フラグに基づき前記障害情報が未取得であると判断した場合に実行することを特徴とする請求項3に記載のホスト装置。
  9.  前記第3の障害情報取得手段は、請求項2に従属する請求項7に記載の周辺装置から前記障害情報を取得する処理を、前記フラグに基づき前記障害情報が未取得であると判断した場合に実行することを特徴とする請求項4に記載の保守装置。
  10.  周辺装置が、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
     前記ホスト装置が、前記障害の発生の通知に応じて、前記周辺装置に対して前記障害に関する障害情報を要求し、
     前記周辺装置が、前記要求に応じて、前記障害情報を前記ホスト装置に送信し、
     前記ホスト装置が、前記障害情報の取得後に前記周辺装置に初期化を指示し、
     前記周辺装置が、前記初期化の指示に応じて自装置を初期化し、
     前記周辺装置が、前記障害の発生を前記ホスト装置に通知後、前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
     前記ホスト装置が、前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に前記障害情報を要求し、
     前記周辺装置が、前記要求に応じて、前記障害情報を前記記憶手段から読み込んで前記ホスト装置に送信する方法。
  11.  前記周辺装置が、前記記憶手段に前記障害情報を保存後に自装置を初期化して初期化に失敗した場合、
     保守装置が、前記周辺装置に備えられた保守装置接続手段を介して前記記憶手段に接続されると、前記障害情報を前記記憶手段から読み込んで取得する請求項10に記載の方法。
  12.  周辺装置が、
     自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
     前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、
     前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、
     前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
     保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する方法。
  13.  自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知する処理と、
     前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信する処理と、
     前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化する処理と、
     前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化する処理と、
     保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する処理と、
     を周辺装置に実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
  14.  請求項13に記載の記録媒体に記録されたプログラムを実行する周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得処理と、
     前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得処理と、
     をホスト装置に実行させるプログラムをコンピュータ読み取り可能に記録した記録媒体。
  15.  請求項13に記載の記録媒体に記録されたプログラムを実行する周辺装置の前記記憶手段に、前記周辺装置に備えられた保守装置接続手段を介して接続されると、前記障害情報を前記記憶手段から読み込んで取得する第3の障害情報取得処理を
     保守装置に実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
PCT/JP2017/044195 2016-12-13 2017-12-08 周辺装置、ホスト装置、保守装置、情報処理システム、方法および記録媒体 WO2018110452A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/463,890 US11461157B2 (en) 2016-12-13 2017-12-08 Peripheral device, method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016240864A JP6737701B2 (ja) 2016-12-13 2016-12-13 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム
JP2016-240864 2016-12-13

Publications (1)

Publication Number Publication Date
WO2018110452A1 true WO2018110452A1 (ja) 2018-06-21

Family

ID=62558710

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/044195 WO2018110452A1 (ja) 2016-12-13 2017-12-08 周辺装置、ホスト装置、保守装置、情報処理システム、方法および記録媒体

Country Status (3)

Country Link
US (1) US11461157B2 (ja)
JP (1) JP6737701B2 (ja)
WO (1) WO2018110452A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147828A (ja) * 1999-11-24 2001-05-29 Nec Corp 二重化構成装置の制御方式と制御方法
JP2002229816A (ja) * 2001-01-31 2002-08-16 Fujitsu Ltd 障害情報取得システム
JP2007207014A (ja) * 2006-02-02 2007-08-16 Nec Corp 電子装置および保守情報の採取方法
JP2012168907A (ja) * 2011-02-17 2012-09-06 Nec Corp 相互監視システム
JP2014146197A (ja) * 2013-01-29 2014-08-14 Mitsubishi Heavy Ind Ltd システム管理装置およびシステム
JP2016095692A (ja) * 2014-11-14 2016-05-26 京セラドキュメントソリューションズ株式会社 障害管理システム、障害管理サーバー、および障害管理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04649A (ja) * 1990-04-18 1992-01-06 Nec Corp リモートチャネル装置の障害情報転送方式
JP3208885B2 (ja) * 1993-01-11 2001-09-17 富士ゼロックス株式会社 障害監視システム
JP3107521B2 (ja) * 1996-11-28 2000-11-13 株式会社日立製作所 プリンタ制御装置
JP2002024071A (ja) * 2000-07-07 2002-01-25 Toshiba Corp 情報処理装置、データバックアップ方法、データバックアッププログラムが記憶された記憶媒体
US8108737B2 (en) * 2009-10-05 2012-01-31 Sandforce, Inc. System, method, and computer program product for sending failure information from a serial ATA (SATA) solid state drive (SSD) to a host device
JP2012069032A (ja) * 2010-09-27 2012-04-05 Hitachi Cable Ltd 情報処理装置
JP2014048782A (ja) 2012-08-30 2014-03-17 Fujitsu Ltd 情報処理装置、及び情報処理装置の障害処理方法
JP2014182676A (ja) 2013-03-21 2014-09-29 Nec Corp ログ採取装置、演算装置、およびログ採取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147828A (ja) * 1999-11-24 2001-05-29 Nec Corp 二重化構成装置の制御方式と制御方法
JP2002229816A (ja) * 2001-01-31 2002-08-16 Fujitsu Ltd 障害情報取得システム
JP2007207014A (ja) * 2006-02-02 2007-08-16 Nec Corp 電子装置および保守情報の採取方法
JP2012168907A (ja) * 2011-02-17 2012-09-06 Nec Corp 相互監視システム
JP2014146197A (ja) * 2013-01-29 2014-08-14 Mitsubishi Heavy Ind Ltd システム管理装置およびシステム
JP2016095692A (ja) * 2014-11-14 2016-05-26 京セラドキュメントソリューションズ株式会社 障害管理システム、障害管理サーバー、および障害管理プログラム

Also Published As

Publication number Publication date
JP2018097558A (ja) 2018-06-21
US20190324839A1 (en) 2019-10-24
JP6737701B2 (ja) 2020-08-12
US11461157B2 (en) 2022-10-04

Similar Documents

Publication Publication Date Title
KR101539878B1 (ko) 컴퓨터 시스템, pci 익스프레스 엔드포인트 디바이스에 액세스하는 방법 및 장치
JP2006195821A (ja) 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム
JP2008305317A (ja) マルチプロセッサシステム及びその制御方法
US20120290884A1 (en) Information processing apparatus that detects startup error, method of controlling the same, and storage medium
JP6599725B2 (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
US8156386B2 (en) Information processing apparatus, and method and computer program for controlling same, for detecting certain failures
JP4646859B2 (ja) Usb機器、およびusb接続システム
US9432545B2 (en) Information processing apparatus, method of controlling the same, and storage medium for controlling transition to a sleep mode and setting of an interrupt setting in accordance with reception of data
JP2006285384A (ja) プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
JP5034979B2 (ja) 起動装置、起動方法、及び、起動プログラム
CN115904793B (zh) 一种基于多核异构系统的内存转存方法、系统及芯片
WO2018110452A1 (ja) 周辺装置、ホスト装置、保守装置、情報処理システム、方法および記録媒体
KR102030461B1 (ko) 복수의 프로세서 오류 감지 시스템 및 그 방법
JP6357879B2 (ja) システムおよび障害処理方法
JP4572138B2 (ja) サーバ装置、サーバシステム、及びサーバシステムでの系切り換え方法
CN116266150A (zh) 一种业务恢复方法、数据处理单元及相关设备
JP4633553B2 (ja) デバッグシステム、デバッグ方法およびプログラム
JP7303083B2 (ja) 動作監視装置、動作監視方法、動作監視プログラム及び動作監視システム
JP5437848B2 (ja) 監視システム
JP2020112903A (ja) 動作検証プログラム、動作同期方法及び異常検出装置
JP2019164578A (ja) 制御システム、情報処理装置、制御方法、raidコントローラの復旧方法及びプログラム。
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
JP5748122B2 (ja) プラント制御装置
JP7211173B2 (ja) 通信制御装置、電子機器装置、通信制御方法、及び通信制御プログラム
JP2023145216A (ja) 通信制御装置および通信方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17882038

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17882038

Country of ref document: EP

Kind code of ref document: A1