WO2012063358A1 - エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム - Google Patents

エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム Download PDF

Info

Publication number
WO2012063358A1
WO2012063358A1 PCT/JP2010/070193 JP2010070193W WO2012063358A1 WO 2012063358 A1 WO2012063358 A1 WO 2012063358A1 JP 2010070193 W JP2010070193 W JP 2010070193W WO 2012063358 A1 WO2012063358 A1 WO 2012063358A1
Authority
WO
WIPO (PCT)
Prior art keywords
error
location
interrupt
suspected
unit
Prior art date
Application number
PCT/JP2010/070193
Other languages
English (en)
French (fr)
Inventor
公裕 西山
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2010/070193 priority Critical patent/WO2012063358A1/ja
Priority to JP2012542776A priority patent/JP5532143B2/ja
Publication of WO2012063358A1 publication Critical patent/WO2012063358A1/ja
Priority to US13/886,354 priority patent/US9141463B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Definitions

  • This case relates to an error location identification method and an error location identification device in an information processing apparatus.
  • the present case also relates to an error location specifying program for realizing the method and apparatus.
  • Information processing apparatuses generally include a central processing unit (hereinafter referred to as “CPU”).
  • CPUs have a function of shifting to a system management mode (System Management Mode, hereinafter referred to as “SMM”), which is one of the CPU operation modes, by a type of interrupt called System Management Interrupt (hereinafter referred to as “SMI”).
  • SMM System Management Mode
  • SMI System Management Interrupt
  • An example of a CPU that migrates to SMM is Intel's x86 architecture.
  • the SMI handler is an independent address space in the memory space, and is a program that processes the SMI in a system management random access memory (hereinafter referred to as “SMRAM”) space that cannot be accessed from other operation modes. .
  • SMRAM system management random access memory
  • PCI Express is a standard for an I / O serial interface.
  • PCIe devices ports
  • PCIe link More specifically, a PCIe root port that is present in the chipset and serves as a starting point for a connection configuration, a PCIe switch that routes packets between PCIe ports, and an endpoint such as a PCIe card located at the end are connected to the PCIe. They are connected to each other via a link.
  • FIG. 12 schematically shows an example of PCIe connection.
  • the upstream device 101 and the downstream device 102 close to the root port (or CPU) are connected to a physical transmission line (hereinafter referred to as “transmission line”) such as a cable, a connector, and a wiring. ) 103.
  • transmission line such as a cable, a connector, and a wiring.
  • link down identifying the location causing the error (suspected location) is called “fault location processing”.
  • the suspected place is one of the three places of the upstream device 101, the downstream device 102, and the transmission path 103.
  • the suspicious part at the time of failure occurrence is specified by analyzing the contents of the status registers 104 and 105 provided in the devices 101 and 102, respectively.
  • the status register 105 of the device 102 on the downstream side of the link down cannot be acquired.
  • the link-down suspected part is identified by, for example, reproducing a failure after attaching a dedicated device to the information processing apparatus. For this reason, at the site where the information processing apparatus is operating, it is impossible to immediately identify the suspected place of link down.
  • the downstream device 102 is a PCIe device or a PCIe card connected by a cable, the replacement is often easier than the upstream device 101.
  • the downstream device 102 can be easily exchanged, the conventional fault location processing treats the suspected place when the link down occurs as the downstream device.
  • the technical staff has been informed of the possibility that the suspected part may be another upstream device or a transmission line by using a procedure manual or the like.
  • a method for identifying an error location in an information processing apparatus having a plurality of devices connected by a transmission path determines whether the interrupt is a periodic interrupt or an error interrupt when an interrupt occurs.
  • periodic interrupts each error history information of each device is stored, and in the case of error interrupts, the stored error history information of each device is analyzed to identify the suspected error location. To do.
  • the error location identifying device of the information processing apparatus having a plurality of devices connected by a transmission path includes an interrupt determination unit that determines whether the interrupt is a periodic interrupt or an error interrupt when an interrupt occurs.
  • an interrupt determination unit that determines whether the interrupt is a periodic interrupt or an error interrupt when an interrupt occurs.
  • an error storage unit that stores the history information of each error of each device, and in the case of an error interrupt, the history information of each device error stored in the error storage unit
  • An error location identifying unit that analyzes and identifies the suspected location of the error.
  • the error location specifying program of the information processing apparatus having a plurality of devices connected by a transmission path is a periodic interrupt or an error interrupt when an interrupt occurs when the program is executed by a computer.
  • An interrupt determination unit for determining whether or not an error storage unit stores the history information of each error of each device in the case of a periodic interrupt, and each of the error storage units stored in the error storage unit in the case of an error interrupt.
  • the computer is caused to function as an error location identifying unit that analyzes the history information of device errors and identifies a suspected location of the error.
  • FIG. 1 is a block diagram illustrating a functional configuration of a fault location processing unit 13 as an example of an embodiment
  • FIG. 2 illustrates information processing in which an error location specifying method and an error location specifying device as an example of an embodiment are implemented.
  • 2 is a block diagram illustrating a hardware configuration of the device 1.
  • the information processing apparatus 1 includes a CPU 2, a memory 3, a chip set 4, a ROM 5, an input device 6, and an output device 7.
  • the chip set 4 is composed of a plurality of chips on which a bus bridge and peripheral circuits are integrated.
  • the CPU 2, the memory 3, the chip set 4, the ROM 5, the input device 6, and the output device 7 are connected to each other through this chip set.
  • the chip set 4 has a function of causing the CPU 2 to generate an SMI (error SMI) when a PCIe unrecoverable error occurs, and also has a function of causing the CPU 2 to generate an SMI at regular intervals (periodic SMI). Further, the chip set 4 registers identification information in the register.
  • the ROM 5 stores various programs that are executed by the information processing apparatus 1.
  • One such program is the BIOS 9 which is a program for performing the lowest level input / output with the hardware.
  • the CPU 2 uses the memory 3 to execute programs such as the BIOS 9 stored in the ROM 5 when the information processing apparatus 1 is activated.
  • the CPU 2 is a processing device that performs various calculations and controls.
  • the CPU 2 has a function of shifting to SMM by SMI.
  • the SMM is, for example, one of the operation modes of the CPU 2 introduced in the Intel x86 architecture.
  • the CPU 2 receives the SMI, it shifts to the SMM mode.
  • the CPU 2 executes the SMI handler 10.
  • the SMI handler 10 is a program that processes the SMI in the SMRAM space, which is an independent address space in the memory space that cannot be accessed from other operation modes. When the SMI processing is completed, the CPU 2 returns to the mode before the SMM transition.
  • the PCIe root port 17 the PCIe switches 14 and 15, and the end point 16 are connected via a PCIe link.
  • two PCIe switches 14 are connected to the chipset 4, and two switches 15 are connected to each PCIe switch 14, thereby forming a tree-like multistage configuration with the chipset 4 as a vertex.
  • the PCIe root port 17 exists in the chipset 4, and the chipset 4 includes one or more root ports 17 serving as a starting point of the configuration.
  • the PCIe switches 14 and 15 include one or more ports 18 that route packets between PCIe ports.
  • the end point 16 is a PCIe card or the like located at the end, and includes a port 19. Port 17 and port 18, port 18 and port 18, port 18 and port 19 are connected to each other.
  • the switches 14 and 15 are connected in two stages, but the number of connection stages of the switches is not limited to two, and may be one or three or more.
  • the root port 17, port 18, port 19, etc. which are PCIe devices (hereinafter also referred to as “devices”) have a configuration space (memory space) for each function of the device, and these memory spaces are software such as the BIOS 9. Used to access PCIe functions.
  • an unrecoverable error status register (uncorrectable error status register, hereinafter referred to as “UESR”) 41 (see FIG. 3) indicating a non-recoverable error state or a recoverable error status register indicating a recoverable error state.
  • UESR unrecoverable error status register
  • CESR recoverable error status register
  • FIG. 3 is a diagram illustrating an example of the UESR 41
  • FIG. 4 is a diagram illustrating an example of the CESR 42.
  • the formats of these UESR 41 and CESR 42 are defined in the PCIe standard.
  • FIG. 2 also shows a diagram schematically showing a part of the memory space 8 of the memory 3.
  • the memory space 8 has an SMRAM 11, and the SMRAM 11 has an SMI handler 12 loaded from the BIOS 9.
  • the SMI handler 12 has a fault location program (an example of an error location specifying program) 20.
  • a fault location processing unit (an example of an error location identifying device) 13 is realized in the information processing apparatus 1.
  • FIG. 1 is a block diagram illustrating a functional configuration of the fault location processing unit 13 in the information processing apparatus 1 as an example of the embodiment.
  • the fault location processing unit 13 of the present disclosure includes an SMI factor determination unit (an example of an interrupt determination unit) 21, a periodic SMI processing unit 22, and an error SMI processing unit (an example of an error location specifying unit) 26.
  • the SMI factor determination unit 21 determines whether the SMI generation factor is a periodic SMI or an SMI associated with a PCI Express (hereinafter, “PCIe”) device error. At that time, the SMI factor determination unit 21 refers to the chip set register to determine whether the generated SMI is a periodic SMI or an SMI associated with a PCIe device error.
  • PCIe PCI Express
  • the occurrence of periodic SMI is determined by the PERIODIC_STS bit of bit 14 of the SMI Status Register of PMBASE + 34h. Then, the SMI factor determination unit 21 calls the periodic SMI processing unit 22 in the case of a periodic SMI, and calls the error SMI processing unit 26 in the case of a PCIe device error.
  • the periodic SMI processing unit 22 reads the values of the CESR 42 of all PCIe devices connected to the information processing apparatus 1 at the time of the periodic SMI, saves them in the CESR saving unit 31, and then clears each CESR 42 To do.
  • the periodic SMI processing unit 22 includes a CESR read processing unit 23, a CESR save processing unit 24, and a CESR clear processing unit 25.
  • the CESR read processing unit 23 reads the value of the CESR 42 of each of all PCIe devices connected to the information processing apparatus 1 for each periodic SMI.
  • the CESR save processing unit 24 stores the value of the CESR 42 of each device read by the CESR read processing unit 23 in the CESR save unit 31 described later.
  • the CESR clear processing unit 25 clears the recoverable error state set in each bit of the CESR 42. By clearing the recoverable error state, it is possible to determine whether the recoverable error state has occurred again during the subsequent periodic SMI.
  • the error SMI processing unit 26 reads the UESR 41 at the time of the error SMI, determines that the link is down, reads the value of CESR saved in the CESR saving unit 31, and refers to the analysis information storage unit 32 to be described later to identify the suspected part. Identify and point out errors.
  • the error SMI processing unit 26 includes a UESR read processing unit 27, a link down detection processing unit 28, a link down suspected place identification processing unit 29, and an error indication processing unit 30.
  • the UESR read processing unit 27 reads the value of the UESR 41 of the PCIe device.
  • the link down detection processing unit 28 determines whether a link down has occurred based on the UESR read by the UESR read processing unit 27. For example, when the status bit 5 “Surprise Down Error Status” of the UESR 41 shown in FIG. 3 is set to 1, it is determined that a link down has occurred.
  • the link down suspected place identification processing unit 29 counts the number of occurrences of recoverable error states for each of the link down suspected place candidates (upstream device, downstream device or transmission path) when link down occurs. Thus, error detection count information 35 described later with reference to FIG. 9 is created. At that time, the link down suspected place identification processing unit 29 receives the values of the CESR 41 of the upstream device and the downstream device of the link down occurrence portion saved in the CESR saving unit 31, and the suspicious classification definition information in the analysis information storage unit 32 described later. 34 is used.
  • the device closer to the CPU 2 (or the root port 17) is referred to as an “upstream device” and is connected to the upstream device by the transmission path, and the CPU 2 (or the root port 17).
  • a device far from the device is referred to as a “downstream device”.
  • the upstream device is the root port 17
  • the downstream device is the port 18, and the transmission path is between the root port 17 and the port 18. Refers to the connected transmission line.
  • the link-down suspected place identification processing unit 29 compares the count values of the suspected place candidates in the error detection count information 35, and determines that the candidate is the suspected place when there is only one candidate with the largest count value. To do. On the other hand, when there are a plurality of candidates having the maximum count value, the candidate having the highest priority in the suspicious priority order definition information 36 described later with reference to FIG.
  • the link-down suspicious spot identification processing unit 29 determines that the transmission path is the suspicious spot. To do. Details of the processing of the link-down suspected place identification processing unit 29 will be described later with reference to FIG.
  • the error indication processing unit 30 outputs the link-down suspected location specified by the link-down suspected location specifying processing unit 29 to the display device 38 based on error indication format information 37 described later. Further, in the information processing apparatus 1 of FIG. 2, by executing the fault location program 20, a CESR saving unit 31 (an example of an error storage unit) and an analysis information storage unit 32 used by the fault location processing unit 13 are provided. And secured in an area in a data storage device such as a memory or a hard disk (not shown).
  • the CESR saving unit 31 is an area in a data storage device such as a memory such as the memory 3 shown in FIG. 1 or a hard disk (not shown), and the value of CESR is saved as a saving CESR 43.
  • the CESR saving unit 31 has a plurality of generations t0, t1, t2,..., Tn (n is 2 or more) for each period SMI for each of the PCIe devices d1, d2, d3, ..., dm (m is an integer of 2 or more). (Integer) save CESR 43 is stored.
  • the saved CESRs 43 for the subsequent three generations are stored in the CESR saving unit 31.
  • the save CESR 43 of the CESR save unit 31 is overwritten by the new save CESR 43 in order from the oldest.
  • the generation interval of the periodic SMI and the number of generations (n) of the saved CESRs 43 to be stored can be changed as appropriate.
  • the analysis information storage unit 32 is also an area in a data storage device such as a memory such as the memory 3 shown in FIG. 1 or a hard disk (not shown), and stores information for analyzing the saved CESR 43 and indicating it as an error. .
  • the analysis information storage unit 32 includes suspected part analysis information 33 and error indication format information 37 that defines an error indication format.
  • the suspected place analysis information 33 includes suspected classification definition information 34, error detection count information 35, and suspect priority definition information 36.
  • the suspicious classification definition information 34 is information for associating the state assigned to each bit of CESR with the link-down suspected place candidate, and in the link-down suspected place specifying processing unit 29 described later with reference to FIG. Used to count the number of detections.
  • the suspicious classification definition information 34 is a 32-bit bit sequence as shown in FIGS.
  • the suspicious classification definition information 34 indicates that the suspicious candidate at the time of link down is a device in which a recoverable error has occurred (hereinafter referred to as “own device”), a partner device connected to the device via a PCIe link (hereinafter referred to as “opposite device”) "), Which is information used to determine which of the three candidates for the transmission path (PCIe link) is likely to be.
  • the suspicious classification definition information 34 corresponds to each recoverable error assigned to each bit of the CESR 42.
  • the suspicious classification definition of the own device in FIG. corresponds to the status bit 14 “Corrected Internal Error Status” of the CESR 42 indicating the error of the own device (see FIG. 3).
  • the bit 14 “Corrected Internal Error Status” is 1. Is likely to be a link-down suspected location.
  • 1 is set to bits 12, 7, 6, and 0 in the same manner. This corresponds to the status bit 12 “Replay Timer Timeout Status”, bit 7 “Bad DLLP Status”, bit 6 “Bad TLP Status”, and bit 0 “Receiver Error Status” of the CESR 42 indicating a transmission path error ( (See FIG. 3).
  • the error detection count information 35 is stored as the suspicious classification definition information 34 for each suspicious location candidate (candidate location) of the upstream device, transmission path, and downstream device in the link down suspicious location specifying processing unit 29 described later with reference to FIG. This is information that indicates the number of errors that have appeared in the save CESR 43.
  • An example of the error detection count information 35 is shown in FIG.
  • the suspicious priority definition information 36 is information that defines priorities among suspicious point candidates (upstream device, downstream device, and transmission path), and there are a plurality of candidates that have the maximum and the same count value of the error detection count information 35. In some cases, it is used to determine which is the suspected place.
  • the suspicious priority order definition information 36 is given priority order 3 to the upstream device, priority order 1 to the transmission path, and priority order 2 to the downstream device. This priority is determined by, for example, statistical analysis or experience, and the smaller the priority, the more suspicious.
  • the display device 38 is an output device such as a liquid crystal display or a CRT that is built in the information processing apparatus 1 or is externally attached.
  • the information of the link-down suspected place specified by the link-down suspected place specifying processing unit 29 is output to the display device 38 according to the error indication format information 37.
  • Fault location processing unit 13 SMI factor determination unit 21, periodic SMI processing unit 22, error SMI processing unit 26, CESR read processing unit 23, CESR save processing unit 24, CESR clear processing unit 25, UESR read processing unit 27, the link-down detection processing unit 28, the link-down suspected place identification processing unit 29, and the error indication processing unit 30 are executed by the CPU 2 shown in FIG. Realized.
  • the CESR storage unit 31 and the analysis information storage unit 32 may function as the CESR storage unit 31 and the analysis information storage unit 32.
  • the fault location processing unit 13, the SMI factor determination unit 21, the periodic SMI processing unit 22, the error SMI processing unit 26, the CESR read processing unit 23, the CESR save processing unit 24, the CESR clear processing unit 25, and the UESR read processing unit 27, a program for realizing the functions as the link down detection processing unit 28, the link down suspected part identification processing unit 29, and the error indication processing unit 30 is, for example, a flexible disk, CD (CD-ROM, CD-R, CD -RW, etc.), DVD (DVD-ROM, DVD-RAM, DVD-R, DVD + R, DVD-RW, DVD + RW, HD DVD, etc.), Blu-ray disc, magnetic disc, optical disc, magneto-optical disc, etc.
  • the computer reads the program from the recording medium, transfers it to the internal storage device or the external storage device, and uses it.
  • the program may be recorded in a storage device (recording medium) such as a magnetic disk, an optical disk, or a magneto-optical disk, and provided from the storage device to the computer via a communication path.
  • FIG. 5 is a flowchart (steps S1 to S9) showing a fault location process as an example of the embodiment.
  • the chip set 4 When the link down occurs, the chip set 4 generates an error SMI, and the fault location processing unit 13 starts the fault location processing.
  • IOH Intel I / O Hub
  • the occurrence of periodic SMI is determined by the PERIODIC_STS bit of bit 14 of the SMI Status Register of PMBASE + 34h.
  • the periodic SMI processing unit 22 performs the following processing on all the PCIe devices d1, d2,.
  • the periodic SMI processing unit 22 reads the CESR of the PCIe device (step S2), and saves the read CESR in the CESR saving unit 31 as the saving CESR 43 (step S3).
  • the periodic SMI processing unit 22 determines whether any bit of the recoverable error state related to link down is set to 1 and when any bit is 1 (See the “Yes” route in step S4), and clear the status bit (step S5).
  • a register having a zero clear configuration is used in which 1 is set to clear (0) by setting 1 to a bit in which 1 is set. Therefore, in step S5, the status bit is cleared by writing 1 to the bit set to 1.
  • register configurations other than zero clear can be used.
  • the status bits of CESR related to link down include CESR bit 0 “Receiver Error Status”, bit 6 “Bad TLP Status”, bit 7 “Bad DLLP Status”, bit 8 “REPLAY_NUM Rollover Status”, Bit 12 “Replay Timer Timeout Status” and bit 14 “Corrected Internal Error Status” are listed. When these bits are 1, if 1 is written, 1 is written and cleared.
  • the periodic SMI processing unit 22 proceeds to the next device and repeats the processing of steps S2 to S5. Note that if any bit is 0 in step S3 (see the “No” route in step S4), the periodic SMI processing unit 22 proceeds to the next device and repeats the processing in steps S2 to S5.
  • the fault location process ends.
  • the SMI is a PCIe error (see the “Yes” route in step S1)
  • the following processing is executed for all PCIe devices.
  • the UESR read processing unit 27 reads the UESR 41 (step S6), and the link down detection processing unit 28 checks whether the status bit 5 “Surprise Down Error Status” of the UESR 41 is set to 1. It is determined whether the error is caused by link down (step S7). For example, in the above example, when the status bit 5 of the UESR 41 is set to 1 (see the “Yes” route in Step S7), the link down detection processing unit 28 determines that a link down has occurred.
  • the link down suspected place specifying processing unit 29 executes link down suspected place specifying processing for determining whether the suspected place of link down is an upstream device, a downstream device, or a transmission path (step S8). Details of this processing will be described later with reference to FIG.
  • the error indication processing unit 30 outputs the link-down suspected location specified in the link-down suspected location specifying process to the display device 38 based on the error indication format information 37 (step S9).
  • step S6 If it is determined in step S6 that no link down has occurred (see “No” route in step S7), the process proceeds to step S9, where the error indication processing unit 30 displays the display device based on the error indication format information 37. An error is output to 38. In step 9, after the error indication processing unit 30 points out an error, the process proceeds to the next device, and the processing in steps S6 to S9 is repeated.
  • FIG. 6 is a flowchart (steps S11 to S15) showing the link down suspected place identifying process as an example of the embodiment.
  • the link down suspected place identification processing unit 29 acquires the saved CESR 43 of each of the upstream device and the downstream device of the link down generation unit from the CESR saving unit 31 (step S11).
  • the link-down suspected place identification processing unit 29 executes an error detection count calculation process using the value of the saved CESR 43 acquired in step S11 and the suspected classification definition information 34 in the analysis information storage unit 32 (step S12).
  • the error detection count calculation process is a process of counting the number of occurrences of a recoverable error state (error detection count information 35) in the saved CESR 43 of each of the upstream device, the downstream device, or the transmission path that is a link-down suspected location candidate. .
  • the error detection count calculation process will be described later with reference to FIG.
  • the link-down suspected place identification processing unit 29 compares the count values between the link-down suspected place candidates in the error detection count information 35 and determines whether there is one candidate with the largest count value (step S13). . If there is one candidate with the maximum count value (see “Yes” route in step S13), the candidate is determined to be a suspected place (step S14), and the link down suspected place identifying process is terminated.
  • FIG. 7 is a flowchart (steps S21 to S36) showing an error detection count calculation process as an example of the embodiment.
  • the link-down suspected part identification processing unit 29 determines the saved CESR 43 t0, t1,..., Tn of the generations t0, t1,. Are sequentially determined.
  • step S24 the link-down suspected place identification processing unit 29 enters a false classification definition loop, and performs the following processing for each of the false classification definitions of the own device, the opposite device, and the transmission path. Execute.
  • the link-down suspected part identification processing unit 29 reads the bit sequence of FIG.
  • the false classification definition is “transmission path”
  • the bit sequence of FIG. 8B is read.
  • the false classification definition is “opposite device”
  • the link-down suspected part identification processing unit 29 compares (AND operation) the saved CESR 43 ti read in step S23 with the bit sequence read in step S24, and the number of bits in which both of the same bits are 1 Is calculated (step S25). Next, the link-down suspected place identification processing unit 29 determines whether the device to be determined is an upstream device or a downstream device (step S26).
  • the link-down suspected part identification processing unit 29 determines whether the false classification definition read in step S24 is the own device. (Step S27).
  • the false classification definition is the own device (see the “Yes” route in step S27)
  • the total number of bits obtained in step S25 is added to the count value of the counterfeit determination number counter of the upstream device (step S28). .
  • step S27 if the false classification definition read in step S24 is not the own device (see the “No” route in step S27), then the link-down suspected part identification processing unit 29 determines that the false classification definition is It is determined whether the device is a counter device (step S29). When the false classification definition is an opposing device (see the “Yes” route in step S29), the total number of bits obtained in step S25 is added to the counterfeit determination count (counter) of the downstream device (step S30). Then move on to the next false classification.
  • step S29 if the false classification definition is not an opposing device (see “No” route in step S29), the link down suspected place identification processing unit 29 sets the count value of the counterfeit determination number counter of the transmission path to The total number of bits obtained in step S25 is added (step S31).
  • step S26 if the target device is not an upstream device (see the “No” route in step S26), the link-down suspected place identification processing unit 29 is the false classification definition read in step S24. Whether or not (step S32). When the false classification definition is the device itself (see the “Yes” route in step S32), the total number of bits obtained in step S25 is added to the count value of the counterfeit determination number counter of the downstream device (step S33). ), Move to next false classification.
  • step S32 if the false classification definition read in step S24 is not the own device (see “No” route in step S32), the link-down suspected part identification processing unit 29 determines that the false classification definition is the opposite device. It is determined whether or not there is (step S34). When the false classification definition is an opposing device (see the “Yes” route in step S34), the total number of bits obtained in step S25 is added to the count value of the counterfeit determination count of the upstream device (step S35). ), Move to next false classification.
  • step S34 if the false classification definition is not an opposing device (see “No” route in step S34), the link-down suspected part identification processing unit 29 sets the count value of the counterfeit determination number counter of the transmission path to The total number of bits obtained in step S25 is added (step S36), and the process proceeds to the next false classification.
  • steps S25 to S36 are completed for each false classification definition of the own device, the opposite device, and the transmission path, the process proceeds to step S23, and the link-down suspected place identification processing unit 29 reads the next saved CESR 43 ( Steps S23) and S24 to S36 are repeated.
  • FIG. 11 is an example of error indication, where errors are pointed out with priority.
  • the example of FIG. 11 shows a case where the upstream device is port 1 of the PCIe switch 0 (referred to as “SW0-P1”) and the downstream device is port 0 of the PCIe switch 1 (hereinafter referred to as “SW1-P0”).
  • SW0-P1 the upstream device
  • SW1-P0 the downstream device
  • the PCIe transmission path between SW0-P1 and SW1-P0 has the highest priority as the suspected location candidate, and the suspected location candidate with the next highest priority is the PCIe of the downstream device SW1-P0.
  • the suspected place candidate with the lowest port and priority is the PCIe port of SW0-P1.
  • the time stamp, error type, and error content are also pointed out.
  • the information pointed out is merely an example, and can be changed as appropriate.
  • the error location identification method, the error location identification device, and the error location identification program according to an example of the embodiment described above have the following effects. (1) Since it becomes possible to identify the suspected place with priority in the event of a link down error of the information processing apparatus 1, even an operator who does not have much expertise knows the failed place in a short time, Can be dealt with as appropriate. For this reason, an operator's education time can be shortened and the operating cost of the system of the information processing apparatus 1 can be reduced. Moreover, since the failure can be dealt with promptly, the operating rate of the system can be improved.
  • this method is implemented in a device connected to PCI express.
  • the present disclosure can be applied to other connection topologies that cannot identify the suspected location of the link error.
  • the present disclosure can be applied to other connection apparatuses in which each connection point is connected in a one-to-one relationship, a plurality of devices are connected by a switch, and each connection point has a status register.
  • a printing device such as a printer or a sound output device such as a speaker may be provided, and the suspected location or the like may be output using these.
  • This technology can be used in an information processing apparatus having a plurality of devices connected by a transmission path.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定する。

Description

エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
 本件は、情報処理装置におけるエラー箇所特定方法およびエラー箇所特定装置に関する。また、本件は、当該方法および装置を実現するためのエラー箇所特定プログラムにも関する。
 情報処理装置は、一般に、中央処理装置(central processing unit、以下「CPU」)を備える。CPUのなかには、システム管理割り込み(System Management Interrupt、以下「SMI」)という割り込みの一種により、CPUの動作モードの一つであるシステム管理モード(System Management Mode、以下「SMM」)に移行する機能を備えるものがある。SMMに移行するCPUの例としては、Intel社のx86アーキテクチャなどが挙げられる。
 CPUは、SMIを受信すると、SMMモードに移行する。SMMモードでは、CPUはSMIハンドラを実行する。SMIハンドラは、メモリ空間内の独立したアドレス空間であり、他の動作モードからはアクセスできないシステム管理ランダムアクセスメモリ(System Management Random Access Memory、以下「SMRAM」)空間内でSMIを処理するプログラムである。
 SMIの処理が完了すると、CPUはSMMの移行前のモードに戻る。
 PCI Express(PCIe)は、I/Oシリアルインターフェースの一規格である。
 PCIeの接続構成においては、PCIeのデバイス(ポート)がPCIeのリンクを介して相互に接続される。詳細には、チップセット内に存在し、接続構成の起点となるPCIeのルートポートと、PCIeポート間でパケットをルーティングするPCIeスイッチと、末端に位置するPCIeカード等のエンドポイントとが、PCIeのリンクを介して相互に接続される。
 図12に、PCIeの接続の例を模式的に示す。PCIeの接続においては、図12に示すように、ルートポート(あるいはCPU)に近い上流デバイス101と、下流デバイス102とが、ケーブル、コネクタ、配線等の物理的な伝送路(以下「伝送路」)103によって接続されている。
 このようなPCIeにおいてエラーが発生し、PCIeのリンクが切断している場合(以下「リンクダウン」)に、エラーを引き起こしている箇所(被疑箇所)を特定することを「フォールトロケーション処理」という。
 ここで、図12に示すように、被疑箇所は、上流デバイス101か、下流デバイス102か、伝送路103の3箇所のいずれかである。
PCIe Base 2.1 Specification(http://www.pcisig.com/specifications/pciexpress/base2/#b21参照)
 フォールトロケーション処理においては、各デバイス101,102に備えられたステータスレジスタ104,105の内容を解析することで障害発生時の被疑箇所を特定する。しかし、リンクダウンが発生している場合は、リンクダウンよりも下流側のデバイス102のステータスレジスタ105は取得することができない。
 そこで、リンクダウンの被疑箇所の特定には、例えば情報処理装置に専用の機器を装着したのちに、障害を再現させることにより行なう。このため、情報処理装置が稼動している現場では、即座にリンクダウンの被疑箇所を特定することができない。
 ここで、下流デバイス102は、ケーブルで接続されたPCIeデバイスやPCIeカードなどであるので、上流デバイス101に比べて交換が容易な場合が多い。このように下流デバイス102の交換が容易であることから、従来のフォールトロケーション処理では、リンクダウン発生時の被疑箇所を、下流デバイスであるとみなして対応していた。その上で、被疑箇所が、他の上流デバイスもしくは伝送路である可能性もある点を、手順書等によって技術員に周知していた。
 しかし、情報処理装置が稼動している各現場で障害対応を図る技術員は、専門スキルが必ずしも十分でなかったり、作業時間が限られているため、他の被疑箇所の可能性を十分検討できない場合があった。
 このような状況で、被疑箇所が誤っていた場合、「正常」と誤って判断された故障部品は交換されない。このため、エラー対処後に再度エラーが発生する可能性が高い。また、正常であるにも関わらず、故障品であると誤って判断された正常品に原因調査など試みても、本来正常であるため、エラーの原因を特定することは困難である。
 このように従来技術では、リンクダウンが発生した場合に被疑箇所を特定し対処するために、非常に多くの時間と手間がかかり、かつ専門スキルを要するという課題があった。
 本件の目的の一つは、情報処理装置のリンクダウンが発生した場合に、専門スキルがなくても、容易かつ短時間で故障箇所を把握して、これに対処可能できるようにする方法、装置およびプログラムを提供することにある。
 このため、伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定する。
 また、伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定装置は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、を備える。
 更に、伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定プログラムは、コンピュータによって実行されたときに、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、して、該コンピュータを機能させる。
 開示の技術によれば、情報処理装置のリンクダウンのエラー時に、被疑箇所を優先順位付きで特定することが可能となるため、さほど専門知識を有さない作業者でも、短時間で故障箇所を把握し、適宜対処できる。
実施形態の一例としてのフォールトロケーション処理部の機能構成を示すブロック図である。 実施形態の一例としての情報処理装置のハードウェア構成を模式的に示すブロック図である。 回復不能エラー状態レジスタの一例を示す図である。 回復可能エラー状態レジスタの一例を示す図である。 実施形態の一例としてのフォールトロケーション処理を示すフローチャートである。 実施形態の一例としてのリンクダウン被疑箇所特定処理を示すフローチャートである。 実施形態の一例としてのエラー検出カウント算出処理を示すフローチャートである。 (a)~(c)は、実施形態の一例としての被疑分類定義情報の一例を示す図である。 実施形態の一例としてのエラー検出カウント情報の一例を示す図である。 実施形態の一例としての被疑優先定義優先情報の一例を示す図である。 実施形態の一例としてのエラー指摘フォーマット情報の一例を示す図である。 リンクダウンが発生した状態を模式的に示す図である。
 1   情報処理装置
 13  フォールトロケーション処理部
 17,18,19  PCIeポート
 21  SMI要因判断部
 20  フォールトロケーションプログラム
 26  エラーSMI処理部
 29  リンクダウン被疑箇所特定処理部
 30  エラー指摘処理部
 31  CESR退避部
 34  被疑分類定義情報
 35  エラー検出カウント情報
 36 被疑優先順定義情報
 37 エラー指摘フォーマット情報
 41  UESR
 42  CESR
 43  退避CESR
 d1~dm PCIeデバイス
 以下、図面を参照して、実施形態の一例としてのエラー箇所特定方法およびエラー箇所特定装置に係る実施の形態を説明する。
 図1は、実施形態の一例としてのフォールトロケーション処理部13の機能構成を示すブロック図であり、図2は、実施形態の一例としてのエラー箇所特定方法およびエラー箇所特定装置が実施される情報処理装置1のハードウェア構成を示すブロック図である。
 情報処理装置1は、CPU2、メモリ3、チップセット4、ROM5、入力装置6、および出力装置7を有する。チップセット4は、バスブリッジや周辺回路を集積した複数のチップから構成されている。このチップセットを介して、CPU2、メモリ3、チップセット4、ROM5、入力装置6、および出力装置7が相互に接続されている。
 また、チップセット4は、PCIeの回復不能エラー発生時に、CPU2にSMIを発生させる(エラーSMI)機能を備える他、一定時間毎にCPU2にSMIを発生させる機能(周期的SMI)を有する。更に、チップセット4は、レジスタに識別情報を登録する。
 例えば、Intel社のI/O Hub(IOH)においてエラーSMI機能を有効にするには、Function=2,Offset=094hのPCIe Error Severity Map Registerのビット3~0でPCIeの回復不能エラーに対してSeverity=0と設定する。その上で、Function=2,Offset=09ChのSystem Error Event Map Registerにより、Severity=0のエラー(回復不能エラー)に対してSMIを生成するように設定する。
 また、例えば、Intel社のI/O Controller Hub10(ICH10)において周期的SMI機能を生成するには、I/OアドレスACPI Base Address(PMBASE)+30hのSMI Control and Enable Registerのビット14のPERIODIC_ENビットで設定する。
 なお、情報処理装置1には、上記に挙げた以外の装置が接続されていてもよい。例えば、表示装置(図2に不図示)などが情報処理装置1に接続される。
 ROM5には、情報処理装置1によって実行される種々のプログラムが記憶されている。このようなプログラムの1つが、ハードウエアとの最も低レベルの入出力を行なうためのプログラムであるBIOS9である。CPU2は、情報処理装置1の起動時に、ROM5に記憶されているBIOS9等のプログラムを、メモリ3を利用して実行する。
 前述のように、CPU2は、各種演算や制御を行なう処理装置である。このCPU2は、SMIによりSMMに移行する機能を備える。ここで、SMMとは、例えば、Intel社のx86アーキテクチャに導入されているCPU2の動作モードのうちの一つである。CPU2は、SMIを受信するとSMMモードに移行する。SMMモードでは、CPU2はSMIハンドラ10を実行する。SMIハンドラ10は、他の動作モードからはアクセスできない、メモリ空間内の独立したアドレス空間であるSMRAM空間内でSMIを処理するプログラムである。CPU2は、SMIの処理が完了すると、SMM移行前のモードに戻る。
 図2に示す例においては、PCIeの接続では、PCIeのルートポート17と、PCIeスイッチ14,15と、エンドポイント16とが、PCIeのリンクを介して接続される。具体的には、チップセット4に2つのPCIeスイッチ14が接続され、各PCIeスイッチ14に2つのスイッチ15が接続され、これにより、チップセット4を頂点とするツリー状の多段構成が形成されている。PCIeのルートポート17は、チップセット4内に存在し、チップセット4は、構成の起点となる1以上のルートポート17を備える。PCIeスイッチ14,15は、PCIeポート間でパケットをルーティングする1以上のポート18を備える。エンドポイント16は、末端に位置するPCIeカード等であり、ポート19を備える。そして、ポート17とポート18,ポート18とポート18,ポート18とポート19が、それぞれ接続されている。
 なお、図2に示す例においては、スイッチ14,15が2段に接続されているが、スイッチの接続段数は2段に限られず、1段もしくは3段以上でもよい。
 PCIeのデバイス(以下「デバイス」とも称する)であるルートポート17、ポート18、ポート19等は、デバイスの機能毎にコンフィグレーション空間(メモリ空間)を持ち、これらのメモリ空間が、BIOS9等のソフトウェアからPCIeの機能にアクセスするために使用される。
 このコンフィグレーション空間に、例えば、回復不能なエラー状態を示す回復不能エラー状態レジスタ(uncorrectable error status register、以下「UESR」)41(図3参照)や回復可能なエラー状態を示す回復可能エラー状態レジスタ(correctable error status register、以下「CESR」)42(図4参照)等が配置される。
 図3は、UESR41の一例を示す図であり、図4は、CESR42の一例を示す図である。これらのUESR41およびCESR42のフォーマットはPCIeの規格に規定されている。
 また、図2には、メモリ3のメモリ空間8の一部を模式的に示す図も示されている。メモリ空間8は、SMRAM11を有し、SMRAM11には、BIOS9からロードされたSMIハンドラ12が存在し、SMIハンドラ12は、フォールトロケーションプログラム(エラー箇所特定プログラムの一例)20を有する。このフォールトロケーションプログラム20がCPU2によって実行されることにより、情報処理装置1において、実施形態の一例としてのフォールトロケーション処理部(エラー箇所特定装置の一例)13が実現される。
 図1は、実施形態の一例としての情報処理装置1におけるフォールトロケーション処理部13の機能構成を示すブロック図である。
 本開示のフォールトロケーション処理部13は、SMI要因判断部(割り込み判定部の一例)21、周期的SMI処理部22およびエラーSMI処理部(エラー箇所特定部の一例)26を備える。
 SMI要因判断部21は、SMIの発生要因が周期的SMIか、PCI Express(以下「PCIe」)デバイスのエラーに伴うSMIかを判断する。その際、SMI要因判断部21は、チップセットのレジスタを参照して、発生したSMIが、周期的なSMIかPCIeデバイスのエラーに伴うSMIかを判断する。
 例えば、上記のように、Intel社のI/O Hub(IOH)の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のPCIeの各ルートポートを起点とするPCIe構成でエラーが発生したことを判断する。
 また、例えば、Intel社のI/O Controller Hub10(ICH10)の場合は、PMBASE + 34hの SMI Status Registerのビット14のPERIODIC_STSビットにより、周期的なSMIの発生を判断する。
 そして、SMI要因判断部21は、周期的SMIの場合は周期的SMI処理部22を呼び出す一方、PCIeデバイスのエラーの場合はエラーSMI処理部26を呼び出す。
 周期的SMI処理部22は、周期的SMI時に、情報処理装置1に接続されている全PCIeデバイスのCESR42の値を読み出して、CESR退避部31に退避させたのちに、各CESR42のクリアを実施する。周期的SMI処理部22は、CESR読み出し処理部23、CESR退避処理部24、およびCESRクリア処理部25を有する。
 CESR読み出し処理部23は、周期的SMI毎に、情報処理装置1に接続されている全PCIeデバイスそれぞれのCESR42の値を読み出す。
 CESR退避処理部24は、CESR読み出し処理部23が読み出した、各デバイスのCESR42の値を、後述するCESR退避部31に格納する。
 CESRクリア処理部25は、CESR42の各ビットにセットされている回復可能エラー状態をクリアする。回復可能エラー状態をクリアすることにより、以降の周期的SMI時に、回復可能エラー状態が再び発生したかどうかの把握が可能となる。
 エラーSMI処理部26は、エラーSMI時に、UESR41を読み出し、リンクダウンを判定し、CESR退避部31に退避させていたCESRの値を読み取り、後述する解析情報記憶部32を参照して被疑箇所を特定し、エラーを指摘する。
 このエラーSMI処理部26は、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30を有する。
 UESR読み出し処理部27は、PCIeデバイスのUESR41の値を読み出す。
 リンクダウン検出処理部28は、UESR読み出し処理部27が読み出したUESRに基づいて、リンクダウンが発生しているかを判定する。例えば、図3に示すUESR41のステータスビット5「Surprise Down Error Status」が1にセットされている場合、リンクダウンが発生していると判定する。
 リンクダウン被疑箇所特定処理部29は、リンクダウンが発生している場合に、リンクダウンの被疑箇所候補(上流デバイス、下流デバイスもしくは伝送路)の各々について、回復可能エラー状態の出現回数をカウントして、図9を参照して後述するエラー検出カウント情報35を作成する。その際、リンクダウン被疑箇所特定処理部29は、CESR退避部31に退避されているリンクダウン発生部分の上流デバイスおよび下流デバイスのCESR41の値と、後述する解析情報記憶部32の被疑分類定義情報34とを使用する。
 ここで、伝送路によって相互接続されたデバイスにおいて、CPU2(あるいはルートポート17)に近い側のデバイスを「上流デバイス」と称し、伝送路によって当該上流デバイスに接続され、CPU2(あるいはルートポート17)から遠い側のデバイスを「下流デバイス」と称する。例えば、図2のチップセット4のルートポート17とスイッチ14のポート18間のリンクにおいて、上流デバイスはルートポート17、下流デバイスはポート18であり、伝送路は、ルートポート17とポート18間を接続している伝送路を指す。
 そして、リンクダウン被疑箇所特定処理部29は、エラー検出カウント情報35の各被疑箇所候補のカウント値を比較し、カウント値が最大の候補が一つしかない場合は、その候補を被疑箇所と判定する。一方、カウント値が最大の候補が複数存在する場合は、図10を参照して後述する被疑優先順定義情報36の優先順位が一番高い候補を被疑箇所として特定する。
 例えば、図9のエラー検出カウント情報35の例においては、伝送路と下流デバイスとは共にエラー検出カウントが「4」である。しかしながら、図10の被疑優先順定義情報36において、下流デバイスよりも伝送路のほうに高い優先順位が与えられているため、リンクダウン被疑箇所特定処理部29は伝送路が被疑箇所であると判定する。
 なお、リンクダウン被疑箇所特定処理部29の処理の詳細については、図7を参照して後述する。
 エラー指摘処理部30は、リンクダウン被疑箇所特定処理部29によって特定されたリンクダウンの被疑箇所を、後述するエラー指摘フォーマット情報37に基づいて表示装置38に出力する。
 更に、図2の情報処理装置1においては、フォールトロケーションプログラム20を実行することにより、フォールトロケーション処理部13によって使用されるCESR退避部31(エラー記憶部の一例)と解析情報記憶部32とが、メモリやハードディスク(不図示)などのデータ記憶装置内の領域に確保される。
 CESR退避部31は、図1に示したメモリ3等のメモリやハードディスク(不図示)などのデータ記憶装置内の領域であり、CESRの値が、退避CESR43として退避される。CESR退避部31は、PCIeのデバイスd1,d2,d3,…,dm(mは2以上の整数)毎に、周期SMI毎の複数世代t0,t1,t2,…,tn(nは2以上の整数)の退避CESR43をそれぞれ格納している。
 例えば8秒毎に発生する周期的SMIに対して、3世代分(n=3)の退避CESR43を退避する場合、一つのデバイスにつき、周期SMIの開始から8秒後、16秒後、24秒後の3世代分の退避CESR43が、CESR退避部31に格納される。その後、CESR退避部31の退避CESR43が、古いものから順に、新たな退避CESR43によって上書きされる。すなわち、先に挙げた例では、32秒後に、先に退避させた8秒時点の退避CESR43が上書きされて、最新の3世代の退避CESR43が退避される。なお、周期的SMIの発生間隔や、格納する退避CESR43の世代数(n)は、適宜変更することができる。
 解析情報記憶部32も、図1に示したメモリ3等のメモリやハードディスク(不図示)などのデータ記憶装置内の領域であり、退避CESR43を解析し、エラーとして指摘するための情報を記憶する。解析情報記憶部32は、被疑箇所解析情報33と、エラー指摘のフォーマットを定義するエラー指摘フォーマット情報37とを備える。
 被疑箇所解析情報33は、被疑分類定義情報34と、エラー検出カウント情報35と、被疑優先定義情報36とを備える。
 被疑分類定義情報34は、CESRの各ビットに割り当てられた状態と、リンクダウンの被疑箇所候補とを対応付ける情報であり、図7を参照して後述するリンクダウン被疑箇所特定処理部29において、エラー検出回数のカウントに使用される。
 被疑分類定義情報34は、図8(a)~(c)に示すような32ビットのビットシーケンスである。被疑分類定義情報34は、リンクダウン発生時の被疑候補が、回復可能エラーが発生したデバイス(以下「自デバイス」)、当該デバイスとPCIeリンクで接続されている相手先のデバイス(以下「対向デバイス」)、伝送路(PCIeリンク)の3候補のうち、いずれである可能性が高いかの判定に使用される情報である。被疑分類定義情報34は、CESR42の各ビットに割り当てられた各回復可能エラーに対応している。
 例えば、図8(a)の自デバイスの被疑分類定義では、ビット14に1がセットされている。これは、自デバイスのエラーを示すCESR42のステータスビット14「Corrected Internal Error Status」に対応している(図3参照)。そして、ステータスビット14に1がセットされた自デバイスの被疑分類定義と、リンクダウンが発生する以前の退避CESR43とのAND演算を行なった結果、ビット14「Corrected Internal Error Status」が1である場合は、そのデバイスがリンクダウンの被疑箇所の可能性が高い。
 また、図8(b)の伝送路の被疑分類定義も同様に、ビット12、7、6、0に1がセットされている。これは、伝送路のエラーを示すCESR42のステータスビット12「Replay Timer Timeout Status」、ビット7「Bad DLLP Status」、ビット6「Bad TLP Status」、ビット0「Receiver Error Status」に対応している(図3参照)。そして、ステータスビット12、7、6、0に1がセットされた伝送路の被疑分類定義と、リンクダウンが発生する以前の退避CESR43とのAND演算を行なった結果、ビット12、7、6、0のいずれかが1の場合は、伝送路がリンクダウンの被疑候補である可能性が高い。
 図8(c)の対向デバイスの被疑分類定義では、ビット8に1がセットされている。これは、対向デバイス(上流デバイスのCESR42の場合は下流デバイス、下流デバイスのCESR42の場合は上流デバイス)のエラーを示すCESR42のステータスビット8「REPLAY_NUM Rollover Status」に対応している(図3参照)。そして、ステータスビット8に1がセットされた対向デバイスの被疑分類定義と、リンクダウンが発生する以前の退避CESR43とのAND演算を行なった結果、ビット8が1である場合、対向デバイスがリンクダウンの被疑候補の可能性が高い。
 エラー検出カウント情報35は、図7を参照して後述するリンクダウン被疑箇所特定処理部29において、上流デバイス、伝送路、下流デバイスの各被疑箇所候補(候補箇所)について、被疑分類定義情報34を使用して、退避CESR43に出現したエラーの回数を示す情報である。エラー検出カウント情報35の例を図9に示す。
 被疑優先定義情報36は、被疑箇所候補(上流デバイス、下流デバイスおよび伝送路)間の優先順位を定義する情報であり、エラー検出カウント情報35のカウント値が最大かつ同数である候補が複数存在する場合に、いずれを被疑箇所とするかを判定するために使用される。被疑優先順定義情報36は、図10に示す例においては、上流デバイスに優先順位3が、伝送路に優先順位1が、下流デバイスに優先順位2がそれぞれ与えられている。この優先順位は、例えば、統計解析や経験などによって定められ、優先順位が小さいほうがより疑わしいとされる。
 例えば、図9の例の場合、下流デバイスと伝送路の発生回数が共に4回であるため、図10に示す被疑優先順定義情報36で優先順位が一番高い伝送路が、被疑箇所であると判定される。
 表示装置38は、情報処理装置1に内蔵されるかまたは外付けの液晶ディスプレイやCRTなどの出力装置である。リンクダウン被疑箇所特定処理部29によって特定されたリンクダウンの被疑箇所の情報が、エラー指摘フォーマット情報37に従って表示装置38に出力される。
 上述のフォールトロケーション処理部13、SMI要因判断部21、周期的SMI処理部22、エラーSMI処理部26、CESR読み出し処理部23、CESR退避処理部24、およびCESRクリア処理部25、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30は、図2に示したCPU2が、メモリ3を使用してフォールトロケーションプログラム20等を実行することにより実現される。
 また、図2のメモリ3は、CESR記憶部31および解析情報記憶部32として機能してもよい。
 なお、フォールトロケーション処理部13、SMI要因判断部21、周期的SMI処理部22、エラーSMI処理部26、CESR読み出し処理部23、CESR退避処理部24、およびCESRクリア処理部25、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30としての機能を実現するためのプログラムは、例えばフレキシブルディスク,CD(CD-ROM,CD-R,CD-RW等),DVD(DVD-ROM,DVD-RAM,DVD-R,DVD+R,DVD-RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
 次に、図5を参照して、フォールトロケーション処理部13が実行するフォールトロケーション処理(エラー箇所特定方法の一例)について説明する。図5は、実施形態の一例としてのフォールトロケーション処理を示すフローチャート(ステップS1~S9)である。
 リンクダウンが発生すると、チップセット4がエラーSMIを生成し、フォールトロケーション処理部13によってフォールトロケーション処理が開始される。
 最初に、フォールトロケーション処理部13のSMI要因判断部21が、SMIの発生要因が周期的SMIか、PCIeデバイスのエラーに伴うSMIかを判断する(ステップS1)。
 例えば、上記のように、Intel社のI/O Hub(IOH)の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のPCIeの各ルートポートを起点とするPCIe構成でエラーが発生したことを判断する。
 また、例えば、Intel社のI/O Controller Hub10(ICH10)の場合は、PMBASE + 34hの SMI Status Registerのビット14のPERIODIC_STSビットにより、周期的なSMIの発生を判断する。
 SMIが周期的SMIである場合(ステップS1の「No」ルート参照)、周期的SMI処理部22は、全PCIeデバイスd1,d2,…,dmに対して以下の処理を実行する。
 最初に、周期的SMI処理部22は、当該PCIeデバイスのCESRを読み出して(ステップS2)、読み出したCESRをCESR退避部31に、退避CESR43として退避する(ステップS3)。
 次に、ステップS3において、周期的SMI処理部22は、リンクダウンに関連する回復可能エラー状態のいずれかのビットが1にセットされているかどうかを判定し、いずれかのビットが1である場合(ステップS4の「Yes」ルート参照)、ステータスビットをクリアする(ステップS5)。
 なお、この例においては、1がセットされているビットに1をセットすることにより、当該ビットがクリア(0)にセットされるゼロクリア構成のレジスタが使用される。そのため、ステップS5では、1にセットされているビットに1を書き込むことで、ステータスビットをクリアする。しかし、ゼロクリア以外のレジスタ構成も使用することができる。
 また、例えば、リンクダウンに関連するCESRのステータスビットとしては、CESRのビット0「Receiver Error Status」、ビット6「Bad TLP Status」、ビット7「Bad DLLP Status」、ビット8「REPLAY_NUM Rollover Status」、ビット12「Replay Timer Timeout Status」、ビット14「Corrected Internal Error Status」が挙げられ、これらのビットをチェックして、ビットが1の場合は、1を書き込んでクリアする。
 そして、周期的SMI処理部22は次のデバイスに進み、ステップS2~S5の処理を繰り返す。
 なお、ステップS3において、どのビットも0である場合(ステップS4の「No」ルート参照)も、周期的SMI処理部22は次のデバイスに進み、ステップS2~S5の処理を繰り返す。
 全てのデバイスについてステップS2~S5の処理を完了したら、フォールトロケーション処理が終了する。
 一方、SMIが、PCIeのエラーである場合(ステップS1の「Yes」ルート参照)、全てのPCIeデバイスについて、以下の処理が実行される。
 まず、UESR読み出し処理部27がUESR41を読み出して(ステップS6)、リンクダウン検出処理部28が、UESR41のステータスビット5「Surprise Down Error Status」が1に設定されているかどうかをチェックすることにより、リンクダウンによるエラーであるかを判定する(ステップS7)。例えば、上記の例では、UESR41のステータスビット5が1にセットされている場合(ステップS7の「Yes」ルート参照)、リンクダウン検出処理部28は、リンクダウンが発生していると判定する。
 次に、リンクダウン被疑箇所特定処理部29が、リンクダウンの被疑箇所が、上流デバイスか、下流デバイスか、伝送路かを判断するリンクダウン被疑箇所特定処理を実行する(ステップS8)。この処理の詳細については図6を参照して後述する。
 次に、エラー指摘処理部30が、リンクダウン被疑箇所特定処理で特定されたリンクダウンの被疑箇所を、エラー指摘フォーマット情報37に基づいて、表示装置38に出力する(ステップS9)。
 ステップS6において、リンクダウンが発生していないと判定された場合(ステップS7の「No」ルート参照)、ステップS9に進み、エラー指摘処理部30が、エラー指摘フォーマット情報37に基づいて、表示装置38にエラーを出力する。
 ステップ9においてエラー指摘処理部30が、エラーを指摘したのちに、次のデバイスに進み、ステップS6~S9の処理を繰り返す。
 全てのデバイスd1,d2,…,dmについてステップS6~S9の処理を完了したら、フォールトロケーション処理が終了する。
 次に、図6を参照して、リンクダウン被疑箇所特定処理部29のリンクダウン被疑箇所特定処理について説明する。図6は、実施形態の一例としてのリンクダウン被疑箇所特定処理を示すフローチャート(ステップS11~S15)である。
 最初に、リンクダウン被疑箇所特定処理部29は、CESR退避部31から、リンクダウン発生部の上流デバイスと下流デバイスのそれぞれの退避CESR43を取得する(ステップS11)。
 次に、リンクダウン被疑箇所特定処理部29は、ステップS11で取得した退避CESR43の値と解析情報記憶部32の被疑分類定義情報34とを用いて、エラー検出カウント算出処理を実行する(ステップS12)。エラー検出カウント算出処理は、リンクダウンの被疑箇所候補である上流デバイス、下流デバイスもしくは伝送路のそれぞれの、退避CESR43における回復可能エラー状態の出現回数(エラー検出カウント情報35)をカウントする処理である。エラー検出カウント算出処理については、図7を参照して後述する。
 次に、リンクダウン被疑箇所特定処理部29は、エラー検出カウント情報35のリンクダウンの被疑箇所候補間のカウント値を比較し、カウント値が最大の候補が一つかどうかを判定する(ステップS13)。カウント値が最大の候補が一つの場合(ステップS13の「Yes」ルート参照)、その候補を被疑箇所と判定し(ステップS14)、リンクダウン被疑箇所特定処理を終了する。
 カウント値が最大の候補が複数存在する場合(ステップS13の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、これらの複数の候補に対して被疑優先順定義情報36の優先順位を適用し、優先順位が最高の候補を被疑箇所であると判定し(ステップS15)、リンクダウン被疑箇所特定処理を終了する。
 次に、図7を参照して、エラー検出カウント算出処理について説明する。図7は、実施形態の一例としてのエラー検出カウント算出処理を示すフローチャート(ステップS21~S36)である。
 まず、リンクダウン被疑箇所特定処理部29は、上流デバイスについてループ処理を実行する(ステップS21)。上流デバイスud1~udl(l=2以上の整数)について判定すべく、これらの上流デバイスud1~udlを順次判定対象とする。
 まず、リンクダウン被疑箇所特定処理部29は、上流デバイスの被偽判定回数を計数するカウンタ、下流デバイスの被偽判定回数を計数するカウンタ、および伝送路の被偽判定回数を計数するカウンタをそれぞれ0にセットする(ステップS22)。
 次に、リンクダウン被疑箇所特定処理部29は、判定対象のデバイスの、退避させた各世代t0,t1,…,tnの退避CESR43について判定すべく、これらの退避CESR43 t0,t1,…,tnを順次判定対象とする。カウンタ値iに初期値1を設定し、ステップS23において、CESR退避部31から、退避CESR43 ti(i=1~n-1)を読み出す。
 次に、ステップS24において、リンクダウン被疑箇所特定処理部29は、被偽分類定義ループに入り、被偽分類定義が、自デバイス、対向デバイス、および伝送路の場合のそれぞれについて、以下の処理を実行する。
 被偽分類定義が「自デバイス」の場合、リンクダウン被疑箇所特定処理部29は、前述の図8(a)のビットシーケンスを読み込む。被偽分類定義が「伝送路」の場合、図8(b)のビットシーケンスを読み込む。被偽分類定義が「対向デバイス」の場合、図8(c)のビットシーケンスを読み込む。
 次に、リンクダウン被疑箇所特定処理部29は、ステップS23で読み出した退避CESR43 tiと、ステップS24で読み出したビットシーケンスとを比較(AND演算)して、同じビットが両方とも1であるビット数の合計を算出する(ステップS25)。
 次に、リンクダウン被疑箇所特定処理部29は、判定対象のデバイスが上流デバイスであるか、下流デバイスであるかを判定する(ステップS26)。
 判定対象のデバイスが上流デバイスである場合(ステップS26の「Yes」ルート参照)、リンクダウン被疑箇所特定処理部29は、ステップS24で読み出した被偽分類定義が自デバイスであるかどうかを判定する(ステップS27)。被偽分類定義が自デバイスである場合(ステップS27の「Yes」ルート参照)、上流デバイスの被偽判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算する(ステップS28)。
 また、ステップS27において、ステップS24で読み出した被偽分類定義が自デバイスではない場合(ステップS27の「No」ルート参照)、次に、リンクダウン被疑箇所特定処理部29は、被偽分類定義が対向デバイスであるかどうかを判定する(ステップS29)。被偽分類定義が対向デバイスである場合(ステップS29の「Yes」ルート参照)、下流デバイスの被偽判定回数(カウンタ)に、ステップS25で求めたビットの合計数を加算して(ステップS30)、次の被偽分類に移る。
 また、ステップS29において、被偽分類定義が対向デバイスではない場合(ステップS29の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、伝送路の被偽判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算する(ステップS31)。
 また、ステップS26において、対象のデバイスが上流デバイスではない場合(ステップS26の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、ステップS24で読み出した被偽分類定義が自デバイスであるかどうかを判定する(ステップS32)。被偽分類定義が自デバイスである場合(ステップS32の「Yes」ルート参照)、下流デバイスの被偽判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算して(ステップS33)、次の被偽分類に移る。
 また、ステップS32において、ステップS24で読み出した被偽分類定義が自デバイスではない場合(ステップS32の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、被偽分類定義が対向デバイスであるかどうかを判定する(ステップS34)。被偽分類定義が対向デバイスである場合(ステップS34の「Yes」ルート参照)、上流デバイスの被偽判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算して(ステップS35)、次の被偽分類に移る。
 また、ステップS34において、被偽分類定義が対向デバイスではない場合(ステップS34の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、伝送路の被偽判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算して(ステップS36)、次の被偽分類に移る。
 自デバイス、対向デバイス、および伝送路のそれぞれの被偽分類定義について、ステップS25~S36の処理を終了したら、ステップS23に移り、リンクダウン被疑箇所特定処理部29は次の退避CESR43を読み出して(ステップS23)、ステップS24~S36の処理を繰り返す。
 全ての退避CESR43について、上記S23~S36の処理を終了したら、ステップS21に移り、下流デバイスld1~ldl(l=2以上の整数)についても上記の処理を実行する。
 上記のようにして計算を繰り返すことにより、図9に示すエラー検出カウント情報35を算出する。
 図11は、エラー指摘の一例であり、エラーが優先順位付きで指摘されている。図11の例では、上流デバイスがPCIeスイッチ0のポート1(「SW0-P1」と称する)、下流デバイスがPCIeスイッチ1のポート0(以下「SW1-P0」と称する)の場合を示す。この例では、SW0-P1とSW1-P0の間のPCIeの伝送路が、被疑箇所候補としての優先順位が一番高く、次に優先順位が高い被疑箇所候補は下流デバイスのSW1-P0のPCIeポート、優先順位が一番低い被疑箇所候補はSW0-P1のPCIeポートである。
 また、これらの情報と共に、タイムスタンプ、エラー種類、エラー内容も併せて指摘される。なお、指摘される情報は例に過ぎず、適宜変更することができる。
 上に記載した実施形態の一例に係るエラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラムは、以下の効果を有する。
(1)情報処理装置1のリンクダウンのエラー時に、被疑箇所を優先順位付きで特定することが可能となるため、さほど専門知識を有さない作業者でも、短時間で故障箇所を把握し、適宜対処できる。このため、作業者の教育時間を短縮でき、情報処理装置1のシステムの運用コストを低減できる。また、迅速に障害対応を図ることができるため、システムの稼働率を向上させることができる。
(2)また、情報処理装置1のリンクダウンのエラー時には、退避させておいた退避CESR43がエラー解析に使用されるため、情報処理装置1の稼働中に、専用の検査装置を情報処理装置に接続する必要がない。このため、情報処理装置1の稼働に影響を及ぼさずに、いつでも障害対応を図ることができる。
(3)更に、専用の検査装置が不要となるほか、適切な候補を被疑箇所として特定できることにより、不良部品を適切に交換できるため、システムの保守費用を低減することができる。
 本開示の一実施形態について説明したが、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
 例えば、上記の実施形態の例においては、優先順位が一番高い一つの被疑箇所を特定し、エラーとして指摘しているが、優先順位付きで複数の被疑箇所を指摘することも可能である。
 上記実施形態の一例では、PCI express接続されている装置において本方法が実施されている。しかし、例えば、本開示は、リンクエラーの被疑箇所を特定できないほかの接続トポロジーにも適用することができる。例えば、各接続点が1対1で接続されており、スイッチによって複数デバイス接続がされており、各接続点にステータスレジスタを持つ、他の接続の装置においても、本開示を適用できる。
 また、被疑箇所等を表示装置38に表示させる代わりに、プリンタ等の印刷装置や、スピーカ等の音声出力装置を備え、これらを用いて被疑箇所等を出力してもよい。
 本技術は、伝送路によって接続された複数のデバイスを有する情報処理装置において利用可能である。

Claims (17)

  1.  伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法であって、
     割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、
     周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、
     エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定することを特徴とする方法。
  2.  該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする請求項1に記載の方法。
  3.  該エラーの履歴の解析においては、各デバイスについてエラーが発生する可能性のある箇所ごとの回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする請求項2に記載の方法。
  4.  該カウント値が最大の被疑箇所の候補が複数ある場合に、予め定義された優先順位に従って被疑箇所を選択することを特徴とする請求項3に記載の方法。
  5.  該エラーを、予め定義されたフォーマットで指摘することを特徴とする請求項1~4のいずれか1項に記載の方法。
  6.  伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定装置であって、該エラー箇所特定装置は、
     割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
     周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
     エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、を備えたことを特徴とするエラー箇所特定装置。
  7.  該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする請求項6に記載のエラー箇所特定装置。
  8.  該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする請求項7に記載のエラー箇所特定装置。
  9.  該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする請求項8に記載のエラー箇所特定装置。
  10.  特定されたエラーの原因を指摘する指摘部を更に有し、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする請求項6~9のいずれか1項に記載のエラー箇所特定装置。
  11.  各デバイスはPCI Expressのデバイスであることを特徴とする請求項6~10のいずれか1項に記載のエラー箇所特定装置。
  12.  該エラーの被疑箇所は、上流デバイス、下流デバイスおよび伝送路のいずれかであることを特徴とする請求項6~11のいずれか1項に記載のエラー箇所特定装置。
  13.  伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定プログラムであって、コンピュータによって実行されたときに、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
     周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
     エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、
    して、該コンピュータを機能させることを特徴とする、エラー箇所特定プログラム。
  14.  該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする請求項13に記載のエラー箇所特定プログラム。
  15.  該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を該被疑箇所とすることを特徴とする請求項14に記載のエラー箇所特定プログラム。
  16.  該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする請求項15に記載のエラー箇所特定プログラム。
  17.  特定されたエラーの原因を指摘する指摘部として該コンピュータを機能させ、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする請求項13~16のいずれか1項に記載のエラー箇所特定プログラム。
PCT/JP2010/070193 2010-11-12 2010-11-12 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム WO2012063358A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2010/070193 WO2012063358A1 (ja) 2010-11-12 2010-11-12 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
JP2012542776A JP5532143B2 (ja) 2010-11-12 2010-11-12 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
US13/886,354 US9141463B2 (en) 2010-11-12 2013-05-03 Error location specification method, error location specification apparatus and computer-readable recording medium in which error location specification program is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/070193 WO2012063358A1 (ja) 2010-11-12 2010-11-12 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/886,354 Continuation US9141463B2 (en) 2010-11-12 2013-05-03 Error location specification method, error location specification apparatus and computer-readable recording medium in which error location specification program is recorded

Publications (1)

Publication Number Publication Date
WO2012063358A1 true WO2012063358A1 (ja) 2012-05-18

Family

ID=46050538

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/070193 WO2012063358A1 (ja) 2010-11-12 2010-11-12 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム

Country Status (3)

Country Link
US (1) US9141463B2 (ja)
JP (1) JP5532143B2 (ja)
WO (1) WO2012063358A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250650A (ja) * 2012-05-30 2013-12-12 Fujitsu Ltd 監視装置、情報処理装置、監視プログラム、及び監視方法
JP2016004510A (ja) * 2014-06-19 2016-01-12 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
WO2017006457A1 (ja) * 2015-07-08 2017-01-12 株式会社日立製作所 計算機システム及び障害切り分け方法
WO2017017707A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 情報処理装置、エラー処理方法およびエラー処理プログラム
US10019301B2 (en) 2015-04-08 2018-07-10 Fujitsu Limited Information processing device, and control method and storage medium
CN109614256A (zh) * 2012-12-28 2019-04-12 英特尔公司 现场错误恢复

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6176817B2 (ja) 2011-10-17 2017-08-09 ローム株式会社 チップダイオードおよびダイオードパッケージ
US9256489B2 (en) * 2013-10-30 2016-02-09 International Business Machines Corporation Synchronized debug information generation
JP2018055337A (ja) * 2016-09-28 2018-04-05 富士通株式会社 情報処理装置およびプログラム
US10514972B2 (en) * 2018-04-27 2019-12-24 Dell Products L. P. Embedding forensic and triage data in memory dumps
CN113176963B (zh) * 2021-04-29 2022-11-11 山东英信计算机技术有限公司 一种PCIe故障自修复方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205441A (ja) * 1990-11-30 1992-07-27 Nec Corp 主原因判定処理方式
JP2004086278A (ja) * 2002-08-23 2004-03-18 Hitachi Kokusai Electric Inc 装置障害監視方法および装置障害監視システム
JP2006285519A (ja) * 2005-03-31 2006-10-19 Hitachi Global Storage Technologies Netherlands Bv データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置
JP2007109238A (ja) * 2005-10-14 2007-04-26 Dell Products Lp 回復可能なエラーのロギングのためのシステム及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1165898A (ja) 1997-08-21 1999-03-09 Hitachi Ltd 電子計算機の保守方式
US8171340B2 (en) * 2009-12-11 2012-05-01 Red Hat, Inc. Software performance counters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205441A (ja) * 1990-11-30 1992-07-27 Nec Corp 主原因判定処理方式
JP2004086278A (ja) * 2002-08-23 2004-03-18 Hitachi Kokusai Electric Inc 装置障害監視方法および装置障害監視システム
JP2006285519A (ja) * 2005-03-31 2006-10-19 Hitachi Global Storage Technologies Netherlands Bv データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置
JP2007109238A (ja) * 2005-10-14 2007-04-26 Dell Products Lp 回復可能なエラーのロギングのためのシステム及び方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250650A (ja) * 2012-05-30 2013-12-12 Fujitsu Ltd 監視装置、情報処理装置、監視プログラム、及び監視方法
CN109614256A (zh) * 2012-12-28 2019-04-12 英特尔公司 现场错误恢复
JP2016004510A (ja) * 2014-06-19 2016-01-12 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
US10019301B2 (en) 2015-04-08 2018-07-10 Fujitsu Limited Information processing device, and control method and storage medium
WO2017006457A1 (ja) * 2015-07-08 2017-01-12 株式会社日立製作所 計算機システム及び障害切り分け方法
WO2017017707A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 情報処理装置、エラー処理方法およびエラー処理プログラム

Also Published As

Publication number Publication date
JPWO2012063358A1 (ja) 2014-05-12
US20130246855A1 (en) 2013-09-19
JP5532143B2 (ja) 2014-06-25
US9141463B2 (en) 2015-09-22

Similar Documents

Publication Publication Date Title
JP5532143B2 (ja) エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
CN101126995B (zh) 处理严重硬件错误的方法及设备
US9495233B2 (en) Error framework for a microprocesor and system
US6742139B1 (en) Service processor reset/reload
US8832501B2 (en) System and method of processing failure
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
US7702971B2 (en) System and method for predictive failure detection
US9026865B2 (en) Software handling of hardware error handling in hypervisor-based systems
JP4886601B2 (ja) Usbインタフェース設備に対して操作を行う装置及び方法
KR100637780B1 (ko) 분산된 노드 환경에서의 현장 교체 가능형 유닛의 결함분리를 위한 1차 에러 소스의 식별 방법, 메카니즘 및그의 컴퓨터 시스템
US10078543B2 (en) Correctable error filtering for input/output subsystem
US6845469B2 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
TWI480731B (zh) 轉接裝置及經由該轉接裝置之除錯方法
US8166273B2 (en) Degeneration method and information processing apparatus
JP4882736B2 (ja) 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP5302050B2 (ja) 障害解析のためのトレース装置およびトレース方法
JP2014119819A (ja) ストレージ装置、エラー処理方法及びエラー処理プログラム
US20080288828A1 (en) structures for interrupt management in a processing environment
US7925728B2 (en) Facilitating detection of hardware service actions
CN1329839C (zh) 一种计算机cpu抗干扰的设计方法
JP2013109722A (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
US8074006B2 (en) Abnormal status detecting method of interrupt pins
JP5832408B2 (ja) 仮想計算機システム及びその制御方法
JP3953467B2 (ja) チップ中の欠陥を検出し報告するためのシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10859403

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012542776

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10859403

Country of ref document: EP

Kind code of ref document: A1