WO2012063358A1

WO2012063358A1 - エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム

Info

Publication number: WO2012063358A1
Application number: PCT/JP2010/070193
Authority: WO
Inventors: 公裕西山
Original assignee: 富士通株式会社
Priority date: 2010-11-12
Filing date: 2010-11-12
Publication date: 2012-05-18
Also published as: JPWO2012063358A1; US20130246855A1; JP5532143B2; US9141463B2

Abstract

　伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定する。

Description

エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム

　本件は、情報処理装置におけるエラー箇所特定方法およびエラー箇所特定装置に関する。また、本件は、当該方法および装置を実現するためのエラー箇所特定プログラムにも関する。

　情報処理装置は、一般に、中央処理装置（central processing unit、以下「ＣＰＵ」）を備える。ＣＰＵのなかには、システム管理割り込み（System Management Interrupt、以下「ＳＭＩ」）という割り込みの一種により、ＣＰＵの動作モードの一つであるシステム管理モード（System Management Mode、以下「ＳＭＭ」）に移行する機能を備えるものがある。ＳＭＭに移行するＣＰＵの例としては、Ｉｎｔｅｌ社のｘ８６アーキテクチャなどが挙げられる。

　ＣＰＵは、ＳＭＩを受信すると、ＳＭＭモードに移行する。ＳＭＭモードでは、ＣＰＵはＳＭＩハンドラを実行する。ＳＭＩハンドラは、メモリ空間内の独立したアドレス空間であり、他の動作モードからはアクセスできないシステム管理ランダムアクセスメモリ（System Management Random Access Memory、以下「ＳＭＲＡＭ」）空間内でＳＭＩを処理するプログラムである。

　ＳＭＩの処理が完了すると、ＣＰＵはＳＭＭの移行前のモードに戻る。
　ＰＣＩ　Ｅｘｐｒｅｓｓ（ＰＣＩｅ）は、Ｉ／Ｏシリアルインターフェースの一規格である。
　ＰＣＩｅの接続構成においては、ＰＣＩｅのデバイス（ポート）がＰＣＩｅのリンクを介して相互に接続される。詳細には、チップセット内に存在し、接続構成の起点となるＰＣＩｅのルートポートと、ＰＣＩｅポート間でパケットをルーティングするＰＣＩｅスイッチと、末端に位置するＰＣＩｅカード等のエンドポイントとが、ＰＣＩｅのリンクを介して相互に接続される。

　図１２に、ＰＣＩｅの接続の例を模式的に示す。ＰＣＩｅの接続においては、図１２に示すように、ルートポート（あるいはＣＰＵ）に近い上流デバイス１０１と、下流デバイス１０２とが、ケーブル、コネクタ、配線等の物理的な伝送路（以下「伝送路」）１０３によって接続されている。
　このようなＰＣＩｅにおいてエラーが発生し、ＰＣＩｅのリンクが切断している場合（以下「リンクダウン」）に、エラーを引き起こしている箇所（被疑箇所）を特定することを「フォールトロケーション処理」という。

　ここで、図１２に示すように、被疑箇所は、上流デバイス１０１か、下流デバイス１０２か、伝送路１０３の３箇所のいずれかである。

ＰＣＩｅ　Ｂａｓｅ　２．１　Ｓｐｅｃｉｆｉｃａｔｉｏｎ（http://www.pcisig.com/specifications/pciexpress/base2/#b21参照）

　フォールトロケーション処理においては、各デバイス１０１，１０２に備えられたステータスレジスタ１０４，１０５の内容を解析することで障害発生時の被疑箇所を特定する。しかし、リンクダウンが発生している場合は、リンクダウンよりも下流側のデバイス１０２のステータスレジスタ１０５は取得することができない。
　そこで、リンクダウンの被疑箇所の特定には、例えば情報処理装置に専用の機器を装着したのちに、障害を再現させることにより行なう。このため、情報処理装置が稼動している現場では、即座にリンクダウンの被疑箇所を特定することができない。

　ここで、下流デバイス１０２は、ケーブルで接続されたＰＣＩｅデバイスやＰＣＩｅカードなどであるので、上流デバイス１０１に比べて交換が容易な場合が多い。このように下流デバイス１０２の交換が容易であることから、従来のフォールトロケーション処理では、リンクダウン発生時の被疑箇所を、下流デバイスであるとみなして対応していた。その上で、被疑箇所が、他の上流デバイスもしくは伝送路である可能性もある点を、手順書等によって技術員に周知していた。

　しかし、情報処理装置が稼動している各現場で障害対応を図る技術員は、専門スキルが必ずしも十分でなかったり、作業時間が限られているため、他の被疑箇所の可能性を十分検討できない場合があった。
　このような状況で、被疑箇所が誤っていた場合、「正常」と誤って判断された故障部品は交換されない。このため、エラー対処後に再度エラーが発生する可能性が高い。また、正常であるにも関わらず、故障品であると誤って判断された正常品に原因調査など試みても、本来正常であるため、エラーの原因を特定することは困難である。

　このように従来技術では、リンクダウンが発生した場合に被疑箇所を特定し対処するために、非常に多くの時間と手間がかかり、かつ専門スキルを要するという課題があった。
　本件の目的の一つは、情報処理装置のリンクダウンが発生した場合に、専門スキルがなくても、容易かつ短時間で故障箇所を把握して、これに対処可能できるようにする方法、装置およびプログラムを提供することにある。

　このため、伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定する。

　また、伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定装置は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、を備える。

　更に、伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定プログラムは、コンピュータによって実行されたときに、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、して、該コンピュータを機能させる。

　開示の技術によれば、情報処理装置のリンクダウンのエラー時に、被疑箇所を優先順位付きで特定することが可能となるため、さほど専門知識を有さない作業者でも、短時間で故障箇所を把握し、適宜対処できる。

実施形態の一例としてのフォールトロケーション処理部の機能構成を示すブロック図である。実施形態の一例としての情報処理装置のハードウェア構成を模式的に示すブロック図である。回復不能エラー状態レジスタの一例を示す図である。回復可能エラー状態レジスタの一例を示す図である。実施形態の一例としてのフォールトロケーション処理を示すフローチャートである。実施形態の一例としてのリンクダウン被疑箇所特定処理を示すフローチャートである。実施形態の一例としてのエラー検出カウント算出処理を示すフローチャートである。（ａ）～（ｃ）は、実施形態の一例としての被疑分類定義情報の一例を示す図である。実施形態の一例としてのエラー検出カウント情報の一例を示す図である。実施形態の一例としての被疑優先定義優先情報の一例を示す図である。実施形態の一例としてのエラー指摘フォーマット情報の一例を示す図である。リンクダウンが発生した状態を模式的に示す図である。

　１　　　情報処理装置
　１３　　フォールトロケーション処理部
　１７，１８，１９　　ＰＣＩｅポート
　２１　　ＳＭＩ要因判断部
　２０　　フォールトロケーションプログラム
　２６　　エラーＳＭＩ処理部
　２９　　リンクダウン被疑箇所特定処理部
　３０　　エラー指摘処理部
　３１　　ＣＥＳＲ退避部
　３４　　被疑分類定義情報
　３５　　エラー検出カウント情報
　３６　被疑優先順定義情報
　３７　エラー指摘フォーマット情報
　４１　　ＵＥＳＲ
　４２　　ＣＥＳＲ
　４３　　退避ＣＥＳＲ
　ｄ１～ｄｍ　ＰＣＩｅデバイス

　以下、図面を参照して、実施形態の一例としてのエラー箇所特定方法およびエラー箇所特定装置に係る実施の形態を説明する。
　図１は、実施形態の一例としてのフォールトロケーション処理部１３の機能構成を示すブロック図であり、図２は、実施形態の一例としてのエラー箇所特定方法およびエラー箇所特定装置が実施される情報処理装置１のハードウェア構成を示すブロック図である。

　情報処理装置１は、ＣＰＵ２、メモリ３、チップセット４、ＲＯＭ５、入力装置６、および出力装置７を有する。チップセット４は、バスブリッジや周辺回路を集積した複数のチップから構成されている。このチップセットを介して、ＣＰＵ２、メモリ３、チップセット４、ＲＯＭ５、入力装置６、および出力装置７が相互に接続されている。
　また、チップセット４は、ＰＣＩｅの回復不能エラー発生時に、ＣＰＵ２にＳＭＩを発生させる（エラーＳＭＩ）機能を備える他、一定時間毎にＣＰＵ２にＳＭＩを発生させる機能（周期的ＳＭＩ）を有する。更に、チップセット４は、レジスタに識別情報を登録する。

　例えば、Intel社のI/O Hub（IOH）においてエラーＳＭＩ機能を有効にするには、Function=2,Offset=094hのPCIe Error Severity Map Registerのビット３～０でPCIeの回復不能エラーに対してSeverity=0と設定する。その上で、Function=2,Offset=09ChのSystem Error Event Map Registerにより、Severity=0のエラー（回復不能エラー）に対してＳＭＩを生成するように設定する。

　また、例えば、Intel社のI/O Controller Hub10（ICH10）において周期的ＳＭＩ機能を生成するには、I/OアドレスACPI Base Address（ＰＭＢＡＳＥ）+30hのSMI Control and Enable Registerのビット１４のPERIODIC_ENビットで設定する。
　なお、情報処理装置１には、上記に挙げた以外の装置が接続されていてもよい。例えば、表示装置（図２に不図示）などが情報処理装置１に接続される。

　ＲＯＭ５には、情報処理装置１によって実行される種々のプログラムが記憶されている。このようなプログラムの１つが、ハードウエアとの最も低レベルの入出力を行なうためのプログラムであるＢＩＯＳ９である。ＣＰＵ２は、情報処理装置１の起動時に、ＲＯＭ５に記憶されているＢＩＯＳ９等のプログラムを、メモリ３を利用して実行する。
　前述のように、ＣＰＵ２は、各種演算や制御を行なう処理装置である。このＣＰＵ２は、ＳＭＩによりＳＭＭに移行する機能を備える。ここで、ＳＭＭとは、例えば、Ｉｎｔｅｌ社のｘ８６アーキテクチャに導入されているＣＰＵ２の動作モードのうちの一つである。ＣＰＵ２は、ＳＭＩを受信するとＳＭＭモードに移行する。ＳＭＭモードでは、ＣＰＵ２はＳＭＩハンドラ１０を実行する。ＳＭＩハンドラ１０は、他の動作モードからはアクセスできない、メモリ空間内の独立したアドレス空間であるＳＭＲＡＭ空間内でＳＭＩを処理するプログラムである。ＣＰＵ２は、ＳＭＩの処理が完了すると、ＳＭＭ移行前のモードに戻る。

　図２に示す例においては、ＰＣＩｅの接続では、ＰＣＩｅのルートポート１７と、ＰＣＩｅスイッチ１４，１５と、エンドポイント１６とが、ＰＣＩｅのリンクを介して接続される。具体的には、チップセット４に２つのＰＣＩｅスイッチ１４が接続され、各ＰＣＩｅスイッチ１４に２つのスイッチ１５が接続され、これにより、チップセット４を頂点とするツリー状の多段構成が形成されている。ＰＣＩｅのルートポート１７は、チップセット４内に存在し、チップセット４は、構成の起点となる１以上のルートポート１７を備える。ＰＣＩｅスイッチ１４，１５は、ＰＣＩｅポート間でパケットをルーティングする１以上のポート１８を備える。エンドポイント１６は、末端に位置するＰＣＩｅカード等であり、ポート１９を備える。そして、ポート１７とポート１８，ポート１８とポート１８，ポート１８とポート１９が、それぞれ接続されている。

　なお、図２に示す例においては、スイッチ１４，１５が２段に接続されているが、スイッチの接続段数は２段に限られず、１段もしくは３段以上でもよい。
　ＰＣＩｅのデバイス（以下「デバイス」とも称する）であるルートポート１７、ポート１８、ポート１９等は、デバイスの機能毎にコンフィグレーション空間（メモリ空間）を持ち、これらのメモリ空間が、ＢＩＯＳ９等のソフトウェアからＰＣＩｅの機能にアクセスするために使用される。

　このコンフィグレーション空間に、例えば、回復不能なエラー状態を示す回復不能エラー状態レジスタ（uncorrectable error status register、以下「ＵＥＳＲ」）４１（図３参照）や回復可能なエラー状態を示す回復可能エラー状態レジスタ（correctable error status register、以下「ＣＥＳＲ」）４２（図４参照）等が配置される。
　図３は、ＵＥＳＲ４１の一例を示す図であり、図４は、ＣＥＳＲ４２の一例を示す図である。これらのＵＥＳＲ４１およびＣＥＳＲ４２のフォーマットはＰＣＩｅの規格に規定されている。

　また、図２には、メモリ３のメモリ空間８の一部を模式的に示す図も示されている。メモリ空間８は、ＳＭＲＡＭ１１を有し、ＳＭＲＡＭ１１には、ＢＩＯＳ９からロードされたＳＭＩハンドラ１２が存在し、ＳＭＩハンドラ１２は、フォールトロケーションプログラム（エラー箇所特定プログラムの一例）２０を有する。このフォールトロケーションプログラム２０がＣＰＵ２によって実行されることにより、情報処理装置１において、実施形態の一例としてのフォールトロケーション処理部（エラー箇所特定装置の一例）１３が実現される。

　図１は、実施形態の一例としての情報処理装置１におけるフォールトロケーション処理部１３の機能構成を示すブロック図である。
　本開示のフォールトロケーション処理部１３は、ＳＭＩ要因判断部（割り込み判定部の一例）２１、周期的ＳＭＩ処理部２２およびエラーＳＭＩ処理部（エラー箇所特定部の一例）２６を備える。

　ＳＭＩ要因判断部２１は、ＳＭＩの発生要因が周期的ＳＭＩか、PCI Express（以下「ＰＣＩｅ」）デバイスのエラーに伴うＳＭＩかを判断する。その際、ＳＭＩ要因判断部２１は、チップセットのレジスタを参照して、発生したＳＭＩが、周期的なＳＭＩかＰＣＩｅデバイスのエラーに伴うＳＭＩかを判断する。
　例えば、上記のように、Intel社のI/O Hub（IOH）の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のＰＣＩｅの各ルートポートを起点とするＰＣＩｅ構成でエラーが発生したことを判断する。

　また、例えば、Intel社のI/O Controller Hub10（ICH10）の場合は、PMBASE + 34hのＳＭＩ Status Registerのビット１４のPERIODIC_STSビットにより、周期的なＳＭＩの発生を判断する。
　そして、ＳＭＩ要因判断部２１は、周期的ＳＭＩの場合は周期的ＳＭＩ処理部２２を呼び出す一方、ＰＣＩｅデバイスのエラーの場合はエラーＳＭＩ処理部２６を呼び出す。

　周期的ＳＭＩ処理部２２は、周期的ＳＭＩ時に、情報処理装置１に接続されている全ＰＣＩｅデバイスのＣＥＳＲ４２の値を読み出して、ＣＥＳＲ退避部３１に退避させたのちに、各ＣＥＳＲ４２のクリアを実施する。周期的ＳＭＩ処理部２２は、ＣＥＳＲ読み出し処理部２３、ＣＥＳＲ退避処理部２４、およびＣＥＳＲクリア処理部２５を有する。
　ＣＥＳＲ読み出し処理部２３は、周期的ＳＭＩ毎に、情報処理装置１に接続されている全ＰＣＩｅデバイスそれぞれのＣＥＳＲ４２の値を読み出す。

　ＣＥＳＲ退避処理部２４は、ＣＥＳＲ読み出し処理部２３が読み出した、各デバイスのＣＥＳＲ４２の値を、後述するＣＥＳＲ退避部３１に格納する。
　ＣＥＳＲクリア処理部２５は、ＣＥＳＲ４２の各ビットにセットされている回復可能エラー状態をクリアする。回復可能エラー状態をクリアすることにより、以降の周期的ＳＭＩ時に、回復可能エラー状態が再び発生したかどうかの把握が可能となる。

　エラーＳＭＩ処理部２６は、エラーＳＭＩ時に、ＵＥＳＲ４１を読み出し、リンクダウンを判定し、ＣＥＳＲ退避部３１に退避させていたＣＥＳＲの値を読み取り、後述する解析情報記憶部３２を参照して被疑箇所を特定し、エラーを指摘する。
　このエラーＳＭＩ処理部２６は、ＵＥＳＲ読み出し処理部２７、リンクダウン検出処理部２８、リンクダウン被疑箇所特定処理部２９、およびエラー指摘処理部３０を有する。

　ＵＥＳＲ読み出し処理部２７は、ＰＣＩｅデバイスのＵＥＳＲ４１の値を読み出す。
　リンクダウン検出処理部２８は、ＵＥＳＲ読み出し処理部２７が読み出したＵＥＳＲに基づいて、リンクダウンが発生しているかを判定する。例えば、図３に示すＵＥＳＲ４１のステータスビット５「Surprise Down Error Status」が１にセットされている場合、リンクダウンが発生していると判定する。

　リンクダウン被疑箇所特定処理部２９は、リンクダウンが発生している場合に、リンクダウンの被疑箇所候補（上流デバイス、下流デバイスもしくは伝送路）の各々について、回復可能エラー状態の出現回数をカウントして、図９を参照して後述するエラー検出カウント情報３５を作成する。その際、リンクダウン被疑箇所特定処理部２９は、ＣＥＳＲ退避部３１に退避されているリンクダウン発生部分の上流デバイスおよび下流デバイスのＣＥＳＲ４１の値と、後述する解析情報記憶部３２の被疑分類定義情報３４とを使用する。

　ここで、伝送路によって相互接続されたデバイスにおいて、ＣＰＵ２（あるいはルートポート１７）に近い側のデバイスを「上流デバイス」と称し、伝送路によって当該上流デバイスに接続され、ＣＰＵ２（あるいはルートポート１７）から遠い側のデバイスを「下流デバイス」と称する。例えば、図２のチップセット４のルートポート１７とスイッチ１４のポート１８間のリンクにおいて、上流デバイスはルートポート１７、下流デバイスはポート１８であり、伝送路は、ルートポート１７とポート１８間を接続している伝送路を指す。

　そして、リンクダウン被疑箇所特定処理部２９は、エラー検出カウント情報３５の各被疑箇所候補のカウント値を比較し、カウント値が最大の候補が一つしかない場合は、その候補を被疑箇所と判定する。一方、カウント値が最大の候補が複数存在する場合は、図１０を参照して後述する被疑優先順定義情報３６の優先順位が一番高い候補を被疑箇所として特定する。

　例えば、図９のエラー検出カウント情報３５の例においては、伝送路と下流デバイスとは共にエラー検出カウントが「４」である。しかしながら、図１０の被疑優先順定義情報３６において、下流デバイスよりも伝送路のほうに高い優先順位が与えられているため、リンクダウン被疑箇所特定処理部２９は伝送路が被疑箇所であると判定する。
　なお、リンクダウン被疑箇所特定処理部２９の処理の詳細については、図７を参照して後述する。

　エラー指摘処理部３０は、リンクダウン被疑箇所特定処理部２９によって特定されたリンクダウンの被疑箇所を、後述するエラー指摘フォーマット情報３７に基づいて表示装置３８に出力する。
　更に、図２の情報処理装置１においては、フォールトロケーションプログラム２０を実行することにより、フォールトロケーション処理部１３によって使用されるＣＥＳＲ退避部３１（エラー記憶部の一例）と解析情報記憶部３２とが、メモリやハードディスク（不図示）などのデータ記憶装置内の領域に確保される。

　ＣＥＳＲ退避部３１は、図１に示したメモリ３等のメモリやハードディスク（不図示）などのデータ記憶装置内の領域であり、ＣＥＳＲの値が、退避ＣＥＳＲ４３として退避される。ＣＥＳＲ退避部３１は、ＰＣＩｅのデバイスｄ１，ｄ２，ｄ３，…，ｄｍ（ｍは２以上の整数）毎に、周期ＳＭＩ毎の複数世代ｔ０，ｔ１，ｔ２，…，ｔｎ（ｎは２以上の整数）の退避ＣＥＳＲ４３をそれぞれ格納している。

　例えば８秒毎に発生する周期的ＳＭＩに対して、３世代分（ｎ＝３）の退避ＣＥＳＲ４３を退避する場合、一つのデバイスにつき、周期ＳＭＩの開始から８秒後、１６秒後、２４秒後の３世代分の退避ＣＥＳＲ４３が、ＣＥＳＲ退避部３１に格納される。その後、ＣＥＳＲ退避部３１の退避ＣＥＳＲ４３が、古いものから順に、新たな退避ＣＥＳＲ４３によって上書きされる。すなわち、先に挙げた例では、３２秒後に、先に退避させた８秒時点の退避ＣＥＳＲ４３が上書きされて、最新の３世代の退避ＣＥＳＲ４３が退避される。なお、周期的ＳＭＩの発生間隔や、格納する退避ＣＥＳＲ４３の世代数（ｎ）は、適宜変更することができる。

　解析情報記憶部３２も、図１に示したメモリ３等のメモリやハードディスク（不図示）などのデータ記憶装置内の領域であり、退避ＣＥＳＲ４３を解析し、エラーとして指摘するための情報を記憶する。解析情報記憶部３２は、被疑箇所解析情報３３と、エラー指摘のフォーマットを定義するエラー指摘フォーマット情報３７とを備える。
　被疑箇所解析情報３３は、被疑分類定義情報３４と、エラー検出カウント情報３５と、被疑優先定義情報３６とを備える。

　被疑分類定義情報３４は、ＣＥＳＲの各ビットに割り当てられた状態と、リンクダウンの被疑箇所候補とを対応付ける情報であり、図７を参照して後述するリンクダウン被疑箇所特定処理部２９において、エラー検出回数のカウントに使用される。
　被疑分類定義情報３４は、図８（ａ）～（ｃ）に示すような３２ビットのビットシーケンスである。被疑分類定義情報３４は、リンクダウン発生時の被疑候補が、回復可能エラーが発生したデバイス（以下「自デバイス」）、当該デバイスとＰＣＩｅリンクで接続されている相手先のデバイス（以下「対向デバイス」）、伝送路（ＰＣＩｅリンク）の３候補のうち、いずれである可能性が高いかの判定に使用される情報である。被疑分類定義情報３４は、ＣＥＳＲ４２の各ビットに割り当てられた各回復可能エラーに対応している。

　例えば、図８（ａ）の自デバイスの被疑分類定義では、ビット１４に１がセットされている。これは、自デバイスのエラーを示すＣＥＳＲ４２のステータスビット１４「Corrected Internal Error Status」に対応している（図３参照）。そして、ステータスビット１４に１がセットされた自デバイスの被疑分類定義と、リンクダウンが発生する以前の退避ＣＥＳＲ４３とのＡＮＤ演算を行なった結果、ビット１４「Corrected Internal Error Status」が１である場合は、そのデバイスがリンクダウンの被疑箇所の可能性が高い。

　また、図８（ｂ）の伝送路の被疑分類定義も同様に、ビット１２、７、６、０に１がセットされている。これは、伝送路のエラーを示すＣＥＳＲ４２のステータスビット１２「Replay Timer Timeout Status」、ビット７「Bad DLLP Status」、ビット６「Bad TLP Status」、ビット０「Receiver Error Status」に対応している（図３参照）。そして、ステータスビット１２、７、６、０に１がセットされた伝送路の被疑分類定義と、リンクダウンが発生する以前の退避ＣＥＳＲ４３とのＡＮＤ演算を行なった結果、ビット１２、７、６、０のいずれかが１の場合は、伝送路がリンクダウンの被疑候補である可能性が高い。

　図８（ｃ）の対向デバイスの被疑分類定義では、ビット８に１がセットされている。これは、対向デバイス（上流デバイスのＣＥＳＲ４２の場合は下流デバイス、下流デバイスのＣＥＳＲ４２の場合は上流デバイス）のエラーを示すＣＥＳＲ４２のステータスビット８「REPLAY_NUM Rollover Status」に対応している（図３参照）。そして、ステータスビット８に１がセットされた対向デバイスの被疑分類定義と、リンクダウンが発生する以前の退避ＣＥＳＲ４３とのＡＮＤ演算を行なった結果、ビット８が１である場合、対向デバイスがリンクダウンの被疑候補の可能性が高い。

　エラー検出カウント情報３５は、図７を参照して後述するリンクダウン被疑箇所特定処理部２９において、上流デバイス、伝送路、下流デバイスの各被疑箇所候補（候補箇所）について、被疑分類定義情報３４を使用して、退避ＣＥＳＲ４３に出現したエラーの回数を示す情報である。エラー検出カウント情報３５の例を図９に示す。
　被疑優先定義情報３６は、被疑箇所候補（上流デバイス、下流デバイスおよび伝送路）間の優先順位を定義する情報であり、エラー検出カウント情報３５のカウント値が最大かつ同数である候補が複数存在する場合に、いずれを被疑箇所とするかを判定するために使用される。被疑優先順定義情報３６は、図１０に示す例においては、上流デバイスに優先順位３が、伝送路に優先順位１が、下流デバイスに優先順位２がそれぞれ与えられている。この優先順位は、例えば、統計解析や経験などによって定められ、優先順位が小さいほうがより疑わしいとされる。

　例えば、図９の例の場合、下流デバイスと伝送路の発生回数が共に４回であるため、図１０に示す被疑優先順定義情報３６で優先順位が一番高い伝送路が、被疑箇所であると判定される。
　表示装置３８は、情報処理装置１に内蔵されるかまたは外付けの液晶ディスプレイやＣＲＴなどの出力装置である。リンクダウン被疑箇所特定処理部２９によって特定されたリンクダウンの被疑箇所の情報が、エラー指摘フォーマット情報３７に従って表示装置３８に出力される。

　上述のフォールトロケーション処理部１３、ＳＭＩ要因判断部２１、周期的ＳＭＩ処理部２２、エラーＳＭＩ処理部２６、ＣＥＳＲ読み出し処理部２３、ＣＥＳＲ退避処理部２４、およびＣＥＳＲクリア処理部２５、ＵＥＳＲ読み出し処理部２７、リンクダウン検出処理部２８、リンクダウン被疑箇所特定処理部２９、およびエラー指摘処理部３０は、図２に示したＣＰＵ２が、メモリ３を使用してフォールトロケーションプログラム２０等を実行することにより実現される。

　また、図２のメモリ３は、ＣＥＳＲ記憶部３１および解析情報記憶部３２として機能してもよい。
　なお、フォールトロケーション処理部１３、ＳＭＩ要因判断部２１、周期的ＳＭＩ処理部２２、エラーＳＭＩ処理部２６、ＣＥＳＲ読み出し処理部２３、ＣＥＳＲ退避処理部２４、およびＣＥＳＲクリア処理部２５、ＵＥＳＲ読み出し処理部２７、リンクダウン検出処理部２８、リンクダウン被疑箇所特定処理部２９、およびエラー指摘処理部３０としての機能を実現するためのプログラムは、例えばフレキシブルディスク，ＣＤ（ＣＤ－ＲＯＭ，ＣＤ－Ｒ，ＣＤ－ＲＷ等），ＤＶＤ（ＤＶＤ－ＲＯＭ，ＤＶＤ－ＲＡＭ，ＤＶＤ－Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ－ＲＷ，ＤＶＤ＋ＲＷ，ＨＤ　ＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。

　次に、図５を参照して、フォールトロケーション処理部１３が実行するフォールトロケーション処理（エラー箇所特定方法の一例）について説明する。図５は、実施形態の一例としてのフォールトロケーション処理を示すフローチャート（ステップＳ１～Ｓ９）である。
　リンクダウンが発生すると、チップセット４がエラーＳＭＩを生成し、フォールトロケーション処理部１３によってフォールトロケーション処理が開始される。

　最初に、フォールトロケーション処理部１３のＳＭＩ要因判断部２１が、ＳＭＩの発生要因が周期的ＳＭＩか、ＰＣＩｅデバイスのエラーに伴うＳＭＩかを判断する（ステップＳ１）。
　例えば、上記のように、Intel社のI/O Hub（IOH）の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のＰＣＩｅの各ルートポートを起点とするＰＣＩｅ構成でエラーが発生したことを判断する。

　また、例えば、Intel社のI/O Controller Hub10（ICH10）の場合は、PMBASE + 34hのＳＭＩ Status Registerのビット１４のPERIODIC_STSビットにより、周期的なＳＭＩの発生を判断する。
　ＳＭＩが周期的ＳＭＩである場合（ステップＳ１の「Ｎｏ」ルート参照）、周期的ＳＭＩ処理部２２は、全ＰＣＩｅデバイスｄ１，ｄ２，…，ｄｍに対して以下の処理を実行する。

　最初に、周期的ＳＭＩ処理部２２は、当該ＰＣＩｅデバイスのＣＥＳＲを読み出して（ステップＳ２）、読み出したＣＥＳＲをＣＥＳＲ退避部３１に、退避ＣＥＳＲ４３として退避する（ステップＳ３）。
　次に、ステップＳ３において、周期的ＳＭＩ処理部２２は、リンクダウンに関連する回復可能エラー状態のいずれかのビットが１にセットされているかどうかを判定し、いずれかのビットが１である場合（ステップＳ４の「Ｙｅｓ」ルート参照）、ステータスビットをクリアする（ステップＳ５）。

　なお、この例においては、１がセットされているビットに１をセットすることにより、当該ビットがクリア（０）にセットされるゼロクリア構成のレジスタが使用される。そのため、ステップＳ５では、１にセットされているビットに１を書き込むことで、ステータスビットをクリアする。しかし、ゼロクリア以外のレジスタ構成も使用することができる。

　また、例えば、リンクダウンに関連するＣＥＳＲのステータスビットとしては、ＣＥＳＲのビット０「Receiver Error Status」、ビット６「Bad TLP Status」、ビット７「Bad DLLP Status」、ビット８「REPLAY_NUM Rollover Status」、ビット１２「Replay Timer Timeout Status」、ビット１４「Corrected Internal Error Status」が挙げられ、これらのビットをチェックして、ビットが１の場合は、１を書き込んでクリアする。

　そして、周期的ＳＭＩ処理部２２は次のデバイスに進み、ステップＳ２～Ｓ５の処理を繰り返す。
　なお、ステップＳ３において、どのビットも０である場合（ステップＳ４の「Ｎｏ」ルート参照）も、周期的ＳＭＩ処理部２２は次のデバイスに進み、ステップＳ２～Ｓ５の処理を繰り返す。

　全てのデバイスについてステップＳ２～Ｓ５の処理を完了したら、フォールトロケーション処理が終了する。
　一方、ＳＭＩが、ＰＣＩｅのエラーである場合（ステップＳ１の「Ｙｅｓ」ルート参照）、全てのＰＣＩｅデバイスについて、以下の処理が実行される。
　まず、ＵＥＳＲ読み出し処理部２７がＵＥＳＲ４１を読み出して（ステップＳ６）、リンクダウン検出処理部２８が、ＵＥＳＲ４１のステータスビット５「Surprise Down Error Status」が１に設定されているかどうかをチェックすることにより、リンクダウンによるエラーであるかを判定する（ステップＳ７）。例えば、上記の例では、ＵＥＳＲ４１のステータスビット５が１にセットされている場合（ステップＳ７の「Ｙｅｓ」ルート参照）、リンクダウン検出処理部２８は、リンクダウンが発生していると判定する。

　次に、リンクダウン被疑箇所特定処理部２９が、リンクダウンの被疑箇所が、上流デバイスか、下流デバイスか、伝送路かを判断するリンクダウン被疑箇所特定処理を実行する（ステップＳ８）。この処理の詳細については図６を参照して後述する。
　次に、エラー指摘処理部３０が、リンクダウン被疑箇所特定処理で特定されたリンクダウンの被疑箇所を、エラー指摘フォーマット情報３７に基づいて、表示装置３８に出力する（ステップＳ９）。

　ステップＳ６において、リンクダウンが発生していないと判定された場合（ステップＳ７の「Ｎｏ」ルート参照）、ステップＳ９に進み、エラー指摘処理部３０が、エラー指摘フォーマット情報３７に基づいて、表示装置３８にエラーを出力する。
　ステップ９においてエラー指摘処理部３０が、エラーを指摘したのちに、次のデバイスに進み、ステップＳ６～Ｓ９の処理を繰り返す。

　全てのデバイスｄ１，ｄ２，…，ｄｍについてステップＳ６～Ｓ９の処理を完了したら、フォールトロケーション処理が終了する。
　次に、図６を参照して、リンクダウン被疑箇所特定処理部２９のリンクダウン被疑箇所特定処理について説明する。図６は、実施形態の一例としてのリンクダウン被疑箇所特定処理を示すフローチャート（ステップＳ１１～Ｓ１５）である。

　最初に、リンクダウン被疑箇所特定処理部２９は、ＣＥＳＲ退避部３１から、リンクダウン発生部の上流デバイスと下流デバイスのそれぞれの退避ＣＥＳＲ４３を取得する(ステップＳ１１)。
　次に、リンクダウン被疑箇所特定処理部２９は、ステップＳ１１で取得した退避ＣＥＳＲ４３の値と解析情報記憶部３２の被疑分類定義情報３４とを用いて、エラー検出カウント算出処理を実行する（ステップＳ１２）。エラー検出カウント算出処理は、リンクダウンの被疑箇所候補である上流デバイス、下流デバイスもしくは伝送路のそれぞれの、退避ＣＥＳＲ４３における回復可能エラー状態の出現回数（エラー検出カウント情報３５）をカウントする処理である。エラー検出カウント算出処理については、図７を参照して後述する。

　次に、リンクダウン被疑箇所特定処理部２９は、エラー検出カウント情報３５のリンクダウンの被疑箇所候補間のカウント値を比較し、カウント値が最大の候補が一つかどうかを判定する（ステップＳ１３）。カウント値が最大の候補が一つの場合（ステップＳ１３の「Ｙｅｓ」ルート参照）、その候補を被疑箇所と判定し（ステップＳ１４）、リンクダウン被疑箇所特定処理を終了する。

　カウント値が最大の候補が複数存在する場合（ステップＳ１３の「Ｎｏ」ルート参照）、リンクダウン被疑箇所特定処理部２９は、これらの複数の候補に対して被疑優先順定義情報３６の優先順位を適用し、優先順位が最高の候補を被疑箇所であると判定し（ステップＳ１５）、リンクダウン被疑箇所特定処理を終了する。
　次に、図７を参照して、エラー検出カウント算出処理について説明する。図７は、実施形態の一例としてのエラー検出カウント算出処理を示すフローチャート（ステップＳ２１～Ｓ３６）である。

　まず、リンクダウン被疑箇所特定処理部２９は、上流デバイスについてループ処理を実行する（ステップＳ２１）。上流デバイスｕｄ１～ｕｄｌ（ｌ＝２以上の整数）について判定すべく、これらの上流デバイスｕｄ１～ｕｄｌを順次判定対象とする。
　まず、リンクダウン被疑箇所特定処理部２９は、上流デバイスの被偽判定回数を計数するカウンタ、下流デバイスの被偽判定回数を計数するカウンタ、および伝送路の被偽判定回数を計数するカウンタをそれぞれ０にセットする（ステップＳ２２）。

　次に、リンクダウン被疑箇所特定処理部２９は、判定対象のデバイスの、退避させた各世代ｔ０，ｔ１，…，ｔｎの退避ＣＥＳＲ４３について判定すべく、これらの退避ＣＥＳＲ４３　ｔ０，ｔ１，…，ｔｎを順次判定対象とする。カウンタ値ｉに初期値１を設定し、ステップＳ２３において、ＣＥＳＲ退避部３１から、退避ＣＥＳＲ４３　ｔｉ（ｉ＝１～ｎ－１）を読み出す。

　次に、ステップＳ２４において、リンクダウン被疑箇所特定処理部２９は、被偽分類定義ループに入り、被偽分類定義が、自デバイス、対向デバイス、および伝送路の場合のそれぞれについて、以下の処理を実行する。
　被偽分類定義が「自デバイス」の場合、リンクダウン被疑箇所特定処理部２９は、前述の図８（ａ）のビットシーケンスを読み込む。被偽分類定義が「伝送路」の場合、図８（ｂ）のビットシーケンスを読み込む。被偽分類定義が「対向デバイス」の場合、図８（ｃ）のビットシーケンスを読み込む。

　次に、リンクダウン被疑箇所特定処理部２９は、ステップＳ２３で読み出した退避ＣＥＳＲ４３　ｔｉと、ステップＳ２４で読み出したビットシーケンスとを比較（ＡＮＤ演算）して、同じビットが両方とも１であるビット数の合計を算出する（ステップＳ２５）。
　次に、リンクダウン被疑箇所特定処理部２９は、判定対象のデバイスが上流デバイスであるか、下流デバイスであるかを判定する（ステップＳ２６）。

　判定対象のデバイスが上流デバイスである場合（ステップＳ２６の「Ｙｅｓ」ルート参照）、リンクダウン被疑箇所特定処理部２９は、ステップＳ２４で読み出した被偽分類定義が自デバイスであるかどうかを判定する（ステップＳ２７）。被偽分類定義が自デバイスである場合（ステップＳ２７の「Ｙｅｓ」ルート参照）、上流デバイスの被偽判定回数カウンタの計数値に、ステップＳ２５で求めたビットの合計数を加算する（ステップＳ２８）。

　また、ステップＳ２７において、ステップＳ２４で読み出した被偽分類定義が自デバイスではない場合（ステップＳ２７の「Ｎｏ」ルート参照）、次に、リンクダウン被疑箇所特定処理部２９は、被偽分類定義が対向デバイスであるかどうかを判定する（ステップＳ２９）。被偽分類定義が対向デバイスである場合（ステップＳ２９の「Ｙｅｓ」ルート参照）、下流デバイスの被偽判定回数（カウンタ）に、ステップＳ２５で求めたビットの合計数を加算して（ステップＳ３０）、次の被偽分類に移る。

　また、ステップＳ２９において、被偽分類定義が対向デバイスではない場合（ステップＳ２９の「Ｎｏ」ルート参照）、リンクダウン被疑箇所特定処理部２９は、伝送路の被偽判定回数カウンタの計数値に、ステップＳ２５で求めたビットの合計数を加算する（ステップＳ３１）。
　また、ステップＳ２６において、対象のデバイスが上流デバイスではない場合（ステップＳ２６の「Ｎｏ」ルート参照）、リンクダウン被疑箇所特定処理部２９は、ステップＳ２４で読み出した被偽分類定義が自デバイスであるかどうかを判定する（ステップＳ３２）。被偽分類定義が自デバイスである場合（ステップＳ３２の「Ｙｅｓ」ルート参照）、下流デバイスの被偽判定回数カウンタの計数値に、ステップＳ２５で求めたビットの合計数を加算して（ステップＳ３３）、次の被偽分類に移る。

　また、ステップＳ３２において、ステップＳ２４で読み出した被偽分類定義が自デバイスではない場合（ステップＳ３２の「Ｎｏ」ルート参照）、リンクダウン被疑箇所特定処理部２９は、被偽分類定義が対向デバイスであるかどうかを判定する（ステップＳ３４）。被偽分類定義が対向デバイスである場合（ステップＳ３４の「Ｙｅｓ」ルート参照）、上流デバイスの被偽判定回数カウンタの計数値に、ステップＳ２５で求めたビットの合計数を加算して（ステップＳ３５）、次の被偽分類に移る。

　また、ステップＳ３４において、被偽分類定義が対向デバイスではない場合（ステップＳ３４の「Ｎｏ」ルート参照）、リンクダウン被疑箇所特定処理部２９は、伝送路の被偽判定回数カウンタの計数値に、ステップＳ２５で求めたビットの合計数を加算して（ステップＳ３６）、次の被偽分類に移る。
　自デバイス、対向デバイス、および伝送路のそれぞれの被偽分類定義について、ステップＳ２５～Ｓ３６の処理を終了したら、ステップＳ２３に移り、リンクダウン被疑箇所特定処理部２９は次の退避ＣＥＳＲ４３を読み出して（ステップＳ２３）、ステップＳ２４～Ｓ３６の処理を繰り返す。

　全ての退避ＣＥＳＲ４３について、上記Ｓ２３～Ｓ３６の処理を終了したら、ステップＳ２１に移り、下流デバイスｌｄ１～ｌｄｌ（ｌ＝２以上の整数）についても上記の処理を実行する。
　上記のようにして計算を繰り返すことにより、図９に示すエラー検出カウント情報３５を算出する。

　図１１は、エラー指摘の一例であり、エラーが優先順位付きで指摘されている。図１１の例では、上流デバイスがＰＣＩｅスイッチ０のポート１（「ＳＷ０－Ｐ１」と称する）、下流デバイスがＰＣＩｅスイッチ１のポート０（以下「ＳＷ１－Ｐ０」と称する）の場合を示す。この例では、ＳＷ０－Ｐ１とＳＷ１－Ｐ０の間のＰＣＩｅの伝送路が、被疑箇所候補としての優先順位が一番高く、次に優先順位が高い被疑箇所候補は下流デバイスのＳＷ１－Ｐ０のＰＣＩｅポート、優先順位が一番低い被疑箇所候補はＳＷ０－Ｐ１のＰＣＩｅポートである。

　また、これらの情報と共に、タイムスタンプ、エラー種類、エラー内容も併せて指摘される。なお、指摘される情報は例に過ぎず、適宜変更することができる。
　上に記載した実施形態の一例に係るエラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラムは、以下の効果を有する。
（１）情報処理装置１のリンクダウンのエラー時に、被疑箇所を優先順位付きで特定することが可能となるため、さほど専門知識を有さない作業者でも、短時間で故障箇所を把握し、適宜対処できる。このため、作業者の教育時間を短縮でき、情報処理装置１のシステムの運用コストを低減できる。また、迅速に障害対応を図ることができるため、システムの稼働率を向上させることができる。
（２）また、情報処理装置１のリンクダウンのエラー時には、退避させておいた退避ＣＥＳＲ４３がエラー解析に使用されるため、情報処理装置１の稼働中に、専用の検査装置を情報処理装置に接続する必要がない。このため、情報処理装置１の稼働に影響を及ぼさずに、いつでも障害対応を図ることができる。
（３）更に、専用の検査装置が不要となるほか、適切な候補を被疑箇所として特定できることにより、不良部品を適切に交換できるため、システムの保守費用を低減することができる。

　本開示の一実施形態について説明したが、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
　例えば、上記の実施形態の例においては、優先順位が一番高い一つの被疑箇所を特定し、エラーとして指摘しているが、優先順位付きで複数の被疑箇所を指摘することも可能である。

　上記実施形態の一例では、PCI express接続されている装置において本方法が実施されている。しかし、例えば、本開示は、リンクエラーの被疑箇所を特定できないほかの接続トポロジーにも適用することができる。例えば、各接続点が1対１で接続されており、スイッチによって複数デバイス接続がされており、各接続点にステータスレジスタを持つ、他の接続の装置においても、本開示を適用できる。

　また、被疑箇所等を表示装置３８に表示させる代わりに、プリンタ等の印刷装置や、スピーカ等の音声出力装置を備え、これらを用いて被疑箇所等を出力してもよい。

　本技術は、伝送路によって接続された複数のデバイスを有する情報処理装置において利用可能である。

Claims

　伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法であって、
　割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、
　周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、
　エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定することを特徴とする方法。
　該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする請求項１に記載の方法。
　該エラーの履歴の解析においては、各デバイスについてエラーが発生する可能性のある箇所ごとの回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする請求項２に記載の方法。
　該カウント値が最大の被疑箇所の候補が複数ある場合に、予め定義された優先順位に従って被疑箇所を選択することを特徴とする請求項３に記載の方法。
　該エラーを、予め定義されたフォーマットで指摘することを特徴とする請求項１～４のいずれか１項に記載の方法。
　伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定装置であって、該エラー箇所特定装置は、
　割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
　周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
　エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、を備えたことを特徴とするエラー箇所特定装置。
　該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする請求項６に記載のエラー箇所特定装置。
　該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする請求項７に記載のエラー箇所特定装置。
　該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする請求項８に記載のエラー箇所特定装置。
　特定されたエラーの原因を指摘する指摘部を更に有し、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする請求項６～９のいずれか１項に記載のエラー箇所特定装置。
　各デバイスはＰＣＩ　Ｅｘｐｒｅｓｓのデバイスであることを特徴とする請求項６～１０のいずれか１項に記載のエラー箇所特定装置。
　該エラーの被疑箇所は、上流デバイス、下流デバイスおよび伝送路のいずれかであることを特徴とする請求項６～１１のいずれか１項に記載のエラー箇所特定装置。
　伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定プログラムであって、コンピュータによって実行されたときに、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
　周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
　エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、
して、該コンピュータを機能させることを特徴とする、エラー箇所特定プログラム。
　該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする請求項１３に記載のエラー箇所特定プログラム。
　該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を該被疑箇所とすることを特徴とする請求項１４に記載のエラー箇所特定プログラム。
　該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする請求項１５に記載のエラー箇所特定プログラム。
　特定されたエラーの原因を指摘する指摘部として該コンピュータを機能させ、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする請求項１３～１６のいずれか１項に記載のエラー箇所特定プログラム。