JPWO2007099578A1 - 故障解析装置 - Google Patents

故障解析装置 Download PDF

Info

Publication number
JPWO2007099578A1
JPWO2007099578A1 JP2008502565A JP2008502565A JPWO2007099578A1 JP WO2007099578 A1 JPWO2007099578 A1 JP WO2007099578A1 JP 2008502565 A JP2008502565 A JP 2008502565A JP 2008502565 A JP2008502565 A JP 2008502565A JP WO2007099578 A1 JPWO2007099578 A1 JP WO2007099578A1
Authority
JP
Japan
Prior art keywords
information
analysis
failure
log
log information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008502565A
Other languages
English (en)
Other versions
JP4523659B2 (ja
Inventor
雅人 中川
雅人 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007099578A1 publication Critical patent/JPWO2007099578A1/ja
Application granted granted Critical
Publication of JP4523659B2 publication Critical patent/JP4523659B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

論理回路の実装されるボード番号及びボード上搭載位置に対応付けて、その論理回路から収集するログ情報について、そのログ情報が発生するときに処理すべき情報と、そのログ情報が有効なものとなる条件の情報と、そのログ情報が無効なものとなる条件の情報とについて記述する解析情報を定義して、この解析情報を使って、論理回路を単位として故障解析を行うようにする。そして、この解析情報がさらにログ情報の優先度の情報を記述するようにすることで、この論理回路を単位とする故障解析の実現にあたって、重大な故障を漏れのない形で解析することを実現する。

Description

本発明は、複数の論理回路を搭載する複数のボードを具備する情報処理装置に実装されて、それらの論理回路にどのような故障が発生したのかを解析する故障解析装置に関し、特に、メモリ資源の削減、処理の高速化および開発工数の削減を実現するとともに、重大な故障を漏れなく解析することを実現し、さらに、解析不可能範囲を小さくすることを実現する故障解析装置に関する。
今日、高密度に集積化され複雑化したASIC(Application Specific Integrated Circuit :特定用途向けIC)などのようなLSIを搭載する情報処理装置においては、停止時間や復旧時間の削減のために、LSIに故障が発生するときに、その正確な故障箇所を自律的に速やかに判定するとともに、その影響範囲を自律的に速やかに判定する故障解析機能の実現が強く求められている。
LSIの集積化が進むことで、LSIの故障解析に必要となる解析情報は増加の一途を辿っており、それらの大量の解析情報の入力作業が必要となっている。しかも、各LSIの設計者とLSIを搭載するシステムの設計者とLSIの故障解析を行うファームウェアの設計者との間に意思の疎通が避けられないことから、そのような故障解析機能を実現するためには膨大な開発工数が要求されることになる。
これから、そのような故障解析機能を効率的に実現するための新たな技術の構築が叫ばれている。
ASICを搭載する情報処理装置では、通常、複数種類の複数のASICを搭載するシステムボードを複数枚具備することになる。
これから、従来では、ASICに故障が発生する場合に、各システムボード用に用意する1枚又は数枚の解析用テーブルを用いてシステムボードを単位にして故障解析を行い、そのシステムボードを単位にして行った解析結果を集めて、システム全体としての解析結果を導出するようにしていた。
図15に、従来技術の構成を図示する。
ここで、図15中、100は情報処理装置内に実装される解析対象となる複数のシステムボードを示し、110はボード解析情報テーブルを示し、120はシステム解析情報テーブルを示し、130は解析処理部を示す。
このシステムボード100には、通常、複数種類の複数のASICが搭載されている。ボード解析情報テーブル110は、システムボード100毎に定義されて、そのシステムボード100に搭載されるASICに発生した故障の解析に必要となる情報を記憶する。システム解析情報テーブル120は、システムボード100間の故障解析に必要となる情報を記憶する。解析処理部130は、システムボード100毎の故障解析を行う解析処理機能と、システム全体の故障解析を行う解析処理機能とで構成される。
ここで、解析処理部130については、具体的には、情報処理装置に実装されるファームウェア(以下、監視ファームウェアと称することがある)により実現され、ボード解析情報テーブル110およびシステム解析情報テーブル120については、そのファームウェアの持つメモリ上に展開されることになる。
このように構成される従来技術では、システムボード100を単位にしてASICのログ情報(後述するハード故障フラグ)を収集して、システムボード100毎に定義されるボード解析情報テーブル110を使ってシステムボード100についての故障解析を行うことで、そのシステムボード100で発生した故障を特定する。
そして、このシステムボード100についての故障解析を終了すると、続いて、システム解析情報テーブル120を使い、例えば、受信側で検出される故障は送信側で発生した故障に伴って発生することを考慮して、受信側で検出される故障については故障解析から除外するというようなシステム全体の故障解析を行うことで、最終的にどのような故障が発生したのかを特定する。
このようにして、従来技術では、ASICに故障が発生する場合に、先ず最初に、システムボード100を単位にして故障解析を行い、続いて、そのシステムボード100を単位にして行った解析結果を集めて、システム全体としての解析結果を導出するようにしていた。
この故障解析を行うときに必要となるボード解析情報テーブル110については、ASICの設計者やシステムボード100の設計者が作成し、システム解析情報テーブル120については、システムの設計者やシステムボード100の設計者が作成することになる。
すなわち、従来技術では、図16に示すように、ボード解析情報テーブル110のコンパイル前のデータであるボード解析定義については、ASICの種類毎に、各ASICの設計者が独自に、あるいはシステムボード100の設計者と協議しながら個別に作成する。そして、システムをとりまとめるシステム設計者が独自に、あるいはシステムボード100の設計者と協議しながら、それらのボード解析定義を編集することで、システム解析情報テーブル120のコンパイル前のデータであるシステム解析定義を作成する。そして、このようにして作成したボード解析定義とシステム解析定義とを監視ファームウェアが取り込める形にコンパイルすることで、ボード解析情報テーブル110とシステム解析情報テーブル120とを作成するようにしていた。
解析処理部130は、このようにして作成されたボード解析情報テーブル110を使ってシステムボード100についての故障解析を行うことになるが、この場合、図17に示すように、ASICから収集するハード故障フラグ(ハード故障時に故障原因を残すハード内フラグ群)を、故障解析で確保する故障フラグバッファに格納していくことで、どのような故障が発生したのかを特定するという処理を行うことになる。
この処理を行う場合、従来の解析処理部130では、先行して検出されたハード故障フラグを故障フラグバッファに格納していって、故障フラグバッファが満杯になる場合には、それ以降に検出されたハード故障フラグについては破棄するようにして、故障フラグバッファにどのようなハード故障フラグが格納されているのかを抽出することにより、どのような故障が発生したのかを特定するようにしていた。
すなわち、従来の解析処理部130では、ハード故障フラグが大量に立った場合には、一定の検出個数をもって故障解析を中断して、そこまでの故障解析結果を報告するようにしていたのである。
また、解析処理部130は、図16に示すような方法により作成されたボード解析情報テーブル110およびシステム解析情報テーブル120を使って故障解析を行うことになるが、従来の解析処理部130では、図18に示すように、その故障解析がシステムに異常が発生した場合に実行する一時的な処理であるのにもかかわらず、その故障解析で使用する情報であるボード解析情報テーブル110およびシステム解析情報テーブル120については、システムの起動直後に監視ファームウェアのメモリに常駐させるようにしていた。
ここで、図18中に示すメモリ空間は、監視ファームウェアのシステムメモリ空間を示し、図18中に示す解析情報は、故障解析で使用する情報であるボード解析情報テーブル110およびシステム解析情報テーブル120を示し、図18中に示す解析ワークは、監視ファームウェアが故障解析で用いる作業用メモリ域を示している。
以上に説明したように、従来技術では、ASICに故障が発生する場合に、先ず最初に、システムボード100を単位にして故障解析を行い、続いて、そのシステムボード100を単位にして行った解析結果を集めて、システム全体としての解析結果を導出するようにしていた。
このように、従来技術では、システムボード100を単位にして故障解析を行っていることから、図19に示すように、例えば、システムボード100に搭載されるある一つのASIC(例えば、図中に示すASIC−D)からハード故障フラグを収集できないような事態が起こると、そのシステムボード100についての故障解析全体が不可能となってしまうことになる。
このような従来技術に従っていると、次のような問題がある。
(1)メモリ資源、処理時間についての問題
システムボード100を単位とする従来の故障解析方法に従っていると、故障解析を行うときに、システムボード100にかかる全てのハード故障フラグを故障解析に用いる作業用メモリ域(図18に示す解析ワーク)に書き込まなくてはならないことになる。
しかるに、システムボード100内には数個から数十個のASICが搭載されるため、システムボード100全体でのハード故障フラグ数は非常に多い。
これから、システムボード100を単位とする従来の故障解析方法に従っていると、故障解析に要するメモリが大きくなるという問題がある。
しかも、システムボード100内には同種のASICが搭載されることがあるが、システムボード100を単位とする従来の故障解析方法に従っていると、ボード解析情報テーブル110はシステムボード100を単位にして生成されることから、同じASICのボード解析情報テーブル110が冗長に含まれることになる。これも大きなメモリ資源を要求される原因となっている。
すなわち、同じASICであっても、その搭載位置に応じてボード解析情報テーブル110は異なるものとなるが、システムボード100を単位とする従来の故障解析方法では、ボード解析情報テーブル110にASICの搭載位置に応じた解析定義を記述するという構成を採っていないので、これらのボード解析情報テーブル110を共通化することができない。これから、同じASICのボード解析情報テーブル110が冗長に含まれることになることで大きなメモリ資源を要求されていたのである。
しかも、システムボード100を単位とする従来の故障解析方法に従っていると、図18で説明したように、故障解析がシステムに故障が発生した場合に実行する一時的な処理であるのにもかかわらず、その故障解析で使用する情報であるボード解析情報テーブル110およびシステム解析情報テーブル120については、システムの起動直後に監視ファームウェアのメモリに常駐させるようにしていた。
このときに常駐させるボード解析情報テーブル110およびシステム解析情報テーブル120は、情報処理装置に搭載されるASICの種類や版数が予め分かっている場合には、それに応じた数で済むものの、予め分かっていない場合には、情報処理装置に搭載される可能性のあるものの全てを常駐させる必要があることから、その常駐に大きなメモリ量を要求されることになる。
この点からしても、システムボード100を単位とする従来の故障解析方法に従っていると、大きなメモリ資源を要求されることになるという問題がある。
また、1つのASIC当たり数千から数万のハード故障フラグを搭載するため、システムボード100全体では数十万個のハード故障フラグの解析となり、しかも、ボード解析情報テーブル110もシステムボード100を単位にして持つことから、その検索に多大な計算量を要することになる。
これから、システムボード100を単位とする従来の故障解析方法に従っていると、故障解析に膨大な処理時間を要するという問題がある。
(2)開発工数について
システムボード100を単位とする従来の故障解析方法では、ボード解析情報テーブル110とシステム解析情報テーブル120という2つのテーブルを使って故障解析を行うことになるが、図16で説明したように、ボード解析情報テーブル110については、ASICの設計者やシステムボード100の設計者が作成し、システム解析情報テーブル120については、システムの設計者やシステムボード100の設計者が作成することになる。
これから、システムボード100を単位とする従来の故障解析方法に従っていると、これらのテーブル110,120の初期設計時や変更設計時に、それぞれに工数が発生して各設計者に負担を強いるという問題がある。
しかも、各設計者の間で解析情報の記述定義の認識に違いがでることが避けられず、これから、システムボード100を単位とする従来の故障解析方法に従っていると、この認識の違いによる障害を発生するという問題もある。
(3)解析漏れについて
従来の故障解析方法では、図17で説明したように、ハード故障フラグが大量に立った場合には、故障フラグバッファに格納できなくなることに合わせて、一定の検出個数をもって故障解析を中断するようにしていた。
これから、従来の故障解析方法に従っていると、故障フラグバッファが満杯になった後に検出される、より重大な故障を見逃してしまうという問題がある。
(4)解析不可能範囲について
システムボード100を単位とする従来の故障解析方法では、図19で説明したように、何らかの二次的な問題で、システムボード100に搭載されるある一つのASICからでもハード故障フラグを収集できないような事態が起こると、そのシステムボード100についての故障解析全体が不可能になってしまうという問題がある。
本発明はかかる事情に鑑みてなされたものであって、情報処理装置に搭載されるLSIのような論理回路に発生する故障を解析するという機能を実現するときに、メモリ資源の削減、処理の高速化および開発工数の削減を実現するとともに、重大な故障を漏れなく解析することを実現し、さらに、解析不可能範囲を小さくすることを実現する新たな故障解析技術の提供を目的とする。
この目的を達成するために、本発明の故障解析装置は、複数の論理回路を搭載する複数のボードを具備する情報処理装置に実装されて、それらの論理回路にどのような故障が発生したのかを解析する処理を行うために、(1)論理回路の搭載されるボード番号及びボード上搭載位置に対応付けて、その論理回路から収集するログ情報について、そのログ情報が発生するときに処理すべき情報と、そのログ情報の優先度の情報と、そのログ情報が有効なものとなる条件の情報と、そのログ情報が無効なものとなる条件の情報とについて記述する解析情報を記憶する記憶手段と、(2)論理回路の故障発生時に、論理回路から故障発生を表示するログ情報を収集する収集手段と、(3)収集手段の収集したログ情報と、記憶手段に記憶される解析情報とに基づいて、論理回路にどのような故障が発生したのかを解析する解析手段とを備えるように構成する。
この構成を採るときに、さらに、(4)装置起動時に、解析対象となる情報処理装置に搭載される可能性のある論理回路に適用される解析情報の索引に用いられる索引情報を、記憶手段に記憶させる第1の展開手段と、(5)論理回路の故障発生時に、解析対象となる情報処理装置に搭載される論理回路の情報と索引情報とに従って、解析手段の解析に必要となる解析情報を特定して、その特定した解析情報を記憶手段に記憶させる第2の展開手段とを備えることがある。
そして、この構成を採るときに、記憶手段は、ログ情報が有効なものとなる条件の情報として、どのログ情報が故障発生を示す場合という条件の情報について記述することがあり、また、ログ情報が無効なものとなる条件の情報として、どのログ情報が故障発生を示す場合という条件の情報について記述することがある。
このように構成される本発明の故障解析装置では、装置起動時に、解析情報の索引に用いられる索引情報のみを記憶手段に記憶させる。
この後、情報処理装置が処理を開始するので、その処理の実行中に、ある論理回路に故障が発生すると、各論理回路から故障発生を表示するログ情報を収集する。
このとき、そのログ情報の収集に合わせて、情報処理装置でどのような論理回路が用いられているのかという情報を取得して、記憶手段に記憶される索引情報に従って、その取得した情報の指す論理回路に適用される解析情報を特定し、その特定した解析情報を記憶手段に記憶させる。
続いて、記憶手段の記憶する解析情報を参照することで、収集した故障発生を表示するログ情報の内、解析情報に記述される条件情報に基づいて有効となるものを抽出することで、論理回路にどのような故障が発生したのかを解析する。
このとき、解析情報に記述される優先度情報に基づいて、優先度の高いログ情報を抽出することで、重大な故障の解析漏れが起こらないようにする。
この抽出処理は、例えば、収集した故障発生を表示するログ情報の内、解析情報に記述される条件情報に基づいて有効となるログ情報を抽出すると、その抽出したログ情報の優先度が規定のメモリ容量を持つバッファに格納されるログ情報の優先度よりも高い場合には、そのバッファに格納される最も優先度の低いログ情報と入れ替える形でその抽出したログ情報を格納し、その抽出したログ情報の優先度がそのバッファに格納されるログ情報の優先度よりも低い場合には、その抽出したログ情報をバッファに格納しないようにすることで行うことが可能である。
このようにして、本発明の故障解析装置では、論理回路の搭載されるボード番号及びボード上搭載位置に対応付けて、その論理回路から収集するログ情報について、そのログ情報が発生するときに処理すべき情報と、そのログ情報が有効なものとなる条件の情報と、そのログ情報が無効なものとなる条件の情報とについて記述する解析情報を定義して、従来技術ではシステムボードを単位として行っていた故障解析を、この解析情報を使って、論理回路を単位として行うようにするという構成を採るのである。
そして、この解析情報がさらにログ情報の優先度の情報を記述するようにすることで、この論理回路を単位とする故障解析の実現にあたって、重大な故障を漏れのない形で解析するようにするという構成を採るのである。
本発明によれば、次のような効果を実現できるようになる。
(1)メモリ資源、処理時間についての効果
本発明では、論理回路を単位とする故障解析方法を用いるので、故障解析を行うべく故障発生を表示するログ情報を作業用メモリに書き込むときに、システムボードを単位とする従来の故障解析方法に比べて、大幅に少ない量のログ情報を書き込めば足りることになる。
このようにして、本発明によれば、システムボードを単位とする従来の故障解析方法に比べて、故障解析に要するメモリを大幅に削減できるようになる。
しかも、本発明では、論理回路の搭載されるボード番号及びボード上搭載位置に対応付ける形で故障解析に必要となる解析情報を定義して、そのような記載形式をとる解析情報を用いて故障解析を行うので、システムボードに同じ論理回路が搭載される場合に、それらの論理回路についての解析情報を共通化できるようになる。
この点からしても、本発明によれば、システムボードを単位とする従来の故障解析方法に比べて、故障解析に要するメモリを大幅に削減できるようになる。
しかも、本発明では、解析情報を記憶する記憶手段に対して解析情報を常駐させないようにして、故障発生時点に、記憶手段に対して必要な解析情報のみを展開するようにする。
この点からしても、本発明によれば、使用しない解析情報までも含める形で記憶手段に解析情報を常駐させるという従来の故障解析方法に比べて、故障解析に要するメモリを大幅に削減できるようになる。
そして、本発明では、論理回路を単位とする故障解析方法を用いるので、システムボードを単位とする従来の故障解析方法に比べて、大幅に少ない量のログ情報を解析すれば足りることになり、しかも、単一の論理回路に限定した解析情報の検索を行うことで足りることになる。
このようにして、本発明によれば、システムボードを単位とする従来の故障解析方法に比べて、故障解析に要する処理時間を大幅に削減できるようになる。
(2)開発工数について
本発明では、論理回路を単位とする故障解析方法を用いており、さらに、故障解析に用いる解析情報として、規定の内容について記述するものを用いるようにする。
これから、本発明によれば、論理回路の設計者の入力する解析情報の定義フォーマットを共通化できるようになるので、その入力作業を統合化でき、その入力作業をサポートするツールを用いることで、論理回路の設計者による一貫した解析情報の作成を実現できるようになり、開発工数を大幅に削減できるようになる。
しかも、本発明によれば、定義フォーマットによって、各設計者の間における解析情報の記述定義の認識の違いを小さくできるようになるので、この認識の違いによる障害の発生を防止できるようになる。
(3)解析漏れについて
本発明では、解析情報に定義された優先度の順番に従って、故障発生を表示するログ情報をチェックすることで故障解析を行うようにする。
これから、本発明によれば、より重大な故障を見逃してしまうというような不都合の発生を防止できるようになる。
(4)解析不可能範囲について
本発明では、論理回路を単位とする故障解析方法を用いるので、ログ情報の欠落による故障解析の不可能範囲が論理回路単位となる。
これから、本発明によれば、従来技術に比べて、故障解析の不可能範囲を大幅に小さくすることができるようになる。
このようにして、本発明によれば、情報処理装置に搭載されるLSIのような論理回路に発生する故障を解析するという機能を実現するときに、メモリ資源の削減、処理の高速化および開発工数の削減を実現できるようになるとともに、重大な故障を漏れなく解析することを実現できるようになり、さらに、解析不可能範囲を小さくすることを実現できるようになる。
本発明の構成図である。 故障解析用ファームウェアの構成の一例を示す図である。 RAS−DBファイルのデータ構造の説明図である。 共通定義ブロックで定義される情報の一例を示す図である。 データ定義ブロックで定義される解析情報の一例を示す図である。 ASICを搭載するシステムボードの一例を示す図である。 解析情報の一例を示す図である。 解析情報の一例を示す図である。 解析情報の作成方法の説明図である。 本体ログ解析プロセスの実行する処理フローである。 本体ログ解析プロセスの実行する処理フローである。 本体ログ解析プロセスの実行する処理の説明図である。 本体ログ解析プロセスの実行する処理の説明図である。 本発明による故障解析不可能範囲の説明図である。 従来技術の説明図である。 従来技術の説明図である。 従来技術の説明図である。 従来技術の説明図である。 従来技術の説明図である。
符号の説明
10 ASIC
11 RAS−DBファイル
12 解析処理部
20 故障解析用ファームウェア
30 割込ハンドラ
31 本体ログプロセス
32 解析用ログファイル
33 詳細ログファイル
34 本体ログ解析プロセス
40 バッファ
41 作業用メモリ
50 RAS−DB定義ファイル
51 RAS−DBジェネレータ
60 宣言部
61 定義部
62 データ定義ブロック
63 共通定義ブロック
以下、実施の形態に従って本発明を詳細に説明する。
本発明では、ASICを搭載する情報処理装置において、ASICに故障が発生する場合に、ASICを単位にして故障解析を行うことで、システム全体としての解析結果を導出するという処理を行い、これにより、従来のシステムボードを単位にして行っていた故障解析で必要とされていたシステム全体の故障解析を不要にすることを実現する。
図1に、この処理を行う本発明の構成を図示する。
ここで、図1中、10は情報処理装置内に搭載される解析対象となるN個のASICを示し、11はRAS−DBファイルを示し、12は解析処理部を示す。
RAS(Reliability Availability Serviceability)−DBファイル11は、ASIC10毎に定義されて、そのASIC10に発生した故障の解析に必要となる解析情報を記憶するとともに、この解析情報に含める形で、システム全体の故障の解析に必要となる解析情報を記憶する。
解析処理部12は、RAS−DBファイル11に格納される解析情報を使って、ASIC10に発生した故障を解析するとともに、その故障解析を行うことで、システム全体の故障解析を同時に実現する。
このように構成される本発明では、故障発生時に、N個のASIC10からログ情報を収集し、解析処理部12は、その収集したログ情報のそれぞれについて故障解析を行うように処理する。
このとき行う故障解析は、RAS−DBファイル11に格納される解析情報に従って、ASIC10内の故障解析にとどまらずに、システム全体の故障解析までも含めたものとなる。
このようにして、本発明では、RAS−DBファイル11に格納される解析情報を使って、ASIC10に発生した故障を解析するとともに、その故障解析を行うことで、システム全体の故障解析を同時に実現するのである。
この本発明に特徴的な故障解析を行う解析処理部12は、具体的には、情報処理装置に実装されるファームウェアにより実現され、RAS−DBファイル11については、そのファームウェアの備えるROM上に記憶されることになる。
図2に、この故障解析処理を司る故障解析用ファームウェア20の構成の一例を図示する。
ここで、図2中、図1で示したものと同じものについては同一の記号で示してある。ま、図2中に示す実線は処理の流れを示し、図2中に示す破線はデータの流れを示している。
図2に示すように、本発明の故障解析処理を司る故障解析用ファームウェア20は、図1で説明したRAS−DBファイル11に加えて、割込ハンドラ30と、本体ログプロセス31と、解析用ログファイル32と、詳細ログファイル33と、本体ログ解析プロセス34とを備える。
割込ハンドラ30は、ASIC10から故障が発生したことを示す割り込みを受信する。本体ログプロセス31は、割込ハンドラ30からの割込受信通知を受けて、ASIC10からログ情報を読み出す。解析用ログファイル32は、故障解析用ファームウェア20の備えるROM上に構成されて、本体ログプロセス31の読み出したログ情報の内の故障解析に必要となるものを格納する。詳細ログファイル33は、故障解析用ファームウェア20の備えるROM上に構成されて、本体ログプロセス31の読み出したログ情報の内の故障解析に必要とならないものを格納する。本体ログ解析プロセス34は、RAS−DBファイル11に格納される解析情報を参照して、解析用ログファイル32に格納されるログ情報について故障解析を行う。
ここで、本体ログ解析プロセス34には、故障解析の結果となるログ情報を格納する規定の容量の大きさを持つバッファ40と、故障解析の作業用に用意される作業用メモリ41とが備えられることになる。
また、RAS−DBファイル11に格納される解析情報については、RAS−DB定義ファイル50とRAS−DBジェネレータ51とが用意されて、ASIC10の設計者の作成した解析定義がRAS−DB定義ファイル50に格納されると、RAS−DBジェネレータ51がその解析定義をコンパイルしてRAS−DBファイル11に格納することで、RAS−DBファイル11に格納されることになる。
このように構成される故障解析用ファームウェア20では、割込ハンドラ30がASIC10から故障発生の割り込みを受信すると、本体ログプロセス31は、割込ハンドラ30からの割込受信通知を受けて、ASIC10からログ情報を読み出す。
続いて、本体ログプロセス31は、ASIC10から読み出したログ情報の内の故障解析に必要となるものを解析用ログファイル32に格納し、故障解析に必要とならないものを詳細ログファイル33に格納してから、本体ログ解析プロセス34に対して故障解析を行うことを指示する。
この指示を受けて、本体ログ解析プロセス34は、RAS−DBファイル11に格納される解析情報を参照して、解析用ログファイル32に格納されるログ情報について故障解析を行い、その解析結果を報告先に報告する。
次に、RAS−DBファイル11に格納される解析情報について説明する。
図3に、RAS−DBファイル11のデータ構造を図示する。
RAS−DBファイル11は、図3に示すように、ファイル名などについて宣言する宣言部60と、解析情報の具体的な内容について定義する定義部61とで構成され、さらに、定義部61は、解析情報の本体について定義するデータ定義ブロック62と、データ定義ブロック62の各項目で用いる共通の値について定義する共通定義ブロック63とで構成される。
共通定義ブロック63で定義した値については、データ定義ブロック62の項目を省略した場合のデフォルト値として使用されることになる。これから、共通定義ブロック63が用意されることで、解析情報を作成するASIC10の設計者は、作成する解析情報で共通的に使用する情報については、その記載を省略することが可能になる。
図4に、共通定義ブロック63で定義される情報の一例を図示する。
図4に示す共通定義ブロック63では、ASIC10の種別・版数(ASIC)、ASIC10を搭載する情報処理装置のモデル種別(MODEL)、ASIC10を搭載するシステムボードの番号(BORAD)、ASIC10のシステムボード上の搭載位置(PLACE)、どのハード機能が有効かを示す機能モード(FUNCTION TYPE)、ASICスキャンループのIRコード(IR:ログの種類を示すもの)、ASIC間インタフェースの方向(DIRECTION)、QUIETコード(QUIET)、エラー事象のレベル(LEVEL)、変換ルールの番号(CONVERT)、交換部品を示す故障マーク(MARK)のそれぞれについて定義可能であることを示している。
図5に、データ定義ブロック62で定義される解析情報の一例を図示する。
データ定義ブロック62では、ASIC種別、ASIC版数、モデル種別、機能モード、搭載ボード(bd)、搭載位置(pl)、IRコード(ir)、スキャンアドレス(adrs)、RC/RT表示(rcrt)、優先度(pr)、エントリ抑止条件(dis)、エントリ許可条件(enb)、事象レベル(lvl)、メッセージ番号(msg)、アクション種別(action) 、変換ルール番号(conv)、故障マーク(mark)などの各項目について値を定義することで、ASIC10の故障解析に用いる解析情報を定義するという構成を採る。
ここで、図5に示すデータ定義ブロック62の例では、ASIC版数(ver)、ASIC10を搭載する情報処理装置のモデル種別(mdl)、どのハード機能が有効かを示す機能モード(func)については共通定義ブロック63で定義されていることで、データ定義ブロック62ではその定義が省略されていることを想定している。
図5に示す第7番目の解析情報を具体例にして説明するならば、この第7番目の解析情報は、ASIC10の種別が“SC”で、そのASIC10を搭載する情報処理装置のモデル種別が“DC2”で、そのASIC10を搭載するシステムボードの番号が“0001”で、そのASIC10のシステムボード上の搭載位置が“F”であるというASIC10に適用されて、IR番号“59”に従ってそのASIC10から収集されたログの中の“0373”のアドレスビット位置に故障フラグが立っている場合に適用される解析情報であるということを示している。
そして、この第7番目の解析情報は、このログのビットがRC(Region Code)ビットであることで故障解析の対象となるものであることを示し、このログの優先度が“10”で、“/XC/RC_COPY_LOCK_CE”というビットが立っていた場合にはこの解析情報が無効となり、“/XC/RC_RETRY_LOCK_CE”というビットが立っていた場合にはこの解析情報が有効となるもので、この解析情報が有効である場合には、“アラーム”という事象で、2Aというメッセージ番号のメッセージを報告先に報告し、“SC_FTL1_INTF”というアクションを行って、そのときに用いる交換部品は“/CMU#0”になるということについて記述する解析情報であるということを示している。
このように、本発明で用いられる解析情報では、ASIC10の搭載されるシステムボード番号及びそのボード上搭載位置に対応付けて、そのASIC10から収集するログ情報について、こういう別のあるログ情報が故障発生を表示しているときにはそのログ情報についての解析情報が無効となり、こういう別のあるログ情報が故障発生を表示しているときにはそのログ情報についての解析情報が有効となるという条件について記述しつつ、そのログ情報が発生するときに処理すべき情報と、そのログ情報の優先度の情報とについて定義するという構成を採る。
このときに、他のシステムボードに搭載されるASIC10から収集されるログ情報についても含める形で、こういう別のあるログ情報が故障発生を表示しているときには解析情報が無効となり、こういう別のあるログ情報が故障発生を表示しているときには解析情報が有効となるということについて記述している。
この記述形式に従って、解析処理部12がRAS−DBファイル11に格納される解析情報を使ってASIC10に発生した故障を解析すると、自ずとシステム全体の故障解析についても同時に実現できるようになる。
次に、図6に示すCMU#0というシステムボードを具体例にして、このことが実現できるようになるということについて説明する。
図6に示すCMU#0というシステムボードでは、CPU#0というASIC10と、CPU#1というASIC10と、CPU#2というASIC10と、CPU#3というASIC10と、SC#0という5つのASIC10が搭載されていることを想定している。
ここで、CPU#0,1,2,3は、それぞれ“/A0/BUS_SND”というバスの送信口を持ち、その送信口をチェックするチェッカが、その送信口に故障が発生した場合には、信号名“/A0/RC_OUT”、IR番号“58”およびアドレスビット位置“10”の指すフラグ域にフラグを書き込むものとする。
また、SC#0は、CPU#0の持つバスの送信口に合わせて“/X0/BUS_RSV”というバスの受信口を持ち、その受信口をチェックするチェッカが、その受信口に故障が発生した場合には、信号名“/X0/RC_RSV”、IR番号“10”およびアドレスビット位置“123”の指すフラグ域にフラグを書き込むものとする。
そして、SC#0は、CPU#1の持つバスの送信口に合わせて“/X1/BUS_RSV”というバスの受信口を持ち、その受信口をチェックするチェッカが、その受信口に故障が発生した場合には、信号名“/X1/RC_RSV”、IR番号“11”およびアドレスビット位置“123”の指すフラグ域にフラグを書き込むものとする。
そして、SC#0は、CPU#2の持つバスの送信口に合わせて“/X2/BUS_RSV”というバスの受信口を持ち、その受信口をチェックするチェッカが、その受信口に故障が発生した場合には、信号名“/X2/RC_RSV”、IR番号“12”およびアドレスビット位置“123”の指すフラグ域にフラグを書き込むものとする。
そして、SC#0は、CPU#3の持つバスの送信口に合わせて“/X3/BUS_RSV”というバスの受信口を持ち、その受信口をチェックするチェッカが、その受信口に故障が発生した場合には、信号名“/X3/RC_RSV”、IR番号“13”およびアドレスビット位置“123”の指すフラグ域にフラグを書き込むものとする。
さらに、SC#0は、内部における故障の発生を示すフラグを書き込むためのフラグ域として、(1)信号名“/A/RC_XX”、IR番号“20”およびアドレスビット位置“200”の指すフラグ域と、(2)信号名“/A/RC_YY”、IR番号“50”およびアドレスビット位置“044”の指すフラグ域と、(3)信号名“/B/RC_XX”、IR番号“20”およびアドレスビット位置“300”の指すフラグ域と、(4)信号名“/B/RC_YY”、IR番号“50”およびアドレスビット位置“144”の指すフラグ域という4つのフラグ域を持つことを想定している。
この場合、RAS−DBファイル11には、CPU#0,1,2,3の解析情報として、図7に示すものが格納される。ここで、図7では、DCモデル用の解析情報と、FFモデル用の解析情報とを定義しているが、この2つの違いは表示メッセージが異なる点だけである。
一方、RAS−DBファイル11には、SC#0の解析情報として、図8に示すものが格納される。
図8に示すSC#0の解析情報では、エントリ抑止条件として、CPU#0,1,2,3の送信口側に故障が発生した場合には、受信口側であるSC#0で発生した故障については無効にするということが定義されている。
この定義に従って、CPU#0,1,2,3の送信口側に故障が発生した場合には、受信口側であるSC#0でも故障が発生することになるが、それについては付随的に発生したものであって本質的なものではないことから無視して、送信口側で発生した本質的な故障のみを解析することが可能になるのである。
この具体例では、エントリ抑止条件が同一のシステムボード内で定義されることを示したが、エントリ抑止条件やエントリ許可条件については、同一のシステムボード内に限られるものではなく、異なるシステムボード間で定義されてもよい。
このことにより、本発明によれば、システムボードを単位とする従来の故障解析方法で必要とされていたシステム全体の故障解析を行うことを省略することができるようになるのである。
次に、図9に従って、図3ないし5に示したデータ構造を持つ解析情報の作成方法について説明する。
図2で説明したように、RAS−DBファイル11に格納される解析情報については、ASIC10の設計者がRAS−DB定義ファイル50に格納する解析定義を作成すると、RAS−DBジェネレータ51がその解析定義をコンパイルしてRAS−DBファイル11に格納することで、RAS−DBファイル11に格納されることになる。
この解析情報の作成にあたって、ASIC10の搭載される情報処理装置のモデルによって、システムボートの枚数やそこに搭載されるASIC10の搭載位置が変わることで、解析情報に記述されるエントリ抑止(dis)やエントリ許可条件(enb)や故障マーク(mark)などの項目値が変更されることになる。
しかし、そのような変更に合わせて、ASIC10の設計者に対して、情報処理装置のモデル毎に、別々の解析情報を作成させるように要求していたのでは多大な負荷を強いることになる。
そこで、本発明では、ASIC10の設計者に対して、エントリ抑止(dis)やエントリ許可条件(enb)や故障マーク(mark)などの項目値について、情報処理装置のモデルに合わせた読み替えの変換ルールを作成させるとともに、解析情報については情報処理装置のモデルに依らない一般的な形で作成させて、この変換ルールを利用することで、情報処理装置のモデルに合った解析情報の作成を実現するという方法を用いるようにしている。
すなわち、本発明では、図9に示すように、ASIC10の設計者に対して、ASIC10に固有のRAS−DB定義(情報処理装置のモデルに依らない一般的な形のRAS−DB定義)を作成させて、それをフォーマットチェックすることでASIC10に固有のRAS−DB定義を作成する。
そして、ASIC10の設計者(システムの設計者でもよい)に対して、エントリ抑止(dis)やエントリ許可条件(enb)や故障マーク(mark)などの項目値について、情報処理装置のモデルに合わせた読み替えの変換ルール定義を作成させて、それをフォーマットチェックすることで情報処理装置のモデルに合わせた読み替えの変換ルール定義を作成する。
そして、作成したRAS−DB定義と作成した変換ルール定義とを組み合わせて、それをコンパイルすることで、解析対象となる情報処理装置のモデルに合った解析情報を作成して、それをRAS−DBファイル11に格納するようにしている。
この構成に従って、本発明によれば、ASIC10の設計者は情報処理装置のモデル毎に別々の解析情報を作成しなくても済むようになる。
次に、図10及び図11の処理フローに従って、図2に示す本体ログ解析プロセス34の実行する処理について詳細に説明する。
本体ログ解析プロセス34は、本体ログプロセス31から解析用ログファイル32に格納されるログ情報(故障発生を表示するログ情報)の解析指示が発行されると、先ず最初に、ステップS10で、バッファ40をクリアする。
続いて、ステップS11で、解析用ログファイル32に格納される全てのログ情報を処理したのか否かを判断する。
このステップS11の判断処理に従って、解析用ログファイル32に格納される全てのログ情報を処理していないことを判断するときには、ステップS12に進んで、解析用ログファイル32から、未処理のログ情報を1つ読み出す。
続いて、ステップS13で、RAS−DBファイル11から、ステップS12で読み出したログ情報に対応付けられる解析情報を取得する。
続いて、ステップS14で、ステップS13で取得した解析情報にエントリ抑止条件が記述されているのか否かを判断する。
このステップS14の判断処理に従って、ステップS13で取得した解析情報にエントリ抑止条件が記述されていることを判断するときには、ステップS15に進んで、解析用ログファイル32に格納されるログ情報を参照することで、そのエントリ抑止条件が成立するのか否かを判断する。
続いて、ステップS16で、ステップS15の判断処理に従って、ステップS13で取得した解析情報に記述されるエントリ抑止条件が成立することを判断するときには、次のログ情報について処理すべく、ステップS11の処理に戻る。
すなわち、ステップS13で取得した解析情報に記述されるエントリ抑止条件が成立する場合には、その解析情報が無効となることで、ステップS12で読み出したログ情報を解析する必要がないので、次のログ情報について処理すべく、ステップS11の処理に戻るのである。
一方、ステップS14の判断処理に従って、ステップS13で取得した解析情報にエントリ抑止条件が記述されていないことを判断し、あるいは、ステップS16の判断処理に従って、ステップS13で取得した解析情報に記述されるエントリ抑止条件が成立しないことを判断するときには、ステップS17に進んで、ステップS13で取得した解析情報にエントリ許可条件が記述されているのか否かを判断する。
このステップS17の判断処理に従って、ステップS13で取得した解析情報にエントリ許可条件が記述されていることを判断するときには、ステップS18に進んで、解析用ログファイル32に格納されるログ情報を参照することで、そのエントリ許可条件が成立するのか否かを判断する。
続いて、ステップS19で、ステップS18の判断処理に従って、ステップS13で取得した解析情報に記述されるエントリ許可条件が成立しないことを判断するときには、次のログ情報について処理すべく、ステップS11の処理に戻る。
すなわち、ステップS13で取得した解析情報に記述されるエントリ許可条件が成立しない場合には、その解析情報が無効となることで、ステップS12で読み出したログ情報を解析する必要がないので、次のログ情報について処理すべく、ステップS11の処理に戻るのである。
一方、ステップS17の判断処理に従って、ステップS13で取得した解析情報にエントリ許可条件が記述されていないことを判断し、あるいは、ステップS19の判断処理に従って、ステップS13で取得した解析情報に記述されるエントリ許可条件が成立することを判断するときには、ステップS20に進んで、バッファ40が満杯であるのか否かを判断する。
すなわち、ステップS13で取得した解析情報が最終的に有効なものであると判断する場合には、ステップS20に進んで、バッファ40が満杯であるのか否かを判断するのである。
このステップS20の判断処理に従って、バッファ40が満杯でないことを判断するときには、ステップS21に進んで、ステップS13で取得した解析情報をバッファ40に格納することで、ステップS12で読み出したログ情報の解析を行ってから、次のログ情報について処理すべく、ステップS11の処理に戻る。
すなわち、ステップS12で読み出したログ情報に対応付けられる解析情報には、そのログ情報が発生するときには、このような故障が発生したので、このような処理を行えということが記述されているので、それを解析結果としてバッファ40に格納してから、次のログ情報について処理すべく、ステップS11の処理に戻るのである。
一方、ステップS20の判断処理に従って、バッファ40が満杯であるということを判断するときには、ステップS22に進んで、ステップS13で取得した解析情報に記述される優先度情報に従って、ステップS12で読み出したログ情報の持つ優先度を特定する。
続いて、ステップS23で、バッファ40の最後尾にソートされる解析情報(最も低い優先度のものがソートされている)に従って、バッファ40に解析結果が格納されているログ情報の持つ最も低い優先度を特定する。
続いて、ステップS24で、ステップS22で特定した優先度がステップS23で特定した優先度よりも低いのか否かを判断する。
このステップS24の判断処理に従って、ステップS22で特定した優先度がステップS23で特定した優先度よりも低いことを判断するときには、次のログ情報について処理すべく、ステップS11の処理に戻る。
すなわち、ステップS22で特定した優先度がステップS23で特定した優先度よりも低いことを判断する場合には、ステップS12で読み出したログ情報がバッファ40に解析結果が格納されているログ情報よりも重要でないことを判断して、何の処理も行うことなく、直ちに、ステップS11の処理に戻るのである。
一方、ステップS24の判断処理に従って、ステップS22で特定した優先度がステップS23で特定した優先度よりも高いことを判断するときには、ステップS25に進んで、バッファ40の最後尾にソートされる解析情報(最も低い優先度のものがソートされている)と入れ替える形で、ステップS13で取得した解析情報をバッファ40に格納することで、ステップS12で読み出したログ情報の解析を行う。
すなわち、ステップS22で特定した優先度がステップS23で特定した優先度よりも高いことを判断する場合には、ステップS12で読み出したログ情報がバッファ40に解析結果が格納されている最も低い優先度を持つログ情報よりも重要であることを判断して、そのログ情報と入れ替える形で、解析結果をバッファ40に格納するのである。
続いて、ステップS26で、バッファ40に格納される解析情報を優先度に従ってソートしてから、次のログ情報について処理すべく、ステップS11の処理に戻る。
そして、ステップS11〜ステップS26の処理を繰り返していくときに、ステップS11で、解析用ログファイル32に格納される全てのログ情報を処理したことを判断するときには、ステップS27に進んで、バッファ40に格納される解析情報を故障解析の解析結果として報告先に報告して、処理を終了する。
このようにして、本体ログ解析プロセス34は、本体ログプロセス31から解析用ログファイル32に格納されるログ情報(故障発生を表示するログ情報)の解析指示が発行されると、図12に示すように、RAS−DBファイル11から、優先度の順番に従ってログ情報に対応付けられる解析情報を取得して、それをバッファ40に格納することで故障解析を行うように処理するのである。
この処理に従って、本発明によれば、優先度の高いログ情報の解析が漏れなく行われることを保証できるようになる。
以上に説明した処理の実行にあたって、本体ログ解析プロセス34は、作業用メモリ41の容量を削減するために、図13に示すように、システムの起動時には、RAS−DBファイル11に格納される解析情報については作業用メモリ41に読み出さないようにして、解析情報の索引に用いられる索引テーブルのみを作業用メモリ41に書き込むようにする。
そして、故障が発生すると、自プロセスを実装する情報処理装置にどのようなASIC10が搭載されているのかという情報を取得して、作業用メモリ41に読み出してある索引テーブルに従って、その取得した情報の指すASIC10に適用される解析情報を特定して、それをRAS−DBファイル11から読み出して作業用メモリ41に書き込むようにする。
この構成に従って、本発明によれば、使用しない解析情報までも含める形で作業用メモリ41に解析情報を常駐させるという従来の故障解析方法に比べて、故障解析に要する作業用メモリ41の容量を大幅に削減できるようになる。
本発明は、従来技術のように、システムボードを単位とする故障解析を行うのではなくて、システムボードに搭載するASIC10のようなハードウェア回路を単位とする故障解析を行うことを特徴とする。
これから、本発明では、ログ情報の欠落による故障解析の不可能範囲がハードウェア回路単位となる。
したがって、本発明では、図14に示すように、例えば、システムボード100に搭載されるある一つのASIC10(例えば、図中に示すASIC−D)からハード故障フラグを収集できないような事態が起こるときには、そのASIC10のみが解析不可能になるだけであって、従来技術のように、システムボード全体について解析不可能になるようなことはない。
このように、本発明によれば、従来技術に比べて、故障解析の不可能範囲を大幅に小さくすることができるようになる。
本発明によれば、情報処理装置に搭載されるLSIのような論理回路に発生する故障を解析するという機能を実現するときに、メモリ資源の削減、処理の高速化および開発工数の削減を実現できるようになるとともに、重大な故障を漏れなく解析することを実現できるようになり、さらに、解析不可能範囲を小さくすることを実現できるようになる。

Claims (8)

  1. 複数の論理回路を搭載する複数のボードを具備する情報処理装置に実装されて、それらの論理回路にどのような故障が発生したのかを解析する故障解析装置であって、
    論理回路の搭載されるボード番号及びボード上搭載位置に対応付けて、その論理回路から収集するログ情報について、そのログ情報が発生するときに処理すべき情報と、そのログ情報が有効なものとなる条件の情報と、そのログ情報が無効なものとなる条件の情報とについて記述する解析情報を記憶する記憶手段と、
    論理回路の故障発生時に、論理回路から故障発生を表示するログ情報を収集する収集手段と、
    上記収集手段の収集したログ情報と、上記記憶手段に記憶される解析情報とに基づいて、論理回路にどのような故障が発生したのかを解析する解析手段とを備えることを、
    特徴とする故障解析装置。
  2. 複数の論理回路を搭載する複数のボードを具備する情報処理装置に実装されて、それらの論理回路にどのような故障が発生したのかを解析する故障解析装置であって、
    論理回路の搭載されるボード番号及びボード上搭載位置に対応付けて、その論理回路から収集するログ情報について、そのログ情報が発生するときに処理すべき情報と、そのログ情報の優先度の情報と、そのログ情報が有効なものとなる条件の情報と、そのログ情報が無効なものとなる条件の情報とについて記述する解析情報を記憶する記憶手段と、
    論理回路の故障発生時に、論理回路から故障発生を表示するログ情報を収集する収集手段と、
    上記収集手段の収集したログ情報と、上記記憶手段に記憶される解析情報とに基づいて、論理回路にどのような故障が発生したのかを解析する解析手段とを備えることを、
    特徴とする故障解析装置。
  3. 請求項2に記載の故障解析装置において、
    上記記憶手段は、上記ログ情報が有効なものとなる条件の情報として、どのログ情報が故障発生を示す場合という条件の情報について記述することを、
    特徴とする故障解析装置。
  4. 請求項2に記載の故障解析装置において、
    上記記憶手段は、上記ログ情報が無効なものとなる条件の情報として、どのログ情報が故障発生を示す場合という条件の情報について記述することを、
    特徴とする故障解析装置。
  5. 請求項2ないし4のいずれか1項に記載の故障解析装置において、
    上記解析手段は、上記収集手段の収集したログ情報の内、上記解析情報に記述される条件情報に基づいて有効となるものを抽出することで、論理回路にどのような故障が発生したのかを解析することを、
    特徴とする故障解析装置。
  6. 請求項5に記載の故障解析装置において、
    上記解析手段は、上記抽出したログ情報の内、上記解析情報に記述される優先度情報に基づいて優先度の高いものを抽出することを、
    特徴とする故障解析装置。
  7. 請求項6に記載の故障解析装置において、
    上記解析手段は、上記収集手段の収集したログ情報の内、上記解析情報に記述される条件情報に基づいて有効となるログ情報を抽出すると、その抽出したログ情報の優先度が規定のメモリ容量を持つバッファに格納されるログ情報の優先度よりも高い場合には、そのバッファに格納される最も優先度の低いログ情報と入れ替える形でその抽出したログ情報を格納し、その抽出したログ情報の優先度がそのバッファに格納されるログ情報の優先度よりも低い場合には、その抽出したログ情報をバッファに格納しないようにすることで、優先度の高いログ情報を抽出することを、
    特徴とする故障解析装置。
  8. 請求項2ないし7のいずれか1項に記載の故障解析装置において、
    装置起動時に、解析対象となる情報処理装置に搭載される可能性のある論理回路に適用される上記解析情報の索引に用いられる索引情報を、上記記憶手段に記憶させる第1の展開手段と、
    論理回路の故障発生時に、解析対象となる情報処理装置に搭載される論理回路の情報と上記索引情報とに従って、上記解析手段の解析に必要となる上記解析情報を特定して、その特定した解析情報を上記記憶手段に記憶させる第2の展開手段とを備えることを、
    特徴とする故障解析装置。
JP2008502565A 2006-02-27 2006-02-27 故障解析装置 Expired - Fee Related JP4523659B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/303553 WO2007099578A1 (ja) 2006-02-27 2006-02-27 故障解析装置

Publications (2)

Publication Number Publication Date
JPWO2007099578A1 true JPWO2007099578A1 (ja) 2009-07-16
JP4523659B2 JP4523659B2 (ja) 2010-08-11

Family

ID=38458701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008502565A Expired - Fee Related JP4523659B2 (ja) 2006-02-27 2006-02-27 故障解析装置

Country Status (4)

Country Link
US (1) US8166337B2 (ja)
EP (1) EP1990722B1 (ja)
JP (1) JP4523659B2 (ja)
WO (1) WO2007099578A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8327193B2 (en) * 2009-04-13 2012-12-04 Seagate Technology Llc Data storage device including a failure diagnostic log
US20110320863A1 (en) * 2010-06-24 2011-12-29 International Business Machines Corporation Dynamic re-allocation of cache buffer slots
US9104583B2 (en) 2010-06-24 2015-08-11 International Business Machines Corporation On demand allocation of cache buffer slots
US9311176B1 (en) * 2012-11-20 2016-04-12 Emc Corporation Evaluating a set of storage devices and providing recommended activities
JP6123472B2 (ja) * 2013-05-13 2017-05-10 株式会社リコー 機器管理装置、機器管理システム、機器管理方法及びプログラム
JP6328595B2 (ja) * 2015-09-29 2018-05-23 東芝テック株式会社 情報処理装置及びプログラム
JP2017220022A (ja) * 2016-06-07 2017-12-14 富士通株式会社 情報処理装置、情報処理装置の制御方法および情報処理装置の制御プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520109A (ja) * 1991-07-17 1993-01-29 Fujitsu Ltd スタンドアロン型装置の診断方法
JPH10260861A (ja) * 1997-03-17 1998-09-29 Fujitsu Ltd 障害調査情報装置
JP2001331350A (ja) * 2000-05-19 2001-11-30 Mitsubishi Electric Corp 保守管理装置
JP2003162430A (ja) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp 障害情報管理装置および障害情報管理方法
JP2005004326A (ja) * 2003-06-10 2005-01-06 Canon Inc 情報通知装置
WO2005091098A1 (ja) * 2004-03-22 2005-09-29 Digital Electronics Corporation 表示器、コンピュータを表示器として機能させるためのプログラムプロダクト、およびそのプログラムプロダクトを格納した記録媒体
JP2005284357A (ja) * 2004-03-26 2005-10-13 Fujitsu Ltd ログ解析プログラム及びログ解析装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826068A (en) * 1994-11-09 1998-10-20 Adaptec, Inc. Integrated circuit with a serial port having only one pin
US6269098B1 (en) * 1997-02-14 2001-07-31 Advanced Micro Devices, Inc. Method and apparatus for scaling number of virtual lans in a switch using an indexing scheme
US6202103B1 (en) * 1998-11-23 2001-03-13 3A International, Inc. Bus data analyzer including a modular bus interface
FR2789502B1 (fr) * 1999-02-08 2001-08-10 Bull Sa Procede et outil d'analyse et de localisation de pannes materielles dans une machine informatique
US6363452B1 (en) * 1999-03-29 2002-03-26 Sun Microsystems, Inc. Method and apparatus for adding and removing components without powering down computer system
US6532558B1 (en) * 2000-03-02 2003-03-11 International Business Machines Corporation Manufacturing testing of hot-plug circuits on a computer backplane
US6598179B1 (en) * 2000-03-31 2003-07-22 International Business Machines Corporation Table-based error log analysis
JP2001311766A (ja) * 2000-04-28 2001-11-09 Advantest Corp 半導体デバイス試験装置及び試験方法
US6959257B1 (en) * 2000-09-11 2005-10-25 Cypress Semiconductor Corp. Apparatus and method to test high speed devices with a low speed tester
US7509532B2 (en) * 2000-09-13 2009-03-24 Kingston Technology Corp. Robotic memory-module tester using adapter cards for vertically mounting PC motherboards
US20020121913A1 (en) * 2000-12-28 2002-09-05 Advanced Micro Devices, Inc. Tester with independent control of devices under test
US6754817B2 (en) * 2001-01-25 2004-06-22 Dell Products L.P. Apparatus and method for detecting a change in system hardware configuration to reduce the amount of time to execute a post routine
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
US8166361B2 (en) * 2001-09-28 2012-04-24 Rambus Inc. Integrated circuit testing module configured for set-up and hold time testing
US7020815B2 (en) * 2002-08-29 2006-03-28 Micron Technology, Inc. Memory technology test apparatus
US7039836B2 (en) * 2003-04-01 2006-05-02 Hewlett-Packard Development Company, L.P. High performance computer system having a firmware error queue and automatic error handling
US7284153B2 (en) * 2003-11-17 2007-10-16 International Business Machines Corporation Apparatus, method, and system for logging diagnostic information
US7359831B2 (en) * 2004-05-21 2008-04-15 Bea Systems, Inc. Diagnostic context
US7802144B2 (en) * 2005-04-15 2010-09-21 Microsoft Corporation Model-based system monitoring

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520109A (ja) * 1991-07-17 1993-01-29 Fujitsu Ltd スタンドアロン型装置の診断方法
JPH10260861A (ja) * 1997-03-17 1998-09-29 Fujitsu Ltd 障害調査情報装置
JP2001331350A (ja) * 2000-05-19 2001-11-30 Mitsubishi Electric Corp 保守管理装置
JP2003162430A (ja) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp 障害情報管理装置および障害情報管理方法
JP2005004326A (ja) * 2003-06-10 2005-01-06 Canon Inc 情報通知装置
WO2005091098A1 (ja) * 2004-03-22 2005-09-29 Digital Electronics Corporation 表示器、コンピュータを表示器として機能させるためのプログラムプロダクト、およびそのプログラムプロダクトを格納した記録媒体
JP2005284357A (ja) * 2004-03-26 2005-10-13 Fujitsu Ltd ログ解析プログラム及びログ解析装置

Also Published As

Publication number Publication date
WO2007099578A1 (ja) 2007-09-07
JP4523659B2 (ja) 2010-08-11
EP1990722A1 (en) 2008-11-12
US8166337B2 (en) 2012-04-24
EP1990722B1 (en) 2018-02-28
EP1990722A4 (en) 2012-06-27
US20090006896A1 (en) 2009-01-01

Similar Documents

Publication Publication Date Title
JP4523659B2 (ja) 故障解析装置
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
US9465685B2 (en) Identifying solutions to application execution problems in distributed computing environments
CN106933689B (zh) 一种用于计算设备的方法和装置
CN103034575B (zh) 崩溃分析方法和装置
CN105204968B (zh) 一种故障内存检测方法和装置
US6845469B2 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
CN112100048B (zh) 一种服务器自适应巡检方法及装置
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
WO2022041956A1 (zh) 一种晶圆探测数据的处理方法和计算机可读存储介质
US7502956B2 (en) Information processing apparatus and error detecting method
US8924773B1 (en) Reducing file system data unavailability window by adapting hierarchical recovery framework
CN115757099A (zh) 平台固件保护恢复功能自动测试方法和装置
JP2008084080A (ja) 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JP6833152B2 (ja) 故障支援装置、故障支援プログラム及び故障支援方法
JP2019020864A (ja) 演算装置
JP5440673B1 (ja) プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム
US20050159925A1 (en) Cache testing for a processor design
JPH07311697A (ja) 計算機システムの故障表示方式
US7337247B2 (en) Buffer and method of diagnosing buffer failure
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
US20070179635A1 (en) Method and article of manufacure to persistently deconfigure connected elements
JP7164473B2 (ja) 不具合情報抽出装置及び方法並びにプログラム
JP2010055305A (ja) 診断項目登録システム、方法及びプログラム
JP3326546B2 (ja) コンピュータシステムの故障検知方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100527

R150 Certificate of patent or registration of utility model

Ref document number: 4523659

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130604

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130604

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees