JPWO2007088606A1 - 故障情報管理方法及び検出方法、装置並びに記憶媒体 - Google Patents

故障情報管理方法及び検出方法、装置並びに記憶媒体 Download PDF

Info

Publication number
JPWO2007088606A1
JPWO2007088606A1 JP2007556744A JP2007556744A JPWO2007088606A1 JP WO2007088606 A1 JPWO2007088606 A1 JP WO2007088606A1 JP 2007556744 A JP2007556744 A JP 2007556744A JP 2007556744 A JP2007556744 A JP 2007556744A JP WO2007088606 A1 JPWO2007088606 A1 JP WO2007088606A1
Authority
JP
Japan
Prior art keywords
failure
information
recommended
replacement
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007556744A
Other languages
English (en)
Inventor
和博 結城
和博 結城
憲司 岡野
憲司 岡野
秀之 鯉沼
秀之 鯉沼
研二 是方
研二 是方
裕之 渡邉
裕之 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007088606A1 publication Critical patent/JPWO2007088606A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

電子装置が備える交換可能な部品に関する故障情報を管理する故障情報管理方法は、部品で発生した故障の解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類を含む代表ログ情報部と、故障が発生した時の交換推奨部品の装置環境情報を含む詳細ログ情報部とからなるエラーログを生成し、エラーログを交換推奨部品自体が備える不揮発性メモリに格納する。交換推奨部品の1回目の故障については代表ログ情報部及び詳細ログ情報部に第一世代の情報を上書き不能に記録し、2回目以降の故障については代表ログ情報部及び詳細ログ情報部に第二世代の情報を上書き可能に記録することでエラーログを生成する。

Description

本発明は、故障情報管理方法及び装置、故障検出方法及び装置、電子装置、情報処理装置並びにコンピュータ読み取り可能な記憶媒体に係り、特に電子装置の部品の故障情報を管理する故障情報管理方法及び装置、電子装置の部品の故障を検出する故障検出方法及び装置、並びにコンピュータに故障情報管理及び/又は故障検出を行わせるプログラムを格納したコンピュータ読み取り可能な記憶媒体に関する。本発明は、上記の如き故障情報管理装置及び/又は故障検出装置を備えた電子装置及び情報処理装置、並びに、コンピュータに故障情報管理及び/又は故障検出を行わせるプログラム自体にも関する。
コンピュータシステム、電話機、ファクシミリ装置、複写機等の電子装置には、交換可能な部品が設けられている。このような部品の不揮発性メモリには、シリアル番号等の部品固有の情報や、場合によってはユーザ又は電子装置の設置環境によりカストマイズされた情報や履歴情報等が格納されている。
例えば、複数のボードが設けられたコンピュータシステムを例に取る。コンピュータシステムにおいて故障が検出されると、故障の解析を行って保守を必要とするボードやボード上の部品を判別する。保守が必要と判別されたボード又はボード上の部品は正常なボード又は部品(以下、保守ボード又は部品とも言う)と交換されるが、取り外された故障ボード又はボード上の部品は、修理工場に送られて修理され、再利用される。
修理工場において故障ボード/部品を短時間で正確に修理するには、コンピュータシステムにおいて故障が検出された時のエラー情報等の故障情報を知る必要がある。このため、故障ボード又は部品を修理工場に送る際には、故障情報を記載した説明書等を付けたり修理工場へ通知したりする必要がある。
不揮発性メモリを備えたボードの場合、故障の履歴情報をこの不揮発性メモリに格納しておけば、修理工場でこの履歴情報を不揮発性メモリから読み出すことで、ある程度は故障情報を知ることができる。しかし、故障の履歴情報は、例えば発生したエラーの種類等を示すだけであり、コンピュータシステムにおいてエラーが発生した状況を詳細に示すものではないため、故障ボード又は部品を修理工場に送る際には、故障情報をより詳細に記載した説明書等を付けたり修理工場へ通知したりする必要がある。
つまり、コンピュータシステムにおいて発生するエラーには、コンピュータシステムが設置されている設置環境に起因するものや、コンピュータシステム内の各部の設定(即ち、装置環境)に起因するものがあるため、修理工場において故障ボードや部品を修理するためには、故障ボードや部品によりエラーが発生した時のコンピュータシステムの設置環境や装置環境を知る必要があり、故障情報をより詳細に記載した説明書等は必要不可欠である。
特許文献1及び特許文献2には、故障情報を格納する不揮発性記憶手段を備えたモジュールからなる情報処理装置が提案されている。特許文献3には、故障情報を格納する不揮発性記憶手段を備えた端末制御部からなる自動販売機制御装置が提案されている。特許文献4には、消耗部品の交換時期をメーカ側に知らせる機能を備えた電子機器が提案されている。
特開平3−58245号公報 特開2002−108655号公報 特開2001−101492号公報 特開平6−267258号公報
しかし、上記の如き故障情報をより詳細に記載した説明書等は、通常はコンピュータシステムの保守者により作成されるものであるため、保守者が重要な故障情報を記入し忘れたり、保守者が熟練していないと正確な故障情報を記入できない場合もある。このため、修理工場において故障ボード又は部品を修理する際に使用する説明書等が不完全であるために、適切な修理ができなかったり、修理に時間がかかってしまう。
尚、故障情報をより詳細に記載した説明書等に記載するべき情報をコンピュータシステムに出力させることも考えられるが、保守者が熟練していないとコンピュータシステムに適切な故障情報を出力させることができない場合があり、又、保守者がコンピュータシステムに対して行うべき操作を行うことを忘れてしまうと、故障ボード又は部品に関する説明書等が修理工場へ通知されない。
このように、従来は、故障ボードや部品に関する故障情報の詳細は、保守者に依存する部分が多いため、正確、且つ、確実に修理工場へ通知することが難しく、修理工場において故障ボード又は部品を適切に修理ができなかったり、修理に時間がかかってしまうという問題があった。
そこで、本発明は、故障ボードや部品に関する故障情報の詳細を正確、且つ、確実に通知可能とすることのできる故障情報管理方法及び装置、故障検出方法及び装置、電子装置、情報処理装置並びにコンピュータ読み取り可能な記憶媒体を提供することを概括的目的とする。
上記の課題は、電子装置が備える交換可能な部品に関する故障情報を管理する故障情報管理方法であって、部品で発生した故障の解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類を含む代表ログ情報部と、該故障が発生した時の該交換推奨部品の装置環境情報を含む詳細ログ情報部とからなるエラーログを生成するステップと、該エラーログを該交換推奨部品自体が備える不揮発性メモリに格納する格納ステップとを含み、該生成ステップは、該交換推奨部品の1回目の故障については該代表ログ情報部及び該詳細ログ情報部に第一世代の情報を上書き不能に記録し、2回目以降の故障については該代表ログ情報部及び該詳細ログ情報部に第二世代の情報を上書き可能に記録することで該エラーログを生成する故障情報管理方法によって達成できる。
上記の課題は、上記装置環境情報が該交換推奨部品が故障していることを示す故障マークを部品状態情報として含む故障情報管理方法にて故障情報が管理されている交換可能な部品の故障を検出する故障検出方法であって、該故障マークが部品状態情報として夫々の不揮発性メモリに記録された2つの交換推奨部品のうち、一方の交換推奨部品の交換時に他方の交換推奨部品の不揮発性メモリ内の故障マークを削除し、該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推奨部品の故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マークを該部品状態情報として再度記録する故障検出方法によっても達成できる。
上記の課題は、コンピュータに、上記故障情報管理方法により電子装置が備える交換可能な部品に関する故障情報を管理させる手順を含むプログラムを格納したコンピュータ読み取り可能な記憶媒体によっても達成できる。
上記の課題は、コンピュータに、上記故障検出方法により故障情報が管理されている交換可能な部品の故障を検出させる手順を含むプログラムを格納したコンピュータ読み取り可能な記憶媒体によっても達成できる。
上記の課題は、電子装置の部品で発生した故障の解析処理を行う解析手段と、該解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類を含む代表ログ情報部と、該故障が発生した時の該交換推奨部品の装置環境情報を含む詳細ログ情報部とからなるエラーログを生成する生成手段と、該エラーログを該交換推奨部品自体が備える不揮発性メモリに格納する格納手段とを備え、該生成手段は、該交換推奨部品の1回目の故障については該代表ログ情報部及び該詳細ログ情報部に第一世代の情報を上書き不能に記録し、2回目以降の故障については該代表ログ情報部及び該詳細ログ情報部に第二世代の情報を上書き可能に記録することで該エラーログを生成する故障情報管理装置によっても達成できる。
上記の課題は、上記故障情報管理方法にて故障情報が管理されている交換可能な部品の故障を検出する故障検出装置であって、該故障マークが部品状態情報として夫々の不揮発性メモリに記録された2つの交換推奨部品のうち、一方の交換推奨部品の交換時に他方の交換推奨部品の不揮発性メモリ内の故障マークを削除する手段と、該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推奨部品の故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マークを該部品状態情報として再度記録する手段とを備えた故障検出装置によっても達成できる。
上記故障検出装置は、電子装置内の交換推奨部品以外の部品に設けられていても良い。
上記の課題は、上記故障情報管理装置と、上記故障検出装置とのうち、少なくとも一方を備えた電子装置によっても達成できる。
上記の課題は、部品が交換可能に取り付けられる情報処理装置において、前記情報処理装置を構成する部品で発生した故障の解析処理を行う解析手段と、前記解析手段による解析処理の結果、交換対象となる部品の識別情報、前記交換対象部品に生じた故障種類情報、及び前記部品の動作環境に関する情報を含むエラーログを生成する手段と、前記生成されたエラーログを記憶する記憶手段と、前記交換対象部品の1回目の故障について生成された第一世代エラーログを前記記憶手段に上書き不能に書き込むと共に、2回目以降の故障について生成された第二世代エラーログを前記記憶手段に上書き可能に書き込む格納手段とを備えることを特徴とする情報処理装置によっても達成できる。
上記の課題は、電子装置を構成する部品で発生した故障に関する故障情報を管理する故障情報管理方法において、部品で発生した故障の解析処理により交換対象となる部品の識別情報、該部品に生じた故障種類情報、及び該故障が発生した時の該交換推奨部品の環境情報を含むエラーログを生成するステップと、該交換推奨部品の1回目の故障については当該故障に関わるエラーログをエラーログ記録部に上書き不能に記録し、2回目以降の故障については当該故障に関わるエラーログを前記エラーログ記録部に上書き可能に記録するステップとを有することを特徴とする故障情報管理方法によっても達成できる。
本発明によれば、故障ボードや部品に関する故障情報の詳細を正確、且つ、確実に通知可能とすることのできる故障情報管理方法及び装置、故障検出方法及び装置、電子装置、情報処理装置並びにコンピュータ読み取り可能な記憶媒体を実現することができるという効果が得られる。
本発明が適用可能な電子装置を示すブロック図である。 SCFUのCPUがコンピュータシステム内の故障を検出した場合の処理の流れを示すブロック図である。 SCFUのCPUがコンピュータシステム内の故障を検出した場合の処理を説明するフローチャートである。 エラーログの一例を示す図である。 通電時間情報の算出処理を説明するフローチャートである。 通電時間情報の登録処理を説明するフローチャートである。 故障マークの付加及び削除による故障検出処理を説明する図である。
符号の説明
1 コンピュータシステム
11 BP
12 SCFU
13 IOU
14 CMU
15 パネルボード
16 ファンBP
17 PSU
18 ファン
122,142 CPU
121,131,141,401,501 FRU−ROM
以下に、本発明になる故障情報管理方法及び装置、故障検出方法及び装置、電子装置、情報処理装置並びにコンピュータ読み取り可能な記憶媒体の各実施例を、図面と共に説明する。
先ず、本発明の第1実施例を説明する。
図1は、本発明が適用可能な電子装置の一実施形態を示すブロック図である。図1は、本発明が情報処理装置であるコンピュータシステムに適用された場合を示す。
図1に示すコンピュータシステム1は、バックパネル(BP:Back Panel)11に接続されたシステム制御機構ボード(SCFU:System Control Facility Unit)12、入出力制御ボード(IOU:Input/Output controller Unit)13、複数のCPUメモリボード(CMU:CPU Memory board Unit)14、パネルボード(Panel)15、ファンBP(Back Panel)16、複数の電源ボード(PSU:Power Supply Unit)17を備える。ファンBP16には、複数のファン18(FAN#0、FAN#1、...)が接続されている。説明の便宜上、BP11、SCFU12、IOU13、CMU14、パネルボード15、ファンBP16、PSU17及びファン18が交換可能であり、且つ、少なくとも不揮発性メモリを備えたボードであるものとする。尚、交換可能なボードは、FRU(Field Replace Unit)とも呼ばれるので、図1では上記不揮発性メモリはFRU−ROMとして図示されている。
SCFU12は、コンピュータシステム1全体を制御するものであり、FRU−ROM121、CPU122、SDRAM123、ROM124及びハードディスク装置等の記憶部125を有する。IOU13は、コンピュータシステム1への入出力を制御するためのものであり、FRU−ROM131、複数のハードディスク(HD)装置132、複数のPCIカード133及びDAT装置134を有する。CMU14は、FRU−ROM141、複数のCPU142(#0〜#3)及び複数のデュアルインラインメモリモジュール(DIMM:Dual Inline Memory Module)143を有する。パネルボード15は、装置設定情報を格納するためのものである。詳細な説明は省略するが、BP11、パネル15、ファンBP16、PCU17及びファン18にもFRU−ROMが設けられており、これらのFRU−ROMは説明の便宜上同じ符号「401」で示すものとする。又、各ボード11〜13上の交換可能な素子、部品又は装置にもFRU−ROMが設けられており、これらのFRU−ROMは説明の便宜上同じ符号「501」で示すものとする。例えばCMU14内の各CPU142及び各DIMM143には、FRU−ROM501が設けられている。
次に、コンピュータシステム1において故障が発生した場合の動作を、図2〜図4と共に説明する。
図2は、SCFU12のCPU122がコンピュータシステム1内の故障を検出した場合の処理の流れを示すブロック図であり、図3は、この処理を説明するフローチャートである。図2中、図1と同一部分には同一符号を付し、その説明は省略する。
尚、図3に示す処理は、交換を必要とする交換部品及び交換の必要性があると判断される被疑部品を除く部品に搭載されたプロセッサにより実行できる。本実施例では説明の便宜上、コンピュータシステム1全体を制御するSCFU12のCPU122が図3に示す処理を実行する場合を例にとって説明する。
図3に示す処理は、コンピュータシステム1内で発生した故障によりエラーが発生するとCPU122により開始される。例えば、CMU14内のCPU142で故障が発生すると、CPU142からSCFU12内のCPU122へエラー情報等の故障情報が通知される。ステップS1で、CPU122は故障情報の解析が必要であるか否かを判定し、判定結果がYESであると、ステップS2では、CPU122は図2にST1で示すようにCPU142からの故障情報を収集して、SDRAM123等に一時的に格納する。ステップS3では、図2にST2で示すように、CPU122は収集された故障情報を解析する。ステップS3の解析処理により、交換を必要とする交換部品或いは交換の必要性があると判断される被疑部品が特定される。交換部品及び被疑部品は、交換可能なボードであっても、ボード上に搭載された交換可能な素子、部品又はその他の装置であっても良い。
ステップS4でCPU122は、解析処理に基づいてエラーログを生成し、生成したエラーログを図2にST3で示すように記憶部125に格納することで登録する。本実施形態によるエラーログは、代表ログ情報部と、詳細ログ情報部とから構成される。
代表ログ情報部には、交換が推奨される交換推奨部品が交換部品であるかあるいは被疑部品であるかを示す部品情報、交換推奨部品の識別番号(ID)情報、エラー又は故障の種類を示す種類情報、エラーの発生日時を示す時間情報、エラー又は故障を交換推奨部品のホスト装置等へ通知するか否かを示す通知要否情報等が記録される。種類情報は、エラーが軽微なものから深刻なものまでの複数のレベルを表示可能なエラーレベル、又は、故障が軽微なものから深刻なものまでの複数のレベルを表示可能な故障(ダメージ)レベルを示す。
詳細ログ情報部には、上記代表ログ情報部に記録されている各交換推奨部品に対して、コンピュータシステム1が設置されている設置環境と、各交換推奨部品の設定/装置環境に関する情報が記録されている。設置環境情報には、コンピュータシステム1が終日連続稼動(無停止稼動)するものか、毎日異なる時間稼動されるものか、毎日同じ時間帯のみ稼動されるものなのか、といったコンピュータシステム1の稼動状況に関する情報の他、温度湿度が一定に制御された環境であるか否か等の情報が含まれる。装置環境情報はエラー又は故障毎に異なるが、設置環境情報はコンピュータシステム1の構成等が変更されない限り不変である。このため、設置環境情報は、上記代表ログ情報部に装置環境情報と共に記録しても、エラーログとは別に記録しても良い。
図4は、エラーログの一例を示す図である。図4は、代表ログ情報部に記録されており交換を推奨されている交換推奨部品がCPU142(#3)である場合を示す。図4において、FAN#0情報〜FAN#7情報は、上記故障が発生した時のコンピュータシステム1内のファン18の回転数を示す。吸気温度情報は、上記故障が発生した時のコンピュータシステム1の吸気温度を示す。SB#1温度情報及びSB#2温度情報は、上記故障が発生した時のコンピュータシステム1内のBP11の温度を示す。CPU#0温度情報〜CPU#3温度情報は、上記故障が発生した時のCMU14内のCPU142の温度を示す。1.2V電圧(CPU#0)情報〜1.2V電圧(CPU#3)情報は、上記故障が発生した時のCMU14内のCPU142(#0〜#3)内における1.2Vの電源電圧の状態(又は、変動)を示す。5V電圧情報、3.3V電圧情報、2.5V電圧情報は、夫々上記故障が発生した時の対応するPSU17から供給される5V電源電圧、3.3V電源電圧、2.5V電源電圧の状態(又は、変動)を示す。部品状態情報は、代表ログ情報部に記録されており交換を推奨されている交換推奨部品、即ち、CPU142(#3)に故障であることを示す故障マーク(又は、エラーマーク)が付けられているか否か、即ち、CPU142(#3)のFRU−ROM501にエラーマークが記録されているか否かを示す。通電日数情報は、代表ログ情報部に記録されており交換を推奨されている交換推奨部品、即ち、CPU142(#3)の通電時間を示す。「リザーブ」は、予備の情報格納エリアである。
ステップS5で、CPU122は代表ログ情報部に交換推奨部品が有るか否かを判定し、判定結果がNOであると処理は終了する。他方、ステップS5の判定結果がYESであると、ステップS6でCPU122は、交換推奨部品の合計が1つであるか否かを判定する。ステップS6の判定結果がYESであると、交換推奨部品は1つであるため、ステップS7でCPU122は、該当する交換推奨部品に対してエラーマークが付けられていることを示す情報を詳細ログ情報部の部品状態情報に記録する。また、CPU122は、該当する交換推奨部品に関連するエラーログをSCFU12内のFRU−ROM121に格納し、更に、図2にST4で示すようにこのエラーログをCMU14内のCPU142(#3)のFRU−ROM501に格納する。ステップS7の後、処理は終了する。
尚、上記説明では、保守者によるCPU142(#3)単体の交換が可能である場合を想定しているので、エラーログはCPU142(#3)に格納されているが、交換対象とはならないCMU12内のFRU−ROM141にはエラーログを格納せずとも良い。しかし、保守者によるCPU142(#3)単体の交換ができず、CMU14全体が交換される場合には、CMU12内のFRU−ROM141にもエラーログを格納することが望ましい。このように、エラーログは交換単位となる部品/装置毎に格納されることが好ましい。
ステップS6の判定結果がNOであると、交換推奨部品が複数存在することとなる。そのため、ステップS8でCPU122は、該当する複数の交換推奨部品に対してエラーマークが付けられていることを示す情報を詳細ログ情報部の部品状態情報に記録すると共に、エラーログをSCFU12内のFRU−ROM121に格納し、更に、このエラーログを各交換推奨部品のFRU−ROMと、必要に応じて各交換推奨部品が属している部品のFRU−ROMとに格納する。この場合、エラーログは、例えばCMU14内のCPU142(#3)のFRU−ROM501とCPU142(#2)のFRU−ROM501に格納され、必要に応じてCPU142(#3)及びCPU(#2)が属するCMU14のFRU−ROM141にも格納される。尚、ステップS6の判定結果は、例えばインタフェース故障等の場合にNOになる。
ステップS8の後、CPU122によりステップS9が実行される。ステップS9ではCPU122は、エラー又は故障に応じて各種リアクション処理を行い、処理は終了する。リアクション処理には、交換が推奨されている交換推奨部品を実際にコンピュータシステム1から取り外して交換する際の部品縮退動作に伴い保守者が行うべきコンピュータシステム1に対する保守操作(情報入力等)、エラーログの代表ログ情報部に記録された通知要否情報に基づいて自動的に行われるエラー又は故障の交換推奨部品のホスト装置等への通知、保守者の手動によるホスト装置等へのこのような通知等を含まれる。
上記ステップS4において、代表ログ情報部及び詳細ログ情報部の各々に、最初のエラー発生時にエラーログに記録される第一世代の情報と、2回目以降のエラー発生時にエラーログに記録される第二世代の情報とを記録するようにしても良い。この場合、交換推奨部品の1回目の故障については(この場合、故障が未登録)代表ログ情報部及び詳細ログ情報部に第一世代の情報を上書き不能に記録し、2回目以降の故障については(この場合、故障が登録済み)代表ログ情報部及び詳細ログ情報部に第二世代の情報を上書き可能に記録することでエラーログを生成する。交換推奨部品のFRU−ROMには、必ず1回目の故障に関する第一世代の情報が格納されており、且つ、2回目以降の故障については最新の第二世代の情報が格納されているので、修理工場では保守者に依存することなく、より容易に適切な修理を行うことができる。
又、エラーログに第二世代の情報を上書き記録する際に、エラーレベル又は故障レベルが既に記録されている情報(第一世代の情報を含んでも良い)より高いエラーレベル又は故障レベル(即ち、より深刻なエラー又は故障)の場合にのみ上書き記録を行うようにしても良い。これにより、修理工場では、保守者に依存することなく、修理を行う際に必要な、より深刻なエラー又は故障に関する情報を交換推奨部品のFRU−ROMから読み出すことができる。
尚、通電時間情報については、上記第一世代の情報及び第二世代の情報を、以下に説明するように、詳細ログ情報部内の他の情報とは異なる方法で記録する。これは、修理工場において、交換推奨部品の寿命等を考慮した適切な修理を行えるようにするためである。
図5は、通電時間情報の算出処理を説明するフローチャートである。CMU14等の各部品の通電時間情報は、出荷時に0に初期化されている。図5において、ステップS11ではCMU14等の部品が接続されたコンピュータシステム1の電源を投入する処理が行われる。ステップS12では、電源投入から所定時間経過したか否かが判定される。所定時間は通電時間情報収集の単位時間であり、例えば1日である。ステップS12の判断結果がYESであると、ステップS13では、CMU14等の部品の通電時間情報に所定値が加算される。上記所定時間が1日であれば、ステップS13では通電時間情報である通電日数情報に1が加算される。ステップS12の判定結果がNO、或いは、ステップS13の後、ステップS14では、コンピュータシステム1の電源が切断されたか否かが判定され、判定結果がNOであると、処理はステップS12へ戻る。他方、ステップS14の判定結果がYESであると、処理はステップS11へ戻る。このようにして、CMU14等の各部品の通電時間情報が定期的に更新されて部品内のFRU−ROM等のメモリに格納される。
図6は、通電時間情報の登録処理を説明するフローチャートである。図6に示す通電時間情報の登録処理は、図3に示すステップS4で通電時間情報をエラーログに記録する際に行われる。
図6において、ステップS21では、図5に示す通電時間情報の算出処理により更新されているCMU14等の交換推奨部品の通電時間情報を入手する処理が行われる。ステップS22では、第一世代の故障情報が有るか否かが判定される。ステップS22の判定結果がNOであると、ステップS23では交換推奨部品の通電時間情報がエラーログの詳細ログ情報部に第一世代の通電時間情報として上書き不能に記録され、処理は終了する。他方、ステップS22の判定結果がYESであると、ステップS24では、交換推奨部品がコンピュータシステム1から取り外されるまで、この交換推奨部品の通電時間情報をエラーログの詳細ログ情報部に第二世代の通電時間情報として順次上書き可能に(更新可能に)記録する処理が行われ、処理は終了する。
このようにして、ステップS4では、1回目の故障については、第一世代の情報が記録された時点での通電時間情報が上書き不能に記録され、2回目以降の故障については、交換推奨部品がコンピュータシステム1から取り外されるまでの通電時間情報を順次上書き可能に記録することでエラーログが生成する。
次に、本発明の第2実施例を説明する。
本実施例においても、本発明は図1に示すコンピュータシステムに適用されている。本実施例は、エラーログの代表ログ情報部に記録される部品状態情報に、交換推奨部品が故障であることを示す故障マーク(又は、エラーマーク)を付加したり削除する際の処理に特徴がある。
エラーログの代表ログ情報部に記録される部品状態情報に、交換推奨部品が故障であることを示す故障マーク(又は、エラーマーク)が付加されると、たとえこの交換推奨部品がコンピュータシステムから取り外されて他のコンピュータシステムに接続されても、故障マークからこの部品が故障していることが判別できるので、この故障部品が他のコンピュータシステムで誤って使用されることを確実に防止することができる。又、故障部品を修理した後に故障マークを削除することで、修理された正常な部品と故障部品とを確実に判別できる。
つまり、部品が装置に装着され、装置が部品のエラーマークを参照し、エラーマークがない場合には装置が正常な部品(又は使用可能な部品)であると判断して通常動作を行い、エラーマークがある場合には装置が故障部品(又は使用できない部品)であると判断して当該部品については縮退動作を行うことができる。
しかし、部品間で発生する経路系故障の場合は、複数の交換推奨部品のうちどの部品が実際に故障しているのかを判断することは難しい。そこで、本実施例では、図3に示すステップS2の解析処理により例えば2つの交換推奨部品があることが判明すると、故障マーク(又は、エラーマーク)を両方の交換推奨部品の部品状態情報に付加する。
図7は、故障マークMの付加及び削除による故障検出処理を説明する図である。図7(A)に示すように、解析処理により故障の発生を検出し、2つの交換推奨部品A,Bのうちどの部品が実際に故障しているのかを判断できない場合には、図7(B)に示すように、両方の交換推奨部品A,Bのエラーログの代表ログ情報部に記録される部品状態情報に故障マークMを付加する。次に、図7(C)に示すように、一方の交換推奨部品Bを正常な部品Cと交換し、図7(D)に示すように、他方の交換推奨部品Aに付加されている故障マークMを削除する。この状態で、図7(E)に示すように解析処理により再度故障の発生が検出されると、今度は交換推奨部品Aを正常な部品Dと交換するので、図7(G)に示すように正常な部品C,Dの組み合わせが得られる。尚、図7(C)に示すように一方の交換推奨部品Bを正常な部品Cと交換し、図7(D)に示すように他方の交換推奨部品Aに付加されている故障マークMを削除した時点で故障の発生が検出さればければ、正常な部品A,Cの組み合わせが得られる。
従って、部品間で発生する経路系故障の場合であっても、故障部品を確実に、且つ、短時間で検出することができると共に、故障が検出された部品に対しては故障マークMが付加されることで、正常な部品との区別が容易になる。
本発明は、交換可能であり、且つ、不揮発性メモリを備えた部品で構成されるコンピュータシステム、情報処理装置、電話機、ファクシミリ装置、複写機等の電子装置に適用可能である。
以上、本発明を実施例により説明したが、本発明は上記実施例に限定されるものではなく、本発明の範囲内で種々の変形及び改良が可能であることは言うまでもない。

Claims (18)

  1. 電子装置が備える交換可能な部品に関する故障情報を管理する故障情報管理方法であって、
    部品で発生した故障の解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類を含む代表ログ情報部と、該故障が発生した時の該交換推奨部品の装置環境情報を含む詳細ログ情報部とからなるエラーログを生成するステップと、
    該エラーログを該交換推奨部品自体が備える不揮発性メモリに格納する格納ステップとを含み、
    該生成ステップは、該交換推奨部品の1回目の故障については該代表ログ情報部及び該詳細ログ情報部に第一世代の情報を上書き不能に記録し、2回目以降の故障については該代表ログ情報部及び該詳細ログ情報部に第二世代の情報を上書き可能に記録することで該エラーログを生成する、故障情報管理方法。
  2. 該電子装置の設置環境を示す設置環境情報を該交換推奨部品自体が備える不揮発性メモリに格納する、請求項1記載の故障情報管理方法。
  3. 該装置環境情報は、該交換推奨部品への合計通電時間を示す時間情報を含み、
    該生成ステップは、該1回目の故障については、該第一世代の情報が記録された時点での時間情報を上書き不能に記録し、該2回目以降の故障については、該交換推奨部品が該電子装置から取り外されるまでの時間情報を順次上書き可能に記録することで該エラーログを生成する、請求項1記載の故障情報管理方法。
  4. 該格納ステップは、該交換推奨部品が交換可能な特定部品に搭載されている場合、該エラーログを該特定部品自体が備える不揮発性メモリにも格納する、請求項1記載の故障情報管理方法。
  5. 該装置環境情報は、該交換推奨部品が故障していることを示す故障マークを部品状態情報として含む、請求項1記載の故障情報管理方法。
  6. 請求項5記載の故障情報管理方法にて故障情報が管理されている交換可能な部品の故障を検出する故障検出方法であって、
    該故障マークが部品状態情報として夫々の不揮発性メモリに記録された2つの交換推奨部品のうち、一方の交換推奨部品の交換時に他方の交換推奨部品の不揮発性メモリ内の故障マークを削除し、
    該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推奨部品の故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マークを該部品状態情報として再度記録する、故障検出方法。
  7. コンピュータに、請求項1〜5のいずれか1項記載の故障情報管理方法により電子装置が備える交換可能な部品に関する故障情報を管理させる手順を含むプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
  8. コンピュータに、請求項6記載の故障検出方法により故障情報が管理されている交換可能な部品の故障を検出させる手順を含むプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
  9. 電子装置の部品で発生した故障の解析処理を行う解析手段と、
    該解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類を含む代表ログ情報部と、該故障が発生した時の該交換推奨部品の装置環境情報を含む詳細ログ情報部とからなるエラーログを生成する生成手段と、
    該エラーログを該交換推奨部品自体が備える不揮発性メモリに格納する格納手段とを備え、
    該生成手段は、該交換推奨部品の1回目の故障については該代表ログ情報部及び該詳細ログ情報部に第一世代の情報を上書き不能に記録し、2回目以降の故障については該代表ログ情報部及び該詳細ログ情報部に第二世代の情報を上書き可能に記録することで該エラーログを生成する、故障情報管理装置。
  10. 該装置環境情報は、該交換推奨部品への合計通電時間を示す時間情報を含み、
    該生成手段は、該1回目の故障については、該第一世代の情報が記録された時点での時間情報が上書き不能に記録し、該2回目以降の故障については、該交換推奨部品が該電子装置から取り外されるまでの時間情報が順次上書き可能に記録することで該エラーログを生成する、請求項9記載の故障情報管理装置。
  11. 該格納手段は、該交換推奨部品が交換可能な特定部品に搭載されている場合、該エラーログを該特定部品自体が備える不揮発性メモリにも格納する、請求項9記載の故障情報管理装置。
  12. 該装置環境情報は、該交換推奨部品が故障していることを示す故障マークを部品状態情報として含む、請求項9記載の故障情報管理装置。
  13. 該故障情報管理装置は、該電子装置内の該交換推奨部品以外の部品に設けられている、請求項9記載の故障情報管理装置。
  14. 請求項5記載の故障情報管理方法にて故障情報が管理されている交換可能な部品の故障を検出する故障検出装置であって、
    該故障マークが部品状態情報として夫々の不揮発性メモリに記録された2つの交換推奨部品のうち、一方の交換推奨部品の交換時に他方の交換推奨部品の不揮発性メモリ内の故障マークを削除する手段と、
    該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推奨部品の故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マークを該部品状態情報として再度記録する手段とを備えた、故障検出装置。
  15. 該故障検出装置は、該電子装置内の該交換推奨部品以外の部品に設けられている、請求項14記載の故障検出装置。
  16. 請求項9〜13のいずれか1項記載の故障情報管理装置と、請求項14又は15記載の故障検出装置とのうち、少なくとも一方を備えた、電子装置。
  17. 部品が交換可能に取り付けられる情報処理装置において、
    前記情報処理装置を構成する部品で発生した故障の解析処理を行う解析手段と、
    前記解析手段による解析処理の結果、交換対象となる部品の識別情報、前記交換対象部品に生じた故障種類情報、及び前記部品の動作環境に関する情報を含むエラーログを生成する手段と、
    前記生成されたエラーログを記憶する記憶手段と、
    前記交換対象部品の1回目の故障について生成された第一世代エラーログを前記記憶手段に上書き不能に書き込むと共に、2回目以降の故障について生成された第二世代エラーログを前記記憶手段に上書き可能に書き込む格納手段と、を備えることを特徴とする、情報処理装置。
  18. 電子装置を構成する部品で発生した故障に関する故障情報を管理する故障情報管理方法において、
    部品で発生した故障の解析処理により交換対象となる部品の識別情報、該部品に生じた故障種類情報、及び該故障が発生した時の該交換推奨部品の環境情報を含むエラーログを生成するステップと、
    該交換推奨部品の1回目の故障については当該故障に関わるエラーログをエラーログ記録部に上書き不能に記録し、2回目以降の故障については当該故障に関わるエラーログを前記エラーログ記録部に上書き可能に記録するステップと、を有することを特徴とする、故障情報管理方法。
JP2007556744A 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体 Pending JPWO2007088606A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/301676 WO2007088606A1 (ja) 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体

Publications (1)

Publication Number Publication Date
JPWO2007088606A1 true JPWO2007088606A1 (ja) 2009-06-25

Family

ID=38327194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007556744A Pending JPWO2007088606A1 (ja) 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体

Country Status (4)

Country Link
US (1) US20080282113A1 (ja)
EP (1) EP1983438A1 (ja)
JP (1) JPWO2007088606A1 (ja)
WO (1) WO2007088606A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110069A1 (ja) * 2008-03-04 2009-09-11 富士通株式会社 制御装置および制御プログラム
JP2010146072A (ja) * 2008-12-16 2010-07-01 Nec Corp コンピュータの異常監視装置、異常監視方法、異常監視プログラム
JP2010165098A (ja) * 2009-01-14 2010-07-29 Seiko Epson Corp メンテナンス作業支援装置、メンテナンス作業支援方法、及びプログラム
JP5896887B2 (ja) * 2012-11-21 2016-03-30 富士通フロンテック株式会社 稼働情報管理装置
US20140372809A1 (en) * 2013-06-12 2014-12-18 Ge Medical Systems Global Technology Company Llc Graphic self-diagnostic system and method
US9836949B2 (en) * 2016-02-22 2017-12-05 Waygum, Inc. Generating recommended maintenance steps for industrial machines based on historical interaction data with a mobile application
US9760477B1 (en) * 2016-04-12 2017-09-12 Linkedin Corporation Self-healing job executor pool
WO2019186635A1 (ja) * 2018-03-26 2019-10-03 株式会社Fuji スレーブ、作業機、及びログ情報を記憶する方法
CN113342609A (zh) * 2021-06-10 2021-09-03 重庆科创职业学院 计算机排障系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5680754A (en) * 1979-12-05 1981-07-02 Fujitsu Ltd Device fault recording circuit
JPH01310453A (ja) * 1988-06-09 1989-12-14 Nec Corp 製造情報読取装置
JPH02181837A (ja) * 1989-01-06 1990-07-16 Nec Corp サービスプロセッサ
JPH0358245A (ja) 1989-07-27 1991-03-13 Nec Corp 情報処理装置
JPH04149749A (ja) * 1990-10-15 1992-05-22 Fujitsu Ltd ログデータ採取方式
JPH06267258A (ja) 1993-03-11 1994-09-22 Tokyo Electric Co Ltd 消耗部品の寿命判定装置
JPH0773075A (ja) * 1993-09-06 1995-03-17 Fujitsu Ltd 情報処理装置
JPH07175373A (ja) * 1993-12-21 1995-07-14 Casio Electron Mfg Co Ltd 電子装置
JPH09116626A (ja) * 1995-10-20 1997-05-02 Fujitsu Ltd 障害診断解析装置
JPH09146795A (ja) * 1995-11-22 1997-06-06 Fujitsu Ltd データ処理装置交換部品通知方式
JP3873543B2 (ja) 1999-09-30 2007-01-24 富士電機リテイルシステムズ株式会社 自動販売機制御装置
US6757837B1 (en) * 1999-10-19 2004-06-29 Tivo, Inc. Method and apparatus for software failure diagnosis and repair
JP2002108655A (ja) * 2000-09-27 2002-04-12 Nec Corp 故障情報管理方法および故障情報管理機能付き情報処理装置
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US7328376B2 (en) * 2003-10-31 2008-02-05 Sun Microsystems, Inc. Error reporting to diagnostic engines based on their diagnostic capabilities
JP2005235176A (ja) * 2004-01-20 2005-09-02 Fujitsu Ltd 計算機の構成表示方法
JP2005208707A (ja) * 2004-01-20 2005-08-04 Fujitsu Ltd 異常監視装置、異常探索支援方法、異常探索支援プログラム
JP2005293345A (ja) * 2004-04-01 2005-10-20 Fujitsu Support & Service Kk Icタグを用いた故障診断システムおよび故障診断方法
JP4647248B2 (ja) * 2004-06-09 2011-03-09 富士通株式会社 保守部品管理プログラムおよび保守部品管理装置
US20060107159A1 (en) * 2004-10-19 2006-05-18 Quantum Corporation Intelligent storage of device state in response to error condition

Also Published As

Publication number Publication date
US20080282113A1 (en) 2008-11-13
WO2007088606A1 (ja) 2007-08-09
EP1983438A1 (en) 2008-10-22

Similar Documents

Publication Publication Date Title
JPWO2007088606A1 (ja) 故障情報管理方法及び検出方法、装置並びに記憶媒体
US20080198489A1 (en) Cartridge drive diagnostic tools
JP6078984B2 (ja) 処理装置,処理方法,処理プログラム及び管理装置
JP4215746B2 (ja) 情報処理装置および寿命監視方法
US11073893B2 (en) System and method capable of remotely controlling electronic apparatus
JP4789958B2 (ja) 部品情報復元方法、部品情報管理方法及び電子装置
EP1988442A1 (en) Maintenance guidance display device, maintenance guidance display method, and maintenance guidance display program
JP4648961B2 (ja) 装置メンテナンスシステム、方法および情報処理装置
JP4805665B2 (ja) 補助記憶装置のデータ消去管理方法,補助記憶装置及び遠隔保守装置
JP4886558B2 (ja) 情報処理装置
US8161324B2 (en) Analysis result stored on a field replaceable unit
JP2005018516A (ja) 記憶装置システム及び記憶装置システムの保守方法
JP2010146072A (ja) コンピュータの異常監視装置、異常監視方法、異常監視プログラム
JP4479959B2 (ja) 診断システムおよび診断方法
JP2010198314A (ja) 情報管理装置
JP2005115975A (ja) 情報処理装置
JP7426269B2 (ja) 情報処理装置および情報処理システム
JP2008102730A (ja) 電子機器または電子機器を具備したシステムの保守管理方法および保守管理装置並びに電子機器
JP2006107236A (ja) 部品寿命監視システム
WO2008050455A1 (fr) Appareil de traitement d'anomalies de lignes d'adresses, procédé de traitement d'anomalies de lignes d'adresses, programme de traitement d'anomalies de lignes d'adresses, appareil de traitement d'informations et unité de commande de mémoire
JP2005293345A (ja) Icタグを用いた故障診断システムおよび故障診断方法
JP2013234763A (ja) 空気調和機
JP2008107989A (ja) コンピュータシステムの障害監視方法及び装置並びに障害監視プログラム
JP2010113463A (ja) 診断システム
JP2010101568A (ja) 空気調和機の故障診断装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090522

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100309