WO2007088606A1 - 故障情報管理方法及び検出方法、装置並びに記憶媒体 - Google Patents

故障情報管理方法及び検出方法、装置並びに記憶媒体 Download PDF

Info

Publication number
WO2007088606A1
WO2007088606A1 PCT/JP2006/301676 JP2006301676W WO2007088606A1 WO 2007088606 A1 WO2007088606 A1 WO 2007088606A1 JP 2006301676 W JP2006301676 W JP 2006301676W WO 2007088606 A1 WO2007088606 A1 WO 2007088606A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
information
recommended
replacement
log
Prior art date
Application number
PCT/JP2006/301676
Other languages
English (en)
French (fr)
Inventor
Kazuhiro Yuuki
Kenji Okano
Hideyuki Koinuma
Kenji Korekata
Hiroyuki Watanabe
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to EP06712819A priority Critical patent/EP1983438A1/en
Priority to PCT/JP2006/301676 priority patent/WO2007088606A1/ja
Priority to JP2007556744A priority patent/JPWO2007088606A1/ja
Publication of WO2007088606A1 publication Critical patent/WO2007088606A1/ja
Priority to US12/219,234 priority patent/US20080282113A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Definitions

  • the present invention relates to a failure information management method and apparatus, a failure detection method and apparatus, an electronic device, an information processing device, and a computer-readable storage medium, and in particular, a failure for managing failure information of components of an electronic device
  • the present invention relates to an information management method and device, a failure detection method and device for detecting a failure of a component of an electronic device, and a computer-readable storage medium storing a program for causing a computer to perform failure information management and Z or failure detection.
  • the present invention also relates to an electronic apparatus and information processing apparatus including the failure information management apparatus and Z or failure detection apparatus as described above, and a program that causes a computer to perform failure information management and Z or failure detection.
  • Such component non-volatile memory stores component-specific information such as serial numbers, and in some cases, information or history information customized according to the installation environment of the user or electronic device.
  • a computer system provided with a plurality of boards is taken as an example.
  • the failure is analyzed to determine which board or component on the board needs maintenance. Boards or parts on the board that are determined to require maintenance are replaced with normal boards or parts (hereinafter also referred to as maintenance boards or parts). To be repaired and reused.
  • failure information such as error information when a failure is detected in the computer system. For this reason, when sending a faulty board or part to a repair shop, it is necessary to attach a manual with fault information or notify the repair shop.
  • failure history information In the case of a board equipped with a non-volatile memory, if fault history information is stored in the non-volatile memory, the history information is read from the non-volatile memory at a repair shop. Can know. However, failure history information only indicates, for example, the type of error that occurred, and does not indicate the details of the error occurrence in the computer system. It is necessary to attach a manual describing the failure information in more detail or notify the repair shop.
  • errors that occur in a computer system include those caused by the installation environment of the computer system and those caused by settings of each part in the computer system (ie, the device environment). Therefore, in order to repair a faulty board or part at a repair shop, it is necessary to know the installation environment and equipment environment of the computer system when an error occurs due to the faulty board or part. Explanations are essential.
  • Patent Document 1 and Patent Document 2 propose an information processing apparatus having a module power provided with a nonvolatile storage means for storing failure information.
  • Patent Document 3 proposes a vending machine control device that is a terminal control unit equipped with a nonvolatile storage means for storing failure information.
  • Patent Document 4 proposes an electronic device with a function that informs the manufacturer when it is time to replace consumable parts! RU
  • Patent Document 1 Japanese Patent Laid-Open No. 3-58245
  • Patent Document 2 JP 2002-108655 A
  • Patent Document 3 JP 2001-101492 A
  • Patent Document 4 JP-A-6-267258
  • failure information may be output to the computer system. If the maintenance person is not skilled, appropriate failure information is output to the computer system. If the maintenance engineer forgets to perform an operation that should be performed on the computer system, the repair factory will not be notified of the malfunction board or parts manual.
  • the present invention provides a failure information management method and device, failure detection method and device, electronic device, information processing, and the like, which can accurately and surely notify details of failure information relating to a failure board or component. It is a general object to provide a device and a computer-readable storage medium.
  • the above-described problem is a failure information management method for managing failure information regarding replaceable components included in an electronic device, and is information for identifying replacement recommended components recommended to be replaced by analysis processing of failures occurring in the components.
  • a step of generating an error log comprising a representative log information part including the type of the failure and a detailed log information part including the device environment information of the recommended replacement part when the failure occurs, and the error log
  • the failure information is managed by a failure information management method in which the device environment information includes a failure mark indicating that the recommended replacement component has failed! /, As component status information.
  • a failure detection method for detecting a failure of a replaceable component wherein one of the two recommended replacement components of the two recommended replacement components in which the failure mark is recorded in the respective nonvolatile memory as component status information.
  • the fault mark in the non-volatile memory of the other recommended replacement part is deleted, and if the fault recurs after the replacement of the one recommended replacement part, the fault of the other recommended replacement part is detected and the other recommended replacement part is detected.
  • This can also be achieved by a failure detection method in which the failure mark is recorded again as the component state information in the nonvolatile memory of the recommended replacement component.
  • the above-described problem can also be achieved by a computer-readable storage medium that stores a program including a procedure for causing a computer to manage failure information related to replaceable parts included in the electronic device by the failure information management method. .
  • the above problem can also be achieved by a computer-readable storage medium storing a program including a procedure for causing a computer to detect a failure of a replaceable component whose failure information is managed by the failure detection method.
  • the above-described problems include an analysis unit that performs an analysis process of a failure that has occurred in a part of an electronic device, a replacement log that is recommended to be replaced by the analysis process, and a representative log that includes the type of the failure
  • the failure after the second time can also be achieved by a failure information management device that generates the error log by recording the second generation information in the representative log information portion and the detailed log information portion in an overwritable manner.
  • the above-described problem is a failure detection device for detecting a failure of a replaceable component whose failure information is managed by the failure information management method, wherein the failure mark is a non-volatile information as component status information.
  • the failure mark is a non-volatile information as component status information.
  • a failure detection apparatus comprising means for detecting a failure of the other recommended replacement component and recording the failure mark as the component status information again in the nonvolatile memory of the other recommended replacement component Achievement wear.
  • the failure detection device may be provided in a part other than the recommended replacement part in the electronic device.
  • an electronic device including at least one of the failure information management device and the failure detection device.
  • the above-described problem is an analysis unit that performs analysis processing of a failure that has occurred in a part that constitutes the information processing apparatus, and analysis processing by the analysis unit.
  • an information processing apparatus comprising storage means for overwriting the storage means so as to be overwritten.
  • the above-described problem is the identification information of a component that is to be replaced by an analysis process of the failure that has occurred in the component, A step of generating an error log including information on the type of failure that has occurred in the part and the environmental information of the recommended replacement part when the failure has occurred, and for the first failure of the recommended replacement part, an error related to the failure
  • a failure information management comprising: a step of recording a log in an error log recording unit in a non-overwritable manner, and a second and subsequent failure recording an error log relating to the failure in the error log recording unit in an rewritable manner It can also be achieved by the method.
  • failure information management method and device failure detection method and device, electronic device, and information capable of accurately and reliably reporting details of failure information related to a failed board or component.
  • a processing device and a computer-readable storage medium can be realized!
  • FIG. 1 is a block diagram showing an electronic apparatus to which the present invention is applicable.
  • FIG. 2 is a block diagram showing a processing flow when the SCFU CPU detects a failure in the computer system.
  • FIG. 3 is a flowchart for explaining processing when the SCFU CPU detects a failure in the computer system.
  • FIG. 4 is a diagram showing an example of an error log.
  • FIG. 5 is a flowchart for explaining energization time information calculation processing.
  • FIG. 6 is a flowchart for explaining energization time information registration processing.
  • FIG. 7 is a diagram for explaining failure detection processing by adding and deleting failure marks.
  • FIG. 1 is a block diagram showing an embodiment of an electronic device to which the present invention is applicable.
  • Figure 1 These show the case where this invention is applied to the computer system which is information processing apparatus.
  • the computer system 1 shown in FIG. 1 includes a system control facility unit (SCFU) 12 connected to a back panel (BP: Back Panel) 11, an input / output controller board (IOU). Unit) 13, multiple CPU memory boards (CMU) 14, panel board 15, panel BP (Back Panel) 16, multiple power supply units (PSU) 17 .
  • a plurality of fans 18 (FAN # 0, FAN # 1,...) Are connected to the fan BP16.
  • SCFU system control facility unit
  • IOU input / output controller board
  • PSU multiple power supply units
  • the SCFU 12 controls the entire computer system 1, and includes a storage unit 125 such as a FRU-ROM 121, a CPU 122, an SDRAM 123, a ROM 124, and a hard disk device.
  • the IOU 13 is for controlling input / output to the computer system 1 and includes a FRU-ROM 131, a plurality of hard disk (HD) devices 132, a plurality of PCI cards 133, and a DAT device 134.
  • the CMU 14 includes a FRU-ROM 141, a plurality of CPUs 142 (# 0 to # 3), and a plurality of dual inline memory modules (DIMMs) 143.
  • the panel board 15 is for storing device setting information.
  • BP11, Nonel 15, Fan BP16, PCU17 and Fan 18 are also provided with FRU-ROMs, and these FRU-ROMs are denoted by the same reference numeral "401" for convenience of explanation.
  • FRU-ROMs are also provided in the replaceable elements, parts, or devices on the boards 11 to 13, and these FRU-ROMs are denoted by the same reference numeral “501” for convenience of explanation.
  • each CPU 142 and each DIMM 143 in the CMU 14 are provided with FRU-ROMs 501.
  • FIG. 2 is a block diagram showing a processing flow when the CPU 122 of the SCFU 12 detects a failure in the computer system 1.
  • FIG. 3 is a flowchart for explaining this processing. The In FIG. 2, the same parts as those in FIG.
  • processing shown in FIG. 3 can be executed by a processor mounted on a part excluding a replacement part that needs to be replaced and a suspected part that is determined to be required to be replaced.
  • a case where the CPU 122 of the SCFU 12 that controls the entire computer system 1 executes the processing shown in FIG. 3 will be described as an example.
  • the process shown in FIG. 3 is started by the CPU 122 when an error occurs due to a failure occurring in the computer system 1. For example, when a failure occurs in the CPU 142 in the CMU 14, failure information such as error information is notified from the CPU 142 to the CPU 122 in the SCFU 12.
  • the CPU 122 determines whether or not it is necessary to analyze the failure information, and if the determination result is YES, in step S2, the CPU 122 displays as much failure information as CPU 142 as shown in ST1 in FIG. Collected and temporarily stored in SDRAM123 or the like.
  • step S3, as indicated by ST2 in FIG. 2 the CPU 122 analyzes the collected failure information. Through the analysis process in step S3, a replacement part that needs to be replaced or a suspected part that is determined to be necessary for replacement is identified.
  • the replacement part and suspected part may be a replaceable board, or a replaceable element, part or other device mounted on the board.
  • step S4 the CPU 122 generates an error log based on the analysis processing, and registers the generated error log by storing it in the storage unit 125 as indicated by ST3 in FIG.
  • the error log according to this embodiment includes a representative log information part and a detailed log information part.
  • the representative log information section includes part information indicating whether the recommended replacement part recommended for replacement is a replacement part or a suspected part, identification number (ID) information of the recommended replacement part, error, or Type information indicating the type of failure, time information indicating the date and time of occurrence of the error, notification necessity information indicating whether or not the error or failure is notified to the host device of the recommended replacement part, etc. are recorded.
  • the type information can display multiple error levels that can display multiple levels from minor to severe errors, or multiple levels from minor to severe failures. Indicates the failure (damage) level.
  • the installation environment information includes computer systems. In addition to information on the operating status of computer system 1 such as the ability to operate system 1 all day long (non-stop operation), whether it operates at different times every day or only during the same time every day, temperature and humidity This includes information such as whether or not the power is a constant controlled environment.
  • the device environment information differs for each error or failure, but the installation environment information is unchanged unless the configuration of the computer system 1 is changed. For this reason, the installation environment information may be recorded together with the device environment information in the representative log information section, or may be recorded separately from the error log.
  • FIG. 4 is a diagram illustrating an example of an error log.
  • Fig. 4 shows the case where the recommended replacement part recorded in the representative log information section is CPU142 (# 3).
  • FAN # 0 information to FAN # 7 information indicate the number of rotations of the fan 18 in the computer system 1 when the above failure occurs.
  • the intake air temperature information indicates the intake air temperature of the computer system 1 when the above failure occurs.
  • the SB # 1 temperature information and the SB # 2 temperature information indicate the temperature of the BP11 in the computer system 1 when the above failure occurs.
  • CPU 0 temperature information to CPU # 3 temperature information indicate the temperature of CPU 1 42 in CMU 14 when the above failure occurs.
  • 2V voltage (CPU # 0) information ⁇ 1.
  • 2V voltage (CPU # 3) information is the 1.2V power supply in CPU142 (# 0 to # 3) in CMU14 when the above failure occurs Indicates the voltage state (or fluctuation).
  • 5V voltage information is the 5V power supply voltage supplied from the corresponding PSU17 when the above failure occurs, 3.3V power supply voltage, 2.5V power supply voltage status (Or variation).
  • the component status information is recorded in the representative log information section and recommended replacement parts, that is, the failure mark (or error mark) indicating that the CPU 14 2 (# 3) has a failure is attached. It indicates whether or not an error mark is recorded in the FRU-ROM 501 of the CPU 142 (# 3).
  • the energization days information indicates the energization time of the recommended replacement parts that are recorded in the representative log information section and recommended to be replaced, that is, the CPU 142 (# 3). “Reserve” is a spare information storage area.
  • step S5 the CPU 122 determines whether or not there is a replacement recommended part in the representative log information part. If the determination result is NO, the process ends. On the other hand, if the decision result in the step S5 is YES, in a step S6, the CPU 122 determines whether or not the total number of recommended replacement parts is one. Determine. If the judgment result in step S6 is YES, there is only one recommended replacement part.Therefore, in step S7, the CPU 122 logs detailed information indicating that an error mark is attached to the recommended replacement part. Record in the component status information in the information section.
  • the CPU 122 stores an error log related to the recommended replacement part in the FRU-ROM 12 1 in the SCFU 12, and further stores this error log in the CPU 142 (# 3) in the CMU 14 as shown by ST4 in Fig. 2.
  • FRU Stores in ROM501. After step S7, the process ends.
  • the error log is the force exchange target stored in CPU142 (# 3).
  • Nana ⁇ FRU in CMU12—ROM 141 does not need to store error logs.
  • the CPU142 (# 3) cannot be replaced by a maintenance person and the entire CMU14 is replaced, it is desirable to store the error log in the FRU-ROM141 in the CMU12.
  • the error log is stored for each component Z device as a replacement unit.
  • step S6 If the determination result in step S6 is NO, there are a plurality of recommended replacement parts.
  • step S8 the CPU 122 records information indicating that an error mark is attached to a plurality of recommended replacement parts in the part status information of the detailed log information section, and also stores the error log in the SCFU 12.
  • the error log is stored in, for example, the FRU—ROM501 of CPU142 (# 3) and the FRU—ROM501 of CPU142 (# 2) in CMU14, and CPU142 (# 3) and CPU (# 2) are stored as needed. It is also stored in the FRU—R OM141 of the CMU 14 to which it belongs.
  • the determination result in step S6 is NO in the case of an interface failure, for example.
  • step S9 the CPU 122 performs various reaction processes in response to an error or failure, and the process ends.
  • the reaction process maintenance operations (information input, etc.) on the computer system 1 that should be performed by the maintenance personnel when the parts recommended for replacement are actually removed from the computer system 1 and replaced.
  • the recommended replacement parts for errors or failures that are automatically performed based on the notification necessity information recorded in the representative log information section of the error log. Notification to the host device, and such notification to the host device manually by the maintenance personnel.
  • step S4 in the representative log information part and the detailed log information part, the first generation information recorded in the error log when the first error occurs and the second and subsequent errors occur.
  • Second generation information recorded in the error log may be recorded.
  • the first generation information is recorded in the representative log information section and the detailed log information section in a non-overwritable manner. Therefore, in this case (in this case, a failure has been registered), an error log is generated by recording the second generation information in the representative log information section and the detailed log information section in an overwritable manner.
  • the FRU-ROM of recommended replacement parts always stores the first generation information on the first failure, and the latest second generation information on the second and subsequent failures. Therefore, appropriate repairs can be performed at repair shops more easily without relying on maintenance personnel.
  • the error level or the failure level is already recorded, which is higher than the information (which may include the first generation information;). Overwrite recording may be performed only at the level or failure level (ie, more serious error or failure).
  • the repair shop can also read out the FRU-ROM power of the recommended replacement parts for information on more serious errors or failures that are necessary when performing repairs without relying on maintenance personnel.
  • the first generation information and the second generation information are recorded by a method different from other information in the detailed log information section, as will be described below. This is to allow repair shops to perform appropriate repairs taking into account the life of recommended replacement parts.
  • FIG. 5 is a flowchart for explaining energization time information calculation processing.
  • the energization time information of each part such as CMU14 is initialized to 0 at the time of shipment.
  • step S11 a process of turning on the computer system 1 to which components such as the CMU 14 are connected is performed.
  • step S12 it is determined whether or not a predetermined time has elapsed since the power was turned on.
  • the predetermined time is a unit time for collecting energization time information, for example, one day.
  • step S13 a predetermined value is added to the energization time information of components such as CMU14.
  • step S13 If the predetermined time is one day, 1 is added to the power-on days information that is the power-on time information in step S13. If the determination result in step S12 is NO, or after step S13, in step S14, it is determined whether or not the computer system 1 is powered off. If the determination result is NO, the process returns to step S12. . On the other hand, if the decision result in the step S14 is YES, the process returns to the step S11. In this way, the power-on time information of each part such as CMU14 is periodically updated and stored in the memory such as FRU-ROM in the part.
  • FIG. 6 is a flowchart for explaining energization time information registration processing.
  • the energization time information registration process shown in FIG. 6 is performed when the energization time information is recorded in the error log in step S4 shown in FIG.
  • step S21 a process for obtaining the energization time information of the recommended replacement parts such as the CMU 14 updated by the energization time information calculation process shown in FIG. 5 is performed.
  • step S22 it is determined whether or not there is a first generation failure information. If the decision result in the step S22 is NO, in a step S23, the energization time information of the recommended replacement part is recorded in the detailed log information part of the error log as the first generation energization time information so as not to be overwritten, and the process ends.
  • step S24 the energization time information of the recommended replacement part is stored in the detailed log information section of the error log until the recommended replacement part is removed from the computer system 1.
  • the process of recording the energization time information as being sequentially overwritable (updatable) is performed, and the process ends.
  • step S4 for the first failure, the energization time information at the time when the first generation information is recorded is recorded in an overwritable state, and the second and subsequent failures are recorded.
  • the error log is generated by sequentially recording the power-on time information until recommended replacement parts are removed from the computer system 1.
  • the present invention is applied to the computer system shown in FIG.
  • a failure mark or error mark
  • indicating that the replacement recommended component is defective is added to or deleted from the component status information recorded in the representative log information section of the error log.
  • a failure mark (or error mark) indicating that a recommended replacement component is faulty is added to the component status information recorded in the representative log information section of the error log, this replacement recommended component is Even if it is removed from the computer system and connected to another computer system, the fault mark power can also be determined to indicate that this part is faulty, so that it is ensured that this faulty part is used incorrectly in other computer systems. Can be prevented. In addition, by removing the failure mark after repairing the failed part, it is possible to reliably determine the repaired normal part and the failed part.
  • the device when a part is mounted on the device, the device refers to the error mark of the component, and if there is no error mark, it is determined that the device is a normal component (or a usable component) and normal operation is performed. If there is an error mark, it can be determined that the device is a faulty part (or a part that cannot be used), and the part can be degenerated.
  • FIG. 7 is a diagram for explaining failure detection processing by adding and deleting failure marks M.
  • Fig. 7 (A) if the occurrence of a failure is detected by analysis processing and it is not possible to determine which of the two recommended replacement parts A and B is actually broken, As shown in B), the failure mark M is added to the component status information recorded in the representative log information section of the error log for both recommended replacement parts A and B.
  • Fig. 7 (C) one replacement recommended part B is replaced with a normal part C, and as shown in Fig. 7 (D), the failure added to the other recommended replacement part A Mark M is deleted.
  • the recommended replacement part A is now replaced with a normal part D, so as shown in Fig. 7 (G).
  • a normal combination of parts C and D is obtained. Note that one recommended replacement part B is replaced with a normal part C as shown in Fig. 7 (C), and the failure mark M added to the other recommended replacement part A is added as shown in Fig. 7 (D). When deleted If the occurrence of a failure is detected, a normal combination of parts A and C can be obtained.
  • the present invention is applicable to electronic devices such as a computer system, an information processing device, a telephone set, a facsimile device, and a copying machine that are replaceable and configured with components including a nonvolatile memory.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 電子装置が備える交換可能な部品に関する故障情報を管理する故障情報管理方法は、部品で発生した故障の解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類を含む代表ログ情報部と、故障が発生した時の交換推奨部品の装置環境情報を含む詳細ログ情報部とからなるエラーログを生成し、エラーログを交換推奨部品自体が備える不揮発性メモリに格納する。交換推奨部品の1回目の故障については代表ログ情報部及び詳細ログ情報部に第一世代の情報を上書き不能に記録し、2回目以降の故障については代表ログ情報部及び詳細ログ情報部に第二世代の情報を上書き可能に記録することでエラーログを生成する。

Description

明 細 書 故障情報管理方法及び検出方法、 装置並びに記憶媒体 技術分野
[0001] 本発明は、故障情報管理方法及び装置、故障検出方法及び装置、電子装置、情 報処理装置並びにコンピュータ読み取り可能な記憶媒体に係り、特に電子装置の部 品の故障情報を管理する故障情報管理方法及び装置、電子装置の部品の故障を 検出する故障検出方法及び装置、並びにコンピュータに故障情報管理及び Z又は 故障検出を行わせるプログラムを格納したコンピュータ読み取り可能な記憶媒体に関 する。本発明は、上記の如き故障情報管理装置及び Z又は故障検出装置を備えた 電子装置及び情報処理装置、並びに、コンピュータに故障情報管理及び Z又は故 障検出を行わせるプログラム自体にも関する。
背景技術
[0002] コンピュータシステム、電話機、ファクシミリ装置、複写機等の電子装置には、交換 可能な部品が設けられている。このような部品の不揮発性メモリには、シリアル番号 等の部品固有の情報や、場合によってはユーザ又は電子装置の設置環境によりカス トマイズされた情報や履歴情報等が格納されて ヽる。
[0003] 例えば、複数のボードが設けられたコンピュータシステムを例に取る。コンピュータ システムにおいて故障が検出されると、故障の解析を行って保守を必要とするボード やボード上の部品を判別する。保守が必要と判別されたボード又はボード上の部品 は正常なボード又は部品(以下、保守ボード又は部品とも言う)と交換されるが、取り 外された故障ボード又はボード上の部品は、修理工場に送られて修理され、再利用 される。
[0004] 修理工場において故障ボード Z部品を短時間で正確に修理するには、コンビユー タシステムにおいて故障が検出された時のエラー情報等の故障情報を知る必要があ る。このため、故障ボード又は部品を修理工場に送る際には、故障情報を記載した 説明書等を付けたり修理工場へ通知したりする必要がある。 [0005] 不揮発性メモリを備えたボードの場合、故障の履歴情報をこの不揮発性メモリに格 納しておけば、修理工場でこの履歴情報を不揮発性メモリから読み出すことで、ある 程度は故障情報を知ることができる。しかし、故障の履歴情報は、例えば発生したェ ラーの種類等を示すだけであり、コンピュータシステムにおいてエラーが発生した状 況を詳細に示すものではないため、故障ボード又は部品を修理工場に送る際には、 故障情報をより詳細に記載した説明書等を付けたり修理工場へ通知したりする必要 がある。
[0006] つまり、コンピュータシステムにおいて発生するエラーには、コンピュータシステムが 設置されて!、る設置環境に起因するものや、コンピュータシステム内の各部の設定( 即ち、装置環境)に起因するものがあるため、修理工場において故障ボードや部品を 修理するためには、故障ボードや部品によりエラーが発生した時のコンピュータシス テムの設置環境や装置環境を知る必要があり、故障情報をより詳細に記載した説明 書等は必要不可欠である。
[0007] 特許文献 1及び特許文献 2には、故障情報を格納する不揮発性記憶手段を備えた モジュール力 なる情報処理装置が提案されている。特許文献 3には、故障情報を 格納する不揮発性記憶手段を備えた端末制御部力 なる自動販売機制御装置が提 案されている。特許文献 4には、消耗部品の交換時期をメーカ側に知らせる機能を 備えた電子機器が提案されて!、る。
特許文献 1:特開平 3 - 58245号公報
特許文献 2 :特開 2002— 108655号公報
特許文献 3:特開 2001— 101492号公報
特許文献 4:特開平 6— 267258号公報
発明の開示
発明が解決しょうとする課題
[0008] しかし、上記の如き故障情報をより詳細に記載した説明書等は、通常はコンビユー タシステムの保守者により作成されるものであるため、保守者が重要な故障情報を記 入し忘れたり、保守者が熟練して 、な 、と正確な故障情報を記入できな 、場合もある 。このため、修理工場において故障ボード又は部品を修理する際に使用する説明書 等が不完全であるために、適切な修理ができな力つたり、修理に時間がかかってしま
[0009] 尚、故障情報をより詳細に記載した説明書等に記載するべき情報をコンピュータシ ステムに出力させることも考えられる力 保守者が熟練していないとコンピュータシス テムに適切な故障情報を出力させることができない場合があり、又、保守者がコンビ ユータシステムに対して行うべき操作を行うことを忘れてしまうと、故障ボード又は部品 に関する説明書等が修理工場へ通知されない。
[0010] このように、従来は、故障ボードや部品に関する故障情報の詳細は、保守者に依存 する部分が多いため、正確、且つ、確実に修理工場へ通知することが難しぐ修理工 場において故障ボード又は部品を適切に修理ができな力つたり、修理に時間がかか つてしまうという問題があった。
[0011] そこで、本発明は、故障ボードや部品に関する故障情報の詳細を正確、且つ、確 実に通知可能とすることのできる故障情報管理方法及び装置、故障検出方法及び 装置、電子装置、情報処理装置並びにコンピュータ読み取り可能な記憶媒体を提供 することを概括的目的とする。
課題を解決するための手段
[0012] 上記の課題は、電子装置が備える交換可能な部品に関する故障情報を管理する 故障情報管理方法であって、部品で発生した故障の解析処理により交換が推奨され た交換推奨部品の識別情報及び該故障の種類を含む代表ログ情報部と、該故障が 発生した時の該交換推奨部品の装置環境情報を含む詳細ログ情報部とからなるエラ 一ログを生成するステップと、該エラーログを該交換推奨部品自体が備える不揮発性 メモリに格納する格納ステップとを含み、該生成ステップは、該交換推奨部品の 1回 目の故障については該代表ログ情報部及び該詳細ログ情報部に第一世代の情報を 上書き不能に記録し、 2回目以降の故障については該代表ログ情報部及び該詳細 ログ情報部に第二世代の情報を上書き可能に記録することで該エラーログを生成す る故障情報管理方法によって達成できる。
[0013] 上記の課題は、上記装置環境情報が該交換推奨部品が故障して!/、ることを示す故 障マークを部品状態情報として含む故障情報管理方法にて故障情報が管理されて いる交換可能な部品の故障を検出する故障検出方法であって、該故障マークが部 品状態情報として夫々の不揮発性メモリに記録された 2つの交換推奨部品のうち、一 方の交換推奨部品の交換時に他方の交換推奨部品の不揮発性メモリ内の故障マー クを削除し、該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推 奨部品の故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マーク を該部品状態情報として再度記録する故障検出方法によっても達成できる。
[0014] 上記の課題は、コンピュータに、上記故障情報管理方法により電子装置が備える交 換可能な部品に関する故障情報を管理させる手順を含むプログラムを格納したコン ピュータ読み取り可能な記憶媒体によっても達成できる。
[0015] 上記の課題は、コンピュータに、上記故障検出方法により故障情報が管理されてい る交換可能な部品の故障を検出させる手順を含むプログラムを格納したコンピュータ 読み取り可能な記憶媒体によっても達成できる。
[0016] 上記の課題は、電子装置の部品で発生した故障の解析処理を行う解析手段と、該 解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類を含 む代表ログ情報部と、該故障が発生した時の該交換推奨部品の装置環境情報を含 む詳細ログ情報部とからなるエラーログを生成する生成手段と、該エラーログを該交 換推奨部品自体が備える不揮発性メモリに格納する格納手段とを備え、該生成手段 は、該交換推奨部品の 1回目の故障については該代表ログ情報部及び該詳細ログ 情報部に第一世代の情報を上書き不能に記録し、 2回目以降の故障については該 代表ログ情報部及び該詳細ログ情報部に第二世代の情報を上書き可能に記録する ことで該エラーログを生成する故障情報管理装置によっても達成できる。
[0017] 上記の課題は、上記故障情報管理方法にて故障情報が管理されている交換可能 な部品の故障を検出する故障検出装置であって、該故障マークが部品状態情報とし て夫々の不揮発性メモリに記録された 2つの交換推奨部品のうち、一方の交換推奨 部品の交換時に他方の交換推奨部品の不揮発性メモリ内の故障マークを削除する 手段と、該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推奨 部品の故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マークを 該部品状態情報として再度記録する手段とを備えた故障検出装置によっても達成で きる。
[0018] 上記故障検出装置は、電子装置内の交換推奨部品以外の部品に設けられていて も良い。
[0019] 上記の課題は、上記故障情報管理装置と、上記故障検出装置とのうち、少なくとも 一方を備えた電子装置によっても達成できる。
[0020] 上記の課題は、部品が交換可能に取り付けられる情報処理装置において、前記情 報処理装置を構成する部品で発生した故障の解析処理を行う解析手段と、前記解 析手段による解析処理の結果、交換対象となる部品の識別情報、前記交換対象部 品に生じた故障種類情報、及び前記部品の動作環境に関する情報を含むエラー口 グを生成する手段と、前記生成されたエラーログを記憶する記憶手段と、前記交換対 象部品の 1回目の故障について生成された第一世代エラーログを前記記憶手段に 上書き不能に書き込むと共に、 2回目以降の故障について生成された第二世代エラ 一ログを前記記憶手段に上書き可能に書き込む格納手段とを備えることを特徴とす る情報処理装置によっても達成できる。
[0021] 上記の課題は、電子装置を構成する部品で発生した故障に関する故障情報を管 理する故障情報管理方法において、部品で発生した故障の解析処理により交換対 象となる部品の識別情報、該部品に生じた故障種類情報、及び該故障が発生した時 の該交換推奨部品の環境情報を含むエラーログを生成するステップと、該交換推奨 部品の 1回目の故障については当該故障に関わるエラーログをエラーログ記録部に 上書き不能に記録し、 2回目以降の故障については当該故障に関わるエラーログを 前記エラーログ記録部に上書き可能に記録するステップとを有することを特徴とする 故障情報管理方法によっても達成できる。
発明の効果
[0022] 本発明によれば、故障ボードや部品に関する故障情報の詳細を正確、且つ、確実 に通知可能とすることのできる故障情報管理方法及び装置、故障検出方法及び装 置、電子装置、情報処理装置並びにコンピュータ読み取り可能な記憶媒体を実現す ることができると!/、う効果が得られる。
図面の簡単な説明 [0023] [図 1]本発明が適用可能な電子装置を示すブロック図である。
[図 2]SCFUの CPUがコンピュータシステム内の故障を検出した場合の処理の流れ を示すブロック図である。
[図 3]SCFUの CPUがコンピュータシステム内の故障を検出した場合の処理を説明 するフローチャートである。
[図 4]エラーログの一例を示す図である。
[図 5]通電時間情報の算出処理を説明するフローチャートである。
[図 6]通電時間情報の登録処理を説明するフローチャートである。
[図 7]故障マークの付加及び削除による故障検出処理を説明する図である。
符号の説明
[0024] 1 コンピュータシステム
11 BP
12 SCFU
13 IOU
14 CMU
15 パネルボード
16 ファン BP
17 PSU
18 ファン
122, 142 CPU
121, 131, 141, 401, 501 FRU— ROM
発明を実施するための最良の形態
[0025] 以下に、本発明になる故障情報管理方法及び装置、故障検出方法及び装置、電 子装置、情報処理装置並びにコンピュータ読み取り可能な記憶媒体の各実施例を、 図面と共に説明する。
実施例
[0026] 先ず、本発明の第 1実施例を説明する。
[0027] 図 1は、本発明が適用可能な電子装置の一実施形態を示すブロック図である。図 1 は、本発明が情報処理装置であるコンピュータシステムに適用された場合を示す。
[0028] 図 1に示すコンピュータシステム 1は、バックパネル(BP : Back Panel) 11に接続され たシステム制御機構ボード(SCFU : System Control Facility Unit) 12、入出力制御 ボード(IOU : Input/Output controller Unit) 13、複数の CPUメモリボード(CMU : C PU Memory board Unit) 14、パネルボード(Panel) 15、ファン BP (Back Panel) 16、複 数の電源ボード(PSU: Power Supply Unit) 17を備える。ファン BP16には、複数のフ アン 18 (FAN # 0、 FAN # 1、…;)が接続されている。説明の便宜上、 BP11、 SCFU 12、 IOU13、 CMU14、パネルボード 15、ファン BP16、 PSU17及びファン 18が交 換可能であり、且つ、少なくとも不揮発性メモリを備えたボードであるものとする。尚、 交換可能なボードは、 FRU (Field Replace Unit)とも呼ばれるので、図 1では上記不 揮発性メモリは FRU— ROMとして図示されている。
[0029] SCFU12は、コンピュータシステム 1全体を制御するものであり、 FRU—ROM121 、 CPU122、 SDRAM123, ROM124及びハードディスク装置等の記憶部 125を 有する。 IOU13は、コンピュータシステム 1への入出力を制御するためのものであり、 FRU— ROM131、複数のハードディスク(HD)装置 132、複数の PCIカード 133及 び DAT装置 134を有する。 CMU14は、 FRU—ROM141、複数の CPU142 ( # 0 〜 # 3)及び複数のデュアルインラインメモリモジュール(DIMM: Dual Inline Memory Module) 143を有する。パネルボード 15は、装置設定情報を格納するためのもので ある。詳細な説明は省略するが、 BP11、ノネル 15、ファン BP16、 PCU17及びファ ン 18にも FRU— ROMが設けられており、これらの FRU— ROMは説明の便宜上同 じ符号「401」で示すものとする。又、各ボード 11〜 13上の交換可能な素子、部品又 は装置にも FRU— ROMが設けられており、これらの FRU— ROMは説明の便宜上 同じ符号「 501」で示すものとする。例えば CMU 14内の各 CPU 142及び各 DIMM 143には、 FRU— ROM501が設けられている。
[0030] 次に、コンピュータシステム 1において故障が発生した場合の動作を、図 2〜図 4と 共に説明する。
[0031] 図 2は、 SCFU12の CPU122がコンピュータシステム 1内の故障を検出した場合の 処理の流れを示すブロック図であり、図 3は、この処理を説明するフローチャートであ る。図 2中、図 1と同一部分には同一符号を付し、その説明は省略する。
[0032] 尚、図 3に示す処理は、交換を必要とする交換部品及び交換の必要性があると判 断される被疑部品を除く部品に搭載されたプロセッサにより実行できる。本実施例で は説明の便宜上、コンピュータシステム 1全体を制御する SCFU12の CPU122が図 3に示す処理を実行する場合を例にとって説明する。
[0033] 図 3に示す処理は、コンピュータシステム 1内で発生した故障によりエラーが発生す ると CPU122により開始される。例えば、 CMU14内の CPU142で故障が発生する と、 CPU142から SCFU12内の CPU122へエラー情報等の故障情報が通知される 。ステップ S1で、 CPU122は故障情報の解析が必要である力否かを判定し、判定結 果が YESであると、ステップ S2では、 CPU122は図 2に ST1で示すように CPU142 力もの故障情報を収集して、 SDRAM123等に一時的に格納する。ステップ S3では 、図 2に ST2で示すように、 CPU122は収集された故障情報を解析する。ステップ S 3の解析処理により、交換を必要とする交換部品或いは交換の必要性があると判断さ れる被疑部品が特定される。交換部品及び被疑部品は、交換可能なボードであって も、ボード上に搭載された交換可能な素子、部品又はその他の装置であっても良い。
[0034] ステップ S4で CPU122は、解析処理に基づいてエラーログを生成し、生成したェ ラーログを図 2に ST3で示すように記憶部 125に格納することで登録する。本実施形 態によるエラーログは、代表ログ情報部と、詳細ログ情報部とから構成される。
[0035] 代表ログ情報部には、交換が推奨される交換推奨部品が交換部品である力あるい は被疑部品であるかを示す部品情報、交換推奨部品の識別番号 (ID)情報、エラー 又は故障の種類を示す種類情報、エラーの発生日時を示す時間情報、エラー又は 故障を交換推奨部品のホスト装置等へ通知する力否かを示す通知要否情報等が記 録される。種類情報は、エラーが軽微なものカゝら深刻なものまでの複数のレベルを表 示可能なエラーレベル、又は、故障が軽微なものから深刻なものまでの複数のレべ ルを表示可能な故障 (ダメージ)レベルを示す。
[0036] 詳細ログ情報部には、上記代表ログ情報部に記録されている各交換推奨部品に対 して、コンピュータシステム 1が設置されている設置環境と、各交換推奨部品の設定 Z装置環境に関する情報が記録されている。設置環境情報には、コンピュータシス テム 1が終日連続稼動(無停止稼動)するものカゝ、毎日異なる時間稼動されるものか 、毎日同じ時間帯のみ稼動されるものなの力 といったコンピュータシステム 1の稼動 状況に関する情報の他、温度湿度が一定に制御された環境である力否か等の情報 が含まれる。装置環境情報はエラー又は故障毎に異なるが、設置環境情報はコンビ ユータシステム 1の構成等が変更されない限り不変である。このため、設置環境情報 は、上記代表ログ情報部に装置環境情報と共に記録しても、エラーログとは別に記 録しても良い。
[0037] 図 4は、エラーログの一例を示す図である。図 4は、代表ログ情報部に記録されてお り交換を推奨されて 、る交換推奨部品が CPU142 ( # 3)である場合を示す。図 4に ぉ 、て、 FAN # 0情報〜 FAN # 7情報は、上記故障が発生した時のコンピュータシ ステム 1内のファン 18の回転数を示す。吸気温度情報は、上記故障が発生した時の コンピュータシステム 1の吸気温度を示す。 SB # 1温度情報及び SB # 2温度情報は 、上記故障が発生した時のコンピュータシステム 1内の BP11の温度を示す。 CPU 0温度情報〜 CPU # 3温度情報は、上記故障が発生した時の CMU14内の CPU1 42の温度を示す。 1. 2V電圧 (CPU # 0)情報〜 1. 2V電圧 (CPU # 3)情報は、上 記故障が発生した時の CMU14内の CPU142 ( # 0〜 # 3)内における 1. 2Vの電 源電圧の状態 (又は、変動)を示す。 5V電圧情報、 3. 3V電圧情報、 2. 5V電圧情 報は、夫々上記故障が発生した時の対応する PSU17から供給される 5V電源電圧、 3. 3V電源電圧、 2. 5V電源電圧の状態 (又は、変動)を示す。部品状態情報は、代 表ログ情報部に記録されており交換を推奨されている交換推奨部品、即ち、 CPU14 2 ( # 3)に故障であることを示す故障マーク (又は、エラーマーク)が付けられて 、る か否力、即ち、 CPU142 ( # 3)のFRU—ROM501にェラーマークが記録されてぃ るか否かを示す。通電日数情報は、代表ログ情報部に記録されており交換を推奨さ れている交換推奨部品、即ち、 CPU142 ( # 3)の通電時間を示す。「リザーブ」は、 予備の情報格納エリアである。
[0038] ステップ S5で、 CPU122は代表ログ情報部に交換推奨部品が有る力否かを判定 し、判定結果が NOであると処理は終了する。他方、ステップ S5の判定結果が YES であると、ステップ S6で CPU122は、交換推奨部品の合計が 1つである力否かを判 定する。ステップ S6の判定結果が YESであると、交換推奨部品は 1つであるため、ス テツプ S7で CPU122は、該当する交換推奨部品に対してエラーマークが付けられて いることを示す情報を詳細ログ情報部の部品状態情報に記録する。また、 CPU122 は、該当する交換推奨部品に関連するエラーログを SCFU12内の FRU—ROM12 1に格納し、更に、図 2に ST4で示すようにこのエラーログを CMU14内の CPU142 ( # 3)の FRU—ROM501に格納する。ステップ S7の後、処理は終了する。
[0039] 尚、上記説明では、保守者による CPU142 ( # 3)単体の交換が可能である場合を 想定しているので、エラーログは CPU142 ( # 3)に格納されている力 交換対象とは ならな ヽ CMU12内の FRU— ROM141にはエラーログを格納せずとも良 、。しかし 、保守者による CPU142 ( # 3)単体の交換ができず、 CMU14全体が交換される場 合には、 CMU12内の FRU— ROM141にもエラーログを格納することが望ましい。 このように、エラーログは交換単位となる部品 Z装置毎に格納されることが好ましい。
[0040] ステップ S6の判定結果が NOであると、交換推奨部品が複数存在することとなる。
そのため、ステップ S8で CPU122は、該当する複数の交換推奨部品に対してエラー マークが付けられていることを示す情報を詳細ログ情報部の部品状態情報に記録す ると共に、エラーログを SCFU12内の FRU— ROM121に格納し、更に、このエラー ログを各交換推奨部品の FRU— ROMと、必要に応じて各交換推奨部品が属してい る部品の FRU— ROMとに格納する。この場合、エラーログは、例えば CMU14内の CPU142 ( # 3)の FRU— ROM501と CPU142 ( # 2)の FRU— ROM501に格納 され、必要に応じて CPU142 ( # 3)及び CPU ( # 2)が属する CMU14の FRU—R OM141にも格納される。尚、ステップ S6の判定結果は、例えばインタフェース故障 等の場合に NOになる。
[0041] ステップ S8の後、 CPU122によりステップ S9が実行される。ステップ S9では CPU1 22は、エラー又は故障に応じて各種リアクション処理を行い、処理は終了する。リアク シヨン処理には、交換が推奨されている交換推奨部品を実際にコンピュータシステム 1から取り外して交換する際の部品縮退動作に伴い保守者が行うべきコンピュータシ ステム 1に対する保守操作 (情報入力等)、エラーログの代表ログ情報部に記録され た通知要否情報に基づいて自動的に行われるエラー又は故障の交換推奨部品のホ スト装置等への通知、保守者の手動によるホスト装置等へのこのような通知等を含ま れる。
[0042] 上記ステップ S4にお 、て、代表ログ情報部及び詳細ログ情報部の各々に、最初の エラー発生時にエラーログに記録される第一世代の情報と、 2回目以降のエラー発 生時にエラーログに記録される第二世代の情報とを記録するようにしても良い。この 場合、交換推奨部品の 1回目の故障については (この場合、故障が未登録)代表ログ 情報部及び詳細ログ情報部に第一世代の情報を上書き不能に記録し、 2回目以降 の故障にっ 、ては (この場合、故障が登録済み)代表ログ情報部及び詳細ログ情報 部に第二世代の情報を上書き可能に記録することでエラーログを生成する。交換推 奨部品の FRU— ROMには、必ず 1回目の故障に関する第一世代の情報が格納さ れており、且つ、 2回目以降の故障については最新の第二世代の情報が格納されて いるので、修理工場では保守者に依存することなぐより容易に適切な修理を行うこと ができる。
[0043] 又、エラーログに第二世代の情報を上書き記録する際に、エラーレベル又は故障 レベルが既に記録されて 、る情報 (第一世代の情報を含んでも良 、;)より高 、エラー レベル又は故障レベル (即ち、より深刻なエラー又は故障)の場合にのみ上書き記録 を行うようにしても良い。これにより、修理工場では、保守者に依存することなぐ修理 を行う際に必要な、より深刻なエラー又は故障に関する情報を交換推奨部品の FRU —ROM力も読み出すことができる。
[0044] 尚、通電時間情報については、上記第一世代の情報及び第二世代の情報を、以 下に説明するように、詳細ログ情報部内の他の情報とは異なる方法で記録する。これ は、修理工場において、交換推奨部品の寿命等を考慮した適切な修理を行えるよう にするためである。
[0045] 図 5は、通電時間情報の算出処理を説明するフローチャートである。 CMU14等の 各部品の通電時間情報は、出荷時に 0に初期化されている。図 5において、ステップ S 11では CMU14等の部品が接続されたコンピュータシステム 1の電源を投入する 処理が行われる。ステップ S 12では、電源投入カゝら所定時間経過したカゝ否かが判定 される。所定時間は通電時間情報収集の単位時間であり、例えば 1日である。ステツ プ SI 2の判断結果が YESであると、ステップ S13では、 CMU14等の部品の通電時 間情報に所定値が加算される。上記所定時間が 1日であれば、ステップ S13では通 電時間情報である通電日数情報に 1が加算される。ステップ S 12の判定結果が NO、 或いは、ステップ S13の後、ステップ S14では、コンピュータシステム 1の電源が切断 されたか否かが判定され、判定結果が NOであると、処理はステップ S 12へ戻る。他 方、ステップ S 14の判定結果が YESであると、処理はステップ S 11へ戻る。このように して、 CMU14等の各部品の通電時間情報が定期的に更新されて部品内の FRU— ROM等のメモリに格納される。
[0046] 図 6は、通電時間情報の登録処理を説明するフローチャートである。図 6に示す通 電時間情報の登録処理は、図 3に示すステップ S4で通電時間情報をエラーログに 記録する際に行われる。
[0047] 図 6において、ステップ S21では、図 5に示す通電時間情報の算出処理により更新 されている CMU14等の交換推奨部品の通電時間情報を入手する処理が行われる 。ステップ S22では、第一世代の故障情報が有る力否かが判定される。ステップ S22 の判定結果が NOであると、ステップ S23では交換推奨部品の通電時間情報がエラ 一ログの詳細ログ情報部に第一世代の通電時間情報として上書き不能に記録され、 処理は終了する。他方、ステップ S22の判定結果が YESであると、ステップ S24では 、交換推奨部品がコンピュータシステム 1から取り外されるまで、この交換推奨部品の 通電時間情報をエラーログの詳細ログ情報部に第二世代の通電時間情報として順 次上書き可能に(更新可能に)記録する処理が行われ、処理は終了する。
[0048] このようにして、ステップ S4では、 1回目の故障については、第一世代の情報が記 録された時点での通電時間情報が上書き不能に記録され、 2回目以降の故障につ いては、交換推奨部品がコンピュータシステム 1から取り外されるまでの通電時間情 報を順次上書き可能に記録することでエラーログが生成する。
[0049] 次に、本発明の第 2実施例を説明する。
[0050] 本実施例においても、本発明は図 1に示すコンピュータシステムに適用されている 。本実施例は、エラーログの代表ログ情報部に記録される部品状態情報に、交換推 奨部品が故障であることを示す故障マーク (又は、エラーマーク)を付加したり削除す る際の処理に特徴がある。
[0051] エラーログの代表ログ情報部に記録される部品状態情報に、交換推奨部品が故障 であることを示す故障マーク(又は、エラーマーク)が付加されると、たとえこの交換推 奨部品がコンピュータシステムから取り外されて他のコンピュータシステムに接続され ても、故障マーク力もこの部品が故障していることが判別できるので、この故障部品が 他のコンピュータシステムで誤って使用されることを確実に防止することができる。又 、故障部品を修理した後に故障マークを削除することで、修理された正常な部品と故 障部品とを確実に判別できる。
[0052] つまり、部品が装置に装着され、装置が部品のエラーマークを参照し、エラーマー クがない場合には装置が正常な部品 (又は使用可能な部品)であると判断して通常 動作を行い、エラーマークがある場合には装置が故障部品(又は使用できない部品) であると判断して当該部品については縮退動作を行うことができる。
[0053] しかし、部品間で発生する経路系故障の場合は、複数の交換推奨部品のうちどの 部品が実際に故障しているのかを判断することは難しい。そこで、本実施例では、図 3に示すステップ S2の解析処理により例えば 2つの交換推奨部品があることが判明 すると、故障マーク (又は、エラーマーク)を両方の交換推奨部品の部品状態情報に 付加する。
[0054] 図 7は、故障マーク Mの付加及び削除による故障検出処理を説明する図である。
図 7 (A)に示すように、解析処理により故障の発生を検出し、 2つの交換推奨部品 A , Bのうちどの部品が実際に故障しているのかを判断できない場合には、図 7 (B)に 示すように、両方の交換推奨部品 A, Bのエラーログの代表ログ情報部に記録される 部品状態情報に故障マーク Mを付加する。次に、図 7 (C)に示すように、一方の交換 推奨部品 Bを正常な部品 Cと交換し、図 7 (D)に示すように、他方の交換推奨部品 A に付加されている故障マーク Mを削除する。この状態で、図 7 (E)に示すように解析 処理により再度故障の発生が検出されると、今度は交換推奨部品 Aを正常な部品 D と交換するので、図 7 (G)に示すように正常な部品 C, Dの組み合わせが得られる。 尚、図 7 (C)に示すように一方の交換推奨部品 Bを正常な部品 Cと交換し、図 7 (D) に示すように他方の交換推奨部品 Aに付加されている故障マーク Mを削除した時点 で故障の発生が検出さればければ、正常な部品 A, Cの組み合わせが得られる。
[0055] 従って、部品間で発生する経路系故障の場合であっても、故障部品を確実に、且 つ、短時間で検出することができると共に、故障が検出された部品に対しては故障マ ーク Mが付加されることで、正常な部品との区別が容易になる。
産業上の利用可能性
[0056] 本発明は、交換可能であり、且つ、不揮発性メモリを備えた部品で構成されるコンビ ユータシステム、情報処理装置、電話機、ファクシミリ装置、複写機等の電子装置に 適用可能である。
[0057] 以上、本発明を実施例により説明したが、本発明は上記実施例に限定されるもので はなぐ本発明の範囲内で種々の変形及び改良が可能であることは言うまでもない。

Claims

請求の範囲
[1] 電子装置が備える交換可能な部品に関する故障情報を管理する故障情報管理方 法であって、
部品で発生した故障の解析処理により交換が推奨された交換推奨部品の識別情 報及び該故障の種類を含む代表ログ情報部と、該故障が発生した時の該交換推奨 部品の装置環境情報を含む詳細ログ情報部とからなるエラーログを生成するステツ プと、
該エラーログを該交換推奨部品自体が備える不揮発性メモリに格納する格納ステツ プとを含み、
該生成ステップは、該交換推奨部品の 1回目の故障については該代表ログ情報部 及び該詳細ログ情報部に第一世代の情報を上書き不能に記録し、 2回目以降の故 障については該代表ログ情報部及び該詳細ログ情報部に第二世代の情報を上書き 可能に記録することで該エラーログを生成する、故障情報管理方法。
[2] 該電子装置の設置環境を示す設置環境情報を該交換推奨部品自体が備える不 揮発性メモリに格納する、請求項 1記載の故障情報管理方法。
[3] 該装置環境情報は、該交換推奨部品への合計通電時間を示す時間情報を含み、 該生成ステップは、該 1回目の故障については、該第一世代の情報が記録された 時点での時間情報を上書き不能に記録し、該 2回目以降の故障については、該交換 推奨部品が該電子装置から取り外されるまでの時間情報を順次上書き可能に記録 することで該エラーログを生成する、請求項 1記載の故障情報管理方法。
[4] 該格納ステップは、該交換推奨部品が交換可能な特定部品に搭載されている場合 、該エラーログを該特定部品自体が備える不揮発性メモリにも格納する、請求項 1記 載の故障情報管理方法。
[5] 該装置環境情報は、該交換推奨部品が故障して 、ることを示す故障マークを部品 状態情報として含む、請求項 1記載の故障情報管理方法。
[6] 請求項 5記載の故障情報管理方法にて故障情報が管理されている交換可能な部 品の故障を検出する故障検出方法であって、
該故障マークが部品状態情報として夫々の不揮発性メモリに記録された 2つの交 換推奨部品のうち、一方の交換推奨部品の交換時に他方の交換推奨部品の不揮発 性メモリ内の故障マークを削除し、
該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推奨部品の 故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マークを該部品 状態情報として再度記録する、故障検出方法。
[7] コンピュータに、請求項 1〜5のいずれ力 1項記載の故障情報管理方法により電子 装置が備える交換可能な部品に関する故障情報を管理させる手順を含むプログラム を格納した、コンピュータ読み取り可能な記憶媒体。
[8] コンピュータに、請求項 6記載の故障検出方法により故障情報が管理されている交 換可能な部品の故障を検出させる手順を含むプログラムを格納した、コンピュータ読 み取り可能な記憶媒体。
[9] 電子装置の部品で発生した故障の解析処理を行う解析手段と、
該解析処理により交換が推奨された交換推奨部品の識別情報及び該故障の種類 を含む代表ログ情報部と、該故障が発生した時の該交換推奨部品の装置環境情報 を含む詳細ログ情報部とからなるエラーログを生成する生成手段と、
該エラーログを該交換推奨部品自体が備える不揮発性メモリに格納する格納手段 とを備え、
該生成手段は、該交換推奨部品の 1回目の故障については該代表ログ情報部及 び該詳細ログ情報部に第一世代の情報を上書き不能に記録し、 2回目以降の故障 については該代表ログ情報部及び該詳細ログ情報部に第二世代の情報を上書き可 能に記録することで該エラーログを生成する、故障情報管理装置。
[10] 該装置環境情報は、該交換推奨部品への合計通電時間を示す時間情報を含み、 該生成手段は、該 1回目の故障については、該第一世代の情報が記録された時点 での時間情報が上書き不能に記録し、該 2回目以降の故障については、該交換推 奨部品が該電子装置から取り外されるまでの時間情報が順次上書き可能に記録す ることで該エラーログを生成する、請求項 9記載の故障情報管理装置。
[11] 該格納手段は、該交換推奨部品が交換可能な特定部品に搭載されている場合、 該エラーログを該特定部品自体が備える不揮発性メモリにも格納する、請求項 9記載 の故障情報管理装置。
[12] 該装置環境情報は、該交換推奨部品が故障して 、ることを示す故障マークを部品 状態情報として含む、請求項 9記載の故障情報管理装置。
[13] 該故障情報管理装置は、該電子装置内の該交換推奨部品以外の部品に設けられ ている、請求項 9記載の故障情報管理装置。
[14] 請求項 5記載の故障情報管理方法にて故障情報が管理されている交換可能な部 品の故障を検出する故障検出装置であって、
該故障マークが部品状態情報として夫々の不揮発性メモリに記録された 2つの交 換推奨部品のうち、一方の交換推奨部品の交換時に他方の交換推奨部品の不揮発 性メモリ内の故障マークを削除する手段と、
該一方の交換推奨部品の交換後に故障が再発すると、該他方の交換推奨部品の 故障を検出して該他方の交換推奨部品の不揮発性メモリに該故障マークを該部品 状態情報として再度記録する手段とを備えた、故障検出装置。
[15] 該故障検出装置は、該電子装置内の該交換推奨部品以外の部品に設けられてい る、請求項 14記載の故障検出装置。
[16] 請求項 9〜 13のいずれか 1項記載の故障情報管理装置と、請求項 14又は 15記載 の故障検出装置とのうち、少なくとも一方を備えた、電子装置。
[17] 部品が交換可能に取り付けられる情報処理装置において、
前記情報処理装置を構成する部品で発生した故障の解析処理を行う解析手段と、 前記解析手段による解析処理の結果、交換対象となる部品の識別情報、前記交換 対象部品に生じた故障種類情報、及び前記部品の動作環境に関する情報を含むェ ラーログを生成する手段と、
前記生成されたエラーログを記憶する記憶手段と、
前記交換対象部品の 1回目の故障について生成された第一世代エラーログを前記 記憶手段に上書き不能に書き込むと共に、 2回目以降の故障について生成された第 二世代エラーログを前記記憶手段に上書き可能に書き込む格納手段と、を備えるこ とを特徴とする、情報処理装置。
[18] 電子装置を構成する部品で発生した故障に関する故障情報を管理する故障情報 管理方法において、
部品で発生した故障の解析処理により交換対象となる部品の識別情報、該部品に 生じた故障種類情報、及び該故障が発生した時の該交換推奨部品の環境情報を含 むエラーログを生成するステップと、
該交換推奨部品の 1回目の故障については当該故障に関わるエラーログをエラー ログ記録部に上書き不能に記録し、 2回目以降の故障については当該故障に関わる エラーログを前記エラーログ記録部に上書き可能に記録するステップと、を有すること を特徴とする、故障情報管理方法。
PCT/JP2006/301676 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体 WO2007088606A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP06712819A EP1983438A1 (en) 2006-02-01 2006-02-01 Failure information management method, detection method and apparatus, and storage medium
PCT/JP2006/301676 WO2007088606A1 (ja) 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体
JP2007556744A JPWO2007088606A1 (ja) 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体
US12/219,234 US20080282113A1 (en) 2006-02-01 2008-07-17 Failure information management method and apparatus, failure detection method and apparatus, electronic apparatus, information processing apparatus and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/301676 WO2007088606A1 (ja) 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/219,234 Continuation US20080282113A1 (en) 2006-02-01 2008-07-17 Failure information management method and apparatus, failure detection method and apparatus, electronic apparatus, information processing apparatus and computer-readable storage medium

Publications (1)

Publication Number Publication Date
WO2007088606A1 true WO2007088606A1 (ja) 2007-08-09

Family

ID=38327194

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/301676 WO2007088606A1 (ja) 2006-02-01 2006-02-01 故障情報管理方法及び検出方法、装置並びに記憶媒体

Country Status (4)

Country Link
US (1) US20080282113A1 (ja)
EP (1) EP1983438A1 (ja)
JP (1) JPWO2007088606A1 (ja)
WO (1) WO2007088606A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146072A (ja) * 2008-12-16 2010-07-01 Nec Corp コンピュータの異常監視装置、異常監視方法、異常監視プログラム
JP2014102729A (ja) * 2012-11-21 2014-06-05 Fujitsu Frontech Ltd 稼働情報管理装置および稼働情報管理方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110069A1 (ja) * 2008-03-04 2009-09-11 富士通株式会社 制御装置および制御プログラム
JP2010165098A (ja) * 2009-01-14 2010-07-29 Seiko Epson Corp メンテナンス作業支援装置、メンテナンス作業支援方法、及びプログラム
US20140372809A1 (en) * 2013-06-12 2014-12-18 Ge Medical Systems Global Technology Company Llc Graphic self-diagnostic system and method
US9836949B2 (en) * 2016-02-22 2017-12-05 Waygum, Inc. Generating recommended maintenance steps for industrial machines based on historical interaction data with a mobile application
US9760477B1 (en) * 2016-04-12 2017-09-12 Linkedin Corporation Self-healing job executor pool
CN111656333B (zh) * 2018-03-26 2024-01-30 株式会社富士 从属设备、作业机及存储日志信息的方法
CN113342609A (zh) * 2021-06-10 2021-09-03 重庆科创职业学院 计算机排障系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5680754A (en) * 1979-12-05 1981-07-02 Fujitsu Ltd Device fault recording circuit
JPH01310453A (ja) * 1988-06-09 1989-12-14 Nec Corp 製造情報読取装置
JPH02181837A (ja) * 1989-01-06 1990-07-16 Nec Corp サービスプロセッサ
JPH0358245A (ja) 1989-07-27 1991-03-13 Nec Corp 情報処理装置
JPH04149749A (ja) * 1990-10-15 1992-05-22 Fujitsu Ltd ログデータ採取方式
JPH06267258A (ja) 1993-03-11 1994-09-22 Tokyo Electric Co Ltd 消耗部品の寿命判定装置
JPH0773075A (ja) * 1993-09-06 1995-03-17 Fujitsu Ltd 情報処理装置
JPH07175373A (ja) * 1993-12-21 1995-07-14 Casio Electron Mfg Co Ltd 電子装置
JPH09116626A (ja) * 1995-10-20 1997-05-02 Fujitsu Ltd 障害診断解析装置
JPH09146795A (ja) * 1995-11-22 1997-06-06 Fujitsu Ltd データ処理装置交換部品通知方式
JP2001101492A (ja) 1999-09-30 2001-04-13 Sanyo Electric Co Ltd 自動販売機制御装置
JP2002108655A (ja) 2000-09-27 2002-04-12 Nec Corp 故障情報管理方法および故障情報管理機能付き情報処理装置
JP2005208707A (ja) * 2004-01-20 2005-08-04 Fujitsu Ltd 異常監視装置、異常探索支援方法、異常探索支援プログラム
JP2005235176A (ja) * 2004-01-20 2005-09-02 Fujitsu Ltd 計算機の構成表示方法
JP2005293345A (ja) * 2004-04-01 2005-10-20 Fujitsu Support & Service Kk Icタグを用いた故障診断システムおよび故障診断方法
JP2005352624A (ja) * 2004-06-09 2005-12-22 Fujitsu Ltd 保守部品管理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757837B1 (en) * 1999-10-19 2004-06-29 Tivo, Inc. Method and apparatus for software failure diagnosis and repair
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US7328376B2 (en) * 2003-10-31 2008-02-05 Sun Microsystems, Inc. Error reporting to diagnostic engines based on their diagnostic capabilities
US20060107159A1 (en) * 2004-10-19 2006-05-18 Quantum Corporation Intelligent storage of device state in response to error condition

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5680754A (en) * 1979-12-05 1981-07-02 Fujitsu Ltd Device fault recording circuit
JPH01310453A (ja) * 1988-06-09 1989-12-14 Nec Corp 製造情報読取装置
JPH02181837A (ja) * 1989-01-06 1990-07-16 Nec Corp サービスプロセッサ
JPH0358245A (ja) 1989-07-27 1991-03-13 Nec Corp 情報処理装置
JPH04149749A (ja) * 1990-10-15 1992-05-22 Fujitsu Ltd ログデータ採取方式
JPH06267258A (ja) 1993-03-11 1994-09-22 Tokyo Electric Co Ltd 消耗部品の寿命判定装置
JPH0773075A (ja) * 1993-09-06 1995-03-17 Fujitsu Ltd 情報処理装置
JPH07175373A (ja) * 1993-12-21 1995-07-14 Casio Electron Mfg Co Ltd 電子装置
JPH09116626A (ja) * 1995-10-20 1997-05-02 Fujitsu Ltd 障害診断解析装置
JPH09146795A (ja) * 1995-11-22 1997-06-06 Fujitsu Ltd データ処理装置交換部品通知方式
JP2001101492A (ja) 1999-09-30 2001-04-13 Sanyo Electric Co Ltd 自動販売機制御装置
JP2002108655A (ja) 2000-09-27 2002-04-12 Nec Corp 故障情報管理方法および故障情報管理機能付き情報処理装置
JP2005208707A (ja) * 2004-01-20 2005-08-04 Fujitsu Ltd 異常監視装置、異常探索支援方法、異常探索支援プログラム
JP2005235176A (ja) * 2004-01-20 2005-09-02 Fujitsu Ltd 計算機の構成表示方法
JP2005293345A (ja) * 2004-04-01 2005-10-20 Fujitsu Support & Service Kk Icタグを用いた故障診断システムおよび故障診断方法
JP2005352624A (ja) * 2004-06-09 2005-12-22 Fujitsu Ltd 保守部品管理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146072A (ja) * 2008-12-16 2010-07-01 Nec Corp コンピュータの異常監視装置、異常監視方法、異常監視プログラム
JP2014102729A (ja) * 2012-11-21 2014-06-05 Fujitsu Frontech Ltd 稼働情報管理装置および稼働情報管理方法

Also Published As

Publication number Publication date
US20080282113A1 (en) 2008-11-13
JPWO2007088606A1 (ja) 2009-06-25
EP1983438A1 (en) 2008-10-22

Similar Documents

Publication Publication Date Title
WO2007088606A1 (ja) 故障情報管理方法及び検出方法、装置並びに記憶媒体
US7917814B2 (en) System and method of reporting error codes in an electronically controlled device
US6986075B2 (en) Storage-device activation control for a high-availability storage system
US7568122B2 (en) Method and apparatus for identifying a faulty component on a multiple component field replaceable unit
US20080198489A1 (en) Cartridge drive diagnostic tools
US20180060192A1 (en) Adaptive Failure Prediction Modeling for Detection of Data Storage Device Failures
JP6078984B2 (ja) 処理装置,処理方法,処理プログラム及び管理装置
WO1997031254A1 (fr) Methode et dispositif de diagnostic des defaillances d'un controleur de bord
JP4805665B2 (ja) 補助記憶装置のデータ消去管理方法,補助記憶装置及び遠隔保守装置
JP4648961B2 (ja) 装置メンテナンスシステム、方法および情報処理装置
CN104871139B (zh) 硬驱动器备份
US7606948B2 (en) System and method for generating warranty and pricing information for data storage apparatus
US20110154115A1 (en) Analysis result stored on a field replaceable unit
JP4479959B2 (ja) 診断システムおよび診断方法
US20060136776A1 (en) Apparatus and method for monitoring data storage device for usage and warranty
JP2010146072A (ja) コンピュータの異常監視装置、異常監視方法、異常監視プログラム
JP2003263703A (ja) 磁気ディスク装置及びディスク制御装置
JP2006107236A (ja) 部品寿命監視システム
JP2008102730A (ja) 電子機器または電子機器を具備したシステムの保守管理方法および保守管理装置並びに電子機器
JP2010198314A (ja) 情報管理装置
WO2008050455A1 (fr) Appareil de traitement d'anomalies de lignes d'adresses, procédé de traitement d'anomalies de lignes d'adresses, programme de traitement d'anomalies de lignes d'adresses, appareil de traitement d'informations et unité de commande de mémoire
JP2005293345A (ja) Icタグを用いた故障診断システムおよび故障診断方法
JP2010113463A (ja) 診断システム
JP2010101519A (ja) 空気調和機
JP2005035229A (ja) プリンタ装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007556744

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2006712819

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE