WO2013080977A1 - フォールトトレラントシステム、フォールトトレラント方法及びプログラム - Google Patents

フォールトトレラントシステム、フォールトトレラント方法及びプログラム Download PDF

Info

Publication number
WO2013080977A1
WO2013080977A1 PCT/JP2012/080637 JP2012080637W WO2013080977A1 WO 2013080977 A1 WO2013080977 A1 WO 2013080977A1 JP 2012080637 W JP2012080637 W JP 2012080637W WO 2013080977 A1 WO2013080977 A1 WO 2013080977A1
Authority
WO
WIPO (PCT)
Prior art keywords
irrelevant
fault
parts
logic
fault logic
Prior art date
Application number
PCT/JP2012/080637
Other languages
English (en)
French (fr)
Inventor
剣文 向
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US14/360,980 priority Critical patent/US9053023B2/en
Priority to JP2013547170A priority patent/JP5664886B2/ja
Publication of WO2013080977A1 publication Critical patent/WO2013080977A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware

Definitions

  • the present invention relates to a system, a method, and a program for managing a fault tolerant system.
  • IPCM Incomplete coverage
  • coverage models can be broadly classified into component-level failure factor models and system-level reliability and dependency models.
  • the component level failure factor model is used in detail about the behavior of the system for each component failure factor.
  • BIT built-in testing
  • a failure of a component that causes a failure in the entire system regardless of redundancy is called a single point of failure (single point failure).
  • Non-Patent Document 1 is shown as a document describing a technique of a conventional incomplete coverage model (or simple coverage model).
  • the conventional incomplete coverage model especially the element level coverage model, only considers the identification and isolation of faulty parts. And the common perception was that if the failed parts were not safely isolated from the system, they would become a single point of failure for the system.
  • the system may not depend on the state of a specific component having reliability. For example, it occurs when those parts become useless or unrelated to the service in the system state after the reconstruction of other parts. In such a case, it is important to identify and isolate a part that has become irrelevant to the system (hereinafter referred to as an irrelevant part (inappropriate part)) in addition to the failed part. Because identification and isolation of irrelevant irrelevant parts (irrelevant parts) can prevent potential single points of failure caused by their useless or irrelevant irrelevant parts (irrelevant parts). This is because the reliability of the entire system can be remarkably increased.
  • Patent Document 1 has a problem that the reliability of the system is impaired by a single point of failure caused by an irrelevant part (an inappropriate part). The reason is that, although a failure of an irrelevant part (inappropriate part) can be a single point of failure for the system, identification and isolation of the irrelevant part (inappropriate part) is represented by Patent Document 1. This is because it is not considered in the conventional coverage model.
  • the present invention has been invented in view of the above problems, and its purpose is to identify and isolate irrelevant parts (inappropriate parts) in order to prevent a single point of failure due to irrelevant parts (inappropriate parts). It is an object of the present invention to provide a technique capable of improving the reliability of the entire system by providing a method and a system.
  • the present invention is a fault tolerant system, which affects the system fault logic based on the system fault logic means for editing the system fault logic and the system fault logic provided by the system fault logic means.
  • a fault tolerant system having irrelevant part coverage means for identifying non-related irrelevant parts and isolating irrelevant parts.
  • the present invention is a fault-tolerant method that edits and provides system fault logic, identifies irrelevant parts that do not affect the system fault logic, and isolates the irrelevant parts based on the system fault logic. It is a fault tolerant method.
  • the present invention is a fault-tolerant system program, which is a computer that performs system fault logic processing for editing the system fault logic, and has no influence on the system fault logic based on the system fault logic.
  • the effect of the present invention is that, in any system state, irrelevant parts (inappropriate parts) are identified and isolated at the appropriate time, and a single point of failure due to irrelevant parts (inappropriate parts) can be prevented. As a result, the reliability of the entire system can be improved.
  • FIG. 1 is a block diagram showing the configuration of the embodiment of the present invention.
  • FIG. 2 is a flowchart showing the operation of the embodiment of the present invention.
  • FIG. 3 is an example of the definition of an irrelevant part (irrelevant event).
  • FIG. 4 is a diagram for explaining the embodiment.
  • the first embodiment of the present invention includes fault logic means 110, faulty part coverage means 120, and irrelevant part coverage means 130.
  • the failure logic means 110 edits and stores the failure logic of the system based on the assumption of complete coverage.
  • Fault logic is stored in the form of reliability models, such as fault trees, reliability block diagrams, binary decision trees, and pure logic formulas.
  • the faulty part coverage means 120 detects, recovers, isolates the faulty part, and rebuilds the system under the occurrence of a covered part fault.
  • the irrelevant part coverage means 130 identifies irrelevant parts (inappropriate parts) based on the system fault logic given by the fault logic means 110 and the occurrence information of the covered fault parts covered by the faulty part coverage means 120. And quarantine.
  • the system failure logic is edited (generated) by the failure logic means 110 (step A1).
  • the system failure logic consists of a combination of all failed components that can cause a failure in the system. This combination is, for example, a combination represented by a reliability model such as a fault tree, a reliability block diagram, or a pure logic formula. System failure logic does not consider incomplete coverage, i.e. it is analyzed with full coverage.
  • an irrelevant part (unsuitable part) is first identified by the irrelevant part coverage means 130 (step A2) and isolated from the system (step A3).
  • the component (basic event) b i is an unrelated component (inappropriate component) that is inappropriate or unrelated to f. That is, if f does not depend on the value of b i (0 is false, 1 is true), the part (basic event) b i is an unrelated part (unsuitable part) inappropriate or unrelated to f.
  • parts and basic (failure) events to which they correspond are represented using the same symbols. The definition is shown in FIG.
  • the system failure logic is coherent in the initial state, such as a coherent failure tree without negative gates or unrelated events, the identification and isolation of irrelevant parts (inappropriate parts) may be omitted in the initial state. it can.
  • the system periodically detects the failed part by the failed part coverage means 120 (step A4).
  • the system covers the faulty part with the faulty part coverage means 120 (step A6).
  • the coverage of the failed part coverage means 120 can be executed in the same manner as that proposed in the conventional incomplete coverage model described in Non-Patent Document 1.
  • Step A7 Yes If the fault is covered as a permanent faulty part (Step A7 Yes) and rebuilt so that the system can be operated (Step A8 No), in the event of a covered faulty part, unrelated parts (inappropriate parts) Identification is performed and isolated from the system (steps A2 and A3 are repeated).
  • step A8 Yes if the redundancy due to the covered component failure does not work and the covered component failure causes a system failure according to the system failure logic (step A8 Yes), the system goes down. Also, the failure cannot be covered (step A7 No), and a single point of failure occurs due to the faulty part, and the system goes down.
  • the Web system S includes two process units, a process unit including a Web server W1 and a database server D1, and a process unit including a Web server W2 and a database server D2.
  • the configuration of the Web system S is shown in FIG.
  • the Web system S operates if one of the two process units is operable, and the process unit does not operate if either the Web server or the database server fails.
  • the failure logic means 110 calculates the system failure logic of the Web system S. If the system failure logic of Web System S does not consider the coverage mechanism, It can be expressed as.
  • the failure logic means 110 calculates the system failure logic of the Web system S, and the system failure logic of the Web system S is: It becomes.
  • the irrelevant part coverage means 130 is given from the initial system fault logic of the Web system S given by the fault logic means 110 and the system fault logic after the failure of the Web server W 1 is covered, and from the faulty part coverage means 120.
  • Database server D 1 (used to support Web server W 1 ) is identified as an irrelevant component (inappropriate component) based on the covered web server W 1 information. Why, if the failed system failure logic of the Web system S of the rear cover of the Web server W 1 This is because the database server D 1 does not appear, and the system failure logic of the Web system S after the cover of the Web server W 1 does not depend on whether or not the database server D 1 has failed.
  • the database server D 1 is intended to be isolated from the system in order to avoid a single point of failure that can not be covered in the future, the independent parts coverage means 130, the database server D 1 from the system Isolated.
  • the database server D 1 is an appropriate one that is related to the system failure logic of the Web system S, and when the Web server W 1 fails, it becomes an irrelevant part (an inappropriate part). is there. Similarly, if a failure of the database server D 1 occurs, Web server W 1 becomes irrelevant parts (incorrect parts). For even Web server W 2 and database server D 2, it is similar.
  • the conventional incomplete coverage model isolates only the parts that have failed. For example, Web server W 1 undergoes a failure, if it is detected, after the coverage, only Web server W 1 is isolated, the database server D 1, after the Web server W 1 has caused a failure, substantial Even if it becomes inappropriate or irrelevant, it remains in the Web system S without being isolated.
  • each unit can be configured by hardware, but can also be realized by a computer program.
  • functions and operations similar to those of the above-described embodiments or examples are realized by a processor that operates according to a program stored in the program memory.
  • a fault tolerant system System fault logic means for editing system fault logic;
  • a fault tolerant system comprising irrelevant part coverage means for identifying irrelevant parts that do not affect the system fault logic and isolating irrelevant parts based on the system fault logic provided by the system fault logic means.
  • the irrelevant part coverage means includes an initial system fault logic given by the system fault logic means and a system fault logic after covering the faulty part, and information on the covered faulty part given by the faulty part coverage means.
  • Appendix 4 Detecting, recovering and isolating faulty parts and reconfiguring the system 4.
  • the program is stored in a computer. Execute system restructuring process that detects, recovers and isolates faulty parts and rebuilds the system.
  • the process of identifying and isolating the irrelevant parts includes the initial system fault logic by the system fault logic process, the system fault logic after the fault parts are covered, and the information of the covered fault parts given by the system reconstruction process.
  • the present invention prevents any unrelated parts (inappropriate parts) from being identified and isolated at an appropriate time in any system state, and prevents a single point of failure due to the unrelated parts (inappropriate parts). As a result, the reliability of the entire system can be improved.
  • the present invention is used for reliability management of a fault tolerant system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Hardware Redundancy (AREA)

Abstract

本発明は、フォールトトレラントシステムであって、システム障害ロジックを編集するためのシステム障害ロジック手段と、前記システム障害ロジック手段によって与えられた前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、無関係部品を隔離する無関係部品カバレッジ手段とを有するフォールトトレラントシステムである。

Description

フォールトトレラントシステム、フォールトトレラント方法及びプログラム
 本発明は、フォールトトレラントシステムのマネジメントのためのシステム、方法およびプログラムに関する。
 フォールトトレラントシステムは、通常、単一障害点を冗長性によってカバーされるように設計される。カバーされなかった障害はシステムに障害を引き起こす可能性があるので、障害の検出、配置、隔離を行う自動修復および再構築メカニズムは、フォールトトレランスにおいて重要な役割を持つ。不完全フォールトカバレッジの効果を検討するモデルとして不完全カバレッジ(IPCM)が知られている。
 エラー処理メカニズムにおいて使用されるフォールトトレラントシステム技術のタイプに従えば、カバレッジモデルは、部品レベルの障害要因モデルと、システムレベルでの信頼性(reliability)・可用性(dependability)モデルとに大きく分類される。部品レベルの障害要因モデルは、それぞれの部品の故障要因に対するシステムの挙動についての詳細に使用される。故障部品の識別及び復旧のプロセスがビルトインテスト(BIT)を利用する場合、要素レベルカバレッジモデルと呼ばれる。
 要素レベルカバレッジモデルにおいては、冗長性にかかわらず、システム全体に障害を引き起こすような部品の故障は、単一障害点(シングルポイントフェイラー)と呼ばれる。
 ここで、従来の不完全カバレッジモデル(あるいは単純カバレッジモデル)の技術が記載されている文献として、非特許文献1を示す。
 従来の不完全カバレッジモデル、特に、要素レベルカバレッジモデルは、故障部品の識別及び隔離のみを検討している。そして、故障部品がシステムから安全に隔離されなければ、それらの部品はシステムに対して単一障害点となるというのが、共通の認識であった。
 ところで、解析対象とする特定のシステムサービスが与えられたとき、完全カバレッジが仮定されるシステムにおいて、そのシステムの信頼性がある特定の部品の状態には依存しないことがある。例えば、それらの部品が、他の部品の再構築後、システムの状態におけるサービスに対して無用なものや無関係なものとなっている場合に発生する。このような場合には、故障した部品に加えて、システムにとって無関係となった部品(以下、無関係部品(不適切部品)と記載する)の識別及び隔離は重要である。何故なら、無関係となった無関係部品(不適切部品)の識別及び隔離は、それらの無用又は無関係な無関係部品(不適切部品)によって引き起こされる潜在的な単一障害点の発生を防ぐことができ、システム全体の信頼性を顕著に高めることができるからである。
S. V. Amari, A. F. Myers, A. Rauzy, and K. S. Trivedi: "Imperfect coverage models: status and trends", in Handbook of Handbook of Performability Engineering, Chapter 22, Springer, 2008, pp. 321-348.
 しかしながら、特許文献1に代表される従来のカバレッジモデルは、無関係部品(不適切部品)が引き起こす単一障害点によってシステムの信頼性が損なわれるという課題があった。その理由は、無関係部品(不適切部品)の故障がシステムに対して単一障害点となりうるにもかかわらず、無関係部品(不適切部品)の識別と隔離とは、特許文献1に代表される従来のカバレッジモデルでは考慮されていないからである。
 そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、無関係部品(不適切部品)による単一障害点を防ぐため、無関係部品(不適切部品)を識別し隔離する方法とシステムを提供することにより、システム全体の信頼性を向上させることができる技術を提供することにある。
 本発明は、フォールトトレラントシステムであって、システム障害ロジックを編集するためのシステム障害ロジック手段と、前記システム障害ロジック手段によって与えられた前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、無関係部品を隔離する無関係部品カバレッジ手段とを有するフォールトトレラントシステムである。
 本発明は、フォールトトレラント方法であって、システム障害ロジックを編集して提供し、前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離するフォールトトレラント方法である。
 本発明は、フォールトトレラントシステムのプログラムであって、前記プログラムは、コンピュータに、システム障害ロジックを編集するシステム障害ロジック処理と、前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する無関係部品隔離処理とを実行させるプログラムである。
 本発明の効果は、いかなるシステム状態においても、無関係部品(不適切部品)が適切な時に識別されて隔離され、無関係部品(不適切部品)による単一障害点が生じることを防止することができ、結果としてシステム全体の信頼性を向上させることができる。
図1は本発明の実施の形態の構成を示すブロック図である。 図2は本発明の実施の形態の動作を示すフローチャートである。 図3は無関係部品(無関係事象)の定義の一例である。 図4は実施例を説明する為の図である。
 次に、本発明の実施の形態について図面を参照して詳細に説明する。
 図1に示すように、本発明の第1の実施の形態は、障害ロジック手段110と、故障部品カバレッジ手段120と、無関係部品カバレッジ手段130とを含む。
 これらの手段はそれぞれ概略つぎのように動作する。
 障害ロジック手段110は、完全カバレッジの仮定に基づきシステムの故障ロジックを編集し保存する。故障ロジックは、信頼性モデルの形式、例えば、故障の木、信頼性ブロックダイアグラム、バイナリーデシジョンの木、および純粋ロジックフォーミュラの形式で保存される。
 故障部品カバレッジ手段120は、故障部品の検出、回復、隔離、及びカバーされた部品障害の発生のもとでシステムの再構築をおこなう。
 無関係部品カバレッジ手段130は、障害ロジック手段110によって与えられたシステム障害ロジックと、故障部品カバレッジ手段120によって与えられたカバーされた故障部品の発生情報に基づいて、無関係部品(不適切部品)の識別と隔離とを行う。
 次に、図1及び図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
 まず、システム障害ロジックが前記障害ロジック手段110によって編集(生成)される(ステップA1)。システム障害ロジックは、システムに障害を引き起こす可能性のあるすべての故障部品の組み合わせから構成される。この組み合わせとは、例えば、故障の木、信頼性ブロックダイアグラムや、純粋ロジックフォーミュラなど信頼性モデル等で代表される組み合わせである。システム障害ロジックは、不完全カバレッジを考慮せず、つまり、完全カバレッジで分析される。
 システム障害ロジックが有効な初期システム状態において、無関係部品カバレッジ手段130により無関係部品(不適切部品)が最初に識別され(ステップA2)、システムから隔離される(ステップA3)。
 論理的な観点からいうと、fをシステム障害ロジックを表す論理式とし、部品(基本事象)bとした場合、
Figure JPOXMLDOC01-appb-I000001
となる場合にのみ、部品(基本事象)bはfに対して不適切又は無関係な無関係部品(不適切部品)である。すなわち、fがbの値(0は偽、1は真)に依存しない場合、部品(基本事象)bはfに対して不適切又は無関係な無関係部品(不適切部品)である。尚、便宜上、部品とそれらが対応する基本(故障)事象とを同じ記号を用いて表している。その定義を図3に示す。
 無関係部品(不適切部品)という概念を理解するために、実例を記載する。例えば、論理式fをある特定のシステムサービスの障害とし、
Figure JPOXMLDOC01-appb-I000002
(aおよびbは、基本事象(部品)を表す)
と仮定する。この場合、bは無関係部品(不適切部品)であり、カバーされない単一障害点を発生させる可能性があるものとしてシステムから隔離されるべきである。
 否定ゲートや不関連事象がないcoherentな故障の木のように、システム障害ロジックが、初期状態においてcoherentである場合、無関係部品(不適切部品)の識別と隔離とは初期状態において省略することもできる。
 システムのメンテナンス中においては、システムは故障部品カバレッジ手段120により故障部品を周期的に検出する(ステップA4)。故障部品が発生して障害が検出された場合(ステップA5 Yes)、システムは故障部品カバレッジ手段120により故障部品をカバーする(ステップA6)。故障部品カバレッジ手段120のカバレッジは、非特許文献1で述べられている従来の不完全カバレッジモデルで提案されているものと同じように実行しうる。
 故障が恒久的な障害部品としてカバーされ(ステップA7 Yes)、システムが操作できるように再構築された場合(ステップA8 No)、カバーされ故障部品の発生下において、無関係部品(不適切部品)の識別が行われ、システムから隔離される(ステップA2およびA3が繰り返される)。
 一方、カバーされた部品障害による冗長性が効果を発揮せず、カバーされた部品障害がシステム障害ロジックに従ってシステム障害を引き起こした場合(ステップA8 Yes)には、システムはダウンする。また、障害をカバーできず(ステップA7 No)、障害ある部品により単一障害点が生じ、システムがダウンする。
 次に、具体的な実施例を用いて本発明の動作を説明する。
 本実施例では、WebサーバW1とデータベースサーバD1とからなるプロセスユニットと、WebサーバW2とデータベースサーバD2とからなるプロセスユニットとの二つのプロセスユニットから成るWebシステムSを仮定する。WebシステムSの構成を図4に示す。
 ここで、WebシステムSは、二つのプロセスユニットのうち、どちらかのプロセスユニットが動作可能であれば動作し、プロセスユニットはWebサーバ又はデータベースサーバのどちらかが故障すれば動作しないものとする。
 障害ロジック手段110により、WebシステムSのシステム障害ロジックが算出される。WebシステムSのシステム障害ロジックは、カバレッジ機構を考慮しなければ、
Figure JPOXMLDOC01-appb-I000003
と表すことができる。
 WebシステムSの初期状態においては、すべての部品が動作可能であると仮定する。無関係部品の定義により初期状態ではすべての部品は適切である。
 ある状態において、WebサーバWに故障が発生し、その故障はWの永続的な故障として、故障部品カバレッジ手段120によりカバーされたと仮定する。すると、障害ロジック手段110により、WebシステムSのシステム障害ロジックが算出され、そのWebシステムSのシステム障害ロジックは、
Figure JPOXMLDOC01-appb-I000004
となる。
 ここで、無関係部品カバレッジ手段130は、障害ロジック手段110により与えられたWebシステムSの初期のシステム障害ロジック及びWebサーバWの故障のカバー後のシステム障害ロジックと、故障部品カバレッジ手段120から与えられるカバーしたWebサーバWの情報とに基づいて、データベースサーバD(WebサーバWをサポートするために用いられる)を無関係部品(不適切部品)として識別する。何故なら、故障したWebサーバWのカバー後のWebシステムSのシステム障害ロジック
Figure JPOXMLDOC01-appb-I000005
には、データベースサーバDは現れず、WebサーバWのカバー後のWebシステムSのシステム障害ロジックはデータベースサーバDの故障の有無には依存しないからである。
 従って、データベースサーバDは、将来カバーすることができない単一障害点となることを回避するためにシステムから隔離されるべきものであり、無関係部品カバレッジ手段130により、データベースサーバDはシステムから隔離される。
 ここで注意すべきは、初期状態においては、WebシステムSのシステム障害ロジックである
Figure JPOXMLDOC01-appb-I000006
に示される通り、データベースサーバDはWebシステムSのシステム障害ロジックに関連性のある適切なものであり、WebサーバWの故障が発生すると、無関係部品(不適切部品)になるということである。同様に、データベースサーバDの故障が発生すると、WebサーバWは無関係部品(不適切部品)となる。WebサーバWとデータベースサーバDについても、同様である。
 このように、システム障害ロジック手段110と故障部品カバレッジ手段120とからの情報に基づき、無関係部品(不適切部品)の識別と隔離とは、無関係部品カバレッジ手段130によって実行される。
 上述の例を従来の不完全カバレッジモデルと比較すると、従来の不完全カバレッジモデルは、故障を起こした部品だけが隔離する。例えば、WebサーバWが故障を起こし、それが検出された場合、カバレッジのあとに、WebサーバWだけが隔離され、データベースサーバDは、WebサーバWが故障を起こした後、実質的に不適切又は無関係となってもシWebシステムSのなかに隔離されずに残される。
 しかし、本実施例では、故障を起こしたWebサーバWが隔離されるのみならず、WebサーバWの故障によって不適切又は無関係となったデータベースサーバD(無関係部品(不適切部品))も隔離され、その結果、データベースサーバDが、将来、WebシステムSの単一障害点となることを防止することができ、WebシステムS全体の信頼性を向上させることができる。
 尚、上述した説明からも明らかなように、各部をハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。この場合、プログラムメモリに格納されているプログラムで動作するプロセッサによって、上述した各実施の形態又は実施例と同様の機能、動作を実現させる。また、上述した実施の形態又は実施例の一部の機能のみをコンピュータプログラムにより実現することも可能である。
 また、上記の実施の形態の内容は、以下のようにも表現されうる。
 (付記1) フォールトトレラントシステムであって、
 システム障害ロジックを編集するためのシステム障害ロジック手段と、
 前記システム障害ロジック手段によって与えられた前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、無関係部品を隔離する無関係部品カバレッジ手段と
を有するフォールトトレラントシステム。
 (付記2) 故障部品の検出、回復および隔離とシステム再構築を行う故障部品カバレッジ手段を有し、
 前記無関係部品カバレッジ手段は、前記システム障害ロジック手段によって与えられた初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記故障部品カバレッジ手段によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
付記1に記載のフォールトトレラントシステム。
 (付記3) フォールトトレラント方法であって、
 システム障害ロジックを編集して提供し、
 前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する
フォールトトレラント方法。
 (付記4) 故障部品の検出、回復および隔離とシステム再構築を行い、
 初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、カバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
付記3に記載のフォールトトレラント方法。
 (付記5) フォールトトレラントシステムのプログラムであって、
 前記プログラムは、コンピュータに、
 システム障害ロジックを編集するシステム障害ロジック処理と、
 前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する無関係部品隔離処理と
を実行させるプログラム。
 (付記6) 前記プログラムは、コンピュータに、
 故障部品の検出、回復および隔離とシステム再構築を行うシステム再構築処理を実行させ、
 前記無関係部品を識別して隔離する処理は、システム障害ロジック処理による初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記システム再構築処理によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する処理である
付記5に記載のプログラム。
 以上の如く、本発明は、いかなるシステム状態においても、無関係部品(不適切部品)が適切な時に識別されて隔離され、無関係部品(不適切部品)による単一障害点が生じることを防止することができ、結果としてシステム全体の信頼性を向上させることができる。
 その理由は、ある部品が不適切又は無関係な無関係部品(不適切部品)であったり、他の部品が故障することにより、無関係部品(不適切部品)になった場合に、無関係部品カバレッジ手段により、その無関係部品(不適切部品)はシステムから識別されて隔離されるからである。従って、将来発生する可能性のあるカバーできない無関係部品(不適切部品)のいかなる故障も、単一障害点とならず、システムに影響を及ぼすことがない。
 以上好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
 本出願は、2011年11月28日に出願された日本出願特願2011-258434号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、フォールトトレラントシステムの信頼性管理のために用いられる。
110  障害ロジック手段
120  故障部品カバレッジ手段
130  無関係部品カバレッジ手段

Claims (6)

  1.  フォールトトレラントシステムであって、
     システム障害ロジックを編集するためのシステム障害ロジック手段と、
     前記システム障害ロジック手段によって与えられた前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、無関係部品を隔離する無関係部品カバレッジ手段と
    を有するフォールトトレラントシステム。
  2.  故障部品の検出、回復および隔離とシステム再構築を行う故障部品カバレッジ手段を有し、
     前記無関係部品カバレッジ手段は、前記システム障害ロジック手段によって与えられた初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記故障部品カバレッジ手段によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
    請求項1に記載のフォールトトレラントシステム。
  3.  フォールトトレラント方法であって、
     システム障害ロジックを編集して提供し、
     前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する
    フォールトトレラント方法。
  4.  故障部品の検出、回復および隔離とシステム再構築を行い、
     初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、カバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
    請求項3に記載のフォールトトレラント方法。
  5.  フォールトトレラントシステムのプログラムであって、
     前記プログラムは、コンピュータに、
     システム障害ロジックを編集するシステム障害ロジック処理と、
     前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する無関係部品隔離処理と
    を実行させるプログラム。
  6.  前記プログラムは、コンピュータに、
     故障部品の検出、回復および隔離とシステム再構築を行うシステム再構築処理を実行させ、
     前記無関係部品を識別して隔離する処理は、システム障害ロジック処理による初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記システム再構築処理によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する処理である
    請求項5に記載のプログラム。
PCT/JP2012/080637 2011-11-28 2012-11-27 フォールトトレラントシステム、フォールトトレラント方法及びプログラム WO2013080977A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/360,980 US9053023B2 (en) 2011-11-28 2012-11-27 Fault-tolerant system, fault-tolerant method and program
JP2013547170A JP5664886B2 (ja) 2011-11-28 2012-11-27 フォールトトレラントシステム、フォールトトレラント方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-258434 2011-11-28
JP2011258434 2011-11-28

Publications (1)

Publication Number Publication Date
WO2013080977A1 true WO2013080977A1 (ja) 2013-06-06

Family

ID=48535429

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/080637 WO2013080977A1 (ja) 2011-11-28 2012-11-27 フォールトトレラントシステム、フォールトトレラント方法及びプログラム

Country Status (3)

Country Link
US (1) US9053023B2 (ja)
JP (1) JP5664886B2 (ja)
WO (1) WO2013080977A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015104733A1 (en) * 2014-01-07 2015-07-16 Nec Corporation Persistence of relevance identifying system, method, and program
WO2015173846A1 (en) * 2014-05-14 2015-11-19 Nec Corporation A persistence identifying system, method, and program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6066081B2 (ja) * 2013-09-03 2017-01-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation フォールトツリーを生成する装置及び方法
US20180321977A1 (en) * 2015-10-30 2018-11-08 Hewlett Packard Enterprise Development Lp Fault representation of computing infrastructures

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143570A (ja) * 1991-11-19 1993-06-11 Nippon Telegr & Teleph Corp <Ntt> 故障木作成方法
JP2000235507A (ja) * 1999-02-16 2000-08-29 Toshiba Corp システムの信頼性設計装置及び方法並びにシステムの信頼性設計用ソフトウェアを記録した記録媒体
JP2003345620A (ja) * 2002-05-24 2003-12-05 Hitachi Software Eng Co Ltd 多ノードクラスタシステムのプロセス監視方法
JP2008102562A (ja) * 2006-10-17 2008-05-01 Fujitsu Ltd シナリオ作成支援プロブラム及び装置及び方法
JP2010237855A (ja) * 2009-03-30 2010-10-21 Nec Corp 故障の木解析生成方法、故障の木解析生成システム及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5295258A (en) * 1989-12-22 1994-03-15 Tandem Computers Incorporated Fault-tolerant computer system with online recovery and reintegration of redundant components
ATE306169T1 (de) * 2001-04-07 2005-10-15 Vector Informatik Gmbh Verfahren und generierungsmodul zur ermittlung von filtermasken zur relevanzprüfung von kennzeichnern
US7412352B1 (en) * 2004-11-12 2008-08-12 Sun Microsystems, Inc. Computer diagnostic system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143570A (ja) * 1991-11-19 1993-06-11 Nippon Telegr & Teleph Corp <Ntt> 故障木作成方法
JP2000235507A (ja) * 1999-02-16 2000-08-29 Toshiba Corp システムの信頼性設計装置及び方法並びにシステムの信頼性設計用ソフトウェアを記録した記録媒体
JP2003345620A (ja) * 2002-05-24 2003-12-05 Hitachi Software Eng Co Ltd 多ノードクラスタシステムのプロセス監視方法
JP2008102562A (ja) * 2006-10-17 2008-05-01 Fujitsu Ltd シナリオ作成支援プロブラム及び装置及び方法
JP2010237855A (ja) * 2009-03-30 2010-10-21 Nec Corp 故障の木解析生成方法、故障の木解析生成システム及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015104733A1 (en) * 2014-01-07 2015-07-16 Nec Corporation Persistence of relevance identifying system, method, and program
WO2015173846A1 (en) * 2014-05-14 2015-11-19 Nec Corporation A persistence identifying system, method, and program

Also Published As

Publication number Publication date
US9053023B2 (en) 2015-06-09
US20140325280A1 (en) 2014-10-30
JPWO2013080977A1 (ja) 2015-04-27
JP5664886B2 (ja) 2015-02-04

Similar Documents

Publication Publication Date Title
US11475353B2 (en) Automated application reliability management using adaptable machine learning models
Hamilton On Designing and Deploying Internet-Scale Services.
CN100578462C (zh) 降低时钟同步双模冗余系统中错误率的装置、方法和系统
US10372523B2 (en) Analysis system and method for intelligent customer service based on common sequence pattern
Hukerikar et al. Resilience design patterns: A structured approach to resilience at extreme scale
WO2011132730A1 (ja) ランタイムシステムの故障の木解析の方法、システム及びプログラム
JP5664886B2 (ja) フォールトトレラントシステム、フォールトトレラント方法及びプログラム
WO2012104488A1 (en) Arrangement and method for model-based testing
WO2019061364A1 (zh) 故障分析方法及相关设备
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
JP4523659B2 (ja) 故障解析装置
Andrews et al. Model-based development of fault tolerant systems of systems
JP2008158666A (ja) ストレージデバイスのマルチパスシステム、その障害箇所特定方法及びプログラム
US20140372803A1 (en) Apparatus and method for analyzing abnormal states of component-based system
CN118210560A (zh) 操作系统迁移方法、装置、电子设备及存储介质
TWI774060B (zh) 用於階層式系統之故障排除之裝置、方法及電腦程式產品
Fedasyuk et al. Method of developing the behavior models in form of states diagram for complex information systems
JP5672445B2 (ja) 故障の木の最小カットセットを単純化する方法とシステム
Pitakrat Hora: Online Failure Prediction Framework for Component-based Software Systems Based on Kieker and Palladio.
US8650142B2 (en) Method and device for performing a maintenance function
Karray et al. Towards a self-healing approach to sustain web services reliability
JP7347534B2 (ja) ネットワーク監視装置、方法およびプログラム
JP7147495B2 (ja) 復旧支援装置、復旧支援方法及びプログラム
Ferreira et al. Explicit representation of exception handling in the development of dependable component-based systems
JP7180319B2 (ja) 情報処理装置、及び情報処理装置のダンプ管理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12853864

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013547170

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14360980

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12853864

Country of ref document: EP

Kind code of ref document: A1