WO2011132730A1 - ランタイムシステムの故障の木解析の方法、システム及びプログラム - Google Patents

ランタイムシステムの故障の木解析の方法、システム及びプログラム Download PDF

Info

Publication number
WO2011132730A1
WO2011132730A1 PCT/JP2011/059794 JP2011059794W WO2011132730A1 WO 2011132730 A1 WO2011132730 A1 WO 2011132730A1 JP 2011059794 W JP2011059794 W JP 2011059794W WO 2011132730 A1 WO2011132730 A1 WO 2011132730A1
Authority
WO
WIPO (PCT)
Prior art keywords
mcs
component
failure
original
runtime
Prior art date
Application number
PCT/JP2011/059794
Other languages
English (en)
French (fr)
Inventor
剣文 向
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/642,301 priority Critical patent/US8990625B2/en
Priority to JP2012511694A priority patent/JP5880866B2/ja
Publication of WO2011132730A1 publication Critical patent/WO2011132730A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Definitions

  • the present invention has been invented in view of the above problems, and its object is to provide a method and system for analyzing system reliability when a component fails and recovers and finding a critical component at runtime. It is to be.
  • a fault tree of the system is input by the fault tree input means 110 (step A1).
  • the original MCS of the fault tree is calculated by the fault tree analyzing means 120 (step A2).
  • the system scans for conditional events in the original MCS in addition to the component failure of the original MCS that is the object of search by the history monitoring means 130 and lists it as a guard condition (GC). (Step A3).
  • GC guard condition
  • the fault tree analysis input unit 110, the history and monitoring unit 130, and the output unit 140 have the same configuration as in the first embodiment.
  • the system detects any event that a component fails or recovers (step B6). If the event is a component failure, the system further checks whether the GC has been changed due to a component failure. If the GC is not changed, the current MCS can be calculated based on the latest MCS stored in the storage unit 122 (step B7). If the GC is changed, the current MCS is the original MCS. It is also necessary to calculate based on the current search values of CMS and GC. (Step B8).
  • the calculated current MCS is stored in the storage unit 122 as the latest MCS and is used for the next calculation.
  • the current MCS is calculated by the runtime MCS analysis means 123.
  • This embodiment includes storage means for storing the latest MCS and separated original MCS / runtime MCS analysis means. Since the latest MCS is generally a subset of the original MCS, the efficiency of calculating the current MCS can be improved, particularly in the case of a large complex system in which the original MCS is quite complex.
  • FIG. 1 A simple exemplary dual system system model is shown in FIG.
  • the first embodiment can be viewed as a simplification of the second embodiment and is generally less efficient for large systems.
  • the procedure described in the second embodiment will be followed (FIGS. 3 and 4).
  • the top event (root) T of the fault tree ie, the system is faulty
  • E1 component C1 is not active
  • E2 component C2 is not active
  • Event E3 can be broken down into two sub-events E5 (switch stuck to C2) and C2 (component C2 has failed) than priority AND (PAND), and E5 occurs prior to C2 Then, E3 is generated.
  • the PAND gate represents the recognition depicted in the system model shown in FIG. 5, i.e., if event C2 occurs prior to event E5, switch S causes component C1 so that top event E3 does not occur. To switch to component C1.
  • conditional events are provided in the original MCS, and the combination of sub-events of the PAND gate constitutes the MCS of the PAND gate, regardless of their occurrence.
  • the rationale for the above explanation is that if a sub-event occurs prior to some other sub-event in an order that the PAND gate does not allow, then such an “illegal” occurrence of the event And / or some parts of the top event must be denied.
  • a negated part is represented as a number of sub-conditional events of the appropriate sub-event and / or top event that are the targets of the search at runtime.
  • the subconditional event G2 of event E5 ie, the switch is connected to component C2
  • the MCS of the PAND gate ie, S ⁇ G2 ⁇ C2
  • the system scans the original MCS, and the conditional event of the original MCS is extracted as a guard condition searched by the history and the monitoring means 130 (step B3).
  • the guard condition is switch states G1 and G2, that is, whether the switch is connected to component C1 or the switch is connected to component C2.
  • the initial MCS is stored in the storage means 122 as the latest MCS, and is used for further calculation of the runtime MCS (step B5).
  • the original history is a sequence of component failure and component recovery
  • the simplified history consists of a combination of only component failures, in which the component fails in its current state.
  • the calculation of the runtime is actually based on a history that is simplified by searching for guard conditions as necessary, and the method depends on a sequence of component failures, for example, a method using temporal MCS. More efficient than.
  • the present invention includes a failure tree analysis means for generating an original MCS of a system failure tree, a history and monitoring means for searching for component failure, component recovery and guard condition states,
  • the runtime analysis means for calculating the MCS When executed by the runtime analysis means for calculating the MCS, the system reliability can be analyzed in a quantitative manner, and a critical component (at the time of operation) in the runtime can be found.
  • each unit is configured by hardware, but may be configured by a program and a CPU that perform the same operation as the operation of each unit.
  • Original MCS analysis means for calculating original MCS; Storage means for storing the calculated latest MCS; The runtime MCS analysis means for calculating the current MCS of the fault tree based on the original MCS or the latest MCS and improving the calculation efficiency instead of the fault tree analysis means. system.
  • Appendix 4 The report according to any one of appendix 1 to appendix 3, which has an output unit for reporting the result of the runtime analysis unit to a user or converting it to another appropriate format for further analysis system.
  • Fault tree input means 120 Fault tree analysis means 130 History monitoring means 140 Output means 121 Original MCS analysis means 122 Storage means 123 Runtime MCS analysis means

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

システムの故障の木のオリジナルのMCSは、頂上システムハザードに対して必要且つ十分な条件を含む。コンポーネントが故障し回復したとすると、システムの現状のMCSと重大なコンポーネントは、オリジナルのMCSを基にしていくつかの算出パターンで算出できる。

Description

ランタイムシステムの故障の木解析の方法、システム及びプログラム
 本発明は、ランタイム(稼働時)にけるシステムの信頼性を定量的に解析する方法とシステムに関し、特に、コンポーネントが故障し回復する際のランタイム(稼働時)においてシステムの単一故障点などの重大なコンポーネントを算出する解析する方法、システム及びプログラムに関する。
 本発明に関連する品質情報診断が特許文献1に開示されている。図11と図12に示すように、かかる従来の方法は故障の木を使用して、利用者が報告したいくつかの特殊なシステム故障に関して潜在的なコンポーネント故障を診断する。これはトップダウン方法における故障の木解析(FTA:fault tree analysis)の一般的な応用である。
 しかしながら、この方法は逆の質問に答えることができない、即ち、実際上、故障トレラントシステムの特別な主要な関心である、ランタイムにおけるいくつかの他のコンポーネントが故障し回復する際の現状の重大なコンポーネントは、なにかという質問に答えることができなかった。
 ボトムアップ方法において関連するFTAを直接適用することは、当該問題を解決する際のトラブルになる。その理由は、関連するFTAは、最小カットセット(MCS)において、条件付き事象(即ち、故障と見なされない正常な事象)を考慮しておらず、その単純なブール論理上のセマンティックにより、異なる事象間の系列依存性を取り扱う際のトラブルになる。これを示すために、非特許文献1を参照すると、非特許文献1では最小カットセットは、コンポーネント故障がすべて発生すれば、頂上事象を発生させるコンポーネント故障の最小の組み合わせとして定義される。ここで、頂上事象は一般的に最も高いレベルの望ましくないシステムハザード、即ち、故障の木の根元として理解される。故障の木における必須な条件付き事象を考慮しないと、かかる定義はランタイムMCSの分析では失敗する。ここで、ランタイムMCSとは、いくつかのコンポーネントが故障し、回復する際における故障の木の現状のMCSを意味し、それはランタイムにおいてシステムの現状の重大なコンポーネントを予測するのに重要である。
 非特許文献2に記載されているような、時相故障の木は、関連する故障の木の系列依存性問題を解決するのに役立つかもしれない。
 しかしながら、時相演算子を故障の木のMCSに導入することは、コンポーネント故障の組み合わせよりも、むしろコンポーネント故障の系列を一般的には考慮することが必要であるので、ランタイムMCSを算出する複雑さと費用の増大とをもたらすことになる。
特開平5-165853号公報 (第5-7頁、図1と図6)
W.E. Vesely, F.F. Goldberg, N.H.Roberts, and D.F. Haasl, Fault Tree Handbook, U.S. Nuclear Regulatory Commission, NUREG-0492, Jan. 1981, pp. VII-15. K.M. Hansen, A.P. Ravn, and V. Stavridou, From Safety Analysis to Software Requirements, IEEE Transactions on Software Engineering, Vol. 24, No. 7, July 1998.
 上述した発明の課題は、FTAのMCSがむしろインフォーマルなやり方で定義され、当該MCSが障の木の頂上事象に対する必要且つ十分な条件すべてをとらえていないことにある。その理由は、関連する故障の木(FT)がMCSにおいて正常な条件付き事象を考慮せず、当該FTが、優先AND(PAND)ゲートなどの系列依存性ゲートのMCSについて明確に定義されていないからである。PANDゲートは特殊なANDゲートで、当該ゲートではその出力事象が、すべてのサブ事象が左から右の特別な順序で発生した時及びその時のみ、発生する。その結果、ランタイムMCSを解析し、重大なコンポーネントを正しいやり方で発見することは、特に、故障の木が条件付き事象及び/又はPANDゲートを備える時、困難又は不可能である。
 そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、コンポーネントが故障し回復する際のシステム信頼性を解析し、重大なコンポーネントをランタイムにおいて発見する方法とシステムを提供することである。
 上記課題を解決する本発明は、ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見するシステムであって、解析するシステムの故障の木を入力する故障の木入力手段と、システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出する故障の木解析手段と、コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する履歴監視手段と有するシステムである。
 上記課題を解決する本発明は、ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見する故障の木解析の方法であって、解析するシステムの故障の木を入力し、システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出し、コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する故障の木解析の方法である。
 上記課題を解決する本発明は、ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見する故障の木解析の方法のプログラムであって、解析するシステムの故障の木を入力する処理と、システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出する処理と、コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する処理とを情報処理装置に実行させるプログラムである。
 本発明は、故障の木と、コンポーネント故障とコンポーネント回復の履歴並びにいくつかのガード条件を必要に応じて探索すること、とが与えられると、システムのMCSと重大なコンポーネンとをランタイム(稼働時)において算出できる。その理由は、ランタイムMCSは、コンポーネント故障とコンポーネント回復の履歴を探索することと、故障の木のオリジナルのMCSに含まれた必須なガード条件の状態とを基にして算出できるからである。
図1は本発明の第1の発明を実施するための最良の形態の構成を示すブロック図である。 図2は第1の発明を実施するための最良の形態の動作を示す流れ図である。 図3は本発明の第2の発明を実施するための最良の形態の構成を示すプロック図である。 図4は第2の発明を実施するための最良の形態の動作を示す流れ図である。 図5は発明を実施するための最良の形態の動作の具体例のシステムモデルを示す図である。 図6は具体例の故障の木である。 図7は故障の木の異なったMCSを示す図である。 図8はINHIBITとPANDゲートのMCSの異なった算出方法を示す図である。 図9はランタイム解析結果の例を示す図である。 図10はランタイムMCSの算出パターンを示す図である。 図11は特許文献1の発明を実施した場合のシステムの全体構成図である。 図12は特許文献1の故障診断において、探索の対象となる故障の因果関係を表した樹木の階層構造を示す図である。
 本発明の概要を説明する。
 提案するランタイムシステムの信頼性を解析する方法とシステムは、故障の木入力手段と、故障の木解析手段と、履歴監視手段とを備える。故障の木入力手段を使用し、解析するシステムの故障の木を入力する。故障の木解析手段を使用し、以下の前記履歴と監視手段が提供した探索値を基にして故障の木入力手段から入力された故障の木のオリジナルのMCSと、故障の木のランタイムMCSとを算出する。前記故障の木のオリジナルのMCSは探索値の空セットを基にして算出されること、即ち、システムの初期化では前記履歴監視手段において探索が利用できないことにと注目する。
 履歴監視手段を使用して、コンポーネント故障とコンポーネント回復の履歴を記録し、ガード条件の状態を監視することにより、故障の木ランタイムMCSを算出するための探索値のセットを提供するようにする。探索されたコンポーネントとガード条件は、前記オリジナルの故障の木のMCSにおいて基本故障事象と条件付き事象としてそれぞれ表記されることに注目する。
 かかる構造により、コンポーネントが故障し回復する際に、システムのMCS並びに重大コンポーネントはランタイムにおいて算出することができる。
 次に、本発明の実施の形態について図面を参照して詳細に説明する。
 図1を参照すると、本発明の第1の実施の形態は、故障の木入力手段110と、故障の木解析手段120と、履歴と監視手段130と、出力手段140とを備える。
 これらの手段はそれぞれ概略つぎのように動作する。
 故障の木入力手段110は、解析するシステムの故障の木を入力する。
 故障の木解析手段120は、故障の木入力手段110から入力された故障の木のオリジナルのMCSとランタイムMCSとを算出する。
 履歴監視手段130は、コンポーネント故障とコンポーネント回復の履歴を記録し、前記故障の木解析手段120により算出されたオリジナルのMCSに含まれたガード条件の現状状態を監視する。履歴と監視手段130の探索値も使用して、故障の木解析手段120は、ランタイムMCSを算出する。
 出力手段140は、故障の木解析手段120により算出された現状のMCS(即ち、オリジナルのMCSとランタイムMCS)が他のコンポーネントに転送され、表示及び更なる解析(例えば、システム信頼性を定量的に解析)に供されるようにする。
 次に、図1及び図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
 先ず、システムの故障の木が前記故障の木入力手段110により入力される(ステップA1)。故障の木のオリジナルのMCSは故障の木解析手段120により算出される(ステップA2)。オリジナルのMCSを入手後、システムは、履歴監視手段130による探索の対象であるオリジナルのMCSのコンポーネント故障の他に、オリジナルのMCSにおいて条件付き事象を走査し、ガード条件(GC)としてリストアップする(ステップA3)。
 特定のシステム初期状態に従い、GCをブール値偽又は真で初期化することにより、GSが初期化された状態のオリジナルのMCSに関して、システムの初期MCSを算出することができる(ステップA4)。初期MCSは評価(即ち、初期化)されており、初期MCSの値は別個のGCの探索により表記されているので、初期MCSは条件付き事象を含まないことに注目する。それを示すために、例示的な初期MCSをオリジナルのMCSと対比して図7に示す。系列ランタイムMCSのすべてはこの関心の分離のルールに従う。初期MCSは、システム初期状態における現状のMCSでもあるので、出力手段140に転送することができる。
 初期化後、システムはコンポーネント故障又はコンポーネント回復のいかなる事象も検出する(ステップA5)。かかる事象が発生すると、システムは、GSの必須な探索値と、前記履歴と監視手段130により探索されたコンポーネント故障とを使い、前記オリジナルのMCSを基に現状のMCSを算出する(ステップA6)。算出は故障の木解析手段120により行われる。
 最後に、現状のMCSの結果は、前記出力手段140に転送され、出力又は更なる解析に供される(ステップA7)。
 次に、本実施の形態の効果について説明する。
 本実施形態はオリジナルのMCSを算出し、コンポーネント故障とコンポーネント回復を検出し、ガード条件を探索するので、現状のMCSを算出することができる。
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
 図3を参照すると、本発明の第2の実施の形態は第1の実施形態の拡張であり、第1の実施の形態の故障の木解析手段120がオリジナルMCS解析手段121と、記憶手段122と、ランタイムMCS解析手段123とに置き換わり、ランタイムMCSを算出する効率を向上させている。
 これらの手段はそれぞれ概略つぎのように動作する。
 故障の木解析入力手段110と、履歴と監視手段130と、出力手段140とは第1の実施形態と同様な構成である。
 オリジナルMCS解析手段121は、故障の木解析入力手段110から入力された故障の木のオリジナルMCSを算出する。
 記憶手段122は、オリジナルMCS解析手段121により算出されたオリジナルのMCSと、ランタイムMCS解析手段123により算出された最新のMCSとを保存する。
 ランタイムMCS解析手段123は、履歴監視手段130が探索したコンポーネント故障とコンポーネント回復の履歴並びにガード条件の現状の状態と、前記記憶手段122内で保存されている最新MCS又はオリジナルのMCSとを基に現状MCSを算出する。その結果を使用し、前記記憶手段122の最新のMCSを更新する。
 次に、図3及び図4のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
 ステップB1からB4は、第1の実施の形態のステップA1からA4とは同様なものについては説明を省略し、異なる所を説明する
 異なる所は、オリジナルMCSが、本実施の形態のオリジナルMCS解析手段121により算出されることである。(ステップB2)。ステップB4の後、その結果の初期MCSが最新MCSとして記憶手段122内に保存され、更なる算出に供される(ステップB5)。
 初期化後、システムはコンポーネントが故障又回復するいかなる事象も検出する(ステップB6)。事象がコンポーネント故障であれば、システムは、GCがコンポーネント故障により変更されたか更にチェックする。GCが変更されていなければ、現状のMCSは記憶手段122内に保存された最新MCSを基にして算出することができ(ステップB7)、GCが変更されていれば、現状のMCSは、オリジナルのCMSとGCの現状の探索値を基にして算出する必要もある。(ステップB8)。
 再度、算出された現状のMCSは最新MCSとして記憶手段122内に保存され、次の算出に供される。現状のMCSの算出は、ランタイムMCS解析手段123によりなされる。
 最新のMCSの結果は、出力手段140に転送され、出力又は更なる解析に供されることができる(ステップB9)。
 記憶手段122内に保存された最新MCSを出力する代わりに、算出された初期MCSと現状のMCSを直接出力手段140に転送でき、それらは図4のダッシュ矢印により表記される。
 次に、本実施の形態の効果について説明する。
 本実施の形態は、最新のMCSを保存する記憶手段と、分離済みオリジナルMCS/ランタイムMCS解析手段とを備える。最新MCSは、一般に、オリジナルMCSのサブセットであるので、特に、オリジナルMCSがかなり複雑である大きな複雑なシステムの場合、現状のMCSを算出効率を向上することができる。
 次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
 簡単な例示的なデュアルシステムのシステムモデルを図5に示す。
 システムは2つコンポーネントC1とC2とから成り立ち、システムは、2つコンポーネントのいずれかが作動する時作動すると仮定する。これらの2つのコンポーネントのいずれかが故障した時、スイッチSと他のコンポーネントが故障していなければ、スイッチSは他のコンポーネントに切り替え、作動する。また、スイッチは最初にコンポーネントC1に接続されていると仮定する。
 本発明をより理解するために、第1の実施の形態は第2の実施の形態を単純化したものと見なすことができ、一般に、大きいシステムに対してはより効率的ではないので、本発明の第2の実施の形態で描がかれた手順に従うことにする(図3と図4)。
 例示的なシステムの故障の木が図6に示されていると仮定する。故障の木の頂上事象(根元)T(即ち、システムが故障している)は、ANDゲートにより2つのサブ事象E1(コンポーネントC1は作動していない)と、E2(コンポーネントC2が作動していない)とに分解することができる。
 事象E1はORゲートにより2つのサブ事象C1(コンポーネントC1が故障している)と、E3(コンポーネントC1は故障したが作動している)に分解することができる。事象C1は、更に分解する必要がないコンポーネント故障の基本事象であることに注目する。
 事象E3は、優先AND(PAND)より更に2つのサブ事象E5(スイッチがC2に固着している)と、C2(コンポーネントC2が故障している)とに分解でき、E5がC2に先立って発生すれば、E3が発生する。逆の観点から、PANDゲートは図5に示すシステムモデルに描かれた認識を表す、即ち、事象C2が事象E5より先だって発生すれば、スイッチSは、頂上事象E3が発生しないように、コンポーネントC1に切り替え、コンポーネントC1を作動させる。
 事象E5は、INHIBITゲートにより、条件付き事象G2(スイッチSはC2に接続されている)と、基本事象S(スイッチが故障している)とに更に分解することができる。即ち、スイッチSがコンポーネントC2に接続されているとき、スイッチが故障すれば、C2に接続されたままである。事象E1の左側サブ木の一種のデユアル木と見なすことができる、頂上事象E2の右側のサブ木は同様なやり方で解析することができる。
 図7に示すように、3種類のMCSが、図6の故障の木を基にして、従来のFTAによるものと、時相論理によるものと、本発明の方法によるものとに関してそれぞれ算出することができる。条件付き事象について、INHIBITゲーとPANDゲートが算出する、これら3つの方法のMCSパターンを図8に示し比較する。
 故障の木ハンドブックでは最小カットセットはコンポーネント故障のみの最小の組み合わせと定義されているので、図7と図8において、従来のFTAは、MCSにおいて条件付き事象を含まないことに注目する。この定義に従い、従来のFTAの結果得られるMCSは、頂上事象に対して必要のみで十分な条件ではない。更に、単に、従来のFTAの理論的根拠、即ち、ブール論理は、異なる事象間系列依存性(時相関係)を表すのが困難であるため、PANDゲートのMCSについて明確な定義がされていない。オープンFTAなどのいくつかの現存するFTAツールは、MCSを算出するANDゲートとして単にPANDゲートを取り扱うが、正式に証明しない又は正式に説明しないかかる単純化はセマンティックな矛盾や概念上の誤解を引き起こす。即ち、PANDゲートのサブ事象が、PANDゲートで規定された特定な順序で発生しなくとも、頂上事象は依然として発生する。
 時相論理を使用して事象間系列依存性を取り扱うことができ、例示的な故障の木に対する候補時相MCSとPANDゲートとを図7と図8にそれぞれ示す。いつか成り立つ線形の時相演算子を時相MCSに使用していることに着目する。時相MCSの1つの潜在的トラブルは、ランタイムMCSを算出することは、一般に計算費用の増大が避けられない、コンポーネント故障の組み合わせよりもコンポーネント故障の系列を探索することが必要になることです。
 本発明では、条件付き事象がオリジナルのMCSで備えられ、PANDゲートのサブ事象の組み合わせが、それらの発生とは無関係に、PANDゲートのMCSを構成することが論証される。簡単に言えば、上記説明の理論的根拠は、PANDゲートが許可しない順序でサブ事象がいくつかの他のサブ事象に先だって発生すれば、事象のかかる“不法な”発生は、他のサブ事象及び/又は頂上事象のいくつかのパーツを否定しなければならない。否定されたパーツは、ランタイムにおいて探索の対象である、該当するサブ事象及び/又は頂上事象のいくつかのサブ条件付き事象として表記されていると仮定する。この場合、かかる“不法な”発生はPANDゲートの全体のMCSを否定するので、PANDゲートのサブ事象の順序は故障の木のランタイム解析から省略することができる。例えば、図6に示すE3をサブ事象E5とC2に接続するPANDゲートに関して、C2(即ち、コンポーネントC2が故障している)がE5(即ち、スイッチSがコンポーネントC2に固着している)に先立って発生すれば、スイッチSは、図5に描かれたシステム動作上のセマンティックに従いコンポーネント1に切り替わる。この場合、事象E5のサブ条件付き事象G2(即ち、スイッチはコンポーネントC2に接続されている)は否定され、PANDゲート(即ち、S・G2・C2)のMCSは故障の木のMCSにおいて破棄される。
 オリジナルのMCSを算出後、システムはオリジナルのMCSを走査し、オリジナルのMCSの条件付き事象が、前記履歴と監視手段130が探索するガード条件として抽出される(ステップB3)。この例では、ガード条件はスイッチの状態G1とG2、即ち、スイッチはコンポーネントC1に接続されているか又はスイッチはコンポーネントC2接続されているかである。スイッチが最初にC1に接続されていると仮定すると、故障の木の初期MCSが、図9に示すG1=真及びG2=偽、即ち(C1・C2)・(S・・C1)という評価でオリジナルのMCSを削減することにより算出できる(ステップB4)。初期のMCSは、最新MCSとして前記記憶手段122に保存され、更なるランタイムMCSの算出に供される(ステップB5)。
 初期化後、前記履歴と監視手段130により探索された最初の事象はC1、即ち、コンポーネントC1は故障している(ステップB6)、及びガード条件のG1からG2への変更も検出されていると仮定すると、現状のMCSは、G2=真及びG1=偽という評価でオリジナルのMCSを削減することにより算出できる(ステップB8)。その結果は、システムの唯一の単一故障点でもあるC2である、即ちコンポーネントC2がこの状況下で故障していれば、システムが故障する(図9の状態1.1参照)。
 システムで検出された第2の事象がS、即ち、スイッチが故障している、及びガード条件への変更がなされていないと仮定すると、現状のMCSは、最新事象S=真という評価で最新のMCSを削減することにより算出することができ(ステップB7)、その結果はC2のままである(図9の状態1.1.1参照)。
 システムで検出された第3の事象が¬S(単純化のため、コンポーネントの回復を表記す否定記号¬を使用する)、即ち、スイッチは回復(修理)され、及び現状のガード条件はG2であると仮定すると、現状のMCSは、G2=真および単純化された履歴C1=真という評価でオリジナルのMCSを削減することにより算出することができ(ステップB8)、その結果はC2のままである(図9の状態1.1.1.1参照)。
 オリジナルの履歴は、コンポーネント故障とコンポーネント回復の系列であるが、一方、単純化された履歴は、コンポーネントの故障のみの組み合わせから構成され、当該単純化された履歴においてコンポーネントは現状の状態では故障していることに注目する。ランタイムの算出は、実際には、ガード条件を必要に応じて探索して単純化された履歴を基にしており、その方法は、コンポーネント故障の系列に頼る方法、例えば、時相MCSを使う方法よりも一層効率的である。
 上記3つのケースに関するランタイムMCSを算出するパターンは図10に示す。
 本発明は、システムの故障の木のオリジナルのMCSを発生する故障の木解析手段と、コンポーネント故障とコンポーネント回復並びにガード条件の状態を探索する履歴と監視手段と、ランタイムにおける(稼働時)現状のMCSを算出する前記ランタイム解析手段とが実行することにより、システム信頼性を定量的なやり方で解析し、ランタイムにおける(稼働時)重大なコンポーネントを発見することができる。
 また、上述した実施の形態では、各部をハードウェアで構成したが、各部の動作と同様な動作を行うプログラムとCPUとで構成しても良い。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1) ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見するシステムであって、
 解析するシステムの故障の木を入力する故障の木入力手段と、
 システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出する故障の木解析手段と、
 コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する履歴監視手段と
有するシステム。
 (付記2) オリジナルのMCSを算出するオリジナルMCS解析手段と、
 算出された最新のMCSを保存する記憶手段と、
 前記故障の木解析手段に代わり、前記オリジナルのMCS又は最新のMCSを基づいて、故障の木の現状のMCSを算出し、算出の効率を向上するランタイムMCS解析手段と
を有する付記1に記載のシステム。
 (付記3) コンポーネント故障とコンポーネント回復の前記履歴は、コンポーネント故障の探索のセットにより示され、
 前記履歴監視手段の代わりに、前記オリジナルのMCSに含まれたコンポーネントの故障状態及びガード条件の状態のすべてを探索する監視手段を有する
付記1又は付記2のシステム。
 (付記4) 前記ランタイム解析手段による結果を、利用者に報告するため、又は、更なる解析のための他の適切なフォーマットに変換する出力手段を有する付記1から付記3のいずれかに記載のシステム。
 (付記5) ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見する故障の木解析の方法であって、
 解析するシステムの故障の木を入力し、
 システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出し、
 コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する
故障の木解析の方法。
 (付記6) オリジナルのMCSを算出し、
 算出された最新のMCSを保存し、
 前記故障の木解析手段に代わり、前記オリジナルのMCS又は最新のMCSを基づいて、故障の木の現状のMCSを算出し、算出の効率を向上する
を有する付記5に記載の故障の木解析の方法。
 (付記7) コンポーネント故障とコンポーネント回復の前記履歴は、コンポーネント故障の探索のセットにより示され、
 前記オリジナルのMCSに含まれたコンポーネントの故障状態及びガード条件の状態のすべてを探索する
付記5又は付記6の故障の木解析の方法。
 (付記8) 前記ランタイム解析による結果を、利用者に報告するため、又は、更なる解析のための他の適切なフォーマットに変換する
付記5から付記7のいずれかに記載の故障の木解析の方法。
 (付記9) ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見する故障の木解析の方法のプログラムであって、
 解析するシステムの故障の木を入力する処理と、
 システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出する処理と、
 コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する処理と
を情報処理装置に実行させるプログラム。
 以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
 本出願は、2010年4月22日に出願された日本出願特願2010-099259号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
110   故障の木入力手段
120   故障の木解析手段
130   履歴監視手段
140   出力手段
121   オリジナルMCS解析手段
122   記憶手段
123   ランタイムMCS解析手段

Claims (9)

  1.  ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見するシステムであって、
     解析するシステムの故障の木を入力する故障の木入力手段と、
     システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出する故障の木解析手段と、
     コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する履歴監視手段と
    有するシステム。
  2.  オリジナルのMCSを算出するオリジナルMCS解析手段と、
     算出された最新のMCSを保存する記憶手段と、
     前記故障の木解析手段に代わり、前記オリジナルのMCS又は最新のMCSを基づいて、故障の木の現状のMCSを算出し、算出の効率を向上するランタイムMCS解析手段と
    を有する請求項1に記載のシステム。
  3.  コンポーネント故障とコンポーネント回復の前記履歴は、コンポーネント故障の探索のセットにより示され、
     前記履歴監視手段の代わりに、前記オリジナルのMCSに含まれたコンポーネントの故障状態及びガード条件の状態のすべてを探索する監視手段を有する
    請求項1又は請求項2のシステム。
  4.  前記ランタイム解析手段による結果を、利用者に報告するため、又は、更なる解析のための他の適切なフォーマットに変換する出力手段を有する請求項1から請求項3のいずれかに記載のシステム。
  5.  ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見する故障の木解析の方法であって、
     解析するシステムの故障の木を入力し、
     システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出し、
     コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する
    故障の木解析の方法。
  6.  オリジナルのMCSを算出し、
     算出された最新のMCSを保存し、
     前記故障の木解析手段に代わり、前記オリジナルのMCS又は最新のMCSを基づいて、故障の木の現状のMCSを算出し、算出の効率を向上する
    を有する請求項5に記載の故障の木解析の方法。
  7.  コンポーネント故障とコンポーネント回復の前記履歴は、コンポーネント故障の探索のセットにより示され、
     前記オリジナルのMCSに含まれたコンポーネントの故障状態及びガード条件の状態のすべてを探索する
    請求項5又は請求項6の故障の木解析の方法。
  8.  前記ランタイム解析による結果を、利用者に報告するため、又は、更なる解析のための他の適切なフォーマットに変換する
    請求項5から請求項7のいずれかに記載の故障の木解析の方法。
  9.  ランタイムにおけるシステムの信頼性を解析し、コンポーネント故障とコンポーネント回復の履歴と、いくつかのコンポーネントの正常な状態であるいくつかのガード条件を必要に応じ探索することとを基にして重大なコンポーネントを発見する故障の木解析の方法のプログラムであって、
     解析するシステムの故障の木を入力する処理と、
     システムの故障の木のオリジナルの最小カットセット(MCS)とランタイム最小カットセットとを算出する処理と、
     コンポーネント故障とコンポーネント回復の履歴とを記録し、前記オリジナルのMCSに含まれたガード条件の状態を探索する処理と
    を情報処理装置に実行させるプログラム。
     
PCT/JP2011/059794 2010-04-22 2011-04-21 ランタイムシステムの故障の木解析の方法、システム及びプログラム WO2011132730A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/642,301 US8990625B2 (en) 2010-04-22 2011-04-21 Runtime system fault tree analysis method, system and program
JP2012511694A JP5880866B2 (ja) 2010-04-22 2011-04-21 ランタイムシステムの故障の木解析の方法、システム及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-099259 2010-04-22
JP2010099259 2010-04-22

Publications (1)

Publication Number Publication Date
WO2011132730A1 true WO2011132730A1 (ja) 2011-10-27

Family

ID=44834246

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/059794 WO2011132730A1 (ja) 2010-04-22 2011-04-21 ランタイムシステムの故障の木解析の方法、システム及びプログラム

Country Status (3)

Country Link
US (1) US8990625B2 (ja)
JP (1) JP5880866B2 (ja)
WO (1) WO2011132730A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012113582A (ja) * 2010-11-26 2012-06-14 Nec Corp 故障の木の最小カットセットを効率的に評価する方法とシステム
WO2013172325A1 (ja) * 2012-05-17 2013-11-21 日本電気株式会社 識別システム、識別方法及びプログラム
JP5454826B2 (ja) * 2011-02-22 2014-03-26 日本電気株式会社 故障の木システム信頼性分析システム、故障の木システム信頼性分析方法及びプログラム
CN111556992A (zh) * 2018-01-15 2020-08-18 三菱电机株式会社 故障检测装置、监视控制系统及故障检测方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016521384A (ja) * 2013-05-15 2016-07-21 日本電気株式会社 永続部品および永続システムを識別するためのシステム、方法、およびプログラム
JP6066081B2 (ja) * 2013-09-03 2017-01-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation フォールトツリーを生成する装置及び方法
US11665145B1 (en) * 2014-05-02 2023-05-30 Navroop Mitter Method of providing end to end encryption with auditability
EP3151122A1 (en) * 2015-10-02 2017-04-05 Siemens Aktiengesellschaft Method and apparatus for generating a fault tree
CN107491532B (zh) * 2017-08-21 2020-06-19 北京航天发射技术研究所 一种基于经验向量和特征向量的故障树优化检索方法
WO2019061364A1 (zh) * 2017-09-29 2019-04-04 华为技术有限公司 故障分析方法及相关设备
CN108509290A (zh) * 2018-02-11 2018-09-07 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 数据驱动的故障树分析方法、装置及系统
US11658889B1 (en) 2022-03-27 2023-05-23 Bank Of America Corporation Computer network architecture mapping using metadata
US11595245B1 (en) 2022-03-27 2023-02-28 Bank Of America Corporation Computer network troubleshooting and diagnostics using metadata

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235507A (ja) * 1999-02-16 2000-08-29 Toshiba Corp システムの信頼性設計装置及び方法並びにシステムの信頼性設計用ソフトウェアを記録した記録媒体
JP2003216923A (ja) * 2002-11-29 2003-07-31 Fuji Heavy Ind Ltd 故障診断装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04302027A (ja) * 1991-03-29 1992-10-26 Ricoh Co Ltd 事例データベース構築装置
JPH04302364A (ja) * 1991-03-29 1992-10-26 Nippon Telegr & Teleph Corp <Ntt> 故障解析方式
JP2985505B2 (ja) * 1991-07-08 1999-12-06 株式会社日立製作所 品質情報収集診断システム及びその方法
AU2000239591A1 (en) * 2000-01-29 2001-08-07 Abb Research Ltd Method for automatic fault tree synthesis
JP4174497B2 (ja) * 2004-09-30 2008-10-29 東芝ソリューション株式会社 情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラム
WO2006077590A2 (en) * 2005-01-19 2006-07-27 Favoweb Ltd. A system and method for bouncing failure analysis
US7681086B2 (en) * 2007-09-20 2010-03-16 Embraer- Empresa Brasileira De Aeronautica S.A. Fault tree map generation
US7856575B2 (en) * 2007-10-26 2010-12-21 International Business Machines Corporation Collaborative troubleshooting computer systems using fault tree analysis
US8121042B2 (en) * 2008-06-30 2012-02-21 The Boeing Company Reliability estimation methods for large networked systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235507A (ja) * 1999-02-16 2000-08-29 Toshiba Corp システムの信頼性設計装置及び方法並びにシステムの信頼性設計用ソフトウェアを記録した記録媒体
JP2003216923A (ja) * 2002-11-29 2003-07-31 Fuji Heavy Ind Ltd 故障診断装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012113582A (ja) * 2010-11-26 2012-06-14 Nec Corp 故障の木の最小カットセットを効率的に評価する方法とシステム
JP5454826B2 (ja) * 2011-02-22 2014-03-26 日本電気株式会社 故障の木システム信頼性分析システム、故障の木システム信頼性分析方法及びプログラム
US8909991B2 (en) 2011-02-22 2014-12-09 Nec Corporation Fault tree system reliability analysis system, fault tree system reliability analysis method, and program therefor
WO2013172325A1 (ja) * 2012-05-17 2013-11-21 日本電気株式会社 識別システム、識別方法及びプログラム
CN111556992A (zh) * 2018-01-15 2020-08-18 三菱电机株式会社 故障检测装置、监视控制系统及故障检测方法

Also Published As

Publication number Publication date
US20130042167A1 (en) 2013-02-14
JPWO2011132730A1 (ja) 2013-07-18
US8990625B2 (en) 2015-03-24
JP5880866B2 (ja) 2016-03-09

Similar Documents

Publication Publication Date Title
WO2011132730A1 (ja) ランタイムシステムの故障の木解析の方法、システム及びプログラム
Das et al. Desh: deep learning for system health prediction of lead times to failure in hpc
US20210049092A1 (en) Analyzing software test failures using natural language processing and machine learning
Bertero et al. Experience report: Log mining using natural language processing and application to anomaly detection
US20150121136A1 (en) System and method for automatically managing fault events of data center
Bao et al. Execution anomaly detection in large-scale systems through console log analysis
Gainaru et al. Fault prediction under the microscope: A closer look into HPC systems
US8219512B2 (en) Higher order logic applied to expert systems for alarm analysis, filtering, correlation and root causes which converts a specification proof into a program language
US20110083123A1 (en) Automatically localizing root error through log analysis
US9471655B2 (en) Enabling symptom verification
Wu et al. Performance diagnosis in cloud microservices using deep learning
Lou et al. Experience report on applying software analytics in incident management of online service
Reidemeister et al. Identifying symptoms of recurrent faults in log files of distributed information systems
Makanju et al. Investigating event log analysis with minimum apriori information
KR101993635B1 (ko) 지능형 자율 시스템에서의 사고 원인 추적 시스템
US20140372803A1 (en) Apparatus and method for analyzing abnormal states of component-based system
Chen et al. Automatic root cause analysis via large language models for cloud incidents
US20120109639A1 (en) Method, computer program and apparatus for analyzing symbols in a computer system
Elimelech et al. Structural abstraction for model-based diagnosis with a strong fault model
WO2013172325A1 (ja) 識別システム、識別方法及びプログラム
Kubacki et al. Holistic processing and exploring event logs
Soualhia et al. Automated traces-based anomaly detection and root cause analysis in cloud platforms
Liu et al. CUBA: interprocedural context-unbounded analysis of concurrent programs
Schuppan Towards a notion of unsatisfiable cores for LTL
Kuang et al. Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11772062

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13642301

Country of ref document: US

Ref document number: 2012511694

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11772062

Country of ref document: EP

Kind code of ref document: A1