WO2013080977A1

WO2013080977A1 - フォールトトレラントシステム、フォールトトレラント方法及びプログラム

Info

Publication number: WO2013080977A1
Application number: PCT/JP2012/080637
Authority: WO
Inventors: 剣文向
Original assignee: 日本電気株式会社
Priority date: 2011-11-28
Filing date: 2012-11-27
Publication date: 2013-06-06
Also published as: JPWO2013080977A1; JP5664886B2; US9053023B2; US20140325280A1

Abstract

本発明は、フォールトトレラントシステムであって、システム障害ロジックを編集するためのシステム障害ロジック手段と、前記システム障害ロジック手段によって与えられた前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、無関係部品を隔離する無関係部品カバレッジ手段とを有するフォールトトレラントシステムである。

Description

フォールトトレラントシステム、フォールトトレラント方法及びプログラム

　本発明は、フォールトトレラントシステムのマネジメントのためのシステム、方法およびプログラムに関する。

　フォールトトレラントシステムは、通常、単一障害点を冗長性によってカバーされるように設計される。カバーされなかった障害はシステムに障害を引き起こす可能性があるので、障害の検出、配置、隔離を行う自動修復および再構築メカニズムは、フォールトトレランスにおいて重要な役割を持つ。不完全フォールトカバレッジの効果を検討するモデルとして不完全カバレッジ（IPCM)が知られている。

　エラー処理メカニズムにおいて使用されるフォールトトレラントシステム技術のタイプに従えば、カバレッジモデルは、部品レベルの障害要因モデルと、システムレベルでの信頼性（reliability）・可用性（dependability）モデルとに大きく分類される。部品レベルの障害要因モデルは、それぞれの部品の故障要因に対するシステムの挙動についての詳細に使用される。故障部品の識別及び復旧のプロセスがビルトインテスト（BIT）を利用する場合、要素レベルカバレッジモデルと呼ばれる。

　要素レベルカバレッジモデルにおいては、冗長性にかかわらず、システム全体に障害を引き起こすような部品の故障は、単一障害点（シングルポイントフェイラー）と呼ばれる。

　ここで、従来の不完全カバレッジモデル（あるいは単純カバレッジモデル）の技術が記載されている文献として、非特許文献１を示す。

　従来の不完全カバレッジモデル、特に、要素レベルカバレッジモデルは、故障部品の識別及び隔離のみを検討している。そして、故障部品がシステムから安全に隔離されなければ、それらの部品はシステムに対して単一障害点となるというのが、共通の認識であった。

　ところで、解析対象とする特定のシステムサービスが与えられたとき、完全カバレッジが仮定されるシステムにおいて、そのシステムの信頼性がある特定の部品の状態には依存しないことがある。例えば、それらの部品が、他の部品の再構築後、システムの状態におけるサービスに対して無用なものや無関係なものとなっている場合に発生する。このような場合には、故障した部品に加えて、システムにとって無関係となった部品（以下、無関係部品（不適切部品）と記載する）の識別及び隔離は重要である。何故なら、無関係となった無関係部品（不適切部品）の識別及び隔離は、それらの無用又は無関係な無関係部品（不適切部品）によって引き起こされる潜在的な単一障害点の発生を防ぐことができ、システム全体の信頼性を顕著に高めることができるからである。

S. V. Amari, A. F. Myers, A. Rauzy, and K. S. Trivedi: "Imperfect coverage models: status and trends", in Handbook of Handbook of Performability Engineering, Chapter 22, Springer, 2008, pp. 321-348.

　しかしながら、特許文献１に代表される従来のカバレッジモデルは、無関係部品（不適切部品）が引き起こす単一障害点によってシステムの信頼性が損なわれるという課題があった。その理由は、無関係部品（不適切部品）の故障がシステムに対して単一障害点となりうるにもかかわらず、無関係部品（不適切部品）の識別と隔離とは、特許文献１に代表される従来のカバレッジモデルでは考慮されていないからである。

　そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、無関係部品（不適切部品）による単一障害点を防ぐため、無関係部品（不適切部品）を識別し隔離する方法とシステムを提供することにより、システム全体の信頼性を向上させることができる技術を提供することにある。

　本発明は、フォールトトレラント方法であって、システム障害ロジックを編集して提供し、前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離するフォールトトレラント方法である。

　本発明は、フォールトトレラントシステムのプログラムであって、前記プログラムは、コンピュータに、システム障害ロジックを編集するシステム障害ロジック処理と、前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する無関係部品隔離処理とを実行させるプログラムである。

　本発明の効果は、いかなるシステム状態においても、無関係部品（不適切部品）が適切な時に識別されて隔離され、無関係部品（不適切部品）による単一障害点が生じることを防止することができ、結果としてシステム全体の信頼性を向上させることができる。

図１は本発明の実施の形態の構成を示すブロック図である。図２は本発明の実施の形態の動作を示すフローチャートである。図３は無関係部品（無関係事象）の定義の一例である。図４は実施例を説明する為の図である。

　次に、本発明の実施の形態について図面を参照して詳細に説明する。

　図１に示すように、本発明の第１の実施の形態は、障害ロジック手段１１０と、故障部品カバレッジ手段１２０と、無関係部品カバレッジ手段１３０とを含む。

　これらの手段はそれぞれ概略つぎのように動作する。

　障害ロジック手段１１０は、完全カバレッジの仮定に基づきシステムの故障ロジックを編集し保存する。故障ロジックは、信頼性モデルの形式、例えば、故障の木、信頼性ブロックダイアグラム、バイナリーデシジョンの木、および純粋ロジックフォーミュラの形式で保存される。

　故障部品カバレッジ手段１２０は、故障部品の検出、回復、隔離、及びカバーされた部品障害の発生のもとでシステムの再構築をおこなう。

　無関係部品カバレッジ手段１３０は、障害ロジック手段１１０によって与えられたシステム障害ロジックと、故障部品カバレッジ手段１２０によって与えられたカバーされた故障部品の発生情報に基づいて、無関係部品（不適切部品）の識別と隔離とを行う。

　次に、図１及び図２のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

　まず、システム障害ロジックが前記障害ロジック手段１１０によって編集（生成）される（ステップA1)。システム障害ロジックは、システムに障害を引き起こす可能性のあるすべての故障部品の組み合わせから構成される。この組み合わせとは、例えば、故障の木、信頼性ブロックダイアグラムや、純粋ロジックフォーミュラなど信頼性モデル等で代表される組み合わせである。システム障害ロジックは、不完全カバレッジを考慮せず、つまり、完全カバレッジで分析される。

　システム障害ロジックが有効な初期システム状態において、無関係部品カバレッジ手段１３０により無関係部品（不適切部品）が最初に識別され（ステップA2）、システムから隔離される（ステップA3）。

　論理的な観点からいうと、ｆをシステム障害ロジックを表す論理式とし、部品（基本事象）ｂ_ｉとした場合、

となる場合にのみ、部品（基本事象）ｂ_ｉはｆに対して不適切又は無関係な無関係部品（不適切部品）である。すなわち、ｆがｂ_ｉの値（０は偽、１は真）に依存しない場合、部品（基本事象）ｂ_ｉはｆに対して不適切又は無関係な無関係部品（不適切部品）である。尚、便宜上、部品とそれらが対応する基本（故障）事象とを同じ記号を用いて表している。その定義を図３に示す。

　無関係部品（不適切部品）という概念を理解するために、実例を記載する。例えば、論理式ｆをある特定のシステムサービスの障害とし、

（ａおよびｂは、基本事象（部品）を表す）
と仮定する。この場合、ｂは無関係部品（不適切部品）であり、カバーされない単一障害点を発生させる可能性があるものとしてシステムから隔離されるべきである。

　否定ゲートや不関連事象がないcoherentな故障の木のように、システム障害ロジックが、初期状態においてcoherentである場合、無関係部品（不適切部品）の識別と隔離とは初期状態において省略することもできる。

　システムのメンテナンス中においては、システムは故障部品カバレッジ手段１２０により故障部品を周期的に検出する（ステップA4）。故障部品が発生して障害が検出された場合（ステップA5 Yes）、システムは故障部品カバレッジ手段１２０により故障部品をカバーする（ステップA6）。故障部品カバレッジ手段１２０のカバレッジは、非特許文献１で述べられている従来の不完全カバレッジモデルで提案されているものと同じように実行しうる。

　故障が恒久的な障害部品としてカバーされ（ステップA7 Yes）、システムが操作できるように再構築された場合（ステップA8 No）、カバーされ故障部品の発生下において、無関係部品（不適切部品）の識別が行われ、システムから隔離される（ステップA2およびA3が繰り返される）。

　一方、カバーされた部品障害による冗長性が効果を発揮せず、カバーされた部品障害がシステム障害ロジックに従ってシステム障害を引き起こした場合（ステップA8 Yes）には、システムはダウンする。また、障害をカバーできず（ステップA7 No）、障害ある部品により単一障害点が生じ、システムがダウンする。

　次に、具体的な実施例を用いて本発明の動作を説明する。

　本実施例では、WebサーバW1とデータベースサーバD1とからなるプロセスユニットと、WebサーバW2とデータベースサーバD2とからなるプロセスユニットとの二つのプロセスユニットから成るWebシステムＳを仮定する。WebシステムＳの構成を図４に示す。

　ここで、WebシステムＳは、二つのプロセスユニットのうち、どちらかのプロセスユニットが動作可能であれば動作し、プロセスユニットはWebサーバ又はデータベースサーバのどちらかが故障すれば動作しないものとする。

　障害ロジック手段１１０により、WebシステムＳのシステム障害ロジックが算出される。WebシステムＳのシステム障害ロジックは、カバレッジ機構を考慮しなければ、

と表すことができる。

　WebシステムＳの初期状態においては、すべての部品が動作可能であると仮定する。無関係部品の定義により初期状態ではすべての部品は適切である。

　ある状態において、WebサーバＷ_１に故障が発生し、その故障はＷ_１の永続的な故障として、故障部品カバレッジ手段１２０によりカバーされたと仮定する。すると、障害ロジック手段１１０により、WebシステムＳのシステム障害ロジックが算出され、そのWebシステムＳのシステム障害ロジックは、

となる。

　ここで、無関係部品カバレッジ手段１３０は、障害ロジック手段１１０により与えられたWebシステムＳの初期のシステム障害ロジック及びWebサーバＷ_１の故障のカバー後のシステム障害ロジックと、故障部品カバレッジ手段１２０から与えられるカバーしたWebサーバＷ_１の情報とに基づいて、データベースサーバＤ_１（WebサーバＷ_１をサポートするために用いられる）を無関係部品（不適切部品）として識別する。何故なら、故障したWebサーバＷ_１のカバー後のWebシステムＳのシステム障害ロジック

には、データベースサーバＤ_１は現れず、WebサーバＷ_１のカバー後のWebシステムＳのシステム障害ロジックはデータベースサーバＤ_１の故障の有無には依存しないからである。

　従って、データベースサーバＤ_１は、将来カバーすることができない単一障害点となることを回避するためにシステムから隔離されるべきものであり、無関係部品カバレッジ手段１３０により、データベースサーバＤ_１はシステムから隔離される。

　ここで注意すべきは、初期状態においては、WebシステムＳのシステム障害ロジックである

に示される通り、データベースサーバＤ_１はWebシステムＳのシステム障害ロジックに関連性のある適切なものであり、WebサーバＷ_１の故障が発生すると、無関係部品（不適切部品）になるということである。同様に、データベースサーバＤ_１の故障が発生すると、WebサーバＷ_１は無関係部品（不適切部品）となる。WebサーバＷ_２とデータベースサーバＤ_２についても、同様である。

　このように、システム障害ロジック手段１１０と故障部品カバレッジ手段１２０とからの情報に基づき、無関係部品（不適切部品）の識別と隔離とは、無関係部品カバレッジ手段１３０によって実行される。

　上述の例を従来の不完全カバレッジモデルと比較すると、従来の不完全カバレッジモデルは、故障を起こした部品だけが隔離する。例えば、WebサーバＷ_１が故障を起こし、それが検出された場合、カバレッジのあとに、WebサーバＷ_１だけが隔離され、データベースサーバＤ_１は、WebサーバＷ_１が故障を起こした後、実質的に不適切又は無関係となってもシWebシステムＳのなかに隔離されずに残される。

　しかし、本実施例では、故障を起こしたWebサーバＷ_１が隔離されるのみならず、WebサーバＷ_１の故障によって不適切又は無関係となったデータベースサーバＤ_１（無関係部品（不適切部品））も隔離され、その結果、データベースサーバＤ_１が、将来、WebシステムＳの単一障害点となることを防止することができ、WebシステムＳ全体の信頼性を向上させることができる。

　尚、上述した説明からも明らかなように、各部をハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。この場合、プログラムメモリに格納されているプログラムで動作するプロセッサによって、上述した各実施の形態又は実施例と同様の機能、動作を実現させる。また、上述した実施の形態又は実施例の一部の機能のみをコンピュータプログラムにより実現することも可能である。

　また、上記の実施の形態の内容は、以下のようにも表現されうる。

　（付記１）　フォールトトレラントシステムであって、
　システム障害ロジックを編集するためのシステム障害ロジック手段と、
　前記システム障害ロジック手段によって与えられた前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、無関係部品を隔離する無関係部品カバレッジ手段と
を有するフォールトトレラントシステム。

　（付記２）　故障部品の検出、回復および隔離とシステム再構築を行う故障部品カバレッジ手段を有し、
　前記無関係部品カバレッジ手段は、前記システム障害ロジック手段によって与えられた初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記故障部品カバレッジ手段によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
付記１に記載のフォールトトレラントシステム。

　（付記３）　フォールトトレラント方法であって、
　システム障害ロジックを編集して提供し、
　前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する
フォールトトレラント方法。

　（付記４）　故障部品の検出、回復および隔離とシステム再構築を行い、
　初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、カバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
付記３に記載のフォールトトレラント方法。

　（付記５）　フォールトトレラントシステムのプログラムであって、
　前記プログラムは、コンピュータに、
　システム障害ロジックを編集するシステム障害ロジック処理と、
　前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する無関係部品隔離処理と
を実行させるプログラム。

　（付記６）　前記プログラムは、コンピュータに、
　故障部品の検出、回復および隔離とシステム再構築を行うシステム再構築処理を実行させ、
　前記無関係部品を識別して隔離する処理は、システム障害ロジック処理による初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記システム再構築処理によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する処理である
付記５に記載のプログラム。

　以上の如く、本発明は、いかなるシステム状態においても、無関係部品（不適切部品）が適切な時に識別されて隔離され、無関係部品（不適切部品）による単一障害点が生じることを防止することができ、結果としてシステム全体の信頼性を向上させることができる。

　その理由は、ある部品が不適切又は無関係な無関係部品（不適切部品）であったり、他の部品が故障することにより、無関係部品（不適切部品）になった場合に、無関係部品カバレッジ手段により、その無関係部品（不適切部品）はシステムから識別されて隔離されるからである。従って、将来発生する可能性のあるカバーできない無関係部品（不適切部品）のいかなる故障も、単一障害点とならず、システムに影響を及ぼすことがない。

　以上好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

　本出願は、２０１１年１１月２８日に出願された日本出願特願２０１１－２５８４３４号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、フォールトトレラントシステムの信頼性管理のために用いられる。

１１０　　障害ロジック手段
１２０　　故障部品カバレッジ手段
１３０　　無関係部品カバレッジ手段

Claims

　フォールトトレラントシステムであって、
　システム障害ロジックを編集するためのシステム障害ロジック手段と、
　前記システム障害ロジック手段によって与えられた前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、無関係部品を隔離する無関係部品カバレッジ手段と
を有するフォールトトレラントシステム。
　故障部品の検出、回復および隔離とシステム再構築を行う故障部品カバレッジ手段を有し、
　前記無関係部品カバレッジ手段は、前記システム障害ロジック手段によって与えられた初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記故障部品カバレッジ手段によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
請求項１に記載のフォールトトレラントシステム。
　フォールトトレラント方法であって、
　システム障害ロジックを編集して提供し、
　前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する
フォールトトレラント方法。
　故障部品の検出、回復および隔離とシステム再構築を行い、
　初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、カバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する
請求項３に記載のフォールトトレラント方法。
　フォールトトレラントシステムのプログラムであって、
　前記プログラムは、コンピュータに、
　システム障害ロジックを編集するシステム障害ロジック処理と、
　前記システム障害ロジックに基づいて、前記システム障害ロジックに影響を与えない無関係部品を識別し、前記無関係部品を隔離する無関係部品隔離処理と
を実行させるプログラム。
　前記プログラムは、コンピュータに、
　故障部品の検出、回復および隔離とシステム再構築を行うシステム再構築処理を実行させ、
　前記無関係部品を識別して隔離する処理は、システム障害ロジック処理による初期のシステム障害ロジック及び故障部品のカバー後のシステム障害ロジックと、前記システム再構築処理によって与えられたカバーされた故障部品の情報とに基づいて、前記無関係部品を識別し、前記無関係部品を隔離する処理である
請求項５に記載のプログラム。