JPWO2015072078A1 - サービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラム - Google Patents

サービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラム Download PDF

Info

Publication number
JPWO2015072078A1
JPWO2015072078A1 JP2015547615A JP2015547615A JPWO2015072078A1 JP WO2015072078 A1 JPWO2015072078 A1 JP WO2015072078A1 JP 2015547615 A JP2015547615 A JP 2015547615A JP 2015547615 A JP2015547615 A JP 2015547615A JP WO2015072078 A1 JPWO2015072078 A1 JP WO2015072078A1
Authority
JP
Japan
Prior art keywords
procedure
sub
reconstruction
failure
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015547615A
Other languages
English (en)
Inventor
紅美子 但野
紅美子 但野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2015072078A1 publication Critical patent/JPWO2015072078A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

サービス再開手順生成装置は、情報システムが備えるコンポーネントに発生中の障害の組合せを受け付ける障害組合せ受付手段と、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定するサブ手順特定手段と、特定されたサブ手順を接続して障害復旧手順を生成する障害復旧手順生成手段と、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定する再構築手順特定手段と、障害復旧手順が所定の要件を満たしていない場合に、障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換えるサブ手順置換手段と、置き換え後の障害復旧手順をサービス再開手順として出力する手順出力手段とを備える。

Description

本発明は、障害の発生により停止した情報システムのサービスを再開する手順を生成するサービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラムに関する。
大規模災害の発生時などには、情報システム中の多くのコンポーネントに同時に障害が発生する可能性がある。このような状況から情報システムのサービスを再開するためには、同時障害の発生に対して情報システム全体を障害状態からサービス可能な状態にまで復旧させるための運用手順(いわゆる障害復旧手順)が必要である。情報システム全体を復旧させるために、多くの障害復旧手順では、まずシステムの状態の確認や障害原因の特定を行った上で、問題個所を修正する。
情報システムの障害復旧手順には、コンポーネントに発生している障害を復旧させるためのサブ手順(例えば、コマンドの入力、グラフィカルユーザインタフェースの操作など)が含まれている。コンポーネントに発生している障害ごとに必要とされるサブ手順は異なるため、発生した障害の組合せに応じて障害復旧手順は異なる。多数のコンポーネントに同時発生しうる障害の組合せの数は膨大であるため、ユーザが手動で全ての組合せに対して障害復旧手順を生成することは非現実的である。よって、障害復旧手順を自動生成することが合理的である。
情報システムの障害復旧に関して定められる一般的な顧客要件の一つに、復旧に要する時間を表すRTO(Recovery time objective,目標復旧時間)と呼ばれる指標がある。情報システムの障害復旧手順がRTOを満たせない場合、情報システムの提供者は、顧客に対してペナルティコストを支払わなければならない場合がある。そのような場合には、情報システムの管理者は、RTOを満たすように障害復旧手順を生成する必要がある。
しかし、SLA(Service Level Agreement)に基づき一定のRTOを保証しているような情報システムにおいて、障害原因の特定を行った上で問題箇所を修正する通常の障害復旧手順に従うだけでは、RTO内にサービスを再開できない場合がある。なぜならば、障害原因が複雑で特定に時間がかかる場合や、問題箇所が多いために修正完了までに長い時間を要する場合などがあるためである。
ところで、障害原因の特定や問題箇所の修正を必要としない障害対応方法として、ソフトウェアエージング(Software Aging)に対するソフトウェア若化が知られている。ソフトウェアエージングとは、長時間連続稼働によって稼働環境に生じる劣化現象(メモリリーク、ファイルのフラグメンテーション等)の総称である。稼働環境の劣化が進むと、情報システムに障害を引き起こしうる。また、ソフトウェア若化(Software Rejuvenation)は、情報システムの少なくとも一部の内部状態を初期化することでソフトウェアエージングによる障害を未然に防ぐ手法である。
特許文献1には、若化する必要がないホストマシンおよび仮想マシンを連続的に稼働させながら、若化する必要があるホストマシンおよび仮想マシンを同時に若化する方法が記載されている。
また、障害原因の特定および問題箇所の修正を必要としない障害対応方法の他の例として、非特許文献1には、ソフトウェア延命方法が記載されている。非特許文献1に記載されているソフトウェア延命方法は、仮想化環境上で動作する仮想マシンにソフトウェアエージングが起きた場合に、仮想マシンに新たに資源を追加で割り当てることで、ソフトウェアの稼働時間を長くする。
国際公開第2010/122710号パンフレット
Fumio Machida, Jianwen Xiang, Kumiko Tadano, Yoshiharu Maeno, "Software Life-Extension: A new Countermeasure to Software Aging.", Software Reliablitity engineering(ISSRE), 2012 IEEE 23rd International Symposium on, Nov 2012, p.131-140.
しかし、特許文献1および非特許文献1に記載された方法は、ソフトウェアエージングによって引き起こされる情報システムの障害以外の障害には対応できないという問題があった。
ところで、ソフトウェアエージングによって引き起こされる障害以外の障害(たとえば、ファイル破損、設定ミス、不正アクセスによる書き換え等)に対応可能で、かつ障害原因の特定および問題箇所の修正を必要としない障害対応方法の1つに、情報システムの少なくとも一部に対する再構築がある。
再構築の手順は現在のシステム状態に依存しないため、Chef等のシステム構成管理ツールなどを用いた自動化が容易である。一方、再構築を行っても、障害原因が除去されるわけではないため、再び同じ原因による障害が起きる可能性がある。また、再構築を行うと、後日障害原因の特定や問題箇所の修正をする場合に必要な情報を失う可能性がある。このため、時間的要件またはコスト的要件から再構築が必要となるような場合であっても、再構築を行う範囲は最小限であることが好ましい。
本発明は、上述した点に鑑みてなされたものであり、通常の障害復旧手順では所定の要件を満たすことができない場合であっても、発生した障害の組合せに応じて最適なサービス再開手順を自動的に生成するサービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラムを提供することを目的とする。
本発明によるサービス再開手順生成装置は、情報システムが備えるコンポーネントに発生中の障害の組合せを受け付ける障害組合せ受付手段と、コンポーネントに発生中の障害を復旧させるための手順であるサブ手順の情報を、コンポーネントの識別子と対応づけて格納するサブ手順格納手段と、コンポーネントを再構築するための手順である再構築手順の情報を、コンポーネントの識別子と対応づけて格納する再構築手順格納手段と、障害組合せ受付手段が受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定するサブ手順特定手段と、サブ手順特定手段によって特定されたサブ手順の情報に基づいて、特定されたサブ手順を接続して障害復旧手順を生成する障害復旧手順生成手段と、障害組合せ受付手段が受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定する再構築手順特定手段と、生成された障害復旧手順が所定の要件を満たしていない場合に、生成された障害復旧手順に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換えるサブ手順置換手段と、サブ手順置換手段によってサブ手順の少なくとも一部が再構築手順に置き換えられた障害復旧手順を、サービス再開手順として出力する手順出力手段とを備えたことを特徴とする。
また、本発明によるサービス再開手順生成方法は、所定のサブ手順格納手段に、情報システムが備えるコンポーネントに発生中の障害を復旧させるための手順であるサブ手順の情報を、コンポーネントの識別子と対応づけて格納し、所定の再構築手順格納手段に、コンポーネントを再構築するための手順である再構築手順の情報を、コンポーネントの識別子と対応づけて格納し、情報処理装置が、情報システムのコンポーネントに発生中の障害の組合せを受け付け、情報処理装置が、受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定し、情報処理装置が、特定されたサブ手順の情報に基づいて、特定されたサブ手順を接続して障害復旧手順を生成し、情報処理装置が、受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定し、情報処理装置が、生成された障害復旧手順が所定の要件を満たしていない場合に、生成された障害復旧手順に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換え、情報処理装置が、サブ手順の少なくとも一部が再構築手順に置き換えられた障害復旧手順を、サービス再開手順として出力することを特徴とする。
また、本発明によるサービス再開手順生成プログラムは、情報システムが備えるコンポーネントに発生中の障害を復旧させるための手順であるサブ手順の情報を、コンポーネントの識別子と対応づけて格納するサブ手順格納手段と、コンポーネントを再構築するための手順である再構築手順の情報を、コンポーネントの識別子と対応づけて格納する再構築手順格納手段とを備えたコンピュータに、情報システムのコンポーネントに発生中の障害の組合せを受け付ける障害組合せ受付処理、受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定するサブ手順特定処理、受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定する再構築手順特定処理、生成された障害復旧手順が所定の要件を満たしていない場合に、生成された障害復旧手順に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換えるサブ手順置換処理、およびサブ手順の少なくとも一部が再構築手順に置き換えられた障害復旧手順を、サービス再開手順として出力する手順出力処理を実行させることを特徴とする。
本発明によれば、通常の障害復旧手順では所定の要件を満たすことができない場合であっても、発生した障害の組合せに応じて最適なサービス再開手順を自動的に生成することができる。
第1の実施形態のサービス再開手順生成装置の構成例を示すブロック図である。 サブ手順の例を示すアクティビティ図である。 サブ手順格納手段103に格納される情報の例を示す説明図である。 再構築手順格納手段108に格納される情報の例を示す説明図である。 第1の実施形態のサービス再開手順生成装置の動作の一例を示すフローチャートである。 第2の実施形態のサービス再開手順生成装置の構成例を示すブロック図である。 第2の実施形態のサービス再開手順生成装置の動作の一例を示すフローチャートである。 本発明の概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。始めに、本発明における障害復旧手順について説明する。障害復旧手順は、情報システム中の障害が発生しているコンポーネント群を障害状態から復旧させることによって、情報システムにサービスを再開させる手順である。障害復旧手順は、情報システムが備えるコンポーネントに発生している障害を復旧させるためのひとまとまりの手順であるサブ手順を含む。
各サブ手順は、コンポーネントに発生中の障害を復旧させるための手順であれば、特に限定されない。例えば、各サブ手順は、再起動、データ復旧、設定変更などのシステム管理操作を含んでいてもよい。なお、各サブ手順は、予めドキュメントやマニュアルなどに記述されてもよい。また、各サブ手順は、JP1などの既存のシステム構成管理ツールを用いて自動化されたスクリプトやプログラムとして提供されてもよい。
災害等によって情報システムが備えるコンポーネントに障害が発生し、サービスの提供が停止したとき、システムオペレータ(以下、単にオペレータと記す。)は、障害復旧手順に従って障害が発生したコンポーネントを障害状態から復旧させるなどして、情報システムをサービス可能な状態まで復旧させる責任を担う。情報システムを復旧させるために必要なサブ手順は、障害が発生したコンポーネントの組み合わせや、発生した障害の組み合わせに依存して異なる。そのため、オペレータはまず最初に情報システムを復旧させるために必要なサブ手順を特定し、その次に情報システムを復旧させるために実行すべきサブ手順を実行する。コンポーネントの障害には、コンポーネントのダウンだけでなく、「必須のコマンドの一部が実行できない」、「システムに必要なデータの一部が消失している」等のコンポーネントを正常に利用できない状態も含まれる。したがって、本発明では、このような障害が発生しているコンポーネントの組合せや、発生した障害の組合せに応じて、障害復旧手順に含ませるサブ手順を特定する。
次に、「再構築手順」について説明する。再構築手順は、障害発生中のコンポーネント群を再構築するための手順である。再構築手順は、コンポーネントを再構築するための手順であれば、特に限定されない。なお、情報システムの実装上の制限や、再構築手順の準備そのものにかかるコストなどの観点から、全てのコンポーネントに対して再構築手順が用意されているとは限らない。なお、各再構築手順は、予めドキュメントやマニュアルなどに記述されてもよい。また、各再構築手順は、Chefなどの既存のシステム構成管理ツールを用いて自動化されたスクリプトやプログラムとして提供されてもよい。
本発明は、上述した障害復旧手順(より具体的には、障害復旧手順に含まれるサブ手順)と再構築手順とを適宜組み合わせて、情報システムにサービスを再開させるための手順であるサービス再開手順を生成する。以下、「サービス再開手順」といった場合には、障害を復旧させるためのサブ手順を用いるか、再構築手順を用いるかを問わず、情報システムを障害状態からサービス可能な状態にまで復旧させるための手順をいう。
また、情報システムのコンポーネントには、情報システムにおいて障害復旧または再構築の処理対象となりうる全てのものが含まれる。一例としては、アプリケーション、タスク、スレッド、VM(Virtual Machine)、中央処理装置(CPU;Central Processing Unit)、周辺機器、ストレージ、サーバ装置、パーソナルコンピュータ等が挙げられる。コンポーネントは、ソフトウェアであってもよいし、ハードウェアであってもよい。また、あるコンポーネントは複数のコンポーネントを含む場合がある。以下、「コンポーネント」といった場合に、複数のコンポーネントを含むコンポーネント群を意味する場合がある。同様に、「サブ手順」といった場合に、複数のサブ手順を含むサブ手順群を意味する場合がある。同様に、「再構築手順」といった場合に、複数の再構築手順を含む再構築手順群を意味する場合がある。より具体的には、あるIDが割り振られたサブ手順の中に、複数のサブ手順が含まれていてもよいことを意味する。同様に、あるIDが割り振られた再構築手順の中に、複数の再構築手順が含まれていてもよいことを意味する。同時障害の組み合わせによっては、複数の障害やコンポーネントをまとめて取り扱う方がよい場合もあるからである。
実施形態1.
図1は、本発明の第1の実施形態のサービス再開手順生成装置の構成例を示すブロック図である。図1に示すように、本実施形態のサービス再開手順生成装置1は、障害組合せ受付手段101と、サブ手順特定手段102と、サブ手順格納手段103と、障害復旧手順生成手段104と、所要時間推定手段105と、手順出力手段106と、再構築手順特定手段107と、再構築手順格納手段108と、サブ手順置換手段109と、時間要件受付手段110とを備える。
サービス再開手順生成装置1は、一般的な情報処理装置(コンピュータ)により実現される。サービス再開手順生成装置1は、例えば、サーバ装置やパーソナルコンピュータ等である。また、サービス再開手順生成装置1は、図示しないCPU、記憶装置、入力装置および出力装置を備える。記憶装置は、例えば、メモリおよびハードディスク駆動装置(HDD;Hard Disk Drive)である。また、入力装置は、例えば、キーボードやマウスや各種ネットワークインタフェース等である。また、出力装置は、例えば、ディスプレイや各種ネットワークインタフェース等である。サービス再開手順生成装置1は、記憶装置に記憶されているプログラムをCPUが実行することにより、図1に示される各手段を実現するように構成されている。
障害組合せ受付手段101は、情報システムのコンポーネントに発生中の障害の組合せを受け付ける。障害の組合せを示す情報は、障害が発生したコンポーネントの識別子の組であってもよい。例えば、{「アプリA」、「データベースB」}というようにコンポーネントの名称や、{1,2,3}というように予めコンポーネントに割り当てられた番号等を用いて指定されてもよい。なお、障害の組合せを示す情報は、さらに、各コンポーネントに発生した障害の種別等を含む。すなわち、障害の組合せを示す情報は、障害が発生したコンポーネントの識別子と障害種別等とを含む障害情報の組であってもよい。
サブ手順格納手段103は、情報システムが備えるコンポーネントの障害を復旧させるための各種サブ手順の情報を格納する。サブ手順格納手段103は、例えば、サブ手順を識別するサブ手順IDに対応づけて、対応する障害種別と、そのサブ手順自身(そのサブ手順の具体的な処理内容を示す情報や、そのような処理内容を実際に実行するスクリプトやプログラム等)とを格納する。図2は、サブ手順の一例を示すアクティビティ図である。本発明において、サブ手順の実態は特に問わない。すなわち、ユーザに提供するサブ手順は、図2のアクティビティ図に示されるような、当該サブ手順の具体的な処理内容を示す情報であってもよいし、実際に情報システムに対してその手順を実行するようなスクリプトやプログラムであってもよいし、これらを組み合わせたものであってもよい。一般に、障害復旧のための手順であるサブ手順には障害原因の特定動作が含まれるため、全てを自動化することは難しい。そのような場合には、ユーザに障害原因の特定動作を行わせた後で、原因に応じた復旧動作(例えば、再起動、データ復旧、設定変更等)はスクリプト等を実行して自動的に行うといったことも考えられる。
また、図3はサブ手順格納手段103に格納される情報の例を一部抜粋して示す説明図である。図3に示すように、本実施形態のサブ手順格納手段103は、サブ手順IDに対応づけて、さらに、そのサブ手順(サブ手順IDによって識別されるサブ手順)が復旧させるコンポーネントの識別子を格納する。すなわち、本実施形態のサブ手順格納手段103は、サブ手順ごとに、そのサブ手順自身と、そのサブ手順が復旧させるコンポーネントの識別子とを少なくとも含む情報を格納する。サブ手順は、例えば、情報システムが備えるコンポーネントの障害ごとに定義される。なお、必ずしも障害ごとに定義されなくてもよく、例えば、特定の障害の組合せに対して1つのサブ手順が定義されてもよい。
また、サブ手順格納手段103は、サブ手順IDに対応づけて、さらに、そのサブ手順を実行する際に必要となる条件を示す前提条件や、そのサブ手順の名前や、そのサブ手順の実行によって実現するコンポーネントの状態(コンポーネントの遷移先状態)や、そのサブ手順中の各運用操作(設定変更、リブート、シャットダウンなど)に対する所要時間などの付随情報を格納してもよい。前提条件は、例えば、事前に実行が必要なサブ手順の情報や、前提とする状態、同時実行不能なサブ手順等の情報である。なお、サブ手順の名前は、ユーザの理解を助けるために用いられる。また、コンポーネントの遷移先の状態は、例えば、複数のサブ手順を接続して障害復旧手順を生成する際に、後に続くサブ手順の前提条件を満たすか否かの判定材料に用いられる。また、各運用操作に対する所要時間は、サブ手順の実行時間を推定するために用いられる。以下、サブ手順格納手段103に格納される情報を、サブ手順情報と呼ぶ場合がある。
再構築手順格納手段108は、障害が発生したコンポーネントを再構築するための手順である再構築手順の情報を格納する。再構築手順格納手段108は、例えば、再構築手順を識別する再構築手順IDに対応づけて、その再構築手順自身(その再構築手順の具体的な処理内容を示す情報や、そのような処理内容を実際に実行するためのスクリプトやプログラム等)を格納する。再構築の例としては、アプリケーションの再構築や、VM(Virtual Machine)の再配備などが挙げられる。本発明において、再構築手順の実態は特に問わない。すなわち、ユーザに提供する再構築手順は、ユーザに当該再構築手順を実行させるための情報であってもよいし、実際に情報システムに対してその手順を実行するようなスクリプトやプログラムであってもよいし、これらを組み合わせたものであってもよい。再構築は、内部状態をクリアするといった単なる再起動と異なり、もう一度ゼロから作り直す動作である。例えば、VMの再配置であれば、VMへ割り当てるリソースの設定、VM上のOSのIPアドレスやOSのファイアウォールの設定、VMイメージの転送などを行うなどの動作が含まれる。しかし、再構築手順は、現状の把握や障害の特定動作が必要でなく、また一度構築した際に正常に動作した実績があるなど、適切な手順が判明していることが多い。適切な手順が予め判明していれば、再構築手順をスクリプト等により自動化することも可能である。
図4は、再構築手順格納手段108に格納される情報の一部を抜粋して示す説明図である。図4に示すように、本実施形態の再構築手順格納手段108は、再構築手順IDに対応づけて、さらに、その再構築手順(再構築手順IDによって識別される再構築手順)が再構築するコンポーネントの識別子を格納する。すなわち、本実施形態の再構築手順格納手段108は、再構築手順ごとに、その再構築手順自身と、その再構築手順が再構築するコンポーネントの識別子とを少なくとも含む情報を格納する。再構築手順は、例えば、情報システムが備えるコンポーネントごとに定義される。なお、必ずしもコンポーネントごとに定義されなくてもよく、例えば、特定のコンポーネントの組み合わせに対して1つの再構築手順が定義されてもよい。
また、再構築手順格納手段108は、再構築手順IDに対応づけて、さらに、その再構築手順の実行時間や、その再構築手順の実行によって実現するコンポーネントの状態(コンポーネントの遷移先状態)を格納してもよい。
サブ手順特定手段102は、障害組合せ受付手段101が受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定する。サブ手順特定手段102は、例えば、障害組合せ受付手段101が受け付けた障害の組合せに基づき、障害が発生した各コンポーネントについて、当該コンポーネントに発生している障害を復旧させるためのサブ手順のサブ手順IDを、サブ手順格納手段103に格納された情報を参照して特定する。
障害復旧手順生成手段104は、サブ手順特定手段102により特定された各サブ手順を接続して(適当な順で組み合わせて)、障害復旧手順を生成する。障害復旧手順生成手段104は、最も単純には、特定された各サブ手順を直列に接続することによって障害復旧手順を生成してもよい。また、障害復旧手順生成手段104は、特定されたサブ手順の間に順序などの制約がある場合には、その制約を満たすように特定された各サブ手順を接続する。また、障害復旧手順生成手段104は、接続方法に複数の候補がありうる場合には、できるだけ並列化させるなど、障害復旧にかかる時間が短くなるように接続してもよい。なお、障害復旧手順生成手段104によって生成された障害復旧手順は、本発明の生成対象であるサービス再開手順の第1候補とされる。
時間要件受付手段110は、サービス再開手順に対する時間要件を受け付ける。時間要件は、例えばRTOであって、より具体的には、1日、3時間、5分などである。時間要件は、顧客との契約等に応じて決められる。
所要時間推定手段105は、生成されたサービス再開手順の候補(以下、サービス再開手順候補という。)の実行にかかる時間である所要時間を推定する。所要時間推定手段105は、最初に、サービス再開手順の第1候補として障害復旧手順生成手段104が生成した障害復旧手順の所要時間を推定する。
所要時間推定手段105は、最も単純には、障害復旧手順に含まれるサブ手順が各々含む運用操作に要する時間をシーケンシャルに足し合わせることによって、所要時間を推定してもよい。また、所要時間推定手段105は、障害復旧手順に含まれる運用操作の数に比例して所要時間が増加するような計算式を利用してもよい。より正確にするために、所要時間推定手段105は、例えば障害復旧手順を表すアクティビティ図から、Stochastic reward netなどの確率モデルを生成し、Stochastic Petri Nets Packageなどの解析ツールを用いて所要時間を推定してもよい。
また、所要時間推定手段105は、推定した障害復旧手順の所要時間が、時間要件として示された時間を上回る場合には、後述するサブ手順置換手段109に、サービス再開手順候補(より具体的には、そのうちの障害復旧手順)に含まれるサブ手順の少なくとも一部を再構築手順に置き換えさせる。サブ手順置換手段109によるサブ手順の再構築手順への置き換えは、更新後のサービス再開手順候補の所要時間が時間要件を満たすようになるまで行われる。
所要時間推定手段105は、更新後のサービス再開手順候補の所要時間を推定する方法として、例えば、上述したような、更新後のサービス再開手順候補に含まれるサブ手順や再構築手順が各々含む運用操作に要する時間をシーケンシャルに足し合わせてもよい。それ以外にも、運用操作の数に比例して所要時間が増すような所定の計算式を利用する方法を用いてもよいし、置き換えられたサブ手順の実行に要する時間を置き換えた再構築手順の実行時間に差し替えるといった方法を用いてもよい。
再構築手順特定手段107は、障害組合せ受付手段101が受け付けた障害の組合せに基づいて、再構築手順格納手段108に格納された情報に基づき、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定する。再構築手順特定手段107は、例えば、障害組合せ受付手段101が受け付けた障害の組合せに基づき、障害発生中の各コンポーネントを再構築するための再構築手順の再構築手順IDを、再構築手順格納手段108に格納された情報を参照して特定する。
サブ手順置換手段109は、所要時間推定手段105によって推定されたサービス再開手順候補の所要時間に基づいて、サービス再開手順候補が時間要件を満たしていない場合に、サービス再開手順候補に含まれる障害復旧のためのサブ手順の少なくとも一部を、再構築手順特定手段107によって特定された再構築手順の少なくとも一つに置き換える。置き換え方法は、サブ手順を1つずつ置き換えてもよいし、複数のサブ手順を同時に置き換えてもよい。また、サブ手順置換手段109は、時間要件に対してサービス再開手順候補の所要時間が超過した時間である超過時間に応じて、置き換える数を変えてもよい。また、サブ手順置換手段109は、実行時間の短い再構築手順を優先的に置き換えるようにしてもよい。
サブ手順置換手段109は、再構築の範囲を最小限に抑えるために、サブ手順から再構築手順へのトータルの置き換え数を{1、2、3、・・・}といったように少ない数から段階的に増やしていき、時間要件を満たした時点で置き換え処理を止めてもよい。また、例えばサブ手順置換手段109は、置き換え元となるサブ手順の実行時間と、置き換え先となる再構築手順の実行時間との差が大きい、すなわち、置き換え前後の実行時間の差が大きい(時間短縮効果が大きい)ものから順に置き換えるようにしてもよい。
一般に、1つのコンポーネントの再構築によって、その再構築の対象となったコンポーネントに発生している障害を復旧するためのサブ手順は全て不要となる。サブ手順置換手段109は、例えば、生成されたサービス再開手順候補に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成されたサービス再開手順候補に含まれるサブ手順の少なくとも一部を、再構築手順に置き換える。例えば、サブ手順置換手段109は、各サブ手順に対応づけられているコンポーネントの識別子と、各再構築手順に対応づけられているコンポーネントの識別子とを基に、どのサブ手順がどの再構築手順に置き換え可能かを判断してもよい。なお、あるコンポーネントが複数のコンポーネントを包含しているような場合には、1つのコンポーネントの再構築手順と、そのコンポーネントが包含している全てのコンポーネントに発生している障害を復旧するためのサブ手順とが置き換え可能になる場合がある。そのような場合には、コンポーネントの内包関係を示す情報を別途記憶しておいてもよい。また、サブ手順はコンポーネントの障害ごとに整理されて用意されることが多いことから、コンポーネントの障害と再構築手順との対応関係を予め記憶しておき、その対応関係に基づいて、どのサブ手順とどの再構築手順とが置き換え可能かを判断してもよい。また、コンポーネントの障害と再構築手順との対応関係とともに、再構築手順への置き換えに関する前提条件を一緒に格納しておき、さらに状況に応じて置き換え可能性を判断してもよい。前提条件としては、例えば、特定のシステム状態(OSが正常稼働している、データベースがバックアップ中でない等)や、順序(事前に実行すべきサブ手順や再構築手順の指定等)などが挙げられる。サブ手順置換手段109は、あるサブ手順を対応する再構築手順に置き換える際に、例えば置き換え先の再構築手順の前提条件を満たすために、新たな手順(サブ手順や再構築手順)を追加したり、サービス再開手順候補内の各手順の実行順序を変更してもよい。
また、サブ手順置換手段109は、置き換え可能な再構築手順を全て置き換えても、置き換え後のサービス再開手順候補の所要時間が時間要件を満たさない場合には、その旨を出力する。
手順出力手段106は、上述したサブ手順の再構築手順への置き換え処理の結果、所要時間が時間要件を満たすサービス再開手順候補が生成された場合には、そのサービス再開手順候補を、サービス再開手順(またはその候補)として出力する。すなわち、手順出力手段106は、受け付けた時間要件を満たすサービス再開手順候補のみをユーザに提供する。手順出力手段106は、例えば、そのようなサービス再開手順候補の具体的な処理内容を、例えばアクティビティ図の形式にしてディスプレイに出力することにより、ユーザに提供してもよい。なお、手順出力手段106は、受け付けた時間要件を満たすサービス再開手順候補が生成されなかった場合には、「該当手順なし」の旨を出力するか、または、オペレータの判断のための参考情報として、最も所要時間が短いサービス再開手順候補を出力してもよい。
本実施形態において、サブ手順格納手段103および再構築手順格納手段108は、例えば、記憶装置によって実現される。また、障害組合せ受付手段101および時間要件受付手段110は、例えば、プログラムに従って動作するCPUと、入力装置とによって実現される。また、手順出力手段106は、例えば、プログラムに従って動作するCPUと、出力装置とによって実現される。また、サブ手順特定手段102、障害復旧手順生成手段104、所要時間推定手段105、再構築手順特定手段107およびサブ手順置換手段109は、例えば、プログラムに従って動作するCPUによって実現される。
次に、本実施形態のサービス再開手順生成装置1の動作を説明する。図5は、本実施形態のサービス再開手順生成装置1の動作の一例を示すフローチャートである。図5に示すように、まず障害組合せ受付手段101が、情報システムのコンポーネントに発生した障害の組み合わせを受け付ける(ステップS101)。情報システムのコンポーネントに発生した障害の組み合わせは、ユーザが入力してもよいし、情報システムから直接取得してもよい。
次に、サブ手順特定手段102は、ステップS101で受け付けた障害の組合せに基づいて、障害が起きたコンポーネント群の状態を復旧状態にするために必要なサブ手順を特定する(ステップS102)。
次に、障害復旧手順生成手段104は、ステップS102で特定されたサブ手順を接続することにより、サービス再開手順の第1候補となる障害復旧手順を生成する(ステップS103)。
次に、再構築手順特定手段107が、ステップS101で受け付けた障害の組合せに基づいて、障害が起きたコンポーネント群を再構築するために必要な再構築手順を特定する(ステップS104)。このとき、再構築手順が用意されていないコンポーネントについては、スキップする(「再構築手順なし」とする)。なお、本ステップは、ステップS101からステップS108の間の別のタイミングで実行されてもよい。
次に、時間要件受付手段110が、サービス再開手順に対する時間要件を受け付ける(ステップS105)。なお、本ステップは、ステップS101からステップS107の間の別のタイミングで実行されてもよい。
次に、所要時間推定手段105は、生成されたサービス再開手順候補の所要時間を推定する(ステップS106)。なお、本ステップの第1回目では、所要時間推定手段105は、ステップS104で生成された障害復旧手順の所要時間を推定する。また、2回目以降では、所要時間推定手段105は、ステップS108によりサブ手順の一部が再構築手順に置換されることにより生成された、新たなサービス再開手順候補の所要時間を推定する。
次に、所要時間推定手段105は、ステップS106で推定された所要時間がステップS105で受け付けた時間要件を満たすか否かを判定する(ステップS107)。なお、サブ手順置換手段109が本ステップを行ってもよい。
所要時間が時間要件を満たす場合(ステップS107のYes)、手順出力手段106が、最終的に得られたサービス再開手順候補をサービス再開手順として、ディスプレイ等に出力する(ステップS109)。
一方、所要時間が時間要件を満たさない場合(ステップS107のNo)、サブ手順置換手段109が、サービス再開手順候補に含まれるサブ手順の一部を、特定された再構築手順のうちのいずれかに置き換えることにより、サービス再開手順候補を更新する(ステップS108)。そして、ステップS108で生成された新たなサービス再開手順候補について、再び上述した処理を繰り返す(ステップS106に戻る)。
以上のように、本実施形態では、まず発生した障害の組合せに応じた障害復旧手順を生成した上で、指定された時間要件を満たすまで、障害復旧手順に含まれるサブ手順の一部を再構築手順に置き換える方法を採用している。したがって、本実施形態によれば、通常の障害復旧手順では時間要件を満たすことができない場合であっても、時間要件を満たすサービス再開手順をユーザに提供できる。
また、本実施形態によれば、再構築の範囲を、指定された時間要件を満たすために必要な最小限の範囲にとどめることができるので、指定された時間要件を満たしつつ、可能な限り障害原因が除去された状態でサービスを再開できる。
実施形態2.
次に、本発明の第2の実施形態を説明する。情報システムが提供するサービスにRTOが定められているような場合、障害発生時にRTOを超過した分に対してペナルティとして支払わなければならない費用が定められている場合も多い。これらの費用は、一般にダウンタイムコストと呼ばれる。一方、情報システムの障害復旧に投入可能な費用は一般に限られている。本実施形態では、そのようなコスト要件を満たすサービス再開手順を生成する。
本実施形態のサービス再開手順生成装置は、サービス再開手順候補の超過時間に対するダウンタイムコストに基づき、指定されたコスト要件を満たすサービス再開手順を生成する点が、第1の実施形態のサービス再開手順生成装置1と異なる。以下、主に第1の実施形態のサービス再開手順生成装置1との相違点を説明する。
図6は、本実施形態のサービス再開手順生成装置の構成例を示すブロック図である。図6に示すサービス再開手順生成装置2は、図1に示す第1の実施形態のサービス再開手順生成装置1に加えて、所要コスト推定手段111と、コスト要件受付手段112とを備える。
所要コスト推定手段111は、所要時間推定手段105が推定した所要時間と、時間要件受付手段110が受け付けた時間要件とに基づき、サービス再開手順候補の実行にかかるコストである所要コストを推定する。所要コストは、例えば、ダウンタイムコストであってもよい。ダウンタイムコストの計算方法は、単純にはサービス再開手順候補の超過時間に比例するとしてもよいし、サービス利用者である顧客との間の契約などで予め決められた計算式を用いてもよい。また、所要コスト推定手段111は、所要コストとして、ダウンタイムコストだけでなく、障害復旧に要する人件費や設備費などのサービス再開手順候補の実行に要する費用を含めたコストを推定してもよい。
所要コスト推定手段111は、推定した所要コストが、コスト要件受付手段112で受け付けたコスト要件を超過する場合、サブ手順置換手段109に、サービス再開手順候補(より具体的には、そのうちの障害復旧手順)に含まれるサブ手順の少なくとも一つを再構築手順に置き換えさせる。本実施形態では、サブ手順置換手段109によるサブ手順の再構築手順への置き換えは、更新後のサービス再開手順候補の所要コストがコスト要件を満たすようになるまで行われる。
コスト要件受付手段112は、サービス再開手順に対するコスト要件を受け付ける。
また、本実施形態の所要時間推定手段105は、第1の実施形態の所要時間推定手段105と異なり、サービス再開手順候補の所要時間の推定処理のみを行う。すなわち、所要時間推定手段105は、推定した所要時間が、時間要件受付手段110が受け付けた時間要件を満たしていない場合でも、再構築手順への置き換え指示等は行わない。再構築手順への置き換え指示等は、既に説明したように所要コスト推定手段111が行う。
また、本実施形態のサブ手順置換手段109は、所要コスト推定手段111によって推定されたサービス再開手順候補の所要コストに基づいて、サービス再開手順候補がコスト要件を満たしていない場合に、サービス再開手順候補に含まれる障害復旧のためのサブ手順の少なくとも一部を、再構築手順特定手段107によって特定された再構築手順の少なくとも一つに置き換える。なお、サブ手順置換手段109は、置き換え可能な再構築手順を全て置き換えても、置き換え後のサービス再開手順候補の所要コストがコスト要件を満たさない場合には、その旨を出力する。
本実施形態において、所要コスト推定手段111およびコスト要件受付手段112は、例えば、プログラムに従って動作するCPUによって実現される。
次に、本実施形態のサービス再開手順生成装置2の動作を説明する。図7は、本実施形態のサービス再開手順生成装置2の動作の一例を示すフローチャートである。図7に示すように、まず、第1の実施形態の場合と同様に、ステップS101からステップS105の処理を行う。
本実施形態では、次に、コスト要件受付手段112が、サービス再開手順に対するコスト要件を受け付ける(ステップS1051)。なお、本ステップは、ステップS101からS1062の間の別のタイミングで実行されてもよい。
次に、所要時間推定手段105が、生成されたサービス再開手順候補の所要時間を推定する(ステップS106)。なお、本ステップは第1の実施形態と同様である。
次に、所要コスト推定手段111が、ステップS106で推定された所要時間と、ステップS105で受け付けた時間要件に基づき、生成されたサービス再開手順候補の所要コストを推定する(ステップS1061)。なお、本ステップの第1回目では、所要コスト推定手段111は、ステップS104で生成された障害復旧手順の所要コストを推定する。また、2回目以降では、所要コスト推定手段111は、ステップS108によりサブ手順の一部が再構築手順に置換されることにより生成された、新たなサービス再開手順候補の所要コストを推定する。
次に、所要コスト推定手段111は、ステップS1061で推定された所要コストがステップS1051で受け付けたコスト要件を満たすか否かを判定する(ステップS1062)。なお、第1の実施形態と同様、サブ手順置換手段109が本ステップを行ってもよい。
所要コストがコスト要件を満たす場合(ステップS1062のYes)、手順出力手段106が、最終的に得られたサービス再開手順候補をサービス再開手順として、ディスプレイ等に出力する(ステップS109)。
一方、所要コストがコスト要件を満たさない場合(ステップS1062のNo)、サブ手順置換手段109は、サービス再開手順候補に含まれるサブ手順の一部を再構築手順に置き換えることにより、サービス再開手順候補を更新する(ステップS108)。そして、ステップS108で生成された新たなサービス再開手順候補について、再び上述した処理を繰り返す(ステップS106に戻る)。
以上のように、本実施形態によれば、まず発生した障害の組合せに応じた障害復旧手順を生成した上で、指定されたコスト要件を満たすまで、障害復旧手順に含まれるサブ手順の一部を再構築手順に置き換える方法を採用している。したがって、本実施形態によれば、通常の障害復旧手順では時間要件を満たすことができない場合であっても、コスト要件を満たすサービス再開手順を生成できるので、情報システムの障害復旧に投入可能な費用が限られるような場合にも実行可能なサービス再開手順をユーザに提供することができる。
また、本実施形態によれば、再構築の範囲を、指定されたコスト要件を満たすために必要な最小限の範囲にとどめることができるので、指定されたコスト要件を満たしつつ、可能な限り障害原因が除去された状態でサービスを再開できる。
次に、本発明の概要を説明する。図8は、本発明のサービス再開装置手順生成装置の概要を示すブロック図である。図8に示すサービス再開手順生成装置500は、障害組合せ受付手段501と、サブ手順格納手段502と、再構築手順格納手段503と、サブ手順特定手段504と、障害復旧手順生成手段505と、再構築手順特定手段506と、サブ手順置換手段507と、手順出力手段508とを備える。
障害組合せ受付手段501(例えば、障害組合せ受付手段101)は、情報システムが備えるコンポーネントに発生中の障害の組合せを受け付ける。
サブ手順格納手段502(例えば、サブ手順格納手段103)は、情報システムが備えるコンポーネントに発生中の障害を復旧させるための手順であるサブ手順の情報を、コンポーネントの識別子と対応づけて格納する。
再構築手順格納手段503(例えば、再構築手順格納手段108)は、情報システムが備えるコンポーネントを再構築するための手順である再構築手順の情報を、コンポーネントの識別子と対応づけて格納する。
サブ手順特定手段504(例えば、サブ手順特定手段102)は、障害組合せ受付手段501が受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定する。
障害復旧手順生成手段505(例えば、障害復旧手順生成手段104)は、サブ手順特定手段504によって特定されたサブ手順の情報に基づいて、特定されたサブ手順を接続して障害復旧手順を生成する。
再構築手順特定手段506(例えば、再構築手順特定手段107)は、障害組合せ受付手段501が受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定する。
サブ手順置換手段507(例えば、サブ手順置換手段109)は、生成された障害復旧手順が所定の要件を満たしていない場合に、生成された障害復旧手順に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換える。
手順出力手段508(例えば、手順出力手段106)は、サブ手順置換手段507によってサブ手順の少なくとも一部が再構築手順に置き換えられた障害復旧手順を、サービス再開手順として出力する。
以上のような構成によって、通常の障害復旧手順では所定の要件を満たすことができない場合であっても、発生した障害の組合せに応じて最適なサービス再開手順を自動的に生成することができる。
また、本発明のサービス再開手順生成装置は、サービス再開手順に対して課される時間要件を受け付ける時間要件受付手段(例えば、時間要件受付手段110)と、指定された手順の実施にかかる時間である所要時間を推定する所要時間推定手段(例えば、所要時間推定手段105)とを備えていてもよい。そのような場合に、サブ手順置換手段507は、所要時間推定手段によって推定された障害復旧手順の所要時間が時間要件を満たしていない場合に、時間要件を満たすように、障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換えてもよい。
また、本発明のサービス再開手順生成装置は、さらに、サービス再開手順に対して課されるコスト要件を受け付けるコスト要件受付手段(例えば、コスト要件受付手段112)と、指定された手順の実施にかかるコストであって、障害復旧時間の超過に対するダウンタイムコストを含む所要コストを推定する所要コスト推定手段(例えば、所要コスト推定手段111)とを備えていてもよい。そのような場合に、サブ手順置換手段507は、所要時間推定手段によって推定された障害復旧手順の所要コストがコスト要件を満たしていない場合に、コスト要件を満たすように、障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換えてもよい。
また、サブ手順置換手段507は、生成された障害復旧手順をサービス再開手順の第1の候補として、生成されたサービス再開手順の候補が所定の要件を満たすまで、当該候補に含まれるサブ手順の少なくとも一部を、再構築手順に置き換える置き換え処理を繰り返し行い、手順出力手段508は、サブ手順置換手段507によって所定の要件を満たすとされたサービス再開手順の候補を、サービス再開手順として出力してもよい。
また、サブ手順置換手段507は、置き換え前後の実行時間の差が大きいものから順に置き換えてもよい。
また、再構築手順が、スクリプトまたはプログラムで提供されてもよい。
また、上記実施形態では、サービス再開手順の評価指標として、所要時間または所要コストを用いる例が示されているが、サービス再開手順の実施の成功率などの、システム要件に関わる他の評価指標を用いてもよい。
また、上記各実施形態では、サービス再開手順生成装置の各機能は、ソフトウェア、より具体的にはCPUがプログラムを実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。
また、上記各実施形態においてプログラムは、記憶装置に記憶されるとしたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、または半導体メモリ等の可搬性を有する媒体である。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年11月13日に出願された日本特許出願2013−234751を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、サービスを再開させるためだけでなく、例えば障害が発生した情報システムを障害がない状態にまで復旧させるために用いられる装置、システム、方法およびプログラムに適用可能である。
1、2、500 サービス再開手順生成装置
101、501 障害組合せ受付手段
102、504 サブ手順特定手段
103、502 サブ手順格納手段
104、505 障害復旧手順生成手段
105 所要時間推定手段
106、508 手順出力手段
107、506 再構築手順特定手段
108、503 再構築手順格納手段
109、507 サブ手順置換手段
110 時間要件受付手段
111 所要コスト推定手段
112 コスト要件受付手段

Claims (8)

  1. 情報システムが備えるコンポーネントに発生中の障害の組合せを受け付ける障害組合せ受付手段と、
    前記コンポーネントに発生中の障害を復旧させるための手順であるサブ手順の情報を、コンポーネントの識別子と対応づけて格納するサブ手順格納手段と、
    前記コンポーネントを再構築するための手順である再構築手順の情報を、コンポーネントの識別子と対応づけて格納する再構築手順格納手段と、
    前記障害組合せ受付手段が受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定するサブ手順特定手段と、
    前記サブ手順特定手段によって特定されたサブ手順の情報に基づいて、特定されたサブ手順を接続して障害復旧手順を生成する障害復旧手順生成手段と、
    前記障害組合せ受付手段が受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定する再構築手順特定手段と、
    生成された障害復旧手順が所定の要件を満たしていない場合に、生成された障害復旧手順に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換えるサブ手順置換手段と、
    前記サブ手順置換手段によってサブ手順の少なくとも一部が再構築手順に置き換えられた障害復旧手順を、サービス再開手順として出力する手順出力手段とを備えた
    ことを特徴とするサービス再開手順生成装置。
  2. サービス再開手順に対して課される時間要件を受け付ける時間要件受付手段と、
    指定された手順の実施にかかる時間である所要時間を推定する所要時間推定手段とを備え、
    サブ手順置換手段は、前記所要時間推定手段によって推定された障害復旧手順の所要時間が前記時間要件を満たしていない場合に、前記時間要件を満たすように、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換える
    請求項1に記載のサービス再開手順生成装置。
  3. サービス再開手順に対して課されるコスト要件を受け付けるコスト要件受付手段と、
    指定された手順の実施にかかるコストであって、障害復旧時間の超過に対して課されるダウンタイムコストを含む所要コストを推定する所要コスト推定手段とを備え、
    サブ手順置換手段は、前記所要時間推定手段によって推定された障害復旧手順の所要コストが前記コスト要件を満たしていない場合に、前記コスト要件を満たすように、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換える
    請求項2に記載のサービス再開手順生成装置。
  4. サブ手順置換手段は、生成された障害復旧手順をサービス再開手順の第1の候補とし、生成されたサービス再開手順の候補が所定の要件を満たすまで、当該候補に含まれるサブ手順の少なくとも一部を、再構築手順に置き換える置き換え処理を繰り返し行い、
    手順出力手段は、前記サブ手順置換手段によって所定の要件を満たすとされたサービス再開手順の候補を、サービス再開手順として出力する
    請求項1から請求項3のうちのいずれか1項に記載のサービス再開手順生成装置。
  5. サブ手順置換手段は、置き換え前後の実行時間の差が大きいものから順に置き換える
    請求項1から請求項4のうちのいずれか1項に記載のサービス再開手順生成装置。
  6. 再構築手順が、スクリプトまたはプログラムとして提供される
    請求項1から請求項5のうちのいずれか1項に記載のサービス再開手順生成装置。
  7. 所定のサブ手順格納手段に、情報システムが備えるコンポーネントに発生中の障害を復旧させるための手順であるサブ手順の情報を、コンポーネントの識別子と対応づけて格納し、
    所定の再構築手順格納手段に、前記コンポーネントを再構築するための手順である再構築手順の情報を、コンポーネントの識別子と対応づけて格納し、
    情報処理装置が、前記情報システムのコンポーネントに発生中の障害の組合せを受け付け、
    前記情報処理装置が、受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定し、
    前記情報処理装置が、特定されたサブ手順の情報に基づいて、特定されたサブ手順を接続して障害復旧手順を生成し、
    前記情報処理装置が、受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定し、
    前記情報処理装置が、生成された障害復旧手順が所定の要件を満たしていない場合に、生成された障害復旧手順に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換え、
    前記情報処理装置が、サブ手順の少なくとも一部が再構築手順に置き換えられた障害復旧手順を、サービス再開手順として出力する
    ことを特徴とするサービス再開手順生成方法。
  8. 情報システムが備えるコンポーネントに発生中の障害を復旧させるための手順であるサブ手順の情報を、コンポーネントの識別子と対応づけて格納するサブ手順格納手段と、前記コンポーネントを再構築するための手順である再構築手順の情報を、コンポーネントの識別子と対応づけて格納する再構築手順格納手段とを備えたコンピュータに、
    情報システムのコンポーネントに発生中の障害の組合せを受け付ける障害組合せ受付処理、
    受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを障害状態から復旧させるために必要なサブ手順を特定するサブ手順特定処理、
    受け付けた障害の組合せに基づいて、障害発生中のコンポーネントを再構築するために必要な再構築手順を特定する再構築手順特定処理、
    生成された障害復旧手順が所定の要件を満たしていない場合に、生成された障害復旧手順に含まれる各サブ手順の情報と、特定された再構築手順の情報とに基づいて、生成された障害復旧手順に含まれるサブ手順の少なくとも一部を、再構築手順に置き換えるサブ手順置換処理、および
    サブ手順の少なくとも一部が再構築手順に置き換えられた障害復旧手順を、サービス再開手順として出力する手順出力処理
    を実行させるためのサービス再開手順生成プログラム。
JP2015547615A 2013-11-13 2014-10-15 サービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラム Pending JPWO2015072078A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013234751 2013-11-13
JP2013234751 2013-11-13
PCT/JP2014/005217 WO2015072078A1 (ja) 2013-11-13 2014-10-15 サービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラム

Publications (1)

Publication Number Publication Date
JPWO2015072078A1 true JPWO2015072078A1 (ja) 2017-03-16

Family

ID=53057031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015547615A Pending JPWO2015072078A1 (ja) 2013-11-13 2014-10-15 サービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラム

Country Status (2)

Country Link
JP (1) JPWO2015072078A1 (ja)
WO (1) WO2015072078A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010238B2 (en) 2017-08-01 2021-05-18 Hitachi, Ltd. Management system of storage system
JP7320415B2 (ja) * 2019-09-13 2023-08-03 東芝テック株式会社 処理装置及び起動方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567937B1 (en) * 1999-11-17 2003-05-20 Isengard Corporation Technique for remote state notification and software fault recovery
JP4313823B2 (ja) * 2007-02-26 2009-08-12 株式会社日立情報システムズ 障害対応システム及び障害対応方法
JP2011076161A (ja) * 2009-09-29 2011-04-14 Nomura Research Institute Ltd インシデント管理システム
JP2011159218A (ja) * 2010-02-03 2011-08-18 Mitsubishi Heavy Ind Ltd トラブル対処支援システム、トラブル対処支援方法、及びプログラム

Also Published As

Publication number Publication date
WO2015072078A1 (ja) 2015-05-21

Similar Documents

Publication Publication Date Title
EP3593494B1 (en) Configuration generation for virtual network functions (vnfs) with requested service availability
JP7110415B2 (ja) 故障注入方法、装置、電子設備、記憶媒体、及びプログラム
US9712418B2 (en) Automated network control
US20100235807A1 (en) Method and system for feature automation
US20150058295A1 (en) Data Persistence Processing Method and Apparatus, and Database System
JP6249016B2 (ja) 障害復旧手順生成装置、障害復旧手順生成方法および障害復旧手順生成プログラム
CN110865907B (zh) 在主服务器与从服务器之间提供服务冗余的方法和系统
JP6604218B2 (ja) 試験装置、ネットワークシステム、及び試験方法
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
CN107943617B (zh) 数据的修复方法、装置及服务器集群
WO2015072078A1 (ja) サービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラム
Kumar et al. A stochastic process of software fault detection and correction for business operations
US8689048B1 (en) Non-logging resumable distributed cluster
JPWO2014061199A1 (ja) システム設計方法、システム設計装置及びシステム設計プログラム
CN111913858A (zh) 一种压力测试系统和方法
JP2007226287A (ja) システム環境再現方法およびシステム環境修正方法
US20230088318A1 (en) Remotely healing crashed processes
JP6528769B2 (ja) 情報処理装置、処理方法およびプログラム
Zhou et al. Delta execution for software reliability
Rahme et al. Preventive maintenance for cloud-based software systems subject to non-constant failure rates
JP7024804B2 (ja) システム更新装置およびシステム更新方法
Kaur et al. Review on Fault Tolerance Techniques in Cloud Computing
JP7180319B2 (ja) 情報処理装置、及び情報処理装置のダンプ管理方法
JP2012256279A (ja) 情報処理装置および方法、並びにプログラム
WO2022239060A1 (ja) システム検証装置、システム検証方法、及び、システム検証プログラム