WO2014024279A1

WO2014024279A1 - メモリ障害リカバリ装置、方法、及びプログラム

Info

Publication number: WO2014024279A1
Application number: PCT/JP2012/070250
Authority: WO
Inventors: 百々絵齋藤
Original assignee: 富士通株式会社
Priority date: 2012-08-08
Filing date: 2012-08-08
Publication date: 2014-02-13

Abstract

　本発明の実施形態は、メモリ障害からのリカバリを行うことを目的とする。　一実施形態は、メモリに障害が発生した場合に、前記メモリに存在するソフトウエアのリカバリを行う装置であって、前記ソフトウエアがロードされた複数のメモリ領域の各々に対応させて、リカバリ手順を定めたリカバリテーブルを生成する、リカバリテーブル生成部と、障害の位置を特定する、障害位置特定部と、前記リカバリテーブルを用いて、前記障害の位置を含むメモリ領域に対応したリカバリ手順を特定する、リカバリ特定部と、前記特定されたリカバリ手順を実行する、リカバリ実行部と、を有する装置を提供する。

Description

メモリ障害リカバリ装置、方法、及びプログラム

　本発明は、メモリ障害からのリカバリを行う装置、方法、及びプログラムに関する。

　近年のクラウドコンピューティングや、サーバ統合を支援する技術として、仮想化機能が活発に利用されている。この仮想化機能は、仮想マシンやハードウエアの物理構成を意識させないダイナミックパーティション機能が含まれる。仮想化機能を実現する一つの手段としてハイパーバイザが使用されてきた。

　図１は、仮想化機能をハイパーバイザで実現しているシステムの構成例を示している。図１に示されるように、オペレーティングシステム１（ＯＳ１）は、物理的に分離されたシステムボード１とシステムボード２の上で動作している。システムボード１は、メモリ１、ＣＰＵ１、及びＣＰＵ２を有している。また、システムボード２は、メモリ２，ＣＰＵ３、及びＣＰＵ４を有している。また、システムボード３の上でＯＳ２が動作している。システムボード３は、メモリ３、ＣＰＵ５、及びＣＰＵ６を有している。ハイパーバイザは、このようなシステムを構築するために、ＣＰＵやメモリなどのハードウエアを管理し、かつ、ＯＳ１及びＯＳ２が仮想マシンとして動作できる環境を提供している。

　ハイパーバイザは、ハードウエアと基本ソフトウエアであるオペレーティングシステムなどを集中的に管理している。このため、ハイパーバイザを安定的に動作させることは、極めて重要である。例えば、ハイパーバイザが動作するメモリで、訂正不可能な故障（UE:　Uncorrectable　Error）が発生すると、ハイパーバイザは、リカバリ（復旧）不能状態となることがある。この場合、そのハイパーバイザの管理の下で動作している全ての仮想マシン（論理ドメイン）が停止してしまう可能性がある。このようなＵＥに起因するシステム障害は、ハイパーバイザに限らず、ＯＳや、ＯＳ上で動作するアプリケーションプログラムにおいても同様に発生し、システムダウンにつながることもある。

　特に、ハイパーバイザにおけるＵＥの発生は、パイパーバイザが管理する複数の仮想マシンに障害が波及する。ハイパーバイザに限らず、ＯＳやアプリケーションプログラムにおいても、上述のようにＵＥの発生は深刻な問題を引き起こす。したがって、このようなＵＥに対してフォールトトレラントなシステムを構築することが求められている。

　ＵＥに係るハイパーバイザの障害を回避する手段の一つとして、ハイパーバイザで使用するメモリをミラーリングする技術がある。このミラーリングによりメモリにおけるＵＥに係るシステムダウンを抑止できる可能性を増大させることができる。なお、ミラーリングはメモリを２倍消費してしまう。ハイパーバイザがメモリを大量に消費してしまうことは、他のソフトウエアに利用できるメモリを減少させてしまうため、システム全体の性能低下に繋がる可能性がある。このために、メモリの消費を抑えつつ、ＵＥに係る障害に対してフォールトトレランスを高めることも望まれている。

　磁気ディスク等の記憶装置でプログラム及びデータをバックアップしている方式を利用し、主記憶装置で読出し障害が発生した場合、該当アドレスのプログラム又は読出し専用データを補助記憶装置から主記憶装置に読上げて再書き込みを行うことで、障害を修復し処理を継続する技術が存在する（例えば、特許文献1参照）。

　メモリに発生したＥＣＣエラーが誤り訂正可能なエラーでない場合、仮想マシンモニタが、ゲストＯＳのメモリ領域の状態を直前のチェックポイントに対応する時点に復元すると共に、仮想マシンモニタは、誤り訂正可能ではないエラーが発生した仮想ページアドレス用に、障害時代替用メモリ領域の空き物理ページを割り当て、誤り訂正可能ではないエラーが発生した仮想ページアドレスに対応するページテーブルのエントリに、空き物理ページのページアドレスを設定する技術が存在する（例えば、特許文献２参照）。

特開昭６１－１９３５９１号公報特開２００９－２４５２１６号公報

　１つの側面では、本発明は、メモリ障害からのリカバリを行うことを目的とする。

　一実施形態は、メモリに障害が発生した場合に、前記メモリに存在するソフトウエアのリカバリを行う装置であって、前記ソフトウエアがロードされた複数のメモリ領域の各々に対応させて、リカバリ手順を定めたリカバリテーブルを生成する、リカバリテーブル生成部と、障害の位置を特定する、障害位置特定部と、前記リカバリテーブルを用いて、前記障害の位置を含むメモリ領域に対応したリカバリ手順を特定する、リカバリ特定部と、前記特定されたリカバリ手順を実行する、リカバリ実行部と、を有する装置を提供する。

　一態様によれば、メモリ障害からのリカバリを簡便に行うことができ、システムの信頼性を向上させることができる。

仮想化機能をハイパーバイザで実現しているシステムの構成例を示す図である。一実施形態のメモリ障害に係るソフトウエアのリカバリ処理の概要を示す図である。一実施形態のリカバリの際に用いられるテーブル類を示す図である。一実施形態におけるリカバリテーブルを生成するためのフローチャートである。一実施形態におけるリカバリを示す図である。一実施形態の機能ブロック図である。一実施形態におけるリカバリルーチンの処理を示す図である。一実施形態におけるリカバリルーチンの処理の他の例を示す図である。一実施形態におけるソフトエアのアップデートの際のリカバリテーブルの更新の例を示す図である。一実施形態のハードウエアの構成を示す図である。一実施形態のメモリ構成を示す図である。

　以下に、図面を用いて本発明の実施形態を詳細に説明する。なお、以下の実施形態は、発明を理解するためのものであり、本発明の範囲を限定するためのものではない点に留意すべきである。また、以下の複数の実施形態は、相互に排他的なものではない。したがって、矛盾が生じない限り、異なる実施形態の各要素を組み合わせることも意図されていることに留意すべきである。また、請求項に記載された方法やプログラムに係る発明は、矛盾のない限り処理の順番を入れ替えてもよく、あるいは、複数の処理を同時に実施してもよい。そして、これらの実施形態も、請求項に記載された発明の技術的範囲に包含されることは言うまでもない。

　また、コンピュータが読み出したプログラムコードを実行することにより、後述の実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働している管理ソフトウエア、ファームウエア、ＢＩＯＳ、ＯＳなどの他のプログラムが実際の処理の一部または全部を行ない、その処理によって実施形態の機能が実現される場合も、本発明に含まれることは言うまでもない。

　本明細書では、ハイパーバイザの例示として、ハードウエア資源とＯＳとの間で機能するハイパーバイザを取り上げている。しかしながら、ハイパーバイザはこれに限られるものではない。ハイパーバイザは、特定のＯＳなどの管理プログラムの管理の下で動作するハイパーバイザであってもよいことは言うまでもない。

　また、本発明は、ハイパーバイザに係るメモリ障害に限定されるものではない。すなわち、本発明は、種々のＯＳ（オペレーティングシステム）、アプリケーションプログラムにも適用できることは言うまでもない。加えて、本発明の実施形態は、メモリ上にロードされたデータそのもののリカバリに適用されてもよい。したがって、本明細書において、使用する「ソフトエア」は、ハイパーバイザ、ＯＳ、アプリケーションプログラム、データ等を含む点に留意すべきである。

　図２は、一実施形態のメモリ障害に係るソフトウエアのリカバリ処理の概要を示す図である。

　図２（Ａ）は、一実施形態のメモリ障害に係るソフトウエアのリカバリ処理の概要を示すフローチャートである。

　このリカバリ処理は、メモリ障害の発生（２０２）によって起動され得る。メモリ障害の発生の検知は、例えば、メモリ自体にハードウエア的に備えられたＥＣＣによるメモリエラー検出による割り込み処理を契機に開始させてもよい。あるいは、ハイパーバイザ自身がソフトウエア的に検出したＣＲＣチェックにより、メモリから読み出された情報の異常の検出により、このリカバリ処理が開始されてもよい。

　ステップ２０４において、メモリの障害位置を特定する。メモリの障害位置は、具体的なメモリアドレスであってもよい。上述のＣＲＣチェックによるソフトウエア的なメモリ障害のチェックの場合には、障害位置としてメモリの範囲が特定されてもよい。あるいは、メモリの所定のメモリサイズ単位毎にキー情報１１５０（メモリ情報保存部に対応する）を設定できるサーバアーキテクチャを採用している場合（図１１参照）には、キー情報１１５０として、メモリ領域の領域ＩＤ３１２（図３（Ｂ）参照）を識別できる情報を格納しておき、識別されたメモリ領域の領域ＩＤ３１２に対応するリカバリ手順３１６を後述のリカバリテーブル３１０（図３（Ｂ））から検索して、検索されたリカバリ手順３１６を実行してもよい（後述のステップ２１２）。

　ステップ２０６において、メモリ障害位置に対応する、所定のリカバリ手順を特定する。リカバリ手順の特定にあたっては、後述するリカバリテーブル３１０（図３（Ｂ））を参照してもよい。

　ステップ２０８において、メモリの障害が固定障害か、間欠障害かを判断してもよい。たとえば、過去のメモリ障害アドレスを記憶しておき、同一のメモリアドレス（又は同一の領域）において障害が所定の回数発生した場合、このメモリアドレス（又は領域）のメモリを固定障害であると判断してもよい。なお、メモリが固定障害であるか否かの判断は、判断規則として所定の規則を予め定めておいてもよい。判断規則は、システム（ハードウエア又はソフトウエア）毎に異なっていてもよい。この判断が「はい」であれば、ステップ２１０に進む。この判断が「いいえ」であれば、ステップ２１２に進む。

　ステップ２１０において、メモリが固定障害であると判断されているため、このアドレスを含む、予め定められた領域に対して、代替メモリ領域を割当てることが望ましい。代替メモリ領域を割り当てるアドレスの範囲として、図３（Ｂ）に示すリカバリテーブル内の領域指定情報（３１４，３１５）に示される開始アドレス３１４と領域長３１５で定義される領域を用いてもよい。そして、代替メモリ領域が割り当てられた場合には、代替メモリ領域のアドレスに基づいてリカバリテーブルの対応する開始アドレス３１４を更新してもよい。なお、図３（Ｂ）に示されるリカバリテーブルの詳細については後述する。

　ステップ２１２において、特定されたリカバリ手順が実行される。リカバリ手順の検索については、図５を用いて後述する。また、リカバリ手順の具体例については、下記表１を用いて後述する。

　ステップ２１４において、一連のリカバリが終了する。上述のステップにおいて、リカバリが成功すれば、ハイパーバイザは、本来実行すべき処理を継続してもよい。上述のステップにおいて、リカバリが成功しない場合も想定される。この場合には、異常処理としてシステム全体の再起動を行ってもよい。なお、再起動の際には、バックアップデータやスナップショットを活用し、可能な限り、リカバリは、メモリ障害前に近いシステムの状態にすることが望ましい。本実施例において、リカバリが行えないケースの例については、図３（Ａ）において説明する。本発明の実施例では、メモリ障害に対してリカバリが行えないケースの発生を極力減少させることができ、システムのフォールトトレランスを向上させることができる。

　図２（Ｂ）は、リカバリ手順等の情報を含むリカバリテーブルの生成の概略を示すフローチャートである。

　ステップ２２２において、システムの立ち上げの指示に応答して、ソフトウエア（例えばハイパーバイザのプログラムコード）が、ＲＯＭ等からＲＡＭにロードされる。

　ステップ２２４において、ロードされたソフトウエアの各要素のアドレス情報に基づいて、リカバリテーブル３１０が生成される。このリカバリテーブル３１０は、上述の図２（Ａ）のステップ２０６において、リカバリ手順３１６を特定する際に用いられるテーブルである。

　ステップ２２６において、ソフトウエアが起動され、実行される。

　上述のように、リカバリテーブルの生成は、ソフトウエア（例えば、ハイパーバイザ）の起動時において、ソフトウエアコードがメモリへロードされる際に行われることが望ましい。

　次に、ハイパーバイザを例にして、ハイパーバイザの複数の構成要素のリカバリのタイプ、及びリカバリの具体例について表１を用いて説明する。

　表１は、ハイパーバイザを構成する各要素に適用できるリカバリタイプを示している。リカバリ種別の欄には、リカバリのタイプを識別するための名前が付けられている。要素の欄には、ハイパーバイザを構成する要素のうち、定義されたタイプに対応する要素が示されている。リカバリ手順には、リカバリの手順の概要が示されている。リカバリ手順は、例えば、所定のリカバリルーチンで実行されてもよい。

　リカバリタイプ１では、ハイパーバイザの要素として、ハイパーバイザ自身のコード部が対応付けられている。そして、この要素に対するリカバリ手順は、ＲＯＭから対応する要素を読み出してリカバリを行うことが明記されている。すなわち、ハイパーバイザ自身のプログラムコード部は、書き換えられることがないからである。この場合には、例えばＲＯＭに格納されているプログラムコードを再度読み出して上書きすることにより、リカバリを行うことができる。なお、ハイパーバイザがアップデートされる場合には、プログラムコード部分が変更される。この場合の対処については、図９を用いて説明する。

　リカバリタイプ２では、ハイパーバイザの要素として、再作成可能なデータに対応付けられている。例えば、この例としては、ハイパーバイザが用いる定数など、書き換わることがないデータが挙げられる。このような、書き換わることがないデータに関しては、例えば、ハイパーバイザ自身が、データを再度作成すればよい。例えば、ハイパーバイザがデータを初期化することによって、データのリカバリを行ってもよい。

　リカバリタイプ３では、ハイパーバイザの要素として、他コンポーネントから取得可能なデータが対応付けられている。他コンポーネントとは、例えば、オペレーティングシステム、ファームウエア、仮想化技術を使っている他のソフトウエア（例：Ｌｄｏｍ）、システム監視機構（例：ＸＳＣＦ）などが挙げられる。このような他のコンポーネントが持っているデータ（例えば、ＯＳのバージョン情報、ＯＳの物理メモリ確保のための設定値等）を取得して、ハイパーバイザが利用している場合、そのデータが破壊された場合には、そのデータを、そのコンポーネント（ＯＳ）から再度取得することにより、障害のあるデータのリカバリが可能である。例えば、具体的な手順は以下の通りである。
（１）他コンポーネントとハイパーバイザ間のインタフェースを用意する。このインタフェースとしては、例えば、他のコンポーネントとの間のプログラム間通信を確立してもよい。
（２）ハイパーバイザから相手先コンポーネントにデータを指定して提供を要求する。
（３）相手先コンポーネントは要求されたデータを上記のインタフェースを使用してハイパーバイザに送信する。
（４）ハイパーバイザは取得したデータを使って対象データのリカバリが行われる。

　リカバリは、以下のような処理を行ってもよい。
（ｉ）リカバリ実行の宣言
　リカバリ実行の開始にあたって、リカバリ実行中であることを、ハイパーバイザが宣言（リカバリ宣言）することが望ましい。ハイパーバイザがリカバリ実行中は、ＣＰＵをサスペンドさせることが望ましい。例えば、メモリ障害の部分のプログラムコードの実行による障害の波及を避けることが望ましい。なお、ハイパーバイザは、複数の論理ＣＰＵ上で動作していることもある。ハイパーバイザ内でリカバリ実行中の宣言を検出したＣＰＵは、ビジー応答を返し、リカバリ宣言解除までサスペンドする等の動作を行わせることが望ましい。リカバリ宣言の方法としては、例えば、全ＣＰＵが共通にアクセスできるグローバル変数を、リカバリ宣言用のフラグとして定義しておいてもよい。ハイパーバイザ起動時にその変数を確認する。そして、ＣＰＵサスペンド状態の管理にグローバル変数を用いてもよい。或いは、ＣＰＵ呼び出し機能が存在する場合には、このＣＰＵ呼び出し機能を使用して積極的に他ＣＰＵをハイパーバイザ空間に遷移させる方法を用いてもよい。

　リカバリが完了したら、ログを取得してもよい。また、リカバリの完了によって、リカバリ宣言を解除する。そして、本来の処理を再開させる。

　図３は、一実施形態のリカバリの際に用いられるテーブル類を示す図である。

　図３（Ａ）は、リカバリテーブル３１０（図３（Ｂ））の生成の際に用いられるソフトウエア構成情報３００を例示している。ソフトウエア構成情報３００は、テーブル形式で記憶部（例：ＲＡＭ、ＨＤＤ等）に格納されてもよい。図３（Ａ）に示すソフトウエア構成情報３００は、特定のソフトウエアの構成を示したものである。ソフトウエア構成情報３００は、例えば、ソフトウエアがコンパイルされる際（又はアップデートされる際）に生成されてもよく、以下の情報を含んでもよい。

　図３（Ａ）における領域ＩＤは、ソフトウエア（例えばハイパーバイザ）を構成する連続した部分のうち、表１のリカバリ種別が同じである領域に対応付けて付与されてもよい。この領域ＩＤによって、ソフトウエアを構成する複数の要素の各々を、メモリ上で一意に特定することができる。領域ＩＤは、単純な連続番号であってもよい。リザーブ（Ｒｅｓｅｒｖｅ）３０４は、リザーブされたエントリである。リザーブ３０４は、無くてもよいが、後述するリカバリテーブル３１０（図３（Ｂ））の生成の際に、ソフトウエア構成情報３００の生成を単純化させるために設けられたものである。領域長３０５は、ソフトウエアの要素の長さを示す。領域長３０５によって、領域ＩＤ３０２で特定されるソフトウエアの要素がメモリ上で占める領域の長さを把握することができる。リカバリ手順３０６は、リカバリルーチンのアドレスが格納されてもよい。なお、リカバリルーチンのアドレスと共に、リカバリルーチンの実行に必要な１つ以上の引数が格納されてもよい。あるいは、複数のリカバリ手順の方法を定義しておき、リカバリルーチンのアドレスに代えて、予め定義されたリカバリ手順そのものが格納されてもよい。また、例えば、表１に示したリカバリタイプが格納されてもよい。加えて、リカバリタイプを実行するために必要な情報（例：コンポーネントの指定）を併せて格納してもよい。リカバリ可否フラグ３０８は、リカバリが可能か否かを示す情報である。例えば、この値が「ＯＫ」であれば、リカバリが行えることを示す。この値が「ＮＧ」であれば、リカバリが行えないことを示す。リカバリが行えないケースとしては、プログラムの実行中に動的に変更さ得るデータ、待避データがないデータ、再作成が不可能なデータ等が挙げられる。なお、このようなデータは、バックアップ又はスナップショットなどのデータからリカバリできる可能性がある。すなわち、バックアップ又はスナップショット取得時期と、この取得時期以降に該当するデータが変更されたか否かの情報から、リカバリが成功する場合がある。このようなアーキテクチャを持つハイパーバイザの場合には、このようなデータに対するリカバリ可否フラグを「ＯＫ」又は「条件付ＯＫ」に設定してもよい。なお、リカバリ可否フラグが「ＮＧ」であれば、対応するリカバリ手順のエントリは「空」であってもよい。

　図３（Ｂ）は、リカバリテーブル３１０を例示する図である。リカバリテーブルは、プログラム（例：ハイパーバイザ）が、メモリにロードされる際に生成されることが望ましい。また、ハイパーバイザがアップデートされる際に、再度生成されることが望ましい。リカバリテーブル３１０は、ソフトウエア構成情報３００を基にして生成される。なお、リカバリテーブルを生成する例については、図４を用いて後述する。

　図３（Ｂ）において、領域ＩＤ３１２、領域長３１５、リカバリ可否フラグ３１８については、図３（Ａ）に示したソフトウエア構成情報３００と同じ情報が格納され得る。開始アドレス３１４は、領域ＩＤに対応するソフトウエアの要素のメモリ上での開始アドレスが格納される。開始アドレス３１４と領域長３１５と（領域特定情報）に基づいて、領域ＩＤに対応するソフトウエアの要素が、メモリ上のどの領域に存在するかが把握できる。なお、開始アドレス３１４と領域長３１５から計算される終了アドレスを、領域長３１５の代わりに格納してもよい。

　図４は、一実施形態におけるリカバリテーブル３１０を生成するためのフローチャートを示している。図３を用いて説明したように、リカバリテーブル３１０は、ソフトウエア構成情報３００に基づいて生成されてもよい。

　ステップ４０２において、まず、ソフトウエア構成情報３００のエントリ数（ｎ）に基づいて、メモリ上にリカバリテーブル３１０の領域を取得する。

　ステップ４０４において、ソフトウエア構成情報３００の情報をリカバリテーブル３１０にコピーする。

　ステップ４０６において、リカバリテーブル３１０の先頭エントリ（第１のエントリ）を注目エントリとする。注目エントリとは、以下のステップを実行する対象のエントリを意味する。

　ステップ４０８において、注目エントリに対応するソフトウエアの要素の、メモリ上での先頭アドレスを取得し、開始アドレス３１４として登録する。なお、上述のように、開始アドレス３１４と領域長３１５から計算される終了アドレスを、領域長３１５の代わりに格納してもよい。

　ステップ１０において、注目エントリのリカバリルーチンのアドレスを修正する。リカバリルーチンのアドレスが、相対アドレスで表現されている場合には、ソフトウエア構成情報３００の先頭アドレスとリカバリテーブル３１０の先頭アドレスの差に基づいて、リカバリルーチンの相対アドレスを適切な値に修正する。或いは、リカバリルーチンのアドレスを適切な物理アドレスに設定してもよい。なお、リカバリルーチンのアドレスが絶対アドレスで表現されているのであれば、この修正は行う必要がない。

　ステップ４１２において、注目エントリが最終エントリか否かがチェックされる。このチェック結果が「はい」であれば、リカバリテーブルの全てのエントリの処理が終わったことを示しているため、処理を終了してもよい。このチェック結果が「いいえ」であれば、ステップ４１４に進む。

　ステップ４１４において、次のエントリを注目アドレスとする。そして、ステップ４０８に戻る。

　以上の処理によって、リカバリテーブル３１０が生成される。

　図５は、一実施形態におけるリカバリのフローチャートを示している。

　この処理は、メモリの障害のイベントを検知した割り込みにより起動されてもよい。

　ステップ５０２において、リカバリテーブル３１０の先頭のエントリを注目エントリとする。

　ステップ５０４において、障害アドレスが、注目エントリの領域特定情報（３１４，３１５）の中に含まれるか否かがチェックされる。このチェック結果が「はい」であれば、処理は、ステップ５０８に進む。このチェック結果が「いいえ」であれば、処理は、ステップ５０６に進む。

　ステップ５０８において、リカバリ可能か否かがチェックされる。このチェックは、リカバリテーブル３１０のリカバリ可否フラグを参照することによって、判断されてもよい。このチェック結果が「はい」であれば、処理は、ステップ５１０に移る。このチェック結果が「いいえ」であればステップ５２２に移る。

　ステップ５１０において、リカバリ手順の実行がなされる。リカバリ手順の具体例については、上記表１を用いて説明した。その後、処理は、ステップ５２１において終了する（終了１）。この場合には、リカバリが成功したため、ソフトウエアの本来の処理を続行することができる。

　ステップ５０６において、注目エントリが最終エントリであるか否かがチェックされる。このチェックが「はい」であれば、ステップ５２２に移る。チェック結果が「いいえ」であれば、ステップ５１２に移る。

　ステップ５２２において、処理は終了する（終了２）。この場合の終了は、リカバリが不成功に終わった場合に該当する。したがって、例えば、プログラムの再起動を行うことが望ましい。また、プログラムがハイパーバイザである場合には、ハイパーバイザ上で動作している全てのＯＳの再立ち上げを併せて行うことが望ましい。或いは、バックアップ又はスナップショットが保存されているシステムにおいては、これらを利用して、リストアを行い、メモリ障害の影響を最小限に止めることが望ましい。なお、本実施例では、終了２（ステップ５２２）に至る可能性を少なくし、リカバリを行うケースを増大させ、低コストでメモリ障害からのリカバリを行うことができるという利点がある。

　ステップ５１２において、リカバリテーブル３１０の次のエントリを注目エントリとする。そして、処理はステップ５１４に戻る。

　図６は、一実施形態の機能ブロック図を示している。

　一実施形態のシステムは、リカバリテーブル生成部６０２、障害検知部６２０、障害位置特定部６３０、リカバリ特定部６４０、リカバリ実行部６５０、ソフトウエア構成情報３００、及びリカバリテーブル３１０を有する。

　リカバリテーブル生成部６０２は、ソフトウエア構成情報３００に基づいて、リカバリテーブル３１０を生成してもよい。また、リカバリテーブル生成部６０２は、リカバリテーブル更新部６１０を更に含んでもよい。ソフトウエアが更新された場合には、ソフトウエア構成情報３００も併せて更新されることが望ましい。そして、リカバリテーブル更新部６１０は、ソフトウエアが更新された場合に、更新されたソフトエア構成情報３００に基づいて、リカバリテーブルを更新する。

　障害検知部６２０は、メモリの障害を検知し、割り込みを発生させてもよい。或いは、ソフトウエア（例：ハイパーバイザ）自身がＣＲＣチェックを行い、メモリ障害を検出してもよい。メモリ障害の検出は、障害位置特定部６３０に伝達されてもよい。

　障害位置特定部６３０は、障害の発生したメモリ位置を特定する。或いは、障害の発生しているアドレスを含むメモリ領域が検出されてもよい。検出された障害位置は、リカバリ特定部６４０に送られる。

　リカバリ特定部６４０は、障害位置を用いて、リカバリテーブル３１０を検索し、リカバリ手順３１６を特定する。また、リカバリ特定部６４０は、リカバリ可否判断部６４２及び固定障害認定部６４６を含んでもよい。リカバリ可否判断部６４２は、故障位置を用いてリカバリテーブル３１０を検索した際に、リカバリ可否フラグ３１８を参照し、リカバリの可否を判断する。リカバリが可能であれば、特定されたリカバリの情報をリカバリ実行部６５０に渡す。また、固定障害認定部６４６は、所定の回数同じメモリアドレスで障害が発生したか否かをチェックする。メモリの固定障害が認定された場合には、後述のように代替メモリ領域の割当が代替メモリ割当部６５２で行われる。メモリの固定障害ではない場合（間欠障害）と判定された場合には、障害の検出されたアドレスのメモリは、その後も利用されてもよい。リカバリ実行部６５０は、特定されたリカバリ手順を実行する。リカバリ手順３１６は、リカバリルーチンにより実行されてもよい。リカバリ実行部６５０は、代替メモリ割当部６５２を含んでもよい。代替メモリ領域が割り当てられた場合には、リカバリテーブル３１０の開始アドレス３１４（及び終了アドレス）を更新することが望ましい。そして、代替メモリ領域が割り当てられた後に、リカバリの実行を行う。

　図７は、一実施形態におけるリカバリルーチンの処理を示す図である。リカバリのためのリカバリルーチンの数は、最大で、リカバリテーブルのエントリ数（ｎ）だけ存在してもよい。表１に示すように、リカバリのタイプの数だけ、リカバリルーチンを用意してもよい。この場合、リカバリルーチンの数は、ｎよりも少なくなる。

　ステップ７０２において、リカバリテーブルのリカバリ手順に記憶されているリカバリルーチンアドレスに基づいて、リカバリルーチンに処理を分岐させる。図７には、リカバリルーチン１（７１２）、リカバリルーチン３（７１４）、及びリカバリルーチンｎ（７１６）が示されている。

　図８（Ａ）は、一実施形態におけるリカバリテーブルの例を示す図である。リカバリ手順８１６には、リカバリのタイプに応じて、リカバリタイプ１（８６２）、リカバリタイプ２（８６４）、及びリカバリタイプ３（８６６）のリカバリルーチンのアドレスが格納されてもよい。或いは、リカバリルーチンのアドレスに代えて、リカバリのタイプを識別する情報が格納されてもよい。この識別する情報を用いて、適切なリカバリ手順を実行すればよい。なお、リカバリテーブルの領域ＩＤ８１２、開始アドレス８１４、領域長８１５，リカバリフラグ８１８は、図３（Ｂ）と同じである。

　図８（Ｂ）は、一実施形態におけるリカバリルーチンの処理を示す図である。

　ステップ８５２において、リカバリタイプに応じたリカバリルーチンアドレスの指定が行われる。リカバリ手順８１６にリカバリルーチンのアドレスが設定されている場合には、そのアドレスに基づいて、リカバリタイプ１のリカバリルーチン（８６２）、リカバリタイプ２のリカバリルーチン（８６４）、リカバリタイプ３のリカバリルーチン（８６６）のいずれかに、処理を分岐させればよい。或いは、リカバリ手順８１６にリカバリタイプが設定されている場合には、リカバリタイプに応じて、リカバリタイプ１のリカバリルーチン（８６２）、リカバリタイプ２のリカバリルーチン（８６４）、リカバリタイプ３のリカバリルーチン（８６６）のいずれかに、処理を分岐させればよい。

　図９は、ソフトエアのアップデートの際のリカバリテーブルの更新の例を示す図である。ソフトウエアが更新された場合には、ソフトエアの構成が変化するため、リカバリテーブルを更新することが望ましい。

　ステップ９０２において、ソフトウエアのアップデートがなされる。

　ステップ９０４において、ソフトウエアのアップデートに適合させて、ソフトウエア構成情報３００の更新を行う。なお、ソフトウエアのアップデートの際にソフトウエア構成情報３００の更新が同時になされてもよい。

　ステップ９０６において、ソフトウエアのアップデートに応じてリカバリテーブル３１０の更新を行う。なお、リカバリテーブル３１０の更新において、リカバリテーブルの容量が増える場合には、新たにリカバリテーブル３１０の領域確保を行い、リカバリテーブル３１０を再度生成し直してもよい。

　図１０は、一実施形態のハードウエアの構成を示す図である。ハードウエアは、ＣＰＵ１００２、メモリ１００４、入出力装置１００６、表示装置１００８、ハードディスク１０１０、記録媒体駆動装置１０１２、が含まれる。そして、それぞれの機器は、バス１０１６によって接続されている。また、記録媒体駆動装置１０１２は、可搬記録媒体１０１４を読み書きすることができる。

　本ハードウエアは、図６に示す各機能が実装されてもよい。また、本ハードウエアによって、図面に記した各フローチャートの処理が実行されてもよい。

　なお、本実施形態の全部又は一部はプログラムによってインプリメントされ得る。このプログラムは、可搬記録媒体１０１４に格納することができる。可搬記録媒体１０１４とは、構造（ｓｔｒｕｃｔｕｒｅ）を有する１つ以上の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）な、有形（ｔａｎｇｉｂｌｅ）な、記録媒体を言う。例示として、可搬記録媒体１０１４としては、磁気記録媒体、光ディスク、光磁気記録媒体、不揮発性メモリなどがある。磁気記録媒体には、ＨＤＤ、フレキシブルディスク（ＦＤ）、磁気テープ（ＭＴ）などがある。光ディスクには、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＤＶＤ－ＲＡＭ、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ－Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＣＤ－Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。また、光磁気記録媒体には、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）などがある。可搬型記録媒体に格納されたプログラムが読み込まれ、プロセッサによって実行されることにより、本発明の実施形態の全部又は一部が実施され得る。

　図１１は、一実施形態のメモリ構成を示す図である。図１１に示すメモリ１１００は、メモリの所定のメモリサイズ単位毎にキー情報１１５０を設定できるサーバアーキテクチャを採用している。例えば、メモリ単位１１０１には、キー情報１１５１が対応している。また、メモリ単位１１０７には、キー情報１１５７が対応している。例えば、キー情報１１５０に、リカバリテーブル３１０の対応する領域ＩＤ３１２を格納してもよい。この場合、例えば、メモリ単位１１０１においてメモリ障害が発生した場合、対応するキー情報１１５１に格納されている領域ＩＤ３１２を取得してもよい。この取得された領域ＩＤ３１２から、リカバリテーブル３１０を検索し、対応するリカバリ手順３１６を取得してもよい。

Claims

　メモリに障害が発生した場合に、前記メモリに存在するソフトウエアのリカバリを行う装置であって、
　前記ソフトウエアがロードされた複数のメモリ領域の各々に対応させて、リカバリ手順を定めたリカバリテーブルを生成する、リカバリテーブル生成部と、
　障害の位置を特定する、障害位置特定部と、
　前記リカバリテーブルを用いて、前記障害の位置を含むメモリ領域に対応したリカバリ手順を特定する、リカバリ特定部と、
　前記特定されたリカバリ手順を実行する、リカバリ実行部と、
　を有する装置。
　前記リカバリテーブルは、前記リカバリ手順を実行するリカバリルーチンの実行アドレスを含む、請求項１記載の装置。
　前記リカバリテーブル生成部は、前記ソフトウエアが更新された場合に、前記リカバリテーブルを更新する、リカバリテーブル更新部を含む、請求項１又は２記載の装置。
　前記リカバリテーブルは、複数のメモリ領域の各々に対応させて、リカバリが可能か否かを表す情報を含む、請求項１ないし３のうちいずれか１項記載の装置。
　前記リカバリ特定部は、同一のメモリ領域において、障害が所定の回数発生した場合に、前記メモリ領域を固定障害と認定する、固定障害認定部を含み、
　前記リカバリ実行部は、前記固定障害認定部の認定した前記メモリ領域に対する代替メモリ領域を、前記ソフトウエアに割り当てる、代替メモリ割当部を含み、前記代替メモリ領域を割り当てた後に、前記リカバリ手順を実行する、
　請求項１ないし４のうちいずれか１項記載の装置。
　前記リカバリ特定部は、
　前記メモリ領域を識別する情報を、前記メモリの所定のサイズのメモリの各々に設けられたメモリ情報保存部に格納することにより、前記所定のサイズのメモリにおいて障害が発生した場合、障害の発生した所定のサイズのメモリに対応する前記メモリ情報保存部に格納された前記メモリ領域を識別する情報を用いて、前記リカバリテーブルを検索することにより、対応するリカバリ手順を特定する、請求項１ないし５のうちいずれか１項記載の装置。
　前記ソフトウエアは、ハイパーバイザである、請求項１ないし６のうちいずれか１項記載の装置。
　前記リカバリ手順は、前記ソフトウエアとは異なる他のコンポーネントから情報を取得する、請求項１ないし７のうちいずれか１項記載の装置。
　メモリに障害が発生した場合に、前記メモリに存在するソフトウエアのリカバリを行う方法であって、
　前記ソフトウエアがロードされた複数のメモリ領域の各々に対応させて、リカバリ手順を定めたリカバリテーブルを生成し、
　障害の位置を特定し、
　前記リカバリテーブルを用いて、前記障害の位置を含むメモリ領域に対応したリカバリ手順を特定し、
　前記特定されたリカバリ手順を実行する、
　処理を有する方法。
　前記リカバリテーブルは、前記リカバリ手順を実行するリカバリルーチンの実行アドレスを含む、請求項９記載の方法。
　前記リカバリテーブルを生成する処理は、前記ソフトウエアが更新された場合に、前記リカバリテーブルを更新する処理を含む、請求項９又は１０記載の方法。
　前記リカバリテーブルは、複数のメモリ領域の各々に対応させて、リカバリが可能か否かを表す情報を含む、請求項９ないし１１のうちいずれか１項記載の方法。
　前記リカバリ手順を特定する処理は、同一のメモリ領域において、障害が所定の回数発生した場合に、前記メモリ領域を固定障害と認定する処理を含み、
　前記リカバリ手順を実行する処理は、前記固定障害を認定する処理が認定した前記メモリ領域に対する代替メモリ領域を、前記ソフトウエアに割り当てる処理を含み、前記代替メモリ領域を割り当てた後に、前記リカバリ手順を実行する、
　請求項９ないし１２のうちいずれか１項記載の方法。
　前記リカバリ手順を特定する処理は、
　前記メモリ領域を識別する情報を、前記メモリの所定のサイズのメモリの各々に設けられたメモリ情報保存部に格納することにより、前記所定のサイズのメモリにおいて障害が発生した場合、障害の発生した所定のサイズのメモリに対応する前記メモリ情報保存部に格納された前記メモリ領域を識別する情報を用いて、前記リカバリテーブルを検索することにより、対応するリカバリ手順を特定する、請求項９ないし１３のうちいずれか１項記載の方法。
　前記ソフトウエアは、ハイパーバイザである、請求項９ないし１４のうちいずれか１項記載の方法。
　前記リカバリ手順は、前記ソフトウエアとは異なる他のコンポーネントから情報を取得する、請求項９ないし１５のうちいずれか１項記載の方法。
　メモリに障害が発生した場合に、前記メモリに存在するソフトウエアのリカバリを行う方法であって、
　前記ソフトウエアがロードされた複数のメモリ領域の各々に対応させて、リカバリ手順を定めたリカバリテーブルを生成し、
　障害の位置を特定し、
　前記リカバリテーブルを用いて、前記障害の位置を含むメモリ領域に対応したリカバリ手順を特定し、
　前記特定されたリカバリ手順を実行する、
　処理をコンピュータに実行させるプログラム。
　前記リカバリテーブルは、前記リカバリ手順を実行するリカバリルーチンの実行アドレスを含む、請求項１７記載のプログラム。
　前記リカバリテーブルを生成する処理は、前記ソフトウエアが更新された場合に、前記リカバリテーブルを更新する処理を含む、請求項１７又は１８記載のプログラム。
　前記リカバリテーブルは、複数のメモリ領域の各々に対応させて、リカバリが可能か否かを表す情報を含む、請求項１７ないし１９のうちいずれか１項記載のプログラム。
　前記リカバリ手順を特定する処理は、同一のメモリ領域において、障害が所定の回数発生した場合に、前記メモリ領域を固定障害と認定する処理を含み、
　前記リカバリ手順を実行する処理は、前記固定障害を認定する処理が認定した前記メモリ領域に対する代替メモリ領域を、前記ソフトウエアに割り当てる処理を含み、前記代替メモリ領域を割り当てた後に、前記リカバリ手順を実行する、
　請求項１７ないし２０のうちいずれか１項記載のプログラム。
　前記リカバリ手順を特定する処理は、
　前記メモリ領域を識別する情報を、前記メモリの所定のサイズのメモリの各々に設けられたメモリ情報保存部に格納することにより、前記所定のサイズのメモリにおいて障害が発生した場合、障害の発生した所定のサイズのメモリに対応する前記メモリ情報保存部に格納された前記メモリ領域を識別する情報を用いて、前記リカバリテーブルを検索することにより、対応するリカバリ手順を特定する、請求項１７ないし２１のうちいずれか１項記載のプログラム。
　前記ソフトウエアは、ハイパーバイザである、請求項１７ないし２２のうちいずれか１項記載のプログラム。
　前記リカバリ手順は、前記ソフトウエアとは異なる他のコンポーネントから情報を取得する、請求項１７ないし２３のうちいずれか１項記載のプログラム。