WO2015107675A1

WO2015107675A1 - ストレージ装置および制御方法

Info

Publication number: WO2015107675A1
Application number: PCT/JP2014/050793
Authority: WO
Inventors: 賢野村; 光雄早坂
Original assignee: 株式会社日立製作所
Priority date: 2014-01-17
Filing date: 2014-01-17
Publication date: 2015-07-23

Abstract

　ストレージ装置の有するコントローラは、或る第１領域から第１対象チャンクデータをリードし、或る第１領域に対応した第２領域から第２対象チャンクデータをリードし、第１対象チャンクデータと第２対象チャンクデータとが正しい対応関係にあるか否かの判定である不整合判定を実行するにあたり、ストレージ装置の構成に関する情報である構成情報に従って不整合判定の判定基準を決定し、その決定された判定基準に従って不整合判定を実行する。

Description

ストレージ装置および制御方法

　本発明は、ストレージ装置に保持されているデータの一貫性を確認する技術に関する。

　冗長化のために保持された二つのデータの一貫性を保証する技術として、データスクラブと呼ばれる技術が知られている（特許文献１）。

　例えば、ＲＡＩＤ（（ＲＡＩＤは「Ｒｅｄｕｎｄａｎｔ　Ａｒｒａｙｓ　ｏｆ　Ｉｎｅｘｐｅｎｓｉｖｅ　（Ｉｎｄｅｐｅｎｄｅｎｔ）　Ｄｉｓｋｓ）」の略）１によって二つのデータが保持されている場合、この二つのデータが完全に一致することが確認されたならば、この二つのデータの一貫性は保証される。例えば、ＲＡＩＤ５によってデータとパリティデータが保持されている場合、データから算出されるパリティデータと保持されているパリティデータとが完全に一致することが確認されたならば、この二つのデータの一貫性は保証される。

ＵＳ２０１０／０００５３７４

　しかし、特定の機能を有するストレージ装置に単純に特許文献１の技術を適用しても、誤検出が発生し、故に、正しくデータの一貫性が確認できないことがあるという課題がある。特定の機能とは、例えば、高性能化を目的としてＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）処理をゼロコピーで行う（具体的には、例えば、Ｉ／Ｏ対象のデータをプロセッサによりメモリにコピーするのではなくＤＭＡ（Ｄｉｒｅｃｔ　Ｍｅｍｏｒｙ　Ａｃｃｅｓｓ）により転送する）機能である。

　そこで、本発明の目的は、特定の機能を有するストレージ装置においても、正しくデータの一貫性を確認できるようにすることにある。

　本発明の一実施例に係るストレージ装置は、２以上の第１領域を有する第１記憶部と、２以上の第２領域を有する第２記憶部と、コントローラとを備える。コントローラは、２以上の第１領域のうちの或る第１領域から第１対象チャンクデータをリードし、２以上の第２領域のうちの或る第１領域に対応した第２領域から第２対象チャンクデータをリードする。そして、コントローラは、第１対象チャンクデータと第２対象チャンクデータとが正しい対応関係にあるか否かの判定である不整合判定を実行する。コントローラは、ストレージ装置の構成に関する情報である構成情報に従って不整合判定の判定基準を決定し、その決定した判定基準に従って不整合判定を実行してもよい。

　特定の機能を有するストレージ装置において、データの一貫性を確認することができる。

実施例１に係るストレージ装置の構成例を示す。実施例１に係る一貫性確認処理のフローチャートを示す。実施例１に係るチャンク確認処理のフローチャートを示す。実施例２に係るストレージシステムの構成例を示す。実施例２に係るバックアップ情報テーブルの構成例を示す。実施例２に係るストレージシステム全体処理のシーケンスチャートを示す。実施例２に係るバックアップデータのステータスの遷移を示す。実施例２に係る一貫性確認処理のフローチャートを示す。実施例２に係るリストア用のユーザインタフェースの構成例を示す。実施例３に係るクラスタシステムの構成例を示す。実施例３に係るバックアップ情報テーブルの構成例を示す。実施例３に係る一貫性確認処理のフローチャートを示す。実施例４に係る仮想マシンシステムの構成例を示す。実施例４に係る仮想マシン情報テーブルの構成例を示す。実施例４に係る改竄検出処理のフローチャートを示す。

　以下、一実施例を説明する。以下の説明では、「ｘｘｘテーブル」の表現にて各種情報を説明することがあるが、各種情報は、テーブル以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ｘｘｘテーブル」を「ｘｘｘ情報」と呼ぶことができる。

　また、以下の説明では「プログラム」を主語として処理の説明を行う場合があるが、プログラムは、プロセッサによって実行されることで定められた処理をメモリおよび通信ポート（通信制御デバイス）を用いながら行うため、その処理の説明ではプロセッサが主語とされてもよい。また、プログラムを主語として開示された処理は、ストレージコントローラ又はストレージ装置等の装置又は計算機が行う処理としてもよい。また、プロセッサは、典型的にはマイクロプロセッサ（例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ））でよく、マイクロプロセッサに加えて、処理の一部を行う専用ハードウェアを含んでもよい。また、プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶メディアによって計算機にインストールされてもよい。

　図１は、実施例１に係るストレージ装置の構成例を示す。

　ストレージ装置１０－１は、第１記憶デバイス１４と、第２記憶デバイス１５と、それらに接続され第１及び第２記憶デバイス１４及び１５に対するデータのＩ／Ｏを制御するストレージコントローラとを備える。ストレージコントローラは、ＣＰＵ１２と、メインメモリ１３とを含む。ＣＰＵ１２とメインメモリ１３とは、双方向にデータ伝送可能なバス（不図示）で接続されている。ストレージ装置１０－１は、ＣＰＵ１２がメモリ１３からコンピュータプログラムをリードして実行することにより、各種機能を実現する。他の実施例についても同様である。

　メインメモリ１３と、第１記憶デバイス１４とは、第１バス（不図示）で接続されている。メインメモリ１３と、第２記憶デバイス１５とは、第２バス（不図示）で接続されている。第１バスおよび第２バスは、例えば、ＳＡＴＡまたはＰＣＩｅなどの規格に準拠する。また、メインメモリ１３と、第１記憶デバイス１４との間では、ＤＭＡ転送が行われる。同様に、メインメモリ１３と、第２記憶デバイス１５との間でも、ＤＭＡ転送が行われる。

　第１記憶デバイス１４には、第１データ３１が格納されており、第２記憶デバイス１５には、第１データ３１と対応関係にある第２データ３２が格納されているとする。例えば、第１記憶デバイス１４と第２記憶デバイス１５とがＲＡＩＤ１の構成である場合、第１データ３１と第２データ３２とは同じである。また、例えば、第１記憶デバイス１４と第２記憶デバイス１５とがＲＡＩＤ５の構成のＲＡＩＤグループに含まれる記憶デバイスである場合、第２データ３２は第１データ３１から算出されたパリティデータ又はハッシュデータなどである。

　ストレージ装置１０－１は第１記憶部が、１つの第１記憶デバイス１４で構成されても複数の第１記憶デバイス１４で構成されてもよく、同様に、第２記憶部が、１つの第２記憶デバイス１５で構成されても複数の第２記憶デバイス１５で構成されてもよい。

　第１記憶デバイス１４および第２記憶デバイス１５の記憶領域は、複数のチャンク領域に分割されて管理される。複数のチャンク領域のそれぞれには、先頭から順番に１番、２番、…、ｎ番とチャンク番号が付与される。すなわち、第１データ３１は、第１記憶デバイス１４において、複数のチャンク領域に分割されて格納される。この第１記憶デバイス１４のチャンク領域を第１チャンク領域といい、第１チャンク領域に格納されたデータを第１チャンクデータ４１という。同様に、第２データ３２は、第２記憶デバイス１５において、複数のチャンク領域に分割されて格納される。この第２記憶デバイス１５のチャンク領域を第２チャンク領域といい、第２チャンク領域に格納されたデータを第２チャンクデータ４２という。

　この場合、第１記憶デバイス１４のｎ番の第１チャンク領域に格納されている第１チャンクデータ４１と、第２記憶デバイス１５のｎ番の第２チャンク領域に格納されている第２チャンクデータ４２とが対応関係を有する。すなわち、同じチャンク番号のチャンク領域に格納されている第１チャンクデータ４１と第２チャンクデータ４２とを順次比較することにより、第１データ３１と第２データ３２の一貫性を確認することができる。

　メインメモリ１３には、スクラバプログラム２０－１と、整合性確認プログラム２１と、アプリケーションプログラム２５と、ソフトウェアＲＡＩＤプログラム２３とが保持される。また、メインメモリ１３には、バッファ領域２４と、構成情報領域２５と、ページキャッシュ領域２６とが確保される。

　アプリケーションプログラム２５は、必要に応じて第１記憶デバイス１４にデータをライトする処理を実行する。アプリケーションプログラム２５は、このライト処理において、いったんページキャッシュ領域２６にデータをライトする。

　ソフトウェアＲＡＩＤプログラム２３は、このページキャッシュ領域２６にライトされたデータを、第１データ３１として第１記憶デバイス１４へライトすると共に、その第１データ３１と対応関係を有する第２データ３２を第２記憶デバイス１５へライトする。この処理は、上述のようにチャンクの単位で実行される。すなわち、ソフトウェアＲＡＩＤプログラム２３は、第１データ３１を複数のデータブロックに分割し、その分割した複数のデータブロックの各々を第１記憶デバイス１４の第１チャンク領域へライトすると共に、第２データ３２を複数の第２データブロックに分割し、その分割した複数のデータブロックブロックの各々を、第２記憶デバイス１５の第１チャンク領域と対応関係を有する第２チャンク領域へライトする。

　スクラバプログラム２０－１は、第１データ３１と第２データ３２の一貫性を確認するためのプログラムである。スクラバプログラム２０－１は、アプリケーションプログラム２５とは非同期に実行される。例えば、スクラバプログラム２０－１は、バックグラウンドプロセスとして、所定のタイミングで実行される。スクラバプログラム２０－１は、第１データ３１を構成する全ての第１チャンクデータ４１と、対応する第２データ３２を構成する全ての第２チャンクデータ４２とが正しい対応関係を有している場合、第１データ３１と第２データ３２は一貫性が保証される判定する。例えば、スクラバプログラム２０－１は、第１記憶デバイス１４の第１チャンク領域に格納されている第１チャンクデータ４１と、第２記憶デバイス１５の第２チャンク領域に格納されている第２チャンクデータ４２とを、チャンク番号の順番に順次比較していき、全ての第１チャンクデータ４１と、対応する全ての第２チャンクデータ４２とが正しい対応関係を有しているか否かを判定する。また、整合性確認プログラム２１は、第１チャンクデータ４１と第２チャンクデータ４２とが正しい対応関係を有しているか否かを判定するためのプログラムである。第１チャンクデータ４１と第２チャンクデータ４２とが正しい対応関係を有していることを「整合」といい、第１チャンクデータ４１と第２チャンクデータ４２とが正しい対応関係を有していないことを「不整合」といってもよい。

　ここで、ソフトウェアＲＡＩＤプログラム２３の実装において、性能向上を目的として、メインメモリ１３におけるライトデータのコピーを発生させないゼロコピーを採用した場合、アプリケーションプログラム２５とソフトウェアＲＡＩＤプログラム２３とが、同じページキャッシュ領域２６を共有することになる。

　この場合、アプリケーションプログラム２５が、ＵＮＩＸ（登録商標）における「ｍｍａｐ」に相当するコマンドなどを用いて、ページキャッシュ領域２６の或るページを任意のタイミングで直接的に書き換えてしまう可能性がある。

　一方、ソフトウェアＲＡＩＤプログラム２３は、ページキャッシュ領域２６の或るページに格納されているデータブロックを第１記憶デバイス１４へＤＭＡ転送（ｔ１）して第１チャンクデータ４１として格納し、次に、同じ或るページに格納されているデータを第２記憶デバイス１５へＤＭＡ転送（ｔ２）して第２チャンクデータ４２として格納する。この第１チャンクデータ４１に係るデータブロックと、第２チャンクデータ４２に係るデータブロックのＤＭＡ転送は、異なるタイミング（ｔ１≠ｔ２）で実行される。

　したがって、ページキャッシュ領域２６の或るページに格納されているデータブロックが、第１記憶デバイス１４へＤＭＡ転送され第１チャンクデータ４１として格納された後に、アプリケーションプログラム２５が同じページを書き換えてしまうと、ソフトウェアＲＡＩＤプログラム２３は、その書き換えられた後のデータブロック（ダーティデータ）を、第２記憶デバイス１５へＤＭＡ転送し第２チャンクデータ４２として格納してしまう。つまり、第１記憶デバイス１４に格納されている第１チャンクデータ４１と、第２記憶デバイスに格納されている第２チャンクデータ４２とが不整合の状態になってしまう。

　一方でこの不整合状態は一時的なものであり、所定時間経過後、解消される。なぜならば、次回のダーティデータを記憶デバイスへ反映するタイミングで、アプリケーションプログラム２５によって書き換えられた後のダーティデータが、第１記憶デバイス１４および第２記憶デバイス１５に上書きされ、第１チャンクデータ４１及び第２チャンクデータ４２となるからである。

　しかし、この不整合状態が解消されるまでの間に、この第１チャンクデータ４１と第２チャンクデータ４２とを比較してしまうと、これは一時的な不整合状態であり、後に整合状態に解消され得るにも関わらず、不整合と判定されてしまう。すなわち、これは一時的な不整合状態であるにも関わらず、第１データ３１と第２データ３２は一貫性を保証できないと判定されてしまう。

　本実施例におけるスクラバプログラム２０－１および整合性確認プログラム２１には、このような判定を回避する機能（「誤判定回避機能」という）が含まれる。

　構成情報領域２７には、スクラバプログラム２０－１及び整合性確認プログラム２１が誤判定回避機能を適用すべきか否かを判定するための情報である構成情報が格納される。構成情報には、ページキャッシュ領域２６に格納されているデータブロックが、第１記憶デバイス１４へライトされるタイミングと、第２記憶デバイス１５へライトされるタイミングとが異なり得るか否かを表す情報が含まれてよい。構成情報には、例えば、動作モードと、この動作モードが適用される条件とを対応付ける情報が含まれてもよい。動作モードが適用される条件には、例えば、スクラバプログラム２０－１及び整合性確認プログラム２１に含まれる誤判定回避機能の対象となるストレージ装置、デバイスドライバ及び／又はソフトウェアモジュールなどのリストが含まれてもよい。スクラバプログラム２０－１は、このリストに含まれるソフトウェアモジュールが動作している場合、誤判定回避機能を適用する動作モードに切り替えてもよい。構成情報には、ＲＡＩＤレベルやゼロコピーの有無などの情報が含まれてもよい。例えば、構成情報に、ＲＡＩＤレベルが「１」、ゼロコピーが「有」である旨の情報が含まれている場合、スクラバプログラム２０－１は、誤判定回避機能を適用して、第１チャンクデータ４１と第２チャンクデータ４２とが同一であるか否かを判定し、同一である場合に「整合」と判定してもよい。例えば、構成情報に、ＲＡＩＤレベルが「５」、ゼロコピーが「有」である旨の情報が含まれている場合、スクラバプログラム２０－１は、誤判定回避機能を適用して、第１チャンクデータ４１から算出されたパリティデータと、第２チャンクデータ４２とが同一であるか否かを判定し、同一である場合に「整合」と判定してもよい。

　スクラバプログラム２０－１及び整合性確認プログラム２１は、構成情報に基づいて、適切な処理を選択したり、処理を最適化したりしてもよい。構成情報は、誤判定回避機能の適用可否だけでなく、スクラバプログラム２０－１及び整合性確認プログラム２１の全体の動作を切り替えるために用いられてもよい。

　バッファ領域２４には、第１記憶デバイス１４からリードした第１チャンクデータ４１が一時的に格納される。詳細については後述する。

　次に、図２のフローチャートを参照しながら、本実施例に係る一貫性確認処理について説明する。

　スクラバプログラム２０－１は、所定のタイミング（例えば、毎晩午前２時など）で、一貫性確認処理を開始する（ステップＳ２００）。

　スクラバプログラム２０－１は、構成情報を確認する（ステップＳ２０１）。スクラバプログラム２０－１が、誤判定回避機能を適用すべきか否かを判定するためである。例えば、スクラバプログラム２０－１は、構成情報において、ゼロコピーが「有」であることが確認された場合、誤判定回避機能を適用すべきと判定し、ゼロコピーが「無」であることが確認された場合、誤判定回避機能の適用は不要と判定する。ここでは、誤判定回避機能を適用すべきと判定されたとする。なお、誤判定回避機能の適用は不要と判定された場合、後述する図３のＳ１０５の判定が「Ｎ」となり、不整合が検出されたときであっても繰り返しのチェック（Ｓ１０７以降の処理）は行われない。

　スクラバプログラム２０－１は、一貫性確認の対象データの先頭のチャンク番号をセットする（ステップＳ２０２）。

　スクラバプログラム２０－１は、セットされているチャンク番号に係るチャンクデータについて、チャンク確認処理を実行する（ステップＳ２０３）。チャンク確認処理の詳細については後述する。

　チャンク確認処理の判定結果が「整合」の場合（ステップＳ２０４：Ｎ）、スクラバプログラム２０－１は、そのままステップＳ２０５へ進む。

　チャンク確認処理の判定結果が「不整合」の場合（ステップＳ２０４：Ｙ）、スクラバプログラム２０－１は、不整合を検出したことを記録し（ステップＳ２１０）、ステップＳ２０５へ進む。

　ステップＳ２０５においてスクラバプログラム２０－１は、次のチャンク番号をセットする。そして、スクラバプログラム２０－１は、一貫性確認の対象データを構成する全てのチャンクデータについて確認したか否かを判定する（ステップＳ２０６）。まだ未確認のチャンクデータが残っている場合（ステップＳ２０６：Ｎ）、スクラバプログラム２０－１は、ステップＳ２０３へ戻る。全てのチャンクデータについて確認済みの場合（ステップＳ２０６：Ｙ）、スクラバプログラム２０－１は、処理を終了する。

　次に、図３のフローチャートを参照しながら、本実施例に係るチャンク確認処理について説明する。このチャンク確認処理は、図２のステップＳ２０３の処理に該当する。

　整合性確認プログラム２１は、スクラバプログラム２０－１から呼び出されると、チャンク確認処理を開始する（ステップＳ１００）。

　整合性確認プログラム２１は、第１記憶デバイス１４から、チャンク番号に対応する第１チャンクデータ４１をリードする（ステップＳ１０１）。整合性確認プログラム２１は、第２記憶デバイス１５から、チャンク番号に対応する第２チャンクデータ４２をリードする（ステップＳ１０２）。

　整合性確認プログラム２１は、第１チャンクデータ４１と第２チャンクデータ４２とが整合するか否か判定する（ステップＳ１０３）。

　第１チャンクデータ４１と第２チャンクデータ４２とが整合する場合（ステップＳ１０３：Ｙ）、整合性確認プログラム２１は、このチャンク番号に係るチャンクデータは「整合」である旨をスクラバプログラム２０－１へ返し、処理を終了する（ステップＳ１０４）。

　第１チャンクデータ４１と第２チャンクデータ４２とが不整合の場合（ステップ１０３：Ｎ）、整合性確認プログラム２１は、スクラバプログラム２０－１の判定に従って、誤判定回避機能を適用すべきか否かを判定する。つまり、この整合性確認プログラム２１の判定は、スクラバプログラム２０－１が上述のＳ２０１で行った誤判定回避機能を適用するべきか否かの判定に従う。

　誤判定回避機能の適用が不要の場合（ステップＳ１０５：Ｎ）、整合性確認プログラム２１は、このチャンク番号に係るチャンクデータは「不整合」である旨をスクラバプログラム２０－１へ返し、処理を終了する（ステップＳ１０６）。

　誤判定回避機能の適用が必要な場合（ステップＳ１０５：Ｙ）、整合性確認プログラム２１は、このチャンク番号に対する整合性チェックが初回であるか否かを判定する（ステップＳ１０７）。初回か否かの判定は、ＣＰＵのローカルメモリなどに、実行中のチャンクの整合性チェック回数を記憶しておき、これを確認する方法が考えられる。この場合、ステップＳ１００でチェック回数「０」にリセットし、後述するステップＳ１１０で「Ｎ」の場合にチェック回数を「１」加えることで、整合性チェック回数をカウント可能である。また、メインメモリ１３上に各チャンク管理テーブルを設け、チャンク毎に整合性チェック回数をカウントする方法もある。この場合、複数のスクラバプログラム２０－１が並行して実行されても整合性チェック回数をカウントすることができる。

　このチャンク番号に対する整合性チェックが初回である場合（ステップＳ１０７：Ｙ）、整合性確認プログラム２１は、ステップＳ１０１でリードした第１チャンクデータ４１をバッファ領域２４に格納する（ステップＳ１０８）。なお、整合性確認プログラム２１は、第１チャンクデータ４１そのものに代えて、第１チャンクデータ４１のハッシュ値をバッファ領域２４に格納してもよい。

　そして、整合性確認プログラム２１は、所定時間以上待機した後、ステップＳ１０１へ戻る。所定時間とは、ページキャッシュ領域２６に格納されているダーティデータが第１記憶デバイス１４及び第２記憶デバイス１５へライトされるまでの時間である。例えば、整合性確認プログラム２１は、ダーディデータがライトされる周期時間以上待機したり、セマフォなどの仕組みを用いてダーティデータがライトされるまで待機したりする。

　整合性確認プログラム２１は、二回目以降のステップＳ１０７において（ステップＳ１０７：Ｎ）、ステップＳ１０８においてバッファ領域２４に格納した第１チャンクデータ４１と、ステップＳ１０１において再度同じチャンク番号のチャンク領域からリードした第１チャンクデータ４１とを比較し、これら二つのチャンクデータが一致するか否かを判定する（ステップＳ１１０）。すなわち、そのチャンク番号のチャンク領域がアプリケーションプログラム２５によって書き換えられたか否かを判定する。

　二つのチャンクデータが一致する場合（ステップＳ１１０：Ｙ）、整合性確認プログラム２１は、このチャンク番号に係るチャンクデータは「不整合」である旨をスクラバプログラム２０－１へ返し、処理を終了する（ステップＳ１０６）。なぜなら、二つのチャンクデータが一致するということは、そのチャンク番号のチャンク領域はアプリケーションプログラム２５によって書き換えられていないにも関わらず、第１チャンクデータ４１と第２チャンクデータ４２とは不整合（ステップＳ１０３）であるため、この不整合は誤判定による不整合ではない（つまり、真の不整合である）からである。

　二つのチャンクデータが不一致の場合（ステップＳ１１０：Ｎ）、整合性確認プログラム２１は、この不一致の回数が所定回数以上であるか否かを判定する（ステップＳ１１１）。この判定は、ステップＳ１０５の説明で述べたように、ローカルメモリに記憶された整合性チェック回数に基づいて行う。この整合性チェック回数があらかじめ定められた閾値未満である場合（ステップＳ１１１：Ｎ）、整合性確認プログラム２１は、上記のステップＳ１０８へ進む。

　この不一致の回数が閾値以上である場合（ステップＳ１１１：Ｙ）、整合性確認プログラム２１は、このチャンク番号に係るチャンクデータは「整合」である旨をスクラバプログラム２０－１へ返し、処理を終了する（ステップＳ１０４）。なぜなら、不一致の回数が閾値以上であるということは、アプリケーションプログラム２５が連続的にこのチャンク番号に係るチャンク領域を更新している可能性があり、この場合、チャンク確認処理が無限ループに陥ってしまう可能性があるからである。なお、この不一致の回数が閾値以上である場合、整合性確認プログラム２１は、このチャンク番号に係るチャンクデータを所定のメモリ領域に保持しておき、全てのチャンクデータの整合性チェックが完了した後、再度この保持しておいたチャンクデータについて整合性チェックを行ってもよい。

　なお、一時的な不整合状態の間に電源断などによる異常停止が発生した場合、その一時的な不整合状態が解消されないという問題がある。すなわち、一時的な不整合状態も、再起動後の一貫性確認処理において不整合と判定されてしまう。

　この問題は、例えば、ソフトウェアＲＡＩＤプログラム２３側で、チャンクデータの実際のライトを行なう前に、ライト先のチャンク番号を不揮発性メモリに記録しておくことにより解消できる。この場合、スクラバプログラム２０－１は、不整合が異常停止によって発生したものであるか否かを判定し、異常停止によって発生したものである場合は、一時的な不整合状態であったとして処理してもよい。具体的には、図３のステップＳ１１１で、上記の一時的な不整合と判定される場合についても、第２チャンクデータ４２を第１チャンクデータ４１に一致させるなどの仮処理を行ない、整合と判定してもよい。

　本実施例によれば、ストレージ構成の特性に合わせて、誤判定回避機能の適用及び不適用が適切に切り替えられる。また、本実施例によれば、一時的な不整合状態が発生し得るストレージ装置において、第１チャンクデータ４１と第２チャンクデータ４２との間に発生した不整合が、一時的な不整合であったのか、それとも真の不整合であったのかを適切に切り分けることができる。よって、本実施例によれば、一時的な不整合状態が発生し得るストレージ装置において、正しくデータの一貫性を確認することができる。

　実施例２では、バックアップデータの一貫性保証に関する処理について説明する。以下、上述の実施例において説明済みの要素については同じ符号を付し、説明を省略する。

　図４は、実施例２に係るストレージシステムの構成例を示す。

　ストレージシステムは、低信頼ストレージ装置１０－２と、高信頼ストレージ装置９０とを備え、これらのストレージ装置は、データ送受信可能な所定の通信ネットワーク９９で接続されている。低信頼ストレージ装置１０－２は、例えば、信頼性よりも性能が優先されたストレージ装置である。高信頼ストレージ装置９０は、低信頼ストレージ装置１０－２と比較して、信頼性の高いストレージ装置である。

　低信頼ストレージ装置１０－２の構成は、実施例１に示したストレージ装置１０－１と同様の構成であるので、ここでの説明を省略する、

　メインメモリ１３には、スクラバプログラム２０－２と、バックアッププログラム４５と、リストアプログラム４６と、バックアップ情報管理テーブル２１とが保持される。

　バックアッププログラム４５は、第１記憶デバイス１４および第２記憶デバイス１５に保持されているデータのバックアップデータを生成するためのプログラムである。例えば、バックアッププログラム４５は、第１記憶デバイス１４および第２記憶デバイス１５のスナップショットを作成し、第１記憶デバイス１４から第１バックアップデータを生成し、第２記憶デバイス１５から第２バックアップデータを生成する。そして、バックアッププログラム４５は、第１バックアップデータと第２バックアップデータとを高信頼ストレージ装置９０に保存する。バックアッププログラム４５は、第１記憶デバイス１５および第２記憶デバイス１６の両方から一つのバックアップデータを生成し、その一つのバックアップデータを高信頼ストレージ装置９０に保存してもよい。

　しかし、バックアップデータの生成中にデータの一部が破損することや、バックアップの対象である第１記憶デバイス１４又は第２記憶デバイス１５に保持されているデータの一部が破損していることもあり得る。低信頼ストレージ装置１０－２は、このようなデータの破損を検出する機能を有していないことも多い。したがって、低信頼ストレージ装置１０－２が一部破損したバックアップデータを生成した場合、高信頼ストレージ装置９０にそのまま破損したバックアップデータが保存されてしまう。

　リストアプログラム４６は、高信頼ストレージ装置９０からバックアップデータ（例えば、第１バックアップデータと第２バックアップデータのセット）を取得して低信頼ストレージ装置１０－２にリストアするためのプログラムである。ここで、上述のように、バックアップデータの一部が破損していたとしても、通常、リストアプログラム４６は、バックアップデータを取得してリストアを実行してみるまで、その破損の存在を知ることができない。

　そこで、スクラバプログラム２０－２は、バックアップデータの生成完了後、そのバックアップの対象となった第１記憶デバイス１４及び第２記憶デバイス１５のデータついて一貫性確認を実行し、その一貫性確認の結果をバックアップデータと共に高信頼ストレージ装置９０に保存する。一貫性の保証されているバックアップデータは、第１記憶デバイス１４及び第２記憶デバイス１５において破損のないデータから生成されたものであることを表す。つまり、一貫性の保証されているバックアップデータは、破損が含まれている可能性が低いともいえる。したがって、リストアプログラム４６は、バックアップデータに対応する一貫性確認の結果を参照することにより、このバックアップデータに破損が含まれている可能性を知ることができる。

　バックアップ情報テーブル１００は、バックアッププログラム４５によって生成されたバックアップデータに関する情報（「バックアップ情報」という）をレコードとして有する。バックアップ情報テーブル１００の詳細については後述する。

　高信頼ストレージ装置９０は、ＣＰＵ９２、メインメモリ９３とを含んだストレージコントローラと、ＨＢＡ（Ｈｏｓｔ　Ｂｕｓ　Ａｄａｐｔｅｒ）９４のようなインターフェイスデバイスとを備え、これらの要素は双方向にデータ伝送可能なバス（不図示）で接続されている。

　ＨＢＡ９４には、外部ストレージ装置９７が接続される。高信頼ストレージ装置９０は、このようにＨＢＡ９４や外部ストレージ装置９７など、信頼性の高い専用のハードウェアによって構成されているため、データを保持することに関する信頼性が高い。

　高信頼ストレージ装置９０のメインメモリ９３には、低信頼ストレージ装置１０－２の保持するバックアップ情報テーブル１００と同じものが保持されてもよい。このバックアップ情報テーブル１００は、電源を切っても失われないように、外部ストレージ装置９７にも保持されてよい。バックアップ情報テーブル１００は、高信頼ストレージ装置９０のみで保持されてもよいし、低信頼ストレージ装置１０－２のみで保持されてもよい。ただし、低信頼ストレージ装置１０－２の第１記憶デバイス１４にバックアップ情報テーブル１００を保持する場合、信頼性が低いので、バックアップ情報テーブル１００のデータ自体が破損している可能性も考慮する必要がある。したがって、バックアップ情報テーブル１００は、低信頼ストレージ装置１０－２と高信頼ストレージ装置９０の両方に保持され、高信頼ストレージ装置９０に保持されるバックアップ情報テーブル１００がメインとして利用され、低信頼ストレージ装置１０－２に保持されるバックアップ情報テーブル１００がキャッシュとして利用されてもよい。

　次に、図５を参照しながら、本実施例に係るバックアップ情報テーブル１００について説明する。

　バックアップ情報テーブル１００は、バックアップデータに関する情報であるバックアップ情報をレコードとして有する。

　バックアップ情報は、バックアップバージョンの項目１０１と、日時の項目１０２と、スナップショットバージョンの項目１０３と、ステータスの項目１０４とを有する。

　バックアップバージョンの項目１０１には、バックアップデータのバージョン番号が格納される。

　日時の項目１０２には、バックアップデータの作成日時およびそのバックアップ情報のステータスが最後に更新された日時などが格納される。これにより、バックアップ情報テーブル１００内のレコードを日時の新しいものから順番に並び替えることができる。

　スナップショットバージョンの項目１０３には、バックアップデータに含まれるスナップショットのバージョン番号が格納される。スタンプショットバージョンの項目１０３には、複数のスナップショットのバージョン番号が格納されてもよい。

　ステータスの項目１０４には、バックアップデータの状態を示す情報であるステータス情報が格納される。

　次に、図６の状態遷移図を参照しながら、バックアップ情報に含まれるステータス情報について説明する。

　スクラバプログラム２０－２は、新たにスナップショットが作成されると、バックアップ情報テーブル１００に、ステータスを「初期（６００）」としたバックアップ情報を登録する。既に「初期」のバックアップ情報が存在する場合、スクラバプログラム２０－２は、そのバックアップ情報のスナップショットバージョンに、新たなスナップショットのバージョンを追記する。

　スクラバプログラム２０－２は、バックアップが開始されると、このバックアップに対応するバックアップ情報のステータスを「バックアップ中（６０１）」に変更する。

　スクラバプログラム２０－２は、バックアップが完了すると、このバックアップに対応するバックアップ情報のステータスを「バックアップ完了（６０２）」に変更する。

　スクラバプログラム２０－２は、バックアップデータに対応する記憶デバイスの一貫性確認に成功した場合、このバックアップデータに対応するバックアップ情報のステータスを「確認成功（６０３）」に変更する。

　スクラバプログラム２０－２は、バックアップデータに対応する記憶デバイスの一貫性確認に失敗した場合（不整合が存在した場合）、このバックアップデータに対応するバックアップ情報のステータスを「確認失敗（６０４）」に変更する。

　スクラバプログラム２０－２は、リストア後の記憶デバイスの一貫性確認に成功した場合、このリストアに用いられたバックアップデータに対応するバックアップ情報のステータスを「確認成功（６０３）」に変更する。

　スクラバプログラム２０－２は、リストア後の記憶デバイスの一貫性確認に失敗した場合、このリストアに用いられたバックアップデータに対応するバックアップ情報のステータスを「データ破損（６０５）」に変更する。

　「確認失敗（６０４）」は、「データ破損（６０５）」と異なり、バックアップ完了後に第１記憶デバイス１４又は第２記憶デバイス１５に不整合が発生した可能性も含むため、必ずしもバックアプデータが破損していることを表すわけではない。つまり、「確認失敗」のバックアップデータであっても、破損していないこともある。「確認失敗（６０４）」のバックアップデータが破損しているか否かが明らかになるのは、リストア後の一貫性確認の結果が判明したときである。なお、「データ破損（６０５）」のステータスを確認できないような構成である場合、「データ破損（６０５）」のステータスは省略されてもよい。

　次に、図７のシーケンスチャートを参照しながら、ストレージシステムの動作の一例を説明する。

　低信頼ストレージ装置１０－２のバックアッププログラム４５は、スナップショットを作成する（ステップＳ４００）。このとき、バックアッププログラム４５はスナップショットを作成した旨を高信頼ストレージ装置９０に通知してもよい。高信頼ストレージ装置９０は、この通知を受けて、自分の保持するバックアップ情報テーブル１００にこのスナップショットに対応するバックアップ情報を登録する。

　バックアッププログラム４５は、バックアップデータを生成し、スナップショットを含めたバックアップデータを高信頼ストレージ装置９０に保存する（ステップＳ４０１）。このとき、低信頼ストレージ装置１０－２および高信頼ストレージ装置９０は、バックアップの作成開始および作成完了に対応するように、バックアップ情報テーブル１００のステータスを「バックアップ中（６０１）」および「バックアップ完了（６０２）」に変更してもよい。

　低信頼ストレージ装置１０－２のスクラバプログラム２０－２は、バックアップ完了後に、第１記憶デバイス１４及び第２記憶デバイス１５に対して一貫性確認処理を実行する（ステップ４０２）。ここで、低信頼ストレージ装置１０－２は、スクラバプログラム２０による記憶デバイスのデータブロックのレベルにおける確認と、ＯＳによるファイルシステムのレベルにおける確認及びアプリケーションのレベルにおける確認のうちの少なくとも一方とを組み合わせて、一貫性確認を行ってもよい。そして、低信頼ストレージ装置１０－２は、これらの一貫性確認の何れにおいても不整合が検出されなかった場合に、一貫性有りと判定してもよい。

　低信頼ストレージ装置１０－２のスクラバプログラム２０－２は、バックアップデータに対応する記憶デバイスについて一貫性有りと判定した場合、高信頼ストレージ装置９０のバックアップ情報テーブル１００のステータスの項目１０４に「確認成功」を保存する（ステップＳ４０３）。

　低信頼ストレージ装置１０－２のスクラバプログラム２０－２は、バックアップデータに対応する記憶デバイスついて一貫性無しと判定した場合、高信頼ストレージ装置９０のバックアップ情報テーブル１００のステータスの項目１０４に「確認失敗」を保存する（ステップＳ４１０～Ｓ４１３）。

　低信頼ストレージ装置１０－２は、記憶デバイスについて一貫性無しと判定した場合、以下のリストア処理を行ってもよい。

　低信頼ストレージ装置１０－２のリストアプログラム４６は、高信頼ストレージ装置９０の保持するバックアップ情報テーブル１００を取得する（ステップＳ４１４）。

　低信頼ストレージ装置１０－２のリストアプログラム４６は、その取得したバックアップ情報テーブル１００に登録されているバックアップ情報を参照し、バックアップデータを選択する（ステップＳ４１５）。例えば、リストアプログラム４６は、ステータスが「確認成功」である破損の含まれている可能性の少ないバックアップデータを選択する。

　そして、低信頼ストレージ装置１０－２のリストアプログラム４６は、その選択したバックアップデータを高信頼ストレージ装置９０から取得し、リストア処理を実行する（ステップＳ４１６～Ｓ４１７）。

　リストア後、低信頼ストレージ装置１０－２のスクラバプログラム２０－２は、記憶デバイスについて一貫性確認を実行する（ステップＳ４１８）。一貫性有りと判定した場合、スクラバプログラム２０－２は、高信頼ストレージ装置９０のバックアップ情報テーブル１００におけるリストアに用いたバックアップデータに対応するバックアップ情報のステータスを「確認成功」に変更する（ステップＳ４１９）。

　バックアップデータに第１バックアップデータおよびその第１バックアップデータの冗長データである第２バックアップデータが含まれている場合、スクラバプログラム２０－２は、リストア後の第１記憶デバイス１４及び第２記憶デバイス１５の一貫性を確認することにより、バックアップデータが破損していたか否かを判定できる。

　バックアップデータに第１バックアップデータの冗長データである第２バックアップデータが含まれていない場合（例えば、バックアップデータに第１バックアップデータしか含まれていない場合）は、その第１バックアップデータがリストアされた第１記憶デバイスのレベルにおける確認と、上述で述べたようにＯＳによるファイルシステムのレベルにおける確認及びアプリケーションのレベルにおける確認のうちの少なくとも一方とを組み合わせて、一貫性確認を行ってもよい。

　次に、図８のフローチャートを参照しながら、本実施例に係る一貫性確認処理について説明する。

　低信頼ストレージ装置１０－２におけるスクラバプログラム２０－２は、図２のステップＳ２０２～Ｓ２０６と同様に、記憶デバイスにおける全てのチャンクデータについて整合性を確認する（ステップＳ７０１～Ｓ７０５）。

　スクラバプログラム２０－２は、記憶デバイスにおける全てのチャンクデータについて不整合を検出しなかった場合、バックアップ情報テーブル１００において一貫性確認が完了していないバックアップ情報について、ステータスを「確認成功（６０３）」に変更し、日時を更新する。今回の処理がリストア後の一貫性確認である場合（図７のステップＳ４１８）、スクラバプログラム２０－２は、リストアに用いたバックアップデータに対応するバックアップ情報のステータスを「確認成功（６０３）」に変更する（ステップＳ７０６）。

　そして、スクラバプログラム２０－２は、この変更したバックアップ情報テーブル１００を高信頼ストレージ装置９０に送信及び保存し（ステップＳ７０７）、処理を終了する（ステップＳ７０８）。ここで、スクラバプログラム２０－２は、バックアップ情報テーブル１００について、前回の送信からの差分のみのデータを高信頼ストレージ装置９０に送信及び保存してもよい。

　一方、ステップＳ７０３において不整合を検出した場合、スクラバプログラム２０－２は、不整合を検出したチャンク番号に係るチャンク領域が、ユーザデータの格納されるユーザ領域であるか、それともシステムデータの格納されるシステム領域であるかを判定する（ステップＳ７０９）。例えば、低信頼ストレージ装置１０－２は、予め第１記憶デバイス１４の記憶領域を、先頭から２０％をシステム領域、残りの８０％をユーザ領域に区分しておき、この区分に従って、ステップＳ７０９の判定を行ってもよい。また、低信頼ストレージ装置１０－２は、この記憶領域の区分に関する情報であるレイアウト情報を保持しており、レイアウト情報に従ってステップＳ７０９の判定を行っても良い。

　不整合の検出されたチャンク領域がシステム領域である場合（ステップＳ７０９：システム）、低信頼ストレージ装置１０－２のリストアプログラム４６は、予め高信頼ストレージ装置９０に保存しておいたシステム領域のバックアップデータを用いて、このシステム領域をリストアし（ステップＳ７１５）、終了する（ステップＳ７１６）。リストアプログラム４６は、システム領域に不整合が検出された場合、ステータスが「確認成功」であってバックアップの日時が最新であるバックアップデータを選択して自動的にリストアを実行してもよい。

　不整合の検出されたチャンク領域がユーザ領域である場合、低信頼ストレージ装置１０－２のスクラバプログラム２０－２は、バックアップ情報テーブル１００の中で、一貫性確認が完了していないバックアップ情報のステータスを「確認失敗（６０４）」に変更する（ステップＳ７１０）。また、スクラバプログラム２０－２は、日時も更新する。なお、スクラバプログラム２０－２は、今回の処理がリストア後の一貫性確認である場合（図７のステップＳ４１８）、リストアに用いたバックアップデータに対応するバックアップ情報のステータスを「データ破損（６０５）」に変更する。なお、上述と同様に、ユーザ領域に不整合が検出された場合、ステータスが「確認失敗」又は「データ破損」以外であってバックアップの日時が最新であるバックアップデータを選択し、システムの利用者であるユーザにリストアを実行するか否かを問い合わせてもよい。

　低信頼ストレージ装置１０－２のスクラバプログラム２０－２は、バックアップ情報テーブル１００を高信頼ストレージ装置９０６に送信及び保存する（ステップＳ７１１）。

　低信頼ストレージ装置１０－２のリストアプログラム４６は、バックアップ情報テーブル１００の中からリストアに用いるバックアップデータを選択する（ステップＳ７１２）。そして、リストアプログラム４６は、そのバックアップデータを用いてユーザ領域をリストアし（ステップＳ７１３）、処理を終了する（ステップＳ７１４）。

　以上の処理により、システム領域で不整合が検出された場合に、破損の可能性の極めて少ない（例えば、ステータスが「確認成功」の）バックアップデータによってシステム領域を自動的にリストアすることができる。また、ユーザ領域で不整合が検出された場合に、破損の可能性の少ない（例えば、ステータスが「確認失敗」又は「データ破損」以外の）バックアップデータによってユーザ領域をリストアすることができる。

　次に、図９を参照しながら、リストア用のＵＩ（Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）について説明する。

　低信頼ストレージ装置１０－２のリストアプログラム４６は、リストアに用いるバックアップデータを選択するためのＵＩ８００を生成する。ＵＩ８００は、低信頼ストレージ装置１０－２で動作するプログラムによって生成されてもよいし、他の装置で動作するプログラムによって生成され、他の装置を通じてＵＩ８００に入力された情報が、通信ネットワークを介して低信頼ストレージ装置１０－２に送信されてもよい。

　ＵＩ８００は、動作選択領域８０１と、バックアップ選択領域９０２とを有する。動作選択領域８０１は、リストアに用いるバックアップデータの選択を自動及び手動の何れで行うのかを選択するためのＵＩを有する。動作選択領域８０１において「自動」が選択された場合、低信頼ストレージ装置１０－２は、所定のポリシーに従って、リストアに用いるバックアップデータを選択する。例えば、低信頼ストレージ装置１０－２は、ステータスが「確認成功」であってバックアップの日時が最新であるバックアップデータを自動的に選択する。また、動作選択領域８０１において「手動」が選択された場合、バックアップ選択領域８０２がアクティブとなる。

　バックアップ選択領域８０２は、リストアに用いるバックアップデータを手動で選択するためのＵＩを有する。バックアップ選択領域は、選択ボックス８０４と、テーブル８０３と、実行ボタン８０５とを有する。

　テーブル８０３には、選択可能なバックアップデータに対応するバックアップ情報が表示される。テーブル８０３には、例えば、バックアップ情報テーブル１００の項目に対応する、更新の日時と、バックアップバージョンと、スナップショットバージョンと、ステータスとが表示されてよい。

　ユーザは、選択ボックス８０４をオンにすることにより、リストアに用いるバックアップ情報を選択する。ユーザは、一貫性確認は完了していないもののバックアップの日時が最新のバックアップ情報を選択したり、ステータスが「確認成功（６０３）」の過去の何れかのバックアップ情報を選択したりすることができる。なお、ステータスが「データ破損（６０５）」のバックアップデータは、テーブル８０３に表示されないとしてもよい。ユーザが実行ボタン８０５を押下すると、選択ボックス８０４で選択されたバックアップ情報を用いてリストアが開始されてもよい。

　本実施例によれば、高信頼ストレージ装置９０に保存されたバックアップデータの一貫性確認に関するステータスを低信頼ストレージ装置１０－２から確認できる。このステータスは、リストアに用いるバックアップデータを選択する際の有効な指標となる。

　実施例３では、実施例２に示したバックアップデータの一貫性保証に関する処理を、複数の低信頼ノード１０－３が結合して構成されているクラスタシステムに適用する場合について説明する。以下、上述の実施例において説明済みの要素については同じ符号を付し、説明を省略する。

　図１０は、実施例３に係るクラスタシステムの構成例を示す。

　クラスタシステムは、複数の低信頼ノード１０－３によって構成されており、これらの低信頼ノード１０－３は所定の通信ネットワーク８０を通じて相互にデータ送受信可能である。

　低信頼ノード１０－３の構成は、実施例１に示したストレージ装置１０－１と同様の構成であるので、ここでの説明を省略する。

　メインメモリ１３には、スクラバプログラム２０－３と、バックアッププログラム４５と、リストアプログラム４６と、バックアップ情報テーブル２００とが保持される。また、メインメモリ１３には、バッファ領域２４と、構成情報領域２７と、ページキャッシュ領域２６とが確保されてもよい。

　次に、図１１を参照しながら、本実施例に係るバックアップ情報テーブル２００について説明する。

　バックアップ情報テーブル２００は、バックアップデータに関する情報であるバックアップ情報をレコードとして管理する。

　バックアップ情報は、バックアップバージョンの項目２０１と、日時の項目２０２と、スナップショットバージョンの項目２０３と、ステータスの項目２０４と、ノード名の項目２０５と、エラー数の項目２０６とを有する。

　項目２０１～２０４は、図５に示したバックアップ情報テーブル１００の項目１００～１０４と同様であるので、個々での説明を省略する。

　ノード名の項目２０６には、バックアップデータが保存されている低信頼ノード１０－３を識別するための情報であるノード名が格納される。したがって、バックアップ情報テーブル２００は、同じバックアップデータであっても、別のノードに保存されたバックアップデータに対応するバックアップ情報は、別のレコードとして保持する。

　エラー数の項目２０６には、バックアップデータが保存されているノードで発生したエラー数（障害発生数ともいう）が格納される。エラー数は、例えば、ＯＳがＩ／Ｏ処理中に生じたハードウェア不調によってＩ／Ｏをリトライした回数と、ＨＤＤのＳ．Ｍ．Ａ．Ｒ．Ｔ．（Ｓｅｌｆ－Ｍｏｎｉｔｏｒｉｎｇ，　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｒｅｐｏｒｔｉｎｇ　Ｔｅｃｈｎｏｌｏｇｙ）機能のような障害の早期発見機能によって報告されたエラーの回数などを合算した数であってよい。エラー数は、エラーの要因の重要度に基づいて重み付けされた数であってもよい。エラー数は、ノードの信頼性を表している他の指標であってもよい。したがって、エラー数の多いノードは、エラー数の少ないノードと比較して、信頼性が低いともいえる。

　次に、図１２を参照しながら、本実施例に係る一貫性確認処理について説明する。

　低信頼ノード１０－３におけるスクラバプログラム２０－３は、図２のステップＳ２０２～Ｓ２０６と同様に、記憶デバイスにおける全てのチャンクデータについて整合性を確認する（ステップＳ９０１～Ｓ９０５）。

　スクラバプログラム２０－３は、記憶デバイスにおける全てのチャンクデータについて不整合を検出しなかった場合、バックアップ情報テーブル２００における一貫性確認が完了していないバックアップ情報について、ステータスを「確認成功（６０３）」に変更し、日時を更新する（ステップＳ９０６）。

　そして、スクラバプログラム２０－３は、このバックアップ情報テーブル１００を、このバックアップデータを保持する全てのノードに対して送信及び保存し（ステップＳ９０７）、処理を終了する（ステップＳ９２０）

　一方、ステップＳ９０３において不整合を検出した場合（ステップＳ９０３：Ｙ）、スクラバプログラム２０－３は、このバックアップデータを保持する全てのノードに対して、不整合が検出された旨の情報を送信及び保存する（ステップＳ９０９）。例えば、各ノードが保持するバックアップ情報のステータスを「確認失敗」に変更すると共に、日時を更新する。

　そして、スクラバプログラム２０－３は、自ノードをクラスタシステムからいったん離脱させる（ステップＳ９１０）。そして、スクラバプログラム２０－３は、自ノードのバックアップ情報を参照し、自ノードのエラー数が閾値を超えているか否かを判定する（ステップＳ９１１）。

　エラー数が閾値を超えている場合（ステップＳ９１１：Ｙ）、スクラバプログラム２０－３は、エラーを出力し（ステップＳ９１５）、終了する（ステップＳ９２０）。

　自ノードのエラー数が閾値以下である場合（ステップＳ９１１：Ｎ）、リストアプログラム４６は、リストア用のバックアップデータを選択する（ステップＳ９１２）。ここで、複数のノードに同じ条件のバックアップデータが存在する場合、リストアプログラム４６は、エラー数の最も少ないノードに保持されているバックアップデータを選択してもよい。リストアプログラム４６は、最もエラー数の少ないノードを選択してももよいし、全てのノードのうちエラー数の少ない上位Ｘ％に属するいずれかのノードを選択してもよい。

　リストアプログラム４６は、その選択したバックアップデータを用いてリストアを実行する（ステップＳ９１３）。

　スクラバプログラム２０－３は、リストア完了後、自ノードを再びクラスタに参加させ（ステップＳ９１４）、処理を終了する（ステップＳ９２０）。

　本実施例によれば、複数の低信頼ノード１０－３に複数の同じバックアップデータを作成しておき、信頼性の比較的高いノードに保持されているバックアップデータをリストアに用いることができる。よって、クラスタシステムが低信頼ノード１０－３によって構成されている場合であっても、破損の含まれている可能性の低いバックアップデータをリストアに用いることができる。

　本実施例では、仮想化環境上で動作する仮想マシンにおいて、一貫性確認処理を実行する場合について説明する。また、データの改竄検出および原本性の保証に応用する場合についても説明する。

　図１３は、実施例４に係る仮想マシンシステムの構成例を示す。

　仮想マシン１０－４、５３は、物理マシン（例えば物理的な計算機又はストレージ装置）２で動作するプログラムであるハイパバイザ５０により、論理的に構成されるマシン（例えば仮想的な計算機又はストレージ装置）である。

　仮想マシン１０－４は、論理的なリソースとして、第１記憶デバイス１４－４と、第２記憶デバイス１５－４と、第１及び第２記憶デバイス１４－４及び１５－４に対するデータのＩ／Ｏを制御するコントローラとを備える。コントローラは、ＣＰＵ１２－４と、メインメモリ１３－４とを含む。

　メインメモリ１３－４には、スクラバプログラム２０－４と、仮想マシン情報テーブル３００とが保持される。また、メインメモリ１３－４には、仮想的なバッファ領域と、構成情報領域と、ページキャッシュ領域とが確保されてもよい。

　ハイパバイザ５０は、物理的なリソースと論理的なリソースとを仲介する機能を有しており、複数の仮想マシンを動作させることができる。

　物理マシン２は、仮想マシンを別の物理マシン上に移動させることができる。例えば、物理マシン２のハイパバイザ５０上で動作する仮想マシンを、別の物理マシンのハイパバイザ上に移動させることができる。

　第１記憶デバイス１４－４および第２記憶デバイス１５－４は、物理マシン２が有する物理的な記憶デバイス５２の所定の領域を用いて仮想的に実現される。したがって、物理マシン２は、第１記憶デバイス１４－４および第２記憶デバイス１５－４を、他の仮想マシンに移動させたり、他の仮想マシンから参照させたりすることができる。

　例えば、各仮想マシンは、他の仮想マシンと共有可能なプロトコル（例えば、ｉＳＣＳＩ（Ｉｎｔｅｒｎｅｔ　Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ））を用いて仮想的な記憶デバイスを提供する、この場合、仮想マシン１０－４は、他の仮想マシン５３の仮想的な記憶デバイス５４を参照することができる。

　したがって、仮想マシン１０－４のスクラバプログラム２０－４は、他の仮想マシン５３の記憶デバイス５４および記憶デバイス５５の一貫性確認を行うことができる。

　さらに、他の仮想マシン５３における第２データが格納されている仮想的な記憶デバイス５４を仮想マシン１０－４の管理下（記憶デバイス１４－４）に移動させておき、仮想マシン５３に残した仮想的な記憶デバイス５５に格納されている第１データの改竄検査に用いることもできる。例えば、仮想マシン１０－４は、自分の管理下に移動させた仮想的な記憶デバイス１４－４に格納されている第２データと、他の仮想マシン５３の仮想的な記憶デバイス５５に格納されている第１データとについて一貫性確認を行い、不整合が検知された場合、第１データが改竄されたおそれがあると判定してもよい。

　次に、図１４を参照しながら、仮想マシン情報テーブル３００について説明する。

　仮想マシン情報テーブル３００は、仮想マシンに関する情報である仮想マシン情報をレコードとして有する。

　仮想マシン情報は、仮想マシン名の項目３０１と、第１記憶デバイスＩＤの項目３０２と、第２記憶デバイスＩＤの項目３０３と、稼働ステータスの項目３０４と、ＲＷモードの項目３０５と、検査回数の項目３０６と、警告回数の項目３０７とを有する。

　仮想マシン名の項目３０１には、仮想マシンを特定するための情報である仮想マシン名が格納される。

　第１記憶デバイスＩＤの項目３０２には、第１データが格納されている仮想的な第１記憶デバイスを識別するためのＩＤが格納される。

　第２記憶デバイスＩＤの項目３０３には、第２データが格納されている仮想的な第２記憶デバイスを特定するためのＩＤが格納される。

　稼働ステータスの項目３０４には、仮想マシンの稼動状況を示す情報である稼働ステータスが格納される。例えば、仮想マシンが稼働中であれば、稼働ステータスは「ＯＮ」となり、仮想マシンが停止中であれば、稼働ステータスは「ＯＦＦ」となる。

　ＲＷモードの項目３０５には、この仮想マシン情報に対応する仮想マシンがリード及びライトが可能なモード（Ｒ／Ｗ）であるか、リードオンリーモード（ＲＯ）であるかなどを示すＲＷモードの情報が格納される。

　検査回数の項目３０６には、改竄検査を実行した回数を示す情報である検査回数が格納される。

　警告回数の項目３０７には、仮想マシン情報に対応する仮想マシンにおいて発生した警告の回数を示す情報である警告回数が格納される。

　スクラバプログラム２０－４は、仮想マシン情報テーブル３００を参照し、リードオンリーモードの仮想マシンを特定する。リードオンリーモードの仮想マシンに保持されているデータは、不正アクセスなどの想定外の手段を用いない限り変更されない。したがって、スクラバプログラム２０－４は、リードオンリーモードの仮想マシンに保持されているデータについて、一貫性確認の手段を用いて改竄検査を行なうことができる。

　次に、図１５を参照しながら、本実施例に係る改竄検査処理について説明する。

　仮想マシン１０－４のスクラバプログラム２０－４は、仮想マシン情報テーブル３００を参照して、稼働ステータスが「ＯＮ」、ＲＷモードが「ＲＯ」、検査回数が「０回（未検査）」の１つの仮想マシン５３を対象仮想マシンとして選択する（ステップＳ１００１）。

　仮想マシン１０－４のスクラバプログラム２０－４は、仮想マシン情報の第１記憶デバイスＩＤの項目３０２および第２記憶デバイスＩＤの項目３０３を参照して、それらのＩＤに対応する第１記憶デバイスおよび第２記憶デバイスを特定し、それらの仮想的な記憶デバイスに接続する（ステップＳ１００２）。

　スクラバプログラム２０－４は、その接続した第１記憶デバイスおよび第２記憶デバイスに対して、図２のステップＳ２０２～Ｓ２０６と同様に、全てのチャンクデータの整合性を確認する（ステップＳ１００３～Ｓ１００７）。

　ステップＳ１００５において、不整合（つまり改竄）が検出された場合（ステップＳ１００５：Ｙ）、スクラバプログラム２０－４は、改竄が検出された旨を記録する（ステップＳ１０１０）。例えば、スクラバプログラム２０－４は、仮想マシン情報に含まれる警告回数を加算したり、改竄が検出された旨をログに出力したりする。

　そして、スクラバプログラム２０－４は、対象仮想マシンに対して、改竄を検出した旨を通知する（ステップＳ１０１１）。

　全てのチャンクデータにおいて不整合が検出されなかった場合、スクラバプログラム２０－４は、検査を完了した旨及び改竄が検出されなかった旨を記録する（ステップＳ１０２０）。例えば、スクラバプログラム２０－４は、仮想マシン情報に含まれる検査回数を加算したり、改竄が検出されなかった旨をログに出力したりする。

　スクラバプログラム２０－４は、ステップＳ１００２で接続した第１記憶デバイス及び第２記憶デバイスへの接続を解除する（ステップＳ１０１０）。

　そして、スクラバプログラム２０－４は、他に検査対象の仮想マシンが残っているか否かを判定する（ステップＳ１０２２）。検査対象の仮想マシンが残っている場合（ステップＳ１０２２：Ｙ）、スクラバプログラム２０－４は、ステップＳ１００１へ戻り、次の改竄検査を実行する。検査対象の仮想マシンが残っていない場合（ステップＳ１０２２：Ｎ）、スクラバプログラム２０－４は、処理を終了する（ステップＳ１０２３）。

　なお、ステップＳ１００１において、スクラバプログラム２０－４は、稼働ステータス「ＯＮ」、ＲＷモード「Ｒ／Ｗ」及び検査回数「０回（未検査）」の対象仮想マシンを１つ選択し、ステップＳ１００３～Ｓ１００７において他の実施例と同様にデータの一貫性確認を行なってもよい。そして、一貫性が保証された後、スクラバプログラム２０－４は、対象仮想マシンの仮想マシン情報のＲＷモードを「Ｒ／Ｗ」から「ＲＯ」に変更し、対象仮想マシンに第１記憶デバイス及び第２記憶デバイスの何れか一方を残し、他方の記憶デバイスを自分の管理下に移動させ、対象仮想マシンに残された記憶デバイスについて改竄検出処理を行ってもよい。

　本実施例によれば、一の仮想マシンが、他の仮想マシンの記憶デバイスの一貫性を確認することができる。また、一の仮想マシンが、複数の他の仮想マシンの記憶デバイスの一貫性を確認することができる。また、本実施例によれば、一の仮想マシンが、他の仮想マシンの第１記憶デバイス及び第２記憶デバイスの何れか一方を自分の管理下に移動させることにより、他の仮想マシンに残された記憶デバイスの改竄を検出することができる。すなわち、一の仮想マシンが、他の仮想マシンにおける記憶デバイスの原本性を保証することができる。

　上述した本発明の実施例は、本発明の説明のための例示であり、本発明の範囲をそれらの実施例にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。

　例えば、判定基準の変更において誤判定回避機能を適用するように変更することは、ストレージ装置以外が行ってもよい。例えば、ストレージ装置に接続されている管理計算機やホスト計算機などが行ってもよい。また、不整合判定をその管理計算機やホスト計算機で行ってもよい。例えば、ストレージ装置は、リードしたデータを管理計算機等に送信し、その管理計算機が不整合判定を行ってもよい。

　例えば、実施例４では仮想化環境上で動作する仮想マシンを用いて説明したが、実施例４に係る処理は、必ずしも仮想マシンに限られず、物理的なストレージ装置を用いて実現されてもよい。

　２０－１、２０－２、２０－３、２０－４：スクラバプログラム　２１：整合性確認プログラム

Claims

　２以上の第１領域を有する第１記憶部と、
　２以上の第２領域を有する第２記憶部と、
　前記２以上の第１領域のうちの或る第１領域から第１対象チャンクデータをリードし、前記２以上の第２領域のうちの前記或る第１領域に対応した第２領域から第２対象チャンクデータをリードし、前記第１対象チャンクデータと、前記第２対象チャンクデータとが正しい対応関係にあるか否かの判定である不整合判定を実行するコントローラと
を備え、
　前記コントローラは、ストレージ装置の構成に関する情報である構成情報を保持しており、
　前記コントローラは、前記構成情報に従って、前記不整合判定の判定基準を決定し、
　前記不整合判定は、前記決定された判定基準に従い実行される、
ストレージ装置。
　前記構成情報が、前記第１対象チャンクデータに対応するデータブロックが前記或る第１領域にライトされるタイミングと、前記第２対象チャンクデータに対応するデータブロックが前記対応した第２領域にライトされるタイミングとが異なり得る構成を表しており、且つ、前記コントローラが、前記第１対象チャンクデータと前記第２対象チャンクデータとが正しい対応関係にないと前記不整合判定において初めて検出した場合、前記コントローラは、
　　前記初めての検出から前記或る第１領域が更新されるタイミングに基づく待機時間の待機後に再び前記或る第１領域から前記第１対象チャンクデータをリードしその再びリードされた第１対象チャンクデータと前記初めての検出に関わる前記第１対象チャンクデータとが一致するか否かに基づいて前記不整合判定の判定基準を変更する
請求項１に記載のストレージ装置。
　前記コントローラは、
　　前記不整合判定を行う判定基準を変更した場合であって、前記再びリードされた第１対象チャンクデータと、前記初めての検出に関わる前記第１対象チャンクデータとが一致する場合、前記第１対象チャンクデータと前記第２対象チャンクデータとは正しい対応関係にないと前記不整合判定において判定する
請求項２に記載のストレージ装置。
　前記コントローラは、
　　前記不整合判定を行う判定基準を変更した場合であって、前記再びリードされた第１対象チャンクデータと、前記初めての検出に関わる前記第１対象チャンクデータとが不一致の場合、
　　前記待機時間の待機後に前記或る第１領域から第１対象チャンクデータをリードし、この今回リードした第１対象チャンクデータと前回にリードされた第１対象チャンクデータとが一致するか否かの判定を繰り返し実行しても一致しないならば、前記不整合判定において正しい対応関係にあると判定する
請求項３に記載のストレージ装置。
　他のストレージ装置に接続されており、
　前記第１記憶部には、前記或る第１領域を含む複数の第１領域にそれぞれ格納されている複数の第１対象チャンクデータから構成される第１データが格納されており、前記第２記憶部には、前記複数の第１領域にそれぞれ対応した複数の第２領域にそれぞれ格納されている複数の第２対象チャンクデータから構成される第２データが格納されており、
　前記コントローラは、
　　前記第１データおよび前記第２データのセットを前記他のストレージ装置にバックアップデータとして保存し、
　　前記第１データを構成する複数の第１対象チャンクデータと、前記第２データを構成する複数の第２対象チャンクデータとについて前記不整合判定を実行し、何れかのチャンクデータが正しい対応関係にない場合、前記バックアップデータに一貫性の確認に失敗した旨を表す情報を対応付けて前記他のストレージ装置に保存する
請求項１に記載のストレージ装置。
　前記コントローラは、
　　前記複数の第１対象チャンクデータと、前記複数の第２対象チャンクデータとについて前記不整合判定を実行し、何れのチャンクデータも正しい対応関係にある場合、前記バックアップデータに一貫性の確認に成功した旨を表す情報を対応付けて前記他のストレージ装置に保存し、
　　前記バックアップデータに関する前記不整合判定を実行していない場合、前記バックアップデータに一貫性の確認が未実行である旨を表す情報を対応付けて前記他のストレージ装置に保存する
請求項５に記載のストレージ装置。
　前記コントローラは、
　　前記不整合判定において、前記何れかのチャンクデータが正しい対応関係にない場合、前記他のストレージ装置に保存されているバックアップデータのうち、一貫性の確認に成功した旨を表す情報が対応付けられているバックアップデータを用いて前記第１記憶部および前記第２記憶部にデータをリストアする
請求項６に記載のストレージ装置。
　前記コントローラは、
　　前記正しい対応関係にないチャンクデータを格納している第１領域が、ストレージ装置を制御するデータの格納される領域である場合、前記一貫性の確認に成功した旨を表す情報が対応付けられているバックアップデータを用いて前記第１記憶部および前記第２記憶部にデータをリストアする
請求項７に記載のストレージ装置。
　前記コントローラは、前記他のストレージ装置からデータのリストアに用いるバックアップデータを選択するためのユーザインタフェースであって、前記ユーザインタフェースに、一貫性の確認に成功又は失敗した旨を表す情報が対応付けられているバックアップデータを識別可能な態様で表示する
請求項５に記載のストレージ装置。
　複数の他のストレージ装置に接続されており、
　前記コントローラは、
　　他のストレージ装置毎に前記他のストレージ装置で発生した障害の数を示す障害発生数を管理し、
　　前記バックアップデータにそのバックアップデータが一貫性の確認に成功したか否かを表す情報を対応付けて前記複数の他のストレージ装置に保存し、
　　前記複数の他のストレージ装置のうち前記障害発生数が比較的少ない他のストレージ装置に保存されており且つ一貫性の確認に成功した旨を表す情報が対応付けられているバックアップデータを、前記第１記憶部および前記第２記憶部のデータのリストアに用いる
請求項５に記載のストレージ装置。
　複数の他のストレージ装置に接続されており、
　前記コントローラは、
　　他のストレージ装置毎に前記他のストレージ装置の有する前記第１記憶部および前記第２記憶部への書き込みの可否を示す情報を管理し、
　　前記他のストレージ装置において前記第１記憶部への書き込みが不可である場合、前記他のストレージ装置の有する前記第２記憶部を、前記他のストレージ装置に代って前記コントローラが管理し、
　　前記第１記憶部のデータと前記第２記憶部のデータとに対する前記不整合判定の結果に基づいて、前記第１記憶部のデータに対する改竄の有無を検出する
請求項１に記載のストレージ装置。
　２以上の第１領域を有する第１記憶部と２以上の第２領域を有する第２記憶部とを備えるストレージ装置の制御方法であって、前記ストレージ装置の有するコントローラが、
　前記ストレージ装置の構成に関する情報である構成情報を参照し、
　第１記憶部が有する２以上の第１領域のうちの或る第１領域から第１対象チャンクデータをリードし、第２記憶部が有する２以上の第２領域のうちの前記或る第１領域に対応した第２領域から第２対象チャンクデータをリードし、前記第１対象チャンクデータと、前記第２対象チャンクデータとが正しい対応関係にあるか否かの判定である不整合判定の判定基準を、前記構成情報に従って決定する
制御方法。
　前記構成情報が、前記第１対象チャンクデータに対応するデータブロックが前記或る第１領域にライトされるタイミングと、前記第２対象チャンクデータに対応するデータブロックが前記対応した第２領域にライトされるタイミングとが異なり得る構成を表しており、且つ、前記第１対象チャンクデータと前記第２対象チャンクデータとが正しい対応関係にないと前記不整合判定において初めて検出された場合、前記初めての検出から前記或る第１領域が更新されるタイミングに基づく待機時間の待機後に再び前記或る第１領域から前記第１対象チャンクデータをリードしその再びリードされた第１対象チャンクデータと前記初めての検出に関わる前記第１対象チャンクデータとが一致するか否かに基づいて前記不整合判定の判定基準を変更する、
請求項１２に記載の制御方法。
　前記不整合判定を行う判定基準を変更した場合、前記再びリードされた第１対象チャンクデータと、前記初めての検出に関わる前記第１対象チャンクデータとが一致する場合、前記第１対象チャンクデータと前記第２対象チャンクデータとは正しい対応関係にないと前記不整合判定において判定される
請求項１３に記載の制御方法。
　前記ストレージ装置が他のストレージ装置に接続されており、
　前記第１記憶部には、前記或る第１領域を含む複数の第１領域にそれぞれ格納されている複数の第１対象チャンクデータから構成される第１データが格納されており、前記第２記憶部には、前記複数の第１領域にそれぞれ対応した複数の第２領域にそれぞれ格納されている複数の第２対象チャンクデータから構成される第２データが格納されており、
　前記ストレージ装置の有する前記コントローラが、
　　前記第１データおよび前記第２データのセットを前記他のストレージ装置にバックアップデータとして保存し、
　　前記第１データを構成する複数の第１対象チャンクデータと、前記第２データを構成する複数の第２対象チャンクデータとについて前記不整合判定を実行し、何れかのチャンクデータが正しい対応関係にない場合、前記バックアップデータに一貫性の確認に失敗した旨を表す情報を対応付けて前記他のストレージ装置に保存する
請求項１２に記載の制御方法。