WO2015052836A1

WO2015052836A1 - ストレージ装置及びフェールオーバ方法

Info

Publication number: WO2015052836A1
Application number: PCT/JP2013/077783
Authority: WO
Inventors: 真幹五味; 信之雜賀
Original assignee: 株式会社日立製作所
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2015-04-16
Also published as: US9262289B2; US20150301913A1

Abstract

　ストレージ装置は、ストレージ装置の物理リソースを論理的に分割することにより得られた第１及び第２論理リソースがそれぞれ割り当てられた第１及び第２ＬＰＡＲ（論理区画）を管理する仮想化機構を有する。仮想化機構は、メモリに基づく領域であり第１及び第２ＬＰＡＲがアクセス可能な共有メモリ領域を提供する。第１ＬＰＡＲは、共有メモリ領域に対して、第１ＬＰＡＲが担当しているデータ入出力処理を第２ＬＰＡＲに引継ぐために必要な引継ぎ必要情報を格納する。第２ＬＰＡＲは、第１ＬＰＡＲにおける障害の発生を検出した場合に、共有メモリ領域から引継ぎ必要情報を取得し、引継ぎ必要情報に基づいて、第１ＬＰＡＲが担当していたデータ入出力処理を引継いで実行する。

Description

ストレージ装置及びフェールオーバ方法

　本発明は、複数の論理区画（ＬＰＡＲ：Logical　Partition）間のフェールオーバに関する。

　ネットワークを構成する要素は一般にノードと呼ばれるが、複数のノード（例えば、サーバマシン）を連結したクラスタが知られている。ここで、クラスタとは、外部の装置に対して全体で１台のノード（装置）であるかのように振る舞うシステムをいう。クラスタでは、一般に、いずれかのノードに障害が発生した場合に、他のノードが処理やデータを引き継ぐフェールオーバが実行される。

　フェイルオーバに関して、例えば、フェールオーバ発生時であっても、ディスクＩ／Ｏ性能劣化を抑えながら、トランザクションの整合を図る技術が知られている（例えば、特許文献１参照）。また、物理計算機上のＬＰＡＲに障害が発生した場合に、他の物理計算機に交替先のＬＰＡＲを設定して、ＬＰＡＲ単位の交替を可能にする技術も知られている（例えば、特許文献２参照）。

特開２００８－２４２７４２号公報特開２０１２－１９５００５号公報

　複数のＬＰＡＲを実行可能なストレージ装置では、いずれかのＬＰＡＲに障害が発生した場合に迅速に他のＬＰＡＲにフェールオーバすることが望ましい。

　迅速にＬＰＡＲ間のフェールオーバを実行することができる。

計算機システムの構成図である。計算機システムのソフトウェア含む構成図である。クラスタ構成管理テーブルの一例の構成図である。引継ぎ情報管理テーブルの一例の構成図である。障害監視管理テーブルの一例の構成図である。初期処理の模式図である。通常処理の模式図である。障害監視処理の一部分の模式図である。障害監視処理の残り部分の模式図である。フェールオーバ処理の模式図である。初期処理のフローチャートである。ファイルアクセス処理のフローチャートである。デステージ処理のフローチャートである。障害監視処理及びフェールオーバ処理のシーケンス図である。カウンタ更新処理のフローチャートである。障害監視処理及びフェールオーバ処理のフローチャートである。カウンタ監視処理のフローチャートである。共有メモリへのアクセスを説明するシーケンス図である。メモリダンプ処理のシーケンス図である。計算機システムの概要を示す。

　以下、図面を参照して一実施例を説明する。

　なお、以下の説明では「ａａａテーブル」等の表現にて情報を説明する場合があるが、情報は、テーブル等のデータ構造以外で表現されていてもよい。データ構造に依存しないことを示すために「ａａａテーブル」等について「ａａａ情報」と呼ぶことができる。

　また、以下の説明では、プログラムを主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（Central　Processing　Unit））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又は通信インタフェースを用いながら行うため、処理の主語が、プロセッサとされても良い。また、プロセッサが、処理の一部又は全部を行うハードウェア回路を含んでも良い。コンピュータプログラムは、プログラムソースから計算機にインストールされても良い。プログラムソースは、例えば、プログラム配布サーバ、又は、計算機が読み取り可能な記憶メディアであっても良い。

　また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号を使用し、同種の要素を区別して説明する場合には、参照符号に代えて要素に割り振られた識別番号を使用することがある。

　また、以下の説明における用語の意味は、下記の通りである。
（＊）「ＬＰＡＲ」は、論理区画（Logical　Partition）の略であり、物理リソースを論理的に分割することにより得られた論理リソースが割り当てられた仮想マシンである。ＬＰＡＲは、外部の装置（例えばクライアント）に１つの装置として認識される。
（＊）「ハイパバイザ」は、ＬＰＡＲを生成して稼働さる仮想化機構の一種である。
（＊）「ノード」は、ネットワークを構成する要素を意味する。本実施例では、ノードは、クラスタの構成要素であるＬＰＡＲである。
（＊）「クラスタ」は、複数のノードで構成され外部の装置（例えばクライアント）に対して全体で１台のノード（装置）であるかのように振る舞うシステムである。
（＊）「フェールオーバ」は、第１装置に障害が発生した場合に第２装置が処理やデータを引き継ぐこと、またはその機能を意味する。第１装置及び第２装置は、それぞれ、物理的な装置であっても、論理的な装置であっても良い。本実施例では、第１及び第２装置のいずれもＬＰＡＲである。

　まず、図２０を参照して、実施例に係る計算機システムの概要を説明する。

　計算機システムが、ストレージ装置の一例でありクライアント８０に接続された統合プラットフォーム装置１０を有する。統合プラットフォーム装置１０において、ハイパバイザ６０によって生成された複数のＬＰＡＲ５０が動作する。ハイパバイザ６０は、メモリを含む物理リソースが論理的に分割されることにより得られた複数の論理リソースと、複数の論理リソースの各々の割当先ＬＰＡＲを管理する。ＬＰＡＲ５０として、ＬＰＡＲ１及び２がある。メモリを論理的に分割することにより、論理リソースとして、メモリ領域１、メモリ領域２及び共有メモリ領域２１２が得られる。ＬＰＡＲ１に、メモリ領域１が割り当てられ、ＬＰＡＲ２に、メモリ領域２が割り当てられる。また、ＬＰＡＲ１及び２に、ＬＰＡＲ１及び２のいずれもアクセス可能な共有メモリ領域が割り当てられる。

　ＬＰＡＲ１が、ＬＰＡＲ１の動作をＬＰＡＲ２に引継ぐ引継ぎ必要情報を、共有メモリ領域２１２に格納する（図２０（１））。ここで、引継ぎ必要情報としては、例えば、ＬＰＡＲ１におけるリソースグループに関する情報、ファイルシステムにおける設定情報、ファイルシステムにおけるファイルのロックに関する情報（ロック情報）等がある。ＬＰＡＲ１は、クライアント８０からファイルに対するアクセス要求を受信した場合（図２０（２））、アクセス要求の対象ファイルに対するロック情報を、共有メモリ領域２１２の引継ぎ情報に反映する（図２０（３））。そして、ＬＰＡＲ１において障害が発生したことをＬＰＡＲ２が認識すると、ＬＰＡＲ２は、共有メモリ領域２１２の引継ぎ必要情報を取得し、引継ぎ必要情報に基づいて、各種設定等を行う。これにより、ＬＰＡＲ２が、ＬＰＡＲ１による処理を引継いで実行する。このように、本実施例によると、共有メモリ領域２１２から引継ぎ必要情報を取得できるので、ＬＰＡＲ１で障害が発生した際に、迅速にフェールオーバすることができる。

　次に、実施例を詳細に説明する。

　図１は、計算機システムの構成図である。

　計算機システムは、複数（又は１つ）のクライアント８０と、複数のクライアント８０が接続された統合プラットフォーム装置１０とを有する。クライアント８０と、統合プラットフォーム装置１０とは、例えば、ＴＣＰ／ＩＰネットワーク等の通信ネットワークを介して接続されている。

　クライアント８０は、上位装置の一例であり、統合プラットフォーム装置１０に対して、ファイル単位でデータのアクセス（リード、ライト）を実行する計算機である。具体的には、クライアント８０は、統合プラットフォーム装置１０に対して、ファイルアクセス要求（ファイルのリード要求又はライト要求）を発行する。

　クライアント８０は、メモリ８１と、ＮＩＣ（Network　Interface　card）８３と、物理記憶デバイス（以下、ＰＤＥＶ）８４と、それらに接続されたＣＰＵ８２とを有する。メモリ８１は、ＣＰＵ８２で使用されるプログラムやデータを記憶する。ＣＰＵ８２は、メモリ８１に記憶されたプログラムを実行することにより、各種処理を実行する。ＮＩＣ８３は、他の装置（例えば、統合プラットフォーム装置１０）と接続するための通信インタフェースデバイスの一例である。ＰＤＥＶ８４は、例えば、ＨＤＤ（Hard　Disk　Drive）又はＳＳＤ(Solid　State　Drive)のような不揮発性の記憶デバイスである。ＰＤＥＶ８４は、ＣＰＵ８２で実行されるＯＳ（Operating　System）等のクライアント８０を制御するプログラム等を格納してよい。

　統合プラットフォーム装置１０は、サーバ部２０と、ストレージ部１１とを有する。サーバ部２０と、ストレージ部１１とは、内部データバス（例えば、ＰＣＩｅバス）４０を介して接続されている。

　サーバ部２０は、回路基板（例えばブレードサーバ）でよい。サーバ部２０は、メモリ２１と、ＮＩＣ２３と、内部Ｉ／Ｆ２４と、それらに接続されたＣＰＵ２２とを有する。メモリ２１は、例えば、ＤＲＡＭ（Dynamic　Random　Accesss　Memory）であり、ＣＰＵ２２が実行する各種プログラムやデータを記憶する。ＣＰＵ２２は、メモリ２１に格納された各種プログラムを実行することにより、各種処理を実行する。ＮＩＣ２３は、他の装置（例えば、クライアント８０）と接続するための通信インタフェースデバイスの一例である。サーバ部２０は、１又は複数のＯＳを実行し、ファイルサーバ機能の提供や、アプリケーションの実行を行う。内部Ｉ／Ｆ２４は、内部データバス４０を通じて通信するための通信インタフェースデバイスの一例である。サーバ部２０は、クライアント８０からのファイルアクセス要求を受信し、そのアクセス要求に基づくブロックＩ／Ｏ要求（アクセス対象のファイルを構成するデータブロックのＩ／Ｏ要求）をストレージ部１１に送信する。

　ストレージ部１１は、複数のＰＤＥＶ３１と、複数のＰＤＥＶ３１に接続されたＲＡＩＤ（Redundant　Array　of　Independent　(or　Inexpensive)　Disks）制御部３０とを有する。２以上のＰＤＥＶ３１によりＲＡＩＤグループが構成されていてよい。ＲＡＩＤグループに基づいてＬＵ（Logical　Unit）が構成される。ＲＡＩＤ制御部３０は、ＰＤＥＶ３１に対するアクセスを制御するモジュール（例えば回路基板）であり、内部データバス４０を通じて通信するための通信インタフェースデバイスと、メモリと、それらに接続されたＣＰＵとを有してよい。ＲＡＩＤ制御部３０は、サーバ部２０からブロックレベルのＩ／Ｏ要求を受信し、そのＩ／Ｏ要求に従い、ＰＤＥＶ３１に対するＩ／Ｏ処理（リード処理／ライト処理）を実行する。

　図２は、計算機システムのソフトウェアを含む構成図である。

　統合プラットフォーム装置１０は、クライアント８０に加えて管理計算機９０にも接続されている。管理計算機９０は、計算機システムの管理者が、計算機システムを管理するために用いる計算機であり、例えば、管理者から各種指示を受け付けて統合プラットフォーム装置１０に送信する。

　統合プラットフォーム装置１０では、メモリ２１上のハイパバイザ６０がＣＰＵ２２により実行される。ハイパバイザ６０は、統合プラットフォーム装置１０の物理リソース（メモリ２１、ＣＰＵ２２、ＮＩＣ２３等）を論理的に分割することにより得られた論理リソースを管理する。ハイパバイザ６０は、論理リソースが割り当てられたＬＰＡＲ５０を生成する。各ＬＰＡＲ５０でＯＳが実行されてよい。ハイパバイザ６０は、メモリ２１を論理的に分割することにより、ＬＰＡＲ１用のメモリ領域１、ＬＰＡＲ２用のメモリ領域２、及び、ＬＰＡＲ１及び２の共有メモリ領域２１２を用意する。共有メモリ領域２１２には、例えば、後述するクラスタ構成管理テーブル１００（図３参照）、引継ぎ情報管理テーブル１１０（図４参照）、及び障害監視管理テーブル１３０（図５参照）が管理される。

　ＣＰＵ２２を論理的に分割することにより、論理リソースとして、ＣＰＵ１及びＣＰＵ２が得られる。ＣＰＵ１は、ＬＰＡＲ１のＣＰＵ（ＬＰＡＲ１に割り当てられた論理リソース）であり、ＣＰＵ２は、ＬＰＡＲ２のＣＰＵである。

　ＬＰＡＲ５０は、ファイル共有プログラム５１と、ファイルシステム５２と、フェールオーバプログラム５３と、カーネル／ドライバ５４とを実行する。

　ファイル共有プログラム５１は、ＣＩＦＳ（Common　Internet　File　System）、ＮＦＳ（Network　File　System）等の通信プロトコルを使用して、複数のクライアント間でファイルを共有することのできるファイル共有サービスを提供する。

　ファイルシステム５２は、ＬＵ３１１上にファイルという管理単位を実現するために構築された論理構造を含む。本実施例では、ファイルシステム５２は、論理構造を管理するファイルシステムプログラムを含む。ファイルシステム５２は、論理構造として、スーパーブロック、ｉｎｏｄｅ管理テーブル、データブロックを含む。スーパーブロック、ｉｎｏｄｅ管理テーブル、及びデータブロックは、公知であるので、ここでは、簡単な説明に留める。スーパーブロックは、ファイルシステムの情報を一括保持する。例えば、スーパーブロックは、ファイルシステムの大きさ、ファイルシステムの空き容量等のファイルシステム全体の管理情報を保持する。ｉｎｏｄｅ管理テーブルは、個々のファイル／ディレクトリのメタ情報を管理する。ｉｎｏｄｅ管理テーブルは、ファイルについては、データブロックへのアドレスも管理する。なお、ファイルシステム５２の構造体は、ＬＵ３１１に格納されており、その構造体の一部又は全部がＬＰＡＲ用のメモリ領域に呼び出される。

　フェールオーバプログラム５３は、同一のクラスタの他のＬＰＡＲ５０の障害発生を監視し、障害を検知した場合には、障害元のＬＰＡＲ５０で稼働していたリソース（ＩＰアドレス、ファイルシステム等）を引継いで、障害元のＬＰＡＲ５０で実行していたファイル共有サービスを再開させるフェールオーバを実行する。

　カーネル／ドライバ５４は、統合プラットフォーム装置１０上で動作する複数のプログラム（プロセス）のスケジュールを制御したり、ハードウェアからの割込みをハンドリングしたりする等の全般的な制御及びハードウェア固有の制御を行うプログラムである。

　ＲＡＩＤ制御部３０は、ＲＡＩＤグループに基づくＬＵ３１１に対して入出力処理を実行する。

　図２に示すように、ＬＡＰＲ　ｎ（ｎ＝１又は２）が実行するプログラム、及び、ＬＰＡＲ　ｎに割り当てた論理リソースには、ＬＰＡＲと同じ番号ｎが割り振られている。以下、説明が冗長になることを避けるために、ＬＰＡＲ　ｎが実行するプログラム又はＬＰＡＲ　ｎに割り当てられた論理リソースを、参照符号に代えて番号ｎを使用して説明することがある。

　図３は、クラスタ構成管理テーブルの一例の構成図である。

　クラスタ構成管理テーブル１００は、相手ノード名称１００ａ、監視間隔１００ｂ、リソースグループ数１００ｃ、リソースグループ　１００ｄのフィールドを有する。

　相手ノード名称１００ａには、クラスタ構成となる相手のノード（ＬＰＡＲ）のノード名が格納される。監視間隔１００ｂには、障害監視を行う時間間隔が格納される。リソースグループ数１００ｃには、ＬＰＡＲにおけるファイル共有サービスを提供する上で必要なリソースをグループ化したリソースグループの数が格納される。リソースグループ　１００ｄの数は、リソースグループ数１００ｃに設定されたリソースグループの数以上である。リソースグループ　１００ｄには、リソースグループに関する情報（リソースグループ情報）、例えば、リソースグループに対してクライアント８０からアクセスするためのＩＰアドレスと、リソースグループに属するファイルシステムの数と、リソースグループに属する各ファイルシステムのファイルシステム名とが格納される。

　図４は、引継ぎ情報管理テーブルの一例の構成図である。

　引継ぎ情報管理テーブル１１０は、ＮＦＳ設定情報１１０ａと、ＣＩＦＳ設定情報１１０ｂと、ロック情報１１０ｃとのフィールドを有する。

　ＮＦＳ設定情報１１０ａ及びＣＩＦＳ設定情報１１０ｂには、それぞれ、公開先ＩＰアドレス、公開ｄｉｒ名、及びアクセス権が格納される。公開先ＩＰアドレスは、ファイルシステムを公開している計算機（クライアント等）のＩＰアドレスである。公開ｄｉｒ名は、公開しているディレクトリの名称である。公開しているディレクトリとしては、ファイルシステム内のディレクトリ、ファイルシステムのルートディレクトリ、又はグローバルネームスペースのルートディレクトリであっても良い。アクセス権は、公開先に対してどのようなアクセスが許可されているかを示す。アクセス権としては、リードのみ許可、リード及びライト許可等がある。

　ロック情報１１０ｃには、ファイル名及びＩＰアドレスが格納される。ファイル名は、ロック対象のファイルの名称である。ＩＰアドレスは、ファイル名のファイルをロックしている計算機（ロックオーナ）のＩＰアドレスである。

　本実施例の説明では、クラスタ構成管理テーブル１００に格納される情報全体を、「クラスタ構成情報」と呼び、引継ぎ情報管理テーブル１１０に格納される情報全体を、「引継ぎ情報」と呼ぶことがある。クラスタ構成管理テーブル１００及び引継ぎ情報管理テーブル１１０に設定されている情報が引継ぎ必要情報の一例である。

　図５は、障害監視管理テーブルの一例の構成図である。

　障害監視管理テーブル１２０は、カウンタ１　１２０ａと、カウンタ２　１２０ｂと、障害フラグ１２０ｃとのフィールドを有する。カウンタ１　１２０ａには、ＬＰＡＲ１によりカウントアップされるカウント値が格納される。カウンタ２　１２０ｂには、ＬＰＡＲ２によりカウントアップされるカウント値が格納される。カウント値は、カウントアップに代えてカウントダウン等の別の方法により更新されてもよい。カウント値が確認用情報の一例である。障害フラグ１２０ｃには、ＬＰＡＲに障害が発生したか否かを示すフラグ（障害フラグ）が格納される。障害フラグは、ハイパバイザ６０がＬＰＡＲの障害を検知した時にＯＮ（オン）に設定される。

　以下、本実施例で行われる処理を説明する。

　まず、初期処理を、図６及び図１１を参照して説明する。

　図６は、初期処理の模式図であり、図１１は、初期処理のフローチャートである。

　管理計算機９０は、管理者からＬＰＡＲ１についてのクラスタ構成情報及び引継ぎ情報の入力を受け付け、クラスタ構成要求の指示を受け付ける（図６（１））と、受け付けたクラスタ構成情報及び引継ぎ情報を統合プラットフォーム装置１０のＬＰＡＲ１に送信する（図６（２））。

　ＬＰＡＲ１のフェールオーバプログラム１は、管理計算機９０からクラスタ構成情報及び引継ぎ情報を受信し（図１１（Ｓ１１））、カーネル／ドライバ５４に対して、共有メモリ領域の確保要求を行う（図１１（Ｓ１２）、図６（３））。カーネル／ドライバ５４は、ハイパバイザ６０に対して、共有メモリ領域の確保要求を行う（図６（４））。共有メモリ領域の確保要求を受け取ったハイパバイザ６０は、メモリ２１から共有メモリ領域２１２を確保する（図６（５））。

　共有メモリ領域２１２が確保された後、フェールオーバプログラム１は、カーネル／ドライバ１を介して、共有メモリ領域２１２にクラスタ構成情報をクラスタ構成管理テーブル１００として登録し（図１１（Ｓ１３）、図６（６））、共有メモリ領域２１２に、引継ぎ情報を引継ぎ情報管理テーブル１１０として登録する（図１１（Ｓ１４）、図６（６））。なお、クラスタ構成情報の一部、及び、引継ぎ情報の一部、のうちの少なくとも一方が、共有メモリ領域２１２に代えて又は加えて、少なくとも１つのＬＵ３１１に格納されてもよい。

　その後、フェールオーバプログラム１は、障害監視処理（図８、図１５、図１６、及び図１７参照）を開始する（Ｓ１５）。

　次に、初期処理後の１つの処理である通常処理を、図７、図１２、及び図１３を参照して説明する。

　図７は、通常処理の模式図であり、図１２は、ファイルアクセス処理のフローチャートであり、図１３は、デステージ処理のフローチャートである。

　クライアント８０は、ユーザからファイルアクセス要求の指示を受け付ける（図７（１））と、受け付けたファイルアクセス要求をＬＰＡＲ１に送信する（図７（２））。

　ＬＰＡＲ１のファイル共有プログラム１は、クライアント８０からファイルアクセス要求を受信すると、ファイルアクセス要求がライト要求であるか、リード要求であるかを判定する（Ｓ２１）。この結果、ファイルアクセス要求がライト要求である場合（図１２（Ｓ２１：Ｙｅｓ））には、ファイル共有プログラム１は、ファイルアクセス要求に従うアクセス対象ファイルのロックを取得し、共有メモリ領域２１２の引継ぎ情報管理テーブル１１０に、取得したロックの内容を反映する（図１２（Ｓ２２）、図７（３））。ファイル共有プログラム１は、ファイルシステム１に対して、ファイルのライト要求を行う（図１２（Ｓ２３）、図７（４））。

　ファイルシステム１は、メモリ領域１（占有メモリ領域１）のファイルに対してライト要求に対応するライト処理を実行する（図１２（Ｓ２４）、図７（５））。なお、ファイルシステム５２は、図１３に示すように、メモリ領域１に十分な空きがあるか否かを判定し（図１３（Ｓ４１））、メモリ領域１に十分な空きがない場合（図１３（Ｓ４１：Ｎｏ））には、使用率の低いファイルをデステージする、すなわち、使用率の低いファイルをメモリ領域１からＬＵ３１１へ書き込む（図１３（Ｓ４２）、図７（６））。

　ファイルシステム１によるライト処理の実行後に、ファイル共有プログラム１は、要求元のクライアント８０に応答を返し（図１２（Ｓ２５））、ロックを解除し、共有メモリ領域２１２の引継ぎ情報管理テーブル１１０から、解除したロックの内容を削除し（図１２（Ｓ２６））、ファイルアクセス処理を終了する。

　一方、ファイルアクセス要求がリード要求である場合（図１２（Ｓ２１：Ｎｏ））には、ファイル共有プログラム１は、ファイルアクセス要求に従うアクセス対象のファイルのロックを取得し、共有メモリ領域２１２の引継ぎ情報管理テーブル１１０に、取得したロックの内容を反映する（図１２（Ｓ２７）、図７（３））。ファイル共有プログラム５１は、ファイルシステム５２に対して、ファイルのリード要求を行う（図１２（Ｓ２８）、図７（４））。

　ファイルシステム１は、メモリ領域１（占有メモリ領域１）のファイルに対してリード要求に対応するリード処理を実行する（図１２（Ｓ２９）、図７（５））。

　ファイルシステム１によるリード処理の実行後に、ファイル共有プログラム１は、要求元のクライアント８０に取得したファイルを返し（図１２（Ｓ３０））、ロックを解除し、共有メモリ領域２１２の引継ぎ情報管理テーブル１１０から、解除したロックの内容を削除し（図１２（Ｓ３１））、ファイルアクセス処理を終了する。

　次に、障害監視処理を、図８、図９、図１５、図１６、及び図１７を参照して説明する。

　図８は、障害監視処理の一部分の模式図であり、図９は、障害監視処理の残り部分の模式図であり、図１５は、カウンタ更新処理のフローチャートであり、図１６は、障害確認処理及びフェールオーバ処理のフローチャートであり、図１７は、カウンタ監視処理のフローチャートである。

　図８に示すように、フェールオーバプログラム１及び２は、障害監視管理テーブル１２０のそれぞれのＬＰＡＲに対応するカウンタの値を所定の時間毎に更新する（図８（１）、図１５（Ｓ５１））。

　一方、ハイパバイザ６０は、障害監視管理テーブル１２０のそれぞれのＬＰＡＲに対応するカウンタの値を確認し（図８（２）、図１７（Ｓ８１））、各カウンタが一定期間内に更新されたか否かを判定する（図１７（Ｓ８２））。この結果、更新されている場合（Ｓ８２：Ｙｅｓ）には、ハイパバイザ６０は、処理をＳ８１に進め、更新されていない場合（Ｓ８２：Ｎｏ）には、障害監視管理テーブル１２０の障害フラグ１２０ｃの値をＯＮに設定する（図８（３）、図１７（Ｓ８３））。ＬＰＡＲに障害が発生していることを通知するためである。

　次に、フェールオーバプログラム１（２）は、カーネル／ドライバ１（２）及びハイパバイザ６０を介して、共有メモリ領域２１２の障害監視管理テーブル１２０の障害フラグ１２０ｃの値を監視する（図９（１）、図１６（Ｓ６１））。

　フェールオーバプログラム１（２）は、障害が発生しているか否かを判定する（Ｓ６２）。具体的には、フェールオーバプログラム１（２）は、共有メモリ領域２１２の障害監視管理テーブル１２０の障害フラグ１２０ｃの値がＯＮである場合には、障害が発生していると判定する。この結果、障害が発生していない場合（図１６（Ｓ６２：Ｎｏ））には、フェールオーバプログラム１（２）は、処理をＳ６１に進め、障害が発生している場合（Ｓ６２：Ｙｅｓ）には、後述するフェールオーバ処理（Ｓ６３～Ｓ６７）を実行する。

　ここで、障害が発生した場合を例に計算機システムの動作を説明する。

　図１４は、障害監視処理及びフェールオーバ処理のシーケンス図である。

　ＬＰＡＲ１及びＬＰＡＲ２においても障害が発生していない場合には、図１５に示すカウンタ更新処理のＳ５１により、フェールオーバプログラム１は、障害監視管理テーブル１２０のカウント値１（カウンタ１　１２０ａのカウント値）を所定の時間毎に更新し（図１４（１））、フェールオーバプログラム２は、障害監視管理テーブル１２０のカウント値２（ＬＰＡＲ２に対応するカウンタ２　１２０ｂのカウント値）を所定の時間毎に更新する（図１４（２））。この結果、ハイパバイザ６０によるカウンタ監視処理（図１７）においては、障害監視管理テーブル１２０の障害フラグ１２０ｃの値は、ＯＮに設定されない（図１４（３））。

　しかし、ＬＰＡＲ１において障害が発生すると、フェールオーバプログラム１は、カウンタ更新処理のＳ５１により、カウント値１を更新することができなくなる（図１４（４））。この結果、以降に行われるカウンタ監視処理（図１７）において、カウント値１が一定期間更新されていないことが検出され、障害監視管理テーブル１２０の障害フラグ１２０ｃの値が、ＯＮに設定されることとなる（図１４（５））。

　この後、ＬＰＡＲ２のフェールオーバプログラム２が、図１６に示す障害確認処理及びフェールオーバ処理を実行すると、障害監視管理テーブル１２０の障害フラグ１２０ｃの値がＯＮに設定されているので、Ｓ６２で障害が発生していると判定され、後続のフェールオーバ処理（Ｓ６３～Ｓ６７）が実行される（図１４（６））。

　次に、ＬＰＡＲに障害が発生している場合におけるフェールオーバ処理を図１０及び図１６を参照して説明する。障害が発生した一方のＬＰＡＲをＬＰＡＲ１とし、他方のＬＰＡＲをＬＰＡＲ２とする。

　ＬＰＡＲ１において障害が発生したことを検出したフェールオーバプログラム２は、カーネル／ドライバ２及びハイパバイザ６０を介して、共有メモリ領域２１２のクラスタ構成管理テーブル１００からリソースグループ情報（具体的には、クラスタ構成管理テーブル１００のリソースグループ　１００ｄに設定されている情報）を取得する（図１０（１）、図１６（Ｓ６３））。次に、フェールオーバプログラム２は、リソースグループ情報から特定されるファイルシステムをチェックし、そのファイルシステムをＬＰＡＲ２にマウントする（図１０（２）、図１６（Ｓ６４））。これにより、ＬＰＡＲ２は、ＬＰＡＲ１が使用していたファイルシステムを使用できるようになる。

　次に、フェールオーバプログラム５３は、リソースグループ情報に含まれているＩＰアドレスをＬＰＡＲ２のＩＰアドレスに設定する（図１０（３）、図１６（Ｓ６５））。これにより、ＬＰＡＲ２は、ＬＰＡＲ１がクライアント８０から受信していたアクセス要求を受信できるようになる。

　次に、フェールオーバプログラム２は、カーネル／ドライバ２及びハイパバイザ６０を介して、共有メモリ領域２１２の引継ぎ情報管理テーブル１１０から引継ぎ情報（具体的には、引継ぎ情報管理テーブル１１０のＮＦＳ設定情報１１０ａ、ＣＩＦＳ設定情報１１０ｂ、ロック情報１１０ｃに設定された情報）を取得し、取得した情報に基づいて、ファイル共有プログラム２を設定し（図１０（４）、図１６（Ｓ６６））、ファイル共有プログラム２による動作を再開してクライアント８０からのアクセス要求を受け付け可能とする（図１０（５））。

　このように、ＮＦＳ設定情報１１０ａ、ＣＩＦＳ設定情報１１０ｂ、ロック情報１１０ｃに設定された情報に基づいてファイル共有プログラム２を設定するので、ファイル共有プログラム２を、ＬＰＡＲ１におけるファイル共有プログラム１の使用状態と同じ状態としてファイル共有サービスを提供できる。例えば、ＬＰＡＲ１においてファイルシステムを公開していたクライアント８０に対して、同様のアクセス権のファイル共有サービスを提供することができる。また、ＬＰＡＲ１においてファイルシステムを使用していた場合におけるロックの状態を維持することができる。したがって、或るクライアント８０からのファイルアクセス要求によって或るファイルに対してロックがかけられた状態において、ＬＰＡＲ１に障害が発生した場合であっても、ＬＰＡＲ２において、そのロックの状態を引継ぐことができるので、ロックされていたファイルが他のクライアント８０により占有されることを防止でき、クライアント８０に対してファイルアクセスを継続させることができる。

　次に、フェールオーバプログラム２は、障害の発生したＬＰＡＲ１をリセットするリセット処理（図１６（Ｓ７１～Ｓ７３））を行う（図１６（Ｓ６４））。なお、このリセット処理を実行するにあたっては、障害の発生したＬＰＡＲ１のメモリ領域１のデータをクリア（消去）しないようにしている。

　リセット処理では、フェールオーバプログラム２は、障害の発生したＬＰＡＲ１のメモリ領域１中の未使用領域にＯＳをロードし、ＯＳを起動する（図１６（Ｓ７１））。

　次に、フェールオーバプログラム２は、カーネル／ドライバ２及びハイパバイザ６０を介して、障害の発生したＬＰＡＲ１のメモリ領域１中の実際に使用されている領域のデータを読込み（図１６（Ｓ７２））、読込んだデータをファイルとして出力する（図１６（Ｓ７３））。これにより、障害の発生したＬＰＡＲ１が使用していたメモリ領域１の情報を適切にファイルにすることができる。

　次に、計算機システムにおける一部の処理をより詳細に説明する。

　図１８は、共有メモリ領域へのアクセスを説明するシーケンス図である。図１８に示すシーケンスは、図１１に示すＳ１２乃至Ｓ１４の処理、図１６のＳ６３及びＳ６６の処理に関連する。

　まず、共有メモリ領域を確保する処理（Ｓ１２）に関わる処理について説明する。

　ＬＰＡＲ１のフェールオーバプログラム１は、ハイパバイザ６０に対してサイズを指定して共有メモリ領域確保要求を送信する（Ｓ９１）。ここで指定するサイズとしては、例えば、クラスタ構成管理テーブル１００、引継ぎ情報管理テーブル１１０、及び障害監視管理テーブル１２０の初期サイズと、運用開始後に増加すると考えられる引継ぎ情報管理テーブル１１０の増加分とを考慮したサイズである。ハイパバイザ６０は、共有メモリ領域確保要求を受信すると、要求に従ったサイズの共有メモリ領域２１２の領域を確保する（Ｓ９２）。次に、ハイパバイザ６０は、ＬＰＡＲ１に対して、共有メモリ領域２１２を一意に識別するためのハンドルを送信する（Ｓ９３）。ここで、ハンドルには、例えば、共有メモリ領域確保要求を行ったＬＰＡＲ１のＩＤと、メモリ領域２１における共有メモリ領域２１２の先頭アドレスとが含まれる。

　次に、確保した共有メモリ領域２１２にデータを格納する処理（Ｓ１３）に関わる処理について説明する。

　ＬＰＡＲ１は、共有メモリ領域２１２にデータを格納する際には、受信したハンドル、書き込むデータのサイズであるオフセット、及びデータを含むライト要求をハイパバイザ６０に送信する（Ｓ９４）。ハイパバイザ６０は、ライト要求に従って共有メモリ領域２１２にデータを格納し（Ｓ９５）、ライト要求の処理結果をＬＰＡＲ１に送信する（Ｓ９６）。

　ＬＰＡＲ１は、共有メモリ領域２１２にアクセスするためのハンドルをＬＰＡＲ２に送信する（Ｓ９７）。ＬＰＡＲ２のフェールオーバプログラム２は、共有メモリ領域にアクセスするためのハンドルをＬＰＡＲ２のメモリ領域２に格納する（Ｓ９８）。このハンドルにより、ＬＰＡＲ２は、確保された共有メモリ領域２１２に対して適切にアクセスすることができる。

　次に、共有メモリ領域２１２に格納されたデータをＬＰＡＲ２で読み出す処理（Ｓ６３、Ｓ６６）に関わる処理について説明する。

　共有メモリ領域２１２からデータを読み出す必要がある場合（Ｓ６３、Ｓ６６）には、ＬＰＡＲ２のフェールオーバプログラム２は、ＬＰＡＲ２のメモリ領域２に格納しているハンドルと、読み出すデータのサイズを示すオフセットとを含むリード要求をハイパバイザ６０に送信する（Ｓ９９）。ハイパバイザ６０は、リード要求に従って共有メモリ領域２１２からデータを読み出し（Ｓ１００）、読み出したデータをＬＰＡＲ２に送信する（Ｓ１０１）。

　このように、共有メモリ領域２１２を必要な時点で確保し、共有メモリ領域２１２を特定することのできるハンドルをＬＰＡＲ２に渡すようにしているので、共有メモリ領域２１２を予め用意しておく必要がない。

　図１９は、メモリダンプ処理のシーケンス図である。図１９に示すシーケンスは、主に、図１６のＳ７２及びＳ７３に関わる各構成の処理に対応する。

　Ｓ７２においては、ＬＰＡＲ２のフェールオーバプログラム２は、ハイパバイザ６０に対してＬＰＡＲ１のメモリ領域１（占有メモリ領域１）の情報の取得要求を送信する（Ｓ１１１）。ハイパバイザ６０は、占有メモリ領域１の情報の取得要求に従って占有メモリ領域１にアクセスし（Ｓ１１２）、ＬＰＡＲ１の占有メモリ領域情報を取得する（Ｓ１１３）。ここで、ハイパバイザ６０は、ＬＰＡＲ１のメモリ領域１の状態を把握しており、且つＬＰＡＲ１に障害が発生し、占有メモリ領域１を使用することはないので、排他制御を行うことなく容易にＬＰＡＲ１の占有メモリ領域情報を取得することができる。次に、ハイパバイザ６０は、取得した占有メモリ領域情報を、ＬＰＡＲ２に返却する（Ｓ１１４）。ハイパバイザ６０から占有メモリ領域情報の返却を受けたＬＰＡＲ２のフェールオーバプログラム２は、占有メモリ領域情報をＰＤＥＶへ書き出す（Ｓ７３）。これにより、ＬＰＡＲ１に障害が発生していても、適切にＬＰＡＲ１の占有メモリ領域１の情報を回収することができ、障害の解析等を適切に行うことができる。

　以上、一実施例を説明したが、本発明は、この実施例に限定されるものでなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、ＬＰＡＲに障害が発生したことを、ハイパバイザ６０が直接的に他のＬＰＡＲのフェールオーバプログラム５３に通知するようにしても良い。

　１０：統合プラットフォーム装置　２０：サーバ部　３０：ＲＡＩＤ制御部　８０：クライアント　９０：管理計算機

Claims

　上位装置に接続された通信インタフェースと、メモリと、それらに接続されたプロセッサとを含んだ物理リソースと、
　前記物理リソースを論理的に分割することにより得られた第１及び第２論理リソースがそれぞれ割り当てられた第１及び第２論理区画を管理する仮想化機構と
を有し、
　前記第１及び第２論理区画は、それぞれ、前記記憶デバイスに対するデータ入出力処理を実行可能であり、
　前記仮想化機構が、前記メモリに基づく領域であり前記第１及び第２論理区画がアクセス可能な共有メモリ領域を提供し、
　前記第１論理区画は、前記共有メモリ領域に対して、前記第１論理区画が担当しているデータ入出力処理を前記第２論理区画に引継ぐために必要な引継ぎ必要情報を格納し、
　前記第２論理区画は、前記第１論理区画における障害の発生を検出した場合に、前記共有メモリ領域から前記引継ぎ必要情報を取得し、前記引継ぎ必要情報に基づいて、前記第１論理区画が担当していた前記データ入出力処理を引継いで実行する、
ストレージ装置。
　前記仮想化機構は、前記第１論理区画に障害が発生したか否かを監視し、障害が発生した場合に、前記第１論理区画に障害が発生したことを前記第２論理区画が認識できるようにする、
請求項１記載のストレージ装置。
　前記第１論理区画は、正常動作時には、所定の時間間隔で正常動作していることを示す確認用情報を前記共有メモリ領域に書込み、
　前記仮想化機構は、前記共有メモリ領域の前記確認用情報を確認することにより、前記第１論理区画に障害が発生したか否かを判定する、
請求項２記載のストレージ装置。
　前記第１論理区画は、前記仮想化機構から前記共有メモリ領域の割当てを受け、割当てられた前記共有メモリ領域に対して、前記引継ぎ必要情報を書込む、
請求項１記載のストレージ装置。
　前記第１論理区画は、前記第２論理区画に対して、割当てられた前記前記共有メモリ領域を特定可能なハンドルを送信し、
　前記第２論理区画は、前記第１論理区画に障害が発生したことを認識した場合に、前記ハンドルを用いて、前記共有メモリ領域にアクセスして前記引継ぎ必要情報を取得する、
請求項４記載のストレージ装置。
　前記第１論理区画及び前記第２論理区画は、前記仮想化機構を介して前記共有メモリ領域にアクセスする、
請求項１記載のストレージ装置。
　前記第１論理区画は、ファイルシステムを有し、前記ファイルシステムを用いて、前記上位装置から要求されたファイルのデータ入出力処理を実行し、
　前記引継ぎ必要情報は、前記第１論理区画が有する前記ファイルシステムを特定する情報を含む、
請求項１記載のストレージ装置。
　前記引継ぎ必要情報は、前記上位装置が前記ファイルシステムにアクセスするためのアドレス情報を更に含む、
請求項７記載のストレージ装置。
　前記引継ぎ必要情報は、前記ファイルシステムにアクセス可能な上位装置を示す識別情報を更に含む、
請求項８記載のストレージ装置。
　前記引継ぎ必要情報は、前記ファイルシステムにアクセス可能な上位装置に関するアクセス権限を示す情報を更に含む、
請求項９記載のストレージ装置。
　前記引継ぎ必要情報は、前記ファイルシステムのファイルのロックに関する情報を含み、
　前記第１論理区画は、前記上位装置からファイルに対するアクセス要求を受け付けた場合に、前記ファイルのロックに関する情報を、前記引継ぎ必要情報に反映する、
請求項１記載のストレージ装置。
　上位装置に接続された通信インタフェースと、メモリと、それらに接続されたプロセッサとを含んだ物理リソースを論理的に分割することにより得られた第１及び第２論理リソースがそれぞれ割り当てられた第１及び第２論理区画に対し、前記メモリに基づく領域であり前記第１及び第２論理区画がアクセス可能な共有メモリ領域を提供し、
　前記第１論理区画は、前記共有メモリ領域に対して、前記第１論理区画が担当しているデータ入出力処理を前記第２論理区画に引継ぐために必要な引継ぎ必要情報を格納し、
　前記第２論理区画は、前記第１論理区画における障害の発生を検出した場合に、前記共有メモリ領域から前記引継ぎ必要情報を取得し、前記引継ぎ必要情報に基づいて、前記第１論理区画が担当していた前記データ入出力処理を引継いで実行する、
フェールオーバ方法。