WO2014162586A1

WO2014162586A1 - ストレージシステムおよびストレージシステム制御方法

Info

Publication number: WO2014162586A1
Application number: PCT/JP2013/060448
Authority: WO
Inventors: 洋俊赤池; 藤本　和久; 講平鑪; 田中　勝也; 真喜夫水野
Original assignee: 株式会社日立製作所
Priority date: 2013-04-05
Filing date: 2013-04-05
Publication date: 2014-10-09
Also published as: US9015111B2; US20150052176A1

Abstract

ストレージ装置間のデータ転送を削減し、ストレージシステムのデータアクセス性能を向上させる。第１ストレージ装置のプロセッサがホストコンピュータから仮想ボリュームへのデータアクセス要求として書き込み要求を受信し、且つデータアクセス要求に指定された仮想ボリューム内の仮想記憶領域に対して複数のストレージ装置の何れかのキャッシュメモリが割り当てられていない場合、第１ストレージ装置のプロセッサは、複数のストレージ装置の中で所定の状態条件を満たす候補の中から、第２ストレージ装置及び第３ストレージ装置を、通信路による複数のストレージ装置の間の接続を示す接続情報に基づいて選択する。

Description

ストレージシステムおよびストレージシステム制御方法

　本発明は、複数のストレージ装置を用いる技術に関する。

　複数のストレージノードを集めたクラスタ構成のストレージシステムは、各ストレージノードを並列に稼働させることにより、並列アクセスによる高いデータアクセス性能を実現すると共に、データの冗長化による高可用を実現できる。以下の説明及び図面において、ストレージノードをノードと呼ぶことがある。

　近年、ノード数の増加と伴にノード間のデータ転送量が増大し、ノード間を接続するネットワークの帯域不足によりストレージシステムの性能が低下する。この問題を解決するための方法として、以下の方法が知られている。

　第１の方法は、ローカルキャッシュを用いる（例えば特許文献１）。この方法は、複数のストレージ装置（ノード）をネットワークで接続するクラスタ構成で、ホストからデータ書き込み要求を受けた時に、ローカルキャッシュにデータを一時的に保存する。ローカルキャッシュとは、書き込み先ボリュームを有するノード内のキャッシュのことである。ローカルキャッシュにデータを一時的に保存することで、キャッシュから書き込み先ボリュームへのネットワークを経由したデータ転送の回数を削減し、ノード間のデータ転送量を抑える。

　第２の方法は、動的容量割り当て機能を用いる（例えば特許文献２、３）。動的容量割り当て機能は、ストレージノードが持つ記憶領域をまとめた容量プールと、仮想ボリュームとにより実現される。仮想ボリュームとは、物理的な記憶容量を持たないボリュームのことである。動的容量割り当て機能では、データ書き込み要求を受けたノードが、仮想ボリュームに対するデータ書き込み発生を契機として、仮想ボリュームにおける書き込みデータの格納対象箇所に、容量プールの容量空間の一部を記憶領域として割り当てる。この時、データ書き込み要求を受けたノード内に記憶領域を割り当て、割り当てた記憶領域にデータを保存することで、ネットワークを経由したデータ転送の回数を削減し、ノード間のデータ転送量を抑える。

米国特許出願公開第２００２／００８３２７０号明細書特開２００８－１８６１７２号公報特開２００５－１１３１６号公報

　管理の柔軟性を高める仮想ボリュームの利用が普及しているが、仮想ボリュームを有するストレージシステムに第１の方法を適用すると、第１の方法の利点であるノード間のデータ転送量を抑えることが困難となる。すなわち、仮想ボリュームを有するストレージシステムにおいて、第１の方法は書き込み先の仮想ボリュームを有するノード内にキャッシュを割り当てるため、データの最終的な保存先となるデータ記憶媒体を持つノード（ＢＥノード：back-end　node）とは別のノードにキャッシュを割り当てる場合がある。そのため、ローカルキャッシュを割り当てたとしても、記憶領域がローカルにない場合があり、キャッシュを保存するノード（ＣＭノード：cache　memory　node）とＢＥノードの間のデータ転送が発生し、データ転送によりネットワーク帯域が不足することで、ストレージシステムの性能が低下する場合がある。

　また、第２の方法により、仮想ボリュームの書き込みデータの格納対象箇所に、ホストコンピュータからデータを受け取るノード（ホストノード）内のデータ記憶媒体の記憶領域を割り当てることで、ホストノードとデータ記憶媒体を持つノード（ＢＥノード）を同一のノードにすることができる。しかし、キャッシュを保存するノード（ＣＭノード）がホストノードと異なる場合がある。これにより、ホストノードとＣＭノードの間のデータ転送、ＣＭノードとＢＥノードの間のデータ転送が発生し、データ転送によりネットワーク帯域が不足することで、ストレージシステムの性能が低下する場合がある。

　上記課題を解決するために、本発明の一態様であるストレージシステムは、少なくとも３以上の複数のストレージ装置を備える。前記複数のストレージ装置の夫々は、通信路を介して少なくとも何れか１つの他のストレージ装置に接続されているプロセッサと、前記プロセッサに接続されているキャッシュメモリと、前記プロセッサに接続されている記憶デバイスとを含む。前記複数のストレージ装置の中の第１ストレージ装置のプロセッサは、ホストコンピュータに接続され、前記ホストコンピュータに対して仮想ボリュームを提供する。前記第１ストレージ装置のプロセッサが前記ホストコンピュータから前記仮想ボリュームへのデータアクセス要求として書き込み要求を受信し、且つ前記データアクセス要求に指定された前記仮想ボリューム内の仮想記憶領域に対して前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられていない場合、前記第１ストレージ装置のプロセッサは、前記データアクセス要求に指定された書き込みデータを前記複数のストレージ装置の中の第２ストレージ装置のキャッシュメモリへ書き込み前記第２ストレージ装置のキャッシュメモリへ書き込まれた前記書き込みデータを前記複数のストレージ装置の中の第３ストレージ装置の記憶デバイスへ書き込むために、前記複数のストレージ装置の中で所定の状態条件を満たす候補の中から、前記第２ストレージ装置及び前記第３ストレージ装置を、前記通信路による前記複数のストレージ装置の間の接続を示す接続情報に基づいて選択する。

　本発明の一態様によれば、ストレージ装置間のデータ転送を削減し、ストレージシステムのデータアクセス性能を向上させることができる。

図１は、本発明の実施例の計算機システムの構成を示す。図２は、管理コンピュータ０１７２の構成を示す。図３は、ストレージノード０１０５のメモリ０１４０に格納される情報を示す。図４は、コマンド処理プログラム０２１５の構成を示す。図５は、ＲＡＩＤグループ管理テーブル０２２０の構成を示す。図６は、ボリューム管理テーブル０２２５の構成を示す。図７は、仮想ボリューム割り当て管理テーブル０２３０の構成を示す。図８は、容量プール構成管理テーブル０２３５の構成を示す。図９は、ＢＥノード構成管理テーブル０２４０の構成を示す。図１０は、非Ａｎｙ－ｔｏ－ａｎｙ接続の第１のネットワークにおける比較例のデータ転送を示す。図１１は、非Ａｎｙ－ｔｏ－ａｎｙ接続の第２のネットワークにおける比較例のデータ転送を示す。図１２は、Ｗｒｉｔｅ評価値表１２００の構成を示す。図１３は、ＩＯ制御処理の動作を示す。図１４は、高速Ｗｒｉｔｅ制御処理を示す。図１５は、ＩＯ制御判定条件を示す。図１６は、第１高速Ｗｒｉｔｅ制御処理を示す。図１７は、第２高速Ｗｒｉｔｅ制御処理を示す。図１８は、第３高速Ｗｒｉｔｅ制御処理を示す。図１９は、第１選択処理１６３０を示す。図２０は、第２選択処理１７３５を示す。図２１は、書き込み予約処理１６５５を示す。図２２は、レコード追加処理１６４０を示す。図２３は、第１レコード更新処理１５５５を示す。図２４は、第２レコード更新処理１７５０を示す。図２５は、Ｗｒｉｔｅ評価値表作成処理を示す。図２６は、キャッシュ負荷情報更新処理を示す。図２７は、空き容量情報更新処理を示す。図２８は、高速Ｒｅａｄ制御処理を示す。図２９は、設定画面を示す。図３０は、仮想ボリュームの共有を模式的に示す。

　以下、本発明の実施形態について図面を参照しつつ説明する。

　なお、以後の説明では「ａａａテーブル」、「ａａａリスト」、「ａａａＤＢ」、「ａａａキュー」等の表現にて本発明の情報を説明するが、これら情報はテーブル、リスト、ＤＢ、キュー、等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「ａａａテーブル」、「ａａａリスト」、「ａａａＤＢ」、「ａａａキュー」等について「ａａａ情報」と呼ぶことがある。

　さらに、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。

　以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート（通信制御デバイス）を用いながら行うため、ストレージ装置のプロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理コンピュータ等の計算機が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。

　また、各種プログラムはプログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。

　なお、管理計算機（管理コンピュータ）は入出力デバイスを有する。入出力デバイスの例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外のデバイスであってもよい。また、入出力デバイスの代替としてシリアルインタフェースやイーサーネットインタフェースを入出力デバイスとし、当該インタフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。

　以後、ストレージシステムを管理し、本願発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムである、また、管理計算機と表示用計算機の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合は当該複数の計算機（表示を表示用計算機が行う場合は表示用計算機も含め）が管理システムである。

　本実施例では、複数のホストコンピュータが仮想ボリュームを共有していない場合について説明する。

　以下、本発明の実施例の計算機システムの構成について説明する。

　図１は、本発明の実施例の計算機システムの構成を示す。

　この計算機システムは、複数のホストコンピュータ０１００と、ストレージシステム０１０２とを有する。ストレージシステム０１０２は、複数のストレージノード０１０５と、管理コンピュータ０１７２とを有する。複数のストレージノード０１０５は、複数のホストコンピュータ０１００に夫々接続されている。なお、一つのストレージノード０１０５に複数のホストコンピュータ０１００が接続されていても良い。ストレージノード０１０５は、ストレージ装置であり、ネットワーク０１０１（通信路）を介して別のストレージノード０１０５に接続されている。ホストコンピュータ０１００は、接続されているストレージノード０１０５へデータを書き込むためのＷｒｉｔｅコマンド（書き込み要求）や、そのストレージノード０１０５からデータを読み出すためのＲｅａｄコマンド（読み出し要求）を、そのストレージノード０１０５へ送信する。なお、この図は、ストレージノード０１０５の数が４つの例を示しているが、ストレージノードの数は、２、３または５つ以上であっても構わない。なお、ストレージシステム０１０２は、複数の管理コンピュータ０１７２を有していても良い。

　ストレージノード０１０５は、データを記憶するためのデータ記憶媒体を有する記憶媒体ユニット０１６０と、ストレージノード０１０５の全体を制御するコントローラ０１５０とを有する。なお、ストレージノード０１０５は、複数の記憶媒体ユニット０１６０を有していても良い。

　記憶媒体ユニット０１６０は、データ記憶媒体の一例として、複数のＨＤＤ（Hard　Disk　Drive）０１５５を有する。ＨＤＤ０１５５に代えて、フラッシュメモリ等、他の記憶デバイスが用いられてもよい。

　コントローラ０１５０は、ＣＰＵ（Central　Processing　Unit）０１３５、メモリ０１４０、データ通信ユニット０１１５、ＦＥ　Ｉ／Ｆ（Front-end　Interface）０１１０、ＢＥ　Ｉ／Ｆ（Back-end　Interface）０１４５、ＮＩＣ（Network　Interface　Card）０１７１を有する。なお、コントローラ０１５０の各部は、複数であっても良い。

　ＣＰＵ０１３５は、メモリ０１４０内のプログラム及びデータに従ってストレージノード０１０５の各部を制御する。

　データ通信ユニット０１１５は、ローカルルータ０１２０、バッファ０１２５、スイッチ０１３０を有する。ローカルルータ０１２０は、ＦＥ　Ｉ／Ｆ０１１０とバッファ０１２５の間のデータ転送や、バッファ０１２５とＣＰＵ０１３５の間のデータ転送や、バッファ０１２５と他のストレージノード０１０５のＣＰＵ０１３５の間のデータ転送を制御する。スイッチ０１３０は、ネットワーク０１０１に接続されており、他のストレージノード０１０５との間の通信を制御する。ネットワーク０１０１は例えば、ＰＣＩｅ（Peripheral　Component　Interconnect　Express）等である。

　ＦＥ　Ｉ／Ｆ０１１０は、ストレージネットワークと接続するためのインタフェースであり、例えば、ＦＣ（fibre　channel）　Ｉ／Ｆである。本実施例において、ＦＥ　Ｉ／Ｆ０１１０は、一つのホストコンピュータ０１００に直接接続されているが、直接又はストレージネットワークを介して、複数のホストコンピュータ０１００に接続されていても構わない。

　ＢＥ　Ｉ／Ｆ０１４５は、ＨＤＤ０１５５と接続するためのインタフェースであり、例えば、ＳＣＳＩ（Small　Computer　System　Interface）　Ｉ／Ｆである。

　メモリ０１４０は、ＣＰＵ０１３５が処理を行う為のプログラムや、制御テーブルを格納する。更にメモリ０１４０は、ＨＤＤ０１５５より読み出したデータや書き込むべきデータを格納するキャッシュメモリ０２５０を有する。

　ＮＩＣ０１７１は、管理用ネットワーク０１７０を介して管理コンピュータ０１７２に接続されている。管理用ネットワーク０１７０は例えば、ＬＡＮ（local　area　network）である。

　ストレージノード０１０５は、記憶媒体ユニット０１６０内の複数のＨＤＤ０１５５を集約し、論理的に１台のストレージボリュームとして管理する。本実施例のストレージノード０１０５は、ＲＡＩＤ（Redundant　Array　of　Inexpensive　Disks）構成を用いて、並列アクセスによる高速なデータ転送とデータの冗長化による高可用性を実現する。ＲＡＩＤ構成に用いられているＨＤＤ０１５５のグループをＲＡＩＤグループと呼ぶ。ＲＡＩＤ構成に限らず、ＪＢＯＤ（Just　a　Bunch　of　Disks）構成や単一のＨＤＤ構成が用いられても構わない。

　全てのストレージノード０１０５は、少なくとも１つのＲＡＩＤグループの記憶領域をまとめた容量プール（プールボリューム）を共有して持つ。容量プールは１つ、もしくは複数であってもかまわないが、ここでは１つの場合について説明する。ストレージノード０１０５は仮想ボリュームを１つ、もしくは複数個持つ。ここで、仮想ボリュームとは、物理的な記憶容量を持たないが、あたかも物理的な記憶領域を持つ論理ボリュームのように仮想化したボリュームのことである。仮想ボリュームには、ストレージノード０１０５内の論理ボリュームの記憶領域をまとめたプールボリュームの記憶領域を割り当てることができる。

　ストレージノード０１０５は、仮想ボリュームを所定サイズの仮想記憶領域毎に管理する。ストレージノード０１０５は、ホストコンピュータ０１００から仮想ボリューム内の仮想記憶領域を書き込み対象とするＷｒｉｔｅコマンドを受けた時、その仮想記憶領域にＲＡＩＤグループの記憶領域が割り当てられていない場合、ストレージノード０１０５は、容量プールに属するＲＡＩＤグループの中から記憶領域を選び出し、仮想記憶領域に割り当てる。通常のボリュームはＲＡＩＤグループや単一のＨＤＤに括り付けられているが、仮想ボリュームは容量プールに属する記憶領域に括り付けられれば特に制限されない。そこで、本実施例では仮想ボリュームの特徴を用いることで、データをキャッシュするキャッシュ領域を割り当てられたストレージノード０１０５だけでなく、最終的にデータを保存するディスク領域を割り当てられたストレージノード０１０５を適切に選ぶことでストレージノード０１０５間のデータ転送の回数を削減している。本実施例で説明するストレージシステムは、仮想ボリュームの代わりに、物理的な記憶容量を持たないが論理ボリュームの記憶領域を割り当てることのできる機能を有する他のボリュームの仮想化技術を用いても、本実施例で説明するものと同じ効果が得られる。

　管理コンピュータ０１７２は、各ストレージノード０１０５のコントローラ０１５０や記憶媒体ユニット０１６０について、設定や状態の確認を行い、容量プールおよび仮想ボリュームの作成、変更、削除などの操作を行い、ネットワーク０１０１の管理などを行う。

　図２は、管理コンピュータ０１７２の構成を示す。

　管理コンピュータ０１７２は、ＣＰＵ０１８０、ＮＩＣ０１８１、表示装置０１９２、入力装置０１９３、メモリ０１９０を有する。

　ＣＰＵ０１８０は、メモリ０１９０内のプログラム及びデータに従って管理コンピュータ０１７２の各部を制御する。ＮＩＣ０１８１は、管理用ネットワーク０１７０を介してストレージノード０１０５に接続されている。表示装置０１９２は、ＣＰＵ０１８０からの指示に従って画面を表示する。入力装置０１９３は、ストレージシステム０１０２の管理者からの入力を受け付け、入力された情報をＣＰＵ０１８０へ送る。メモリ０１９０は、管理プログラム３０６０、設定プログラム０３６１、管理情報０３７０、設定情報０３７１を格納する。

　以下、ストレージノード０１０５のメモリ０１４０に格納されている情報について説明する。

　図３は、ストレージノード０１０５のメモリ０１４０に格納されている情報を示す。

　メモリ０１４０には、プログラムとして、メッセージ送信プログラム０２０５、メッセージ受信プログラム０２１０、コマンド処理プログラム０２１５が格納されている。また、メモリ０１４０には、テーブルとして、ＲＡＩＤグループ管理テーブル０２２０、ボリューム管理テーブル０２２５、仮想ボリューム割り当て管理テーブル０２３０、容量プール構成管理テーブル０２３５、ＢＥノード構成管理テーブル０２４０、設定情報０２５５が格納されている。メモリ０１４０内の上記したプログラム及びテーブルを格納した領域以外の領域は、キャッシュメモリ０２５０として使用される。

　図４は、コマンド処理プログラム０２１５の構成を示す。

　コマンド処理プログラム０２１５には、プログラムとして、通常Ｗｒｉｔｅ制御プログラム０３０５、通常Ｒｅａｄ制御プログラム０３１０、ＩＯ制御プログラム０３１５、高速Ｗｒｉｔｅ制御プログラム０３２０、高速Ｒｅａｄ制御プログラム０３２５、仮想ボリューム割り当て追加プログラム０３３０、仮想ボリューム割り当て更新プログラム０３３５、評価値表更新プログラム０３４５が格納されている。更に、コマンド処理プログラム０２１５は、評価値表０３５０を持つ。評価値表０３５０は、Ｗｒｉｔｅ評価値表とＲｅａｄ評価値表を含む。ＣＰＵ０１３５は、コマンド処理プログラム０２１５内の各プログラムに従って、ストレージノード０１０５の制御を行う。

　図５は、ＲＡＩＤグループ管理テーブル０２２０の構成を示す。

　ＲＡＩＤグループ管理テーブル０２２０は、ＲＡＩＤグループを構成するＨＤＤ０１５５に関する情報を格納し、当該ストレージノード０１０５内に作成されたＲＡＩＤグループ毎のレコードを有する。また、ＲＡＩＤグループ管理テーブル０２２０は、ＲＡＩＤグループ番号０４０５、ＲＡＩＤレベル０４１０、ＨＤＤ番号リスト０４１５、ＨＤＤサイズ０４２０のメンバを含む。ＲＡＩＤグループ番号０４０５は、当該ＲＡＩＤグループの番号を示す。ＲＡＩＤレベル０４１０は、当該ＲＡＩＤグループのＲＡＩＤレベルを示す。ＨＤＤ番号リスト０４１５は、当該ＲＡＩＤグループに割り当てられているＨＤＤ０１５５の番号を示す。ＨＤＤサイズ０４２０は、当該ＲＡＩＤグループのサイズを示す。ＲＡＩＤグループ管理テーブル０２２０は、管理コンピュータ０１７２により作成され、ストレージノード０１０５に格納される。

　図６は、ボリューム管理テーブル０２２５の構成を示す。

　ボリューム管理テーブル０２２５は、ストレージユーザ（ホストコンピュータ０１００）に提供する情報を格納し、ボリューム毎のレコードを有する。また、ボリューム管理テーブル０２２５は、ボリューム番号０５０５、容量プール番号０５１０、ＲＡＩＤグループ番号０５１５、データ領域０５２０のメンバを含む。ボリューム番号０５０５は、当該ボリュームの番号を示す。ボリュームが仮想ボリュームである場合、容量プール番号０５１０は、仮想ボリュームに対応付けられている容量プールの番号を示し、ＲＡＩＤグループ番号０５１５及びデータ領域０５２０は、仮想ボリュームであることを示す、例えば“Ｎ／Ａ”を格納する。ボリュームが論理ボリュームである場合、容量プール番号０５１０は、例えば“Ｎ／Ａ”を格納し、ＲＡＩＤグループ番号０５１５及びデータ領域０５２０は、それぞれデータのアクセス先として対応づけられたＲＡＩＤグループの番号とデータ領域の範囲とを格納する。本実施例では、ボリュームが仮想ボリュームである場合について説明する。ボリューム管理テーブル０２２５は、管理コンピュータ０１７２により作成され、各ストレージノード０１０５に格納される。

　図７は、仮想ボリューム割り当て管理テーブル０２３０の構成を示す。

　仮想ボリューム割り当て管理テーブル０２３０は、仮想ボリュームにおける仮想記憶領域毎のレコードを有する。仮想記憶領域は例えば、動的容量割り当て機能によりページ単位で管理される。ページとは、データ読み込みと書き込みの最小単位であるブロックを複数纏めた記憶領域の管理単位である。以下の説明において、仮想記憶領域に割り当てられたＣＭノードのキャッシュメモリ０２５０内の記憶領域をキャッシュ領域と呼び、仮想記憶領域に割り当てられたＢＥノードのＲＡＩＤグループ内の記憶領域をドライブ領域と呼ぶ。

　仮想ボリューム割り当て管理テーブル０２３０は、対象の仮想記憶領域に割り当てられたドライブ領域の対応関係を格納する。また、仮想ボリューム割り当て管理テーブル０２３０は、先頭アドレス０６０５、ＲＡＩＤグループ番号０６１０、保存先ＢＥノード番号０６１５、割当先アドレス０６２０、保存先ＣＭノード番号０６２５、予約先ＢＥノード番号情報０６３０のメンバを含む。

　先頭アドレス０６０５は、仮想ボリューム上の仮想記憶領域内に存在するページの先頭の仮想アドレスを格納する。ＲＡＩＤグループ番号０６１０には、当該仮想記憶領域に割り当てられたドライブ領域が格納されたＲＡＩＤグループの番号を格納する。保存先ＢＥノード番号０６１５は、ＲＡＩＤグループ番号０６１０で識別されるＲＡＩＤグループを有するストレージノード０１０５である保存先ＢＥノードを示す番号を格納する。割当先アドレス０６２０は、保存先ＢＥノード内で、先頭アドレス０６０５で識別される仮想記憶領域に割り当てられたドライブ領域のアドレスを格納する。なお、先頭アドレス０６０５で識別される仮想記憶領域にドライブ領域が未割り当ての場合、ＲＡＩＤグループ番号０６１０、保存先ＢＥノード番号０６１５、割当先アドレス０６２０には例えば“Ｎ／Ａ”が格納される。保存先ＣＭノード番号０６２５は、先頭アドレス０６０５で識別される仮想記憶領域に割り当てられたキャッシュ領域が格納されたストレージノード０１０５であるＣＭノードの番号を格納する。予約先ＢＥノード番号０６３０は、ＲＡＩＤグループ番号０６１０、保存先のＢＥノード番号０６１５、割当先アドレス０６２０が決定する前に用いる項目であり、ドライブ領域を予約した時に、そのドライブ領域を格納するストレージノードである予約先ＢＥノードの番号を格納する。各ストレージノード０１０５は、仮想ボリューム割り当て管理テーブル０２３０を更新し、その更新内容を他のストレージノード０１０５へ送信することにより、その更新内容を他のストレージノード０１０５の仮想ボリューム割り当て管理テーブル０２３０へ反映する。なお、仮想ボリューム割り当て管理テーブル０２３０は、保存先ＣＭノード内で、先頭アドレス０６０５で識別される仮想記憶領域に割り当てられたキャッシュ領域のアドレスを格納しても良い。

　図８は、容量プール構成管理テーブル０２３５の構成を示す。

　容量プール構成管理テーブル０２３５は、容量プールの空き領域とＲＡＩＤグループの未割り当て領域とを管理するためのテーブルである。容量プール構成管理テーブル０２３５は、容量プール毎のレコードと、ＲＡＩＤグループ毎のレコードとを有する。各容量プールのレコードは、容量プール番号０７０５、容量プール作成有無０７１０、空き領域０７１５のメンバを含む。容量プール番号０７０５は、当該容量プールの番号を示す。容量プール作成有無０７１０は、当該容量プールが作成されているか否かを示す。空き領域０７１５は、当該容量プールの空き領域を示す。ＲＡＩＤグループ毎のレコードは、ＲＡＩＤグループ番号０７２０、容量プール番号０７２５、未割り当て領域情報０７３０のメンバを含む。ＲＡＩＤグループ番号０７２０は、当該ＲＡＩＤグループの番号を示す。容量プール番号０７２５は、当該ＲＡＩＤグループに割り当てられた容量プールの番号を示す。未割り当て領域情報０７３０は、当該ＲＡＩＤグループの中で未割り当ての領域のアドレスの範囲を示す。各ストレージノード０１０５は、容量プール構成管理テーブル０２３５を更新し、その更新内容を他のストレージノード０１０５へ送信することにより、その更新内容を他のストレージノード０１０５の容量プール構成管理テーブル０２３５へ反映する。

　図９は、ＢＥノード構成管理テーブル０２４０の構成を示す。

　ＢＥノード構成管理テーブル０２４０は、容量プールの空き領域をＢＥノード毎に分けて管理するためのテーブルであり、データの書き込み時に仮想ボリュームに割り当てるドライブ領域のＢＥノードを選択するために用いる。ＢＥノード構成管理テーブル０２４０は、容量プール毎のレコードを有する。また、ＢＥノード構成管理テーブル０２４０は、容量プール番号０８０５、ＲＡＩＤグループ番号０８１０、割り当て領域０８１５、予約領域０８２０、空き領域０８２５、全領域０８３０のメンバを含む。容量プール番号０８０５は、当該容量プールの番号を格納する。ＲＡＩＤグループ番号０８１０は、容量プール番号０８０５で識別される容量プールに割り当てられたＲＡＩＤグループで、当該ＢＥノード内のＲＡＩＤグループの番号を格納する。割り当て領域０８１５は、ＲＡＩＤグループ番号０８１０で識別されるＲＡＩＤグループの記憶領域の中で、仮想ボリュームに割り当てられたドライブ領域の容量を格納する。予約領域０８２０は、ＲＡＩＤグループ番号０８１０で識別されるＲＡＩＤグループの記憶領域の中で、仮想ボリュームに割り当てられる前に割り当てが予約されたドライブ領域の容量を格納する。空き領域０８２５は、ＲＡＩＤグループ番号０８１０で識別されるＲＡＩＤグループの記憶領域の中で、仮想ボリュームに割り当ても予約もされていない記憶領域の容量を格納する。全領域０８３０は、ＲＡＩＤグループ番号０８１０で識別されるＲＡＩＤグループの記憶領域の全体の容量を格納する。各ストレージノード０１０５は、ＢＥノード構成管理テーブル０２４０を更新し、その更新内容を他のストレージノード０１０５へ送信することにより、その更新内容を他のストレージノード０１０５の容量プール構成管理テーブル０２３５へ反映する。

　管理コンピュータ０１７２は、ストレージシステム０１０２の管理者からの指示に基づいて、ＲＡＩＤグループ管理テーブル０２２０、ボリューム管理テーブル０２２５を作成し、複数のストレージノード０１０５へ送信する。ストレージノード０１０５は、仮想ボリューム割り当て管理テーブル０２３０、容量プール構成管理テーブル０２３５、ＢＥノード構成管理テーブル０２４０を更新すると、更新された情報を他のストレージノード０１０５へ送信する。これにより、複数のストレージノード０１０５の間で、仮想ボリューム割り当て管理テーブル０２３０、容量プール構成管理テーブル０２３５は同期される。なお、ＲＡＩＤグループ管理テーブル０２２０、ボリューム管理テーブル０２２５、仮想ボリューム割り当て管理テーブル０２３０、容量プール構成管理テーブル０２３５の何れかが、管理コンピュータ０１７２等、ストレージノード０１０５の外に格納されていても良い。

　以下、複数のストレージノード０１０５の間のデータ転送の経路について説明する。

　ネットワークトポロジの種類に、Ａｎｙ－ｔｏ－ａｎｙというトポロジがある。Ａｎｙ－ｔｏ－ａｎｙは、各ストレージノードが他の全てのストレージノードに直接接続されている。Ａｎｙ－ｔｏ－ａｎｙ接続は対称的なトポロジのためストレージ制御の実装が容易で、多くのストレージシステムではＡｎｙ－ｔｏ－ａｎｙ接続が採用されている。しかし、ストレージノード数が増加すると、ストレージノードの組み合わせの分だけ結線数が増加してしまうため、ネットワークの配線が困難になるというデメリットがある。そこで、Ａｎｙ－ｔｏ－ａｎｙ接続から結線数を減らした非Ａｎｙ－ｔｏ－ａｎｙ接続がある。

　図１０で、非Ａｎｙ－ｔｏ－ａｎｙ接続の一実施例として第１のネットワークを開示する。

　この第１のネットワークは、ノード＃１～＃８で示されている８つのストレージノードを接続している。各ノードは、ホストコンピュータに接続されている。各ノードは、他の全てのノードとネットワークで直接接続されているわけではない。よって、直接接続されておらずノード間の通信には多段の転送（ホップ）が必要となる。ＣＭノードとＢＥノードとして

　例えば、ノード＃１（１０５５）がホストコンピュータからデータの書き込み命令を受け取った場合に、ホストノードであるノード＃１（１０５５）がキャッシュメモリ０２５０の負荷の小さいノード＃８をＣＭノードとして選択し、別途、データを保存するためにＲＡＩＤグループに空きのあるノードとしてノード＃３（１０７０）を選択する。この場合、データ転送はノード＃１（１０５５）からノード＃６（１０６０）への転送（１０４０）と、ノード＃６（１０６５）からノード＃８（１０６５）への転送（１０４５）と、ノード＃８（１０６５）からノード＃３（１０７０）への転送（１０５０）の３回である。そこで、本実施例におけるホストノード（第１ストレージ装置）は、複数のストレージノード０１０５の中から所定の状態条件を満たすＣＭノードの候補及びＢＥノードの候補を選択し、ＣＭノードの候補及びＢＥノードの候補の中から、転送段数（接続数、データがネットワーク０１０１を経由する回数）を考慮して、転送段数の少ないＣＭノード（第２ストレージ装置）及びＢＥノード（第３ストレージ装置）の組み合わせを選択することとする。よって図１０に示した例において、ノード＃８とノード＃３以外に、転送段数がより少なく使用可能なＣＭ，ＢＥ容量を有するノードの組み合わせが有る場合には、その組み合わせを優先的に選択することになる。本発明によれば限られているネットワークの帯域の使用に際してデータ転送のノード間の跨ぎを減らしてデータ転送量を削減することができる。

　ネットワーク０１０１は、第１のネットワークの他のネットワークトポロジを有していても良く、ストレージノード０１０５をクラスタ構成で稼働することのできるネットワークであればどのようなトポロジでも構わない。

　図１１は、非Ａｎｙ－ｔｏ－ａｎｙ接続の他の例である第２のネットワークを開示する。本ネットワークにおいても図１０と同じように接続段数を考慮したノード選択が必要となる。

　以下、ＣＭノード及びＢＥノードの選択に用いられる評価値表について説明する。

　図１２は、Ｗｒｉｔｅ評価値表１２００の構成を示す。

　このＷｒｉｔｅ評価値表１２００は、Ｗｒｉｔｅコマンドを受信したホストノードがＣＭノード及びＢＥノードを選択するために用いられる。この図は、ノード＃１に格納されているＷｒｉｔｅ評価値表１２００の例を示し、ノード＃１がホストコンピュータ０１００からＷｒｉｔｅコマンドを受信した場合、即ちノード＃１がホストノードである場合に用いられる。

　Ｗｒｉｔｅ評価値表１２００は、ＣＭノードを示すＣＭノード番号１２１０毎の行と、ＢＥノードを示すＢＥノード番号１２０５毎の列とを有する。更にＷｒｉｔｅ評価値表１２００は、各ＣＭノードのキャッシュ負荷の判定結果を示すキャッシュ負荷情報１２１５と、各ＢＥノードの空き容量の判定結果である空き容量情報１２２０とを含む。キャッシュ負荷は、対応するＣＭノードのキャッシュメモリ０２５０の負荷である。空き容量は、対応するＢＥノードのＲＡＩＤグループの空き領域のサイズである。この図は、キャッシュ負荷情報１２１５を「負荷」と示し、空き容量情報１２２０を「空き」と示す。キャッシュ負荷情報１２１５は、対応するＣＭノードのキャッシュ負荷が、キャッシュ負荷閾値より高いか否かを示し、例えば「高い（高）」又は「低い（低）」の値を有する。例えば、キャッシュ負荷は、対応するＣＭノードのキャッシュメモリ０２５０の転送量で表され、キャッシュ負荷閾値は転送量閾値で表される。空き容量情報１２２０は、対応するＢＥノードが空き容量閾値以上の空き容量を有するか否かを示し、例えば「有」又は「無」の値を有する。キャッシュ負荷情報１２１５が「低」の値を有するストレージノード０１０５は、ＣＭノードの候補として選択される。空き容量情報１２２０が「有」の値を有するストレージノード０１０５は、ＢＥノードの候補として選択される。Ｗｒｉｔｅ評価値表１２００を作成する処理やＷｒｉｔｅ評価値表１２００を更新する処理については後述する。前述の状態条件は例えば、ＣＭノードのキャッシュメモリ０２５０のデータ転送量が転送量閾値より小さく、且つＢＥノードの空き容量が空き容量閾値より大きいことである。

　Ｗｒｉｔｅ評価値表１２００の行列の要素１２２５は、ＣＭノード番号１２１０とＢＥノード番号１２０５の組み合わせの評価値を格納する。或るＣＭノード番号１２１０とＢＥノード番号１２０５の組み合わせの評価値は、ホストノードから当該ＣＭノードまでの転送段数と、当該ＣＭノードから当該ＢＥノードまでの転送段数との合計を示す。以下の説明において、転送段数をホップ数と呼ぶことがある。ホストノードとなり得る各ストレージノード０１０５は、自己がホストノードである場合の評価値を示すＷｒｉｔｅ評価値表１２００を格納する。

　ホストノードがＷｒｉｔｅ評価値表１２００を用いることにより、キャッシュ負荷が低いと判定されたストレージノード０１０５をＣＭノードの候補として選択することができ、空き容量が有ると判定されたストレージノード０１０５をＢＥノードの候補として選択することができる。また、ホストノードは、ＣＭノードの候補とＢＥノードの候補の中から、転送段数が最も少なくなるＣＭノードとＢＥノードの組み合わせを選択することができる。

　以下、ホストコンピュータ０１００からデータアクセス要求（ＩＯコマンド）を受信したストレージノード０１０５の動作について説明する。

　図１３は、ＩＯ制御処理の動作を示す。

　ＩＯ制御処理において、ＩＯ制御プログラム０３１５は、アクセス種別と、キャッシュヒット／キャッシュミスと、ドライブ領域の割り当ての有無と、コマンド種別とを含むＩＯ制御判定条件に基づいて、最適なＩＯ制御を決定する。まず、ＩＯ制御プログラム０３１５は、ホストコンピュータ０１００からデータアクセス要求を受信し、データアクセス要求に指定されたデータ転送長（データ長）を確認する（１３０５）。ＩＯ制御プログラム０３１５は、データ転送長を予め定められたデータ転送長閾値（データ長閾値）と比較し（１３１０）、データ転送長がデータ転送長閾値よりも大きい場合はアクセス種別をデータ転送量大と判定し（１３２０）、小さい場合はアクセス種別をデータ転送量小と判定する（１３１５）。データ転送量が大きいアクセスは、例えばシーケンシャルアクセスであり、データ転送量が小さいアクセスは、例えばランダムアクセスである。次にＩＯ制御プログラム０３１５は、データアクセス要求の仮想アドレス及びデータ転送長に指定された仮想記憶領域に対応するキャッシュデータがキャッシュメモリ０２５０に存在する（キャッシュヒット）か、否（キャッシュミス）か（指定された仮想記憶領域に対応するキャッシュ領域がキャッシュメモリ０２５０内に割り当てられているか否か）を判定し（１３２５）、指定された仮想記憶領域にドライブ領域が割り当てられているか否か判定する（１３３０）。さらに、ＩＯ制御プログラム０３１５は、データアクセス要求からコマンド種別がＲｅａｄかＷｒｉｔｅかを判定する（１３３５）。

　ＩＯ制御プログラム０３１５は、前述の、アクセス種別と、キャッシュヒット／キャッシュミスと、ドライブ領域の割り当ての有無と、コマンド種別の判定結果に基づいて、高速ＩＯ制御が可能か否かを判定する（１３４０）。高速ＩＯ制御が可能と判定された場合、ＩＯ制御プログラム０３１５は、判定されたコマンド種別がＷｒｉｔｅコマンドであるか否か判定し（１３４５）、Ｗｒｉｔｅコマンドであれば、高速Ｗｒｉｔｅ制御処理を実行し（１３５５）、Ｒｅａｄコマンドであれば高速Ｒｅａｄ制御処理を実行する（１３５０）。高速ＩＯ制御が不可能と判定された場合、ＩＯ制御プログラム０３１５は、判定されたコマンド種別がＷｒｉｔｅコマンドであるか否か判定し（１３６０）、Ｗｒｉｔｅコマンドであれば、通常Ｗｒｉｔｅ制御処理を実行し（１３６５）、Ｒｅａｄコマンドであれば通常Ｒｅａｄ制御処理を実行する（１３７０）。尚、データ転送長の小さいアクセスにおいても、高速ＩＯ制御を適用することで、データ転送長の大きいアクセスと同様にデータ転送のノード間の跨ぎを減らしてデータ転送を削減し、システム全体の性能を向上できる場合がある。そのため、１３０５，１３１０，１３２０，１３１５については必須ではない。例えば、データ転送長の小さいアクセスが一部のＣＭノードに偏ることが無い場合、もしくは、各ＣＭノードに与える負荷が小さい場合であれば、データ転送長の大きいアクセスにおけるＣＭノードの候補の選択に与える影響は少ない。この場合、ＣＭノード及びＢＥノードの候補から、転送段数の少ないＣＭノード及びＢＥノードの組み合わせを選択できるので、データ転送長の大小に関わらず全てのアクセスに対して本願の高速ＩＯ制御を適用することが可能である。これにより、データ転送長の小さいアクセスが大量に発生した場合であっても、ストレージ装置間のデータ転送を減らすことができ、ネットワーク帯域に与える影響を低減することができる。

　設定情報０２５５は、前述のデータ転送長閾値等、ＩＯ制御処理に用いられる情報を含む。ＩＯ制御プログラム０３１５は、設定情報０２５５に基づいてＩＯ制御処理を行う。

　以下、高速Ｗｒｉｔｅ制御処理について説明する。

　図１４は、高速Ｗｒｉｔｅ制御処理を示す。

　高速Ｗｒｉｔｅ制御プログラム０３２０は、前述の処理１３２５におけるキャッシュヒット／キャッシュミス判定の結果を用いる（１４０５）。このキャッシュヒット及びキャッシュミスはそれぞれ、ＣＭノードが決定されていること、ＣＭノードが決定されていないことを示す。キャッシュヒットである場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、第１高速Ｗｒｉｔｅ制御処理を実行する（１４１５）。キャッシュヒットでない場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、前述の処理１３３０におけるドライブ領域の割り当て有／無の判定結果を用いる（１４１０）。この有と無はそれぞれ、ＢＥノードが決定されていること、ＢＥノードが決定されていないことを示す。コマンドに指定された仮想記憶領域のドライブ領域へのマッピングがない場合は、保存先ＣＭノード番号および保存先ＢＥノード番号が決まっていないことになる。そこで、高速Ｗｒｉｔｅ制御プログラム０３２０は、第２高速Ｗｒｉｔｅ制御処理を実行する（１４２０）。ドライブ領域へのマッピングがある場合は、すでに保存先ＢＥノード番号が決まっているため、第３高速Ｗｒｉｔｅ制御処理を実行する（１４２５）。以上が高速Ｗｒｉｔｅ制御処理である。

　図１５は、図１３，１４を通じての振り分け結果を示す。尚、最終的に図１５に開示するような振り分けができればよく、図１３、図１４の判断順番は開示したものを入れ替えることが可能である。

　例えば、アクセス種別０９０５がデータ転送量小の場合、ＩＯ制御プログラム０３１５は、データがネットワークを跨いだとしてもネットワーク帯域を大きく占有することはないと判断し、通常Ｗｒｉｔｅ制御プログラム０３０５は、比較例と同様、多段転送や転送段数増加によるネットワーク帯域の消費を考慮せずにＣＭノードとＢＥノードを選択する。通常Ｗｒｉｔｅ制御プログラム０３０５は、例えば、ラウンドロビンによりＣＭノードとＢＥノードを選択する。これにより、特定のノードに偏ることなく、一様にＣＭノードとＢＥノードを選択できる。

　また、アクセス種別０９０５がデータ転送量大の場合、ＩＯ制御プログラム０３１５は、ＣＭノードおよびＢＥノードが決定されている場合に、通常ＩＯ制御と判定し、ＣＭノードとＢＥノードの両方もしくはどちらか一方が決定されていない場合に、高速ＩＯ制御が可能と判定する。ただし、コマンド種別０９２０がＲｅａｄコマンドで、且つドライブ領域情報０９１５が無で、且つキャッシュヒットである場合、キャッシュ上のデータを予約先ＢＥノードのドライブ領域にデータを書き込む前の状態であり、通常Ｒｅａｄ制御プログラム０３１０は通常のキャッシュヒットの制御を行う。また、コマンド種別０９２０がＲｅａｄコマンドで、且つドライブ領域情報０９１５が無で、且つキャッシュ領域情報０９１０がミスである場合、当該Ｒｅａｄコマンドに指定された仮想記憶領域に一度もデータが書き込まれていない特別な状態であり、通常Ｒｅａｄ制御プログラム０３１０は動的容量割り当て機能の通常の制御を行い、例えば所定の応答をホストコンピュータ０１００へ送信する。

　ホストノードは、このＩＯ制御判定条件０９００に従ってＩＯ制御を選択することにより、データアクセス要求に対して適切なＩＯ制御を行うことができる。

　尚、ＩＯ制御処理は、過去のデータアクセスを示すデータアクセス履歴を用い、データアクセス履歴に示されたデータ転送長を用いてＩＯ制御種別を判定しても良い。例えば、ＩＯ制御処理は、ホストコンピュータ０１００毎に過去１０分以内のＲｅａｄ及びＷｒｉｔｅのアクセスのデータ転送長を記録しておき、記録されたアクセスの中で、データ転送長がデータ転送長閾値より長いアクセスが多数であれば、当該ホストコンピュータ０１００のアクセス種別をデータ転送量大と、データ転送長がデータ転送長閾値以下であるアクセスが多数であればアクセス種別をデータ転送量小と判定する。

　また、ＩＯ制御処理は、各ポート及び各仮想ボリュームのデータアクセス履歴を用い、各ポート及び各仮想ボリュームのアクセス種別を判定しても良い。このように、データアクセス履歴を用いることで、アクセス種別の判定の精度を向上させることができる。ここで、ポートとはホストコンピュータとデータ転送を行うためのストレージシステムの通信ポートのことである。

　また、各アクセスのデータ転送長に基づいてアクセス種別を判定するのか、データアクセス履歴に基づいてアクセス種別を判定するのか、を示す判定方法が、各ホスト、各ポート、各仮想ボリュームに対して、定められても良い。

　図１６は、第１高速Ｗｒｉｔｅ制御処理を示す。

　第１高速Ｗｒｉｔｅ制御処理が呼び出されるのは、ＩＯ制御判定条件０９００において、Ｗｒｉｔｅコマンドで、且つアクセス種別０９０５がデータ転送量大で、且つキャッシュ領域情報０９１０がキャッシュヒットで、且つドライブ領域情報０９１５が無の時である。つまり、ＣＭノードおよびＢＥノードは既に決定され、ＢＥノードは書き込みの予約がされているが、ＢＥノードへデータを書き込んでいないためにドライブ領域が割り当てられていない状態である。ＣＭノードおよびＢＥノードは既に決定されていることから、第１高速Ｗｒｉｔｅ制御処理は、ＣＭノードのキャッシュ領域に保存されているデータを予約先ＢＥノードのドライブ領域へ書き込む。即ち、ＣＭノードへ書き込まれ、予約先ＢＥノードへ書き込まれる（デステージ）前のデータを更新するＷｒｉｔｅコマンドを受信した場合に、第１高速Ｗｒｉｔｅ制御処理が実行される。

　まず高速Ｗｒｉｔｅ制御プログラム０３２０は、ホストコンピュータ０１００にＷｒｉｔｅデータの転送を指示する（１５０５）。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、バッファ０１２５への転送を確認し（１５１０）、ホストコンピュータ０１００からバッファ０１２５へのＷｒｉｔｅデータの転送が完了したか否かを判定する（１５１５）。転送が完了したならば、高速Ｗｒｉｔｅ制御プログラム０３２０は、フローを処理１５２０へ進める。転送が完了していなければ、高速Ｗｒｉｔｅ制御プログラム０３２０は、処理１５１０で再び確認を行う。

　その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、仮想ボリューム割り当て管理テーブル０２３０から、Ｗｒｉｔｅコマンドに指定された仮想記憶領域に対応する保存先ＣＭノード番号と予約先ＢＥノード番号を取得する（１５２０）。高速Ｗｒｉｔｅ制御プログラム０３２０は、ローカルルータ０１２０に対して保存先ＣＭノード番号のノードのキャッシュ領域へデータを転送するように指示する（１５２５）。高速Ｗｒｉｔｅ制御プログラム０３２０は、キャッシュ領域への転送を確認し（１５３０）、キャッシュ領域への転送が完了したか否かを判定する（１５３５）。転送が完了していれば、高速Ｗｒｉｔｅ制御プログラム０３２０は、フローを処理１５４０へ進める。転送が完了していなければ、高速Ｗｒｉｔｅ制御プログラム０３２０は、処理１５３０で再び確認を行う。

　その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、予約先ＢＥノードのドライブへデータを書き込む（１５４０）。その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、ドライブへの書き込みを確認し（１５４５）、ドライブへの書き込みが完了したか否かを判定する（１５５０）。書き込みが完了したならば、高速Ｗｒｉｔｅ制御プログラム０３２０は、フローを処理１５５５へ進める。書き込みが完了していなければ、高速Ｗｒｉｔｅ制御プログラム０３２０は、処理１５４５にて再びドライブへの書き込みを確認する。

　その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、書き込みが完了した状態に応じて仮想ボリューム割り当て管理テーブル０２３０のレコードを更新する第１レコード更新処理を行う（１５５５）。第１レコード更新処理の詳細は後述する。処理１５４０以降の制御はキャッシュメモリ０２５０上のデータをＢＥノードのドライブへデステージする操作であり、デステージを実行するタイミングの決定には既存のキャッシュ管理手法を用いることが出来る。例えば、ホストノードからホストコンピュータ０１００への応答は、ＣＭノードへの書き込みの後であっても良いし、ＢＥノードへの書き込みの後であっても良い。以上が第１高速Ｗｒｉｔｅ制御処理である。

　この処理によれば、ホストノードは、ＣＭノードを割り当て済みでＢＥノードを予約済みの仮想記憶領域を更新するＷｒｉｔｅコマンドに対し、割り当て済みのＣＭノードへ書き込みデータを書き込み、予約済みのＢＥノードへ書き込みデータを書き込むことにより、最適な経路で書き込みデータを転送することができる。

　図１７は、第２高速Ｗｒｉｔｅ制御処理を示す。

　第２高速Ｗｒｉｔｅ制御処理が呼び出されるのは、ＩＯ制御判定条件０９００において、Ｗｒｉｔｅコマンドで、且つアクセス種別０９０５がデータ転送量大で、且つキャッシュ領域情報０９１０がミスで、且つドライブ領域情報０９１５が無の時である。つまり、ＣＭノードが決定されておらず、且つＢＥノードへの書き込みの予約もされていない、つまり初めて当該ドライブ領域へＷｒｉｔｅコマンドが発行された状態である。そこで、第２高速Ｗｒｉｔｅ制御処理は、ＣＭノードとＢＥノードを決定し、ホストコンピュータ０１００からのＷｒｉｔｅデータをＣＭノードのキャッシュ領域へ保存し、当該データを予約先のＢＥノードのドライブ領域へ書き込む処理を行う。即ち、新規の仮想記憶領域にデータを書き込むＷｒｉｔｅコマンドを受信した場合に、第２高速Ｗｒｉｔｅ制御処理が実行される。

　以下、ホストコンピュータ０１００からコマンドを受信したノード（ホストノード）をノード＃ｈと表すとき、ノード＃ｈの高速Ｗｒｉｔｅ制御プログラム０３２０の動作について説明する。高速Ｗｒｉｔｅ制御プログラム０３２０は、ノード＃ｈ内のキャッシュ負荷Ｌを確認する（１６０５）。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、ノード＃ｈ内の空き容量Ｃを確認する（１６１０）。ノード＃ｈ内の空き容量Ｃは、ノード＃ｈ内のＢＥノード構成管理テーブル０２４０に示された空き容量０８２５である。ノード＃ｈ内に空き容量が空き容量閾値以上であれば、ＲＡＩＤグループ番号０８１０で識別されるノード＃ｈ内のＲＡＩＤグループの記憶領域の中で、仮想ボリュームに割り当ても予約もされていないドライブ領域を、Ｗｒｉｔｅコマンドで指定された仮想記憶領域に割り当てることができる。

　次に高速Ｗｒｉｔｅ制御プログラム０３２０は、キャッシュ負荷Ｌがキャッシュ負荷閾値より小さく、且つ空き容量Ｃが空き容量閾値より大きいか否かを判定する（１６１５）。ＹＥＳと判定された場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、ノード＃ｈにキャッシュ領域およびドライブ領域を割り当てることができるので、ＣＭノードとして＃ｈを、ＢＥノードとして＃ｈを選択する（１６２０）。本処理によって、ホストノードのＣＭの負荷が高くなく、記憶容量に空きがあれば、ホストノードからの転送段数が最も少ないノードであるホストノード自身が優先的に選択される。この場合、データ転送がノード＃ｈ内で閉じるため、ノード間を跨いだデータ転送は発生しない。処理１６１５でＮＯと判定された場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、Ｗｒｉｔｅ評価値表１２００内の負荷１２１５を最新の値で更新するキャッシュ負荷情報更新処理を行い（１６２５）、Ｗｒｉｔｅ評価値表１２００内の空き容量情報１２２０を最新の値で更新する空き容量情報更新処理を行う（１６２７）。キャッシュ負荷情報更新処理と空き容量情報更新処理の詳細は後述する。

　次に高速Ｗｒｉｔｅ制御プログラム０３２０は、Ｗｒｉｔｅ評価値表１２００において、負荷が低いＣＭノードと、ＢＥノードの空き容量があるＢＥノードとの組の中から、評価値の小さな組、例えば評価値が最も小さい組を選択する第１選択処理を行う（１６３０）。すなわち高速Ｗｒｉｔｅ制御プログラム０３２０は、データ転送がノード間を跨ぐ回数の少ないノードの組を選択する。第１選択処理の詳細は後述する。

　次に高速Ｗｒｉｔｅ制御プログラム０３２０は、処理１６３０でエラーが発生したか否かを判定する（１６３５）。エラーがある場合、最適なＣＭノードとＢＥノードの組が見つからなかったことを意味する。そこでエラーがある場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、予め定められたデフォルトのＣＭノードとＢＥノードを選択する（１６４５）。デフォルトのＣＭノードとＢＥノードは、例えばデータ転送がノード内で閉じるように、コマンドを受信したノード＃ｈ（ホストノード）に設定される。なお、デフォルトのＣＭノードとデフォルトのＢＥノードとは異なっても構わない。例えば、キャッシュメモリ０２５０を多数搭載してキャッシュの性能が最も高いノードをデフォルトのＣＭノードに設定することもできる。また、例えば容量プールの領域が最も大きいノード、すなわちＢＥノード構成管理テーブル０２４０の全領域０８３０の値が最も大きいノードを、デフォルトのＢＥノードに設定することもできる。

　エラーが無い場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、仮想ボリューム割り当て管理テーブル０２３０において、コマンドに指定された新規の仮想記憶領域のレコードを追加するレコード追加処理を行う（１６４０）。レコード追加処理の詳細は後述する。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、選択されたＣＭノードのキャッシュメモリ０２５０にキャッシュ領域を確保し（１６５０）、選択されたＢＥノードにデータを書き込むためのディスク領域を予約する書き込み予約処理を行う（１６５５）。書き込み予約処理の詳細は後述する。書き込み予約処理の完了後、高速Ｗｒｉｔｅ制御プログラム０３２０は、ホストコンピュータ０１００にＷｒｉｔｅデータの転送を指示する（１６６０）。

　その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、ホストコンピュータ０１００から転送されたＷｒｉｔｅデータをＣＭノードのキャッシュ領域へ保存する。この後のフローは前述の第１高速Ｗｒｉｔｅ制御処理のＡ以下のフローと同様である。以上が第２高速Ｗｒｉｔｅ制御処理である。

　この処理によれば、新たな仮想記憶領域に、転送段数を考慮した上で負荷が低いＣＭノード及び空き容量のあるＢＥノードが割り当てられる。よって、書込みデータについて、ホストノードからＣＭノードを経由してＢＥノードへの転送段数を少なくすることができる。また、ホストノードがＣＭノードのキャッシュ領域を確保すると共に、ＢＥノードのドライブ領域を予約した後に、ホストコンピュータ０１００へ書き込みデータの転送を指示することができ、最適なＣＭノード及びＢＥノードの組を決定しつつ、ホストコンピュータ０１００への応答を高速化することができる。また、ホストノードは、自ノードのキャッシュ負荷及び空き容量が所定の条件を満たす場合、自ノードを優先してＣＭノード及びＢＥノードとして選択することにより、ネットワーク０１０１を経由するデータ転送を防ぐことができる。

　図１８は、第３高速Ｗｒｉｔｅ制御処理を示す。

　第３高速Ｗｒｉｔｅ制御処理が呼び出されるのは、ＩＯ制御判定条件０９００において、Ｗｒｉｔｅコマンドで、且つアクセス種別０９０５がデータ転送量大で、且つキャッシュ領域情報０９１０がミスで、ドライブ領域情報０９１５が有の時である。すなわち、ＣＭノードは決定されていないが、ＢＥノードが決定されており、更にドライブ領域の割り当てと書き込みが完了した状態にある。ＣＭノードが決定されていないのは、ＢＥノードにデータが書き込まれた後、キャッシュ領域上のデータが解放されたためである。そこで、第３高速Ｗｒｉｔｅ制御処理はＣＭノードを決定し、ホストのＷｒｉｔｅデータを決定したＣＭノードのキャッシュに保存し、当該データをＢＥノードのドライブ領域にデータを書き込む処理を行う。即ち、ＣＭノードへ書き込まれ、ＢＥノードへ書き込まれた（デステージ）後のデータがＣＭノードから削除された後、そのデータを更新するＷｒｉｔｅコマンドを受信した場合に、第３高速Ｗｒｉｔｅ制御処理が実行される。

　まず高速Ｗｒｉｔｅ制御プログラム０３２０は、コマンドを受信したノード＃ｈのキャッシュ負荷Ｌを確認する（１７０５）。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、想ボリューム割り当て管理テーブル０２３０において、Ｗｒｉｔｅコマンドに指定された仮想記憶領域のレコードの保存先ＢＥノード番号を取得する（１７１０）。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、ＢＥノードとして取得された保存先ＢＥノード番号を選択する（１７１５）。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、キャッシュ負荷Ｌが、キャッシュ負荷閾値より小さいか否かを判定する（１７２０）。

　キャッシュ負荷Ｌがキャッシュ負荷閾値より小さい場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、ＣＭノードとして＃ｈを選択する（１７２５）。つまり、高速Ｗｒｉｔｅ制御プログラム０３２０は、保存先ＣＭノードのキャッシュメモリ０２５０として、ホストノードのキャッシュメモリ０２５０を選択する。処理１７２０でキャッシュ負荷Ｌがキャッシュ負荷閾値より大きい場合、Ｗｒｉｔｅ評価値表１２００のキャッシュ負荷情報１２１５を最新の値で更新するキャッシュ負荷情報更新処理を行う（１７３０）。

　次に高速Ｗｒｉｔｅ制御プログラム０３２０は、Ｗｒｉｔｅ評価値表１２００に基づいて、最適なＣＭノードを選択する第２選択処理を行い（１７３５）、処理１７３５でエラーが発生しているかどうかを判定する（１７４０）。第２選択処理の詳細は後述する。エラーの場合、最適なＣＭノードが見つからなかったことを意味する。そこでエラーが発生している場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、予め定められたデフォルトのＣＭノードを選択する（１７４５）。デフォルトのＣＭノードは、例えばデータ転送がノード内で閉じるように、コマンドを受信したノード＃ｈ（ホストノード）に設定される。この他、例えば、キャッシュメモリ０２５０を多数搭載してキャッシュの性能が最も高いノードをデフォルトのＣＭノードに設定することもできる。

　エラーが発生していない場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、仮想ボリューム割り当て管理テーブル０２３０において、コマンドに指定された仮想記憶領域のレコードを更新する第２レコード更新処理を行う（１７５０）。第２レコード更新処理の詳細は後述する。次に、高速Ｗｒｉｔｅ制御プログラム０３２０は、ＣＭノードにキャッシュ領域を確保し（１７５５）、ホストコンピュータ０１００にＷｒｉｔｅデータの転送を指示する（１７６０）。

　その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、ホストコンピュータ０１００から転送されたＷｒｉｔｅデータをＣＭノードのキャッシュ領域へ保存する。この後のフローは前述の第１高速Ｗｒｉｔｅ制御処理のＡ以下のフローと同様である。以上が第３高速Ｗｒｉｔｅ制御処理である。

　この処理によれば、ホストノードは、ＣＭノードの割り当てが解除済みでＢＥノードを割り当て済みの仮想記憶領域を更新するＷｒｉｔｅコマンドに対し、その仮想記憶領域へ最適なＣＭノードを割り当て、割り当て済みのＢＥノードへ書き込みデータを書き込むことにより、最適な経路で書き込みデータを転送することができる。

　図１９は、第１選択処理１６３０を示す。

　ここでは前述の第１選択処理１６３０の詳細について説明する。まず高速Ｗｒｉｔｅ制御プログラム０３２０は、Ｗｒｉｔｅ評価値表１２００からキャッシュ負荷が低いと判定されたノードを抽出し、抽出されたノードを示すＣＭノードリストを作成する（１８０５）。以下、このＣＭノードリストのことをＣＭ＿ｌｉｓｔと呼ぶことにする。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、ＣＭ＿ｌｉｓｔが空であるか否かを判定する（１８１０）。ＣＭ＿ｌｉｓｔが空の場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、第２高速Ｗｒｉｔｅ制御処理へエラーを返した後（１８３５）、このフローを終了する。ＣＭ＿ｌｉｓｔが空でない場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、Ｗｒｉｔｅ評価値表１２００から空き容量が有ると判定されたノードを抽出し、抽出されたノードを示すＢＥノードリストを作成する（１８１５）。このＢＥノードリストのことをＢＥ＿ｌｉｓｔと呼ぶことにする。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、ＢＥ＿ｌｉｓｔが空であるか否かを判定する（１８２０）。ＢＥ＿ｌｉｓｔが空の場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、第２高速Ｗｒｉｔｅ制御処理へエラーを返した後（１８３５）、このフローを終了する。ＢＥ＿ｌｉｓｔが空でない場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、ＣＭ＿ｌｉｓｔに含まれるＣＭノードとＢＥ＿ｌｉｓｔに含まれるＢＥノードの組み合わせの中から、Ｗｒｉｔｅ評価値表１２００内の対応する要素１２２５を考慮してノードの組み合わせを抽出する（１８２５）。例えば、要素１２２５が最小となる組み合わせを選択することでデータ転送経路が短い組が選択される。又は、例えば、最小となる組み合わせに対応するデータ転送経路に流れるデータ転送量が多く、データ転送経路の負荷が高い状態である場合、又はデータ転送経路上のネットワークに障害が発生し、データ転送ができない場合などにおいて、要素１２２５が２番目に最小となる組み合わせ、もしくは要素１２２５が予め定められた閾値以下となる組み合わせを候補として抽出しても良い。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、候補が複数存在するか判定し（１８３０）、候補が複数存在する場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、複数の候補の中からランダムに１つの組を選択し（１８４０）、このフローを終了する。候補が１つしか存在しない場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、その候補を選択し（１８４５）、このフローを終了する。以上が第１選択処理１６３０である。

　図２０は、第２選択処理１７３５を示す。

　ここでは前述の第２選択処理１７３５の詳細について説明する。第１選択処理１６３０と比べると、第２選択処理１７３５においては、すでにＢＥノードが決定されており、ＣＭノードのみが選択される。

　まず高速Ｗｒｉｔｅ制御プログラム０３２０は、第１選択処理１６３０の１８０５と同様の処理（１９０５）、１８１０と同様の処理（１９１０）を行う。ＣＭ＿ｌｉｓｔが空の場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、１８２５と同様の処理（１９２５）を行い、このフローを終了する。ＣＭ＿ｌｉｓｔが空でない場合、高速Ｗｒｉｔｅ制御プログラム０３２０は、決定済みのＢＥノードに対し、ＣＭ＿ｌｉｓｔに含まれるＣＭノードの中から、Ｗｒｉｔｅ評価値表１２００内の対応する要素１２２５を考慮してＣＭノードを抽出する（１９１５）。この抽出方法は１８２５と同様である。次に高速Ｗｒｉｔｅ制御プログラム０３２０は、１８３０と同様の処理（１９２０）、１８４０と同様の処理（１９３０）、１９４５と同様の処理（１９３５）を行い、このフローを終了する。以上が第２選択処理１７３５である。

　図２１は、書き込み予約処理１６５５を示す。

　ここでは前述の書き込み予約処理１６５５の詳細について説明する。まず高速Ｗｒｉｔｅ制御プログラム０３２０は、指定されたＢＥノードのＢＥノード構成管理テーブル０２４０の中で、指定された容量プール番号のレコードを呼び出す（２００５）。その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、当該レコードの空き領域のサイズから、予約サイズ分を減じ、当該レコードを更新する（２０１０）。その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、当該レコードの予約領域に予約サイズ分を加え、当該レコードを更新する（２０１５）。その後、高速Ｗｒｉｔｅ制御プログラム０３２０は、各ノードのＢＥノード構成管理テーブル０２４０における当該容量プール番号の空き領域のサイズの合計を算出し（２０２０）、容量プール構成管理テーブル０２３５の当該容量プール番号の空き領域のサイズを算出された値で更新し（２０２５）、このフローを終了する。以上が書き込み予約処理である。

　尚、ホストノードは、ＢＥノードの予約を変更しても良い。この予約変更には、アクセス種別の判定方法が変更され、ＩＯ制御種別の判定結果が更新された場合に、適切なＢＥノードを選び直すことができるという利点がある。予約変更において、高速Ｗｒｉｔｅ制御プログラム０３２０は、書き込み予約処理によりＢＥノードにディスク領域を予約した際の情報を元に戻し、もう一度適切なＢＥノードを選び直した後に、書き込み予約処理によりＢＥノードにディスク領域を予約する。この予約変更のタイミングは、キャッシュのデステージにより実際にデータが予約先ＢＥノード内の予約されたドライブ領域に書き込まれる前まで、すなわち保存先ＢＥノードが確定する前までの期間である。ただし、予約されたドライブ領域に書き込まれるまでデータはキャッシュメモリに保存されるため、キャッシュのデステージが遅延することによりキャッシュメモリの空き容量が不足する場合がある。そのため、キャッシュメモリの空き容量が不足する場合はキャッシュのデステージに影響がないように予約は変更しないものとする。

　また、予約変更の条件が予め定められても良い。例えば、予約後にホストコンピュータ０１００が行ったＲｅａｄ及びＷｒｉｔｅの回数が予め定められた回数以下であれば、デステージまでに時間の余裕があると判定し、予約変更が可能としても良い。予約変更の頻度が高い場合、ストレージシステム０１０２における他の処理が遅れる問題が生じる場合があるため、アクセス種別の判定が頻繁に変更される場合、予約変更を行わないと判定しても良い。例えば、データアクセス履歴に十分な量の履歴が溜まっていない場合、アクセス種別の判定が変更される可能性が高いため、高速Ｗｒｉｔｅ制御プログラム０３２０は、アクセス回数が予め定められた回数以下の場合、予約の変更を取りやめる。

　図２２は、レコード追加処理１６４０を示す。

　ここでは前述のレコード追加処理１６４０の詳細について説明する。まず仮想ボリューム割り当て追加プログラム０３３０は、選択されたＣＭノード番号＃ａ及びＢＥノード番号＃ｂを取得し（２１０５）、Ｗｒｉｔｅコマンドから書き込み対象の仮想アドレスを抽出する（２１１０）。その後、仮想ボリューム割り当て追加プログラム０３３０は、仮想ボリューム割り当て管理テーブル０２３０において、抽出された仮想アドレスに対応する新規レコードを追加する（２１１５）。その後、仮想ボリューム割り当て追加プログラム０３３０は、追加されたレコードにおいて、ＲＡＩＤグループ番号にＮ／Ａを、保存先ＢＥノード番号にＮ／Ａを、割当先アドレスにＮ／Ａを、更新情報にＮ／Ａを、保存先ＣＭノード番号に＃ａを、予約先ＢＥノード番号に＃ｂをそれぞれ入力し（２１２０）、このフローを終了する。以上がレコード追加処理１６４０である。

　図２３は、第１レコード更新処理１５５５を示す。

　ここでは前述の第１レコード更新処理１５５５の詳細について説明する。まず仮想ボリューム割り当て更新プログラム０３３５は、書き込み対象のＲＡＩＤグループ番号＃ｐ＿ｃｏｌと、割当先アドレス＃ｐ＿ａｄｄｒとを取得する（２２０５）。次に仮想ボリューム割り当て更新プログラム０３３５は、Ｗｒｉｔｅコマンドから書き込み対象の仮想アドレス＃ｖ＿ａｄｄｒを抽出する（２２１０）。次に仮想ボリューム割り当て更新プログラム０３３５は、仮想ボリューム割り当て管理テーブル０２３０から、＃ｖ＿ａｄｄｒに対応するレコード＃ｒｅｃを読み出す（２２１５）。次に仮想ボリューム割り当て更新プログラム０３３５は、＃ｒｅｃの予約先ＢＥノード番号＃ＢＥ＿ｎｏｄｅを読み出す（２２２０）。

　次に仮想ボリューム割り当て更新プログラム０３３５は、＃ｒｅｃにおいて、ＲＡＩＤグループ番号に＃ｐ＿ｖｏｌを、保存先ＢＥノード番号に＃ＢＥ＿ｎｏｄｅを、割当先アドレスに＃ｐ＿ａｄｄｒを、更新情報にＮ／Ａを、予約先ＢＥノード番号にＮ／Ａをそれぞれ入力し、保存先ＣＭノード番号を更新せず（２２２５）、このフローを終了する。以上が第１レコード更新処理１５５５である。

　図２４は、第２レコード更新処理１７５０を示す。

　ここでは前述の第２レコード更新処理１７５０の詳細について説明する。まず仮想ボリューム割り当て更新プログラム０３３５は、選択されたＣＭノード番号＃ＣＭ＿ｎｏｄｅを取得する（２３０５）。次に仮想ボリューム割り当て更新プログラム０３３５は、Ｗｒｉｔｅコマンドから書き込み対象の仮想アドレス＃ｖ＿ａｄｄｒを抽出する（２３１０）。次に仮想ボリューム割り当て更新プログラム０３３５は、仮想ボリューム割り当て管理テーブル０２３０から、＃ｖ＿ａｄｄｒに対応するレコード＃ｒｅｃを読み出す（２３１５）。次に仮想ボリューム割り当て更新プログラム０３３５は、＃ｒｅｃにおいて、更新情報にＮ／Ａを、保存先ＣＭノード番号に＃ＣＭ＿ｎｏｄｅを、予約先ＢＥノード番号にＮ／Ａをそれぞれ入力し、ＲＡＩＤグループ番号、保存先ＢＥノード番号、割当先アドレスを更新せず（２３２０）、このフローを終了する。以上が第２レコード更新処理１７５０である。

　図２５は、Ｗｒｉｔｅ評価値表作成処理を示す。

　本実施例におけるＷｒｉｔｅ評価値表１２００の要素１２２５に格納される評価値は、ホストノードからＣＭノードまでのホップ数とＣＭノードからＢＥノードまでのホップ数の合計である。管理コンピュータ０１７２は、ネットワーク０１０１及びストレージノード０１０５のスイッチ０１３０を管理している。管理コンピュータ０１７２の管理プログラム０３６０は、ストレージシステム０１０２の管理者からの指示に従って、ネットワーク０１０１及びストレージノード０１０５の設定を示す管理情報０３７０の追加、削除、変更の操作を実行できる。管理情報０３７０は、ネットワーク０１０１とトポロジを示すトポロジ情報を含む。管理プログラム０３６０は、トポロジ情報を用いて評価値を計算する。管理コンピュータ０１７２は、新規にネットワーク０１０１を構築したとき、およびネットワーク０１０１のトポロジが変更されたときにＷｒｉｔｅ評価値表作成処理を実行すればよい。

　Ｗｒｉｔｅ評価値表作成処理において、管理コンピュータ０１７２は、各ノードをホストノード＃ｈｏｓｔ＿ｎｏｄｅとして順次選択する（２４０５）。＃ｈｏｓｔ＿ｎｏｄｅが選択されると、管理コンピュータ０１７２は、＃ｈｏｓｔ＿ｎｏｄｅに格納されるＷｒｉｔｅ評価値表１２００である＃ｅｖａｌ＿ｔａｂｌｅを初期化する（２４１０）。次に管理コンピュータ０１７２は、各ノードをＣＭノード＃ＣＭ＿ｎｏｄｅとして順次選択する（２４１５）。＃ＣＭ＿ｎｏｄｅが選択されると、管理コンピュータ０１７２は、各ノードをＢＥノード＃ＢＥ＿ｎｏｄｅとして順次選択する（２４２０）。＃ＢＥ＿ｎｏｄｅが選択されると、管理コンピュータ０１７２は、＃ｈｏｓｔ＿ｎｏｄｅから＃ＣＭ＿ｎｏｄｅまでのホップ数と、＃ＣＭ＿ｎｏｄｅから＃ＢＥ＿ｎｏｄｅまでのホップ数との合計を、評価値＃ｈｏｐ＿ｓｕｍとして算出し（２４２５）、＃ｅｖａｌ＿ｔａｂｌｅにおいて、（＃ＣＭ＿ｎｏｄｅ，＃ＢＥ＿ｎｏｄｅ）の組に対応する要素１２２５へ＃ｈｏｐ＿ｓｕｍを入力する（２４３０）。更に管理コンピュータ０１７２は、全ての＃ＢＥ＿ｎｏｄｅについて処理２４２０のループを繰り返す。更に管理コンピュータ０１７２は、全ての＃ＣＭ＿ｎｏｄｅについて処理２４１５のループを繰り返す。更に管理コンピュータ０１７２は、全ての＃ｈｏｓｔ＿ｎｏｄｅについて処理２４０５のループを繰り返す。以上がＷｒｉｔｅ評価値表作成処理である。

　ここでは前述のキャッシュ負荷情報更新処理１６２５、１７３０の詳細について説明する。

　キャッシュ負荷情報更新処理１６２５、１７３０の夫々は、自ノードのキャッシュ負荷情報を判定し、そのキャッシュ負荷情報を他のノードへ通知する処理と、他のノードからキャッシュ負荷情報を受信し、自ノードの評価値表を更新する処理とを有する。

　図２６は、キャッシュ負荷情報更新処理を示す。

　まず評価値表更新プログラム０３４５は、自ノード内のキャッシュメモリのＲｅａｄ転送量及びＷｒｉｔｅ転送量を取得する（２５０５）。Ｒｅａｄ転送量及びＷｒｉｔｅ転送量は、最新の期間の測定値であっても良いし、複数の期間の測定値の平均値であっても良い。次に評価値表更新プログラム０３４５は、キャッシュメモリのＲｅａｄ転送量及びＷｒｉｔｅ転送量を合計することにより合計転送量＃ｔｒａｎｓを計算する（２０１０）。ここで、自ノードが複数のキャッシュメモリを有する場合、評価値表更新プログラム０３４５は、複数のキャッシュメモリのＲｅａｄ転送量及びＷｒｉｔｅ転送量を合計する。次に評価値表更新プログラム０３４５は、＃ｔｒａｎｓがキャッシュ負荷閾値より大きいか否かを判定する（２５１５）。評価値表更新プログラム０３４５は、＃ｔｒａｎｓがキャッシュ負荷閾値より大きい場合、キャッシュ負荷が高いと判定し（２５２５）、それ以外の場合、キャッシュ負荷が低いと判定する（２５２０）。次にメッセージ送信プログラム０２０５は、キャッシュ負荷の判定結果であるキャッシュ負荷情報を他の全ノードへ通知し（２５３０）、このフローを終了する。以上がキャッシュ負荷情報更新処理である。

　尚、キャッシュ負荷情報はメッセージ受信プログラム０２１０で受信され、評価値表更新プログラム０３４５が、自ノードの評価値表において、＃ＣＭ＿ｎｏｄｅに対応するキャッシュ負荷情報１２１５を受信されたデータで更新する。

　ここでは前述の空き容量情報更新処理１６２７の詳細について説明する。

　空き容量情報更新処理１６２７は、自ノードの空き容量情報を判定し、その空き容量情報を他のノードへ通知する処理と、他のノードから空き容量情報を受信し、自ノードのＷｒｉｔｅ評価値表１２００を更新する処理とを有する。

　図２７は、空き容量情報更新処理を示す。

　まず評価値表更新プログラム０３４５は、自ノード内の容量プールの空き容量＃ｆｒ＿ｓｐａｃｅを、ＢＥノード構成管理テーブル０２４０から読み出す（２６０５）。次に評価値表更新プログラム０３４５は、＃ｆｒ＿ｓｐａｃｅが空き容量閾値より小さいか否かを判定する（２６１０）。評価値表更新プログラム０３４５は、＃ｆｒ＿ｓｐａｃｅが空き容量閾値より大きい場合、空き容量が有ると判定し（２６２０）、それ以外の場合、空き容量が無い（不足する）と判定する（２６１５）。次にメッセージ送信プログラム０２０５は、空き容量の判定結果である空き容量情報を他の全ノードへ通知し（２６２５）、このフローを終了する。以上が空き容量情報更新処理である。

　空き容量情報は受信プログラム０２１０によって受信される。次に評価値表更新プログラム０３４５は、自ノードの評価値表において、＃ＢＥ＿ｎｏｄｅに対応する空き容量情報１２２０を受信されたデータで更新する。

　キャッシュ負荷情報更新処理及び空き容量情報受信処理は、定期的に実行されても良いし、Ｒｅａｄ及びＷｒｉｔｅの回数で予め定められた回数ごとに実行されても良い。また、全ノードを変更対象とすることもできるし、当該更新によって変更のあるノードだけについて更新しても良い。

　以上のキャッシュ負荷情報更新処理及び空き容量情報更新処理によれば、ストレージノード０１０５は、自ノードのキャッシュ負荷及び空き容量を判定すると共に、他ノードのキャッシュ負荷及び空き容量の判定結果を取得することができる。なお、自ノード状態情報は、キャッシュ負荷情報送信処理及び空き容量情報送信処理により他ノードへ送信されるキャッシュ負荷情報及び空き容量情報等に対応する。他ノード状態情報は、キャッシュ負荷情報受信処理及び空き容量情報受信処理により他ノードから受信されるキャッシュ負荷情報及び空き容量情報等に対応する。また、自ノード状態情報は、自ノードのキャッシュ負荷及び空き容量を示す情報であっても良く、他ノード状態情報は、他ノードのキャッシュ負荷及び空き容量を示す情報であっても良い。この場合、各ノードは、他ノード状態情報に基づいて、他ノードのキャッシュ負荷がキャッシュ負荷閾値以下であるか否かを判定し、他ノードの空き容量が空き容量閾値以上であるか否かを判定しても良い。

　以下、高速Ｒｅａｄ制御処理について説明する。

　図２８は、高速Ｒｅａｄ制御処理の一例を示す。

　高速Ｒｅａｄ制御処理は、既にＢＥノードが決定しているため、第３高速Ｗｒｉｔｅ制御処理と類似するが、データ転送方向が逆になる。即ち、ＣＭノードへ書き込まれＢＥノードへ書き込まれた（デステージ）後のデータがＣＭノードから削除された後、そのデータを読み出すＲｅａｄコマンドを受信した場合に、高速Ｒｅａｄ処理が実行される。

　まず高速Ｒｅａｄ制御プログラム０３２５は、処理１６２５、１７３０と同様のキャッシュ負荷情報更新処理を行う（２８０５）。次に高速Ｒｅａｄ制御プログラム０３２５は、最適なＣＭノードを選択する第３選択処理を行い（２８１０）、処理１７３５でエラーが発生しているかどうかを判定する（２８１５）。第３選択処理は、前述の第２選択処理と同様であるが、Ｗｒｉｔｅ評価値表１２００に代えてＲｅａｄ評価値表を用いる。Ｒｅａｄ評価値表はＷｒｉｔｅ評価値表１２００のＢＥの空き容量１２２０が管理されている必要が無い点で相違する。又、Ｒｅａｄのデータ転送方向はＷｒｉｔｅのデータ転送方向と逆であるが、通常は要素１２２５に格納される転送段数の数は結果的にはＷｒｉｔｅ評価値表と同じになる。よって、Ｗｒｉｔｅ評価値表とＲｅａｄ評価値表とを兼用しても良いが、何れかに障害等が生じた場合には転送段数が異なることも考えられるため別に管理してもよい。Ｒｅａｄ評価値表の作成は図２５と同様の手順に沿って行われる。エラーが発生している場合、最適なＣＭノードが見つからなかったことを意味する。そこでエラーがある場合、高速Ｒｅａｄ制御プログラム０３２５は、第３高速Ｗｒｉｔｅ制御処理の処理１７４５と同様にして、デフォルトのＣＭノードを選択する（２８２０）。

　エラーが発生していない場合、高速Ｒｅａｄ制御プログラム０３２５は、仮想ボリューム割り当て管理テーブル０２３０において、コマンドに指定された仮想記憶領域のレコードを更新する第３レコード更新処理を行う（２８２５）。第３レコード更新処理は第２レコード更新処理と類似する。違いはＳ２３１０だけである。第２レコード更新処理ではＳ２３１０においてＷｒｉｔｅコマンドから書き込み対象の仮想アドレス＃ｖ＿ａｄｄｒを抽出するが、第３レコード更新処理ではＲｅａｄコマンドから書き込み対象の仮想アドレス＃ｖ＿ａｄｄｒを抽出する。次に高速Ｒｅａｄ制御プログラム０３２５は、選択されたＣＭノードにキャッシュ領域を確保する（２８３０）。次に高速Ｒｅａｄ制御プログラム０３２５は、当該レコードに示されている保存先ＢＥノードのドライブ領域から保存先ＣＭノードのキャッシュ領域へデータを転送する（２８３５）。次に高速Ｒｅａｄ制御プログラム０３２５は、キャッシュ領域への転送を確認し（２８５０）、キャッシュ領域への転送が完了したか否かを判定する（２８５５）。転送が完了していれば、高速Ｒｅａｄ制御プログラム０３２５は、フローを処理２８６０へ進める。転送が完了していなければ、高速Ｒｅａｄ制御プログラム０３２５は、処理２８５５で再び確認を行う。次に高速Ｒｅａｄ制御プログラム０３２５は、保存先ＣＭノードのキャッシュ領域から自ノードのバッファ０１２５へデータを転送する（２８６０）。次に高速Ｒｅａｄ制御プログラム０３２５は、バッファ０１２５への転送を確認し（２８６５）、バッファ０１２５への転送が完了したか否かを判定する（２８７０）。転送が完了していれば、高速Ｒｅａｄ制御プログラム０３２５は、フローを処理２８８０へ進める。転送が完了していなければ、高速Ｒｅａｄ制御プログラム０３２５は、処理２８６５で再び確認を行う。次に高速Ｒｅａｄ制御プログラム０３２５は、バッファ０１２５からホストコンピュータ０１００へデータを送信し（２８８０）、このフローを終了する。以上が高速Ｒｅａｄ制御処理である。

　この処理によれば、ホストノードは、ＣＭノードの割り当てが解除済みでＢＥノードを割り当て済みの仮想記憶領域を読み出すＲｅａｄコマンドに対し、その仮想記憶領域へ最適なＣＭノードを割り当て、割り当て済みのＢＥノードから読み出しデータを読み出すことにより、最適な経路で読み出すデータを転送することができる。

　上記説明した実施に加えて、特定の場合については管理コンピュータ０１７２を介してＣＭノード、ＢＭノードを設定することもできる。による設定処理について説明する。

　図２９は、設定画面の一実施例を示す。

　設定画面は、ＩＯ制御判定条件の対象のホストコンピュータ０１００を示すホストコンピュータ名が入力されるエディットボックス３４０５と、対象のポートのポート番号が入力されるエディットボックス３４１０と、対象の仮想ボリュームのボリューム識別子が入力されるエディットボックス３４１５とを有する。設定画面は更に、対象のホストコンピュータ０１００における対象のアプリケーションのアプリケーション種別が入力されるドロップダウンリスト３４２０を有する。設定画面は更に、ＩＯ制御種別が入力されるドロップダウンリスト３４２５を有する。ＩＯ制御種別は、高速ＩＯ制御もしくは通常ＩＯ制御である。設定画面は更に、ホストノードの番号が入力されるエディットボックス３４３０と、ＣＭノードの番号が入力されるエディットボックス３４３５と、ＢＥノードが入力されるエディットボックス３４４０とを有する。

　例えば、ＩＯ制御プログラム０３１５は、コマンドに示されているホストコンピュータ名、ポート番号、ボリューム識別子が、エディットボックス３４０５、３４１０、３４１５の値にそれぞれ適合する場合、ホストノード、ＣＭノード、ＢＥノードが、エディットボックス３４０５、３４１０、３４１５の値にそれぞれ一致するように、データ転送経路を制御する。

　この設定画面を用いて、ストレージシステムの管理者が特定のホスト名、ポート番号、ボリューム識別子を有するコマンドに対して、どのＣＭノードとＢＥノードを割り当てるべきか設定することができる。

　さらに、アプリケーションにアクセスパターンを事前設定しておき、設定画面を用いてデータ転送量からＩＯ制御種別３４２５を提示するようにしておいても良い。管理者は提示されたＩＯ制御種別を参考にしてＣＭノードとＢＥノードを設定することが可能となる。こうして設定された設定情報０２５５は、ＩＯ制御判定条件を含み、ＩＯ制御プログラム０３１５、高速Ｗｒｉｔｅ制御プログラム０３２０、高速Ｒｅａｄ制御プログラム０３２５は、設定情報０２５５に基づいて、ＩＯ制御を決定する。この場合、管理コンピュータ０１７２の設定プログラム０３６１は、表示装置１９２に設定画面を表示させ、入力装置１９３からの入力に基づいて設定情報０３７１を作成し、複数のストレージノード０１０５へ送信し、設定情報０２５５として保存する設定処理を行う。

　又、本画面を本願実施例で設定されたＣＭノードとＢＥノードの組を表示するために用いることも可能である。

　設定画面は更に、データ転送経路３４４５を有し、設定されたデータ転送経路３４４５を明示することが可能である。

　以下、本発明を適用せずにローカルキャッシュ及び動的容量割り当て機能を用いるストレージシステムと、本実施例のストレージシステム０１０２とを比較する。

　もし、動的容量割り当て機能を有するストレージシステムにローカルキャッシュを適用し、ＣＭノードを決定した後にＢＥノードを決定すると仮定すると、データ書き込み時において、ＢＥノードが決定されていないので、ローカルキャッシュを割り当てることができない。

　もし、動的容量割り当て機能を有するストレージシステムにローカルキャッシュを適用し、ＢＥノードを決定した後にＣＭノードを決定すると仮定すると、動的容量割り当て機能でＢＥノードを決定した後に、ローカルキャッシュの割り当てを行うことになる。すなわちキャッシュの状態とは無関係にＢＥノードにキャッシュを割り当てることになる。この時、キャッシュにデータアクセスが集中して大量のデータが転送されており、キャッシュの負荷が高くなる場合がある。この場合は、ホストノードからＣＭノードへのデータの転送およびＣＭノードからＢＥノードへのデータ転送の性能が低下するため、ストレージシステムの性能が低下する場合がある。

　一方、本実施例によれば、キャッシュの負荷の条件を満たすＣＭノードの候補と、空き容量の条件を満たすＢＥノードの候補との中から、ネットワーク０１０１を経由する回数の少ないＣＭノード及びＢＥノードの組を選択することにより、ストレージシステム０１０２におけるネットワーク帯域の消費を防ぎ、データアクセス性能を向上させることができる。これにより、非Ａｎｙ－ｔｏ－ａｎｙ接続のストレージシステム０１０２においてノード数の増加による性能低下を防ぐことができ、ノード数に比例する性能スケーラビリティを実現することができる。

　なお、ネットワーク０１０１が全二重であり、Ｗｒｉｔｅ時のデータ転送経路とＲｅａｄ時のデータ転送経路が同一である場合、Ｗｒｉｔｅ評価値表がＲｅａｄ評価値表として用いてられても良く、Ｒｅａｄ評価値表が省かれても良い。

　なお、前述の第１選択処理、第２選択処理、第３選択処理は、評価値表の評価値の代わりに前述のトポロジ情報等、ネットワーク０１０１による複数のストレージノード０１０５間の接続を示す接続情報を用いて、データ転送がネットワーク０１０１を経由する回数を最少にするＣＭノード及びＢＥノードを選択しても良い。この場合、管理コンピュータ０１７２は、トポロジ情報を複数のストレージノード０１０５へ送信しても良い。

　本実施例では、複数のホストコンピュータが仮想ボリュームを共有する場合について説明する。以下、実施例１との相違点を中心に説明する。

　図３０は、仮想ボリュームの共有を模式的に示す。

　ホストコンピュータ３２０５、３２１０は、ストレージシステム０１０２により提供される仮想ボリューム３２１５を共有している。即ち、ホストコンピュータ３２０５、３２１０が同一の仮想ボリューム３２１５にデータアクセスする場合がある。ホストコンピュータ３２０５、３２１０の夫々は、実施例１のホストコンピュータ０１００に相当する。ホストコンピュータは、３台以上存在しても構わない。仮想ボリュームは、２個以上存在しても構わない。

　ストレージシステム０１０２内のストレージノード０１０５が、ホストコンピュータ３２０５、３２１０の何れかから仮想ボリューム３２１５内の仮想記憶領域へのＷｒｉｔｅコマンドを受信し、当該仮想記憶領域にドライブ領域が割り当てられていないとする。この場合、Ｗｒｉｔｅコマンドを受信したストレージノード０１０５は、容量プール３２２０に割り当てられたＲＡＩＤグループに属するＨＤＤ０１５５の中からドライブ領域を選び出し、当該仮想記憶領域に割り当てる。

　本実施例において、ホストノードの高速Ｗｒｉｔｅ制御プログラム０３２０は、仮想ボリュームへのアクセス頻度が最も高いホストコンピュータを１つ選び、当該仮想ボリュームに対する代表ホストコンピュータとして決定し、代表ホストコンピュータからのデータ転送経路を最適化するＣＭノード及びＢＥノードを決定する。ＣＭノード及びＢＥノードを決定する条件及び方法は、実施例１と同様である。

　なお、アクセス頻度に代えて、当該仮想ボリュームに対するＲｅａｄ及びＷｒｉｔｅのデータ転送量等、他のアクセス量が用いられても良い。また、本実施例の高速Ｗｒｉｔｅ制御プログラム０３２０は、仮想ボリュームの単位で代表ホストコンピュータを定めること以外にも、仮想ボリュームのページ毎に代表ホストコンピュータを定めることも可能である。

　本実施例によれば、仮想ボリュームにアクセスする複数のホストコンピュータの中からアクセス量が最も多いホストコンピュータを代表ホストコンピュータとして特定し、代表ホストコンピュータからのデータアクセス要求に基づいて、最適なＣＭノード及びＢＥノードを選択することにより、最適な経路でデータを転送する確率を向上させることができ、ネットワーク０１０１の負荷を軽減することができる。

　本発明は、以上の実施例に限定されるものでなく、その趣旨から逸脱しない範囲で、他の様々な形に変更することができる。

　０１００：ホストコンピュータ、　０１０１：ネットワーク、　０１０２：ストレージシステム、　０１０５：ストレージノード、　０１１５：データ通信ユニット、　０１２０：ローカルルータ、　０１２５：バッファ、　０１３０：スイッチ、　０１４０：メモリ、　０１５０：コントローラ、　０１６０：記憶媒体ユニット、　０１７０：管理用ネットワーク、　０１７２：管理コンピュータ、　０２５０：キャッシュメモリ

Claims

　少なくとも３以上の複数のストレージ装置を備え、
　前記複数のストレージ装置の夫々は、通信路を介して少なくとも何れか１つの他のストレージ装置に接続されているプロセッサと、前記プロセッサに接続されているキャッシュメモリと、前記プロセッサに接続されている記憶デバイスとを含み、
　前記複数のストレージ装置の中の第１ストレージ装置のプロセッサは、ホストコンピュータに接続され、前記ホストコンピュータに対して仮想ボリュームを提供し、
　前記第１ストレージ装置のプロセッサが前記ホストコンピュータから前記仮想ボリュームへのデータアクセス要求として書き込み要求を受信し、且つ前記データアクセス要求に指定された前記仮想ボリューム内の仮想記憶領域に対して前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられていない場合、前記第１ストレージ装置のプロセッサは、前記データアクセス要求に指定された書き込みデータを前記複数のストレージ装置の中の第２ストレージ装置のキャッシュメモリへ書き込み前記第２ストレージ装置のキャッシュメモリへ書き込まれた前記書き込みデータを前記複数のストレージ装置の中の第３ストレージ装置の記憶デバイスへ書き込むために、前記複数のストレージ装置の中で所定の状態条件を満たす候補の中から、前記第２ストレージ装置及び前記第３ストレージ装置を、前記通信路による前記複数のストレージ装置の間の接続を示す接続情報に基づいて選択する、
ストレージシステム。
　前記第１ストレージ装置のプロセッサは、前記第１のストレージ装置から前記第２ストレージ装置を経由した前記第３ストレージ装置までの接続数が最も短くなる前記第２ストレージ装置及び前記第３ストレージ装置の組を選択する、
請求項１に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサは、前記複数のストレージ装置の中で、キャッシュメモリのデータ転送量が特定のデータ転送量閾値より小さいストレージ装置を前記第２ストレージ装置の候補として選択し、前記第２ストレージ装置の候補の中から前記第２ストレージ装置を選択する、
請求項２に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサは、前記複数のストレージ装置の中で、記憶デバイスの空き容量が特定の空き容量閾値より大きいストレージ装置を前記第３ストレージ装置の候補として選択し、前記第３ストレージ装置の候補の中から前記第３ストレージ装置を選択する、
請求項３に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサが前記書き込み要求を受信し、且つ前記書き込みデータのデータ長が予め定められたデータ長閾値より大きく、且つ前記データアクセス要求に指定された前記仮想ボリューム内の仮想記憶領域に対して前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられていない場合、前記第１ストレージ装置のプロセッサは、前記第２ストレージ装置及び前記第３ストレージ装置を選択する、
請求項４に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサが前記書き込み要求を受信し、且つ前記書き込みデータのデータ長が前記データ長閾値より大きく、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられておらず、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかの記憶デバイスが割り当てられていない場合、前記第１ストレージ装置のプロセッサは、前記状態条件を満たすストレージ装置の中から、前記書き込みデータが前記通信路を経由する回数が最も少なくなる前記第２ストレージ装置及び前記第３ストレージ装置を、前記接続情報に基づいて選択する、
請求項５に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサが前記書き込み要求を受信し、且つ前記書き込みデータのデータ長が前記データ長閾値より大きく、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられておらず、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかの記憶デバイスが割り当てられている場合、前記第１ストレージ装置のプロセッサは、前記仮想記憶領域に割り当てられている記憶デバイスを含むストレージ装置を前記第３ストレージ装置として選択し、前記状態条件を満たすストレージ装置の中から、前記書き込みデータが前記通信路を経由する回数が最も少なくなる前記第２ストレージ装置を前記接続情報に基づいて選択する、
請求項６に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサが前記書き込み要求を受信し、且つ前記書き込みデータのデータ長が前記データ長閾値より大きく、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられておらず、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかの記憶デバイスが割り当てられていない場合、前記第１ストレージ装置のプロセッサは、前記第３ストレージ装置を選択した後、前記第３ストレージ装置の記憶デバイス内の記憶領域を予約し、前記ホストコンピュータへ前記書き込みデータの転送を指示する、
請求項７に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサが前記書き込み要求を受信し、且つ前記書き込みデータのデータ長が前記データ長閾値より大きく、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられており、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかの記憶デバイスが予約されている場合、前記第１ストレージ装置のプロセッサは、前記仮想記憶領域に割り当てられているキャッシュメモリを含むストレージ装置を前記第２ストレージ装置として選択し、前記予約された記憶領域を含むストレージ装置を前記第３ストレージ装置として選択する、
請求項８に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサが前記データアクセス要求として読み出し要求を受信し、且つ前記データアクセス要求に指定された読み出しデータのデータ長が前記データ長閾値より大きく、且つ前記データアクセス要求に指定された前記仮想記憶領域に前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられておらず、且つ前記仮想記憶領域に前記複数のストレージ装置の何れかの記憶デバイスが割り当てられている場合、前記第１ストレージ装置のプロセッサは、前記予約された記憶領域を含むストレージ装置を前記第３ストレージ装置として選択し、前記書き込みデータが前記通信路を経由する回数が最も少なくなる前記第２ストレージ装置を前記接続情報に基づいて選択する、
請求項９に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサは、前記第１ストレージ装置のキャッシュメモリのデータ転送量と記憶デバイスの空き容量との状態を示す自ノード状態情報を送信し、前記複数のストレージ装置の中の前記第１ストレージ装置以外のストレージ装置におけるキャッシュメモリのデータ転送量と記憶デバイスの空き容量との状態を示す他ノード状態情報を受信し、前記自ノード状態情報と前記他ノード状態情報と前記接続情報とに基づいて、前記第２ストレージ装置及び前記第３ストレージ装置を選択する、
請求項４に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサは、前記第１ストレージ装置のキャッシュメモリのデータ転送量が前記データ転送量閾値より小さいか否かと、前記第１ストレージ装置の記憶デバイスの空き容量が前記空き容量閾値より大きいか否かとを判定して前記自ノード状態情報とし、前記複数のストレージ装置の中の前記第１ストレージ装置以外のストレージ装置のキャッシュメモリのデータ転送量が前記データ転送量閾値より小さいか否かと、前記第１ストレージ装置の記憶デバイスの空き容量が前記空き容量閾値より大きいか否かとの判定結果を示す前記他ノード状態情報を受信する、
請求項１１に記載のストレージシステム。
　前記第１ストレージ装置のプロセッサは、前記第１ストレージ装置が所定の状態条件を満たすか否かを判定し、前記第１ストレージ装置が前記状態条件を満たす場合、前記第１ストレージ装置を、前記第２ストレージ装置及び前記第３ストレージ装置として選択し、前記第１ストレージ装置が前記状態条件を満たさない場合、前記複数のストレージ装置の中で前記第１ストレージ装置以外のストレージ装置の中から、前記第２ストレージ装置及び前記第３ストレージ装置を選択する、
　前記状態条件は、キャッシュメモリのデータ転送量が前記データ転送量閾値より小さく、且つ記憶デバイスの空き容量が前記空き容量閾値より大きいことである、
請求項１２に記載のストレージシステム。
　複数のホストコンピュータが前記仮想ボリュームへアクセスする場合、前記第１ストレージ装置のプロセッサは、前記複数のホストコンピュータの中から、アクセス量が最も多いホストコンピュータを代表ホストコンピュータとして特定し、前記代表ホストコンピュータからのデータアクセス要求に基づいて、前記第２ストレージ装置及び前記第３ストレージ装置を選択する、
請求項２に記載のストレージシステム。
　少なくとも３以上の複数のストレージ装置を備え、前記複数のストレージ装置の夫々が、通信路を介して少なくとも何れか１つの他のストレージ装置に接続されているプロセッサと、前記プロセッサに接続されているキャッシュメモリと、前記プロセッサに接続されている記憶デバイスとを含むストレージシステムを制御するストレージシステム制御方法であって、
　前記複数のストレージ装置の中の第１ストレージ装置のプロセッサが、ホストコンピュータに接続され、前記ホストコンピュータに対して仮想ボリュームを提供し、
　前記第１ストレージ装置のプロセッサが前記ホストコンピュータから前記仮想ボリュームへのデータアクセス要求として書き込み要求を受信し、且つ前記データアクセス要求に指定された前記仮想ボリューム内の仮想記憶領域に対して前記複数のストレージ装置の何れかのキャッシュメモリが割り当てられていない場合、前記第１ストレージ装置のプロセッサが、前記データアクセス要求に指定された書き込みデータを前記複数のストレージ装置の中の第２ストレージ装置のキャッシュメモリへ書き込み前記第２ストレージ装置のキャッシュメモリへ書き込まれた前記書き込みデータを前記複数のストレージ装置の中の第３ストレージ装置の記憶デバイスへ書き込むために、前記複数のストレージ装置の中で所定の状態条件を満たす候補の中から、前記第２ストレージ装置及び前記第３ストレージ装置を、前記通信路による前記複数のストレージ装置の間の接続を示す接続情報に基づいて選択する、
ことを備えるストレージシステム制御方法。