WO2017134795A1

WO2017134795A1 - ストレージシステム及びキャッシュ制御方法

Info

Publication number: WO2017134795A1
Application number: PCT/JP2016/053371
Authority: WO
Inventors: 恭平井出
Original assignee: 株式会社日立製作所
Priority date: 2016-02-04
Filing date: 2016-02-04
Publication date: 2017-08-10

Abstract

複数のスイッチが用意される。複数のスイッチの各々に、複数のストレージノードに加えて、第１キャッシュ部が接続される。複数のストレージノードの各々は、第２キャッシュ部を有する。複数のストレージノードが認識するグローバルキャッシュに、各第１キャッシュ部及び各第２キャッシュ部がマッピングされる。自ノード（Ｉ／Ｏ要求を受信したストレージノード）は、Ｎ重化されたＩ／Ｏ対象データを（Ｎは２以上の整数）、それぞれＮ個のキャッシュ部に書き込む。Ｎ個のキャッシュ部は、少なくとも１つの第２キャッシュ部と少なくとも１つの第１キャッシュ部である。自ノードは、リード対象データが、自ノードの第２キャッシュ部に存在していないがいずれかの第１キャッシュ部に存在していれば、その第１キャッシュ部からリード対象データを読み出す。

Description

ストレージシステム及びキャッシュ制御方法

　本発明は、概して、ストレージシステムのキャッシュ制御に関する。

　スケールアウトのために複数のノードが用意されたストレージシステムが知られている。例えば、特許文献１では、システムが、複数のノードと、複数のノードが接続されたファブリックメモリコントローラとを有する。複数のノードが、それぞれ、複数のメモリ領域を有し、複数のメモリ領域がファブリックメモリコントローラによってグローバルメモリにマッピングされる。

特開2015-127949号公報

　自ノード（Ｉ／Ｏ（Input/Output）を行うノード）のメモリ領域に、Ｉ／Ｏ対象データが存在していれば、メモリ領域に対するリードアクセスのレイテンシは小さい。

　しかし、自ノードのメモリ領域にＩ／Ｏ対象データが無く、他ノードのメモリ領域にＩ／Ｏ対象データが存在していれば、メモリ領域に対するリードアクセスのレイテンシが大きくなってしまう。このため、システム全体の性能（例えば、Ｉ／Ｏ要求を受けてから応答するまでのレスポンス性能）が低下してしまうおそれがある。

　複数のスイッチ（例えばインターコネクトスイッチ）が用意される。複数のスイッチの各々に、複数のストレージノードに加えて、第１キャッシュ部が接続される。複数のストレージノードの各々は、第２キャッシュ部を有する。複数のストレージノードが認識するグローバルキャッシュに、各第１キャッシュ部及び各第２キャッシュ部がマッピングされる。自ノード（Ｉ／Ｏ要求を受信したストレージノード）は、Ｎ重化されたＩ／Ｏ対象データを（Ｎは２以上の整数）、それぞれＮ個のキャッシュ部に書き込む。Ｎ個のキャッシュ部は、少なくとも１つの第２キャッシュ部と少なくとも１つの第１キャッシュ部である。自ノードは、リード対象データが、自ノードの第２キャッシュ部に存在していないがいずれかの第１キャッシュ部に存在していれば、その第１キャッシュ部からリード対象データを読み出す。

　リード対象データが自ノードの第２キャッシュ部に存在していなくても、他のストレージノードの第２キャッシュ部にリードアクセスする必要が無い。このため、ストレージシステムの性能が向上する。

実施例１に係るストレージシステムの構成を示す。グローバルキャッシュの構成を示す。グローバルキャッシュ管理テーブルの構成を示す。グローバルキャッシュ管理テーブルが格納される場所を示す。リード処理のフローを示す。ライト処理のフローを示す。実施例１に係る領域確保処理のフローを示す。第１の変形例を示す。第２の変形例を示す。実施例２に係る領域確保処理のフローを示す。比較例を示す。

　以下の説明では、「インターフェース部」は、１以上のインターフェースを含む。１以上のインターフェースは、１以上の同種のインターフェースデバイス（例えば１以上のＮＩＣ（Network Interface Card））であってもよいし２以上の異種のインターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

　また、以下の説明では、「キャッシュ部」は、１以上のキャッシュメモリ領域を含む。「キャッシュメモリ領域」は、キャッシュメモリそれ自体であってもよいし、メモリに設けられたキャッシュメモリとしての領域であってもよい。

　また、以下の説明では、「プロセッサ部」は、１以上のプロセッサを含む。少なくとも１つのプロセッサは、典型的には、ＣＰＵ（Central Processing Unit）である。プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。

　また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ部によって実行されることで、定められた処理を、適宜に記憶部及びインターフェース部のうちの少なくとも１つを用いながら行うため、処理の主語が、プロセッサ部（或いは、プロセッサ部を有する計算機又は計算機システム）とされてもよい。プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な記憶メディアであってもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

　また、以下の説明では、「ｘｘｘテーブル」といった表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部又は一部が１つのテーブルであってもよい。

　また、以下の説明では、同種の要素を区別して説明する場合は、その要素の参照符号を使用し（例えば、第１キャッシュ部１２０Ａ、第１キャッシュ部１２０Ｂ）、同種の要素を区別しないで説明する場合は、その要素の参照符号のうちの共通符号のみ使用する（例えば、第１キャッシュ部１２０）ことがある。

　また、以下の説明では、キャッシュ部における領域として、ダーティ領域、クリーン領域及び空き領域がある。「ダーティ領域」とは、少なくともダーティデータを格納している領域である。「ダーティデータ」とは、いずれの物理記憶デバイスにも格納されていないデータである。「クリーン領域」とは、クリーンデータを格納しておりダーティデータを格納していない領域である。「クリーンデータ」とは、いずれかの物理記憶デバイスに格納済のデータである。「空き領域」は、新たにデータの書込み先とすることができる領域、言い換えれば、データが存在しない又は無効なデータのみが格納されている領域である。

　図１は、実施例１に係るストレージシステムの構成を示す。

　ストレージシステム１００に、それぞれＩ／Ｏ要求を発行する１以上のホスト１０１に接続される。ストレージシステム１００は、Ｐ個のストレージノード１１０と（Ｐは２以上の整数）と、それぞれがＰ個のストレージノード（以下、ノード）１１０に接続されたＱ個のインターコネクトスイッチ（Ｑは２以上の整数）１３０と、Ｑ個のインターコネクトスイッチ１３０にそれぞれ接続されたＱ個の第１キャッシュ部１２０とを有する。Ｐ個のノード１１０の各々は、ホスト１０１に論理ボリュームを提供し、論理ボリュームの領域の論理アドレスを指定したＩ／Ｏ要求をホスト１０１から受信することができる。Ｐ個のノード１１０の各々は、１以上のホスト１０１のうちの少なくとも１つと複数のドライブ１５のうちの少なくとも１つとに接続される１以上のインターフェースであるインターフェース部と、第２キャッシュ部と、インターフェース部及び第２キャッシュ部に接続された１以上のプロセッサを含んだプロセッサ部とを有する。Ｑ個の第１キャッシュ部１２０と、Ｐ個のノード１１０がそれぞれ有するＰ個の第２キャッシュ部との各々は、１以上のキャッシュメモリ領域である。ストレージシステム１００には、ストレージ密結合アーキテクチャが採用されている。すなわち、Ｐ個のノード１１０の各々は、グローバルキャッシュを認識する。グローバルキャッシュは、Ｑ個の第１キャッシュ部１２０とＰ個の第２キャッシュ部とがマッピングされておりＰ個のノード１１０に共通のキャッシュアドレス空間である。このアーキテクチャによれば、各ノード１１０は、そのノード１１０の第２キャッシュ部へのアクセスと同様に、各第１キャッシュ部１２０や、他のノード１１０の第２キャッシュ部に、アクセスできる。Ｐ＝Ｑであってもよいし、Ｐ＞Ｑであってもよいし、Ｐ＜Ｑであってもよい。「ホスト」は、外部システムの一例であり、１以上のホスト計算機である。外部システムは、別のストレージシステム（例えば、コピー元又はコピー先）であってもよい。

　本実施例では、Ｐ＝４であり、Ｑ＝２である。インターフェース部の一例が、ホスト１０１との通信のためのフロントエンドインターフェース部と、１以上のドライブ１５（例えばＲＡＩＤ（Redundant Array of Independent (or Inexpensive) Disks）グループ）との通信のためのバックエンドインターフェース部とを含んでいる。フロントエンドインターフェース部の一例が、ＦＣ（Fibre Channel）－Ｉ／Ｆ６である（「Ｉ／Ｆ」はインターフェースデバイスの略）。バックエンドインターフェース部の一例が、ＳＡＳ（Serial Attached SCSI）－Ｉ／Ｆ５である。第２キャッシュ部の一例が、１以上の揮発メモリである。１以上の揮発メモリの一例が、ＤＩＭＭ（Dual Inline Memory Module）７である。ＤＩＭＭ７の全部又は一部が、キャッシュメモリ領域である。キャッシュメモリ領域とは、Ｉ／Ｏ対象データ（ホスト１０１からのＩ／Ｏ要求に従うデータ）が一時的に格納されるメモリ領域である。プロセッサ部の一例が、ＣＰＵ８である。ドライブ１５は、物理記憶デバイスの一例であり、例えば、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）である。インターコネクトスイッチ１３０は、ノード間のスイッチの一例であり、例えば、インフィニバンドスイッチ又はＰＣＩｅ（PCI-Express）スイッチである。インターコネクトスイッチ１３０Ａに第１キャッシュ部１２０Ａが接続されており、インターコネクトスイッチ１３０Ｂに第１キャッシュ部１２０Ｂが接続されている。

　図１によれば、４個のノード１１０Ａ～１１０Ｄを有する。４個のノード１１０Ａ～１１０Ｄの各々が、２個のインターコネクトスイッチ（２重化されたインターコネクトスイッチ）１３０Ａ及び１３０Ｂの各々に接続されている。ノード１１０Ｘ（Ｘ＝Ａ、Ｂ、Ｃ又はＤ）は、ＦＣ－Ｉ／Ｆ６Ｘａ及び６Ｘｂ、ＳＡＳ－Ｉ／Ｆ５Ｘａ及び５Ｘｂ、ＤＩＭＭ７Ｘａ及び７Ｘｂ、及び、ＣＰＵ８Ｘａ及び８Ｘａを有する。「ＦＣ－Ｉ／Ｆ６Ｘ」は、ＦＣ－Ｉ／Ｆ６Ｘａ及び６Ｘｂのうちの少なくとも１つを意味する。「ＳＡＳ－Ｉ／Ｆ５Ｘ」は、ＳＡＳ－Ｉ／Ｆ５Ｘａ及び５Ｘｂのうちの少なくとも１つを意味する。「ＤＩＭＭ７Ｘ」は、ＤＩＭＭ７Ｘａ及び７Ｘｂのうちの少なくとも１つを意味する。ＣＰＵ８Ｘは、「ＣＰＵ８Ｘａ及び８Ｘａ」のうちの少なくとも１つを意味する。

　いずれのノード１１０も、ホスト１０１からＩ／Ｏ要求を受信し得る。以下の説明では、Ｉ／Ｏ要求を受信したノードを、便宜上、「自ノード」と言うことがある。また、自ノードが有するＤＩＭＭを、「自ＤＩＭＭ」と言うことがある。

　例えば、ノード１１０が、リード要求を受信したとする。自ノード１１０は、そのリード要求に従うリード対象データがグローバルキャッシュに存在する場合、（ｘ１）～（ｘ３）を行うようになっている。
（ｘ１）リード対象データが、自ＤＩＭＭ７に存在していれば、自ＤＩＭＭ７からリード対象データを読み出す。
（ｘ２）リード対象データが、自ＤＩＭＭ７に存在していないがいずれかの第１キャッシュ部１２０に存在していれば、その第１キャッシュ部１２０からリード対象データを読み出す。
（ｘ３）リード対象データが、自ＤＩＭＭ７と第１キャッシュ部１２０Ａ及び１２０Ｂとのいずれにも存在しないが自ＤＩＭＭ７以外のいずれかのＤＩＭＭ７に存在していれば、そのＤＩＭＭ７からリード対象データを読み出す。

　そこで、自ノード１１０は、リード対象データがグローバルキャッシュに存在しない場合、又は、受信したＩ／Ｏ要求がライト要求の場合、Ｎ重化されたＩ／Ｏ対象データ（リード対象データ又はライト対象データ（ライト要求に従うデータ））を、それぞれＮ個のキャッシュ部に書き込む（Ｎは２以上の整数）。Ｎ個のキャッシュ部は、少なくとも１個のＤＩＭＭ７と、少なくとも１個の第１キャッシュ部１２０である。本実施例では、Ｎ＝４である。具体的には、自ノード（例えば１１０Ｃ）によりＤＩＭＭ（７Ａｂ及び７Ｂｂ）に書き込まれるＩ／Ｏ対象データ１０が２重化されており（破線矢印１５０Ａ及び１５０Ｂ参照）、自ノード１１０Ｃにより第１キャッシュ部１２０Ａ及び１２０Ｂに書き込まれるＩ／Ｏ対象データ１０も２重化されている（破線矢印１４０Ａ及び１４０Ｂ参照）。

　これにより、リード対象データが自ＤＩＭＭ７に存在していなくても、自ノード１１０は、他ノード１１０のＤＩＭＭ７にリードアクセスする必要が無い。

　すなわち、図１１の比較例によれば、２重化されたＩ／Ｏ対象データ８０が、２個のノード１１１０Ａ及び１１１０Ｂがそれぞれ有する２個のＤＩＭＭ７Ａｂ及び７Ｂｂに書き込まれるが、その後に、そのＩ／Ｏ対象データ８０のリード要求をいずれかのノード（例えば１１１０Ｄ）が受けた場合、自ノード１１１０Ｄは、自ＤＩＭＭ７ＤにＩ／Ｏ対象データが無ければ、他ノード１１１０のＤＩＭＭ７からＩ／Ｏ対象データを読み出さなければならない（実線矢印１１８０参照）。なお、図１１では、本実施例と異なるエレメントには異なる参照符号が振られている。例えば、そのようなエレメントとして、本実施例のようなキャッシュ制御を行わないＣＰＵ９Ｘ、ＣＰＵ９Ｘを有するノード１１１０Ｘ、ノード１１１０Ｘを有するストレージシステム１１００を挙げることができる（Ｘは、上述したように、Ａ、Ｂ、Ｃ又はＤである）。

　本実施例によれば、図１に示したように、少なくとも１つのＩ／Ｏ対象データが、少なくとも１個の第１キャッシュ部１２０（インターコネクトスイッチ１３０に直結のキャッシュ部）に書き込まれる。このため、例えばノード１１０Ｄが自ノードの場合、リード対象データ１０が自ＤＩＭＭ７Ｄに存在していなくても、自ノード１１０Ｄは第１キャッシュ部１２０Ｂにリードアクセスすればよく（実線矢印１９６参照）、他ノード１１０Ａ又は１１０ＢのＤＩＭＭ７Ａｂ又は７Ｂｂにリードアクセスする必要が無い。このため、ストレージシステム１００の性能が向上する。なお、Ｉ／Ｏ対象データの書込み先としてのＤＩＭＭ７（ノード１１０）は、１個であってもよいし（図８に示す変形例を参照）、３個以上（例えば全てのノード１１０の全てのＤＩＭＭ）であってもよい。データの書込み先のＤＩＭＭ７（ノード１１０）が多ければ、その後にそのデータをリード対象とするリード要求を受けたノード１１０のＤＩＭＭ７にリード対象データが存在する確率が高まる。データの書き込み先のＤＩＭＭ７の一例として、自ＤＩＭＭ７を採用することもできるし、そのデータの格納先ドライブ１５に接続されているノード１１０のＤＩＭＭ７を採用することもできる。

　さらに、本実施例では、各第１キャッシュ部１２０は、不揮発キャッシュ部である。以下、第１キャッシュ部１２０を「不揮発キャッシュ部１２０」と言う。不揮発キャッシュ部１２０は、１以上の不揮発メモリ領域であり、１以上の不揮発メモリ領域の一例が、２つの不揮発メモリ１３である。具体的には、不揮発キャッシュ部１２０Ａが、不揮発メモリ１３Ａａ及び１３Ａｂを有し、不揮発キャッシュ部１２０Ｂが、不揮発メモリ１３Ｂａ及び１３Ｂｂを有する。

　少なくとも１つのＩ／Ｏ対象データが少なくとも１個の不揮発キャッシュ部１２０に書き込まれる。これにより、各ノード１１０からキャッシュバックアップ資源を削減できる。「キャッシュバックアップ資源」とは、ＤＩＭＭ７におけるデータ（特に、ダーティデータ）のバックアップのための資源であり、例えば、バッテリ１と、ＳＳＤ（Solid State Drive）２である。ＳＳＤは、バックアップ先の不揮発メディアの一例である。バッテリ１の全体容量（例えば、１個のバッテリ１の容量とバッテリ１の数とのうちの少なくとも１つに従う容量）は、電断が生じてもＤＩＭＭ７内のデータをＳＳＤ２に退避するのに十分な容量である。

　図１１の比較例によれば、ノード１１１０Ｘ（Ｘ＝Ａ、Ｂ、Ｃ又はＤ）の各々において、キャッシュバックアップ資源として、バッテリ１Ｘａ及び１Ｘｂと、ＳＳＤ２Ｘとのいずれも必要とされる。

　しかし、本実施例では、少なくとも１つのＩ／Ｏ対象データの書込み先が少なくとも１個の不揮発キャッシュ部１２０のため、キャッシュバックアップ資源、図示の例によれば、破線枠で示すように、ノード１１０Ｘにおいて少なくとも１個のバッテリ１Ｘを削減できる。特に、本実施例では、Ｎ重化されたＩ／Ｏ対象データのうちの２重化されたＩ／Ｏ対象データが２個の不揮発キャッシュ部１２０Ａ及び１２０Ｂにそれぞれ書き込まれる。つまり、２重化された不揮発キャッシュ部１２０Ａ及び１２０ＢにおいてＩ／Ｏ対象データも２重化されている。故に、電断が生じてもＤＩＭＭ７Ｘ内のＩ／Ｏ対象データをバックアップしたりそのバックアップ先となるＳＳＤ２Ｘをノード１１０Ｘに搭載したりしておく必要が無い。なお、Ｉ／Ｏ対象データの書込み先としての不揮発キャッシュ部１２０は、１個であってもよい（図８に示す変形例を参照）。そのケースでは、Ｉ／Ｏ対象データを少なくとも２重化して保持するために、電断が生じたときには少なくとも１つのＩ／Ｏ対象データをバックアップする必要がある。故に、ノード１１０Ｘの各々において、実線枠で示すように、バッテリ１Ｘａ及びＳＳＤ２Ｘは必要である。しかし、バッテリ１Ｘａの全体容量とＳＳＤ２Ｘの記憶容量は、不揮発キャッシュ部１２０が無いケースに比べて削減することができる。

　第１ノード１１０（自ノード１１０）が第２ノード１１０（他ノード１１０）のＤＩＭＭ７にアクセスするためには、第２ノード１１０のＣＰＵ８を経由する必要があるが（例えば、第１ノード１１０が第２ノード１１０のＣＰＵ８に何らかの命令を出す必要があるが）、第１キャッシュ部１２０へのアクセスのためには、第１ノード１１０が他のＣＰＵ８を経由する必要が無い。この観点から、不揮発キャッシュ部１２０はインターコネクトスイッチ１３０に直結されていると表現することができる。

　図２は、グローバルキャッシュの構成を示す。具体的には、図２の左部分２１０が、グローバルキャッシュの構成を示す。図２の中央部分２２０が、ノード１１０のグローバルキャッシュの使用の一例を示す。図２の右部分２３０が、ノード１１０のグローバルキャッシュの使用の一例を示す。

　図２の左部分２１０に示すように、グローバルキャッシュ２００は、グローバルキャッシュアドレスのアドレス空間（ノード１１０Ａ～１１０Ｄに共通のアドレス空間）であり、そのアドレス空間は、自ノードアドレス範囲２０１と、Ｐ個のＤＩＭＭアドレス範囲２０２（本実施例では４個のＤＩＭＭアドレス範囲２０２Ａ～２０２Ｄ）と、Ｑ個の不揮発アドレス範囲２０３（本実施例では２個の不揮発アドレス範囲２０３Ａ及び２０３Ｂ）とで構成される。

　自ノードアドレス範囲２０１は、このグローバルキャッシュ２００を認識するノード１１０のＤＩＭＭ７が割り当てられたアドレス範囲である。自ノードアドレス範囲２０１は、ＤＩＭＭ７のアドレス範囲以外に、他種の範囲（図では“Others”）（例えば、Ｉ／Ｏの際に使用されるＩ／Ｏ範囲）を含んでもよい。

　各ＤＩＭＭアドレス範囲２０２は、ＤＩＭＭ７が割り当てられたアドレス範囲である。ＤＩＭＭアドレス範囲２０２Ａ～２０２Ｄのうちの１つは、このグローバルキャッシュ２００を認識するノード１１０のＤＩＭＭ７に対応している。このため、ＤＩＭＭアドレス範囲２０２Ａ～２０２Ｄのうちの１つは、自ノードアドレス範囲２０１に対応している。ＤＩＭＭアドレス範囲２０２Ａ～２０２Ｄのうちの１つと自ノードアドレス範囲２０１間ではデータがミラーリングされる。

　各不揮発アドレス範囲２０３は、不揮発キャッシュ部１２０が割り当てられたアドレス範囲である。不揮発キャッシュ部１２０は２つの不揮発メモリ１３であるため、各不揮発アドレス範囲２０３は、２つの不揮発メモリ１３にそれぞれ対応した２つのサブ不揮発アドレス範囲２４で構成される。具体的には、不揮発アドレス範囲２０３Ａは、２つのサブ不揮発アドレス範囲２４Ａａ及び２４Ａｂで構成され、不揮発アドレス範囲２０３Ｂは、２つのサブ不揮発アドレス範囲２４Ｂａ及び２４Ｂｂで構成される。

　本実施例において、Ｉ／Ｏ対象データは、典型的にはユーザデータであるが、制御データであってもよい。ユーザデータは、ホスト１０１（例えばホスト１０１のアプリケーション）が使用するデータである。制御データは、ストレージシステム１００の構成を表す構成情報（例えば、論理ボリュームとドライブ１５との関係、コピー元の論理ボリュームとコピー先の論理ボリュームとで構成されたペアの構成等）のうちの少なくとも一部である。自ノードアドレス範囲２０１、ＤＩＭＭアドレス範囲２０２及び不揮発アドレス範囲２０３の各々は、ユーザデータ用の範囲と制御データ用の範囲とに区切られていてもよい。

　図２の中央部分２２０によれば、Ｉ／Ｏ対象データ２８０が４重化されている。具体的には、４個のノード１１０Ａ～１１０Ｄのうちの２個のノード１１０Ａ及び１１０ＢのＤＩＭＭ７Ａ及び７Ｂに、それぞれ、２重化されたＩ／Ｏ対象データ２８０が格納されており、且つ、２個の不揮発キャッシュ部１２０Ａ及び１２０Ｂに、それぞれ、２重化されたＩ／Ｏ対象データ２８０が格納されている。

　図２の中央部分２２０によれば、自ＤＩＭＭ７Ａ（自ノードアドレス範囲２０１）にＩ／Ｏ対象データがあるので、自ノード１１０Ａは、太線矢印で示すように、自ＤＩＭＭ７ＡからＩ／Ｏ対象データ２８０を読み出す。

　一方、図２の右側部分によれば、自ＤＩＭＭ７ＡにＩ／Ｏ対象データがないがいずれかの不揮発キャッシュ部１２０にＩ／Ｏ対象データがあるので、自ノード１１０Ａは、太線矢印で示すように、いずれかの不揮発キャッシュ部１２０Ｂ（不揮発アドレス範囲２０３Ｂ）からＩ／Ｏ対象データを読み出す。

　図３は、グローバルキャッシュ管理テーブルの構成を示す。

　グローバルキャッシュ管理テーブル（以下、管理テーブル）３００は、グローバルキャッシュ２００に存在するデータ毎にエントリ（レコード）を有する。各エントリは、開始アドレス３０１、領域サイズ３０２、データ管理番号３０３、冗長度３０４、デステージ完了フラグ３０５、データ有効フラグ３０６及び対応ドライブアドレス３０７を格納する。以下、１つのデータを例に取る。

　開始アドレス３０１が、データが格納されている領域（アドレス範囲）の先頭アドレスを表す。なお、アドレスは、グローバルなキャッシュアドレス（ノード１１０に共通のキャッシュアドレス）である。アドレスにおける所定桁の値（例えば数値又は記号）から、そのアドレスが属する領域が、いずれのＤＩＭＭ７又はいずれの不揮発メモリ１３に存在するかがわかる。アドレスがＤＩＭＭ７に対応している場合、そのアドレスの所定桁は、その対応するＤＩＭＭ７を有するノード１１０の番号でよい。ノード１１０は、そのノード１１０の番号を、例えば、機械的な設定（例えば、ノード１１０に設けられたボタンの設定）、又は、図示しない管理端末からの設定等により知ることができる。

　領域サイズ３０２は、データが格納されている領域のサイズを表す。データ管理番号３０３は、データに割り振られた番号である。グローバルキャッシュ２００には、最大４つの同一のデータが存在するが、同一のデータには、同一のデータ管理番号３０３が割り振られている。データ管理番号３０３が同一のデータに対応する対応ドライブアドレス３０７も同一である。従って、データ管理番号３０３のカラムが無くてもよい。対応ドライブアドレス３０７のカラムから、グローバルキャッシュ２００における同一のデータを特定することができる。

　冗長度３０４は、データの冗長度、すなわち、同一のデータの数（冗長化されたデータの数）を表す。従って、本実施例では、冗長度３０４の最大値は“４”である。

　デステージ完了フラグ３０５は、データがデステージ済みか否か（データがドライブ１５に格納済か否か）を表す。デステージ完了フラグ３０５について、“１”は、デステージ済みを意味し、“０”は、デステージが済んでいないを意味する。データ有効フラグ３０６は、データが有効か否かを表す。データ有効フラグ３０６について、“１”は、有効を意味し、“０”は、無効を意味する。デステージ完了フラグ３０５の値とデータ有効フラグ３０６の値の組合せから、データが格納されている領域の種類（空き、ダーティ及びクリーンのいずれであるか）を特定することができる。具体的には、データ有効フラグ３０６が“０”ならば、領域は、空き領域である。データ有効フラグ３０６が“１”且つデステージ完了フラグ３０５が“０”ならば、領域は、ダーティ領域である。データ有効フラグ３０６が“１”且つデステージ完了フラグ３０５が“１”ならば、領域は、クリーン領域である。

　対応ドライブアドレス３０７が、データの格納先のドライブアドレスを表す。ドライブアドレスは、ドライブ１５のアドレスであるが、それに代えて、ドライブ１５が基になっている論理空間（例えば論理ボリューム）のアドレスでもよい。なお、全てのデータが、必ずしもドライブ１５に格納される必要は無く、ドライブ１５に格納されないデータについては、対応ドライブアドレスは所定値（例えば“‐”）でよい。

　図３に示す管理テーブル３００において、ユーザデータについては、デステージ完了フラグ３０５及びデータ有効フラグ３０６の各々について有効な値（“１”又は“０”）が設定されてよく、制御データについては、デステージ完了フラグ３０５及びデータ有効フラグ３０６の各々について無効な値（例えば“-”）が設定されてよい。

　管理テーブル３００は、例えば、図４に示すように、不揮発キャッシュ部１２０Ａ及び１２０Ｂの各々に格納される（管理テーブル３００は２重化されている）。全てのノード１１０が、同じ領域（不揮発キャッシュ部１２０における領域であって管理テーブル３００が格納されている領域）を参照又は更新する。図４によれば、ノード１１０間での同期が不要である。

　変形例として、図９に示すように、マスタ管理テーブル３００Ｍ（管理テーブル３００のマスタ）が、不揮発キャッシュ部１２０Ａ及び１２０Ｂに配置され、コピー管理テーブル３００Ｃ（マスタのコピー）が、各ノード１１０のＤＩＭＭ７に配置されてもよい。各ノード１１０は、そのノード１１０のＤＩＭＭ７内の管理テーブル３００Ｃを参照又は更新し、管理テーブル３００Ｃを更新した場合、更新後の管理テーブル３００Ｃを、管理テーブル３００Ｍに反映してもよい。図９によれば、各ノード１１０の参照先となる管理テーブル３００Ｃは、そのノード１１０のＤＩＭＭ７にあるので、管理テーブル３００の参照処理時間が短くて済む。

　以下、本実施例で行われる処理の一例を説明する。

　図５は、リード処理のフローを示す。リード処理は、いずれかのノード１１０がリード要求をホスト１０１から受信した場合に開始される。以下、図５、図７及び図１０の説明において、リード要求を受信したノード１１０を「自ノード１１０」と言う。自ノード１１０（自ノード１１０のＣＰＵ８）によりリード処理が行われる。リード要求には論理アドレス（典型的には、リード元の論理ボリュームにおける論理領域の論理アドレス）が指定されている。

　自ノード１１０は、管理テーブル３００を参照し、リード要求に従うリード対象データがグローバルキャッシュ２００に存在するか否かを判断する（Ｓ５０１）。リード要求で指定されている論理アドレス（又はその論理アドレスを基に特定されるドライブアドレス）に関連付けられているグローバルキャッシュアドレスが特定されれば、リード対象データがグローバルキャッシュ２００に存在するということである。

　Ｓ５０１の判断結果が真の場合（Ｓ５０１：Ｙｅｓ）、自ノード１１０は、リード対象データが自ＤＩＭＭ７に存在するか否かを判断する（Ｓ５０２）。Ｓ５０１で特定されたグローバルキャッシュアドレスが、自ノードアドレス範囲２０１、又は、自ノード１１０のＤＩＭＭアドレス範囲２０２に属していれば、リード対象データが自ＤＩＭＭ７に存在するということである。

　Ｓ５０２の判断結果が真の場合（Ｓ５０２：Ｙｅｓ）、自ノード１１０は、自ＤＩＭＭ７からリード対象データを読み出し、読み出したリード対象データをホスト１０１に返す（Ｓ５０３）。

　Ｓ５０２の判断結果が偽の場合（Ｓ５０２：Ｎｏ）、自ノード１１０は、リード対象データがいずれかの不揮発キャッシュ部１２０に存在するか否かを判断する（Ｓ５０４）。Ｓ５０１で特定されたグローバルキャッシュアドレスが、いずれかの不揮発アドレス範囲２０３に属していれば、リード対象データがいずれかの不揮発キャッシュ部１２０に存在するということである。

　Ｓ５０４の判断結果が真の場合（Ｓ５０４：Ｙｅｓ）、自ノード１１０は、いずれかの不揮発キャッシュ部１２０（不揮発メモリ１３）からリード対象データを読み出し、読み出したリード対象データをホスト１０１に返す（Ｓ５０５）。

　Ｓ５０４の判断結果が偽の場合（Ｓ５０４：Ｎｏ）、自ノード１１０は、Ｓ５０１で特定されたグローバルキャッシュアドレスが属するアドレス範囲、すなわち、他ノード１１０のＤＩＭＭ７からリード対象データを読み出し、読み出したリード対象データをホスト１０１に返す（Ｓ５０６）。

　Ｓ５０１の判断結果が偽の場合（Ｓ５０１：Ｎｏ）、自ノード１１０は、管理テーブル３００を参照し、ステージング（ドライブ１５からのリード対象データの読出し）に必要な空き領域がグローバルキャッシュ２００にあるか否かを判断する（Ｓ５０７）。いずれか２個のＤＩＭＭ７（例えば、少なくとも自ノード１１０のＤＩＭＭ７を含む）と２個の不揮発キャッシュ部１２０の各々に必要な空き領域がある場合、必要な空き領域がグローバルキャッシュ２００にあるということである。一方、いずれか２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０のうちの少なくとも１つに、必要な空き領域が無い場合、必要な空き領域がグローバルキャッシュ２００に無いということである。「必要な空き領域」とは、Ｉ／Ｏ対象データ（リード処理ではリード対象データのサイズであり、後述のライト処理ではライト対象データ）のサイズ以上のサイズの空き領域である。Ｓ５０７では、いずれか２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０の各々について、空き領域の合計サイズ（具体的には、データ有効フラグ３０６が“０”に対応した領域の領域サイズ３０２の合計）がＩ／Ｏ対象データのサイズ以上か否かが判断される。

　Ｓ５０７の判断結果が偽の場合（Ｓ５０７：Ｎｏ）、自ノード１１０は、領域確保処理（Ｓ５０８）を実行する。「領域確保処理」とは、１以上の空き不足キャッシュ部（ＤＩＭＭ７及び不揮発キャッシュ部１２０のうちの少なくとも１つ）の各々について、その空き不足キャッシュ部から必要な空き領域を確保する処理である。具体的には、領域確保処理は、１以上の空き不足キャッシュ部の各々について、１以上のクリーン領域と１以上のダーティ領域とのうちの１以上の領域の各々を空き領域とすることで、必要な空き領域（Ｉ／Ｏ対象データのサイズ以上の空き領域）を確保する処理である。「空き不足キャッシュ部」は、必要な空き領域の無いキャッシュ部である。

　Ｓ５０７の判断結果が真の場合（Ｓ５０７：Ｙｅｓ）、又は、Ｓ５０８の後、自ノード１１０は、リード対象データをドライブ１５から読み出し、読み出したリード対象データを、２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０の各々における必要な空き領域に書き込み、且つ、そのリード対象データをホスト１０１に返す（Ｓ５０９）。つまり、Ｓ５０９では、４重化されたリード対象データが、２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０にそれぞれ書き込まれる。また、Ｓ５０９でホスト１０１に返されるリード対象データは、自ノード１１０のＤＩＭＭ７に書き込まれた（キャッシュされた）リード対象データでよい。

　図６は、ライト処理のフローを示す。ライト処理は、いずれかのノード１１０がライト要求をホスト１０１から受信した場合に開始される。以下、図６、図７及び図１０の説明において、ライト要求を受信したノード１１０を「自ノード１１０」と言う。自ノード１１０（自ノード１１０のＣＰＵ８）によりライト処理が行われる。ライト要求には論理アドレス（典型的には、ライト先の論理ボリュームにおける論理領域の論理アドレス）が指定されている。

　自ノード１１０は、管理テーブル３００を参照し、必要な空き領域がグローバルキャッシュ２００にあるか否かを判断する（Ｓ６０１）。いずれか２個のＤＩＭＭ７（例えば、少なくとも自ノード１１０のＤＩＭＭ７を含む）と２個の不揮発キャッシュ部１２０の各々に必要な空き領域がある場合、必要な空き領域がグローバルキャッシュ２００にあるということである。一方、いずれか２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０のうちの少なくとも１つに、必要な空き領域が無い場合、必要な空き領域がグローバルキャッシュ２００に無いということである。Ｓ６０１では、いずれか２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０の各々について、空き領域の合計サイズ（具体的には、データ有効フラグ３０６が“０”に対応した領域の領域サイズ３０２の合計）がＩ／Ｏ対象データのサイズ以上か否かが判断される。

　Ｓ６０１の判断結果が偽の場合（Ｓ６０１：Ｎｏ）、自ノード１１０は、領域確保処理（Ｓ６０２）を実行することで、必要な空き領域の無いキャッシュ部（ＤＩＭＭ７又は不揮発キャッシュ部１２０）から、必要な空き領域を確保する。

　Ｓ６０１の判断結果が真の場合（Ｓ６０１：Ｙｅｓ）、又は、Ｓ６０２の後、自ノード１１０は、ライト対象データ（ライト要求に従うデータ）を、２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０の各々における必要な空き領域に書き込む（Ｓ６０３）。つまり、４重化されたライト対象データが、２個のＤＩＭＭ７と２個の不揮発キャッシュ部１２０にそれぞれ書き込まれる。

　自ノード１１０は、管理テーブル３００を更新する（Ｓ６０４）。具体的には、例えば、４重化されたライト対象データの各々について、そのライト対象データに対応するエントリに、書込み先のグローバルキャッシュアドレス（開始アドレス３０１）と、書込み先の領域の領域サイズ３０２と、４重化されたライト対象データに自ノード１１０により割り振られた同一のデータ管理番号３０３と、冗長度３０４（ここでは“４”）と、デステージ完了フラグ３０５“０”と、データ有効フラグ３０６“１”とが書き込まれる。

　自ノード１１０は、ライト完了の応答をホスト１０１に返す（Ｓ６０５）。

　図７は、実施例１に係る領域確保処理のフローを示す。

　実施例１に係る領域確保処理では、自ノード１１０は、１以上の空き不足キャッシュ部の各々について、１以上の領域（クリーン領域及びダーティ領域のうちの少なくとも１つ）の各々を空き領域とするが、その領域内のデータと同じデータ（冗長化されたデータ）を格納しておりその領域を含んだキャッシュ部と異なるキャッシュ部における領域を空き領域としない。つまり、実施例１に係る領域確保処理では、１以上の空き不足キャッシュ部の各々についてのみ、領域が空き領域とされる。これにより、少なくとも１つのデータは、そのデータの冗長度３０４が下がるものの、グローバルキャッシュ２００に残り続けるので、レスポンス性能の低下を軽減することができる。領域確保処理では、１以上の空き不足キャッシュ部の各々について、Ｓ７０１～Ｓ７０６が行われる。以下、１つの空き不足キャッシュ部を例に取る。

　自ノード１１０は、管理テーブル３００を参照し、各空き不足キャッシュ部について、｛（Ｉ／Ｏ対象データのサイズ）－（空き領域の合計サイズ）｝以上の合計サイズのクリーン領域があるか否かを判断する（Ｓ７０１）。その合計サイズのクリーン領域の各々を、図７の説明において、「対象クリーン領域」と言う。

　Ｓ７０１の判断結果が真の場合（Ｓ７０１：Ｙｅｓ）、自ノード１１０は、各対象クリーン領域を空き領域とし、且つ、各対象クリーン領域に関連する冗長度３０４の値を１減算する（Ｓ７０２）。具体的には、自ノード１１０は、各対象クリーン領域について、その対象クリーン領域に対応したデータ有効フラグ３０６を“０”に変更する。この結果、各対象クリーン領域が空き領域となる。また、自ノード１１０は、各対象クリーン領域について、その対象クリーン領域に対応したエントリにおける冗長度３０４の値から１減算し、且つ、その対象クリーン領域に対応したエントリにおけるデータ管理番号３０３と同じデータ管理番号３０３を保持するエントリにおける冗長度３０４の値からも１減算する。つまり、対象クリーン領域内のデータとそれの冗長化データとの各々について、冗長度３０４の値が１減算される。

　Ｓ７０１の判断結果が偽の場合（Ｓ７０１：Ｎｏ）、自ノード１１０は、全てのクリーン領域の各々を空き領域とし、且つ、各クリーン領域に関連する冗長度３０４の値を１減算する（Ｓ７０３）。具体的には、自ノード１１０は、各クリーン領域について、そのクリーン領域に対応したデータ有効フラグ３０６を“０”に変更する。この結果、各クリーン領域が空き領域となる。また、自ノード１１０は、各クリーン領域について、そのクリーン領域に対応したエントリにおける冗長度３０４の値から１減算し、且つ、そのクリーン領域に対応したエントリにおけるデータ管理番号３０３と同じデータ管理番号３０３を保持するエントリにおける冗長度３０４の値からも１減算する。

　自ノード１１０は、管理テーブル３００を参照し、｛（Ｉ／Ｏ対象データのサイズ）－（空き領域の合計サイズ）｝以上の合計サイズのダーティ領域を特定する（Ｓ７０４）。なお、このＳ７０４での「空き領域の合計サイズ」は、Ｓ７０１での「空き領域の合計サイズ」と、Ｓ７０３で空き領域とされたクリーン領域の合計サイズとの合計である。

　自ノード１１０は、Ｓ７０４で特定した各ダーティ領域内のダーティデータを、そのダーティデータの対応ドライブアドレス３０７に従うドライブ１５にデステージする（Ｓ７０５）。

　自ノード１１０は、Ｓ７０４で特定した全てのダーティ領域の各々を空き領域とし、且つ、全てのダーティ領域の各々に関連する冗長度３０４の値を１減算する（Ｓ７０６）。具体的には、自ノード１１０は、各ダーティ領域について、そのダーティ領域に対応したデータ有効フラグ３０６を“０”に変更する。この結果、各ダーティ領域が空き領域となる。また、自ノード１１０は、各ダーティ領域について、そのダーティ領域に対応したエントリにおける冗長度３０４の値から１減算し、且つ、そのダーティ領域に対応したエントリにおけるデータ管理番号３０３と同じデータ管理番号３０３を保持するエントリにおける冗長度３０４の値からも１減算する。更に、自ノード１１０は、各ダーティ領域について、そのダーティ領域に対応したデステージ完了フラグ３０５を“０”に変更する。

　実施例２を説明する。その際、実施例１との相違点を主に説明し、実施例１との共通点については説明を省略又は簡略する。

　図１０は、実施例２に係る領域確保処理のフローを示す。

　実施例２に係る領域確保処理では、自ノード１１０は、１以上の空き不足キャッシュ部の各々について、１以上の領域（クリーン領域及びダーティ領域のうちの少なくとも１つ）の各々を空き領域とするだけでなく、空き領域とされる領域内のデータと同じデータ（冗長化されたデータ）を格納しておりその領域を含んだキャッシュ部と異なるキャッシュ部における領域も空き領域とする。つまり、実施例１に係る領域確保処理では、１以上の空き不足キャッシュ部の各々についてのみ、領域が空き領域とされる。これにより、データに付随してそれの全ての冗長化データがグローバルキャッシュ２００から消去されたものとして扱われるが、キャッシュ部の空き領域が増えるので、少なくとも１つのキャッシュ部について領域確保処理が行われる頻度を軽減することができる。領域確保処理では、１以上の空き不足キャッシュ部の各々について、Ｓ１００１～Ｓ１００６が行われる。以下、１つの空き不足キャッシュ部を例に取る。

　自ノード１１０は、管理テーブル３００を参照し、各空き不足キャッシュ部について、｛（Ｉ／Ｏ対象データのサイズ）－（空き領域の合計サイズ）｝以上の合計サイズのクリーン領域があるか否かを判断する（Ｓ１００１）。その合計サイズのクリーン領域の各々を、図１０の説明において、「対象クリーン領域」と言う。

　Ｓ１００１の判断結果が真の場合（Ｓ１００１：Ｙｅｓ）、自ノード１１０は、各対象クリーン領域について、その対象クリーン領域と、その対象クリーン領域の全ての冗長領域との各々を空き領域とする（Ｓ１００２）。具体的には、自ノード１１０は、対象クリーン領域毎に、その対象クリーン領域と、その対象クリーン領域の全ての冗長領域との各々について、データ有効フラグ３０６を“０”に変更する。なお、対象クリーン領域の「冗長領域」とは、その対象クリーン領域に対応したエントリにおけるデータ管理番号３０３と同じデータ管理番号３０３を保持するエントリに対応した領域（異なるキャッシュ部における領域）である。言い換えれば、対象クリーン領域内のデータの冗長化データを記憶している領域である。

　Ｓ１００１の判断結果が偽の場合（Ｓ１００１：Ｎｏ）、自ノード１１０は、全てのクリーン領域の各々を空き領域とする（Ｓ１００３）。具体的には、自ノード１１０は、各クリーン領域について、そのクリーン領域に対応したデータ有効フラグ３０６を“０”に変更する。

　自ノード１１０は、管理テーブル３００を参照し、｛（Ｉ／Ｏ対象データのサイズ）－（空き領域の合計サイズ）｝以上の合計サイズのダーティ領域を特定する（Ｓ１００４）。なお、このＳ１００４での「空き領域の合計サイズ」は、Ｓ１００１での「空き領域の合計サイズ」と、Ｓ１００３で空き領域とされたクリーン領域の合計サイズとの合計である。

　自ノード１１０は、Ｓ１００４で特定した各ダーティ領域について、ダーティデータを、そのダーティデータの対応ドライブアドレス３０７に従うドライブ１５にデステージし、且つ、そのダーティ領域に対応したデステージ完了フラグ３０５を“０”に変更する（Ｓ１００５）。

　自ノード１１０は、Ｓ１００４で特定した全てのダーティ領域の各々について、そのダーティ領域と、そのダーティ領域の全ての冗長領域との各々を空き領域とする（Ｓ１００６）。具体的には、自ノード１１０は、ダーティ領域毎に、そのダーティ領域と、そのダーティ領域の全ての冗長領域との各々について、データ有効フラグ３０６を“０”に変更する。なお、ダーティ領域の「冗長領域」とは、そのダーティ領域に対応したエントリにおけるデータ管理番号３０３と同じデータ管理番号３０３を保持するエントリに対応した領域（異なるキャッシュ部における領域）である。言い換えれば、ダーティ領域内のデータの冗長化データを記憶している領域である。冗長領域がダーティ領域の場合、自ノード１１０は、そのダーティ領域内のダーティデータをドライブ１５にデステージし、且つ、そのダーティ領域に対応したデステージ完了フラグ３０５を“０”に変更する。

　以上、幾つかの実施例及び変形例を説明したが、本発明は、これらの実施例及び変形例に限定されるものでなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

１００：ストレージシステム

Claims

　それぞれＩ／Ｏ（Input/Output）要求を発行する１以上の外部システムに接続されるストレージシステムであって、
　Ｐ個のストレージノードと（Ｐは２以上の整数）、
　それぞれが前記Ｐ個のストレージノードに接続されたＱ個のスイッチと（Ｑは２以上の整数）、
　前記Ｑ個のスイッチにそれぞれ接続されたＱ個の第１キャッシュ部と
を有し、
　前記Ｐ個のストレージノードの各々は、
　　前記１以上の外部システムのうちの少なくとも１つと複数の物理記憶デバイスのうちの少なくとも１つとに接続される１以上のインターフェースであるインターフェース部と、
　　第２キャッシュ部と、
　　前記インターフェース部及び前記第２キャッシュ部に接続された１以上のプロセッサを含んだプロセッサ部と
を有し、
　前記Ｑ個の第１キャッシュ部と、前記Ｐ個のストレージノードがそれぞれ有するＰ個の第２キャッシュ部との各々は、１以上のキャッシュメモリ領域であり、
　前記Ｐ個のストレージノードの各々は、グローバルキャッシュを認識し、
　前記グローバルキャッシュは、前記Ｑ個の第１キャッシュ部と前記Ｐ個の第２キャッシュ部とがマッピングされており前記Ｐ個のストレージノードに共通のキャッシュアドレス空間であり、
　前記Ｐ個のストレージノードのうちのいずれかのストレージノードがＩ／Ｏ要求を受信した場合、そのストレージノードである自ノードは、
　（Ｘ）前記受信したＩ／Ｏ要求がリード要求であり、且つ、前記リード要求に従うリード対象データが前記グローバルキャッシュに存在する場合、
　　（ｘ１）前記リード対象データが、前記自ノードの第２キャッシュ部に存在していれば、前記自ノードの第２キャッシュ部から前記リード対象データを読み出し、
　　（ｘ２）前記リード対象データが、前記自ノードの第２キャッシュ部に存在していないが前記Ｑ個の第１キャッシュ部のうちの１以上の第１キャッシュ部に存在していれば、前記１以上の第１キャッシュ部のいずれかから前記リード対象データを読み出し、
　　（ｘ３）前記リード対象データが、前記自ノードの第２キャッシュ部と前記Ｑ個の第１キャッシュ部とのいずれにも存在しないが前記自ノードの第２キャッシュ部以外の１以上の第２キャッシュ部に存在していれば、前記１以上の第２キャッシュ部のいずれかから前記リード対象データを読み出し、
　（Ｙ）前記リード対象データが前記グローバルキャッシュに存在しない場合、又は、前記受信したＩ／Ｏ要求がライト要求の場合、
　　（ｙ１）それぞれが前記リード要求に従うリード対象データ又は前記ライト要求に従うライト対象データであるＮ重化されたＩ／Ｏ対象データを（Ｎは２以上の整数）、それぞれＮ個のキャッシュ部に書き込み、
　前記Ｎ個のキャッシュ部は、前記Ｐ個の第２キャッシュ部のうちの少なくとも１つの第２キャッシュ部と、前記Ｑ個の第１キャッシュ部のうちの少なくとも１つの第１キャッシュ部である、
ストレージシステム。
　前記Ｑ個の第１キャッシュ部の各々が有する１以上のキャッシュメモリ領域は、１以上の不揮発メモリに存在する、
請求項１記載のストレージシステム。
　前記Ｎ個のキャッシュ部において、前記少なくとも１つの第１キャッシュ部は、Ｋ個の第１キャッシュ部である（Ｋは、２以上且つＱ以下の整数）、
請求項２記載のストレージシステム。
　前記Ｎ個のキャッシュ部において、前記少なくとも１つの第２キャッシュ部は、前記Ｐ個の第２キャッシュ部のうちの２以上の第２キャッシュ部である、
請求項３記載のストレージシステム。
　（Ｙ）において、それぞれが前記Ｉ／Ｏ対象データのサイズ未満の空き領域を有するキャッシュ部である１以上の空き不足キャッシュ部が前記Ｎ個のキャッシュ部にあれば、前記自ノードは、領域確保処理を実行し、
　前記領域確保処理は、前記１以上の空き不足キャッシュ部の各々について、その空き不足キャッシュ部における１以上のクリーン領域と１以上のダーティ領域とのうちの１以上の領域の各々を空き領域とすることで前記Ｉ／Ｏ対象データのサイズ以上の合計サイズの空き領域を確保する処理であり、
　前記１以上のダーティ領域の各々は、いずれの物理記憶デバイスにも格納されていないデータであるダーティデータを格納している領域であり、
　前記１以上のクリーン領域の各々は、いずれかの物理記憶デバイスに格納済のデータであるクリーンデータを格納しており前記ダーティデータを格納していない領域である、
請求項４記載のストレージシステム。
　前記自ノードは、前記領域確保処理において、前記１以上の空き不足キャッシュ部の各々について、前記１以上の領域の各々を空き領域とするが、空き領域とされる領域内のデータの冗長化されたデータを格納しておりその領域を含んだキャッシュ部と異なるキャッシュ部における領域を空き領域としない、
請求項５記載のストレージシステム。
　前記自ノードは、前記領域確保処理において、前記１以上の空き不足キャッシュ部の各々について、前記１以上の領域の各々を空き領域とするだけでなく、空き領域とされる領域内のデータの冗長化されたデータを格納しておりその領域を含んだキャッシュ部と異なるキャッシュ部における領域も空き領域とする、
請求項５記載のストレージシステム。
　（Ｙ）において、それぞれが前記Ｉ／Ｏ対象データのサイズ未満の空き領域を有するキャッシュ部である１以上の空き不足キャッシュ部が前記Ｎ個のキャッシュ部にあれば、前記自ノードは、領域確保処理を実行し、
　前記領域確保処理は、前記１以上の空き不足キャッシュ部の各々について、その空き不足キャッシュ部における１以上のクリーン領域と１以上のダーティ領域とのうちの１以上の領域の各々を空き領域とすることで前記Ｉ／Ｏ対象データのサイズ以上の合計サイズの空き領域を確保する処理であり、
　前記１以上のダーティ領域の各々は、いずれの物理記憶デバイスにも格納されていないデータであるダーティデータを格納している領域であり、
　前記１以上のクリーン領域の各々は、いずれかの物理記憶デバイスに格納済のデータであるクリーンデータを格納しており前記ダーティデータを格納していない領域である、
請求項１記載のストレージシステム。
　前記自ノードは、前記領域確保処理において、前記１以上の空き不足キャッシュ部の各々について、前記１以上の領域の各々を空き領域とするが、空き領域とされる領域内のデータの冗長化されたデータを格納しておりその領域を含んだキャッシュ部と異なるキャッシュ部における領域を空き領域としない、
請求項８記載のストレージシステム。
　前記自ノードは、前記領域確保処理において、前記１以上の空き不足キャッシュ部の各々について、前記１以上の領域の各々を空き領域とするだけでなく、空き領域とされる領域内のデータの冗長化されたデータを格納しておりその領域を含んだキャッシュ部と異なるキャッシュ部における領域も空き領域とする、
請求項８記載のストレージシステム。
　前記Ｑ個の第１キャッシュ部のうちの２以上の第１キャッシュ部の各々が、前記グローバルキャッシュの構成を表す情報である管理情報を記憶する、
請求項１記載のストレージシステム。
　前記Ｐ個のストレージノードの各々は、前記２以上の第１キャッシュ部のうちの少なくとも１つにおける前記管理情報を参照又は更新する、
請求項１１記載のストレージシステム。
　前記Ｐ個のストレージノードの各々は、
　　前記２以上の第１キャッシュ部のうちの少なくとも１つにおける前記管理情報の複製を、そのストレージノードの前記第２キャッシュ部に格納し、
　　そのストレージノードの前記第２キャッシュ部における、前記管理情報の複製を参照又は更新し、
　　更新後の前記管理情報の複製を、前記２以上の第１キャッシュ部の各々における前記管理情報に反映する、
請求項１１記載のストレージシステム。
　前記Ｑ個のスイッチの各々は、インターコネクトスイッチである、
請求項１記載のストレージシステム。
　それぞれＩ／Ｏ（Input/Output）要求を発行する１以上の外部システムに接続されるストレージシステムのキャッシュ制御方法であって、
　前記ストレージシステムは、
　　Ｐ個のストレージノードと（Ｐは２以上の整数）、
　　それぞれが前記Ｐ個のストレージノードに接続されたＱ個のスイッチと（Ｑは２以上の整数）、
　　前記Ｑ個のスイッチにそれぞれ接続されたＱ個の第１キャッシュ部と
を有し、
　前記Ｐ個のストレージノードの各々は、
　　前記１以上の外部システムのうちの少なくとも１つと複数の物理記憶デバイスのうちの少なくとも１つとに接続される１以上のインターフェースであるインターフェース部と、
　　第２キャッシュ部と、
　　前記インターフェース部及び前記第２キャッシュ部に接続された１以上のプロセッサを含んだプロセッサ部と
を有し、
　前記Ｑ個の第１キャッシュ部と、前記Ｐ個のストレージノードがそれぞれ有するＰ個の第２キャッシュ部との各々は、１以上のキャッシュメモリ領域を含み、
　前記Ｐ個のストレージノードの各々は、グローバルキャッシュを認識しており、
　前記グローバルキャッシュは、前記Ｑ個の第１キャッシュ部と前記Ｐ個の第２キャッシュ部とがマッピングされており前記Ｐ個のストレージノードに共通のキャッシュアドレス空間であり、
　前記キャッシュ制御方法は、
　　前記Ｐ個のストレージノードのうちのいずれかのストレージノードがＩ／Ｏ要求を受信した場合、そのストレージノードである自ノードにより、
　　（Ｘ）前記受信したＩ／Ｏ要求がリード要求であり、且つ、前記リード要求に従うリード対象データが前記グローバルキャッシュに存在する場合、
　　　　（ｘ１）前記リード対象データが、前記自ノードの第２キャッシュ部に存在していれば、前記自ノードの第２キャッシュ部から前記リード対象データを読み出し、
　　　　（ｘ２）前記リード対象データが、前記自ノードの第２キャッシュ部に存在していないが前記Ｑ個の第１キャッシュ部のうちの１以上の第１キャッシュ部に存在していれば、前記１以上の第１キャッシュ部のいずれかから前記リード対象データを読み出し、
　　　　（ｘ３）前記リード対象データが、前記自ノードの第２キャッシュ部と前記Ｑ個の第１キャッシュ部とのいずれにも存在しないが前記自ノードの第２キャッシュ部以外の１以上の第２キャッシュ部に存在していれば、前記１以上の第２キャッシュ部のいずれかから前記リード対象データを読み出し、
　　（Ｙ）前記リード対象データが前記グローバルキャッシュに存在しない場合、又は、前記受信したＩ／Ｏ要求がライト要求の場合、
　　　　（ｙ１）それぞれが前記リード要求に従うリード対象データ又は前記ライト要求に従うライト対象データであるＮ重化されたＩ／Ｏ対象データを（Ｎは２以上の整数）、それぞれ、Ｎ個のキャッシュ部に書き込み、
　前記Ｎ個のキャッシュ部は、前記Ｐ個の第２キャッシュ部のうちの少なくとも１つの第２キャッシュ部と、前記Ｑ個の第１キャッシュ部のうちの少なくとも１つの第１キャッシュ部である、
キャッシュ制御方法。