WO2012046585A1

WO2012046585A1 - 分散ストレージシステム、その制御方法、およびプログラム

Info

Publication number: WO2012046585A1
Application number: PCT/JP2011/071857
Authority: WO
Inventors: 小林　大; 真樹菅
Original assignee: 日本電気株式会社
Priority date: 2010-10-04
Filing date: 2011-09-26
Publication date: 2012-04-12

Abstract

　オブジェクトを格納する複数のノードと、クライアント端末からアクセス可能なノードの識別子を保持する第１のノードリストと、各ノードの動作モードをクライアント端末からアクセス可能な第１のモードとアクセス不能な第２のモードとの間で変更するとともに第１のノードリストを更新する制御装置とを備え、各ノードは、第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末からそれぞれアクセスされ、制御装置は、第１のノードの動作モードを第１のモードから第２のモードへ変更する際に、第１のノードへのアクセスを第２のノードに処理するように指示するとともに第１のノードリストから第１のノードの識別子を削除した後、第１のノードの動作モードを変更する。アクセス不能なノードへアクセスしたクライアント端末に対するサービスレベルを維持する。

Description

分散ストレージシステム、その制御方法、およびプログラム

［関連出願についての記載］
　本発明は、日本国特許出願：特願２０１０－２２４６９７号（２０１０年１０月０４日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
　本発明は、分散ストレージシステム、その制御方法、およびプログラムに関し、特に、システムに含まれる一部のストレージノードを省電力化する分散ストレージシステム、その制御方法、およびプログラムに関する。

　分散ストレージシステムは、ネットワークを介して接続された多数の計算機を有し、これらの計算機のハードディスクドライブ（ＨＤＤ：Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、メモリ等を用いて、データの格納およびデータの提供を行う。分散ストレージシステムでは、いずれの計算機にデータを配置し、いずれの計算機によってデータを処理するのかを、ソフトウェアまたは特別なハードウェアが決定する。また、分散ストレージシステムの動作を動的に変更することにより、システム内のリソース使用量を調整するとともに、クライアント端末およびその利用者に対する性能を向上させる。

　分散ストレージシステムにおいては、データは複数のストレージノード（以下、単に「ノード」という。）に分散して格納されている。したがって、クライアント端末がデータにアクセスする場合には、データを保持しているノードを把握する必要がある。また、アクセス対象のデータを保持するノードが複数存在する場合には、クライアント端末は、いずれのノードにアクセスすべきかを把握する必要がある。

　データを保持しているノードをクライアント端末が把握する方式として、データの位置情報を管理する１又は２以上の計算機から成るメタサーバを設ける方式（以下「メタサーバ方式」という。）が知られている。メタサーバ方式によると、ストレージシステムが大規模になるに従って、データを格納しているノードの位置を検出するメタサーバの処理性能が不足し、アクセス性能上のボトルネックとなる。また、メタサーバ方式によると、クライアント端末はデータを格納するノードにアクセスする以前にメタサーバにアクセスする必要があり、データアクセス時間が長くなる。特に、メタサーバが地理的に離れており、ネットワークアクセスに時間を要する場合には、データアクセス時間は顕著に増大する。

　この問題を解消するため、メタサーバ上のデータ位置情報の一部を、アクセスを行うクライアント端末又は他の計算機上にキャッシュする技術が知られている。クライアント端末は、キャッシュされた位置情報を利用できる場合には、メタサーバへアクセスすることなく、直接データ格納ノードへアクセスすることができる。

　ここで、キャッシュには、同期キャッシュおよび非同期キャッシュがある。同期キャッシュでは、メタサーバ上の位置情報（原本）への変更が同期的にキャッシュに適用される。一方、非同期キャッシュでは、メタサーバ上の位置情報（原本）への変更は同期的にキャッシュに適用されない。すなわち、非同期キャッシュによると、クライアント端末は、古い位置情報に従って、データを保持していないノードへ誤ってアクセスすることがある。

　データを保持しているノードをクライアント端末が把握するための他の方式として、分散関数（例えばハッシュ関数）を用いてデータの位置を求める方式がある。かかる方式として、例えば、分散ＫＶＳ（Ｋｅｙ　Ｖａｌｕｅ　Ｓｔｏｒａｇｅ）が知られている。分散ＫＶＳにおいては、すべてのクライアント端末が、分散関数、および、システムに参加しているノードのリスト（ノードリスト）を共有する。また、格納データは固定長または任意長のデータ断片（Ｖａｌｕｅ、バリュー）に分割され、各Ｖａｌｕｅには、これを一意に特定するための識別子（Ｋｅｙ、キー）が付与されている。クライアント端末は、データにアクセスする場合には、分散関数にキーを入力として与え、分散関数の出力値とノードリストに基づいて、データを格納しているノード（以下「データ格納ノード」という。）を算術的に求める。

　クライアント端末間で共有される情報のうちの分散関数は、時間が経過しても変化しない。一方、ノードリストの内容は、ノードの故障または追加に伴って変更される。しかし、すべてのクライアント端末間でノードリストを同期的に変更した場合には、クライアント端末の台数が多いときに、システムの性能が低下する。特に、ノードの台数が数万台規模の場合には、クライアント端末の台数も数万～数１０万台規模となる。したがって、すべての計算期の間で同期的に情報を更新するには、非常に長い時間を要する。

　このような場合には、各クライアント端末が保持するノードリストを非同期キャッシュとすることが好ましい。ノードリストを非同期キャッシュとすることにより、分散ストレージシステムは多くの台数のクライアント端末をサポートすることができる。また、クライアント端末は、自身の保持するノードリストに従って、データノードにアクセスすることができる。しかし、非同期キャッシュとされたノードリストの内容が古い場合には、クライアント端末は、データを保持していないノードにアクセスするおそれがある。

　非特許文献１に記載された技術によると、クライアント端末は、故障によりシステムから除外されたノードへアクセスした場合、一定時間応答が返却されないこと（タイムアウト）を検知し、他の正常なノードを用いて処理を継続する。

　なお、クライアント端末のみならず、ノードもノードリストを保持する場合には、上記と同様の理由により、このノードリストも非同期キャッシュとされることがある。

　ところで、コンピュータシステムやストレージシステムの大規模化に伴い、これらのシステムにおける消費電力が増加している。消費電力の増加により、冷房設備に対するコストも増大している。例えば、複数のＨＤＤが搭載された筐体を含むストレージシステムでは、ＨＤＤの回転速度を変更したり、ディスクやコントローラの電力を停止したりすることで、ストレージシステムの省電力化が行なわれる。

　特許文献１に記載された記憶システムでは、ディスク装置にアクセスしない場合にディスク装置を停止させることで、システムの消費電力を削減する。また、非特許文献２に記載された“ｗｒｉｔｅ　ｏｆｆ－ｌｏａｄｉｎｇ”によると、停止したディスクへの書き込み要求を、一時的に停止していないディスクへと書き込むことで、利用されているデータを保持しているディスクを停止することができる。

　さらに、複数の計算機ノードを備えた分散ストレージシステムにおいて、一部の計算機ノードを省電力モードで動作させることで、システムを省電力化する方法が知られている。分散ストレージシステムに対する省電力制御は、電力を停止されたノードがクライアント端末からのアクセスに応答できなくなる点で、ノード障害の制御と類似している。ノード障害に対する制御として、アクセスを他のノードへ切り替える方法が知られている。

　例えば、特許文献２に記載されたシステムにおいては、故障した場合には、アクセスの切り替えが行われる。複数のノードのアドレスを切り替えるには、仮想ＩＰアドレス技術を利用することができる。すなわち、ＧＡＲＰ（Ｇｒａｔｕｉｔｏｕｓ　ＡＲＰ）パケットを用いて同一ネットワーク内のＡＲＰテーブルを更新する技術や、バーチャルＬＡＮ（ＶＬＡＮ：Ｖｉｒｔｕａｌ　ＬＡＮ）に基づく技術を利用することができる。例えば、特許文献３および特許文献４には、それぞれ、ＧＡＲＰによる仮想ＩＰアドレス機能を応用した負荷分散方法が記載されている。また、特許文献５には、ＶＬＡＮを用いた仮想ＩＰアドレスの実現方式が記載されている。なお、分散ストレージシステムに対する省電力制御は、ノードが応答しなくなることを予めシステム側で把握することができる点において、ノード障害の場合とは異なる。

特表２００５－５３９３０３号公報特表２００３－５１７２２１号公報特許第３９３０５１６号公報特許第４０１５７７０号公報特許第３８２５３３３号公報

Ｉｏｎ　Ｓｔｏｉｃａ，Ｒｏｂｅｒｔ　Ｍｏｒｒｉｓ，Ｄａｖｉｄ　Ｋａｒｇｅｒ，Ｍ．Ｆｒａｎｓ　Ｋａａｓｈｏｅｋ，Ｈａｒｉ　Ｂａｌａｋｒｉｓｈｎａｎ，"Ｃｈｏｒｄ：　Ａ　Ｓｃａｌａｂｌｅ　Ｐｅｅｒ－ｔｏ－ｐｅｅｒ　Ｌｏｏｋｕｐ　Ｓｅｒｖｉｃｅ　ｆｏｒ　Ｉｎｔｅｒｎｅｔ　Ａｐｐｌｉｃａｔｉｏｎｓ，"ＡＣＭ　ＳＩＧＣＯＭＭ　Ｃｏｍｐｕｔｅｒ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，Ｒｅｖｉｅｗ　３１（４），ｐ．１４９－１６０，ＡＣＭ　Ｐｒｅｓｓ，２００１Ｎａｒａｙａｎａｎ，Ｄ．，Ｄｏｎｎｅｌｌｙ，Ａ．，Ｒｏｗｓｔｒｏｎ，Ａ．，"Ｗｒｉｔｅ　Ｏｆｆ－Ｌｏａｄｉｎｇ：　Ｐｒａｃｔｉｃａｌ　Ｐｏｗｅｒ　Ｍａｎａｇｅｍｅｎｔ　ｆｏｒ　Ｅｎｔｅｒｐｒｉｓｅ　Ｓｔｏｒａｇｅ，"ＡＣＭ　Ｔｒａｎｓ．Ｓｔｏｒａｇｅ，Ｖｏｌ．４，Ｎｏ．３，Ａｒｔｉｃｌｅ　１０，Ｎｏｖｅｍｂｅｒ　２００８

　上記の特許文献および非特許文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者によってなされたものである。分散ストレージシステムの省電力制御について考える。非特許文献２に記載された“ｗｒｉｔｅ　ｏｆｆ－ｌｏａｄｉｎｇ”におけるＨＤＤ間の制御と同様に、省電力モードのノードへのデータ更新リクエストの内容を、一時的に他のノードに蓄積するように制御することで、システムの応答性能を低下させることなく、システムの消費電力を削減することができる。

　ここでは、省電力モードのノードに対しては、ネットワークアクセスができないものとする。例えば、計算機全体の省電力モードを、ＡＣＰＩ（Ａｄｖａｎｃｅｄ　Ｃｏｎｆｉｇｕｒａｔｉｏｎ　ａｎｄ　Ｐｏｗｅｒ　Ｉｎｔｅｒｆａｃｅ）標準に規定されたＳ４とすると、電力を大幅に削減することができる。しかしながら、このとき、ＴＣＰ／ＩＰなどのＯＳを介するネットワークアクセスには応答することができない。したがって、一部のノードを省電力モードとするためには、上記のノードリストまたはデータ位置情報の内容を更新し、省電力モードのノードを反映させる必要がある。

　しかし、上述のように、クライアント端末は、ノードリストまたはデータ位置情報の非同期キャッシュを保持している場合がある。すなわち、クライアント端末は、変更前のノードリストまたはデータ位置情報に基づいて、誤って省電力モードのノードへアクセスするおそれがある。

　単一筐体内における“ｗｒｉｔｅ　ｏｆｆ－ｌｏａｄｉｎｇ”によると、筐体内のコントローラは、アクセス要求を処理することができ、異なるＨＤＤへのアクセスを受け取ると、適切なＨＤＤへ転送することができる。しかし、複数のノードを備えた分散ストレージシステムでは、省電力モードのノードは、アクセス要求に応じることができない。したがって、クライアント端末は、あらかじめ定められたタイムアウト時間だけ応答を待ち、その後、改めて他のノード、例えば、バックアップデータを保持するノードへアクセスする必要がある。

　タイムアウト時間を長くすると、システムの応答性能が低下する。そこで、システムの応答性能を維持するために、タイムアウト時間を短くする方法が考えられる。しかし、タイムアウト時間を短くし過ぎた場合には、ノード停止以外に、ノード高負荷時の応答性能の低下が生じたときにも、障害処理やアクセス転送処理が発生してしまう。したがって、タイムアウト時間を短くすることは困難である。

　そこで、クライアント端末から分散ストレージシステムに含まれるノードへのアクセスの可否を表す（第１の）ノードリストに基づいて非同期に更新された（第２の）ノードリストを参照したクライアント端末によって、アクセス不能なノードへのアクセスが行なわれた場合において、クライアント端末に対する分散ストレージシステムのサービスレベルを低下させないようにすることが課題となる。本発明の目的は、かかる課題を解決する分散ストレージシステム、その制御方法、およびプログラムを提供することにある。

　本発明の第１の視点に係る分散ストレージシステムは、
　オブジェクトをそれぞれ格納する複数のノードと、
　前記複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストと、
　前記複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、前記第１のノードリストを更新する制御装置と、を備え、
　前記複数のノードは、前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされ、
　前記制御装置は、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する。

　本発明の第２の視点に係る制御方法は、
　コンピュータが、分散ストレージシステムに含まれ、オブジェクトをそれぞれ格納する複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、該複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストを更新する工程と、
　前記複数のノードが前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされる場合において、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する工程と、を含む。

　本発明の第３の視点に係るプログラムは、
　分散ストレージシステムに含まれ、オブジェクトをそれぞれ格納する複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、該複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストを更新する処理と、
　前記複数のノードが前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされる場合において、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する処理と、をコンピュータに実行させる。
　なお、プログラムは、非トランジエントなコンピュータ読み取り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｅｎｔ　ｃｏｍｐｕｔｅｒ－ｒｅａｄａｂｌｅ　ｓｔｏｒａｇｅ　ｍｅｄｉｕｍ）に記録されたプログラム製品として提供することができる。

　本発明に係る分散ストレージシステム、その制御方法、およびプログラムによると、クライアント端末から分散ストレージシステムに含まれるノードへのアクセスの可否を表すノードリストに基づいて非同期に更新されたノードリストを参照したクライアント端末によって、アクセス不能なノードへのアクセスが行なわれた場合において、クライアント端末に対する分散ストレージシステムのサービスレベルを低下させないようにすることができる。

第１の実施形態に係る分散ストレージシステムにおけるオブジェクトアクセスに関する構成を示すブロック図である。第１の実施形態に係る分散ストレージシステムにおけるノードの構成を詳細に示すブロック図である。第１の実施形態に係る分散ストレージシステムにおけるノードリストを一例として示す図である。第１の実施形態に係る分散ストレージシステムにおけるオブジェクトの読み込み動作を示すシーケンス図である。第１の実施形態に係る分散ストレージシステムにおけるオブジェクトの書き込み動作を示すシーケンス図である。第１の実施形態に係る分散ストレージシステムにおけるノード省電力化に関する構成を示すブロック図である。第１の実施形態に係る分散ストレージシステムにおけるノード省電力化動作を示すシーケンス図である。第１の実施形態に係る分散ストレージシステムにおけるノード通常運用化動作を示すシーケンス図である。第２の実施形態に係る分散ストレージシステムにおけるオブジェクトアクセスに関する構成を示すブロック図である。第３の実施形態に係る分散ストレージシステムにおけるデータの格納およびアクセスに関する構成を示すブロック図である。

　第１の展開形態によると、上記第１の視点に係る分散ストレージシステムが提供される。かかる分散ストレージシステムによると、第１のノードリストに基づいて非同期に更新された第２のノードリストを参照したクライアント端末によって、クライアント端末からアクセスすることができない第２のモードに変更された第１のノードへのアクセスが行なわれた場合においても、第１のノードへのアクセスを第２のノードが処理することができる。したがって、かかる分散ストレージシステムによると、クライアント端末から分散ストレージシステムに含まれるノードへのアクセスの可否を表すノードリストに基づいて非同期に更新されたノードリストを参照したクライアント端末によって、アクセス不能なノードへのアクセスが行なわれた場合において、クライアント端末に対する分散ストレージシステムのサービスレベルを低下させないようにすることができる。

　第２の展開形態によると、制御装置は、第１のノードの動作モードを第２のモードから第１のモードへ変更する場合に、第２のノードが保持する第１のノードに書き込まれるべきオブジェクトを、第２のノードから第１のノードへ転送する、分散ストレージシステムが提供される。かかる分散ストレージシステムによると、本来のノードの代わりに他のノードによって保持されたオブジェクトを、クライアント端末からのアクセスが可能となった時点で、本来のノードに格納することができる。

　第３の展開形態によると、前記複数のノードのそれぞれの第２のモードにおける消費電力は、第１のモードにおける消費電力よりも低い、分散ストレージシステムが提供される。かかる分散ストレージシステムによると、分散ストレージシステムの省電力化を図りつつ、クライアント端末に対するサービスレベルを維持することができる。

　第４の展開形態によると、制御装置は、第１のノードと第２のノードとが異なるネットワークに接続されている場合には、複数のノードのうちの第１のノードと同一のネットワークに接続された第３のノードを経由して、クライアント端末から第１のノードへのアクセスを処理するように、第３のノードおよび第２のノードに指示する、分散ストレージシステムが提供される。かかる分散ストレージシステムによると、複数のネットワークに跨った分散ストレージシステムにおいて、クライアント端末に対するサービスレベルを維持することができる。

　第５の展開形態によると、上記第２の視点に係る制御方法が提供される。

　第６の展開形態によると、上記第３の視点に係るプログラムが提供される。なお、プログラムは、コンピュータ読み取り可能な記録媒体に格納されていてもよい。

　＜実施形態１＞
　第１の実施形態に係る分散ストレージシステムについて、図面を参照して説明する。本実施形態の分散ストレージシステムは、ノードリストのキャッシュを利用する。

　図１は、本実施形態の分散ストレージシステムにおけるデータの格納およびアクセスに関する構成を示すブロック図である。図１を参照すると、分散ストレージシステムは、ネットワーク６０に接続されたクライアント端末９０と、ノード１０～ノード３０と、ノードリスト（原本）５５と、ノードリスト同期制御部５６とを備えている。ネットワーク６０は、アクセス経路決定部６２を有する。図１においては、一例として、ノードの台数を３台としたが、ノードの台数はこれに限定されない。

　ノード１０、２０、３０は、それぞれ、データ送受信部１１、２１、３１、および、データ格納部１２、２２、３２を備えている。ネットワーク６０は、アクセス経路決定部６２を備えている。クライアント端末は、データ送受信部９１、データ送受信ノード決定部９２、ノードリスト（複製）９３を備えている。

　図２は、図１のノード１０、２０、３０のそれぞれの構成を詳細に示すブロック図である。図２を参照すると、ユーザ計算機Ｈ５は、ネットワークＨ４を介して、データ処理計算機Ｈ１１～Ｈ１３に接続されている。図２におけるネットワークＨ４およびユーザ計算機Ｈ５は、それぞれ、図１のネットワーク６０およびクライアント端末９０に相当する。

　データ処理計算機Ｈ１Ｘ（Ｘ＝１～３）は、それぞれ、ＣＰＵ　Ｈ１Ｘａ、データ記憶装置Ｈ１Ｘｂ、および、データ転送装置Ｈ１Ｘｃを備えている。ＣＰＵ　Ｈ１Ｘａは、ソフトウェアとともに、本実施形態の分散ストレージシステムにおける各部の機能を実現する。

　データ記憶装置Ｈ１１ｂ～Ｈ１３ｂは、例えば、ＨＤＤ、フラッシュメモリ、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＭＲＡＭ（Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＦｅＲＡＭ（Ｆｅｒｒｏｅｌｅｃｔｒｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＰＲＡＭ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ＲＡＭ）、ＲＡＩＤコントローラに結合された記憶装置、磁気テープのようにデータを記録可能な物理媒体、または、ノードの外部に設置された媒体にデータを記録する制御装置である。

　ネットワークＨ４およびデータ転送装置Ｈ１１ｃ～Ｈ１３ｃは、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）、Ｆｉｂｒｅ　ＣｈａｎｎｅｌやＦＣｏＥ（Ｆｉｂｒｅ　Ｃｈａｎｎｅｌ　ｏｖｅｒ　Ｅｔｈｅｒｎｅｔ（登録商標））、ＩｎｆｉｎｉＢａｎｄ、ＱｓＮｅｔ、　Ｍｙｒｉｎｅｔ、または、これらを利用するＴＣＰ／ＩＰ、ＲＤＭＡなどの上位プロトコルにより実現することができる。ただし、ネットワークＨ４およびデータ転送装置Ｈ１１ｃ～Ｈ１３ｃの実現方法は、これらに限られない。

　格納データは、固定長または意味的に区切られたデータ断片（以下「オブジェクト」という。）の集合として、ノード１０、２０、３０のそれぞれのデータ格納部１２、２２、３２に格納される。各オブジェクトには、一意の識別子（キー）が与えられている。クライアント端末９０は、キーを指定することで所望のデータを取得する。また、各オブジェクトの複製は、複数のノードに格納され得る。また、各オブジェクトの他に、オブジェクトに基づいて計算された冗長符号情報が他のノードに格納されるようにしてもよい。冗長符号情報は、ノード故障時において、データの消失を防ぐために用いられる。

　オブジェクトの例として、例えば、ファイルシステムのファイル、ファイルと関連するメタデータの集合、関係データベースのタプルもしくはテーブル、オブジェクトデータベースのデータ、Ｋｅｙ－Ｖａｌｕｅデータ格納システムのＶａｌｕｅ、ＸＭＬ文書のタグで囲まれた内容、ＲＤＦ文書のリソース、Ｇｏｏｇｌｅ　Ａｐｐ　Ｅｎｇｉｎｅのデータエンティティ、Ｍｉｃｒｏｓｏｆｔ　Ｗｉｎｄｏｗｓ　Ａｚｕｒｅ　キュー、メッセージ、Ｃａｓｓａｎｄｒａ等のＷｉｄｅ　Ｃｏｌｕｍｎ　ＳｔｏｒｅのＣｏｌｕｍｎ、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ　Ｏｂｊｅｃｔ　Ｎｏｔａｔｉｏｎ）、ＢＳＯＮ（Ｂｉｎａｒｙ　ＪＳＯＮ）で記載されたドキュメント等が上げられる。なお、本発明におけるオブジェクトは、これらのオブジェクトに限られない。

　クライアント端末９０のデータ送受信部９１は、ノードを特定する識別子（以下「ノード識別子」という。）と、データキーから当該データを持つノードを特定し、データを送信または受信する。

　ネットワーク６０に含まれるアクセス経路決定部６２は、データ送受信部９１から、ノード識別子を含む要求情報を受信し、当該ノード識別子により指定されたノードへ送信する。

　例えば、Ｅｔｈｅｒｎｅｔ（登録商標）上にＩＰプロトコルとＴＣＰプロトコルによって通信するネットワークにより分散ストレージシステムを構築する場合には、ノード識別子を、ＩＰアドレスとポート番号の組としてもよい。また、予めポート番号が定められている場合には、ＩＰアドレスをノード識別子としてもよい。

　データ送受信部９１は、当該ＩＰアドレスの計算機の指定されたポートにＴＣＰコネクション要求をするＩＰパケットを送出する。

　アクセス経路決定部６２は、ネットワーク６０上のルータと、各計算機上のルーティング表およびＡＲＰ（Ａｄｄｒｅｓｓ　Ｒｅｓｏｌｕｔｉｏｎ　Ｐｒｏｔｏｃｏｌ）表を有する。ＩＰアドレスにしたがって、ルーティング表から宛先ＩＰアドレスを取得することができる。次に、宛先ＩＰアドレスは、クライアント端末９０内のＡＲＰ表にしたがって、当該計算機またはルータのＥｔｈｅｒｎｅｔポートに付与されたＭＡＣ（Ｍｅｄｉａ　Ａｃｃｅｓｓ　Ｃｏｎｔｒｏｌ）アドレスに変換される。

　ＡＲＰ表が当該ＩＰアドレスに関する項目を保持していない場合には、クライアント端末９０は、当該ＩＰアドレスを含むＡＲＰ要求パケットをネットワーク６０にブロードキャストする。このとき、当該ＩＰアドレスを付与された宛先計算機またはルータのみが、当該宛先計算機またはルータの当該ＩＰアドレスに対応するＥｔｈｅｒｎｅｔポートのＭＡＣアドレスを含むＡＲＰ返答パケットをクライアント端末９０に返答する。クライアント端末９０は、当該ＭＡＣアドレスに対し、ＴＣＰコネクション要求パケットを送信し、以降、ＴＣＰプロトコルに従って送受信を行う。宛先がルータである場合には、上記と同様のＩＰアドレスとＭＡＣアドレスの変換が、クライアント端末９０と宛先計算機の間のルータでそれぞれ行われ、通信が行われる。

　データ送受信部９１とアクセス経路決定部６２の他の例として、オープンフロー技術により計算機が接続されている場合がある。この場合には、クライアント端末９０が目的の計算機へのパケットを送信した後、外部から経路情報を書き換え可能なルータまたはスイッチが、経路情報を基に、当該パケットのＩＰアドレスまたは宛先計算機を表すＩＤを基に宛先計算機へ情報を到達させる。なお、データ送受信部９１およびアクセス経路決定部６２は、これらに限定されない。

　ノードリスト同期制御部５６は、ノードリスト（原本）５５と、ノードリスト（原本）５５の更新を、ノードリスト（複製）９３に伝播させる。ノードリスト（原本）５５およびノードリスト同期制御部５６は、それぞれノード内に設けられていてもよいし、専用の計算機内に設けられていてもよい。また、ノードリスト同期制御部５６は、クライアント端末９０に設けられていてもよい。

　ノードリスト（原本）５５は、分散ストレージシステムに参加しているノードに対するノード識別子の一覧を保持している。図３は、ノードリストを一例として示す図である。図３（ａ）を参照すると、ノードリストをノード名の一覧としてもよい。また、図３（ｂ）を参照すると、ノードリストをノードのＩＰアドレスの一覧としてもよい。さらに、図３（ｃ）を参照すると、ノードリストをノードアドレスとポート番号の一覧としてもよい。また、図３（ｄ）を参照すると、ノードリストをノード名とノードアドレスの一覧としてもよい。なお、ノードリストは、データ送受信部９１の実装に依存し、図３に示した態様に限定されない。

　クライアント端末９０のノードリスト（複製）９３は、ノードリスト（原本）５５の全部または一部の非同期の複製である。ここで、非同期とは、ノードリスト（原本）５５の内容が第１のバージョンＮ１から第２のバージョンＮ２に更新され、その更新が反映された後であっても、ノードリスト（複製）９３の内容を読んだクライアント端末９０が第１のバージョンＮ１の内容を取得する可能性があるような制御方式をいう。

　非同期の複製として、例えば、ノードリスト（原本）５５とノードリスト（複製）９３との間で、３０秒ごとにノードリスト間の内容を一致させる方法が考えられる。一例として、ノードリスト（原本）５５およびノードリスト（複製）９３が、いずれも、ノード１０、ノード２０、ノード３０を含んでいる場合を考える。また、ある時刻Ｔ１においてノード２０が故障し、ノードリスト（原本）５５からノード２０が削除されたとする。このとき、時刻Ｔ１の１５秒後の時刻Ｔ２において、ノードリスト（複製）９３を保持するクライアント端末９０がオブジェクトへアクセスする際、ノードリスト（複製）９３からノード２０を取得するおそれがある。

　図４は、本実施形態の分散ストレージシステムにおけるクライアント端末９０からのデータ読み込み動作を示すシーケンス図である。図４を参照すると、クライアント端末９０のデータ送受信ノード決定部９２は、ノードリスト（複製）９３からノード一覧を読み込む（ステップＳ１１）。ここで、クライアント端末９０は、ノードリスト（複製）９３を保持していない場合には、ノードリスト（原本）５５を読み込む（ステップＳ１２）。

　次に、データ送受信ノード決定部９２は、読み込み対象となるオブジェクトのキーと、ノード識別子を含むノードリストの複製情報を基に、アクセスするノードを決定する（ステップＳ１３）。

　データ送受信ノード決定部９２は、アクセスするノードを決定する際に、一例として、コンシステントハッシュ方式を利用することができる。コンシステントハッシュ方式では、オブジェクトキーまたはノード識別子を引数として取るハッシュ関数ｈ（ｘ）が定義されている。ノードリストには、ノード識別子のハッシュ値が格納されていてもよい。この方式では、データ送受信ノード決定部９２は、読み込み対象となるオブジェクトキーｋに対してハッシュ値ｈ（ｋ）を計算する。次に、データ送受信ノード決定部９２は、ノードリストに基づいて、ノード識別子のハッシュ値の昇順で並ぶノード識別子に対し、ｈ（ｎｉ）＜＝ｈ（ｋ）＜ｈ（ｎｊ）となるノード識別子ｎ１を選ぶ。データ送受信ノード決定部９２は、このノード識別子ｎ１が示すノードをアクセス対象ノードとする。

　また、データ送受信ノード決定部９２は、分散ハッシュテーブル方式を利用することもできる。分散ハッシュテーブル方式では、ノードリストはノード識別子に加え、オブジェクトキーをハッシュ関数ｈ２（ｘ）に入力した際の出力値の範囲が定められており、その範囲のオブジェクト群を格納するノードのノード識別子が付与されている。データ送受信ノード決定部９２は、読み込み対象となるオブジェクトキーに対し、ハッシュ値の範囲を受け持つノードをアクセス対象ノードと決定する。なお、データ送受信ノード決定部９２は、コンシステントハッシュ方式および分散ハッシュテーブル方式以外の方式を採用することもできる。

　オブジェクトの複数の複製が、それぞれ異なるノードに分散して配置されている場合には、データ送受信ノード決定部９２は、１つ以上のノードを選択できるようにしてもよい。複数のノードから並列に転送を行うことで、高速にオブジェクトを取得することができる。

　また、複数の複製オブジェクトが多数決プロトコルで更新されるようにしてもよい。多数決プロトコルでは、過半数の複製オブジェクトの書き込みが成功すれば、残りの複製オブジェクトは古いバージョンであっても処理を続行することができる。多数決プロトコルを採用した場合には、データ送受信ノード決定部９２は、複数のノードのうちの過半数をアクセス対象ノードとしてもよい。複数のノードの決定方法として、コンシステントハッシュ方式を用いる場合には、オブジェクトのキーｋに対し、ｈ（ｋ）のノード、ｈ（ｈ（ｋ））のノード、ｈ（ｈ（ｈ（ｋ）））のノードのように、ハッシュ関数を複数回適用したノードをアクセス対象とすることができる。他の例として、例えば、ノードリストに各ノードの複製オブジェクトが格納されるノードの一覧が付与されており、当該一覧を基に複数のノードを選択するようにしてもよい。

　図５は、本実施形態の分散ストレージシステムにおけるクライアント端末９０からのデータ書き込み動作を示すシーケンス図である。データ書き込み動作は、複数の複製オブジェクトが異なるノードに分散して配置されているときのノード決定の動作において、データ読み込み動作（図４）と相違する。例えば、すべての複製オブジェクトを同期更新してもよい。

　次に、本実施形態に係る分散ストレージシステムの省電力制御について、図面を参照して説明する。図６は、本実施形態の分散ストレージシステムのうちのノードの省電力制御とアクセスの転送に関する構成を示すブロック図である。図６を参照すると、分散ストレージシステムは、さらに、制御装置５０およびアクセス到達先変更部６１を備えている。制御装置５０は、ノード管理部５１、アクセス変更部５２、および、動作モード変更部５３を備えている。

　本実施形態では、ノード１０、２０、３０のうちの一部のノードの電力モードを変更して消費電力を少なくすることで、システム全体の消費電力を削減する。また、省電力モード中のノードへのアクセスを、アクセスを受けることのできる他のノードが処理することで、分散ストレージシステムのデータアクセスサービスを維持する。

　一例として、図６において、ノード１０を省電力ノードとし、ノード２０をノード１０のアクセスを仮に受けるノード（以下「仮格納ノード」という。）とする。

　ノード１０、２０は、それぞれ、電源制御部１３、２３を有する。電源制御部１３、２３は、それぞれ、動作モード変更指示情報を受信すると、ノード１０、２０の電力モードを変更する。ここで、省電力モードとは、ノード１０、２０を構成する部品の全部または一部の消費電力を削減するか、電源を遮断することにより、ノード１０、２０の消費電力を低下させた状態をいう。

　ＡＣＰＩ標準では、通常の状態のＳ０モード以外に、省電力モードＳ１、Ｓ３およびＳ４が定義されている。ノード１０として用いられる計算機がＡＣＰＩに準拠した省電力モードを実装している場合には、電源制御部１３は、ＡＣＰＩ実装部分を利用することができる。また、ノード１０がＨＤＤを備えている場合には、ＨＤＤの電力を低下させることにより、ノード１０の消費電力を削減することができる。さらに、ノード１０の計算機を正常にシャットダウンし、ノード１０の電源を落とすことにより、ノード１０の消費電力を削減することもできる。なお、電源制御部１３による電力制御の方法は、これらの方法に限定されない。

　仮格納ノード２０は、ノード１０宛のアクセスを一時的に受けるため、一時データ受信部２５および一時データ管理部２６を備えている。

　アクセス到達先変更部６１は、アクセス経路決定部６２のアクセス先決定に関する情報を変更する。

　制御装置５０は、いずれのノードを停止させるかを決定するともに、ノードの停止を制御する。

　動作モード変更部５３は、ノード１０の電源制御部１３に動作モード変更指示情報を送付する。

　アクセス変更部５２は、アクセス到達先変更部６１を制御し、アクセス経路決定部６２の情報を変更するとともに、仮格納ノード２０の一時データ受信部２５に、省電力ノード識別子を送信する。

　ノード管理部５１は、一時データ管理部２６を制御し、省電力ノード宛のデータを一時的に蓄え、省電力ノード１０が省電力モードから通常モードに復帰した場合には、省電力ノード１０に保持データを送信する。

　制御装置５０は、例えば、各ノードを構成する計算機上のプログラムとして実現することができる。また、制御装置５０は、専用の１つ以上の計算機上のプログラムとして実現することもできる。なお、制御装置５０の実現方法は、これらに限定されない。

　図７は、ノード省電力モード移行動作を示すシーケンス図である。ここでは、一例として、１つ以上の省電力ノードと、省電力ノードに対する仮格納ノードとが予め決定されている場合について考える。なお、省電力ノードおよび仮格納ノードの決定方法については、特に限定しない。ただし、省電力ノードと仮格納ノードとが同一のノードとなることがないようにする。また、１つの仮格納ノードが複数の省電力ノードのデータを格納するようにしてもよい。さらに、１つの省電力ノードに対するオブジェクト集合を複数に分割し、それぞれに仮格納ノードを割り当てるようにしてもよい。ここでは、一例として、ノード１０を省電力ノードとし、ノード２０を仮格納ノードとする。

　ノード管理部５１は、一時データ受信部２５および一時データ管理部２６をノード２０内に生成する（ステップＳ３１）。

　以後、ノード１０宛のデータ書き込み要求がノード２０に送信されると、一時データ受信部２５は、その要求がノード１０宛であることを検出し、一時データ管理部２６に渡す。一時データ管理部２６は、当該データをノード２０内に保持する。ノード２０内のデータ格納部２２が、ノード１０宛てのデータを保持するようにしてもよい。また、省電力ノード宛てのデータ専用のデータ格納部を別途設けるようにしてもよい。

　次に、ノード管理部５１は、ノード１０のデータ送受信部１１に省電力モード変更に伴うサービスの停止を要求する（ステップＳ３２）。ノード１０のデータ送受信部１１は、要求を受信すると、データ提供・保持サービスを終了する。データ提供・保持サービスを終了した場合には、以降のノード１０宛のアクセスは、別のノードを利用する。

　サービス終了後のノード１０は、例えば、アクセス送信元のクライアント端末９０またはノードに対して、ノード２０のノード識別子を含むノードサービス終了通知を返答する。ノードサービス終了通知を受けたクライアント端末９０は、データの読み込み要求の場合には、複製オブジェクト保持ノードへアクセスを再送し、データの書き込み要求の場合には、ノード２０へアクセスを再送する。

　一方、サービス終了後のノード１０は、アクセスがデータの読み込み要求である場合には、複製オブジェクト保持ノードへアクセスを転送し、アクセスがデータの書き込み要求である場合には、ノード２０にアクセスを転送するようにしてもよい。その後、ノード１０は、必要に応じて、転送先ノードとクライアント端末９０との間の通信を中継する。

　次に、ノード管理部５１は、ノードリスト（原本）５５を更新する（ステップＳ３３）。更新により、ノードリスト（原本）５５の情報が変更され、ノード１０宛のデータ書き込み要求はノード２０が仮に受けることが追記される。この更新は、システムに備わったノードリスト同期機構に従って、非同期的に各ノードリスト（複製）９３へ伝播される。ノードリスト（原本）５５が更新された直後においては、いくつかのノードリスト（複製）９３には、更新が伝播されていない可能性がある。したがって、ノード１０へ要求が送信される可能性がある。しかしながら、ノード１０はすでにサービスを停止しているため、この要求は上記の説明のとおり、ノード２０や複製オブジェクトを保持するノードに転送される。

　次に、アクセス変更部５２は、ノード管理部５１による処理の終了を受けると、ノード１０宛の要求のアクセス到達先をノード２０へ変更するように、アクセス到達先変更部６１に要求する（ステップＳ３５）。一例としてネットワーク６０がＥｔｈｅｒｎｅｔ上のＴＣＰ／ＩＰである場合には、かかる要求は、ノード２０上のプロセスからＧＡＲＰ要求（あるいはＧＡＲＰ返信）をネットワーク６０にブロードキャストし、ＧＡＲＰ要求・返信を受け取ったネットワーク６０内の計算機のＡＲＰ表を更新することで実現しうる。一方、ネットワーク６０がオープンフロー技術を用いている場合には、オープンフローコントローラへ経路情報変更を要求することで、ノード１０宛のフローをノード２０の計算機へ到達させることができる。

　なお、後述の動作モード変更部５３からのリクエストを受信するための別のデータ受信部を、必要に応じてノード１０上に設ける。例えば、ＧＡＲＰ方式によると、ノード１０が使用していたＩＰアドレスがノード２０に付け替えられる。したがって、別のアドレスによるＴＣＰ待ち受けプロセスを開く必要がある。

　次に、動作モード変更部５３は、アクセス変更部５２の処理の終了を受けると、ノード１０の電源制御部１３に動作モード変更指示情報を送信する（ステップＳ３６）。

　ノード１０の電源制御部１３は、動作モード変更指示情報を受信すると、ノード１０の電力モードを省電力モードに変更する。この時点において、ノード１０へのアクセスは、すでにノード２０へ到達するようになっている。

　図８は、ノード省電力モードからの復帰動作を示すシーケンス図である。図８を参照すると、動作モード変更部５３は、ノード１０の電源制御部１３を介して、ノード１０を通常運用モードに遷移させる（ステップＳ４１）。

　次に、ノード管理部５１は、省電力モード中の更新データをノード１０へ適用するように、ノード２０の一時データ管理部２６に指示する（ステップＳ４２）。

　ノード２０の一時データ管理部２６とノード１０のデータ送受信部１１とによって、ノード１０のデータ格納部１２のオブジェクトは最新の状態に更新される。この間のノード２０内の一時データ受信部２５の更新は、逐次ノード１０に適用される。未適用の更新のすべてがノード１０上のデータに適用されると、ノード２０の一時データ受信部２５は、以降のアクセスはノード１０へ転送するように設定する。また、ノード１０はサービスを再開する。

　次に、アクセス変更部５２は、アクセス到達先変更部６１を介して、ノード１０のノード識別子宛のリクエストがノード１０へ到達するようにアクセス経路決定部６２を変更する（ステップＳ４３）。

　次に、ノード管理部５１は、ノードリスト（原本）５５を更新し（ステップＳ４５）、ノード１０宛のデータ書き込み要求をノード１０が受けるように変更する。以上により、ノード１０は、分散ストレージシステムに復帰する。

　本実施形態の分散ストレージシステムによると、ノードリスト（原本）５５の更新が伝播されていない古いノードリスト（複製）９３を参照したクライアント端末９０からのアクセスであっても、ノード１０のタイムアウトを待つことなく、ノード２０や複製保持ノードによりアクセスが処理される。

　本実施形態に係る分散ストレージシステムによると、各ノードが省電力モード化と非省電力モード化を有し、クライアント端末からのアクセスのタイムアウトが少なく、一部のノードが停止中の時点でも、データ冗長性とデータ書き込み性能を維持することができる。なぜなら、アクセスに応答できない省電力ノードへのアクセスを、アクセス到達先変更部とアクセス経路決定部によって仮格納ノードへ転送することができるからである。このとき、仮格納ノードは、タイムアウトを待つことなく、当該アクセスに応答することができる。

　また、仮格納ノードは、省電力ノードへの書き込みアクセスに係るデータを一時的に保持し、省電力ノードが通常モードに復帰した後に省電力ノードにデータを送出する。したがって、データ書き込みサービスは停止されず、データの冗長性を維持することもできる。

　すなわち、本実施形態の分散ストレージシステムによると、クライアント端末からのアクセスのタイムアウトが少なく、かつ、一部のノードが停止中の時点であっても、データ冗長性とデータ書き込み性能を維持することができる。

　＜実施形態２＞
　第２の実施形態に係る分散ストレージシステムについて、図面を参照して説明する。

　図９は、本実施形態に係る、データ配置情報を利用した分散ストレージシステムのうちのデータの格納とアクセスに関する構成を示すブロック図である。

　本実施形態の分散ストレージシステムは、第１の実施形態におけるノードリスト（原本）５５とノードリスト（複製）９３の代わりに、データ配置情報（原本）８５とデータ配置情報（複製）８７を備え、ノードリスト同期制御部５６の代わりに、データ配置情報同期制御部８６を備えている。データ配置情報（原本）８５は、オブジェクトのキーから該当するノードを取得するための情報を保持している。データ送受信ノード決定部９２は、ノードリスト（複製）９３の代わりに、データ配置情報（複製）８７を参照して、データ送受信ノードを決定する。

　データ配置情報（原本）８５は、例えば、メタサーバにより構成される。メタサーバは、Ｂ＋－Ｔｒｅｅやハッシュ索引などの索引構造を保持し、オブジェクトのキーから該当するノード識別子を取得する。

　本実施形態の分散ストレージシステムにおいては、これら以外の構成については、第１の実施形態の分散ストレージシステムにおける構成と同様である。

　本実施形態の分散ストレージシステムにおけるノード省電力モードへの移行処理、および、ノード省電力モードからの復帰処理について説明する。本実施形態においては、ノード管理部５１によって、ノードリスト（原本）５５の代わりに、データ配置情報（原本）８５が更新される点において、第１の実施形態の分散ストレージシステムの動作（図７、図８）と相違する。

　本実施形態の分散ストレージシステムによると、メタサーバを用いた構成の分散ストレージシステムにおいて、更新の伝播されていない古いデータ配置情報（複製）８７を参照したクライアント端末９０からのアクセスであっても、ノード１０のタイムアウトを待つことなく、ノード２０や複製保持ノードにより処理が行われる。

　したがって、本実施形態の分散ストレージシステムによると、クライアント端末からのアクセスのタイムアウトが少なく、かつ一部のノードが停止中の時点であっても、データ冗長性とデータ書き込み性能を維持することができる。

　＜実施形態３＞
　第３の実施形態に係るデータ記憶システムについて、図面を参照して説明する。

　図１０は、本実施形態に係る、ノードリストキャッシュを利用した分散ストレージシステムのうちデータの格納とアクセスに関する構成を示すブロック図である。

　本実施形態では、分散ストレージシステムを構成するノードの一部が、アクセス経路決定部６２の範囲外にある第２のネットワーク７０に接続されている。図１０では、ノード１０、ノード３０、およびクライアント端末９０は、第１のネットワーク６０に接続されている。一方、ノード２０は、第２のネットワーク７０に接続されている。このとき、アクセス到達先変更部６１は、第１のネットワーク６０におけるアクセス経路決定部６２のみを変更することができるものとする。

　本実施形態の分散ストレージシステムにおいて、これら以外の構成は、第１の実施形態の分散ストレージシステムの構成と同様である。なお、第２の実施形態に準じた構成においても、同様の手法により課題を解決できる。この場合には、以下の説明におけるノードリストをデータ配置情報と読み替える。

　本実施形態の分散ストレージシステムにおいて、省電力モードに移行するノードと仮格納ノードとが異なるネットワークに接続されている場合における、省電力モードへの移行について説明する。

　この場合、アクセス到達先を変更する時刻（図７の時刻Ｔ１）よりも前に、ノード１０と同一のネットワーク６０に存在する１つ以上のノード（ここでは、ノード３０とする）を決定する。次に、ノード１０宛のアクセスを受け付けて、ノード２０へ転送するアクセス転送手段をノード３０上に作成する。

　その後、アクセス変更部５２は、アクセス到達先変更部６１を介して、アクセス経路決定部６２を変更する。ここでは、第１の実施形態と異なり、ノード１０のアクセス到達先をノード３０へと変更する。これは、仮格納ノードとなるノード２０が異なるネットワーク７０に接続されており、アクセス到達先をノード２０に変更することができないからである。省電力モード移行処理のその他の処理は、第１の実施形態における処理と同様である。

　あるノードを省電力モードに移行し、異なるネットワークに存在するノードを仮格納ノードとした場合において、省電力モードへの移行後に再び当該省電力モード移行ノードを通常運用モードに変更するときの処理について説明する。この場合には、図８において、アクセス到達先を変更する時刻（図８の時刻Ｔ３）よりも後の任意の時点において、ノード３０上に作成したアクセス転送手段を終了する。省電力モードからの復帰処理におけるその他の処理は、第１の実施形態における処理と同様である。

　本実施形態の分散ストレージシステムによると、分散ストレージシステムの一部のノードが複数のネットワークにまたがる構成の分散ストレージシステムにおいて、更新の伝播されていない古いデータ配置情報（複製）８７を参照したクライアント端末９０からのアクセスであっても、ノード１０のタイムアウトを待つことなく、ノード３０や複製保持ノードにより処理が行われる。

　本発明に係るデータ記憶システムは、並列データベースや並列データ処理システム、分散ストレージシステム、並列ファイルシステム、分散データベース、データグリッド、クラスタコンピュータに適用することができる。

　本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

　上記実施形態の一部または全部は、以下の付記として記載することができるものであるが、これらに限定されるものではない。

　（付記１）オブジェクトをそれぞれ格納する複数のノードと、
　前記複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストと、
　前記複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、前記第１のノードリストを更新する制御装置と、を備え、
　前記複数のノードは、前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされ、
　前記制御装置は、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更することを特徴とする分散ストレージシステム。

　（付記２）前記制御装置は、前記第１のノードの動作モードを前記第２のモードから前記第１のモードへ変更する場合に、前記第２のノードが保持する前記第１のノードに書き込まれるべきオブジェクトを、前記第２のノードから前記第１のノードへ転送することを特徴とする、付記１に記載の分散ストレージシステム。

　（付記３）前記複数のノードのそれぞれの前記第２のモードにおける消費電力は、前記第１のモードにおける消費電力よりも低いことを特徴とする、付記１または２に記載の分散ストレージシステム。

　（付記４）前記制御装置は、前記第１のノードと前記第２のノードとが異なるネットワークに接続されている場合には、前記複数のノードのうちの前記第１のノードと同一のネットワークに接続された第３のノードを経由して、クライアント端末から前記第１のノードへのアクセスを処理するように、該第３のノードおよび前記第２のノードに指示することを特徴とする、付記１ないし３のいずれか一に記載の分散ストレージシステム。

　（付記５）コンピュータが、分散ストレージシステムに含まれ、オブジェクトをそれぞれ格納する複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、該複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストを更新する工程と、
　前記複数のノードが前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされる場合において、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する工程と、を含むことを特徴とする制御方法。

　（付記６）前記第１のノードの動作モードを前記第２のモードから前記第１のモードへ変更する場合に、コンピュータが、前記第２のノードが保持する前記第１のノードに書き込まれるべきオブジェクトを、前記第２のノードから前記第１のノードへ転送する工程をさらに含むことを特徴とする、付記５に記載の制御方法。

　（付記７）前記複数のノードのそれぞれの前記第２のモードにおける消費電力は、前記第１のモードにおける消費電力よりも低いことを特徴とする、付記５または６に記載の制御方法。

　（付記８）前記第１のノードと前記第２のノードとが異なるネットワークに接続されている場合には、前記複数のノードのうちの前記第１のノードと同一のネットワークに接続された第３のノードを経由して、クライアント端末から前記第１のノードへのアクセスを処理するように、コンピュータが該第３のノードおよび前記第２のノードに指示する工程を含むことを特徴とする、付記５ないし７のいずれか一に記載の制御方法。

　（付記９）分散ストレージシステムに含まれ、オブジェクトをそれぞれ格納する複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、該複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストを更新する処理と、
　前記複数のノードが前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされる場合において、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する処理と、をコンピュータに実行させることを特徴とするプログラム。

　（付記１０）前記第１のノードの動作モードを前記第２のモードから前記第１のモードへ変更する場合に、前記第２のノードが保持する前記第１のノードに書き込まれるべきオブジェクトを、前記第２のノードから前記第１のノードへ転送する処理を、さらにコンピュータに実行させることを特徴とする、付記９に記載のプログラム。

　（付記１１）前記複数のノードのそれぞれの前記第２のモードにおける消費電力は、前記第１のモードにおける消費電力よりも低いことを特徴とする、付記９または１０に記載のプログラム。

　（付記１２）前記第１のノードと前記第２のノードとが異なるネットワークに接続されている場合には、前記複数のノードのうちの前記第１のノードと同一のネットワークに接続された第３のノードを経由して、クライアント端末から前記第１のノードへのアクセスを処理するように、該第３のノードおよび前記第２のノードに指示する処理をコンピュータに実行させることを特徴とする、付記９ないし１１のいずれか一に記載のプログラム。

１０、２０、３０　　ノード
１１、２１、３１　　データ送受信部
１２、２２、３２　　データ格納部
１３、２３　　電源制御部
２５　　一時データ受信部
２６　　一時データ管理部
５０　　制御装置
５１　　ノード管理部
５２　　アクセス変更部
５３　　動作モード変更部
５５　　ノードリスト（原本）
５６　　ノードリスト同期制御部
６０、７０、Ｈ４　　ネットワーク
６１　　アクセス到達先変更部
６２、７２　　アクセス経路決定部
８５　　データ配置情報（原本）
８６　　データ配置情報同期制御部
８７　　データ配置情報（複製）
９０　　クライアント端末
９１　　データ送受信部
９２　　データ送受信ノード決定部
９３　　ノードリスト（複製）
Ｈ１１～Ｈ１３　　データ処理計算機
Ｈ１１ａ～Ｈ１３ａ　　ＣＰＵ
Ｈ１１ｂ～Ｈ１３ｂ　　データ記憶装置
Ｈ１１ｃ～Ｈ１３ｃ　　データ転送装置
Ｈ５　　ユーザ計算機

Claims

　オブジェクトをそれぞれ格納する複数のノードと、
　前記複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストと、
　前記複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、前記第１のノードリストを更新する制御装置と、を備え、
　前記複数のノードは、前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされ、
　前記制御装置は、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更することを特徴とする分散ストレージシステム。
　前記制御装置は、前記第１のノードの動作モードを前記第２のモードから前記第１のモードへ変更する場合に、前記第２のノードが保持する前記第１のノードに書き込まれるべきオブジェクトを、前記第２のノードから前記第１のノードへ転送することを特徴とする、請求項１に記載の分散ストレージシステム。
　前記複数のノードのそれぞれの前記第２のモードにおける消費電力は、前記第１のモードにおける消費電力よりも低いことを特徴とする、請求項１または２に記載の分散ストレージシステム。
　前記制御装置は、前記第１のノードと前記第２のノードとが異なるネットワークに接続されている場合には、前記複数のノードのうちの前記第１のノードと同一のネットワークに接続された第３のノードを経由して、クライアント端末から前記第１のノードへのアクセスを処理するように、該第３のノードおよび前記第２のノードに指示することを特徴とする、請求項１ないし３のいずれか１項に記載の分散ストレージシステム。
　コンピュータが、分散ストレージシステムに含まれ、オブジェクトをそれぞれ格納する複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、該複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストを更新する工程と、
　前記複数のノードが前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされる場合において、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する工程と、を含むことを特徴とする制御方法。
　前記第１のノードの動作モードを前記第２のモードから前記第１のモードへ変更する場合に、コンピュータが、前記第２のノードが保持する前記第１のノードに書き込まれるべきオブジェクトを、前記第２のノードから前記第１のノードへ転送する工程をさらに含むことを特徴とする、請求項５に記載の制御方法。
　前記複数のノードのそれぞれの前記第２のモードにおける消費電力は、前記第１のモードにおける消費電力よりも低いことを特徴とする、請求項５または６に記載の制御方法。
　前記第１のノードと前記第２のノードとが異なるネットワークに接続されている場合には、前記複数のノードのうちの前記第１のノードと同一のネットワークに接続された第３のノードを経由して、クライアント端末から前記第１のノードへのアクセスを処理するように、コンピュータが該第３のノードおよび前記第２のノードに指示する工程を含むことを特徴とする、請求項５ないし７のいずれか１項に記載の制御方法。
　分散ストレージシステムに含まれ、オブジェクトをそれぞれ格納する複数のノードのそれぞれの動作モードを、クライアント端末からアクセスすることができる第１のモードとクライアント端末からアクセスすることができない第２のモードとの間で変更するとともに、該複数のノードのうちのクライアント端末からアクセスすることができるノードの識別子を保持する第１のノードリストを更新する処理と、
　前記複数のノードが前記第１のノードリストに基づいて非同期に更新される第２のノードリストを参照するクライアント端末によってそれぞれアクセスされる場合において、前記複数のノードのうちの第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する際に、クライアント端末から前記第１のノードへのアクセスを処理するように前記複数のノードのうちの第２のノードに指示するとともに前記第１のノードリストから前記第１のノードの識別子を削除した後、前記第１のノードの動作モードを前記第１のモードから前記第２のモードへ変更する処理と、をコンピュータに実行させることを特徴とするプログラム。
　前記第１のノードの動作モードを前記第２のモードから前記第１のモードへ変更する場合に、前記第２のノードが保持する前記第１のノードに書き込まれるべきオブジェクトを、前記第２のノードから前記第１のノードへ転送する処理を、さらにコンピュータに実行させることを特徴とする、請求項９に記載のプログラム。
　前記複数のノードのそれぞれの前記第２のモードにおける消費電力は、前記第１のモードにおける消費電力よりも低いことを特徴とする、請求項９または１０に記載のプログラム。
　前記第１のノードと前記第２のノードとが異なるネットワークに接続されている場合には、前記複数のノードのうちの前記第１のノードと同一のネットワークに接続された第３のノードを経由して、クライアント端末から前記第１のノードへのアクセスを処理するように、該第３のノードおよび前記第２のノードに指示する処理をコンピュータに実行させることを特徴とする、請求項９ないし１１のいずれか１項に記載のプログラム。