JPWO2009084314A1 - データ分散格納方法およびデータ分散格納システム - Google Patents
データ分散格納方法およびデータ分散格納システム Download PDFInfo
- Publication number
- JPWO2009084314A1 JPWO2009084314A1 JP2009547948A JP2009547948A JPWO2009084314A1 JP WO2009084314 A1 JPWO2009084314 A1 JP WO2009084314A1 JP 2009547948 A JP2009547948 A JP 2009547948A JP 2009547948 A JP2009547948 A JP 2009547948A JP WO2009084314 A1 JPWO2009084314 A1 JP WO2009084314A1
- Authority
- JP
- Japan
- Prior art keywords
- replica
- storage
- file
- host server
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
Abstract
Description
120〜123…ホストノード
124…メタサーバ
130〜133…エッジスイッチ(ネットワークスイッチ)
140…ネットワーク
図1を参照すると、本発明の第1の実施の形態に係るデータ分散格納システムは、ストレージノードSN1とホストサーバH1とがスイッチSW1に接続され、ストレージノードSN2とホストサーバH2とがスイッチSW2に接続され、スイッチSW1とスイッチSW2との間が複数のネットワーク経路L1、L2により接続されている。また、ストレージノードSN1に格納されるデータのレプリカが、ストレージノードSN2に格納されている。なお、同じスイッチに接続されるホストサーバとストレージノードとは物理的に別々の計算機で構成されていても良いし、同じ計算機で構成されていても良い。
図2を参照すると、本発明の第2の実施の形態に係るデータ分散格納システムは、16台のストレージノード100〜115と、4台のホストサーバ120〜123と、ストレージノード100〜115およびホストサーバ120〜123を4つの組に分けた場合の各組毎に設けられ、その組に含まれるストレージノードとホストサーバとが接続される4台のエッジスイッチ130〜133と、エッジスイッチ130〜133間を複数のネットワーク経路で接続するネットワーク140と、多重化されたデータを、同じデータが同じエッジスイッチに接続されたストレージノードに格納されないように、複数のストレージノードに分散して格納するメタサーバ124とを備えている。
まず、1つのファイルを複数の部分データに分割し、個々の部分データを多重化して複数のストレージノードに分散して格納する動作について説明する。以降、部分データのことをチャンクと呼ぶ。ファイルが1つのチャンクからなるときには、ファイル=チャンクとなる。また、チャンクの複製をレプリカと呼ぶ。本明細書では、複製元と複製先を特に区別することなく、双方ともレプリカと呼ぶ。
次に、ホストサーバ120〜123が、複数のストレージノードに分散して格納されたファイルを読み出すときの動作を説明する。
次に本発明の第2の実施の形態の実施例1について詳細に説明する。
図12を参照すると、メタサーバ124のエッジスイッチ構成取得部311は、システム構成変更時(システムの初回稼働開始時を含む)もしくは定期的に、システムに存在するストレージノード100〜115とそれが接続されているエッジスイッチ130〜133の組み合わせの情報をエッジスイッチ構成情報として収集し(ステップS101)、エッジスイッチ構成情報データベース301に格納する(ステップS102)。
図13を参照すると、メタサーバ124のレプリカ配置決定部312は、入出力部224を通じて外部オペレータからファイル格納要求を受け取ると、格納対象となるファイル(ターゲットファイル)をチャンクに分割する(ステップS201)。次に、エッジスイッチ構成情報データベース301を参照して、ストレージノードとその接続されたエッジスイッチとの関係を確認し、同一チャンクの複数のレプリカが同一エッジスイッチに接続されるストレージノードに重ならないようにレプリカの格納先を決定する(ステップS202)。
エッジスイッチごとのストレージノード数を一定値p、レプリカ数をrとしたとき、
1.リーダーノードがプライマリノード(m0)を決定する。
2.mi+1=(mi+p)%n(nは全ストレージノード数)をセカンダリレプリカノードに決定する。
3.指定した数rのレプリカが選ばれていれば終了し、未だ選ばれていなければ段階2へ戻る。
エッジスイッチiに接続されるストレージノード数をp(i)、レプリカ数をrとしたとき、
1.リーダーノードがプライマリノード(m0)を決定する。
2.mi+1=(mi+p(j))%n(jはΣp(j)>miとなる最小のj)をセカンダリレプリカノードに決定する。
3.指定した数rのレプリカが選ばれていれば終了し、未だ選ばれていなければ段階2へ戻る。
図14を参照すると、各ホストサーバ120〜123のファイル取得部351は、取得対象とするファイルの識別子を指定したファイル取得要求をメタサーバ124へ送信し(ステップS301)、メタサーバ124からの応答を待つ。
図16を参照すると、実施例2におけるメタサーバ124は、図8に示した実施例1におけるメタサーバと比較して、レプリカ取得先選択部315およびレプリカ取得ネットワーク経路決定部316が取り除かれている点と、レプリカ検索部314がレプリカ検索部317に置き換えられている点で相違する。
図18Aと図18Bは、本実施例におけるファイルのデータ読み出し時のホストサーバ側の処理の流れを示すフローチャートである。図示のように、各ホストサーバ120〜123のファイル取得部353は、取得対象とするファイルの識別子を指定したファイル取得要求をメタサーバ124へ送信し(ステップS501)、メタサーバ124からの応答を待つ。
実施例1および実施例2では、ホストサーバは、ファイルを構成するチャンクをその先頭のチャンクから最後のチャンクまで順番に、1チャンクずつ、直前のチャンクの取得完了後に次のチャンクの読み出しを開始したが、連続する複数のチャンクの読み出しを並行して行うようにしても良い。例えば、図7に示したようにファイルのチャンクが配置されている場合、ホストサーバ120は、ストレージノード100からチャンク0の読み出しを開始し、そのチャンク0の読み出しの完了を待たずに、ストレージノード105からチャンク1の読み出しを開始することで、連続する複数のチャンクの読み出しを異なるストレージノード、異なるネットワーク経路を用いてパイプライン的に行うようにしても良い。このような処理によって、特にストリーミングデータの送出時に顕著なチャンクの連続読み出しを行った際に、スループットの向上が達成でき、ネットワークボトルネックを生じさせないストレージクラスタを構築できる。
[0045]
エッジスイッチ構成情報データベース301は、図9に示すように、エッジスイッチ130〜133毎のエッジスイッチ構成情報321を保持する。エッジスイッチ構成情報321は、エッジスイッチ識別子322と、このエッジスイッチ識別子322で一意に識別されるエッジスイッチに接続されているストレージノードの識別子のリスト323とから構成される。
[0046]
レプリカ配置データベース302は、図10に示すように、ファイル毎のファイル情報331と、チャンク毎のチャンク情報332とを保持する。ファイル情報331は、ファイル識別子333と、このファイル識別子333で一意に識別されるファイルを構成するチャンクの識別子のリスト334とから構成される。チャンク情報332は、チャンク識別子335と、このチャンク識別子335で一意に識別されるチャンクの配置先ストレージノードの識別子のリスト336とから構成される。
[0047]
エッジスイッチ構成取得部311は、エッジスイッチ構成情報を取得して、エッジスイッチ構成情報データベース301に格納する処理を行う。
[0048]
レプリカ配置決定部312は、入出力部224から入力された格納対象ファイルの各チャンクを、どのストレージノードに配置(格納)するかを決定する処理を行う。
[0049]
レプリカ配置処理部313は、レプリカ配置決定部312で決定された配置先に従って、格納対象ファイルの各チャンクをストレージノードに格納する処理を行う。
[0050]
レプリカ検索部314は、ホストサーバからファイル取得要求を受信し、ファイル取得要求で指定された取得対象ファイルを構成する各チャンクを取得するためのレプリカ取得情報をホストサーバに対して通知する。レプリカ取得情報には、チャンクを取得するストレージノードの識別子および取得するネットワーク経路が含まれる。
[0051]
レプリカ取得先選択部315は、複数のストレージノードに分散して配置されているチャンクの複数のレプリカの中から取得対象とするレプリカを選択する処理を行う。選択の方法としては、例えば、ホストサーバからのレプリカ取得が特定のストレージノードに集中せず負荷分散されるように、例えば履歴情報を元にラウンドロビンさせることでレプリカ取得先を選択する。勿論、選択の方法はこのような方法に限定されず、任意の方法を使用することができる。
[0052]
レプリカ取得ネットワーク経路決定部316は、ホストサーバからストレージノードに至
る複数のネットワーク経路の計算と、この計算で得られた複数のネットワーク経路の中から実際に使用するネットワーク経路を選択する処理とを行う。選択の方法としては、複数のホストサーバからのレプリカ取得が特定のネットワーク経路に集中せずに負荷分散され、好ましくはそれぞれ異なるネットワーク経路が同時に使用されるように選択する。勿論、選択の方法はこのような方法に限定されず、任意の方法を使用することができる。
[0053]
図11を参照すると、実施例1におけるホストサーバ120〜123は、再構成ファイル341を記憶部210に備え、ファイル取得部351およびサービス提供部352をホスト制御部213に備えている。
[0054]
ファイル取得部351は、ストリーミング配信の対象となるコンテンツファイルなどのファイルを構成するチャンクを取得するためのチャンク取得情報をメタサーバに問い合わせ、取得したチャンク取得情報に従ってストレージノードをアクセスし、取得したチャンクをつなげて記憶部210上に再構成ファイル341を作成する処理を行う。
[0055]
サービス提供部352は、再構成ファイル341を記憶部210から読み込み、通信部212を通じてユーザ端末へ配信すると言ったサービスを実行する。
[0056]
次に本実施例1の動作を説明する。
[0057]
[エッジスイッチ構成情報の取得]
図12を参照すると、メタサーバ124のエッジスイッチ構成取得部311は、システム構成変更時(システムの初回稼働開始時を含む)もしくは定期的に、システムに存在するストレージノード100〜115とそれが接続されているエッジスイッチ130〜133の組み合わせの情報をエッジスイッチ構成情報として収集し(ステップS101)、エッジスイッチ構成情報データベース301に格納する(ステップS102)。
[0058]
具体的なエッジスイッチ構成情報の取得方法としては、(1)静的に設定ファイルなどに記述しておく、(2)エッジスイッチがSNMP(Simple Network Management Protocol)に対応していて、各ネットワークポートに接続されている機器のIPアドレスもしくはMACアドレスなどが取得可能ならば、その情報を利用する、(3)各ストレージノードにプローブを入れておき、各ノード間の通信に要する時間(レイテンシ)を元に同一エッジスイッチに接続されているストレージノードを推定する、などの方法がある。
313は、レプリカ配置決定部312の決定に従って、各レプリカをストレージノードに格納する(ステップS203)。レプリカ配置決定部312は、レプリカ配置処理部313のレプリカ配置処理の完了を待って、レプリカ配置データベース302を更新する(ステップS204)。具体的には、図10に示したように、今回のファイルの識別子333とそのチャンクの識別子のリスト334とから構成されるファイル情報331と、チャンク識別子335とその配置先ストレージノードの識別子のリスト336とから構成されるチャンク毎のチャンク情報332とをレプリカ配置データベース302に登録する。
[0066]
[データ読み出し時]
図14を参照すると、各ホストサーバ120〜123のファイル取得部351は、取得対象とするファイルの識別子を指定したファイル取得要求をメタサーバ124へ送信し(ステップS301)、メタサーバ124からの応答を待つ。
[0067]
図15Aと図15Bは、本実施例におけるファイルのデータ読み出し時のメタサーバ側の処理の流れを示すフローチャートである。図示のように、メタサーバ124のレプリカ検索部314は、ホストサーバから送信されたファイル取得要求を受信すると(ステップS401)、ファイル識別子をキーにレプリカ配置データベース302を検索して、ホストサーバが取得を要求したファイルの識別子333を含むファイル情報331からそのファイルを構成するチャンクの識別子のリスト334を取得する(ステップS402)。レプリカ検索部314は、若し、このリスト334が取得できない場合には(ステップS403でNO)、要求されたファイルが本データ分散格納システムに格納されていないことを意味するので、ファイル発見不能をホストサーバに通知し(ステップS419)、ファイル取得要求受信時の処理を終える。
[0068]
チャンク識別子のリスト334を取得した場合、次にレプリカ検索部314は、取得したリストに記述された先頭のチャンクに注目し(ステップS404)、注目したチャンクの識別子をキーにレプリカ配置データベース302を検索して、そのチャンク識別子を含むチャンク情報332からそのチャンクの配置先ストレージノードの識別子のリスト336であるレプリカリストを取得する(ステップS405)。次にレプリカ検索部314は、この取得したリストが空でなければ(ステップS406でNO)、そのリストをレプリカ取得先選択部315に伝達し、レプリカ取得先選択部315は、ストレージノードの負荷が分散されるように、
リストの中から1つの配置先ストレージノードの識別子を選択し、結果をレプリカ検索部314に通知する(ステップS407)。また、レプリカ検索部314は、リストが空であれば(ステップS406でYES)、ファイル発見不能をホストサーバに通知し(ステップS419)、ファイル取得要求受信時の処理を終える。
[0069]
次にレプリカ検索部314は、レプリカ取得先選択部315から通知された配置先ストレージノードと要求元のホストサーバの識別子をレプリカ取得ネットワーク経路決定部316に伝達し、レプリカ取得ネットワーク経路決定部316は、要求元のホストサーバから配置先ストレージノードに至る複数のネットワーク経路を計算し、ネットワーク経路集合に記憶する(ステップS408)。続いてレプリカ取得ネットワーク経路決定部316は、ネットワーク経路の負荷が分散されるように、ネットワーク経路集合から1つのネットワーク経路を選択し、レプリカ検索部314へ通知する(ステップS410)。
[0070]
レプリカ検索部314は、レプリカ取得先選択部315から通知された配置先ストレージノードとレプリカ取得ネットワーク経路決定部316から通知されたネットワーク経路と取得対象とするチャンクの識別子とを含むレプリカ取得情報を、要求元のホストサーバへ通知する(ステップS411)。そして、ホストサーバからの応答を待つ。
[0071]
ホストサーバのファイル取得部351は、ファイル取得要求に対する応答としてメタサーバ124からレプリカ取得情報を受信すると(図14のステップS302でYES)、このレプリカ取得情報で指定されたネットワーク経路を通じて、同じくレプリカ取得情報で指定された配置先ストレージノードをアクセスしてチャンクを取得する(ステップS303)。そして、取得に成功すれば(ステップS304でYES)、取得したチャンクで再構成ファイル341の一部を再構成し(ステップS305)、取得成功をメタサーバ124へ通知する(ステップS306)。他方、ネットワークエラーや配置先ストレージノードの障害などによってチャンクの取得に失敗した場合(ステップS304でNO)、失敗した原因を付加して取得失敗をメタサーバ124へ通知する(ステップS307)。
[0072]
また、ファイル取得部351は、ファイル取得要求に対する応答としてメタサーバ124からファイル発見不能の通知を受信すると(ステップS309でYES)、要求したファイルの読み出しに失敗したことを意味し、ファイル取得の異常終了を行う。
[0073]
メタサーバ124のレプリカ検索部314は、レプリカ取得情報に対する応答としてホス
けるメタサーバと比較して、レプリカ取得先選択部315およびレプリカ取得ネットワーク経路決定部316が取り除かれている点と、レプリカ検索部314がレプリカ検索部317に置き換えられている点で相違する。
[0084]
レプリカ検索部317は、ホストサーバからファイル取得要求を受信し、ファイル取得要求で指定された取得対象ファイルを構成する各チャンクの配置先ストレージノードの識別子のリストであるレプリカリストをホストサーバに対して通知する。
[0085]
図17を参照すると、実施例2におけるホストサーバ120〜123は、図11に示した実施例1におけるホストサーバと比較して、ファイル取得部351がファイル取得部353に置き換えられている点と、レプリカ取得先選択部354およびレプリカ取得ネットワーク経路決定部355が新たに追加されている点で相違する。
[0086]
レプリカ取得先選択部354は、複数のストレージノードに分散して配置されているチャンクの複数のレプリカの中から取得対象とするレプリカを選択する処理を行う。選択の方法としては、例えば、ホストサーバからのレプリカ取得が特定のストレージノードに集中せず負荷分散されるように、例えば履歴情報を元にラウンドロビンさせることでレプリカ取得先を選択する。勿論、選択の方法はこのような方法に限定されず、任意の方法を使用することができる。
[0087]
レプリカ取得ネットワーク経路決定部355は、ホストサーバからストレージノードに至る複数のネットワーク経路の計算と、この計算で得られた複数のネットワーク経路の中から実際に使用するネットワーク経路を選択する処理とを行う。選択の方法としては、ホストサーバからのレプリカ取得が特定のネットワーク経路に集中せずに負荷分散されるように選択する。勿論、選択の方法はこのような方法に限定されず、任意の方法を使用することができる。
[0088]
ファイル取得部353は、ストリーミング配信の対象となるコンテンツファイルなどのファイルを構成する各チャンクの配置先ストレージノードの識別子のリストであるレプリカリストをメタサーバに問い合わせ、取得したレプリカリストに記載されたストレージノードをアクセスし、取得したチャンクをつなげて記憶部210上に再構成ファイル341を作成する処理を行う。
[0089]
次に本実施例2の動作を説明する。本実施例2の動作のうち、データ読み出し時以
ドの負荷が分散されるようにリストの中から1つの配置先ストレージノードの識別子を選択し、結果をファイル取得部353に通知する(ステップS504)。また、ファイル取得部353は、リストが空であれば(ステップS503でYES)、取得失敗をメタサーバに通知し(ステップS517)、ファイル取得要求の受信時の処理を異常終了とする。
[0094]
次にファイル取得部353は、レプリカ取得先選択部354から通知された配置先ストレージノードをレプリカ取得ネットワーク経路決定部355に伝達する。レプリカ取得ネットワーク経路決定部355は、自ホストサーバから配置先ストレージノードに至る複数のネットワーク経路を計算し、ネットワーク経路集合に記憶する(ステップS505)。続いてレプリカ取得ネットワーク経路決定部355は、ネットワーク経路の負荷が分散されるように、ネットワーク経路集合から1つのネットワーク経路を選択し、ファイル取得部353へ通知する(ステップS507)。
[0095]
ファイル取得部353は、レプリカ取得先選択部354から通知された配置先ストレージノードとレプリカ取得ネットワーク経路決定部355から通知されたネットワーク経路と取得対象とするチャンクの識別子とを含むレプリカ取得情報に基づいて、配置先ストレージノードをアクセスしてチャンクを取得する(ステップS508)。そして、取得に成功すれば(ステップS509でYES)、取得したチャンクで再構成ファイル341の一部を再構成し(ステップS510)、取得成功をメタサーバ124へ通知する(ステップS511)。他方、ネットワークエラーや配置先ストレージノードの障害などによってチャンクの取得に失敗した場合(ステップS509でNO)、失敗の原因がネットワークエラーかどうかを判別し(ステップS512)、ネットワークエラーであれば、レプリカ取得ネットワーク経路決定部355に次のネットワーク経路の選択を指示する。レプリカ取得ネットワーク経路決定部355は、前回選択したネットワーク経路をネットワーク経路集合から削除し(ステップS513)、残りのネットワーク経路から1つのネットワーク経路を選択してファイル取得部353へ通知する。また、残りのネットワーク経路が1つも無ければ、その旨をファイル取得部353へ通知する。ファイル取得部353は、ネットワーク経路が通知されると、この通知されたネットワーク経路とステップS504においてレプリカ取得先選択部354で選択されていた取得先ストレージノードとを含むレプリカ取得情報に基づいて、配置先ストレージノードをアクセスしてチャンクを取得する(ステップS508)。以降、チ
においてメタサーバに設けていたレプリカ取得先選択部およびレプリカ取得ネットワーク経路決定部をホストサーバに設けるようにしたことにより、メタサーバのレプリカ取得先を選択するコスト、レプリカ取得ネットワーク経路を計算するコストを軽減でき、メタサーバのスケーラビリティが向上する。また、ホストサーバは、メタサーバからレプリカリストを受信しているため、レプリカリスト中の何れかのストレージノードからチャンクのレプリカを取得することができなかった場合でも、実施例1のようにメタサーバに再度問い合わせを行う必要がなく、問い合わせに要するオーバヘッドを軽減することができる。
[0100]
『その他の実施例』
実施例1および実施例2では、ホストサーバは、ファイルを構成するチャンクをその先頭のチャンクから最後のチャンクまで順番に、1チャンクずつ、直前のチャンクの取得完了後に次のチャンクの読み出しを開始したが、連続する複数のチャンクの読み出しを並行して行うようにしても良い。例えば、図7に示したようにファイルのチャンクが配置されている場合、ホストサーバ120は、ストレージノード100からチャンク0の読み出しを開始し、そのチャンク0の読み出しの完了を待たずに、ストレージノード105からチャンク1の読み出しを開始することで、連続する複数のチャンクの読み出しを異なるストレージノード、異なるネットワーク経路を用いて並列に行うようにしても良い。このような処理によって、特にストリーミングデータの送出時に顕著なチャンクの連続読み出しを行った際に、スループットの向上が達成でき、ネットワークボトルネックを生じさせないストレージクラスタを構築できる。
[0101]
上述したような処理を可能にするために、メタサーバ124のレプリカ配置決定部312は、連続するチャンクが異なるネットワーク経路でアクセス可能な異なるストレージノードに配置するように、レプリカの配置を決定する。また、実施例1ではメタサーバのレプリカ検索部314、レプリカ取得先選択部315およびレプリカ取得ネットワーク経路決定部316が、また実施例2ではホストサーバのファイル取得部353、レプリカ取得先選択部354およびレプリカ取得ネットワーク経路決定部355が、連続する複数のチャンクの読み出しを異なるストレージノードおよび異なるネットワーク経路を用いて並列に行えるように、チャンクを取得するストレージノードお
Claims (21)
- 複数のストレージノードと、複数のホストサーバと、それぞれ異なる前記ストレージノードおよび前記ホストサーバに接続される複数のエッジスイッチと、前記複数のエッジスイッチ間を複数のネットワーク経路で接続するネットワークと、多重化されたデータを同じデータが同じエッジスイッチに接続されたストレージノードに格納されないように複数のストレージノードに分散して格納するメタサーバとを備えることを特徴とするデータ分散格納システム。
- 前記メタサーバは、前記エッジスイッチと前記ストレージノードとの接続関係を示すエッジスイッチ構成情報を記憶するエッジスイッチ構成情報記憶手段と、前記エッジスイッチ構成情報を参照して、格納対象となるファイルを複数に分割し、個々の部分データを多重化し、多重化した部分データが同じエッジスイッチに接続されたストレージノードに格納されないような配置を決定するレプリカ配置決定手段と、該レプリカ配置決定手段で決定された配置に従って、多重化された部分データを前記ストレージノードに格納するレプリカ配置処理手段と、前記ファイルを構成する部分データの前記ストレージノードへの配置状況を記憶するレプリカ配置記憶手段とを有することを特徴とする請求項1に記載のデータ分散格納システム。
- 前記メタサーバは、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードと要求元のホストサーバから当該ストレージノードへアクセスするネットワーク経路とを指定した取得情報を、要求元のホストサーバへ通知するレプリカ検索手段を備え、前記ホストサーバは、前記メタサーバに対してファイル取得要求を送信し、その応答として通知される前記取得情報に基づいて前記ストレージノードをアクセスして部分データを取得することを特徴とする請求項1または2に記載のデータ分散格納システム。
- 前記メタサーバは、前記ホストサーバからのファイル取得要求で要求されたファイルを構成する部分データを格納する複数の前記ストレージノードの中から負荷分散を考慮して1つのストレージノードを選択するレプリカ取得先選択手段を備えることを特徴とする請求項3に記載のデータ分散格納システム。
- 前記メタサーバは、前記レプリカ取得先選択手段で選択されたストレージノードとファイル取得要求元のホストサーバとの間の複数のネットワーク経路を計算し、該複数のネットワーク経路の中から負荷分散を考慮して1つのネットワーク経路を選択するレプリカ取得ネットワーク経路決定手段を備えることを特徴とする請求項4に記載のデータ分散格納システム。
- 前記レプリカ配置決定手段は、ファイルを構成する連続する複数の部分データが異なるネットワーク経路でアクセス可能な異なるストレージノードに配置されるような配置を決定し、前記レプリカ検索手段は、前記ホストサーバにおける連続する複数の部分データの読み出しが異なるストレージノードおよび異なるネットワーク経路を用いてパイプライン的に行えるように、ホストサーバが部分データを取得するストレージノードおよびそのネットワーク経路を決定することを特徴とする請求項3に記載のデータ分散格納システム。
- 前記メタサーバは、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードのリストを要求元のホストサーバへ通知するレプリカ検索手段を備え、前記ホストサーバは、前記メタサーバから通知されたリストに記載されたストレージノードをアクセスして部分データを取得するファイル取得手段を備えることを特徴とする請求項1または2に記載のデータ分散格納システム。
- 前記ホストサーバは、前記メタサーバから通知されたリストに記載された部分データを格納する複数の前記ストレージノードの中から負荷分散を考慮して1つのストレージノードを選択するレプリカ取得先選択手段を備えることを特徴とする請求項7に記載のデータ分散格納システム。
- 前記ホストサーバは、前記レプリカ取得先選択手段で選択されたストレージノードと自ホストサーバとの間の複数のネットワーク経路を計算し、該複数のネットワーク経路の中から負荷分散を考慮して1つのネットワーク経路を選択するレプリカ取得ネットワーク経路決定手段を備えることを特徴とする請求項8に記載のデータ分散格納システム。
- 前記レプリカ配置決定手段は、ファイルを構成する連続する複数の部分データが異なるネットワーク経路でアクセス可能な異なるストレージノードに配置されるような配置を決定し、前記ファイル取得手段は、前記ホストサーバにおける連続する複数の部分データの読み出しが異なるストレージノードおよび異なるネットワーク経路を用いてパイプライン的に行えるように、部分データを取得するストレージノードおよびそのネットワーク経路を決定することを特徴とする請求項7に記載のデータ分散格納システム。
- 複数のストレージノードと、複数のホストサーバと、それぞれ異なる前記ストレージノードおよび前記ホストサーバに接続される複数のエッジスイッチと、前記複数のエッジスイッチ間を複数のネットワーク経路で接続するネットワークとを備えたデータ分散格納システムにおけるデータ分散格納方法であって、メタサーバが、多重化されたデータを同じデータが同じエッジスイッチに接続されたストレージノードに格納されないように複数のストレージノードに分散して格納するファイル格納ステップを含むことを特徴とするデータ分散格納方法。
- 前記ファイル格納ステップは、前記エッジスイッチと前記ストレージノードとの接続関係を示すエッジスイッチ構成情報を記憶するエッジスイッチ構成情報記憶手段を参照して、納対象となるファイルを複数に分割し、個々の部分データを多重化し、多重化した部分データが同じエッジスイッチに接続されたストレージノードに格納されないような配置を決定するレプリカ配置決定ステップと、該レプリカ配置決定ステップで決定された配置に従って、多重化された部分データを前記ストレージノードに格納し、前記ファイルを構成する部分データの前記ストレージノードへの配置状況をレプリカ配置記憶手段に記憶するレプリカ配置処理ステップとを含むことを特徴とする請求項11に記載のデータ分散格納方法。
- 前記メタサーバが、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードと要求元のホストサーバから当該ストレージノードへアクセスするネットワーク経路とを指定した取得情報を、要求元のホストサーバへ通知するレプリカ検索ステップと、前記ホストサーバが、前記メタサーバに対してファイル取得要求を送信し、その応答として通知される前記取得情報に基づいて前記ストレージノードをアクセスして部分データを取得するファイル取得ステップとを含むことを特徴とする請求項11または12に記載のデータ分散格納方法。
- 前記メタサーバが、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードのリストを要求元のホストサーバへ通知するレプリカ検索ステップと、前記ホストサーバが、前記メタサーバから通知されたリストに記載されたストレージノードをアクセスして部分データを取得するファイル取得ステップとを含むことを特徴とする請求項11または12に記載のデータ分散格納方法。
- 複数のストレージノードと、複数のホストサーバと、それぞれ異なる前記ストレージノードおよび前記ホストサーバに接続される複数のエッジスイッチと、前記複数のエッジスイッチ間を複数のネットワーク経路で接続するネットワークと、多重化されたデータを同じデータが同じエッジスイッチに接続されたストレージノードに格納されないように複数のストレージノードに分散して格納するメタサーバとを備えるデータ分散格納システムにおける前記メタサーバを構成するコンピュータを、
前記エッジスイッチと前記ストレージノードとの接続関係を示すエッジスイッチ構成情報を記憶するエッジスイッチ構成情報記憶手段を参照して、格納対象となるファイルを複数に分割し、個々の部分データを多重化し、多重化した部分データが同じエッジスイッチに接続されたストレージノードに格納されないような配置を決定するレプリカ配置決定手段と、
該レプリカ配置決定手段で決定された配置に従って、多重化された部分データを前記ストレージノードに格納し、前記ファイルを構成する部分データの前記ストレージノードへの配置状況をレプリカ配置記憶手段に記憶するレプリカ配置処理手段として機能させるためのプログラム。 - 前記コンピュータを、さらに、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードと要求元のホストサーバから当該ストレージノードへアクセスするネットワーク経路とを指定した取得情報を、要求元のホストサーバへ通知するレプリカ検索手段として機能させるための請求項15に記載のプログラム。
- 前記コンピュータを、さらに、前記ホストサーバからのファイル取得要求で要求されたファイルを構成する部分データを格納する複数の前記ストレージノードの中から負荷分散を考慮して1つのストレージノードを選択するレプリカ取得先選択手段として機能させるための請求項16に記載のプログラム。
- 前記コンピュータを、さらに、前記レプリカ取得先選択手段で選択されたストレージノードとファイル取得要求元のホストサーバとの間の複数のネットワーク経路を計算し、該複数のネットワーク経路の中から負荷分散を考慮して1つのネットワーク経路を選択するレプリカ取得ネットワーク経路決定手段として機能させるための請求項17に記載のプログラム。
- 前記コンピュータを、さらに、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードのリストを要求元のホストサーバへ通知するレプリカ検索手段として機能させるための請求項15に記載のプログラム。
- 複数のストレージノードと、複数のホストサーバと、それぞれ異なる前記ストレージノードおよび前記ホストサーバに接続される複数のエッジスイッチと、前記複数のエッジスイッチ間を複数のネットワーク経路で接続するネットワークと、多重化されたデータを同じデータが同じエッジスイッチに接続されたストレージノードに格納されないように複数のストレージノードに分散して格納するメタサーバとを備え、前記メタサーバは、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードと要求元のホストサーバから当該ストレージノードへアクセスするネットワーク経路とを指定した取得情報を、要求元のホストサーバへ通知するレプリカ検索手段を備えたデータ分散格納システムにおける前記ホストサーバを構成するコンピュータを、前記メタサーバに対してファイル取得要求を送信し、その応答として通知される前記取得情報に基づいて前記ストレージノードをアクセスして部分データを取得するファイル取得手段として機能させるためのプログラム。
- 複数のストレージノードと、複数のホストサーバと、それぞれ異なる前記ストレージノードおよび前記ホストサーバに接続される複数のエッジスイッチと、前記複数のエッジスイッチ間を複数のネットワーク経路で接続するネットワークと、多重化されたデータを同じデータが同じエッジスイッチに接続されたストレージノードに格納されないように複数のストレージノードに分散して格納するメタサーバとを備え、前記メタサーバは、前記ホストサーバからのファイル取得要求に応答して、要求されたファイルを構成する部分データが格納されている前記ストレージノードのリストを要求元のホストサーバへ通知するレプリカ検索手段を備えたデータ分散格納システムにおける前記ホストサーバを構成するコンピュータを、前記メタサーバに対してファイル取得要求を送信し、その応答として通知される前記リストに記載されたストレージノードをアクセスして部分データを取得するファイル取得手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009547948A JP5445138B2 (ja) | 2007-12-28 | 2008-10-23 | データ分散格納方法およびデータ分散格納システム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007339575 | 2007-12-28 | ||
JP2007339575 | 2007-12-28 | ||
JP2009547948A JP5445138B2 (ja) | 2007-12-28 | 2008-10-23 | データ分散格納方法およびデータ分散格納システム |
PCT/JP2008/069218 WO2009084314A1 (ja) | 2007-12-28 | 2008-10-23 | データ分散格納方法およびデータ分散格納システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009084314A1 true JPWO2009084314A1 (ja) | 2011-05-12 |
JP5445138B2 JP5445138B2 (ja) | 2014-03-19 |
Family
ID=40824037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009547948A Active JP5445138B2 (ja) | 2007-12-28 | 2008-10-23 | データ分散格納方法およびデータ分散格納システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5445138B2 (ja) |
WO (1) | WO2009084314A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101374655B1 (ko) | 2010-09-29 | 2014-03-24 | 네이버비즈니스플랫폼 주식회사 | 파일 볼륨을 청크 단위로 분산 처리하는 시스템 및 방법 |
JP5271392B2 (ja) * | 2011-07-19 | 2013-08-21 | 日本電信電話株式会社 | 分散ファイル管理システム、分散ファイル配置方法及びプログラム |
US10177907B2 (en) * | 2015-07-20 | 2019-01-08 | Sony Corporation | Distributed object routing |
CN110162441A (zh) * | 2019-04-16 | 2019-08-23 | 平安普惠企业管理有限公司 | 应用系统的集中监控方法及装置、电子设备、存储介质 |
CN114650198B (zh) * | 2022-03-31 | 2023-01-06 | 联想(北京)有限公司 | 确定存储架构的方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6976134B1 (en) * | 2001-09-28 | 2005-12-13 | Emc Corporation | Pooling and provisioning storage resources in a storage network |
US20030079018A1 (en) * | 2001-09-28 | 2003-04-24 | Lolayekar Santosh C. | Load balancing in a storage network |
US7421509B2 (en) * | 2001-09-28 | 2008-09-02 | Emc Corporation | Enforcing quality of service in a storage network |
JP2003316522A (ja) * | 2002-04-26 | 2003-11-07 | Hitachi Ltd | 計算機システムおよび計算機システムの制御方法 |
JP4441286B2 (ja) * | 2004-02-10 | 2010-03-31 | 株式会社日立製作所 | ストレージシステム |
-
2008
- 2008-10-23 WO PCT/JP2008/069218 patent/WO2009084314A1/ja active Application Filing
- 2008-10-23 JP JP2009547948A patent/JP5445138B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2009084314A1 (ja) | 2009-07-09 |
JP5445138B2 (ja) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI813743B (zh) | 在網路路由環境中的獨立資料儲存空間 | |
JP4237515B2 (ja) | ネットワークストレージ仮想化方法およびネットワークストレージシステム | |
JP4520802B2 (ja) | ストレージネットワーク管理サーバ、ストレージネットワーク管理方法、ストレージネットワーク管理用プログラムおよびストレージネットワーク管理システム | |
US6925504B1 (en) | Methods and apparatus for obtaining content from a content-originating device within a computerized network | |
US9071532B2 (en) | Method for discovery and load balancing of path computation elements based on transport plane link metrics | |
JP6438719B2 (ja) | 通信システム、および、通信プログラム | |
US20170097941A1 (en) | Highly available network filer super cluster | |
JP5445138B2 (ja) | データ分散格納方法およびデータ分散格納システム | |
JP2014044677A (ja) | 送信制御プログラム、通信ノード、および送信制御方法 | |
KR20130137897A (ko) | 비대칭형 클러스터 파일 시스템의 데이터 관리 방법 | |
JP5136585B2 (ja) | 情報通信システム、ノード装置、情報処理方法、及び情報処理プログラム | |
JP4815547B2 (ja) | データ同期システム、データ同期方法、及び同期管理サーバ | |
US9544371B1 (en) | Method to discover multiple paths to disk devices cluster wide | |
JP6011786B2 (ja) | 分散ストレージシステム、分散ストレージデータ配置制御方法及び分散ストレージデータ配置制御用プログラム | |
JP6540063B2 (ja) | 通信情報制御装置、中継システム、通信情報制御方法、および、通信情報制御プログラム | |
JP4309321B2 (ja) | ネットワークシステムの運用管理方法及びストレージ装置 | |
JPWO2004088931A1 (ja) | データ通信負荷分散制御プログラム、およびデータ負荷分散制御方法 | |
JP2013105227A (ja) | P2P型Webプロキシネットワークシステム | |
JP2003271440A (ja) | コンテンツ配信管理システム | |
JP5168333B2 (ja) | P2p端末及びコンテンツ配信システム | |
WO2020095982A1 (ja) | 制御装置及び制御方法 | |
CN108390780B (zh) | 用于处理信息的方法和装置 | |
JP5783008B2 (ja) | ストレージ装置、ストレージシステム、データ更新方法およびデータ管理プログラム | |
JP2009230686A (ja) | コンテンツ管理サーバ及びコンテンツ管理プログラム | |
JP2006003962A (ja) | ネットワークストレージシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5445138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |