WO2014069007A1

WO2014069007A1 - 記憶装置およびデータバックアップ方法

Info

Publication number: WO2014069007A1
Application number: PCT/JP2013/056682
Authority: WO
Inventors: 明文村田
Original assignee: 株式会社東芝
Priority date: 2012-10-30
Filing date: 2013-03-11
Publication date: 2014-05-08
Also published as: EP2916230A1; JP2014089608A; JP5342055B1

Abstract

　実施形態によれば、記憶装置は、分散データベースに適用される。記憶装置は、通信手段と、バックアップ手段と、を具備する。前記バックアップ手段は、前記分散データベースのデータバックアップ命令を前記通信手段が受信した場合、前記分散データベース全体の記憶領域を区分けして作成される各パーティションの配置を示すパーティショニング情報と、前記分散データベース用に記憶するデータとを、前記記憶装置内においてバックアップする。

Description

記憶装置およびデータバックアップ方法

　本発明の実施形態は、例えば分散データベースに好適なデータバックアップ技術に関する。

　データを大量に格納し、かつ、データの書き込み／読み出しを高速に処理するためのストレージシステムが種々開発されている。この種のストレージシステムにおいては、データを保全するためのデータバックアップが非常に重要である。

特開２００４－１３３６７号公報

　分散データベースは、複数のノードにデータを分散し、並列度を上げることで、データの書き込み／読み出しの性能を向上させるストレージシステムである。通常、分散データベースに対してデータの書き込み／読み出しを要求するホストマシンは、分散データベースを構成する各ノードを意識することはない。なお、ここでは、分散データベースに対してデータの書き込み／読み出しを要求するマシンをホストマシンと称しており、分散データベースの管理を司るマシンを表すものではない。

　ここで、いずれかのホストマシンが、分散データベースのデータバックアップを実行する場合を考える。この場合、このホストマシンから分散データベースに対してデータの読み出しが大量に要求されることになり、分散データベース内部では、各ノードが一斉にデータの読み出し処理を実行することになる。その結果、このホストマシンと分散データベースとの間、つまり、ホストマシンと（並列接続された）複数のノードとの間のデータ通信路がボトルネックとなり、データバックアップ時には、分散データベースの性能が限定されてしまっていた。

実施形態の記憶装置をノードとして適用した分散データベースの一構築例を示す図。実施形態の記憶装置をノードとして適用した分散データベースにおけるデータバックアップの基本原理について説明するための図。実施形態の記憶装置が備えるバックアップに起因したパフォーマンスの低下を防止する仕組みを説明するための図。実施形態の記憶装置をノードとして適用した分散データベースにおけるデータバックアップの手順を示すフローチャート。実施形態の記憶装置をノードとして適用した分散データベースにおけるデータの書き込み／読み出しの手順を示すフローチャート。

　以下、実施の形態について図面を参照して説明する。

　図１は、本実施形態の記憶装置をノード１０として適用した分散データベース１の一構築例を示す図である。図１に示すように、分散データベース１は、データ通信路Ａに接続された複数のノード１０によって構成される。なお、分散データベース１の構成方法として、（ａ）複数のノード１０の中のいずれか１つがマスタとなって分散データベース１全体の制御を司る、（ｂ）複数のノード１０が同等の立場で予め定められた規則に沿って分散データベース１の一員として自立的に動作する、（ｃ）複数のノード１０とは別に分散データベース１全体の制御を司る上位ノードを設ける等、種々の方法を採用し得るが、後述するデータバックアップの仕組みは、いずれの方法にも限定されない。

　いま、分散データベース１に対してホストマシンからデータの読み出しが要求されたと想定する。上記（ａ）の場合、ホストマシンからの要求は、マスタとなっているノード１０によって受け付けられ、そのデータを保持するノード１０が判断されて、（自ノードでなければ）該ノード１０に伝達される。上記（ｂ）の場合、各ノード１０が、ホストマシンからの要求を受け付け、そのデータが自ノードに保持されるデータか否かを判断し、自ノードに保持されるデータであると判断したいずれか１つのノード１０が、その読み出し処理を実行する。また、上記（ｃ）の場合、ホストマシンからの要求は、上位ノードによって受け付けられ、そのデータを保持するノード１０が判断されて、該ノード１０に伝達される。

　また、図１に示すように、ノード１０は、通信＆Ｉ／Ｏコントローラ１１、ストレージデバイス１２およびキャッシュメモリ１３を具備している。通信＆Ｉ／Ｏコントローラ１１は、ノード１０の制御を司るデバイスであり、第１に、他のノード１０との間の通信を実行する機能を有する。

　各ノード１０は、分散データベース１全体のステータス情報やパーティショニング情報を保有しており、通信＆Ｉ／Ｏコントローラ１１の通信機能により、これらの情報を分散データベース１内において同期させている。パーティショニング情報は、分散データベース１全体の記憶領域を区分けして作成される各パーティションがどのノード１０に配置されているかを示す情報である。

　また、通信＆Ｉ／Ｏコントローラ１１は、第２に、ストレージデバイス１２およびキャッシュメモリ１３に対するデータ入出力を制御する機能を有する。

　より具体的には、通信＆Ｉ／Ｏコントローラ１１は、キャッシュメモリ１３をキャッシュとして利用しながらストレージデバイス１２に対するデータの書き込み／読み出しを実行する。通信＆Ｉ／Ｏコントローラ１１は、データの書き込みについて、データがキャッシュメモリ１３に書き込まれた時点で書き込み完了を回答するライトバック、データがストレージデバイス１２に書き込まれた時点で書き込み完了を回答するライトスルーのいずれも可能である。また、通信＆Ｉ／Ｏコントローラ１１は、キャッシュメモリ１３上の内容を変化させずにストレージデバイス１２に対するデータの書き込み／読み出しを実行する特殊モードを有する。キャッシュメモリ１３上の内容を変化させずにストレージデバイス１２に対するデータの書き込み／読み出しを実行する方法としては、（ａ）キャッシュメモリ１３を一切利用しない、（ｂ）読み出し対象のデータがキャッシュメモリ１３に存在した場合における当該データの読み出し時のみ利用する、等を採用し得る。

　次に、図２を参照して、本実施形態の記憶装置をノード１０として適用した分散データベース１におけるデータバックアップの基本原理について説明する。

　図２中、記憶領域１００は、ストレージデバイス１２とキャッシュメモリ１３とによって構成されるノード１０の記憶領域である。ノード１０の記憶領域１００には、分散データベース１用のデータ領域１０１が確保され、また、前述のパーティショニング情報１０２およびステータス情報１０３が保持される。通信＆Ｉ／Ｏコントローラ１１は、パーティショニング情報１０２に基づき、ホストマシンが発行するデータの書き込み／読み出し要求（Ｉ／Ｏリクエスト）に応答してデータ領域１０１に対するアクセスを実行する。

　いま、あるホストマシンが分散データベース１のデータバックアップ要求（バックアップリクエスト）を発行したと想定する。例えば、いずれかのノード１０がマスタとなって分散データベース１全体の制御を司っている場合、このデータバックアップ要求は、マスタとなっているノード１０によって受け付けられた後、通信＆Ｉ／Ｏコントローラ１１の通信機能により、分散データベース１内の他のノード１０に伝達される。

　データバックアップ要求を受信すると、各ノード１０では、通信＆Ｉ／Ｏコントローラ１１が、まず、ステータス情報１０３を稼働状態からバックアップ中状態に更新する。なお、データバックアップ中に（例えばデータバックアップ要求を発行したホストマシンとは別のホストマシンから）データの書き込み／読み出し要求を受けた場合、分散データベース１は、データの読み出しについては即時的に実行し、一方、データの書き込みについてはバックアップ完了後に実行する。

　ステータス情報１０３をバックアップ中状態に更新すると、通信＆Ｉ／Ｏコントローラ１１は、パーティショニング情報１０２に基づき、データ領域１０１のバックアップを自ノード１０の記憶領域１００内に取得する（図２の符号１１１）。また、通信＆Ｉ／Ｏコントローラ１１は、この時、パーティショニング情報１０２のバックアップも自ノード１０の記憶領域１００内に取得する（図２の符号１１２）。通信＆Ｉ／Ｏコントローラ１１は、データ領域１０１をバックアップする際、データの圧縮を実行しても良い。このデータ領域１０１のバックアップおよびパーティショニング情報１０２のバックアップによって、（図２の符号１１１，符号１１２を格納する）バックアップファイルが各ノード１０に作成される。

　前述したように、通信＆Ｉ／Ｏコントローラ１１は、他のノード１０との間の通信を実行する機能を有している。通信＆Ｉ／Ｏコントローラ１１は、この通信機能により、分散データベース１内の全ノード１０のバックアップ完了を確認したら、バックアップ完了のステータス情報をバックアップファイルに追記する。そして、通信＆Ｉ／Ｏコントローラ１１は、分散データベース１内の全ノード１０でバックアップ完了のステータス情報がバックアップファイルに追記されたことを確認すると、ステータス情報１０３をバックアップ中状態から稼働状態に更新する。このバックアップ完了のステータス情報が追記されていることをもって、そのバックアップファイルが有効なファイルであると判断することが可能となる。

　つまり、本実施形態の記憶装置をノード１０として適用した分散データベース１においては、各ノード１０が、分散データベース１用のデータ領域１０１とパーティショニング情報１０２とのバックアップを自ノード１０内の記憶領域１００内に取得することで、分散データベース１全体のバックアップを取得できる。データ通信路Ａを用いたバックアップデータの転送が不要となるので、データ通信路Ａがボトルネックとなることがない。よって、分散データベース１のデータバックアップを高速化することが可能となる。言うまでも無く、通信＆Ｉ／Ｏコントローラ１１は、バックアップしたデータを用いて、ノード１０をバックアップ時の状態に復元するリストア機能を有している。

　いま、あるホストマシンがバックアップファイルを用いた分散データベース１の復旧要求を発行したと想定する。例えば、いずれかのノード１０がマスタとなって分散データベース１全体の制御を司っている場合、この復旧要求は、マスタとなっているノード１０によって受け付けられた後、通信＆Ｉ／Ｏコントローラ１１の通信機能により、分散データベース１内の他のノード１０に伝達される。

　復旧要求を受信すると、各ノード１０では、通信＆Ｉ／Ｏコントローラ１１が、ステータス情報１０３を稼働状態からメンテナンス状態に更新する。このメンテナンス状態中において、分散データベース１全体として、（各ノード１０で管理される）バックアップファイルの完全性が確認される。より具体的には、各ノード１０のバックアップファイルにバックアップ完了のステータス情報が追記されていること、パーティショニング情報１０２に記載されている全ノード１０が存在すること、等が確認される。

　バックアップファイルの完全性に問題が無いことが確認できたら、各ノード１０の通信＆Ｉ／Ｏコントローラ１１は、ステータス情報１０３を復旧中状態に更新し、バックアップファイルからのデータの読み出しを開始する。そして、分散データベース１内の全ノード１０でバックアップファイルからのデータの読み出し、つまりデータの復旧が完了したら、各ノード１０の通信＆Ｉ／Ｏコントローラ１１は、ステータス情報１０３を稼働状態に更新し、マスタとなっているノード１０は、ホストマシンからのデータアクセス要求の受け付けを再開する。

　なお、各ノード１０内において取得されたバックアップを一時的なバックアップとして位置づけて、当該各ノード１０内において取得されたバックアップを順次読み出し、正式なバックアップとして例えば磁気テープで保管するといった運用も可能である。通信＆Ｉ／Ｏコントローラ１１のリストア機能は、例えば磁気テープで保管されたバックアップデータのような、外部入力されたバックアップデータを用いてノード１０を復元することも可能である。

　また、データバックアップ中にデータの書き込み要求を受けた場合、分散データベース１内の全ノード１０のバックアップが完了した時点で当該データの書き込み要求を処理する仕様としてもよいし、また、分散データベース１内の全ノード１０のバックアップが完了する前であっても、自ノード１０内へのバックアップが完了したノード１０については当該データの書き込み要求を処理する仕様としてもよい。

　ところで、ストレージデバイス１２のキャッシュとして利用されるキャッシュメモリ１３には、通常、ストレージデバイス１２に書き込まれたデータやストレージデバイス１２から読み出されたデータのうち、よりリクエストの新しいデータが格納される。換言すれば、通信＆Ｉ／Ｏコントローラ１１は、最も古くリクエストされたデータに代えて（キャッシュアウト）新たにリクエストされたデータを格納すべくキャッシュメモリ１３を管理する。

　しかしながら、そうすると、分散データベース１のバックアップ後、キャッシュメモリ１３には、バックアップのために読み出し／書き込みが行われた大量のデータで埋め尽くされることとなる。即ち、バックアップ前のデータが殆どキャッシュアウトされてしまっているために、バックアップ直後の分散データベース１のパフォーマンスが一時的に低下する。

　そこで、本実施形態の記憶装置は、バックアップに起因したパフォーマンスの低下を防止する仕組みを備える。図３は、実施形態の記憶装置が備えるバックアップに起因したパフォーマンスの低下を防止する仕組みを説明するための図である。

　図３中、キャッシュ領域１５０は、ノード１０の記憶領域１００のうち、キャッシュメモリ１３に対応する領域である。前述したように、通信＆Ｉ／Ｏコントローラ１１は、キャッシュメモリ１３上の内容を変化させずにストレージデバイス１２に対するデータの書き込み／読み出しを実行する特殊モードを有している。そして、通信＆Ｉ／Ｏコントローラ１１は、バックアップのためのストレージデバイス１２からのデータの読み出しおよびデータの書き込みを、この特殊モードで実行する（図３のａ２）。

　これにより、キャッシュメモリ１３がバックアップ前の状態に維持されるので、バックアップ直後の分散データベース１のパフォーマンスが一時的に低下することを防止することができる。なお、このキャッシュメモリ１３の取扱いに関する手法は、分散データベース１にノード１０として適用される場合に限定されず、単独で使用されている場合におけるバックアップ取得時にも有用である。

　また、このキャッシュメモリ１３の取扱いに関する手法は、前述した、各ノード１０内において取得されたバックアップを一時的なバックアップとして位置づけて、当該各ノード１０内において取得されたバックアップを順次読み出し、正式なバックアップとして例えば磁気テープで保管するといった運用を行う場合において、バックアップデータの読み出し時に応用することができる。即ち、通信＆Ｉ／Ｏコントローラ１１は、バックアップデータの読み出し要求を受けた場合、当該バックアップデータの読み出しを、上記特殊モードで実行する。

　図４は、本実施形態の記憶装置をノード１０として適用した分散データベース１におけるデータバックアップの手順を示すフローチャートである。

　分散データベース１内の各ノード１０の通信＆Ｉ／Ｏコントローラ１１は、まず、ステータス情報１０３を“バックアップ中”に設定する（ブロックＡ１）。ステータス情報１０３を“バックアップ中”に設定したら、通信＆Ｉ／Ｏコントローラ１１は、（キャッシュを変化させない特殊モードで）データ領域１０１のバックアップを取得する（ブロックＡ２）。また、この時、通信＆Ｉ／Ｏコントローラ１１は、（キャッシュを変化させない特殊モードで）パーティショニング情報１０２のバックアップも併せて取得する（ブロックＡ３）。

　通信＆Ｉ／Ｏコントローラ１１は、分散データベース１内の全ノード１０でバックアップが完了したか否かを調べ（ブロックＡ４）、全ノード１０のバックアップ完了を確認したら（ブロックＡ４のＹＥＳ）、ステータス情報１０３を“稼働”に設定する（ブロックＡ５）。

　また、図５は、実施形態の記憶装置をノード１０として適用した分散データベース１におけるデータの書き込み／読み出しの手順を示すフローチャートである。

　分散データベース１内の各ノード１０の通信＆Ｉ／Ｏコントローラ１１は、まず、ステータス情報１０３は“稼働”を示しているか否かを調べる（ブロックＢ１）。“稼働”を示している場合（ブロックＢ１のＹＥＳ）、通信＆Ｉ／Ｏコントローラ１１は、（通常通りにキャッシュを利用しながら）要求されたデータの書き込み／読み出しを実行する（ブロックＢ２）。

　一方、“バックアップ中”を示している場合（ブロックＢ１のＮＯ）、通信＆Ｉ／Ｏコントローラ１１は、その要求がデータの読み出しか否かを調べる（ブロックＢ３）。データの読み出しの場合（ブロックＢ３のＹＥＳ）、通信＆Ｉ／Ｏコントローラ１１は、（通常通りにキャッシュを利用しながら）要求されたデータの読み出しを実行する（ブロックＢ４）。また、データの書き込みの場合には（ブロックＢ３のＮＯ）、通信＆Ｉ／Ｏコントローラ１１は、自ノード１０におけるバックアップが完了しているか否かを調べる（ブロックＢ５）。

　バックアップが完了していたならば（ブロックＢ５のＹＥＳ）、通信＆Ｉ／Ｏコントローラ１１は、（通常通りにキャッシュを利用しながら）要求されたデータの書き込みを実行する（ブロックＢ６）。完了していなければ（ブロックＢ５のＮＯ）、通信＆Ｉ／Ｏコントローラ１１は、バックアップ完了を待機し、バックアップ完了後、当該要求されたデータの書き込みを実行する。

　以上のように、本実施形態の記憶装置によれば、分散データベースのデータバックアップを高速に実施すること等が可能となる。

　なお、本実施形態のデータバックアップの手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　分散データベースに適用される記憶装置であって、
　通信手段と、
　前記分散データベースのデータバックアップ命令を前記通信手段が受信した場合、前記分散データベース全体の記憶領域を区分けして作成される各パーティションの配置を示すパーティショニング情報と、前記分散データベース用に記憶するデータとを、前記記憶装置内においてバックアップするバックアップ手段と、
　を具備する記憶装置。
　キャッシュメモリと、
　前記キャッシュメモリ上のデータの入れ替えを行いながらデータの書き込み／読み出しを実行する第１のデータ入出力手段と、
　前記キャッシュメモリ上のデータの入れ替えを行わずにデータの書き込み／読み出しを実行する第２のデータ入出力手段と、
　を具備し、
　前記バックアップ手段は、前記記憶装置内におけるバックアップを前記第２のデータ入出力手段により実行する、
　請求項１に記載の記憶装置。
　前記バックアップ手段により前記記憶装置内にバックアップされた前記パーティショニング情報および前記分散データベース用のデータの転送命令を前記通信手段が受信した場合、前記パーティショニング情報および前記分散データベース用のデータの読み出しを前記第２のデータ入出力手段により実行するバックアップデータ処理手段を具備する請求項２に記載の記憶装置。
　前記バックアップ手段は、前記分散データベースのデータバックアップ完了が前記通信手段による通信によって確認された後、前記パーティショニング情報および前記分散データベース用のデータを格納するバックアップファイルにデータバックアップ完了を示すステータス情報を追記する請求項１に記載の記憶装置。
　前記バックアップ手段によるバックアップ中、データの読み出し要求を受けた場合は当該データの読み出しを即時的に実行し、データの書き込み要求を受けた場合は当該データの書き込みを前記バックアップ手段によるバックアップ完了後に実行する制御手段を具備する請求項１に記載の記憶装置。
　前記バックアップ手段は、前記分散データベース用のデータを圧縮してバックアップする請求項１に記載の記憶装置。
　前記バックアップ手段によりバックアップされた前記パーティショニング情報および前記分散データベース用のデータを復元するリストア手段を具備する請求項１に記載の記憶装置。
　キャッシュ領域と、
　データ記憶領域と、
　前記キャッシュ領域上のデータの入れ替えを行いながら前記データ記憶領域に対するデータの書き込み／読み出しを実行する第１のデータ入出力手段と、
　前記キャッシュ領域上のデータの入れ替えを行わずに前記データ記憶領域に対するデータの書き込み／読み出しを実行する第２のデータ入出力手段と、
　前記データ記憶領域に記憶されたデータの複製を前記第２のデータ入出力手段により前記データ記憶領域内に作成するバックアップ手段と、
　を具備する記憶装置。
　前記バックアップ手段は、前記データの複製を圧縮データとして作成する請求項７に記載の記憶装置。
　前記バックアップ手段により作成された複製データを用いて前記データ記憶領域のデータを復元するリストア手段を具備する請求項７に記載の記憶装置。
　分散データベースに適用される記憶装置のデータバックアップ方法であって、
　前記分散データベースのデータバックアップ命令を受けた場合、前記分散データベース全体の記憶領域を区分けして作成される各パーティションの配置を示すパーティショニング情報と、前記分散データベース用に記憶するデータとを、前記記憶装置内においてバックアップするデータバックアップ方法。
　キャッシュ上の内容を変化させずに前記記憶装置内におけるバックアップを実行する請求項１１に記載のデータバックアップ方法。
　前記分散データベースのデータバックアップ完了が確認された後、前記パーティショニング情報および前記分散データベース用のデータを格納するバックアップファイルにデータバックアップ完了を示すステータス情報を追記する請求項１１に記載のデータバックアップ方法。