WO2016147279A1

WO2016147279A1 - データ管理制御プログラム、データ管理制御装置、及びデータ管理制御方法

Info

Publication number: WO2016147279A1
Application number: PCT/JP2015/057598
Authority: WO
Inventors: 村田美穂; 今村信貴; 高橋秀和
Original assignee: 富士通株式会社
Priority date: 2015-03-13
Filing date: 2015-03-13
Publication date: 2016-09-22

Abstract

　コンピュータが、複数のデータを格納する記憶装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、ペアへのアクセス頻度に基づくデータ間の関連度を断続的に監視し、断続的に監視された複数の前記ペアの関連度の分布の傾向の経時的変化に基づいて、関連性のあるデータ同士をグループにして配置するデータ配置処理の実行を制御する。

Description

データ管理制御プログラム、データ管理制御装置、及びデータ管理制御方法

　本明細書は、データ管理制御プログラム、データ管理制御装置、及びデータ管理制御方法に関する。

　データ格納システムは、大量のデータをディスク等のストレージに格納する。ディスク等の低速な記憶装置は、単位時間当たりの処理能力（スループット）が低いため（高コスト）、キャッシュ技術が利用されている。

　キャッシュ技術は、処理速度の速い制御装置が低速の記憶装置からデータをより速く読み出す場合にメモリを使用して処理時間を短縮する技術である。制御装置が低速の記憶装置からデータを読み出した場合、その読み出したデータを一時的にメモリに保持しておくことで、次回からは低速の記憶装置より読み書きが早いメモリからデータを読み出せる。

　ところが、メモリの容量を超えて大量データを処理する場合、ディスクへのアクセスが多発することで、データ処理性能が大きく劣化する。

　そこで、キャッシュ技術の１つとして、アクセス履歴に基づき、関連性のあるデータを同一のセグメントに取りまとめ、データの再配置を行う技術（以降、データ再配置技術）がある（例えば、特許文献１）。

国際公開第２０１３／１１４５３８号特開２００９－２７７１４７号公報特開２００３－１４０８３６号公報特許２００３－５９２０号

　図１は、データ再配置技術によるデータペア毎の関連度とデータ配置について説明するための図である。データ再配置技術では、データのアクセス履歴（どういう順番でどのデータがアクセスされたかという履歴）から、データのペア毎に、それらが同時または連続してアクセスされた頻度（関連性情報）が記録される。

　データのペアとは、連続してアクセスされた２つのデータをいう。今アクセスされたデータと直前にアクセスされたデータをペアとし、そのペアが出現した頻度が記録される。

　例えば、図１（Ａ）に示すように、データＡ，Ｂ，Ｃ，Ｄ，Ｅについて、Ａ→Ｂ→Ｃ→Ａ→Ｂ→Ｄ→Ｅ→Ｃ→Ａの順でデータにアクセスされたとする。この場合のデータのペアとそのアクセス頻度（出現頻度、すなわち関連性情報）は、図１（Ｂ）に示すように、Ａ→Ｂ（２回）、Ｂ→Ｃ（１回）、Ｃ→Ａ（２回）、Ｂ→Ｄ（１回）、Ｄ→Ｅ（１回）、Ｅ→Ｃ（１回）である。アクセス頻度が高いペアのデータは、関連性が強いと考えられる。

　データ間の関連性をグラフで表すと、データＡ，Ｂ，Ｃ，Ｄ，Ｅは、図１（Ｃ）に示すような構造になる。

　これらのデータを２つのセグメントに配置しようとすると、図１（Ｄ）に示すように、データＡ、Ｂ、Ｃのグループと、データＤ、Ｅのグループに分けられる。このグループに基づいて、データＡ，Ｂ，Ｃ，Ｄ，Ｅは、セグメント毎に再配置される。２つのセグメントをまたぐ関連度が小さくなるよう、かつ各セグメントに属するデータ数がほぼ均等になるように分割される。ここで、セグメントとは、関連性が認められるデータの集合であり、ディスクに対する読み書きの最小単位である。

　このように、データのペア間のある一定期間の累積の関連性の強さに基づいて、関連性のあるデータが同一のセグメントに取りまとめられ、データの再配置が行われる。

　上述のデータ再配置技術は、データの書き込み及び読み出しに関連する処理であり、かつ、計算に利用できるメモリ等のリソースも制約されている。このようなことから、継続した処理要求（以下、「リクエスト」と称する）の内容の中の一部の特性（たとえば、上述のデータ再配置技術では、データペアそれぞれが、どれだけ連続してアクセスしてきたかという累積値）を利用する形となっている。

　継続したリクエストの内容の時系列的な特性の傾向（トレンド）が一定であれば、上記のデータ再配置技術によりディスク・メモリ等の利用効率は向上するが、継続したリクエストのトレンドが一定とは限らない。

　上記のデータ再配置技術では、所定期間の特性を、その累積値で管理しているため、その所定期間でのトレンドの変化に対応することができない。そのため、その所定期間にて継続したリクエストのトレンドが変動し、変動後の継続したリクエストのトレンドが変動前のトレンドと大きく変化しても、トレンドの変化に関係なくデータ再配置が行われる。そのため、現時点での継続したリクエストのトレンドに適応したデータ配置処理が行われないため、ディスク・メモリ等の利用効率が却って悪化し、読み出し性能が低下することとなる。

　本発明の一側面では、データアクセス状況の傾向の変化に応じた読み出し効率のよいデータ配置処理を可能とする技術を提供する。

　本発明の一側面に係るデータ管理制御プログラムは、コンピュータに、次の処理を実行させる。コンピュータは、複数のデータを格納する記憶装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度を断続的に監視する。コンピュータは、断続的に監視された複数の前記ペアの前記関連度の分布の傾向の経時的変化に基づいて、関連性のある前記データ同士をグループにして配置するデータ配置処理の実行を制御する。

　本発明の一側面によれば、データアクセス状況の傾向の変化に応じた読み出し効率のよいデータ配置処理を可能とする。

データ再配置技術によるデータペア毎の関連度とデータ配置について説明するための図である。（Ａ）データペアの実際の関連度の変化と、（Ｂ）データ再配置技術において保持されるデータ間の関連度の累積値を説明するための図である。本実施形態におけるデータ管理制御装置の一例を示す。本実施形態における全体の処理を説明するための図である。本実施形態における情報処理システムの一例を示す。本実施形態におけるサーバの一例を示す。本実施形態におけるデータ・セグメント対応テーブルの一例を示す。本実施形態における関連性管理テーブルの一例を示す。本実施形態におけるデータ集合の性質を表す指数について説明するための図である。本実施形態（実施例１）におけるデータ配置処理を停止し、再開する場合のパターンを説明するための図である。本実施形態（実施例１）におけるデータ配置処理を制御するフローを示す。本実施形態（実施例１）における実行フラグに応じたデータ配置処理の実行フローを示す。本実施形態（実施例２）におけるデータ配置処理を抑制／継続／促進するパターンを説明するための図である。本実施形態（実施例２）におけるデータ配置処理を制御するフローを示す。本実施形態（実施例２）における、設定された周期で行われるデータ配置処理の実行フローを示す。

　上述の課題について更に詳述する。
　図２は、（Ａ）データペアの実際の関連度の変化と、（Ｂ）データ再配置技術において保持されるデータ間の関連度の累積値を説明するための図である。

　図２（Ａ）では、データペアＡ－Ｂ，Ｂ－Ｃ，Ｃ－Ｄの時間経過に伴う実際の関連度の変化を示す。図２（Ａ）において、時間０の時点で、データＡ，Ｂ，Ｃ，Ｄは、たまたまデータＡ，Ｂ，Ｃを含むセグメントと、たまたまデータＤを含むセグメントに配置されているとする。ここで、再配置のタイミングが時間Ｔであるとする。

　時間Ｔまでに、データペアへのアクセス頻度、すなわちデータ間の関連度が変化し、データＡ，Ｂ間の関連度は低下し、データＣ，Ｄ間の関連度は上昇している。なお、データＢ，Ｃ間の関連度にはほとんど変化はない。

　データペアＡ，Ｂと、データペアＣ－Ｄとはデータ間の関連性の傾向（トレンド）が変化している。このようにトレンドが変化すると、今まで通りの配置が良いとは限らない。トレンドが変化した場合、再配置処理を一旦止め、傾向をつかむためにしばらく様子を見ることが考えられる。

　図２（Ｂ）は、図２（Ａ）のデータペアＡ－Ｂ，Ｂ－Ｃ，Ｃ－Ｄの時間経過に伴う、データ再配置技術において保持される関連度の累積値を示す。

　上記データ再配置技術では、リソース浪費を防ぐため、時間Ｔにおける関連度を逐次監視していないため、時間０～Ｔ間のデータ間の関連度の変化をウォッチングすることはできない。

　一方、データ再配置技術では、その関連性のデータがアクセスされたアクセス数の累積値が保持されている。しかしながら、図２（Ｂ）に示すように、時間０～Ｔ間のデータ間の累積値からは、トレンドの変化を捉えることができない。したがって、再配置処理を一旦止めても、関連度の傾向をつかむことができない。

　また、トレンドが変化してもデータ配置制御を継続すると、読み出し性能向上の効果が低いのにコストがかかる処理を行い、かえって読み出し性能が低下することがある。ここで、コストについて説明する。データ再配置によってキャッシュ上のセグメントの内容が変わるため、必ずディスクに書き戻す必要がある。再配置しない場合に比べて、その書き戻しのコストが再配置処理の新たなコストになる。

　データ再配置技術では、以前はあるデータペアの関連度が高かったが、現在は別のデータペアの関連度の方が高くなったというトレンドの変化があった場合に、関連度の累積値に基づいてデータ再配置を行うとする。この場合、現在は存在しない関連度に基づいてデータ配置が決定されることになる。

　しかしながら、この場合、キャッシュヒット率、すなわち読み出し性能が下がってしまう可能性がある。したがって、トレンドの変化に対応せずにデータ再配置を行うと、効果が低いのにコストがかかる処理を行い、かえって読み出し性能が低下することになる。そのため、キャッシュヒット率がある程度以上向上しないと、むしろ再配置した方が読み出し性能が下がる場合がある。

　そこで、連続してリクエストが届くデータ処理システムにおいて、データアクセス効率化のために、以下を行うことが考えられる。まず、データ処理システムは、リクエストの時間的連続性に基づいて、データ配置処理を行う場合、ある期間のリクエスト全体の性質を捉え、その時間推移による変化を観測する。そして、データ処理システムは、データ間の関連度のトレンドの変化を検知し、その変化をデータ配置処理の制御に反映する。

　しかしながら、上記データ処理システムの場合では、データ配置処理が直接トレンドの変化を検知しても、データ配置の決定には、その検知した変化を直接活用することができない。

　そこで、本実施形態では、データ間の関連度のトレンドの変化に応じてデータ配置処理自体を制御する。より具体的には、連続して到着するリクエストの単位時間当たりの分布の時間推移を監視し、その監視結果に基づいてデータ配置処理を制御する。

　図３は、本実施形態におけるデータ管理制御装置の一例を示す。データ管理制御装置１は、監視部２、実行制御部３を含む。

　監視部２は、複数のデータを格納する記憶装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度を監視する。より具体的には、監視部２は、断続的に監視を行う。監視部２の一例として、後述する関連性抽出部３２が挙げられる。

　実行制御部３は、監視された複数のペアの関連度の経時的変化に基づいて、データ配置処理４の実行を制御する。ここで、データ配置処理４は、関連性のあるデータ同士をグループにして配置する処理である。より具体的には、実行制御部３は、関連度の分布の傾向の継時的変化に基づいて、データ配置処理の実行を制御する。実行制御部３の一例として、後述する配置制御部３６が挙げられる。

　このように構成することにより、データアクセス状況の傾向の変化に応じた読み出し効率のよいデータ配置処理を可能とする。

　実行制御部３は、単位時間毎に、複数のペアの関連度の分布を取得する。そして、実行制御部３は、連続する単位時間のそれぞれにおいて取得された分布間の変化量が閾値以上である場合、データ配置処理を停止させる。一方、実行制御部３は、その分布間の変化量が閾値より小さい場合、データ配置処理を実行させる。

　このように構成することにより、関連度の傾向の変化に応じて、データの再配置処理を行うことができるので、読み出し性能の劣化につながるデータ配置処理を抑制できる。

　また、実行制御部３は、単位時間毎に、複数のペアの関連度の分布を取得する。そして、実行制御部３は、連続する単位時間のそれぞれにおいて取得された分布間の変化量に応じて、前記データ配置処理の実行周期を変更する。具体的には、実行制御部３は、分布間の変化量が大きいほど、データ配置処理の実行周期を長くする。

　このように構成することにより、関連度の傾向の変化に応じて、データの再配置処理を行うことができるので、性能劣化につながるデータ配置処理を抑制できると共に、性能向上が見込める際にはデータ配置処理を促進することができる。

　以下では、本実施形態について、更に詳述する。
　図４は、本実施形態における全体の処理を説明するための図である。サーバ装置１１では、クライアント装置１７からのリクエストを受けると、入出力管理処理１４によりメモリ１５またはディスク１６にアクセスされる。

　配置制御処理１２は、クライアント１７からのリクエストの分布の時間推移を監視する。すなわち、配置制御処理１２は、アクセス履歴に基づいて、データペア毎の関連性情報を蓄積する。

　配置制御処理１２は、その蓄積した関連性情報に基づいて、データ集合の性質を表す指標（関連度ベクトル）を蓄積する。配置制御処理１２は、所定の時間間隔で、その時点の関連度ベクトルの変化の程度に基づいて、データ配置処理１３を制御する。

　配置処理１３は、リクエスト自体の時間的連続性を監視する。すなわち、配置処理１３は、アクセス履歴に基づいて、データペア毎の関連性情報を蓄積する。

　配置処理１３は、配置制御処理１２による制御に基づいて、所定の時間間隔で、その時点のデータペア毎の関連性情報からデータ配置を決定し、データ再配置処理を実行する。

　以下に、本実施形態の実施例の詳細について説明する。
　図５は、本実施形態における情報処理システムの一例を示す。情報処理システムにおいて、サーバ装置（以下、「サーバ」と称する）２１は、通信ネットワーク（以下、「ネットワーク」と称する）２６を介して、情報処理装置の一例であるクライアント２５と接続されている。クライアント２５は、サーバ２１にデータの読み込みや書込み等のアクセス要求（以下、「リクエスト」と称する）を行う。

　サーバ２１は、制御装置２２、メモリ装置（以下、「メモリ」と称する）２３、ストレージ装置（ディスク）２４を含む。制御装置２２は、中央演算処理装置（ＣＰＵ）等のプロセッサである。

　ストレージ装置２４は、例えば、ハードディスクドライブ（ＨＤＤ）等のディスク装置である。以下では、ストレージ装置２４をディスク２４と称する。

　メモリ２３は、ディスク２４に比して高速にアクセス可能な記憶装置である。メモリ２３としては、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等がある。

　サーバ２１は、上記の構成に加えて、ＢＩＯＳ（Basic Input/Output System）を格納したＲＯＭ、プログラムメモリ等を有する。制御装置２２が実行するプログラムは、ネットワーク２６を介して取得されてもよいし、可搬型メモリやＣＤ－ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体がサーバ２１に装着されることにより取得されてもよい。制御装置２２が実行するプログラムには、本実施形態で説明する処理を実行するプログラムも含む。

　図６は、本実施形態におけるサーバの一例を示す。上述の通り、サーバ２１は、制御装置２２、メモリ２３、ディスク２４を含む。メモリ２３は、ディスク２４から読み出された複数のセグメントをキャッシングして、一時的に格納する領域（以下、「キャッシュ領域」と称する）４１を含む。キャッシュ領域４１の容量が不足した場合、Least Recently Used（ＬＲＵ）方式や、least frequently used（ＬＦＵ）方式等のアルゴリズムを用いて、キャッシュ領域４１からいずれかのセグメントが抽出され、ディスク２４に書き戻される。

　メモリ２３は、データ・セグメント対応テーブル４２、関連性管理テーブル４３を保持する。

　データ・セグメント対応テーブル４２は、データと、そのデータの配置先となるセグメントとの対応関係を示す情報を格納する。

　関連性管理テーブル４３は、所定時間間隔毎の、各データペアへのアクセス回数（アクセス頻度（関連度））、すなわち関連性情報を格納する。

　制御装置２２は、本実施形態に係るプログラムを実行することにより、入出力管理部３１、関連性抽出部３２、再配置決定部３３、再配置処理部３４、関連度ベクトル算出部３５、配置制御部３６として機能する。

　入出力管理部３１は、クライアント２５等の要求元から入力されたリクエストに応じてメモリ２３を検索し、メモリ２３にリクエストで指定されたデータがなければさらにディスク２４を検索し、リクエストで指定されたデータを要求元に送信する。なお、リクエストは、クライアント２５が送信するだけでなく、サーバ２１において実行されているプロセスその他の主体がリクエストの発行元となる場合もあり得る。また、入出力装置がサーバ２１に接続されている場合、ユーザが入出力装置に対してリクエストを入力することも想定される。

　リクエストが入力されると、入出力管理部３１は、まずメモリ２３からリクエストで指定されたデータを検索する。リクエストで指定されたデータがメモリ２３上に存在する場合に、入出力管理部３１は、そのデータをメモリ２３から読み出して要求元に返信する。

　また、入出力管理部３１は、リクエストで指定されたデータがメモリ２３上に存在しない場合には、ディスク２４からリクエストで指定されたデータを検索する。入出力管理部３１は、リクエストで指定されたデータがディスク２４上に存在する場合に、データ・セグメント対応テーブル４２を用いて、リクエストで指定されたデータの属するセグメントに含まれる全データをディスク２４から読み出す。そして、入出力管理部３１は、その読み出したセグメントに含まれる全データのうち、リクエストで指定されたデータを要求元に返信する。このとき、入出力管理部３１は、その読み出したセグメントに含まれる全データをメモリ２３に格納する。

　なお、上記では、入出力管理部３１は、ディスク２４から読み出したセグメントに含まれる全データをメモリ２３へ格納する処理を、リクエストがあったタイミングで行う場合について説明したが、これに限定されない。例えば、入出力管理部３１は、一定期間のアクセス頻度を取得してアクセス頻度が高いセグメントを優先的にディスク２４から読み出してメモリ２３に格納してもよい。

　関連性抽出部３２、再配置決定部３３、再配置処理部３４により、データ配置処理が実現される。データ配置処理は、データアクセス効率化のために、アクセス履歴に基づいて動的にデータをセグメント間で再配置する処理である。

　関連性抽出部３２は、リクエストが到着する度に、データペア毎の関連性情報を関連性管理テーブル４３に蓄積することにより、所定時間間隔で、データペアへのアクセス頻度に基づくデータ間の関連度を監視する。より具体的には、関連性抽出部３２は、所定時間間隔で、アクセスシーケンスから続けてアクセスされたデータペアを抽出し、関連性管理テーブル４３において、そのデータペアのアクセス頻度（関連度）に、“＋1”を加算する。

　再配置決定部３３及び再配置処理部３４は、後述するように、データ配置処理を実行するように設定されている間（例えば、後述する実行フラグがＯＮの間）または配置制御部３６により制御された周期にて、以下の処理を行う。

　再配置決定部３３は、所定の時間間隔で関連度に基づいてデータをグループ化し、グループ（セグメント）毎の配置対象のデータを特定することにより、データの配置を決定する。

　再配置処理部３４は、再配置の決定の結果に応じて、セグメントに属するデータの構成に変更があった場合、セグメントに属するデータの再編成を行うデータ再配置処理を行う。すなわち、再配置処理部３４は、データ・セグメント対応テーブル４２が保持している、データとセグメントの対応情報を更新する。そして、再配置処理部３４は、関連性管理テーブル４３の内容をクリアする。

　図７は、本実施形態におけるデータ・セグメント対応テーブルの一例を示す。データ・セグメント対応テーブル４２には、メモリ２３及びディスク２４に格納された全データのデータ名（またはキー）と、そのデータ名に対応するセグメント名とが対応付けられて格納されている。

　図８は、本実施形態における関連性管理テーブルの一例を示す。関連性管理テーブル４３は、リクエストで指定されたデータ毎に、前回リクエストで指定されたデータを順次関係付けてデータペアとし、所定時間間隔（単位時間あたり）で、各データペアへのアクセス回数（関連性の強さ）、すなわち関連性情報を格納する。

　図８において、各データペアの関連度の分布を見ると、例えば、時間ΔＴ１，ΔＴ２において、データペアＣ－Ｄ間の関連度、及びデータペアＪ－Ｋ間の関連度が強く、データペアＢ－Ｃ間の関連度、及びデータペアＫ－Ｍ間の関連度は弱い。

　しかしながら、時間ΔＴ３において、データペアＣ－Ｄ間の関連度が弱くなり、データペアＫ－Ｍ間の関連度が強くなっており、関連度の傾向に変化が生じている。

　このように、関連度のトレンドの変化を捉えるためには、単位時間当たりの連続アクセス回数の分布が変化しているかを監視すればよい。その分布の変化を捉えるためには、ある時点での単位時間当たりの連続アクセス回数の分布を、データ集合の性質を表す指標で表現し、その指標の変化を捉えればよい。

　ただし、その指標の変化を捉える場合、（Ａ）データペア間の関連度が全体的に増加／減少したのか、（Ｂ）関連度が高いデータペアの関連度に変化が生じたのか、が区別される。前者（Ａ）の場合は、そのままデータ配置処理を継続するのが望ましい。後者（Ｂ）の場合は、それまでのデータ配置がよいとは限らず、かつ変化直後の関連度のトレンドが続くかをしばらく観測するのがよい。従って、しばらくデータ配置処理を停止するのが望ましい。そこで、図９を用いて、関連度が高いデータペアの関連度に変化を検出する処理について説明する。

　図９は、本実施形態におけるデータ集合の性質を表す指数について説明するための図である。図９（Ａ）は、時刻とサブ期間Ｔｓとの関係を説明するための図である。Ｔ１，Ｔ２，Ｔ３は、時刻を示す。「Ｔｓ」は、時刻Ｔ１－Ｔ０間、時刻Ｔ２－Ｔ１間、・・・の時間であり、アクセス頻度を計測するサブ期間である。「Ｔｓ」は、データ配置処理機能がデータ再配置を行う周期よりかなり短めに設定されるとする。

　関連性ベクトル算出部３５は、データペア毎の関連性情報（一定期間Ｔｓ毎のデータペア毎のアクセス回数）から、以下のように、関連性ベクトルを算出する。ここで、関連性情報として、図９（Ｂ）を用いて、関連性ベクトルについて説明する。

　まず、関連性ベクトル算出部３５は、各サブ期間Ｔｓで関連性情報として蓄積されているデータペアを軸としたｎ次元空間を定義する。ここで、ｎは、関連性情報に含まれるデータペア数である。

　関連性ベクトル算出部３５は、データペア毎のアクセス回数を各軸ｘ_ｉ（_ｉ＝０－ｎ）の座標として、定義したｎ次元空間のベクトル（関連度ベクトル）を算出する。例えば、時刻Ｔ１でのデータペア毎のアクセス回数が、データペアＡ－Ｂ：７回、Ｂ－Ｄ：１回、Ｄ－Ａ：０回であるとする。この場合、関連度ベクトルは、＊Ｔ１＝（７,１,０）（データペア数が３なので、３次元ベクトルとなる）。ここで、「＊」はベクトルを示す。

　関連性ベクトル算出部３５は、図９（Ｃ）に示すように、その時点の関連度ベクトルと、前回の関連度ベクトルとの差の絶対値を算出し、関連ベクトルの変化量とする。例えば、時刻Ｔ１－Ｔ２までの関連ベクトルの変化量、時刻Ｔ１－Ｔ２までの関連ベクトルの変化量はそれぞれ以下のようになる。
　　　Ｔ１－Ｔ２の関連ベクトルの変化量＝｜＊Ｔ２－＊Ｔ１｜＝１．７３
　　　Ｔ２－Ｔ３の関連ベクトルの変化量＝｜＊Ｔ３－＊Ｔ２｜＝１５．３

　Ｔ１－Ｔ２の関連ベクトル（トレンド）の変化量は小さく、Ｔ２－Ｔ３の関連ベクトル（トレンド）の変化量は、大きい。そこで、配置制御部３６は、図１０で説明するように、関連ベクトル（トレンド）の変化量に応じて、データ配置処理を制御する。

　次に、本実施形態におけるデータ配置処理の制御のバリエーションについて説明する。
　（実施例１）
　実施例１では、関連度の傾向の変化量が閾値以上か否かに応じて、データ配置処理を、動的に、停止させたり、再開させたりする制御を行うことについて説明する。

　図１０は、本実施形態（実施例１）におけるデータ配置処理を停止し、再開する場合のパターンを説明するための図である。図１０において、縦軸は、関連度ベクトル（トレンド）の変化の絶対値を示す。横軸は、経過時間を示す。期間Ｔｍは、トレンドが安定したかを見定める期間であり、予め決められている。

　時間Ｔ１０～Ｔ１１間では、トレンドの変換の絶対値は、閾値より小さい。この場合、各データペア間の関連度の変化が小さいか、データペア間の関連度が全体的に増加／減少した場合に相当するので、配置制御部３６は、実行フラグをＯＮにする。実行フラグは、データ配置処理機能を有効にするか否かを判定するためのフラグである。

　時間Ｔ１１～Ｔ１２間では、トレンドの変換の絶対値は、閾値以上である。この場合、関連度が高いデータペアの関連度に変化が生じた場合に相当するので、配置制御部３６は、実行フラグをＯＦＦにする。

　時間Ｔ１２～Ｔ１３間では、トレンドの変換の絶対値は、閾値より小さいが、トレンドの変化の傾向をつかむまで（図１０の例では、時間Ｔｍの間）、配置制御部３６は、実行フラグをＯＦＦのままにする。トレンドの変換の絶対値が閾値より小さいままで、Ｔｍを経過すると、配置制御部３６は、実行フラグをＯＮにする。

　図１１は、本実施形態（実施例１）におけるデータ配置処理を制御するフローを示す。図１１では、リクエスト到着から実行フラグの更新までの処理について説明する。制御装置１２は、本実施形態に係るプログラムを実行することにより、入出力管理部３１、関連性抽出部３２、関連度ベクトル算出部３５、配置制御部３６として機能する。

　入出力管理部３１は、要求元から入力されたリクエストが指定するデータをメモリ２３またはディスク２４から読み出して（アクセスして）、要求元に送信する（Ｓ１１）。このとき、リクエストが指定するデータがメモリ２３に存在しない場合、入出力管理部３１は、データ・セグメント対応テーブル４２を用いて、リクエストが指定するデータが属するセグメントの全データをディスク２４から読み出す。そして、入出力管理部３１は、読み出したセグメントの全データのうち、リクエストが指定するデータを要求元に送信する。

　関連性抽出部３２は、直前にアクセスしたデータと今アクセスしたデータとのペアの関連性情報を関連性管理テーブルに記録する（Ｓ１２）。ここでは、関連性抽出部３２は、図８で説明したように、関連性管理テーブル４３のサブ期間Ｔｓの情報を更新する。具体的には、関連性抽出部３２は、関連性管理テーブル４３に、サブ期間Ｔｓ内にて、そのデータペアの関連性情報を記録（アクセス数を＋１加算）する。

　サブ期間Ｔｓの間、関連性抽出部３２は、Ｓ１１～Ｓ１２の処理を繰り返す（Ｓ１３で「ＮＯ」）。これにより、今回のサブ期間での関連性情報が生成される。

　サブ期間Ｔｓの経過後（Ｓ１３で「ＹＥＳ」）、関連度ベクトル算出部３５は、関連性管理テーブル４３を参照し、前回のサブ期間で生成された関連性情報が存在するかを判定する（Ｓ１４）。前回のサブ期間で生成された関連性情報が存在しない場合（Ｓ１４で「ＮＯ」）、処理がＳ１１へ戻る。

　前回のサブ期間で生成された関連性情報が存在する場合（Ｓ１４で「ＹＥＳ」）、関連度ベクトル算出部３５は、図９で説明したように、前回の関連性情報と今回の関連性情報とから、関連度ベクトルの変化量を算出する（Ｓ１５）。

　配置制御部３６は、算出された変化量と閾値とを比較する（Ｓ１６）。閾値は、サーバ２１が有する記憶装置に予め格納されている。Ｓ１６での比較の結果、算出された変化量が閾値以上である場合（Ｓ１６で「ＹＥＳ」）、配置制御部３６は、実行フラグがＯＮであるか否かを判定する（Ｓ１７）。

　実行フラグがＯＦＦである場合（Ｓ１７で「ＮＯ」）、処理がＳ１１へ戻る。実行フラグがＯＮである場合（Ｓ１７で「ＹＥＳ」）、配置制御部３６は、実行フラグをＯＦＦにする（Ｓ１８）。その後、処理がＳ１１へ戻る。

　Ｓ１６での比較の結果、算出された変化量が閾値以上である場合（Ｓ１６で「ＮＯ」）、配置制御部３６は、時間Ｔｍが経過したかを判定する（Ｓ１９）。時間Ｔｍが経過していない場合（Ｓ１９で「ＮＯ」）、処理がＳ１１へ戻る。

　時間Ｔｍが経過した場合（Ｓ１９で「ＹＥＳ」）、配置制御部３６は、算出された変化量が閾値未満であるか否かを判定する（Ｓ２０）。算出された変化量が閾値未満である場合（Ｓ２０で「ＹＥＳ」）、配置制御部３６は、実行フラグがＯＦＦで否かを判定する（Ｓ２１）。実行フラグがＯＦＦである場合（Ｓ２１で「ＹＥＳ」）、配置制御部３６は、実行フラグをＯＮにする（Ｓ２２）。その後、本フローが終了する。

　算出された変化量が閾値以上である場合（Ｓ２０で「ＮＯ」）、または実行フラグがＯＮである場合（Ｓ２１で「ＮＯ」）、本フローが終了する。

　図１２は、本実施形態（実施例１）における実行フラグに応じたデータ配置処理の実行フローを示す。図１２のデータ配置処理は、定期的（サブ期間Ｔｓよりかなり長めの時間間隔）で実行される。

　再配置決定部３３は、実行フラグがＯＮか否かを判定する（Ｓ３１）。実行フラグがＯＦＦの場合（Ｓ３１で「ＮＯ」）、本フローは終了する。実行フラグがＯＮの場合（Ｓ３１で「ＹＥＳ」）、再配置決定部３３は、以下で説明するＳ３２～Ｓ３５の処理を行う。

　まず、再配置決定部３３は、関連性情報からデータ配置を決定する（Ｓ３２）。ここでは、再配置決定部３３は、関連性管理テーブル４３から、データペア毎に、データ配置の変更が必要か否かを判定するための最終関連度を算出する。

　データペア毎の最終関連度として、例えば、関連性管理テーブル４３において直近のサブ期間からいくつかのサブ期間遡ったサブ期間までの関連度の平均（単純移動平均）をもちいてもよい。または、データペア毎の最終関連度として、サブ期間毎の関連度に重み付け（加重移動平均、指数加重移動平均）を行って得られた関連度を用いても良い。サブ期間毎の関連度に重み付けを行って最終関連度を得る一例としては、以下の方法がある。

　サブ期間ｋ（＝１～Ｎ、Ｎ：直近のサブ期間から遡るサブ期間の個数であり、予め設定されている。）の重みは、以下のように決められる。重み付けの一例として指数加重移動平均方式を用いる場合、再配置決定部３３は、直近のサブ期間から過去のサブ期間に向かって、重みを指数関数的に減らしていく。例えば、サブ期間ｋのデータペアＸ－Ｙ間の関連度をＰ_ｋとすると、再配置決定部３３は、データペアＸ－Ｙ間の最終関連度ＲＥＬを以下の式を用いて求める。
　　ＲＥＬ_Ｘ－Ｙ＝α×（Ｐ_Ｎ＋（１－α）Ｐ_Ｎ－１＋（１－α^２）Ｐ_Ｎ－２＋・・・）
ここで、αは、重みの減少度合いを決める平滑化係数（０～１）であり、予め決められている。

　例えば、図９（Ｂ）において、直近のサブ期間＝Ｔ３、α＝０．５の場合、データＢ－Ｄ間の最終関連度ＲＥＬとして、ＲＥＬ_Ｂ－Ｄ＝０．５＊（１１＋０．５＊０＋０．７５＊１）＝５．８７５が得られる。

　データペア毎の最終関連性情報を算出後、再配置決定部３３は、図１（Ｄ）で説明したように、データペア毎の最終関連度情報をグラフ構造化し、そのグラフ構造に基づいて、データのグループ化を行うことにより、セグメント毎に配置するデータを決定する。

　次に、再配置決定部３３は、決定されたセグメント毎のデータ配置に基づいて、データ配置の変更、すなわちセグメントの再編成が必要か否かを判定する（Ｓ３３）。ここでは、Ｓ３２で決定されたセグメント毎のデータの構成と、データ・セグメント対応テーブル４２に登録されているセグメント毎のデータの構成とに変化がある場合、再配置決定部３３は、データ配置の変更が必要であると判定する。

　なお、Ｓ３２において配置を決定した結果、データ・セグメント対応テーブル４２において、セグメント毎のデータが既にその決定された配置になっていた場合、再配置決定部２４は、再配置が不要と判断する。また、配置を決定する手法によっては、再配置対象のデータがキャッシュ上にある間でないと再配置しないことがある。この場合、対象データがキャッシュ上になければ、再配置決定部３３は、再配置は不要と判断する。

　データ配置の変更が必要ない場合、すなわちデータとセグメントの対応付けの変更が不要と判定された場合（Ｓ３３で「ＮＯ」）、再配置決定部３３は、後述するＳ３５の処理を行う。

　データ配置の変更が必要ある場合、すなわちデータとセグメントの対応付けの変更が必要と判定された場合（Ｓ３３で「ＹＥＳ」）、再配置処理部３４は、次の処理を行う。すなわち、再配置処理部３４は、Ｓ３２でのセグメントの再構成の結果に基づいて、データとセグメントの対応付けを変更する。再配置処理部２４は、その変更したデータとセグメントとの対応関係に基づいて、データ・セグメント対応テーブル４２を更新する（Ｓ３４）。

　その後、再配置処理部３４は、関連性管理テーブル４３に記録されている関連性情報を削除する（Ｓ３５）。

　実施例１によれば、関連性の高いデータ同士をグループにして配置するデータ配置処理において、読み出し性能の低減を抑制することができる。すなわち、関連度の傾向の変化に応じて、データの再配置処理を行うことができるので、読み出し性能の劣化につながるデータ配置処理を抑制できる。

　（実施例２）
　実施例２では、関連度の傾向の変化量の程度に応じて、データ配置処理を実行する周期を動的に変更する制御を行うことについて説明する。

　図１３は、本実施形態（実施例２）におけるデータ配置処理を抑制／継続／促進するパターンを説明するための図である。図１３において、縦軸は、関連度ベクトル（トレンド）の変化の絶対値を示す。横軸は、経過時間を示す。ここで、閾値１＞閾値２とする。

　時間Ｔ２０～Ｔ２１間では、トレンドの変換の絶対値は、閾値２以上で閾値１未満である。この場合、関連度が比較的高いデータペアの関連度に変化が生じた場合に相当するので、配置制御部３６は、データ配置処理周期を、例えば１０秒に設定する。

　時間Ｔ２１～Ｔ２２間では、トレンドの変換の絶対値は、閾値２未満である。この場合、各データペア間の関連度の変化が小さいか、データペア間の関連度が全体的に増加／減少した場合に相当するので、配置制御部３６は、データ配置処理周期を、例えば１秒に設定する。

　時間Ｔ２２～Ｔ２３間では、トレンドの変換の絶対値は、閾値２以上で閾値１未満である。この場合、関連度が比較的高いデータペアの関連度に変化が生じた場合に相当するので、配置制御部３６は、データ配置処理周期を、例えば１０秒に設定する。

　時間Ｔ２３以降では、トレンドの変換の絶対値は、閾値１以上である。この場合、関連度がかなり高いデータペアの関連度に変化が生じた場合に相当するので、配置制御部３６は、データ配置処理周期を、例えば１分に設定する。
　なお、周期の設定時間の１０秒及び１分は一例であり、この時間に制限されない。

　図１４は、本実施形態（実施例２）におけるデータ配置処理を制御するフローを示す。図１４では、リクエスト到着から実行フラグの更新までの処理について説明する。制御装置１２は、本実施形態に係るプログラムを実行することにより、入出力管理部３１、関連性抽出部３２、関連度ベクトル算出部３５、配置制御部３６として機能する。

　Ｓ１１～Ｓ１５の処理は、図１１の処理と同じであるので、その説明を省略する。
　配置制御部３６は、Ｓ１５で算出された変化量と閾値１、及び／または閾値２とを比較する（Ｓ４１）。閾値１及び閾値２は、サーバ２１が有する記憶装置に予め格納されている。

　Ｓ４１での比較の結果、算出された変化量の値が閾値１より大きい場合、配置制御部３６は、データ配置処理の実行周期を最大値Ｐｍａｘに設定する（Ｓ４２）。

　Ｓ４１での比較の結果、算出された変化量の値が閾値２より大きく、閾値１以下である場合、配置制御部３６は、データ配置処理の実行周期を中間値Ｐｍｉｄに設定する（Ｓ４３）。

　Ｓ４１での比較の結果、算出された変化量の値が閾値２以下である場合、配置制御部３６は、データ配置処理の実行周期を中間値Ｐｍｉｎに設定する（Ｓ４４）。

　なお、Ｐｍａｘ、Ｐｍｉｄ、Ｐｍｉｎは、サーバ２１が有する記憶装置に予め格納されている。

　図１５は、本実施形態（実施例２）における、設定された周期で行われるデータ配置処理の実行フローを示す。図１５のデータ配置処理は、定期的、すなわち、図１４のＳ３２～Ｓ３４のいずれかで設定されたデータ配置処理の実行周期（Ｐｍａｘ、Ｐｍｉｄ、Ｐｍｉｎ毎）に、図１２のＳ３２～Ｓ３５の処理が実行される。

　なお、実施例２では、関連度の傾向の変化に応じてデータ配置処理の実行周期を変更したが、これに限定されず、例えば、配置決定手法によっては一度に再配置するデータ数を変えてもよい。

　実施例２によれば、関連度の傾向の変化に応じて、データの再配置処理を行うことができるので、性能劣化につながるデータ配置処理を抑制できると共に、性能向上が見込める際にはデータ配置処理を促進することができる。

　以上より、本実施形態によれば、データ配置処理側では検知できない関連度の傾向（トレンド）の変化を捉え、データ配置処理自体を制御できる。また、ほぼリアルタイムにトレンドの変化を捉えることで、性能劣化につながる余計なデータ配置処理を抑制できる。または、性能向上が見込める際にはデータ配置処理を促進することも出来る。

　また、データペアごとの関連度を、データペアを軸とするｎ次元空間のベクトルとして表現することで、全体的に関連度が増加／減少したのか、関連度の強いデータペアが変わったのか、区別できる。

　また、データ集合の性質としての変化を見るだけなので、データ配置処理の手法に依っては、少ない情報量でトレンドの変化を検知することができる。

　なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を取ることができる。

　１　　　データ管理制御装置
　２　　　監視部
　３　　　実行制御部
　４　　　データ配置処理
　１１　　サーバ
　１２　　配置制御処理
　１３　　データ配置処理
　１４　　入出力管理処理
　１５　　メモリ
　１６　　ディスク
　１７　　クライアント
　２１　　サーバ
　２２　　制御装置
　２３　　メモリ
　２４　　ディスク
　２５　　クライアント
　２６　　ネットワーク
　３１　　入出力管理部
　３２　　関連性抽出部
　３３　　再配置決定部
　３４　　再配置処理部
　３５　　関連度ベクトル算出部
　３６　　配置制御部
　４１　　キャッシュ領域
　４２　　データ・セグメント対応テーブル
　４２　　関連性管理テーブル

Claims

　コンピュータに、
　複数のデータを格納する記憶装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度を監視し、
　監視された複数の前記ペアの前記関連度の経時的変化に基づいて、関連性のある前記データ同士をグループにして配置するデータ配置処理の実行を制御する
　処理を実行させるデータ管理制御プログラム。
　前記監視は、断続的に行われる
　ことを特徴とする請求項１記載のデータ管理制御プログラム。
　前記制御は、前記関連度の分布の傾向の継時的変化に基づいて、前記データ配置処理の実行を制御する
　ことを特徴とする請求項１または２に記載のデータ管理制御プログラム。
　前記制御において、
　単位時間毎に、前記複数のペアの関連度の分布を取得し、連続する単位時間のそれぞれにおいて取得された前記分布間の変化量が閾値以上である場合、前記データ配置処理を停止させ、前記分布間の変化量が前記閾値より小さい場合、前記データ配置処理を実行させる
　ことを特徴とする請求項１～３のうちいずれか１項に記載のデータ管理制御プログラム。
　前記制御において、
　単位時間毎に、前記複数のペアの関連度の分布を取得し、連続する単位時間のそれぞれにおいて取得された前記分布間の変化量に応じて、前記データ配置処理の実行周期を変更する
　ことを特徴とする請求項１～３のうちいずれか１項に記載のデータ管理制御プログラム。
　前記制御において、
　前記分布間の変化量が大きいほど、前記データ配置処理の実行周期を長くする
　ことを特徴とする請求項３に記載のデータ管理制御プログラム。
　複数のデータを格納する記憶装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度を監視する監視部と、
　監視された複数の前記ペアの前記関連度の経時的変化に基づいて、関連性のある前記データ同士をグループにして配置するデータ配置処理の実行を制御する実行制御部と、
　を備えることを特徴とするデータ管理制御装置。
　コンピュータが、
　複数のデータを格納する記憶装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度を監視し、
　監視された複数の前記ペアの前記関連度の経時的変化に基づいて、関連性のある前記データ同士をグループにして配置するデータ配置処理の実行を制御する
　ことを特徴とするデータ管理制御方法。