WO2016157417A1

WO2016157417A1 - データ配置プログラム、データ配置装置、及びデータ配置方法

Info

Publication number: WO2016157417A1
Application number: PCT/JP2015/060158
Authority: WO
Inventors: 村田美穂; 佐伯敏章; 今村信貴
Original assignee: 富士通株式会社
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2016-10-06

Abstract

　コンピュータは、データ間の関連性に応じてグループ化されたデータ群である複数のセグメントが格納された格納装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、ペアへのアクセス頻度に基づくデータ間の関連度をモニタ期間中にモニタし、格納装置に格納された複数のセグメントのサイズの傾向を示す傾向情報と、モニタされた関連度とに基づいて、モニタ期間における関連度である関連性評価情報を生成し、関連性評価情報に基づいてデータをグループ化し、グループ毎の配置対象のデータを特定する。

Description

データ配置プログラム、データ配置装置、及びデータ配置方法

　本明細書は、データ配置プログラム、データ配置装置、及びデータ配置方法に関する。

　データ格納システムは、大量のデータをディスク等のストレージに格納する。ディスク等の低速な記憶装置は、単位時間当たりの処理能力（スループット）が低いため、キャッシュ技術が利用されている。

　キャッシュ技術は、処理速度の速い制御装置が低速の記憶装置からデータをより速く読み出す場合にメモリを使用して処理時間を短縮する技術である。制御装置が低速の記憶装置からデータを読み出した場合、その読み出したデータを一時的にメモリに保持しておくことで、次回からは低速の記憶装置より読み書きが早いメモリからデータを読み出せる。

　ところが、メモリの容量を超えて大量データを処理する場合、ディスクへのアクセスが多発することで、データ処理性能が大きく劣化する。

　そこで、キャッシュ技術の１つとして、アクセス履歴に基づき、関連性のあるデータを同一のセグメントに取りまとめ、データの再配置を行う技術（以降、「データ再配置技術」という）がある（例えば、特許文献１）。

国際公開第２０１３／１１４５３８号特開平７－２００３８９号公報特開２０１２－１１３３４８号公報特許２０１４－１４２７４９号

　図１は、データ再配置技術によるデータペア毎の関連度とデータ配置について説明するための図である。データ再配置技術では、データのアクセス履歴（どういう順番でどのデータがアクセスされたかという履歴）から、データのペア毎に、それらが同時または連続してアクセスされた頻度（関連性情報）が記録される。

　データのペアとは、連続してアクセスされた２つのデータをいう。今アクセスされたデータと直前にアクセスされたデータをペアとし、そのペアが出現した頻度が記録される。

　例えば、図１（Ａ）に示すように、データＡ，Ｂ，Ｃ，Ｄ，Ｅについて、Ａ→Ｂ→Ｃ→Ａ→Ｂ→Ｄ→Ｅ→Ｃ→Ａの順でデータにアクセスされたとする。この場合のデータのペアとそのアクセス頻度（出現頻度、すなわち関連性情報）は、図１（Ｂ）に示すように、Ａ→Ｂ（２回）、Ｂ→Ｃ（１回）、Ｃ→Ａ（２回）、Ｂ→Ｄ（１回）、Ｄ→Ｅ（１回）、Ｅ→Ｃ（１回）である。アクセス頻度が高いペアのデータは、関連性が強いと考えられる。

　データ間の関連性をグラフで表すと、データＡ，Ｂ，Ｃ，Ｄ，Ｅは、図１（Ｃ）に示すような構造になる。

　これらのデータを２つのセグメントに配置しようとすると、図１（Ｄ）に示すように、データＡ、Ｂ、Ｃのグループと、データＤ、Ｅのグループに分けられる。このグループに基づいて、データＡ，Ｂ，Ｃ，Ｄ，Ｅは、セグメント毎に再配置される。２つのセグメントをまたぐ関連度が小さくなるよう、かつ各セグメントに属するデータ数がほぼ均等になるように分割される。ここで、セグメントとは、関連性が認められるデータの集合であり、ディスクに対する読み書きの最小単位である。

　このように、上述のデータ再配置技術ではデータのペア間のある一定期間の累積の関連性の強さに基づいて、関連性のあるデータが同一のセグメントに取りまとめられ、データの再配置が行われる。これにより、関連するデータ同士が次々に同じセグメントに集められていく。

　したがって、あるデータに対する処理要求（以下、「リクエスト」と称する）があると、そのデータが属するセグメントがディクスからキャッシュに読み出され、そのセグメントに属する他のデータも続けてリクエストされる可能性がある。その結果、キャッシュヒット率が高くなる可能性がある。

　一方で、データ再配置によってキャッシュ上のセグメントの内容が変わるため、そのセグメントをキャッシュから追い出す際、ディスクに書き戻す必要がある。データの参照しかされないユースケースにおいて、データ再配置が発生しない場合に比べて、データ再配置が発生する場合にはその書き戻すためのコスト（データにアクセスし、ロードするのに要する時間）が余分にかかる。

　よって、セグメントのサイズが大きくなるにつれ、一定期間の関係性に基づく関連性の高いデータを同一セグメントに配置するメリットよりも、セグメントのサイズが大きいことによる、コスト増加によるデメリットが増してくる。

　また、多くのセグメントのサイズが小さい場合、そのセグメントは関連するデータ同士が十分集められていない成長途中であるため、まだキャッシュヒット率が低い可能性が高い。一方で、多くのセグメントのサイズが大きい場合、そのセグメントは関連するデータ同士が十分に集められているため、キャッシュヒット率はある程度高い可能性が高い。

　このように、セグメントのサイズに応じて、セグメントの読み出し性能や、キャッシュヒット率に相違がある。したがって、全体のセグメントのサイズの傾向に基づいて、データ再配置に行うことが望ましい。

　本発明の一側面では、データアクセスによるセグメントの形成状況に応じた読み出し効率のよいデータ配置処理を可能とする技術を提供する。

　本発明の一側面に係るデータ配置プログラムは、コンピュータに、次の処理を実行させる。コンピュータは、格納装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、ペアへのアクセス頻度に基づくデータ間の関連度をモニタ期間中にモニタする。格納装置には、データ間の関連性に応じてグループ化されたデータ群である複数のセグメントが格納されている。コンピュータは、格納装置に格納された複数のセグメントのサイズの傾向を示す傾向情報と、モニタされた関連度とに基づいて、モニタ期間における関連度である関連性評価情報を生成する。コンピュータは、関連性評価情報に基づいてデータをグループ化し、グループ毎の配置対象のデータを特定する。

　本発明の一側面によれば、データアクセスによるセグメントの形成状況に応じた読み出し効率のよいデータ配置処理を可能とする。

データ再配置技術によるデータペア毎の関連度とデータ配置について説明するための図である。関連性情報の蓄積期間の途中で関連性が大きく変化する場合における、（Ａ）実際のデータ間の関連性に基づくデータ配置例と、（Ｂ）データ再配置技術によるデータ間の関連性に基づくデータ配置例とを示す。本実施形態におけるデータ配置装置の一例を示す。本実施形態における情報処理システムの一例を示す。本実施形態における蓄積期間Ｔ、サブ期間Ｔｓの関係を説明するための図である。本実施形態におけるセグメントの傾向について説明するための図である。本実施形態におけるサーバの一例を示す。本実施形態におけるデータ管理テーブルの一例を示す。本実施形態における関連性管理テーブルの一例を示す。本実施形態における全体の処理フローを示す。本実施形態における関連性評価情報の生成を説明するための図である。本実施形態におけるリクエスト到着から配置決定までのフロー例を示す。本実施形態における平滑化係数αの算出処理（Ｓ１５）のフローを示す。

　上述の課題について更に詳述する。
　図２は、関連性情報の蓄積期間の途中で関連性が大きく変化する場合における、（Ａ）実際のデータ間の関連性に基づくデータ配置例と、（Ｂ）データ再配置技術によるデータ間の関連性に基づくデータ配置例とを示す。ここで、関連性情報の蓄積期間内には、データの再配置は行われない。

　図２（Ａ）は、実際のデータ間の関連性に基づくデータ配置例を示す。時間ｔ０の時点で、データＡ，Ｂ，Ｃ，Ｄは、一例として、データＡ，Ｃを含むセグメントと、データＢ，Ｃを含むセグメントに配置されているとする。ここで、再配置のタイミングが時間ｔ１であるとする。

　時間ｔ１までに、データ間の関連性が変化し、データＡ，Ｂ間の関連度は低下し、データＣ，Ｄ間の関連度が上昇している場合、再配置の実行により、データＡ，Ｃ、Ｄを含むセグメントと、データＢを含むセグメントに配置される。

　図２（Ｂ）は、データ再配置技術による関連性に基づくデータ配置例を示す。時間ｔ０の時点で、データＡ，Ｂ，Ｃ，Ｄは、一例として、データＡ，Ｃを含むセグメントと、データＢ，Ｃを含むセグメントに配置されているとする。

　データ再配置技術では、リソース浪費を防ぐため、時間ｔ１の間隔でしか関連性情報は蓄積されていないため、時間ｔ０～ｔ１間のデータ間の関連性の変動をモニタすることはできない。しかしながら、データ再配置技術では、その関連性のあるデータがアクセスされたアクセス数の累積値が保持されている。

　したがって、図２（Ａ）とは異なり、図２（Ｂ）では、時間ｔ１までに、データＡ，Ｂ間の関連性（累積値）は上昇しているので、時間ｔ１の時点でも、データＡ，Ｂは関連性が強いと判定される。その結果、再配置の実行により、データＡ，Ｂ，Ｃを含むセグメントと、データＤを含むセグメントに配置される。

　しかしながら、時間ｔ１の時点では、実際は、データＣ，Ｄは強い関連性を有するため、データＣがアクセスされると、データＤもアクセスされる可能性が高いが、データＣ，Ｄは同一のセグメントに配置されていない。そのため、一方のデータがメモリに存在しない可能性が高くなり、別途ディスクアクセスする必要が生じる。

　このように、以前は関連性が強かったデータ同士が、現在はあまり関連していない場合がある。上記のデータ再配置技術では、古い関連性情報も新しい関連性情報も一律に扱っている。そのため、最適なデータ配置を決める場合に、古い関連性情報の影響を受けてしまうので、読み出し性能の劣化（低キャッシュヒット率）につながる可能性がある。

　ところで、関連するデータ同士を次々に同じセグメントに集めていくと、キャッシュヒット率は高くなる可能性（メリット）がある。すなわち、あるデータに対するリクエストがあると、そのデータが属するセグメントがディクスからキャッシュに読み出され、そのセグメントに属する他のデータも続けてリクエストされる可能性がある。その結果、キャッシュヒット率が高くなる可能性がある。

　一方で、セグメントが大きすぎる（関連するデータ同士を集めすぎる）と、上述したように、１回のディスクアクセス時間が長くなるので、単一データに比べてディスクへの読み書きについてのコストが大きくなる（デメリット）。デメリットがメリットを上回るぐらいセグメントサイズが大きくなると、再配置によってむしろ読み出し性能が劣化することになる。

　したがって、デメリットがメリットを上回りそうか否かに応じて再配置を制御することが考えられる。

　このように、セグメントのサイズに応じて、セグメントの読み出し性能やキャッシュヒット率に相違がある。このことから、古い関連性情報と新しい関連性情報を一律に扱わず、かつセグメント全体の傾向（成長度合い）に応じて、関連性情報を活用することが考えられる。

　そこで、本実施形態では、データアクセスによるセグメントの形成状況に応じた読み出し効率のよいデータ配置処理を可能とするデータ配置技術について説明する。

　図３は、本実施形態におけるデータ配置装置の一例を示す。データ配置装置１は、モニタリング部２、生成部３、特定部４を含む。

　モニタリング部２は、格納装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、ペアへのアクセス頻度に基づくデータ間の関連度をモニタ期間中にモニタする。格納部には、データ間の関連性に応じてグループ化されたデータ群である複数のセグメントが格納されている。より具体的には、モニタリング部２は、関連度をモニタ期間中に継続的にモニタする。モニタリング部２の一例として、後述する関連性抽出部２２が挙げられる。

　生成部３は、格納装置に格納された複数のセグメントのサイズの傾向を示す傾向情報と、モニタされた関連度とに基づいて、モニタ期間における関連度である関連性評価情報を生成する。生成部３の一例として、関連度決定部２３が挙げられる。

　特定部４は、関連性評価情報に基づいてデータをグループ化し、グループ毎の配置対象のデータを特定する。特定部４の一例として、配置決定部２４が挙げられる。

　このように構成することにより、データアクセスによるセグメントの形成状況に応じた読み出し効率のよいデータ配置処理が可能となる。

　また、生成部４は、時間経過と共に減少する重みを用いる。生成部４は、傾向情報が閾値以上の場合には重みの減少の度合いを大きくし、傾向情報が閾値以上の場合には重みの減少の度合いを小さくする。

　このように構成することにより、セグメント全体の傾向、すなわちセグメントの成長状況によって、関連度情報の調整することができる。すなわち、セグメントの傾向に応じて、重みの減少の度合いを調整することができる。そのため、セグメントの成長の成熟期において重みの減少の度合いを大きくすることで、直近のデータペアのデータ間の関連度を用いて、最終関連度としての関連性評価情報を生成することができる。その結果、セグメントのサイズの増大を抑制し、セグメントの読み出し性能の劣化を抑制できる。

　さらに、生成部４は、モニタ期間での断続的にモニタされた関連度のそれぞれに重みを乗じ、重みはより過去にモニタされた関連度ほど重みを指数関数的に減らしていく。ここで、重みの減少度合いは、傾向情報に基づく平滑化係数により決定される。

　このように構成することにより、直近のデータペアのデータ間の関連度の重み付けが最も重く、過去のデータペアのデータ間の関連度ほど、重み付けを軽くすることができる。これにより、より直近のデータ間の関連度の傾向を重視して、そのモニタ期間における最終的な関連度を算出することができる。

　以下では、本実施形態について、詳述する。
　図４は、本実施形態における情報処理システムの一例を示す。情報処理システムにおいて、サーバ装置（以下、「サーバ」と称する）１１は、通信ネットワーク（以下、「ネットワーク」と称する）１６を介して、情報処理装置の一例であるクライアント１５と接続されている。クライアント１５は、サーバ１１にデータの読み込みや書込み等のアクセス要求（以下、「リクエスト」と称する）を行う。

　サーバ１１は、制御装置１２、メモリ装置（以下、「メモリ」と称する）１３、ストレージ装置（ディスク）１４を含む。制御装置１２は、中央演算処理装置（ＣＰＵ）等のプロセッサである。

　ストレージ装置１４は、例えば、ハードディスクドライブ（ＨＤＤ）等のディスク装置である。以下では、ストレージ装置１４をディスク１４と称する。

　メモリ１３は、ディスク１４に比して高速にアクセス可能な記憶装置である。メモリ１３としては、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等がある。

　サーバ１１は、上記の構成に加えて、ＢＩＯＳ（Basic Input/Output System）を格納したＲＯＭ、プログラムメモリ等を有する。制御装置１２が実行するプログラムは、ネットワーク１６を介して取得されてもよいし、可搬型メモリやＣＤ－ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体がサーバ１１に装着されることにより取得されてもよい。制御装置１２が実行するプログラムには、本実施形態で説明する処理を実行するプログラムも含む。

　図５は、本実施形態における蓄積期間Ｔ、サブ期間Ｔｓの関係を説明するための図である。関連性情報を蓄積する蓄積期間Ｔを予め決めておく。データアクセス頻度によって、時間当たりの関連性情報の数（データペアに対するアクセス頻度）も変わるので、ある程度関連性情報が溜まる時間（例えば、Ｔ＝定数／平均アクセス頻度）を決めておく。

　次に、蓄積期間Ｔを複数のサブ期間Ｔｓに分ける。サブ期間Ｔｓ毎に、各データペアがアクセスされた回数が計測される。
　蓄積期間Ｔの経過後、データ再配置が行われる。

　図６は、本実施形態におけるセグメントの傾向について説明するための図である。セグメントの形成に関して、制御装置１２は、１セグメント１データから開始し、関連するデータ同士をまとめていく。

　セグメントの成長途中の期間（途上期）は、広く関連性情報を活用してセグメントを形成すべき期間である。途上期では、一部のセグメントのサイズは大きいが、小さいサイズのセグメントも存在する。したがって、途上期では、セグメント平均サイズが小さいといえる。

　一方、多くのセグメントのサイズが大きい期間（成熟期）は、直近の関連度の高い関連性情報を活用してセグメントを形成すべき期間である。成熟期では、セグメント平均サイズが大きい。

　このようにセグメント平均サイズによって、広く関連性情報を活用してセグメントを形成すべき期間であるのか、直近の関連度の高い関連性情報を活用してセグメントを形成すべき期間であるのかという全セグメントの傾向を掴むことができる。

　図７は、本実施形態におけるサーバの一例を示す。上述の通り、サーバ１１は、制御装置１２、メモリ１３、ディスク１４を含む。メモリ１３は、ディスク１４から読み出された複数のセグメントをキャッシングして、一時的に格納する領域（以下、「キャッシュ領域」と称する）１３ａを含む。キャッシュ領域１３ａの容量が不足した場合、Least Recently Used（ＬＲＵ）方式や、least frequently used（ＬＦＵ）方式等のアルゴリズムを用いて、キャッシュ領域１３ａからいずれかのセグメントが抽出され、ディスク１４に書き戻される。

　メモリ１３は、キャッシュ領域１３ａ以外の領域に、データ管理テーブル３１、関連性管理テーブル３２、セグメント平均サイズ３３を保持する。

　データ管理テーブル３１は、データと、そのデータの配置先となるセグメントと、データサイズとの対応関係を示す情報を格納する。

　関連性管理テーブル３２は、所定時間間隔毎の、各データペアへのアクセス回数（アクセス頻度（関連度））、すなわち関連性情報を格納する。

　制御装置１２は、本実施形態に係るプログラムを実行することにより、入出力管理部２１、関連性抽出部２２、関連度決定部２３、配置決定部２４、セグメントサイズ算出部２５として機能する。

　入出力管理部２１は、クライアント１５等の要求元から入力されたリクエストに応じてメモリ１３を検索し、メモリ１３にリクエストで指定されたデータがなければさらにディスク１４を検索し、リクエストで指定されたデータを要求元に送信する。なお、リクエストは、クライアント１５が送信するだけでなく、サーバ１１において実行されているプロセスその他の主体がリクエストの発行元となる場合もあり得る。また、入出力装置がサーバ１１に接続されている場合、ユーザが入出力装置に対してリクエストを入力することも想定される。

　リクエストが入力されると、入出力管理部２１は、まずメモリ１３からリクエストで指定されたデータを検索する。リクエストで指定されたデータがメモリ１３上に存在する場合に、入出力管理部２１は、そのデータをメモリ１３から読み出して要求元に返信する。

　また、入出力管理部２１は、リクエストで指定されたデータがメモリ１３上に存在しない場合には、ディスク１４からリクエストで指定されたデータを検索する。入出力管理部２１は、リクエストで指定されたデータがディスク１４上に存在する場合に、データ管理テーブル３１を用いて、リクエストで指定されたデータの属するセグメントに含まれる全データをディスク１４から読み出す。そして、入出力管理部２１は、その読み出したセグメントに含まれる全データのうち、リクエストで指定されたデータを要求元に返信する。このとき、入出力管理部２１は、その読み出したセグメントに含まれる全データをメモリ１３に格納する。

　なお、上記では、入出力管理部２１は、ディスク１４から読み出したセグメントに含まれる全データをメモリ１３へ格納する処理を、リクエストがあったタイミングで行う場合について説明したが、これに限定されない。例えば、入出力管理部２１は、一定期間のアクセス頻度を取得してアクセス頻度が高いセグメントを優先的にディスク１４から読み出してメモリ１３に格納してもよい。

　関連性抽出部２２は、リクエストが到着する度に、データペア毎の関連性情報を関連性管理テーブル３２に蓄積することにより、所定時間（サブ期間）間隔で、データペアへのアクセス頻度に基づくデータ間の関連度をモニタする。より具体的には、関連性抽出部２２は、サブ時間間隔で、アクセスシーケンスから続けてアクセスされたデータペアを抽出し、関連性管理テーブル３２において、そのデータペアのアクセス頻度（関連度）に、“＋1”を加算する。

　関連度決定部２３は、データペアのサブ期間毎の関連度に対して、時間経過とともに減少する重みをかけて、データペア毎の最終的な関連度を決定する。

　配置決定部２４は、決定された関連度に基づいてデータをグループ化し、グループ（セグメント）毎の配置対象のデータを特定することにより、データの配置を決定する。配置決定部２４は、再配置の決定の結果に応じて、セグメントに属するデータの構成に変更があった場合、セグメントに属するデータの再編成を行うデータ再配置処理を行う。すなわち、配置決定部２４は、データ管理テーブル３１が保持しているデータとセグメントの対応情報を更新する。そして、配置決定部２４は、関連性管理テーブル３２の内容をクリアする。

　セグメントサイズ算出部２５は、データペア毎の関連性情報が関連性管理テーブル３２に蓄積される場合に、データ管理テーブル３１を参照し、セグメント毎のサイズ（セグメントサイズ）の傾向をモニタする。すなわち、セグメントサイズ算出部２５は、データ管理テーブル３１から、セグメント毎のデータサイズの合計（セグメントサイズ）を算出し、全セグメントのサイズからセグメント平均サイズ３３を算出する。セグメントサイズ算出部２５は、算出したセグメント平均サイズ３３を、メモリ１３内の所定の領域に格納する。

　図８は、本実施形態におけるデータ管理テーブルの一例を示す。データ管理テーブル３１には、メモリ１３及びディスク１４に格納された全データのデータ名（またはキー）と、そのデータ名に対応するセグメント名と、そのデータのサイズが対応付けられて格納されている。

　図９は、本実施形態における関連性管理テーブルの一例を示す。関連性管理テーブル４３は、リクエストで指定されたデータ毎に、前回リクエストで指定されたデータを順次関係付けてデータペアとし、サブ時間間隔（単位時間あたり）で、各データペアへのアクセス回数（関連性の強さ）、すなわち関連性情報を格納する。

　例えば、サブ期間Ｔ１において、データペア（Ａ－Ｂ）へのアクセス回数（関連度）は、４回である。データペア（Ｂ－Ｄ）へのアクセス回数（関連度）は、２回である。データペア（Ｄ－Ａ）へのアクセス回数（関連度）は、１回である。データペア（Ｃ－Ａ）へのアクセス回数（関連度）は、３回である。データペア（Ｃ－Ｅ）へのアクセス回数（関連度）は、１回である。

　図１０は、本実施形態における全体の処理フローを示す。制御装置１２は、モニタリング処理を行う（Ｓ１）。具体的には、制御装置１２は、ある一定期間（蓄積期間）、アクセスされたデータペア毎に、そのデータ間の関連性情報（そのペアが連続／同時にアクセスされた頻度）を蓄積する。関連性抽出部２２は、図５で説明したように、蓄積期間Ｔをさらに細かいサブ期間（Ｔ１，Ｔ２，・・・，Ｔｎ）に区切り、そのサブ期間毎に、そのサブ期間の関連度の累積値を記録する。

　セグメントサイズ算出部２５は、データ管理テーブル３１に基づいて、管理している記憶装置内の全セグメントの傾向を表す情報、すなわち図６で説明したセグメント平均サイズをモニタ・記録する。

　次に、関連度決定部２３は、蓄積期間Ｔの最後に、上記のサブ期間ごとの関連度の累積値、全セグメントの傾向を表す情報から、関連性（データ間の関連性を表す）をその状況に応じて評価した、関連性評価情報を生成する（Ｓ２）。関連性評価情報は、その蓄積期間Ｔにおけるデータペア毎の最終的な関連度を示す。

　ここで、関連性評価情報は、関連性情報に対して、時間経過に伴って減衰する重み（古い関連性情報ほど重みを下げる）を乗じることで得られる。また、セグメントの成長度合いに合わせて、「重みの変え方」も調整される（「重み」の減少の仕方は、全セグメントの傾向によって変更できるようにする。）。

　関連性評価情報を生成する場合、全セグメントの傾向によって、「重み」の減少の方式が決められる。例えば、指数加重移動平均方式を用いる場合には、平滑化係数が決められる。また、加重移動平均方式を用いる場合には、その傾きが決められる。

　関連度決定部２３は、上記によって決められた「重み」の関数を用い、サブ期間毎の関連性情報に重みをかけ、関連性評価情報を生成する。これについては、図１１を用いて説明する。

　配置決定部２４は、関連性評価情報を用いて、データを再配置する（Ｓ３）。制御装置１２は、Ｓ３でのデータの再配置後、それまでに蓄積した関連性情報を全てクリアする（Ｓ４）。

　図１１は、本実施形態における関連性評価情報の生成を説明するための図である。本実施形態では、関連性管理テーブル３２で直近のサブ期間から順次サブ期間を遡ってサブ期間毎の関連度に重み付け（指数加重移動平均）を行って得られた関連度をデータペア毎の関連性評価情報（最終関連度）とする。

　蓄積期間の長さをＴとし、サブ期間の長さをＴｓとする。このとき、サブ期間の個数Ｎは、Ｎ＝Ｔ／Ｔｓとなる。

　指数加重移動平均方式を用いる場合には、サブ期間Ｔｓ_ｋ（＝１～Ｎ）個の重みは、以下のようにして決められる。最後のサブ期間の重みをＮとし、図１１（Ａ）に示すように、前のサブ期間に行くほど重みを指数関数的に減らしていく。

　次に、例えば、サブ期間Ｔｓ_ｋのデータペアＸ－Ｙ間の関連度をＰ_ｋとすると、関連度決定部２３は、蓄積期間ＴのデータペアＸ－Ｙ間の最終関連度ＲＥＬを以下の式を用いて求める。

　　ＲＥＬ_Ｘ－Ｙ＝α×（Ｐ_Ｎ＋（１－α）Ｐ_Ｎ－１＋（１－α^２）Ｐ_Ｎ－２＋・・・）α：重みの減少度合いを決める平滑化係数（０～１）。αの値が大きいほど重みは急速に減少する。

　例えば、図１１（Ｂ）に示すように、α＝０．５の場合、データＡ－Ｂ間の最終関連度ＲＥＬは、ＲＥＬ_Ａ－Ｂ＝０．５＊（４．７＋０．５＊４．５＋・・・）≒７．２と計算される。

　ここで、平滑化係数αの決定方法について説明する。セグメント平均サイズが小さい間は、再配置があまり進んでいないといえる。この場合、積極的に再配置を行うために、αは小さめに設定される。この場合、新しい情報は重視され、古い情報はある程度考慮される。

　セグメント平均サイズがある程度以上大きくなった場合は、再配置が十分進んだといえる。この場合、再配置を抑えるため、αは大きめに設定される。この場合、新しい情報は重視され、古い情報はあまり考慮されない。

　平滑化係数αの決定方法について詳述する。平滑化係数αの初期値が決められている。セグメントサイズ算出部２５は、データ管理テーブル３１に基づいて、システム全体のセグメント平均サイズをモニタし、メモリ１３の所定領域に格納する。

　セグメント平均サイズが予め決められた閾値を超えた場合、関連度決定部２３は、αを現在の値からΔα（予め決めておく）分大きくする。αを大きくするということは、古い情報の重みがより小さくなることを意味する。

　平均サイズが予め決めた閾値を下回った場合、関連度決定部２３は、αを現在の値からΔα分小さくする。

　なお、データペア毎の最終関連度として、サブ期間毎の関連度に重み付けを行う場合には、指数加重移動平均を用いるだけでなく、加重移動平均を用いても良い。

　この場合、例えば、セグメント平均サイズが予め決められた閾値未満の場合、重みを、Ｎ－１、Ｎ－２、Ｎ－３、・・・と減少させ、セグメント平均サイズが予め決められた閾値以上の場合、重みＮを、Ｎ－３、Ｎ－６、Ｎ－９、・・・と減少させてもよい。ただし、減少された重みが０を下回った場合には、重み０として扱う。

　以下では、本実施形態の実施例について、さらに詳述する。
　図１２は、本実施形態におけるリクエスト到着から配置決定までのフロー例を示す。制御装置１２は、本実施形態に係るプログラムを実行することにより、入出力管理部２１、関連性抽出部２２、関連度決定部２３、配置決定部２４と、セグメントサイズ算出部２５して機能する。

　入出力管理部２１は、要求元から入力されたリクエストが指定するデータをメモリ１３またはディスク１４から読み出して（アクセスして）、要求元に送信する（Ｓ１１）。このとき、リクエストが指定するデータがメモリ１３に存在しない場合、入出力管理部２１はデータ管理テーブル３１を用いて、リクエストが指定するデータが属するセグメントの全データをディスク１４から読み出す。そして、入出力管理部２１は、読み出したセグメントの全データのうち、リクエストが指定するデータを要求元に送信する。

　関連性抽出部２２は、関連性管理テーブル３２のサブ期間Ｔｓ_ｋの情報を更新する（Ｓ１２）。具体的には、関連性抽出部２２は、関連性管理テーブル３２に、サブ期間Ｔｓ_ｋ内にて、その連続してアクセスされたデータペアの関連性情報を記録（アクセス数を＋１加算）する。

　このとき、セグメントサイズ算出部２５は、データ管理テーブル３１内のセグメント平均サイズを算出し、メモリ１３の所定領域に格納する。

　サブ期間Ｔｓ_ｋの間、関連性抽出部２２は、Ｓ１１～Ｓ１２の処理を繰り返す（Ｓ１３で「ＹＥＳ」）。

　まだ、蓄積期間Ｔ中である場合（Ｓ１４で「ＹＥＳ」）、Ｓ１１の処理に戻り、次のサブ期間Ｔｓ_ｋ＋１について、Ｓ１１～Ｓ１３の処理が行われる。

　蓄積期間Ｔが終了すると（Ｓ１４で「ＮＯ」）、関連度決定部２３は、セグメント平均サイズに基づいて、平滑化係数αを算出する（Ｓ１５）。Ｓ１５については、図１３で詳述する。

　関連度決定部２３は、関連性管理テーブル３２の関連度の情報から、データペア毎の関連性評価情報を算出する（Ｓ１６）。ここでは、関連性抽出部２２は、図１１で説明したように、関連性管理テーブル３２で直近のサブ期間から順次サブ期間を遡ってサブ期間毎の関連度に重み付け（指数加重移動平均）を行って得られた関連度をデータペア毎の関連性評価情報を算出する。

　データペア毎の関連性評価情報を算出後、配置決定部２４は、図１（Ｄ）で説明したように、データペア毎の関連性評価情報をグラフ構造化する。そして、配置決定部２４は、そのグラフ構造に基づいて、データのグループ化を行うことにより、セグメント毎に配置するデータを決定する（Ｓ１７）。

　次に、配置決定部２４は、決定されたセグメント毎のデータ配置に基づいて、データ配置の変更、すなわちセグメントの再編成が必要か否かを判定する（Ｓ１８）。ここでは、Ｓ１７で決定されたセグメント毎のデータの構成と、データ管理テーブル３１に登録されているセグメント毎のデータの構成とに変化がある場合、配置決定部２４は、データ配置の変更が必要であると判定する。

　なお、Ｓ１７において配置を決定した結果、データ管理テーブル３１において、セグメント毎のデータが既にその決定された配置になっていた場合、配置決定部２４は、再配置が不要と判断する。また、配置を決定する手法によっては、再配置対象のデータがキャッシュ上にある間でないと配置しないことがある。この場合、対象データがキャッシュ上になければ、配置決定部２４は、再配置は不要と判断する。

　データ配置の変更が必要ない場合、すなわちデータとセグメントの対応付けの変更が不要と判定された場合（Ｓ１８で「ＮＯ」）、配置決定部２４は、Ｓ２１の処理を行う。

　データ配置の変更が必要ある場合、すなわちデータとセグメントの対応付けの変更が必要と判定された場合（Ｓ１８で「ＹＥＳ」）、配置決定部２４は、次の処理を行う。すなわち、配置決定部２４は、Ｓ１７でのセグメントの再構成の結果に基づいて、データとセグメントの対応付けを変更する（Ｓ１９）。

　配置決定部２４は、その変更したデータとセグメントとの対応関係に基づいて、データ管理テーブル３１を更新する（Ｓ２０）。

　その後、配置決定部２４は、メモリ１３に格納されているセグメント平均サイズをクリアし（Ｓ２１）、関連性管理テーブル４３に記録されている関連性情報を削除する（Ｓ２２）。

　図１３は、本実施形態における平滑化係数αの算出処理（Ｓ１５）のフローを示す。関連度決定部２３は、メモリ１３の所定領域から、セグメントサイズ算出部２５によってメモリに格納されているセグメント平均サイズを読み出す（Ｓ１５－１）。

　関連度決定部２３は、セグメント平均サイズが閾値以上であるか否かを判定する（Ｓ１５－２）。閾値は、サーバ１１の記憶装置に予め記憶されている。

　セグメント平均サイズが閾値以上である場合（Ｓ１５－２で「ＹＥＳ」）、関連度決定部２３は、平滑化係数αに「現在設定されているα＋Δα」を設定する（Ｓ１５－３）。セグメント平均サイズが閾値より小さい場合（Ｓ１５－２で「ＮＯ」）、関連度決定部２３は、平滑化係数αに、「現在設定されているα－Δα」を設定する（Ｓ１５－４）。

　本実施形態によれば、データペア間の関連度の重要性は、時間経過及び再配置の進み具合によって変化するので、その時間経過および再配置の進み具合を考慮して関連度の重みを算出し、最終的なデータペアごとの関連度を算出することができる。これにより、蓄積期間は固定であっても、時間経過・再配置の進み具合も考慮した関連度を算出することができる。

　これにより、古い関連度の影響を受けつつ直近のデータペア毎の関連度を重視した最終関連度に基づいて、データのグループ化を行ってデータ配置を行うことができる。セグメント平均サイズがある程度大きくなった場合（成熟期）、直近のデータペアの関連性の重みが重くなり、直近の関連度のデータ同士でセグメントが形成されると共に、蓄積期間内で比較的古いデータはそのセグメントから排除されやすくなる。その結果、セグメント形成の成熟期におけるセグメントサイズの増大を抑制することができる。これにより、セグメントの成熟期におけるセグメントが大きすぎる場合に、１回のディスクアクセス時間が長くなるので、単一データに比べてディスクへの読み書きについてのコストが大きくなることによるセグメントの読み出し性能の劣化を抑制できる。

　なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を取ることができる。

　１　　　データ配置装置
　２　　　モニタリング部
　３　　　生成部
　４　　　特定部
　１１　　サーバ
　１２　　制御装置
　１３　　メモリ
　１４　　ディスク
　１５　　クライアント
　１６　　ネットワーク
　２１　　入出力管理部
　２２　　関連性抽出部
　２３　　関連度決定部
　２４　　配置決定部
　２５　　セグメントサイズ算出部
　１３ａ　キャッシュ領域
　３１　　データ管理テーブル
　３２　　関連性管理テーブル
　３３　　セグメント平均サイズ

Claims

　コンピュータに、
　データ間の関連性に応じてグループ化されたデータ群である複数のセグメントが格納された格納装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度をモニタ期間中にモニタし、
　前記格納装置に格納された前記複数のセグメントのサイズの傾向を示す傾向情報と、前記モニタされた前記関連度とに基づいて、該モニタ期間における前記関連度である関連性評価情報を生成し、
　前記関連性評価情報に基づいて前記データをグループ化し、グループ毎の配置対象のデータを特定する
　処理を実行させるデータ配置プログラム。
　前記関連性評価情報の生成において、
　時間経過と共に減少する重みを用い、
　前記傾向情報が閾値以上の場合には前記重みの減少の度合いを大きくし、前記傾向情報が閾値以上の場合には前記重みの減少の度合いを小さくする
　ことを特徴とする請求項１に記載のデータ配置プログラム。
　前記関連性評価情報の生成において、
　モニタ期間での断続的にモニタされた前記関連度のそれぞれに前記重みを乗じ、該重みはより過去にモニタされた関連度ほど前記重みを指数関数的に減らしていき、
　前記重みの減少度合いは、前記傾向情報に基づく平滑化係数により決定される
　ことを特徴とする請求項２に記載のデータ配置プログラム。
（以下、項番下げ）
　前記モニタにおいて、前記関連度は前記モニタ期間中に継続的にモニタされることを特
徴とする請求項１記載のデータ配置プログラム。
　データ間の関連性に応じてグループ化されたデータ群である複数のセグメントが格納された格納装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度をモニタ期間中にモニタするモニタリング部と、
　前記格納装置に格納された前記複数のセグメントのサイズの傾向を示す傾向情報と、前記モニタされた前記関連度とに基づいて、該モニタ期間における前記関連度である関連性評価情報を生成する生成部と、
　前記関連性評価情報に基づいて前記データをグループ化し、グループ毎の配置対象のデータを特定する特定部と、
　を備えることを特徴とするデータ配置装置。
　コンピュータが、
　データ間の関連性に応じてグループ化されたデータ群である複数のセグメントが格納された格納装置に対するアクセス要求により連続してアクセスされたデータのペア毎に、該ペアへのアクセス頻度に基づくデータ間の関連度をモニタ期間中にモニタし、
　前記格納装置に格納された前記複数のセグメントのサイズの傾向を示す傾向情報と、前記モニタされた前記関連度とに基づいて、該モニタ期間における前記関連度である関連性評価情報を生成し、
　前記関連性評価情報に基づいて前記データをグループ化し、グループ毎の配置対象のデータを特定する
　ことを特徴とするデータ配置方法。