WO2017168578A1

WO2017168578A1 - データ処理システム及びデータ処理方法

Info

Publication number: WO2017168578A1
Application number: PCT/JP2016/060192
Authority: WO
Inventors: 司柴山; 裕教江丸; 耕一村山
Original assignee: 株式会社日立製作所
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2017-10-05
Also published as: US20180165380A1

Abstract

非構造化データの第１種メタデータに、その非構造化データの１以上のコンテンツ属性を表すコンテンツ情報を含んだ第２種メタデータが関連付けられる。１以上の非構造化データの各々について、その非構造化データを参照する２以上の第１種メタデータが、その非構造化データのオリジナルのメタデータである第１の第１種メタデータと、検索条件に適合した第２種メタデータが関連付けられている第１の第１種メタデータの複製に基づく第２の第１種メタデータとを含む。データ処理システムは、並列に使用されることが推奨される複数の仮想ボリュームに関わる情報を表示する。その複数の仮想ボリュームは、複数の検索条件の少なくとも１つに適合する複数の第２種メタデータが関連付いている複数の第１種メタデータの１又は複数の重複度に基づく２以上の第２の第１種メタデータが関連付けられる。

Description

データ処理システム及びデータ処理方法

　本発明は、概して、データ処理に関する。

　ストレージシステムにより管理されているデータは、検索及び分析等の様々な用途に使用し得る。

　例えば、ビックデータ分析では、特に、ファイルなど保存構造が定まっていない非構造化データに対する分析が、業務における新たな知見や気づきを得る有用な方法として期待されている。このビックデータ分析では、大量のデータを対象に分析を行うことで検索に時間がかかり、分析完了までに多大な時間を要してしまうことを防ぐため、大量のデータから分析に必要なデータのみの集合を作成することがある。必要なデータのみの集合を「データマート」（以下、ＤＭ）と呼び、当該データ集合の作成を「ＤＭ作成処理」という。特許文献１には、データマートを作成する技術が開示されている。

特開2002-366401号公報

　ユーザによっては、多数（例えば数百）の観点でデータ分析を行うために多数（例えば数百）ものＤＭを作成して分析を行いたいことがある。

　しかし、特許文献１の技術を利用して数百のＤＭを作成すると、コピー時間及び容量が膨大になってしまう。

　一方で、ＤＭを作成せずに分析を行おうとすると、大量のデータを対象に検索を行うため、検索に時間を要してしまう上に、特定の記憶デバイス（例えば、ＤＷＨ（データウェアハウス）やＤＬ（データレイク）と呼ばれるようなデータソースに基づき記憶デバイス）に対するアクセス集中によりボトルネックが発生する場合がある。

　このような課題は、非構造化データソースから分析を目的としてＤＭを作成する処理に限らず、分析以外の用途のために非構造化データソースからデータ集合（部分集合）を作成する処理についてもあり得る。

　非構造化データソースに含まれる複数の非構造化データのうちの少なくとも１つの非構造化データの第１種メタデータに、その非構造化データの１以上のコンテンツ属性を表すコンテンツ情報を含んだメタデータである第２種メタデータが関連付けられる。１以上の非構造化データの各々について、その非構造化データを参照する２以上の第１種メタデータが、第１及び第２の第１種メタデータを含む。第１の第１種メタデータは、その非構造化データのオリジナルのメタデータである。第２の第１種メタデータは、検索条件に適合した第２種メタデータが関連付けられているその第１の第１種メタデータの複製に基づくメタデータである。データ処理システムは、並列に使用されることが推奨される複数の仮想ボリュームに関わる情報である推奨情報を表示する。複数の仮想ボリュームには、複数の検索条件の少なくとも１つに適合する複数の第２種メタデータが関連付いている複数の第１種メタデータの１又は複数の重複度に基づく２以上の第２の第１種メタデータが関連付けられる。１又は複数の重複度の各々は、少なくとも２つの第１種メタデータにそれぞれ対応した少なくとも２つの参照先の重複部分のデータ量に従う値である。

　検索条件は、例えば分析観点に従う検索条件である。そのような検索条件に適合するデータ集合を、非構造化データソース内の非構造化データを検索することと非構造化データを複製することのいずれも行うこと無しに、生成可能である。このため、検索条件に適合するデータ集合を、消費記憶容量の増大を抑え短時間に生成することができる。更に、並列に使用されることが推奨される複数の仮想ボリュームに関する情報を表示できる。結果として、データ集合の生成からデータ集合を使用した処理までに必要となる時間の削減が可能となる。

実施例１の概要を示す。Ｃスナップ処理とその前後の処理とを含んだ一連の処理の一例の概要を示す。実施例１に係る計算機システムのブロック図である。スナップショット処理の一例を示す。ストレージ管理テーブルの構成を示す。１つのＳメタに含まれるＳメタ管理情報及びＳメタ属性情報の構成を示す。１つのＣメタに含まれるＣメタ管理情報の構成を示す。コピーペア管理テーブルの構成を示す。構成管理テーブルの構成を示す。データリード処理のフローチャートである。データライト処理のフローチャートである。抽出処理のフローチャートである。Ｃスナップ（選別）のフローチャートである。Ｃスナップ（スナップ取得）のフローチャートである。重複チェック処理のフローチャートである。実施例２に係る計算機システムのブロック図である。性能管理テーブルの構成を示す。抽出処理から重複チェック処理までの処理全体のフローチャートである。Ｓ５９２０のフローチャートである。Ｓ５９６０のフローチャートである。スケールアウト処理の概要を示す。

　以下、図面を参照して、幾つかの実施例を説明する。

　なお、以下の説明では、「インターフェース部」は、１以上のインターフェースを含む。１以上のインターフェースは、１以上の同種のインターフェースデバイス（例えば１以上のＮＩＣ（Network Interface Card））であってもよいし２以上の異種のインターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

　また、以下の説明では、「記憶部」は、１以上のメモリを含む。少なくとも１つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。記憶部は、１以上のメモリに加えて、１以上のＰＤＥＶを含んでもよい。「ＰＤＥＶ」は、物理的な記憶デバイスを意味し、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）でよい。ＰＤＥＶは、例えば、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive)でよい。

　また、以下の説明では、「プロセッサ部」は、１以上のプロセッサを含む。少なくとも１つのプロセッサは、典型的には、ＣＰＵ（Central Processing Unit）である。プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。

　また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ部によって実行されることで、定められた処理を、適宜に記憶部及びインターフェース部のうちの少なくとも１つを用いながら行うため、処理の主語が、プロセッサ部（或いは、プロセッサ部を有する計算機又は計算機システム）とされてもよい。プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な記録媒体であってもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

　また、以下の説明では、「ｘｘｘテーブル」といった表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部又は一部が１つのテーブルであってもよい。

　また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号（又は参照符号における共通部分）を使用し、同種の要素を区別して説明する場合は、要素のＩＤ（又は要素の参照符号）を使用することがある。

　また、以下の説明では、「ホストシステム」は、１以上の物理的なホスト計算機（例えばホスト計算機のクラスタ）であってもよいし、少なくとも１つの仮想的なホスト計算機（例えばＶＭ（Virtual Machine））を含んでもよい。

　また、以下の説明では、「管理システム」は、一以上の計算機で構成されてよい。具体的には、例えば、管理計算機が表示デバイスを有していて管理計算機が自分の表示デバイスに情報を表示する場合、管理計算機が管理システムでよい。また、例えば、管理計算機（例えばサーバ）が表示用情報を遠隔の表示用計算機（例えばクライアント）に送信し表示用計算機がその情報を表示する場合（管理計算機が表示用計算機に情報を表示する場合）、管理計算機と表示用計算機とのうちの少なくとも管理計算機を含んだシステムが管理システムでよい。

　また、以下の説明では、「ストレージシステム」は、１以上の物理的なストレージ装置であってもよいし、少なくとも１つの仮想的なストレージ装置（例えばＬＰＡＲ（Logical Partition）又はＳＤＳ（Software Defined Storage））を含んでもよい。

　また、以下の説明では、「ＲＡＩＤ」は、Redundant Array of Independent (or Inexpensive) Disksの略である。ＲＡＩＤグループは、複数のＰＤＥＶ（典型的には同種のＰＤＥＶ）で構成され、そのＲＡＩＤグループに関連付けられたＲＡＩＤレベルに従いデータを記憶する。ＲＡＩＤグループは、パリティグループと呼ばれてもよい。パリティグループは、例えば、パリティを格納するＲＡＩＤグループのことでよい。

　また、以下の説明では、「ＶＯＬ」は、論理ボリュームの略であり、論理的な記憶デバイスでよい。ＶＯＬは、実体的なＶＯＬ（ＲＶＯＬ）であってもよいし、仮想的なＶＯＬ（ＶＶＯＬ）であってもよい。「ＲＶＯＬ」は、そのＲＶＯＬを提供するストレージシステムが有する物理的な記憶資源（例えば、１以上のＲＡＩＤグループ）に基づくＶＯＬでよい。「ＶＶＯＬ」は、外部接続ＶＯＬ（ＥＶＯＬ）と、容量拡張ＶＯＬ（ＴＰＶＯＬ）と、スナップショットＶＯＬとのうちのいずれでもよい。ＥＶＯＬは、外部のストレージシステムの記憶空間（例えばＶＯＬ）に基づいておりストレージ仮想化技術に従うＶＯＬでよい。ＴＰＶＯＬは、複数の仮想領域（仮想的な記憶領域）で構成されており容量仮想化技術（典型的にはThin Provisioning）に従うＶＯＬでよい。スナップショットＶＯＬは、オリジナルのＶＯＬのスナップショットとして提供されるＶＯＬでよい。スナップショットＶＯＬは、ＲＶＯＬであってもよい。「プール」は、論理的な記憶領域（例えば複数のプールＶＯＬの集合）でよい。例えば、プールとして、ＴＰプールと、スナップショットプールとのうちの少なくとも１種類があってよい。ＴＰプールは、複数の実領域（実体的な記憶領域）で構成された記憶領域でよい。ストレージシステム（例えば後述のストレージコントローラ）が、ホストシステムから受信したライト要求が指定するアドレスが属する仮想領域（ＴＰＶＯＬの仮想領域）に実領域が割り当てられていない場合、その仮想領域（ライト先仮想領域）にＴＰプールから実領域を割り当ててよい（ライト先仮想領域に他の実領域が割り当て済であっても実領域が新たにライト先仮想領域に割り当てられてもよい）。ストレージシステムは、割り当てられた実領域に、そのライト要求に付随するライト対象データを書き込んでよい。スナップショットプールは、オリジナルのＶＯＬから退避されたデータが格納される記憶領域でよい。１つのプールが、ＴＰプールとしてもスナップショットプールとしても使用されてもよい。「プールＶＯＬ」は、プールの構成要素となるＶＯＬでよい。プールＶＯＬは、ＲＶＯＬであってもよいしＥＶＯＬであってもよい。

　図１は、実施例１の概要を示す。

　実施例１に係る計算機システムは、１以上のホスト計算機２００、管理計算機１００、及び、ストレージ装置３００を含む。ホスト計算機２００はネットワーク５００を介しストレージ装置３００に接続される。管理計算機１００はネットワーク５５０を介しストレージ装置３００に接続される。

　ホスト計算機２００は、アプリケーションプログラム（以下、アプリ）２１１を実行する。例えば、ホスト計算機２００Ａは、分析アプリ２１１Ａを実行する。管理計算機１００は、管理プログラム１１２を実行する。

　ストレージ装置３００は、オブジェクトストレージ装置であり、ストレージコントローラ３２９を有する。ストレージコントローラ３２９は、ローカルメモリ１２００を有し、ＶＯＬ２６を提供する。ＶＯＬ２６として、少なくとも、データＶＯＬ２６Ｄがある。データＶＯＬ２６Ｄは、ネームスペース又はＤＷＨ（Data Ware House）のようなデータソース（典型的には非構造化データソース）の一例である。データＶＯＬ２６Ｄには、データチャンク８１が格納される。本実施例において、「データチャンク」は、有意な単位のデータ（例えば、静止画、動画、Ｅメール）である。データチャンクは、例えば、センサからのデータを含んだ時系列データのうちの一部分（例えば或る時間毎のデータ）であってもよい。所定のデータ属性が共通する１以上のデータチャンク８１が同一のオブジェクトに含まれる。本実施例において、「オブジェクト」は、１以上のデータチャンク８１と、その１以上のデータチャンク８１に対応した１つのＳメタ８２とを含むデータセットである。例えば、データチャンク８１が、データ発行元（例えば、カメラ等のセンサ）からのデータの場合、同一のデータ発行元からの各データが「データチャンク」であり、同一のデータ発行元からの複数のデータチャンク（データ属性「発行元」が共通する複数のデータチャンク）が同一の「オブジェクト」に含まれる。なお、「非構造化データ」は、いわゆる半構造化データを含む概念であってもよい。以下、１つのオブジェクトに含まれる１以上のデータチャンクを「データチャンクユニット」と言う。「非構造化データ」は、オブジェクト内の各データチャンクであってもよいし、一部のデータチャンクであってもよいし、データチャンクユニットであってもよい。

　本実施例では、２種類のメタデータが存在する。２種類のメタデータの少なくとも一部がローカルメモリ１２００に格納される。２種類のメタデータを、本実施例では、「Ｓメタ」及び「Ｃメタ」と呼ぶ。Ｓメタ８２（又は、１つのデータチャンクに対応した後述のＳメタ属性情報１２２０）が、第１種メタデータの一例であり、Ｃメタ８３が、第２種メタデータの一例である。本実施例では、Ｓメタ８２とオブジェクトが１：１で対応する。故に、Ｓメタ８２とデータチャンク８１が１：１又は１：多で対応する。一方、Ｃメタ８３とデータチャンク８１は、１：１又は多：１で対応する。ユーザ毎に後述の抽出プログラムが存在することがあり、その場合、抽出プログラムによって同一のデータチャンク８１であっても作成するＣメタ８３が異なるためである。故に、Ｓメタ８２とＣメタ８３が１：１又は１：多で対応する。Ｓメタ８２は、オブジェクトに含まれるデータチャンクユニット８０（全てのデータチャンク８１）に紐付いているメタデータであり、例えば、ＳメタＩＤ（オブジェクトＩＤ）と、対応するオブジェクトに含まれる各データチャンク８１の格納場所を表す情報とを含む。一方、Ｃメタ８３は、データＶＯＬ２６Ｄから抽出されたデータチャンク８１（データコンテンツ）から特定された１以上のコンテンツ属性を表すコンテンツ情報を含んだメタデータである。「コンテンツ属性」とは、データのコンテンツに関する属性であり、例えば、データ種別（例えば画像、Ｅメール）、時刻（例えば、取得時刻又は更新時刻）等である。コンテンツ情報は、テキスト（例えば文字列）で表現された情報であるが、テキストに代えて加えて他種の情報（例えば特徴量等を表す数値）を含んでもよい。Ｓメタ８２とＣメタ８３には、相互にその関係性を示すための情報も保持される。具体的には、Ｃメタ８３は、そのＣメタ８３に対応したデータチャンク８１を参照するＳメタ８２を参照し、そのＣメタ８３により参照されるＳメタ８２は、そのＣメタ８３を参照する。つまり、同一のデータチャンク８１に対応したＣメタ８３及びＳメタ８２が互いに参照し合う。なお、このような双方向の参照（リンク）に代えて、Ｃメタ８３からＳメタ８２への単方向の参照が採用されてもよい。Ｃメタ８３は、データチャンク８１のメタデータの一種であるため、典型的には、データチャンク８１よりもデータ量が小さい。また、Ｓメタ８２とオブジェクトは、１：１に限らない（例えば、多：多又は１：多でもよい）。

　ホスト計算機２００は、Ｉ／Ｏ（Input/Output）要求をストレージ装置３００に発行する。Ｉ／Ｏ要求は、ライト要求又はリード要求である。Ｉ／Ｏ要求がリード要求の場合、リード対象のデータチャンク８１に対応したオブジェクトＩＤが指定されるようになっている。ストレージコントローラ３２９は、例えばホスト計算機２００Ａからリード要求を受信した場合、そのリード要求が指定するオブジェクトＩＤが記述されたＳメタ８２を特定し、特定したＳメタ８２が指すデータチャンク８１をデータＶＯＬ２６Ｄから読み出し、そのデータチャンク８１をホスト計算機２００Ａに返信する。

　ストレージコントローラ３２９は、ＤＭ作成処理を実行する。ＤＭ作成処理は、ユーザからの特定種類の要求であるユーザ要求に応答して開始される。ユーザ要求は、ＤＭ作成の明示的な要求であってもよいし、検索要求のようにＤＭ作成要求の１つとして定義された要求であってもよい。本実施例では、ストレージコントローラ３２９は、ホスト計算機２００のユーザ（例えば分析者）から検索要求を受け付け、管理計算機１００のユーザ（例えば管理者）からＤＭ作成要求を受け付ける。ユーザ要求では、分析観点等に従う検索条件（ＤＭに含まれるべきデータに関する条件）が指定される。検索条件としては、例えば、データ種別（例えば、写真、Ｅメール）、データ発行元（例えば、センサ型番）、位置（例えば、撮影位置のようなデータ取得位置）、時間帯（例えば、撮影時刻のような時間帯）及びデータ値範囲（例えば、データに含まれるメトリック値の上限と下限）のうちの少なくとも１つについての条件を採用し得る。

　検索条件として、通常は、データチャンク８１が実際に格納されている領域（例えばＶＯＬ領域）のアドレスは指定されない。通常、そのようなアドレスをユーザは知らないためである。

　しかし、本実施例に係るＤＭ作成処理は、以下の（理由１）～（理由３）のうちの少なくとも（理由３）から、短時間で終了することが期待される。
（理由１）ＤＭ作成処理では、Ｃメタ８３が参照され、データＶＯＬ２６Ｄ内のデータチャンク８１は参照されない。
（理由２）ＤＭ作成処理において参照されるＣメタ８３は、ＤＭ作成処理と非同期に作成されたＣメタ８３（例えば、ＤＭ作成処理の開始前に作成されたＣメタ８３）である。言い換えれば、Ｃメタ８３は、ＤＭ作成処理の開始の契機であるユーザ要求とは異なる契機で作成される。例えば、データチャンク８１がデータＶＯＬ２６Ｄに格納されたときにそのデータチャンク８１のＣメタ８３が作成される。
（理由３）ＤＭ作成のためにデータチャンク８１を複製することは不要である。すなわち、作成されるＤＭは、データＶＯＬ２６Ｄ内のデータチャンク８１の複製が格納される実体的なＤＭではなく、データＶＯＬ２６Ｄ内のデータチャンク８１を参照する仮想的なＤＭ（以下、ＶＤＭ）である。ＶＤＭは、本実施例ではＳＳＶＯＬ（スナップショットＶＯＬ）２６Ｓである。ＳＳＶＯＬ２６Ｓの作成のためには、第１Ｓメタ８２Ｓを複製すればよく、データチャンク８１それ自体の複製は不要である。なお、ＶＤＭに含まれるデータチャンク８１がＳメタ８２の全ての参照先データチャンク８１とは限らないため、第１Ｓメタ８２Ｓの複製に基づくメタデータである第２Ｓメタ８２Ｔは、第１Ｓメタ８２Ｓと完全には一致しないこともある。第１Ｓメタ８２Ｓは、オブジェクトに含まれるオリジナルのメタデータであり、第２Ｓメタ８２Ｔは、上述したように、第１Ｓメタ８２Ｓの複製に基づくメタデータである。第１Ｓメタ８２Ｓが、第１の第１種メタデータの一例であり、第２Ｓメタ８２Ｔが、第２の第２種メタデータの一例である。つまり、本実施例では、Ｓメタ８２として、第１Ｓメタ８２Ｓと第２Ｓメタ８２Ｔとがある。なお、第２Ｓメタ８２Ｔは、ＳＳＶＯＬ２６Ｓを通じて参照可能なデータチャンクであるスナップショットデータチャンク（実体は、データＶＯＬ２６Ｄ内のデータチャンク）に関する情報を保持するデータなので、必ずしもメタデータといった便宜的なデータ名を使用しなくてもよく、例えば、スナップショット管理データのように別の名称で呼ばれてもよい（この場合、混同が生じないので、第１Ｓメタは、単に「Ｓメタ」又は「メタデータ」と呼ばれてもよい）。

　以上の理由を基に、以下、本実施例に係るＤＭ作成を、「Ｃスナップ」と呼び、ＤＭ作成処理を「Ｃスナップ処理」と呼ぶ。なお、ＤＭは、データ集合の一例であり、ＶＤＭは、仮想的なデータ集合の一例である。

　図１の例によれば、例えば、分析アプリ２１１Ａ（ホスト計算機２００Ａ）からの検索要求とは非同期に（例えば、検索要求に応答してＣスナップ処理が開始される前に）、ストレージコントローラ３２９が、データＶＯＬ２６Ｄ内のデータチャンクユニット＃１、＃２及び＃３にそれぞれ対応したＣメタ＃１、＃２及び＃３を作成してローカルメモリ１２００に格納する。Ｃメタ＃１は、データチャンクユニット＃１を参照する第１Ｓメタ＃１を参照し、Ｃメタ＃２は、データチャンクユニット＃２を参照する第１Ｓメタ＃２を参照し、Ｃメタ＃３は、データチャンクユニット＃３を参照する第１Ｓメタ＃３を参照する。図１の例によれば、データユニット＃１は１つのデータチャンクであり、故に、データチャンクユニット＃１を参照する第１Ｓメタ＃１には、１つのＣメタ＃１が関連付けられる。一方、データチャンクユニット＃２及び＃３の各々は、複数のデータチャンクであり、故に、データチャンクユニット＃２を参照する第１Ｓメタ＃２には、Ｃメタ＃２を含む複数のＣメタが関連付けられ、データチャンクユニット＃３を参照する第１Ｓメタ＃３には、Ｃメタ＃３を含む複数のＣメタが関連付けられる。

　図１の例によれば、ストレージコントローラ３２９は、検索要求に応答して、Ｃスナップ処理を開始する。Ｃスナップ処理は、「Ｃスナップ（選別）」と、「Ｃスナップ（スナップ取得）」の２つに大別される。Ｃスナップ（選別）では、ストレージコントローラ３２９は、存在するＣメタ＃１～＃３から、検索要求で指定されている検索条件（例えば分析観点＃１に従う条件）に適合するＣメタ８３を探す。つまり、検索範囲が、データチャンク８１ではなくＣメタ８３である。検索条件に適合した少なくとも１つのＣメタ８３が見つかった場合、Ｃスナップ（スナップ取得）が実行される。Ｃメタ＃１が見つかったとする。Ｃスナップ（スナップ取得）では、ストレージコントローラ３２９は、Ｃメタ＃１が参照する第１Ｓメタ＃１の複製に基づく第２Ｓメタ＃１－１を作成する（Ｓ１Ａ）。ストレージコントローラ３２９は、第２Ｓメタ＃１－１が属するＳＳＶＯＬ＃１（ＶＤＭ）を作成する。ストレージコントローラ３９２は、ＳＳＶＯＬ＃１を、１以上のホスト計算機２００のうちの少なくともホスト計算機２００Ａ（検索要求の送信元）に提供する。分析アプリ２１１Ａ（ホスト計算機２００Ａ）は、ＳＳＶＯＬ＃１に属する第２Ｓメタ＃１－１が参照する１以上のデータチャンク８１を用いて分析を実行できる。なお、ＳＳＶＯＬ＃１が参照する１以上のデータチャンク８１のアクセス状態（アクセス制限）として、例えば、“Ｒ／Ｗ可”（リード及びライトのいずれも可）、“ＲＯ”（リードオンリー（リードのみ可））、及び、“Ｒ／Ｗ不可”（リード及びライトのいずれも不可）のいずれが採用されてもよい。例えば下記のうちの少なくとも１つが採用されてよい。
（Ｖ１）ＳＳＶＯＬ＃１の提供先が複数のホスト計算機２００の場合、ＳＳＶＯＬ＃１のアクセス状態は“ＲＯ”とされてよい。これにより、複数のホスト計算機２００間でデータの整合性を維持できる。
（Ｖ２）ＳＳＶＯＬ＃１の提供先がホスト計算機２００Ａのみの場合、ＳＳＶＯＬ＃１のアクセス状態は“Ｒ／Ｗ”とされてよい。これにより、ホスト計算機２００ＡがＳＳＶＯＬ＃１をカスタマイズできる。例えば、ストレージコントローラ３２９は、ＳＳＶＯＬ＃１を指定したライト要求を受けた場合、そのライト要求に付随するデータチャンクを、プールに格納してよい。

　以上の通り、Ｃスナップ処理は、データチャンク８１の複製が不要のため、短時間で終了することが期待できる。第２Ｓメタ８２Ｔには、その第２Ｓメタ８２Ｔが参照するデータチャンク８１についてのＣメタ８３であって、その第２Ｓメタ８２Ｔの複製元の第１Ｓメタ８２Ｓに関連付いていたＣメタ８３が関連付けられる。

　図１の例によれば、データチャンクユニット＃２の一部とデータチャンクユニット＃３の一部が重複（共通）している。言い換えれば、一部のデータチャンク８１が、データチャンクユニット＃２を含むオブジェクトとデータチャンクユニット＃３を含むオブジェクトの両方に所属している。第２Ｓメタ＃２－１の一部と第２Ｓメタ＃３－１の一部も互いに重複している。具体的には、第２Ｓメタ＃２－１の参照先の一部と第２Ｓメタ＃３－１の参照先の一部は、同一のデータチャンク８１である。

　ホスト計算機２００Ｂの分析アプリ２１１Ｂが、分析観点＃２に従う検索条件を指定した検索要求をストレージコントローラ３２９に送信したとする。この場合、ストレージコントローラ３２９が、その検索条件に適合するＣメタ＃２を見つけ、Ｃメタ＃２が参照する第１Ｓメタ＃２を複製し（Ｓ１Ｂ）、第１Ｓメタ＃２の複製に基づく第２Ｓメタ＃２－１が属するＳＳＶＯＬ＃２（ＶＤＭ）を作成し、ＳＳＶＯＬ＃２を、１以上のホスト計算機２００のうちの少なくともホスト計算機２００Ｂ（検索要求の送信元）に提供する。同様に、ホスト計算機２００Ｃの分析アプリ２１１Ｃが、分析観点＃３に従う検索条件を指定した検索要求をストレージコントローラ３２９に送信したとする。この場合、ストレージコントローラ３２９が、その検索条件に適合するＣメタ＃３を見つけ、Ｃメタ＃３が参照する第１Ｓメタ＃３を複製し（Ｓ１Ｃ）、第１Ｓメタ＃３の複製に基づく第２Ｓメタ＃３－１が属するＳＳＶＯＬ＃３（ＶＤＭ）を作成し、ＳＳＶＯＬ＃３を、１以上のホスト計算機２００のうちの少なくともホスト計算機２００Ｃ（検索要求の送信元）に提供する。

　検索要求のようなユーザ要求は、ホスト計算機２００に代えて又は加えて管理計算機１００が発行してもよい。また、１つのユーザ要求で、複数の分割観点（例えば、複数の分割観点にそれぞれ対応した複数の検索条件）が指定されてもよい。ストレージコントローラ３２９は、複数の分割観点の指定を１以上のユーザ要求から特定できる。

　本実施例では、データチャンク８１の検索とデータチャンク８１の複製とのいずれも行うこと無しに、ＶＤＭ（ＳＳＶＯＬ２６Ｓ）を作成することができる。つまり、分析観点に適合するＤＭを、消費記憶容量の増大を抑え短時間に生成することができる。このため、分析観点の異なる多数（例えば数百）のＶＤＭが作成されることが考えられる。複数の分析観点に従う複数の分析のうち可能な限り多くの分析が並列に実行されることが望ましい。しかし、複数のＶＤＭを使用して並列に複数の分析を実行するには必ずしもリソース量（例えば、ＶＤＭ内の参照対象のデータチャンクが一時的に格納されるキャッシュメモリの容量）が十分でない。

　そこで、本実施例では、複数のＶＤＭに対応した複数の第２Ｓメタ８２Ｔの参照先の一部が重複し得るという上述の特性に着目した処理が実行される。すなわち、ストレージコントローラ３２９が、複数の第２Ｓメタ８２Ｔの重複度に基づき、並列に（例えば同時に）使用することが推奨される２以上のＶＤＭ（ＳＳＶＯＬ２６Ｓ）に対応した２以上の第２Ｓメタ８２Ｔが属するグループを構築する（「構築」は「更新」を含んでよい）。以下、このグループを「分析グループ」と言う。分析グループ内の第２Ｓメタ８２Ｔがわかり、その第２Ｓメタ８２Ｔに対応したＶＤＭと、その第２Ｓメタ８２Ｔに関連付いたＣメタ８３とがわかり、そのＣメタ８３に対応した分析観点がわかる。ストレージコントローラ３２９は、構築された１以上の分析グループに基づく制御である分析制御処理を実行する。「複数の第２Ｓメタ８２Ｔ」とは、ストレージコントローラ３２９が管理する全ての第２Ｓメタ８２Ｔであってもよいし、１以上のＣメタ８３が関連付いた第２Ｓメタ８２Ｔであってもよい。この「１以上のＣメタ８３」は、１以上のユーザ要求で指定された複数の分析観点に適合するＣメタ８３である。

　ストレージコントローラ３２９は、複数の分析観点を指定した１以上のユーザ要求を受信したか否かに関わらず（例えば定期的に）、分析グループの構築を実行してもよい。例えば、ストレージコントローラ３２９は、既存の複数の第２Ｓメタ８２Ｔの重複度を算出する。ストレージコントローラ３２９は、既存の複数の第２Ｓメタ８２Ｔの重複度と、その複数の第２Ｓメタ８２Ｔに関連付いた既存のＣメタ８３とに基づき、分析グループを構築する。その後、ストレージコントローラ３２９は、要求（例えば、推奨表示要求）を受信したときに、その構築した分析グループに関する情報である推奨情報を提示する。その推奨情報は、分析グループに含まれる全ての分析（すなわち、並列に実行することが推奨される複数の分析（分析観点））を表す情報と、その分析グループに属する全ての第２Ｓメタ８２Ｔを表す情報と、その分析グループに属する第２Ｓメタ８２Ｔが関連付いたＳＳＶＯＬ２６Ｓを表す情報（例えば後述のルートＩＤ）と、その分析グループに属する第２Ｓメタ８２Ｔに関連付いたＣメタ８３を表す情報とのうちの少なくとも１つを含んでいてもよい。

　或いは、ストレージコントローラ３２９は、複数の分析観点を指定した１以上のユーザ要求を受信したときに、その１以上のユーザ要求に応答して、分析グループの構築と分析制御処理とを実行してもよい。例えば、ストレージコントローラ３２９は、複数の分析観点の各々について、その分析観点に適合するＣメタ８３を見つけて、そのＣメタ８３が関連付いた第２Ｓメタ８２Ｔを特定する。ストレージコントローラ３２９は、複数の分析観点について特定された複数の第２Ｓメタ８２Ｔの重複度を算出する。ストレージコントローラ３２９は、算出された重複度に基づき、１以上の分析グループを構築する。ストレージコントローラ３２９は、構築された１以上の分析グループについて分析制御処理を実行する。分析制御処理は、例えば、構築された１以上の分析グループについて上述した推奨情報を提示することを含む。なお、少なくとも１つの分析グループが、２以上の第２Ｓメタ８２Ｔを含むが、いずれかの分析グループに含まれる第２Ｓメタ８２Ｔの数は１であることもあり得る。

　＜複数の第２Ｓメタ８２Ｔの重複度＞

　複数の第２Ｓメタ８２Ｔの「重複度」とは、複数の第２Ｓメタ８２Ｔの少なくとも２つの参照先の重複部分のデータ量に従う値である。具体的には、例えば、複数の第２Ｓメタ８２Ｔの「重複度」とは、複数の第２Ｓメタ８２Ｔの参照先重複アドレス範囲（言い換えれば重複データチャンク群）の量であってもよいし、複数の第２Ｓメタ８２Ｔの参照先アドレス範囲（言い換えれば、参照先のデータチャンク群）の量に対する参照先重複アドレス範囲（言い換えれば重複データチャンク群）の量の割合であってもよい。「重複データチャンク群」は、１以上の重複データチャンクである。「重複データチャンク」は、複数の第２Ｓメタ８２Ｔのうちの２以上の第２Ｓメタ８２Ｔから参照されるデータチャンクである。

　第１の例として、複数の第２Ｓメタ８２Ｔの重複度は、或る第２Ｓメタ８２Ｔと残りの第２Ｓメタ８２Ｔの各々との重複度でよい。１つの分析グループに含まれる２以上の第２Ｓメタ８２Ｔの各々をノードとした場合、その２以上の第２Ｓメタ８２Ｔの構造は、スター型の構造である。

　第２の例として、複数の第２Ｓメタ８２Ｔの重複度は、複数の第２Ｓメタ８２Ｔにおける複数の重複にそれぞれ対応した複数の重複度に基づく値（例えば、合計又は平均）であってよい。複数の重複の各々は、いずれかの２以上の第２Ｓメタ８２Ｔの重複である。１つの分析グループに含まれる２以上の第２Ｓメタ８２Ｔの各々をノードとした場合、その２以上の第２Ｓメタ８２Ｔの構造は、木構造である。

　＜分析制御処理＞

　分析制御処理は、下記（ｐ）～（ｓ）のうちの少なくとも１つを含んだ処理である。

　（ｐ）構築された１以上の分析グループに関する推奨情報を提示（表示）する処理。推奨情報は、その構築された１以上の分析グループの各々について、分析グループから特定される全ての分析（すなわち、並列に実行することが推奨される分析（分析観点））を表す情報と、その分析グループに含まれる全ての第２Ｓメタ８２Ｔを表す情報（例えば後述のＳメタＩＤ１２１０００１）と、その分析グループに含まれる第２Ｓメタ８２Ｔが属するＳＳＶＯＬ２６Ｓを表す情報（例えば後述のルートＩＤ）と、その分析グループに含まれる第２Ｓメタ８２Ｔに関連付いたＣメタ８３を表す情報（例えば後述のＣメタＩＤ１２３００１及びユーザ拡張１２３００６）とのうちの少なくとも１つを含む。推奨情報の提示先は、ホスト計算機２００と管理計算機１００のうちの少なくとも１つ（例えば、推奨情報の提示をするトリガとなったユーザ要求の送信元）でよい。

　（ｑ）構築された１以上の分析グループから所定のグループ条件に適合する分析グループを選択し、選択された分析グループに含まれる第２Ｓメタ８２Ｔと、その第２Ｓメタ８２Ｔにより参照されるデータチャンク８１と、その第２Ｓメタ８２Ｔに関連付いたＣメタ８３とを、別のストレージ装置にコピーする処理。「所定のグループ条件」とは、例えば、キャッシュメモリの容量よりも大容量のデータチャンク群を参照することである。キャッシュメモリの容量よりも大容量のデータチャンク群（少なくとも重複データチャンク群）を参照する分析グループを、以下、「大容量分析グループ」と言う。一方、キャッシュメモリの容量以下の容量のデータチャンク群（少なくとも重複データチャンク群）を参照する分析グループを、以下、「低容量分析グループ」と言う。

　（ｒ）構築された１以上の分析グループから大容量分析グループを間引く処理。処理（ｒ）の結果として残った分析グループについて処理（ｐ）が行われてよい。つまり、提示される分析グループは、低容量分析グループのみでよい。なお、分析グループの構築の際に、低容量分析グループのみが構築されるよう制御されてもよい。例えば、分析グループの構築において、キャッシュメモリの容量（後述の構成管理テーブル１２４０から特定されるキャッシュメモリ容量）以下のデータチャンク群を参照するような１以上の第２Ｓメタ８２Ｔを含んだ低容量分析グループが構築されるようになっていてもよい。

　（ｓ）高重複度分析グループ且つ大容量分析グループである分析グループに代えて、低重複度分析グループを採用する処理。「低重複度分析グループ」とは、重複度が閾値未満の２以上の第２Ｓメタ８２Ｔを含んだ分析グループである。一方、「高重複度分析グループ」とは、重複度が閾値以上の２以上の第２Ｓメタ８２Ｔを含み重複度が閾値未満の２以上の第２Ｓメタ８２Ｔを含まない分析グループである。処理（ｓ）の後に処理（ｐ）が行われてよい。処理（ｓ）の利点は、例えば次の通りである。すなわち、高重複度分析グループ且つ大容量分析グループである分析グループに属する複数の分析が並列に実行されると、高頻度に参照され得る重複データチャンクがキャッシュメモリから溢れてそれ故に同一のＰＤＥＶ１５００に対してアクセスが集中し得る。一方、処理（ｓ）が行われれば、同一のＰＤＥＶ１５００に対してアクセスが集中する可能性を低減できる。重複データチャンクが少なく、故に、アクセス先が複数のＰＤＥＶ１５００に分散し得るからである。

　図１の例によれば、ストレージコントローラ３２９は、複数の分割観点＃２及び＃３の指定を受けて、複数の分割観点＃２及び＃３にそれぞれに対応したＣメタ＃２及び＃３を見つけ、そのＣメタ＃２及び＃３が関連付いた複数の第２Ｓメタ＃２－１及び＃３－１の重複度を算出する。ストレージコントローラ３２９は、算出された重複度に応じた第２Ｓメタ＃２－１及び＃３－１を選択し（Ｓ２）、選択された第２Ｓメタ＃２－１及び＃３－１を含んだ分析グループを作成し、第２Ｓメタ＃２－１及び＃３－１を、並列に使用することが推奨されるＳＳＶＯＬ＃２及び＃３に対応したＳメタとして提示する（Ｓ３）。第２Ｓメタ＃２－１及び＃３－１は、重複度が閾値以上の２以上の第２Ｓメタ８２Ｔの一例でよい。重複度が大きいということは、参照頻度の高いデータチャンク８１が多いということであり、参照頻度の高いデータチャンク８１が多いということは、分析において参照されるデータチャンク８１がストレージコントローラ３２９のキャッシュメモリに存在する可能性が高く、故に、複数の分析に要する時間を短縮することが期待できる。

　以下、本実施例を詳細に説明する。

　図２は、Ｃスナップ処理とその前後の処理とを含んだ一連の処理の一例の概要を示す。

　図２の例によれば、Ｃスナップ処理の前は、「（０）通常状態」及び「（１）抽出処理」である。「（０）通常状態」は、Ｃメタ８３が作成される前の状態である。「（１）抽出処理」では、Ｃメタ８３が作成される。Ｃメタ８３は、第１Ｓメタ８２Ｓを参照する。

　Ｃスナップ処理は、２つの処理に大別され、具体的には、「（２－１）Ｃスナップ（選別）」と、「（２－２）Ｃスナップ（スナップ取得）」である。

　Ｃスナップ処理の後は、上述したように、「（３）分析」が行われる。

　図２の詳細な説明は後述する。

　図３は、実施例１に係る計算機システムのブロック図である。

　上述したように、計算機システムは、管理計算機１００、ホスト計算機２００及びストレージ装置３００を備える。管理計算機１００、ホスト計算機２００及びストレージ装置３００のうちのいずれも、１台以上備わっていてよい。管理計算機１００は、管理システムの一例である。ホスト計算機２００は、ホストシステムの一例である。ストレージ装置３００は、ストレージシステムの一例である。

　管理計算機１００、ホスト計算機２００及びストレージ装置３００は、ネットワーク（例えばＬＡＮ（Local Area Network））５００を介して相互に接続される。また、管理計算機１００は、ホスト計算機２００及びストレージ装置３００は、ネットワーク（例えばＳＡＮ（Storage Area Network））５５０を介して接続される。ネットワーク５００及び５５０は一体でもよい。

　管理計算機１００は、Ｉ／Ｆ（インターフェース）１３１、Ｉ／Ｆ１３０、メモリ１１０及びそれらに接続されたプロセッサ１２０を有する。Ｉ／Ｆ１３１及びＩ／Ｆ１３０は、インターフェース部の一例である。Ｉ／Ｆ１３１は、ネットワーク５５０に接続される。Ｉ／Ｆ１３０は、ネットワーク５００に接続される。メモリ１１０が、管理プログラム１１２を記憶する。プロセッサ１２０は、管理プログラム１１２を実行することで、ストレージ装置３００に要求を発行できる。なお、要求は、ライト要求、リード要求、又はコピー制御要求等でよい。

　ホスト計算機２００は、Ｉ／Ｆ２３１、Ｉ／Ｆ２３０、メモリ２１０及びそれらに接続されたプロセッサ２２０を有する。Ｉ／Ｆ２３１及びＩ／Ｆ２３０は、インターフェース部の一例である。Ｉ／Ｆ２３１は、ネットワーク５５０に接続される。Ｉ／Ｆ２３０は、ネットワーク５００に接続される。メモリ２１０が、ＯＳ（Operating System）２１２、アプリ２１１及びエージェントプログラム２１３等のプログラムを記憶する。プロセッサ２２０は、メモリ２１０内のプログラムを実行する。例えば、プロセッサ２２０は、プログラムを実行することによりストレージ装置３００にＩ／Ｏ要求を送信する。それにより、ストレージ装置３００によって提供されるＶＯＬ２６にアクセスできる。

　アプリ２１１は、例えば分析アプリである。例えば、分析アプリは、相関分析などの分析処理を実施する。ＯＳ２１２は、ホスト計算機２００の処理の全体を制御する。エージェントプログラム２１３は、管理計算機１００に指示を送信し、管理計算機１００は、その指示をストレージ装置３００に転送できる。分析アプリ２１１は、ストレージ機能を利用したい場合、エージェントプログラム２１３を利用することで、管理プログラム１１２を経由して、分析処理と連動したストレージ制御が可能となる。例えば、分析アプリがＤＭ作成機能を有する場合、ユーザによるＤＭ作成操作に応答してエージェントプログラム２１３が管理プログラム１１２にその操作内容を送信し、管理プログラム１１２がその操作内容を、コピー制御要求に変換し、そのコピー制御要求をストレージ装置３００に送信する。

　ストレージ装置３００は、１以上のＰＤＥＶ１５００と、それに接続されたストレージコントローラ３２９とを有する。

　１以上のＰＤＥＶ１５００は、１以上のＲＡＩＤグループを構成してもよい。ＰＤＥＶ１５００は、例えば、ＨＤＤ又はＳＳＤである。１以上のＰＤＥＶ１５００に、データＶＯＬ２６Ｄに格納されたデータチャンク８１等が格納される。１以上のＰＤＥＶ１５００に、複数のＣメタ８３と複数のＳメタ８２のうちの少なくとも一部が格納されてもよい。

　ストレージコントローラ３２９は、Ｉ／Ｆ１３２１、Ｉ／Ｆ１３２０、Ｉ／Ｆ１４００、キャッシュメモリ１１００、ローカルメモリ１２００、及びそれらに接続されたプロセッサ１３１０を有する。ローカルメモリ１２００が、情報及びプログラムを記憶する。プロセッサ１３１０が、ローカルメモリ１２００内のプログラムを実行することにより、ローカルメモリ１２００内の情報を参照又は更新したり、ＶＯＬに対するＩ／Ｏを行ったり、Ｃメタ８３を作成したり、Ｃスナップを実行したりする。

　Ｉ／Ｆ１３２１、Ｉ／Ｆ１３２０及びＩ／Ｆ１４００は、インターフェース部の一例である。Ｉ／Ｆ１３２１は、ネットワーク５５０に接続される。Ｉ／Ｆ１３２０は、ネットワーク５００に接続される。Ｉ／Ｆ１４００は、１以上のＰＤＥＶ１５００に接続される。

　キャッシュメモリ１１００及びローカルメモリ１２００は、記憶部の一例である。キャッシュメモリ１１００及びローカルメモリ１２００は１つのメモリであって、そのメモリに、キャッシュメモリとしてのキャッシュ領域と、ローカルメモリとしてのローカルメモリ領域とが設けられていてもよい。

　キャッシュメモリ１１００は、１以上のＰＤＥＶ１５００に入出力されるデータ（例えば、ホスト計算機２００からのＩ／Ｏ要求に従うデータ（ライト対象データ又はリード対象データ））を一時的に格納するためのメモリである。

　ローカルメモリ１２００は、情報及びプログラムを記憶する。具体的には、例えば、ローカルメモリ１２００は、Ｓメタ管理情報１２１０、Ｓメタ属性情報１２２０、Ｃメタ管理情報１２３０、構成管理テーブル１２４０、ストレージ管理テーブル１２５０及びコピーペア管理テーブル１２６０を記憶する。また、例えば、ローカルメモリ１２００は、Ｉ／Ｏプログラム６１、オブジェクトプログラム６２、データ処理プログラム６３、スナップショットプログラム６４、抽出プログラム１２９０、Ｃスナッププログラム１２９１及び重複チェックプログラム１２９２を記憶する。

　Ｓメタ８２毎に、Ｓメタ管理情報１２１０及びＳメタ属性情報１２２０が存在する。Ｓメタ管理情報１２１０は、オブジェクトを管理するため情報である。Ｓメタ属性情報１２２０は、データチャンク８１を管理するための情報である。

　Ｃメタ８３毎に、Ｃメタ管理情報１２３０が存在する。Ｃメタ８３は、データチャンク８１から特定された１以上のコンテンツ属性を表すコンテンツ情報を含む。Ｃメタ管理情報１２３０は、Ｃメタ８３の少なくとも一部である。

　ストレージ管理テーブル１２５０は、ストレージ装置３００によって提供されるＶＯＬ２６に関する情報を保持するテーブルである。コピーペア管理テーブル１２６０は、ＳＳＶＯＬ２６Ｓが属するコピー構成に関する情報を保持するテーブルである。

　Ｉ／Ｏプログラム６１は、Ｉ／Ｏ要求を処理するためのプログラムである。オブジェクトプログラム６２は、オブジェクトを処理するためのプログラムである。データ処理プログラム６３は、ＶＯＬ２６にアクセスするプログラムである。スナップショットプログラム６４は、ＳＳＶＯＬ２６Ｓを作成するプログラムである。

　抽出プログラム１２９０は、データチャンク８１を抽出し抽出したデータチャンク８１を基にＣメタ８３を作成するプログラムである。Ｃスナッププログラム１２９１は、Ｃスナップ処理を実行するプログラムである。重複チェックプログラム１２９２は、複数のＳメタ８２の重複度合をチェックする。抽出プログラム１２９０、Ｃスナッププログラム１２９１及び重複チェックプログラム１２９２のうちの少なくとも１つが、ユーザにより作成されたプログラムであるユーザプログラムでよい。つまり、抽出プログラム１２９０、Ｃスナッププログラム１２９１及び重複チェックプログラム１２９２のうちの少なくとも１つが、ユーザ毎に存在し、ホスト計算機２００のユーザに対応した抽出プログラム１２９０及びＣスナッププログラム１２９１のうちの少なくとも１つが実行されてよい。抽出プログラム１２９０、Ｃスナッププログラム１２９１及び重複チェックプログラム１２９２のうちの少なくとも１つがユーザプログラムであることにより、ユーザ（例えば分析者）により望ましい分析結果が得られるようなＣメタ８３及びＳＳＶＯＬ２６Ｓ（ＶＤＭ）のうちの少なくとも１つが期待できる。

　図４は、スナップショット処理の一例を示す。

　スナップショット処理は、ＳＳＶＯＬ２６Ｓに対するライト時の処理である。ストレージコントローラ３２９は、１以上のプールＶＯＬ２６Ｐ（プールＶＯＬ＃１～＃４）で構成されたプール９１を管理している。

　ストレージコントローラ３２９は、ＳＳＶＯＬ２６Ｓを指定したライト要求をホスト計算機２００から受信する。そのライト要求は、例えば、ＳＳＶＯＬ２６に属するＳメタ（Ｓメタ複製）の参照先のデータチャンクを含んだオブジェクトのオブジェクトＩＤを指定したライト要求である。ストレージコントローラ３２９は、そのライト要求に従うデータチャンク８１（例えば＃１）を、ＳＳＶＯＬ２６（Ｓメタ）の参照先ではなく、プール９１に格納する。すなわち、ライト対象データチャンク８１が、ＳＳＶＯＬ２６（Ｓメタ）の参照先のＶＯＬとは異なるＶＯＬの一例であるプールＶＯＬ２６Ｐに格納される。ストレージコントローラ３２９は、データチャンクの仮想アドレス（ＳＳＶＯＬ２６Ｓの領域のアドレス）と、データチャンク８１の実アドレス（プールＶＯＬ２６Ｐの領域のアドレス）との対応付けを管理する。このように、スナップショット処理として、Ｒｉｄｉｒｅｃｔ－ｏｎ－ｗｒｉｔｅ方式の処理が採用されてよい。すなわち、ＳＳＶＯＬ２６Ｓ（又はデータＶＯＬ２６Ｄ）内のデータチャンクに対して書き込みが発生すると、その書き込みは新たな領域に対して行われ、第１Ｓメタ８２Ｓ及び第２Ｓメタ８２Ｔが指し示す領域（アドレス）が書き換わる。このように、Ｒｉｄｉｒｅｃｔ－ｏｎ－ｗｒｉｔｅ方式のスナップショット処理が採用されてよいが、Ｃｏｐｙ－ｏｎ－ｗｒｉｔｅ方式など他の方式のスナップショット処理が採用されてもよい。

　図５は、ストレージ管理テーブル１２５０の構成を示す。

　ストレージ管理テーブル１２５０は、ストレージＩＤ１２５２を含む。ストレージＩＤ１２５２毎に、１以上のルートＩＤ１２５１を含む。

　ストレージＩＤ１２５２は、ストレージ装置３００の識別子（ストレージＩＤ）を表す情報である。

　ルートＩＤ１２５１は、ルートの識別子（ルートＩＤ）を表す情報である。ストレージ装置３００が有するルートのルートＩＤ１２５１が、そのストレージ装置３００のストレージＩＤ１２５２に関連付けられている。本実施例において、「ルート」とは、１以上のＳメタ８２のグループである。ルート毎にＶＯＬ２６が存在する。このため、例えば、ルートＩＤは、ＶＯＬの識別子（ＶＯＬ_ＩＤ）と言うこともできる。ルートに属するＳメタ８２のＳメタポインタ１２５４が、そのルートのルートＩＤ１２５１に関連付けられている。Ｓメタポインタ１２５４は、Ｓメタ８２のローカルメモリ１２００における在り処を指す情報（ポインタ）である。

　図６は、１つのＳメタ８２に含まれるＳメタ管理情報１２１０及びＳメタ属性情報１２２０の構成を示す。

　Ｓメタ８２は、Ｓメタ管理情報１２１０及びＳメタ属性情報１２２０で構成される。上述したように、Ｓメタ管理情報１２１０は、オブジェクトを管理し、Ｓメタ属性情報１２２０は、データチャンク８１を管理する。Ｓメタ管理情報１２１０には、そのＳメタ管理情報１２１０に対応したオブジェクト内の各データチャンク８１についてＳメタ属性情報１２２０が関連付けられる。

　Ｓメタ管理情報１２１０は、ＳメタＩＤ１２１００１を含む。ＳメタＩＤ１２１００１は、Ｓメタの識別子（ＳメタＩＤ）を表す情報である。ＳメタＩＤは、言い換えれば、オブジェクトＩＤである。

　また、Ｓメタ管理情報１２１０は、対応したオブジェクト内のデータチャンク８１毎に、Ｓメタ属性ＩＤ１２１００２及びＳ属性ポインタ１２１０３を含む。Ｓメタ属性ＩＤ１２１００２は、Ｓメタ属性情報１２２０の識別子（Ｓメタ属性ＩＤ）を表す情報である。Ｓ属性ポインタ１２１００３は、Ｓメタ属性情報１２２０のローカルメモリ１２００の在り処を指す情報（ポインタ）である。これにより、Ｓメタ８２の参照先としてのＣメタ８３を特定可能である。

　また、Ｓメタ管理情報１２１０は、このＳメタ管理情報１２１０を含むＳメタ８２を参照するＣメタ８３毎に、ユーザＩＤ１２０１１及びユーザポインタ１２１０１２を含む。ユーザＩＤ１２１０１１は、Ｃメタ８３の識別子（ＣメタＩＤ）を表す情報であり、具体的には、例えば、ユーザプログラム（例えば抽出プログラム１２９０）により当該Ｓメタ管理情報１２１０に付与された付加情報（つまりＣメタ８３）を管理する際に使用する情報であり付加情報の識別子である。ユーザポインタ１２１０１２は、そのＣメタ８３が含むＣメタ管理情報１２３０のローカルメモリ１２００の在り処を指す情報（ポインタ）である。

　Ｓメタ属性情報１２２０は、Ｓメタ属性ＩＤ１２２００１、アクセス状態１２２００２、コピー状態１２２００３、ストレージＩＤ１２２００４、開始アドレス１２２００５、終了アドレス１２２００６及びデータ有効性１２２００７を含む。

　Ｓメタ属性ＩＤ１２２００１は、Ｓメタ属性ＩＤを表す情報である。Ｓメタ属性ＩＤは、データチャンクの識別子（データチャンクＩＤ）でよい。Ｉ／Ｏ要求では、オブジェクトＩＤとデータチャンクＩＤのうちのいずれかが指定されてよい。

　アクセス状態１２２００２は、データチャンク８１へのアクセス方法及びアクセス制限を表す情報である。アクセス方法としては、例えば、オブジェクト単位のアクセスであるオブジェクトアクセス（“Object”）、ブロック単位のアクセスであるブロックアクセス、及び、ファイル単位のアクセスであるファイルアクセスがある。アクセス制限としては、例えば、“Ｒ／Ｗ可”、“ＲＯ”及び“Ｒ／Ｗ不可”がある。アクセス状態１２２００２は、更に、どのユーザがアクセス可能であるかといった情報を含んでもよい。

　コピー状態１２２００３は、データチャンクについてのコピー状態を表す情報である。例えば、コピー状態１２２００３としては、“ＳＶＯＬ”（ＳＳＶＯＬ２６Ｓから参照されたデータチャンクである）、“ＮＵＬＬ”（データチャンク８１がコピー対象ではない）等がある。

　ストレージＩＤ１２２００４は、データチャンク８１が格納されるストレージ装置の識別子（ストレージＩＤ）を表す情報である。後述する別実施例のように、Ｓメタ８２が参照するデータチャンク８１が、そのＳメタ８２が存在するストレージ装置３００とは別のストレージ装置３００に配置される場合がある。プロセッサ１３１０は、ストレージＩＤ１２２００４を参照することで、対応するデータチャンク８１を格納したストレージ装置３００を特定できる。

　開始アドレス１２２００５は、データチャンク８１が存在する領域の開始アドレスを表す情報である。終了アドレス１２２００６は、データチャンク８１が存在する領域の終了アドレスを表す情報である。データ有効性１２２００７は、データチャンク８１自身が有効か否かを表す情報（例えばフラグ）である。“ＹＥＳ”は有効を意味し、“ＮＯ”は無効を意味する。例えば、データＶＯＬ２６Ｄ内のデータチャンク＃Ａ及び＃Ｂを参照するＳメタ＃Ｘがあり、Ｓメタ＃Ｘ´（Ｓメタ＃Ｘの複製）がデータチャンク＃Ａ及び＃Ｂのうちのデータチャンク＃Ａのみを参照する場合、Ｓメタ＃Ｘ´において、データチャンク＃Ａに対応したデータ有効性１２００７は“ＹＥＳ”であるが、データチャンク＃Ｂに対応したデータ有効性１２００７は“ＮＯ”とされる。

　図７は、１つのＣメタ８３に含まれるＣメタ管理情報１２３０の構成を示す。

　Ｃメタ管理情報１２３０は、Ｃメタ８３の少なくとも一部である。Ｃメタ管理情報１２３０は、ＣメタＩＤ１２３００１、種別１２３００２、開始アドレス１２３００３、終了アドレス１２３００４、Ｓメタ属性ＩＤ１２３００５及びユーザ拡張１２３００６を含む。

　ＣメタＩＤ１２３００１は、Ｃメタ８３の識別子（ＣメタＩＤ）を表す情報である。ＣメタＩＤ１２３００１から、Ｃメタ８３の参照先のＳメタ８２（同一のＣメタＩＤをユーザＩＤ１２１０１１として含んだＳメタ８２）がわかる。

　種別１２３００２は、Ｃメタ８３の種別を表す情報である。種別１２３００２は、例えば、Ｃスナッププログラム１２９１がメタデータ種別を観点に検索する場合に参照される。

　開始アドレス１２３００３は、Ｃメタ管理情報１２３０に関連付いた情報（例えばコンテンツ情報の一部（Ｃメタ８３の一部））が格納された領域（例えばＶＯＬ２６の領域）の開始アドレスを表す情報である。終了アドレス１２３００４は、Ｃメタ管理情報１２３０に関連付いた情報が格納された領域の終了アドレスを表す情報である。Ｃメタ８３の全部がローカルメモリ１２００に存在する場合、開始アドレス１２３００３及び終了アドレス１２３００４の各々は、“ＮＵＬＬ”となる。

　Ｓメタ属性ＩＤ１２３００５は、Ｃメタ８３に対応するデータチャンクを指すＳメタ属性情報１２２０のＳメタ属性ＩＤを表す情報である。Ｓメタ属性ＩＤ１２３００５から、Ｃメタ８３に対応したデータチャンク８１を指すＳメタ属性情報１２２０を特定可能である。

　ユーザ拡張１２３００６は、ユーザプログラムにより付加された拡張情報であり、コンテンツ情報の少なくとも一部である。例えば、抽出されたデータチャンク８１が、撮影画像の場合、その画像の撮影位置の情報が、ユーザ拡張１２３００６としてＣメタ管理情報１２３０に含められる。

　図８は、コピーペア管理テーブル１２６０の構成を示す。

　コピーペア管理テーブル１２６０は、コピーペアの構成に関する情報を保持するテーブルである。コピーペア管理テーブル１２６０は、ルートＩＤ１２６０１、コピー状態１２６０２、コピー対象ストレージＩＤ１２６０３、コピー対象ルートＩＤ１２６０４及びグループＩＤ１２６０５を保持する。

　ルートＩＤ１２６０１は、ルートの識別子（ルートＩＤ）を表す情報である。コピー状態１２６０２は、ルートＩＤ１２６０１から識別されるルート（例えばＶＯＬ）についてのコピーの現在の状態を表す情報である。コピー対象ルートＩＤ１２６０４は、ルートＩＤ１２６０１が表すルートとペアを構成するルートであるコピー対象ルートの識別子を表す情報である。コピー対象ルートは、コピー元及びコピー先のいずれでもよい。ルートＩＤ１２６０１及びコピー対象ルートＩＤ１２６０４のうちの少なくとも１つは、当該情報に対応するルートがコピー元及びコピー先のいずれであるかを表す情報（例えば記号）を含んでもよい。グループＩＤ１２６０５は、当該コピーペアを含んだコピーグループの識別子（グループＩＤ）を表す情報である。

　図９は、構成管理テーブル１２４０の構成を示す。

　構成管理テーブル１２４０は、ストレージ装置３００の構成に関する情報を保持するテーブルである。構成管理テーブル１２４０は、ストレージ装置３００が有するリソース（コンポーネント）毎に、レコードを有する。各レコードは、リソース種別１２４０１、リソースＩＤ１２４０２、関連リソースＩＤ１２４０３及びスペック１２４０４といった情報を保持する。

　リソース種別１２４０１は、リソースの種別を表す報である。リソース種別１２４０１の値としては、プロセッサ”、“Cache”（キャッシュメモリ１１００）、“Port”（例えば、ホスト計算機２００からＩ／Ｏ要求を受け付けるＩ／Ｆ１３２０のポート）、“ＳＳＤ”（ＰＤＥＶ１５００の一例）、“ＨＤＤ”（ＰＤＥＶ１５００の一例）、“Ｐｏｏl”“例えば図４のプール９１”、“Volume”（上述したＶＯＬ）等がある。

　リソースＩＤ１２４０２は、リソースの識別子を表す。関連リソースＩＤ１２４０３は、リソースに関連するリソースの識別子、具体的には、リソースの親リソースの識別子を表す。「親リソース」とは、リソースに関連するリソースのうちの１つ上位のリソースを意味する。「上位のリソース」とは、リソースより上位（ホスト計算機２００側）のリソースを意味する。ストレージ装置３００では、複数のリソースが、それぞれ複数のリソースノードとして木構造を有している。その木構造において、ホスト計算機２００側が上位であり、ＰＤＥＶ１５００側が下位である。

　スペック１２４０４は、リソースのスペックを表す。リソース種別１２４０１が“プロセッサ”の場合、スペック１２４０４の値は、周波数であり、リソース種別１２４０１が“Cache”の場合、スペック１２４０４の値は、容量である。このように、スペック１２４０４の値（単位）は、リソース種別に応じた値でよい。

　構成管理テーブル１２４０に保持される情報は、図９に例示の形式に代えて、図５に例示の形式で保持されてもよい。

　以下、実施例１で行われる幾つかの処理を説明する。

　図１０は、データリード処理のフローチャートである。

　ストレージ装置３００がホスト計算機２００からＩ／Ｏ要求を受信した場合、Ｉ／Ｏプログラム６１は、そのＩ／Ｏ要求がリード要求か否かを判断する（Ｓ５０１０）。Ｓ５０１０の判断結果が偽の場合（Ｓ５０１０：Ｎｏ）、図１１のＳ５５１０に進む。

　Ｓ５０１０の判断結果が真の場合（Ｓ５０１０：Ｙｅｓ）、Ｉ／Ｏプログラム６１は、リード要求を共通のリード要求に変換し、変換後のリード要求をオブジェクトプログラム６２に処理を渡す（Ｓ５０２０）。リード要求のようなＩ／Ｏ要求を共通のＩ／Ｏ要求に変換する理由は、Ｉ／Ｏ要求のプロトコルとして多様なプロトコル（アクセス方法）を利用できるようにするためである。例えば、ブロック、ファイル、オブジェクトといったプロトコルがあり、いずれのプロトコルであっても共通のＩ／Ｏ要求に変換することで、変換以降の処理を共通に実施することができる。例えば、オブジェクトアクセスプロトコルとは、オブジェクトを基本単位としたデータアクセスを行う入出力プロトコルで、操作形式はＲＥＳＴ（Representational State Transfer）プロトコル等のＷｅｂインターフェースを使って操作することができる。具体的には、例えば、以下のような形式
ＰＵＴ＜オブジェクトＩＤ＞＜書込み|読み出し｜コピー制御＞ [＜オプション＞]
で操作することができ、Ｓ５０２０により、Ｉ／Ｏ要求を以下の共通形式の共通要求
ＷＲＩＴＥ｜ＲＥＡＤ｜ＣＯＰＹ　＜オブジェクトＩＤ＞　[<オプション>]
に変換することができる。

　次に、Ｓ５０５０が行われる。すなわち、オブジェクトプログラム６２は、共通リード要求に従うリード元アドレスをＶＯＬのアドレスに変換する。その変換では、Ｓメタ管理情報１２１０及びＳメタ属性情報１２２０が使用される。具体的には、オブジェクトプログラム６２は、共通要求中のオブジェクトＩＤに一致するＳメタＩＤ１２１００１を含んだＳメタ管理情報１２１０を参照し、そのＳメタ管理情報１２１０のＳ属性ポインタ１２１００３からＳメタ属性情報１２２０を参照する。次に、オブジェクトプログラム６２は、そのＳメタ属性情報１２２０に含まれる開始アドレス１２２００５及び終了アドレス１２２００６を取得する。オブジェクトプログラム６２は、上記共通要求中のオブジェクトＩＤを、取得されたアドレス１２２００４及び１２２００５が表す開始アドレス及び終了アドレスに変換し、変換後の共通要求を、データ処理プログラム６３に渡す。

　データ処理プログラム６３は、共通要求から特定されるデータがキャッシュメモリ１１００に存在するか否かを判断する（Ｓ５０９０）。Ｓ５０９０の判断結果が偽の場合（Ｓ５０９０：Ｎｏ）、データ処理プログラム６３は、当該データをキャッシュメモリ１１００に書き込み、処理をオブジェクトプログラム６２に渡す（Ｓ５１００）。

　５０９０の判断結果が真の場合（Ｓ５０９０：Ｙｅｓ）、又は、Ｓ５１００の後、オブジェクトプログラム６２は、キャッシュメモリ１１００から当該データを読み出す（Ｓ５０６０）。Ｉ／Ｏプログラム６１が、当該データを、リード要求の送信元のホスト計算機２００に返す（Ｓ５０３０）。

　以上のように、ストレージ装置３００におけるデータアクセス処理は、３つのプログラム６１～６３が並列に動作し、必要に応じ連携することで、リード要求に従うデータをＶＯＬ２６から読み出してホスト計算機２００に返すことができる。リード元のＶＯＬは、データＶＯＬ２６ＤでもよいしＳＳＶＯＬ２６Ｓでもよい。データリード処理において、リード対象のデータチャンク８１に対応したアクセス状態１２２００２を基に、読み出しが許可されているか否かの判断が行われてよい。

　図１１は、データライト処理のフローチャートである。

　Ｉ／Ｏプログラム６１は、Ｉ／Ｏ要求がライト要求か否かを判断する（Ｓ５５１０）。Ｓ５５１０の判断結果が偽の場合（Ｓ５５１０：Ｎｏ）、その要求に従う処理が行われる。

　Ｓ５５１０の判断結果が真の場合（Ｓ５５１０：Ｙｅｓ）、Ｉ／Ｏプログラム６１は、ライト要求をストレージ装置３００の共通要求に変換する（Ｓ５５２０）。

　次に、オブジェクトプログラム６２が、その共通要求に従うライト対象のデータ（オブジェクト）のコピー状態１２２００３が“ＳＶＯＬ”か否かを判断する（Ｓ５５４０）。具体的には、オブジェクトプログラム６２は、共通要求中のオブジェクトＩＤと同一のＳメタＩＤ１２１００１のＳメタ管理情報１２１０を特定し、さらに、そのＳメタ管理情報１２１０のＳ属性ポインタ１２１００３からＳメタ属性情報１２２０を特定し、その特定されたＳメタ属性情報１２２０のコピー状態１２２００３を参照する。

　コピー状態１２２００３が“ＳＶＯＬ”の場合（Ｓ５５４０：Ｙｅｓ）、スナップショットプログラム６４が、ライト先ＶＯＬを別ＶＯＬ（プールＶＯＬ）に変更する（Ｓ５５５０）。具体的には、スナップショットプログラム６４が、共通要求中のオブジェクトＩＤに一致するＳメタＩＤ１２１００１を含んだＳメタ管理情報１２１０を参照し、当該Ｓメタ管理情報１２１０のＳ属性ポインタ１２１００３からＳメタ属性情報１２２０を参照する。次に、スナップショットプログラム６４は、そのＳメタ属性情報１２２０の開始アドレス１２２００５及び終了アドレス１２２００６を取得し、これらのアドレス１２２００４及び１２２００５が表すＶＯＬ＿ＩＤをプールＶＯＬのＩＤに変更する。これにより、ＳＳＶＯＬ２６Ｓにより参照されるデータチャンク８１がＳＳＶＯＬ２６Ｓに対するライトによって更新されることを回避できる。

　コピー状態１２２００３が“ＳＶＯＬ”ではない場合（Ｓ５５４０：Ｎｏ）、Ｓ５５６０が行われる。すなわち、オブジェクトプログラム６２は、共通要求中のオブジェクトＩＤからＶＯＬのアドレスに変換する。具体的には、オブジェクトプログラム６２は、そのオブジェクトＩＤと一致するＳメタＩＤ１２１００１を含んだＳメタ管理情報１２１０を参照し、当該Ｓメタ管理情報１２１０のＳ属性ポインタ１２１００３からＳメタ属性情報１２２０を参照する。次に、オブジェクトプログラム６２は、そのＳメタ属性情報１２２０の開始アドレス１２２００５及び終了アドレス１２２００６を取得し、共通要求中のオブジェクトＩＤを、当該取得したアドレス１２２００４及び１２２００５に置き換える。

　Ｓ５５５０又はＳ５５６０の後、オブジェクトプログラム６２は、キャッシュメモリ１１１０から領域を確保する（Ｓ５５７０）。そして、オブジェクトプログラム６２は、確保された領域に、共通要求に従うデータを書き込む（Ｓ５５３０）。Ｓ５５３０が完了したときに、Ｉ／Ｏプログラム６１が、ライト要求の送信元のホスト計算機２００に、ライト完了を返してもよい。キャッシュメモリ１１１０に書かれたデータは、データ処理プログラム６３により、そのデータのライト先のアドレスが示す領域に対応したＰＤＥＶ１５００に書き込まれる。

　以上のように、ストレージ装置３００におけるデータアクセス処理は、３つのプログラム６１～６３が並列に動作し、必要に応じ連携することで、ライト対象のデータをキャッシュメモリ１１００に書き出し、ホスト計算機２００に完了を通知することができる。データライト処理において、ライト対象のデータチャンク８１に対応したアクセス状態１２２００２を基に、書き込みが許可されているか否かの判断が行われてよい。

　ここからは、図２及び図１２～図１４を参照して、Ｃスナップ処理を含んだ一連の処理を説明する。

　図２によれば、Ｃスナップ処理の前に「（０）通常状態」及び「（１）抽出処理」があり、Ｃスナップ処理として、「（２－１）Ｃスナップ（選別）」及び「（２－２）Ｃスナップ（スナップ取得）」があり、Ｃスナップ処理の後に「（３）分析」がある。

　＜（０）通常状態＞

　データチャンク８１がストレージ装置３００に格納され、データチャンク８１を含んだオブジェクトに対して第１Ｓメタ８２Ｓが関連付けられる。データチャンク８１は、例えば、監視カメラから生成された画像データであってもよいし、工場の製造機器が出力するログ情報であってもよい。

　図２によれば、データチャンク＃１及び＃２が格納され、且つ、それらをそれぞれ参照する第１Ｓメタ＃１及び＃２がある。

　＜（１）抽出処理＞

　少なくとも１つのデータチャンク８１がストレージ装置３００のデータＶＯＬ２６Ｄに格納された時点、一定の時間間隔、又は、プロセッサ１３１０の処理負荷が一定時間以上低い状態が続いた時点等で、抽出プログラム１２９０がプロセッサ１３１０上で動作する。

　図１２は、抽出処理のフローチャートである。

　抽出処理は、抽出プログラム１２９０とオブジェクトプログラム６２により実施される。抽出処理は、ユーザにより指定されたルートＩＤが対象とされてよい。ルートＩＤ（例えばＶＯＬ＿ＩＤ）は、予め指定されていてもよい。抽出プログラム１２９０は、ストレージ装置３００に格納されるデータ（オブジェクト）から分析観点となり得るコンテンツ情報を取得し、当該コンテンツ情報を含んだＣメタ８３をデータのＳメタ８２に関連付けてストレージ装置３００に保存するプログラムである。本実施例では、抽出プログラム１２９０は、ストレージ装置３００内で動作するが、ホスト計算機２００及び管理計算機１００のうちのいずれで動作しても構わない。

　抽出プログラム１２９０は、指定されたルート（ＶＯＬ）にデータチャンク８１が格納された時刻と、直前回の抽出処理の時刻とを比較することで、直前回の抽出処理の時刻よりも格納時刻が新しいデータチャンク（以下、更新データチャンク）８１があるか否かを判断する（Ｓ５６１０）。Ｓ５６１０の判断結果が偽の場合（Ｓ５６１０：Ｎｏ）、処理が終了する。なお、「直前回の抽出処理の時刻」は、直前回の抽出処理のときに抽出プログラム１２９０によりローカルメモリ１２００に保存された時刻である。

　Ｓ５６１０の判断結果が真の場合（Ｓ５６１０：Ｙｅｓ）、抽出プログラム１２９０は、更新データチャンク８１を抽出し、抽出された更新データチャンク８１が、定められた抽出ルールに適合したデータチャンクであるか否かを判断する（Ｓ５６２０）。例えば、抽出ルールには、抽出されるべきデータチャンクのデータ条件（抽出のための検索条件）が指定されている。データ条件は、例えば、データ種別（例えば、写真、Ｅメール）でよい。抽出プログラム１２９０がユーザ毎に用意されることに代えて又は加えて、抽出ルールが、ユーザ毎に用意されていてもよい。

　Ｓ５６２０の判断結果が偽の場合（Ｓ５６２０：Ｎｏ）、Ｓ５６７０に進む（処理が終了してもよい）。

　Ｓ５６２０の判断結果が真の場合（Ｓ５６２０：Ｙｅｓ）、抽出プログラム１２９０は、更新データチャンク８１から、そのデータ形式に基づき、更新データチャンク８１が表す１以上のコンテンツ属性を表すコンテンツ情報を抽出する（Ｓ５６３０）。更新データチャンク８１からコンテンツ情報を取得するには、データ種別に応じアプローチを変える必要がある。例えば、画像から位置情報を取得する場合、画像ファイルの属性情報を参照し、当該属性情報に含まれる位置情報を読み取ることで、コンテンツ情報の少なくとも一部を取得できる。

　次に、抽出プログラム１２９０は、抽出したコンテンツ情報を基にＣメタ８３を作成する（Ｓ５６４０）。コンテンツ情報は、ローカルメモリ１２００及びＶＯＬ２６のうちの少なくとも１つに格納されてよい。ローカルメモリ１２００の空き容量よりもコンテンツ情報の容量の方が十分に小さければ、コンテンツ情報全体がローカルメモリ１２００に格納されてよい。抽出プログラム１２９０は、コンテンツ情報の格納場所に基づくＣメタ管理情報１２３０を作成する。ＣメタＩＤ１２３０は、任意の値でよい。開始アドレス１２３００３及び終了アドレス１２３００４は、ローカルメモリ１２００にコンテンツ情報が格納された場合、“ＮＵＬＬ”でよい。Ｓメタ属性ＩＤ１２３００５は、更新データチャンクの識別子でよい。ユーザ拡張１２３００６は、コンテンツ情報の少なくとも一部でよい。このように、コンテンツ情報の少なくとも一部が、Ｃメタ管理情報１２３０に登録され得るため、結果として、コンテンツ情報全体が、ローカルメモリ１２００に格納されることがある。一方、コンテンツ情報の少なくとも一部がＶＯＬ２６に格納されることもある。その場合、コンテンツ情報の格納場所のアドレスは、例えば、オブジェクトプログラム６２に問い合わせることで入手可能である。また、コンテンツ情報全体がＶＯＬに登録される場合、ユーザ拡張１２３００６は“ＮＵＬＬ”でよい。

　次に、抽出プログラム１２９０は、オブジェクトプログラム６２に、Ｓ５６４０で作成したＣメタ管理情報１２３０を含むＣメタ８３の登録を依頼する（Ｓ５６５０）。オブジェクトプログラム６２は、その依頼に応答して、そのＣメタ８３を、抽出された更新データチャンク８１を参照する第１Ｓメタ８２Ｓに関連付ける（Ｓ５６６０）。具体的には、オブジェクトプログラム６２は、抽出された更新データチャンク８１を参照するＳメタ８２内のＳメタ管理情報１２１０に、ＣメタＩＤ１２３０と同じ値をユーザＩＤ１２１０１１として追加し、且つ、Ｃメタ管理情報１２３０へのポインタをユーザポインタ１２１０１２として追加する。

　抽出プログラム１２９０は、Ｓ５６１０と同様の判断を行う（Ｓ５６７０）。Ｓ５６７０の判断結果が真の場合（Ｓ５６７０：Ｙｅｓ）、別の更新データチャンクについて、Ｓ５６２０に進む。Ｓ５６７０の判断結果が偽の場合（Ｓ５６７０：Ｎｏ）、処理が終了する。

　図２によれば、抽出処理により、データチャンク＃１及び＃２にそれぞれ対応したＣメタ＃１及び＃２が作成される。Ｃメタ＃１は第１Ｓメタ＃１を参照し、Ｃメタ＃２は第１Ｓメタ＃２を参照する。なお、Ｃメタ＃１及び＃２のいずれも、コンテンツ属性として、上述したデータ種別等に代えて又は加えて、指定された検索条件（データ条件（例えば時間帯））とその検索条件をキーにした検索の検索結果（例えば検索ヒット又はミス）とを含んでよい。

　＜（２-１）Ｃスナップ（選別）＞

　Ｃスナップ（選別）は、第１Ｓメタ８２Ｓに関連付けられたＣメタ８３から、検索条件に適合するＣメタ８３を選別する処理である。Ｃスナッププログラム１２９１は、本実施例では、ストレージ装置３００で動作するが、管理計算機１００及びホスト計算機２００のいずれで動作しても構わない。

　Ｃスナップ処理の開始が、ユーザにより指示される。その指示を、Ｃスナッププログラム１２９１が受ける。指示形式は、例えば以下の通りである。
ＣＳＮＡＰ　＜検索鍵＞　＜対象ルートＩＤ＞　＜コピー先ルートＩＤ＞　＜オプション＞

　上記指示形式の場合、＜対象ルートＩＤ＞で指定されたルート内のデータチャンク８１に対応したＣメタ８３が、＜検索鍵＞で指定された検索鍵（検索条件）に適合するＣメタ８３に絞り込まれる。絞り込んだ１以上のＣメタ８３が参照する１以上の第１Ｓメタ８２Ｓが、それぞれ、＜コピー先ルートＩＤ＞で指定されたルート以下に複製されることになる。

　図１３は、Ｃスナップ（選別）のフローチャートである。

　Ｓ５７１０が行われる。すなわち、Ｃスナッププログラム１２９１は、ユーザからの指示で指定されたルートＩＤに対応したＳメタポインタ１２５４をストレージ管理テーブル１２５０から特定する。次に、Ｃスナッププログラム１２９１は、特定したＳメタポインタ１２５４からＳメタ管理情報１２１０を参照し、さらに当該Ｓメタ管理情報１２１０のユーザＩＤ１２１０１１及びユーザポインタ１２１０１１から、当該Ｓメタに関連付くＣメタ８３を特定する。

　次に、Ｃスナッププログラム１２９１は、ユーザに指定された検索鍵に、当該Ｃメタ８３（Ｃメタ８３が含むコンテンツ情報）が適合するか否かを判断する（Ｓ５７２０）。

　Ｓ５７２０の判断結果が真の場合（Ｓ５７２０：Ｙｅｓ）、Ｃスナッププログラム１２９１は、当該Ｃメタ８３に関連付く第１Ｓメタ８２Ｓ（Ｓメタ管理情報１２１０及びＳメタ属性情報１２２０）の複製をオブジェクトプログラム６２に依頼する（Ｓ５７３０）。その依頼に応答して、オブジェクトプログラム６２は、指定された第１Ｓメタ８２Ｓの複製を行う（Ｓ５７４０）。なお、複製において、第１Ｓメタ８２Ｓの複製に基づく第２Ｓメタ８２ＴのＳメタＩＤとして、オリジナルの第１Ｓメタ８２ＳのＳメタＩＤと異なるＳメタＩＤが付与されてよい。また、複製において、Ｃスナッププログラム１２９１及びオブジェクトプログラム６２のうちのいずれかが、下記の（ａ）及び（ｂ）のうちのいずれかである複製絞込み処理を実行してよい。
（ａ）分析に必要ないデータチャンクを参照するＳメタ属性情報１２２０（検索鍵に適合しないＣメタ８３の参照先のＳメタ属性情報１２２０）の複製をスキップする。
（ｂ）そのＳメタ属性情報１２２０のデータ有効性１２２００７を“ＮＯ”に変更する。

　このような複製絞込み処理を実行するか否かは、ユーザからの指示（Ｃスナッププログラム１２９１に対する開始指示）に記述されていてよい。複製絞込み処理により、ＳＳＶＯＬ２６Ｓ（ＶＤＭ）に含まれるデータチャンク８１を絞り込むことが可能となる。

　次に、Ｃスナッププログラム１２９１は、ユーザから指定されたルートＩＤに対応した全ての第１Ｓメタ８２Ｓに対してＳ５７１０を実施したか否かを判断する（Ｓ５７５０）。Ｓ５７５０の判断結果が偽の場合（Ｓ５７５０：Ｎｏ）、未処理のＳメタ８２についてＳ５７１０が行われる。Ｓ５７５０の判断結果が真の場合（Ｓ５７５０：Ｙｅｓ）、処理が終了する。少なくとも１つの第１Ｓメタ８２ＳについてＳ５７４０が行われた場合、Ｃスナップ（スナップ取得）が実施される。

　＜（２-２）Ｃスナップ（スナップ取得）＞

　Ｃスナップ（選別）において得られた第２Ｓメタ８２Ｔに基づき、ＳＳＶＯＬ２６Ｓが作成される。このＳＳＶＯＬ２６Ｓがホスト計算機２００に提供されることで、ホスト計算機２００からはＳＳＶＯＬ２６ＳをＤＭとして利用可能となる。

　図１４は、Ｃスナップ（スナップ取得）のフローチャートである。

　Ｃスナッププログラム１２９１は、スナップショット作成をスナップショットプログラム６４に依頼する（Ｓ５７７０）。ここで、スナップショット作成にあたり、Ｃスナッププログラム１２９１は、Ｃスナップ（選別）で作成された第２Ｓメタ８２ＴにおけるＳメタＩＤをスナップショットプログラム６４に渡す。

　その依頼に応答して、スナップショットプログラム６４は、Ｃスナッププログラム１２９１から渡されたＳメタＩＤに合致するＳメタ管理情報１２１０を特定し、当該Ｓメタ管理情報１２１０に関連付いたＳメタ属性情報１２２０のコピー状態１２２００３を“ＳＶＯＬ”にする（Ｓ５６８０）。コピー状態１２２００３が“ＳＶＯＬ”にされることで、当該オブジェクトへのライトの際にスナップショット対象データと判定され、必要なスナップショット処理（図４参照）が実施される。

　次に、スナップショットプログラム６４は、ストレージ管理テーブル１２５０に、ユーザに指定されたコピー先ルートＩＤ（ＳＳＶＯＬ２６ＳのＩＤ）をルートＩＤ１２５１として追加し、且つ、そのルートＩＤ１２５１に、第２Ｓメタ８２Ｔへのポインタ１２５４を関連付ける（Ｓ５６９０）。スナップショットプログラム６４は、そのコピー先ルートＩＤ（ＳＳＶＯＬ２６Ｓ）を、Ｃスナップの開始指示を出したユーザ（検索要求元のユーザ）のホスト計算機２００に提供してよい。

　以上のように、ストレージ装置３００におけるＣスナップ処理では、Ｃスナップ（選別）において、ユーザから与えられた検索鍵に基づきスナップショット対象のデータチャンク（ＶＤＭに含められるデータチャンク）が選別され、Ｃスナップ（スナップ取得）において、選別されたデータチャンクを含んだＳＳＶＯＬ２６Ｓ（ＶＤＭ）が作成される。

　また、原理的に、１つのルートＩＤ（データＶＯＬ２６Ｄ）について複数のコピー先ルートＩＤ（ＳＳＶＯＬ２６Ｓ）を作成することが可能である。具体的には、例えば、１つのデータＶＯＬ２６Ｄについて、複数のＳＳＶＯＬ２６Ｓを作成できる。

　また、Ｃスナップ処理後に、ホスト計算機２００から、Ｃスナップ作成時に指定したコピー先ルートＩＤにアクセスすると、そのホスト計算機２００からは、ＤＭ（ＳＳＶＯＬ２６Ｓ）が存在しているように見えるようになる。複数のＳＳＶＯＬ２６Ｓが作成された場合は、例えば、観点の異なるＤＭ（データマート）が作成されたように見える。

　図１５は、重複チェック処理のフローチャートである。

　重複チェック処理は、重複チェックプログラム１２９２により実行される。重複チェック処理は、上述した分析グループの作成と推奨情報の提示とを含んだ処理である。重複チェックプログラム１２９２は、閾値以上の重複度を有する２以上の第２Ｓメタ８２Ｔを含んだ分析グループを構築し、その分析グループに含まれる第２Ｓメタ８２Ｔ（及び、その第２Ｓメタ８２Ｔに対応したＳＳＶＯＬ２６Ｓ）を表す情報を提示するプログラムである。重複チェック処理は、複数の分析観点を指定した１以上のユーザ要求に応答して開始されてもよいし、そのようなユーザ要求を受信すること無しに所定の重複チェック開始イベントが検出されたときに（例えば定期的に）開始されてもよい。この重複チェック処理では、前回の重複チェック処理において構築された分析グループが更新されてもよいし、前回の重複チェック処理において構築された分析グループは全て破棄されて新たに分析グループが更新されてもよい。

　重複チェックプログラム１２９２は、Ｓ５８１０を実行する。すなわち、重複チェックプログラム１２９２は、１つのメタセットを選択する。「メタセット」とは、１つのＣメタ８３と１つの第２Ｓメタ８２Ｔとのセットである。メタセットは、いずれの分析グループにも含まれていない１以上のメタセットから選択される。次に、重複チェックプログラム１２９２は、選択されたメタセットが表す参照先（アドレス範囲）と、選択されたメタセット以外の全てのメタセットがそれぞれ表す参照先との重複度を算出する。「メタセットが表す参照先」とは、そのメタセット内の第２Ｓメタ８２Ｔに含まれる全てのＳメタ属性情報１２２０の開始アドレス１２２００５及び終了アドレス１２２００６が表す参照先（アドレス範囲）である。以下、選択されたメタセットを「比較元メタセット」と言い、比較元メタセット以外のメタセットを「比較先メタセット」と言う。重複チェックプログラム１２９２は、比較元メタセットとの間での重複度が閾値以上である比較先メタセットを特定する。重複チェックプログラム１２９２は、比較元メタセットと、特定された比較先メタセット（すなわち、比較元メタセットとの間での重複度が閾値以上である比較先メタセット）とをグルーピングすることで、１つの分析グループを構築する。なお、重複度の「閾値」は、事前に設けられておいてもよく、ユーザが設定してもよく、固定値でもよく、可変値でもよい。なお、Ｓ５８１０において、比較元メタセットがいずれの比較先メタセットとの間で重複度が閾値未満の場合、比較元メタセットのみを含んだ分析グループが構築されてよい。或いは、Ｓ５８１０において、比較元メタセットがいずれの比較先メタセットとの間で重複度が閾値未満の場合、比較元メタセットは、１以上の比較先メタセットのうち重複度が上位Ｋ個（Ｋは自然数）の比較先メタセット（例えば重複度が最も高い比較先メタセット）とグルーピングされてよい。

　重複チェックプログラム１２９２は、全ての第２Ｓメタ８２ＴについてＳ５８１０を実行したか否かを判断する（Ｓ５８２０）。Ｓ５８２０の判断結果が偽の場合（Ｓ５８２０：Ｎｏ）、再度Ｓ５８１０が実行される。

　Ｓ５８２０の判断結果が真の場合（Ｓ５８２０：Ｙｅｓ）、いずれのメタセットもいずれかの分析グループＧｎ（ｎは自然数）に属することとなる。重複チェックプログラム１２９２は、推奨情報を提示する（Ｓ５８３０）。具体的には、例えば、重複チェックプログラム１２９２は、並列に使用することが推奨されるＳＳＶＯＬ２６Ｓに対応する第２Ｓメタ８２Ｔを表す情報（例えば、Ｓメタ１２１００１）を提示する。第２Ｓメタ８２Ｔを表す情報は、分析グループ毎に提示される（参照符号５８４０は、分析グループ毎に第２Ｓメタ８２Ｔを表す情報が提示された提示画面の一例である）。分析グループは、典型的には、高重複度分析グループ（重複度が閾値以上の２以上の第２Ｓメタ８２Ｔを含み重複度が閾値未満の２以上の第２Ｓメタ８２Ｔを含まない分析グループ）であるため、その分析グループに属する複数の分析を並列に（例えば同時に）実施することで、重複データチャンクがキャッシュメモリに存在する確率（キャッシュヒット率）が高くなりＰＤＥＶ１５００に対するアクセスを低減できる。

　なお、Ｓ５８３０において、重複チェックプログラム１２９２は、構築された１以上の分析グループのうちの提示対象となる分析グループを、構成管理テーブル１２４０を基に絞り込むことができる。

　例えば、構成管理テーブル１２４０が表すリソース種別１２４０１、リソースＩＤ１２４０２、関連リソース１２４０３及びスペック１２４０４を基に、参照するデータチャンク群が並列実行可能な程度の量である分析グループを提示対象として選択してよい。

　また、重複チェックプログラム１２９２は、低容量分析グループ（構成管理テーブル１２４０が表すキャッシュメモリ容量以下の容量のチャンクデータ群を参照する分析グループ）である分析グループを提示対象として選択してよい。

　また、重複チェックプログラム１２９２は、高重複度分析グループ且つ大容量分析グループである分析グループに代えて、低重複度分析グループである分析グループを、提示対象として選択してよい。つまり、重複チェックプログラム１２９２は、図１の説明において述べた処理（ｓ）を実行してよい。これにより、ＰＤＥＶ１５００へのアクセスが複数のＰＤＥＶ１５００に分散することが期待できる。

　以上、実施例１によれば、ストレージコントローラ３２９が、データチャンク８１について、そのデータチャンク８１が表す１以上のコンテンツ属性を含んだＣメタ８３を作成し、そのＣメタ８３をデータチャンク８１の第１Ｓメタ８２Ｓに関連付ける。検索鍵を指定した検索要求に従う検索の対象、データチャンク８１ではなくＣメタ８３である。ストレージコントローラ３２９は、見つかったＣメタ８３が関連付いた第１Ｓメタ８２Ｓを複製することで第２Ｓメタ８２Ｔを生成し、第２Ｓメタ８２Ｔが属するＳＳＶＯＬ２６Ｓを構築する。これにより、データチャンク８１の複製無しにＤＭ（ＶＤＭ）が作成される。そして、ストレージコントローラ３２９は、重複度が閾値以上の第２Ｓメタ８２Ｔを含んだ分析グループを構築し、構築された分析グループに含まれる第２Ｓメタ８２Ｔ（及び／又は、その第２Ｓメタ８２Ｔに対応したＳＳＶＯＬ２６Ｓ）を表す情報を提示する。重複度が閾値以上の第２Ｓメタ８２Ｔが参照する重複データチャンクは、高頻度に参照され得るデータチャンクである。このため、ストレージ装置３００内でＰＤＥＶ１５００へのアクセスの発生頻度をできるだけ避ける並列分析の実行が可能となる。

　なお、実施例１において、重複チェックプログラム１２９２は、分析グループの構築において、構成管理テーブル１２４０からキャッシュメモリ容量を特定し、低容量分析グループのみを構築するようにしてもよい。

　実施例２を説明する。その際、実施例１との相違点を主に説明し、実施例１との共通点については説明を省略又は簡略する。これは、他の実施例についても同様である。

　実施例２では、複数のＶＤＭ（ＳＳＶＯＬ２６Ｓ）を使用した複数の分析が複数のストレージ装置３００に分散される。具体的には、実施例２では、抽出処理及びＣスナップ（選別）まで実施された後、Ｃスナップ（スナップ取得）の実施前に、Ｃスナップ（ＳＳＶＯＬ２６Ｓ）の作成先のストレージ装置が複数のストレージ装置から選択される。その選択の後に、選択されたストレージ装置にて、Ｃスナップ作成及び重複チェック処理が実施される。

　図１６は、実施例２に係る計算機システムのブロック図である。

　複数のストレージ装置３００がある。各ストレージ装置３００において、ローカルメモリ１２００が、性能管理テーブル１２７０、コピープログラム６５及びスケールアウトプログラム７４を記憶する。性能管理テーブル１２７０は、ストレージ装置３００内のリソースの性能を表す情報を保持するテーブルである（詳細は図１７で説明する）。コピープログラム６５は、ストレージ装置３００間のコピーを実行する。スケールアウトプログラム７４は、ストレージ装置３００間のＩ／Ｏ要求の受け渡しを実行する。

　管理計算機１００は、複数のストレージ装置３００からそれぞれ構成管理テーブル１２４０及び性能管理テーブル１２７０が有する情報を収集しメモリ１１０に保持することができる。つまり、管理計算機１００は、複数のストレージ装置３００の構成管理テーブル１２４０及び性能管理テーブル１２７０を管理計算機１００のメモリ１１０に集約することができる。管理計算機１００は、複数のストレージ装置３００から定期的に情報を収集してもよいし、情報が変更されことの通知をストレージ装置３００から受信したときにそのストレージ装置３００から情報を収集してもよい。なお、管理計算機１００としての機能は、ホスト計算機２００及びストレージ装置３００から独立した計算機にあってもよいが、ストレージ装置３００とホスト計算機２００のいずれにあってもよい。また、管理計算機１００が全てのストレージ装置３００の構成管理テーブル１２４０と性能管理テーブル１２７０の情報を収集せずに、各ストレージ装置３００がそのストレージ装置３００以外の全てのストレージ装置３００から情報を収集してもよい。

　図１７は、性能管理テーブル１２７０の構成を示す。

　性能管理テーブル１２７０は、リソース毎にレコードを有する。各レコードが、リソース種別１２７０１、リソースＩＤ１２７０２、時間１２７０３及び性能値１２７０４といった情報を保持する。

　リソース種別１２７０１は、ストレージ装置３００内のリソース（コンポーネント）の種別を表す情報である。リソースＩＤ１２７０２は、リソースの識別子を表す情報である。

　時間１２７０３は、対応する性能値１２７０４が表す性能値を含んだ性能情報の取得時間を表す情報である。図１７の例によれば、“Processor1”の性能情報が１０分毎に取得されるが、性能情報の取得ための時間間隔は任意の設定が可能である。また最新の性能情報だけが性能管理テーブル１２７０に保持されてもよい。

　性能値１２７０４は、取得した性能値を表す情報である。リソース種別“プロセッサ”の場合、性能値１２７０４は、ＣＰＵ利用率を表す。性能値１２７０４が表す性能値の単位は、リソース種別１２７０１によって異なっていてよい。１つのリソース種別について複数種類の性能値が性能値１２７０４に含まれていてもよい。なお、性能値１２７０４として、時間帯毎の性能値ではなく最新の性能値のみが保持される場合、性能値１２７０４は、累積値であってもよいし、単位時間当たりの値であってもよい。例えば、Ｖｏｌｕｍｅの性能値１２７０４として、累積値（例えばＩ／Ｏ要求数のカウント値）が保持されてもよいし、単位時間当たりの値（例えばＩＯＰＳ（１秒当たりのＩ／Ｏ要求数））が保持されてもよい。

　図１８は、抽出処理から重複チェック処理までの処理全体のフローチャートである。

　まず、抽出処理は、図１２に示した処理である（Ｓ５９１０）。

　次に、管理計算機１００の管理プログラム１１２が、ホスト計算機２００の分析アプリ２１１からエージェントプログラム２１３経由で渡される複数の検索鍵（複数の分析観点）と、各ストレージ装置３００の構成管理テーブル１２４０及び性能管理テーブル１２７０とに基づき、複数の分析を、データＶＯＬ２６Ｄ（データソース）を有する１台のストレージ装置３００で実行するか２以上のストレージ装置３００で実行するかを判断する（Ｓ５９２０）。

　図１９は、Ｓ５９２０のフローチャートである。

　管理プログラム１１２が、データＶＯＬ２６Ｄを有するストレージ装置３００に対してＣスナップ（選別）の指示を出す（Ｓ６０１０）。指示には、ルートＩＤが指定される。その指示を受けたストレージ装置３００内のＣスナッププログラム１２９１が、図１３のＳ５７１０及びＳ５７２０（ＹＥＳ）と同様の処理を実行する（Ｓ６０２０）。すなわち、Ｃスナッププログラム１２９１が、指定されたルートＩＤに対応したＳメタポインタ１２５４をストレージ管理テーブル１２５０から特定する。Ｃスナッププログラム１２９１は、特定したＳメタポインタ１２５４から特定された第１Ｓメタ８２Ｓに関連付いたＣメタ８３のうち、Ｓ５９２０で受けたいずれかの検索鍵に該当するＣメタ８３を特定する。

　次に、重複チェックプログラム１２９２が、Ｓ６０２０で特定された複数のＣメタ８３に関連付いている複数の第１Ｓメタ８２Ｓの開始アドレス１２２００５及び終了アドレス１２２００６を用いて、２以上の第１Ｓメタ８２Ｓの重複度を算出し、算出された重複度に基づき、１以上の分析グループを構築する（Ｓ６０３０）。これは、図１５のＳ５８１０と実質的に同じ処理である。具体的には、Ｓ５８１０では、第２Ｓメタ８２Ｔを含んだメタセットの分析グループが構築されるが、Ｓ６０３０では、第１Ｓメタ８２Ｓを含んだメタセット（Ｃメタ８３と第１Ｓメタ８２Ｓとのセット）の分析グループが構築される。重複チェックプログラム１２９２は、Ｓ６０３０の結果（例えば、構築された分析グループの情報）を管理プログラム１１２へ返す。

　結果を受け取った管理プログラム１１２は、第１Ｓメタ８２ＳとＣメタ８３との関連と、それらの第１Ｓメタ８２Ｓ及びＣメタ８３に関連するＳＳＶＯＬの容量と、構成管理テーブル１２４０とを基に、コピー所要時間（コピーにかかる時間）を予測する（Ｓ６０４０）。ここで言う「ＳＳＶＯＬの容量」は、例えば、特定された１以上のＣメタ８３に関連付いた第１Ｓメタ８２Ｓが参照するデータチャンク群のうちのその特定された１以上のＣメタ８３に対応した１以上のデータチャンクの総容量でよい。

　コピー所要時間の予測の一例は、次の通りである。管理プログラム１１２は、Ｓ６０３０で構築された分析グループＧ１、Ｇ２、．．．、Ｇｎを利用して、分析のリード処理に要する時間とコピーに要する時間の総和が最小となる組み合わせを探す。コピー元の分析のリード処理に要する時間をＴｓｒとし、１つのＶＤＭ（ＤＭ）に均等にＣＰＵ時間が割り当てられると仮定すると、
Ｔｓｒ（１つのＶＤＭの分析のリード処理に要する時間）
＝（ＶＤＭの容量）／（（コピー元ストレージ装置のカタログ上のリード性能）／Ｎｄｍ）、
である。また、コピー元のコピー時間（データ転送時間）をＴｓｃとすると、
Ｔｓｃ＝（重複を排除したＳｘのボリュームの容量）／（（コピー元ストレージ装置のカタログ上のリード性能）／Ｎｄｍ）
となる。このため、
Ｔｔｃ（コピー先のコピー時間）＝（重複を排除したＧｘについてのＶＯＬの容量）／（コピー先ストレージ装置のカタログ上のライト性能）、
となる。また、
Ｔｔｒ（コピー先での分析のリード処理に要する時間）
＝（ＧｘについてのＶＤＭの容量）／（（コピー先ストレージ装置のカタログ上のリード性能）／ＧｘについてのＶＯＬ数）
と考えられる。ここで、「Ｎｄｍ」は、（コピーされないＶＤＭの数）＋（重複を排除したＧｘの数）を意味する。「Ｇｘ」は、コピーされるＣメタ８３及び第１Ｓメタ８２Ｓの分析グループの集合を意味する。また、「コピー先ストレージ装置」は、分析グループ内の情報を記憶可能な空き容量を有すること、ＣＰＵ利用率及びキャッシュ利用率がコピー元ストレージ装置よりも低いこと、といった条件を満たすストレージ装置でよいし、他の条件を満たすストレージ装置であってもよい。全ての処理の時間の総和Ｔｓｕｍは、Ｔｓｕｍ＝Ｍａｘ（Σ（Ｔｓｒ）、Σ（Ｔｓｃ＋Ｔｔｃ＋Ｔｔｒ））となる。ここで、「Ｍａｘ（Ｘ，Ｙ）」は、Ｘ及びＹのうち大きい方の値である。よって、管理プログラム１１２は、Ｔｓｕｍが最小となる組み合わせを見つける。グルーピングされたＣメタ８３と第１Ｓメタ８２Ｓとのメタセットが１つもコピーされない場合、Ｔｓｃ、Ｔｔｃ及びＴｔｒはいずれも０となるが、ＶＤＭ数が多いため１つのＶＤＭに割り当てられるＣＰＵ時間が少なくなり１つのＶＯＬのＴｓｒが大きくなり結果として全てのＶＤＭのＴｓｒが大きくなる。最も重複度が高いグループであるＧｙ（ｙは自然数）をコピーするとＴｓｒが小さくなり、Ｔｓｃ、Ｔｔｃ及びＴｔｒがいずれも増加する。コピー先が２以上のストレージ装置に分散すれば、Σ（Ｔｔｃ＋Ｔｔｒ）は、コピーされる分析グループＧの数が増えても、小さくすることができる。この繰り返し計算を、分析グループを重複度が高い順に増やしていくと（コピーする分析グループの数を増やしていくと）、最小となるＴｓｕｍを見つけることができる。なお、この計算は一例であり、他の方法で最適化計算が行われてもよい。

　図１８に戻る。Ｓ５９２０の結果（図１９の結果）、１つの分析グループもコピーしなくてよい場合は１台のストレージ装置で実行すべきということになるため、Ｓ５９４０へ進む。Ｓ５９４０では、実施例１の図１３のＳ５７３０及びＳ５７４０が全ての観点について実施され、その後、図１４及び図１５の処理が実施される。

　一方、Ｓ５９２０の結果（図１９の結果）、少なくとも１つの分析グループがコピーされる場合はＳ５９５０へ進む。Ｓ５９５０では、管理プログラム１１２は、Ｓ５９２０で確認したコピーすべき分析グループＧｙの重複を排除したときの容量がコピー先ストレージ装置のキャッシュメモリ容量以下か否かを判断する。

　Ｓ５９５０の判断結果が真の場合（Ｓ５９５０：Ｙｅｓ）、Ｃメタ８３及び第１Ｓメタ８２Ｓのみコピーされる（Ｓ５９７０）。一方、Ｓ５９５０の判断結果が偽の場合（Ｓ５９５０：Ｎｏ）、Ｃメタ８３及び第１Ｓメタ８２Ｓだけでなく実データ（データチャンク）もコピーされる（Ｓ５９６０）。

　図２０は、Ｓ５９６０のフローチャートである。

　管理プログラム１１２は、コピー元ストレージ装置３００（典型的には、データＶＯＬ２６Ｄを有するストレージ装置３００）に対して、Ｃスナップ（選別）とコピーとの指示を出す（Ｓ６１１０）。その指示には、ルートＩＤと、コピー先ストレージ装置の情報（例えば、コピー先ストレージ装置のストレージＩＤ１２５２）とが指定される。

　その指示を受けたコピー元ストレージ装置３００内のＣスナッププログラム（以下、コピー元Ｃスナッププログラム）１２９１は、図１３のＳ５７１０及びＳ５７２０（ＹＥＳ）と同様の処理を実行する（Ｓ６１２０）。すなわち、コピー元Ｃスナッププログラム１２９１が、指定されたルートＩＤに対応したＳメタポインタ１２５４をストレージ管理テーブル１２５０から特定する。コピー元Ｃスナッププログラム１２９１は、特定したＳメタポインタ１２５４から特定された第１Ｓメタ８２Ｓに関連付いたＣメタ８３のうち、Ｓ５９２０で受けたいずれかの検索鍵に該当するＣメタ８３を特定する。

　次に、コピー元Ｃスナッププログラム１２９１が、Ｓ６１２０で受けた指示で指定されているコピー元ストレージ装置３００内のコピープログラム（以下、コピー元コピープログラム）６５に、特定されたＣメタ８３と、それに関連付く第１Ｓメタ８２Ｓと、そのＣメタ８３及び第１Ｓメタ８２Ｓに対応した実データとをコピーすることのコピー要求を送信する（Ｓ６１３０）。コピー元コピープログラム６５は、そのコピー要求に応答して、そのコピー要求で指定された第１Ｓメタ８２ＳとＣメタ８３とそれに対応する実データとのライト指示を、コピー要求で指定されたコピー先ストレージ装置３００に出す（Ｓ６１４０）。

　コピー先ストレージ装置３００内のコピープログラム（以下、コピー先コピープログラム）６５は、ライト指示に応答して、ライト指示で指定された第１Ｓメタ８２ＳとＣメタ８３とそれに対応した実データを、そのコピー先ストレージ装置３００に保存する（Ｓ６１５０）。第１Ｓメタ８２ＳとＣメタ８３の保存先は、コピー先ストレージ装置３００のローカルメモリ１２００でよい。また、第１Ｓメタ８２Ｓの保存は、その第１Ｓメタ８２Ｓの複製に基づく第２Ｓメタ８２Ｔの保存でよい。実データの保存先は、コピー先ストレージ装置３００が提供するデータＶＯＬでよい。データＶＯＬは、ＲＶＯＬ（実ＶＯＬ）でもＴＰＶＯＬ（Thin Provisioningに従う仮想的な論理ボリューム）でもよい。このように、Ｓ６１５０の時点では、ライト指示に従うＣメタ８３、ライト指示に従う第１Ｓメタ８２Ｓの複製に基づく第２Ｓメタ８２Ｔ、及び、実データ（１以上のデータチャンク）が保存される。

　次に、コピー先コピープログラム６５は、保存された実データに対応する参照先アドレス、すなわち、保存された第２Ｓメタ８２Ｔの参照先アドレス（開始アドレス１２２００５及び終了アドレス１２２００６）と、保存されたＣメタ８３の参照先アドレス（開始アドレス１２３００３及び終了アドレス１２３００４）とを、実データが保存された領域のアドレスに書き換える（Ｓ６１６０）。

　その後、コピー先コピープログラム６５は、コピー先ストレージ装置３００内のＣスナッププログラム（以下、コピー先Ｃスナッププログラム）１２９１に、Ｃスナップ（スナップ取得）を依頼する（Ｓ６１７０）。その依頼に応答してコピー先Ｃスナッププログラム１２９１により行われるＣスナップ（スナップ取得）では、保存された第２Ｓメタ８２Ｔに対応したＳＳＶＯＬ２６Ｓが作成される。その後、Ｃスナップ（スナップ取得）の完了が、管理プログラム１１２に通知される。

　以上の処理の後にＳ５９８０へ進む。Ｓ５９８０では、管理プログラム１１２により、図１５のＳ５８３０と同様の処理が行われる。

　なお、Ｓ５９８０では、分析グループ内の第１Ｓメタ８２Ｓは、コピー先ストレージ装置で保存された第２Ｓメタ８２Ｔに差し替えられてもよい。

　また、図１８で示したＳ５９７０の処理は、実データが無いこと（例えば、実データコピーと参照先アドレス変更）が無いことを除いて、Ｓ５９６０の処理と同様である。このため、コピー先ストレージ装置３００に保存されたＣメタ８３及び第２Ｓメタ８２Ｔは、コピー元ストレージ装置３００のデータＶＯＬ２６Ｄの領域のアドレスを指す。この場合のデータアクセスのためには、スケールアウト処理が必要となる。図２１が、スケールアウト処理の概要を示す。図２１には、ストレージ装置３００Ｘ及び３００Ａが例示されている。ストレージ装置３００Ｘ及び３００Ａには、それぞれ、スケールアウトプログラム７４Ｘ及び７４Ａが追加されている。例えば、スケールアウトプログラム７４Ｘ（７４Ａ）は、Ｉ／Ｏプログラム６１Ｘ（６１Ａ）とオブジェクトプログラム６２Ｘ（６２Ａ）間の連携を中継してよい。ストレージ装置３００Ｘ及び３００Ａには、キャッシュメモリ１１００Ｘ及び１１００Ａがそれぞれ存在する。

　ここで、ストレージ装置３００Ａがホスト計算機２００Ａからリード要求を受けると、ストレージ装置３００Ａのスケールアウトプログラム７４Ａが、当該リード要求の宛先が自ストレージ装置３００Ａか否かを判断する。その判断結果が偽の場合、スケールアウトプログラム７４Ａが、リード要求の宛先となるストレージ装置３００Ｘに当該リード要求を転送する。転送されたリード要求を受けたストレージ装置３００Ｘは、当該リード要求に基づきデータチャンク８１をキャッシュメモリ１１００Ｘに読み出す。

　例えば、図１０のフローチャートは、Ｓ５０２０後の処理が実施例１と異なる。具体的には、例えば、スケールアウトプログラム７４Ａが共通要求を取得し、当該共通要求のアクセス先が自ストレージ装置３００Ａか否かを判断する。その判断結果が偽の場合、スケールアウトプログラム７４Ａが、当該共通要求のアクセス先となるストレージ装置３００Ｘのスケールアウトプログラム７４Ｘに当該共通要求を転送する。スケールアウトプログラム７４Ｘは、当該共通要求をオブジェクトプログラム６２Ｘに渡す。一方、当該共通要求のアクセス先が自ストレージ装置３００Ａである場合、スケールアウトプログラム７４Ａは、自ストレージ装置３００Ａのオブジェクトプログラム６２Ａに当該共通要求を渡す。

　また、例えば、図１１のフローチャートは、Ｓ５５２０後の処理が異なる。具体的には、例えば、スケールアウトプログラム７４Ａが共通要求を取得し、当該共通要求のアクセス先が自ストレージ装置３００Ａか否かを判断する。その判断結果が偽の場合、スケールアウトプログラム７４Ａが、当該共通要求のアクセス先となるストレージ装置３００Ｘのスケールアウトプログラム７４Ｘに当該共通要求を転送する。スケールアウトプログラム７４Ｘが当該共通要求をオブジェクトプログラム６２Ｘに渡す。一方、当該共通要求のアクセス先が自ストレージ装置３００Ａである場合、スケールアウトプログラム７４Ａは、自ストレージ装置３００Ａのオブジェクトプログラム６２Ａに当該共通要求を渡す。

　以上、実施例２によれば、複数のストレージ装置３００を跨いでＣスナップ処理が実現できる。これにより、例えば、ストレージ装置３００Ａはデータの格納のみ、ストレージ装置３００Ｂはスナップショットデータのみを格納し、用途を分けることが可能となり、特定のストレージ装置のＶＤＭの分析による性能の影響を別のストレージ装置に与えないようにすることが可能となる。

　また、実施例２によれば、複数のストレージ装置３００に複数のＳＳＶＯＬを配置することで複数のストレージ装置３００に複数の分析を分散できる。これにより、複数の分析の所要時間を短縮することが期待できる。

　なお、ストレージ装置３００間のコピーは、分析グループ単位で行われてもよいし、分析グループに含まれるメタセット単位で行われてもよい。後者の場合、分析グループが参照するデータチャンク群の容量から、コピー対象メタセットが参照するデータチャンク群の容量が減算された値が、コピー元ストレージ装置３００のキャッシュメモリ容量以下となれば、コピー対象とするメタセットの選択は終了してよい。

　＜実施例２の変形例１＞

　実施例２の変形例１では、分析終了後に（例えば図２の「（３）分析」の後に）、保存された情報（第２Ｓメタ８２Ｔ、Ｃメタ８３及び実データのうちの少なくとも１つ）をコピー先ストレージ装置から削除するか否かが判断される。例えば、或る検索鍵に適合するＣメタ８３が特定されてから規定時間内に同一検索鍵で同一Ｃメタ８３が特定されれば、そのＣメタ８３、そのＣメタ８３が関連付いた第２Ｓメタ８２Ｔ及びそれらに対応した実データはコピー先ストレージ装置から削除されないでよい。指定された検索鍵と、Ｃメタ特定時刻（Ｃメタ８３が特定された時刻）は、特定されたＣメタ８３のＣメタ管理情報１２３０のユーザ拡張１２３００６に保存されてもよいし、他の場所に保存されてもよい。以下、具体例を説明する。

　図１９のＳ６０２０において、Ｃスナッププログラム１２９１は、指定された検索鍵とＣメタ８３を特定した時刻とを、特定されたＣメタ８３のＣメタ管理情報１２３０のユーザ拡張１２３００６に登録する。特定したＣメタ８３のＣメタ管理情報１２３０のユーザ拡張１２３００６に、既に、同一検索鍵とコピー先ストレージ情報（コピー先ストレージ装置を表す情報、例えばストレージＩＤ）とが登録されている場合、そのユーザ拡張１２３００６におけるＣメタ特定時刻を更新する。Ｃスナッププログラム１２９１は、コピー先ストレージ情報を含んだＣメタ８３と、そのＣメタ８３が関連付けられた第１Ｓメタ８２Ｓと、対応した実データとを、以降の処理で再度コピーしない。Ｃスナッププログラム１２９１は、コピー先ストレージ情報を含まないＣメタ８３等についてＳ５９３０以降の処理を実施し、コピーの際に、コピー先ストレージ情報をコピー対象のＣメタ８３のユーザ拡張１２３００６に追記する。

　また、管理プログラム１１２が、定期的に、各ストレージ装置３００のＣメタ管理情報１２３０を調べ、最後のＣメタ特定時刻から規定時間（固定値でもユーザ設定値でも可）以上経過したＣメタ８３と、そのＣメタ８３が関連付けられた第２Ｓメタ８２Ｔと、それに対応する実データ及びＳＳＶＯＬ２６Ｓとを、ストレージ装置３００から削除し、且つ、コピー元のＣメタ８３のユーザ拡張１２３００６から検索鍵、Ｃメタ特定時刻及びコピー先ストレージ情報を削除する。

　以上の処理により、コピー先ストレージ装置に保存されたＣメタ８３等が使用されないまま残ってしまうことを回避でき、一方で、繰り返し分析で利用するＣメタ８３等はコピー先ストレージ装置３００に残るためコピー不要にできる。

　＜実施例２の変形例２＞

　実施例２の変形例２では、コピー所要時間の予測においてコピー先ストレージ装置が選択され複数の分析の前にＳＳＶＯＬがコピー先ストレージ装置に用意されることに代えて、ストレージ装置３００が、分析グループに対応する複数の分析を並列に実行しながら性能管理テーブル１２７０を監視し、リソース枯渇が生じたときに、分析グループに対応する複数の分析のうちの未実施の分析に対応したＣメタ８３等を別ストレージ装置３００にコピーする。「リソース枯渇」とは、リソースの性能値が閾値に達したこと（例えば、キャッシュメモリ利用率やＣＰＵ利用率が閾値に達したこと）を意味する。また、複数の分析が並列に実施されても、全ての分析が同時に開始されるとは限らない。

　変形例２では、例えば次の処理が行われる。すなわち、図１８のＳ５９２０及びＳ５９３０は実施されない。Ｓ５９４０が実施される。ストレージコントローラ３２９は、図１５の処理により提示された分析グループに対応する複数のＳＳＶＯＬ２６Ｓ（ＶＤＭ）を使用した複数の分析を並列に実施する。分析中に、管理プログラム１１２が、定期的に性能管理テーブル１２７０をチェックし、リソース枯渇が発生したか否かを判断する。リソース枯渇が発生が検出され、且つ、複数の分析のうち未実施の分析に対応したＳＳＶＯＬがあれば、ストレージコントローラ３２９は、未実施の分析のうち、重複度が高い第２Ｓメタ８２Ｔ等から順に別ストレージ装置にコピーする。コピーする処理の一連の流れは、図１８のＳ５９５０以降と同じでよい。

　変形例２によれば、ストレージ装置３００の複数のＳＳＶＯＬ２６Ｓを使用した複数の分析が並列に実行され、リソース枯渇が発生した場合にのみ、未実施の分析に対応したＳＳＶＯＬ２６Ｓ等が別ストレージ装置３００にコピーされる。

　以上、幾つかの実施例及び変形例を説明したが、本発明は、それらの実施例及び変形例に限定されるものでなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

　例えば、上述した実施例及び変形例のうちの任意の２以上の例を組み合わせることが可能である。

　また、上述した実施例及び変形例では、データ処理システムの一例がストレージシステムであるが、データ処理システムは、ストレージシステム、ホストシステム及び管理システムのうちの少なくとも１つに該当してもよい。例えば、ホストシステムがデータ処理システムに該当する場合、ホストシステムに対して検索鍵を指定した検索要求を送信する要求元はクライアントシステム（１以上のクライアント計算機）であってもよい。

　また、上述した実施例及び変形例では、Ｓメタ８２だけでなくＣメタ８３もストレージシステムに存在するが、Ｃメタ８３は、ストレージシステムに代えて又は加えてホストシステム又は管理システムに存在してもよい。具体的には、例えば、同一オブジェクト（同一データチャンク８１）について、ユーザ毎に（例えばホストシステム毎に又は管理システム毎に）、Ｃメタ８３が作成され、Ｃメタ８３は、そのＣメタ８３に対応したユーザのホストシステム又は管理システムに提供されてよい。ホストシステム又は管理システムがユーザから検索条件の指定を受けた場合、ホストシステム又は管理システム内のプロセッサが、そのユーザに対応するＣメタ８３のうちその検索条件に適合するＣメタ８３をホストシステム又は管理システムから探してよい。ホストシステム又は管理システムは、Ｃメタ８３が見つかった場合、そのＣメタ８３が参照するＳメタ８２が属するＳＳＶＯＬの作成をストレージシステムに要求してもよい。その要求に応答して、ストレージシステムが、Ｃスナップ処理を実行してもよい。

　また、Ｃメタ８３は、ユーザ毎に存在してもよい。例えば、同一のデータチャンク８１について、ユーザＡの抽出プログラム１２９０により作成されたＣメタ８３は、ユーザＡ用のＣメタ８３として保存され、ユーザＢの抽出プログラム１２９０により作成されたＣメタ８３は、ユーザＢ用のＣメタ８３として保存されてよい。ユーザＡから検索要求を受けた場合、ストレージコントローラ３２９（Ｃスナッププログラム１２９１）は、検索要求で指定された検索鍵と要求元のユーザＡとに適合するＣメタ８３を探してよい。また、Ｃスナッププログラム１２９１として、ユーザＡのＣスナッププログラム１２９１が存在する場合、ユーザＡのＣスナッププログラム１２９１が、ユーザＡからの検索要求で指定された検索鍵とユーザＡとに適合するＣメタ８３を探してよい。

　また、Ｃスナップ処理は、Ｃスナップ処理を開始すると定義付けられた所定のイベントであるＣスナップイベントが検出されたときに開始されてよい。Ｃスナップイベントは、ユーザ要求（例えば、Ｃスナップ処理の明示的な要求、又は、Ｃスナップ処理の実行が定義づけられた要求）を受信したこと、予め定義された時刻になったこと（例えば定期的にＣスナップ処理の実行が開始される）、及び、Ｃスナッププログラム１２９１を実行するプロセッサの負荷が所定値未満になった等の所定の性能状況（性能に関する状況）のいずれであってもよい。例えば、ストレージコントローラ３２９が、管理計算機１００及びホスト計算機２００のうちの少なくとも１つからユーザ要求を受信し、そのユーザ要求に応答してＣスナップ処理を実行してよい。

　また、ユーザプログラム（例えば、抽出プログラム１２９０、Ｃスナッププログラム１２９１、及び重複チェックプログラム１２９２のうちの少なくとも１つ）は、管理計算機１００、ホスト計算機２００、及びストレージコントローラ３２９のうちのいずれで実行されてもよい。

　また、ＳＳＶＯＬ２６Ｓ（ＶＤＭ）は、定期的に又は不定期的に更新されてよい。例えば、Ｃスナッププログラム１２９１が、既存のＳＳＶＯＬ２６Ｓに属する第２Ｓメタ８２Ｔに関連付いたＣメタ８３が表すコンテンツ属性と同じコンテンツ属性を表すＣメタ８３を特定し、そのＣメタ８３が参照する第１Ｓメタ８２Ｓを複製することにより新たに第２Ｓメタ８２Ｔを作成し、その新たな第２Ｓメタ８２Ｔを既存のＳＳＶＯＬ２６Ｓに新たに関連付けてもよい。

　また、オブジェクトの一例として、ファイルが採用されてよい。ファイルのデータが、オブジェクト内のデータチャンクの一例でよく、ファイルのメタデータが、オブジェクトのＳメタの一例でよい。

　また、データＶＯＬは、データ領域の一例でよく、ＳＳＶＯＬは、データ領域内の一部の非構造データを参照するスナップショットの一例でよい。

　また、抽出処理では、非構造化データソースからのデータ抽出に代えて又は加えて、第１Ｓメタ８２Ｓを参照して検索条件に適合するか否かが判断されてもよい。その判断結果が真の場合、第１Ｓメタ８２Ｓに基づき上述のＣメタ８３が作成され、そのＣメタ８３が、検索条件に適合した第１Ｓメタ８２Ｓに関連付けられてもよい。また、この場合、検索条件に適合した第１Ｓメタ８２Ｓから参照される１以上のデータチャンク８１が、該当する非構造化データの一例でよい。

３００：ストレージ装置

Claims

　複数の非構造化データを含んだ非構造化データソースへのアクセスのためのインターフェースを含んだ１以上のインターフェースであるインターフェース部と、
　１以上のメモリを含んだ記憶部と、
　前記インターフェース部及び記憶部に接続された１以上のプロセッサであるプロセッサ部と
を有し、
　少なくとも１つの非構造化データの第１種メタデータに、その非構造化データの１以上のコンテンツ属性を表すコンテンツ情報を含んだメタデータである第２種メタデータが関連付けられ、
　１以上の非構造化データの各々について、その非構造化データを参照する２以上の第１種メタデータが、
　　その非構造化データのオリジナルのメタデータである第１の第１種メタデータと、
　　検索条件に適合した第２種メタデータが関連付けられた第１の第１種メタデータの複製に基づくメタデータである第２の第１種メタデータと
を含み、
　前記プロセッサ部は、並列に使用されることが推奨される複数の仮想ボリュームに関わる情報である推奨情報を表示し、
　前記複数の仮想ボリュームには、複数の検索条件の少なくとも１つに適合する複数の第２種メタデータが関連付いている複数の第１種メタデータの１又は複数の重複度に基づく２以上の第２の第１種メタデータが関連付けられ、
　前記１又は複数の重複度の各々は、少なくとも２つの第１種メタデータにそれぞれ対応した少なくとも２つの参照先の重複部分のデータ量に従う値である、
データ処理システム。
　前記複数の仮想ボリュームに関連付けられた前記２以上の第２の第１種メタデータは、それぞれが閾値以上である１以上の重複度に基づく２以上の第２の第１種メタデータである、
請求項１記載のデータ処理システム。
　前記２以上の第２の第１種メタデータの参照先のデータ量のうちの少なくとも重複部分のデータ量が、前記非構造化データソースに対して読み書きされるデータが一時的に格納されるキャッシュ領域の容量を超えている場合、前記複数の仮想ボリュームは、それぞれが前記閾値未満である１以上の重複度に基づく２以上の第２の第１種メタデータが関連付けられた複数の仮想ボリュームである、
請求項２記載のデータ処理システム。
　前記複数の仮想ボリュームが、前記非構造化データソースを提供する第１ストレージ装置と、前記第１ストレージ装置に接続された１以上の第２ストレージ装置とのうちの少なくとも１つから提供される、
請求項１記載のデータ処理システム。
　前記複数の仮想ボリュームのうち、前記１以上の第２ストレージ装置のうちのいずれかの第２ストレージ装置から提供された仮想ボリュームは、その第２のストレージ装置に前記第１のストレージ装置からコピーされた第２の第１種メタデータが関連付けられた仮想ボリュームである、
請求項４記載のデータ処理システム。
　前記第１ストレージ装置が、前記非構造化データソースに対して読み書きされるデータが一時的に格納されるキャッシュ領域を有しており、
　前記プロセッサ部が、
　　前記１又は複数の重複度に基づく前記２以上の第２の第１種メタデータに対応した参照先のデータ量のうちの少なくとも重複部分のデータ量、又は、前記１又は複数の重複度に基づく２以上の第１の第１種メタデータに対応した参照先のデータ量のうちの少なくとも重複部分のデータ量が、前記キャッシュ領域の容量以下か否かを判断し、
　　前記判断の結果に応じたメタデータコピー処理を実行する、
請求項５記載のデータ処理システム。
　前記判断の結果が真の場合、前記メタデータコピー処理は、該当する第１種メタデータと、それに関連付いている第２種メタデータのみを、前記第１ストレージ装置から前記１以上の第２ストレージ装置にコピーする処理である、
請求項６記載のデータ処理システム。
　前記判断の結果が偽の場合、前記メタデータコピー処理は、該当する第１種メタデータと、それに関連付いている第２種メタデータとに加えて、それらのメタデータに対応した非構造化データを、前記第１ストレージ装置から前記１以上の第２ストレージ装置にコピーする処理である、
請求項６記載のデータ処理システム。
　前記プロセッサ部が、前記１以上の第２ストレージ装置におけるコピーされた第２種メタデータがいずれかの検索条件に適合した最新時刻からの経過時間に基づき、その第２種メタデータを含むコピーされた情報を前記１以上の第２ストレージ装置から削除するか否かを決定する、
請求項５記載のデータ処理システム。
　前記プロセッサ部が、前記複数の仮想ボリュームを使用する複数の処理を並列に実行している間、前記第１ストレージ装置のリソースが枯渇した場合、前記複数の処理のうちの未実行の処理が使用する仮想ボリュームに関わる第１種メタデータ及び第２種メタデータを前記１以上の第２ストレージ装置にコピーする、
請求項５記載のデータ処理システム。
　前記プロセッサ部は、
　　ユーザから指定された検索条件に適合する１以上の第２種メタデータを検索し、
　　見つかった１以上の第２種データが関連付けられている１以上の第１の第１種メタデータを特定し、
　　前記特定した１以上の第１の第１種メタデータをそれぞれ複製し、
　　前記複製により得られた１以上の第２の第１種メタデータが関連付けられ前記ユーザに対して提供される仮想ボリュームを生成する、
請求項１記載のデータ処理システム。
　前記推奨情報は、１又は複数のグループのうちの１以上のグループであって前記複数の仮想ボリュームに関わる１以上のグループに関する情報であり、
　前記１又は複数のグループの各々は、前記プロセッサ部により構築されたグループであり、それぞれが所定の条件を満たす１以上の重複度を有する２以上の第１種メタデータを含む、
請求項１記載のデータ処理システム。
　前記プロセッサ部は、下記（ｘ）と（ｙ）とのうちの少なくとも１つを、前記非構造化データソースを提供するストレージ装置のスペックと性能とのうちの少なくとも１つに基づき絞り込む、
　　（ｘ）前記推奨情報に関連付けられるグループ、
　　（ｙ）前記１又は複数のグループのうちの少なくとも１つのグループに含まれる第１種メタデータ、
請求項１記載のデータ処理システム。
　要求を受信し、
　前記要求に応答して、並列に使用されることが推奨される複数の仮想ボリュームに関わる情報である推奨情報を表示し、
　非構造化データソースに含まれている複数の非構造化データのうちの少なくとも１つの非構造化データの第１種メタデータに、その非構造化データの１以上のコンテンツ属性を表すコンテンツ情報を含んだメタデータである第２種メタデータが関連付けられ、
　１以上の非構造化データの各々について、その非構造化データを参照する２以上の第１種メタデータが、
　　その非構造化データのオリジナルのメタデータである第１の第１種メタデータと、
　　検索条件に適合した第２種メタデータが関連付けられた第１の第１種メタデータの複製に基づくメタデータである第２の第１種メタデータと
を含み、
　前記複数の仮想ボリュームには、複数の検索条件の少なくとも１つに適合する複数の第２種メタデータが関連付いている複数の第１種メタデータの１又は複数の重複度に基づく２以上の第２の第１種メタデータが関連付けられ、
　前記１又は複数の重複度の各々は、少なくとも２つの第１種メタデータにそれぞれ対応した少なくとも２つの参照先の重複部分のデータ量に従う値である、
データ処理方法。
　（ａ）要求を受信し、
　（ｂ）前記要求に応答して、並列に使用されることが推奨される複数の仮想ボリュームに関わる情報である推奨情報を表示する、
　　非構造化データソースに含まれている複数の非構造化データのうちの少なくとも１つの非構造化データの第１種メタデータに、その非構造化データの１以上のコンテンツ属性を表すコンテンツ情報を含んだメタデータである第２種メタデータが関連付けられ、
　　１以上の非構造化データの各々について、その非構造化データを参照する２以上の第１種メタデータが、
　　　　その非構造化データのオリジナルのメタデータである第１の第１種メタデータと、
　　　　検索条件に適合した第２種メタデータが関連付けられた第１の第１種メタデータの複製に基づくメタデータである第２の第１種メタデータと
を含み、
　　前記複数の仮想ボリュームには、複数の検索条件の少なくとも１つに適合する複数の第２種メタデータが関連付いている複数の第１種メタデータの１又は複数の重複度に基づく２以上の第２の第１種メタデータが関連付けられ、
　　前記１又は複数の重複度の各々は、少なくとも２つの第１種メタデータにそれぞれ対応した少なくとも２つの参照先の重複部分のデータ量に従う値であり、
（ａ）及び（ｂ）をコンピュータに実行させるコンピュータプログラムを記録したコンピュータ読取り可能な記録媒体。