WO2021140867A1

WO2021140867A1 - ストレージシステム、及び、記憶制御方法

Info

Publication number: WO2021140867A1
Application number: PCT/JP2020/047314
Authority: WO
Inventors: 弘明圷; 貴洋成子; 彬史鈴木
Original assignee: 株式会社日立製作所
Priority date: 2020-01-10
Filing date: 2020-12-18
Publication date: 2021-07-15
Also published as: JP2021111882A; US20220382459A1; JP7336995B2; US11922018B2

Abstract

多次元データセットの次元数及び様式に関わらず最適な圧縮器を生成する。ストレージシステムが、多次元データセットのデータ次元毎の属性を表す情報である次元設定情報を参照し、当該次元設定情報を基に圧縮器を生成する。

Description

ストレージシステム、及び、記憶制御方法

　本発明は、概して、記憶制御、例えば、圧縮制御に関する。

　データの圧縮を行うストレージシステムとして、例えば特許文献１に開示の技術がある。

特開２０１９－９５９１３号公報

　産業界の生産性向上に向け、ＩｏＴ（Internet of things）に対する期待が高まっており、ＩｏＴデータ（例えば、種々のデバイスから取得されるデータ）は増加し続けている。このため、多くの記憶容量が必要となる。

　また、データの多次元化及び多様化が進んでいる。データの多次元化の一例として、データ次元の増加が挙げられる。データの多様化の一例として、データ次元の多様化が挙げられる。例えば、イメージセンサに関し、多波長のデータを取得する分光イメージングや、ＴＯＦ（Time Of Flight）カメラによる距離計測などがある。多次元データは一次元データに比べればデータ量が多く、ＩｏＴデータとして、多次元データが増えると、ますます多くの記憶容量が必要となる。また、データの多次元化及び多様化は、最適な圧縮器の生成を煩雑化する。圧縮器が最適でないと、圧縮率が悪い。

　以上のような課題は、ＩｏＴ以外の分野についてもあり得る。

　ストレージシステムが、多次元データセットのデータ次元毎の属性を表す情報である次元設定情報を参照し、当該次元設定情報を基に圧縮器を生成する。

　多次元データセットの次元数及び様式に関わらず最適な（情報の劣化とそれに対するビットレートを最小化すること）圧縮器を生成することができる（可逆圧縮が採用される場合、情報の劣化は無く、情報の劣化が無い場合のビットレート最小化が期待される）。

実施形態１に係るシステム全体の構成を示す。論物変換テーブルの構成を示す。次元設定テーブルの構成を示す。品質設定テーブルの構成を示す。圧縮器生成処理の流れを示す。ネットワーク学習の概要を示す。ライト処理の流れを示す。符号化処理の概要の一例を示す。リード処理の流れを示す。復号処理の概要の一例を示す。パターン検索処理の流れを示す。実施形態２の概要を示す。実施形態３に係る符号化器のカーネル構成を示す。実施形態３に係る復号器のカーネル構成を示す。実施形態４に係る第１の超解像学習の概要を示す。実施形態４に係る第１の超解像学習後の符号化処理の概要を示す。実施形態４に係る第１の超解像学習後の復号処理の概要を示す。実施形態４に係る第２の超解像学習の概要を示す。実施形態５に係るネットワーク学習のうちスケール１に対応した部分の概要を示す。

　以下の説明では、「インターフェース装置」は、一つ以上の通信インターフェースデバイスでよい。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス（例えば一つ以上のＮＩＣ（Network Interface Card））であってもよいし二つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

　また、以下の説明では、「メモリ」は、一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。

　また、以下の説明では、「永続記憶装置」は、一つ以上の永続記憶デバイスである。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）であり、具体的には、例えば、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）である。

　また、以下の説明では、「記憶装置」は、永続記憶装置のような物理的な記憶装置でもよいし、物理的な記憶装置に関連付けられた論理的な記憶装置でもよい。

　また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスである。少なくとも一つのプロセッサデバイスは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサデバイスであるが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサデバイスでもよい。

　また、以下の説明では、「ｘｘｘテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。

　また、以下の説明では、「ｙｙｙ器」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路（例えばＦＰＧＡ又はＡＳＩＣ）によって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体（例えば非一時的な記録媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。なお、ｙｙｙ器として、例えば、圧縮器、符号化器（エンコーダ）、復号器（デコーダ）、量子化器（クオンタイザ）、エントロピー見積器（エントロピーエスティメータ）、制御器がある。

　また、以下の説明では、「データセット」は、アプリケーションプログラムのようなプログラムから見た１つの論理的な電子データの塊であり、例えば、レコード、ファイル、キーバリューペアおよびタプルのうちのいずれでもよい。

　また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号のうちの共通部分を使用し、同種の要素を区別する場合は、参照符号を使用することがある。例えば、ストレージシステムを区別しない場合には、「ストレージシステム１１０」と言い、ストレージシステム１１０を区別する場合には、「ストレージシステム１１０Ｅ」、「ストレージシステム１１０Ｃ」のように言うことがある。

　以下、本発明の幾つかの実施形態を説明する。なお、以下のいずれの実施形態でも、圧縮は、可逆圧縮でも非可逆圧縮でもよい。
［実施形態１］

　図１は、実施形態１に係るシステム全体の構成を示す。

　複数のエッジシステム１０１と一つ以上のコアシステム１０３が存在する。コアシステム１０３が、ネットワーク１０２（例えば、インターネット又はＷＡＮ（Wide Area Network））を介して、エッジシステム１０１と通信する。コアシステム１０３につき一つ以上のエッジシステム１０１が存在する。以下、説明を簡単にするため、一つのエッジシステム１０１と一つのコアシステム１０３を例に取る。

　エッジシステム１０１は、ユーザシステム１１５Ｅとストレージシステム１１０Ｅとを含む。

　ユーザシステム１１５Ｅは、物理的なシステム（例えば、物理的な一つ以上の計算機）であってもよいし、複数種類の計算資源（例えば、インターフェース装置、記憶装置、メモリ及びそれらに接続されたプロセッサ）を有する物理的なシステム上に設けられたシステム（例えば、仮想的な計算機）であってもよい。ユーザシステム１１５Ｅは、一つ以上のセンサが接続されたシステムであってもよいし、一つ以上のセンサを備えるシステムでもよい。ユーザシステム１１５Ｅは、センシング、エッジ処理、空間マッピング、データ書込み、データ読出し、及びパターン検索の少なくとも一つを行うことができる。

　「センシング」とは、一つ以上のセンサから多次元データセットを収集することである。

　「エッジ処理」とは、収集された多次元データセットをそのまま又は加工してコアシステム１０３に送信する処理である。なお、ユーザシステム１１５Ｅがエッジ処理を行うことに代えて又は加えて、ストレージシステム１１０Ｅに書き込まれた多次元データセットが、そのまま、又は、ストレージシステム１１０Ｅ及び１１０Ｃの少なくとも一つにより加工されて、コアシステム１０３内のストレージシステム１１０Ｃに書き込まれてよい。

　「空間マッピング」とは、多次元データセットを、ストレージシステム１１０Ｅが提供する仮想空間６１Ｅにマッピングすること、例えば、現実空間の座標系における座標（例えば、データ次元毎の値）を仮想空間６１Ｅの座標系における座標（例えば、仮想次元毎のアドレス）に変換するアフィン変換である。

　「データ書込み」とは、ライト対象の多次元データセットを仮想空間６１Ｅに書き込むことのライト要求をストレージシステム１１０Ｅに送信することである。ライト要求に応答して、多次元データセットがストレージシステム１１０Ｅにより書き込まれる。

　「データ読出し」とは、リード対象の多次元データセットを仮想空間６１Ｅから読み出すことのリード要求をストレージシステム１１０Ｅに送信することである。リード要求に応答して、多次元データセットがストレージシステム１１０Ｅにより読み出されユーザシステム１１５Ｅに送信される。

　「パターン検索」とは、指定したデータパターンとの類似度が一定値以上のパターンを持つデータの検索要求であるパターン検索要求をストレージシステム１１０Ｅに送信することである。パターン要求に応答して、見つかった多次元データセットのアドレス（又は、見つかったデータそれ自体）がストレージシステム１１０Ｅによりユーザシステム１１５Ｅに送信される。

　ストレージシステム１１０Ｅは、図示しない内部ネットワーク（例えばＬＡＮ（Local Area Network））を介して、ユーザシステム１１５Ｅと通信する。ストレージシステム１１０Ｅは、インターフェース装置５１Ｅ、永続記憶装置５４Ｅ、メモリ５２Ｅ及びそれらに接続されたプロセッサ５３Ｅを有する。インターフェース装置５１Ｅは、ネットワーク１０２、及び、上記図示しない内部ネットワークに接続される。メモリ５２Ｅは、後述の論物テーブルを含む管理情報、及び、一つ以上のコンピュータプログラムを格納する。プロセッサ５３Ｅが、一つ以上のコンピュータプログラムを実行する。

　少なくとも一部のコンピュータプログラムがプロセッサ５３Ｅにより実行されることで、圧縮器７０Ｅ及び制御器７１Ｅが実現される。

　圧縮器７０Ｅは、符号化（圧縮）と復号（伸張）の両方を行うことができる。圧縮器７０Ｅは、「圧縮伸長器７０Ｅ」と呼ばれてもよい。ライト対象の多次元データセットが、圧縮器７０Ｅにより符号化される。また、物理空間６０Ｅから読み出された符号化データ（圧縮された多次元データセット）が、圧縮器７０Ｅにより復号される。

　制御器７１Ｅは、圧縮器７０Ｅに学習を実行させたり、ストレージシステム１１０Ｅに対する要求を処理したりする。

　制御器７１Ｅが、一つ以上の仮想空間６１Ｅを提供し、一つ以上の物理空間６０Ｅを管理する。

　仮想空間６１Ｅは、多次元のアドレス空間である。仮想空間６１Ｅを定義する複数の次元（複数の仮想次元）は、多次元データセットに属する複数の次元（複数のデータ次元）と同じである。仮想空間６１Ｅへのアクセスに使用されるアドレス情報である論理アドレス情報は、仮想空間６１ＥのＩＤと、当該仮想空間６１Ｅを定義する複数の仮想次元の各々に属するアドレスとを含む。

　物理空間６０Ｅは、永続記憶装置５４Ｅが提供する一次元のアドレス空間（例えば、ＬＢＡ（Logical Block Address）の空間）である。

　ユーザシステム１１５Ｅから論理アドレス情報（例えば、仮想空間６１ＥのＩＤと当該仮想空間６１Ｅにおけるアドレスとを含む情報）が指定されてもよいが、本実施例では、制御器７１Ｅが、ユーザシステム１１５Ｅからのライト要求又はリード要求で指定されているアクセス先情報（例えば、多次元データセットのＩＤ、又は、現実空間におけるアドレス）を論理アドレス情報（例えば、次元毎のアドレス群を含んだ情報）に変換し、変換後の論理アドレス情報から物理アドレス情報（例えば、物理空間６０ＥのＩＤと当該物理空間６０Ｅにおけるアドレスとを含む情報）を特定してよい。

　図１の例によれば、ストレージシステム１１０は、オンプレミス型のストレージシステムのような物理的なストレージシステム（例えば、一つ以上の物理的なストレージ装置）であるが、それに代えて、クラウド型のストレージシステムのような仮想的なストレージシステム（例えば、複数種類の計算資源を有するシステム上に実現されるシステム）でもよい。計算資源は、プロセッサやメモリのようなハードウェア資源でもよいし、インスタンスに相当してもよい。

　コアシステム１０３は、ユーザシステム１１５Ｃとストレージシステム１１０Ｃとを含む。

　ユーザシステム１１５Ｃは、ユーザシステム１１５Ｅと次の点で相違する。すなわち、ユーザシステム１１５Ｃは、センシング、エッジ処理及び空間マッピングを行わないでよい。また、ユーザシステム１１５Ｃは、コア処理を行う。「コア処理」とは、一つ以上のエッジシステム１０１の各々から多次元データセット（センシングにより取得された多次元データセット又はそれの加工後の多次元データセット）を受信する処理である。ユーザシステム１１５Ｃは、ストレージシステム１１０に、ライト要求、リード要求又はパターン検索要求を送信する。

　ストレージシステム１１０Ｃは、ストレージシステム１１０Ｅと同じでよい。ストレージシステム１１０Ｅが物理的なストレージシステムであるか仮想的なストレージシステムであるかに関わらず、ストレージシステム１１０Ｃは物理的なストレージシステムと仮想的なストレージシステムのいずれでもよい。

　ストレージシステム１１０Ｃが有する仮想空間６１Ｃは、ストレージシステム１１０Ｅが有する仮想空間６１Ｅに対応付けられてよい。この場合、多次元データセットが、仮想空間６１Ｅ及び６１Ｃのいずれにも格納される。仮想空間６１Ｃに格納される多次元データセットのスケールは、仮想空間６１Ｅに格納される多次元データセットのスケールと同じかそれより小さい。例えば、仮想空間６１Ｅに書き込まれる多次元データセットは、制御器７１Ｅによりデータ量が削減されて（例えば、スケールがより小さくされて及び／又は圧縮されて）、仮想空間６１Ｃに書き込まれる。これにより、エッジシステム１０１とコアシステム１０３間のデータ通信量と、コアシステム１０３の消費記憶容量とを削減することができる。また、制御器７１Ｅは、仮想空間６１Ｅにおける一部の多次元データセット（例えば、比較的アクセス頻度が高い、及び／又は、最新アクセス時刻が現在時刻に比較的近い多次元データセット）を物理空間６０Ｅに格納しておき、仮想空間６１Ｅにおける残りの多次元データセットを物理空間６０Ｅに格納せず仮想空間６１Ｃに格納しておいてもよい（この場合、物理空間６０Ｅに格納されていない多次元データセットは、制御器７１Ｅにより、仮想空間６１Ｃから読み出されて応答されてもよい）。

　エッジシステム１０１とコアシステム１０３のうちの一方が無くてもよい。また、エッジシステム１０１及びコアシステム１０３の少なくとも一方において、ユーザシステム１１５は無くてもよい。

　本発明の実施形態１に係るストレージシステムは、ストレージシステム１１０Ｅ及び１１０Ｃのいずれでもあるが、ストレージシステム１１０Ｅ及び１１０Ｃのうちの一方でもよい。

　以下、ストレージシステムの説明は、ストレージシステム１１０Ｅ及び１１０Ｃのうちのストレージシステム１１０Ｅを代表的に例に取る。また、以下の説明では、多次元データセットは、センサの一例であるカメラにより或る時間撮影された動画データセット（例えば動画ファイル）であり、故に、複数のフレーム（静止画データセット）を含む。

　図２は、論物変換テーブルの構成を示す。

　論物変換テーブル２００は、ストレージシステム１１０Ｅのメモリ５２Ｅに格納されるテーブルである。論物変換テーブル２００は、論理アドレス情報と物理アドレス情報との関係を表す。論物変換テーブル２００は、複数のレコード２１０を有する。多次元データセット毎に、レコード２１０Ｌと、当該レコード２１０Ｌに対応したレコード群２２０とがある。レコード２１０Ｌ毎に、レコード群２２０が対応付けられている。例えば、仮想次元（データ次元）の数が３の場合、レコード２１０Ｌ（論理アドレス情報）とレコード群２２０（物理アドレス情報）は、Hashed-Octreeにより対応付けられてよい。

　レコード２１０Ｌは、多次元データセットの論理アドレス情報が格納されるレコードである。論理アドレス情報は、例えば、仮想空間ＩＤ２６１、スケール２６２、及び、仮想次元毎のアドレス群２６３（例えば、四つの仮想次元にそれぞれ対応した四つのアドレス群２６３Ａ～２６３Ｄ）といった情報を含む。

　仮想空間ＩＤ２６１は、多次元データセットが書き込まれる仮想空間６１ＥのＩＤを表す。

　スケール２６２は、多次元データセットのスケールを表す。元の多次元データセットのスケールが最も大きい。スケールが小さい程、多次元データセットは粗く、多次元データセットのデータ量は減る。例えば、多次元データセットが動画像データセットの場合、スケールに応じてフレームが間引かれたり、フレームの縦横サイズが小さくされたりする。本実施形態では、スケールは多段階である。

　各仮想次元について、アドレス群２６３は、仮想空間ＩＤから同定される仮想空間６１Ｅに属する当該仮想次元の全アドレスのうち、多次元データセットの位置に対応したアドレス群（一つ以上のアドレス）を表す。アドレス群が複数のアドレスの場合、当該複数のアドレスは、連続したアドレスでもよいし離散したアドレスでもよい。

　レコード群２２０は、三つのレコード２１０Ｐである。レコード２１０Ｐは、物理アドレス情報が格納されるレコードである。物理アドレス情報は、例えば、物理空間ＩＤ２７１、物理アドレス２７２及び長さ２７３といった情報を含む。

　物理空間ＩＤ２７１は、格納対象が書き込まれる物理空間６０ＥのＩＤを表す。物理アドレス２７２は、物理空間ＩＤ２７１から同定される物理空間６０Ｅに属する全アドレスのうち、格納対象の書込み先のアドレス（例えば、格納対象の先頭アドレス）を表す。長さは、格納対象の長さ（データサイズ）を表す。

　ここで、「格納対象」は、モデル群、符号化データセット、及び未符号化データセットのうちのいずれかである。すなわち、レコード群２２０としての三つのレコード２１０Ｐは、モデル群の物理アドレス情報が格納されるレコード２１０Ｐ１と、符号化データセット（圧縮された多次元データセット）の物理アドレス情報が格納されるレコード２１０Ｐ２と、未符号化データセット（非圧縮の多次元データセット）の物理アドレス情報が格納されるレコード２１０Ｐ３である。ここで、「モデル群」は、一つ以上のモデル、例えば、圧縮器７０Ｅに含まれる後述の符号化器のモデル、復号器のモデル、及び、エントロピー見積器のモデルである。各々のモデルは、例えば、畳み込みニューラルネットワークである。符号化器、復号器及びエントロピー見積器の少なくとも一つのモデルは、畳み込みニューラルネットワーク以外のモデル（例えば、GMM（Gaussian Mixture Models）、HMM（Hidden Markov Model）、SCFG（Stochastic Context-Free Grammar）、GAN（Generative Adversarial Nets）、VAE（Variational Auto Encoder）又は遺伝的プログラミング）でもよい。また、データモデルの情報量削減のためにMimic Model等のモデル圧縮が適用されてもよい。

　仮想空間６１Ｅに格納される多次元データセットの論理アドレス情報がレコード２１０Ｌに格納され、当該レコード２１０Ｌに対応付けられるレコード群２２０に関し、例えば以下の通りである。
・当該仮想空間６１Ｅについて、モデル群が生成され生成されたモデル群が物理空間６０Ｅに格納された又は格納済の場合、当該モデル群の物理アドレス情報が格納されたレコード２１０Ｐ１を含むレコード群２２０が、レコード２１０Ｌに関連付けられる。
・当該多次元データセットが符号化されて符号化データセット（例えば、特徴量マップ）が物理空間６０Ｅに格納された場合、当該符号化データセットの物理アドレス情報がレコード２１０Ｐ２に格納される。当該多次元データセットは符号化されているため、レコード２１０Ｐ３はヌルとなる。
・当該仮想空間６１Ｅについてモデル群が未生成である又はその他の理由により、当該多次元データセットが符号化されずに物理空間６０Ｅに格納された場合、当該未符号化データセットの物理アドレス情報がレコード２１０Ｐ３に格納される。当該多次元データセットは符号化されていないため、レコード２１０Ｐ２はヌルとなる。

　図２によれば、ストレージシステム１１０Ｅでは、多次元データセットのＩ／Ｏ（Input/Output）は、仮想空間６１Ｅを通じて行われる。仮想空間６１Ｅに対するライト要求及びリード要求では、論理アドレス情報、すなわち、仮想空間６１ＥのＩＤと、多次元データセットに属する複数の次元の各々についてアドレス群とを含んだ情報が指定される。例えば、次元“時間”については、次元“時間”に対応したアドレスとして、多数のフレームのうち１番目～１０番目のフレームといった指定が可能である。制御器７１Ｅは、指定された論理アドレス情報をキーに論物変換テーブル２００から物理アドレス情報を特定し、特定された物理アドレス情報を基に、モデル及び多次元データセットの少なくとも一つのＩ／Ｏを物理空間６０Ｅに対して行う。本実施形態では、制御器７１Ｅが、ユーザシステム１１５Ｅから指定されたアドレス情報（例えば、現実空間におけるアドレスを表す情報）をキーに例えば図示しないアドレス変換テーブル（例えば、現実空間のアドレス情報と論理アドレス情報との対応関係を表すテーブル）を参照することで論理アドレス情報を特定するが、論理アドレス情報はユーザシステム１１５Ｅからのライト要求又はリード要求で指定されていてもよい。また、本実施形態では、多次元データのスケールが多段階であり、論理アドレス情報では、ライト対象又はリード対象の多次元データのスケールが指定されるが、論理アドレス情報は、必ずしもスケールを含まなくてもよい。

　図２によれば、多次元データセット毎に、当該多次元データセットに属する全次元についてスケールが共通である（言い換えれば、多次元データセット毎に、代表的なスケールが指定される）。例えば、スケール２６２として、最大のスケールよりも小さいスケールが指定された場合、各仮想次元について、アドレス群２６３として、当該スケールに応じて縮小された値が設定される。スケールは、次元毎に指定されてもよい。

　図３は、次元設定テーブルの構成を示す。

　次元設定テーブル３００は、ストレージシステム１１０Ｅのメモリ５２Ｅに格納されるテーブルである。次元設定テーブル３００は、仮想空間６１Ｅの各仮想次元に関する情報を表す。次元設定テーブル３００は、例えば仮想空間６１Ｅ毎に存在する。次元設定テーブル３００は、例えば、仮想次元（データ次元）毎にレコードを有する。各レコードは、仮想空間ＩＤ３１１、次元ＩＤ３１２、属性３１３、サイズ３１４、スケール３１５及び名称３１６といった情報を格納する。以下、一つの仮想次元を例に取る（図３の説明において「注目次元」）。

　仮想空間ＩＤ３１１は、注目次元が属する仮想空間６０ＥのＩＤを表す。次元ＩＤ３１２は、注目次元のＩＤを表す。

　属性３１３は、注目次元の属性、具体的には、“連続”（注目次元に属する複数のアドレスが連続したアドレスである）か“離散”（注目次元に属する複数のアドレスが離散したアドレスである）かを表す。図３の例によれば、注目次元が“時間”（撮影時間長）、“縦”（フレームの縦）又は“横”（フレームの横）の場合、アドレス（例えばサイズ）は連続する。一方、注目次元が“センサＩＤ”の場合、複数のカメラのＩＤが連続しているとは限らず、通常、故に、注目次元のアドレス（カメラのＩＤ）は離散する。

　サイズ３１４は、注目次元のサイズを表し、仮想空間６１Ｅでは注目次元のアドレスに相当する。例えば、図３の例によれば、多次元データセットにおける各フレームの縦と横のいずれのサイズ（ピクセル数）も“１０２４”である。なお、サイズ３１４は、多次元データセットのスケールが最大の場合のサイズを表す。多次元データセットのスケールとして最大スケールより小さいスケールが指定された場合、例えば属性“連続”の次元について、当該指定されたスケールに応じて、多次元データセットの当該次元のサイズが、制御器７１Ｅにより、サイズ３１４が表すサイズよりも小さいサイズとされる。

　スケール３１５は、注目次元について取り得るスケールの範囲を表す。例えば、属性が“連続”であるいずれの次元についても、スケール１～３のいずれも取り得る。スケールｎ（ｎは自然数）のｎの値が大きい程、スケールが大きい（多次元データセットのデータ量が多い）ことを意味する。スケール３が、本実施形態での最大スケールである。スケール３１５は、次元によって異なっていてもよい。例えば、或る次元では、スケール２又は３が有効であり、別の次元では、スケール３のみが有効であってもよい。また、スケール３１５は、注目次元の属性が“連続”の場合に有効でよい。

　名称３１６は、注目次元の名称を表す。本実施形態では、仮想次元として、“時間”（撮影時間長）、“縦”、“横”、“センサＩＤ”といった四つの仮想次元がある。四つの仮想次元のうちの少なくとも一つに代えて又は加えて、一つ以上の別の仮想次元、例えば、“奥行”及び“周波数”のうちの少なくとも一つが採用されてもよい。

　次元設定テーブル３００は、ユーザシステム１１５Ｅのユーザにより設定されるが、他の者により設定されてもよいし、自動設定されてもよい。自動設定の方法として、例えば次の方法がある。

　すなわち、制御器７１Ｅが、入力された多次元データセットの統計を解析し、当該解析の結果を基に、次元設定テーブル３００を作成又は更新してよい。当該多次元データセットの格納先の仮想空間６１ＥのＩＤは、ランダムに決定されてもよいし、所定の規則に沿って決定されよい。多次元データセットの統計の解析から、次元数、属性及びサイズがわかる。例えば、多次元データセットが、a[i₁][i₂]…[i_n]と表現される場合（“a”は、多次元データセットの識別子であり、“[i_x]”は、次元ｘに対応し、“i_x”は、当該次元ｘについてのサイズであり）、制御器７１Ｅが、a[i₁][i₂]…[i_n]を圧縮器７０Ｅに入力することで圧縮率cと劣化度dを得る。制御器７１Ｅが、f(a, i_1…n, n)->(c,d)といった関数において、c及びdが最適になるi_1…n,及びnを算出する（fは、関数であり、i_1…nは、i₁、i₂、・・・、i_nであり、ｎは、次元数である）。自動設定の具体例は、例えば、下記の通りである。
・多次元データセットが次元数及びサイズを表す情報を保持している場合（例えば、多次元データセットがnpy（テンソル）形式のファイルの場合）、制御器７１Ｅが、次元間のアドレス（値）の相関係数が閾値以上か否かに応じて、属性が“連続”か“離散”かを決定し、決定された属性が反映された次元設定テーブルを作成してよい。例えば、相関係数が閾値以上であれば、属性が“連続”であり、相関係数が閾値未満であれば、属性が“離散”である。その他、スケールや名称等の情報は、プリセットの値から適宜設定してもよいし、ユーザの使用履歴の統計を基に適宜設定されてもよい。
・多次元データセットの次元構造が失われている場合（例えば、多次元データセットが一般バイナリ形式のファイルの場合）、制御器７１Ｅが、多次元データセットの次元数と次元毎のサイズ、属性等の次元設定テーブルの情報項目をパラメータとした強化学習（例えば、圧縮率を報酬とした強化学習）により決定し、決定されたパラメータが反映された次元設定テーブルを作成してよい。その他、スケールや名称等の情報は、プリセットの値から適宜設定してもよいし、ユーザの使用履歴の統計を基に適宜設定されてもよい。

　図４は、品質設定テーブルの構成を示す。

　品質設定テーブル４００は、ストレージシステム１１０Ｅのメモリ５２Ｅに格納されるテーブルである。品質設定テーブル４００は、仮想空間６１Ｅに格納される多次元データセットの品質の条件（言い換えれば、許容される品質）を表す。品質設定テーブル４００は、例えば、仮想空間６１Ｅ毎にレコードを有する（例えば、品質の条件は、仮想空間６１Ｅ毎に代えて、仮想空間６１Ｅにおける範囲毎といった任意の単位で設定されてもよい）。各レコードは、仮想空間ＩＤ４１１、属性４１２、値域４１３、許容誤差指標４１４及び許容誤差量４１５といった情報を格納する。

　仮想空間ＩＤ４１１は、仮想空間６１ＥのＩＤを表す。属性４１２は、仮想空間６１Ｅに格納される多次元データセットの圧縮が“可逆”か“非可逆”かを表す。値域４１３は、多次元データセットの値の範囲（例えば、画像におけるピクセルの値の範囲など）を表す。

　許容誤差指標４１４及び許容誤差量４１５は、圧縮が“非可逆”の場合に有効な情報である。許容誤差指標４１４は、算出される誤差の種類（例えば、“ＲＭＳＥ”（Root Mean Squared Error））を表す。許容誤差量４１５は、算出された誤差の値として許容される値の条件（例えば、許容誤差の範囲）を表す。

　以下、本実施形態で行われる幾つかの処理を説明する。

　図５は、圧縮器生成処理の流れを示す。なお、圧縮器生成処理の前に、所定の初期化処理において、次元設定テーブル３００及び品質設定テーブル４００の設定が済んでいる。また、本実施形態では、符号化器、復号器及びエントロピー見積器のいずれのモデルも畳み込みニューラルネットワークである。

　この圧縮器生成処理は、例えば以下のいずれかを契機に開始されてよい。
・制御器７１Ｅが、仮想空間ＩＤを指定した圧縮器生成要求（圧縮器を生成することの要求）を受信する。圧縮器生成要求は、例えば、ユーザシステム１１５Ｅ（又は、ストレージシステム１１０Ｅの管理システム（図示せず））から送信される。
・制御器７１Ｅが、定期的又は不定期的に、仮想空間６１Ｅ毎に、モデル群を作成済か否かチェックすることで（例えば、論物変換テーブル２００を参照することで）、モデル群が未作成の仮想空間６１Ｅが見つかる。

　以下、図５の説明において、圧縮器生成処理の対象の仮想空間６１Ｅを、「注目仮想空間６１Ｅ」と言う。

　制御器７１Ｅが、次元設定テーブル３００を参照する（Ｓ５０１）。

　制御器７１Ｅが、注目未処理次元の属性３１３が“離散”か否かを判定する（Ｓ５０２）。「未処理次元」とは、注目仮想空間に属する仮想次元のうち未だ属性３１３が参照されていない仮想次元である。「注目未処理次元」とは、一つ以上の未処理次元のうち制御器７１Ｅにより注目（選択）された未処理次元である。

　Ｓ５０２の判定結果が真の場合（Ｓ５０２：Ｙｅｓ）、つまり、注目未処理次元の属性３１３が“離散”の場合、制御器７１Ｅが、N_Channel（チャネル数）に値の設定があるか否かを判定する（Ｓ５０３）。

　Ｓ５０３の判定結果が偽の場合（Ｓ５０３：Ｎｏ）、制御器７１Ｅが、N_Channelに注目未処理次元のサイズ３１４の値を設定する（Ｓ５０４）。これにより、N_Channelに値の設定がある状態となる。

　Ｓ５０３の判定結果が真の場合（Ｓ５０３：Ｙｅｓ）、制御器７１Ｅが、N_Channelの値を、N_Channelに設定されている値と、注目未処理次元のサイズ３１４の値との積に変更する（Ｓ５０５）。

　Ｓ５０２の判定結果が偽の場合（Ｓ５０２：Ｎｏ）、つまり、注目未処理次元の属性３１３が“連続”の場合、N_Kernel（カーネル次元数）の値を１インクリメントする（Ｓ５０６）。

　Ｓ５０４～Ｓ５０６の後、制御器７１Ｅが、注目仮想空間の全仮想次元の属性３１３を参照したか否かを判定する（Ｓ５０７）。Ｓ５０７の判定結果が偽の場合（Ｓ５０７：Ｎｏ）、いずれかの未処理次元についてＳ５０１が行われることで、当該未処理次元の属性５０３が特定される。

　Ｓ５０７の判定結果が真の場合（Ｓ５０７：Ｙｅｓ）、制御器７１Ｅが、符号化器、復号器及びエントロピー見積器の各々のＣＮＮ（畳み込みニューラルネットワーク）を構成する（Ｓ５０８）。ＣＮＮの構成は、N_Channel及びN_Kernelを基に決定される。Ｓ５０８では、例えば、N_Kernelに基づきカーネルの型が決まり、N_Channelに基づきチャネル数が決まり、ＮＮのパラメータ群が初期化される。

　その後、制御器７１Ｅが、ネットワーク学習（ＣＮＮの学習）を行う（Ｓ５０９）。

　ＣＮＮによれば、チャネル方向に俯瞰的な処理が行われ（例えば、全結合層が存在し）、また、カーネルの範囲で処理がされる。このため、ＣＮＮの特性としては、非連続的で順番に依存しない入力はチャネルであることが好ましく、連続した入力はカーネルを用いて処理されることが好ましい。そこで、図５の例によれば、属性“離散”の仮想次元の個数及びサイズ３１４が、N_Channel（チャネル数）に影響し、属性“連続”の仮想次元の個数が、N_Kernel（カーネル次元数）に影響する。これは、多次元データセットの次元数及び様式に最適なＣＮＮを自動で生成することに貢献する。

　図６は、ネットワーク学習（Ｓ５０９）の概要を示す。

　圧縮器７０Ｅは、以下のように構成される。

　すなわち、スケールがｍ段階の場合（ｍは自然数）、すなわち、スケール１、スケール２、…、スケールｍがある場合、圧縮器７０Ｅが、スケール毎に、処理ユニット６０１を含む。本実施形態では、ｍ＝３のため、スケール１～３にそれぞれ対応した処理ユニット６０１－１～６０１－３がある。スケールｎ（ｎは、１～ｍまでの各々の整数、本例では、ｎ＝１、２又は３）に対応した要素の符号は、適宜、ｎを含む。

　処理ユニット６０１－ｎが、符号化器Ｅｎ、復号器Ｄｎ及びエントロピー見積器Ｈｎを含む。量子化器ｑは、複数の処理ユニット６０１－１～６０１－３で共通であるが、処理ユニット６０１毎に量子化器ｑがあってもよい。処理ユニット６０－１ｎにおいて特徴量マップＦＭｎが生成される。Ｌｄ_ｉは、劣化度を表し、具体的には、例えば、誤差指標関数（例えば、PSNR（Peak Signal-to-Noise Ratio）、MSE（Mean Square Error）、又は、MS-SSIM（Multi-Scale Structural Similarity））である。Ｌｅ_ｉが、ビットレートを表し、具体的には、例えば、特徴量マップＦＭｎが入力されたエントロピー見積器Ｈｎからの出力が表すエントロピー（例えば、各シンボルの予測される出現確率を表す確率分布）と特徴量マップＦＭｎ（例えば、各シンボルの正解としての出現確率を表す確率分布）とを比較する関数である。制御器７１Ｅが、Ｌｄ_ｉとＬｅ_ｉをラグランジュマルチプライヤー（λ）により結合し、その式をロス関数として学習する。

　処理ユニット６０１－１～６０１－３がスケールの順序でシーケンシャルに関連付いている。具体的には、処理ユニット６０１－ｎの出力が、処理ユニット６０１－（ｎ＋１）の入力に影響する。

　このような構成の圧縮器７０Ｅについて、以下のようなネットワーク学習が行われる。

　多次元データセットｄ３ａが入力される。多次元データセットｄ３ａが、元の多次元データセットである。多次元データセットｄ３ａは、教師データセットとして別途用意された多次元データセットでもよいし、ユーザシステム１１５Ｅから入力されたライト対象の多次元データセットであってもよい。

　圧縮器７０Ｅが、多次元データセットｄ３ａを多次元データセットｄ２ａにダウンサンプリングする。例えば、スケールが１段階下がる毎のサイズの縮小比率（例えば１／２倍）が決まっていて、多次元データセットｄ３ａに属する各データ次元に関し、当該データ次元についてのサイズが、当該縮小比率に従い縮小される。例えば、フレームの縦横のピクセル数や、１秒当たりのフレーム数が、半分に縮小される。

　圧縮器７０Ｅが、多次元データセットｄ２ａを多次元データセットｄ１ａにダウンサンプリングする。

　このようにして、圧縮器７０Ｅが、多次元データセットｄ３ａのスケールを段階的に最小スケールまで下げる、すなわち、多次元データセットｄ３ａを段階的にダウンサンプリングしていく。最小のスケールに対応した多次元データセットｄ１ａまでダウンサンプリングが終了したら、最小のスケールから最大のスケールにかけて段階的に以下の処理が行われる。以下、スケール１～３の各々について行われる処理を説明する。

　＜スケール１についての処理＞

　圧縮器７０Ｅが、例えば多次元データセットｄ１ａのデータ形式を所定の形式にし、多次元データセットｄ１ａを符号化器Ｅ１に入力する。符号化器Ｅ１が、入力された多次元データセットｄ１ａを符号化し、量子化器ｑが、符号化された多次元データセットｄ１ａの特徴量マップＦＭ１を生成する。エントロピー見積器Ｈ１が、特徴量マップＦＭ１を用いて自己回帰モデル等による予測や、その他の確率予測のために保存された情報、またはそれらを併用した予測などを基に算出された各シンボルの出現確率と、特徴量マップＦＭ１から直接算出した正解の各シンボルの出現確率とを基に、Ｌｅ_１（例えばクロスエントロピーなどの確率を比較する関数）を算出する。復号器Ｄ１が、特徴量マップＦＭ１を基に多次元データセットｄ１ｂ（復号された多次元データセット）を生成する。制御器７１Ｅが、多次元データセットｄ１ａ及びｄ１ｂの誤差を、Ｌｄ_１を用いて算出する。

　＜スケール２についての処理＞

　圧縮器７０Ｅが、多次元データセットｄ１ｂを多次元データセットｄ２ｂにアップサンプリングする。例えば、スケールが１段階上がる毎のサイズの拡大比率（例えば２倍）が決まっていて、多次元データセットｄ１ｂに属する各データ次元に関し、当該データ次元についてのサイズが、当該拡大比率に従い拡大される。なお、拡大比率は、縮小比率の逆数でよい。

　多次元データセットｄ２ｂは、多次元データセットｄ２ａと同じスケールのデータセットであるが、多次元データセットｄ２ａのダウンサンプリング、符号化、復号及びアップサンプリングを経て得られたデータセットであるため、多次元データセットｄ２ａと完全に同じとは限らない。圧縮器７０Ｅが、多次元データセットｄ２ａと多次元データセットｄ２ｂとの差分データセットｄ２ｃを算出する。圧縮器７０Ｅが、例えば差分データセットｄ２ｃのデータ形式を所定の形式にし、差分データセットｄ２ｃを符号化器Ｅ２に入力する。符号化器Ｅ２が、入力された差分データセットｄ２ｃを符号化し、量子化器ｑが、符号化された差分データセットｄ２ｃの特徴量マップＦＭ２を生成する。エントロピー見積器Ｈ２が、特徴量マップＦＭ２を基に算出された値と、特徴量マップＦＭ２とを基に、Ｌｅ_２を算出する。復号器Ｄ２が、特徴量マップＦＭ２を基に差分データセットｄ２ｄ（復号された差分データセット）を生成する。差分データセットｄ２ｄは、多次元データセットｄ２ａ及びｄ２ｂの差分データセットｄ２ｃの非可逆圧縮後の復号データセットである。このため、多次元データセットｄ２ｂと差分データセットｄ２ｄとの和が、多次元データセットｄ２ａの非可逆圧縮後の復号データセットである復号データセット２に相当する。制御器７１Ｅが、多次元データセットｄ２ａと復号データセット２との誤差を、Ｌｄ_２を用いて算出する。

　＜スケール３についての処理＞

　スケール２についての処理と実質的に同様である。すなわち、圧縮器７０Ｅが、多次元データセットｄ２ｂと差分データセットｄ２ｄとの和を多次元データセットｄ３ｂにアップサンプリングする。圧縮器７０Ｅが、多次元データセットｄ３ａと多次元データセットｄ３ｂの差分データセットｄ３ｃを算出する。圧縮器７０Ｅが、例えば差分データセットｄ３ｃのデータ形式を所定の形式にし、差分データセットｄ３ｃを符号化器Ｅ３に入力する。符号化器Ｅ３が、入力された差分データセットｄ３ｃを符号化し、量子化器ｑが、符号化された差分データセットｄ３ｃの特徴量マップＦＭ３を生成する。エントロピー見積器Ｈ３が、特徴量マップＦＭ３を基に算出された値と、特徴量マップＦＭ３とを基に、Ｌｅ_３を算出する。復号器Ｄ３が、特徴量マップＦＭ３を基に差分データセットｄ３ｄ（復号された差分データセット）を生成する。多次元データセットｄ３ｂと差分データセットｄ３ｄとの和が、多次元データセットｄ３ａの非可逆圧縮後の復号データセットである復号データセット３に相当する。制御器７１Ｅが、多次元データセットｄ３ａと復号データセット３との誤差を、Ｌｄ_３を用いて算出する。

　以上が、スケール１～３の各々についての処理である。

　制御器７１Ｅが、以下の数１の通りのロス関数を用いて算出されるＬが最小になるように、圧縮器７０Ｅにおける符号化器Ｅｎ、復号器Ｄｎ及びエントロピー見積器Ｈｎの各々のＣＮＮを学習する。制御器７１Ｅが、Ｌｄ_ｉとＬｅ_ｉをラグランジュマルチプライヤー（λ）により結合し、その式の一例が、数１の通りのロス関数である。

　図６の例によれば、スケール毎に、処理ユニット６０１があり、各スケールの処理ユニット６０１が学習される。後述するように、ライト処理では、ライト要求で指定されたスケール以下の各スケールについて、当該スケールに対応した処理ユニット６０１により符号化されたデータセットが格納される。リード処理では、リード要求で指定されたスケールに対応した符号化データセットが当該指定されたスケールに対応した処理ユニット６０１により復号される。一比較例として、複数のスケールに共通の一つの処理ユニットを圧縮器とすることが考えられるが、この場合、リード要求で指定されたスケールによっては、復号データセットのダウンサンプリングが必要になる。本実施形態では、このような比較例よりも効率的にリード処理を行うことが実現できる。

　また、そのようなライト処理及びリード処理によれば、指定されたスケール以外のスケールについてもデータを格納する必要がある。このため、消費される記憶容量が増えることになる。そこで、本実施形態では、複数のスケールにそれぞれ対応した複数の処理ユニット６０１がスケールの順にシーケンシャルに関連付けられていて、スケールｎが最小のスケールでなければ、スケールｎの多次元データセットそれ自体の符号化データセットに代えて、スケールｎの多次元データセットとスケールｎの復号データセットとの差分が符号化されたデータセットが格納される。これにより、消費記憶容量の増大を低減することができる。なお、「スケールｎの復号データセット」とは、スケールｎの多次元データセットを非可逆圧縮しその後に復号したデータセット又はそれに相当するデータセットである。

　また、ネットワーク学習は、ユーザシステム１１５Ｅからライト対象の多次元データセットを受け付ける前段階において行われてもよいが、ユーザシステム１１５Ｅから入力されるライト対象の多次元データセットを用いて（つまり動的に）行われてもよい。ネットワーク学習で使用される多次元データセットは、ユーザシステム１１５Ｅから入力される各多次元データセットでもよいし、ユーザシステム１１５Ｅから受けた一つ以上の多次元データセットのうちユーザシステム１１５Ｅから学習用として（教師データとして）指定された多次元データセットでもよい。また、制御器７１Ｅが、ユーザシステム１１５Ｅから受け付けるライト対象の多次元データセットの統計を分析し、多次元データセットのデータ特性が変わったと検知した場合に、変更後のデータ特性に属する多次元データセットを用いてネットワーク学習を行ってもよい。適宜、モデル群が更新され、新たなモデル群が物理空間６０Ｅに追加され、同一の仮想空間６１Ｅについて、論理アドレス情報によって、対応付けられるモデル群（モデル群の物理アドレス情報）が異なっていてもよい。つまり、圧縮器７０Ｅは、一つの仮想空間６１Ｅにつき一つ又は複数存在してよい。

　図６に例示の構成及び処理は、例えば下記のように表現できる。
・圧縮器が、スケール毎に、当該スケールに対応した処理ユニットを含む。各処理ユニットは、符号化器、復号器、及び、エントロピー見積器（当該符号化器により符号化された多次元データセットに基づく特徴量マップを基に、当該符号化器に入力された多次元データセットのエントロピーを見積もる見積器）を含む。
・各スケールの処理ユニットについて得られる誤差が、圧縮器全体の誤差の要素である。
・各スケールに関し、当該スケールの処理ユニットについて得られる誤差は、劣化度とビットレートとに基づく。
・スケールｎが最小スケールの場合、スケールｎについての劣化度は、（Ａ）と（Ｂ）との誤差に基づく。
（Ａ）は、入力された多次元データセットがスケールｎ向けにダウンサンプリングされたデータセットである。
（Ｂ）は、（Ａ）がスケールｎの符号化器に入力されることでスケールｎの復号器から出力されたデータセットである。
・スケールｎが最小スケール以外のいずれかのスケールの場合、スケールｎについての劣化度は、（Ｃ）と（Ｄ）との誤差に基づく。
（Ｃ）は、入力された多次元データセット、又は、当該多次元データセットがスケールｎ向けにダウンサンプリングされたデータセットである。
（Ｄ）は、（ｄ１）と（ｄ２）との和である。
（ｄ１）は、スケールｎが２番目に小さいスケールの場合、（ｄ１１）であり、スケールｎが２番目に小さいスケール以外のいずれかのスケールの場合、（ｄ１２）である。
（ｄ１１）は、（Ｂ）がスケールｎ向けにアップサンプリングされたデータセットである。
（ｄ１２）は、スケール（ｎ－１）に対応した（Ｄ）がスケールｎ向けにアップサンプリングされたデータセットである。
（ｄ２）スケールｎの差分データセットがスケールｎの符号化器に入力されることでスケールｎの復号器から出力されたデータセット。スケールｎの差分データセットは、（Ｃ）と（ｄ１）との差分である。
・各スケールに関し、当該スケールの処理ユニットについて得られるビットレートは、（Ａ）又は（Ｃ）に基づく特徴量マップと、当該特徴量マップに基づき当該スケールのエントロピー見積器により算出されたエントロピーとに基づく。

　ところで、注目仮想空間が、属性４１２が“可逆”である仮想空間６１Ｅの場合、当該仮想空間６１Ｅに対応した圧縮器７０Ｅは、可逆圧縮用の圧縮器７０Ｅとされる。この場合、圧縮器７０Ｅには、スケール毎の非可逆圧縮用の符号化器Ｅｎ、量子化器ｑ及び復号器Ｄｎが不要である。圧縮器７０Ｅは、スケール毎に（或いは、全スケールに共通の）可逆圧縮用の処理ユニットを有してよい。入力が浮動小数点の場合の圧縮は、浮動小数点をucharで分割しシンボル化する（例えば、圧縮方式としてfloat32が採用されている場合、ucharで浮動小数点を４個に分割し、それぞれで256シンボルの情報を４チャネルとする）ことで当該処理ユニット内のエントロピー見積器の入力とすればよい。

　図７は、ライト処理の流れを示す。

　ライト処理は、ライト対象の多次元データセットのライト要求を制御器７１Ｅが受けた場合に行われる。論理アドレス情報が制御器７１Ｅにより特定される。論理アドレス情報は、ライト要求で指定されていてもよいし、ライト要求で指定されているアドレス情報から特定されてもよい。

　制御器７１Ｅは、特定された論理アドレス情報をキーに論物変換テーブル２００を参照し、当該論理アドレス情報に対応する、モデル群の物理アドレス情報が存在するか否かを判定する（Ｓ７０１）。例えば、特定された論理アドレス情報と同じ論理アドレス情報が論物変換テーブル２００に無い場合、或いは、ライト先の仮想空間６１Ｅ（特定された論理アドレス情報が含む仮想空間ＩＤから同定される仮想空間６１Ｅ）についてモデル群が無い場合、Ｓ７０１の判定結果が偽である。

　Ｓ７０１の判定結果が偽の場合（Ｓ７０１：Ｎｏ）、制御器７１Ｅは、ライト対象の多次元データセットを符号化せずにライト先の仮想空間６１Ｅ（特定された論理アドレス情報が含む仮想空間ＩＤから同定される仮想空間６１Ｅ）に書き込む（Ｓ７０７）。制御器７１Ｅは、論物変換テーブル２００を更新、具体的には、ライト要求について特定された論理アドレス情報と、当該論理アドレス情報に対応する、未符号化データセットの物理アドレス情報を更新する（Ｓ７０８）。

　Ｓ７０１の判定結果が真の場合（Ｓ７０１：Ｙｅｓ）、制御器７１Ｅは、特定された論理アドレス情報に対応する、モデル群の物理アドレス情報を特定し、当該物理アドレス情報を基に、物理空間６０Ｅからモデル群を取得する（Ｓ７０２）。制御器７１Ｅは、モデル作成（モデル群を含む圧縮器の再学習）の必要があるか否かを判定する（Ｓ７０３）。例えば、制御器７１Ｅが、ライト先の仮想空間６１Ｅに書き込まれる多次元データセットのデータ特性の傾向が変わったことを検知した場合、Ｓ７０３の判定結果が真となる。

　Ｓ７０３の判定結果が真の場合（Ｓ７０３：Ｙｅｓ）、制御器７１Ｅが、ライト先の仮想空間６１Ｅについてネットワーク学習を行う（Ｓ７０４）。そのネットワーク学習に使用される多次元データセットは、ユーザから指定された多次元データセットでもよいし、ライト対象の多次元データセットでもよいし、直近の所定期間に書き込まれた多次元データセットでもよい。ネットワーク学習は、図６を参照して説明した通りである。

　Ｓ７０３の判定結果が偽の場合（Ｓ７０３：Ｎｏ）、又は、Ｓ７０４の後、符号化処理が行われる（Ｓ７０５）。すなわち、ライト対象の多次元データセットが制御器７１Ｅにより圧縮器７０Ｅに入力されることで、ライト対象の多次元データセットが符号化される。制御器７１Ｅは、Ｓ７０５で符号化された多次元データセットをライト先の仮想空間６１Ｅに書き込む（Ｓ７０６）。制御器７１Ｅは、論物変換テーブル２００を更新、具体的には、ライト要求について特定された論理アドレス情報に対応する、符号化データセットの物理アドレス情報を更新する（Ｓ７０８）。なお、ネットワーク学習（Ｓ７０４）が行われた場合、制御器７１Ｅは、Ｓ７０６において、モデル群もライト先の仮想空間６１Ｅに書き込み、Ｓ７０８において、ライト要求について特定された論理アドレス情報に対応する、モデル群の物理アドレス情報を更新する。

　なお、制御器７１Ｅは、定期的に又は不定期的に、論物変換テーブル２００における各レコード２１０Ｌについて、未符号化データセットの有無をチェックし、未符号化データセットがあれば、当該未符号化データセットのライト先仮想空間６１Ｅに対応したモデル群を含む圧縮器７０Ｅを用いて（当該圧縮器７０Ｅが無ければ圧縮器生成処理を経て圧縮器７０Ｅを生成して）、当該未符号化データセットを符号化データセットに変換し、当該未符号化データセットに代えて（又は加えて）当該符号化データセットを物理空間６０Ｅに格納し、論物変換テーブル２００を更新してもよい。

　図８は、符号化処理（Ｓ７０５）の概要の一例を示す。なお、スケールｎについての要素の符号は、図６と同様、ｎを含む（ｎは１～３のいずれかの自然数）。

　ライト要求について特定された論理アドレス情報から、制御器７１Ｅによりスケールが特定される。符号化は、ライト要求について特定されたスケールについてのみ行われてもよいが、本実施形態では、当該特定されたスケール以下のスケール毎に行われる。これにより、後述のリード処理の速度が高いことが期待される。なお、特定されたスケールよりも大きいスケールについての符号化は不要である。

　図８の例によれば、特定されたスケールは、スケール３（最大のスケール）であり、スケール３以下のスケールは、スケール３、スケール２及びスケール１である。このため、本実施形態では、スケール１～３の各々について符号化が行われる。符号化処理の流れは、圧縮器７０Ｅの構成に従う。

　すなわち、圧縮器７０Ｅは、入力されたライト対象の多次元データセットｗ３ａをスケール２向けにダウンサンプリングする。これにより、スケール２の多次元データセットｗ２ａが生成される。また、圧縮器７０Ｅは、多次元データセットｗ２ａをスケール１向けにダウンサンプリングする。これにより、スケール１の多次元データセットｗ１ａが生成される。

　多次元データセットｗ１ａが符号化器Ｅ１及び量子化器ｑを通じて特徴量マップＦＭ１ｗに変換される。特徴量マップＦＭ１ｗと、特徴量マップＦＭ１ｗに基づくエントロピー（特徴量マップＦＭ１ｗがエントロピー見積器Ｈ１に入力されることで得られた値）とを基に、ＡＥ（アリスメティックコーディングのエンコーディング処理）が行われ、ビットストリームｗ１ｃが生成される。ビットストリームｗ１ｃが、多次元データセットｗ１ａの符号化データセットに相当する。

　同様に、スケール２及びスケール３の各々についても、符号化データセットとしてのビットストリームが生成される。

　スケール２についてのビットストリーム生成は次の通りである。すなわち、差分データセットｗ２ｃが符号化器Ｅ２及び量子化器ｑを通じて特徴量マップＦＭ２ｗに変換される。特徴量マップＦＭ２ｗと、特徴量マップＦＭ２ｗに基づくエントロピー（特徴量マップＦＭ２ｗがエントロピー見積器Ｈ２に入力されることで得られた値）とを基に、ＡＥが行われ、ビットストリームｗ２ｅが生成される。なお、差分データセットｗ２ｃは、多次元データセットｗ２ａと多次元データセットｗ２ａｗ２ｂとの差分である。多次元データセットｗ２ｂは、多次元データセットｗ１ｂがスケール２向けにアップサンプリングされたデータセットである。多次元データセットｗ１ｂは、ＦＭ１ｗが復号器Ｄ１に入力されることで復号器Ｄ１から出力されたデータセットである。

　スケール３についてのビットストリーム生成は次の通りである。すなわち、差分データセットｗ３ｃが符号化器Ｅ３及び量子化器ｑを通じて特徴量マップＦＭ３ｗに変換される。特徴量マップＦＭ３ｗと、特徴量マップＦＭ３ｗに基づくエントロピー（特徴量マップＦＭ３ｗがエントロピー見積器Ｈ３に入力されることで得られた値）とを基に、ＡＥが行われ、ビットストリームｗ３ｅが生成される。なお、差分データセットｗ３ｃは、多次元データセットｗ３ａと多次元データセットｗ３ｂとの差分である。多次元データセットｗ３ｂは、多次元データセットｗ２ｂと多次元データセットｗ２ｄとの和がスケール３向けにアップサンプリングされたデータセットである。多次元データセットｗ２ｄは、ＦＭ２ｗが復号器Ｄ２に入力されることで復号器Ｄ２から出力されたデータセットである。

　ビットストリームｗ１ｃ、ｗ２ｅ及びｗ２ｄが、Ｓ７０６において、多次元データセットｗ３ａの符号化データセットとして、物理空間６０Ｅに書き込まれる。書込み先の範囲に対応した物理アドレス情報が、Ｓ７０８において、ライト要求について特定された論理アドレス情報に対応付けられる。

　図９は、リード処理の流れを示す。

　リード処理は、リード要求を制御器７１Ｅが受けた場合に行われる。リード要求に従うリード対象の多次元データセットの論理アドレス情報は、リード要求で指定されていてもよいし、リード要求で指定されているアドレス情報から特定されてもよい。また、リード要求で論理アドレス情報又はアドレス情報の全体が必ずしも指定されていなくてもよい。例えば、仮想空間ＩＤが特定された場合、リード対象の多次元データセットの論理アドレス情報は、当該仮想空間ＩＤから同定される仮想空間６１Ｅに最近書き込まれた多次元データセットの論理アドレス情報でよい。また、リード要求を基に特定される論理アドレス情報において、属性が“離散”である次元についてのアドレス群は、Onehot vector指定でよい。

　制御器７１Ｅは、特定された論理アドレス情報をキーに論物変換テーブル２００を参照し（Ｓ９０１）、当該論理アドレス情報に対応した物理空間部分（物理空間６０Ｅの一部）にデータがあるか否か、具体的には、当該論理アドレス情報に対応するレコード群２２０が存在するか否かを判定する（Ｓ９０２）。なお、当該論理アドレス情報に対応するデータ（モデル群やデータセット）の少なくとも一部が物理空間６０Ｅに代えてコアシステム１０３の物理空間６０Ｃに格納されている場合、当該論理アドレス情報に対応する物理空間部分の少なくとも一部は、物理空間６０Ｃの物理アドレス情報に対応した論理アドレス情報（仮想空間６１Ｃの論理アドレス情報）が表す範囲でもよい。

　Ｓ９０２の判定結果が偽の場合（Ｓ９０２：Ｎｏ）、制御器７１Ｅは、データ無しをリード要求に対する応答として返す（Ｓ９０８）。

　Ｓ９０２の判定結果が真の場合（Ｓ９０２：Ｙｅｓ）、制御器７１Ｅは、当該論理アドレス情報に対応した物理空間部分に格納されているデータセットが未符号化データセットであるか否か、具体的には、当該論理アドレス情報に対応したレコード２１０Ｐ３が有効か否かを判定する（Ｓ９０３）。

　Ｓ９０３の判定結果が真の場合（Ｓ９０３：Ｙｅｓ）、制御器７１Ｅは、当該論理アドレス情報に対応したレコード２１０Ｐ３が表す物理空間部分から未符号化データセットを読み出し（Ｓ９０６）、当該未符号化データセットをリード要求に対する応答として返す（Ｓ９０７）。

　Ｓ９０３の判定結果が偽の場合（Ｓ９０３：Ｎｏ）、制御器７１Ｅは、当該論理アドレス情報に対応したレコード２１０Ｐ１及び２１０Ｐ２が表す物理空間部分からモデル群及び符号化データセットを読み出す（Ｓ９０４）。当該モデル群を含む圧縮器７０Ｅにて当該符号化データセットを復号する復号処理が行われる（Ｓ９０５）。制御器７１Ｅは、復号処理にて復号されたデータセットをリード要求に対する応答として返す（Ｓ９０７）。

　図１０は、復号処理（Ｓ９０５）の概要の一例を示す。なお、スケールｎについての要素の符号は、図６及び図８と同様、ｎを含む（ｎは１～３のいずれかの自然数）。

　リード要求について特定された論理アドレス情報から、制御器７１Ｅによりスケールが特定される。本実施形態では、リード要求について特定されるスケールは、リード対象の多次元データセットについて論物変換テーブル２００に登録されている論理アドレス情報が表すスケール以下である。なぜなら、当該論理アドレス情報が表すスケールを超えるスケールについてビットストリームが存在しないためである。復号は、特定されたスケール以下のスケール毎に行われる。図１０の例によれば、特定されたスケールは、スケール３である。また、図１０の例によれば、リード要求について特定された論理アドレス情報に対応した物理アドレス情報が表す物理空間部分にあるビットストリームが、ビットストリームｒ１ａ、ｒ２ａ及びｒ３ａである。復号処理の流れは、圧縮器７０Ｅの構成に従う。

　ビットストリームｒ１ａについて、ＡＤ（アリスメティックコーディングのデコーディング処理）が行われる。ビットストリームｒ１ａの一部からＡＤにより復元済みの一部のＦＭ１ｒ、又はその他の確率予測のために保存された情報、又はそれらの両方をエントロピー見積器Ｈ１に入力することで得られる確率分布と、復元対象のビットストリームｒ１ａの一部とから、復元対象のＦＭ１ｒの一部が復元される。ＦＭ１ｒが復号器Ｄ１に入力されることで、多次元データセットｒ１ｂが得られる。多次元データセットｒ１ｂが、スケール２向けにアップサンプリングされることで、多次元データセットｒ２ｃが得られる。

　ビットストリームｒ２ａについて、ＡＤが行われる。ビットストリームｒ２ａの一部からＡＤにより復元済みの一部のＦＭ２ｒ、又はその他の確率予測のために保存された情報、又はそれらの両方をエントロピー見積器Ｈ２に入力することで得られる確率分布と、復元対象のビットストリームｒ２ａの一部とから、復元対象のＦＭ２ｒの一部が復元される。ＦＭ２ｒが復号器Ｄ２に入力されることで、差分データセットｒ２ｂが得られる。多次元データセットｒ２ｃに差分データセットｒ２ｂが加算されることで、多次元データセットｒ２ｄが得られる。多次元データセットｒ２ｄが、スケール３向けにアップサンプリングされることで、多次元データセットｒ３ｃが得られる。

　ビットストリームｒ３ａについて、ＡＤが行われる。ビットストリームｒ３ａの一部からＡＤにより復元済みの一部のＦＭ３ｒ、又はその他の確率予測のために保存された情報、又はそれらの両方をエントロピー見積器Ｈ３に入力することで得られる確率分布と、復元対象のビットストリームｒ３ａの一部とから、復元対象のＦＭ３ｒの一部が復元される。ＦＭ３ｒが復号器Ｄ３に入力されることで、差分データセットｒ３ｂが得られる。多次元データセットｒ３ｃに差分データセットｒ３ｂが加算されることで、多次元データセットｒ３ｄが得られる。多次元データセットｒ３ｄが、スケール３の多次元データセット、すなわち、リード対象の多次元データセットである。得られたスケール３の多次元データセットが、Ｓ９０７において応答される。

　図１１は、パターン検索処理の流れを示す。

　パターン検索処理は、検索対象のデータパターンを持つパターン検索要求を制御器７１Ｅが受けた場合に行われる。以下の処理は、パターン検索要求で指定された仮想空間ＩＤについてのみ行われてもよいし、仮想空間６１Ｅ毎に行われてもよい。以下、一つの仮想空間６１Ｅを例に取る。

　制御器７１Ｅが、検索対象のデータパターンを、仮想空間６１Ｅに対応したモデル群を含む圧縮器７０Ｅにて符号化する（Ｓ１１０１）。これにより、各スケールについて、検索対象のデータパターンの符号化データセット（ビットストリーム及び／又は特徴量マップ）が得られる。

　制御器７１Ｅが、仮想空間６１Ｅに属する未チェックレコード２１０Ｌに対応した符号化データセット（例えば、各スケールについてのビットストリーム及び／又は特徴量マップ）に、Ｓ１１０１で得られた符号化データセットと一致する符号化データセット（例えば、差分がゼロ、又は、差分が許容範囲である符号化データセット）が存在するか否かを判定する（Ｓ１１０２）。「未チェックレコード２１０Ｌ」とは、このパターン検索処理においてＳ１１０２で参照されていないレコード２１０Ｌである。

　Ｓ１１０２の判定結果が真の場合（Ｓ１１０２：Ｙｅｓ）、制御器７１Ｅが、一致リストに、当該未チェックレコード２１０Ｌが有する論理アドレス情報を追記する（Ｓ１１０３）。「一致リスト」とは、Ｓ１１０２の判定結果が真となった論理アドレス情報が記録されるリストであり、パターン検索要求に対する応答として送信されるリストである。

　Ｓ１１０２の判定結果が偽の場合（Ｓ１１０２：Ｎｏ）、又は、Ｓ１１０３の後、制御器７１Ｅが、仮想空間６１Ｅに属する全てのレコード２１０ＬについてＳ１１０２を行ったか否かを判定する（Ｓ１１０４）。Ｓ１１０４の判定の判定結果が偽の場合（Ｓ１１０４：Ｎｏ）、Ｓ１１０２が行われる。

　Ｓ１１０４の判定結果が真の場合（Ｓ１１０４：Ｙｅｓ）、制御器７１Ｅが、一致リストをパターン検索要求に対する応答として返す（Ｓ１１０５）。一致リストに代えて又は加えて、一致が得られた符号化データセットのうちの少なくとも一つの符号化データセットが応答として返ってよい。例えば、一致が得られたレコード２１０Ｌの数が所定数以下の場合、一致リストに代えて又は加えて、一致が得られた符号化データセットが応答として返ってよい。
［実施形態２］

　実施形態２を説明する。その際、実施形態１との相違点を主に説明し、実施形態１との共通点については説明を省略又は簡略する。

　図１２は、実施形態２の概要を示す。

　例えば、ストレージシステム１１０Ｅが、複数のノード１２００Ｅを有する。各ノード１２００Ｅは、例えば、物理ストレージ装置又は汎用計算機である。各ノード１２００Ｅが、永続記憶デバイス１２０１Ｅを有する。物理空間６０Ｅが、当該複数のノード１２００Ｅが提供する複数の記憶空間に基づく。

　複数のスケールのうちスケール１を代表的に例に取る。スケール１向けの多次元データセットが符号化器Ｄ１（及び図示しない量子化器ｑ）を通じて特徴量マップに変換される。圧縮器７０Ｅ（又は制御器７１Ｅ）が、特徴量マップをチャネル方向に分割する。これにより、複数の部分特徴量マップｆ１が得られる。図１２の例では、四つの部分特徴量マップｆ１ａ～ｆ１ｄが得られる。部分特徴量マップｆ１の数は、データの格納先となり得る記憶装置（例えば、ノード１２００又は永続記憶デバイス１２０１）の数以下でよい。言い換えれば、圧縮器７０Ｅ（又は制御器７１Ｅ）が、二つ以上の部分特徴量マップｆ１を同一の記憶装置に格納する必要が無いように特徴量マップをチャネル方向に分割してよい。また、エントロピー見積器Ｈ１に代えて、部分特徴量マップｆ１ａ～ｆ１ｄにそれぞれ対応したエントロピー見積器Ｈ１_ａ～Ｈ１_ｄが用意される。エントロピー見積器Ｈ１は、チャネル間の依存関係に基づく見積を行うが、エントロピー見積器Ｈ１_ａ～Ｈ１_ｄは、当該エントロピー見積器に対応したチャネルについて見積を行い、他のチャネルとの依存関係を考慮しない独立したエントロピー見積器である。

　ネットワーク学習において、制御器７１Ｅが、複数の部分特徴量マップｆ１の各々について、当該部分特徴量マップを所定の確率でゼロにし、圧縮器７０Ｅ全体の誤差を最小にする学習を行う。各部分特徴量マップｆ１について、「所定の確率」は、複数の部分特徴量マップｆ１に共通の確率でよいし、当該部分特徴量マップｆ１の格納先の記憶装置（ノード１２００Ｅ又は永続記憶デバイス１２０１Ｅ）の実際の不具合発生確率（障害や遅延といった不具合の発生確率）であってもよい。Ｌｅ_１が、エントロピー見積器Ｈ１_ａ～Ｈ１_ｄにそれぞれ対応した四つのクロスエントロピーの合計でよい。エントロピー見積器Ｈ１_ａ～Ｈ１_ｄの各々について、クロスエントロピーは、当該エントロピー見積器が、当該エントロピー見積器に対応した部分特徴量マップｆ１やその他の確率予測のために保存された情報などを基に算出されたシンボルの出現確率と、当該部分特徴量マップｆ１から直接算出した正解のシンボルの出現確率とを基に算出されてよい。

　ライト処理において、制御器７１Ｅが、ライト要求について特定されたスケール以下の各スケールについて、当該スケールについての入力データセット（元の多次元データセット又はダウンサンプリングされた多次元データセット）の特徴量マップを、チャネル方向に四つの部分特徴量マップ（複数の部分特徴量マップの一例）に分割する。制御器７１Ｅが、当該四つの部分特徴量マップと、学習済みのエントロピー見積器Ｈ１_ａ～Ｈ１_ｄとを基に、四つの符号化データセット（例えば四つのビットストリーム）を生成する。制御器７１Ｅが、四つの符号化データセットを、それぞれ異なる四つのノード１２００Ｅａ～１２００Ｅｄに書き込む。スケール毎に、部分特徴量マップの格納先の記憶装置が異なってよい。例えば、三つのスケール１～３の各々について四つの部分特徴量マップが得られる場合、１２（＝４×３）の記憶装置が必要であってもよい。

　リード処理において、例えば、四つのノード１２００Ｅａ～１２００Ｅｄのうちのいずれかのノード１２００Ｅ（又は、当該ノード１２００Ｅ内の永続記憶デバイス１２０１Ｅ）に不具合（例えば、障害又は遅延）が生じ、当該ノード１２００Ｅから符号化データセット（例えばビットストリーム）を、リード要求を受け付けてから一定期間内に読み出すことができないとする。この場合、制御器７１Ｅが、当該ノード１２００Ｅに対応した部分特徴量マップをゼロとし、残り三つのノード１２００Ｅの各々から読み出される符号化データセットに基づき、スケール１の符号化データセットを復号してよい。

　実施形態２によれば、リード要求について特定された論理アドレス情報に対応する物理空間部分の基になっているいずれかの記憶装置に不具合が生じても、リード対象のデータセットの復号が可能である。つまり、耐障害性を高めることができる。なお、実施形態２は、実施形態１で述べているスケールに対して階層的なデータの圧縮、伸張方法と組み合わされてもよい。
［実施形態３］

　実施形態３を説明する。その際、実施形態１及び２との相違点を主に説明し、実施形態１及び２との共通点については説明を省略又は簡略する。

　図１３は、実施形態３に係る符号化器のカーネル構成を示す。図１４は、実施形態３に係る復号器のカーネル構成を示す。

　制御器７１Ｅが、次元設定テーブル３００を基に（例えば、次元毎の名称や属性を基に）、複数のデータ次元グループを決定する。いずれのデータ次元同士を同一グループにするかは、例えば、次元の相関関係を表す情報や過去の履歴等を基に決定されてよい。図１３及び図１４に示すように、符号化器及び復号器の少なくとも一つ（例えば、符号化器及び復号器の各々）について、制御器７１Ｅが、上記決定した複数のデータ次元グループにそれぞれ対応した複数のカーネルを構成する。当該複数のカーネルにそれぞれ対応した複数のコンボリューション層がシーケンシャルであり、当該複数のカーネルもシーケンシャルである。複数のデータ次元グループの各々は、相関の高い一つ以上のデータ次元が属するグループである。つまり、制御器７１Ｅが、圧縮器生成処理において、カーネルの構成時に、相関の高い次元の集合（例えば、任意の基準の次元との相関係数が所定値以上の次元の集合）でカーネルを形成し、それぞれ形成された複数のカーネルを数珠繋ぎにする。例えば、相関の高い次元の集合の一例として、“縦”と“横”がある。“縦”及び“横”のいずれとも“時間”という次元は比較的相関が低いと考えられ、故に、“時間”は、“縦”及び“横”が属する集合とは異なる集合に属すると考えられる。

　このように、複数のカーネルの各々が、相関の高い次元の集合に対応し、複数のカーネルが数珠繋ぎである。このため、各カーネルについて、相関の低い次元を考慮した計算が不要となるため計算量が減り（処理効率が高まり）、且つ、圧縮率が高まる。

　なお、図１３及び図１４において、“ｅ”は、符号化器を意味し、“ｄ”は、復号器を意味し、“ｉ”は、入力層を意味し、“ｍ”は、中間層を意味し、“ｏ”は、出力層を意味する。カーネルが数珠つなぎとは、複数のカーネルの各々について、当該カーネルの出力チャネル数が、当該カーネルの下流側に隣接するカーネルの入力チャネル数と同じであることを意味する（例えば、ｃｅｏ１＝ｃｅｉ２である）。符号化器及び復号器の各々について、数珠繋ぎのカーネルが構成された場合、復号器におけるカーネルの並び順は、符号化器におけるカーネルの並び順と逆である。
［実施形態４］

　実施形態４を説明する。その際、実施形態１～３との相違点を主に説明し、実施形態１～３との共通点については説明を省略又は簡略する。

　実施形態４では、ネットワーク学習が超解像学習を含む。これにより、符号化データセットのスケールを超えたスケールのデータセットを復号するリード処理が実現される。

　超解像学習は、例えば、第１の超解像学習と、第２の超解像学習とのうちの少なくとも一つである。第１の超解像学習は、スケール３（圧縮器７０Ｅに入力される多次元データセットのスケールの一例）よりも大きいスケールに対応した処理ユニット６０１を構成し、当該大きいスケール向けにアップサンプリングされたデータセットを、当該大きいスケールに対応した処理ユニット６０１に対する入力とした学習である。

　図１５は、第１の超解像学習の概要を示す。図１６は、第１の超解像学習後の符号化処理の概要を示す。図１７は、第１の超解像学習後の復号処理の概要を示す。

　例えば、図３に例示の次元設定テーブル３００において、サイズ３１４は、スケール３を基準にした値でよいが、スケール３１５は、スケール１～３の他に、スケール３を超える一つ以上のスケールを表してもよい。スケール３を超えるスケールが例えばユーザにより指定された場合、サイズ３１４が表す値を基に、指定されたスケールに対応したサイズが決定されてよい。例えば、スケール（ｎ－３）（ｎは、３より大きい整数）に対応したサイズは、スケール３に対応したサイズの２^{（ｎ－３）}倍でよい。スケール３を超える指定されたスケールとして、スケール４を例に取る。図１５によれば、スケール４に対応した処理ユニット６０１－４が構成されている。ネットワーク学習において、圧縮器７０Ｅに入力された多次元データセット（スケール３の多次元データセット）が、スケール４向けにアップサンプリングされた後、一旦スケール３向けにダウンサンプリングされ、その後、スケール４向けにアップサンプリングされてから、符号化器Ｅ４に入力される。その後、スケール１～３と同様に、Ｌｅ４及びＬｄ４が得られ、Ｌｅ_４及びＬｄ_４に基づく誤差が最小になる学習が行われる。このようにして、符号化器Ｅ４について、スケールがスケール３からスケール４に拡大された場合のデータセットを符号化することの学習がされる。

　図１６によれば、ライト要求についてスケール４が指定された場合、符号化処理において、スケール３のデータセット（例えば、図８のデータセットｗ３ｃ）が、スケール４のデータセットにアップサンプリングされてから、符号化器Ｅ４に入力される。結果として、スケール４のデータセットのビットストリームが格納される。

　図１７によれば、復号処理において、リード要求についてスケール４が指定されている場合、当該スケール４のビットストリームが復号されればよい。

　図１８は、第２の超解像学習の概要を示す。

　第２の超解像学習は、スケール３以外のスケール１及び２の各々について、当該スケール向けにアップサンプリングされたデータを当該スケールに対応した処理ユニット６０１に対する入力とした学習である。学習時に各スケールでリード時にデータ入力を必要としないリファインネットワーク（Ri）が学習される。すなわち、最小スケール１以外のスケール２及び３の各々について、一つ小さいスケールについて得られたデータセットのアップサンプリング後のデータセットのリファインネットワーク（例えば、畳み込みニューラルネットワーク）が学習される。これにより、例えば、スケール３のデータセットが無くても、スケール２のデータセットからスケール３のデータセットを生成できる。ネットワーク学習では、例えば下記数２が採用される。数１との相違点は、真ん中の項である。Ｌｒｄ_ｎは、下記（ｘ）及び（ｙ）に基づく劣化度を表す関数でよい。
（ｘ）圧縮器７０Ｅに入力されたスケール３のデータセットがスケールｎ向けにダウンサンプリングされたデータセット（又は、圧縮器７０Ｅに入力されたスケール３のデータセット）。
（ｙ）スケール（ｎ－１）に対応した処理ユニット６０１－（ｎ－１）から出力されたデータセットがスケールｎ向けにアップサンプリングされたデータセット（又は、スケール（ｎ－１）に対応した処理ユニット６０１－（ｎ－１）から出力されたデータセットと、スケール（ｎ－２）に対応した処理ユニット６０１－（ｎ－２）から出力されたデータセットがスケール（ｎ－１）向けにアップサンプリングされたデータセットとの和が、スケールｎ向けにアップサンプリングされたデータセット）。

［実施形態５］

　実施形態５を説明する。その際、実施形態１～４との相違点を主に説明し、実施形態１～４との共通点については説明を省略又は簡略する。

　実施形態１～４でのロス関数に代えて、本実施形態において便宜上「無指向性ロス関数」と呼ぶ数３のような関数が採用される。圧縮データをアプリケーションで使う場合に、ブロックノイズなどの規則性のあるアーティファクトはアプリケーションの誤判定につながりやすい。それをなくすため、以下の数３のように、入力データと圧縮展開後のデータの差分（アーティファクト）のエントロピーが最大となり（誤差が予測不能、ランダム性が高い）、かつアーティファクトとデータサイズが最小となるように、minimaxゲームとして符号化器及び復号器などのニューラルネットワークを学習することにより、規則性のないアーティファクトとなるようにする。例えば、下記数３が採用される。数３は、スケール毎に適用されてもよい。

　Ｅは符号化器、Ｄは復号器、ｑは量子化器である。Ｈ_ｆは、特徴量マップのエントロピー見積器である。λは、ラグランジュマルチプライヤー（トレードオフの調整用パラメータ）である。Ｈ_ｄは、入力された多次元データセット（スケール３の多次元データセット）とＤ（Ｅ（ｘ））（圧縮伸長後のデータセット）との誤差データ（アーティファクト）のエントロピー見積器である。Ｌ_ｄは、前述のとおり、誤差指標関数（例えば、PSNRや、MSE、MS-SSIMなどを用いる）である。ｘは、入力された多次元データセットである。数３によれば、図１９に例示の通り（図１９は、スケール１を例の取る）、新たなエントロピー見積器Ｈ_ｄがある。エントロピー見積器Ｈ_ｄに、符号化器Ｅ１に入力されるデータセットｄ１ａと、復号器Ｄ１から出力されたデータセットｄ１ｂとの差が入力されて、無指向性度Ｌｅ_ｄが算出される。新たなエントロピー見積器Ｈ_ｄ（例えば、畳み込みニューラルネットワーク）は、符号化器Ｅ１に入力されるデータセットｄ１ａと、復号器Ｄ１から出力されたデータセットｄ１ｂとの差を入力として、確率分布を出力し、ガウス分布などの無指向性のランダムな確率分布とのクロスエントロピーなどにより、無指向性度を算出してもよい。また、本実施例で述べたｄ１ａとｄ１ｂの差は、単純な差分だけでなく、より高度なSSIMなどや、畳み込みニューラルネットワークなど、微分可能なモデルで構成されるその他データに対する何らかの処理による結果自体の差分を用いてもよい。Ｌｅ_１とＬｅ_ｄとの和に基づくＬｅ_ｘが算出される。Ｌｅ_ｘは、数３のλ_ｆＨ_ｆ（ｑ（Ｅ（ｘ）））に相当する。「λ_ｄＨ_ｄ（ｘ－Ｄ（ｑ（Ｅ（ｘ））））」は、入力と出力とに基づいて（例えば、入力と出力の差に基づいて）所定の指標についての距離を計算することを意味する。「λ_ｄＨ_ｄ（ｘ－Ｄ（ｑ（Ｅ（ｘ））））」を「Ｌｄ（ｘ，Ｄ（ｑ（Ｅ（ｘ）））＋λ_ｆＨ_ｆ（ｑ（Ｅ（ｘ））））」から引くことが、劣化の規則性が無指向になるような学習（言い換えれば、誤差の予測をできないようにすること、すなわち、エントロピーを最大化すること）を意味する。数３によれば、ロス関数が最小になるようにＥ、Ｄ及びＨ_ｆが学習され、その後に、ロス関数が最大になるようにＨ_ｄが学習される。数３は、テンソル圧縮（例えば画像圧縮）全般に適用できる。

　以上、幾つかの実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実行することが可能である。

１１０：ストレージシステム

Claims

　記憶装置と、メモリと、データ入出力を制御するプロセッサと、を有するストレージシステムにおいて、
　前記メモリが、多次元データセットのデータ次元毎の属性を表す情報である次元設定情報を格納し、
　前記プロセッサが、前記次元設定情報を基に圧縮器を生成する処理である圧縮器生成処理を行い、
　前記プロセッサが、ライト処理を行い、
　前記ライト処理は、前記生成された圧縮器を用いてライト対象の多次元データセットを圧縮し、圧縮されたデータを前記記憶装置に書き込む処理である、
ストレージシステム。
　データ次元毎の属性は、当該次元に属する値が連続した値であることを意味する連続と、当該次元に属する値が離散した値であることを意味する離散とのいずれかであり、
　前記圧縮器は、処理ユニットを含み、
　前記処理ユニットは、入力されたデータセットを符号化する符号化器と、当該符号化器から出力されたデータが量子化されることにより生成された特徴量マップを基にデータセットを復号する復号器と、特徴量マップを基にエントロピーを見積もるエントロピー見積器とのうち、少なくともエントロピー見積器を含み、
　前記圧縮器生成処理は、前記次元設定情報が表す、データ次元毎の属性を基に、処理ユニットを構成することを含む、
請求項１に記載のストレージシステム。
　前記次元設定情報は、更に、データ次元毎に、データサイズを表し、
　前記処理ユニットにおけるエントロピー見積器のモデルは、畳み込みニューラルネットワークであり、
　前記処理ユニットが符号化器及び復号器を含んでいる場合、符号化器及び復号器の各々のモデルは、畳み込みニューラルネットワークであり、
　前記圧縮器生成処理は、チャネル数及びカーネル次元数を決定することを含み、
　前記プロセッサは、
　　属性が離散である一つ以上のデータ次元があれば、当該一つ以上のデータ次元の各々についてのデータサイズを基に、チャネル数を決定し、
　　属性が連続であるデータ次元があれば、属性が連続であるデータ次元の数に基づいて、カーネル次元数を決定する、
請求項２に記載のストレージシステム。
　前記圧縮器生成処理は、前記処理ユニットを、多次元データセットの取り得る複数のスケールの各々について構成することを含む、
請求項２記載のストレージシステム。
　前記複数のスケールのうちの最小のスケールに対応した入力データセットは、入力された多次元データセットが当該最小のスケール向けにダウンサンプリングされた後のデータセットであり、
　前記複数のスケールのうちの最小のスケール以外の一つ以上のスケールの各々について、当該スケールに対応した入力データセットは、入力された多次元データセットが当該スケール向けにダウンサンプリングされたデータセットと、当該スケールより一つ小さいスケールに対応した復号器から出力されたデータセットが当該スケール向けにアップサンプリングされたデータセットとの差分としてのデータセットである、
請求項４に記載のストレージシステム。
　前記圧縮器生成処理は、処理ユニットの学習であって、誤差を最小にする学習であるネットワーク学習を含む、
請求項２に記載のストレージシステム。
　前記圧縮器生成処理は、前記処理ユニットを、多次元データセットの取り得る複数のスケールの各々について構成することを含み、
　前記ネットワーク学習は、スケール毎の処理ユニットの学習であって、スケール毎の誤差を要素とした全体誤差を最小にする学習であり、
　各スケールについて、誤差は、入力された多次元データセットに関し、劣化度及びビットレートに基づく関数から得られ、
　各スケールについて、劣化度は、当該スケールについての入力データセットと、当該入力データセットの当該スケールに対応した符号化器及び復号器を通じて得られた出力データセットとの差分に基づき、
　各スケールについて、ビットレートは、当該スケールについて得られた特徴量マップと、当該特徴量マップに基づき当該スケールに対応したエントロピー見積器により算出されたエントロピーとの差分に基づく、
請求項６に記載のストレージシステム。
　前記ライト処理は、ライト要求を前記プロセッサが受け付けた場合に行われ、
　前記ライト要求は、ライト対象の多次元データセットを書き込むことの要求であって、スケールと当該多次元データセットのデータ次元毎のアドレスとが指定された要求であり、
　前記ライト処理は、
　　前記複数のスケールうちの最大のスケールよりも小さい一つ以上のスケールの各々について、前記ライト対象の多次元データセットを、当該スケール向けにダウンサンプリングすることと、
　　前記ライト要求で指定されたスケールについて、前記ライト対象の多次元データセットに関し当該スケールについて得られた特徴量マップと、当該特徴量マップに基づき当該スケールに対応したエントロピー見積器により算出されたエントロピーとをエンコーディング処理することにより得られたデータである符号化データセットを書き込むことと、
　　前記ライト要求で指定されたスケールとデータ次元毎のアドレスと、符号化データセットの書込み先の記憶領域の物理アドレスとの関連付けを表す論物情報を生成することと
を含む、
請求項２に記載のストレージシステム。
　前記プロセッサが、リード要求を受け付けた場合に、リード処理を行い、
　前記リード要求は、リード対象の多次元データセットを読み出すことの要求であって、スケールと当該多次元データセットのデータ次元毎のアドレスとが指定された要求であり、
　前記リード処理は、
　　前記論物情報を基に、前記リード要求で指定されたスケールとデータ次元毎のアドレスとに対応した物理アドレスを特定することと、
　　前記特定された物理アドレスが表す記憶領域から、符号化データセットを読み出すことと、
　　読み出された符号化データをデコーディング処理することにより得られたデータセットに従う、前記リード要求で指定されたスケールでの多次元データセットを返すことと
を含む、
請求項８に記載のストレージシステム。
　前記プロセッサが、データパターンの特徴量マップが関連付いたパターン検索要求を受け付けた場合、パターン検索処理を行い、
　前記パターン検索処理は、
　　前記パターン検索要求に関連付いた特徴量マップを符号化処理することにより得られた符号化データセットのパターンに一致するパターンを持つ符号化データセットを前記記憶装置から探すことと、
　　見つかった符号化データセットの物理アドレスに関連付いている、スケールとデータ次元毎のアドレスとを、返すことと
を含む、
請求項８に記載のストレージシステム。
　前記ネットワーク学習において、前記プロセッサは、
　　特徴量マップを、チャネル方向に複数の部分特徴量マップに分割し、
　　当該複数の部分特徴量マップの各々について、当該部分特徴量マップを所定の確率でゼロにし、前記誤差を最小にする学習を行い、
　前記プロセッサは、ライト処理において、
　　ライト対象の多次元データセットに基づく入力データセットの特徴量マップを、チャネル方向に複数の部分特徴量マップに分割し、
　　当該複数の部分特徴量マップにそれぞれ対応した複数の符号化データセットをそれぞれ複数の記憶装置に書き込み、
　前記プロセッサは、リード処理において、
　　前記複数の記憶装置のうち障害のある記憶装置がある場合、当該記憶装置以外の一つ以上の記憶装置からそれぞれ一つ以上の符号化データセットを読み出し、当該読み出された一つ以上の符号化データセットの各々を復号処理することにより得られたデータセットに基づくデータセットを、返す、
請求項６に記載のストレージシステム。
　前記プロセッサは、前記次元設定情報を基に、複数のデータ次元グループを決定し、
　前記プロセッサは、前記符号化器及び前記復号器の少なくとも一つについて、
　　前記決定した複数のデータ次元グループにそれぞれ対応した複数のカーネルを構成し、
　　前記複数のカーネルにそれぞれ対応した複数のコンボリューション層をシーケンシャルとし、
　前記複数のデータ次元グループの各々は、相関の高い一つ以上のデータ次元が属するグループである、
請求項３に記載のストレージシステム。
　前記圧縮器生成処理は、前記処理ユニットを、多次元データセットの取り得る複数のスケールの各々について構成することを含み、
　前記ネットワーク学習は、スケール毎の処理ユニットの学習であって、スケール毎の誤差を要素とした全体誤差を最小にする学習であり、
　前記ネットワーク学習は、超解像学習を含み、
　前記超解像学習は、
　　前記圧縮器に入力される多次元データセットのスケールよりも大きいスケール向けにアップサンプリングされたデータセットを、当該大きいスケールに対応した処理ユニットに対する入力とした学習と、
　　前記圧縮器に入力される多次元データセットのスケール以外の一つ以上のスケールの各々について、当該スケール向けにアップサンプリングされたデータを当該スケールに対応した処理ユニットに対する入力とした学習と
のうちの少なくとも一つである、
請求項６に記載のストレージシステム。
　前記処理ユニットは、前記符号化器に入力されるデータセットと前記復号器から出力されたデータセットとの差のエントロピーを見積もる別のエントロピー見積器を含み、
　前記ネットワーク学習は、ロス関数が最小となるよう前記符号化器、前記復号器及び前記エントロピー見積器を学習し、当該ロス関数が最大となるように前記別のエントロピー見積器を学習することを含む、
請求項６に記載のストレージシステム。
　前記プロセッサは、
　　入力された多次元データセットの統計を解析し、
　　当該解析の結果を基に、データ次元数と、データ次元毎の属性とを特定し、
　　特定されたデータ次元数と、データ次元毎の属性とを基に、前記次元設定情報を作成又は更新する、
請求項１に記載のストレージシステム。
　多次元データセットのデータ次元毎の属性を表す情報である次元設定情報を参照し、
　当該次元設定情報が表す、データ次元毎の属性を表す情報を基に、圧縮器を生成する、
方法。