WO2022145145A1

WO2022145145A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2022145145A1
Application number: PCT/JP2021/042384
Authority: WO
Inventors: 健人赤間
Original assignee: ソニーグループ株式会社
Priority date: 2020-12-28
Filing date: 2021-11-18
Publication date: 2022-07-07
Also published as: JPWO2022145145A1; EP4270267A1; US20240095500A1; EP4270267A4; CN116685987A

Abstract

情報処理装置（１）は、制御手段（３０）と、系列データを入力するデータ入力手段（１０）と、データ入力手段（１０）により入力された系列データに基づいて、新たな系列データを生成する機械学習モデル（２１）と、機械学習モデル（２１）により新たな系列データを生成する際に、系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段（１０）と、を備え、制御手段（３０）は、（i）機械学習モデルにより既に生成された少なくとも２つの系列データを補間する新たなターゲット系列データを生成するか、又は、（ii）機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

　楽曲等の一連の情報を与えるコンテンツ（以下、「系列」ともいう。）を自動生成するための学習済みモデルに関して、さまざまな提案が行われている。例えば特許文献１は、ユーザが所望する態様で系列が生成されるように、ユーザが指定した特徴量を選択的に学習する手法を開示する。

国際公開第２０２０／０８０２３９号

　一部だけが新たに生成され残部が維持された系列を生成したい場合もある。この点について、特許文献１では具体的な検討は行われていない。

　本開示の一側面は、一部だけが新たに生成され残部が維持された系列を生成することが可能な情報処理装置、情報処理方法及び情報処理プログラムを提供する。

　本開示の一側面に係る情報処理装置は、制御手段と、系列データを入力するデータ入力手段と、データ入力手段により入力された系列データに基づいて、新たな系列データを生成する機械学習モデルと、機械学習モデルにより新たな系列データを生成する際に、系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段と、を備え、制御手段は、（i）機械学習モデルにより既に生成された少なくとも２つの系列データを補間する新たなターゲット系列データを生成するか、又は、（ii）機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する。

　本開示の一側面に係る情報処理装置は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部を備え、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。

　本開示の別の側面に係る情報処理装置は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部と、入力情報を受け付け、また、生成部の生成結果を提示するユーザインタフェースと、を備え、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。

　本開示の一側面に係る情報処理方法は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成することを含み、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。

　本開示の一側面に係る情報処理プログラムは、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成すること、をコンピュータに実行させ、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。

実施形態に係る情報処理装置の外観の例を示す図である。ユーザインタフェースが提示する操作画面の例を示す図である。ユーザインタフェースが提示する操作画面の例を示す図である。ユーザインタフェースが提示する操作画面の例を示す図である。情報処理装置の概略構成の例を示す図である。トークンの例を示す図である。学習済みモデルの概略構成の例を示す図である。学習済みモデルの概略構成の例を示す図である。学習の例を示すフローチャートである。情報処理装置において実行される処理（情報処理方法）の例を示すフローチャートである。情報処理装置において実行される処理（情報処理方法）の例を示すフローチャートである。情報処理装置において実行される処理（情報処理方法）の例を示すフローチャートである。系列の探索の例を模式的に示す図である。情報処理装置のハードウェア構成の例を示す図である。ＲＮＮの概略構成の例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の要素には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　２．ハードウェア構成の例
　　３．ＲＮＮの構成の例
　　４．変形例
　　５．効果

１．実施形態
　実施形態に係る情報処理装置の処理対称となる情報は、一連の情報を与える系列（系列データ）である。系列の例は、音楽（音楽シーケンス、オーディオ等）及び言語（文書、詩）等である。以下では、主に、系列が音楽シーケンスである場合を例に挙げて説明する。

　図１は、実施形態に係る情報処理装置の外観の例を示す図である。情報処理装置１は、例えば汎用のコンピュータにおいて所定のプログラム（ソフトウェア）を実行させることによって実現される。図１に示される例では、情報処理装置１は、ユーザＵが使用するラップトップである。情報処理装置１は、ユーザＵとの間で情報のやり取りを行うためのユーザインタフェース（後述の図５のユーザインタフェース１０）を備える。例えば情報処理装置が図示されるようなラップトップの場合、ユーザインタフェースは、ディスプレイ、キーボード、タッチパッド及びスピーカ等を含みうる。ディスプレイは、タッチパネルディスプレイでもよい。ラップトップに限らず、タブレット端末、スマートフォン等のさまざまな装置によって情報処理装置１が実現されてよい。

　図２～図４は、ユーザインタフェースが提示する操作画面の例を示す図である。図２を参照すると、項目「系列選択」において、フォルダ等を参照し、ファイルが選択される。選択されたファイルに示される系列が入力され、可視化表示される。この例では、時刻と音高値とを対応付けて示す音楽シーケンスが、系列として表示される。系列全体を、系列ｘと称し図示する。以下、ユーザＵによる操作（ユーザ操作）を、単に「操作」と称する。

　項目「範囲指定」に係る操作によって、系列ｘが複数の系列に分けられる。例えば、可視化表示された系列ｘの一部が範囲選択され、選択された部分とそれ以外の部分とに分けられる。分けられた系列ｘの一部をターゲット系列（ハッチングで図示）と称し、残部をコンテキスト系列ｘ_Ｃと称する。ターゲット系列は、変更する（変更を加える）ことが求められる部分である。コンテキスト系列ｘ_Ｃは、変更しないこと（維持すること、変更を加えないこと）が求められる部分である。コンテキスト系列ｘ_Ｃは変更されないので、決定されたコンテキスト系列ｘ_Ｃであるといえる。この項目「範囲指定」に係る操作によって、系列ｘにおけるコンテキスト系列ｘ_Ｃの位置情報（後述の図８の位置情報Ｒに相当）が入力される。

　項目「探索」に係る操作によって、系列が生成される。詳細は後述するが、「通常生成」が指定されると、上述の「系列選択」に係る操作によって入力されたコンテキスト系列ｘ_Ｃと、「範囲指定」に係る操作によって入力された位置情報とに基づいて、系列が生成される。

　図３を参照すると、項目「生成済み系列」において、生成された系列Ａが、再生等の操作が可能な態様で可視化表示される。系列Ａは、もとの系列ｘ（図２）と比較して、同じコンテキスト系列ｘ_Ｃを含む点で共通する一方で、新たなターゲット系列ｘ_Ｔを含む点で相違する。説明の便宜上、系列Ａのターゲット系列ｘ_Ｔを、ターゲット系列ｘ_ＴＡと称し図示する。

　項目「探索」に係る操作によって、系列Ａをもとにして（出発点として）、さらなる系列が生成される。詳細は後述するが、「バリエーション生成」が指定されると、生成済み系列のターゲット系列ｘ_Ｔとは別のターゲット系列を含む系列が生成される。「特徴指定」に係る操作においては、系列の特徴が指定される。この例では、系列の特徴量を規定する潜在空間ＦＳ中の任意の位置（特徴）が指定され、その特徴（指定された位置に対応する特徴量）を有する系列が生成される。この系列も、系列Ａのターゲット系列ｘ_ＴＡとは別のターゲット系列を含む系列である。例えばこれらの操作を介して、各々が異なる新たなターゲット系列を含む複数の生成済み系列が得られる。

　図４を参照すると、項目「生成済み系列」において、さらに生成された系列Ｂ及び系列Ｃが、系列Ａとともに指定及び再生等の操作が可能な態様で可視化表示される。系列Ｂのターゲット系列ｘ_Ｔを、ターゲット系列ｘ_ＴＢと称し図示する。系列Ｃのターゲット系列ｘ_Ｔを、ターゲット系列ｘ_ＴＣと称し図示する。以下、系列Ａ、系列Ｂ及び系列Ｃを、単に「系列Ａ等」という場合もある。

　項目「探索」において、系列Ａ等をもとにして、さらなる系列が生成される。詳細は後述するが、「インターポレーション生成」が指定されると、指定された系列（この例では系列Ａ及び系列Ｂ）の間の特徴を有する系列が生成される。「バリエーション生成」及び「特徴指定」については、先に図３を参照して述べたとおりである。項目「探索」に係る操作が繰り返されることにより、次々と系列が生成される。

　なお、上述の図２～図４に例示される操作画面以外にも、さまざまな態様の操作がユーザインタフェースによって提示されてよい。

　図５は、情報処理装置の概略構成の例を示す図である。情報処理装置１は、先に図１を参照して説明したユーザインタフェース１０の他に、記憶部２０と、生成部３０とを含む。

　ユーザインタフェース１０は、ユーザ操作によって情報を受け付ける入力部（受付部）としての機能を有する。ユーザインタフェース１０は、系列データを入力するデータ入力手段としての機能を有するともいえる。ユーザインタフェース１０は、例えば先に図２を参照して説明したように、ターゲット系列（ターゲット系列データ）及び／又はコンテキスト系列（コンテキスト系列データ）を選択する系列データ選択手段としての機能も有するともいえる。ユーザインタフェース１０が受け付ける情報を、「入力情報」と称する。入力情報のいくつかの例について説明する。

　入力情報は、系列に関する情報を含む。系列に関する情報は、決められたコンテキスト系列ｘ_Ｃを含む系列に関する情報である。そのような入力情報の例は、先に図２を参照して説明した系列ｘに関する情報、及び、先に図３及び図４を参照して説明した生成済み系列（系列Ａ等）に関する情報である。なお、生成済み系列は、後述の生成部３０によって生成された系列である。

　入力情報は、複数の生成済み系列のうちの少なくとも１つの系列を指定する情報を含んでよい。そのような入力情報の例は、先に図４を参照して説明した系列Ａ等を指定する情報である。入力情報は、例えば系列Ａ及び系列Ｂの２つの系列を指定する情報であってもよい。

　入力情報は、系列の特徴を指定する情報を含んでよい。そのような入力情報の例は、先に図３及び図４を参照して説明した潜在空間ＦＳ中の位置（系列の特徴）を指定する情報である。

　ユーザインタフェース１０は、ユーザに情報を提示する出力部（提示部）としての機能を有する。ユーザインタフェース１０は、後述の生成部３０の生成結果を出力する。例えば先に図３及び図４を参照して説明したような態様で、系列Ａ等が提示（画面表示、音出力等）される。また、系列Ａ等の特徴が、潜在空間ＦＳの位置として提示される。ユーザインタフェース１０は、潜在空間ＦＳ中の位置を指定可能な態様で表示する表示手段としての機能を有するともいえる。

　記憶部２０は、情報処理装置１で用いられるさまざまな情報を記憶する。記憶部２０に記憶される情報の例として、学習済みモデル２１及び情報処理プログラム２２が図示される。

　学習済みモデル２１は、上述の入力情報に対応するデータが入力されると、新たなターゲット系列ｘ_Ｔに対応するデータを出力するように、学習データを用いて生成（学習）された学習済みモデルである。学習済みモデル２１は、入力された系列データに基づいて、新たな系列データを生成する機械学習モデルともいえる。生成部３０は、入力情報から、対応するデータを生成し、学習済みモデル２１に入力する。また、生成部３０は、学習済みモデル２１が出力するデータから、対応する系列を生成する。学習済みモデル２１の入出力データは、例えばトークンの列（トークン列）を含む。この場合、学習済みモデル２１に入力されるデータは、コンテキスト系列ｘ_Ｃのトークンを含む。学習済みモデル２１が出力するデータは、新たなターゲット系列ｘ_Ｔのトークンを含む。トークンについて、図６を参照して説明する。

　図６は、トークンの例を示す図である。図の上側に、系列の例として音楽シーケンスが示される。横軸は時刻（time）を示し、縦軸は音高値（MIDI　pitch）を示す。１単位時間が、１小節期間に対応する。すなわち、この例では、系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報である。

　図の下側に、音楽シーケンスに対応するトークン列が示される。この例では、トークンは、音の音高値及び音の発生期間のいずれかを示す。トークン列では、第１のトークンと、第２のトークンとが時刻順に並べられる。第１のトークンは、系列に含まれるそれぞれの音の発生及び停止を示すトークンである。第２のトークンは、対応する第１のトークンに示される状態が維持される期間を示すトークンである。山括弧<>で表される部分が、１つのトークンに対応する。

　例えば、トークン<ON,　W,　60>は、時刻０において、音源Ｗ（例えば楽器の種類を示す）の音高値６０での音の発生が開始することを示すトークン（第１のトークン）である。続くトークン<SHIFT,　1>は、１単位時間の間、対応する第１のトークンに示される状態（音源Ｗ、音高値６０）が維持されることを示すトークン（対応する第２のトークン）である。すなわち、SHIFTは、直前のトークンに示される状態のまま時刻だけが移動（時間だけが経過）することを意味する。ＯＮ及びＳＨＩＦＴに関する他のトークンも同様に説明される。トークン<OFF,　W,　60>は、音源Ｗの音高値６０での音の発生が終了することを示すトークン（第１のトークン）である。ＯＦＦに関する他のトークンも同様に説明される。なお、この例では、同じ時刻に複数の音が存在する場合、低い音に対応するトークンから順に並べる例を説明した。このように順序を決めておくことで、学習済みモデル２１の学習が行いやすくなる。

　なお、上記は系列が音楽である場合の系列のトークンの例である。系列が言語の場合、トークンは単語等である。

　図７、学習済みモデルの概略構成の例を示す図である。この例では、学習済みモデル２１は、変分オートエンコーダ（ＶＡＥ）モデルであり、エンコーダＥＮＣと、デコーダＤＥＣとを含む。アーキテクチャの例は、Ｔｒａｎｓｆｏｒｍｅｒ及びＲＮＮ（Recurrent　Neural　Network）等である。ＲＮＮの例は、ＬＳＴＭ（Long　short-term　memory）である。エンコーダＥＮＣは、入力されるトークンの列の特徴量を出力（抽出）する。デコーダＤＥＣは、エンコーダＥＮＣが出力した特徴量から、例えば最も確率の高いトークンの列を用いて、出力するトークンの列を生成（再構成）する。

　図８は、学習の例を示す図である。学習段階では、エンコーダモデル２１１、プライヤーモデル２１２及びデコーダモデル２１３の３つのモデルが用いられる。エンコーダモデル２１１及びプライヤーモデル２１２のアーキテクチャは、この例では、Ｔｒａｎｓｆｏｒｍｅｒ及びＲＮＮである。デコーダモデル２１３のアーキテクチャは、Ｔｒａｎｓｆｏｒｍｅｒである。学習後において、学習済みモデル２１は、プライヤーモデル２１２及びデコーダモデル２１３を、上述の図７のエンコーダＥＮＣ及びデコーダＤＥＣとして備えてよい。

　エンコーダモデル２１１は、特徴量ｚを与える。特徴量ｚは、潜在空間ＦＳ中の位置（点）を示すベクトルであってよい。潜在空間ＦＳ中の位置が、系列の特徴を示すともいえる。潜在空間ＦＳは、多次元空間であり、潜在特徴空間等とも呼ばれる。実施形態において、潜在空間ＦＳは、決められたコンテキスト系列ｘ_Ｃを維持するという条件のもと（コンテキスト条件付き）で学習されたコンテキスト潜在空間ともいえる。先に説明した図３及び図４の潜在空間ＦＳは、多次元のうちの一部の次元を表示（例えば２次元表示）したものである。エンコーダモデル２１１には、系列ｘ及び位置情報Ｒが入力される。位置情報Ｒは、次に説明するような変数ｊ及び変数ｋであってよい。

　エンコーダモデル２１１に入力される系列ｘは、トークンｓ_１，…ｓ_ｋ－１，ｓ_ｋ，…，ｓ_ｊ，ｓ_ｊ＋１，…，ｓ_Ｌとして図示される。下付き文字は、系列における各トークンの系列における順番を示す。下付き文字のうち、変数ｊ及び変数ｋが、位置情報Ｒを与える。１番目からｋ－１番目までのトークンｓ_１～ｓ_ｋ－１、及び、ｊ番目からＬ番目までのトークンｓ_ｊ～ｓ_Ｌが、コンテキスト系列ｘ_Ｃの位置として特定される。換言すると、ｋ番目からｊ－１番目までのトークンｓ_ｋ～ｓ_ｊ－１が、後に生成される新たなターゲット系列ｘ_Ｔの位置として特定される。

　エンコーダモデル２１１では、上述のように位置が特定されたトークンのうち、コンテキスト系列ｘ_Ｃのトークンだけが、ＲＮＮに入力される。ＲＮＮは、入力されたコンテキスト系列ｘ_Ｃ（のトークン）の特徴量ｚを出力する。このように、エンコーダモデル２１１は、系列ｘ及び位置情報Ｒが入力されると特徴量ｚを出力するので、「ｑ（ｚ｜ｘ，Ｒ）」と表現して図示される。

　プライヤーモデル２１２も、エンコーダモデル２１１と同様に、特徴量ｚを与える。プライヤーモデル２１２には、コンテキスト系列ｘ_Ｃ及び位置情報Ｒが入力される。

　コンテキスト系列ｘ_Ｃは、トークンｓ_１，…ｓ_ｋ－１及びトークンｓ_ｊ＋１，…，ｓ_Ｌとして示される。残りのトークンは、所定のトークンＭとして与えられる。残りのトークンが複数の場合、いずれも同じトークンＭとして与えられてよい。系列ｘのうちのコンテキスト系列ｘ_ｃ以外の部分（後に生成される新たなターゲット系列ｘ_Ｔの部分）が、トークンＭでマスクされるともいえる。トークンＭは、コンテキスト系列ｘ_Ｃのトークンとして入力される可能性のあるトークンに対応する特徴量ｚのいずれとも異なる特徴量を与えるように定められてよい。

　位置情報Ｒについては先に説明したとおりである。この例では、１番目からｋ－１番目までのトークンｓ_１～ｓ_ｋ－１、及び、ｊ番目からＬ番目までのトークンｓ_ｊ～ｓ_Ｌが、コンテキスト系列ｘ_Ｃの位置として特定される。

　プライヤーモデル２１２では、上述のように位置が特定されたトークンのうち、トークンＭだけが、ＲＮＮに入力される。ＲＮＮは、入力されたトークンＭの特徴量ｚを出力する。このように、プライヤーモデル２１２は、コンテキスト系列ｘ_Ｃ及び位置情報Ｒが入力されると特徴量ｚを出力するので、「ｐ（ｚ｜ｘ_Ｃ，Ｒ）」と表現して図示される。

　デコーダモデル２１３は、特徴量ｚ及びコンテキスト系列ｘ_Ｃのトークンに基づいて、新たなターゲット系列ｘ_Ｔのトークンを生成する。具体的に、デコーダモデル２１３は、コンテキスト系列ｘ_Ｃ及びターゲット系列ｘ_Ｔのうちのターゲット系列ｘ_Ｔのトークンだけを再構成する。再構成されたターゲット系列ｘ_Ｔのトークンと、もともとの決められたコンテキスト系列ｘ_Ｃのトークンとが、例えば生成部３０によって結合され、コンテキスト系列ｘ_Ｃ及び新たなターゲット系列ｘ_Ｔを含む系列が生成される。このように、デコーダモデル２１３は、特徴量ｚ、コンテキスト系列ｘ_Ｃ及び位置情報Ｒが入力されるとターゲット系列ｘ_Ｔだけが再構成された系列を出力するので、「ｐ（ｘ_Ｔ｜ｚ，ｘ_Ｃ，Ｒ）」と表現して図示される。

　なお、図８に示される例では、デコーダモデル２１３は、トークンｓ_ｊ＋１，…，ｓ_Ｌ，Ｂ，ｓ_１，…，ｓ_ｋ－１を参照しつつ、トークンｓ_ｋ，…，ｓ_ｊを生成する。参照されるトークンｓ_ｊ＋１，…，ｓ_Ｌ，Ｂ，ｓ_１，…，ｓ_ｋ－１では、トークンｓ_ｊ＋１，…，ｓ_Ｌ及びトークンｓ_１，…，ｓ_ｋ－１が、もともとの位置とはトークンＹ（系列の開始を示すトークン）を挟んで反対に配置される。このような順に従ってトークンを生成することで、トークンｓ_ｋ－１の後ろにトークンｓ_ｋが来るので、モデル化がし易くなる。トークンｓ_ｊ＋１が後方に配置されると、トークンｓ_ｋを生成する際に参照できなくなるといった問題も生じうるが、トークンｓ_ｊ＋１が前方に配置されることで、そのような問題も解消される。トークンＹが存在しないと、例えばｋ＝１の場合にトークンＹの後ろのトークンが存在せず、トークンｓ_Ｌに基づいてトークンｓ_ｋを生成しなければならないといった不具合が生じるが、トークンＹがあることで、そのような問題も解消される。

　上述のエンコーダモデル２１１、プライヤーモデル２１２及びデコーダモデル２１３は、損失関数を最小化するように学習される。この例では、損失関数として、損失関数Ｌ_ｒｅｃ及び損失関数Ｌ_ｐｒｉが用いられる。損失関数Ｌ_ｒｅｃ及び損失関数Ｌ_ｐｒｉの合計（加算値等）を最小化するように、エンコーダモデル２１１、プライヤーモデル２１２及びデコーダモデル２１３のパラメータが学習される。損失関数Ｌ_ｒｅｃは、プライヤーモデル２１２が出力する特徴量ｚを使ってデコーダモデル２１３がターゲット系列を再構成するときの誤差（再構成誤差）である。損失関数Ｌ_ｐｒｉは、エンコーダモデル２１１とプライヤーモデル２１２の分布の差（プライア誤差）である。プライア誤差の例は、カルバックライブラー（ＫＬ）距離である。

　図９は、学習の例を示すフローチャートである。前提として、多数のさまざまな系列ｘを含む学習データが準備されているものとする。

　ステップＳ１において、系列のミニバッチを、学習データから取得する。例えば、学習データから、任意の所定数（６４個等）の系列ｘを取得（サンプリング）する。

　ステップＳ２において、位置情報を設定する。例えば、先に図８を参照して説明した位置情報Ｒ、より具体的にはｊ及びｋの値を、任意の値に設定（サンプリング）する。

　ステップＳ３において、損失関数を用いてパラメータを更新する。例えば、先のステップＳ１及びステップＳ２で取得及び設定されたミニバッチを用いて、先に図８を参照して説明したように、損失関数Ｌ_ｒｅｃ及び損失関数Ｌ_ｐｒｉの合計を最小化するよう、エンコーダモデル２１１、プライヤーモデル２１２及びデコーダモデル２１３のパラメータを更新する（学習する）。

　上述のステップＳ１～ステップＳ３による学習を所定回数だけ繰り返し実行する。すなわち、ステップＳ４に示されるように、学習回数が所定回数未満の場合（ステップＳ４：ＹＥＳ）、ステップＳ１に処理が戻される。所定回数になった場合（ステップＳ４：ＮＯ）、フローチャートの処理は終了する。

　例えば以上のようにして、学習済みモデル２１が生成される。なお、同じミニバッチについて、異なる位置情報を設定してパラメータ更新がされてもよい。その場合、設定される位置情報Ｒのパターンの数だけ、ステップＳ２及びステップＳ３の処理が繰り返し実行されてよい。

　図５に戻り、情報処理プログラム２２は、情報処理装置１において実行される処理を実現するためのプログラム（ソフトウェア）である。

　生成部３０は、ユーザインタフェース１０に入力された入力情報と、学習済みモデル２１とを用いて、決められたコンテキスト系列ｘ_Ｃ及び新たなターゲット系列ｘ_Ｔを含む系列を生成する。生成される系列は、先に図３及び図４を参照して説明した生成済み系列（系列Ａ等）である。生成部３０は、系列を生成する制御手段ともいえる。制御手段の機能は、プロセッサ等（例えば後述の図１４のＣＰＵ１１００等）によって実現されてよい。生成部３０による系列の生成手法のいくつかの例について説明する。

　図１０～図１２は、情報処理装置において実行される処理（情報処理方法）の例を示すフローチャートである。

　図１０には、第１の生成手法の例が示される。第１の生成手法では、生成部３０は、コンテキスト系列ｘ_Ｃ及び位置情報Ｒと、学習済みモデル２１とを用いて、（例えばランダムに）系列を生成する。第１の生成手法を、「通常生成」と称し図示する。

　ステップＳ１１において、入力されたコンテキスト系列及び位置情報と、プライヤーモデルとを用いて、特徴量が取得（サンプリング）される。例えば、ユーザインタフェース１０は、先に図２を参照して説明したような項目「系列選択」及び「範囲指定」に係る操作により、コンテキスト系列ｘ_Ｃ及び位置情報Ｒを、入力情報として受け付ける。生成部３０は、先に図８を参照して説明したように、コンテキスト系列ｘ_Ｃ及び所定のトークンＭを含む系列と、位置情報Ｒとを、プライヤーモデル２１２に入力する。プライヤーモデル２１２は、トークンＭに対応する特徴量ｚを出力（抽出）する。

　ステップＳ１２において、コンテキスト系列及び特徴量と、デコーダとを用いて、ターゲット系列が生成される。例えば、生成部３０は、学習済みモデル２１を用いて、先のステップＳ１１で用いられたコンテキスト系列ｘ_Ｃ及び取得された特徴量ｚを、先に図８を参照して説明したように、デコーダモデル２１３に入力する。デコーダモデル２１３は、ターゲット系列ｘ_Ｔを生成（再構成）する。

　ステップＳ１３において、コンテキスト系列及びターゲット系列を含む系列が生成される。例えば、生成部３０は、先のステップＳ１２で用いられたコンテキスト系列ｘ_Ｃ及び生成された新たなターゲット系列ｘ_Ｔを結合し、それらを含む系列を生成する。

　図１１には、第２の生成手法の例が示される。第２の生成手法では、生成部３０は、生成済み系列のターゲット系列とは異なるターゲット系列を新たなターゲット系列として含む系列を生成する。例えば、生成部３０は、指定された２つの系列どうしの間の特徴を有する（２つの系列データを補完する）ターゲット系列を新たなターゲット系列として含む系列を生成する。第２の生成手法を、「インターポレーション生成」と称し図示する。

　ステップＳ２１において、指定された複数の系列の特徴量とは異なる特徴量が特定される。例えば、ユーザインタフェース１０は、先に図４を参照して説明したように系列Ａ及び系列Ｂを指定する情報と、「インターポレーション生成」を指定する情報とを、入力情報として受け付ける。生成部３０は、学習済みモデル２１を用いて、潜在空間ＦＳ中の系列Ａの特徴量ｚ_Ａの位置及び系列Ｂの特徴量ｚ_Ｂの位置の間の位置の特徴量を、特徴量ｚ_ＡＢとして特定する。学習済みモデル２１が潜在空間ＦＳを学習しているので、このような特徴量ｚ_ＡＢの特定が可能である。

　特徴量ｚ_ＡＢは、特徴量ｚ_Ａ及び特徴量ｚ_Ｂに重み付けを行ったうえで特定されてよい。例えば、Ｚ_ＡＢ＝（１－α）Ｚ_Ａ＋αＺ_Ｂとして算出されてよい。αは、特徴量ｚ_ＡＢにおける特徴量ｚ_Ａ及び特徴量ｚ_Ｂの比率（ブレンド率）を示す。この例では、（１－α）が、特徴量ｚ_Ａの比率を示し、αが特徴量ｚ_Ｂの比率を示す。例えばα＝０．２５の場合、特徴量ｚ_Ａ及び特徴量ｚ_Ｂを０．７５：０．２５で組み合わせた（ブレンドした）特徴量が、特徴量ｚ_ＡＢとして特定される。例えばユーザがαを指定できるような表示等を、ユーザインタフェース１０が提供してよい。

　ステップＳ２２において、特定した特徴量と、コンテキスト系列と、デコーダとを用いて、ターゲット系列が生成される。例えば、生成部３０は、学習済みモデル２１を用いて、先のステップＳ２１で特定した特徴量ｚ_ＡＢを、デコーダモデル２１３に入力する。デコーダモデル２１３は、特徴量ｚ_ＡＢに対応するターゲット系列ｘ_ＴＡＢを生成する。こうして得られたターゲット系列ｘ_ＴＡＢとコンテキスト系列ｘ_Ｃとが結合され、新たな系列ＡＢが生成される。

　図１２には、第３の生成手法の例が示される。第３の生成手法でも、生成部３０は、生成済み系列のターゲット系列とは異なる（に対して異なる）ターゲット系列を新たなターゲット系列として含む系列を生成する。第３の生成手法では、指定される系列は１つでも足りる。第３の生成手法を、「バリエーション生成」と称し図示する。

　ステップＳ３１において、指定された系列の特徴量の近傍の特徴量を特定する。例えば、ユーザインタフェース１０は、先に説明した図３又は図４の例において系列Ａを指定する情報と、「バリエーション生成」を指定する情報とを、入力情報として受け付ける。生成部３０は、学習済みモデル２１を用いて、潜在空間ＦＳ中の系列Ａの特徴量ｚ_Ａの位置を少しだけ移動させた位置の特徴量ｚ_Ａ´を特定する。移動は、例えば、特徴量ｚ_Ａにノイズを加算等することによって行われる。ノイズは、潜在空間ＦＳの各次元において、正規分布からサンプルされてよい。正規分布の平均及び分散は任意（例えば平均０、分散０．０１）に定められてよい。

　ステップＳ３２において、特定した特徴量と、コンテキスト系列と、デコーダとを用いて、ターゲット系列が生成される。例えば、生成部３０は、学習済みモデル２１を用いて、先のステップＳ３１で特定した特徴量ｚ_Ａ´を、デコーダモデル２１３に入力する。デコーダモデル２１３は、特徴量ｚ_Ａ´に対応するターゲット系列ｘＴ_Ａ´を生成する。こうして得られたターゲット系列ｘＴ_Ａ´とコンテキスト系列ｘ_Ｃとが結合され、新たな系列Ａ´が生成される。なお、先のステップＳ３２において複数の異なる特徴量が特定されてよく、その場合は、特徴量の数（バリエーション数）と同じ数だけ新たなターゲット系列が生成、ひいては新たな系列が生成される。例えばユーザがバリエーション数を指定できるような表示等を、ユーザインタフェース１０が提供してよい。

　なお、上述のバリエーション生成のもととなる系列及び生成される系列と、上述のインターポレーション生成のもととなる系列及び生成される系列とが重複することもある。例えば、上述のように、系列Ａ及び系列Ｃからのインターポレーション生成によって、系列Ｂが生成される。系列Ｂからのバリエーション生成によって、系列Ａ及び系列Ｃが生成されうる。

　上記の通常生成、インターポレーション生成及びバリエーション生成以外にも、さまざまな生成方法が用いられてよい。第４の生成方法として、生成部３０は、指定された特徴を有する系列を生成してよい。例えば、ユーザインタフェース１０は、先に図３及び図４を参照して説明したように、潜在空間ＦＳ中の位置（系列の特徴）を指定する情報を、入力情報として受け付ける。生成部３０は、指定された位置の特徴量を、デコーダモデル２１３に入力する。デコーダモデル２１３は、その特徴量に対応するターゲット系列を生成する。コンテキスト系列ｘ_Ｃとターゲット系列が結合され、新たな系列Ｄ、系列Ｅ及び系列Ｆ等が生成される。

　以上説明したようなさまざまな生成方法を組み合わせることで、所望の系列を探索することができる。これについて、図１３を参照して説明する。

　図１３は、系列の探索の例を模式的に示す図である。図の左側から右側に向かって探索が進められる。前提として、例えばこれまで説明したさまざまな生成方法によって、系列Ａ等が得られているものとする。潜在空間ＦＳ中の系列Ａ等の位置が、模式的に図示される。

　系列Ａ等をもとにして（出発点として）、さらなる系列の探索が行われる。例えば、図の上段部に示されるように、インターポレーション生成が行われてよい。この例では、系列Ａの及び系列Ｂの間の特徴を有する系列ＡＢ（白丸で図示）と、系列Ｂ及び系列Ｃの間の特徴を有する系列ＢＣ（白丸で図示）が生成される。生成された系列ＡＢ及び系列ＢＣ等から、インターポレーション生成、バリエーション生成及び特徴指定等によって、さらなる系列が生成されてよい。

　或いは、図の中段部に示されるように、バリエーション生成が行われてよい。この例では、系列Ａの特徴にノイズを加算した特徴を有する系列Ａ´、系列Ａ´´及び系列Ａ´´´（いずれも白丸で図示）が生成される。生成された系列Ａ´、系列Ａ´´及び系列Ａ´´´等から、インターポレーション生成、バリエーション生成及び特徴指定等によって、さらなる系列が生成されてよい。

　或いは、図の下段部に示されるように、特徴指定が行われてよい。この例では、指定された特徴を有する系列Ｄ、系列Ｅ及び系列Ｆ（いずれも白丸で図示）が生成される。生成された系列Ｄ、系列Ｅ及び系列Ｆ等から、インターポレーション生成、バリエーション生成及び特徴指定等によって、さらなる系列が生成されてよい。

　例えば以上のようにして、ユーザＵは、所望の系列を得るまで、系列の生成を繰り返すことができる。

　以上説明したように、情報処理装置１によれば、さまざまな生成手法を組み合わせて系列を生成することができるので、操作性に優れた系列生成が提供される。ユーザＵは、所望のターゲット系列が得られるように、絞り込みを行うことができる。例えば、ユーザＵは、異なるターゲット系列を含む系列Ａ～系列Ｇを生成し、さらに、そのうちの気に入った系列Ｂ及び系列Ｆをブレンドして得られる系列を、インターポレーション生成により生成することができる。また、ユーザＵは、気に入ったターゲット系列を、微修正しながら改善していくことができる。例えば、ユーザＵは、系列Ａに似ているものの少し違った系列（例えば系列Ｂ～系列Ｅ等）を、バリエーション生成により生成することができる。生成されたそれらの系列のうち、イメージに近い系列（例えば系列Ｃ及び系列Ｅ）を、インターポレーション生成によりブレンドし、さらなる系列を生成することができる。

２．ハードウェア構成の例
　図１４は、情報処理装置のハードウェア構成の例を示す図である。この例では、情報処理装置１は、コンピュータ１０００によって実現される。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が情報処理装置１として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、生成部３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るプログラム（記憶部２０の情報処理プログラム２２）、記憶部２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

３．ＲＮＮの構成の例
　図１５は、ＲＮＮの概略構成の例を示す図である。例示されるＲＮＮは、入力層と、中間層と、出力層とを含む。層に含まれるいくつかのニューロンが、白丸で模式的に図示される。入力層には、例えば先に図５等を参照して説明したトークン等が入力される。中間層は、この例ではＬＳＴＭブロックを含んで構成され、長期依存(long-term　dependencies)が学習されており、音楽、文書等の系列（例えば時系列データ）の扱いに適する。出力層は、全結合層であり、例えば先に図５等を参照して説明したトークンを確率とともに出力する。

４．変形例
　開示される技術は、上記実施形態に限定されない。いくつかの変形例について述べる。

　上記実施形態では、範囲指定（図１）において、系列ｘが１つのターゲット系列と２つのコンテキスト系列（コンテキスト系列ｘ_Ｃ１及びコンテキスト系列ｘ_Ｃ２）に分けられる例について説明した（図１）。ただし、系列ｘが１つのターゲット系列及び１つのコンテキスト系列に分けられるように範囲指定されてもよい。

　情報処理装置１の一部の機能は、情報処理装置１の外部（例えば外部サーバ）で実現されてもよい。その場合、情報処理装置１は、記憶部２０及び生成部３０の一部又は全部の機能を、外部サーバに備えていてよい。情報処理装置１が外部サーバと通信することにより、これまで説明した情報処理装置１の処理が同様に実現される。

　学習済みモデル２１は、エンコーダモデル２１１も、エンコーダＥＮＣとして備えてよい。この場合、例えば図１を参照して説明したようなターゲット系列も含む系列ｘから特徴量を抽出するといった用途に用いることができる。

５．効果
　以上説明した情報処理装置１は、例えば次のように特定される。図１～図５等を参照して説明したように、情報処理装置１は、制御手段（生成部３０）と、系列データ（系列ｘ等）を入力するデータ入力手段（ユーザインタフェース１０）と、データ入力手段（ユーザインタフェース１０）により入力された系列データ（例えば系列ｘ）に基づいて、新たな系列データ（例えば系列Ａ）を生成する機械学習モデル（学習済みモデル２１）と、機械学習モデル（学習済みモデル２１）により新たな系列データ（例えば系列Ａ）を生成する際に、系列データ（例えば系列Ａ）に対して変更を加えるターゲット系列データ（例えばターゲット系列ｘ_ＴＡ）、及び/又は、変更を加えないコンテキスト系列データ（コンテキスト系列ｘ_Ｃ）を選択する系列データ選択手段（ユーザインタフェース１０）と、を備え、制御手段（生成部３０）は、（i）機械学習モデル（学習済みモデル２１）により既に生成された少なくとも２つの系列データ（例えば系列Ａ及び系列Ｂ）を補間する新たなターゲット系列データを生成するか、又は、（ii）機械学習モデル（学習済みモデル２１）により既に生成された系列データ（例えば系列Ａ）に対して異なる新たな系列データを生成する、ことを特徴とする。

　情報処理装置１は、機械学習モデル（学習済みモデル２１）で学習された系列データ（例えば系列Ａ）の特徴量を規定する空間（潜在空間ＦＳ）中の位置を指定可能な態様で表示する表示手段（ユーザインタフェース１０）をさらに備え、制御手段（生成部３０）は、空間（潜在空間ＦＳ）中の指定された位置に対応する特徴量を有する系列データを、新たな系列データとして生成する、ことを特徴としてよい。

　また、情報処理装置１は、次のようにも特定される。図１～図５等を参照して説明したように、情報処理装置１は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデル２１とを用いて、決められたコンテキスト系列ｘ_Ｃ及び新たなターゲット系列ｘ_Ｔを含む系列（例えば系列Ａ等）を生成する生成部３０を備え、学習済みモデル２１は、入力情報に対応するデータが入力されると、新たなターゲット系列ｘ_Ｔに対応するデータを出力する。情報処理装置１は、入力情報を受け付け、また、生成部３０の生成結果を提示するユーザインタフェース１０を備えてもよい。

　上記の情報処理装置１によれば、決められたコンテキスト系列ｘ_Ｃ及び新たなターゲット系列ｘ_Ｔを含む系列が生成される。コンテキスト系列ｘ_Ｃは系列の一部を構成し、ターゲット系列ｘ_Ｔは系列の残部を構成する。したがって、一部だけが新たに生成され残部が維持された系列を生成することが可能になる。

　図２及び図８等を参照して説明したように、（例えばユーザインタフェース１０が受け付ける）入力情報は、決められたコンテキスト系列ｘ_Ｃと、系列における決められたコンテキスト系列ｘ_Ｃの位置情報Ｒと、を含んでよい。例えばこのような入力情報と、学習済みモデル２１とを用いて、決められたコンテキスト系列ｘ_Ｃ及び新たなターゲット系列ｘ_Ｔを含む系列を生成することができる。

　図３及び図４等を参照して説明したように、（例えばユーザインタフェース１０が受け付ける）入力情報は、生成部３０が生成した系列（例えば系列Ａ等）に関する情報を含み、生成部３０は、生成部３０が生成した系列のターゲット系列（例えばターゲット系列ｘ_ＴＡ等）とは異なる系列を新たなターゲット系列として含む系列を生成してよい。これにより、生成した系列に基づいて、さらに系列を生成することができる。

　図３及び図４等を参照して説明したように、（例えばユーザインタフェース１０が受け付ける）入力情報は、生成部３０が生成した複数の系列（例えば系列Ａ等）のうちの少なくとも１つの系列を指定する情報を含み、生成部３０は、指定された系列のターゲット系列（例えばターゲット系列ｘ_ＴＡ等）とは異なるターゲット系列を新たなターゲット系列として含む系列を生成してよい。これにより、指定された系列に基づいて、さらに系列を生成することができる。

　図４等を参照して説明したように、（例えばユーザインタフェース１０が受け付ける）入力情報は、生成部３０が生成した複数の系列（例えば系列Ａ等）のうちの２つの系列（例えば系列Ａ及び系列Ｂ）を指定する情報を含み、生成部３０は、指定された２つの系列のターゲット系列（例えばターゲット系列ｘ_ＴＡ及びターゲット系列ｘ_ＴＢ）どうしの間の特徴を有するターゲット系列を新たなターゲット系列として含む系列を生成してよい。これにより、指定された２つの系列の間の特徴を有する系列を生成することができる。

　図３及び図４等を参照して説明したように、（例えばユーザインタフェース１０が受け付ける）入力情報は、系列の特徴（例えば潜在空間ＦＳ中の位置）を指定する情報を含み、生成部３０は、指定された特徴を有する系列を生成してよい。これにより、指定された特徴を有する系列を生成することができる。

　図６～図８等を参照して説明したように、学習済みモデル２１に入力されるデータは、決められたコンテキスト系列ｘ_Ｃのトークン（例えばトークンｓ_１，…ｓ_ｋ－１及びトークンｓ_ｊ＋１，…，ｓ_Ｌ）を含み、学習済みモデル２１が出力するデータは、新たなターゲット系列ｘ_Ｔのトークン（例えばトークンｓ_ｋ，…，ｓ_ｊ）を含んでよい。入力されるデータは、さらに所定のトークンＭを含んでよい。系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、トークンは、音の音高値及び音の発生期間の少なくとも一方を示してよい。例えばこのようなトークンを入出力データとして、学習済みモデル２１を用いることができる。

　図１０～図１２等を参照して説明した情報処理方法も、本開示の位置態様である。情報処理方法は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデル２１とを用いて、決められたコンテキスト系列ｘ_Ｃ及び新たなターゲット系列ｘ_Ｔを含む系列を生成すること（ステップＳ１３、ステップＳ２２及び／又はステップＳ３２）を含み、学習済みモデル２１は、入力情報に対応するデータが入力されると、新たなターゲット系列ｘ_Ｔに対応するデータを出力する。このような情報処理方法によっても、これまで説明したように、一部だけが新たに生成され残部が維持された系列を生成することが可能になる。

　図５等を参照して説明した情報処理プログラム２２も、本開示の位置態様である。情報処理プログラム２２は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデル２１とを用いて、決められたコンテキスト系列ｘ_Ｃ及び新たなターゲット系列ｘ_Ｔを含む系列を生成すること（ステップＳ１３、ステップＳ２２及び／又はステップＳ３２）、をコンピュータに実行させ、学習済みモデル２１は、入力情報に対応するデータが入力されると、新たなターゲット系列ｘ_Ｔに対応するデータを出力する。このような情報処理プログラム２２によっても、これまで説明したように、一部だけが新たに生成され残部が維持された系列を生成することが可能になる。

　なお、本開示に記載された効果は、あくまで例示であって、開示された内容に限定されない。他の効果があってもよい。

　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　制御手段と、
　系列データを入力するデータ入力手段と、
　前記データ入力手段により入力された前記系列データに基づいて、新たな系列データを生成する機械学習モデルと、
　前記機械学習モデルにより前記新たな系列データを生成する際に、前記系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段と、
　を備え、
　前記制御手段は、
　　（i）前記機械学習モデルにより既に生成された少なくとも２つの系列データを補間する新たなターゲット系列データを生成するか、又は、
　　（ii）前記機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する、
　ことを特徴とする情報処理装置。
（２）
　前記機械学習モデルで学習された前記系列データの特徴量を規定する空間中の位置を指定可能な態様で表示する表示手段をさらに備え、
　前記制御手段は、前記空間中の指定された位置に対応する特徴量を有する系列データを、前記新たな系列データとして生成する、
　ことを特徴とする、（１）に記載の情報処理装置。
（３）
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部を備え、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理装置。
（４）
　前記入力情報は、
　　前記決められたコンテキスト系列と、
　　系列における前記決められたコンテキスト系列の位置情報と、
　を含む、
　（３）に記載の情報処理装置。
（５）
　前記入力情報は、前記生成部が生成した系列に関する情報を含み、
　前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　（３）又は（４）に記載の情報処理装置。
（６）
　前記入力情報は、前記生成部が生成した複数の系列のうちの少なくとも１つの系列を指定する情報を含み、
　前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　（３）～（５）のいずれかに記載の情報処理装置。
（７）
　前記入力情報は、前記生成部が生成した複数の系列のうちの２つの系列を指定する情報を含み、
　前記生成部は、指定された２つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　（３）～（６）のいずれかに記載の情報処理装置。
（８）
　前記入力情報は、系列の特徴を指定する情報を含み、
　前記生成部は、指定された特徴を有する系列を生成する、
　（３）～（７）のいずれかに記載の情報処理装置。
（９）
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　（３）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　（３）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
　前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
　（９）又は（１０）に記載の情報処理装置。
（１２）
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部と、
　前記入力情報を受け付け、また、前記生成部の生成結果を提示するユーザインタフェースと、
　を備え、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理装置。
（１３）
　前記ユーザインタフェースは、
　　前記決められたコンテキスト系列と、
　　系列における前記決められたコンテキスト系列の位置情報と、
　を、前記入力情報として受け付ける、
　（１２）に記載の情報処理装置。
（１４）
　前記ユーザインタフェースは、前記生成部が生成した系列に関する情報を、前記入力情報として受け付け、
　前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　（１２）又は（１３）に記載の情報処理装置。
（１５）
　前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの少なくとも１つの系列を指定する情報を、前記入力情報として受け付け、
　前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　（１２）～（１４）のいずれかに記載の情報処理装置。
（１６）
　前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの２つの系列を指定する情報を、前記入力情報として受け付け、
　前記生成部は、指定された２つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　（１２）～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記ユーザインタフェースは、系列の特徴を指定する情報を、前記入力情報として受け付け、
　前記生成部は、指定された特徴を有する系列を生成する、
　（１２）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　（１２）～（１７）のいずれかに記載の情報処理装置。
（１９）
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　（１２）～（１８）のいずれかに記載の情報処理装置。
（２０）
　前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
　前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
　（１８）又は（１９）に記載の情報処理装置。
（２１）
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成することを含み、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理方法。
（２２）
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成すること、
　をコンピュータに実行させ、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理プログラム。

　　１　情報処理装置
　１０　ユーザインタフェース（入力手段、選択手段、表示手段）
　２０　記憶部
　２１　学習済みモデル（機械学習モデル）
　２２　情報処理プログラム
　３０　生成部（制御部）
２１１　エンコーダモデル
２１２　プライヤーモデル
２１３　デコーダモデル
ＥＮＣ　エンコーダ
ＤＥＣ　デコーダ
　　Ｕ　ユーザ

Claims

　制御手段と、
　系列データを入力するデータ入力手段と、
　前記データ入力手段により入力された前記系列データに基づいて、新たな系列データを生成する機械学習モデルと、
　前記機械学習モデルにより前記新たな系列データを生成する際に、前記系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段と、
　を備え、
　前記制御手段は、
　　（i）前記機械学習モデルにより既に生成された少なくとも２つの系列データを補間する新たなターゲット系列データを生成するか、又は、
　　（ii）前記機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する、
　ことを特徴とする情報処理装置。
　前記機械学習モデルで学習された前記系列データの特徴量を規定する空間中の位置を指定可能な態様で表示する表示手段をさらに備え、
　前記制御手段は、前記空間中の指定された位置に対応する特徴量を有する系列データを、前記新たな系列データとして生成する、
　ことを特徴とする、請求項１に記載の情報処理装置。
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部を備え、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理装置。
　前記入力情報は、
　　前記決められたコンテキスト系列と、
　　系列における前記決められたコンテキスト系列の位置情報と、
　を含む、
　請求項３に記載の情報処理装置。
　前記入力情報は、前記生成部が生成した系列に関する情報を含み、
　前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　請求項３に記載の情報処理装置。
　前記入力情報は、前記生成部が生成した複数の系列のうちの少なくとも１つの系列を指定する情報を含み、
　前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　請求項３に記載の情報処理装置。
　前記入力情報は、前記生成部が生成した複数の系列のうちの２つの系列を指定する情報を含み、
　前記生成部は、指定された２つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　請求項３に記載の情報処理装置。
　前記入力情報は、系列の特徴を指定する情報を含み、
　前記生成部は、指定された特徴を有する系列を生成する、
　請求項３に記載の情報処理装置。
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　請求項３に記載の情報処理装置。
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　請求項３に記載の情報処理装置。
　前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
　前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
　請求項９に記載の情報処理装置。
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部と、
　前記入力情報を受け付け、また、前記生成部の生成結果を提示するユーザインタフェースと、
　を備え、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理装置。
　前記ユーザインタフェースは、
　　前記決められたコンテキスト系列と、
　　系列における前記決められたコンテキスト系列の位置情報と、
　を、前記入力情報として受け付ける、
　請求項１２に記載の情報処理装置。
　前記ユーザインタフェースは、前記生成部が生成した系列に関する情報を、前記入力情報として受け付け、
　前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　請求項１２に記載の情報処理装置。
　前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの少なくとも１つの系列を指定する情報を、前記入力情報として受け付け、
　前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　請求項１２に記載の情報処理装置。
　前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの２つの系列を指定する情報を、前記入力情報として受け付け、
　前記生成部は、指定された２つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
　請求項１２に記載の情報処理装置。
　前記ユーザインタフェースは、系列の特徴を指定する情報を、前記入力情報として受け付け、
　前記生成部は、指定された特徴を有する系列を生成する、
　請求項１２に記載の情報処理装置。
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　請求項１２に記載の情報処理装置。
　前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
　前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
　請求項１２に記載の情報処理装置。
　前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
　前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
　請求項１８に記載の情報処理装置。
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成することを含み、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理方法。
　一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成すること、
　をコンピュータに実行させ、
　前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
　情報処理プログラム。