WO2021145213A1

WO2021145213A1 - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: WO2021145213A1
Application number: PCT/JP2020/049097
Authority: WO
Inventors: 健人赤間
Original assignee: ソニーグループ株式会社
Priority date: 2020-01-14
Filing date: 2020-12-28
Publication date: 2021-07-22
Also published as: EP4092666A4; JPWO2021145213A1; US20230005459A1; CN114868138A; EP4092666A1

Abstract

本開示は、自動生成されるコンテンツの平凡さや、奇抜さを、リアリティを満たしながら尤度探索により調整できるようにする情報処理装置、および情報処理方法、並びにプログラムに関する。データの系列からなる入力コンテンツがエンコードされて潜在変数に変換され、潜在変数がデコードされて出力コンテンツが再構成され、入力系列となる入力コンテンツの尤度に基づいて、損失関数が計算され、損失関数の勾配が降下されて、潜在変数が更新されて、更新された潜在変数がデコードされて出力コンテンツが再構成される。コンテンツの自動生成装置に適用することができる。

Description

情報処理装置、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、自動生成されるコンテンツの平凡さや、奇抜さを、リアリティを満たしながら調整できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。

　様々な技術分野において、機械学習を利用した情報処理が活用されている。例えば、脳神経系の仕組みを模したニューラルネットワークを利用してコンテンツ（画像や音楽等）の特徴を学習することで、新たなコンテンツの自動生成する技術が提案されている。

　例えば、既存の曲の特徴を学習することにより、ユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な曲を自動的に作曲することを可能とする技術が提案されている（特許文献１参照）。

　この技術により、各曲の歌詞を表す歌詞データから算出される言語特徴量と当該曲の属性を表す属性データとを学習することで、新たな歌詞データが与えられれば、新たな歌詞データに合わせた曲を自動的に生成することができる。

特開２０１１－１７５００６号公報

　しかしながら、特許文献１に記載の技術は、歌詞に沿ったメロディやコードが生成されるに過ぎず、生成された楽曲が平凡過ぎたり、奇抜過ぎる恐れもある。

　生成された楽曲が平凡であれば面白みに欠けてしまう恐れがあり、奇抜であれば好みが別れてしまう恐れがあり、さらに、奇抜過ぎれば楽曲とは認識できない、楽曲としてのリアリティを欠くものとなる恐れもある。

　そこで、生成される楽曲を、平凡さと奇抜さとの中間になるように調整することが考えられるが、平凡さと奇抜さとの中間に向けた調整を実現することは困難である。

　これは、自動生成される楽曲に限らず、画像や文章といった様々なコンテンツを自動生成する場合においても同様である。

　本開示は、このような状況に鑑みてなされたものであり、特に、自動生成されるコンテンツの平凡さや、奇抜さを、リアリティを満たしながら調整できるようにするものである。

　本開示の一側面の情報処理装置、およびプログラムは、データの系列からなる入力コンテンツをエンコードして潜在変数に変換するエンコーダと、前記潜在変数をデコードして出力コンテンツを再構成するデコーダと、前記入力コンテンツの尤度に基づいて、損失関数を計算する損失関数計算部と、前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させる制御部とを備える情報処理装置、およびプログラムである。

　本開示の一側面の情報処理方法は、エンコーダと、デコーダと、損失関数計算部と、制御部とを備える情報処理装置の情報処理方法において、前記エンコーダは、データの系列からなる入力コンテンツをエンコードして潜在変数に変換し、前記デコーダは、前記潜在変数をデコードして出力コンテンツを再構成し、前記損失関数計算部は、前記入力コンテンツの尤度に基づいて、損失関数を計算し、前記制御部は、前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させるステップを含む情報処理方法である。

　本開示の一側面においては、データの系列からなる入力コンテンツがエンコードされて潜在変数に変換され、前記潜在変数がデコードされて出力コンテンツが再構成され、前記入力コンテンツの尤度に基づいて、損失関数が計算され、前記損失関数の勾配が降下されて、前記潜在変数が更新され、更新された潜在変数が前記デコーダによりデコードされて出力コンテンツが再構成される。

本開示の概要を説明する図である。本開示の情報処理装置の構成例を説明する図である。第１の実施の形態における図２の情報処理装置により実現される機能を説明する図である。第１の実施の形態におけるリアリティ評価器の学習に用いられるrealラベルとfakeラベルとを説明する図である。尤度とリアリティとに基づいた潜在変数の変化を説明する図である。第１の実施の形態におけるコンテンツの生成処理を説明するフローチャートである。第２の実施の形態における図２の情報処理装置により実現される機能を説明する図である。第２の実施の形態におけるリアリティ評価器の学習に用いられるrealラベルとfakeラベルとを説明する図である。第２の実施の形態におけるコンテンツの生成処理を説明するフローチャートである。本開示の変形例１を説明する図である。本開示の変形例２を説明する図である。汎用のパーソナルコンピュータの構成例を説明する図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．本開示の概要
　２．第１の実施の形態
　３．第２の実施の形態
　４．変形例１
　５．変形例２
　６．ソフトウェアにより実行させる例

　＜＜１．本開示の概要＞＞
　本開示は、特に、自動生成されるコンテンツの平凡さや、奇抜さを、リアリティを満たしながら調整できるようにするものである。

　楽曲、画像、および文章といった様々なコンテンツを自動生成する際、生成されたコンテンツがコンテンツの制作者の意図通りに満足できる状態で生成されることは多くなく、何らかの不満がある。

　ここでいう生成されたコンテンツに対する制作者の不満は、ある条件で生成されたコンテンツの特定の部分については、満足するが、特定の部分とは異なる部分については、満足できないといったものであることが多い。

　つまり、制作者の不満は、特定の部分については、満足できても、生成されたコンテンツ全体としては不満が残るといったものが多い。

　このような場合、制作者は、全体として満足できるコンテンツが生成されるまで、条件を変えながら、繰り返しコンテンツを自動生成させることになるが、全体として満足できるようなコンテンツが自動生成されることは稀である。

　従って、生成されたコンテンツについて全体としては満足できないが、一部については満足できるようなコンテンツ、換言すれば、制作者が惜しいと感じるコンテンツの多くが捨て去られることになる。

　ここで、制作者が惜しいと感じるコンテンツの最も基本的なケースとして、コンテンツを構成する系列が平凡過ぎる、または、奇抜過ぎるということが挙げられる。

　制作者は、コンテンツの生成にあたり、オリジナリティの高いコンテンツを追求するため、一般に有り触れた平凡過ぎるコンテンツが生成されても、オリジナリティが感じられない。

　従って、平凡過ぎるコンテンツは、制作者にとっても、コンテンツを見たり聞いたりする対象者にとってもつまらないものとなる可能性が高い。

　逆に、生成されたコンテンツが奇抜過ぎると、オリジナリティは感じられるものの、好みが分かれ易い。

　従って、奇抜過ぎるコンテンツは、仮に、制作者が気に入っても、対象者には受け入れられないこともある。

　このため、生成されるコンテンツが、平凡さと、奇抜さとの中間になるように調整することが求められるが、生成されるコンテンツを平凡さと奇抜さとの中間になるように調整することは難しい。

　仮に、一般人が好むコンテンツを調査し、好みのラベル付きデータセットを作り、それを反映したモデルを学習してコンテンツを自動生成するようにしても、一般人の好みは反映できるが、平凡さが高まる可能性が高く、また、対象者の好みを反映できない。

　特に、コンテンツを自動生成させるアプリケーションプログラムに適用させる場合、生成されるコンテンツの使用目的や、コンテンツを見たり聞いたりする対象者に応じて、生成されるコンテンツの好みは変化することになるので、生成されるコンテンツの好みは調整できるようにする必要がある。

　そこで、本開示においては、生成されるコンテンツの平凡さと奇抜さとの中間を、尤度を用いて調整する。

　ここで、尤度とは、サンプルとなるコンテンツが得られる確率である。

　例えば、コンテンツが楽曲である場合、自動生成された楽曲が、集められたサンプルの楽曲である確率を尤度とする。

　したがって、この場合、生成された楽曲の尤度が高いとは、生成された楽曲が、サンプルとして集められた楽曲に近い楽曲であり、有り触れた楽曲、すなわち、平凡な楽曲（平凡さが高い楽曲）である可能性が高いことを表す。

　逆に、生成された楽曲の尤度が低いとは、生成された楽曲が、サンプルとして集められた楽曲と、かけ離れた楽曲であり、奇抜な楽曲（奇抜さが高い楽曲）である可能性が高いことを表す。

　本開示においては、図１で示されるように、自動生成されるコンテンツの尤度を調整することで、尤度高のコンテンツを生成するように調整することで平凡さの高いコンテンツを生成させ、逆に、尤度低のコンテンツを生成するように調整することで奇抜さの高いコンテンツを生成させる。

　ここで、本明細書においては、自動生成されるコンテンツの平凡さと奇抜さとの中間の程度を示す表現として自然さを定義する。

　自然さとは、平凡さと奇抜さの中間（尤度中）の程度を表現するものとして用いるが、換言すれば、自然さとは、平凡でもなく、奇抜でもない程度を示す表現であるとも言える。

　つまり、本開示においては、自動生成されるコンテンツの対象者の好みに合うように、尤度が調整されることにより、コンテンツの自然さが、平凡さと奇抜さの中間の程度として調整されるとも言える。

　ただし、尤度が調整されることで、自然さが調整される際、生成されるコンテンツの奇抜さを高める程、すなわち、尤度を低下させるように調整する程、リアリティが低下する。

　ここでいうリアリティとは、生成されたコンテンツが、人間により生成されたコンテンツである可能性（確率）を表現する尤度である。

　例えば、コンテンツが楽曲である場合、リアリティが低下するとは、生成される楽曲には、人間が生成することがないような不協和音や、人間が楽曲とは認識し難いリズムや音階変化が含まれることをいう。

　つまり、リアリティが低下する程、自動生成されたコンテンツは、人間が生成することがないコンテンツに近いものとなり、コンテンツを見たり聞いたりする対象者にとって、コンテンツとは認識できないものであったり、場合によっては不快なものとなってしまう。

　そこで、本開示においては、平凡さと、奇抜さとの中間にあたる自然さを、尤度探索（Likelihood Exploration）を用いて調整しながら、入力されたコンテンツを段階的に変化させることにより、最終的にユーザが所望とするコンテンツへと変化させることでコンテンツを自動生成する。

　この際、コンテンツの自動生成にあたっては、図１で示されるように、奇抜過ぎても、リアリティを高めるようにすることで、リアリティを保ち、人間が生成することがないコンテンツ（人間がコンテンツとは認識できないコンテンツ）とはならないように調整する。

　結果として、本開示においては、リアリティを満たしつつ、平凡さと、奇抜さとの中間にあたる自然さを、尤度探索を用いて調整しながら、コンテンツを自動生成できるようにする。

　＜＜２．第１の実施の形態＞＞
　次に、図２を参照して、本開示の情報処理装置のハードウェアの構成例である情報処理装置３１の構成について説明する。

　尚、本明細書においては、情報処理装置３１が、コンテンツとして楽曲を自動生成する場合を例について説明するものとするが、楽曲以外の、例えば、画像や文章等の様々なコンテンツとして自動生成する場合も同様である。

　図２に示すように、情報処理装置３１は、通信部５１、制御部５２、および記憶部５３を備える。なお、情報処理装置３１は、情報処理装置３１を管理する管理者等から各種操作を受け付ける、例えば、キーボードやマウス等と共に、各種の情報を提示する例えば、液晶ディスプレイ等からなる入出力部３２を備えている。

　通信部５１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部５１は、インターネット等からなるネットワークと有線又は無線で接続され、ネットワークを介して、他の装置等との間で情報の送受信を行う。

　制御部５２は、メモリやプロセッサより構成され、情報処理装置３１の動作の全体を制御している。

　より詳細には、制御部５２は、学習部７１、最適化部７２、および生成部７３を備えている。

　学習部７１は、後述する記憶部５３におけるモデル記憶部８１に記憶されたエンコーダ９１、およびデコーダ９２を、楽曲DB８２にサンプルとして記憶されている楽曲データを用いて、VAE（Variational Auto Encoder）を学習させ、学習済みモデルとして構成させる。

　最適化部７２は、学習部７１により制御されて、エンコーダ９１、およびデコーダ９２が、楽曲DB８２にサンプルとして記憶されている楽曲データを用いた学習が繰り返される際、再構成誤差が最小化されつつ、事後分布が事前分布（正規分布）で正則化されるように、エンコーダ９１、およびデコーダ９２のパラメータを調整して最適化する。

　生成部７３は、記憶部５３におけるモデル記憶部８１に記憶された、エンコーダ９１、デコーダ９２、および損失関数計算部９３を制御して、尤度探索により、入力されたコンテンツ（楽曲）の平凡さと奇抜さとの中間であるコンテンツの自然さを調整し、ユーザが所望とするコンテンツ（楽曲）に変換することで、コンテンツ（楽曲）を生成する（自動生成する）。尚、生成部７３によるコンテンツの自動生成については、図３を参照して、詳細を後述する。

　記憶部５３は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部５３は、モデル記憶部８１、および、楽曲DB（Database）８２を有する。

　モデル記憶部８１は、予め学習された学習済みモデルを記憶する。具体的には、モデル記憶部８１は、コンテンツより特徴量である潜在変数を抽出するエンコーダ９１、潜在変数に基づいてコンテンツを再構成するデコーダ９２、入力データとしてのコンテンツの尤度とユーザが所望とする尤度との差分である損失関数を計算する損失関数計算部９３を有する。

　楽曲DB８２は、モデルに入力されるサンプルとしてのコンテンツ（楽曲）に関するデータを記憶する。楽曲DB８２は、生成部７３がエンコーダ９１およびデコーダ９２を制御して生成させる（自動生成される）コンテンツも記憶する。

　＜生成部によるコンテンツの自動生成＞
　次に、図３を参照して、生成部７３によるコンテンツの自動生成について説明する。

　生成部７３は、予め学習されたエンコーダ９１およびデコーダ９２を制御して、入力データであるコンテンツ（楽曲）Ｘ（ｉｎｉｔ）を、エンコーダ９１によりエンコードさせて、潜在変数Ｚｉｎｉｔを求めさせる。そして、生成部７３は、求められた潜在変数Ｚｉｎｉｔに基づいて、デコーダ９２により再構成させることにより出力データとしてコンテンツ（楽曲）Ｘ（ｉｎｉｔ）’を生成させる。

　より詳細には、図３で示されるように、エンコーダ９１は、例えば、複数の小節等からなる部分データのような系列から構成されるコンテンツ（楽曲）Ｘ（ｉｎｉｔ）を、エンコードすることで、コンテンツ（楽曲）Ｘよりも次元数の少ないベクトル等からなる特徴量としての潜在変数Ｚｉｎｉｔに変換する。

　そして、図３で示されるように、デコーダ９２は、コンテンツの特徴量となる潜在変数Ｚｉｎｉｔに基づいて、それぞれをデコードして、元の次元に戻すことで、小節からなる部分データのような系列から構成されるコンテンツ（楽曲）Ｘ（ｉｎｉｔ）’として再構成して復元する。

　ここで、エンコーダ９１とデコーダ９２とは、学習部７１により制御されて、予めVAEによる教師なし学習がなされ、エンコーダ９１が、入力データであるコンテンツ（楽曲）Ｘｉｎｉｔをエンコードし、潜在変数Ｚｉｎｉｔに変換すると共に、デコーダ９２が、潜在変数Ｚｉｎｉｔに基づいて、コンテンツ（楽曲）Ｘ（ｉｎｉｔ）’として再構成できるように構成される。すなわち、エンコーダ９１とデコーダ９２とは学習されていることから、コンテンツＸ（ｉｎｉｔ）とコンテンツＸ（ｉｎｉｔ）’とは、ほぼ同一のものとなる。

　生成部７３は、コンテンツ（楽曲）の制作者が所望とする平凡さと奇抜さとの中間である自然さの程度を示す尤度の情報を受け付けると、損失関数計算部９３を制御して、デコーダ９２により再構成されたコンテンツ（楽曲）Ｘ（ｉｎｉｔ）’の尤度と、制作者が所望とする尤度との差分を損失関数ＬＬＥとして計算させる。

　そして、生成部７３は、求められた損失関数ＬＬＥを所定値Δずつ徐々に降下させるように、すなわち、損失関数ＬＬＥを、段階的に小さくするように、潜在変数Ｚｉ（ｉは損失関数ＬＬＥを降下させる回数）を変化させてデコーダ９２によりデコードさせることで、制作者が所望とする尤度のコンテンツ（楽曲）Ｘ（ｉ）’を段階的に生成させる。

　損失関数ＬＬＥは、例えば、以下の式（１）で示されるように、入力データであるコンテンツＸ（ｉｎｉｔ）より求められる潜在変数Ｚｉｎｉｔにより再構成されたコンテンツＸ（ｉｎｉｔ）’と、所望とする尤度のコンテンツとの尤度の差分を示す関数であり、コンテンツの尤度の差分に係る項を構成する関数Ｆ１と、コンテンツのリアリティの尤度に係る項を構成する関数Ｆ２とから構成される。

　ＬＬＥ＝Ｆ１－α×Ｆ２
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１）

　ここで、ＬＬＥは、損失関数であり、Ｆ１は、コンテンツの尤度に係る項を構成する関数であり、Ｆ２は、リアリティの尤度に係る項を構成する関数であり、αは、所定の係数であり、任意に設定することができる。

　より詳細には、損失関数計算部９３は、尤度評価器１０１およびリアリティ評価器１０２を備えており、尤度評価器１０１により計算される尤度に基づいて、コンテンツの尤度に係る項を構成する関数Ｆ１を計算し、リアリティ評価器１０２により計算されるコンテンツのリアリティの尤度に基づいて、リアリティの尤度に係る項を構成する関数Ｆ２を計算する。

　尤度評価器１０１は、系列生成モデル（言語生成モデル）に基づいて、対数尤度が最大化するように、例えば、アーキテクチャとしてRNNやTransformer等により、学習し、再構成されたコンテンツ（楽曲）Ｘ’の尤度を対数尤度として求める。

　ここで、再構成されたコンテンツＸ’の尤度とは、再構成されたコンテンツＸ’が楽曲DB８２にサンプルとして登録された楽曲である確率である。

　より詳細には、再構成されたコンテンツ（楽曲）Ｘ’が、部分データＸ１’，Ｘ２’，・・・Ｘｎ’のような系列データＸ’（Ｘ１’，Ｘ２’，・・・Ｘｎ’）として構成されるような場合、コンテンツＸ’の尤度は、部分データそれぞれの確率の積として表現される。

　例えば、楽曲Ｘ’の尤度（確率）をＰ（Ｘ’）で表現する場合、楽曲Ｘ’の尤度（確率）Ｐ（Ｘ’）は、以下の式（２）として計算される。

　尚、系列データＸ’（Ｘ１’，Ｘ２’，・・・Ｘｎ’）の場合、初期値Ｓｔａｒｔが入力されることで先頭の部分データＸ１’が生成され、部分データＸ１’が入力されると隣接する部分データＸ２’が生成され、部分データＸ２’が入力されると隣接する部分データＸ３’が生成され、・・・部分データＸ（ｎ－１）’が入力されると隣接する部分データＸｎ’が生成される。

　従って、この系列データ（Ｘ１’，Ｘ２’，・・・Ｘｎ’）からなるコンテンツＸ’の尤度（確率）Ｐ（Ｘ’）は、以下の式（２）として表現される。

　Ｐ（Ｘ’）＝Ｐ（Ｘ１’｜Ｓｔａｒｔ）
　　　　　　　×Ｐ（Ｘ２’｜Ｓｔａｒｔ，Ｘ１’）
　　　　　　　　×Ｐ（Ｘ３’｜Ｓｔａｒｔ，Ｘ１’，Ｘ２’）
　　　　　　　　　×Ｐ（Ｘ４’｜Ｓｔａｒｔ，Ｘ１’，Ｘ２’，Ｘ３’）
　　　　　　　　　　×Ｐ（Ｘ５’｜Ｓｔａｒｔ，Ｘ１’，Ｘ２’，Ｘ３’，Ｘ４’）
　　　　　　　　　　　　　・・・・・・・
　　　　　　　　　　　　×Ｐ（Ｘｎ’｜Ｓｔａｒｔ，Ｘ１’，Ｘ２’，・・・Ｘ（ｎ－１）’）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（２）

　ここで、Ｐ（Ｘ’）は、コンテンツ（楽曲）Ｘ’の尤度（確率）である。

　また、Ｐ（Ｘｎ’｜Ｓｔａｒｔ，Ｘ１’，Ｘ２’，・・・Ｘ（ｎ－１）’）は、初期値がＳｔａｒｔであって、部分データが順次Ｘ１’，Ｘ２’，・・・Ｘ（ｎ－１）’であったときの部分データＸｎ’の条件付き確率（尤度）である。

　尤度評価器１０１は、このようにして求められるコンテンツ（楽曲）Ｘ’の尤度Ｐ（Ｘ’）を対数化して、対数尤度ＥＬ（Ｘ’）として出力する。

　また、リアリティ評価器１０２は、入力となる人間により生成されたコンテンツからなるrealクラスのラベルが付された系列からなるコンテンツと、人間により生成されたものではないfakeクラスのラベルが付された系列からなるコンテンツとに基づいて、リアリティを示す対数尤度が最大化するように、例えば、アーキテクチャとしてRNNやTransformer等により、予め学習する。

　そして、リアリティ評価器１０２は、リアリティの尤度に係る項の関数として、コンテンツ（楽曲）Ｘ（ｉｎｉｔ）’のリアリティの尤度を求め、対数化することでリアリティの対数尤度をリアリティＥＲ（Ｘ’）として求める。

　尚、以降においては、再構成されたコンテンツ（楽曲）Ｘ’が、楽曲DB８２にサンプルとして登録された楽曲データである確率を示す尤度については、「尤度」と称するものとし、リアリティの尤度については、概念としては尤度であることに変わりがないが、区別するため、単に「リアリティ」とも称するが、いずれも尤度である点については変わりがない。

　ここで、realクラスのラベルが付された系列となるコンテンツは、学習に用いられる、例えば、楽曲DB８２に登録されたサンプルとなる楽曲データである。

　また、fakeクラスのラベルが付された系列からなるコンテンツは、例えば、図４で示されるように、エンコーダ９１とデコーダ９２の学習に係るVAEによる事前分布から得られる潜在変数Ｚが、デコーダ９２によりデコードされることで再構成される楽曲データＦである。

　すなわち、リアリティ評価器１０２は、図４で示されるようにして生成されたrealクラスのラベルが付された系列からなるコンテンツＲの群と、fakeクラスのラベルが付された系列からなるコンテンツＦの群とに基づいて、学習し、再構成されたコンテンツ（楽曲）Ｘ（ｉｎｉｔ）’が人間により生成されたコンテンツである確率である尤度を対数化した対数尤度をリアリティＥＲ（Ｘ（ｉｎｉｔ）’）として求める。

　損失関数計算部９３は、尤度評価器１０１より計算される再構成されたコンテンツＸ’の尤度（対数尤度）ＥＬ（Ｘ（ｉｎｉｔ）’）と、リアリティ評価器１０２より計算される再構成されたコンテンツＸ’が、人間により生成されたコンテンツである確率としてのリアリティ（対数尤度）ＥＲ（Ｘ（ｉｎｉｔ）’）とから、上述した式（１）で示される損失関数ＬＬＥｉｎｉｔを計算する。

　より具体的には、損失関数計算部９３は、式（１）の関数Ｆ１である、再構成されたコンテンツＸ’の尤度に係る項を以下の式（３）で示されるように計算する。

　Ｆ１＝（ＥＬ（Ｘ（ｉｎｉｔ）’）－β×ＥＬｉｎｉｔ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（３）

　ここで、Ｆ１は、式（１）における、再構成されたコンテンツＸ（ｉｎｉｔ）’の尤度に係る項を示す関数であり、ＥＬ（Ｘ（ｉｎｉｔ）’）は、尤度評価器１０１により求められた再構成されたコンテンツＸ（ｉｎｉｔ）’の対数尤度であり、β×ＥＬｉｎｉｔは、参照尤度である。

　参照尤度β×ＥＬｉｎｉｔは、コンテンツを自動生成させようとする制作者が所望とする尤度を設定する値、すなわち、最終的に得ようとする尤度の目安となる値であり、係数βと尤度の初期値ＥＬｉｎｉｔ（所定の固定値）との積として表現される。

　例えば、入力データとなるコンテンツＸ（ｉｎｉｔ）の尤度を上げて、平凡さを高めたコンテンツを再構成（自動生成）させたいときには、参照尤度を尤度の初期値ＥＬｉｎｉｔより大きく設定するので、係数βを１よりも大きい値に設定する。また、特定の所望とする尤度がなく、単に尤度を高めたいといった場合には、係数βは１よりも大きな、例えば、１．２や１．５といった特定の値とするようにしてもよい。

　一方、自動生成されるコンテンツの尤度を下げて、奇抜さを高めたいときには、参照尤度を対数尤度ＥＬの初期値ＥＬｉｎｉｔより小さく設定するため、係数βを１よりも小さな値に設定する。また、特定の所望とする尤度がなく、単に尤度を低下させたいといった場合には、係数βは１よりも小さな、例えば、０．８や０．５といった特定の値とするようにしてもよい。

　また、損失関数計算部９３は、再構成されたコンテンツＸ（ｉｎｉｔ）’のリアリティの対数尤度ＥＲ（Ｘ（ｉｎｉｔ）’）を、上述した式（１）の関数Ｆ２に代入して計算する。

　これらのことから、損失関数計算部９３は、以下の式（４）で示されるように、損失関数ＬＬＥを計算する。

　ＬＬＥ＝Ｆ１－α×Ｆ２
　　　　＝（ＥＬ（Ｘ（ｉｎｉｔ）’）－β×ＥＬｉｎｉｔ）^２－α×ＥＲ（Ｘ（ｉｎｉｔ）’）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（４）

　尚、損失関数計算部９３は、デコーダ９２において、尤度評価器１０１、およびリアリティ評価器１０２による評価シグナルを受け取れるように、例えば、ガンベルソフトマックスを用いることにより微分可能にする。

　＜損失関数に基づいた潜在変数の変化＞
　上述したように、損失関数ＬＬＥは、入力データとなるコンテンツＸ（ｉｎｉｔ）の尤度（＝再構成されたコンテンツＸ（ｉｎｉｔ）’の尤度）と、制作者が所望とする尤度との差分に依存する関数Ｆ１と、リアリティに依存する関数Ｆ２とから構成される。

　そこで、生成部７３は、この損失関数ＬＬＥが小さくなるようにコンテンツＸ（ｉ）を再構成することで、制作者が所望とする尤度のコンテンツを生成させる。

　つまり、損失関数ＬＬＥは、式（４）で示されるような構成であるため、生成部７３は、リアリティＥＲを高めつつ、尤度ＥＬが参照尤度に近づくようにすることで、損失関数ＬＥＥが小さくなるようなコンテンツを再構成させる。

　より具体的には、生成部７３は、上述した損失関数ＬＬＥに基づいて、損失関数を所定値Δだけ段階的に小さくするように潜在変数Ｚｉを変化させ、変化させた潜在変数Ｚｉをデコーダ９２によりデコードさせることで、新たなコンテンツＸ’（ｉ）を順次生成させる。

　そこで、次に、損失関数を小さくするようにして、潜在変数Ｚｉを変化させる方法について説明する。

　例えば、図５で示されるように、様々な入力となるコンテンツに基づいて求められる潜在変数Ｚを、２次元の空間で表現した潜在変数空間と定義し、潜在変数空間において、それぞれの潜在変数Ｚが用いられて再構成されるときのコンテンツの尤度を等高線で表現することを考える。

　尚、図５の潜在変数空間においては、潜在変数Ｚを説明のため２次元とする例について説明するものとするが、現実には、潜在変数Ｚは、さらに多くの次元で構成され、潜在変数空間も同様に、さらに多くの次元で表現される。

　すなわち、図５の潜在変数空間においては、２次元で表現される潜在変数Ｚの分布がバツ印で表され、それぞれの潜在変数Ｚが用いられてコンテンツが再構成されたときの尤度が、同心円状に実線Ｌ１乃至Ｌ５で示されており、紙面外側に向かって尤度が低くなるような分布とされている。すなわち、実線Ｌ１乃至Ｌ５で示される尤度は、図中においてＬ１＞Ｌ２＞Ｌ３＞Ｌ４＞Ｌ５であるものとする。尚、図５の潜在変数空間における尤度の分布は、一例である。

　また、図５の潜在変数空間においては、同様の潜在変数Ｚが用いられてコンテンツが再構成される際のリアリティが求められたとき、リアリティの所定の閾値の分布が点線Ｒ１で示されている。

　ここで、点線Ｒ１より図中の上部が、リアリティが所定の閾値よりも低く、再構成されたコンテンツが人間により生成されたものと認識され難い「非リアル」とみなされる非リアル領域である。

　さらに、図７の潜在変数空間において、点線Ｒ１より下部が、リアリティが所定の閾値よりも高く、再構成されたコンテンツが人間により生成されたものと認識される「リアル」とみなされる領域がリアル領域であるものとする。

　尚、図５の潜在変数空間におけるリアリティについても、尤度同様に複数の等高線のように表示されるべきものであるが、ここでは、リアル領域と非リアル領域との境界となる、所定の閾値の分布である点線Ｒ１のみが表示されるものとしている。

　ここで、例えば、入力データであるコンテンツＸａがエンコーダ９１によりエンコードされて生成された潜在変数が、図５の潜在変数空間における位置Ｚａで表される場合であって、制作者が尤度を現状の実線Ｌ２のレベルから実線Ｌ４のレベルまで下げたいときについて考える。

　リアリティを意識する必要がないとすれば、生成部７３は、図５の潜在変数空間における、尤度のレベルを表す等高線である実線Ｌ２に対して垂直なベクトルＶＬ方向に、実線Ｌ４へと向かうように潜在変数空間内の位置を移動させて潜在変数を求めて、デコーダ９２によりデコードさせることで、制作者が所望とする尤度のコンテンツを再構成させることができる。

　すなわち、潜在変数空間においては、近い位置に存在する潜在変数同士は、類似した潜在変数であると言えるので、尤度のレベルが実線Ｌ２上である位置Ｚａから見て、最も近い実線Ｌ４上の位置Ｚｘにおいて得られる潜在変数が、現状の位置Ｚａにおける潜在変数と最も類似している実線Ｌ４で表される尤度の潜在変数と考えられるためである。

　しかしながら、リアリティを考慮する場合、図７において、潜在変数Ｚａが存在する領域は、非リアル領域であるため、尤度のみを考慮して潜在変数空間内の位置を移動させて潜在変数を求め、デコーダ９２によりデコードささせて再構成されるコンテンツは、尤度は満たされても、リアリティが低く、対象者が見たり聞いたりしても人間が生成したコンテンツとは認識できない恐れがある。

　そこで、生成部７３は、潜在変数空間内における位置Ｚａを点線Ｒ１に対して最も近い方向に対してリアリティのベクトルＶＲを設定し、ベクトルＶＬとベクトルＶＲとで合成される、所定値Δだけ尤度の勾配を降下させる位置Ｚｂに移動させて潜在変数を求め、デコーダ９２によりデコードさせることで新たなコンテンツを再構成させる。

　生成部７３は、以降同様の操作を繰り返すことにより、例えば、潜在変数空間内の位置Ｚａから順に位置Ｚｂ，Ｚｃ，Ｚｄ，Ｚｅ，Ｚｆと変化させて求められる潜在変数を、順次、デコーダ９２に出力して、デコードさせて、新たなコンテンツを生成させる。

　すなわち、図７における潜在変数空間内の位置Ｚｂの潜在変数がデコーダ９２によりデコードされることで生成されるコンテンツＸｂは、コンテンツＸａよりも尤度が低減されると共に、リアリティが向上されて、リアル領域との境界である点線Ｒ１に近づく。

　また、位置Ｚｃの潜在変数がデコーダ９２によりデコードされることで生成されるコンテンツＸｃは、コンテンツＸｂよりも尤度がさらに低減されると共に、リアリティがさらに向上されて、さらに点線Ｒ１に近づく。

　さらに、位置Ｚｄの潜在変数がデコーダ９２によりデコードされることで生成されるコンテンツＸｄは、コンテンツＸｃよりも尤度がさらに低減されると共に、リアリティがさらに向上されることで、点線Ｒ１を超えて、リアル領域に入ることにより、リアリティとしては十分な状態となる。

　また、位置Ｚｅの潜在変数がデコーダ９２によりデコードされることで生成されるコンテンツＸｅは、コンテンツＸｄよりも尤度がさらに低減され、コンテンツＸｄが既にリアリティとしては十分であるので、尤度を示す等高線である実線Ｌ３に対して垂直方向に近い方向に移動される。

　さらに、位置Ｚｆの潜在変数がデコーダ９２によりデコードされることで生成されるコンテンツＸｆは、コンテンツＸｅよりも尤度がさらに低減され、コンテンツＸｄが既にリアリティとしては十分であるので、尤度を示す等高線である実線Ｌ３に対して、ほぼ垂直方向に移動される。

　以上のように、図５で示されるような潜在変数空間において、リアリティを向上させつつ、損失関数ＬＬＥにおける尤度が段階的に低減されるように、潜在変数を変更して、デコードさせる処理が繰り返されることにより、入力データであるコンテンツが、リアリティを向上させながら、制作者が所望とする尤度に段階的に近付けていくことが可能となる。

　尚、以上においては、入力データであるコンテンツの尤度を所望とする尤度まで段階的に低減させることで、コンテンツの自然さを奇抜化させる例について説明してきたが、平凡化させる場合についても、参照尤度が高く設定されるのみで、同様の処理である。

　また、以上においては、段階的に、制作者が所望とする尤度に近付ける処理について説明してきたが、段階的な処理ではなく、所望とする尤度に一回で到達するように潜在変数を変更させるようにしてもよい。

　＜第１の実施の形態におけるコンテンツの生成処理＞
　次に、図６のフローチャートを参照して、第１の実施の形態におけるコンテンツの生成処理について説明する。

　ステップＳ１１において、生成部７３は、カウンタｉを１に初期化する。

　ステップＳ１２において、生成部７３は、参照尤度を設定する。より詳細には、生成部７３は、例えば、上述した式（４）における係数βの値を受け付けて、具体的な参照尤度の値を設定したり、尤度を上げたい、または下げたいといった情報の入力を受け付けて係数βを所定値に設定するなどして参照尤度を設定する。

　ステップＳ１３において、生成部７３は、入力データであるコンテンツＸ（ｉｎｉｔ）の入力を受け付ける。

　ステップＳ１４において、生成部７３は、エンコーダ９１を制御して、部分データＸｉｎｔをエンコードさせて、潜在変数Ｚｉｎｉｔに変換させる。

　ステップＳ１５において、生成部７３は、デコーダ９２を制御して、潜在変数Ｚｉｎｉｔをデコードさせて、コンテンツＸ（ｉｎｉｔ）’を再構成する。

　ステップＳ１６において、生成部７３は、損失関数計算部９３を制御して、上述した式（４）を用いて、コンテンツＸ（ｉｎｉｔ）’の尤度と、制作者の所望とする尤度との差分に基づいた損失関数ＬＬＥｉｎｉｔを計算させる。

　ステップＳ１７において、生成部７３は、損失関数ＬＬＥｉｎｉｔを所定値Δだけ降下した損失関数ＬＬＥｉを求める。

　ステップＳ１８において、生成部７３は、図５を参照して説明したように、損失関数ＬＬＥｉｎｉｔを所定値Δだけ降下した損失関数ＬＬＥｉに変化させるように、潜在変数空間における潜在変数Ｚｉｎｉｔの位置を、リアリティを維持しつつ、尤度を低下させながら移動させて、新たな潜在変数空間における位置に対応する潜在変数Ｚｉを求めて更新する。

　ステップＳ１９において、生成部７３は、デコーダ９２を制御して、潜在変数Ｚｉをデコードさせて、コンテンツＸ（ｉ）’を再構成させる。

　ステップＳ２０において、生成部７３は、再構成されたコンテンツＸ（ｉ）’を記憶部５３の楽曲DB８２に記憶させる。

　ステップＳ２１において、生成部７３は、カウンタｉを１インクリメントする。

　ステップＳ２２において、生成部７３は、カウンタｉが最大値ｉｍａｘであるか否かを判定し、最大値ｉｍａｘではない場合、処理は、ステップＳ２３に進む。

　ステップＳ２３において、生成部７３は、損失関数ＬＬＥｉを所定値Δだけ降下させることにより、損失関数ＬＬＥｉを更新させ（ＬＬＥｉ＝ＬＬＥｉ－Δ）、処理は、ステップＳ１８に戻る。

　このとき、ステップＳ１８において、生成部７３は、図５を参照して説明したように、所定値Δだけ降下して更新された損失関数ＬＬＥｉの変化に対応するように、潜在変数空間における潜在変数Ｚｉの位置を移動させて更新し、新たな潜在変数Ｚｉを求めて更新する。

　すなわち、カウンタｉが最大値ｉｍａｘになるまで、ステップＳ１８乃至Ｓ２３の処理が繰り返されて、損失関数ＬＬＥｉが順次所定値Δだけ降下しながら、潜在変数Ｚｉが更新され、更新された潜在変数Ｚｉが順次デコードされて新たなコンテンツＸｉが生成されることにより、リアリティを満たしながら、徐々に制作者が所望とする尤度に近づくように、順次、新たに再構成されるコンテンツＸｉが変化していく。

　そして、ステップＳ２２において、カウンタｉが最大値ｉｍａｘになったと判定された場合、処理は、ステップＳ２４に進む。

　ステップＳ２４において、生成部７３は、記憶部５３に記憶されている出力データとなるコンテンツＸ（ｉ）（ｉ＝１，２，３，・・・ｉｍａｘ）を出力する。

　以上の処理により、入力データであるコンテンツＸ（ｉｎｉｔ）を、リアリティを満たしながら、制作者が意図する尤度となるように段階的に変化させてコンテンツＸ（ｉ）’を生成することが可能となる。

　結果として、制作者が意図するようにコンテンツの、平凡さおよび奇抜さの中間となる自然さを調整しながらコンテンツを自動生成させることが可能となる。

　尚、図６の処理において、入力データであるコンテンツＸ（ｉｎｉｔ）における尤度と制作者の所望とする尤度との差分である損失関数ＬＬＥｉｎｉｔを求めるまでの処理については、一旦潜在変数Ｚｉｎｉｔを、デコーダ９２によりデコードしてコンテンツＸ（ｉｎｉｔ）’を求めてから計算させるようにしたが、最初の処理では、潜在変数Ｚｉｎｉｔに変化が加えられないため、コンテンツＸｉｎｉｔとコンテンツＸｉｎｉｔ’とは略同一のものとなる。

　このため、初期の損失関数ＬＬＥｉｎｉｔについては、入力データであるコンテンツＸｉｎｉｔから直接求めるようにしてもよい。

　また、以上においては、損失関数ＬＬＥｉｎｉｔを段階的に所定値Δずつ降下させながら潜在変数Ｚｉを順次変化させて、コンテンツＸ（ｉ）’を繰り返し再構成させる処理をカウンタｉがｉｍａｘになるまで繰り返す例について説明してきたが、損失関数ＬＬＥｉをこれ以上小さくすることができない状態になったときに、処理を終了させるようにしてもよい。

　さらに、以上においては、損失関数ＬＬＥｉｎｉｔを段階的に降下させて繰り返し再構成される全てのコンテンツＸ（ｉ）’（ｉ＝１，２，・・・ｉｍａｘ）を最終的に出力させる例について説明してきたが、最後に求められるコンテンツＸ（ｉｍａｘ）’のみを出力させるようにしてもよい。

　また、損失関数ＬＬＥを構成する尤度に係る項からなる関数Ｆ１については、尤度を大きくして、単純に平凡化できればよい場合については、大きく設定できればよく、また、尤度を小さくして、単純に奇抜化できればよい場合については、小さく設定できればよいものである。

　従って、最終的な尤度の目安などがない場合については、以下の式（５）のように設定してもよい。

　Ｆ１＝ＥＬ（Ｘ（ｉｎｉｔ））’　　（尤度を小さくして奇抜化したいとき）
　　　＝－ＥＬ（Ｘ（ｉｎｉｔ））’　　（尤度を大きくして平凡化したいとき）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（５）

　すなわち、関数Ｆ１については、奇抜化したいときと、平凡化したいときとで式（５）のように使い分けるようにしてもよい。また、式（５）については、コンテンツＸ（ｉｎｉｔ）の尤度ＥＬ（Ｘ（ｉｎｉｔ））に対して、尤度を小さくして奇抜化したいときは、正の係数を乗じるようにして用い、尤度を大きくして平凡化したいときは、負の係数を乗じるようにして用いるようにしてもよい。

　＜＜３．第２の実施の形態＞＞
　以上においては、入力データとなるコンテンツＸ（ｉｎｉｔ）をエンコードさせて潜在変数Ｚｉｎｉｔに変換させて、その後、潜在変数Ｚｉｎｉｔをデコードさせて、コンテンツＸ（ｉｎｉｔ）’を求め、コンテンツＸ（ｉｎｉｔ）’の尤度と、所望とする尤度との差分となる損失関数ＬＬＥｉｎｉｔを求め、所定値Δずつ降下させて損失関数ＬＬＥｉを更新させながら、潜在変数Ｚｉを段階的に更新させて、更新された潜在変数ＺｉをデコードさせることでコンテンツＸ（ｉ）’を繰り返し再構成させる例について説明してきた。

　しかしながら、上述した処理の場合、損失関数ＬＬＥｉを更新させる度に、再構成されるコンテンツＸ（ｉ）’は、入力データとなるコンテンツＸ（ｉｎｉｔ）とは全く異なるものとなってしまう恐れがある。

　このため、平凡さや奇抜さの中間となる自然さを変化させる前のコンテンツＸ（ｉｎｉｔ）に気に入った部分があっても、平凡さや奇抜さを変化させることにより、気に入った部分も含めた全体が変化してしまって、制作者がコンテンツ全体を気に入るものにし難くしてしまう恐れがあった。

　そこで、入力データとなるコンテンツＸｉｎｉｔのうち、制作者が気に入っている部分については、コンテキストとして変化させないように設定し、それ以外の部分についてのみ平凡さや奇抜さの中間となる自然さを尤度探索により調整できるようにしてもよい。

　尚、以降において、コンテキストとして変化させない部分を設定した状態でなされる尤度探索を、コンテキスト尤度探索（Contextual Likelihood Exploration）とも称する。

　生成部７３は、例えば、図７で示されるような入力データとなるコンテンツＸ（ｉｎｉｔ）について、制作者の意向として、変化を与えたくない部分の情報について入力を受け付けて、変化を与えたくない部分をコンテキストとして設定する。

　図７の例においては、コンテンツＸ（ｉｎｉｔ）のうち、制作者が気に入っている、変化を与えたくない部分がコンテキストＣ１，Ｃ２として設定されており、コンテキストＣ１，Ｃ２以外の変化を加えたい部分が部分データＹ（ｉｎｉｔ）に設定される例が示されている。

　尚、図７においては、コンテキストＣ１，Ｃ２が、変化を加えたい部分データＹ（ｉｎｉｔ）の前後に設定される例が示されているが、コンテキストが設定される位置は、これ以外でもよいし、２カ所以上であってもよい。

　そして、生成部７３は、エンコーダ９１を制御して、変化を与えたい部分である部分データＹ（ｉｎｉｔ）のみをエンコードさせて、潜在変数Ｚｉｎｉｔに変換させる。

　生成部７３は、デコーダ９２を制御して、潜在変数Ｚｉｎｉｔに基づいて部分データＹ（ｉｎｉｔ）’を再構成させる。

　生成部７３は、再構成された部分データＹ（ｉｎｉｔ）とコンテキストＣ１，Ｃ２とを統合して、コンテンツＸ（ｉｎｉｔ）’を再構成させる。

　以降は、コンテキストがない場合と同様に、生成部７３は、コンテンツＸ（ｉｎｉｔ）’の尤度と、制作者の所望とする尤度との差分である損失関数ＬＣＬＥｉｎｉｔを計算させ、所定値Δずつ降下させて、損失関数ＬＣＬＥｉを更新させると共に対応する潜在変数Ｚｉを更新し、デコーダ９２を制御してデコードさせ、部分データＹ（ｉ）’を再構成させ、さらに、コンテキストＣ１，Ｃ２と統合してコンテキストＸ（ｉ）’を再構成させる処理を繰り返す。

　＜コンテキストが用いられる場合のリアリティ評価器＞
　コンテキストを用いる場合、リアリティ評価器１０２は、図７で示されるように、人間が生成したコンテンツＲのうち、コンテキストＣ１１，Ｃ１２以外の部分データＶのみを、エンコーダ９１とデコーダ９２の学習に係るVAEによる事前分布から得られる潜在変数Ｚに対してノイズが加えられた潜在変数Ｚ’が、デコーダ９２によりデコードされることで再構成される部分データＶ’にコンテキストＣ１１，Ｃ１２とが付加されて再構成されるコンテンツＦとを用いて学習する。

　すなわち、コンテキストを用いる場合においては、リアリティ評価器１０２は、図７で示されるコンテキストＣ１１，Ｃ１２と部分データＶとから構成されるコンテンツＲをrealクラスのラベルが付された系列からなるコンテンツとし、再構成された部分データＶ’にコンテキストＣ１１，Ｃ１２とが付加されて再構成されたコンテンツＦをfakeクラスのラベルが付された系列からなるコンテンツとして、学習し、再構成されたコンテンツ（楽曲）Ｘ’が人間により生成されたコンテンツである確率である尤度を対数化した対数尤度をリアリティＥＲ（Ｘ’）として求める。

　＜第２の実施の形態におけるコンテンツの生成処理＞
　次に、図１１のフローチャートを参照して、第２の実施の形態におけるコンテンツの生成処理について説明する。

　ステップＳ５１において、生成部７３は、カウンタｉを１に初期化する。

　ステップＳ５２において、生成部７３は、参照尤度の設定を受け付ける。

　ステップＳ５３において、生成部７３は、入力データであるコンテンツＸ（ｉｎｉｔ）の入力を受け付ける。

　ステップＳ５４において、生成部７３は、制作者がコンテンツＸ（ｉｎｉｔ）に対して変化を加えたくない部分であるコンテキストとなる部分の情報を受け付ける。

　ステップＳ５５において、生成部７３は、コンテンツＸ（ｉｎｉｔ）よりコンテキストとなる部分を取り除いた部分データＹ（ｉｎｉｔ）を生成する。

　ステップＳ５６において、生成部７３は、エンコーダ９１を制御して、部分データＹ（ｉｎｉｔ）をエンコードさせて、潜在変数Ｚｉｎｉｔに変換させる。

　ステップＳ５７において、生成部７３は、デコーダ９２を制御して、潜在変数Ｚｉｎｉｔをデコードさせて、部分データＹ（ｉｎｉｔ）’を再構成させる。

　ステップＳ５８において、生成部７３は、部分データＹ（ｉｎｉｔ）’と、コンテキストとを統合して、コンテキストＸ（ｉｎｉｔ）’を再構成させる。

　ステップＳ５９において、生成部７３は、損失関数計算部９３を制御して、上述した式（４）を用いて、コンテンツＸ（ｉｎｉｔ）’の損失関数ＬＣＬＥｉｎｉｔを計算させる。尚、ここでは、コンテキストを設定する場合の損失関数ＬＣＬＥｉｎｉｔと、コンテキストを設定しない場合の損失関数ＬＬＥｉｎｉｔとについて、それぞれ別の符号を付しているが、式の構成については、いずれも式（４）であり、同一である。

　ステップＳ６０において、生成部７３は、損失関数ＬＣＬＥｉｎｉｔを所定値Δだけ降下した損失関数ＬＣＬＥｉを求める。また、損失関数ＬＣＬＥｉについても、基本的に損失関数ＬＬＥｉと同様である。

　ステップＳ６１において、生成部７３は、損失関数ＬＣＬＥｉｎｉｔを所定値Δだけ降下した損失関数ＬＣＬＥｉに変化させるときに、対応する潜在変数空間における潜在変数Ｚｉｎｉｔの位置を移動させて、潜在変数Ｚｉを求めて更新する。

　ステップＳ６２において、生成部７３は、デコーダ９２を制御して、潜在変数Ｚｉをデコードさせて、部分データＹ（ｉ）’を再構成させる。

　ステップＳ６３において、生成部７３は、部分データＹ（ｉ）’と、コンテキストとを統合して、コンテンツＸ（ｉ）’を再構成させる。

　ステップＳ６４において、生成部７３は、再構成されたコンテンツＸ（ｉ）’を記憶部５３の楽曲DB８２に記憶させる。

　ステップＳ６５において、生成部７３は、カウンタｉを１インクリメントする。

　ステップＳ６６において、生成部７３は、カウンタｉが最大値ｉｍａｘであるか否かを判定し、最大値ｉｍａｘではない場合、処理は、ステップＳ６７に進む。

　ステップＳ６７において、生成部７３は、損失関数ＬＬＥｉを所定値Δだけ降下して更新させ（ＬＬＥｉ＝ＬＬＥｉ－Δ）、処理は、ステップＳ６１に戻る。

　すなわち、カウンタｉが最大値ｉｍａｘになるまで、ステップＳ６１乃至Ｓ６７の処理が繰り返されて、損失関数ＬＬＥｉが順次所定値Δだけ降下しながら、対応して潜在変数Ｚｉが変化させられてデコードされ、新たな部分データＹ（ｉ）’が生成され、さらにコンテキストと統合されてコンテンツＸ（ｉ）’が繰り返し再構成されることにより、リアリティを満たしながら、徐々に制作者が所望とする尤度に近づくように、順次、新たに再構成されるコンテンツＸｉが変化していく。

　このとき、コンテキストとして設定された部分については、変化が加えられないので、制作者が気に入っている部分を保持した状態のまま、リアリティを満たしつつ、徐々に制作者が所望とする尤度に近づくように、順次、新たに再構成されるコンテンツＸｉが変化していく。

　そして、ステップＳ６６において、カウンタｉが最大値ｉｍａｘになったと判定された場合、処理は、ステップＳ６８に進む。

　ステップＳ６８において、生成部７３は、記憶部５３の楽曲DB８２に記憶されている出力データとなるコンテンツＸ（ｉ）’（ｉ＝１，２，３，・・・ｉｍａｘ）を出力する。

　以上の処理により、入力データであるコンテンツＸ（ｉ）を、コンテキストとして設定された部分については保持した状態で、リアリティを満たしながら、制作者が意図する尤度に変化させるコンテキスト尤度探索（Contextual Likelihood Exploration）により、コンテンツＸ（ｉ）’を段階的に生成することが可能となる。

　結果として、制作者が意図するように、コンテンツの気に入った部分については保持したままの状態で、その他の部分についてのみ、平凡さおよび奇抜さの中間となる自然さを調整しながらコンテンツを自動生成させることが可能となる。

　＜＜４．変形例１＞＞
　以上においては、尤度およびリアリティについては、コンテンツ全体について１つが求められ、損失関数が計算される例について説明してきたが、コンテンツは、複数の要素からなる系列であるので、各要素について、尤度も分解して構成することが可能であり、この要素毎の尤度からなる系列を構成することができる。

　このコンテンツを構成する要素毎の尤度からなる系列を尤度系列（information flow）と称する。

　すなわち、コンテンツＸｉｎｉｔは、例えば、楽曲である場合、図１０の左部で示されるように、時間方向の系列となる要素Ｘ１，Ｘ２，・・・Ｘｎから構成される。

　従って、各要素Ｘ１，Ｘ２，・・・Ｘｎについて、尤度ＥＬ（Ｘｉ）を求めることが可能となり、これが尤度系列（information flow）となる。

　尤度系列（information flow）を用いた場合、各要素Ｘ１，Ｘ２，・・・Ｘｎについて参照尤度を設定して、各要素の尤度ＥＬ（Ｘｉ）と参照尤度との差分の二乗和を、上述した損失関数を構成する式（１）における関数Ｆ１として使用し、例えば、以下の式（６）とする。

　Ｆ１＝Σ（ＥＬ（Ｘ（ｉ）’）－βｉ×ＥＬｉｎｉｔ）^２　（ｉ＝１，２，・・・ｎ）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（６）

　ここで、ｉ（ｉ＝１，２，・・・ｎ）は、各要素の識別子であり、ＥＬ（Ｘ（ｉ）’）は、要素Ｘｉの尤度であり、βｉは、各要素の係数であり、ＥＬｉｎｉｔは、尤度の初期値である。

　従って、式（６）においては、関数Ｆ１が、各要素の尤度ＥＬ（Ｘｉ）と参照尤度βｉ×ＥＬｉｎｉｔとの差分の二乗和として表されている。

　図１０の右部で示されるように、要素毎の尤度系列は、換言すれば、時間方向の尤度の変化、すなわち、驚きレベルの時間方向の変化であるということができる。

　図１０においては、例えば、点線の丸印で示されたタイミングにおいて、尤度がピーク、または谷間となっており、驚きの変化が示されている。

　一般に驚きレベルは、大きな驚きの後には小さな驚きが発生し、小さな驚きの後には大きな驚きが発生することが知られている。

　従って、図１０で示されるような尤度系列が用いられることにより、楽曲における驚きの変化を反映させることが可能となる。

　また、ここでは、コンテンツＸｉｎｉｔを構成する要素Ｘ１，Ｘ２，・・・Ｘｎについては、時間方向に最小構成となる要素を想定しているが、複数の要素からなるクラスタを形成して、クラスタ単位で尤度系列を設定するようにしてもよい。さらに、損失関数を構成する式（１）における関数Ｆ１には、式（６）を参照して説明したような２乗誤差ではなく、参照尤度との相関を用いるようにしてもよいし、参照尤度を使わず、尤度系列（information flow）の要素に対する分散等の統計量を用いるようにしてもよい。

　尚、コンテンツの生成処理については、損失関数ＬＬＥの演算方法が異なるのみで、図９のフローチャートを参照して説明したコンテキストが設定される場合の処理と同様であるので、その説明は省略する。

　＜＜５．変形例２＞＞
　以上においては、コンテキストが設定される場合、尤度評価器１０１により求められる尤度は、再構成されたコンテンツＸ’全体に対する尤度が用いられてきたが、図１１で示されるように、尤度評価器１０１に代えて、尤度評価器１０１’を設け、尤度評価器１０１’が、コンテンツＸ’のうち、コンテキストＣ１，Ｃ２以外の、制作者が所望とする尤度に変化させる部分データＹ’のみから、条件付き尤度ＣＥＬとして求められるようにしてもよい。

　また、同様にコンテキストが設定される場合、図１１で示されるように、リアリティ評価器１０２に代えて、尤度評価器１０１とは同一の系列生成モデルにより生成され、実質的に同一となるリアリティ評価器１０２’を設けるようにして、尤度ＥＬそのものをリアリティＥＲとして使用するようにしてもよい。

　この結果、損失関数は、以下の式（７）のように表現される。

　ＬＬＥ＝Ｆ１－α×Ｆ２
　　　　＝（ＣＥＬ（Ｘ（ｉｎｉｔ）’）－β×ＥＬｉｎｉｔ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　－α×ＥＬ（Ｘ（ｉｎｉｔ）’）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（７）

　ここで、ＣＥＬ（Ｘ（ｉｎｉｔ）’）は、コンテンツＸ（ｉｎｉｔ）’の条件付き尤度であり、β×ＥＬｉｎｉｔは、参照尤度であり、ＥＬ（Ｘ（ｉｎｉｔ）’）は、コンテンツＸ（ｉｎｉｔ）’の尤度である。

　条件付き尤度は、コンテンツＸ（ｉｎｉｔ）’のうちの、尤度に応じて変化する部分データの尤度であることから、「驚き」を表すので、条件付き尤度に対して参照尤度を設定することで、「驚き」をより大きくする、または、「驚き」をより小さくするように生成されるコンテンツを調整することが可能となる。

　また、リアリティ評価器１０２’が、実質的に尤度評価器１０１として機能することにより、尤度評価器１０１’についても、リアリティ評価器１０２’についても、同一の系列生成モデルを用いることになるため、いずれか一方のみの構成に集約し、構成を簡素化することが可能となる。

　さらに、変形例２においては、関数Ｆ１に条件付き尤度ＣＥＬ（Ｘ（ｉｎｉｔ）’）を用いて、関数Ｆ２にリアリティＥＲ（Ｘ（ｉｎｉｔ）’）として尤度ＥＬ（Ｘ（ｉｎｉｔ）’）を用いる例について説明してきたが、関数Ｆ１に条件付き尤度ＣＥＬ（Ｘ（ｉｎｉｔ）’）を用いて、関数Ｆ２については、リアリティＥＲ（Ｘ（ｉｎｉｔ）’）を用いるようにしてもよい。

　また、同様に、上述した式（３），式（５），式（６）における関数Ｆ２のリアリティＥＲ（Ｘ（ｉｎｉｔ）’）に代えて尤度ＥＬ（Ｘ（ｉｎｉｔ）’）を用いるようにしてもよい。

　＜＜６．ソフトウェアにより実行させる例＞＞
　図１２は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタフェース１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

　入出力インタフェース１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブル記憶媒体１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

　CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体１０１１ら読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記憶媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　尚、図１２におけるCPU１００１が、図２の制御部５２の機能を実現させ、記憶部１００８が、図２の記憶部５３の機能を実現させる。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本開示は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　尚、本開示は、以下のような構成も取ることができる。

＜１＞　データの系列からなる入力コンテンツをエンコードして潜在変数に変換するエンコーダと、
　前記潜在変数をデコードして出力コンテンツを再構成するデコーダと、
　前記入力コンテンツの尤度に基づいて、損失関数を計算する損失関数計算部と、
　前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させる制御部と
　を備える情報処理装置。
＜２＞　前記エンコーダと前記デコーダとは、再構成誤差が最小となるようにしつつ、事後分布が事前分布により正則化されるようにVAE（Variational Auto Encoder）学習されている
　＜１＞に記載の情報処理装置。
＜３＞　前記損失関数計算部は、
　　前記入力コンテンツの尤度を計算する尤度評価器と、
　　前記入力コンテンツのリアリティの尤度であるリアリティ尤度を計算するリアリティ評価器とを備え、
　前記尤度評価器の評価結果となる尤度と、前記リアリティ評価器の評価結果となるリアリティ尤度とに基づいて、前記損失関数を計算する
　＜１＞に記載の情報処理装置。
＜４＞　前記制御部は、前記損失関数の勾配を降下して、前記潜在変数を更新する際、前記リアリティ尤度が所定値よりも小さいとき、前記リアリティ尤度が大きくなるように、かつ、前記損失関数の勾配を降下させて、前記潜在変数を更新し、更新した前記潜在変数を前記デコーダによりデコードさせて前記出力コンテンツを再構成させる
　＜３＞に記載の情報処理装置。
＜５＞　前記制御部は、前記潜在変数の空間である潜在変数空間内における前記潜在変数毎の前記尤度の分布と、前記リアリティ尤度の分布に基づいて、前記リアリティ尤度が所定値よりも小さいとき、前記リアリティが大きくなるように、かつ、前記損失関数の勾配を降下させて、前記潜在変数空間内の位置を移動させることで、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて前記出力コンテンツを再構成させる
　＜４＞に記載の情報処理装置。
＜６＞　前記尤度評価器は、前記入力コンテンツが、予めサンプルとして登録されたコンテンツである確率からなる尤度を対数化したものを尤度として求める
　＜３＞に記載の情報処理装置。
＜７＞　前記尤度評価器は、前記入力コンテンツを構成する前記データの系列が、予めサンプルとして登録されたコンテンツである確率である、前記データの系列毎の条件付き確率の積として求められる尤度を対数化したものを尤度として求める
　＜６＞に記載の情報処理装置。
＜８＞　前記リアリティ評価器は、前記入力コンテンツが、人間が生成したコンテンツである確率からなる前記リアリティの尤度を対数化したものを前記リアリティ尤度として求める
　＜３＞に記載の情報処理装置。
＜９＞　前記損失関数は、前記入力コンテンツの尤度に基づいた第１項と、前記リアリティ尤度に基づいた第２項とから構成される
　＜３＞に記載の情報処理装置。
＜１０＞　前記第１項は、前記入力コンテンツの尤度と、所定の係数が所定の定数に乗じられた所定の尤度との差分の二乗からなる
　＜９＞に記載の情報処理装置。
＜１１＞　前記所定の係数は、前記出力コンテンツの前記尤度を高くして、平凡化するとき１よりも大きな値に設定され、前記出力コンテンツの前記尤度を低くして、奇抜化するとき１よりも小さな値に設定される
　＜１０＞に記載の情報処理装置。
＜１２＞　前記所定の定数は、前記尤度の初期値である
　＜１０＞に記載の情報処理装置。
＜１３＞　前記第１項は、前記尤度を高くするとき、前記入力コンテンツの尤度に正の係数が付され、前記尤度を低くするとき前記入力コンテンツの尤度に負の係数が付される
　＜９＞に記載の情報処理装置。
＜１４＞　前記第１項は、前記入力コンテンツを構成する要素毎の尤度と、前記要素毎の所定の係数と定数との積より構成される所定の尤度との差分の二乗の和からなる
　＜９＞に記載の情報処理装置。
＜１５＞　前記入力コンテンツのうち、変更を加えない部分がコンテキストとして指定された場合、前記エンコーダは、前記入力コンテンツのうち、前記コンテキスト以外の部分を入力部分データとしてエンコードして潜在変数に変換し、
　前記デコーダは、前記潜在変数をデコードして出力部分データを再構成し、
　前記制御部は、前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力部分データを再構成させ、前記再構成した前記出力部分データと、前記コンテキストとを統合して出力コンテンツを再構成する
　＜３＞に記載の情報処理装置。
＜１６＞　前記損失関数計算部は、入力コンテンツのうち、前記コンテキスト以外の入力部分データの尤度である条件付き尤度に基づいて、前記損失関数を計算する
　＜１５＞に記載の情報処理装置。
＜１７＞　前記損失関数計算部は、前記入力コンテンツのリアリティ尤度として、前記入力コンテンツの前記尤度を用いる
　＜１５＞に記載の情報処理装置。
＜１８＞
　前記制御部は、前記損失関数の勾配を所定の大きさずつ段階的に降下して、前記潜在変数を段階的に更新し、更新した前記潜在変数を前記デコーダにより繰り返しデコードさせて複数の出力コンテンツを段階的に再構成させる
　＜１＞乃至＜１７＞のいずれかに記載の情報処理装置。
＜１９＞　エンコーダと、
　デコーダと、
　損失関数計算部と、
　制御部とを備える情報処理装置の情報処理方法において、
　前記エンコーダは、データの系列からなる入力コンテンツをエンコードして潜在変数に変換し、
　前記デコーダは、前記潜在変数をデコードして出力コンテンツを再構成し、
　前記損失関数計算部は、前記入力コンテンツの尤度に基づいて、損失関数を計算し、
　前記制御部は、前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させる
　ステップを含む情報処理方法。
＜２０＞　データの系列からなる入力コンテンツをエンコードして潜在変数に変換するエンコーダと、
　前記潜在変数をデコードして出力コンテンツを再構成するデコーダと、
　前記入力コンテンツの尤度に基づいて、損失関数を計算する損失関数計算部と、
　前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させる制御部と
　してコンピュータを機能させるプログラム。

　３１　情報処理装置，　３２　入出力デバイス，　５１　通信部，　５２　制御部，　５３　記憶部，　７１　学習部，　７２　最適化部，　７３　生成部，　８１　モデル記憶部，　８２　楽曲DB，　９１　エンコーダ，　９２　デコーダ，　９３　損失関数計算部，　１０１，１０１’　尤度評価器，　１０２，１０２’　リアリティ評価器

Claims

　データの系列からなる入力コンテンツをエンコードして潜在変数に変換するエンコーダと、
　前記潜在変数をデコードして出力コンテンツを再構成するデコーダと、
　前記入力コンテンツの尤度に基づいて、損失関数を計算する損失関数計算部と、
　前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させる制御部と
　を備える情報処理装置。
　前記エンコーダと前記デコーダとは、再構成誤差が最小となるようにしつつ、事後分布が事前分布により正則化されるようにVAE（Variational Auto Encoder）学習されている
　請求項１に記載の情報処理装置。
　前記損失関数計算部は、
　　前記入力コンテンツの尤度を計算する尤度評価器と、
　　前記入力コンテンツのリアリティの尤度であるリアリティ尤度を計算するリアリティ評価器とを備え、
　前記尤度評価器の評価結果となる尤度と、前記リアリティ評価器の評価結果となるリアリティ尤度とに基づいて、前記損失関数を計算する
　請求項１に記載の情報処理装置。
　前記制御部は、前記損失関数の勾配を降下して、前記潜在変数を更新する際、前記リアリティ尤度が所定値よりも小さいとき、前記リアリティ尤度が大きくなるように、かつ、前記損失関数の勾配を降下させて、前記潜在変数を更新し、更新した前記潜在変数を前記デコーダによりデコードさせて前記出力コンテンツを再構成させる
　請求項３に記載の情報処理装置。
　前記制御部は、前記潜在変数の空間である潜在変数空間内における前記潜在変数毎の前記尤度の分布と、前記リアリティ尤度の分布に基づいて、前記リアリティ尤度が所定値よりも小さいとき、前記リアリティが大きくなるように、かつ、前記損失関数の勾配を降下させて、前記潜在変数空間内の位置を移動させることで、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて前記出力コンテンツを再構成させる
　請求項４に記載の情報処理装置。
　前記尤度評価器は、前記入力コンテンツが、予めサンプルとして登録されたコンテンツである確率からなる尤度を対数化したものを尤度として求める
　請求項３に記載の情報処理装置。
　前記尤度評価器は、前記入力コンテンツを構成する前記データの系列が、予めサンプルとして登録されたコンテンツである確率である、前記データの系列毎の条件付き確率の積として求められる尤度を対数化したものを尤度として求める
　請求項６に記載の情報処理装置。
　前記リアリティ評価器は、前記入力コンテンツが、人間が生成したコンテンツである確率からなる前記リアリティの尤度を対数化したものを前記リアリティ尤度として求める
　請求項３に記載の情報処理装置。
　前記損失関数は、前記入力コンテンツの尤度に基づいた第１項と、前記リアリティ尤度に基づいた第２項とから構成される
　請求項３に記載の情報処理装置。
　前記第１項は、前記入力コンテンツの尤度と、所定の係数が所定の定数に乗じられた所定の尤度との差分の二乗からなる
　請求項９に記載の情報処理装置。
　前記所定の係数は、前記出力コンテンツの前記尤度を高くして、平凡化するとき１よりも大きな値に設定され、前記出力コンテンツの前記尤度を低くして、奇抜化するとき１よりも小さな値に設定される
　請求項１０に記載の情報処理装置。
　前記所定の定数は、前記尤度の初期値である
　請求項１０に記載の情報処理装置。
　前記第１項は、前記尤度を高くするとき、前記入力コンテンツの尤度に正の係数が付され、前記尤度を低くするとき前記入力コンテンツの尤度に負の係数が付される
　請求項９に記載の情報処理装置。
　前記第１項は、前記入力コンテンツを構成する要素毎の尤度と、前記要素毎の所定の係数と定数との積より構成される所定の尤度との差分の二乗の和からなる
　請求項９に記載の情報処理装置。
　前記入力コンテンツのうち、変更を加えない部分がコンテキストとして指定された場合、前記エンコーダは、前記入力コンテンツのうち、前記コンテキスト以外の部分を入力部分データとしてエンコードして潜在変数に変換し、
　前記デコーダは、前記潜在変数をデコードして出力部分データを再構成し、
　前記制御部は、前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力部分データを再構成させ、前記再構成した前記出力部分データと、前記コンテキストとを統合して出力コンテンツを再構成する
　請求項３に記載の情報処理装置。
　前記損失関数計算部は、入力コンテンツのうち、前記コンテキスト以外の入力部分データの尤度である条件付き尤度に基づいて、前記損失関数を計算する
　請求項１５に記載の情報処理装置。
　前記損失関数計算部は、前記入力コンテンツのリアリティ尤度として、前記入力コンテンツの前記尤度を用いる
　請求項１５に記載の情報処理装置。
　前記制御部は、前記損失関数の勾配を所定の大きさずつ段階的に降下して、前記潜在変数を段階的に更新し、更新した前記潜在変数を前記デコーダにより繰り返しデコードさせて複数の出力コンテンツを段階的に再構成させる
　請求項１に記載の情報処理装置。
　エンコーダと、
　デコーダと、
　損失関数計算部と、
　制御部とを備える情報処理装置の情報処理方法において、
　前記エンコーダは、データの系列からなる入力コンテンツをエンコードして潜在変数に変換し、
　前記デコーダは、前記潜在変数をデコードして出力コンテンツを再構成し、
　前記損失関数計算部は、前記入力コンテンツの尤度に基づいて、損失関数を計算し、
　前記制御部は、前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させる
　ステップを含む情報処理方法。
　データの系列からなる入力コンテンツをエンコードして潜在変数に変換するエンコーダと、
　前記潜在変数をデコードして出力コンテンツを再構成するデコーダと、
　前記入力コンテンツの尤度に基づいて、損失関数を計算する損失関数計算部と、
　前記損失関数の勾配を降下して、前記潜在変数を更新し、更新した潜在変数を前記デコーダによりデコードさせて出力コンテンツを再構成させる制御部と
　してコンピュータを機能させるプログラム。