WO2020080268A1

WO2020080268A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2020080268A1
Application number: PCT/JP2019/040130
Authority: WO
Inventors: 健人赤間
Original assignee: ソニー株式会社
Priority date: 2018-10-19
Filing date: 2019-10-10
Publication date: 2020-04-23
Also published as: EP3716262A4; US11880748B2; DE112019005201T5; JPWO2020080268A1; JP7439755B2; CN111492424A; US20210232965A1; EP3716262A1

Abstract

本開示に係る情報処理装置（１００）は、学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得する取得部（１３２）と、取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部（１３３）と、第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する生成部（１３４）とを備える。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。詳しくは、機械学習を経て生成される学習済みモデルの生成処理に関する。

　様々な技術分野において、機械学習を利用した情報処理が活用されている。例えば、脳神経系の仕組みを模したニューラルネットワークを利用してコンテンツ（画像や音楽等）の特徴を学習することで、新たなコンテンツを自動的に生成すること等が行われている。

　例えば、既存の曲の特徴を学習することにより、ユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な曲を自動的に作曲することを可能とする技術が提案されている。

特開２０１１－１７５００６号公報

　従来技術によれば、各曲の歌詞を表す歌詞データから算出される言語特徴量と当該曲の属性を表す属性データとを学習することにより、新たな歌詞データが与えられれば、新たな歌詞データに合わせた曲を自動的に生成することができる。

　しかしながら、従来技術は、歌詞に沿ったメロディやコードが生成されるに過ぎず、曲全体の構成（ストラクチャー）に関して、人間が作曲したような自然な曲が生成されるとは限らない。すなわち、従来技術では、コンテンツの全体的な構成の特徴を学習したり、全体的な構成を保ったまま新たなコンテンツを生成したりすることは困難である。

　そこで、本開示では、コンテンツの全体的な構成としての特徴を学習することのできる情報処理装置、情報処理方法及び情報処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得する取得部と、取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、前記第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する生成部とを備える。

本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示す図である。本開示の実施形態に係る曲データ記憶部の一例を示す図である。本開示の実施形態に係る情報処理の手順を示すフローチャート（１）である。本開示の実施形態に係る情報処理の手順を示すフローチャート（２）である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．本開示の実施形態に係る情報処理の概要
　　　１－２．実施形態に係る情報処理装置の構成
　　　１－３．実施形態に係る情報処理の手順
　　２．その他の実施形態
　　３．ハードウェア構成

（１．実施形態）
［１－１．本開示の実施形態に係る情報処理の概要］
　図１は、本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理は、図１に示す情報処理装置１００によって実現される。

　情報処理装置１００は、本開示に係る情報処理を実行する装置であり、例えば、情報処理端末やサーバ装置である。

　実施形態において、情報処理装置１００は、コンテンツの特徴を抽出するための学習済みモデルを有する。実施形態では、コンテンツは、例えば音楽（曲）や、画像や、動画等、所定の形式のデジタルデータで構成される。図１の例では、情報処理装置１００は、コンテンツの一例として曲を処理に用いる。

　実施形態に係る学習済みモデルは、コンテンツを構成するデータから特徴量を抽出するエンコーダ（encoder）と、抽出された特徴量からコンテンツを再構成するデコーダ（decoder）とを有する。例えば、情報処理装置１００は、ＶＡＥ（Variational　Auto　Encoder）やＧＡＮ（Generative　Adversarial　Networks）等、教師なし学習によってエンコーダを学習する。具体的には、情報処理装置１００は、コンテンツをエンコーダに入力し、抽出された特徴量からコンテンツを再構成し、元のコンテンツと再構成後のコンテンツとを比較して、エンコーダ及びデコーダのパラメータを調整する。情報処理装置１００は、かかる処理を繰り返し、エンコーダ及びデコーダのパラメータを最適化することで、学習済みモデルを生成する。これにより、情報処理装置１００は、コンテンツを構成するデータから適切な特徴量を得ることのできる学習済みモデルを生成することができる。なお、特徴量とは、例えば、入力されるコンテンツのデータよりも次元数の低いベクトル等で表現される。

　なお、学習済みモデルは、上記の例に限らず、特徴量を抽出し、抽出した特徴量からコンテンツを再構成することができれば、どのような形式のモデルであってもよい。

　図１の例では、情報処理装置１００は、曲（言い換えれば、曲を構成する音を示すデジタルデータ）をエンコーダに入力することで、その曲の特徴量として、メロディラインや構成音、リズム（音楽における時間的な構造、例えば、音符や休符がどれくらい含まれるか、どのような順序で音が再生されるか等）、テンポ、拍子など、その曲の特徴を示す要素を抽出する。なお、実施形態では、曲のデータは、音高（発音される音の高さを示したデータ）や音長（発音された音符がどのくらいの長さ維持されるかを示したデータ）休符のタイミング等を示したデータ（例えば、ベクトル形式）で表されるものとする。

　ここで、上記のような既存曲の特徴量を利用して新たな曲を自動生成する場合には、人為的に作成された既存の曲のような、自然な構成を有した曲を生成することが一つの課題となりうる。しかしながら、任意の曲の特徴量をそのまま抽出すると、その曲の特徴を再現することは可能であるものの、全体として自然な構成を有した曲を生成することは難しい。具体的には、自動生成された曲において、曲の一部の特徴的なメロディラインや音の構成（モチーフ等とも称される）は類似したものが再現されたとしても、曲全体の中でモチーフの特徴がどのように変化しているかといった曲の構成自体を再現することが難しい。すなわち、従来では、人為的に作成された既存の曲のような自然な構成を有し、かつ、既存曲のようなある程度の長さを有する曲を自動生成することが困難であった。

　そこで、本開示に係る情報処理装置１００は、以下に説明する情報処理により、曲全体の構成を示す特徴量を算出することを可能にするとともに、当該特徴量を用いて、自然な曲を自動生成することを可能にする。具体的には、情報処理装置１００は、上記した学習済みエンコーダを用いて、曲を構成する部分データごと（例えば、１小節ごと）の特徴量を取得する。さらに、情報処理装置１００は、部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、曲の構成の特徴を示した相対的特徴量系列を算出する。このように、情報処理装置１００は、ある長さの曲を部分データが並べられた系列とみなし、それらの相対的な特徴量を算出することで、曲全体において遷移する特徴量を求めることで、曲全体の構造を表現する。言い換えれば、情報処理装置１００は、相対的特徴量系列によって、曲全体の構造をモデル化する。そして、情報処理装置１００は、曲全体の構成の特徴を示した相対的特徴量系列を用いて、新たな曲を生成する。これにより、情報処理装置１００は、既存曲の構成の特徴を保持した、自然な構成を有する新たな曲を自動生成することができる。なお、特徴量の系列とは、曲を構成する部分データごとの特徴量を順に並べて系列化したものである。

　以下、図１を用いて、本開示の情報処理の概要を流れに沿って説明する。なお、以下の説明では、特徴量が算出される対象となるコンテンツを「第１コンテンツ」と称し、第１コンテンツの相対的特徴量系列に基づいて生成される新たなコンテンツを「第２コンテンツ」と称する場合がある。また、図１等で提示する学習済みエンコーダは、単に「エンコーダ」と称する。また、学習済みデコーダは、単に「デコーダ」と称する。

　図１に示すように、まず、情報処理装置１００は、第１コンテンツとして曲３０を取得し、曲３０を部分データに分割する（ステップＳ１）。例えば、情報処理装置１００は、曲３０を小節ごとに分割する。なお、図１の例では、曲３０が６つの小節を有する例を示しているが、曲３０は、より多くの小節を有していてもよい。

　曲３０は、例えば、音高や音長、休符を示す記号列（デジタルデータ）により構成される。一例として、音高は、音の高さを示す周波数を所定の段階（例えば１２８段階等）で表現したものである。また、音長は、再生された音がどのくらいの長さを維持するかを表現したものである。また、休符は、音の再生が休止するタイミングを表現したものである。また、曲３０を示すデータには、曲３０の拍子やテンポ、小節の区切りを示す記号、あるタイミングにおけるコードや、コードを構成する構成音等の情報が含まれてもよい。

　例えば、情報処理装置１００は、上記の記号列をモデルで取り扱うことができるよう変換する。一例として、情報処理装置１００は、上記の記号列をベクトルで表現したもの（例えば、各次元に音高や音長等が割り当てられた、音情報を示す埋め込み（embedding）ベクトル）を処理に用いる。埋め込みベクトルは、例えばｄ次元（ｄは任意の整数）であり、対応する音（例えば、音の高さを示す「Ｃ４」等の情報）に対応する次元に「１」が入力され、その他の次元に「０」が入力されたベクトルである。なお、このような音を示すデータは、例えばＭＩＤＩ（Musical　Instrument　Digital　Interface）（登録商標）形式で表現されてもよいし、汎用のシーケンサーで再生可能な既知の形式のデジタルデータであってもよいし、ＷＡＶ形式等の波形データとして表現されてもよい。

　情報処理装置１００は、種々の既知の手法を用いて曲３０を部分データに分割してもよい。例えば、情報処理装置１００は、予め設定された小節の区切りを検出し、曲３０を部分データ（小節）に分割する。あるいは、情報処理装置１００は、拍子と音符の関係に基づいて曲３０を部分データに分割してもよい。例えば、情報処理装置１００は、曲３０が４分の４拍子であれば、四分音符に該当する長さの音が４つ再生された時点を一つの区切りと検出し、曲３０を小節に分割する。

　また、情報処理装置１００は、部分データとして、小節以外の区切りを用いてもよい。例えば、情報処理装置１００は、曲３０のメロディラインの区切り（例えば、所定の閾値を超える長さの休符が登場した箇所等）を検出して、部分データに分割してもよい。この場合、部分データは、必ずしも小節とは一致しなくてもよい。

　情報処理装置１００は、曲３０をステップＳ１において小節に区切り、各部分データを抽出する（ステップＳ２）。図１の例では、各部分データを「ｘ_ｎ（ｎは任意の自然数）」と示す。例えば、「ｘ_１」は、曲３０の１番目の小節に含まれるデータを示す。

　続けて、情報処理装置１００は、抽出した各部分データを順にエンコーダ５０に入力する（ステップＳ３）。これにより、情報処理装置１００は、各部分データの特徴量を得る（ステップＳ４）。

　図１の例では、各部分データの特徴量を「ｚ_ｎ」と示す。例えば、「ｚ_１」は、曲３０の１番目の小節の特徴量を示す。

　ここで、情報処理装置１００は、取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出する（ステップＳ５）。一例として、情報処理装置１００は、部分データ同士の相対的な特徴量として、各部分データの特徴量から、ある共通する部分データの特徴量を減算し、相対的特徴量を算出する。

　図１の例では、情報処理装置１００は、各部分データの特徴量から、１番目の小節の特徴量である「ｚ_１」を減算することで相対的特徴量を算出するものとする。なお、この算出は一例であり、情報処理装置１００は、相対的特徴量の算出として、特徴量を加算したり、乗算したり、除算したりしてもよい。また、情報処理装置１００は、各部分データから「ｚ_１」を減算するのではなく、他の小節の部分データを減算してもよい。

　情報処理装置１００は、算出した相対的特徴量に基づいて、曲３０の構造を示す特徴量の系列である相対的特徴量系列を算出する（ステップＳ６）。相対的特徴量系列は、例えば、曲３０の構造に対応するよう、相対的特徴量を順に並べて系列化したものである。なお、図１の例では、「ｚ_ｎ＋１－ｚ_１」に対応する相対的特徴量を「ｒ_ｎ」として示す。すなわち、図１の例では、曲３０に対応する相対的特徴量系列は、「（ｒ１，ｒ２，ｒ３，ｒ４，ｒ５）」と表現される。

　以上、ステップＳ６までの処理により、情報処理装置１００は、曲３０の構造を示す相対的特徴量系列を算出する。その後、情報処理装置１００は、新たに生成する曲（第２コンテンツ）のモチーフとなる任意の情報を取得する。

　例えば、情報処理装置１００は、新たに生成する曲のモチーフとなる情報として、所定の曲３５の１番目の小節に含まれるデータを取得する（ステップＳ７）。なお、情報処理装置１００は、新たに生成する曲のモチーフとなる情報として、必ずしも１つの小節に含まれるデータを取得することを要せず、例えば、任意の曲全体のデータを取得してもよい。

　図１の例では、取得した任意のデータ（具体的には、曲３５の１番目の小節に含まれるデータ）を「ｘ_ａ」と示す。

　続けて、情報処理装置１００は、「ｘ_ａ」をエンコーダ５０に入力する（ステップＳ８）。これにより、情報処理装置１００は、「ｘ_ａ」に対応する特徴量を得る。図１の例では、「ｘ_ａ」に対応する特徴量を「ｚ_ａ」と示す。

　そして、情報処理装置１００は、取得した特徴量「ｚ_ａ」と、曲３０の構造を示す相対的特徴量とに基づいて、新規に生成する第２コンテンツに対応する特徴量系列を生成する（ステップＳ９）。一例として、情報処理装置１００は、「ｚ_ａ」を先頭とするとともに、曲３０の相対的特徴量の各々に「ｚ_ａ」を付与した特徴量系列を生成する。具体的には、情報処理装置１００は、「（ｚ_ａ，ｚ_ａ＋ｒ１，ｚ_ａ＋ｒ２，ｚ_ａ＋ｒ３，ｚ_ａ＋ｒ４，ｚ_ａ＋ｒ５）」といった情報を有する特徴量系列を生成する。すなわち、情報処理装置１００は、曲３０が有する構造の特徴に、さらに「ｚ_ａ」が付された特徴量系列を生成する。

　情報処理装置１００は、ステップＳ９において生成した特徴量系列をデコーダ６０に入力する（ステップＳ１０）。デコーダ６０は、エンコーダ５０が抽出した特徴量に基づいてコンテンツを再構成するよう学習されたデコーダである。図１の例では、デコーダ６０は、エンコーダ５０が抽出した特徴量に基づいて、曲（正確には、音を再生するためのデジタルデータ）を再構成する。

　情報処理装置１００は、デコーダ６０の出力から、特徴量系列に対応した各小節の音データを取得する。情報処理装置１００は、取得したデータを系列の順に並べることにより、曲４０を生成する（ステップＳ１１）。曲４０は、曲３５の１番目の小節をモチーフとしつつ、曲３０の構造の特徴を保持する曲である。

　このように、本開示に係る情報処理装置１００は、エンコーダ５０を用いて、第１コンテンツ（図１の例では曲３０）を構成する部分データごとの特徴量を取得する。そして、情報処理装置１００は、取得した部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する。すなわち、情報処理装置１００は、第１コンテンツそのものの特徴量を算出するのではなく、第１コンテンツを構成する部分データの特徴量を順に並べた系列を取得する。これにより、情報処理装置１００は、第１コンテンツの構造（第１コンテンツが曲であれば、時間方向に対応した曲全体の流れや盛り上がり等）を特徴として抽出することができる。

　さらに、本開示に係る情報処理装置１００は、第１コンテンツの相対的特徴量系列と、任意のデータの特徴量（図１の例では、曲３５の１番目の小節の特徴量である「ｚ_ａ」）とに基づいて、第２コンテンツ（図１の例では曲４０）を生成する。すなわち、情報処理装置１００は、第１コンテンツの構造を示す特徴量系列と、新たなデータの特徴量とに基づいて新規な特徴量系列を生成し、新規な特徴量系列に基づいてコンテンツを再構成する。これにより、情報処理装置１００は、第１コンテンツの構造を保持しつつ、新たなモチーフや構成音を取り入れた新規な曲を第２コンテンツとして生成することができる。なお、図１では、情報処理装置１００は、各部分データの特徴量から特徴量「ｚ_１」を減算することで相対的特徴量を算出する例を示した。しかし、この例に限らず、情報処理装置１００は、加減乗除や相関に類する特徴量を抜き出す特徴量抽出器により、相対的特徴量を算出してもよい。また、情報処理装置１００は、各部分データの特徴量の類似性や因果関係によりグラフ構造を抽出し、グラフデータに対する機械学習手法等によって相対特徴量系列を計算してもよい。

［１－２．実施形態に係る情報処理装置の構成］
　次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置１００の構成について説明する。図２は、本開示の実施形態に係る情報処理装置１００の構成例を示す図である。

　図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００を管理する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、他の装置等との間で情報の送受信を行う。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、モデル記憶部１２１と、曲データ記憶部１２２とを有する。

　モデル記憶部１２１は、予め学習された学習済みモデルを記憶する。具体的には、モデル記憶部１２１は、コンテンツの特徴量を抽出するエンコーダ５０と、コンテンツを再構成するデコーダ６０とを有する。なお、モデル記憶部１２１は、学習に用いたコンテンツ等の学習データを記憶してもよい。

　曲データ記憶部１２２は、モデルに入力されるコンテンツ（曲）に関するデータを記憶する。図３に、実施形態に係る曲データ記憶部１２２の一例を示す。図３は、本開示の実施形態に係る曲データ記憶部１２２の一例を示す図である。図３に示した例では、曲データ記憶部１２２は、「曲ＩＤ」、「部分データＩＤ」、「音高情報」、「音長休符情報」、「コード情報」、「リズム情報」といった項目を有する。

　「曲ＩＤ」は、曲を識別する識別情報である。「部分データＩＤ」は、部分データを識別する識別情報である。部分データは、例えば、曲を構成する１つ又は複数の小節等に対応する。

　「音高情報」は、部分データに含まれる音の音高（音階）の情報を示す。「音長休符情報」は、部分データに含まれる音の長さ（再生時間や、再生される拍数）や、休符の長さやタイミングを示す。「コード情報」は、部分データに含まれるコードの種類や、コードの構成音、小節内のコードの切り替わり等を示す。「リズム情報」は、小節の拍子やテンポ、強拍、弱拍の位置等を示す。

　なお、図３では、音高情報等の項目を「Ｃ０１」のように概念的に記載しているが、実際には、各項目には、上記で説明したような音を示す具体的なデータが記憶される。また、図３では、説明のため、「音高情報」や「音長休符情報」等が異なる項目として記憶される例を示しているが、これらの情報は、小節に含まれる音符を示す情報として、一つの項目等にまとめて記憶されてもよい。すなわち、曲を示すデータの形式は、図３に図示したものに限られず、モデルで取り扱うことのできる形式であれば、いずれであってもよい。

　例えば、図３に示した例では、曲ＩＤが「Ａ０１」で識別される曲は、部分データＩＤが「Ｂ０１」や「Ｂ０２」で識別される部分データを有することを示している。また、部分データＩＤが「Ｂ０１」である部分データは、音高情報が「Ｃ０１」、音長休符情報が「Ｄ０１」、コード情報が「Ｅ０１」、リズム情報が「Ｆ０１」で示される音データを含むことを示している。

　図２に戻り、説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、情報処理装置１００内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　図２に示すように、制御部１３０は、学習部１３１と、取得部１３２と、算出部１３３と、生成部１３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　学習部１３１は、コンテンツを学習データとして所定の学習処理を行い、学習済みモデルを生成する。

　例えば、学習部１３１は、曲等の音データを学習する場合、音データをエンコーダ５０に入力し、音データの特徴量を抽出する。続けて、学習部１３１は、音データの特徴量をデコーダ６０に入力し、エンコーダ５０に入力された音データを再構成する。そして、学習部１３１は、前後の音データの相違が小さくなるよう、エンコーダ５０及びデコーダ６０のパラメータを調整する。学習部１３１は、かかる処理を繰り返し、エンコーダ５０及びデコーダ６０が最適化された学習済みモデルを生成する。上述のように、学習部１３１は、ＶＡＥやＧＡＮ等、種々の既知の手法を用いてモデルを生成してもよい。

　取得部１３２は、各種情報を取得する。例えば、取得部１３２は、学習部１３１によって学習されたモデルに入力する第１コンテンツを取得する。

　また、取得部１３２は、取得した第１コンテンツを分割し、第１コンテンツを構成する部分データを取得する。例えば、取得部１３２は、第１コンテンツが曲である場合、上述した手法により曲の小節の区切りを検出し、検出した小節を部分データとする。

　あるいは、取得部１３２は、第１コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて曲を部分データに分割してもよい。この場合、所定閾値の長さとは、時間的な長さであってもよいし、小節内に占める休符の割合等であってもよい。

　また、取得部１３２は、学習部１３１によって学習されたエンコーダ５０を用いて、第１コンテンツを構成する部分データごとの特徴量を取得する。

　具体的には、取得部１３２は、部分データに含まれる音を示すデータとして、音高、音長及び休符を示す記号列をエンコーダ５０に入力することにより、当該部分データに対応する特徴量を取得する。かかる特徴量は、例えば、元の部分データを表現するベクトルよりも低次元のベクトルとして表現される。

　算出部１３３は、取得部１３２によって取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する。

　例えば、算出部１３３は、第１コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して相対的特徴量を算出することにより、相対的特徴量系列を算出する。第１コンテンツの一部の部分データとは、第１コンテンツを構成する部分データのうち特定の部分データを示し、図１の例では、曲３０の１番目の小節の特徴量「ｚ_１」が該当する。このように、算出部１３３は、複数の部分データに対して、ある特定の部分データとの加減乗除等の演算を行うことで、相対的な関係を有する相対的特徴量を算出する。

　なお、図１の例では、曲３０の部分データの各特徴量から、曲３０の１番目の小節の特徴量「ｚ_１」を減算する例を示したが、演算は、この例に限られない。例えば、算出部１３３は、第１コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、相対的特徴量系列を算出してもよい。

　ここで、一部の部分データと因果関係を有する部分データとは、一部の部分データと何らかの対応関係を有する部分データを示す。例えば、コンテンツが曲である場合、曲中には、ある小節に対応する小節（例えば、コールアンドレスポンスの関係にある等と称される）が存在する場合がある。この場合、算出部１３３は、上記のように、何らかの因果関係を有する小節同士の特徴量を加算する（もしくは減算する）演算を優先的に行うなど、曲としての構造を強調したり、逆に弱めたりするような処理を行ってもよい。なお、コンテンツの部分データ同士の因果関係については、例えば因果推論等の既知の機械学習手法を用いて曲を分析することにより、ある小節と因子となる小節との関係性を数値化するなどの手法で求めることができる。

　また、算出部１３３は、コンテンツ内の部分データを所定の関係性に基づいてグラフ化し、グラフにおいて近しい関係にある部分データ同士を加算もしくは減算するなど、種々の既知の手法を用いて、相対的特徴量を算出してもよい。

　算出部１３３は、上記のように、種々の手法で部分データ同士の相対的な特徴量である相対的特徴量を算出し、算出した相対的特徴量を順に並べることで、第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する。算出部１３３は、算出した相対的特徴量を生成部１３４に送る。

　生成部１３４は、第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する。

　例えば、生成部１３４は、算出部１３３によって算出された第１コンテンツの相対的特徴量系列と任意のデータの特徴量とから、新規な特徴量系列を算出する。そして、生成部１３４は、新規な特徴量系列に含まれる、各々の特徴量をデコーダ６０に入力し、各々の特徴量に対応する部分データを再構成する。さらに、生成部１３４は、再構成された部分データを系列順に組み合わせることで、新規なコンテンツである第２コンテンツを生成する。

　生成部１３４は、曲である第１コンテンツの相対的特徴量系列が得られた場合には、第２コンテンツとして任意の曲を新たに生成することができる。この場合、取得部１３２は、部分データ及び任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列をエンコーダ５０に入力することにより、部分データ及び任意のデータに対応する特徴量を取得する。そして、取得部１３２によって取得された特徴量に基づいて、算出部１３３は、各部分データに対応する相対的特徴量系列を算出する。生成部１３４は、算出部１３３によって算出された相対的特徴量系列と、任意のデータ（例えば、新たなコンテンツのモチーフとする音データ）に対応する特徴量とに基づいて、新規な特徴量系列を生成し、生成した新規な特徴量系列から、曲である第２コンテンツを生成する。

［１－３．実施形態に係る情報処理の手順］
　次に、図４及び図５を用いて、実施形態に係る情報処理の手順について説明する。まず、図４を用いて、本開示の実施形態に係る学習処理の流れについて説明する。図４は、本開示の実施形態に係る情報処理の手順を示すフローチャート（１）である。

　図４に示すように、情報処理装置１００は、学習データ（コンテンツ）を取得したか否かを判定する（ステップＳ１０１）。学習データを取得していない場合（ステップＳ１０１；Ｎｏ）、情報処理装置１００は、学習データを取得するまで待機する。

　一方、学習データを取得した場合（ステップＳ１０１；Ｙｅｓ）、情報処理装置１００は、学習データを用いてモデルを生成する（ステップＳ１０２）。そして、情報処理装置１００は、学習済みモデル（エンコーダ及びデコーダ）を記憶部１２０内に格納する（ステップＳ１０３）。

　次に、図５を用いて、本開示の実施形態に係る生成処理の流れについて説明する。図５は、本開示の実施形態に係る情報処理の手順を示すフローチャート（２）である。

　図５に示すように、情報処理装置１００は、第１コンテンツを取得したか否かを判定する（ステップＳ２０１）。第１コンテンツを取得していない場合（ステップＳ２０１；Ｎｏ）、情報処理装置１００は、第１コンテンツを取得するまで待機する。

　一方、第１コンテンツを取得した場合（ステップＳ２０１；Ｙｅｓ）、情報処理装置１００は、第１コンテンツを部分データに分割する（ステップＳ２０２）。例えば、情報処理装置１００は、第１コンテンツが曲である場合、曲を小節ごとの部分データに分割する。

　続けて、情報処理装置１００は、各部分データをエンコーダ５０に入力して、部分データごとの特徴量を算出する（ステップＳ２０３）。さらに、情報処理装置１００は、部分データ同士の特徴量に所定の演算を行い、相対的特徴量を算出する（ステップＳ２０４）。

　相対的特徴量に基づいて、情報処理装置１００は、第１コンテンツの構造の特徴を示す相対的特徴量系列を算出する（ステップＳ２０５）。

　その後、情報処理装置１００は、生成する第２コンテンツのモチーフ等となる任意のデータ（ある曲の１小節など）を取得したか否かを判定する（ステップＳ２０６）。任意のデータを取得していない場合（ステップＳ２０６；Ｎｏ）、情報処理装置１００は、任意のデータを取得するまで待機する。

　一方、任意のデータを取得した場合（ステップＳ２０６；Ｙｅｓ）、情報処理装置１００は、任意のデータをエンコーダ５０に入力し、任意のデータの特徴量を算出する（ステップＳ２０７）。

　続けて、情報処理装置１００は、第１コンテンツの相対的特徴量系列と任意のデータの特徴量とに基づいて、第２コンテンツの元となる、新規な特徴量系列を算出する（ステップＳ２０８）。

　そして、情報処理装置１００は、新規な特徴量系列をデコーダ６０に入力して、新規な特徴量系列から第２コンテンツを生成する（ステップＳ２０９）。

（２．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　上記実施形態では、コンテンツの例として曲（音楽）を挙げた。しかし、情報処理装置１００は、コンテンツとしてテキストデータや動画等を用いて本開示に係る情報処理を行ってもよい。

　例えば、情報処理装置１００は、テキストデータである第１コンテンツを構成する部分データごとの特徴量を取得する。そして、情報処理装置１００は、取得された部分データごとの特徴量に基づいて得られる第１コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第２コンテンツを生成する。この場合、情報処理装置１００は、テキストデータの特徴量を出力するための学習済みモデルを生成しているものとする。

　この場合、テキストデータは、例えば詩や短歌等が例に挙げられる。例えば、情報処理装置１００は、複数の文（例えば、改行記号によって区切られるテキスト）から構成される詩を取得する。そして、情報処理装置１００は、詩に含まれる改行記号を検出して、詩を部分データ（各行の文）に分割する。続けて、情報処理装置１００は、部分データの相対的特徴量を算出して、当該詩に対応する相対的特徴量系列を得る。

　情報処理装置１００は、新たに任意のデータ（例えば、ユーザが詩に組み込みたいと所望する語句や文など）を取得した場合、当該任意のデータの特徴量を算出し、算出した特徴量と、詩に対応する相対的特徴量系列とに基づいて、新規な特徴量系列を算出する。そして、情報処理装置１００は、新規な特徴量系列から、第２コンテンツとして、新たな詩を生成する。

　これにより、情報処理装置１００は、既存の詩の構成（例えば、改行の文字数（リズム）や音韻、次の行に登場する語句の表現など）が類似する、新たな詩を生成することができる。

　また、情報処理装置１００は、テキストデータではなく、動画コンテンツを元にして、新たな動画コンテンツを生成してもよい。この場合、情報処理装置１００は、動画コンテンツを構成する画像の特徴量を出力する学習済みモデルを生成しているものとする。

　例えば、情報処理装置１００は、動画コンテンツである第１コンテンツを構成する部分データごとの特徴量を取得する。この場合、部分データとは、例えば、動画コンテンツを構成する各フレームに対応する画像である。なお、部分データは、１枚の静止画に限らず、数フレームをまとめて平均化した画像データ等であってもよい。そして、情報処理装置１００は、取得された部分データごとの特徴量に基づいて得られる第１コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第２コンテンツを生成する。

　これにより、情報処理装置１００は、既存の動画コンテンツの構成が類似する、新たな動画コンテンツを生成することができる。一例として、情報処理装置１００は、花が開く一連の動きを捉えた動画コンテンツや、人間の歩く動画を捉えた動画コンテンツ等に基づいて、他の物体が類似した動作を行うような新規な動画コンテンツを生成する。このように、情報処理装置１００は、本開示に係る情報処理によって、曲に限らず、コンテンツ全体の構造が類似する様々な新規なコンテンツを自動生成することができる。

　また、情報処理装置１００は、本開示に係る情報処理を応用して、人間の味覚情報に基づき、類似する味覚を発する物質等を検出する処理を行ってもよい。例えば、人間の味覚において、第１要素、第２要素、第３要素の順に人間が要素を検知した場合に、特定の味覚（例えば甘味など）を感じる傾向があると仮定する。この場合、情報処理装置１００は、第１要素、第２要素、第３要素の順に人間が要素を検知するといった構造を有する物質の相対的特徴量を算出することにより、同様の構造を有する新たな物質を生成する可能性がある。

　また、上記実施形態では、曲３０を小節に分割して特徴量系列を算出する例を示したが、情報処理装置１００は、例えば、複数の曲を第１コンテンツとし、各々の曲を一つの部分データとして、複数の曲を示す特徴量系列を算出してもよい。この場合、情報処理装置１００は、複数の曲の並びがどのような構造を有しているか、といった特徴を表現することができる。具体的には、情報処理装置１００は、複数の曲の並び順として、明るめ（例えばアップテンポの曲）が１番目にあり、その後に比較的暗めの曲が登場するといった構造の特徴を表現する。上記実施形態で説明したように、情報処理装置１００は、構造としての特徴を他のコンテンツに遷移することできる。このため、情報処理装置１００は、例えば、他の複数の曲を並び替える場合に、第１コンテンツと同じような構造を有するリストの生成（いわゆる、曲順を自動的に並べ替えたプレイリスト）を行うことができる。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（３．ハードウェア構成）
　上述してきた各実施形態に係る情報処理装置１００等の情報機器は、例えば図６に示すような構成のコンピュータ１０００によって実現される。以下、実施形態に係る情報処理装置１００を例に挙げて説明する。図６は、情報処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得する取得部と、
　取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
　前記第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する生成部と
　を備える情報処理装置。
（２）
　前記算出部は、
　前記第１コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して前記相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
　前記（１）に記載の情報処理装置。
（３）
　前記算出部は、
　前記第１コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
　前記（１）又は（２）に記載の情報処理装置。
（４）
　前記生成部は、
　第１コンテンツの相対的特徴量系列と任意のデータの特徴量とから算出した特徴量系列を学習済みデコーダに入力することにより、前記第２コンテンツを生成する
　前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記生成部は、
　曲である前記第１コンテンツの相対的特徴量系列に基づいて、前記第２コンテンツとして任意の曲を生成する
　前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記取得部は、
　前記部分データ及び前記任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列を前記学習済みエンコーダに入力することにより、当該部分データ及び前記任意のデータに対応する特徴量を取得し、
　前記生成部は、
　取得された任意のデータ及び部分データの特徴量に基づいて得られた前記相対的特徴量系列を学習済みデコーダに入力することにより、前記第２コンテンツを生成する
　前記（５）に記載の情報処理装置。
（７）
　前記取得部は、
　テキストデータである前記第１コンテンツを構成する部分データごとの特徴量を取得し、
　前記生成部は、
　取得された部分データごとの特徴量に基づいて得られる前記第１コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第２コンテンツを生成する
　前記（１）～（４）のいずれかに記載の情報処理装置。
（８）
　前記取得部は、
　動画コンテンツである前記第１コンテンツを構成する部分データごとの特徴量を取得し、
　前記生成部は、
　取得された部分データごとの特徴量に基づいて得られる前記第１コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第２コンテンツを生成する
　前記（１）～（４）のいずれかに記載の情報処理装置。
（９）
　前記取得部は、
　曲である前記第１コンテンツの小節の区切りを検出し、検出した小節ごとの特徴量を取得する
　前記（１）～（６）のいずれかに記載の情報処理装置。
（１０）
　前記取得部は、
　曲である前記第１コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて当該曲を部分データに分割し、分割した部分データごとの特徴量を取得する
　前記（１）～（６）のいずれかに記載の情報処理装置。
（１１）
　コンピュータが、
　学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得し、
　取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第１コンテンツの構成の特徴を示した相対的特徴量系列を算出し、
　前記第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する
　情報処理方法。
（１２）
　コンピュータを、
　学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得する取得部と、
　取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
　前記第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する生成部と
　として機能させるための情報処理プログラム。

　１００　情報処理装置
　１１０　通信部
　１２０　記憶部
　１２１　モデル記憶部
　１２２　曲データ記憶部
　１３０　制御部
　１３１　学習部
　１３２　取得部
　１３３　算出部
　１３４　生成部

Claims

　学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得する取得部と、
　取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
　前記第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する生成部と
　を備える情報処理装置。
　前記算出部は、
　前記第１コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して前記相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
　請求項１に記載の情報処理装置。
　前記算出部は、
　前記第１コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
　請求項１に記載の情報処理装置。
　前記生成部は、
　第１コンテンツの相対的特徴量系列と任意のデータの特徴量とから算出した特徴量系列を学習済みデコーダに入力することにより、前記第２コンテンツを生成する
　請求項１に記載の情報処理装置。
　前記生成部は、
　曲である前記第１コンテンツの相対的特徴量系列に基づいて、前記第２コンテンツとして任意の曲を生成する
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記部分データ及び前記任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列を前記学習済みエンコーダに入力することにより、当該部分データ及び前記任意のデータに対応する特徴量を取得し、
　前記生成部は、
　取得された任意のデータ及び部分データの特徴量に基づいて得られた前記相対的特徴量系列を学習済みデコーダに入力することにより、前記第２コンテンツを生成する
　請求項５に記載の情報処理装置。
　前記取得部は、
　テキストデータである前記第１コンテンツを構成する部分データごとの特徴量を取得し、
　前記生成部は、
　取得された部分データごとの特徴量に基づいて得られる前記第１コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第２コンテンツを生成する
　請求項１に記載の情報処理装置。
　前記取得部は、
　動画コンテンツである前記第１コンテンツを構成する部分データごとの特徴量を取得し、
　前記生成部は、
　取得された部分データごとの特徴量に基づいて得られる前記第１コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第２コンテンツを生成する
　請求項１に記載の情報処理装置。
　前記取得部は、
　曲である前記第１コンテンツの小節の区切りを検出し、検出した小節ごとの特徴量を取得する
　請求項１に記載の情報処理装置。
　前記取得部は、
　曲である前記第１コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて当該曲を部分データに分割し、分割した部分データごとの特徴量を取得する
　請求項１に記載の情報処理装置。
　コンピュータが、
　学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得し、
　取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第１コンテンツの構成の特徴を示した相対的特徴量系列を算出し、
　前記第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する
　情報処理方法。
　コンピュータを、
　学習済みエンコーダを用いて、第１コンテンツを構成する部分データごとの特徴量を取得する取得部と、
　取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第１コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
　前記第１コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第２コンテンツを生成する生成部と
　として機能させるための情報処理プログラム。