WO2021060493A1

WO2021060493A1 - 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置

Info

Publication number: WO2021060493A1
Application number: PCT/JP2020/036355
Authority: WO
Inventors: 竜之介大道
Original assignee: ヤマハ株式会社
Priority date: 2019-09-26
Filing date: 2020-09-25
Publication date: 2021-04-01
Also published as: US11875777B2; JP7331588B2; CN114402382A; JP2021051251A; US20220208175A1

Abstract

情報処理装置（１００）は、第１制御データ（Ｃ１）に基づいて時間変動成分（Ｘ）を出力するように訓練された第１推定モデル（Ｍ１）を用いて、合成されるべき目標合成音の第１制御データ（Ｃ１）を処理して、前記目標合成音の時間変動成分（Ｘ）を生成する第１生成部（２１）と、第２制御データ（Ｃ２）と時間変動成分（Ｘ）とに基づいて特徴量の時系列を出力するように訓練された第２推定モデル（Ｍ２）を用いて、前記目標合成音の第２制御データ（Ｃ２）と前記目標合成音の時間変動成分（Ｘ）とを処理して、前記目標合成音の特徴量の時系列を生成する第２生成部（２２）と、を具備する。

Description

情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置

　本開示は、音声または楽音等の音に関する特徴量の時系列を生成する技術に関する。

　歌唱音声または楽器の演奏音等の任意の音を合成する音合成技術が従来から提案されている。例えば非特許文献１には、合成音における音高の時系列をニューラルネットワークにより生成する技術が開示されている。音高の時系列を含む複数の訓練データを利用した機械学習により、音高を推定するための推定モデルが構築される。

Merlijn Blaauw, Jordi Bonada, "A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs," Applied Sciences 7(12):1313, 2017

　複数の訓練データの各々における音高の時系列には時間的に変動する動的成分（以下「時間変動成分」という）が含まれる。しかし、複数の訓練データを利用して構築される推定モデルにおいては、時間変動成分が抑制された音高の時系列が生成される傾向がある。したがって、時間変動成分を充分に含む高音質な合成音を生成するには限界がある。なお、以上の説明では音高の時系列を生成する場合に着目したが、音高以外の特徴量の時系列を生成する場面でも同様の課題が想定される。以上の事情を考慮して、本開示のひとつの態様は、特徴量の時系列が時間変動成分を適切に含む高音質な合成音を生成することを目的とする。

　以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、第１制御データに基づいて時間変動成分を出力するように訓練された第１推定モデルを用いて、合成されるべき目標合成音の第１制御データを処理して、前記目標合成音の時間変動成分を生成し、第２制御データと時間変動成分とに基づいて特徴量の時系列を出力するように訓練された第２推定モデルを用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とを処理して、前記目標合成音の特徴量の時系列を生成する。
　また、本開示のひとつの態様に係る推定モデル構築方法は、収録された音を示す参照信号から訓練用の特徴量の時系列と訓練用の時間変動成分の時系列を生成し、前記収録された音に対応する訓練用の第１制御データと前記訓練用の時間変動成分の時系列とを用いて、合成されるべき目標合成音の第１制御データを処理して前記目標合成音の時間変動成分を出力する第１推定モデルを機械学習により構築し、前記収録された音に対応する訓練用の第２制御データ、訓練用の時間変動成分の時系列、および訓練用の特徴量の時系列を用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とを処理して前記目標合成音の特徴量の時系列を出力する第２推定モデルを機械学習により構築する。

　本開示のひとつの態様に係る情報処理装置は、第１制御データに基づいて時間変動成分を出力するように訓練された第１推定モデルを用いて、合成されるべき目標合成音の第１制御データに基づき、前記目標合成音の時間変動成分を生成する第１生成部と、第２制御データと時間変動成分とに基づいて特徴量の時系列を出力するように訓練された第２推定モデルを用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて、前記目標合成音の特徴量の時系列を生成する第２生成部と、を具備する。本開示のひとつの態様に係る推定モデル構築装置は、収録された音を示す参照信号から訓練用の特徴量の時系列と訓練用の時間変動成分の時系列を生成する生成部と、前記収録された音に対応する訓練用の第１制御データと前記訓練用の時間変動成分の時系列とを用いて、合成されるべき目標合成音の第１制御データに基づいて前記目標合成音の時間変動成分を出力する第１推定モデルを機械学習により構築する第１訓練部と、前記収録された音に対応する訓練用の第２制御データ、訓練用の時間変動成分の時系列、および訓練用の特徴量の時系列を用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて前記目標合成音の特徴量の時系列を出力する第２推定モデルを機械学習により構築する第２訓練部と、を具備する。

音合成装置の構成を例示するブロック図である。記憶装置の模式図である。合成処理部の構成を例示するブロック図である。合成処理の具体的な手順を例示するフローチャートである。学習処理部の構成を例示するブロック図である。学習処理の具体的な手順を例示するフローチャートである。第２実施形態における合成処理部の構成を例示するブロック図である。第３実施形態における合成処理部の構成を例示するブロック図である。変形例における合成処理部の構成を例示するブロック図である。変形例における学習処理部の構成を例示するブロック図である。

Ａ：第１実施形態
　図１は、本開示の第１実施形態に係る音合成装置１００の構成を例示するブロック図である。音合成装置１００は、合成の目標となる任意の音響（以下「目標音」という）を生成する情報処理装置である。目標音は、例えば、歌唱者が楽曲を仮想的に歌唱することで発音される歌唱音声、または、演奏者が楽器により楽曲を仮想的に演奏することで発音される楽音である。目標音は、「合成されるべき音」の一例である。

　音合成装置１００は、制御装置１１と記憶装置１２と放音装置１３とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音合成装置１００として利用される。なお、相互に別体で構成された複数の装置の集合（すなわちシステム）により音合成装置１００を実現してもよい。

　制御装置１１は、音合成装置１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。具体的には、制御装置１１は、目標音の波形を表す時間領域の音響信号Ｖを生成する。

　放音装置１３は、制御装置１１が生成した音響信号Ｖが表す目標音を放音する。放音装置１３は、例えばスピーカまたはヘッドホンである。なお、音響信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器と、音響信号Ｖを増幅する増幅器とについては、図示が便宜的に省略されている。また、図１では、放音装置１３を音合成装置１００に搭載した構成を例示したが、音合成装置１００とは別体の放音装置１３を有線または無線により音合成装置１００に接続してもよい。

　記憶装置１２は、図２に例示される通り、制御装置１１が実行するプログラム（例えば音合成プログラムＧ1および機械学習プログラムＧ2）と制御装置１１が使用する各種のデータ（例えば楽曲データＤおよび参照データＱ）とを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、音合成装置１００に着脱可能な可搬型の記録媒体、または、音合成装置１００が通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。

　楽曲データＤは、楽曲を構成する音符の時系列（すなわち楽譜）を指定する。例えば、楽曲データＤは、発音単位毎に音高と発音期間とを指定する時系列データである。発音単位は、例えば１個の音符である。ただし、１個の音符を複数の発音単位に区分してもよい。なお、歌唱音声の合成に利用される楽曲データＤにおいては、発音単位毎に音韻（例えば発音文字）が指定される。

Ａ１：合成処理部２０
　制御装置１１は、音合成プログラムＧ1を実行することで図３の合成処理部２０として機能する。合成処理部２０は、楽曲データＤに応じた音響信号Ｖを生成する。合成処理部２０は、第１生成部２１と第２生成部２２と第３生成部２３と制御データ生成部２４と信号合成部２５とを具備する。

　制御データ生成部２４は、第１制御データＣ1と第２制御データＣ2と第３制御データＣ3とを楽曲データＤから生成する。各制御データＣ（Ｃ1，Ｃ2，Ｃ3）は、目標音に関する条件を指定するデータである。制御データ生成部２４は、時間軸上の単位期間（例えば所定長のフレーム）毎に各制御データＣを生成する。各単位期間の制御データＣは、例えば当該単位期間における音符の音高と、発音期間の開始または終了と、相前後する音符との関係（例えば音高差等のコンテキスト）とを指定する。制御データ生成部２４は、楽曲データＤと各制御データＣとの関係を機械学習により学習した深層ニューラルネットワーク等の推定モデルより構成される。

　第１生成部２１は、第１制御データＣ1に応じた時間変動成分Ｘを生成する。時間変動成分Ｘは単位期間毎に順次に生成される。すなわち、第１生成部２１は、第１制御データＣ1の時系列から時間変動成分Ｘの時系列を生成する。第１制御データＣ1は、時間変動成分Ｘの条件を指定するデータとも換言される。

　時間変動成分Ｘは、目標音の音高（基本周波数）Ｙの時系列において時間的に変動する動的成分である。音高Ｙの時系列において時間的な変動が緩慢である定常成分を想定すると、定常成分以外の動的成分が時間変動成分Ｘに相当する。例えば、時間変動成分Ｘは、音高Ｙの時系列において所定の周波数を上回る高域成分である。また、第１生成部２１は、音高Ｙの時系列に関する時間的な微分値を時間変動成分Ｘとして生成してもよい。時間変動成分Ｘの時系列は、例えばビブラート等の音楽表現としての変動と、歌唱音声または楽音に確率的に発生する変動（揺らぎ成分）との双方を含む。

　第１生成部２１による時間変動成分Ｘの生成には第１推定モデルＭ1が利用される。第１推定モデルＭ1は、第１制御データＣ1を入力として時間変動成分Ｘを出力する統計的モデルである。すなわち、第１推定モデルＭ1は、第１制御データＣ1と時間変動成分Ｘとの関係をよく学習した訓練済モデルである。

　第１推定モデルＭ1は、例えば深層ニューラルネットワークで構成される。具体的には、第１推定モデルＭ1は、各単位期間について生成した時間変動成分Ｘを、直後の単位期間における時間変動成分Ｘの生成のために入力層に回帰させる再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）である。ただし、畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）等の任意の種類のニューラルネットワークを第１推定モデルＭ1として利用してもよい。第１推定モデルＭ1は、長短期記憶（ＬＳＴＭ：Long Short-Term Memory）等の付加的な要素を具備してもよい。なお、第１推定モデルＭ1の出力段には、時間変動成分Ｘの確率分布を規定する出力層と、当該確率分布に従う乱数を時間変動成分Ｘとして生成（サンプリング）する抽出部とが設置される。

　第１推定モデルＭ1は、第１制御データＣ1から時間変動成分Ｘを生成する演算を制御装置１１に実行させる人工知能プログラムＡ1と、当該演算に適用される複数の変数Ｗ1（具体的には加重値およびバイアス）との組合せで実現される。人工知能プログラムＡ1と複数の変数Ｗ1とは記憶装置１２に記憶される。複数の変数Ｗ1の各々の数値は、機械学習により設定されている。

　第２生成部２２は、第２制御データＣ2と時間変動成分Ｘとに応じた音高Ｙを生成する。音高Ｙは単位期間毎に順次に生成される。すなわち、第２生成部２２は、第２制御データＣ2の時系列と時間変動成分Ｘの時系列とから音高Ｙの時系列を生成する。音高Ｙの時系列は、時間軸上で動的に変動する時間変動成分Ｘと、時間変動成分Ｘと比較して時間的な変動が緩慢である定常成分とを含むピッチカーブである。第２制御データＣ2は、音高Ｙの条件を指定するデータとも換言される。

　第２生成部２２による音高Ｙの生成には第２推定モデルＭ2が利用される。第２推定モデルＭ2は、第２制御データＣ2と時間変動成分Ｘとを入力として音高Ｙを出力する統計的モデルである。すなわち、第２推定モデルＭ2は、第２制御データＣ2および時間変動成分Ｘの組合せと音高Ｙとの関係をよく学習した訓練済モデルである。

　第２推定モデルＭ2は、例えば深層ニューラルネットワークで構成される。具体的には、第２推定モデルＭ2は、例えば畳込ニューラルネットワーク、再帰型ニューラルネットワーク等の何れかの種類のニューラルネットワークにより構成される。第２推定モデルＭ2は、長短期記憶等の付加的な要素を具備してもよい。なお、第２推定モデルＭ2の出力段には、音高Ｙの確率分布を規定する出力層と、当該確率分布に従う乱数を音高Ｙとして生成（サンプリング）する抽出部とが設置される。

　第２推定モデルＭ2は、第２制御データＣ2と時間変動成分Ｘとから音高Ｙを生成する演算を制御装置１１に実行させる人工知能プログラムＡ2と、当該演算に適用される複数の変数Ｗ2（具体的には加重値およびバイアス）との組合せで実現される。人工知能プログラムＡ2と複数の変数Ｗ2とは記憶装置１２に記憶される。複数の変数Ｗ2の各々の数値は、機械学習により設定されている。

　第３生成部２３は、第３制御データＣ3と音高Ｙとに応じた周波数特性Ｚを生成する。周波数特性Ｚは単位期間毎に順次に生成される。すなわち、第３生成部２３は、第３制御データＣ3の時系列と音高Ｙの時系列とから周波数特性Ｚの時系列を生成する。第１実施形態における周波数特性Ｚは、例えば目標音の振幅スペクトルである。第３制御データＣ3は、周波数特性Ｚの条件を指定するデータとも換言される。

　第３生成部２３による周波数特性Ｚの生成には第３推定モデルＭ3が利用される。第３推定モデルＭ3は、第３制御データＣ3と音高Ｙとに応じた周波数特性Ｚを生成する統計的モデルである。すなわち、第３推定モデルＭ3は、第３制御データＣ3および音高Ｙの組合せと周波数特性Ｚとの関係をよく学習した訓練済モデルである。

　第３推定モデルＭ3は、例えば深層ニューラルネットワークで構成される。具体的には、第３推定モデルＭ3は、例えば畳込ニューラルネットワーク、再帰型ニューラルネットワーク等の何れかの種類のニューラルネットワークにより構成される。第３推定モデルＭ3は、長短期記憶等の付加的な要素を具備してもよい。なお、第３推定モデルＭ3の出力段には、周波数特性Ｚを表す各成分（周波数ビン）の確率分布を規定する出力層と、当該確率分布に従う乱数を周波数特性Ｚとして生成（サンプリング）する抽出部とが設置される。

　第３推定モデルＭ3は、第３制御データＣ3と音高Ｙとから周波数特性Ｚを生成する演算を制御装置１１に実行させる人工知能プログラムＡ3と、当該演算に適用される複数の変数Ｗ3（具体的には加重値およびバイアス）との組合せで実現される。人工知能プログラムＡ3と複数の変数Ｗ3とは記憶装置１２に記憶される。複数の変数Ｗ3の各々の数値は、機械学習により設定されている。

　信号合成部２５は、第３生成部２３が生成する周波数特性Ｚの時系列から音響信号Ｖを生成する。具体的には、信号合成部２５は、例えば離散逆フーリエ変換を含む演算により周波数特性Ｚを時間波形に変換し、複数の単位期間にわたり時間波形を連結することで音響信号Ｖを生成する。音響信号Ｖは放音装置１３に供給される。
　なお、信号合成部２５は、機械学習により、周波数特性Ｚの時系列と音響信号Ｖとの間の潜在的な関係をよく学習した、所謂ニューラルボコーダを備えてもよい。信号合成部２５は、ニューラルボコーダを用いて、供給された周波数特性Ｚの時系列を処理して音響信号Ｖを生成する。

　図４は、制御装置１１（合成処理部２０）が音響信号Ｖを生成する処理（以下「合成処理」という）Ｓaの具体的な手順を例示するフローチャートである。例えば音合成装置１００に対する利用者からの指示を契機として合成処理Ｓaが開始される。合成処理Ｓaは単位期間毎に実行される。

　制御データ生成部２４は、楽曲データＤから制御データＣ（Ｃ1，Ｃ2，Ｃ3）を生成する（Ｓa1）。第１生成部２１は、第１制御データＣ1を第１推定モデルＭ1を用いて処理することで時間変動成分Ｘを生成する（Ｓa2）。第２生成部２２は、第２制御データＣ2と時間変動成分Ｘとを第２推定モデルＭ2を用いて処理することで音高Ｙを生成する（Ｓa3）。第３生成部２３は、第３制御データＣ3と音高Ｙとを第３推定モデルＭ3を用いて処理することで周波数特性Ｚを生成する（Ｓa4）。信号合成部２５は、周波数特性Ｚから音響信号Ｖを生成する（Ｓa5）。

　以上に説明した通り、第１実施形態においては、第１推定モデルＭ1により第１制御データＣ1に応じた時間変動成分Ｘが生成され、第２推定モデルＭ2により第２制御データＣ2と時間変動成分Ｘとに応じた音高Ｙが生成される。したがって、目標音を指定する制御データと音高Ｙとの関係を学習した単体の推定モデルを利用して制御データに応じた音高Ｙを生成する構成（以下「対比例」という）と比較して、時間変動成分Ｘを豊富に含む音高Ｙの時系列を生成できる。以上の構成によれば、聴感的に自然な時間変動成分Ｘを豊富に含む目標音を生成できる。

Ａ２：学習処理部３０
　制御装置１１は、機械学習プログラムＧ2を実行することで図５の学習処理部３０として機能する。学習処理部３０は、第１推定モデルＭ1と第２推定モデルＭ2と第３推定モデルＭ3とを機械学習により構築する。具体的には、学習処理部３０は、第１推定モデルＭ1における複数の変数Ｗ1の各々の数値と、第２推定モデルＭ2における複数の変数Ｗ2の各々の数値と、第３推定モデルＭ3における複数の変数Ｗ3の各々の数値とを設定する。

　記憶装置１２は、複数の参照データＱを記憶する。複数の参照データＱの各々は、楽曲データＤと参照信号Ｒとを相互に対応させたデータである。楽曲データＤは、楽曲を構成する音符の時系列を指定する。各参照データＱの参照信号Ｒは、当該参照データＱの楽曲データＤが表す楽曲の歌唱または演奏により発音される音の波形を表す。特定の歌唱者が歌唱した音声または特定の演奏者が演奏した楽音が事前に収録され、当該音声または当該楽音を表す参照信号Ｒが楽曲データＤとともに記憶装置１２に記憶される。なお、多数の歌唱者の音声または多数の演奏者の楽音から参照信号Ｒを生成してもよい。

　学習処理部３０は、第１訓練部３１と第２訓練部３２と第３訓練部３３と訓練データ準備部３４とを具備する。訓練データ準備部３４は、複数の第１訓練データＴ1と複数の第２訓練データＴ2と複数の第３訓練データＴ3とを準備する。複数の第１訓練データＴ1の各々は、第１制御データＣ1と時間変動成分Ｘとを相互に対応させた既知データである。複数の第２訓練データＴ2の各々は、第２制御データＣ2および時間変動成分Ｘaの組合せと音高Ｙとを相互に対応させた既知データである。時間変動成分Ｘaは、時間変動成分Ｘに対して雑音成分を付加した成分である。複数の第３訓練データＴ3の各々は、第３制御データＣ3および音高Ｙの組合せと周波数特性Ｚとを相互に対応させた既知データである。

　訓練データ準備部３４は、制御データ生成部３４１と周波数解析部３４２と変動抽出部３４３と雑音付与部３４４とを具備する。制御データ生成部３４１は、各参照データＱの楽曲データＤから単位期間毎に制御データＣ（Ｃ1，Ｃ2，Ｃ3）を生成する。制御データ生成部３４１の構成および動作は、前述の制御データ生成部２４と同様である。

　周波数解析部３４２は、各参照データＱの参照信号Ｒから音高Ｙと周波数特性Ｚとを生成する。単位期間毎に音高Ｙと周波数特性Ｚとが生成される。すなわち、周波数解析部３４２は、参照信号Ｒの音高Ｙの時系列と周波数特性Ｚの時系列とを生成する。参照信号Ｒの音高Ｙおよび周波数特性Ｚの生成には、離散フーリエ変換等の公知の解析技術が任意に採用される。

　変動抽出部３４３は、音高Ｙから時間変動成分Ｘを生成する。単位期間毎に時間変動成分Ｘが生成される。すなわち、変動抽出部３４３は、音高Ｙの時系列から時間変動成分Ｘの時系列を生成する。具体的には、変動抽出部３４３は、音高Ｙの時系列における微分値を時間変動成分Ｘとして算定する。なお、所定の周波数を上回る高域成分を時間変動成分Ｘとして抽出するフィルタ（高域通過フィルタ）を変動抽出部３４３として採用してもよい。

　雑音付与部３４４は、時間変動成分Ｘの時系列に対して雑音成分を付与することで時間変動成分Ｘaを生成する。具体的には、雑音付与部３４４は、例えば正規分布等の所定の確率分布に従う乱数を雑音成分として時間変動成分Ｘの時系列に付与する。なお、時間変動成分Ｘの時系列に雑音成分を付与しない構成では、各参照信号Ｒにおける音高Ｙの変動成分を過剰に反映した時間変動成分Ｘが第１推定モデルＭ1により推定されるという傾向がある。第１実施形態においては、時間変動成分Ｘに雑音成分が付与（すなわち正則化）されるから、参照信号Ｒにおける音高Ｙの変動成分の傾向を適度に反映した時間変動成分Ｘを第１推定モデルＭ1により推定できるという利点がある。ただし、参照信号Ｒの過度な反映が特段の問題とならない場合には、雑音付与部３４４を省略してもよい。

　第１制御データＣ1と時間変動成分Ｘ（正解値）とを対応させた第１訓練データＴ1が第１訓練部３１に供給される。第２制御データＣ2および時間変動成分Ｘの組合せと音高Ｙ（正解値）とを対応させた第２訓練データＴ2が第２訓練部３２に供給される。第３制御データＣ3および音高Ｙの組合せと周波数特性Ｚ（正解値）とを対応させた第３訓練データＴ3が第３訓練部３３に供給される。

　第１訓練部３１は、複数の第１訓練データＴ1を利用した教師あり機械学習により第１推定モデルＭ1を構築する。具体的には、第１訓練部３１は、各第１訓練データＴ1の第１制御データＣ1を供給した場合に暫定的な第１推定モデルＭ1が生成する時間変動成分Ｘと、当該第１訓練データＴ1の時間変動成分Ｘとの誤差が低減されるように、第１推定モデルＭ1に関する複数の変数Ｗ1の更新を反復する。したがって、第１推定モデルＭ1は、複数の第１訓練データＴ1における第１制御データＣ1と時間変動成分Ｘとの間に潜在する関係を学習する。すなわち、第１訓練部３１による訓練後の第１推定モデルＭ1は、未知の第１制御データＣ1に対して当該関係のもとで統計的に妥当な時間変動成分Ｘを出力する。

　第２訓練部３２は、複数の第２訓練データＴ2を利用した教師あり機械学習により第２推定モデルＭ2を構築する。具体的には、第２訓練部３２は、各第２訓練データＴ2の第２制御データＣ2および時間変動成分Ｘを供給した場合に暫定的な第２推定モデルＭ2が生成する音高Ｙと、当該第２訓練データＴ2の音高Ｙとの誤差が低減されるように、第２推定モデルＭ2に関する複数の変数Ｗ2の更新を反復する。したがって、第２推定モデルＭ2は、複数の第２訓練データＴ2における第２制御データＣ2および時間変動成分Ｘの組合せと音高Ｙとの間に潜在する関係を学習する。すなわち、第２訓練部３２による訓練後の第２推定モデルＭ2は、未知の第２制御データＣ2および時間変動成分Ｘの組合せに対して当該関係のもとで統計的に妥当な音高Ｙを出力する。

　第３訓練部３３は、複数の第３訓練データＴ3を利用した教師あり機械学習により第３推定モデルＭ3を構築する。具体的には、第３訓練部３３は、各第３訓練データＴ3の第３制御データＣ3および音高Ｙを供給した場合に暫定的な第３推定モデルＭ3が生成する周波数特性Ｚと、当該第３訓練データＴ3の周波数特性Ｚとの誤差が低減されるように、第３推定モデルＭ3に関する複数の変数Ｗ3の更新を反復する。したがって、第３推定モデルＭ3は、複数の第３訓練データＴ3における第３制御データＣ3および音高Ｙの組合せと周波数特性Ｚとの間に潜在する関係を学習する。すなわち、第３訓練部３３による訓練後の第３推定モデルＭ3は、未知の第３制御データＣ3および音高Ｙの組合せに対して当該関係のもとで統計的に妥当な周波数特性Ｚを出力する。

　図６は、制御装置１１（学習処理部３０）が推定モデルＭ（Ｍ1，Ｍ2，Ｍ3）を訓練する処理（以下「学習処理」という）Ｓbの具体的な手順を例示するフローチャートである。例えば音合成装置１００に対する利用者からの指示を契機として学習処理Ｓbが開始される。学習処理Ｓbは単位期間毎に実行される。

　訓練データ準備部３４は、第１訓練データＴ1と第２訓練データＴ2と第３訓練データＴ3とを参照データＱから生成する（Ｓb1）。具体的には、制御データ生成部３４１は、第１制御データＣ1と第２制御データＣ2と第３制御データＣ3とを楽曲データＤから生成する（Ｓb11）。周波数解析部３４２は、参照信号Ｒから音高Ｙと周波数特性Ｚとを生成する（Ｓb12）。変動抽出部３４３は、音高Ｙの時系列から時間変動成分Ｘを生成する（Ｓb13）。雑音付与部３４４は、時間変動成分Ｘに雑音成分を付与することで時間変動成分Ｘaを生成する（Ｓb14）。以上の処理により、第１訓練データＴ1と第２訓練データＴ2と第３訓練データＴ3とが生成される。なお、各制御データＣの生成（Ｓb11）と参照信号Ｒに関する処理（Ｓb12－Ｓb14）との順番を逆転してもよい。

　第１訓練部３１は、第１訓練データＴ1を利用した機械学習により第１推定モデルＭ1の複数の変数Ｗ1を更新する（Ｓb2）。第２訓練部３２は、第２訓練データＴ2を利用した機械学習により第２推定モデルＭ2の複数の変数Ｗ2を更新する（Ｓb3）。第３訓練部３３は、第３訓練データＴ3を利用した機械学習により第３推定モデルＭ3の複数の変数Ｗ3を更新する（Ｓb4）。以上に説明した学習処理Ｓbが反復されることで、第１推定モデルＭ1と第２推定モデルＭ2と第３推定モデルＭ3とが構築される。

　ところで、目標音の条件を指定する制御データと音高Ｙとの関係を学習した単体の推定モデルを利用する前述の対比例においては、制御データと参照信号Ｒの音高Ｙとを対応させた訓練データを利用した機械学習により当該推定モデルが構築される。各参照信号Ｒにおける変動成分の位相は相違するから、対比例においては、複数の参照信号Ｒにわたり変動成分が平均化された音高Ｙが学習される。したがって、例えば１個の音符の発音期間内においては音高Ｙが定常的に推移するという傾向がある。以上の説明から理解される通り、対比例においては、例えばビブラート等の音楽表現または確率的な揺らぎ成分等の動的な変動成分を豊富に含む目標音を生成すことは困難である。

　以上に説明した対比例とは対照的に、第１実施形態においては、第１制御データＣ1と時間変動成分Ｘとを含む第１訓練データＴ1により第１推定モデルＭ1が構築され、第２制御データＣ2および時間変動成分Ｘの組合せと音高Ｙとを含む第２訓練データＴ2により第２推定モデルＭ2が構築される。以上の構成によれば、時間変動成分Ｘの傾向と音高Ｙの傾向とが別個の推定モデルに反映されるから、各参照信号Ｒにおける動的な変動成分の傾向を適切に反映した時間変動成分Ｘが第１推定モデルＭ1により生成される。したがって、対比例と比較して、時間変動成分Ｘを豊富に含む音高Ｙの時系列を生成できる。すなわち、聴感的に自然な時間変動成分Ｘを豊富に含む目標音を生成できる。

Ｂ：第２実施形態
　第２実施形態について説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図７は、第２実施形態における合成処理部２０の構成を例示するブロック図である。第２実施形態の合成処理部２０においては、第２生成部２２が生成した音高Ｙの時系列が信号合成部２５に供給される。また、第２実施形態における周波数特性Ｚは、振幅スペクトルの概形を表す振幅スペクトル包絡である。振幅スペクトル包絡は、例えばメルスペクトルまたはメルケプストラムにより表現される。信号合成部２５は、周波数特性Ｚの時系列と音高Ｙの時系列とから音響信号Ｖを生成する。具体的には、信号合成部２５は、第１に、音高Ｙに対応する基音成分と複数の倍音成分とを含む調波構造のスペクトルを生成する。第２に、信号合成部２５は、当該スペクトルの基音成分および各倍音成分のピークの強度を、周波数特性Ｚが表すスペクトル包絡に整合するように調整する。第３に、信号合成部２５は、調整後のスペクトルを時間波形に変換し、複数の単位期間にわたり時間波形を連結することで音響信号Ｖを生成する。
　なお、信号合成部２５は、機械学習により、周波数特性Ｚの時系列および音高Ｙの時系列と、音響信号Ｖとの間の潜在的な関係を習得した、所謂ニューラルボコーダを備えてもよい。信号合成部２５は、ニューラルボコーダを用いて、供給された音高Ｙの時系列と振幅スペクトル包絡とを処理して、音響信号Ｖを生成する。

　信号合成部２５以外の要素に関する構成および動作は第１実施形態と同様である。したがって、第２実施形態においても第１実施形態と同様の効果が実現される。

Ｃ：第３実施形態
　図８は、第３実施形態における合成処理部２０の構成を例示するブロック図である。第３実施形態の合成処理部２０においては、第１実施形態における第３生成部２３および信号合成部２５が音源部２６に置換される。

　音源部２６は、第３制御データＣ3と音高Ｙとに応じた音響信号Ｖを生成する音源である。音源部２６が音響信号Ｖの生成に適用する各種の音源パラメータＰは記憶装置１２に記憶される。音源部２６は、音源パラメータＰを適用した音源処理により、第３制御データＣ3と音高Ｙとに応じた音響信号Ｖを生成する。例えばＦＭ（Frequency Modulation）音源等の各種の音源が音源部２６として利用される。米国特許第７６２６１１３号または特許第４２１８６２４号に記載された音源が音源部２６として利用される。なお、音源部２６は、制御装置１１がプログラムを実行することで実現されるほか、音響信号Ｖの生成に専用される電子回路でも実現される。

　第１生成部２１および第２生成部２２の構成および動作は第１実施形態と同様である。第１推定モデルＭ1および第２推定モデルＭ2の構成および動作も第１実施形態と同様である。したがって、第３実施形態においても第１実施形態と同様の効果が実現される。第３実施形態の例示から理解される通り、第１実施形態または第２実施形態における第３生成部２３および第３推定モデルＭ3は省略され得る。

＜変形例＞
　以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、第１制御データＣ1と第２制御データＣ2と第３制御データＣ3とを個別のデータとして例示したが、第１制御データＣ1と第２制御データＣ2と第３制御データＣ3とは共通のデータでもよい。また、第１制御データＣ1と第２制御データＣ2と第３制御データＣ3とのうちの２つを共通のデータとしてもよい。

　例えば、図９に例示される通り、制御データ生成部２４が生成した制御データＣを、第１生成部２１に第１制御データＣ1として供給し、第２生成部２２に第２制御データＣ2として供給し、第３生成部２３に第３制御データＣ3として供給してもよい。なお、図９においては第１実施形態を基礎とした変形例が図示されているが、第１制御データＣ1と第２制御データＣ2と第３制御データＣ3とを共通させる構成は、第２実施形態または第３実施形態においても同様に適用される。

　また、図１０に例示される通り、制御データ生成部３４１が生成した制御データＣを、第１訓練部３１に第１制御データＣ1として供給し、第２訓練部３２に第２制御データＣ2として供給し、第３訓練部３３に第３制御データＣ3として供給してもよい。

（２）前述の各形態では、第２推定モデルＭ2が音高Ｙを生成したが、第２推定モデルＭ2が生成する特徴量は音高Ｙに限定されない。例えば、第２推定モデルＭ2が目標音の音量を生成し、当該音量の時系列における時間変動成分Ｘを第１推定モデルＭ1が生成してもよい。第２訓練データＴ2および第３訓練データＴ3には、前述の各形態における音高Ｙに代えて参照信号Ｒの音量が含まれ、第１訓練データＴ1には、音量に関する時間変動成分Ｘが含まれる。

　また、例えば第２推定モデルＭ2が目標音の音色を表す特徴量（例えばメルケプストラム）を生成し、当該特徴量の時系列における時間変動成分Ｘを第１推定モデルＭ1が生成してもよい。第２訓練データＴ2および第３訓練データＴ3には、前述の各形態における音高Ｙに代えて音色の特徴量が含まれ、第１訓練データＴ1には、音色の特徴量に関する時間変動成分Ｘが含まれる。以上の説明から理解される通り、特徴量は、音響の特徴を表す任意の種類の物理量として包括的に表現され、音高Ｙと音量と音色とは特徴量の例示である。

（３）前述の各形態においては、音高Ｙの時間変動成分Ｘから当該音高Ｙを生成したが、第１生成部２１が生成する時間変動成分Ｘが表す特徴量と、第２生成部２２が生成する特徴量とは別種の特徴量でもよい。例えば、目標音における音高Ｙの時間変動成分は、当該目標音の音量の時間変動成分に相関するという傾向が想定される。以上の傾向を考慮すると、第１生成部２１が第１推定モデルＭ1により生成する時間変動成分Ｘは、音量の時間変動成分でもよい。第２生成部２２は、第２制御データＣ2と音量の時間変動成分Ｘとを第１推定モデルＭ1に入力することで音高Ｙの時系列を生成する。第１訓練データＴ1は、第１制御データＣ1と音量の時間変動成分Ｘとを含む。第２訓練データＴ2は、第２制御データＣ2および音量の時間変動成分Ｘaの組合せと音高Ｙとを相互に対応させた既知データである。以上の例示から理解される通り、第１生成部２１は、第１制御データＣ1を入力として時間変動成分Ｘを出力するようによく訓練された第１推定モデルＭ1に、目標音の第１制御データＣ1を入力する要素として包括的に表現され、時間変動成分Ｘが表す特徴量は、第２生成部２２が生成する特徴量に相関する任意の種類の特徴量である。

（４）前述の各形態においては、合成処理部２０および学習処理部３０の双方を具備する音合成装置１００を例示したが、音合成装置１００から学習処理部３０を省略してもよい。また、学習処理部３０を具備する推定モデル構築装置としても本開示は特定される。推定モデル構築装置は、機械学習により推定モデルを構築する機械学習装置とも換言される。推定モデル構築装置において合成処理部２０の有無は不問であり、音合成装置１００において学習処理部３０の有無は不問である。

（５）携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により音合成装置１００を実現してもよい。例えば、音合成装置１００は、端末装置から受信した楽曲データＤに応じた音響信号Ｖを生成し、当該音響信号Ｖを端末装置に送信する。端末装置から制御データＣ（Ｃ1，Ｃ2，Ｃ3）が送信される構成では、音合成装置１００から制御データ生成部２４が省略される。

（６）以上に例示した音合成装置１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと記憶装置１２に記憶されたプログラム（例えば音合成プログラムＧ1および機械学習プログラムＧ2）との協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

（７）推定モデルＭ（Ｍ1，Ｍ2，Ｍ3）を実現するための人工知能ソフトウェアの実行主体はＣＰＵに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるＤＳＰ（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

＜付記＞
　以上に例示した形態から、例えば以下の構成が把握される。

　本開示のひとつの態様（態様１）に係る情報処理方法は、第１制御データに基づいて時間変動成分を出力するようによく訓練された第１推定モデルを用いて、合成されるべき目標合成音の第１制御データを処理して、前記目標合成音の時間変動成分を生成し、第２制御データと時間変動成分とに基づいて特徴量の時系列を出力するようによく訓練された第２推定モデルを用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とを処理して、前記目標合成音の特徴量の時系列を生成する。以上の態様では、第１推定モデルを利用して第１制御データに応じた時間変動成分が生成され、第２推定モデルを利用して第２制御データと時間変動成分とに応じた特徴量の時系列が生成される。したがって、制御データと特徴量との関係を学習した単体の推定モデルを利用する場合と比較して、時間変動成分を豊富に含む特徴量の時系列を生成できる。

　なお、「時間変動成分」は、合成されるべき目標合成音において時間的に変動する動的成分である。特徴量の時系列において時間的に変動する成分が「時間変動成分」に相当するが、当該特徴量とは別種の特徴量の時系列において時間的に変動する成分も「時間変動成分」の概念に包含される。例えば、特徴量の時系列において時間的な変動が緩慢である定常成分を想定すると、定常成分以外の動的成分が時間変動成分に相当する。第１制御データと第２制御データとの異同は不問である。
　例えば、前記特徴量の時系列は、前記目標合成音の音高、音量および音色の少なくとも一つを示す。

　態様１の具体例（態様２）において、前記時間変動成分の生成においては、前記目標合成音の特徴量の時系列に関する時間変動成分を生成する。以上の態様では、第１推定モデルにより生成される時間変動成分が表す特徴量と第２推定モデルにより生成される特徴量とが同種の特徴量であるから、第２推定モデルにより生成される特徴量とは別種の特徴量の時間変動成分を第１推定モデルにより生成する場合と比較して、聴感的に自然に変動する特徴量の時系列を生成できる。

　態様２の具体例（態様３）において、前記時間変動成分は、前記特徴量の時系列に関する微分値である。態様２の他の具体例（態様４）において、前記時間変動成分は、前記特徴量の時系列において所定の周波数を上回る成分である。

　態様１から態様３の何れかの具体例（態様５）において、第３制御データと特徴量の時系列とに基づいて周波数特性を出力するようによく訓練された第３推定モデルを用いて、前記目標合成音の第３制御データと前記目標合成音の特徴量の時系列とを処理して前記目標合成音の周波数特性を生成する。第３制御データと第１制御データまたは第２制御データとの異同は不問である。
　例えば、前記目標合成音の周波数特性は、前記目標合成音の周波数スペクトル又は前記目標合成音の振幅スペクトル包絡である。
　例えば、前記情報処理方法は、前記目標合成音の周波数特性に基づき音響信号を生成する。

　本開示のひとつの態様（態様６）に係る推定モデル構築方法は、収録された音を示す参照信号から訓練用の特徴量の時系列と訓練用の時間変動成分の時系列を生成し、前記収録された音に対応する訓練用の第１制御データと前記訓練用の時間変動成分の時系列とを用いて、合成されるべき目標合成音の第１制御データを処理して前記目標合成音の時間変動成分を出力する第１推定モデルを機械学習により構築し、前記収録された音に対応する訓練用の第２制御データ、訓練用の時間変動成分の時系列、および訓練用の特徴量の時系列を用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とを処理して前記目標合成音の特徴量の時系列を出力する第２推定モデルを機械学習により構築する。以上の態様においては、第１制御データを処理して時間変動成分を出力する第１推定モデルと、第２制御データと当該時間変動成分とを処理して特徴量の時系列を出力する第２推定モデルとが構築される。したがって、制御データと特徴量との関係を学習した単体の推定モデルを構築する場合と比較して、時間変動成分を豊富に含む特徴量の時系列を生成できる。

　態様７に係る情報処理装置は、第１制御データに基づいて時間変動成分を出力するようによく訓練された第１推定モデルを用いて、合成されるべき目標合成音の第１制御データに基づき、前記目標合成音の時間変動成分を生成する第１生成部と、第２制御データと時間変動成分とに基づいて特徴量の時系列を出力するようによく訓練された第２推定モデルを用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて、前記目標合成音の特徴量の時系列を生成する第２生成部と、を具備する。

　態様８に係る推定モデル構築装置は、収録された音を示す参照信号から訓練用の特徴量の時系列と訓練用の時間変動成分の時系列を生成する生成部と、前記収録された音に対応する訓練用の第１制御データと前記訓練用の時間変動成分の時系列とを用いて、合成されるべき目標合成音の第１制御データに基づいて前記目標合成音の時間変動成分を出力する第１推定モデルを機械学習により構築する第１訓練部と、前記収録された音に対応する訓練用の第２制御データ、訓練用の時間変動成分の時系列、および訓練用の特徴量の時系列を用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて前記目標合成音の特徴量の時系列を出力する第２推定モデルを機械学習により構築する第２訓練部と、を具備する。

　態様９に係るプログラムは、第１制御データに基づいて時間変動成分を出力するようによく訓練された第１推定モデルを用いて、合成されるべき目標合成音の第１制御データに基づき、前記目標合成音の時間変動成分を生成する第１生成部、及び第２制御データと時間変動成分とに基づいて特徴量の時系列を出力するようによく訓練された第２推定モデルを用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて、前記目標合成音の特徴量の時系列を生成する第２生成部としてコンピュータを機能させる。

　態様１０に係るプログラムは、収録された音を示す参照信号から訓練用の特徴量の時系列と訓練用の時間変動成分の時系列を生成する生成部、前記収録された音に対応する訓練用の第１制御データと前記訓練用の時間変動成分の時系列とを用いて、合成されるべき目標合成音の第１制御データに基づいて前記目標合成音の時間変動成分を出力する第１推定モデルを機械学習により構築する第１訓練部、および、前記収録された音に対応する訓練用の第２制御データ、訓練用の時間変動成分の時系列、および訓練用の特徴量の時系列を用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて前記目標合成音の特徴量の時系列を出力する第２推定モデルを機械学習により構築する第２訓練部としてコンピュータを機能させる。

　本出願は、2019年9月26日出願の日本出願（特願2019-175436）に基づくものであり、その内容はここに参照として取り込まれる。

　本開示の情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置は、特徴量の時系列が時間変動成分を適切に含む高音質な合成音を生成することができる。

　１００…音合成装置
　１１…制御装置
　１２…記憶装置
　１３…放音装置
　２０…合成処理部
　２１…第１生成部
　２２…第２生成部
　２３…第３生成部
　２４…制御データ生成部
　２５…信号合成部
　２６…音源部
　３０…学習処理部
　３１…第１訓練部
　３２…第２訓練部
　３３…第３訓練部
　３４…訓練データ準備部
　３４１…制御データ生成部
　３４２…周波数解析部
　３４３…変動抽出部
　３４４…雑音付与部
　Ｍ1…第１推定モデル
　Ｍ2…第２推定モデル
　Ｍ3…第３推定モデル

Claims

　第１制御データに基づいて時間変動成分を出力するように訓練された第１推定モデルを用いて、合成されるべき目標合成音の第１制御データを処理して、前記目標合成音の時間変動成分を生成し、
　第２制御データと時間変動成分とに基づいて特徴量の時系列を出力するように訓練された第２推定モデルを用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とを処理して、前記目標合成音の特徴量の時系列を生成する、
　情報処理方法。
　前記特徴量の時系列は、前記目標合成音の音高、音量および音色の少なくとも一つを示す、
　請求項１に記載の情報処理方法。
　前記時間変動成分の生成においては、前記目標合成音の特徴量の時系列に関する時間変動成分を生成する、
　請求項１又は２に記載の情報処理方法。
　前記時間変動成分は、前記特徴量の時系列に関する微分値である、
　請求項３に記載の情報処理方法。
　前記時間変動成分は、前記特徴量の時系列において所定の周波数を上回る成分である、
　請求項３に記載の情報処理方法。
　第３制御データと特徴量の時系列とに基づいて周波数特性を出力するように訓練された第３推定モデルを用いて、前記目標合成音の第３制御データと前記目標合成音の特徴量の時系列とを処理して前記目標合成音の周波数特性を生成する、
　請求項１から請求項５の何れかに記載の情報処理方法。
　前記目標合成音の周波数特性は、前記目標合成音の周波数スペクトル又は前記目標合成音の振幅スペクトル包絡である、
　請求項６に記載の情報処理方法。
　前記目標合成音の周波数特性に基づき音響信号を生成する、
　請求項６又は７に記載の情報処理方法。
　収録された音を示す参照信号から訓練用の特徴量の時系列と訓練用の時間変動成分の時系列を生成し、
　前記収録された音に対応する訓練用の第１制御データと前記訓練用の時間変動成分の時系列とを用いて、合成されるべき目標合成音の第１制御データを処理して前記目標合成音の時間変動成分を出力する第１推定モデルを機械学習により構築し、
　前記収録された音に対応する訓練用の第２制御データ、訓練用の時間変動成分の時系列、および訓練用の特徴量の時系列を用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とを処理して前記目標合成音の特徴量の時系列を出力する第２推定モデルを機械学習により構築する、
　推定モデル構築方法。
　第１制御データに基づいて時間変動成分を出力するように訓練された第１推定モデルを用いて、合成されるべき目標合成音の第１制御データに基づき、前記目標合成音の時間変動成分を生成する第１生成部と、
　第２制御データと時間変動成分とに基づいて特徴量の時系列を出力するように訓練された第２推定モデルを用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて、前記目標合成音の特徴量の時系列を生成する第２生成部と、
　を具備する情報処理装置。
　収録された音を示す参照信号から訓練用の特徴量の時系列と訓練用の時間変動成分の時系列を生成する生成部と、
　前記収録された音に対応する訓練用の第１制御データと前記訓練用の時間変動成分の時系列とを用いて、合成されるべき目標合成音の第１制御データに基づいて前記目標合成音の時間変動成分を出力する第１推定モデルを機械学習により構築する第１訓練部と、
　前記収録された音に対応する訓練用の第２制御データ、訓練用の時間変動成分の時系列、および訓練用の特徴量の時系列を用いて、前記目標合成音の第２制御データと前記目標合成音の時間変動成分とに基づいて前記目標合成音の特徴量の時系列を出力する第２推定モデルを機械学習により構築する第２訓練部と、
　を具備する推定モデル構築装置。