WO2022172576A1

WO2022172576A1 - 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Info

Publication number: WO2022172576A1
Application number: PCT/JP2021/045962
Authority: WO
Inventors: 慶二郎才野; 竜之介大道; ボナダジョルディ; ブラアウメルレイン
Original assignee: ヤマハ株式会社
Priority date: 2021-02-10
Filing date: 2021-12-14
Publication date: 2022-08-18
Also published as: CN116830189A; US20230386440A1; JP2022122706A

Abstract

音楽的な特徴量が時間的に変化する第１の特徴量列の入力が受付部により受け付けられる。訓練済モデルを用いて、第１の特徴量列を処理して、特徴量が第２の精細度で変化する第２の特徴量列に対応する音データ列が生成部により生成される。訓練済モデルは、特徴量が第１の精細度で時間的に変化する入力特徴量列と、特徴量が第１の精細度よりも高い第２の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した機械学習モデルである。

Description

機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

　本発明は、音を生成することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムに関する。

　使用者により指定された音量の時系列に基づいて音声信号を生成するアプリケーションが知られている。例えば、非特許文献１に記載されたアプリケーションにおいては、使用者による入力音から基本周波数、隠れ変数およびラウドネスが特徴量として抽出される。抽出された特徴量にスペクトラルモデリング合成が行われることにより、音声信号が生成される。

Jesse Engel, Lamtharn Hantrakul, Chenjie Gu and Adam Roberts, "DDSP: Differentiable Digital Signal Processing", arXiv:2001.04643v1 [cs.LG] 14 Jan 2020

　非特許文献１記載のアプリケーションを用いて、人の歌唱または演奏のように自然に変化する音声を示す音声信号を生成するには、使用者は、振幅、音量、ピッチ、音色（Timbre）などのいずれかの音楽的な特徴量の時系列を詳細に指定する必要がある。しかしながら、振幅、音量、ピッチ、音色などのいずれかの音楽的な特徴量の時系列を詳細に指定することは容易ではない。

　本発明の目的は、自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供することである。

　本発明の一局面に従う音生成方法は、音楽的な特徴量が時間的に変化する第１の特徴量列を受け付け、音楽的な特徴量が第１の精細度で時間的に変化する入力特徴量列と、音楽的な特徴量が第１の精細度よりも高い第２の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、第１の特徴量列を処理して、音楽的な特徴量が第２の精細度で変化する第２の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。なお、「音楽的な特徴量」との語は、特徴量が音楽的な種別（例えば、振幅、ピッチ、音色など）であることを示す。第１の特徴量列、入力特徴量列、出力特徴量列、および第２の特徴量列は、いずれも、「音楽的な特徴量（特徴量）」の時系列データの一例である。すなわち、第１の特徴量列、入力特徴量列、出力特徴量列、および第２の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。

　本発明の他の局面に従う訓練方法は、音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から、音楽的な特徴量が所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。

　本発明のさらに他の局面に従う音生成装置は、音楽的な特徴量が時間的に変化する第１の特徴量列を受け付ける受付部と、音楽的な特徴量が第１の精細度で時間的に変化する入力特徴量列と、音楽的な特徴量が第１の精細度よりも高い第２の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、第１の特徴量列を処理して、音楽的な特徴量が第２の精細度で変化する第２の特徴量列に対応する音データ列を生成する生成部とを備える。

　本発明のさらに他の局面に従う訓練装置は、音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、出力特徴量列から、音楽的な特徴量が所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成する生成部と、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える。

　本発明によれば、自然な音声を容易に取得することができる。

本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。音生成装置の構成を示すブロック図である。音生成装置の動作例を説明するための図である。音生成装置の動作例を説明するための図である。音生成装置の他の動作例を説明するための図である。訓練装置の構成を示すブロック図である。訓練装置の動作例を説明するための図である。図２の音生成装置による音生成処理の一例を示すフローチャートである。図６の訓練装置による訓練処理の一例を示すフローチャートである。第２実施形態における受付画面の一例を示す図である。

　（１）処理システムの構成
　以下、本発明の第１実施形態に係る音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムについて図面を用いて詳細に説明する。図１は、本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。図１に示すように、処理システム１００は、ＲＡＭ（ランダムアクセスメモリ）１１０、ＲＯＭ（リードオンリメモリ）１２０、ＣＰＵ（中央演算処理装置）１３０、記憶部１４０、操作部１５０および表示部１６０を備える。中央演算処理装置としてＣＰＵ１３０は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＳＩＣ、ＦＰＧＡ、ＤＳＰ及び汎用コンピュータのうちの１つ以上であってもよいし、それらのうちの１又は複数を含んでもよい。

　処理システム１００は、例えばＰＣ、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム１００は、イーサネット等の通信路で接続された複数のコンピュータの共同動作で実現されてもよい。ＲＡＭ１１０、ＲＯＭ１２０、ＣＰＵ１３０、記憶部１４０、操作部１５０および表示部１６０は、バス１７０に接続される。ＲＡＭ１１０、ＲＯＭ１２０およびＣＰＵ１３０により音生成装置１０および訓練装置２０が構成される。本実施形態では、音生成装置１０と訓練装置２０とは共通の処理システム１００により構成されるが、別個の処理システムにより構成されてもよい。

　ＲＡＭ１１０は、例えば揮発性メモリからなり、ＣＰＵ１３０の作業領域として用いられる。ＲＯＭ１２０は、例えば不揮発性メモリからなり、音生成プログラムおよび訓練プログラムを記憶する。ＣＰＵ１３０は、ＲＯＭ１２０に記憶された音生成プログラムをＲＡＭ１１０上で実行することにより音生成処理を行う。また、ＣＰＵ１３０は、ＲＯＭ１２０に記憶された訓練プログラムをＲＡＭ１１０上で実行することにより訓練処理を行う。音生成処理および訓練処理の詳細については後述する。

　音生成プログラムまたは訓練プログラムは、ＲＯＭ１２０ではなく記憶部１４０に記憶されてもよい。あるいは、音生成プログラムまたは訓練プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ＲＯＭ１２０または記憶部１４０にインストールされてもよい。あるいは、処理システム１００がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ（クラウドサーバを含む。）から配信された音生成プログラムがＲＯＭ１２０または記憶部１４０にインストールされてもよい。

　記憶部１４０は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶部１４０には、訓練済モデルＭ、結果データＤ１、複数の参照データＤ２、複数の楽譜データＤ３および複数の参照楽譜データＤ４が記憶される。複数の参照データＤ２と、複数の参照楽譜データＤ４とは、それぞれ対応する。参照データＤ２（音データ）と参照楽譜データＤ４（楽譜データ）とが「対応する」とは、例えば、参照楽譜データＤ４によって示される楽譜の示す楽曲の各音符（および音韻）と、参照データＤ２によって示される波形データの示す楽曲の各音符（および音韻）とが、その演奏タイミング、演奏強度、演奏表現などを含めて相互に同じであることをいう。訓練済モデルＭは、楽譜データＤ３の楽譜特徴量列と制御値（入力特徴量列）とを受け取り、それら楽譜特徴量列と制御値とに従う結果データＤ１（音データ列）を推定する生成モデルである。訓練済モデルＭは、楽譜特徴量列および入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得し、訓練装置２０により構築される。本例では、訓練済モデルＭはＡＲ（回帰）タイプの生成モデルであるが、非ＡＲタイプの生成モデルであってもよい。

　入力特徴量列は、音楽的な特徴量が第１の精細度（fineness）で時間的に変化する時系列（時系列データ）であり、例えば、音楽的な特徴量が音の時間部分ごとに離散的にないし間欠的にゆっくりと変化する時系列である。出力特徴量列は、音楽的な特徴量が第１の精細度よりも高い第２の精細度で時間的に変化する時系列（時系列データ）であり、例えば、音楽的な特徴量が絶え間なくないし連続的に素早く変化する時系列である。入力特徴量列および出力特徴量列は、各々、特徴量列であり、特徴量列は、音楽的な特徴量の時系列データであり、音楽的な特徴量の時間的な変化を示すデータと言い換えてもよい。音楽的な特徴量は、例えば振幅またはその微分値や、ピッチまたはその微分値であってもよい。音楽的な特徴量は、振幅等に代えて、スペクトル傾斜またはスペクトル重心を含んでもよいし、低域パワーに対する高域パワーの比（高域パワー／低域パワー）を含んでもよい。「音楽的な特徴量」との語は、特徴量が音楽的な種別（例えば、振幅、ピッチ、音色など）であることを示し、以下では、単に「特徴量」と略記することがある。本実施形態における入力特徴量列、出力特徴量列、第１の特徴量列、および第２の特徴量列は、いずれも、「音楽的な特徴量（特徴量）」の時系列データの一例である。すなわち、入力特徴量列、出力特徴量列、第１の特徴量列、および第２の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。他方、音データ列は、時間領域の音波形に変換できる周波数領域のデータの列であり、例えば、波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、或いは、メルスペクトログラム等でもよい。

　ここで、精細度は、単位時間内の特徴量の数（時間分解能）を意味するのではなく、単位時間内における特徴量の変化の頻度または高い周波数成分の含有量を意味する。すなわち、入力特徴量列は出力特徴量列の精細度を下げて得た特徴量列であって、例えば、出力特徴量列をその大部分で直前の値と同じになるように加工した特徴量列または、出力特徴量列にある種のローパスフィルタを適用して得られる特徴量列等である。ここで、時間分解能については入力特徴量列と、出力特徴量列とで変わらない。

　結果データＤ１は、音生成装置１０により生成された音の特徴量列（後述する第２の特徴量列）に対応する音データ列を示す。参照データＤ２は、訓練済モデルＭを訓練するために用いる波形データ、すなわち音波形のサンプルの時系列（時系列データ）である。そして、音の制御に関連して各波形データから抽出された特徴量（例えば、振幅）の時系列（時系列データ）を出力特徴量列と呼ぶ。楽譜データＤ３および参照楽譜データＤ４は、それぞれ時間軸上に配置された複数の音符（音符列）を含む楽譜を示す。楽譜データＤ３から生成される楽譜特徴量列は、音生成装置１０による結果データＤ１の生成に用いられる。参照データＤ２および参照楽譜データＤ４は、訓練装置２０による訓練済モデルＭの構築に用いられる。

　訓練済モデルＭ、結果データＤ１、参照データＤ２、楽譜データＤ３および参照楽譜データＤ４は、記憶部１４０に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム１００がネットワークに接続されている場合には、訓練済モデルＭ、結果データＤ１、参照データＤ２、楽譜データＤ３または参照楽譜データＤ４は、当該ネットワーク上のサーバに記憶されていてもよい。

　操作部１５０は、マウス等のポインティングデバイスまたはキーボードを含み、所定の入力を行うために使用者により操作される。表示部１６０は、例えば液晶ディスプレイを含み、所定のＧＵＩ（Graphical User Interface）または音生成処理の結果等を表示する。操作部１５０および表示部１６０は、タッチパネルディスプレイにより構成されてもよい。

　（２）音生成装置
　図２は、音生成装置１０の構成を示すブロック図である。図３および図４は、音生成装置１０の動作例を説明するための図である。図２に示すように、音生成装置１０は、提示部１１、受付部１２、生成部１３および処理部１４を含む。提示部１１、受付部１２、生成部１３および処理部１４の機能は、図１のＣＰＵ１３０が音生成プログラムを実行することにより実現される。提示部１１、受付部１２、生成部１３および処理部１４の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

　提示部１１は、図３に示すように、使用者からの入力を受け付けるためのＧＵＩとして、受付画面１を表示部１６０に表示させる。受付画面１には、参照領域２および入力領域３が設けられる。参照領域２には、例えば、使用者により選択された楽譜データＤ３に基づいて、複数の音符の時間軸上での位置を表す参照画像４が表示される。参照画像４は、例えばピアノロールである。使用者は、操作部１５０を操作することにより、記憶部１４０等に記憶された複数の楽譜データＤ３から所望の楽譜を示す楽譜データＤ３を選択したり、編集したりすることができる。

　入力領域３は、参照領域２と対応するように配置される。使用者は、図１の操作部１５０を用いて、参照画像４の音符を見ながら、特徴量（本例では振幅）が時間的に変化するように入力領域３上で各特徴量を大雑把に入力する。これにより、第１の特徴量列を入力することができる。図３の入力例では、楽譜の第１～第５小節における振幅は小さく、第６～第７小節における振幅は大きく、第８～第１０小節における振幅はやや大きくなるように振幅の入力が行われている。受付部１２は、入力領域３上に入力された第１の特徴量列を受け付ける。

　記憶部１４０等に記憶された訓練済モデルＭは、図４に示すように、例えばニューラルネットワーク（図４の例ではＤＮＮ（深層ニューラルネットワーク）Ｌ１）を含む。使用者により選択された楽譜データＤ３および入力領域３に入力された第１の特徴量列は、ＤＮＮＬ１に与えられる。生成部１３は、ＤＮＮＬ１を用いて、楽譜データＤ３および第１の特徴量列を処理して、例えば、楽譜におけるピッチの時系列と振幅スペクトル包絡の時系列との組み合わせである結果データＤ１を生成する。結果データＤ１は、振幅が第２の精細度で変化する第２の特徴量列に対応する音データ列を示す。また、結果データＤ１に含まれるピッチの時系列でも、（振幅と同様に）第１の特徴量列に応じて、ピッチが高い精細度（第１の特徴量列の精細度よりも高い精細度）で変化する。なお、結果データは、楽譜における振幅スペクトルの時系列（例えば、メルスペクトログラム）を示す結果データＤ１であってもよい。

　第１の特徴量列における各時点の振幅は、第２の特徴量列において、当該時点を含む所定期間内の振幅の代表値であってもよい。なお、隣り合う２つの時点の間隔は例えば５ｍｓであり、所定期間の長さは例えば３ｓであり、各時点は例えば対応する所定期間の中心に位置する。代表値は、第２の特徴量列における所定期間内の振幅の統計値であってもよい。例えば、代表値は、振幅の最大値、平均値、中央値、最頻値、分散または標準偏差であってもよい。

　しかしながら、代表値は、第２の特徴量列における所定期間内の振幅の統計値に限定されない。例えば、代表値は、第２の特徴量列における所定期間内の振幅の第１高調波の最大値と第２高調波の最大値との比、またはその比の対数値であってもよい。あるいは、代表値は、上記の第１高調波の最大値と第２高調波の最大値との平均値であってもよい。

　生成部１３は、生成された結果データＤ１を記憶部１４０等に記憶させてもよい。処理部１４は、例えばボコーダとして機能し、生成部１３により生成された周波数領域の結果データＤ１から時間領域の波形を示す音声信号を生成する。生成した音声信号を、処理部１４に接続された、スピーカ等を含むサウンドシステムに供給することにより、音声信号に基づく音が出力される。本例では、音生成装置１０は処理部１４を含むが、実施形態はこれに限定されない。音生成装置１０は、処理部１４を含まなくてもよい。

　図３の例では、受付画面１において、入力領域３は参照領域２の下方に配置されるが、実施形態はこれに限定されない。受付画面１において、入力領域３は、参照領域２の上方に配置されてもよい。あるいは、受付画面１において、入力領域３は、参照領域２と重なるように配置されてもよい。

　また、図３の例では、受付画面１は参照領域２を含み、参照領域２に参照画像４が表示されるが、実施形態はこれに限定されない。受付画面１は参照領域２を含まなくてもよい。この場合、使用者は、操作部１５０を用いて、入力領域３上で振幅の所望の時系列を示す描画を行う。これにより、振幅が大雑把に変化する第１の特徴量列を入力することができる。

　図４の例では、訓練済モデルＭは１つのＤＮＮＬ１を含むが、実施形態はこれに限定されない。訓練済モデルＭは、複数のＤＮＮを含んでもよい。図５は、音生成装置１０の他の動作例を説明するための図である。図５の例では、訓練済モデルＭは、３つのＤＮＮＬ１，Ｌ２，Ｌ３を含む。使用者により選択された楽譜データＤ３は、各ＤＮＮＬ１～Ｌ３に与えられる。また、使用者により入力領域３に入力された第１の特徴量列は、ＤＮＮＬ１に与えられる。

　生成部１３は、ＤＮＮＬ１を用いて、楽譜データＤ３および第１の特徴量列を処理して、振幅が時間的に変化する第１の中間特徴量列を生成する。第１の中間特徴量列における振幅の時系列の精細度は、第１の特徴量列における振幅の時系列の精細度（第１の精細度）よりも高い。第１の中間特徴量列は、入力領域３に表示されてもよい。使用者は、操作部１５０を用いて、入力領域３に表示された第１の中間特徴量列を修正することが可能である。

　また、生成部１３は、ＤＮＮＬ２を用いて、楽譜データＤ３および第１の中間特徴量列を処理して、振幅が時間的に変化する第２の中間特徴量列を生成する。第２の中間特徴量列における振幅の時系列の精細度は、第１の中間特徴量列における振幅の時系列の精細度よりも高い。第２の中間特徴量列は、入力領域３に表示されてもよい。使用者は、操作部１５０を用いて、入力領域３に表示された第２の中間特徴量列を修正することが可能である。

　さらに、生成部１３は、ＤＮＮＬ３を用いて、楽譜データＤ３および第２の中間特徴量列を処理して、楽譜におけるピッチの時系列を特定し、特定されたピッチの時系列を示す結果データＤ１を生成する。結果データＤ１により示される第２の特徴量列における振幅の時系列の精細度（第２の精細度）は、第２の中間特徴量列における振幅の時系列の精細度よりも高い。以上に説明したように、Ｌ１は、第１の精細度で特徴量（例えば、振幅）が時間的に変改する特徴量列（入力特徴量列、第１の特徴量列）を入力されると、第１の精細度よりも高い精細度で特徴量が時間的に変化する第１の中間特徴量列を出力してもよい。Ｌ２は、第１の中間特徴量列を入力されると、第１の中間特徴量列の精細度よりも高い精細度で特徴量が時間的に変化する第２の中間特徴量列を出力してもよい。Ｌ３は、第２の中間特徴量列を入力されると、楽譜におけるピッチの時系列を特定し、特定されたピッチの時系列を示す音データ列（参照音データ列、結果データＤ１）を出力してもよい。Ｌ３が出する音データ列に対応する波形の特徴量の時系列データを、第２の特徴量列と呼ぶ。第２の特徴量列において、特徴量は、第２の中間特徴量列の精細度よりも高い精細度で時間的に変化し、つまり、第２の特徴量列の精細度（第２の精細度）は、第２の中間特徴量列の精細度よりも高い。Ｌ１、Ｌ２、Ｌ３の各々には、Ｌ３が出力する音データ列に対応する楽譜データ（参照楽譜データＤ４、楽譜データＤ３）、および、その楽譜データから生成された楽譜特徴量の少なくとも一方が、さらに入力されてもよい。楽譜データは、時間軸上に配置された複数の音符（音符列）を含む楽譜を示すデータである。

　（３）訓練装置
　図６は、訓練装置２０の構成を示すブロック図である。図７は、訓練装置２０の動作例を説明するための図である。図６に示すように、訓練装置２０は、抽出部２１、生成部２２および構築部２３を含む。抽出部２１、生成部２２および構築部２３の機能は、図１のＣＰＵ１３０が訓練プログラムを実行することにより実現される。抽出部２１、生成部２２および構築部２３の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

　抽出部２１は、記憶部１４０等に記憶された複数の参照データＤ２の各々から参照音データ列と出力特徴量列とを抽出する。参照音データ列は、参照データＤ２が表す時間領域の波形の、周波数領域におけるスペクトルを表すデータであり、例えば、対応する参照データＤ２が示す波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、メルスペクトログラム等でもよい。参照データＤ２を所定の時間フレームを用いて周波数解析することにより、所定間隔（例えば、５ｍｓ）ごとの参照音データの列が生成される。出力特徴量列は、参照音データ列に対応する波形の特徴量（例えば、振幅）の時系列であって、前記所定間隔（例えば、５ｍｓ）に対応する所定精細度で時間的に変化する。各種データ列におけるデータ間隔は、５ｍｓより短くてもよいし、長くてもよく、また、相互に同じでもよいし、異なっていてもよい。生成部２２は、複数の出力特徴量列の各々から入力特徴量列を生成する。入力特徴量列においては、出力特徴量列における特徴量（例えば、振幅）の時系列の精細度よりも低い精細度で特徴量（例えば、振幅）が時間的に変化する。

　具体的には、生成部２２は、図７に示すように、出力特徴量列において、各時点ｔを含む所定期間Ｔ内の振幅の代表値を抽出する。なお、隣り合う２つの時点ｔの間隔は例えば５ｍｓであり、期間Ｔの長さは例えば３ｓであり、各時点ｔは例えば期間Ｔの中心に位置する。図８の例では、各期間Ｔの振幅の代表値は、当該期間Ｔ内の振幅の最大値であるが、当該期間Ｔ内の振幅の他の統計値等であってもよい。生成部２２は、抽出された複数の期間Ｔの振幅の代表値をそれぞれ入力特徴量列における複数の時点ｔの振幅として配列することにより、入力特徴量列を生成する。振幅の最大値は、最大３ｓの期間同じ値をとり、時点の間隔５ｍｓに比べて、その値が変化する間隔が数十倍以上長い。つまり、入力特徴量列は出力特徴量列に比べて変化の頻度が低く、言い換えれば、精細度が低い。

　構築部２３は、ＤＮＮで構成される生成モデルｍ（未訓練または予備訓練済）を用意し、抽出された参照音データ列と、生成された入力特徴量列および記憶部１４０等に記憶された各参照楽譜データＤ４から生成される楽譜特徴量列とに基づいて、その生成モデルｍを訓練する。この訓練により、入力特徴量列および楽譜特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルＭが構築される。用意される生成モデルｍは、図４に示すように、１つのＤＮＮＬ１を含んでもよいし、図５に示すように、複数のＤＮＮＬ１～Ｌ３を含んでもよい。構築部２３は、構築された訓練済モデルＭを記憶部１４０等に記憶させる。

　（４）音生成処理
　図８は、図２の音生成装置１０による音生成処理の一例を示すフローチャートである。図８の音生成処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された音生成プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、使用者により楽譜データＤ３が選択されたか否かを判定する（ステップＳ１）。楽譜データＤ３が選択されない場合、ＣＰＵ１３０は、楽譜データＤ３が選択されるまで待機する。

　楽譜データＤ３が選択された場合、ＣＰＵ１３０は、図３の受付画面１を表示部１６０に表示させる（ステップＳ２）。受付画面１の参照領域２には、ステップＳ１で選択された楽譜データＤ３に基づく参照画像４が表示される。次に、ＣＰＵ１３０は、受付画面１の入力領域３上で第１の特徴量列を受け付ける（ステップＳ３）。

　続いて、ＣＰＵ１３０は、訓練済モデルＭを用いて、ステップＳ１で選択された楽譜データＤ３の楽譜特徴量列およびステップＳ４で受け付けられた第１の特徴量列を処理して結果データＤ１を生成する（ステップＳ４）。その後、ＣＰＵ１３０は、ステップＳ４で生成された結果データＤ１から時間領域の波形である音声信号を生成し（ステップＳ５）、音生成処理を終了する。

　（５）訓練処理
　図９は、図６の訓練装置２０による訓練処理の一例を示すフローチャートである。図９の訓練処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された訓練プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、記憶部１４０等から訓練に用いる複数の参照データＤ２を取得する（ステップＳ１１）。次に、ＣＰＵ１３０は、ステップＳ１１で取得された各参照データＤ２から参照音データ列を抽出する（ステップＳ１２）。また、ＣＰＵ１３０は、ステップＳ１で取得された各参照データＤ２から出力特徴量列（例えば、振幅の時系列）を抽出する（ステップＳ１３）。

　続いて、ＣＰＵ１３０は、ステップＳ３で抽出された出力特徴量列から入力特徴量列（振幅の最大値の時系列）を生成する（ステップＳ１４）。その後、ＣＰＵ１３０は、生成モデルｍを用意し、ステップＳ１で取得された各参照データＤ２に対応する参照楽譜データＤ４に基づく楽譜特徴量列およびステップＳ１４で生成された入力特徴量列と、ステップＳ１２で抽出された参照音データ列とに基づいてその生成モデルｍを訓練することにより、楽譜特徴量列および参照入力特徴量列と、参照音データ列との間の入出力関係を生成モデルｍに機械学習させる（ステップＳ１５）。

　次に、ＣＰＵ１３０は、生成モデルｍが入出力関係を習得するのに十分な機械学習が実行されたか否かを判定する（ステップＳ１６）。機械学習が不十分な場合、ＣＰＵ１３０はステップＳ１５に戻る。十分な機械学習が実行されるまで、パラメータが変化されつつステップＳ１５～Ｓ１６が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルＭが満たすべき品質条件に応じて変化する。ステップＳ１６の判定は、品質条件の指標となる損失関数に基づいて行われる。例えば、入力された入力特徴量列に対して生成モデルｍが出力する音データ列と、入力された入力特徴量列にラベルとして付与されている参照音データ列との差異を示す損失関数が、所定の値よりも小さくなれば、機械学習が十分と判定される。所定の値は、処理システム１００の利用者によって、所望の品質（品質条件）に応じて適宜設定されてもよい。また、このような判定に代えて、または、このような判定と共に、繰り返し回数が所定の回数に到達したか否かが判定されてもよい。十分な機械学習が実行された場合、ＣＰＵ１３０は、訓練により楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルＭとして保存し（ステップＳ１７）、訓練処理を終了する。訓練処理によって、生成モデルｍは、入力特徴量列（例えば、入力特徴量列（ｘ））と、その入力特徴量列にラベルとして付与された「その入力特徴量列に対応する音データ列である、参照音データ列（例えば、参照音データ列（ｘ））」との対応関係を学習する。

　（６）実施形態の効果
　以上説明したように、本実施形態に係る音生成方法は、音楽的な特徴量が時間的に変化する第１の特徴量列を受け付け、音楽的な特徴量が第１の精細度で時間的に変化する入力特徴量列と、音楽的な特徴量が第１の精細度よりも高い第２の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、第１の特徴量列を処理して、音楽的な特徴量が第２の精細度で変化する第２の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。前述の通り、「音楽的な特徴量」との語は、特徴量が音楽的な種別（例えば、振幅、ピッチ、音色など）であることを示す。第１の特徴量列、入力特徴量列、出力特徴量列、および第２の特徴量列は、いずれも、「音楽的な特徴量」の時系列データの一例である。すなわち、第１の特徴量列、入力特徴量列、出力特徴量列、および第２の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。

　この方法によれば、受け付けた第１の特徴量列における音楽的な特徴量の変化が大雑把である（言い換えれば、第１の特徴量列において、音楽的な特徴量が離散的にないし間欠的にゆっくりと変化する）場合でも、第２の特徴量列に対応する音データ列が生成される。第２の特徴量列においては、音楽的な特徴量が詳細に（言い換えれば、絶え間なくないし連続的に素早く）変化し、その音データ列から、自然な音声が生成される。したがって、使用者は、音楽的な特徴量の詳細な時系列を入力する必要がない。

　入力特徴量列における各時点の音楽的な特徴量は、出力特徴量列において、当該時点を含む所定期間内の音楽的な特徴量の代表値を示してもよい。

　代表値は、出力特徴量列における所定期間内の音楽的な特徴量の統計値を示してもよい。

　音生成方法は、第１の特徴量列が時間軸に沿って表示される受付画面１をさらに提示し、第１の特徴量列は、受付画面１を用いて、ユーザにより入力されてもよい。この場合、使用者は、第１の特徴量列における音楽的な特徴量の時間軸上での位置を視認しつつ、第１の特徴量列を容易に入力することができる。

　前記精細度は、単位時間内における前記音楽的な特徴量の変化の頻度、または、前記音楽的な特徴量の高い周波数成分の含有割合を示してもよい。

　前記音生成方法は、さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換してもよい。

　本実施形態に係る訓練方法は、音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から、音楽的な特徴量が所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。

　この方法によれば、入力される第１の特徴量列における音楽的な特徴量の変化が大雑把である（言い換えれば、第１の特徴量列において、音楽的な特徴量が離散的にないし間欠的にゆっくりと変化する）場合でも、音楽的な特徴量が詳細に（言い換えれば、絶え間なくないし連続的に素早く）変化する第２の特徴量列に対応する音データ列を生成可能な訓練済モデルＭが構築される。

　入力特徴量列は、入力特徴量列における各時点の音楽的な特徴量として、出力特徴量列において、当該時点を含む所定期間内の音楽的な特徴量の代表値を抽出することにより生成されてもよい。

　参照データは時間領域の音波形を示してもよく、参照音データ列は周波数領域の音波形を示してもよい。

　（７）振幅以外の特徴量を用いる例
　上記第１実施形態において、使用者は、制御値として振幅の最大値を入力して、生成される音声信号を制御するが、実施形態はこれに限定されない。制御値は他の特徴量でもよい。以下、第２実施形態に係る音生成装置１０および訓練装置２０について、第１実施形態に係る音生成装置１０および訓練装置２０と共通する点および異なる点を説明する。

　本実施形態における音生成装置１０は、以下の点を除いて、図２に関して説明した第１実施形態の音生成装置１０と同様である。提示部１１は、使用者により選択された楽譜データＤ３に基づいて、受付画面１を表示部１６０に表示させる。図１０は、第２実施形態における受付画面１の一例を示す図である。図１０に示すように、本実施形態における受付画面１には、図３の入力領域３に代えて、３つの入力領域３ａ，３ｂ，３ｃが参照領域２と対応するように配置される。

　使用者は、操作部１５０を用いて、参照画像４に表示された各音符に対応する音の３つの部分における特徴量（本例ではピッチの分散）が時間的に変化する３つの第１の特徴量列を、それぞれ入力領域３ａ，３ｂ，３ｃ上で各特徴量を入力する。これにより、第１の特徴量列を入力することができる。第１の特徴量列として、入力領域３ａで、音符に対応する音のアタック部のピッチの分散の時系列が入力され、入力領域３ｂで、サステイン部のピッチの分散の時系列が入力され、入力領域３ｃでリリース部のピッチの分散が入力される。図１０の入力例では、楽譜の第６～第７小節におけるアタック部およびリリース部のピッチの分散が大きく、第８～第９小節におけるサステイン部のピッチの分散が大きい。

　生成部１３は、訓練済モデルＭを用いて、楽譜データＤ３に基づく楽譜特徴量列および第１の特徴量列を処理して、結果データＤ１を生成する。結果データＤ１は、第２の精細度で変化するピッチの時系列である第２の特徴量列を含む。生成部１３は、生成された結果データＤ１を記憶部１４０等に記憶させてもよい。また、生成部１３は、周波数領域の結果データＤ１に基づいて、時間領域の波形である音声信号を生成し、サウンドシステムに供給する。なお、生成部１３は、結果データＤ１に含まれる第２の特徴量列を表示部１６０に表示させてもよい。

　本実施形態における訓練装置２０は、以下の点を除いて、図６に関して説明した第１実施形態の訓練装置２０と同様である。本実施形態においては、図９の訓練処理のステップＳ１３で抽出すべき出力特徴量列であるピッチの時系列は、直前のステップＳ１２において、参照音データ列の一部として抽出済みである。ＣＰＵ１３０（抽出部２１）は、ステップＳ１３において、複数の参照データＤ２の各々における振幅の時系列を、出力特徴量列としてではなく、音を３つの部分に分離する指標として抽出する。

　次のステップＳ１４において、ＣＰＵ１３０は、その振幅の時系列に基づいて、参照音データ列に含まれるピッチの時系列（出力特徴量列）を、音のアタック部、音のリリース部、およびアタック部とリリース部との間の音のボディ部の３部分の時系列に分け、それぞれ統計分析して各部分についてピッチの分散の時系列（入力特徴量列）を求める。

　また、ＣＰＵ１３０（構築部２３）は、ステップＳ１５～Ｓ１６において、各参照データＤ２から生成した参照音データ列と入力特徴量列と対応する参照楽譜データＤ４とに基づいて、機械学習（生成モデルｍの訓練）を繰り返し行うことにより、参照楽譜データに対応する楽譜特徴量列および入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルＭを構築する。

　本実施形態に係る音生成装置１０において、使用者は、第１の特徴量列として各時点のピッチの分散を大雑把に入力することにより、その時点で生成される音の、詳細に変化するピッチの変化幅を効果的に制御できる。また、３部分について第１の特徴量を個別に入力することにより、アタック部、ボディ部およびリリース部のピッチの変化幅を個別に制御できる。なお、受付画面１は入力領域３ａ～３ｃを含むが、実施形態はこれに限定されない。受付画面１は、入力領域３ａ，３ｂ，３ｃのうち、いずれか１つまたは２つの入力領域を含まなくてもよい。また、本実施形態においても、受付画面１は参照領域２を含まなくてもよい。本実施形態では、３部分に分けて３つのピッチの分散列を入力し音を制御したが、３部分に分けることなく、１つのピッチの分散列を入力してアタックからリリースまでの音全体を制御するようにしてもよい。

　１…受付画面，２…参照領域，３，３ａ～３ｃ…入力領域，４…参照画像，１０…音生成装置，１１…提示部，１２…受付部，１３，２２…生成部，１４…処理部，２０…訓練装置，２１…抽出部，２３…構築部，１００…処理システム，１１０…ＲＡＭ，１２０…ＲＯＭ，１３０…ＣＰＵ，１４０…記憶部，１５０…操作部，１６０…表示部，１７０…バス，Ｄ１…結果データ，Ｄ２…参照データ，Ｄ３…楽譜データ，Ｄ４…参照楽譜データ，Ｌ１～Ｌ３…ＤＮＮ，Ｍ…訓練済モデル，ｍ…生成モデル

Claims

　音楽的な特徴量が時間的に変化する第１の特徴量列を受け付け、
　前記音楽的な特徴量が第１の精細度で時間的に変化する入力特徴量列と、前記音楽的な特徴量が前記第１の精細度よりも高い第２の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、前記第１の特徴量列を処理して、前記音楽的な特徴量が前記第２の精細度で変化する第２の特徴量列に対応する音データ列を生成する、
　コンピュータにより実現される音生成方法。
　前記入力特徴量列における各時点の前記音楽的な特徴量は、前記出力特徴量列において、当該時点を含む所定期間内の前記音楽的な特徴量の代表値を示す、請求項１記載の音生成方法。
　前記代表値は、前記出力特徴量列における前記所定期間内の前記音楽的な特徴量の統計値を示す、請求項２記載の音生成方法。
　前記第１の特徴量列が時間軸に沿って表示される受付画面をさらに提示し、
　前記第１の特徴量列は、前記受付画面を用いて、ユーザにより入力される、請求項１～３のいずれか一項に記載の音生成方法。
　前記精細度は、単位時間内における前記音楽的な特徴量の変化の頻度、または、前記音楽的な特徴量の高い周波数成分の含有割合を示す、請求項１～４のいずれか一項に記載の音生成方法。
　さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換する、請求項１～５のいずれか一項に記載の音生成方法。
　音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
　前記出力特徴量列から、前記音楽的な特徴量が前記所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、
　前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する、
　コンピュータにより実現される訓練方法。
　前記入力特徴量列は、前記入力特徴量列における各時点の前記音楽的な特徴量として、前記出力特徴量列において、当該時点を含む所定期間内の前記音楽的な特徴量の代表値を抽出することにより生成される、請求項７記載の訓練方法。
　前記代表値は、前記出力特徴量列における前記所定期間内の前記音楽的な特徴量の統計値を示す、請求項８記載の訓練方法。
　前記参照データは時間領域の前記音波形を示し、前記参照音データ列は周波数領域の前記音波形を示す、請求項７記載の訓練方法。
　音楽的な特徴量が時間的に変化する第１の特徴量列を受け付ける受付部と、
　前記音楽的な特徴量が第１の精細度で時間的に変化する入力特徴量列と、前記音楽的な特徴量が前記第１の精細度よりも高い第２の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、前記第１の特徴量列を処理して、前記音楽的な特徴量が前記第２の精細度で変化する第２の特徴量列に対応する音データ列を生成する生成部とを備える、音生成装置。
　音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、
　前記出力特徴量列から、前記音楽的な特徴量が前記所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成する生成部と、
　前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える、訓練装置。
　１ないし複数のコンピュータに、
　音楽的な特徴量が時間的に変化する第１の特徴量列を受け付け、
　前記音楽的な特徴量が第１の精細度で時間的に変化する入力特徴量列と、前記音楽的な特徴量が前記第１の精細度よりも高い第２の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、前記第１の特徴量列を処理して、前記音楽的な特徴量が前記第２の精細度で変化する第２の特徴量列に対応する音データ列を生成する
ステップを行わせる、音生成プログラム。
　１ないし複数のコンピュータに、
　音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
　前記出力特徴量列から、前記音楽的な特徴量が前記所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、
　前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する
ステップを行わせる、訓練プログラム。