WO2022172577A1

WO2022172577A1 - 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Info

Publication number: WO2022172577A1
Application number: PCT/JP2021/045964
Authority: WO
Inventors: 慶二郎才野; 竜之介大道; ボナダジョルディ; ブラアウメルレイン
Original assignee: ヤマハ株式会社
Priority date: 2021-02-10
Filing date: 2021-12-14
Publication date: 2022-08-18
Also published as: US20230395046A1; JP2022122689A; CN116806354A

Abstract

複数の区間からなる音符列の各区間について音楽的な特徴量の代表値の入力が受付部により受け付けられる。訓練済モデルを用いて、入力された各区間の代表値に応じた第１の特徴量列を処理して、特徴量が連続的に変化する第２の特徴量列に対応する音データ列が生成部により生成される。

Description

機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

　本発明は、音を生成することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムに関する。

　使用者により指定された音量の時系列に基づいて音声信号を生成するアプリケーションが知られている。例えば、非特許文献１に記載されたアプリケーションにおいては、使用者による入力音から基本周波数、隠れ変数およびラウドネスが特徴量として抽出される。抽出された特徴量にスペクトラルモデリング合成が行われることにより、音声信号が生成される。

Jesse Engel, Lamtharn Hantrakul, Chenjie Gu and Adam Roberts, "DDSP: Differentiable Digital Signal Processing", arXiv:2001.04643v1 [cs.LG] 14 Jan 2020

　非特許文献１記載のアプリケーションを用いて、人の歌唱または演奏のように自然に変化する音声を示す音声信号を生成するには、使用者は、振幅、音量、ピッチ、音色（Timbre）などのいずれかの音楽的な特徴量の時系列を詳細に指定する必要がある。しかしながら、振幅、音量、ピッチ、音色などのいずれかの音楽的な特徴量の時系列を詳細に指定することは容易ではない。

　本発明の目的は、自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供することである。

　本発明の一局面に従う音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。なお、「音楽的な特徴量」との語は、特徴量が音楽的な種別（例えば、振幅、ピッチ、音色など）であることを示す。第１の特徴量列および第２の特徴量列は、いずれも、「音楽的な特徴量（特徴量）」の時系列データの一例である。すなわち、第１の特徴量列および第２の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。

　本発明の他の局面に従う訓練方法は、音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から音楽的な特徴量が音の区間ごとに変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。なお、入力特徴量列および出力特徴量列は、いずれも、「音楽的な特徴量（特徴量）」の時系列データの一例である。すなわち、入力特徴量列および出力特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。

　本発明のさらに他の局面に従う音生成装置は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付ける受付部と、訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する生成部とを備える。

　本発明のさらに他の局面に従う訓練装置は、音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、出力特徴量列から音楽的な特徴量が音の区間ごとに変化する入力特徴量列を生成する生成部と、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える。

　本発明によれば、自然な音声を容易に取得することができる。

本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。音生成装置の構成を示すブロック図である。音生成装置の動作例を説明するための図である。音生成装置の動作例を説明するための図である。受付画面の他の例を示す図である。訓練装置の構成を示すブロック図である。訓練装置の動作例を説明するための図である。図２の音生成装置による音生成処理の一例を示すフローチャートである。図６の訓練装置による訓練処理の一例を示すフローチャートである。第２実施形態における受付画面の一例を示す図である。

　（１）処理システムの構成
　以下、本発明の第１実施形態に係る音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムについて図面を用いて詳細に説明する。図１は、本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。図１に示すように、処理システム１００は、ＲＡＭ（ランダムアクセスメモリ）１１０、ＲＯＭ（リードオンリメモリ）１２０、ＣＰＵ（中央演算処理装置）１３０、記憶部１４０、操作部１５０および表示部１６０を備える。中央演算処理装置としてＣＰＵ１３０は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＳＩＣ、ＦＰＧＡ、ＤＳＰ及び汎用コンピュータのうちの１つ以上であってもよいし、それらのうちの１又は複数を含んでもよい。

　処理システム１００は、例えばＰＣ、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム１００は、イーサネット等の通信路で接続された複数のコンピュータの共同動作で実現されてもよい。ＲＡＭ１１０、ＲＯＭ１２０、ＣＰＵ１３０、記憶部１４０、操作部１５０および表示部１６０は、バス１７０に接続される。ＲＡＭ１１０、ＲＯＭ１２０およびＣＰＵ１３０により音生成装置１０および訓練装置２０が構成される。本実施形態では、音生成装置１０と訓練装置２０とは共通の処理システム１００により構成されるが、別個の処理システムにより構成されてもよい。

　ＲＡＭ１１０は、例えば揮発性メモリからなり、ＣＰＵ１３０の作業領域として用いられる。ＲＯＭ１２０は、例えば不揮発性メモリからなり、音生成プログラムおよび訓練プログラムを記憶する。ＣＰＵ１３０は、ＲＯＭ１２０に記憶された音生成プログラムをＲＡＭ１１０上で実行することにより音生成処理を行う。また、ＣＰＵ１３０は、ＲＯＭ１２０に記憶された訓練プログラムをＲＡＭ１１０上で実行することにより訓練処理を行う。音生成処理および訓練処理の詳細については後述する。

　音生成プログラムまたは訓練プログラムは、ＲＯＭ１２０ではなく記憶部１４０に記憶されてもよい。あるいは、音生成プログラムまたは訓練プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ＲＯＭ１２０または記憶部１４０にインストールされてもよい。あるいは、処理システム１００がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ（クラウドサーバを含む。）から配信された音生成プログラムがＲＯＭ１２０または記憶部１４０にインストールされてもよい。

　記憶部１４０は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶部１４０には、訓練済モデルＭ、結果データＤ１、複数の参照データＤ２、複数の楽譜データＤ３および複数の参照楽譜データＤ４が記憶される。複数の参照データＤ２と、複数の参照楽譜データＤ４とは、それぞれ対応する。参照データＤ２（音データ）と参照楽譜データＤ４（楽譜データ）とが「対応する」とは、例えば、参照楽譜データＤ４によって示される楽譜の示す楽曲の各音符（および音韻）と、参照データＤ２によって示される波形データの示す楽曲の各音符（および音韻）とが、その演奏タイミング、演奏強度、演奏表現などを含めて相互に同じであることをいう。訓練済モデルＭは、楽譜データＤ３の楽譜特徴量列と制御値（入力特徴量列）とを受け取って処理し、それら楽譜特徴量列と制御値とに応じた結果データＤ１（音データ列）を推定する生成モデルである。訓練済モデルＭは、入力特徴量列と出力特徴量列に対応する参照音データ列との間の入出力関係を習得し、訓練装置２０により構築される。本例では、訓練済モデルＭはＡＲ（回帰）タイプの生成モデルであるが、非ＡＲタイプの生成モデルであってもよい。

　入力特徴量列は、音楽的な特徴量が音の時間部分ごとに離散的にないし間欠的にゆっくりと変化する時系列（時系列データ）である。出力特徴量列は、音楽的な特徴量が絶え間なくないし連続的に素早く変化する時系列（時系列データ）である。入力特徴量列および出力特徴量列は、各々、特徴量列であり、特徴量列は、音楽的な特徴量の時系列データであり、音楽的な特徴量の時間的な変化を示すデータと言い換えてもよい。音楽的な特徴量は、例えば振幅またはその微分値や、ピッチまたはその微分値であってもよい。音楽的な特徴量は、振幅等に代えて、スペクトル傾斜またはスペクトル重心でもよいし、低域パワーに対する高域パワーの比（高域パワー／低域パワー）でもよい。「音楽的な特徴量」との語は、特徴量が音楽的な種別（例えば、振幅、ピッチ、音色など）であることを示し、以下では、単に「特徴量」と略記することがある。本実施形態における入力特徴量列、出力特徴量列、第１の特徴量列、および第２の特徴量列は、いずれも、「音楽的な特徴量（特徴量）」の時系列データの一例である。すなわち、入力特徴量列、出力特徴量列、第１の特徴量列、および第２の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。他方、音データ列は、時間領域の音波形に変換できる周波数領域のデータの列であり、例えば、波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、或いは、メルスペクトログラム等でもよい。

　ここで、入力特徴量列は、音の区間ごとに（離散的にないし間欠的に）変化し、出力特徴量列は、絶え間なくないし連続的に変化するが、時間分解能（単位時間当たりの特徴量数）は互いに等しい。

　結果データＤ１は、音生成装置１０により生成された音の特徴量列に対応する音データ列を示す。参照データＤ２は、訓練済モデルＭを訓練するために用いる波形データ、すなわち音波形のサンプルの時系列（時系列データ）である。そして、音の制御に関連して各波形データから抽出された特徴量の時系列（時系列データ）を出力特徴量列と呼ぶ。楽譜データＤ３および参照楽譜データＤ４は、それぞれ時間軸上に配置された複数の音符（音符列）を含む楽譜を示す。楽譜データＤ３から生成される楽譜特徴量は、音生成装置１０による結果データＤ１の生成に用いられる。参照データＤ２および参照楽譜データＤ４は、訓練装置２０による訓練済モデルＭの構築に用いられる。

　訓練済モデルＭ、結果データＤ１、参照データＤ２、楽譜データＤ３および参照楽譜データＤ４は、記憶部１４０に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム１００がネットワークに接続されている場合には、訓練済モデルＭ、結果データＤ１、参照データＤ２、楽譜データＤ３または参照楽譜データＤ４は、当該ネットワーク上のサーバに記憶されていてもよい。

　操作部１５０は、マウス等のポインティングデバイスまたはキーボードを含み、所定の入力を行うために使用者により操作される。表示部１６０は、例えば液晶ディスプレイを含み、所定のＧＵＩ（Graphical User Interface）または音生成処理の結果等を表示する。操作部１５０および表示部１６０は、タッチパネルディスプレイにより構成されてもよい。

　（２）音生成装置
　図２は、音生成装置１０の構成を示すブロック図である。図３および図４は、音生成装置１０の動作例を説明するための図である。図２に示すように、音生成装置１０は、提示部１１、受付部１２、生成部１３および処理部１４を含む。提示部１１、受付部１２、生成部１３および処理部１４の機能は、図１のＣＰＵ１３０が音生成プログラムを実行することにより実現される。提示部１１、受付部１２、生成部１３および処理部１４の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

　提示部１１は、図３に示すように、使用者からの入力を受け付けるためのＧＵＩとして、受付画面１を表示部１６０に表示させる。受付画面１には、参照領域２および入力領域３が設けられる。参照領域２には、例えば、使用者により選択された楽譜データＤ３に基づいて、複数の音符からなる音符列における各音符の時間軸上での位置を表す参照画像４が表示される。参照画像４は、例えばピアノロールである。使用者は、操作部１５０を操作することにより、記憶部１４０等に記憶された複数の楽譜データＤ３から所望の楽譜を示す楽譜データＤ３を選択したり、編集したりすることができる。

　入力領域３は、参照領域２と対応するように配置される。また、図３の例では、参照画像４の各音符のアタック、ボディおよびリリースの３区間にそれぞれ対応するように、上下方向に延びる３本のバーが入力領域３に表示される。入力領域３の各バーの上下方向の長さは、対応する音符の区間における特徴量（本例では振幅）の代表値を示す。使用者は、図１の操作部１５０を用いて各バーの長さを変化させることにより、音符列における各音符の各区間について、振幅の代表値を入力領域３に入力する。ここでは、音符ごとに３つの代表値が入力される。受付部１２は、入力領域３上に入力された代表値を受け付ける。

　記憶部１４０等に記憶された訓練済モデルＭは、図４に示すように、例えばニューラルネットワーク（図４の例ではＤＮＮ（深層ニューラルネットワーク）Ｌ１）を含む。使用者により選択された楽譜データＤ３および入力領域３に入力された各音符の３つの代表値は、訓練済モデルＭ（ＤＮＮ）に与えられる。生成部１３は、訓練済モデルＭを用いて、楽譜データＤ３に対応する楽譜特徴量列と３つの代表値に対応する第１の特徴量列とを処理して、楽譜におけるピッチの時系列とスペクトル包絡とを含む結果データＤ１を生成する。結果データＤ１は、振幅が音符列における代表値の時間変化の精細度（fineness）よりも高い精細度で時間的に変化するように配列された第２の特徴量列に対応する音データ列である。なお、結果データは、楽譜におけるスペクトルの時系列を示す結果データＤ１であってもよい。

　第１の特徴量列は、アタックの代表値から生成されるアタックの特徴量列と、ボディの代表値から生成されるボディの特徴量列と、リリースの代表値から生成されるリリースの特徴量列とを含む。各区間の代表値を、前の音符の代表値から次の音符の代表値に滑らかに変化するよう平滑化し、その平滑化された代表値をその区間の代表値列としてもよい。音符列における各区間の代表値は、例えば、特徴量列において、当該区間内に配列された振幅の統計値である。統計値は、振幅の最大値、平均値、中央値、最頻値、分散または標準偏差であってもよい。一方で、代表値は、振幅の統計値に限定されない。例えば、代表値は、特徴量列における各区間内に配置された振幅の第１高調波の最大値と第２高調波の最大値との比、またはその比の対数値であってもよい。あるいは、代表値は、上記の第１高調波の最大値と第２高調波の最大値との平均値であってもよい。

　生成部１３は、生成された結果データＤ１を記憶部１４０等に記憶させてもよい。処理部１４は、例えばボコーダとして機能し、生成部１３により生成された周波数領域の結果データＤ１から時間領域の波形を示す音声信号を生成する。生成した音信号を、処理部１４に接続されたスピーカ等を含むサウンドシステムに供給することにより、音声信号に基づく音が出力される。本例では、音生成装置１０は処理部１４を含むが、実施形態はこれに限定されない。音生成装置１０は、処理部１４を含まなくてもよい。

　図３の例では、受付画面１において、入力領域３は参照領域２の下方に配置されるが、実施形態はこれに限定されない。受付画面１において、入力領域３は、参照領域２の上方に配置されてもよい。あるいは、受付画面１において、入力領域３は、参照領域２と重なるように配置されてもよい。ピアノロールの各音符の近傍に、その音符の３つの代表値が表示されてもよい。

　また、図３の例では、受付画面１は参照領域２を含み、参照領域２に参照画像４が表示されるが、実施形態はこれに限定されない。図５は、受付画面１の他の例を示す図である。図５の例では、受付画面１は参照領域２を含まない。入力領域３において、各音符の時間軸上での位置が隣り合う２つの点線により示される。また、各音符の複数の区間の境界が一点鎖線により示される。使用者は、操作部１５０を用いて、入力領域３上で振幅の代表値の所望の時系列を示す描画を行う。これにより、音符列における各音符の各区間について、振幅の代表値を入力することができる。

　図４の例では、訓練済モデルＭは１つのＤＮＮＬ１を含むが、実施形態はこれに限定されない。訓練済モデルＭは、複数のＤＮＮを含んでもよい。

　（３）訓練装置
　図６は、訓練装置２０の構成を示すブロック図である。図７は、訓練装置２０の動作例を説明するための図である。図６に示すように、訓練装置２０は、抽出部２１、生成部２２および構築部２３を含む。抽出部２１、生成部２２および構築部２３の機能は、図１のＣＰＵ１３０が訓練プログラムを実行することにより実現される。抽出部２１、生成部２２および構築部２３の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

　抽出部２１は、記憶部１４０等に記憶された各参照データＤ２から参照音データ列と出力特徴量列とを抽出する。参照音データ列は、参照データＤ２が表す時間領域の波形の、周波数領域におけるスペクトルを表すデータであり、例えば、対応する参照データＤ２が示す波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、メルスペクトログラム等でもよい。参照データＤ２を所定の時間フレームを用いて周波数解析することにより、所定間隔（例えば、５ｍｓ）ごとの参照音データの列が生成される。出力特徴量列は、参照音データ列に対応する波形の特徴量（例えば、振幅）の時系列（時系列データ）であって、特徴量は前記所定間隔（例えば、５ｍｓ）に対応する精細度で時間的に変化する。各種データ列におけるデータ間隔は、５ｍｓより短くてもよいし、長くてもよく、また、相互に同じでもよいし、異なっていてもよい。

　生成部２２は、各出力特徴量列と対応する参照楽譜データＤ４とから、各音符の各区間の特徴量（例えば、振幅）の代表値を決定し、決定された代表値に応じて特徴量（例えば、振幅）が時間的に（離散的にないし間欠的に）変化する入力特徴量列を生成する。具体的には、生成部２２は、図７に示すように、まず、出力特徴量列と参照楽譜データＤ４とに基づいて、各音符のアタック、ボディおよびリリースの３区間を特定し、さらに、出力特徴量列において、各区間内の特徴量（例えば、振幅）の代表値を抽出する。図７の例では、各区間内の特徴量（例えば、振幅）の代表値は最大値であるが、当該区間内の特徴量（例えば、振幅）の他の統計値でもよいし、統計値以外の代表値でもよい。生成部２２は、抽出された複数の区間内の特徴量（例えば、振幅）の代表値に基づいて、音符列におけるアタック、ボディおよびリリースの３区間にそれぞれ対応する３つの特徴量（例えば、振幅）の時系列である入力特徴量列を生成する。

　入力特徴量列は、音符ごとに生成される代表値の時系列なので、出力特徴量列と比べて精細度が遥かに低い。生成する入力特徴量列は、区間ごとの代表値を、そのまま時間軸上のその対応する区間に並べた階段状に変化する特徴量列でもよいし、値が急激に変化しないよう平滑化された特徴量列でもよい。平滑化された入力特徴量列は、例えば、各区間の始点で代表値となるよう、その区間の手前で特徴量がゼロから徐々に増加し、その区間で特徴量が代表値を維持し、その区間の終点以降で特徴量が代表値からゼロまで徐々に減少する特徴量列である。平滑化された特徴量を用いた場合は、各区間に生成される音の特徴量に加え、その直前ないし直後に生成される音の特徴量を、当該区間の代表値により制御できる。

　構築部２３は、ＤＮＮで構成される生成モデルｍ（未訓練または予備訓練済）を用意し、各参照データＤ２から抽出された参照音データ列と、生成された入力特徴量列および対応する参照楽譜データＤ４から生成される楽譜特徴量列とに基づいて、その生成モデルｍを訓練する機械学習を行う。この訓練により、入力特徴量列および楽譜特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルＭが構築される。用意される生成モデルｍは、図４に示すように、１つのＤＮＮＬ１を含んでもよいし、複数のＤＮＮを含んでもよい。構築部２３は、構築された訓練済モデルＭを記憶部１４０等に記憶させる。

　（４）音生成処理
　図８は、図２の音生成装置１０による音生成処理の一例を示すフローチャートである。図８の音生成処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された音生成プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、使用者により楽譜データＤ３が選択されたか否かを判定する（ステップＳ１）。楽譜データＤ３が選択されない場合、ＣＰＵ１３０は、楽譜データＤ３が選択されるまで待機する。

　楽譜データＤ３が選択された場合、ＣＰＵ１３０は、図３の受付画面１を表示部１６０に表示させる（ステップＳ２）。受付画面１の参照領域２には、ステップＳ１で選択された楽譜データＤ３に基づく参照画像４が表示される。次に、ＣＰＵ１３０は、受付画面１の入力領域３上で音符列の各区間における特徴量（例えば、振幅）の代表値を受け付ける（ステップＳ３）。

　続いて、ＣＰＵ１３０は、訓練済モデルＭを用いて、ステップＳ１で選択された楽譜データＤ３の楽譜特徴量列およびステップＳ４で受け付けられた代表値から生成された第１の特徴量列を処理して、結果データＤ１を生成する（ステップＳ４）。その後、ＣＰＵ１３０は、ステップＳ４で生成された結果データＤ１から時間領域の波形である音声信号を生成し（ステップＳ５）、音生成処理を終了する。

　（５）訓練処理
　図９は、図６の訓練装置２０による訓練処理の一例を示すフローチャートである。図９の訓練処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された訓練プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、記憶部１４０等から訓練に用いる複数の参照データＤ２を取得する（ステップＳ１１）。次に、ＣＰＵ１３０は、ステップＳ１１で取得された各参照データＤ２から参照音データ列を抽出する（ステップＳ１２）。また、ＣＰＵ１３０は、各参照データＤ２から出力特徴量列（例えば、振幅の時系列）を抽出する（ステップＳ１３）。

　続いて、ＣＰＵ１３０は、抽出された出力特徴量列と対応する参照楽譜データＤ４とから音符列の各音符の各区間の代表値（例えば、振幅の最大値）を決定し、決定された各区間の代表値に基づいて入力特徴量列（例えば、３つの振幅の時系列）を生成する（ステップＳ１４）。その後、ＣＰＵ１３０は、生成モデルｍを用意し、各参照データＤ２に対応する参照楽譜データＤ４に基づく楽譜特徴量列および入力特徴量列と、参照音データ列とに基づいてその生成モデルｍを訓練し、楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を生成モデルｍに機械学習させる（ステップＳ１５）。

　次に、ＣＰＵ１３０は、生成モデルｍが入出力関係を習得するために十分な機械学習が実行されたか否かを判定する（ステップＳ１６）。機械学習が不十分な場合、ＣＰＵ１３０はステップＳ１５に戻る。十分な機械学習が実行されるまで、ステップＳ１５～Ｓ１６が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルＭが満たすべき品質条件に応じて変化する。ステップＳ１６の判定は、品質条件の指標となる損失関数に基づいて行われる。例えば、入力特徴量列（および楽譜特徴量列）を供給された生成モデルｍが出力する音データ列と、参照音データ列との差異を示す損失関数が、所定の値よりも小さくなれば、機械学習が十分と判定される。所定の値は、処理システム１００の利用者によって、所望の品質（品質条件）に応じて適宜設定されてもよい。また、このような判定に代えて、または、このような判定と共に、繰り返し回数が所定の回数に到達したか否かが判定されてもよい。十分な機械学習が実行された場合、ＣＰＵ１３０は、その訓練により楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を習得した生成モデルｍを、構築された訓練済モデルＭとして保存し（ステップＳ１７）、訓練処理を終了する。この訓練処理により、入力特徴量列および参照楽譜データＤ４（または、参照楽譜データＤ４から生成される楽譜特徴量列）と、参照音データ列との間の入出力関係を習得した訓練済モデルＭが構築される。

　なお、実施形態においては、１つの音符がアタック、ボディ、リリースの３区間に区分される例を説明したが、区間の区分方法はこれに限られるものではない。例えば、アタックとその後（ボディとリリース）の２区間に区分してもよい。あるいは、ボディが所定長より長ければ、そのボディを複数のサブボディに区分し、全体として４以上の区間となるよう区分してもよい。

　また、実施形態において、第１の特量量列および入力特徴量列が、それぞれ、音符の全区間の特徴量列、例えば、アタックとボディとリリースの３つの特徴量列を含む例を説明した。しかしながら、第１の特量量列および入力特徴量列が、それぞれ、音符の区分された全区間の特徴量列を含んでいることは必須ではない。すなわち、第１の特量量列および入力特徴量列は、それぞれ、音符の区分された複数の区間の内のいずれかの区間の特徴量列を含んでいなくてもよい。例えば、第１の特徴量列および入力特徴量列は、それぞれ、アタックの特徴量列だけを含んでいてもよい。あるいは、第１の特徴量列および入力特徴量列は、それぞれ、アタックとリリースの２特徴量列だけを含んでいてもよい。

　さらに、実施形態においては、第１の特量量列および入力特徴量列が、それぞれ、音符の区分された区間（例えば、アタック、ボディ、およびリリース）毎に独立した複数の特徴量列を含む例を説明した。しかしながら、第１の特量量列および入力特徴量列が、それぞれ、音符の区分された区間毎に独立した複数の特徴量列を含むことは必須ではない。例えば、第１の特徴量列を単一特徴量列とし、その単一特徴量列に、音符の区分された区間の特徴量の代表値（例えば、アタックの代表値、ボディの代表値、およびリリースの代表値）を全て含めてもよい。その単一特徴量列では、或る区間とその次の区間とを接続する微小範囲（数フレーム程度の長さ）において、或る区間の代表値から次の区間の代表値へ徐々に変化するよう、特徴量が平滑化されていてもよい。

　（６）実施形態の効果
　以上説明したように、本実施形態に係る音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。前述の通り、「音楽的な特徴量」との語は、特徴量が音楽的な種別（例えば、振幅、ピッチ、音色など）であることを示す。第１の特徴量列および第２の特徴量列は、いずれも、「音楽的な特徴量」の時系列データの一例である。すなわち、第１の特徴量列および第２の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。

　この方法によれば、音楽的な特徴量の音符の部分ごとの代表値が入力される場合でも、高い精細度で連続的に変化する特徴量列に対応する音データ列が生成される。生成される音データ列は、音楽的な特徴量が詳細に（言い換えれば、絶え間なくないし連続的に素早く）時間変化し、自然な音波形を示す。したがって、使用者は、音楽的な特徴量の詳細な時間変化を入力する必要がない。

　複数の区間は、少なくともアタックを含んでもよい。この方法によれば、少なくともアタックを含む複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する。

　複数の区間は、さらに、ボディとリリースの何れかを含んでもよい。この方法によれば、ボディとリリースの何れかを含む複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する。

　訓練済モデルは、機械学習により、音波形を示す参照データの各区間の音楽的な特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する音楽的な特徴量を示す出力特徴量列との間の入出力関係を習得済であってもよい。なお、出力特徴量列および入力特徴量列は、いずれも、「音楽的な特徴量」の時系列データの一例である。すなわち、出力特徴量列および入力特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。

　入力特徴量列は、区間毎に独立した複数の特徴量列を含んでもよい。

　入力特量量列は、その値が急激に変化しないよう平滑化された特徴量列であってもよい。

　各区間の代表値は、出力特徴量列において、当該区間内の音楽的な特徴量の統計値を示してもよい。

　音生成方法は、音符列における音符の各区間の音楽的な特徴量が表示される受付画面をさらに提示し、代表値は、受付画面を用いて、ユーザ（使用者）により入力されてもよい。この場合、使用者は、音符列における複数の音符の時間軸上での位置を視認しつつ、代表値を容易に入力することができる。

　前記音生成方法は、さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換してもよい。

　本実施形態に係る訓練方法は、音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。

　この方法によれば、音符列における各音符の各区間の音楽的な特徴量の代表値が入力される場合でも、音楽的な特徴量が高い精細度で絶え間なくないし連続的に時間変化する第２の特徴量列に対応する音データ列を生成可能な訓練済モデルＭが構築される。

　入力特徴量列は、出力特徴量列において、複数の区間の各々の音楽的な特徴量から決定された代表値に基づいて生成されてもよい。

　（７）振幅以外の特徴量を用いる例
　上記実施形態において、使用者は、生成される音を制御する制御値として各音符の各区間の振幅の最大値を入力するが、実施形態はこれに限定されない。制御値として用いるのは振幅以外のいかなる特徴量でもよく、最大値以外のいかなる代表値でもよい。以下、第２実施形態に係る音生成装置１０および訓練装置２０について、第１実施形態に係る音生成装置１０および訓練装置２０と共通する点と異なる点とを説明する。

　本実施形態における音生成装置１０は、以下の点を除いて、図２を参照して説明した第１実施形態の音生成装置２０と同様である。提示部１１は、使用者により選択された楽譜データＤ３に基づいて、受付画面１を表示部１６０に表示させる。図１０は、第２実施形態における受付画面１の一例を示す図である。図１０に示すように、本実施形態における受付画面１には、図３の入力領域３に代えて、３つの入力領域３ａ，３ｂ，３ｃが参照領域２と対応するように配置される。

　図１０の例では、参照画像４の各音符のアタック、ボディおよびリリースの３区間の特徴量の代表値が、上下方向に延びるバーとして、３つの入力領域３ａ，３ｂ，３ｃにそれぞれ表示される。第２実施形態における特徴量はピッチであり、代表値は各区間におけるピッチの分散である。入力領域３ａの各バーの長さは、対応する音符のアタックにおけるピッチの分散を示す。入力領域３ｂの各バーの長さは、対応する音符のボディにおけるピッチの分散を示す。入力領域３ｃの各バーの長さは、対応する音符のリリースにおけるピッチの分散を示す。

　使用者は、操作部１５０を用いて各バーの長さを変化させることにより、音符列における各音符のアタック、ボディおよびリリースの各区間の特徴量の代表値を入力領域３ａ，３ｂ，３ｃにそれぞれ入力する。受付部１２は、入力領域３ａ～３ｃの上に入力された代表値を受け付ける。

　生成部１３は、訓練済モデルＭを用いて、楽譜データＤ３に基づく楽譜特徴量列および各音符の３つの代表値（ピッチの分散）に基づく第１の特徴量列を処理して、結果データＤ１を生成する。結果データＤ１は、ピッチが高い精細度で連続的に変化する第２の特徴量列を含む音データ列である。生成部１３は、生成された結果データＤ１を記憶部１４０等に記憶させてもよい。また、生成部１３は、周波数領域の結果データＤ１に基づいて、時間領域の波形である音声信号を生成し、サウンドシステムに供給する。なお、生成部１３は、結果データＤ１に含まれる第２の特徴量列（ピッチの時系列）を表示部１６０に表示させてもよい。

　本実施形態における訓練装置２０は、以下の点を除いて、図６を参照して説明した第１実施形態の訓練装置２０と同様である。本実施形態においては、図９の訓練処理のステップＳ１３で抽出すべき出力特徴量列であるピッチの時系列は、直前のステップＳ１２において、参照音データ列の一部として抽出済みである。ＣＰＵ１３０（抽出部２１）は、ステップＳ１３において、複数の参照データＤ２の各々における振幅の時系列を、出力特徴量列としてではなく、音を３つの部分に分離する指標として抽出する。

　次のステップＳ１４において、ＣＰＵ１３０は、その振幅の時系列に基づいて、参照音データ列に含まれるピッチの時系列（出力特徴量列）を、音のアタック、音のリリースおよびアタックとリリースとの間のボディの３区間に分け、各区間のピッチ列をそれぞれ統計分析してその区間のピッチの分散を決定し、決定された各区間の代表値に基づいて入力特徴値列を生成する。

　また、ＣＰＵ１３０（構築部２３）は、ステップＳ１５～Ｓ１６において、各参照データＤ２から生成した参照音データ列と入力特徴量とに対応する参照楽譜データＤ４に基づいて、機械学習（生成モデルｍの訓練）を繰り返し行うことにより、参照楽譜データＤ４に対応する楽譜特徴量列および入力特徴量列と、出力特徴量に対応する参照音データ列との間の入出力関係を習得した訓練済モデルＭを構築する。

　本実施形態の音生成装置１０において、使用者は、音符列の各音符のアタック、ボディおよびリリースの各区間のピッチの分散を入力することにより、その区間の付近において生成される音の、高い精細度で連続的に変化するピッチの変化幅を効果的に制御できる。なお、受付画面１は入力領域３ａ～３ｃを含むが、実施形態はこれに限定されない。受付画面１は、入力領域３ａ，３ｂ，３ｃのうち、いずれか１つまたは２つの入力領域を含まなくてもよい。また、本実施形態においても、受付画面１は参照領域２を含まなくてもよい。

　１…受付画面，２…参照領域，３，３ａ～３ｃ…入力領域，４…参照画像，１０…音生成装置，１１…提示部，１２…受付部，１３…生成部，１４…処理部，２０…訓練装置，２１…抽出部，２２…生成部，２３…構築部，１００…処理システム，１１０…ＲＡＭ，１２０…ＲＯＭ，１３０…ＣＰＵ，１４０…記憶部，１５０…操作部，１６０…表示部，１７０…バス，Ｄ１…結果データ，Ｄ２…参照データ，Ｄ３…楽譜データ，Ｄ４…参照楽譜データ，Ｌ１…ＤＮＮ，ｍ…生成モデル，Ｍ…訓練済モデル

Claims

　複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、
　訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、前記音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する、
　コンピュータにより実現される音生成方法。
　前記複数の区間は、少なくともアタックを含む、請求項１記載の音生成方法。
　前記複数の区間は、さらに、ボディとリリースの何れかを含む、請求項２記載の音生成方法。
　前記訓練済モデルは、機械学習により、音波形を示す参照データの前記各区間の前記音楽的な特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する前記音楽的な特徴量を示す出力特徴量列との間の入出力関係を習得済である、請求項１～３のいずれか一項に記載の音生成方法。
　前記入力特徴量列は、区間毎に独立した複数の特徴量列を含む、請求項４記載の音生成方法。
　前記入力特量量列は、その値が急激に変化しないよう平滑化された特徴量列である、請求項４または５記載の音生成方法。
　各区間の前記代表値は、前記出力特徴量列において、当該区間内の前記音楽的な特徴量の統計値を示す、請求項１～６のいずれか一項に記載の音生成方法。
　音符列における音符の各区間の音楽的な特徴量が表示される受付画面をさらに提示し、
　前記代表値は、前記受付画面を用いて、ユーザにより入力される、請求項１～７のいずれか一項に記載の音生成方法。
　さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換する、請求項１～８のいずれか一項に記載の音生成方法。
　音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
　前記出力特徴量列から前記音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成し、
　前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する、
　コンピュータにより実現される訓練方法。
　前記入力特徴量列は、前記出力特徴量列において、複数の区間の各々の音楽的な特徴量から決定された代表値に基づいて生成される、請求項１０記載の訓練方法。
　前記入力特徴量列は、区間毎に独立した複数の特徴量列を含む、請求項１０または１１記載の音生成方法。
　複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付ける受付部と、
　訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、前記音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する生成部とを備える、音生成装置。
　音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、
　前記出力特徴量列から前記音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成する生成部と、
　前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える、訓練装置。
　１ないし複数のコンピュータに、
　複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、
　訓練済モデルを用いて、前記各区間の代表値に応じた第１の特徴量列を処理して、前記音楽的な特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成するステップを行わせる、音生成プログラム。
　１ないし複数のコンピュータに、
　音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
　前記出力特徴量列から前記音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成し、
　前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係習得した訓練済モデルを構築するステップを行わせる、訓練プログラム。