WO2022202415A1

WO2022202415A1 - 機械学習モデルを用いた信号処理方法、信号処理装置および音生成方法

Info

Publication number: WO2022202415A1
Application number: PCT/JP2022/011067
Authority: WO
Inventors: 竜之介大道
Original assignee: ヤマハ株式会社
Priority date: 2021-03-25
Filing date: 2022-03-11
Publication date: 2022-09-29
Also published as: JPWO2022202415A1; CN117043854A; US20240029695A1

Abstract

信号処理装置は、受付部および音響生成部を備える。受付部は、音楽的な特徴を示す制御値を受け取る。また、受付部は、第１の強制度と、第１の強制度よりも低い第２の強制度とのいずれか一方を選択するための選択信号を受け取る。音響生成部は、訓練済モデルを用いて、第１の強制度に応じて制御値を反映した音響特徴量列と、第２の強制度に応じて制御値を反映した音響特徴量列とのうちの、選択信号に応じたいずれか一方を生成する。

Description

機械学習モデルを用いた信号処理方法、信号処理装置および音生成方法

　本発明は、音を生成することが可能な信号処理方法、信号処理装置および音生成方法に関する。

　特定の歌手の歌い方で歌唱を行う音源として、ＡＩ（人工知能）歌手が知られている。ＡＩ歌手は、特定の歌手による歌唱の特徴を学習することにより、当該歌手を模擬して任意の音信号を生成する。ここで、ＡＩ歌手は、学習した歌手による歌唱の特徴だけでなく、使用者による歌い方の指示も反映して音信号を生成可能であることが好ましい。
Jesse Engel, Lamtharn Hantrakul, Chenjie Gu and Adam Roberts, "DDSP: Differentiable Digital Signal Processing", arXiv:2001.04643v1 [cs.LG] 14 Jan 2020

　非特許文献１には、使用者の入力音に基づいて音信号を生成するニューラル合成モデルが記載されている。この合成モデルでは、合成中に、使用者は、合成モデルにピッチまたは音量を指示できる。しかしながら、合成モデルに高品質な音信号を生成させるには、使用者は、ピッチまたは音量を詳細に指示する必要がある。しかしながら、詳細に指示することは、使用者にとって面倒である。

　本発明の目的は、使用者が面倒な作業をすることなく、高品質な音信号を生成可能な信号処理方法、信号処理装置および音生成方法を提供することである。

　本発明の一局面に従う信号処理方法は、音楽的な特徴を示す制御値を受け取り、第１の強制度と、第１の強制度よりも低い第２の強制度とのいずれか一方を選択するための選択信号を受け取り、訓練済モデルを用いて、第１の強制度に応じて制御値を反映した音響特徴量列と、第２の強制度に応じて制御値を反映した音響特徴量列とのうちの、選択信号に応じたいずれか一方を生成し、コンピュータにより実現される。

　本発明の他の局面に従う信号処理装置は、音楽的な特徴を示す制御値を受け取るとともに、第１の強制度と、第１の強制度よりも低い第２の強制度とのいずれか一方を選択するための選択信号を受け取る受取部と、訓練済モデルを用いて、第１の強制度に応じて制御値を反映した音響特徴量列と、第２の強制度に応じて制御値を反映した音響特徴量列とのうちの、選択信号に応じたいずれか一方を生成する音響生成部とを備える。

　本発明のさらに他の局面に従う音生成方法は、与えられた音符列に対応する楽曲の音を生成するシステムにおいて、使用者から音楽的な特徴を示す制御値の指示を受け取り、第１の強制度で使用者から制御値の指示を受け取ったときには、訓練済みモデルを用いて、使用者からの指示を第１の強制度に応じて反映した音を生成し、第２の強制度で使用者から制御値の指示を受け取ったときには、訓練済みモデルを用いて、使用者からの指示を第１の強制度よりも低く反映した音を生成する。

　本発明によれば、使用者の面倒な作業なしに、高品質な音信号を生成できる。

図１は本発明の一実施形態に係る信号処理装置を含む処理システムの構成を示すブロック図である。図２は信号処理装置の構成を示すブロック図である。図３は表示部に表示されるＧＵＩの一例を示す図である。図４は訓練装置の構成を示すブロック図である。図５は訓練装置の動作を説明するための図である。図６は訓練装置の動作を説明するための図である。図７は訓練装置の動作を説明するための図である。図８は訓練装置の動作を説明するための図である。図９は図２の信号処理装置による信号処理の一例を示すフローチャートである。図１０は図４の訓練装置による訓練処理の一例を示すフローチャートである。図１１は第１変形例における処理システムを示す模式図である。図１２は第２変形例における処理システムを示す模式図である。

　（１）処理システムの構成
　以下、本発明の実施形態に係る信号処理方法、信号処理装置および音生成方法について図面を用いて詳細に説明する。図１は、本発明の一実施形態に係る信号処理装置を含む処理システムの構成を示すブロック図である。図１に示すように、処理システム１００は、ＲＡＭ（ランダムアクセスメモリ）１１０、ＲＯＭ（リードオンリメモリ）１２０、ＣＰＵ（中央演算処理装置）１３０、記憶部１４０、操作部１５０および表示部１６０を備える。

　処理システム１００は、例えばＰＣ、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム１００は、イーサネット等の通信路で接続された複数のコンピュータの共同動作で実現されてもよい。ＲＡＭ１１０、ＲＯＭ１２０、ＣＰＵ１３０、記憶部１４０、操作部１５０および表示部１６０は、バス１７０に接続される。ＲＡＭ１１０、ＲＯＭ１２０およびＣＰＵ１３０により信号処理装置１０および訓練装置２０が構成される。本実施形態では、信号処理装置１０と訓練装置２０とは共通の処理システム１００により構成されるが、別個の処理システムにより構成されてもよい。

　ＲＡＭ１１０は、例えば揮発性メモリからなり、ＣＰＵ１３０の作業領域として用いられる。ＲＯＭ１２０は、例えば不揮発性メモリからなり、信号処理プログラムおよび訓練プログラムを記憶する。ＣＰＵ１３０は、ＲＯＭ１２０に記憶された信号処理プログラムをＲＡＭ１１０上で実行することにより信号処理を行う。また、ＣＰＵ１３０は、ＲＯＭ１２０に記憶された訓練プログラムをＲＡＭ１１０上で実行することにより訓練処理を行う。信号処理および訓練処理の詳細については後述する。

　信号処理プログラムまたは訓練プログラムは、ＲＯＭ１２０ではなく記憶部１４０に記憶されてもよい。あるいは、信号処理プログラムまたは訓練プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ＲＯＭ１２０または記憶部１４０にインストールされてもよい。あるいは、処理システム１００がインターネット等のネットワークに接続されている場合には、ネットワーク上のサーバ（クラウドサーバを含む。）から配信された信号処理プログラムがＲＯＭ１２０または記憶部１４０にインストールされてもよい。

　記憶部１４０は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶部１４０には、未訓練の生成モデルｍ、訓練済モデルＭ、複数の楽譜データＤ１、複数の参照楽譜データＤ２および複数の参照データＤ３が記憶される。各楽譜データＤ１は、時間軸上に配置された複数の音符の時系列（音符列）を楽譜特徴量列として含む楽譜を示す。

　訓練済モデルＭは、例えばＤＮＮ（深層ニューラルネットワーク）を含む。訓練済モデルＭは、楽譜データＤ１の楽譜特徴量列を受け取り、楽譜特徴量列を反映した音響特徴量列を生成する生成モデルである。音響特徴量列は、ピッチ、音量および周波数スペクトル等のうちいずれかの音響特徴を示す特徴量の時系列である。訓練済モデルＭは、音楽的な特徴を示す制御値をさらに受け取った場合には、楽譜特徴量列と制御値とを反映した音響特徴量列を生成する。制御値は、使用者により指示される音量等の特徴量である。

　ここでは、訓練済モデルＭが生成する第１音響特徴量列は、周波数スペクトルの時系列であり、また、制御値は、音量の時系列を示す第２音響特徴量列から生成されるものとする。これは１つの例示であり、訓練済モデルＭは、それ以外の音響特徴量を示す第１音響特徴量列を生成してもよいし、制御値は、それ以外の音響特徴量を示す第２音響特徴量列から生成されてもよい。第１音響特徴量と第２音響特徴量とが同じ特徴量であってもよい。例えば、訓練済モデルＭは、ピッチ変化の概形を示す制御値列から、詳細なピッチ変化を示す音響特徴量列を生成するように訓練されていてもよい。

　信号処理装置１０は、訓練済モデルＭを用いて、生成する音響特徴量列への制御値の反映の程度を選択する選択信号に応じて複数の強制度で制御値が反映された複数の音響特徴量列のうち、その選択信号に対応するいずれかの音響特徴量列を選択的に生成する。訓練済モデルＭは、自己回帰型ＤＮＮを含んでもよい。この訓練済モデルＭは、リアルタイムな制御値および強制度の変化に対応して、音響特徴量列を生成する。

　各参照楽譜データＤ２は、時間軸上に配置された複数の音符の時系列を含む楽譜を示す。訓練済モデルＭに入力される楽譜特徴量列は、各参照楽譜データＤ２から生成される。各参照データＤ３は、その音符の時系列を演奏した演奏音波形のサンプルの時系列を示す波形データである。複数の参照楽譜データＤ２と複数の参照データＤ３とはそれぞれ対応する。参照楽譜データＤ２および対応する参照データＤ３は、訓練装置２０による訓練済モデルＭの構築に用いられる。

　具体的には、各参照データＤ３から、周波数スペクトルの時系列が第１参照音響特徴量列として抽出され、音量の時系列が第２参照音響特徴量列として抽出される。また、第２参照音響特徴量列から、音楽的な特徴を示す制御値の時系列が、参照制御値列として取得される。ここでは、複数の強制度に対応して、第２参照音響特徴量列から、互いに精細度（fineness）が異なる、複数の参照制御値列が生成される。精細度は特徴量の時間変化の頻度を示し、精細度が高くなるほど、特徴量の値は頻繁に変化する。また、高い精細度は高い強制度に対応し、低い精細度は低い強制度に対応する。第２参照音響特徴量列の精細度を、各強制度に対応する、より低い精細度まで下げることにより、その強制度に対応する参照制御値列が得られる。したがって、いずれの強制度に対応する参照制御値列も、第２参照音響特徴量列よりは精細度が低い。訓練済モデルＭは、参照楽譜特徴量列および各強制度における複数の参照制御値列と、対応する第１参照音響特徴量列との入出力関係を、生成モデルｍが習得することにより構築される。

　未訓練の生成モデルｍ、訓練済モデルＭ、楽譜データＤ１、参照楽譜データＤ２および参照データＤ３等は、記憶部１４０に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム１００がネットワークに接続されている場合には、未訓練の生成モデルｍ、訓練済モデルＭ、楽譜データＤ１、参照楽譜データＤ２および参照データＤ３等は、ネットワーク上のサーバに記憶されていてもよい。

　操作部１５０は、マウス等のポインティングデバイスまたはキーボードを含み、制御値の指示等を行うために使用者により操作される。表示部１６０は、例えば液晶ディスプレイを含み、所定のＧＵＩ（Graphical User Interface）等を表示する。操作部１５０および表示部１６０は、タッチパネルディスプレイにより構成されてもよい。

　また、表示部１６０には、後述する図１１または図１２に示すように、楽譜データＤ１の演奏を行うＡＩ歌手等の模擬的な演奏者の画像が表示されてもよい。さらに、使用者による操作に基づく演奏の変化に対応して、表示部１６０に表示された演奏者の表示態様および盛り上がり具合を示す強調エフェクトが変化されてもよい。

　（２）信号処理装置
　図２は、信号処理装置１０の構成を示すブロック図である。図３は、表示部１６０に表示されるＧＵＩの一例を示す図である。図２に示すように、信号処理装置１０は、受付部１１、信号生成部１２および音響生成部１３を含む。受付部１１、信号生成部１２および音響生成部１３の機能は、図１のＣＰＵ１３０が信号処理プログラムを実行することにより実現される。受付部１１、信号生成部１２および音響生成部１３の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

　受付部１１は、図３に示すように、使用者により操作されるＧＵＩ３０を表示部１６０に表示させる。ＧＵＩ３０には、一方向に延びる指示バー３１と、指示バー３１上で移動可能なスライダ３２とが表示される。指示バー３１上におけるスライダ３２の位置は、音楽的な特徴を示す制御値に対応する。使用者は、図１の操作部１５０を操作して指示バー３１上でスライダ３２を移動させることにより、スライダ３２の位置に応じた制御値を指示する。受付部１１は、ＧＵＩ３０を通して指示された制御値を操作部１５０から受け付ける。

　また、本例では、信号処理のための強制度として、使用者が、第１、第２および第３の強制度のいずれかを選択可能であり、ＧＵＩ３０には、第１、第２および第３の強制度にそれぞれ対応するチェックボックス３３ａ，３３ｂ，３３ｃがさらに表示される。使用者は、操作部１５０を操作して所望の強制度に対応するチェックボックス３３ａ～３３ｃをチェックすることにより、その強制度を選択することができる。

　ここで、第１の強制度は第２の強制度よりも高く、第２の強制度は第３の強制度よりも高い。具体的には、第１の強制度においては、訓練済モデルＭにより生成される音響特徴量列は、制御値に相対的に強く強制され、制御値の変化に対して比較的タイトに追随して時間的に変化する。第２の強制度においては、生成される音響特徴量列は、制御値に相対的に弱く強制され、制御値の変化に対して比較的ルーズに追随して時間的に変化する。例えば、第３の強制度がゼロであれば、生成される音響特徴量列は、制御値とは無関係に変化する。

　図３の例では、ＧＵＩ３０に強制度を選択するためのチェックボックスが表示されるが、実施形態はこれに限定されない。ＧＵＩ３０には、チェックボックスに代えて、強制度を選択するためのプルダウンメニュー等が表示されてもよい。信号生成部１２は、ＧＵＩ３０を通して操作部１５０で使用者により選択された強制度を示す選択信号を生成する。

　強制度は、使用者により選択されずに、自動的に選択されてもよい。具体的には、信号生成部１２は、楽譜データＤ１を分析して、急に強弱が変化する部分（フォルテまたはピアノ等の強弱記号が付された部分等）を検出し、それらの部分では高い強制度を選択し、それ以外の部分では低い強制度を選択してもよい。そして、信号生成部１２は、各時点ｔに、楽譜データＤ１に基づいて自動選択された強制度を示す選択信号を生成して、音響生成部１３に供給する。そのため、ＧＵＩ３０には、チェックボックス３３ａ～３３ｃが表示されない。

　使用者は、操作部１５０を操作して、記憶部１４０等に記憶された複数の楽譜データＤ１の中から、信号処理に用いる楽譜データＤ１を指定する。音響生成部１３は、記憶部１４０等に記憶された訓練済モデルＭと、使用者により指定された楽譜データＤ１とを取得する。音響生成部１３は、信号生成部１２から選択信号を受け取る信号受取部として機能する。また、音響生成部１３は、制御値から、選択信号が示す強制度に応じた、複数の要素からなる制御ベクトルを生成するベクトル生成部として機能する。制御ベクトルの詳細については後述する。音響生成部１３は、各時点ｔに、取得した楽譜データＤ１から楽譜特徴量を生成するとともに、受け取った選択信号が示す強制度に応じて、受付部１１からの制御値を処理し、生成された楽譜特徴量と処理された制御値とを、訓練済モデルＭに供給する。

　これにより、訓練済モデルＭは、各時点ｔに、選択信号が示す強制度に応じて制御値が反映され、かつ、楽譜データＤ１に対応した音響特徴量列を生成する。各時点ｔの音響特徴量に基づいて、公知のボコーダ等の音信号生成装置（図示せず）により音信号が生成される。生成された音信号は、スピーカ等の再生装置（図示せず）に供給され、音に変換される。

　（３）訓練装置
　図４は、訓練装置２０の構成を示すブロック図である。図５～図８は、訓練装置２０の動作を説明するための図である。図４に示すように、訓練装置２０は、抽出部２１、取得部２２および構築部２３を含む。抽出部２１、取得部２２および構築部２３の機能は、図１のＣＰＵ１３０が訓練プログラムを実行することにより実現される。抽出部２１、取得部２２および構築部２３の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

　抽出部２１は、記憶部１４０等に記憶された各参照データＤ３における音波形から第１参照音響特徴量列と第２参照音響特徴量列とを抽出する。図５の上段には、参照データＤ３における音波形の一例が示される。図５の下段には、上記の音波形を示す参照データＤ３から抽出された第２参照音響特徴量列が示される。図５に示すように、第２参照音響特徴量列における特徴量（本例では音量）は、高い精細度で時間的に変化する。

　取得部２２は、抽出部２１からの各第２参照音響特徴量列の精細度を、複数の強制度に応じて下げることにより、複数の強制度に対応する複数の参照制御値列を生成する。高い精細度は、高い強制度に対応する。本例では、図６に示すように、取得部２２は、各時点ｔを含む所定期間Ｔ内の第２参照音響特徴量列の代表値を抽出する。ここで、隣り合う２時点の間隔は、例えば５ミリ秒であり、各時点ｔは、対応する所定期間Ｔの中心に位置する。図６の例では、各時点ｔの代表値を、対応する期間Ｔ内の第２参照音響特徴量列の最大値とするが、実施形態はこれに限定されない。各時点ｔの代表値は、対応する期間Ｔ内の第２参照音響特徴量列の平均値、中央値、最頻値、分散または標準偏差等の統計値でよい。

　期間Ｔが長いほど、その期間Ｔを用いて第２参照音響特徴量列から生成される代表値の時系列の精細度は低くなる。したがって、高い強制度は、短い期間Ｔに対応する。例えば、より高い第１の強制度に対応する期間Ｔの長さを１秒とし、より低い第２の強制度に対応する期間Ｔの長さを３秒とする。

　取得部２２は、強制度に応じて第２参照音響特徴量列から抽出された複数の時点ｔの代表値を時系列順に配列することにより、強制度に応じた精細度の参照制御値列を生成する。図７の上段には、第１の強制度に対応する参照制御値列（第１の参照制御値列）が示される。図７の下段には、第２の強制度に対応する参照制御値列（第２の参照制御値列）が示される。図７に示すように、低い強制度に対応する参照制御値列における特徴量は、低い精細度で時間的に変化する。

　さらに、取得部２２は、各強制度に対応する参照制御値列から、その強制度における参照制御ベクトル列を生成する。本例では、参照制御ベクトル列の各ベクトルは、５要素を含む。５要素のうちの第１および第２要素は第１の強制度に対応し、第３および第４要素は第２の強制度に対応し、第５要素は第３の強制度に対応する。例えば、図８の上段の第１の強制度における参照制御ベクトル列では、第１の強制度に対応する第２参照音響特徴量列の各特徴量が、ベクトルの第１要素および第２要素に反映される。その特徴量が小さいほど、第１要素が大きく、第２要素が小さい（上段の左図）。一方、その特徴量が大きいほど、第１要素が小さく、第２要素が大きい（上段の右図）。第１要素と第２要素との和は１であり、第１の強制度に対応しない第３～第５要素はゼロに設定される。

　同様に、図８の中段の第２の強制度における参照制御ベクトル列では、第２の強制度に対応する第２参照音響特徴量列の各特徴量が、ベクトルの第３要素および第４要素に反映される。その特徴量が小さいほど、第３要素が大きく、第４要素が小さい（中段の左図）。一方、その特徴量が大きいほど、第３要素が小さく、第４要素が大きい（中段の右図）。第３要素と第４要素との和は１であり、第２の強制度に対応しない第１、第２および第５要素はゼロに設定される。図８の下段の第３の強制度における参照制御ベクトル列では、第２参照音響特徴量列とは無関係であるため、ベクトルの第５要素がダミーの値を示す１に設定され、第３の強制度に対応しない第１～第４要素はゼロに設定される。

　構築部２３は、ＤＮＮにより構成される生成モデルｍ（未訓練または予備訓練済）を用意する。また、構築部２３は、機械学習の手法を用いて、抽出部２１からの第１参照音響特徴量列と、取得部２２からの対応する参照制御値列および対応する参照楽譜特徴量列とに基づいて生成モデルｍを訓練する。これにより、入力としてのその参照楽譜特徴量列および複数の強制度に応じた参照制御値列と、出力としての第１参照音響特徴量列との間の入出力関係を習得した訓練済モデルＭが構築される。

　入出力関係は、第１の入出力関係、第２の入出力関係および第３の入出力関係を含む。第１の入出力関係は、第１の強制度における音楽的特徴を示す第１要素および第２要素を含む第１参照制御ベクトルと、第１参照音響特徴量列との関係である。第２の入出力関係は、第２の強制度における音楽的な特徴を示す第３要素および第４要素を含む第２参照制御ベクトルと、第１参照音響特徴量列との関係である。第３の入出力関係は、第３の強制度における音楽的な特徴を示す第５要素を含む第３参照制御ベクトルと、第１参照音響特徴量列との関係である。構築部２３は、構築された訓練済モデルＭを記憶部１４０等に保存する。

　（４）信号処理
　図９は、図２の信号処理装置１０による信号成処理の一例を示すフローチャートである。図９の信号処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された信号処理プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、使用者により楽譜データＤ１が選択されたか否かを判定する（ステップＳ１）。楽譜データＤ１が選択されない場合、ＣＰＵ１３０は、楽譜データＤ１が選択されるまで待機する。

　楽譜データＤ１が選択された場合、ＣＰＵ１３０は、現時点ｔをその楽譜データの先頭に設定するとともに、図３のＧＵＩ３０を表示部１６０に表示させる（ステップＳ２）。また、ＣＰＵ１３０は、初期設定として予め定められた強制度（例えば第３の強制度）を示す選択信号を、現在の選択信号として生成する（ステップＳ３）。さらに、ＣＰＵ１３０は、初期設定として予め定められた音量値（例えば、－１０ｄＢ）を、現在の制御値として受け付ける（ステップＳ４）。ステップＳ２～Ｓ４は、いずれが先に実行されてもよいし、同時に実行されてもよい。

　次に、ＣＰＵ１３０は、ステップＳ２で表示されたＧＵＩ３０上で、使用者により強制度の選択が行われたか否かを判定する（ステップＳ５）。強制度が選択されない場合、ＣＰＵ１３０はステップＳ７に進む。強制度が選択された場合、ＣＰＵ１３０は、選択された強制度に応じた選択信号を受け取って現在の選択信号を更新し（ステップＳ６）、ステップＳ７に進む。

　ステップＳ７で、ＣＰＵ１３０は、ステップＳ２で表示されたＧＵＩ３０上で、使用者により制御値の指示が行われたか否かを判定する（ステップＳ７）。制御値が指示されない場合、ＣＰＵ１３０はステップＳ９に進む。制御値が指示された場合、ＣＰＵ１３０は、その指示に応じた制御値を受け付け、現在の制御値を更新し（ステップＳ８）、ステップＳ９に進む。ステップＳ５，Ｓ６と、ステップＳ７，Ｓ８とは、いずれが先に実行されてもよい。

　ステップＳ９で、ＣＰＵ１３０は、訓練済モデルＭを用いて、ステップＳ１で選択された楽譜データＤ１と、ステップＳ３またはＳ６で生成された現在の選択信号と、ステップＳ４またはＳ８で受け付けた現在の強制度とに応じた、現時点ｔの音響特徴量（周波数スペクトル）を生成する。詳しく述べると、ＣＰＵ１３０は、まず、楽譜データＤ１から現在の楽譜特徴量を生成するとともに、現在の制御値から、現在の選択信号が示す強制度に応じた現在の制御ベクトルを生成する。つまり、現在の選択信号が第１の強制度を示す場合は、現在の制御値は制御ベクトルの第１要素および第２要素に反映され（図８上段）、第２の強制度を示す場合は、現在の制御値は第３要素および第４要素に反映され（図８中段）、第３の強制度を示す場合は、第５要素が１の値に設定され（図８下段）、さらに、その他の要素は０の値に設定される。ＣＰＵ１３０は、訓練済モデルＭを用いて、楽譜データＤ１の現在の楽譜特徴量と、現在の制御ベクトルとを処理する。これにより、ＣＰＵ１３０は、現在の選択信号が示す強制度に応じて現在の制御値を反映した現在の音響特徴量を生成する（ステップＳ９）。音信号生成装置により、現在の音響特徴量（周波数スペクトル）から音信号が生成され、再生装置により再生される。

　その後、ＣＰＵ１３０は、楽譜データＤ１の演奏の現時点ｔが終了時点に達したか否かを判定する（ステップＳ１０）。現時点ｔがまだ演奏終了時点でない場合、ＣＰＵ１３０は、次の時点ｔまで待って（ｔ＝ｔ＋１）、ステップＳ５に戻る。演奏が終了するまで、各時点ｔで、ステップＳ５～Ｓ１０がＣＰＵ１３０により繰り返し実行される。ここで、ステップＳ５への戻りを次の時点までの待機しているのは、与えられる制御値をリアルタイムに音信号に反映するためである。制御値の時間変化が予め決められている（プログラムされている）場合は、次の時点までの待機をせず、処理をステップＳ５に戻してよい。

　ＣＰＵ１３０によるステップＳ５，Ｓ６の繰り返し実行により、選択信号列を受け取る。ステップＳ７，Ｓ８の繰り返し実行により、制御値列を受け取る。使用者がスライダ３２でリアルタイムに手動入力する場合、細かい操作はできないので、受け取る制御値列の精細度は必然的に低くなる。

　ステップＳ９の繰り返し実行により、楽譜データＤ１から楽譜特徴量列が生成されるとともに、その受け付けた制御値列から、その受け取った選択信号列に対応する制御ベクトル列が生成される。また、ＣＰＵ１３０によるステップＳ９の繰り返し実行により、訓練済モデルＭを用いた、楽譜特徴量列と制御ベクトル列とに応じた音響特徴量列の生成が行われる。

　選択信号列が継続的に第１の強制度を示す期間には、制御値列から図８上段に示される制御ベクトル列が生成され、訓練済モデルＭで処理される。その結果、訓練済モデルＭにより生成される音響特徴量（周波数スペクトル）の音量は、制御値列における制御値（音量）の変化に対してタイトに追随して変化する。

　選択信号列が継続的に第２の強制度を示す期間には、制御値列から図８中段に示される制御ベクトル列が生成され、訓練済モデルＭで処理される。その結果、訓練済モデルＭにより生成される音響特徴量（周波数スペクトル）の音量は、制御値列における制御値（音量）の変化に対してルーズに追随して変化する。

　選択信号列が継続的に第３の強制度を示す期間には、制御値列から図８下段に示される制御ベクトル列が生成され、訓練済モデルＭで処理される。その結果、訓練済モデルＭにより生成される音響特徴量（周波数スペクトル）の音量は、制御値列における制御値（音量）の変化に無関係に変化する。

　訓練済モデルＭは、高い精細度の第１音響特徴量の生成を習得しているので、何れの期間においても、高い精細度で音量が変化する音響特徴量を生成する。現時点ｔが終了時点に達した場合、ＣＰＵ１３０は、信号処理を終了する。

　（５）訓練処理
　図１０は、図４の訓練装置２０による訓練処理の一例を示すフローチャートである。図１０の訓練処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された訓練プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、記憶部１４０等から訓練に用いる複数の参照データＤ３を取得する（ステップＳ１１）。次に、ＣＰＵ１３０は、ステップＳ１１で取得された各参照データＤ３から第１音響特徴量列（周波数スペクトルの時系列）および第２参照音響特徴量列（音量の時系列）を抽出する（ステップＳ１２）。

　続いて、ＣＰＵ１３０は、抽出された各第２参照音響特徴量列から第１の強制度における参照制御値列を生成する（ステップＳ１３）。また、ＣＰＵ１３０は、各第２参照音響特徴量列から第２の強制度における参照制御値列を生成する（ステップＳ１４）。さらに、ＣＰＵ１３０は、各第２参照音響特徴量列から第３の強制度における参照制御値列を生成する（ステップＳ１５）。ステップＳ１３～Ｓ１５は、いずれが先に実行されてもよい。また、第３の強制度がゼロなら、対応する参照制御値列の生成は不要であり、ステップＳ１５は省略できる。

　その後、ＣＰＵ１３０は、参照制御ベクトル列の入力を有する生成モデルｍを用意し、各参照データＤ３に対応する参照楽譜データＤ２から生成された参照楽譜特徴量列およびステップＳ１３～Ｓ１５で生成された参照制御値列と、ステップＳ１２で抽出された第１参照音響特徴量列とを用いて、その生成モデルｍを訓練する。これにより、ＣＰＵ１３０は、入力としての参照楽譜特徴量列および複数の強制度に対応する複数の参照制御値列の各々と、出力としての第１参照音響特徴量列との間の入出力関係を、生成モデルｍに機械学習させる（ステップＳ１６）。

　次に、ＣＰＵ１３０は、生成モデルｍが入出力関係を習得するのに十分な機械学習が実行されたか否かを判定する（ステップＳ１７）。生成される音響特徴量の品質が低く、機械学習が不十分と判定される場合、ＣＰＵ１３０はステップＳ１６に戻る。十分な機械学習が実行されるまで、パラメータが変化されつつステップＳ１６～Ｓ１７が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルＭが満たすべき品質条件に応じて変化する。

　十分な機械学習が実行されたと判断された場合、その生成モデルｍは、訓練により、入力としての参照楽譜特徴量列および複数の強制度に対応する複数の参照制御値列の各々と、出力としての第１参照音響特徴量列との間の入出力関係を習得しており、ＣＰＵ１３０は、その入出力関係を習得した生成モデルｍを、訓練済モデルＭとして保存し（ステップＳ１８）、訓練処理を終了する。

　（６）変形例
　強制度の選択および制御値の指示は、使用者によるＧＵＩ３０上の操作部１５０の操作に限定されない。強制度の選択および制御値の指示は、ＧＵＩ３０なしで、使用者による物理的な摘みの操作により行われてもよい。この場合、図９の信号処理のステップＳ２は実行されない。

　図１１は、第１変形例における処理システム１００を示す模式図である。図１１に示すように、処理システム１００は、平板状の近接センサ１８０をさらに含む。以下、近接センサ１８０の前後方向、上下方向および左右方向をそれぞれ第１、第２および第３の方向と定義する。近接センサ１８０は、例えば静電センサであり、検出対象物として使用者の手の第１、第２および第３の方向における第１位置、第２位置および第３位置を検出する。

　本例では、第１位置（前後）は、奥ほど大きな制御値（音量）に対応する。第２位置（上下）は、下ほど大きな強制度に対応する。第３位置（左右）は、右ほど派手な演奏スタイルまたは右ほど高いピッチに対応してもよい。第２位置は近接センサ１８０と手との距離であり、近接センサ１８０は、第２位置が低い（距離が近い）ほど、第１位置または第３位置の検出の精度または速度が向上する。従って、この例のように第２位置が低いほど強制度を高くすれば、強制度を強くしたときの使用者の使用感が向上する。なお、第１～第３の方向と、制御値、強制度および演奏スタイル等との対応関係は上記の例に限定されない。

　使用者は、近接センサ１８０の上方で手の位置を動かすことにより、制御値、強制度および演奏スタイル等を変化させる。受付部１１は、近接センサ１８０により検出された第１位置（前後）に基づいて、異なる制御値の指示を受け付ける。信号生成部１２は、検出された第２位置（上下）に基づいて異なる強制度の選択を受け付け、受け付けた強制度を示す選択信号を生成する。また、受付部１１は、検出された第３位置（左右）に基づいて、異なる演奏スタイルまたはピッチの指示を受け付ける。

　図１２は、第２変形例における処理システム１００を示す模式図である。図１２に示すように、第２変形例においては、操作部１５０は、スティック状の操作レバー１５１と、操作レバー１５１の上端に設けられた操作トリガ１５２とを含む。操作レバー１５１および操作トリガ１５２は、それぞれ第１および第２の操作子の例である。操作レバー１５１の前後方向の傾き角は、奥に傾けるほど大きな制御値に対応する。操作トリガ１５２の押し込み量は、下に押し込むほど大きな強制度に対応する。

　使用者は、操作レバー１５１および操作トリガ１５２を操作することにより制御値および強制度を変化させる。受付部１１は、操作レバー１５１の傾き角に基づいて、異なる制御値の選択を受け付ける。信号生成部１２は、操作トリガ１５２の押し込み量に基づいて異なる強制度の指示を受け付け、受け付けた強制度を示す選択信号を生成する。

　（７）実施形態の効果
　以上説明したように、本実施形態に係る信号処理方法は、コンピュータにより実現される方法であって、音楽的な特徴を示す制御値を受け取るとともに、第１～第３の強制度とのいずれかを選択するための選択信号を受け取り、訓練済モデルを用いて、第１～第３の強制度に応じて制御値をそれぞれ反映した第１音響特徴量列のうちの、選択信号に応じたいずれか１の第１音響特徴量列を生成する。

　すなわち、音生成方法は、与えられた音符列に対応する楽曲の音を合成するシステムにおいて、使用者から制御値の指示を受け取る。第１の強制度で制御値の指示が受け取られたときには、訓練済みモデルを用いて、使用者からの指示を第１の強制度に応じて反映した音が生成される。第１の強制度よりも低い第２の強制度で制御値の指示が受け取られたときには、訓練済みモデルを用いて、使用者からの指示を第２の強制度に応じて反映した音が生成される。第２の強制度よりも低い第３の強制度で制御値の指示が受け取られたときには、訓練済みモデルを用いて、使用者からの指示を反映しない音が生成される。

　この方法によれば、第１の強制度を選択することにより、制御値に比較的タイトに追随する第１音響特徴量列を生成できる。また、第２の強制度を選択することにより、制御値に比較的ルーズに追随する第１音響特徴量列を生成できる。さらに、第３の強制度を選択することにより、制御値とは無関係に変化する第１音響特徴量列を生成できる。したがって、使用者は、楽曲の全体にわたって詳細な制御値を指定する必要がなく、楽曲の要所のみ第１の強制度を選択して、詳細な制御値を指定することにより、所望の音を合成することが可能である。これにより、使用者の面倒な操作なしに、高品質な演奏音を生成できる。

　訓練済モデルは、機械学習により、音波形を示す参照データに関して、入力としての第１の強制度における音楽的な特徴を示す第１の参照制御値列と、出力としての参照データの第１参照音響特徴量列との間の第１関係、および入力としての第２の強制度における音楽的な特徴を示す第２の参照制御値列と、出力としての第１参照音響特徴量列との間の第２関係を、学習済であってもよい。訓練済モデルは、その機械学習により、さらに音波形を示す参照データに関して、入力としての第３の強制度における音楽的な特徴を示す第３の参照制御値列と、出力としての参照データの第１参照音響特徴量列との間の第３関係を学習済であってもよい。

　第１の参照制御値列は、第２参照音響特徴量列に応じて第１の精細度で時間的に変化し、第２の参照制御値列は、第２参照音響特徴量列に応じて第２の精細度で時間的に変化してもよい。第１参照音響特徴量と第２参照音響特徴量とは、同じ音響特徴量であってもよいし、異なる音響特徴量であってもよい。

　各時点の第１の参照制御値は、当該時点を含む第１の期間内の参照データの第２参照音響特徴量列の代表値であり、各時点の第２の参照制御値は、当該時点を含みかつ第１の期間よりも長い第２の期間内の参照データの第２参照音響特徴量列の代表値であってもよい。

　（８）他の実施形態
　上記実施形態において、強制度はゼロを含む３段階で選択されるが、実施形態はこれに限定されない。強制度は、２段階で選択されてもよいし、４段階以上で選択されてもよい。例えば、上記実施形態において、第１の強制度と第２の強制度との２段階で選択されてもよい。この場合、第１の強制度において生成される第１音響特徴量列は、制御値に対して比較的タイトに追随して時間的に変化する。第２の強制度において生成される第１音響特徴量列は、制御値に対して比較的ルーズに追随して時間的に変化する。

　あるいは、強制度は、第１の強制度と第３の強制度との２段階で選択されてもよいし、第２の強制度と第３の強制度との２段階で選択されてもよい。この場合、第１または第２の強制度において生成される第１音響特徴量列は、制御値に追随して時間的に変化する。第３の強制度において生成される第１音響特徴量列は、制御値とは無関係に変化する。

　上記実施形態では、使用者が操作子を操作して、制御値をリアルタイムに入力するが、使用者が、予め制御値の時間変化をプログラムし、プログラムされた通りに変化する制御値を訓練済モデルＭに与えて、音響特徴量列を生成してもよい。

　（９）付記
（態様１）
音楽的な特徴を示す制御値を受け取り、
　信号処理における前記制御値の強制度を示す選択信号を受け取り、
　前記制御値から、前記選択信号が示す強制度に応じた、複数の要素からなる制御ベクトルを生成し、
　訓練済モデルを用いて、前記制御ベクトルに応じた音響特徴量列を生成する、
　コンピュータにより実現される信号処理方法。
（態様２）
　前記制御値から生成される前記制御ベクトルは、少なくとも、第１の強制度に対応する第１の要素と、前記第１の強制度よりも低い第２の強制度に対応する第２の要素とを含む、態様１記載の信号処理方法。
（態様３）
前記訓練済モデルは、機械学習により、音波形を示す参照データの、前記第１の強制度における音楽的特徴を示す前記第１の要素を含む第１の参照制御ベクトルと前記参照データの第１の参照音響特徴量列との第１の入出力関係、および前記第２の強制度における音楽的な特徴を示す前記第２の要素を含む第２の参照制御ベクトルと前記第１の参照音響特徴量列との第２の入出力関係を、学習済である、態様２記載の信号処理方法。
（態様４）
　前記制御値は、前記第１の強制度と前記第２の強制度との中間の値を取り得る、態様３記載の信号処理方法。
（態様５）
　前記制御値は、前記生成される制御ベクトルの前記複数の要素のうち、少なくとも、前記選択信号が示す強制度に応じた要素に反映される、態様１～４のいずれか一に記載の信号処理方法。
（態様６）
音楽的な特徴を示す制御値と、信号処理における前記制御値の強制度を示す選択信号とを受け取る信号受取部と、
前記制御値から、前記選択信号が示す強制度に応じた、複数の要素からなる制御ベクトルを生成するベクトル生成部と、
　訓練済モデルを用いて、前記制御ベクトルに応じた音響特徴量列を生成する音響生成部とを備える、信号処理装置。

Claims

音楽的な特徴を示す制御値を受け取り、
　第１の強制度と、前記第１の強制度よりも低い第２の強制度とのいずれか一方を選択するための選択信号を受け取り、
　訓練済モデルを用いて、前記第１の強制度に応じて前記制御値を反映した音響特徴量列と、前記第２の強制度に応じて前記制御値を反映した音響特徴量列とのうちの、前記選択信号に応じたいずれか一方を生成する、
　コンピュータにより実現される信号処理方法。
前記訓練済モデルは、機械学習により、前記第１の強制度および前記第２の強制度における音楽的な特徴を示す参照制御値列と参照音響特徴量列との関係を学習済である、請求項１記載の信号処理方法。
前記訓練済モデルは、機械学習により、音波形を示す参照データに関して、入力としての前記第１の強制度における音楽的な特徴を示す第１の参照制御値列と、出力としての前記参照データの第１の参照音響特徴量列との間の第１関係、および入力としての前記第２の強制度における音楽的な特徴を示す第２の参照制御値列と、出力としての前記第１の参照音響特徴量列との間の第２関係を、学習済である、請求項２記載の信号処理方法。
　前記第１の参照制御値列は、第２の参照音響特徴量列に応じて第１の精細度で時間的に変化し、
　前記第２の参照制御値列は、前記第２の参照音響特徴量列に応じて第２の精細度で時間的に変化する、請求項３記載の信号処理方法。
　前記第１の参照音響特徴量と前記第２の参照音響特徴量とは、同じ音響特徴量または異なる音響特徴量である、請求項４記載の信号処理方法。
各時点の第１の参照制御値は、当該時点を含む第１の期間内の前記参照データの第２の参照音響特徴量列の代表値であり、
　各時点の第２の参照制御値は、当該時点を含みかつ前記第１の期間よりも長い第２の期間内の前記第２の参照音響特徴量列の代表値である、請求項４記載の信号処理方法。
　前記第１の参照音響特徴量と前記第２の参照音響特徴量とは、同じ音響特徴量または異なる音響特徴量である、請求項６記載の信号処理方法。
前記第１の強制度において生成される前記音響特徴量列は、前記制御値に追随して時間的に変化し、
　前記第２の強制度において生成される前記音響特徴量列は、前記制御値とは無関係に変化する、請求項１～３のいずれか一項に記載の信号処理方法。
前記第１の強制度において生成される前記音響特徴量列は、前記制御値にタイトに追随して時間的に変化し、
　前記第２の強制度において生成される前記音響特徴量列は、前記制御値にルーズに追随して時間的に変化する、請求項１～４のいずれか一項に記載の信号処理方法。
　さらに、前記生成された音響特徴量列から音信号を生成する、請求項１～９のいずれか一項に記載の信号処理方法。
センサにより第１の方向および第２の方向における検出対象物の位置を検出し、
　前記制御値は、検出された前記第１の方向における前記検出対象物の位置に基づいて受け付けられ、
　前記選択信号は、検出された前記第２の方向における前記検出対象物の位置に基づいて受け取られる、請求項１～９のいずれか一項に記載の信号処理方法。
前記制御値は、第１の操作子が操作されることにより受け付けられ、
　前記選択信号は、第２の操作子が操作されることにより受け取られる、請求項１～９のいずれか一項に記載の信号処理方法。
音楽的な特徴を示す制御値と、第１の強制度と前記第１の強制度よりも低い第２の強制度とのいずれか一方を選択するための選択信号とを受け取る受取部と、
　訓練済モデルを用いて、前記第１の強制度に応じて前記制御値を反映した音響特徴量列と、前記第２の強制度に応じて前記制御値を反映した音響特徴量列とのうちの、前記選択信号に応じたいずれか一方を生成する音響生成部とを備える、信号処理装置。
与えられた音符列に対応する楽曲の音を生成するシステムにおいて、
　使用者から音楽的な特徴を示す制御値の指示を受け取り、
　第１の強制度で使用者から前記制御値の指示を受け取ったときには、訓練済みモデルを用いて、使用者からの指示を前記第１の強制度に応じて反映した音を生成し、
　第２の強制度で使用者から前記制御値の指示を受け取ったときには、前記訓練済みモデルを用いて、使用者からの指示を前記第１の強制度よりも低く反映した音を生成する、音生成方法。
　前記使用者からの指示を前記第１の強制度よりも低く反映した音を生成することは、使用者からの指示を反映しない音を生成することを含む、請求項１４記載の音生成方法。