WO2020095951A1

WO2020095951A1 - 音響処理方法および音響処理システム

Info

Publication number: WO2020095951A1
Application number: PCT/JP2019/043511
Authority: WO
Inventors: 竜之介大道
Original assignee: ヤマハ株式会社
Priority date: 2018-11-06
Filing date: 2019-11-06
Publication date: 2020-05-14
Also published as: US20210256959A1; JP6737320B2; US11842720B2; EP3879521A4; EP3879521A1; CN113016028A; JP2020076844A

Abstract

音響処理システムは、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行する学習処理部と、音響信号に関する発音条件の変更の指示を受付ける指示受付部と、変更後の発音条件を表す第２条件データを追加学習後の合成モデルに入力することで第２特徴データを生成する合成処理部とを具備する。

Description

音響処理方法および音響処理システム

　本開示は、音響信号を処理する技術に関する。

　歌唱音または演奏音等の各種の音響を表す音響信号を利用者からの指示に応じて編集する技術が従来から提案されている。例えば非特許文献１には、音響信号の音高および振幅を音符毎に解析して表示することで、利用者による音響信号の編集を受付ける技術が開示されている。

'What is Melodyne ?'［平成３０年１０月２１日検索］,インターネット<https://www.celemony.com/en/melodyne/what-is-melodyne>

　しかし、従来の技術のもとでは、例えば音高等の発音条件の変更により音響信号の音質が低下するという問題がある。以上の事情を背景として、本開示のひとつの態様は、音響信号に関する発音条件の変更による音質の劣化を抑制することを目的とする。

　以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す第２条件データを前記追加学習後の合成モデルに入力することで第２特徴データを生成する。

　本開示のひとつの態様に係る音響処理システムは、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行する学習処理部と、前記音響信号に関する発音条件の変更の指示を受付ける指示受付部と、前記変更後の発音条件を表す第２条件データを前記追加学習後の合成モデルに入力することで第２特徴データを生成する合成処理部とを具備する。

　本開示のひとつの態様に係る音響処理システムは、１以上のプロセッサと１以上のメモリとを具備する情報処理システムであって、前記１以上のメモリに記憶されたプログラムを実行することにより、前記１以上のプロセッサが、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す第２条件データを前記追加学習後の合成モデルに入力することで第２特徴データを生成する。

第１実施形態に係る音響処理システムの構成を例示するブロック図である。音響処理システムの機能的な構成を例示するブロック図である。編集画面の模式図である。事前学習の説明図である。事前学習の具体的な手順を例示するフローチャートである。音響処理システムの動作の具体的な手順を例示するフローチャートである。変形例における音響処理システムの機能的な構成を例示するブロック図である。

＜第１実施形態＞
　図１は、第１実施形態に係る音響処理システム１００の構成を例示するブロック図である。第１実施形態の音響処理システム１００は、制御装置１１と記憶装置１２と表示装置１３と入力装置１４と放音装置１５とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音響処理システム１００として利用される。なお、音響処理システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置の集合でも実現される。

　制御装置１１は、音響処理システム１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサで構成される。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、音響処理システム１００に対して着脱可能な可搬型の記録媒体、または音響処理システム１００が通信網を介して通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。

　第１実施形態の記憶装置１２は、特定の楽曲に関する音響を表す音響信号Ｖ1を記憶する。以下の説明では、特定の歌唱者（以下「追加歌唱者」という）が楽曲の歌唱により発音する歌唱音を表す音響信号Ｖ1を想定する。例えば、音楽ＣＤ等の記録媒体に記憶された音響信号Ｖ1、または、通信網を介して受信された音響信号Ｖ1が、記憶装置１２に記憶される。音響信号Ｖ1のファイル形式は任意である。第１実施形態の制御装置１１は、記憶装置１２に記憶された音響信号Ｖ1に関する各種の条件（以下「歌唱条件」という）を利用者からの指示に応じて変更した音響信号Ｖ2を生成する。歌唱条件は、例えば音高と音量と音韻とを含む。

　表示装置１３は、制御装置１１から指示された画像を表示する。例えば液晶表示パネルが表示装置１３として利用される。入力装置１４は、利用者による操作を受付ける。例えば利用者が操作する操作子、または、表示装置１３の表示面に対する接触を検知するタッチパネルが、入力装置１４として利用される。放音装置１５は、例えばスピーカまたはヘッドホンであり、制御装置１１が生成する音響信号Ｖ2に応じた音響を放音する。

　図２は、記憶装置１２に記憶されたプログラムを制御装置１１が実行することで実現される機能を例示するブロック図である。第１実施形態の制御装置１１は、信号解析部２１と表示制御部２２と指示受付部２３と合成処理部２４と信号生成部２５と学習処理部２６とを実現する。なお、相互に別体で構成された複数の装置により制御装置１１の機能を実現してもよい。制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

　信号解析部２１は、記憶装置１２に記憶された音響信号Ｖ1を解析する。具体的には、信号解析部２１は、音響信号Ｖ1が表す歌唱音の歌唱条件を表す条件データＸbと、当該歌唱音の特徴を表す特徴データＱとを音響信号Ｖ1から生成する。第１実施形態の条件データＸbは、楽曲を構成する複数の音符の各々について音高と音韻（発音文字）と発音期間とを歌唱条件として指定する時系列データである。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式の条件データＸbが生成される。信号解析部２１による条件データＸbの生成には公知の解析技術（例えば自動採譜技術）が任意に採用される。なお、条件データＸbは、音響信号Ｖ1から生成されたデータに限定されない。例えば、追加歌唱者が歌唱した楽譜のデータを条件データＸbとして利用してもよい。

　特徴データＱは、音響信号Ｖ1が表す音響の特徴を表すデータである。第１実施形態の特徴データＱは、基本周波数（ピッチ）Ｑaとスペクトル包絡Ｑbとを含む。スペクトル包絡Ｑbは、音響信号Ｖ1の周波数スペクトルの概形である。特徴データＱは、所定長（例えば５ミリ秒）の単位期間毎に順次に生成される。すなわち、第１実施形態の信号解析部２１は、基本周波数Ｑaの時系列とスペクトル包絡Ｑbの時系列とを生成する。信号解析部２１による特徴データＱの生成には、離散フーリエ変換等の公知の周波数解析技術が任意に採用される。

　表示制御部２２は、表示装置１３に画像を表示させる。第１実施形態の表示制御部２２は、図３に例示された編集画面Ｇを表示装置１３に表示させる。編集画面Ｇは、音響信号Ｖ1に関する歌唱条件を変更するために利用者が視認する画像である。

　編集画面Ｇには、相互に直交する時間軸（横軸）と音高軸（縦軸）とが設定される。編集画面Ｇには、音符画像Ｇaとピッチ画像Ｇbと波形画像Ｇcとが配置される。

　音符画像Ｇaは、音響信号Ｖ1が表す楽曲の音符を表す画像である。表示制御部２２は、信号解析部２１が生成した条件データＸbに応じて音符画像Ｇaの時系列を編集画面Ｇに配置する。具体的には、音高軸の方向における各音符画像Ｇaの位置は、当該音符画像Ｇaの音符について条件データＸbが指定する音高に応じて設定される。また、時間軸の方向における各音符画像Ｇaの位置は、当該音符画像Ｇaの音符について条件データＸbが指定する発音期間の端点（始点または終点）に応じて設定される。時間軸の方向における各音符画像Ｇaの表示長は、当該音符画像Ｇaの音符について条件データＸbが指定する発音期間の継続長に応じて設定される。すなわち、複数の音符画像Ｇaの時系列により音響信号Ｖ1の音符の時系列がピアノロール表示される。また、各音符画像Ｇaには、当該音符画像Ｇaの音符について条件データＸbが指定する音韻Ｇdが配置される。なお、音韻Ｇdは、１個以上の文字で表現されてもよいし、複数の音素の組合せで表現されてもよい。

　ピッチ画像Ｇbは、音響信号Ｖ1の基本周波数Ｑaの時系列である。表示制御部２２は、信号解析部２１が生成した特徴データＱの基本周波数Ｑa応じてピッチ画像Ｇbの時系列を編集画面Ｇに配置する。波形画像Ｇcは、音響信号Ｖ1の波形を表す画像である。なお、図３においては音高軸の方向における特定の位置に音響信号Ｖ1の波形画像Ｇcを配置したが、音響信号Ｖ1を音符毎に区分し、各音符に対応する波形を当該音符の音符画像Ｇaに重ねて表示してもよい。すなわち、音響信号Ｖ1を区分した各音符の波形を、音高軸の方向において当該音符の音高に応じた位置に配置してもよい。

　利用者は、表示装置１３に表示された編集画面Ｇを視認しながら入力装置１４を適宜に操作することで、音響信号Ｖ1の歌唱条件を適宜に変更することが可能である。例えば、利用者は、音符画像Ｇaを音高軸の方向に移動することで、当該音符画像Ｇaが表す音符の音高の変更を指示する。また、利用者は、音符画像Ｇaを時間軸の方向に移動または伸縮することで、当該音符画像Ｇaが表す音符の発音期間（始点または終点）の変更を指示する。利用者は、音符画像Ｇaに付加された音韻Ｇdの変更を指示することも可能である。

　図２の指示受付部２３は、音響信号Ｖ1に関する歌唱条件（例えば音高，音韻または発音期間）の変更の指示を受付ける。第１実施形態の指示受付部２３は、信号解析部２１が生成した条件データＸbを、利用者から受付けた指示に応じて変更する。すなわち、楽曲内の任意の音符について利用者からの指示に応じて変更された歌唱条件（音高、音韻または発音期間）を表す条件データＸbが指示受付部２３により生成される。

　合成処理部２４は、音響信号Ｖ1の歌唱条件を利用者からの指示に応じて変更した音響信号Ｖ2の音響的な特徴を表す特徴データＱの時系列を生成する。特徴データＱは、音響信号Ｖ2の基本周波数Ｑaとスペクトル包絡Ｑbとを含む。特徴データＱは、所定長（例えば５ミリ秒）の単位期間毎に順次に生成される。すなわち、第１実施形態の合成処理部２４は、基本周波数Ｑaの時系列とスペクトル包絡Ｑbの時系列とを生成する。

　信号生成部２５は、合成処理部２４が生成した特徴データＱの時系列から音響信号Ｖ2を生成する。特徴データＱの時系列を利用した音響信号Ｖの生成には、例えば公知のボコーダ技術が利用される。具体的には、信号生成部２５は、基本周波数Ｑaに対応する周波数スペクトルにおける周波数毎の強度をスペクトル包絡Ｑbに応じて調整し、調整後の周波数スペクトルを時間領域に変換することで音響信号Ｖ2を生成する。信号生成部２５が生成した音響信号Ｖ2が放音装置１５に供給されることで、当該音響信号Ｖ2が表す音響が放音装置１５から再生される。すなわち、音響信号Ｖ1が表す歌唱音の歌唱条件を利用者からの指示に応じて変更した歌唱音が放音装置１５から再生される。なお、音響信号Ｖ2をデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

　第１実施形態では、合成処理部２４による特徴データＱの生成に合成モデルＭが利用される。具体的には、合成処理部２４は、歌唱者データＸaと条件データＸbとを含む入力データＺを合成モデルＭに入力することで特徴データＱの時系列を生成する。

　歌唱者データＸaは、歌唱者が発音する歌唱音の音響的な特徴（例えば声質）を表すデータである。第１実施形態の歌唱者データＸaは、多次元の空間（以下「歌唱者空間」という）における埋込ベクトル（embedding vector）である。歌唱者空間は、音響の特徴に応じて空間内における各歌唱者の位置が決定される連続空間である。歌唱者間で音響の特徴が類似するほど、歌唱者空間内における当該歌唱者間の距離は小さい数値となる。以上の説明から理解される通り、歌唱者空間は、音響の特徴に関する歌唱者間の関係を表す空間と表現される。なお、歌唱者データＸaの生成については後述する。

　合成モデルＭは、入力データＺと特徴データＱとの関係を学習した統計的予測モデルである。第１実施形態の合成モデルＭは、深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）で構成される。具体的には、合成モデルＭは、入力データＺから特徴データＱを生成する演算を制御装置１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数との組合せで実現される。合成モデルＭを規定する複数の係数は、複数の学習データを利用した機械学習（特に深層学習）により設定されて記憶装置１２に保持される。

　学習処理部２６は、機械学習により合成モデルＭを訓練する。学習処理部２６による機械学習は、事前学習と追加学習とに区分される。事前学習は、記憶装置１２に記憶された多数の学習データＬ1を利用して合成モデルＭを生成する基本的な学習処理である。他方、追加学習は、事前学習時の学習データＬ1と比較して少数の学習データＬ2を利用して事前学習後に追加的に実行される学習処理である。

　図４は、学習処理部２６による事前学習を説明するためのブロック図である。記憶装置１２に記憶された複数の学習データＬ1が事前学習に利用される。複数の学習データＬ1の各々は、既知の歌唱者に対応する識別情報Ｆと条件データＸbと音響信号Ｖとを含む。既知の歌唱者は、基本的には、追加歌唱者とは別個の歌唱者である。また、機械学習の終了判定に利用される評価用の学習データ（以下「評価用データ」という）Ｌ1も記憶装置１２に記憶される。

　識別情報Ｆは、音響信号Ｖが表す歌唱音を歌唱した複数の歌唱者の各々を識別するための数値列である。例えば、相異なる歌唱者に対応する複数の要素のうち特定の歌唱者に対応する要素が数値１に設定され、残余の要素が数値０に設定されたone-hot表現の数値列が、当該特定の歌唱者の識別情報Ｆとして利用される。なお、識別情報Ｆについては、one-hot表現における数値１と数値０とを置換したone-cold表現を採用してもよい。識別情報Ｆと条件データＸbとの組合せは学習データＬ1毎に相違する。

　任意の１個の学習データＬ1に含まれる音響信号Ｖは、識別情報Ｆが表す既知の歌唱者が、当該学習データＬ1の条件データＸbが表す楽曲を歌唱した場合における歌唱音の波形を表す信号である。例えば条件データＸbが表す楽曲を歌唱者が実際に歌唱した場合の歌唱音を収録することで音響信号Ｖが事前に用意される。追加歌唱者の歌唱音に特性が類似する複数の既知の歌唱者の歌唱音を表す音響信号Ｖが複数の学習データＬ1にそれぞれ含まれる。すなわち、追加学習の対象となる発音源と同種の発音源（すなわち既知の歌唱者）の音響を表す音響信号Ｖが、事前学習に利用される。

　第１実施形態の学習処理部２６は、機械学習の本来的な目的である合成モデルＭとともに符号化モデルＥを一括的に訓練する。符号化モデルＥは、歌唱者の識別情報Ｆを当該歌唱者の歌唱者データＸaに変換するエンコーダである。符号化モデルＥは、例えば深層ニューラルネットワークで構成される。事前学習では、符号化モデルＥが学習データＬ1の識別情報Ｆから生成した歌唱者データＸaと当該学習データＬ1の条件データＸbとが合成モデルＭに供給される。前述の通り、合成モデルＭは、歌唱者データＸaと条件データＸbとに応じた特徴データＱの時系列を出力する。なお、符号化モデルＥを変換テーブルで構成してもよい。

　信号解析部２１は、各学習データＬ1の音響信号Ｖから特徴データＱを生成する。信号解析部２１が生成する特徴データＱは、合成モデルＭが生成する特徴データＱと同種の特徴量（すなわち基本周波数Ｑaおよびスペクトル包絡Ｑb）を表す。特徴データＱの生成は、所定長（例えば５ミリ秒）の単位期間毎に反復される。信号解析部２１が生成する特徴データＱは、合成モデルＭの出力に関する既知の正解値に相当する。なお、音響信号Ｖから生成された特徴データＱを音響信号Ｖに代えて学習データＬ1に含ませてもよい。したがって、事前学習では、信号解析部２１による音響信号Ｖの解析は省略される。

　学習処理部２６は、事前学習において、合成モデルＭと符号化モデルＥとの各々を規定する複数の係数を反復的に更新する。図５は、学習処理部２６が実行する事前学習の具体的な手順を例示するフローチャートである。例えば入力装置１４に対する利用者からの指示を契機として事前学習が開始される。なお、事前学習の実行後の追加学習については後述する。

　事前学習を開始すると、学習処理部２６は、記憶装置１２に記憶された複数の学習データＬ1の何れかを選択する（Ｓa1）。事前学習の開始の直後には最初の学習データＬ1が選択される。学習処理部２６は、記憶装置１２から選択した学習データＬ1の識別情報Ｆを暫定的な符号化モデルＥに入力する（Ｓa2）。符号化モデルＥは、識別情報Ｆに対応する歌唱者データＸaを生成する。事前学習が開始される時点の初期的な符号化モデルＥは、例えば乱数等により各係数が初期化されている。

　学習処理部２６は、符号化モデルＥが生成した歌唱者データＸaと学習データＬ1の条件データＸbとを含む入力データＺを、暫定的な合成モデルＭに入力する（Ｓa3）。合成モデルＭは、入力データＺに応じた特徴データＱを生成する。事前学習が開始される時点の初期的な合成モデルＭは、例えば乱数等により各係数が初期化されている。

　学習処理部２６は、合成モデルＭが学習データＬ1から生成した特徴データＱと、当該学習データＬ1の音響信号Ｖから信号解析部２１が生成した特徴データＱ（すなわち正解値）との誤差を表す評価関数を算定する（Ｓa4）。学習処理部２６は、評価関数が所定値（典型的にはゼロ）に近付くように、合成モデルＭおよび符号化モデルＥの各々の複数の係数を更新する（Ｓa5）。評価関数に応じた複数の係数の更新には、例えば誤差逆伝播法が利用される。

　学習処理部２６は、以上に説明した更新処理（Ｓa2～Ｓa5）を所定の回数にわたり反復したか否かを判定する（Ｓa61）。更新処理の反復の回数が所定値を下回る場合（Ｓa61：NO）、学習処理部２６は、記憶装置１２から次の学習データＬを選択（Ｓa1）したうえで、当該学習データＬについて更新処理（Ｓa2～Ｓa5）を実行する。すなわち、複数の学習データＬの各々について更新処理が反復される。

　更新処理（Ｓa2～Ｓa5）の回数が所定値に到達した場合（Ｓa61：YES）、学習処理部２６は、更新処理後の合成モデルＭにより生成される特徴データＱが所定の品質に到達したか否かを判定する（Ｓa62）。特徴データＱの品質の評価には、記憶装置１２に記憶された前述の評価用データＬが利用される。具体的には、学習処理部２６は、合成モデルＭが評価用データＬから生成した特徴データＱと評価用データＬの音響信号Ｖから信号解析部２１が生成した特徴データＱ（正解値）との誤差を算定する。学習処理部２６は、特徴データＱ間の誤差が所定の閾値を下回るか否かに応じて、特徴データＱが所定の品質に到達したか否かを判定する。

　特徴データＱが所定の品質に到達していない場合（Ｓa62：NO）、学習処理部２６は、所定の回数にわたる更新処理（Ｓa2～Ｓa5）の反復を開始する。以上の説明から理解される通り、所定の回数にわたる更新処理の反復毎に特徴データＱの品質が評価される。特徴データＱが所定の品質に到達した場合（Ｓa62：YES）、学習処理部２６は、当該時点における合成モデルＭを最終的な合成モデルＭとして確定する（Ｓa7）。すなわち、最新の更新後の複数の係数が記憶装置１２に記憶される。以上の手順で確定された学習済の合成モデルＭが、合成処理部２４による特徴データＱの生成に利用される。また、学習処理部２６は、以上の手順で確定された学習済の符号化モデルＥに各歌唱者の識別情報Ｆを入力することで歌唱者データＸaを生成する（Ｓa8）。歌唱者データＸaの確定後に符号化モデルＥは破棄される。なお、歌唱者空間は、事前学習された符号化モデルＥにより構築された空間である。

　以上の説明から理解される通り、学習済の合成モデルＭは、各学習データＬ1に対応する入力データＺと当該学習データＬ1の音響信号Ｖに対応する特徴データＱとの間に潜在する傾向のもとで、未知の入力データＺに対して統計的に妥当な特徴データＱを生成することが可能である。すなわち、合成モデルＭは、入力データＺと特徴データＱとの関係を学習する。また、符号化モデルＥは、合成モデルＭが統計的に妥当な特徴データＱを入力データＺから生成できるように識別情報Ｆと歌唱者データＸaとの関係を学習する。事前学習が完了すると複数の学習データＬ1は記憶装置１２から破棄される。

　図６は、学習処理部２６による追加学習を含む音響処理システム１００の全体的な動作の具体的な手順を例示するフローチャートである。前述の事前学習による合成モデルＭの訓練後に、例えば入力装置１４に対する利用者からの指示を契機として図６の処理が開始される。

　図６の処理を開始すると、信号解析部２１は、記憶装置１２に記憶された追加歌唱者の音響信号Ｖ1を解析することで条件データＸbと特徴データＱとを生成する（Ｓb1）。学習処理部２６は、信号解析部２１が音響信号Ｖ1から生成した条件データＸbと特徴データＱとを含む学習データＬ2を利用した追加学習により合成モデルＭを訓練する（Ｓb2－Ｓb4）。記憶装置１２に記憶された複数の学習データＬ2が追加学習に利用される。学習データＬ2の条件データＸbは「第１条件データ」の一例であり、当該学習データＬ2の特徴データＱは「第１特徴データ」の一例である。

　具体的には、学習処理部２６は、乱数等により初期化された追加歌唱者の歌唱者データＸaと、当該追加歌唱者の音響信号Ｖ1から生成された条件データＸbとを含む入力データＺを、事前学習済の合成モデルＭに入力する（Ｓb2）。合成モデルＭは、歌唱者データＸaと条件データＸbとに応じた特徴データＱの時系列を生成する。学習処理部２６は、合成モデルＭが生成した特徴データＱと、学習データＬ2の音響信号Ｖ1から信号解析部２１が生成した特徴データＱ（すなわち正解値）との誤差を表す評価関数を算定する（Ｓb3）。学習処理部２６は、評価関数が所定値（典型的にはゼロ）に近付くように、歌唱者データＸaと合成モデルＭの複数の係数とを更新する（Ｓb4）。評価関数に応じた複数の係数の更新には、事前学習での係数の更新と同様に、例えば誤差逆伝播法が利用される。歌唱者データＸaおよび複数の係数の更新（Ｓb4）は、合成モデルＭが充分な品質の特徴データＱを生成できるようになるまで反復される。以上の追加学習により、歌唱者データＸaと合成モデルＭの複数の係数とが確定する。

　以上に説明した追加学習を実行すると、表示制御部２２は、図３の編集画面Ｇを表示装置１３に表示させる（Ｓb5）。編集画面Ｇには、信号解析部２１が音響信号Ｖ1から生成した条件データＸbが表す音符画像Ｇaの時系列と、信号解析部２１が音響信号Ｖ1から生成した基本周波数Ｑaの時系列を表すピッチ画像Ｇbと、音響信号Ｖ1の波形を表す波形画像Ｇcとが配置される。

　利用者は、編集画面Ｇを視認しながら、音響信号Ｖ1の歌唱条件の変更を指示することが可能である。指示受付部２３は、歌唱条件の変更が利用者から指示されたか否かを判定する（Ｓb6）。歌唱条件の変更の指示を受付けると（Ｓb6：YES）、指示受付部２３は、信号解析部２１が生成した初期的な条件データＸbを利用者からの指示に応じて変更する（Ｓb7）。

　合成処理部２４は、指示受付部２３による変更後の条件データＸbと追加歌唱者の歌唱者データＸaとを含む入力データＺを追加学習後の合成モデルＭに入力する（Ｓb8）。合成モデルＭは、追加歌唱者の歌唱者データＸaと条件データＸbとに応じた特徴データＱの時系列を生成する。変更後の条件データＸbは「第２条件データ」の一例であり、当該条件データｘbの入力により合成モデルＭが生成する特徴データＱは「第２特徴データ」の一例である。

　信号生成部２５は、合成モデルＭが生成した特徴データＱの時系列から音響信号Ｖ2を生成する（Ｓb9）。表示制御部２２は、利用者からの変更の指示と追加学習後の合成モデルＭを利用した音響信号Ｖ2とを反映した内容に編集画面Ｇを更新する（Ｓb10）。具体的には、表示制御部２２は、音符画像Ｇaの時系列を、利用者が指示した変更後の歌唱条件を表す内容に更新する。また、表示制御部２２は、表示装置１３が表示するピッチ画像Ｇbを、信号生成部２５が生成した音響信号Ｖ2の基本周波数Ｑaの時系列を表す画像に更新し、波形画像Ｇcを当該音響信号Ｖ2の波形に更新する。

　制御装置１１は、歌唱音の再生が利用者から指示されたか否かを判定する（Ｓb11）。歌唱音の再生が指示されると（Ｓb11：YES）。制御装置１１は、以上の手順で生成された音響信号Ｖ2を放音装置１５に供給することで歌唱音を再生する（Ｓb12）。すなわち、利用者による変更後の歌唱条件に対応する歌唱音が放音装置１５から再生される。なお、歌唱条件の変更が指示されない場合（Ｓb6：NO）、条件データＸbの変更（Ｓb7）と音響信号Ｖ2の生成（Ｓb8，Ｓb9）と編集画面Ｇの更新（Ｓb10）とは実行されない。したがって、利用者から歌唱音の再生が指示されると（Ｓb11：YES）、記憶装置１２に記憶された音響信号Ｖ1が放音装置１５に供給されることで歌唱音が再生される（Ｓb12）。歌唱音の再生が指示されない場合（Ｓb11：NO）には、放音装置１５に対して音響信号Ｖ（Ｖ1，Ｖ2）は供給されない。

　制御装置１１は、処理の終了が利用者から指示されたか否かを判定する（Ｓb13）。処理の終了が指示されていない場合（Ｓb13：NO）、制御装置１１は処理をステップＳb6に移行し、歌唱条件の変更の指示を利用者から受付ける。以上の説明から理解される通り、歌唱条件の変更の指示毎に、条件データＸbの変更（Ｓb7）と追加学習後の合成モデルＭを利用した音響信号Ｖ2の生成（Ｓb8，Ｓb9）と編集画面Ｇの更新（Ｓb10）とが実行される。

　以上に説明した通り、第１実施形態では、追加歌唱者の音響信号Ｖ1から特定される条件データＸbと特徴データＱとを利用した追加学習が事前学習済の合成モデルＭについて実行され、変更後の歌唱条件を表す条件データＸbを追加学習後の合成モデルＭに入力することで、変更後の歌唱条件で追加歌唱者により発音された歌唱音の特徴データＱが生成される。したがって、利用者による変更の指示に応じて音響信号を直接的に調整する従来の構成と比較して、歌唱条件の変更による音質の劣化を抑制することが可能である。

　また、第１実施形態では、音響信号Ｖ2が表す歌唱音の歌唱者（すなわち追加歌唱者）と同種の発音源の歌唱音を表す音響信号Ｖを利用して事前学習済の合成モデルＭが生成される。したがって、追加歌唱者の音響信号Ｖ1が少ない場合でも、変更後の歌唱条件で発音された歌唱音の特徴データＱを高精度に生成できるという利点がある。

＜第２実施形態＞
　第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　第１実施形態では、事前学習により訓練された符号化モデルＥを利用して追加歌唱者の歌唱者データＸaを生成した。歌唱者データＸaの生成後に符号化モデルＥを破棄した場合、追加学習の段階で歌唱者空間を再構築することができない。第２実施形態では、図５のステップＳa8において符号化モデルＥを破棄せず、歌唱者空間を再構築できるようにする。この場合の追加学習は、例えば、合成モデルＭが対応できる条件データＸbの範囲を拡張する等の目的で実行される。以下では、合成モデルＭを利用して追加歌唱者の追加学習を行う場合を説明する。図５の処理に先立ち、追加歌唱者に他の歌唱者と区別できるように、ユニークな識別情報Ｆが割り当て、さらに、図６のＳb1の処理により、追加歌唱者の歌唱音を表す音響信号Ｖ1から条件データＸbおよび特徴データＱを生成し、記憶装置１２に、学習データＬ1の一部として追加記憶する。

　図５のステップＳa1～Ｓa6の処理により、当該条件データＸbおよび特徴データＱを含む学習データＬ1を利用した追加学習を実行し、合成モデルＭおよび符号化モデルＥの各々の複数の係数を更新する手順は、第１実施形態と同様である。すなわち、追加学習においては、追加歌唱者の歌唱音の特徴が反映されるように合成モデルＭが訓練されるとともに歌唱者空間が再構築される。学習処理部２６は、追加歌唱者の学習データＬ1を利用して事前学習済の合成モデルＭを再訓練する処理により、合成モデルＭが追加歌唱者の歌唱音を合成できるようにする。

　第２実施形態によれば、ある歌唱者の音響信号Ｖ1を追加することにより、合成モデルＭで生成される複数の歌唱者の歌唱の品質を高めることができる。また、追加歌唱者の音響信号Ｖ1が少ない場合でも、追加歌唱者の歌唱音を合成モデルＭから高精度に生成できるという利点がある。

＜変形例＞
　以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、合成モデルＭを利用して音響信号Ｖ2を生成したが、合成モデルＭを利用した音響信号Ｖ2の生成と音響信号Ｖ1の直接的な調整とを併用してもよい。例えば図７に例示される通り、制御装置１１は、前述の各形態と同様の要素に加えて調整処理部３１および信号合成部３２として機能する。調整処理部３１は、記憶装置１２に記憶された音響信号Ｖ1を利用者による歌唱条件の変更の指示に応じて調整することで音響信号Ｖ3を生成する。例えば特定の音符の音高の変化を利用者が指示した場合、調整処理部３１は、音響信号Ｖ1のうち当該音符に対応する区間内の音高を指示に応じて変更することで音響信号Ｖ3を生成する。また、特定の音符の発音期間の変更を利用者が指示した場合、調整処理部３１は、音響信号Ｖ1のうち当該音符に対応する区間を時間軸上で伸縮することで音響信号Ｖ3を生成する。音響信号Ｖ1の音高の変更または時間的な伸縮には公知の技術が任意に採用される。信号合成部３２は、合成モデルＭが生成した特徴データＱから信号生成部２５が生成した音響信号Ｖ2と、図７の調整処理部３１が生成した音響信号Ｖ3とを合成することで、音響信号Ｖ4を生成する。信号合成部３２が生成した音響信号Ｖ4が放音装置１５に供給される。

　信号合成部３２は、信号生成部２５が生成した音響信号Ｖ2または調整処理部３１が生成した音響信号Ｖ3の音質を評価し、信号合成部３２による音響信号Ｖ2と音響信号Ｖ3との混合比を評価の結果に応じて調整する。音響信号Ｖ2または音響信号Ｖ3の音質は、例えばＳＮ（Signal-to-Noise）比またはＳＤ（Signal-to-Distortion）比等の指標値を利用して評価される。信号合成部３２は、例えば、音響信号Ｖ2の音質が高いほど、音響信号Ｖ3に対する音響信号Ｖ2の混合比を高い数値に設定する。したがって、音響信号Ｖ2の音質が高い場合には、当該音響信号Ｖ2が優勢に反映された音響信号Ｖ4が生成され、音響信号Ｖ2の音質が低い場合には、音響信号Ｖ3が優勢に反映された音響信号Ｖ4が生成される。また、音響信号Ｖ2または音響信号Ｖ3の音質に応じて音響信号Ｖ2および音響信号Ｖ3の何れかを選択してもよい。例えば、音響信号Ｖ2の音質の指標が閾値を上回る場合には当該音響信号Ｖ2が放音装置１５に供給され、当該指標が閾値を下回る場合には音響信号Ｖ3が放音装置１５に供給される。

（２）前述の各形態では、楽曲の全体にわたる音響信号Ｖ2を生成したが、楽曲のうち利用者が歌唱条件の変更を指示した区間について音響信号Ｖ2を生成し、当該音響信号Ｖ2を音響信号Ｖ1に合成してもよい。合成後の音響信号において音響信号Ｖ2の始点または終点が聴覚的に明確に知覚されないように、音響信号Ｖ1に対して音響信号Ｖ2をクロスフェードしてもよい。

（３）前述の各形態では、学習処理部２６が事前学習および追加学習の双方を実行したが、事前学習と追加学習とを別個の要素が実行してもよい。例えば、外部装置による事前学習で生成された合成モデルＭについて学習処理部２６が追加学習を実行する構成では、学習処理部２６による事前学習は不要である。例えば、端末装置と通信可能な機械学習装置（例えばサーバ装置）が事前学習により合成モデルＭを生成し、当該合成モデルＭを端末装置に配信する。端末装置は、機械学習装置から配信された合成モデルＭの追加学習を実行する学習処理部２６を具備する。

（４）前述の各形態では、歌唱者が発音した歌唱音を合成したが、歌唱音以外の音響の合成にも本開示は適用される。例えば、音楽を要件としない会話音等の一般的な発話音の合成、または楽器の演奏音の合成にも、本開示は適用される。歌唱者データＸaは、歌唱者のほかに発話者または楽器等を含む発音源を表す発音源データの一例に相当する。また、条件データＸbは、歌唱条件のほかに発話条件（例えば音韻）または演奏条件（例えば音高および音量）を含む発音条件を表すデータとして包括的に表現される。楽器の演奏に関する合成データＸcにおいては、音韻の指定が省略される。

（５）前述の各形態では、特徴データＱが基本周波数Ｑaとスペクトル包絡Ｑbとを含む構成を例示したが、特徴データＱの内容は以上の例示に限定されない。周波数スペクトルの特徴（以下「スペクトル特徴」という）を表す各種のデータが特徴データＱとして利用される。特徴データＱとして利用可能なスペクトル特徴としては、前述のスペクトル包絡Ｑbのほか、例えばメルスペクトル、メルケプストラム、メルスペクトログラムまたはスペクトログラムが例示される。なお、基本周波数Ｑaを特定可能なスペクトル特徴を特徴データＱとして利用する構成では、特徴データＱから基本周波数Ｑaを省略してもよい。

（６）前述の各形態に係る音響処理システム１００の機能は、コンピュータ（例えば制御装置１１）とプログラムとの協働により実現される。本開示のひとつの態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、CD-ROM等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

（７）合成モデルＭを実現するための人工知能ソフトウェアの実行主体はＣＰＵに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるＤＳＰ（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

＜付記＞
　以上に例示した形態から、例えば以下の構成が把握される。

　本開示のひとつの態様（第１態様）に係る音響処理方法は、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す第２条件データを前記追加学習後の合成モデルに入力することで第２特徴データを生成する。以上の態様では、音響信号から特定される発音条件を表す第１条件データと当該音響信号の第１特徴データとを利用した追加学習が合成モデルについて実行され、変更後の発音条件を表す第２条件データを追加学習後の合成モデルに入力することで、変更後の発音条件で発音された音響の第２特徴データが生成される。したがって、変更の指示に応じて音響信号を直接的に調整する従来の構成と比較して、発音条件の変更による音質の劣化を抑制することが可能である。

　第１態様の具体例（第２態様）において、前記事前学習済の合成モデルは、前記音響信号が表す音響の発音源と同種の発音源の音響を表す信号を利用した機械学習により生成されたモデルである。以上の態様では、音響信号が表す音響の発音源と同種の発音源の音響を表す信号を利用して事前学習済の合成モデルが生成されるから、変更後の発音条件で発音された音響の第２特徴データを高精度に生成できる。

　第１態様または第２態様の具体例（第３態様）において、前記第２特徴データの生成では、前記変更後の発音条件を表す前記第２条件データと、音響の特徴に関する発音源間の関係を表す空間における発音源の位置を表す発音源データとを、前記追加学習後の合成モデルに入力する。

　第１態様から第３態様の何れかの具体例（第４態様）において、前記発音条件は、音高を含み、前記発音条件の変更の指示は、前記音高の変更の指示である。以上の態様によれば、変更後の音高で発音された高音質な音響の第２特徴データを生成できる。

　第１態様から第４態様の何れかの具体例（第５態様）において、前記発音条件は、発音期間を含み、前記発音条件の変更の指示は、前記発音期間の変更の指示である。以上の態様によれば、変更後の発音期間で発音された高音質な音響の第２特徴データを生成できる。

　第１態様から第５態様の何れかの具体例（第６態様）において、前記発音条件は、音韻を含み、前記発音条件の変更の指示は、前記音韻の変更の指示である。以上の態様によれば、変更後の音韻を発音した高音質な音響の第２特徴データを生成できる。

　以上に例示した各態様の音響処理方法を実行する音響処理システム、または、以上に例示した各態様の音響処理方法をコンピュータに実行させるプログラムとしても、本開示は実現される。

１００…音響処理システム、１１…制御装置、１２…記憶装置、１３…表示装置、１４…入力装置、１５…放音装置、２１…信号解析部、２２…表示制御部、２３…指示受付部、２４…合成処理部、２５…信号生成部、２６…学習処理部、Ｍ…合成モデル、Ｘa…歌唱者データ、Ｘb…条件データ、Ｚ…入力データ、Ｑ…特徴データ、Ｖ1，Ｖ2…音響信号、Ｆ…識別情報、Ｅ…符号化モデル、Ｌ1，Ｌ2…学習データ。

Claims

　発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行し、
　前記音響信号に関する発音条件の変更の指示を受付け、
　前記変更後の発音条件を表す第２条件データを前記追加学習後の合成モデルに入力することで第２特徴データを生成する
　コンピュータにより実現される音響処理方法。
　前記事前学習済の合成モデルは、前記音響信号が表す音響の発音源と同種の発音源の音響を表す信号を利用した機械学習により生成されたモデルである
　請求項１の音響処理方法。
　前記第２特徴データの生成においては、前記変更後の発音条件を表す前記第２条件データと、音響の特徴に関する発音源間の関係を表す空間における発音源の位置を表す発音源データとを、前記追加学習後の合成モデルに入力する
　請求項１または請求項２の音響処理方法。
　前記発音条件は、音高を含み、
　前記発音条件の変更の指示は、前記音高の変更の指示である
　請求項１から請求項３の何れかの音響処理方法。
　前記発音条件は、発音期間を含み、
　前記発音条件の変更の指示は、前記発音期間の変更の指示である
　請求項１から請求項４の何れかの音響処理方法。
　前記発音条件は、音韻を含み、
　前記発音条件の変更の指示は、前記音韻の変更の指示である
　請求項１から請求項５の何れかの音響処理方法。
　前記音響処理方法は、さらに、
　前記生成した第２特徴データに応じて音響信号を生成する
　請求項１から請求項６の何れかの音響処理方法。
　発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行する学習処理部と、
　前記音響信号に関する発音条件の変更の指示を受付ける指示受付部と、
　前記変更後の発音条件を表す第２条件データを前記追加学習後の合成モデルに入力することで第２特徴データを生成する合成処理部と
　を具備する音響処理システム。
　１以上のプロセッサと１以上のメモリとを具備する情報処理システムであって、
　前記１以上のメモリに記憶されたプログラムを実行することにより、
　前記１以上のプロセッサが、
　発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第１条件データと当該音響信号が表す音響の特徴を表す第１特徴データとを利用して実行し、
　前記音響信号に関する発音条件の変更の指示を受付け、
　前記変更後の発音条件を表す第２条件データを前記追加学習後の合成モデルに入力することで第２特徴データを生成する
　音響処理システム。