JPWO2019044401A1 - Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム - Google Patents

Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム Download PDF

Info

Publication number
JPWO2019044401A1
JPWO2019044401A1 JP2018568997A JP2018568997A JPWO2019044401A1 JP WO2019044401 A1 JPWO2019044401 A1 JP WO2019044401A1 JP 2018568997 A JP2018568997 A JP 2018568997A JP 2018568997 A JP2018568997 A JP 2018568997A JP WO2019044401 A1 JPWO2019044401 A1 JP WO2019044401A1
Authority
JP
Japan
Prior art keywords
speaker
unknown
acoustic
speakers
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018568997A
Other languages
English (en)
Other versions
JP6505346B1 (ja
Inventor
順一 山岸
信二 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Inter University Research Institute Corp Research Organization of Information and Systems
Application granted granted Critical
Publication of JP6505346B1 publication Critical patent/JP6505346B1/ja
Publication of JPWO2019044401A1 publication Critical patent/JPWO2019044401A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

コンピュータシステム1は、教師データとしてのテキストの入力を必要とすることなく、未知話者の音響特徴量に基づいて、未知話者の話者情報を推定する話者情報推定部130を含む。未知話者の話者情報は、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。コンピュータシステム1は、複数話者の音響モデル(DNN)230を利用して、入力されたテキストの言語特徴量と未知話者の話者情報とに基づいて、未知話者の合成された音響特徴量を生成する合成音響特徴量生成部220と、未知話者の合成された音響特徴量に基づいて、未知話者の合成された音声を生成する合成音声生成部240とをさらに含む。

Description

本発明は、DNN音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラムに関する。
従来から、DNN音声合成の教師有り話者適応が知られている(例えば、非特許文献1を参照)。このようなDNN音声合成の教師有り話者適応では、未知話者の音声データおよび教師データとして入力されたテキストの両方に基づいて未知話者の話者情報の推定が行われていた。従来の未知話者の話者情報は、0と1のみで構成されるベクトルで表現された話者コード(例えば、k番目の要素のみが1で他の要素がすべて0であるone−hotベクトルで表現された話者コード)を含んでいた。
Hieu-Thi Luong, Shinji Takaki, Gustav EjeHenter, Junichi Yamagishi,"Adapting and Controlling DNN-based SpeechSynthesis Using InputCodes," IEEE International Conference on Acoustics,Speech and SignalProcessing (ICASSP), SP-L4.3, 4905-4909, 2017年3月
従来のDNN音声合成の教師有り話者適応では、教師データとしてのテキストの入力を必要としていた。教師データとしてのテキストの入力を対応する音声ファイルから人手で書き起こしにて行う場合には、人件費などでコストが高くなり、教師データとしてのテキストの入力を音声認識器を利用して用意する場合には、音声認識器の認識誤りの影響を受けるという課題があった。
本発明は、この課題を解決するためになされたものであり、DNN音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラムを提供することを目的とする。
本発明のコンピュータシステムは、ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記コンピュータシステムは、未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成する音声分析部と、教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定する話者情報推定部であって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、話者情報推定部と、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部と、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部とを備え、これにより、上記目的が達成される。
前記話者情報推定部は、話者類似度モデルを利用して、前記未知話者の話者情報を推定し、前記話者類似度モデルには、前記複数の既知話者のそれぞれの音響特徴量の分布が格納されていてもよい。
本発明の方法は、ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行される方法であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記方法は、音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することとを含み、これにより、上記目的が達成される。
本発明のプログラムは、ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行されるプログラムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記コンピュータシステムは、プロセッサ部を含み、前記プログラムは、前記プロセッサ部によって実行されると、未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することとを少なくとも実行することを前記プロセッサ部に行わせ、これにより、上記目的が達成される。
本発明の音声合成器は、ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記音声合成器は、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、入力された未知話者の話者情報を受け取り、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記入力された未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部であって、前記入力された未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、合成音響特徴量生成部と、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部とを備え、これにより、上記目的が達成される。
本発明によれば、DNN音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラムを提供することが可能である。
DNN音声合成の教師無し話者適応を実現する枠組みの一例を示す図 図1に示される枠組みに基づいて実験した客観評価実験結果を示す図 教師有り話者適応(Supervise)の場合、および、GMM−UBMまたはi−vector/PLDAを利用した教師無し話者適応(GMM、i−vec)の場合の(a)品質および(b)話者類似性に関する主観評価実験結果を示す図 異なる音響特徴量(MFCC、MFCC+F0)および手法(GMM、i−vec)を用いて構築された話者モデルにおける教師無し話者適応の客観評価実験結果(メルケプストラム歪み、LF0 RMSE)を示す図 異なるSNRの話者適応用データを用いた教師無し話者適応の客観評価実験結果を示す図 話者類似度照合モデルの学習に劣化の無い高品質音声データを用いた場合の教師無し話者適応の客観評価実験結果と、劣化音声データを用いた場合の教師無し話者適応の客観評価実験結果とを示す図(話者適応用データには高品質音声データおよび劣化音声データのそれぞれが用いられている) 話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の品質に関する主観評価実験結果を示す図(話者適応用データには高品質音声データおよび劣化音声データのそれぞれが用いられている) 話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の話者類似性に関する主観評価実験結果を示す図(話者適応用データには高品質音声データおよび劣化音声データのそれぞれが用いられている) 図1に示される枠組みを実現するためのコンピュータシステム1の構成の一例を示す図
以下、本明細書において用いられる用語の定義を説明する。
「未知話者」とは、合成された音声を生成する際に音声合成器に入力される話者情報が未知である話者をいう。
「既知話者」とは、合成された音声を生成する際に音声合成器に入力される話者情報が既知である話者をいう。
「DNN」とは、ディープニューラルネットワークの略称である。
「教師無し話者適応」とは、教師データの入力を必要とすることなく、未知話者に適応した処理を行うことをいう。特に、「DNN音声合成の教師無し話者適応」とは、教師データとしてのテキストの入力を必要とすることなく、音声のみから未知話者のDNN音声合成システムを構築することをいう。
以下、図面を参照しながら、本発明の実施形態を説明する。
1.DNN音声合成の教師無し話者適応を実現する枠組み
図1は、DNN音声合成の教師無し話者適応を実現する枠組みの一例を示す。この枠組みでは、複数話者の音響モデル(DNN)230を利用して、入力されたテキストに対応する未知話者の合成された音声が出力される。この複数話者の音響モデル(DNN)230は、複数の話者情報を少なくとも用いて学習済みである。これらの複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。この枠組みは、適応パート100と合成パート200とに大別される。
1.1 適応パート100における処理
適応パート100は、未知話者の音声信号に基づいて、未知話者の話者情報を生成するように機能する。以下、適応パート100における処理の流れを説明する。
未知話者データベース110からの未知話者の音声信号が音声分析部120に入力される。
音声分析部120は、未知話者の音声信号を分析することにより、未知話者の音響特徴量を生成する。
話者情報推定部130は、教師データとしてのテキストの入力を必要とすることなく、未知話者の音響特徴量に基づいて、未知話者の話者情報を推定する。未知話者の話者情報の推定は、例えば、話者類似性モデル140を利用して行なわれる。話者類似性モデル140は、テキストを不要とするように設計されている。
話者類似性モデル140には、複数の既知話者の音響特徴量の分布が格納されている。例えば、話者類似性モデル140には、5名分の既知話者の音響特徴量の分布が格納されている。この場合、未知話者の音響特徴量の分布と5名分の既知話者のそれぞれの音響特徴量の分布との類似度を表す確率が算出され、5次元の類似度ベクトルが話者コードとして生成される。すなわち、類似度ベクトルは、類似度ベクトルのk番目の要素=未知話者の音響特徴量の分布とk番目の既知話者の音響特徴量の分布の類似度を表す確率であるベクトルとして定義される(ここで、k=1,2,3,4,5である)。例えば、類似度ベクトルは、(0.8,0.05,0.05,0.05,0.05)として表現される。ここで、音響特徴量の一例は、メル周波数ケプストラム係数(MFCC)および/または声の高さ(基本周波数)であるが、これらに限定されない。また、話者類似度のモデル化には、例えば、話者認識で用いられるi−vector/PLDAモデル(音声の要約統計量を確率的LDA法で低次元化する手法)を利用することが可能であるが、これに限定されない。i−vector/PLDAモデルを利用することは、ノイズを含む音声からでも話者適応ができるものとして期待されている。
なお、上述した例では、類似度ベクトルが話者コードとして生成されるとして説明したが、話者コードの表現形式はベクトル形式に限定されない。話者コードは、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を表す確率を表現する限り、任意のデータ形式によって表現されることが可能である。
また、話者コードは、話者情報の全部であってもよいが話者情報の一部であってもよい。話者情報は、話者コード以外の情報(例えば、ジェンダーコード、年齢コード)を含んでいてもよい。
このようにして、適応パート100では、教師データとしてのテキストの入力を必要とすることなく、未知話者の音声信号に基づいて、未知話者の話者情報が生成される。未知話者の話者情報は、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。話者コードは、例えば、類似度ベクトルの形式によって表現される。
1.2 合成パート200における処理
合成パート200は、複数話者の音響モデル(DNN)230を利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器として機能する。以下、合成パート200における処理の流れを説明する。
テキスト分析部210は、入力されたテキストを分析することにより、入力されたテキストの言語特徴量を生成する。テキスト分析部210によって生成された入力されたテキストの言語特徴量が、合成音響特徴量生成部220に入力される。また、未知話者の話者情報が、合成音響特徴量生成部220に入力される。入力された未知話者の話者情報は、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。入力された未知話者の話者情報は、例えば、上述した話者情報推定部130によって推定されたものである。
合成音響特徴量生成部220は、入力されたテキストの言語特徴量と入力された未知話者の話者情報とに基づいて、未知話者の合成された音響特徴量を生成する。未知話者の合成された音響特徴量の生成は、複数話者の音響モデル(DNN)230を利用して行なわれる。複数話者の音響モデル(DNN)230は、ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルである。複数話者の音響モデル(DNN)230の利用は、複数話者の音響モデル(DNN)230の学習の後に行われる。複数話者の音響モデル(DNN)230の学習は、例えば、既知話者の話者情報の学習および/または既知話者の音響特徴量の学習を含む。
以下、入力されたテキストの言語特徴量と入力された未知話者の話者情報とに基づいて、未知話者の合成された音響特徴量を生成する処理の一例を説明する。この例では、入力されたテキストがT次元のベクトルで表され、入力された未知話者の話者情報に含まれる話者コードがK次元のベクトルで表されるものとする。また、話者コードのベクトルは、上述した類似度ベクトルであるものとする。合成音響特徴量生成部220に入力される情報は、N次元のベクトルで表される。ここで、N=T+Kであり、N、T、Kは、1以上の任意の整数である。合成音響特徴量生成部220から出力される情報(すなわち、合成された音響特徴量)は、S次元のベクトルで表されるものとする。
具体的な処理は、階層的に行われる。例えば、複数話者の音響モデル(DNN)230が2層から構成されている場合には、N次元入力→1層目の中間層→2層目の中間層→S次元出力という処理が行われる。ここで、1層目の中間層、2層目の中間層のそれぞれは、中間表現を表し、H次元のベクトルで表されるものとする。すなわち、N次元入力→行列演算→シグモイド演算→1層目の中間層(H次元のベクトル)→行列演算→シグモイド演算→2層目の中間層(H次元のベクトル)→行列演算→S次元出力という処理が行われる。
(1)入力の説明
上述したように、入力されたテキストは、T次元のベクトルで表される。このT次元のベクトルの1次元目は「あ」という音を生成するかどうか、2次元目は「い」という音を生成するどうかなど、生成する音を指示するための入力である。ベクトルの要素が1であることは、その要素に対応する音を生成することを示し、ベクトルの要素が0であることは、その要素に対応する音を生成しないことを示す。上述したように、話者コードは、K次元のベクトルで表される。ここで、N=T+Kである。
(2)N次元入力→1層目の中間層の説明
1層目の中間層のH次元のベクトルの1次元目は、「1層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列1×テキストのベクトル+重み行列2×話者コードのベクトル)」・・・(式1)によって計算される。ここで、重み行列1は、1×Tの行列であり、重み行列2は、1×Kの行列である。従って、(式1)の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。
同様に、1層目の中間層のH次元のベクトルの2次元目は、「1層目のH次元のベクトルの2次元目=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’×話者コードのベクトル)」・・・(式2)によって計算される。ここで、重み行列1’は、1×Tの行列であり、重み行列2’は、1×Kの行列である。従って、(式2)の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。
同様の演算をH回繰り返して行うことにより、1層目の中間層のH次元のベクトルのすべての要素を計算することが可能である。
(3)1層目の中間層→2層目の中間層の説明
2層目の中間層のH次元のベクトルの1次元目は、「2層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列3×1層目の中間層のH次元のベクトル)」・・・(式3)によって計算される。ここで、重み行列3は、1×H行列である。従って、(式3)の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。
同様に、2層目の中間層のH次元のベクトルの2次元目は、「2層目の中間層のH次元のベクトルの2次元目=シグモイド関数(重み行列3’×1層目の中間層のH次元のベクトル)」・・・(式4)によって計算される。ここで、重み行列3’は、1×H行列である。従って、(式4)の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。
同様の演算をH回繰り返して行うことにより、2層目の中間層のH次元のベクトルのすべての要素を計算することが可能である。
(4)2層目の中間層→S次元出力の説明
最後に、S次元出力は、「S次元のベクトル=重み行列4×2層目の中間層のH次元のベクトル」・・・(式5)によって計算される。ここで、重み行列4は、S×Hの行列である。従って、(式5)の計算の結果は、S次元のベクトルである。このようにして、S次元のベクトルによって表される合成された音響特徴量を予測することが可能である。
このように、話者コードのベクトルが類似度ベクトルである場合には、重み行列2の特定の要素(例えば、k番目の要素)のみだけでなく、重み行列2のすべての要素が常に利用される。これにより、話者コードのベクトルが類似度ベクトルである場合には、K人の既知話者の全員の類似度を考慮して未知話者の話者情報を推定することが可能である。従って、類似度ベクトルを用いて推定した未知話者の話者情報は、後述するone−hotベクトルを用いて推定した未知話者の話者情報よりも有用であるといえる。
・1層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列1×テキストのベクトル+重み行列2×類似度ベクトル)=シグモイド関数(重み行列1×テキストのベクトル+重み行列2の1番目の要素×1番目の既知話者の類似度+重み行列2の2番目の要素×2番目の既知話者の類似度+・・・+重み行列2のK番目の要素×K番目の既知話者の類似度)
・1層目の中間層のH次元のベクトルの2次元目=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’×類似度ベクトル)=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’の1番目の要素×1番目の既知話者の類似度+重み行列2’の2番目の要素×2番目の既知話者の類似度+・・・+重み行列2’のK番目の要素×K番目の既知話者の類似度)
これに対し、K人の既知の話者のうちのk番目の人を合成することを想定して、話者コードのベクトルが、k番目の要素のみが1で他の要素がすべて0であるone−hotベクトルである場合には、重み行列2のk番目の要素以外の要素がゼロ演算で消えてしまうことになる。このため、話者コードのベクトルがone−hotベクトルである場合には、K人の既知話者のうちのk番目の既知話者のみを考慮して未知話者の話者情報を推定することになる。従って、one−hotベクトルを用いて推定した未知話者の話者情報は、上述した類似度ベクトルを用いて推定した未知話者の話者情報よりも有用でないといえる。
・1層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列1×テキストのベクトル+重み行列2×one−hotベクトル)=シグモイド関数(重み行列1×テキストのベクトル+重み行列2のk番目の要素)
・1層目の中間層のH次元のベクトルの2次元目=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’×one−hotベクトル)=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’のk番目の要素)
なお、複数話者の音響モデル(DNN)230が2層から構成されている場合には、複数話者の音響モデル(DNN)230には、N次元入力→1層目の中間層の処理において用いられる重み行列1、重み行列2、重み行列1’、重み行列2’、重み行列1’’、重み行列2’’、・・・(合計でH×2個の行列)が格納されており、1層目の中間層→2層目の中間層の処理において用いられる重み行列3、重み行列3’、重み行列3’’、重み行列3’’’、・・・(合計でH個の行列)が格納されており、2層目の中間層→S次元出力の処理において用いられる重み行列4(1個の行列)が格納されている。
なお、上述した例では、複数話者の音響モデル(DNN)230が2層から構成されているフィードフォワードニューラルネットワークの場合の例を説明したが、本発明はこれに限定されない。複数話者の音響モデル(DNN)230は、2以上の任意の数の層から構成されることが可能であり、2以上の任意の数の層について上述した処理と同様の処理を行うことが可能である。また、DNNは他の構造でもよく、例えば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク(リカレントニューラルネットワーク)においても、上述した処理と同様の処理を行うことが可能である。
なお、上述した例では、シグモイド関数を用いた演算を行う例を説明したが、本発明はこれに限定されない。例えば、シグモイド関数を用いた演算の代わりに、正規化線形関数(Rectified Linear Unit)を用いた演算を行うようにしてもよい。
合成音声生成部240は、未知話者の合成された音響特徴量に基づいて、未知話者の合成された音声を生成する。
このようにして、合成パート200は、複数話者の音響モデル(DNN)230を利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器として機能する。言い換えると、合成パート200は、未知話者の話者性を再現する音声合成器として機能する。この音声合成器は、入力されたテキストに応答して、そのテキストに対応する未知話者の合成された音声を出力するという通常の機能を有しているが、未知話者の話者情報に応じて、合成される音声を変化させるという機能をさらに有している。従って、この音声合成器は、未知話者の話者情報に応じて、合成される音声を変化させる手段を有しているといえる。合成される音声を変化させる手段は、複数話者の音響モデル(DNN)を利用して、合成される音声を変化させることが可能である。また、未知話者の話者情報に応じて、合成される音声を変化させることは、例えば、未知話者の話者情報に応じて、合成された音響特徴量を変化させることと、合成された音響特徴量を合成された音声に変換して出力することとによって達成される。
図1に示される枠組みによれば、大量のデータで学習済みの複数話者の音声合成システムをベースにして、テキストが存在しない少量の音声データのみから未知話者のDNN音声合成器を構築することが可能である。
2.実験結果
図2Aは、図1に示される枠組みに基づいて実験した客観評価実験結果を示す。
合成された音響特徴量(メルケプストラム、基本周波数(F0))と自然音声の音響特徴量との誤差を計測した。以下に示す4つの手法の比較を行った。
・AVM:話者適応無し(平均声)
・AVM+ga:AVMで正しい年齢・性別を利用
・Supervise:教師有り話者適応
・Unsupervise:教師無し話者適応
図2Aから分かるように、教師無し話者適応の手法によれば、(教師有り話者適応の手法に比べて誤差が依然として大きいものの)話者適応無し(平均声)の手法やAVMで正しい年齢・性別を利用の手法に比べて誤差を低減することができるという実験結果が得られた。
図2Bは、教師有り話者適応(Supervise)の場合、および、GMM−UBMまたはi−vector/PLDAを利用した教師無し話者適応(GMM、i−vec)の場合の(a)品質および(b)話者類似性に関する主観評価実験結果を示す。なお、図2Bの凡例において、「utt」は、発話数を表す。
図2Bから分かるように、品質においては、Superviseの話者適応用データの発話数の違いに注目すると、発話数が多いほど品質が低下していることが分かる。これは、複数話者音声合成システムの学習時に用いられる話者コード(One−hotベクトル)と推定された話者コード(連続値)の表現が大きく異なることや、バックプロパゲーションによる推定に適切な停止基準が設定できていないことが原因として考えられる。SuperviseとGMM(MFCC)およびGMM(MFCC+F0)とを比較すると、GMM(MFCC)およびGMM(MFCC+F0)の方が、高品質な音声の合成を行うことができていることが分かる。また、i−vector/PLDAを用いた手法(i−vec(MFCC)、i−vec(MFCC+F0))は,GMM−UBMを用いた手法(GMM(MFCC),GMM(MFCC+F0))と比較して低評価となった。これらの結果から、GMM−UBMを用いることによって,音声合成のための複数話者モデルの学習、話者適応に適切な話者類似度ベクトルを推定することが可能であり、高品質な音声合成が行われたと考えられる。
また、図2Bから分かるように、話者類似性においては、Supervise、GMM(MFCC)、GMM(MFCC+F0)は、話者適応用データの発話数にかかわらず、ほぼ同等の性能となっている。F0特徴量を利用したi−vec(MFCC+F0)はi−vec(MFCC)からの改善は見られるが、どちらの手法も、他の手法と比較して評価は低い。i−vector/PLDAを用いた手法では、適切な話者類似度ベクトルが推定されなかったため、話者適応が適切に行われなかったと考えられる。GMM−UBMを用いた手法では、高精度な話者適応を行うことができることが示された。
図2Aおよび図2Bに示される実験の結果の前提となる実験条件は、以下に示すとおりである。
・学習データ
・複数話者の音声合成用DNNの学習
・話者数:112名
・発話数:計11,154発話(各話者100発話程度)
・話者類似度モデルの学習
・複数話者の音声合成用DNNと同じ
・話者適応用データ
・話者数:23名
・発話数:各話者100発話程度
・テストデータ
・話者数:23名(適応話者と同じ)
・合成発話数:各話者10発話
さらに、出願人は、図1に示される枠組に基づいて、劣化音声を用いた教師無し話者適応の実験(以下、第2の実験という)を行った。
なお、第2の実験は、図2Aおよび図2Bに示される実験の結果の前提となる実験条件と同一の実験条件で行われた。
第2の実験では、雑音を音声データに付与するための雑音データを格納している雑音データベースと、残響を音声データに付与するための残響データを格納している残響データベースとが使用され、劣化音声yは、劣化なし高品質音声データから以下の式6を用いて作成された。
y=x*h+α(n*h)・・・(式6)
ここで、xは、高音質音声を表し、nは、雑音を表し、hおよびhは、それぞれ異なるマイク位置において得られた残響を付与するために用いられるインパルス応答を表し(hはhよりスピーカに近い位置を表す)、*は、畳み込みを表し、αは、雑音の強さを調整する所望のパラメータを表す。
これにより、第2の実験では、上述した式6を用いて、劣化なし高音質音声データ(CLEAN)と、オフィスルームを想定した雑音・残響を付与した劣化音声データ(OFFICE)と、ミーティングルームを想定した雑音・残響を付与した劣化音声データ(MEETING)とが使用された。
第2の実験では、これら3種類の音声データ(CLEAN、OFFICE、MEETING)のそれぞれについて、異なる音響特徴量(メル周波数ケプストラム係数(MFCC)、MFCC+F0)および異なる手法(GMM−UBM(Gaussian Mixture Model − Universal Background Model)、i−vector/PLDA(確率的線形判別分析;Probablistic Linear Discriminant Analysis))を用いることによって話者類似度モデルを構築した。
第2の実験では、客観的な評価による実験と、主観的な評価による実験とが行われた。客観的な評価による実験の結果は、図3A〜図3Cに示され、主観的な評価による実験の結果は、図3D〜図3Fに示される。
図3Aは、異なる音響特徴量(MFCC、MFCC+F0)および手法(GMM、i−vec)を用いて構築された話者モデルにおける教師無し話者適応の客観評価実験結果(メルケプストラム歪み、LF0 RMSE)を示す。
図3Aから分かるように、F0に関する音響特徴量を話者照合モデルの構築に利用した場合、全ての手法においてメルケプストラム歪み、LF0 RMSEの値が非常に高くなっている。これは、劣化音声から適切に基本周波数の抽出ができず、話者照合モデルの学習に悪影響を及ぼし、話者類似度の推定が適切に行われなかったためだと考えられる。また、音響特徴量としてMFCCを用いたGMM−UBMとi−vector/PLDAを比較すると、i−vector/PLDAが全ての条件で良い評価となっている。
図3Bは、異なるSNRの話者適応用データを用いた教師無し話者適応の客観評価実験結果を示す。ここで、「SNR」とは、信号と雑音との比率をいい、数値が大きいほど雑音が少ないことを表す。SNRの単位は、デシベル(dB)である。なお、図3Bは、図3Aのより詳細な結果を示す図である。
なお、図3Bに示される実施形態では、2.5dB、7.5dB、12.5dB、17.5dBのSNRが使用され、図3Bには、MEETINGの劣化音声データを使用した場合の実験結果が示されている。なお、OFFICEの劣化音声データを使用した場合も、MEETINGの劣化音声データを使用した場合の実験結果と同様の実験結果が得られた。
図3Bから分かるように、i−vector/PLDAを使用した場合、SNRが変化してもメルケプストラム歪みおよびLF0 RMSEの値はほとんど変化せず、従って、劣化音声から各学習話者に対する事後確率がロバストに計算されたということが分かる。
図3Cは、話者類似度照合モデルの学習に劣化の無い高品質音声データを用いた場合の教師無し話者適応の客観評価実験結果と、劣化音声データを用いた場合の教師無し話者適応の客観評価実験結果との比較を示す。
図3Cの凡例において、スラッシュ記号の左側は、話者類似度モデルを学習した音声データの種類を表し、スラッシュ記号の右側は、話者適応用データの音声データを表す。例えば、CLEAN/MEETINGは、劣化の無い高品質音声データ(CLEAN)が話者類似度モデルの学習に使用され、かつ、話者適応用データとしてMEETINGの劣化音声データが使用されたことを表す。
また、図3Cにおいて、GMM、GMM(F0)、i−vec、i−vec(F0)は、それぞれ以下に示す手法を用いた実験を示す。
・GMM:「MFCC」×「GMM−UBM」
・GMM(F0):「MFCC+F0」×「GMM−UBM」
・i−vec:「MFCC」×「i−vector/PLDA」
・i−vec(F0):「MFCC+F0」×「i−vector/PLDA」
図3Cから分かるように、CLEAN/OFFICEとOFFICE/OFFICEとを比較すると、および/または、CLEAN/MEETINGとMEETING/MEETINGとを比較すると、話者類似度モデルと話者適応用データとの両方に劣化音声データ(すなわち、OFFICE/OFFICEまたはMEETING/MEETING)を用いることにより、メルケプストラム歪みおよびLF0 RMSEの値が改善しており、従って、劣化音声から話者類似度モデルを学習することによって、劣化音声から事後確率を計算するのに適した話者類似度モデルの構築がなされたということが分かる。
図3Dは、話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の品質に関する主観評価実験結果を示す。また、図3Eは、話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の話者類似性に関する主観評価実験結果を示す。
図3Dには、合成音声の品質を5段階MOSによって主観的に評価した結果が示されており、図3Eには、合成音声とリファレンス音声とを比較した話者類似性を5段階MOSによって主観的に評価した結果が示されている。
話者類似性モデルに用いる特徴量の違いに注目すると、劣化音声に対してF0に関する特徴量を利用した場合、評価が低いことがわかる。これは、客観評価結果と同様に、劣化音声からのF0抽出にエラーが多く含まれたためだと考えられる。
また、話者類似性モデルの学習に用いる学習データとテストデータとの間にミスマッチがあるシステム(例えば、CLEAN/OFFICE、CLEAN/MEETING)とミスマッチが無いシステム(例えば、CLEAN/CLEAN、MEETING/MEETING)とを比較すると、ミスマッチが無いシステムは、品質および話者類似性の両方において全体的に高評価となっていることがわかる。劣化音声から話者照合モデルを学習することで、劣化音声から事後確率を計算するのに適した話者類似性モデルの構築が行われたことがわかる。また、ミスマッチが無い場合において、話者類似性モデルにUBM−GMMを用いた手法と比べ,i−vector/PLDAを用いた手法は高評価となっており、CLEAN/CLEANという理想的な条件と比較してほぼ同等の性能が得られているシステムもある。このことから、テストデータに劣化音声を用いる場合には、i−vector/PLDA の方がより有効であることが分かる。
3.コンピュータシステム1の構成
図4は、図1に示される枠組みを実現するためのコンピュータシステム1の構成の一例を示す。
コンピュータシステム1は、メモリ部10とプロセッサ部20とを少なくとも含む。これらの構成要素は、相互に接続されている。これらの構成要素のそれぞれは、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。
メモリ部10には、処理を実行するために必要とされるプログラム(例えば、図1に示される処理を実行するために必要とされるプログラム)やそのプログラムを実行するために必要とされるデータ等が格納されている。ここで、プログラムをどのようにしてメモリ部10に格納するかは問わない。例えば、プログラムは、メモリ部10にプリインストールされていてもよい。あるいは、プログラムは、インターネットなどのネットワークを経由してダウンロードされることによってメモリ部10にインストールされるようにしてもよいし、光ディスクやUSBなどの記憶媒体を介してメモリ部10にインストールされるようにしてもよい。
プロセッサ部20は、コンピュータシステム1の全体の動作を制御する。プロセッサ部20は、メモリ部10に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、コンピュータシステム1は、所望のステップを実行するように構成された装置または所望の機能を実行する手段を備えた装置として機能することが可能である。例えば、コンピュータシステム1は、音声分析部120、話者情報推定部130、テキスト分析部210、合成音響特徴量生成部220、合成音声生成部240という特定の機能を実行する手段を備えた装置として機能することが可能である。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
本発明は、DNN音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム等を提供するものとして有用である。
1 コンピュータシステム
10 メモリ部
20 プロセッサ部
100 適応パート
110 未知話者データベース
120 音声分析部
130 話者情報推定部
140 話者類似性モデル
200 合成パート
210 テキスト分析部
220 合成音響特徴量生成部
230 複数話者の音響モデル(DNN)
240 合成音声生成部

Claims (5)

  1. ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
    前記コンピュータシステムは、
    未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成する音声分析部と、
    教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定する話者情報推定部であって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、話者情報推定部と、
    前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、
    前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部と、
    前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部と
    を備える、コンピュータシステム。
  2. 前記話者情報推定部は、話者類似度モデルを利用して、前記未知話者の話者情報を推定し、前記話者類似度モデルには、前記複数の既知話者のそれぞれの音響特徴量の分布が格納されている、請求項1に記載のコンピュータシステム。
  3. ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行される方法であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
    前記方法は、音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、
    教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、
    前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、
    前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、
    前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することと
    を含む、方法。
  4. ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行されるプログラムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記コンピュータシステムは、プロセッサ部を含み、
    前記プログラムは、前記プロセッサ部によって実行されると、
    未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、
    教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、
    前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、
    前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、
    前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することと
    を少なくとも実行することを前記プロセッサ部に行わせる、プログラム。
  5. ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
    前記音声合成器は、
    前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、
    入力された未知話者の話者情報を受け取り、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記入力された未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部であって、前記入力された未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、合成音響特徴量生成部と、
    前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部と
    を備える、音声合成器。
JP2018568997A 2017-08-29 2018-08-06 Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム Active JP6505346B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017164267 2017-08-29
JP2017164267 2017-08-29
PCT/JP2018/029438 WO2019044401A1 (ja) 2017-08-29 2018-08-06 Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム

Publications (2)

Publication Number Publication Date
JP6505346B1 JP6505346B1 (ja) 2019-04-24
JPWO2019044401A1 true JPWO2019044401A1 (ja) 2019-11-07

Family

ID=65527677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018568997A Active JP6505346B1 (ja) 2017-08-29 2018-08-06 Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム

Country Status (2)

Country Link
JP (1) JP6505346B1 (ja)
WO (1) WO2019044401A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7125608B2 (ja) * 2018-10-05 2022-08-25 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム
US11657828B2 (en) * 2020-01-31 2023-05-23 Nuance Communications, Inc. Method and system for speech enhancement
WO2023157066A1 (ja) * 2022-02-15 2023-08-24 日本電信電話株式会社 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method

Also Published As

Publication number Publication date
JP6505346B1 (ja) 2019-04-24
WO2019044401A1 (ja) 2019-03-07

Similar Documents

Publication Publication Date Title
EP1515305B1 (en) Noise adaption for speech recognition
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP2019120841A (ja) スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
WO2017046887A1 (ja) 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
WO2016042659A1 (ja) 音声合成装置、音声合成方法およびプログラム
Sadhu et al. Continual Learning in Automatic Speech Recognition.
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
JP6505346B1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JPWO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
Park et al. Multi-speaker end-to-end speech synthesis
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
Giacobello et al. Stable 1-norm error minimization based linear predictors for speech modeling
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Li et al. Bidirectional LSTM Network with Ordered Neurons for Speech Enhancement.
Elshamy et al. DNN-based cepstral excitation manipulation for speech enhancement
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP2018013722A (ja) 音響モデル最適化装置及びそのためのコンピュータプログラム
JP5771575B2 (ja) 音響信号分析方法、装置、及びプログラム
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Ai et al. Reverberation modeling for source-filter-based neural vocoder
Sustek et al. Dealing with Unknowns in Continual Learning for End-to-end Automatic Speech Recognition.
Song et al. Speaker-adaptive neural vocoders for parametric speech synthesis systems
Takaki et al. Unsupervised speaker adaptation for DNN-based speech synthesis using input codes
GB2576320A (en) A processing method, a processing system and a method of training a processing system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181228

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181228

AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20190116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190207

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190326

R150 Certificate of patent or registration of utility model

Ref document number: 6505346

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250