JPWO2019044401A1

JPWO2019044401A1 - Ｄｎｎ音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム

Info

Publication number: JPWO2019044401A1
Application number: JP2018568997A
Authority: JP
Inventors: 順一山岸; 信二高木
Original assignee: Inter University Research Institute Corp Research Organization of Information and Systems
Current assignee: Inter University Research Institute Corp Research Organization of Information and Systems
Priority date: 2017-08-29
Filing date: 2018-08-06
Publication date: 2019-11-07
Anticipated expiration: 2038-08-06
Also published as: JP6505346B1; WO2019044401A1

Abstract

コンピュータシステム１は、教師データとしてのテキストの入力を必要とすることなく、未知話者の音響特徴量に基づいて、未知話者の話者情報を推定する話者情報推定部１３０を含む。未知話者の話者情報は、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。コンピュータシステム１は、複数話者の音響モデル（ＤＮＮ）２３０を利用して、入力されたテキストの言語特徴量と未知話者の話者情報とに基づいて、未知話者の合成された音響特徴量を生成する合成音響特徴量生成部２２０と、未知話者の合成された音響特徴量に基づいて、未知話者の合成された音声を生成する合成音声生成部２４０とをさらに含む。

Description

本発明は、ＤＮＮ音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラムに関する。

従来から、ＤＮＮ音声合成の教師有り話者適応が知られている（例えば、非特許文献１を参照）。このようなＤＮＮ音声合成の教師有り話者適応では、未知話者の音声データおよび教師データとして入力されたテキストの両方に基づいて未知話者の話者情報の推定が行われていた。従来の未知話者の話者情報は、０と１のみで構成されるベクトルで表現された話者コード（例えば、ｋ番目の要素のみが１で他の要素がすべて０であるｏｎｅ−ｈｏｔベクトルで表現された話者コード）を含んでいた。

Hieu-Thi Luong, Shinji Takaki, Gustav EjeHenter, Junichi Yamagishi,"Adapting and Controlling DNN-based SpeechSynthesis Using InputCodes," IEEE International Conference on Acoustics,Speech and SignalProcessing (ICASSP), SP-L4.3, 4905-4909, 2017年3月

従来のＤＮＮ音声合成の教師有り話者適応では、教師データとしてのテキストの入力を必要としていた。教師データとしてのテキストの入力を対応する音声ファイルから人手で書き起こしにて行う場合には、人件費などでコストが高くなり、教師データとしてのテキストの入力を音声認識器を利用して用意する場合には、音声認識器の認識誤りの影響を受けるという課題があった。

本発明は、この課題を解決するためになされたものであり、ＤＮＮ音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラムを提供することを目的とする。

本発明のコンピュータシステムは、ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記コンピュータシステムは、未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成する音声分析部と、教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定する話者情報推定部であって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、話者情報推定部と、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部と、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部とを備え、これにより、上記目的が達成される。

前記話者情報推定部は、話者類似度モデルを利用して、前記未知話者の話者情報を推定し、前記話者類似度モデルには、前記複数の既知話者のそれぞれの音響特徴量の分布が格納されていてもよい。

本発明の方法は、ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行される方法であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記方法は、音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することとを含み、これにより、上記目的が達成される。

本発明のプログラムは、ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行されるプログラムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記コンピュータシステムは、プロセッサ部を含み、前記プログラムは、前記プロセッサ部によって実行されると、未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することとを少なくとも実行することを前記プロセッサ部に行わせ、これにより、上記目的が達成される。

本発明の音声合成器は、ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記音声合成器は、前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、入力された未知話者の話者情報を受け取り、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記入力された未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部であって、前記入力された未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、合成音響特徴量生成部と、前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部とを備え、これにより、上記目的が達成される。

本発明によれば、ＤＮＮ音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラムを提供することが可能である。

ＤＮＮ音声合成の教師無し話者適応を実現する枠組みの一例を示す図図１に示される枠組みに基づいて実験した客観評価実験結果を示す図教師有り話者適応（Ｓｕｐｅｒｖｉｓｅ）の場合、および、ＧＭＭ−ＵＢＭまたはｉ−ｖｅｃｔｏｒ／ＰＬＤＡを利用した教師無し話者適応（ＧＭＭ、ｉ−ｖｅｃ）の場合の（ａ）品質および（ｂ）話者類似性に関する主観評価実験結果を示す図異なる音響特徴量（ＭＦＣＣ、ＭＦＣＣ＋Ｆ０）および手法（ＧＭＭ、ｉ−ｖｅｃ）を用いて構築された話者モデルにおける教師無し話者適応の客観評価実験結果（メルケプストラム歪み、ＬＦ０ＲＭＳＥ）を示す図異なるＳＮＲの話者適応用データを用いた教師無し話者適応の客観評価実験結果を示す図話者類似度照合モデルの学習に劣化の無い高品質音声データを用いた場合の教師無し話者適応の客観評価実験結果と、劣化音声データを用いた場合の教師無し話者適応の客観評価実験結果とを示す図（話者適応用データには高品質音声データおよび劣化音声データのそれぞれが用いられている）話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の品質に関する主観評価実験結果を示す図（話者適応用データには高品質音声データおよび劣化音声データのそれぞれが用いられている）話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の話者類似性に関する主観評価実験結果を示す図（話者適応用データには高品質音声データおよび劣化音声データのそれぞれが用いられている）図１に示される枠組みを実現するためのコンピュータシステム１の構成の一例を示す図

以下、本明細書において用いられる用語の定義を説明する。

「未知話者」とは、合成された音声を生成する際に音声合成器に入力される話者情報が未知である話者をいう。

「既知話者」とは、合成された音声を生成する際に音声合成器に入力される話者情報が既知である話者をいう。

「ＤＮＮ」とは、ディープニューラルネットワークの略称である。

「教師無し話者適応」とは、教師データの入力を必要とすることなく、未知話者に適応した処理を行うことをいう。特に、「ＤＮＮ音声合成の教師無し話者適応」とは、教師データとしてのテキストの入力を必要とすることなく、音声のみから未知話者のＤＮＮ音声合成システムを構築することをいう。

以下、図面を参照しながら、本発明の実施形態を説明する。

１．ＤＮＮ音声合成の教師無し話者適応を実現する枠組み
図１は、ＤＮＮ音声合成の教師無し話者適応を実現する枠組みの一例を示す。この枠組みでは、複数話者の音響モデル（ＤＮＮ）２３０を利用して、入力されたテキストに対応する未知話者の合成された音声が出力される。この複数話者の音響モデル（ＤＮＮ）２３０は、複数の話者情報を少なくとも用いて学習済みである。これらの複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。この枠組みは、適応パート１００と合成パート２００とに大別される。

１．１適応パート１００における処理
適応パート１００は、未知話者の音声信号に基づいて、未知話者の話者情報を生成するように機能する。以下、適応パート１００における処理の流れを説明する。

未知話者データベース１１０からの未知話者の音声信号が音声分析部１２０に入力される。

音声分析部１２０は、未知話者の音声信号を分析することにより、未知話者の音響特徴量を生成する。

話者情報推定部１３０は、教師データとしてのテキストの入力を必要とすることなく、未知話者の音響特徴量に基づいて、未知話者の話者情報を推定する。未知話者の話者情報の推定は、例えば、話者類似性モデル１４０を利用して行なわれる。話者類似性モデル１４０は、テキストを不要とするように設計されている。

話者類似性モデル１４０には、複数の既知話者の音響特徴量の分布が格納されている。例えば、話者類似性モデル１４０には、５名分の既知話者の音響特徴量の分布が格納されている。この場合、未知話者の音響特徴量の分布と５名分の既知話者のそれぞれの音響特徴量の分布との類似度を表す確率が算出され、５次元の類似度ベクトルが話者コードとして生成される。すなわち、類似度ベクトルは、類似度ベクトルのｋ番目の要素＝未知話者の音響特徴量の分布とｋ番目の既知話者の音響特徴量の分布の類似度を表す確率であるベクトルとして定義される（ここで、ｋ＝１，２，３，４，５である）。例えば、類似度ベクトルは、（０．８，０．０５，０．０５，０．０５，０．０５）として表現される。ここで、音響特徴量の一例は、メル周波数ケプストラム係数（ＭＦＣＣ）および／または声の高さ（基本周波数）であるが、これらに限定されない。また、話者類似度のモデル化には、例えば、話者認識で用いられるｉ−ｖｅｃｔｏｒ／ＰＬＤＡモデル（音声の要約統計量を確率的ＬＤＡ法で低次元化する手法）を利用することが可能であるが、これに限定されない。ｉ−ｖｅｃｔｏｒ／ＰＬＤＡモデルを利用することは、ノイズを含む音声からでも話者適応ができるものとして期待されている。

なお、上述した例では、類似度ベクトルが話者コードとして生成されるとして説明したが、話者コードの表現形式はベクトル形式に限定されない。話者コードは、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を表す確率を表現する限り、任意のデータ形式によって表現されることが可能である。

また、話者コードは、話者情報の全部であってもよいが話者情報の一部であってもよい。話者情報は、話者コード以外の情報（例えば、ジェンダーコード、年齢コード）を含んでいてもよい。

このようにして、適応パート１００では、教師データとしてのテキストの入力を必要とすることなく、未知話者の音声信号に基づいて、未知話者の話者情報が生成される。未知話者の話者情報は、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。話者コードは、例えば、類似度ベクトルの形式によって表現される。

１．２合成パート２００における処理
合成パート２００は、複数話者の音響モデル（ＤＮＮ）２３０を利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器として機能する。以下、合成パート２００における処理の流れを説明する。

テキスト分析部２１０は、入力されたテキストを分析することにより、入力されたテキストの言語特徴量を生成する。テキスト分析部２１０によって生成された入力されたテキストの言語特徴量が、合成音響特徴量生成部２２０に入力される。また、未知話者の話者情報が、合成音響特徴量生成部２２０に入力される。入力された未知話者の話者情報は、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。入力された未知話者の話者情報は、例えば、上述した話者情報推定部１３０によって推定されたものである。

合成音響特徴量生成部２２０は、入力されたテキストの言語特徴量と入力された未知話者の話者情報とに基づいて、未知話者の合成された音響特徴量を生成する。未知話者の合成された音響特徴量の生成は、複数話者の音響モデル（ＤＮＮ）２３０を利用して行なわれる。複数話者の音響モデル（ＤＮＮ）２３０は、ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルである。複数話者の音響モデル（ＤＮＮ）２３０の利用は、複数話者の音響モデル（ＤＮＮ）２３０の学習の後に行われる。複数話者の音響モデル（ＤＮＮ）２３０の学習は、例えば、既知話者の話者情報の学習および／または既知話者の音響特徴量の学習を含む。

以下、入力されたテキストの言語特徴量と入力された未知話者の話者情報とに基づいて、未知話者の合成された音響特徴量を生成する処理の一例を説明する。この例では、入力されたテキストがＴ次元のベクトルで表され、入力された未知話者の話者情報に含まれる話者コードがＫ次元のベクトルで表されるものとする。また、話者コードのベクトルは、上述した類似度ベクトルであるものとする。合成音響特徴量生成部２２０に入力される情報は、Ｎ次元のベクトルで表される。ここで、Ｎ＝Ｔ＋Ｋであり、Ｎ、Ｔ、Ｋは、１以上の任意の整数である。合成音響特徴量生成部２２０から出力される情報（すなわち、合成された音響特徴量）は、Ｓ次元のベクトルで表されるものとする。

具体的な処理は、階層的に行われる。例えば、複数話者の音響モデル（ＤＮＮ）２３０が２層から構成されている場合には、Ｎ次元入力→１層目の中間層→２層目の中間層→Ｓ次元出力という処理が行われる。ここで、１層目の中間層、２層目の中間層のそれぞれは、中間表現を表し、Ｈ次元のベクトルで表されるものとする。すなわち、Ｎ次元入力→行列演算→シグモイド演算→１層目の中間層（Ｈ次元のベクトル）→行列演算→シグモイド演算→２層目の中間層（Ｈ次元のベクトル）→行列演算→Ｓ次元出力という処理が行われる。

（１）入力の説明
上述したように、入力されたテキストは、Ｔ次元のベクトルで表される。このＴ次元のベクトルの１次元目は「あ」という音を生成するかどうか、２次元目は「い」という音を生成するどうかなど、生成する音を指示するための入力である。ベクトルの要素が１であることは、その要素に対応する音を生成することを示し、ベクトルの要素が０であることは、その要素に対応する音を生成しないことを示す。上述したように、話者コードは、Ｋ次元のベクトルで表される。ここで、Ｎ＝Ｔ＋Ｋである。

（２）Ｎ次元入力→１層目の中間層の説明
１層目の中間層のＨ次元のベクトルの１次元目は、「１層目の中間層のＨ次元のベクトルの１次元目＝シグモイド関数（重み行列１×テキストのベクトル＋重み行列２×話者コードのベクトル）」・・・（式１）によって計算される。ここで、重み行列１は、１×Ｔの行列であり、重み行列２は、１×Ｋの行列である。従って、（式１）の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。

同様に、１層目の中間層のＨ次元のベクトルの２次元目は、「１層目のＨ次元のベクトルの２次元目＝シグモイド関数（重み行列１’×テキストのベクトル＋重み行列２’×話者コードのベクトル）」・・・（式２）によって計算される。ここで、重み行列１’は、１×Ｔの行列であり、重み行列２’は、１×Ｋの行列である。従って、（式２）の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。

同様の演算をＨ回繰り返して行うことにより、１層目の中間層のＨ次元のベクトルのすべての要素を計算することが可能である。

（３）１層目の中間層→２層目の中間層の説明
２層目の中間層のＨ次元のベクトルの１次元目は、「２層目の中間層のＨ次元のベクトルの１次元目＝シグモイド関数（重み行列３×１層目の中間層のＨ次元のベクトル）」・・・（式３）によって計算される。ここで、重み行列３は、１×Ｈ行列である。従って、（式３）の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。

同様に、２層目の中間層のＨ次元のベクトルの２次元目は、「２層目の中間層のＨ次元のベクトルの２次元目＝シグモイド関数（重み行列３’×１層目の中間層のＨ次元のベクトル）」・・・（式４）によって計算される。ここで、重み行列３’は、１×Ｈ行列である。従って、（式４）の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。

同様の演算をＨ回繰り返して行うことにより、２層目の中間層のＨ次元のベクトルのすべての要素を計算することが可能である。

（４）２層目の中間層→Ｓ次元出力の説明
最後に、Ｓ次元出力は、「Ｓ次元のベクトル＝重み行列４×２層目の中間層のＨ次元のベクトル」・・・（式５）によって計算される。ここで、重み行列４は、Ｓ×Ｈの行列である。従って、（式５）の計算の結果は、Ｓ次元のベクトルである。このようにして、Ｓ次元のベクトルによって表される合成された音響特徴量を予測することが可能である。

このように、話者コードのベクトルが類似度ベクトルである場合には、重み行列２の特定の要素（例えば、ｋ番目の要素）のみだけでなく、重み行列２のすべての要素が常に利用される。これにより、話者コードのベクトルが類似度ベクトルである場合には、Ｋ人の既知話者の全員の類似度を考慮して未知話者の話者情報を推定することが可能である。従って、類似度ベクトルを用いて推定した未知話者の話者情報は、後述するｏｎｅ−ｈｏｔベクトルを用いて推定した未知話者の話者情報よりも有用であるといえる。
・１層目の中間層のＨ次元のベクトルの１次元目＝シグモイド関数（重み行列１×テキストのベクトル＋重み行列２×類似度ベクトル）＝シグモイド関数（重み行列１×テキストのベクトル＋重み行列２の１番目の要素×１番目の既知話者の類似度＋重み行列２の２番目の要素×２番目の既知話者の類似度＋・・・＋重み行列２のＫ番目の要素×Ｋ番目の既知話者の類似度）
・１層目の中間層のＨ次元のベクトルの２次元目＝シグモイド関数（重み行列１’×テキストのベクトル＋重み行列２’×類似度ベクトル）＝シグモイド関数（重み行列１’×テキストのベクトル＋重み行列２’の１番目の要素×１番目の既知話者の類似度＋重み行列２’の２番目の要素×２番目の既知話者の類似度＋・・・＋重み行列２’のＫ番目の要素×Ｋ番目の既知話者の類似度）

これに対し、Ｋ人の既知の話者のうちのｋ番目の人を合成することを想定して、話者コードのベクトルが、ｋ番目の要素のみが１で他の要素がすべて０であるｏｎｅ−ｈｏｔベクトルである場合には、重み行列２のｋ番目の要素以外の要素がゼロ演算で消えてしまうことになる。このため、話者コードのベクトルがｏｎｅ−ｈｏｔベクトルである場合には、Ｋ人の既知話者のうちのｋ番目の既知話者のみを考慮して未知話者の話者情報を推定することになる。従って、ｏｎｅ−ｈｏｔベクトルを用いて推定した未知話者の話者情報は、上述した類似度ベクトルを用いて推定した未知話者の話者情報よりも有用でないといえる。
・１層目の中間層のＨ次元のベクトルの１次元目＝シグモイド関数（重み行列１×テキストのベクトル＋重み行列２×ｏｎｅ−ｈｏｔベクトル）＝シグモイド関数（重み行列１×テキストのベクトル＋重み行列２のｋ番目の要素）
・１層目の中間層のＨ次元のベクトルの２次元目＝シグモイド関数（重み行列１’×テキストのベクトル＋重み行列２’×ｏｎｅ−ｈｏｔベクトル）＝シグモイド関数（重み行列１’×テキストのベクトル＋重み行列２’のｋ番目の要素）

なお、複数話者の音響モデル（ＤＮＮ）２３０が２層から構成されている場合には、複数話者の音響モデル（ＤＮＮ）２３０には、Ｎ次元入力→１層目の中間層の処理において用いられる重み行列１、重み行列２、重み行列１’、重み行列２’、重み行列１’’、重み行列２’’、・・・（合計でＨ×２個の行列）が格納されており、１層目の中間層→２層目の中間層の処理において用いられる重み行列３、重み行列３’、重み行列３’’、重み行列３’’’、・・・（合計でＨ個の行列）が格納されており、２層目の中間層→Ｓ次元出力の処理において用いられる重み行列４（１個の行列）が格納されている。

なお、上述した例では、複数話者の音響モデル（ＤＮＮ）２３０が２層から構成されているフィードフォワードニューラルネットワークの場合の例を説明したが、本発明はこれに限定されない。複数話者の音響モデル（ＤＮＮ）２３０は、２以上の任意の数の層から構成されることが可能であり、２以上の任意の数の層について上述した処理と同様の処理を行うことが可能である。また、ＤＮＮは他の構造でもよく、例えば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク（リカレントニューラルネットワーク）においても、上述した処理と同様の処理を行うことが可能である。

なお、上述した例では、シグモイド関数を用いた演算を行う例を説明したが、本発明はこれに限定されない。例えば、シグモイド関数を用いた演算の代わりに、正規化線形関数（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を用いた演算を行うようにしてもよい。

合成音声生成部２４０は、未知話者の合成された音響特徴量に基づいて、未知話者の合成された音声を生成する。

このようにして、合成パート２００は、複数話者の音響モデル（ＤＮＮ）２３０を利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器として機能する。言い換えると、合成パート２００は、未知話者の話者性を再現する音声合成器として機能する。この音声合成器は、入力されたテキストに応答して、そのテキストに対応する未知話者の合成された音声を出力するという通常の機能を有しているが、未知話者の話者情報に応じて、合成される音声を変化させるという機能をさらに有している。従って、この音声合成器は、未知話者の話者情報に応じて、合成される音声を変化させる手段を有しているといえる。合成される音声を変化させる手段は、複数話者の音響モデル（ＤＮＮ）を利用して、合成される音声を変化させることが可能である。また、未知話者の話者情報に応じて、合成される音声を変化させることは、例えば、未知話者の話者情報に応じて、合成された音響特徴量を変化させることと、合成された音響特徴量を合成された音声に変換して出力することとによって達成される。

図１に示される枠組みによれば、大量のデータで学習済みの複数話者の音声合成システムをベースにして、テキストが存在しない少量の音声データのみから未知話者のＤＮＮ音声合成器を構築することが可能である。

２．実験結果
図２Ａは、図１に示される枠組みに基づいて実験した客観評価実験結果を示す。

合成された音響特徴量（メルケプストラム、基本周波数（Ｆ０））と自然音声の音響特徴量との誤差を計測した。以下に示す４つの手法の比較を行った。
・ＡＶＭ：話者適応無し（平均声）
・ＡＶＭ＋ｇａ：ＡＶＭで正しい年齢・性別を利用
・Ｓｕｐｅｒｖｉｓｅ：教師有り話者適応
・Ｕｎｓｕｐｅｒｖｉｓｅ：教師無し話者適応

図２Ａから分かるように、教師無し話者適応の手法によれば、（教師有り話者適応の手法に比べて誤差が依然として大きいものの）話者適応無し（平均声）の手法やＡＶＭで正しい年齢・性別を利用の手法に比べて誤差を低減することができるという実験結果が得られた。

図２Ｂは、教師有り話者適応（Ｓｕｐｅｒｖｉｓｅ）の場合、および、ＧＭＭ−ＵＢＭまたはｉ−ｖｅｃｔｏｒ／ＰＬＤＡを利用した教師無し話者適応（ＧＭＭ、ｉ−ｖｅｃ）の場合の（ａ）品質および（ｂ）話者類似性に関する主観評価実験結果を示す。なお、図２Ｂの凡例において、「ｕｔｔ」は、発話数を表す。

図２Ｂから分かるように、品質においては、Ｓｕｐｅｒｖｉｓｅの話者適応用データの発話数の違いに注目すると、発話数が多いほど品質が低下していることが分かる。これは、複数話者音声合成システムの学習時に用いられる話者コード（Ｏｎｅ−ｈｏｔベクトル）と推定された話者コード（連続値）の表現が大きく異なることや、バックプロパゲーションによる推定に適切な停止基準が設定できていないことが原因として考えられる。ＳｕｐｅｒｖｉｓｅとＧＭＭ（ＭＦＣＣ）およびＧＭＭ（ＭＦＣＣ＋Ｆ０）とを比較すると、ＧＭＭ（ＭＦＣＣ）およびＧＭＭ（ＭＦＣＣ＋Ｆ０）の方が、高品質な音声の合成を行うことができていることが分かる。また、ｉ−ｖｅｃｔｏｒ／ＰＬＤＡを用いた手法（ｉ−ｖｅｃ（ＭＦＣＣ）、ｉ−ｖｅｃ（ＭＦＣＣ＋Ｆ０））は，ＧＭＭ−ＵＢＭを用いた手法（ＧＭＭ（ＭＦＣＣ），ＧＭＭ（ＭＦＣＣ＋Ｆ０））と比較して低評価となった。これらの結果から、ＧＭＭ−ＵＢＭを用いることによって，音声合成のための複数話者モデルの学習、話者適応に適切な話者類似度ベクトルを推定することが可能であり、高品質な音声合成が行われたと考えられる。

また、図２Ｂから分かるように、話者類似性においては、Ｓｕｐｅｒｖｉｓｅ、ＧＭＭ（ＭＦＣＣ）、ＧＭＭ（ＭＦＣＣ＋Ｆ０）は、話者適応用データの発話数にかかわらず、ほぼ同等の性能となっている。Ｆ０特徴量を利用したｉ−ｖｅｃ（ＭＦＣＣ＋Ｆ０）はｉ−ｖｅｃ（ＭＦＣＣ）からの改善は見られるが、どちらの手法も、他の手法と比較して評価は低い。ｉ−ｖｅｃｔｏｒ／ＰＬＤＡを用いた手法では、適切な話者類似度ベクトルが推定されなかったため、話者適応が適切に行われなかったと考えられる。ＧＭＭ−ＵＢＭを用いた手法では、高精度な話者適応を行うことができることが示された。

図２Ａおよび図２Ｂに示される実験の結果の前提となる実験条件は、以下に示すとおりである。
・学習データ
・複数話者の音声合成用ＤＮＮの学習
・話者数：１１２名
・発話数：計１１，１５４発話（各話者１００発話程度）
・話者類似度モデルの学習
・複数話者の音声合成用ＤＮＮと同じ
・話者適応用データ
・話者数：２３名
・発話数：各話者１００発話程度
・テストデータ
・話者数：２３名（適応話者と同じ）
・合成発話数：各話者１０発話

さらに、出願人は、図１に示される枠組に基づいて、劣化音声を用いた教師無し話者適応の実験（以下、第２の実験という）を行った。

なお、第２の実験は、図２Ａおよび図２Ｂに示される実験の結果の前提となる実験条件と同一の実験条件で行われた。

第２の実験では、雑音を音声データに付与するための雑音データを格納している雑音データベースと、残響を音声データに付与するための残響データを格納している残響データベースとが使用され、劣化音声ｙは、劣化なし高品質音声データから以下の式６を用いて作成された。
ｙ＝ｘ＊ｈ_１＋α（ｎ＊ｈ_２）・・・（式６）
ここで、ｘは、高音質音声を表し、ｎは、雑音を表し、ｈ_１およびｈ_２は、それぞれ異なるマイク位置において得られた残響を付与するために用いられるインパルス応答を表し（ｈ_１はｈ_２よりスピーカに近い位置を表す）、＊は、畳み込みを表し、αは、雑音の強さを調整する所望のパラメータを表す。

これにより、第２の実験では、上述した式６を用いて、劣化なし高音質音声データ（ＣＬＥＡＮ）と、オフィスルームを想定した雑音・残響を付与した劣化音声データ（ＯＦＦＩＣＥ）と、ミーティングルームを想定した雑音・残響を付与した劣化音声データ（ＭＥＥＴＩＮＧ）とが使用された。

第２の実験では、これら３種類の音声データ（ＣＬＥＡＮ、ＯＦＦＩＣＥ、ＭＥＥＴＩＮＧ）のそれぞれについて、異なる音響特徴量（メル周波数ケプストラム係数（ＭＦＣＣ）、ＭＦＣＣ＋Ｆ０）および異なる手法（ＧＭＭ−ＵＢＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ − ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ）、ｉ−ｖｅｃｔｏｒ／ＰＬＤＡ（確率的線形判別分析；ＰｒｏｂａｂｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ））を用いることによって話者類似度モデルを構築した。

第２の実験では、客観的な評価による実験と、主観的な評価による実験とが行われた。客観的な評価による実験の結果は、図３Ａ〜図３Ｃに示され、主観的な評価による実験の結果は、図３Ｄ〜図３Ｆに示される。

図３Ａは、異なる音響特徴量（ＭＦＣＣ、ＭＦＣＣ＋Ｆ０）および手法（ＧＭＭ、ｉ−ｖｅｃ）を用いて構築された話者モデルにおける教師無し話者適応の客観評価実験結果（メルケプストラム歪み、ＬＦ０ＲＭＳＥ）を示す。

図３Ａから分かるように、Ｆ０に関する音響特徴量を話者照合モデルの構築に利用した場合、全ての手法においてメルケプストラム歪み、ＬＦ０ＲＭＳＥの値が非常に高くなっている。これは、劣化音声から適切に基本周波数の抽出ができず、話者照合モデルの学習に悪影響を及ぼし、話者類似度の推定が適切に行われなかったためだと考えられる。また、音響特徴量としてＭＦＣＣを用いたＧＭＭ−ＵＢＭとｉ−ｖｅｃｔｏｒ／ＰＬＤＡを比較すると、ｉ−ｖｅｃｔｏｒ／ＰＬＤＡが全ての条件で良い評価となっている。

図３Ｂは、異なるＳＮＲの話者適応用データを用いた教師無し話者適応の客観評価実験結果を示す。ここで、「ＳＮＲ」とは、信号と雑音との比率をいい、数値が大きいほど雑音が少ないことを表す。ＳＮＲの単位は、デシベル（ｄＢ）である。なお、図３Ｂは、図３Ａのより詳細な結果を示す図である。

なお、図３Ｂに示される実施形態では、２．５ｄＢ、７．５ｄＢ、１２．５ｄＢ、１７．５ｄＢのＳＮＲが使用され、図３Ｂには、ＭＥＥＴＩＮＧの劣化音声データを使用した場合の実験結果が示されている。なお、ＯＦＦＩＣＥの劣化音声データを使用した場合も、ＭＥＥＴＩＮＧの劣化音声データを使用した場合の実験結果と同様の実験結果が得られた。

図３Ｂから分かるように、ｉ−ｖｅｃｔｏｒ／ＰＬＤＡを使用した場合、ＳＮＲが変化してもメルケプストラム歪みおよびＬＦ０ＲＭＳＥの値はほとんど変化せず、従って、劣化音声から各学習話者に対する事後確率がロバストに計算されたということが分かる。

図３Ｃは、話者類似度照合モデルの学習に劣化の無い高品質音声データを用いた場合の教師無し話者適応の客観評価実験結果と、劣化音声データを用いた場合の教師無し話者適応の客観評価実験結果との比較を示す。

図３Ｃの凡例において、スラッシュ記号の左側は、話者類似度モデルを学習した音声データの種類を表し、スラッシュ記号の右側は、話者適応用データの音声データを表す。例えば、ＣＬＥＡＮ／ＭＥＥＴＩＮＧは、劣化の無い高品質音声データ（ＣＬＥＡＮ）が話者類似度モデルの学習に使用され、かつ、話者適応用データとしてＭＥＥＴＩＮＧの劣化音声データが使用されたことを表す。

また、図３Ｃにおいて、ＧＭＭ、ＧＭＭ（Ｆ０）、ｉ−ｖｅｃ、ｉ−ｖｅｃ（Ｆ０）は、それぞれ以下に示す手法を用いた実験を示す。
・ＧＭＭ：「ＭＦＣＣ」×「ＧＭＭ−ＵＢＭ」
・ＧＭＭ（Ｆ０）：「ＭＦＣＣ＋Ｆ０」×「ＧＭＭ−ＵＢＭ」
・ｉ−ｖｅｃ：「ＭＦＣＣ」×「ｉ−ｖｅｃｔｏｒ／ＰＬＤＡ」
・ｉ−ｖｅｃ（Ｆ０）：「ＭＦＣＣ＋Ｆ０」×「ｉ−ｖｅｃｔｏｒ／ＰＬＤＡ」

図３Ｃから分かるように、ＣＬＥＡＮ／ＯＦＦＩＣＥとＯＦＦＩＣＥ／ＯＦＦＩＣＥとを比較すると、および／または、ＣＬＥＡＮ／ＭＥＥＴＩＮＧとＭＥＥＴＩＮＧ／ＭＥＥＴＩＮＧとを比較すると、話者類似度モデルと話者適応用データとの両方に劣化音声データ（すなわち、ＯＦＦＩＣＥ／ＯＦＦＩＣＥまたはＭＥＥＴＩＮＧ／ＭＥＥＴＩＮＧ）を用いることにより、メルケプストラム歪みおよびＬＦ０ＲＭＳＥの値が改善しており、従って、劣化音声から話者類似度モデルを学習することによって、劣化音声から事後確率を計算するのに適した話者類似度モデルの構築がなされたということが分かる。

図３Ｄは、話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の品質に関する主観評価実験結果を示す。また、図３Ｅは、話者類似度モデルの学習に劣化の無い高品質音声データを用いた場合、および、話者類似度モデルの学習に劣化音声データを用いた場合の教師無し話者適応の話者類似性に関する主観評価実験結果を示す。

図３Ｄには、合成音声の品質を５段階ＭＯＳによって主観的に評価した結果が示されており、図３Ｅには、合成音声とリファレンス音声とを比較した話者類似性を５段階ＭＯＳによって主観的に評価した結果が示されている。

話者類似性モデルに用いる特徴量の違いに注目すると、劣化音声に対してＦ０に関する特徴量を利用した場合、評価が低いことがわかる。これは、客観評価結果と同様に、劣化音声からのＦ０抽出にエラーが多く含まれたためだと考えられる。

また、話者類似性モデルの学習に用いる学習データとテストデータとの間にミスマッチがあるシステム（例えば、ＣＬＥＡＮ／ＯＦＦＩＣＥ、ＣＬＥＡＮ／ＭＥＥＴＩＮＧ）とミスマッチが無いシステム（例えば、ＣＬＥＡＮ／ＣＬＥＡＮ、ＭＥＥＴＩＮＧ／ＭＥＥＴＩＮＧ）とを比較すると、ミスマッチが無いシステムは、品質および話者類似性の両方において全体的に高評価となっていることがわかる。劣化音声から話者照合モデルを学習することで、劣化音声から事後確率を計算するのに適した話者類似性モデルの構築が行われたことがわかる。また、ミスマッチが無い場合において、話者類似性モデルにＵＢＭ−ＧＭＭを用いた手法と比べ，ｉ−ｖｅｃｔｏｒ／ＰＬＤＡを用いた手法は高評価となっており、ＣＬＥＡＮ／ＣＬＥＡＮという理想的な条件と比較してほぼ同等の性能が得られているシステムもある。このことから、テストデータに劣化音声を用いる場合には、ｉ−ｖｅｃｔｏｒ／ＰＬＤＡの方がより有効であることが分かる。

３．コンピュータシステム１の構成
図４は、図１に示される枠組みを実現するためのコンピュータシステム１の構成の一例を示す。

コンピュータシステム１は、メモリ部１０とプロセッサ部２０とを少なくとも含む。これらの構成要素は、相互に接続されている。これらの構成要素のそれぞれは、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。

メモリ部１０には、処理を実行するために必要とされるプログラム（例えば、図１に示される処理を実行するために必要とされるプログラム）やそのプログラムを実行するために必要とされるデータ等が格納されている。ここで、プログラムをどのようにしてメモリ部１０に格納するかは問わない。例えば、プログラムは、メモリ部１０にプリインストールされていてもよい。あるいは、プログラムは、インターネットなどのネットワークを経由してダウンロードされることによってメモリ部１０にインストールされるようにしてもよいし、光ディスクやＵＳＢなどの記憶媒体を介してメモリ部１０にインストールされるようにしてもよい。

プロセッサ部２０は、コンピュータシステム１の全体の動作を制御する。プロセッサ部２０は、メモリ部１０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、コンピュータシステム１は、所望のステップを実行するように構成された装置または所望の機能を実行する手段を備えた装置として機能することが可能である。例えば、コンピュータシステム１は、音声分析部１２０、話者情報推定部１３０、テキスト分析部２１０、合成音響特徴量生成部２２０、合成音声生成部２４０という特定の機能を実行する手段を備えた装置として機能することが可能である。

以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

本発明は、ＤＮＮ音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム等を提供するものとして有用である。

１コンピュータシステム
１０メモリ部
２０プロセッサ部
１００適応パート
１１０未知話者データベース
１２０音声分析部
１３０話者情報推定部
１４０話者類似性モデル
２００合成パート
２１０テキスト分析部
２２０合成音響特徴量生成部
２３０複数話者の音響モデル（ＤＮＮ）
２４０合成音声生成部

Claims

ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
前記コンピュータシステムは、
未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成する音声分析部と、
教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定する話者情報推定部であって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、話者情報推定部と、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、
前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部と、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部と
を備える、コンピュータシステム。
前記話者情報推定部は、話者類似度モデルを利用して、前記未知話者の話者情報を推定し、前記話者類似度モデルには、前記複数の既知話者のそれぞれの音響特徴量の分布が格納されている、請求項１に記載のコンピュータシステム。
ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行される方法であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
前記方法は、音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、
教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、
前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することと
を含む、方法。
ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行されるプログラムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記コンピュータシステムは、プロセッサ部を含み、
前記プログラムは、前記プロセッサ部によって実行されると、
未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、
教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、
前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することと
を少なくとも実行することを前記プロセッサ部に行わせる、プログラム。
ディープニューラルネットワーク（ＤＮＮ）により表現された複数話者の音響モデルを利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
前記音声合成器は、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、
入力された未知話者の話者情報を受け取り、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記入力された未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部であって、前記入力された未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、合成音響特徴量生成部と、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部と
を備える、音声合成器。