JPWO2010119534A1

JPWO2010119534A1 - 音声合成装置、方法およびプログラム

Info

Publication number: JPWO2010119534A1
Application number: JP2011509133A
Authority: JP
Inventors: ハビエルラトレ; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-04-15
Filing date: 2009-04-15
Publication date: 2012-10-22
Anticipated expiration: 2029-04-15
Also published as: US8494856B2; WO2010119534A1; US20120089402A1; JP5300975B2

Abstract

解析部１０１は、入力文書を解析して言語特徴量を抽出する。第１推定部１０２は、予め定められた第１韻律モデルから、抽出された言語特徴量に適合する第１韻律モデルを選択し、選択した第１韻律モデルの尤度である第１尤度を最大化する韻律情報を推定する。選択部１０３は、複数の音声素片を記憶する素片記憶部１２２から、推定された韻律情報によって定まるコスト関数を最小化する複数の音声素片を選択する。生成部１０４は、選択された音声素片の韻律情報のモデルである第２韻律モデルを生成する。第２推定部１０５は、第２韻律モデルの尤度である第２尤度と第１尤度とに基づいて算出される第３尤度を最大化する韻律情報を再推定する。合成部１０６は、再推定された韻律情報に基づいて、選択された複数の音声素片を接続した合成音声を生成する。

Description

本発明は、音声合成装置、方法およびプログラムに関する。

テキストから音声を生成する音声合成装置は、大別すると、テキスト解析部、韻律生成部および音声信号生成部の３つの処理部から構成される。テキスト解析部では、言語辞書などを用いて入力されたテキスト（漢字かな混じり文）を解析し、文章を構成する音素列、形態素、漢字の読み、アクセントの位置、文節（アクセントの句）の区切りなどの言語情報（言語特徴量ともいう）を出力する。韻律生成部では、言語特徴量に基づいて、声の高さ（基本周波数）の時間変化パターン（以下、ピッチ包絡という）と、各音韻の長さ（以下、継続時間長という）の韻律情報を出力する。この韻律生成部は、合成音声の音質と全体的な自然性に大きく影響を与える重要な要素である。

例えば、特許文献１では、生成された韻律と音声信号生成部で用いられる素片の韻律を比較し、その差が小さい場合に素片の韻律を用いることにより、合成音声の歪みを低減する技術が提案されている。また、非特許文献１では、音素および音節などの複数の言語レベルでピッチ包絡をモデル化し、これら複数の言語レベルでのピッチ包絡モデルから、総合的にピッチ包絡パターンを生成することにより、滑らかに変化する自然なピッチ包絡を生成する技術が提案されている。

一方、音声信号生成部は、テキスト解析部からの言語特徴量と韻律生成部からの韻律情報に従って音声波形を生成するものである。現在は、素片接続型合成方式が、比較的高音質の音声を合成できる方式として一般的に用いられている。

米国特許第６，４０５，１６９号明細書

Latorre, J., Akamine, M., 2008, "Multilevel parametric-base F0 model for speech synthesis" Proc. Interspeech 2008, Brisbane, Australia, pp. 2274-2277

素片接続型合成方式は、テキスト解析部からの言語特徴量と韻律生成部で生成された韻律に従って音声素片を選択し、韻律情報に従って音声素片のピッチ（基本周波数）と継続時間長を変形して接続することで、合成音声を出力する。このとき、音声素片のピッチと継続時間を変形することに伴って音質が大きく劣化するという問題がある。

この問題を緩和するため、大規模な音声素片データベースを用意し、様々なピッチ、継続時間長をもつ大量の音声素片候補から音声素片を選択する方式が知られている。この方式によると、ピッチや継続時間長の変形を最小限に留めることができ、変形に伴う音質劣化を抑え、高い音質の音声合成が可能である。しかし、この方法では、音声素片を蓄積するためのメモリサイズが大きくなるという問題がある。

一方、音声素片のピッチと継続時間長を変形せず、選択された音声素片のピッチと継続時間長をそのまま利用する方法も存在する。この方法は、ピッチと継続時間長の変形に伴う音質劣化を避けることができる。しかし、その反面、選択される素片のピッチが素片間で連続的に接続される保証がなく、ピッチの不連続によって合成音の自然性が劣化する問題がある。また、選択される音声素片のピッチや継続時間長の自然性を向上させようとすると音声素片の種類を増加させる必要があり、音声素片を蓄積するためのメモリサイズが膨大なものになる問題がある。

本発明は、上記に鑑みてなされたものであって、音声素片を変形して接合する方式での音質劣化を低減することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一態様は、入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析部と、音声の韻律情報のモデルである予め定められた複数の第１韻律モデルから、抽出された前記言語特徴量に適合する前記第１韻律モデルを選択し、選択した前記第１韻律モデルの確からしさを表す第１尤度を最大化する韻律情報を推定する第１推定部と、複数の音声素片を記憶する素片記憶部から、前記第１推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択部と、選択された複数の前記音声素片の韻律情報のモデルである第２韻律モデルを生成する生成部と、前記第２韻律モデルの確からしさを表す第２尤度と前記第１尤度とに基づいて算出される第３尤度を最大化する韻律情報を推定する第２推定部と、前記第２推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成部と、を備えることを特徴とする。

本発明によれば、音声素片を変形して接合する方式での音質劣化を低減することができるという効果を奏する。

本実施の形態にかかる音声合成装置の構成の一例を示すブロック図。本実施の形態における音声合成処理の全体の流れを示すフローチャートを示す図。本実施の形態の変形例にかかる音声合成装置の構成の一例を示すブロック図。本実施の形態にかかる音声合成装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる音声合成装置の好適な実施の形態を詳細に説明する。

本実施の形態にかかる音声合成装置は、韻律情報の統計モデル（第１韻律モデル）の確からしさを表す尤度（第１尤度）を最大化する韻律情報を推定し、推定した韻律情報を元に選択した複数の音声素片から、音声素片の韻律情報の確率密度を表す統計モデル（第２韻律モデル）を作成する。そして、作成した第２韻律モデルの確からしさを表す尤度（第２尤度）を加味した韻律モデルの尤度（第３尤度）を最大化する韻律情報をさらに推定する。

これにより、選択した音声素片の韻律情報により近い韻律情報を用いることができるため、選択した音声素片の韻律情報の変形を最小限に留めることができる。すなわち、素片接続型合成方式での音質劣化を低減することが可能となる。

図１は、本実施の形態にかかる音声合成装置１００の構成の一例を示すブロック図である。図１に示すように、音声合成装置１００は、韻律モデル記憶部１２１と、素片記憶部１２２と、解析部１０１と、第１推定部１０２と、選択部１０３と、生成部１０４と、第２推定部１０５と、合成部１０６と、を備えている。

韻律モデル記憶部１２１は、学習等により作成された韻律情報の統計モデルである韻律モデル（第１韻律モデル）を予め記憶する。例えば、非特許文献１の方法により作成した韻律モデルを韻律モデル記憶部１２１に記憶するように構成することができる。

素片記憶部１２２は、予め作成された複数の音声素片を記憶する。素片記憶部１２２は、合成音声を生成する際に用いる音声の合成単位で音声素片を蓄積する。合成単位すなわち音声素片の単位としては半音素、音素、およびダイフォンなど様々な単位を用いることができるが、本実施の形態では半音素を用いる場合について説明する。

なお、素片記憶部１２２は、後述する生成部１０４が音声素片の韻律情報の韻律モデルを生成するときに参照する音声素片ごとの韻律情報（基本周波数、継続時間長）を記憶している。

解析部１０１は、入力された文書（以下、入力テキストという）を解析して、韻律制御に用いるための言語特徴量を抽出する。解析部１０１は、例えば図示しない単語辞書等を用いて入力テキストを分析し、入力テキストの言語特徴量を抽出する。言語特徴量は、入力テキストの音素情報、各音素の前後の音素情報、アクセントの位置、および、アクセント句の区切りなどである。

第１推定部１０２は、抽出された言語特徴量に適合する韻律モデル記憶部１２１の韻律モデルを選択し、選択した韻律モデルから、入力テキストの各音素の韻律情報を推定する。具体的には、第１推定部１０２は、入力テキストの音素毎に、前後の音素情報やアクセントの位置などの言語特徴量を用いて、その言語特徴量に一致する韻律モデルを韻律モデル記憶部１２１から選択し、選択された韻律モデルを用いて各音素の韻律情報である継続時間長と基本周波数とを推定する。

第１推定部１０２は、予め学習された決定木を用いて、入力された言語特徴量に関する質問を決定木の各ノードで繰り返してノードを分岐し、到達したリーフに格納されている韻律モデルを取り出すという方法により、適切な韻律モデルを選択する。決定木は、一般的に知られている方法に従って学習することができる。

また、第１推定部１０２は、入力テキストに対して選択された韻律モデルの系列から継続時間長の対数尤度関数と基本周波数の対数尤度関数とを定義し、各々の対数尤度関数を最大化する継続時間長と基本周波数とを求める。このようにして求めた継続時間長と基本周波数とが、韻律情報の初期推定値となる。なお、以下では、第１推定部１０２が韻律情報の初期推定に用いた対数尤度関数をＦ^{ｉｎｉｔｉａｌ}と表す。

第１推定部１０２は、例えば非特許文献１の方法を用いて韻律情報を推定することができる。この場合、求められる基本周波数のパラメータはＮ次（Ｎは自然数、例えばＮ＝５）のＤＣＴ係数である。また、このＤＣＴ係数の逆ＤＣＴによって各音節のピッチ包絡が得られる。

解析部１０１の出力である言語特徴量と、第１推定部１０２により推定された基本周波数および継続時間長とは、選択部１０３に送られる。

選択部１０３は、素片記憶部１２２から、コスト関数を最小化する素片列の候補（素片候補列）を複数選択する。選択部１０３は、例えば、特許第４０８０９８９号公報に記載の方法により、複数の素片候補列を選択する。

コスト関数は、素片ターゲットコストと素片接続コストとを含む。素片ターゲットコストは、選択部１０３に与えられる言語特徴量、基本周波数、および継続時間長と、素片記憶部１２２に格納されている音声素片の言語特徴量、基本周波数、および継続時間長との距離の関数として計算される。また、素片接続コストは、音声素片の接続点における２つの音声素片のスペクトルパラメータの距離を、入力テキスト全体で加算した総和として計算される。

選択された素片候補列に含まれる各音声素片の基本周波数および継続時間長は、生成部１０４に送られる。

生成部１０４は、選択された複数の素片候補列に含まれる音声素片ごとに、音声素片の韻律情報の統計モデルである韻律モデル（第２韻律モデル）を生成する。例えば、生成部１０４は、音声素片の基本周波数のサンプル値の確率密度を表現する統計モデルと、音声素片の継続時間長のサンプル値の確率密度を表現する統計モデルとを、音声素片の韻律モデルとして作成する。

統計モデルとしては、例えばＧＭＭ（Gaussian Mixture Model）を用いることができる。この場合、統計モデルのパラメータは、各ガウスコンポーネントの平均ベクトルと共分散行列となる。生成部１０４は、複数の素片候補列から、対応する複数の音声素片をそれぞれ取得し、複数の音声素片の基本周波数および継続時間長を用いて、ＧＭＭのパラメータを算出する。

なお、素片記憶部１２２に記憶されている音声素片の継続時間長、言い換えると音声素片のピッチ包絡を構成する基本周波数のサンプル数は音声素片毎に異なる。このため、生成部１０４は、基本周波数の統計モデルを作成する際、例えば、音声素片の先頭位置、中間位置、および後尾位置の基本周波数のサンプル値ごとに統計モデルを作成する。

以上は、基本周波数等のサンプル値を直接モデル化する場合の説明であるが、生成部１０４が、ピッチ包絡をモデル化する非特許文献１の方法を用いるように構成してもよい。この場合、ピッチ包絡は例えば５次のＤＣＴ係数で表現され、各係数の確率密度関数がＧＭＭでモデル化される。さらに、ピッチ包絡を多項式で表現することもできる。この場合は、多項式の係数がＧＭＭでモデル化される。継続時間長は、音声素片の継続時間長をそのままＧＭＭでモデル化する。

第２推定部１０５は、生成部１０４により生成された、入力テキストの音声素片ごとの韻律モデルを用いて、入力テキストの各音素の韻律情報を再度推定する。まず、第２推定部１０５は、基本周波数と継続時間長の各々について、生成部１０４によって生成された統計モデルから計算される対数尤度関数Ｆ^{ｆｅｅｄｂａｃｋ}と、韻律情報の初期推定に用いた対数尤度関数Ｆ^{ｉｎｉｔｉａｌ}とを線形結合した総対数尤度関数Ｆ^{ｔｏｔａｌ}を算出する。

第２推定部１０５は、例えば以下の（１）式によって総対数尤度関数Ｆ^{ｔｏｔａｌ}を算出する。なお、λ^{ｆｅｅｄｂａｃｋ}およびλ^{iｎｉｔｉａｌ}は、予め定められた係数を表す。
Ｆ^{ｔｏｔａｌ}＝λ^{ｆｅｅｄｂａｃｋ}Ｆ^{ｆｅｅｄｂａｃｋ}＋λ^{ｉｎｉｔｉａｌ}Ｆ^{ｉｎｉｔｉａｌ} ・・（１）

第２推定部１０５が、以下の（２）式によって総対数尤度関数Ｆ^{ｔｏｔａｌ}を算出するように構成してもよい。なお、λは予め定められた重み付け係数を表す。
Ｆ^{ｔｏｔａｌ}＝λＦ^{ｆｅｅｄｂａｃｋ}＋（１−λ）Ｆ^{ｉｎｉｔｉａｌ} ・・・（２）

そして、第２推定部１０５は、以下の（３）式のように、Ｆ^{ｔｏｔａｌ}を韻律モデルのパラメータ（基本周波数または継続時間長）ｘ^{ｓｙｌｌａｂｌｅ}に関して微分することにより、Ｆ^{ｔｏｔａｌ}を最大化する基本周波数と継続時間長をそれぞれ再推定する。

（３）式を用いて韻律情報を再推定するには、対数尤度関数Ｆ^{ｆｅｅｄｂａｃｋ}が、韻律モデル記憶部１２１の韻律モデルの対数尤度関数Ｆ^{ｉｎｉｔｉａｌ}に追加（線形結合）でき、韻律モデルのパラメータｘ^{ｓｙｌｌａｂｌｅ}に関して微分可能である必要がある。

第１推定部１０２が、非特許文献１の方法により韻律情報を初期推定する場合は、以下のように対数尤度関数Ｆ^{ｆｅｅｄｂａｃｋ}を定義することにより、（３）式を用いた韻律情報の再推定が可能となる。

シングルＧＭＭを仮定すると、同一の音節ｓに属する半音素ｈｐの対数尤度関数Ｆ^{ｆｅｅｄｂａｃｋ}の一般形は、以下の（４）式で表される。

Ｃｏｎｓｔは定数、Ｏ_ｈｐ、μ_ｈｐ、およびΣ_ｈｐは、それぞれ半音素ｈｐのピッチ包絡のパラメータ化ベクトル、平均値、および共分散を表す。Ｏ_ｈｐを定義する簡単な方法は、以下の（５）式で表されるピッチ包絡の線形変換を用いることである。

ｌｏｇＦ０_ｈｐは、半音素ｈｐのピッチ包絡、Ｈ_ｈｐは変換行列、ｌｏｇＦ０ｓは、半音素ｈｐが属する音節のピッチ包絡、および、Ｓ_ｈｐは、ｌｏｇＦ０ｓからｌｏｇＦ０_ｈｐを選択するための行列を表す。

ｘ^{ｓｙｌｌａｂｌｅ}は、例えば以下の（６）式で表される。（６）式のｘ_ｓは、ｌｏｇＦ０ｓのＤＣＴの最初の５個の係数からなるベクトルであり、以下の（７）式で表される。

Ｔｓは線形可逆変換であるため、以下の（８）式が得られる。従って、Ｆ^{ｆｅｅｄｂａｃｋ}は、以下の（９）式で表される。

以上より、（３）式の右辺第１項は、以下の（１０）式で表現できる。（１０）式のＡｓおよびＢｓは、それぞれ以下の（１１）式および（１２）式で表される。

（３）式および（４）式に示すように、変換行列Ｈの定義は、μ_ｈｐおよびΣ_ｈｐの値も決定する。これらの値は、半音素ｈｐのために選択されたＵ個のサンプルのセットから以下の（１３）式および（１４）式により算出される。

一般に、変換行列Ｈの値は、各サンプルおよび半音素の継続時間長のみに依存する。変換行列Ｈは、サンプル単位またはパラメータ単位で定義することができる。

サンプル単位では、変換行列Ｈは、ｌｏｇＦ０_ｕから予め定めた位置のサンプル点を用いて定義される。例えば、半音素の先頭位置、中間位置、および後尾位置のピッチを取得する場合、変換行列Ｈｕは、３×Ｌｕ次元の行列となる。Ｌｕは、ｌｏｇＦ０_ｕの長さであり、位置（１、１）、（２、Ｌｕ／２）、および（Ｌｕ、Ｌｕ）では１、その他の位置では０である。

パラメータ単位では、変換行列Ｈは、ピッチ包絡の変換として定義される。簡単な方法は、音素の先頭位置、中間位置、および後尾位置でのピッチ包絡の平均を求めるための変換行列としてＨを定義することである。この場合、変換行列Ｈは以下の（１５）式で表される。Ｄ１、Ｄ２、・・・Ｄ３はｌｏｇＦ０_ｕの先頭位置、中間位置、および後尾位置のセグメントの継続時間長である。なお、変換行列ＨをＤＣＴ変換行列として定義してもよい。

以上、非特許文献１の方法により韻律情報を推定する場合について説明したが、適用可能な方法は非特許文献１の方法に限られるものではない。生成部１０４によって生成された音声素片の韻律モデルの尤度と、韻律モデル記憶部１２１の韻律モデルの尤度とから新たな尤度（第３尤度）が算出可能であり、算出された尤度を用いて韻律情報を再推定可能な方法であればあらゆる方法を適用できる。

合成部１０６は、第２推定部１０５によって推定された韻律情報に従って音声素片の継続時間長と基本周波数とを変形し、変形処理後の音声素片を接続して合成音声の波形を作成して出力する。

次に、このように構成された本実施の形態にかかる音声合成装置１００による音声合成処理について図２を用いて説明する。図２は、本実施の形態における音声合成処理の全体の流れを示すフローチャートである。

まず、解析部１０１が、入力テキストを解析し、言語特徴量を抽出する（ステップＳ２０１）。次に、第１推定部１０２が、予め定められた決定木を用いて、抽出された言語特徴量に適合する韻律モデルを選択する（ステップＳ２０２）。そして、第１推定部１０２は、選択された韻律モデルに対応する対数尤度関数（Ｆ^{ｉｎｉｔｉａｌ}）を最大化する基本周波数および継続時間長を推定する（ステップＳ２０３）。

次に、選択部１０３が、解析部１０１により抽出された言語特徴量、および、第１推定部１０２により推定された基本周波数および継続時間長を参照し、コスト関数を最小化する複数の素片候補列を素片記憶部１２２から選択する（ステップＳ２０４）。

次に、生成部１０４が、選択部１０３により選択された素片候補列から、音声素片ごとに、音声素片の韻律モデルを生成する（ステップＳ２０５）。次に、第２推定部１０５が、生成された韻律モデルの対数尤度関数（Ｆ^{ｆｅｅｄｂａｃｋ}）を算出する（ステップＳ２０６）。さらに、第２推定部１０５は、上記（１）式等を用いて、ステップＳ２０２で選択された韻律モデルに対応する対数尤度関数（Ｆ^{ｉｎｉｔｉａｌ}）と、算出された対数尤度関数（Ｆ^{ｆｅｅｄｂａｃｋ}）とを線形結合した総対数尤度関数Ｆ^{ｔｏｔａｌ}を算出する（ステップＳ２０７）。そして、第２推定部１０５は、総対数尤度関数Ｆ^{ｔｏｔａｌ}を最大化する基本周波数および継続時間長を再推定する（ステップＳ２０８）。

次に、合成部１０６が、推定された基本周波数および継続時間長に従い、選択部１０３によって選択された音声素片の基本周波数と継続時間長を変形する（ステップＳ２０９）。そして、合成部１０６は、基本周波数と継続時間長を変形した音声素片を接続して合成音声の波形を作成する（ステップＳ２１０）。

このように、本実施の形態にかかる音声合成装置１００では、予め蓄積された韻律モデルを用いて初期推定した韻律情報を元に選択した複数の音声素片から音声素片の韻律モデルを生成し、生成した韻律モデルの尤度と、初期推定時の尤度とを線形結合した尤度を最大化する韻律情報を再推定する。

このようにして、本実施の形態では、選択された音声素片の韻律情報に近似する基本周波数と継続時間長とを用いて音声素片の韻律情報の変形、および波形の合成を実行可能となる。これにより、音声素片の韻律情報の変形に伴う歪を最小限に抑止し、素片記憶部１２２のサイズを大きくすることなく、音質を向上させることができる。また、推定される韻律の自然性を最大限に保持することにより、合成音の自然性と音質を向上させることができる。

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

（変形例）
以下に、このような変形の一例について説明する。上記実施の形態では、音声素片の選択は１回のみ実行していた。これに対し、再推定された基本周波数と継続時間長を初期推定値の代わりに用いて、選択部１０３が音声素片を再度選択し、合成波形を作成するように構成してもよい。また、この動作を複数回繰り返すように構成してもよい。例えば、再推定、音声素片の再選択の実行回数が予め定められた閾値より大きくなるまで、処理を繰り返すように構成することができる。このようなフィードバックを繰り返すことによって音質のさらなる向上が期待できる。

また、上記実施の形態では、韻律情報を推定する構成部を、第１推定部１０２と第２推定部１０５とに分離していたが、両構成部の機能を有する１つの構成部を備えるように構成してもよい。

図３は、このような構成部である推定部２０２を備えた、上記実施の形態の変形例にかかる音声合成装置２００の構成の一例を示すブロック図である。図３に示すように、音声合成装置２００は、韻律モデル記憶部１２１と、素片記憶部１２２と、解析部１０１と、推定部２０２と、選択部１０３と、生成部１０４と、合成部１０６と、を備えている。

推定部２０２は、上記第１推定部１０２および第２推定部１０５の機能を備えている。すなわち、推定部２０２は、言語特徴量に適合する韻律モデル記憶部１２１の韻律モデルを選択し、選択した韻律モデルから韻律情報を初期推定する機能、および、生成部１０４により生成された音声素片ごとの韻律モデルを用いて入力テキストの各音素の韻律情報を再推定する機能を備えている。

なお、本変形例にかかる音声合成装置２００の音声合成処理の全体の流れは、上記図２と同様であるため説明を省略する。

次に、本実施の形態にかかる音声合成装置のハードウェア構成について図４を用いて説明する。図４は、本実施の形態にかかる音声合成装置のハードウェア構成図である。

本実施の形態にかかる音声合成装置は、ＣＰＵ（Central Processing Unit）５１などの制御部と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶部と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

本実施の形態にかかる音声合成装置で実行される音声合成プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータ読み取り可能な記録媒体に記録して提供されるように構成してもよい。

さらに、本実施の形態にかかる音声合成装置で実行される音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる音声合成装置で実行される音声合成プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施の形態にかかる音声合成装置で実行される音声合成プログラムは、コンピュータを上述した音声合成装置の各部（解析部、第１推定部、選択部、生成部、第２推定部、合成部等）として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読み取り可能な記録媒体から音声合成プログラムを主記憶装置上に読み出して実行することができる。

１００音声合成装置
１０１解析部
１０２第１推定部
１０３選択部
１０４生成部
１０５第２推定部
１０６合成部

Claims

入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析部と、
音声の韻律情報のモデルである予め定められた複数の第１韻律モデルから、抽出された前記言語特徴量に適合する前記第１韻律モデルを選択し、選択した前記第１韻律モデルの確からしさを表す第１尤度を最大化する韻律情報を推定する第１推定部と、
複数の音声素片を記憶する素片記憶部から、前記第１推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択部と、
選択された複数の前記音声素片の韻律情報のモデルである第２韻律モデルを生成する生成部と、
前記第２韻律モデルの確からしさを表す第２尤度と前記第１尤度とに基づいて算出される第３尤度を最大化する韻律情報を推定する第２推定部と、
前記第２推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成部と、
を備えることを特徴とする音声合成装置。
前記選択部は、さらに、前記第２推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を新たに選択し、
前記合成部は、前記第２推定部によって推定された韻律情報に基づいて、新たに選択された複数の前記音声素片を接続して合成音声を生成すること、
を特徴とする請求項１に記載の音声合成装置。
前記生成部は、さらに、新たに選択された複数の前記音声素片の前記第２韻律モデルを生成し、
前記第２推定部は、さらに、新たに選択された複数の前記音声素片から生成された前記第２韻律モデルの前記第２尤度と前記第１尤度とに基づいて算出される前記第３尤度を最大化する韻律情報を推定し、
前記合成部は、前記第２推定部による韻律情報の推定回数が予め定められた閾値を超えた場合に、前記第２推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続して合成音声を生成すること、
を特徴とする請求項２に記載の音声合成装置。
前記第３尤度は、前記第１尤度と前記第２尤度との線形結合により算出されること、
を特徴とする請求項１に記載の音声合成装置。
音声合成装置で実行される音声合成方法であって、
解析部が、入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析ステップと、
第１推定部が、音声の韻律情報のモデルである予め定められた複数の第１韻律モデルから、抽出された前記言語特徴量に適合する前記第１韻律モデルを選択し、選択した前記第１韻律モデルの確からしさを表す第１尤度を最大化する韻律情報を推定する第１推定ステップと、
選択部が、複数の音声素片を記憶する素片記憶部から、前記第１推定ステップによって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択ステップと、
生成部が、選択された複数の前記音声素片の韻律情報のモデルである第２韻律モデルを生成する生成ステップと、
第２推定部が、前記第２韻律モデルの確からしさを表す第２尤度と前記第１尤度とに基づいて算出される第３尤度を最大化する韻律情報を推定する第２推定ステップと、
合成部が、前記第２推定ステップによって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成ステップと、
を備えることを特徴とする音声合成方法。
コンピュータを、
入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析部と、
音声の韻律情報のモデルである予め定められた複数の第１韻律モデルから、抽出された前記言語特徴量に適合する前記第１韻律モデルを選択し、選択した前記第１韻律モデルの確からしさを表す第１尤度を最大化する韻律情報を推定する第１推定部と、
複数の音声素片を記憶する素片記憶部から、前記第１推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択部と、
選択された複数の前記音声素片の韻律情報のモデルである第２韻律モデルを生成する生成部と、
前記第２韻律モデルの確からしさを表す第２尤度と前記第１尤度とに基づいて算出される第３尤度を最大化する韻律情報を推定する第２推定部と、
前記第２推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成部と、
として機能させるための音声合成プログラム。