JPWO2010119534A1 - 音声合成装置、方法およびプログラム - Google Patents

音声合成装置、方法およびプログラム Download PDF

Info

Publication number
JPWO2010119534A1
JPWO2010119534A1 JP2011509133A JP2011509133A JPWO2010119534A1 JP WO2010119534 A1 JPWO2010119534 A1 JP WO2010119534A1 JP 2011509133 A JP2011509133 A JP 2011509133A JP 2011509133 A JP2011509133 A JP 2011509133A JP WO2010119534 A1 JPWO2010119534 A1 JP WO2010119534A1
Authority
JP
Japan
Prior art keywords
prosodic
speech
unit
likelihood
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011509133A
Other languages
English (en)
Other versions
JP5300975B2 (ja
Inventor
ハビエル ラトレ
ハビエル ラトレ
政巳 赤嶺
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2010119534A1 publication Critical patent/JPWO2010119534A1/ja
Application granted granted Critical
Publication of JP5300975B2 publication Critical patent/JP5300975B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

解析部101は、入力文書を解析して言語特徴量を抽出する。第1推定部102は、予め定められた第1韻律モデルから、抽出された言語特徴量に適合する第1韻律モデルを選択し、選択した第1韻律モデルの尤度である第1尤度を最大化する韻律情報を推定する。選択部103は、複数の音声素片を記憶する素片記憶部122から、推定された韻律情報によって定まるコスト関数を最小化する複数の音声素片を選択する。生成部104は、選択された音声素片の韻律情報のモデルである第2韻律モデルを生成する。第2推定部105は、第2韻律モデルの尤度である第2尤度と第1尤度とに基づいて算出される第3尤度を最大化する韻律情報を再推定する。合成部106は、再推定された韻律情報に基づいて、選択された複数の音声素片を接続した合成音声を生成する。

Description

本発明は、音声合成装置、方法およびプログラムに関する。
テキストから音声を生成する音声合成装置は、大別すると、テキスト解析部、韻律生成部および音声信号生成部の3つの処理部から構成される。テキスト解析部では、言語辞書などを用いて入力されたテキスト(漢字かな混じり文)を解析し、文章を構成する音素列、形態素、漢字の読み、アクセントの位置、文節(アクセントの句)の区切りなどの言語情報(言語特徴量ともいう)を出力する。韻律生成部では、言語特徴量に基づいて、声の高さ(基本周波数)の時間変化パターン(以下、ピッチ包絡という)と、各音韻の長さ(以下、継続時間長という)の韻律情報を出力する。この韻律生成部は、合成音声の音質と全体的な自然性に大きく影響を与える重要な要素である。
例えば、特許文献1では、生成された韻律と音声信号生成部で用いられる素片の韻律を比較し、その差が小さい場合に素片の韻律を用いることにより、合成音声の歪みを低減する技術が提案されている。また、非特許文献1では、音素および音節などの複数の言語レベルでピッチ包絡をモデル化し、これら複数の言語レベルでのピッチ包絡モデルから、総合的にピッチ包絡パターンを生成することにより、滑らかに変化する自然なピッチ包絡を生成する技術が提案されている。
一方、音声信号生成部は、テキスト解析部からの言語特徴量と韻律生成部からの韻律情報に従って音声波形を生成するものである。現在は、素片接続型合成方式が、比較的高音質の音声を合成できる方式として一般的に用いられている。
米国特許第6,405,169号明細書
Latorre, J., Akamine, M., 2008, "Multilevel parametric-base F0 model for speech synthesis" Proc. Interspeech 2008, Brisbane, Australia, pp. 2274-2277
素片接続型合成方式は、テキスト解析部からの言語特徴量と韻律生成部で生成された韻律に従って音声素片を選択し、韻律情報に従って音声素片のピッチ(基本周波数)と継続時間長を変形して接続することで、合成音声を出力する。このとき、音声素片のピッチと継続時間を変形することに伴って音質が大きく劣化するという問題がある。
この問題を緩和するため、大規模な音声素片データベースを用意し、様々なピッチ、継続時間長をもつ大量の音声素片候補から音声素片を選択する方式が知られている。この方式によると、ピッチや継続時間長の変形を最小限に留めることができ、変形に伴う音質劣化を抑え、高い音質の音声合成が可能である。しかし、この方法では、音声素片を蓄積するためのメモリサイズが大きくなるという問題がある。
一方、音声素片のピッチと継続時間長を変形せず、選択された音声素片のピッチと継続時間長をそのまま利用する方法も存在する。この方法は、ピッチと継続時間長の変形に伴う音質劣化を避けることができる。しかし、その反面、選択される素片のピッチが素片間で連続的に接続される保証がなく、ピッチの不連続によって合成音の自然性が劣化する問題がある。また、選択される音声素片のピッチや継続時間長の自然性を向上させようとすると音声素片の種類を増加させる必要があり、音声素片を蓄積するためのメモリサイズが膨大なものになる問題がある。
本発明は、上記に鑑みてなされたものであって、音声素片を変形して接合する方式での音質劣化を低減することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の一態様は、入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析部と、音声の韻律情報のモデルである予め定められた複数の第1韻律モデルから、抽出された前記言語特徴量に適合する前記第1韻律モデルを選択し、選択した前記第1韻律モデルの確からしさを表す第1尤度を最大化する韻律情報を推定する第1推定部と、複数の音声素片を記憶する素片記憶部から、前記第1推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択部と、選択された複数の前記音声素片の韻律情報のモデルである第2韻律モデルを生成する生成部と、前記第2韻律モデルの確からしさを表す第2尤度と前記第1尤度とに基づいて算出される第3尤度を最大化する韻律情報を推定する第2推定部と、前記第2推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成部と、を備えることを特徴とする。
本発明によれば、音声素片を変形して接合する方式での音質劣化を低減することができるという効果を奏する。
本実施の形態にかかる音声合成装置の構成の一例を示すブロック図。 本実施の形態における音声合成処理の全体の流れを示すフローチャートを示す図。 本実施の形態の変形例にかかる音声合成装置の構成の一例を示すブロック図。 本実施の形態にかかる音声合成装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる音声合成装置の好適な実施の形態を詳細に説明する。
本実施の形態にかかる音声合成装置は、韻律情報の統計モデル(第1韻律モデル)の確からしさを表す尤度(第1尤度)を最大化する韻律情報を推定し、推定した韻律情報を元に選択した複数の音声素片から、音声素片の韻律情報の確率密度を表す統計モデル(第2韻律モデル)を作成する。そして、作成した第2韻律モデルの確からしさを表す尤度(第2尤度)を加味した韻律モデルの尤度(第3尤度)を最大化する韻律情報をさらに推定する。
これにより、選択した音声素片の韻律情報により近い韻律情報を用いることができるため、選択した音声素片の韻律情報の変形を最小限に留めることができる。すなわち、素片接続型合成方式での音質劣化を低減することが可能となる。
図1は、本実施の形態にかかる音声合成装置100の構成の一例を示すブロック図である。図1に示すように、音声合成装置100は、韻律モデル記憶部121と、素片記憶部122と、解析部101と、第1推定部102と、選択部103と、生成部104と、第2推定部105と、合成部106と、を備えている。
韻律モデル記憶部121は、学習等により作成された韻律情報の統計モデルである韻律モデル(第1韻律モデル)を予め記憶する。例えば、非特許文献1の方法により作成した韻律モデルを韻律モデル記憶部121に記憶するように構成することができる。
素片記憶部122は、予め作成された複数の音声素片を記憶する。素片記憶部122は、合成音声を生成する際に用いる音声の合成単位で音声素片を蓄積する。合成単位すなわち音声素片の単位としては半音素、音素、およびダイフォンなど様々な単位を用いることができるが、本実施の形態では半音素を用いる場合について説明する。
なお、素片記憶部122は、後述する生成部104が音声素片の韻律情報の韻律モデルを生成するときに参照する音声素片ごとの韻律情報(基本周波数、継続時間長)を記憶している。
解析部101は、入力された文書(以下、入力テキストという)を解析して、韻律制御に用いるための言語特徴量を抽出する。解析部101は、例えば図示しない単語辞書等を用いて入力テキストを分析し、入力テキストの言語特徴量を抽出する。言語特徴量は、入力テキストの音素情報、各音素の前後の音素情報、アクセントの位置、および、アクセント句の区切りなどである。
第1推定部102は、抽出された言語特徴量に適合する韻律モデル記憶部121の韻律モデルを選択し、選択した韻律モデルから、入力テキストの各音素の韻律情報を推定する。具体的には、第1推定部102は、入力テキストの音素毎に、前後の音素情報やアクセントの位置などの言語特徴量を用いて、その言語特徴量に一致する韻律モデルを韻律モデル記憶部121から選択し、選択された韻律モデルを用いて各音素の韻律情報である継続時間長と基本周波数とを推定する。
第1推定部102は、予め学習された決定木を用いて、入力された言語特徴量に関する質問を決定木の各ノードで繰り返してノードを分岐し、到達したリーフに格納されている韻律モデルを取り出すという方法により、適切な韻律モデルを選択する。決定木は、一般的に知られている方法に従って学習することができる。
また、第1推定部102は、入力テキストに対して選択された韻律モデルの系列から継続時間長の対数尤度関数と基本周波数の対数尤度関数とを定義し、各々の対数尤度関数を最大化する継続時間長と基本周波数とを求める。このようにして求めた継続時間長と基本周波数とが、韻律情報の初期推定値となる。なお、以下では、第1推定部102が韻律情報の初期推定に用いた対数尤度関数をFinitialと表す。
第1推定部102は、例えば非特許文献1の方法を用いて韻律情報を推定することができる。この場合、求められる基本周波数のパラメータはN次(Nは自然数、例えばN=5)のDCT係数である。また、このDCT係数の逆DCTによって各音節のピッチ包絡が得られる。
解析部101の出力である言語特徴量と、第1推定部102により推定された基本周波数および継続時間長とは、選択部103に送られる。
選択部103は、素片記憶部122から、コスト関数を最小化する素片列の候補(素片候補列)を複数選択する。選択部103は、例えば、特許第4080989号公報に記載の方法により、複数の素片候補列を選択する。
コスト関数は、素片ターゲットコストと素片接続コストとを含む。素片ターゲットコストは、選択部103に与えられる言語特徴量、基本周波数、および継続時間長と、素片記憶部122に格納されている音声素片の言語特徴量、基本周波数、および継続時間長との距離の関数として計算される。また、素片接続コストは、音声素片の接続点における2つの音声素片のスペクトルパラメータの距離を、入力テキスト全体で加算した総和として計算される。
選択された素片候補列に含まれる各音声素片の基本周波数および継続時間長は、生成部104に送られる。
生成部104は、選択された複数の素片候補列に含まれる音声素片ごとに、音声素片の韻律情報の統計モデルである韻律モデル(第2韻律モデル)を生成する。例えば、生成部104は、音声素片の基本周波数のサンプル値の確率密度を表現する統計モデルと、音声素片の継続時間長のサンプル値の確率密度を表現する統計モデルとを、音声素片の韻律モデルとして作成する。
統計モデルとしては、例えばGMM(Gaussian Mixture Model)を用いることができる。この場合、統計モデルのパラメータは、各ガウスコンポーネントの平均ベクトルと共分散行列となる。生成部104は、複数の素片候補列から、対応する複数の音声素片をそれぞれ取得し、複数の音声素片の基本周波数および継続時間長を用いて、GMMのパラメータを算出する。
なお、素片記憶部122に記憶されている音声素片の継続時間長、言い換えると音声素片のピッチ包絡を構成する基本周波数のサンプル数は音声素片毎に異なる。このため、生成部104は、基本周波数の統計モデルを作成する際、例えば、音声素片の先頭位置、中間位置、および後尾位置の基本周波数のサンプル値ごとに統計モデルを作成する。
以上は、基本周波数等のサンプル値を直接モデル化する場合の説明であるが、生成部104が、ピッチ包絡をモデル化する非特許文献1の方法を用いるように構成してもよい。この場合、ピッチ包絡は例えば5次のDCT係数で表現され、各係数の確率密度関数がGMMでモデル化される。さらに、ピッチ包絡を多項式で表現することもできる。この場合は、多項式の係数がGMMでモデル化される。継続時間長は、音声素片の継続時間長をそのままGMMでモデル化する。
第2推定部105は、生成部104により生成された、入力テキストの音声素片ごとの韻律モデルを用いて、入力テキストの各音素の韻律情報を再度推定する。まず、第2推定部105は、基本周波数と継続時間長の各々について、生成部104によって生成された統計モデルから計算される対数尤度関数Ffeedbackと、韻律情報の初期推定に用いた対数尤度関数Finitialとを線形結合した総対数尤度関数Ftotalを算出する。
第2推定部105は、例えば以下の(1)式によって総対数尤度関数Ftotalを算出する。なお、λfeedbackおよびλinitialは、予め定められた係数を表す。
total=λfeedbackfeedback+λinitialinitial ・・(1)
第2推定部105が、以下の(2)式によって総対数尤度関数Ftotalを算出するように構成してもよい。なお、λは予め定められた重み付け係数を表す。
total=λFfeedback+(1−λ)Finitial ・・・(2)
そして、第2推定部105は、以下の(3)式のように、Ftotalを韻律モデルのパラメータ(基本周波数または継続時間長)xsyllableに関して微分することにより、Ftotalを最大化する基本周波数と継続時間長をそれぞれ再推定する。
Figure 2010119534
(3)式を用いて韻律情報を再推定するには、対数尤度関数Ffeedbackが、韻律モデル記憶部121の韻律モデルの対数尤度関数Finitialに追加(線形結合)でき、韻律モデルのパラメータxsyllableに関して微分可能である必要がある。
第1推定部102が、非特許文献1の方法により韻律情報を初期推定する場合は、以下のように対数尤度関数Ffeedbackを定義することにより、(3)式を用いた韻律情報の再推定が可能となる。
シングルGMMを仮定すると、同一の音節sに属する半音素hpの対数尤度関数Ffeedbackの一般形は、以下の(4)式で表される。
Figure 2010119534
Constは定数、Ohp、μhp、およびΣhpは、それぞれ半音素hpのピッチ包絡のパラメータ化ベクトル、平均値、および共分散を表す。Ohpを定義する簡単な方法は、以下の(5)式で表されるピッチ包絡の線形変換を用いることである。
Figure 2010119534
logF0hpは、半音素hpのピッチ包絡、Hhpは変換行列、logF0sは、半音素hpが属する音節のピッチ包絡、および、Shpは、logF0sからlogF0hpを選択するための行列を表す。
syllableは、例えば以下の(6)式で表される。(6)式のxは、logF0sのDCTの最初の5個の係数からなるベクトルであり、以下の(7)式で表される。
Figure 2010119534
Tsは線形可逆変換であるため、以下の(8)式が得られる。従って、Ffeedbackは、以下の(9)式で表される。
Figure 2010119534
以上より、(3)式の右辺第1項は、以下の(10)式で表現できる。(10)式のAsおよびBsは、それぞれ以下の(11)式および(12)式で表される。
Figure 2010119534
(3)式および(4)式に示すように、変換行列Hの定義は、μhpおよびΣhpの値も決定する。これらの値は、半音素hpのために選択されたU個のサンプルのセットから以下の(13)式および(14)式により算出される。
Figure 2010119534
一般に、変換行列Hの値は、各サンプルおよび半音素の継続時間長のみに依存する。変換行列Hは、サンプル単位またはパラメータ単位で定義することができる。
サンプル単位では、変換行列Hは、logF0から予め定めた位置のサンプル点を用いて定義される。例えば、半音素の先頭位置、中間位置、および後尾位置のピッチを取得する場合、変換行列Huは、3×Lu次元の行列となる。Luは、logF0の長さであり、位置(1、1)、(2、Lu/2)、および(Lu、Lu)では1、その他の位置では0である。
パラメータ単位では、変換行列Hは、ピッチ包絡の変換として定義される。簡単な方法は、音素の先頭位置、中間位置、および後尾位置でのピッチ包絡の平均を求めるための変換行列としてHを定義することである。この場合、変換行列Hは以下の(15)式で表される。D1、D2、・・・D3はlogF0の先頭位置、中間位置、および後尾位置のセグメントの継続時間長である。なお、変換行列HをDCT変換行列として定義してもよい。
Figure 2010119534
以上、非特許文献1の方法により韻律情報を推定する場合について説明したが、適用可能な方法は非特許文献1の方法に限られるものではない。生成部104によって生成された音声素片の韻律モデルの尤度と、韻律モデル記憶部121の韻律モデルの尤度とから新たな尤度(第3尤度)が算出可能であり、算出された尤度を用いて韻律情報を再推定可能な方法であればあらゆる方法を適用できる。
合成部106は、第2推定部105によって推定された韻律情報に従って音声素片の継続時間長と基本周波数とを変形し、変形処理後の音声素片を接続して合成音声の波形を作成して出力する。
次に、このように構成された本実施の形態にかかる音声合成装置100による音声合成処理について図2を用いて説明する。図2は、本実施の形態における音声合成処理の全体の流れを示すフローチャートである。
まず、解析部101が、入力テキストを解析し、言語特徴量を抽出する(ステップS201)。次に、第1推定部102が、予め定められた決定木を用いて、抽出された言語特徴量に適合する韻律モデルを選択する(ステップS202)。そして、第1推定部102は、選択された韻律モデルに対応する対数尤度関数(Finitial)を最大化する基本周波数および継続時間長を推定する(ステップS203)。
次に、選択部103が、解析部101により抽出された言語特徴量、および、第1推定部102により推定された基本周波数および継続時間長を参照し、コスト関数を最小化する複数の素片候補列を素片記憶部122から選択する(ステップS204)。
次に、生成部104が、選択部103により選択された素片候補列から、音声素片ごとに、音声素片の韻律モデルを生成する(ステップS205)。次に、第2推定部105が、生成された韻律モデルの対数尤度関数(Ffeedback)を算出する(ステップS206)。さらに、第2推定部105は、上記(1)式等を用いて、ステップS202で選択された韻律モデルに対応する対数尤度関数(Finitial)と、算出された対数尤度関数(Ffeedback)とを線形結合した総対数尤度関数Ftotalを算出する(ステップS207)。そして、第2推定部105は、総対数尤度関数Ftotalを最大化する基本周波数および継続時間長を再推定する(ステップS208)。
次に、合成部106が、推定された基本周波数および継続時間長に従い、選択部103によって選択された音声素片の基本周波数と継続時間長を変形する(ステップS209)。そして、合成部106は、基本周波数と継続時間長を変形した音声素片を接続して合成音声の波形を作成する(ステップS210)。
このように、本実施の形態にかかる音声合成装置100では、予め蓄積された韻律モデルを用いて初期推定した韻律情報を元に選択した複数の音声素片から音声素片の韻律モデルを生成し、生成した韻律モデルの尤度と、初期推定時の尤度とを線形結合した尤度を最大化する韻律情報を再推定する。
このようにして、本実施の形態では、選択された音声素片の韻律情報に近似する基本周波数と継続時間長とを用いて音声素片の韻律情報の変形、および波形の合成を実行可能となる。これにより、音声素片の韻律情報の変形に伴う歪を最小限に抑止し、素片記憶部122のサイズを大きくすることなく、音質を向上させることができる。また、推定される韻律の自然性を最大限に保持することにより、合成音の自然性と音質を向上させることができる。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
(変形例)
以下に、このような変形の一例について説明する。上記実施の形態では、音声素片の選択は1回のみ実行していた。これに対し、再推定された基本周波数と継続時間長を初期推定値の代わりに用いて、選択部103が音声素片を再度選択し、合成波形を作成するように構成してもよい。また、この動作を複数回繰り返すように構成してもよい。例えば、再推定、音声素片の再選択の実行回数が予め定められた閾値より大きくなるまで、処理を繰り返すように構成することができる。このようなフィードバックを繰り返すことによって音質のさらなる向上が期待できる。
また、上記実施の形態では、韻律情報を推定する構成部を、第1推定部102と第2推定部105とに分離していたが、両構成部の機能を有する1つの構成部を備えるように構成してもよい。
図3は、このような構成部である推定部202を備えた、上記実施の形態の変形例にかかる音声合成装置200の構成の一例を示すブロック図である。図3に示すように、音声合成装置200は、韻律モデル記憶部121と、素片記憶部122と、解析部101と、推定部202と、選択部103と、生成部104と、合成部106と、を備えている。
推定部202は、上記第1推定部102および第2推定部105の機能を備えている。すなわち、推定部202は、言語特徴量に適合する韻律モデル記憶部121の韻律モデルを選択し、選択した韻律モデルから韻律情報を初期推定する機能、および、生成部104により生成された音声素片ごとの韻律モデルを用いて入力テキストの各音素の韻律情報を再推定する機能を備えている。
なお、本変形例にかかる音声合成装置200の音声合成処理の全体の流れは、上記図2と同様であるため説明を省略する。
次に、本実施の形態にかかる音声合成装置のハードウェア構成について図4を用いて説明する。図4は、本実施の形態にかかる音声合成装置のハードウェア構成図である。
本実施の形態にかかる音声合成装置は、CPU(Central Processing Unit)51などの制御部と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶部と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
本実施の形態にかかる音声合成装置で実行される音声合成プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータ読み取り可能な記録媒体に記録して提供されるように構成してもよい。
さらに、本実施の形態にかかる音声合成装置で実行される音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる音声合成装置で実行される音声合成プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施の形態にかかる音声合成装置で実行される音声合成プログラムは、コンピュータを上述した音声合成装置の各部(解析部、第1推定部、選択部、生成部、第2推定部、合成部等)として機能させうる。このコンピュータは、CPU51がコンピュータ読み取り可能な記録媒体から音声合成プログラムを主記憶装置上に読み出して実行することができる。
100 音声合成装置
101 解析部
102 第1推定部
103 選択部
104 生成部
105 第2推定部
106 合成部

Claims (6)

  1. 入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析部と、
    音声の韻律情報のモデルである予め定められた複数の第1韻律モデルから、抽出された前記言語特徴量に適合する前記第1韻律モデルを選択し、選択した前記第1韻律モデルの確からしさを表す第1尤度を最大化する韻律情報を推定する第1推定部と、
    複数の音声素片を記憶する素片記憶部から、前記第1推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択部と、
    選択された複数の前記音声素片の韻律情報のモデルである第2韻律モデルを生成する生成部と、
    前記第2韻律モデルの確からしさを表す第2尤度と前記第1尤度とに基づいて算出される第3尤度を最大化する韻律情報を推定する第2推定部と、
    前記第2推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成部と、
    を備えることを特徴とする音声合成装置。
  2. 前記選択部は、さらに、前記第2推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を新たに選択し、
    前記合成部は、前記第2推定部によって推定された韻律情報に基づいて、新たに選択された複数の前記音声素片を接続して合成音声を生成すること、
    を特徴とする請求項1に記載の音声合成装置。
  3. 前記生成部は、さらに、新たに選択された複数の前記音声素片の前記第2韻律モデルを生成し、
    前記第2推定部は、さらに、新たに選択された複数の前記音声素片から生成された前記第2韻律モデルの前記第2尤度と前記第1尤度とに基づいて算出される前記第3尤度を最大化する韻律情報を推定し、
    前記合成部は、前記第2推定部による韻律情報の推定回数が予め定められた閾値を超えた場合に、前記第2推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続して合成音声を生成すること、
    を特徴とする請求項2に記載の音声合成装置。
  4. 前記第3尤度は、前記第1尤度と前記第2尤度との線形結合により算出されること、
    を特徴とする請求項1に記載の音声合成装置。
  5. 音声合成装置で実行される音声合成方法であって、
    解析部が、入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析ステップと、
    第1推定部が、音声の韻律情報のモデルである予め定められた複数の第1韻律モデルから、抽出された前記言語特徴量に適合する前記第1韻律モデルを選択し、選択した前記第1韻律モデルの確からしさを表す第1尤度を最大化する韻律情報を推定する第1推定ステップと、
    選択部が、複数の音声素片を記憶する素片記憶部から、前記第1推定ステップによって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択ステップと、
    生成部が、選択された複数の前記音声素片の韻律情報のモデルである第2韻律モデルを生成する生成ステップと、
    第2推定部が、前記第2韻律モデルの確からしさを表す第2尤度と前記第1尤度とに基づいて算出される第3尤度を最大化する韻律情報を推定する第2推定ステップと、
    合成部が、前記第2推定ステップによって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成ステップと、
    を備えることを特徴とする音声合成方法。
  6. コンピュータを、
    入力文書を解析し、韻律制御に用いられる言語特徴量を抽出する解析部と、
    音声の韻律情報のモデルである予め定められた複数の第1韻律モデルから、抽出された前記言語特徴量に適合する前記第1韻律モデルを選択し、選択した前記第1韻律モデルの確からしさを表す第1尤度を最大化する韻律情報を推定する第1推定部と、
    複数の音声素片を記憶する素片記憶部から、前記第1推定部によって推定された韻律情報によって定まるコスト関数を最小化する複数の前記音声素片を選択する選択部と、
    選択された複数の前記音声素片の韻律情報のモデルである第2韻律モデルを生成する生成部と、
    前記第2韻律モデルの確からしさを表す第2尤度と前記第1尤度とに基づいて算出される第3尤度を最大化する韻律情報を推定する第2推定部と、
    前記第2推定部によって推定された韻律情報に基づいて、選択された複数の前記音声素片を接続した合成音声を生成する合成部と、
    として機能させるための音声合成プログラム。
JP2011509133A 2009-04-15 2009-04-15 音声合成装置、方法およびプログラム Expired - Fee Related JP5300975B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/057615 WO2010119534A1 (ja) 2009-04-15 2009-04-15 音声合成装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2010119534A1 true JPWO2010119534A1 (ja) 2012-10-22
JP5300975B2 JP5300975B2 (ja) 2013-09-25

Family

ID=42982217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011509133A Expired - Fee Related JP5300975B2 (ja) 2009-04-15 2009-04-15 音声合成装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US8494856B2 (ja)
JP (1) JP5300975B2 (ja)
WO (1) WO2010119534A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US9401138B2 (en) * 2011-05-25 2016-07-26 Nec Corporation Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program
US8886539B2 (en) * 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
DE102014208117A1 (de) 2014-04-30 2015-11-05 Bayerische Motoren Werke Aktiengesellschaft Steuerung für elektrisch getriebenes Fahrzeug, elektrisch getriebenes Fahrzeug mit Steuerung und Verfahren
US9997154B2 (en) * 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases
US9685169B2 (en) 2015-04-15 2017-06-20 International Business Machines Corporation Coherent pitch and intensity modification of speech signals
EP3542360A4 (en) 2016-11-21 2020-04-29 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION
RU2692051C1 (ru) 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для синтеза речи из текста
KR102247902B1 (ko) * 2018-10-16 2021-05-04 엘지전자 주식회사 단말기
CN110782875B (zh) * 2019-10-16 2021-12-10 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
JP2022081790A (ja) * 2020-11-20 2022-06-01 株式会社日立製作所 音声合成装置、音声合成方法、および音声合成プログラム
CN112509552B (zh) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
JP2005300919A (ja) * 2004-04-12 2005-10-27 Mitsubishi Electric Corp 音声合成装置
WO2006040908A1 (ja) * 2004-10-13 2006-04-20 Matsushita Electric Industrial Co., Ltd. 音声合成装置及び音声合成方法
WO2006104988A1 (en) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Hybrid speech synthesizer, method and use
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
JP2009025328A (ja) * 2007-07-17 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
CN101452699A (zh) * 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
CN102047321A (zh) * 2008-05-30 2011-05-04 诺基亚公司 用于提供改进的语音合成的方法、设备和计算机程序产品
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
WO2010025460A1 (en) * 2008-08-29 2010-03-04 O3 Technologies, Llc System and method for speech-to-speech translation
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm

Also Published As

Publication number Publication date
US8494856B2 (en) 2013-07-23
WO2010119534A1 (ja) 2010-10-21
US20120089402A1 (en) 2012-04-12
JP5300975B2 (ja) 2013-09-25

Similar Documents

Publication Publication Date Title
JP5300975B2 (ja) 音声合成装置、方法およびプログラム
CN107924678B (zh) 语音合成装置、语音合成方法及存储介质
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
CN107924686B (zh) 语音处理装置、语音处理方法以及存储介质
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP2008203543A (ja) 声質変換装置及び音声合成装置
KR100932538B1 (ko) 음성 합성 방법 및 장치
CN108831435B (zh) 一种基于多情感说话人自适应的情感语音合成方法
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP6580911B2 (ja) 音声合成システムならびにその予測モデル学習方法および装置
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP2010230913A (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP2006276522A (ja) 音声合成装置及びその方法
JP2009237015A (ja) 音声素片接続装置及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130618

LAPS Cancellation because of no payment of annual fees