JPWO2010104040A1 - 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム - Google Patents
1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム Download PDFInfo
- Publication number
- JPWO2010104040A1 JPWO2010104040A1 JP2011503812A JP2011503812A JPWO2010104040A1 JP WO2010104040 A1 JPWO2010104040 A1 JP WO2010104040A1 JP 2011503812 A JP2011503812 A JP 2011503812A JP 2011503812 A JP2011503812 A JP 2011503812A JP WO2010104040 A1 JPWO2010104040 A1 JP WO2010104040A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- articulation
- unit
- sequence
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 207
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 192
- 238000001308 synthesis method Methods 0.000 title claims description 48
- 230000033001 locomotion Effects 0.000 claims abstract description 121
- 230000007704 transition Effects 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims description 73
- 238000012545 processing Methods 0.000 claims description 50
- 230000005284 excitation Effects 0.000 claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 230000002194 synthesizing effect Effects 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 abstract description 11
- 238000001228 spectrum Methods 0.000 description 43
- 210000000056 organ Anatomy 0.000 description 34
- 238000000034 method Methods 0.000 description 33
- 238000009826 distribution Methods 0.000 description 20
- 239000000284 extract Substances 0.000 description 19
- 230000008901 benefit Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 10
- 239000000203 mixture Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 210000004556 brain Anatomy 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 240000000220 Panda oleosa Species 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 210000004704 glottis Anatomy 0.000 description 3
- 210000001983 hard palate Anatomy 0.000 description 3
- 201000000615 hard palate cancer Diseases 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 210000001584 soft palate Anatomy 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 208000002579 Wernicke Aphasia Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 2
- 210000003254 palate Anatomy 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000007774 Broca Aphasia Diseases 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 210000004720 cerebrum Anatomy 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
を特徴としている。
音声認識部は、音声を取得する音声取得ステップと、前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、前記調音特徴抽出ステップにて抽出された調音特徴を記憶手段に記憶する第1の記憶制御ステップと、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し最適音声単位系列を識別する最適音声単位系列識別ステップを含み、音声合成部は、前記最適音声単位系列から調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成ステップと、前記最適調音特徴系列生成ステップにて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御ステップと、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換ステップと、前記音声合成パラメータ系列変換ステップにて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御ステップと、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成するステップとを含むことを特徴としている。
行っていると同様の対応を可能にする。すなわち、未知語が出現した際、未知語部分に対応する調音特徴系列を利用し、問い返しの確認発話を容易に合成することができる。
られるものであり、記載されている装置の構成、各種処理のフローなどは、特に特定的な記載がない限り、それのみに限定する趣旨ではなく、単なる説明例である。
ature:DF)などがある。また、音声から弁別的特徴などの調音特徴を直接抽出する方法も、ニューラルネットワークを利用する手法など多く提案されている(非特許文献6参照)。
騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するHMMの設計に多くの音声データを必要としていた。近年のHMMに基づく音声認識装置では、音声スペクトルを入力特徴として使用し、個々のベクトル要素の変動を複数の正規分布から表現する。なお、実際に多用される音声スペクトルは、音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに、スペクトルの対数値を離散コサイン変換(DCT)したメルケプストラム(MFCC)が使用される。また、複数の正規分布は混合分布と呼ばれ、この数は前述した様々な変形に対処するため、近年では60〜70の分布を使用するものが現れている。このように、厖大なメモリと演算が必要になった原因は、音声中に隠された変数を特定せずに、音素や単語を分類しようとした結果といえる。これに対し、調音特徴を用いると、HMMの混合数を数個程度で済ませることができる(非特許文献3参照)。
音声を合成する。合成音声はD/A変換部206を経て、出力部205に送られ、スピーカから音声を送出する。
ることが多く、本実施形態も同様である。これによって、話者や前後環境に起因する複雑な変動を細かくモデル化することが可能である。
ルタ(PARCOR合成フィルタ)に通して得られる音声波形を元の波形と比較し、誤差の少ない駆動音源符号を選択する。駆動音源符号帳は、学習音声データからクラスタリングにより代表素片を登録するとともに、登録符号帳を木構造化することにより、コンパクトで効率のよい符号帳を構成できる。
しかし、本発明は、こうした利用に限られるものではなく、キーボードから入力された漢字かな混じり文に対しても、通常の音声合成器が行っているように、かな系列に変換した後、音声記号を取得すれば、調音特徴としての弁別的音素特徴は、容易に分かるようにかな文字と一対一に対応しており、かな文字・調音特徴系列の変換を通して、音声を容易に合成することができる。
11 中央演算処理装置
12 入力装置
13 出力装置
14 記憶装置
15 外部記憶装置
201 入力部
202 A/D変換部
205 出力部
206 D/A変換部
207 調音特徴計算用記憶部
210 調音特徴抽出部
211 分析フィルタ
212 局所特徴抽出部
213 弁別的音素特徴抽出部
220 音声認識部
230 最適調音特徴系列・音声合成パラメータ変換部
235 音声合成用記憶部
240 音声合成部
には、特定話者の多大な音声データを必要とするという欠点がある。また、このHMMを音声認識で利用する場合、特定話者の音声で設計したHMMのため、その話者以外の多数話者に対して低い音声認識結果しか得られないものであった。
[0012]
本発明は、上記の問題点を解消するためになされたものであり、不特定話者に対する高い音声認識性能と特定個人に対する明瞭な音声合成という、これまでの方式では相反する機能を実現する1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
課題を解決するための手段
[0013]
上述の問題点を解決するために、請求項1に係る発明の音声合成装置では、弁別的音素特徴に基づく話者不変量の調音特徴を調音運動の状態遷移モデルとして予め記憶する音素単位調音運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成装置であって、音声認識部は、音声を取得する音声取得手段と、前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、前記調音特徴抽出手段にて抽出された調音特徴を記憶手段に記憶する第1の記憶制御手段と、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し最適音声単位系列を識別する最適音声単位系列識別手段を含み、前記調音特徴抽出手段は、音声のデジタル信号をフーリエ分析フィルタなどにより周波数分析する分析フィルタと、分析結果の時間−周波数特徴系列から弁別的音素特徴を識別する、多層ニューラルネットワークなどで構成した弁別的音素特徴抽出部とを備え、音声合成部は、前記最適音声単位系列から調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成手段と、前記最適調音特徴系列生成手段にて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御手段と、前記最適調音特徴系列データの記憶手段から読
み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換手段と、前記音声合成パラメータ系列変換手段にて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御手段と、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成する手段とを含むことを特徴としている。
[0014]
ここで、弁別的音素特徴とは、調音特徴の表現方法の一つであり、調音特徴としては、子音と母音とに分け、子音のうちの調音位置および調音方法で分類される。例えば、音素/b/と/p/では「有声/無声」という調音方法の区別が、また、音素/b/と/d/では「口唇/歯茎」という調音位置の区別が弁別的特徴に当たる。なお、調音位置とは、唇、歯茎、硬口蓋、軟口蓋、声門などがあり、調音方法とは、破裂、摩擦、破擦、弾音、鼻音、半母音などがある。
[0015]
また、請求項2に係る発明の音声合成装置では、前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別手段および前記音声合成部の最適調音特徴系列生成手段から参照可能であることを特徴としている。
[0016]
また、請求項4に係る音声合成装置では、前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声で適応学習して作成されることを特徴としている。
[0017]
また、請求項5に係る発明の音声合成装置では、前記音声合成パラメータと駆動音源信号から音声を合成する手段において、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択する手段と、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録する手段を備えたことを特徴としている。
[0018]
請求項6に係る発明の音声合成方法では、弁別的音素特徴に基づく話者不変量の調音特徴を調音運動の状態遷移モデルとして予め記憶する音素単位調音運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成方法であって、音声認識部は、音声を取得する音声取得ステップと、前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、前記調音特徴抽出ステップにて抽出された調音特徴を記憶手段に記憶する第1の記憶制御ステップと、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し最適音声単位系列を識別する最適音声単位系列識別ステップを含み、前記調音特徴抽出ステップは、音声のデジタル信号をフーリエ分析フィルタなどにより周波数分析する分析ステップと、分析結果の時間−周波数特徴系列から弁別的音素特徴を抽出する、多層ニューラルネットワークなどで構成した弁別的音素特徴抽出ステップとを備え、音声合成部は、前記最適音声単位系列から調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成ステップと、前記最適調音特徴系列生成ステップにて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御ステップと、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換ステップと、前記音声合成パラメータ系列変換ステップにて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御ステップと、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成するステップとを含むことを特徴としている。
[0019]
ここで、弁別的音素特徴とは、調音特徴の表現方法の一つであり、調音特徴としては、子音と母音とに分け、子音のうちの調音位置および調音方法で分類される。例えば、音素/b/と/p/では「有声/無声」という調音方法の区別が、また、音素/b/と/d/では「口唇/歯茎」という調音位置
の区別が弁別的特徴に当たる。なお、調音位置とは、唇、歯茎、硬口蓋、軟口蓋、声門などがあり、調音方法とは、破裂、摩擦、破擦、弾音、鼻音、半母音などがある。
[0020]
また、請求項7に係る発明の音声合成方法では、前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別ステップおよび前記音声合成部の最適調音特徴系列生成ステップにおいて参照可能であることを特徴としている。
[0021]
また、請求項9に係る発明の音声合成方法では、前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声で適応学習して作成されることを特徴としている。
[0022]
また、請求項10に係る発明の音声合成方法では、前記音声合成パラメータと駆動音源信号から音声を合成するステップにおいて、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択するステップと、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録するステップを備えたことを特徴としている。
[0023]
請求項11に係る発明の音声合成プログラムでは、請求項1ないし5のいずれかに記載の音声合成装置の各処理手段としてコンピュータを駆動させている。
[0024]
また、請求項12に係る発明の音声合成プログラムでは、請求項6ないし10のいずれかに記載の音声合成方法の各処理ステップとしてコンピュータを駆動させている。
発明の効果
[0025]
請求項1に係る発明の音声合成装置は、従来のHMM合成装置が使用して
いた特定話者の「スペクトルに基づく情報」と異なり、「調音運動に基づく情報」を抽出してHMM合成装置を構成する。このため、HMM合成の部分を調音運動という話者に対して基本的に不変なパラメータから構成するため、HMM部分に関して個々の話者の学習音声データが不要もしくは極少量で済むという利点がある。また、音声を生成するには、調音運動を特定話者の発話器官の運動に変換する必要があるが、この部分は少量の音声データで実現できる。すなわち、特定話者の音声は、調音運動の状態遷移モデルを話者不変量と見做して話者に共通なモデルで表現するとともに、特定話者の発音器官に依存する部分を音声合成パラメータ系列変換時に限定して処理すればよいため、両者を分離して把握することができる。このように、音声合成を、話者不変量と見做すことのできる発話器官への調音動作指令部分(調音運動の状態遷移モデルおよび音素単位調音運動記憶部)と、個人毎に異なる発話器官とその動作に係わる部分(最適音声単位系列識別手段および最適調音特徴系列生成手段)に分離したことにより、個人の発話器官の特性に合わせた高品質な音声合成装置を少量の音声データから実現することができる。
[0026]
特に、従来の音声スペクトル由来の特徴を使用する音声認識では、話者や発話時の文脈または周囲の騒音等によって、スペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するHMMの設計に多くの音声データを必要としていた。これに対し、調音特徴をHMMへの入力特徴とする場合、少ない学習話者でも十分な音素認識性能を得ることができ、かつHMMの混合分布数も少なくて済むという利点を有する。
[0027]
また、音声分析結果の時間−周波数特徴系列から弁別的音素特徴を高い精度で抽出する調音特徴抽出部が構成されたことにより、調音運動を表現する弁別特徴をHMMへの入力特徴とすることが可能になり、話者1名という極めて少ない音声データ学習でも、十分な音素認識性能を得ることができる。
[0028]
請求項2に係る発明の音声合成装置は、音素単位調音運動記憶部に調音運動を表現したHMMの係数セットが記憶されていることから、これを参照する最適音声単位系列識別手段および最適調音特徴系列生成手段では、話者に
対して基本的に不変なパラメータにより音声認識処理および音声合成処理が実現される。
[0029]
請求項4に係る発明の音声合成装置は、従来のHMM合成装置が使用していた「特定話者のスペクトルに基づく情報」ではなく、「不特定多数話者の調音運動に基づく情報」を抽出してHMM合成装置を構成するものである。これにより、上記発明の効果に加えて、HMM合成の部分を話者に対し共通化することができ、個々の話者はHMM部分に関して学習音声データが原則不要にできるという利点がある。また、音声合成を、発話器官への調音動作指令部分と、個人毎に異なる発話器官とその動作に係わる部分に分離し、かつ前者を多数話者の調音特徴データを使用して、話者に対しより不変な調音動作指令として構成したことにより、個人の発話器官の特性に合わせた高品質音声合成と、高い音声認識性能の双方を達成することができる。
[0030]
また、個人の音声に適応した合成音を少ないデータで得られることを可能にするため、高い音素認識性能の実現と相俟って、音声対話で問題となっている未知語に、人間同士が行っていると同様の対応を可能にする。すなわち、未知語が出現した際、未知語部分に対応する調音特徴系列を利用し、問い返しの確認発話を容易に合成することができる。
[0031]
請求項5に係る発明の音声合成装置は、合成音の音質に大きな影響を与える駆動音源信号に、音声通信で広く利用されているCELP(Code Excited Linear Prediction)の閉ループ学習の考え方(非特許文献4参照)と、同じく波形合成に広く利用されているPSOLA(Pitch Synchronous Overlap and Add)の技術(非特許文献5参照)を導入することにより、上記発明の効果に加えて、最適な駆動音源符号を選択して対応する調音運動の状態遷移モデルに登録し、これを参照しつつ音声合成することによって高品質音声を得ることができる。
[0032]
請求項6に係る発明の音声合成方法は、従来のHMM合成方法が使用していた特定話者の「スペクトルに基づく情報」と異なり、「調音運動に基づく
情報」を抽出してHMM合成方法を構成する。このため、HMM合成の部分を調音運動という話者に対して基本的に不変なパラメータから構成するため、個々の話者はHMM部分に関して学習音声データが不要もしくは極少量で済むという利点がある。また、音声を生成するには、調音運動を特定話者の発話器官の運動に変換する必要があるが、この部分は少量の音声データで実現できる。話者の音声は調音運動の状態遷移モデルとして話者不変量と見做し、特定話者の発話動作は音声合成パラメータ系列に変換されることから、両者を分離して把握することができる。このように、音声合成を、話者不変量と見做すことのできる発話器官への調音動作指令部分(調音運動の状態遷移モデルおよび音素単位調音運動記憶部)と、個人毎に異なる発話器官とその動作に係わる部分(最適音声単位系列識別ステップおよび最適調音特徴系列生成ステップ)に分離したことにより、個人の発話器官の特性に合わせた高品質な音声合成方法を実現することができる。
[0033]
特に、従来の音声スペクトル由来の特徴を使用する音声認識では、話者や発話時の文脈または周囲の騒音等によって、スペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するHMMの設計に多くの音声データを必要としていた。これに対し、調音特徴をHMMへの入力特徴とする場合、少ない学習話者でも十分な音素認識性能を得ることができ、かつHMMの混合分布数も少なくて済むという利点を有する。
[0034]
また、分析ステップから得た時間−周波数特徴系列から、弁別的音素特徴を高い精度で抽出する弁別的音素特徴抽出ステップが構成されたことにより、調音運動を表現する弁別特徴をHMMへの入力特徴とすることが可能になり、話者1名という極めて少ない音声データ学習でも十分な音素認識性能を得ることができる。
[0035]
請求項7に係る発明の音声合成方法は、音素単位調音運動記憶部に調音運動を表現したHMMの係数セットが記憶されていることから、これを参照する最適音声単位系列識別ステップおよび最適調音特徴系列生成ステップでは、話者に対して基本的に不変なパラメータにより音声認識処理および音声合成処理が実現される。
[0036]
請求項9に係る発明の音声合成方法は、従来のHMM合成方法が使用していた「特定話者のスペクトルに基づく情報」ではなく、「不特定多数話者の調音運動に基づく情報」を抽出してHMM合成方法を構成するものである。これにより、上記発明の効果に加えて、HMM合成の部分を話者に対し共通化することができ、個々の話者はHMM部分に関して学習音声データが原則不要にできるという利点がある。また、音声合成を、発話器官への調音動作指令部分と、個人毎に異なる発話器官とその動作に係わる部分に分離し、かつ前者を多数話者の調音特徴データを使用して、話者に対しより不変な調音動作指令として構成したことにより、個人の発話器官の特性に合わせた高品質音声合成と、高い音声認識性能の双方を達成することができる。
[0037]
また、個人の音声に適応した合成音を少ないデータで得られることを可能にするため、高い音素認識性能の実現と相俟って、音声対話で問題となって
Claims (12)
- 一定の音声単位毎に記憶された調音運動の状態遷移モデルを予め記憶する音素単位調音運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成装置であって、
音声認識部は、音声を取得する音声取得手段と、前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、前記調音特徴抽出手段にて抽出された調音特徴を記憶手段に記憶する第1の記憶制御手段と、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し最適音声単位系列を識別する最適音声単位系列識別手段を含み、
音声合成部は、前記最適音声単位系列から調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成手段と、前記最適調音特徴系列生成手段にて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御手段と、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換手段と、前記音声合成パラメータ系列変換手段にて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御手段と、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成する手段とを含むことを特徴とする音声合成装置。 - 前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別手段および前記音声合成部の最適調音特徴系列生成手段から参照可能であることを特徴とする請求項1記載の音声合成装置。
- 前記調音特徴抽出手段は、音声のデジタル信号をフーリエ分析する分析フィルタと、時間軸微分特徴抽出部および周波数軸微分特徴抽出部を有する局所特徴抽出部と、多層ニューラルネットワークを一段または複数段に構成された弁別的音素特徴抽出部とを備えたことを特徴とする請求項1又は2に記載の音声合成装置。
- 前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声で適応学習して作成されることを特徴とする請求項1ないし3のいずれかに記載の音声合成装置。
- 前記音声合成パラメータと駆動音源信号から音声を合成する手段において、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択する手段と、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録する手段を備えたことを特徴とする請求項1ないし4のいずれかに記載の音声合成装置。
- 一定の音声単位毎に記憶された調音運動の状態遷移モデルを予め記憶する音素単位調音
運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成方法であって、
音声認識部は、音声を取得する音声取得ステップと、前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、前記調音特徴抽出ステップにて抽出された調音特徴を記憶手段に記憶する第1の記憶制御ステップと、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し最適音声単位系列を識別する最適音声単位系列識別ステップを含み、
音声合成部は、前記最適音声単位系列から調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成ステップと、前記最適調音特徴系列生成ステップにて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御ステップと、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換ステップと、前記音声合成パラメータ系列変換ステップにて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御ステップと、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成するステップとを含むことを特徴とする音声合成方法。 - 前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別ステップおよび前記音声合成部の最適調音特徴系列生成ステップにおいて参照可能であることを特徴とする請求項6記載の音声合成方法。
- 前記調音特徴抽出ステップは、音声のデジタル信号をフーリエ分析する分析フィルタと、時間軸微分特徴抽出ステップおよび周波数軸微分特徴抽出ステップを有する局所特徴抽出ステップと、多層ニューラルネットワークにより処理される弁別的音素特徴抽出ステップとを備えたことを特徴とする請求項6又は7に記載の音声合成方法。
- 前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声で適応学習して作成されることを特徴とする請求項6ないし8のいずれかに記載の音声合成方法。
- 前記音声合成パラメータと駆動音源信号から音声を合成するステップにおいて、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択するステップと、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録するステップを備えたことを特徴とする請求項6ないし9のいずれかに記載の音声合成方法。
- 請求項1ないし5のいずれかに記載の音声合成装置の各処理手段としてコンピュータを駆動させるための音声合成プログラム。
- 請求項6ないし10のいずれかに記載の音声合成方法の各処理ステップとしてコンピュータを駆動させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011503812A JP5574344B2 (ja) | 2009-03-09 | 2010-03-08 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009055784 | 2009-03-09 | ||
JP2009055784 | 2009-03-09 | ||
JP2011503812A JP5574344B2 (ja) | 2009-03-09 | 2010-03-08 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
PCT/JP2010/053802 WO2010104040A1 (ja) | 2009-03-09 | 2010-03-08 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010104040A1 true JPWO2010104040A1 (ja) | 2012-09-13 |
JP5574344B2 JP5574344B2 (ja) | 2014-08-20 |
Family
ID=42728329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011503812A Expired - Fee Related JP5574344B2 (ja) | 2009-03-09 | 2010-03-08 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5574344B2 (ja) |
WO (1) | WO2010104040A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
WO2020145472A1 (ko) * | 2019-01-11 | 2020-07-16 | 네이버 주식회사 | 화자 적응형 모델을 구현하고 합성 음성 신호를 생성하는 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 |
KR102479899B1 (ko) * | 2019-07-30 | 2022-12-21 | 주식회사 케이티 | 음성 합성 서비스를 제공하는 서버, 단말 및 방법 |
CN110751940B (zh) * | 2019-09-16 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 一种生成语音包的方法、装置、设备和计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066694A (ja) * | 1998-08-21 | 2000-03-03 | Sanyo Electric Co Ltd | 音声合成装置および音声合成方法 |
JP2002351791A (ja) * | 2001-05-30 | 2002-12-06 | Mitsubishi Electric Corp | 電子メール通信装置、電子メール通信方法および電子メール通信プログラム |
JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
-
2010
- 2010-03-08 JP JP2011503812A patent/JP5574344B2/ja not_active Expired - Fee Related
- 2010-03-08 WO PCT/JP2010/053802 patent/WO2010104040A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066694A (ja) * | 1998-08-21 | 2000-03-03 | Sanyo Electric Co Ltd | 音声合成装置および音声合成方法 |
JP2002351791A (ja) * | 2001-05-30 | 2002-12-06 | Mitsubishi Electric Corp | 電子メール通信装置、電子メール通信方法および電子メール通信プログラム |
JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
Non-Patent Citations (2)
Title |
---|
広井順他: ""HMMに基づいた極低ビットレート音声符号化"", 電子情報通信学会技術研究報告, vol. 98, no. 264, JPN6013037535, September 1998 (1998-09-01), pages 39 - 44, ISSN: 0002777588 * |
徳田恵一: ""隠れマルコフモデルの音声合成への応用"", 電子情報通信学会技術研究報告, vol. 99, no. 255, JPN6013037532, August 1999 (1999-08-01), pages 47 - 54, ISSN: 0002777587 * |
Also Published As
Publication number | Publication date |
---|---|
JP5574344B2 (ja) | 2014-08-20 |
WO2010104040A1 (ja) | 2010-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7500020B2 (ja) | 多言語テキスト音声合成方法 | |
Tokuda et al. | Speech synthesis based on hidden Markov models | |
US11990118B2 (en) | Text-to-speech (TTS) processing | |
US11410684B1 (en) | Text-to-speech (TTS) processing with transfer of vocal characteristics | |
Donovan | Trainable speech synthesis | |
Wu et al. | Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20100057435A1 (en) | System and method for speech-to-speech translation | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
Zhao et al. | Using phonetic posteriorgram based frame pairing for segmental accent conversion | |
Wu et al. | Deep speech synthesis from articulatory representations | |
JP5574344B2 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
Ipsic et al. | Croatian HMM-based speech synthesis | |
Sawada et al. | The nitech text-to-speech system for the blizzard challenge 2016 | |
Phan et al. | A study in vietnamese statistical parametric speech synthesis based on HMM | |
Lee et al. | A segmental speech coder based on a concatenative TTS | |
Zhang et al. | A prosodic mandarin text-to-speech system based on tacotron | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Ronanki et al. | The CSTR entry to the Blizzard Challenge 2017 | |
Huckvale | 14 An Introduction to Phonetic Technology | |
Qin et al. | An improved spectral and prosodic transformation method in STRAIGHT-based voice conversion | |
Cai et al. | The DKU Speech Synthesis System for 2019 Blizzard Challenge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
R155 | Notification before disposition of declining of application |
Free format text: JAPANESE INTERMEDIATE CODE: R155 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5574344 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |