JPWO2012063424A1 - 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム - Google Patents
特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム Download PDFInfo
- Publication number
- JPWO2012063424A1 JPWO2012063424A1 JP2012542797A JP2012542797A JPWO2012063424A1 JP WO2012063424 A1 JPWO2012063424 A1 JP WO2012063424A1 JP 2012542797 A JP2012542797 A JP 2012542797A JP 2012542797 A JP2012542797 A JP 2012542797A JP WO2012063424 A1 JPWO2012063424 A1 JP WO2012063424A1
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- spread
- series
- outline
- feature quantity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000012937 correction Methods 0.000 claims abstract description 166
- 230000008859 change Effects 0.000 claims abstract description 55
- 238000009826 distribution Methods 0.000 claims abstract description 30
- 239000006185 dispersion Substances 0.000 claims description 54
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
広がり度パラメータ補正手段501は、生成対象とされる信号の特徴量の系列である特徴量系列の概形を表す情報である概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す情報である広がり度パラメータとを入力する。広がり度パラメータ補正手段501は、概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する。特徴量系列生成手段502は、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成する。
Description
本発明は、信号の特徴量の系列である特徴量系列を生成する特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラムに関する。
近年、音声信号や、音楽信号、音響信号、画像信号、映像信号などの信号を生成する際に、信号の特徴量の系列を生成して、生成された系列に基づいて信号を生成する技術が注目されている。なお、信号は、時系列要素や座標系列要素などの順序要素を含む。隣接する順序要素は何らかの関係性(例えば、連続性など)を有する。
例えば、テキスト文を解析し、その文が示す音声情報に基づいて合成音声を生成する音声合成の分野では、音声認識分野で広く普及しているHMM(Hidden Markov Model :隠れマルコフモデル)を活用して、時系列で、ピッチ周波数(声の高さ)および音韻継続時間長(音の長さ)、ならびにスペクトルやケプストラムなどの特徴量を生成することによって、音声が合成される。同様に、音楽合成の分野でも、HMMを活用して、時系列で、音楽信号の基本周波数、音楽信号の継続時間長、およびスペクトルなどの特徴量を生成することによって、音楽信号が生成される。更に、画像合成の分野でも、多数の画像から抽出した統計量を基に、離散コサイン変換(DCT)係数の特徴量の系列を生成することによって、画像が生成される。
例えば、非特許文献1〜3には、音声合成分野において特徴量系列を生成する手法が記載されている。非特許文献1〜3に記載されている手法は、HMMの平均パラメータと分散パラメータとを記憶し、音声合成を行う際に、テキスト解析結果に基づいて、HMMの状態ごとに平均パラメータと分散パラメータを取得して特徴量系列を生成する。
例えば、特許文献1には、時系列のデータを出力するデータ出力装置が、推定された状態確率と状態が出力する代表的なデータとに基づいて、状態遷移確率モデルが出力する所定の間隔の時刻ごとのデータを求め、これを時系列のデータとして出力する旨が記載されている。また、特許文献1には、遷移確率の分散パラメータを調整することによってベクトル時系列の特性を変化させることができる旨が記載されている。
益子 貴史 他、「動的特徴を用いたHMMに基づく音声合成」、電子情報通信学会論文誌 D−II、Vol.J79−D−II、No.12、1996年12月、p.2128−2190
徳田 恵一、「HMMによる音声合成の基礎」、電子情報通信学会技術研究報告、Vol.100、No.392、2000年10月、p.43−50
H.Zen, et.al., "A Hidden Semi-Markov Model-Based Speech Synthesis System", IEICE Trans. INF.&SYST., Vol.E90-D, No.5, 2007, p.825-834
しかし、非特許文献1〜3に記載された手法は、次のような問題を有している。すなわち、平均パラメータを時系列に並べた際に、平均パラメータの時系列方向の変化量が大きい箇所において、分散パラメータが小さいと特徴量系列に不連続性が生ずる。不連続性に起因して、生成される信号の品質が大きく低下するという問題点がある。
例えば、分散パラメータの値を著しく大きい値に修正されれば、平均パラメータの差異が大きい箇所における特徴量の不連続性は解消する。しかし、分散パラメータを著しく大きくすると特徴量系列の全体的な形状が大きく乱れる。すなわち、特徴量系列の全体的な形状を乱さずに特徴量の不連続性の解消するために、分散パラメータが適切に補正されることが求められる。
なお、特許文献1には、遷移確率の分散パラメータを調整することによってベクトル時系列の特性を変化させることができる旨は記載されているが、何に着目してどのように調整するかなど具体的な方法は開示されていない。
本発明は、特徴量系列の全体的な形状を乱さず、特徴量の不連続性を解消して滑らかに変化する特徴量系列を生成できる特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラムを提供することを目的とする。
本発明による特徴量系列生成装置は、信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力し、概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する広がり度パラメータ補正手段と、概形パラメータと、広がり度パラメータ補正手段によって補正された広がり度パラメータとに基づいて、特徴量系列を生成する特徴量系列生成手段とを備えることを特徴とする。
本発明による特徴量系列生成方法は、
信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成することを特徴とする。
信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成することを特徴とする。
本発明による特徴量系列生成プログラムは、コンピュータに、特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正する処理、および概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成する処理を実行させることを特徴とする。
本発明によれば、概形パラメータの変化量に応じて広がり度パラメータが補正されるので、特徴量系列の全体的な形状を乱さず、滑らかに変化する特徴量系列が生成される。
実施形態1.
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図1に示す特徴量系列生成装置は、広がり度パラメータ補正部11と、特徴量系列生成部12とを備える。
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図1に示す特徴量系列生成装置は、広がり度パラメータ補正部11と、特徴量系列生成部12とを備える。
広がり度パラメータ補正部11は、広がり度パラメータ系列と概形パラメータ系列とを入力し、入力された広がり度パラメータ系列と概形パラメータ系列とに基づいて、広がり度パラメータを補正し、特徴量系列生成部12に供給(出力)する。
広がり度パラメータは、生成対象とされた信号の特徴量系列における、特徴量の分布の広がり度合いを表すパラメータである。広がり度パラメータ系列は、特徴量系列の系列に沿って並べられた広がり度パラメータ群である。概形パラメータは、該特徴量系列の大まかな形状である概形(より具体的には、特徴量系列が表すグラフの概形)を表すパラメータである。概形パラメータ系列は、該特徴量系列の系列に沿って並べられた概形パラメータ群である。
特徴量系列生成部12は、入力された概形パラメータ系列と、広がり度パラメータ補正部から出力された広がり度パラメータ系列とに基づいて、特徴量系列を生成する。
本実施形態において、広がり度パラメータ補正部11および特徴量系列生成部12は、例えば、プログラムに従って動作するCPU等の情報処理装置によって実現される。なお、各処理部(広がり度パラメータ補正部11、特徴量系列生成部12)は、1つのユニットによって実現されても別々のユニットによって実現されてもよい。
次に、本実施形態の動作を説明する。図2は、本実施形態の動作の一例を示すフローチャートである。図2に示す例では、まず、広がり度パラメータ補正部11が、入力された広がり度パラメータ系列と概形パラメータ系列とに基づいて、広がり度パラメータが補正されるべきである場合には、広がり度パラメータを補正する(ステップS101)。そして、広がり度パラメータ補正部11は、補正された広がり度パラメータ系列を、特徴量系列生成部12に出力する。
広がり度パラメータ補正部11は、基本的には、概形パラメータの系列方向の変化量を計算する。広がり度パラメータ補正部11は、さらに、変化量が大きい系列番号において、変化量の大きさに応じた広がり度パラメータの補正値を計算する。ただし、広がり度パラメータ補正部11は、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることが無い程度に広がり度パラメータが大きい場合には、補正を行わない。具体的には、広がり度パラメータ補正部11は、概形パラメータの系列方向の変化量に基づいて広がり度パラメータの仮補正値を計算し、計算した仮補正値と補正前の値とを比較して最終的な補正後の値を決定する。広がり度パラメータ補正部11は、仮補正値と補正前の広がり度パラメータの値(元の広がり度パラメータの値)とを比較する。広がり度パラメータ補正部11は、比較結果に基づいて、元々の広がり度パラメータが特徴量系列に不連続性を生じさせることが無い程度に大きいと判断した場合には補正を行わない。すなわち、広がり度パラメータ補正部11は、概形パラメータの変化量の計算と、広がり度パラメータの仮補正値の計算と、仮補正値と補正前の値との比較とを行うことによって、最終的な出力値を決定する。
広がり度パラメータ補正部11は、系列番号が隣接する概形パラメータ同士の差分や比率などを、概形パラメータの変化量とする。系列番号jの概形パラメータをμjとすると、系列jにおける変化量δjは、例えば、以下の式(1)で計算される。
なお、式(1)では比率が用いられている。変化量が大きくなるほどδjの値も大きくなる。比率を変化量とする方法の他、差分の絶対値や二乗誤差、対数誤差の絶対値などを変化量とする方法も有効である。また、式(1)では、状態jにおける変化量を計算するときに、系列番号jとj+1の概形パラメータが用いられるが、jとj−1の概形パラメータが用いられても同様の効果を得ることができる。また、隣接する系列番号を利用する方法だけでなく、未来の系列番号(j+1,j+2,j+3,・・・)や過去の系列番号(j−1,j−2,j−3,・・・)の中から複数の系列番号の概形パラメータを利用する方法も有効である。
なお、概形パラメータが複数の要素を含む構造体である場合などには、系列番号が隣接する概形パラメータにおける対応する要素毎に変化量を求めてもよい。
次に、広がり度パラメータ補正部11は、求めた変化量に基づいて、広がり度パラメータの仮補正値を計算する。広がり度パラメータ補正部11は、変化量が大きくなるほど仮補正値を大きくする。従って、一般には、広がり度パラメータ補正部11は、単調増加関数を用いて仮補正値を計算する。系列番号jの変化量δjとすると、系列番号jにおける仮補正値^σjは、例えば、以下の式(2)で計算される。ただし、a1,a2,b1,b2,b3は実定数で、0<a1<a2,0<b1<b2<b3を満足する。
また、以下の式(3)のような一次関数を用いる方法も有効である。
^σj=a・δj+b ・・・式(3)
なお、仮補正値を求めるために用いる実定数の値は、予め実際のデータを用いて調査する等によって、実際に適用する場面に応じて決定される。
最後に、広がり度パラメータ補正部11は、仮補正値と補正前の広がり度パラメータの値を比較する。広がり度パラメータ補正部11は、仮補正値と補正前の広がり度パラメータの値の差異が所定の閾値以上である場合には仮補正値を出力し、所定の閾値未満である場合には補正前の広がり度パラメータの値を出力する。以下、実際に補正が行われたか否かに関わらず、広がり度パラメータ補正部11から出力される広がり度パラメータを「補正後の広がり度パラメータ」と表現する場合がある。
仮補正値を^σj、補正前の広がり度パラメータをσjとすると、補正後の広がり度パラメータ−σjは以下の式(4)のように決定されてもよい。但し、α1は正の実数である。
なお、式(4)が用いられるときには、仮補正値と補正前の差分値が所定の閾値(α1)未満である場合に、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることがない程度に大きいと判断される。
また、差分を用いる方法の他、以下の式(5)に基づいて比率を評価して補正後の広がり度パラメータを決定する方法も有効である。ただし、α2は1.0よりも大きい実数である。
なお、式(5)が用いられるときには、補正前の広がり度パラメータの値に対する仮補正値の比率が所定の閾値(α2)未満である場合に、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることがない程度に大きいと判断される。
次に、特徴量系列生成部12は、入力された概形パラメータ系列と、広がり度パラメータ補正部から出力される広がり度パラメータ系列とを基に特徴量系列を生成する(ステップS102)。特徴量系列の生成方法は、特徴量系列と両パラメータ(概形パラメータおよび広がり度パラメータ)の関係に応じて異なる。以下に示す例は、最も代表的な方法の一つである平滑化により特徴量系列を生成する方法である。
図3は、概形パラメータおよび広がり度パラメータと生成される特徴量系列との関係の一例を模式的に示す説明図である。図3において、(A)には、概形パラメータ系列の一例が示されている。(B)には、広がり度パラメータを考慮せずに特徴量系列を生成した場合の特徴量系列の一例を示している。(A)および(B)に示された例では、概形パラメータが特徴量系列の5点を代表する値である。すなわち、系列番号jの概形パラメータは、時刻k−5,k−4,k−3,k−2,k−1の特徴量系列を代表する値である。系列番号j+1の概形パラメータは、時刻k,k+1,k+2,k+3,k+4の特徴量系列を代表する値である。このような仮定のもとで、(C)および(D)には、広がり度パラメータを考慮して特徴量系列が生成される例が示されている。なお、(C)には、広がり度パラメータが小さい場合に生成される特徴量系列の例が示され、(D)には、広がり度パラメータが大きい場合に生成される特徴量系列のが示されている。
図3における(C)に示す例では、広がり度パラメータが小さいので、変更対象となっている特徴量は、時刻k−1とkの特徴量に限定され、k−2からk+1にかけて線形補間するような値になる。一方、図3における(D)に示す例では、広がり度パラメータが大きいので、変更対象となっている特徴量は、時刻k−4からk+3の特徴量であり、k−5からk+4にかけて線形補間するような値になる。なお、図3に示された例では、広がり度パラメータは変更対象範囲に対応する。従って、広がり度パラメータの大きさの変化に応じて変更対象範囲が変わる。広がり度パラメータが小さい場合には変更対象範囲が狭いので、特徴量系列のグラフの形状が急峻に変化する。広がり度パラメータが大きい場合には変更対象範囲が広いので、特徴量系列のグラフの形状が緩やかに変化する。
以上のように、本実施形態の特徴量系列生成装置は、概形パラメータの系列番号方向の変化量を計算し、変化量が大きい系列番号に対して、その大きさに応じた広がり度パラメータの補正を行う。この結果、概形パラメータの変化量が大きい箇所における特徴量系列の不連続性が低減し、特徴量の不連続性が高い箇所が少なく、滑らかに変化する特徴量系列を生成することができる。
実施形態2.
次に、本発明の第2の実施形態を説明する。図4は、本発明の第2の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図4に示す特徴量系列生成装置は、図1に示す第1の実施形態に対して、言語処理部4と、状態継続長生成部21と、ピッチモデルパラメータ選択部31と、モデルパラメータ記憶部32とが加えられた装置である。また、広がり度パラメータ補正部11および特徴量系列生成部12に代えて、広がり度パラメータ補正部111および特徴量系列生成部121を備える。
次に、本発明の第2の実施形態を説明する。図4は、本発明の第2の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図4に示す特徴量系列生成装置は、図1に示す第1の実施形態に対して、言語処理部4と、状態継続長生成部21と、ピッチモデルパラメータ選択部31と、モデルパラメータ記憶部32とが加えられた装置である。また、広がり度パラメータ補正部11および特徴量系列生成部12に代えて、広がり度パラメータ補正部111および特徴量系列生成部121を備える。
本実施形態の特徴量系列生成装置は、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する。
ピッチモデルパラメータ記憶部32は、HMMを用いてモデル化した音声のピッチ周波数の情報をHMMのパラメータの形式で記憶する。以下、ピッチ周波数に関するHMMのパラメータをピッチモデルパラメータと呼ぶ。
図5は、音声のピッチ周波数の情報がモデル化されたHMMの例を示す説明図である。図5に示すように、本実施形態では、HMMは、出力ベクトルを出力する確率分布がbj(ot)であるような信号源(状態)が、状態遷移確率aij=P(qt=j|qt−1=i)をもって接続されたモデルとして定義される。但し、i,jは状態番号である。出力ベクトルotは、ケプストラムや線形予測係数などの音声の短時間的なスペクトルや、音声のピッチ周波数などを表現するパラメータである。すなわち、HMMは、時間方向とパラメータ方向の変動が統計的にモデル化されたものである。一般に、HMMは、様々な要因で変動する音声をパラメータ系列の表現とすることに適していることが知られている。
ピッチモデルパラメータは、HMMにおける定義では出力確率分布を特徴づけるパラメータに相当する。HMMの出力確率分布は、ガウス分布で定義されることが多い。ガウス分布は平均と分散の二種類の統計量で特徴づけられるので、以下、ピッチモデルパラメータを具体的にガウス分布の平均と分散と仮定する。なお、平均と分散で特徴づけられる確率分布であれば、ガウス分布以外のどのような確率分布が用いられてもよい。
ピッチモデルパラメータのうちの平均パラメータは、音声合成時において、合成音声のピッチパタンの枠組みを概形的に特徴づける値として利用される。すなわち、平均パラメータを、本発明における「概形パラメータ」の一例とみなすことができる。本実施形態では、概形パラメータの具体例として、HMMの出力確率分布の平均を示す平均パラメータが用いられる。しかし、平均パラメータの他、中央値や最頻値、最大・最小値などの統計量を用いることも可能である。
また、ピッチモデルパラメータのうちの分散パラメータは、音声合成時において、合成音声のピッチ周波数の分布の広がり度を示す値として利用される。すなわち、分散パラメータを、本発明における「広がり度パラメータ」の一例とみなすことができる。例えば、ある区間における分散パラメータの値が小さければ、その区間のピッチ周波数は平均パラメータ(概形パラメータ)に近い値となるので、ピッチパタンは直線的な形状になる。分散パラメータの値がゼロであれば、その区間のピッチ周波数は常に平均パラメータの値に一致するので、ピッチパタンは直線になる。本実施形態では、広がり度パラメータの具体例として、HMMの出力確率分布の分散を示す分散パラメータが用いられる。しかし、分散以外でを用いてもよい。例えば、分散以外の広がり度パラメータとして、標準偏差を用いることも可能である。
なお、ピッチモデルパラメータに限らずHMMのパラメータは、学習処理により求められる。学習には、音声データとその音素ラベル及び言語情報が利用される。HMMのモデルパラメータの学習手法は公知の技術であるため説明を省略する。
言語処理部4は、テキスト(文字列情報)を入力し、入力したテキストに対して、形態素解析、構文解析、読み付け等の分析を行い、少なくとも音節記号や音素記号などの「読み」を表す情報を含む言語情報を生成して、状態継続長生成部21とピッチモデルパラメータ選択部31に出力する。なお、言語情報には、読みを表す情報の他、形態素の品詞、活用、アクセント型、アクセント位置、アクセント句区切り等を表す情報など、テキストが表す音声に関するいずれの情報が含められてもよい。
状態継続長生成部21は、言語処理部4から出力された言語情報に基づいてHMMの状態継続長を生成し、特徴量系列生成部121に出力する。HMMでモデル化された音声は、音素毎に複数の「状態」を有すると仮定される。状態数は全ての音素に対して同一の値で定義される。状態継続長は、各音素に属する状態それぞれに滞留する回数に相当する。従って、ある音素の時間長は、その音素に属する状態の継続長の総和に相当する。
ピッチモデルパラメータ選択部31は、言語処理部4から出力された言語情報に基づいて、最適なピッチモデルパラメータをピッチモデルパラメータ記憶部32から取得する。そして、ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの平均パラメータを広がり度パラメータ補正部111と特徴量系列生成部121に出力する。また、ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの分散パラメータを広がり度パラメータ補正部111に出力する。
広がり度パラメータ補正部111は、ピッチモデルパラメータ選択部31から出力される平均パラメータと分散パラメータとに基づいて、分散パラメータを補正し、補正された分散パラメータを特徴量系列生成部121に出力する。
特徴量系列生成部121は、状態継続長生成部21から出力される状態継続長と、ピッチモデルパラメータ選択部31から出力される平均パラメータと、広がり度パラメータ補正部111から出力される補正後の分散パラメータとに基づいて、ピッチパタンを生成する。
本実施形態において、言語処理部4、状態継続長生成部21、ピッチモデルパラメータ選択部31、広がり度パラメータ補正部111および特徴量系列生成部121は、例えば、プログラムに従って動作するCPU等の情報処理装置によって実現される。また、ピッチモデルパラメータ記憶部32は、例えば、メモリやデータベースシステム等の記憶装置によって実現される。なお、各処理部(言語処理部4、状態継続長生成部21、ピッチモデルパラメータ選択部31、広がり度パラメータ補正部111、特徴量系列生成部121)は、1つのユニットによって実現されても別々のユニットによって実現されてもよい。また、例えば、言語処理部4、状態継続長生成部21、ピッチモデルパラメータ選択部31として外部の装置を利用することも可能である。そのような場合には、各処理部は必要な情報をネットワークを介して取得すればよい。
次に、本実施形態の動作を説明する。図6は、本実施形態の動作の一例を示すフローチャートである。図6に示す例では、まず、言語処理部4が、入力されたテキスト(文字列情報)に対して、形態素解析、構文解析、及び、読み付け等の分析を行う。言語処理部4は、音節記号や音素記号などの「読み」を表す情報と、形態素の品詞、活用、アクセント型、アクセント位置、アクセント句区切り等を表す情報とを言語情報として、状態継続長生成部21とピッチモデルパラメータ選択部31とに出力する(ステップS201)。なお、アクセント情報や形態素情報の有無およびデータ形式は、言語情報を利用する状態継続長生成部21とピッチモデルパラメータ選択部31の実現形態に応じて定められる。
次に、状態継続長生成部21は、言語処理部4から出力される言語情報に基づいてHMMの状態継続長を生成する(ステップS202)。状態継続長生成部21は、生成した状態継続長を特徴量系列生成部121に出力する。
例えば、状態数が3状態であり、音素aの状態1〜3までの継続長がd1,d2,d3であった場合、音素aの継続時間長はd1+d2+d3で与えられる。この例のd1,d2,d3を求める処理を状態継続長生成部21が行う。
ある音素に属する各状態の継続長は、その音素(以下、「該当音素」と呼ぶ。)の前後に存在する音素(以下、前に存在する音素を「先行音素」と呼び、後に存在する音素を「後続音素」と呼ぶ。)や、該当音素のアクセント句内でのモーラ位置、先行・該当・後続音素が属するアクセント句のモーラ長やアクセント型、該当音素が属するアクセント句の位置、等々の「コンテキスト」と呼ばれる情報に基づいて決定される。
例えば、図7に示すようなコンテキストと状態継続長の対応関係を保持したテーブルを予め用意しておいてもよい。そのような場合には、状態継続長生成部21は、このテーブルを参照して、言語情報によって示されるコンテキストから対応する状態継続長を得る。なお、各状態の継続長の具体的な生成方法として、例えば非特許文献1〜3に記載されている方法を用いてもよい。例えば、非特許文献2に記載されている方法を用いる場合には、状態継続長生成部21は、以下の式(6)を用いて、各状態の継続長を算出すればよい。なお、本例ではρ=0と想定する。
di=mi+ρ・σi 2 ・・・式(6)
なお、式(6)において、mi、σi 2は、それぞれ状態iに関するガウス分布の平均と分散である。
ピッチモデルパラメータ選択部31は、言語処理部4から出力される言語情報を参照して、該言語情報に最も適したピッチモデルパラメータをピッチモデルパラメータ記憶部32から取得する(ステップS203)。ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの平均パラメータを広がり度パラメータ補正部111と特徴量系列生成部121に出力する。ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの分散パラメータを広がり度パラメータ補正部111に出力する。
ピッチモデルパラメータ選択部31は、具体的には、コンテキストと呼ばれる言語情報から一意に定まるモデルパラメータを選択する。例えば、図8に示すようなコンテキストとパラメータとを1対1に対応づけたテーブルを参照して、言語情報によって示されるコンテキストに対応づけられているパラメータを読み出す。その場合、モデルパラメータ記憶部32は、図8に示すような形式でピッチモデルパラメータを記憶する。コンテキストとピッチモデルパラメータとの対応づけは、例えば、アクセント句先頭かアクセント句終端か、またそのアクセント句が3モーラ1型か4モーラ2型かといった区分けに基づいて行われる。
広がり度パラメータ補正部111は、ピッチモデルパラメータ選択部31から出力される平均パラメータと分散パラメータとに基づいて、分散パラメータが補正されるべきである場合には、分散パラメータを補正する(ステップS204)。広がり度パラメータ補正部111は、補正後の分散パラメータを特徴量系列生成部121に出力する。なお、分散パラメータの補正方法として、第1の実施形態における広がり度パラメータ補正部11が使用する方法と同様の方法を用いればよい。
特徴量系列生成部121は、状態継続長生成部21から出力される状態継続長と、ピッチモデルパラメータ選択部31から出力される平均パラメータと、広がり度パラメータ補正部111から出力される補正後の分散パラメータとに基づいて、ピッチパタンを生成する(ステップS205)。ピッチパタンの生成方法として、例えば、非特許文献1〜2に記載されている方法を用いることができる。
例えば、非特許文献2に記載されている方法を用いる場合には、特徴量系列生成部121は、特徴量系列(ピッチパタン)Cを、以下の線形方程式(7)を解くことによって算出する。
WTU−1WC=WTU−1MT ・・・式(7)
ただし、
C:=[c1,c2,・・・,cT]T ,
M:=[μq1’,μq2’,・・・,μqT’]T ,
U:=diag[Uq1,Uq2,・・・,UqT]T ,
W:=[w1,w2,・・・,wT]T ,
wt:=[wt (0),wt (1),wt (2)]=[1,Δ,Δ2]
ただし、
C:=[c1,c2,・・・,cT]T ,
M:=[μq1’,μq2’,・・・,μqT’]T ,
U:=diag[Uq1,Uq2,・・・,UqT]T ,
W:=[w1,w2,・・・,wT]T ,
wt:=[wt (0),wt (1),wt (2)]=[1,Δ,Δ2]
ここで、ctは、算出対象の特徴量である。μqt’およびUqtは、状態qtにおける平均パラメータおよび分散パラメータである。[wt (0),wt (1),wt (2)]は、静的、1次動的、2次動的特徴量を求める際に用いた窓関数の係数である。また、Tは、総フレーム数を表す。なお、状態qtは状態継続長が定まれば一意に決定される。なぜなら、状態継続長が状態qtが継続する回数を表しているからである。例えば、状態S1,S2,S3のそれぞれの状態継続長が3回、2回、4回であった場合、状態qt(t=1〜9)は、q1=S1,q2=S1,q3=S1,q4=S2,q5=S2,q6=S3,q7=S3,q8=S3,q9=S3となる。また、diag[a,b,c]は、対角成分にa,b,cを有する対角行列である。
以上のように、本実施形態の特徴量系列生成装置は、ピッチ周波数の情報が表されたHMMモデルパラメータであるピッチモデルパラメータの平均パラメータの状態方向の変化量を状態毎に計算する。特徴量系列生成装置は、変化量が大きい状態に対して、変化量の大きさに応じた同ピッチモデルパラメータの分散パラメータの補正を行う。この結果、平均パラメータの変化量が大きい箇所におけるピッチパタンの不連続性が低減し、自然性が高く、滑らかなピッチパタンが生成される。
実施形態3.
次に、本発明の第3の実施形態を説明する。本実施形態では、分散パラメータの補正処理において、さらに状態継続長と言語情報とが利用される。図9は、本発明の第3の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図9に示す特徴量系列生成装置は、図4に示す第2の実施形態における広がり度パラメータ補正部111に代えて、広がり度パラメータ補正部112を備える。
次に、本発明の第3の実施形態を説明する。本実施形態では、分散パラメータの補正処理において、さらに状態継続長と言語情報とが利用される。図9は、本発明の第3の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図9に示す特徴量系列生成装置は、図4に示す第2の実施形態における広がり度パラメータ補正部111に代えて、広がり度パラメータ補正部112を備える。
広がり度パラメータ補正部112は、ピッチモデルパラメータ選択部31が取得したピッチモデルパラメータのうちの平均パラメータと分散パラメータを入力する。広がり度パラメータ補正部112は、言語処理部4が生成した言語情報を入力する。広がり度パラメータ補正部112は、状態継続長生成部21が生成した状態継続長情報を入力する。広がり度パラメータ補正部112は、入力した平均パラメータと分散パラメータと言語情報と状態継続長情報とに基づいて、分散パラメータを補正する。
本実施形態では、言語処理部4は、入力されたテキストに対して行った分析の結果得られた言語情報を、広がり度パラメータ補正部112にも出力する。また、状態継続長生成部21は、言語処理部4から供給された言語情報に基づいて生成したHMMの状態継続長を、広がり度パラメータ補正部112にも出力する。また、ピッチモデルパラメータ選択部31は、ピッチモデルパラメータ記憶部32から取得したピッチモデルパラメータ(ここでは、平均パラメータと分散パラメータ)を、広がり度パラメータ補正部112にも出力する。
広がり度パラメータ補正部112は、基本的には、第2の実施形態と同様に平均パラメータの変更量を求めて、その大きさに応じて分散パラメータを補正する。しかし、本実施形態では、広がり度パラメータ補正部112は、さらに言語情報と状態継続長情報とを利用して補正の調整および修正を行う。
具体的には、広がり度パラメータ補正部112は、状態継続長情報に基づいて、優先して、状態継続長が短い箇所の分散パラメータの補正を行う。広がり度パラメータ補正部112は、平均パラメータの変更量を計算した後に、状態継続長を参照して変更量を修正する。例えば、広がり度パラメータ補正部112は、状態jとj+1の平均パラメータの変更量をδj,δj+1とし、状態継続長をdj,dj+1とすると、dj>dj+1かつδj>δj+1であれば、修正後の変更量δ’j,δ’j+1を以下の式(8)のように規定する。
δ’j=0, δ’j+1=δj ・・・式(8)
第2の実施形態では、状態jとj+1の境界においてピッチの不連続性を解消するときは、広がり度パラメータ補正部111は、状態jの分散パラメータを補正する。しかし、状態jではなく状態j+1の分散パラメータを補正しても状態jとj+1の境界の不連続性を解消することが可能である。すなわち、状態jとj+1の境界において不連続性を解消するときに、状態j又はj+1のどちらの分散パラメータを補正してもよい。
そこで本実施形態では、式(8)に示すように、状態継続長が短いほうの状態の分散パラメータが補正対象とされる。すなわち、広がり度パラメータ補正部112は、状態継続長が短いほうの補正量を大きくする。換言すると、広がり度パラメータ補正部112は、状態継続長の長い箇所の補正量を優先して小さくする。これによって、ピッチパタン全体の分散パラメータの補正量を少なくすることができる。
分散パラメータの補正は、補正対象区間のピッチパタンの変動を大きくし、合成音声のピッチパタンの乱れを生じさせやすい。しかし、本実施形態では、平均パラメータの変更量を修正するので、第2の実施形態と比べて、ピッチパタンの乱れをより低減することができる。
また、広がり度パラメータ補正部112は、言語情報に基づいて、分散パラメータの補正を調整する。広がり度パラメータ補正部112は、言語情報を参照して、分散パラメータの補正の調整が必要となる状態を特定する。例えば、言語情報から音素種別やアクセント句境界付近か否かの情報などを得て、ピッチが急変しやすいアクセント句境界付近や有声破裂音区間に属する状態を、補正の調整対象として特定する。次に、広がり度パラメータ補正部112は、特定された状態に対して、分散パラメータの補正度を調整する。より具体的には、広がり度パラメータ補正部112は、仮補正値の計算方法および計算に用いるパラメータを、通常用いる方法および値から変更する。例えば、広がり度パラメータ補正部112は、ピッチが急変しやすいアクセント句境界付近または有声破裂音区間に属する状態では、通常よりも補正度を小さくする。すなわち、広がり度パラメータ補正部112は、補正量を小さくする、または補正するか否かの判定基準を低くする(閾値を小さくする)。
例えば、仮補正値^σjの計算に以下の式(9)のような一次関数を用いる場合には、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータa,bを次のように変更する。なお、式(8)において、δjは状態jの変化量である。
^σj=a・δj+b ・・・式(9)
すなわち、通常のパラメータをa=a1,b=b1とすると、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータa=a2,b=b2を、0<a2<a1,0<b2<b1を満足する値に変更する。
広がり度パラメータ補正部112は、仮補正値を採用するか否かの判断に用いる閾値を変更してもよい。例えば、仮補正値を^σj、補正前の分散パラメータをσjとし、補正後の広がり度パラメータ−σjを次のような式(10)のような方法で決定する場合には、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータαを次のように変更する。
すなわち、通常のパラメータをα=α1とすると、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータα=α2を、α1<α2を満足する値に変更する。
このように、言語情報に基づいて分散パラメータの補正度が調整されれば、ピッチが急変しやすい状態において分散パラメータの補正量を抑えるなど、本来ならば不要な不連続性解消のためのパラメータ補正を回避できる。すなわち、第3の実施形態では、第2の実施形態と比べてピッチパタンの乱れをより低減することができる。
以上のように、本実施形態の特徴量系列生成装置は、状態継続長情報や言語情報を利用することによって、過剰な分散パラメータ補正を回避することができる。その結果、ピッチパタンの乱れを小さくすることが可能となる。従って、第2の実施形態と比べて、より自然性が高いピッチパタンが生成される。
なお、言語情報に基づく補正の調整および修正と、状態継続長情報に基づく補正の調整および修正とを選択的に行えるように、各処理の実行の有無を設定可能にしてもよい。
また、本発明は、上述の各実施形態で説明した特徴量系列生成装置に限定されない。その構成および動作は、本発明の趣旨を逸脱しない範囲で適宜に変更することが可能である。
以下、本発明の概要について説明する。図10は、本発明の概要を示すブロック図である。図10に示す特徴量系列生成装置500は、生成対象とされる信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力する。特徴量系列生成装置500は、広がり度パラメータ補正手段501と、特徴量系列生成手段502とを備えている。
広がり度パラメータ補正手段501(例えば、広がり度パラメータ補正部11)は、入力された概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する。
特徴量系列生成手段502(例えば、特徴量系列生成部12)は、入力された概形パラメータと、広がり度パラメータ補正手段501によって補正された広がり度パラメータとに基づいて、特徴量系列を生成する。
広がり度パラメータ補正手段502は、概形パラメータの系列によって示される概形パラメータの変化量が大きいほど、系列における概形パラメータの位置(変化量が大きい位置)に対応する箇所の広がり度パラメータの値が大きくなるように広がり度パラメータを補正してもよい。
広がり度パラメータ補正手段502は、概形パラメータの系列によって示される概形パラメータの変化量に基づいて広がり度パラメータの仮補正値を求め、系列における仮補正値が求められた概形パラメータの位置に対応する箇所の補正前の広がり度パラメータ(元の広がり度パラメータ)と、求めた仮補正値とに基づいて補正後の広がり度パラメータを決定してもよい。
また、広がり度パラメータ補正手段503は、仮補正値と元の広がり度パラメータの値との差分値が所定の閾値未満である場合、または元の広がり度パラメータの値に対する仮補正値の比率が所定の閾値未満である場合には、広がり度パラメータを補正せず、入力された広がり度パラメータをそのまま広がり度パラメータとして出力してもよい。
また、図11は、本発明による特徴量系列生成装置500の他の例を示すブロック図である。図11に示すように、特徴量系列生成装置500は、さらに各音素の時間長を表すHMMの状態継続長や音声の言語情報を入力し、それらの情報を利用して、広がり度パラメータの補正量の調整などをしてもよい。
概形パラメータとして、特徴量の情報をモデル化したHMMのパラメータのうちの出力確率分布の平均、中央値、最頻値、最大値または最小値の統計量を示すパラメータが用いられ、広がり度パラメータとして、HMMのパラメータのうちの出力確率分布の分散を示すパラメータが用いられる場合には、広がり度パラメータ補正手段502は、HMMの状態継続長に基づいて、補正対象の分散パラメータのうち状態継続長が短い方の分散パラメータの補正を優先して行うことが好ましい。
特徴量系列生成装置500が、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、概形パラメータはピッチパタンの概形を表し、広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、各音素の時間長を表す情報を入力する場合には、広がり度パラメータ補正手段502は、概形パラメータと、各音素の時間長に基づいて、補正対象の広がり度パラメータのうち時間長が短い方の広がり度パラメータの補正を優先して行うことが好ましい。
特徴量系列生成装置500が、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、概形パラメータはピッチパタンの概形を表し、広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、各音素の時間長を表す情報を入力する場合には、広がり度パラメータ補正手段502は、音声の言語情報に基づいて、ピッチが急変しやすい箇所の広がり度パラメータの補正度をその他の箇所における基準よりも小さくしてもよい。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年11月8日に出願された日本特許出願2010−249604を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、信号の特徴量系列を生成するための用途に限らず、既にある特徴量系列を評価したり、調整するために概形パラメータと広がり度パラメータとを必要とする装置などにも好適に適用可能である。
4 言語処理部
11、111、112 広がり度パラメータ補正部
12、121 特徴量系列生成部
21 状態長生成部
31 ピッチパラメータ選択部
32 モデルパラメータ記憶部
11、111、112 広がり度パラメータ補正部
12、121 特徴量系列生成部
21 状態長生成部
31 ピッチパラメータ選択部
32 モデルパラメータ記憶部
Claims (9)
- 信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力し、
前記概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記広がり度パラメータを補正する広がり度パラメータ補正手段と、
前記概形パラメータと、前記広がり度パラメータ補正手段によって補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する特徴量系列生成手段とを備える
ことを特徴とする特徴量系列生成装置。 - 前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量が大きいほど、前記広がり度パラメータの値が大きくなるように補正する
請求項1に記載の特徴量系列生成装置。 - 前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量に基づいて仮補正値を求め、元の広がり度パラメータと前記仮補正値とに基づいて補正された広がり度パラメータを決定する
請求項1または請求項2に記載の特徴量系列生成装置。 - 前記広がり度パラメータ補正手段は、前記仮補正値と元の広がり度パラメータの値との差分値が所定の閾値未満である場合、または元の前記広がり度パラメータの値に対する前記仮補正値の比率が所定の閾値未満である場合には、当該広がり度パラメータを補正せずに出力する
請求項3に記載の特徴量系列生成装置。 - 前記概形パラメータは、特徴量の情報をモデル化したHMMのパラメータのうちの出力確率分布の平均、中央値、最頻値、最大値または最小値のいずれかの統計量を示すパラメータであり、前記広がり度パラメータは、前記HMMのパラメータのうちの出力確率分布の分散を示す分散パラメータであり、
前記広がり度パラメータ補正手段は、前記HMMの状態継続長に基づいて、補正対象の分散パラメータのうち前記状態継続長が短い方の前記分散パラメータの補正を優先して行う
請求項1から請求項4のうちのいずれか1項に記載の特徴量系列生成装置。 - 前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
各音素の時間長を表す情報を入力し、
前記広がり度パラメータ補正手段は、前記概形パラメータと、前記各音素の時間長に基づいて、補正対象の前記広がり度パラメータのうち前記時間長が短い方の前記広がり度パラメータの補正を優先して行う
請求項1から請求項5のうちのいずれか1項に記載の特徴量系列生成装置。 - 前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
前記音声の言語情報を入力し、
前記広がり度パラメータ補正手段は、前記音声の言語情報に基づいて、ピッチが急変しやすい箇所の広がり度パラメータの補正度をその他の箇所における基準よりも小さくする
請求項1から請求項6のうちのいずれか1項に記載の特徴量系列生成装置。 - 信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、
前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する
ことを特徴とする特徴量系列生成方法。 - コンピュータに、
特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正する処理、および
前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する処理
を実行させるための特徴量系列生成プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010249604 | 2010-11-08 | ||
JP2010249604 | 2010-11-08 | ||
PCT/JP2011/006032 WO2012063424A1 (ja) | 2010-11-08 | 2011-10-28 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2012063424A1 true JPWO2012063424A1 (ja) | 2014-05-12 |
Family
ID=46050593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012542797A Pending JPWO2012063424A1 (ja) | 2010-11-08 | 2011-10-28 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9299338B2 (ja) |
JP (1) | JPWO2012063424A1 (ja) |
WO (1) | WO2012063424A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012032748A1 (ja) * | 2010-09-06 | 2012-03-15 | 日本電気株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
WO2013014858A1 (ja) * | 2011-07-25 | 2013-01-31 | 日本電気株式会社 | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム |
JP6519096B2 (ja) * | 2014-02-14 | 2019-05-29 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
WO2016042659A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JP6464650B2 (ja) * | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
JP7348027B2 (ja) * | 2019-10-28 | 2023-09-20 | 株式会社日立製作所 | 対話システム、対話プログラムおよび対話システムの制御方法 |
EP3823306B1 (en) | 2019-11-15 | 2022-08-24 | Sivantos Pte. Ltd. | A hearing system comprising a hearing instrument and a method for operating the hearing instrument |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271185A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2007011203A (ja) * | 2005-07-04 | 2007-01-18 | Sony Corp | データ出力装置、データ出力方法、およびプログラム |
JP2007279349A (ja) * | 2006-04-06 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69022237T2 (de) * | 1990-10-16 | 1996-05-02 | Ibm | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. |
US5369727A (en) * | 1991-05-16 | 1994-11-29 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition with correlation of similarities |
DE19546168C1 (de) * | 1995-12-11 | 1997-02-20 | Siemens Ag | Digitale Signalprozessor-Anordnung zum Vergleich von Merkmalsvektoren und deren Verwendung sowie zugehöriges Betriebsverfahren |
US5822729A (en) * | 1996-06-05 | 1998-10-13 | Massachusetts Institute Of Technology | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors |
-
2011
- 2011-10-28 JP JP2012542797A patent/JPWO2012063424A1/ja active Pending
- 2011-10-28 US US13/880,630 patent/US9299338B2/en not_active Expired - Fee Related
- 2011-10-28 WO PCT/JP2011/006032 patent/WO2012063424A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271185A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2007011203A (ja) * | 2005-07-04 | 2007-01-18 | Sony Corp | データ出力装置、データ出力方法、およびプログラム |
JP2007279349A (ja) * | 2006-04-06 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2012063424A1 (ja) | 2012-05-18 |
US20130211839A1 (en) | 2013-08-15 |
US9299338B2 (en) | 2016-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2012063424A1 (ja) | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム | |
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
US9905219B2 (en) | Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature | |
JP2006330200A (ja) | ピッチパターン生成方法及びその装置 | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2010237323A (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
WO2010119534A1 (ja) | 音声合成装置、方法およびプログラム | |
US8630857B2 (en) | Speech synthesizing apparatus, method, and program | |
JP5025550B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
US20010032079A1 (en) | Speech signal processing apparatus and method, and storage medium | |
JP4945465B2 (ja) | 音声情報処理装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2012058343A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2006276493A (ja) | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
CN108288464B (zh) | 一种修正合成音中错误声调的方法 | |
JP2004226505A (ja) | ピッチパタン生成方法、音声合成方法とシステム及びプログラム | |
WO2013011634A1 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP4417892B2 (ja) | 音声情報処理装置、音声情報処理方法および音声情報処理プログラム | |
JP4034751B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2013003470A (ja) | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ | |
JP5999092B2 (ja) | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム | |
JP2001282273A (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP2004054063A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151104 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160308 |