WO2012063424A1

WO2012063424A1 - 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム

Info

Publication number: WO2012063424A1
Application number: PCT/JP2011/006032
Authority: WO
Inventors: 正徳加藤
Original assignee: 日本電気株式会社
Priority date: 2010-11-08
Filing date: 2011-10-28
Publication date: 2012-05-18
Also published as: US20130211839A1; US9299338B2; JPWO2012063424A1

Abstract

　広がり度パラメータ補正手段５０１は、生成対象とされる信号の特徴量の系列である特徴量系列の概形を表す情報である概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す情報である広がり度パラメータとを入力する。広がり度パラメータ補正手段５０１は、概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する。特徴量系列生成手段５０２は、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成する。

Description

特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム

　本発明は、信号の特徴量の系列である特徴量系列を生成する特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラムに関する。

　近年、音声信号や、音楽信号、音響信号、画像信号、映像信号などの信号を生成する際に、信号の特徴量の系列を生成して、生成された系列に基づいて信号を生成する技術が注目されている。なお、信号は、時系列要素や座標系列要素などの順序要素を含む。隣接する順序要素は何らかの関係性（例えば、連続性など）を有する。

　例えば、テキスト文を解析し、その文が示す音声情報に基づいて合成音声を生成する音声合成の分野では、音声認識分野で広く普及しているＨＭＭ（Hidden Markov Model ：隠れマルコフモデル）を活用して、時系列で、ピッチ周波数（声の高さ）および音韻継続時間長（音の長さ）、ならびにスペクトルやケプストラムなどの特徴量を生成することによって、音声が合成される。同様に、音楽合成の分野でも、ＨＭＭを活用して、時系列で、音楽信号の基本周波数、音楽信号の継続時間長、およびスペクトルなどの特徴量を生成することによって、音楽信号が生成される。更に、画像合成の分野でも、多数の画像から抽出した統計量を基に、離散コサイン変換（ＤＣＴ）係数の特徴量の系列を生成することによって、画像が生成される。

　例えば、非特許文献１～３には、音声合成分野において特徴量系列を生成する手法が記載されている。非特許文献１～３に記載されている手法は、ＨＭＭの平均パラメータと分散パラメータとを記憶し、音声合成を行う際に、テキスト解析結果に基づいて、ＨＭＭの状態ごとに平均パラメータと分散パラメータを取得して特徴量系列を生成する。

　例えば、特許文献１には、時系列のデータを出力するデータ出力装置が、推定された状態確率と状態が出力する代表的なデータとに基づいて、状態遷移確率モデルが出力する所定の間隔の時刻ごとのデータを求め、これを時系列のデータとして出力する旨が記載されている。また、特許文献１には、遷移確率の分散パラメータを調整することによってベクトル時系列の特性を変化させることができる旨が記載されている。

特開２００７－１１２０３号公報（段落［０１９２］－［０１９４］）

益子　貴史　他、「動的特徴を用いたＨＭＭに基づく音声合成」、電子情報通信学会論文誌　Ｄ－ＩＩ、Ｖｏｌ．Ｊ７９－Ｄ－ＩＩ、Ｎｏ．１２、１９９６年１２月、ｐ．２１２８－２１９０徳田　恵一、「HMMによる音声合成の基礎」、電子情報通信学会技術研究報告、Ｖｏｌ．１００、Ｎｏ．３９２、２０００年１０月、ｐ．４３－５０ H.Zen, et.al., "A Hidden Semi-Markov Model-Based Speech Synthesis System", IEICE Trans. INF.&SYST., Vol.E90-D, No.5, 2007, p.825-834

　しかし、非特許文献１～３に記載された手法は、次のような問題を有している。すなわち、平均パラメータを時系列に並べた際に、平均パラメータの時系列方向の変化量が大きい箇所において、分散パラメータが小さいと特徴量系列に不連続性が生ずる。不連続性に起因して、生成される信号の品質が大きく低下するという問題点がある。

　例えば、分散パラメータの値を著しく大きい値に修正されれば、平均パラメータの差異が大きい箇所における特徴量の不連続性は解消する。しかし、分散パラメータを著しく大きくすると特徴量系列の全体的な形状が大きく乱れる。すなわち、特徴量系列の全体的な形状を乱さずに特徴量の不連続性の解消するために、分散パラメータが適切に補正されることが求められる。

　なお、特許文献１には、遷移確率の分散パラメータを調整することによってベクトル時系列の特性を変化させることができる旨は記載されているが、何に着目してどのように調整するかなど具体的な方法は開示されていない。

　本発明は、特徴量系列の全体的な形状を乱さず、特徴量の不連続性を解消して滑らかに変化する特徴量系列を生成できる特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラムを提供することを目的とする。

　本発明による特徴量系列生成装置は、信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力し、概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する広がり度パラメータ補正手段と、概形パラメータと、広がり度パラメータ補正手段によって補正された広がり度パラメータとに基づいて、特徴量系列を生成する特徴量系列生成手段とを備えることを特徴とする。

　本発明による特徴量系列生成方法は、
信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成することを特徴とする。

　本発明による特徴量系列生成プログラムは、コンピュータに、特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正する処理、および概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成する処理を実行させることを特徴とする。

　本発明によれば、概形パラメータの変化量に応じて広がり度パラメータが補正されるので、特徴量系列の全体的な形状を乱さず、滑らかに変化する特徴量系列が生成される。

第１の実施形態の特徴量系列生成装置の構成例を示すブロック図である。第１の実施形態の動作の一例を示すフローチャートである。概形パラメータおよび広がり度パラメータと生成される特徴量系列との関係の一例を模式的に示す説明図である。第２の実施形態の特徴量系列生成装置の構成例を示すブロック図である。音声のピッチ周波数の情報がモデル化されたＨＭＭの例を示す説明図である。第２の実施形態の動作の一例を示すフローチャートである。コンテキストと状態継続長の対応関係を保持するテーブルの例を示す説明図である。コンテキストとモデルパラメータの対応関係を保持するテーブルの例を示す説明図である。第３の実施形態の特徴量系列生成装置の構成例を示すブロック図である。本発明の特徴量系列生成装置の概要を示すブロック図である。本発明の特徴量系列生成装置の他の例を示すブロック図である。

実施形態１．
　以下、本発明の実施形態を図面を参照して説明する。図１は、本発明の第１の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図１に示す特徴量系列生成装置は、広がり度パラメータ補正部１１と、特徴量系列生成部１２とを備える。

　広がり度パラメータ補正部１１は、広がり度パラメータ系列と概形パラメータ系列とを入力し、入力された広がり度パラメータ系列と概形パラメータ系列とに基づいて、広がり度パラメータを補正し、特徴量系列生成部１２に供給（出力）する。

　広がり度パラメータは、生成対象とされた信号の特徴量系列における、特徴量の分布の広がり度合いを表すパラメータである。広がり度パラメータ系列は、特徴量系列の系列に沿って並べられた広がり度パラメータ群である。概形パラメータは、該特徴量系列の大まかな形状である概形（より具体的には、特徴量系列が表すグラフの概形）を表すパラメータである。概形パラメータ系列は、該特徴量系列の系列に沿って並べられた概形パラメータ群である。

　特徴量系列生成部１２は、入力された概形パラメータ系列と、広がり度パラメータ補正部から出力された広がり度パラメータ系列とに基づいて、特徴量系列を生成する。

　本実施形態において、広がり度パラメータ補正部１１および特徴量系列生成部１２は、例えば、プログラムに従って動作するＣＰＵ等の情報処理装置によって実現される。なお、各処理部（広がり度パラメータ補正部１１、特徴量系列生成部１２）は、１つのユニットによって実現されても別々のユニットによって実現されてもよい。

　次に、本実施形態の動作を説明する。図２は、本実施形態の動作の一例を示すフローチャートである。図２に示す例では、まず、広がり度パラメータ補正部１１が、入力された広がり度パラメータ系列と概形パラメータ系列とに基づいて、広がり度パラメータが補正されるべきである場合には、広がり度パラメータを補正する（ステップＳ１０１）。そして、広がり度パラメータ補正部１１は、補正された広がり度パラメータ系列を、特徴量系列生成部１２に出力する。

　広がり度パラメータ補正部１１は、基本的には、概形パラメータの系列方向の変化量を計算する。広がり度パラメータ補正部１１は、さらに、変化量が大きい系列番号において、変化量の大きさに応じた広がり度パラメータの補正値を計算する。ただし、広がり度パラメータ補正部１１は、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることが無い程度に広がり度パラメータが大きい場合には、補正を行わない。具体的には、広がり度パラメータ補正部１１は、概形パラメータの系列方向の変化量に基づいて広がり度パラメータの仮補正値を計算し、計算した仮補正値と補正前の値とを比較して最終的な補正後の値を決定する。広がり度パラメータ補正部１１は、仮補正値と補正前の広がり度パラメータの値（元の広がり度パラメータの値）とを比較する。広がり度パラメータ補正部１１は、比較結果に基づいて、元々の広がり度パラメータが特徴量系列に不連続性を生じさせることが無い程度に大きいと判断した場合には補正を行わない。すなわち、広がり度パラメータ補正部１１は、概形パラメータの変化量の計算と、広がり度パラメータの仮補正値の計算と、仮補正値と補正前の値との比較とを行うことによって、最終的な出力値を決定する。

　広がり度パラメータ補正部１１は、系列番号が隣接する概形パラメータ同士の差分や比率などを、概形パラメータの変化量とする。系列番号ｊの概形パラメータをμ_ｊとすると、系列ｊにおける変化量δ_ｊは、例えば、以下の式（１）で計算される。

　なお、式（１）では比率が用いられている。変化量が大きくなるほどδ_ｊの値も大きくなる。比率を変化量とする方法の他、差分の絶対値や二乗誤差、対数誤差の絶対値などを変化量とする方法も有効である。また、式（１）では、状態ｊにおける変化量を計算するときに、系列番号ｊとｊ＋１の概形パラメータが用いられるが、ｊとｊ－１の概形パラメータが用いられても同様の効果を得ることができる。また、隣接する系列番号を利用する方法だけでなく、未来の系列番号（ｊ＋１，ｊ＋２，ｊ＋３，・・・）や過去の系列番号（ｊ－１，ｊ－２，ｊ－３，・・・）の中から複数の系列番号の概形パラメータを利用する方法も有効である。

　なお、概形パラメータが複数の要素を含む構造体である場合などには、系列番号が隣接する概形パラメータにおける対応する要素毎に変化量を求めてもよい。

　次に、広がり度パラメータ補正部１１は、求めた変化量に基づいて、広がり度パラメータの仮補正値を計算する。広がり度パラメータ補正部１１は、変化量が大きくなるほど仮補正値を大きくする。従って、一般には、広がり度パラメータ補正部１１は、単調増加関数を用いて仮補正値を計算する。系列番号ｊの変化量δ_ｊとすると、系列番号ｊにおける仮補正値＾σ_ｊは、例えば、以下の式（２）で計算される。ただし、ａ_１，ａ_２，ｂ_１，ｂ_２，ｂ_３は実定数で、０＜ａ_１＜ａ_２，０＜ｂ_１＜ｂ_２＜ｂ_３を満足する。

　また、以下の式（３）のような一次関数を用いる方法も有効である。

＾σ_ｊ＝ａ・δ_ｊ＋ｂ　・・・式（３）

　なお、仮補正値を求めるために用いる実定数の値は、予め実際のデータを用いて調査する等によって、実際に適用する場面に応じて決定される。

　最後に、広がり度パラメータ補正部１１は、仮補正値と補正前の広がり度パラメータの値を比較する。広がり度パラメータ補正部１１は、仮補正値と補正前の広がり度パラメータの値の差異が所定の閾値以上である場合には仮補正値を出力し、所定の閾値未満である場合には補正前の広がり度パラメータの値を出力する。以下、実際に補正が行われたか否かに関わらず、広がり度パラメータ補正部１１から出力される広がり度パラメータを「補正後の広がり度パラメータ」と表現する場合がある。

　仮補正値を＾σ_ｊ、補正前の広がり度パラメータをσ_ｊとすると、補正後の広がり度パラメータ^－σ_ｊは以下の式（４）のように決定されてもよい。但し、α_１は正の実数である。

　なお、式（４）が用いられるときには、仮補正値と補正前の差分値が所定の閾値（α_１）未満である場合に、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることがない程度に大きいと判断される。

　また、差分を用いる方法の他、以下の式（５）に基づいて比率を評価して補正後の広がり度パラメータを決定する方法も有効である。ただし、α_２は１．０よりも大きい実数である。

　なお、式（５）が用いられるときには、補正前の広がり度パラメータの値に対する仮補正値の比率が所定の閾値（α_２）未満である場合に、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることがない程度に大きいと判断される。

　次に、特徴量系列生成部１２は、入力された概形パラメータ系列と、広がり度パラメータ補正部から出力される広がり度パラメータ系列とを基に特徴量系列を生成する（ステップＳ１０２）。特徴量系列の生成方法は、特徴量系列と両パラメータ（概形パラメータおよび広がり度パラメータ）の関係に応じて異なる。以下に示す例は、最も代表的な方法の一つである平滑化により特徴量系列を生成する方法である。

　図３は、概形パラメータおよび広がり度パラメータと生成される特徴量系列との関係の一例を模式的に示す説明図である。図３において、（Ａ）には、概形パラメータ系列の一例が示されている。（Ｂ）には、広がり度パラメータを考慮せずに特徴量系列を生成した場合の特徴量系列の一例を示している。（Ａ）および（Ｂ）に示された例では、概形パラメータが特徴量系列の５点を代表する値である。すなわち、系列番号ｊの概形パラメータは、時刻ｋ－５，ｋ－４，ｋ－３，ｋ－２，ｋ－１の特徴量系列を代表する値である。系列番号ｊ+1の概形パラメータは、時刻ｋ，ｋ＋１，ｋ＋２，ｋ＋３，ｋ＋４の特徴量系列を代表する値である。このような仮定のもとで、（Ｃ）および（Ｄ）には、広がり度パラメータを考慮して特徴量系列が生成される例が示されている。なお、（Ｃ）には、広がり度パラメータが小さい場合に生成される特徴量系列の例が示され、（Ｄ）には、広がり度パラメータが大きい場合に生成される特徴量系列のが示されている。

　図３における（Ｃ）に示す例では、広がり度パラメータが小さいので、変更対象となっている特徴量は、時刻ｋ－１とｋの特徴量に限定され、ｋ－２からｋ＋１にかけて線形補間するような値になる。一方、図３における（Ｄ）に示す例では、広がり度パラメータが大きいので、変更対象となっている特徴量は、時刻ｋ－４からｋ＋３の特徴量であり、ｋ－５からｋ＋４にかけて線形補間するような値になる。なお、図３に示された例では、広がり度パラメータは変更対象範囲に対応する。従って、広がり度パラメータの大きさの変化に応じて変更対象範囲が変わる。広がり度パラメータが小さい場合には変更対象範囲が狭いので、特徴量系列のグラフの形状が急峻に変化する。広がり度パラメータが大きい場合には変更対象範囲が広いので、特徴量系列のグラフの形状が緩やかに変化する。

　以上のように、本実施形態の特徴量系列生成装置は、概形パラメータの系列番号方向の変化量を計算し、変化量が大きい系列番号に対して、その大きさに応じた広がり度パラメータの補正を行う。この結果、概形パラメータの変化量が大きい箇所における特徴量系列の不連続性が低減し、特徴量の不連続性が高い箇所が少なく、滑らかに変化する特徴量系列を生成することができる。

実施形態２．
　次に、本発明の第２の実施形態を説明する。図４は、本発明の第２の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図４に示す特徴量系列生成装置は、図１に示す第１の実施形態に対して、言語処理部４と、状態継続長生成部２１と、ピッチモデルパラメータ選択部３１と、モデルパラメータ記憶部３２とが加えられた装置である。また、広がり度パラメータ補正部１１および特徴量系列生成部１２に代えて、広がり度パラメータ補正部１１１および特徴量系列生成部１２１を備える。

　本実施形態の特徴量系列生成装置は、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する。

　ピッチモデルパラメータ記憶部３２は、ＨＭＭを用いてモデル化した音声のピッチ周波数の情報をＨＭＭのパラメータの形式で記憶する。以下、ピッチ周波数に関するＨＭＭのパラメータをピッチモデルパラメータと呼ぶ。

　図５は、音声のピッチ周波数の情報がモデル化されたＨＭＭの例を示す説明図である。図５に示すように、本実施形態では、ＨＭＭは、出力ベクトルを出力する確率分布がｂ_ｊ（ｏ_ｔ）であるような信号源（状態）が、状態遷移確率ａ_ｉｊ＝Ｐ（ｑ_ｔ＝ｊ｜ｑ_ｔ－１＝ｉ）をもって接続されたモデルとして定義される。但し、ｉ，ｊは状態番号である。出力ベクトルｏ_ｔは、ケプストラムや線形予測係数などの音声の短時間的なスペクトルや、音声のピッチ周波数などを表現するパラメータである。すなわち、ＨＭＭは、時間方向とパラメータ方向の変動が統計的にモデル化されたものである。一般に、ＨＭＭは、様々な要因で変動する音声をパラメータ系列の表現とすることに適していることが知られている。

　ピッチモデルパラメータは、ＨＭＭにおける定義では出力確率分布を特徴づけるパラメータに相当する。ＨＭＭの出力確率分布は、ガウス分布で定義されることが多い。ガウス分布は平均と分散の二種類の統計量で特徴づけられるので、以下、ピッチモデルパラメータを具体的にガウス分布の平均と分散と仮定する。なお、平均と分散で特徴づけられる確率分布であれば、ガウス分布以外のどのような確率分布が用いられてもよい。

　ピッチモデルパラメータのうちの平均パラメータは、音声合成時において、合成音声のピッチパタンの枠組みを概形的に特徴づける値として利用される。すなわち、平均パラメータを、本発明における「概形パラメータ」の一例とみなすことができる。本実施形態では、概形パラメータの具体例として、ＨＭＭの出力確率分布の平均を示す平均パラメータが用いられる。しかし、平均パラメータの他、中央値や最頻値、最大・最小値などの統計量を用いることも可能である。

　また、ピッチモデルパラメータのうちの分散パラメータは、音声合成時において、合成音声のピッチ周波数の分布の広がり度を示す値として利用される。すなわち、分散パラメータを、本発明における「広がり度パラメータ」の一例とみなすことができる。例えば、ある区間における分散パラメータの値が小さければ、その区間のピッチ周波数は平均パラメータ（概形パラメータ）に近い値となるので、ピッチパタンは直線的な形状になる。分散パラメータの値がゼロであれば、その区間のピッチ周波数は常に平均パラメータの値に一致するので、ピッチパタンは直線になる。本実施形態では、広がり度パラメータの具体例として、ＨＭＭの出力確率分布の分散を示す分散パラメータが用いられる。しかし、分散以外でを用いてもよい。例えば、分散以外の広がり度パラメータとして、標準偏差を用いることも可能である。

　なお、ピッチモデルパラメータに限らずＨＭＭのパラメータは、学習処理により求められる。学習には、音声データとその音素ラベル及び言語情報が利用される。ＨＭＭのモデルパラメータの学習手法は公知の技術であるため説明を省略する。

　言語処理部４は、テキスト（文字列情報）を入力し、入力したテキストに対して、形態素解析、構文解析、読み付け等の分析を行い、少なくとも音節記号や音素記号などの「読み」を表す情報を含む言語情報を生成して、状態継続長生成部２１とピッチモデルパラメータ選択部３１に出力する。なお、言語情報には、読みを表す情報の他、形態素の品詞、活用、アクセント型、アクセント位置、アクセント句区切り等を表す情報など、テキストが表す音声に関するいずれの情報が含められてもよい。

　状態継続長生成部２１は、言語処理部４から出力された言語情報に基づいてＨＭＭの状態継続長を生成し、特徴量系列生成部１２１に出力する。ＨＭＭでモデル化された音声は、音素毎に複数の「状態」を有すると仮定される。状態数は全ての音素に対して同一の値で定義される。状態継続長は、各音素に属する状態それぞれに滞留する回数に相当する。従って、ある音素の時間長は、その音素に属する状態の継続長の総和に相当する。

　ピッチモデルパラメータ選択部３１は、言語処理部４から出力された言語情報に基づいて、最適なピッチモデルパラメータをピッチモデルパラメータ記憶部３２から取得する。そして、ピッチモデルパラメータ選択部３１は、取得したピッチモデルパラメータのうちの平均パラメータを広がり度パラメータ補正部１１１と特徴量系列生成部１２１に出力する。また、ピッチモデルパラメータ選択部３１は、取得したピッチモデルパラメータのうちの分散パラメータを広がり度パラメータ補正部１１１に出力する。

　広がり度パラメータ補正部１１１は、ピッチモデルパラメータ選択部３１から出力される平均パラメータと分散パラメータとに基づいて、分散パラメータを補正し、補正された分散パラメータを特徴量系列生成部１２１に出力する。

　特徴量系列生成部１２１は、状態継続長生成部２１から出力される状態継続長と、ピッチモデルパラメータ選択部３１から出力される平均パラメータと、広がり度パラメータ補正部１１１から出力される補正後の分散パラメータとに基づいて、ピッチパタンを生成する。

　本実施形態において、言語処理部４、状態継続長生成部２１、ピッチモデルパラメータ選択部３１、広がり度パラメータ補正部１１１および特徴量系列生成部１２１は、例えば、プログラムに従って動作するＣＰＵ等の情報処理装置によって実現される。また、ピッチモデルパラメータ記憶部３２は、例えば、メモリやデータベースシステム等の記憶装置によって実現される。なお、各処理部（言語処理部４、状態継続長生成部２１、ピッチモデルパラメータ選択部３１、広がり度パラメータ補正部１１１、特徴量系列生成部１２１）は、１つのユニットによって実現されても別々のユニットによって実現されてもよい。また、例えば、言語処理部４、状態継続長生成部２１、ピッチモデルパラメータ選択部３１として外部の装置を利用することも可能である。そのような場合には、各処理部は必要な情報をネットワークを介して取得すればよい。

　次に、本実施形態の動作を説明する。図６は、本実施形態の動作の一例を示すフローチャートである。図６に示す例では、まず、言語処理部４が、入力されたテキスト（文字列情報）に対して、形態素解析、構文解析、及び、読み付け等の分析を行う。言語処理部４は、音節記号や音素記号などの「読み」を表す情報と、形態素の品詞、活用、アクセント型、アクセント位置、アクセント句区切り等を表す情報とを言語情報として、状態継続長生成部２１とピッチモデルパラメータ選択部３１とに出力する（ステップＳ２０１）。なお、アクセント情報や形態素情報の有無およびデータ形式は、言語情報を利用する状態継続長生成部２１とピッチモデルパラメータ選択部３１の実現形態に応じて定められる。

　次に、状態継続長生成部２１は、言語処理部４から出力される言語情報に基づいてＨＭＭの状態継続長を生成する（ステップＳ２０２）。状態継続長生成部２１は、生成した状態継続長を特徴量系列生成部１２１に出力する。

　例えば、状態数が３状態であり、音素ａの状態１～３までの継続長がｄ１，ｄ２，ｄ３であった場合、音素ａの継続時間長はｄ１＋ｄ２＋ｄ３で与えられる。この例のｄ１，ｄ２，ｄ３を求める処理を状態継続長生成部２１が行う。

　ある音素に属する各状態の継続長は、その音素（以下、「該当音素」と呼ぶ。）の前後に存在する音素（以下、前に存在する音素を「先行音素」と呼び、後に存在する音素を「後続音素」と呼ぶ。）や、該当音素のアクセント句内でのモーラ位置、先行・該当・後続音素が属するアクセント句のモーラ長やアクセント型、該当音素が属するアクセント句の位置、等々の「コンテキスト」と呼ばれる情報に基づいて決定される。

　例えば、図７に示すようなコンテキストと状態継続長の対応関係を保持したテーブルを予め用意しておいてもよい。そのような場合には、状態継続長生成部２１は、このテーブルを参照して、言語情報によって示されるコンテキストから対応する状態継続長を得る。なお、各状態の継続長の具体的な生成方法として、例えば非特許文献１～３に記載されている方法を用いてもよい。例えば、非特許文献２に記載されている方法を用いる場合には、状態継続長生成部２１は、以下の式（６）を用いて、各状態の継続長を算出すればよい。なお、本例ではρ＝０と想定する。

ｄ_ｉ＝ｍ_ｉ＋ρ・σ_ｉ ^２　・・・式（６）

　なお、式（６）において、ｍ_ｉ、σ_ｉ ^２は、それぞれ状態ｉに関するガウス分布の平均と分散である。

　ピッチモデルパラメータ選択部３１は、言語処理部４から出力される言語情報を参照して、該言語情報に最も適したピッチモデルパラメータをピッチモデルパラメータ記憶部３２から取得する（ステップＳ２０３）。ピッチモデルパラメータ選択部３１は、取得したピッチモデルパラメータのうちの平均パラメータを広がり度パラメータ補正部１１１と特徴量系列生成部１２１に出力する。ピッチモデルパラメータ選択部３１は、取得したピッチモデルパラメータのうちの分散パラメータを広がり度パラメータ補正部１１１に出力する。

　ピッチモデルパラメータ選択部３１は、具体的には、コンテキストと呼ばれる言語情報から一意に定まるモデルパラメータを選択する。例えば、図８に示すようなコンテキストとパラメータとを１対１に対応づけたテーブルを参照して、言語情報によって示されるコンテキストに対応づけられているパラメータを読み出す。その場合、モデルパラメータ記憶部３２は、図８に示すような形式でピッチモデルパラメータを記憶する。コンテキストとピッチモデルパラメータとの対応づけは、例えば、アクセント句先頭かアクセント句終端か、またそのアクセント句が３モーラ１型か４モーラ２型かといった区分けに基づいて行われる。

　広がり度パラメータ補正部１１１は、ピッチモデルパラメータ選択部３１から出力される平均パラメータと分散パラメータとに基づいて、分散パラメータが補正されるべきである場合には、分散パラメータを補正する（ステップＳ２０４）。広がり度パラメータ補正部１１１は、補正後の分散パラメータを特徴量系列生成部１２１に出力する。なお、分散パラメータの補正方法として、第１の実施形態における広がり度パラメータ補正部１１が使用する方法と同様の方法を用いればよい。

　特徴量系列生成部１２１は、状態継続長生成部２１から出力される状態継続長と、ピッチモデルパラメータ選択部３１から出力される平均パラメータと、広がり度パラメータ補正部１１１から出力される補正後の分散パラメータとに基づいて、ピッチパタンを生成する（ステップＳ２０５）。ピッチパタンの生成方法として、例えば、非特許文献１～２に記載されている方法を用いることができる。

　例えば、非特許文献２に記載されている方法を用いる場合には、特徴量系列生成部１２１は、特徴量系列（ピッチパタン）Ｃを、以下の線形方程式（７）を解くことによって算出する。

Ｗ^ＴＵ^－１ＷＣ＝Ｗ^ＴＵ^－１Ｍ^Ｔ　・・・式（７）
ただし、
Ｃ：＝［ｃ_１，ｃ_２，・・・，ｃ_Ｔ］^Ｔ　，
Ｍ：＝［μ_ｑ１’，μ_ｑ２’，・・・，μ_ｑＴ’］^Ｔ　，
Ｕ：＝ｄｉａｇ［Ｕ_ｑ１，Ｕ_ｑ２，・・・，Ｕ_ｑＴ］^Ｔ　，
Ｗ：＝［ｗ_１，ｗ_２，・・・，ｗ_Ｔ］^Ｔ　，
ｗ_ｔ：＝［ｗ_ｔ ^（０），ｗ_ｔ ^（１），ｗ_ｔ ^（２）］＝［１，Δ，Δ^２］

　ここで、ｃ_ｔは、算出対象の特徴量である。μ_ｑｔ’およびＵ_ｑｔは、状態ｑ_ｔにおける平均パラメータおよび分散パラメータである。［ｗ_ｔ ^（０），ｗ_ｔ ^（１），ｗ_ｔ ^（２）］は、静的、１次動的、２次動的特徴量を求める際に用いた窓関数の係数である。また、Ｔは、総フレーム数を表す。なお、状態ｑ_ｔは状態継続長が定まれば一意に決定される。なぜなら、状態継続長が状態ｑ_ｔが継続する回数を表しているからである。例えば、状態Ｓ１，Ｓ２，Ｓ３のそれぞれの状態継続長が３回、２回、４回であった場合、状態ｑ_ｔ（ｔ＝１～９）は、ｑ_１＝Ｓ１，ｑ_２＝Ｓ１，ｑ_３＝Ｓ１，ｑ_４＝Ｓ２，ｑ_５＝Ｓ２，ｑ_６＝Ｓ３，ｑ_７＝Ｓ３，ｑ_８＝Ｓ３，ｑ_９＝Ｓ３となる。また、ｄｉａｇ［ａ，ｂ，ｃ］は、対角成分にａ，ｂ，ｃを有する対角行列である。

　以上のように、本実施形態の特徴量系列生成装置は、ピッチ周波数の情報が表されたＨＭＭモデルパラメータであるピッチモデルパラメータの平均パラメータの状態方向の変化量を状態毎に計算する。特徴量系列生成装置は、変化量が大きい状態に対して、変化量の大きさに応じた同ピッチモデルパラメータの分散パラメータの補正を行う。この結果、平均パラメータの変化量が大きい箇所におけるピッチパタンの不連続性が低減し、自然性が高く、滑らかなピッチパタンが生成される。

実施形態３．
　次に、本発明の第３の実施形態を説明する。本実施形態では、分散パラメータの補正処理において、さらに状態継続長と言語情報とが利用される。図９は、本発明の第３の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図９に示す特徴量系列生成装置は、図４に示す第２の実施形態における広がり度パラメータ補正部１１１に代えて、広がり度パラメータ補正部１１２を備える。

　広がり度パラメータ補正部１１２は、ピッチモデルパラメータ選択部３１が取得したピッチモデルパラメータのうちの平均パラメータと分散パラメータを入力する。広がり度パラメータ補正部１１２は、言語処理部４が生成した言語情報を入力する。広がり度パラメータ補正部１１２は、状態継続長生成部２１が生成した状態継続長情報を入力する。広がり度パラメータ補正部１１２は、入力した平均パラメータと分散パラメータと言語情報と状態継続長情報とに基づいて、分散パラメータを補正する。

　本実施形態では、言語処理部４は、入力されたテキストに対して行った分析の結果得られた言語情報を、広がり度パラメータ補正部１１２にも出力する。また、状態継続長生成部２１は、言語処理部４から供給された言語情報に基づいて生成したＨＭＭの状態継続長を、広がり度パラメータ補正部１１２にも出力する。また、ピッチモデルパラメータ選択部３１は、ピッチモデルパラメータ記憶部３２から取得したピッチモデルパラメータ（ここでは、平均パラメータと分散パラメータ）を、広がり度パラメータ補正部１１２にも出力する。

　広がり度パラメータ補正部１１２は、基本的には、第２の実施形態と同様に平均パラメータの変更量を求めて、その大きさに応じて分散パラメータを補正する。しかし、本実施形態では、広がり度パラメータ補正部１１２は、さらに言語情報と状態継続長情報とを利用して補正の調整および修正を行う。

　具体的には、広がり度パラメータ補正部１１２は、状態継続長情報に基づいて、優先して、状態継続長が短い箇所の分散パラメータの補正を行う。広がり度パラメータ補正部１１２は、平均パラメータの変更量を計算した後に、状態継続長を参照して変更量を修正する。例えば、広がり度パラメータ補正部１１２は、状態ｊとｊ＋１の平均パラメータの変更量をδ_ｊ，δ_ｊ＋１とし、状態継続長をｄ_ｊ，ｄ_ｊ＋１とすると、ｄ_ｊ＞ｄ_ｊ＋１かつδ_ｊ＞δ_ｊ＋１であれば、修正後の変更量δ’_ｊ，δ’_ｊ＋１を以下の式（８）のように規定する。

δ’_ｊ＝０，　δ’_ｊ＋１＝δ_ｊ　・・・式（８）

　第２の実施形態では、状態ｊとｊ＋１の境界においてピッチの不連続性を解消するときは、広がり度パラメータ補正部１１１は、状態ｊの分散パラメータを補正する。しかし、状態ｊではなく状態ｊ＋１の分散パラメータを補正しても状態ｊとｊ＋１の境界の不連続性を解消することが可能である。すなわち、状態ｊとｊ＋１の境界において不連続性を解消するときに、状態ｊ又はｊ＋１のどちらの分散パラメータを補正してもよい。

　そこで本実施形態では、式（８）に示すように、状態継続長が短いほうの状態の分散パラメータが補正対象とされる。すなわち、広がり度パラメータ補正部１１２は、状態継続長が短いほうの補正量を大きくする。換言すると、広がり度パラメータ補正部１１２は、状態継続長の長い箇所の補正量を優先して小さくする。これによって、ピッチパタン全体の分散パラメータの補正量を少なくすることができる。

　分散パラメータの補正は、補正対象区間のピッチパタンの変動を大きくし、合成音声のピッチパタンの乱れを生じさせやすい。しかし、本実施形態では、平均パラメータの変更量を修正するので、第２の実施形態と比べて、ピッチパタンの乱れをより低減することができる。

　また、広がり度パラメータ補正部１１２は、言語情報に基づいて、分散パラメータの補正を調整する。広がり度パラメータ補正部１１２は、言語情報を参照して、分散パラメータの補正の調整が必要となる状態を特定する。例えば、言語情報から音素種別やアクセント句境界付近か否かの情報などを得て、ピッチが急変しやすいアクセント句境界付近や有声破裂音区間に属する状態を、補正の調整対象として特定する。次に、広がり度パラメータ補正部１１２は、特定された状態に対して、分散パラメータの補正度を調整する。より具体的には、広がり度パラメータ補正部１１２は、仮補正値の計算方法および計算に用いるパラメータを、通常用いる方法および値から変更する。例えば、広がり度パラメータ補正部１１２は、ピッチが急変しやすいアクセント句境界付近または有声破裂音区間に属する状態では、通常よりも補正度を小さくする。すなわち、広がり度パラメータ補正部１１２は、補正量を小さくする、または補正するか否かの判定基準を低くする（閾値を小さくする）。

　例えば、仮補正値＾σ_ｊの計算に以下の式（９）のような一次関数を用いる場合には、広がり度パラメータ補正部１１２は、特定された状態に対して用いられるパラメータａ，ｂを次のように変更する。なお、式（８）において、δ_ｊは状態ｊの変化量である。

＾σ_ｊ＝ａ・δ_ｊ＋ｂ　・・・式（９）

　すなわち、通常のパラメータをａ＝ａ_１，ｂ＝ｂ_１とすると、広がり度パラメータ補正部１１２は、特定された状態に対して用いられるパラメータａ＝ａ_２，ｂ＝ｂ_２を、０＜ａ_２＜ａ_１，０＜ｂ_２＜ｂ_１を満足する値に変更する。

　広がり度パラメータ補正部１１２は、仮補正値を採用するか否かの判断に用いる閾値を変更してもよい。例えば、仮補正値を＾σ_ｊ、補正前の分散パラメータをσ_ｊとし、補正後の広がり度パラメータ^－σ_ｊを次のような式（１０）のような方法で決定する場合には、広がり度パラメータ補正部１１２は、特定された状態に対して用いられるパラメータαを次のように変更する。

　すなわち、通常のパラメータをα＝α_１とすると、広がり度パラメータ補正部１１２は、特定された状態に対して用いられるパラメータα＝α_２を、α_１＜α_２を満足する値に変更する。

　このように、言語情報に基づいて分散パラメータの補正度が調整されれば、ピッチが急変しやすい状態において分散パラメータの補正量を抑えるなど、本来ならば不要な不連続性解消のためのパラメータ補正を回避できる。すなわち、第３の実施形態では、第２の実施形態と比べてピッチパタンの乱れをより低減することができる。

　以上のように、本実施形態の特徴量系列生成装置は、状態継続長情報や言語情報を利用することによって、過剰な分散パラメータ補正を回避することができる。その結果、ピッチパタンの乱れを小さくすることが可能となる。従って、第２の実施形態と比べて、より自然性が高いピッチパタンが生成される。

　なお、言語情報に基づく補正の調整および修正と、状態継続長情報に基づく補正の調整および修正とを選択的に行えるように、各処理の実行の有無を設定可能にしてもよい。

　また、本発明は、上述の各実施形態で説明した特徴量系列生成装置に限定されない。その構成および動作は、本発明の趣旨を逸脱しない範囲で適宜に変更することが可能である。

　以下、本発明の概要について説明する。図１０は、本発明の概要を示すブロック図である。図１０に示す特徴量系列生成装置５００は、生成対象とされる信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力する。特徴量系列生成装置５００は、広がり度パラメータ補正手段５０１と、特徴量系列生成手段５０２とを備えている。

　広がり度パラメータ補正手段５０１（例えば、広がり度パラメータ補正部１１）は、入力された概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する。

　特徴量系列生成手段５０２（例えば、特徴量系列生成部１２）は、入力された概形パラメータと、広がり度パラメータ補正手段５０１によって補正された広がり度パラメータとに基づいて、特徴量系列を生成する。

　広がり度パラメータ補正手段５０２は、概形パラメータの系列によって示される概形パラメータの変化量が大きいほど、系列における概形パラメータの位置（変化量が大きい位置）に対応する箇所の広がり度パラメータの値が大きくなるように広がり度パラメータを補正してもよい。

　広がり度パラメータ補正手段５０２は、概形パラメータの系列によって示される概形パラメータの変化量に基づいて広がり度パラメータの仮補正値を求め、系列における仮補正値が求められた概形パラメータの位置に対応する箇所の補正前の広がり度パラメータ（元の広がり度パラメータ）と、求めた仮補正値とに基づいて補正後の広がり度パラメータを決定してもよい。

　また、広がり度パラメータ補正手段５０３は、仮補正値と元の広がり度パラメータの値との差分値が所定の閾値未満である場合、または元の広がり度パラメータの値に対する仮補正値の比率が所定の閾値未満である場合には、広がり度パラメータを補正せず、入力された広がり度パラメータをそのまま広がり度パラメータとして出力してもよい。

　また、図１１は、本発明による特徴量系列生成装置５００の他の例を示すブロック図である。図１１に示すように、特徴量系列生成装置５００は、さらに各音素の時間長を表すＨＭＭの状態継続長や音声の言語情報を入力し、それらの情報を利用して、広がり度パラメータの補正量の調整などをしてもよい。

　概形パラメータとして、特徴量の情報をモデル化したＨＭＭのパラメータのうちの出力確率分布の平均、中央値、最頻値、最大値または最小値の統計量を示すパラメータが用いられ、広がり度パラメータとして、ＨＭＭのパラメータのうちの出力確率分布の分散を示すパラメータが用いられる場合には、広がり度パラメータ補正手段５０２は、ＨＭＭの状態継続長に基づいて、補正対象の分散パラメータのうち状態継続長が短い方の分散パラメータの補正を優先して行うことが好ましい。

　特徴量系列生成装置５００が、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、概形パラメータはピッチパタンの概形を表し、広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、各音素の時間長を表す情報を入力する場合には、広がり度パラメータ補正手段５０２は、概形パラメータと、各音素の時間長に基づいて、補正対象の広がり度パラメータのうち時間長が短い方の広がり度パラメータの補正を優先して行うことが好ましい。

　特徴量系列生成装置５００が、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、概形パラメータはピッチパタンの概形を表し、広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、各音素の時間長を表す情報を入力する場合には、広がり度パラメータ補正手段５０２は、音声の言語情報に基づいて、ピッチが急変しやすい箇所の広がり度パラメータの補正度をその他の箇所における基準よりも小さくしてもよい。

　以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１０年１１月８日に出願された日本特許出願２０１０－２４９６０４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、信号の特徴量系列を生成するための用途に限らず、既にある特徴量系列を評価したり、調整するために概形パラメータと広がり度パラメータとを必要とする装置などにも好適に適用可能である。

　４　　言語処理部
　１１、１１１、１１２　広がり度パラメータ補正部
　１２、１２１　特徴量系列生成部
　２１　状態長生成部
　３１　ピッチパラメータ選択部
　３２　モデルパラメータ記憶部

Claims

　信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力し、
　前記概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記広がり度パラメータを補正する広がり度パラメータ補正手段と、
　前記概形パラメータと、前記広がり度パラメータ補正手段によって補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する特徴量系列生成手段とを備える
　ことを特徴とする特徴量系列生成装置。
　前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量が大きいほど、前記広がり度パラメータの値が大きくなるように補正する
　請求項１に記載の特徴量系列生成装置。
　前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量に基づいて仮補正値を求め、元の広がり度パラメータと前記仮補正値とに基づいて補正された広がり度パラメータを決定する
　請求項１または請求項２に記載の特徴量系列生成装置。
　前記広がり度パラメータ補正手段は、前記仮補正値と元の広がり度パラメータの値との差分値が所定の閾値未満である場合、または元の前記広がり度パラメータの値に対する前記仮補正値の比率が所定の閾値未満である場合には、当該広がり度パラメータを補正せずに出力する
　請求項３に記載の特徴量系列生成装置。
　前記概形パラメータは、特徴量の情報をモデル化したＨＭＭのパラメータのうちの出力確率分布の平均、中央値、最頻値、最大値または最小値のいずれかの統計量を示すパラメータであり、前記広がり度パラメータは、前記ＨＭＭのパラメータのうちの出力確率分布の分散を示す分散パラメータであり、
　前記広がり度パラメータ補正手段は、前記ＨＭＭの状態継続長に基づいて、補正対象の分散パラメータのうち前記状態継続長が短い方の前記分散パラメータの補正を優先して行う
　請求項１から請求項４のうちのいずれか１項に記載の特徴量系列生成装置。
　前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
　前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
　各音素の時間長を表す情報を入力し、
　前記広がり度パラメータ補正手段は、前記概形パラメータと、前記各音素の時間長に基づいて、補正対象の前記広がり度パラメータのうち前記時間長が短い方の前記広がり度パラメータの補正を優先して行う
　請求項１から請求項５のうちのいずれか１項に記載の特徴量系列生成装置。
　前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
　前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
　前記音声の言語情報を入力し、
　前記広がり度パラメータ補正手段は、前記音声の言語情報に基づいて、ピッチが急変しやすい箇所の広がり度パラメータの補正度をその他の箇所における基準よりも小さくする
　請求項１から請求項６のうちのいずれか１項に記載の特徴量系列生成装置。
　信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、
　前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する
　ことを特徴とする特徴量系列生成方法。
　コンピュータに、
　特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正する処理、および
　前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する処理
　を実行させるための特徴量系列生成プログラム。