WO2015025788A1

WO2015025788A1 - 定量的ｆ０パターン生成装置及び方法、並びにｆ０パターン生成のためのモデル学習装置及び方法

Info

Publication number: WO2015025788A1
Application number: PCT/JP2014/071392
Authority: WO
Inventors: 晋富倪; 芳則志賀
Original assignee: 独立行政法人情報通信研究機構
Priority date: 2013-08-23
Filing date: 2014-08-13
Publication date: 2015-02-26
Also published as: US20160189705A1; JP5807921B2; CN105474307A; JP2015041081A; KR20160045673A; EP3038103A4; EP3038103A1

Abstract

【課題】精度を保ちながら、言語学的情報とＦ０パターンとの対応が明確となるような、統計的モデルによるＦ０パターンの合成装置を提供する。【解決手段】ＨＭＭ学習装置は、連続Ｆ０パターン１３２にフィットするＦ０パターン１３３をフレーズ成分とアクセント成分との和として表し、それらのターゲットポイントを推定するパラメータ推定部と、フィット後のＦ０パターンを学習データとしてＨＭＭ１３９の学習を行なうＨＭＭ学習手段とを含む。連続Ｆ０パターン１３２をアクセント成分１３４、フレーズ成分１３６、及びマイクロ・プロソディ成分１３８に分離して個別のＨＭＭ１４０，１４２，及び１４４のＨＭＭを学習してもよい。テキスト解析の結果を用いてアクセント成分、フレーズ成分、及びマイクロ・プロソディ成分を個別にＨＭＭ１４０，１４２及び１４４から生成し合成してＦ０パターンを得る。

Description

定量的Ｆ０パターン生成装置及び方法、並びにＦ０パターン生成のためのモデル学習装置及び方法

　この発明は音声合成技術に関し、特に、音声合成時の基本周波数パターンの合成技術に関する。

　音声の基本周波数の時間変化パターン（以下、「Ｆ０パターン」と呼ぶ。）は、文の区切りを明確にしたり、アクセント位置を表現したり、単語を区別したりするための助けになる。Ｆ０パターンはまた、発話に伴う感情等、非言語的な情報を伝える上でも大きな役割を果たす。さらに、発話の自然さにもＦ０パターンが大きな影響を与える。特に、発話中の焦点のある位置を明らかにし、文の構造を明確にするためには、文を適切なイントネーションで発話する必要がある。Ｆ０パターンが適切でないと、合成音声の了解性が損なわれてしまう。したがって、音声合成において、どのようにして所望のＦ０パターンを合成するかは大きな問題となる。

　Ｆ０パターンの合成手法として、後掲の非特許文献１に開示された、藤崎モデルと呼ばれる手法がある。

　藤崎モデルは、少数のパラメータによってＦ０パターンを定量的に記述するＦ０パターン生成過程モデルである。図１を参照して、このＦ０パターン生成過程モデル３０は、Ｆ０パターンを、フレーズ成分と、アクセント成分と、基底成分Ｆ_ｂとの和として表現したものである。

　フレーズ成分とは、発話の内、１つのフレーズの開始直後に立ち上がるピークを持ち、フレーズの終わりまでゆるやかに下降するように変化する成分のことを指す。アクセント成分とは、語に対応した局所的な凹凸で表される成分を指す。

　図１の左側を参照して、藤崎モデルでは、フレーズ成分を、フレーズの先頭で発生するインパルス上のフレーズコマンド４０に対するフレーズ制御機構４２の応答で表す。一方、アクセント成分は、同様にステップ状のアクセントコマンド４４に対するアクセント制御機構４６の応答で表す。これらフレーズ成分とアクセント成分と基底成分Ｆｂの対数ｌｏｇ_ｅＦｂとを加算器４８で加算することにより、Ｆ０パターン５０の対数表現ｌｏｇ_ｅＦ０（ｔ）が得られる。

　このモデルでは、アクセント成分及びフレーズ成分と、発話の言語学的情報及びパラ言語学的情報との間の対応関係が明確である。また、モデルパラメータを変化させるだけで容易に文の焦点を定めることができるという特徴もある。

　しかしこのモデルでは、適切なパラメータを決定することが難しいという問題がある。最近の音声技術では、コンピュータの発達とともに、大量に収集した音声データからモデルを構築するという手法が主流である。藤崎モデルでは、音声コーパスで観測されたＦ０パターンからモデルパラメータを自動的に得ることが難しい。

　一方、大量に収集した音声データからモデルを構築する手法の典型的なものとして、後掲の非特許文献２に記載されたような音声コーパスで観測されたＦ０パターンによりＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｃｏｖ　Ｍｏｄｅｌ）を構築する手法がある。この手法は、様々な発話コンテキストにおけるＦ０パターンを音声コーパスから得てモデル化できるため、合成音声の自然さ及び情報伝達機能を実現する上で極めて重要である。

　図２を参照して、この手法にしたがう従来の音声合成システム７０は、音声コーパスからＦ０パターン合成用のＨＭＭモデルの学習を行なうモデル学習部８０と、入力されたテキストに対応する合成音声信号１１８を、学習により得たＨＭＭを用いて得られたＦ０パターンにしたがって合成する音声合成部８２とを含む。

　モデル学習部８０は、音素のコンテキストラベルが付された音声コーパスを記憶する音声コーパス記憶装置９０と、音声コーパス記憶装置９０に記憶された音声コーパス内の各発話の音声信号からＦ０を抽出するＦ０抽出部９２と、同じく各発話からスペクトルパラメータとしてメルケプストラムパラメータを抽出するスペクトルパラメータ抽出部９４と、Ｆ０抽出部９２により抽出されたＦ０パターン、音声コーパス記憶装置９０から得られる、Ｆ０パターンに対応する発話中の各音素のラベル、及びスペクトルパラメータ抽出部９４から与えられるメルケプストラムパラメータとを用い、各フレームの素性ベクトルを生成し、生成対象となる音素のコンテキストラベルからなるラベル列が与えられると、そのフレームで各Ｆ０周波数とメルケプストラムパラメータとの組が出力される確率を出力するようにＨＭＭの統計的な学習を行なうＨＭＭ学習部９６とを含む。ここで、コンテキストラベルとは、音声合成用の制御記号であって、当該音素についてその音素環境などの様々な言語情報（コンテキスト）を付与したラベルである。

　音声合成部８２は、ＨＭＭ学習部９６による学習が行なわれたＨＭＭのパラメータを記憶するＨＭＭ記憶装置１１０と、音声合成の対象となるテキストが与えられると、そのテキストに対してテキスト解析をし、発話中の単語及びその音素の特定、アクセントの決定、ポーズの挿入位置の決定、並びに文の種類の決定等を行ない、発話を表すラベル列を出力するテキスト解析部１１２と、テキスト解析部１１２からラベル列を受けると、ＨＭＭ記憶装置１１０に記憶されたＨＭＭとこのラベル列とを照合し、元のテキストを発話するときのＦ０パターン及びメルケプストラム列の組合せとして最も確率の高い組合せを生成し出力するパラメータ生成部１１４と、パラメータ生成部１１４から与えられたＦ０パターンにしたがって、パラメータ生成部１１４から与えられたメルケプストラムパラメータにより表される音声を合成し、合成音声信号１１８として出力する音声合成器１１６とを含む。

　この音声合成システム７０によれば、大量の音声データに基づいて、広範なコンテキストで、多彩なＦ０パターンを出力できるという効果を得ることができる。

Fujisaki,　H.,　and　Hirose,　K.　(1984),　"Analysis　of　voice　fundamental　frequency　contours　for　declarative　sentences　of　Japanese,"　J.　Acoust.　Soc.　Jpn.,　5,　233-242. Tokuda,　K.,　Masuko,　T.,　Miyazaki,　N.,　and　Kobayashi,　T.　(1999),　"Hidden　Markov　models　based　on　multi-space　probability　distribution　for　pitch　pattern　modeling,"　Proc.　of　ICASSP1999,　229-232. Ni,　J.　and　Nakamura,　S.　(2007),　"Use　of　Poisson　processes　to　generate　fundamental　frequency　contours",　Proc.　of　ICASSP2007,　825-828. Ni,　J,　Shiga,　Y.,　Kawai,　H.,　and　Kashioka,　H.　(2012),　"Resonance-based　spectral　deformation　in　HMM-based　speech　synthesis,"　Proc.　of　ISCSLP2012,　88-92.

　実際の発話では、音素の境界等において、発話の仕方の変化等に伴い、音声のピッチに微細な変動が生ずる。これをマイクロ・プロソディと呼ぶ。特に有声／無声区間の境界等ではＦ０が急激に変化する。こうした変化は、音声を処理することにより観測はされるが、聴覚上はあまり意味を持たない。上記ＨＭＭを用いた音声合成システム７０（図２参照）の場合、こうしたマイクロ・プロソディの影響を受けてＦ０パターンの誤差が大きくなるという問題がある。また、比較的長い区間にわたるＦ０の変化パターンに追従する能力が低いという問題もある。これらに加えてさらに、合成されるＦ０パターンと言語学的情報との間の関係が不明瞭であること、及び、文の焦点（コンテキストに依存しないＦ０の変動）を設定することが難しいという問題もある。

　それ故に本発明は、統計的モデルによりＦ０パターンを生成する際に、精度を保ちながら、言語学的情報とＦ０パターンとの対応が明確となるようなＦ０パターンの合成装置及び方法を提供することを目的とする。

　本発明の他の目的は、統計的モデルによりＦ０パターンを生成する際に、精度を保ちながら、言語学的情報とＦ０パターンとの対応が明確で、さらに文の焦点を容易に設定できる装置及び方法を提供することを目的とする。

　本発明の第１の局面に係る定量的Ｆ０パターン生成装置は、テキスト解析により得られた、発話のアクセント句に対して、所与の数のターゲットポイントを用いてＦ０パターンのアクセント成分を生成する手段と、発話の構造を含む言語情報にしたがって、発話を１つ以上のアクセント句を含むグループに分けることにより、限定された数のターゲットポイントを用いてＦ０パターンのフレーズ成分を生成する手段と、アクセント成分とフレーズ成分に基づいてＦ０パターンを生成する手段とを含む。

　各アクセント句は、３又は４つのターゲットポイントにより記述される。４つの点の内２つはアクセント句のＦ０パターンのうち周波数が低い部分を示す低ターゲット、残りの１つ又は２つの点はＦ０パターンのうち周波数が高い部分を示す高ターゲットである。高ターゲットが２つある場合、その強さは同じでもよい。

　Ｆ０パターンを生成する手段は、連続したＦ０パターンを生成する。

　本発明の第２の局面に係る定量的Ｆ０パターンの生成方法は、テキスト解析により得られた、発話のアクセント句に対して、所与の数のターゲットポイントを用いてＦ０パターンのアクセント成分を生成するステップと、発話の構造を含む言語情報にしたがって、発話を１つ以上のアクセント句を含むグループに分けることにより、限定された数のターゲットポイントを用いてＦ０パターンのフレーズ成分を生成するステップと、アクセント成分と前記フレーズ成分に基づいてＦ０パターンを生成するステップとを含む。

　本発明の第３の局面に係る定量的Ｆ０パターン生成装置は、Ｆ０パターンのフレーズ成分のターゲットパラメータ生成用の生成モデルと、Ｆ０パターンのアクセント成分のターゲットパラメータ生成用の生成モデルとのパラメータを記憶するモデル記憶手段と、音声合成の対象となるテキストの入力を受けてテキスト解析し、音声合成用の制御記号列を出力するテキスト解析手段と、テキスト解析手段の出力する制御記号列をフレーズ成分生成用の生成モデルと照合することにより、Ｆ０パターンのフレーズ成分を生成するフレーズ成分生成手段と、テキスト解析手段の出力する制御記号列をアクセント成分生成用の生成モデルと照合することにより、Ｆ０パターンのアクセント成分を生成するアクセント成分生成手段と、フレーズ成分生成手段により生成されたフレーズ成分、及びアクセント成分生成手段により生成されたアクセント成分を合成することにより、Ｆ０パターンを生成するＦ０パターン合成手段とを含む。

　モデル記憶手段はさらに、Ｆ０パターンのマイクロ・プロソディ成分推定用の生成モデルのパラメータを記憶してもよい。この場合、Ｆ０パターン生成装置はさらに、テキスト解析手段の出力する制御記号列をマイクロ・プロソディ成分生成用の生成モデルと照合することによりＦ０パターンのマイクロ・プロソディ成分を出力するマイクロ・プロソディ成分出力手段を含む。Ｆ０パターン生成手段は、フレーズ成分生成手段により生成されたフレーズ成分、アクセント成分生成手段により生成されたアクセント成分、及びマイクロ・プロソディ成分を合成することにより、Ｆ０パターンを生成する手段を含む。

　本発明の第４の局面に係る定量的Ｆ０パターン生成方法は、Ｆ０パターンのフレーズ成分のターゲットパラメータ生成用の生成モデルと、Ｆ０パターンのアクセント成分のターゲットパラメータ生成用の生成モデルとのパラメータを記憶したモデル記憶手段を用いる定量的Ｆ０パターン生成方法であって、音声合成の対象となるテキストの入力を受けてテキスト解析し、音声合成用の制御記号列を出力するテキスト解析ステップと、テキスト解析において出力される制御記号列を、記憶手段に記憶されたフレーズ成分生成用の生成モデルと照合することにより、Ｆ０パターンのフレーズ成分を生成するフレーズ成分生成手段と、テキスト解析ステップにおいて出力される制御記号列を、記憶手段に記憶されたアクセント成分生成用の生成モデルと照合することにより、Ｆ０パターンのアクセント成分を生成するアクセント成分生成ステップと、フレーズ成分生成ステップにおいて生成されたフレーズ成分、及びアクセント成分生成ステップにおいて生成されたアクセント成分を合成することにより、Ｆ０パターンを生成するＦ０パターン生成ステップとを含む。

　本発明の第５の局面に係るＦ０パターン生成のためのモデル学習装置は、音声データ信号からＦ０パターンを抽出するＦ０パターン抽出手段と、抽出されたＦ０パターンにフィットするＦ０パターンをフレーズ成分とアクセント成分との重畳により表すために、フレーズ成分を表すターゲットパラメータと、アクセント成分を表すターゲットパラメータとを推定するパラメータ推定手段と、パラメータ推定手段により推定されたフレーズ成分のターゲットパラメータ及びアクセント成分のターゲットパラメータにより表される、連続的なＦ０パターンを学習データとして、Ｆ０生成モデルの学習を行なうモデル学習手段とを含む。

　Ｆ０生成モデルは、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとを含んでも良い。モデル学習手段は、パラメータ推定手段により推定されたフレーズ成分のターゲットパラメータによって表されるフレーズ成分の時間変化パターンと、アクセント成分のターゲットパラメータにより表されるアクセント成分の時間変化パターンとを学習データとして、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとの学習を行なう第１のモデル学習手段を含む。

　上記したモデル学習装置はさらに、Ｆ０パターン抽出手段によって抽出されたＦ０パターンから、マイクロ・プロソディ成分を分離し、当該マイクロ・プロソディ成分を学習データとして、マイクロ・プロソディ成分生成用の生成モデルの学習を行なう第２のモデル学習手段を含んでもよい。

　本発明の第６の局面に係るＦ０パターン生成のためのモデル学習方法は、音声データ信号からＦ０パターンを抽出するＦ０パターン抽出ステップと、Ｆ０パターン抽出ステップにおいて抽出されたＦ０パターンにフィットするＦ０パターンをフレーズ成分とアクセント成分との重畳により表すために、フレーズ成分を表すターゲットパラメータと、アクセント成分を表すターゲットパラメータとを推定するパラメータ推定ステップと、パラメータ推定ステップにおいて推定されたフレーズ成分のターゲットパラメータ及びアクセント成分のターゲットパラメータにより表される、連続的なＦ０パターンを学習データとして、Ｆ０生成モデルの学習を行なうモデル学習ステップとを含む。

　Ｆ０生成モデルは、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとを含んでも良い。モデル学習ステップは、パラメータ推定ステップにおいて推定されたフレーズ成分のターゲットパラメータによって表されるフレーズ成分の時間変化パターンと、アクセント成分のターゲットパラメータにより表されるアクセント成分の時間変化パターンとを学習データとして、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとの学習を行なうステップを含む。

非特許文献１に係るＦ０パターン生成過程モデルの考え方を示す模式図である。非特許文献２に係る音声合成システムの構成を示すブロック図である。本発明の第１及び第２の実施の形態におけるＦ０パターンの生成過程を模式的に示すブロック図である。Ｆ０パターンのアクセント成分とフレーズ成分とをそれぞれターゲットポイントで表し、それらを合成してＦ０パターンを生成する方法を示す模式図である。アクセント成分及びフレーズ成分のターゲットポイントを決定するためのプログラムの制御構造を示すフローチャートである。観測された不連続なＦ０パターンと、このパターンにフィットさせた連続なＦ０パターンとそれらを表すフレーズ成分及びアクセント成分とを示すグラフである。本発明の第１の実施の形態に係る音声合成システムの構成を示すブロック図である。生成されたＦ０パターンに対する主観的評価テストの結果を説明するための図である。本発明の第２の実施の形態に係る音声合成システムの構成のブロック図である。本発明の実施の形態を実現するためのコンピュータシステムの外観図である。図１０に外観を示すコンピュータシステムのち、コンピュータのハードウェア構成を示すブロック図である。

　以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態ではＦ０パターン生成モデルとしてＨＭＭを用いるが、モデルはＨＭＭのみに限定されるわけではない。例えば、CART(Classification　and　Regression　Tree)モデリング（L.Breiman,　J.H.Friedman,　R.A. Olshen　and　C.J.Stone,　"Classification　and　Regression　Trees",　Wadsworth　(1984)）、Simulated　annealing　(焼きなまし法)に基づくモデリング（S.　Kirkpatrick,　C.D.　Gellatt,　Jr.,　and　M.P.　Vecchi,　"Optimization　by　simulated　annealing,"　IBM　Thomas　J.　Watson　Research　Center,　Yorktown　Heights,　NY,　1982.）等を用いることもできる。

　［基本的考え方］
　図３を参照して、本願発明の基本的考え方は以下の通りである。最初に、音声コーパスからＦ０パターンを抽出し、観測Ｆ０パターン１３０を作成する。この観測Ｆ０パターンは通常は不連続である。この不連続なＦ０パターンを連続化・平滑化させ、連続Ｆ０パターン１３２を生成する。ここまでは先行技術を用いて実現できる。

　第１の実施の形態では、この連続Ｆ０パターン１３２をフレーズ成分とアクセント成分との合成によりフィットし、フィット後のＦ０パターン１３３を推定する。このフィット後のＦ０パターン１３３を学習データとして、非特許文献２と同様の手法によりＨＭＭの学習を行ない、学習後のＨＭＭパラメータをＨＭＭ記憶装置１３９に格納する。Ｆ０パターン１４５の推定は、非特許文献２の手法と同様に行なうことができる。素性ベクトルは、ここでは０次を含む４０個のメルケプストラムパラメータ及びＦ０の対数、並びにそれらのデルタ及びデルタデルタを要素として含む。

　一方、第２の実施の形態では、得られた連続Ｆ０パターン１３２を、アクセント成分１３４、フレーズ成分１３６、及びマイクロ・プロソディ成分（以下「マイクロ成分」とも呼ぶ。）１３８に分解する。そして、これらについて別々にＨＭＭ１４０、１４２及び１４４の学習を行なう。ただしこのとき、これら３つの成分で時間情報を共有する必要がある。したがって、後述するようにＨＭＭ１４０、１４２及び１４４の学習には、素性ベクトルをこれら３つのＨＭＭのためのマルチストリーム形式で１つにまとめたものを使用する。使用する素性ベクトルの構成は、第１の実施の形態と同様である。

　音声合成時には、テキスト解析の結果を用い、アクセント成分のＨＭＭ１４０、フレーズ成分のＨＭＭ１４２、及びマイクロ成分のＨＭＭ１４４を用いて個別にＦ０パターンのアクセント成分１４６、フレーズ成分１４８、及びマイクロ成分１５０を生成する。これらを加算器１５２で加算することで最終的なＦ０パターン１５４を生成する。

　この場合、連続Ｆ０パターンをアクセント成分、及びフレーズ成分、さらにマイクロ成分で表現する必要がある。もっとも、マイクロ成分はＦ０パターンからアクセント成分及びフレーズ成分を除いたものとして考えることができる。したがって、どのようにしてアクセント成分とフレーズ成分とを得るかが問題となる。

　この場合、こうした特徴をターゲットポイントと呼ばれるもので記述することが直截的で分かり易い。アクセント成分及びフレーズ成分のいずれの場合も、ターゲットポイントでの記述とは、１つのアクセント又はフレーズを３又は４つの点で記述する方法である。４つの点の内２つは低ターゲット、残りの１つ又は２つの点は高ターゲットを表す。これらをターゲットポイントと呼ぶ。高ターゲットが２つある場合、いずれもその強さは同じものとする。

　図４を参照して、例えば、観測Ｆ０パターン１７０から連続Ｆ０パターン１７４を生成する。さらにこの連続Ｆ０パターン１７４をフレーズ成分２２０，２２２とアクセント成分２００、２０２，２０４，２０６、２０８とに分割し、それぞれをターゲットポイントで記述する。以下、アクセントのためのターゲットポイントをアクセントターゲットと呼び、フレーズのためのターゲットポイントをフレーズターゲットと呼ぶ。連続Ｆ０パターン１７４は、フレーズ成分１７２の上にアクセント成分が乗った形で表される。

　このようにターゲットポイントでアクセント成分及びフレーズ成分を記述するのは、アクセント成分とフレーズ成分との間の非線形な相互作用を、互いを関係付けて定義することにより適切に処理するためである。ターゲットポイントをＦ０パターンから探し出すのは比較的容易である。ターゲットポイント間のＦ０の遷移は、ポアソンプロセス（非特許文献３）による内挿で表すことができる。

　ただし、アクセント成分とフレーズ成分との間の非線形な相互作用を処理するためには、さらにこれらをより高いレベルで処理する必要がある。したがって、ここでは、Ｆ０パターンを２レベルの機構でモデル化する。第１のレベルではポアソンプロセスを用いた機構でアクセント成分及びフレーズ成分を生成する。さらに第２のレベルでは、レゾナンスを用いた機構によりこれらを合成してＦ０パターンを生成する。なお、マイクロ成分は、最初に得られた連続Ｆ０パターンからアクセント成分及びフレーズ成分を取除いたものとして得られる。

　＜レゾナンスを用いたＦ０パターンの分解＞
　Ｆ０は声帯の振動から生ずる。Ｆ０パターンを操作する上で、レゾナンス機構を用いることが有効であることが知られている。ここでは、レゾナンスを用いたマッピング（非特許文献４）を適用し、アクセント成分とフレーズ成分との間の潜在的干渉を、トポロジの変換の一種として取扱うことにより処理する。

　λ（周波数比の二乗）とα（減衰率に関係した角度）との間の、レゾナンスを用いたマッピング（以下、λ＝ｆ（α）と書く。）は次の式（１）により定義される。

これはレゾナンスの変換を表す。説明を簡明にするために、α＝ｆ^-1（λ）を上記マッピングの逆マッピングとする。λが０から１に変化するとき、αの値は１／３から０に減少する。

　最低周波数ｆ_０ｂと最高周波数ｆ_０ｔとの間の音声周波数範囲の任意のＦ_０をｆ_０とする。ｆ_０を［０，１］の区間で正規化する。

そして、非特許文献４に記載されているような、立方体と球との間のトポロジ的変換をｆ_０に適用する。具体的には以下のとおりである。

　式４は、ｌｎｆ_０の時間軸上での分解を表す。より具体的には、α_ｆ０ｒはフレーズ成分（基準値として取扱う。）を表し、φ_{ｆ０｜ｆ０ｒ}はアクセント成分を表す。アクセント成分をφ_{ｆ０｜ｆ０ｒ}で表し、フレーズ成分をα_ｆ０ｒで表すと、ｌｎｆ_０は以下の式（５）により計算できる。

したがって、レゾナンスを用いた機構を用いてアクセント成分とフレーズ成分との間の非線形な干渉を処理し、統合してＦ０パターンを得ることができる。

　＜レゾナンスを用いたＦ０重畳モデル＞
　Ｆ０パターンを時間ｔの関数として表すモデルは、対数表現ではレゾナンスによる、フレーズ成分Ｃｐ（ｔ）上へのアクセント成分Ｃａ（ｔ）の重畳として表現できる。

　発話のＦ０パターンを表すモデルパラメータは以下の通りである。

式（７）中に「１０」という定数係数があるが、これはＣａ（ｔ）の値をαの領域（０，１／３）内に収まるようにするためのものである。

　フレーズターゲットγ_ｐｉは対数表現で［ｆ_０ｂ，ｆ_０ｔ］の範囲のＦ０により定義される。アクセントターゲットγ_ａｉは０．５をゼロ点として（０，１．５）の範囲で表される。アクセントターゲットγ_ａｉ＜０．５であれば、アクセント成分はフレーズ成分に食込み（フレーズ成分の一部を除去し）、自然発話で観測されるように、Ｆ０パターンの末尾を引き下げる。すなわち、アクセント成分はフレーズ成分に重畳されるが、その際、アクセント成分によりフレーズ成分の一部が除去されることが許容される。

　＜Ｆ０重畳モデルのモデルパラメータの推定＞
　アクセント的フレーズ境界に関する情報が与えられたものとして、日本語の発話について観測されたＦ０パターンから、ターゲットポイントのパラメータ（ターゲットパラメータ）を推定するためのアルゴリズムを開発した。パラメータｆ_０ｂ及びｆ_０ｔを、観測されたＦ０パターンの集合のＦ０範囲と一致させる。日本語では、アクセント的フレーズはアクセント（アクセントタイプ０，１，２，…）を持つ。このアルゴリズムは以下のようなものである。

　図５は、フローチャート形式で示された制御構造のプログラムであって、図３に示す観測Ｆ０パターン１３０からＦ０パターンを抽出する処理、抽出されたＦ０パターンを平滑化・連続化して連続Ｆ０パターン１３２を生成する処理、連続Ｆ０パターン１３２をいずれもターゲットポイントで表したフレーズ成分及びアクセント成分の和で表すためのターゲットパラメータの推定と、推定されたターゲットパラメータにより連続Ｆ０パターン１３２にフィットしたＦ０パターン１３３の生成とを実行する処理とを行なう機能を持つ。

　図５を参照して、このプログラムは、観測された不連続なＦ０パターンを平滑化し、連続化して連続Ｆ０パターンを出力するステップ３４０と、ステップ３４０で出力された連続Ｆ０パターンをＮ個のグループに分割するステップ３４２とを含む。ここでＮは予め指定される任意の正の整数（例えばＮ＝２、Ｎ＝３等）である。分割されるグループの各々は、呼気段落に相当する。以下に述べる実施の形態では、長いウィンドウ幅を用いて連続Ｆ０パターンを平滑化し、Ｆ０パターンが谷となる箇所を指定された個数だけ検出し、そこでＦ０パターンを分割する。

　このプログラムはさらに、繰返制御変数ｋに０を代入するステップ３４４と、フレーズ成分Ｐを初期化するステップ３４６と、フレーズ成分Ｐ及びアクセント成分Ａと連続Ｆ０パターンとの誤差を最小化するようにアクセント成分Ａのターゲットパラメータ及びフレーズ成分Ｐのターゲットパラメータを推定するステップ３４８と、ステップ３４８の後、繰返制御変数ｋに１を加算するステップ３５４と、変数ｋの値が予め定めていた繰返数ｎより小さいか否かを判定し、判定がＹＥＳのときに制御の流れをステップ３４６に戻すステップ３５６と、ステップ３５６の判定がＮＯのときに、ステップ３４６～ステップ３５６の繰返しにより得たアクセントのターゲットパラメータを最適化し、最適化後のアクセントターゲット及びフレーズターゲットを出力するステップ３５８とを含む。これらにより表されるＦ０パターンと元の連続Ｆ０パターンとの誤差がマイクロ・プロソディ成分に相当する。

　ステップ３４８は、アクセントのターゲットパラメータを推定するステップ３５０と、ステップ３５０で推定されたアクセントのターゲットパラメータを用いてフレーズ成分Ｐのターゲットパラメータを推定するステップ３５２とを含む。

　上記したアルゴリズムの詳細は、以下のようなものである。図５を参照しながら説明する。

　（Ａ）前処理
　Ｆ０パターンを、ｆ_０ｒ＝ｆ_０ｂとしてφ_{ｆ０｜ｆ０ｒ}に変換し、２つのウィンドウサイズ（短期：１０ポイント、長期：８０ポイント）でともに平滑化し（ステップ３４０）、全体的な上昇―（フラット）－下降という日本語アクセントの特徴を考慮し、マイクロ・プロソディの影響を除去する（音素セグメントを用いてＦ０を変更する）。平滑化されたＦ０パターンを、パラメータ抽出のために式（５）を用いてＦ０に戻す。

　（Ｂ）パラメータ抽出
　ポーズ間のセグメントで０．３秒より長いものを呼気段落とみなし、呼気段落をさらに長期ウィンドウで平滑化したＦ０パターンを用いてＮ個の段落に分割する（ステップ３４２）。以下の処理を各グループに対して適用する。この際、Ｆ０誤差の絶対値を最小化するという基準を用いる。以下、ステップ３４８を繰返し実行するために繰返し制御変数ｋを０に設定する（ステップ３４４）。（ａ）初期値として、２つの低ターゲットポイントと１つの高ターゲットポイントとを持つ３ターゲットポイントのフレーズ成分Ｐを準備する（ステップ３４６）。このフレーズ成分Ｐは、例えば図４の最下部にあるフレーズ成分Ｐのグラフの、左半分と同様の形状である。この高ターゲットポイントのタイミングを第２モーラの開始時に合わせ、１番目の低ターゲットポイントを０．３秒だけ早めにずらす。さらに、２番目の低ターゲットポイントのタイミングを呼気段落の末尾に一致させる。フレーズターゲットの強度γ_ｐｉの初期値は、長期ウィンドウを用いて平滑化したＦ０パターンを用いて決定する。

　次のステップ３４８では、（ｂ）式（４）によって、平滑化されたＦ０パターンと現在のフレーズ成分Ｐとを用いてアクセント成分Ａを計算する。さらに現在のアクセント成分Ａからアクセントのターゲットポイントを推定する。（ｃ）γ_ａｉを全ての高ターゲットポイントに対して［０．９，１．１］の範囲となるように、全ての低ターゲットポイントに対して［０．４，０．６］の範囲となるように調整し、調整されたターゲットポイントを用いてアクセント成分Ａを再計算する（ステップ３５０）。（ｄ）現在のアクセント成分Ａを計算にいれてフレーズターゲットを推定し直す（ステップ３５２）。（ｅ）予め定められた回数に達するまで（ｂ）に戻ることを繰返すために、変数ｋに１を加算する（ステップ３５４）。（ｆ）高フレーズターゲットポイントを挿入することで、生成されたＦ０パターンと平滑化されたＦ０パターンとの間の誤差の減少量があるしきい値より大きくなるなら、高フレーズターゲットポイントを挿入し、（ｂ）に戻る。上記（ｂ）に戻るべきか否かを判定するために、ステップ３５４で変数ｋに１を加算する。変数ｋの値がｎに達していなければ制御をステップ３４６に戻す。この処理により、例えば図４下段の右半分のようなフレーズ成分Ｐが得られる。変数ｋの値がｎに達していれば、ステップ３５８でアクセントパラメータの最適化が行なわれる。

　（Ｃ）パラメータの最適化（ステップ３５８）
　推定されたフレーズ成分Ｐを前提に、生成されたＦ０パターンと観測されたＦ０パターンとの間の誤差を最小化するようにアクセントのターゲットポイントを最適化する。この結果、平滑化されたＦ０パターンにフィットするようなＦ０パターンを生成できるフレーズ成分Ｐ及びアクセント成分Ａのターゲットポイントが得られる。

　既に述べたように、平滑化されたＦ０パターンと、フレーズ成分Ｐ及びアクセント成分Ａから生成されたＦ０パターンとの差に相当する部分からマイクロ・プロソディ成分Ｍが得られる。

　図６に、テキストを解析した結果にしたがって、フレーズ成分Ｐとアクセント成分Ａとを合成して、観測されたＦ０パターンにＦ０パターンをフィットさせる例を示す。図６には、２つのケースを重ねて示してある。図６において、目標となるＦ０パターン２４０（観測されたＦ０パターン）を記号「＋」の列で表している。

　図６に示される第１のケースは、破線で示されるフレーズ成分２４２に、同じく破線で示されるアクセント成分２５０を合成することにより、フィットされたＦ０パターン２４６を得るものである。第２のケースは、細線で示されるフレーズ成分２４４に、同じく細線で示されるアクセント成分２５２を合成することにより、Ｆ０パターン２４６を得るものである。

　図６に示すように、アクセント成分２５０とアクセント成分２５２とはほとんど一致しているが、最初のアクセント要素の高ターゲットポイントと後ろ側の低ターゲットポイントとの位置が、アクセント成分２５２に比べて低くなっている。

　フレーズ成分２４２とアクセント成分２５０とを組合せる場合と、フレーズ成分２４４とアクセント成分２５２とを組合せる場合との相違は、主としてテキスト解析の結果による。テキスト解析の結果、呼気段落が２つとされた場合にはフレーズ成分として２つのフレーズからなるフレーズ成分２４２を採用し、日本語のアクセントパターンにより得たアクセント成分２５２と合成する。テキスト解析の結果、呼気段落が３つとされた場合には、フレーズ成分２４４とアクセント成分２５０とを合成する。

　図６に示す例では、フレーズ成分２４２もフレーズ成分２４４も、３つ目のアクセント要素と４つ目のアクセント要素との間にフレーズ境界がある。一方、テキスト解析の結果、縦線２５４で示される位置に３つめのフレーズ境界があるものとする。この場合には、フレーズ成分２４４が採用される。さらに、縦線２５４で示される位置でのＦ０パターンの谷部を表すために、アクセント成分２５０のように、この位置の直前に位置するアクセント要素の高ターゲットポイントと後ろ側の低ターゲットポイントとを引き下げる。こうすることで、テキスト解析の結果、３つのフレーズが存在する場合にも、Ｆ０パターンを精度よくテキスト解析の結果にあわせてフィットできる。これは、このアルゴリズムによれば、発話の構成とアクセントタイプとで発話の基礎をなす言語学的情報が表わされ、かつ、言語学的情報と、Ｆ０パターンとの対応関係が明確であることによる。

　［第１の実施の形態］
　＜構成＞
　図７を参照して、第１の実施の形態に係るＦ０パターン合成部３５９は、音声コーパスに含まれる多数の音声信号の各々から観測された観測Ｆ０パターン１３０を平滑化・連続化して得た連続Ｆ０パターン１３２について、所与のアクセント境界に基づいて、上記した原理に従い、フレーズ成分Ｐを規定するターゲットポイント及びアクセント成分Ａを規定するターゲットパラメータを推定するパラメータ推定部３６６と、パラメータ推定部３６６により推定されたフレーズ成分Ｐとアクセント成分Ａとを合成することにより連続Ｆ０パターンにフィットしたフィット後のＦ０パターンを生成するＦ０パターンフィッティング部３６８と、フィット後のＦ０パターンを用いて従来と同様にＨＭＭの学習を行なうＨＭＭ学習部３６９と、学習後のＨＭＭパラメータを記憶するＨＭＭ記憶装置３７０とを含む。ＨＭＭ記憶装置３７０に記憶されたＨＭＭを用いてＦ０パターン３７２を合成する処理は、図２に示す音声合成部８２と同様の装置で実現できる。

　＜動作＞
　図７を参照して、第１の実施の形態のシステムは以下のように動作する。観測Ｆ０パターン１３０の各々について、平滑化・連続化することにより連続Ｆ０パターン１３２を得る。パラメータ推定部３６６は、この連続Ｆ０パターン１３２をフレーズ成分Ｐとアクセント成分Ａとに分解し、それぞれのターゲットパラメータを上記した手法で推定する。Ｆ０パターンフィッティング部３６８は、推定されたターゲットパラメータにより表現されるフレーズ成分Ｐとアクセント成分Ａとを合成し、観測Ｆ０パターンにフィットしたフィット後のＦ０パターンを得る。このシステムは、このような動作を観測Ｆ０パターン１３０の各々に対して行なう。

　ＨＭＭ学習部３６９は、こうして得られた多数のフィット後のＦ０パターンを用い、従来と同様の手法によりＨＭＭの学習を行なう。ＨＭＭ記憶装置３７０は、学習後のＨＭＭのパラメータを記憶する。ＨＭＭの学習が終了した後は、従来と同様、テキストが与えられると、このテキストを解析し、その結果にしたがってＨＭＭ記憶装置３７０に記憶されたＨＭＭを用いてＦ０パターン３７２を合成する。このＦ０パターン３７２と、テキストの音素にあわせて選択されたメルケプストラム等の音声パラメータ列とを使用することで、従来と同様の手法で音声信号を得ることができる。

　＜第１の実施の形態の効果＞
　上記第１の実施の形態によりＨＭＭの学習を行ない、学習後のＨＭＭを使用して合成したＦ０パターンを利用して合成した音声について、主観的な評価（選好評価）テストを行なった。

　この評価テストの実験は、出願人が作成し、公開した音声コーパスＡＴＲ５０３ｓｅｔに含まれる５０３発話を用いて行なった。５０３発話の内、４９０発話をＨＭＭの学習に用い、残りをテストに用いた。発話信号は１６ｋＨｚのサンプリングレートでサンプリングし、５ミリ秒のフレームシフトによるＳＴＲＡＩＧＨＴ分析でスペクトル包絡を抽出した。素性ベクトルは、第０次を含む４０個のメルケプストラムパラメータ、ｌｏｇＦ０、並びにそれらのデルタ及びデルタデルタからなる。５ステートの左から右への一方向ＨＭＭモデルトポロジーを使用した。

　ＨＭＭ学習のために、以下の４つのＦ０パターンを準備した。

　（１）音声波形から得たＦ０パターン（オリジナル）
　（２）実施の形態１により生成されたＦ０パターン（Ｐｒｏｐｏｓｅｄ）
　（３）有声部分はオリジナル、無声部分は実施の形態１の方法により生成したＦ０パターン（Ｐｒｏｐ．＋ＭＰ（Ｍｉｃｒｏ－ｐｒｏｓｏｄｙ））
　（４）有声部分はオリジナル、無声部分はスプラインによる内挿を使用したＦ０パターン（Ｓｐｌ＋ＭＰ）
　上記した４つのパターンの内、（２）～（４）は連続Ｆ０パターンである。（２）はマイクロ・プロソディもＦ０抽出誤差も含まないが、（３）及び（４）は両者を含む点に注意が必要である。

　オリジナルは従来の技術と同様、ＭＳＤ－ＨＭＭを用いて学習した。（２）～（４）は連続Ｆ０パターン（並びにそのデルタ及びデルタデルタ）を５番目のストリームに加え、その重みを０にしてＭＳＤ－ＨＭＭの学習を行なった。したがって（２）～（４）についてはいずれも連続Ｆ０パターンが得られた。

　音声合成時には、最初に連続Ｆ０パターンＨＭＭを用いて連続Ｆ０パターンを合成し、さらにＭＳＤ－ＨＭＭを用いて有声・無声の判定を行なった。

　選好評価テストでは、上のようにして得られた４つのＦ０パターンからＦ０パターンの組合せを４通り選び、それらにより生成された音声信号のいずれがより自然かを５人の被験者により判定させた。これら被験者はいずれも日本語を母語とする。４つのパターン対は、以下のとおりである。

　（１）Ｐｒｏｐｏｓｅｄ　対　オリジナル
　（２）Ｐｒｏｐｏｓｅｄ　対　Ｐｒｏｐ＋ＭＰ
　（３）Ｐｒｏｐｏｓｅｄ　対　Ｓｐｌ＋ＭＰ
　（４）Ｐｒｏｐ＋ＭＰ　対　Ｓｐｌ＋ＭＰ

　学習に使用しなかった９文を用いて各被験者による評価を行なった。９つのｗａｖｅファイルの対を複製し、それぞれのバージョンで各対のｗａｖｅファイルの順序を入れ替えた。こうして得た７２対（４×９×２）のｗａｖｅファイル対を各被験者に対してランダムな順番で提示し、どちらを好むか、又はどちらも同じかを答えさせた。

　この被験者による評価の結果を図８に示す。図８から明らかなようにＰｒｏｐｏｓｅｄ手法により合成されたＦ０パターンを使った合成音声は、観測されたＦ０パターンを用いた合成音声よりも好まれた（Ｐｒｏｐｏｓｅｄ　対　オリジナル）。Ｐｒｏｐｏｓｅｄにマイクロ・プロソディを加えても、発話の自然さに改善は得られない（Ｐｒｏｐｏｓｅｄ　対　Ｐｒｏｐ＋ＭＰ）。スプライン内挿により得た連続Ｆ０パターンによる合成音声と比較しても、Ｐｒｏｐｏｓｅｄの音声が好まれる頻度が高い（Ｐｒｏｐｏｓｅｄ　対　Ｓｐｌ＋ＭＰ）。最後の２つの結果は、Ｐｒｏｐ＋ＭＰ　対　Ｓｐｌ＋ＭＰの結果からも確認できた。

　［第２の実施の形態］
　第１の実施の形態では、フレーズ成分Ｐ及びアクセント成分Ａをターゲットポイントで表し、それらを合成することでＦ０パターンをフィッティングしている。しかし、ターゲットポイントを使用するアイデアは、この第１の実施の形態に限定されるわけではない。第２の実施の形態は、上に説明した手法によって観測されたＦ０パターンをフレーズ成分Ｐ、アクセント成分Ａ及びマイクロ・プロソディ成分Ｍに分離し、それらの時間変化パターンについてそれぞれＨＭＭ学習を行なう。Ｆ０生成の際には、学習済のＨＭＭを用いてフレーズ成分Ｐ、アクセント成分Ａ及びマイクロ・プロソディ成分Ｍの時間変化パターンを得て、さらにそれらを合成することでＦ０パターンを推定する。

　＜構成＞
　図９を参照して、この実施の形態に係る音声合成システム２７０は、音声合成のためのＨＭＭの学習を行なうモデル学習部２８０と、モデル学習部２８０によって学習を行なったＨＭＭを用い、テキストが入力されるとその音声を合成し合成音声信号２８４として出力する音声合成部２８２とを含む。

　モデル学習部２８０は、図２に示す従来の音声合成システム７０のモデル学習部８０と同様、音声コーパス記憶装置９０、Ｆ０抽出部９２、及びスペクトルパラメータ抽出部９４を持つ。ただしモデル学習部２８０は、モデル学習部８０のＨＭＭ学習部９６に代えて、Ｆ０抽出部９２の出力する不連続なＦ０パターン９３を平滑化し、連続化して連続Ｆ０パターン２９１を出力するＦ０平滑化部２９０と、Ｆ０平滑化部２９０の出力する連続なＦ０パターンを、フレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍに分離し、各成分それぞれの時間変化パターンを生成して、有声/無声情報を含む不連続なＦ０パターン９３とあわせて出力するＦ０分離部２９２をもつ。さらにモデル学習部２８０は、スペクトルパラメータ抽出部９４が出力するメルケプストラムパラメータ９５と、Ｆ０分離部２９２の出力とからなるマルチストリーム形式のＨＭＭ学習データベクトル２９３（０次を含む４０個のメルケプストラムパラメータ及び上記のＦ０の３成分の時間変化パターン、並びにそれらのデルタ及びデルタデルタ）から、音声コーパス記憶装置９０から読出された学習データベクトル２９３に対応する音素のコンテキストラベルに基づいて、ＨＭＭの統計的な学習を行なうＨＭＭ学習部２９４とを含む。

　音声合成部２８２は、ＨＭＭ学習部２９４により学習の行なわれたＨＭＭを記憶するＨＭＭ記憶装置３１０と、図２に示すものと同じテキスト解析部１１２と、テキスト解析部１１２から与えられたコンテキストラベル列について、ＨＭＭ記憶装置３１０に記憶されたＨＭＭを用いて、最も適切な（ラベル列の元となった音声である確率が高い）フレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍの時間変化パターン、並びにメルケプストラムパラメータを推定し出力するパラメータ生成部３１２と、パラメータ生成部３１２により出力されたフレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍの時間変化パターンを合成することによりＦ０パターンを生成して出力するＦ０パターン合成部３１４と、パラメータ生成部３１２が出力するメルケプストラムパラメータと、Ｆ０パターン合成部３１４が出力するＦ０パターンとから音声を合成する、図２に示すものと同じ音声合成器１１６とを含む。

　図９に示すＦ０平滑化部２９０、Ｆ０分離部２９２及びＨＭＭ学習部２９４を実現するためのコンピュータプログラムの制御構造は、図５に示したものと同様である。

　＜動作＞
　音声合成システム２７０は以下のように動作する。音声コーパス記憶装置９０には、大量の発話信号が記憶されている。発話信号はフレーム単位で記憶されており、各音素に対して音素のコンテキストラベルが付されている。Ｆ０抽出部９２は、各発話の発話信号から不連続なＦ０パターン９３を出力する。Ｆ０平滑化部２９０は、不連続なＦ０パターン９３を平滑化し、連続Ｆ０パターン２９１を出力する。Ｆ０分離部２９２は、連続Ｆ０パターン２９１と、Ｆ０抽出部９２の出力する不連続なＦ０パターン９３とを受け、前述した方法にしたがって、各フレームについてフレーズ成分Ｐの時間変化パターン、アクセント成分Ａの時間変化パターン、マイクロ・プロソディ成分Ｍの時間変化パターン、不連続なＦ０パターン９３から得られる、各フレームが有声区間か無声区間かを示す情報Ｆ０（Ｕ／Ｖ）、及び、スペクトルパラメータ抽出部９４が各発話の音声信号の各フレームについて算出したメルケプストラムパラメータからなる学習データベクトル２９３を、ＨＭＭ学習部２９４に与える。

　ＨＭＭ学習部２９４は、各発話の音声信号の各フレームについて、音声コーパス記憶装置９０から読出したラベルと、Ｆ０分離部２９２から与えられる学習データベクトル２９３と、スペクトルパラメータ抽出部９４からのメルケプストラムパラメータとから、前述した構成の素性ベクトルを学習データとし、推定対象のフレームのコンテキストラベルが与えられると、そのフレームのフレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍの時間変化パターンと、メルケプストラムパラメータとの値の確率を出力するよう、統計的なＨＭＭの学習を行なう。音声コーパス記憶装置９０の全ての発話についてＨＭＭの学習が完了すると、そのＨＭＭのパラメータはＨＭＭ記憶装置３１０に格納される。

　音声合成の対象となるテキストが与えられると、音声合成部２８２は以下のように動作する。テキスト解析部１１２は、与えられたテキストを解析し、合成すべき音声を示すコンテキストラベル列を生成し、パラメータ生成部３１２に与える。パラメータ生成部３１２は、このラベル列に含まれるラベルの各々について、ＨＭＭ記憶装置３１０を参照することにより、そのラベル列についてそうしたラベル列を生成する音声である確率が最も高いパラメータ列（フレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍの時間変化パターン、並びにメルケプストラムパラメータ）を生成し、フレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分ＭはＦ０パターン合成部３１４に、メルケプストラムパラメータは音声合成器１１６に、それぞれ与える。

　Ｆ０パターン合成部３１４はフレーズ成分Ｐ、アクセント成分Ａ、マイクロ・プロソディ成分Ｍの時間変化パターンを合成してＦ０パターンとして音声合成器１１６に与える。なお、本実施の形態では、ＨＭＭの学習時には、フレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍはいずれも対数で表現している。したがってＦ０パターン合成部３１４の合成では、これらを対数表現から通常の周波数成分に変換した後、互いに加算すればよい。このとき、学習時に各成分のゼロ点を移動させているので、ゼロ点を元に戻す操作も必要である。

　音声合成器１１６は、Ｆ０パターン合成部３１４から出力されるＦ０パターンにしたがった音声信号を合成し、さらにそれをパラメータ生成部３１２から与えられるメルケプストラムパラメータにしたがって変調するのに相当する信号処理を行ない、合成音声信号２８４を出力する。

　＜第２の実施の形態の効果＞
　この第２の実施の形態では、Ｆ０パターンをフレーズ成分Ｐ、アクセント成分Ａ及びマイクロ・プロソディ成分Ｍに分解し、それらを用いて別々のＨＭＭの学習を行なう。音声合成時には、テキスト解析の結果に基づき、これらＨＭＭを用いてフレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍを別々に生成する。さらに、生成されたフレーズ成分Ｐ、アクセント成分Ａ、及びマイクロ・プロソディ成分Ｍを合成することで、Ｆ０パターンを生成できる。こうして得られたＦ０パターンを用いると、第１の実施の形態と同様、自然な発話を得ることができる。さらに、アクセント成分ＡとＦ０パターンとの対応関係が明確なので、特定の単語についてアクセント成分Ａのレンジを大きくとることによって、当該単語に焦点を当てたりすることが容易に行なえる。これは例えば図６のアクセント成分２５０において縦線２５４の直前の成分に関して周波数を下げている操作、及び図６のアクセント成分２５０及び２５２において、末尾のＦ０パターンの周波数を落とす操作からも分かる。

　［コンピュータによる実現］
　上記第１実施の形態及び第２の実施の形態に係るＦ０パターン合成部は、いずれも、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図１０はこのコンピュータシステム５３０の外観を示し、図１１はコンピュータシステム５３０の内部構成を示す。

　図１０を参照して、このコンピュータシステム５３０は、メモリポート５５２及びＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）ドライブ５５０を有するコンピュータ５４０と、キーボード５４６と、マウス５４８と、モニタ５４２とを含む。

　図１１を参照して、コンピュータ５４０は、メモリポート５５２及びＤＶＤドライブ５５０に加えて、ＣＰＵ（中央処理装置）５５６と、ＣＰＵ５５６、メモリポート５５２及びＤＶＤドライブ５５０に接続されたバス５６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）５５８と、バス５６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）５６０と、ハードディスク５５４を含む。コンピュータシステム５３０はさらに、他端末との通信を可能とするネットワーク５６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）５４４を含む。

　コンピュータシステム５３０を上記した実施の形態に係るＦ０パターン生成合成部の各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ５５０又はメモリポート５５２に装着されるＤＶＤ５６２又はリムーバブルメモリ５６４に記憶され、さらにハードディスク５５４に転送される。又は、プログラムはネットワーク５６８を通じてコンピュータ５４０に送信されハードディスク５５４に記憶されてもよい。プログラムは実行の際にＲＡＭ５６０にロードされる。ＤＶＤ５６２から、リムーバブルメモリ５６４から又はネットワーク５６８を介して、直接にＲＡＭ５６０にプログラムをロードしてもよい。

　このプログラムは、コンピュータ５４０を、上記実施の形態に係るＦ０パターン合成部の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ５４０にこの動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ５４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ５４０にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の内、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。

　今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

　本発明は、音声合成を利用したサービスの提供、及び音声合成を用いた装置の製造に利用できる。

３０　Ｆ０パターン生成過程モデル
４０　フレーズコマンド
４２　フレーズ制御機構
４４　アクセントコマンド
４６　アクセント制御機構
４８，１５２　加算器
５０　Ｆ０パターン
７０，２７０　音声合成システム
８０，２８０　モデル学習部
８２，２８２　音声合成部
９０　音声コーパス記憶装置
９２　Ｆ０抽出部
９３　不連続なＦ０パターン
９４　スペクトルパラメータ抽出部
９５　メルケプストラムパラメータ
９６，２９４，３６９　ＨＭＭ学習部
１１０，３１０，１３９，３７０　ＨＭＭ記憶装置
１１２　テキスト解析部
１１４　パラメータ生成部
１１６　音声合成器
１３０，１７０　観測Ｆ０パターン
１３２，１７４，２９１　連続Ｆ０パターン
１３４，１４６，２００，２０２，２０４，２０６，２０８，２５０，２５２　アクセント成分
１３６，１４８，２２０，２２２，２４２，２４４　フレーズ成分
１３８，１５０　マイクロ・プロソディ成分
１４０，１４２，１４４　ＨＭＭ
４８，１５２　加算器
１５４，２４０，２４６　Ｆ０パターン
１７２　フレーズ成分
２９０　Ｆ０平滑化部
２９２　Ｆ０分離部
２９３　学習データベクトル
３１２　パラメータ生成部
３１４，３５９　Ｆ０パターン合成部
３６６　パラメータ推定部
３６８　Ｆ０パターンフィッティング部

Claims

　テキスト解析により得られた、発話のアクセント句に対して、所与の数のターゲットポイントを用いてＦ０パターンのアクセント成分を生成する手段と、
　発話の構造を含む言語情報にしたがって、発話を１つ以上のアクセント句を含むグループに分けることにより、限定された数のターゲットポイントを用いてＦ０パターンのフレーズ成分を生成する手段と、
　前記アクセント成分と前記フレーズ成分に基づいてＦ０パターンを生成する手段とを含む、定量的Ｆ０パターン生成装置。
　テキスト解析により得られた、発話のアクセント句に対して、所与の数のターゲットポイントを用いてＦ０パターンのアクセント成分を生成するステップと、
　発話の構造を含む言語情報にしたがって、発話を１つ以上のアクセント句を含むグループに分けることにより、限定された数のターゲットポイントを用いてＦ０パターンのフレーズ成分を生成するステップと、
　前記アクセント成分と前記フレーズ成分とに基づいてＦ０パターンを生成するステップとを含む、定量的Ｆ０パターン生成方法。
　Ｆ０パターンのフレーズ成分のターゲットパラメータ生成用の生成モデルと、Ｆ０パターンのアクセント成分のターゲットパラメータ生成用の生成モデルとのパラメータを記憶するモデル記憶手段と、
　音声合成の対象となるテキストの入力を受けてテキスト解析し、音声合成用の制御記号列を出力するテキスト解析手段と、
　前記テキスト解析手段の出力する制御記号列を前記フレーズ成分生成用の生成モデルと照合することにより、Ｆ０パターンのフレーズ成分を生成するフレーズ成分生成手段と、
　前記テキスト解析手段の出力する制御記号列を前記アクセント成分生成用の生成モデルと照合することにより、Ｆ０パターンのアクセント成分を生成するアクセント成分生成手段と、
　前記フレーズ成分生成手段により生成されたフレーズ成分、及び前記アクセント成分生成手段により生成されたアクセント成分を合成することにより、Ｆ０パターンを生成するＦ０パターン生成手段とを含む、定量的Ｆ０パターン生成装置。
　Ｆ０パターンのフレーズ成分のターゲットパラメータ生成用の生成モデルと、Ｆ０パターンのアクセント成分のターゲットパラメータ生成用の生成モデルとのパラメータを記憶したモデル記憶手段を用いる定量的Ｆ０パターン生成方法であって、
　音声合成の対象となるテキストの入力を受けてテキスト解析し、音声合成用の制御記号列を出力するテキスト解析ステップと、
　前記テキスト解析において出力される制御記号列を、前記記憶手段に記憶された前記フレーズ成分生成用の生成モデルと照合することにより、Ｆ０パターンのフレーズ成分を生成するフレーズ成分生成手段と、
　前記テキスト解析ステップにおいて出力される制御記号列を、前記記憶手段に記憶された前記アクセント成分生成用の生成モデルと照合することにより、Ｆ０パターンのアクセント成分を生成するアクセント成分生成ステップと、
　前記フレーズ成分生成ステップにおいて生成されたフレーズ成分、及び前記アクセント成分生成ステップにおいて生成されたアクセント成分を合成することにより、Ｆ０パターンを生成するＦ０パターン生成ステップとを含む、定量的Ｆ０パターン生成方法。
　音声データ信号からＦ０パターンを抽出するＦ０パターン抽出手段と、
　抽出されたＦ０パターンにフィットするＦ０パターンをフレーズ成分とアクセント成分との重畳により表すために、フレーズ成分を表すターゲットパラメータと、アクセント成分を表すターゲットパラメータとを推定するパラメータ推定手段と、
　前記パラメータ推定手段により推定されたフレーズ成分のターゲットパラメータ及びアクセント成分のターゲットパラメータにより表される、連続的なＦ０パターンを学習データとして、Ｆ０生成モデルの学習を行なうモデル学習手段とを含む、Ｆ０パターン生成のためのモデル学習装置。
　前記Ｆ０生成モデルは、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとを含み、
　前記モデル学習手段は、前記パラメータ推定手段により推定されたフレーズ成分のターゲットパラメータによって表されるフレーズ成分の時間変化パターンと、アクセント成分のターゲットパラメータにより表されるアクセント成分の時間変化パターンとをそれぞれ学習データとして、前記フレーズ成分生成用の生成モデルと、前記アクセント成分生成用の生成モデルとの学習を行なう手段を含む、請求項５に記載のＦ０パターン生成のためのモデル学習装置。
　音声データ信号からＦ０パターンを抽出するＦ０パターン抽出ステップと、
　前記Ｆ０パターン抽出ステップにおいて抽出されたＦ０パターンにフィットするＦ０パターンをフレーズ成分とアクセント成分との重畳により表すために、フレーズ成分を表すターゲットパラメータと、アクセント成分を表すターゲットパラメータとを推定するパラメータ推定ステップと、
　前記パラメータ推定ステップにおいて推定されたフレーズ成分のターゲットパラメータ及びアクセント成分のターゲットパラメータにより表される、連続的なＦ０パターンを学習データとして、Ｆ０生成モデルの学習を行なうモデル学習ステップとを含む、Ｆ０パターン生成のためのモデル学習方法。
　前記Ｆ０生成モデルは、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとを含み、
　前記モデル学習ステップは、前記パラメータ推定ステップにおいて推定されたフレーズ成分のターゲットパラメータによって表されるフレーズ成分の時間変化パターンと、アクセント成分のターゲットパラメータにより表されるアクセント成分の時間変化パターンとを学習データとして、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとの学習を行なうステップを含む、請求項７に記載のＦ０パターン生成のためのモデル学習方法。