JPWO2009044596A1

JPWO2009044596A1 - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JPWO2009044596A1
Application number: JP2009535999A
Authority: JP
Inventors: 康行三井; 玲史近藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-10-05
Filing date: 2008-08-28
Publication date: 2011-02-03
Anticipated expiration: 2028-08-28
Also published as: JP5387410B2; WO2009044596A1; US20100223058A1; KR101395459B1; KR20120124076A; KR20100065357A; KR101495410B1

Abstract

音声合成装置は、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成部（１０４）と、生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択部（１０６）と、生成されたピッチパタンが表す韻律を再現するように、選択された単位波形データを編集して合成音声を生成する音声波形生成部（１０７）とを備える。

Description

本発明は、ピッチパタン目標データに基づいて韻律を生成し、生成された韻律を再現するように合成音声を生成する音声合成装置、音声合成方法および音声合成プログラムに関するものである。

テキスト音声合成技術では、韻律制御が合成音の自然性に大きく影響することが知られている。極力人間に近い自然な合成音を生成するために、韻律制御、特にピッチパタン生成方法が開示されている。例えば特開２００５−２９２７０８号公報には、まずピッチパタン候補を生成し、当該ピッチパタン候補の一部を代替パタンで置換することによりピッチパタンを生成し、音声を合成する方法が開示されている。

また、特開２００１−２４９６７８号公報には、入力テキストと全部ないしは一部のテキストが一致するデータベース内のイントネーションデータを用いて、合成音声を生成する技術が開示されている。
また、特許第３２３５７４７号公報には、周期性を有する有声部分に関しては実音声の分析処理によって得られた各１ピッチ周期分に対応する音声波形データを使用し、周期性の無い無声部分に関しては実音声をそのまま音声波形データとして使用し、合成音声を生成する技術が開示されている。以下、特開２００５−２９２７０８号公報、特開２００１−２４９６７８号公報、特許第３２３５７４７号公報に開示された技術を第１の関連例と呼ぶ。

また、テキスト音声合成技術、特に波形編集方式による音声合成技術では、韻律を生成し、その韻律を再現するように単位波形を編集して全体の波形を構成する。その際、収録された音声からのピッチ周波数の変更により、生成される合成音の音質が低下することが知られている。この音質劣化を防ぐために、例えば、ＣＨＡＴＲと呼ばれる音声合成方式のように、波形のピッチ周波数情報を変更せずに接続することで、高音質な合成音を生成する方法が文献「ニック・キャンベル，アラン・ブラック，“ＣＨＡＴＲ：自然音声波形接続型任意音声合成システム”，信号処理学会技術報告，ｖｏｌ．９６，ｎｏ．３９，ｐ．４５−５２，１９９６」に開示されている。以下、この文献に開示された方法を第２の関連例と呼ぶ。

第１の関連例では、波形の音質劣化について全く考慮されていないため、生成された韻律を再現しようとすると、音質が劣化してしまうという問題点があった。
また、第２の関連例では、収録された波形をそのまま接続するため、非常に高音質であるが、ピッチパタンの形状を変更しないため、思い通りの韻律が再現できず、生成される合成音の韻律の安定性が非常に低くなるという問題点があった。

本発明は、上記課題を解決するためになされたもので、韻律の自然性と安定性を保ち、かつ音質の高い合成音声を生成することができる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。

本発明の音声合成装置は、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成手段と、前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択手段と、前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成手段とを備えることを特徴とするものである。

また、本発明の音声合成方法は、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを備えることを特徴とするものである。

また、本発明の音声合成プログラムは、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを、コンピュータに実行させることを特徴とするものである。

本発明によれば、標準パタンと元発話パタンとを組み合わせてピッチパタンを生成し、かつ元発話パタン部分では対応する元発話単位波形データを使用し、収録音声におけるピッチパタンを忠実に再現するため、各アクセント句および文全体の韻律の自然性と安定性を保ち、かつ音質の高い合成音声を生成することができる。

図１は、本発明の第１実施例に係る音声合成装置の構成を示すブロック図である。図２は、本発明の第１実施例に係る音声合成装置の動作を示すフローチャートである。図３は、本発明の第２実施例に係る音声合成装置の構成を示すブロック図である。図４は、本発明の第３実施例に係る音声合成装置の構成を示すブロック図である。図５は、本発明の第４実施例に係る音声合成装置の概要を示すブロック図である。図６は、本発明の第４実施例におけるピッチパタン生成部の構成例を示すブロック図である。図７は、本発明の第４実施例におけるピッチパタン生成部の動作を示すフローチャートである。図８は、本発明の第４実施例において標準パタンと元発話パタンを接続する例を示す図である。図９は、本発明の第４実施例におけるピッチパタンの節点位置を表す概念図である。図１０は、本発明の第５実施例におけるピッチパタン生成部の構成例を示すブロック図である。図１１は、本発明の第５実施例におけるピッチパタン生成部の動作を示すフローチャートである。

［第１実施例］
以下、本発明を実施するための最良の実施例について図面を参照して説明する。なお、全ての図面において同様な構成要素には同様の符号を付し、適宜説明を省略する。
図１は本発明の第１実施例に係る音声合成装置の構成を示すブロック図、図２は図１の音声合成装置の動作を示すフローチャートである。
図１を参照すると、本実施例に係る音声合成装置は、ピッチパタン生成部１０４と、単位波形選択部１０６と、音声波形生成部１０７とを備えている。

以下、図１および図２を参照して、本実施例の動作について説明する。
ピッチパタン生成部１０４は、ピッチパタン生成に必要な情報であるピッチパタン目標データが入力されると（図２ステップＳ１０１）、このピッチパタン目標データに基づいて、予め用意された標準パタンと元発話パタンとを組み合わせてピッチパタンを生成する（ステップＳ１０２）。ピッチパタン目標データは、少なくとも音節、音素、単語等からなる音韻情報を含む。標準パタンは、音声の少なくとも１つ以上のピッチパタンの概形を近似的に表現するものである。元発話パタンは、収録音声のピッチパタンを忠実に再現するものである。

単位波形選択部１０６は、ピッチパタン生成部１０４で生成されたピッチパタンに基づいて、単位波形データを選択する（ステップＳ１０３）。このとき、単位波形選択部１０６は、ピッチパタン生成部１０４で生成されたピッチパタン内において、元発話パタンで構成されている部分については、対応する元発話単位波形データを選択し、収録音声におけるピッチパタンを忠実に再現する。標準パタンで構成されている部分については、いかなる単位波形を使用しても構わない。単位波形データは、収録音声から予め生成される。ここで、単位波形とは、合成音を構成する最小単位となる音声波形を指す。

音声波形生成部１０７は、ピッチパタン生成部１０４で生成されたピッチパタンおよび単位波形選択部１０６で選択された単位波形データに基づいて、音声波形データを生成する（ステップＳ１０４）。この音声波形の生成は、単位波形をピッチパタンに基づいて並べ波形重畳していけばよい。

本実施例によれば、標準パタンと元発話パタンとを組み合わせてピッチパタンを生成し、かつ元発話パタン部分では対応する単位波形を使用し、収録音声におけるピッチパタンを忠実に再現するため、安定性と自然性の高い合成音を生成することが可能となる。

［第２実施例］
続いて、本発明の第２実施例について説明する。図３は本発明の第２実施例に係る音声合成装置の構成を示すブロック図である。本実施例は、第１実施例をより具体的に説明するものである。
図３を参照すると、本実施例に係る音声合成装置は、ピッチパタン目標データ入力部１０１と、標準パタン記憶部１０２と、元発話パタン記憶部１０３と、ピッチパタン生成部１０４と、単位波形記憶部１０５と、単位波形選択部１０６と、音声波形生成部１０７とを備えている。

本実施例においても音声合成装置の全体的な動作は第１実施例と同様であるので、図２および図３を参照して本実施例の動作について説明する。
標準パタン記憶部１０２には、音声の少なくとも１つ以上のピッチパタンの概形を近似的に表現する標準パタンが予め記憶されている。

元発話パタン記憶部１０３には、収録音声のピッチパタンを忠実に再現する元発話パタンが予め記憶されている。
単位波形記憶部１０５には、収録音声から生成された単位波形データが予め記憶されている。この単位波形は、少なくとも前記元発話パタンに対応する元発話単位波形を含む。

ピッチパタン目標データ入力部１０１は、ピッチパタン生成に必要な情報であるピッチパタン目標データをピッチパタン生成部１０４に入力する（図２ステップＳ１０１）。
ピッチパタン生成部１０４は、ピッチパタン目標データに基づいて、標準パタン記憶部１０２に記憶されている標準パタンと元発話パタン記憶部１０３に記憶されている元発話パタンとを組み合わせてピッチパタンを生成する（ステップＳ１０２）。

単位波形選択部１０６は、ピッチパタン生成部１０４で生成されたピッチパタンに基づいて、単位波形記憶部１０３に記憶されている単位波形データを選択する（ステップＳ１０３）。
音声波形生成部１０７は、ピッチパタン生成部１０４で生成されたピッチパタンおよび単位波形選択部１０６で選択された単位波形データに基づいて、音声波形データを生成する（ステップＳ１０４）。
こうして、本実施例によれば、第１実施例と同様の効果を得ることができる。

［第３実施例］
続いて、本発明の第３実施例について、図面を参照して説明する。図４は本発明の第３実施例に係る音声合成装置の構成を示すブロック図である。
図４を参照すると、本実施例に係る音声合成装置は、第２実施例の構成に加えて、標準単位波形記憶部１０９を備え、さらに単位波形記憶部１０５の代わりに元発話単位波形記憶部１０８を備え、単位波形選択部１０６の代わりに単位波形選択部１０６ａを備えるものである。

本実施例においても音声合成装置の全体的な動作は第１実施例と同様であるので、図２および図４を用いて本実施例の動作について説明する。
元発話単位波形記憶部１０８には、元発話パタンに対応する元発話単位波形データが予め記憶されている。
標準単位波形記憶部１０９には、標準パタンに対応する標準単位波形データが予め記憶されている。

ピッチパタン目標データ入力部１０１とピッチパタン生成部１０４の動作は、第１実施例と同じである（ステップＳ１０１，Ｓ１０２）。
単位波形選択部１０６ａは、ピッチパタン生成部１０４で生成されたピッチパタンに基づいて、元発話単位波形記憶部１０８および標準単位波形記憶部１０９に記憶されている単位波形データを選択する（ステップＳ１０３）。このとき、単位波形選択部１０６ａは、ピッチパタン生成部１０４で生成されたピッチパタン内において、元発話パタンで構成されている部分については、元発話単位波形記憶部１０８に記憶されている対応する元発話単位波形データを選択し、収録音声におけるピッチパタンを忠実に再現する。また、単位波形選択部１０６ａは、生成されたピッチパタン内において、標準パタンで構成されている部分については、標準単位波形記憶部１０９に記憶されている標準単位波形データを選択する。

音声波形生成部１０７の動作は、第１実施例と同じである（ステップＳ１０４）。こうして、本実施例によれば、元発話パタン部分と標準パタン部分で使用する単位を区別できるため、それぞれのパタンにより最適な単位を選択することができる。

［第４実施例］
続いて、本発明の第４実施例について説明する。図５は本発明の第４実施例に係る音声合成装置の概要を示すブロック図である。本実施例は、第２実施例のより具体的な例を示すものである。

言語解析部３０１は、言語解析用データベース３０６を用いて入力テキストデータを解析し、アクセント句ごとにピッチパタン目標データと継続時間長データを作成する。このときの言語解析には、既存の形態素解析手法を用いる。

ピッチパタン目標データは、アクセント句ごとの、音節列、音素、単語等の音韻情報を少なくとも含む。さらに、ピッチパタン目標データは、ポーズ位置、モーラ数、アクセント型、アクセント句の区切り、文中におけるアクセント句の位置等の情報を含むものであってもよい。

本実施例におけるピッチパタン生成部１０４の詳細な構成例を図６に示し、このピッチパタン生成部１０４の動作を図７に示す。ピッチパタン生成部１０４は、元発話パタン選択部３０３と、標準パタン選択部３０４と、パタン接続部３０５とから構成される。
元発話パタン選択部３０３は、ピッチパタン目標データおよび元発話パタン記憶部１０３内に記憶されている元発話パタンの音韻情報やアクセント位置等を利用して、ピッチパタン内で使用される元発話パタンを選択する（図７ステップＳ２０１）。

元発話パタン選択部３０３による元発話パタンの選択方法について、具体例を用いて説明する。
元発話パタン記憶部１０３には、元発話パタンおよび発声内容を示す音節列データが記憶されている。元発話パタンは、収録音声のピッチ周波数の微細変化を含むピッチパタンを忠実に再現するパタンであり、時刻情報とピッチ周波数の数値とを持つ節点により表現される。また、元発話パタン記憶部１０３には、元発話パタンとして、「稼動していなければ（かどーしていな”ければ）」という発話内容の収録音声を表現する元発話パタンが記憶されているものとする。ここで、「”」は標準語におけるアクセント位置を示している。

元発話パタン選択部３０３は、元発話パタン記憶部１０３に記憶されている音節列情報に基づいて元発話パタンを検索し、ピッチパタン目標データと一致する元発話パタンを選択する。例えば、テキストデータとして「作動していなかった」が入力されたとすると、ピッチパタン目標データが示す音節列は「さどーしていな”かった」となる。元発話パタン選択部３０３は、元発話パタン記憶部１０３内の元発話パタンデータから、音節列およびアクセント位置がピッチパタン目標データと一致する部分を検索する。

前記の例の場合、「かどーしていな”ければ」の「どーしていな”」の部分が音節列およびアクセント位置の両方が一致しているため、検索結果として該当し、元発話パタンとして使用できる。このようにして、当該アクセント句内の元発話パタンが選択される。なお、アクセント句内において元発話パタンが使用される区間が決定されると、当該アクセント句内のその他の区間では標準パタンが使用されることになるので、標準パタンが使用される区間も同時に決定されることになる。

標準パタン記憶部１０２は、標準パタンを記憶している。標準パタンは、元発話パタンと比較して大幅に節点が少なく、音節列に依存しない標準的なピッチパタンを表現するパタンである。標準パタンは、元発話パタンと同様に、時刻情報とピッチ周波数の数値とを持つ節点により表現される。

標準パタン選択部３０４は、元発話パタン選択部３０３で決定された標準パタンの区間で使用する標準パタンを、標準パタン記憶部１０２内に記憶されている標準パタンの中から選択する（ステップＳ２０２）。標準パタン選択部３０４は、ピッチパタン目標データに含まれるアクセント句のモーラ数とアクセント型とに基づいて、一致する標準パタンを選択する。

パタン接続部３０５は、元発話パタン選択部３０３によって選択された元発話パタンと標準パタン選択部３０４によって選択された標準パタンとを接続し、当該アクセント句のピッチパタンを生成する（ステップＳ２０３）。標準パタンを変形することで、元発話パタンと標準パタンとが滑らかに接続される。

図８に、前記「作動していなかった（さどーしていなかった）」の例について、標準パタンと元発話パタンの接続例を示す。図８において、７００は標準パタン、７０１は元発話パタンである。図８に示すとおり、先頭の「さ」および末尾の「かった」が標準パタン区間となり、「どーしていな」が元発話パタン区間となっており、標準パタンと元発話パタンが端点で滑らかに接続されている。標準パタンと元発話パタンの接続方法としては、標準パタンの端点ピッチ周波数とこれに接続する元発話パタンの端点ピッチ周波数とが一致するようにピッチ周波数軸方向に標準パタンを平行移動させる方法が考えられる。

また、図９に、ピッチパタンの節点位置を表す概念図を示す。図９のピッチパタン上に配置された黒点７０は、ピッチパタンを表現する節点を表している。また、８００は標準パタン区間、８０１は元発話パタン区間である。図９を参照すると、標準パタン区間では節点が疎であるのに対し、元発話パタン区間では非常に密に節点が配置される。したがって、標準パタン区間においては、節点間のピッチパタンについて補間をする必要があるが、元発話パタン区間においては、補間せずに収録音声を再現する。パタン接続部３０５による標準パタンの補間の方法としては、スプライン関数による補間等が考えられる。

継続時間長生成部３０２は、言語解析部３０１で生成された継続時間長データに基づいて、音節列の継続時間長を生成する。
単位波形選択部１０６は、継続時間長生成部３０２で生成された継続時間長データとピッチパタン生成部１０４で生成されたピッチパタンとを含む韻律データに基づいて、単位波形記憶部１０５内に記憶された単位波形データを選択する。ここで、ピッチパタン内の元発話パタン区間については、対応する単位波形データを選択する。したがって、単位を選択する際には、元発話パタン区間の単位波形との接続を考慮して標準パタン区間の単位が選択されることになる。

音声波形生成部１０７は、生成された韻律を再現するように、単位波形選択部１０６で選択された単位波形データを編集し、合成音を生成する。
本実施例を用いれば、元発話パタン区間では対応する元発話波形単位を、収録音声が再現されるように用い、その他の区間ではピッチパタンの概形を損なわないように標準パタンを用いるため、安定したピッチパタンを生成し、収録音声に匹敵する高い自然性と音質を持つ合成音を生成することが可能となる。

本実施例では、元発話パタン記憶部１０３に元発話パタンの音節列情報が記憶されているが、単位波形記憶部１０５に音節列情報が記憶されていてもよいし、元発話パタン記憶部１０３と対応する図示しない別のデータベース（単位波形音節列情報記憶部）に音節列情報が記憶されていてもよい。このように元発話パタン記憶部１０３以外に元発話パタンの音節列情報が記憶されている場合、元発話パタン選択部３０３は、単位波形記憶部１０５または単位波形音節列情報記憶部を参照して音節列を決定する。

また、本実施例では、標準パタンと元発話パタンを、音節を最小単位として区切っているが、音素や半音素を最小単位として区切っても構わない。半音素のように細かい単位を用いれば、より柔軟に元発話パタン区間と標準パタン区間の接続箇所を設定することができる。

また、標準パタンと元発話パタンの区切りが、単位波形記憶部１０５に記憶されている最小単位と同一の区切りとなる必要はない。例えば単位波形記憶部１０５には、半音素を最小単位とする単位波形が記憶されているのに対し、元発話パタンと標準パタンの切り替わりは、音節を最小単位として行われても構わない。

さらに、本実施例では、標準パタンと元発話パタンの接続の際に、標準パタンを変形（ピッチ周波数軸方向の平行移動）することで滑らかに接続しているが、元発話パタンを変形しても構わない。元発話パタンを変形すれば、標準パタンの変形だけでは標準パタンと元発話パタンを滑らかに接続できない場合にも対応することができる。

また、本実施例では、標準パタン記憶部１０２を備え、標準パタンを時刻情報とピッチ周波数の値で記憶しているが、標準パタン記憶部１０２を持たずに、Ｆ０生成過程モデル（藤崎モデル）等のモデルを用いて、標準パタンを生成しても構わない。

［第５実施例］
続いて、本発明の第５実施例について説明する。本実施例の音声合成装置は全体として第４実施例と同様の構成を持ち、ピッチパタン生成部１０４内の構成と動作のみが異なる。したがって、ピッチパタン生成部１０４の詳細な構成例のみを、図１０を参照して説明する。
本実施例のピッチパタン生成部１０４は、元発話パタン選択部３０３ａと、標準パタン選択部３０４ａと、パタン接続部３０５ａと、元発話パタン候補検索部３０７と、ピッチパタン決定部３０８とから構成される。本実施例のピッチパタン生成部１０４の動作を図１１に示す。

元発話パタン候補検索部３０７は、ピッチパタン目標データと元発話パタン記憶部１０３に記憶されている音節列情報に基づいて、ピッチパタン目標データと一致する元発話パタンの候補を検索する（図１１ステップＳ３０１）。このとき、元発話パタン候補検索部３０７は、元発話パタン記憶部１０３内に、該当する複数の元発話パタンが記憶されていた場合、該当する全ての候補を標準パタン選択部３０４ａおよび元発話パタン選択部３０３ａに出力する。本実施例では、複数の元発話パタンが候補として検索されたものとする。

元発話パタン選択部３０３ａは、元発話パタン候補検索部３０７で検索された全ての元発話パタンを元発話パタンの候補として選択する（ステップＳ３０２）。第４実施例で説明したとおり、元発話パタン選択部３０３ａによって元発話パタンが使用される区間が決定されると、標準パタンが使用される区間も同時に決定されることになる。

標準パタン選択部３０４ａは、元発話パタン選択部３０３ａで決定された標準パタンの区間で使用する標準パタンの候補を、標準パタン記憶部１０２内に記憶されている標準パタンの中から選択する（ステップＳ３０３）。標準パタン選択部３０４ａの動作は、第４実施例の標準パタン選択部３０４と同様である。標準パタン選択部３０４ａは、標準パタンの候補の選択を元発話パタン選択部３０３ａで選択された元発話パタンの候補の各々について行う。

パタン接続部３０５ａは、元発話パタン選択部３０３ａによって選択された元発話パタンの候補と標準パタン選択部３０４ａによって選択された標準パタンの候補とを接続し、ピッチパタンの候補を生成する（ステップＳ３０４）。パタン接続部３０５ａの動作は、第４実施例のパタン接続部３０５と同様である。ただし、ここでは元発話パタンを変形（ピッチ周波数軸方向の平行移動）することで元発話パタンと標準パタンを接続している。パタン接続部３０５ａは、このようなピッチパタン候補の生成を、元発話パタンの候補とこれに対応する標準パタンの候補との組み合わせの各々について行う。

ピッチパタン決定部３０８は、パタン接続部３０５ａで生成された複数のピッチパタン候補の中から、予め設定された選択基準に従って最適なピッチパタンを決定する（ステップＳ３０５）。最適なピッチパタンの選択基準について、詳細に説明する。ピッチパタン生成の観点からは、標準パタンと元発話パタンを滑らかに接続し、かつ目標とするピッチパタンを生成するために、元発話パタンのピッチ周波数を変更する必要がある。しかし、単位波形のピッチ周波数を変更して波形を編集すると、編集後の波形の音質が劣化することが広く知られている。したがって、音質の観点からは、元発話パタン区間のピッチ周波数の変更量は極力少なくすべきである。そこで、複数のピッチパタン候補の中から最適なピッチパタンを決定する選択基準として、「元発話パタン区間のピッチ周波数変更量が最も少ないピッチパタン候補を最適なピッチパタンとする」という選択基準を用いる。

本実施例を用いれば、元発話パタン記憶部１０３に条件に合致する元発話パタンが複数存在している場合、その中から最もピッチ周波数変更量の少ない元発話パタンを使用したピッチパタンを選択するため、さらに高い自然性と音質を持つ合成音を生成することが可能となる。

本実施例では、パタン接続部３０５ａにおいて、実際に複数のピッチパタンを生成してから、ピッチパタン決定部３０８において、１つのピッチパタンを決定しているが、実際にピッチパタンを生成しなくても構わない。例えば、元発話パタンの端点におけるピッチ周波数の変更量のみを計算し、変更量が最も少ないピッチパタンを選択する方法等も考えられる。

また、本実施例では、元発話パタン候補検索部３０７において、元発話パタンの候補数を制限することも考えられる。制限方法としては、音節列の長さが短い元発話パタン候補を除外する方法や、目標ピッチ周波数を計算し、目標ピッチ周波数に対する差分値が大きい元発話パタン候補を除外する方法等がある。これにより、計算負荷を軽減することが可能となる。

また、最適なピッチパタンの選択基準として、「生成されるアクセント句のピッチパタンの形状が、アクセント句の標準パタンの形状に類似するピッチパタン候補がより適したピッチパタンである」という基準をさらに追加することも考えられる。この基準を用いれば、生成されたピッチパタンの概形が、標準的なピッチパタンから大きく外れるという問題を防ぐことが可能となる。ここで、パタン形状は、パタンの形状を簡単に示した情報、例えば、始点、最高点、終点の３点のピッチ周波数と時刻情報により表される概形を用いて類似度を判定しても良い。このように簡略化した概形を選択基準に用いれば、計算負荷を軽減することが可能となる。

なお、第１実施例〜第５実施例において、ピッチパタン生成部１０４は、アクセント句の標準パタンを先に選択しておき、後に標準パタンの一部を元発話パタンに置換するようにしてもよい。

第１実施例〜第５実施例で説明した音声合成装置は、ＣＰＵ、記憶装置およびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。これらのコンピュータのＣＰＵは、記憶装置に格納されたプログラムに従って第１実施例〜第５実施例で説明した処理を実行する。

以上、上記実施例を参照して本発明を説明したが、本発明は、上記実施例だけに限定されるものではない。本発明の構成や詳細は、上記実施例を適宜組み合わせて用いてもよく、さらに本発明の請求の範囲内において、適宜変更することもできる。
この出願は、２００７年１０月５日に出願された日本出願特願２００７−２６１７０４号を基礎とする優先権を主張し、その開示の内容を全てここに取り込む。

本発明は、音声合成技術に適用することができる。

Claims

少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成手段と、
前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択手段と、
前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成手段とを備えることを特徴とする音声合成装置。
請求項１記載の音声合成装置において、
前記単位波形選択手段は、前記標準パタンを使用する区間においては前記元発話単位波形とは別の単位波形データを選択することを特徴とする音声合成装置。
請求項１記載の音声合成装置において、
さらに、前記元発話パタンとこの元発話パタンに対応する音節列情報とを記憶する元発話パタン記憶手段を備え、
前記ピッチパタン生成手段は、
少なくとも前記ピッチパタン目標データと前記元発話パタン記憶手段に記憶された音節列情報に基づいて前記元発話パタンを選択する元発話パタン選択手段と、
前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンを選択する標準パタン選択手段と、
前記元発話パタン選択手段によって選択された元発話パタンと前記標準パタン選択手段によって選択された標準パタンとを接続して前記ピッチパタンを生成するパタン接続手段とからなることを特徴とする音声合成装置。
請求項１記載の音声合成装置において、
前記ピッチパタン生成手段は、前記元発話単位波形データの特徴量に基づいて、前記標準パタンと前記元発話パタンの構成を決定するものであり、
前記元発話単位波形データの特徴量として、少なくともピッチ周波数を含むことを特徴とする音声合成装置。
請求項４記載の音声合成装置において、
前記ピッチパタン生成手段は、前記元発話パタン区間において、単位波形データの特徴量の変更量が最小になるように前記標準パタンと前記元発話パタンの構成を決定することを特徴とする音声合成装置。
請求項１記載の音声合成装置において、
前記ピッチパタン生成手段は、アクセント句全体の標準パタンの一部を元発話パタンに置換することを特徴とする音声合成装置。
請求項１記載の音声合成装置において、
さらに、入力テキストデータを言語解析し、前記ピッチパタン目標データを作成する言語解析手段を備えることを特徴とする音声合成装置。
請求項１記載の音声合成装置において、
さらに、前記元発話パタンとこの元発話パタンに対応する音節列情報とを記憶する元発話パタン記憶手段を備え、
前記ピッチパタン生成手段は、
少なくとも前記ピッチパタン目標データと前記元発話パタン記憶手段に記憶された音節列情報に基づいて、前記ピッチパタン目標データと一致する元発話パタンの候補を検索する元発話パタン候補検索手段と、
この元発話パタン候補検索手段で検索された全ての元発話パタンを元発話パタンの候補として選択する元発話パタン選択手段と、
前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンの候補を選択する標準パタン選択手段と、
前記元発話パタン選択手段によって選択された元発話パタンの候補と前記標準パタン選択手段によって選択された標準パタンの候補とを接続して前記ピッチパタンの候補を生成するパタン接続手段と、
このパタン接続手段で生成された複数のピッチパタン候補の中から、予め設定された選択基準に従って最適なピッチパタンを決定するピッチパタン決定手段とからなることを特徴とする音声合成装置。
少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、
前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、
前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを備えることを特徴とする音声合成方法。
請求項９記載の音声合成方法において、
前記単位波形選択ステップは、前記標準パタンを使用する区間においては前記元発話単位波形とは別の単位波形データを選択することを特徴とする音声合成方法。
請求項９記載の音声合成方法において、
前記ピッチパタン生成ステップは、
少なくとも前記ピッチパタン目標データと元発話パタン記憶手段に記憶された元発話パタンの音節列情報に基づいて前記元発話パタンを選択する元発話パタン選択ステップと、
前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンを選択する標準パタン選択ステップと、
前記元発話パタン選択ステップによって選択された元発話パタンと前記標準パタン選択ステップによって選択された標準パタンとを接続して前記ピッチパタンを生成するパタン接続ステップとからなることを特徴とする音声合成方法。
請求項９記載の音声合成方法において、
前記ピッチパタン生成ステップは、前記元発話単位波形データの特徴量に基づいて、前記標準パタンと前記元発話パタンの構成を決定するステップを含むものであり、
前記元発話単位波形データの特徴量として、少なくともピッチ周波数を含むことを特徴とする音声合成方法。
請求項１２記載の音声合成方法において、
前記ピッチパタン生成ステップは、前記元発話パタン区間において、単位波形データの特徴量の変更量が最小になるように前記標準パタンと前記元発話パタンの構成を決定することを特徴とする音声合成方法。
請求項９記載の音声合成方法において、
前記ピッチパタン生成ステップは、アクセント句全体の標準パタンの一部を元発話パタンに置換するステップを含むことを特徴とする音声合成方法。
請求項９記載の音声合成方法において、
さらに、前記ピッチパタン生成ステップの前に、入力テキストデータを言語解析し、前記ピッチパタン目標データを作成する言語解析ステップを備えることを特徴とする音声合成方法。
請求項９記載の音声合成方法において、
前記ピッチパタン生成ステップは、
少なくとも前記ピッチパタン目標データと元発話パタン記憶手段に記憶された元発話パタンの音節列情報に基づいて、前記ピッチパタン目標データと一致する元発話パタンの候補を検索する元発話パタン候補検索ステップと、
この元発話パタン候補検索ステップで検索された全ての元発話パタンを元発話パタンの候補として選択する元発話パタン選択ステップと、
前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンの候補を選択する標準パタン選択ステップと、
前記元発話パタン選択ステップによって選択された元発話パタンの候補と前記標準パタン選択ステップによって選択された標準パタンの候補とを接続して前記ピッチパタンの候補を生成するパタン接続ステップと、
このパタン接続ステップで生成された複数のピッチパタン候補の中から、予め設定された選択基準に従って最適なピッチパタンを決定するピッチパタン決定ステップとからなることを特徴とする音声合成方法。
少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、
前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、
前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを、コンピュータに実行させることを特徴とする音声合成プログラム。