WO2011030424A1

WO2011030424A1 - 音声合成装置およびプログラム

Info

Publication number: WO2011030424A1
Application number: PCT/JP2009/065838
Authority: WO
Inventors: 正統田村; 籠嶋　岳彦
Original assignee: 株式会社東芝
Priority date: 2009-09-10
Filing date: 2009-09-10
Publication date: 2011-03-17
Also published as: JP5275470B2; JPWO2011030424A1

Abstract

　入力されたテキストデータの音韻系列を複数のセグメントに分割する分割部と、記憶部において、セグメントの音韻系列と同一の音韻系列に対応付けられている複数の音声素片を抽出する音声素片抽出部と、複数の音声素片の中から、コストが最小となる最適素片を選択する最適素片選択部と、最適素片のうち処理対象となる対象セグメントに対して選択された最適素片である対象素片に隣接する第２隣接素片と、記憶部において対象素片に対応付けられている第１隣接素片とが一致する場合に第１個数、一致しない場合に第２個数を割り当てる個数割当部と、個数が複数である場合に、複数の音声素片から音声素片を選択し、個数が１である場合に前記最適素片を選択する音声素片選択部と、複数の音声素片が選択された場合に、複数の音声素片を融合し融合素片を得る音声素片融合部と、融合素片または最適素片を接続し、音声波形を生成する接続部とを備えた。

Description

音声合成装置およびプログラム

　本発明は、音声合成に関する。

　従来、音声合成の方式であるコーパス方式の１つとして素片選択に基づく音声合成方法が知られている。素片選択に基づく音声合成においては、音声データを所定の音声単位に分割した音声素片から最適音声素片を選択し、選択した最適音声素片から音声波形を生成する。しかしながら、音声波形をそのまま接続して音声を合成すると、肉声感の高い音声が得られるものの、接続点の不連続により音質劣化が生じる。また、韻律変形を行って接続した場合には、韻律変形により肉声感が劣化してしまう。このような音声劣化を防ぐものとして、例えば特許文献１には、合成すべき音声との歪みの度合い等に基づいて融合方法を決定する装置が開示されている。

　しかしながら、例えば特許文献１にかかる技術においても、音質劣化を十分に低減できたとは言い難く、音質劣化の問題は依然解消されていない。

特開２００６－２７６５２２号公報

　本発明は、上記に鑑みてなされたものであって、高品質な音声を合成することのできる音声合成装置およびプログラムを提供することを目的とする。

　本発明は、音声合成装置であって、音声データを所定の単位で分割して得た複数の音声素片と、当該音声素片の音韻系列と、当該音声素片に隣接する第１隣接素片を識別する識別情報を対応付けて記憶する記憶部と、入力されたテキストデータの音韻系列を前記音声素片と同一単位の複数のセグメントに分割する分割部と、前記記憶部において前記セグメントの音韻系列と同一の音韻系列に対応付けられている、複数の前記音声素片を抽出する音声素片抽出部と、前記テキストデータとともに入力された、前記セグメントの入力韻律情報に基づいて定まる目標音声と、前記複数の音声素片それぞれから合成された音声の間の歪みの度合いを示すコストを、前記セグメントの前記韻律情報に基づいて算出する算出部と、前記複数の音声素片の中から、前記コストが最小となる最適素片を選択する最適素片選択部と、前記テキストデータの前記音韻系列に含まれる複数のセグメントそれぞれに対して得られた前記最適素片の配列である最適素片系列に含まれる前記最適素片のうち処理対象となる対象セグメントに対して選択された最適素片である対象素片に隣接する第２隣接素片と、前記記憶部において前記対象素片に対応付けられている前記第１隣接素片とが一致するか否かを判定する隣接判定部と、前記第１隣接素片と第２隣接素片とが一致する場合に、前記対象セグメントに対し第１個数を割り当て、前記第１隣接素片と前記第２隣接素片とが一致しない場合に、前記対象セグメントに対し前記第１個数に比べて多い第２個数を割り当てる個数割当部と、割り当てられた個数が複数である場合に、前記対象セグメントに対し前記音声素片抽出部により抽出された複数の音声素片から、前記個数の音声素片を選択し、前記個数が１である場合に、前記対象セグメントに対し、前記最適素片選択部により選択された前記最適素片を選択する音声素片選択部と、複数の前記音声素片が選択された場合に、当該複数の音声素片を融合し融合素片を得る音声素片融合部と、前記対象セグメントに対し前記割り当てられた個数が複数の場合には融合素片、前記割り当てられた個数が１の場合には前記最適素片を接続し、音声波形を生成する接続部とを備えたことを特徴とする。

　また、本発明の他の形態は、コンピュータに音声合成処理を実行させるためのプログラムであって、前記コンピュータは、音声データを所定の単位で分割して得た複数の音声素片と、当該音声素片の音韻系列と、当該音声素片に隣接する第１隣接素片を識別する識別情報を対応付けて記憶する記憶部を備え、前記コンピュータを、入力されたテキストデータの音韻系列を前記音声素片と同一単位の複数のセグメントに分割する分割部と、前記記憶部において前記セグメントの音韻系列と同一の音韻系列に対応付けられている、複数の前記音声素片を抽出する音声素片抽出部と、前記テキストデータとともに入力された、前記セグメントの入力韻律情報に基づいて定まる目標音声と、前記複数の音声素片それぞれから合成された音声の間の歪みの度合いを示すコストを、前記セグメントの前記韻律情報に基づいて算出する算出部と、前記複数の音声素片の中から、前記コストが最小となる最適素片を選択する最適素片選択部と、前記テキストデータの前記音韻系列に含まれる複数のセグメントそれぞれに対して得られた前記最適素片の配列である最適素片系列に含まれる前記最適素片のうち処理対象となる対象セグメントに対して選択された最適素片である対象素片に隣接する第２隣接素片と、前記記憶部において前記対象素片に対応付けられている前記第１隣接素片とが一致するか否かを判定する隣接判定部と、前記第１隣接素片と第２隣接素片とが一致する場合に、前記対象セグメントに対し第１個数を割り当て、前記第１隣接素片と前記第２隣接素片とが一致しない場合に、前記対象セグメントに対し前記第１個数に比べて多い第２個数を割り当てる個数割当部と、割り当てられた個数が複数である場合に、前記対象セグメントに対し前記音声素片抽出部により抽出された複数の音声素片から、前記個数の音声素片を選択し、前記個数が１である場合に、前記対象セグメントに対し、前記最適素片選択部により選択された前記最適素片を選択する音声素片選択部と、複数の前記音声素片が選択された場合に、当該複数の音声素片を融合し融合素片を得る音声素片融合部と、前記対象セグメントに対し前記割り当てられた個数が複数の場合には融合素片、前記割り当てられた個数が１の場合には前記最適素片を接続し、音声波形を生成する接続部として機能させるためのプログラムである。

　本発明にかかる音声合成装置およびプログラムは、高品質な音声を合成することができるという効果を奏する。

音声合成装置１の構成図。音声合成部１４の構成を示すブロック図。音声素片記憶部１０２のデータ構成を示す図。音声波形データを示す図。音声波形データを示す図。音声波形データを示す図。音声素片選択部１１７の処理の説明図。音声合成処理を示すフローチャート。融合処理を示すフローチャート。融合処理の具体例を示す図。音声素片作成処理の具体例を示す図。音声データを示す図である。音声合成処理の具体例を示す図。音声合成部２４の構成を示すブロック図。音声素片記憶部１３０のデータ構成を示す図。音声合成処理を示すフローチャート。韻律情報融合処理を示すフローチャート。基本周波数系列の平滑化の処理を示す図。音声合成処理の具体例を示す図。音声合成部３４の構成を示すブロック図。

　以下に添付図面を参照して、この発明にかかる音声合成装置およびプログラムの実施の形態を詳細に説明する。図１に示すように、音声合成装置１は、テキスト入力部１１、言語処理部１２、韻律処理部１３、音声合成部１４、音声波形出力部１５を備えている。

　言語処理部１２は、テキスト入力部１１から入力されるテキストデータの形態素解析・構文解析を行い、音韻系列（音韻記号列）およびアクセント型などの情報を得て、その結果を韻律処理部１３へ送る。

　韻律処理部１３は、言語解析結果から音の長さを表す音韻継続長や音の高さを表す基本周波数などの韻律情報を生成し、音声合成部１４へ送る。

　音声合成部１４は、音韻系列及び韻律情報を入力し、音声波形を生成する。こうして生成された音声波形は音声波形出力部１５で出力される。

　図２に示すように、音声合成部１４は、音声データ記憶部１０１と、音声素片記憶部１０２と、分割部１１１と、音声素片抽出部１１２と、算出部１１３と、最適素片選択部１１４と、隣接判定部１１５と、個数割当部１１６と、音声素片選択部１１７と、音声素片作成部１１８と、音声素片融合部１１９と、接続部１２０とを有している。

　音声データ記憶部１０１は、音声合成に用いる音声波形データを記憶している。例えば「Ｖａｌｅｒｉｅ‘ｓ　ｆａｉｔｈ」に対する音声データ、「ｖａｌｕｅ－ａｄｄｅｄ　ｔａｘ」に対する音声データ、「ｖａｌｕｅ－ａｄｄｅｄ」に対する音声データというように、同一の音素に対する複数の音声波形データを記憶している。なお、各音声波形データはそれぞれ「Ｓ０１」、「Ｓ０２」など音声波形データを識別する音声データＩＤに対応付けられている。

　音声素片記憶部１０２は、図３に示すように、音声データ記憶部１０１に記憶されている音声データから得られた複数の音声素片の各種情報を記憶している。ここで、音声素片とは、所定の音声単位で音声データを分割することにより得られたデータである。音声単位は、例えば音素や、音素を分割した単位、またはこれら複数の組み合わせにより決定される単位である。音声単位は、具体的には、音素、音素をさらに半分に分割した半音素、音素の中心から隣接音素の中心までを単位とするダイフォン、前後の音素種別によって音素を分類したトライフォン、母音または子音＋母音からなる音節などを用いることができる。また、これらの基本的な音声単位が混在していてもよく、可変長であってもよい。音声合成の際に用いる音声単位を合成単位と呼び、後述の素片選択処理や波形生成処理を行う際の単位として用いる。なお、本実施の形態においては、音声単位と合成単位は同じであり、これをセグメントと称する。

　音声素片は、音声単位の分類名（たとえば音素名）の情報と境界の時刻の情報とを含むラベル情報を参照して、音声波形データを合成単位に分割することにより作成される。なお、本実施の形態においては、音声単位を半音素とする。すなわち、音素境界は半音素境界とする。

　音声素片記憶部１０２は、具体的には、音声素片を識別する音声素片ＩＤに対応付けて、音声素片の音声波形、ピッチ波形の中心位置を示すピッチマーク、隣接素片ＩＤを記憶している。本実施の形態の音声素片ＩＤは、音韻系列を含んでいる。例えば、図３に示す１行目の音声素片ＩＤ「ａｅ－Ｒ－１」の「ａｅ－Ｒ」は、音声素片の音韻系列（音素名）を示している。なお、末尾の「１」により、音韻系列が同一の他の音声素片と区別される。すなわち、末尾の素片番号により同一音韻系列の各音声素片も一意に識別される。

　隣接素片ＩＤは、隣接素片を識別する情報である。隣接素片は、音声素片が含まれていた音声データにおいて、この音声素片に隣接している音声素片のことである。すなわち、１つの音声素片に対し、前後の計２つの隣接素片が存在する。なお、先頭または末尾の音声素片については、隣接素片は１つである。なお、以下、音声データにおける隣接素片を第１隣接素片と称する。

　ピッチ波形は、その長さが音声の基本周期の数倍程度までであり、それ自身は基本周期を有さない比較的短い波形であり、そのスペクトルが音声信号のスペクトル包絡を表すものである。

　音声素片記憶部１０２においては、この他、音声素片の言語的または音響的な特徴を表す情報が属性情報として音声素片ＩＤに対応付けられている。具体的には、音韻環境情報、言語情報、韻律情報、音響パラメータ情報などの情報である。音韻環境情報としては、当該音声素片の音素名や先行または後続の音素名がある。言語情報としては、音声データにおける文内の位置、呼気段落内の位置、アクセント核からの位置、ストレスの有無、文の種別（疑問文・命令文・平叙文等）などがある。韻律情報としては、基本周波数（Ｆ０）および音韻継続時間長がある。音響パラメータ情報としては、接続境界におけるスペクトルパラメータ情報（メルケプストラム等）などがある。これ以外にも、強調の度合いや、感情、パラ言語情報などを含んでもよい。これらの情報は、音声データ記憶部１０１に記憶されている音声波形データから抽出される。

　図４－１に示すデータは、Ｓ０１で識別される「Ｖａｌｅｒｉｅ‘ｓ　ｆａｉｔｈ」の音声波形データである。図４－２に示すデータは、Ｓ０２で識別される「ｖａｌｕｅ－ａｄｄｅｄ　ｔａｘ」の音声波形データである。図４－３に示すデータは、Ｓ０３で識別される「ｖａｌｕｅ－ａｄｄｅｄ」の音声波形データである。音声データ記憶部１０１には、これらの音声波形データが音素境界および音素名と対応付けて記憶されている。音声素片記憶部１０２には、これらの音声波形データを前述のラベル情報に基づいて、音声単位、すなわち半音素に分割して得られた音声素片が記憶されている。

　例えば、Ｓ０１の音声波形データの「ｖ」、「ａｅ」、「l」の区間など半音素境界が切り出され、それぞれの音声素片名と対応付けて音声素片記憶部１０２に記憶される。このように、本実施の形態においては、半音素単位で音声波形を切り出したものを音声素片とする。なお、「ｖ－Ｌ－１」、「ｖ－Ｒ－１」、「ａｅ－Ｌ－１」、「ａｅ－Ｒ－１」等は、音声素片ＩＤを示している。音声素片ＩＤは、「音素名（音素記号）－Ｌ／Ｒ－素片番号」の規則にしたがって付与されている。ここで、Ｌ／ＲのうちＬは、音声素片が音素の左側の素片であることを示している。Ｒは、音声素片が音素の右側の素片であることを示している。

　分割部１１１は、言語処理部１２または韻律処理部１３から出力されたテキストデータに対応する音韻系列、音韻環境情報、言語情報、韻律情報、音響パラメータ情報などの情報を取得する。以下、入力されたテキストデータから得られた音韻系列を入力音韻系列、入力されたテキストデータから得られた韻律情報を入力韻律情報と称する。分割部１１１は、音韻系列等の情報に基づいて、入力音韻系列を複数のセグメントに分割する。ここで、セグメントとは、音声素片記憶部１０２に記憶されている音声素片と同一単位の音韻系列の区間である。

　音声素片抽出部１１２は、分割部１１１により得られた各セグメントに対し、音声素片記憶部１０２において、セグメントの音韻系列と同一の音韻系列に対応付けられている音声素片を抽出する。例えば、テキストデータから「ｖ－Ｒ」、「ａｅ－Ｌ」、「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ―Ｒ」の５つのセグメントが得られたとする。この場合、音声素片抽出部１１２は、音声素片記憶部１０２において各セグメントと音韻系列（音素名）が同一の音声素片を抽出する。具体的には、「ｖ－Ｒ」については、「ｖ－Ｒ－１」など、音声素片ＩＤのうち音素名を示す前方部分（この場合、「ｖ－Ｒ」）が一致するすべての音声素片を抽出する。同様に、「ａｅ－Ｌ」、「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ―Ｒ」についても、音素名が一致するすべての音声素片を抽出する。

　算出部１１３は、各セグメントの目標音声と、音声素片抽出部１１２により抽出された音声素片との間の歪みの度合いを示すコストを算出する。ここで、目標音声は、セグメントの音韻系列と韻律情報から定まる合成音声である。算出部１１３は、分割部１１１により得られたセグメントの韻律情報と音声素片抽出部１１２により抽出された音声素片の韻律情報に基づいて、コストを算出する。

　以下、コストの算出方法について説明する。コストは、コスト関数により求めることができる。コスト関数は、目標コストと接続コストの重み付け和として表される。目標コストは、分割部１１１により得られたセグメントの韻律情報と音声素片抽出部１１２により抽出された音声素片の韻律情報の違いに基づく歪みである。接続コストは、隣接する音声素片間の不連続の度合いを表す歪みである。

　すなわち、目標コストとは、音声素片記憶部１０２に記憶されている音声素片を入力されたテキストデータのもとで使用することによって生じる歪みであり、接続コストとは、接続する音声素片が不連続であることによって生じる歪みである。

　具体的には、まず、音声素片を変形・接続して合成音声を生成する際に生ずる歪みの要因ごとにサブコスト関数を定める。ここで、ｔ_ｉは、入力音韻系列および入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ_１，…，ｔ_Ｉ）としたときのｉ番目のセグメントの音声素片の目標とする音韻環境情報を表し、ｕ_ｉは音声素片記憶部１０２に記憶されている音声素片のうち、ｔ_ｉと同じ音韻の音声素片を表す。

　サブコスト関数は、音声素片記憶部１０２に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。当該コストを算出するために、当該音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定する目標コストと、当該音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定する接続コストという２種類のサブコストがある。

　目標コストとしては、音声素片記憶部１０２に記憶されている音声素片の基本周波数と目標の基本周波数との違いを表す基本周波数コスト、音声素片記憶部１０２に記憶されている音声素片の音韻継続時間長と目標の音韻継続時間長との違いを表す音韻継続時間長コスト、および音韻環境の違いをあらわす音韻環境コストを用いる。接続コストとしては、接続境界でのスペクトルの違いを表すスペクトル接続コストおよび基本周波数の違いを表す基本周波数接続コストを用いる。具体的には、基本周波数コストは、式（１）により算出される。

ここで、ｆ_０ ^ｕ _ｉ（ｔ）は音声素片記憶部１０２に記憶されている音声素片ｕ_ｉの基本周波数情報、ｆ_０ ^ｔ _ｉ（ｔ）は入力された属性ｔ_ｉから得られる目標の基本周波数情報、Ｔ^ｔ _ｉは目標の基本周波数のフレーム数、φ（ｔ）はフレーム数をそろえるためにマッピングする関数を表す。なお、音声素片記憶部１０２に平均基本周波数が記憶されている場合はその距離を基本周波数コストとして用いる。

　また、音韻継続時間長コストは、式（２）により算出される。

ここで、Ｔ^ｕ _ｉは音声素片ｕ_ｉの時間長を、Ｔ^ｔ _ｉは入力された属性ｔ_ｉから得られる目標の時間長を表す。

　音韻環境コストは、式（３）により算出される。

　スペクトル接続コストは、式（４）に示す２つの音声素片間のケプストラム距離から算出する。

ここで、ｃ^ｕ _ｉは音声素片ｕ_ｉの開始点の接続境界のケプストラムを、ｃ^ｕ _ｉ－１は音声素片ｕ_ｉ－１の終点の接続境界のケプストラムを表す。

　また、ｆ_０接続コストは、式（５）により算出される。

　以上、式（１）～（３）から、目標コストは式（６）のように定義される。
また、式（４）、（５）から、接続コストは式（７）のように定義される。

ここで、ｗ_ｎはサブコスト関数の重みを表す。本実施の形態においては、簡単のため、ｗ_ｎはすべて「１」とする。上記式（６）は、ある合成単位に、ある音声素片を当てはめた場合の当該音声素片の目標コストであり、式（７）は音声素片ｕ_ｉ－１とｕ_ｉを接続した場合の接続コストである。

　セグメントのそれぞれに対し、上記式（６）、（７）よりコストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、このコストを算出するためのコスト関数を式（８）のように定義する。

　算出部１１３は、式（８）のコスト関数により、音声素片抽出部１１２により抽出されたすべての音声素片に対するコストを算出する。

　最適素片選択部１１４は、算出部１１３により算出されたコストに基づいて、各セグメントの最適素片を選択する。ここで、最適素片とは、音声素片抽出部１１２により音声素片記憶部１０２から抽出された複数の音声素片のうち算出部１１３により算出されたコストが最小となる音声素片である。すなわち、最適素片選択部１１４は、コストが最小となる音声素片を最適素片として選択する。最適素片選択部１１４は、さらに選択した最適素片を対応するセグメントのテキストデータ内での配列に沿って配列することにより、最適素片系列を得る。すなわち、最適素片系列は、セグメントのテキストデータ内の配列に従った、最適素片の配列である。なお、最適素片系列のコストは、他のいずれの音声素片列よりも小さい値となる。最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃ　ｐｒｏｇｒａｍｍｉｎｇ）を用いてもよい。これにより、効率的に最適素片系列を得ることができる。

　隣接判定部１１５は、テキストデータから得られた複数のセグメントのうち処理対象となる対象セグメントに対して選択された最適素片である対象素片を選択する。隣接判定部１１５は、さらに最適素片系列において、対象素片に隣接する最適素片である隣接素片を特定する。すなわち、対象素片が、最適素片系列の先頭または最後の素片でない場合には、前後の２つの隣接素片が特定される。対象素片が最適素片系列の先頭または最後の素片である場合には、１つの隣接素片が特定される。そして、隣接判定部１１５は、特定した隣接素片と、音声素片記憶部１０２において対象素片に対応付けられている隣接素片とが一致するか否かを判定する。

　最適素片系列において対象素片に隣接する最適素片が、音声データにおいて対象素片に隣接していた音声素片である場合には、これらは元々連続するデータであるので、これらを接続しても接続境界における不連続は生じない。一方で、最適素片系列において対象素片に隣接する最適素片が、音声データにおいて隣接していない音声素片である場合には、これらは元々連続しないデータであるから、これらを接続した場合には、音の不連続による音質劣化が生じてしまう。そこで、本実施の形態にかかる音声合成装置１においては、最適音声素片系列において隣接する音声素片が、元の音声データにおいて隣接していた音声素片であるか否かに応じて異なる処理を施すべく、隣接判定部１１５において、まず各最適素片の隣接素片が音声データにおける隣接素片と一致したか否かを判定する。なお、以下、最適素片系列における隣接素片を第２隣接素片と称する。

　個数割当部１１６は、隣接判定部１１５による判定結果に基づいて、各セグメントの個数を決定し、これを各セグメントに割り当てる。この個数は、セグメントに対応する音声合成に利用する音声素片の数である。具体的には、個数割当部１１６は、対象素片に対する最適素片系列における第２隣接素片と、音声素片記憶部１０２において対象素片に対応付けられている第１隣接素片とが一致する場合には、第１個数を割り当てる。両隣接素片が一致しない場合には、第２個数を割り当てる。なお、第２個数は、第１個数に比べて大きい個数である。第１個数と第２個数は任意に設定することができるが、この場合においても、第２個数としては第１個数に比べて大きい個数を設定する必要がある。本実施の形態においては、第１個数を「１」、第２個数を「３」とする場合について説明する。

　このように、対象素片の第１隣接素片と第２隣接素片が一致する場合、すなわち対象素片が最適素片系列において元の音声データにおいて隣接している音声素片と隣接している場合には、音声合成に利用する音声素片の数を比較的少ない数とする。これにより、肉声感を残すことができる。さらに、元々隣接していた音声素片であるから、これらを接続しても不連続に起因した不自然さが生じることもない。

　一方、対象素片の第１隣接素片と第２隣接素片が一致しない場合、すなわち対象素片が元の音声データにおいて隣接していない音声素片と隣接している場合には、両隣接素片が一致する場合に比べてより多くの音声素片を音声合成に利用することとする。これにより、平均に近い音声素片による音声合成がなされるので、不連続に起因した不自然さを解消することができる。

　また、対象素片の第１隣接素片と第２隣接素片が一致しない場合であっても、音声合成に比較的多くの音声素片を用いることにより、そのうちのいくつかの隣接素片が一致する場合がある。これにより、さらに不連続感を減少させることができる。

　音声素片選択部１１７は、各セグメントに対し、個数割当部１１６により選択された個数の音声素片を選択する。音声素片選択部１１７は、処理対象となる対象セグメントに対して、個数割当部１１６により割り当てられた個数が１である場合には、対象セグメントに対し、対象素片、すなわち対象セグメントに対して最適素片選択部１１４により選択された最適素片を選択する。一方、対象セグメントに対して、個数割当部１１６により割り当てられた個数が複数である場合には、音声素片抽出部１１２により、対象セグメントに対して選択された音声素片の中から、算出部１１３により算出されたコストが高い順に複数の音声素片を選択する。音声素片選択部１１７により選択された音声素片は、後述の音声合成に用いられる。

　図５に示すように、テキストデータから例えば「ｖ－Ｒ」、「ａｅ－Ｌ」、「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ－Ｒ」の連続する５つのセグメントが得られたとする。さらに、図５に示すように、各セグメントに対し音声素片抽出部１１２により複数の音声素片が抽出されて、最適素片を要素とする最適素片系列が得られているとする。対象セグメント「ａｅ―Ｒ」には、個数割当部１１６により第２個数が割り当てられているとする。この場合は、音声素片選択部１１７は、「ａｅ―Ｒ」に対し第２個数の音声素片を選択する。音声素片選択部１１７は、具体的には、「ａｅ―Ｒ」以外のセグメントを最適素片系列の最適素片７１，７２，７４，７５に固定した状態で、「ａｅ―Ｒ」のセグメントに対して音声素片抽出部１１２により得られた複数の音声素片７３ａ，７３ｂ，７３ｃ・・・それぞれのコストを算出する。そして、コストが高い順に第２個数の音声素片を選択する。

　コストの算出には、式（８）を用いる。ただし、各音声素片に対してコストを求める際に、値が変わるのは、対象セグメントの目標コスト、対象セグメントとその一つ前のセグメントとの接続コスト、対象セグメントとその一つ後のセグメントとの接続コストである。したがって、これらのコストのみを考慮すればよい。すなわち、以下の手順でコストを算出する。
（手順１）　音声素片抽出部１１２により抽出された「ａｅ－Ｒ」と同一の素片名の複数の音声素片のうちの１つを音声素片ｕ_ｉとする。音声素片ｕ_ｉと目標の属性ｔ_ｉによって式（６）によって目標コストＣ_{ｔａｒｇｅｔ}（ｕ_ｉ，ｔ_ｉ）を算出する。
（手順２）　式（７）によって音声素片ｕ_ｉと、ひとつ前の音声素片ｕ_ｉ－１との間で接続コストｃ_{ｃｏｎｃａｔ}（ｕ_ｉ，ｕ_ｉ－１）を算出する。また後続の音声素片ｕ_ｉ＋１と音声素片ｕ_ｉとの接続コストｃ_{ｃｏｎｃａｔ}（ｕ_ｉ＋１，ｕ_ｉ）を算出する。
（手順３）　上記（手順１）、（手順２）で算出された目標コストと接続コストの和を算出して、音声素片ｕ_ｉのコストを算出する。
（手順４）　音声素片抽出部１１２により得られた複数の音声素片すべてについて、上記（手順１）～（手順３）に従って、コストを算出した後、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う。すなわち、コストとして、直前の音声素片からの接続コスト、対象セグメントの目標コストおよび後続の音声素片への接続コストの和である次式（９）を用い、ｃ（ｕ_ｉ）の値の小さい方から第２個数の音声素片を選択する。

　なお、複数の音声素片の選択方法は、実施の形態に限定されるものではなく、予め定めた歪みの度合いに基づいて順位付けを行い、歪みの度合いの小さい方（類似度の大きい方）から所定個数の音声素片を選択するものであればよい。

　音声素片作成部１１８は、音声素片選択部１１７により対象セグメントに対し、対象素片、すなわち１つの最適素片が選択された場合に、この最適素片に基づいて、音声合成に用いる音声素片を作成する。

　音声素片融合部１１９は、音声素片選択部１１７により複数の音声素片が選択された場合には、これら複数の音声素片を融合し、融合素片を得る。融合音声素片とは、選択された複数の音声素片から作成したそれらを代表する音声素片であり、平均的な音声素片の作成処理すなわちピッチ波形の平均化処理、帯域分割したピッチ波形の位置合わせし平均化し足し合わせる処理、スペクトルもしくはスペクトルパラメータを抽出して平均化し平均スペクトルもしくは平均スペクトルパラメータから波形生成する処理等より作成する音声素片である。音声素片融合部１１９は具体的には、対象セグメントが有声音の場合には、音声素片のピッチ波形を融合することにより新たなピッチ波形を作り出すことにより、融合素片を得る。一方、対象セグメントが無声音の場合には、音声素片選択部１１７の処理において最も高いコストが得られた音声素片を融合素片として用いる。

　接続部１２０は、対象セグメントに対し、融合音声素片が得られている場合には融合素片を、融合素片が得られていない場合には対象素片を接続し、スムージングの処理を適用することにより、テキストデータに対する音声波形を生成する。

　図６に示すように、音声合成装置１による音声合成処理においては、まず分割部１１１は、テキストデータに対応する入力音韻系列を複数のセグメントに分割する（ステップＳ１００）。次に、音声素片抽出部１１２は、音声素片記憶部１０２から各セグメントの音素名と同一の音素名の音声素片を抽出する（ステップＳ１０２）。次に、算出部１１３は、音声素片抽出部１１２により抽出されたすべての音声素片のコストを算出する（ステップＳ１０４）。次に、最適素片選択部１１４は、最適素片系列の探索を行う（ステップＳ１０６）。具体的には、最適素片選択部１１４は、各セグメントに対して音声素片抽出部１１２により抽出された複数の音声素片それぞれのコストを参照し、コストが最大となる音声素片を各セグメントに対する最適素片として選択し、最適素片の配列である最適素片系列を得る。

　次に、隣接判定部１１５は、最適素片系列に含まれる最適素片のうちの１つを対象素片とし、最適素片系列において対象素片に隣接する第２隣接素片を特定する。さらに、音声素片記憶部１０２において、対象素片に対応付けられている第１隣接素片を特定する。そして、これら２つの隣接素片を比較し、両者が一致するか否かを判定する（ステップＳ１０８）。次に、個数割当部１１６は、隣接判定部１１５による判定結果に基づいて、各対象素片に対応するセグメントである対象セグメントに対する音声合成に用いる音声素片の個数を割り当てる（ステップＳ１１０）。

　個数割当部１１６により割り当てられた個数が複数の場合、すなわち第２個数の場合には（ステップＳ１１２，Ｙｅｓ）、音声素片選択部１１７は、音声素片抽出部１１２において対象セグメントに対して得られた複数の音声素片のコストを算出し、コストにより音声素片を順位付けする（ステップＳ１１４）。そして、音声素片選択部１１７は、コストの高い順に第２個数の音声素片を選択する（ステップＳ１１６）。次に、音声素片融合部１１９は、音声素片選択部１１７により選択された第２個数の音声素片を融合し、融合素片を得る（ステップＳ１１８）。

　ここで、音声素片融合処理（ステップＳ１１８）について説明する。図７に示すように、対象セグメントが有声音である場合には（ステップＳ２００，Ｙｅｓ）、音声素片融合部１１９は、音声素片からピッチ波形を切り出し、ピッチ波形を融合して新たなピッチ波形を生成する。ピッチ波形の抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やＰＳＥ分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法など様々なものがある。

　本実施の形態においては、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出することとする。まず、音声素片融合部１１９は、音声素片記憶部１０２において音声素片に対応付けられているピッチマークを基準として窓掛けを行ってピッチ波形を切り出す（ステップＳ２０２）。ここで、窓にはハニング窓を用い、その窓長は基本周期の２倍とする。これにより、窓掛けされた波形をピッチ波形として切り出す。なお、音声素片選択部１１７により選択された複数の音声素片それぞれに対するピッチ波形を切り出す。これにより、複数の音声素片それぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。

　次に、音声素片融合部１１９は、各セグメントの目標とする韻律から作成したピッチマークの個数に合わせて、複数のピッチ波形それぞれの系列中のピッチ波形の数が同じになるように、ピッチ波形の数が少ないピッチ波形の系列についてはピッチ波形を複製し、ピッチ波形の多いピッチ波形の系列についてはピッチ波形を削除して、ピッチ波形の数を揃える（ステップＳ２０４）。

　次に、音声素片融合部１１９は、対象セグメントに対して得られた複数の音声素片に対応するピッチ波形をその位置ごとに平均化し、新たなピッチ波形の系列を生成する（ステップＳ２０６）。次に、音声素片融合部１１９は、生成された新たなピッチ波形の系列を目標とする韻律から作成したピッチマークに従って重畳し、融合素片を得る（ステップＳ２０８）。

　なお、ピッチ波形の融合処理はピッチ波形の平均化に限定するものではない。例えば、切り出された音声素片を帯域分割し、各帯域の音声波形を相関最大になるようにアライメントし、その後で平均化してもよい。これにより帯域毎の減衰を抑えた融合ピッチ波形を生成することができる。

　一方、対象セグメントが無声音である場合には（ステップＳ２００，Ｎｏ）、音声素片選択部１１７により選択された第２個数の音声素片のうちコストによる順位が１位の音声素片の音声波形を選択し（ステップＳ２１０）、これをそのまま利用することとする。

　「ａｅ－Ｒ」のセグメントを例に融合処理を具体的に説明する。図８に示す「ａｅ－Ｒ－１」、「ａｅ―Ｒ－２」、「ａｅ－Ｒ－３」は、それぞれピッチマークが付与された音声素片である。これらの音声素片はそれぞれ、ピッチ波形抽出処理（ステップＳ２０２）およびピッチ波形の数を揃える処理（ステップＳ２０４）が施される。これにより、ＰＷ１～ＰＷ３のピッチ波形系列が得られる。これらのピッチ波形（ＰＷ１～ＰＷ３）の融合（平均化）の処理が行われ（ステップＳ２０６）、融合ピッチ波形列ＰＷ４が求められる。これを目標のピッチマークに従って重畳することで（ステップＳ２０８）、融合素片「ａｅ－Ｒ－ｆｕｓｅｄ」が作成される。

　図６に示す音声合成処理のステップＳ１１２において、個数割当部１１６により割り当てられた個数が単数である場合、すなわち第１個数の場合には（ステップＳ１１２，Ｎｏ）、音声素片選択部１１７は、対象セグメントに対する対象素片、すなわち最適素片を選択する（ステップＳ１２０）。

　次に、音声素片作成部１１８は、最適素片に基づいて、接続部１２０により接続される音声素片を作成する（ステップＳ１２２）。音声素片作成部１１８は、具体的には、目標のピッチマークに従って音声波形を変形することにより、音声素片を作成する。図９に示すように、「ａｅ－Ｌ－１」の音声素片をピッチ波形重畳によって作成する場合には、選択された最適素片からピッチ波形抽出を行い、目標のピッチマーク数になるように複製もしくは削除によって波形数を揃えることにより、ピッチ波形系列ＰＷ５が作成される。さらに、これを重畳することにより、音声素片「ａｅ－Ｌ－ｏｐｔｉｍｕｍ」が作成される。

　音声合成処理において、接続部１２０は、ステップＳ１１８で得られた融合素片またはステップＳ１２２で作成された音声素片を接続し、合成音声の音声波形を得る（ステップＳ１２４）。すべてのセグメントに対し以上の処理が施されるまでステップＳ１０８からステップＳ１２２の処理を繰り返し（ステップＳ１２６，Ｎｏ）、すべてのセグメントに対する処理が完了すると（ステップＳ１２６，Ｙｅｓ）、音声合成処理が完了する。

　ここで、「ｖａｌｌｙ」というテキストデータが与えられた場合の具体的な音声合成処理について説明する。テキストデータ「ｖａｌｌｅｙ」の音素系列は「ｖ」、「ａｅ」、「ｌ」、「ｉｉ」の４つの音素からなり、セグメントは、これらを半音素に分割したものになる。また、音声データ記憶部１０１には、図１０に示すように、前述のＳ０１～Ｓ０３の音声データに加え、Ｓ０４「ｃｈａｌｌｅｎｇｅ」、Ｓ０５「ｅａｒｌｙ」を含むＳ０４～Ｓ１０の音声データが記憶されている。さらに、音声素片記憶部１０２には、これらの音声素片等が記憶されているものとする。

　さらに、図１１に示すように、テキストデータから得られたセグメントに対する最適素片選択において、「ｖ－Ｌ」、「ｖ－Ｒ」、「ａｅ－Ｌ」、「ａｅ－Ｒ」のセグメントについては、Ｓ０１の音声データから得られた音声素片が選択され、「ｌ－Ｌ」、「ｌ－Ｒ」のセグメントについては、Ｓ０４の音声データから得られた音声素片が選択され、「ｉｉ－Ｌ」、「ｉｉ－Ｒ」のセグメントについては、Ｓ０５の音声データから得られた音声素片が選択されているものとする。

　この場合、「ｖ－Ｌ」、「ｖ－Ｒ」、「ａｅ－Ｌ」のセグメントに対しては、第１隣接素片と第２隣接素片が一致するので、音声素片選択部１１７によりＳ０１の音声素片(最適素片)が選択される。また、「ｉｉ－Ｒ」のセグメントも、第１隣接素片と第２隣接素片が一致するので、音声素片選択部１１７によりＳ０５の音声素片（最適素片）が選択される。

　一方、「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ－Ｒ」、「ｉｉ－Ｌ」のセグメントにおいては、第１隣接素片と第２隣接素片が一致せず、個数割当部１１６により第２個数が割り当てられ、音声素片選択部１１７により第２個数、すなわち３つの音声素片が選択される。コストによる順位付けの結果、例えば「ａｅ－Ｒ」に対してはＳ０１～Ｓ０３の３つの「ａｅ－Ｒ」の音声素片が選択される。「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ－Ｒ」、「ｉｉ－Ｌ」のセグメントにおいては、それぞれ選択された３つの音声素片の融合により融合素片が得られる。

　そして、接続部１２０により、「ｖ－Ｌ」、「ｖ－Ｒ」「ａｅ－Ｌ」および「ｉｉ－Ｒ」のセグメントについては、最適素片から作成された音声素片が接続され、「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ－Ｒ」、「ｉｉ－Ｌ」のセグメントについては、融合素片が接続されて、音声波形が生成される。

　音声データ内で隣接している音声素片を合成に用いる場合、元の音声データで連続しているため、接続境界における不連続は生じない。このため、素片融合に用いる音声素片の個数を少なくしても不連続感は生じない。そこで、本実施の形態にかかる音声合成装置１においては、音声合成において、元の音声データ内で隣接している音声素片を隣接させる場合には、これらの音声素片を融合することなく用いることとした。これにより、不連続感のない音声を合成することができる。さらに、音声素片の融合を行っていないので、肉声感を高めることができる。

　その一方で、音声データ内で隣接していない音声素片を接続して合成する場合には、不連続感による音質劣化が問題となる。そこで、本実施の形態にかかる音声合成装置１においては、音声データ内で隣接していない音声素片を接続させる場合には、より多くの音声素片を融合して得られた融合素片を接続させることとした。これにより、平均的な音声素片に近い融合素片を接続することになるため、不連続による音質劣化を解消することができる。さらに、各セグメントに対して選ばれた複数の音声素片のうちの幾つかが連続していることがあり、これにより不連続感を減少させることができる。

　以上のように、第１の実施の形態にかかる音声合成装置１によれば、肉声感を向上させつつ、不連続感を解消した、高品質な合成音声を得ることができる。

　第２の実施の形態にかかる音声合成装置について説明する。第２の実施の形態にかかる音声合成装置は、音声素片だけでなく、音声素片の韻律情報に対しても、隣接する音声素片に応じて異なる処理を施す。図１２に示すように、第２の実施の形態にかかる音声合成装置２の音声合成部２４は、第１の実施の形態にかかる音声合成部１４の構成に加えて、韻律情報作成部１３１と、韻律情報融合部１３２とを備えている。

　図１３に示すように、音声素片記憶部１３０は、第１の実施の形態にかかる音声素片記憶部１０２に記憶されている情報に加えて、基本周波数系列情報およびフレーム数を音声素片ＩＤに対応付けて記憶している。ここで、基本周波数系列情報は、所定の時間間隔ごとに算出された基本周波数情報やピッチマーク位置の基本周波数情報など、音声素片内の基本周波数情報の系列を示す情報である。さらに、基本周波数情報は、ピッチ、基本周波数、対数基本周波数などにより表される音の高さを表す情報である。なお、図１３に示す例においては、フレーム周期を２２ｍｓとし、対数基本周波数系列を示している。

　韻律情報作成部１３１は、音声素片選択部１１７により対象セグメントに対し、対象素片、すなわち１つの最適素片が選択された場合に、最適素片の韻律情報に基づいて、音声合成に用いる最適韻律情報を作成する。ここで、最適素片の韻律情報には、音声素片記憶部１３０において最適素片に対応付けられている韻律情報を用いる。音声素片作成部１１８は、韻律情報作成部１３１により作成された韻律情報に基づいて、音声素片を作成する。

　韻律情報融合部１３２は、音声素片選択部１１７により複数の音声素片が選択された場合に、音声素片記憶部１３０においてこれら複数の音声素片それぞれに対応付けられている韻律情報を融合し、融合韻律情報を得る。ここで、融合韻律情報は、融合継続長および融合基本周波数を含んでいる。韻律情報融合部１３２は、具体的には、複数の音声素片の音韻継続時間長を平均化することにより融合継続長を算出する。そして、得られた融合継続長に従い、基本周波数情報を平均化し、融合基本周波数を作成する。音声素片融合部１１９は、韻律情報融合部１３２により得られた融合韻律情報を用いて、融合素片を得る。接続部１３３は、前後の音声素片の基本周波数とのスムージング等の処理を行う。

　図１４に示すように、音声合成処理においては、ステップＳ１１６において、音声素片選択部１１７が複数の音声素片を選択した後、韻律情報融合部１３２は、音声素片選択部１１７により選択された複数の音声素片それぞれの韻律情報に基づいて、融合韻律情報を作成する（ステップＳ１３０）。一方、ステップＳ１２０において、音声素片選択部１１７が最適素片を選択した後、韻律情報作成部１３１は、最適素片の韻律情報を用いて、音声合成に利用する、対象セグメントの韻律情報を作成する（ステップＳ１３２）。

　図１５に示すように、韻律情報融合処理（ステップＳ１３０）においては、韻律情報融合部１３２は、複数の音声素片のフレーム数を平均化することにより融合継続長を計算する（ステップＳ３００）。具体的には、韻律情報融合部１３２は、式（１０）により継続時間長を平均化する。

式（１０）のＴ_ｓｙｎ ^ｉはｉ番目のセグメントの音声合成に用いる音韻時間継続長であり、Ｔ_ｎ ^ｉは、音声素片選択部１１７により選択されたＮ個の音声素片のうちｎ番目の音声素片の音韻時間継続長を示している。すなわち、Ｎは融合数である。

　次に、韻律情報融合部１３２は、各音声素片の基本周波数のフレームをマッピングし、基本周波数系列のフレーム数を揃える（ステップＳ３０２）。次に、韻律情報融合部１３２は、各フレームの基本周波数を平均化することにより融合基本周波数系列を作成する（ステップＳ３０４）。ステップＳ３０２の基本周波数のマッピング処理およびステップＳ３０４の平均基本周波数の算出の処理は、式（１１）により表わされる。

式（１１）のｆ_０ ^ｉ _ｓｙｎ（ｔ）、ｆ_０ ^ｉ _ｎ（ｔ）は合成に用いる基本周波数と音声素片の基本周波数とを表し、ここでは線形に時間方向のマッピングを行っている。これらの処理により、融合韻律情報が作成される。

　図１４に示す接続処理（ステップＳ１３４）においては、接続部１３３は、前後の音声素片の基本周波数とのスムージングや、アクセントの誤りを防止する処理など、基本周波数列の自然性を向上させる後処理を行う。

　接続処理（ステップＳ１３４）において、接続部１３３は、基本周波数の平滑化の処理等を行う。以下、平滑化について述べる。接続部１３３は、接続する音声素片の韻律情報が、韻律情報作成部１３１により作成された韻律情報と、韻律情報融合部１３２により得られた融合韻律情報である場合には、韻律情報作成部１３１により作成された韻律情報から徐々に融合韻律情報に変わるように平滑化を行うことができる。着目している対象セグメントにおいて融合韻律情報が用いられ、一つ前のセグメントに韻律情報作成部１３１により作成された韻律情報を利用している場合、対象セグメントの最適素片と、前側隣接素片とは元の音声データで連続しており、後側隣接素片とは連続していないものになる。この場合、式（１２）と最適素片の基本周波数系列と式（１１）の平均基本周波数系列との重みづけ和を求め、ｗ（ｔ）として０から１に単調増加する関数を用いることにより徐々に最適素片の基本周波数と平均基本周波数とを切り替えることができる。なお、ｗ（ｔ）は、ｗ（ｔ）＝ｔ／Ｔ_ｓｙｎ ^ｉによって求めることができる。

　逆に、対象セグメントの最適素片と後ろ側隣接素片が連続していて、前側隣接素片が連続していない場合はｗ（ｔ）として１から０に単調減少する関数を用いることで徐々に切り替えることができる。この場合は、例えばｗ（ｔ）は、ｗ（ｔ）＝１－ｔ／Ｔ_ｓｙｎ ^ｉによって求めることができる。

　これらの処理により、韻律情報作成部１３１により作成された韻律情報から融合韻律情報に徐々に切り替わるため、合成音声の自然性を向上させることができる。

　図１６のグラフには、「Ｆｉｆｔｙ　ｍｉｌｅｓ　ｆｒｏｍ　ｐｒｅｖｉｏｕｓ　ｄｅｓｔｉｎａｔｉｏｎ．」というテキストデータに対して得られた基本周波数系列（ｉｎ）と、接続部１３３による平滑化処理が施された後の基本周波数系列（ｓｙｎ）とが示されている。図１７に示すグラフから、平滑化処理により、起伏の付いたより自然な基本周波数系列が生成されていることがわかる。

　他の例としては、接続処理（ステップＳ１３４）においては、さらにアクセントやイントネーションの知覚誤りが生じることのないように、基本周波数パターンを変形してもよい。パターンの変形としては例えば、知覚誤りを補正するオフセット値を算出し、得られたオフセット値を基本周波数列に加算してもよい。知覚誤りを補正するオフセット値は、例えば、入力韻律情報における前後の音節と着目している音声素片の含まれる音節との平均基本周波数の差から作成することができる。入力韻律情報の差の情報と音声素片から作成した最適韻律情報または融合韻律情報の差の情報との間で閾値処理を行うことにより判断することができる。

　ここで、「ｖａｌｌｙ」というテキストデータが与えられた場合の具体的な音声合成処理について説明する。第１の実施の形態において説明したのと同様に、音声データ記憶部１０１には、図１０に示すＳ０１～Ｓ０５を含むＳ０１～Ｓ１０の音声データが記憶され、音声素片記憶部１３０には、これらの音声素片が記憶されているものとする。図１７の上段には、テキストデータに対する入力韻律情報が示されている。図１７の中段には、音声素片記憶部１３０により抽出された音声素片に対応付けられている韻律情報が示されている。図１７の下段には、韻律情報作成部１３１により作成された韻律情報または韻律情報融合部１３２により得られた融合韻律情報が示されている。

　図１１において説明したのと同様に、テキストデータから得られたセグメントに対する最適素片選択において、「ｖ－Ｌ」、「ｖ－Ｒ」「ａｅ－Ｌ」、「ａｅ－Ｒ」のセグメントについては、Ｓ０１の音声データから得られた音声素片が選択され、「ｌ－Ｌ」、「ｌ－Ｒ」のセグメントについては、Ｓ０４の音声データから得られた音声素片が選択され、「ｉｉ－Ｌ」、「ｉｉ－Ｒ」のセグメントについては、Ｓ０５の音声データから得られた音声素片が選択されているものとする。

　この場合、「ｖ－Ｌ」、「ｖ－Ｒ」「ａｅ－Ｌ」のセグメントに対しては、最適素片の第１隣接素片と、第２隣接素片とが一致するので、Ｓ０１の韻律情報から韻律情報が生成され、この韻律情報に基づいて、各セグメントの音声素片が得られる。

　一方、「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ－Ｒ」、「ｉｉ－Ｌ」のセグメントにおいては、最適素片の第１隣接素片と第２隣接素片とが一致せず、第２個数、すなわち３つの音声素片が選択される。コストによる順位付けの結果、例えば「ａｅ－Ｒ」に対してはＳ０１～Ｓ０３の３つの「ａｅ－Ｒ」の音声素片が選択される。「ａｅ－Ｒ」、「ｌ－Ｌ」、「ｌ－Ｒ」、「ｉｉ－Ｌ」のセグメントにおいては、それぞれ選択された３つの音声素片の韻律情報の融合により融合韻律情報が得られる。そして、この融合韻律情報に基づいて、各セグメントの融合素片が得られる。

　なお、第２の実施の形態にかかる音声合成装置２のこれ以外の構成および処理は、第１の実施の形態にかかる音声合成装置１の構成および処理と同様である。

　このように、第２の実施の形態にかかる音声合成装置２においては、音声データ内で隣接している音声素片を合成に用いる場合には、最適素片に対応する音韻情報に基づいて音韻情報を作成し、この音韻情報に基づいて、音声合成に用いる音声素片を作成することとした。これにより、不連続感を低減させることができる。さらに、音声素片の融合を行わないので、肉声感を高めることができる。

　一方、音声データ内で隣接していない音声素片を接続して合成する場合には、より多くの音声素片を融合して得られた融合素片を接続させるだけでなく、各音声素片の音韻情報から融合音韻情報を得て、これに基づいて融合素片を得ることとした。これにより、平均的な音声素片に近い融合素片を接続することができるだけでなく、韻律変形の変化量を少なくすることができるので、不連続による音質劣化を解消することができる。

　以上のように、第２の実施の形態にかかる音声合成装置２によれば、肉声感を向上させつつ、不連続感を解消した、高品質な合成音声を得ることができる。

　第２の実施の形態にかかる音声合成装置２の第１の変更例としては、接続部１３３は、音声素片についても平滑化を行い、このとき、基本周波数の平滑化処理に用いた重み関数ｗ（ｔ）を利用することとしてもよい。この場合、ｆ_０ ^ｉ _ｓｙｎ（ｔ）、ｆ_０ ^ｉ _ｎ（ｔ)にかえて、図８に示す各ピッチマークに対応するピッチ波形を、最適音声素片と融合音声素片との間で重み付け和を求めることにより平滑化を行う。

　次に、第２の変更例について説明する。左側半音素と右側半音素との間で、融合数の切り替えや、不連続な融合韻律の接続などの影響により、音素内での急な基本周波数の変化が生じて、震えのある不自然な韻律になる場合がある。そこで、第２の変更例としては、この問題に対応するため、基本周波数の平滑化の処理において、有声音の中心で切り替わる場合（左音素・右音素の少なくともどちらかを融合する場合）に、音素中心の不連続を減少させるべく、左半音素・右半音素それぞれにオフセットを加え、滑らかに接続する処理を行ってもよい。この場合、融合基本周波数は、式（１３）により作成される。

式（１３）のｏｆｆｓｅｔの値は、左半音素の終点および右半音素の始点の基本周波数の平均値を求め、得られた平均と、それぞれ左半音素の終点および右半音素の始点との差を用いることができる。すなわち、対象セグメントが左半音素の場合には式（１４）、右半音素の場合には式（１５）により算出することができる。

これにより合成単位として半音素などの音素内接続可能な単位を用いた場合に、音素中心で基本周波数系列が不連続になることを抑えることができる。

　第３の変更例としては、隣接するセグメントの韻律情報との間の平滑化を行ってもよい。たとえば端点において連続に接続されるように平滑化する場合は、式（１６）により平滑化を行うことができる。

ｗ_ｐｒｅ（ｔ）は前側隣接素片の終点の基本周波数との平滑化重みで、たとえば０．５から０に徐々に単調減少する関数を用いることができる。ｗ_ｐｏｓｔ（ｔ）は、後側隣接素片の開始点との平滑化重みで０から０．５に単調増加する関数を用いることができる。たとえば対象セグメントの中心までを前側終点基本周波数と平滑化し、中心から後側始点基本周波数と平滑化する場合、式（１７）および式（１８）によりｗ_ｐｒｅ（ｔ）とｗ_ｐｏｓｔ（ｔ）を定めることができる。

　なお、式（１６）による平滑化は、隣接する音声素片が連続している場合には行わなくてもよい。この場合は、ｗ_ｐｒｅ（ｔ）およびｗ_ｐｏｓｔ（ｔ）のうち、連続している音声素片が用いられている側の重みを０とすることにより計算することができる。

　さらに、式（１６）の平滑化は、基本周波数だけでなく、音声素片のピッチ波形に対して行ってもよい。その場合、ｆ_０ ^ｉ _ｓｙｎ（ｔ）ではなく、ピッチ波形を、隣接する音声素片の始点もしくは終点のピッチ波形との間で重み付け和を求めることにより平滑化される。

　また、第４の変更例としては、接続部１３３は、平滑化の方法として、スプライン平滑化など、他の方法によるスムージングを適用することとしてもよい。

　第３の実施の形態にかかる音声合成装置においては、韻律情報作成部１３１により作成された韻律情報または韻律情報融合部１３２により得られた融合韻律情報と、入力韻律情報のいずれを用いて音声素片を得るかを切り替えることができる。図１８に示すように、第３の実施の形態にかかる音声合成装置３の音声合成部３４は、韻律情報選択部１４０をさらに備えている。

　韻律情報選択部１４０は、音声素片から再生成した基本周波数の適切さを判断し、適切な場合は再生成した基本周波数列を用い、そうでない場合は入力基本周波数列を用いるように切り替える。韻律情報選択部１４０は、具体的には、音声素片のアクセント型、該当する音節のアクセント核からの距離、アクセント句内の位置などの言語的な情報、予め定めた適切な基本周波数の範囲、または前述した平均基本周波数の差の情報など、テキストデータから得られる情報に基づいて、韻律情報作成部１３１および韻律情報融合部１３２により得られた韻律情報と入力韻律情報のうちいずれか一方を選択する。音声素片作成部１１８は、韻律情報選択部１４０により選択された韻律情報を用いて音声素片を作成する。音声素片融合部１１９は、韻律情報選択部１４０により選択された韻律情報を用いて融合素片を得る。

　このように、第３の実施の形態にかかる音声合成装置３によれば、入力韻律情報と、韻律情報作成部１３１または韻律情報融合部１３２により得られた韻律情報のうちより自然な韻律情報を用いて音声合成を行うことができる。

　なお、第３の実施の形態にかかる音声合成装置３のこれ以外の構成および処理は、他の実施の形態にかかる音声合成装置の構成および処理と同様である。

　第３の実施の形態にかかる音声合成装置３の第１の変更例としては、韻律情報選択部１４０は、テキストデータのタグを参照し、タグに基づいて、韻律情報を選択してもよい。テキストデータに、入力韻律情報と韻律情報作成部１３１または韻律情報融合部１３２により得られる韻律情報のいずれを選択するかを示す情報と、その範囲を指定するタグを予め付与しておく。具体的には、テキスト入力部１１に入力されるテキストデータには、「＜ＵＮＩＴＰＲＯＳ＞Ｆｉｆｔｙ　ｍｉｌｅｓ＜／ＵＮＩＴＰＲＯＳ＞　＜ＩＮＰＲＯＳ＞ｆｒｏｍ　ｐｒｅｖｉｏｕｓ＜／ＩＮＰＲＯＳ＞　＜ＵＮＩＴＰＲＯＳ＞ｄｅｓｔｉｎａｔｉｏｎ＜／ＵＮＩＴＰＲＯＳ＞．」の様にタグ情報が付与されている。そして、韻律情報選択部１４０は、＜ＵＮＩＴＰＲＯＳ＞から＜／ＵＮＩＴＰＲＯＳ＞で囲まれた範囲については、韻律情報作成部１３１または韻律情報融合部１３２により得られた韻律情報を選択し、＜ＩＮＰＲＯＳ＞から＜／ＩＮＰＲＯＳ＞で囲まれた範囲については、入力韻律情報を選択する。これにより、素片韻律が不自然になる個所を人手によりチェックし、入力韻律に切り替えることができるようになる。

　本実施の形態の音声合成装置は、ＣＰＵなどの制御装置と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＲＡＭなどの記憶装置と、ＨＤＤ、ＣＤドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。

　本実施形態の音声合成装置で実行される音声合成プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

　また、本実施形態の音声合成装置で実行される音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の音声合成装置で実行される音声合成プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

　また、本実施形態の音声合成プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

　本実施の形態の音声合成装置で実行される音声合成プログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から音声合成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

　なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

　１　音声合成装置
　１１　テキスト入力部
　１２　言語処理部
　１３　韻律処理部
　１４　音声合成部
　１５　音声波形出力部
　１０１　音声データ記憶部
　１０２　音声素片記憶部
　１１１　分割部
　１１２　音声素片抽出部
　１１３　算出部
　１１４　最適素片選択部
　１１５　隣接判定部
　１１６　個数割当部
　１１７　音声素片選択部
　１１８　音声素片作成部
　１１９　音声素片融合部
　１２０　接続部

Claims

　音声データを所定の単位で分割して得た複数の音声素片と、当該音声素片の音韻系列と、当該音声素片に隣接する第１隣接素片を識別する識別情報を対応付けて記憶する記憶部と、
　入力されたテキストデータの音韻系列を前記音声素片と同一単位の複数のセグメントに分割する分割部と、
　前記記憶部において前記セグメントの音韻系列と同一の音韻系列に対応付けられている、複数の前記音声素片を抽出する音声素片抽出部と、
　前記テキストデータとともに入力された、前記セグメントの入力韻律情報に基づいて定まる目標音声と、前記複数の音声素片それぞれから合成された音声の間の歪みの度合いを示すコストを、前記セグメントの前記韻律情報に基づいて算出する算出部と、
　前記複数の音声素片の中から、前記コストが最小となる最適素片を選択する最適素片選択部と、
　前記テキストデータの前記音韻系列に含まれる複数のセグメントそれぞれに対して得られた前記最適素片の配列である最適素片系列に含まれる前記最適素片のうち処理対象となる対象セグメントに対して選択された最適素片である対象素片に隣接する第２隣接素片と、前記記憶部において前記対象素片に対応付けられている前記第１隣接素片とが一致するか否かを判定する隣接判定部と、
　前記第１隣接素片と第２隣接素片とが一致する場合に、前記対象セグメントに対し第１個数を割り当て、前記第１隣接素片と前記第２隣接素片とが一致しない場合に、前記対象セグメントに対し前記第１個数に比べて多い第２個数を割り当てる個数割当部と、
　割り当てられた個数が複数である場合に、前記対象セグメントに対し前記音声素片抽出部により抽出された複数の音声素片から、前記個数の音声素片を選択し、前記個数が１である場合に、前記対象セグメントに対し、前記最適素片選択部により選択された前記最適素片を選択する音声素片選択部と、
　複数の前記音声素片が選択された場合に、当該複数の音声素片を融合し融合素片を得る音声素片融合部と、
　前記対象セグメントに対し前記割り当てられた個数が複数の場合には融合素片、前記割り当てられた個数が１の場合には前記最適素片を接続し、音声波形を生成する接続部と
を備えたことを特徴とする音声合成装置。
　前記個数割当部は、前記第１個数として１を割り当て、
　前記個数が１である場合に、前記対象セグメントに対して選択された前記最適素片の音声波形に基づいて、前記接続部により利用される音声素片を作成する音声素片作成部をさらに備え、
　前記接続部は、前記割り当てられた個数が１である場合には、前記音声素片作成部により作成された前記音声素片を接続し、前記音声波形を生成することを特徴とする請求項１に記載の音声合成装置。
　前記記憶部は、前記音声データの基本周波数情報または継続長情報のうち少なくとも一方を含む、前記音声素片の韻律情報を前記識別情報に対応付けてさらに記憶し、
　前記割り当てられた個数が複数の場合には、前記記憶部において当該複数の音声素片それぞれに対応付けられている前記韻律情報を融合し融合韻律情報を得る韻律情報融合部と
をさらに備え、
　前記音声素片融合部は、前記融合韻律情報に基づいて前記融合素片を得ることを特徴とする請求項１に記載の音声合成装置。
　前記記憶部は、前記音声素片の韻律情報を前記識別情報に対応付けてさらに記憶し、
　前記個数割当部により割り当てられた個数が１である場合に、前記対象セグメントに対して前記音声素片選択部により選択された前記最適素片の前記韻律情報に基づいて韻律情報を作成する韻律情報作成部をさらに備え、
　前記音声素片作成部は、前記韻律情報作成部により作成された前記韻律情報に基づいて、前記音声素片を作成することを特徴とする請求項１に記載の音声合成装置。
　前記入力韻律情報を用いるか、前記韻律情報融合部もしくは前記韻律情報作成部で作成した作成韻律情報を用いるかを選択する韻律選択情報をさらに入力し、前記韻律情報作成部または前記韻律情報融合部により得られた前記韻律情報と、前記入力韻律情報のいずれか一方を選択する韻律情報選択部をさらに備え、
　前記音声素片作成部は、前記韻律情報選択部により選択された韻律情報から音声素片を作成し、または前記音声素片融合部は、前記韻律情報選択部により選択された韻律情報から融合音声素片を作成し、
　前記接続部は、得られた前記音声素片または前記融合音声素片を接続し、音声波形を生成することを特徴とする請求項３または請求項４に記載の音声合成装置。
　コンピュータに音声合成処理を実行させるためのプログラムであって、
　前記コンピュータは、
　音声データを所定の単位で分割して得た複数の音声素片と、当該音声素片の音韻系列と、当該音声素片に隣接する第１隣接素片を識別する識別情報を対応付けて記憶する記憶部を備え、
　前記コンピュータを、
　入力されたテキストデータの音韻系列を前記音声素片と同一単位の複数のセグメントに分割する分割部と、
　前記記憶部において前記セグメントの音韻系列と同一の音韻系列に対応付けられている、複数の前記音声素片を抽出する音声素片抽出部と、
　前記テキストデータとともに入力された、前記セグメントの入力韻律情報に基づいて定まる目標音声と、前記複数の音声素片それぞれから合成された音声の間の歪みの度合いを示すコストを、前記セグメントの前記韻律情報に基づいて算出する算出部と、
　前記複数の音声素片の中から、前記コストが最小となる最適素片を選択する最適素片選択部と、
　前記テキストデータの前記音韻系列に含まれる複数のセグメントそれぞれに対して得られた前記最適素片の配列である最適素片系列に含まれる前記最適素片のうち処理対象となる対象セグメントに対して選択された最適素片である対象素片に隣接する第２隣接素片と、前記記憶部において前記対象素片に対応付けられている前記第１隣接素片とが一致するか否かを判定する隣接判定部と、
　前記第１隣接素片と第２隣接素片とが一致する場合に、前記対象セグメントに対し第１個数を割り当て、前記第１隣接素片と前記第２隣接素片とが一致しない場合に、前記対象セグメントに対し前記第１個数に比べて多い第２個数を割り当てる個数割当部と、
　割り当てられた個数が複数である場合に、前記対象セグメントに対し前記音声素片抽出部により抽出された複数の音声素片から、前記個数の音声素片を選択し、前記個数が１である場合に、前記対象セグメントに対し、前記最適素片選択部により選択された前記最適素片を選択する音声素片選択部と、
　複数の前記音声素片が選択された場合に、当該複数の音声素片を融合し融合素片を得る音声素片融合部と、
　前記対象セグメントに対し前記割り当てられた個数が複数の場合には融合素片、前記割り当てられた個数が１の場合には前記最適素片を接続し、音声波形を生成する接続部と
して機能させるためのプログラム。