WO2013018294A1

WO2013018294A1 - 音声合成装置および音声合成方法

Info

Publication number: WO2013018294A1
Application number: PCT/JP2012/004529
Authority: WO
Inventors: 良文廣瀬; 釜井　孝浩
Original assignee: パナソニック株式会社
Priority date: 2011-08-01
Filing date: 2012-07-12
Publication date: 2013-02-07
Also published as: JP5148026B1; US20130262120A1; CN103403797A; JPWO2013018294A1; US9147392B2

Abstract

　音声合成装置は、入力されたテキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに、テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部（１０２）と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、素片記憶部に記憶されている複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部（１０５）と、素片選択部（１０５）が選択した素片情報と、テキストから生成された韻律情報とを用いて、テキストの合成音を生成する合成部（１０６）とを備える。

Description

音声合成装置および音声合成方法

　本発明は自然な合成音声を生成可能な音声合成装置およびその方法に関する。

　近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。肉声感の高い音声合成装置として、大規模な素片記憶部から音声波形を選択して接続する波形接続方式の音声合成装置がある（例えば、特許文献１参照）。図１７は、波形接続型の音声合成装置の典型的な構成図である。

　図１７に示す音声合成装置は、言語解析部５０１と、韻律生成部５０２と、音声素片ＤＢ（データベース）５０３と、素片選択部５０４と、波形接続部５０５とを含む。

　言語解析部５０１は、入力されたテキストを言語的に解析し、発音記号およびアクセント情報を出力する。韻律生成部５０２は、言語解析部５０１により出力された発音記号およびアクセント情報に基づいて、発音記号毎に基本周波数、継続時間長、パワーなどの韻律情報を生成する。音声素片ＤＢ５０３は、予め収録された音声素片データ（以下、単に「音声素片」と言う。）としての音声波形を記憶する素片記憶部である。素片選択部５０４は、韻律生成部５０２により生成された韻律情報に基づいて、音声素片ＤＢ５０３より最適な音声素片を選択する。波形接続部５０５は、素片選択部５０４により選択された音声素片を接続することにより、合成音を生成する。

特開平１０－２４７０９７号公報特開２００４－１２５８４３号公報

北村達也他、「母音発声時の声道断面積関数の個人差について」、日本音響学会２００４年春季研究発表会講演論文集－Ｉ－、社団法人日本音響学会、２００４年３月楊長盛他、「声道形状の違いがフォルマント周波数の非一様性に及ぼす影響」、日本音響学会研究発表会議講演論文集　春Ｉ、１９９６年

　特許文献１の音声合成装置は、入力されたテキストに対する音素環境および韻律情報に基づいて、素片記憶部に記憶されている音声素片を選択し、選択した音声素片を接続することで音声を合成している。

　しかしながら、合成音声が保有すべき声質を、上述の音素環境および韻律情報のみから決定することは困難である。

　本発明者らは、発声様態の時間変化が入力音声の時間変化と異なると、合成音声における発声様態の変化の自然性を保持することができなくなり、結果として合成音の自然性が大きく劣化することを見出した。

　本発明は、上記の点に鑑みてなされたものであり、入力されたテキストを自然発生した場合の音声が保有する発声様態の時間的変動を保持しながら音声を合成することで、音声合成時の自然性の劣化を低減した音声合成装置を提供する。

　本発明のある局面に係る音声合成装置は、入力されたテキストの合成音を生成する音声合成装置であって、前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、前記素片選択部が選択した前記素片情報と、前記テキストから生成された韻律情報とを用いて、前記テキストの合成音を生成する合成部とを備える。

　なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本発明は、入力されたテキストを自然発生した場合の音声が保有する発声様態の時間的変動を保持しながら音声を合成することで、音声合成時の自然性の劣化を低減した音声を合成できる。

図１は、人間の発声機構を示す図である。図２は、発声様態の違いによる声道伝達特性の違いを示す図である。図３は、発声様態の時間的変動を示す概念図である。図４は、発声様態の違いによるフォルマント周波数の違いの一例を示す図である。図５は、発声様態の違いによる声道断面積関数の違いを示す図である。図６は、本発明の実施の形態１における音声合成装置の構成図である。図７は、韻律情報の生成方法を説明するための図である。図８は、声道断面積関数の例を示す図である。図９は、発声内における開口度の時間パターンを示す図である。図１０は、説明変数として用いる制御要因とそのカテゴリの例を示す図である。図１１は、素片記憶部に記憶されている素片情報の例を示す図である。図１２は、本発明の実施の形態１における音声合成装置の動作を示すフローチャートである。図１３は、本発明の実施の形態１の変形例１に係る音声合成装置の構成図である。図１４は、本発明の実施の形態１の変形例２に係る音声合成装置の構成図である。図１５は、本発明の実施の形態１の変形例２に係る音声合成装置の動作を示すフローチャートである。図１６は、本発明に必須の構成要素を備える音声合成装置の構成図である。図１７は、従来の音声合成装置の構成図である。

　（本発明の基礎となった知見）
　自然な発声における声質は、音声の発話速度、発話内の音声の位置、またはアクセント句内における位置を含むさまざまな要因の影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭度高く発声するが、文末では発音の怠けが発生し、明瞭度が低下する傾向がある。さらには、発話において、ある単語が強調されている場合は、その単語の声質は、強調されない場合と比較すると明瞭度が高くなる傾向がある。

　図１に、人間の声帯および声道を示す。以下、人間の音声の生成原理を説明する。人間の音声の生成過程を説明する。図１に示す声帯１６０１の振動により生成される音源波形が、声門１６０２から口唇１６０３までにより構成される声道１６０４を通過する。声道１６０４を通過する際に、舌などの調音器官による狭めなどの影響を受けることにより生成される。分析合成型音声合成法は、このような音声の生成原理に基づいて、人間の音声を分析する。具体的には、音声を声道情報と音源情報に分離することにより、声道情報および音源情報を取得する。例えば、音声の分析方法として、声道音源モデルと呼ばれるモデルが使用される。声道音源モデルによる分析では、音声の生成過程に基づいて、人間の音声を音源情報と声道情報に分離する。

　図２に、上記声道音源モデルにより同定された声道伝達特性を示す。図２の横軸は周波数を表し、縦軸はスペクトル強度を表す。図２は、同一話者が発声した音声であり、かつ、直前の音素が同一の音素を分析した結果の声道伝達特性を示す。対象となる音素の直前の音素を、先行音素と称する。

　図２に示す曲線２０１は、「めまいがします（／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／）」と発声した際の「めまい」の／ｍａ／の／ａ／が持つ声道伝達特性を示す。曲線２０２は、「お湯が出ません（／ｏｙｕｇａｄｅｍａｓｅＮ／）」と発声した際の／ｍａ／の／ａ／が持つ声道伝達特性を示す。図２において、上方向のピークは、共振周波数のフォルマントを示す。図２に示すように、フォルマントの位置（周波数）およびスペクトル強度は、同じ先行音素を持つ母音同士で比較しても、大きく異なることがわかる。

　曲線２０１は文頭に近く、かつ内容語（ｃｏｎｔｅｎｔ　ｗｏｒｄ）である。一方、曲線２０２は、文末に近く、かつ機能語（ｆｕｎｃｔｉｏｎ　ｗｏｒｄ）である。ここで、機能語とは、文法的な役割を有する語であり、英語においては、前置詞（ｐｒｅｐｏｓｉｔｉｏｎ）、接続詞（ｃｏｎｊｕｎｃｔｉｏｎ）、冠詞（ａｒｔｉｃｌｅ）、助動詞（ａｄｖｅｒｂ）などが含まれる。また、内容語とは、それ以外の一般的な意味を有する語であり、英語においては、名詞（ｎｏｕｎ）、形容詞（ａｄｊｅｃｔｉｖｅ）、動詞（ｖｅｒｂ）、副詞（ａｄｖｅｒｂ）などが含まれる。また、聴感上においても、曲線２０１で示される声道伝達特性を有する母音／ａ／の方がより明瞭に聞こえる。このように、自然な発話においては、文章内の音素の位置に応じて、音素を発声する方法が異なる。人間は、「ハッキリと発声し、明瞭な音声」または「怠けて発声し、不明瞭な音声」のように、意識的あるいは無意識に発声の仕方を変えている。このような発声方法の違いを、本明細書において「発声様態」と呼ぶ。発声様態は、文章内における音素の位置だけではなく、その他の様々な言語的および生理的な影響を受けて変動している。文章内における音素の位置を、「音素環境」と称する。以上のように、音素環境が同じであっても発声様態が異なると声道伝達特性は異なる。つまり、選択すべき音声素片は異なる。

　特許文献１の音声合成装置は、上述の発声様態の変動を考慮することなく、音素環境および韻律情報を用いて音声素片を選択し、選択した音声素片を用いて、音声合成を行っている。合成された音声の発声様態は、自然に発声された音声が持つ発声様態と異なる。その結果、合成音における発声様態の時間変化は、自然音声の時間変化とは異なる。よって、合成音は、人間の通常の発話に対して、非常に不自然な音声となる。

　図３に、発声様態の時間変化を示す。図３（ａ）は、「めまいがします（／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／）」と自然に発声した際の発声様態の時間変化を示している。自然に発声した音声では、文頭ははっきりと明瞭度高く発声する傾向があり、文末に近づくと怠けた発声になる傾向がある。図３において、Ｘで示す音素は、はっきりした発声であり、かつ、明瞭度が高い。Ｙで示す音素は、怠けた発声であり、かつ、明瞭度が低い。つまり、この例では、文章における前半部分は、Ｘの音素が多いため、明瞭度が高い発声様態である。文章における後半部分は、Ｙの音素が多いため、明瞭度が低い発声様態を示す。

　一方、図３（ｂ）は、従来の選択基準によって、音声素片を選択した場合の合成音が持つ発声様態の時間変化を示す。従来の選択基準では、音素環境または韻律情報などから音声素片を選択している。このため、発声様態は入力された選択基準に制約されることなく変動する。

　例えば、図３（ｂ）に示すように、Ｘで示すはっきりと明瞭に発声された音素と、Ｙで示す怠けて発声された音素とが交互に出現することが考えられる。

　このように自然な発声では起こりえない、発声様態の時間変化をもつ合成音は、自然性が大きく劣化する。

　図４は、「お湯が出ません（／ｏｙｕｇａｄｅｍａｓｅＮ／）」と発声した音声に対して、ハッキリと明瞭度高く発声した場合の／ａ／を用いて音声を合成した場合のフォルマント４０１の動きの一例を示す。

　図４の横軸は時刻であり、縦軸はフォルマント周波数を示す。周波数の低い方から第１、第２、第３フォルマントを表している。／ｍａ／において、別の発声様態（ハッキリと明瞭度高く発声）の／ａ／を用いて音声を合成した場合のフォルマント４０２は、本来の発声（ハッキリと明瞭度高い発声）のフォルマント４０１とフォルマント周波数が大きく異なることがわかる。このように、本来の発声の音声素片とフォルマント周波数が大きく異なる音声素片を選択した場合には、図４の破線に示すように各フォルマントの時間的な動きが大きくなることから、声質が異なるだけでなく合成音も局所的に不自然になる。

　このような問題を解決するために、本発明の一態様に係る音声合成装置は、入力されたテキストの合成音を生成する音声合成装置であって、前記テキストを用いて韻律情報を生成する韻律生成部と、前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部と、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、前記素片選択部が選択した前記素片情報と前記韻律生成部が生成した前記韻律情報を用いて、前記テキストの合成音を生成する合成部とを備える。

　この構成によると、入力テキストに基づく開口度と一致する開口度を有する素片情報が選択される。このため、入力テキストに基づく発声様態（ハッキリと明瞭度の高い発声または怠けた明瞭度の低い発声）と同一の発声様態を有する素片情報（音声素片）を選択することができる。したがって、入力テキストに基づく発声様態の時間的変化を保存しながら、音声を合成することが可能となる。結果として、合成された音声は、発声様態の変化の時間パターンが保存されているため、音声合成時の自然性（流暢さ）の劣化を低減できる。

　また、上述の音声合成装置は、さらに、前記テキストから生成される音素ごとに、当該音素の種類と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、前記開口度生成部が生成した開口度と選択した素片情報に含まれる開口度との一致度を算出する開口度一致度算出部を備え、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度に基づいて、当該音素に対応する素片情報を選択しても良い。

　この構成によると、入力テキストに基づく開口度と素片情報に含まれる開口度との一致度に基づいて、素片情報を選択する。このため、入力テキストに基づく開口度と同じ開口度を有する素片情報が素片記憶部に記憶されていなくても、入力テキストに基づく開口度に類似する開口度を有する素片情報を選択することが可能となる。

　例えば、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度が示す一致性が最も高い一致度を含む素片情報を選択する。

　この構成によると、入力テキストに基づく開口度と同じ開口度を有する素片情報が素片記憶部に記憶されていなくても、入力テキストに基づく開口度に最も類似する開口度を有する素片情報を選択することが可能となる。

　また、前記素片記憶部に記憶されている各素片情報は、さらに、音素の前または後ろに位置する音素の種類を示す音素環境情報と、韻律情報とを含み、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素の種類、開口度、当該音素の音素環境情報、および韻律情報に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択しても良い。

　この構成によると、音素環境および韻律情報の一致性と開口度の一致性の双方を考慮しながら素片情報を選択することにより、音素環境および韻律情報を考慮した上で、さらに開口度を考慮することができる。このため、音素環境および韻律情報のみで素片情報を選択する場合と比較して、自然な発声様態の時間変化を再現することができるため、自然性の高い合成音声を得ることができる。

　また、上述の音声合成装置は、さらに、前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、当該音素の音素環境情報と、選択した素片情報に含まれる音素環境情報との一致性を示すコストを算出する目標コスト算出部を備え、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度およびコストに基づいて、当該音素に対応する素片情報を選択しても良い。

　また、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出されたコストに対して、前記素片記憶部に記憶されている素片情報の数が大きいほど大きな重み付けを行い、重み付けられたコストと前記開口度一致度算出部が算出した一致度とに基づいて、当該音素に対応する素片情報を選択しても良い。

　この構成によると、素片情報を選択する際に、素片記憶部に記憶されている素片情報の数が大きいほど、開口度一致度算出部が算出した一致度の重みを小さくしている。つまり、目標コスト算出部が算出した音素環境情報および韻律情報のコストの重みを大きくしている。これにより、素片記憶部に記憶されている素片情報の数が小さい場合には、音素環境情報および韻律情報の類似性が高い素片情報がない場合においても、開口度の一致度の高い素片情報を選択することにより、発声様態が一致した素片情報が選択される。これにより、全体として自然な発声様態の時間変化を再現することができるため、自然性の高い合成音声を得ることができる。

　また、前記開口度一致度算出部は、前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度と、前記開口度生成部が生成した開口度とを音素の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出しても良い。

　この構成によると、音素の種類毎に正規化された開口度を用いて開口度の一致度を算出している。このため、音素の種類を区別した上で一致度を算出することができる。よって、音素毎に適切な素片情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い合成音声を得ることができる。

　また、前記開口度一致度算出部は、前記テキストから生成される音素ごとに、前記一致度として、前記開口度生成部が生成した開口度の時間方向の差分と、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度の時間方向の差分との一致度を算出しても良い。

　この構成によると、開口度の時間的な変化に基づいて開口度の一致度を算出することができる。このため、先行する音素の開口度を加味した上で素片情報を選択することができるため、自然な発声様態の時間変化を再現することができ、自然性の高い合成音声を得ることができる。

　また、上述の音声合成装置は、さらに、話者の音声から、前記話者の口腔内の容積に対応する開口度を算出する開口度算出部と、音素の種類と、前記開口度算出部が算出した前記開口度の情報と、音声素片データとを含む素片情報を前記素片記憶部に登録する素片登録部とを備えていても良い。

　この構成によると、音声合成に用いられる素片情報を作成することが可能になる。このため、音声合成に用いる素片情報を随時更新することが可能となる。

　また、上述の音声合成装置は、さらに、話者の音声から声道情報を抽出する声道情報抽出部を備え、前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、声道の断面積を示す声道断面積関数を算出し、算出した声道断面積関数で示される声道断面積の和を、前記開口度として算出しても良い。

　この構成によると、声道断面積関数を用いて開口度を算出することにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状（例えば舌の位置）も考慮した開口度を算出することができる。

　また、前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、区間毎の声道の断面積を示す声道断面積関数を算出し、算出した声道断面積で示される口唇に対応する区間から所定区間までの声道断面積の和を、前記開口度として算出しても良い。

　この構成によると、口唇に近い口腔内の形状を考慮した開口度を算出することができる。

　また、前記開口度生成部は、前記テキストから生成される音素の種類と当該音素のアクセント句内の位置を示す情報を用いて、前記開口度を生成しても良い。

　このように、音素のアクセント句の位置を用いて開口度を生成することにより、より言語的な影響を考慮した開口度を生成することができる。

　また、前記アクセント句内の位置は、前記アクセント句内のアクセント位置からの距離であっても良い。

　アクセント位置は、発声において強調される傾向があるため、開口度が大きくなる傾向がある。この構成によると、このような影響を考慮した開口度を生成することができる。

　また、前記開口度生成部は、さらに、前記テキストから生成される音素が属する形態素の品詞を示す情報を用いて、前記開口度を生成しても良い。

　名詞や動詞など、内容語となりうる形態素は強調される可能性がある。強調される場合は、開口度は大きくなる傾向がある。この構成によると、このような傾向を考慮した開口度を生成することができる。

　また、本発明の他の一態様に係る音声合成装置は、入力されたテキストの合成音を生成する音声合成装置であって、前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、前記素片選択部が選択した前記素片情報と、前記テキストから生成された韻律情報とを用いて、前記テキストの合成音を生成する合成部とを備える。

　なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

　以下本発明の実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態１）
　既に述べたように、テキストから音声を合成する際に、入力テキストを自然に発声した際の発声様態の時間的な変動を保持することが重要である。発声様態とは、例えば、ハッキリと明瞭度の高い発声、怠けた明瞭度の低い発声である。

　発声様態は、音声の発話速度、発話内の位置、または、アクセント句内における位置など様々な要因により影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭に発声する。しかし、文末では怠けが発生し、明瞭度が低下する傾向がある。また、入力テキストにおいて、ある単語を強調して発声する際の発声様態は、強調せずに発声する際の発声様態とは異なる。

　しかしながら、従来技術のように入力テキストから想定される音素環境または韻律情報を基準として、音声素片を選択した場合、選択した音声素片が、自然な発声様態の時間パターンを保持する保証はない。これを保証するためには、素片記憶部に、入力テキストと同じ発声が含まれる程に、巨大な素片記憶部を構築しなければならず、このような素片記憶部を現実に構築することが不可能である。

　例えば、素片接続型の音声規則合成システムでは、素片データベースを構築する際に数時間から数十時間の音声を用意することも珍しくないが、それでもなお、全ての入力テキストに対して自然な発声様態の時間パターンを実現することは難しい。

　本実施の形態によると、素片記憶部のデータ数が比較的少量の場合においても、前述の自然な発声様態の時間パターンを考慮して、音声合成を行うことができる。

　図５（ａ）は、前述の「めまいがします（／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／）」と発声した際の「めまい」の／ｍａ／の／ａ／の対数声道断面積関数を示し、図５（ｂ）は、「お湯が出ません（／ｏｙｕｇａｄｅｍａｓｅＮ／）」と発声した際の／ｍａ／の／ａ／の対数声道断面積関数を示す。

　図５（ａ）の／ａ／は、文頭に近く、また内容語（自立語）に含まれる音であることから、発声様態としてはハッキリと明瞭に発話されている。一方、図５（ｂ）の／ａ／は、文末に近く、発声様態としては怠けが発生し、明瞭さが低い。

　本願発明者らは、このような発声様態の違いと対数声道断面積関数の関係を注意深く観察することにより、発声様態が口腔内の容積と関連がある知見を見出した。

　つまり、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向があり、逆に口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。

　音声から算出可能な口腔内容積を開口度の指標とすることによって、素片記憶部から所望の発声様態を有する音声素片を探し出すことが可能となる。発声様態を口腔内容積という一つの値で表すことにより、発話内位置、アクセント句内位置、または強調の有無と言った多様な組み合わせの情報を考慮する必要がなくなるため、素片記憶部から所望の特性を有する音声素片を探し出すことが容易になる。さらに、音素環境を全ての音素で区別するのではなく、特性が近い音素を一つのカテゴリとして音素環境の種類を削減することにより、音声素片の必要量を少なくすることが可能となる。

　本発明は、口腔内の容積を用いることにより発声様態の時間的な変動を保存し、自然性の劣化が少ない音声合成を実現する。つまり、文頭の開口度を文末の開口度に比べて大きくすることにより、発生態様の時間的な変動を保存した音声を合成する。これによって、文頭ははっきりと明瞭に発話され、文末では怠けにより明瞭度が低い発話される自然な発生態様を有する音声を合成できる。

　図６は、実施の形態１における音声合成装置の機能的な構成を示すブロック図である。音声合成装置は、韻律生成部１０１と、開口度生成部１０２と、素片記憶部１０３と、開口度一致度算出部１０４と、素片選択部１０５と、合成部１０６とを備える。

　韻律生成部１０１は、入力されたテキストを用いて韻律情報を生成する。つまり、韻律生成部１０１は、音素情報と、音素に対応する韻律情報を生成する。

　開口度生成部１０２は、入力されたテキストに基づいて、入力されたテキストを自然に発声した際の開口度の時間パターンを生成する。つまり、開口度生成部１０２は、入力されたテキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに口腔内の容積に対応する開口度を生成する。

　素片記憶部１０３は、合成音を生成するための素片情報を記憶するための記憶装置であり、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などにより構成される。つまり、素片記憶部１０３は、各々が、音素の種類、開口度の情報および声道情報を含む複数の素片情報を記憶している。ここで、声道情報は音声素片の一種である。素片記憶部１０３に記憶される素片情報の詳細は後述する。

　開口度一致度算出部１０４は、開口度生成部１０２により生成された音素単位における開口度と、素片記憶部１０３に記憶されている各音素の素片の開口度との一致度を算出する。つまり、開口度一致度算出部１０４は、テキストから生成される音素ごとに、当該音素の種類と音素の種類が一致する素片情報を素片記憶部１０３に記憶されている素片情報の中から選択し、開口度生成部１０２が生成した開口度と選択した素片情報に含まれる開口度との一致度を算出する。

　素片選択部１０５は、開口度一致度算出部１０４により算出された一致度に基づいて、素片記憶部１０３に記憶されている素片情報から最適な素片情報を選択し、選択した素片情報に含まれる音声素片を接続することにより音声素片系列を選択する。なお、素片選択部１０５に全ての開口度についての素片情報が記憶されている場合には、素片選択部１０５は、開口度生成部１０２が生成した開口度に一致する素片情報を、素片記憶部１０３に記憶されている素片情報の中から選択するだけでよい。このため、このような場合には、開口度一致度算出部１０４は音声合成装置に備えられていなくてもよい。

　合成部１０６は、素片選択部１０５により選択された音声素片系列を用いて、合成音を生成する。

　以上のように構成された音声合成装置により、入力テキストを自然に発声した際の発声様態の時間的な変動を持つ合成音を生成することが可能となる。

　以下、それぞれの構成要素について詳しく説明する。

　＜韻律生成部１０１＞
　韻律生成部１０１は、入力されたテキストに基づいて、入力されたテキストを発声する際の韻律情報を生成する。入力されたテキストは、複数の文字で構成されている。韻律生成部１０１は、複数の文章を含むテキストが入力された場合には、句点などの情報を元にテキストを単文に分割し、単文単位で韻律を生成する。なお、韻律生成部１０１は、英語で記載されたテキストなどにおいても同様にテキストを単文に分割して処理を行い、韻律を生成する。

　また、韻律生成部１０１は、文章を言語的に解析し、発音記号列とアクセントなどの言語情報を取得する。言語情報には、文頭からのモーラ数、文末からのモーラ数、当該アクセント句の文頭からの位置、当該アクセント句の文末からの位置、当該アクセント句のアクセント型、アクセント位置からの距離、当該形態素の品詞などが含まれる。

　たとえば、「今日の天気は晴れです。」という文章が入力された場合、韻律生成部１０１は、図７に示すように、まず、文章を形態素に分割する。韻律生成部１０１は、文章を形態素に分割する際に、各形態素の品詞情報なども同時に解析する。韻律生成部１０１は、分割した形態素に読みを付与する。韻律生成部１０１は、付与した読み情報にアクセント句およびアクセント位置を付与する。韻律生成部１０１は、以上のようにして言語情報を取得する。韻律生成部１０１は、取得した言語情報（発音記号列およびアクセント情報など）を元に韻律情報を生成する。なお、テキストに予め言語情報が付与されている場合には、このような解析処理は不要である。

　韻律情報とは、各音素の継続時間長、基本周波数パターン、またはパワー等を示す。

　韻律情報の生成には、例えば、数量化Ｉ類を用いる方法や、ＨＭＭ（隠れマルコフモデル）を用いて、韻律情報を生成する方法などがある。

　例えば、数量化Ｉ類を用いて基本周波数パターンを生成する場合、基本周波数を目的変数とし、入力テキストに基づいた音素記号列、アクセント位置など説明変数とすることにより、基本周波数パターンを生成することが可能である。同様に継続時間長またはパワーを目的変数とすることにより、継続時間長パターンまたはパワーパターンを生成することが可能である。

　＜開口度生成部１０２＞
　前述したように、本願発明者らは、発声様態の違いと対数声道断面積関数の関係とを注意深く観察することにより、発声様態が口腔内の容積と関連があるという新たな知見を見出した。

　具体的には、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向がある。逆に、口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。

　音声から算出可能な口腔内容積を開口度の指標とすることによって、素片記憶部１０３から所望の発声様態を有する音声素片を探し出すことが可能となる。

　開口度生成部１０２は、入力されたテキストに基づいて、口腔内の容積に対応する開口度を生成する。具体的には、開口度生成部１０２は、予め学習した開口度の変化の時間パターンを示すモデルを用いて、開口度の変化の時間パターンを生成する。モデルは、予め発声された音声データから、開口度の変化の時間パターンを抽出し、抽出した時間パターンとテキスト情報に基づいて学習を行うことにより生成される。

　まず、モデル学習時の開口度の算出方法について説明する。具体的には、音声を声道音源モデルに基づいて、声道情報と音源情報に分離し、声道情報から開口度を算出する方法について説明する。

　声道音源モデルとして線形予測モデル（ＬＰＣモデル）を用いた場合、音声波形（音声信号）のある標本値ｓ（ｎ）をそれより前のｐ個の標本値から予測するものであり、式１のように表せる。

　ｐ個の標本値に対する係数α_i（ｉ＝１～ｐ）は、相関法や共分散法などを用いることにより算出できる。算出した係数を用いると入力された音声信号は、式２により生成することができる。

　ここで、Ｓ（ｚ）は音声信号ｓ（ｎ）のｚ変換後の値であり、Ｕ（ｚ）は、は音源信号ｕ（ｎ）のｚ変換後の値であり、入力音声Ｓ（ｚ）を声道特徴１／Ａ（ｚ）で逆フィルタリングした信号を表す。

　さらに、ＬＰＣ分析により分析された線形予測係数αを用いて、ＰＡＲＣＯＲ係数（偏自己相関係数）を算出するようにしてもよい。ＰＡＲＣＯＲ係数は、線形予測係数と比較して、補間特性が良いことが知られている。ＰＡＲＣＯＲ係数は、Ｌｅｖｉｎｓｏｎ－Ｄｕｒｂｉｎ－Ｉｔａｋｕｒａアルゴリズムを用いることにより算出することが可能である。なお、ＰＡＲＣＯＲ係数は、次の特徴を保有する。

　（特徴１）低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。

　（特徴２）高次の係数の変動の影響は、平坦に全域にわたる。

　以下の説明では、声道特徴として、ＰＡＲＣＯＲ係数を用いて説明する。なお、用いる声道特徴はＰＡＲＣＯＲ係数に限らず、線形予測係数を用いても良い。さらには線スペクトル対（ＬＳＰ）を用いてもよい。

　また、声道音源モデルとしてＡＲＸモデルを用いても良い。この場合、ＡＲＸ（Ａｕｔｏｒｅｇｒｅｓｓｉｖｅ　ｗｉｔｈ　ｅｘｏｇｅｎｏｕｓ　ｉｎｐｕｔ）分析を用いて、声道と音源を分離する。ＡＲＸ分析は、音源として数式音源モデルを用いる点がＬＰＣ分析と大きく異なる。また、ＡＲＸ分析では、ＬＰＣ分析と異なり、分析区間内に複数の基本周期を含んだ場合においても、より正確に声道と音源の情報を分離できる（非特許文献３：大塚貴弘、粕谷英樹、「音源パルス列を考慮した頑健なＡＲＸ音声分析法」、日本音響学会誌５８巻７号、２００２年、ｐｐ．３８６－３９７）。

　ＡＲＸ分析では、音声は式３に示す生成過程により生成される。式３において、Ｓ（ｚ）は、音声信号ｓ（ｎ）のｚ変換後の値を表す。Ｕ（ｚ）は、有声音源信号ｕ（ｎ）のｚ変換後の値を表す。Ｅ（ｚ）は、無声雑音音源ｅ（ｎ）のｚ変換後の値を表す。つまり、ＡＲＸ分析では、有声音は式３の右辺第１項により音声が生成され、無声音は右辺第２項により生成される。

　このとき、有声音源信号ｕ（ｔ）＝ｕ（ｎＴｓ）のモデルとして、式４に示す音モデルを用いる（Ｔｓはサンプリング周期）。

　ただし、ＡＶは有声音源振幅、Ｔ０はピッチ周期、ＯＱは声門開放率を表わす。有声音の場合は式４の第１項が使用され、無声音の場合は式４の第２項が使用される。声門開放率ＯＱは、１ピッチ周期における声門が開放されている割合を示す。声門開放率ＯＱが大きいほどやわらかい音声となる傾向があることが知られている。

　ＡＲＸ分析は、ＬＰＣ分析と比較して以下の利点がある。

　（利点１）分析窓内に複数のピッチ周期に対応した音源パルス列を配して分析を行っているため、女性または子供などの高ピッチ音声でも安定に声道情報を抽出できる。

　（利点２）特に、ピッチ周波数Ｆ０と第１フォルマント周波数Ｆ１が接近している／ｉ／、／ｕ／などの狭母音の声道音源分離性能が高い有声音区間では、ＬＰＣ分析の場合と同様に、Ｕ（ｚ）は、入力音声Ｓ（ｚ）を声道特徴１／Ａ（ｚ）で逆フィルタリングすることにより得ることができる。

　ＬＰＣ分析の場合と同様に、ＡＲＸ分析においても、声道特徴１／Ａ（ｚ）は、ＬＰＣ分析におけるシステム関数と同じ形式である。このことから、ＬＰＣ分析と同様の方法により、ＰＡＲＣＯＲ係数を求めても良い。

　開口度生成部１０２は、このようにして得られた声道情報から口腔内の容積を表す開口度を算出する。具体的には、声道特徴として抽出されたＰＡＲＣＯＲ係数から式５を用いて、声道断面積関数を算出する。

　ここで、ｋ_ｉは、ｉ次のＰＡＲＣＯＲ係数、Ａ_ｉは、ｉ番目の声道断面積を表し、Ａ_Ｎ＋１＝１とする。

　図８は、ある発声の母音／ａ／の対数声道断面積関数を示す図である。声門から口唇までの声道を１１個の区間（セクション）に分割しており、セクション１１が声門を表し、セクション１が口唇を表す。

　図８において、網掛け領域は概ね口腔内と考えることができる。そこで、セクション１からセクションＴまでを口腔内と考えると（図８ではＴ＝５）、開口度Ｃは式６により定義することができる。Ｔは、ＬＰＣ分析あるいはＡＲＸ分析の次数に応じて変更することが望ましい。例えば１０次のＬＰＣ分析の場合、３乃至５程度が望ましい。ただし、具体的な次数については限定するものではない。

　開口度生成部１０２は、式６で定義される開口度Ｃを発声された音声に対して算出する。このように声道断面積関数を用いて開口度（口腔内の容積）を算出することにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状（例えば舌の位置）も考慮することができる。

　図９に、「めまいがします（／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／）」という発声において、式６により算出された開口度の時間的な変化を示す。

　開口度生成部１０２は、以上のようにして算出された開口度を目的変数とし、入力されたテキストから得られる情報（例えば、音素種類、アクセント情報、韻律情報）を説明変数として、基本周波数などの韻律情報の学習と同様に開口度生成モデルを学習する。

　具体的にテキストから音素種類、アクセント情報、韻律情報を生成する方法について述べる。

　入力されたテキストは、複数の文字で構成されている。開口度生成部１０２は、複数の文章を含むテキストが入力された場合には、句点などの情報を元にテキストを単文に分割し、単文単位で韻律を生成する。なお、開口度生成部１０２は、英語で記載されたテキストなどにおいても同様にテキストを単文に分割して処理を行い、韻律を生成する。

　また、開口度生成部１０２は、文章を言語的に解析し、発音記号列とアクセントなどの言語情報を取得する。言語情報には、文頭からのモーラ数、文末からのモーラ数、当該アクセント句の文頭からの位置、当該アクセント句の文末からの位置、当該アクセント句のアクセント型、アクセント位置からの距離、当該形態素の品詞などが含まれる。

　たとえば、「今日の天気は晴れです。」という文章が入力された場合、開口度生成部１０２は、図７に示すように、まず、文章を形態素に分割する。開口度生成部１０２は、文章を形態素に分割する際に、各形態素の品詞情報なども同時に解析する。開口度生成部１０２は、分割した形態素に読みを付与する。開口度生成部１０２は、付与した読み情報にアクセント句およびアクセント位置を付与する。開口度生成部１０２は、以上のようにして言語情報を取得する。

　さらに、開口度生成部１０２は、韻律生成部１０１により取得した韻律情報（各音素の継続時間、強度、基本周波数）を説明変数として利用する。

　開口度生成部１０２は、このようにして得られた言語情報および韻律情報（発音記号列およびアクセント情報など）を元に、開口度情報を生成する。なお、テキストに予め、言語情報および韻律情報が付与されている場合には、このような解析処理は不要である。

　学習方法は特に限定するものではないが、例えば、数量化Ｉ類を用いて、テキスト情報から抽出される言語的な情報と、開口度の関係を学習することができる。

　以下に数量化Ｉ類を用いて開口度を生成する方法を説明する。開口度を生成する単位として、音素を用いる。単位は音素に限定されるものではなく、モーラや音節などを用いても良い。

　数量化Ｉ類では、式７を用いて、各説明変数のカテゴリ毎に数量を学習し、その総和として目的変数の数量を推定する。

　式７において、

はｉ番目の音素の開口度の推定値であり、

は、学習データにおける開口度の平均値である。ｘ_ｆｃは説明変数ｆのカテゴリｃの数量、δ_ｆｃは説明変数ｆがカテゴリｃを取るときにのみ１、それ以外のときに０を与える関数である。数量ｘ_ｆｃを学習データに基づいて決定することにより、モデルを学習することができる。

　前述したように開口度は、音素種類や、アクセント情報、韻律情報、その他言語情報に関連して変動する。そこで、これらの情報を説明変数として用いる。図１０に説明変数として用いる制御要因とそのカテゴリの例を示す。「音素種類」は、テキストのｉ番目の音素の種類である。音素により、口唇の開け具合や顎の開き具合などが変化することから開口度を推定する際に有効である。例えば、／ａ／は、広母音であり、開口度が大きくなる傾向がある。一方、／ｉ／などの狭母音は、開口度が小さくなる傾向がある。「文頭からのモーラ数」は当該音素が含まれるモーラが文頭から数えて何モーラ目に該当するかを示す説明変数である。開口度は、通常の発声では文頭から文末にかけて小さくなる傾向があるため、開口度を推定する際に有効である。同様に「文末からのモーラ数」は、文末にどれだけ近いかにより開口度を推定する際に有効である。「当該アクセント句の文頭からの位置」および「当該アクセント句の文末からの位置」は、当該音素が含まれるアクセント句の文内のモーラ位置を示す。モーラ数だけではなくアクセント句の位置を用いることにより、より言語的な影響を考慮することができる。

　「当該アクセント句のアクセント型」は、当該音素が含まれるアクセント句のアクセント型を示すものである。アクセント型を用いることにより基本周波数の変化のパターンを考慮することができる。

　「アクセント位置からの距離」は、当該音素がアクセント位置から何モーラ離れているかを示す。アクセント位置は、発声において強調される傾向があるため、開口度が大きくなる傾向がある。

　「当該形態素の品詞」は、当該音素が含まれる形態素の品詞である。名詞や動詞など、内容語となりうる形態素は強調される可能性がある。強調される場合は、開口度は大きくなる傾向があるため、これを考慮する。

　「当該音素の基本周波数」は、当該音素が発声される際の基本周波数である。基本周波数が高いほど強調されている可能性がある。例えば、「＜１００」は基本周波数が１００Ｈｚ未満であることを示す。

　「当該音素の継続時間長」は、当該音素が発生される際の時間長である。継続時間長が長い音素は強調されている可能性がある。例えば、「＜１０」は継続時間長が１０ｍｓｅｃ未満であることを示す。

　以上のような説明変数を用いて、開口度を推定する説明変数の数量ｘ_ｆｃを学習することにより、入力されたテキストから開口度の時間パターンを推定することが可能となり、合成音声が持つべき発声様態を推定することが可能となる。つまり、開口度生成部１０２は、式７の説明変数に値を代入することにより、目的変数の値である開口度を算出する。説明変数の値は、韻律生成部１０１で生成される。

　なお、説明変数は、以上に述べたものに限定するものではなく、開口度の変化に影響を与えるものを新たに追加するようにしても良い。

　なお、開口度の算出方法は上記の方法に限定するものではなく、例えば、音声発声時にＭＲＩ（Ｍａｇｎｅｔｉｃ　Ｒｅｓｏｎａｎｃｅ　Ｉｍａｇｉｎｇ）を用いて声道の形状を抽出し、抽出した声道形状から上記の方法と同様に口腔内に対応する区間の容積で開口度を算出するようにしても良い。あるいは、発声時に口腔内に磁気マーカを貼付しておき、磁気マーカの位置情報から口腔内の容積である開口度を推定するようにしても良い。

　＜素片記憶部１０３＞
　素片記憶部１０３は、音声素片と、開口度とを含む素片情報を記憶する。音声素片は、例えば、音素、音節、モーラなどの単位で記憶する。以降の説明において、音声素片の単位を、音素として説明する。素片記憶部１０３は、音素種類が同じであり、かつ、開口度が異なる素片情報を記憶している。

　素片記憶部１０３が記憶する音声素片の情報は、音声波形である。また、音声素片の情報は、前述の声道音源モデルに基づいて分離した声道情報と音源情報とである。各音声素片に対応する開口度は、上述の方法で算出することが可能である。

　図１１は、素片記憶部１０３に記憶されている素片情報の例を示す。図１１において、音素番号１および２の素片情報は、音素種類／ａ／が同じである。一方、音素番号１の開口度１０に対して、音素番号２の開口度は１２である。上述したとおり、素片記憶部１０３は、音素種類が同じであり、かつ、開口度が異なる素片情報を記憶している。ただし、全ての音素種類について、開口度が異なる素片情報を記憶している必要はない。

　具体的には、素片記憶部１０３は、素片情報を識別するための音素番号と、音素種類と、音声素片である声道情報（ＰＡＲＣＯＲ係数）と、開口度と、音声素片である音素環境と、音声素片である所定区間における音源情報と、音声素片である韻律情報と、継続時間長とを記憶している。音素環境は、例えば、前方または後方の音素情報、前方または後方の音節情報、または前方または後方の音素の調音点を含む。図１１では、前方または後方の音素情報を示している。音源情報は、スペクトル傾斜および声門開放度を含む。韻律情報は、基本周波数（Ｆ０）、およびパワーなどを含む。

　＜開口度一致度算出部１０４＞
　開口度一致度算出部１０４は、素片記憶部１０３に記憶されている素片情報のうち、入力テキストに含まれる音素と音素の種類が同一の素片情報を特定する。開口度一致度算出部１０４は、特定した素片情報に含まれる開口度と、開口度生成部１０２が生成した開口度との一致度である開口度一致度Ｓ_ｉｊを算出する。開口度一致度算出部１０４は、素片記憶部１０３と有線または無線で接続され、素片情報等を含む情報の送受信を行う。開口度一致度Ｓ_ｉｊは、次のように算出することができる。以下に示す開口度一致度Ｓ_ｉｊは、値が小さいほど開口度Ｃ_ｉと開口度Ｃ_ｊの一致性が高いことを示す。

　（１）開口度の差分
　開口度一致度算出部１０４は、入力テキストから生成される音素ごとに、式８に示すように開口度生成部１０２により算出された開口度Ｃ_ｉと、素片記憶部１０３に記憶された対象音素と同じ音素種類の素片情報に含まれる開口度Ｃ_ｊとの差分により開口度一致度Ｓ_ｉｊを算出する。

　（２）母音ごとに正規化
　また、開口度一致度算出部１０４は、以下の式９および式１０に従って、入力テキストから生成される音素ごとに開口度を算出しても良い。つまり、開口度一致度算出部１０４は、式１０に示すように開口度生成部１０２により算出された開口度Ｃ_ｉを当該音素の開口度の平均値および標準偏差により正規化することにより、音素正規化開口度Ｃ_ｉ ^Ｐを算出する。また、開口度一致度算出部１０４は、素片記憶部１０３に記憶された対象音素と同じ音素種類の素片情報に含まれる開口度Ｃ_ｊを当該音素の開口度の平均値と標準偏差により正規化することにより、音素正規化開口度Ｃ_ｊ ^Ｐを算出する。開口度一致度算出部１０４は、音素正規化開口度Ｃ_ｉ ^Ｐと音素正規化開口度Ｃ_ｊ ^Ｐとの差分により開口度一致度Ｓ_ｉｊを算出する。

　ここで、Ｅ^ｉは、ｉ番目の音素の開口度の平均を示し、Ｖ^ｉは、ｉ番目の音素の開口度の標準偏差を示す。

　なお、素片記憶部１０３には、予め音素正規化開口度Ｃ_ｊ ^Ｐが記憶されていても良い。この場合には、開口度一致度算出部１０４は、音素正規化開口度Ｃ_ｊ ^Ｐを算出する必要が無くなる。

　（３）変動を見る
　また、開口度一致度算出部１０４は、以下の式９および式１０に従って、入力テキストから生成される音素ごとに、開口度を算出しても良い。つまり、開口度一致度算出部１０４は、式１１に示すように開口度生成部１０２により生成された開口度Ｃ_ｉと先行する音素の開口度との差分である開口度差分値Ｃ_ｉ ^Ｄを算出する。また、開口度一致度算出部１０４は、素片記憶部１０３に記憶された当該音素と同じ音素種類のデータの開口度Ｃ_ｊと、当該音素の先行音素の開口度との差分である開口度差分値Ｃ_ｊ ^Ｄを算出する。開口度一致度算出部１０４は、開口度差分値Ｃ_ｉ ^Ｄと開口度差分値Ｃ_ｊ ^Ｄとの差分により開口度の一致度を算出する。

　なお、開口度の一致度は、上記の方法を組み合わせて算出するようにしても良い。具体的には、上記一致度の重み付和により算出するようにしても良い。

　＜素片選択部１０５＞
　素片選択部１０５は、入力テキストから生成される音素ごとに、対象音素の種類および開口度に基づいて、素片記憶部１０３に記憶されている複数の素片情報の中から、対象音素に対応する素片情報を選択する。

　つまり、素片選択部１０５は、開口度一致度算出部１０４により算出された一致度を用いて、入力テキストに対応する各音素に対して、素片記憶部１０３から音声素片を選択する。

　具体的には、式１２に示すように入力テキストの音素系列に対して、開口度一致度算出部１０４が算出した開口度一致度Ｓ_{ｉ，ｊ（ｉ）}および、隣接素片間の接続コストＣ^Ｃ _{ｊ（ｉ－１），ｊ（ｉ）}が最小になる音声素片を素片記憶部１０３から選択する。接続コストが最小となるとは、類似度が高いことを意味する。

　隣接素片間の接続コストＣ^Ｃ _{ｊ（ｉ－１），ｊ（ｉ）}は、連続する音声素片をｕ_{ｊ（ｉ－１）}，ｕ_ｊ（ｉ）とすると、例えばｕ_{ｊ（ｉ－１）}の終端と、ｕ_ｊ（ｉ）の始端との連続性により算出することができる。接続コストの算出方法は特に限定するものではなく、例えば、音声素片の接続位置におけるケプストラム距離などを用いることにより算出することができる。

　式１２において、ｉは、入力テキストに含まれるｉ番目の音素であり、Ｎは入力テキストの音素数、ｊ（ｉ）は、ｉ番目の音素として選択された素片を表す。

　なお、素片記憶部１０３に記憶されている素片情報に、前述の声道音源モデルにより分析された声道特徴、および音源特徴のパラメータが含まれている場合は、音声素片間を分析パラメータ間の補間により連続に接続することが可能である。その為、音声素片の接続は少ない音質劣化で比較的容易に行えることから、開口度の一致度のみを用いて素片選択を行っても良い。具体的には式１３に示すような音声素片の系列ｊ（ｉ）を選択する。

　さらには、素片記憶部１０３に記憶されている開口度を量子化することで、素片選択部１０５は、開口度生成部１０２が生成した開口度に対応する音声素片を素片記憶部１０３から一意に選択するようにしても良い。

　＜合成部１０６＞
　合成部１０６は、素片選択部１０５により選択された素片情報と、韻律生成部１０１が生成した韻律情報を用いて、入力されたテキストを読み上げた合成音（テキストの合成音）を生成する。

　素片記憶部１０３が記憶する素片情報に含まれる音声素片が、音声波形である場合は、音声波形を接続することにより合成を行う。接続の方法は特に限定するものではなく、例えば、音声素片の接続時の歪が最小となる接続点で接続するようにすればよい。なお、音声素片を接続する際には、素片選択部１０５により選択された音声素片系列をそのまま接続しても良いし、韻律生成部１０１により生成された韻律情報にあわせて各音声素片を変形した後に接続するようにしても良い。

　あるいは、素片記憶部１０３が、音声素片として、声道音源モデルに基づく声道情報と、音源情報を記憶している場合は、合成部１０６は、声道情報と音源情報のそれぞれを接続し、音声を合成する。合成の方法は特に限定するものではないが、声道情報としてＰＡＲＣＯＲ係数を用いている場合は、ＰＡＲＣＯＲ合成を用いればよい。あるいは、ＰＡＲＣＯＲ係数からＬＰＣ係数に変換した後に音声合成してもよいし、フォルマントを抽出し、フォルマント合成により音声合成してもよい。さらに、ＰＡＲＣＯＲ係数からＬＳＰ係数を算出しＬＳＰ合成により音声合成するようにしてもよい。

　なお、声道情報および音源情報を韻律生成部１０１が生成した韻律情報にあわせて変形した後に音声合成するようにしても良い。この場合、素片記憶部１０３が記憶する素片の数が少ない場合においても高音質な合成音を得ることができる。

　（フローチャート）
　本実施の形態に係る音声合成装置の具体的な動作に関して図１２に示すフローチャートを用いて説明する。

　ステップＳ１０１において、韻律生成部１０１は、入力テキストに基づいて韻律情報を生成する。

　ステップＳ００２において、開口度生成部１０２は、入力テキストに基づいて、入力テキストに含まれる音素系列の開口度の時間パターンを生成する。

　ステップＳ００３において、開口度一致度算出部１０４は、ステップＳ００２で算出された入力テキストに含まれる音素系列の各音素の開口度と、素片記憶部１０３に記憶されている素片情報の開口度との一致度を算出する。また、素片選択部１０５は、算出した一致度、および／または、ステップＳ１０１で算出した韻律情報に基づいて、入力テキストに含まれる音素系列のそれぞれに対して音声素片を選択する。

　ステップＳ００４において、合成部１０６は、ステップＳ００３で選択された音声素片系列を用いて音声を合成する。

　（効果）
　かかる構成によれば、入力テキストから音声を合成する際に、入力テキストに基づく発声様態の時間的変化を保存しながら、音声を合成することが可能となる。結果として、合成された音声は、発声様態の変化の時間パターンが保存されているため、合成時の自然性（流暢さ）の劣化を低減する。

　例えば、図３（ａ）に示すように、入力テキストの基づく各音素の発声様態（明瞭度）の変化と合成音の発声様態の変化（はっきりや怠けの時間パターン）が、実際に発声された音声から学習された発声様態の変化と同じになるため、発声様態の不自然さに起因する音質の劣化を低減できる。

　また、音声素片の選択基準として、口腔内の容積（開口度）を基準にしているため、言語的生理的な諸条件を直接考慮して素片記憶部１０３を構築する場合と比較すると、素片記憶部１０３のデータ数を少なくできるという効果も有する。

　なお、本実施の形態では、日本語の音声により説明を行ったが、日本語に限るものではなく、英語をはじめ他の言語においても同様に音声合成を行うことができる。

　例えば、通常発声した場合“Ｃａｎ　Ｉ　ｍａｋｅ　ａ　ｐｈｏｎｅ　ｃａｌｌ　ｆｒｏｍ　ｔｈｉｓ　ｐｌａｉｎ？”と発声した場合において、文末のｐｌａｉｎの［ｅｉ］と、“Ｍａｙ　Ｉ　ｈａｖｅ　ａ　ｔｈｅｒｍｏｍｅｔｅｒ？”の文頭のＭａｙの［ｅｉ］／ｅ／の発声様態は異なる（［］内は国際音声記号（Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｐｈｏｎｅｔｉｃ　Ａｌｐｈａｂｅｔ））。また、日本語と同様に文内位置や、内容語若しくは機能語の種別、または強調の有無などによりその発声様態は変化することから、従来の音素環境や韻律情報を選択基準として音声素片を選択すると、日本語と同様に発声様態の時間的変化が崩れることに起因し、合成音声の自然性は劣化する。したがって、英語においても開口度を基準に音声素片を選択することにより、入力テキストに基づく発声様態の時間的変化を保存しながら、音声を合成することが可能となる。結果として、合成された音声は、発声様態の変化の時間パターンが保存されているため、自然性（流暢さ）の劣化を低減した音声合成ができる。

　（実施の形態１の変形例１）
　図１３は、本発明の実施の形態１の音声合成装置の変形例を示す構成図である。図１３において、図６と同じ構成要素については同じ符号を用い、説明を省略する。

　つまり、実施の形態１の変形例１に係る音声合成装置は、図６に示した音声合成装置の構成に目標コスト算出部１０９を追加した構成を有する。

　本変形例では、素片選択部１０５が素片記憶部１０３から素片系列を選択する際に、開口度一致度算出部１０４により算出される開口度の一致度だけではなく、入力音声に含まれる音素の音素環境と、素片記憶部１０３に含まれる各音素の音素環境および韻律情報の類似度に基づいて音声素片を選択することが異なる。

　＜目標コスト算出部１０９＞
　目標コスト算出部１０９は、入力テキストに含まれる各音素に対して、音素の音素環境および韻律生成部１０１により生成された韻律情報と、素片記憶部１０３に含まれる素片情報の音素環境、および韻律情報の類似度に基づいて、コストを算出する。

　具体的には、目標コスト算出部１０９は、着目音素の前後の音素種類の類似度を算出することによりコストを算出する。例えば、入力テキストに含まれる音素の先行音素と、着目音素と同じ音素種類を有する素片情報の音素環境における先行音素との種類が一致しない場合にはペナルティとしてコストｄを加算する。同様に、入力テキストに含まれる音素の後続音素と、着目音素と同じ音素種類を有する素片情報の音素環境における後続音素とが一致しない場合にはペナルティとしてコストｄを加算する。コストｄは、先行音素と後続音素とで同じ値でなくとも良く、例えば先行音素の一致度を優先するようにしても良い。あるいは、先行音素が一致しない場合においても、音素の類似度によりペナルティの大きさを変更するようにしても良い。例えば、音素カテゴリー（破裂音、摩擦音など）が同一の場合はペナルティを小さくするようにしても良い。また、調音位置（歯茎音、口蓋音など）が同一の場合はペナルティを小さくするようにしても良い。以上のようにして、入力テキストに含まれる音素の音素環境と、素片記憶部１０３に含まれる素片情報の音素環境との一致性を示すコストＣ_ＥＮＶを算出する。

　また、韻律情報に関しては、韻律生成部１０１が算出した基本周波数、継続時間長、パワーと、素片記憶部１０３が記憶する素片情報の基本周波数、継続時間長、パワーとの差分によりコストをＣ_Ｆ０、Ｆ_ＤＵＲ、Ｃ_ＰＯＷをそれぞれ算出する。

　目標コスト算出部１０９は、上述したコストを式１４に示すようにそれぞれ重み付け加算することにより、目標コストを算出する。重みｐ１、ｐ２、ｐ３の設定方法は特に限定するものではない。

　＜素片選択部１０５＞
　素片選択部１０５は、開口度一致度算出部１０４により算出された一致度と、目標コスト算出部１０９により算出されたコスト、および音声素片間の接続コストを用いて、各音素に対して、素片記憶部１０３から音声素片系列を選択する。

　具体的には、式１５に示すように入力音声の母音系列に対して、開口度一致度算出部１０４が算出した開口度一致度Ｓ_ｉｊと、目標コスト算出部１０９により算出された目標コストＤ_ｉｊ、および、隣接素片間の接続コストが最小になる音声素片系列ｊ（ｉ）（ｉ＝１，・・・，Ｎ）を素片記憶部１０３から選択する。

　隣接素片間の接続コストＣ^ｃは、連続する音声素片をｕ_ｉ，ｕ_ｊとすると、例えばｕ_ｉの終端と、ｕ_ｊの始端との連続性により算出することができる。接続コストの算出方法は特に限定するものではなく、例えば、音声素片の接続位置におけるケプストラム距離などを用いることにより算出することができる。

　重みｗ_１、ｗ_２の設定方法は特に限定するものではなく、事前に適宜決定するようにすればよい。なお、素片記憶部１０３のデータサイズに応じて、重みを調整するようにしても良い。具体的には、素片記憶部１０３が記憶している素片情報数が大きいほど、目標コスト算出部１０９により算出されるコストの重みｗ_１を大きくし、素片記憶部１０３が記憶している素片情報数が小さいほど、目標コスト算出部１０９により算出されるコストの重みｗ_１を小さくしても良い。

　以上の構成により、音声を合成する際に、音韻性を維持しながら、且つ、発声様態の時間変化を保存することが可能となる。結果として、各音素の音韻性と発声様態の時間変化を保存することが可能となるため、自然性（流暢さ）の劣化を低減した高音質の音声合成が可能となる。

　また、この構成によれば素片記憶部１０３に記憶されている素片情報数が小さい場合においても、発声様態の時間変化を損なわない音声合成が可能であるため、あらゆる利用形態において有用性の高いものとなる。

　また、素片選択部１０５により音声素片系列を選択する際に、素片記憶部１０３に記憶されている素片情報数に応じて、重みを調整する（素片記憶部１０３に記憶される素片情報数が小さいほど、目標コスト算出部１０９により算出されるコストの重みを小さくする）ことにより、素片記憶部１０３に記憶されている素片情報数が小さい場合には、開口度の一致度を優先する。これにより、音素環境などの一致度が高い音声素片がない場合においても、開口度の一致度の高い音声素片を選択することにより、発声様態が一致する。このため、全体として自然な発声様態の時間変化を再現することができるため、自然性の高い合成音を得ることができる。

　一方、素片記憶部１０３に記憶されている素片情報数が大きい場合には、コストと開口度の一致度の双方を考慮しながら音声素片を選択することができる。このため、音素環境を考慮した上で、さらに開口度の一致度を考慮することができるため、従来の選択基準で選択する場合と比較して、自然な発声様態の時間変化を再現することができるため、自然性の高い合成音を得ることができる。

　（実施の形態１の変形例２）
　図１４は、本発明の実施の形態１の音声合成装置の別の変形例を示す構成図である。図１４において、図６と同じ構成要素については同じ符号を用い、説明を省略する。

　つまり、実施の形態１の変形例２に係る音声合成装置は、図６に示した音声合成装置の構成に音声収録部１１０、音素環境抽出部１１１、韻律情報抽出部１１２、声道情報抽出部１１５、開口度算出部１１３および素片登録部１１４を追加した構成を有する。つまり、本変形例では、さらに素片記憶部１０３を構築する処理部を備えている点が、実施の形態１と異なる。

　音声収録部１１０は、話者の音声を収録する。音素環境抽出部１１１は、収録された音声に含まれる各音素に対して、前方および後方の音素種類を含む音素環境を抽出する。韻律情報抽出部１１２は、収録された音声に含まれる各音素に対して、継続時間、基本周波数、パワー情報を含む韻律情報を抽出する。声道情報抽出部１１５は、話者の音声から声道情報を抽出する。開口度算出部１１３は、前記声道情報抽出部が抽出した前記声道情報から、収録された音声に含まれる各音素に対して、開口度を算出する。開口度の算出方法は、実施の形態１における開口度生成部１０２が開口度の変化の時間パターンを示すモデルを生成する際の開口度の算出方法と同じである。

　素片登録部１１４は、音素環境抽出部１１１、韻律情報抽出部１１２および開口度算出部１１３により得られた情報を、素片情報として素片記憶部１０３に登録する。

　素片記憶部１０３に登録される素片情報の作成方法を図１５のフローチャートを用いて説明する。

　ステップＳ２０１において、話者に文章を発話してもらい、音声収録部１１０は、文セットの音声を収録する。文章数は限定するものではないが、音声収録部１１０は、例えば数百文から数千文規模の音声を収録する。収録する音声の規模は特に限定するものではない。

　ステップＳ２０２において、音素環境抽出部１１１は、収録した文セットの音声に含まれる各音素に対して前方および後方の音素種類を含む音素環境を抽出する。

　ステップＳ２０３において、韻律情報抽出部１１２は、収録した文セットの音声に含まれる各音素に対して、継続時間長、基本周波数、パワーを含む韻律情報を抽出する。

　ステップＳ２０４において、声道情報抽出部１１５は、収録した文セットの音声に含まれる各音素に対して、声道情報を抽出する。

　ステップＳ２０５において、開口度算出部１１３は、収録した文セットの音声に含まれる各音素に対して、開口度を算出する。具体的には、開口度算出部１１３は、声道情報を用いて開口度を算出する。つまり、声道情報抽出部１１５が抽出した声道情報から、声道の断面積を示す声道断面積関数を算出し、算出した声道断面積関数で示される声道断面積の和を、開口度として算出する。声道情報抽出部１１５は、算出した声道断面積で示される口唇に対応する区間から所定区間までの声道断面積の和を、開口度として算出しても良い。

　ステップＳ２０６において、素片登録部１１４は、ステップＳ２０２～Ｓ２０５により得られた情報、および、音声収録部１１０が収録した音声に含まれる音素の音声素片（例えば音声波形）を素片記憶部１０３に登録する。

　なお、ステップＳ２０２～Ｓ２０５の処理を実施する順番は必ずしもこの順番でなくても良い。

　以上の処理により、音声合成装置において、話者の音声を収録し、素片記憶部１０３を作成することが可能になるため、得られる合成音の品質を随時更新することが可能となる。

　以上のように作成した素片記憶部１０３を用いることで、入力テキストから音声を合成する際に、音韻性を維持しながら、且つ、発声様態の時間変化を保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化を保存することが可能となるため、自然性（流暢さ）の劣化を低減した高音質の音声合成が可能となる。

　以上、本発明の実施の形態に係る音声合成装置について説明したが、本発明は、この実施の形態に限定されるものではない。

　例えば、上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。ＲＡＭまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　例えば、このコンピュータプログラムは、コンピュータに、テキストを用いて韻律情報を生成するステップと、テキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに、テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成するステップと、テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、素片記憶部に記憶されている、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報の中から、当該音素に対応する素片情報を選択するステップと、選択した素片情報と生成された韻律情報を用いて、テキストの合成音を生成するステップとを実行させる。

　さらに、上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしても良い。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

　さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしても良い。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしても良い。

　また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。

　さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ　Ｄｉｓｃ（登録商標））、半導体メモリなどに記録したものとしても良い。また、これらの非一時的な記録媒体に記録されている上記デジタル信号であるとしても良い。

　また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。

　また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。

　また、上記プログラムまたは上記デジタル信号を上記非一時的な記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。

　また、本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つまたは複数の態様の範囲内に含まれてもよい。

　なお、図１７は、本発明に必須の構成要素を備える音声合成装置の機能的な構成を示すブロック図である。音声合成装置は、入力されたテキストの合成音を生成する装置であり、開口度生成部１０２と、素片選択部１０５と、合成部１０６とを備える。

　開口度生成部１０２は、テキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに、テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する。

　素片選択部１０５は、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部（図示せず）から、テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、素片記憶部に記憶されている複数の素片情報の中から、当該音素に対応する素片情報を選択する。

　合成部１０６は、素片選択部１０５が選択した素片情報と、テキストから生成された韻律情報とを用いて、テキストの合成音を生成する。なお、合成部１０６は、韻律情報を生成しても良いし、外部（例えば、実施の形態１に示した韻律生成部１０１）から取得しても良い。

　今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　本発明に係る音声合成装置は、入力テキストから推定される自然発声した際の発声様態の時間的変化を保存しながら、音声を合成する機能を有し、自然な合成音を必要とする情報機器や家電機器のユーザインタフェース等の用途において有用である。

１０１　韻律生成部
１０２　開口度生成部
１０３　素片記憶部
１０４　開口度一致度算出部
１０５　素片選択部
１０６　合成部
１０９　目標コスト算出部

Claims

　入力されたテキストの合成音を生成する音声合成装置であって、
　前記テキストを用いて韻律情報を生成する韻律生成部と、
　前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、
　各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部と、
　前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、
　前記素片選択部が選択した前記素片情報と前記韻律生成部が生成した前記韻律情報を用いて、前記テキストの合成音を生成する合成部と
　を備える音声合成装置。
　さらに、
　前記テキストから生成される音素ごとに、当該音素の種類と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、前記開口度生成部が生成した開口度と選択した素片情報に含まれる開口度との一致度を算出する開口度一致度算出部を備え、
　前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度に基づいて、当該音素に対応する素片情報を選択する
　請求項１に記載の音声合成装置。
　前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度が示す一致性が最も高い一致度を含む素片情報を選択する
　請求項２に記載の音声合成装置。
　前記素片記憶部に記憶されている各素片情報は、さらに、音素の前または後ろに位置する音素の種類を示す音素環境情報と、韻律情報とを含み、
　前記素片選択部は、前記テキストから生成される音素ごとに、当該音素の種類、開口度、当該音素の音素環境情報、および韻律情報に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する
　請求項２に記載の音声合成装置。
　さらに、
　前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、当該音素の音素環境情報と、選択した素片情報に含まれる音素環境情報との一致性を示すコストを算出する目標コスト算出部を備え、
　前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度およびコストに基づいて、当該音素に対応する素片情報を選択する
　請求項４に記載の音声合成装置。
　前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出されたコストに対して、前記素片記憶部に記憶されている素片情報の数が大きいほど大きな重み付けを行い、重み付けられたコストと前記開口度一致度算出部が算出した一致度とに基づいて、当該音素に対応する素片情報を選択する
　請求項５に記載の音声合成装置。
　前記開口度一致度算出部は、前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度と、前記開口度生成部が生成した開口度とを音素の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
　請求項２～６のいずれか１項に記載の音声合成装置。
　前記開口度一致度算出部は、前記テキストから生成される音素ごとに、前記一致度として、前記開口度生成部が生成した開口度の時間方向の差分と、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度の時間方向の差分との一致度を算出する
　請求項２～６のいずれか１項に記載の音声合成装置。
　さらに、
　話者の音声から、前記話者の口腔内の容積に対応する開口度を算出する開口度算出部と、
　音素の種類と、前記開口度算出部が算出した前記開口度の情報と、音声素片データとを含む素片情報を前記素片記憶部に登録する素片登録部とを備える
　請求項１～８のいずれか１項に記載の音声合成装置。
　さらに、
　話者の音声から声道情報を抽出する声道情報抽出部を備え、
　前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、声道の断面積を示す声道断面積関数を算出し、算出した声道断面積関数で示される声道断面積の和を、前記開口度として算出する
　請求項９に記載の音声合成装置。
　前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、区間毎の声道の断面積を示す声道断面積関数を算出し、算出した声道断面積で示される口唇に対応する区間から所定区間までの声道断面積の和を、前記開口度として算出する
　請求項１０に記載の音声合成装置。
　前記開口度生成部は、前記テキストから生成される音素の種類と当該音素のアクセント句内の位置を示す情報を用いて、前記開口度を生成する
　請求項１～１１のいずれか１項に記載の音声合成装置。
　前記アクセント句内の位置は、前記アクセント句内のアクセント位置からの距離である請求項１２に記載の音声合成装置。
　前記開口度生成部は、さらに、前記テキストから生成される音素が属する形態素の品詞を示す情報を用いて、前記開口度を生成する
　請求項１２または１３に記載の音声合成装置。
　入力されたテキストの合成音を生成する音声合成装置であって、
　前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、
　各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、
　前記素片選択部が選択した前記素片情報と、前記テキストから生成された韻律情報とを用いて、前記テキストの合成音を生成する合成部と
　を備える音声合成装置。
　入力されたテキストの合成音を生成する音声合成方法であって、
　前記テキストを用いて韻律情報を生成するステップと、
　前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成するステップと、
　前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、
　素片記憶部に記憶されている、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報の中から、当該音素に対応する素片情報を選択するステップと、
　選択した前記素片情報と生成された前記韻律情報を用いて、前記テキストの合成音を生成するステップと
　を含む音声合成方法。
　請求項１６に記載の音声合成方法をコンピュータに実行させるためのプログラム。