JPWO2008056590A1

JPWO2008056590A1 - テキスト音声合成装置、そのプログラム及びテキスト音声合成方法

Info

Publication number: JPWO2008056590A1
Application number: JP2008543045A
Authority: JP
Inventors: 玲史近藤; 土井　伸一; 伸一土井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-11-08
Filing date: 2007-11-01
Publication date: 2010-02-25
Also published as: WO2008056590A1

Abstract

音声を生成する場合に、方式や音声の並びなどの要因によって、必ずしも綺麗な音声にならない場合がある。テキスト音声合成装置は、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部１０２と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部１０３と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部１０４と、前記選択した候補テキストに対応する合成音声を生成する音声合成部１０５と、を備え、入力テキストを、文内容等が変わらない範囲で変形し、最良の音質評価スコアを得る候補テキストに対応する合成音声を選択し、出力する（図１参照）。

Description

（関連出願）本願は、先の日本特許出願２００６−３０２９５４号（２００６年１１月８日出願）の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、テキスト音声合成技術に関し、特に、入力されたテキストをその意味内容を損なわない範囲でアレンジして合成音声化する機能を備えたテキスト音声合成技術に関する。

テキスト音声合成技術は、与えられたテキスト、主に日本語の場合には漢字かな混じり文からなるテキストに対して、その内容を読み上げる音声を生成する技術である。

入力されたテキストの読みを推測して発音記号列を生成し、次に発音記号列に対する音声を生成する方法が広く用いられている。発音記号列に対する音声を生成する方法としては、予め収録した自然発話を切り貼りする波形接続方式や、音響的な特徴を表すパラメータ時系列を生成してそのパラメータから音声を生成するパラメトリック方式などが用いられる。

この音声合成技術においては、如何にして自然な合成音声を生成するかが大きな研究テーマとなっている。例えば、特開２００４−２５８４０６号公報には、係り受け解析を誤った場合でも自然な韻律パターン（発音記号列）を生成できるようにしたテキスト音声合成システムが開示されている。

また、特開２００４−１３８７２８号公報には、韻律情報の一つである基本ピッチパターンをその概形を保持したまま周波数方向に平行移動させながら、移動後の変形ピッチパターン及び言語情報に適合する音声素片列を選択し、該選択された音声素片列のうち最も適合する音声素片列に係る変形ピッチパターンと上記最も適合した音声素片列とを、合成音声時に用いる韻律情報及び音声素片とする素片・韻律制御手段を備え、前記選択した音声素片のピッチ変形量を抑えて、急激な音質変化の無い合成音声を作成できる音声合成装置が開示されている。

特開２００４−２５８４０６号公報特開２００４−１３８７２８号公報鹿野、伊藤、河原、武田、山本「ＩＴＴｅｘｔ音声認識システム」、オーム社、２００１年ｐ．１３−１４頁、

以上の特許文献１、２並びに非特許文献１の開示事項は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
上記した従来技術の多くは自然な音声を生成することを主眼としているが、その結果生成される合成音声が必ずしも綺麗な音声にならないという問題点がある。本発明は、かかる点に着目してなされたものであって、その目的とするところは、生成する合成音声の品質を向上させることのできるテキスト音声合成技術を提供することにある。

本発明の第１の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備えること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

本発明の第２の視点によれば、入力されたテキストから複数の候補形態素解析結果を計算する形態素解析候補生成部と、前記候補形態素解析結果に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する選択部と、前記選択した候補形態素解析結果に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

本発明の第３の視点によれば、入力されたテキストから読み結果（称呼）を生成する読み生成部と、該読み結果へのポーズ（句切り）の挿入／非挿入を組み合わせにより複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）を生成するポーズ挿入部と、前記候補ポーズ付き読み結果（ポーズ付き称呼候補）に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）から、最良の音質評価スコアを持つ候補ポーズ付き読み結果（ポーズ付き称呼候補）を選択する選択部と、前記選択した候補ポーズ付き読み結果（ポーズ付き称呼候補）に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

本発明の第４の視点によれば、入力されたテキストから読み結果（称呼）を生成する読み生成部と、前記読み結果（称呼）に含まれる特定の音についての別の音への置換／非置換を組み合わせ展開して複数の候補読み結果（称呼候補）を生成する読み変形部と、前記候補読み結果（称呼候補）に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補読み結果（称呼候補）から、最良の音質評価スコアを持つ候補読み結果（称呼候補）を選択する選択部と、前記選択した候補読み結果（称呼候補）に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

本発明によれば、合成音声の品質を飛躍的に向上させることが可能となる。その理由は、入力テキストから作成した複数の候補のうち最良の音質評価スコアを持つ候補を採択するよう構成したことにある。

また、本発明によれば、音声合成手段の持つ自然音声の元の特性を生かした合成音声を生成することも可能となる。

本発明の第１の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。本発明の第１の実施形態に係るテキスト音声合成システムの同義語辞書に格納されるエントリを表した図である。本発明の第１の実施形態に係るテキスト音声合成システムのテキスト候補生成部の動作を説明するための図である。本発明の第１の実施形態に係るテキスト音声合成システムの変形構成を表したブロック図である。本発明の第２の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。本発明の第５の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。本発明の第５の実施形態に係るテキスト音声合成システムの個人性（特徴）辞書に格納されるエントリを表した図である。本発明の第５の実施形態に係るテキスト音声合成システムのテキスト候補生成部の動作を説明するための図である。本発明の第６の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。本発明の第６の実施形態に係るテキスト音声合成システムのフィラー辞書に格納されるエントリを表した図である。本発明の第６の実施形態に係るテキスト音声合成システムのテキスト候補生成部の動作を説明するための図である。本発明の第１０の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。本発明の第１１の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。本発明の第１２の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。本発明の第１３の実施形態に係るテキスト音声合成システムにおける音質評価スコアの算出方法を説明するための図である。本発明の第１４の実施形態に係るテキスト音声合成システムにおける音質評価スコアの算出方法を説明するための図である。

符号の説明

１０１テキスト入力部
１０２テキスト候補生成部
１０３音質評価スコア計算部
１０４選択部
１０５音声合成部
１０６形態素解析候補生成部
１０７読み生成部
１０８ポーズ挿入部
１０９読み変形部
２０１同義語辞書
２０２個人性特徴辞書
２０３フィラー辞書

以下に、本発明の種々の展開可能形態を示す。

（形態１）
本発明の第１の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。

（形態２）
前記テキスト音声合成装置は、更に、単語又は句単位で同義語を対応付けて格納した同義語辞書を備え、前記テキスト候補生成部に、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換／非置換を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。

（形態３）
前記テキスト音声合成装置は、更に、ある句表現に対して同じ意味を持つ句表現である同義表現を対応付けて格納した同義表現辞書を備え、前記テキスト候補生成部に、前記入力されたテキストに含まれる句表現に対応する同義表現を前記同義表現辞書から検索し、前記句表現単位レベルの置換／非置換を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。

（形態４）
更に、前記テキスト候補生成部に、前記入力されたテキストの意味を変えないという条件下で、前記入力されたテキストの文構造を変形することにより、前記複数の候補テキストを生成するよう動作させることができる。

（形態５）
更に、前記テキスト候補生成部に、前記入力されたテキストに含まれる単語又は句の丁寧表現の変更／非変更を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。

（形態６）
前記テキスト音声合成装置は、更に、個人レベルの表現差異を対応付けて格納した個人性特徴辞書を備え、前記テキスト候補生成部に、前記入力されたテキストに含まれる表現に対応する他の同義表現を前記個人性特徴辞書から検索し、前記個人レベルの表現差異による置換／非置換を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。

（形態７）
前記テキスト音声合成装置は、更に、フィラー（Ｆｉｌｌｅｒ）及び間投詞を記述したフィラー辞書を備え、前記テキスト候補生成部に、前記フィラー辞書を参照して、前記入力されたテキストの語間に、前記フィラー又は間投詞の挿入／非挿入を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。

（形態８）
前記テキスト音声合成装置は、更に、フィラー（Ｆｉｌｌｅｒ）及び間投詞を記述したフィラー辞書を備え、前記テキスト候補生成部に、前記フィラー辞書を参照して、前記入力されたテキストからフィラー又は間投詞の削除／非削除を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。

（形態９）
更に、前記テキスト候補生成部も、前記入力されたテキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることにより、前記複数の候補テキストを生成するよう動作させることができる。

（形態１０）
更に、前記テキスト候補生成部に、展開した結果のうち、韻（ｒｈｙｍｅ）を踏む表現だけを候補テキストとするよう動作させることができる。

（形態１１）
更に、前記テキスト候補生成部に、展開した結果のうち、各アクセント句のモーラ数が５あるいは７だけで構成される表現だけを候補テキストとするよう動作させることができる。

（形態１２）
本発明の第２の視点によれば、入力されたテキストから複数の候補形態素解析結果を計算する形態素解析候補生成部と、前記候補形態素解析結果に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する選択部と、前記選択した候補形態素解析結果に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。

（形態１３）
本発明の第３の視点によれば、入力されたテキストから読み結果（称呼）を生成する読み生成部と、該読み結果へのポーズ（句切り）の挿入／非挿入の組み合わせにより複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）を生成するポーズ挿入部と、前記候補ポーズ付き読み結果（ポーズ付き称呼候補）に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）から、最良の音質評価スコアを持つ候補ポーズ付き読み結果（ポーズ付き称呼候補）を選択する選択部と、前記選択した候補ポーズ付き読み結果（ポーズ付き称呼候補）に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。

（形態１４）
本発明の第４の視点によれば、入力されたテキストから読み結果（称呼）を生成する読み生成部と、前記読み結果（称呼）に含まれる特定の音についての別の音への置換／非置換を組み合わせ展開して複数の候補読み結果（称呼候補）を生成する読み変形部と、前記候補読み結果（称呼候補）に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補読み結果（称呼候補）から、最良の音質評価スコアを持つ候補読み結果（称呼候補）を選択する選択部と、前記選択した候補読み結果（称呼候補）に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。

（形態１５）
前記音質評価スコアとして、合成音声のピッチパタンの滑らかさを表すスコアを用いることができる。

（形態１６）
前記音質評価スコアとして、推定したピッチパタンと合成音声のピッチパタンの差分を表すスコアを用いることができる。

（形態１７）
前記音質評価スコアとして、推定したリズムと合成音声のリズムの差分を表すスコアを用いることができる。

（形態１８）
前記音質評価スコアとして、
合成音声を作成する際のセグメント間のスペクトルの滑らかさを表すスコアを用いることができる。

（その他の形態）
また、本発明に係るテキスト音声合成方法及び該方法を実施するためのプログラムにおいても、上記した各テキスト音声合成装置の形態と同様の展開を行うことが可能である。

［第１の実施形態］
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図１は、本発明の第１の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。図１を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト入力部１０１と、テキスト候補生成部１０２と、同義語辞書２０１と、音質評価スコア計算部１０３と、選択部１０４と、音声合成部１０５と、を含んで構成されている。

テキスト入力部１０１は、テキストを入力する手段である。なお、本発明の原理からすれば、あらゆる言語に適用可能であるが、以下、本実施形態では、日本語かな漢字混じり文を取扱うものとして説明する。

テキスト候補生成部１０２は、同義語辞書２０１を参照し、該テキストを、意味を変えない別の表現に変形して複数の候補テキストを生成する手段である。

図２は、同義語辞書２０１に格納されるエントリを表した図であり、単語又は句単位で同義語を対応付けて格納されている。

テキスト候補生成部１０２は、図３に示すようにテキストを形態素解析し、各形態素毎に同義語辞書２０１を検索し、マッチするエントリがあれば、該当形態素は該当同義語に置換可能としてマークする。

最終的に、テキスト候補生成部１０２は、テキストの各形態素に対するすべての置換可能性の組合せにより、複数の候補テキストを生成する。

音質評価スコア計算部１０３は、前記複数の候補テキストのそれぞれに対して、音質評価スコアを計算する手段であり、その詳細については後記する。

選択部１０４は、前記複数の候補テキストの中から、対応する該音質評価スコアが最良となる候補テキストを一つ選択する手段である。

音声合成部１０５は、前記選択された候補テキストに対応する合成音声を生成する手段である。本実施形態では、音声合成部１０５は、予め収録した自然音声を接続編集することで合成音声を生成する、波形編集型テキスト音声合成装置であるものとする。

続いて、本実施形態に係るテキスト音声合成システムにおける音質評価の方法について詳細を説明する。

音質評価スコアは、前記候補テキストを音声合成した結果である合成音の音声品質の客観評価値を指している。一般に、音声品質の正確な客観評価値を求めることは困難であるため、音質評価スコアの近似値として、音声合成の過程で用いる各種スコアを用いることも可能である。本発明では、この近似値もあわせて、音質評価スコアと称する。

以下、上記音質評価スコアの具体例として、候補テキストに対して、前記音声合成装置が選択した素片系列に対応する単位接続スコアの値を、該音質評価スコアとして用いる例を挙げて説明する。

単位接続スコアは、各素片接続境界における１０次元ケプストラム（ｃｅｐｓｔｒｕｍ）の重み付きユークリッド距離の総和の負数とする。

すなわち、ｉ番目の素片系列（ａ（１）＿ｉ，ａ（２）＿ｉ，．．．，ａ（Ｎ）＿ｉ）について、各素片ａ（ｊ）＿ｉの始端の１０次元ケプストラムをＣｅｐ＿ｂ（ｉ，ｊ）＝（ｃｅｐ＿ｂ（ｉ，ｊ，１），ｃｅｐ＿ｂ（ｉ，ｊ，２），．．．，ｃｅｐ＿ｂ（ｉ，ｊ，１０））また終端の１０次元ケプストラムをＣｅｐ＿ｅ（ｉ，ｊ）＝（ｃｅｐ＿ｅ（ｉ，ｊ，１），ｃｅｐ＿ｅ（ｉ，ｊ，２），．．．，ｃｅｐ＿ｅ（ｉ，ｊ，１０））とすると、ｉ番目の素片系列に対する単位接続スコアｄ（ｉ）は、ｄ（ｉ）＝−Σ（ｊ＝１，（Ｎ−１））√Σ（ｋ＝１，１０）｛α（ｋ）｜ｃｅｐ＿ｅ（ｉ，ｊ，（ｋ＋１））−ｃｅｐ＿ｂ（ｉ，ｊ，ｋ）｜＾２｝として表現される。

ここで、α（ｋ）は予め与えられた重みである。

この単位接続スコアは、音質評価スコア計算部１０３と音声合成部１０５とで同じ方法で計算するものとする。

この単位接続スコアの値ｄ（ｉ）は、合成音声の区分区間であるセグメントの間のスペクトルの滑らかさを表すスコアであると考えることができ、単位接続スコアの値ｄ（ｉ）が大きいほど、単位の各接続部分におけるケプストラムの差違が小さく、音質の高い合成音が得られているといえる。

ここでは、単位接続スコアとして１０次元ケプストラムの重み付きユークリッド距離を用いたが、次元数は適宜調整することが可能である。また、ケプストラムの代わりに、ケプストラムの時間方向微分値であるΔケプストラム、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｅｎｔ；非特許文献１参照）、またはＭＦＣＣの時間方向微分値であるΔＭＦＣＣを適当な次元数で用いることもできる。また、これら複数の値から構成されるベクトルを用いることももちろん可能である。

上記波形編集型のテキスト音声合成装置は、あるテキストに対して音声を合成する際に複数の自然音声の素片系列を取り得るが、それらの中で各素片系列に対する単位接続スコアが最大となる素片系列を選択するよう動作することになる。

以上により、与えられたテキストと同内容で、音声合成装置で用いられる単位選択スコアで近似された音質評価スコアのもっとも高い合成音声を生成することができる。

なお、図２の例では、同義語辞書２０１に表記のみを格納したものとして説明したが、品詞や、平仮名・片仮名間の変形規則などを記述することで、より柔軟あるいは厳密にマッチングすることも可能である。

また、テキスト候補生成部１０２は、音声合成部１０５の一部を成すテキスト解析処理と一体化することもできる。その場合、形態素解析結果が一致することにより、精度の向上や、計算量の低減を図ることができる。

また、本実施形態では、選択部１０４は候補テキストを出力し、音声合成部１０５は該候補テキストを入力として音声を合成するものとしている。テキスト候補生成部１０２と音声合成部１０５の動作は、音質評価スコアを生成するところまでは同じである。

これに対して、図４に示すように、前記同じ動作（音質評価スコアを生成するところまでの動作）をする部分をテキスト候補生成部１０２で行い、途中結果を音声合成用データとして出力することもできる。

選択部１０４は、選択された候補テキストに対応する音声合成用データ（テキスト候補生成部１０２にて生成）を出力し、音声合成部１０５は該選択された音声合成データを用いて音声を合成する。これにより、動作の重複がなくなり、計算量を削減することが可能となる。

以上のように、本実施形態では、伝達する情報内容を変えずに、より高音質で生成できる別の語・表現によって情報を伝えることが可能となる。また、音質評価スコアによる候補テキストの選択の際に、音声合成を構成する素片を収録した元発話で多く出てきた語・表現が使われる確率が高くなるので、元発話の話者の個人性が表現される。更には、与えられたテキストが書き言葉表現であっても、同義であるところの元発話で使われた話し言葉表現で置換される場合があり、その場合はより聞いていて解り易い、あるいは違和感の無い表現を得ることが可能となる。

なお、上記した実施形態では、メモリの制約等がないものとして、テキスト候補生成部１０２がテキストの各形態素に対するすべての置換可能性の組合せを求めるものとして説明したが（図３参照）、メモリの制約等がある場合には、その制約の範囲で可能な複数の組合せを求めても良いし、逐次、テキスト候補を生成し、音質評価スコアが高いものを残すようにして候補テキストを選択することも可能である。

［第２の実施形態］
続いて、同義語辞書を省略可能とした本発明の第２の実施形態について図面を参照して詳細に説明する。図５は、本発明の第２の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第１の実施形態で説明した事項は省略して説明する。

本実施形態のテキスト候補生成部１０２は、予めテキスト候補生成部１０２内に記述された同義表現の変形ルールに基づいて、入力されたテキストの文法を変形することにより、同義表現に展開した候補テキストを生成する。以下、その具体例を説明する。

例えば、入力テキストが「文法を変形する」の場合、テキスト候補生成部１０２は、名詞「変形」と助動詞「する」の組を、動詞句「形を変える」に置換することで変形する。

助詞の変形が必要な場合は、ここで一緒に行う。これにより、「文法を変形する」に加えて「文法の形を変える」も候補テキストとする。

また例えば、入力テキストが「単語を置換する」の場合、テキスト候補生成部１０２は、動詞語幹「置換」と助動詞「する」の組を、動詞句「置き換える」または「差し替える」に置換することで変形する。

こうして複数の候補テキストを生成した後は、上記第１の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。

テキスト候補生成部１０２では、単純にテキストの文字列一致により変形ルールを適用しても良いが、さらに形態素解析を行って該当表現の品詞を確認することで精度を向上することも可能である。

［第３の実施形態］
続いて、同じく同義語辞書を省略可能とした本発明の第３の実施形態について説明する。本実施形態の構成は、上記第２の実施形態と同様であるので、その相違点であるテキスト候補生成部１０２の動作について詳説する。

上記第２の実施形態とは異なり、本実施形態に係るテキスト候補生成部１０２は、入力されたテキストの文構造を変形することにより、展開した候補テキストを生成する。以下、その文構造の変形の具体例を説明する。

テキスト候補生成部１０２におけるその文構造の変形の第１類型は、倒置・強調構文への変形である。例えば、入力テキストが「ＡをＢする」の場合、テキスト候補生成部１０２は、倒置・強調構文である「ＢしたのはＡだ」も候補テキストとする。

テキスト候補生成部１０２におけるその文構造の変形の第２類型は、体言止め構文への変形である。例えば、入力テキストが「投稿したのは私です」の場合、テキスト候補生成部１０２は、体言止め構文である「投稿したのは私」も候補テキストとする。

テキスト候補生成部１０２におけるその文構造の変形の第３類型は、助詞句の入れ替え（スクランブリング）による変形である。例えば、入力テキストが「私と兄は本を読んだ」の場合、テキスト候補生成部１０２は、助詞句の入れ替えによる変形を行った「私と本を兄は読んだ」、「兄は私と本を読んだ」、「兄は本を私と読んだ」、「本を兄は私と読んだ」および「本を私と兄は読んだ」も候補テキストとする。

テキスト候補生成部１０２におけるその文構造の変形の第４類型は、名詞形と動詞形の置換による変形である。例えば、入力テキストが「単語を置換する」の場合、テキスト候補生成部１０２は、名詞形と動詞形の置換による変形を行った「単語の置換を行う」も候補テキストとする。

テキスト候補生成部１０２におけるその文構造の変形の第５類型は、受け身（受動態）への変形である。例えば、入力テキストが「彼は彼女を呼んだ」の場合、テキスト候補生成部１０２は、受け身への変形を行った「彼女は彼に呼ばれた。」も候補テキストとする。

［第４の実施形態］
続いて、同じく同義語辞書を省略可能とした本発明の第４の実施形態について説明する。本実施形態の構成は、上記第２、第３の実施形態と同様であるので、その相違点であるテキスト候補生成部１０２の動作について詳説する。

上記第２、第３の実施形態とは異なり、本実施形態に係るテキスト候補生成部１０２は、入力されたテキストの丁寧表現を変形することにより、展開した候補テキストを生成する。以下、その文構造の変形の具体例を説明する。

例えば、入力テキストが「私は本を買った」の場合、テキスト候補生成部１０２は、より丁寧な表現である「私は本を買いました。」も候補テキストとする。

［第５の実施形態］
続いて、上記した第１の実施形態の同義語辞書に代えて個人性（特徴）辞書を搭載した本発明の第５の実施形態について図面を参照して詳細に説明する。図６は、本発明の第５の実施形態に係るテキスト音声合成システムの構成を表したブロック図であり、個人性（特徴）辞書２０２が備えられている。以下、上記第１の実施形態で説明した事項は省略して説明する。

本実施形態のテキスト候補生成部１０２は、個人性（特徴）辞書２０２を参照し、入力テキストを、意味を変えない別の表現に変形して複数の候補テキストを生成する。

図７は、個人性（特徴）辞書２０２に格納されるエントリを表した図であり、エントリ「自転車」の置換可能な語彙として「ケッタ」が対応付けて格納されている。なお、「ケッタ」とは名古屋地方で用いられる「自転車」を指す言葉である。

テキスト候補生成部１０２は、図８に示すようにテキストを形態素解析し、各形態素毎に個人性（特徴）辞書２０２を検索し、マッチするエントリがあれば、該当形態素は該当個人性形態素（置換可能語彙）に置換可能としてマークする。

本実施形態では、例えば、音声合成部が用いる自然発話が方言などにより発声単語のばらつきがある場合も、自然発話での出現頻度の低い単語や音韻列が、より該当自然発話の話者にとって出現頻度の高い単語や音韻列に置換されることにより、音質の良い合成音声を得ることが可能となる。

［第６の実施形態］
続いて、上記した第１の実施形態の同義語辞書に代えてフィラー辞書を搭載した本発明の第６の実施形態について図面を参照して詳細に説明する。図９は、本発明の第６の実施形態に係るテキスト音声合成システムの構成を表したブロック図であり、フィラー辞書２０３が備えられている。以下、上記第１の実施形態で説明した事項は省略して説明する。

本実施形態のテキスト候補生成部１０２は、フィラー辞書２０３を参照し、入力テキストの語間にフィラー（ｆｉｌｌｅｒ）を挿入し、あるいは、挿入しないことを組み合わせ展開して、複数の候補テキストを生成する。

図１０は、フィラー辞書２０３に格納されるエントリを表した図であり、所謂つなぎ語、会話で間投詞的に使われるあまり意味のない語句であるフィラー「えーと」や「ゴホゴホ」などが対応付けて格納されている。また例えば、英語であれば、「ｙｏｕｋｎｏｗ」、「Ｉｍｅａｎ」、「Ｗｅｌｌ」が格納される。

テキスト候補生成部１０２は、図１１に示すようにテキストを形態素解析し、各形態素間に、フィラー辞書２０３の内容を挿入できる可能性をすべて展開する。図１１の下段に示したように、テキスト候補生成部１０２は、フィラー辞書２０３とマッチする形態素については、それを他のフィラーへの置換／削除を組み合わせて展開する。

本実施形態では、例えばフィラーを挿入することにより、本来であればつながりの悪かった音韻列のつながりがスムーズになり、音質の良い合成音声を得ること、元発話の話者の個人性を表現することが可能となる。また、フィラーの挿入をすべて展開するのではなく、文全体の挿入可能個数や、連続挿入可能数を制御（制限）しても良い。

［第７の実施形態］
続いて、上記した各辞書を省略可能とした本発明の第７の実施形態について説明する。本実施形態の構成は、上記第２の実施形態と同様であるので、その相違点であるテキスト候補生成部１０２の動作について詳説する。

上記した各実施形態とは異なり、本実施形態に係るテキスト候補生成部１０２は、入力されたテキスト中の句を複数回繰り返すことにより、展開した候補テキストを生成する。以下、その文構造の変形の具体例を説明する。

例えば、入力テキストが「私は、鉛筆を３本買います」の場合、テキスト候補生成部１０２は、「私は、鉛筆を、鉛筆を３本買います」、「私は、鉛筆を３本、３本買います」、「私は、鉛筆を、鉛筆を３本、３本買います」も候補テキストとする。

以上のように、入力テキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることによっても、前記複数の候補テキストを生成することが可能であり、このようにして複数の候補テキストを生成した後は、上記第１の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。

なお、繰り返しの最大回数や、文全体での総繰り返し回数は、予めテキスト候補生成部１０２に設定することができるものとする。

［第８の実施形態］
続いて、上記第１の実施形態を変形した本発明の第８の実施形態について説明する。本実施形態の構成は、上記第１の実施形態と同様であるので、その相違点であるテキスト候補生成部１０２の動作について詳説する。

上記した第１の実施形態とは異なり、本実施形態に係るテキスト候補生成部１０２は、同義語辞書により同義語を展開した後、各句が頭韻を踏んでいることを検定する。以下、その検定処理の具体例を説明する。

例えば、同義語辞書２０１のエントリ「順調」に対して同義語「堅調」だけが登録されており、テキスト「順調な業績を、謙遜して語る」が入力された場合について説明する。

第１の実施形態に従えば、「順調な業績を、謙遜して語る」に加えて「堅調な業績を、謙遜して語る」の合わせて２つの候補テキストが生成される。

ここで、２つの候補テキスト見てみると、前者の「順調な業績を、謙遜して語る」の各呼気段落の先頭音は「じゅ」と「け」なので、頭韻を踏んでいない。一方、後者の「堅調な業績を、謙遜して語る」については同様に、「け」と「け」なので、頭韻を踏んでいる。

そこで、テキスト候補生成部１０２は、上記韻を踏んでいるか否かの検定によって、前者を除外し、頭韻を踏んでいる後者だけを候補テキストとして出力する。

こうして複数の候補テキストから検定によって選別された候補テキストのみについて、上記第１の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。

本実施形態では、上記音質評価処理の負荷が低減されることはもちろんとして、聞いて心地よくない候補テキストが生成されることを防止する効果が達成される。また、上記した具体例では、頭韻による検定を例示したが、脚韻について同様の検定をすることが可能である。

［第９の実施形態］
続いて、上記第１の実施形態を変形した本発明の第９の実施形態について説明する。本実施形態の構成は、上記第１の実施形態と同様であるので、その相違点であるテキスト候補生成部１０２の動作について詳説する。

上記した第１の実施形態とは異なり、本実施形態に係るテキスト候補生成部１０２は、同義語辞書により同義語を展開した後、各句の読みのモーラ（ｍｏｒａ）数が５又は７であることを検定する。以下、その検定処理の具体例を説明する。

例えば、同義語辞書２０１のエントリ「連絡網」に対して同義語「連絡ネット」が、エントリ「驚き」について同義語「驚愕」がそれぞれ登録されていており、テキスト「退屈な連絡網が、驚きに満たされた」が入力された場合について説明する。

第１の実施形態に従えば、（１）「退屈な連絡網が、驚きに満たされた」に加えて、（２）「退屈な連絡ネットが、驚きに満たされた」、（３）「退屈な連絡網が、驚愕に満たされた」、（４）「退屈な連絡ネットが、驚愕に満たされた」の合計４文の候補テキストが生成される。

ところで、前記各候補テキストの句毎のモーラ数は、それぞれ（１）５モーラ＋７モーラ＋５モーラ＋５モーラ、（２）５モーラ＋８モーラ＋５モーラ＋５モーラ、（３）５モーラ＋７モーラ＋５モーラ＋５モーラ、（４）５モーラ＋８モーラ＋５モーラ＋５モーラ、である。

そこで、テキスト候補生成部１０２は、これらのうち、すべての句が５又は７モーラで構成されている、（１）「退屈な連絡網が、驚きに満たされた」と（３）「退屈な連絡網が、驚愕に満たされた」の２つを、候補テキストとして出力する。

本実施形態でも、上記音質評価処理の負荷が低減されることはもちろんとして、上記第８の実施形態とは別のモーラ数の観点で聞いて心地よくない候補テキストが生成されることを防止する効果が達成される。また、上記した具体例では、各句が厳密に５または７モーラであるか否かによる検定を例示したが、各句が厳密に５または７モーラではない、いわゆる字余りに対応することも可能である。

［第１０の実施形態］
続いて、上記第２の実施形態を変形した本発明の第１０の実施形態について図面を参照して詳細に説明する。図１２は、本発明の第１０の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第２の実施形態で説明した事項は省略して説明する。

図１２を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト候補生成部１０２に代えて、入力されたテキストを形態素解析する形態素解析候補生成部１０６を備えて構成されている点で上記第２の実施形態と相違している。

一般に、形態素解析は一意に結果が決まるのではなく、複数の形態素解析候補があり、テキスト音声合成においてはその中から最適な形態素解析結果を一つ選んで使うことが多い。

そこで、本実施形態に係るテキスト音声合成システムでは、形態素解析候補生成部１０６は複数の形態素解析候補を出力し、音質評価スコア計算部１０３が、これら形態素解析候補に対して読みを付与し、音質評価スコアを求める方式を採っている。

以下、入力テキストが「東京都に市場がある」である場合の例を挙げて、第２の実施形態との違いを説明する。

形態素解析候補生成部１０６は、形態素解析を行い、「東京都（とうきょうと，名詞）／に（助詞）／市場（しじょう，名詞）／が（助詞）／ある（動詞）」、「東（ひがし，名詞）／京都（きょうと，名詞）／に（助詞）／市場（しじょう，名詞）／が（助詞）／ある（動詞）」、「東京都（とうきょうと，名詞）／に（助詞）／市場（いちば，名詞）／が（助詞）／ある（動詞）」、「東（ひがし，名詞）／京都（きょうと，名詞）／に（助詞）／市場（いちば，名詞）／が（助詞）／ある（動詞）」の４つの形態素解析候補を出力する。

ここで、「／」はアクセント句の区切りを、「’」はアクセント位置を表すものとする。

この時、これら以外の形態素解析の可能性もあり得るが、文法知識や形態素バイグラムによって、可能性の低いものは排除してある。

これらの形態素解析結果に対応して、音質評価スコア計算部１０３は「とーきょ’ーとに／しじょーがあ’る」、「ひがしきょ’ーとに／しじょーがあ’る」、「とーきょ’ーとに／い’ちばが／あ’る」、「ひがしきょ’ーとに／い’ちばが／あ’る」の各読みを生成し、それぞれに対応する音質評価スコアを計算する。

この例は、文脈知識無しではどれも不正解ではないので、どれが選択されて発生されてもおかしくは無いが、良い音質で発声できるという観点で選択した形態素解析結果を用いることが可能となる。

［第１１の実施形態］
続いて、上記第２の実施形態を変形した本発明の第１１の実施形態について図面を参照して詳細に説明する。図１３は、本発明の第１１の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第２の実施形態で説明した事項は省略して説明する。

図１３を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト候補生成部１０２に代えて、入力されたテキストに対する読み結果を生成する読み生成部１０７と、読み結果に対して、ポーズを挿入可能な位置を推定し、ポーズ挿入可否を展開することで、複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）を生成するポーズ挿入部１０８と、を備えて構成されている点で上記第２の実施形態と相違している。音質評価スコア計算部１０３は、上記候補ポーズ付き読み結果（ポーズ付き称呼候補）に対する、音質評価スコアを求めるよう動作する。

以下、入力テキストが「私は本屋へ行く」である場合の例を挙げて、第２の実施形態との違いを説明する。

読み生成部１０７は、読み結果「わたしわ／ほ’んやえ／いく」を生成する。ポーズ挿入部１０８は、「／」で示すアクセント句の区切り位置にポーズを挿入可能であると推定し、「わたしわ／ほ’んやえ／いく」、「わたしわＰほ’んやえ／いく」、「わたしわ／ほ’んやえＰいく」、「わたしわＰほ’んやえＰいく」の４つの候補ポーズ付き読み結果（ポーズ付き称呼候補）を生成する。

ここで、「／」はアクセント句の区切りを、「’」はアクセント位置を、「Ｐ」はポーズ位置を表すものとする。

これらの候補ポーズ付き読み結果（ポーズ付き称呼候補）に対応して、音質評価スコア計算部１０３は、それぞれに対応する音質評価スコアを計算する。

本実施の形態によれば、ポーズ挿入の有無により、アクセント句の区切り前後における音響環境が変わるので、もっとも良い音質で発声できるポーズ挿入の組み合わせを用いることが可能となる。また、音声品質スコアの計算の過程で、音声合成を構成する素片を収録した元発話のポーズ挿入確率が反映されるため、元発話の話者の個人性も表現される。

［第１２の実施形態］
続いて、上記第２の実施形態を変形した本発明の第１２の実施形態について図面を参照して詳細に説明する。図１４は、本発明の第１２の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第２の実施形態で説明した事項は省略して説明する。

図１４を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト候補生成部１０２に代えて、入力されたテキストに対する読み結果を生成する読み生成部１０７と、予め与えられたルールに従って読み結果の音韻を変化させることで、候補読み結果を展開する複数の候補読み結果（称呼候補）を生成する読み変形部１０９と、を備えて構成されている点で上記第２の実施形態と相違している。音質評価スコア計算部１０３は、上記候補読み結果（称呼候補）に対する、音質評価スコアを求めるよう動作する。

以下、予め音韻「ひ」を「し」に変形可能であるというルールが与えられ、入力テキストが「仕事を一人で引継いだ」である場合の例を挙げて、第２の実施形態との違いを説明する。ちなみに、上記の音韻「ひ」を「し」に変形するというルールは、江戸弁の話者に対する簡易的な変形ルールである。

読み生成部１０７は、入力テキストに対して「しごとを／ひと’りで／ひきつ’いだ」という読み結果を与え、出力する。読み変形部１０９は、この読み結果の中で音韻「ひ」が２箇所あるため、これらを「し」に変化することの組み合わせにより、「しごとを／ひと’りで／ひきつ’いだ」に加えて、「しごとを／しと’りで／ひきつ’いだ」、「しごとを／ひと’りで／しきつ’いだ」、「しごとを／しと’りで／しきつ’いだ」の４つの候補読み結果（候補称呼）を生成する。

これらの候補読み結果（候補称呼）に対応して、音質評価スコア計算部１０３は、それぞれに対応する音質評価スコアを計算する。

本実施の形態によれば、特定の音韻の発声が別の発声になってしまう傾向のある話者の収録音声を用いた音声合成において、その特徴を生かして良い音質の発声を行うこと、元発話の話者の個人性を再現することがが可能となる。

［第１３の実施形態］
続いて、上記第２の実施形態を変形した本発明の第１３の実施形態について説明する。本実施形態の構成は、上記第２の実施形態と同様であるので、その相違点である音質評価スコア計算部１０３の動作について詳説する。

上記第２の実施形態においては、音質評価スコアとして、合成音声の音質の近似値である単位選択スコアを用いた。これに対して、本実施形態では、音質評価スコアとして、合成音声の区分区間であるセグメントの間で、端点におけるピッチ周波数の差分をＨｚ単位で測定し、その絶対値の総和を用いる。

図１５に、合成音声が４のセグメントから構成された場合の音声スコアの算出の例を示す。ここで、セグメント１からセグメント４までの各セグメントに対して、それぞれ元発話の区間を割り当てる。また、それぞれの元発話の区間を元発話１から元発話４とする。

セグメント１の端点に相当する元発話１上のピッチ周波数は、始端ピッチ周波数がＦ１ｂであり、終端ピッチ周波数がＦ１ｅである。同様に、セグメント２からセグメント４までにも同様に端点に相当するピッチ周波数Ｆ２ｂ、Ｆ２ｅ、Ｆ３ｂ、Ｆ３ｅ、Ｆ４ｂ、Ｆ４ｅが存在する。

ここで、合成音声の始端になるＦ１ｂと終端になるＦ４ｅを除くそれぞれの端点において、互いに接続する終端ピッチ周波数と始端ピッチ周波数の差分の総和、すなわち
Ｄ＝｜Ｆ１ｅ−Ｆ２ｂ｜＋｜Ｆ２ｅ−Ｆ３ｂ｜＋｜Ｆ３ｅ−Ｆ４ｂ｜
の値を、該当元発話の組み合わせにおける音質評価スコアとする。

なお、上記の例ではピッチ周波数の実数の差分の総和を用いたが、代わりに自乗和、重み付き和、ピッチ周波数を対数値とした計算を用いても構わない。また、上記の例では簡単のため、音声合成における波形生成で一般的な波形接続方式を用いて、元発話のピッチ周波数がそのまま合成音声の該当区間のピッチ周波数になる場合を想定して説明したが、波形編集方式によりピッチ周波数が編集されて使用される場合にも適用可能である。その場合には、元発話のピッチ周波数を使うほかに、編集後のピッチ周波数に対して同様の計算を行うことが可能である。

以上の説明からも明らかなように、本実施形態における音質評価スコアの値は、合成音声のピッチパタンの滑らかさを表すスコアであり、合成音声の声質を近似しているといえる。従って、本実施形態の方式によっても、上記音質評価スコアのもっとも高い合成音声を生成することができる。

［第１４の実施形態］
続いて、上記第２の実施形態を変形した本発明の第１４の実施形態について説明する。本実施形態の構成は、上記第２の実施形態と同様であるので、その相違点である音質評価スコア計算部１０３の動作について詳説する。

上記第２の実施形態においては、音質評価スコアとして、合成音声の音質の近似値である単位選択スコアを用いた。これに対して、本実施形態では、音質評価スコアとして、音声合成の過程でピッチ周波数の軌跡の推定値を計算し、その値と実際の合成音声のピッチ周波数の値の差分をＨｚ単位で測定し、その絶対値の音声区間全体にわたる総和を用いる。

図１６に、合成音声が４のセグメントから構成された場合の音声スコアの算出の例を示す。ここで、セグメント１からセグメント４までの各セグメントに対して、それぞれ元発話の区間を割り当てる。

ここで、元発話１から元発話４からなる元発話のピッチ周波数を、該当する時刻に割り当てた各元発話のピッチ周波数ｆｏ（ｔ）と、ピッチ周波数の軌跡の推定値ｆｔ（ｔ）から、音質評価スコアの値を
Ｄ＝Σ（ｔ＝ｔ１，ｔ２）｜ｆｔ（ｔ）−ｆｏ（ｔ）｜
と定義する。

なお、本実施形態においても、上記した第１３の実施形態と同様に、ピッチ周波数の実数の差分の総和の代わりに自乗和、重み付き和、ピッチ周波数を対数値とした計算を用いても構わない。また、上記の例では簡単のため、音声合成における波形生成で一般的な波形接続方式を用いて、元発話のピッチ周波数がそのまま合成音声の該当区間のピッチ周波数になる場合を想定して説明したが、波形編集方式によりピッチ周波数が編集されて使用される場合にも適用可能である。その場合には、元発話のピッチ周波数を使うほかに、編集後のピッチ周波数に対して同様の計算を行うことが可能である。

特に波形接続型音声合成方式の場合、選択された音声素片のピッチ周波数は、音声合成するために計算したピッチ周波数と異なる場合がある。本実施形態における音質評価スコアの値は、計算したピッチ周波数をどれだけ忠実に再現しているかを表すスコアであり、合成音声の声質を近似しているといえる。

従って、本実施形態の方式によっても、上記音質評価スコアのもっとも高い合成音声を生成することができる。

［第１５の実施形態］
続いて、上記第２の実施形態を変形した本発明の第１５の実施形態について説明する。本実施形態の構成は、上記第２の実施形態と同様であるので、その相違点である音質評価スコア計算部１０３の動作について詳説する。

上記第２の実施形態においては、音質評価スコアとして、合成音声の音質の近似値である単位選択スコアを用いた。これに対して、本実施形態では、音質評価スコアとして、音声合成の過程で各音声単位の時間長を計算し、その値と実際の合成音声の該当単位の時間長との差分をミリ秒単位で測定し、その絶対値の音声区間全体にわたる総和を用いる。

先に述べたように、特に波形接続型音声合成方式の場合、選択された音声素片の時間長は、音声合成するために計算した時間長と異なる場合がある。本実施形態における音質評価スコアの値は、計算した時間長をどれだけ忠実に再現しているかを表すスコアであり、この点で合成音声の声質を近似しているといえる。

本発明の適用可能分野は、音声合成技術を必要とする分野と略一致するが、例えば、ロボットの音声対話等の、テキストの文面に対する厳密性が必要無い分野においてその効果を発揮すると考えられる。

本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。

例えば、上記した実施形態では、日本語かな混じり文を入力テキストとする例を挙げて説明したが、上記した各実施形態に示した各辞書に対応する他の言語の辞書を準備することで、他の言語の文章を入力テキストとすることも可能である。

本発明の第１の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備え、前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることにより、前記複数の候補テキストを生成すること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

本発明の第２の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備え、前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換／非置換を組み合わせ展開して得られた結果のうち、韻を踏む表現だけを候補テキストとすること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

本発明の第３の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備え、前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換／非置換を組み合わせ展開して得られた結果のうち、各アクセント句のモーラ数が５あるいは７だけで構成される表現だけを候補テキストとすること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

Claims

入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、
前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、
前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、
前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備えること、
を特徴とするテキスト音声合成装置。
単語又は句単位で同義語を対応付けて格納した同義語辞書を備え、
前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換／非置換を組み合わせ展開して複数の候補テキストを生成すること、
を特徴とする請求項１に記載のテキスト音声合成装置。
ある句表現に対して同じ意味を持つ句表現である同義表現を対応付けて格納した同義表現辞書を備え、
前記テキスト候補生成部は、前記入力されたテキストに含まれる句表現に対応する同義表現を前記同義表現辞書から検索し、前記句表現単位レベルの置換／非置換を組み合わせ展開して複数の候補テキストを生成すること、
を特徴とする請求項１又は２に記載のテキスト音声合成装置。
前記テキスト候補生成部は、前記入力されたテキストの意味を変えないという条件下で、前記入力されたテキストの文構造を変形することにより、前記複数の候補テキストを生成すること、
を特徴とする請求項１乃至３いずれか一に記載のテキスト音声合成装置。
前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句の丁寧表現の変更／非変更を組み合わせ展開して複数の候補テキストを生成すること、
を特徴とする請求項１乃至４いずれか一に記載のテキスト音声合成装置。
個人レベルの表現差異を対応付けて格納した個人性特徴辞書を備え、
前記テキスト候補生成部は、前記入力されたテキストに含まれる表現に対応する他の同義表現を前記個人性特徴辞書から検索し、前記個人レベルの表現差異による置換／非置換を組み合わせ展開して複数の候補テキストを生成すること、
を特徴とする請求項１乃至５いずれか一に記載のテキスト音声合成装置。
フィラー（Ｆｉｌｌｅｒ）及び間投詞を記述したフィラー辞書を備え、
前記テキスト候補生成部は、前記フィラー辞書を参照して、前記入力されたテキストの語間に、前記フィラー又は間投詞の挿入／非挿入を組み合わせ展開して複数の候補テキストを生成すること、
を特徴とする請求項１乃至６いずれか一に記載のテキスト音声合成装置。
フィラー（Ｆｉｌｌｅｒ）及び間投詞を記述したフィラー辞書を備え、
前記テキスト候補生成部は、前記フィラー辞書を参照して、前記入力されたテキストからフィラー又は間投詞の削除／非削除を組み合わせ展開して複数の候補テキストを生成すること、
を特徴とする請求項１乃至７いずれか一に記載のテキスト音声合成装置。
前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることにより、前記複数の候補テキストを生成すること、
を特徴とする請求項１乃至８いずれか一に記載のテキスト音声合成装置。
前記テキスト候補生成部は、展開した結果のうち、韻を踏む表現だけを候補テキストとすること、
を特徴とする請求項１乃至９いずれか一に記載のテキスト音声合成装置。
前記テキスト候補生成部は、展開した結果のうち、各アクセント句のモーラ数が５あるいは７だけで構成される表現だけを候補テキストとすること、
を特徴とする請求項１乃至１０いずれか一に記載のテキスト音声合成装置。
入力されたテキストから複数の候補形態素解析結果を計算する形態素解析候補生成部と、
前記候補形態素解析結果に対する音質評価スコアを計算する音質評価スコア計算部と、
前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する選択部と、
前記選択した候補形態素解析結果に対応する合成音声を生成する音声合成部と、を備えること、
を特徴とするテキスト音声合成装置。
入力されたテキストから読み結果（称呼）を生成する読み生成部と、
該読み結果へのポーズ（句切り）の挿入／非挿入の組み合わせにより複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）を生成するポーズ挿入部と、
前記候補ポーズ付き読み結果（ポーズ付き称呼候補）に対する音質評価スコアを計算する音質評価スコア計算部と、
前記複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）から、最良の音質評価スコアを持つ候補ポーズ付き読み結果（ポーズ付き称呼候補）を選択する選択部と、
前記選択した候補ポーズ付き読み結果（ポーズ付き称呼候補）に対応する合成音声を生成する音声合成部と、を備えること、
を特徴とするテキスト音声合成装置。
入力されたテキストから読み結果（称呼）を生成する読み生成部と、
前記読み結果（称呼）に含まれる特定の音についての別の音への置換／非置換を組み合わせ展開して複数の候補読み結果（称呼候補）を生成する読み変形部と、
前記候補読み結果（称呼候補）に対する音質評価スコアを計算する音質評価スコア計算部と、
前記複数の候補読み結果（称呼候補）から、最良の音質評価スコアを持つ候補読み結果（称呼候補）を選択する選択部と、
前記選択した候補読み結果（称呼候補）に対応する合成音声を生成する音声合成部と、を備えること、
を特徴とするテキスト音声合成装置。
前記音質評価スコアは、合成音声のピッチパタンの滑らかさを表すスコアであること、
を特徴とする請求項１乃至１４いずれか一に記載のテキスト音声合成装置。
前記音質評価スコアは、推定したピッチパタンと合成音声のピッチパタンの差分を表すスコアであること、
を特徴とする請求項１乃至１５いずれか一に記載のテキスト音声合成装置。
前記音質評価スコアは、推定したリズムと合成音声のリズムの差分を表すスコアであること、
を特徴とする請求項１乃至１６いずれか一に記載のテキスト音声合成装置。
前記音質評価スコアは、合成音声を作成する際のセグメント間のスペクトルの滑らかさを表すスコアであること、
を特徴とする請求項１乃至１７いずれか一に記載のテキスト音声合成装置。
テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成する手段と、
前記各候補テキストに対する音質評価スコアを計算する手段と、
前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する手段と、
前記選択した候補テキストに対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
入力されたテキストから複数の候補形態素解析結果を計算する手段と、
前記候補形態素解析結果に対する音質評価スコアを計算する手段と、
前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する手段と、
前記選択した候補形態素解析結果に対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
入力されたテキストから読み結果（称呼）を生成する手段と、
前記読み結果へのポーズ（句切り）の挿入／非挿入の組み合わせにより複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）を生成する手段と、
前記候補ポーズ付き読み結果（ポーズ付き称呼候補）に対する音質評価スコアを計算する手段と、
前記複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）から、最良の音質評価スコアを持つ候補ポーズ付き読み結果（ポーズ付き称呼候補）を選択する手段と、
前記選択した候補ポーズ付き読み結果（ポーズ付き称呼候補）に対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
入力されたテキストから読み結果（称呼）を生成する手段と、
前記読み結果（称呼）に含まれる特定の音についての別の音への置換／非置換を組み合わせ展開して複数の候補読み結果（称呼候補）を生成する手段と、
前記候補読み結果（称呼候補）に対する音質評価スコアを計算する手段と、
前記複数の候補読み結果（称呼候補）から、最良の音質評価スコアを持つ候補読み結果（称呼候補）を選択する手段と、
前記選択した候補読み結果（称呼候補）に対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
コンピュータを用いたテキスト音声合成方法であって、
前記コンピュータが、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するステップと、
前記コンピュータが、前記各候補テキストに対する音質評価スコアを計算するステップと、
前記コンピュータが、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択するステップと、
前記コンピュータが、前記選択した候補テキストに対応する合成音声を生成するステップと、を含むこと、
を特徴とするテキスト音声合成方法。
コンピュータを用いたテキスト音声合成方法であって、
前記コンピュータが、入力されたテキストから複数の候補形態素解析結果を計算するステップと、
前記コンピュータが、前記候補形態素解析結果に対する音質評価スコアを計算するステップと、
前記コンピュータが、前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択するステップと、
前記コンピュータが、前記選択した候補形態素解析結果に対応する合成音声を生成するステップと、を含むこと、
を特徴とするテキスト音声合成方法。
コンピュータを用いたテキスト音声合成方法であって、
前記コンピュータが、入力されたテキストから読み結果（称呼）を生成するステップと、
前記コンピュータが、前記読み結果へのポーズ（句切り）の挿入／非挿入の組み合わせにより複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）を生成するステップと、
前記コンピュータが、前記候補ポーズ付き読み結果（ポーズ付き称呼候補）に対する音質評価スコアを計算するステップと、
前記コンピュータが、前記複数の候補ポーズ付き読み結果（ポーズ付き称呼候補）から、最良の音質評価スコアを持つ候補ポーズ付き読み結果（ポーズ付き称呼候補）を選択するステップと、
前記コンピュータが、前記選択した候補ポーズ付き読み結果（ポーズ付き称呼候補）に対応する合成音声を生成するステップと、を含むこと、
を特徴とするテキスト音声合成方法。
コンピュータを用いたテキスト音声合成方法であって、
前記コンピュータが、入力されたテキストから読み結果（称呼）を生成するステップと、
前記コンピュータが、前記読み結果（称呼）に含まれる特定の音についての別の音への置換／非置換を組み合わせ展開して複数の候補読み結果（称呼候補）を生成するステップと、
前記コンピュータが、前記候補読み結果（称呼候補）に対する音質評価スコアを計算するステップと、
前記コンピュータが、前記複数の候補読み結果（称呼候補）から、最良の音質評価スコアを持つ候補読み結果（称呼候補）を選択するステップと、
前記コンピュータが、前記選択した候補読み結果（称呼候補）に対応する合成音声を生成するステップと、を含むこと、
を特徴とするテキスト音声合成方法。