JPWO2008056590A1 - テキスト音声合成装置、そのプログラム及びテキスト音声合成方法 - Google Patents

テキスト音声合成装置、そのプログラム及びテキスト音声合成方法 Download PDF

Info

Publication number
JPWO2008056590A1
JPWO2008056590A1 JP2008543045A JP2008543045A JPWO2008056590A1 JP WO2008056590 A1 JPWO2008056590 A1 JP WO2008056590A1 JP 2008543045 A JP2008543045 A JP 2008543045A JP 2008543045 A JP2008543045 A JP 2008543045A JP WO2008056590 A1 JPWO2008056590 A1 JP WO2008056590A1
Authority
JP
Japan
Prior art keywords
candidate
text
sound quality
quality evaluation
evaluation score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008543045A
Other languages
English (en)
Inventor
玲史 近藤
玲史 近藤
土井 伸一
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2008056590A1 publication Critical patent/JPWO2008056590A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

音声を生成する場合に、方式や音声の並びなどの要因によって、必ずしも綺麗な音声にならない場合がある。テキスト音声合成装置は、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部102と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部103と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部104と、前記選択した候補テキストに対応する合成音声を生成する音声合成部105と、を備え、入力テキストを、文内容等が変わらない範囲で変形し、最良の音質評価スコアを得る候補テキストに対応する合成音声を選択し、出力する(図1参照)。

Description

(関連出願)本願は、先の日本特許出願2006−302954号(2006年11月8日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、テキスト音声合成技術に関し、特に、入力されたテキストをその意味内容を損なわない範囲でアレンジして合成音声化する機能を備えたテキスト音声合成技術に関する。
テキスト音声合成技術は、与えられたテキスト、主に日本語の場合には漢字かな混じり文からなるテキストに対して、その内容を読み上げる音声を生成する技術である。
入力されたテキストの読みを推測して発音記号列を生成し、次に発音記号列に対する音声を生成する方法が広く用いられている。発音記号列に対する音声を生成する方法としては、予め収録した自然発話を切り貼りする波形接続方式や、音響的な特徴を表すパラメータ時系列を生成してそのパラメータから音声を生成するパラメトリック方式などが用いられる。
この音声合成技術においては、如何にして自然な合成音声を生成するかが大きな研究テーマとなっている。例えば、特開2004−258406号公報には、係り受け解析を誤った場合でも自然な韻律パターン(発音記号列)を生成できるようにしたテキスト音声合成システムが開示されている。
また、特開2004−138728号公報には、韻律情報の一つである基本ピッチパターンをその概形を保持したまま周波数方向に平行移動させながら、移動後の変形ピッチパターン及び言語情報に適合する音声素片列を選択し、該選択された音声素片列のうち最も適合する音声素片列に係る変形ピッチパターンと上記最も適合した音声素片列とを、合成音声時に用いる韻律情報及び音声素片とする素片・韻律制御手段を備え、前記選択した音声素片のピッチ変形量を抑えて、急激な音質変化の無い合成音声を作成できる音声合成装置が開示されている。
特開2004−258406号公報 特開2004−138728号公報 鹿野、伊藤、河原、武田、山本 「IT Text 音声認識システム」、オーム社、2001年 p.13−14頁、
以上の特許文献1、2並びに非特許文献1の開示事項は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
上記した従来技術の多くは自然な音声を生成することを主眼としているが、その結果生成される合成音声が必ずしも綺麗な音声にならないという問題点がある。本発明は、かかる点に着目してなされたものであって、その目的とするところは、生成する合成音声の品質を向上させることのできるテキスト音声合成技術を提供することにある。
本発明の第1の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備えること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。
本発明の第2の視点によれば、入力されたテキストから複数の候補形態素解析結果を計算する形態素解析候補生成部と、前記候補形態素解析結果に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する選択部と、前記選択した候補形態素解析結果に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。
本発明の第3の視点によれば、入力されたテキストから読み結果(称呼)を生成する読み生成部と、該読み結果へのポーズ(句切り)の挿入/非挿入を組み合わせにより複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)を生成するポーズ挿入部と、前記候補ポーズ付き読み結果(ポーズ付き称呼候補)に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)から、最良の音質評価スコアを持つ候補ポーズ付き読み結果(ポーズ付き称呼候補)を選択する選択部と、前記選択した候補ポーズ付き読み結果(ポーズ付き称呼候補)に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。
本発明の第4の視点によれば、入力されたテキストから読み結果(称呼)を生成する読み生成部と、前記読み結果(称呼)に含まれる特定の音についての別の音への置換/非置換を組み合わせ展開して複数の候補読み結果(称呼候補)を生成する読み変形部と、前記候補読み結果(称呼候補)に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補読み結果(称呼候補)から、最良の音質評価スコアを持つ候補読み結果(称呼候補)を選択する選択部と、前記選択した候補読み結果(称呼候補)に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。
本発明によれば、合成音声の品質を飛躍的に向上させることが可能となる。その理由は、入力テキストから作成した複数の候補のうち最良の音質評価スコアを持つ候補を採択するよう構成したことにある。
また、本発明によれば、音声合成手段の持つ自然音声の元の特性を生かした合成音声を生成することも可能となる。
本発明の第1の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。 本発明の第1の実施形態に係るテキスト音声合成システムの同義語辞書に格納されるエントリを表した図である。 本発明の第1の実施形態に係るテキスト音声合成システムのテキスト候補生成部の動作を説明するための図である。 本発明の第1の実施形態に係るテキスト音声合成システムの変形構成を表したブロック図である。 本発明の第2の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。 本発明の第5の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。 本発明の第5の実施形態に係るテキスト音声合成システムの個人性(特徴)辞書に格納されるエントリを表した図である。 本発明の第5の実施形態に係るテキスト音声合成システムのテキスト候補生成部の動作を説明するための図である。 本発明の第6の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。 本発明の第6の実施形態に係るテキスト音声合成システムのフィラー辞書に格納されるエントリを表した図である。 本発明の第6の実施形態に係るテキスト音声合成システムのテキスト候補生成部の動作を説明するための図である。 本発明の第10の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。 本発明の第11の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。 本発明の第12の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。 本発明の第13の実施形態に係るテキスト音声合成システムにおける音質評価スコアの算出方法を説明するための図である。 本発明の第14の実施形態に係るテキスト音声合成システムにおける音質評価スコアの算出方法を説明するための図である。
符号の説明
101 テキスト入力部
102 テキスト候補生成部
103 音質評価スコア計算部
104 選択部
105 音声合成部
106 形態素解析候補生成部
107 読み生成部
108 ポーズ挿入部
109 読み変形部
201 同義語辞書
202 個人性特徴辞書
203 フィラー辞書
以下に、本発明の種々の展開可能形態を示す。
(形態1)
本発明の第1の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。
(形態2)
前記テキスト音声合成装置は、更に、単語又は句単位で同義語を対応付けて格納した同義語辞書を備え、前記テキスト候補生成部に、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換/非置換を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。
(形態3)
前記テキスト音声合成装置は、更に、ある句表現に対して同じ意味を持つ句表現である同義表現を対応付けて格納した同義表現辞書を備え、前記テキスト候補生成部に、前記入力されたテキストに含まれる句表現に対応する同義表現を前記同義表現辞書から検索し、前記句表現単位レベルの置換/非置換を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。
(形態4)
更に、前記テキスト候補生成部に、前記入力されたテキストの意味を変えないという条件下で、前記入力されたテキストの文構造を変形することにより、前記複数の候補テキストを生成するよう動作させることができる。
(形態5)
更に、前記テキスト候補生成部に、前記入力されたテキストに含まれる単語又は句の丁寧表現の変更/非変更を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。
(形態6)
前記テキスト音声合成装置は、更に、個人レベルの表現差異を対応付けて格納した個人性特徴辞書を備え、前記テキスト候補生成部に、前記入力されたテキストに含まれる表現に対応する他の同義表現を前記個人性特徴辞書から検索し、前記個人レベルの表現差異による置換/非置換を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。
(形態7)
前記テキスト音声合成装置は、更に、フィラー(Filler)及び間投詞を記述したフィラー辞書を備え、前記テキスト候補生成部に、前記フィラー辞書を参照して、前記入力されたテキストの語間に、前記フィラー又は間投詞の挿入/非挿入を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。
(形態8)
前記テキスト音声合成装置は、更に、フィラー(Filler)及び間投詞を記述したフィラー辞書を備え、前記テキスト候補生成部に、前記フィラー辞書を参照して、前記入力されたテキストからフィラー又は間投詞の削除/非削除を組み合わせ展開して複数の候補テキストを生成するよう動作させることができる。
(形態9)
更に、前記テキスト候補生成部も、前記入力されたテキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることにより、前記複数の候補テキストを生成するよう動作させることができる。
(形態10)
更に、前記テキスト候補生成部に、展開した結果のうち、韻(rhyme)を踏む表現だけを候補テキストとするよう動作させることができる。
(形態11)
更に、前記テキスト候補生成部に、展開した結果のうち、各アクセント句のモーラ数が5あるいは7だけで構成される表現だけを候補テキストとするよう動作させることができる。
(形態12)
本発明の第2の視点によれば、入力されたテキストから複数の候補形態素解析結果を計算する形態素解析候補生成部と、前記候補形態素解析結果に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する選択部と、前記選択した候補形態素解析結果に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。
(形態13)
本発明の第3の視点によれば、入力されたテキストから読み結果(称呼)を生成する読み生成部と、該読み結果へのポーズ(句切り)の挿入/非挿入の組み合わせにより複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)を生成するポーズ挿入部と、前記候補ポーズ付き読み結果(ポーズ付き称呼候補)に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)から、最良の音質評価スコアを持つ候補ポーズ付き読み結果(ポーズ付き称呼候補)を選択する選択部と、前記選択した候補ポーズ付き読み結果(ポーズ付き称呼候補)に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。
(形態14)
本発明の第4の視点によれば、入力されたテキストから読み結果(称呼)を生成する読み生成部と、前記読み結果(称呼)に含まれる特定の音についての別の音への置換/非置換を組み合わせ展開して複数の候補読み結果(称呼候補)を生成する読み変形部と、前記候補読み結果(称呼候補)に対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補読み結果(称呼候補)から、最良の音質評価スコアを持つ候補読み結果(称呼候補)を選択する選択部と、前記選択した候補読み結果(称呼候補)に対応する合成音声を生成する音声合成部と、を備えるテキスト音声合成装置を得ることができる。
(形態15)
前記音質評価スコアとして、合成音声のピッチパタンの滑らかさを表すスコアを用いることができる。
(形態16)
前記音質評価スコアとして、推定したピッチパタンと合成音声のピッチパタンの差分を表すスコアを用いることができる。
(形態17)
前記音質評価スコアとして、推定したリズムと合成音声のリズムの差分を表すスコアを用いることができる。
(形態18)
前記音質評価スコアとして、
合成音声を作成する際のセグメント間のスペクトルの滑らかさを表すスコアを用いることができる。
(その他の形態)
また、本発明に係るテキスト音声合成方法及び該方法を実施するためのプログラムにおいても、上記した各テキスト音声合成装置の形態と同様の展開を行うことが可能である。
[第1の実施形態]
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。図1を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト入力部101と、テキスト候補生成部102と、同義語辞書201と、音質評価スコア計算部103と、選択部104と、音声合成部105と、を含んで構成されている。
テキスト入力部101は、テキストを入力する手段である。なお、本発明の原理からすれば、あらゆる言語に適用可能であるが、以下、本実施形態では、日本語かな漢字混じり文を取扱うものとして説明する。
テキスト候補生成部102は、同義語辞書201を参照し、該テキストを、意味を変えない別の表現に変形して複数の候補テキストを生成する手段である。
図2は、同義語辞書201に格納されるエントリを表した図であり、単語又は句単位で同義語を対応付けて格納されている。
テキスト候補生成部102は、図3に示すようにテキストを形態素解析し、各形態素毎に同義語辞書201を検索し、マッチするエントリがあれば、該当形態素は該当同義語に置換可能としてマークする。
最終的に、テキスト候補生成部102は、テキストの各形態素に対するすべての置換可能性の組合せにより、複数の候補テキストを生成する。
音質評価スコア計算部103は、前記複数の候補テキストのそれぞれに対して、音質評価スコアを計算する手段であり、その詳細については後記する。
選択部104は、前記複数の候補テキストの中から、対応する該音質評価スコアが最良となる候補テキストを一つ選択する手段である。
音声合成部105は、前記選択された候補テキストに対応する合成音声を生成する手段である。本実施形態では、音声合成部105は、予め収録した自然音声を接続編集することで合成音声を生成する、波形編集型テキスト音声合成装置であるものとする。
続いて、本実施形態に係るテキスト音声合成システムにおける音質評価の方法について詳細を説明する。
音質評価スコアは、前記候補テキストを音声合成した結果である合成音の音声品質の客観評価値を指している。一般に、音声品質の正確な客観評価値を求めることは困難であるため、音質評価スコアの近似値として、音声合成の過程で用いる各種スコアを用いることも可能である。本発明では、この近似値もあわせて、音質評価スコアと称する。
以下、上記音質評価スコアの具体例として、候補テキストに対して、前記音声合成装置が選択した素片系列に対応する単位接続スコアの値を、該音質評価スコアとして用いる例を挙げて説明する。
単位接続スコアは、各素片接続境界における10次元ケプストラム(cepstrum)の重み付きユークリッド距離の総和の負数とする。
すなわち、i番目の素片系列(a(1)_i,a(2)_i,...,a(N)_i)について、各素片a(j)_iの始端の10次元ケプストラムをCep_b(i,j)=(cep_b(i,j,1),cep_b(i,j,2),...,cep_b(i,j,10))また終端の10次元ケプストラムをCep_e(i,j)=(cep_e(i,j,1),cep_e(i,j,2),...,cep_e(i,j,10))とすると、i番目の素片系列に対する単位接続スコアd(i)は、d(i)=−Σ(j=1,(N−1))√Σ(k=1,10){α(k)|cep_e(i,j,(k+1))−cep_b(i,j,k)|^2}として表現される。
ここで、α(k)は予め与えられた重みである。
この単位接続スコアは、音質評価スコア計算部103と音声合成部105とで同じ方法で計算するものとする。
この単位接続スコアの値d(i)は、合成音声の区分区間であるセグメントの間のスペクトルの滑らかさを表すスコアであると考えることができ、単位接続スコアの値d(i)が大きいほど、単位の各接続部分におけるケプストラムの差違が小さく、音質の高い合成音が得られているといえる。
ここでは、単位接続スコアとして10次元ケプストラムの重み付きユークリッド距離を用いたが、次元数は適宜調整することが可能である。また、ケプストラムの代わりに、ケプストラムの時間方向微分値であるΔケプストラム、MFCC(Mel−Frequency Cepstrum Coefficent;非特許文献1参照)、またはMFCCの時間方向微分値であるΔMFCCを適当な次元数で用いることもできる。また、これら複数の値から構成されるベクトルを用いることももちろん可能である。
上記波形編集型のテキスト音声合成装置は、あるテキストに対して音声を合成する際に複数の自然音声の素片系列を取り得るが、それらの中で各素片系列に対する単位接続スコアが最大となる素片系列を選択するよう動作することになる。
以上により、与えられたテキストと同内容で、音声合成装置で用いられる単位選択スコアで近似された音質評価スコアのもっとも高い合成音声を生成することができる。
なお、図2の例では、同義語辞書201に表記のみを格納したものとして説明したが、品詞や、平仮名・片仮名間の変形規則などを記述することで、より柔軟あるいは厳密にマッチングすることも可能である。
また、テキスト候補生成部102は、音声合成部105の一部を成すテキスト解析処理と一体化することもできる。その場合、形態素解析結果が一致することにより、精度の向上や、計算量の低減を図ることができる。
また、本実施形態では、選択部104は候補テキストを出力し、音声合成部105は該候補テキストを入力として音声を合成するものとしている。テキスト候補生成部102と音声合成部105の動作は、音質評価スコアを生成するところまでは同じである。
これに対して、図4に示すように、前記同じ動作(音質評価スコアを生成するところまでの動作)をする部分をテキスト候補生成部102で行い、途中結果を音声合成用データとして出力することもできる。
選択部104は、選択された候補テキストに対応する音声合成用データ(テキスト候補生成部102にて生成)を出力し、音声合成部105は該選択された音声合成データを用いて音声を合成する。これにより、動作の重複がなくなり、計算量を削減することが可能となる。
以上のように、本実施形態では、伝達する情報内容を変えずに、より高音質で生成できる別の語・表現によって情報を伝えることが可能となる。また、音質評価スコアによる候補テキストの選択の際に、音声合成を構成する素片を収録した元発話で多く出てきた語・表現が使われる確率が高くなるので、元発話の話者の個人性が表現される。更には、与えられたテキストが書き言葉表現であっても、同義であるところの元発話で使われた話し言葉表現で置換される場合があり、その場合はより聞いていて解り易い、あるいは違和感の無い表現を得ることが可能となる。
なお、上記した実施形態では、メモリの制約等がないものとして、テキスト候補生成部102がテキストの各形態素に対するすべての置換可能性の組合せを求めるものとして説明したが(図3参照)、メモリの制約等がある場合には、その制約の範囲で可能な複数の組合せを求めても良いし、逐次、テキスト候補を生成し、音質評価スコアが高いものを残すようにして候補テキストを選択することも可能である。
[第2の実施形態]
続いて、同義語辞書を省略可能とした本発明の第2の実施形態について図面を参照して詳細に説明する。図5は、本発明の第2の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第1の実施形態で説明した事項は省略して説明する。
本実施形態のテキスト候補生成部102は、予めテキスト候補生成部102内に記述された同義表現の変形ルールに基づいて、入力されたテキストの文法を変形することにより、同義表現に展開した候補テキストを生成する。以下、その具体例を説明する。
例えば、入力テキストが「文法を変形する」の場合、テキスト候補生成部102は、名詞「変形」と助動詞「する」の組を、動詞句「形を変える」に置換することで変形する。
助詞の変形が必要な場合は、ここで一緒に行う。これにより、「文法を変形する」に加えて「文法の形を変える」も候補テキストとする。
また例えば、入力テキストが「単語を置換する」の場合、テキスト候補生成部102は、動詞語幹「置換」と助動詞「する」の組を、動詞句「置き換える」または「差し替える」に置換することで変形する。
こうして複数の候補テキストを生成した後は、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
テキスト候補生成部102では、単純にテキストの文字列一致により変形ルールを適用しても良いが、さらに形態素解析を行って該当表現の品詞を確認することで精度を向上することも可能である。
[第3の実施形態]
続いて、同じく同義語辞書を省略可能とした本発明の第3の実施形態について説明する。本実施形態の構成は、上記第2の実施形態と同様であるので、その相違点であるテキスト候補生成部102の動作について詳説する。
上記第2の実施形態とは異なり、本実施形態に係るテキスト候補生成部102は、入力されたテキストの文構造を変形することにより、展開した候補テキストを生成する。以下、その文構造の変形の具体例を説明する。
テキスト候補生成部102におけるその文構造の変形の第1類型は、倒置・強調構文への変形である。例えば、入力テキストが「AをBする」の場合、テキスト候補生成部102は、倒置・強調構文である「BしたのはAだ」も候補テキストとする。
テキスト候補生成部102におけるその文構造の変形の第2類型は、体言止め構文への変形である。例えば、入力テキストが「投稿したのは私です」の場合、テキスト候補生成部102は、体言止め構文である「投稿したのは私」も候補テキストとする。
テキスト候補生成部102におけるその文構造の変形の第3類型は、助詞句の入れ替え(スクランブリング)による変形である。例えば、入力テキストが「私と兄は本を読んだ」の場合、テキスト候補生成部102は、助詞句の入れ替えによる変形を行った「私と本を兄は読んだ」、「兄は私と本を読んだ」、「兄は本を私と読んだ」、「本を兄は私と読んだ」および「本を私と兄は読んだ」も候補テキストとする。
テキスト候補生成部102におけるその文構造の変形の第4類型は、名詞形と動詞形の置換による変形である。例えば、入力テキストが「単語を置換する」の場合、テキスト候補生成部102は、名詞形と動詞形の置換による変形を行った「単語の置換を行う」も候補テキストとする。
テキスト候補生成部102におけるその文構造の変形の第5類型は、受け身(受動態)への変形である。例えば、入力テキストが「彼は彼女を呼んだ」の場合、テキスト候補生成部102は、受け身への変形を行った「彼女は彼に呼ばれた。」も候補テキストとする。
こうして複数の候補テキストを生成した後は、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
[第4の実施形態]
続いて、同じく同義語辞書を省略可能とした本発明の第4の実施形態について説明する。本実施形態の構成は、上記第2、第3の実施形態と同様であるので、その相違点であるテキスト候補生成部102の動作について詳説する。
上記第2、第3の実施形態とは異なり、本実施形態に係るテキスト候補生成部102は、入力されたテキストの丁寧表現を変形することにより、展開した候補テキストを生成する。以下、その文構造の変形の具体例を説明する。
例えば、入力テキストが「私は本を買った」の場合、テキスト候補生成部102は、より丁寧な表現である「私は本を買いました。」も候補テキストとする。
こうして複数の候補テキストを生成した後は、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
[第5の実施形態]
続いて、上記した第1の実施形態の同義語辞書に代えて個人性(特徴)辞書を搭載した本発明の第5の実施形態について図面を参照して詳細に説明する。図6は、本発明の第5の実施形態に係るテキスト音声合成システムの構成を表したブロック図であり、個人性(特徴)辞書202が備えられている。以下、上記第1の実施形態で説明した事項は省略して説明する。
本実施形態のテキスト候補生成部102は、個人性(特徴)辞書202を参照し、入力テキストを、意味を変えない別の表現に変形して複数の候補テキストを生成する。
図7は、個人性(特徴)辞書202に格納されるエントリを表した図であり、エントリ「自転車」の置換可能な語彙として「ケッタ」が対応付けて格納されている。なお、「ケッタ」とは名古屋地方で用いられる「自転車」を指す言葉である。
テキスト候補生成部102は、図8に示すようにテキストを形態素解析し、各形態素毎に個人性(特徴)辞書202を検索し、マッチするエントリがあれば、該当形態素は該当個人性形態素(置換可能語彙)に置換可能としてマークする。
こうして複数の候補テキストを生成した後は、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
本実施形態では、例えば、音声合成部が用いる自然発話が方言などにより発声単語のばらつきがある場合も、自然発話での出現頻度の低い単語や音韻列が、より該当自然発話の話者にとって出現頻度の高い単語や音韻列に置換されることにより、音質の良い合成音声を得ることが可能となる。
[第6の実施形態]
続いて、上記した第1の実施形態の同義語辞書に代えてフィラー辞書を搭載した本発明の第6の実施形態について図面を参照して詳細に説明する。図9は、本発明の第6の実施形態に係るテキスト音声合成システムの構成を表したブロック図であり、フィラー辞書203が備えられている。以下、上記第1の実施形態で説明した事項は省略して説明する。
本実施形態のテキスト候補生成部102は、フィラー辞書203を参照し、入力テキストの語間にフィラー(filler)を挿入し、あるいは、挿入しないことを組み合わせ展開して、複数の候補テキストを生成する。
図10は、フィラー辞書203に格納されるエントリを表した図であり、所謂つなぎ語、会話で間投詞的に使われるあまり意味のない語句であるフィラー「えーと」や「ゴホゴホ」などが対応付けて格納されている。また例えば、英語であれば、「you know」、「I mean」、「Well」が格納される。
テキスト候補生成部102は、図11に示すようにテキストを形態素解析し、各形態素間に、フィラー辞書203の内容を挿入できる可能性をすべて展開する。図11の下段に示したように、テキスト候補生成部102は、フィラー辞書203とマッチする形態素については、それを他のフィラーへの置換/削除を組み合わせて展開する。
こうして複数の候補テキストを生成した後は、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
本実施形態では、例えばフィラーを挿入することにより、本来であればつながりの悪かった音韻列のつながりがスムーズになり、音質の良い合成音声を得ること、元発話の話者の個人性を表現することが可能となる。また、フィラーの挿入をすべて展開するのではなく、文全体の挿入可能個数や、連続挿入可能数を制御(制限)しても良い。
[第7の実施形態]
続いて、上記した各辞書を省略可能とした本発明の第7の実施形態について説明する。本実施形態の構成は、上記第2の実施形態と同様であるので、その相違点であるテキスト候補生成部102の動作について詳説する。
上記した各実施形態とは異なり、本実施形態に係るテキスト候補生成部102は、入力されたテキスト中の句を複数回繰り返すことにより、展開した候補テキストを生成する。以下、その文構造の変形の具体例を説明する。
例えば、入力テキストが「私は、鉛筆を3本買います」の場合、テキスト候補生成部102は、「私は、鉛筆を、鉛筆を3本買います」、「私は、鉛筆を3本、3本買います」、「私は、鉛筆を、鉛筆を3本、3本買います」も候補テキストとする。
以上のように、入力テキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることによっても、前記複数の候補テキストを生成することが可能であり、このようにして複数の候補テキストを生成した後は、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
なお、繰り返しの最大回数や、文全体での総繰り返し回数は、予めテキスト候補生成部102に設定することができるものとする。
[第8の実施形態]
続いて、上記第1の実施形態を変形した本発明の第8の実施形態について説明する。本実施形態の構成は、上記第1の実施形態と同様であるので、その相違点であるテキスト候補生成部102の動作について詳説する。
上記した第1の実施形態とは異なり、本実施形態に係るテキスト候補生成部102は、同義語辞書により同義語を展開した後、各句が頭韻を踏んでいることを検定する。以下、その検定処理の具体例を説明する。
例えば、同義語辞書201のエントリ「順調」に対して同義語「堅調」だけが登録されており、テキスト「順調な業績を、謙遜して語る」が入力された場合について説明する。
第1の実施形態に従えば、「順調な業績を、謙遜して語る」に加えて「堅調な業績を、謙遜して語る」の合わせて2つの候補テキストが生成される。
ここで、2つの候補テキスト見てみると、前者の「順調な業績を、謙遜して語る」の各呼気段落の先頭音は「じゅ」と「け」なので、頭韻を踏んでいない。一方、後者の「堅調な業績を、謙遜して語る」については同様に、「け」と「け」なので、頭韻を踏んでいる。
そこで、テキスト候補生成部102は、上記韻を踏んでいるか否かの検定によって、前者を除外し、頭韻を踏んでいる後者だけを候補テキストとして出力する。
こうして複数の候補テキストから検定によって選別された候補テキストのみについて、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
本実施形態では、上記音質評価処理の負荷が低減されることはもちろんとして、聞いて心地よくない候補テキストが生成されることを防止する効果が達成される。また、上記した具体例では、頭韻による検定を例示したが、脚韻について同様の検定をすることが可能である。
[第9の実施形態]
続いて、上記第1の実施形態を変形した本発明の第9の実施形態について説明する。本実施形態の構成は、上記第1の実施形態と同様であるので、その相違点であるテキスト候補生成部102の動作について詳説する。
上記した第1の実施形態とは異なり、本実施形態に係るテキスト候補生成部102は、同義語辞書により同義語を展開した後、各句の読みのモーラ(mora)数が5又は7であることを検定する。以下、その検定処理の具体例を説明する。
例えば、同義語辞書201のエントリ「連絡網」に対して同義語「連絡ネット」が、エントリ「驚き」について同義語「驚愕」がそれぞれ登録されていており、テキスト「退屈な連絡網が、驚きに満たされた」が入力された場合について説明する。
第1の実施形態に従えば、(1)「退屈な連絡網が、驚きに満たされた」に加えて、(2)「退屈な連絡ネットが、驚きに満たされた」、(3)「退屈な連絡網が、驚愕に満たされた」、(4)「退屈な連絡ネットが、驚愕に満たされた」の合計4文の候補テキストが生成される。
ところで、前記各候補テキストの句毎のモーラ数は、それぞれ(1)5モーラ+7モーラ+5モーラ+5モーラ、(2)5モーラ+8モーラ+5モーラ+5モーラ、(3)5モーラ+7モーラ+5モーラ+5モーラ、(4)5モーラ+8モーラ+5モーラ+5モーラ、である。
そこで、テキスト候補生成部102は、これらのうち、すべての句が5又は7モーラで構成されている、(1)「退屈な連絡網が、驚きに満たされた」と(3)「退屈な連絡網が、驚愕に満たされた」の2つを、候補テキストとして出力する。
こうして複数の候補テキストから検定によって選別された候補テキストのみについて、上記第1の実施形態と同様の処理により、音質評価、最良候補の選択が行われる。
本実施形態でも、上記音質評価処理の負荷が低減されることはもちろんとして、上記第8の実施形態とは別のモーラ数の観点で聞いて心地よくない候補テキストが生成されることを防止する効果が達成される。また、上記した具体例では、各句が厳密に5または7モーラであるか否かによる検定を例示したが、各句が厳密に5または7モーラではない、いわゆる字余りに対応することも可能である。
[第10の実施形態]
続いて、上記第2の実施形態を変形した本発明の第10の実施形態について図面を参照して詳細に説明する。図12は、本発明の第10の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第2の実施形態で説明した事項は省略して説明する。
図12を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト候補生成部102に代えて、入力されたテキストを形態素解析する形態素解析候補生成部106を備えて構成されている点で上記第2の実施形態と相違している。
一般に、形態素解析は一意に結果が決まるのではなく、複数の形態素解析候補があり、テキスト音声合成においてはその中から最適な形態素解析結果を一つ選んで使うことが多い。
そこで、本実施形態に係るテキスト音声合成システムでは、形態素解析候補生成部106は複数の形態素解析候補を出力し、音質評価スコア計算部103が、これら形態素解析候補に対して読みを付与し、音質評価スコアを求める方式を採っている。
以下、入力テキストが「東京都に市場がある」である場合の例を挙げて、第2の実施形態との違いを説明する。
形態素解析候補生成部106は、形態素解析を行い、「東京都(とうきょうと,名詞)/に(助詞)/市場(しじょう,名詞)/が(助詞)/ある(動詞)」、「東(ひがし,名詞)/京都(きょうと,名詞)/に(助詞)/市場(しじょう,名詞)/が(助詞)/ある(動詞)」、「東京都(とうきょうと,名詞)/に(助詞)/市場(いちば,名詞)/が(助詞)/ある(動詞)」、「東(ひがし,名詞)/京都(きょうと,名詞)/に(助詞)/市場(いちば,名詞)/が(助詞)/ある(動詞)」の4つの形態素解析候補を出力する。
ここで、「/」はアクセント句の区切りを、「’」はアクセント位置を表すものとする。
この時、これら以外の形態素解析の可能性もあり得るが、文法知識や形態素バイグラムによって、可能性の低いものは排除してある。
これらの形態素解析結果に対応して、音質評価スコア計算部103は「とーきょ’ーとに/しじょーがあ’る」、「ひがしきょ’ーとに/しじょーがあ’る」、「とーきょ’ーとに/い’ちばが/あ’る」、「ひがしきょ’ーとに/い’ちばが/あ’る」の各読みを生成し、それぞれに対応する音質評価スコアを計算する。
この例は、文脈知識無しではどれも不正解ではないので、どれが選択されて発生されてもおかしくは無いが、良い音質で発声できるという観点で選択した形態素解析結果を用いることが可能となる。
[第11の実施形態]
続いて、上記第2の実施形態を変形した本発明の第11の実施形態について図面を参照して詳細に説明する。図13は、本発明の第11の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第2の実施形態で説明した事項は省略して説明する。
図13を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト候補生成部102に代えて、入力されたテキストに対する読み結果を生成する読み生成部107と、読み結果に対して、ポーズを挿入可能な位置を推定し、ポーズ挿入可否を展開することで、複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)を生成するポーズ挿入部108と、を備えて構成されている点で上記第2の実施形態と相違している。音質評価スコア計算部103は、上記候補ポーズ付き読み結果(ポーズ付き称呼候補)に対する、音質評価スコアを求めるよう動作する。
以下、入力テキストが「私は本屋へ行く」である場合の例を挙げて、第2の実施形態との違いを説明する。
読み生成部107は、読み結果「わたしわ/ほ’んやえ/いく」を生成する。ポーズ挿入部108は、「/」で示すアクセント句の区切り位置にポーズを挿入可能であると推定し、「わたしわ/ほ’んやえ/いく」、「わたしわPほ’んやえ/いく」、「わたしわ/ほ’んやえPいく」、「わたしわPほ’んやえPいく」の4つの候補ポーズ付き読み結果(ポーズ付き称呼候補)を生成する。
ここで、「/」はアクセント句の区切りを、「’」はアクセント位置を、「P」はポーズ位置を表すものとする。
これらの候補ポーズ付き読み結果(ポーズ付き称呼候補)に対応して、音質評価スコア計算部103は、それぞれに対応する音質評価スコアを計算する。
本実施の形態によれば、ポーズ挿入の有無により、アクセント句の区切り前後における音響環境が変わるので、もっとも良い音質で発声できるポーズ挿入の組み合わせを用いることが可能となる。また、音声品質スコアの計算の過程で、音声合成を構成する素片を収録した元発話のポーズ挿入確率が反映されるため、元発話の話者の個人性も表現される。
[第12の実施形態]
続いて、上記第2の実施形態を変形した本発明の第12の実施形態について図面を参照して詳細に説明する。図14は、本発明の第12の実施形態に係るテキスト音声合成システムの構成を表したブロック図である。以下、上記第2の実施形態で説明した事項は省略して説明する。
図14を参照すると、本実施形態に係るテキスト音声合成システムは、テキスト候補生成部102に代えて、入力されたテキストに対する読み結果を生成する読み生成部107と、予め与えられたルールに従って読み結果の音韻を変化させることで、候補読み結果を展開する複数の候補読み結果(称呼候補)を生成する読み変形部109と、を備えて構成されている点で上記第2の実施形態と相違している。音質評価スコア計算部103は、上記候補読み結果(称呼候補)に対する、音質評価スコアを求めるよう動作する。
以下、予め音韻「ひ」を「し」に変形可能であるというルールが与えられ、入力テキストが「仕事を一人で引継いだ」である場合の例を挙げて、第2の実施形態との違いを説明する。ちなみに、上記の音韻「ひ」を「し」に変形するというルールは、江戸弁の話者に対する簡易的な変形ルールである。
読み生成部107は、入力テキストに対して「しごとを/ひと’りで/ひきつ’いだ」という読み結果を与え、出力する。読み変形部109は、この読み結果の中で音韻「ひ」が2箇所あるため、これらを「し」に変化することの組み合わせにより、「しごとを/ひと’りで/ひきつ’いだ」に加えて、「しごとを/しと’りで/ひきつ’いだ」、「しごとを/ひと’りで/しきつ’いだ」、「しごとを/しと’りで/しきつ’いだ」の4つの候補読み結果(候補称呼)を生成する。
ここで、「/」はアクセント句の区切りを、「’」はアクセント位置を表すものとする。
これらの候補読み結果(候補称呼)に対応して、音質評価スコア計算部103は、それぞれに対応する音質評価スコアを計算する。
本実施の形態によれば、特定の音韻の発声が別の発声になってしまう傾向のある話者の収録音声を用いた音声合成において、その特徴を生かして良い音質の発声を行うこと、元発話の話者の個人性を再現することがが可能となる。
[第13の実施形態]
続いて、上記第2の実施形態を変形した本発明の第13の実施形態について説明する。本実施形態の構成は、上記第2の実施形態と同様であるので、その相違点である音質評価スコア計算部103の動作について詳説する。
上記第2の実施形態においては、音質評価スコアとして、合成音声の音質の近似値である単位選択スコアを用いた。これに対して、本実施形態では、音質評価スコアとして、合成音声の区分区間であるセグメントの間で、端点におけるピッチ周波数の差分をHz単位で測定し、その絶対値の総和を用いる。
図15に、合成音声が4のセグメントから構成された場合の音声スコアの算出の例を示す。ここで、セグメント1からセグメント4までの各セグメントに対して、それぞれ元発話の区間を割り当てる。また、それぞれの元発話の区間を元発話1から元発話4とする。
セグメント1の端点に相当する元発話1上のピッチ周波数は、始端ピッチ周波数がF1bであり、終端ピッチ周波数がF1eである。同様に、セグメント2からセグメント4までにも同様に端点に相当するピッチ周波数F2b、F2e、F3b、F3e、F4b、F4eが存在する。
ここで、合成音声の始端になるF1bと終端になるF4eを除くそれぞれの端点において、互いに接続する終端ピッチ周波数と始端ピッチ周波数の差分の総和、すなわち
D=|F1e−F2b|+|F2e−F3b|+|F3e−F4b|
の値を、該当元発話の組み合わせにおける音質評価スコアとする。
なお、上記の例ではピッチ周波数の実数の差分の総和を用いたが、代わりに自乗和、重み付き和、ピッチ周波数を対数値とした計算を用いても構わない。また、上記の例では簡単のため、音声合成における波形生成で一般的な波形接続方式を用いて、元発話のピッチ周波数がそのまま合成音声の該当区間のピッチ周波数になる場合を想定して説明したが、波形編集方式によりピッチ周波数が編集されて使用される場合にも適用可能である。その場合には、元発話のピッチ周波数を使うほかに、編集後のピッチ周波数に対して同様の計算を行うことが可能である。
以上の説明からも明らかなように、本実施形態における音質評価スコアの値は、合成音声のピッチパタンの滑らかさを表すスコアであり、合成音声の声質を近似しているといえる。従って、本実施形態の方式によっても、上記音質評価スコアのもっとも高い合成音声を生成することができる。
[第14の実施形態]
続いて、上記第2の実施形態を変形した本発明の第14の実施形態について説明する。本実施形態の構成は、上記第2の実施形態と同様であるので、その相違点である音質評価スコア計算部103の動作について詳説する。
上記第2の実施形態においては、音質評価スコアとして、合成音声の音質の近似値である単位選択スコアを用いた。これに対して、本実施形態では、音質評価スコアとして、音声合成の過程でピッチ周波数の軌跡の推定値を計算し、その値と実際の合成音声のピッチ周波数の値の差分をHz単位で測定し、その絶対値の音声区間全体にわたる総和を用いる。
図16に、合成音声が4のセグメントから構成された場合の音声スコアの算出の例を示す。ここで、セグメント1からセグメント4までの各セグメントに対して、それぞれ元発話の区間を割り当てる。
ここで、元発話1から元発話4からなる元発話のピッチ周波数を、該当する時刻に割り当てた各元発話のピッチ周波数fo(t)と、ピッチ周波数の軌跡の推定値ft(t)から、音質評価スコアの値を
D=Σ(t=t1,t2)|ft(t)−fo(t)|
と定義する。
なお、本実施形態においても、上記した第13の実施形態と同様に、ピッチ周波数の実数の差分の総和の代わりに自乗和、重み付き和、ピッチ周波数を対数値とした計算を用いても構わない。また、上記の例では簡単のため、音声合成における波形生成で一般的な波形接続方式を用いて、元発話のピッチ周波数がそのまま合成音声の該当区間のピッチ周波数になる場合を想定して説明したが、波形編集方式によりピッチ周波数が編集されて使用される場合にも適用可能である。その場合には、元発話のピッチ周波数を使うほかに、編集後のピッチ周波数に対して同様の計算を行うことが可能である。
特に波形接続型音声合成方式の場合、選択された音声素片のピッチ周波数は、音声合成するために計算したピッチ周波数と異なる場合がある。本実施形態における音質評価スコアの値は、計算したピッチ周波数をどれだけ忠実に再現しているかを表すスコアであり、合成音声の声質を近似しているといえる。
従って、本実施形態の方式によっても、上記音質評価スコアのもっとも高い合成音声を生成することができる。
[第15の実施形態]
続いて、上記第2の実施形態を変形した本発明の第15の実施形態について説明する。本実施形態の構成は、上記第2の実施形態と同様であるので、その相違点である音質評価スコア計算部103の動作について詳説する。
上記第2の実施形態においては、音質評価スコアとして、合成音声の音質の近似値である単位選択スコアを用いた。これに対して、本実施形態では、音質評価スコアとして、音声合成の過程で各音声単位の時間長を計算し、その値と実際の合成音声の該当単位の時間長との差分をミリ秒単位で測定し、その絶対値の音声区間全体にわたる総和を用いる。
先に述べたように、特に波形接続型音声合成方式の場合、選択された音声素片の時間長は、音声合成するために計算した時間長と異なる場合がある。本実施形態における音質評価スコアの値は、計算した時間長をどれだけ忠実に再現しているかを表すスコアであり、この点で合成音声の声質を近似しているといえる。
従って、本実施形態の方式によっても、上記音質評価スコアのもっとも高い合成音声を生成することができる。
本発明の適用可能分野は、音声合成技術を必要とする分野と略一致するが、例えば、ロボットの音声対話等の、テキストの文面に対する厳密性が必要無い分野においてその効果を発揮すると考えられる。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。
例えば、上記した実施形態では、日本語かな混じり文を入力テキストとする例を挙げて説明したが、上記した各実施形態に示した各辞書に対応する他の言語の辞書を準備することで、他の言語の文章を入力テキストとすることも可能である。
本発明の第1の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備え、前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることにより、前記複数の候補テキストを生成すること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。
本発明の第2の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備え、前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換/非置換を組み合わせ展開して得られた結果のうち、韻を踏む表現だけを候補テキストとすること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。
本発明の第3の視点によれば、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備え、前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換/非置換を組み合わせ展開して得られた結果のうち、各アクセント句のモーラ数が5あるいは7だけで構成される表現だけを候補テキストとすること、を特徴とするテキスト音声合成装置、該テキスト音声合成装置を実現するためのプログラム及び該テキスト音声合成装置を用いて実施する音声合成方法が提供される。

Claims (26)

  1. 入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するテキスト候補生成部と、
    前記各候補テキストに対する音質評価スコアを計算する音質評価スコア計算部と、
    前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する選択部と、
    前記選択した候補テキストに対応する合成音声を生成する音声合成部と、を備えること、
    を特徴とするテキスト音声合成装置。
  2. 単語又は句単位で同義語を対応付けて格納した同義語辞書を備え、
    前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句に対応する同義語を前記同義語辞書から検索し、前記単語又は句単位の置換/非置換を組み合わせ展開して複数の候補テキストを生成すること、
    を特徴とする請求項1に記載のテキスト音声合成装置。
  3. ある句表現に対して同じ意味を持つ句表現である同義表現を対応付けて格納した同義表現辞書を備え、
    前記テキスト候補生成部は、前記入力されたテキストに含まれる句表現に対応する同義表現を前記同義表現辞書から検索し、前記句表現単位レベルの置換/非置換を組み合わせ展開して複数の候補テキストを生成すること、
    を特徴とする請求項1又は2に記載のテキスト音声合成装置。
  4. 前記テキスト候補生成部は、前記入力されたテキストの意味を変えないという条件下で、前記入力されたテキストの文構造を変形することにより、前記複数の候補テキストを生成すること、
    を特徴とする請求項1乃至3いずれか一に記載のテキスト音声合成装置。
  5. 前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句の丁寧表現の変更/非変更を組み合わせ展開して複数の候補テキストを生成すること、
    を特徴とする請求項1乃至4いずれか一に記載のテキスト音声合成装置。
  6. 個人レベルの表現差異を対応付けて格納した個人性特徴辞書を備え、
    前記テキスト候補生成部は、前記入力されたテキストに含まれる表現に対応する他の同義表現を前記個人性特徴辞書から検索し、前記個人レベルの表現差異による置換/非置換を組み合わせ展開して複数の候補テキストを生成すること、
    を特徴とする請求項1乃至5いずれか一に記載のテキスト音声合成装置。
  7. フィラー(Filler)及び間投詞を記述したフィラー辞書を備え、
    前記テキスト候補生成部は、前記フィラー辞書を参照して、前記入力されたテキストの語間に、前記フィラー又は間投詞の挿入/非挿入を組み合わせ展開して複数の候補テキストを生成すること、
    を特徴とする請求項1乃至6いずれか一に記載のテキスト音声合成装置。
  8. フィラー(Filler)及び間投詞を記述したフィラー辞書を備え、
    前記テキスト候補生成部は、前記フィラー辞書を参照して、前記入力されたテキストからフィラー又は間投詞の削除/非削除を組み合わせ展開して複数の候補テキストを生成すること、
    を特徴とする請求項1乃至7いずれか一に記載のテキスト音声合成装置。
  9. 前記テキスト候補生成部は、前記入力されたテキストに含まれる単語又は句の一部又は句の全部を、繰り返し表現に改めることにより、前記複数の候補テキストを生成すること、
    を特徴とする請求項1乃至8いずれか一に記載のテキスト音声合成装置。
  10. 前記テキスト候補生成部は、展開した結果のうち、韻を踏む表現だけを候補テキストとすること、
    を特徴とする請求項1乃至9いずれか一に記載のテキスト音声合成装置。
  11. 前記テキスト候補生成部は、展開した結果のうち、各アクセント句のモーラ数が5あるいは7だけで構成される表現だけを候補テキストとすること、
    を特徴とする請求項1乃至10いずれか一に記載のテキスト音声合成装置。
  12. 入力されたテキストから複数の候補形態素解析結果を計算する形態素解析候補生成部と、
    前記候補形態素解析結果に対する音質評価スコアを計算する音質評価スコア計算部と、
    前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する選択部と、
    前記選択した候補形態素解析結果に対応する合成音声を生成する音声合成部と、を備えること、
    を特徴とするテキスト音声合成装置。
  13. 入力されたテキストから読み結果(称呼)を生成する読み生成部と、
    該読み結果へのポーズ(句切り)の挿入/非挿入の組み合わせにより複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)を生成するポーズ挿入部と、
    前記候補ポーズ付き読み結果(ポーズ付き称呼候補)に対する音質評価スコアを計算する音質評価スコア計算部と、
    前記複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)から、最良の音質評価スコアを持つ候補ポーズ付き読み結果(ポーズ付き称呼候補)を選択する選択部と、
    前記選択した候補ポーズ付き読み結果(ポーズ付き称呼候補)に対応する合成音声を生成する音声合成部と、を備えること、
    を特徴とするテキスト音声合成装置。
  14. 入力されたテキストから読み結果(称呼)を生成する読み生成部と、
    前記読み結果(称呼)に含まれる特定の音についての別の音への置換/非置換を組み合わせ展開して複数の候補読み結果(称呼候補)を生成する読み変形部と、
    前記候補読み結果(称呼候補)に対する音質評価スコアを計算する音質評価スコア計算部と、
    前記複数の候補読み結果(称呼候補)から、最良の音質評価スコアを持つ候補読み結果(称呼候補)を選択する選択部と、
    前記選択した候補読み結果(称呼候補)に対応する合成音声を生成する音声合成部と、を備えること、
    を特徴とするテキスト音声合成装置。
  15. 前記音質評価スコアは、合成音声のピッチパタンの滑らかさを表すスコアであること、
    を特徴とする請求項1乃至14いずれか一に記載のテキスト音声合成装置。
  16. 前記音質評価スコアは、推定したピッチパタンと合成音声のピッチパタンの差分を表すスコアであること、
    を特徴とする請求項1乃至15いずれか一に記載のテキスト音声合成装置。
  17. 前記音質評価スコアは、推定したリズムと合成音声のリズムの差分を表すスコアであること、
    を特徴とする請求項1乃至16いずれか一に記載のテキスト音声合成装置。
  18. 前記音質評価スコアは、合成音声を作成する際のセグメント間のスペクトルの滑らかさを表すスコアであること、
    を特徴とする請求項1乃至17いずれか一に記載のテキスト音声合成装置。
  19. テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
    入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成する手段と、
    前記各候補テキストに対する音質評価スコアを計算する手段と、
    前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択する手段と、
    前記選択した候補テキストに対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
  20. テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
    入力されたテキストから複数の候補形態素解析結果を計算する手段と、
    前記候補形態素解析結果に対する音質評価スコアを計算する手段と、
    前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択する手段と、
    前記選択した候補形態素解析結果に対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
  21. テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
    入力されたテキストから読み結果(称呼)を生成する手段と、
    前記読み結果へのポーズ(句切り)の挿入/非挿入の組み合わせにより複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)を生成する手段と、
    前記候補ポーズ付き読み結果(ポーズ付き称呼候補)に対する音質評価スコアを計算する手段と、
    前記複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)から、最良の音質評価スコアを持つ候補ポーズ付き読み結果(ポーズ付き称呼候補)を選択する手段と、
    前記選択した候補ポーズ付き読み結果(ポーズ付き称呼候補)に対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
  22. テキスト音声合成装置を構成するコンピュータに実行させるプログラムであって、
    入力されたテキストから読み結果(称呼)を生成する手段と、
    前記読み結果(称呼)に含まれる特定の音についての別の音への置換/非置換を組み合わせ展開して複数の候補読み結果(称呼候補)を生成する手段と、
    前記候補読み結果(称呼候補)に対する音質評価スコアを計算する手段と、
    前記複数の候補読み結果(称呼候補)から、最良の音質評価スコアを持つ候補読み結果(称呼候補)を選択する手段と、
    前記選択した候補読み結果(称呼候補)に対応する合成音声を生成する手段と、の前記各手段として、前記コンピュータを機能させるプログラム。
  23. コンピュータを用いたテキスト音声合成方法であって、
    前記コンピュータが、入力されたテキストを解析し、同義の表現よりなる複数の候補テキストを生成するステップと、
    前記コンピュータが、前記各候補テキストに対する音質評価スコアを計算するステップと、
    前記コンピュータが、前記複数の候補テキストから、最良の音質評価スコアを持つ候補テキストを選択するステップと、
    前記コンピュータが、前記選択した候補テキストに対応する合成音声を生成するステップと、を含むこと、
    を特徴とするテキスト音声合成方法。
  24. コンピュータを用いたテキスト音声合成方法であって、
    前記コンピュータが、入力されたテキストから複数の候補形態素解析結果を計算するステップと、
    前記コンピュータが、前記候補形態素解析結果に対する音質評価スコアを計算するステップと、
    前記コンピュータが、前記複数の候補形態素解析結果から、最良の音質評価スコアを持つ候補形態素解析結果を選択するステップと、
    前記コンピュータが、前記選択した候補形態素解析結果に対応する合成音声を生成するステップと、を含むこと、
    を特徴とするテキスト音声合成方法。
  25. コンピュータを用いたテキスト音声合成方法であって、
    前記コンピュータが、入力されたテキストから読み結果(称呼)を生成するステップと、
    前記コンピュータが、前記読み結果へのポーズ(句切り)の挿入/非挿入の組み合わせにより複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)を生成するステップと、
    前記コンピュータが、前記候補ポーズ付き読み結果(ポーズ付き称呼候補)に対する音質評価スコアを計算するステップと、
    前記コンピュータが、前記複数の候補ポーズ付き読み結果(ポーズ付き称呼候補)から、最良の音質評価スコアを持つ候補ポーズ付き読み結果(ポーズ付き称呼候補)を選択するステップと、
    前記コンピュータが、前記選択した候補ポーズ付き読み結果(ポーズ付き称呼候補)に対応する合成音声を生成するステップと、を含むこと、
    を特徴とするテキスト音声合成方法。
  26. コンピュータを用いたテキスト音声合成方法であって、
    前記コンピュータが、入力されたテキストから読み結果(称呼)を生成するステップと、
    前記コンピュータが、前記読み結果(称呼)に含まれる特定の音についての別の音への置換/非置換を組み合わせ展開して複数の候補読み結果(称呼候補)を生成するステップと、
    前記コンピュータが、前記候補読み結果(称呼候補)に対する音質評価スコアを計算するステップと、
    前記コンピュータが、前記複数の候補読み結果(称呼候補)から、最良の音質評価スコアを持つ候補読み結果(称呼候補)を選択するステップと、
    前記コンピュータが、前記選択した候補読み結果(称呼候補)に対応する合成音声を生成するステップと、を含むこと、
    を特徴とするテキスト音声合成方法。
JP2008543045A 2006-11-08 2007-11-01 テキスト音声合成装置、そのプログラム及びテキスト音声合成方法 Withdrawn JPWO2008056590A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006302954 2006-11-08
JP2006302954 2006-11-08
PCT/JP2007/071285 WO2008056590A1 (fr) 2006-11-08 2007-11-01 Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole

Publications (1)

Publication Number Publication Date
JPWO2008056590A1 true JPWO2008056590A1 (ja) 2010-02-25

Family

ID=39364408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008543045A Withdrawn JPWO2008056590A1 (ja) 2006-11-08 2007-11-01 テキスト音声合成装置、そのプログラム及びテキスト音声合成方法

Country Status (2)

Country Link
JP (1) JPWO2008056590A1 (ja)
WO (1) WO2008056590A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5398295B2 (ja) * 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
JP6172491B2 (ja) * 2012-08-27 2017-08-02 株式会社アニモ テキスト整形プログラム、方法及び装置
JP2014048443A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、音声合成方法及び音声合成プログラム
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
JP7110055B2 (ja) * 2018-10-09 2022-08-01 株式会社日立ソリューションズ・テクノロジー 音声合成システム、及び音声合成装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003302993A (ja) * 2002-04-10 2003-10-24 Canon Inc 音声合成装置、音声合成方法、プログラム、記憶媒体
JP2004118004A (ja) * 2002-09-27 2004-04-15 Asahi Kasei Corp 音声合成装置
JP4004376B2 (ja) * 2002-10-02 2007-11-07 日本電信電話株式会社 音声合成装置、音声合成プログラム
JP4811557B2 (ja) * 2005-02-18 2011-11-09 独立行政法人情報通信研究機構 音声再生装置及び発話支援装置
JP2006243104A (ja) * 2005-03-01 2006-09-14 Canon Inc 音声合成方法

Also Published As

Publication number Publication date
WO2008056590A1 (fr) 2008-05-15

Similar Documents

Publication Publication Date Title
KR102199067B1 (ko) 다중 언어 텍스트-음성 합성 방법
CN107103900B (zh) 一种跨语言情感语音合成方法及系统
US20100057435A1 (en) System and method for speech-to-speech translation
Khan et al. Concatenative speech synthesis: A review
US10347237B2 (en) Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
JP2006048056A (ja) 混合言語テキスト音声合成
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JPWO2008056590A1 (ja) テキスト音声合成装置、そのプログラム及びテキスト音声合成方法
JP2006227589A (ja) 音声合成装置および音声合成方法
JP4704254B2 (ja) 読み修正装置
Badino et al. Language independent phoneme mapping for foreign TTS
JP2016151736A (ja) 音声加工装置、及びプログラム
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
Prahallad Automatic building of synthetic voices from audio books
Sun et al. A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
Bonafonte et al. The UPC TTS system description for the 2008 blizzard challenge
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Mustafa et al. EM-HTS: real-time HMM-based Malay emotional speech synthesis.
Huang et al. Personalized natural speech synthesis based on retrieval of pitch patterns using hierarchical Fujisaki model
Adeyemo et al. Development and integration of Text to Speech Usability Interface for Visually Impaired Users in Yoruba language.
Khaw et al. Preparation of MaDiTS corpus for Malay dialect translation and speech synthesis system.

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110104