WO2005109399A1

WO2005109399A1 - 音声合成装置および方法

Info

Publication number: WO2005109399A1
Application number: PCT/JP2005/006489
Authority: WO
Inventors: Yoshifumi Hirose
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-05-11
Filing date: 2005-04-01
Publication date: 2005-11-17
Also published as: CN1954361A; JPWO2005109399A1; US7912719B2; CN1954361B; US20070233489A1; JP3913770B2

Abstract

　合成音を生成した際に音質が著しく低下することのない音声合成装置は、目標素片情報生成部（１０２）と、素片データベース（１０３）と、素片選択部（１０４）と声質指定部（１０５）と、声質変換部（１０６）と、歪み判定部（１０８）と、目標素片情報修正部（１０９）とを備え、声質変換部（１０６）により変換された音声素片が歪み判定部（１０８）により歪んでいると判断された場合には、目標素片情報修正部（１０９）が、目標素片情報生成部（１０２）で生成された音声素片情報を変換後の声質の音声素片情報に修正し、素片選択部（１０４）が音声素片を再選択する。このことにより、合成音の音質を劣化させることなく、声質指定部（１０５）により指定された声質の合成音を生成することが可能となる。

Description

明細書

音声合成装置および方法

技術分野

[0001] 本発明は、音声合成装置に関し、特に、編集者が指定する声質を再現でき、かつ連続的に声質を変化させた場合に声質が連続的に変化する音声合成装置に関する背景技術

[0002] 従来、音声を合成し、合成音の声質を変更することが可能な音声合成システムとして、素片選択部により選択された音声素片に対して入力された声質に合うように声質を変換するシステムが提案されている（例えば、特許文献 1参照)。

[0003] 図 9は、特許文献 1に記載された従来の声質可変音声合成装置の構成図である。

従来の声質可変音声合成装置は、テキスト入力部 1と、声質変換パラメータ入力部 2 と、素片記憶部 3と、素片選択部 4と、声質変換部 5と、波形合成部 6とを備えている。

[0004] テキスト入力部 1は、音声合成を行ないたい言葉の内容を示す音素情報とァクセントゃ発話全体の抑揚を示す韻律情報とを外部より受付け、素片選択部 4に出力する処理部である。

[0005] 声質変換パラメータ入力部 2は、編集者が所望する声質への変換に必要な変換パラメータの入力を受付ける処理部である。素片記憶部 3は各種音声に対する音声素片を記憶する記憶部である。素片選択部 4はテキスト入力部 1より出力される音素情報および韻律情報に最も合致する音声素片を素片記憶部 3から選択する処理部である。

[0006] 声質変換部 5は、声質変換パラメータ入力部 2より入力された変換パラメータを用いて、素片選択部 4により選択された音声素片を、編集者が所望する声質へ変換する処理部である。波形合成部 6は、声質変換部 5により声質変換された音声素片より音声波形を合成する処理部である。

[0007] このように、従来の声質可変音声合成装置では、声質変換部 5が、声質変換パラメータ入力部 2で入力された音声変換パラメータを用いて、素片選択部 4で選択された音声素片を変換することにより編集者が所望する声質の合成音を得ることができる。

[0008] この他にも、声質ごとに音声素片データベースを複数用意し、入力された声質に最も合致する音声素片データベースを選択して使用することにより、声質可変な音声合成を行う方法も知られてヽる。

特許文献 1：特開 2003 - 66982号公報 (第 1— 10頁、図 1)

発明の開示

発明が解決しょうとする課題

[0009] しかしながら、前者の声質可変音声合成装置においては、編集者が所望する声質は素片記憶部 3に記憶されている標準的な声質 (ニュートラルな声質)の音声素片の声質と大きく異なることがある。このように、素片記憶部 3より選択された音声素片の声質が声質変換パラメータ入力部 2により指定された声質と大きく異なる場合には、声質変換部 5により選択された音声素片を非常に大きく変形する必要が生じる。このため、波形合成部 6により合成音を生成した際に音質が著しく低下するという課題を有している。

[0010] 一方、後者の方法にお!、ては、声質変換は、音声素片データベースを切り替えることにより行なわれている。し力しながら、音声素片データベースの個数は有限個数である。このため、声質変換は離散的なものになってしまい、連続的に声質を変化させることができな、と!/、う課題を有して、る。

[0011] 本発明は、上述の課題を解決するためになされたもので、合成音を生成した際に音質が著しく低下することのない音声合成装置を提供することを第 1の目的とする。

[0012] また、合成音の声質を連続的に変化させることができる音声合成装置を提供することを第 2の目的とする。

課題を解決するための手段

[0013] 前記従来の課題を解決するために、本発明に係る音声合成装置は、所望の声質を有する音声を合成する音声合成装置であって、複数の声質の音声素片を記憶する音声素片記憶手段と、音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、合成音の声質の指定を受付ける声質指定手段と、前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、前記声質変換手段により変換された変換後の音声素片の歪みを判定する歪み判定手段と、前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された音声素片に対応する音声素片情報に修正する目標素片情報修正手段とを備え、前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択することを特徴とする。

[0014] 歪み判定手段が、声質が変換された音声素片の歪みを判定し、歪みが大き!/、場合には、目標素片情報修正手段が音声素片情報を修正し、素片選択手段が修正後の音声素片情報に対応する音声素片をさらに選択している。このため、声質変換手段は、声質指定手段で指定される声質に近い音声素片を元にして、声質変換を行なうことができる。このため、合成音を生成した際に音質が著しく低下することのない音声合成装置を提供することができる。また、音声素片記憶手段は複数の声質の音声素片を記憶しており、そのうちのいずれかの音声素片に基づいて声質変換が行なわれる。このため、編集者が声質指定手段を用いて連続的に声質を変化させたとしても、合成音の声質を連続的に変化させることができる。

[0015] 好ましくは、前記声質変換手段は、さらに、前記修正後の音声素片情報に対応する音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換することを特徴とする。

[0016] この構成によると、再選択後の音声素片に基づいて、声質指定手段により受け付けられた声質を有する音声素片への変換が再度行われる。このため、音声素片の再選択および再変換を繰り返すことにより、合成音の声質を連続的に変化させることができる。また、このように、連続的に声質を変化させているため、音質を劣化させることなぐ声質を大きく変化させることができる。

[0017] 好ましくは、前記目標素片情報修正手段は、さらに、前記目標素片情報生成手段により生成された音声素片情報を修正する際に、前記声質変換手段により変換された音声素片の声道特徴を修正後の音声素片情報に加えることを特徴とする。

[0018] 声道特徴を新たに修正後の音声素片情報に加えることにより、素片選択手段は、指定された声質により近い音声素片を選択することができ、より音質の低下が少なぐかつ指定された声質に近い合成音を生成することができる。

[0019] さらに好ましくは、前記歪み判定手段は、隣接する音声素片間の接続性に基づいて歪みを判定することを特徴とする。

[0020] 隣接する音声素片間の接続性により歪みを判定している。このため、再生した際に滑らかに合成音を得ることができる。

[0021] さらに好ましくは、前記歪み判定手段は、前記素片選択手段により選択された音声素片力も前記声質変換手段により変換された変換後の音声素片への変形率に基づ V、て歪みを判定することを特徴とする。

[0022] 変換前と変換後との音声素片の変形率により歪みを判定している。このため、目標とする声質に最も近い音声素片に基づいて声質変換が行なわれる。よって、音質の低下が少な、合成音を生成することができる。

[0023] さらに好ましくは、前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、前記歪み判定手段において歪みを検出した範囲のみについて、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択することを特徴とする。

[0024] 歪みを検出した範囲のみを再変換の対象としている。このため、音声合成を高速に行なうことができる。また、歪んでいない部分までをも変換の対象としてしまうと、指定された声質とは異なる合成音が得られる場合があるが、この構成ではそのようなことは起こらず、高精度の合成音を得ることができる。

[0025] さらに好ましくは、前記音声素片記憶手段は、標準的な声質の音声素片を記憶する基本音声素片記憶手段と、前記標準的な声質の音声素片とは異なる複数の声質の音声素片を記憶する声質音声素片記憶手段とを有し、前記素片選択手段は、前記目標素片情報生成手段により生成された音声素片情報に対応する音声素片を、前記基本音声素片記憶手段から選択する基本素片選択手段と、前記目標素片情報修正手段により修正された音声素片情報に対応する音声素片を、前記声質音声素片記憶手段力選択する声質素片選択手段とを有することを特徴とする。

[0026] 1回目に選択される音声素片は常に標準的な声質の音声素片である。このため、 1 回目の音声素片の選択を高速に行なうことができる。また、種々の声質の合成音を生成した場合であっても、収束が速い。このため、高速に合成音を得ることができる。さらに、必ず標準的な音声素片を出発点として、その後の音声変換および音声素片の選択を行なっている。このため、編集者が意図しないような音声が合成されるおそれがなぐ高精度に合成音を生成することができる。

[0027] なお、本発明は、このような特徴的な手段を有する音声合成装置として実現することができるだけでなぐ音声合成装置に含まれる特徴的な手段をステップとする音声合成方法として実現したり、音声合成装置に含まれる手段としてコンピュータを機能させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、 C D- ROM (Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

発明の効果

[0028] 本発明の音声合成装置によれば、声質変換時の音声素片の歪みに応じて、音声素片を素片データベース力再選択することにより、合成音の品質を劣化させることなぐ編集者が所望する連続的でかつ広い範囲の声質に変換することができる。図面の簡単な説明

[0029] [図 1]図 1は、本発明の実施の形態 1における声質可変音声合成の構成図である。

[図 2]図 2は、素片選択部の一般的な構成図である。

[図 3]図 3は、声質指定部の一例を示す図である。

[図 4]図 4は、歪み判定部の範囲指定の説明図である。

[図 5]図 5は、声質可変音声合成装置の実行する処理のフローチャートである。

[図 6]図 6は、声質空間における声質変換過程の説明図である。

[図 7]図 7は、本発明の実施の形態 2における声質可変音声合成の構成図である。

[図 8]図 8は、音声素片再選択時の説明図である。

[図 9]図 9は、従来の声質可変音声合成装置の構成図である。

符号の説明 101 テキスト解析部

102 目標素片情報生成部

103 素片データベース

104 素片選択部

105 声質指定部

106 声質変換部

107 波形生成部

108 歪み判定部

109 目標素片情報修正部

201 基本素片データベース

202 声質素片データベース

301 素片候補抽出部

302 探索部

303 コスト計算部

304 目標コスト計算部

305 接続コスト計算部

801 素片保持部

発明を実施するための最良の形態

[0031] 以下本発明の実施の形態について、図面を参照しながら説明する。

(実施の形態 1)

図 1は、本発明の実施の形態 1における声質可変音声合成装置の構成図である。声質可変音声合成装置 100は、編集者が所望する声質を有する音声を合成する装置であり、テキスト解析部 101と、目標素片情報生成部 102と、素片データベース 10 3と、素片選択部 104と、声質指定部 105と、声質変換部 106と、波形生成部 107と、歪み判定部 108と、目標素片情報修正部 109とを備えている。

[0032] テキスト解析部 101は、外部より入力されるテキストを言語的に解析し、形態素情報や音素情報を出力する。目標素片情報生成部 102は、テキスト解析部 101により解析された音素情報を含む言語情報に基づいて、音韻環境、基本周波数、継続時間長、パワーなどの音声素片情報を生成する。素片データベース 103は、予め収録された音声を音素などの単位でラベリングした音声素片を記憶する。

[0033] 素片選択部 104は、目標素片情報生成部 102により生成された目標の音声素片情報に基づいて、素片データベース 103から最適な音声素片を選択する。声質指定部 105は、編集者が所望する合成音の声質を指定を受付ける。声質変換部 106は、声質指定部 105により指定された合成音の声質に合致するように素片選択部 104により選択された音声素片を変換する。

[0034] 波形生成部 107は、声質変換部 106で変換された後の音声素片系列から音声波形を生成し、合成音を出力する。歪み判定部 108は、声質変換部 106により声質を変換された音声素片の歪みを判定する。

[0035] 目標素片情報修正部 109は、歪み判定部 108により判定された音声素片の歪みが所定の閾値を超えた場合に、素片選択部 104が素片選択の際に使用する目標素片の情報を声質変換部 106が変換した後の音声素片の情報に修正する。

[0036] 次に各部の動作について説明する。

<目標素片情報生成部 102>

目標素片情報生成部 102は、テキスト解析部 101から送られる言語情報をもとに、入力されたテキストの韻律情報を予測する。ここで、韻律情報は少なくとも音素単位ごとの継続時間長、基本周波数、パワー情報を含むものである。また、音素単位以外でも、モーラ単位や音節単位ごとに継続時間長、基本周波数、パワー情報を予測するようにしても良い。目標素片情報生成部 102は、どのような方式の予測を行っても良い。例えば、数量化 I類による方法で、予測を行うようにすればよい。

[0037] <素片データベース 103 >

素片データベース 103は、予め収録された音声の素片を記憶する。記憶する形式としては、波形そのものを記憶する方法であっても良いし、音源波情報と声道情報とに分けてそれぞれを記憶する方法であっても良い。また、記憶する音声素片は波形に限られず、再合成可能な分析パラメータを記憶するようにしても良い。

[0038] 素片データベース 103には、音声素片だけではなぐ記憶されている素片を選択する際に使用する特徴が素片単位毎に記憶される。素片単位としては音素や音節、モーラ、形態素、単語などがあるが、特に限定するものではない。

[0039] 素片選択時に使用する特徴としては、基本特徴として、音声素片の前後の音韻環境、基本周波数、継続時間長、パワーなどの情報を記憶する。

[0040] また、詳細特徴として、音声素片のスペクトルの特徴であるフォルマントのパターンや、ケプストラムのパターン、基本周波数の時間的パターン、パワーの時間的パターンなどがある。

[0041] <素片選択部 104 >

素片選択部 104は、目標素片情報生成部 102により生成された情報に基づき素片データベース 103より最適な音声素片系列を選択する。素片選択部 104の具体的構成については特定するものではないが、その一例の構成を図 2に示す。

[0042] 図 1に登場する部分については、その説明を省略する。素片選択部 104は、素片候補抽出部 301と、探索部 302と、コスト計算部 303とを備えている。

[0043] 素片候補抽出部 301は、目標素片情報生成部 102により生成された音声素片情報の中から音韻に関係する項目（例えば音素など）により音声データベース 103より選択の可能性がある候補を抽出する処理部である。探索部 302は、素片候補抽出部 301が抽出した素片候補の中からコスト計算部 303によるコストが最小になる音声素片系列を決定する処理部である。

[0044] コスト計算部 303は、素片候補と目標素片情報生成部 102により生成された音声素片情報との距離を計算する目標コスト計算部 304と、 2つの素片候補を時間的に接続する時の接続性を評価する接続コスト計算部 304とを備えている。

[0045] これら目標コストと接続コストとの和で表されるコスト関数を最小にする音声素片系列を探索部 302により探索することにより、目標とする音声素片情報に類似し、かつ接続が滑らかな合成音を得ることが可能となる。

[0046] <声質指定部 105 >

声質指定部 105は、編集者による所望の合成音の声質を指定を受付ける。指定の具体的指定方法については特に限定するものではないが、その一例を図 3に示す。

[0047] 例えば、図 3に示すように声質指定部 105を GUI (Graphical User Interface) により構成する。合成音の声質として変更可能な基本軸 (例えば、年齢、性別、感情など）に対してスライダーを設け、そのスライダーの位置により各基本軸の制御値を指定する。基本軸の数には特に制限はない。

[0048] <声質変換部 106 >

声質変換部 106は、声質指定部 105により指定された声質に合うように、素片選択部 104により選択された音声素片系列を変換する。変換の方法は特に限定するものではない。

[0049] LPC (Linear Predictive Coefficient)分析による音声合成手法の場合には LPC係数を声質変換ベクトルにより移動させることにより異なる声質の合成音を得る方法がある。例えば声質 Aの LPC係数と声質 Bの LPC係数との差分により、移動ベクトルを作成し、その移動ベクトルによって LPC係数を変換することによって声質変換を実現している。

またはフォルマント周波数を伸縮することにより、声質変換する方法であってもよい

[0050] <波形生成部 107 >

波形生成部 107は、声質変換部 106により変換された音声素片系列を合成し、音声波形を合成する。合成方法は特に限定するものではない。例えば、素片データべース 103が記憶する音声素片が音声波形の場合は波形接続法により合成すればよ V、。または素片データベースが記憶する情報が音源波情報と声道情報とである場合は、ソースフィルタモデルとして再合成すればよい。

[0051] <歪み判定部 108 >

歪み判定部 108は素片探索部 104により選択された音声素片と、声質変換部 106 により声質を変換された後の音声素片とを比較し、声質変換部 106の変形による音声素片の歪みを算出する。歪みを判定する際の範囲は、音素、音節、モーラ、形態素、単語、文節、アクセント句、呼気段落、全文のいずれでも良い。

[0052] 歪みの計算方法は特に限定されるものではないが、音声素片の接続境界での歪みにより計算する方法と、音声素片の変形率により計算する方法とに大別される。その具体例を以下に示す。

1.接続境界の連続性による判定音声素片の接続境界付近では、声質変換部 106の変形により歪みが大きくなる。このような現象は声質変換部 106の声質変換を音声素片ごとに独立して行った場合には顕著に表れる。この歪みにより波形生成部 107により合成音を合成した場合に素片接続点付近で音質が劣化する。そのため、この素片接続点での歪みを判定する。判定方法としては例えば、以下の方法がある。

1. 1ケプストラム距離

素片接続点におけるスペクトルの形状をあらわすケプストラム距離により歪みを判定する。すなわち、接続点の前方素片の最終フレームと接続点の後方素片の先頭フレームとのケプストラム距離を算出する。

1. 2フォルマント距離

素片接続点におけるフォルマントの連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームと、接続点の後方素片の先頭フレームとの各フオルマント周波数の差分を基に距離を算出する。

1. 3 ピッチの連続性

素片接続点における基本周波数の連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームの基本周波数と、接続点の後方素片の先頭フレームの基本周波数との差分を算出する。

1. 4パワーの連続性

素片接続点におけるパワーの連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームのパワーと、接続点の後方素片の先頭フレームのパワーとの差分を算出する。

2.素片変形率による判定

声質変換部 106の変形により、素片選択部 104で選択された音声素片を変形した際に、声質指定部 105により指定された声質が選択時と大きく異なった場合には、声質の変化量が大きくなり、波形生成部 107で合成した際に、音声の品質とくに明瞭度が低下する。そこで、素片選択部 104で選択した音声素片と、声質変換部 106で変換した音声素片とを比較して、その変化量に基づいて歪みを判定する。例えば、以下の方法で判定することが出来る。 2. 1ケプストラム距離

声質変換前の音声素片と声質変換後の音声素片とのケプストラム距離により歪みを判定する。

2. 2フォルマント距離

声質変換前の音声素片と声質変換後の音声素片とのフォルマント周波数の差分に基づく距離により歪みを判定する。

2. 3基本周波数の変形率

声質変換前の音声素片と声質変換後の音声素片との基本周波数の平均値の差分により歪みを判定する。または、基本周波数の時間パターンの差分により歪みを判定する。

2. 4パワーの変形率

声質変換前の音声素片と声質変換後の音声素片とのパワーの平均値の差分により歪みを判定する。または、パワーの時間パターンの差分により歪みを判定する。

[0053] 以上のいずれかの方法により算出された歪みが所定の閾値よりも大きい場合には、歪み判定部 108は、素片選択部 104と、目標素片情報修正部 109とに音声素片の再選択を指示する。

[0054] なお、上記の方法を組み合わせることにより歪みを算出し、該歪みが所定の閾値よりも大きい場合は、歪み判定部 108は、素片選択部 104と、目標素片情報修正部 10 9とに音声素片情報の再選択を指示するようにしてもょヽ。

[0055] <目標素片情報修正部 109 >

歪み判定部 108により音声素片が歪んでいると判定された場合には、目標素片情報修正部 109は、歪み判定部 108により歪んでいると判断された音声素片を修正するために、目標素片情報生成部 102によって生成された目標素片情報を修正する。

[0056] 例えば、図 4の「あらゆる現実を全て自分の方へねじ曲げたのだ。」というテキストに対する歪み判定部 108の動作について説明する。図 4に示すグラフにおいて、横軸方向に音素系列を示している。音素系列中の"' "はアクセント位置を示している。ここで、 "Z"は、アクセント句境界を示し、 "，"はポーズを示す。縦軸は、歪み判定部 108 にお、て計算された音声素片の歪みの度合!/、を示して、る。 [0057] 歪み度の算出は音素毎に行なわれる。また、歪み判定は、音素、音節、モーラ、形態素、単語、文節、アクセント句、フレーズ、呼気段落および全文のいずれかの範囲を単位として行なわれる。歪み判定の範囲が音素よりも広い場合は、範囲に含まれる最大の歪み度、または範囲に含まれる歪み度の平均により当該範囲の歪みが判定される。図 4の例では、例えば、「自分の方へ (jibuNnoho-e)」というアクセント句を判定の範囲とし、範囲内に含まれる音素の歪み度の最大値が所定の閾値を越えているため、該アクセント句を歪んでいると判断している。この場合には、目標素片情報修正部 109は、該当の範囲の目標素片情報を修正する。

[0058] 具体的には、声質変換部 106により変換された音声素片から、その音声素片の基本周波数、継続時間長、パワーを新たな音声素片情報として使用する。

[0059] また、声質変換部 106により、変換された声質が再現できるように、変換後の音声素片の声道情報であるフォルマントパターンゃケプストラムパターンを新たに音声素片情報として追加するようにしても良ヽ。

[0060] さらに、変換後の声道情報だけでなぐ音源波情報としての基本周波数の時間バターンゃパワーの時間パターンを音声素片情報に追加するようにしても良い。

[0061] このように、第 1回目の素片選択では設定できな力つた声質に関する音声素片情報を設定することにより、現在設定している声質に近い音声素片を再選択時に指定することが可能になる。

[0062] 次に実際に動作する時の様子を入力テキストとして「明日の天気は晴れです。」と入力された場合の動作例を用いて説明する。テキスト解析部 101は言語的な解析を行なう。その結果として、例えば「ashitanoZteNkiwaZharedesu.」というような音素系列を出力する。（スラッシュ記号はアクセント句の区切りを表す。 )

[0063] 目標素片情報生成部 102は、テキスト解析部 101の解析結果をもとに各音素の音韻環境、基本周波数、継続時間、パワーなどの目標となる音声素片情報を決定する。例えば、文頭の「a」についての音声素片情報としては、音韻環境は「" a + sh」 ( Γ は、前の音素が文頭であることを示し、「 + sh」は、後の音素が shであることを示す。）であり、基本周波数は 120Hzであり、継続時間は 60msであり、パワーは 200であると、うような情報を出力する。 [0064] 素片選択部 104は目標素片情報生成部 102により出力される目標素片情報に最適な音声素片を素片データベース 103より選択する。具体的には素片候補抽出部 3 01が音声データベース 103より、音声素片情報の音韻環境が適合する音声素片を素片選択の候補として抽出する。探索部 302は素片候補抽出部 301が抽出した素片候補力コスト計算部 303によるコスト値が最小になる素片候補をビタビアルゴリズムなどを用いて決定する。コスト計算部 303は、上述のように目標コスト計算部 304と接続コスト計算部 305からなる。目標コスト計算部 304は、例えば、前述の音声素片情報の「a」と、候補の音声素片情報を比較して、一致度を計算する。例えば、候補素片の音声素片情報が音韻情報が「" a+k」、基本周波数が 110Hz、継続時間が 5 Oms、パワーが 200である場合、各音声素片情報についてその一致度を計算しそれぞれの一致度を統合した数値を目標コスト値として出力する。接続コスト計算部 305 は、隣接する 2つの音声素片、前述の例では、「a」と「sh」の 2つの音声素片を接続した際の接続性を評価し、接続コスト値として出力する。評価方法としては、例えば「a」の終端部と「sh」の始端部とのケプストラム距離で評価することができる。

[0065] 編集者は、図 3に示されるような声質指定部 105の GUIを用いて、所望の声質の指定を行なう。ここでは、年齢がやや老人に近ぐ性別が女性に近ぐ性格がやや暗ぐ機嫌はほぼ普通である声質を指定して、る。

[0066] 声質変換部 106は、声質指定部 105を用いて指定された声質に音声素片の声質を変換する。

[0067] このとき、初期選択時に素片選択部 104により選択された音声素片の声質と、声質指定部 105により指定された声質とが大きく異なる場合には、声質変換部 106により修正される音声素片の変化量が大きくなり、声質が所望の声質であっても、合成音の品質、例えば明瞭度などが著しく劣化してしまう。そこで、歪み判定部 108は、例えば「a」と「sh」の接続性や、素片データベース力選択された音声素片「a」と、声質変換部 106により声質変換された後の音声素片「a」の素片の変形率 (例えば素片間のケプストラム距離）によって、合成音の音質劣化が予想される場合には、素片データべース 103より声質指定部 105により指定されている現在の声質に最適な音声素片を再選択することを行う。なお、歪みの判定方法は、この方法には限られない。 [0068] 再選択を行う際には、目標素片情報修正部 109が、修正後の音声素片「a」の音声素片情報、例えば基本周波数は 110Hz、継続時間は 85ms、パワーは 300というように変更する。また、声質変換後の音声素片「a」の声道特徴を表すケプストラム係数や、フォルマント軌跡を新たに追加する。これにより、入力テキストからは推定不可能な声質の情報を素片選択時に考慮することが可能となる。

[0069] 素片選択部 104は目標素片情報修正部 109により修正された音声素片情報に基づき素片データベース 103から最適な音声素片系列を再選択する。

[0070] このように歪みを検出した素片のみ再選択を行うことにより、再選択を行ったときの音声素片の声質は選択を行う以前の音声素片の声質に近いものを得ることが可能である。したがって、図 3のような GUIを用いて段階的に所望の声質を編集している際には、前記指定した声質の合成音の声質に近い声質の素片を選択できる。したがつて、声質を連続的に変化させた編集を行うことが可能となり、編集者の直感にあった合成音を編集することが可能となる。

[0071] この時、目標コスト計算部 304は初期選択の時には考慮しな力つた、声道特徴の一致度も考慮して目標コストを算出する。具体的には、目標素片「a」と素片候補「a」との間のケプストラム距離またはフォルマント距離を算出する。これにより、現在の声質に類似し、かつ、変形量が少なく音質の高い音声素片を選択することが可能になる。

[0072] 以上のように、声質変換部 106での変化量が小さい音声素片を再選択することにより、声質指定部 105により、編集者が合成音の声質を逐次変更した場合にも、常に最適な音声素片に基づいて声質変換部 106が声質変換を行うことができる。このため、高音質で、かつ声質の変化の幅が大き!、声質可変音声合成が可能となる。

[0073] 次に、編集者が所望の声質の音声を合成する際に声質可変音声合成装置 100において実行される処理について説明する。図 5は、声質可変音声合成装置 100の実行する処理のフローチャートである。

[0074] テキスト解析部 101は、入力されたテキストを言語的に解析する（Sl)。目標素片情報生成部 102は、テキスト解析部 101において解析された言語情報をもとに、各音声素片の基本周波数や継続時間長といった音声素片情報を生成する (S2)。

[0075] 素片選択部 104は、素片情報生成処理 (S2)で生成された音声素片情報に最も合致する音声素片系列を素片データベース 103から選択する（S3)。

[0076] 次に、編集者が図 3に示すような GUI力もなる声質指定部

105により、声質を指定すると、声質変換部 106は、指定された情報に基づいて、音声素片系列選択処理 (S3)で選択された音声素片系列の声質を変換する（S4)。

[0077] 歪み判定部 108は、声質変換処理 (S4)において声質変換された音声素片系列が歪んでいる力否かを判断する（S5)。具体的には、上述したいずれかの方法により音声素片系列に歪みを計算し、当該ひずみが所定の閾値よりも大きければ、音声素片系列が歪んで!/、ると判断する。

[0078] 音声素片系列が歪んで!/、ると判断した場合には (S5で YES)、目標素片情報修正部 109は、目標素片情報生成部 102で生成された音声素片情報を、現在の声質にあわせた音声素片情報に修正する（S6)。次に、素片選択部 104は、素片情報修正処理 (S6)において修正された音声素片情報を目標とし、素片データベース 103から音声素片を再選択する (S7)。

[0079] 歪みがないと判断された場合 (S5で NO)、または音声素片が再選択された後（S7

)、波形生成部 107は、選択された音声素片により音声を合成する（S8)。

[0080] 編集者は、合成音声を聴取し、所望の声質であるかどうかを判断する (S9)。所望の声質である場合には（S9で YES)、処理を終了する。所望の声質でなかった場合には（S9で NO)、声質変換処理 (S4)に戻る。

[0081] 声質変換処理 (S4)力声質判断処理 (S9)までを繰り返すことにより、編集者は所望の声質の音声を合成することが可能となる。

[0082] 次に、編集者が「あらゆる現実を全て自分の方へねじ曲げたのだ。」というテキストに対する「男性的で明るい声質」の合成音を所望した場合の動作について、図 5に示したフローチャートに従い説明する。

[0083] テキスト解析部 101は形態素解析、読みの決定、文節の決定、係り受け解析などを

？丁なつ (siノ。その結果、「arayu ru/genjitsuo,su bete/jibuNno/ho— e'nejimageta nodajと、う音素系列が得られる。

[0084] 目標素片情報生成部 102は、各音素「_&」」，「&」」などそれぞれに対して、音韻環境や基本周波数、継続時間長、パワーなどといった各音素の特徴を生成する（S2 ) o

[0085] 素片選択部 104は、素片情報生成処理 (S2)で生成された音声素片情報に基づいて素片データベース 103から最適な音声素片系列を選択する（S3)。

[0086] 編集者が、図 3に示すような声質指定部 105を用いて目標の声質を指定する。例えば、性別の軸を男性側に移動させ、性格の軸を明るい側に移動させたとする。すると、声質変換部 106は、声質指定部 105に基づいて音声素片系列の声質を変換する（ S4)。

[0087] 歪み判定部 108は、声質変換処理 (S4)において声質変換された音声素片系列が歪んでいる力否かを判断する（S5)。例えば、歪み判定部 108において、図 4に示すように歪みが検出された場合には（S5で YES)、音声素片情報修正処理 (S6)へ遷移する。または、図 4に示すように歪みが所定の閾値を超えな力つた場合には（S5で NO)、波形生成処理 (S8)へ遷移する。

[0088] 音声素片情報修正処理 (S6)では、目標素片情報修正部 109が、声質変換処理（ S4)において声質変換された音声素片の音声素片情報を抽出し、音声素片情報を修正する。図 4の例では、歪みが閾値を超えたアクセント句である「自分の方へ」が再選択の範囲として指定され、音声素片情報が修正される。

[0089] 素片選択部 104は、音声素片情報修正処理 (S6)により修正された目標素片情報に最も合致する音声素片系列を、素片データベース 103から再選択する（S7)。その後、波形生成部 107は、声質変換された音声素片系列から音声波形を生成する。

[0090] 編集者は、生成された音声波形を聴取し、目標の声質になっている力否かを判断する（S9)。目標の声質になっていな力つた場合 (S9で NO)、例えば、「もう少し男性的な声」にしたい場合は、声質変換処理 (S4)に遷移し、編集者が、図 3に示すような声質指定部 105の性別軸をさらに男性側にずらす。

[0091] 以上の声質変換処理 (S4)から声質判断処理 (S9)までを繰り返すことにより、編集者が所望する「男性的で明るい声質」の合成音を、合成音の品質を劣化させることなぐかつ連続的な声質変化で徐々に変換することが可能となる。

[0092] 図 6は、本発明における効果のイメージ図を示す。図 6は声質空間を表している。声質 701は、初期選択時に選択された素片系列の声質を示す。範囲 702は、声質 701 に対応する音声素片をもとに歪み判定部 108により歪みが検出されずに声質変換できる声質の範囲を示す。仮に、編集者が声質指定部 105を用いて声質 703を指定した場合には、歪み判定部 108により歪みが検出される。このため、素片選択部 104は、声質 703に近い音声素片系列を素片データベース 103より再選択する。これにより、声質 703に近い声質 704を持つ音声素片系列を選択することができる。また、声質 704を有する音声素片系列力も歪み判定部 108により歪みを検出せずに声質を変換できる範囲は範囲 705の内部である。このため、さらに声質 704の音声素片系列をもとに声質を変換することにより、従来歪みなく声質変換できな力た声質 706の声質へ声質変換を行うことが可能になる。このように、声質指定部 105により指定する声質を段階的に指定していくことにより、編集者が所望する声質の音声を合成することが可能になる。

[0093] 力かる構成によれば、歪み判定部 108で所定の閾値以上の歪みを検出した場合には、目標素片情報修正部 109により音声素片情報を修正し、素片選択部 104により音声素片を再選択することにより、声質指定部 105により指定されている声質に合つた音声素片を素片データベース 103により再選択することができる。このため、例えば、図 6に示す声質空間において、編集者が声質 703の音声の合成を所望した場合には、初期選択された声質 701の音声素片系列から声質 703への声質変換が行われるのではなぐ声質 703に最も近い声質 704の音声素片系列から声質 703への声質変換が行われることになる。このように、常に最適な音声素片系列に基づいて声質変換が行われるため、歪みがなく音質が良好な音声合成を行うことができる。

[0094] また、編集者が声質指定部 105を用いて所望する声質を指定しなおした場合には、図 5のフローチャートにおいて、音声素片の初期選択処理 (S3)力処理が再開されるのではなぐ声質変換処理 (S4)から処理が再開される。このため、例えば、図 6 の声質空間において編集者が所望する声質を声質 703から声質 706に指定しなおした場合には、再度、声質 701の音声素片系列力もの声質変換が行われるのではなぐ声質 703への声質変換時に用いられた声質 704の音声素片系列に基づいて、声質変換が行われる。仮に、音声素片の初期選択処理 (S3)から処理が再開されるものとすると、編集者が所望する声質を徐々に指定しなおす場合に、指定しなおされた声質が指定しなおされる前の声質と声質空間上で近いにも関わらず、全く異なつた声質の音声素片系列力指定しなおされた声質への声質変換が行われる場合がある。このため、編集者が所望する声質の音声がな力なか得られない場合がある。しかし、本実施の形態の手法によると、声質が指定しなおされた場合であっても、声質変換に用いられる音声素片系列は、声質変換後の音声素片系列が歪みを起こすことがなければ、その前の声質変換に用いられた音声素片系列と同じである。このため、合成音の声質を連続的に変化させることができる。また、このように、連続的に声質を変化させているため、音質を劣化させることなぐ声質を大きく変化させることができる。

[0095] (実施の形態 2)

図 7は、本発明の実施の形態 2における声質可変音声合成装置の構成図である。図 7において、図 1と同じ構成要素については同じ符号を用い、説明を省略する。

[0096] 図 7に示される声質可変音声合成装置 200は、図 1に示される声質可変音声合成装置 100と異なり、素片データベース 103の代わりに、基本素片データベース 201および声質素片データベース 202を用いたものである。

[0097] 基本素片データベース 201は、声質指定部 105により如何なる声質をも指定されな力つた場合のニュートラルな声質を合成する為の音声素片を記憶する記憶部である

。声質素片データベース 202は声質指定部 105により指定された声質を合成することが可能な豊富な声質のノリエ一ショがある音声素片を記憶するように構成している点が実施の形態 1と異なる。

[0098] 本実施の形態では、入力されたテキストに対する最初の音声素片の選択は、目標素片情報生成部 102が生成する音声素片情報に基づいて基本素片データベース 2

01より素片選択部 104が最適な音声素片を選択する。

[0099] 声質指定部 105により指定された声質に声質変換部 106が音声素片の声質を変換することにより、歪み判定部 108が歪みを検出し、目標素片情報修正部 109が音声素片情報を修正して、素片選択部 104が音声素片を再選択する場合には、声質素片データベース 202より修正された音声素片情報に最適な音声素片系列を再選択する。 [0100] 力かる構成によれば、声質指定部 105により声質を指定される前の-ユートラルな声質の合成音を生成する際には、素片選択部 104はニュートラルな声質の音声素片のみから構成される基本素片データベースのみから音声素片を選択するため、素片探索に必要な時間を短縮することができ、かつ精度良く-ユートラルの声質の合成音を生成することが可能となる。

[0101] 以上、本発明に係る声質可変音声合成装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。

[0102] 例えば、図 8に示すように、図 7に示した声質可変音声合成装置 200に素片保持部 801を設け、声質可変音声合成装置 800を構成してもよい。素片保持部 801は、素片選択部 104が選択した素片系列の識別子を保持する。目標素片情報修正部 109 により修正された音声素片情報に基づいて、素片選択部 104が素片データベース 1 03から再選択を行う際には、歪み判定部 108により、音声素片が歪んでいると判断された範囲のみを再選択する。すなわち、素片選択部 104は、歪んでいないと判断された範囲の音声素片については、素片保持部 801により保持されている識別子を用いて前回の素片選択の際に選択された素片と同一の素片を使用するように構成しても良い。

[0103] なお、素片保持部 801は識別子ではなぐ素片そのものを保持しても良い。

また、再選択の範囲は、音素、音節、形態素、単語、文節、アクセント句、呼気段落、全文のいずれでも良い。

産業上の利用可能性

[0104] 本発明にかかる声質可変音声合成装置は、合成音の声質を大きく変化させた場合にお、ても合成音の音質を低下させずに声質変換を行う機能を有し、エンターティメントゃ音声対話システムの応答音声を生成する音声合成装置等として有用である。

Claims

請求の範囲

[1] 所望の声質を有する音声を合成する音声合成装置であって、

複数の声質の音声素片を記憶する音声素片記憶手段と、

音素情報を含む言語情報に基づ!/、て、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、

前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、

合成音の声質の指定を受付ける声質指定手段と、

前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、

前記声質変換手段により変換された変換後の音声素片の歪みを判定する歪み判定手段と、

前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された音声素片に対応する音声素片情報に修正する目標素片情報修正手段とを備え、

前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する

ことを特徴とする音声合成装置。

[2] 前記声質変換手段は、さらに、前記修正後の音声素片情報に対応する音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換することを特徴とする請求項 1に記載の音声合成装置。

[3] 前記目標素片情報修正手段は、さらに、前記目標素片情報生成手段により生成された音声素片情報を修正する際に、前記声質変換手段により変換された音声素片の声道特徴を修正後の音声素片情報に加える

ことを特徴とする請求項 1に記載の音声合成装置。

[4] 前記声道特徴は、前記声質変換手段により変換された音声素片のケプストラム係数またはケプトラム係数の時間パターンである

ことを特徴とする請求項 3に記載の音声合成装置。

[5] 前記声道特徴は、前記声質変換手段により変換された音声素片のフォルマント周波数またはフォルマント周波数の時間パターンである

ことを特徴とする請求項 3に記載の音声合成装置。

[6] 前記歪み判定手段は、隣接する音声素片間の接続性に基づ、て歪みを判定することを特徴とする請求項 1に記載の音声合成装置。

[7] 前記歪み判定手段は、隣接する音声素片間のケプストラム距離、隣接する音声素片間のフォルマント周波数の距離、隣接する音声素片間の基本周波数の差分、または隣接する音声素片間のパワーの差分に基づいて歪みを判定する

ことを特徴とする請求項 6に記載の音声合成装置。

[8] 前記歪み判定手段は、前記素片選択手段により選択された音声素片から前記声質変換手段により変換された変換後の音声素片への変形率に基づいて歪みを判定する

ことを特徴とする請求項 1に記載の音声合成装置。

[9] 前記歪み判定手段は、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のケプストラム距離、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のフォルマント周波数の距離、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間の基本周波数の差分、または前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のパワーの差分に基づ、て歪みを判定する

ことを特徴とする請求項 8に記載の音声合成装置。

[10] 前記歪み判定手段は、音素、音節、モーラ、形態素、単語、文節、アクセント句、フレーズ、呼気段落および全文のヽずれかを単位として歪みを判定する

ことを特徴とする請求項 1に記載の音声合成装置。

[11] 前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、前記歪み判定手段において歪みを検出した範囲のみについて、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択することを特徴とする請求項 1に記載の音声合成装置。

[12] さらに、前記素片選択手段により選択された音声素片の識別子を保持する素片保持手段を備え、

前記素片選択手段は、前記歪み判定手段において歪みが検出されな力つた範囲の音声素片については、前記素片保持手段に保持された前記識別子に基づいて前記音声素片を選択する

ことを特徴とする請求項 11に記載の音声合成装置。

[13] 前記音声素片記憶手段は、

標準的な声質の音声素片を記憶する基本音声素片記憶手段と、

前記標準的な声質の音声素片とは異なる複数の声質の音声素片を記憶する声質音声素片記憶手段とを有し、

前記素片選択手段は、

前記目標素片情報生成手段により生成された音声素片情報に対応する音声素片を、前記基本音声素片記憶手段から選択する基本素片選択手段と、

前記目標素片情報修正手段により修正された音声素片情報に対応する音声素片を、前記声質音声素片記憶手段から選択する声質素片選択手段とを有することを特徴とする請求項 1に記載の音声合成装置。

[14] 複数の声質の音声素片を記憶する音声素片記憶手段を備える音声合成装置における音声合成方法であって、

音素情報を含む言語情報に基づ!、て、当該言語情報に対応する音声素片情報を生成する目標素片情報生成ステップと、

前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択ステップと、

合成音の声質の指定を受付ける声質指定ステップと、

前記素片選択ステップにお、て選択された音声素片を、前記声質指定ステップにおいて受付けられた声質を有する音声素片に変換する声質変換ステップと、前記声質変換ステップにおいて変換された変換後の音声素片の歪みを判定する歪み判定ステップと、前記歪み判定手段において変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成ステップにお!、て生成された音声素片情報を前記声質変換ステップにおいて変換された音声素片に対応する音声素片情報に修正する目標素片情報修正ステップとを含み、

前記素片選択ステップでは、前記目標素片情報修正ステップにお、て音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する

ことを特徴とする音声合成方法。

コンピュータを音声合成装置として機能させるためのプログラムであって、前記コンピュータは、複数の声質の音声素片を記憶する音声素片記憶手段を備え前記プログラムは、

音素情報を含む言語情報に基づ!、て、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、

合成音の声質の指定を受付ける声質指定手段と、

前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された音声素片に対応する音声素片情報に修正する目標素片情報修正手段としてコンピュータを機能させ、

前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択することを特徴とするプログラム。

コンピュータが実行するプログラムを記録したコンピュータ読取可能な記録媒体であって、

前記コンピュータは、複数の声質の音声素片を記憶する音声素片記憶手段を備え前記プログラムは、

合成音の声質の指定を受付ける声質指定手段と、

ことを特徴とするコンピュータ読取可能な記録媒体。