WO2005071664A1

WO2005071664A1 - 音声合成装置

Info

Publication number: WO2005071664A1
Application number: PCT/JP2005/000505
Authority: WO
Inventors: Natsuki Saito; Takahiro Kamai; Yumiko Kato
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-01-27
Filing date: 2005-01-17
Publication date: 2005-08-04
Also published as: CN1914666B; US20070156408A1; CN1914666A; JP3895758B2; JPWO2005071664A1; US7571099B2

Abstract

　声質の自由度が広く良い音質の合成音声をテキストデータから生成する音声合成装置を提供する。　音声合成装置は、音声合成ＤＢ（１０１ａ，１０１ｚ）と、テキスト（１０）を取得するとともに、音声合成ＤＢ（１０１ａ）から、テキスト（１０）に含まれる文字に対応した声質Ａの音声合成パラメタ値列（１１）を生成する音声合成部（１０３）と、音声合成ＤＢ（１０１ｚ）から、テキスト（１０）に含まれる文字に対応した声質Ｚの音声合成パラメタ値列（１１）を生成する音声合成部（１０３）と、声質Ａ及び声質Ｚの音声合成パラメタ値列（１１）から、テキスト（１０）に含まれる文字に対応した、声質Ａ及び声質Ｚの中間的な声質の合成音声を示す中間的音声合成パラメタ値列（１３）を生成する音声モーフィング部（１０５）と、生成された中間的音声合成パラメタ値列（１３）をその合成音声に変換して出力するスピーカ（１０７）とを備える。

Description

明細書

音声合成装置

技術分野

[0001] 本発明は、合成音声を生成して出力する音声合成装置に関する。

背景技術

[0002] 従来より、所望の合成音声を生成して出力する音声合成装置が提供されている (例えば、特許文献 1、特許文献 2、及び特許文献 3参照。 )₀

[0003] 特許文献 1の音声合成装置は、それぞれ声質の異なる複数の音声素片データべースを備え、これらの音声素片データベースを切り替えて用いることにより、所望の合成音声を生成して出力する。

[0004] また、特許文献 2の音声合成装置 (音声変形装置)は、音声分析結果のスペクトルを変換することにより、所望の合成音声を生成して出力する。

[0005] また、特許文献 3の音声合成装置は、複数の波形データをモーフイング処理することにより、所望の合成音声を生成して出力する。

特許文献 1：特開平 7-319495号公報

特許文献 2：特開 2000— 330582号公報

特許文献 3：特開平 9- 50295号公報

発明の開示

発明が解決しょうとする課題

[0006] しかしながら、上記特許文献 1及び特許文献 2並びに特許文献 3の音声合成装置では、声質変換の自由度が狭力つたり、音質の調整が非常に困難であるという問題がある。

[0007] 即ち、特許文献 1では、合成音声の声質が予め設定された声質に限られ、その予め設定された声質間の連続的な変化を表現することができない。

[0008] また、特許文献 2では、スペクトルのダイナミックレンジを大きくしてしまうと音質に破綻が生じてしまい、良い音質を維持するのが困難となる。

[0009] さらに、特許文献 3では、複数の波形データの互いに対応する部位 (例えば波形のピーク）を特定して、その部位を基準にモーフイング処理を行うが、その部位を誤って特定してしまうことがある。その結果、生成された合成音声の音質が悪くなつてしまうそこで、本発明は、このような問題に鑑みてなされたものであって、声質の自由度が広く良ヽ音質の合成音声をテキストデータカゝら生成する音声合成装置を提供することを目的とする。

課題を解決するための手段

[0010] 上記目的を達成するために、本発明に係る音声合成装置は、第 1の声質に属する複数の音声素片に関する第 1の音声素片情報、及び前記第 1の声質と異なる第 2の声質に属する複数の音声素片に関する第 2の音声素片情報を予め記憶している記憶手段と、テキストデータを取得するとともに、前記記憶手段の第 1の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 1の声質の合成音声を示す第 1の合成音声情報を生成し、前記記憶手段の第 2の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 2の声質の合成音声を示す第 2の合成音声情報を生成する音声情報生成手段と、前記音声情報生成手段により生成された前記第 1及び第 2の合成音声情報から、前記テキストデータに含まれる文字に対応した、前記第 1及び第 2の声質の中間的な声質の合成音声を示す中間合成音声情報を生成するモーフイング手段と、前記モーフイング手段によって生成された前記中間合成音声情報を前記中間的な声質の合成音声に変換して出力する音声出力手段とを備え、前記音声情報生成手段は、前記第 1及び第 2の合成音声情報をそれぞれ複数の特徴パラメタの列として生成し、前記モーフイング手段は、前記第 1及び第 2の合成音声情報の互、に対応する特徴パラメタの中間値を計算することで、前記中間合成音声情報を生成することを特徴とする。

[0011] これにより、第 1の声質に対する第 1の音声素片情報、及び第 2の声質に対する第 2 の音声素片情報だけを記憶手段に予め記憶させておけば、第 1及び第 2の声質の中間的な声質の合成音声が出力されるため、記憶手段に予め記憶させておく内容の声質に限定されずに声質の自由度を広めることができる。また、第 1及び第 2の声質を有する第 1及び第 2の合成音声情報を基礎に中間合成音声情報が生成されるため、従来例のようにスペクトルのダイナミックレンジを大きくしすぎるような処理がなされず、合成音声の音質を良い状態に維持することができる。また、本発明に係る音声合成装置は、テキストデータを取得して、そこに含まれる文字列に応じた合成音声を出力するため、ユーザに対する使い勝手を向上することができる。さらに、本発明に係る音声合成装置は、第 1及び第 2の合成音声情報の互いに対応する特徴パラメタの中間値を計算して中間合成音声情報を生成するため、従来例のように 2つのスぺタトルをモーフイング処理する場合と比べて、基準とする部位を誤って特定してしまうことなぐ合成音声の音質を良くすることができ、さらに、計算量を軽減することができる。

[0012] ここで、前記モーフイング手段は、前記音声出力手段から出力される合成音声の声質がその出力中に連続的に変化するように、前記第 1及び第 2の合成音声情報の前記中間合成音声情報に対して寄与する割合を変化させることを特徴としても良い。

[0013] これにより、合成音声の出力中にその合成音声の声質が連続的に変化するため、例えば、平常声力怒り声に連続的に変化するような合成音声を出力することができる。

[0014] また、前記記憶手段は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声素片における基準を示す内容の特徴情報を、前記第 1及び第 2の音声素片情報のそれぞれに含めて記憶しており、前記音声情報生成手段は、前記第 1及び第 2の合成音声情報を、それぞれに前記特徴情報を含めて生成し、前記モーフイング手段は、前記第 1及び第 2の合成音声情報を、それぞれに含まれる前記特徴情報によって示される基準を用いて整合した上で前記中間合成音声情報を生成することを特徴としても良い。例えば、前記基準は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声素片の音響的特徴の変化点である。また、前記音響的特徴の変化点は、前記第 1及び第 2の音声素片情報のそれぞれに示される各音声素片を HMM (Hidden Markov Model)で表した最尤経路上の状態遷移点であって、前記モーフイング手段は、前記第 1及び第 2の合成音声情報を、前記状態遷移点を用 V、て時間軸上で整合した上で前記中間合成音声情報を生成する。

[0015] これにより、モーフイング手段による中間合成音声情報の生成に、第 1及び第 2の合成音声情報が上述の基準を用いて整合されるため、例えば第 1及び第 2の合成音声情報をパターンマッチングなどによって整合するような場合と比べ、迅速に整合を図つて中間合成音声情報を生成することができ、その結果、処理速度を向上することができる。また、その基準を HMM (Hidden Markov Model)で表した最尤経路上の状態遷移点とすることで、第 1及び第 2の合成音声情報を時間軸上で正確に整合させることがでさる。

[0016] また、前記音声合成装置は、さらに、前記第 1の声質に対応する画像を示す第 1の画像情報、及び前記第 2の声質に対応する画像を示す第 2の画像情報を予め記憶している画像記憶手段と、前記第 1及び第 2の画像情報のそれぞれにより示される画像の中間的な画像であって、前記中間合成音声情報の声質に対応する画像を示す中間画像情報を、前記第 1及び第 2の画像情報から生成する画像モーフイング手段と、前記画像モーフイング手段により生成された中間画像情報を取得して、前記中間画像情報により示される画像を、前記音声出力手段力も出力される合成音声に同期させて表示する表示手段とを備えることを特徴としても良い。例えば、前記第 1の画像情報は前記第 1の声質に対応する顔画像を示し、前記第 2の画像情報は前記第 2の声質に対応する顔画像を示す。

[0017] これにより、第 1及び第 2の声質の中間的な声質に対応する顔画像が、その中間的な声質の合成音声の出力と同期して表示されるため、合成音声の声質を顔画像の表情からもユーザに伝えることができ、表現力の向上を図ることができる。

[0018] ここで、前記音声情報生成手段は、前記第 1及び第 2の合成音声情報のそれぞれを順次生成することを特徴としても良い。

[0019] これにより、音声情報生成手段の単位時間あたりの処理負担を軽減することができ、音声情報生成手段の構成を簡単にすることができる。その結果、装置全体を小型化することができるとともに、コスト低減を図ることができる。

[0020] また、前記音声情報生成手段は、前記第 1及び第 2の合成音声情報のそれぞれを並列に生成することを特徴としても良、。

[0021] これにより、第 1及び第 2の合成音声情報を迅速に生成することができ、その結果、テキストデータの取得力も合成音声の出力までの時間を短縮することができる。

[0022] なお、本発明は、上述の音声合成装置の合成音声を生成して出力する方法やプログラム、そのプログラムを格納する記憶媒体としても実現することができる。

発明の効果

[0023] 本発明の音声合成装置では、声質の自由度が広く良い音質の合成音声をテキストデータ力生成することができるという効果を奏する。

図面の簡単な説明

[0024] [図 1]図 1は、本発明の実施の形態 1に係る音声合成装置の構成を示す構成図である。

[図 2]図 2は、同上の音声合成部の動作を説明するための説明図である。

[図 3]図 3は、同上の声質指定部のディスプレイが表示する画面の一例を示す画面表示図である。

[図 4]図 4は、同上の声質指定部のディスプレイが表示する他の画面の一例を示す画面表示図である。

[図 5]図 5は、同上の音声モーフイング部の処理動作を説明するための説明図である

[図 6]図 6は、同上の音声素片と HMM音素モデルの一例を示す例示図である。

[図 7]図 7は、同上の変形例に係る音声合成装置の構成を示す構成図である。

[図 8]図 8は、本発明の実施の形態 2に係る音声合成装置の構成を示す構成図である。

[図 9]図 9は、同上の音声モーフイング部の処理動作を説明するための説明図である

[図 10]図 10は、同上の声質 A及び声質 Zの合成音スペクトルと、それらに対応する短時間フーリエスペクトルとを示す図である。

[図 11]図 11は、同上のスペクトルモーフイング部が両短時間フーリエスペクトルを周波数軸上で伸縮する様子を説明するための説明図である。

[図 12]図 12は、同上のパワーが変換された 2つの短時間フーリエスペクトルを重ね合わせる様子を説明するための説明図である。

[図 13]図 13は、本発明の実施の形態 3に係る音声合成装置の構成を示す構成図である。 [図 14]図 14は、同上の音声モーフイング部の処理動作を説明するための説明図である。

[図 15]図 15は、本発明の実施の形態 4に係る音声合成装置の構成を示す構成図である。

[図 16]図 16は、同上の音声合成装置の動作を説明するための説明図である。

符号の説明

10 テキスト

10a 音素情報

11 音声合成パラメタ値列

12 中間的合成音波形データ

12p 中間的顔画像データ

13 中間的音声合成パラメタ値列

30 音声素片

31 音素モデル

32 最尤パスの形状

41 合成音スぺ外ル

42 中間的合成音スペクトル

50 フォルマント形状

50a, 50b 周波数

51 フーリエスペクトル分析窓

61 合成音波形データ

101a一 ΙΟΙζ 音声合成 DB

103 音声合成部

103a 言語処理部

103b 素片結合部

104 声質指定部

104A, 104B, 104Z 声質アイコン

1041 指定アイコン 105 音声モーフイング部

105a パラメタ中間値計算部

105b 波形生成部

106 中間的合成音波形データ

107 スピーカ

203 音声合成部

201a— 201z 音声合成 DB

205 音声モーフイング部

205a スペクトルモーフイング部

205b 波形生成部

303 音声合成部

301a— 301z 音声合成 DB

305 音声モーフイング部

305a 波形編集部

40 la— 401 z 画像 DB

405 画像モーフイング部

407 表示部

P1— P3 顔画像

発明を実施するための最良の形態

[0026] 以下、本発明の実施の形態について図面を用いて詳細に説明する。

(実施の形態 1)

図 1は、本発明の実施の形態 1に係る音声合成装置の構成を示す構成図である。

[0027] 本実施の形態の音声合成装置は、声質の自由度が広く良い音質の合成音声をテキストデータ力生成するものであって、複数の音声素片 (音素）に関する音声素片データを蓄積する複数の音声合成 DBlOla— ΙΟΙζと、 1つの音声合成 DBに蓄積された音声素片データを用いることにより、テキスト 10に示される文字列に対応する音声合成パラメタ値列 11を生成する複数の音声合成部 (音声情報生成手段） 103と、ユーザによる操作に基づいて声質を指定する声質指定部 104と、複数の音声合成部 103により生成された音声合成パラメタ値列 11を用いて音声モーフイング処理を行い、中間的合成音波形データ 12を出力する音声モーフイング部 105と、中間的合成音波形データ 12に基づいて合成音声を出力するスピーカ 107とを備えている。

[0028] 音声合成 DBlOla— ΙΟΙζのそれぞれが蓄積する音声素片データの示す声質は異なっている。例えば、音声合成 DBlOlaには、笑っている声質の音声素片データが蓄積され、音声合成 DBlOlzには、怒っている声質の音声素片データが蓄積されている。また、本実施の形態における音声素片データは、音声生成モデルの特徴パラメタ値列の形式で表現されている。さらに、蓄積される各音声素片データには、これらのデータにより示される各音声素片の開始及び終了の時刻と、音響的特徴の変化点の時刻とを示すラベル情報が付されている。

[0029] 複数の音声合成部 103は、それぞれ上述の音声合成 DBと一対一に対応付けられている。このような音声合成部 103の動作について図 2を参照して説明する。

[0030] 図 2は、音声合成部 103の動作を説明するための説明図である。

音声合成部 103は、図 2に示すように、言語処理部 103aと素片結合部 103bとを備えている。

[0031] 言語処理部 103aは、テキスト 10を取得して、テキスト 10に示される文字列を音素情報 10aに変換する。音素情報 10aは、テキスト 10に示される文字列が音素列の形で表現されたもので、他にアクセント位置情報や音素継続長情報など、素片選択'結合 ·変形に必要な情報を含んでもょ、。

[0032] 素片結合部 103bは、対応付けられた音声合成 DBの音声素片データから適切な音声素片に関する部分を抜き出して、抜き出した部分の結合と変形を行うことにより、言語処理部 103aにより出力される音素情報 10aに対応する音声合成パラメタ値列 1 1を生成する。音声合成パラメタ値列 11は、実際の音声波形を生成するために必要となる十分な情報を含んだ複数の特徴パラメタの値が配列されたものである。例えば、音声合成パラメタ値列 11は、時系列に沿った各音声分析合成フレームごとに、図 2 に示すような、 5つの特徴パラメタを含んで構成される。 5つの特徴パラメタとは、音声の基本周波数 F0と、第一フォルマント F1と、第二フォルマント F2と、音声分析合成フレーム継続長 FRと、音源強度 PWとである。また、上述のように音声素片データにはラベル情報が付されてヽるので、このように生成される音声合成パラメタ値列 11にもラベル情報が付されている。

[0033] 声質指定部 104は、ユーザによる操作に基づき、何れの音声合成パラメタ値列 11 を用い、その音声合成パラメタ値列 11に対してどのような割合で音声モーフイング処理を行うかを音声モーフイング部 105に指示する。さらに、声質指定部 104はその割合を時系列に沿って変化させる。このような声質指定部 104は、例えばパーソナルコンピュータなど力も構成され、ユーザにより操作された結果を表示するディスプレイを備えている。

[0034] 図 3は、声質指定部 104のディスプレイが表示する画面の一例を示す画面表示図である。

[0035] ディスプレイには、音声合成 DB10 la— 10 lzの声質を示す複数の声質アイコンが表示されている。なお図 3では、複数の声質アイコンのうち、声質 Aの声質アイコン 10 4Aと、声質 Bの声質アイコン 104Bと、声質 Zの声質アイコン 104Zとを示す。このような複数の声質アイコンは、それぞれの示す声質が似て!、るものほど互いに近寄るように配置され、似て、な、ものほど互、に離れるように配置される。

[0036] ここで、声質指定部 104は、このようなディスプレイ上に、ユーザによる操作に応じて移動可能な指定アイコン 104iを表示する。

[0037] 声質指定部 104は、ユーザによって配置された指定アイコン 104iから近い声質ァイコンを調べ、例えば声質アイコン 104A, 104B, 104Zを特定すると、声質 Aの音声合成パラメタ値列 11と、声質 Bの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値列 11とを用いることを、音声モーフイング部 105に指示する。さらに、声質指定部 104は、各声質アイコン 104A, 104B, 104Z及び指定アイコン 104iの相対的な配置に対応する割合を、音声モーフイング部 105に指示する。

[0038] 即ち、声質指定部 104は、指定アイコン 10^から各声質アイコン 104A, 104B, 1 04Zまでの距離を調べ、それらの距離に応じた割合を指示する。

[0039] 又は、声質指定部 104は、まず、声質 Aと声質 Zの中間的な声質 (テンポラリ声質）を生成するための割合を求め、次に、そのテンポラリ声質と声質 Bとから、指定アイコン 104iで示される声質を生成するための割合を求め、これらの割合を指示する。具体的に、声質指定部 104は、声質アイコン 104A及び声質アイコン 104Zを結ぶ直線と、声質アイコン 104B及び指定アイコン 104iを結ぶ直線とを算出し、これらの直線の交点の位置 104tを特定する。この位置 104tにより示される声質が上述のテンポラリ声質である。そして、声質指定部 104は、位置 104tから各声質アイコン 104A, 10 4Zまでの距離の割合を求める。次に、声質指定部 104は、指定アイコン 104iから声質アイコン 104B及び位置 104tまでの距離の割合を求め、このように求めた 2つの割合を指示する。

[0040] このような声質指定部 104を操作することにより、ユーザは、スピーカ 107から出力させようとする合成音声の声質の、予め設定された声質に対する類似度を容易に入力することができる。そこでユーザは、例えば声質 Aに近い合成音声をスピーカ 107 力も出力させたいときには、指定アイコン 104iが声質アイコン 104Aに近づくように声質指定部 104を操作する。

[0041] また、声質指定部 104は、ユーザからの操作に応じて、上述のような割合を時系列に沿って連続的に変化させる。

[0042] 図 4は、声質指定部 104のディスプレイが表示する他の画面の一例を示す画面表示図である。

[0043] 声質指定部 104は、図 4に示すように、ユーザによる操作に応じて、ディスプレイ上に 3つのアイコン 21, 22, 23を配置し、アイコン 21からアイコン 22を通ってアイコン 2 3に到達するような軌跡を特定する。そして、声質指定部 104は、その軌跡に沿って指定アイコン 104iが移動するように、上述の割合を時系列に沿って連続的に変化させる。例えば、声質指定部 104は、その軌跡の長さを Lとすると、毎秒 0.01 X Lの速度で指定アイコン 104iが移動するように、その割合を変化させる。

[0044] 音声モーフイング部 105は、上述のような声質指定部 104により指定された音声合成パラメタ値列 11と割合とから、音声モーフイング処理を行う。

[0045] 図 5は、音声モーフイング部 105の処理動作を説明するための説明図である。

音声モーフイング部 105は、図 5に示すように、パラメタ中間値計算部 105aと、波形生成部 105bとを備えている。

[0046] パラメタ中間値計算部 105aは、声質指定部 104により指定された少なくとも 2つの音声合成パラメタ値列 11と割合とを特定し、それらの音声合成パラメタ値列 11から、互いに対応する音声分析合成フレーム間ごとに、その割合に応じた中間的音声合成パラメタ値列 13を生成する。

[0047] 例えば、パラメタ中間値計算部 105aは、声質指定部 104の指定に基づいて、声質 Aの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値列 11と、割合 50 : 50とを特定すると、まず、その声質 Aの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値列 11とを、それぞれに対応する音声合成部 103から取得する。そして、パラメタ中間値計算部 105aは、互いに対応する音声分析合成フレームにおいて、声質 Aの音声合成パラメタ値列 11に含まれる各特徴パラメタと、声質 Zの音声合成パラメタ値列 11に含まれる各特徴パラメタとの中間値を 50： 50の割合で算出し、その算出結果を中間的音声合成パラメタ値列 13として生成する。具体的に、互いに対応する音声分析合成フレームにおいて、声質 Aの音声合成パラメタ値列 11の基本周波数 F 0の値が 300であり、声質 Zの音声合成パラメタ値列 11の基本周波数 FOの値が 280 である場合には、パラメタ中間値計算部 105aは、当該音声分析合成フレームでの基本周波数 F0が 290となる中間的音声合成パラメタ値列 13を生成する。

[0048] また、図 3を用いて説明したように、声質指定部 104により、声質 Aの音声合成パラメタ値列 11と、声質 Bの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値列 11とが指定され、さらに、声質 Aと声質 Zの中間的なテンポラリ声質を生成するための割合 (例えば 3： 7)と、そのテンポラリ声質と声質 Bとから指定アイコン 104iで示される声質を生成するための割合 (例えば 9： 1)とが指定され場合には、音声モーフイング部 105は、まず、声質 Aの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値列 11とを用いて、 3 : 7の割合に応じた音声モーフイング処理を行う。これにより、テンポラリ声質に対応する音声合成パラメタ値列が生成される。さらに、音声モーフイング部 105は、先に生成した音声合成パラメタ値列と、声質 Bの音声合成パラメタ値列 11 とを用いて、 9 : 1の割合に応じた音声モーフイング処理を行う。これにより、指定アイコン 104iに対応する中間的音声合成パラメタ値列 13が生成される。ここで、上述の 3 ： 7の割合に応じた音声モーフイング処理とは、声質 Aの音声合成パラメタ値列 11を 3 Z (3 + 7)だけ声質 Zの音声合成パラメタ値列 11に近づける処理であり、逆に、声質 Zの音声合成パラメタ値列 11を 7Z (3 + 7)だけ声質 Aの音声合成パラメタ値列 11に近づける処理をいう。この結果、生成される音声合成パラメタ値列は、声質 Zの音声合成パラメタ値列 11よりも、声質 Aの音声合成パラメタ値列 11に類似することとなる。

[0049] 波形生成部 105bは、パラメタ中間値計算部 105aにより生成された中間的音声合成パラメタ値列 13を取得して、その中間的音声合成パラメタ値列 13に応じた中間的合成音波形データ 12を生成し、スピーカ 107に対して出力する。

[0050] これにより、スピーカ 107からは、中間的音声合成パラメタ値列 13に応じた合成音声が出力される。即ち、予め設定された複数の声質の中間的な声質の合成音声がスピー力 107から出力される。

[0051] ここで、一般に複数の音声合成パラメタ値列 11に含まれる音声分析合成フレームの総数はそれぞれ異なるため、パラメタ中間値計算部 105aは、上述のように互いに異なる声質の音声合成パラメタ値列 11を用、て音声モーフイング処理を行うときには、音声分析合成フレーム間の対応付けを行うために時間軸ァライメントを行う。

[0052] 即ちパラメタ中間値計算部 105aは、音声合成パラメタ値列 11に付されたラベル情報に基づいて、これらの音声合成パラメタ値列 11の時間軸上の整合を図る。

[0053] ラベル情報は、前述のように各音声素片の開始及び終了の時刻と、音響的特徴の変化点の時刻とを示す。音響的特徴の変化点は、例えば、音声素片に対応する不特定話者 HMM音素モデルにより示される最尤パスの状態遷移点である。

[0054] 図 6は、音声素片と HMM音素モデルの一例を示す例示図である。

例えば、図 6に示すように、所定の音声素片 30を不特定話者 HMM音素モデル（以下、音素モデルと略す) 31で認識した場合、その音素モデル 31は、開始状態 (S

0

)と終了状態 (S )を含めて 4つの状態 (S , S , S , S )で構成される。ここで、最尤パ

E 0 1 2 E

スの形状 32は、時刻 4から 5において、状態 S1から状態 S2への状態遷移を有する。つまり、音声合成 DBlOla— ΙΟΙζに格納されている音声素片データの音声素片 30 に対応する部分には、この音声素片 30の開始時刻 1、終了時刻 N、及び音響的特徴の変化点の時刻 5を示すラベル情報が付されている。

[0055] したがって、パラメタ中間値計算部 105aは、そのラベル情報に示される開始時刻 1 、終了時刻 N、及び音響的特徴の変換点の時刻 5に基づいて、時間軸の伸縮処理を行う。即ち、パラメタ中間値計算部 105aは、取得した各音声合成パラメタ値列 11に対して、ラベル情報により示される時刻が一致するように、その時刻間を線形に伸縮する。

[0056] これにより、ノメタ中間値計算部 105aは、各音声合成パラメタ値列 11に対して、それぞれの音声分析合成フレームの対応付けを行うことができる。つまり、時間軸ァライメントを行うことができる。また、このように本実施の形態ではラベル情報を用いて時間軸ァライメントを行うことにより、例えば各音声合成パラメタ値列 11のパターンマツチングなどにより時間軸ァライメントを行う場合と比べて、迅速に時間軸ァライメントを実行することができる。

[0057] 以上のように本実施の形態では、パラメタ中間値計算部 105aが、声質指定部 104 力指示された複数の音声合成パラメタ値列 11に対して、声質指定部 104から指定された割合に応じた音声モーフイング処理を実行するため、合成音声の声質の自由度を広めることができる。

[0058] 例えば、図 3に示す声質指定部 104のディスプレイ上で、ユーザが声質指定部 10 4を操作することにより指定アイコン 104iを声質アイコン 104A、声質アイコン 104B 及び声質アイコン 104Zに近づければ、音声モーフイング部 105は、声質 Aの音声合成 DB 101aに基づ、て音声合成部 103により生成された音声合成パラメタ値列 11と、声質 Bの音声合成 DBlOlbに基づいて音声合成部 103により生成された音声合成パラメタ値列 11と、声質 Zの音声合成 DBlOlzに基づ、て音声合成部 103により生成された音声合成パラメタ値列 11とを用いて、それぞれを同じ割合で音声モーフイング処理する。その結果、スピーカ 107から出力される合成音声を、声質 Aと声質 B と声質 Cとの中間的な声質にすることができる。また、ユーザが声質指定部 104を操作することにより指定アイコン 104iを声質アイコン 104Aに近づければ、スピーカ 107 力も出力される合成音声の声質を声質 Aに近づけることができる。

[0059] また、本実施の形態の声質指定部 104は、ユーザによる操作に応じてその割合を時系列に沿って変化させるため、スピーカ 107から出力される合成音声の声質を時系列に沿ってなめらかに変化させることができる。例えば、図 4で説明したように、声質指定部 104が、毎秒 0.01 X Lの速度で軌跡上を指定アイコン 104iが移動するように割合を変化させた場合には、 100秒間声質がなめらかに変化し続けるような合成音声がスピーカ 107から出力される。

[0060] これによつて、例えば「喋り始めは冷静だ力喋りながら段々怒っていく」というような、従来は不可能だった、表現力の高い音声合成装置が実現できる。また、合成音声の声質を 1発声の中で連続的に変化させることもできる。

[0061] さらに、本実施の形態では、音声モーフイング処理を行うため、従来例のように声質に破錠が起こることがなく合成音声の品質を維持することができる。また、本実施の形態では、声質の異なる音声合成パラメタ値列 11の互、に対応する特徴パラメタの中間値を計算して中間的音声合成パラメタ値列 13を生成するため、従来例のように 2 つのスペクトルをモーフイング処理する場合と比べて、基準とする部位を誤って特定してしまうことなぐ合成音声の音質を良くすることができ、さらに、計算量を軽減することができる。また、本実施の形態では、 HMMの状態遷移点を用いることで、複数の音声合成パラメタ値列 11を時間軸上で正確に整合させることができる。即ち、声質 A の音素の中でも、状態遷移点を基準に前半と後半とで音響的特徴が異なり、声質 B の音素の中でも、状態遷移点を基準に前半と後半とで音響的特徴が異なる場合がある。このような場合に、声質 Aの音素と声質 Bの音素とをそれぞれ単純に時間軸に伸縮して、それぞれの発声時間を合わせても、つまり時間軸ァライメントを行っても、両音素からモーフイング処理された音素には、各音素の前半と後半とが入り乱れてしまう。しかし、上述のように HMMの状態遷移点を用いると、各音素の前半と後半とが入り乱れてしまうのを防ぐことができる。その結果、モーフイング処理された音素の音質を良くして、所望の中間的な声質の合成音声を出力することができる。

[0062] なお、本実施の形態では、複数の音声合成部 103のそれぞれに音素情報 10a及び音声合成パラメタ値列 11を生成させた力音声モーフイング処理に必要となる声質に対応する音素情報 10aが何れも同じであるときには、 1つの音声合成部 103の言語処理部 103aにのみ音素情報 10aを生成させ、その音素情報 10aから音声合成ノメタ値列 11を生成する処理を、複数の音声合成部 103の素片結合部 103bにさせても良い。

[0063] (変形例）ここで、本実施の形態における音声合成部に関する変形例について説明する。

[0064] 図 7は、本変形例に係る音声合成装置の構成を示す構成図である。

本変形例に係る音声合成装置は、互いに異なる声質の音声合成パラメタ値列 11を生成する 1つの音声合成部 103cを備える。

[0065] この音声合成部 103cは、テキスト 10を取得して、テキスト 10に示される文字列を音素情報 10aに変換した後、複数の音声合成 DBlOla— ΙΟΙζを順番に切り替えて参照ことで、その音素情報 10aに対応する複数の声質の音声合成パラメタ値列 11を順次生成する。

[0066] 音声モーフイング部 105は、必要な音声合成パラメタ値列 11が生成されるまで待機し、その後、上述と同様の方法で中間的合成音波形データ 12を生成する。

[0067] なお、上述のような場合、声質指定部 104は、音声合成部 103cに指示して、音声モーフイング部 105が必要とする音声合成パラメタ値列 11のみを生成させることで、音声モーフイング部 105の待機時間を短くすることができる。

[0068] このように本変形例では、音声合成部 103cを 1つだけ備えることにより、音声合成装置全体の小型化並びにコスト低減を図ることができる。

[0069] (実施の形態 2)

図 8は、本発明の実施の形態 2に係る音声合成装置の構成を示す構成図である。

[0070] 本実施の形態の音声合成装置は、実施の形態 1の音声合成パラメタ値列 11の代わりに周波数スペクトルを用い、この周波数スペクトルによる音声モーフイング処理を行う。

[0071] このような音声合成装置は、複数の音声素片に関する音声素片データを蓄積する複数の音声合成 DB201a— 201zと、 1つの音声合成 DBに蓄積された音声素片デ一タを用 V、ることにより、テキスト 10に示される文字列に対応する合成音スペクトル 41 を生成する複数の音声合成部 203と、ユーザによる操作に基づ!/、て声質を指定する声質指定部 104と、複数の音声合成部 203により生成された合成音スペクトル 41を用いて音声モーフイング処理を行い、中間的合成音波形データ 12を出力する音声モーフイング部 205と、中間的合成音波形データ 12に基づいて合成音声を出力するスピーカ 107とを備えてヽる。 [0072] 複数の音声合成 DB201a— 201zのそれぞれが蓄積する音声素片データの示す声質は、実施の形態 1の音声合成 DBlOla— ΙΟΙζと同様、異つている。また、本実施の形態における音声素片データは、周波数スペクトルの形式で表現されている。

[0073] 複数の音声合成部 203は、それぞれ上述の音声合成 DBと一対一に対応付けられている。そして、各音声合成部 203は、テキスト 10を取得して、テキスト 10に示される文字列を音素情報に変換する。さらに、音声合成部 203は、対応付けられた音声合成 DBの音声素片データ力適切な音声素片に関する部分を抜き出して、抜き出した部分の結合と変形を行うことにより、先に生成した音素情報に対応する周波数スぺタトルたる合成音スペクトル 41を生成する。このような合成音スペクトル 41は、音声のフーリエ解析結果の形式であっても良ぐ音声のケプストラムパラメタ値を時系列的に並べた形式であっても良、。

[0074] 声質指定部 104は、実施の形態 1と同様、ユーザによる操作に基づき、何れの合成音スペクトル 41を用い、その合成音スペクトル 41に対してどのような割合で音声モーフイング処理を行うかを音声モーフイング部 205に指示する。さらに、声質指定部 10

4はその割合を時系列に沿って変化させる。

[0075] 本実施の形態における音声モーフイング部 205は、複数の音声合成部 203から出力される合成音スペクトル 41を取得して、その中間的性質を持つ合成音スぺクトルを生成し、さらに、その中間的性質の合成音スペクトルを中間的合成音波形データ 12 に変形して出力する。

[0076] 図 9は、本実施の形態における音声モーフイング部 205の処理動作を説明するための説明図である。

[0077] 音声モーフイング部 205は、図 9に示すように、スペクトルモーフイング部 205aと、波形生成部 205bとを備えて、る。

[0078] スペクトルモーフイング部 205aは、声質指定部 104により指定された少なくとも 2つの合成音スペクトル 41と割合とを特定し、それらの合成音スペクトル 41から、その割合に応じた中間的合成音スペクトル 42を生成する。

[0079] 即ち、スペクトルモーフイング部 205aは、複数の合成音スペクトル 41から、声質指定部 104により指定された 2つ以上の合成音スペクトル 41を選択する。そして、スぺクトルモーフイング部 205aは、それら合成音スぺクトル 41の形状の特徴を示すフォルマント形状 50を抽出して、そのフォルマント形状 50ができるだけ一致するような変形を各合成音スぺクトル 41に加えた後、各合成音スペクトル 41の重ね合わせを行う。なお、上述の合成音スペクトル 41の形状の特徴は、フォルマント形状でなくても良く、例えばある程度以上強く現れていて、かつその軌跡が連続的に追えるものであれば良い。図 9に示されるように、フォルマント形状 50は、声質 Aの合成音スペクトル 41 及び声質 Zの合成音スペクトル 41のそれぞれについてスペクトル形状の特徴を模式的に表すものである。

[0080] 具体的に、スペクトルモーフイング部 205aは、声質指定部 104からの指定に基づき、声質 A及び声質 Zの合成音スペクトル 41と 4 : 6の割合とを特定すると、まず、その声質 Aの合成音スペクトル 41と声質 Zの合成音スペクトル 41とを取得して、それらの合成音スペクトル 41からフォルマント形状 50を抽出する。次に、スペクトルモーフイング部 205aは、声質 Aの合成音スペクトル 41のフォルマント形状 50が声質 Zの合成音スベクトル 41のフォルマント形状 50に 40%だけ近づくように、声質 Aの合成音スぺタトル 41を周波数軸及び時間軸上で伸縮処理する。さらに、スペクトルモーフイング部 2 05aは、声質 Zの合成音スペクトル 41のフォルマント形状 50が声質 Aの合成音スぺクトル 41のフォルマント形状 50に 60%だけ近づくように、声質 Zの合成音スペクトル 41 を周波数軸及び時間軸上で伸縮処理する。最後に、スペクトルモーフイング部 205a は、伸縮処理された声質 Aの合成音スペクトル 41のパワーを 60%にするとともに、伸縮処理された声質 Zの合成音スペクトル 41のパワーを 40%にした上で、両合成音スベクトル 41を重ね合わせる。その結果、声質 Aの合成音スペクトル 41と声質 Zの合成音スペクトル 41との音声モーフイング処理が 4 : 6の割合で行われ、中間的合成音スベクトル 42が生成される。

[0081] このような、中間的合成音スペクトル 42を生成する音声モーフイング処理について、図 10—図 12を用いてより詳細に説明する。

[0082] 図 10は、声質 A及び声質 Zの合成音スペクトル 41と、それらに対応する短時間フーリエスペクトルとを示す図である。

[0083] スペクトルモーフイング部 205aは、声質 Aの合成音スペクトル 41と声質 Zの合成音スペクトル 41との音声モーフイング処理を 4 : 6の割合で行うときには、まず、上述のようにこれらの合成音スペクトル 41のフォルマント形状 50を互いに近づけるため、各合成音スペクトル 41同士の時間軸ァライメントを行う。このような時間軸ァライメントは、各合成音スペクトル 41のフォルマント形状 50同士のパターンマッチングを行うことにより実現される。なお、各合成音スペクトル 41もしくはフォルマント形状 50に関する他の特徴量を用いてパターンマッチングを行ってもょ、。

[0084] 即ち、スペクトルモーフイング部 205aは、図 10に示すように、両合成音スペクトル 4 1のそれぞれのフォルマント形状 50にお!/、て、パターンが一致するフーリエスぺタトル分析窓 51の部位で時刻が一致するように、両合成音スペクトル 41に対して時間軸上の伸縮を行う。これにより時間軸ァライメントが実現される。

[0085] また、図 10に示すように、互いにパターンが一致するフーリエスペクトル分析窓 51 のそれぞれの短時間フーリエスペクトル 41aには、フォルマント形状 50の周波数 50a , 50bが互いに異なるように表示される。

[0086] そこで、時間軸ァライメントの完了後、スペクトルモーフイング部 205aは、ァライメントされた音声の各時刻において、フォルマント形状 50を基に、周波数軸上の伸縮処理を行う。即ち、スペクトルモーフイング部 205aは、各時刻における声質 A及び声質 Bの短時間フーリエスペクトル 41aにおいて周波数 50a, 50b力 S—致するように、両短時間フーリエスペクトル 41aを周波数軸上で伸縮する。

[0087] 図 11は、スペクトルモーフイング部 205aが両短時間フーリエスペクトル 41aを周波数軸上で伸縮する様子を説明するための説明図である。

[0088] スペクトルモーフイング部 205aは、声質 Aの短時間フーリエスペクトル 41a上の周波数 50a, 50b力 0%だけ、声質 Zの短時間フーリエスペクトル 41a上の周波数 50a , 50b〖こ近付くよう〖こ、声質 Aの短時間フーリエスペクトル 41aを周波数軸上で伸縮し、中間的な短時間フーリエスペクトル 41bを生成する。これと同様に、スペクトルモーフイング部 205aは、声質 Zの短時間フーリエスペクトル 41a上の周波数 50a, 50b力 6 0%だけ、声質 Aの短時間フーリエスペクトル 41a上の周波数 50a, 50bに近付くように、声質 Zの短時間フーリエスペクトル 41aを周波数軸上で伸縮し、中間的な短時間フーリエスペクトル 41bを生成する。その結果、中間的な両短時間フーリエスペクトル 41bにおいて、フォルマント形状 50の周波数は周波数 fl, f2に揃えられた状態となる。

[0089] 例えば、声質 Aの短時間フーリエスペクトル 41a上でフォルマント形状 50の周波数 50a, 50b力 00Hz及び 3000Hzであり、声質 Zの短時間フーリエスペクトル 41a上でフ才ノレマント形状 50の周波数 50a, 50b力 S400Hz及び 4000Hzであり、力つ各合成音のナイキスト周波数が 11025Hzである場合を想定して説明する。スペクトルモーフイング部 205aは、まず、声質 Aの短時間フーリエスペクトル 41aの帯域 f=0— 5 00Hz力 0—（500+ (400-500) X 0. 4) Hzとなるように、帯域 f= 500— 3000Hz 力 S (500 + (400—500) X 0. 4)一（3000+ (4000— 3000) X 0. 4) Hzとなるように、帯域 f = 3000— 11025Hz力 S (3000+ (4000—3000) X 0. 4)一 11025Hzとなるように、声質 Aの短時間フーリエスペクトル 41aに対して周波数軸上の伸縮 ·移動を行う。これと同様に、スペクトルモーフイング部 205aは、声質 Zの短時間フーリエスぺタトノレ 4 laの帯域 f=0— 400Hz力 0—（400+ (500—400) X 0. 6) Hzとなるように、帯域 f= 400— 4000Hzカ 400+ (500—400) X 0. 6)—（4000+ (3000—4000) X 0. 6) Hzとなるように、帯域 f =4000— 11025Hz力 S (4000+ (3000—4000) X 0. 6)— 11025Hzとなるように、声質 Zの短時間フーリエスペクトル 41aに対して周波数軸上の伸縮'移動を行う。その伸縮'移動の結果により生成された 2つの短時間フーリェスペクトル 41bにおいて、フォルマント形状 50の周波数は周波数 fl, f2に揃えられた状態となる。

[0090] 次に、スペクトルモーフイング部 205aは、このような周波数軸上の変形が行われた両短時間フーリエスペクトル 41bのパワーを変形する。即ち、スペクトルモーフイング部 205aは、声質 Aの短時間フーリエスペクトル 41bのパワーを 60%に変換し、声質 Zの短時間フーリエスペクトル 41bのパワーを 40%に変換する。そして、スペクトルモーフイング部 205aは、上述のように、パワーが変換されたこれらの短時間フーリエスベクトルを重ね合わせる。

[0091] 図 12は、パワーが変換された 2つの短時間フーリエスペクトルを重ね合わせる様子を説明するための説明図である。

[0092] この図 12に示すように、スペクトルモーフイング部 205aは、パワーが変換された声質 Aの短時間フーリエスペクトル 41cと、同じくパワーが変換された声質 Bの短時間フ一リエスペクトル 41cとを重ね合わせ、新たな短時間フーリエスペクトル 41dを生成する。このとき、スペクトルモーフイング部 205aは、互いの短時間フーリエスペクトル 41c の上記周波数 fl, f2を一致させた状態で、両短時間フーリエスペクトル 41cを重ね合わせる。

[0093] そして、スペクトルモーフイング部 205aは、上述のような短時間フーリエスペクトル 4 Idの生成を、両合成音スペクトル 41の時間軸ァライメントされた時刻ごとに行う。その結果、声質 Aの合成音スぺクトル 41と声質 Zの合成音スペクトル 41との音声モーフィング処理が 4 : 6の割合で行われ、中間的合成音スペクトル 42が生成されるのである

[0094] 音声モーフイング部 205の波形生成部 205bは、上述のようにスペクトルモーフイング部 205aにより生成された中間的合成音スペクトル 42を、中間的合成音波形データ 12に変換して、これをスピーカ 107に出力する。その結果、スピーカ 107から、中間的合成音スペクトル 42に対応する合成音声が出力される。

[0095] このように、本実施の形態においても、実施の形態 1と同様、声質の自由度が広く良い音質の合成音声をテキスト 10から生成することができる。

[0096] (変形例）

ここで、本実施の形態におけるスペクトルモーフイング部の動作に関する変形例について説明する。

[0097] 本変形例に係るスペクトルモーフイング部は、上述のように合成音スペクトル 41からその形状の特徴を示すフォルマント形状 50を抽出して用いることなぐ音声合成 DB に予め格納されたスプライン曲線の制御点の位置を読み出して、そのスプライン曲線をフォルマント形状 50の代わりに用いる。

[0098] 即ち、各音声素片に対応するフォルマント形状 50を、周波数対時間の 2次元平面上の複数のスプライン曲線と見なし、そのスプライン曲線の制御点の位置を予め音声合成 DBに格納しておく。

[0099] このように、本変形例に係るスペクトルモーフイング部は、合成音スペクトル 41からわざわざフォルマント形状 50を抽出することをせず、音声合成 DBに予め格納されて V、る制御点の位置が示すスプライン曲線を用いて時間軸及び周波数軸上の変換処理を行うため、上記変換処理を迅速に行うことができる。

[0100] なお、上述のようなスプライン曲線の制御点の位置ではなくフォルマント形状 50そのものを、予め音声合成 DB201a— 201zに格納してお!、ても良!、。

[0101] (実施の形態 3)

図 13は、本発明の実施の形態 3に係る音声合成装置の構成を示す構成図である。

[0102] 本実施の形態の音声合成装置は、実施の形態 1の音声合成パラメタ値列 11や、実施の形態 2の合成音スペクトル 41の代わりに音声波形を用い、この音声波形による音声モーフイング処理を行う。

[0103] このような音声合成装置は、複数の音声素片に関する音声素片データを蓄積する複数の音声合成 DB301a— 301zと、 1つの音声合成 DBに蓄積された音声素片デ一タを用 Vヽることにより、テキスト 10に示される文字列に対応する合成音波形データ 6 1を生成する複数の音声合成部 303と、ユーザによる操作に基づいて声質を指定する声質指定部 104と、複数の音声合成部 303により生成された合成音波形データ 61 を用いて音声モーフイング処理を行い、中間的合成音波形データ 12を出力する音声モーフイング部 305と、中間的合成音波形データ 12に基づいて合成音声を出力するスピーカ 107とを備えて、る。

[0104] 複数の音声合成 DB301a— 301zのそれぞれが蓄積する音声素片データの示す声質は、実施の形態 1の音声合成 DBlOla— ΙΟΙζと同様、異なっている。また、本実施の形態における音声素片データは、音声波形の形式で表現されている。

[0105] 複数の音声合成部 303は、それぞれ上述の音声合成 DBと一対一に対応付けられている。そして、各音声合成部 303は、テキスト 10を取得して、テキスト 10に示される文字列を音素情報に変換する。さらに、音声合成部 303は、対応付けられた音声合成 DBの音声素片データ力適切な音声素片に関する部分を抜き出して、抜き出した部分の結合と変形を行うことにより、先に生成した音素情報に対応する音声波形たる合成音波形データ 61を生成する。

[0106] 声質指定部 104は、実施の形態 1と同様、ユーザによる操作に基づき、何れの合成音波形データ 61を用い、その合成音波形データ 61に対してどのような割合で音声モーフイング処理を行うかを音声モーフイング部 305に指示する。さらに、声質指定部 104はその割合を時系列に沿って変化させる。

[0107] 本実施の形態における音声モーフイング部 305は、複数の音声合成部 303から出力される合成音波形データ 61を取得して、その中間的性質を持つ中間的合成音波形データ 12を生成して出力する。

[0108] 図 14は、本実施の形態における音声モーフイング部 305の処理動作を説明するための説明図である。

[0109] 本実施の形態における音声モーフイング部 305は波形編集部 305aを備えている。

この波形編集部 305aは、声質指定部 104により指定された少なくとも 2つの合成音波形データ 61と割合とを特定し、それらの合成音波形データ 61から、その割合に応じた中間的合成音波形データ 12を生成する。

[0110] 即ち、波形編集部 305aは、複数の合成音波形データ 61から、声質指定部 104〖こより指定された 2つ以上の合成音波形データ 61を選択する。そして、波形編集部 30 5aは、声質指定部 104により指定された割合に応じ、その選択した合成音波形データ 61のそれぞれに対して、例えば各音声の各サンプリング時点におけるピッチ周波数や振幅、各音声における各有声区間の継続時間長などを変形する。波形編集部 3 05aは、そのように変形された合成音波形データ 61を重ね合わせることで、中間的合成音波形データ 12を生成する。

[0111] スピーカ 107は、このように生成された中間的合成音波形データ 12を波形編集部 3 05aから取得して、その中間的合成音波形データ 12に対応する合成音声を出力する。

[0112] このように、本実施の形態においても、実施の形態 1又は 2と同様、声質の自由度が広く良、音質の合成音声をテキスト 10から生成することができる。

[0113] (実施の形態 4)

図 15は、本発明の実施の形態 4に係る音声合成装置の構成を示す構成図である。

[0114] 本実施の形態の音声合成装置は、出力する合成音声の声質に応じた顔画像を表示するものであって、実施の形態 1に含まれる構成要素と、複数の顔画像に関する画像情報を蓄積する複数の画像 DB401a— 401zと、これらの画像 DB401a— 401zに蓄積される顔画像の情報を用いて画像モーフイング処理を行ヽ、中間的顔画像データ 12pを出力する画像モーフイング部 405と、画像モーフイング部 405から中間的顔画像データ 12pを取得して、その中間的顔画像データ 12pに応じた顔画像を表示する表示部 407とを備えて、る。

[0115] 画像 DB401a— 401zのそれぞれが蓄積する画像情報の示す顔画像の表情は異なっている。例えば、怒っている声質の音声合成 DBlOlaに対応する画像 DB401a には、怒っている表情の顔画像に関する画像情報が蓄積されている。また、画像 DB 401a— 401zに蓄積されている顔画像の画像情報には、顔画像の眉及び口の端や中央、目の中心点など、この顔画像の表す表情の印象をコントロールするための特徴点が付加されている。

[0116] 画像モーフイング部 405は、声質指定部 104により指定された各合成音声パラメタ値列 102のそれぞれの声質に対応付けされた画像 DBから画像情報を取得する。そして、画像モーフイング部 405は、取得した画像情報を用いて、声質指定部 104により指定された割合に応じた画像モーフイング処理を行う。

[0117] 具体的に、画像モーフイング部 405は、取得した一方の画像情報により示される顔画像の特徴点の位置が、声質指定部 104により指定された割合だけ、取得した他方の画像情報により示される顔画像の特徴点の位置に変位するように、その一方の顔画像をヮービングし、これと同様に、その他方の顔画像の特徴点の位置を、声質指定部 104により指定された割合だけ、その一方の顔画像の特徴点の位置に変位するように、その他方の顔画像をヮービングする。そして、画像モーフイング部 405は、ヮ一ビングされたそれぞれの顔画像を、声質指定部 104により指定された割合に応じてクロスディゾルブすることで、中間的顔画像データ 12pを生成する。

[0118] これにより本実施の形態では、例えばエージェントの顔画像と合成音声の声質の印象を常に一致させることができる。即ち、本実施の形態の音声合成装置は、エージントの平常声と怒り声の間の音声モーフイングを行って、少しだけ怒った声質の合成音声を生成するときには、音声モーフイングと同様の比率でエージェントの平常顔画像と怒り顔画像の間の画像モーフイングを行い、エージェントのその合成音声に適した少しだけ怒った顔画像を表示する。言い換えれば、感情を持つエージェントに対してユーザが感じる聴覚的印象と、視覚的印象を一致させることができ、エージェントの提示する情報の自然性を高めることができる。

[0119] 図 16は、本実施の形態の音声合成装置の動作を説明するための説明図である。

例えば、ユーザが声質指定部 104を操作することにより、図 3に示すディスプレイ上の指定アイコン 104iを、声質ァィコン104八と声質ァィコン104∑を結ぶ線分を4 : 6に分割する位置に配置すると、音声合成装置は、スピーカ 107から出力される合成音声が 10%だけ声質 A寄りになるように、その 4： 6の割合に応じた音声モーフイング処理を声質 A及び声質 Zの音声合成パラメタ値列 11を用いて行ヽ、声質 A及び声質 B の中間的な声質 Xの合成音声を出力する。これと同時に、音声合成装置は、上記割合と同じ 4： 6の割合に応じた画像モーフイング処理を、声質 Aに対応付けられた顔画像 P1と、声質 Zに対応付けられた顔画像 P2とを用いて行い、これらの画像の中間的な顔画像 P3を生成して表示する。ここで、音声合成装置は、画像モーフイングするときには、上述のように、顔画像 P1の眉や口の端などの特徴点の位置を、顔画像 P2の眉や口の端などの特徴点の位置に向けて 40%の割合で変化するように、その顔画像 P1をヮービングし、これと同様に、顔画像 P2の特徴点の位置を、顔画像 P1の特徴点の位置に向けて 60%の割合で変化するように、その顔画像 P2をヮービングする。そして、画像モーフイング部 405は、ヮービングされた顔画像 P1に対して 60%の割合で、ヮービングされた顔画像 P2に対して 40%の割合でクロスディゾルブし、その結果、顔画像 P3を生成する。

[0120] このように、本実施の形態の音声合成装置は、スピーカ 107から出力する合成音声の声質力 ^怒っている」ときには、「怒っている」様子の顔画像を表示部 407に表示し、声質力 ^泣いている」ときには、「泣いている」様子の顔画像を表示部 407に表示する。さらに、本実施形態の音声合成装置は、その声質力 ^怒っている」ものと「泣いている」ものとの中間的なものであるときには、「怒って!/、る」顔画像と「泣、て、る」顔画像の中間的な顔画像を表示するとともに、その声質が「怒って!/、る」ものから「泣！/ヽている」ものへと時間的に変化するときには、中間的な顔画像をその声質に一致させて時間的に変化させる。

[0121] なお、画像モーフイングは他にも様々な方法によって可能である力元となる画像の間の比率を指定することで目的の画像が指定できる方法であれば、どんなものを用いてもよい。

産業上の利用可能性

本発明は、声質の自由度が広く良い音質の合成音声をテキストデータ力生成することができるという効果を有し、ユーザに対して感情を表す合成音声を出力する音声合成装置などに適用することができる。

Claims

請求の範囲

[1] 第 1の声質に属する複数の音声素片に関する第 1の音声素片情報、及び前記第 1 の声質と異なる第 2の声質に属する複数の音声素片に関する第 2の音声素片情報を予め記憶して!/、る記憶手段と、

テキストデータを取得するとともに、前記記憶手段の第 1の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 1の声質の合成音声を示す第 1 の合成音声情報を生成し、前記記憶手段の第 2の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 2の声質の合成音声を示す第 2の合成音声情報を生成する音声情報生成手段と、

前記音声情報生成手段により生成された前記第 1及び第 2の合成音声情報から、前記テキストデータに含まれる文字に対応した、前記第 1及び第 2の声質の中間的な声質の合成音声を示す中間合成音声情報を生成するモーフイング手段と、

前記モーフイング手段によって生成された前記中間合成音声情報を前記中間的な声質の合成音声に変換して出力する音声出力手段と

を備え、

前記音声情報生成手段は、前記第 1及び第 2の合成音声情報をそれぞれ複数の特徴パラメタの列として生成し、

前記モーフイング手段は、前記第 1及び第 2の合成音声情報の互いに対応する特徴パラメタの中間値を計算することで、前記中間合成音声情報を生成する

ことを特徴とする音声合成装置。

[2] 前記モーフイング手段は、前記音声出力手段から出力される合成音声の声質がその出力中に連続的に変化するように、前記第 1及び第 2の合成音声情報の前記中間合成音声情報に対して寄与する割合を変化させる

ことを特徴とする請求項 1記載の音声合成装置。

[3] 前記記憶手段は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声素片における基準を示す内容の特徴情報を、前記第 1及び第 2の音声素片情報のそれぞれに含めて記憶しており、

前記音声情報生成手段は、前記第 1及び第 2の合成音声情報を、それぞれに前記特徴情報を含めて生成し、

前記モーフイング手段は、前記第 1及び第 2の合成音声情報を、それぞれに含まれる前記特徴情報によって示される基準を用いて整合した上で前記中間合成音声情報を生成する

ことを特徴とする請求項 1記載の音声合成装置。

[4] 前記基準は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声素片の音響的特徴の変化点である

ことを特徴とする請求項 3記載の音声合成装置。

[5] 前記音響的特徴の変化点は、前記第 1及び第 2の音声素片情報のそれぞれに示される各音声素片を HMM (Hidden Markov Model)で表した最尤経路上の状態遷移点であって、

前記モーフイング手段は、前記第 1及び第 2の合成音声情報を、前記状態遷移点を用いて時間軸上で整合した上で前記中間合成音声情報を生成する

ことを特徴とする請求項 4記載の音声合成装置。

[6] 前記音声合成装置は、さらに、

前記第 1の声質に対応する画像を示す第 1の画像情報、及び前記第 2の声質に対応する画像を示す第 2の画像情報を予め記憶している画像記憶手段と、

前記第 1及び第 2の画像情報のそれぞれにより示される画像の中間的な画像であつて、前記中間合成音声情報の声質に対応する画像を示す中間画像情報を、前記第 1及び第 2の画像情報から生成する画像モーフイング手段と、

前記画像モーフイング手段により生成された中間画像情報を取得して、前記中間画像情報により示される画像を、前記音声出力手段力も出力される合成音声に同期させて表示する表示手段と

を備えることを特徴とする請求項 1記載の音声合成装置。

[7] 前記第 1の画像情報は前記第 1の声質に対応する顔画像を示し、前記第 2の画像情報は前記第 2の声質に対応する顔画像を示す

ことを特徴とする請求項 6記載の音声合成装置。

[8] 前記音声合成装置は、さらに、前記第 1及び第 2の声質を示す固定点、及びユーザの操作に基づいて移動する移動点をそれぞれ N次元 (Nは自然数)の座標上に配置して表し、前記固定点及び移動点の配置に基づいて、前記第 1及び第 2の合成音声情報の前記中間合成音声情報に対して寄与する割合を導出し、導出した割合を前記モーフイング手段に指示する指定手段を備え、

前記モーフイング手段は、前記指定手段により指定された割合に応じて、前記中間合成音声情報を生成する

ことを特徴とする請求項 1記載の音声合成装置。

[9] 前記音声情報生成手段は、

前記第 1及び第 2の合成音声情報のそれぞれを順次生成する

ことを特徴とする請求項 1記載の音声合成装置。

[10] 前記音声情報生成手段は、

前記第 1及び第 2の合成音声情報のそれぞれを並列に生成する

ことを特徴とする請求項 1記載の音声合成装置。

[11] 第 1の声質に属する複数の音声素片に関する第 1の音声素片情報、及び前記第 1 の声質と異なる第 2の声質に属する複数の音声素片に関する第 2の音声素片情報を予め記憶しているメモリを用いることで、合成音声を生成して出力する音声合成方法であって、

テキストデータを取得するテキスト取得ステップと、

前記メモリの第 1の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 1の声質の合成音声を示す第 1の合成音声情報を生成し、前記メモリの第 2の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 2の声質の合成音声を示す第 2の合成音声情報を生成する音声情報生成ステップと、前記音声情報生成ステップで生成された前記第 1及び第 2の合成音声情報から、前記テキストデータに含まれる文字に対応した、前記第 1及び第 2の声質の中間的な声質の合成音声を示す中間合成音声情報を生成するモーフイングステップと、前記モーフイングステップで生成された前記中間合成音声情報を前記中間的な声質の合成音声に変換して出力する音声出力ステップとを含み、

前記音声情報生成ステップでは、前記第 1及び第 2の合成音声情報をそれぞれ複数の特徴パラメタの列として生成し、

前記モーフイングステップでは、前記第 1及び第 2の合成音声情報の互いに対応する特徴パラメタの中間値を計算することで、前記中間合成音声情報を生成することを特徴とする音声合成方法。

[12] 前記モーフイングステップでは、前記音声出力ステップで出力される合成音声の声質がその出力中に連続的に変化するように、前記第 1及び第 2の合成音声情報の前記中間合成音声情報に対して寄与する割合を変化させる

ことを特徴とする請求項 11記載の音声合成方法。

[13] 前記メモリは、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声素片における基準を示す内容の特徴情報を、前記第 1及び第 2の音声素片情報のそれぞれに含めて記憶しており、

前記音声情報生成ステップでは、前記第 1及び第 2の合成音声情報を、それぞれに前記特徴情報を含めて生成し、

前記モーフイングステップでは、前記第 1及び第 2の合成音声情報を、それぞれに含まれる前記特徴情報によって示される基準を用いて整合した上で前記中間合成音声情報を生成する

ことを特徴とする請求項 11記載の音声合成方法。

[14] 前記基準は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声素片の音響的特徴の変化点である

ことを特徴とする請求項 13記載の音声合成方法。

[15] 前記音響的特徴の変化点は、前記第 1及び第 2の音声素片情報のそれぞれに示される各音声素片を HMM (Hidden Markov Model)で表した最尤経路上の状態遷移点であって、

前記モーフイングステップでは、前記第 1及び第 2の合成音声情報を、前記状態遷移点を用いて時間軸上で整合した上で前記中間合成音声情報を生成する

ことを特徴とする請求項 14記載の音声合成方法。

[16] 前記音声合成方法は、さらに、

前記第 1の声質に対応する画像を示す第 1の画像情報、及び前記第 2の声質に対応する画像を示す第 2の画像情報を予め記憶して、る画像メモリを用い、

前記第 1及び第 2の画像情報のそれぞれにより示される画像の中間的な画像であつて、前記中間合成音声情報の声質に対応する画像を示す中間画像情報を、前記画像メモリの第 1及び第 2の画像情報力生成する画像モーフイングステップと、前記画像モーフイングステップで生成された中間画像情報により示される画像を、前記音声出力ステップで出力される合成音声に同期させて表示する表示ステップとを含むことを特徴とする請求項 11記載の音声合成方法。

[17] 前記第 1の画像情報は前記第 1の声質に対応する顔画像を示し、前記第 2の画像情報は前記第 2の声質に対応する顔画像を示す

ことを特徴とする請求項 16記載の音声合成方法。

[18] 第 1の声質に属する複数の音声素片に関する第 1の音声素片情報、及び前記第 1 の声質と異なる第 2の声質に属する複数の音声素片に関する第 2の音声素片情報を予め記憶しているメモリを用いることで、合成音声を生成して出力するためのプロダラムであって、

テキストデータを取得するテキスト取得ステップと、

前記メモリの第 1の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 1の声質の合成音声を示す第 1の合成音声情報を生成し、前記メモリの第 2の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 2の声質の合成音声を示す第 2の合成音声情報を生成する音声情報生成ステップと、前記音声情報生成ステップで生成された前記第 1及び第 2の合成音声情報から、前記テキストデータに含まれる文字に対応した、前記第 1及び第 2の声質の中間的な声質の合成音声を示す中間合成音声情報を生成するモーフイングステップと、前記モーフイングステップで生成された前記中間合成音声情報を前記中間的な声質の合成音声に変換して出力する音声出力ステップと

をコンピュータに実行させ、

前記モーフイングステップでは、前記第 1及び第 2の合成音声情報の互いに対応する特徴パラメタの中間値を計算することで、前記中間合成音声情報を生成することを特徴とするプログラム。