JPWO2006123539A1 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JPWO2006123539A1
JPWO2006123539A1 JP2007516243A JP2007516243A JPWO2006123539A1 JP WO2006123539 A1 JPWO2006123539 A1 JP WO2006123539A1 JP 2007516243 A JP2007516243 A JP 2007516243A JP 2007516243 A JP2007516243 A JP 2007516243A JP WO2006123539 A1 JPWO2006123539 A1 JP WO2006123539A1
Authority
JP
Japan
Prior art keywords
speech
unit
characteristic
utterance
timbre
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007516243A
Other languages
English (en)
Other versions
JP4125362B2 (ja
Inventor
加藤 弓子
弓子 加藤
釜井 孝浩
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4125362B2 publication Critical patent/JP4125362B2/ja
Publication of JPWO2006123539A1 publication Critical patent/JPWO2006123539A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音声合成される音声波形の発話様態を取得する感情入力部(202)と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成部(205)と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択部(203)と、前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する特徴的音色時間位置推定部(604)と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する素片選択部(606)および素片接続部(209)とを備える。

Description

本発明は発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルを表現することができる音声の生成を可能にする音声合成装置に関する。
従来、感情等の表現が可能な音声合成装置あるいは方法として、いったん標準的なあるいは無表情な音声を合成し、その合成音に類似し且つ感情等の表情のある音声に似た特徴ベクトルを持つ音声を選択して接続するものが提案されている(例えば、特許文献1参照)。
また、標準的なあるいは無表情な音声から感情等の表情のある音声へ合成パラメータを変換する関数をあらかじめニューラルネットを用いて学習させておき、標準的あるいは無表情な音声を合成するパラメータ列を学習された変換関数によってパラメータを変換するものも提案されている(例えば、特許文献2参照)。
さらに、標準的なあるいは無表情な音声を合成するパラメータ列の周波数特性を変形して声質を変換するものも提案されている(例えば、特許文献3参照)。
さらにまた、感情の程度を制御するために感情の程度によって変化率の異なるパラメータ変換関数を用いてパラメータを変換したり、複数の感情を混合するために、表現の異なる2種類の合成パラメータ列を補間してパラメータ列を生成するものも提案されている(例えば、特許文献4参照)。
これ以外にも、各感情表現を含む自然音声からそれぞれの感情に対応する隠れマルコフモデルによる音声生成モデルを統計的に学習し、モデル間の変換式を用意して、標準音声あるいは無表情な音声を、感情を表現する音声に変換する方式が提案されている(例えば、非特許文献1参照)。
図1は、特許文献4に記載された従来の音声合成装置を示すものである。
図1において、感情入力インタフェース部109は入力された感情制御情報を、図2のような各感情の割合の経時変化であるパラメータ変換情報に変換して、感情制御部108に出力する。感情制御部108は、あらかじめ定められた図3のような変換規則に従って、パラメータ変換情報を参照パラメータに変換し、韻律制御部103およびパラメータ制御部104の動作を制御する。韻律制御部103は、言語処理部101により生成された音韻列と言語情報とにより無感情韻律パタンを生成した後、無感情韻律パタンを感情制御部108で生成された参照パラメータに基づいて感情を伴った韻律パタンに変換する。さらに、パラメータ制御部104は、あらかじめ生成したスペクトルや発話速度等の無感情パラメータを、上述の参照パラメータを用いて感情パラメータに変換して合成音声に感情を付与する。
特開2004−279436号公報(第8−10頁、図5) 特開平7−72900号公報(第6−7頁、図1) 特開2002−268699号公報(第9−10頁、図9) 特開2003−233388号公報(第8−10頁、図1、図3、図6) 田村正統、益子貴史、徳田恵一および小林隆夫、「HMM音声合成に基づく声質変換における話者適応手法の検討」音響学会講演論文集,1巻、pp.319−320,1998
しかしながら、従来の構成では、感情ごとにあらかじめ定められた図3に示すような一様な変換規則に従ってパラメータ変換を行い、個々の音のパラメータの変化率によって感情の強度を表現しようとしている。このため、自然発話に見られる、同じ感情種類、感情強度であっても部分的に裏声になったり、部分的に力んだ声になったりするような声質のバリエーションを再現することはできず、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現することが困難であるというという課題を有している。
本発明は、前記従来の課題を解決するもので、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現する音声合成装置を提供することを目的とする。
本発明のある局面に係る音声合成装置は、音声合成される音声波形の発話様態を取得する発話様態取得手段と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段とを備える。
この構成により、「怒り」などの感情表現を伴った発話中に、特徴的に出現する「力み」などの特徴的音色を混在させることができる。その際に、特徴的音色を混在させる位置が、発話位置決定手段により、特徴的音色、音韻列および韻律に基づいて、音韻ごとに決定される。このため、全ての音韻を特徴的音色で発話するような音声波形を生成するのではなく、適切な位置に特徴的音色を混在させることができる。よって、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現する音声合成装置を提供することができる。
好ましくは、上述の音声合成装置は、さらに、前記特徴的音色に基づいて、前記特徴的音色で発話する頻度を決定する頻度決定手段を備え、前記発話位置決定手段は、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記頻度とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する。
前記頻度決定手段により、特徴的音色ごとに、当該特徴的音色で発話する頻度を決定することができる。このため、適切な割合で特徴的音色を音声中に混在させることができ、人間が聞いても違和感のない豊かな音声表現を実現することができる。
さらに好ましくは、前記頻度決定手段は、モーラ、音節、音素または音声合成単位を単位として、前記頻度を決定することを特徴とする。
本構成によって、特徴的音色を持つ音声を生成する頻度を精度よく制御することができる。
また、前記特徴的音色選択手段は、発話様態と複数の特徴的音色とを対応付けて記憶する要素音色記憶部と、取得された前記発話様態に対応する前記複数の特徴的音色を前記要素音色記憶部より選択する選択部とを有し、前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定してもよい。
本構成によって、一つの発話様態による発話中に複数の特徴的音色による発話を混在させることができる。このため、より豊かな音声表現を実現する音声合成装置を提供することができる。
好ましくは、前記要素音色記憶部は、前記発話様態と、複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶しており、前記選択部は、取得された前記発話様態に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択し、前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する。
本構成によって、複数種類の特徴的音色のバランスが適切に制御され、合成する音声の表現を精度よく制御できる。
また、前記発話位置決定手段は、特徴的音色ごとに特徴的音色を生成する音韻を推定する推定式と閾値とを格納する推定式格納部と、前記特徴的音色選択手段で選択された前記特徴的音色に対応する推定式と閾値とを前記推定式格納部より選択する推定式選択部と、選択された前記推定式に、前記韻律生成手段で生成された前記音韻列および前記韻律を、音韻ごとに当てはめ、当該推定式の値が閾値を超えた場合に、当該音韻を、前記特徴的音色で発話する発話位置と推定する推定部とを有する。具体的には、前記推定式は、音韻、韻律または言語情報のうち少なくとも1つを用いて統計的に学習された式である。さらに言えば、前記推定式は、数量化II類を用いて作成されていてもよい。
本構成によって、特徴的音色で発話する発話位置を精度よく決定することができる。
本発明の音声合成装置によれば、発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルごとに、自然音声中のところどころに観察される裏声や力んだ声のような特徴的音色による声質のバリエーションを再現することができる。また、本発明の音声合成装置によれば、この特徴的音色の音声の発生頻度により、発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルの表現の強度を制御し、さらに音声中の適切な時間位置で特徴的音色の音声を生成することができる。また、本発明の音声合成装置によれば、複数種類の特徴的音色の音声をバランスよく1発話の音声中に生成することにより複雑な音声の表現を制御することができる。
図1は、従来の音声合成装置のブロック図である。 図2は、従来の音声合成装置における感情の混合方法を示す模式図である。 図3は、従来の音声合成装置における無感情音声から感情音声への変換関数の模式図である。 図4は、本発明の実施の形態1における音声合成装置のブロック図である。 図5は、本発明の実施の形態1における音声合成装置の一部のブロック図である。 図6は、図5に示す音声合成装置の推定式・閾値記憶部に記憶される情報の一例を示す図である。 図7は、実際の音声における特徴的音色の音声の音韻種類による発生頻度を示すグラフである。 図8は、実際の音声において観察された特徴的音色の音声の発生位置と推定された特徴的音色の音声の時間位置の比較を示す図である。 図9は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図10は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。 図11は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフである。 図12は、本発明の実施の形態1における音声合成装置のブロック図である。 図13は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図14は、本発明の実施の形態1における音声合成装置のブロック図である。 図15は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図16は、本発明の実施の形態1における音声合成装置のブロック図である。 図17は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図18は、コンピュータの構成の一例を示す図である。 図19は、本発明の実施の形態2における音声合成装置のブロック図である。 図20は、本発明の実施の形態2における音声合成装置の一部のブロック図である。 図21は、実際の音声における特徴的音色の音声の発生頻度と表現の強度との関係を示すグラフである。 図22は、本発明の実施の形態2における音声合成装置の動作を示すフローチャートである。 図23は、特徴的音色の音声の発生頻度と表現の強度との関係を示す模式図である。 図24は、特徴的音色音韻の発生確率と推定式の値との関係を示す模式図である。 図25は、本発明の実施の形態3における音声合成装置の動作を示すフローチャートである。 図26は、本発明の実施の形態3における、感情表現ごとに対応する1つ以上の種類の特徴的音色とその出現頻度の情報の例を示す図である。 図27は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図28は、音声を合成をした際の特殊音声の位置の一例を示した図である。 図29は、図4に示した音声合成装置の変形構成例を示すブロック図である。 図30は、図19に示した音声合成装置の変形構成例を示すブロック図である。 図31は、図25に示した音声合成装置の変形構成例を示すブロック図である。 図32は、言語処理済テキストの一例を示す図である。 図33は、図4および図19に示した音声合成装置の変形構成例の一部を示した図である。 図34は、図25に示した音声合成装置の変形構成例の一部を示した図である。 図35は、タグ付テキストの一例を示す図である。 図36は、図4および図19に示した音声合成装置の変形構成例の一部を示した図である。 図37は、図25に示した音声合成装置の変形構成例の一部を示した図である。
符号の説明
101 言語処理部
102、206、606、706 素片選択部
103 韻律制御部
104 パラメータ制御部
105 音声合成部
106 感情情報抽出部
107 感情制御情報変換部
108 感情制御部
109 感情入力インタフェース部
110、210、509、809、 スイッチ
202 感情入力部
203 特徴的音色選択部
204 特徴的音色音韻頻度決定部
205 韻律生成部
207 標準音声素片データベース
208 特殊音声素片データベース
209 素片接続部
221 感情強度特徴的音色頻度変換部
220 感情強度−頻度変換規則記憶部
307 標準音声パラメータ素片データベース
308 特殊音声変換規則記憶部
309 パラメータ変形部
310 波形生成部
406 合成パラメータ生成部
506 特殊音声位置決定部
507 標準音声パラメータ生成部
508 特殊音声パラメータ生成部
604 特徴的音色時間位置推定部
620 推定式・閾値記憶部
621 推定式選択部
622 特徴的音色音韻推定部
804 特徴的音色時間位置推定部
820 推定式記憶部
821 推定式選択部
823 判定閾値決定部
901 要素感情音色選択部
902 要素音色テーブル
903 要素音色選択部
1001 マークアップ言語解析部
(実施の形態1)
図4および図5は、本発明の実施の形態1に係る音声合成装置の機能ブロック図である。図6は、図5に示す音声合成装置の推定式・閾値記憶部に記憶される情報の一例を示す図である。図7は自然発声音声での特徴的音色の出現頻度を子音ごとにまとめて示した図である。図8は特殊音声の発生位置の予測例を示す模式図である。図9は実施の形態1における音声合成装置の動作を示したフローチャートである。
図4に示されるように、実施の形態1に係る音声合成装置は、感情入力部202と、特徴的音色選択部203と、言語処理部101と、韻律生成部205と、特徴的音色時間位置推定部604と、標準音声素片データベース207と、特殊音声素片データベース208と、素片選択部606と、素片接続部209と、スイッチ210とを備えている。
感情入力部202は、感情制御情報の入力を受け付け、合成する音声に付与する感情種類を出力する処理部である。
特徴的音色選択部203は、感情入力部202が出力した感情種類に従って、合成する音声中に生成すべき特徴的音色を持った特殊音声の種類を選択し、音色指定情報を出力する処理部である。言語処理部101は、入力テキストを取得し、音韻列および言語情報を生成する処理部である。韻律生成部205は、感情入力部202より感情種類情報を取得し、さらに言語処理部101より音韻列および言語情報を取得して、韻律情報を生成する処理部である。ここで、本願では、韻律情報は、アクセント情報、アクセント句の区切れ情報、基本周波数、パワー、ならびに、音韻および無音区間の時間長を含むものと定義する。
特徴的音色時間位置推定部604は、音色指定情報、音韻列、言語情報および韻律情報を取得して、合成する音声中で特徴的音色である特殊音声を生成する音韻を決定する処理部である。特徴的音色時間位置推定部604の具体的な構成については後述する。
標準音声素片データベース207は、特殊な音色でない標準の音声を生成するための素片を格納したハードディスク等の記憶装置である。特殊音声素片データベース208a,208b,208cは、特徴的な音色の音声を生成するための素片を音色の種類ごとに格納したハードディスク等の記憶装置である。素片選択部606は、指定された特殊音声を生成する音韻については、スイッチ210を切り替えて該当する特殊音声素片データベース208から音声素片を選択し、それ以外の音韻については標準音声素片データベース207より素片を選択する処理部である。
素片接続部209は素片選択部606で選択された素片を接続して音声波形を生成する処理部である。スイッチ210は、素片選択部606が標準音声素片データベース207あるいは特殊音声素片データベース208のいずれかから素片を選択する際に、素片種類の指定に従って、接続するデータベースを切り替えるためのスイッチである。
図5に示されるように、特徴的音色時間位置推定部604は、推定式・閾値記憶部620と、推定式選択部621と、特徴的音色音韻推定部622とから構成される。
推定式・閾値記憶部620は、図6に示されるように、特殊音声を生成する音韻を推定する推定式と閾値とを特徴的音色の種類ごとに記憶する記憶装置である。推定式選択部621は、音色指定情報で指定された音色の種類にしたがって、推定式・閾値記憶部620より推定式と閾値とを選択する処理部である。特徴的音色音韻推定部622は、音韻列および韻律情報を取得し、各音韻を特殊音声で生成するか否かを、推定式と閾値とにより決定する処理部である。
実施の形態1の構成による音声合成装置の動作を説明する前に、特徴的音色時間位置推定部604が特殊音声の合成音中における時間位置を推定する背景を説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音響学会誌51巻11号(1995),pp869−875 粕谷英樹・楊長盛“音源から見た声質”)。なお、本願では、以降、話者の状況や意図などが言語的意味以上にあるいは言語的意味とは別に聴取者に伝えられるような音声の表現を「発話様態」と呼ぶ。発話様態は、発声器官の緊張や弛緩といった解剖学的、生理的状況や、感情や情動といった心理状態や、表情のような心理状態を反映する現象や、発話スタイルや話し方といった話者の態度や行動様式といった概念を含む情報によって決定される。後述の実施形態に従えば、発話様態を決定する情報として、例えば「怒り」、「喜び」、「悲しみ」、「怒り、3」のような感情の種類や、感情の強度などがあげられる。
ここでは、本願発明に先立って同一テキストに基づいて発話された50文について無表情な音声、感情を伴う音声の調査を行った。図7(a)は話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」音(あるいは上記文献中では「ざらざら声(harsh voice)」とも表現される音)で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフであり、図7(b)は話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図7(c)および図7(d)は、それぞれ図7(a)および図7(b)と同じ話者について「中程度の怒り」の感情表現を伴って音声中の「力んだ」音のモーラ頻度をモーラ内の子音ごとに示したグラフである。なお、「モーラ」とは、日本語音声における韻律の基本単位であり、単一の短母音、子音と短母音、子音と半母音と短母音で構成されるものと、モーラ音素のみから構成されるものとがある。特殊音声の発生頻度は子音の種類によって偏りがあり、例えば「t」「k」「d」「m」「n」あるいは子音無しの場合には発生頻度が高く、「p」「ch」「ts」「f」などでは発生頻度が低い。
図7(a)および図7(b)に示された2名の話者についてのグラフを比較すると、上記の子音の種類による特殊音声の発生頻度の偏りの傾向は同じであることがわかる。翻って、より自然な感情や表情を合成音声に付与するためには発話中のより適切な部分に特徴的な音色を持つ音声を生成することが必要となる。また、話者に共通する偏りがあることは、合成する音声の音韻列に対して、特殊音声の発生位置は音韻の種類等の情報から推定できる可能性を示している。
図8は、図7と同一のデータから統計的学習手法の1つである数量化II類を用いて作成した推定式により、例1「じゅっぷんほどかかります」と例2「あたたまりました」について「力んだ」音で発声されるモーラを推定した結果を示したものである。自然発話音声において特殊音声を発声したモーラ、および推定式・閾値記憶部に記憶されている推定式F1により特殊音声の発生が予測されたモーラのそれぞれについて、かな書きの下に線分を引いて示した。
図8に示す特殊音声の発生が予測されたモーラは、上述したように数量化II類による推定式F1に基づいて、特定される。推定式F1は、結果学習用データの各モーラについて、モーラに含まれる子音の種類および母音の種類または音韻のカテゴリといった音韻の種類を示す情報と、アクセント句内のモーラ位置の情報とを独立変数として表現し、「力んだ」音が発生したか否かの2値を従属変数として表現することにより、数量化II類により作成される。また、図8に示す特殊音声の発生が予測されたモーラは、学習用データの特殊音声の発生位置に対する正解率が約75%になるように閾値を決定した場合の推定結果である。図8より、特殊音声の発生位置は音韻の種類やアクセントに関わる情報から高精度に推定可能であることが示されている。
次に先に述べたように構成された音声合成装置の動作を図9に従って説明する。
まず、感情入力部202に感情制御情報が入力され、感情種類が抽出される(S2001)。感情制御情報は、例えば「怒り」「喜び」「悲しみ」といった感情の種類をいくつか提示するインタフェースからユーザが選択して入力するものとする。ここでは、S2001において「怒り」が入力されたとものとする。
特徴的音色選択部203は、入力された感情種類「怒り」に基づき、「怒り」の音声に特徴的に現れる音色、例えば「力み」を選択する(S2002)。
次に推定式選択部621は音色指定情報を取得し、推定式・閾値記憶部620を参照して、指定された音色ごとに設定された推定式と判定閾値とより特徴的音色選択部203より取得した音色指定情報、すなわち「怒り」に特徴的に現れる「力み」の音色に対応する推定式F1と判定閾値TH1とを取得する(S6003)。
図10は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。ここでは、特徴的音色として「力み」を選択した場合について説明する。
まず、学習用の音声データ中の各モーラについて、推定式の独立変数として、子音の種類と、母音の種類と、アクセント句中の正順位置とが設定される(S2)。また、上述の各モーラについて、推定式の従属変数として、特徴的音色(力み)で発声されているか否かを2値で表した変数が設定される(S4)。次に、各独立変数のカテゴリ重みとして、子音の種類毎の重み、母音の種類毎の重みおよびアクセント句中の正順位置ごとの重みが、数量化II類に従い、算出される(S6)。また、各独立変数のカテゴリ重みを音声データ中の各モーラの属性条件に当てはめることにより、特徴的音色(力み)で発声される「力み易さ」が算出される(S8)。
図11は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフであり、「力み易さ」は、「−5」から「5」までの数値で示されており、数値が小さいほど、発声した際に力みやすいと推定される。ハッチングを施した棒グラフは、実際に発声した際に特徴的音色で発声された(力みが生じた)モーラにおける頻度を示しており、ハッチングを施していない棒グラフは、実際に発声した際に特徴的音色で発声されなかった(力みが生じなかった)モーラにおける頻度を示している。
このグラフにおいて、実際に特徴的音色(力み)で発声されたモーラ群と、特徴的音色(力み)で発声されなかったモーラ群の「力み易さ」の値とが比較され、特徴的音色(力み)で発声されたモーラ群と特徴的音色(力み)で発声されなかったモーラ群との両群の正解率が共に75%を超えるように、「力み易さ」から特徴的音色(力み)で発声されると判断するための閾値が設定される(S10)。
以上のようにして、「怒り」に特徴的に現れる「力み」の音色に対応する推定式F1と判定閾値TH1とを求められる。
なお、「喜び」や「悲しみ」といった他の感情に対応する特殊音声についても、特殊音声ごとに同様に推定式と閾値とが設定されているものとする。
一方、言語処理部101は、入力されたテキストを形態素解析、構文解析し、音韻列と、アクセント位置、形態素の品詞、文節間の結合度および文節間距離等の言語情報とを出力する(S2005)。
韻律生成部205は、音韻列と言語情報と、さらに感情種類情報すなわち感情種類「怒り」を指定する情報とを取得し、言語的意味を伝えかつ指定された感情種類「怒り」にあわせた韻律情報を生成する(S2006)。
特徴的音色音韻推定部622は、S2005で生成された音韻列とS2006で生成された韻律情報とを取得し、S6003で選択された推定式を音韻列中の各音韻に当てはめて値を求め、同じくS6003で選択された閾値と比較する。特徴的音色音韻推定部622は、推定式の値が閾値を越えた場合には、当該音韻を特殊音声で発声することを決定する(S6004)。すなわち、特徴的音色音韻推定部622は、「怒り」に対応する特殊音声「力み」の発生を推定する数量化II類による推定式に、当該音韻の子音、母音、アクセント区内の位置を当てはめて、推定式の値を求める。特徴的音色音韻推定部622は、当該値が閾値を越えた場合には当該音韻が「力み」の特殊音声で合成音を生成すべきであると判断する。
素片選択部606は、韻律生成部205より音韻列と韻律情報とを取得する。また、素片選択部606は、S6004で特徴的音色音韻推定部622で決定された特殊音声で合成音を生成する音韻の情報を取得して、合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する(S6007)。
さらに、素片選択部606は、S6007で決定された特殊音声素片を使用する素片位置と使用しない素片位置とに応じて、標準音声素片データベース207と指定された種類の特殊音声素片を格納した特殊音声素片データベース208とのうちいずれかとの接続をスイッチ210により切り替えて、合成に必要な音声素片を選択する(S2008)。
この例においては、スイッチ210は、標準音声素片データベース207と特殊音声素片データベース208のうち「力み」の素片データベースとを切り替える。
素片接続部209は、波形重畳方式により、S2008で選択された素片を、取得した韻律情報に従って変形して接続し(S2009)、音声波形を出力する(S2010)。なお、S2008で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。
かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部202と、感情の種類に対応する特徴的音色の種類を選択する特徴的音色選択部203と、推定式・閾値記憶部620、推定式選択部621および特徴的音色音韻推定部622からなり、合成する音声中で特徴的音色を持つ特殊音声で生成すべき音韻を決定する特徴的音色時間位置推定部604と、標準音声素片データベース207の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース208とを備えている。このことにより、本実施の形態に係る音声合成装置は、入力された感情の種類に応じて、感情が付与された音声の発話の一部に出現する特徴的な音色の音声を生成すべき時間位置を、音韻列、韻律情報または言語情報等より、モーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。
さらには、本実施の形態に係る音声合成装置は、韻律や声質の変化ではなく、「特徴的な声質の発声により感情や表情等を表現する」という人間の発話の中で自然にかつ普遍的に行われている行動を、音韻位置の精度で正確に模擬することができる。このため、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。
(変形構成例1)
なお、本実施の形態において、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図12に示すように、音声合成装置は、パラメータ素片を選択する素片選択部706と、標準音声パラメータ素片データベース307と、特殊音声変換規則記憶部308と、パラメータ変形部309と、波形生成部310とを設けるようにしてもよい。
標準音声パラメータ素片データベース307は、パラメータで記述された音声素片を記憶している記憶装置である。特殊音声変換規則記憶部308は、特徴的音色の音声のパラメータを標準音声のパラメータから生成するための特殊音声変換規則を記憶している記憶装置である。パラメータ変形部309は、特殊音声変換規則に従って標準音声のパラメータを変形して所望の韻律の音声のパラメータ列(合成パラメータ列)を生成する処理部である。波形生成部310は、合成パラメータ列から音声波形を生成する処理部である。
図13は、図12に示した音声合成装置の動作を示すフローチャートである。図9に示した処理と同じ処理については説明を適宜省略する。
本実施の形態の図9に示したS6004において、特徴的音色音韻推定部622は合成する音声中で特殊音声を生成する音韻を決定したが、図13では特に音韻をモーラで指定した場合について示している。
特徴的音色音韻推定部622は、特殊音声を生成するモーラを決定する(S6004)。素片選択部706は、音韻列を素片単位列に変換し、素片種類と言語情報と韻律情報とに基づいて標準音声パラメータ素片データベース307よりパラメータ素片を選択する(S3007)。パラメータ変形部309は、S3007で素片選択部706により選択されたパラメータ素片列をモーラ単位に変換し、S6004で特徴的音色音韻推定部622により決定された合成する音声中の特殊音声を生成するモーラ位置に従って、特殊音声に変換すべきパラメータ列を特定する(S7008)。
さらに、パラメータ変形部309は、特殊音声変換規則記憶部308に特殊音声の種類ごとに記憶された標準音声を特殊音声に変換する変換規則より、S2002で選択された特殊音声に対応する変換規則を取得する(S3009)。パラメータ変形部309は、S7008で特定されたパラメータ列を変換規則に従って変換し(S3010)、さらに韻律情報にあわせて変形する(S3011)。
波形生成部310は、パラメータ変形部309より出力された変形済みのパラメータ列を取得し、音声波形を生成、出力する(S3021)。
(変形構成例2)
なお、本実施の形態において、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図14に示すように、音声合成装置は、標準音声のパラメータ列を生成する合成パラメータ生成部406と、特殊音声変換規則記憶部308と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部309と、波形生成部310とを設けるようにしてもよい。
図15は、図14に示した音声合成装置の動作を示すフローチャートである。図9に示した処理と同じ処理については適宜説明を省略する。
本音声合成装置では、図9に示した本実施の形態に係る音声合成装置の処理においてS6004以降の処理が異なる。すなわち、S6004の処理の後、合成パラメータ生成部406は、S2005で言語処理部101により生成された音韻列および言語情報と、S2006で韻律生成部205により生成された韻律情報とに基づいて、例えば隠れマルコフモデル(HMM)のような統計学習を用いてあらかじめ定められたルールに基づき、標準音声の合成パラメータ列を生成する(S4007)。
パラメータ変形部309は、特殊音声変換規則記憶部308に特殊音声の種類ごとに記憶された標準音声を特殊音声に変換する変換規則より、S2002で選択された特殊音声に対応する変換規則を取得する(S3009)。パラメータ変形部309は、特殊音声に変形する音韻に相当するパラメータ列を変換規則に従って変換し、当該音韻のパラメータを特殊音声のパラメータに変換する(S3010)。波形生成部310は、パラメータ変形部309より出力された変形済みのパラメータ列を取得し、音声波形を生成、出力する(S3021)。
(変形構成例3)
なお、本実施の形態において、素片選択部206、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図16に示すように、音声合成装置は、標準音声のパラメータ列を生成する標準音声パラメータ生成部507と、特徴的音色の音声のパラメータ列を生成する少なくとも1つの特殊音声パラメータ生成部508(特殊音声パラメータ生成部508a,508b,508c)と、標準音声パラメータ生成部507と、特殊音声パラメータ生成部508とを切り替えるスイッチ509と、合成パラメータ列から音声波形を生成する波形生成部310とを設けるようにしてもよい。
図17は、図16に示した音声合成装置の動作を示すフローチャートである。図9に示した処理と同じ処理については適宜説明を省略する。
S2006の処理の後、S6004で生成された特殊音声を生成する音韻情報とS2002で生成された音色指定とに基づいて、特徴的音色音韻推定部622は、音韻ごとにスイッチ809を操作して、合成パラメータの生成を行うパラメータ生成部を切り替えて、韻律生成部205と標準音声パラメータ生成部507および音色指定に対応する特殊音声を生成する特殊音声パラメータ生成部508のいずれかとの間をつなぐ。また、特徴的音色音韻推定部622は、S6004で生成された特殊音声を生成する音韻の情報に対応して標準音声と特殊音声とのパラメータが配置された合成パラメータ列を生成する(S8008)。
波形生成部310は、パラメータ列より音声波形を生成、出力する(S3021)。
なお、本実施の形態では感情強度は固定として、感情種類ごとに記憶された推定式と閾値を用いて特殊音声を生成する音韻位置を推定したが、複数の感情強度の段階を用意し、感情種類と感情強度の段階ごとに推定式と閾値とを記憶しておき、感情種類と感情強度と合わせて、推定式と閾値とを用いて特殊音声を生成する音韻位置を推定するものとしても良い。
なお、本実施の形態1における音声合成装置をLSI(集積回路)で実現すると、特徴的音色選択部203、特徴的音色時間位置推定部604、言語処理部101、韻律生成部205、素片選択部605、素片接続部209の全てを1つのLSIで実現することができる。または、それぞれの処理部を1つのLSIで実現することができる。さらに、それぞれの処理部を複数のLSIで実現することもできる。標準音声素片データベース207、特殊音声素片データベース208a、208b、208cは、LSIの外部の記憶装置により実現してもよいし、LSIの内部に備えられたメモリにより実現してもよい。LSIの外部の記憶装置で当該データベースを実現する場合には、インターネット経由でデータベースのデータを取得しても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限られるものではなく、専用回路または汎用プロセサにより実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて音声合成装置を構成する処理部の集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
さらに、本実施の形態1における音声合成装置をコンピュータで実現することもできる。図18は、コンピュータの構成の一例を示す図である。コンピュータ1200は、入力部1202と、メモリ1204と、CPU1206と、記憶部1208と、出力部1210とを備えている。入力部1202は、外部からの入力データを受け付ける処理部であり、キーボード、マウス、音声入力装置、通信I/F部等から構成される。メモリ1204は、プログラムやデータを一時的に保持する記憶装置である。CPU1206は、プログラムを実行する処理部である。記憶部1208は、プログラムやデータを記憶する装置であり、ハードディスク等からなる。出力部1210は、外部にデータを出力する処理部であり、モニタやスピーカ等からなる。
音声合成装置をコンピュータで実現した場合には、特徴的音色選択部203、特徴的音色時間位置推定部604、言語処理部101、韻律生成部205、素片選択部605、素片接続部209は、CPU1206上で実行されるプログラムに対応し、標準音声素片データベース207、特殊音声素片データベース208a、208b、208cは、記憶部1208に記憶される。また、CPU1206で計算された結果は、メモリ1204や記憶部1208に一旦記憶される。メモリ1204や記憶部1208は、特徴的音色選択部203等の各処理部とのデータの受け渡しに利用されてもよい。また、本実施の形態に係る音声合成装置をコンピュータに実行させるためのプログラムは、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、不揮発性メモリ等に記憶されていてもよいし、インターネットを経由してコンピュータ1200のCPU1206に読み込まれてもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
(実施の形態2)
図19および図20は、本発明の実施の形態2の音声合成装置の機能ブロック図である。図19において、図4および図5と同じ構成要素については同じ符号を用い、適宜説明を省略する。
図19に示されるように、実施の形態2に係る音声合成装置は、感情入力部202と、特徴的音色選択部203と、言語処理部101と、韻律生成部205と、特徴的音色音韻頻度決定部204と、特徴的音色時間位置推定部804と、素片選択部606と、素片接続部209とを備えている。
感情入力部202は、感情種類を出力する処理部である。特徴的音色選択部203は、音色指定情報を出力する処理部である。言語処理部101は、音韻列と言語情報を出力する処理部である。韻律生成部205は、韻律情報を生成する処理部である。
特徴的音色音韻頻度決定部204は、音色指定情報、音韻列、言語情報および韻律情報を取得して、合成する音声中で特徴的音色である特殊音声を生成する頻度を決定する処理部である。特徴的音色時間位置推定部804は、特徴的音色音韻頻度決定部204によって生成された頻度に従って、合成する音声中で特殊音声を生成する音韻を決定する処理部である。素片選択部606は、指定された特殊音声を生成する音韻についてはスイッチを切り替えて該当する特殊音声素片データベース208から音声素片を選択し、それ以外の音韻については標準音声素片データベース207より素片を選択する処理部である。素片接続部209は、素片を接続して音声波形を生成する処理部である。
換言すれば、特徴的音色音韻頻度決定部204は、特徴的音色選択部203で選択された特殊音声を合成する音声中にどの程度の頻度で使用するかを感情入力部202より出力された感情の強度に従って決定する処理部である。図20に示されるように、特徴的音色音韻頻度決定部204は、感情強度−頻度変換規則記憶部220と、感情強度特徴的音色頻度変換部221とから構成される。
感情強度−頻度変換規則記憶部220は、合成音声に付与する感情あるいは表情ごとにあらかじめ設定された感情強度を特殊音声の生成頻度に変換する規則を記憶している記憶装置である。感情強度特徴的音色頻度変換部221は、合成音声に付与する感情あるいは表情に対応する感情強度−頻度変換規則を感情強度−頻度変換規則記憶部220より選択して、感情強度を特殊音声の生成頻度に変換する処理部である。
特徴的音色時間位置推定部804は、推定式記憶部820と、推定式選択部821と、確率分布保持部822と、判定閾値決定部823と、特徴的音色音韻推定部622とを備えている。
推定式記憶部820は、特殊音声を生成する音韻を推定する推定式を特徴的音色の種類ごとに記憶する記憶装置である。推定式選択部821は、音色指定情報を取得して、推定式・閾値記憶部620より音色の種類にしたがって推定式を選択する処理部である。確率分布保持部822は、特殊音声の発生確率と推定式の値との関係を確率分布として特徴的音色の種類ごとに記憶した記憶装置である。判定閾値決定部823は、推定式を取得して、確率分布保持部822に格納された生成する特殊音声に対応する特殊音声の確率分布を参照して、特殊音声を生成するか否かを判定する推定式の値に対する閾値を決定する処理部である。特徴的音色音韻推定部622は、音韻列および韻律情報を取得して各音韻を特殊音声で生成するか否かを推定式と閾値とにより決定する処理部である。
実施の形態2の構成による音声合成装置の動作を説明する前に、特徴的音色音韻頻度決定部204が特殊音声の合成音中における発生頻度を感情の強度に従って決定する背景について説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音響学会誌51巻11号(1995),pp869−875粕谷英樹・楊長盛“音源から見た声質”)。
本願発明に先立って同一テキストに基づいて発話された50文について無表情な音声、中程度の感情を伴う音声、強い感情を伴う音声の調査を行った。図21は2名の話者について「怒り」の感情表現を伴った音声中の「力んだ」音、上記文献中では「ざらざら声(harsh voice)」と記述されている音声に近い音の発生頻度を示したものである。話者1では全体的に「力んだ」音あるいは「ざらざら声(harsh voice)」とも呼ばれる音の発生頻度が高く、話者2では発生頻度が全体的に低い。このように話者による発生頻度の差はあるものの、感情の強度が強くなるにつれて「力んだ」音の頻度が上昇する傾向は共通である。感情や表情を伴った音声において、発話中に出現する特徴的な音色をもつ音声の頻度はその感情や表情の強さと関係があるといえる。
さらに、図7(a)は、話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図7(b)は、話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。同様に、図7(c)は、話者1について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音の頻度を示したグラフである。図7(d)は、話者2について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音の頻度を示したグラフである。
実施の形態1において説明したように図7(a)および図7(b)に示したグラフより「力んだ」音声は、子音「t」「k」「d」「m」「n」あるいは子音無しの場合に発生頻度が高く、子音「p」「ch」「ts」「f」などでは発生頻度が低いという偏りの傾向が話者1と話者2との間で共通している。それのみならず、図7(a)および図7(c)に示したグラフ同士の比較、ならびに図7(b)および図7(d)に示したグラフ同士の比較から明らかなように、「強い怒り」の感情表現を伴う音声と「中程度の怒り」の感情表現を伴う音声とにおいて、子音「t」「k」「d」「m」「n」あるいは子音無しの場合には発生頻度が高く、子音「p」「ch」「ts」「f」などでは発生頻度が低いという子音の種類による特殊音声の発生頻度の偏りの傾向は同じまま、感情の強度によって発生頻度が変化している。さらに、感情の強度が異なっても偏りの傾向は同じであるが、特殊音声の全体の発生頻度は感情の強度で異なるという特徴は話者1、話者2に共通している。翻って、感情や表情の強度を制御してより自然な表現を合成音声に付与するためには、発話中のより適切な部分に特徴的な音色を持つ音声を生成することが必要である上に、その特徴的な音色を持つ音声を適切な頻度で生成することが必要となる。
特徴的な音色の発生の仕方には話者に共通する偏りがあることから、合成する音声の音韻列に対して、特殊音声の発生位置は音韻の種類等の情報から推定できることは実施の形態1で述べたが、さらに感情の強度が変わっても特殊音声の発生の仕方の偏りは変わらず、全体の発生頻度が感情あるいは表情の強度に伴って変化する。このことから、合成しようとする音声の感情や表情の強度に合わせた特殊音声の発生頻度を設定し、その発生頻度を実現するように、音声中の特殊音声の発生位置を推定することが可能であると考えられる。
次に音声合成装置の動作を図22に従って説明する。図22において、図9と同じ動作については同じ符号を用い、説明を省略する。
まず、感情入力部202に感情制御情報として例えば「怒り・3」が入力され、感情種類「怒り」と感情強度「3」とが抽出される(S2001)。感情強度は、例えば感情の強度を5段階で表現したものであり、無表情な音声を0として、わずかに感情あるいは表情が加わる程度を1とし、音声表現として通常観察される最も強い表現を5として、数字が大きくなるほど感情あるいは表情の強度が高くなるように設定されたものとする。
特徴的音色選択部203は、感情入力部202から出力される感情種類「怒り」と感情あるいは表情の強度(例えば、感情強度情報「3」)とに基づき、特徴的音色として例えば、「怒り」の音声中に発生する「力み」音声を選択する(S2002)。
次に感情強度特徴的音色頻度変換部221は、「力み」音声を指定する音色指定情報と感情強度情報「3」とに基づいて、感情強度−頻度変換規則記憶部220を参照して、指定された音色ごとに設定された感情強度−頻度変換規則を取得する(S2003)。この例では「怒り」を表現するための「力み」音声の変換規則を取得する。変換規則は、例えば図23に示すような特殊音声の発生頻度と感情あるいは表情の強度との関係を示した関数である。関数は、感情あるいは表情ごとに、様々な強度を示している音声を収集し、音声中に特殊音声が観察された音韻の頻度とその音声の感情あるいは表情の強度との関係を統計的モデルに基づいて学習させて作成したものである。なお、変換規則は、関数として指定する以外に、各強度に対応する頻度を対応表として記憶しているものとしても良い。
感情強度特徴的音色頻度変換部221は、図23のように、指定された感情強度を変換規則に当てはめ、指定された感情強度に対応した合成音声中で特殊音声素片を使用する頻度を決定する(S2004)。一方、言語処理部101は、入力されたテキストを形態素解析および構文解析し、音韻列と言語情報とを出力する(S2005)。韻律生成部205は、音韻列と言語情報と、さらに感情種類情報とを取得し、韻律情報を生成する(S2006)。
推定式選択部821は、特殊音声指定と特殊音声頻度とを取得し、推定式記憶部820を参照して、特殊音声ごとに設定された推定式の中から指定された特殊音声「力み」に対応する推定式を取得する(S9001)。判定閾値決定部823は、推定式と頻度とを取得し、指定された特殊音声に対応する推定式の確率分布を確率分布保持部822より取得し、図24に示すように、S2004で決定された特殊音声の頻度に対応する推定式に対する判定閾値を決定する(S9002)。
確率分布は、例えば以下のようにして設定される。推定式が実施の形態1と同様に数量化II類の場合、当該音韻の子音と母音の種類、アクセント句内の位置等の属性により一意に値が決定される。この値は当該音韻で特殊音声が発生する発生のしやすさを示している。先に図7および図21に基づいて説明したとおり、特殊音声の発生しやすさの偏りは、話者、感情あるいは表情の強度に対して共通である。このため、数量化II類による推定式は、感情あるいは表情の強度によって変更する必要は無く、強度が異なっても共通の推定式により各音韻の「特殊音声の発生のしやすさ」を求めることができる。そこで、怒りの強度が5の音声データより作成した推定式を、怒りの強度が4、3、2、1の音声データに適用して、実際に観察された特殊音声に対して75%の正解率になるような判断閾値となる推定式の値をそれぞれの強度の音声に対して求める。図21に示したように、感情あるいは表情の強度に伴って特殊音声の発生頻度は変わるため、それぞれの強度の音声データすなわち怒りの強度が4、3、2、1の音声データで観察された特殊音声の発生頻度と、特殊音声の発生を75%の正解率で判定しうる推定式の値とを図24のグラフのような軸上にプロットし、スプライン補間あるいはシグモイド曲線への近似等により滑らかにつないで確率分布を設定する。なお、確率分布は図24のような関数に限らず、推定式の値と特殊音声の発生頻度とを対応付ける対応表として記憶されていても良い。
特徴的音色音韻推定部622は、S2005で生成された音韻列とS2006で生成された韻律情報とを取得し、S9001で選択された推定式を音韻列中の各音韻に当てはめて値を求め、S9002で決定された閾値と比較し、推定式の値が閾値を越えた場合には当該音韻を特殊音声で発声することを決定する(S6004)。
素片選択部606は、韻律生成部205より音韻列と韻律情報とを取得し、さらにS6004において特徴的音色音韻推定部622で決定された特殊音声で合成音を生成する音韻の情報を取得し、合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する(S6007)。さらに素片選択部606は、S6007で決定した特殊音声素片を使用する素片位置と、使用しない素片位置とに応じて、標準音声素片データベース207と指定された種類の特殊音声素片を格納した特殊音声素片データベース208のうちいずれかとの接続をスイッチ210により切り替えて合成に必要な音声素片を選択する(S2008)。素片接続部209は、波形重畳方式により、S2008で選択された素片を、取得した韻律情報に従って変形して接続し(S2009)、音声波形を出力する(S2010)。なお、S2008で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。
かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部202と、感情の種類に対応する特徴的音色の種類を選択する特徴的音色選択部203と、特徴的音色音韻頻度決定部204と、推定式記憶部820、推定式選択部821、確率分布保持部822、判定閾値決定部823および特徴的音色音韻推定部622からなり、指定された頻度に応じて合成する音声中で特徴的音色を持つ特殊音声で生成すべき音韻を決定する特徴的音色時間位置推定部804と、標準音声素片データベース207の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース208とを備えている。
このことにより、入力された感情の種類と強度とに応じて、感情が付与された音声の発話の一部に出現する特徴的な音色の音声を生成すべき頻度を決定し、その頻度に応じて特徴的な音色の音声を生成する時間位置を、音韻列、韻律情報または言語情報等より、モーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。
さらには韻律や声質の変化ではなく、特徴的な声質の発生による感情や表情等を表現する、という人間の発話の中で自然に、かつ普遍的に行われている行動を音韻位置の精度で正確に模擬することができ、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。
なお、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208および素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図12のように、実施の形態1と同様に、パラメータ素片を選択する素片選択部706と、標準音声パラメータ素片データベース307と、特殊音声変換規則記憶部308と、パラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
また、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式の実現方法を示したが、図14のように、実施の形態1と同様、標準音声のパラメータ列を生成する合成パラメータ生成部406と、特殊音声変換規則記憶部308と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
さらに、本実施の形態において、音声合成装置が、素片選択部206、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式の実現方法を示したが、図16のように、実施の形態1と同様、標準音声のパラメータ列を生成する標準音声パラメータ生成部507と、特徴的音色の音声のパラメータ列を生成する1つまたは複数の特殊音声パラメータ生成部508と、標準音声パラメータ生成部507と特殊音声パラメータ生成部508とを切り替えるスイッチ509と、合成パラメータ列から音声波形を生成する波形生成部310とを備え音声合成装置を構成するようにしてもよい。
なお、本実施の形態では、確率分布保持部822が特徴的音色音韻の発生頻度と推定式の値との関係を確率分布として表したものを保持し、判定閾値決定部823は確率分布保持部822を参照して閾値を決定するとしたが、発生頻度として意識の値の関係は確率分布としてではなく、対応表の形式で保持するものとしても良い。
(実施の形態3)
図25は、本発明の実施の形態3の音声合成装置の機能ブロック図である。図25において、図4および図19と同じ構成要素については同じ符号を用い、適宜説明を省略する。
図25に示されるように、実施の形態3に係る音声合成装置は、感情入力部202と、要素感情音色選択部901と、言語処理部101と、韻律生成部205と、特徴的音色時間位置推定部604と、素片選択部606と、素片接続部209とを備えている。
感情入力部202は、感情種類を出力する処理部である。要素感情音色選択部901は、入力された感情を表現する音声に含まれる1種類以上の特徴的な音色の種類と、特徴的音色ごとの、合成する音声中の生成頻度とを決定する処理部である。言語処理部101は、音韻列と言語情報を出力する処理部である。韻律生成部205は、韻律情報を生成する処理部である。特徴的音色時間位置推定部604は、音色指定情報、音韻列、言語情報および韻律情報を取得して要素感情音色選択部901によって生成された特徴的音色ごとの頻度に従って、合成する音声中で特殊音声を生成する音韻を特殊音声の種類ごとに決定する処理部である。
素片選択部606は、指定された特殊音声を生成する音韻についてはスイッチを切り替えて該当する特殊音声素片データベース208から音声素片を選択し、それ以外の音韻については標準音声素片データベース207より素片を選択する処理部である。素片接続部209は、素片を接続して音声波形を生成する処理部である。
要素感情音色選択部901は、要素音色テーブル902と、要素音色選択部903とを備えている。
図26に示されるように、要素音色テーブル902には、入力された感情を表現する音声に含まれる1種類以上の特徴的な音色とその出現頻度とが組として記憶されている。要素音色選択部903は、感情入力部202より取得した感情種類に従って、要素音色テーブル902を参照して音声に含まれる1種類以上の特徴的な音色とその出現頻度とを決定する処理部である。
次に音声合成装置の動作を図27に従って説明する。図27において、図9および図22と同じ動作については同じ符号を用い、説明を省略する。
まず、感情入力部202に感情制御情報が入力され、感情種類が抽出される(S2001)。要素音色選択部903は、抽出された感情種類を取得し、要素音色テーブル902を参照して、感情の種類に応じた1種類以上の特徴的音色を持つ特殊音声と、その特殊音声が合成する音声中で生成される頻度の対データを取得し、出力する(S10002)。
一方、言語処理部101は、入力されたテキストを形態素解析および構文解析し、音韻列と言語情報とを出力する(S2005)。韻律生成部205は、音韻列と言語情報と、さらに感情種類情報とを取得し、韻律情報を生成する(S2006)。
特徴的音色時間位置推定部604は、指定された1種類以上の特殊音声にそれぞれ対応する推定式を選択し(S9001)、指定された各特殊音声の頻度に応じて推定式の値に対応する判定閾値を決定する(S9002)。特徴的音色時間位置推定部604は、S2005で生成された音韻情報と、S2006で生成された韻律情報とを取得し、さらにS9001で選択された推定式とS9002で決定された閾値とを取得して、合成する音声中で特殊音韻を生成すべき音韻を決定し、特殊音声素片マークをつける(S6004)。素片選択部606は、韻律生成部205より音韻列と韻律情報とを取得し、さらにS6004において特徴的音色音韻推定部622で決定された特殊音声で合成音を生成する音韻の情報を取得して合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する(S6007)。
さらに素片選択部606はS6007で決定した特殊音声素片を使用する素片位置と、使用しない素片位置とに応じて、標準音声素片データベース207と指定された種類の特殊音声素片を格納した特殊音声素片データベース208のうちいずれかとの接続をスイッチ210により切り替えて合成に必要な音声素片を選択する(S2008)。素片接続部209は、波形重畳方式により、S2008で選択された素片を、取得した韻律情報に従って変形して接続し(S2009)、音声波形を出力する(S2010)。なお、S2008で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。
図28は、以上の処理により「じゅっぷんほどかかります」という音声を合成をした際の特殊音声の位置の一例を示した図である。すなわち、3つの特殊な音色が交じり合わないように特殊音声素片を使用する位置が決定される。
かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部202と、感情の種類に対応して、1つ以上の種類の特徴的音色と特徴的音色ごとにあらかじめ設定された頻度に従って、1つ以上の種類の特徴的音色と特徴的音色ごとの頻度を生成する要素感情音色選択部901と、特徴的音色時間位置推定部604と、標準音声素片データベース207の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース208とを備えている。
このことにより、入力された感情の種類に応じて、感情が付与された音声の発話の一部に出現する複数種類の特徴的な音色の音声を決定し、特殊音声の種類ごとに音声を生成すべき頻度を決定し、その頻度に応じて特徴的な音色の音声を生成する時間位置を、音韻列、韻律情報または言語情報等よりモーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。
さらには韻律や声質の変化ではなく、特徴的な声質の発声により感情や表情等を表現する、という人間の発話の中で自然に、かつ普遍的に行われている行動を音韻位置の精度で正確に模擬することができ、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。
なお、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208および素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図12のように、実施の形態1および2と同様に、パラメータ素片を選択する素片選択部706と、標準音声パラメータ素片データベース307と、特殊音声変換規則記憶部308と、パラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
また、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図14のように、実施の形態1および2と同様に、標準音声のパラメータ列を生成する合成パラメータ生成部406と、特殊音声変換規則記憶部308と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
さらに、本実施の形態において、音声合成装置が、素片選択部206、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図16のように、実施の形態1および2と同様に、標準音声のパラメータ列を生成する標準音声パラメータ生成部507と、特徴的音色の音声のパラメータ列を生成する1つまたは複数の特殊音声パラメータ生成部508と、標準音声パラメータ生成部507と特殊音声パラメータ生成部508とを切り替えるスイッチ509と合成パラメータ列から音声波形を生成する波形生成部310とを備え音声合成装置を構成するようにしてもよい。
なお、本実施の形態では確率分布保持部822が特徴的音色音韻の発生頻度と推定式の値との関係を確率分布関数として表したものを保持し、判定閾値決定部823は確率分布保持部822を参照して閾値を決定するとしたが、発生頻度と推定式の値との関係は対応表の形式で保持するものとしても良い。
なお、本実施の形態では、感情入力部202は感情種類の入力を受付け、要素音色選択部903は感情種類のみに従って要素音色テーブル902に感情種類ごとに記憶された1つ以上の特徴的な音色の種類とその頻度を選択するものとしたが、要素音色テーブル902において、感情種類と感情強度ごとに特徴的音色の種類とその頻度の組み合わせを記憶する、あるいは感情種類ごとに特徴的音色の種類の組み合わせと、感情強度による各特徴的音色の頻度の変化を対応表あるいは対応関数として記憶するものとし、感情入力部202が感情種類と感情強度を受付け、要素音色選択部903が要素音色テーブル902を参照して感情種類と感情強度に従って特徴的な音色の種類とその頻度を決定するものとしても良い。
なお、実施の形態1〜3において、S2003、S6003あるいはS9001の直前に、言語処理部101によりテキストを言語処理し、音韻列と言語情報を生成する処理(S2005)と韻律生成部205により音韻列、言語情報および感情種類(または感情種類と強度)から韻律情報を生成する処理(S2006)とを行ったが、音韻列上で特殊音声を生成する位置を決定する処理(S2007、S3007、S3008、S5008、S6004)以前であればいつ実行しても良い。
なお、実施の形態1〜3において、言語処理部101が自然言語である入力テキストを取得し、S2005において音韻列および言語情報を生成するものとしたが、図29、図30、図31のように韻律生成部が言語処理済のテキストを取得するものとしても良い。言語処理済のテキストは少なくとも音韻列とアクセントの位置やポーズの位置、アクセント句の切れ目等を示す韻律記号を含む。実施の形態1〜3においては韻律生成部205および特徴的音色時間位置推定部604、804が言語情報を用いているため、言語処理済テキストはさらに品詞や係り受け等の言語情報を含むものとする。言語処理済テキストは、例えば図32のような形式である。図32(a)に示す言語処理済テキストは車載情報端末への情報提供サービスにおいてサーバから各端末への配信時に用いられる方式である。音韻列はカタカナで示され、アクセント位置は「’」で、アクセント句の句切れは「/」で示されて、文末の長いポーズは「.」の記号でそれぞれ示されている。図32(b)は、図32(a)に示す言語処理済テキストに、さらに言語情報として品詞情報を単語ごとに示したものである。もちろん言語情報はこれ以外の情報を含んでも良い。韻律生成部205が図32(a)に示したような言語処理済テキストを取得した場合、韻律生成部205はS2006において音韻列と韻律記号に基づき、指定されたアクセントやアクセント句の区切れを音声として実現するための、基本周波数、パワー、音韻時間長、ポーズ時間長等の韻律情報を生成するものとしても良い。韻律生成部205が、図32(b)のような言語情報を含む言語処理済テキストを取得した場合は、実施の形態1〜3のS2006と同様の動作により韻律情報を生成する。実施の形態1〜3において、特徴的音色時間位置推定部604は、韻律生成部205が図32(a)に示したような言語処理済テキストを取得した場合においても、図32(b)に示したような言語処理済テキストを取得した場合においても、S6004と同様に音韻列と韻律生成部205によって生成された韻律情報とに基づき特殊音韻で発生されるべき音韻を決定する。このように言語処理されていない自然言語で書かれたテキストを取得するのではなく、言語処理済テキストを取得して音声を合成するものとしても良い。また、言語処理済テキストは、図32では1文の音韻を1行に列挙する形式としたが、これ以外の例えば音韻、単語、文節のような単位ごとに音韻、韻律記号、言語情報を表にした形式のデータでも良い。
なお、実施の形態1〜3において、S2001で感情入力部202が感情種類、あるいは感情種類と感情強度とを取得し、言語処理部101が自然言語である入力テキストを取得したが、図33、図34のようにマークアップ言語解析部1001がVoiceXMLのような感情種類あるいは感情種類と感情の強度を示すタグが付与されたテキストを取得し、タグとテキスト部分とを分割し、タグの内容を解析して感情種類あるいは感情種類と感情強度を出力するものとしても良い。タグ付テキストは、例えば図35(a)のような形式とする。図35において記号「<>」で囲まれた部分がタグであり、「voice」は声に対する指定を行うコマンドであることを示し、「emotion=anger[5]」は、声の感情として怒りを指定し、その怒りの強度が5であることを示している。「/voice」は「voice」行で始まったコマンドの影響がここまで維持されることを示している。例えば実施の形態1あるいは実施の形態2では、マークアップ言語解析部1001は、図35(a)のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを特徴的音色選択部203および韻律生成部205へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部101へ出力するとしても良い。また、実施の形態3では、マークアップ言語解析部1001は、図35(a)のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを要素音色選択部903へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部101へ出力するとしても良い。
なお、実施の形態1〜3において、S2001で感情入力部202が感情種類、あるいは感情種類と感情強度を取得し、言語処理部101が自然言語である入力テキストを取得したが、図36、図37のようにマークアップ言語解析部1001が図35(b)のような少なくとも音韻列と韻律記号を含む言語処理済テキストに感情種類あるいは感情種類と感情の強度を示すタグが付与されたテキストを取得し、タグとテキスト部分とを分割し、タグの内容を解析して感情種類、あるいは感情種類と感情強度とを出力するものとしても良い。タグ付言語処理済テキストは、例えば図35(b)のような形式とする。例えば実施の形態1あるいは実施の形態2では、マークアップ言語解析部1001は、図35(b)のタグ付き言語処理済テキストを取得し、表現を支持したタグ部分と音韻列と韻律記号の部分とを分割し、タグの内容を解析して感情の種類と強度とを特徴的音色選択部203および韻律生成部205へ出力すると同時に、感情の種類と強度とあわせて、その感情を音声で表現すべき音韻列と韻律記号部分とを韻律生成部205へ出力するとしても良い。また、実施の形態3ではマークアップ言語解析部1001は、図35(b)のタグ付き言語処理済テキストを取得し、タグ部分と音韻列と韻律記号の部分とを分割し、タグの内容を解析して感情の種類と強度とを要素音色選択部903へ出力すると同時に、その感情を音声で表現すべき音韻列と韻律記号の部分とを韻律生成部205へ出力するとしても良い。
なお、実施の形態1〜3において、感情入力部202において感情種類、あるいは感情種類と感情強度とを取得したが、発話様態を決定するための情報として、これ以外に発声器官の緊張や弛緩、表情、発話スタイルや話し方などの指定を取得するものとしても良い。例えば発声器官の緊張であれば、「喉頭周辺緊張度3」というように喉頭や舌等の発声器官とその力の入り具合の情報を取得するとしてもよい。また、例えば発話スタイルであれば、「丁寧5」「堅苦しい2」のように発話の態度の種類とその程度や「親しい間」「顧客対応」のような話者の間柄のような発話の場面に関する情報を取得するとしても良い。
なお、実施の形態1〜3においては、特徴的音色(特殊音声)で発話するモーラを推定式に基づいて求めていたが、推定式において閾値を超えやすいモーラが予め分かっている場合には、そのモーラでは常に特徴的音色で発話するように合成音声を生成しても良い。例えば、特徴的音色が「力み」の場合には、以下の(1)〜(4)に示すモーラで、推定式が閾値を超えやすい。
(1)子音が/b/(両唇音でかつ音声破裂子音)であり、かつアクセント句の前から3番目のモーラ
(2)子音が/m/(両唇音でかつ鼻音)であり、かつアクセント句の前から3番目のモーラ
(3)子音が/n/(歯茎音でかつ鼻音)であり、かつアクセント句の先頭モーラ
(4)子音が/d/(歯茎音でかつ音声破裂子音)であり、かつアクセント句の先頭モーラ
また、特徴的音色が「かすれ」の場合には、以下の(5)〜(8)に示すモーラで、推定式が閾値を超えやすい。
(5)子音が/h/(喉頭音でかつ無声摩擦音)であり、かつアクセント句の先頭のモーラまたはアクセント句の前から3番目のモーラ
(6)子音が/t/(歯茎音でかつ無声破裂音)であり、かつアクセント句の前から4番目のモーラ
(7)子音が/k/(軟口蓋音でかつ無声破裂音)であり、かつアクセント句の前から5番目のモーラ
(8)子音が/s/(歯音でかつ無声摩擦音)であり、アクセント句の前から6番目のモーラ
本発明にかかる音声合成装置は、発声器官の緊張や弛緩、感情、表情、あるいは発話スタイルによって音声のところどころに出現する特定の発話様態による特徴的な音色の音声を生成することで音声の表現を豊かにする構成を有し、カーナビゲーション、テレビ、オーディオ等電子機器、あるいはロボット等の音声・対話インタフェース等として有用である。またコールセンターや、電話交換の自動電話応対システム等の用途にも応用できる。
本発明は発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルを表現することができる音声の生成を可能にする音声合成装置に関する。
従来、感情等の表現が可能な音声合成装置あるいは方法として、いったん標準的なあるいは無表情な音声を合成し、その合成音に類似し且つ感情等の表情のある音声に似た特徴ベクトルを持つ音声を選択して接続するものが提案されている(例えば、特許文献1参照)。
また、標準的なあるいは無表情な音声から感情等の表情のある音声へ合成パラメータを変換する関数をあらかじめニューラルネットを用いて学習させておき、標準的あるいは無表情な音声を合成するパラメータ列を学習された変換関数によってパラメータを変換するものも提案されている(例えば、特許文献2参照)。
さらに、標準的なあるいは無表情な音声を合成するパラメータ列の周波数特性を変形して声質を変換するものも提案されている(例えば、特許文献3参照)。
さらにまた、感情の程度を制御するために感情の程度によって変化率の異なるパラメータ変換関数を用いてパラメータを変換したり、複数の感情を混合するために、表現の異なる2種類の合成パラメータ列を補間してパラメータ列を生成するものも提案されている(例えば、特許文献4参照)。
これ以外にも、各感情表現を含む自然音声からそれぞれの感情に対応する隠れマルコフモデルによる音声生成モデルを統計的に学習し、モデル間の変換式を用意して、標準音声あるいは無表情な音声を、感情を表現する音声に変換する方式が提案されている(例えば、非特許文献1参照)。
図1は、特許文献4に記載された従来の音声合成装置を示すものである。
図1において、感情入力インタフェース部109は入力された感情制御情報を、図2のような各感情の割合の経時変化であるパラメータ変換情報に変換して、感情制御部108に出力する。感情制御部108は、あらかじめ定められた図3のような変換規則に従って、パラメータ変換情報を参照パラメータに変換し、韻律制御部103およびパラメータ制御部104の動作を制御する。韻律制御部103は、言語処理部101により生成された音韻列と言語情報とにより無感情韻律パタンを生成した後、無感情韻律パタンを感情制御部108で生成された参照パラメータに基づいて感情を伴った韻律パタンに変換する。さらに、パラメータ制御部104は、あらかじめ生成したスペクトルや発話速度等の無感情パラメータを、上述の参照パラメータを用いて感情パラメータに変換して合成音声に感情を付与する。
特開2004−279436号公報(第8−10頁、図5) 特開平7−72900号公報(第6−7頁、図1) 特開2002−268699号公報(第9−10頁、図9) 特開2003−233388号公報(第8−10頁、図1、図3、図6) 田村正統、益子貴史、徳田恵一および小林隆夫、「HMM音声合成に基づく声質変換における話者適応手法の検討」音響学会講演論文集,1巻、pp.319−320,1998
しかしながら、従来の構成では、感情ごとにあらかじめ定められた図3に示すような一様な変換規則に従ってパラメータ変換を行い、個々の音のパラメータの変化率によって感情の強度を表現しようとしている。このため、自然発話に見られる、同じ感情種類、感情強度であっても部分的に裏声になったり、部分的に力んだ声になったりするような声質のバリエーションを再現することはできず、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現することが困難であるという課題を有している。
本発明は、前記従来の課題を解決するもので、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現する音声合成装置を提供することを目的とする。
本発明のある局面に係る音声合成装置は、音声合成される音声波形の発話様態を取得する発話様態取得手段と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、音韻と韻律とに基づいて前記特徴的音色の発生のしやすさを判断するための規則を記憶している記憶手段と、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記規則とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段と、前記特徴的音色に基づいて、前記特徴的音色で発話する頻度を決定する頻度決定手段とを備え、前記発話位置決定手段は、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記規則と、前記頻度とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する。
この構成により、「怒り」などの感情表現を伴った発話中に、特徴的に出現する「力み」などの特徴的音色を混在させることができる。その際に、特徴的音色を混在させる位置が、発話位置決定手段により、特徴的音色、音韻列韻律および規則に基づいて、音韻ごとに決定される。このため、全ての音韻を特徴的音色で発話するような音声波形を生成するのではなく、適切な位置に特徴的音色を混在させることができる。よって、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現する音声合成装置を提供することができる
記頻度決定手段により、特徴的音色ごとに、当該特徴的音色で発話する頻度を決定することができる。このため、適切な割合で特徴的音色を音声中に混在させることができ、人間が聞いても違和感のない豊かな音声表現を実現することができる
ましくは、前記頻度決定手段は、モーラ、音節、音素または音声合成単位を単位として、前記頻度を決定することを特徴とする。
本構成によって、特徴的音色を持つ音声を生成する頻度を精度よく制御することができる。
本発明の他の局面に係る音声合成装置は、音声合成される音声波形の発話様態を取得する発話様態取得手段と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、音韻と韻律とに基づいて前記特徴的音色の発生のしやすさを判断するための規則を記憶している記憶手段と、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記規則とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段とを備え、前記特徴的音色選択手段は、発話様態と複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶する要素音色記憶部と、取得された前記発話様態に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択する選択部とを有し、前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組と、前記韻律と、前記規則とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する。
本構成によって、一つの発話様態による発話中に複数の特徴的音色による発話を混在させることができる。このため、より豊かな音声表現を実現する音声合成装置を提供することができる。
また、複数種類の特徴的音色のバランスが適切に制御され、合成する音声の表現を精度よく制御できる
発明の音声合成装置によれば、発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルごとに、自然音声中のところどころに観察される裏声や力んだ声のような特徴的音色による声質のバリエーションを再現することができる。また、本発明の音声合成装置によれば、この特徴的音色の音声の発生頻度により、発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルの表現の強度を制御し、さらに音声中の適切な時間位置で特徴的音色の音声を生成することができる。また、本発明の音声合成装置によれば、複数種類の特徴的音色の音声をバランスよく1発話の音声中に生成することにより複雑な音声の表現を制御することができる。
(実施の形態1)
図4および図5は、本発明の実施の形態1に係る音声合成装置の機能ブロック図である。図6は、図5に示す音声合成装置の推定式・閾値記憶部に記憶される情報の一例を示す図である。図7は自然発声音声での特徴的音色の出現頻度を子音ごとにまとめて示した図である。図8は特殊音声の発生位置の予測例を示す模式図である。図9は実施の形態1における音声合成装置の動作を示したフローチャートである。
図4に示されるように、実施の形態1に係る音声合成装置は、感情入力部202と、特徴的音色選択部203と、言語処理部101と、韻律生成部205と、特徴的音色時間位置推定部604と、標準音声素片データベース207と、特殊音声素片データベース208と、素片選択部606と、素片接続部209と、スイッチ210とを備えている。
感情入力部202は、感情制御情報の入力を受け付け、合成する音声に付与する感情種類を出力する処理部である。
特徴的音色選択部203は、感情入力部202が出力した感情種類に従って、合成する音声中に生成すべき特徴的音色を持った特殊音声の種類を選択し、音色指定情報を出力する処理部である。言語処理部101は、入力テキストを取得し、音韻列および言語情報を生成する処理部である。韻律生成部205は、感情入力部202より感情種類情報を取得し、さらに言語処理部101より音韻列および言語情報を取得して、韻律情報を生成する処理部である。ここで、本願では、韻律情報は、アクセント情報、アクセント句の区切れ情報、基本周波数、パワー、ならびに、音韻および無音区間の時間長を含むものと定義する。
特徴的音色時間位置推定部604は、音色指定情報、音韻列、言語情報および韻律情報を取得して、合成する音声中で特徴的音色である特殊音声を生成する音韻を決定する処理部である。特徴的音色時間位置推定部604の具体的な構成については後述する。
標準音声素片データベース207は、特殊な音色でない標準の音声を生成するための素片を格納したハードディスク等の記憶装置である。特殊音声素片データベース208a,208b,208cは、特徴的な音色の音声を生成するための素片を音色の種類ごとに格納したハードディスク等の記憶装置である。素片選択部606は、指定された特殊音声を生成する音韻については、スイッチ210を切り替えて該当する特殊音声素片データベース208から音声素片を選択し、それ以外の音韻については標準音声素片データベース207より素片を選択する処理部である。
素片接続部209は素片選択部606で選択された素片を接続して音声波形を生成する処理部である。スイッチ210は、素片選択部606が標準音声素片データベース207あるいは特殊音声素片データベース208のいずれかから素片を選択する際に、素片種類の指定に従って、接続するデータベースを切り替えるためのスイッチである。
図5に示されるように、特徴的音色時間位置推定部604は、推定式・閾値記憶部620と、推定式選択部621と、特徴的音色音韻推定部622とから構成される。
推定式・閾値記憶部620は、図6に示されるように、特殊音声を生成する音韻を推定する推定式と閾値とを特徴的音色の種類ごとに記憶する記憶装置である。推定式選択部621は、音色指定情報で指定された音色の種類にしたがって、推定式・閾値記憶部620より推定式と閾値とを選択する処理部である。特徴的音色音韻推定部622は、音韻列および韻律情報を取得し、各音韻を特殊音声で生成するか否かを、推定式と閾値とにより決定する処理部である。
実施の形態1の構成による音声合成装置の動作を説明する前に、特徴的音色時間位置推定部604が特殊音声の合成音中における時間位置を推定する背景を説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音響学会誌51巻11号(1995),pp869−875 粕谷英樹・楊長盛“音源から見た声質”)。なお、本願では、以降、話者の状況や意図などが言語的意味以上にあるいは言語的意味とは別に聴取者に伝えられるような音声の表現を「発話様態」と呼ぶ。発話様態は、発声器官の緊張や弛緩といった解剖学的、生理的状況や、感情や情動といった心理状態や、表情のような心理状態を反映する現象や、発話スタイルや話し方といった話者の態度や行動様式といった概念を含む情報によって決定される。後述の実施形態に従えば、発話様態を決定する情報として、例えば「怒り」、「喜び」、「悲しみ」、「怒り・3」のような感情の種類や、感情の強度などがあげられる。
ここでは、本願発明に先立って同一テキストに基づいて発話された50文について無表情な音声、感情を伴う音声の調査を行った。図7(a)は話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」音(あるいは上記文献中では「ざらざら声(harsh voice)」とも表現される音)で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフであり、図7(b)は話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図7(c)および図7(d)は、それぞれ図7(a)および図7(b)と同じ話者について「中程度の怒り」の感情表現を伴って音声中の「力んだ」音のモーラ頻度をモーラ内の子音ごとに示したグラフである。なお、「モーラ」とは、日本語音声における韻律の基本単位であり、単一の短母音、子音と短母音、子音と半母音と短母音で構成されるものと、モーラ音素のみから構成されるものとがある。特殊音声の発生頻度は子音の種類によって偏りがあり、例えば「t」「k」「d」「m」「n」あるいは子音無しの場合には発生頻度が高く、「p」「ch」「ts」「f」などでは発生頻度が低い。
図7(a)および図7(b)に示された2名の話者についてのグラフを比較すると、上記の子音の種類による特殊音声の発生頻度の偏りの傾向は同じであることがわかる。翻って、より自然な感情や表情を合成音声に付与するためには発話中のより適切な部分に特徴的な音色を持つ音声を生成することが必要となる。また、話者に共通する偏りがあることは、合成する音声の音韻列に対して、特殊音声の発生位置は音韻の種類等の情報から推定できる可能性を示している。
図8は、図7と同一のデータから統計的学習手法の1つである数量化II類を用いて作成した推定式により、例1「じゅっぷんほどかかります」と例2「あたたまりました」について「力んだ」音で発声されるモーラを推定した結果を示したものである。自然発話音声において特殊音声を発声したモーラ、および推定式・閾値記憶部に記憶されている推定式F1により特殊音声の発生が予測されたモーラのそれぞれについて、かな書きの下に線分を引いて示した。
図8に示す特殊音声の発生が予測されたモーラは、上述したように数量化II類による推定式F1に基づいて、特定される。推定式F1は、結果学習用データの各モーラについて、モーラに含まれる子音の種類および母音の種類または音韻のカテゴリといった音韻の種類を示す情報と、アクセント句内のモーラ位置の情報とを独立変数として表現し、「力んだ」音が発生したか否かの2値を従属変数として表現することにより、数量化II類により作成される。また、図8に示す特殊音声の発生が予測されたモーラは、学習用データの特殊音声の発生位置に対する正解率が約75%になるように閾値を決定した場合の推定結果である。図8より、特殊音声の発生位置は音韻の種類やアクセントに関わる情報から高精度に推定可能であることが示されている。
次に先に述べたように構成された音声合成装置の動作を図9に従って説明する。
まず、感情入力部202に感情制御情報が入力され、感情種類が抽出される(S2001)。感情制御情報は、例えば「怒り」「喜び」「悲しみ」といった感情の種類をいくつか提示するインタフェースからユーザが選択して入力するものとする。ここでは、S2001において「怒り」が入力されたものとする。
特徴的音色選択部203は、入力された感情種類「怒り」に基づき、「怒り」の音声に特徴的に現れる音色、例えば「力み」を選択する(S2002)。
次に推定式選択部621は音色指定情報を取得し、推定式・閾値記憶部620を参照して、指定された音色ごとに設定された推定式と判定閾値とより特徴的音色選択部203より取得した音色指定情報、すなわち「怒り」に特徴的に現れる「力み」の音色に対応する推定式F1と判定閾値TH1とを取得する(S6003)。
図10は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。ここでは、特徴的音色として「力み」を選択した場合について説明する。
まず、学習用の音声データ中の各モーラについて、推定式の独立変数として、子音の種類と、母音の種類と、アクセント句中の正順位置とが設定される(S2)。また、上述の各モーラについて、推定式の従属変数として、特徴的音色(力み)で発声されているか否かを2値で表した変数が設定される(S4)。次に、各独立変数のカテゴリ重みとして、子音の種類毎の重み、母音の種類毎の重みおよびアクセント句中の正順位置ごとの重みが、数量化II類に従い、算出される(S6)。また、各独立変数のカテゴリ重みを音声データ中の各モーラの属性条件に当てはめることにより、特徴的音色(力み)で発声される「力み易さ」が算出される(S8)。
図11は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフであり、「力み易さ」は、「−5」から「5」までの数値で示されており、数値が小さいほど、発声した際に力みやすいと推定される。ハッチングを施した棒グラフは、実際に発声した際に特徴的音色で発声された(力みが生じた)モーラにおける頻度を示しており、ハッチングを施していない棒グラフは、実際に発声した際に特徴的音色で発声されなかった(力みが生じなかった)モーラにおける頻度を示している。
このグラフにおいて、実際に特徴的音色(力み)で発声されたモーラ群と、特徴的音色(力み)で発声されなかったモーラ群の「力み易さ」の値とが比較され、特徴的音色(力み)で発声されたモーラ群と特徴的音色(力み)で発声されなかったモーラ群との両群の正解率が共に75%を超えるように、「力み易さ」から特徴的音色(力み)で発声されると判断するための閾値が設定される(S10)。
以上のようにして、「怒り」に特徴的に現れる「力み」の音色に対応する推定式F1と判定閾値TH1とを求められる。
なお、「喜び」や「悲しみ」といった他の感情に対応する特殊音声についても、特殊音声ごとに同様に推定式と閾値とが設定されているものとする。
一方、言語処理部101は、入力されたテキストを形態素解析、構文解析し、音韻列と、アクセント位置、形態素の品詞、文節間の結合度および文節間距離等の言語情報とを出力する(S2005)。
韻律生成部205は、音韻列と言語情報と、さらに感情種類情報すなわち感情種類「怒り」を指定する情報とを取得し、言語的意味を伝えかつ指定された感情種類「怒り」にあわせた韻律情報を生成する(S2006)。
特徴的音色音韻推定部622は、S2005で生成された音韻列とS2006で生成された韻律情報とを取得し、S6003で選択された推定式を音韻列中の各音韻に当てはめて値を求め、同じくS6003で選択された閾値と比較する。特徴的音色音韻推定部622は、推定式の値が閾値を越えた場合には、当該音韻を特殊音声で発声することを決定する(S6004)。すなわち、特徴的音色音韻推定部622は、「怒り」に対応する特殊音声「力み」の発生を推定する数量化II類による推定式に、当該音韻の子音、母音、アクセント区内の位置を当てはめて、推定式の値を求める。特徴的音色音韻推定部622は、当該値が閾値を越えた場合には当該音韻が「力み」の特殊音声で合成音を生成すべきであると判断する。
素片選択部606は、韻律生成部205より音韻列と韻律情報とを取得する。また、素片選択部606は、S6004で特徴的音色音韻推定部622で決定された特殊音声で合成音を生成する音韻の情報を取得して、合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する(S6007)。
さらに、素片選択部606は、S6007で決定された特殊音声素片を使用する素片位置と使用しない素片位置とに応じて、標準音声素片データベース207と指定された種類の特殊音声素片を格納した特殊音声素片データベース208とのうちいずれかとの接続をスイッチ210により切り替えて、合成に必要な音声素片を選択する(S2008)。
この例においては、スイッチ210は、標準音声素片データベース207と特殊音声素片データベース208のうち「力み」の素片データベースとを切り替える。
素片接続部209は、波形重畳方式により、S2008で選択された素片を、取得した韻律情報に従って変形して接続し(S2009)、音声波形を出力する(S2010)。なお、S2008で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。
かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部202と、感情の種類に対応する特徴的音色の種類を選択する特徴的音色選択部203と、推定式・閾値記憶部620、推定式選択部621および特徴的音色音韻推定部622からなり、合成する音声中で特徴的音色を持つ特殊音声で生成すべき音韻を決定する特徴的音色時間位置推定部604と、標準音声素片データベース207の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース208とを備えている。このことにより、本実施の形態に係る音声合成装置は、入力された感情の種類に応じて、感情が付与された音声の発話の一部に出現する特徴的な音色の音声を生成すべき時間位置を、音韻列、韻律情報または言語情報等より、モーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。
さらには、本実施の形態に係る音声合成装置は、韻律や声質の変化ではなく、「特徴的な声質の発声により感情や表情等を表現する」という人間の発話の中で自然にかつ普遍的に行われている行動を、音韻位置の精度で正確に模擬することができる。このため、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。
(変形構成例1)
なお、本実施の形態において、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図12に示すように、音声合成装置は、パラメータ素片を選択する素片選択部706と、標準音声パラメータ素片データベース307と、特殊音声変換規則記憶部308と、パラメータ変形部309と、波形生成部310とを設けるようにしてもよい。
標準音声パラメータ素片データベース307は、パラメータで記述された音声素片を記憶している記憶装置である。特殊音声変換規則記憶部308は、特徴的音色の音声のパラメータを標準音声のパラメータから生成するための特殊音声変換規則を記憶している記憶装置である。パラメータ変形部309は、特殊音声変換規則に従って標準音声のパラメータを変形して所望の韻律の音声のパラメータ列(合成パラメータ列)を生成する処理部である。波形生成部310は、合成パラメータ列から音声波形を生成する処理部である。
図13は、図12に示した音声合成装置の動作を示すフローチャートである。図9に示した処理と同じ処理については説明を適宜省略する。
本実施の形態の図9に示したS6004において、特徴的音色音韻推定部622は合成する音声中で特殊音声を生成する音韻を決定したが、図13では特に音韻をモーラで指定した場合について示している。
特徴的音色音韻推定部622は、特殊音声を生成するモーラを決定する(S6004)。素片選択部706は、音韻列を素片単位列に変換し、素片種類と言語情報と韻律情報とに基づいて標準音声パラメータ素片データベース307よりパラメータ素片を選択する(S3007)。パラメータ変形部309は、S3007で素片選択部706により選択されたパラメータ素片列をモーラ単位に変換し、S6004で特徴的音色音韻推定部622により決定された合成する音声中の特殊音声を生成するモーラ位置に従って、特殊音声に変換すべきパラメータ列を特定する(S7008)。
さらに、パラメータ変形部309は、特殊音声変換規則記憶部308に特殊音声の種類ごとに記憶された標準音声を特殊音声に変換する変換規則より、S2002で選択された特殊音声に対応する変換規則を取得する(S3009)。パラメータ変形部309は、S7008で特定されたパラメータ列を変換規則に従って変換し(S3010)、さらに韻律情報にあわせて変形する(S3011)。
波形生成部310は、パラメータ変形部309より出力された変形済みのパラメータ列を取得し、音声波形を生成、出力する(S3021)。
(変形構成例2)
なお、本実施の形態において、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図14に示すように、音声合成装置は、標準音声のパラメータ列を生成する合成パラメータ生成部406と、特殊音声変換規則記憶部308と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部309と、波形生成部310とを設けるようにしてもよい。
図15は、図14に示した音声合成装置の動作を示すフローチャートである。図9に示した処理と同じ処理については適宜説明を省略する。
本音声合成装置では、図9に示した本実施の形態に係る音声合成装置の処理においてS6004以降の処理が異なる。すなわち、S6004の処理の後、合成パラメータ生成部406は、S2005で言語処理部101により生成された音韻列および言語情報と、S2006で韻律生成部205により生成された韻律情報とに基づいて、例えば隠れマルコフモデル(HMM)のような統計学習を用いてあらかじめ定められたルールに基づき、標準音声の合成パラメータ列を生成する(S4007)。
パラメータ変形部309は、特殊音声変換規則記憶部308に特殊音声の種類ごとに記憶された標準音声を特殊音声に変換する変換規則より、S2002で選択された特殊音声に対応する変換規則を取得する(S3009)。パラメータ変形部309は、特殊音声に変形する音韻に相当するパラメータ列を変換規則に従って変換し、当該音韻のパラメータを特殊音声のパラメータに変換する(S3010)。波形生成部310は、パラメータ変形部309より出力された変形済みのパラメータ列を取得し、音声波形を生成、出力する(S3021)。
(変形構成例3)
なお、本実施の形態において、素片選択部206、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図16に示すように、音声合成装置は、標準音声のパラメータ列を生成する標準音声パラメータ生成部507と、特徴的音色の音声のパラメータ列を生成する少なくとも1つの特殊音声パラメータ生成部508(特殊音声パラメータ生成部508a,508b,508c)と、標準音声パラメータ生成部507と、特殊音声パラメータ生成部508とを切り替えるスイッチ509と、合成パラメータ列から音声波形を生成する波形生成部310とを設けるようにしてもよい。
図17は、図16に示した音声合成装置の動作を示すフローチャートである。図9に示した処理と同じ処理については適宜説明を省略する。
S2006の処理の後、S6004で生成された特殊音声を生成する音韻情報とS2002で生成された音色指定とに基づいて、特徴的音色音韻推定部622は、音韻ごとにスイッチ809を操作して、合成パラメータの生成を行うパラメータ生成部を切り替えて、韻律生成部205と標準音声パラメータ生成部507および音色指定に対応する特殊音声を生成する特殊音声パラメータ生成部508のいずれかとの間をつなぐ。また、特徴的音色音韻推定部622は、S6004で生成された特殊音声を生成する音韻の情報に対応して標準音声と特殊音声とのパラメータが配置された合成パラメータ列を生成する(S8008)。
波形生成部310は、パラメータ列より音声波形を生成、出力する(S3021)。
なお、本実施の形態では感情強度は固定として、感情種類ごとに記憶された推定式と閾値を用いて特殊音声を生成する音韻位置を推定したが、複数の感情強度の段階を用意し、感情種類と感情強度の段階ごとに推定式と閾値とを記憶しておき、感情種類と感情強度と合わせて、推定式と閾値とを用いて特殊音声を生成する音韻位置を推定するものとしても良い。
なお、本実施の形態1における音声合成装置をLSI(集積回路)で実現すると、特徴的音色選択部203、特徴的音色時間位置推定部604、言語処理部101、韻律生成部205、素片選択部606、素片接続部209の全てを1つのLSIで実現することができる。または、それぞれの処理部を1つのLSIで実現することができる。さらに、それぞれの処理部を複数のLSIで実現することもできる。標準音声素片データベース207、特殊音声素片データベース208a、208b、208cは、LSIの外部の記憶装置により実現してもよいし、LSIの内部に備えられたメモリにより実現してもよい。LSIの外部の記憶装置で当該データベースを実現する場合には、インターネット経由でデータベースのデータを取得しても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限られるものではなく、専用回路または汎用プロセッサにより実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて音声合成装置を構成する処理部の集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
さらに、本実施の形態1における音声合成装置をコンピュータで実現することもできる。図18は、コンピュータの構成の一例を示す図である。コンピュータ1200は、入力部1202と、メモリ1204と、CPU1206と、記憶部1208と、出力部1210とを備えている。入力部1202は、外部からの入力データを受け付ける処理部であり、キーボード、マウス、音声入力装置、通信I/F部等から構成される。メモリ1204は、プログラムやデータを一時的に保持する記憶装置である。CPU1206は、プログラムを実行する処理部である。記憶部1208は、プログラムやデータを記憶する装置であり、ハードディスク等からなる。出力部1210は、外部にデータを出力する処理部であり、モニタやスピーカ等からなる。
音声合成装置をコンピュータで実現した場合には、特徴的音色選択部203、特徴的音色時間位置推定部604、言語処理部101、韻律生成部205、素片選択部606、素片接続部209は、CPU1206上で実行されるプログラムに対応し、標準音声素片データベース207、特殊音声素片データベース208a、208b、208cは、記憶部1208に記憶される。また、CPU1206で計算された結果は、メモリ1204や記憶部1208に一旦記憶される。メモリ1204や記憶部1208は、特徴的音色選択部203等の各処理部とのデータの受け渡しに利用されてもよい。また、本実施の形態に係る音声合成装置をコンピュータに実行させるためのプログラムは、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、不揮発性メモリ等に記憶されていてもよいし、インターネットを経由してコンピュータ1200のCPU1206に読み込まれてもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
(実施の形態2)
図19および図20は、本発明の実施の形態2の音声合成装置の機能ブロック図である。図19において、図4および図5と同じ構成要素については同じ符号を用い、適宜説明を省略する。
図19に示されるように、実施の形態2に係る音声合成装置は、感情入力部202と、特徴的音色選択部203と、言語処理部101と、韻律生成部205と、特徴的音色音韻頻度決定部204と、特徴的音色時間位置推定部804と、素片選択部606と、素片接続部209とを備えている。
感情入力部202は、感情種類を出力する処理部である。特徴的音色選択部203は、音色指定情報を出力する処理部である。言語処理部101は、音韻列と言語情報を出力する処理部である。韻律生成部205は、韻律情報を生成する処理部である。
特徴的音色音韻頻度決定部204は、音色指定情報、音韻列、言語情報および韻律情報を取得して、合成する音声中で特徴的音色である特殊音声を生成する頻度を決定する処理部である。特徴的音色時間位置推定部804は、特徴的音色音韻頻度決定部204によって生成された頻度に従って、合成する音声中で特殊音声を生成する音韻を決定する処理部である。素片選択部606は、指定された特殊音声を生成する音韻についてはスイッチを切り替えて該当する特殊音声素片データベース208から音声素片を選択し、それ以外の音韻については標準音声素片データベース207より素片を選択する処理部である。素片接続部209は、素片を接続して音声波形を生成する処理部である。
換言すれば、特徴的音色音韻頻度決定部204は、特徴的音色選択部203で選択された特殊音声を合成する音声中にどの程度の頻度で使用するかを感情入力部202より出力された感情の強度に従って決定する処理部である。図20に示されるように、特徴的音色音韻頻度決定部204は、感情強度−頻度変換規則記憶部220と、感情強度特徴的音色頻度変換部221とから構成される。
感情強度−頻度変換規則記憶部220は、合成音声に付与する感情あるいは表情ごとにあらかじめ設定された感情強度を特殊音声の生成頻度に変換する規則を記憶している記憶装置である。感情強度特徴的音色頻度変換部221は、合成音声に付与する感情あるいは表情に対応する感情強度−頻度変換規則を感情強度−頻度変換規則記憶部220より選択して、感情強度を特殊音声の生成頻度に変換する処理部である。
特徴的音色時間位置推定部804は、推定式記憶部820と、推定式選択部821と、確率分布保持部822と、判定閾値決定部823と、特徴的音色音韻推定部622とを備えている。
推定式記憶部820は、特殊音声を生成する音韻を推定する推定式を特徴的音色の種類ごとに記憶する記憶装置である。推定式選択部821は、音色指定情報を取得して、推定式・閾値記憶部620より音色の種類にしたがって推定式を選択する処理部である。確率分布保持部822は、特殊音声の発生確率と推定式の値との関係を確率分布として特徴的音色の種類ごとに記憶した記憶装置である。判定閾値決定部823は、推定式を取得して、確率分布保持部822に格納された生成する特殊音声に対応する特殊音声の確率分布を参照して、特殊音声を生成するか否かを判定する推定式の値に対する閾値を決定する処理部である。特徴的音色音韻推定部622は、音韻列および韻律情報を取得して各音韻を特殊音声で生成するか否かを推定式と閾値とにより決定する処理部である。
実施の形態2の構成による音声合成装置の動作を説明する前に、特徴的音色音韻頻度決定部204が特殊音声の合成音中における発生頻度を感情の強度に従って決定する背景について説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音響学会誌51巻11号(1995),pp869−875 粕谷英樹・楊長盛“音源から見た声質”)。
本願発明に先立って同一テキストに基づいて発話された50文について無表情な音声、中程度の感情を伴う音声、強い感情を伴う音声の調査を行った。図21は2名の話者について「怒り」の感情表現を伴った音声中の「力んだ」音、上記文献中では「ざらざら声(harsh voice)」と記述されている音声に近い音の発生頻度を示したものである。話者1では全体的に「力んだ」音あるいは「ざらざら声(harsh voice)」とも呼ばれる音の発生頻度が高く、話者2では発生頻度が全体的に低い。このように話者による発生頻度の差はあるものの、感情の強度が強くなるにつれて「力んだ」音の頻度が上昇する傾向は共通である。感情や表情を伴った音声において、発話中に出現する特徴的な音色をもつ音声の頻度はその感情や表情の強さと関係があるといえる。
さらに、図7(a)は、話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図7(b)は、話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。同様に、図7(c)は、話者1について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音の頻度を示したグラフである。図7(d)は、話者2について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音の頻度を示したグラフである。
実施の形態1において説明したように図7(a)および図7(b)に示したグラフより「力んだ」音声は、子音「t」「k」「d」「m」「n」あるいは子音無しの場合に発生頻度が高く、子音「p」「ch」「ts」「f」などでは発生頻度が低いという偏りの傾向が話者1と話者2との間で共通している。それのみならず、図7(a)および図7(c)に示したグラフ同士の比較、ならびに図7(b)および図7(d)に示したグラフ同士の比較から明らかなように、「強い怒り」の感情表現を伴う音声と「中程度の怒り」の感情表現を伴う音声とにおいて、子音「t」「k」「d」「m」「n」あるいは子音無しの場合には発生頻度が高く、子音「p」「ch」「ts」「f」などでは発生頻度が低いという子音の種類による特殊音声の発生頻度の偏りの傾向は同じまま、感情の強度によって発生頻度が変化している。さらに、感情の強度が異なっても偏りの傾向は同じであるが、特殊音声の全体の発生頻度は感情の強度で異なるという特徴は話者1、話者2に共通している。翻って、感情や表情の強度を制御してより自然な表現を合成音声に付与するためには、発話中のより適切な部分に特徴的な音色を持つ音声を生成することが必要である上に、その特徴的な音色を持つ音声を適切な頻度で生成することが必要となる。
特徴的な音色の発生の仕方には話者に共通する偏りがあることから、合成する音声の音韻列に対して、特殊音声の発生位置は音韻の種類等の情報から推定できることは実施の形態1で述べたが、さらに感情の強度が変わっても特殊音声の発生の仕方の偏りは変わらず、全体の発生頻度が感情あるいは表情の強度に伴って変化する。このことから、合成しようとする音声の感情や表情の強度に合わせた特殊音声の発生頻度を設定し、その発生頻度を実現するように、音声中の特殊音声の発生位置を推定することが可能であると考えられる。
次に音声合成装置の動作を図22に従って説明する。図22において、図9と同じ動作については同じ符号を用い、説明を省略する。
まず、感情入力部202に感情制御情報として例えば「怒り・3」が入力され、感情種類「怒り」と感情強度「3」とが抽出される(S2001)。感情強度は、例えば感情の強度を5段階で表現したものであり、無表情な音声を0として、わずかに感情あるいは表情が加わる程度を1とし、音声表現として通常観察される最も強い表現を5として、数字が大きくなるほど感情あるいは表情の強度が高くなるように設定されたものとする。
特徴的音色選択部203は、感情入力部202から出力される感情種類「怒り」と感情あるいは表情の強度(例えば、感情強度情報「3」)とに基づき、特徴的音色として例えば、「怒り」の音声中に発生する「力み」音声を選択する(S2002)。
次に感情強度特徴的音色頻度変換部221は、「力み」音声を指定する音色指定情報と感情強度情報「3」とに基づいて、感情強度−頻度変換規則記憶部220を参照して、指定された音色ごとに設定された感情強度−頻度変換規則を取得する(S2003)。この例では「怒り」を表現するための「力み」音声の変換規則を取得する。変換規則は、例えば図23に示すような特殊音声の発生頻度と感情あるいは表情の強度との関係を示した関数である。関数は、感情あるいは表情ごとに、様々な強度を示している音声を収集し、音声中に特殊音声が観察された音韻の頻度とその音声の感情あるいは表情の強度との関係を統計的モデルに基づいて学習させて作成したものである。なお、変換規則は、関数として指定する以外に、各強度に対応する頻度を対応表として記憶しているものとしても良い。
感情強度特徴的音色頻度変換部221は、図23のように、指定された感情強度を変換規則に当てはめ、指定された感情強度に対応した合成音声中で特殊音声素片を使用する頻度を決定する(S2004)。一方、言語処理部101は、入力されたテキストを形態素解析および構文解析し、音韻列と言語情報とを出力する(S2005)。韻律生成部205は、音韻列と言語情報と、さらに感情種類情報とを取得し、韻律情報を生成する(S2006)。
推定式選択部821は、特殊音声指定と特殊音声頻度とを取得し、推定式記憶部820を参照して、特殊音声ごとに設定された推定式の中から指定された特殊音声「力み」に対応する推定式を取得する(S9001)。判定閾値決定部823は、推定式と頻度とを取得し、指定された特殊音声に対応する推定式の確率分布を確率分布保持部822より取得し、図24に示すように、S2004で決定された特殊音声の頻度に対応する推定式に対する判定閾値を決定する(S9002)。
確率分布は、例えば以下のようにして設定される。推定式が実施の形態1と同様に数量化II類の場合、当該音韻の子音と母音の種類、アクセント句内の位置等の属性により一意に値が決定される。この値は当該音韻で特殊音声が発生する発生のしやすさを示している。先に図7および図21に基づいて説明したとおり、特殊音声の発生のしやすさの偏りは、話者、感情あるいは表情の強度に対して共通である。このため、数量化II類による推定式は、感情あるいは表情の強度によって変更する必要は無く、強度が異なっても共通の推定式により各音韻の「特殊音声の発生のしやすさ」を求めることができる。そこで、怒りの強度が5の音声データより作成した推定式を、怒りの強度が4、3、2、1の音声データに適用して、実際に観察された特殊音声に対して75%の正解率になるような判断閾値となる推定式の値をそれぞれの強度の音声に対して求める。図21に示したように、感情あるいは表情の強度に伴って特殊音声の発生頻度は変わるため、それぞれの強度の音声データすなわち怒りの強度が4、3、2、1の音声データで観察された特殊音声の発生頻度と、特殊音声の発生を75%の正解率で判定しうる推定式の値とを図24のグラフのような軸上にプロットし、スプライン補間あるいはシグモイド曲線への近似等により滑らかにつないで確率分布を設定する。なお、確率分布は図24のような関数に限らず、推定式の値と特殊音声の発生頻度とを対応付ける対応表として記憶されていても良い。
特徴的音色音韻推定部622は、S2005で生成された音韻列とS2006で生成された韻律情報とを取得し、S9001で選択された推定式を音韻列中の各音韻に当てはめて値を求め、S9002で決定された閾値と比較し、推定式の値が閾値を越えた場合には当該音韻を特殊音声で発声することを決定する(S6004)。
素片選択部606は、韻律生成部205より音韻列と韻律情報とを取得し、さらにS6004において特徴的音色音韻推定部622で決定された特殊音声で合成音を生成する音韻の情報を取得し、合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する(S6007)。さらに素片選択部606は、S6007で決定した特殊音声素片を使用する素片位置と、使用しない素片位置とに応じて、標準音声素片データベース207と指定された種類の特殊音声素片を格納した特殊音声素片データベース208のうちいずれかとの接続をスイッチ210により切り替えて合成に必要な音声素片を選択する(S2008)。素片接続部209は、波形重畳方式により、S2008で選択された素片を、取得した韻律情報に従って変形して接続し(S2009)、音声波形を出力する(S2010)。なお、S2008で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。
かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部202と、感情の種類に対応する特徴的音色の種類を選択する特徴的音色選択部203と、特徴的音色音韻頻度決定部204と、推定式記憶部820、推定式選択部821、確率分布保持部822、判定閾値決定部823および特徴的音色音韻推定部622からなり、指定された頻度に応じて合成する音声中で特徴的音色を持つ特殊音声で生成すべき音韻を決定する特徴的音色時間位置推定部804と、標準音声素片データベース207の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース208とを備えている。
このことにより、入力された感情の種類と強度とに応じて、感情が付与された音声の発話の一部に出現する特徴的な音色の音声を生成すべき頻度を決定し、その頻度に応じて特徴的な音色の音声を生成する時間位置を、音韻列、韻律情報または言語情報等より、モーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。
さらには韻律や声質の変化ではなく、特徴的な声質の発生による感情や表情等を表現する、という人間の発話の中で自然に、かつ普遍的に行われている行動を音韻位置の精度で正確に模擬することができ、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。
なお、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208および素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図12のように、実施の形態1と同様に、パラメータ素片を選択する素片選択部706と、標準音声パラメータ素片データベース307と、特殊音声変換規則記憶部308と、パラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
また、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式の実現方法を示したが、図14のように、実施の形態1と同様、標準音声のパラメータ列を生成する合成パラメータ生成部406と、特殊音声変換規則記憶部308と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
さらに、本実施の形態において、音声合成装置が、素片選択部206、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式の実現方法を示したが、図16のように、実施の形態1と同様、標準音声のパラメータ列を生成する標準音声パラメータ生成部507と、特徴的音色の音声のパラメータ列を生成する1つまたは複数の特殊音声パラメータ生成部508と、標準音声パラメータ生成部507と特殊音声パラメータ生成部508とを切り替えるスイッチ509と、合成パラメータ列から音声波形を生成する波形生成部310とを備え音声合成装置を構成するようにしてもよい。
なお、本実施の形態では、確率分布保持部822が特徴的音色音韻の発生頻度と推定式の値との関係を確率分布として表したものを保持し、判定閾値決定部823は確率分布保持部822を参照して閾値を決定するとしたが、発生頻度として意識の値の関係は確率分布としてではなく、対応表の形式で保持するものとしても良い。
(実施の形態3)
図25は、本発明の実施の形態3の音声合成装置の機能ブロック図である。図25において、図4および図19と同じ構成要素については同じ符号を用い、適宜説明を省略する。
図25に示されるように、実施の形態3に係る音声合成装置は、感情入力部202と、要素感情音色選択部901と、言語処理部101と、韻律生成部205と、特徴的音色時間位置推定部604と、素片選択部606と、素片接続部209とを備えている。
感情入力部202は、感情種類を出力する処理部である。要素感情音色選択部901は、入力された感情を表現する音声に含まれる1種類以上の特徴的な音色の種類と、特徴的音色ごとの、合成する音声中の生成頻度とを決定する処理部である。言語処理部101は、音韻列と言語情報を出力する処理部である。韻律生成部205は、韻律情報を生成する処理部である。特徴的音色時間位置推定部604は、音色指定情報、音韻列、言語情報および韻律情報を取得して要素感情音色選択部901によって生成された特徴的音色ごとの頻度に従って、合成する音声中で特殊音声を生成する音韻を特殊音声の種類ごとに決定する処理部である。
素片選択部606は、指定された特殊音声を生成する音韻についてはスイッチを切り替えて該当する特殊音声素片データベース208から音声素片を選択し、それ以外の音韻については標準音声素片データベース207より素片を選択する処理部である。素片接続部209は、素片を接続して音声波形を生成する処理部である。
要素感情音色選択部901は、要素音色テーブル902と、要素音色選択部903とを備えている。
図26に示されるように、要素音色テーブル902には、入力された感情を表現する音声に含まれる1種類以上の特徴的な音色とその出現頻度とが組として記憶されている。要素音色選択部903は、感情入力部202より取得した感情種類に従って、要素音色テーブル902を参照して音声に含まれる1種類以上の特徴的な音色とその出現頻度とを決定する処理部である。
次に音声合成装置の動作を図27に従って説明する。図27において、図9および図22と同じ動作については同じ符号を用い、説明を省略する。
まず、感情入力部202に感情制御情報が入力され、感情種類が抽出される(S2001)。要素音色選択部903は、抽出された感情種類を取得し、要素音色テーブル902を参照して、感情の種類に応じた1種類以上の特徴的音色を持つ特殊音声と、その特殊音声が合成する音声中で生成される頻度の対データを取得し、出力する(S10002)。
一方、言語処理部101は、入力されたテキストを形態素解析および構文解析し、音韻列と言語情報とを出力する(S2005)。韻律生成部205は、音韻列と言語情報と、さらに感情種類情報とを取得し、韻律情報を生成する(S2006)。
特徴的音色時間位置推定部604は、指定された1種類以上の特殊音声にそれぞれ対応する推定式を選択し(S9001)、指定された各特殊音声の頻度に応じて推定式の値に対応する判定閾値を決定する(S9002)。特徴的音色時間位置推定部604は、S2005で生成された音韻情報と、S2006で生成された韻律情報とを取得し、さらにS9001で選択された推定式とS9002で決定された閾値とを取得して、合成する音声中で特殊音韻を生成すべき音韻を決定し、特殊音声素片マークをつける(S6004)。素片選択部606は、韻律生成部205より音韻列と韻律情報とを取得し、さらにS6004において特徴的音色音韻推定部622で決定された特殊音声で合成音を生成する音韻の情報を取得して合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する(S6007)。
さらに素片選択部606はS6007で決定した特殊音声素片を使用する素片位置と、使用しない素片位置とに応じて、標準音声素片データベース207と指定された種類の特殊音声素片を格納した特殊音声素片データベース208のうちいずれかとの接続をスイッチ210により切り替えて合成に必要な音声素片を選択する(S2008)。素片接続部209は、波形重畳方式により、S2008で選択された素片を、取得した韻律情報に従って変形して接続し(S2009)、音声波形を出力する(S2010)。なお、S2008で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。
図28は、以上の処理により「じゅっぷんほどかかります」という音声を合成をした際の特殊音声の位置の一例を示した図である。すなわち、3つの特殊な音色が交じり合わないように特殊音声素片を使用する位置が決定される。
かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部202と、感情の種類に対応して、1つ以上の種類の特徴的音色と特徴的音色ごとにあらかじめ設定された頻度に従って、1つ以上の種類の特徴的音色と特徴的音色ごとの頻度を生成する要素感情音色選択部901と、特徴的音色時間位置推定部604と、標準音声素片データベース207の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース208とを備えている。
このことにより、入力された感情の種類に応じて、感情が付与された音声の発話の一部に出現する複数種類の特徴的な音色の音声を決定し、特殊音声の種類ごとに音声を生成すべき頻度を決定し、その頻度に応じて特徴的な音色の音声を生成する時間位置を、音韻列、韻律情報または言語情報等よりモーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。
さらには韻律や声質の変化ではなく、特徴的な声質の発声により感情や表情等を表現する、という人間の発話の中で自然に、かつ普遍的に行われている行動を音韻位置の精度で正確に模擬することができ、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。
なお、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208および素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図12のように、実施の形態1および2と同様に、パラメータ素片を選択する素片選択部706と、標準音声パラメータ素片データベース307と、特殊音声変換規則記憶部308と、パラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
また、本実施の形態において、音声合成装置が、素片選択部606、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図14のように、実施の形態1および2と同様に、標準音声のパラメータ列を生成する合成パラメータ生成部406と、特殊音声変換規則記憶部308と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部309と、波形生成部310とを備え音声合成装置を構成するようにしてもよい。
さらに、本実施の形態において、音声合成装置が、素片選択部206、標準音声素片データベース207、特殊音声素片データベース208、素片接続部209を設け、波形重畳法による音声合成方式での実現方法を示したが、図16のように、実施の形態1および2と同様に、標準音声のパラメータ列を生成する標準音声パラメータ生成部507と、特徴的音色の音声のパラメータ列を生成する1つまたは複数の特殊音声パラメータ生成部508と、標準音声パラメータ生成部507と特殊音声パラメータ生成部508とを切り替えるスイッチ509と合成パラメータ列から音声波形を生成する波形生成部310とを備え音声合成装置を構成するようにしてもよい。
なお、本実施の形態では確率分布保持部822が特徴的音色音韻の発生頻度と推定式の値との関係を確率分布関数として表したものを保持し、判定閾値決定部823は確率分布保持部822を参照して閾値を決定するとしたが、発生頻度と推定式の値との関係は対応表の形式で保持するものとしても良い。
なお、本実施の形態では、感情入力部202は感情種類の入力を受付け、要素音色選択部903は感情種類のみに従って要素音色テーブル902に感情種類ごとに記憶された1つ以上の特徴的な音色の種類とその頻度を選択するものとしたが、要素音色テーブル902において、感情種類と感情強度ごとに特徴的音色の種類とその頻度の組み合わせを記憶する、あるいは感情種類ごとに特徴的音色の種類の組み合わせと、感情強度による各特徴的音色の頻度の変化を対応表あるいは対応関数として記憶するものとし、感情入力部202が感情種類と感情強度を受付け、要素音色選択部903が要素音色テーブル902を参照して感情種類と感情強度に従って特徴的な音色の種類とその頻度を決定するものとしても良い。
なお、実施の形態1〜3において、S2003、S6003あるいはS9001の直前に、言語処理部101によりテキストを言語処理し、音韻列と言語情報を生成する処理(S2005)と韻律生成部205により音韻列、言語情報および感情種類(または感情種類と強度)から韻律情報を生成する処理(S2006)とを行ったが、音韻列上で特殊音声を生成する位置を決定する処理(S2007、S3007、S3008、S5008、S6004)以前であればいつ実行しても良い。
なお、実施の形態1〜3において、言語処理部101が自然言語である入力テキストを取得し、S2005において音韻列および言語情報を生成するものとしたが、図29、図30、図31のように韻律生成部が言語処理済のテキストを取得するものとしても良い。言語処理済のテキストは少なくとも音韻列とアクセントの位置やポーズの位置、アクセント句の切れ目等を示す韻律記号を含む。実施の形態1〜3においては韻律生成部205および特徴的音色時間位置推定部604、804が言語情報を用いているため、言語処理済テキストはさらに品詞や係り受け等の言語情報を含むものとする。言語処理済テキストは、例えば図32のような形式である。図32(a)に示す言語処理済テキストは車載情報端末への情報提供サービスにおいてサーバから各端末への配信時に用いられる方式である。音韻列はカタカナで示され、アクセント位置は「'」で、アクセント句の句切れは「/」で示されて、文末の長いポーズは「.」の記号でそれぞれ示されている。図32(b)は、図32(a)に示す言語処理済テキストに、さらに言語情報として品詞情報を単語ごとに示したものである。もちろん言語情報はこれ以外の情報を含んでも良い。韻律生成部205が図32(a)に示したような言語処理済テキストを取得した場合、韻律生成部205はS2006において音韻列と韻律記号に基づき、指定されたアクセントやアクセント句の区切れを音声として実現するための、基本周波数、パワー、音韻時間長、ポーズ時間長等の韻律情報を生成するものとしても良い。韻律生成部205が、図32(b)のような言語情報を含む言語処理済テキストを取得した場合は、実施の形態1〜3のS2006と同様の動作により韻律情報を生成する。実施の形態1〜3において、特徴的音色時間位置推定部604は、韻律生成部205が図32(a)に示したような言語処理済テキストを取得した場合においても、図32(b)に示したような言語処理済テキストを取得した場合においても、S6004と同様に音韻列と韻律生成部205によって生成された韻律情報とに基づき特殊音韻で発生されるべき音韻を決定する。このように言語処理されていない自然言語で書かれたテキストを取得するのではなく、言語処理済テキストを取得して音声を合成するものとしても良い。また、言語処理済テキストは、図32では1文の音韻を1行に列挙する形式としたが、これ以外の例えば音韻、単語、文節のような単位ごとに音韻、韻律記号、言語情報を表にした形式のデータでも良い。
なお、実施の形態1〜3において、S2001で感情入力部202が感情種類、あるいは感情種類と感情強度とを取得し、言語処理部101が自然言語である入力テキストを取得したが、図33、図34のようにマークアップ言語解析部1001がVoiceXMLのような感情種類あるいは感情種類と感情の強度を示すタグが付与されたテキストを取得し、タグとテキスト部分とを分割し、タグの内容を解析して感情種類あるいは感情種類と感情強度を出力するものとしても良い。タグ付テキストは、例えば図35(a)のような形式とする。図35において記号「<>」で囲まれた部分がタグであり、「voice」は声に対する指定を行うコマンドであることを示し、「emotion=anger[5]」は、声の感情として怒りを指定し、その怒りの強度が5であることを示している。「/voice」は「voice」行で始まったコマンドの影響がここまで維持されることを示している。例えば実施の形態1あるいは実施の形態2では、マークアップ言語解析部1001は、図35(a)のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを特徴的音色選択部203および韻律生成部205へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部101へ出力するとしても良い。また、実施の形態3では、マークアップ言語解析部1001は、図35(a)のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを要素音色選択部903へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部101へ出力するとしても良い。
なお、実施の形態1〜3において、S2001で感情入力部202が感情種類、あるいは感情種類と感情強度を取得し、言語処理部101が自然言語である入力テキストを取得したが、図36、図37のようにマークアップ言語解析部1001が図35(b)のような少なくとも音韻列と韻律記号を含む言語処理済テキストに感情種類あるいは感情種類と感情の強度を示すタグが付与されたテキストを取得し、タグとテキスト部分とを分割し、タグの内容を解析して感情種類、あるいは感情種類と感情強度とを出力するものとしても良い。タグ付言語処理済テキストは、例えば図35(b)のような形式とする。例えば実施の形態1あるいは実施の形態2では、マークアップ言語解析部1001は、図35(b)のタグ付き言語処理済テキストを取得し、表現を支持したタグ部分と音韻列と韻律記号の部分とを分割し、タグの内容を解析して感情の種類と強度とを特徴的音色選択部203および韻律生成部205へ出力すると同時に、感情の種類と強度とあわせて、その感情を音声で表現すべき音韻列と韻律記号部分とを韻律生成部205へ出力するとしても良い。また、実施の形態3ではマークアップ言語解析部1001は、図35(b)のタグ付き言語処理済テキストを取得し、タグ部分と音韻列と韻律記号の部分とを分割し、タグの内容を解析して感情の種類と強度とを要素音色選択部903へ出力すると同時に、その感情を音声で表現すべき音韻列と韻律記号の部分とを韻律生成部205へ出力するとしても良い。
なお、実施の形態1〜3において、感情入力部202において感情種類、あるいは感情種類と感情強度とを取得したが、発話様態を決定するための情報として、これ以外に発声器官の緊張や弛緩、表情、発話スタイルや話し方などの指定を取得するものとしても良い。例えば発声器官の緊張であれば、「喉頭周辺緊張度3」というように喉頭や舌等の発声器官とその力の入り具合の情報を取得するとしてもよい。また、例えば発話スタイルであれば、「丁寧5」「堅苦しい2」のように発話の態度の種類とその程度や「親しい間」「顧客対応」のような話者の間柄のような発話の場面に関する情報を取得するとしても良い。
なお、実施の形態1〜3においては、特徴的音色(特殊音声)で発話するモーラを推定式に基づいて求めていたが、推定式において閾値を超えやすいモーラが予め分かっている場合には、そのモーラでは常に特徴的音色で発話するように合成音声を生成しても良い。例えば、特徴的音色が「力み」の場合には、以下の(1)〜(4)に示すモーラで、推定式が閾値を超えやすい。
(1)子音が/b/(両唇音でかつ音声破裂子音)であり、かつアクセント句の前から3番目のモーラ
(2)子音が/m/(両唇音でかつ鼻音)であり、かつアクセント句の前から3番目のモーラ
(3)子音が/n/(歯茎音でかつ鼻音)であり、かつアクセント句の先頭モーラ
(4)子音が/d/(歯茎音でかつ音声破裂子音)であり、かつアクセント句の先頭モーラ
また、特徴的音色が「かすれ」の場合には、以下の(5)〜(8)に示すモーラで、推定式が閾値を超えやすい。
(5)子音が/h/(喉頭音でかつ無声摩擦音)であり、かつアクセント句の先頭のモーラまたはアクセント句の前から3番目のモーラ
(6)子音が/t/(歯茎音でかつ無声破裂音)であり、かつアクセント句の前から4番目のモーラ
(7)子音が/k/(軟口蓋音でかつ無声破裂音)であり、かつアクセント句の前から5番目のモーラ
(8)子音が/s/(歯音でかつ無声摩擦音)であり、アクセント句の前から6番目のモーラ
本発明にかかる音声合成装置は、発声器官の緊張や弛緩、感情、表情、あるいは発話スタイルによって音声のところどころに出現する特定の発話様態による特徴的な音色の音声を生成することで音声の表現を豊かにする構成を有し、カーナビゲーション、テレビ、オーディオ等電子機器、あるいはロボット等の音声・対話インタフェース等として有用である。またコールセンターや、電話交換の自動電話応対システム等の用途にも応用できる。
図1は、従来の音声合成装置のブロック図である。 図2は、従来の音声合成装置における感情の混合方法を示す模式図である。 図3は、従来の音声合成装置における無感情音声から感情音声への変換関数の模式図である。 図4は、本発明の実施の形態1における音声合成装置のブロック図である。 図5は、本発明の実施の形態1における音声合成装置の一部のブロック図である。 図6は、図5に示す音声合成装置の推定式・閾値記憶部に記憶される情報の一例を示す図である。 図7は、実際の音声における特徴的音色の音声の音韻種類による発生頻度を示すグラフである。 図8は、実際の音声において観察された特徴的音色の音声の発生位置と推定された特徴的音色の音声の時間位置の比較を示す図である。 図9は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図10は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。 図11は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフである。 図12は、本発明の実施の形態1における音声合成装置のブロック図である。 図13は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図14は、本発明の実施の形態1における音声合成装置のブロック図である。 図15は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図16は、本発明の実施の形態1における音声合成装置のブロック図である。 図17は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図18は、コンピュータの構成の一例を示す図である。 図19は、本発明の実施の形態2における音声合成装置のブロック図である。 図20は、本発明の実施の形態2における音声合成装置の一部のブロック図である。 図21は、実際の音声における特徴的音色の音声の発生頻度と表現の強度との関係を示すグラフである。 図22は、本発明の実施の形態2における音声合成装置の動作を示すフローチャートである。 図23は、特徴的音色の音声の発生頻度と表現の強度との関係を示す模式図である。 図24は、特徴的音色音韻の発生確率と推定式の値との関係を示す模式図である。 図25は、本発明の実施の形態3における音声合成装置の動作を示すフローチャートである。 図26は、本発明の実施の形態3における、感情表現ごとに対応する1つ以上の種類の特徴的音色とその出現頻度の情報の例を示す図である。 図27は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図28は、音声を合成をした際の特殊音声の位置の一例を示した図である。 図29は、図4に示した音声合成装置の変形構成例を示すブロック図である。 図30は、図19に示した音声合成装置の変形構成例を示すブロック図である。 図31は、図25に示した音声合成装置の変形構成例を示すブロック図である。 図32は、言語処理済テキストの一例を示す図である。 図33は、図4および図19に示した音声合成装置の変形構成例の一部を示した図である。 図34は、図25に示した音声合成装置の変形構成例の一部を示した図である。 図35は、タグ付テキストの一例を示す図である。 図36は、図4および図19に示した音声合成装置の変形構成例の一部を示した図である。 図37は、図25に示した音声合成装置の変形構成例の一部を示した図である。
符号の説明
101 言語処理部
102、206、606、706 素片選択部
103 韻律制御部
104 パラメータ制御部
105 音声合成部
106 感情情報抽出部
107 感情制御情報変換部
108 感情制御部
109 感情入力インタフェース部
110、210、509、809、 スイッチ
202 感情入力部
203 特徴的音色選択部
204 特徴的音色音韻頻度決定部
205 韻律生成部
207 標準音声素片データベース
208 特殊音声素片データベース
209 素片接続部
221 感情強度特徴的音色頻度変換部
220 感情強度−頻度変換規則記憶部
307 標準音声パラメータ素片データベース
308 特殊音声変換規則記憶部
309 パラメータ変形部
310 波形生成部
406 合成パラメータ生成部
506 特殊音声位置決定部
507 標準音声パラメータ生成部
508 特殊音声パラメータ生成部
604 特徴的音色時間位置推定部
620 推定式・閾値記憶部
621 推定式選択部
622 特徴的音色音韻推定部
804 特徴的音色時間位置推定部
820 推定式記憶部
821 推定式選択部
823 判定閾値決定部
901 要素感情音色選択部
902 要素音色テーブル
903 要素音色選択部
1001 マークアップ言語解析部

Claims (19)

  1. 音声合成される音声波形の発話様態を取得する発話様態取得手段と、
    言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、
    取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、
    前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、
    前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段とを備える
    ことを特徴とする音声合成装置。
  2. さらに、テキストを取得するテキスト取得手段と、
    前記テキストを言語処理する言語処理手段とを備える
    ことを特徴とする請求項1に記載の音声合成装置。
  3. さらに、前記特徴的音色に基づいて、前記特徴的音色で発話する頻度を決定する頻度決定手段を備え、
    前記発話位置決定手段は、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記頻度とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する
    ことを特徴とする請求項1に記載の音声合成装置。
  4. 前記頻度決定手段は、モーラ、音節、音素または音声合成単位を単位として、前記頻度を決定する
    ことを特徴とする請求項3に記載の音声合成装置。
  5. 前記特徴的音色選択手段は、
    発話様態と複数の特徴的音色とを対応付けて記憶する要素音色記憶部と、
    取得された前記発話様態に対応する前記複数の特徴的音色を前記要素音色記憶部より選択する選択部とを有し、
    前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する
    ことを特徴とする請求項1に記載の音声合成装置。
  6. 前記要素音色記憶部は、前記発話様態と、複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶しており、
    前記選択部は、取得された前記発話様態に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択し、
    前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する
    ことを特徴とする請求項5に記載の音声合成装置。
  7. 前記発話様態取得手段は、さらに、前記発話様態の強度を取得し、
    前記要素音声記憶部は、前記発話様態および当該発話様態の強度の組と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶しており、
    前記選択部は、取得された前記発話様態および当該発話様態の強度の組に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択する
    ことを特徴とする請求項6に記載の音声合成装置。
  8. 前記発話位置決定手段は、さらに、前記複数の特徴的音色の発話位置が重ならないように、前記テキストを発話する際の各特徴的音色での発話位置である音韻を決定する
    ことを特徴とする請求項5に記載の音声合成装置。
  9. 前記発話位置決定手段は、
    特徴的音色ごとに特徴的音色を生成する音韻を推定する推定式と閾値とを格納する推定式格納部と、
    前記特徴的音色選択手段で選択された前記特徴的音色に対応する推定式と閾値とを前記推定式格納部より選択する推定式選択部と、
    選択された前記推定式に、前記韻律生成手段で生成された前記音韻列および前記韻律を、音韻ごとに当てはめ、当該推定式の値が閾値を超えた場合に、当該音韻を、前記特徴的音色で発話する発話位置と推定する推定部とを有する
    ことを特徴とする請求項1に記載の音声合成装置。
  10. 前記推定式は、音韻、韻律または言語情報のうち少なくとも1つを用いて統計的に学習された式である
    ことを特徴とする請求項9に記載の音声合成装置。
  11. 前記音韻は子音を含む
    ことを特徴とする請求項10に記載の音声合成装置。
  12. 前記推定式は、数量化II類を用いて作成される
    ことを特徴とする請求項10に記載の音声合成装置。
  13. 前記韻律生成手段は、モーラ、音節、音素または音声合成単位を1つの音韻として前記音韻列を生成する
    ことを特徴とする請求項1に記載の音声合成装置。
  14. 前記波形合成手段は、
    標準的な発話様態の音声素片を記憶する標準音声素片記憶部と、
    前記特徴的音色に対応して設けられ、当該特徴的音色を発生させるための音声素片を記憶する特殊音声素片記憶部と、
    前記韻律生成手段より取得された音韻列および韻律と、前記発話位置決定手段で決定された発話位置とに基づいて、標準音声素片記憶部または前記特殊音声素片記憶部から音声素片を選択し、音声波形を生成する素片選択生成部とを有する
    ことを特徴とする請求項1に記載の音声合成装置。
  15. 前記波形合成手段は、
    標準的な発話様態の音声波形を生成するためのパラメータを生成する標準パラメータ生成部と、
    前記特徴的音色に対応して設けられ、当該特徴的音色を発生させるためのパラメータを生成する特殊パラメータ生成部と、
    前記韻律生成手段より取得された音韻列および韻律と、前記発話位置決定手段で決定された発話位置とに基づいて、前記標準パラメータ生成部または前記特殊パラメータ生成部からパラメータを取得してパラメータ列を生成することにより、音声波形を生成するパラメータ列生成部とを有する
    ことを特徴とする請求項1に記載の音声合成装置。
  16. 前記波形合成手段は、
    標準的な発話様態の音声波形を生成するための標準パラメータを生成する標準パラメータ生成部と、
    前記標準パラメータを変形して前記特徴的音色を持つ音声を生成するための変形規則を前記特徴的音色ごとに格納する変形規則格納部と
    前記韻律生成手段より取得された音韻列および韻律と、前記発話位置決定手段で決定された発話位置とに基づいて、前記標準パラメータを前記変形規則に従って変形するパラメータ変形部と、
    前記パラメータ変形部で変形された前記標準パラメータに基づいて、音声波形を生成する音声波形生成部とを有する
    ことを特徴とする請求項1に記載の音声合成装置。
  17. 音声合成される音声波形の発話様態を取得する発話様態取得手段と、
    取得された前記発話様態でテキストを発話する際に観測される特徴的音色が「力み」の場合には、(1)子音が/b/(両唇音でかつ音声破裂子音)であり、かつアクセント句の前から3番目のモーラ、(2)子音が/m/(両唇音でかつ鼻音)であり、かつアクセント句の前から3番目のモーラ、(3)子音が/n/(歯茎音でかつ鼻音)であり、かつアクセント句の先頭モーラ、(4)子音が/d/(歯茎音でかつ音声破裂子音)であり、かつアクセント句の先頭モーラを、当該特徴的音色で発話する発話位置と決定し、取得された前記発話様態でテキストを発話する際に観測される特徴的音色が「かすれ」の場合には、(5)子音が/h/(喉頭音でかつ無声摩擦音)であり、かつアクセント句の先頭のモーラまたはアクセント句の前から3番目のモーラ、(6)子音が/t/(歯茎音でかつ無声破裂音)であり、かつアクセント句の前から4番目のモーラ、(7)子音が/k/(軟口蓋音でかつ無声破裂音)であり、かつアクセント句の前から5番目のモーラ、(8)子音が/s/(歯音でかつ無声摩擦音)であり、アクセント句の前から6番目のモーラを、当該特徴的音色で発話する発話位置と決定する発話位置決定手段と、
    前記発話位置決定手段によって決定された発話位置の前記テキストを前記特徴的音色で発話させるような音声波形を生成する波形合成手段とを備える
    ことを特徴とする音声合成装置。
  18. 音声合成される音声波形の発話様態を取得する発話様態取得ステップと、
    言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成ステップと、
    取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択ステップと、
    前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定ステップと、
    前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定ステップで決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成ステップとを含む
    ことを特徴とする音声合成方法。
  19. 音声合成される音声波形の発話様態を取得する発話様態取得ステップと、
    言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成ステップと、
    取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択ステップと、
    前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定ステップと、
    前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定ステップで決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成ステップとをコンピュータに実行させる
    ことを特徴とするプログラム。
JP2007516243A 2005-05-18 2006-05-02 音声合成装置 Expired - Fee Related JP4125362B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005146027 2005-05-18
JP2005146027 2005-05-18
PCT/JP2006/309144 WO2006123539A1 (ja) 2005-05-18 2006-05-02 音声合成装置

Publications (2)

Publication Number Publication Date
JP4125362B2 JP4125362B2 (ja) 2008-07-30
JPWO2006123539A1 true JPWO2006123539A1 (ja) 2008-12-25

Family

ID=37431117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007516243A Expired - Fee Related JP4125362B2 (ja) 2005-05-18 2006-05-02 音声合成装置

Country Status (4)

Country Link
US (1) US8073696B2 (ja)
JP (1) JP4125362B2 (ja)
CN (1) CN101176146B (ja)
WO (1) WO2006123539A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP5198046B2 (ja) * 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
WO2011001694A1 (ja) * 2009-07-03 2011-01-06 パナソニック株式会社 補聴器の調整装置、方法およびプログラム
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8731932B2 (en) * 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
US10469623B2 (en) * 2012-01-26 2019-11-05 ZOOM International a.s. Phrase labeling within spoken audio recordings
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
US9418655B2 (en) * 2013-01-17 2016-08-16 Speech Morphing Systems, Inc. Method and apparatus to model and transfer the prosody of tags across languages
US9959270B2 (en) 2013-01-17 2018-05-01 Speech Morphing Systems, Inc. Method and apparatus to model and transfer the prosody of tags across languages
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
JP6483578B2 (ja) * 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
CN106816158B (zh) * 2015-11-30 2020-08-07 华为技术有限公司 一种语音质量评估方法、装置及设备
JP6639285B2 (ja) * 2016-03-15 2020-02-05 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
US9817817B2 (en) 2016-03-17 2017-11-14 International Business Machines Corporation Detection and labeling of conversational actions
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10789534B2 (en) 2016-07-29 2020-09-29 International Business Machines Corporation Measuring mutual understanding in human-computer conversation
CN107785020B (zh) * 2016-08-24 2022-01-25 中兴通讯股份有限公司 语音识别处理方法及装置
CN108364631B (zh) * 2017-01-26 2021-01-22 北京搜狗科技发展有限公司 一种语音合成方法和装置
US10204098B2 (en) * 2017-02-13 2019-02-12 Antonio GONZALO VACA Method and system to communicate between devices through natural language using instant messaging applications and interoperable public identifiers
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置
US10418025B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation System and method for generating expressive prosody for speech synthesis
EP3739572A4 (en) * 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
CN108615524A (zh) * 2018-05-14 2018-10-02 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
CN109447234B (zh) * 2018-11-14 2022-10-21 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
CN111192568B (zh) * 2018-11-15 2022-12-13 华为技术有限公司 一种语音合成方法及语音合成装置
CN111128118B (zh) * 2019-12-30 2024-02-13 科大讯飞股份有限公司 语音合成方法、相关设备及可读存储介质
CN111583904B (zh) * 2020-05-13 2021-11-19 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112270920A (zh) * 2020-10-28 2021-01-26 北京百度网讯科技有限公司 一种语音合成方法、装置、电子设备和可读存储介质
CN113421544B (zh) * 2021-06-30 2024-05-10 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备及存储介质
CN114420086B (zh) * 2022-03-30 2022-06-17 北京沃丰时代数据科技有限公司 语音合成方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772900A (ja) 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JP3260275B2 (ja) 1996-03-14 2002-02-25 シャープ株式会社 活字入力で通話が可能な通信通話装置
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP2002311981A (ja) 2001-04-17 2002-10-25 Sony Corp 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2003233388A (ja) * 2002-02-07 2003-08-22 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
DE60215296T2 (de) 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
JP2003302992A (ja) 2002-04-11 2003-10-24 Canon Inc 音声合成方法及び装置
JP2003337592A (ja) * 2002-05-21 2003-11-28 Toshiba Corp 音声合成方法及び音声合成装置及び音声合成プログラム
JP3706112B2 (ja) 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 音声合成装置及びコンピュータプログラム

Also Published As

Publication number Publication date
CN101176146B (zh) 2011-05-18
US8073696B2 (en) 2011-12-06
JP4125362B2 (ja) 2008-07-30
CN101176146A (zh) 2008-05-07
WO2006123539A1 (ja) 2006-11-23
US20090234652A1 (en) 2009-09-17

Similar Documents

Publication Publication Date Title
JP4125362B2 (ja) 音声合成装置
JP7178028B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
JP7082357B2 (ja) 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
Theune et al. Generating expressive speech for storytelling applications
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
JP7228998B2 (ja) 音声合成装置及びプログラム
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP2015152630A (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2006227589A (ja) 音声合成装置および音声合成方法
Burkhardt et al. Emotional speech synthesis 20
JP2006293026A (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
Krstulovic et al. An HMM-based speech synthesis system applied to German and its adaptation to a limited set of expressive football announcements.
Deka et al. Development of assamese text-to-speech system using deep neural network
JP2001242882A (ja) 音声合成方法及び音声合成装置
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JPH08335096A (ja) テキスト音声合成装置
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
Hofer Emotional speech synthesis
JP3742206B2 (ja) 音声合成方法及び装置
JP3575919B2 (ja) テキスト音声変換装置
Hirose et al. Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis
Georgila 19 Speech Synthesis: State of the Art and Challenges for the Future

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080408

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080507

R150 Certificate of patent or registration of utility model

Ref document number: 4125362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130516

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130516

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees