JPWO2006123539A1

JPWO2006123539A1 - 音声合成装置

Info

Publication number: JPWO2006123539A1
Application number: JP2007516243A
Authority: JP
Inventors: 加藤　弓子; 弓子加藤; 釜井　孝浩; 孝浩釜井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-05-18
Filing date: 2006-05-02
Publication date: 2008-12-25
Anticipated expiration: 2026-05-02
Also published as: CN101176146B; US8073696B2; JP4125362B2; CN101176146A; WO2006123539A1; US20090234652A1

Abstract

音声合成される音声波形の発話様態を取得する感情入力部（２０２）と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成部（２０５）と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択部（２０３）と、前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する特徴的音色時間位置推定部（６０４）と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する素片選択部（６０６）および素片接続部（２０９）とを備える。

Description

本発明は発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルを表現することができる音声の生成を可能にする音声合成装置に関する。

従来、感情等の表現が可能な音声合成装置あるいは方法として、いったん標準的なあるいは無表情な音声を合成し、その合成音に類似し且つ感情等の表情のある音声に似た特徴ベクトルを持つ音声を選択して接続するものが提案されている（例えば、特許文献１参照）。

また、標準的なあるいは無表情な音声から感情等の表情のある音声へ合成パラメータを変換する関数をあらかじめニューラルネットを用いて学習させておき、標準的あるいは無表情な音声を合成するパラメータ列を学習された変換関数によってパラメータを変換するものも提案されている（例えば、特許文献２参照）。

さらに、標準的なあるいは無表情な音声を合成するパラメータ列の周波数特性を変形して声質を変換するものも提案されている（例えば、特許文献３参照）。

さらにまた、感情の程度を制御するために感情の程度によって変化率の異なるパラメータ変換関数を用いてパラメータを変換したり、複数の感情を混合するために、表現の異なる２種類の合成パラメータ列を補間してパラメータ列を生成するものも提案されている（例えば、特許文献４参照）。

これ以外にも、各感情表現を含む自然音声からそれぞれの感情に対応する隠れマルコフモデルによる音声生成モデルを統計的に学習し、モデル間の変換式を用意して、標準音声あるいは無表情な音声を、感情を表現する音声に変換する方式が提案されている（例えば、非特許文献１参照）。

図１は、特許文献４に記載された従来の音声合成装置を示すものである。

図１において、感情入力インタフェース部１０９は入力された感情制御情報を、図２のような各感情の割合の経時変化であるパラメータ変換情報に変換して、感情制御部１０８に出力する。感情制御部１０８は、あらかじめ定められた図３のような変換規則に従って、パラメータ変換情報を参照パラメータに変換し、韻律制御部１０３およびパラメータ制御部１０４の動作を制御する。韻律制御部１０３は、言語処理部１０１により生成された音韻列と言語情報とにより無感情韻律パタンを生成した後、無感情韻律パタンを感情制御部１０８で生成された参照パラメータに基づいて感情を伴った韻律パタンに変換する。さらに、パラメータ制御部１０４は、あらかじめ生成したスペクトルや発話速度等の無感情パラメータを、上述の参照パラメータを用いて感情パラメータに変換して合成音声に感情を付与する。
特開２００４−２７９４３６号公報（第８−１０頁、図５）特開平７−７２９００号公報（第６−７頁、図１）特開２００２−２６８６９９号公報（第９−１０頁、図９）特開２００３−２３３３８８号公報（第８−１０頁、図１、図３、図６）田村正統、益子貴史、徳田恵一および小林隆夫、「ＨＭＭ音声合成に基づく声質変換における話者適応手法の検討」音響学会講演論文集，１巻、ｐｐ．３１９−３２０，１９９８

しかしながら、従来の構成では、感情ごとにあらかじめ定められた図３に示すような一様な変換規則に従ってパラメータ変換を行い、個々の音のパラメータの変化率によって感情の強度を表現しようとしている。このため、自然発話に見られる、同じ感情種類、感情強度であっても部分的に裏声になったり、部分的に力んだ声になったりするような声質のバリエーションを再現することはできず、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現することが困難であるというという課題を有している。

本発明は、前記従来の課題を解決するもので、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現する音声合成装置を提供することを目的とする。

本発明のある局面に係る音声合成装置は、音声合成される音声波形の発話様態を取得する発話様態取得手段と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段とを備える。

この構成により、「怒り」などの感情表現を伴った発話中に、特徴的に出現する「力み」などの特徴的音色を混在させることができる。その際に、特徴的音色を混在させる位置が、発話位置決定手段により、特徴的音色、音韻列および韻律に基づいて、音韻ごとに決定される。このため、全ての音韻を特徴的音色で発話するような音声波形を生成するのではなく、適切な位置に特徴的音色を混在させることができる。よって、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現する音声合成装置を提供することができる。

好ましくは、上述の音声合成装置は、さらに、前記特徴的音色に基づいて、前記特徴的音色で発話する頻度を決定する頻度決定手段を備え、前記発話位置決定手段は、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記頻度とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する。

前記頻度決定手段により、特徴的音色ごとに、当該特徴的音色で発話する頻度を決定することができる。このため、適切な割合で特徴的音色を音声中に混在させることができ、人間が聞いても違和感のない豊かな音声表現を実現することができる。

さらに好ましくは、前記頻度決定手段は、モーラ、音節、音素または音声合成単位を単位として、前記頻度を決定することを特徴とする。

本構成によって、特徴的音色を持つ音声を生成する頻度を精度よく制御することができる。

また、前記特徴的音色選択手段は、発話様態と複数の特徴的音色とを対応付けて記憶する要素音色記憶部と、取得された前記発話様態に対応する前記複数の特徴的音色を前記要素音色記憶部より選択する選択部とを有し、前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定してもよい。

本構成によって、一つの発話様態による発話中に複数の特徴的音色による発話を混在させることができる。このため、より豊かな音声表現を実現する音声合成装置を提供することができる。

好ましくは、前記要素音色記憶部は、前記発話様態と、複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶しており、前記選択部は、取得された前記発話様態に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択し、前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する。

本構成によって、複数種類の特徴的音色のバランスが適切に制御され、合成する音声の表現を精度よく制御できる。

また、前記発話位置決定手段は、特徴的音色ごとに特徴的音色を生成する音韻を推定する推定式と閾値とを格納する推定式格納部と、前記特徴的音色選択手段で選択された前記特徴的音色に対応する推定式と閾値とを前記推定式格納部より選択する推定式選択部と、選択された前記推定式に、前記韻律生成手段で生成された前記音韻列および前記韻律を、音韻ごとに当てはめ、当該推定式の値が閾値を超えた場合に、当該音韻を、前記特徴的音色で発話する発話位置と推定する推定部とを有する。具体的には、前記推定式は、音韻、韻律または言語情報のうち少なくとも１つを用いて統計的に学習された式である。さらに言えば、前記推定式は、数量化ＩＩ類を用いて作成されていてもよい。

本構成によって、特徴的音色で発話する発話位置を精度よく決定することができる。

本発明の音声合成装置によれば、発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルごとに、自然音声中のところどころに観察される裏声や力んだ声のような特徴的音色による声質のバリエーションを再現することができる。また、本発明の音声合成装置によれば、この特徴的音色の音声の発生頻度により、発声器官の緊張や弛緩、感情、音声の表情、あるいは発話スタイルの表現の強度を制御し、さらに音声中の適切な時間位置で特徴的音色の音声を生成することができる。また、本発明の音声合成装置によれば、複数種類の特徴的音色の音声をバランスよく１発話の音声中に生成することにより複雑な音声の表現を制御することができる。

図１は、従来の音声合成装置のブロック図である。図２は、従来の音声合成装置における感情の混合方法を示す模式図である。図３は、従来の音声合成装置における無感情音声から感情音声への変換関数の模式図である。図４は、本発明の実施の形態１における音声合成装置のブロック図である。図５は、本発明の実施の形態１における音声合成装置の一部のブロック図である。図６は、図５に示す音声合成装置の推定式・閾値記憶部に記憶される情報の一例を示す図である。図７は、実際の音声における特徴的音色の音声の音韻種類による発生頻度を示すグラフである。図８は、実際の音声において観察された特徴的音色の音声の発生位置と推定された特徴的音色の音声の時間位置の比較を示す図である。図９は、本発明の実施の形態１における音声合成装置の動作を示すフローチャートである。図１０は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。図１１は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフである。図１２は、本発明の実施の形態１における音声合成装置のブロック図である。図１３は、本発明の実施の形態１における音声合成装置の動作を示すフローチャートである。図１４は、本発明の実施の形態１における音声合成装置のブロック図である。図１５は、本発明の実施の形態１における音声合成装置の動作を示すフローチャートである。図１６は、本発明の実施の形態１における音声合成装置のブロック図である。図１７は、本発明の実施の形態１における音声合成装置の動作を示すフローチャートである。図１８は、コンピュータの構成の一例を示す図である。図１９は、本発明の実施の形態２における音声合成装置のブロック図である。図２０は、本発明の実施の形態２における音声合成装置の一部のブロック図である。図２１は、実際の音声における特徴的音色の音声の発生頻度と表現の強度との関係を示すグラフである。図２２は、本発明の実施の形態２における音声合成装置の動作を示すフローチャートである。図２３は、特徴的音色の音声の発生頻度と表現の強度との関係を示す模式図である。図２４は、特徴的音色音韻の発生確率と推定式の値との関係を示す模式図である。図２５は、本発明の実施の形態３における音声合成装置の動作を示すフローチャートである。図２６は、本発明の実施の形態３における、感情表現ごとに対応する１つ以上の種類の特徴的音色とその出現頻度の情報の例を示す図である。図２７は、本発明の実施の形態１における音声合成装置の動作を示すフローチャートである。図２８は、音声を合成をした際の特殊音声の位置の一例を示した図である。図２９は、図４に示した音声合成装置の変形構成例を示すブロック図である。図３０は、図１９に示した音声合成装置の変形構成例を示すブロック図である。図３１は、図２５に示した音声合成装置の変形構成例を示すブロック図である。図３２は、言語処理済テキストの一例を示す図である。図３３は、図４および図１９に示した音声合成装置の変形構成例の一部を示した図である。図３４は、図２５に示した音声合成装置の変形構成例の一部を示した図である。図３５は、タグ付テキストの一例を示す図である。図３６は、図４および図１９に示した音声合成装置の変形構成例の一部を示した図である。図３７は、図２５に示した音声合成装置の変形構成例の一部を示した図である。

符号の説明

１０１言語処理部
１０２、２０６、６０６、７０６素片選択部
１０３韻律制御部
１０４パラメータ制御部
１０５音声合成部
１０６感情情報抽出部
１０７感情制御情報変換部
１０８感情制御部
１０９感情入力インタフェース部
１１０、２１０、５０９、８０９、スイッチ
２０２感情入力部
２０３特徴的音色選択部
２０４特徴的音色音韻頻度決定部
２０５韻律生成部
２０７標準音声素片データベース
２０８特殊音声素片データベース
２０９素片接続部
２２１感情強度特徴的音色頻度変換部
２２０感情強度−頻度変換規則記憶部
３０７標準音声パラメータ素片データベース
３０８特殊音声変換規則記憶部
３０９パラメータ変形部
３１０波形生成部
４０６合成パラメータ生成部
５０６特殊音声位置決定部
５０７標準音声パラメータ生成部
５０８特殊音声パラメータ生成部
６０４特徴的音色時間位置推定部
６２０推定式・閾値記憶部
６２１推定式選択部
６２２特徴的音色音韻推定部
８０４特徴的音色時間位置推定部
８２０推定式記憶部
８２１推定式選択部
８２３判定閾値決定部
９０１要素感情音色選択部
９０２要素音色テーブル
９０３要素音色選択部
１００１マークアップ言語解析部

（実施の形態１）
図４および図５は、本発明の実施の形態１に係る音声合成装置の機能ブロック図である。図６は、図５に示す音声合成装置の推定式・閾値記憶部に記憶される情報の一例を示す図である。図７は自然発声音声での特徴的音色の出現頻度を子音ごとにまとめて示した図である。図８は特殊音声の発生位置の予測例を示す模式図である。図９は実施の形態１における音声合成装置の動作を示したフローチャートである。

図４に示されるように、実施の形態１に係る音声合成装置は、感情入力部２０２と、特徴的音色選択部２０３と、言語処理部１０１と、韻律生成部２０５と、特徴的音色時間位置推定部６０４と、標準音声素片データベース２０７と、特殊音声素片データベース２０８と、素片選択部６０６と、素片接続部２０９と、スイッチ２１０とを備えている。

感情入力部２０２は、感情制御情報の入力を受け付け、合成する音声に付与する感情種類を出力する処理部である。

特徴的音色選択部２０３は、感情入力部２０２が出力した感情種類に従って、合成する音声中に生成すべき特徴的音色を持った特殊音声の種類を選択し、音色指定情報を出力する処理部である。言語処理部１０１は、入力テキストを取得し、音韻列および言語情報を生成する処理部である。韻律生成部２０５は、感情入力部２０２より感情種類情報を取得し、さらに言語処理部１０１より音韻列および言語情報を取得して、韻律情報を生成する処理部である。ここで、本願では、韻律情報は、アクセント情報、アクセント句の区切れ情報、基本周波数、パワー、ならびに、音韻および無音区間の時間長を含むものと定義する。

特徴的音色時間位置推定部６０４は、音色指定情報、音韻列、言語情報および韻律情報を取得して、合成する音声中で特徴的音色である特殊音声を生成する音韻を決定する処理部である。特徴的音色時間位置推定部６０４の具体的な構成については後述する。

標準音声素片データベース２０７は、特殊な音色でない標準の音声を生成するための素片を格納したハードディスク等の記憶装置である。特殊音声素片データベース２０８ａ，２０８ｂ，２０８ｃは、特徴的な音色の音声を生成するための素片を音色の種類ごとに格納したハードディスク等の記憶装置である。素片選択部６０６は、指定された特殊音声を生成する音韻については、スイッチ２１０を切り替えて該当する特殊音声素片データベース２０８から音声素片を選択し、それ以外の音韻については標準音声素片データベース２０７より素片を選択する処理部である。

素片接続部２０９は素片選択部６０６で選択された素片を接続して音声波形を生成する処理部である。スイッチ２１０は、素片選択部６０６が標準音声素片データベース２０７あるいは特殊音声素片データベース２０８のいずれかから素片を選択する際に、素片種類の指定に従って、接続するデータベースを切り替えるためのスイッチである。

図５に示されるように、特徴的音色時間位置推定部６０４は、推定式・閾値記憶部６２０と、推定式選択部６２１と、特徴的音色音韻推定部６２２とから構成される。

推定式・閾値記憶部６２０は、図６に示されるように、特殊音声を生成する音韻を推定する推定式と閾値とを特徴的音色の種類ごとに記憶する記憶装置である。推定式選択部６２１は、音色指定情報で指定された音色の種類にしたがって、推定式・閾値記憶部６２０より推定式と閾値とを選択する処理部である。特徴的音色音韻推定部６２２は、音韻列および韻律情報を取得し、各音韻を特殊音声で生成するか否かを、推定式と閾値とにより決定する処理部である。

実施の形態１の構成による音声合成装置の動作を説明する前に、特徴的音色時間位置推定部６０４が特殊音声の合成音中における時間位置を推定する背景を説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている（例えば日本音響学会誌５１巻１１号（１９９５），ｐｐ８６９−８７５粕谷英樹・楊長盛“音源から見た声質”）。なお、本願では、以降、話者の状況や意図などが言語的意味以上にあるいは言語的意味とは別に聴取者に伝えられるような音声の表現を「発話様態」と呼ぶ。発話様態は、発声器官の緊張や弛緩といった解剖学的、生理的状況や、感情や情動といった心理状態や、表情のような心理状態を反映する現象や、発話スタイルや話し方といった話者の態度や行動様式といった概念を含む情報によって決定される。後述の実施形態に従えば、発話様態を決定する情報として、例えば「怒り」、「喜び」、「悲しみ」、「怒り、３」のような感情の種類や、感情の強度などがあげられる。

ここでは、本願発明に先立って同一テキストに基づいて発話された５０文について無表情な音声、感情を伴う音声の調査を行った。図７（ａ）は話者１について「強い怒り」の感情表現を伴った音声中の「力んだ」音（あるいは上記文献中では「ざらざら声（ｈａｒｓｈｖｏｉｃｅ）」とも表現される音）で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフであり、図７（ｂ）は話者２について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図７（ｃ）および図７（ｄ）は、それぞれ図７（ａ）および図７（ｂ）と同じ話者について「中程度の怒り」の感情表現を伴って音声中の「力んだ」音のモーラ頻度をモーラ内の子音ごとに示したグラフである。なお、「モーラ」とは、日本語音声における韻律の基本単位であり、単一の短母音、子音と短母音、子音と半母音と短母音で構成されるものと、モーラ音素のみから構成されるものとがある。特殊音声の発生頻度は子音の種類によって偏りがあり、例えば「ｔ」「ｋ」「ｄ」「ｍ」「ｎ」あるいは子音無しの場合には発生頻度が高く、「ｐ」「ｃｈ」「ｔｓ」「ｆ」などでは発生頻度が低い。

図７（ａ）および図７（ｂ）に示された２名の話者についてのグラフを比較すると、上記の子音の種類による特殊音声の発生頻度の偏りの傾向は同じであることがわかる。翻って、より自然な感情や表情を合成音声に付与するためには発話中のより適切な部分に特徴的な音色を持つ音声を生成することが必要となる。また、話者に共通する偏りがあることは、合成する音声の音韻列に対して、特殊音声の発生位置は音韻の種類等の情報から推定できる可能性を示している。

図８は、図７と同一のデータから統計的学習手法の１つである数量化ＩＩ類を用いて作成した推定式により、例１「じゅっぷんほどかかります」と例２「あたたまりました」について「力んだ」音で発声されるモーラを推定した結果を示したものである。自然発話音声において特殊音声を発声したモーラ、および推定式・閾値記憶部に記憶されている推定式Ｆ１により特殊音声の発生が予測されたモーラのそれぞれについて、かな書きの下に線分を引いて示した。

図８に示す特殊音声の発生が予測されたモーラは、上述したように数量化ＩＩ類による推定式Ｆ１に基づいて、特定される。推定式Ｆ１は、結果学習用データの各モーラについて、モーラに含まれる子音の種類および母音の種類または音韻のカテゴリといった音韻の種類を示す情報と、アクセント句内のモーラ位置の情報とを独立変数として表現し、「力んだ」音が発生したか否かの２値を従属変数として表現することにより、数量化ＩＩ類により作成される。また、図８に示す特殊音声の発生が予測されたモーラは、学習用データの特殊音声の発生位置に対する正解率が約７５％になるように閾値を決定した場合の推定結果である。図８より、特殊音声の発生位置は音韻の種類やアクセントに関わる情報から高精度に推定可能であることが示されている。

次に先に述べたように構成された音声合成装置の動作を図９に従って説明する。

まず、感情入力部２０２に感情制御情報が入力され、感情種類が抽出される（Ｓ２００１）。感情制御情報は、例えば「怒り」「喜び」「悲しみ」といった感情の種類をいくつか提示するインタフェースからユーザが選択して入力するものとする。ここでは、Ｓ２００１において「怒り」が入力されたとものとする。

特徴的音色選択部２０３は、入力された感情種類「怒り」に基づき、「怒り」の音声に特徴的に現れる音色、例えば「力み」を選択する（Ｓ２００２）。

次に推定式選択部６２１は音色指定情報を取得し、推定式・閾値記憶部６２０を参照して、指定された音色ごとに設定された推定式と判定閾値とより特徴的音色選択部２０３より取得した音色指定情報、すなわち「怒り」に特徴的に現れる「力み」の音色に対応する推定式Ｆ１と判定閾値ＴＨ１とを取得する（Ｓ６００３）。

図１０は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。ここでは、特徴的音色として「力み」を選択した場合について説明する。

まず、学習用の音声データ中の各モーラについて、推定式の独立変数として、子音の種類と、母音の種類と、アクセント句中の正順位置とが設定される（Ｓ２）。また、上述の各モーラについて、推定式の従属変数として、特徴的音色（力み）で発声されているか否かを２値で表した変数が設定される（Ｓ４）。次に、各独立変数のカテゴリ重みとして、子音の種類毎の重み、母音の種類毎の重みおよびアクセント句中の正順位置ごとの重みが、数量化ＩＩ類に従い、算出される（Ｓ６）。また、各独立変数のカテゴリ重みを音声データ中の各モーラの属性条件に当てはめることにより、特徴的音色（力み）で発声される「力み易さ」が算出される（Ｓ８）。

図１１は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフであり、「力み易さ」は、「−５」から「５」までの数値で示されており、数値が小さいほど、発声した際に力みやすいと推定される。ハッチングを施した棒グラフは、実際に発声した際に特徴的音色で発声された（力みが生じた）モーラにおける頻度を示しており、ハッチングを施していない棒グラフは、実際に発声した際に特徴的音色で発声されなかった（力みが生じなかった）モーラにおける頻度を示している。

このグラフにおいて、実際に特徴的音色（力み）で発声されたモーラ群と、特徴的音色（力み）で発声されなかったモーラ群の「力み易さ」の値とが比較され、特徴的音色（力み）で発声されたモーラ群と特徴的音色（力み）で発声されなかったモーラ群との両群の正解率が共に７５％を超えるように、「力み易さ」から特徴的音色（力み）で発声されると判断するための閾値が設定される（Ｓ１０）。

以上のようにして、「怒り」に特徴的に現れる「力み」の音色に対応する推定式Ｆ１と判定閾値ＴＨ１とを求められる。

なお、「喜び」や「悲しみ」といった他の感情に対応する特殊音声についても、特殊音声ごとに同様に推定式と閾値とが設定されているものとする。

一方、言語処理部１０１は、入力されたテキストを形態素解析、構文解析し、音韻列と、アクセント位置、形態素の品詞、文節間の結合度および文節間距離等の言語情報とを出力する（Ｓ２００５）。

韻律生成部２０５は、音韻列と言語情報と、さらに感情種類情報すなわち感情種類「怒り」を指定する情報とを取得し、言語的意味を伝えかつ指定された感情種類「怒り」にあわせた韻律情報を生成する（Ｓ２００６）。

特徴的音色音韻推定部６２２は、Ｓ２００５で生成された音韻列とＳ２００６で生成された韻律情報とを取得し、Ｓ６００３で選択された推定式を音韻列中の各音韻に当てはめて値を求め、同じくＳ６００３で選択された閾値と比較する。特徴的音色音韻推定部６２２は、推定式の値が閾値を越えた場合には、当該音韻を特殊音声で発声することを決定する（Ｓ６００４）。すなわち、特徴的音色音韻推定部６２２は、「怒り」に対応する特殊音声「力み」の発生を推定する数量化ＩＩ類による推定式に、当該音韻の子音、母音、アクセント区内の位置を当てはめて、推定式の値を求める。特徴的音色音韻推定部６２２は、当該値が閾値を越えた場合には当該音韻が「力み」の特殊音声で合成音を生成すべきであると判断する。

素片選択部６０６は、韻律生成部２０５より音韻列と韻律情報とを取得する。また、素片選択部６０６は、Ｓ６００４で特徴的音色音韻推定部６２２で決定された特殊音声で合成音を生成する音韻の情報を取得して、合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する（Ｓ６００７）。

さらに、素片選択部６０６は、Ｓ６００７で決定された特殊音声素片を使用する素片位置と使用しない素片位置とに応じて、標準音声素片データベース２０７と指定された種類の特殊音声素片を格納した特殊音声素片データベース２０８とのうちいずれかとの接続をスイッチ２１０により切り替えて、合成に必要な音声素片を選択する（Ｓ２００８）。

この例においては、スイッチ２１０は、標準音声素片データベース２０７と特殊音声素片データベース２０８のうち「力み」の素片データベースとを切り替える。

素片接続部２０９は、波形重畳方式により、Ｓ２００８で選択された素片を、取得した韻律情報に従って変形して接続し（Ｓ２００９）、音声波形を出力する（Ｓ２０１０）。なお、Ｓ２００８で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。

かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部２０２と、感情の種類に対応する特徴的音色の種類を選択する特徴的音色選択部２０３と、推定式・閾値記憶部６２０、推定式選択部６２１および特徴的音色音韻推定部６２２からなり、合成する音声中で特徴的音色を持つ特殊音声で生成すべき音韻を決定する特徴的音色時間位置推定部６０４と、標準音声素片データベース２０７の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース２０８とを備えている。このことにより、本実施の形態に係る音声合成装置は、入力された感情の種類に応じて、感情が付与された音声の発話の一部に出現する特徴的な音色の音声を生成すべき時間位置を、音韻列、韻律情報または言語情報等より、モーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。

さらには、本実施の形態に係る音声合成装置は、韻律や声質の変化ではなく、「特徴的な声質の発声により感情や表情等を表現する」という人間の発話の中で自然にかつ普遍的に行われている行動を、音韻位置の精度で正確に模擬することができる。このため、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。

（変形構成例１）
なお、本実施の形態において、素片選択部６０６、標準音声素片データベース２０７、特殊音声素片データベース２０８、素片接続部２０９を設け、波形重畳法による音声合成方式での実現方法を示したが、図１２に示すように、音声合成装置は、パラメータ素片を選択する素片選択部７０６と、標準音声パラメータ素片データベース３０７と、特殊音声変換規則記憶部３０８と、パラメータ変形部３０９と、波形生成部３１０とを設けるようにしてもよい。

標準音声パラメータ素片データベース３０７は、パラメータで記述された音声素片を記憶している記憶装置である。特殊音声変換規則記憶部３０８は、特徴的音色の音声のパラメータを標準音声のパラメータから生成するための特殊音声変換規則を記憶している記憶装置である。パラメータ変形部３０９は、特殊音声変換規則に従って標準音声のパラメータを変形して所望の韻律の音声のパラメータ列（合成パラメータ列）を生成する処理部である。波形生成部３１０は、合成パラメータ列から音声波形を生成する処理部である。

図１３は、図１２に示した音声合成装置の動作を示すフローチャートである。図９に示した処理と同じ処理については説明を適宜省略する。

本実施の形態の図９に示したＳ６００４において、特徴的音色音韻推定部６２２は合成する音声中で特殊音声を生成する音韻を決定したが、図１３では特に音韻をモーラで指定した場合について示している。

特徴的音色音韻推定部６２２は、特殊音声を生成するモーラを決定する（Ｓ６００４）。素片選択部７０６は、音韻列を素片単位列に変換し、素片種類と言語情報と韻律情報とに基づいて標準音声パラメータ素片データベース３０７よりパラメータ素片を選択する（Ｓ３００７）。パラメータ変形部３０９は、Ｓ３００７で素片選択部７０６により選択されたパラメータ素片列をモーラ単位に変換し、Ｓ６００４で特徴的音色音韻推定部６２２により決定された合成する音声中の特殊音声を生成するモーラ位置に従って、特殊音声に変換すべきパラメータ列を特定する（Ｓ７００８）。

さらに、パラメータ変形部３０９は、特殊音声変換規則記憶部３０８に特殊音声の種類ごとに記憶された標準音声を特殊音声に変換する変換規則より、Ｓ２００２で選択された特殊音声に対応する変換規則を取得する（Ｓ３００９）。パラメータ変形部３０９は、Ｓ７００８で特定されたパラメータ列を変換規則に従って変換し（Ｓ３０１０）、さらに韻律情報にあわせて変形する（Ｓ３０１１）。

波形生成部３１０は、パラメータ変形部３０９より出力された変形済みのパラメータ列を取得し、音声波形を生成、出力する（Ｓ３０２１）。

（変形構成例２）
なお、本実施の形態において、素片選択部６０６、標準音声素片データベース２０７、特殊音声素片データベース２０８、素片接続部２０９を設け、波形重畳法による音声合成方式での実現方法を示したが、図１４に示すように、音声合成装置は、標準音声のパラメータ列を生成する合成パラメータ生成部４０６と、特殊音声変換規則記憶部３０８と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部３０９と、波形生成部３１０とを設けるようにしてもよい。

図１５は、図１４に示した音声合成装置の動作を示すフローチャートである。図９に示した処理と同じ処理については適宜説明を省略する。

本音声合成装置では、図９に示した本実施の形態に係る音声合成装置の処理においてＳ６００４以降の処理が異なる。すなわち、Ｓ６００４の処理の後、合成パラメータ生成部４０６は、Ｓ２００５で言語処理部１０１により生成された音韻列および言語情報と、Ｓ２００６で韻律生成部２０５により生成された韻律情報とに基づいて、例えば隠れマルコフモデル（ＨＭＭ）のような統計学習を用いてあらかじめ定められたルールに基づき、標準音声の合成パラメータ列を生成する（Ｓ４００７）。

パラメータ変形部３０９は、特殊音声変換規則記憶部３０８に特殊音声の種類ごとに記憶された標準音声を特殊音声に変換する変換規則より、Ｓ２００２で選択された特殊音声に対応する変換規則を取得する（Ｓ３００９）。パラメータ変形部３０９は、特殊音声に変形する音韻に相当するパラメータ列を変換規則に従って変換し、当該音韻のパラメータを特殊音声のパラメータに変換する（Ｓ３０１０）。波形生成部３１０は、パラメータ変形部３０９より出力された変形済みのパラメータ列を取得し、音声波形を生成、出力する（Ｓ３０２１）。

（変形構成例３）
なお、本実施の形態において、素片選択部２０６、標準音声素片データベース２０７、特殊音声素片データベース２０８、素片接続部２０９を設け、波形重畳法による音声合成方式での実現方法を示したが、図１６に示すように、音声合成装置は、標準音声のパラメータ列を生成する標準音声パラメータ生成部５０７と、特徴的音色の音声のパラメータ列を生成する少なくとも１つの特殊音声パラメータ生成部５０８（特殊音声パラメータ生成部５０８ａ，５０８ｂ，５０８ｃ）と、標準音声パラメータ生成部５０７と、特殊音声パラメータ生成部５０８とを切り替えるスイッチ５０９と、合成パラメータ列から音声波形を生成する波形生成部３１０とを設けるようにしてもよい。

図１７は、図１６に示した音声合成装置の動作を示すフローチャートである。図９に示した処理と同じ処理については適宜説明を省略する。

Ｓ２００６の処理の後、Ｓ６００４で生成された特殊音声を生成する音韻情報とＳ２００２で生成された音色指定とに基づいて、特徴的音色音韻推定部６２２は、音韻ごとにスイッチ８０９を操作して、合成パラメータの生成を行うパラメータ生成部を切り替えて、韻律生成部２０５と標準音声パラメータ生成部５０７および音色指定に対応する特殊音声を生成する特殊音声パラメータ生成部５０８のいずれかとの間をつなぐ。また、特徴的音色音韻推定部６２２は、Ｓ６００４で生成された特殊音声を生成する音韻の情報に対応して標準音声と特殊音声とのパラメータが配置された合成パラメータ列を生成する（Ｓ８００８）。

波形生成部３１０は、パラメータ列より音声波形を生成、出力する（Ｓ３０２１）。

なお、本実施の形態では感情強度は固定として、感情種類ごとに記憶された推定式と閾値を用いて特殊音声を生成する音韻位置を推定したが、複数の感情強度の段階を用意し、感情種類と感情強度の段階ごとに推定式と閾値とを記憶しておき、感情種類と感情強度と合わせて、推定式と閾値とを用いて特殊音声を生成する音韻位置を推定するものとしても良い。

なお、本実施の形態１における音声合成装置をＬＳＩ（集積回路）で実現すると、特徴的音色選択部２０３、特徴的音色時間位置推定部６０４、言語処理部１０１、韻律生成部２０５、素片選択部６０５、素片接続部２０９の全てを１つのＬＳＩで実現することができる。または、それぞれの処理部を１つのＬＳＩで実現することができる。さらに、それぞれの処理部を複数のＬＳＩで実現することもできる。標準音声素片データベース２０７、特殊音声素片データベース２０８ａ、２０８ｂ、２０８ｃは、ＬＳＩの外部の記憶装置により実現してもよいし、ＬＳＩの内部に備えられたメモリにより実現してもよい。ＬＳＩの外部の記憶装置で当該データベースを実現する場合には、インターネット経由でデータベースのデータを取得しても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限られるものではなく、専用回路または汎用プロセサにより実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて音声合成装置を構成する処理部の集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

さらに、本実施の形態１における音声合成装置をコンピュータで実現することもできる。図１８は、コンピュータの構成の一例を示す図である。コンピュータ１２００は、入力部１２０２と、メモリ１２０４と、ＣＰＵ１２０６と、記憶部１２０８と、出力部１２１０とを備えている。入力部１２０２は、外部からの入力データを受け付ける処理部であり、キーボード、マウス、音声入力装置、通信Ｉ／Ｆ部等から構成される。メモリ１２０４は、プログラムやデータを一時的に保持する記憶装置である。ＣＰＵ１２０６は、プログラムを実行する処理部である。記憶部１２０８は、プログラムやデータを記憶する装置であり、ハードディスク等からなる。出力部１２１０は、外部にデータを出力する処理部であり、モニタやスピーカ等からなる。

音声合成装置をコンピュータで実現した場合には、特徴的音色選択部２０３、特徴的音色時間位置推定部６０４、言語処理部１０１、韻律生成部２０５、素片選択部６０５、素片接続部２０９は、ＣＰＵ１２０６上で実行されるプログラムに対応し、標準音声素片データベース２０７、特殊音声素片データベース２０８ａ、２０８ｂ、２０８ｃは、記憶部１２０８に記憶される。また、ＣＰＵ１２０６で計算された結果は、メモリ１２０４や記憶部１２０８に一旦記憶される。メモリ１２０４や記憶部１２０８は、特徴的音色選択部２０３等の各処理部とのデータの受け渡しに利用されてもよい。また、本実施の形態に係る音声合成装置をコンピュータに実行させるためのプログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、不揮発性メモリ等に記憶されていてもよいし、インターネットを経由してコンピュータ１２００のＣＰＵ１２０６に読み込まれてもよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

（実施の形態２）
図１９および図２０は、本発明の実施の形態２の音声合成装置の機能ブロック図である。図１９において、図４および図５と同じ構成要素については同じ符号を用い、適宜説明を省略する。

図１９に示されるように、実施の形態２に係る音声合成装置は、感情入力部２０２と、特徴的音色選択部２０３と、言語処理部１０１と、韻律生成部２０５と、特徴的音色音韻頻度決定部２０４と、特徴的音色時間位置推定部８０４と、素片選択部６０６と、素片接続部２０９とを備えている。

感情入力部２０２は、感情種類を出力する処理部である。特徴的音色選択部２０３は、音色指定情報を出力する処理部である。言語処理部１０１は、音韻列と言語情報を出力する処理部である。韻律生成部２０５は、韻律情報を生成する処理部である。

特徴的音色音韻頻度決定部２０４は、音色指定情報、音韻列、言語情報および韻律情報を取得して、合成する音声中で特徴的音色である特殊音声を生成する頻度を決定する処理部である。特徴的音色時間位置推定部８０４は、特徴的音色音韻頻度決定部２０４によって生成された頻度に従って、合成する音声中で特殊音声を生成する音韻を決定する処理部である。素片選択部６０６は、指定された特殊音声を生成する音韻についてはスイッチを切り替えて該当する特殊音声素片データベース２０８から音声素片を選択し、それ以外の音韻については標準音声素片データベース２０７より素片を選択する処理部である。素片接続部２０９は、素片を接続して音声波形を生成する処理部である。

換言すれば、特徴的音色音韻頻度決定部２０４は、特徴的音色選択部２０３で選択された特殊音声を合成する音声中にどの程度の頻度で使用するかを感情入力部２０２より出力された感情の強度に従って決定する処理部である。図２０に示されるように、特徴的音色音韻頻度決定部２０４は、感情強度−頻度変換規則記憶部２２０と、感情強度特徴的音色頻度変換部２２１とから構成される。

感情強度−頻度変換規則記憶部２２０は、合成音声に付与する感情あるいは表情ごとにあらかじめ設定された感情強度を特殊音声の生成頻度に変換する規則を記憶している記憶装置である。感情強度特徴的音色頻度変換部２２１は、合成音声に付与する感情あるいは表情に対応する感情強度−頻度変換規則を感情強度−頻度変換規則記憶部２２０より選択して、感情強度を特殊音声の生成頻度に変換する処理部である。

特徴的音色時間位置推定部８０４は、推定式記憶部８２０と、推定式選択部８２１と、確率分布保持部８２２と、判定閾値決定部８２３と、特徴的音色音韻推定部６２２とを備えている。

推定式記憶部８２０は、特殊音声を生成する音韻を推定する推定式を特徴的音色の種類ごとに記憶する記憶装置である。推定式選択部８２１は、音色指定情報を取得して、推定式・閾値記憶部６２０より音色の種類にしたがって推定式を選択する処理部である。確率分布保持部８２２は、特殊音声の発生確率と推定式の値との関係を確率分布として特徴的音色の種類ごとに記憶した記憶装置である。判定閾値決定部８２３は、推定式を取得して、確率分布保持部８２２に格納された生成する特殊音声に対応する特殊音声の確率分布を参照して、特殊音声を生成するか否かを判定する推定式の値に対する閾値を決定する処理部である。特徴的音色音韻推定部６２２は、音韻列および韻律情報を取得して各音韻を特殊音声で生成するか否かを推定式と閾値とにより決定する処理部である。

実施の形態２の構成による音声合成装置の動作を説明する前に、特徴的音色音韻頻度決定部２０４が特殊音声の合成音中における発生頻度を感情の強度に従って決定する背景について説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている（例えば日本音響学会誌５１巻１１号（１９９５），ｐｐ８６９−８７５粕谷英樹・楊長盛“音源から見た声質”）。

本願発明に先立って同一テキストに基づいて発話された５０文について無表情な音声、中程度の感情を伴う音声、強い感情を伴う音声の調査を行った。図２１は２名の話者について「怒り」の感情表現を伴った音声中の「力んだ」音、上記文献中では「ざらざら声（ｈａｒｓｈｖｏｉｃｅ）」と記述されている音声に近い音の発生頻度を示したものである。話者１では全体的に「力んだ」音あるいは「ざらざら声（ｈａｒｓｈｖｏｉｃｅ）」とも呼ばれる音の発生頻度が高く、話者２では発生頻度が全体的に低い。このように話者による発生頻度の差はあるものの、感情の強度が強くなるにつれて「力んだ」音の頻度が上昇する傾向は共通である。感情や表情を伴った音声において、発話中に出現する特徴的な音色をもつ音声の頻度はその感情や表情の強さと関係があるといえる。

さらに、図７（ａ）は、話者１について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図７（ｂ）は、話者２について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。同様に、図７（ｃ）は、話者１について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音の頻度を示したグラフである。図７（ｄ）は、話者２について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音の頻度を示したグラフである。

実施の形態１において説明したように図７（ａ）および図７（ｂ）に示したグラフより「力んだ」音声は、子音「ｔ」「ｋ」「ｄ」「ｍ」「ｎ」あるいは子音無しの場合に発生頻度が高く、子音「ｐ」「ｃｈ」「ｔｓ」「ｆ」などでは発生頻度が低いという偏りの傾向が話者１と話者２との間で共通している。それのみならず、図７（ａ）および図７（ｃ）に示したグラフ同士の比較、ならびに図７（ｂ）および図７（ｄ）に示したグラフ同士の比較から明らかなように、「強い怒り」の感情表現を伴う音声と「中程度の怒り」の感情表現を伴う音声とにおいて、子音「ｔ」「ｋ」「ｄ」「ｍ」「ｎ」あるいは子音無しの場合には発生頻度が高く、子音「ｐ」「ｃｈ」「ｔｓ」「ｆ」などでは発生頻度が低いという子音の種類による特殊音声の発生頻度の偏りの傾向は同じまま、感情の強度によって発生頻度が変化している。さらに、感情の強度が異なっても偏りの傾向は同じであるが、特殊音声の全体の発生頻度は感情の強度で異なるという特徴は話者１、話者２に共通している。翻って、感情や表情の強度を制御してより自然な表現を合成音声に付与するためには、発話中のより適切な部分に特徴的な音色を持つ音声を生成することが必要である上に、その特徴的な音色を持つ音声を適切な頻度で生成することが必要となる。

特徴的な音色の発生の仕方には話者に共通する偏りがあることから、合成する音声の音韻列に対して、特殊音声の発生位置は音韻の種類等の情報から推定できることは実施の形態１で述べたが、さらに感情の強度が変わっても特殊音声の発生の仕方の偏りは変わらず、全体の発生頻度が感情あるいは表情の強度に伴って変化する。このことから、合成しようとする音声の感情や表情の強度に合わせた特殊音声の発生頻度を設定し、その発生頻度を実現するように、音声中の特殊音声の発生位置を推定することが可能であると考えられる。

次に音声合成装置の動作を図２２に従って説明する。図２２において、図９と同じ動作については同じ符号を用い、説明を省略する。

まず、感情入力部２０２に感情制御情報として例えば「怒り・３」が入力され、感情種類「怒り」と感情強度「３」とが抽出される（Ｓ２００１）。感情強度は、例えば感情の強度を５段階で表現したものであり、無表情な音声を０として、わずかに感情あるいは表情が加わる程度を１とし、音声表現として通常観察される最も強い表現を５として、数字が大きくなるほど感情あるいは表情の強度が高くなるように設定されたものとする。

特徴的音色選択部２０３は、感情入力部２０２から出力される感情種類「怒り」と感情あるいは表情の強度（例えば、感情強度情報「３」）とに基づき、特徴的音色として例えば、「怒り」の音声中に発生する「力み」音声を選択する（Ｓ２００２）。

次に感情強度特徴的音色頻度変換部２２１は、「力み」音声を指定する音色指定情報と感情強度情報「３」とに基づいて、感情強度−頻度変換規則記憶部２２０を参照して、指定された音色ごとに設定された感情強度−頻度変換規則を取得する（Ｓ２００３）。この例では「怒り」を表現するための「力み」音声の変換規則を取得する。変換規則は、例えば図２３に示すような特殊音声の発生頻度と感情あるいは表情の強度との関係を示した関数である。関数は、感情あるいは表情ごとに、様々な強度を示している音声を収集し、音声中に特殊音声が観察された音韻の頻度とその音声の感情あるいは表情の強度との関係を統計的モデルに基づいて学習させて作成したものである。なお、変換規則は、関数として指定する以外に、各強度に対応する頻度を対応表として記憶しているものとしても良い。

感情強度特徴的音色頻度変換部２２１は、図２３のように、指定された感情強度を変換規則に当てはめ、指定された感情強度に対応した合成音声中で特殊音声素片を使用する頻度を決定する（Ｓ２００４）。一方、言語処理部１０１は、入力されたテキストを形態素解析および構文解析し、音韻列と言語情報とを出力する（Ｓ２００５）。韻律生成部２０５は、音韻列と言語情報と、さらに感情種類情報とを取得し、韻律情報を生成する（Ｓ２００６）。

推定式選択部８２１は、特殊音声指定と特殊音声頻度とを取得し、推定式記憶部８２０を参照して、特殊音声ごとに設定された推定式の中から指定された特殊音声「力み」に対応する推定式を取得する（Ｓ９００１）。判定閾値決定部８２３は、推定式と頻度とを取得し、指定された特殊音声に対応する推定式の確率分布を確率分布保持部８２２より取得し、図２４に示すように、Ｓ２００４で決定された特殊音声の頻度に対応する推定式に対する判定閾値を決定する（Ｓ９００２）。

確率分布は、例えば以下のようにして設定される。推定式が実施の形態１と同様に数量化ＩＩ類の場合、当該音韻の子音と母音の種類、アクセント句内の位置等の属性により一意に値が決定される。この値は当該音韻で特殊音声が発生する発生のしやすさを示している。先に図７および図２１に基づいて説明したとおり、特殊音声の発生しやすさの偏りは、話者、感情あるいは表情の強度に対して共通である。このため、数量化ＩＩ類による推定式は、感情あるいは表情の強度によって変更する必要は無く、強度が異なっても共通の推定式により各音韻の「特殊音声の発生のしやすさ」を求めることができる。そこで、怒りの強度が５の音声データより作成した推定式を、怒りの強度が４、３、２、１の音声データに適用して、実際に観察された特殊音声に対して７５％の正解率になるような判断閾値となる推定式の値をそれぞれの強度の音声に対して求める。図２１に示したように、感情あるいは表情の強度に伴って特殊音声の発生頻度は変わるため、それぞれの強度の音声データすなわち怒りの強度が４、３、２、１の音声データで観察された特殊音声の発生頻度と、特殊音声の発生を７５％の正解率で判定しうる推定式の値とを図２４のグラフのような軸上にプロットし、スプライン補間あるいはシグモイド曲線への近似等により滑らかにつないで確率分布を設定する。なお、確率分布は図２４のような関数に限らず、推定式の値と特殊音声の発生頻度とを対応付ける対応表として記憶されていても良い。

特徴的音色音韻推定部６２２は、Ｓ２００５で生成された音韻列とＳ２００６で生成された韻律情報とを取得し、Ｓ９００１で選択された推定式を音韻列中の各音韻に当てはめて値を求め、Ｓ９００２で決定された閾値と比較し、推定式の値が閾値を越えた場合には当該音韻を特殊音声で発声することを決定する（Ｓ６００４）。

素片選択部６０６は、韻律生成部２０５より音韻列と韻律情報とを取得し、さらにＳ６００４において特徴的音色音韻推定部６２２で決定された特殊音声で合成音を生成する音韻の情報を取得し、合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する（Ｓ６００７）。さらに素片選択部６０６は、Ｓ６００７で決定した特殊音声素片を使用する素片位置と、使用しない素片位置とに応じて、標準音声素片データベース２０７と指定された種類の特殊音声素片を格納した特殊音声素片データベース２０８のうちいずれかとの接続をスイッチ２１０により切り替えて合成に必要な音声素片を選択する（Ｓ２００８）。素片接続部２０９は、波形重畳方式により、Ｓ２００８で選択された素片を、取得した韻律情報に従って変形して接続し（Ｓ２００９）、音声波形を出力する（Ｓ２０１０）。なお、Ｓ２００８で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。

かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部２０２と、感情の種類に対応する特徴的音色の種類を選択する特徴的音色選択部２０３と、特徴的音色音韻頻度決定部２０４と、推定式記憶部８２０、推定式選択部８２１、確率分布保持部８２２、判定閾値決定部８２３および特徴的音色音韻推定部６２２からなり、指定された頻度に応じて合成する音声中で特徴的音色を持つ特殊音声で生成すべき音韻を決定する特徴的音色時間位置推定部８０４と、標準音声素片データベース２０７の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース２０８とを備えている。

このことにより、入力された感情の種類と強度とに応じて、感情が付与された音声の発話の一部に出現する特徴的な音色の音声を生成すべき頻度を決定し、その頻度に応じて特徴的な音色の音声を生成する時間位置を、音韻列、韻律情報または言語情報等より、モーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。

さらには韻律や声質の変化ではなく、特徴的な声質の発生による感情や表情等を表現する、という人間の発話の中で自然に、かつ普遍的に行われている行動を音韻位置の精度で正確に模擬することができ、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。

なお、本実施の形態において、音声合成装置が、素片選択部６０６、標準音声素片データベース２０７、特殊音声素片データベース２０８および素片接続部２０９を設け、波形重畳法による音声合成方式での実現方法を示したが、図１２のように、実施の形態１と同様に、パラメータ素片を選択する素片選択部７０６と、標準音声パラメータ素片データベース３０７と、特殊音声変換規則記憶部３０８と、パラメータ変形部３０９と、波形生成部３１０とを備え音声合成装置を構成するようにしてもよい。

また、本実施の形態において、音声合成装置が、素片選択部６０６、標準音声素片データベース２０７、特殊音声素片データベース２０８、素片接続部２０９を設け、波形重畳法による音声合成方式の実現方法を示したが、図１４のように、実施の形態１と同様、標準音声のパラメータ列を生成する合成パラメータ生成部４０６と、特殊音声変換規則記憶部３０８と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部３０９と、波形生成部３１０とを備え音声合成装置を構成するようにしてもよい。

さらに、本実施の形態において、音声合成装置が、素片選択部２０６、標準音声素片データベース２０７、特殊音声素片データベース２０８、素片接続部２０９を設け、波形重畳法による音声合成方式の実現方法を示したが、図１６のように、実施の形態１と同様、標準音声のパラメータ列を生成する標準音声パラメータ生成部５０７と、特徴的音色の音声のパラメータ列を生成する１つまたは複数の特殊音声パラメータ生成部５０８と、標準音声パラメータ生成部５０７と特殊音声パラメータ生成部５０８とを切り替えるスイッチ５０９と、合成パラメータ列から音声波形を生成する波形生成部３１０とを備え音声合成装置を構成するようにしてもよい。

なお、本実施の形態では、確率分布保持部８２２が特徴的音色音韻の発生頻度と推定式の値との関係を確率分布として表したものを保持し、判定閾値決定部８２３は確率分布保持部８２２を参照して閾値を決定するとしたが、発生頻度として意識の値の関係は確率分布としてではなく、対応表の形式で保持するものとしても良い。

（実施の形態３）
図２５は、本発明の実施の形態３の音声合成装置の機能ブロック図である。図２５において、図４および図１９と同じ構成要素については同じ符号を用い、適宜説明を省略する。

図２５に示されるように、実施の形態３に係る音声合成装置は、感情入力部２０２と、要素感情音色選択部９０１と、言語処理部１０１と、韻律生成部２０５と、特徴的音色時間位置推定部６０４と、素片選択部６０６と、素片接続部２０９とを備えている。

感情入力部２０２は、感情種類を出力する処理部である。要素感情音色選択部９０１は、入力された感情を表現する音声に含まれる１種類以上の特徴的な音色の種類と、特徴的音色ごとの、合成する音声中の生成頻度とを決定する処理部である。言語処理部１０１は、音韻列と言語情報を出力する処理部である。韻律生成部２０５は、韻律情報を生成する処理部である。特徴的音色時間位置推定部６０４は、音色指定情報、音韻列、言語情報および韻律情報を取得して要素感情音色選択部９０１によって生成された特徴的音色ごとの頻度に従って、合成する音声中で特殊音声を生成する音韻を特殊音声の種類ごとに決定する処理部である。

素片選択部６０６は、指定された特殊音声を生成する音韻についてはスイッチを切り替えて該当する特殊音声素片データベース２０８から音声素片を選択し、それ以外の音韻については標準音声素片データベース２０７より素片を選択する処理部である。素片接続部２０９は、素片を接続して音声波形を生成する処理部である。

要素感情音色選択部９０１は、要素音色テーブル９０２と、要素音色選択部９０３とを備えている。

図２６に示されるように、要素音色テーブル９０２には、入力された感情を表現する音声に含まれる１種類以上の特徴的な音色とその出現頻度とが組として記憶されている。要素音色選択部９０３は、感情入力部２０２より取得した感情種類に従って、要素音色テーブル９０２を参照して音声に含まれる１種類以上の特徴的な音色とその出現頻度とを決定する処理部である。

次に音声合成装置の動作を図２７に従って説明する。図２７において、図９および図２２と同じ動作については同じ符号を用い、説明を省略する。

まず、感情入力部２０２に感情制御情報が入力され、感情種類が抽出される（Ｓ２００１）。要素音色選択部９０３は、抽出された感情種類を取得し、要素音色テーブル９０２を参照して、感情の種類に応じた１種類以上の特徴的音色を持つ特殊音声と、その特殊音声が合成する音声中で生成される頻度の対データを取得し、出力する（Ｓ１０００２）。

一方、言語処理部１０１は、入力されたテキストを形態素解析および構文解析し、音韻列と言語情報とを出力する（Ｓ２００５）。韻律生成部２０５は、音韻列と言語情報と、さらに感情種類情報とを取得し、韻律情報を生成する（Ｓ２００６）。

特徴的音色時間位置推定部６０４は、指定された１種類以上の特殊音声にそれぞれ対応する推定式を選択し（Ｓ９００１）、指定された各特殊音声の頻度に応じて推定式の値に対応する判定閾値を決定する（Ｓ９００２）。特徴的音色時間位置推定部６０４は、Ｓ２００５で生成された音韻情報と、Ｓ２００６で生成された韻律情報とを取得し、さらにＳ９００１で選択された推定式とＳ９００２で決定された閾値とを取得して、合成する音声中で特殊音韻を生成すべき音韻を決定し、特殊音声素片マークをつける（Ｓ６００４）。素片選択部６０６は、韻律生成部２０５より音韻列と韻律情報とを取得し、さらにＳ６００４において特徴的音色音韻推定部６２２で決定された特殊音声で合成音を生成する音韻の情報を取得して合成する音韻列中に当てはめた後、音韻列を素片単位に変換し、特殊音声素片を使用する素片単位を決定する（Ｓ６００７）。

さらに素片選択部６０６はＳ６００７で決定した特殊音声素片を使用する素片位置と、使用しない素片位置とに応じて、標準音声素片データベース２０７と指定された種類の特殊音声素片を格納した特殊音声素片データベース２０８のうちいずれかとの接続をスイッチ２１０により切り替えて合成に必要な音声素片を選択する（Ｓ２００８）。素片接続部２０９は、波形重畳方式により、Ｓ２００８で選択された素片を、取得した韻律情報に従って変形して接続し（Ｓ２００９）、音声波形を出力する（Ｓ２０１０）。なお、Ｓ２００８で波形重畳方式による素片の接続を行ったが、これ以外の方法で素片を接続しても良い。

図２８は、以上の処理により「じゅっぷんほどかかります」という音声を合成をした際の特殊音声の位置の一例を示した図である。すなわち、３つの特殊な音色が交じり合わないように特殊音声素片を使用する位置が決定される。

かかる構成によれば、音声合成装置は、入力として感情の種類を受け付ける感情入力部２０２と、感情の種類に対応して、１つ以上の種類の特徴的音色と特徴的音色ごとにあらかじめ設定された頻度に従って、１つ以上の種類の特徴的音色と特徴的音色ごとの頻度を生成する要素感情音色選択部９０１と、特徴的音色時間位置推定部６０４と、標準音声素片データベース２０７の他に感情が付与された音声に特徴的な音声の素片を音色ごとに格納した特殊音声素片データベース２０８とを備えている。

このことにより、入力された感情の種類に応じて、感情が付与された音声の発話の一部に出現する複数種類の特徴的な音色の音声を決定し、特殊音声の種類ごとに音声を生成すべき頻度を決定し、その頻度に応じて特徴的な音色の音声を生成する時間位置を、音韻列、韻律情報または言語情報等よりモーラ、音節または音素のような音韻の単位で推定することとなり、感情、表情、発話スタイルまたは人間関係等が表現される発話中に現れる豊かな声質のバリエーションを再現した合成音声を生成することができる。

さらには韻律や声質の変化ではなく、特徴的な声質の発声により感情や表情等を表現する、という人間の発話の中で自然に、かつ普遍的に行われている行動を音韻位置の精度で正確に模擬することができ、感情や表情の種類を違和感無く直観的に捉えることのできる、表現能力の高い合成音声装置を提供することができる。

なお、本実施の形態において、音声合成装置が、素片選択部６０６、標準音声素片データベース２０７、特殊音声素片データベース２０８および素片接続部２０９を設け、波形重畳法による音声合成方式での実現方法を示したが、図１２のように、実施の形態１および２と同様に、パラメータ素片を選択する素片選択部７０６と、標準音声パラメータ素片データベース３０７と、特殊音声変換規則記憶部３０８と、パラメータ変形部３０９と、波形生成部３１０とを備え音声合成装置を構成するようにしてもよい。

また、本実施の形態において、音声合成装置が、素片選択部６０６、標準音声素片データベース２０７、特殊音声素片データベース２０８、素片接続部２０９を設け、波形重畳法による音声合成方式での実現方法を示したが、図１４のように、実施の形態１および２と同様に、標準音声のパラメータ列を生成する合成パラメータ生成部４０６と、特殊音声変換規則記憶部３０８と、変換規則に従って標準音声パラメータから特殊音声を生成し、さらに所望の韻律の音声を実現するパラメータ変形部３０９と、波形生成部３１０とを備え音声合成装置を構成するようにしてもよい。

さらに、本実施の形態において、音声合成装置が、素片選択部２０６、標準音声素片データベース２０７、特殊音声素片データベース２０８、素片接続部２０９を設け、波形重畳法による音声合成方式での実現方法を示したが、図１６のように、実施の形態１および２と同様に、標準音声のパラメータ列を生成する標準音声パラメータ生成部５０７と、特徴的音色の音声のパラメータ列を生成する１つまたは複数の特殊音声パラメータ生成部５０８と、標準音声パラメータ生成部５０７と特殊音声パラメータ生成部５０８とを切り替えるスイッチ５０９と合成パラメータ列から音声波形を生成する波形生成部３１０とを備え音声合成装置を構成するようにしてもよい。

なお、本実施の形態では確率分布保持部８２２が特徴的音色音韻の発生頻度と推定式の値との関係を確率分布関数として表したものを保持し、判定閾値決定部８２３は確率分布保持部８２２を参照して閾値を決定するとしたが、発生頻度と推定式の値との関係は対応表の形式で保持するものとしても良い。

なお、本実施の形態では、感情入力部２０２は感情種類の入力を受付け、要素音色選択部９０３は感情種類のみに従って要素音色テーブル９０２に感情種類ごとに記憶された１つ以上の特徴的な音色の種類とその頻度を選択するものとしたが、要素音色テーブル９０２において、感情種類と感情強度ごとに特徴的音色の種類とその頻度の組み合わせを記憶する、あるいは感情種類ごとに特徴的音色の種類の組み合わせと、感情強度による各特徴的音色の頻度の変化を対応表あるいは対応関数として記憶するものとし、感情入力部２０２が感情種類と感情強度を受付け、要素音色選択部９０３が要素音色テーブル９０２を参照して感情種類と感情強度に従って特徴的な音色の種類とその頻度を決定するものとしても良い。

なお、実施の形態１〜３において、Ｓ２００３、Ｓ６００３あるいはＳ９００１の直前に、言語処理部１０１によりテキストを言語処理し、音韻列と言語情報を生成する処理（Ｓ２００５）と韻律生成部２０５により音韻列、言語情報および感情種類（または感情種類と強度）から韻律情報を生成する処理（Ｓ２００６）とを行ったが、音韻列上で特殊音声を生成する位置を決定する処理（Ｓ２００７、Ｓ３００７、Ｓ３００８、Ｓ５００８、Ｓ６００４）以前であればいつ実行しても良い。

なお、実施の形態１〜３において、言語処理部１０１が自然言語である入力テキストを取得し、Ｓ２００５において音韻列および言語情報を生成するものとしたが、図２９、図３０、図３１のように韻律生成部が言語処理済のテキストを取得するものとしても良い。言語処理済のテキストは少なくとも音韻列とアクセントの位置やポーズの位置、アクセント句の切れ目等を示す韻律記号を含む。実施の形態１〜３においては韻律生成部２０５および特徴的音色時間位置推定部６０４、８０４が言語情報を用いているため、言語処理済テキストはさらに品詞や係り受け等の言語情報を含むものとする。言語処理済テキストは、例えば図３２のような形式である。図３２（ａ）に示す言語処理済テキストは車載情報端末への情報提供サービスにおいてサーバから各端末への配信時に用いられる方式である。音韻列はカタカナで示され、アクセント位置は「’」で、アクセント句の句切れは「／」で示されて、文末の長いポーズは「．」の記号でそれぞれ示されている。図３２（ｂ）は、図３２（ａ）に示す言語処理済テキストに、さらに言語情報として品詞情報を単語ごとに示したものである。もちろん言語情報はこれ以外の情報を含んでも良い。韻律生成部２０５が図３２（ａ）に示したような言語処理済テキストを取得した場合、韻律生成部２０５はＳ２００６において音韻列と韻律記号に基づき、指定されたアクセントやアクセント句の区切れを音声として実現するための、基本周波数、パワー、音韻時間長、ポーズ時間長等の韻律情報を生成するものとしても良い。韻律生成部２０５が、図３２（ｂ）のような言語情報を含む言語処理済テキストを取得した場合は、実施の形態１〜３のＳ２００６と同様の動作により韻律情報を生成する。実施の形態１〜３において、特徴的音色時間位置推定部６０４は、韻律生成部２０５が図３２（ａ）に示したような言語処理済テキストを取得した場合においても、図３２（ｂ）に示したような言語処理済テキストを取得した場合においても、Ｓ６００４と同様に音韻列と韻律生成部２０５によって生成された韻律情報とに基づき特殊音韻で発生されるべき音韻を決定する。このように言語処理されていない自然言語で書かれたテキストを取得するのではなく、言語処理済テキストを取得して音声を合成するものとしても良い。また、言語処理済テキストは、図３２では１文の音韻を１行に列挙する形式としたが、これ以外の例えば音韻、単語、文節のような単位ごとに音韻、韻律記号、言語情報を表にした形式のデータでも良い。

なお、実施の形態１〜３において、Ｓ２００１で感情入力部２０２が感情種類、あるいは感情種類と感情強度とを取得し、言語処理部１０１が自然言語である入力テキストを取得したが、図３３、図３４のようにマークアップ言語解析部１００１がＶｏｉｃｅＸＭＬのような感情種類あるいは感情種類と感情の強度を示すタグが付与されたテキストを取得し、タグとテキスト部分とを分割し、タグの内容を解析して感情種類あるいは感情種類と感情強度を出力するものとしても良い。タグ付テキストは、例えば図３５（ａ）のような形式とする。図３５において記号「＜＞」で囲まれた部分がタグであり、「ｖｏｉｃｅ」は声に対する指定を行うコマンドであることを示し、「ｅｍｏｔｉｏｎ＝ａｎｇｅｒ［５］」は、声の感情として怒りを指定し、その怒りの強度が５であることを示している。「／ｖｏｉｃｅ」は「ｖｏｉｃｅ」行で始まったコマンドの影響がここまで維持されることを示している。例えば実施の形態１あるいは実施の形態２では、マークアップ言語解析部１００１は、図３５（ａ）のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを特徴的音色選択部２０３および韻律生成部２０５へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部１０１へ出力するとしても良い。また、実施の形態３では、マークアップ言語解析部１００１は、図３５（ａ）のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを要素音色選択部９０３へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部１０１へ出力するとしても良い。

なお、実施の形態１〜３において、Ｓ２００１で感情入力部２０２が感情種類、あるいは感情種類と感情強度を取得し、言語処理部１０１が自然言語である入力テキストを取得したが、図３６、図３７のようにマークアップ言語解析部１００１が図３５（ｂ）のような少なくとも音韻列と韻律記号を含む言語処理済テキストに感情種類あるいは感情種類と感情の強度を示すタグが付与されたテキストを取得し、タグとテキスト部分とを分割し、タグの内容を解析して感情種類、あるいは感情種類と感情強度とを出力するものとしても良い。タグ付言語処理済テキストは、例えば図３５（ｂ）のような形式とする。例えば実施の形態１あるいは実施の形態２では、マークアップ言語解析部１００１は、図３５（ｂ）のタグ付き言語処理済テキストを取得し、表現を支持したタグ部分と音韻列と韻律記号の部分とを分割し、タグの内容を解析して感情の種類と強度とを特徴的音色選択部２０３および韻律生成部２０５へ出力すると同時に、感情の種類と強度とあわせて、その感情を音声で表現すべき音韻列と韻律記号部分とを韻律生成部２０５へ出力するとしても良い。また、実施の形態３ではマークアップ言語解析部１００１は、図３５（ｂ）のタグ付き言語処理済テキストを取得し、タグ部分と音韻列と韻律記号の部分とを分割し、タグの内容を解析して感情の種類と強度とを要素音色選択部９０３へ出力すると同時に、その感情を音声で表現すべき音韻列と韻律記号の部分とを韻律生成部２０５へ出力するとしても良い。

なお、実施の形態１〜３において、感情入力部２０２において感情種類、あるいは感情種類と感情強度とを取得したが、発話様態を決定するための情報として、これ以外に発声器官の緊張や弛緩、表情、発話スタイルや話し方などの指定を取得するものとしても良い。例えば発声器官の緊張であれば、「喉頭周辺緊張度３」というように喉頭や舌等の発声器官とその力の入り具合の情報を取得するとしてもよい。また、例えば発話スタイルであれば、「丁寧５」「堅苦しい２」のように発話の態度の種類とその程度や「親しい間」「顧客対応」のような話者の間柄のような発話の場面に関する情報を取得するとしても良い。

なお、実施の形態１〜３においては、特徴的音色（特殊音声）で発話するモーラを推定式に基づいて求めていたが、推定式において閾値を超えやすいモーラが予め分かっている場合には、そのモーラでは常に特徴的音色で発話するように合成音声を生成しても良い。例えば、特徴的音色が「力み」の場合には、以下の（１）〜（４）に示すモーラで、推定式が閾値を超えやすい。

（１）子音が／ｂ／（両唇音でかつ音声破裂子音）であり、かつアクセント句の前から３番目のモーラ
（２）子音が／ｍ／（両唇音でかつ鼻音）であり、かつアクセント句の前から３番目のモーラ
（３）子音が／ｎ／（歯茎音でかつ鼻音）であり、かつアクセント句の先頭モーラ
（４）子音が／ｄ／（歯茎音でかつ音声破裂子音）であり、かつアクセント句の先頭モーラ

また、特徴的音色が「かすれ」の場合には、以下の（５）〜（８）に示すモーラで、推定式が閾値を超えやすい。

（５）子音が／ｈ／（喉頭音でかつ無声摩擦音）であり、かつアクセント句の先頭のモーラまたはアクセント句の前から３番目のモーラ
（６）子音が／ｔ／（歯茎音でかつ無声破裂音）であり、かつアクセント句の前から４番目のモーラ
（７）子音が／ｋ／（軟口蓋音でかつ無声破裂音）であり、かつアクセント句の前から５番目のモーラ
（８）子音が／ｓ／（歯音でかつ無声摩擦音）であり、アクセント句の前から６番目のモーラ

本発明にかかる音声合成装置は、発声器官の緊張や弛緩、感情、表情、あるいは発話スタイルによって音声のところどころに出現する特定の発話様態による特徴的な音色の音声を生成することで音声の表現を豊かにする構成を有し、カーナビゲーション、テレビ、オーディオ等電子機器、あるいはロボット等の音声・対話インタフェース等として有用である。またコールセンターや、電話交換の自動電話応対システム等の用途にも応用できる。

しかしながら、従来の構成では、感情ごとにあらかじめ定められた図３に示すような一様な変換規則に従ってパラメータ変換を行い、個々の音のパラメータの変化率によって感情の強度を表現しようとしている。このため、自然発話に見られる、同じ感情種類、感情強度であっても部分的に裏声になったり、部分的に力んだ声になったりするような声質のバリエーションを再現することはできず、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現することが困難であるという課題を有している。

本発明のある局面に係る音声合成装置は、音声合成される音声波形の発話様態を取得する発話様態取得手段と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、音韻と韻律とに基づいて前記特徴的音色の発生のしやすさを判断するための規則を記憶している記憶手段と、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記規則とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段と、前記特徴的音色に基づいて、前記特徴的音色で発話する頻度を決定する頻度決定手段とを備え、前記発話位置決定手段は、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記規則と、前記頻度とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する。

この構成により、「怒り」などの感情表現を伴った発話中に、特徴的に出現する「力み」などの特徴的音色を混在させることができる。その際に、特徴的音色を混在させる位置が、発話位置決定手段により、特徴的音色、音韻列、韻律および規則に基づいて、音韻ごとに決定される。このため、全ての音韻を特徴的音色で発話するような音声波形を生成するのではなく、適切な位置に特徴的音色を混在させることができる。よって、感情や表情を表現する音声においてしばしば見られる、同一の感情や表情の発話内における声質の変化による豊かな音声表現を実現する音声合成装置を提供することができる。

好ましくは、前記頻度決定手段は、モーラ、音節、音素または音声合成単位を単位として、前記頻度を決定することを特徴とする。

本発明の他の局面に係る音声合成装置は、音声合成される音声波形の発話様態を取得する発話様態取得手段と、言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、音韻と韻律とに基づいて前記特徴的音色の発生のしやすさを判断するための規則を記憶している記憶手段と、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記規則とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段とを備え、前記特徴的音色選択手段は、発話様態と、複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶する要素音色記憶部と、取得された前記発話様態に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択する選択部とを有し、前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組と、前記韻律と、前記規則とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する。

また、複数種類の特徴的音色のバランスが適切に制御され、合成する音声の表現を精度よく制御できる。

実施の形態１の構成による音声合成装置の動作を説明する前に、特徴的音色時間位置推定部６０４が特殊音声の合成音中における時間位置を推定する背景を説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている（例えば日本音響学会誌５１巻１１号（１９９５），ｐｐ８６９−８７５粕谷英樹・楊長盛“音源から見た声質”）。なお、本願では、以降、話者の状況や意図などが言語的意味以上にあるいは言語的意味とは別に聴取者に伝えられるような音声の表現を「発話様態」と呼ぶ。発話様態は、発声器官の緊張や弛緩といった解剖学的、生理的状況や、感情や情動といった心理状態や、表情のような心理状態を反映する現象や、発話スタイルや話し方といった話者の態度や行動様式といった概念を含む情報によって決定される。後述の実施形態に従えば、発話様態を決定する情報として、例えば「怒り」、「喜び」、「悲しみ」、「怒り・３」のような感情の種類や、感情の強度などがあげられる。

ここでは、本願発明に先立って同一テキストに基づいて発話された５０文について無表情な音声、感情を伴う音声の調査を行った。図７（ａ）は話者１について「強い怒り」の感情表現を伴った音声中の「力んだ」音（あるいは上記文献中では「ざらざら声（harsh voice）」とも表現される音）で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフであり、図７（ｂ）は話者２について「強い怒り」の感情表現を伴った音声中の「力んだ」音で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図７（ｃ）および図７（ｄ）は、それぞれ図７（ａ）および図７（ｂ）と同じ話者について「中程度の怒り」の感情表現を伴って音声中の「力んだ」音のモーラ頻度をモーラ内の子音ごとに示したグラフである。なお、「モーラ」とは、日本語音声における韻律の基本単位であり、単一の短母音、子音と短母音、子音と半母音と短母音で構成されるものと、モーラ音素のみから構成されるものとがある。特殊音声の発生頻度は子音の種類によって偏りがあり、例えば「ｔ」「ｋ」「ｄ」「ｍ」「ｎ」あるいは子音無しの場合には発生頻度が高く、「ｐ」「ｃｈ」「ｔｓ」「ｆ」などでは発生頻度が低い。

図８は、図７と同一のデータから統計的学習手法の１つである数量化II類を用いて作成した推定式により、例１「じゅっぷんほどかかります」と例２「あたたまりました」について「力んだ」音で発声されるモーラを推定した結果を示したものである。自然発話音声において特殊音声を発声したモーラ、および推定式・閾値記憶部に記憶されている推定式Ｆ１により特殊音声の発生が予測されたモーラのそれぞれについて、かな書きの下に線分を引いて示した。

図８に示す特殊音声の発生が予測されたモーラは、上述したように数量化II類による推定式Ｆ１に基づいて、特定される。推定式Ｆ１は、結果学習用データの各モーラについて、モーラに含まれる子音の種類および母音の種類または音韻のカテゴリといった音韻の種類を示す情報と、アクセント句内のモーラ位置の情報とを独立変数として表現し、「力んだ」音が発生したか否かの２値を従属変数として表現することにより、数量化II類により作成される。また、図８に示す特殊音声の発生が予測されたモーラは、学習用データの特殊音声の発生位置に対する正解率が約７５％になるように閾値を決定した場合の推定結果である。図８より、特殊音声の発生位置は音韻の種類やアクセントに関わる情報から高精度に推定可能であることが示されている。

まず、感情入力部２０２に感情制御情報が入力され、感情種類が抽出される（Ｓ２００１）。感情制御情報は、例えば「怒り」「喜び」「悲しみ」といった感情の種類をいくつか提示するインタフェースからユーザが選択して入力するものとする。ここでは、Ｓ２００１において「怒り」が入力されたものとする。

まず、学習用の音声データ中の各モーラについて、推定式の独立変数として、子音の種類と、母音の種類と、アクセント句中の正順位置とが設定される（Ｓ２）。また、上述の各モーラについて、推定式の従属変数として、特徴的音色（力み）で発声されているか否かを２値で表した変数が設定される（Ｓ４）。次に、各独立変数のカテゴリ重みとして、子音の種類毎の重み、母音の種類毎の重みおよびアクセント句中の正順位置ごとの重みが、数量化II類に従い、算出される（Ｓ６）。また、各独立変数のカテゴリ重みを音声データ中の各モーラの属性条件に当てはめることにより、特徴的音色（力み）で発声される「力み易さ」が算出される（Ｓ８）。

特徴的音色音韻推定部６２２は、Ｓ２００５で生成された音韻列とＳ２００６で生成された韻律情報とを取得し、Ｓ６００３で選択された推定式を音韻列中の各音韻に当てはめて値を求め、同じくＳ６００３で選択された閾値と比較する。特徴的音色音韻推定部６２２は、推定式の値が閾値を越えた場合には、当該音韻を特殊音声で発声することを決定する（Ｓ６００４）。すなわち、特徴的音色音韻推定部６２２は、「怒り」に対応する特殊音声「力み」の発生を推定する数量化II類による推定式に、当該音韻の子音、母音、アクセント区内の位置を当てはめて、推定式の値を求める。特徴的音色音韻推定部６２２は、当該値が閾値を越えた場合には当該音韻が「力み」の特殊音声で合成音を生成すべきであると判断する。

なお、本実施の形態１における音声合成装置をＬＳＩ（集積回路）で実現すると、特徴的音色選択部２０３、特徴的音色時間位置推定部６０４、言語処理部１０１、韻律生成部２０５、素片選択部６０６、素片接続部２０９の全てを１つのＬＳＩで実現することができる。または、それぞれの処理部を１つのＬＳＩで実現することができる。さらに、それぞれの処理部を複数のＬＳＩで実現することもできる。標準音声素片データベース２０７、特殊音声素片データベース２０８ａ、２０８ｂ、２０８ｃは、ＬＳＩの外部の記憶装置により実現してもよいし、ＬＳＩの内部に備えられたメモリにより実現してもよい。ＬＳＩの外部の記憶装置で当該データベースを実現する場合には、インターネット経由でデータベースのデータを取得しても良い。

また、集積回路化の手法はＬＳＩに限られるものではなく、専用回路または汎用プロセッサにより実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

音声合成装置をコンピュータで実現した場合には、特徴的音色選択部２０３、特徴的音色時間位置推定部６０４、言語処理部１０１、韻律生成部２０５、素片選択部６０６、素片接続部２０９は、ＣＰＵ１２０６上で実行されるプログラムに対応し、標準音声素片データベース２０７、特殊音声素片データベース２０８ａ、２０８ｂ、２０８ｃは、記憶部１２０８に記憶される。また、ＣＰＵ１２０６で計算された結果は、メモリ１２０４や記憶部１２０８に一旦記憶される。メモリ１２０４や記憶部１２０８は、特徴的音色選択部２０３等の各処理部とのデータの受け渡しに利用されてもよい。また、本実施の形態に係る音声合成装置をコンピュータに実行させるためのプログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、不揮発性メモリ等に記憶されていてもよいし、インターネットを経由してコンピュータ１２００のＣＰＵ１２０６に読み込まれてもよい。

本願発明に先立って同一テキストに基づいて発話された５０文について無表情な音声、中程度の感情を伴う音声、強い感情を伴う音声の調査を行った。図２１は２名の話者について「怒り」の感情表現を伴った音声中の「力んだ」音、上記文献中では「ざらざら声（harsh voice）」と記述されている音声に近い音の発生頻度を示したものである。話者１では全体的に「力んだ」音あるいは「ざらざら声（harsh voice）」とも呼ばれる音の発生頻度が高く、話者２では発生頻度が全体的に低い。このように話者による発生頻度の差はあるものの、感情の強度が強くなるにつれて「力んだ」音の頻度が上昇する傾向は共通である。感情や表情を伴った音声において、発話中に出現する特徴的な音色をもつ音声の頻度はその感情や表情の強さと関係があるといえる。

確率分布は、例えば以下のようにして設定される。推定式が実施の形態１と同様に数量化II類の場合、当該音韻の子音と母音の種類、アクセント句内の位置等の属性により一意に値が決定される。この値は当該音韻で特殊音声が発生する発生のしやすさを示している。先に図７および図２１に基づいて説明したとおり、特殊音声の発生のしやすさの偏りは、話者、感情あるいは表情の強度に対して共通である。このため、数量化II類による推定式は、感情あるいは表情の強度によって変更する必要は無く、強度が異なっても共通の推定式により各音韻の「特殊音声の発生のしやすさ」を求めることができる。そこで、怒りの強度が５の音声データより作成した推定式を、怒りの強度が４、３、２、１の音声データに適用して、実際に観察された特殊音声に対して７５％の正解率になるような判断閾値となる推定式の値をそれぞれの強度の音声に対して求める。図２１に示したように、感情あるいは表情の強度に伴って特殊音声の発生頻度は変わるため、それぞれの強度の音声データすなわち怒りの強度が４、３、２、１の音声データで観察された特殊音声の発生頻度と、特殊音声の発生を７５％の正解率で判定しうる推定式の値とを図２４のグラフのような軸上にプロットし、スプライン補間あるいはシグモイド曲線への近似等により滑らかにつないで確率分布を設定する。なお、確率分布は図２４のような関数に限らず、推定式の値と特殊音声の発生頻度とを対応付ける対応表として記憶されていても良い。

なお、実施の形態１〜３において、言語処理部１０１が自然言語である入力テキストを取得し、Ｓ２００５において音韻列および言語情報を生成するものとしたが、図２９、図３０、図３１のように韻律生成部が言語処理済のテキストを取得するものとしても良い。言語処理済のテキストは少なくとも音韻列とアクセントの位置やポーズの位置、アクセント句の切れ目等を示す韻律記号を含む。実施の形態１〜３においては韻律生成部２０５および特徴的音色時間位置推定部６０４、８０４が言語情報を用いているため、言語処理済テキストはさらに品詞や係り受け等の言語情報を含むものとする。言語処理済テキストは、例えば図３２のような形式である。図３２（ａ）に示す言語処理済テキストは車載情報端末への情報提供サービスにおいてサーバから各端末への配信時に用いられる方式である。音韻列はカタカナで示され、アクセント位置は「'」で、アクセント句の句切れは「／」で示されて、文末の長いポーズは「．」の記号でそれぞれ示されている。図３２（ｂ）は、図３２（ａ）に示す言語処理済テキストに、さらに言語情報として品詞情報を単語ごとに示したものである。もちろん言語情報はこれ以外の情報を含んでも良い。韻律生成部２０５が図３２（ａ）に示したような言語処理済テキストを取得した場合、韻律生成部２０５はＳ２００６において音韻列と韻律記号に基づき、指定されたアクセントやアクセント句の区切れを音声として実現するための、基本周波数、パワー、音韻時間長、ポーズ時間長等の韻律情報を生成するものとしても良い。韻律生成部２０５が、図３２（ｂ）のような言語情報を含む言語処理済テキストを取得した場合は、実施の形態１〜３のＳ２００６と同様の動作により韻律情報を生成する。実施の形態１〜３において、特徴的音色時間位置推定部６０４は、韻律生成部２０５が図３２（ａ）に示したような言語処理済テキストを取得した場合においても、図３２（ｂ）に示したような言語処理済テキストを取得した場合においても、Ｓ６００４と同様に音韻列と韻律生成部２０５によって生成された韻律情報とに基づき特殊音韻で発生されるべき音韻を決定する。このように言語処理されていない自然言語で書かれたテキストを取得するのではなく、言語処理済テキストを取得して音声を合成するものとしても良い。また、言語処理済テキストは、図３２では１文の音韻を１行に列挙する形式としたが、これ以外の例えば音韻、単語、文節のような単位ごとに音韻、韻律記号、言語情報を表にした形式のデータでも良い。

なお、実施の形態１〜３において、Ｓ２００１で感情入力部２０２が感情種類、あるいは感情種類と感情強度とを取得し、言語処理部１０１が自然言語である入力テキストを取得したが、図３３、図３４のようにマークアップ言語解析部１００１がVoiceXMLのような感情種類あるいは感情種類と感情の強度を示すタグが付与されたテキストを取得し、タグとテキスト部分とを分割し、タグの内容を解析して感情種類あるいは感情種類と感情強度を出力するものとしても良い。タグ付テキストは、例えば図３５（ａ）のような形式とする。図３５において記号「<>」で囲まれた部分がタグであり、「voice」は声に対する指定を行うコマンドであることを示し、「emotion=anger[5]」は、声の感情として怒りを指定し、その怒りの強度が５であることを示している。「/voice」は「voice」行で始まったコマンドの影響がここまで維持されることを示している。例えば実施の形態１あるいは実施の形態２では、マークアップ言語解析部１００１は、図３５（ａ）のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを特徴的音色選択部２０３および韻律生成部２０５へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部１０１へ出力するとしても良い。また、実施の形態３では、マークアップ言語解析部１００１は、図３５（ａ）のタグ付きテキストを取得し、タグ部分と自然言語を記述したテキスト部分とを分割し、タグの内容を解析して感情の種類と強度とを要素音色選択部９０３へ出力すると同時に、その感情を音声で表現すべきテキスト部分を言語処理部１０１へ出力するとしても良い。

符号の説明

Claims

音声合成される音声波形の発話様態を取得する発話様態取得手段と、
言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成手段と、
取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択手段と、
前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定手段と、
前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定手段で決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成手段とを備える
ことを特徴とする音声合成装置。
さらに、テキストを取得するテキスト取得手段と、
前記テキストを言語処理する言語処理手段とを備える
ことを特徴とする請求項１に記載の音声合成装置。
さらに、前記特徴的音色に基づいて、前記特徴的音色で発話する頻度を決定する頻度決定手段を備え、
前記発話位置決定手段は、前記テキストの音韻列と、前記特徴的音色と、前記韻律と、前記頻度とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する
ことを特徴とする請求項１に記載の音声合成装置。
前記頻度決定手段は、モーラ、音節、音素または音声合成単位を単位として、前記頻度を決定する
ことを特徴とする請求項３に記載の音声合成装置。
前記特徴的音色選択手段は、
発話様態と複数の特徴的音色とを対応付けて記憶する要素音色記憶部と、
取得された前記発話様態に対応する前記複数の特徴的音色を前記要素音色記憶部より選択する選択部とを有し、
前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する
ことを特徴とする請求項１に記載の音声合成装置。
前記要素音色記憶部は、前記発話様態と、複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶しており、
前記選択部は、取得された前記発話様態に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択し、
前記発話位置決定手段は、前記テキストの音韻列と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記複数の特徴的音色のうちのいずれかで発話するか否かを判断して、各特徴的音色で発話する発話位置である音韻を決定する
ことを特徴とする請求項５に記載の音声合成装置。
前記発話様態取得手段は、さらに、前記発話様態の強度を取得し、
前記要素音声記憶部は、前記発話様態および当該発話様態の強度の組と、前記複数の特徴的音色および当該特徴的音色で発話する頻度の組とを対応付けて記憶しており、
前記選択部は、取得された前記発話様態および当該発話様態の強度の組に対応する前記複数の特徴的音色および当該特徴的音色で発話する頻度の組を前記要素音色記憶部より選択する
ことを特徴とする請求項６に記載の音声合成装置。
前記発話位置決定手段は、さらに、前記複数の特徴的音色の発話位置が重ならないように、前記テキストを発話する際の各特徴的音色での発話位置である音韻を決定する
ことを特徴とする請求項５に記載の音声合成装置。
前記発話位置決定手段は、
特徴的音色ごとに特徴的音色を生成する音韻を推定する推定式と閾値とを格納する推定式格納部と、
前記特徴的音色選択手段で選択された前記特徴的音色に対応する推定式と閾値とを前記推定式格納部より選択する推定式選択部と、
選択された前記推定式に、前記韻律生成手段で生成された前記音韻列および前記韻律を、音韻ごとに当てはめ、当該推定式の値が閾値を超えた場合に、当該音韻を、前記特徴的音色で発話する発話位置と推定する推定部とを有する
ことを特徴とする請求項１に記載の音声合成装置。
前記推定式は、音韻、韻律または言語情報のうち少なくとも１つを用いて統計的に学習された式である
ことを特徴とする請求項９に記載の音声合成装置。
前記音韻は子音を含む
ことを特徴とする請求項１０に記載の音声合成装置。
前記推定式は、数量化ＩＩ類を用いて作成される
ことを特徴とする請求項１０に記載の音声合成装置。
前記韻律生成手段は、モーラ、音節、音素または音声合成単位を１つの音韻として前記音韻列を生成する
ことを特徴とする請求項１に記載の音声合成装置。
前記波形合成手段は、
標準的な発話様態の音声素片を記憶する標準音声素片記憶部と、
前記特徴的音色に対応して設けられ、当該特徴的音色を発生させるための音声素片を記憶する特殊音声素片記憶部と、
前記韻律生成手段より取得された音韻列および韻律と、前記発話位置決定手段で決定された発話位置とに基づいて、標準音声素片記憶部または前記特殊音声素片記憶部から音声素片を選択し、音声波形を生成する素片選択生成部とを有する
ことを特徴とする請求項１に記載の音声合成装置。
前記波形合成手段は、
標準的な発話様態の音声波形を生成するためのパラメータを生成する標準パラメータ生成部と、
前記特徴的音色に対応して設けられ、当該特徴的音色を発生させるためのパラメータを生成する特殊パラメータ生成部と、
前記韻律生成手段より取得された音韻列および韻律と、前記発話位置決定手段で決定された発話位置とに基づいて、前記標準パラメータ生成部または前記特殊パラメータ生成部からパラメータを取得してパラメータ列を生成することにより、音声波形を生成するパラメータ列生成部とを有する
ことを特徴とする請求項１に記載の音声合成装置。
前記波形合成手段は、
標準的な発話様態の音声波形を生成するための標準パラメータを生成する標準パラメータ生成部と、
前記標準パラメータを変形して前記特徴的音色を持つ音声を生成するための変形規則を前記特徴的音色ごとに格納する変形規則格納部と
前記韻律生成手段より取得された音韻列および韻律と、前記発話位置決定手段で決定された発話位置とに基づいて、前記標準パラメータを前記変形規則に従って変形するパラメータ変形部と、
前記パラメータ変形部で変形された前記標準パラメータに基づいて、音声波形を生成する音声波形生成部とを有する
ことを特徴とする請求項１に記載の音声合成装置。
音声合成される音声波形の発話様態を取得する発話様態取得手段と、
取得された前記発話様態でテキストを発話する際に観測される特徴的音色が「力み」の場合には、（１）子音が／ｂ／（両唇音でかつ音声破裂子音）であり、かつアクセント句の前から３番目のモーラ、（２）子音が／ｍ／（両唇音でかつ鼻音）であり、かつアクセント句の前から３番目のモーラ、（３）子音が／ｎ／（歯茎音でかつ鼻音）であり、かつアクセント句の先頭モーラ、（４）子音が／ｄ／（歯茎音でかつ音声破裂子音）であり、かつアクセント句の先頭モーラを、当該特徴的音色で発話する発話位置と決定し、取得された前記発話様態でテキストを発話する際に観測される特徴的音色が「かすれ」の場合には、（５）子音が／ｈ／（喉頭音でかつ無声摩擦音）であり、かつアクセント句の先頭のモーラまたはアクセント句の前から３番目のモーラ、（６）子音が／ｔ／（歯茎音でかつ無声破裂音）であり、かつアクセント句の前から４番目のモーラ、（７）子音が／ｋ／（軟口蓋音でかつ無声破裂音）であり、かつアクセント句の前から５番目のモーラ、（８）子音が／ｓ／（歯音でかつ無声摩擦音）であり、アクセント句の前から６番目のモーラを、当該特徴的音色で発話する発話位置と決定する発話位置決定手段と、
前記発話位置決定手段によって決定された発話位置の前記テキストを前記特徴的音色で発話させるような音声波形を生成する波形合成手段とを備える
ことを特徴とする音声合成装置。
音声合成される音声波形の発話様態を取得する発話様態取得ステップと、
言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成ステップと、
取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択ステップと、
前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定ステップと、
前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定ステップで決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成ステップとを含む
ことを特徴とする音声合成方法。
音声合成される音声波形の発話様態を取得する発話様態取得ステップと、
言語処理されたテキストを、取得された前記発話様態で発話する際の韻律を生成する韻律生成ステップと、
取得された前記発話様態で前記テキストを発話する際に観察される特徴的音色を、前記発話様態に基づき選択する特徴的音色選択ステップと、
前記テキストの音韻列と、前記特徴的音色と、前記韻律とに基づいて、前記音韻列を構成する音韻ごとに、前記特徴的音色で発話するか否かを判断して、前記特徴的音色で発話する発話位置である音韻を決定する発話位置決定ステップと、
前記音韻列、前記韻律および前記発話位置に基づいて、前記発話様態で前記テキストを発話し、かつ前記発話位置決定ステップで決定された発話位置において特徴的音色で前記テキストを発話するような音声波形を生成する波形合成ステップとをコンピュータに実行させる
ことを特徴とするプログラム。