JPWO2004066271A1

JPWO2004066271A1 - 音声合成装置，音声合成方法および音声合成システム

Info

Publication number: JPWO2004066271A1
Application number: JP2004567110A
Authority: JP
Inventors: 佐々木　均; 均佐々木; 山崎　泰; 泰山崎; 大田　恭士; 恭士大田; 遠藤　香緒里; 香緒里遠藤; 片江　伸之; 伸之片江; 渡辺　一宏; 一宏渡辺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-01-20
Filing date: 2003-01-20
Publication date: 2006-05-18
Anticipated expiration: 2023-01-20
Also published as: WO2004066271A1; JP4038211B2; US20050171778A1; US7454345B2

Abstract

音声合成技術に関し、文章の特定部又は特定部分を強調することにより聞き取りやすい音声を得る技術を提供する。かかる音声合成装置１が、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部３６と、上記の強調すべき各単語又は連語に強調度自動決定部３６にて決定された強調度を付与した音声を合成する音響処理部６０とをそなえて構成することにより、各単語又は連語の強調部分の出現頻度，重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を得ることができ、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上し、聞き取りやすい音声合成装置，音声合成方法および音声合成システムを提供する。

Description

本発明は、例えば入力された文章を読み上げて音声を出力する音声合成技術に関し、特に、文章の特定部分の強調により聞き取りやすい音声を合成する音声合成技術に用いて好適な、音声合成装置，音声合成方法および音声合成システムに関する。

一般に、音声合成装置は、入力された文字，文章，記号および数字等の文字列からなるテキスト形式のファイルを読み出して、複数の音声波形データをライブラリ化した辞書を参照することにより、読み出した文字列を音声に変換するものであり、例えば、パーソナルコンピュータのソフトウェアアプリケーションに用いられている。また、聴覚的に自然な音声を得るために、文章中の特定の語句（特定語）を強調する音声強調方法が知られている。
図１３はプロミネンス（特定部分を強調すること。卓立とも称する。）が使用されていない音声合成装置のブロック図である。この図１３に示す音声合成装置１００は、形態素解析部１１と、単語辞書１２と、パラメータ生成部１３と、波形辞書１４と、ピッチ切り出し・重ね合わせ部（ピッチ切り出しおよび重ね合わせ部）１５とをそなえて構成されている。
形態素解析部１１は、入力された漢字かな混じり文章について、単語辞書１２を参照して形態素（文章を構成する最小の言語単位又は文章中において意味をもつ最小単位）を解析し、単語の種類（品詞の区分），単語の読み，アクセント又はイントネーションをそれぞれ決定し、韻律記号付き発音記号（中間言語）を出力するものである。この形態素解析部１１が入力されるテキスト形式のファイルは、日本語の場合は漢字かな混じりの文字列であり、英語の場合はアルファベット列である。
よく知られているように、有声音（特に母音）の生成モデルは、音源（声帯），調音系（声道）および放射口（唇）からなり、肺からの空気が声帯を振動させることにより音源信号が発生する。また、声道とは、声帯からのどの部分からなり、のどの径を太く又は細くすることにより声道の形状が変化し、音源信号が声道の特定の形状に共鳴することにより、複数の母音が生成される。そして、この生成モデルに基づいて、以下に述べるピッチ周期等の特性が定義される。
ここで、ピッチ周期とは声帯の振動周期を表し、ピッチ周波数（基本周波数又は単にピッチとも称する。）とは声帯の振動周波数であって声の高さに関する特性である。また、アクセントとは、単語のピッチ周波数の時間的な変化であり、イントネーションとは、文章全体のピッチ周波数の時間変化であり、これらのアクセントおよびイントネーションは、物理的には、ピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がるとピッチ周波数が高くなる。
これらのアクセント等の情報が使用されずに、例えば一定のピッチ周波数で合成された音声は、いわゆる棒読み、換言すれば、ロボットが読むような聴覚的に不自然な音声になることが多い。このため、音声合成装置１００は、処理の後段において自然なピッチ変化を生成できるように、韻律記号付き発音記号を出力する。元の文字列および中間言語（韻律記号付き発音記号）の一例は、次のようになる。
文字列：「アクセントはピッチの時間的変化と関連がある。」
中間言語：「ア’ク％セントワピ’ッチノジカンテキヘ’ンカトカンレンガ＆ア’ル．」
ここで、「’」はアクセント位置、「％」は無声子音、「＆」は鼻濁音、「．」は平叙文の文境界および「（全角スペース）」は文節の区切りをそれぞれ表す。
すなわち、中間言語は、アクセント，イントネーション，音素継続時間又はポーズ継続時間等を付与された文字列として出力される。
単語辞書１２は、単語の種類，単語の読みおよびアクセントの位置等を対応付けて格納（保持，蓄積又は記憶）するものである。
波形辞書１４は、音声自体の音声波形データ（音素波形又は音声素片）と、音声の特定部分がどの音素かを示す音素ラベルと、有声音についてピッチ周期を示すピッチマークとを格納するものである。
パラメータ生成部１３は、文字列について、ピッチ周波数のパターン，音素の位置，音素継続時間，ポーズ継続時間および音声の強さ（音圧）等のパラメータを生成，付与又は設定し、また、波形辞書１４に格納された音声波形データのうちのどの部分の音声波形データを使用するか否かを決定するものである。このパラメータにより、ピッチ周期，音素の位置等が決定し、人間が文章を読むような自然な音声が得られる。
ピッチ切り出し・重ね合わせ部１５は、波形辞書１４に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する区間（波形区間）と隣接する前後の区間に属する音声波形データの一部とを重畳（オーバーラップ）させて加算し音声を合成するものである。このピッチ切り出し・重ね合わせ部１５の処理方法は、例えばＰＳＯＬＡ（Ｐｉｔｃｈ−ＳｙｎｃｈｒｏｎｏｕｓＯｖｅｒｌａｐ−ａｄｄ：波形の加算重畳によるピッチ変換方法）法が用いられている（”ＤｉｐｈｏｎｅＳｙｎｔｈｅｓｉｓＵｓｉｎｇａｎＯｖｅｒｌａｐ−ａｄｄＴｅｃｈｎｉｑｕｅｆｏｒＳｐｅｅｃｈＷａｖｅｆｏｒｍｓＣｏｎｃａｔｅｎａｔｉｏｎ” ＩＣＡＳＳＰ ’８６，ｐｐ．２０１５−２０１８，１９８６参照）。
図１５（ａ）〜図１５（ｄ）はそれぞれ波形の加算重畳方法を説明するための図である。ＰＳＯＬＡ法は、図１５（ａ）に示すように、生成されたパラメータに基づいて波形辞書１４から２周期分の音声波形データを切り出し、次に、図１５（ｂ）に示すように、その切り出した音声波形データに、窓関数（例えばハニング窓）を乗じて処理音声波形データを生成する。そして、図１５（ｃ）に示すように、ピッチ切り出し・重ね合わせ部１５は、現区間の前の区間の後半部分と現区間の後の区間の前半部分とを重畳加算し、また、現区間の後半部分と後区間の前半部分とを重畳加算することにより１周期分の波形を合成する（図１５（ｄ）参照）。
以上の説明は、プロミネンスが使用されていない場合の合成である。
次に、図１４を参照してプロミネンスが使用される場合の合成を説明する。
プロミネンスを使用してユーザの指定した単語等の特定部分を強調する音声合成装置も種々提案されている（例えば、特開平５−２２４６８９号公報［以下、公知文献１と称する。］参照）。
図１４はプロミネンスが使用される音声合成装置のブロック図であり、プロミネンスが手動により入力されるものである。この図１４に示す音声合成装置１０１と図１３に示す音声合成装置１００との相違点は、形態素解析部１１の入出力側に、入力された文章のうちのどの部分をどの程度強調するかについての設定データを手動入力により指定する強調単語手動入力部２６が設けられている点である。なお、強調単語手動入力部２６以外のもので上述したものと同一符号を有するものは同一機能を有する。
そして、図１４に示すパラメータ生成部２３は、強調単語手動入力部２６において指定された部分について、強調されていない音声部分よりも高いピッチ又は長い音素長を設定し、特定の単語を強調するためのパラメータを生成する。また、パラメータ生成部２３は、強調する音声部分において振幅を大きくし、又はその音声部分の前後にポーズを入れる等のパラメータを生成する。
さらに、従来から、音声強調方法については、多数、提案されている。
例えば、プロミネンスを使用する別の合成方法は、特開平５−８０７９１号公報等に開示されている。
さらに、特開平５−２７７９２号公報（以下、公知文献２と称する。）には、テキスト文章の読み上げとは異なるキーワード辞書（重要度辞書）を設けて、特定のキーワードを強調する音声強調装置が開示されている。この公知文献２記載の音声強調装置は、音声を入力としディジタル音声波形データに基づいて、スペクトル等の音声の特徴量を抽出したキーワード検出を用いたものである。
しかしながら、公知文献１記載の強調方法を用いる場合、ユーザは、強調する部分が現れる都度、プロミネンスを手動で入力しなければならず、操作が煩雑という課題がある。
さらに、公知文献２記載の音声強調装置は、多段階に強調レベルを変更するものではなく、音声波形データに基づくキーワード抽出を行なうものである。従って、やはり、操作性が不足する可能性がある。

本発明は、このような課題に鑑み創案されたもので、単語又は連語の強調部分の出現頻度，重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を得ることができ、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上し、聞き取りやすい音声合成装置を提供することを目的とする。
このため、本発明の音声合成装置は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、上記の強調すべき各単語又は連語に強調度決定部にて決定された強調度を付与した音声を合成する音響処理部とをそなえて構成されたことを特徴としている。
従って、このようにすれば、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞き取りやすい合成音声が自動的に得られる。
また、強調度決定部は、文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持部と、保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する単語決定部とをそなえて構成されてもよく、このようにすれば、比較的簡素な構成により、プロミネンスが自動的に決定され、ユーザに課せられる多数の手間が省略できる。
この強調度決定部は、抽出基準として、以下の（Ｑ１）〜（Ｑ５）に基づいて強調度を決定することができる。
（Ｑ１）上記の各単語又は連語の出現頻度に基づく強調度の決定。このようにすれば、やはり、強調度を自動的に決定できる。
（Ｑ２）文章に含まれる特定の固有名詞に基づく強調度の決定。このようにすれば、固有名詞を強調することにより全体として聞き取りやすい合成音声の生成を期待できる。
（Ｑ３）文章に含まれる文字種別に基づく強調度の決定。このようにすれば、例えばカタカナ語を強調することにより、文章全体として聞き取りやすい合成音声の生成を期待できる。
（Ｑ４）上記の各単語又は連語の出現箇所と出現箇所の回数とに基づく強調度の決定。具体的には、強調度決定部は、上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が２回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定するように構成することができる。従って、このようにすれば、単語の１回目の出現箇所においてはその単語を強めに強調し、また、２回目以降の出現箇所においてはその単語を弱めに強調するので、冗長にならず、高い品質の音声を得られる。
（Ｑ５）上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づく強調度の多段階の決定。従って、このようにすれば、強調すべき単語を、その強調すべきレベルに応じて確実に強調できる。さらに、本発明は、テキスト文章を読むものであり音声波形データからキーワードを抽出するものではない点で、キーワード抽出を用いずに多段階強調を用いていない公知文献２記載の音声強調装置と異なる。
また、前記音響処理部は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、形態素解析部からの韻律記号付き中間言語のうちの強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されてもよく、このようにすれば、設計変更せずに、既存の技術を利用でき、一層合成音声の品質が向上する。
そして、本発明の音声合成装置は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、形態素解析部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について少なくとも音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴としている。従って、このようにすれば、やはり、自動的に強調度を決定できる。
前記ピッチ切り出し・重ね合わせ部は、波形辞書に格納された音声波形データを、パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関数を乗じた処理音声波形データと、この処理音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成するように構成されてもよく、このようにすれば、聴感が補正され、自然な合成音声が得られる。
本発明の音声合成方法は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、抽出ステップにて抽出された各単語又は連語についての強調度を決定する単語決定ステップと、上記の強調すべき各単語又は連語に単語決定ステップにて決定された強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴としている。
従って、このようにすれば、やはり、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞きやすい合成音声が得られる。
本発明の音声合成システムは、入力された文章についての音声を合成して出力する音声合成システムであって、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、形態素解析部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について少なくとも音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴としている。
従って、このようにすれば、音声合成システムは、各機能を遠隔配置し、各機能にデータ送受信回路を付与することにより、通信回線を介して、データ又は信号を送受信でき、これにより、各機能を発揮させることができる。

図１は本発明の一実施形態に係る音声合成装置のブロック図である。
図２は本発明の一実施形態に係る第１の共有メモリのデータ例を示す図である。
図３は本発明の一実施形態に係る第１の強調度決定部のブロック図である。
図４は本発明の一実施形態に係る第２の共有メモリのデータ例を示す図である。
図５は本発明の一実施形態に係る第２の音声合成装置のブロック図である。
図６は本発明の一実施形態に係る第２の強調度決定部のブロック図である。
図７は本発明の一実施形態に係る第３の共有メモリのデータ例を示す図である。
図８は本発明の一実施形態に係る第３の強調度決定部のブロック図である。
図９は本発明の一実施形態に係る第４の共有メモリのデータ例を示す図である。
図１０は本発明の一実施形態に係る第４の強調度決定部のブロック図である。
図１１は本発明の一実施形態に係る第５の共有メモリのデータ例を示す図である。
図１２は本発明の一実施形態に係る第５の強調度決定部のブロック図である。
図１３はプロミネンスが使用されていない音声合成装置のブロック図である。
図１４はプロミネンスが使用される音声合成装置のブロック図である。
図１５（ａ）〜図１５（ｄ）はそれぞれ波形の加算重畳方法を説明するための図である。

（Ａ）本発明の一実施形態の説明
図１は本発明の一実施形態に係る音声合成装置のブロック図である。この図１に示す音声合成装置１は、入力された文章を読み出して音声を合成するものであって、入力部１９と、強調度自動決定部（強調度決定部）３６と、音響処理部６０とをそなえて構成されている。ここで、入力部１９は、漢字かな混じりの文章を音響処理部６０に入力するものである。
また、強調度自動決定部３６は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。
ここで、各単語又は連語についての抽出基準とは、入力された多数の文字列から、どの単語又は連語を抽出して強調するかを決定するための基準である。以下に述べる第１の態様における音声合成装置１の強調度自動決定部３６は、抽出基準として、上記の各単語又は連語の出現頻度に基づいて強調度を決定するようになっている。また、この抽出基準は、単語の重要度，特定の固有名詞，カタカナのような特定の文字種別等を用いることができ、又は各単語又は連語の出現箇所とその出現箇所の回数とに基づく基準等、種々の抽出基準を用いることができ、各抽出基準を用いた音声合成方法については後述する。
なお、図１に示す音声合成装置１ａ，１ｃ〜１ｅは後述する他の実施態様においてそれぞれ説明する。
（１）音響処理部６０の構成
音響処理部６０は、上記の強調すべき各単語又は連語に強調度自動決定部３６にて決定された強調度を付与した音声を合成するものであって、形態素解析部１１と、単語辞書１２と、パラメータ生成部３３と、波形辞書１４と、ピッチ切り出し・重ね合わせ部（ピッチ切り出しおよび重ね合わせ部）１５とをそなえて構成されている。
形態素解析部１１は、入力された漢字かな混じりの文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力するものであって、単語の種類，単語の読み，アクセント又はイントネーションをそれぞれ決定し、中間言語を出力するものである。
例えば、文字列：「アクセントはピッチの時間的変化と関連がある。」が、形態素解析部１１に入力されると、アクセント，イントネーション，音素継続時間又はポーズ継続時間等の音声パラメータが付与され、例えば中間言語：「ア’ク％セントワピ’ッチノジカンテキヘ’ンカトカンレンガ＆ア’ル．」が生成される。
また、単語辞書１２は、単語の種類，単語の読みおよびアクセントの位置等を対応付けて格納するものである。そして、形態素解析部１１は、形態素解析部１１自身が解析して得た形態素について単語辞書１２を検索し、単語の種類，単語の読み又はアクセント等を得ている。また、この単語辞書１２に格納されるデータは、逐次更新することもでき、このようにすれば、広範な言語について音声合成を行なえる。
これにより、漢字かな混じりの文章の文字列は、形態素解析部１１の解析により単語（又は連語）に分割され、分割された単語は、それぞれ、その単語の読みおよびアクセント等を付与され、アクセント付きの読みかな列に変換される。
パラメータ生成部３３は、形態素解析部１１からの韻律記号付き中間言語のうちの強調度自動決定部３６にて決定された各単語又は連語についての音声合成パラメータを生成するものである。また、パラメータ生成部３３は、形態素解析部１１からの中間言語から音声合成パラメータを生成し、その際、強調度自動決定部３６にて決定された各単語又は連語については強調された音声合成パラメータとするのである。
この音声合成パラメータは、ピッチ周波数のパターン，音素の位置，音素継続時間，強調部分の前後に加えるポーズ継続時間および音声の強さ等である。この音声合成パラメータにより、音声の強さ，高さ，イントネーション又はポーズの挿入時間，挿入場所等が決定し、自然な音声が得られる。例えば、読み手は、文章の段落部分を読むときに、読みの開始前にポーズを入れ、開始部分を強調して読み、又はゆっくりと読む。これにより、一つの文章に含まれるかたまりが識別および強調され、文章の区切り位置が明確になる。
波形辞書１４は、音声自体の音声波形データ（音素波形又は音声素片）と、音声の特定部分がどの音素かを示す音素ラベルと、有声音についてピッチ周期を示すピッチマークとを格納するものである。この波形辞書１４は、以下に述べるピッチ切り出し・重ね合せ部１５からのアクセスに応じて、音声波形データのうちの適切な部分の波形データを選択し音声素片を出力する。これにより、波形辞書１４のどの部分の音声波形データが使用されるかが決定する。なお、波形辞書１４は、音声波形データをＰＣＭ（ＰｕｌｓｅＣｏｄｅｄＭｏｄｕｌａｔｉｏｎ）データの形式で保持することが多い。
この波形辞書１２が格納する音素波形は、その音素の両側に位置する音素（音素コンテキスト）によって異なるので、同一音素について異なる音素コンテキストが接続されたものは異なる音素波形として扱われる。従って、波形辞書１２は、予め細分化された音素コンテキストを多数保持し、合成音声の聞きやすさおよび滑らかさを向上させるようになっている。なお、以下の説明においては、特に断らない限り、聞きやすさとは、明瞭度を意味し、具体的には人間による音の認識度を表す。
ピッチ切り出し・重ね合わせ部１５は、例えばＰＳＯＬＡ法を用いており、パラメータ生成部３３からの音声合成パラメータに従って、波形辞書１４に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数を乗じた処理音声波形データとその前後の周期における処理音声データの一部とを重畳加算し合成音声を出力するものである。
さらにこのピッチ切り出し・重ね合わせ部１５について詳述する。
ピッチ切り出し・重ね合わせ部１５は、パラメータ生成部３３にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成する。
また、ピッチ切り出し・重ね合わせ部１５は、波形辞書１４に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する現周期の前後の前周期および後周期に属する音声波形データの一部とを重畳加算し合成音声を出力する。
従って、この処理により、聴感が補正され、自然な合成音声が得られる。
具体的には、ピッチ切り出し・重ね合わせ部１５は、生成されたパラメータに基づいて波形辞書１４から２周期分の音声波形データを切り出し、図１５（ａ）〜図１５（ｄ）のそれぞれに示すように、その切り出した音声波形データに、窓関数（例えばハニング窓）を乗じて処理音声波形データを得る。そして、ピッチ切り出し・重ね合わせ部１５は、前周期の後半部分と現周期の前半部分とを加算することにより、１周期分の合成波形を生成し、同様に、現周期の後半部分と後周期の前半部分とを加算して合成波形を生成するのである。
そして、波形辞書に格納されたＰＣＭデータは、ディジタル・アナログ変換部（図示省略）において、アナログデータに変換され、ピッチ切り出し・重ね合わせ部１５から合成音声信号として出力される。
なお、窓関数を乗じられた処理音声波形データは、必要に応じて、振幅調整のためのゲイン（利得）を乗じられる。また、ＰＳＯＬＡ法におけるピッチ周波数のパターンは、音声波形の切り出し位置を示すピッチマークを用いており、これにより、ピッチ周期は、ピッチマークの間隔により示されるようになっている。さらに、波形辞書１４におけるピッチ周波数と所望のピッチ周波数とが異なる場合、ピッチ切り出し・重ね合わせ部１５は、ピッチ変換する。
次に、強調度自動決定部について詳述する。
（２）強調度自動決定部（強調度決定部）３６の構成
（Ａ１）第１の態様
図１に示す強調度自動決定部３６は、単語出現頻度集計部３７と、共有メモリ（保持部）３９と、単語強調度決定部３８とをそなえて構成されている。
共有メモリ３９は、単語出現頻度集計部３７にて集計された出現頻度と各単語又は連語とを対応付けて保持するものであり、また、単語出現頻度集計部３７，単語強調度決定部３８およびパラメータ生成部３３等によって、参照又は書き込み可能なメモリによってその機能が実現される。
図２は本発明の一実施形態に係る第１の共有メモリ３９のデータ例を示す図である。この図２に示す共有メモリ３９は、単語とその単語の出現頻度（回数）と強調の有無とを対応付けて格納し、また、記録可能な領域（例えば行数等）は増減可能である。例えば、単語「時間的」の出現頻度は２回であり、入力された文章に、この単語「時間的」が現れた場合においても、単語「時間的」の強調が不要である旨が書き込まれている。一方、単語「アクセント」については、出現頻度が４回であり、文章にこの単語「アクセント」が現れた場合は強調されるように処理される。
そして、図１に示す単語強調度決定部３８は、共有メモリ３９に保持された出現頻度が高い各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。この強調度自動決定部３６についてさらに詳述する。
図３は本発明の一実施形態に係る第１の強調度自動決定部３６のブロック図である。この図３に示す強調度自動決定部３６の単語出現頻度集計部３７は、強調除外辞書４４と、除外単語考慮型の単語出現頻度集計部（以下、第２単語出現頻度集計部と称する。）３７ａとをそなえて構成されている。
ここで、強調除外辞書４４は、入力された文章のうちの音声強調不要な単語又は連語については強調を除外するものであって、除外の対象となる文字列に関する情報を記録した辞書データを保持するものである。また、強調除外辞書４４が格納する辞書データは、適宜更新してもよく、このようにすれば、顧客要求により合致した処理が可能となる。
第２単語出現頻度集計部３７ａは、入力部１９（図１参照）から文字列を入力されると、その入力された文字列に含まれる特定単語については、出現頻度にかかわらず、強調すべきものから除外し、除外されていない単語については、通常に集計し、単語と頻度情報とを対応させて共有メモリ３９ａに記録するものであって、ソート（並び替え処理）部４２と、強調単語抽出部４３とをそなえて構成されている。
そして、第２単語出現頻度集計部３７ａは、入力された文字列を言語処理して得た単語が、強調の除外対象であるか否かを判定するために、一旦、強調除外辞書４４のデータを予め検索し、その検索により、予め除外すべき単語に関する情報を得て、入力された文字列に含まれる単語又は連語のうちの特定単語を除外し、この除外されたもの以外の単語および出現頻度については、単語および出現頻度をペアにしたペアデータ単語−頻度情報を出力するようになっている。
これにより、文章に含まれる各単語又は連語の出現頻度が抽出基準として用いられ、単語出現頻度集計部３７が、この出現頻度を集計する。
次に、図３に示す単語強調度決定部３８は、入力された文章に含まれる文字列のうちの強調する単語に関する情報を出力するものであって、ソート部４２と強調単語抽出部４３とをそなえて構成されている。なお、この図３に示すもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。
ここで、ソート部４２は、共有メモリ３９ａのデータを出現頻度に基づいてソード（並べ替え）し、そのソートしたデータを単語，出現順位をペアにした単語−頻度情報を出力するものである。このソート部４２は、共有メモリ３９ａから複数のデータ要素を取得し、並び替えの軸として出現順位を用いることにより、順位の高い単語から順位に従ってデータ要素を並び替えるのである。ここで、高い順位を有する単語は、文章に多く含まれており、重要な言葉又はキーワードであることが多い。
さらに、強調単語抽出部４３は、ソート部４２からの単語−出現順位情報を入力され、このペアデータのうちの出現順位情報を並び替えの軸として用いることにより、より正確な抽出が可能となっている。さらに、この強調単語抽出部４３は、強調単語抽出部４３自身にて抽出されたペアデータに基づいて、入力される文章に含まれる文字列のうちの重要な単語又は連語を抽出して抽出した単語又は連語を強調すべき単語情報として出力するものである。
次に、図３に示す共有メモリ３９ａは、第２単語出現頻度集計部３７ａにて集計された出現頻度と各単語又は連語とを対応付けて保持するものである。
図４は本発明の一実施形態に係る第２の共有メモリ３９ａのデータ例を示す図である。この図４に示す共有メモリ３９ａは、単語とその単語の出現頻度（回数）と出現頻度（順位）と強調の有無とをそれぞれ対応付けて格納しており、図２に示す共有メモリ３９に出現頻度（順位）のデータ列が加えられている。なお、この図４に示すテーブルデータの行数は増減可能である。
例えば、入力された文章に含まれる単語「アクセント」の出現頻度が４回であり、単語「時間的」の出現頻度が２回であったとし、このうちの「アクセント」の出現頻度が最も大きい場合は、共有メモリ３９ａの出現頻度のデータ列に順位１が書き込まれ、また、単語「時間的」についても、出現頻度のデータ列に順位５が書き込まれる。そして、ソート部４２（図３参照）は、この出現頻度に基づいて、共有メモリ３９ａのデータをソートする。
これにより、除外単語考慮型単語出現頻度集計部３７ａにおいて、入力文章の各単語の出現頻度（回数）が集計され、共有メモリ３９ａの第１列および第２列にデータが格納される。ここで、強調除外辞書４４に記載された単語は除外される。そして、ソート部４２は、出現回数の多い単語から順位を付けて共有メモリ３９ａの第３列に格納する。また、強調単語抽出部４３は、例えば出現回数の上位３位までの単語について、強調の有無を決定し、共有メモリ３９ａの第４列に格納する。
さらに、これにより、単語出現頻度集計部３７にて入力された文章の各単語又は連語の出現頻度が集計され、その集計結果は共有メモリ３９に書き込まれる。単語強調度決定部３８は、その集計結果に基づいて各単語又は連語の強調度を決定し、その決定した強調度を共有メモリ３９に書き込む。また、パラメータ生成部３３は共有メモリ３９を参照し強調すべき単語について強調したパラメータを設定する。このため、設計変更をともなわずに、既存の技術を利用でき、一層合成音声の品質が向上する。
従って、本音声合成装置１は、強調部分（単語・連語）の出現頻度に基づいて自動的に強調部分（単語・連語）を得ることができ、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞き取りやすい合成音声が自動的に得られる。
このように、出現頻度の高い単語又は連語が強調される。従って、比較的簡素な構成により、プロミネンスが自動的に決定され、ユーザに課せられる多数の手間が省略できる。
上記の音声合成装置１は、強調度自動決定部３６において、文章に含まれる各単語又は連語の出現頻度に基づいて強調すべき各単語又は連語が抽出されて、各単語又は連語についての強調度が決定され、また、音響処理部６０において、強調すべき各単語又は連語は、強調度自動決定部３６にて決定された強調度が付与されて音声が合成されている。ここで、強調度自動決定部３６と音響処理部６０との機能は別個であるが、両機能に分けなくても、本発明は実施可能である。
換言すれば、本発明の音声合成装置１は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部１１と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部３６と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書１４と、形態素解析部１１からの中間言語のうちの強調度自動決定部３６にて決定された各単語又は連語について音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部３３と、パラメータ生成部３３にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部１５とをそなえて構成されている。これにより、やはり、自動的に強調度を決定できる。
さらに、各機能を分散配置し、入力された文章についての音声を合成して出力する音声合成システム１を構築することもできる。
すなわち、本発明の音声合成システム１は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部１１と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部３６と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書１４と、形態素解析部１１からの中間言語のうちの強調度自動決定部３６にて決定された各単語又は連語について音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部３３と、パラメータ生成部３３にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部１５とをそなえて構成するのである。
従って、このようにすれば、音声合成システム１は、各機能を遠隔配置し、各機能にデータ送受信回路（図示省略）を付与することにより、通信回線を介して、データ又は信号を送受信でき、これにより、各機能を発揮させることができる。
このような構成により、本発明の音声合成方法と、本音声強調装置１が強調する単語又は連語を自動決定する例について説明する。
本発明の音声合成方法は、文章に含まれる各単語又は連語についての例えば出現頻度等の抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部３６が、上記の各単語又は連語の抽出に関する基準値を集計する（集計ステップ）。
また、共有メモリ３９は、集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する（保持ステップ）。そして、単語考慮度決定部３８は保持ステップに保持された基準値が高い各単語又は連語を抽出し（抽出ステップ）、抽出ステップにて抽出された各単語又は連語についての強調度を決定する（単語決定ステップ）。そして、上記の強調すべき各単語又は連語に単語決定ステップにて決定された強調度を付与した音声を合成する（音声合成ステップ）。
従って、ユーザが強調する部分についての設定が可能になる。
単語出現頻度集計部３７（図１参照）は、出現頻度を集計する特定の単語又は連語を、予め共有メモリ３９に保持しておく。ここで、出現頻度の閾値は、予め書き込まれるようにしている。
単語出現頻度集計部３７は、漢字かな混じり文を含むテキスト文章を入力されると、そのテキスト文章に含まれる多数の文字列の中から、特定の単語又は連語の出現頻度を抽出し、抽出した単語および出現頻度をペアにして、共有メモリ３９の第１列（単語）と第２列（出現頻度）とに格納する。これにより、多数の文字列に含まれる特定語の出現頻度が集計される。
さらに、単語強調度決定部３８は、各単語について出現頻度を共有メモリ３９から読み出し、各単語についての強調の有無を決定し、そして、強調の有無を、決定した単語に対応する第３列（強調の有無）に格納する。
ここで、単語強調度決定部３８は、この強調の有無を決定する閾値を例えば３回と設定する。これにより、単語「時間的」の出現頻度が２回の場合は、単語強調度決定部３８はこの共有メモリ３９の「強調の有無」をなしと記録し、また、単語「アクセント」の出現頻度が４回の場合は、単語強調度決定部３８は共有メモリ３９の「強調の有無」をありと記録する。
そして、図１に示すパラメータ生成部３３は、単語又は連語ごとに共有メモリ３９の第３列を読み込み、「強調有り」の場合はパラメータを生成し、そのパラメータをピッチ切り出し・重ね合せ部１５に出力する。
また、ピッチ切り出し・重ね合わせ部１５は、波形辞書１４に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する区間（波形区間）と隣接する前後の区間に属する音声波形データの一部とを重畳加算して音声を合成する。
出力された合成音声は、増幅回路（図示省略）等において増幅され、スピーカ（図示省略）から音声が出力されてユーザに到着する。
このようにして、本音声合成装置１は、各単語又は連語の強調部分の出現頻度に基づいて自動的に単語又は連語の強調部分を得ることができる。これにより、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上できるとともに、聞き取りやすい合成を得られる。
（Ａ２）第２の態様
第１の態様における抽出基準は、出現頻度に基づいて強調度を決定するためのパラメータを用いているが、出現頻度以外の出現回数，重要度等に基づいて強調度を決定する方法について詳述する。
図５は本発明の一実施形態に係る第２の音声合成装置のブロック図である。この図５に示す音声合成装置１ａは、入力された文章を読み出して音声を合成するものであって、強調度自動決定部５０と、入力部１９と、音響処理部６０とをそなえて構成されている。
ここで、強調度自動決定部５０は、文章に含まれる各単語又は連語についての出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。
また、音響処理部６０は、上記の強調すべき各単語又は連語に強調度自動決定部５０にて決定された強調度を付与した音声を合成するものである。
図６は本発明の一実施形態に係る第２の強調度自動決定部５０のブロック図である。この図６に示す強調度自動決定部５０は、出現回数集計部５６と、強調位置決定部５７と、共有メモリ５５とをそなえて構成されている。
ここで、出現回数集計部５６は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものであって、強調除外辞書５４と、除外単語考慮型単語出現回数集計部５１とをそなえて構成されている。この強調除外辞書５４は、入力された文章のうちの音声強調不要な単語又は連語については強調を除外するものであって、除外の対象となる文字列に関する情報を記録した辞書データを保持するものである。また、除外単語考慮型単語出現回数集計部５１は、文章に含まれる各単語又は連語についてその数等を集計するものである。除外単語考慮型単語出現回数集計部５１は、入力された文字列について強調除外辞書５４を検索することにより、集計する対象の単語又は連語であるか、又は集計を不要とする除外単語（又は除外連語）であるかを判定し、各単語又は連語についての出現回数および出現位置等の詳細な情報を、共有メモリ５５に逐次記録するのである。
図７は本発明の一実施形態に係る第３の共有メモリ５５のデータ例を示す図である。この図７に示す共有メモリ５５のデータ構造例は、単語「時間的」について、その出現回数を示す列と、その出現位置を単語数で表した列と、単語「時間的」を強調するか否かを示す列に関するデータを格納するとともに、強強調位置又は弱強調位置に関する情報をそれぞれ対応付けて格納している。例えば、単語「時間的」は、出現回数２で、出現位置が２１，４２とは、それぞれ、単語「時間的」が２回出現しており、最初の出現位置が最初の単語が出現した位置から２１個目又は４２個目の位置であることを表す。
そして、例えば単語「時間的」は、出現回数が少ないので、強調の有無はなしとし、単語「アクセント」は出現位置が１５，５５，８３，９９であって出現回数が４回なので「強調の有無」が必要と判定される。また、４回の出現位置のそれぞれについて、強く強調するもの（強強調位置）又は弱く強調するもの（弱強調位置）を記録している。
例えば、強調度自動決定部５０は、抽出基準として、単語「アクセント」が最初に現れる出現箇所１５においては単語「アクセント」について強く強調し、また、単語「アクセント」が２，３番目に現れる出現位置５５，８３の「アクセント」については弱く強調し、さらに、単語「アクセント」が４番目に現れる出現位置９９の単語「アクセント」については強調不要、等種々決定できる。
従って、強調度自動決定部５０は、上記の各単語又は連語の出現箇所と出現箇所の回数とに基づいて強調度を決定するようになっており、具体的には、上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が２回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定する。
これにより、出現位置の異なる同一単語の強調の度合いは、それぞれ、異なるようきめ細かな音声化ができる。
また、これにより、出現回数集計部５６（図６参照）は、共有メモリ５５に格納されている各単語又は連語に関するデータのうちの出現回数と出現頻度と強調の有無に関する情報とのそれぞれに基づいて、出現頻度−位置情報のペアデータを抽出し強調位置決定部５７（図６参照）に入力する。
また、図６に示す強調位置決定部５７は、所定回数出現した単語又は連語を共有メモリ５５に書き込む強調単語抽出部４３と、強調する単語について例えば１回目の登場箇所は強めに強調し２回目以降は弱めに強調するとのきめ細かい強調に関する情報を共有メモリ５５の第５列と第６列とに格納する強調箇所抽出部５３とをそなえて構成されている。
なお、強調度自動決定部５０以外のもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。
このような構成により、図６に示す強調度自動決定部５０は、単語出現頻度集計部５１にて入力文章の各単語の出現頻度（総回数）を集計し、それぞれ、文章中の何単語目であるかを、単語数として、共有メモリ５５の第１〜３列に格納する。
なお、強調度自動決定部５０は、強調除外辞書５４に登録された単語を除外している。強調除外辞書５４を用いる理由は、出現頻度は高くても重要でないと考えられる単語の強調を防止するためである。例えば助詞および助動詞等の付属語、「あれ」，「その」等の指示代名詞、「こと」，「ところ」，「とき」等の形式名詞、「ある」，「する」，「なる」，「やる」等の補助用言等を強調除外辞書５４に格納することが望ましい。
次に、強調単語抽出部４３は、例えば３回以上出現した単語を強調するものとして共有メモリ５５の第４列に書き込む。強調箇所抽出部５３は、強調する単語について例えば１回目の登場箇所は強めに強調し、２回目以降は弱めに強調するように、共有メモリ５５の第５列と第６列とに格納する。
また、パラメータ生成部３３（図１参照）は、共有メモリ５５の第５列と第６列とを参照して、検索された位置の単語について強めに又は弱めに強調するパラメータを生成する。
このように、強調度自動決定部５０は、その単語の１回目の登場箇所は強めに強調し、２回目以降は弱めに強調又は強調不要を設定するので、同一の強調同一で繰り返し音声化されるときに聴覚される冗長感の発生を防止できる。
（Ａ３）第３の態様
第３の態様における音声合成装置は、各単語又は連語の重要度を記録した単語記憶部を設け、この重要度の高さに応じて、多段階に単語又は連語を強調するようになっている。第３の態様における音声合成装置１ｃの概略的な構成は図１に示す音声合成装置１の構成と同一である。
図８は本発明の一実施形態に係る第３の強調度自動決定部のブロック図である。
この図８に示す強調度自動決定部６９は、重要度出力部６５と、強調単語抽出部４３と、共有メモリ６４とをそなえて構成されている。この重要度出力部６５は、各単語又は連語に、多段階の重要度を付与し、単語−重要度のペアデータを出力するものであって、各単語又は連語と多段階の重要度とを対応付けて保持する重要度辞書６３と、入力された文章に含まれる各単語又は連語について重要度辞書６３を参照して多段階の重要度情報を得るための単語重要度照合部６１とをそなえて構成されている。また、強調単語抽出部４３は、上述したものと同一である。なお、重要度辞書６３はユーザによってカスタマイズできるように構成してもよい。
さらに、共有メモリ６４は、重要度出力部６５にて集計された各単語又は連語と、これらの各単語又は連語との重要度とを対応付けて保持するものである。
図９は本発明の一実施形態に係る第４の共有メモリ６４のデータ例を示す図である。この図９に示す共有メモリ６４は、各単語と各単語の重要度（強調レベル）とを対応付けて格納している。また、この共有メモリ６４の行数は増減可能である。例えば単語「時間的」は、強調レベル「なし」とし、また、単語「アクセント」は強調レベル「強」としている。
従って、強調度自動決定部６０は、抽出基準として、上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づいて強調度を多段階に決定するようになっている。
なお、本発明の音声合成装置１ｃは、テキスト文を読み出すものであり、入力された音声波形データからキーワードを抽出するものではなく、また、強調度を多段階のレベルを用いて決定できる。
このような構成により、単語重要度照合部６１は入力された文章に含まれる各単語の多段階の重要度を、重要度辞書６３を参照することによって獲得し、獲得した重要度に応じた強調度を共有メモリ６４に格納する。強調単語抽出部４３は、格納された強調度をパラメータ生成部３３（図１参照）に出力する。
このように、重要度辞書６３を用いることにより、強調すべき単語を強調すべきレベルに応じて確実に強調できる。
（Ａ４）第４の態様
第４の態様における音声合成装置は、単語の品詞を解析できる品詞解析機能を設け、これにより、固有名詞を強調するようにしている。第４の態様における音声合成装置１ｄの概略的な構成は図１に示す音声合成装置１の構成と同一である。
図１０は本発明の一実施形態に係る第４の強調度自動決定部のブロック図である。この図１０に示す強調度自動決定部７０は、共有メモリ７４と、固有名詞選択部７２と、強調単語抽出部４３とをそなえて構成されている。この共有メモリ７４は、各単語又は連語と、これらの各単語又は連語のうちの固有名詞については「強調あり」との対応関係を保持するものである。
図１１は本発明の一実施形態に係る第５の共有メモリ７４のデータ例を示す図であるが、この図１１に示す共有メモリ７４は、単語「時間的」，「アクセント」等については強調を不要とする一方、例えば固有名詞「アルプス」については強調が必要という対応関係を格納している。なお、共有メモリ７４の行数は増減可能である。
また、固有名詞選択部７２（図１０参照）は、固有名詞辞書７３と固有名詞判定部７１とをそなえて構成されている。この固有名詞辞書７３は各単語又は連語の品詞を保持するものであり、固有名詞判定部７１は入力された文字列に含まれる各単語又は連語が固有名詞であるか否かについて、各単語又は連語を固有名詞辞書７３に照合することにより判定するものである。固有名詞判定部７１は、各単語が固有名詞の場合は「強調あり」を共有メモリ７４に書き込み、各単語が固有名詞でない場合は「強調なし」を共有メモリ７４に書き込む。そして、強調単語抽出部４３は、共有メモリ７４に格納された強調の有無をパラメータ生成部３３に出力する。
従って、強調度自動決定部７０は、抽出基準として、文章に含まれる特定の固有名詞に基づいて強調度を決定していることになる。
このような構成により、共有メモリ７４が初期化された状態において、固有名詞選択部７２に文章が入力されると、固有名詞判定部７１は、その文章に含まれる各単語又は連語について、各々、固有名詞辞書７３を参照することにより、固有名詞であるか否かを判定する。この判定結果が固有名詞の場合は、固有名詞判定部７１は、固有名詞情報（単語が固有名詞であることを示す情報）を出力し強調単語抽出部４３は、その単語を強調する。また、判定結果が固有名詞でない場合は、固有名詞判定部７１は、固有名詞情報を出力しない。
この間、固有名詞判定部７１は、文字列の入力が停止するまで、各判定結果を共有メモリ７４に記録し続ける。従って、共有メモリ７４は、多数の各単語又は連語について、強調の有無に関するデータが記録される。
このように、文字列のうちの固有名詞が強調されるので、音声合成装置は、文章全体として聞き取りやすい音声を合成できる。
（Ａ５）第５の態様
第５の態様における音声合成装置は、文字種別のうちの例えばカタカナで表記された各単語又は連語を強調するようにしている。第５の態様における音声合成装置１ｅの概略的な構成は図１に示す音声合成装置１の構成と同一である。
図１２は本発明の一実施形態に係る第５の強調度自動決定部のブロック図である。この図１２に示す強調度自動決定部８０は、カタカナ語選択部８４と、強調単語抽出部４３とをそなえて構成されている。また、カタカナ語選択部８４は、カタカナ語文字を保持するカタカナ語辞書８３と、このカタカナ語辞書８３を参照することによって、入力された各単語又は連語がカタカナ語であるか否かを判定するものである。なお、このカタカナ語辞書８３は、上記の固有名詞辞書７３（図１０参照）の中に設けることもできる。
また、カタカナに限らずに、例えば、アルファベット，ギリシャ文字，特殊な漢字等の文字種別を強調することもできる。すなわち、この強調度自動決定部８０は、抽出基準として、文章に含まれる例えばカタカナ，アルファベット又はギリシャ文字等の種々の文字種別に基づいて強調度を決定することができる、
このような構成により、入力された文章に含まれる各単語又は連語は、カタカナ語判定部８１において、カタカナで表記されている否かを判定され、カタカナ語の場合はカタカナ情報（入力された文字列がカタカナで表されたことを示す情報）を出力する。そして、強調単語抽出部４３は、文字がカタカナ情報である場合にはその単語を強調し、また、そうでない場合にはその単語をそのまま出力する。
このように、カタカナ語を強調することにより、全体として聞き取りやすい合成音声とすることが期待できる。
（Ｂ）その他
本発明は上述した実施態様及びその変形態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
中間言語の韻律記号は、一例であって、本発明は、種々変形した態様により、実施できることは言うまでもない。また、パラメータの種類，共有メモリに保持されるデータの保持形式，データの保持場所又は各データについての処理の方法そのものを変形したものであっても、それは、本発明の優位性をなんら損なうものでもない。
そして、本発明は上述した実施態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。

以上のように、本発明の音声合成装置によれば、ユーザが強調を指定する部分が現れるたびに、強調の大きさ等のパラメータを手動入力が必要という課題を解決し、単語又は連語の強調部分の出現頻度，重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を得ることができる。さらに、簡素な構成により操作性が向上し自動的に強調度を決定でき、また、聞き取りやすい音声合成装置を得ることができるので、例えば、移動通信，インターネット通信およびこれら以外で、テキストデータを用いる分野の各装置は、本発明を用いることができる。そして、これにより、表現性，安全性および警備等の種々の分野において操作性を向上できる。

Claims

文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
上記の強調すべき各単語又は連語に該強調度決定部にて決定された強調度を付与した音声を合成する音響処理部とをそなえて構成されたことを特徴とする、音声合成装置。
該強調度決定部が、
該文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、
該集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持部と、
該保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又は連語についての該強調度を決定する単語決定部とをそなえて構成されたことを特徴とする、請求の範囲第１項記載の音声合成装置。
該強調度決定部が、
該抽出基準として、上記の各単語又は連語の出現頻度に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第１項又は第２項記載の音声合成装置。
該強調度決定部が、
該抽出基準として、該文章に含まれる特定の固有名詞に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第１項又は第２項記載の音声合成装置。
該強調度決定部が、
該抽出基準として、該文章に含まれる文字種別に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第１項又は第２項記載の音声合成装置。
該強調度決定部が、
該抽出基準として、上記の各単語又は連語の出現箇所と該出現箇所の回数とに基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第１項又は第２項記載の音声合成装置。
該強調度決定部が、
上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が２回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定するように構成されたことを特徴とする、請求の範囲第６項記載の音声合成装置。
該強調度決定部が、
該抽出基準として、上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づいて該強調度を多段階に決定するように構成されたことを特徴とする、請求の範囲第１項又は第２項記載の音声合成装置。
該音響処理部が、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該形態素解析部からの韻律記号付き中間言語のうちの該強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴とする、請求の範囲第１項〜第８項のいずれか一項記載の音声合成装置。
文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴とする、音声合成装置。
該ピッチ切り出し・重ね合わせ部が、
該波形辞書に格納された音声波形データを、該パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関数を乗じた処理音声波形データと、この処理音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成するように構成されたことを特徴とする、請求の範囲第１０項記載の音声合成装置。
文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、
該集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、
該保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、
該抽出ステップにて抽出された各単語又は連語についての該強調度を決定する単語決定ステップと、
上記の強調すべき各単語又は連語に該単語決定ステップにて決定された該強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴とする、音声合成方法。
入力された文章についての音声を合成して出力する音声合成システムであって、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴とする、音声合成システム。