WO2006008871A1

WO2006008871A1 - 音声合成装置

Info

Publication number: WO2006008871A1
Application number: PCT/JP2005/009131
Authority: WO
Inventors: Natsuki Saito; Takahiro Kamai
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-07-21
Filing date: 2005-05-19
Publication date: 2006-01-26
Also published as: CN100547654C; JPWO2006008871A1; US20060106609A1; US7257534B2; JP3895766B2; CN1906660A

Abstract

　読み上げ対象の文章が不完全であることに起因するユーザの混乱や合成音の品質劣化を防止し、ユーザにとって理解しやすい読み上げ音声を提示可能な音声合成装置を提供する。　入力された電子メールテキスト（１００）のうち、文字列の欠落によって言語的に不完全な部分である不完全部分を検出し、過去に受信した電子メールテキストを蓄積するメールボックス（１０７）を参照して、検出された不完全部分において欠落している文字列を補完する不完全部分検出部（１０３）と、補完後の電子メールテキストに基づいて、合成音を生成する音声合成部（１０４）と、不完全部分検出部（１０３）において検出された不完全部分に対応する合成音の聴覚的明瞭度を下げる不完全部分不明瞭化部（１０５）と、生成された合成音を再生出力するスピーカ装置（１０６）とを備える。

Description

明細書

音声合成装置

技術分野

[0001] 本発明は、テキストに対応する音声を合成して出力する音声合成装置に関し、特に

、不完全な文章をも自然に読み上げるための音声合成装置に関する。

背景技術

[0002] 従来、所望のテキストに対する合成音を生成して出力する音声合成装置が提供されている。その中でも、応用分野として電子メールを読み上げるという用途があり、テキストで書かれた電子メールそのものを読む代わりに、電子メールの内容を合成音として聞き取るようにすることができる。

[0003] しかし、電子メールのテキストには、小説や新聞記事などのテキストと違、、例えば引用記号などのように、通常通りに読み上げることができない記号が、引用部分ゃシグネチヤ部分などに含まれるため、このような部分を適切に処理して読み上げ可能な状態に修正する必要がある。このための技術として、例えば特許文献 1及び特許文献 2がある。

[0004] 特許文献 1の方式によれば、読み上げる必要が無い引用記号を除去することによつて引用文の中身だけを読み上げたり、引用部分を全て削除したりすることによって引用部分の読み上げの困難さを回避することができる。

[0005] また、特許文献 2の方式によれば、引用文の中身を蓄積済みの既読メールに含まれる文字列と照合し、引用文の中身が既読メールに含まれる場合のみ引用部分の削除を行うといった、より適切な処理を行うことができる。

特許文献 1 :特開平 9— 179719号公報 (明細書第 7頁〜第 8頁）

特許文献 2：特開 2003— 85099号公報（明細書第 22頁〜第 24頁）

発明の開示

発明が解決しょうとする課題

[0006] ところで、電子メールのテキストは、しばしば行単位で引用され、そのために引用部分の冒頭が引用元の電子メールにおけるある文の途中力も始まっていたり、末尾が文の途中で終わっていたりすることが少なくない。このような引用の例を図 22に示す

[0007] 図 22において、メール文 800〜802は、 2人の人物間における一連のメールのやりとりを表している。最初のメール文 800から、文章の途中の一部分である「どのような資料を用意すれば」の部分だけが引用されて、返信メール文 801が書かれ、さらに返信メール文 801の先頭から 3行目、 7行目、 8行目、 11行目を引用して、再返信メール文 802が書かれている。それぞれの引用部分は、完全な文章にはなっておらず、引用元のメール力も単純に行単位の引用を行っている。このような引用を行うと、引用文は、しばしば元の文章力も文頭や文末の部分が欠落したものになる。

[0008] し力しながら、上記した従来技術では、このような不完全な文章の読み上げを考慮しておらず、不完全な文章を完全なものとして読み上げることによって、ユーザの混乱を招ヽてしまう t ヽぅ問題がある。

[0009] また、文章が不完全であることによって言語的解析処理が失敗するため、不自然な韻律が付与されて合成音の品質を低下させてしまうという問題もある。

[0010] 一方、このような文頭もしくは文末の意味をなさない不完全な部分は、元々読み上げの重要性が低い部分であると考えられるため、必ずしも全ての文字が聞き取れるように読み上げる必要は無、と、える。

[0011] そこで、本発明は、力かる問題点および事情に鑑みてなされたものであり、読み上げ対象の文章が不完全であることに起因するユーザの混乱や合成音の品質劣化を防止し、ユーザにとって理解しやす!/、読み上げ音声を提示可能な音声合成装置を提供することを目的とする。

課題を解決するための手段

[0012] 上記目的を達成するために、本発明に係る音声合成装置は、入力されたテキスト情報に対応する合成音を生成する音声合成装置であって、前記テキスト情報のうち、文字列の欠落による言語的に不完全な部分である不完全部分を検出する不完全部分検出手段と、前記検出された不完全部分において欠落している文字列を補完する補完手段と、前記補完された後のテキスト情報に基づいて、合成音を生成する音声合成手段とを備えることを特徴とする。 [0013] これによつて、文章を構成する文字列の一部に欠落が生じているために、言語的に不完全となっている文章であっても、その欠落を補完して合成音を生成するので、生成される合成音には、自然な韻律が付与されることとなり、ユーザの混乱や合成音の品質劣化を防止することができる。

[0014] ここで、前記音声合成装置は、さらに、前記不完全部分検出手段において検出された不完全部分に対応する合成音に、所定の音響効果を加える音響効果付加手段を備え、前記音響効果付加手段は、前記不完全部分検出手段において検出された不完全部分に対応する合成音の聴覚的明瞭度を下げる不完全部分不明瞭化部を備える。

[0015] この構成によれば、言語的に不完全な部分の読み上げ音声を不明瞭にするので、ユーザに、読み上げの重要性が低、部分を容易に理解させることができる音声合成装置が実現される。

[0016] なお、本発明は、このような音声合成装置として実現することができるだけでなぐこのような音声合成装置が備える特徴的な手段をステップとする音声合成方法として実現してもよぐそれらのステップをパソコンなどのコンピュータで実現させるためのプログラムとして実現してもよい。また、そのようなプログラムを CD— ROMなどの記録媒体や、インターネットに代表される通信媒体を通じて配信できることは言うまでもな、。発明の効果

[0017] 以上説明したように、本発明に係る音声合成装置によれば、文章を構成する文字列の一部に欠落が生じて、るために、言語的に不完全となって、る文章に対して、その欠落を解消することによって音声合成処理を失敗させないようにしたり、その欠落によって音声合成処理が失敗する部分をあえて不明瞭に再生したりすることで、ュ一ザにとって理解しやすい読み上げ音声を提示することができる。

[0018] また、本来読み上げの重要性が低いと考えられる部分、すなわち、引用部分の冒頭にある文の先頭、もしくは末尾にある文の最後が不完全であれば、その部分の聴覚的明瞭度を下げて、読み上げ音声を出力するので、これらの部分が比較的無意味であることをユーザに示し、誤った韻律や不完全な単語の読み上げにユーザの注意が引き付けられるのを防ぎつつ、その位置に何らかの無意味語があつたという情報を削除することなく提示することができる。

図面の簡単な説明

[図 1]図 1は、実施の形態 1に係る音声合成装置の機能的な構成を示すブロック図である。

[図 2]図 2は、引用構造解析部および電子メールテキスト整形部の動作を説明するための図である。

[図 3]図 3は、不完全部分検出部が行う処理の概要を説明するための図である。

[図 4]図 4は、言語解析部の動作例を説明するための図である。

[図 5]図 5は、韻律生成部の動作例を説明するための図である。

[図 6]図 6は、素片選択部、素片結合部および不完全部分不明瞭化部の動作例を説明するための図である。

[図 7]図 7は、合成音レコード列の概略図である。

[図 8]図 8は、不完全部分検出部が補完を行わない場合に得られる検出結果の一例を示す図である。

[図 9]図 9は、不完全部分不明瞭ィ匕部に入力される合成音レコード列の例を示す図である。

[図 10]図 10は、不完全部分不明瞭ィ匕部によるフェードイン処理の例を示す概略図である。

[図 11]図 11は、実施の形態 2に係る音声合成装置の機能的な構成を示すブロック図である。

[図 12]図 12は、実施の形態 3に係る音声合成装置の機能的な構成を示すブロック図である。

[図 13]図 13は、素片選択部、不完全部分不明瞭化部および素片結合部の動作例を説明するための図である。

[図 14]図 14は、実施の形態 4に示される音声合成装置の構成を示すブロック図である。

[図 15]図 15は、メッセージテキストおよびメッセージログの例を示す概略図である。

[図 16]図 16は、引用構造解析部およびメッセージテキスト整形部の動作を示す概略図である。

[図 17]図 17は、不完全部分検出部の動作を示す概略図である。

[図 18]図 18は、実施の形態 5に係る音声合成装置の機能的な構成を示すブロック図である。

[図 19]図 19は、実施の形態 6に係る音声合成装置の機能的な構成を示すブロック図である。

[図 20]図 20は、掲示板メッセージテキスト抽出部の動作例を説明するための図である。

[図 21]図 21は、掲示板メッセージテキスト整形部の動作例を説明するための図である。

[図 22]図 22は、本発明の解決課題に示される、本発明が対象とするテキストの例を示す図である。

符号の説明

10、 20、 30、 40、 50、 60 音声合成装置

100 電子メールテキスト

101 引用構造解析部

102 電子メールテキスト整形部

103 不完全部分検出部

104、 104a, 104b 音声合成部

105 不完全部分不明瞭化部

106 スピーカ装置

107 メーノレホックス

200、 1100、 1600 引用構造解析済みテキスト

201、 1101、 1601 整形済みテキスト

300 不完全部分抽出済みテキスト

301 過去の電子メールテキスト

400 合成音レコード列

401 合成音レコード 402 合成音レコードヘッダ

600a 引用レベル 0の合成音

600b 600cに対する補完部分の合成音

600c 引用レベル 1の合成音

601 フエーダ部

602 ミキサ部

603 出力音声

700 波形生成部

702 音声素片パラメータデータベース

800 メール文

801 返信メール文

802 再返信メール文

900 チャットメッセージテキスト

902 メッセージテキスト整形部

903 メッセージログ

1200 不完全部分検出済みテキスト

1300 ニューステキスト

1301 ニューステキスト整形部

1302 既読ニュースログ

1303 ニュースクライアント

1304 ネットワーク

1305 ニュースサーノ

1306 全ニュースログ

1400 掲示板メッセージテキスト

1401 掲示板メッセージログ

1402 掲示板メッセージテキスト抽出部

1403 掲示板メッセージテキスト整形部

1500 分割済み掲示板メッセージテキスト 1700 言語処理部

1701 素片選択部

1702、 1702aゝ 1702b 音声素片データベース

1703 素片結合部

1704 韻律生成部

1800 音素表記テキスト

1900 韻律付き音素表記テキスト

発明を実施するための最良の形態

[0021] 以下、本発明の実施の形態について図面を用いて詳細に説明する。

[0022] (実施の形態 1)

図 1は、本発明の実施の形態 1に係る音声合成装置の機能的な構成を示すブロック図である。

[0023] 本実施の形態 1に係る音声合成装置 10は、電子メールによる通信内容であるテキストを取得し、そのテキストに対応する合成音を生成して出力する装置であり、電子メールのテキストに含まれる引用部分に現れる不完全な文を自然に読み上げるものである。この音声合成装置 10は、前記テキストの不完全部分に対応して、聴覚的明瞭度を下げた合成音を出力することによって、聴覚的明瞭度を下げない場合に比べてより自然な聴感を利用者に与えることを最大の特徴とする。

[0024] 図 1に示すように、音声合成装置 10は、入力される電子メールテキスト 100の引用部分の構造を解析する引用構造解析部 101と、解析された引用部分の構造を考慮した上で電子メールテキストを文単位に整形する電子メールテキスト整形部 102と、過去に送受信した電子メールテキストを蓄積するための記憶領域を有するメールボッタス 107と、メールボックス 107から、過去に送受信した電子メールテキストを参照して電子メールテキスト 100内の不完全な文を検出し、その不完全な部分を特定する不完全部分検出部 103と、テキストを入力として受け取り合成音を出力する音声合成部 104と、音声合成部 104が出力する合成音の中で不完全部分検出部 103が検出した不完全な部分に対応する部分だけを聴覚的に不明瞭化させる処理を施す不完全部分不明瞭ィ匕部 105と、生成された合成音を再生し出力するスピーカ装置 106とを備えている。

[0025] ここで、音声合成部 104は、さらに細力、機能ブロックに分割することができ、テキストを入力として、その言語解析結果を出力する言語処理部 1700と、テキストの言語解析結果に基づいて韻律情報を生成する韻律生成部 1704と、音声素片を格納する音声素片データベース (DB) 1702と、韻律情報を含む言語解析結果を用いて、音声素片 DB1702から適切な音声素片を選択する素片選択部 1701と、素片選択部 1 701の選び出した音声素片をあら力じめ生成された韻律に合致するよう変形しつつ、前後の音声素片となめらかにつながるような変形も加えて連結し、入力されたテキストに対応する合成音声データを出力する素片結合部 1703とを備えている。

[0026] 引用構造解析部 101は、電子メールテキスト 100を簡単に解析して、引用の深さや段落の切れ目などに応じて整形を行う。

[0027] ここで、引用の深さとは、各文章の引用された回数を意味し、具体的には各行頭から連続する引用記号の数によって、引用構造解析部 101は、各文章の引用の深さを識別する。

[0028] また、段落の切れ目とは、各文章の意味のつながりが途切れている箇所を意味し、同じ引用の深さの文章の中で、空行が存在したり他の行とインデントの量が違って!/ヽる部分によって、引用構造解析部 101は、段落の切れ目を識別する。なお、「（中略）」や「（略)」のように途中の文章が省略されて、ることを示唆する文字列や、縦方向の「· · ·」を模した「：」のみの行など、空行やインデントの違、以外に段落の切れ目を示唆する文字列によって、引用構造解析部 101は段落の切れ目を識別するとしてもよい。

[0029] 電子メールテキスト整形部 102は、引用構造解析部 101による解析結果を元に、電子メールテキスト 100を文単位に切り分けて整形する。この電子メールテキスト整形部 102は、さらに、メールヘッダやシグネチヤの要約も行う。

[0030] 図 2は、引用構造解析部 101及び電子メールテキスト整形部 102の動作を説明するための図である。

[0031] 図 2において、引用構造解析部 101は、以下のように電子メールテキスト 100を解祈し、解析結果を表すタグを付加して引用構造解析済みテキスト 200を生成する。 [0032] 1)まず、電子メールテキスト 100の先頭から、半角のマイナス記号 2つで構成される行までをヘッダと識別して、その部分をく header >のタグで囲む。

2)電子メールテキスト 100の終端から、 2つ以上連続した記号文字のみで構成される行が最初に現れる場所を探し、検出された行が 1)で識別したヘッダの終端でなぐさらにその検出された行カゝら電子メールテキスト 100の終端までの行数が 10行以下であればこれをシグネチヤ部分と識別して、く signature >のタグで囲む。

3)ヘッダ部分とシグネチヤ部分の間にあるテキストの全てをメールの本文と識別して、 < body >のタグで囲む。

4)く body >タグで囲まれたメールの本文を先頭から見て、終端の行を処理し終わるまで以下の 5)〜： L0)の処理を繰り返す。

5)現在の行の先頭にある弓 I用記号の数を数え、弓 I用記号の数のタグで置換する。例えば、引用記号力^つある場合はく 1 >、 2つある場合はく 2 >、引用記号が無い (引用部分でない)場合はく 0 >を引用記号の代わりに付与する。ただし、この時点では、まだタグを閉じない。以下、この引用記号の数のタグを「引用タグ」と記述し、引用記号の数を引用レベルと記述する。

6)現在の行が電子メールテキスト最後の行である力、次の行以降がシグネチヤ部分であれば、引用タグを閉じて終了する。例えば、現在の行が引用部分でなければ

、行末に < Ζο >を追加してこのアルゴリズムを終了する。

7)次の行へと読み進める。

8)直前の行と現在の行の引用記号の数が違うか、現在の行が空行である力現在の行が「（中略)」や「：」などの元の文の省略を意味する文字列である力現在の行と直前の行のインデントの数が違う場合、 10)へ進む。

9)行頭の引用記号を削除して、 6)へ進む。

10)直前の行を引用タグで閉じて、 5)へ進む。

[0033] 以上、 1)〜： L0)の手順によって生成される引用構造解析済みテキスト 200は、次のようなものである。

• < header >タグで囲まれた部分に、元の電子メールテキスト 100のヘッダ部分が入っている。 • < signature >タグで囲まれた部分に、元の電子メールテキスト 100のシグネチヤ部分が入っている。

• <body>タグで囲まれた部分に、元の電子メールテキスト 100の本文部分が入つている。

•本文部分は、段落ごとに引用タグで囲まれている。また、引用タグによって引用の深さが分力る。

[0034] さらに、図 2において、電子メールテキスト整形部 102は、以下に説明するように引用構造解析済みテキスト 200を処理し、整形済みテキスト 201を生成する。

[0035] 1)く header >タグで囲まれた部分を要約し、読み上げやすい文章にする。例えば、メールの差出人を表す Fromフィールドと表題を表す Subjectフィールドのみを取り出して、「〇〇さんより、 X Xというメールです」という文章に変換する。ただし、この段階では、後の不完全部分検出部 103における処理に備えて、電子メールのスレッド構造を表す In— Reply Toフィールドや Reference sフィ一ルドの内容は、削除せずに残しておくことが望ま、。

2)く signature >タグで囲まれた部分を要約し、読み上げやすい文章にする。もしくは、単純に削除してしまっても良い。

3)く body>タグで囲まれた部分に関して、各引用タグ内の文章から改行や空白文字を削除して一行のテキストにした上、句点で文を切り分ける。

[0036] 不完全部分検出部 103は、電子メールテキスト整形部 102によって生成された整形済みテキスト 201を受け取り、メールボックス 107に蓄積されている、過去に送受信した電子メールと照合を行って、弓 I用レベルが 1以上の各引用タグ内の先頭及び末尾の文が最初に現れる電子メールを探し、引用文が完全であったかどうか、即ち各引用文が引用元の文に対して文字列の欠落が無、かどうかを文字列マッチングにより判定する。さらに、引用文が不完全であった場合には、元の完全な文で置換を行つた上で、元の完全な文のうち、どの部分が引用文に含まれているかを識別可能にする。

[0037] 図 3は、不完全部分検出部 103が行う処理の概要を説明するための図である。図 3 において、不完全部分検出部 103は、以下に説明するような処理を行う。 [0038] 1)ヘッダ部分の In— Reply— Toフィールドや Referencesフィールドに書かれたメッセージ IDを参照して、メッセージ IDの一致する過去の電子メールテキスト 301をメールボックス 107から全て取得する。さらに、それらの電子メールテキスト 301の In— Reply— Toフィールドや Referencesフィールドを参照し、同一スレッドの過去の電子メールテキスト 301を再帰的に全て取得する。

2)取得した過去の電子メールテキスト 301から、ヘッダ部分、シグネチヤ部分、引用部分を全て取り除く。さらに、本文部分からも改行や空白文字を全て取り除いて文字列マッチングに備える。

3)本文部分の各弓 I用タグ内の先頭及び末尾の文について、それが弓 I用レベル 0 で現れる最初の電子メールテキスト 301を、文字列マッチングによって検索する。

4) 3)でマッチした文字列が文の一部であれば、過去の電子メールテキスト 301に含まれる元の完全な文で整形済みテキスト 201の不完全な文を置換する。さらに、整形済みテキスト 201に含まれていな力つた部分、即ち過去の電子メールテキスト 301 から補完された部分をく c >と、うタグで囲んで区別できるようにしておく。

5)本文部分の全ての弓 I用タグにつ、て、 3)〜4)の処理を繰り返す。

6)ヘッダ部分から In— Reply— Toフィールドと Referencesフィールドを削除する。

[0039] 以上、 1)〜5)の手順によって生成される不完全部分検出済みテキスト 300は次のようなものである。

[0040] · < header >タグで囲まれた部分に、元の電子メールテキスト 100のヘッダ部分が要約されて入っている。

• < signature >タグで囲まれた部分に、元の電子メールテキスト 100のシグネチヤ部分が要約されて入って、る。

• < body>タグで囲まれた部分に、元の電子メールテキスト 100の本文部分が入つている。

•本文部分は、段落ごとに引用タグで囲まれており、引用タグによって引用の深さが分かる。さらに、

•本文部分の文は、全て引用による文字列の欠落が無い完全な文であり、元の電子メールテキスト 100に含まれる引用文が不完全な文であった場合は、過去の送受信メールから補完された部分だけが < C >タグで囲まれて区別されて、る。

[0041] 音声合成部 104は、このようにして生成された不完全部分検出済みテキスト 300を先頭から一文ずつ処理して、合成音を生成し出力する。このとき、各文において < c >タグで囲まれている部分があれば、それがどの部分力判別可能な形式で出力を行

[0042] 音声合成部 104の内部では、次のような処理が行われる。

まず、図 4に示されるように、不完全部分検出部の生成した不完全部分検出済みテキスト 300は言語処理部 1700によって処理され、音素表記テキスト 1800が生成される。この音素表記テキスト 1800は、不完全部分検出済みテキスト 300の漢字仮名混じり文を音素表記に変換したものであり、言語解析の結果として得られるアクセント情報や構文情報も含めておくことによって合成音の品質を向上させることも可能である 1S 図 4では、簡単のため音素表記のみを示している。

[0043] 次に、図 5に示されるように、韻律生成部 1704は、生成された音素表記テキスト 18 00に基づいて、各音素の継続時間、時間的中心位置における基本周波数、および、パワー値を計算して、韻律付き音素表記テキスト 1900を素片選択部 1701に出力する。図 4と同じく、図 5でも簡単のため言語解析の結果として得られる構文情報等が音素表記テキスト 1800及び韻律付き音素表記テキスト 1900の説明図から省略されているが、実際にはそのようなデータを含めておくことで、素片選択部 1701による音声素片選択処理をより高、精度で行うことができるようになるため望まし、。

[0044] 次に、図 6に示されるように、素片選択部 1701は、韻律生成部 1704から取得した韻律付き音素表記テキスト 1900の情報に基づいて、最適な音声素片データを音声素片 DB1702より取得する。典型的な構成としては、音声素片 DB1702は、 1音素単位で分割された音声波形データを各音声素片として格納しており、これらの音声素片にはあらかじめ分析された継続時間、基本周波数、パワー値、および、当該音声素片の録音時に用いられた文章における構文情報等が付加されていて、素片選択部 1701は、それらの情報を元に、言語処理部 1700及び韻律生成部 1704の出力内容に最も近!ヽ音声素片を選択するようにする。

[0045] 素片結合部 1703は、素片選択部 1701から出力される音声素片を順番に受け取り、各音声素片の継続時間、基本周波数、および、パワー値を変形することで、あらかじめ計算された韻律への合わせ込みを行い、さらに各音声素片が前後の音声素片と滑らかに繋がるように変形を行い、音声合成部 104の処理結果として不完全部分不明瞭ィ匕部 105に出力する。

[0046] 図 7は、音声合成部 104が、不完全部分検出済みテキスト 300から生成する合成音レコード列 400の例を説明するための図である。

[0047] 音声合成部 104は、不完全部分検出済みテキスト 300の各文について、全てのタグを取り去った上で音声合成を行！ヽ、生成された合成音データをく c >タグの位置で分割して、レコード 401のリストとして出力する。レコード 401は、各々が構造体の形式になっており、引用レベルを表す int値（引用レベル）と、当該レコードの音声データが < c >タグで囲まれた文字列に相当する部分であるかどうかを表す bool値 (補完部分)と、当該レコードに含まれる合成音データ長を表す int値 (音声データ長）と、当該レコードに含まれる合成音データ本体である、 int値 (音声データ）の配列より構成される。これらレコード 401のリストの先頭には、後続文が幾つのレコードによって構成されるかを表す int値（文内レコード数）を持つレコードヘッダ 402がある。

[0048] ここで、音声合成部 104は、ヘッダ部分'本文部分 ·シグネチヤ部分に対し、それぞれ別々の声質で音声合成処理を行ってもょヽ。

[0049] また、音声合成部 104は本文部分の各文の引用レベルによって合成音の声質を変えるようにしてもよい。例えば引用レベルが偶数の文は声質 Aで音声合成を行い、引用レベルが奇数の文は声質 Bで音声合成を行うことによって、それぞれの文が誰の発言であったのか分力りやすくなる。また、不完全部分検出部 103によって引用元となる過去の電子メールテキスト 301を検索する際に、差出人を表す Fromフィールドの内容を引用タグに埋め込んでおき、引用タグに埋め込まれた差出人によって合成音の声質を変えるようにすることで、さらに分力りやすい読み上げを行うことができる。

[0050] 続いて、不完全部分不明瞭ィ匕部 105は、以上のように構成される合成音レコード列 400を受け取り、次のような処理を行う。

[0051] 1)レコードヘッダ 402を読み、文内レコード数を得る。

2) 1)で取得した文内レコード数の分だけ、以下の 3)〜6)を繰り返す。 3)レコードを 1つ読み込む。このレコードが不完全部分検出部 103によって補完された部分でなければ、このレコードの音声データをそのまま出力して再度 3)に戻る。一方、補完された部分であれば 4)へ進む。

4)このレコードが文内の最初のレコードであれば、音声データの長さが 2秒より長い場合、音声データを末尾の 2秒分のみに短縮する。さらに短縮された音声データの音量を始端で 0%、終端で 100%のフェードインになるように変形する。一方、このレコードが文内の最後のレコードである場合は、音声データを先頭の 2秒分のみに短縮し、同様にして短縮された音声データの音量を始端で 100%、終端で 0%のフエ一ドアウトになるように変形する。

5)変形された音声データを出力し、 3)へ進む。

[0052] 以上、 1)〜5)の手順で不完全部分不明瞭化部 105によって出力される音声データは、次のような特徴を持つ。

[0053] ·整形済みテキスト 201に含まれる文章が、不足無く音声化されて含まれている。

•不完全部分検出部 103によって整形済みテキスト 201に追加された部分を利用して、整形済みテキスト 201における不完全なテキストの先頭の欠落部分は最大 2秒間のフェードインと共に再生を開始し、末尾の欠落部分では最大 2秒間のフェードアウトを経て次の文章の再生に移行する。

[0054] 以上のように本実施の形態 1に係る音声合成装置 10によれば、引用構造解析部 1 01で電子メールテキスト 100の構造を解析し、その結果を元に電子メールテキスト整形部 102が読み上げに適した整形済みテキスト 201を生成し、さらに、不完全部分検出部 103によって不完全部分の検出と、不完全部分の補完処理が行われる。その結果、音声合成部 104で、補完された元の完全な文に対して音声合成処理を行うことができるため、不自然な韻律によって聴取者であるユーザを混乱させてしまうことを避けることができる。また、補完された部分の音声に、不完全部分不明瞭化部 105でフエードイン ·フェードアウト処理を施すことで、実際に電子メールテキスト 100に引用されていた部分の読み上げを不足無く行いつつ、引用時に削られた部分があることを聴覚的にユーザに提示することができる。

[0055] なお、合成音レコード列 400は少なくとも < c>タグで囲まれていない部分の音声を完全に含み、 < c >タグで囲まれた部分の音声があれば、その合成音レコード列 400 内の位置が分力るような不完全部分ポインタ情報を含んでいれば、これと同等の処理を行うことが可能である。

[0056] また、不完全部分検出部 103が、さらに高度な言語解析を行うことができ、引用文の先頭もしくは末尾にある形態素や文節が不完全になってしまっていることが検出できる場合、不完全になった形態素や文節を完全にする分だけの文字を補完して音声合成を行い、当該形態素や文節の部分の音声をフェードイン 'フェードアウト等の手段によって不明瞭ィ匕するようにしてもよ!、。

[0057] また、テキストの不完全部分に対応して聴覚的明瞭度を下げた合成音を出力するという本発明の最大の特徴が単独で発揮されるよう、不完全になった形態素や文節の補完は行わず、不完全な形態素や文節の部分の音声のみを不明瞭化するに留めてもよい。この場合、不完全部分検出部 103は、例えば引用部分の先頭にある文では r ight— to— leftの形態素解析を行った上で文頭に現れた未知語を不完全部分とし、引用部分の末尾にある文では left— to— rightの形態素解析を行つた上で文末に現れた未知語を不完全部分とすればよ!ヽ。

[0058] 図 8に、不完全部分検出部 103が整形済みテキスト 201の補完を行わずに文節単位で不完全部分の検出のみを行った場合に得られる結果の一例を示す。図 8に示される不完全部分検出済みテキスト 300aは、不完全部分検出済みテキスト 300 (図 3 参照）と対比して、次のような特徴を持つ。

[0059] ·文の先頭及び末尾における不完全部分が補完されていない。

•文の先頭及び末尾にもともと存在して、て、かつ完全な文節をなしてヽな、と判断された部分が < c >タグで囲まれて区別されて、る。

[0060] 補完を行わずに不完全部分を検出するこのような構成は、不完全部分の補完に用 V、られるテキストが容易に取得できな、場合（引用元のメール力 Sメールボックス 107に蓄積されていない場合はもちろん、例えば、ウェブページ、電子書籍、電子番組情報等のメール以外の種々の引用元力も切り取られたテキストを読み上げる場合）に、特に好適である。

[0061] なお、ここまでの説明には、メールの引用部分の先頭及び末尾にテキストの不完全部分が生じる状況を一例として用いたが、利用者力指定されたテキストの一部分を読み上げる状況にぉ、ても、テキストの不完全部分が生じることが考えられる。

[0062] そのような状況に対応するために、音声合成装置 10に、さらに、テキストの一部分の指定を受け付ける部分指定受付部 (不図示)を設け、前記不完全部分検出部 103 は、前記指定された部分の先頭及び終端の少なくとも一方において不完全部分を検出することが好ましい。この部分指定受付部は、情報端末装置にごく一般的に備えられるカーソルキーや入力ペンを用いて実現され、指定された部分は、従来広く行われているように、反転、点滅などによって表示されるとしてもよい。

[0063] また、不完全部分不明瞭ィ匕部 105は、補完された部分の音声の代わりに、後続する音声が元の文章の途中から始まっていたり、先行する音声が文章の途中で終わつていたりすることを示唆する効果音を用いることにしてもよい。例えば、文の先頭の不完全部分に当たる音声を、ラジオのチューニング音（"キュイ一"という音）と入れ替え、文の終端の不完全部分に当たる音声を、ホワイトノイズ ("ザ一"という音）と入れ替えることによって、「（キュイ一）は、 10部ずつコピーを用意して (ザ一）」というような音を作ることができる。

[0064] また、不完全部分不明瞭ィ匕部 105は、 TVやラジオのインタビュー音声などで、音声を途中から引用する場合によく行われるように、不明瞭化された不完全部分を先行文，後続文に重ねて再生するような音声を出力してもよい。図 9に示されるような合成音レコード列 400が不完全部分不明瞭ィ匕部 105に与えられた場合を例に挙げて、図 10を参照しながら不完全部分不明瞭ィ匕部 105における処理を以下説明する。

[0065] 1)補完部分である「資料」の合成音 600bの音量を、不完全部分不明瞭ィ匕部 105 が備えるフエーダ部 601を用いて元の音量の 10%に下げる。

2)同じくフエーダ部 601を用いて、補完部分に後続する「は、 10部ずつコピーを用意して」の合成音 600cの先頭部分に対し、元の音量の 10%力も元の音量の 100% まで 1秒で変化するようなフェードイン処理を加える。

3)不完全部分不明瞭ィ匕部 105が備えるミキサ部 602を用いて、補完部分である「資料」の合成音 600bが、先行文である「第三チームの齋藤です」の合成音 600aの終端に重なり、連続して「は、 10部ずつコピーを用意して」の合成音 600cが流れるようなミキシング処理及び連結処理を行い、出力音声 603を生成する。本図では、合成音 600aの処理結果は、出力音声 603の aの区間に、合成音 600bの処理結果は、 a の区間と重なる bの区間に、合成音 600cの処理結果は、 a及び bに後続する cの区間に含まれる様子が示されてヽる。

[0066] 以上のような方法を用いることで、ユーザが既に TVやラジオのインタビュー音声などで馴染みのある手法での引用文読み上げが可能となる。

[0067] なお、不完全部分不明瞭ィ匕部 105は、入力される音声の音量を操作するだけでなぐ適切な割合でノイズ音をミキシングしてもよい。例えば上に挙げた処理の例において、あら力じめ所定の音量のホワイトノイズ音データを用意しておき、それを合成音 6 OObに対し元の音量の 90%で、合成音 600cの先頭 1秒部分に対して元の音量の 9 0%力 0%まで減少するようなミキシングを行なう。このような処理により、合成音 600 aの末尾に合成音 600bが小さな音量かつ大きな割合のノイズと共にミキシングされ始め、合成音 600a部分の再生が終了すると共に後続する合成音 600cの音が段々大きくなり、ミキシングされたノイズの割合も小さくなつていくような音声を作成することができる。

[0068] また、不完全部分不明瞭ィ匕部 105は、検出された不完全部分の音声を削除するようにしてもよい。不完全部分を削除することによって、引用元の文から不完全な引用力 Sされていたということはユーザに伝わらなくなる力ユーザは引用文の中力も言語的に完全な部分だけを聞くことができるようになるため、理解しやすくなる。

[0069] また、不完全部分を削除する場合は、不完全部分の文字を不完全部分検出部 10 3によって削除した上で、音声合成部 104に合成音を生成させるようにしてもよい。このようにすると、元の完全な文の音声を生成した後に一部を削除するのと違い、あら力じめ一部を削除済みの文を完全な文として音声を生成するため、違う韻律になることが考えられる。しかし、音声合成部 104の出力結果をそのままスピーカ装置 106に再生させればよくなるため、不完全部分不明瞭化部 105が不要となり、音声合成装置の構成を単純ィ匕することができるという利点を有する。

[0070] また、不完全部分の補完を行って完全な文にした後、不完全部分の不明瞭化処理を全く行わないようにしてもよい。この場合、ユーザの聞く音声は冗長なものとなるものの、ユーザが聞く文章は、常に欠落の無い完全なものであることが保証されるという利点を有する。

[0071] (実施の形態 2)

次に、本発明の実施の形態 2に係る音声合成装置について説明する。

[0072] 本実施の形態 2に係る音声合成装置は、前記実施の形態 1に係る音声合成装置 1

0における、音声合成部 104及び不完全部分不明瞭化部 105に関する変形例である。

[0073] 図 11は、本実施の形態 2に係る音声合成装置の機能的な構成を示すブロック図である。なお、実施の形態 1と同じ構成は、同一の符号を用いて示し、その説明を省略する。

[0074] 音声合成装置 20における音声合成部 104aは、音声波形データではなく音響特徴パラメータ列の形で音声素片を格納する音声素片パラメータデータベース (DB) 702 を備え、素片選択部 1701が、この音声素片パラメータ DB702に格納されている音声素片を選択し、素片結合部 1703が、音声データの形式ではなく音声特徴パラメータの形式で合成音の出力を行う点で、上記実施の形態 1と異なる。

[0075] また、この出力を音声の形式に変換するために、本実施の形態 2に係る音声合成装置 20は、音声特徴パラメータ力音声波形を生成する波形生成部 700を備える。波形生成部 700の構成は、本装置が採用する音声特徴パラメータセットによって異なるが、例えば、 ARX音声分析モデルに基づく方法（「大塚，粕谷，〃音源パルス列を考慮した頑健な ARX音声分析法〃，日本音響学会誌， vol. 58, no. 7, 386— 39 7 (2002)」参照。）を用いることができる。この場合、音声素片パラメータ DB702内の各音声素片の音響特徴パラメータは、 ARX音声分析モデルの音源 ·声道パラメータとなる。

[0076] この本実施の形態 2に係る音声合成装置 20によれば、不完全部分不明瞭化部 10 5において、音声波形データではなく音声特徴パラメータ値に変更を加えることができるため、より柔軟に聴覚的明瞭度を下げる処理を行なうことができるという効果を奏する。例えば、音声合成部 104aが出力する音声特徴パラメータに音声のフォルマント強度を表すパラメータがある場合、フォルマント強度を下げることによって音韻性のはっきりしない、くぐもった声色に変形することができる。また、ここで、さらに高度な声質変換の技術を使用可能な場合は、ささやき声や、かすれ声に変換する等してもよい。

[0077] (実施の形態 3)

続いて、本発明の実施の形態 3に係る音声合成装置について説明する。

[0078] 本実施の形態 3に係る音声合成装置と前記実施の形態 1との差異は、本実施の形態 3では、音声の声質を通常の喋り方力ささやき声にすることによって不完全部分の不明瞭ィ匕を行う点にある。

[0079] また、本実施の形態 3に係る音声合成装置と前記実施の形態 2との差異は、前記実施の形態 2では音声合成部 104aの出力した音響特徴パラメータ列を変形することによって音声をささやき声にする等の不明瞭ィ匕処理を行うとしたが、本実施の形態 3では、音声合成部が複数の音声素片データベース (DB)を備え、それらを切り替えて使うことによって通常の喋り方の声と、ささやき声とを使い分ける点にある。

[0080] 図 12は、本実施の形態 3に係る音声合成装置の機能的な構成を示すブロック図である。なお、上記実施の形態 1および 2と同一の構成は、同一の符号を用いて示し、その説明を省略する。

[0081] まず、電子メールテキスト 100、メールボックス 107の役割と、引用構造解析部 101 、電子メールテキスト整形部 102、不完全部分検出部 103の動作は前記実施の形態 1と同様である。

[0082] 音声合成部 104bは、不完全部分検出部 103の処理結果を受け取り、合成音を生成してスピーカ装置 106に再生出力させる。この構成では、不完全部分不明瞭化部 105が音声合成部 104の一部として働く点が前記実施の形態 1と異なる。

[0083] ここで、図 13を用いて、本実施の形態 3の音声合成部 104bにおける素片選択部 1 701、不完全部分不明瞭ィ匕部 105等の処理を説明する。

[0084] 素片選択部 1701は、韻律生成部 1704から出力される韻律付き音素表記テキスト 1900の情報を元に、最適な音声素片データを音声素片 DB1702aまたは音声素片 DB1702bより取得する。音声素片 DB1702aは、通常の声質の音声素片を格納し、音声素片 DB1702bは、ささやき声の音声素片を格納している。このように、音声素片を格納するデータベースは、少なくとも 2種類が用意されており、素片選択部 1701 は、不完全部分不明瞭化部 105を通して、これら複数の音声素片 DB1702aおよび 1702bから最適な音声素片データを取得する。

[0085] 不完全部分不明瞭ィ匕部 105は、選択しょうとしている音素が不完全部分に含まれるものであれば、ささやき声の音声素片 DB1702bから、それ以外の場合は通常の声質の音声素片 DB1702aから素片選択部 1701の要求に該当する音声素片データを読み出して素片選択部 1701に渡す。

[0086] なお、不完全部分不明瞭化部 105は、音声素片をいずれかの音声素片 DB1702a および 1702bから 1つずつ選び出すだけでなぐ複数の音声素片 DB1702aおよび 1702bから最適な音声素片データを 1つずつ選択して、ミキシングを行うことによって選択した音声素片データの中間的な声質を持つ音声素片データを新たに生成することちでさる。

[0087] さらに、前記実施の形態 1において音量を制御してフェードイン 'フェードアウト処理を行ったように、ミキシングの比率を制御することで音声の明瞭さを連続的に変化させるようにしてちょい。

[0088] また、音声素片データを単純にミキシングするだけではなぐ音声モーフイングと呼ばれる手法を用いることによってさらに良好な結果を得ることができる。なお、音声モーフイングの手法を用いた音声の声質制御手法は、例えば、特開平 9— 50295号公報や、「阿部，〃基本周波数とスペクトルの漸次変形による音声モーフイング"，日本音響学会平成 7年度秋季研究発表会講演論文集 I, 213— 214 (1995)」に開示されている。

[0089] 以上の方法で音声素片の選択を行った後、前記実施の形態 1と同様にして生成される音声データをスピーカ装置 106で再生出力することにより、不完全部分の不明瞭化を、ささやき声に声質を変更することによって行う音声合成装置が実現できる。

[0090] (実施の形態 4)

さらに、本発明の実施の形態 4に係る音声合成装置について、図 14〜17を参照しながら説明する。

[0091] 上記実施の形態 1〜3では、テキスト情報として、電子メールによる通信内容であるテキストを扱う場合を説明したが、本実施の形態 4では、テキスト情報として、チャットによる通信内容であるメッセージを扱う場合の音声合成装置について説明する。

[0092] 図 14は、本実施の形態 4に係る音声合成装置の機能的な構成を示すブロック図である。なお、実施の形態 1〜3と同じ構成は、同一の符号を用いて説明を省略する。

[0093] 図 14に示すように、本実施の形態 4に係る音声合成装置 40では、電子メールテキスト 100の代わりにチャットのメッセージテキスト 900を読み上げの対象とする。チヤットメッセージテキスト 900は、一般に電子メールテキストよりも単純な形式をして！/ヽる。

[0094] 例えば、図 15に示されるように、チャットメッセージテキスト 900としては、受信時刻とメッセージの送信者名に続いて、メッセージの内容が平文で書かれているような構成が考えられる。

[0095] そして、受信 '送信したチャットメッセージテキスト 900は、メッセージログ 903に蓄積され、不完全部分検出部 103から参照可能となっている。

[0096] 引用構造解析部 101は、前記実施の形態 1と類似の方法を用いてチャットメッセ一ジテキスト 900の引用構造を解析する。図 16を用いて、引用構造解析部 101の処理動作を説明する。引用構造解析部 101の処理動作は、例えば、以下のようにすればよい。

[0097] 1)チャットメッセージの先頭力も文字列を読み、 [] (角括弧)で囲まれた受信時刻と送信者名を得て、受信時刻をく time >タグで、送信者名をく sender >タグで囲つて切り離す。

2)現在の行の先頭にある弓 I用記号の数を数え、弓 I用記号の数のタグで置換する。例えば、引用記号力^つある場合はく 1 >、 2つある場合はく 2>、引用記号が無い (引用部分でない)場合はく 0>を引用記号の代わりに付与する。ただし、この時点ではまだタグを閉じない。以下、この引用記号の数のタグを「引用タグ」と記述し、引用記号の数を引用レベルと記述する。

3)現在の行がチャットメッセージテキスト 900の最後の行であれば、引用タグを閉じて終了する。例えば、現在の行が引用部分でなければ、行末にく 70>を追加してこのァノレゴリズムを終了する。

4)次の行へと読み進める。 5)直前の行と現在の行の引用記号の数が違うか、現在の行が空行である力現在の行が「（中略)」や「：」などの元の文の省略を意味する文字列である力現在の行と直前の行のインデントの数が違う場合、 7)へ進む。

6)行頭の引用記号を削り、 3)へ進む。

7)直前の行を引用タグで閉じ、 2)へ進む。

[0098] 以上、 1)〜7)の手順によって生成される引用構造解析済みテキスト 1100は次のようなものである。

[0099] 'メッセージテキストの頭に、 < time >タグで囲まれた受信時刻情報と < sender > タグで囲まれた送信者名が存在し、その後に元のチャットメッセージテキスト 900の本文部分が存在する。

[0100] さらに、メッセージテキスト整形部 902は、引用構造解析済みテキスト 1100を処理し、整形済みテキスト 1101を生成する。メッセージテキスト整形部 902は、以下のようにして、整形済みテキスト 1101を生成する。

[0101] 1)く time >タグを破棄する。なお、受信時刻の読み上げを行う場合には残しておいてもよい。

2)本文部分に関して、各引用タグ内の文章から改行や空白文字を削って一行のテキストにした上、句点で文を切り分ける。

[0102] 不完全部分検出部 103は、メッセージテキスト整形部 902によって生成された整形済みテキスト 1101を受け取り、メッセージログ 903に蓄積されている過去のチャットメッセージテキストの本文と照合を行って、引用レベルが 1以上の各引用タグ内の先頭及び末尾の文が最初に現れるチャットメッセージを探し、引用文が完全であったかどうか、即ち各引用文が引用元の文に対して文字列の欠落が無いかどうかを文字列マツチングにより判定する。さらに、引用文が不完全であった場合には元の完全な文で置換を行った上で、元の完全な文のうち、どの部分が引用文に含まれている力識別可能にする。

[0103] 本実施の形態 4に係る音声合成装置 40で、不完全部分検出部 103が行う処理は、前記実施の形態 1に記載の処理を簡略ィ匕したものである。本実施の形態 4における、前記実施の形態 1に記載の処理との相違点を以下に列挙する。

[0104] ·本実施の形態 4では、メッセージログ 903に蓄積された過去のチャットメッセージテキストは単純なリスト構造をしてヽるため、前記実施の形態 1で行って、たスレッド構造の解析は不要である。最新のメッセージ力も遡って 10個程度のチャットメッセージテキストに対して、本文部分の弓 I用部分以外のテキストにつ、て文字列マッチングにより引用元の文を検索すればよい。

[0105] ·チャットメッセージの読み上げにおいては、電子メールよりも各メッセージの内容が短くかつメッセージの交換が頻繁であるため、「〇〇さんよりメッセージです」というような報知メッセージは冗長である。代わりに、各メッセージが誰からのものであるかを送信者ごとに合成音の声色を変えることで表現する。これは、例えばあらかじめ音声合成用の素片データベースを複数の声色用に作っておき、話者ごとに別の素片データベースを使用することによって実現できる。さらに、引用部分の声色も元の送信者の声色で読み上げを行うために、く c >タグの中に「sender=送信者」と、うプロパティを設けておき、元の不完全部分検出部がメッセージログ 903から発見した、引用文の元のチャットメッセージテキストの送信者名を書き込んでおくようにすればよい。

[0106] 音声合成部 104は、このようにして生成された不完全部分検出済みテキスト 1200 を先頭から一文ずつ処理して、合成音を生成し、不完全部分不明瞭化部 105に出力する。合成音の声色はメッセージの送信者に特有に割り当てられたものを使用し、 < c >タグの中に senderプロパティがある場合はその送信者の声色を用いる。 sende rプロパティが無い場合、即ち引用元が見付力もな力つた場合は、今読み上げようとしてヽるメッセージの送信者以外で、最後にメッセージを送信した送信者の声色を用いるとすればよい。

[0107] 図 17では、今読み上げようとしているメッセージの送信者が suzukiで、 suzuki以外の送信したメッセージで最新のものは saitoのものなので、もし不完全部分検出済みテキスト 1200の < c >タグに senderプロパティが無かったとすると、 < c >タグに囲まれた部分の合成音は saitoに割り当てられた声色を用いることになる。

[0108] 不完全部分不明瞭ィ匕部 105は、前記実施の形態 1と同様の処理を行えばよいので説明を省略する。

[0109] 以上のような方法を用いることによって、ユーザにとって聞きやすぐかつ会話の流れを阻害しないようなチャットメッセージテキストの読み上げを行うことが可能な音声合成装置を実現することができる。

[0110] (実施の形態 5)

続いて、本発明の実施の形態 5に係る音声合成装置について説明する。

[0111] 上記実施の形態 1〜3では、テキスト情報として、電子メールテキストを扱う場合を説明し、上記実施の形態 4では、テキスト情報として、チャットメッセージを扱う場合を説明したが、本実施の形態 5では、テキスト情報として、ネット-ユースによる通信内容である投稿メッセージを扱う場合の音声合成装置について説明する。

[0112] 本実施の形態 5に係る音声合成装置は、前記実施の形態 1と、ほぼ同一の処理を行うものであるが、図 18に示されるように、本実施の形態 5に係る音声合成装置 50と前記実施の形態 1との構成上の差異は、入力の電子メールテキスト 100が-ユーステキスト 1300になっている点、電子メールテキスト整形部 102が-ユーステキスト整形部 1301になっている点、メールボックス 107が既読-ユースログ 1302になっている点、そして、不完全部分検出部 103が既読-ユースログ 1302に加え、ニュースクライアント 1303及びネットワーク 1304を通して接続できる-ユースサーバ 1305から全- ユースログ 1306にもアクセスして、不完全部分の検出を行うことができる点にある。以下、本実施の形態 5に係る音声合成装置 50の、前記実施の形態 1との動作上の差異について説明する。

[0113] ニューステキスト 1300は、電子メールテキスト 100と同じぐ Fromフィールド ' Subje ctフィールド ·Ιη— Reply— Toフィールド 'Referencesフィールド等によって構成され、「一一」（半角マイナス記号 2つ）という行によって本文と分けられるヘッダ部分と、それに続く本文部分力も成る。引用構造解析部 101及び-ユーステキスト整形部 13 01は、前記実施の形態 1における弓 I用構造解析部 101及び電子メールテキスト整形部 102と同様の処理を行えばよい。

[0114] 不完全部分検出部 103は、既読-ユースログ 1302から-ユーステキスト 1300と同一スレッドの過去の-ユーステキストを取得して、前記実施の形態 1と同様の処理によつて引用文の引用元の文を検索する。ただし、ニューステキスト 1300のヘッダ部分の Referencesフィールドに現れる-ユーステキストが既読-ユースログ 1302内に存在しない場合は、ニュースクライアント 1303を利用して、ネットワーク 1304で接続された-ユースサーバ 1305の持つ全-ユースログ 1306力ら、該当する-ユーステキストを取得するようにしてもよい。ニューステキストの取得は、既存の-ユースクライアントの動作と同様の手順によって行われる。

[0115] 音声合成部 104及び不完全部分不明瞭ィ匕部 105の動作は、前記実施の形態 1と同様である。

[0116] 以上の処理によって、前記実施の形態 1と同様の効果を、ネット-ユーステキストの読み上げに際しても得ることができる。

[0117] (実施の形態 6)

さらに続いて、本発明の実施の形態 6に係る音声合成装置について説明する。

[0118] 本実施の形態 6では、テキスト情報として、ネットワーク上の掲示板への投稿メッセージを扱う場合の音声合成装置について説明する。

[0119] 図 19は、本実施の形態 6に係る音声合成装置の機能的な構成を示すブロック図である。

[0120] 前記実施の形態 1〜5の場合と異なり、掲示板メッセージテキストは、それぞれのメッセージが分割された独立の構成を有していない。そのため、本実施の形態 6に係る音声合成装置 60では、読み上げ対象となる掲示板メッセージテキスト 1400や、不完全部分検出部 103が参照するための過去の各掲示板メッセージテキストを、その都度、掲示板メッセージテキストを格納する掲示板メッセージログ 1401から抽出する必要がある。掲示板メッセージテキスト抽出部 1402が、この抽出処理を行なう。以下では、掲示板メッセージテキスト抽出部 1402の抽出処理の動作を、図 20を用いて説明する。

[0121] 図 20の例に示されるように、掲示板メッセージログ 1401は、 WWWブラウザで閲覧可能なように HTML(HyperText Markup Language)で記述されており、次のような形式をしている。

[0122] ·全体がく html >タグで、ヘッダ部分がく head >タグで、本文部分がく body >タグで囲まれている。

•ヘッダ部分内のく title >タグで囲まれた中に、掲示板のタイトルが書かれて、る。 •本文部分内にはく ul>タグがあり、各々の投稿がく li>タグによって列挙されている。

'各々の投稿は一行目に固定フォーマットで記事の連番、投稿者名、投稿時刻が記入されており、 < br>タグによって改行された後、残りの部分にはこの投稿の本文が記述されている。

[0123] このような形式の HTMLドキュメントを、掲示板メッセージテキスト抽出部 1402は次のように処理する。

[0124] 1)く body >タグで囲まれた中の、さらにく ul>タグで囲まれた中のテキストを切り出す。

2) 1)で切り出した範囲のテキストを、く li>タグの位置でそれぞれの投稿に分割する。

[0125] このようにして分割したそれぞれの投稿のテキストを、分割済み掲示板メッセージテキスト 1500とする。この掲示板の最新メッセージを読み上げるときは、例えば次のようにすればよい。

[0126] 1)掲示板メッセージテキスト抽出部 1402が、読み上げ対象の掲示板メッセージテキスト 1400として、分割済み掲示板メッセージテキスト 1500から最新のメッセージを抽出し、引用構造解析部 101に渡す。

2)引用構造解析部 101は、掲示板メッセージテキスト 1400のく body >タグで囲まれた部分を、前記実施の形態 1と同様の方法で処理して弓 I用タグを付与する。

3)掲示板メッセージテキスト整形部 1403は、図 21に示すように、 2)で処理された結果として生成される弓 I用構造解析済みテキスト 1600の 1行目から記事の連番と投稿者名を読み上げる文章を生成してく header>タグで囲み、 2行目以降をく body >タグで囲んで整形済みテキスト 1601とする。

4)不完全部分検出部 103は、整形済みテキスト 1601に含まれる引用文を分割済み掲示板メッセージテキスト 1500の中の読み上げ対象の掲示板メッセージテキスト 1 400以前のものから前記実施の形態 1と同様の方法で検索し、欠落した文字列の補完を行う。

5)音声合成部 104及び不完全部分不明瞭化部 105は、前記実施の形態 1と同様の処理を行い、合成音の生成と再生を行う。

[0127] 以上の処理によって、前記実施の形態 1と同様の効果を、 HTML形式で書かれた、 WWW上の掲示板の読み上げに際しても得ることができる。

[0128] 以上、本発明に係る音声合成装置について各実施の形態に基づいて説明した。

このように、本発明に係る音声合成装置は、テキストの入力を元に合成音声データを生成する音声合成部に加え、文章の不完全部分を検出することができる不完全部分検出部と、前記音声合成部の生成する音声データにおいて、前記不完全部分検出部が検出した不完全部分に対応する部分の聴覚的明瞭度を下げる不完全部分不明瞭ィ匕部を備えることを特徴とする。

[0129] すなわち、まず前記不完全部分検出部が、音声合成の元となる入力テキストのうち、言語的な不完全部分を解析して、その解析結果を前記音声合成部に送る。このとき、不完全部分検出部は、構文解析結果をも送るようにすれば、前記音声合成部が再度構文解析を行わずとも合成音の生成を行えるため望ましい。音声合成部は、前記入力テキストの言語的な解析結果を元にして合成音を生成し、もし不完全部分が存在する場合は、生成した合成音のどの部分が前記不完全部分に対応するかとヽぅ不完全部分ポインタ情報をも出力して前記不完全部不明瞭化部に送る。不完全部分不明瞭化部は、合成音の中で前記不完全部分ポインタ情報の示す部分の聴覚的明瞭度を下げる処理を行い、前記入力テキストの読み上げ音声データとして出力する。

[0130] これによつて、言語的に意味のある部分を通常どおりに読み上げつつ、意味をなさない部分の音声の聴覚的明瞭度を下げるので、ユーザの混乱を招くことを防止することができる。

[0131] ここで、前記音声合成部は、合成音そのものではなぐ合成音を生成するために必要十分な音声特徴パラメータを出力するようにしてもょ、。そのような音声特徴パラメータとは、例えばソース'フィルタ型音声生成モデルにおけるモデルパラメータや、 L PCケプストラム係数と音源モデルパラメータのことである。このようにして、合成音データではなく、合成音データを生成する手前の音声特徴パラメータを前記不完全部分不明瞭ィ匕部による調整を可能にすることで、より柔軟に不完全部分の不明瞭ィ匕処理を行うことができるようになる。

[0132] また、前記不完全部分検出部による言語解析処理の内容が、前記音声合成部が合成音を生成するために必要とする言語解析処理の内容を含む場合、前記音声合成部は、前記入力テキストと前記不完全部分検出部による言語解析結果を入力とするのではなぐ前記不完全部分検出部が前記入力テキストを解析した結果得られる言語解析結果のみを入力としてもよい。

[0133] また、前記不完全部分検出部が前記音声合成部に言語解析結果を渡さない場合でも、前記音声合成部は、前記入力テキストに前記不完全部分の検出結果を埋め込んで音声合成部に渡すようにすることができる。例えば、入力テキスト内の不完全部分を全てタグで囲んだ上で音声合成部に渡すことで、音声合成部は入力テキストの情報と不完全部分の検出結果の両方を不完全部分検出部から得ることができる。これによって、音声合成部が別々に与えられる 2種類の入力の同期を取る必要が無くなる。

[0134] また、前記不完全部分不明瞭化部は、不完全部分の音声にノイズを重畳したり、不完全部分の音声の音量を小さくしたりといった音響効果を加えることによって不完全部分の音声の明瞭度を下げることができる。これにより、言語的に不完全であるために正確な読み上げが不可能な不完全部分が読み上げ対象のテキスト内に存在することをユーザに明示することができる。

[0135] また、前記不完全部分不明瞭化部は、音声の不明瞭化の度合いを時系列的に変ィ匕させるようにしてもよい。行頭の不完全部分については、音声の先頭で不明瞭化の度合いを最大にしておき、不完全部分の終端で不明瞭ィ匕の度合いが最小になるように、不明瞭ィ匕の度合いを時系列的に減少させる。行末の不完全部分については、逆に不明瞭ィ匕の度合いを時系列的に増加させる。これによつて、ユーザに、より自然に合成音を聞こえさせることができるようになる。

[0136] また、音声の不明瞭ィ匕を行うのは必ずしも不完全部分だけでなくても良ぐある時定数を設けて、その時定数の間だけ音声を不明瞭ィ匕するようにしてもよいし、不完全部分を含めて少なくともその時定数の間は音声を不明瞭ィ匕するような処理を行ってもよい。不明瞭ィ匕の度合いを時系列的に変化させる場合、このような処理を行うことによつて不完全部分の長さが短い場合でも不明瞭ィ匕の度合いの変化が急激すぎないようにすることができ、聴感上の自然性をさらに高めることができる。

[0137] また、読み上げ対象のテキストがメール文である場合には、メール文の引用構造を解析して引用されたテキストを文単位で切り分ける引用構造解析部を用意しておき、さらに過去に送受信したメール文を蓄積したメールボックスと、メールボックスにァクセスして過去のメール文の中力ある不完全な文を含む元の完全な文を検索することができる完全文検索部を用意することで、不完全な文を一旦元の完全な文で置き換えて正しく言語解析し、本来の正、韻律で読み上げることができるようになる。

[0138] ここで、前記音声合成部は、前記完全文検索部が発見した元の完全な文を全て音声合成して出力しても良いし、元の完全な文の音声合成結果から、引用されたテキストの部分のみを出力するようにしても良い。また、あら力じめ所定の時定数を設けて、引用された文の不明瞭ィ匕処理を受ける部分が最大でその時定数の長さになるように、元の完全な文の音声合成結果から切り出して出力するようにしても良、。

[0139] また、読み上げの対象があるテキストの一部であり、読み上げ対象のテキストを含む元の完全なテキストを取得することが可能な場合は、元の完全なテキストを取得する完全文取得部を用意することによって同様の効果を得られる。

[0140] なお、本発明は、これらの実施の形態に限定されるものではなぐその範囲を逸脱することなく本発明の趣旨に沿って様々の変形または修正が可能であることはいうまでもない。

産業上の利用可能性

[0141] 本発明は、音声合成技術を用いて電子メール等のテキストデータを読み上げるテキスト読み上げアプリケーション等や、このようなアプリケーションを備えたパーソナルコンピュータ等に適用することができ、特に、読み上げの対象となる文章中に不完全な文が現れる可能性が高いテキストデータの読み上げ用途に対して有用である。

Claims

請求の範囲

[1] 入力されたテキスト情報に対応する合成音を生成する音声合成装置であって、前記テキスト情報のうち、文字列の欠落による言語的に不完全な部分である不完全部分を検出する不完全部分検出手段と、

前記不完全部分検出手段によって検出された不完全部分に対応する合成音の聴覚的明瞭度を下げる不完全部分不明瞭ィ匕手段とを備える

ことを特徴とする音声合成装置。

[2] 前記不完全部分不明瞭化手段は、

(1)前記合成音の音量を下げる、（2)前記合成音に所定の効果音を被せる、 (3) 前記合成音の声質を変更する、の少なくとも 1つの音響効果を前記合成音に加えることによって、前記合成音の聴覚的明瞭度を下げる

ことを特徴とする請求項 1記載の音声合成装置。

[3] 前記不完全部分不明瞭化手段は、前記合成音に加える音響効果の度合いを経時的に変化させる

ことを特徴とする請求項 1記載の音声合成装置。

[4] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段が前記テキスト情報に含まれる文章の先頭に前記不完全部分を検出した場合に、対応する合成音に加える音響効果の度合いを、経時的に小さくしていく

ことを特徴とする請求項 3記載の音声合成装置。

[5] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段が前記テキスト情報に含まれる文章の終端に前記不完全部分を検出した場合に、対応する合成音に加える音響効果の度合いを、経時的に大きくしていく

ことを特徴とする請求項 3記載の音声合成装置。

[6] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段において検出された不完全部分に対応する合成音のうち、所定の時間分の合成音について、聴覚的明瞭度を下げる

ことを特徴とする請求項 1記載の音声合成装置。

[7] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段において検出された不完全部分に対応する合成音を削除する

ことを特徴とする請求項 1記載の音声合成装置。

[8] 前記不完全部分検出手段は、前記テキスト情報を解析し、言語として意味をなさな Vヽ不完全な言語単位の部分文字列を特定し、当該部分文字列を不完全部分として検出する

ことを特徴とする請求項 1に記載の音声合成装置。

[9] 前記音声合成装置は、さらに、

前記テキスト情報の部分の指定を受け付ける部分指定受付手段を備え、前記不完全部分検出手段は、前記指定された部分の先頭及び終端の少なくとも一方において不完全部分を検出する

ことを特徴とする請求項 1記載の音声合成装置。

[10] 前記不完全部分検出手段は、前記不完全部分の識別子として、前記不完全部分をタグで囲む

ことを特徴とする請求項 1に記載の音声合成装置。

[11] 前記音声合成装置は、さらに、

前記検出された不完全部分にぉ、て欠落して、る文字列を補完する補完手段を備え

前記音声合成手段は、前記補完手段によって補完された後のテキスト情報に基づいて合成音を生成する

ことを特徴とする請求項 1記載の音声合成装置。

[12] 前記テキスト情報は、通信内容であり、

前記音声合成装置は、さらに、

過去の通信内容を蓄積するための記憶領域を有するログ蓄積手段を備え、前記不完全部分検出手段は、前記テキスト情報と、前記ログ蓄積手段に蓄積されている過去の通信内容とを対比して、前記テキスト情報の不完全部分を検出し、前記補完手段は、前記不完全部分検出手段の検出結果に基づいて、前記検出された不完全部分にぉ、て欠落して、る文字列を、前記ログ蓄積手段に蓄積されてヽる過去の通信内容を用、て補完することを特徴とする請求項 11記載の音声合成装置。

[13] 前記不完全部分検出手段は、さらに、前記テキスト情報において欠落している文字列を含む所定の言語単位の言語構造を解析し、当該欠落している文字列のみ、または、当該欠落して！/ヽる文字列を含む所定の言語単位を前記不完全部分として検出する

ことを特徴とする請求項 12記載の音声合成装置。

[14] 前記通信内容は、電子メールテキスト、チャットメッセージテキスト、ネット-ユース投稿メッセージテキスト、および、掲示板投稿メッセージテキストのいずれかであることを特徴とする請求項 12記載の音声合成装置。

[15] 入力されたテキスト情報に対応する合成音を生成する音声合成方法であって、前記テキスト情報の不完全部分に対応して、聴覚的明瞭度を下げた合成音を生成する音声合成ステップと、

前記聴覚的明瞭度を下げた合成音を出力する出力ステップとを含む

ことを特徴とする音声合成方法。

[16] 入力されたテキスト情報に対応する合成音を生成する音声合成装置のためのプログラムであって、

前記テキスト情報の不完全部分に対応して、聴覚的明瞭度を下げた合成音を生成する音声合成ステップと、

前記聴覚的明瞭度を下げた合成音を出力する出力ステップとをコンピュータに実行させる

ことを特徴とするプログラム。