WO1999060474A1

WO1999060474A1 - Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement

Info

Publication number: WO1999060474A1
Application number: PCT/JP1999/001760
Authority: WO
Inventors: Hitomi Baba; Takahiro Fukushima; Makiko Nakao; Momoko Kanda
Original assignee: Fujitsu Limited
Priority date: 1998-05-15
Filing date: 1999-04-02
Publication date: 1999-11-25
Also published as: EP1077403A4; JPH11327870A; US6397183B1; EP1077403A1

Description

明細書ドキュメント読み上げ装置、読み上げ制御方法および記録媒体技術分野

本発明は、コンピュータに入力されたドキュメントのテキスト文書を読み上げるドキュメント読み上げ装置および読み上げ制御方法に関する。背 j¾

従来のドキュメント読み上げ装置として、たとえば、特開平 8— 2 7 2 3 8 8 号公報に記載された装置が知られている。

この装置では、漢字かな混じりのテキストデータを合成音声にして出力する音声合成装置として、テキストデータに制御情報を組み込む組み込み手段と、前記制御情報に対応した音質で前記テキストデータに基づく音声を合成し出力する出力手段を備えている。

しかし、このような装置では、ある音質である部分を読み上げるようにするため、あらかじめテキストデータに制御情報を組み込む必要がある。

従って、たとえばインターネットにより、 H T M L文を読み込んだとき、その一部を男声で読み上げ、他の部分を女声で読み上げたい場合など、その所望の部分に制御情報をいちいちドキュメント中に書き込む必要があり、きわめて面倒であった。

本発明は、このような点に鑑みなされたもので、読み上げ条件を付与する制御情報をドキュメント中にいちいち組み込む必要のない技術を提供することを課題とする。発明の開示

本件発明は、 H T M L (Hyper Text Mark-up Language)文や、 R T F (Ri ch Tex t. Fi le)文などでは、音声の読み上げとは関係なく、あらかじめ、ドキュメント中のテキスト文についての修飾条件等を定める属性データ（以下、これをタグということがある）が含まれていることに着眼し、このタグを読み上げの制御情報として利用することに着眼したものである。

そこで、本発明のドキュメント読み上げ装置では、属性付きのドキュメントの内容を解析して、音声合成手段によりドキュメント中のテキスト部分を読み上げる装置において、前記属性は、読み上げ条件とは無関係に定められたものであり、ドキュメント全体に対する読み上げ条件を設定する基本読み上げ条件設定手段と、属性ごとに読み上げ条件を設定する個別読み上げ条件設定手段と、ドキュメント読み上げの際に、原則として前記基本読み上げ条件設定手段で設定した基本読み上げ条件を参照してテキスト部分を読み上げるとともに、個別読み上げ条件を有するテキスト部分では基本読み上げ条件に優先して個別読み上げ条件を参照して読み分ける、読み分け手段と、を備えたことを特徴とする。

ここで、前記読み上げ条件とは、少なくとも、読み上げ音声の音質（たとえば、声の高さ、男声、女声の区別）、音量（声の大きさ）、アクセント（声の抑揚や方言）、読み上げる '読み上げないことの選択、のいずれかである。たとえば、 H T M L文書で、「く h2〉本ホームページの紹介く/ h2〉」という文があつたすると、く h2></h2〉は、その間に存在する文字の表示時の大きさを指定するタグである。そこで、このく h2〉く/ h2〉に関連付けて、その間の文字を男声にて読むというようにする。

特に、個別読み上げ条件設定手段により属性ごとに設定される読み上げ条件は、前記属性の本来の意味と関連付けられ、読み上げた音声から、属性が指定する本来の意味を想起可能とするようにすることが好適である。

すなわち、前記〈h2X/h2〉は文字の大きさを示し、 h2は h3より大きく、 h iより小さく表示される c そこで、 h2で指定された文書を読み上げるとき、 h3より大きく、 h iより小さい音声で読み上げるようにすると、 H T M Lの取り決めに従った読み上げが可能であり、読み上げ音声を聞くだけで視覚上の文書を想起することが可能となる。

また、前記読み上げ条件を記憶しておく読み上げ条件記憶手段を備えることが好ましい。

本発明のドキュメント読み上げ装置では、ドキュメント全体に対する読み上げ条件を基本読み上げ条件設定手段で設定し、次いで、個別読み上げ条件設定手段と属性ごとに読み上げ条件を設定する。

ドキュメント読み上げの際に、特に指定のない部分では、原則として前記基本読み上げ条件設定手段で設定した基本読み上げ条件を参照してテキスト部分を読み上げる。

ドキュメント中のタグにより、さまざまな情報がわかる。 H T M Lの場合だと、ページのタイトル部、見出し、内容のテキスト、リンク、メール宛先他、いろいろなタグがドキュメント中に記述され、画面上では、タグに応じて文字サイズや色など書き分けられている。しかしながら、従来の読み上げ装置では、すべて同一の音声によって読み上げるため、これらの情報が欠落してしまう。本発明では、タグの本来の情報に対応して読み上げ条件を設定すれば、タグ情報を音声として確認できる。

なお、ドキュメントに付与される属性は、たとえば、ドキュメントの表示を制御するためのものである。また、ドキュメントに付与される属性は、たとえば、ドキュメントが H T M L文書である場合は、タグ情報である。

次に、本発明に係る読み上げ制御方法は、音声合成手段によるドキュメント中のテキスト部分の読み上げを制御する方法であって、前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定し、前記判定結果に基づいて前記属性により表示制御されるテキスト部分の読み上げ条件を変更することを特徴とする。

このような読み上げ制御方法では、属性の種類に応じて読み上げ条件を変更するようにしてもよレ、：

また、本発明に係る記録媒体は、音声合成手段によりドキュメント中のテキスト部分を読み上げさせるコンピュータに、前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定させる手順と、前記判定結果に基づいて前記属性により表示制御されるテキスト部分の読み上げ条件を変更させる手順とを実行させるプログラムを記録した記録媒体である。

このような記録媒体には、属性の種類に応じて読み上げ条件を変更する手順を実行させるプログラムがさらに記録されていてもよい。図面の簡単な説明

図 1は、本発明の構成例を示すブロック図

図 2は、読み上げ条件の設定例（固定値）を示す図

図 3は、読み上げ条件の設定例（基本設定から相対指定）を示す図

図 4は、基本読み上げ条件設定手段の一例を示す図

図 5は、個別読み上げ条件設定手段と、個別読み上げ O N · O F F指定手段を示した図

図 6は、読み上げ手順を示したフローチャート図

図 7は、読み上げ対象の一例として H T M L文の表示例を示した図

図 8は、図 7の読み上げ対象をソースデータとして示した図

図 9は、読み上げ条件のおすすめ設定パターンを示した図

図 1 0は、読み上げ対象テキスト情報を示した図

図 1 1は、読み上げ補助情報を示した図発明を実施するための最良の形態

図 1は、本発明の 1実施例の構成を示したものである。

本件発明は、プログラムにより構成され、このプログラムをコンピュータの C P U上で実行することにより、 C P U上に図 1の機能実現手段が実現される。図 1に示したように、フロッピー ·ディスクや C D— R O Mなどの記憶媒体や、インターネット等のメディアを介してコンピュータに読み込まれたドキュメント情報を管理するドキュメント管理手段 1が設けられている。

このドキュメント管理手段 1は、たとえば、 H T M L文や、 R T F文などのドキュメントの読み込みやダウンロードなどを行うソフトウエアである。

さらに、このドキュメント管理手段 1により、コンピュータに読み込まれたドキュメントを解析してその属性部分である「タグ」を検出する属性解析手段 2を備えている。そして、ドキュメント管理手段 1で読み込まれたドキュメントと属性解析手段 2で解析されたタグを、それぞれ読み上げ対象情報として管理する読み上げ対象情報管理手段 3が設けられている。一方、キーボードなどの入力手段からドキュメント全体に対する読み上げ条件を設定する基本読み上げ条件設定手段 4と、属性ごとに読み上げ条件を設定する個別読み上げ条件設定手段 5と、この個別読み上げ条件設定手段 5に含まれる概念ではあるが、個別読み上げ条件として特別に、指定した属性のテキスト文書について「読み上げる（ON) 」、「読み上げない（OF F) 」の設定を行う個別読み上げ ON · OF F指定手段 6とが設けられている。

さらに、基本読み上げ条件設定手段 4と、個別読み上げ条件設定手段 5と、個別読み上げ ON · OF F指定手段 6とで設定された各条件を管理し、基本読み上げ条件 I ZO手段 7と、個別読み上げ条件 I ΖΟ手段 8 と、個別読み上げ ON · OF F情報 I /〇手段 9を介して、読み上げ条件記憶手段 1 0としてのハードデイスクに、前記各条件を書き込み、あるいは、読み出す、基本読み上げ条件管理手段 1 1、個別読み上げ条件管理手段 1 2、個別読み上げ ON · OF F情報管理手段 1 3がそれぞれ設けられている。

次いで、ドキュメント読み上げの際に、基本読み上げ条件管理手段 1 1、個別読み上げ条件管理手段 1 2、個別読み上げ ON · OF F情報管理手段 1 3は、それぞれ、基本読み上げ条件 I /O手段 7と、個別読み上げ条件 I ZO手段 8 と、個別読み上げ〇N · 0 ？情報 1 0手段9を介して、読み上げ条件記憶手段 1 0としてのハードディスクから前記各条件を読み出し、音声合成手段 1 4へとその情報を送る。

音声合成手段 1 4は、前記読み上げ対象情報管理手段 3で管理しているドキュメント情報と、属性部分である「タグ」とを読み上げ対象とし、まず、前記基本読み上げ条件設定手段 4で設定した基本読み上げ条件を参照してテキスト部分を読み上げるとともに、個別読み上げ条件を有するテキスト部分では基本読み上げ条件に優先して個別読み上げ条件を参照して読み分ける、読み分け手段 1 5を備えている。

なお、読み上げの際に使用する音声合成手法は、従来より知られた手法を用いるので、ここでは特に言及しない。

ここで、図 2に、読み上げ条件を固定値で設定した場合の例を示す。図 2では、読み上げ条件として、声の大きさ、声の高さ、声の種類（男声，女声）、声の抑揚である。

そして、基本設定として、基本読み上げ条件設定手段 4により、声の大きさ、声の高さ、声の種類（男声 ·女声）、声の抑揚が図 2のように設定され、さらに、個別読み上げ条件設定手段 5により、タグ 1〜4について、それぞれ図 2に示した条件が設定される- 図 3は、図 2で示した固定値を、基本設定から相対指定した場合の図である。ここでは、基本設定値を標準にして、相対的に示した図である。

前記基本読み上げ条件設定手段 4と、個別読み上げ条件設定手段 5と、個別読み上げ〇N · O F F指定手段 6とは、具体的には図 4、図 5に示したような、入力画面から入力される：

図 4は、基本読み上げ条件設定手段 4による設定例である。図 5は、個別読み上げ条件設定手段 5と、個別読み上げ O N · O F F指定手段 6とによる設定を示す。ここでは、 H T M L文書の各タグの名前を読み分けの対象という欄 R 1に表示しており、この欄に表示した名前の実際のタグを欄 R 1の下の欄 R 2に表示するようになっている：欄 R l、 R 2の右には、読み分け対象であるタグについて、個々に読み上げるか否かを設定する個別読み上げ O N · O F F指定手段 6として、読み上げ指定をするチェックボックス R 3を備えている。さらに、チェックボックス R 3の下には、個別読み上げ条件設定手段 5として、声の大きさ、声の高さ、声の種類を設定する個別設定チェックボックス R 4が設けられ、個別設定チェックボックス R 4は、チェックボックス R 3力 S 「読む」とされた場合に活性化するようになつている _c

以上の設定において、タグごとの情報は図 2のように具体的値の設定でもよいし、図 3のような基本設定からの相対指定でもよい。図 2の場合は、基本設定に左右されることなく、タグごとの設定値が保持される利点があり、図 3の場合は、基本設定からの相対的指定で行うことができるため、具体的な数値を指示せずに「普通の部分よりは大きくて高い声で読むようにしょう」などという感覚的な指定が可能になる。これらの情報を用いて、図 1のドキュメント管理手段 1を用いて入手したドキュメントデータに対して、属性解析手段 2がタグの解析を行い、その結果を読み上げ対象データとして、音声合成手段 1 4に渡す。一方、先に指定してある基本読み上げ音声設定およびタグごとの読み上げ音声設定を用いて、音声合成手段 1 4は、指定された音声属性を用いて、与えられた読み上げ対象データを読み上げる。

この読み上げ手順を、図 6のフローチヤ一トに従って説明する。

この例は、図 7、図 8に示した HTML文書の読み上げの例である。図 7は H TML文書をブラウザで表示した例であり、図 8はそのソースデータである。この例では、すでに HTMLのタグごとの読み上げ音声の設定は済んでおり、ここでは、図 9に示した、おすすめパターンが設定されているものとする。このおすすめパターンは、標準モデルとして、読み上げ条件記憶手段 1 0にあらかじめ設定されたパターンである。

まず、ステップ 1 0 1で、ドキュメント管理手段 1によって図 8に示したソースデ一タをダウンロードして HTMLファイルとして読み込む。次に、 HTML 属性解析手段 2で、 H TM Lファイルのデータの冒頭より文字単位で解析を行う。データの中で、 "く" と ">" に挟まれた部分をタグと解釈し、読み分け対象のタグでなければ無視し、読み分け対象のタグであれば、図 1 0に示した読み上げ対象のテキストを読み上げ対象情報管理手段 3でメモリに格納するとともに (ステップ 1 0 3 ) 、図 1 1に示した読み上げ補助情報を読み上げ対象情報管理手段 3でメモリに格納する（ステップ 1 0 4 ) 。ここで、読み分け補助情報とは、読み上げ対象テキス：、情報での位置と声の設定情報である

図 8の場合、次のように処理される。

( 1 ) 声の初期設定として、声の設定テーブル（図 9) の「その他のタグ」欄に記載された情報 [男声、大きさ = 3，高さ = 3 ] を登録する。最初はこの状態で読む。

( 2) 1行目を処理する。〈h t m l〉タグは、読み上げ対象外なので、無視する。

(3 ) 2行目を処理する。〈h e a d〉タグは、読み上げ対象外なので、無視する c 次のく t i t 1 e〉タグは、声の設定テーブル（図 9 ) において、 [読み上げ O F F] のため、対応する〈/ t i t I e〉タグまで読み飛ばす。次の〈Z h e a d ) タグも読み上げ対象外なので無視する。 (4) 3行目を処理する。く b o d y〉タグは、読み上げ対象外なので、無視する。

(5) 4行目を処理する。〈b r〉タグは、読み上げ対象外なので、無視する。次の文章は、読み上げ対象として、「読み上げ対象テキスト情報」に追加登録する。

(6) 5行目を処理する。文章を読み上げ対象として追加登録する。

( 7) 6行目を処理する。く c o mm e n t ) タグは、声の設定テーブルで [読み上げ OF F] 設定なので、対応するく/c omm e n t；〉タグまで読み飛ばす。

(8) 7行目を処理する。く b r〉く c e n t e r〉の両タグを読み飛ばす。次のく ί o n t s i z e = 2〉により、声設定を、（男声、大きさ = 2、高さ = 3 ) に変更して、「読み上げ補助情報」に格納、また、く Z f o n t〉タグの終了までのテキストを読み上げ対象として追加登録する。

(9) 8行目も、同様に〈 f o n t s i z e = 5) に対応して（男声、大きさ = 5、高さ =4) に変更して「読み上げ補助情報」に格納、また、〈/ f o n t ) タグの終了までのテキストを読み上げ対象として登録する。

(1 0) 次に、声の設定を初期状態に戻して、（男声、大きさ = 3，高さ = 3) に戻して、テキストも登録。

(1 1 ) 9行目は、テキストのみ追加。〈b r〉タグは無視。

(1 2) 1 0行目は、「それには、」までを読み上げ対象テキスト情報に登録。次に

〈a h r e f ) に対応して、声の設定を初期状態に戻して、以降のテキストを登録。

( 1 3) 1 1行目はテキストのみ追加。く b r〉タグは無視。

( 1 4) 1 2、 1 3行目は、タグを無視して、終了。

この結果、「読み上げ対象テキスト情報」、「読み上げ補助情報」には、下記の情報が格納される。音声合成部は、これらの情報を解釈しながら、音声合成を行以上のように、読み分け手段 1 5によりドキュメントを構成するタグの情報を用いて、きめ細かい読み分けが可能となる。たとえば、 H T M Lの「見出し」部分のみ「読む」指定にしておけば、一般的には大事と思われる部分だけ抽出して読み上げることになる。また、フォントの大きいところは大きい声で読み上げ、小さいところは小さい声で読み上げるなどの指定も可能になるため、画面を見なくても、一様に読み上げたのでは伝わらない文章のニュアンスまで音声合成で読み上げることが可能になる。

<他の例 >

前記属性解析手段 2でドキュメント中のタグを解析することにより、さまざまな情報がわかる。 H T M Lの場合だと、ページのタイトル部、見出し、内容のテキスト、リンク、メール宛先他、いろいろなタグがドキュメント中に記述され、画面上では、タグに応じて文字サイズゃ色など書き分けられている。

そこで、これら情報に対応した読み上げ条件を、タグの意味内容に応じて、設定する。その設定をタグ対応であらかじめ図示しないテーブルに記憶しておけば、タグの解析ごとにテーブルを参照して、同一のタグは常に同一の音声で読み出したり、文字の大きさに対応して読み出し音声を大きくしたり小さくすることができるので、タグの本来の情報内容に対応して読み上げ条件を設定することができ、タグ情報を音声として確認できる。

本発明によれば、ドキュメントにあらかじめ設定してある属性情報をそのまま利用して、ドキュメントの読み分けが可能であり、読み分けのための属性情報をドキュメント中にいちいち設定する必要がない。

そして、個別読み上げ条件設定手段 5により属性ごとに設定される読み上げ条件が、前記属性の本来の意味と関連付けた場合、読み上げた音声から、属性が指定する本来の意味を想起可能であり、音声によりドキュメントの読み上げ内容を視覚的に理解できる c 産業上の利用可能性

パーソナルコンピュ一タ、ヮードプロセッサ等のテキストデータを极うことのできる情報処理装置や、 H T M L文書を扱うことのできるィンターネット端末に利用可能である。

Claims

請求の範囲

1 . 属性付きのドキュメントの内容を解析して、音声合成手段によりドキュメント中のテキスト部分を読み上げる装置において、

前記属性は、読み上げ条件とは無関係に定められたものであり、ドキュメント全体に対する読み上げ条件を設定する基本読み上げ条件設定手段と、

属性ごとに読み上げ条件を設定する個別読み上げ条件設定手段と、

ドキュメント読み上げの際に、原則として前記基本読み上げ条件設定手段で設定した基本読み上げ条件を参照してテキスト部分を読み上げるとともに、個別読み上げ条件を有するテキスト部分では基本読み上げ条件に優先して個別読み上げ条件を参照して読み分ける、読み分け手段と、

を備えたことを特徴とするドキュメント読み上げ装置。

2 . 前記読み上げ条件とは、少なくとも、読み上げ音声の音質、音量、ァクセント、読み上げる ·読み上げないことの選択、のいずれかであることを特徴とする請求項 1記載のドキュメント読み上げ装置。

3 . 個別読み上げ条件設定手段により属性ごとに設定される読み上げ条件は、前記属性の本来の意味と関連付けられ、読み上げた音声から、属性が指定する本来の意味を想起可能とすることを特徴とする請求項 1記載のドキュメント読み上げ

4 . 前記読み上げ条件を記憶しておく読み上げ条件記憶手段を備えたことを特徴とする請求項 1記載のドキュメント読み上げ装置。

5 . 前記属性は、前記ドキュメントの表示を制御するためのものであることを特徴とする請求項 1記載のドキュメント読み上げ装置。

6 . 前記ドキュメントは、 H T M L文書であり、前記属性はタグ情報であることを特徴とする請求項 1記載のドキュメント読み上げ装置。

7 . 音声合成手段によるドキュメント中のテキスト部分の読み上げを制御する方法であって、

前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定し、前記判定結果に基づいて前記属性により表示制御されるテキスト部分の読み上げ条件を変更することを特徴とする読み上げ制御方法。

8 . 前記属性の種類に応じて前記読み上げ条件を変更することを

特徴とする請求項 7記載の読み上げ制御方法。

9 . 音声合成手段によりドキュメント中のテキスト部分を読み上げさせるコンビユータに、

前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定させる手順と、

前記判定結果に基づいて前記属性により表示制御されるテキスト部分の読み上げ条件を変更させる手順と、

を実行させるプログラムを記録したコンピュータが読み取り可能な記録媒体。

1 0 . 前記属性の種類に応じて前記読み上げ条件を変更する手順を実行させる前記プロダラムを記録した請求項 9記載のコンピュータ読み取り可能な記録媒体。