WO1999060474A1 - Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement - Google Patents

Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement Download PDF

Info

Publication number
WO1999060474A1
WO1999060474A1 PCT/JP1999/001760 JP9901760W WO9960474A1 WO 1999060474 A1 WO1999060474 A1 WO 1999060474A1 JP 9901760 W JP9901760 W JP 9901760W WO 9960474 A1 WO9960474 A1 WO 9960474A1
Authority
WO
WIPO (PCT)
Prior art keywords
reading
document
attribute
read
aloud
Prior art date
Application number
PCT/JP1999/001760
Other languages
English (en)
French (fr)
Inventor
Hitomi Baba
Takahiro Fukushima
Makiko Nakao
Momoko Kanda
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to EP99910830A priority Critical patent/EP1077403A4/en
Publication of WO1999060474A1 publication Critical patent/WO1999060474A1/ja
Priority to US09/709,458 priority patent/US6397183B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to a document reading device and a reading control method for reading a text document of a document input to a computer.
  • a voice synthesizer that outputs text data mixed with kanji or kana as synthesized voice
  • a built-in means for incorporating control information into text data and a voice based on the text data with a sound quality corresponding to the control information Output means.
  • the present invention has been made in view of the above circumstances, and has as its object to provide a technique that does not need to incorporate control information for giving a reading condition into a document. Disclosure of the invention
  • the modification conditions for text sentences in the document are determined in advance, regardless of the reading of the voice. Focusing on the inclusion of attribute data (hereinafter, this may be referred to as a tag) that determines The focus is on using it as
  • a document reading device analyzes a content of a document with an attribute and reads out a text portion in the document by a speech synthesis unit, wherein the attribute is determined independently of a reading condition.
  • Basic reading condition setting means for setting the reading conditions for the entire document, individual reading condition setting means for setting the reading conditions for each attribute, and, in principle, the basic reading condition setting means for reading the document.
  • the reading conditions include, at least, the sound quality of the read voice (eg, pitch, male voice, female voice), volume (loudness of voice), accent (voice inflection and dialect), and voice 'Do not read aloud, either.
  • the sound quality of the read voice eg, pitch, male voice, female voice
  • volume volume
  • accent voice inflection and dialect
  • voice 'Do not read aloud either.
  • the h2> ⁇ / h2> is a tag that specifies the size of the characters that exist between them when displayed. It is. Therefore, we associate it with h2> h / h2> and read the characters in between using a male voice.
  • the reading condition set for each attribute by the individual reading condition setting means is associated with the original meaning of the attribute, and the original meaning specified by the attribute can be recalled from the read voice. Is preferred.
  • ⁇ h2X / h2> indicates the size of the character, and h2 is displayed larger than h3 and smaller than hi.c
  • the voice larger than h3 and smaller than hi If you read aloud with, it is possible to read aloud in accordance with the rules of HTML, and it is possible to recall a visual document just by listening to the reading voice.
  • a reading condition storage unit for storing the reading condition is provided.
  • the reading conditions for the entire document are set by the basic reading condition setting means, and then the individual reading condition setting means is set. And the reading conditions are set for each attribute.
  • the text portion is read out by referring to the basic reading conditions set by the basic reading condition setting means in principle, unless otherwise specified.
  • tags Various information can be found by the tags in the document.
  • tags In the case of HTML, various tags are described in the document, such as page titles, headings, content text, links, mail addresses, etc., and on the screen, font size, color, etc. according to the tags It is written separately.
  • all the information is read out using the same voice, so that such information is lost.
  • the tag information can be confirmed as voice.
  • the attribute assigned to the document is, for example, for controlling the display of the document.
  • the attribute given to the document is, for example, tag information when the document is an HTML document.
  • a reading control method is a method for controlling reading of a text portion in a document by a speech synthesis unit, and determines an attribute for controlling display of the document in the document.
  • a reading condition of a text portion controlled to be displayed by the attribute is changed based on the determination result.
  • the reading condition may be changed according to the type of the attribute.
  • the recording medium includes: a step of causing a computer that causes a text portion in a document to be read aloud by a voice synthesis unit to determine an attribute for controlling display of the document in the document; And changing a reading condition of a text portion controlled to be displayed by the attribute based on the attribute.
  • Such a recording medium may further store a program for executing a procedure for changing a reading condition according to the type of attribute.
  • FIG. 1 is a block diagram showing a configuration example of the present invention.
  • Figure 2 shows an example of setting the reading conditions (fixed value)
  • Figure 3 shows an example of setting the reading conditions (relative designation from basic settings)
  • Figure 4 shows an example of the basic reading condition setting means.
  • Figure 5 shows individual reading condition setting means and individual reading ON / OFF designation means.
  • Figure 6 is a flowchart showing the reading procedure
  • Figure 7 shows a display example of an H TML sentence as an example of a reading target.
  • Fig. 8 is a diagram showing the reading target of Fig. 7 as source data.
  • Figure 9 shows the recommended setting pattern for reading conditions.
  • Figure 10 shows the text information to be read out
  • FIG. 11 is a diagram showing auxiliary reading information.
  • FIG. 1 shows the configuration of one embodiment of the present invention.
  • the present invention is configured by a program, and by executing this program on the CPU of the computer, the function realizing means of FIG. 1 is realized on the CPU.
  • a document management means 1 for managing document information read into a computer via a storage medium such as a floppy disk or a CD-ROM or a medium such as the Internet is provided.
  • the document management means 1 is, for example, software for reading and downloading documents such as HTML and RTF sentences.
  • the document management means 1 is provided with an attribute analysis means 2 for analyzing a document read into a computer and detecting a "tag" as an attribute part thereof. Further, there is provided a reading target information managing unit 3 for managing the document read by the document managing unit 1 and the tag analyzed by the attribute analyzing unit 2 as reading target information.
  • basic reading condition setting means 4 for setting reading conditions for the entire document from an input means such as a keyboard, individual reading condition setting means 5 for setting reading conditions for each attribute, and individual reading condition setting means 5 are included.
  • individual reading ON / OFF specifying means for setting “reading (ON)” and “not reading (OF F)” for a text document with the specified attribute as an individual reading condition 6 are provided.
  • the basic reading condition setting means 4 manages the conditions set by the basic reading condition setting means 4, the individual reading condition setting means 5, and the individual reading ON / OF specifying means 6, and the basic reading condition I ZO means 7, Basic reading conditions for writing or reading the above conditions on a hard disk as reading condition storage means 10 via individual reading condition I ⁇ means 8 and individual reading ON / OFF information I / ⁇ means 9 Management means 11, individual reading condition management means 12, individual reading ON ⁇ OFF information management means 13 are provided.
  • the basic reading condition management means 11, the individual reading condition management means 12, the individual reading ON ⁇ OFF information management means 13 are respectively used for the basic reading condition I / O means 7.
  • individual reading conditions I ZO means 8 and individual reading ⁇ N ⁇ 0? The above conditions are read out from the hard disk as the reading condition storage means 10 via the information 10 means 9, and the information is sent to the speech synthesis means 14.
  • the voice synthesizing unit 14 sets the document information managed by the reading target information managing unit 3 and the attribute tag “tag” as the reading target, and first sets the basic information set by the basic reading condition setting unit 4.
  • a reading means 15 for reading out the text portion with reference to the reading conditions and reading out the text portion having the individual reading conditions by referring to the individual reading conditions prior to the basic reading conditions.
  • FIG. 2 shows an example in which the reading conditions are set to fixed values.
  • the reading conditions include the loudness of the voice, the pitch of the voice, the type of the voice (male and female), and the suppression of the voice. It is fried.
  • the basic reading condition setting means 4 sets the loudness of the voice, the pitch of the voice, the type of the voice (male voice / female voice), and the intonation of the voice as shown in FIG.
  • the condition shown in FIG. 2 is set for each of the tags 1 to 4 by the setting means 5-FIG. 3 is a diagram when the fixed values shown in FIG. 2 are specified relative to the basic settings.
  • the basic setting values are standardized, and the figures are relatively shown.
  • the basic reading condition setting means 4, the individual reading condition setting means 5, and the individual reading ⁇ N / OFF specifying means 6 are specifically described from an input screen as shown in FIGS. 4 and 5. Entered:
  • FIG. 4 shows a setting example of the basic reading condition setting means 4.
  • FIG. 5 shows the setting by the individual reading condition setting means 5 and the individual reading ON / OFF specifying means 6.
  • the name of each tag in the HTML document is displayed in the column R1 to be read separately, and the actual tag with the name displayed in this column is displayed in the column R2 below the column R1.
  • the individual reading ON / OFF specifying means 6 for setting whether or not to read the individual tags to be read separately is a check box R 3 for specifying the reading.
  • a check box R 3 for specifying the reading.
  • an individual setting check box R4 for setting the voice volume, voice pitch, and voice type is provided as individual reading condition setting means 5, and the individual setting check is provided below the check box R3, an individual setting check box R4 for setting the voice volume, voice pitch, and voice type is provided as individual reading condition setting means 5, and the individual setting check is provided.
  • box R 4 is, c and summer to activate when it is a checkbox R 3 force "read" S
  • the information for each tag may be set to specific values as shown in FIG. 2 or may be specified relative to the basic settings as shown in FIG.
  • the setting value for each tag is retained without being affected by the basic settings.
  • the attribute analysis unit 2 analyzes the tags of the document data obtained by using the document management unit 1 in Fig. 1, and the result is sent to the speech synthesis unit 14 as read-out target data. hand over.
  • the speech synthesis means 14 reads out the given data to be read out using the designated speech attribute.
  • This example is an example of reading out the HTML document shown in Figs.
  • Figure 7 shows an example of an HTML document displayed on a browser
  • Figure 8 shows the source data.
  • the reading voice for each HTML tag has already been set
  • the recommended pattern shown in Fig. 9 has been set here.
  • This recommended pattern is a pattern that is set in advance in the reading condition storage means 10 as a standard model.
  • step 101 the source data shown in FIG. 8 is downloaded by the document management means 1 and read as an HTML file.
  • the HTML attribute analysis means 2 analyzes the data of the HTML file in character units from the beginning. In the data, the part between "" and ">" is interpreted as a tag. If the tag is not a target tag, it is ignored. If the tag is a target tag, it is read as shown in Fig. 10.
  • the target text is stored in the memory by the reading target information management means 3 (step 103), and the auxiliary reading information shown in FIG. 11 is stored in the memory by the reading target information management means 3 (step 104).
  • the auxiliary reading information is the text to be read out, and the position and voice setting information in the information.
  • the speech synthesis unit performs speech synthesis while interpreting the above information, as described above.
  • fine-grained reading is possible. For example, if you specify "read” only for the "heading" part of HTML, you will generally extract only the parts that are considered important and read them out.
  • tags are described in the document, such as page titles, headings, content text, links, e-mail addresses, etc., and on the screen, font size, color, etc. are written according to tags. Have been.
  • the reading conditions corresponding to these information are set according to the meaning of the tag. If the settings are stored in advance in a table (not shown) corresponding to the tags, the same tag is always read out with the same voice by referring to the table for each analysis of the tag, or the voice is read out according to the character size. Since it is possible to make the tag larger or smaller, it is possible to set reading conditions corresponding to the original information content of the tag, and the tag information can be confirmed as audio.
  • the present invention it is possible to separate documents by using the attribute information set in advance in the document as it is, and it is not necessary to set attribute information for reading separately in the document.

Description

明 細 書 ドキュメント読み上げ装置、 読み上げ制御方法および記録媒体 技 術 分 野
本発明は、 コンピュータに入力されたドキュメン トのテキス ト文書を読み上げ る ドキュメント読み上げ装置および読み上げ制御方法に関する。 背 j¾
従来のドキュメント読み上げ装置として、 たとえば、 特開平 8— 2 7 2 3 8 8 号公報に記載された装置が知られている。
この装置では、 漢字かな混じりのテキス トデータを合成音声にして出力する音 声合成装置として、 テキス トデータに制御情報を組み込む組み込み手段と、 前記 制御情報に対応した音質で前記テキス トデータに基づく音声を合成し出力する出 力手段を備えている。
しかし、 このような装置では、 ある音質である部分を読み上げるようにするた め、 あらかじめテキス トデータに制御情報を組み込む必要がある。
従って、 たとえばインターネッ トにより、 H T M L文を読み込んだとき、 その 一部を男声で読み上げ、 他の部分を女声で読み上げたい場合など、 その所望の部 分に制御情報をいちいちドキュメント中に書き込む必要があり、 きわめて面倒で あった。
本発明は、 このような点に鑑みなされたもので、 読み上げ条件を付与する制御 情報をドキュメント中にいちいち組み込む必要のない技術を提供することを課題 とする。 発明の開示
本件発明は、 H T M L (Hyper Text Mark-up Language)文や、 R T F (Ri ch Tex t. Fi le)文などでは、 音声の読み上げとは関係なく、 あらかじめ、 ドキュメント 中のテキス ト文についての修飾条件等を定める属性データ (以下、 これをタグと いうことがある) が含まれていることに着眼し、 このタグを読み上げの制御情報 として利用することに着眼したものである。
そこで、 本発明のドキュメント読み上げ装置では、 属性付きのドキュメントの 内容を解析して、 音声合成手段により ドキュメント中のテキスト部分を読み上げ る装置において、 前記属性は、 読み上げ条件とは無関係に定められたものであり、 ドキュメント全体に対する読み上げ条件を設定する基本読み上げ条件設定手段 と、 属性ごとに読み上げ条件を設定する個別読み上げ条件設定手段と、 ドキュメ ント読み上げの際に、 原則として前記基本読み上げ条件設定手段で設定した基本 読み上げ条件を参照してテキス ト部分を読み上げるとともに、 個別読み上げ条件 を有するテキス ト部分では基本読み上げ条件に優先して個別読み上げ条件を参照 して読み分ける、 読み分け手段と、 を備えたことを特徴とする。
ここで、 前記読み上げ条件とは、 少なく とも、 読み上げ音声の音質 (たとえば、 声の高さ、 男声、 女声の区別) 、 音量 (声の大きさ) 、 アクセン ト (声の抑揚や 方言) 、 読み上げる '読み上げないことの選択、 のいずれかである。 たとえば、 H T M L文書で、 「く h2〉本ホームページの紹介く/ h2〉」 という文があつたすると、 く h2></h2〉は、 その間に存在する文字の表示時の大きさを指定するタグである。 そこで、 このく h2〉く/ h2〉に関連付けて、 その間の文字を男声にて読むというよう にする。
特に、 個別読み上げ条件設定手段により属性ごとに設定される読み上げ条件は、 前記属性の本来の意味と関連付けられ、 読み上げた音声から、 属性が指定する本 来の意味を想起可能とするようにすることが好適である。
すなわち、 前記〈h2X/h2〉は文字の大きさを示し、 h2は h3より大きく、 h iより 小さく表示される c そこで、 h2で指定された文書を読み上げるとき、 h3より大き く、 h iより小さい音声で読み上げるようにすると、 H T M Lの取り決めに従った 読み上げが可能であり、 読み上げ音声を聞くだけで視覚上の文書を想起すること が可能となる。
また、 前記読み上げ条件を記憶しておく読み上げ条件記憶手段を備えることが 好ましい。
本発明のドキュメン ト読み上げ装置では、 ドキュメント全体に対する読み上げ 条件を基本読み上げ条件設定手段で設定し、 次いで、 個別読み上げ条件設定手段 と属性ごとに読み上げ条件を設定する。
ドキュメント読み上げの際に、 特に指定のない部分では、 原則として前記基本 読み上げ条件設定手段で設定した基本読み上げ条件を参照してテキス ト部分を読 み上げる。
ドキュメント中のタグにより、 さまざまな情報がわかる。 H T M Lの場合だと、 ページのタイ トル部、 見出し、 内容のテキス ト、 リンク、 メール宛先他、 いろい ろなタグがドキュメント中に記述され、 画面上では、 タグに応じて文字サイズや 色など書き分けられている。 しかしながら、 従来の読み上げ装置では、 すべて同 一の音声によって読み上げるため、 これらの情報が欠落してしまう。 本発明では、 タグの本来の情報に対応して読み上げ条件を設定すれば、 タグ情報を音声として 確認できる。
なお、 ドキュメン トに付与される属性は、 たとえば、 ドキュメントの表示を制 御するためのものである。 また、 ドキュメントに付与される属性は、 たとえば、 ドキュメントが H T M L文書である場合は、 タグ情報である。
次に、 本発明に係る読み上げ制御方法は、 音声合成手段による ドキュメン ト中 のテキスト部分の読み上げを制御する方法であって、 前記ドキュメント中の該ド キュメントの表示を制御するための属性を判定し、 前記判定結果に基づいて前記 属性により表示制御されるテキス ト部分の読み上げ条件を変更することを特徴と する。
このような読み上げ制御方法では、 属性の種類に応じて読み上げ条件を変更す るようにしてもよレ、:
また、 本発明に係る記録媒体は、 音声合成手段により ドキュメント中のテキス ト部分を読み上げさせるコンピュータに、 前記ドキュメント中の該ドキュメント の表示を制御するための属性を判定させる手順と、 前記判定結果に基づいて前記 属性により表示制御されるテキス ト部分の読み上げ条件を変更させる手順とを実 行させるプログラムを記録した記録媒体である。
このよ うな記録媒体には、 属性の種類に応じて読み上げ条件を変更する手順を 実行させるプログラムがさらに記録されていてもよい。 図面の簡単な説明
図 1は、 本発明の構成例を示すブロック図
図 2は、 読み上げ条件の設定例 (固定値) を示す図
図 3は、 読み上げ条件の設定例 (基本設定から相対指定) を示す図
図 4は、 基本読み上げ条件設定手段の一例を示す図
図 5は、 個別読み上げ条件設定手段と、 個別読み上げ O N · O F F指定手段を 示した図
図 6は、 読み上げ手順を示したフローチャート図
図 7は、 読み上げ対象の一例として H T M L文の表示例を示した図
図 8は、 図 7の読み上げ対象をソースデータとして示した図
図 9は、 読み上げ条件のおすすめ設定パターンを示した図
図 1 0は、 読み上げ対象テキスト情報を示した図
図 1 1は、 読み上げ補助情報を示した図 発明を実施するための最良の形態
図 1は、 本発明の 1実施例の構成を示したものである。
本件発明は、 プログラムにより構成され、 このプログラムをコンピュータの C P U上で実行することにより、 C P U上に図 1の機能実現手段が実現される。 図 1に示したように、 フロッピー ·ディスクや C D— R O Mなどの記憶媒体や、 インターネッ ト等のメディアを介してコンピュータに読み込まれたドキュメント 情報を管理する ドキュメント管理手段 1が設けられている。
このドキュメント管理手段 1は、 たとえば、 H T M L文や、 R T F文などのド キュメントの読み込みやダウンロードなどを行うソフ トウエアである。
さらに、 このドキュメント管理手段 1により、 コンピュータに読み込まれたド キュメントを解析してその属性部分である 「タグ」 を検出する属性解析手段 2を 備えている。 そして、 ドキュメント管理手段 1で読み込まれたドキュメントと属 性解析手段 2で解析されたタグを、 それぞれ読み上げ対象情報と して管理する読 み上げ対象情報管理手段 3が設けられている。 一方、 キーボードなどの入力手段からドキュメント全体に対する読み上げ条件 を設定する基本読み上げ条件設定手段 4と、 属性ごとに読み上げ条件を設定する 個別読み上げ条件設定手段 5と、 この個別読み上げ条件設定手段 5に含まれる概 念ではあるが、 個別読み上げ条件として特別に、 指定した属性のテキス ト文書に ついて 「読み上げる (ON) 」 、 「読み上げない (OF F) 」 の設定を行う個別 読み上げ ON · OF F指定手段 6とが設けられている。
さらに、 基本読み上げ条件設定手段 4と、 個別読み上げ条件設定手段 5と、 個 別読み上げ ON · OF F指定手段 6とで設定された各条件を管理し、 基本読み上 げ条件 I ZO手段 7と、 個別読み上げ条件 I ΖΟ手段 8 と、 個別読み上げ ON · OF F情報 I /〇手段 9を介して、 読み上げ条件記憶手段 1 0としてのハードデ イスクに、 前記各条件を書き込み、 あるいは、 読み出す、 基本読み上げ条件管理 手段 1 1、 個別読み上げ条件管理手段 1 2、 個別読み上げ ON · OF F情報管理 手段 1 3がそれぞれ設けられている。
次いで、 ドキュメント読み上げの際に、 基本読み上げ条件管理手段 1 1、 個別 読み上げ条件管理手段 1 2、 個別読み上げ ON · OF F情報管理手段 1 3は、 そ れぞれ、 基本読み上げ条件 I /O手段 7と、 個別読み上げ条件 I ZO手段 8 と、 個別読み上げ〇N · 0 ?情報 1 0手段9を介して、 読み上げ条件記憶手段 1 0としてのハードディスクから前記各条件を読み出し、 音声合成手段 1 4へとそ の情報を送る。
音声合成手段 1 4は、 前記読み上げ対象情報管理手段 3で管理している ドキュ メント情報と、 属性部分である 「タグ」 とを読み上げ対象とし、 まず、 前記基本 読み上げ条件設定手段 4で設定した基本読み上げ条件を参照してテキス ト部分を 読み上げるとともに、 個別読み上げ条件を有するテキス ト部分では基本読み上げ 条件に優先して個別読み上げ条件を参照して読み分ける、 読み分け手段 1 5を備 えている。
なお、 読み上げの際に使用する音声合成手法は、 従来より知られた手法を用い るので、 ここでは特に言及しない。
ここで、 図 2に、 読み上げ条件を固定値で設定した場合の例を示す。 図 2では、 読み上げ条件として、 声の大きさ、 声の高さ、 声の種類 (男声,女声) 、 声の抑 揚である。
そして、 基本設定として、 基本読み上げ条件設定手段 4により、 声の大きさ、 声の高さ、 声の種類 (男声 ·女声) 、 声の抑揚が図 2のように設定され、 さらに、 個別読み上げ条件設定手段 5により、 タグ 1〜4について、 それぞれ図 2に示し た条件が設定される- 図 3は、 図 2で示した固定値を、 基本設定から相対指定した場合の図である。 ここでは、 基本設定値を標準にして、 相対的に示した図である。
前記基本読み上げ条件設定手段 4と、 個別読み上げ条件設定手段 5と、 個別読 み上げ〇N · O F F指定手段 6とは、 具体的には図 4、 図 5に示したような、 入 力画面から入力される:
図 4は、 基本読み上げ条件設定手段 4による設定例である。 図 5は、 個別読み 上げ条件設定手段 5と、 個別読み上げ O N · O F F指定手段 6とによる設定を示 す。 ここでは、 H T M L文書の各タグの名前を読み分けの対象という欄 R 1に表 示しており、 この欄に表示した名前の実際のタグを欄 R 1の下の欄 R 2に表示す るようになっている: 欄 R l、 R 2の右には、 読み分け対象であるタグについて、 個々に読み上げるか否かを設定する個別読み上げ O N · O F F指定手段 6として、 読み上げ指定をするチェックボックス R 3を備えている。 さらに、 チェックボッ クス R 3の下には、 個別読み上げ条件設定手段 5として、 声の大きさ、 声の高さ、 声の種類を設定する個別設定チェックボックス R 4が設けられ、 個別設定チェッ クボックス R 4は、 チェックボックス R 3力 S 「読む」 とされた場合に活性化する ようになつている c
以上の設定において、 タグごとの情報は図 2のように具体的値の設定でもよい し、 図 3のような基本設定からの相対指定でもよい。 図 2の場合は、 基本設定に 左右されることなく、 タグごとの設定値が保持される利点があり、 図 3の場合は、 基本設定からの相対的指定で行うことができるため、 具体的な数値を指示せずに 「普通の部分よりは大きくて高い声で読むようにしょう」 などという感覚的な指 定が可能になる。 これらの情報を用いて、 図 1のドキュメント管理手段 1を用い て入手したドキュメン トデータに対して、 属性解析手段 2がタグの解析を行い、 その結果を読み上げ対象データとして、 音声合成手段 1 4に渡す。 一方、 先に指定してある基本読み上げ音声設定およびタグごとの読み上げ音声 設定を用いて、 音声合成手段 1 4は、 指定された音声属性を用いて、 与えられた 読み上げ対象データを読み上げる。
この読み上げ手順を、 図 6のフローチヤ一トに従って説明する。
この例は、 図 7、 図 8に示した HTML文書の読み上げの例である。 図 7は H TML文書をブラウザで表示した例であり、 図 8はそのソースデータである。 こ の例では、 すでに HTMLのタグごとの読み上げ音声の設定は済んでおり、 ここ では、 図 9に示した、 おすすめパターンが設定されているものとする。 このおす すめパターンは、 標準モデルとして、 読み上げ条件記憶手段 1 0にあらかじめ設 定されたパターンである。
まず、 ステップ 1 0 1で、 ドキュメント管理手段 1によって図 8に示したソー スデ一タをダウンロードして HTMLファイルとして読み込む。 次に、 HTML 属性解析手段 2で、 H TM Lファイルのデータの冒頭より文字単位で解析を行う。 データの中で、 "く" と ">" に挟まれた部分をタグと解釈し、 読み分け対象 のタグでなければ無視し、 読み分け対象のタグであれば、 図 1 0に示した読み上 げ対象のテキス トを読み上げ対象情報管理手段 3でメモリに格納するとともに (ステップ 1 0 3 ) 、 図 1 1に示した読み上げ補助情報を読み上げ対象情報管理 手段 3でメモリに格納する (ステップ 1 0 4 ) 。 ここで、 読み分け補助情報とは、 読み上げ対象テキス :、情報での位置と声の設定情報である
図 8の場合、 次のように処理される。
( 1 ) 声の初期設定として、 声の設定テーブル (図 9) の 「その他のタグ」 欄 に記載された情報 [男声、 大きさ = 3, 高さ = 3 ] を登録する。 最初はこの状態 で読む。
( 2) 1行目を処理する。 〈h t m l〉 タグは、 読み上げ対象外なので、 無視 する。
(3 ) 2行目を処理する。 〈h e a d〉 タグは、 読み上げ対象外なので、 無視 する c 次の く t i t 1 e〉 タグは、 声の設定テーブル (図 9 ) において、 [読み 上げ O F F] のため、 対応する 〈/ t i t I e〉 タグまで読み飛ばす。 次の 〈Z h e a d ) タグも読み上げ対象外なので無視する。 (4) 3行目を処理する。 く b o d y〉 タグは、 読み上げ対象外なので、 無視 する。
(5) 4行目を処理する。 〈b r〉 タグは、 読み上げ対象外なので、 無視する。 次の文章は、 読み上げ対象として、 「読み上げ対象テキス ト情報」 に追加登録す る。
(6) 5行目を処理する。 文章を読み上げ対象として追加登録する。
( 7) 6行目を処理する。 く c o mm e n t ) タグは、 声の設定テーブルで [読み上げ OF F] 設定なので、 対応する く/c omm e n t;〉 タグまで読み飛 ばす。
(8) 7行目を処理する。 く b r〉 く c e n t e r〉 の両タグを読み飛ばす。 次の く ί o n t s i z e = 2〉 により、 声設定を、 (男声、 大きさ = 2、 高さ = 3 ) に変更して、 「読み上げ補助情報」 に格納、 また、 く Z f o n t〉 タグの 終了までのテキストを読み上げ対象として追加登録する。
(9) 8行目も、 同様に 〈 f o n t s i z e = 5) に対応して (男声、 大き さ = 5、 高さ =4) に変更して 「読み上げ補助情報」 に格納、 また、 〈/ f o n t ) タグの終了までのテキス トを読み上げ対象として登録する。
(1 0) 次に、 声の設定を初期状態に戻して、 (男声、 大きさ = 3, 高さ = 3) に戻して、 テキス トも登録。
(1 1 ) 9行目は、 テキス トのみ追加。 〈b r〉 タグは無視。
(1 2) 1 0行目は、 「それには、 」 までを読み上げ対象テキス ト情報に登録。 次に
〈a h r e f ) に対応して、 声の設定を初期状態に戻して、 以降のテキス トを 登録。
( 1 3) 1 1行目はテキストのみ追加。 く b r〉 タグは無視。
( 1 4) 1 2、 1 3行目は、 タグを無視して、 終了。
この結果、 「読み上げ対象テキス ト情報」 、 「読み上げ補助情報」 には、 下記の 情報が格納される。 音声合成部は、 これらの情報を解釈しながら、 音声合成を行 以上のように、 読み分け手段 1 5により ドキュメントを構成するタグの情報を 用いて、 きめ細かい読み分けが可能となる。 たとえば、 H T M Lの 「見出し」 部 分のみ 「読む」 指定にしておけば、 一般的には大事と思われる部分だけ抽出して 読み上げることになる。 また、 フォントの大きいところは大きい声で読み上げ、 小さいところは小さい声で読み上げるなどの指定も可能になるため、 画面を見な くても、 一様に読み上げたのでは伝わらない文章のニュアンスまで音声合成で読 み上げることが可能になる。
<他の例 >
前記属性解析手段 2でドキュメント中のタグを解析することにより、 さまざま な情報がわかる。 H T M Lの場合だと、 ページのタイ トル部、 見出し、 内容のテ キス ト、 リンク、 メール宛先他、 いろいろなタグがドキュメント中に記述され、 画面上では、 タグに応じて文字サイズゃ色など書き分けられている。
そこで、 これら情報に対応した読み上げ条件を、 タグの意味内容に応じて、 設 定する。 その設定をタグ対応であらかじめ図示しないテーブルに記憶しておけば、 タグの解析ごとにテーブルを参照して、 同一のタグは常に同一の音声で読み出し たり、 文字の大きさに対応して読み出し音声を大きく したり小さくすることがで きるので、 タグの本来の情報内容に対応して読み上げ条件を設定することができ、 タグ情報を音声として確認できる。
本発明によれば、 ドキュメントにあらかじめ設定してある属性情報をそのまま 利用して、 ドキュメン トの読み分けが可能であり、 読み分けのための属性情報を ドキュメント中にいちいち設定する必要がない。
そして、 個別読み上げ条件設定手段 5により属性ごとに設定される読み上げ条 件が、 前記属性の本来の意味と関連付けた場合、 読み上げた音声から、 属性が指 定する本来の意味を想起可能であり、 音声により ドキュメントの読み上げ内容を 視覚的に理解できる c 産業上の利用可能性
パーソナルコンピュ一タ、 ヮードプロセッサ等のテキス トデータを极うことの できる情報処理装置や、 H T M L文書を扱うことのできるィンターネッ ト端末に 利用可能である。

Claims

請求の範囲
1 . 属性付きのドキュメン トの内容を解析して、 音声合成手段により ドキュメン ト中のテキスト部分を読み上げる装置において、
前記属性は、 読み上げ条件とは無関係に定められたものであり、 ドキュメント 全体に対する読み上げ条件を設定する基本読み上げ条件設定手段と、
属性ごとに読み上げ条件を設定する個別読み上げ条件設定手段と、
ドキュメント読み上げの際に、 原則として前記基本読み上げ条件設定手段で設 定した基本読み上げ条件を参照してテキスト部分を読み上げるとともに、 個別読 み上げ条件を有するテキス ト部分では基本読み上げ条件に優先して個別読み上げ 条件を参照して読み分ける、 読み分け手段と、
を備えたことを特徴とする ドキュメント読み上げ装置。
2 . 前記読み上げ条件とは、 少なく とも、 読み上げ音声の音質、 音量、 ァクセン ト、 読み上げる ·読み上げないことの選択、 のいずれかであることを特徴とする 請求項 1記載のドキュメント読み上げ装置。
3 . 個別読み上げ条件設定手段により属性ごとに設定される読み上げ条件は、 前 記属性の本来の意味と関連付けられ、 読み上げた音声から、 属性が指定する本来 の意味を想起可能とすることを特徴とする請求項 1記載のドキュメント読み上げ
4 . 前記読み上げ条件を記憶しておく読み上げ条件記憶手段を備えたことを特徴 とする請求項 1記載のドキュメント読み上げ装置。
5 . 前記属性は、 前記ドキュメン トの表示を制御するためのものであることを特 徴とする請求項 1記載のドキュメント読み上げ装置。
6 . 前記ドキュメン トは、 H T M L文書であり、 前記属性はタグ情報であること を特徴とする請求項 1記載のドキュメント読み上げ装置。
7 . 音声合成手段による ドキュメント中のテキス ト部分の読み上げを制御する方 法であって、
前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定し、 前記判定結果に基づいて前記属性により表示制御されるテキス ト部分の読み上 げ条件を変更することを特徴とする読み上げ制御方法。
8 . 前記属性の種類に応じて前記読み上げ条件を変更することを
特徴とする請求項 7記載の読み上げ制御方法。
9 . 音声合成手段により ドキュメント中のテキス ト部分を読み上げさせるコンビ ユータに、
前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定させ る手順と、
前記判定結果に基づいて前記属性により表示制御されるテキス ト部分の読み上 げ条件を変更させる手順と、
を実行させるプログラムを記録したコンピュータが読み取り可能な記録媒体。
1 0 . 前記属性の種類に応じて前記読み上げ条件を変更する手順を実行させる前 記プロダラムを記録した請求項 9記載のコンピュータ読み取り可能な記録媒体。
PCT/JP1999/001760 1998-05-15 1999-04-02 Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement WO1999060474A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP99910830A EP1077403A4 (en) 1998-05-15 1999-04-02 HIGH VOICE READING DEVICE, HIGH VOICE READING CONTROL METHOD, AND RECORDING MEDIUM
US09/709,458 US6397183B1 (en) 1998-05-15 2000-11-13 Document reading system, read control method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10134085A JPH11327870A (ja) 1998-05-15 1998-05-15 ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
JP10/134085 1998-05-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/709,458 Continuation US6397183B1 (en) 1998-05-15 2000-11-13 Document reading system, read control method, and recording medium

Publications (1)

Publication Number Publication Date
WO1999060474A1 true WO1999060474A1 (fr) 1999-11-25

Family

ID=15120071

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/001760 WO1999060474A1 (fr) 1998-05-15 1999-04-02 Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement

Country Status (4)

Country Link
US (1) US6397183B1 (ja)
EP (1) EP1077403A4 (ja)
JP (1) JPH11327870A (ja)
WO (1) WO1999060474A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1182644A2 (en) * 2000-08-14 2002-02-27 Pioneer Corporation Method of synthesizing voice

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001061941A1 (fr) 2000-02-21 2001-08-23 Ntt Docomo, Inc. Procede, systeme et serveur de diffusion de l'information, systeme de reseau de communications mobile et service de communication permettant de mettre ledit procede en oeuvre
JP2002123445A (ja) * 2000-10-12 2002-04-26 Ntt Docomo Inc 情報配信サーバおよび情報配信システムならびに情報配信方法
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001343989A (ja) * 2000-03-31 2001-12-14 Tsukuba Seiko Co Ltd 朗読装置
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
US6513008B2 (en) * 2001-03-15 2003-01-28 Matsushita Electric Industrial Co., Ltd. Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates
JP3884951B2 (ja) * 2001-12-14 2007-02-21 キヤノン株式会社 情報処理装置及びその方法、プログラム
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
JP3895766B2 (ja) 2004-07-21 2007-03-22 松下電器産業株式会社 音声合成装置
US20060106618A1 (en) 2004-10-29 2006-05-18 Microsoft Corporation System and method for converting text to speech
WO2006137166A1 (ja) * 2005-06-20 2006-12-28 Hitachi Government And Public Corporation System Engineering, Ltd. クライアント端末
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8996384B2 (en) * 2009-10-30 2015-03-31 Vocollect, Inc. Transforming components of a web page to voice prompts
US9811602B2 (en) * 2009-12-30 2017-11-07 International Business Machines Corporation Method and apparatus for defining screen reader functions within online electronic documents
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130124190A1 (en) * 2011-11-12 2013-05-16 Stephanie Esla System and methodology that facilitates processing a linguistic input
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
JP5634455B2 (ja) 2012-08-16 2014-12-03 株式会社東芝 音声学習装置、方法およびプログラム
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
JP6290230B2 (ja) * 2013-10-10 2018-03-07 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9398392B2 (en) * 2014-06-30 2016-07-19 Microsoft Technology Licensing, Llc Audio calibration and adjustment
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
WO2016151761A1 (ja) 2015-03-24 2016-09-29 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9912800B2 (en) 2016-05-27 2018-03-06 International Business Machines Corporation Confidentiality-smart voice delivery of text-based incoming messages
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10891939B2 (en) * 2018-11-26 2021-01-12 International Business Machines Corporation Sharing confidential information with privacy using a mobile phone

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01204100A (ja) * 1988-02-09 1989-08-16 Ricoh Co Ltd テキスト音声合成方式
JPH02289071A (ja) * 1989-03-22 1990-11-29 Ricoh Co Ltd 音声出力機能付ワードプロセッサ
JPH06337876A (ja) * 1993-05-28 1994-12-06 Toshiba Corp 文章読み上げ装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5500919A (en) * 1992-11-18 1996-03-19 Canon Information Systems, Inc. Graphics user interface for controlling text-to-speech conversion
JPH08272388A (ja) 1995-03-29 1996-10-18 Canon Inc 音声合成装置及びその方法
JP3094896B2 (ja) 1996-03-11 2000-10-03 日本電気株式会社 文章読み上げ方式
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
US6018710A (en) * 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
US6216104B1 (en) * 1998-02-20 2001-04-10 Philips Electronics North America Corporation Computer-based patient record and message delivery system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01204100A (ja) * 1988-02-09 1989-08-16 Ricoh Co Ltd テキスト音声合成方式
JPH02289071A (ja) * 1989-03-22 1990-11-29 Ricoh Co Ltd 音声出力機能付ワードプロセッサ
JPH06337876A (ja) * 1993-05-28 1994-12-06 Toshiba Corp 文章読み上げ装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1077403A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1182644A2 (en) * 2000-08-14 2002-02-27 Pioneer Corporation Method of synthesizing voice
EP1182644A3 (en) * 2000-08-14 2002-12-11 Pioneer Corporation Method of synthesizing voice

Also Published As

Publication number Publication date
EP1077403A1 (en) 2001-02-21
US6397183B1 (en) 2002-05-28
EP1077403A4 (en) 2001-10-31
JPH11327870A (ja) 1999-11-30

Similar Documents

Publication Publication Date Title
WO1999060474A1 (fr) Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d&#39;enregistrement
US5899975A (en) Style sheets for speech-based presentation of web pages
JP3142803B2 (ja) テキストを音声に変換するシンセサイザ
JP5896606B2 (ja) トーキングeブック
US8340956B2 (en) Information provision system, information provision method, information provision program, and information provision program recording medium
US20060129927A1 (en) HTML e-mail creation system, communication apparatus, HTML e-mail creation method, and recording medium
JP2007128506A (ja) ドキュメント読み上げ装置、読み上げ制御方法及び記録媒体
JP4311710B2 (ja) 音声合成制御装置
JPH09325787A (ja) 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置
JPH08272388A (ja) 音声合成装置及びその方法
JPH07302262A (ja) 文書処理装置
US20020042040A1 (en) Talking book method and system
JP2000214874A (ja) 音声合成装置及びその方法、コンピュ―タ可読メモリ
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JPH0916597A (ja) 文章推敲装置及び方法
JP3838507B2 (ja) 文章読み上げ装置、読み上げのためのプログラム、及び、記録媒体
JP2004287192A (ja) 合成音声編集装置及び合成音声編集プログラム
JPH08221095A (ja) 文章読み上げ方法
JP2001027926A (ja) 文書表示方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP3308929B2 (ja) 音声入力機能付き情報処理装置
JPH07114537A (ja) 音声出力処理方式
JP2003150182A (ja) 音声合成装置、音声合成装置の制御方法、音声合成制御プログラム及び記録媒体
JP2003208191A (ja) 音声合成システム
JP2004287193A (ja) データ作成装置、データ作成プログラム、及び車載装置
JPH05298299A (ja) 階層構造設定方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09709458

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1999910830

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1999910830

Country of ref document: EP