WO1999060474A1 - Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement - Google Patents
Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement Download PDFInfo
- Publication number
- WO1999060474A1 WO1999060474A1 PCT/JP1999/001760 JP9901760W WO9960474A1 WO 1999060474 A1 WO1999060474 A1 WO 1999060474A1 JP 9901760 W JP9901760 W JP 9901760W WO 9960474 A1 WO9960474 A1 WO 9960474A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- reading
- document
- attribute
- read
- aloud
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Definitions
- the present invention relates to a document reading device and a reading control method for reading a text document of a document input to a computer.
- a voice synthesizer that outputs text data mixed with kanji or kana as synthesized voice
- a built-in means for incorporating control information into text data and a voice based on the text data with a sound quality corresponding to the control information Output means.
- the present invention has been made in view of the above circumstances, and has as its object to provide a technique that does not need to incorporate control information for giving a reading condition into a document. Disclosure of the invention
- the modification conditions for text sentences in the document are determined in advance, regardless of the reading of the voice. Focusing on the inclusion of attribute data (hereinafter, this may be referred to as a tag) that determines The focus is on using it as
- a document reading device analyzes a content of a document with an attribute and reads out a text portion in the document by a speech synthesis unit, wherein the attribute is determined independently of a reading condition.
- Basic reading condition setting means for setting the reading conditions for the entire document, individual reading condition setting means for setting the reading conditions for each attribute, and, in principle, the basic reading condition setting means for reading the document.
- the reading conditions include, at least, the sound quality of the read voice (eg, pitch, male voice, female voice), volume (loudness of voice), accent (voice inflection and dialect), and voice 'Do not read aloud, either.
- the sound quality of the read voice eg, pitch, male voice, female voice
- volume volume
- accent voice inflection and dialect
- voice 'Do not read aloud either.
- the h2> ⁇ / h2> is a tag that specifies the size of the characters that exist between them when displayed. It is. Therefore, we associate it with h2> h / h2> and read the characters in between using a male voice.
- the reading condition set for each attribute by the individual reading condition setting means is associated with the original meaning of the attribute, and the original meaning specified by the attribute can be recalled from the read voice. Is preferred.
- ⁇ h2X / h2> indicates the size of the character, and h2 is displayed larger than h3 and smaller than hi.c
- the voice larger than h3 and smaller than hi If you read aloud with, it is possible to read aloud in accordance with the rules of HTML, and it is possible to recall a visual document just by listening to the reading voice.
- a reading condition storage unit for storing the reading condition is provided.
- the reading conditions for the entire document are set by the basic reading condition setting means, and then the individual reading condition setting means is set. And the reading conditions are set for each attribute.
- the text portion is read out by referring to the basic reading conditions set by the basic reading condition setting means in principle, unless otherwise specified.
- tags Various information can be found by the tags in the document.
- tags In the case of HTML, various tags are described in the document, such as page titles, headings, content text, links, mail addresses, etc., and on the screen, font size, color, etc. according to the tags It is written separately.
- all the information is read out using the same voice, so that such information is lost.
- the tag information can be confirmed as voice.
- the attribute assigned to the document is, for example, for controlling the display of the document.
- the attribute given to the document is, for example, tag information when the document is an HTML document.
- a reading control method is a method for controlling reading of a text portion in a document by a speech synthesis unit, and determines an attribute for controlling display of the document in the document.
- a reading condition of a text portion controlled to be displayed by the attribute is changed based on the determination result.
- the reading condition may be changed according to the type of the attribute.
- the recording medium includes: a step of causing a computer that causes a text portion in a document to be read aloud by a voice synthesis unit to determine an attribute for controlling display of the document in the document; And changing a reading condition of a text portion controlled to be displayed by the attribute based on the attribute.
- Such a recording medium may further store a program for executing a procedure for changing a reading condition according to the type of attribute.
- FIG. 1 is a block diagram showing a configuration example of the present invention.
- Figure 2 shows an example of setting the reading conditions (fixed value)
- Figure 3 shows an example of setting the reading conditions (relative designation from basic settings)
- Figure 4 shows an example of the basic reading condition setting means.
- Figure 5 shows individual reading condition setting means and individual reading ON / OFF designation means.
- Figure 6 is a flowchart showing the reading procedure
- Figure 7 shows a display example of an H TML sentence as an example of a reading target.
- Fig. 8 is a diagram showing the reading target of Fig. 7 as source data.
- Figure 9 shows the recommended setting pattern for reading conditions.
- Figure 10 shows the text information to be read out
- FIG. 11 is a diagram showing auxiliary reading information.
- FIG. 1 shows the configuration of one embodiment of the present invention.
- the present invention is configured by a program, and by executing this program on the CPU of the computer, the function realizing means of FIG. 1 is realized on the CPU.
- a document management means 1 for managing document information read into a computer via a storage medium such as a floppy disk or a CD-ROM or a medium such as the Internet is provided.
- the document management means 1 is, for example, software for reading and downloading documents such as HTML and RTF sentences.
- the document management means 1 is provided with an attribute analysis means 2 for analyzing a document read into a computer and detecting a "tag" as an attribute part thereof. Further, there is provided a reading target information managing unit 3 for managing the document read by the document managing unit 1 and the tag analyzed by the attribute analyzing unit 2 as reading target information.
- basic reading condition setting means 4 for setting reading conditions for the entire document from an input means such as a keyboard, individual reading condition setting means 5 for setting reading conditions for each attribute, and individual reading condition setting means 5 are included.
- individual reading ON / OFF specifying means for setting “reading (ON)” and “not reading (OF F)” for a text document with the specified attribute as an individual reading condition 6 are provided.
- the basic reading condition setting means 4 manages the conditions set by the basic reading condition setting means 4, the individual reading condition setting means 5, and the individual reading ON / OF specifying means 6, and the basic reading condition I ZO means 7, Basic reading conditions for writing or reading the above conditions on a hard disk as reading condition storage means 10 via individual reading condition I ⁇ means 8 and individual reading ON / OFF information I / ⁇ means 9 Management means 11, individual reading condition management means 12, individual reading ON ⁇ OFF information management means 13 are provided.
- the basic reading condition management means 11, the individual reading condition management means 12, the individual reading ON ⁇ OFF information management means 13 are respectively used for the basic reading condition I / O means 7.
- individual reading conditions I ZO means 8 and individual reading ⁇ N ⁇ 0? The above conditions are read out from the hard disk as the reading condition storage means 10 via the information 10 means 9, and the information is sent to the speech synthesis means 14.
- the voice synthesizing unit 14 sets the document information managed by the reading target information managing unit 3 and the attribute tag “tag” as the reading target, and first sets the basic information set by the basic reading condition setting unit 4.
- a reading means 15 for reading out the text portion with reference to the reading conditions and reading out the text portion having the individual reading conditions by referring to the individual reading conditions prior to the basic reading conditions.
- FIG. 2 shows an example in which the reading conditions are set to fixed values.
- the reading conditions include the loudness of the voice, the pitch of the voice, the type of the voice (male and female), and the suppression of the voice. It is fried.
- the basic reading condition setting means 4 sets the loudness of the voice, the pitch of the voice, the type of the voice (male voice / female voice), and the intonation of the voice as shown in FIG.
- the condition shown in FIG. 2 is set for each of the tags 1 to 4 by the setting means 5-FIG. 3 is a diagram when the fixed values shown in FIG. 2 are specified relative to the basic settings.
- the basic setting values are standardized, and the figures are relatively shown.
- the basic reading condition setting means 4, the individual reading condition setting means 5, and the individual reading ⁇ N / OFF specifying means 6 are specifically described from an input screen as shown in FIGS. 4 and 5. Entered:
- FIG. 4 shows a setting example of the basic reading condition setting means 4.
- FIG. 5 shows the setting by the individual reading condition setting means 5 and the individual reading ON / OFF specifying means 6.
- the name of each tag in the HTML document is displayed in the column R1 to be read separately, and the actual tag with the name displayed in this column is displayed in the column R2 below the column R1.
- the individual reading ON / OFF specifying means 6 for setting whether or not to read the individual tags to be read separately is a check box R 3 for specifying the reading.
- a check box R 3 for specifying the reading.
- an individual setting check box R4 for setting the voice volume, voice pitch, and voice type is provided as individual reading condition setting means 5, and the individual setting check is provided below the check box R3, an individual setting check box R4 for setting the voice volume, voice pitch, and voice type is provided as individual reading condition setting means 5, and the individual setting check is provided.
- box R 4 is, c and summer to activate when it is a checkbox R 3 force "read" S
- the information for each tag may be set to specific values as shown in FIG. 2 or may be specified relative to the basic settings as shown in FIG.
- the setting value for each tag is retained without being affected by the basic settings.
- the attribute analysis unit 2 analyzes the tags of the document data obtained by using the document management unit 1 in Fig. 1, and the result is sent to the speech synthesis unit 14 as read-out target data. hand over.
- the speech synthesis means 14 reads out the given data to be read out using the designated speech attribute.
- This example is an example of reading out the HTML document shown in Figs.
- Figure 7 shows an example of an HTML document displayed on a browser
- Figure 8 shows the source data.
- the reading voice for each HTML tag has already been set
- the recommended pattern shown in Fig. 9 has been set here.
- This recommended pattern is a pattern that is set in advance in the reading condition storage means 10 as a standard model.
- step 101 the source data shown in FIG. 8 is downloaded by the document management means 1 and read as an HTML file.
- the HTML attribute analysis means 2 analyzes the data of the HTML file in character units from the beginning. In the data, the part between "" and ">" is interpreted as a tag. If the tag is not a target tag, it is ignored. If the tag is a target tag, it is read as shown in Fig. 10.
- the target text is stored in the memory by the reading target information management means 3 (step 103), and the auxiliary reading information shown in FIG. 11 is stored in the memory by the reading target information management means 3 (step 104).
- the auxiliary reading information is the text to be read out, and the position and voice setting information in the information.
- the speech synthesis unit performs speech synthesis while interpreting the above information, as described above.
- fine-grained reading is possible. For example, if you specify "read” only for the "heading" part of HTML, you will generally extract only the parts that are considered important and read them out.
- tags are described in the document, such as page titles, headings, content text, links, e-mail addresses, etc., and on the screen, font size, color, etc. are written according to tags. Have been.
- the reading conditions corresponding to these information are set according to the meaning of the tag. If the settings are stored in advance in a table (not shown) corresponding to the tags, the same tag is always read out with the same voice by referring to the table for each analysis of the tag, or the voice is read out according to the character size. Since it is possible to make the tag larger or smaller, it is possible to set reading conditions corresponding to the original information content of the tag, and the tag information can be confirmed as audio.
- the present invention it is possible to separate documents by using the attribute information set in advance in the document as it is, and it is not necessary to set attribute information for reading separately in the document.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
Description
明 細 書 ドキュメント読み上げ装置、 読み上げ制御方法および記録媒体 技 術 分 野
本発明は、 コンピュータに入力されたドキュメン トのテキス ト文書を読み上げ る ドキュメント読み上げ装置および読み上げ制御方法に関する。 背 j¾
従来のドキュメント読み上げ装置として、 たとえば、 特開平 8— 2 7 2 3 8 8 号公報に記載された装置が知られている。
この装置では、 漢字かな混じりのテキス トデータを合成音声にして出力する音 声合成装置として、 テキス トデータに制御情報を組み込む組み込み手段と、 前記 制御情報に対応した音質で前記テキス トデータに基づく音声を合成し出力する出 力手段を備えている。
しかし、 このような装置では、 ある音質である部分を読み上げるようにするた め、 あらかじめテキス トデータに制御情報を組み込む必要がある。
従って、 たとえばインターネッ トにより、 H T M L文を読み込んだとき、 その 一部を男声で読み上げ、 他の部分を女声で読み上げたい場合など、 その所望の部 分に制御情報をいちいちドキュメント中に書き込む必要があり、 きわめて面倒で あった。
本発明は、 このような点に鑑みなされたもので、 読み上げ条件を付与する制御 情報をドキュメント中にいちいち組み込む必要のない技術を提供することを課題 とする。 発明の開示
本件発明は、 H T M L (Hyper Text Mark-up Language)文や、 R T F (Ri ch Tex t. Fi le)文などでは、 音声の読み上げとは関係なく、 あらかじめ、 ドキュメント 中のテキス ト文についての修飾条件等を定める属性データ (以下、 これをタグと いうことがある) が含まれていることに着眼し、 このタグを読み上げの制御情報
として利用することに着眼したものである。
そこで、 本発明のドキュメント読み上げ装置では、 属性付きのドキュメントの 内容を解析して、 音声合成手段により ドキュメント中のテキスト部分を読み上げ る装置において、 前記属性は、 読み上げ条件とは無関係に定められたものであり、 ドキュメント全体に対する読み上げ条件を設定する基本読み上げ条件設定手段 と、 属性ごとに読み上げ条件を設定する個別読み上げ条件設定手段と、 ドキュメ ント読み上げの際に、 原則として前記基本読み上げ条件設定手段で設定した基本 読み上げ条件を参照してテキス ト部分を読み上げるとともに、 個別読み上げ条件 を有するテキス ト部分では基本読み上げ条件に優先して個別読み上げ条件を参照 して読み分ける、 読み分け手段と、 を備えたことを特徴とする。
ここで、 前記読み上げ条件とは、 少なく とも、 読み上げ音声の音質 (たとえば、 声の高さ、 男声、 女声の区別) 、 音量 (声の大きさ) 、 アクセン ト (声の抑揚や 方言) 、 読み上げる '読み上げないことの選択、 のいずれかである。 たとえば、 H T M L文書で、 「く h2〉本ホームページの紹介く/ h2〉」 という文があつたすると、 く h2></h2〉は、 その間に存在する文字の表示時の大きさを指定するタグである。 そこで、 このく h2〉く/ h2〉に関連付けて、 その間の文字を男声にて読むというよう にする。
特に、 個別読み上げ条件設定手段により属性ごとに設定される読み上げ条件は、 前記属性の本来の意味と関連付けられ、 読み上げた音声から、 属性が指定する本 来の意味を想起可能とするようにすることが好適である。
すなわち、 前記〈h2X/h2〉は文字の大きさを示し、 h2は h3より大きく、 h iより 小さく表示される c そこで、 h2で指定された文書を読み上げるとき、 h3より大き く、 h iより小さい音声で読み上げるようにすると、 H T M Lの取り決めに従った 読み上げが可能であり、 読み上げ音声を聞くだけで視覚上の文書を想起すること が可能となる。
また、 前記読み上げ条件を記憶しておく読み上げ条件記憶手段を備えることが 好ましい。
本発明のドキュメン ト読み上げ装置では、 ドキュメント全体に対する読み上げ 条件を基本読み上げ条件設定手段で設定し、 次いで、 個別読み上げ条件設定手段
と属性ごとに読み上げ条件を設定する。
ドキュメント読み上げの際に、 特に指定のない部分では、 原則として前記基本 読み上げ条件設定手段で設定した基本読み上げ条件を参照してテキス ト部分を読 み上げる。
ドキュメント中のタグにより、 さまざまな情報がわかる。 H T M Lの場合だと、 ページのタイ トル部、 見出し、 内容のテキス ト、 リンク、 メール宛先他、 いろい ろなタグがドキュメント中に記述され、 画面上では、 タグに応じて文字サイズや 色など書き分けられている。 しかしながら、 従来の読み上げ装置では、 すべて同 一の音声によって読み上げるため、 これらの情報が欠落してしまう。 本発明では、 タグの本来の情報に対応して読み上げ条件を設定すれば、 タグ情報を音声として 確認できる。
なお、 ドキュメン トに付与される属性は、 たとえば、 ドキュメントの表示を制 御するためのものである。 また、 ドキュメントに付与される属性は、 たとえば、 ドキュメントが H T M L文書である場合は、 タグ情報である。
次に、 本発明に係る読み上げ制御方法は、 音声合成手段による ドキュメン ト中 のテキスト部分の読み上げを制御する方法であって、 前記ドキュメント中の該ド キュメントの表示を制御するための属性を判定し、 前記判定結果に基づいて前記 属性により表示制御されるテキス ト部分の読み上げ条件を変更することを特徴と する。
このような読み上げ制御方法では、 属性の種類に応じて読み上げ条件を変更す るようにしてもよレ、:
また、 本発明に係る記録媒体は、 音声合成手段により ドキュメント中のテキス ト部分を読み上げさせるコンピュータに、 前記ドキュメント中の該ドキュメント の表示を制御するための属性を判定させる手順と、 前記判定結果に基づいて前記 属性により表示制御されるテキス ト部分の読み上げ条件を変更させる手順とを実 行させるプログラムを記録した記録媒体である。
このよ うな記録媒体には、 属性の種類に応じて読み上げ条件を変更する手順を 実行させるプログラムがさらに記録されていてもよい。
図面の簡単な説明
図 1は、 本発明の構成例を示すブロック図
図 2は、 読み上げ条件の設定例 (固定値) を示す図
図 3は、 読み上げ条件の設定例 (基本設定から相対指定) を示す図
図 4は、 基本読み上げ条件設定手段の一例を示す図
図 5は、 個別読み上げ条件設定手段と、 個別読み上げ O N · O F F指定手段を 示した図
図 6は、 読み上げ手順を示したフローチャート図
図 7は、 読み上げ対象の一例として H T M L文の表示例を示した図
図 8は、 図 7の読み上げ対象をソースデータとして示した図
図 9は、 読み上げ条件のおすすめ設定パターンを示した図
図 1 0は、 読み上げ対象テキスト情報を示した図
図 1 1は、 読み上げ補助情報を示した図 発明を実施するための最良の形態
図 1は、 本発明の 1実施例の構成を示したものである。
本件発明は、 プログラムにより構成され、 このプログラムをコンピュータの C P U上で実行することにより、 C P U上に図 1の機能実現手段が実現される。 図 1に示したように、 フロッピー ·ディスクや C D— R O Mなどの記憶媒体や、 インターネッ ト等のメディアを介してコンピュータに読み込まれたドキュメント 情報を管理する ドキュメント管理手段 1が設けられている。
このドキュメント管理手段 1は、 たとえば、 H T M L文や、 R T F文などのド キュメントの読み込みやダウンロードなどを行うソフ トウエアである。
さらに、 このドキュメント管理手段 1により、 コンピュータに読み込まれたド キュメントを解析してその属性部分である 「タグ」 を検出する属性解析手段 2を 備えている。 そして、 ドキュメント管理手段 1で読み込まれたドキュメントと属 性解析手段 2で解析されたタグを、 それぞれ読み上げ対象情報と して管理する読 み上げ対象情報管理手段 3が設けられている。
一方、 キーボードなどの入力手段からドキュメント全体に対する読み上げ条件 を設定する基本読み上げ条件設定手段 4と、 属性ごとに読み上げ条件を設定する 個別読み上げ条件設定手段 5と、 この個別読み上げ条件設定手段 5に含まれる概 念ではあるが、 個別読み上げ条件として特別に、 指定した属性のテキス ト文書に ついて 「読み上げる (ON) 」 、 「読み上げない (OF F) 」 の設定を行う個別 読み上げ ON · OF F指定手段 6とが設けられている。
さらに、 基本読み上げ条件設定手段 4と、 個別読み上げ条件設定手段 5と、 個 別読み上げ ON · OF F指定手段 6とで設定された各条件を管理し、 基本読み上 げ条件 I ZO手段 7と、 個別読み上げ条件 I ΖΟ手段 8 と、 個別読み上げ ON · OF F情報 I /〇手段 9を介して、 読み上げ条件記憶手段 1 0としてのハードデ イスクに、 前記各条件を書き込み、 あるいは、 読み出す、 基本読み上げ条件管理 手段 1 1、 個別読み上げ条件管理手段 1 2、 個別読み上げ ON · OF F情報管理 手段 1 3がそれぞれ設けられている。
次いで、 ドキュメント読み上げの際に、 基本読み上げ条件管理手段 1 1、 個別 読み上げ条件管理手段 1 2、 個別読み上げ ON · OF F情報管理手段 1 3は、 そ れぞれ、 基本読み上げ条件 I /O手段 7と、 個別読み上げ条件 I ZO手段 8 と、 個別読み上げ〇N · 0 ?情報 1 0手段9を介して、 読み上げ条件記憶手段 1 0としてのハードディスクから前記各条件を読み出し、 音声合成手段 1 4へとそ の情報を送る。
音声合成手段 1 4は、 前記読み上げ対象情報管理手段 3で管理している ドキュ メント情報と、 属性部分である 「タグ」 とを読み上げ対象とし、 まず、 前記基本 読み上げ条件設定手段 4で設定した基本読み上げ条件を参照してテキス ト部分を 読み上げるとともに、 個別読み上げ条件を有するテキス ト部分では基本読み上げ 条件に優先して個別読み上げ条件を参照して読み分ける、 読み分け手段 1 5を備 えている。
なお、 読み上げの際に使用する音声合成手法は、 従来より知られた手法を用い るので、 ここでは特に言及しない。
ここで、 図 2に、 読み上げ条件を固定値で設定した場合の例を示す。 図 2では、 読み上げ条件として、 声の大きさ、 声の高さ、 声の種類 (男声,女声) 、 声の抑
揚である。
そして、 基本設定として、 基本読み上げ条件設定手段 4により、 声の大きさ、 声の高さ、 声の種類 (男声 ·女声) 、 声の抑揚が図 2のように設定され、 さらに、 個別読み上げ条件設定手段 5により、 タグ 1〜4について、 それぞれ図 2に示し た条件が設定される- 図 3は、 図 2で示した固定値を、 基本設定から相対指定した場合の図である。 ここでは、 基本設定値を標準にして、 相対的に示した図である。
前記基本読み上げ条件設定手段 4と、 個別読み上げ条件設定手段 5と、 個別読 み上げ〇N · O F F指定手段 6とは、 具体的には図 4、 図 5に示したような、 入 力画面から入力される:
図 4は、 基本読み上げ条件設定手段 4による設定例である。 図 5は、 個別読み 上げ条件設定手段 5と、 個別読み上げ O N · O F F指定手段 6とによる設定を示 す。 ここでは、 H T M L文書の各タグの名前を読み分けの対象という欄 R 1に表 示しており、 この欄に表示した名前の実際のタグを欄 R 1の下の欄 R 2に表示す るようになっている: 欄 R l、 R 2の右には、 読み分け対象であるタグについて、 個々に読み上げるか否かを設定する個別読み上げ O N · O F F指定手段 6として、 読み上げ指定をするチェックボックス R 3を備えている。 さらに、 チェックボッ クス R 3の下には、 個別読み上げ条件設定手段 5として、 声の大きさ、 声の高さ、 声の種類を設定する個別設定チェックボックス R 4が設けられ、 個別設定チェッ クボックス R 4は、 チェックボックス R 3力 S 「読む」 とされた場合に活性化する ようになつている c
以上の設定において、 タグごとの情報は図 2のように具体的値の設定でもよい し、 図 3のような基本設定からの相対指定でもよい。 図 2の場合は、 基本設定に 左右されることなく、 タグごとの設定値が保持される利点があり、 図 3の場合は、 基本設定からの相対的指定で行うことができるため、 具体的な数値を指示せずに 「普通の部分よりは大きくて高い声で読むようにしょう」 などという感覚的な指 定が可能になる。 これらの情報を用いて、 図 1のドキュメント管理手段 1を用い て入手したドキュメン トデータに対して、 属性解析手段 2がタグの解析を行い、 その結果を読み上げ対象データとして、 音声合成手段 1 4に渡す。
一方、 先に指定してある基本読み上げ音声設定およびタグごとの読み上げ音声 設定を用いて、 音声合成手段 1 4は、 指定された音声属性を用いて、 与えられた 読み上げ対象データを読み上げる。
この読み上げ手順を、 図 6のフローチヤ一トに従って説明する。
この例は、 図 7、 図 8に示した HTML文書の読み上げの例である。 図 7は H TML文書をブラウザで表示した例であり、 図 8はそのソースデータである。 こ の例では、 すでに HTMLのタグごとの読み上げ音声の設定は済んでおり、 ここ では、 図 9に示した、 おすすめパターンが設定されているものとする。 このおす すめパターンは、 標準モデルとして、 読み上げ条件記憶手段 1 0にあらかじめ設 定されたパターンである。
まず、 ステップ 1 0 1で、 ドキュメント管理手段 1によって図 8に示したソー スデ一タをダウンロードして HTMLファイルとして読み込む。 次に、 HTML 属性解析手段 2で、 H TM Lファイルのデータの冒頭より文字単位で解析を行う。 データの中で、 "く" と ">" に挟まれた部分をタグと解釈し、 読み分け対象 のタグでなければ無視し、 読み分け対象のタグであれば、 図 1 0に示した読み上 げ対象のテキス トを読み上げ対象情報管理手段 3でメモリに格納するとともに (ステップ 1 0 3 ) 、 図 1 1に示した読み上げ補助情報を読み上げ対象情報管理 手段 3でメモリに格納する (ステップ 1 0 4 ) 。 ここで、 読み分け補助情報とは、 読み上げ対象テキス :、情報での位置と声の設定情報である
図 8の場合、 次のように処理される。
( 1 ) 声の初期設定として、 声の設定テーブル (図 9) の 「その他のタグ」 欄 に記載された情報 [男声、 大きさ = 3, 高さ = 3 ] を登録する。 最初はこの状態 で読む。
( 2) 1行目を処理する。 〈h t m l〉 タグは、 読み上げ対象外なので、 無視 する。
(3 ) 2行目を処理する。 〈h e a d〉 タグは、 読み上げ対象外なので、 無視 する c 次の く t i t 1 e〉 タグは、 声の設定テーブル (図 9 ) において、 [読み 上げ O F F] のため、 対応する 〈/ t i t I e〉 タグまで読み飛ばす。 次の 〈Z h e a d ) タグも読み上げ対象外なので無視する。
(4) 3行目を処理する。 く b o d y〉 タグは、 読み上げ対象外なので、 無視 する。
(5) 4行目を処理する。 〈b r〉 タグは、 読み上げ対象外なので、 無視する。 次の文章は、 読み上げ対象として、 「読み上げ対象テキス ト情報」 に追加登録す る。
(6) 5行目を処理する。 文章を読み上げ対象として追加登録する。
( 7) 6行目を処理する。 く c o mm e n t ) タグは、 声の設定テーブルで [読み上げ OF F] 設定なので、 対応する く/c omm e n t;〉 タグまで読み飛 ばす。
(8) 7行目を処理する。 く b r〉 く c e n t e r〉 の両タグを読み飛ばす。 次の く ί o n t s i z e = 2〉 により、 声設定を、 (男声、 大きさ = 2、 高さ = 3 ) に変更して、 「読み上げ補助情報」 に格納、 また、 く Z f o n t〉 タグの 終了までのテキストを読み上げ対象として追加登録する。
(9) 8行目も、 同様に 〈 f o n t s i z e = 5) に対応して (男声、 大き さ = 5、 高さ =4) に変更して 「読み上げ補助情報」 に格納、 また、 〈/ f o n t ) タグの終了までのテキス トを読み上げ対象として登録する。
(1 0) 次に、 声の設定を初期状態に戻して、 (男声、 大きさ = 3, 高さ = 3) に戻して、 テキス トも登録。
(1 1 ) 9行目は、 テキス トのみ追加。 〈b r〉 タグは無視。
(1 2) 1 0行目は、 「それには、 」 までを読み上げ対象テキス ト情報に登録。 次に
〈a h r e f ) に対応して、 声の設定を初期状態に戻して、 以降のテキス トを 登録。
( 1 3) 1 1行目はテキストのみ追加。 く b r〉 タグは無視。
( 1 4) 1 2、 1 3行目は、 タグを無視して、 終了。
この結果、 「読み上げ対象テキス ト情報」 、 「読み上げ補助情報」 には、 下記の 情報が格納される。 音声合成部は、 これらの情報を解釈しながら、 音声合成を行 以上のように、 読み分け手段 1 5により ドキュメントを構成するタグの情報を
用いて、 きめ細かい読み分けが可能となる。 たとえば、 H T M Lの 「見出し」 部 分のみ 「読む」 指定にしておけば、 一般的には大事と思われる部分だけ抽出して 読み上げることになる。 また、 フォントの大きいところは大きい声で読み上げ、 小さいところは小さい声で読み上げるなどの指定も可能になるため、 画面を見な くても、 一様に読み上げたのでは伝わらない文章のニュアンスまで音声合成で読 み上げることが可能になる。
<他の例 >
前記属性解析手段 2でドキュメント中のタグを解析することにより、 さまざま な情報がわかる。 H T M Lの場合だと、 ページのタイ トル部、 見出し、 内容のテ キス ト、 リンク、 メール宛先他、 いろいろなタグがドキュメント中に記述され、 画面上では、 タグに応じて文字サイズゃ色など書き分けられている。
そこで、 これら情報に対応した読み上げ条件を、 タグの意味内容に応じて、 設 定する。 その設定をタグ対応であらかじめ図示しないテーブルに記憶しておけば、 タグの解析ごとにテーブルを参照して、 同一のタグは常に同一の音声で読み出し たり、 文字の大きさに対応して読み出し音声を大きく したり小さくすることがで きるので、 タグの本来の情報内容に対応して読み上げ条件を設定することができ、 タグ情報を音声として確認できる。
本発明によれば、 ドキュメントにあらかじめ設定してある属性情報をそのまま 利用して、 ドキュメン トの読み分けが可能であり、 読み分けのための属性情報を ドキュメント中にいちいち設定する必要がない。
そして、 個別読み上げ条件設定手段 5により属性ごとに設定される読み上げ条 件が、 前記属性の本来の意味と関連付けた場合、 読み上げた音声から、 属性が指 定する本来の意味を想起可能であり、 音声により ドキュメントの読み上げ内容を 視覚的に理解できる c 産業上の利用可能性
パーソナルコンピュ一タ、 ヮードプロセッサ等のテキス トデータを极うことの できる情報処理装置や、 H T M L文書を扱うことのできるィンターネッ ト端末に 利用可能である。
Claims
1 . 属性付きのドキュメン トの内容を解析して、 音声合成手段により ドキュメン ト中のテキスト部分を読み上げる装置において、
前記属性は、 読み上げ条件とは無関係に定められたものであり、 ドキュメント 全体に対する読み上げ条件を設定する基本読み上げ条件設定手段と、
属性ごとに読み上げ条件を設定する個別読み上げ条件設定手段と、
ドキュメント読み上げの際に、 原則として前記基本読み上げ条件設定手段で設 定した基本読み上げ条件を参照してテキスト部分を読み上げるとともに、 個別読 み上げ条件を有するテキス ト部分では基本読み上げ条件に優先して個別読み上げ 条件を参照して読み分ける、 読み分け手段と、
を備えたことを特徴とする ドキュメント読み上げ装置。
2 . 前記読み上げ条件とは、 少なく とも、 読み上げ音声の音質、 音量、 ァクセン ト、 読み上げる ·読み上げないことの選択、 のいずれかであることを特徴とする 請求項 1記載のドキュメント読み上げ装置。
3 . 個別読み上げ条件設定手段により属性ごとに設定される読み上げ条件は、 前 記属性の本来の意味と関連付けられ、 読み上げた音声から、 属性が指定する本来 の意味を想起可能とすることを特徴とする請求項 1記載のドキュメント読み上げ
4 . 前記読み上げ条件を記憶しておく読み上げ条件記憶手段を備えたことを特徴 とする請求項 1記載のドキュメント読み上げ装置。
5 . 前記属性は、 前記ドキュメン トの表示を制御するためのものであることを特 徴とする請求項 1記載のドキュメント読み上げ装置。
6 . 前記ドキュメン トは、 H T M L文書であり、 前記属性はタグ情報であること を特徴とする請求項 1記載のドキュメント読み上げ装置。
7 . 音声合成手段による ドキュメント中のテキス ト部分の読み上げを制御する方 法であって、
前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定し、 前記判定結果に基づいて前記属性により表示制御されるテキス ト部分の読み上
げ条件を変更することを特徴とする読み上げ制御方法。
8 . 前記属性の種類に応じて前記読み上げ条件を変更することを
特徴とする請求項 7記載の読み上げ制御方法。
9 . 音声合成手段により ドキュメント中のテキス ト部分を読み上げさせるコンビ ユータに、
前記ドキュメント中の該ドキュメントの表示を制御するための属性を判定させ る手順と、
前記判定結果に基づいて前記属性により表示制御されるテキス ト部分の読み上 げ条件を変更させる手順と、
を実行させるプログラムを記録したコンピュータが読み取り可能な記録媒体。
1 0 . 前記属性の種類に応じて前記読み上げ条件を変更する手順を実行させる前 記プロダラムを記録した請求項 9記載のコンピュータ読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99910830A EP1077403A4 (en) | 1998-05-15 | 1999-04-02 | HIGH VOICE READING DEVICE, HIGH VOICE READING CONTROL METHOD, AND RECORDING MEDIUM |
US09/709,458 US6397183B1 (en) | 1998-05-15 | 2000-11-13 | Document reading system, read control method, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10/134085 | 1998-05-15 | ||
JP10134085A JPH11327870A (ja) | 1998-05-15 | 1998-05-15 | ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US09/709,458 Continuation US6397183B1 (en) | 1998-05-15 | 2000-11-13 | Document reading system, read control method, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
WO1999060474A1 true WO1999060474A1 (fr) | 1999-11-25 |
Family
ID=15120071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP1999/001760 WO1999060474A1 (fr) | 1998-05-15 | 1999-04-02 | Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement |
Country Status (4)
Country | Link |
---|---|
US (1) | US6397183B1 (ja) |
EP (1) | EP1077403A4 (ja) |
JP (1) | JPH11327870A (ja) |
WO (1) | WO1999060474A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1182644A2 (en) * | 2000-08-14 | 2002-02-27 | Pioneer Corporation | Method of synthesizing voice |
Families Citing this family (136)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123445A (ja) * | 2000-10-12 | 2002-04-26 | Ntt Docomo Inc | 情報配信サーバおよび情報配信システムならびに情報配信方法 |
EP1580962A3 (en) | 2000-02-21 | 2011-12-28 | NTT DoCoMo, Inc. | Information distributing method, information distributing system, information distributing server, mobile communication network system, and communication service providing method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2001343989A (ja) * | 2000-03-31 | 2001-12-14 | Tsukuba Seiko Co Ltd | 朗読装置 |
US6856958B2 (en) * | 2000-09-05 | 2005-02-15 | Lucent Technologies Inc. | Methods and apparatus for text to speech processing using language independent prosody markup |
US6513008B2 (en) * | 2001-03-15 | 2003-01-28 | Matsushita Electric Industrial Co., Ltd. | Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates |
JP3884951B2 (ja) * | 2001-12-14 | 2007-02-21 | キヤノン株式会社 | 情報処理装置及びその方法、プログラム |
US20040260551A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | System and method for configuring voice readers using semantic analysis |
US20050096909A1 (en) * | 2003-10-29 | 2005-05-05 | Raimo Bakis | Systems and methods for expressive text-to-speech |
US8103505B1 (en) * | 2003-11-19 | 2012-01-24 | Apple Inc. | Method and apparatus for speech synthesis using paralinguistic variation |
WO2006008871A1 (ja) * | 2004-07-21 | 2006-01-26 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
US20060106618A1 (en) | 2004-10-29 | 2006-05-18 | Microsoft Corporation | System and method for converting text to speech |
CN1985233B (zh) * | 2005-06-20 | 2010-09-29 | 日立公共系统工程株式会社 | 客户端终端 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8996384B2 (en) * | 2009-10-30 | 2015-03-31 | Vocollect, Inc. | Transforming components of a web page to voice prompts |
US9811602B2 (en) * | 2009-12-30 | 2017-11-07 | International Business Machines Corporation | Method and apparatus for defining screen reader functions within online electronic documents |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US20130124190A1 (en) * | 2011-11-12 | 2013-05-16 | Stephanie Esla | System and methodology that facilitates processing a linguistic input |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
JP5634455B2 (ja) | 2012-08-16 | 2014-12-03 | 株式会社東芝 | 音声学習装置、方法およびプログラム |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
JP6290230B2 (ja) * | 2013-10-10 | 2018-03-07 | 株式会社東芝 | 音訳作業支援装置、音訳作業支援方法及びプログラム |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9398392B2 (en) * | 2014-06-30 | 2016-07-19 | Microsoft Technology Licensing, Llc | Audio calibration and adjustment |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6392445B2 (ja) | 2015-03-24 | 2018-09-19 | 株式会社東芝 | 音訳支援装置、音訳支援方法及び音訳支援プログラム |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9912800B2 (en) | 2016-05-27 | 2018-03-06 | International Business Machines Corporation | Confidentiality-smart voice delivery of text-based incoming messages |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10891939B2 (en) * | 2018-11-26 | 2021-01-12 | International Business Machines Corporation | Sharing confidential information with privacy using a mobile phone |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01204100A (ja) * | 1988-02-09 | 1989-08-16 | Ricoh Co Ltd | テキスト音声合成方式 |
JPH02289071A (ja) * | 1989-03-22 | 1990-11-29 | Ricoh Co Ltd | 音声出力機能付ワードプロセッサ |
JPH06337876A (ja) * | 1993-05-28 | 1994-12-06 | Toshiba Corp | 文章読み上げ装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5500919A (en) * | 1992-11-18 | 1996-03-19 | Canon Information Systems, Inc. | Graphics user interface for controlling text-to-speech conversion |
JPH08272388A (ja) | 1995-03-29 | 1996-10-18 | Canon Inc | 音声合成装置及びその方法 |
JP3094896B2 (ja) | 1996-03-11 | 2000-10-03 | 日本電気株式会社 | 文章読み上げ方式 |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US6006187A (en) * | 1996-10-01 | 1999-12-21 | Lucent Technologies Inc. | Computer prosody user interface |
US6018710A (en) * | 1996-12-13 | 2000-01-25 | Siemens Corporate Research, Inc. | Web-based interactive radio environment: WIRE |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US6216104B1 (en) * | 1998-02-20 | 2001-04-10 | Philips Electronics North America Corporation | Computer-based patient record and message delivery system |
-
1998
- 1998-05-15 JP JP10134085A patent/JPH11327870A/ja active Pending
-
1999
- 1999-04-02 EP EP99910830A patent/EP1077403A4/en not_active Ceased
- 1999-04-02 WO PCT/JP1999/001760 patent/WO1999060474A1/ja active Application Filing
-
2000
- 2000-11-13 US US09/709,458 patent/US6397183B1/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01204100A (ja) * | 1988-02-09 | 1989-08-16 | Ricoh Co Ltd | テキスト音声合成方式 |
JPH02289071A (ja) * | 1989-03-22 | 1990-11-29 | Ricoh Co Ltd | 音声出力機能付ワードプロセッサ |
JPH06337876A (ja) * | 1993-05-28 | 1994-12-06 | Toshiba Corp | 文章読み上げ装置 |
Non-Patent Citations (1)
Title |
---|
See also references of EP1077403A4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1182644A2 (en) * | 2000-08-14 | 2002-02-27 | Pioneer Corporation | Method of synthesizing voice |
EP1182644A3 (en) * | 2000-08-14 | 2002-12-11 | Pioneer Corporation | Method of synthesizing voice |
Also Published As
Publication number | Publication date |
---|---|
EP1077403A4 (en) | 2001-10-31 |
JPH11327870A (ja) | 1999-11-30 |
US6397183B1 (en) | 2002-05-28 |
EP1077403A1 (en) | 2001-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO1999060474A1 (fr) | Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement | |
US5899975A (en) | Style sheets for speech-based presentation of web pages | |
JP3142803B2 (ja) | テキストを音声に変換するシンセサイザ | |
JP5896606B2 (ja) | トーキングeブック | |
US8340956B2 (en) | Information provision system, information provision method, information provision program, and information provision program recording medium | |
US20060129927A1 (en) | HTML e-mail creation system, communication apparatus, HTML e-mail creation method, and recording medium | |
JP2007128506A (ja) | ドキュメント読み上げ装置、読み上げ制御方法及び記録媒体 | |
JP4311710B2 (ja) | 音声合成制御装置 | |
JP2004213309A (ja) | 情報表示制御装置及びプログラム | |
JPH09325787A (ja) | 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置 | |
JPH08272388A (ja) | 音声合成装置及びその方法 | |
JP2002268664A (ja) | 音声変換装置及びプログラム | |
US20020042040A1 (en) | Talking book method and system | |
JP2000214874A (ja) | 音声合成装置及びその方法、コンピュ―タ可読メモリ | |
JP2007127994A (ja) | 音声合成方法及び音声合成装置並びにプログラム | |
JPH0916597A (ja) | 文章推敲装置及び方法 | |
JP2004287192A (ja) | 合成音声編集装置及び合成音声編集プログラム | |
JPH08221095A (ja) | 文章読み上げ方法 | |
JP2001027926A (ja) | 文書表示方法及びその実施装置並びにその処理プログラムを記録した記録媒体 | |
JP3308929B2 (ja) | 音声入力機能付き情報処理装置 | |
JPH07114537A (ja) | 音声出力処理方式 | |
JP2003150182A (ja) | 音声合成装置、音声合成装置の制御方法、音声合成制御プログラム及び記録媒体 | |
JP2003208191A (ja) | 音声合成システム | |
JPH0589124A (ja) | 文書作成装置 | |
JPH10254861A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AK | Designated states |
Kind code of ref document: A1 Designated state(s): US |
|
AL | Designated countries for regional patents |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE |
|
DFPE | Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101) | ||
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
WWE | Wipo information: entry into national phase |
Ref document number: 09709458 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 1999910830 Country of ref document: EP |
|
WWP | Wipo information: published in national office |
Ref document number: 1999910830 Country of ref document: EP |