WO2001001390A1 - Trieuse-liseuse electronique - Google Patents

Trieuse-liseuse electronique Download PDF

Info

Publication number
WO2001001390A1
WO2001001390A1 PCT/JP2000/004109 JP0004109W WO0101390A1 WO 2001001390 A1 WO2001001390 A1 WO 2001001390A1 JP 0004109 W JP0004109 W JP 0004109W WO 0101390 A1 WO0101390 A1 WO 0101390A1
Authority
WO
WIPO (PCT)
Prior art keywords
electronic document
reading
document processing
sentence
attribute information
Prior art date
Application number
PCT/JP2000/004109
Other languages
English (en)
French (fr)
Inventor
Katashi Nagao
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP00940814A priority Critical patent/EP1109151A4/en
Priority to US09/763,832 priority patent/US7191131B1/en
Publication of WO2001001390A1 publication Critical patent/WO2001001390A1/ja
Priority to US10/926,805 priority patent/US6985864B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to a background art related to an electronic document processing apparatus for processing an electronic document.
  • WW W Wi rid Wide Web
  • WWW is a system that performs document processing such as creating, publishing, or sharing documents and showing the way of new style documents.
  • document processing such as creating, publishing, or sharing documents and showing the way of new style documents.
  • sophisticated document processing beyond the WWW such as classification and summarization of documents based on the contents of the documents, is required.
  • the mechanical processing of the contents is essential.
  • HTML Hyper Text Markup Language
  • W Hyper Text Markup Language
  • the WWW is a system that shows the way new documents should be.
  • advanced document processing could not be performed.
  • performing advanced document processing requires mechanical processing of the document.
  • a user uses an information search system such as a so-called search engine to search for a desired information from a huge amount of information provided through the Internet.
  • This information search system is a system that searches for information based on specified keywords and provides the searched information to users. The user selects desired information from the provided information.
  • an information search system information can be easily searched in this way, but the user can read the information provided by the search, understand the outline, and determine whether or not it is the desired information. You need to judge. This is a heavy burden on users, especially when the amount of information provided is large. So, recently, text information, That is, a so-called automatic summarization system, which is a system for automatically summarizing the contents of a document, has been attracting attention.
  • An automatic summarization system is a system that creates summaries by reducing the length and complexity of textual information while preserving the original information, that is, the meaning of the document. The user can understand the outline of the document by reading the summary created by this automatic summary creation system.
  • automatic summarization systems use sentences and words in text as a single unit, assigning them some sort of information-based importance, and ordering them. Then, the automatic summarization system collects sentences and words ordered in a higher order and creates a summary.
  • Speech synthesis is essentially to generate speech mechanically based on the results of speech analysis and simulation of human speech generation mechanisms, and assembles elements or phonemes of individual languages under digital control. Things.
  • An object of the present invention is to provide an electronic document processing apparatus, an electronic document processing method, and a recording medium on which an electronic document processing program is recorded.
  • An electronic document processing apparatus that achieves the above-mentioned object is, in an electronic document processing apparatus that processes an electronic document, a document input unit to which the electronic document is input, and a speech synthesizer reads out based on the electronic document. And voice reading data generating means for generating voice reading data.
  • Such an electronic document processing device generates read-aloud data based on an electronic document.
  • An electronic document processing method that achieves the above object is a digital document processing method for processing an electronic document, the method comprising: a document inputting step of inputting an electronic document; And a voice reading data generating step of generating voice reading data for reading aloud.
  • Such an electronic document processing method generates read-aloud data based on an electronic document.
  • the recording medium on which the gram is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • Such a recording medium on which the electronic document processing program according to the present invention is recorded provides an electronic document processing program for generating voice reading data based on an electronic document.
  • an electronic document processing apparatus for achieving the above-mentioned object is a digital document processing apparatus for processing an electronic document, wherein the electronic document processing apparatus has a plurality of elements and has a hierarchical structure. It is characterized by comprising a document input means for inputting the electronic document to which the tag information shown is given, and a document reading means for reading out the electronic document by voice synthesis based on the tag information.
  • Such an electronic document processing apparatus inputs an electronic document to which tag information indicating the internal structure of an electronic document having a plurality of elements and a hierarchical structure is added, and to this electronic document, Read out the electronic document directly based on the assigned tag information.
  • Such an electronic document processing method includes: inputting an electronic document to which tag information indicating the internal structure of an electronic document having a plurality of elements and having a hierarchical structure is added; Read out the electronic document directly based on the assigned tag information.
  • a recording medium on which an electronic document processing program according to the present invention for achieving the above object is recorded is a computer readable recording medium on which a computer controllable electronic document processing program for processing an electronic document is recorded.
  • the document processing program includes: a document input step of inputting the electronic document to which tag information indicating an internal structure of the electronic document having a plurality of elements and having a hierarchical structure is added; And a text-to-speech process for reading out an electronic document by speech synthesis.
  • a recording medium on which such an electronic document processing program according to the present invention is recorded receives an electronic document to which tag information indicating the internal structure of an electronic document having a plurality of elements and a hierarchical structure is added.
  • an electronic document processing program for directly reading an electronic document based on tag information given to the electronic document is provided.
  • an electronic document processing apparatus that achieves the above-described object is an electronic document processing apparatus that processes an electronic document, comprising: a summary sentence creating unit that creates an abstract of the electronic document; Voice reading data generating means for generating voice reading data to be read out by the synthesizer.
  • the voice reading data generating means includes a portion of the electronic document included in the summary sentence which is included in the summary sentence. It is characterized by generating voice-to-speech data by adding attribute information indicating that the text is read out with emphasis compared to the non-existing part.
  • Such an electronic document processing apparatus adds attribute information indicating that a portion included in an abstract sentence of an electronic document is emphasized and read out compared to a portion not included in the abstract sentence. Generate speech-to-speech data.
  • An electronic document processing method that achieves the above-mentioned object is a digital document processing method for processing an electronic document, the method comprising: creating a summary sentence for generating a summary sentence of the electronic document; And a voice reading data generating step for generating voice reading data for reading by the voice reading data generating step.
  • a part included in the summary sentence of the electronic document is not included in the summary sentence. It is characterized in that voice reading data is generated by adding attribute information indicating that reading is performed with emphasis compared to the part.
  • a part included in the abstract sentence of the electronic document is provided with attribute information indicating that the part is emphasized and read out as compared with a part not included in the abstract sentence.
  • a recording medium on which an electronic document processing program according to the present invention for achieving the above object is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • the electronic document processing program includes a summary sentence creating step of creating a summary sentence of the electronic document, and a speech reading data generation step of generating speech reading data for reading the electronic document by a speech synthesizer.
  • the part of the electronic document included in the summary sentence is given attribute information indicating that it is read out with emphasis compared to the part not included in the summary sentence, so that the voice read-out data is provided.
  • -Data is generated.
  • Such a recording medium on which the electronic document processing program according to the present invention is recorded indicates that, in the electronic document, a portion included in the abstract is read out with emphasis compared to a portion not included in the abstract. It provides an electronic document processing program that generates speech-to-speech data by adding attribute information.
  • Such an electronic document processing apparatus directly reads out a portion included in the abstract sentence of the electronic document with emphasis compared to a portion not included in the abstract sentence.
  • An electronic document processing method that achieves the above object is a digital document processing method for processing an electronic document, comprising: a summary sentence creating step of creating a summary sentence of the electronic document; It is characterized in that the part included in the sentence is provided with a document reading process that emphasizes and reads the part compared to the part not included in the summary sentence.
  • a portion included in an abstract sentence of an electronic document is directly read out with emphasis compared to a portion not included in the abstract sentence.
  • the recording medium on which the electronic document processing program according to the present invention for achieving the above object is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • the abstract sentence creation process of creating an abstract sentence of the electronic document, and the portion of the electronic document included in the abstract sentence is read out with emphasis compared to the portion not included in the abstract sentence It has a document reading process.
  • Such a recording medium on which the electronic document processing program according to the present invention is recorded is an electronic document in which a portion included in an abstract sentence is read out with emphasis compared to a portion not included in the abstract sentence. Provide a processing program.
  • an electronic document processing device that achieves the above-mentioned object, in an electronic document processing device that processes an electronic document, comprises a paragraph, a sentence, and a phrase, from among a plurality of elements constituting the electronic document.
  • Detecting means for detecting at least two of the start positions; and detecting, based on the detection result obtained by the detecting means, at least two start positions of a paragraph, a sentence, and a phrase with respect to the electronic document. It is characterized by comprising: voice reading data generation means for generating voice reading data to be read out by a voice synthesizer by giving attribute information indicating that a different pause period is provided.
  • the electronic document processing apparatus generates speech-to-speech data by adding attribute information indicating that at least two pause positions of paragraphs, sentences, and phrases are provided with different pause periods.
  • An electronic document processing method that achieves the above object is a digital document processing method for processing an electronic document, the method comprising: selecting a paragraph, a sentence, and a phrase from a plurality of elements constituting the electronic document. Based on a detection step of detecting at least two start positions, and a detection result obtained in the detection step, the electronic document includes at least one of a paragraph, a sentence, and a phrase. At least two start positions are provided with attribute information indicating that different pause periods are to be provided, so that a voice reading data generation step of generating voice reading data for reading by a voice synthesizer is provided. It is characterized by.
  • Such an electronic document processing method generates speech-to-speech data by adding attribute information indicating that at least two pause positions of paragraphs, sentences, and phrases are provided with different pause periods.
  • a recording medium on which an electronic document processing program according to the present invention for achieving the above object is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • the electronic document processing program detects a start position of at least two of a paragraph, a sentence, and a phrase from among a plurality of elements constituting the electronic document, and a detection result obtained in the detection process. Attribute information indicating that at least two start positions of paragraphs, sentences, and phrases have different pause periods based on the electronic document, based on which And a voice reading data generating step of generating reading data.
  • Such a recording medium on which the electronic document processing program according to the present invention is recorded is characterized in that at least two start positions of a paragraph, a sentence, and a phrase are provided with attribute information indicating that different pause periods are provided from each other.
  • an electronic document processing program for generating read-aloud data is provided.
  • an electronic document processing device that achieves the above-mentioned object, in an electronic document processing device that processes an electronic document, comprises a paragraph, a sentence, and a phrase, from among a plurality of elements constituting the electronic document.
  • Less of us Detecting means for detecting at least two start positions, and, based on the detection result obtained by the detecting means, providing an electronic document by providing different pause periods at least at two start positions of a paragraph, a sentence, and a phrase. It is characterized by having a text-to-speech means for reading out speech by speech synthesis.
  • Such an electronic document processing device directly reads out an electronic document by providing different pause periods at least at the start positions of paragraphs, sentences, and phrases.
  • An electronic document processing method that achieves the above object is a digital document processing method for processing an electronic document, the method comprising: selecting a paragraph, a sentence, and a phrase from a plurality of elements constituting the electronic document.
  • Such an electronic document processing method directly reads out an electronic document by providing different pause periods at least at the start positions of paragraphs, sentences, and phrases.
  • a recording medium on which an electronic document processing program according to the present invention for achieving the above-mentioned object is recorded is a computer-readable recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • the processing program detects a start position of at least two of a paragraph, a sentence, and a phrase from among a plurality of elements constituting the electronic document, and performs a process based on a detection result obtained in the detection process. At least two pauses at the beginning of paragraphs, paragraphs, sentences, and phrases are provided with different pause periods, and the text-to-speech reading of the electronic document is performed by speech synthesis. And a process.
  • Such a recording medium on which the electronic document processing program according to the present invention is recorded includes an electronic document processing program for directly reading an electronic document by providing different pause periods at least at the start positions of paragraphs, sentences, and phrases. I will provide a.
  • FIG. 1 is a block diagram illustrating a configuration of a document processing apparatus shown as an embodiment of the present invention.
  • FIG. 2 is a diagram showing the internal structure of a document.
  • FIG. 3 is a diagram for explaining the display contents of the display unit, and is a diagram showing a window in which the internal structure of the document is displayed by tags.
  • FIG. 4 is a flowchart illustrating a series of processes when reading a document.
  • FIG. 5 is a diagram illustrating an example of a received or created Japanese document, and is a diagram illustrating a window displaying the document.
  • FIG. 6 is a diagram showing an example of a received or created English document, and is a diagram showing a window displaying the document.
  • FIG. 7A is a diagram showing a Tada file which is the tagged Japanese document shown in FIG. 5, and is a diagram showing a heading portion.
  • FIG. 7B is a view showing a tag file which is the tagged Japanese document shown in FIG. 5, and is a view showing the last paragraph.
  • FIG. 8 is a diagram showing a tag file which is the tagged English document shown in FIG.
  • FIG. 9A is a diagram showing a speech-to-speech file generated from the tag file shown in FIG. 7, and is a diagram corresponding to an excerpt of a heading portion shown in FIG. 7A.
  • FIG. 9B is a diagram showing a speech-to-speech file generated from the tag file shown in FIG. 7, and is a diagram corresponding to an excerpt of the last paragraph shown in FIG. 7B.
  • FIG. 10 is a diagram showing a voice reading file generated from the tag file shown in FIG.
  • FIG. 11 is a flowchart illustrating a series of processes for generating a text-to-speech file.
  • FIG. 12 is a diagram showing a user interface window.
  • FIG. 13 is a diagram showing a window displaying a document.
  • FIG. 14 is a diagram illustrating a window displaying a document, and is a diagram illustrating a state in which a display area for displaying a summary is larger than the display area illustrated in FIG. 13.
  • FIG. 15 is a flowchart illustrating a series of processes when creating a summary sentence.
  • FIG. 16 is a flowchart illustrating a series of processes when performing active diffusion.
  • FIG. 17 is a diagram showing a connection structure of elements for explaining the active diffusion process.
  • FIG. 18 is a flowchart for explaining a series of processes when performing link processing of active diffusion.
  • FIG. 19 is a diagram showing a window displaying a document and its summary.
  • FIG. 20 is a flowchart illustrating a series of processes when a new summary is created by changing the display range of the display area for displaying the summary.
  • FIG. 21 is a diagram showing a window displaying a document and a summary sentence thereof, showing a state in which the summary sentence is displayed in the window shown in FIG. 14.
  • FIG. 22 is a flowchart for explaining a series of processes when a summary sentence is created and a document is read aloud.
  • FIG. 23 is a flowchart illustrating a series of processes when generating a speech-to-speech file after creating a summary sentence.
  • the document processing apparatus shown as an embodiment of the present invention has a function of synthesizing a given electronic document and a summary sentence created from the electronic document using a speech synthesis engine and reading out the electronic document.
  • a speech synthesis engine When reading a sentence, for the elements included in the summary sentence, the volume is read out at an increased volume, and a predetermined pause period is provided at the start position of the steps, sentences, and phrases that constitute these electronic documents and the summary sentence. Is to read aloud.
  • an electronic document is simply referred to as a document.
  • the document processing apparatus includes a main body 10 having a control unit 11 and an interface 12 and information input by a user.
  • An input unit 20 for supplying to the main unit 10, a receiving unit 21 for receiving an external signal and supplying to the main unit 10, and a communication unit for performing communication processing between the server 24 and the main unit 10 22; an audio output unit 30 for outputting information output from the main unit 10 as audio; a display unit 31 for displaying information output from the main unit 10; and a recording medium 33.
  • It has a recording / reproducing unit 32 for recording and / or reproducing information by using a hard disk drive (HDD) 34.
  • HDD hard disk drive
  • the main body 10 has a control unit 11 and an interface 12 and constitutes a main part of the document processing apparatus.
  • the control unit 11 includes a CPU (Central Processing Unit) 13 for executing processing in the document processing apparatus, a RAM (Random Access Memory) 14 as a volatile memory, and a ROM (Non-volatile memory). Read Only Memory) 15.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Non-volatile memory
  • the CPU 13 performs control for executing the program according to, for example, the ROM 15 or the program recorded on the hard disk.
  • the RAM I 4 temporarily stores programs and data necessary for the CPU 13 to execute various processes as needed.
  • the interface 12 is connected to the input unit 20, the receiving unit 21, the communication unit 22, the display unit 31, the recording / reproducing unit 32, and the hard disk drive 34.
  • the interface 12 receives data supplied through the input unit 20, the receiving unit 21 and the communication unit 22 under the control of the control unit 11, and transmits data to the display unit 31.
  • Output, recording / reproducing section 32 For data input / output with respect to 32, adjust the data input / output timing and convert the data format.
  • the input unit 20 receives a user input to the document processing apparatus.
  • the input unit 20 is constituted by, for example, a keyboard and a mouse.
  • the user can, for example, input a keyboard using a keyboard or select and input an element of a document displayed on the display unit 31 using a mouse.
  • An element is an element that constitutes a document, and includes, for example, a document, a sentence, and a word.
  • the receiving unit 21 receives data transmitted from outside to the document processing apparatus via, for example, a communication line.
  • the receiving unit 21 receives a plurality of electronic documents and an electronic document processing program for processing these documents.
  • the data received by the receiving unit 21 is supplied to the main unit 10.
  • the communication unit 22 is composed of, for example, a modem, a terminal adapter, and the like, and is connected to the Internet 23 via a telephone line.
  • a server 24 storing data such as documents is connected to the Internet 23, and the communication unit 22 accesses the server 24 via the Internet 23, and the server 24 receives data from the server 24. Data can be received.
  • the data received by the communication unit 22 is supplied to the main unit 10.
  • the audio output unit 30 is configured by, for example, a speaker. An electrical audio signal obtained by performing voice synthesis by a voice synthesis engine or the like and other various voice signals are input to the voice output unit 30 via the interface 12.
  • the audio output unit 30 converts the input signal into a voice and outputs it.
  • Character information and image information are input to the display unit 31 via the interface 12.
  • the display unit 31 displays the input information. More specifically, the display unit 31 is, for example, a cathode ray tube (Cathode Ray Tu be; CRT) and liquid crystal display (Liquid Crystal Display; LCD). For example, one or more windows are displayed, and characters and figures are displayed on these windows.
  • CTR cathode ray tube
  • LCD liquid crystal display
  • the recording / reproducing unit 32 records and / or reproduces data on / from a removable recording medium 33 such as a floppy disk, an optical disk, or a magneto-optical disk under the control of the control unit 11.
  • the recording medium 33 stores an electronic document processing program for processing a document and a document to be processed.
  • the hard disk drive 34 records data and performs Z or reproduction on a hard disk which is a large-capacity magnetic recording medium.
  • Such a document processing device receives a desired document and displays it on the display unit 31 as follows.
  • the user operates the input unit 20 to start a program for performing communication via the Internet 23, and the URL (Uniform) of the server 24 (search engine) is started.
  • the control unit 11 controls the communication unit 22 and accesses the server 24.
  • the server 24 outputs the data of the search screen to the communication unit 22 of the document processing device via the Internet 23.
  • the CPU 13 outputs this data to the display unit 31 via the interface 12 and displays it.
  • the communication unit 22 and the search engine communicate with the search engine via the Internet 23.
  • a search command is transmitted to the server 24 that has not been executed.
  • the server 24 executes the search command and transmits the obtained search result to the communication unit 22 via the Internet 23.
  • the control unit 11 controls the communication unit 22 to receive the search result transmitted from the server 24 and display a part of the search result on the display unit 31.
  • the document processing apparatus when the user inputs a keyword such as “TCP” using the input unit 20 and issues a search command, the document processing apparatus includes the keyword “TCP” from the server 24. Various information is transmitted, and, for example, the following document is displayed on the display unit 31.
  • ARPANET Transmission Control Protocol / Internet Protocol
  • the official name of the ARPANET is the Advanced Research Project Agency Network, which is a part of the American Department of Defense's Department of Defense (DOD).
  • DOD Department of Defense
  • the Defense Advanced Research Project Agency (DARPA) is a network of bucket exchanges for experiments and research that has been built as a sponsor.
  • ARPANET departed from a very small network connecting the host computers of universities and research institutes with 50 kbps lines.
  • each element such as an internal structure, a document, a sentence, a vocabulary element, a normal link, a reference / referenced link, and the like by the tagging are included in the tag.
  • open circles “ ⁇ ” are document elements such as vocabulary, segments, and sentences, that is, elements, and the lowest open circles “ ⁇ ” are vocabulary elements corresponding to the lowest-level words in the document.
  • a solid line is a normal link indicating a connection between elements of a document such as a word, a phrase, a clause, a sentence, and the like.
  • the dashed line is the reference link indicating the dependency relationship between the reference and the referenced.
  • the internal structure of a document is, from top to bottom, document (document), subdivision (subdivision), paragraph (paragraph), sentence (sentence), subsentence section, subsentential segment), - -, it is composed g ⁇ Ereme down Bok force 3 ⁇ 4 et al. Of these, subdivisions and paragraphs are optional.
  • semantic and pragmatic tagging is There are tags that describe the syntactic structure that indicates the referent of a pronoun, etc., and describe semantic information, such as the meaning of polysemous words.
  • Tagging in the present embodiment is in the form of XML (extensible Markup Language) as in HTML (Hyper Text Markup Language).
  • ⁇ sentence>, ⁇ noun>, ⁇ noun phrase>, ⁇ verb>, ⁇ verb phrase>, ⁇ adjective verb>, ⁇ adjective verb phrase> are sentence, noun, noun phrase, verb, verb phrase, respectively.
  • a prepositional phrase or a postpositional phrase containing an adjective / postpositional phrase / adjective phrase, adjective phrase Represents the syntactic structure of a sentence such as an adjective verb phrase.
  • Tags are placed in front of and just after the end of the element. A tag placed immediately after the end of an element is indicated by the symbol "" to indicate that the element is at the end.
  • timeO indicates multiple meanings of the word “time”, that is, the 0th meaning of the multiple meanings. Specifically, “time” has a noun and a verb, but here it indicates that "time” is a noun.
  • the word “orange” has at least the meaning of a plant name, color, and fruit, but these can also be distinguished by their meaning.
  • a syntactic structure in a window 101 of a display unit 31.
  • the vocabulary element is displayed on the right half 103 and the internal structure of the sentence is displayed on the left half 102.
  • the syntactic structure can be displayed not only for documents written in Japanese but also for documents written in any language such as English.
  • Relation “x” indicates a relation attribute.
  • This relationship attribute describes the syntactic, semantic, and rhetorical interactions.
  • Grammar functions such as subject, object, and indirect object, subject roles such as actor, actor, beneficiary, etc., and rhetorical relations such as reason, result, etc. are described by this relation attribute.
  • relational attributes are described for relatively easy grammatical functions such as subjects, objects, and indirect objects.
  • the document processing device can receive the document tagged in this way.
  • the CPU 13 activates the voice reading program of the electronic document processing program recorded on the ROM 15 or the hard disk by the CPU 13, the document processing apparatus goes through a series of steps as shown in FIG. Read the document aloud.
  • FIG. Read the document aloud.
  • the document processing device receives a tagged document in step S1. It is assumed that a tag necessary for performing voice synthesis is added to this document as described later. Further, the document processing device can receive a tagged document and create a document by newly adding a tag necessary for performing speech synthesis to the document. Further, the document processing apparatus may receive an untagged document, tag the document including a tag necessary for performing speech synthesis, and create a tag file. In the following, the tagged document prepared as received or created in this way is referred to as a tag file.
  • step S2 the document processing device generates a speech-to-speech file (speech-to-speech data) based on the tag file under the control of the CPU 13.
  • this speech-to-speech file is obtained from the tag in the tag file by using an attribute for speech. It is generated by deriving information and embedding this attribute information.
  • step S3 the document processing device performs a process suitable for the speech synthesis engine using the speech reading file under the control of the CPU 13.
  • this speech synthesis engine may be configured with a hardware, or may be realized with software.
  • the application program is stored in the ROM 15 of the document processing apparatus, a hard disk, or the like in advance.
  • step S4 the document processing device performs a process according to an operation performed by a user using a user interface described later.
  • the document processing apparatus can synthesize a given document by speech and read it out.
  • the document processing device accesses the server 24 shown in FIG. 1 and receives a document as a result of a search based on a keyword or the like.
  • the document processing device receives the tagged document, and newly adds a tag necessary for performing speech synthesis to the document to create the document.
  • the document processing apparatus can receive a document that has not been tagged, tag the document with tags necessary for performing speech synthesis, and create a tag file.
  • Cancer has been the leading cause of death in Japan for more than a decade. The mortality rate is increasing with age. When thinking about the health of the elderly, we cannot avoid cancer.
  • Cancer is cell proliferation and metastasis.
  • cancer genes which act as accelerators in automobiles and rapidly grow cancer
  • cancer suppressors which act as brakes.
  • metastasis cancer does not need to be so afraid. Just resection can be completely cured. Here is the importance of suppressing metastasis.
  • Cancer cells dissolve proteins (protein) between cells and create their own way to enter blood vessels and lymph vessels.
  • complex movements such as searching for a new “dwelling house” while circulating are being performed.
  • the document processing apparatus When receiving the Japanese document, the document processing apparatus displays the document in a window 110 displayed on the display unit 31 as shown in FIG.
  • the window 110 has a document name display section 1 11 for displaying the name of the document, a key input section 1 12 for entering a key word, and a document input section 1 12 for creating a summary of the document as described later.
  • Summary work that is the execution button Button 1 13 and a reading area 1 20 which displays the reading button 1 1 4 which is an execution button for reading out aloud, and a display area 130 where the document is displayed.
  • a screen lever 13 1 and buttons 13 2 and 13 3 for moving the scroll bar 13 1 up and down.
  • the original document of the tag file shown in Fig. 6 is the following English document.
  • the document processing apparatus When receiving the English document, the document processing apparatus displays the document in a window 140 displayed on the display unit 31 as shown in FIG.
  • the window 140 has a document name display area 141 on which the name of the document is displayed, a key input area 144 for inputting a key, and a document name display area, similarly to the window 110.
  • the summarization execution button 1 4 3 which is an execution button for creating a summary sentence and the It is divided into a display area 150 in which a read-out execution button 144 which is an execution button is displayed, and a display area 160 in which a document is displayed.
  • a scroll bar 161, and buttons 162 and 163 for moving the scroll bar 161 up and down are provided at the right end of the display area 160.
  • the Japanese or English documents shown in Fig. 5 or Fig. 6 are configured as tag files as shown in Fig. 7 or Fig. 8, respectively.
  • the tag file shown in Fig. 7A shows an excerpt of the heading "[Nicely Aging] Z8 Cancer Transfer, Can You Suppress !?”
  • the tag file shown in Figure 7B is the last paragraph, “This metastasis does not occur just by increasing the number of cancer cells. Cancer cells dissolve proteins and other proteins between cells, and their own path. In recent years, it has been elucidated that complex movements such as creating a new “dwelling house” while circulating and entering a blood vessel or lymphatic vessel are being elucidated. ” The paragraphs are omitted. In this case, the actual tag file consists of a single file from the heading to the last paragraph.
  • ⁇ Heading> in the heading part shown in FIG. 7A indicates that this part is a heading.
  • the last paragraph shown in FIG. 7B is provided with a tag indicating that the relation attribute is “condition” or “means”. ing.
  • the last paragraph shown in FIG. 7B shows an example of a tag required for performing the above-described speech synthesis.
  • the tags required to perform speech synthesis are those that are given when information indicating pronunciation (reading kana) is given to the original document, such as “protein”. There is. That is, in this case,
  • tags necessary for speech synthesis are attached to technical terms such as “lymphatic vessels” and difficult-to-read parts such as “dwelling house” that can be read aloud incorrectly. There is something.
  • a tag indicating that the sentence is a quote is attached to the file.
  • a tag indicating that the sentence is a question sentence is attached to the tag file (not shown).
  • step S1 shown in FIG. 4 the document processing apparatus receives or creates a document to which a tag necessary for performing speech synthesis has been added.
  • the document processing device derives attribute information for reading out from the tag in the tag file, and generates a voice-to-speech file by embedding the attribute information.
  • the document processing apparatus finds tags indicating the start positions of paragraphs, sentences, and phrases of the document, and embeds attribute information for reading out in correspondence with these tags. Also, as described later, when a document summary is created, the document processing apparatus finds, from the document, the start position of the portion included in the summary, and attribute information for increasing the volume when reading out the document. Can be embedded to emphasize that it is included in the summary.
  • the document processing apparatus generates a speech-to-speech file as shown in FIG. 9 or FIG. 10 from the tag file shown in FIG. 7 or FIG.
  • the text-to-speech file shown in Fig. 9A corresponds to the excerpt of the heading shown in Fig. 7A
  • the text-to-speech file shown in Fig. 9B It corresponds to an excerpt from the last paragraph.
  • the actual text-to-speech file is composed of a single file from the heading to the last paragraph.
  • This attribute information indicates the language that describes the document.
  • Each of these attributes indicates the starting position of a paragraph, sentence or phrase in the document.
  • the document processing device detects at least two start positions of these paragraphs, sentences, and phrases based on the tags in the tag file described above.
  • These attribute information indicate that there is a pause period of 500 milliseconds, 100 milliseconds, and 50 milliseconds, respectively, when reading out. That is, at the start of the paragraph, sentence and phrase of the document,
  • the document processing apparatus sets a pause period of 65 milliseconds obtained by adding a pause period of each paragraph, sentence, and phrase of the document, for example. Read aloud. In this way, the document processing apparatus provides a pause period corresponding to a paragraph, a sentence, and a phrase, for example, so that the length becomes shorter in the order of the paragraph, the sentence, and the phrase. Reading can be performed without discomfort taking into account.
  • This pause period does not need to be 500 milliseconds, 100 milliseconds, and 50 milliseconds at the start of the paragraph, sentence, and phrase in the document, and may be changed as appropriate. be able to.
  • the text-to-speech file also has attribute information for designating only this quotation to use another speech synthesis engine based on the tag indicating that the quotation is included in the document. It may be embedded. Further, in the text-to-speech file, attribute information for raising the intonation at the end of the sentence may be embedded based on the tag indicating the question.
  • the text-to-speech file may include, as necessary, attribute information for converting a style of an inexact expression such as so-called "Dana-tona” into a style of polite expression such as "Dan-ma-tona”. Can be embedded.
  • the document processing device instead of embedding such attribute information in the text-to-speech file, converts the style of the non-policy expression into a style of the polite expression to generate a text-to-speech file. Is also good.
  • the document processing device analyzes the received or created tag file by the CPU 13 in step S11.
  • the document processing apparatus determines the language in which the document is described, and searches for the starting position of the paragraph, sentence and phrase of the document, and the reading attribute information based on the tag.
  • step S13 the document processing device replaces the start positions of the paragraphs, sentences, and phrases of the document with the attribute information in the text-to-speech file according to CPU13.
  • the document processing apparatus automatically generates a speech-to-speech file by performing the processing shown in FIG. 11 in step S2 shown in FIG.
  • the document processing device stores the generated voice reading file in RAM 14.
  • the speech synthesis engine is provided with an identifier according to the type of language, male voice Z female voice, etc., and the information is recorded on the hard disk as, for example, an initialization file.
  • the document processing device refers to the initialization file and selects a speech synthesis engine having an identifier corresponding to the language.
  • the volume attribute information is V.
  • the document processing device converts the percentage information into absolute value information based on the attribute information, and thus obtains the absolute value, because the expression is expressed as a percentage of the increase in the default sound volume as shown in FIG.
  • step S3 shown in FIG. 4 the document processing apparatus performs processing using such a text-to-speech file to convert the text-to-speech file into a format in which the text-to-speech engine can read the document. Convert.
  • the document processing apparatus can be operated by, for example, operating the mouse or the like of the input unit 20 and pressing the read-out execution button 114 or the read-out execution button 144 shown in FIG. 5 or FIG. Start the speech synthesis engine. Then, the document processing device
  • the user interface window 170 has a play button 17 1 for reading the document, a stop button 17 2 for stopping the reading, and a temporary button 17 for temporarily stopping the reading. And a stop button 1 7 3.
  • the user interface window 170 has buttons for performing cueing including rewinding and fast-forwarding.
  • the user interface ⁇ window 170 is provided with a cue button 174, a rewind button 175, and a fast-forward button 176 for cueing, rewinding, and fast-forwarding in units of sentences.
  • the user interface window 170 is provided with selection switches 18 3 and 18 4 for selecting whether to read the entire sentence or a summary sentence to be described later. Having.
  • the user interface window 170 is not shown here, but is, for example, a button for increasing or decreasing the volume, a button for increasing or decreasing the reading speed, and for changing the voice of a male or female voice. Button or the like.
  • the document processing apparatus performs a reading operation by the speech synthesis engine when the user operates the mouse or the like of the input unit 20 and presses the various buttons Z switch, for example, to select them. For example, a document processing apparatus starts reading out a document by a user pressing a play button 171, and is currently reading out the text by a user pressing a cue button 174 during the reading. Jump to the beginning of the sentence and read again. In addition, the document processing apparatus can make such a jump in mark units at the time of reading aloud by the marking performed in step S3 in FIG.
  • the document processing apparatus when the user presses the rewind button 178 or the fast forward button 179 using, for example, the mouse or the like of the input / output unit 20, the document processing apparatus returns to 10 Jumps by identifying only the mark that indicates the start position of the paragraph, which is a number in the 0's.
  • the rewind button 1775, the fast-forward button 1776, the rewind button 181, and the fast-forward button 182 are released.
  • the document processing apparatus can respond to a request that a user wants to repeatedly reproduce a desired portion in a document, for example, by performing a jump in paragraphs, sentences, and phrases at the time of reading. .
  • step S4 the document processing device reads out the document by the speech synthesis engine when the user performs an operation using such a user interface.
  • the read information is output from the audio output unit 30.
  • the document processing apparatus can read out a desired document without any discomfort by the speech synthesis engine.
  • the document processing apparatus when creating a summary of a document, the user operates the input unit 20 to execute the automatic summary creation mode while the document is displayed on the display unit 31.
  • the document processing device drives the hard disk drive 34 under the control of the CPU 13 to activate an automatic summary sentence creation program among the electronic document processing programs stored in the hard disk.
  • the display unit 31 is controlled by the CPU 13 to display an initial screen for an automatic summary sentence creating program as shown in FIG.
  • a window 190 displayed on the display unit 31 is a document name display unit 191, on which the name of the document is displayed, and a keypad for inputting a key word.
  • Input area 1 92 display area 200 on which summary creation execution button 1 93, etc., which is an execution button for creating a summary of a document, and display area 200, and display area 2 on which a document is displayed 10 and a display area 220 in which a summary of the document is displayed.
  • the document name display section 1991 of the display area 200 the document name and the like of the document displayed in the display area 210 are displayed. Also, a keyword for creating a summary of a document is input to the keyword input unit 192 using, for example, the keyboard of the input unit 20.
  • the summary creation execution button 1993 is used to start execution of the summary creation processing of the document displayed in the display area 210 by, for example, being pressed using the mouse or the like of the input unit 20. Execute button.
  • a document is displayed.
  • a scroll lever 211 At the right end of the display area 210, there are provided a scroll lever 211 and buttons 212, 213 for moving the scroll lever 211 up and down.
  • the display area can be moved by directly moving the scroll bar 2 1 1 up and down using the mouse or the like, or by moving the scroll bar 2 1 1 up and down by pressing the buttons 2 1 2 and 2 13.
  • the display content displayed on 210 can be scrolled vertically.
  • the user can select and summarize a part of the document displayed in the display area 210 or can summarize the entire document.
  • a summary sentence is displayed. In FIG. 13, nothing is displayed in this display area 220 because the summary sentence has not been created yet.
  • the user can change the display range (size) of the display area 220 by operating the input unit 20. Can be. Specifically, the user can enlarge the display range (size) of the display area 220 shown in FIG. 13 as shown in FIG. 14, for example.
  • the document processing apparatus executes the processing shown in FIG. 15 under the control of the CPU 13. Execute to start creating a summary sentence.
  • the process of creating a summary from a document is performed based on tagging of the internal structure of the document.
  • the size of the display area 220 of the window 190 can be changed as shown in FIG.
  • the document processing device executes the summary creation after the force for newly drawing the window 190 on the display unit 31 or the size of the display area 220 is changed.
  • the button 19 3 is operated, a summary is created from the document that at least part of it is displayed in the display area 210 of the window 190 so that it fits the display area 220. Execute the processing to be performed.
  • the document processing apparatus performs a process called active diffusion under the control of the CPU 13 in step S 21.
  • the document is summarized by adopting the central activity value obtained by the activity diffusion as the importance.
  • a central activation value corresponding to the tagging with respect to the internal structure can be given to each element.
  • the active diffusion is a process of giving a high central activity value to an element related to an element having a high central activity value.
  • active diffusion means that the central activity value is equal between the anaphora (coreference) expressed element and its antecedent, and each central activity value converges to the same value otherwise.
  • this central activity value is determined according to the tagging of the internal structure of the document, it can be used for the analysis of the document in consideration of the internal structure.
  • the document processing apparatus executes active diffusion by going through a series of steps shown in FIG.
  • the document processing device initializes each element under the control of the CPU 13 in step S41.
  • the document processing device assigns the initial value of the central activity value to all the elements except the vocabulary element and the vocabulary element. For example, the document processing apparatus assigns “1” to all the elements except the vocabulary element and “ ⁇ ” to the vocabulary element as the initial value of the central activity value. .
  • the document processing apparatus reflects the bias of the initial value in the central activity value obtained as a result of active diffusion by pre-assigning a non-uniform value to the initial value of the central activity value of each element. It can be done.
  • the document processing apparatus can obtain a central activity value reflecting the user's interest by setting a high initial value of the central activity value for an element of interest to the user.
  • References between elements.References which are links that have a dependency relationship with the referenced, For the referenced link and the normal link, which is the other link, the end point activation value of the end point of the link connecting the elements. Set to "0".
  • the document processing device stores the initial value of the endpoint activation value thus assigned, for example, in RAM 14.
  • FIG. 17 an example of the connection structure between the element and the element is shown in Fig. 17.
  • an element Ei and an element Ei are shown as a part of the structure of the element and the link that constitute the document.
  • the element E i and the element E i each have a central activation value e;,, and are connected by a link L ;;
  • the end point of the link L i) connected to the element E i is T ii, and the end point connected to the element E i is d.
  • Ereme down DOO E i in addition to Ereme down bets E i to be connected by a link L ii, link L ik, L i, and Ereme down preparative E k (not shown) by L im, E, and E m Each is connected.
  • the elements E i are not only elements E i connected by links L ii, but also elements E P , E r not shown by links L, P , L iq and L. Connected to each other.
  • step S42 in FIG. 16 the document processing apparatus initializes a counter for counting the elements Ei constituting the document under the control of the CPU 13. That is, the document processing apparatus sets the count value i of the element for counting elements to “1”. This means that the counter refers to the first element E ⁇ .
  • step S43 the document processing apparatus executes a link process for calculating a new central activation value for the element referenced by the counter under the control of the CPU 13. This link processing will be further described later.
  • step S44 the document processing device determines whether or not the calculation of a new central activity value has been completed for all the elements in the document under the control of CPU13.
  • the document processing device needs to update all the elements in the document. If it is determined that the calculation of the central activation value has been completed, the process proceeds to step S45, while the calculation of the new central activation value is performed for all the elements in the document. If it is determined that the processing has not been completed, the process proceeds to step S47.
  • the document processing device determines whether or not the count value of the counter i has reached the total number of elements included in the document under the control of the CPU 13. When determining that the count value i of the counter has reached the total number of elements included in the document, the document processing apparatus determines that all elements have been calculated, and proceeds to step S45. Transfer processing. On the other hand, if the document processing device determines that the count value i of the counter has not reached the total number of elements included in the document, the document processing apparatus determines that the calculation has not been completed for all the elements, The processing shifts to S47.
  • the document processing apparatus the count value i power s of the counter, when it is determined that not reached the total number of Ereme down bets including documents, in step S 4 7, under control of the CPU 1 3, counter Is incremented by "1" and the count value of the counter is set to "i + 1".
  • the counter refers to the (i + 1) th element, that is, the next element.
  • the document processing apparatus shifts the processing to step S43, and the calculation of the endpoint activation value and a series of steps following this are executed for the next (i + 1) -th element.
  • the document processing device determines that the count value of the counter i has reached the total number of elements included in the document, the document processing device includes the document under the control of the CPU 13 in step S45.
  • the change in the central activity value of all the elements that are calculated that is, the newly calculated central activity
  • An average value is calculated for the change in the gender value from the original central activity value.
  • the document processing device reads out, for example, the original central activation value and the newly calculated central activation value stored in the RAM 14 for all the elements included in the document.
  • the document processing apparatus calculates the change in the central activity value of all elements by dividing the sum of the changes of the newly calculated central activity value from the original central activity value by the total number of elements included in the document. Calculate the average of minutes.
  • the document processing device stores, for example, in the RAMI 4, the average value of the change in the central activity value of all the elements calculated in this way.
  • step S46 under the control of the CPU 13, the document processing apparatus sets in advance the average value of the change in the central activity values of all the elements calculated in step S45. It is determined whether it is within the threshold. Then, when the document processing device determines that the change is within the threshold, the document processing device ends the series of processes. On the other hand, when the document processing device determines that the change is not within the threshold, the document processing device shifts the process to step S42, sets the count value i of the counter to "1", and sets the counter value to "1". Repeat the series of steps to calculate the element's central activity value. In the document processing apparatus, each time the loop of steps S42 to S46 is repeated, the amount of change gradually decreases.
  • the document processing apparatus can perform active diffusion in this way.
  • the link processing executed in step S43 to perform this active diffusion will be described with reference to FIG. Note that the flowchart shown in FIG. 18 shows processing for one element Ei, but this processing is performed for all elements. Things.
  • the document processing apparatus in step S51, under the control of the CPU 13, controls one element Ei that constitutes the document and one end connected to it. Initializes the counter that counts links. That is, the document processing apparatus sets the count value j of the counter for counting the links to “1”.
  • This counter a first link which is a connection elementary preparative E i L; will refer to;.
  • step S52 under the control of the CPU 13, the document processing device refers to the tag of the relation attribute for the link connecting the element Ei and the element E]. Then, it is determined whether or not the link Lii is a normal link.
  • Document processing device link L u is lexically Ereme down you want to correspond to words, sentences Jer instrument corresponding to sentences, and usually links showing the relationship between such a paragraph element corresponding to paragraphs, reference ⁇ the referenced Judge whether the link is a reference link that indicates a dependency relationship. If the document processing apparatus determines that the link is a normal link, it shifts the processing to step S53. If it determines that link L; i is a reference link, it proceeds to step S53. The processing shifts to S54.
  • step S53 the document processing apparatus calculates a new endpoint activation value of the endpoint T ii connected to the normal link of the element E i. Perform the following processing.
  • step S 5 3 the determination in Step S 5 2, is clearly summer that the link L u is the normal link.
  • Ereme down DOO E normal new point activation values t u endpoints T is connected to the link L u of the elementary bets of endpoint activity value of E i, Li down except links L ii Add the end activity values t i P , t, t ir of the end points T ip , T iq , T connected to the node and the central activity value e of the element E, to which the element E i is connected by the link L ii. Then, the value obtained by this addition is divided by the total number of elements contained in the document.
  • the document processing device Under the control of the CPU 13, the document processing device reads necessary endpoint activation values and central activation values from, for example, the RAM 14. The document processing device calculates a new endpoint activity value of the endpoint connected to the normal link as described above for the read endpoint activity value and the read central activity value. Then, the document processing device stores the new endpoint activation value calculated in this way in, for example, the RAM I4.
  • step S54 the document processing apparatus determines the end point activation value of the end point T ; , connected to the reference link of the element E ,. Perform the calculation process.
  • step S54 it is clear from the determination in step S52 that link L,) is the reference link.
  • the endpoint activity value ti; of the endpoint T,) connected to the reference link Lii of the element E, is the endpoint activity value of the element Ei that is connected to the link except for the link and, obtained by adding the central activation value ei of; end point T j P, T iq, tj r endpoint activity values tip, t i Q, and t, the element ⁇ the element is connected by a link.
  • the document processing apparatus Under the control of the CPU 13, the document processing apparatus reads necessary endpoint activation values and central activation values from, for example, the endpoint activation values and the central activation values stored in the RAM 14.
  • the document processing device calculates a new endpoint activity value connected to the reference link as described above, using the read endpoint activity value and the central activity value. Then, the document processing device is configured as follows.
  • the calculated end point activation value is stored in, for example, the RAM 14.
  • step S53 The processing of the normal link in step S53 and the processing of the reference link in step S54 go from step S52 to step S55, and return to step S52 via step S57.
  • the processing is executed for all the links L ii connected to the element E i referred to by the count value i.
  • step S57 the count value: j for counting the number of links connected to the element E ; is incremented.
  • step S53 the document processing apparatus performs all the links connected to the element Ei under the control of the CPU 13 in step S55. It is determined whether or not the endpoint activity value has been calculated. If the document processing apparatus determines that the endpoint activation values have been calculated for all the links, the process proceeds to step S56, and the endpoint activation values have been calculated for all the links. If it is determined that there is not, the process proceeds to step S57.
  • step S56 when the document processing apparatus determines that the endpoint activation values have been calculated for all the links, in step S56, under the control of the CPU 13, the element E; The central activation value ei is updated.
  • the prime "',' means a new value.
  • the new central activation value is the element of the element. To the sum of the new endpoint activity values for the endpoints of the element to the central activity value of.
  • the document processing device Under the control of the CPU 13, the document processing device reads a necessary endpoint activation value from the endpoint activation value and the central activation value stored in the RAM 14, for example. The document processing device performs the above-described calculation, and calculates the central activation value e i of the element E i. Then, the document processing apparatus stores the calculated new central activation value e i in, for example, the RAM 14.
  • the document processing device calculates a new central activation value for each element in the document. Then, the document processing apparatus executes the active diffusion in step S21 in FIG. 15 in this way. Subsequently, in step S22 in FIG. 15, the document processing apparatus displays the window 190 displayed on the display unit 31 previously shown in FIG.
  • the size of the display area 220 that is, the maximum number of characters that can be displayed in the display area 220 is set as Ws.
  • the document processing apparatus sets the maximum number Ws of characters that can be displayed in the display area 220 and the initial value S of the digest S set as described above. Is stored in, for example, RAM 14.
  • the document processing apparatus stores the force value i set in this way in, for example, RAM 14.
  • the document processing device sets the CPU 13 Under the control of, with respect to the count value i of the counter, the skeleton of the sentence with the i-th highest average central activity value is extracted from the sentence of the summary creation control.
  • the average central activity value is the average of the central activity values of the elements constituting one sentence.
  • the document processing device is, for example, a summary S! Stored in RAM I4.
  • the document processing device stores the summary Si thus obtained in, for example, the RAM 14.
  • the document processing apparatus creates a list 1; in the order of the central activation values of the elements not included in the skeleton of the sentence, and stores the list 1 i in, for example, the RAM 14.
  • step S24 the document processing apparatus selects a sentence in descending order of the average central activity value by using the result of the activity diffusion under the control of the CPU 13 and selects the sentence of the selected sentence. Extract the skeleton.
  • the skeleton of a sentence is composed of essential elements extracted from the sentence.
  • the required elements can be the head of the element and the subject
  • the structured related element is a required element, it is the element directly included in the coordinated structure.
  • the document processor connects the required elements of the sentence to generate a sentence skeleton and adds it to the summary.
  • step S25 the document processing apparatus sets the length of the summary S i, that is, the number of characters from the maximum number of characters Ws in the display area 220 of the window 190 under the control of the CPU 13 It is determined whether there is too much.
  • step S 26 the process proceeds to step S 26, and under the control of the CPU 13, + The central activity value of the sentence having the highest average central activity value is compared with the central activity value of the element having the highest central activity value among the elements of the list li created in step S24. Then, the document processing apparatus determines that the central activity value of the sentence having the i + 1-th highest average central activity value is higher than the central activity value of the element having the highest central activity value in the elements of List 1 i. If it is determined, the process proceeds to step S28.
  • the central activity value of the sentence having the i + 1-th highest average central activity value is larger than the central activity value of the element having the highest central activity value among the elements of the list li. If it is determined that it is not high, the process proceeds to step S27.
  • the document processing apparatus determines that the central activity value of the sentence having the i + 1-th highest average central activity value is higher than the central activity value of the element having the highest central activity value among the elements in List 1 ; If it is not high, in step S27, under the control of the CPU 13, the count i of the counter is incremented by "1", and the process returns to step S24.
  • the document processing apparatus determines that the central activity value of the sentence having the i + 1-th highest average central activity value is higher than the central activity value of the element having the highest central activity value among the elements of List 1 i. If you decide, In S28, under the control of the CPU 13, the element e having the highest central activity value among the list li elements is added to the summary S i to generate SS i, and the element e is further deleted. G 1 Delete from i. Then, the document processing device stores the summary SS i generated in this way in, for example, the RAM 14.
  • the document processing device in step S 2 9, under the control of the CPU 1 3, summarizes SS; whether the number of characters is larger than the maximum number of characters W s of the display area 2 2 0 windows 1 9 0 Is determined.
  • Document processing device when the number of characters in summary s S i is determined to not more than the maximum number of characters w s repeats the process from Step S 2 6.
  • the document processing device summarized SS; if the number of characters is determined to greater than the maximum number of characters W s, in step S 3 1, under the control of the CPU 1 3, Abstract S; final the This is set as a summary sentence, displayed in the display area 220, and a series of processing ends. In this way, the document processing apparatus generates a summary sentence so as not to exceed the maximum number of characters Ws.
  • the document processing apparatus can create a summary by summarizing the tagged documents.
  • the document processing device creates a summary sentence as shown in FIG. 19 and displays it in the display area 220 of the display range.
  • ARPANET was a small computer that connected the host computers of four universities and research institutes on the west coast of North America in 1969 with 50 kbps lines. ARPANET departed from a large-scale network, where a mainframe general-purpose computer series was developed in 1964. Such a project, which anticipated the future of computer communication in the future, could be said to have been unique to the United States. Is created and displayed in the display area 220.
  • a document processing apparatus instead of reading the entire text of a document, the user can read the summary to understand the outline of the text and determine whether the text is the desired information. it can.
  • the method of assigning importance to elements in a document does not necessarily use the active diffusion described above.
  • a word May be weighted using the tf * idf method, and the sum of the weights of words appearing in the document may be used as the importance of the document. Details of this method are described in "K. Zechner, Fast generation of abstracts from general domain text corpora by extracting relevant sentences, In Proc. Of the 16th International Conference on Computational Linguistics, pp.986-989, 1996". I have.
  • a method other than these methods can be used for assigning importance. Further, by inputting a key into the keyword input section 1992 of the display area 200, it is possible to set the importance based on the key.
  • the document processing device can enlarge the display range of the display area 220 of the window 190 displayed on the display unit 31, If the display range of the display area 220 is changed while the text is displayed in the display area 220, the information amount of the summary text can be changed according to the display range. In this case, the document processing device performs the processing shown in FIG.
  • the document processing device shifts the processing to step S62, and under the control of the CPU 13, the display range of the display area 220 is changed. Is measured.
  • steps S63 to S65 is the same as the processing performed in and after step S22 in FIG. 15, and a summary sentence corresponding to the display range of display area 220 is created. It ends.
  • step S63 the document processing apparatus displays the display area based on the measurement result of the display range of the display area 220 and the size of the character specified in advance under the control of the CPU 13. Determine the total number of characters in the summary text displayed in 220.
  • step S64 the document processing device, under the control of the CPU 13, controls the RAM 14 from the RAM 14 so that the created summary does not exceed the number of characters determined in step S63. Select sentences or words in descending order.
  • step S65 the document processing apparatus joins the sentences or words selected in step S64 under the control of the CPU 13 to create a summary sentence, and displays the summary on the display unit 31. It is displayed in area 220.
  • the document processing apparatus can newly create a summary sentence according to the display range of the display area 220. For example, when the document processing device enlarges the display range of the display area 220 by dragging the mouse of the input unit 20 with the user, A detailed summary is newly created, and the new summary is displayed in the display area 220 of the window 190, as shown in FIG.
  • ARPANET has been constructed with the sponsorship of the Defense Advanced Research Projects Agency of the US Department of Defense D0D. In 1969, ARPANET departed from a very small network that connected the host computers of four universities and research institutes on the west coast of North America with 50 kbps lines. In 1945, the world's first computer, ENIAC, was developed at the University of Pennsylvania, and in 1964, the first mainframe general-purpose computer series that implemented ICs as theoretical elements was developed. Given the context of this era, such a project, which anticipated the future of computer communications in the future, is truly the United States. I would say that was of the La. To create a summary statement that j, is displayed in the display area 2 2 0.
  • the user when the displayed summary is too simple to grasp the outline of the document, the user can increase the display range of the display area 220 to increase the display range. A more detailed summary with information content can be referenced.
  • the document processing device receives the tagged document in step S71.
  • this document is provided with tags necessary for performing speech synthesis, and is configured as a tag file shown in FIG.
  • the document processing apparatus can receive a tagged document and create a document by adding a new tag necessary for performing speech synthesis to the document. Further, the document processing apparatus may receive an untagged document, tag the document including a tag necessary for performing speech synthesis, and create a tag file. This step corresponds to step S1 in FIG.
  • step S72 the document processing device creates a document summary by the method described above under the control of the CPU 13.
  • the document serving as the source of the summary is tagged as shown in step S71, a tag corresponding to the document is also added to the created summary.
  • step S73 the document processing device generates a text-to-speech file for all contents of the document based on the tag file under the control of the CPU 13.
  • This voice reading file is generated by deriving attribute information for reading from the tag in the tag file and embedding the attribute information.
  • the document processing apparatus generates a text-to-speech file through a series of steps shown in FIG.
  • step S81 the document processing apparatus analyzes the received or created tag file by the CPU 13 in step S81.
  • the document processing device determines the language in which the document is described.
  • the starting position of paragraphs, sentences and phrases in the document, and reading attribute information are searched for based on tags.
  • step S86 the document processing device replaces the correct reading with CPU 13 based on the reading attribute information.
  • step S87 the document processing apparatus searches for a portion included in the summary by the CPU 13.
  • the document processing apparatus reads out the portion included in the summary at a volume increased by 80% from the default volume. The volume does not need to be 80% higher than the default volume, and can be changed as appropriate.
  • the document processing apparatus automatically generates a speech-to-speech file by performing the processing shown in FIG. 23 in step S73 in FIG.
  • the document processing device stores the generated voice reading file in the RAM 14. This step corresponds to step S2 in FIG. Things.
  • step S74 in FIG. 22 the document processing apparatus stores in advance a ROM 15 hard disk or the like using a voice reading file under the control of the CPU 13. Performs processing appropriate for the speech synthesis engine. This step corresponds to step S3 in FIG.
  • step S75 the document processing device performs a process in accordance with the operation performed by the user using the user interface described above.
  • This step corresponds to step S4 in FIG.
  • the user uses the mouse or the like of the input unit 20 to select the selection switch 184 of the user interface screen 170 shown in FIG.
  • the summary created in 72 can be read aloud.
  • the document processing apparatus can start reading out the summary sentence, for example, when the user presses the play button 171 using the mouse of the input unit 20 or the like.
  • the selection switch 18 3 using the mouse or the like of the input unit 20 and presses the play button 171
  • the document processing apparatus reads out the document as described above. Start.
  • the document processing device sets a different pause period at the start position of the paragraph, the sentence, and the phrase and reads the text. .
  • the document processing apparatus can read out a given document or a prepared summary sentence.
  • the document processing device can change the reading method according to the generated summary, such as emphasizing a portion included in the generated summary. .
  • the document processing apparatus can automatically generate a text-to-speech file from a given document, and read out the document and a summary sentence created from the document using an appropriate speech synthesis engine. At this time, when reading out the portion included in the created summary sentence, the document processing apparatus can emphasize the portion included in the summary sentence by increasing the volume of the portion, thereby reading out the portion. It can draw the user's attention. In addition, the document processing apparatus can identify a starting position of a paragraph, a sentence, and a phrase, and provide a pause period corresponding to each of the starting positions, so that natural reading without a sense of incongruity can be performed.
  • the present invention is not limited to this.
  • the present invention can be applied to a case where a document is transmitted via a satellite or the like, and even if the document is read from the recording medium 33 in the recording / reproducing unit 32 or the document is recorded in the ROM 15 in advance. Good.
  • a speech-to-speech file is generated from a received or created tag file. However, such a speech-to-speech file is not generated, and speech is read directly based on an evening file. You may.
  • the document processing apparatus uses the speech synthesis engine to identify the paragraph, sentence, and phrase based on the tag indicating the paragraph, sentence, and phrase attached to the tag file. Read aloud with a predetermined pause at the beginning of these paragraphs, sentences and phrases.
  • the tag file is provided with attribute information for prohibiting reading and attribute information indicating pronunciation, and the document processing apparatus removes the portion for which reading is prohibited, and corrects the information. Read aloud by replacing the pronunciation or pronunciation.
  • the document processing apparatus operates the user interface described above during the reading, so that the paragraph, the paragraph, the sentence, and the phrase attached to the tag file are added. You can also search, fast-forward, or rewind when reading aloud in units of sentences and phrases.
  • the document processing apparatus can directly read the document based on the tag file without generating the voice reading file.
  • the present invention it is also possible to easily realize, as the recording medium 33, a disk-shaped recording medium or a tape-shaped recording medium in which the above-described electronic document processing program is written.
  • the mouse of the input unit 20 has been exemplified as a device for operating various windows displayed on the display unit 31.
  • the present invention is not limited to this. Horse not.
  • an evening bullet pen can be used as such a device.
  • an electronic document processing apparatus for processing an electronic document, comprising: a document input unit for inputting an electronic document; And a voice reading data generating means for generating a voice reading data to be read by the voice synthesizer.
  • the electronic document processing device generates speech-to-speech data based on the electronic document, and can use the speech-to-speech data to synthesize any electronic document with high accuracy by speech synthesis. And they can read aloud without discomfort.
  • An electronic document processing method is the electronic document processing method for processing an electronic document, wherein: a document inputting step of inputting the electronic document; and a voice reading data for reading out by the voice synthesizer based on the electronic document. And a voice reading data generating step of generating an overnight.
  • the electronic document processing method generates speech-reading data based on the electronic document. It is possible to read out any electronic document using speech synthesis with high accuracy and without discomfort by using speech synthesis.
  • the recording medium on which the electronic document processing program according to the present invention is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded. And a voice reading data generating step of generating a voice reading data to be read out by a voice synthesizer based on the electronic document.
  • the recording medium on which the electronic document processing program according to the present invention is recorded can provide an electronic document processing program that generates a voice reading-out process based on an electronic document. Therefore, the apparatus provided with the electronic document processing program can read any electronic document with high accuracy and without a sense of incongruity by voice synthesis using the voice reading process.
  • the electronic document processing device in the electronic document processing device for processing an electronic document, is provided with tag information indicating an internal structure of the electronic document having a plurality of elements and a hierarchical structure.
  • Document input means for inputting the electronic document
  • document reading means for reading out the electronic document by voice synthesis based on the tag information.
  • the electronic document processing apparatus inputs an electronic document to which tag information indicating the internal structure of an electronic document having a plurality of elements and a hierarchical structure is added, and assigns the electronic document to the electronic document. Based on the received evening information, it is possible to read out the electronic document directly with high accuracy and without a sense of incongruity.
  • An electronic document processing method processes an electronic document.
  • a document input step of inputting the electronic document to which tag information indicating the internal structure of the electronic document having a plurality of elements and having a hierarchical structure is added, based on the tag information
  • a text-to-speech process in which an electronic document is voice-synthesized and read out.
  • the electronic document processing method includes: inputting an electronic document to which evening information indicating the internal structure of an electronic document having a plurality of elements and having a hierarchical structure is added; Based on the evening information provided, it is possible to read out an electronic document directly with high precision and without a sense of incongruity.
  • a recording medium in which the electronic document processing program according to the present invention is recorded is a recording medium in which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • the recording medium on which the electronic document processing program according to the present invention is recorded receives an electronic document to which tag information indicating the internal structure of the electronic document having a plurality of elements and a hierarchical structure is added.
  • tag information indicating the internal structure of the electronic document having a plurality of elements and a hierarchical structure is added.
  • the device provided with the electronic document processing program can input an electronic document and read it directly with high precision and without any discomfort.
  • the electronic document processing device processes an electronic document.
  • a summary sentence creating means for creating a summary sentence of the electronic document
  • a speech reading-out data generating means for generating a speech reading-out data for reading out the electronic document by a speech synthesizer.
  • the text-to-speech data generation means includes attribute information indicating that, in the electronic document, a portion included in the summary is read with emphasis compared to a portion not included in the summary. By adding, a speech-to-speech data is generated.
  • the electronic document processing apparatus assigns attribute information indicating that a part included in the summary sentence of the electronic document is emphasized and read out compared with a part not included in the summary sentence.
  • An electronic document processing method is the electronic document processing method for processing an electronic document, wherein: a summary sentence creating step of creating an abstract sentence of the electronic document; A voice reading data generating step of generating a data file, wherein in the voice reading data generating step, a portion included in the summary sentence of the electronic document is emphasized in comparison with a portion not included in the summary sentence. Speech-to-speech data is generated by adding attribute information indicating readability.
  • a portion included in the abstract sentence of the electronic document is provided with attribute information indicating that it is read out with emphasis compared to a portion not included in the abstract sentence.
  • the recording medium on which the electronic document processing program according to the present invention is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • the voice reading data generating step includes: Speech-to-speech data is generated for a part included in the summary sentence of the electronic document by adding attribute information indicating that the part is not emphasized in the summary sentence than in the part not included in the summary sentence.
  • the recording medium on which the electronic document processing program according to the present invention is recorded has an attribute that indicates that a portion included in the abstract sentence of the electronic document is read with emphasis compared to a portion not included in the abstract sentence. It is possible to provide an electronic document processing program for generating voice reading data by adding gender information. For this reason, the device provided with the electronic document processing program uses speech reading data to synthesize any electronic document with high accuracy and a sense of incongruity by speech synthesis. It becomes possible to read out with emphasis.
  • an electronic document processing device for processing an electronic document, wherein the summary document creating means for creating a summary sentence of the electronic document, and the summary sentence included in the electronic document The part of the document that is read out with emphasis compared to the part not included in the summary Lifting means.
  • the electronic document processing apparatus is capable of synthesizing an arbitrary electronic document with high accuracy and a sense of incongruity by speech synthesis. It can be read directly with emphasis compared to the part without.
  • the electronic document processing method is a digital document processing method for processing an electronic document, wherein a summary sentence creating step of creating an abstract sentence of the electronic document; Has a text-to-speech process that emphasizes and reads out parts that are not included in the summary.
  • any electronic document can be obtained by speech synthesis with high precision and without a sense of incongruity. Further, a part of the electronic document that is included in the abstract is included in the abstract. Enables direct reading out with emphasis compared to non-existing parts.
  • the recording medium on which the electronic document processing program according to the present invention is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded.
  • the recording medium on which the electronic document processing program according to the present invention is recorded, a part of the electronic document that is included in the abstract is read out with emphasis compared to a part that is not included in the abstract.
  • a program can be provided. Therefore, the device provided with the electronic document processing program can convert an arbitrary electronic document into speech. It is more accurate and less uncomfortable, and it is possible to directly read out the part of the electronic document that is included in the summary sentence with emphasis compared to the part that is not included in the summary sentence.
  • the electronic document processing apparatus is an electronic document processing apparatus for processing an electronic document, wherein at least two start positions of a paragraph, a sentence, and a phrase are selected from among a plurality of elements constituting the electronic document. Means that a different pause period is provided at the start position of at least two of a paragraph, a sentence, and a phrase for an electronic document based on a detection result obtained by the detection means.
  • a voice reading data generating means for generating a voice reading data to be read by a voice synthesizer by providing attribute information is provided.
  • the electronic document processing device generates speech-aloud data by adding an attribute information indicating that a different pause period is set to at least two start positions of a paragraph, a sentence, and a phrase. Accordingly, any electronic document can be read aloud with high accuracy and without a sense of incongruity by voice synthesis using the voice reading data. Further, in the electronic document processing method according to the present invention, in the electronic document processing method for processing an electronic document, at least two start positions of a paragraph, a sentence, and a phrase are selected from among a plurality of elements constituting the electronic document.
  • the electronic document processing method includes: By generating attribute information indicating that at least two start positions of phrases have different pause periods, a text-to-speech data can be generated. Speech synthesis makes it possible to read aloud with high accuracy and without a sense of incongruity.
  • the recording medium on which the electronic document processing program according to the present invention is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded. Detecting a start position of at least two of a paragraph, a sentence, and a phrase from a plurality of elements constituting the , At least two of the start positions of paragraphs, sentences, and phrases are given attribute information indicating that different pause periods are to be provided, so that a text-to-speech data to be read out by a voice synthesizer is generated. And a step of generating a voice reading aloud.
  • the recording medium on which the electronic document processing program according to the present invention is recorded is provided with attribute information indicating that at least two start positions of a paragraph, a sentence, and a phrase are provided with different pause periods, and read out voice aloud.
  • An electronic document processing program that generates the data can be provided. Therefore, the device provided with the electronic document processing program can read out any electronic document with high accuracy and without a sense of incongruity by using voice reading data by voice synthesis.
  • the electronic document processing device according to the present invention is an electronic document processing device for processing an electronic document, wherein at least two of a paragraph, a sentence, and a phrase are selected from a plurality of elements constituting the electronic document.
  • a pause is provided at least at the start position of a paragraph, a sentence, or a phrase at a different pause period, and the electronic document is read out by speech synthesis. It has reading means.
  • the electronic document processing apparatus provides a pause period different from the start position of at least two of the paragraph, the sentence, and the phrase so that any electronic document can be synthesized with high accuracy by speech synthesis without any discomfort. Can read directly.
  • the electronic document processing method for processing an electronic document, at least two start positions of a paragraph, a sentence, and a phrase are selected from among a plurality of elements constituting the electronic document. Based on the detection step, based on the detection result obtained in the detection step, at least two scheduled positions of paragraphs, sentences, and phrases are provided with different pause periods, and the electronic document is voice-synthesized. And a document reading process.
  • the electronic document processing method provides a different pause period at at least two start positions of a paragraph, a sentence, and a phrase, so that an arbitrary electronic document can be synthesized with high accuracy by speech synthesis without any discomfort. Enables direct reading.
  • the recording medium on which the electronic document processing program according to the present invention is recorded is a recording medium on which a computer-controllable electronic document processing program for processing an electronic document is recorded. Detecting a start position of at least two of a paragraph, a sentence, and a phrase from among a plurality of elements that form the paragraph, and, based on a detection result obtained in the detection step, a paragraph, a sentence, and a phrase.
  • a document reading process is provided in which at least two start positions are provided with different pause periods, and the electronic document is read out by speech synthesis.
  • a recording medium on which the electronic document processing program according to the present invention is recorded is provided with an electronic document processing program that directly reads an electronic document by providing different pause periods at least at the start positions of paragraphs, sentences, and phrases. Can be provided. Therefore, the device provided with the electronic document processing program can directly read out any electronic document with high accuracy and without discomfort by speech synthesis.

Description

明細書 電子文書処理装置 技術分野 本発明は、 電子文書を処理する電子文書処理装置に関する 背景技術 従来、 インターネッ トにおいて、 ウィ ンドウ形式でハイパーテキ ス ト型情報を提供するアプリケーションサービスと して WW W (Wo r i d Wi de Web) が提供されている。
WWWは、 文書の作成、 公開又は共有化の文書処理を実行し、 新 しいスタイルの文書の在り方を示したシステムである。 しかし、 文 書の実際上の利用の観点からは、 文書の内容に基づいた文書の分類 や要約といった、 WWWを越える高度な文書処理が求められている このような高度な文書処理には、 文書の内容の機械的な処理が不可 欠である。
しかしながら、 文書の内容の機械的な処理は、 以下のような理由 から依然と して困難である。 すなわち、 第 1には、 ハイパーテキス トを記述する言語である H T M L ( Hyper Text Markup Language) は、 文書の表現については規定するが、 文書の内容についてはほと んど規定しないためである。 第 2には、 文書間に構成されたハイパ 一テキス トのネッ トワークは、 文書の読者にとって文書の内容を理 W
解するために必ずしも利用しゃすいものではないためである。 第 3 には、 一般に文書の著作者は、 読者の便宜を念頭に置かずに著作す るが、 文書の読者の便宜が著作者の便宜と調整されることはないた めである。
このように、 WWWは、 新しい文書の在り方を示したシステムで あるが、 文書を機械的に処理しないために、 高度な文書処理を行う ことができなかった。 換言すると、 高度な文書処理を実行するため には、 文書を機械的に処理することが必要となる。
そこで、 文書の機械的な処理を目標と して、 文書の機械的な処理 を支援するシステムが自然言語研究の成果に基づいて開発されてい る。 自然言語研究による文書処理と して、 文書の著作者等による文 書の内部構造についての属性情報、 いわゆるタグの付与を前提と し た、 文書に付与されたタグを利用する機械的な文書処理が提案され ている。
ところで、 ユーザは、 例えばいわゆるサーチエンジンのような情 報検索システムを利用し、 ィンターネッ トを介して提供される膨大 な情報の中から所望の情報を探し出すようにしている。 この情報検 索システムは、 指定されたキーワードに基づいて情報を検索し、 検 索した情報をユーザに提供するシステムである。 ユーザは、 提供さ れた情報の中から所望の情報を選択する。
情報検索システムにおいては、 このよ うに容易に情報を検索する ことができるが、 ユーザは、 検索されて提供された情報を一読して 概略を理解し、 それが希望する情報であるか否かを判断する必要が ある。 この作業は、 特に、 提供された情報の量が多い場合には、 ュ —ザにとって大きな負担となる。 そこで、 最近、 テキス ト情報、 す なわち文書の内容を自動的に要約するシステムであるいわゆる自動 要約作成システムが注目されている。
自動要約作成システムは、 元の情報、 すなわち文書の大意を保持 したままテキス トの情報の長さや複雑さを減らすことによって、 要 約を作成するシステムである。 ユーザは、 この自動要約作成システ ムにより作成された要約を一読することで、 文書の概略を理解する ことができる。
通常、 自動要約作成システムは、 テキス ト中の文や単語を 1つの 単位と し、 それに何らかの情報に基づいた重要度を付与して順序付 けする。 そして、 自動要約作成システムは、 上位に順序付けした文 や単語を寄せ集め、 要約を作成する。
ところで、 近年のコンピュータの普及ゃネッ トワーク化の進展に ともない、 文書処理の高機能化が求められており、 そのなかでも、 文書を音声合成して読み上げる機能が求められている。
音声合成は、 本来、 音声の分析結果や人間の音声の生成機構の模 擬に基づいて機械的に音声を生成するものであり、 個々の言語の要 素又は音素をディジタル制御のもとに組み立てるものである。
しかしながら、 音声合成においては、 任意の文書を読み上げる際 に、 文書の切れ目等を考慮して読み上げることはできず、 自然な読 み上げを行うことはできなかった。 また、 音声合成においては、 言 語に応じて、 使用する音声合成エンジンをユーザが適宜選択する必 要があった。 さらに、 音声合成においては、 例えば専門用語や難訓 語といった読み誤りを生じやすい語を正確に読み上げる精度は、 使 用する辞書に依存するものであった。 さらにまた、 要約文を作成し た場合には、 その部分が重要であることを視覚的に判断することが できるが、 音声合成においては、 ユーザの注意を喚起することは困 難であった。 発明の開示 本発明は、 このような実情に鑑みてなされたものであり、 任意の 文書を音声合成によ り高精度で且つ違和感がなく、 さらに、 重要な 部分を強調して読み上げることができる電子文書処理装置及び電子 文書処理方法、 並びに電子文書処理プログラムが記録された記録媒 体を提供することを目的とするものである。
上述した目的を達成する本発明にかかる電子文書処理装置は、 電 子文書を処理する電子文書処理装置において、 電子文書が入力され る文書入力手段と、 電子文書に基づいて、 音声合成器で読み上げる ための音声読み上げデータを生成する音声読み上げデータ生成手段 とを備えることを特徴と している。
このような本発明にかかる電子文書処理装置は、 電子文書に基づ いて、 音声読み上げデータを生成する。
また、 上述した目的を達成する本発明にかかる電子文書処理方法 は、 電子文書を処理する電子文書処理方法において、 電子文書が入 力される文書入力工程と、 電子文書に基づいて、 音声合成器で読み 上げるための音声読み上げデータを生成する音声読み上げデータ生 成工程とを備えることを特徴と している。
このような本発明にかかる電子文書処理方法は、 電子文書に基づ いて、 音声読み上げデータを生成する。
さらに、 上述した目的を達成する本発明にかかる電子文書処理プ 口グラムが記録された記録媒体は、 電子文書を処理するコンビユー タ制御可能な電子文書処理プログラムが記録された記録媒体におい て、 電子文書処理プログラムは、 電子文書が入力される文書入力ェ 程と、 電子文書に基づいて、 音声合成器で読み上げるための音声読 み上げデータを生成する音声読み上げデータ生成工程とを備えるこ とを特徴と している。
このような本発明にかかる電子文書処理プログラムが記録された 記録媒体は、 電子文書に基づいて、 音声読み上げデータを生成する 電子文書処理プログラムを提供する。
さらにまた、 上述した目的を達成する本発明にかかる電子文書処 理装置は、 電子文書を処理する電子文書処理装置において、 複数の 要素を有し階層化された構造を有する電子文書の内部構造を示すタ グ情報が付与されている当該電子文書が入力される文書入力手段と、 タグ情報に基づいて、 電子文書を音声合成して読み上げる文書読み 上げ手段とを備えることを特徴と している。
このような本発明にかかる電子文書処理装置は、 複数の要素を有 し階層化された構造を有する電子文書の内部構造を示すタグ情報が 付与されている電子文書を入力し、 この電子文書に付与されたタグ 情報に基づいて電子文書を直接読み上げる。
また、 上述した目的を達成する本発明にかかる電子文書処理方法 は、 電子文書を処理する電子文書処理方法において、 複数の要素を 有し階層化された構造を有する電子文書の内部構造を示すタグ情報 が付与されている当該電子文書が入力される文書入力工程と、 タグ 情報に基づいて、 電子文書を音声合成して読み上げる文書読み上げ 工程とを備えることを特徴と している。 このような本発明にかかる電子文書処理方法は、 複数の要素を有 し階層化された構造を有する電子文書の内部構造を示すタグ情報が 付与されている電子文書を入力し、 この電子文書に付与されたタグ 情報に基づいて電子文書を直接読み上げる。
さらに、 上述した目的を達成する本発明にかかる電子文書処理プ 口グラムが記録された記録媒体は、 電子文書を処理するコンビユー タ制御可能な電子文書処理プログラムが記録された記録媒体におい て、 電子文書処理プログラムは、 複数の要素を有し階層化された構 造を有する電子文書の内部構造を示すタグ情報が付与されている当 該電子文書が入力される文書入力工程と、 タグ情報に基づいて、 電 子文書を音声合成して読み上げる文書読み上げ工程とを備えること を特徴と している。
このような本発明にかかる電子文書処理プログラムが記録された 記録媒体は、 複数の要素を有し階層化された構造を有する電子文書 の内部構造を示すタグ情報が付与されている電子文書を入力し、 こ の電子文書に付与されたタグ情報に基づいて電子文書を直接読み上 げる電子文書処理プログラムを提供する。
さらにまた、 上述した目的を達成する本発明にかかる電子文書処 理装置は、 電子文書を処理する電子文書処理装置において、 電子文 書の要約文を作成する要約文作成手段と、 電子文書を音声合成器で 読み上げるための音声読み上げデータを生成する音声読み上げデー タ生成手段とを備え、 この音声読み上げデータ生成手段は、 電子文 書のうち、 要約文に含まれる部分については、 要約文に含まれない 部分に比べ、 強調して読み上げることを示す属性情報を付与するこ とで、 音声読み上げデータを生成することを特徴と している。 このような本発明にかかる電子文書処理装置は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して読み上げることを示す属性情報を付与して音声読み上げデ ータを生成する。
また、 上述した目的を達成する本発明にかかる電子文書処理方法 は、 電子文書を処理する電子文書処理方法において、 電子文書の要 約文を作成する要約文作成工程と、 電子文書を音声合成器で読み上 げるための音声読み上げデータを生成する音声読み上げデータ生成 工程とを備え、 この音声読み上げデータ生成工程では、 電子文書の うち、 要約文に含まれる部分については、 要約文に含まれない部分 に比べ、 強調して読み上げることを示す属性情報が付与されること で、 音声読み上げデータが生成されることを特徴と している。
このような本発明にかかる電子文書処理方法は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して読み上げることを示す属性情報を付与して音声読み上げデ —タを生成する。
さらに、 上述した目的を達成する本発明にかかる電子文書処理プ 口グラムが記録された記録媒体は、 電子文書を処理するコンビユ ー タ制御可能な電子文書処理プログラムが記録された記録媒体におい て、 電子文書処理プログラムは、 電子文書の要約文を作成する要約 文作成工程と、 電子文書を音声合成器で読み上げるための音声読み 上げデータを生成する音声読み上げデータ生成工程とを備え、 この 音声読み上げデータ生成工程では、 電子文書のうち、 要約文に含ま れる部分については、 要約文に含まれない部分に比べ、 強調して読 み上げることを示す属性情報が付与されることで、 音声読み上げデ —タが生成されることを特徴と している。
このような本発明にかかる電子文書処理プログラムが記録された 記録媒体は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して読み上げることを示す属 性情報を付与して音声読み上げデータを生成する電子文書処理プロ グラムを提供する。
さらにまた、 上述した目的を達成する本発明にかかる電子文書処 理装置は、 電子文書を処理する電子文書処理装置において、 電子文 書の要約文を作成する要約文作成手段と、 電子文書のうち、 要約文 に含まれる部分については、 要約文に含まれない部分に比べ、 強調 して読み上げる文書読み上げ手段とを備えることを特徴と している。 このような本発明にかかる電子文書処理装置は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して直接読み上げる。
また、 上述した目的を達成する本発明にかかる電子文書処理方法 は、 電子文書を処理する電子文書処理方法において、 電子文書の要 約文を作成する要約文作成工程と、 電子文書のうち、 要約文に含ま れる部分については、 要約文に含まれない部分に比べ、 強調して読 み上げる文書読み上げ工程とを備えることを特徴と している。
このような本発明にかかる電子文書処理方法は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して直接読み上げる。
さらに、 上述した目的を達成する本発明にかかる電子文書処理プ 口グラムが記録された記録媒体は、 電子文書を処理するコンビユー タ制御可能な電子文書処理プログラムが記録された記録媒体におい て、 電子文書処理プログラムは、 電子文書の要約文を作成する要約 文作成工程と、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して読み上げる文書読み上げ 工程とを備えることを特徴としている。
このような本発明にかかる電子文書処理プログラムが記録された 記録媒体は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して直接読み上げる電子文書 処理プログラムを提供する。
さらにまた、 上述した目的を達成する本発明にかかる電子文書処 理装置は、 電子文書を処理する電子文書処理装置において、 電子文 書を構成する複数の要素の中から、 段落、 文及び句のうちの少なく とも 2つの開始位置を検出する検出手段と、 この検出手段により得 られた検出結果に基づいて、 電子文書に対して、 段落、 文及び句の うちの少なく とも 2つの開始位置に互いに異なる休止期間を設ける ことを示す属性情報を付与することで、 音声合成器で読み上げるた めの音声読み上げデータを生成する音声読み上げデータ生成手段と を備えることを特徴としている。
このような本発明にかかる電子文書処理装匱は、 段落、 文及び句 のうちの少なく とも 2つの開始位置に互いに異なる休止期間を設け ることを示す属性情報を付与して音声読み上げデータを生成する。 また、 上述した目的を達成する本発明にかかる電子文書処理方法 は、 電子文書を処理する電子文書処理方法において、 電子文書を構 成する複数の要素の中から、 段落、 文及び句のうちの少なく とも 2 つの開始位置を検出する検出工程と、 この検出工程にて得られた検 出結果に基づいて、 電子文書に対して、 段落、 文及び句のうちの少 なく とも 2つの開始位置に互いに異なる休止期間を設けることを示 す属性情報を付与されることで、 音声合成器で読み上げるための音 声読み上げデータを生成する音声読み上げデータ生成工程とを備え ることを特徴としている。
このような本発明にかかる電子文書処理方法は、 段落、 文及び句 のうちの少なく とも 2つの開始位置に互いに異なる休止期間を設け ることを示す属性情報を付与して音声読み上げデータを生成する。 さらに、 上述した目的を達成する本発明にかかる電子文書処理プ 口グラムが記録された記録媒体は、 電子文書を処理するコンビユ ー タ制御可能な電子文書処理プログラムが記録された記録媒体におい て、 電子文書処理プログラムは、 電子文書を構成する複数の要素の 中から、 段落、 文及び句のうちの少なく とも 2つの開始位置を検出 する検出工程と、 この検出工程にて得られた検出結果に基づいて、 電子文書に対して、 段落、 文及び句のうちの少なく とも 2つの開始 位置に互いに異なる休止期間を設けることを示す属性情報を付与さ れることで、 音声合成器で読み上げるための音声読み上げデータを 生成する音声読み上げデータ生成工程とを備えることを特徴と して レヽる。
このような本発明にかかる電子文書処理プログラムが記録された 記録媒体は、 段落、 文及び句のうちの少なく とも 2つの開始位置に 互いに異なる休止期間を設けることを示す属性情報を付与して音声 読み上げデータを生成する電子文書処理プログラムを提供する。
さらにまた、 上述した目的を達成する本発明にかかる電子文書処 理装置は、 電子文書を処理する電子文書処理装置において、 電子文 書を構成する複数の要素の中から、 段落、 文及び句のうちの少なく とも 2つの開始位置を検出する検出手段と、 この検出手段により得 られた検出結果に基づいて、 段落、 文及び句のうちの少なく とも 2 つの開始位置に互いに異なる休止期間を設けて電子文書を音声合成 して読み上げる文書読み上げ手段とを備えることを特徴としている。 このような本発明にかかる電子文書処理装置は、 段落、 文及び句 のうちの少なく とも 2つの開始位置に互いに異なる休止期間を設け て電子文書を直接読み上げる。
また、 上述した目的を達成する本発明にかかる電子文書処理方法 は、 電子文書を処理する電子文書処理方法において、 電子文書を構 成する複数の要素の中から、 段落、 文及び句のうちの少なく とも 2 つの開始位置を検出する検出工程と、 この検出工程にて得られた検 出結果に基づいて、 段落、 文及び句のうちの少なく とも 2つの開始 位置に互いに異なる休止期間を設けて電子文書を音声合成して読み 上げる文書読み上げ工程とを備えることを特徴と している。
このような本発明にかかる電子文書処理方法は、 段落、 文及び句 のうちの少なく とも 2つの開始位置に互いに異なる休止期間を設け て電子文書を直接読み上げる。
さらに、 上述した目的を達成する本発明にかかる電子文書処理プ ログラムが記録された記録媒体は、 電子文書を処理するコンビユー タ制御可能な電子文書処理プログラムが記録された記録媒体におい て、 電子文書処理プログラムは、 電子文書を構成する複数の要素の 中から、 段落、 文及び句のうちの少なく とも 2つの開始位置を検出 する検出工程と、 この検出工程にて得られた検出結果に基づいて、 段落、 文及び句のうちの少なく とも 2つの開始位置に互いに異なる 休止期間を設けて電子文書を音声合成して読み上げる文書読み上げ 工程とを備えることを特徴と している。
このような本発明にかかる電子文書処理プログラムが記録された 記録媒体は、 段落、 文及び句のうちの少なく とも 2つの開始位置に 互いに異なる休止期間を設けて電子文書を直接読み上げる電子文書 処理プログラムを提供する。
図面の簡単な説明 図 1は、 本発明の実施の形態と して示す文書処理装置の構成を説 明するブロック図である。
図 2は、 文書の内部構造を示す図である。
図 3は、 表示部の表示内容を説明する図であって、 文書の内部構 造をタグにより表示したウィンドウを示す図である。
図 4は、 文書の読み上げを行う際の一連の処理を説明するフロー チャートである。
図 5は、 受信又は作成した日本語の文書の一例を示す図であって, 文書を表示したウインドウを示す図である。
図 6は、 受信又は作成した英語の文書の一例を示す図であって、 文書を表示したウインドウを示す図である。
図 7 Aは、 図 5に示すタグ付けされた日本語の文書であるタダフ アイルを示す図であって、 見出しの部分を示す図である。
図 7 Bは、 図 5に示すタグ付けされた日本語の文書であるタグフ アイルを示す図であっ 、 最後の段落を示す図である。
図 8は、 図 6に示すタグ付けされた英語の文書であるタグフアイ ルを示す図である。 図 9 Aは、 図 7に示すタグファイルから生成した音声読み上げフ アイルを示す図であって、 図 7 Aに示す見出しの部分の抜粋に対応 する図である。
図 9 Bは、 図 7に示すタグファイルから生成した音声読み上げフ アイルを示す図であって、 図 7 Bに示す最後の段落の抜粋に対応す る図である。
図 1 0は、 図 8に示すタグファイルから生成した音声読み上げフ アイルを示す図である。
図 1 1は、 音声読み上げファイルを生成する際の一連の処理を説 明するフローチャー トである。
図 1 2は、 ユーザインターフェースウィンドウを示す図である。 図 1 3は、 文書を表示したウィンドウを示す図である。
図 1 4は、 文書を表示したウィンドウを示す図であって、 要約文 を表示する表示領域が図 1 3に示す表示領域より も拡大された様子 を示す図である。
図 1 5は、 要約文を作成する際の一連の処理を説明するフローチ ヤートである。
図 1 6は、 活性拡散を行う際の一連の処理を説明するフ口一チヤ 一トである。
図 1 7は、 活性拡散の処理を説明するためのエレメントの連結構 造を示す図である。
図 1 8は、 活性拡散のリンク処理を行う際の一連の処理を説明す るフローチヤ一トである。
図 1 9は、 文書とその要約文を表示したウインドウを示す図であ る。 図 2 0は、 要約文を表示する表示領域の表示範囲を変更して新た に要約文を作成する際の一連の処理を説明するフローチヤ一トであ る。
図 2 1は、 文書とその要約文を表示したウインドウを示す図であ つて、 図 1 4に示すウインドウに要約文を表示した様子を示す図で ある。
図 2 2は、 要約文を作成して文書の読み上げを行う際の一連の処 理を説明するフローチャートである。
図 2 3は、 要約文を作成した後に音声読み上げファイルを生成す る際の一連の処理を説明するフローチヤ一トである。 発明を実施するための最良の形態 以下、 本発明を適用した具体的な実施の形態について図面を参照 しながら詳細に説明する。
本発明の実施の形態と して示す文書処理装置は、 与えられた電子 文書やその電子文書から作成した要約文を音声合成エンジンにより 音声合成して読み上げる機能を有し、 これらの電子文書や要約文を 読み上げる際に、 要約文に含まれる要素については、 音量を増大さ せて読み上げるとともに、 これらの電子文書や要約文を構成する段 落、 文及び句の開始位置に所定の休止期間を設けて読み上げるもの である。 なお、 以下の説明では、 電子文書を単に文書と記すものと する。
文書処理装置は、 図 1に示すように、 制御部 1 1及びインタ一フ エース 1 2を有する本体 1 0と、 ユーザにより入力された情報を本 体 1 0に供給する入力部 2 0と、 外部からの信号を受信して本体 1 0に供給する受信部 2 1 と、 サーバ 2 4 と本体 1 0との間の通信処 理を行う通信部 2 2と、 本体 1 0から出力される情報を音声と して 出力する音声出力部 3 0と、 本体 1 0から出力される情報を表示す る表示部 3 1 と、 記録媒体 3 3に対して情報を記録及びノ又は再生 する記録 再生部 3 2と、 ハードディスク ドライブ (Hard Disk Dr ive; HD D) 3 4とを備える。
本体 1 0は、 制御部 1 1 と、 ィンターフェース 1 2 とを有し、 こ の文書処理装置の主要な部分を構成する。
制御部 1 1は、 この文書処理装置における処理を実行する C P U (Central Processing Unit) 1 3 と、 揮発性のメモリ である R AM (Random Access Memory) 1 4 と、 不揮発性のメモリである R O M (Read Only Memory) 1 5 とを有する。
C P U 1 3は、 例えば R OM 1 5やハードディスクに記録されて いるプログラムにしたがって、 プログラムを実行するための制御を 行う。 RAM I 4には、 C PU 1 3が各種処理を実行する上で必要 なプログラムやデータが必要に応じて一時的に格納される。
インターフェース 1 2は、 入力部 2 0、 受信部 2 1、 通信部 2 2、 表示部 3 1、 記録 再生部 3 2及びハードディスク ドライブ 3 4に 接続される。 インタ一フェース 1 2は、 制御部 1 1の制御のもとに、 入力部 2 0、 受信部 2 1及び通信部 2 2を介して供給されるデータ の入力、 表示部 3 1へのデータの出力、 記録 再生部 3 2に対する データの入出力について、 データを入出力するタイミングを調整し、 データの形式を変換する。
入力部 2 0は、 この文書処理装置に対するユーザの入力を受ける 部分である。 この入力部 2 0は、 例えばキーボードやマウスにより 構成される。 ユーザは、 この入力部 2 0を用いることで、 例えば、 キーボードによりキーヮードを入力したり、 マウスにより表示部 3 1に表示される文書のエレメントを選択して入力することができる。 なお、 エレメントとは、 文書を構成する要素であって、 例えば文書、 文及び語を含むものである。
受信部 2 1は、 この文書処理装置に対して、 外部から例えば通信 回線を介して送信されるデータを受信する。 この受信部 2 1は、 電 子文書である複数の文書やこれらの文書を処理するための電子文書 処理プログラムを受信する。 受信部 2 1により受信されたデータは、 本体 1 0に供給される。
通信部 2 2は、 例えばモデムやターミナルアダプタ等により構成 され、 電話回線を介してインターネッ ト 2 3に接続される。 インタ ーネッ ト 2 3には、 文書等のデータを格納したサーバ 2 4が接続さ れており、 通信部 2 2は、 インターネッ ト 2 3を介してサーバ 2 4 にアクセス し、 このサーバ 2 4からデータを受信することができる。 この通信部 2 2により受信されたデータは、 本体 1 0に供給される。 音声出力部 3 0は、 例えば、 スピーカにより構成される。 この音 声出力部 3 0には、 音声合成エンジン等により音声合成されて得ら れる電気的な音声信号やその他の各種音声信号がィンターフェース 1 2を介して入力される。 音声出力部 3 0は、 入力された信号を音 声に変換して出力する。
表示部 3 1には、 文字情報や画像情報がィンターフェース 1 2を 介して入力される。 この表示部 3 1は、 入力された情報を表示する。 より具体的には、 表示部 3 1は、 例えば陰極線管 (Cathode Ray Tu be; C R T ) や液晶表示装置 (Liqu i d Crystal Di splay; L C D ) により構成され、 例えば単数又は複数のウィンドウを表示し、 この ウィンドウ上に文字や図形等を表示する。
記録ノ再生部 3 2は、 制御部 1 1の制御のもとに、 例えば、 フロ ッピーディスク、 光ディスク、 光磁気ディスクといった着脱可能な 記録媒体 3 3に対してデータの記録及びノ又は再生を行う。 また、 記録媒体 3 3には、 文書を処理するための電子文書処理プログラム や処理対象とする文書が記録されている。
ハードディスク ドライブ 3 4は、 大容量の磁気記録媒体であるハ ―ドディスクに対してデータの記録及び Z又は再生を行う。
このような文書処理装置は、 以下のようにして所望の文書を受信 し、 表示部 3 1に表示する。
文書処理装置においては、 まずユーザが入力部 2 0を操作してィ ンタ一ネッ ト 2 3を介して通信を行うためのプログラムを起動し、 サーバ 2 4 (サーチエンジン) の U R L ( Un i form Resource Locat or) を入力すると、 制御部 1 1は、 通信部 2 2を制御し、 サーバ 2 4にアクセスする。
これに応じて、 サーバ 2 4は、 インターネッ ト 2 3を介して、 文 書処理装置の通信部 2 2に検索画面のデータを出力する。 文書処理 装置において C P U 1 3は、 このデータをインターフェース 1 2を 介して表示部 3 1に出力し、 表示させる。
文書処理装置においては、 ユーザが入力部 2 0を用いてこの検索 画面上でキーヮ一ド等を入力して検索を指令すると、 通信部 2 2か らィンターネッ ト 2 3を介して、 サーチエンジンと してのサーバ 2 4に対して検索命令が送信される。 サーバ 2 4は、 検索命令を受信すると、 この検索命令を実行し、 得られた検索結果をインターネッ ト 2 3を介して通信部 2 2に送信 する。 文書処理装置において制御部 1 1は、 通信部 2 2を制御し、 サーバ 2 4から送信される検索結果を受信させ、 その一部を表示部 3 1に表示させる。
具体的には、 ユーザが入力部 2 0を用いて例えば 「T C P」 とい うキーワードを入力して検索を指令した場合には、 文書処理装置に は、 サーバ 2 4から 「T C P」 のキーワードを含む各種情報が送信 され、 表示部 3 1には例えば以下のような文書が表示される。
「丁 CP/IP (丁 ransmission Control Protocol /Internet Protocol) CO 歴史は、 北米の、 いや世界のコンピュータネッ トワークの歴史であ るといっても過言ではない。 そしてその TCP/IPの歴史は、 ARPANETを 抜きにして語ることはできなレ、。 ARPANETは正式名称を Advanced Re search Project Agency Network (高等研究計画局ネッ 卜ワーク) と レ、い、 ァメ リカ国防省の DOD(Department of Defence)の国防高等研 究計画局(DARPA:Defence Advanced Research Project Agency)力 ^ス ポンサ一となって構築されてきた、 実験および研究用のバケツ ト交 換ネッ トワークである。 1969年北米西海岸の 4個所の大学、 研究機 関のホス トコンピュータを 50kbpsの回線で結んだきわめて小規模な ネッ トワークから ARPANETは出発した。
当時は 1945年に世界初のコンピュータである ENIACがペンシルバニ ァ大学で開発され、 1964年にはじめて ICを理論素子と して実装し、 第 3世代のコンピュータの歴史を形成したメインフレームの汎用コ ンピュ一タシリーズが開発され、 やっとコンピュータが産声をあげ たばかりあった。 この時代背景を考えると、 将来のコンピュータ通 信の最盛を見越したこのようなプロジェク トは、 まさに米国ならで はのものであったといえるだろう。 」
この文書は、 その内部構造を後述するタグ付けによる属性情報に よって記述されている。 文書処理装置における文書処理は、 文書に 付与されたタグを参照して行われる。 この実施の形態においては、 文書の構造を示す統語論的タグとともに、 多言語間で文書の機械的 な内容理解を可能にするような意味的 · 語用論的タグを文書に付与 している。
統語論的タグ付けと しては、 文書のッリ一状の内部構造を記述す るタグ付けがある。 すなわち、 本実施の形態においては、 図 2に示 すように、 このタグ付けによる内部構造、 文書、 文、 語彙エレメ ン ト等の各エレメント、 通常リンク、 参照 ·被参照リ ンク等が、 タグ と して予め文書に付与されている。 図 2中において、 白丸 "〇" は、 語彙、 セグメ ン ト、 文といった文書の要素、 すなわちエレメ ン トで あり、 最下位の白丸 "〇" は、 文書における最小レベルの語に対応 する語彙エレメントである。 また、 実線は、 語、 句、 節、 文等の文 書のエレメ ン ト間のつながりを示す通常リンク (normal link) であ る。 破線は、 参照 ·被参照による係り受け関係を示す参照リ ンク
(reference link) である。 文書の内部構造は、 上位から下位への 順序で、 文書 (document) 、 サブディ ビジョ ン (subdivision) 、 段 落 (paragraph) 、 文 (sentence ) 、 サブセンテンシャノレセクメ ン ト 、 subsentential segment ) 、 · · -、 g§ エレメ ン 卜力 ¾ら構成 される。 これらのうち、 サブディビジョンと段落は、 オプションで ある。
一方、 意味論 ·語用論的なタグ付けと しては、 係り受け、 例えば 代名詞の指示対象等を示す統語構造 (syntactic structure) に関す るタグ付けや多義語の意味のように意味 (semantic) の情報を記述 するものがある。 本実施の形態におけるタグ付けは、 HTML (Hy per Text Markup Language) と同様 XML (extensible Markup Language) の形式によるものである。
ここで、 タグ付けされた文書の内部構造の一例を以下に示すが、 文書へのタグ付けは、 この方法に限定されるものではない。 また、 以下では、 英語と 日本語の文書の例を示すが、 タグ付けによる内部 構造の記述は、 他の言語にも同様に適用可能であることを断ってお <。
^ [列 ば'、 "Time flies like an arrow. " とレヽぅ文につレヽて fま、 <文〉く名詞句 語義 = "TimeO" 〉time<Z名詞句〉
く動詞句〉 <動詞 語義 = "flyl" 〉flies<Z動詞 >
く形容動詞句〉 <形容動詞 語義 = "likeO" 〉 likeく Z形容動詞〉 く名詞句〉 anく名詞 語義 = "arrowO" 〉 arrowく Z名詞〉く Z名詞 句〉
<ノ形容動詞句〉 < 動詞句 >. <z文〉
というようにタグ付けすることができる。
ここで、 <文〉、 <名詞〉、 <名詞句〉、 <動詞〉、 <動詞句〉、 <形容動詞 >、 <形容動詞句〉は、 それぞれ、 文、 名詞、 名詞句、 動詞、 動詞句、 形容詞を含む前置詞句又は後置詞句 /形容詞句、 形 容詞句 形容動詞句のような文の統語構造を表している。 タグは、 エレメン卜の先端の直前及び終端の直後に対応して配置される。 ェ レメン トの終端の直後に配置されるタグは、 記号 " " によりエレ メ ン トの終端であることを示している。 エレメ ン トは、 統語的構成 素、 すなわち、 句、 節及び文を示す。 なお、 語義 (word sense) =
"tiraeO" は、 語 "time" の有する複数の意味、 すなわち、 複数の語 義のうちの第 0番目の意味であることを指している。 具体的には、 "time" には、 名詞と動詞があるが、 ここでは "time" が名詞であ ることを示している。 この例示の他にも、 例えば、 語 "オレンジ" は、 少なく とも植物の名前、 色、 果物の意味があるが、 これらも語 義によって区別することができる。
このような文書を用いる文書処理装置においては、 図 3に示すよ うに、 表示部 3 1のウィンドウ 1 0 1に統語構造を表示すること力 S できる。 ウィンドウ 1 0 1においては、 右半面 1 0 3に語彙ェレメ ントが表示されるとともに、 左半面 1 0 2に文の内部構造が表示さ れる。 このウィンドウ 1 0 1においては、 日本語で記述された文書 のみならず、 英語等の任意の言語で記述された文書についても、 統 語構造を表示することができる。
具体的には、 このウィンドウ 1 0 1の右半面 1 0 3には、 ここで は、 タグ付けされた次に示すような文書 「A氏の B会が終わった C 市で、 一部の大衆紙と一般紙がその写真報道を自主規制する方針を 紙面で明らかにした。 」 の一部が表示されている。 この文書のタグ 付けの例を次に示す。
<文書〉 <文〉 <形容動詞句 関係 = "場所" 〉<名詞句〉 <形容 動詞句 場所 = "C市" 〉
<形容動詞句 関係 == "主語" 〉<名詞句 識別子 = "B会" >< 形容動詞句 関係 = "所有" 〉<人名 識別子 = "A氏" > く /人名〉の < 形容動詞句〉 <組織名 識別子 = "B会" 〉 8会< /組織名 > < /名詞句〉が < 形容動詞句〉 終わったくノ形容動詞句〉く地名 識別子 = "C巿" >〇巿< 地 名 > <ノ名詞句 >で、 <Z形容動詞句〉 <形容動詞句 関係 = "主 語" ><名詞句 識別子 = "新聞" 統語 = "並列" 〉 <名詞句 > <形容動詞句〉一部の <ノ形容動詞句〉大衆紙 < /名詞句 >と <名 詞 >一般紙 < Z名詞〉 < /名詞句 >が < Z形容動詞句 >
<形容動詞句 関係 = "目的語" 〉 <形容動詞句 関係 = "内容" 主語 = "新聞" > <形容動詞句 関係 = "目的語" 〉 <名詞句〉
<形容動詞句〉 <名詞 共参照 = "B会" 〉そ< 名詞 >の< /形 容動詞句 >写真報道 <Z名詞句〉をく Z形容動詞句〉
自主規制する <Z形容動詞句〉方針をく Z形容動詞句〉
<形容動詞句 関係 = "位置" 〉紙面で < 形容動詞句〉
明ら力 にした。 <ノ文 >< 文書〉
この文書においては、 「一部の大衆紙と一般紙」 は、 統語 = "並 列" というタグにより並列であることが表されている。 並列の定義 は、 係り受け関係を共有するということである。 特に何も指定がな い場合には、 例えば、 <名詞句 関係 = " X " 〉 <名詞〉 Aく Z名 詞〉 <名詞〉 B < 名詞〉 <ノ名詞句〉は、 Aが Bに依存関係があ ることを表す。
また、 関係 = "x " は、 関係属性を表す。 この関係属性は、 統語、 意味、 修辞についての相互関係を記述する。 主語、 目的語、 間接目 的語のような文法機能、 動作主、 被動作主、 受益者等のような主題 役割、 及び理由、 結果等のような修辞関係は、 この関係属性により 記述される。 関係属性は、 関係 = という形で表される。 本実施の 形態においては、 主語、 目的語、 間接目的語のような比較的容易な 文法機能について関係属性を記述する。 また、 この文書においては、 例えば、 " A氏" 、 " B会" 、 " C 市" のような固有名詞について、 地名、 人名、 組織名等のタグによ り属性が記述される。 これらの地名、 人名、 組織名等のタグが付与 される語は、 固有名詞である。
文書処理装置は、 このようにタグ付けされた文書を受信すること ができる。 文書処理装置は、 C P U 1 3により R O M 1 5やハード ディスクに記録されている電子文書処理プログラムのうちの音声読 み上げプログラムを起動すると、 図 4に示すような一連の工程を経 ることによって、 文書の読み上げを行う。 まず、 ここでは、 簡略化 した各工程の説明を行い、 その後、 具体的な文書例を用いて、 各ェ 程の説明を詳細に行う。
まず、 文書処理装置は、 図 4に示すように、 ステップ S 1におい て、 タグ付けされた文書を受信する。 なお、 この文書には、 後述す るように、 音声合成を行うために必要なタグが付与されているもの とする。 また、 文書処理装置は、 タグ付けされた文書を受信し、 そ の文書に音声合成を行うために必要なタグを新たに付与して文書を 作成することもできる。 さらに、 文書処理装置は、 タグ付けされて いない文書を受信し、 その文書に音声合成を行うために必要なタグ を含めたタグ付けを行い、 タグファイルを作成してもよい。 以下で は、 このようにして受信又は作成されて用意されたタグ付けされた 文書をタグファイルと記す。
続いて、 文書処理装置は、 ステップ S 2において、 C P U 1 3の 制御のもとに、 タグファイルに基づいて音声読み上げファイル (音 声読み上げデータ) を生成する。 この音声読み上げファイルは、 後 述するように、 タグファイル中のタグから、 読み上げのための属性 情報を導出し、 この属性情報を埋め込むことにより生成される。 続いて、 文書処理装置は、 ステップ S 3において、 C P U 1 3の 制御のもとに、 音声読み上げファイルを用いて、 音声合成エンジン に適した処理を行う。 なお、 この音声合成エンジンは、 ハードゥエ ァで構成してもよいし、 ソフ トウェアで実現するようにしてもよレ、。 音声合成エンジンをソフ トウェアで実現する場合には、 そのアプリ ケーシヨンプログラムは、 文書処理装置の R O M 1 5やハードディ スク等に予め記憶されている。
そして、 文書処理装置は、 ステップ S 4において、 ユーザが後述 するユーザィンターフェースを用いて行う操作に応じて処理を行う。 文書処理装置は、 このような処理を行うことによって、 与えられ た文書を音声合成して読み上げることができる。 これらの各工程に ついて、 以下詳細に説明する。
まず、 ステップ S 1におけるタグ付けされた文書の受信又は作成 について説明する。 文書処理装置は、 例えば上述したように、 先に 図 1に示したサーバ 2 4にアクセスし、 キーヮード等に基づいて検 索された結果と しての文書を受信する。 また、 文書処理装置は、 タ グ付けされた文書を受信し、 その文書に音声合成を行うために必要 なタグを新たに付与して文書を作成する。 さらに、 文書処理装置は、 タグ付けされていない文書を受信し、 その文書に音声合成を行うた めに必要なタグを含めたタグ付けを行い、 タグフアイルを作成する こともできる。
ここでは、 図 5又は図 6に示すような日本語又は英語による文書 にタグ付けがなされたタグファイルを受信又は作成したものとする。 すなわち、 図 5に示すタグファイルの元の文書は、 次のような日本 語の文書である。
「 [素敵にエイジング] / 8ガン転移、 抑えられる ! ?
がんはこの十数年、 わが国の死因第一位を占めている。 その死亡 率は年齢が進むとともに増加傾向にある。 高齢者の健康を考えると き、 がんの問題を避けて通れない。
がんを特徴づけるのは、 細胞増殖と転移である。 人間の細胞には、 自動車でいえばアクセルに当たり、 がんをどんどん増殖する 「がん 遺伝子」 と、 ブレーキ役の 「がん抑制遺伝子」 がある。
双方のバランスが取れていれば問題はない。 正常な調節機能が失 われ、 細胞内でブレーキが利かない変異が起こると、 がんの増殖が 始まる。 高齢者の場合、 長い年月の間にこの変異が蓄積し、 がん化 の条件を備えた細胞の割合が増え、 がん多発につながるわけだ。
ところで、 もう一つの特徴、 転移という性質がなければ、 がんは それほど恐れる必要はない。 切除するだけで、 完治が可能になるか らである。 転移を抑制することの重要性がここにある。
この転移、 がん細胞が増えるだけでは発生しない。 がん細胞が細 胞と細胞の間にある蛋白 (たんぱく) 質などを溶かし、 自分の進む 道をつくって、 血管やリンパ管に入り込む。 循環しながら新たな " 住み家" を探して潜り込む、 といった複雑な動きをすることが、 近 年解明されつつある。 」
文書処理装置は、 この日本語の文書を受信した場合には、 図 5に 示すように、 表示部 3 1に表示されるウィンドウ 1 1 0に文書を表 示する。 ウィンドウ 1 1 0は、 文書の名称が表示される文書名表示 部 1 1 1、 キーヮードが入力されるキ一ヮ一ド入力部 1 1 2、 後述 するように文書の要約文を作成するための実行ボタンである要約作 成実行ボタン 1 1 3及び音声読み上げを実行するための実行ボタン である読み上げ実行ボタン 1 1 4等が表示される表示領域 1 2 0と、 文書が表示される表示領域 1 3 0とに区分されている。 表示領域 1 3 0の右端には、 スク ローノレバー 1 3 1 と、 このスクロールバー 1 3 1 を上下に動かすためのボタン 1 3 2 , 1 3 3が設けられており、 ュ一ザが例えば入力部 2 0のマウス等を用いて、 スクロールバー 1 3 1 を上下に直接動かしたり、 ボタン 1 3 2, 1 3 3を押してスク 口一ルバ一 1 3 1を上下に動かすことによって、 表示領域 1 3 0に 表示される表示内容を縦方向にスクロールすることができる。
一方、 図 6に示すタグファイルの元の文書は、 次のような英語の 文書である。
「During its centennial year, The Wall Street Journal will report events of the past century that stand as milestones of American business history. THREE COMPUTERS THAT CHANGED t he face of personal computing were launched in 1977. That ye ar the Apple II, Commodore Pet and Tandy TRS came to market.
The computers were crude by today' s standards. Apple II own ers, for example, had to use their television sets as screen s and stored data on audiocassettes.」
文書処理装置は、 この英語の文書を受信した場合には、 図 6に示 すように、 表示部 3 1に表示されるウィンドウ 1 4 0に文書を表示 する。 ウィンドウ 1 40は、 ウィンドウ 1 1 0と同様に、 文書の名 称が表示される文書名表示部 1 4 1、 キ一ヮ一ドが入力されるキー ヮ一ド入力部 1 4 2、 文書の要約文を作成するための実行ボタンで ある要約作成実行ボタン 1 4 3及び音声読み上げを実行するための 実行ボタンである読み上げ実行ボタン 1 4 4等が表示される表示領 域 1 5 0と、 文書が表示される表示領域 1 6 0とに区分されている。 表示領域 1 6 0の右端には、 スク ロールバー 1 6 1 と、 このスクロ 一ルバ一 1 6 1を上下に動かすためのボタン 1 6 2, 1 6 3が設け られており、 ユーザが例えば入力部 2 0のマウス等を用いて、 スク 口一ルバ一 1 6 1を上下に直接動かしたり、 ボタン 1 6 2, 1 6 3 を押してスクロールバー 1 6 1を上下に動かすことによって、 表示 領域 1 6 0に表示される表示内容を縦方向にスク口ールすることが できる。
図 5又は図 6に示す日本語又は英語の文書は、 それぞれ、 図 7又 は図 8に示すようなタグファイルと して構成されている。
ここで、 図 7 Aに示すタグファイルは、 見出しの部分である 「 [素敵にエイジング] Z 8ガン転移、 抑えられる ! ?」 を抜粋し たものを示している。 また、 図 7 Bに示すタグファイルは、 最後の 段落である 「この転移、 がん細胞が増えるだけでは発生しない。 が ん細胞が細胞と細胞の間にある蛋白質などを溶かし、 自分の進む道 をつくって、 血管やリンパ管に入り込む。 循環しながら新たな "住 み家" を探して潜り込む、 といった複雑な動きをすることが、 近年 解明されつつある。 」 を抜粋したものを示し、 残りの段落について は省略したものを示している。 この場合、 実際のタグファイルは、 見出し部分から最後の段落までが 1つのファイルと して構成されて いる。
図 7 Aに示す見出し部分において <見出し〉は、 この部分が見出 しであることを示している。 また、 図 7 Bに示す最後の段落には、 関係属性が "条件" や "手段" であることを示すタグ等が付与され ている。 さらに、 図 7 Bに示す最後の段落には、 上述した音声合成 を行うために必要なタグの例が示されている。
まず、 音声合成を行うために必要なタグと しては、 「蛋白 (たん ばく) 」 のように、 元の文書に発音 (読み仮名) を示す情報が与え られているときに付与されるものがある。 すなわち、 この場合では、
「たんぱくたんぱく」 と重複して読み上げてしまうことを防ぐため に、 発音 = " nu l l " という読み属性情報が記述されており、 「 (た んばく) 」 の部分の読み上げを禁止するタグが付与されている。 ま た、 このタグには、 特殊な機能を有するものであることを示す情報 が示されている。
また、 音声合成を行うために必要なタグと しては、 「リンパ管」 のような専門用語や 「住み家」 のように、 誤った読み上げを行う可 能性のある難訓部分に付与されるものがある。 すなわち、 この場合 では、 「りんぱくだ」 や 「すみいえ」 と読み上げてしまうことを防 ぐために、 それぞれ、 発音 = "りんぱかん" 、 発音 = "すみか" と いう発音 (読み仮名) を示す読み属性情報が記述されている。
一方、 図 8に示すタグファイルには、 補文であることを示すタグ や、 複数の文が 1つの文と して連続して構成されていることを示す タグが付与されている。 また、 このタグファイルにおける音声合成 を行うために必要なタグと しては、 「I I」 というローマ数字に対し て、 発音 = " two" という読み属性情報が記述されている。 これは、 「I I」 を 「トウ (two) 」 と読み上げさせたい場合に、 「セカンド ( second) 」 と読み上げてしまうことを防ぐために記述されている ものである。
また、 例えば文書内に引用文が含まれている場合、 このよ うなタ グファイルには、 図示しないが、 その文が引用文であることを示す タグが付与される。 さらに、 タグファイルには、 例えば文書内に疑 問文がある場合、 図示しないが、 その文が疑問文であることを示す タグが付与される。
文書処理装置は、 先に図 4に示したステップ S 1において、 この ように音声合成を行うために必要なタグが付与された文書を受信又 は作成する。
つぎに、 ステップ S 2における音声読み上げファイルの生成につ いて説明する。 文書処理装置は、 タグファイル中のタグから、 読み 上げのための属性情報を導出し、 この属性情報を埋め込むことによ つて、 音声読み上げファイルを生成する。
具体的には、 文書処理装置は、 文書の段落、 文及び句の開始位置 を示すタグを見つけ出し、 これらのタグに対応して読み上げのため の属性情報を埋め込む。 また、 文書処理装置は、 後述するように、 文書の要約文を作成した場合には、 その要約文に含まれる部分の開 始位置を文書から見つけ出し、 読み上げの際に音量を増大させる属 性情報を埋め込み、 要約文に含まれる部分であることを強調するこ ともできる。
文書処理装置は、 先に図 7又は図 8に示したタグファイルから図 9又は図 1 0に示すような音声読み上げファイルを生成する。 なお、 図 9 Aに示す音声読み上げファイルは、 先に図 7 Aに示した見出し の部分の抜粋に対応するものであり、 図 9 Bに示す音声読み上げフ アイルは、 先に図 8 Bに示した最後の段落の抜粋に対応するもので ある。 実際の音声読み上げファイルは、 見出し部分から最後の段落 までが 1つのファイルと して構成されていることは勿論である。 図 9 Aに示す音声読み上げファイルには、 文書の開始位置に対応 して Com=Lang=***という属性情報が埋め込まれている。 この属性情 報は、 文書を記述している言語を示す。 ここでは、 Com=Lang=JPNと いう属性情報であり、 文書を記述している言語が日本語であること を示している。 文書処理装置においては、 この属性情報を参照する ことで、 文書毎に言語に応じた適切な音声合成エンジンを選択する ことができる。
また、 図 9 A及び図 9 Bに示す音声読み上げファイルには、 Com= beg i n— p、 Com二 begi n— s及び Com=beg in— phとレヽぅ属十生 t青報力 s埋め込ま れている。 これらの属性情報は、 それぞれ、 文書の段落、 文及び句 の開始位置を示す。 文書処理装置は、 上述したタグファイル中のタ グに基づいて、 これらの段落、 文及び句のうちの少なく とも 2つの 開始位置を検出する。 音声読み上げファイルにおいて、 例えば上述 したタグフアイル中のく形容動詞句 > <名詞句〉のように、 同じレ ベルの統語構造を表すタグが連続して現れる部分に対しては、 それ ぞれに対応する数の Com=begi n— phが埋め込まれずに、 まとめられて
1つの Com=begi n— ph力 s埋め込まれる。
さらに、 音声読み上げフアイノレには、 Com=begi n_p Com=begi n_s 及び Com=beg in_phに対応して、 それぞれ、 Pau=500、 Pau= 100及び Pa u=50という属性情報が埋め込まれている。 これらの属性情報は、 そ れぞれ、 読み上げの際に 5 0 0ミ リ秒、 1 0 0 ミ リ秒及び 5 0 ミ リ 秒の休止期間を設けることを示す。 すなわち、 文書処理装置は、 文 書の段落、 文及び句の開始位置において、 それぞれ、 5 0 0 ミ リ秒、
1 0 0 ミ リ秒及び 5 0 ミ リ秒の休止期間を設けて文書を音声合成ェ ンジンにより読み上げる。 なお、 これらの属性情報は、 Com=begi n_ 3 L p、 Com=begin_s及び Com=begin—phに対応して埋め込まれる。 そのた め、 例えばタグファィル中の <形容動詞句 > <名詞句〉のように、 同じレベルの統語構造を表すタグが連続して現れる部分は、 1つの 句と して捉えられ、 それぞれに対応する数の Pau=50が埋め込まれず に、 まとめられて 1つの Pau=50が埋め込まれる。 また、 例えばタグ フアイノレ中の <段落〉く文〉 <名詞句〉のように、 異なるレべノレの 統語構造を表すタグが連続して現れる部分については、 それぞれに 対応する Pau=***が埋め込まれる。 そのため、 文書処理装置は、 この ような部分を読み上げる際には、 例えば文書の段落、 文及び句のそ れぞれの休止期間を加算して得られる 6 5 0 ミ リ秒の休止期間を設 けて読み上げる。 このように、 文書処理装置は、 例えば、 段落、 文 及び句の順序で長さが短くなるように、 段落、 文及び句に対応した 休止期間を設けることで、 段落、 文及び句の切れ目を考慮した違和 感のない読み上げを行うことができる。 なお、 この休止期間は、 文 書の段落、 文及び句の開始位置において、 それぞれ、 5 0 0 ミ リ秒、 1 0 ◦ ミ リ秒及び 5 0 ミ リ秒である必要はなく、 適宜変更すること ができる。
さらにまた、 図 9 Bに示す音声読み上げファイルにおいては、 タ グファイル中で記述されている発音 = " nu l l " という読み属性情報 に対応して、 「 (たんぱく) 」 が除かれているとともに、 発音 = " りんぱかん" 、 発音 = "すみか" という読み属性情報に対応して、 「リンパ管」 、 「住み家」 i それぞれ、 「りんぱかん」 、 「すみ カ^ に置換されている。 文書処理装置は、 このような読み属性情報 を埋め込むことで、 音声合成エンジンが参照する辞書の不備による 読み誤りをすることがない。 また、 音声読み上げファイルには、 文書内に含まれた引用文であ ることを示すタグに基づいて、 この引用文のみを別の音声合成ェン ジンを用いるように指定するための属性情報が埋め込まれてもよい。 さらに、 音声読み上げファイルには、 疑問文であることを示すタ グに基づいて、 その文の語尾のィントネーシヨンを上げるための属 性情報が埋め込まれてもよい。
さらにまた、 音声読み上げファイルには、 必要に応じて、 いわゆ る 「である調」 といった丁寧でない表現の文体を 「ですます調」 と いった丁寧な表現の文体に変換するための属性情報を埋め込むこと もできる。 なお、 この場合、 文書処理装置は、 このような属性情報 を音声読み上げファィルに埋め込むのではなく、 丁寧でない表現の 文体を丁寧な表現の文体に変換して音声読み上げフアイルを生成す るようにしてもよい。
一方、 図 1 0に示す音声読み上げファイルには、 文書の開始位置 に対応して Com=Lang=ENGという属性情報が埋め込まれており、 文書 を記述している言語が英語であることを示している。
また、 音声読み上げファイルには、 Com=Vo l=***という属性情報が 埋め込まれている。 この属性情報は、 読み上げの際の音量を示す。 例えば、 Com=Vo l =0は、 文書処理装置のデフォルトの音量で読み上げ ることを示している。 また、 Com=Vol =80は、 デフォルトの音量を 8 0 %増量した音量で読み上げることを示している。 任意の Com=Vo l = ヽ の Com=Vo l =***まで である。
さらに、 音声読み上げファイルにおいては、 タグファイル中で記 述されている発音 = " two" という読み属性情報に対応して、 「I I」 が 「two」 に置換されている。 文書処理装置は、 図 1 1に示す一連の工程を経ることによって、 このよ うな音声読み上げファイルを生成する。
まず、 文書処理装置は、 図 1 1に示すように、 ステップ S 1 1に おいて、 C P U 1 3によって、 受信又は作成したタグファイルを解 析する。 ここで、 文書処理装置は、 文書を記述している言語を判別 するとともに、 文書の段落、 文及び句の開始位置や、 読み属性情報 をタグに基づいて探し出す。
続いて、 文書処理装置は、 ステップ S 1 2において、 C P U 1 3 によって、 文書を記述している言語に応じて文書の開始位置に Com= Lang:*** 埋め込む。
続いて、 文書処理装置は、 ステップ S 1 3において、 C P U 1 3 によって、 文書の段落、 文及び句の開始位置を音声読み上げフアイ ルにおける属性情報に置換する。 すなわち、 文書処理装置は、 タグ ファイル中の <段落〉、 <文〉及び < * * *句 >を、 それぞれ、 Co m=begin_p し om=begin— s及びし om=begin— ph (こ ft;換す □
続いて、 文書処理装置は、 ステップ S 1 4において、 C P U 1 3 によって、 同じレベルの統語構造が表れて同じ Com=begin_***が重複 してレ、るものを、 1つの Com=begin_***【こ統合する。
続いて、 文書処理装置は、 ステップ S 1 5において、 C P U 1 3 tこよって、 Com=begin— こ対応して Pau=***を埋め込む。 すなわち、 文書処理装置は、 Com=begin_pの直前に Pau=500を埋め込み、 Com=be gin— sの直前 ίこ Pau=100を埋め込み、 Com=begin_phの直前こ Pau=50を 埋め込む。
そして、 文書処理装置は、 ステップ S 1 6において、 C P U 1 3 によって、 読み属性情報に基づいて、 正しい読みに置換する。 すな わち、 文書処理装置は、 発音 = " nul l " という読み属性情報に基づ いて、 「 (たんぱく) 」 を除去するとともに、 発音 = "りんぱかん " 、 発音 = "すみか" という読み属性情報に基づいて、 「リ ンパ 管」 、 「住み家」 を、 それぞれ、 「りんぱかん」 、 「すみか」 に置 換する。
文書処理装置は、 先に図 4に示したステップ S 2において、 図 1 1に示す処理を行うことによって、 音声読み上げファイルを自動的 に生成する。 文書処理装置は、 生成した音声読み上げファイルを R A M 1 4に記憶させる。
つぎに、 図 4中ステップ S 3における音声読み上げファイルを用 いた処理について説明する。 文書処理装置は、 音声読み上げフアイ ルを用いて、 R O M 1 5やハードディスク等に予め記憶されている 音声合成エンジンに適した処理を C P U 1 3の制御のもとに行う。 具体的には、 文書処理装置は、 音声読み上げファイルに埋め込ま れている Com=Lang=***という属性情報に基づいて、 使用する音声合 成エンジンを選択する。 音声合成エンジンは、 言語や男声 Z女声等 の種類に応じて識別子が付されており、 その情報が例えば初期設定 ファイルと してハードディスクに記録されている。 文書処理装置は、 初期設定ファイルを参照し、 言語に対応した識別子の音声合成ェン ジンを選択する。
また、 文書処理装置は、 音声読み上げファイルに埋め込まれてい る Com=begi n一 ***を音声合成エンジンに適した形式に変換する。 例え ば、 文書処理装置は、 Com=beg in— pを Mark= 100のように 1 0 0番台の 番号でマーク付けし、 Com=beg i n— sを Mark= 1000のように 1 0 0 0番 台の番号でマーク付けし、 Com=begin— phを Mark=10000のように 1 0 0 0 0番台の番号でマーク付けする。
さらに、 音声読み上げファイルにおいては、 音量の属性情報が V。
のようにデフオルトの音量に対する増量分の百分率で表されて いることから、 文書処理装置は、 この属性情報に基づいて、 百分率 の情報を絶対値の情報に変換して求める。
文書処理装置は、 先に図 4に示したステップ S 3において、 この ような音声読み上げファイルを用いた処理を行うことによって、 音 声読み上げファィルを音声合成エンジンが文書を読み上げることが 可能な形式に変換する。
つぎに、 図 4中ステップ S 4におけるユーザインターフェースを 用いた操作について説明する。 文書処理装置は、 ユーザが例えば入 力部 2 0のマウス等を操作して先に図 5又は図 6に示した読み上げ 実行ボタン 1 1 4又は読み上げ実行ボタン 1 4 4を押すことによつ て、 音声合成エンジンを起動する。 そして、 文書処理装置は、 図 1
2に示すようなユーザインターフェースウィンドウ 1 7 0を表示部
3 1に表示する。
ユーザインターフェースウィンドウ 1 7 0は、 図 1 2に示すよう に、 文書を読み上げさせるための再生ボタン 1 7 1 と、 読み上げを 停止させるための停止ボタン 1 7 2と、 読み上げを一時停止させる ための一時停止ボタン 1 7 3とを有する。 また、 ユーザインタ一フ エースウィンドウ 1 7 0は、 巻き戻し及び早送りを含む頭出しを行 うためのボタンを有する。 具体的には、 ユーザインターフェースゥ インドウ 1 7 0は、 文単位で頭出し、 卷き戻し及び早送り させるた めの頭出しボタン 1 7 4、 巻き戻しボタン 1 7 5及び早送りボタン 1 7 6と、 段落単位で頭出し、 巻き戻し及び早送り させるための頭 出しポタン 1 7 7、 巻き戻しボタン 1 7 8及び早送りボタン 1 7 9 と、 句単位で頭出し、 巻き戻し及び早送り させるための頭出しボタ ン 1 8 0、 巻き戻しボタン 1 8 1及び早送りボタン 1 8 2とを有す る。 さらに、 ユーザインタ一フェースウィンドウ 1 7 0は、 読み上 げる対象を全文とするか、 後述するように作成した要約文とするか を選択するための選択スィ ッチ 1 8 3, 1 8 4を有する。 なお、 ュ —ザインターフェースウィンドウ 1 7 0は、 ここでは図示しないが、 例えば、 音量を増減させるためのボタンや読み上げの速さを増減さ せるためのボタン、 男声ノ女声等の声を変化させるためのボタン等 を有していてもよい。
文書処理装置は、 ユーザがこれらの各種ボタン Zスィツチを例え ば入力部 2 0のマウス等を操作して押すノ選択することによって、 音声合成エンジンによる読み上げ動作を行う。 例えば、 文書処理装 置は、 ユーザが再生ボタン 1 7 1を押すことによって、 文書の読み 上げを開始し、 読み上げの途中でユーザが頭出しボタン 1 7 4を押 すことによって、 現在読み上げている文の開始位置にジャンプして 再び読み上げる。 また、 文書処理装置は、 図 4中ステップ S 3にお いて行ったマーク付けによって、 読み上げの際にこのようなマーク 単位でのジャンプをすることができる。 すなわち、 文書処理装置は、 ユーザが例えば入出力部 2 0のマウス等を用いて巻き戻しボタン 1 7 8や早送りボタン 1 7 9を押した場合には、 例えば Mark=100のよ うに、 1 0 0番台の番号である段落の開始位置を示すマークのみを 識別してジャンプする。 同様に、 文書処理装置は、 ユーザが例えば 入出力部 2 0のマウス等を用いて卷き戻しボタン 1 7 5及び早送り ボタン 1 7 6、 巻き戻しボタン 1 8 1及び早送りボタン 1 8 2をそ れぞれ押した場合には、 それぞれ、 Mark=1000、 Mark=10000のように、 1 0 0 0番台、 1 0 0 0 0番台の番号である文、 句の開始位置を示 すマークのみを識別してジャンプする。 このように、 文書処理装置 は、 読み上げの際に段落、 文及び句単位でのジャンプを行うことに よって、 例えば文書中でユーザが所望の部分を繰り返し再生させた いといった要求に応えることができる。
文書処理装置は、 ステップ S 4において、 ユーザがこのようなュ ーザィンタ一フェースを用いた操作を行うことによって、 音声合成 エンジンにより文書を読み上げる。 読み上げた情報は、 音声出力部 3 0から出力される。
このようにして、 文書処理装置は、 所望の文書を音声合成ェンジ ンにより違和感なく読み上げることができる。
つぎに、 文書の要約文を作成した際の読み上げ処理について説明 する。 まず、 ここでは、 タグ付けされた文書を要約して要約文を作 成する処理について図 1 3乃至図 2 1を参照して説明する。
文書処理装置においては、 文書の要約を作成する場合には、 その 文書が表示部 3 1に表示されている状態で、 ユーザが入力部 2 0を 操作し、 自動要約作成モードを実行するように指令する。 すなわち、 文書処理装置は、 C P U 1 3の制御のもとに、 ハードディスク ドラ イブ 3 4を駆動して、 ハードディスクに記憶されている電子文書処 理プログラムのうちの自動要約文作成プログラムを起動する。 文書 処理装置は、 C P U 1 3により表示部 3 1を制御して、 図 1 3に示 すような自動要約文作成プログラム用の初期画面を表示させる。 こ こでは、 表示部 3 1に表示されるウィンドウ 1 9 0は、 文書の名称 が表示される文書名表示部 1 9 1、 キーヮードが入力されるキーヮ 一ド入力部 1 9 2、 文書の要約文を作成するための実行ボタンであ る要約作成実行ボタン 1 9 3等が表示される表示領域 2 0 0と、 文 書が表示される表示領域 2 1 0と、 文書の要約文が表示される表示 領域 2 2 0とに区分されている。
表示領域 2 0 0の文書名表示部 1 9 1には、 表示領域 2 1 0に表 示される文書の文書名等が表示される。 また、 キーワード入力部 1 9 2には、 例えば入力部 2 0のキーボード等を用いて文書の要約文 を作成するためのキーヮードが入力される。 要約作成実行ボタン 1 9 3は、 例えば入力部 2 0のマウス等を用いて押されることによつ て、 表示領域 2 1 0に表示されている文書の要約作成処理を実行開 始するための実行ボタンである。
表示領域 2 1 0には、 文書が表示される。 表示領域 2 1 0の右端 には、 スクローノレバ一 2 1 1 と、 このスク ロ一ノレバー 2 1 1を上下 に動かすためのボタン 2 1 2 , 2 1 3が設けられており、 ユーザが 例えば入力部 2 0のマウス等を用いて、 スクロ一ルバ一 2 1 1 を上 下に直接動かしたり、 ボタン 2 1 2 , 2 1 3を押してスクロ一ルバ - 2 1 1を上下に動かすことによって、 表示領域 2 1 0に表示され る表示内容を縦方向にスク ロールすることができる。 ユーザは、 入 力部 2 0を操作することによって、 表示領域 2 1 0に表示されてい る文書の一部を選択して要約させることもでき、 文書全体を要約さ せることもできる。
表示領域 2 2 0には、 要約文が表示される。 図 1 3においては、 要約文がまだ作成されていない状態であるため、 この表示領域 2 2 0には、 何も表示されていない。 ュ一ザは、 入力部 2 0を操作する ことによって、 表示領域 2 2 0の表示範囲 (大きさ) を変更するこ とができる。 具体的には、 ユーザは、 図 1 3に示す表示領域 2 2 0 の表示範囲 (大きさ) を、 例えば図 1 4に示すように拡大すること ができる。
文書処理装置は、 ユーザが例えば入力部 2 0のマウス等を用いて、 要約作成実行ボタン 1 9 3を押してオン状態とすると、 C P U 1 3 の制御のもとに、 図 1 5に示す処理を実行して要約文の作成を開始 する。
文書から要約文を作成する処理は、 文書の内部構造に関するタグ 付けに基づいて実行される。 文書処理装置においては、 先に図 1 4 に示したように、 ウィンドウ 1 9 0の表示領域 2 2 0の大きさを変 更することができる。 文書処理装置は、 C P U 1 3の制御のもとに、 新たにウインドウ 1 9 0が表示部 3 1に描画される力 又は、 表示 領域 2 2 0の大きさが変更された後、 要約作成実行ボタン 1 9 3が 操作されたときには、 表示領域 2 2 0に適合するように、 ウィンド ゥ 1 9 0の表示領域 2 1 0に少なく ともその一部が表示されている 文書から、 要約文を作成する処理を実行する。
まず、 文書処理装置は、 図 1 5に示すように、 ステップ S 2 1 に おいて、 C P U 1 3の制御のもとに、 活性拡散と呼ばれる処理を行 う。 本実施の形態においては、 活性拡散により得られた中心活性値 を重要度として採用することによって、 文書の要約を行う。 すなわ ち、 内部構造に関するタグ付けがされた文書においては、 活性拡散 を行うことによって、 各エレメ ン トに対して、 内部構造に関するタ グ付けに応じた中心活性値を付与することができる。
ここで、 活性拡散は、 中心活性値の高いエレメントと関わりのあ るエレメン トにも高い中心活性値を与えるような処理である。 すな わち、 活性拡散は、 照応 (anaphora; 共参照 (coref erence) ) 表現 されたエレメントとその先行詞との間で中心活性値が等しくなり、 それ以外では各中心活性値が同じ値に収束していく。 この中心活性 値は、 文書の内部構造に関するタグ付けに応じて決定されるため、 内部構造を考慮した文書の分析に利用することができる。
文書処理装置は、 図 1 6に示す一連の工程を経ることによって、 活性拡散を実行する。
まず、 文書処理装置は、 図 1 6に示すように、 ステップ S 4 1に おいて、 C P U 1 3の制御のもとに、 各エレメン トの初期化を行う。 文書処理装置は、 語彙エレメントを除いた全てのエレメントと語彙 エレメントとに対して中心活性値の初期値を割り当てる。 例えば、 文書処理装置は、 中心活性値の初期値と して、 語彙エレメ ン トを除 いた全てのエレメ ン トに対しては " 1 " を、 語彙エレメン トに対し ては "◦" を割り当てる。 また、 文書処理装置は、 各エレメ ン トの 中心活性値の初期値に均一ではない値を予め割り当てることによつ て、 活性拡散の結果得られた中心活性値に、 初期値の偏りを反映さ せることができる。 例えば、 文書処理装置は、 ユーザが関心を有す るエレメントに対しては、 中心活性値の初期値を高く設定すること によって、 ュ一ザの関心を反映した中心活性値を得ることができる。 エレメ ント間で参照 ·被参照による係り受けの関係にあるリンク である参照 ·被参照リンクと、 それ以外のリンクである通常リンク とに関しては、 エレメントを連結するリ ンクの端点の端点活性値を " 0 " に設定する。 文書処理装置は、 このようにして付与した端点 活性値の初期値を例えば R A M 1 4に記憶させる。
ここで、 エレメ ン ト とエレメントの連結構造の一例を図 1 7に示 す。 この図 1 7においては、 文書を構成するエレメントと リ ンクの 構造の一部として、 エレメント E i及びエレメント E iが示されてい る。 エレメ ン ト E iとエレメ ン ト E iとは、 それぞれ、 中心活性値 e ; , を有し、 リ ンク L ;;にて接続されている。 リ ンク L i )のエレ メント E iに接続する端点は、 T i iであり、 エレメ ン ト E iに接続す る端点は、 丁 である。 エレメ ン ト E iは、 リンク L i iにより接続さ れるエレメ ン ト E iの他に、 リ ンク L i k, L i ,及び L imにより図示し ないエレメ ン ト E k, E ,及び Emにそれぞれ接続している。 エレメ ン ト E iは、 リ ンク L i iによ り接続されるエレメ ン ト E iの他に、 リ ン ク L , P, L i q及び L により図示しないエレメ ン ト E P, 及び E rにそれぞれ接続している。
続いて、 文書処理装置は、 図 1 6中ステップ S 4 2において、 C P U 1 3の制御のもとに、 文書を構成するエレメン ト E iを計数する カウンタの初期化を行う。 すなわち、 文書処理装置は、 エレメン ト を計数する力ゥンタのカウント値 i を " 1 " に設定する。 このこと により、 カウンタは、 第 1番目のエレメ ン ト E〗を参照していること になる。
続いて、 文書処理装置は、 ステップ S 4 3において、 C P U 1 3 の制御のもとに、 カウンタが参照するエレメ ン トについて、 新たな 中心活性値を計算するリンク処理を実行する。 このリンク処理につ いては、 さらに後述する。
続いて、 文書処理装置は、 ステップ S 4 4において、 C P U 1 3 の制御のもとに、 文書中の全てのエレメントについて新たな中心活 性値の計算が完了したか否かを判断する。
ここで、 文書処理装置は、 文書中の全てのエレメントについて新 たな中心活性値の計算が完了したことを判断した場合には、 ステツ プ S 4 5へと処理を移行し、 一方、 文書中の全てのエレメン トにつ いて新たな中心活性値の計算が完了していないことを判断した場合 には、 ステップ S 4 7へと処理を移行する。
具体的には、 文書処理装置は、 C P U 1 3の制御のもとに、 カウ ンタのカウント値 i 力 文書が含むエレメントの総数に達したか否 かを判断する。 そして、 文書処理装置は、 カウンタのカウント値 i が、 文書が含むエレメントの総数に達したことを判断した場合には、 全てのエレメントが計算済みであるものと して、 ステップ S 4 5へ と処理を移行する。 一方、 文書処理装置は、 カウンタのカウント値 i 力;、 文書が含むエレメントの総数に達していないことを判断した 場合には、 全てのエレメ ン トについて計算が終了していないものと してステップ S 4 7へと処理を移行する。
文書処理装置は、 カウンタのカウント値 i 力 s、 文書が含むエレメ ン トの総数に達していないことを判断した場合には、 ステップ S 4 7において、 C P U 1 3の制御のもとに、 カウンタのカウン トイ直 i を " 1 " だけィンク リメントさせ、 カウンタのカウント値を " i + 1 " とする。 このことにより、 カウンタは、 i + 1番目のエレメン ト、 すなわち次のエレメントを参照する。 そして、 文書処理装置は、 ステップ S 4 3へと処理を移行し、 端点活性値の計算及びこれに続 く一連の行程が、 次の i + 1番目のエレメ ン トについて実行される。 また、 文書処理装置は、 カウンタのカウント値 i 力 文書が含む エレメ ントの総数に達したことを判断した場合には、 ステップ S 4 5において、 C P U 1 3の制御のもとに、 文書に含まれる全てのェ レメ ントの中心活性値の変化分、 すなわち新たに計算された中心活 性値の元の中心活性値に対する変化分について平均値を計算する。 文書処理装置は、 C P U 1 3の制御のもとに、 例えば R A M 1 4 に記憶された元の中心活性値と新たに計算した中心活性値を、 文書 に含まれる全てのエレメントについて読み出す。 文書処理装置は、 新たに計算した中心活性値の元の中心活性値に対するそれぞれの変 化分の総和を文書に含まれるエ レメントの総数で除することにより、 全てのエレメントの中心活性値の変化分の平均値を計算する。 文書 処理装置は、 このように計算した全てのエレメントの中心活性値の 変化分.の平均値を、 例えば R A M I 4に記憶させる。
そして、 文書処理装置は、 ステップ S 4 6において、 C P U 1 3 の制御のもとに、 ステップ S 4 5で計算した全てのエレメン トの中 心活性値の変化分の平均値が、 予め設定された閾値以内であるか否 かを判断する。 そして、 文書処理装置は、 この変化分が閾値以内で あると判断した場合には、 この一連の行程を終了する。 一方、 文書 処理装置は、 変化分が閾値以内でないと判断した場合には、 ステツ プ S 4 2へと処理を移行し、 カウンタのカウン ト値 i を " 1 " に設 定して文書のエ レメントの中心活性値を計算する一連の行程を再び 実行する。 文書処理装置においては、 これらのステップ S 4 2乃至 ステップ S 4 6のループが繰り返される毎に、 変化分は、 徐々に減 少する。
文書処理装置は、 このようにして活性拡散を行うことができる。 つぎに、 この活性拡散を行うためにステップ S 4 3において実行さ れるリンク処理について図 1 8を参照して説明する。 なお、 図 1 8 に示すフローチヤ一トは、 1つのエレメント E iに対する処理を示し たものであるが、 この処理は、 全てのエレメントに対して行われる ものである。
まず、 文書処理装置は、 図 1 8に示すように、 ステップ S 5 1に おいて、 C P U 1 3の制御のもとに、 文書を構成する 1つのエレメ ント E iと一端が接続されたリ ンクを計数するカウンタの初期化を行 う。 すなわち、 文書処理装置は、 リ ンクを計数するカウンタのカウ ント値 j を " 1 " に設定する。 このカウンタは、 エレメン ト E iと接 続された第 1番目のリンク L ;;を参照することになる。
続いて、 文書処理装置は、 ステップ S 5 2において、 C P U 1 3 の制御のもとに、 エレメ ン ト E i とエレメ ン ト E】 とを接続する リ ン ク について、 関係属性のタグを参照することによって、 そのリ ンク L i iが通常リンクであるか否かを判断する。 文書処理装置は、 リ ンク L uが、 語に対応する語彙エレメ ン ト、 文に対応する文エレ メント、 段落に対応する段落エレメント等の間の関係を示す通常リ ンクと、 参照 ■被参照による係り受けの関係を示す参照リンクのい ずれであるかを判断する。 文書処理装置は、 リ ンク が通常リ ン クであると判断した場合には、 ステップ S 5 3へと処理を移行し、 リンク L ; iが参照リ ンクであると判断した場合には、 ステップ S 5 4へと処理を移行する。
文書処理装置は、 リ ンク し i iが通常リ ンクであると判断した場合 には、 ステップ S 5 3において、 エレメント E iの通常リンクし に 接続された端点 T i iの新たな端点活性値を計算する処理を行う。
このステップ S 5 3では、 ステップ S 5 2における判別により、 リンク L uが通常リ ンクであることが明らかになつている。 エレメ ン ト Ε ;の通常リ ンク L uに接続される端点 T の新たな端点活性値 t uは、 エレメン ト E iの端点活性値のうち、 リンク L i i以外のリ ン クに接続する全ての端点 T i p, Ti q, T の端点活性値 t i P、 t , t i rと、 エレメント E iがリンク L iiにより接続されるエレメント E ,の中心活性値 e とを加算し、 この加算で得た値を文書に含まれる エレメントの総数で除することにより求められる。
文書処理装置は、 C P U 1 3の制御のもとに、 例えば RAM 1 4 から必要な端点活性値及び中心活性値を読み出す。 文書処理装置は、 読み出された端点活性値及び中心活性値について、 上述のようにそ の通常リンクと接続された端点の新たな端点活性値を計算する。 そ して、 文書処理装置は、 このように計算した新たな端点活性値を、 例えば RAM I 4に記憶させる。
一方、 文書処理装置は、 リ ンク L i iが通常リ ンクでないと判断し た場合には、 ステップ S 5 4において、 エレメント E ,の参照リ ンク に接続された端点 T ; ,の端点活性値を計算する処理を行う。
このステップ S 5 4では、 ステップ S 5 2における判別により、 リンク L , )が参照リ ンクであることが明ら力 になっている。 エレメ ント E ,の参照リンク L i iに接続される端点 T , )の端点活性値 t i;は、 エレメント E iの端点活性値のうち、 リ ンク し,,を除いたリンクに接 続される全ての端点 T j P, Ti q, t j rの端点活性値 t i p, t i Q, t と、 エレメント がリンク により接続されるエレメント Ε ; の中心活性値 e iとを加算することにより求められる。
文書処理装置は、 C P U 1 3の制御のもとに、 例えば RAM 1 4 に記憶された端点活性値及び中心活性値から、 必要な端点活性値及 び中心活性値を読み出す。 文書処理装置は、 読み出された端点活性 値及び中心活性値を用いて、 上述のように参照リンクと接続された 新たな端点活性値を計算する。 そして、 文書処理装置は、 このよう に計算した端点活性値を、 例えば R A M 1 4に記憶させる。
これらのステップ S 5 3における通常リ ンクの処理及びステップ S 5 4における参照リンクの処理は、 ステップ S 5 2からステップ S 5 5に至り、 ステップ S 5 7を介してステップ S 5 2に戻るルー プに示すように、 カウント値 i により参照されているエレメント E iに接続される全てのリンク L i iに対して実行される。 なお、 ステツ プ S 5 7では、 エレメント E ;に接続されるリンクを計数するカウン ト値: j をインク リ メ ン ト している。
文書処理装置は、 これらのステップ S 5 3又はステップ S 5 4の 処理を行った後、 ステップ S 5 5において、 C P U 1 3の制御のも とに、 エレメント E iに接続される全てのリンクについて端点活性値 が計算されたか否かを判別する。 そして、 文書処理装置は、 全ての リ ンクについて端点活性値が計算されていると判断した場合には、 ステップ S 5 6の処理へと移行し、 全てのリ ンクについて端点活性 値が計算されていないと判断した場合には、 ステップ S 5 7へと処 理を移行する。
ここで、 文書処理装置は、 全てのリ ンクについて端点活性値が計 算されていると判断した場合には、 ステップ S 5 6において、 C P U 1 3の制御のもとに、 エレメン ト E;の中心活性値 e iの更新を実 行する。
エレメ ン ト E iの中心活性値 e iの新たな値、 すなわち更新値は、 エレメ ン ト E iの現在の中心活性直 e iと、 エレメント E iの全ての端 点の新たな端点活性値との和である e ; ' = e i + ∑ t j ' をとること により求められる。 ここで、 プライム " ' ,' は、 新たな値という意 味である。 このように、 新たな中心活性値は、 そのエレメ ン トの元 の中心活性値に、 そのエレメントの端点の新たな端点活性値の総和 に加えることにより得られる。
文書処理装置は、 C P U 1 3の制御のもとに、 例えば RAM 1 4 に記憶された端点活性値及び中心活性値から必要な端点活性値を読 み出す。 文書処理装置は、 上述したような計算を実行し、 そのエレ メント E iの中心活性値 e iを算出する。 そして、 文書処理装置は、 計算した新たな中心活性値 e iを例えば RAM 1 4に記憶させる。
このようにして、 文書処理装置は、 文書中の各エレメントについ て、 新たな中心活性値を計算する。 そして、 文書処理装置は、 この ようにして図 1 5中ステップ S 2 1における活性拡散を実行する。 続いて、 文書処理装置は、 図 1 5中ステップ S 2 2において、 C P U 1 3の制御のもとに、 先に図 1 3に示した表示部 3 1に表示さ れているウィンドウ 1 9 0の表示領域 2 2 0の大きさ、 すなわち、 この表示領域 2 2 0に表示可能な最大文字数を Wsと設定する。 また、 文書処理装置は、 C PU 1 3の制御のもとに、 要約 Sを初期化して 初期値 S。 = " " と設定する。 これは、 要約に何も文字列が存在して いないことを示す。 文書処理装置は、 このように設定した、 表示領 域 2 2 0に表示可能な最大文字数 Ws及び要約 Sの初期値 S。を、 例 えば R AM 1 4に記憶させる。
続いて、 文書処理装置は、 ステップ S 2 3において、 C PU 1 3 の制御のもとに、 要約文の骨格の順次での作成をカウントするカウ ンタのカウント値 i を " 1 " に設定する。 すなわち、 文書処理装置 は、 カウント値について、 i = l と設定する。 文書処理装置は、 こ のように設定した力ゥント値 i を例えば R AM 1 4に記憶させる。 続いて、 文書処理装置は、 ステップ S 2 4において、 C PU 1 3 の制御のもとに、 カウンタのカウント値 i について、 要約作成対照 の文章から i番目に平均中心活性値の高い文の骨格を抽出する。 こ こで、 平均中心活性値とは、 1つの文を構成する各エレメン トの中 心活性値を平均したものである。 文書処理装置は、 例えば RAM I 4に記憶させた要約 S !を読み出し、 この要約 S :に対して抽出 した文の骨格の文字列を加えて、 要約 S iとする。 そして、 文書処理 装置は、 このよ うにして得た要約 S iを、 例えば RAM 1 4に記憶さ せる。 同時に、 文書処理装置は、 文の骨格に含まれないエレメ ン ト の中心活性値順のリ ス ト 1 ;を作成し、 このリ ス ト 1 iを例えば R A M 1 4に記憶させる。
すなわち、 このステップ S 24においては、 文書処理装置は、 C PU 1 3の制御のもとに、 活性拡散の結果を用いて、 平均中心活性 値の大きい順に文を選択し、 選択された文の骨格を抽出する。 文の 骨格は、 文から抽出した必須エレメントにより構成される。 必須ェ レメ ン トになり得るものは、 エレメ ン トの主辞 (head) と、 主語
(subject) 、 目的語 (object) 、 間接目的語 (indirect object) 、 所有者 (posessor) 、 原因 (cause) 、 条件 (condition) 又は比較 (comparison) の関係属性を有するエレメ ン トと、 等位構造とされ た関連するエレメントが必須エレメントのときには、 その等位構造 に直接含まれるエレメントとである。 文書処理装置は、 文の必須ェ レメ ン トをつなげて文の骨格を生成し、 要約に加える。
続いて、 文書処理装置は、 ステップ S 2 5において、 C PU 1 3 の制御のもとに、 要約 S iの長さ、 すなわち文字数がウインドウ 1 9 0の表示領域 2 2 0の最大文字数 Wsよりも多いか否かを判断する。 ここで、 文書処理装置は、 要約 S iの文字数が最大文字数 Wsより も多いと判断した場合には、 ステップ S 3 0において、 C P U 1 3 の制御のもとに、 要約 S :を最終的な要約文と して設定し、 一連の 処理を終了する。 なお、 この場合には、 要約 S i = S。= " " を出力 するため、 要約文は、 表示領域 2 2 0に表示されないことになる。 一方、 文書処理装置は、 要約 S iの文字数が最大文字数 W sより も 多くないと判断した場合には、 ステップ S 2 6の処理へと移行し、 C P U 1 3の制御のもとに、 i + 1番目に平均中心活性値が高い文 の中心活性値と、 ステップ S 2 4で作成したリス ト l iのエレメン ト の中で最も中心活性値が高いエレメン トの中心活性値とを比較する。 そして、 文書処理装置は、 i + 1番目に平均中心活性値が高い文の 中心活性値が、 リス ト 1 iのエレメン トの中で最も中心活性値が高い エレメントの中心活性値より も高いと判断した場合には、 ステップ S 2 8へと処理を移行する。 一方、 文書処理装置は、 i + 1番目に 平均中心活性値が高い文の中心活性値が、 リ ス ト l iのエレメ ン トの 中で最も中心活性値が高いエレメン トの中心活性値より も高くない と判断した場合には、 ステップ S 2 7へと処理を移行する。
文書処理装置は、 i + 1番目に平均中心活性値が高い文の中心活 性値が、 リス ト 1 ;のエレメ ン トの中で最も中心活性値が高いエレメ ン トの中心活性値より も高くないと判断した場合には、 ステップ S 2 7において、 C P U 1 3の制御のもとに、 カウンタのカウント 直 i を " 1 " だけィンク リメントさせ、 ステップ S 2 4へと処理を戻 す。
また、 文書処理装置は、 i + 1番目に平均中心活性値が高い文の 中心活性値が、 リス ト 1 iのエレメン トの中で最も中心活性値が高い エレメン卜の中心活性値より も高いと判断した場合には、 ステップ S 2 8において、 C P U 1 3の制御のもとに、 リス ト l iエレメント の中で最も中心活性値の高いエレメン ト eを要約 S iに加えて S S i を生成し、 さらに、 エレメント eをリス ト 1 iから削除する。 そして、 文書処理装置は、 このようにして生成した要約 S S iを例えば R A M 1 4に記憶させる。
続いて、 文書処理装置は、 ステップ S 2 9において、 C P U 1 3 の制御のもとに、 要約 S S;の文字数がウィンドウ 1 9 0の表示領域 2 2 0の最大文字数 W sより も多いか否かを判別する。 文書処理装置 は、 要約 s S iの文字数が最大文字数 w sより も多くないと判別した 場合には、 ステップ S 2 6からの処理を繰り返す。 一方、 文書処理 装置は、 要約 S S;の文字数が最大文字数 W sよりも多いと判別した 場合には、 ステップ S 3 1において、 C P U 1 3の制御のもとに、 要約 S ;を最終的な要約文と して設定し、 表示領域 2 2 0に表示して 一連の処理を終了する。 このよ うにして、 文書処理装置は、 最大文 字数 W sより も多くならないよ うに要約文を生成する。
文書処理装置は、 このような一連の処理を行うことによって、 タ グ付けされた文書を要約して要約文を作成することができる。 文書 処理装置は、 例えば図 1 3に示した文書を要約した場合には、 図 1 9に示すような要約文を作成し、 表示範囲の表示領域 2 2 0に表示 する。
すなわち、 文書処理装置は、 「TCP/IPの歴史は ARPANETを抜きにし て語ることはできない。 ARPANETは 1969年北米西海岸の 4個所の大学、 研究機関のホス トコンピュータを 50kbpsの回線で結んだ小規模なネ ッ トワークから ARPANETは出発した。 当時は 1964年にメインフレーム の汎用コンピュータシリーズが開発された。 この時代背景を考える と、 将来のコンピュータ通信の最盛を見越したこのようなプロジェ ク トは、 まさに米国ならではのものであったといえるだろう。 」 と いう要約文を作成し、 表示領域 2 2 0に表示する。
文書処理装置においては、 ユーザは、 文書の全文章を一読する代 わりに、 この要約文を読むことで、 文章の概要を理解し、 この文章 が所望する情報であるか否かを判定することができる。
なお、 文書処理装置においては、 文書中のエレメントに対して重 要度を付与する方法と しては、 必ずしも上述したような活性拡散を 用いる必要はなく、 例えば、 Zechnerが提案するように、 単語に tf* idf法で重み付けし、 文書中に出現する単語の重みの総和を文書の重 要度とする方法でもよい。 この方法の詳細は、 "K. Zechner, Fast generation of abstracts from general domain text corpora by extracting relevant sentences, In Proc. of the 16th Interna tional Conference on Computational Linguistics, pp.986-989, 1996" に説明されている。 また、 重要度の付与方法は、 これらの方 法以外のものを利用することもできる。 さらに、 表示領域 2 0 0の キーワード入力部 1 9 2にキ一ヮ一ドを入力することによって、 そ のキ一ヮ一ドに基づいた重要度の設定を行うこともできる。
さて、 文書処理装置は、 先に図 1 4に示したように、 表示部 3 1 に表示されるウィンドウ 1 9 0の表示領域 2 2 0の表示範囲を拡大 することができるが、 作成した要約文が表示領域 2 2 0に表示され ている状態において、 表示領域 2 2 0の表示範囲を変更すると、 そ の表示範囲に応じて、 要約文の情報量を変更することができる。 こ の場合、 文書処理装置は、 図 2 0に示す処理を行う。
すなわち、 文書処理装置は、 図 20に示すように、 ステップ S 6 1において、 C P U 1 3の制御のもとに、 ユーザが入力部 2 0を操 作することに対応して、 表示部 3 1に表示されたウインドウ 1 9 0 の表示領域 2 2 0の表示範囲が変更されるまで待機する。
そして、 文書処理装置は、 表示領域 2 2 0の表示範囲が変更され ると、 ステップ S 6 2へと処理を移行し、 C P U 1 3の制御のもと に、 表示領域 2 2 0の表示範囲を測定する。
以下、 ステップ S 6 3乃至ステップ S 6 5で行われる処理は、 図 1 5中ステップ S 2 2以降で行われる処理と同様であり、 表示領域 2 2 0の表示範囲に対応した要約文が作成されて終了する。
すなわち、 文書処理装置は、 ステップ S 6 3において、 C P U 1 3の制御のもとに、 表示領域 2 2 0の表示範囲の測定結果と、 予め 指定された文字の大きさとに基づいて、 表示領域 2 2 0に表示され る要約文の総文字数を決定する。
続いて、 文書処理装置は、 ステップ S 6 4において、 C P U 1 3 の制御のもとに、 作成される要約がステップ S 6 3において決定さ れた文字数を越えないように、 R A M 1 4から重要度の高い順に文 又は単語を選択する。
そして、 文書処理装置は、 ステップ S 6 5において、 C P U 1 3 の制御のもとに、 ステップ S 6 4において選択された文又は単語を つなぎ合わせて要約文を作成し、 表示部 3 1 の表示領域 2 2 0に表 示させる。
文書処理装置は、 このような処理を行うことによって、 表示領域 2 2 0の表示範囲に応じた要約文を新たに作成することができる。 例えば、 文書処理装置は、 ユーザが入力部 2 0のマウスをドラッグ 操作することにより表示領域 2 2 0の表示範囲を拡大すると、 より 詳細な要約文を新たに作成し、 図 2 1に示すように、 新たな要約文 をウィンドウ 1 9 0の表示領域 2 2 0に表示する。
すなわち、 文書処理装置は、 「TCP/IPの歴史は ARPANETを抜きにし て語ることはできない。 ARPANETはァメ リカ国防省 D0Dの国防高等研 究計画局がスポンサーとなって構築されてきた、 実験および研究用 のバケツ ト交換ネッ トワークである。 1969年北米西海岸の 4個所の 大学、 研究機関のホス トコンピュータを 50kbpsの回線で結んだきわ めて小規模なネッ トワークから ARPANETは出発した。 当時は 1945年に 世界初のコンピュータである ENIACがペンシルバニア大学で開発され、 1964年にはじめて ICを理論素子と して実装したメインフレームの汎 用コンピュータシリ一ズが開発され、 やっとコンピュータが産声を あげたばかりあった。 この時代背景を考えると、 将来のコンビユー タ通信の最盛を見越したこのようなプロジェク トは、 まさに米国な らではのものであったといえるだろう。 j という要約文を作成し、 表示領域 2 2 0に表示する。
このよ うに、 文書処理装置においては、 表示された要約文が簡略 すぎて文書の概略を把握することができない場合、 ユーザは、 表示 領域 2 2 0の表示範囲を拡大することで、 より多くの情報量を有す るより詳細な要約文を参照することができる。
文書処理装置は、 このよ うにして文書の要約文を作成する際に、 C P U 1 3により R O M 1 5やハードディスクに記録されている電 子文書処理プログラムのうちの音声読み上げプログラムを起動する と、 図 2 2に示すような一連の工程を経ることによって、 文書又は 要約文の読み上げを行うことができる。 なおここでは、 先に図 6に 示した文書を例と して挙げて説明する。 まず、 文書処理装置は、 図 2 2に示すように、 ステップ S 7 1に おいて、 タグ付けされた文書を受信する。 なお、 この文書は、 上述 したように、 音声合成を行うために必要なタグが付与されており、 図 8に示すタグファイルと して構成されている。 また、 文書処理装 置は、 タグ付けされた文書を受信し、 その文書に音声合成を行うた めに必要なタグを新たに付与して文書を作成することもできる。 さ らに、 文書処理装置は、 タグ付けされていない文書を受信し、 その 文書に音声合成を行うために必要なタグを含めたタグ付けを行い、 タグファイルを作成してもよい。 なお、 この工程は、 図 4中ステツ プ S 1に対応するものである。
続いて、 文書処理装置は、 ステップ S 7 2において、 C P U 1 3 の制御のもとに、 上述した方法により文書の要約文を作成する。 こ こで、 要約文の元となる文書は、 ステップ S 7 1に示すようにタグ 付けがなされていることから、 作成した要約文にも、 文書に対応す るタグが付与されている。
続いて、 文書処理装置は、 ステップ S 7 3において、 C P U 1 3 の制御のもとに、 タグファイルに基づいて文書の全内容についての 音声読み上げファイルを生成する。 この音声読み上げファイルは、 タグファイル中のタグから、 読み上げのための属性情報を導出し、 この属性情報を埋め込むことにより生成される。
このとき、 文書処理装置は、 図 2 3に示す一連の工程を経ること によって、 音声読み上げファイルを生成する。
まず、 文書処理装置は、 図 2 3に示すように、 ステップ S 8 1に おいて、 C P U 1 3によって、 受信又は作成したタグファイルを解 析する。 ここで、 文書処理装置は、 文書を記述している言語を判別 するとともに、 文書の段落、 文及び句の開始位置や、 読み属性情報 をタグに基づいて探し出す。
続いて、 文書処理装置は、 ステップ S 8 2において、 C P U 1 3 によって、 文書を記述している言語に応じて文書の開始位置に Com- Lang=***を埋め込む。 ここでは、 文書処理装置は、 文書の開始位置 に Com=し ang=ENGを ¾め込む。
続いて、 文書処理装置は、 ステップ S 8 3において、 C P U 1 3 によって、 文書の段落、 文及び句の開始位置を音声読み上げフアイ ルにおける属性情報に置換する。 すなわち、 文書処理装置は、 タグ ファイル中の <段落〉、 <文>及びく * * *句〉を、 それぞれ、 Co m=begin— p、 .Com=begin— s及び Com=begin— phに置換する。
続いて、 文書処理装置は、 ステップ S 8 4において、 C P U 1 3 によって、 同じレベルの統語構造が表れて同じ Com=begin— ***が重複 して ヽるものを、 1つの Com=begin一 こ統合する。
続いて、 文書処理装置は、 ステップ S 8 5において、 C P U 1 3 (こよって、 Com=begin一 *** (こ対応して Pau=***を埋め込む。 すなわち、 文書処理装置は、 Com=begin— pの直前に Pau=500を埋め込み、 Com=be gin— sの直前 ίこ Pau=100を埋め込み、 Com=begin— phの直前 ίこ Pau=50を 埋め込む。
続いて、 文書処理装置は、 ステップ S 8 6において、 C P U 1 3 によって、 読み属性情報に基づいて、 正しい読みに置換する。 ここ では、 文書処理装置は、 発音 = "two" という読み属性情報に基づい て、 「II」 を 「two」 に置換する。
続いて、 文書処理装置は、 ステップ S 8 7において、 C P U 1 3 によって、 要約文に含まれる部分を探し出す。 そして、 文書処理装置は、 ステップ S 8 8において、 C P U 1 3 によって、 ステップ S 8 7にて探し出した要約文に含まれる部分に 応じて、 Com=Vol=***を埋め込む。 具体的には、 文書処理装置は、 文 書の全内容のうち、 図 2 2中ステップ S 7 2にて作成した要約文に 含まれる部分の開始位置について、 エレメン ト単位で Com=Vol=80と いう属性情報を埋め込むとともに、 それ以外の部分の開始位置につ いては、 Com=Vol=0という属性情報を埋め込む。 すなわち、 文書処理 装置は、 要約文に含まれる部分については、 デフォルトの音量を 8 0 %増量した音量で読み上げる。 なお、 音量は、 デフォルトの音量 を 8 0 %増量したものである必要はなく、 適宜変更することができ る。 また、 文書処理装置は、 ステップ S 8 7にて探し出した要約文 に含まれる部分に応じて、 Com=Vol=***のみを埋め込むのではなく、 要約文に含まれる部分に応じて、 例えば、 異なる音声合成エンジン を指定する属性情報を埋め込み、 男声ノ女声といったように、 読み 上げの声を、 要約文に含まれない部分を読み上げる声と異なる特徴 を持たせて変えるようにしてもよい。 さらに、 文書処理装置は、 例 えば、 要約文に含まれる部分にァクセン トを強調して読み上げさせ るための属性情報を埋め込み、 要約文に含まれる部分に応じて、 読 み方を変化させるようにしてもよい。 このように、 文書処理装置は、 要約文に含まれる部分を読み上げの際にも強調することができ、 ュ 一ザの注意を喚起することができる。
文書処理装置は、 図 2 2中ステップ S 7 3において、 図 2 3に示 す処理を行うことによって、 音声読み上げファイルを自動的に生成 する。 文書処理装置は、 生成した音声読み上げファイルを R A M 1 4に記憶させる。 なお、 この工程は、 図 4中ステップ S 2に対応す るものである。
続いて、 文書処理装置は、 図 2 2中ステップ S 7 4において、 C P U 1 3の制御のもとに、 音声読み上げファイルを用いて、 R O M 1 5ゃハ一ドディスク等に予め記憶されている音声合成エンジンに 適した処理を行う。 なお、 この工程は、 図 4中ステップ S 3に対応 するものである。
そして、 文書処理装置は、 ステップ S 7 5において、 ユーザが上 述したユーザィン夕一フェースを用いて行う操作に応じて処理を行 う。 なお、 この工程は、 図 4中ステップ S 4に対応するものである。 文書処理装置は、 例えばユーザが入力部 2 0のマウス等を用いて、 先に図 1 2に示したユーザィン夕一フェースウィンドウ 1 7 0の選 択スィッチ 1 8 4を選択することによって、 ステップ S 7 2にて作 成した要約文を読み上げ対象とすることができる。 この場合、 文書 処理装置は、 例えばユーザが入力部 2 0のマウス等を用いて、 再生 ボタン 1 7 1を押すことによって、 要約文の読み上げを開始するこ とができる。 また、 文書処理装置は、 例えばユーザが入力部 2 0の マウス等を用いて、 選択スィツチ 1 8 3を選択し、 再生ボタン 1 7 1を押した場合には、 上述したように文書の読み上げを開始する。 この際、 文書処理装置は、 ステップ S 7 3にて音声読み上げフアイ ルに埋め込んだ Pau=***という属性情報に基づいて、 段落、 文及び句 の開始位置において互いに異なる休止期間を設けて読み上げる。 ま た、 文書処理装置は、 ステップ S 7 3にて音声読み上げファイルに 埋め込んだ COH VO 1=***という属性情報に基づいて、 要約文に含まれ る部分については音量を増大させる他、 必要に応じて、 アクセント を強調したり、 要約文に含まれる部分を読み上げる声を、 要約文に 含まれない部分を読み上げる声と異なる特徴を持たせることで変化 させ、 文書を読み上げる。
文書処理装置は、 このような処理を行うことによって、 与えられ た文書や作成した要約文を読み上げることができる。 また、 文書処 理装置は、 与えられた文書を読み上げる際に、 作成した要約文に含 まれる部分を強調して読み上げるといったように、 作成した要約文 に応じて読み上げ方を変化させることもできる。
以上説明したように、 文書処理装置は、 与えられた文書から音声 読み上げファイルを自動的に生成し、 文書やその文書から作成した 要約文を適切な音声合成エンジンを用いて読み上げることができる。 その際、 文書処理装置は、 作成した要約文に含まれる部分を読み上 げる際に、 その部分の音量を増大させることによって、 要約文に含 まれる部分を強調して読み上げることができ、 ユーザの注意を喚起 することができる。 また、 文書処理装置は、 段落、 文及び句の開始 位置を識別し、 それぞれに対応する長さの休止期間を設けることに よって、 違和感のない自然な読み上げを行うことができる。
なお、 本発明は、 上述した実施の形態に限定されるものではなく、 例えば、 文書や音声読み上げファイルへのタグ付けが上述のものに 限定されるものではないことは勿論である。
また、 上述した実施の形態においては、 通信部 2 2に外部から電 話回線を介して文書が送信されるものとして説明したが、 本発明は、 これに限定されるものではない。 例えば、 衛星等を介して文書が送 信される場合にも適用できる他、 記録/再生部 3 2において記録媒 体 3 3から読み出されたり、 R O M 1 5に予め文書が記録されてい てもよい。 さらに、 上述した実施の形態においては、 受信又は作成したタグ ファイルから音声読み上げファイルを生成するものとしたが、 この ような音声読み上げファイルを生成せずに、 夕グファイルに基づい て直接読み上げるようにしてもよい。
この場合、 文書処理装置は、 タグファイルを受信又は作成した後、 音声合成エンジンを用い、 タグファイルに付与されている段落、 文 及び句を示すタグに基づいて、 段落、 文及び句を識別し、 これらの 段落、 文及び句の開始位置に所定の休止期間を設けて読み上げる。 タグファイルには、 上述したように、 読み上げを禁止するための属 性情報や、 発音を示す属性情報が付与されており、 文書処理装置は、 読み上げが禁止されている部分を除去するとともに、 正確な読み又 は発音に置換して読み上げを行う。 また、 文書処理装置は、 読み上 げの途中で、 ユーザが上述したユーザィン夕一フェースを操作する ことによって、 タグファイルに付与されている段落、 文及び句を示 すタグに基づいて、 段落、 文及び句の単位で読み上げの際の頭出し、 早送り又は巻き戻しを行うこともできる。
このようにすることによって、 文書処理装置は、 音声読み上げフ アイルを生成することなく、 タグファイルに基づいて文書を直接読 み上げることができる。
さらにまた、 本発明においては、 記録媒体 3 3として、 上述した 電子文書処理プログラムが書き込まれたディスク状記録媒体ゃテー プ状記録媒体等を提供することも容易に実現できる。
また、 上述した実施の形態においては、 表示部 3 1に表示される 種々のウィンドウを操作するデバイスとして入力部 2 0のマウスを 例示したが、 本発明がこれに限定されるものではないことはいうま でもない。 例えば、 このようなデバイスとしては、 夕ブレッ トゃラ ィ トペン等も利用することができる。
さらに、 上述した実施の形態においては、 日本語及び英語の文書 を例示したが、 本発明がいかなる言語にも適用可能であることは勿 e冊 t1 る o
このように、 本発明は、 その趣旨を逸脱しない範囲で適宜変更が 可能であることはいうまでもない。 産業上の利用可能性 以上詳細に説明したように、 本発明にかかる電子文書処理装置は、 電子文書を処理する電子文書処理装置において、 電子文書が入力さ れる文書入力手段と、 電子文書に基づいて、 音声合成器で読み上げ るための音声読み上げデ一夕を生成する音声読み上げデータ生成手 段とを備える。
したがって、 本発明にかかる電子文書処理装置は、 電子文書に基 づいて、 音声読み上げデータを生成することによって、 音声読み上 げデ一夕を用いて、 任意の電子文書を音声合成により高精度で且つ 違和感がなく読み上げることができる。
また、 本発明にかかる電子文書処理方法は、 電子文書を処理する 電子文書処理方法において、 電子文書が入力される文書入力工程と、 電子文書に基づいて、 音声合成器で読み上げるための音声読み上げ デ一夕を生成する音声読み上げデータ生成工程とを備える。
したがって、 本発明にかかる電子文書処理方法は、 電子文書に基 づいて、 音声読み上げデータを生成することによって、 音声読み上 げデ一夕を用いて、 任意の電子文書を音声合成により高精度で且つ 違和感がなく読み上げることを可能とする。
さらに、 本発明にかかる電子文書処理プログラムが記録された記 録媒体は、 電子文書を処理するコンピュータ制御可能な電子文書処 理プログラムが記録された記録媒体において、 電子文書処理プログ ラムは、 電子文書が入力される文書入力工程と、 電子文書に基づい て、 音声合成器で読み上げるための音声読み上げデ一夕を生成する 音声読み上げデータ生成工程とを備える。
したがって、 本発明にかかる電子文書処理プログラムが記録され た記録媒体は、 電子文書に基づいて、 音声読み上げデ一夕を生成す る電子文書処理プログラムを提供することができる。 そのため、 こ の電子文書処理プログラムが提供された装置は、 音声読み上げデ一 夕を用いて、 任意の電子文書を音声合成により高精度で且つ違和感 がなく読み上げることが可能となる。
さらにまた、 本発明にかかる電子文書処理装置は、 電子文書を処 理する電子文書処理装置において、 複数の要素を有し階層化された 構造を有する電子文書の内部構造を示すタグ情報が付与されている 当該電子文書が入力される文書入力手段と、 タグ情報に基づいて、 電子文書を音声合成して読み上げる文書読み上げ手段とを備える。
したがって、 本発明にかかる電子文書処理装置は、 複数の要素を 有し階層化された構造を有する電子文書の内部構造を示すタグ情報 が付与されている電子文書を入力し、 この電子文書に付与された夕 グ情報に基づいて、 電子文書を高精度で且つ違和感がなく直接読み 上げることができる。
また、 本発明にかかる電子文書処理方法は、 電子文書を処理する 電子文書処理方法において、 複数の要素を有し階層化された構造を 有する電子文書の内部構造を示すタグ情報が付与されている当該電 子文書が入力される文書入力工程と、 タグ情報に基づいて、 電子文 書を音声合成して読み上げる文書読み上げ工程とを備える。
したがって、 本発明にかかる電子文書処理方法は、 複数の要素を 有し階層化された構造を有する電子文書の内部構造を示す夕グ情報 が付与されている電子文書を入力し、 この電子文書に付与された夕 グ情報に基づいて、 電子文書を高精度で且つ違和感がなく直接読み 上げることを可能とする。
さらに、 本発明にかかる電子文書処理プログラムが記録された記 録媒体は、 電子文書を処理するコンピュータ制御可能な電子文書処 理プログラムが記録された記録媒体において、 電子文書処理プログ ラムは、 複数の要素を有し階層化された構造を有する電子文書の内 部構造を示すタグ情報が付与されている当該電子文書が入力される 文書入力工程と、 タグ情報に基づいて、 電子文書を音声合成して読 み上げる文書読み上げ工程とを備える。
したがって、 本発明にかかる電子文書処理プログラムが記録され た記録媒体は、 複数の要素を有し階層化された構造を有する電子文 書の内部構造を示すタグ情報が付与されている電子文書を入力し、 この電子文書に付与されたタグ情報に基づいて、 電子文書を高精度 で且つ違和感がなく直接読み上げる電子文書処理プログラムを提供 することができる。 そのため、 この電子文書処理プログラムが提供 された装置は、 電子文書を入力して高精度で且つ違和感がなく直接 読み上げることが可能となる。
さらにまた、 本発明にかかる電子文書処理装置は、 電子文書を処 理する電子文書処理装置において、 電子文書の要約文を作成する要 約文作成手段と、 電子文書を音声合成器で読み上げるための音声読 み上げデ一夕を生成する音声読み上げデ一夕生成手段とを備え、 こ の音声読み上げデ一夕生成手段は、 電子文書のうち、 要約文に含ま れる部分については、 要約文に含まれない部分に比べ、 強調して読 み上げることを示す属性情報を付与することで、 音声読み上げデー 夕を生成する。
したがって、 本発明にかかる電子文書処理装置は、 電子文書のう ち、 要約文に含まれる部分については、 要約文に含まれない部分に 比べ、 強調して読み上げることを示す属性情報を付与して音声読み 上げデータを生成することによって、 音声読み上げデータを用いて、 任意の電子文書を音声合成により高精度で且つ違和感がなく、 さら に、 要約文に含まれる重要な部分を強調して読み上げることができ る。
また、 本発明にかかる電子文書処理方法は、 電子文書を処理する 電子文書処理方法において、 電子文書の要約文を作成する要約文作 成工程と、 電子文書を音声合成器で読み上げるための音声読み上げ デ一夕を生成する音声読み上げデータ生成工程とを備え、 この音声 読み上げデータ生成工程では、 電子文書のうち、 要約文に含まれる 部分については、 要約文に含まれない部分に比べ、 強調して読み上 げることを示す属性情報が付与されることで、 音声読み上げデータ が生成される。
したがって、 本発明にかかる電子文書処理方法は、 電子文書のう ち、 要約文に含まれる部分については、 要約文に含まれない部分に 比べ、 強調して読み上げることを示す属性情報を付与して音声読み 上げデータを生成することによって、 音声読み上げデ一夕を用いて、 任意の電子文書を音声合成により高精度で且つ違和感がなく、 さら に、 要約文に含まれる重要な部分を強調して読み上げることを可能 とする。
さらに、 本発明にかかる電子文書処理プログラムが記録された記 録媒体は、 電子文書を処理するコンピュータ制御可能な電子文書処 理プログラムが記録された記録媒体において、 電子文書処理プログ ラムは、 電子文書の要約文を作成する要約文作成工程と、 電子文書 を音声合成器で読み上げるための音声読み上げデータを生成する音 声読み上げデ一夕生成工程とを備え、 この音声読み上げデ一夕生成 工程では、 電子文書のうち、 要約文に含まれる部分については、 要 約文に含まれない部分に比べ、 強調して読み上げることを示す属性 情報が付与されることで、 音声読み上げデータが生成される。
したがって、 本発明にかかる電子文書処理プログラムが記録され た記録媒体は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して読み上げることを示す属 性情報を付与して音声読み上げデータを生成する電子文書処理プロ グラムを提供することができる。 そのため、 この電子文書処理プロ グラムが提供された装置は、 音声読み上げデータを用いて、 任意の 電子文書を音声合成により高精度で且つ違和感がなく、 さらに、 要 約文に含まれる重要な部分を強調して読み上げることが可能となる。 さらにまた、 本発明にかかる電子文書処理装置は、 電子文書を処 理する電子文書処理装置において、 電子文書の要約文を作成する要 約文作成手段と、 電子文書のうち、 要約文に含まれる部分について は、 要約文に含まれない部分に比べ、 強調して読み上げる文書読み 上げ手段とを備える。
したがって、 本発明にかかる電子文書処理装置は、 任意の電子文 書を音声合成により高精度で且つ違和感がなく、 さらに、 電子文書 のうち、 要約文に含まれる部分については、 要約文に含まれない部 分に比べ、 強調して直接読み上げることができる。
また、 本発明にかかる電子文書処理方法は、 電子文書を処理する 電子文書処理方法において、 電子文書の要約文を作成する要約文作 成工程と、 電子文書のうち、 要約文に含まれる部分については、 要 約文に含まれない部分に比べ、 強調して読み上げる文書読み上げェ 程とを備える。
したがって、 本発明にかかる電子文書処理方法は、 任意の電子文 書を音声合成により高精度で且つ違和感がなく、 さらに、 電子文書 のうち、 要約文に含まれる部分については、 要約文に含まれない部 分に比べ、 強調して直接読み上げることを可能とする。
さらに、 本発明にかかる電子文書処理プログラムが記録された記 録媒体は、 電子文書を処理するコンピュータ制御可能な電子文書処 理プログラムが記録された記録媒体において、 電子文書処理プログ ラムは、 電子文書の要約文を作成する要約文作成工程と、 電子文書 のうち、 要約文に含まれる部分については、 要約文に含まれない部 分に比べ、 強調して読み上げる文書読み上げ工程とを備える。
したがって、 本発明にかかる電子文書処理プログラムが記録され た記録媒体は、 電子文書のうち、 要約文に含まれる部分については、 要約文に含まれない部分に比べ、 強調して直接読み上げる電子文書 処理プログラムを提供することができる。 そのため、 この電子文書 処理プログラムが提供された装置は、 任意の電子文書を音声合成に より高精度で且つ違和感がなく、 さらに、 電子文書のうち、 要約文 に含まれる部分については、 要約文に含まれない部分に比べ、 強調 して直接読み上げることが可能となる。
さらにまた、 本発明にかかる電子文書処理装置は、 電子文書を処 理する電子文書処理装置において、 電子文書を構成する複数の要素 の中から、 段落、 文及び句のうちの少なくとも 2つの開始位置を検 出する検出手段と、 この検出手段により得られた検出結果に基づい て、 電子文書に対して、 段落、 文及び句のうちの少なくとも 2つの 開始位置に互いに異なる休止期間を設けることを示す属性情報を付 与することで、 音声合成器で読み上げるための音声読み上げデ一夕 を生成する音声読み上げデータ生成手段とを備える。
したがって、 本発明にかかる電子文書処理装置は、 段落、 文及び 句のうちの少なくとも 2つの開始位置に互いに異なる休止期間を設 けることを示す属性倩報を付与して音声読み上げデータを生成する ことによって、 音声読み上げデータを用いて、 任意の電子文書を音 声合成により高精度で且つ違和感がなく読み上げることができる。 また、 本発明にかかる電子文書処理方法は、 電子文書を処理する 電子文書処理方法において、 電子文書を構成する複数の要素の中か ら、 段落、 文及び句のうちの少なくとも 2つの開始位置を検出する 検出工程と、 この検出工程にて得られた検出結果に基づいて、 電子 文書に対して、 段落、 文及び句のうちの少なくとも 2つの開始位置 に互いに異なる休止期間を設けることを示す属性情報を付与される ことで、 音声合成器で読み上げるための音声読み上げデータを生成 する音声読み上げデ一夕生成工程とを備える。
したがって、 本発明にかかる電子文書処理方法は、 段落、 文及び 句のうちの少なく とも 2つの開始位置に互いに異なる休止期間を設 けることを示す属性情報を付与して音声読み上げデ一夕を生成する ことによって、 音声読み上げデータを用いて、 任意の電子文書を音 声合成により高精度で且つ違和感がなく読み上げることを可能とす る。
さらに、 本発明にかかる電子文書処理プログラムが記録された記 録媒体は、 電子文書を処理するコンピュータ制御可能な電子文書処 理プログラムが記録された記録媒体において、 電子文書処理プログ ラムは、 電子文書を構成する複数の要素の中から、 段落、 文及び句 のうちの少なくとも 2つの開始位置を検出する検出工程と、 この検 出工程にて得られた検出結果に基づいて、 電子文書に対して、 段落、 文及び句のうちの少なく とも 2つの開始位置に互いに異なる休止期 間を設けることを示す属性情報を付与されることで、 音声合成器で 読み上げるための音声読み上げデ一夕を生成する音声読み上げデ一 夕生成工程とを備える。
したがって、 本発明にかかる電子文書処理プログラムが記録され た記録媒体は、 段落、 文及び句のうちの少なくとも 2つの開始位置 に互いに異なる休止期間を設けることを示す属性情報を付与して音 声読み上げデ一夕を生成する電子文書処理プログラムを提供するこ とができる。 そのため、 この電子文書処理プログラムが提供された 装置は、 音声読み上げデータを用いて、 任意の電子文書を音声合成 により高精度で且つ違和感がなく読み上げることが可能となる。 さらにまた、 本発明にかかる電子文書処理装置は、 電子文書を処 理する電子文書処理装置において、 電子文書を構成する複数の要素 の中から、 段落、 文及び句のうちの少なく とも 2つの開始位置を検 出する検出手段と、 この検出手段により得られた検出結果に基づい て、 段落、 文及び句のうちの少なくとも 2つの開始位置に互いに異 なる休止期間を設けて電子文書を音声合成して読み上げる文書読み 上げ手段とを備える。
したがって、 本発明にかかる電子文書処理装置は、 段落、 文及び 句のうちの少なくとも 2つの開始位置に互いに異なる休止期間を設 けて、 任意の電子文書を音声合成により高精度で且つ違和感がなく 直接読み上げることができる。
また、 本発明にかかる電子文書処理方法は、 電子文書を処理する 電子文書処理方法において、 電子文書を構成する複数の要素の中か ら、 段落、 文及び句のうちの少なくとも 2つの開始位置を検出する 検出工程と、 この検出工程にて得られた検出結果に基づいて、 段落、 文及び句のうちの少なくとも 2つの閧始位置に互いに異なる休止期 間を設けて電子文書を音声合成して読み上げる文書読み上げ工程と を備える。
したがって、 本発明にかかる電子文書処理方法は、 段落、 文及び 句のうちの少なくとも 2つの開始位置に互いに異なる休止期間を設 けて、 任意の電子文書を音声合成により高精度で且つ違和感がなく 直接読み上げることを可能とする。
さらに、 本発明にかかる電子文書処理プログラムが記録された記 録媒体は、 電子文書を処理するコンピュータ制御可能な電子文書処 理プログラムが記録された記録媒体において、 電子文書処理プログ ラムは、 電子文書を構成する複数の要素の中から、 段落、 文及び句 のうちの少なくとも 2つの開始位置を検出する検出工程と、 この検 出工程にて得られた検出結果に基づいて、 段落、 文及び句のうちの 少なく とも 2つの開始位置に互いに異なる休止期間を設けて電子文 書を音声合成して読み上げる文書読み上げ工程とを備える。
したがって、 本発明にかかる電子文書処理プログラムが記録され た記録媒体は、 段落、 文及び句のうちの少なく とも 2つの開始位置 に互いに異なる休止期間を設けて電子文書を直接読み上げる電子文 書処理プログラムを提供することができる。 そのため、 この電子文 書処理プログラムが提供された装置は、 任意の電子文書を音声合成 により高精度で且つ違和感がなく直接読み上げることが可能となる。

Claims

請求の範囲
1 . 電子文書を処理する電子文書処理装置において、
上記電子文書が入力される文書入力手段と、
上記電子文書に基づいて、 音声合成器で読み上げるための音声読 み上げデ一夕を生成する音声読み上げデータ生成手段とを備えるこ と
を特徴とする電子文書処理装置。
2 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 上記音声合成器で読み上げるのに必要なタグ情報を付与すること を特徴とする請求の範囲第 1項記載の電子文書処理装置。
3 . 上記電子文書は、 複数の要素を有し階層化された構造を有する 上記電子文書の内部構造を示すタグ情報が付与されていること を特徴とする請求の範囲第 1項記載の電子文書処理装置。
4 . 上記電子文書は、 この電子文書を構成する複数の要素のうち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記音声読み上げデータ生成手段は、 これらの段落、 文及び句を 示すタグ情報に基づいて、 上記電子文書を構成する段落、 文及び句 を識別すること
を特徴とする請求の範囲第 3項記載の電子文書処理装置。
5 . 上記電子文書は、 上記音声合成器で読み上げるのに必要なタグ 情報が付与されていること
を特徴とする請求の範囲第 3項記載の電子文書処理装置。
6 . 上記音声合成器で読み上げるのに必要なタグ情報は、 読み上げ を禁止するための属性情報を含むこと を特徴とする請求の範囲第 5項記載の電子文書処理装置。
7 . 上記音声合成器で読み上げるのに必要なタグ情報は、 発音を示 す属性情報を含むこと
を特徴とする請求の範囲第 5項記載の電子文書処理装置。
8 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 上記電子文書を記述する言語を示す属性情報を付与することで、 上 記音声読み上げデータを生成すること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
9 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 上記電子文書を構成する複数の要素のうち、 段落、 文及び句の開始 位置を示す属性情報を付与することで、 上記音声読み上げデ一夕を 生成すること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
1 0 . 上記音声読み上げデータ生成手段は、 上記段落、 文及び句の 開始位置を示す属性情報のうちの、 同種の統語構造を表す属性情報 が、 上記電子文書内に連続して現れる場合には、 これらの連続する 属性情報を 1つの属性情報に統合すること
を特徴とする請求の範囲第 9項記載の電子文書処理装置。
1 1 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 上記段落、 文及び句の開始位置を示す属性情報に対応して休止期間 を設けることを示す属性情報を付与することで、 上記音声読み上げ データを生成すること
を特徴とする請求の範囲第 9項記載の電子文書処理装置。
1 2 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 読み上げが禁止されている部分を示す属性情報を付与することで、 上記音声読み上げデ一夕を生成すること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
1 3 . 上記音声読み上げデ一夕生成手段は、 上記電子文書に対して、 正確な読み又は発音を示す属性情報を付与することで、 上記音声読 み上げデ一夕を生成すること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
1 4 . 上記音声読み上げデ一夕生成手段は、 上記電子文書に対して、 読み上げの音量を示す属性情報を付与することで、 上記音声読み上 げデ一夕を生成すること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
1 5 . 上記音声読み上げデータを用いて、 音声合成器に適した処理 を行う処理手段をさらに備え、
上記処理手段は、 上記音声読み上げデータに付与される上記電子 文書を記述する言語を示す属性情報に基づいて、 音声合成器を選択 すること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
1 6 . 上記音声読み上げデータを用いて、 音声合成器に適した処理 を行う処理手段をさらに備え、
上記処理手段は、 上記音声読み上げデータに付与される読み上げ の音量を示す属性情報に基づいて、 読み上げの音量の絶対値を求め ること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
1 7 . 上記音声読み上げデータに基づいて、 上記電子文書を読み上 げる文書読み上げ手段をさらに備えること
を特徴とする請求の範囲第 1項記載の電子文書処理装置。
1 8 . 上記文書読み上げ手段は、 上記電子文書を構成する複数の要 素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しを行うこと
を特徴とする請求の範囲第 1 7項記載の電子文書処理装置。
1 9 . 電子文書を処理する電子文書処理方法において、
上記電子文書が入力される文書入力工程と、
上記電子文書に基づいて、 音声合成器で読み上げるための音声読 み上げデータを生成する音声読み上げデータ生成工程とを備えるこ と
を特徴とする電子文書処理方法。
2 0 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 上記音声合成器で読み上げるのに必要なタグ情報が付与される こと
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
2 1 . 上記電子文書は、 複数の要素を有し階層化された構造を有す る上記電子文書の内部構造を示すタグ情報が付与されていること を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
2 2 . 上記電子文書は、 この電子文書を構成する複数の要素のうち、 少なく とも段落、 文及び句を示すタグ情報が付与されており、 上記音声読み上げデータ生成工程では、 これらの段落、 文及び句 を示すタグ情報に基づいて、 上記電子文書を構成する段落、 文及び 句が識別されること
を特徴とする請求の範囲第 2 1項記載の電子文書処理方法。
2 3 . 上記電子文書は、 上記音声合成器で読み上げるのに必要な夕 グ情報が付与されていること を特徴とする請求の範囲第 2 1項記載の電子文書処理方法。
2 4 . 上記音声合成器で読み上げるのに必要なタグ情報は、 読み上 げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 2 3項記載の電子文書処理方法。
2 5 . 上記音声合成器で読み上げるのに必要なタグ情報は、 発音を 示す属性情報を含むこと
を特徴とする請求の範囲第 2 3項記載の電子文書処理方法。
2 6 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 上記電子文書を記述する言語を示す属性情報が付与されること で、 上記音声読み上げデータが生成されること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
2 7 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 上記電子文書を構成する複数の要素のうち、 段落、 文及び句の 開始位置を示す属性情報が付与されることで、 上記音声読み上げデ —夕が生成されること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
2 8 . 上記音声読み上げデータ生成工程では、 上記段落、 文及び句 の開始位置を示す属性情報のうちの、 同種の統語構造を表す属性情 報が、 上記電子文書内に連続して現れる場合には、 これらの連続す る属性情報が 1つの属性情報に統合されること
を特徴とする請求の範囲第 2 7項記載の電子文書処理方法。
2 9 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 上記段落、 文及び句の開始位置を示す属性情報に対応して休止 期間を設けることを示す属性情報が付与されることで、 上記音声読 み上げデータが生成されること を特徴とする請求の範囲第 2 7項記載の電子文書処理方法。 3 0 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 読み上げが禁止されている部分を示す属性情報が付与されるこ とで、 上記音声読み上げデ一夕が生成されること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
3 1 . 上記音声読み上げデ一夕生成工程では、 上記電子文書に対し て、 正確な読み又は発音を示す属性情報が付与されることで、 上記 音声読み上げデータが生成されること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
3 2 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 読み上げの音量を示す属性情報が付与されることで、 上記音声 読み上げデータが生成されること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
3 3 . 上記音声読み上げデ一夕を用いて、 音声合成器に適した処理 を行う処理工程をさらに備え、
上記処理工程では、 上記音声読み上げデータに付与される上記電 子文書を記述する言語を示す属性情報に基づいて、 音声合成器が選 択されること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
3 4 . 上記音声読み上げデータを用いて、 音声合成器に適した処理 を行う処理工程をさらに備え、
上記処理工程では、 上記音声読み上げデ一夕に付与される読み上 げの音量を示す属性情報に基づいて、 読み上げの音量の絶対値が求 められること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
3 5 . 上記音声読み上げデータに基づいて、 上記電子文書を読み上 げる文書読み上げ工程をさらに備えること
を特徴とする請求の範囲第 1 9項記載の電子文書処理方法。
3 6 . 上記文書読み上げ工程では、 上記電子文書を構成する複数の 要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しが行われること
を特徴とする請求の範囲第 3 5項記載の電子文書処理方法。
3 7 . 電子文書を処理するコンピュータ制御可能な電子文書処理プ ログラムが記録された記録媒体において、
上記電子文書処理プログラムは、
上記電子文書が入力される文書入力工程と、
上記電子文書に基づいて、 音声合成器で読み上げるための音声読 み上げデータを生成する音声読み上げデータ生成工程とを備えるこ と
を特徴とする電子文書処理プログラムが記録された記録媒体。
3 8 . 電子文書を処理する電子文書処理装置において、
複数の要素を有し階層化された構造を有する上記電子文書の内部 構造を示すタグ情報が付与されている当該電子文書が入力される文 書入力手段と、
上記タグ情報に基づいて、 上記電子文書を音声合成して読み上げ る文書読み上げ手段とを備えること
を特徴とする電子文書処理装置。
3 9 . 上記文書入力手段には、 上記電子文書を構成する複数の要素 のうち、 少なく とも段落、 文及び句を示すタグ情報が付与されてい る電子文書が入力され、 上記文書読み上げ手段は、 これらの段落、 文及び句を示すタグ情 報に基づいて、 上記段落、 文及び句の開始位置に休止期間を設けて 上記電子文書を読み上げること
を特徴とする請求の範囲第 3 8項記載の電子文書処理装置。
4 0 . 上記電子文書は、 この電子文書を構成する複数の要素のうち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記文書読み上げ手段は、 これらの段落、 文及び句を示すタグ倩 報に基づいて、 上記電子文書を構成する段落、 文及び句を識別する こと
を特徴とする請求の範囲第 3 8項記載の電子文書処理装置。
4 1 . 上記電子文書は、 上記文書読み上げ手段で読み上げるのに必 要なタグ情報が付与されていること
を特徴とする請求の範囲第 3 8項記載の電子文書処理装置。
4 2 . 上記文書読み上げ手段で読み上げるのに必要なタグ情報は、 読み上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 4 1項記載の電子文書処理装置。
4 3 . 上記文書読み上げ手段で読み上げるのに必要なタグ情報は、 発音を示す属性情報を含むこと
を特徴とする請求の範囲第 4 1項記載の電子文書処理装置。
4 4 . 上記文書読み上げ手段は、 上記電子文書のうち、 読み上げが 禁止されている部分を除去して、 上記電子文書を読み上げること を特徴とする請求の範囲第 3 8項記載の電子文書処理装置。
4 5 . 上記文書読み上げ手段は、 正確な読み又は発音に置換して上 記電子文書を読み上げること
を特徴とする請求の範囲第 3 8項記載の電子文書処理装置。
4 6 . 上記文書読み上げ手段は、 上記電子文書を構成する複数の要 素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しを行うこと
を特徴とする請求の範囲第 3 8項記載の電子文書処理装置。
4 7 . 電子文書を処理する電子文書処理方法において、
複数の要素を有し階層化された構造を有する上記電子文書の内部 構造を示すタグ情報が付与されている当該電子文書が入力される文 書入力工程と、
上記タグ情報に基づいて、 上記電子文書を音声合成して読み上げ る文書読み上げ工程とを備えること
を特徴とする電子文書処理方法。
4 8 . 上記文書入力工程では、 上記電子文書を構成する複数の要素 のうち、 少なくとも段落、 文及び句を示すタグ情報が付与されてい る電子文書が入力され、
上記文書読み上げ工程では、 これらの段落、 文及び句を示すタグ 情報に基づいて、 上記段落、 文及び句の開始位置に休止期間が設け られて上記電子文書が読み上げられること
を特徴とする請求の範囲第 4 7項記載の電子文書処理方法。
4 9 . 上記電子文書は、 この電子文書を構成する複数の要素のうち、 少なくとも段落、 文及び句を示すタグ倩報が付与されており、 上記文書読み上げ工程では、 これらの段落、 文及び句を示すタグ 情報に基づいて、 上記電子文書を構成する段落、 文及び句が識別さ れること
を特徴とする請求の範囲第 4 7項記載の電子文書処理方法。
5 0 . 上記電子文書は、 上記文書読み上げ工程にて読み上げられる のに必要なタグ情報が付与されていること
を特徴とする請求の範囲第 4 7項記載の電子文書処理方法。
5 1 . 上記文書読み上げ工程にて読み上げられるのに必要なタグ情 報は、 読み上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 5 0項記載の電子文書処理方法。
5 2 . 上記文書読み上げ工程にて読み上げられるのに必要なタグ情 報は、 発音を示す属性情報を含むこと
を特徴とする請求の範囲第 5 0項記載の電子文書処理方法。
5 3 . 上記文書読み上げ工程では、 上記電子文書のうち、 読み上げ が禁止されている部分が除去されて、 上記電子文書が読み上げられ ること
を特徴とする請求の範囲第 4 7項記載の電子文書処理方法。
5 4 . 上記文書読み上げ工程では、 正確な読み又は発音に置換され て上記電子文書が読み上げられること
を特徴とする請求の範囲第 4 7項記載の電子文書処理方法。
5 5 . 上記文書読み上げ工程では、 上記電子文書を構成する複数の 要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しが行われること
を特徴とする請求の範囲第 4 7項記載の電子文書処理方法。
5 6 . 電子文書を処理するコンピュータ制御可能な電子文書処理プ ログラムが記録された記録媒体において、
上記電子文書処理プログラムは、
複数の要素を有し階層化された構造を有する上記電子文書の内部 構造を示すタグ情報が付与されている当該電子文書が入力される文 書入力工程と、 上記夕グ情報に基づいて、 上記電子文書を音声合成して読み上げ る文書読み上げ工程とを備えること
を特徴とする電子文書処理プログラムが記録された記録媒体。
5 7 . 電子文書を処理する電子文書処理装置において、
上記電子文書の要約文を作成する要約文作成手段と、
上記電子文書を音声合成器で読み上げるための音声読み上げデ一 夕を生成する音声読み上げデ一夕生成手段とを備え、
上記音声読み上げデータ生成手段は、 上記電子文書のうち、 上記 要約文に含まれる部分については、 上記要約文に含まれない部分に 比べ、 強調して読み上げることを示す属性情報を付与することで、 上記音声読み上げデータを生成すること
を特徴とする電子文書処理装置。
5 8 . 上記属性情報は、 上記電子文書のうち、 上記要約文に含まれ る部分を読み上げる際の音量を、 上記要約文に含まれない部分を読 み上げる際の音量に比して増量させるための音量を示す属性情報を 含むこと
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
5 9 . 上記音量を示す属性情報は、 標準の音量に対する増量分の百 分率で表されること
を特徴とする請求の範囲第 5 8項記載の電子文書処理装置。
6 0 . 上記属性情報は、 上記電子文書のうち、 上記要約文に含まれ る部分を読み上げる際にァクセントを強調するための属性情報を含 むこと
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
6 1 . 上記属性情報は、 上記電子文書のうち、 上記要約文に含まれ る部分を読み上げる際の音声を、 上記要約文に含まれない部分を読 み上げる際の音声と異なる特徴を持たせるための属性情報を含むこ と
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
6 2 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 上記音声合成器で読み上げるのに必要なタグ情報を付与すること を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
6 3 . 上記要約文作成手段は、
上記電子文書の要約文が表示される要約文表示領域の大きさを設 定し、
設定した要約文表示領域の大きさに応じて、 上記電子文書の要約 文の長さを決定し、
決定した要約文の長さに基づいて、 上記要約文表示領域内におさ まる長さの要約文を作成すること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
6 4 . 上記電子文書は、 複数の要素を有し階層化された構造を有す る上記電子文書の内部構造を示すタグ情報が付与されていること を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
6 5 . 上記電子文書は、 この電子文書を構成する複数の要素のうち、 少なく とも段落、 文及び句を示すタグ情報が付与されており、
上記音声読み上げデ一夕生成手段は、 これらの段落、 文及び句を 示すタグ情報に基づいて、 上記電子文書を構成する段落、 文及び句 を識別すること
を特徴とする請求の範囲第 6 4項記載の電子文書処理装置。
6 6 . 上記電子文書は、 上記音声合成器で読み上げるのに必要な夕 グ情報が付与されていること
を特徴とする請求の範囲第 6 4項記載の電子文書処理装置。
6 7 . 上記音声合成器で読み上げるのに必要なタグ情報は、 読み上 げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 6 6項記載の電子文書処理装置。
6 8 . 上記音声合成器で読み上げるのに必要なタグ情報は、 発音を 示す属性情報を含むこと
を特徴とする請求の範囲第 6 6項記載の電子文書処理装置。
6 9 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 上記電子文書を記述する言語を示す属性情報を付与することで、 上 記音声読み上げデ一夕を生成すること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
7 0 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 上記電子文書を構成する複数の要素のうち、 段落、 文及び句の開始 位置を示す属性情報を付与することで、 上記音声読み上げデ一夕を 生成すること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
7 1 . 上記音声読み上げデータ生成手段は、 上記段落、 文及び句の 開始位置を示す属性情報のうちの、 同種の統語構造を表す属性情報 が、 上記電子文書内に連続して現れる場合には、 これらの連続する 属性情報を 1つの属性情報に統合すること
を特徴とする請求の範囲第 7 0項記載の電子文書処理装置。
7 2 . 上記音声読み上げデ一夕生成手段は、 上記電子文書に対して、 上記段落、 文及び句の開始位置を示す属性情報の直前に上記休止期 間を設けることを示す属性情報を付与することで、 上記音声読み上 げデ一夕を生成すること
を特徴とする請求の範囲第 7 0項記載の電子文書処理装置。
7 3 . 上記音声読み上げデータ生成手段は、 上記電子文書に対して、 読み上げが禁止されている部分を示す属性情報を付与することで、 上記音声読み上げデータを生成すること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
7 4 . 上記音声読み上げデ一夕生成手段は、 上記電子文書に対して、 正確な読み又は発音を示す属性情報を付与することで、 上記音声読 み上げデータを生成すること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
7 5 . 上記音声読み上げデ一夕を用いて、 音声合成器に適した処理 を行う処理手段をさらに備え、
上記処理手段は、 上記音声読み上げデ一夕に付与される読み上げ の音量を示す属性情報に基づいて、 読み上げの音量の絶対値を求め ること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
7 6 . 上記音声読み上げデータを用いて、 音声合成器に適した処理 を行う処理手段をさらに備え、
上記処理手段は、 上記音声読み上げデ一夕に付与される上記電子 文書を記述する言語を示す属性情報に基づいて、 音声合成器を選択 すること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
7 7 . 上記音声読み上げデータに基づいて、 上記電子文書を読み上 げる文書読み上げ手段をさらに備えること
を特徴とする請求の範囲第 5 7項記載の電子文書処理装置。
7 8 . 上記文書読み上げ手段は、 上記電子文書を構成する複数の要 素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しを行うこと
を特徴とする請求の範囲第 7 7項記載の電子文書処理装置。
7 9 . 電子文書を処理する電子文書処理方法において、
上記電子文書の要約文を作成する要約文作成工程と、
上記電子文書を音声合成器で読み上げるための音声読み上げデー 夕を生成する音声読み上げデータ生成工程とを備え、
上記音声読み上げデ一夕生成工程では、 上記電子文書のうち、 上 記要約文に含まれる部分については、 上記要約文に含まれない部分 に比べ、 強調して読み上げることを示す属性情報が付与されること で、 上記音声読み上げデータが生成されること
を特徴とする電子文書処理方法。
8 0 . 上記属性情報は、 上記電子文書のうち、 上記要約文に含まれ る部分を読み上げる際の音量を、 上記要約文に含まれない部分を読 み上げる際の音量に比して増量させるための音量を示す属性情報を 含むこと
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。 8 1 . 上記音量を示す属性情報は、 標準の音量に対する増量分の百 分率で表されること
を特徴とする請求の範囲第 8 0項記載の電子文書処理方法。 8 2 . 上記属性情報は、 上記電子文書のうち、 上記要約文に含まれ る部分を読み上げる際にァクセントを強調するための属性情報を含 むこと
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
8 3 . 上記属性情報は、 上記電子文書のうち、 上記要約文に含まれ る部分を読み上げる際の音声を、 上記要約文に含まれない部分を読 み上げる際の音声と異なる特徴を持たせるための属性情報を含むこ と
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
8 4 . 上記音声読み上げデ一夕生成工程では、 上記電子文書に対し て、 上記音声合成器で読み上げるのに必要な夕グ情報が付与される こと
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
8 5 . 上記要約文作成工程では、
上記電子文書の要約文が表示される要約文表示領域の大きさが設 定され、
設定された要約文表示領域の大きさに応じて、 上記電子文書の要 約文の長さが決定され、
決定された要約文の長さに基づいて、 上記要約文表示領域内にお さまる長さの要約文が作成されること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
8 6 . 上記電子文書は、 複数の要素を有し階層化された構造を有す る上記電子文書の内部構造を示すタグ情報が付与されていること を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
8 7 . 上記電子文書は、 この電子文書を構成する複数の要素のうち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記音声読み上げデータ生成工程では、 これらの段落、 文及び句 を示すタグ情報に基づいて、 上記電子文書を構成する段落、 文及び 句が識別されること を特徴とする請求の範囲第 8 6項記載の電子文書処理方法。 8 8 . 上記電子文書は、 上記音声合成器で読み上げるのに必要な夕 グ情報が付与されていること
を特徴とする請求の範囲第 8 6項記載の電子文書処理方法。
8 9 . 上記音声合成器で読み上げるのに必要なタグ情報は、 読み上 げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 8 8項記載の電子文書処理方法。
9 0 . 上記音声合成器で読み上げるのに必要なタグ情報は、 発音を 示す属性情報を含むこと
を特徴とする請求の範囲第 8 8項記載の電子文書処理方法。
9 1 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 上記電子文書を記述する言語を示す属性情報が付与されること で、 上記音声読み上げデータが生成されること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
9 2 . 上記音声読み上げデ一夕生成工程では、 上記電子文書に対し て、 上記電子文書を構成する複数の要素のうち、 段落、 文及び句の 開始位置を示す属性情報が付与されることで、 上記音声読み上げデ 一夕が生成されること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
9 3 . 上記音声読み上げデータ生成工程では、 上記段落、 文及び句 の開始位置を示す属性情報のうちの、 同種の統語構造を表す属性情 報が、 上記電子文書内に連続して現れる場合には、 これらの連続す る属性情報が 1つの属性情報に統合されること
を特徴とする請求の範囲第 9 2項記載の電子文書処理方法。
9 4 . 上記音声読み上げデ一夕生成工程では、 上記電子文書に対し て、 上記段落、 文及び句の開始位置を示す属性情報の直前に上記休 止期間を設けることを示す属性情報が付与されることで、 上記音声 読み上げデータが生成されること
を特徴とする請求の範囲第 9 2項記載の電子文書処理方法。 9 5 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 読み上げが禁止されている部分を示す属性情報が付与されるこ とで、 上記音声読み上げデ一夕が生成されること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。 9 6 . 上記音声読み上げデータ生成工程では、 上記電子文書に対し て、 正確な読み又は発音を示す属性情報が付与されることで、 上記 音声読み上げデータが生成されること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
9 7 . 上記音声読み上げデータを用いて、 音声合成器に適した処理 を行う処理工程をさらに備え、
上記処理工程では、 上記音声読み上げデータに付与される読み上 げの音量を示す属性情報に基づいて、 読み上げの音量の絶対値が求 められること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
9 8 . 上記音声読み上げデータを用いて、 音声合成器に適した処理 を行う処理工程をさらに備え、
上記処理工程では、 上記音声読み上げデータに付与される上記電 子文書を記述する言語を示す属性情報に基づいて、 音声合成器が選 択されること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。
9 9 . 上記音声読み上げデ一夕に基づいて、 上記電子文書を読み上 げる文書読み上げ工程をさらに備えること
を特徴とする請求の範囲第 7 9項記載の電子文書処理方法。 1 0 0 . 上記文書読み上げ工程では、 上記電子文書を構成する複数 の要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づい て、 上記段落、 文及び句の単位で頭出しが行われること
を特徴とする請求の範囲第 9 9項記載の電子文書処理方法。 1 0 1 . 電子文書を処理するコンビユー夕制御可能な電子文書処理 プログラムが記録された記録媒体において、
上記電子文書処理プログラムは、
上記電子文書の要約文を作成する要約文作成工程と、
上記電子文書を音声合成器で読み上げるための音声読み上げデー 夕を生成する音声読み上げデータ生成工程とを備え、
上記音声読み上げデータ生成工程では、 上記電子文書のうち、 上 記要約文に含まれる部分については、 上記要約文に含まれない部分 に比べ、 強調して読み上げることを示す属性情報が付与されること で、 上記音声読み上げデータが生成されること
を特徴とする電子文書処理プログラムが記録された記録媒体。 1 0 2 . 電子文書を処理する電子文書処理装置において、
上記電子文書の要約文を作成する要約文作成手段と、
上記電子文書のうち、 上記要約文に含まれる部分については、 上 記要約文に含まれない部分に比べ、 強調して読み上げる文書読み上 げ手段とを備えること
を特徴とする電子文書処理装置。
1 0 3 . 上記文書読み上げ手段は、 上記電子文書のうち、 上記要約 文に含まれる部分を読み上げる際の音量を、 上記要約文に含まれな い部分を読み上げる際の音量に比して増量させて、 上記電子文書を 読み上げること
を特徴とする請求の範囲第 1 0 2項記載の電子文書処理装置。 1 0 4 . 上記文書読み上げ手段は、 上記電子文書のうち、 上記要約 文に含まれる部分を読み上げる際にァクセントを強調して、 上記電 子文書を読み上げること
を特徴とする請求の範囲第 1 0 2項記載の電子文書処理装置。 1 0 5 . 上記文書読み上げ手段は、 上記電子文書のうち、 上記要約 文に含まれる部分を読み上げる際の音声を、 上記要約文に含まれな い部分を読み上げる際の音声と異なる特徴を持たせて、 上記電子文 書を読み上げること
を特徴とする請求の範囲第 1 0 2項記載の電子文書処理装置。 1 0 6 . 上記要約文作成手段は、
上記電子文書の要約文が表示される要約文表示領域の大きさを設 定し、
設定した要約文表示領域の大きさに応じて、 上記電子文書の要約 文の長さを決定し、
決定した要約文の長さに基づいて、 上記要約文表示領域内におさ まる長さの要約文を作成すること
を特徴とする請求の範囲第 1 0 2項記載の電子文書処理装置。 1 0 7 . 複数の要素を有し階層化された構造を有する上記電子文書 の内部構造を示す夕グ情報が付与されている当該電子文書が入力さ れる文書入力手段をさらに備えること
を特徴とする請求の範囲第 1 0 2項記載の電子文書処理装置。 1 0 8 . 上記文書入力手段には、 上記電子文書を構成する複数の要 素のうち、 少なくとも段落、 文及び句を示すタグ情報が付与されて いる電子文書が入力され、
上記文書読み上げ手段は、 これらの段落、 文及び句を示すタグ情 報に基づいて、 上記段落、 文及び句の開始位置に休止期間を設けて 上記電子文書を読み上げること
を特徴とする請求の範囲第 107項記載の電子文書処理装置。 109. 上記電子文書は、 この電子文書を構成する複数の要素のう ち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記文書読み上げ手段は、 これらの段落、 文及び句を示すタグ情 報に基づいて、 上記電子文書を構成する段落、 文及び句を識別する こと
を特徴とする請求の範囲第 107項記載の電子文書処理装置。
1 10. 上記電子文書は、 上記文書読み上げ手段で読み上げるのに 必要なタグ情報が付与されていること
を特徴とする請求の範囲第 107項記載の電子文書処理装置。
1 1 1. 上記文書読み上げ手段で読み上げるのに必要なタグ情報は、 読み上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 1 10項記載の電子文書処理装置。
1 12. 上記文書読み上げ手段で読み上げるのに必要なタグ情報は、 発音を示す属性情報を含むこと
を特徴とする請求の範囲第 1 10項記載の電子文書処理装置。
1 13. 上記文書読み上げ手段は、 上記電子文書のうち、 読み上げ が禁止されている部分を除去して、 上記電子文書を読み上げること を特徴とする請求の範囲第 102項記載の電子文書処理装置。
1 14. 上記文書読み上げ手段は、 正確な読み又は発音に置換して 上記電子文書を読み上げること
を特徴とする請求の範囲第 1 0 2項記載の電子文書処理装置。
1 1 5 . 上記文書読み上げ手段は、 上記電子文書を構成する複数の 要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しを行うこと
を特徴とする請求の範囲第 1 0 7項記載の電子文書処理装置。
1 1 6 . 電子文書を処理する電子文書処理方法において、
上記電子文書の要約文を作成する要約文作成工程と、
上記電子文書のうち、 上記要約文に含まれる部分については、 上 記要約文に含まれない部分に比べ、 強調して読み上げる文書読み上 げ工程とを備えること
を特徴とする電子文書処理方法。
1 1 7 . 上記文書読み上げ工程では、 上記電子文書のうち、 上記要 約文に含まれる部分を読み上げる際の音量を、 上記要約文に含まれ ない部分を読み上げる際の音量に比して増量させられて、 上記電子 文書が読み上げられること
を特徴とする請求の範囲第 1 1 6項記載の電子文書処理方法。
1 1 8 . 上記文書読み上げ工程では、 上記電子文書のうち、 上記要 約文に含まれる部分を読み上げる際にァクセン 卜が強調されて、 上 記電子文書が読み上げられること
を特徴とする請求の範囲第 1 1 6項記載の電子文書処理方法。
1 1 9 . 上記文書読み上げ工程では、 上記電子文書のうち、 上記要 約文に含まれる部分を読み上げる際の音声を、 上記要約文に含まれ ない部分を読み上げる際の音声と異なる特徴を持たせられて、 上記 電子文書が読み上げられること を特徴とする請求の範囲第 1 1 6項記載の電子文書処理方法。 1 2 0 . 上記要約文作成工程では、
上記電子文書の要約文が表示される要約文表示領域の大きさが設 定され、
設定された要約文表示領域の大きさに応じて、 上記電子文書の要 約文の長さが決定され、
決定された要約文の長さに基づいて、 上記要約文表示領域内にお さまる長さの要約文が作成されること
を特徴とする請求の範囲第 1 1 6項記載の電子文書処理方法。 1 2 1 . 複数の要素を有し階層化された構造を有する上記電子文書 の内部構造を示すタグ情報が付与されている当該電子文書が入力さ れる文書入力工程をさらに備えること
を特徴とする請求の範囲第 1 1 6項記載の電子文書処理方法。 1 2 2 . 上記文書入力工程では、 上記電子文書を構成する複数の要 素のうち、 少なく とも段落、 文及び句を示すタグ情報が付与されて いる電子文書が入力され、
上記文書読み上げ工程では、 これらの段落、 文及び句を示すタグ 情報に基づいて、 上記段落、 文及び句の開始位置に休止期間が設け られて上記電子文書が読み上げられること
を特徴とする請求の範囲第 1 2 1項記載の電子文書処理方法。 1 2 3 . 上記電子文書は、 この電子文書を構成する複数の要素のう ち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記文書読み上げ工程では、 これらの段落、 文及び句を示すタグ 情報に基づいて、 上記電子文書を構成する段落、 文及び句が識別さ れること を特徴とする請求の範囲第 1 2 1項記載の電子文書処理方法。 1 2 4 . 上記電子文書は、 上記文書読み上げ工程にて読み上げられ るのに必要なタグ情報が付与されていること
を特徴とする請求の範囲第 1 2 1項記載の電子文書処理方法。 1 2 5 . 上記文書読み上げ工程にて読み上げられるのに必要なタグ 情報は、 読み上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 1 2 4項記載の電子文書処理方法。 1 2 6 . 上記文書読み上げ工程にて読み上げられるのに必要なタグ 情報は、 発音を示す属性情報を含むこと
を特徴とする請求の範囲第 1 2 4項記載の電子文書処理方法。 1 2 7 . 上記文書読み上げ工程では、 上記電子文書のうち、 読み上 げが禁止されている部分が除去されて、 上記電子文書が読み上げら れること
を特徴とする請求の範囲第 1 1 6項記載の電子文書処理方法。 1 2 8 . 上記文書読み上げ工程では、 正確な読み又は発音に置換さ れて上記電子文書が読み上げられること
を特徴とする請求の範囲第 1 1 6項記載の電子文書処理方法。
1 2 9 . 上記文書読み上げ工程では、 上記電子文書を構成する複数 の要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づい て、 上記段落、 文及び句の単位で頭出しが行われること
を特徴とする請求の範囲第 1 2 1項記載の電子文書処理方法。
1 3 0 . 電子文書を処理するコンビユー夕制御可能な電子文書処理 プログラムが記録された記録媒体において、
上記電子文書処理プログラムは、
上記電子文書の要約文を作成する要約文作成工程と、 上記電子文書のうち、 上記要約文に含まれる部分については、 上 記要約文に含まれない部分に比べ、 強調して読み上げる文書読み上 げ工程とを備えること
を特徴とする電子文書処理プログラムが記録された記録媒体。
1 3 1 . 電子文書を処理する電子文書処理装置において、
上記電子文書を構成する複数の要素の中から、 段落、 文及び句の うちの少なくとも 2つの開始位置を検出する検出手段と、
上記検出手段により得られた検出結果に基づいて、 上記電子文書 に対して、 上記段落、 文及び句のうちの少なくとも 2つの開始位置 に互いに異なる休止期間を設けることを示す属性情報を付与するこ とで、 音声合成器で読み上げるための音声読み上げデータを生成す る音声読み上げデータ生成手段とを備えること
を特徴とする電子文書処理装置。
1 3 2 . 上記休止期間は、 段落の開始位置に設けられるものが最も 長く、 文の開始位置及び句の開始位置の順序で短くなること を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 3 3 . 上記音声読み上げデータ生成手段は、 上記電子文書に対し て、 上記音声合成器で読み上げるのに必要なタグ情報を付与するこ と
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 3 4 . 上記電子文書は、 複数の要素を有し階層化された構造を有 する上記電子文書の内部構造を示すタグ情報が付与されていること を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 3 5 . 上記電子文書は、 この電子文書を構成する複数の要素のう ち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記検出手段は、 これらの段落、 文及び句を示すタグ情報に基づ いて、 上記電子文書を構成する段落、 文及び句を検出すること を特徴とする請求の範囲第 1 3 4項記載の電子文書処理装置。 1 3 6 . 上記電子文書は、 上記音声合成器で読み上げるのに必要な 夕グ情報が付与されていること
を特徴とする請求の範囲第 1 3 4項記載の電子文書処理装置。 1 3 7 . 上記音声合成器で読み上げるのに必要なタグ情報は、 読み 上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 1 3 6項記載の電子文書処理装置。 1 3 8 . 上記音声合成器で読み上げるのに必要なタグ情報は、 発音 を示す属性情報を含むこと
を特徴とする請求の範囲第 1 3 6項記載の電子文書処理装置。
1 3 9 . 上記音声読み上げデータ生成手段は、 上記電子文書に対し て、 上記電子文書を記述する言語を示す属性情報を付与することで、 上記音声読み上げデータを生成すること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。
1 4 0 . 上記音声読み上げデータ生成手段は、 上記電子文書に対し て、 上記電子文書を構成する複数の要素のうち、 段落、 文及び句の 開始位置を示す属性情報を付与することで、 上記音声読み上げデ一 夕を生成すること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 4 1 . 上記音声読み上げデータ生成手段は、 上記段落、 文及び句 の開始位置を示す属性情報のうちの、 同種の統語構造を表す属性情 報が、 上記電子文書内に連続して現れる場合には、 これらの連続す る属性情報を 1つの属性情報に統合すること を特徴とする請求の範囲第 1 4 0項記載の電子文書処理装置。 1 4 2 . 上記音声読み上げデータ生成手段は、 上記電子文書に対し て、 上記段落、 文及び句の開始位置を示す属性情報の直前に上記休 止期間を設けることを示す属性情報を付与することで、 上記音声読 み上げデータを生成すること
を特徴とする請求の範囲第 1 4 0項記載の電子文書処理装置。 1 4 3 . 上記音声読み上げデータ生成手段は、 上記電子文書に対し て、 読み上げが禁止されている部分を示す属性情報を付与すること で、 上記音声読み上げデータを生成すること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 4 4 . 上記音声読み上げデ一夕生成手段は、 上記電子文書に対し て、 正確な読み又は発音を示す属性情報を付与することで、 上記音 声読み上げデータを生成すること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 4 5 . 上記音声読み上げデータ生成手段は、 上記電子文書に対し て、 読み上げの音量を示す属性情報を付与することで、 上記音声読 み上げデ一夕を生成すること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 4 6 . 上記音声読み上げデ一夕を用いて、 音声合成器に適した処 理を行う処理手段をさらに備え、
上記処理手段は、 上記音声読み上げデータに付与される上記電子 文書を記述する言語を示す属性情報に基づいて、 音声合成器を選択 すること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 4 7 . 上記音声読み上げデータを用いて、 音声合成器に適した処 理を行う処理手段をさらに備え、
上記処理手段は、 上記音声読み上げデータに付与される読み上げ の音量を示す属性情報に基づいて、 読み上げの音量の絶対値を求め ること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。 1 4 8 . 上記音声読み上げデ一夕に基づいて、 上記電子文書を読み 上げる文書読み上げ手段をさらに備えること
を特徴とする請求の範囲第 1 3 1項記載の電子文書処理装置。
1 4 9 . 上記文書読み上げ手段は、 上記電子文書を構成する複数の 要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しを行うこと
を特徴とする請求の範囲第 1 4 8項記載の電子文書処理装置。
1 5 0 . 電子文書を処理する電子文書処理方法において、
上記電子文書を構成する複数の要素の中から、 段落、 文及び句の うちの少なくとも 2つの開始位置を検出する検出工程と、
上記検出工程にて得られた検出結果に基づいて、 上記電子文書に 対して、 上記段落、 文及び句のうちの少なくとも 2つの開始位置に 互いに異なる休止期間を設けることを示す属性情報を付与されるこ とで、 音声合成器で読み上げるための音声読み上げデータを生成す る音声読み上げデ一夕生成工程とを備えること
を特徴とする電子文書処理方法。
1 5 1 . 上記休止期間は、 段落の開始位置に設けられるものが最も 長く、 文の開始位置及び句の開始位置の順序で短くなること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 5 2 . 上記音声読み上げデータ生成工程では、 上記電子文書に対 して、 上記音声合成器で読み上げるのに必要なタグ倩報が付与され ること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 5 3 . 上記電子文書は、 複数の要素を有し階層化された構造を有 する上記電子文書の内部構造を示すタグ情報が付与されていること を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 5 4 . 上記電子文書は、 この電子文書を構成する複数の要素のう ち、 少なく とも段落、 文及び句を示すタグ情報が付与されており、 上記検出工程では、 これらの段落、 文及び句を示すタグ情報に基 づいて、 上記電子文書を構成する段落、 文及び句が検出されること を特徴とする請求の範囲第 1 5 3項記載の電子文書処理方法。 1 5 5 . 上記電子文書は、 上記音声合成器で読み上げるのに必要な 夕グ情報が付与されていること
を特徴とする請求の範囲第 1 5 3項記載の電子文書処理方法。 1 5 6 . 上記音声合成器で読み上げるのに必要なタグ情報は、 読み 上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 1 5 5項記載の電子文書処理方法。 1 5 7 . 上記音声合成器で読み上げるのに必要なタグ情報は、 発音 を示す属性情報を含むこと
を特徴とする請求の範囲第 1 5 5項記載の電子文書処理方法。 1 5 8 . 上記音声読み上げデータ生成工程では、 上記電子文書に対 して、 上記電子文書を記述する言語を示す属性情報が付与されるこ とで、 上記音声読み上げデータが生成されること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 5 9 . 上記音声読み上げデータ生成工程では、 上記電子文書に対 して、 上記電子文書を構成する複数の要素のうち、 段落、 文及び句 の開始位置を示す属性情報が付与されることで、 上記音声読み上げ データが生成されること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 6 0 . 上記音声読み上げデータ生成工程では、 上記段落、 文及び 句の開始位置を示す属性情報のうちの、 同種の統語構造を表す属性 情報が、 上記電子文書内に連続して現れる場合には、 これらの連続 する属性情報が 1つの属性情報に統合されること
を特徴とする請求の範囲第 1 5 9項記載の電子文書処理方法。 1 6 1 . 上記音声読み上げデータ生成工程では、 上記電子文書に対 して、 上記段落、 文及び句の開始位置を示す属性情報の直前に上記 休止期間を設けることを示す属性情報が付与されることで、 上記音 声読み上げデ一夕が生成されること
を特徴とする請求の範囲第 1 5 9項記載の電子文書処理方法。 1 6 2 . 上記音声読み上げデータ生成工程では、 上記電子文書に対 して、 読み上げが禁止されている部分を示す属性情報が付与される ことで、 上記音声読み上げデータが生成されること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 6 3 . 上記音声読み上げデータ生成工程では、 上記電子文書に対 して、 正確な読み又は発音を示す属性情報が付与されることで、 上 記音声読み上げデータが生成されること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 6 4 . 上記音声読み上げデ一夕生成工程では、 上記電子文書に対 して、 読み上げの音量を示す属性情報が付与されることで、 上記音 声読み上げデータが生成されること を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 6 5 . 上記音声読み上げデ一夕を用いて、 音声合成器に適した処 理を行う処理工程をさらに備え、
上記処理工程では、 上記音声読み上げデータに付与される上記電 子文書を記述する言語を示す属性情報に基づいて、 音声合成器が選 択されること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 6 6 . 上記音声読み上げデータを用いて、 音声合成器に適した処 理を行う処理工程をさらに備え、
上記処理工程では、 上記音声読み上げデータに付与される読み上 げの音量を示す属性情報に基づいて、 読み上げの音量の絶対値が求 められること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 6 7 . 上記音声読み上げデータに基づいて、 上記電子文書を読み 上げる文書読み上げ工程をさらに備えること
を特徴とする請求の範囲第 1 5 0項記載の電子文書処理方法。 1 6 8 . 上記文書読み上げ工程では、 上記電子文書を構成する複数 の要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づい て、 上記段落、 文及び句の単位で頭出しが行われること
を特徴とする請求の範囲第 1 6 7項記載の電子文書処理方法。 1 6 9 . 電子文書を処理するコンピュータ制御可能な電子文書処理 プログラムが記録された記録媒体において、
上記電子文書処理プログラムは、
上記電子文書を構成する複数の要素の中から、 段落、 文及び句の うちの少なくとも 2つの開始位置を検出する検出工程と、 上記検出工程にて得られた検出結果に基づいて、 上記電子文書に 対して、 上記段落、 文及び句のうちの少なく とも 2つの開始位置に 互いに異なる休止期間を設けることを示す属性情報を付与されるこ とで、 音声合成器で読み上げるための音声読み上げデータを生成す る音声読み上げデータ生成工程とを備えること
を特徴とする電子文書処理プログラムが記録された記録媒体。 1 0 . 電子文書を処理する電子文書処理装置において、
上記電子文書を構成する複数の要素の中から、 段落、 文及び句の うちの少なく とも 2つの開始位置を検出する検出手段と、
上記検出手段により得られた検出結果に基づいて、 上記段落、 文 及び句のうちの少なく とも 2つの開始位置に互いに異なる休止期間 を設けて上記電子文書を音声合成して読み上げる文書読み上げ手段 とを備えること
を特徴とする電子文書処理装置。
1 7 1 . 上記休止期間は、 段落の開始位置に設けられるものが最も 長く、 文の開始位置及び句の開始位置の順序で短くなること を特徴とする請求の範囲第 1 7 0項記載の電子文書処理装置。 1 7 2 . 複数の要素を有し階層化された構造を有する上記電子文書 の内部構造を示す夕グ情報が付与されている当該電子文書が入力さ れる文書入力手段をさらに備えること
を特徴とする請求の範囲第 1 7 0項記載の電子文書処理装置。 1 7 3 . 上記電子文書は、 この電子文書を構成する複数の要素のう ち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記検出手段は、 これらの段落、 文及び句を示すタグ情報に基づ いて、 上記電子文書を構成する段落、 文及び句を検出すること を特徴とする請求の範囲第 1 7 2項記載の電子文書処理装置。 1 7 4 . 上記電子文書は、 上記文書読み上げ手段で読み上げるのに 必要なタグ情報が付与されていること
を特徴とする請求の範囲第 1 7 2項記載の電子文書処理装置。 1 7 5 . 上記文書読み上げ手段で読み上げるのに必要なタグ情報は、 読み上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 1 7 4項記載の電子文書処理装置。 1 7 6 . 上記文書読み上げ手段で読み上げるのに必要なタグ情報は、 発音を示す属性情報を含むこと
を特徴とする請求の範囲第 1 7 4項記載の電子文書処理装置。 1 7 7 . 上記文書読み上げ手段は、 上記電子文書のうち、 読み上げ が禁止されている部分を除去して、 上記電子文書を読み上げること を特徴とする請求の範囲第 1 7 0項記載の電子文書処理装置。 1 7 8 . 上記文書読み上げ手段は、 正確な読み又は発音に置換して 上記電子文書を読み上げること
を特徴とする請求の範囲第 1 7 0項記載の電子文書処理装置。
1 9 . 上記文書読み上げ手段は、 上記電子文書を構成する複数の 要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づいて、 上記段落、 文及び句の単位で頭出しを行うこと
を特徴とする請求の範囲第 1 7 2項記載の電子文書処理装置。
1 8 0 . 電子文書を処理する電子文書処理方法において、
上記電子文書を構成する複数の要素の中から、 段落、 文及び句の うちの少なくとも 2つの開始位置を検出する検出工程と、
上記検出工程にて得られた検出結果に基づいて、 上記段落、 文及 び句のうちの少なくとも 2つの開始位置に互いに異なる休止期間を 設けて上記電子文書を音声合成して読み上げる文書読み上げ工程と を備えること
を特徴とする電子文書処理方法。
1 8 1 . 上記休止期間は、 段落の開始位置に設けられるものが最も 長く、 文の開始位置及び句の開始位置の順序で短くなること を特徴とする請求の範囲第 1 8 0項記載の電子文書処理方法。 1 8 2 . 複数の要素を有し階層化された構造を有する上記電子文書 の内部構造を示すタグ情報が付与されている当該電子文書が入力さ れる文書入力工程をさらに備えること
を特徴とする請求の範囲第 1 8 0項記載の電子文書処理方法。 1 8 3 . 上記電子文書は、 この電子文書を構成する複数の要素のう ち、 少なくとも段落、 文及び句を示すタグ情報が付与されており、 上記検出工程では、 これらの段落、 文及び句を示すタグ情報に基 づいて、 上記電子文書を構成する段落、 文及び句が検出されること を特徴とする請求の範囲第 1 8 2項記載の電子文書処理方法。 1 8 4 . 上記電子文書は、 上記文書読み上げ工程にて読み上げられ るのに必要なタグ情報が付与されていること
を特徴とする請求の範囲第 1 8 2項記載の電子文書処理方法。 1 8 5 . 上記文書読み上げ工程にて読み上げられるのに必要なタグ 情報は、 読み上げを禁止するための属性情報を含むこと
を特徴とする請求の範囲第 1 8 4項記載の電子文書処理方法。 1 8 6 . 上記文書読み上げ工程にて読み上げられるのに必要なタグ 情報は、 発音を示す属性情報を含むこと
を特徴とする請求の範囲第 1 8 4項記載の電子文書処理方法。 1 8 7 . 上記文書読み上げ工程では、 上記電子文書のうち、 読み上 げが禁止されている部分が除去されて、 上記電子文書が読み上げら れること
を特徴とする請求の範囲第 1 8 0項記載の電子文書処理方法。 1 8 8 . 上記文書読み上げ工程では、 正確な読み又は発音に置換さ れて上記電子文書が読み上げられること
を特徴とする請求の範囲第 1 8 0項記載の電子文書処理方法。
1 8 9 . 上記文書読み上げ工程では、 上記電子文書を構成する複数 の要素のうち、 段落、 文及び句の開始位置を示す属性情報に基づい て、 上記段落、 文及び句の単位で頭出しが行われること
を特徴とする請求の範囲第 1 8 2項記載の電子文書処理方法。
1 9 0 . 電子文書を処理するコンピュータ制御可能な電子文書処理 プログラムが記録された記録媒体において、
上記電子文書処理プログラムは、
上記電子文書を構成する複数の要素の中から、 段落、 文及び句の うちの少なく とも 2つの開始位置を検出する検出工程と、
上記検出工程にて得られた検出結果に基づいて、 上記段落、 文及 び句のうちの少なく とも 2つの開始位置に互いに異なる休止期間を 設けて上記電子文書を音声合成して読み上げる文書読み上げ工程と を備えること
を特徴とする電子文書処理プログラムが記録された記録媒体。
PCT/JP2000/004109 1999-06-30 2000-06-22 Trieuse-liseuse electronique WO2001001390A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP00940814A EP1109151A4 (en) 1999-06-30 2000-06-22 ELECTRONIC SORTER
US09/763,832 US7191131B1 (en) 1999-06-30 2000-06-22 Electronic document processing apparatus
US10/926,805 US6985864B2 (en) 1999-06-30 2004-08-26 Electronic document processing apparatus and method for forming summary text and speech read-out

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11/186839 1999-06-30
JP11186839A JP2001014306A (ja) 1999-06-30 1999-06-30 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US09/763,832 A-371-Of-International US7191131B1 (en) 1999-06-30 2000-06-22 Electronic document processing apparatus
US10/926,805 Division US6985864B2 (en) 1999-06-30 2004-08-26 Electronic document processing apparatus and method for forming summary text and speech read-out

Publications (1)

Publication Number Publication Date
WO2001001390A1 true WO2001001390A1 (fr) 2001-01-04

Family

ID=16195543

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/004109 WO2001001390A1 (fr) 1999-06-30 2000-06-22 Trieuse-liseuse electronique

Country Status (4)

Country Link
US (2) US7191131B1 (ja)
EP (1) EP1109151A4 (ja)
JP (1) JP2001014306A (ja)
WO (1) WO2001001390A1 (ja)

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0215123D0 (en) * 2002-06-28 2002-08-07 Ibm Method and apparatus for preparing a document to be read by a text-to-speech-r eader
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US7535922B1 (en) * 2002-09-26 2009-05-19 At&T Intellectual Property I, L.P. Devices, systems and methods for delivering text messages
US7299261B1 (en) * 2003-02-20 2007-11-20 Mailfrontier, Inc. A Wholly Owned Subsidiary Of Sonicwall, Inc. Message classification using a summary
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
CN100527076C (zh) * 2003-09-30 2009-08-12 西门子公司 为计算机程序配置语言的方法和系统
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
US7983896B2 (en) * 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
EP2156438A1 (en) * 2007-06-15 2010-02-24 Koninklijke Philips Electronics N.V. Method and apparatus for automatically generating summaries of a multimedia file
US8145490B2 (en) * 2007-10-24 2012-03-27 Nuance Communications, Inc. Predicting a resultant attribute of a text file before it has been converted into an audio file
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
US8990087B1 (en) * 2008-09-30 2015-03-24 Amazon Technologies, Inc. Providing text to speech from digital content on an electronic device
JP4785909B2 (ja) * 2008-12-04 2011-10-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8103554B2 (en) * 2010-02-24 2012-01-24 GM Global Technology Operations LLC Method and system for playing an electronic book using an electronics system in a vehicle
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8423365B2 (en) 2010-05-28 2013-04-16 Daniel Ben-Ezri Contextual conversion platform
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9875734B2 (en) 2016-01-05 2018-01-23 Motorola Mobility, Llc Method and apparatus for managing audio readouts
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN108885869B (zh) * 2016-03-16 2023-07-18 索尼移动通讯有限公司 控制包含语音的音频数据的回放的方法、计算设备和介质
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10482159B2 (en) 2017-11-02 2019-11-19 International Business Machines Corporation Animated presentation creator
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244869A (ja) * 1996-03-11 1997-09-19 Nec Corp 文章読み上げ方式
JPH09258763A (ja) * 1996-03-18 1997-10-03 Nec Corp 音声合成装置
JPH10105370A (ja) * 1996-09-25 1998-04-24 Canon Inc 文書読み上げ装置,文書読み上げ方法および記憶媒体
JPH10254861A (ja) * 1997-03-14 1998-09-25 Nec Corp 音声合成装置
JPH10260814A (ja) * 1997-03-17 1998-09-29 Toshiba Corp 情報処理装置及び情報処理方法
JPH10274999A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JPH1152973A (ja) * 1997-08-07 1999-02-26 Ricoh Co Ltd 文書読み上げ方式
JP2000099072A (ja) * 1998-09-21 2000-04-07 Ricoh Co Ltd 文書読み上げ装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4864502A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
JP2783558B2 (ja) 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US5185698A (en) 1989-02-24 1993-02-09 International Business Machines Corporation Technique for contracting element marks in a structured document
DE69327774T2 (de) * 1992-11-18 2000-06-21 Canon Information Syst Inc Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu
US5384703A (en) 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
US5572625A (en) 1993-10-22 1996-11-05 Cornell Research Foundation, Inc. Method for generating audio renderings of digitized works having highly technical content
JP3340585B2 (ja) * 1995-04-20 2002-11-05 富士通株式会社 音声応答装置
US5907323A (en) * 1995-05-05 1999-05-25 Microsoft Corporation Interactive program summary panel
JPH08328590A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd 音声合成装置
JP3384646B2 (ja) * 1995-05-31 2003-03-10 三洋電機株式会社 音声合成装置及び読み上げ時間演算装置
US5675710A (en) 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
JPH09259028A (ja) * 1996-03-19 1997-10-03 Toshiba Corp 情報呈示方法
JPH09325787A (ja) 1996-05-30 1997-12-16 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
JPH10105371A (ja) 1996-10-01 1998-04-24 Canon Inc 文書読み上げ装置及び文書読み上げ方法
US20020002458A1 (en) * 1997-10-22 2002-01-03 David E. Owen System and method for representing complex information auditorially
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
JP3232289B2 (ja) * 1999-08-30 2001-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 記号挿入装置およびその方法
WO2001033549A1 (fr) 1999-11-01 2001-05-10 Matsushita Electric Industrial Co., Ltd. Dispositif et procede de lecture de messages electroniques, et support enregistre de conversion de texte

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244869A (ja) * 1996-03-11 1997-09-19 Nec Corp 文章読み上げ方式
JPH09258763A (ja) * 1996-03-18 1997-10-03 Nec Corp 音声合成装置
JPH10105370A (ja) * 1996-09-25 1998-04-24 Canon Inc 文書読み上げ装置,文書読み上げ方法および記憶媒体
JPH10254861A (ja) * 1997-03-14 1998-09-25 Nec Corp 音声合成装置
JPH10260814A (ja) * 1997-03-17 1998-09-29 Toshiba Corp 情報処理装置及び情報処理方法
JPH10274999A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JPH1152973A (ja) * 1997-08-07 1999-02-26 Ricoh Co Ltd 文書読み上げ方式
JP2000099072A (ja) * 1998-09-21 2000-04-07 Ricoh Co Ltd 文書読み上げ装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1109151A4 *

Also Published As

Publication number Publication date
JP2001014306A (ja) 2001-01-19
US7191131B1 (en) 2007-03-13
US20050055212A1 (en) 2005-03-10
EP1109151A1 (en) 2001-06-20
EP1109151A4 (en) 2001-09-26
US6985864B2 (en) 2006-01-10

Similar Documents

Publication Publication Date Title
WO2001001390A1 (fr) Trieuse-liseuse electronique
US7076732B2 (en) Document processing apparatus having an authoring capability for describing a document structure
Desagulier et al. Corpus linguistics and statistics with R
Cassidy et al. Multi-level annotation in the Emu speech database management system
US7941745B2 (en) Method and system for tagging electronic documents
US7610546B1 (en) Document processing apparatus having capability of controlling video data
Cresti et al. C-ORAL-ROM: integrated reference corpora for spoken romance languages
US20080177528A1 (en) Method of enabling any-directional translation of selected languages
US20080027726A1 (en) Text to audio mapping, and animation of the text
US20060085735A1 (en) Annotation management system, annotation managing method, document transformation server, document transformation program, and electronic document attachment program
US20080300872A1 (en) Scalable summaries of audio or visual content
CN102880599A (zh) 用于解析句子并支持对该解析进行学习的句子探索方法
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
WO2000043909A1 (fr) Procede et dispositif de traitement de documents et support d&#39;enregistrement
CN107066437B (zh) 数字作品标注的方法及装置
Androutsopoulos et al. Generating multilingual personalized descriptions of museum exhibits-The M-PIRO project
JP2001109762A (ja) 文書処理方法及び装置並びに記録媒体
JP4186321B2 (ja) 文書処理方法及び装置並びに記録媒体
JP2001014305A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP2001014307A (ja) 文書処理装置、文書処理方法、及び記録媒体
JP2001027997A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP2001027996A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP3734101B2 (ja) ハイパーメディア構築支援装置
JP2010238263A (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
JP2001014137A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 2000940814

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09763832

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000940814

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2000940814

Country of ref document: EP