WO2006008871A1 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
WO2006008871A1
WO2006008871A1 PCT/JP2005/009131 JP2005009131W WO2006008871A1 WO 2006008871 A1 WO2006008871 A1 WO 2006008871A1 JP 2005009131 W JP2005009131 W JP 2005009131W WO 2006008871 A1 WO2006008871 A1 WO 2006008871A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
text
incomplete
incomplete part
unit
Prior art date
Application number
PCT/JP2005/009131
Other languages
English (en)
French (fr)
Inventor
Natsuki Saito
Takahiro Kamai
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2006524539A priority Critical patent/JP3895766B2/ja
Priority to US11/304,652 priority patent/US7257534B2/en
Publication of WO2006008871A1 publication Critical patent/WO2006008871A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to a speech synthesizer for synthesizing and outputting speech corresponding to text, and in particular
  • the present invention relates to a speech synthesizer for naturally reading out even incomplete sentences.
  • a speech synthesizer that generates and outputs synthetic speech for a desired text.
  • the application field is to read e-mails, and instead of reading e-mails written in text, it is possible to listen to the contents of e-mails as synthetic speech.
  • the content of the citation is compared with the character string included in the stored read e-mail, and only when the content of the citation is included in the read mail, More appropriate processing such as deletion can be performed.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 9-179719 (specification, pages 7 to 8)
  • Patent Document 2 Japanese Patent Application Laid-Open No. 2003-85099 (specification, pages 22 to 24)
  • mail sentences 800 to 802 represent a series of mail exchanges between two persons. From the first e-mail sentence 800, only the part of “what material should be prepared” which is a part of the sentence is quoted, the reply e-mail sentence 801 is written, and the reply e-mail sentence 801 starts from the top 3
  • the re-reply mail text 802 is written by quoting lines 7, 7, 8 and 11. Each citation part is not a complete sentence, and the mail power of the citation source is simply quoted line by line. When such citation is made, citation sentences often lose their original writing ability and the beginning and end of sentences.
  • the present invention has been made in view of intense problems and circumstances, and prevents user confusion and synthetic voice quality degradation caused by incomplete sentences to be read. Also, it aims to provide a speech synthesizer that can present read-out speech.
  • a speech synthesis apparatus is a speech synthesis apparatus that generates synthetic speech corresponding to input text information, and in the text information, a text string is missing
  • An incomplete part detecting means for detecting an incomplete part which is a linguistically incomplete part according to the following; a complementing means for complementing a missing character string in the detected incomplete part; And speech synthesis means for generating synthetic speech based on the text information.
  • the lack is complemented with synthetic speech. Since generation is performed, natural prosody is added to the generated synthesized speech, and confusion of the user and deterioration in quality of synthesized speech can be prevented.
  • the speech synthesizer further includes acoustic effect adding means for adding a predetermined acoustic effect to the synthetic sound corresponding to the incomplete portion detected by the incomplete portion detecting means,
  • the effect adding means comprises an incomplete part obscuring unit for reducing the auditory intelligibility of the synthetic speech corresponding to the incomplete part detected by the above partial part detecting means.
  • the speech synthesizer of the speech recognition apparatus can make the user less likely to read out and make parts easy to understand, as it makes the speech of the language incomplete part unclear. Be done.
  • the present invention can be realized as a speech synthesis method that can be realized as such a speech synthesis device and the characteristic means included in the speech synthesis device such as this is a step. It may be realized as a program for realizing those steps on a computer such as a personal computer. Moreover, it goes without saying that such a program can be distributed via a recording medium such as a CD-ROM or a communication medium represented by the Internet. Effect of the invention
  • the speech synthesis apparatus since a part of the character string constituting the sentence is missing, the sentence is linguistically incomplete.
  • the user understands the problem by preventing the speech synthesis process from failing by eliminating the lack, or by intentionally reproducing the portion where the speech synthesis process fails due to the lack. It can present easy-to-read speech.
  • FIG. 1 is a block diagram showing a functional configuration of a speech synthesis apparatus according to Embodiment 1.
  • FIG. 2 is a diagram for explaining the operation of a citation structure analysis unit and an e-mail text shaping unit.
  • FIG. 3 is a view for explaining an outline of processing performed by the incomplete portion detection unit.
  • FIG. 4 is a diagram for explaining an operation example of a language analysis unit.
  • FIG. 5 is a diagram for explaining an operation example of a prosody generation unit.
  • FIG. 6 is a view for explaining an operation example of a segment selection unit, a segment connection unit and an incomplete part obfuscation unit.
  • FIG. 7 is a schematic view of a synthetic speech record sequence.
  • FIG. 8 is a view showing an example of a detection result obtained when the incomplete part detection unit does not perform complementation.
  • FIG. 9 is a view showing an example of a synthetic sound record string inputted to the incompletely unclear portion.
  • FIG. 10 is a schematic view showing an example of fade-in processing by an incompletely blurred portion.
  • FIG. 11 is a block diagram showing a functional configuration of the speech synthesis apparatus according to Embodiment 2.
  • FIG. 12 is a block diagram showing a functional configuration of the speech synthesis device according to Embodiment 3.
  • FIG. 13 is a view for explaining an operation example of the segment selection unit, the incomplete part obfuscation unit, and the segment connection unit.
  • FIG. 14 is a block diagram showing the configuration of the speech synthesizer shown in Embodiment 4.
  • FIG. 15 is a schematic view showing an example of message text and message log.
  • FIG. 16 is an outline showing the operation of a citation structure analysis unit and a message text shaping unit.
  • FIG. 17 is a schematic view showing the operation of the incomplete part detection unit.
  • FIG. 18 is a block diagram showing a functional configuration of a speech synthesis apparatus according to Embodiment 5.
  • FIG. 19 is a block diagram showing a functional configuration of the speech synthesis apparatus according to Embodiment 6.
  • FIG. 20 is a diagram for explaining an operation example of a bulletin board message text extraction unit.
  • FIG. 21 is a diagram for explaining an operation example of a bulletin board message text shaping unit.
  • FIG. 22 is a diagram showing an example of the text targeted by the present invention, as shown in the solution task of the present invention.
  • FIG. 1 is a block diagram showing a functional configuration of the speech synthesis apparatus according to the first embodiment of the present invention.
  • the voice synthesizer 10 is a device that acquires text, which is the contents of communication by electronic mail, and generates and outputs synthetic speech corresponding to the text. It is a natural read of incomplete sentences that appear in citations included in the text of.
  • the speech synthesizer 10 outputs a synthetic sound with reduced auditory intelligibility in response to the incomplete part of the text, thereby utilizing a more natural auditory sense compared to the case where the auditory intelligibility is not reduced. It is the biggest feature to give to people.
  • the speech synthesizer 10 takes into consideration the structure of the citation structure analysis unit 101 that analyzes the structure of the citation portion of the input e-mail text 100, and the structure of the analyzed citation portion.
  • Incomplete text detection unit 103 detects incomplete text in e-mail text 100 and identifies an incomplete text area. Incomplete text detection section 103.
  • Speech synthesis section 104 receives text as input and outputs synthesized speech.
  • the speech synthesis unit 104 can be further divided into fine lines and functional blocks, and the language processing unit 1700 that outputs the result of language analysis with the text as an input, and the result of language analysis of the text
  • An appropriate speech segment is generated from the speech segment DB 1702 using a prosody generation unit 1704 that generates prosody information based on the speech segment database (DB) 1702 that stores speech segments, and a language analysis result including the prosody information.
  • the speech segment selected by the segment selection unit 1701 for selecting a segment and the speech segment selected by the segment selection unit 701 are deformed to match the prosody generated beforehand, so that the speech segments can be smoothly connected with the preceding and following speech segments.
  • a segment coupling unit 1703 for outputting synthetic speech data corresponding to the input text.
  • the citation structure analysis unit 101 easily analyzes the e-mail text 100 and performs shaping in accordance with the citation depth and paragraph breaks.
  • the citation depth means the number of citations of each sentence, and specifically, the citation structure analysis unit 101 calculates the citation of each sentence according to the number of consecutive quotation marks from the beginning of each line. Identify the depth of
  • paragraph breaks mean places where the connection of meaning of each sentence is broken, and in sentences with the same citation depth, blank lines exist or the amount of other lines and indents
  • the citation structure analysis unit 101 identifies a paragraph break depending on the part where it is different!
  • a sentence such as "(omitted)” or "(omitted)” is omitted, and a text string that suggests that it is omitted, or a line with only ":” that simulates vertical " ⁇ ⁇ ⁇ ”
  • citation structure analysis unit 101 may identify paragraph breaks by a string that indicates paragraph breaks other than blank lines and indentation differences.
  • the e-mail text shaping unit 102 Based on the analysis result by the citation structure analysis unit 101, the e-mail text shaping unit 102 separates and shapes the e-mail text 100 into sentences. The e-mail text formatting unit 102 also performs e-mail header and signature summary.
  • FIG. 2 is a diagram for explaining the operation of the citation structure analysis unit 101 and the e-mail text shaping unit 102.
  • the citation structure analysis unit 101 interprets the e-mail text 100 as follows, adds a tag representing the analysis result, and generates a citation structure analyzed text 200. [0032] 1) First, from the beginning of the e-mail text 100, a line consisting of two half-width minus signs is identified as a header, and the part is surrounded by a header> tag.
  • the number of quotation marks in the previous line and the current line is different, or the current line is an empty line.
  • the current line means omission of the original sentence such as "(short)" or ":”. If the current line and the previous line have different numbers of indents, proceed to 10).
  • the header part of the original email text 100 is included in the part enclosed by ⁇ header> tags.
  • the part enclosed by the ⁇ signature> tag contains the signature part of the original email text 100.
  • the body part of the original e-mail text 100 is included in the part enclosed by ⁇ body> tags.
  • the text part is enclosed in quotation tags for each paragraph.
  • the quotation tag can be used to determine the depth of the quotation.
  • the e-mail text shaping unit 102 processes the citation structural analyzed text 200 to generate a formatted text 201 as described below.
  • the incomplete part detection unit 103 receives the formatted text 201 generated by the e-mail text shaping unit 102, collates the e-mail stored in the mail box 107 with the e-mail transmitted and received in the past, and Search for emails where the first and last sentences appear first in each quote tag with a level of 1 or more for Bow I, and whether the quote is complete, that is, each quote is a string relative to the statement from which it is cited. String matching is used to determine if there is no missing data. Furthermore, if the citation is incomplete, replace the original complete sentence, and it is possible to identify which part of the original complete sentence is included in the citation. It will
  • FIG. 3 is a diagram for explaining an outline of processing performed by the incomplete portion detection unit 103.
  • the incomplete part detection unit 103 performs processing as described below. 1) With reference to the message ID written in the In-Reply-To field of the header portion or the References field, all past email texts 301 with matching message IDs are acquired from the mailbox 107. Furthermore, referring to the In-Reply-To field and the References field of the email text 301, all past email texts 301 of the same thread are acquired recursively.
  • the incompletely detected text 300 generated by the above procedures 1) to 5) is as follows.
  • a portion enclosed by ⁇ signature> tags is a summary of the original email text 100 with a signature portion included.
  • the body part of the original e-mail text 100 is included in the part enclosed by ⁇ body> tags.
  • Sentences in the main text part are complete sentences without omission of the quoted text, and if the original e-mail text 100 contains incomplete quotations, the past transmission / reception Only the part complemented from the email is distinguished by being enclosed in ⁇ C> tags.
  • the voice synthesis unit 104 processes the incompletely detected text 300 generated in this way, one sentence at a time from the beginning, and generates and outputs a synthesized sound. At this time, if there is a portion enclosed by ⁇ c> tags in each sentence, output the output in a format that can determine which partial force it is.
  • the following processing is performed in the speech synthesis unit 104.
  • the incompletely detected text 300 generated by the incomplete part detection unit is processed by the language processing unit 1700 to generate a phoneme-written text 1800.
  • This phoneme-description text 1800 is obtained by converting a kanji kana-mixed sentence of the incompletely detected text 300 into phoneme-description, and by including accent information and syntax information obtained as a result of language analysis. It is also possible to improve the quality of synthesized speech.
  • 1S Figure 4 shows only the phoneme notation for simplicity.
  • the prosody generation unit 1704 determines the duration of each phoneme, the fundamental frequency at the temporal center position, and the power value based on the generated phoneme-description text 1800.
  • the prosodic phoneme-description text 1900 is output to the segment selection unit 1701. Similar to FIG. 4, even in FIG. 5, syntactic information etc. obtained as a result of linguistic analysis is omitted from the explanatory diagrams of the phoneme-description text 1800 and the prosodic phoneme-description text 1900 for the sake of simplicity. By including this, it is possible to perform the speech segment selection process by the segment selection unit 1701 with higher accuracy and is desirable.
  • speech segment DB 1702 stores speech waveform data divided in units of one phoneme as speech segments, and in these speech segments, the duration and the fundamental frequency previously analyzed are stored. , The power value, and syntactic information etc. in the sentence used at the time of recording the voice segment, and the segment selection unit 1701 generates the language processor 1700 and prosody generation based on the information. Makes it possible to select the speech segment closest to the output content of the unit 1704.
  • the segment coupling unit 1703 receives the speech segments output from the segment selection unit 1701 in order. By modifying the duration, fundamental frequency, and power value of each speech segment, matching to pre-calculated prosody is performed, and each speech segment is smoothed with the preceding and following speech segments. , And outputs the result to processing unit 105 as a result of processing by speech synthesis unit 104.
  • FIG. 7 is a diagram for explaining an example of a synthetic speech record string 400 generated by the speech synthesis unit 104 from the incompletely detected text 300.
  • the speech synthesis unit 104 executes speech synthesis after removing all tags for each sentence of the incompletely detected text 300! ⁇ Divide the generated synthetic speech data at the position of c> tag, and output as a list of record 401.
  • a record 401 is in the form of a structure, and is an int value (quotation level) representing a quotation level and a portion corresponding to a character string in which audio data of the record is enclosed in ⁇ c> tags.
  • There is a bool value (completion part) indicating whether or not there is an int value (speech data length) representing the synthetic speech data length included in the record, and an int value (speech It consists of an array of data).
  • At the top of the list of these records 401 there is a record header 402 having an int value (the number of in-statement records) indicating how many records the subsequent sentence is composed of.
  • the speech synthesis unit 104 may perform speech synthesis processing on the header portion 'text portion ⁇ signature portion with different voice qualities.
  • the speech synthesis unit 104 may change the voice quality of the synthesized speech according to the citation level of each sentence of the text portion. For example, sentences with even citation levels perform speech synthesis with voice quality A, and sentences with odd citation levels with speech quality B make it easier to know who each statement is. . Also, when searching the past e-mail text 301 that is the quotation source by the incomplete part detection unit 103, the contents of the From field representing the sender are embedded in the quotation tag, and the synthesized speech is generated by the sender embedded in the quotation tag. By changing the voice quality of the voice, it is possible to perform a reading more easily.
  • the incomplete portion unclear unit 105 receives the synthetic sound record string 400 configured as described above, and performs the following processing.
  • this record is the first record in a sentence, if the length of voice data is longer than 2 seconds, shorten the voice data to the last 2 seconds. Furthermore, the volume of the shortened audio data is transformed to 0% at the beginning and 100% at the end. On the other hand, if this record is the last record in the sentence, the voice data is shortened to only the first 2 seconds, and the volume of the voice data shortened similarly is 100% at the beginning and 0 at the end. Transform to a% fadeout.
  • the audio data output by the incomplete part obfuscation unit 105 in the above procedures 1) to 5) has the following features.
  • the missing part of the beginning of the incomplete text in the formatted text 201 starts playing with a fade-in of up to 2 seconds, If there is a missing part, it will fade out for up to 2 seconds before shifting to the next sentence.
  • citation structure analysis section 101 analyzes the structure of e-mail text 100, and based on the result, the e-mail text shaping section 102 generates a formatted text 201 suitable for reading out, and the incomplete part detection unit 103 performs detection of the incomplete part and complement processing of the incomplete part.
  • the speech synthesis unit 104 can perform speech synthesis processing on the complete original sentence that has been complemented, it is avoided that the unnatural prosody confuses the user who is the listener. be able to.
  • the portion actually quoted in the e-mail text 100 is read out without omission.
  • the user can be aurally presented to the user that there is a cut-off portion at the time of quotation.
  • the synthetic speech record string 400 is at least a portion of the audio not enclosed by the ⁇ c> tag. If there is speech of the part completely contained and enclosed by ⁇ c> tags, the processing is equivalent to this if it includes incomplete part pointer information such that the position in the synthetic sound record string 400 is divided. It is possible to
  • the incomplete part detection unit 103 can perform more advanced linguistic analysis and can detect that the morpheme or clause at the beginning or the end of the citation is incomplete. Then, the speech synthesis is performed by complementing the characters that complete the incomplete morpheme or phrase, and the voice of the morpheme or phrase is faded in by means of fade-in, fade-out, etc. Even so!
  • the incomplete feature of the morpheme or phrase is output so that the greatest feature of the present invention, that is, outputting the synthesized sound with reduced auditory intelligibility corresponding to the incomplete part of the text, is exhibited alone. It is possible not to complement but to obscure only the speech of imperfect morphemes and phrases.
  • the incomplete part detection unit 103 performs morphological analysis of r ight-to-left and takes the unknown word appearing at the beginning of the sentence as the incomplete part.
  • the unknown word appearing at the end of the sentence be an incomplete part!
  • FIG. 8 shows an example of a result obtained when the incomplete part detection unit 103 only detects an incomplete part in a clause unit without complementing the shaped text 201.
  • the incompletely detected text 300a shown in FIG. 8 has the following features as compared with the incompletely detected text 300 (see FIG. 3).
  • Such a configuration for detecting an incomplete part without completion is used for the completion of an incomplete part V, and if the text can not be easily obtained, the (quoted mail power S mail box 107 In the case of not being stored, it is particularly suitable, for example, in the case of reading out texts cut out of various citation sources other than mail, such as web pages, electronic books, electronic program information, etc.).
  • the speech synthesizer 10 is further provided with a partial specification reception unit (not shown) that receives specification of a part of text, and the incomplete part detection unit 103 It is preferable to detect an incomplete portion at at least one of the beginning and the end of the portion.
  • This partial designation reception unit is realized by using a cursor key or an input pen generally provided in an information terminal device, and designated portions are displayed by inversion, blinking or the like as widely practiced in the prior art. It may be done.
  • the partial speech 105 may indicate that the subsequent speech starts in the middle of the original sentence, or the preceding speech ends in the middle of the sentence.
  • the sound "Qui" the tuning sound of the radio
  • incompletely unclear portion 105 is a portion of the incompletely indistinguishable portion so that it is often performed when quoting voice from the middle in interview sound of TV or radio, etc.
  • a voice may be output that is reproduced over the sentence and the subsequent sentence.
  • the original volume of 10% of the original volume is 100% of the original volume with respect to the head portion of the “with 10 copies of each copy” following the complementary portion. % Add fade-in processing that changes in 1 second.
  • the synthesized sound 600b of the "document" which is the complementing portion is a synthesized sound 600a of "the conflict of the third team" which is the preceding sentence. Overlapping at the end, you will hear a "600 copies of 10 copies each" in succession. And mixing processing and concatenation processing to generate an output speech 603.
  • the processing result of the synthesized speech 600a is in the section a of the output speech 603
  • the processing result of the synthesized speech 600b is in the section of b overlapping the section a
  • the processing result of the synthesized speech 600c is a and b It is shown that it is included in the section of c that follows.
  • the incomplete portion unclear portion 105 may mix the noise sound at an appropriate ratio not by merely operating the volume of the input sound.
  • white noise sound data of predetermined volume is prepared beforehand, and it is 90% of the original volume to the synthesized sound 6 OOb, and the head of the synthesized sound 600c. Mix to reduce 90% of the original volume to 0% of the 1 second part.
  • the synthetic speech 600b begins to be mixed with a small volume and a large proportion of noise at the end of the synthetic speech 600a, and the reproduction of the synthetic speech 600a portion is finished and the sound of the subsequent synthetic speech 600c becomes louder. It is possible to create sounds that reduce the proportion of mixed noise.
  • the incompletely obscured part 105 may delete the voice of the detected incomplete part.
  • the user can hear only the linguistically complete part of the citation without the user being aware that the citation is not complete citation S from the citation source sentence It becomes easy to understand.
  • the character of the incomplete part may be deleted by the incomplete part detection unit 103, and then the speech synthesis unit 104 may be made to generate synthesized speech.
  • the speech synthesis unit 104 may be made to generate synthesized speech.
  • different prosody can be generated to generate the speech with the sentence that has already been partially deleted as a complete sentence. It can be considered that However, since it is sufficient to reproduce the output result of the voice synthesis unit 104 as it is to the speaker device 106, the incomplete partial obscuring unit 105 is not necessary, and the configuration of the voice synthesis device can be simplified. Have.
  • the incomplete part may not be subjected to obfuscation processing at all.
  • the voice heard by the user may be redundant.
  • the voice synthesizer according to the second embodiment is the voice synthesizer 1 according to the first embodiment.
  • FIG. 11 is a block diagram showing a functional configuration of the speech synthesis apparatus according to the second embodiment.
  • the same components as those of Embodiment 1 are denoted by the same reference numerals, and the description thereof is omitted.
  • the speech synthesis unit 104 a in the speech synthesizer 20 includes a speech segment parameter database (DB) 702 that stores speech segments in the form of acoustic feature parameter strings instead of speech waveform data, and the segment selection unit 1701 In this way, the speech segment stored in the speech segment parameter DB 702 is selected, and the segment coupling unit 1703 outputs synthetic speech in the form of speech feature parameters instead of speech data. This differs from Embodiment 1 above.
  • DB speech segment parameter database
  • the speech synthesis apparatus 20 includes a waveform generation unit 700 that generates a speech feature parameter force speech waveform.
  • the configuration of the waveform generation unit 700 differs depending on the set of speech feature parameters adopted by the present apparatus. For example, a method based on the ARX speech analysis model (“A robust speech analysis method using the Otsuka, Sugurutani, Sakai sound source pulse sequence”) J., Journal of the Acoustical Society of Japan, vol. 58, no. 7, 386-39 7 (2002).
  • the acoustic feature parameters of each speech segment in the speech segment parameter DB 702 become the sound source and vocal tract parameters of the ARX speech analysis model.
  • the speech feature parameters output from the speech synthesis unit 104a include a parameter representing the formant strength of speech
  • the phononic property is reduced by reducing the formant strength. It can be transformed into a vague, vague voice. Also, if it is possible to use more advanced voice conversion technology here, it may be converted to a whisper voice or a faint voice.
  • the difference between the speech synthesis apparatus according to the third embodiment and the first embodiment is that in the third embodiment, the voice quality of the voice is changed to the normal speech power whisper. It is in the point that it is unclear.
  • the difference between the speech synthesis apparatus according to the third embodiment and the second embodiment is that in the second embodiment, the acoustic feature parameter string output from the speech synthesis unit 104 a is deformed.
  • the speech synthesis unit has a plurality of speech segment databases (DBs), and it is possible to switch between them and use them. There is a point to use the voice of how to talk and whisper voice.
  • DBs speech segment databases
  • FIG. 12 is a block diagram showing a functional configuration of the speech synthesis apparatus according to the third embodiment.
  • the same components as those in Embodiments 1 and 2 above are denoted by the same reference numerals, and the description thereof will be omitted.
  • the roles of the e-mail text 100 and the mailbox 107, and the operations of the citation structure analysis unit 101, the e-mail text shaping unit 102, and the incomplete part detection unit 103 are the same as in the first embodiment.
  • the voice synthesis unit 104 b receives the processing result of the incomplete portion detection unit 103, generates a synthesized sound, and causes the speaker device 106 to reproduce and output it.
  • This configuration is different from the first embodiment in that the incomplete part obscurer 105 works as part of the speech synthesizer 104.
  • the segment selection unit 1701 obtains optimum speech segment data from the speech segment DB 1702 a or the speech segment DB 1702 b based on the information of the prosodic phonetic transcription text 1900 output from the prosody generator 1704.
  • the speech segment DB 1702 a stores speech segments of normal voice quality
  • the speech segment DB 1702 b stores speech segments of whisper voice.
  • the speech element At least two types of databases for storing pieces are prepared, and the segment selection unit 1701 transmits the optimal speech segment data from the plurality of speech segment DBs 1702a and 1702b through the incomplete partial obscuring unit 105. get.
  • the incomplete part obfuscation unit 105 selects the speech segments from any of the speech segments DB 1702 a and 1702 b one by one, and then optimizes the speech segments from the plurality of speech segments DB 1702 a and 1702 b. By selecting data one by one and performing mixing, it is possible to newly generate speech segment data having an intermediate voice quality of the selected speech segment data.
  • the fade-in and fade-out process is performed by controlling the volume in the first embodiment, by controlling the mixing ratio, the clarity of the audio can be changed continuously. .
  • voice quality control method of the voice using the method of voice modification is disclosed in, for example, Japanese Patent Laid-Open Publication No. Hei 9-50295, "Abe, Voice morphing by gradual deformation of fundamental frequency and spectrum", The Japan Acoustics Society Heisei It is disclosed in the 7th Fall Conference Presentation I, 213- 214 (1995).
  • the speech data generated in the same manner as in the first embodiment is reproduced and output by the speaker device 106 to make the incomplete part unclear.
  • a voice synthesizer can be realized by changing voice quality to whisper voice.
  • the text information is the contents of communication by electronic mail.
  • handling the text has been described, in the fourth embodiment, a speech synthesis apparatus in the case of handling a message which is communication content by chat as text information will be described.
  • FIG. 14 is a block diagram showing a functional configuration of the speech synthesis apparatus according to the fourth embodiment.
  • the same configurations as those of the first to third embodiments are denoted by the same reference numerals and the description thereof will be omitted.
  • chat message text 900 is read out instead of e-mail text 100.
  • the chat message text 900 is generally in a simpler form than the email text! / Scold.
  • a chat message text 900 may have a configuration in which the content of the message is written in plain text following the reception time and the sender name of the message.
  • the received and transmitted chat message text 900 is accumulated in the message log 903 and can be referred to from the incomplete portion detection unit 103.
  • Cited structure analysis unit 101 analyzes the citation structure of chat message text 900 using a method similar to that of the first embodiment.
  • the processing operation of the quoted structure analysis unit 101 will be described using FIG.
  • the processing operation of the quoted structure analysis unit 101 may be performed, for example, as follows.
  • the message text at the beginning of the message text includes the reception time information enclosed by the ⁇ time> tag and the sender name enclosed by the ⁇ sender> tag, and then the text part of the original chat message text 900 Exists.
  • the text part is enclosed in quotation tags for each paragraph.
  • the quotation tag can be used to determine the depth of the quotation.
  • the message text shaping unit 902 processes the citation structure parsed text 1100 to generate a formatted text 1101.
  • the message text formatting unit 902 generates the formatted text 1101 as follows.
  • the incomplete portion detection unit 103 receives the formatted text 1101 generated by the message text shaping unit 902, and collates it with the text of the past chat message text stored in the message log 903. Look for chat messages where the first and last sentence within each citation tag at the citation level is 1 or more first, and whether the citation is complete, that is, each citation has a missing string for the citation statement It is judged by string matching whether there is no. Furthermore, if the citation is incomplete, substitute the original complete sentence, and make it possible to identify which part of the original complete sentence is included in the citation.
  • the process performed by the incomplete part detection unit 103 in the speech synthesizer 40 according to the fourth embodiment is as follows: The processing described in the first embodiment is simplified. In the fourth embodiment, differences with the process described in the first embodiment will be listed below.
  • the text structure in the first embodiment is the same as that in the first embodiment. Analysis is unnecessary. Also for the latest message power, as far as about 10 chat message texts, it is sufficient to search for the source sentence by string matching for texts other than the part for Bow I of the main part.
  • the speech synthesis unit 104 processes the incompletely detected text 1200 generated in this way, one sentence at a time from the beginning to generate synthetic speech, and outputs the synthesized speech to the incompletely partial obfuscation unit 105. .
  • the voice color of the synthetic speech uses the one uniquely assigned to the sender of the message, and if there is a sender property in the ⁇ c> tag, the voice color of the sender is used. If there is no sender property, that is, if the citation source is not found, using the voice color of the sender who sent the message except for the sender of the message to be read out now. Good.
  • Embodiments 1 to 3 above the case of handling e-mail text as text information has been described, and in Embodiment 4 above, the case of handling chat messages as text information has been described.
  • a speech synthesis apparatus in the case of handling a post message which is communication content by net-use as text information will be described.
  • the speech synthesis apparatus performs almost the same processing as that of the first embodiment, but as shown in FIG. 18, the speech synthesis according to the fifth embodiment is performed.
  • the difference in configuration between the apparatus 50 and the first embodiment is that the input e-mail text 100 is-the use text 1300, the e-mail text shaping section 102 is the-use text shaping section 1301 Point, mailbox 107 is read-use log 1302 and incomplete part detection unit 103 can be connected through news client 1303 and network 1304 in addition to read-use log 1302-all from use server 1305 -The use log 1306 can also be accessed to detect imperfections.
  • the difference in operation between the speech synthesis device 50 according to the fifth embodiment and the first embodiment will be described.
  • News text 1300 is the same as e-mail text 100 From field 'Subje ct field ⁇ Re-Reply — To field' References field etc. is composed of a line "one" (two minus signs) The header part that can be separated from the text by and the text part power that follows it.
  • the quoted structure analysis unit 101 and the use text shaping unit 1301 may perform the same processing as the bow I structural analysis unit 101 and the e-mail text shaping unit 102 in the first embodiment.
  • the incomplete part detection unit 103 acquires the past use text of the same thread as the use text 1300 from the read-use log 1302 and uses the same process as in the first embodiment. Search for the source sentence of the citation. However, it appears in the References field of the header part of the news text 1300-if the use text does not exist in the read-use log 1302, then it is connected with the network 1304 using the news client 1303-the use server 1305 All-Use Log 1306 Forces, etc. may have the corresponding-Use text. Acquisition of the news text is done by the same procedure as the existing-Youth client operation.
  • the operations of the speech synthesis unit 104 and the partial partial blur recognition unit 105 are the same as in the first embodiment.
  • a text-to-speech synthesizer for processing a post message to a bulletin board on a network as text information will be described.
  • FIG. 19 is a block diagram showing a functional configuration of the speech synthesis apparatus according to the sixth embodiment.
  • the bulletin board message text does not have an independent configuration in which each message is divided. Therefore, in speech synthesis apparatus 60 according to the sixth embodiment, bulletin board message text 1400 to be read out, and each bulletin board message text in the past for reference to incomplete part detection unit 103 are referred to by the bulletin board. It must be extracted from the bulletin board message log 1401 that stores the message text.
  • the bulletin board message text extraction unit 1402 performs this extraction process. In the following, the operation of the extraction process of the bulletin board message text extraction unit 1402 will be described using FIG.
  • the bulletin board message log 1401 is described in HTML (HyperText Markup Language) so as to be viewable by a WWW browser, and has the following format.
  • HTML HyperText Markup Language
  • each post has the serial number of the article, the name of the author, and the post time in the fixed format in the first line, and after the ⁇ br> tag is inserted, the text of the post is described in the remaining part. ing.
  • the bulletin board message text extraction unit 1402 processes such an HTML document in the following manner.
  • the text of each post divided in this manner is taken as the divided bulletin board message text 1500.
  • the following should be done.
  • the bulletin board message text extraction unit 1402 extracts the latest message from the divided bulletin board message text 1500 as the bulletin board message text 1400 to be read out, and passes it to the citation structure analysis unit 101.
  • the quoted structure analysis unit 101 processes the portion of the bulletin board message text 1400 surrounded by ⁇ body> tags in the same manner as in the first embodiment and adds a bow I tag.
  • the incomplete part detection unit 103 splits the citation included in the formatted text 1601 into the bulletin board message text 1500 and reads the bulletin board message text to be read out from 1 to 400 as in the first embodiment. Search by method and complement missing strings Do the end.
  • the speech synthesis unit 104 and the incomplete part obfuscation unit 105 perform the same processing as in the first embodiment to generate and reproduce synthetic speech.
  • the speech synthesizer according to the present invention has been described above based on the embodiments.
  • the speech synthesis apparatus includes an incomplete portion detection unit capable of detecting an incomplete portion of a sentence, in addition to a speech synthesis unit that generates synthesized speech data based on input of text;
  • the speech synthesis unit further includes an incomplete partial unambiguous part that reduces the aural clarity of the part corresponding to the partial detected by the incomplete part detection unit.
  • the incomplete part detection unit analyzes a linguistic incomplete part of the input text that is the source of speech synthesis, and sends the analysis result to the speech synthesis unit. At this time, it is preferable that the incomplete part detection unit send the syntactic analysis result as well, since the speech synthesis unit can generate synthetic speech without performing syntactic analysis again.
  • the speech synthesis unit generates synthesized speech based on the linguistic analysis result of the input text, and if there is an incomplete part, which part of the generated synthetic speech corresponds to the incomplete part.
  • the heel partial defect pointer information is also output and sent to the partial defect obfuscation unit.
  • the incomplete part obscurer performs processing to lower the aural clarity of the part indicated by the incomplete part pointer information in the synthetic speech, and outputs it as the read-out voice data of the input text.
  • the speech synthesis unit may output sufficient speech feature parameters necessary to generate synthetic speech that is not synthetic speech itself.
  • speech feature parameters are, for example, model parameters in a source 'filter type speech production model, LPC cepstrum coefficients and sound source model parameters.
  • the speech synthesis unit is configured to Instead of using the input text and the language analysis result by the incomplete part detection unit as input, only the language analysis result obtained as a result of the input text being analyzed by the incomplete part detection unit may be used as the input.
  • the speech synthesis unit embeds the detection result of the incomplete part in the input text and the speech synthesis unit Can be passed to For example, by enclosing all incomplete parts in the input text with tags and passing them to the speech synthesis part, the speech synthesis part will use the incomplete part detection part to detect both the information in the input text and the detection of incomplete parts. You can get it. This eliminates the need to synchronize two separate inputs to the speech synthesizer.
  • the incomplete part obfuscation unit is configured to add an acoustic effect such as adding noise to the sound of the incomplete part or reducing the volume of the sound of the incomplete part. Can reduce the clarity of This makes it possible to clearly indicate to the user that imperfections that can not be read out correctly because of linguistic imperfections exist in the text to be read out.
  • the incomplete part obfuscation unit may change the degree of speech obfuscation in time series. For imperfections at the beginning of the line, maximize the degree of obscuration at the beginning of the speech, and minimize the degree of obscurity at the end of the imperfection. Decrease sequentially. Conversely, for the incomplete part at the end of the line, the degree of unclearness is increased chronologically. This makes it possible for the user to hear synthesized speech more naturally.
  • the text to be read out is a mail sentence
  • prepare a citation structure analysis unit that analyzes the citation structure of the mail sentence and separates the citation text in sentence units, and further sends and receives in the past
  • Prepare a mailbox that stores the e-mails that have been sent and a complete sentence search unit that can search in the mail box for the original complete sentences including incomplete sentences in the past mail sentences. Then you can replace the incomplete sentence with the original complete sentence, analyze the language correctly, and read it out with the original correct and prosodic features.
  • the speech synthesis unit may perform speech synthesis on all of the original complete sentences found by the complete sentence search unit and output the synthesized speech, or from the speech synthesis result of the original complete sentences, Only the quoted text part may be output. Also, by setting a predetermined time constant, the speech synthesis result of the original complete sentence is obtained so that the portion of the quoted sentence subjected to the ambiguity processing becomes the maximum of the time constant. Even if it cuts out and outputs it, it is good.
  • the original complete text including the text to be read out that is part of the text to be read out
  • the original complete text is acquired. The same effect can be obtained by preparing.
  • the present invention can be applied to a text-to-speech application or the like for reading text data such as e-mail using speech synthesis technology, a personal computer provided with such an application, and the like. It is useful for the reading application of text data in which incomplete sentences are likely to appear in sentences.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

 読み上げ対象の文章が不完全であることに起因するユーザの混乱や合成音の品質劣化を防止し、ユーザにとって理解しやすい読み上げ音声を提示可能な音声合成装置を提供する。  入力された電子メールテキスト(100)のうち、文字列の欠落によって言語的に不完全な部分である不完全部分を検出し、過去に受信した電子メールテキストを蓄積するメールボックス(107)を参照して、検出された不完全部分において欠落している文字列を補完する不完全部分検出部(103)と、補完後の電子メールテキストに基づいて、合成音を生成する音声合成部(104)と、不完全部分検出部(103)において検出された不完全部分に対応する合成音の聴覚的明瞭度を下げる不完全部分不明瞭化部(105)と、生成された合成音を再生出力するスピーカ装置(106)とを備える。                                                                               

Description

明 細 書
音声合成装置
技術分野
[0001] 本発明は、テキストに対応する音声を合成して出力する音声合成装置に関し、特に
、不完全な文章をも自然に読み上げるための音声合成装置に関する。
背景技術
[0002] 従来、所望のテキストに対する合成音を生成して出力する音声合成装置が提供さ れている。その中でも、応用分野として電子メールを読み上げるという用途があり、テ キストで書かれた電子メールそのものを読む代わりに、電子メールの内容を合成音と して聞き取るようにすることができる。
[0003] しかし、電子メールのテキストには、小説や新聞記事などのテキストと違 、、例えば 引用記号などのように、通常通りに読み上げることができない記号が、引用部分ゃシ グネチヤ部分などに含まれるため、このような部分を適切に処理して読み上げ可能な 状態に修正する必要がある。このための技術として、例えば特許文献 1及び特許文 献 2がある。
[0004] 特許文献 1の方式によれば、読み上げる必要が無い引用記号を除去することによ つて引用文の中身だけを読み上げたり、引用部分を全て削除したりすることによって 引用部分の読み上げの困難さを回避することができる。
[0005] また、特許文献 2の方式によれば、引用文の中身を蓄積済みの既読メールに含ま れる文字列と照合し、引用文の中身が既読メールに含まれる場合のみ引用部分の削 除を行うといった、より適切な処理を行うことができる。
特許文献 1 :特開平 9— 179719号公報 (明細書第 7頁〜第 8頁)
特許文献 2:特開 2003— 85099号公報(明細書第 22頁〜第 24頁)
発明の開示
発明が解決しょうとする課題
[0006] ところで、電子メールのテキストは、しばしば行単位で引用され、そのために引用部 分の冒頭が引用元の電子メールにおけるある文の途中力も始まっていたり、末尾が 文の途中で終わっていたりすることが少なくない。このような引用の例を図 22に示す
[0007] 図 22において、メール文 800〜802は、 2人の人物間における一連のメールのやり とりを表している。最初のメール文 800から、文章の途中の一部分である「どのような 資料を用意すれば」の部分だけが引用されて、返信メール文 801が書かれ、さらに返 信メール文 801の先頭から 3行目、 7行目、 8行目、 11行目を引用して、再返信メー ル文 802が書かれている。それぞれの引用部分は、完全な文章にはなっておらず、 引用元のメール力も単純に行単位の引用を行っている。このような引用を行うと、引 用文は、しばしば元の文章力も文頭や文末の部分が欠落したものになる。
[0008] し力しながら、上記した従来技術では、このような不完全な文章の読み上げを考慮 しておらず、不完全な文章を完全なものとして読み上げることによって、ユーザの混 乱を招 ヽてしまう t ヽぅ問題がある。
[0009] また、文章が不完全であることによって言語的解析処理が失敗するため、不自然な 韻律が付与されて合成音の品質を低下させてしまうという問題もある。
[0010] 一方、このような文頭もしくは文末の意味をなさない不完全な部分は、元々読み上 げの重要性が低い部分であると考えられるため、必ずしも全ての文字が聞き取れるよ うに読み上げる必要は無 、と 、える。
[0011] そこで、本発明は、力かる問題点および事情に鑑みてなされたものであり、読み上 げ対象の文章が不完全であることに起因するユーザの混乱や合成音の品質劣化を 防止し、ユーザにとって理解しやす!/、読み上げ音声を提示可能な音声合成装置を 提供することを目的とする。
課題を解決するための手段
[0012] 上記目的を達成するために、本発明に係る音声合成装置は、入力されたテキスト 情報に対応する合成音を生成する音声合成装置であって、前記テキスト情報のうち 、文字列の欠落による言語的に不完全な部分である不完全部分を検出する不完全 部分検出手段と、前記検出された不完全部分において欠落している文字列を補完 する補完手段と、前記補完された後のテキスト情報に基づいて、合成音を生成する 音声合成手段とを備えることを特徴とする。 [0013] これによつて、文章を構成する文字列の一部に欠落が生じているために、言語的に 不完全となっている文章であっても、その欠落を補完して合成音を生成するので、生 成される合成音には、自然な韻律が付与されることとなり、ユーザの混乱や合成音の 品質劣化を防止することができる。
[0014] ここで、前記音声合成装置は、さらに、前記不完全部分検出手段において検出さ れた不完全部分に対応する合成音に、所定の音響効果を加える音響効果付加手段 を備え、前記音響効果付加手段は、前記不完全部分検出手段において検出された 不完全部分に対応する合成音の聴覚的明瞭度を下げる不完全部分不明瞭化部を 備える。
[0015] この構成によれば、言語的に不完全な部分の読み上げ音声を不明瞭にするので、 ユーザに、読み上げの重要性が低 、部分を容易に理解させることができる音声合成 装置が実現される。
[0016] なお、本発明は、このような音声合成装置として実現することができるだけでなぐこ のような音声合成装置が備える特徴的な手段をステップとする音声合成方法として実 現してもよぐそれらのステップをパソコンなどのコンピュータで実現させるためのプロ グラムとして実現してもよい。また、そのようなプログラムを CD— ROMなどの記録媒 体や、インターネットに代表される通信媒体を通じて配信できることは言うまでもな 、。 発明の効果
[0017] 以上説明したように、本発明に係る音声合成装置によれば、文章を構成する文字 列の一部に欠落が生じて 、るために、言語的に不完全となって 、る文章に対して、 その欠落を解消することによって音声合成処理を失敗させないようにしたり、その欠 落によって音声合成処理が失敗する部分をあえて不明瞭に再生したりすることで、ュ 一ザにとって理解しやすい読み上げ音声を提示することができる。
[0018] また、本来読み上げの重要性が低いと考えられる部分、すなわち、引用部分の冒 頭にある文の先頭、もしくは末尾にある文の最後が不完全であれば、その部分の聴 覚的明瞭度を下げて、読み上げ音声を出力するので、これらの部分が比較的無意 味であることをユーザに示し、誤った韻律や不完全な単語の読み上げにユーザの注 意が引き付けられるのを防ぎつつ、その位置に何らかの無意味語があつたという情報 を削除することなく提示することができる。
図面の簡単な説明
[図 1]図 1は、実施の形態 1に係る音声合成装置の機能的な構成を示すブロック図で ある。
[図 2]図 2は、引用構造解析部および電子メールテキスト整形部の動作を説明するた めの図である。
[図 3]図 3は、不完全部分検出部が行う処理の概要を説明するための図である。
[図 4]図 4は、言語解析部の動作例を説明するための図である。
[図 5]図 5は、韻律生成部の動作例を説明するための図である。
[図 6]図 6は、素片選択部、素片結合部および不完全部分不明瞭化部の動作例を説 明するための図である。
[図 7]図 7は、合成音レコード列の概略図である。
[図 8]図 8は、不完全部分検出部が補完を行わない場合に得られる検出結果の一例 を示す図である。
[図 9]図 9は、不完全部分不明瞭ィ匕部に入力される合成音レコード列の例を示す図 である。
[図 10]図 10は、不完全部分不明瞭ィ匕部によるフェードイン処理の例を示す概略図で ある。
[図 11]図 11は、実施の形態 2に係る音声合成装置の機能的な構成を示すブロック図 である。
[図 12]図 12は、実施の形態 3に係る音声合成装置の機能的な構成を示すブロック図 である。
[図 13]図 13は、素片選択部、不完全部分不明瞭化部および素片結合部の動作例を 説明するための図である。
[図 14]図 14は、実施の形態 4に示される音声合成装置の構成を示すブロック図であ る。
[図 15]図 15は、メッセージテキストおよびメッセージログの例を示す概略図である。
[図 16]図 16は、引用構造解析部およびメッセージテキスト整形部の動作を示す概略 図である。
[図 17]図 17は、不完全部分検出部の動作を示す概略図である。
[図 18]図 18は、実施の形態 5に係る音声合成装置の機能的な構成を示すブロック図 である。
[図 19]図 19は、実施の形態 6に係る音声合成装置の機能的な構成を示すブロック図 である。
[図 20]図 20は、掲示板メッセージテキスト抽出部の動作例を説明するための図であ る。
[図 21]図 21は、掲示板メッセージテキスト整形部の動作例を説明するための図であ る。
[図 22]図 22は、本発明の解決課題に示される、本発明が対象とするテキストの例を 示す図である。
符号の説明
10、 20、 30、 40、 50、 60 音声合成装置
100 電子メールテキスト
101 引用構造解析部
102 電子メールテキスト整形部
103 不完全部分検出部
104、 104a, 104b 音声合成部
105 不完全部分不明瞭化部
106 スピーカ装置
107 メーノレホックス
200、 1100、 1600 引用構造解析済みテキスト
201、 1101、 1601 整形済みテキスト
300 不完全部分抽出済みテキスト
301 過去の電子メールテキスト
400 合成音レコード列
401 合成音レコード 402 合成音レコードヘッダ
600a 引用レベル 0の合成音
600b 600cに対する補完部分の合成音
600c 引用レベル 1の合成音
601 フエーダ部
602 ミキサ部
603 出力音声
700 波形生成部
702 音声素片パラメータデータベース
800 メール文
801 返信メール文
802 再返信メール文
900 チャットメッセージテキスト
902 メッセージテキスト整形部
903 メッセージログ
1200 不完全部分検出済みテキスト
1300 ニューステキスト
1301 ニューステキスト整形部
1302 既読ニュースログ
1303 ニュースクライアント
1304 ネットワーク
1305 ニュースサーノ
1306 全ニュースログ
1400 掲示板メッセージテキスト
1401 掲示板メッセージログ
1402 掲示板メッセージテキスト抽出部
1403 掲示板メッセージテキスト整形部
1500 分割済み掲示板メッセージテキスト 1700 言語処理部
1701 素片選択部
1702、 1702aゝ 1702b 音声素片データベース
1703 素片結合部
1704 韻律生成部
1800 音素表記テキスト
1900 韻律付き音素表記テキスト
発明を実施するための最良の形態
[0021] 以下、本発明の実施の形態について図面を用いて詳細に説明する。
[0022] (実施の形態 1)
図 1は、本発明の実施の形態 1に係る音声合成装置の機能的な構成を示すブロッ ク図である。
[0023] 本実施の形態 1に係る音声合成装置 10は、電子メールによる通信内容であるテキ ストを取得し、そのテキストに対応する合成音を生成して出力する装置であり、電子メ ールのテキストに含まれる引用部分に現れる不完全な文を自然に読み上げるもので ある。この音声合成装置 10は、前記テキストの不完全部分に対応して、聴覚的明瞭 度を下げた合成音を出力することによって、聴覚的明瞭度を下げない場合に比べて より自然な聴感を利用者に与えることを最大の特徴とする。
[0024] 図 1に示すように、音声合成装置 10は、入力される電子メールテキスト 100の引用 部分の構造を解析する引用構造解析部 101と、解析された引用部分の構造を考慮 した上で電子メールテキストを文単位に整形する電子メールテキスト整形部 102と、 過去に送受信した電子メールテキストを蓄積するための記憶領域を有するメールボッ タス 107と、メールボックス 107から、過去に送受信した電子メールテキストを参照して 電子メールテキスト 100内の不完全な文を検出し、その不完全な部分を特定する不 完全部分検出部 103と、テキストを入力として受け取り合成音を出力する音声合成部 104と、音声合成部 104が出力する合成音の中で不完全部分検出部 103が検出し た不完全な部分に対応する部分だけを聴覚的に不明瞭化させる処理を施す不完全 部分不明瞭ィ匕部 105と、生成された合成音を再生し出力するスピーカ装置 106とを 備えている。
[0025] ここで、音声合成部 104は、さらに細力 、機能ブロックに分割することができ、テキ ストを入力として、その言語解析結果を出力する言語処理部 1700と、テキストの言語 解析結果に基づいて韻律情報を生成する韻律生成部 1704と、音声素片を格納する 音声素片データベース (DB) 1702と、韻律情報を含む言語解析結果を用いて、音 声素片 DB1702から適切な音声素片を選択する素片選択部 1701と、素片選択部 1 701の選び出した音声素片をあら力じめ生成された韻律に合致するよう変形しつつ、 前後の音声素片となめらかにつながるような変形も加えて連結し、入力されたテキスト に対応する合成音声データを出力する素片結合部 1703とを備えている。
[0026] 引用構造解析部 101は、電子メールテキスト 100を簡単に解析して、引用の深さや 段落の切れ目などに応じて整形を行う。
[0027] ここで、引用の深さとは、各文章の引用された回数を意味し、具体的には各行頭か ら連続する引用記号の数によって、引用構造解析部 101は、各文章の引用の深さを 識別する。
[0028] また、段落の切れ目とは、各文章の意味のつながりが途切れている箇所を意味し、 同じ引用の深さの文章の中で、空行が存在したり他の行とインデントの量が違って!/ヽ る部分によって、引用構造解析部 101は、段落の切れ目を識別する。なお、「(中略) 」や「(略)」のように途中の文章が省略されて 、ることを示唆する文字列や、縦方向の 「· · ·」を模した「:」のみの行など、空行やインデントの違 、以外に段落の切れ目を示 唆する文字列によって、引用構造解析部 101は段落の切れ目を識別するとしてもよ い。
[0029] 電子メールテキスト整形部 102は、引用構造解析部 101による解析結果を元に、電 子メールテキスト 100を文単位に切り分けて整形する。この電子メールテキスト整形 部 102は、さらに、メールヘッダやシグネチヤの要約も行う。
[0030] 図 2は、引用構造解析部 101及び電子メールテキスト整形部 102の動作を説明す るための図である。
[0031] 図 2において、引用構造解析部 101は、以下のように電子メールテキスト 100を解 祈し、解析結果を表すタグを付加して引用構造解析済みテキスト 200を生成する。 [0032] 1)まず、電子メールテキスト 100の先頭から、半角のマイナス記号 2つで構成される 行までをヘッダと識別して、その部分をく header >のタグで囲む。
2)電子メールテキスト 100の終端から、 2つ以上連続した記号文字のみで構成され る行が最初に現れる場所を探し、検出された行が 1)で識別したヘッダの終端でなぐ さらにその検出された行カゝら電子メールテキスト 100の終端までの行数が 10行以下 であればこれをシグネチヤ部分と識別して、く signature >のタグで囲む。
3)ヘッダ部分とシグネチヤ部分の間にあるテキストの全てをメールの本文と識別し て、 < body >のタグで囲む。
4)く body >タグで囲まれたメールの本文を先頭から見て、終端の行を処理し終わ るまで以下の 5)〜: L0)の処理を繰り返す。
5)現在の行の先頭にある弓 I用記号の数を数え、弓 I用記号の数のタグで置換する。 例えば、引用記号力^つある場合はく 1 >、 2つある場合はく 2 >、引用記号が無い (引用部分でない)場合はく 0 >を引用記号の代わりに付与する。ただし、この時点 では、まだタグを閉じない。以下、この引用記号の数のタグを「引用タグ」と記述し、引 用記号の数を引用レベルと記述する。
6)現在の行が電子メールテキスト最後の行である力、次の行以降がシグネチヤ部 分であれば、引用タグを閉じて終了する。例えば、現在の行が引用部分でなければ
、行末に < Ζο >を追加してこのアルゴリズムを終了する。
7)次の行へと読み進める。
8)直前の行と現在の行の引用記号の数が違うか、現在の行が空行である力 現在 の行が「(中略)」や「:」などの元の文の省略を意味する文字列である力 現在の行と 直前の行のインデントの数が違う場合、 10)へ進む。
9)行頭の引用記号を削除して、 6)へ進む。
10)直前の行を引用タグで閉じて、 5)へ進む。
[0033] 以上、 1)〜: L0)の手順によって生成される引用構造解析済みテキスト 200は、次の ようなものである。
• < header >タグで囲まれた部分に、元の電子メールテキスト 100のヘッダ部分が 入っている。 • < signature >タグで囲まれた部分に、元の電子メールテキスト 100のシグネチヤ 部分が入っている。
• <body>タグで囲まれた部分に、元の電子メールテキスト 100の本文部分が入つ ている。
•本文部分は、段落ごとに引用タグで囲まれている。また、引用タグによって引用の 深さが分力る。
[0034] さらに、図 2において、電子メールテキスト整形部 102は、以下に説明するように引 用構造解析済みテキスト 200を処理し、整形済みテキスト 201を生成する。
[0035] 1)く header >タグで囲まれた部分を要約し、読み上げやすい文章にする。例えば 、メールの差出人を表す Fromフィールドと表題を表す Subjectフィールドのみを取り 出して、「〇〇さんより、 X Xというメールです」という文章に変換する。ただし、この段 階では、後の不完全部分検出部 103における処理に備えて、電子メールのスレッド 構造を表す In— Reply Toフィールドや Reference sフィ一ルドの内容は、削除せ ずに残しておくことが望ま 、。
2)く signature >タグで囲まれた部分を要約し、読み上げやすい文章にする。もし くは、単純に削除してしまっても良い。
3)く body>タグで囲まれた部分に関して、各引用タグ内の文章から改行や空白 文字を削除して一行のテキストにした上、句点で文を切り分ける。
[0036] 不完全部分検出部 103は、電子メールテキスト整形部 102によって生成された整 形済みテキスト 201を受け取り、メールボックス 107に蓄積されている、過去に送受信 した電子メールと照合を行って、弓 I用レベルが 1以上の各引用タグ内の先頭及び末 尾の文が最初に現れる電子メールを探し、引用文が完全であったかどうか、即ち各 引用文が引用元の文に対して文字列の欠落が無 、かどうかを文字列マッチングによ り判定する。さらに、引用文が不完全であった場合には、元の完全な文で置換を行つ た上で、元の完全な文のうち、どの部分が引用文に含まれているかを識別可能にす る。
[0037] 図 3は、不完全部分検出部 103が行う処理の概要を説明するための図である。図 3 において、不完全部分検出部 103は、以下に説明するような処理を行う。 [0038] 1)ヘッダ部分の In— Reply— Toフィールドや Referencesフィールドに書かれたメ ッセージ IDを参照して、メッセージ IDの一致する過去の電子メールテキスト 301をメ ールボックス 107から全て取得する。さらに、それらの電子メールテキスト 301の In— Reply— Toフィールドや Referencesフィールドを参照し、同一スレッドの過去の電 子メールテキスト 301を再帰的に全て取得する。
2)取得した過去の電子メールテキスト 301から、ヘッダ部分、シグネチヤ部分、引用 部分を全て取り除く。さらに、本文部分からも改行や空白文字を全て取り除いて文字 列マッチングに備える。
3)本文部分の各弓 I用タグ内の先頭及び末尾の文について、それが弓 I用レベル 0 で現れる最初の電子メールテキスト 301を、文字列マッチングによって検索する。
4) 3)でマッチした文字列が文の一部であれば、過去の電子メールテキスト 301に 含まれる元の完全な文で整形済みテキスト 201の不完全な文を置換する。さらに、整 形済みテキスト 201に含まれていな力つた部分、即ち過去の電子メールテキスト 301 から補完された部分をく c >と 、うタグで囲んで区別できるようにしておく。
5)本文部分の全ての弓 I用タグにつ 、て、 3)〜4)の処理を繰り返す。
6)ヘッダ部分から In— Reply— Toフィールドと Referencesフィールドを削除する。
[0039] 以上、 1)〜5)の手順によって生成される不完全部分検出済みテキスト 300は次の ようなものである。
[0040] · < header >タグで囲まれた部分に、元の電子メールテキスト 100のヘッダ部分が 要約されて入っている。
• < signature >タグで囲まれた部分に、元の電子メールテキスト 100のシグネチヤ 部分が要約されて入って 、る。
• < body>タグで囲まれた部分に、元の電子メールテキスト 100の本文部分が入つ ている。
•本文部分は、段落ごとに引用タグで囲まれており、引用タグによって引用の深さが 分かる。さらに、
•本文部分の文は、全て引用による文字列の欠落が無い完全な文であり、元の電 子メールテキスト 100に含まれる引用文が不完全な文であった場合は、過去の送受 信メールから補完された部分だけが < C >タグで囲まれて区別されて 、る。
[0041] 音声合成部 104は、このようにして生成された不完全部分検出済みテキスト 300を 先頭から一文ずつ処理して、合成音を生成し出力する。このとき、各文において < c >タグで囲まれている部分があれば、それがどの部分力判別可能な形式で出力を行
[0042] 音声合成部 104の内部では、次のような処理が行われる。
まず、図 4に示されるように、不完全部分検出部の生成した不完全部分検出済みテ キスト 300は言語処理部 1700によって処理され、音素表記テキスト 1800が生成され る。この音素表記テキスト 1800は、不完全部分検出済みテキスト 300の漢字仮名混 じり文を音素表記に変換したものであり、言語解析の結果として得られるアクセント情 報や構文情報も含めておくことによって合成音の品質を向上させることも可能である 1S 図 4では、簡単のため音素表記のみを示している。
[0043] 次に、図 5に示されるように、韻律生成部 1704は、生成された音素表記テキスト 18 00に基づいて、各音素の継続時間、時間的中心位置における基本周波数、および 、パワー値を計算して、韻律付き音素表記テキスト 1900を素片選択部 1701に出力 する。図 4と同じく、図 5でも簡単のため言語解析の結果として得られる構文情報等が 音素表記テキスト 1800及び韻律付き音素表記テキスト 1900の説明図から省略され ているが、実際にはそのようなデータを含めておくことで、素片選択部 1701による音 声素片選択処理をより高 、精度で行うことができるようになるため望まし 、。
[0044] 次に、図 6に示されるように、素片選択部 1701は、韻律生成部 1704から取得した 韻律付き音素表記テキスト 1900の情報に基づいて、最適な音声素片データを音声 素片 DB1702より取得する。典型的な構成としては、音声素片 DB1702は、 1音素 単位で分割された音声波形データを各音声素片として格納しており、これらの音声 素片にはあらかじめ分析された継続時間、基本周波数、パワー値、および、当該音 声素片の録音時に用いられた文章における構文情報等が付加されていて、素片選 択部 1701は、それらの情報を元に、言語処理部 1700及び韻律生成部 1704の出 力内容に最も近!ヽ音声素片を選択するようにする。
[0045] 素片結合部 1703は、素片選択部 1701から出力される音声素片を順番に受け取り 、各音声素片の継続時間、基本周波数、および、パワー値を変形することで、あらか じめ計算された韻律への合わせ込みを行い、さらに各音声素片が前後の音声素片と 滑らかに繋がるように変形を行い、音声合成部 104の処理結果として不完全部分不 明瞭ィ匕部 105に出力する。
[0046] 図 7は、音声合成部 104が、不完全部分検出済みテキスト 300から生成する合成音 レコード列 400の例を説明するための図である。
[0047] 音声合成部 104は、不完全部分検出済みテキスト 300の各文について、全てのタ グを取り去った上で音声合成を行!ヽ、生成された合成音データをく c >タグの位置で 分割して、レコード 401のリストとして出力する。レコード 401は、各々が構造体の形 式になっており、引用レベルを表す int値(引用レベル)と、当該レコードの音声デー タが < c >タグで囲まれた文字列に相当する部分であるかどうかを表す bool値 (補完 部分)と、当該レコードに含まれる合成音データ長を表す int値 (音声データ長)と、当 該レコードに含まれる合成音データ本体である、 int値 (音声データ)の配列より構成 される。これらレコード 401のリストの先頭には、後続文が幾つのレコードによって構 成されるかを表す int値(文内レコード数)を持つレコードヘッダ 402がある。
[0048] ここで、音声合成部 104は、ヘッダ部分'本文部分 ·シグネチヤ部分に対し、それぞ れ別々の声質で音声合成処理を行ってもょ ヽ。
[0049] また、音声合成部 104は本文部分の各文の引用レベルによって合成音の声質を変 えるようにしてもよい。例えば引用レベルが偶数の文は声質 Aで音声合成を行い、引 用レベルが奇数の文は声質 Bで音声合成を行うことによって、それぞれの文が誰の 発言であったのか分力りやすくなる。また、不完全部分検出部 103によって引用元と なる過去の電子メールテキスト 301を検索する際に、差出人を表す Fromフィールド の内容を引用タグに埋め込んでおき、引用タグに埋め込まれた差出人によって合成 音の声質を変えるようにすることで、さらに分力りやすい読み上げを行うことができる。
[0050] 続いて、不完全部分不明瞭ィ匕部 105は、以上のように構成される合成音レコード列 400を受け取り、次のような処理を行う。
[0051] 1)レコードヘッダ 402を読み、文内レコード数を得る。
2) 1)で取得した文内レコード数の分だけ、以下の 3)〜6)を繰り返す。 3)レコードを 1つ読み込む。このレコードが不完全部分検出部 103によって補完さ れた部分でなければ、このレコードの音声データをそのまま出力して再度 3)に戻る。 一方、補完された部分であれば 4)へ進む。
4)このレコードが文内の最初のレコードであれば、音声データの長さが 2秒より長い 場合、音声データを末尾の 2秒分のみに短縮する。さらに短縮された音声データの 音量を始端で 0%、終端で 100%のフェードインになるように変形する。一方、このレ コードが文内の最後のレコードである場合は、音声データを先頭の 2秒分のみに短 縮し、同様にして短縮された音声データの音量を始端で 100%、終端で 0%のフエ一 ドアウトになるように変形する。
5)変形された音声データを出力し、 3)へ進む。
[0052] 以上、 1)〜5)の手順で不完全部分不明瞭化部 105によって出力される音声デー タは、次のような特徴を持つ。
[0053] ·整形済みテキスト 201に含まれる文章が、不足無く音声化されて含まれている。
•不完全部分検出部 103によって整形済みテキスト 201に追加された部分を利用し て、整形済みテキスト 201における不完全なテキストの先頭の欠落部分は最大 2秒間 のフェードインと共に再生を開始し、末尾の欠落部分では最大 2秒間のフェードアウト を経て次の文章の再生に移行する。
[0054] 以上のように本実施の形態 1に係る音声合成装置 10によれば、引用構造解析部 1 01で電子メールテキスト 100の構造を解析し、その結果を元に電子メールテキスト整 形部 102が読み上げに適した整形済みテキスト 201を生成し、さらに、不完全部分検 出部 103によって不完全部分の検出と、不完全部分の補完処理が行われる。その結 果、音声合成部 104で、補完された元の完全な文に対して音声合成処理を行うこと ができるため、不自然な韻律によって聴取者であるユーザを混乱させてしまうことを避 けることができる。また、補完された部分の音声に、不完全部分不明瞭化部 105でフ エードイン ·フェードアウト処理を施すことで、実際に電子メールテキスト 100に引用さ れていた部分の読み上げを不足無く行いつつ、引用時に削られた部分があることを 聴覚的にユーザに提示することができる。
[0055] なお、合成音レコード列 400は少なくとも < c>タグで囲まれていない部分の音声を 完全に含み、 < c >タグで囲まれた部分の音声があれば、その合成音レコード列 400 内の位置が分力るような不完全部分ポインタ情報を含んでいれば、これと同等の処 理を行うことが可能である。
[0056] また、不完全部分検出部 103が、さらに高度な言語解析を行うことができ、引用文 の先頭もしくは末尾にある形態素や文節が不完全になってしまっていることが検出で きる場合、不完全になった形態素や文節を完全にする分だけの文字を補完して音声 合成を行い、当該形態素や文節の部分の音声をフェードイン 'フェードアウト等の手 段によって不明瞭ィ匕するようにしてもよ!、。
[0057] また、テキストの不完全部分に対応して聴覚的明瞭度を下げた合成音を出力すると いう本発明の最大の特徴が単独で発揮されるよう、不完全になった形態素や文節の 補完は行わず、不完全な形態素や文節の部分の音声のみを不明瞭化するに留めて もよい。この場合、不完全部分検出部 103は、例えば引用部分の先頭にある文では r ight— to— leftの形態素解析を行った上で文頭に現れた未知語を不完全部分とし、 引用部分の末尾にある文では left— to— rightの形態素解析を行つた上で文末に現 れた未知語を不完全部分とすればよ!ヽ。
[0058] 図 8に、不完全部分検出部 103が整形済みテキスト 201の補完を行わずに文節単 位で不完全部分の検出のみを行った場合に得られる結果の一例を示す。図 8に示さ れる不完全部分検出済みテキスト 300aは、不完全部分検出済みテキスト 300 (図 3 参照)と対比して、次のような特徴を持つ。
[0059] ·文の先頭及び末尾における不完全部分が補完されていない。
•文の先頭及び末尾にもともと存在して 、て、かつ完全な文節をなして ヽな 、と判 断された部分が < c >タグで囲まれて区別されて 、る。
[0060] 補完を行わずに不完全部分を検出するこのような構成は、不完全部分の補完に用 V、られるテキストが容易に取得できな 、場合(引用元のメール力 Sメールボックス 107に 蓄積されていない場合はもちろん、例えば、ウェブページ、電子書籍、電子番組情報 等のメール以外の種々の引用元力も切り取られたテキストを読み上げる場合)に、特 に好適である。
[0061] なお、ここまでの説明には、メールの引用部分の先頭及び末尾にテキストの不完全 部分が生じる状況を一例として用いたが、利用者力 指定されたテキストの一部分を 読み上げる状況にぉ 、ても、テキストの不完全部分が生じることが考えられる。
[0062] そのような状況に対応するために、音声合成装置 10に、さらに、テキストの一部分 の指定を受け付ける部分指定受付部 (不図示)を設け、前記不完全部分検出部 103 は、前記指定された部分の先頭及び終端の少なくとも一方において不完全部分を検 出することが好ましい。この部分指定受付部は、情報端末装置にごく一般的に備えら れるカーソルキーや入力ペンを用いて実現され、指定された部分は、従来広く行わ れているように、反転、点滅などによって表示されるとしてもよい。
[0063] また、不完全部分不明瞭ィ匕部 105は、補完された部分の音声の代わりに、後続す る音声が元の文章の途中から始まっていたり、先行する音声が文章の途中で終わつ ていたりすることを示唆する効果音を用いることにしてもよい。例えば、文の先頭の不 完全部分に当たる音声を、ラジオのチューニング音("キュイ一"という音)と入れ替え 、文の終端の不完全部分に当たる音声を、ホワイトノイズ ("ザ一"という音)と入れ替 えることによって、「(キュイ一)は、 10部ずつコピーを用意して (ザ一)」というような音 を作ることができる。
[0064] また、不完全部分不明瞭ィ匕部 105は、 TVやラジオのインタビュー音声などで、音 声を途中から引用する場合によく行われるように、不明瞭化された不完全部分を先 行文,後続文に重ねて再生するような音声を出力してもよい。図 9に示されるような合 成音レコード列 400が不完全部分不明瞭ィ匕部 105に与えられた場合を例に挙げて、 図 10を参照しながら不完全部分不明瞭ィ匕部 105における処理を以下説明する。
[0065] 1)補完部分である「資料」の合成音 600bの音量を、不完全部分不明瞭ィ匕部 105 が備えるフエーダ部 601を用いて元の音量の 10%に下げる。
2)同じくフエーダ部 601を用いて、補完部分に後続する「は、 10部ずつコピーを用 意して」の合成音 600cの先頭部分に対し、元の音量の 10%力も元の音量の 100% まで 1秒で変化するようなフェードイン処理を加える。
3)不完全部分不明瞭ィ匕部 105が備えるミキサ部 602を用いて、補完部分である「 資料」の合成音 600bが、先行文である「第三チームの齋藤です」の合成音 600aの 終端に重なり、連続して「は、 10部ずつコピーを用意して」の合成音 600cが流れるよ うなミキシング処理及び連結処理を行い、出力音声 603を生成する。本図では、合成 音 600aの処理結果は、出力音声 603の aの区間に、合成音 600bの処理結果は、 a の区間と重なる bの区間に、合成音 600cの処理結果は、 a及び bに後続する cの区間 に含まれる様子が示されて ヽる。
[0066] 以上のような方法を用いることで、ユーザが既に TVやラジオのインタビュー音声な どで馴染みのある手法での引用文読み上げが可能となる。
[0067] なお、不完全部分不明瞭ィ匕部 105は、入力される音声の音量を操作するだけでな ぐ適切な割合でノイズ音をミキシングしてもよい。例えば上に挙げた処理の例におい て、あら力じめ所定の音量のホワイトノイズ音データを用意しておき、それを合成音 6 OObに対し元の音量の 90%で、合成音 600cの先頭 1秒部分に対して元の音量の 9 0%力 0%まで減少するようなミキシングを行なう。このような処理により、合成音 600 aの末尾に合成音 600bが小さな音量かつ大きな割合のノイズと共にミキシングされ 始め、合成音 600a部分の再生が終了すると共に後続する合成音 600cの音が段々 大きくなり、ミキシングされたノイズの割合も小さくなつていくような音声を作成すること ができる。
[0068] また、不完全部分不明瞭ィ匕部 105は、検出された不完全部分の音声を削除するよ うにしてもよい。不完全部分を削除することによって、引用元の文から不完全な引用 力 Sされていたということはユーザに伝わらなくなる力 ユーザは引用文の中力も言語 的に完全な部分だけを聞くことができるようになるため、理解しやすくなる。
[0069] また、不完全部分を削除する場合は、不完全部分の文字を不完全部分検出部 10 3によって削除した上で、音声合成部 104に合成音を生成させるようにしてもよい。こ のようにすると、元の完全な文の音声を生成した後に一部を削除するのと違い、あら 力じめ一部を削除済みの文を完全な文として音声を生成するため、違う韻律になるこ とが考えられる。しかし、音声合成部 104の出力結果をそのままスピーカ装置 106に 再生させればよくなるため、不完全部分不明瞭化部 105が不要となり、音声合成装 置の構成を単純ィ匕することができるという利点を有する。
[0070] また、不完全部分の補完を行って完全な文にした後、不完全部分の不明瞭化処理 を全く行わないようにしてもよい。この場合、ユーザの聞く音声は冗長なものとなるも のの、ユーザが聞く文章は、常に欠落の無い完全なものであることが保証されるとい う利点を有する。
[0071] (実施の形態 2)
次に、本発明の実施の形態 2に係る音声合成装置について説明する。
[0072] 本実施の形態 2に係る音声合成装置は、前記実施の形態 1に係る音声合成装置 1
0における、音声合成部 104及び不完全部分不明瞭化部 105に関する変形例であ る。
[0073] 図 11は、本実施の形態 2に係る音声合成装置の機能的な構成を示すブロック図で ある。なお、実施の形態 1と同じ構成は、同一の符号を用いて示し、その説明を省略 する。
[0074] 音声合成装置 20における音声合成部 104aは、音声波形データではなく音響特徴 パラメータ列の形で音声素片を格納する音声素片パラメータデータベース (DB) 702 を備え、素片選択部 1701が、この音声素片パラメータ DB702に格納されている音 声素片を選択し、素片結合部 1703が、音声データの形式ではなく音声特徴パラメ ータの形式で合成音の出力を行う点で、上記実施の形態 1と異なる。
[0075] また、この出力を音声の形式に変換するために、本実施の形態 2に係る音声合成 装置 20は、音声特徴パラメータ力 音声波形を生成する波形生成部 700を備える。 波形生成部 700の構成は、本装置が採用する音声特徴パラメータセットによって異 なるが、例えば、 ARX音声分析モデルに基づく方法(「大塚,粕谷,〃音源パルス列 を考慮した頑健な ARX音声分析法〃, 日本音響学会誌, vol. 58, no. 7, 386— 39 7 (2002)」参照。)を用いることができる。この場合、音声素片パラメータ DB702内の 各音声素片の音響特徴パラメータは、 ARX音声分析モデルの音源 ·声道パラメータ となる。
[0076] この本実施の形態 2に係る音声合成装置 20によれば、不完全部分不明瞭化部 10 5において、音声波形データではなく音声特徴パラメータ値に変更を加えることがで きるため、より柔軟に聴覚的明瞭度を下げる処理を行なうことができるという効果を奏 する。例えば、音声合成部 104aが出力する音声特徴パラメータに音声のフォルマン ト強度を表すパラメータがある場合、フォルマント強度を下げることによって音韻性の はっきりしない、くぐもった声色に変形することができる。また、ここで、さらに高度な声 質変換の技術を使用可能な場合は、ささやき声や、かすれ声に変換する等してもよ い。
[0077] (実施の形態 3)
続いて、本発明の実施の形態 3に係る音声合成装置について説明する。
[0078] 本実施の形態 3に係る音声合成装置と前記実施の形態 1との差異は、本実施の形 態 3では、音声の声質を通常の喋り方力 ささやき声にすることによって不完全部分 の不明瞭ィ匕を行う点にある。
[0079] また、本実施の形態 3に係る音声合成装置と前記実施の形態 2との差異は、前記実 施の形態 2では音声合成部 104aの出力した音響特徴パラメータ列を変形することに よって音声をささやき声にする等の不明瞭ィ匕処理を行うとしたが、本実施の形態 3で は、音声合成部が複数の音声素片データベース (DB)を備え、それらを切り替えて 使うことによって通常の喋り方の声と、ささやき声とを使い分ける点にある。
[0080] 図 12は、本実施の形態 3に係る音声合成装置の機能的な構成を示すブロック図で ある。なお、上記実施の形態 1および 2と同一の構成は、同一の符号を用いて示し、 その説明を省略する。
[0081] まず、電子メールテキスト 100、メールボックス 107の役割と、引用構造解析部 101 、電子メールテキスト整形部 102、不完全部分検出部 103の動作は前記実施の形態 1と同様である。
[0082] 音声合成部 104bは、不完全部分検出部 103の処理結果を受け取り、合成音を生 成してスピーカ装置 106に再生出力させる。この構成では、不完全部分不明瞭化部 105が音声合成部 104の一部として働く点が前記実施の形態 1と異なる。
[0083] ここで、図 13を用いて、本実施の形態 3の音声合成部 104bにおける素片選択部 1 701、不完全部分不明瞭ィ匕部 105等の処理を説明する。
[0084] 素片選択部 1701は、韻律生成部 1704から出力される韻律付き音素表記テキスト 1900の情報を元に、最適な音声素片データを音声素片 DB1702aまたは音声素片 DB1702bより取得する。音声素片 DB1702aは、通常の声質の音声素片を格納し、 音声素片 DB1702bは、ささやき声の音声素片を格納している。このように、音声素 片を格納するデータベースは、少なくとも 2種類が用意されており、素片選択部 1701 は、不完全部分不明瞭化部 105を通して、これら複数の音声素片 DB1702aおよび 1702bから最適な音声素片データを取得する。
[0085] 不完全部分不明瞭ィ匕部 105は、選択しょうとしている音素が不完全部分に含まれ るものであれば、ささやき声の音声素片 DB1702bから、それ以外の場合は通常の声 質の音声素片 DB1702aから素片選択部 1701の要求に該当する音声素片データ を読み出して素片選択部 1701に渡す。
[0086] なお、不完全部分不明瞭化部 105は、音声素片をいずれかの音声素片 DB1702a および 1702bから 1つずつ選び出すだけでなぐ複数の音声素片 DB1702aおよび 1702bから最適な音声素片データを 1つずつ選択して、ミキシングを行うことによって 選択した音声素片データの中間的な声質を持つ音声素片データを新たに生成する ことちでさる。
[0087] さらに、前記実施の形態 1において音量を制御してフェードイン 'フェードアウト処理 を行ったように、ミキシングの比率を制御することで音声の明瞭さを連続的に変化さ せるようにしてちょい。
[0088] また、音声素片データを単純にミキシングするだけではなぐ音声モーフイングと呼 ばれる手法を用いることによってさらに良好な結果を得ることができる。なお、音声モ ーフイングの手法を用いた音声の声質制御手法は、例えば、特開平 9— 50295号公 報や、「阿部,〃基本周波数とスペクトルの漸次変形による音声モーフイング", 日本音 響学会平成 7年度秋季研究発表会講演論文集 I, 213— 214 (1995)」に開示されて いる。
[0089] 以上の方法で音声素片の選択を行った後、前記実施の形態 1と同様にして生成さ れる音声データをスピーカ装置 106で再生出力することにより、不完全部分の不明 瞭化を、ささやき声に声質を変更することによって行う音声合成装置が実現できる。
[0090] (実施の形態 4)
さらに、本発明の実施の形態 4に係る音声合成装置について、図 14〜17を参照し ながら説明する。
[0091] 上記実施の形態 1〜3では、テキスト情報として、電子メールによる通信内容である テキストを扱う場合を説明したが、本実施の形態 4では、テキスト情報として、チャット による通信内容であるメッセージを扱う場合の音声合成装置について説明する。
[0092] 図 14は、本実施の形態 4に係る音声合成装置の機能的な構成を示すブロック図で ある。なお、実施の形態 1〜3と同じ構成は、同一の符号を用いて説明を省略する。
[0093] 図 14に示すように、本実施の形態 4に係る音声合成装置 40では、電子メールテキ スト 100の代わりにチャットのメッセージテキスト 900を読み上げの対象とする。チヤッ トメッセージテキスト 900は、一般に電子メールテキストよりも単純な形式をして!/ヽる。
[0094] 例えば、図 15に示されるように、チャットメッセージテキスト 900としては、受信時刻 とメッセージの送信者名に続いて、メッセージの内容が平文で書かれているような構 成が考えられる。
[0095] そして、受信 '送信したチャットメッセージテキスト 900は、メッセージログ 903に蓄積 され、不完全部分検出部 103から参照可能となっている。
[0096] 引用構造解析部 101は、前記実施の形態 1と類似の方法を用いてチャットメッセ一 ジテキスト 900の引用構造を解析する。図 16を用いて、引用構造解析部 101の処理 動作を説明する。引用構造解析部 101の処理動作は、例えば、以下のようにすれば よい。
[0097] 1)チャットメッセージの先頭力も文字列を読み、 [] (角括弧)で囲まれた受信時刻と 送信者名を得て、受信時刻をく time >タグで、送信者名をく sender >タグで囲つ て切り離す。
2)現在の行の先頭にある弓 I用記号の数を数え、弓 I用記号の数のタグで置換する。 例えば、引用記号力^つある場合はく 1 >、 2つある場合はく 2>、引用記号が無い (引用部分でない)場合はく 0>を引用記号の代わりに付与する。ただし、この時点 ではまだタグを閉じない。以下、この引用記号の数のタグを「引用タグ」と記述し、引 用記号の数を引用レベルと記述する。
3)現在の行がチャットメッセージテキスト 900の最後の行であれば、引用タグを閉じ て終了する。例えば、現在の行が引用部分でなければ、行末にく 70>を追加して このァノレゴリズムを終了する。
4)次の行へと読み進める。 5)直前の行と現在の行の引用記号の数が違うか、現在の行が空行である力 現在 の行が「(中略)」や「:」などの元の文の省略を意味する文字列である力 現在の行と 直前の行のインデントの数が違う場合、 7)へ進む。
6)行頭の引用記号を削り、 3)へ進む。
7)直前の行を引用タグで閉じ、 2)へ進む。
[0098] 以上、 1)〜7)の手順によって生成される引用構造解析済みテキスト 1100は次のよ うなものである。
[0099] 'メッセージテキストの頭に、 < time >タグで囲まれた受信時刻情報と < sender > タグで囲まれた送信者名が存在し、その後に元のチャットメッセージテキスト 900の本 文部分が存在する。
•本文部分は、段落ごとに引用タグで囲まれている。また、引用タグによって引用の 深さが分力る。
[0100] さらに、メッセージテキスト整形部 902は、引用構造解析済みテキスト 1100を処理 し、整形済みテキスト 1101を生成する。メッセージテキスト整形部 902は、以下のよう にして、整形済みテキスト 1101を生成する。
[0101] 1)く time >タグを破棄する。なお、受信時刻の読み上げを行う場合には残してお いてもよい。
2)本文部分に関して、各引用タグ内の文章から改行や空白文字を削って一行のテ キストにした上、句点で文を切り分ける。
[0102] 不完全部分検出部 103は、メッセージテキスト整形部 902によって生成された整形 済みテキスト 1101を受け取り、メッセージログ 903に蓄積されている過去のチャットメ ッセージテキストの本文と照合を行って、引用レベルが 1以上の各引用タグ内の先頭 及び末尾の文が最初に現れるチャットメッセージを探し、引用文が完全であったかど うか、即ち各引用文が引用元の文に対して文字列の欠落が無いかどうかを文字列マ ツチングにより判定する。さらに、引用文が不完全であった場合には元の完全な文で 置換を行った上で、元の完全な文のうち、どの部分が引用文に含まれている力識別 可能にする。
[0103] 本実施の形態 4に係る音声合成装置 40で、不完全部分検出部 103が行う処理は、 前記実施の形態 1に記載の処理を簡略ィ匕したものである。本実施の形態 4における、 前記実施の形態 1に記載の処理との相違点を以下に列挙する。
[0104] ·本実施の形態 4では、メッセージログ 903に蓄積された過去のチャットメッセージテ キストは単純なリスト構造をして ヽるため、前記実施の形態 1で行って 、たスレッド構 造の解析は不要である。最新のメッセージ力も遡って 10個程度のチャットメッセージ テキストに対して、本文部分の弓 I用部分以外のテキストにつ 、て文字列マッチングに より引用元の文を検索すればよい。
[0105] ·チャットメッセージの読み上げにおいては、電子メールよりも各メッセージの内容が 短くかつメッセージの交換が頻繁であるため、「〇〇さんよりメッセージです」というよう な報知メッセージは冗長である。代わりに、各メッセージが誰からのものであるかを送 信者ごとに合成音の声色を変えることで表現する。これは、例えばあらかじめ音声合 成用の素片データベースを複数の声色用に作っておき、話者ごとに別の素片データ ベースを使用することによって実現できる。さらに、引用部分の声色も元の送信者の 声色で読み上げを行うために、く c >タグの中に「sender=送信者」と 、うプロパティ を設けておき、元の不完全部分検出部がメッセージログ 903から発見した、引用文の 元のチャットメッセージテキストの送信者名を書き込んでおくようにすればよい。
[0106] 音声合成部 104は、このようにして生成された不完全部分検出済みテキスト 1200 を先頭から一文ずつ処理して、合成音を生成し、不完全部分不明瞭化部 105に出 力する。合成音の声色はメッセージの送信者に特有に割り当てられたものを使用し、 < c >タグの中に senderプロパティがある場合はその送信者の声色を用いる。 sende rプロパティが無い場合、即ち引用元が見付力もな力つた場合は、今読み上げようとし て ヽるメッセージの送信者以外で、最後にメッセージを送信した送信者の声色を用い るとすればよい。
[0107] 図 17では、今読み上げようとしているメッセージの送信者が suzukiで、 suzuki以外 の送信したメッセージで最新のものは saitoのものなので、もし不完全部分検出済み テキスト 1200の < c >タグに senderプロパティが無かったとすると、 < c >タグに囲ま れた部分の合成音は saitoに割り当てられた声色を用いることになる。
[0108] 不完全部分不明瞭ィ匕部 105は、前記実施の形態 1と同様の処理を行えばよいので 説明を省略する。
[0109] 以上のような方法を用いることによって、ユーザにとって聞きやすぐかつ会話の流 れを阻害しないようなチャットメッセージテキストの読み上げを行うことが可能な音声 合成装置を実現することができる。
[0110] (実施の形態 5)
続いて、本発明の実施の形態 5に係る音声合成装置について説明する。
[0111] 上記実施の形態 1〜3では、テキスト情報として、電子メールテキストを扱う場合を説 明し、上記実施の形態 4では、テキスト情報として、チャットメッセージを扱う場合を説 明したが、本実施の形態 5では、テキスト情報として、ネット-ユースによる通信内容で ある投稿メッセージを扱う場合の音声合成装置について説明する。
[0112] 本実施の形態 5に係る音声合成装置は、前記実施の形態 1と、ほぼ同一の処理を 行うものであるが、図 18に示されるように、本実施の形態 5に係る音声合成装置 50と 前記実施の形態 1との構成上の差異は、入力の電子メールテキスト 100が-ユーステ キスト 1300になっている点、電子メールテキスト整形部 102が-ユーステキスト整形 部 1301になっている点、メールボックス 107が既読-ユースログ 1302になっている 点、そして、不完全部分検出部 103が既読-ユースログ 1302に加え、ニュースクライ アント 1303及びネットワーク 1304を通して接続できる-ユースサーバ 1305から全- ユースログ 1306にもアクセスして、不完全部分の検出を行うことができる点にある。以 下、本実施の形態 5に係る音声合成装置 50の、前記実施の形態 1との動作上の差 異について説明する。
[0113] ニューステキスト 1300は、電子メールテキスト 100と同じぐ Fromフィールド ' Subje ctフィールド ·Ιη— Reply— Toフィールド 'Referencesフィールド等によって構成さ れ、「一一」(半角マイナス記号 2つ)という行によって本文と分けられるヘッダ部分と、 それに続く本文部分力も成る。引用構造解析部 101及び-ユーステキスト整形部 13 01は、前記実施の形態 1における弓 I用構造解析部 101及び電子メールテキスト整形 部 102と同様の処理を行えばよい。
[0114] 不完全部分検出部 103は、既読-ユースログ 1302から-ユーステキスト 1300と同 一スレッドの過去の-ユーステキストを取得して、前記実施の形態 1と同様の処理によ つて引用文の引用元の文を検索する。ただし、ニューステキスト 1300のヘッダ部分 の Referencesフィールドに現れる-ユーステキストが既読-ユースログ 1302内に存 在しない場合は、ニュースクライアント 1303を利用して、ネットワーク 1304で接続さ れた-ユースサーバ 1305の持つ全-ユースログ 1306力ら、該当する-ユーステキス トを取得するようにしてもよい。ニューステキストの取得は、既存の-ユースクライアント の動作と同様の手順によって行われる。
[0115] 音声合成部 104及び不完全部分不明瞭ィ匕部 105の動作は、前記実施の形態 1と 同様である。
[0116] 以上の処理によって、前記実施の形態 1と同様の効果を、ネット-ユーステキストの 読み上げに際しても得ることができる。
[0117] (実施の形態 6)
さらに続いて、本発明の実施の形態 6に係る音声合成装置について説明する。
[0118] 本実施の形態 6では、テキスト情報として、ネットワーク上の掲示板への投稿メッセ ージを扱う場合の音声合成装置について説明する。
[0119] 図 19は、本実施の形態 6に係る音声合成装置の機能的な構成を示すブロック図で ある。
[0120] 前記実施の形態 1〜5の場合と異なり、掲示板メッセージテキストは、それぞれのメ ッセージが分割された独立の構成を有していない。そのため、本実施の形態 6に係る 音声合成装置 60では、読み上げ対象となる掲示板メッセージテキスト 1400や、不完 全部分検出部 103が参照するための過去の各掲示板メッセージテキストを、その都 度、掲示板メッセージテキストを格納する掲示板メッセージログ 1401から抽出する必 要がある。掲示板メッセージテキスト抽出部 1402が、この抽出処理を行なう。以下で は、掲示板メッセージテキスト抽出部 1402の抽出処理の動作を、図 20を用いて説明 する。
[0121] 図 20の例に示されるように、掲示板メッセージログ 1401は、 WWWブラウザで閲覧 可能なように HTML(HyperText Markup Language)で記述されており、次のような形 式をしている。
[0122] ·全体がく html >タグで、ヘッダ部分がく head >タグで、本文部分がく body >タ グで囲まれている。
•ヘッダ部分内のく title >タグで囲まれた中に、掲示板のタイトルが書かれて 、る。 •本文部分内にはく ul>タグがあり、各々の投稿がく li>タグによって列挙されて いる。
'各々の投稿は一行目に固定フォーマットで記事の連番、投稿者名、投稿時刻が 記入されており、 < br>タグによって改行された後、残りの部分にはこの投稿の本文 が記述されている。
[0123] このような形式の HTMLドキュメントを、掲示板メッセージテキスト抽出部 1402は次 のように処理する。
[0124] 1)く body >タグで囲まれた中の、さらにく ul>タグで囲まれた中のテキストを切り 出す。
2) 1)で切り出した範囲のテキストを、く li>タグの位置でそれぞれの投稿に分割す る。
[0125] このようにして分割したそれぞれの投稿のテキストを、分割済み掲示板メッセージテ キスト 1500とする。この掲示板の最新メッセージを読み上げるときは、例えば次のよう にすればよい。
[0126] 1)掲示板メッセージテキスト抽出部 1402が、読み上げ対象の掲示板メッセージテ キスト 1400として、分割済み掲示板メッセージテキスト 1500から最新のメッセージを 抽出し、引用構造解析部 101に渡す。
2)引用構造解析部 101は、掲示板メッセージテキスト 1400のく body >タグで囲ま れた部分を、前記実施の形態 1と同様の方法で処理して弓 I用タグを付与する。
3)掲示板メッセージテキスト整形部 1403は、図 21に示すように、 2)で処理された 結果として生成される弓 I用構造解析済みテキスト 1600の 1行目から記事の連番と投 稿者名を読み上げる文章を生成してく header>タグで囲み、 2行目以降をく body >タグで囲んで整形済みテキスト 1601とする。
4)不完全部分検出部 103は、整形済みテキスト 1601に含まれる引用文を分割済 み掲示板メッセージテキスト 1500の中の読み上げ対象の掲示板メッセージテキスト 1 400以前のものから前記実施の形態 1と同様の方法で検索し、欠落した文字列の補 完を行う。
5)音声合成部 104及び不完全部分不明瞭化部 105は、前記実施の形態 1と同様 の処理を行い、合成音の生成と再生を行う。
[0127] 以上の処理によって、前記実施の形態 1と同様の効果を、 HTML形式で書かれた 、 WWW上の掲示板の読み上げに際しても得ることができる。
[0128] 以上、本発明に係る音声合成装置について各実施の形態に基づいて説明した。
このように、本発明に係る音声合成装置は、テキストの入力を元に合成音声データ を生成する音声合成部に加え、文章の不完全部分を検出することができる不完全部 分検出部と、前記音声合成部の生成する音声データにおいて、前記不完全部分検 出部が検出した不完全部分に対応する部分の聴覚的明瞭度を下げる不完全部分不 明瞭ィ匕部を備えることを特徴とする。
[0129] すなわち、まず前記不完全部分検出部が、音声合成の元となる入力テキストのうち 、言語的な不完全部分を解析して、その解析結果を前記音声合成部に送る。このと き、不完全部分検出部は、構文解析結果をも送るようにすれば、前記音声合成部が 再度構文解析を行わずとも合成音の生成を行えるため望ましい。音声合成部は、前 記入力テキストの言語的な解析結果を元にして合成音を生成し、もし不完全部分が 存在する場合は、生成した合成音のどの部分が前記不完全部分に対応するかと ヽぅ 不完全部分ポインタ情報をも出力して前記不完全部不明瞭化部に送る。不完全部 分不明瞭化部は、合成音の中で前記不完全部分ポインタ情報の示す部分の聴覚的 明瞭度を下げる処理を行い、前記入力テキストの読み上げ音声データとして出力す る。
[0130] これによつて、言語的に意味のある部分を通常どおりに読み上げつつ、意味をなさ ない部分の音声の聴覚的明瞭度を下げるので、ユーザの混乱を招くことを防止する ことができる。
[0131] ここで、前記音声合成部は、合成音そのものではなぐ合成音を生成するために必 要十分な音声特徴パラメータを出力するようにしてもょ 、。そのような音声特徴パラメ ータとは、例えばソース'フィルタ型音声生成モデルにおけるモデルパラメータや、 L PCケプストラム係数と音源モデルパラメータのことである。このようにして、合成音デ ータではなく、合成音データを生成する手前の音声特徴パラメータを前記不完全部 分不明瞭ィ匕部による調整を可能にすることで、より柔軟に不完全部分の不明瞭ィ匕処 理を行うことができるようになる。
[0132] また、前記不完全部分検出部による言語解析処理の内容が、前記音声合成部が 合成音を生成するために必要とする言語解析処理の内容を含む場合、前記音声合 成部は、前記入力テキストと前記不完全部分検出部による言語解析結果を入力とす るのではなぐ前記不完全部分検出部が前記入力テキストを解析した結果得られる 言語解析結果のみを入力としてもよい。
[0133] また、前記不完全部分検出部が前記音声合成部に言語解析結果を渡さない場合 でも、前記音声合成部は、前記入力テキストに前記不完全部分の検出結果を埋め込 んで音声合成部に渡すようにすることができる。例えば、入力テキスト内の不完全部 分を全てタグで囲んだ上で音声合成部に渡すことで、音声合成部は入力テキストの 情報と不完全部分の検出結果の両方を不完全部分検出部から得ることができる。こ れによって、音声合成部が別々に与えられる 2種類の入力の同期を取る必要が無く なる。
[0134] また、前記不完全部分不明瞭化部は、不完全部分の音声にノイズを重畳したり、不 完全部分の音声の音量を小さくしたりといった音響効果を加えることによって不完全 部分の音声の明瞭度を下げることができる。これにより、言語的に不完全であるため に正確な読み上げが不可能な不完全部分が読み上げ対象のテキスト内に存在する ことをユーザに明示することができる。
[0135] また、前記不完全部分不明瞭化部は、音声の不明瞭化の度合いを時系列的に変 ィ匕させるようにしてもよい。行頭の不完全部分については、音声の先頭で不明瞭化の 度合いを最大にしておき、不完全部分の終端で不明瞭ィ匕の度合いが最小になるよう に、不明瞭ィ匕の度合いを時系列的に減少させる。行末の不完全部分については、逆 に不明瞭ィ匕の度合いを時系列的に増加させる。これによつて、ユーザに、より自然に 合成音を聞こえさせることができるようになる。
[0136] また、音声の不明瞭ィ匕を行うのは必ずしも不完全部分だけでなくても良ぐある時定 数を設けて、その時定数の間だけ音声を不明瞭ィ匕するようにしてもよいし、不完全部 分を含めて少なくともその時定数の間は音声を不明瞭ィ匕するような処理を行ってもよ い。不明瞭ィ匕の度合いを時系列的に変化させる場合、このような処理を行うことによ つて不完全部分の長さが短い場合でも不明瞭ィ匕の度合いの変化が急激すぎないよ うにすることができ、聴感上の自然性をさらに高めることができる。
[0137] また、読み上げ対象のテキストがメール文である場合には、メール文の引用構造を 解析して引用されたテキストを文単位で切り分ける引用構造解析部を用意しておき、 さらに過去に送受信したメール文を蓄積したメールボックスと、メールボックスにァクセ スして過去のメール文の中力 ある不完全な文を含む元の完全な文を検索すること ができる完全文検索部を用意することで、不完全な文を一旦元の完全な文で置き換 えて正しく言語解析し、本来の正 、韻律で読み上げることができるようになる。
[0138] ここで、前記音声合成部は、前記完全文検索部が発見した元の完全な文を全て音 声合成して出力しても良いし、元の完全な文の音声合成結果から、引用されたテキス トの部分のみを出力するようにしても良い。また、あら力じめ所定の時定数を設けて、 引用された文の不明瞭ィ匕処理を受ける部分が最大でその時定数の長さになるように 、元の完全な文の音声合成結果から切り出して出力するようにしても良 、。
[0139] また、読み上げの対象があるテキストの一部であり、読み上げ対象のテキストを含む 元の完全なテキストを取得することが可能な場合は、元の完全なテキストを取得する 完全文取得部を用意することによって同様の効果を得られる。
[0140] なお、本発明は、これらの実施の形態に限定されるものではなぐその範囲を逸脱 することなく本発明の趣旨に沿って様々の変形または修正が可能であることはいうま でもない。
産業上の利用可能性
[0141] 本発明は、音声合成技術を用いて電子メール等のテキストデータを読み上げるテ キスト読み上げアプリケーション等や、このようなアプリケーションを備えたパーソナル コンピュータ等に適用することができ、特に、読み上げの対象となる文章中に不完全 な文が現れる可能性が高いテキストデータの読み上げ用途に対して有用である。

Claims

請求の範囲
[1] 入力されたテキスト情報に対応する合成音を生成する音声合成装置であって、 前記テキスト情報のうち、文字列の欠落による言語的に不完全な部分である不完全 部分を検出する不完全部分検出手段と、
前記不完全部分検出手段によって検出された不完全部分に対応する合成音の聴 覚的明瞭度を下げる不完全部分不明瞭ィ匕手段とを備える
ことを特徴とする音声合成装置。
[2] 前記不完全部分不明瞭化手段は、
(1)前記合成音の音量を下げる、(2)前記合成音に所定の効果音を被せる、 (3) 前記合成音の声質を変更する、の少なくとも 1つの音響効果を前記合成音に加える ことによって、前記合成音の聴覚的明瞭度を下げる
ことを特徴とする請求項 1記載の音声合成装置。
[3] 前記不完全部分不明瞭化手段は、前記合成音に加える音響効果の度合いを経時 的に変化させる
ことを特徴とする請求項 1記載の音声合成装置。
[4] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段が前記テキスト情報 に含まれる文章の先頭に前記不完全部分を検出した場合に、対応する合成音に加 える音響効果の度合いを、経時的に小さくしていく
ことを特徴とする請求項 3記載の音声合成装置。
[5] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段が前記テキスト情報 に含まれる文章の終端に前記不完全部分を検出した場合に、対応する合成音に加 える音響効果の度合いを、経時的に大きくしていく
ことを特徴とする請求項 3記載の音声合成装置。
[6] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段において検出された 不完全部分に対応する合成音のうち、所定の時間分の合成音について、聴覚的明 瞭度を下げる
ことを特徴とする請求項 1記載の音声合成装置。
[7] 前記不完全部分不明瞭化手段は、前記不完全部分検出手段において検出された 不完全部分に対応する合成音を削除する
ことを特徴とする請求項 1記載の音声合成装置。
[8] 前記不完全部分検出手段は、前記テキスト情報を解析し、言語として意味をなさな Vヽ不完全な言語単位の部分文字列を特定し、当該部分文字列を不完全部分として 検出する
ことを特徴とする請求項 1に記載の音声合成装置。
[9] 前記音声合成装置は、さらに、
前記テキスト情報の部分の指定を受け付ける部分指定受付手段を備え、 前記不完全部分検出手段は、前記指定された部分の先頭及び終端の少なくとも一 方において不完全部分を検出する
ことを特徴とする請求項 1記載の音声合成装置。
[10] 前記不完全部分検出手段は、前記不完全部分の識別子として、前記不完全部分 をタグで囲む
ことを特徴とする請求項 1に記載の音声合成装置。
[11] 前記音声合成装置は、さらに、
前記検出された不完全部分にぉ 、て欠落して 、る文字列を補完する補完手段を 備え
前記音声合成手段は、前記補完手段によって補完された後のテキスト情報に基づ いて合成音を生成する
ことを特徴とする請求項 1記載の音声合成装置。
[12] 前記テキスト情報は、通信内容であり、
前記音声合成装置は、さらに、
過去の通信内容を蓄積するための記憶領域を有するログ蓄積手段を備え、 前記不完全部分検出手段は、前記テキスト情報と、前記ログ蓄積手段に蓄積され ている過去の通信内容とを対比して、前記テキスト情報の不完全部分を検出し、 前記補完手段は、前記不完全部分検出手段の検出結果に基づいて、前記検出さ れた不完全部分にぉ 、て欠落して 、る文字列を、前記ログ蓄積手段に蓄積されて ヽ る過去の通信内容を用 、て補完する ことを特徴とする請求項 11記載の音声合成装置。
[13] 前記不完全部分検出手段は、さらに、前記テキスト情報において欠落している文字 列を含む所定の言語単位の言語構造を解析し、当該欠落している文字列のみ、また は、当該欠落して!/ヽる文字列を含む所定の言語単位を前記不完全部分として検出 する
ことを特徴とする請求項 12記載の音声合成装置。
[14] 前記通信内容は、電子メールテキスト、チャットメッセージテキスト、ネット-ユース投 稿メッセージテキスト、および、掲示板投稿メッセージテキストのいずれかである ことを特徴とする請求項 12記載の音声合成装置。
[15] 入力されたテキスト情報に対応する合成音を生成する音声合成方法であって、 前記テキスト情報の不完全部分に対応して、聴覚的明瞭度を下げた合成音を生成 する音声合成ステップと、
前記聴覚的明瞭度を下げた合成音を出力する出力ステップとを含む
ことを特徴とする音声合成方法。
[16] 入力されたテキスト情報に対応する合成音を生成する音声合成装置のためのプロ グラムであって、
前記テキスト情報の不完全部分に対応して、聴覚的明瞭度を下げた合成音を生成 する音声合成ステップと、
前記聴覚的明瞭度を下げた合成音を出力する出力ステップとをコンピュータに実 行させる
ことを特徴とするプログラム。
PCT/JP2005/009131 2004-07-21 2005-05-19 音声合成装置 WO2006008871A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006524539A JP3895766B2 (ja) 2004-07-21 2005-05-19 音声合成装置
US11/304,652 US7257534B2 (en) 2004-07-21 2005-12-16 Speech synthesis system for naturally reading incomplete sentences

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004212649 2004-07-21
JP2004-212649 2004-07-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/304,652 Continuation US7257534B2 (en) 2004-07-21 2005-12-16 Speech synthesis system for naturally reading incomplete sentences

Publications (1)

Publication Number Publication Date
WO2006008871A1 true WO2006008871A1 (ja) 2006-01-26

Family

ID=35785001

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/009131 WO2006008871A1 (ja) 2004-07-21 2005-05-19 音声合成装置

Country Status (4)

Country Link
US (1) US7257534B2 (ja)
JP (1) JP3895766B2 (ja)
CN (1) CN100547654C (ja)
WO (1) WO2006008871A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240987A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240988A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240989A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240990A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2009230210A (ja) * 2008-03-19 2009-10-08 Katsuyoshi Nagashima テキスト検索処理を実行させるコンピュータソフトウエアプログラムおよびその処理方法
WO2013172179A1 (ja) * 2012-05-18 2013-11-21 日産自動車株式会社 音声情報提示装置及び音声情報提示方法
JP2022510528A (ja) * 2019-11-14 2022-01-27 グーグル エルエルシー 表示されたテキストコンテンツの自動オーディオ再生

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1630791A4 (en) * 2003-06-05 2008-05-28 Kenwood Corp SPEECH SYNTHESIS DEVICE, SPEECH SYNTHESIS METHOD, AND PROGRAM
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP5171527B2 (ja) * 2008-10-06 2013-03-27 キヤノン株式会社 メッセージの受信装置およびデータ抽出方法
JP5471106B2 (ja) * 2009-07-16 2014-04-16 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
FR2979465B1 (fr) 2011-08-31 2013-08-23 Alcatel Lucent Procede et dispositif de ralentissement d'un signal audionumerique
US9251143B2 (en) * 2012-01-13 2016-02-02 International Business Machines Corporation Converting data into natural language form
US10192552B2 (en) * 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
WO2019003349A1 (ja) * 2017-06-28 2019-01-03 ヤマハ株式会社 音発生装置及び方法
CN109509464B (zh) * 2017-09-11 2022-11-04 珠海金山办公软件有限公司 一种把文本朗读录制为音频的方法及装置
CN112270919B (zh) * 2020-09-14 2022-11-22 深圳随锐视听科技有限公司 视频会议自动补音的方法、系统、存储介质及电子设备
CN112259087A (zh) * 2020-10-16 2021-01-22 四川长虹电器股份有限公司 基于时序神经网络模型补全语音数据的方法
US20220215169A1 (en) * 2021-01-05 2022-07-07 Capital One Services, Llc Combining multiple messages from a message queue in order to process for emoji responses

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635913A (ja) * 1992-07-21 1994-02-10 Canon Inc 文章読み上げ装置
JPH10268896A (ja) * 1997-03-28 1998-10-09 Nec Corp デジタル音声無線伝送システム、デジタル音声無線送 信装置およびデジタル音声無線受信再生装置
JPH11161298A (ja) * 1997-11-28 1999-06-18 Toshiba Corp 音声合成方法及び装置
JPH11327870A (ja) * 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
JP2001188777A (ja) * 1999-10-27 2001-07-10 Microsoft Corp 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法
JP2002330233A (ja) * 2001-05-07 2002-11-15 Sony Corp 通信装置および方法、記録媒体、並びにプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179719A (ja) 1995-12-26 1997-07-11 Nec Corp 音声合成装置
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
JP2003085099A (ja) 2001-09-12 2003-03-20 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635913A (ja) * 1992-07-21 1994-02-10 Canon Inc 文章読み上げ装置
JPH10268896A (ja) * 1997-03-28 1998-10-09 Nec Corp デジタル音声無線伝送システム、デジタル音声無線送 信装置およびデジタル音声無線受信再生装置
JPH11161298A (ja) * 1997-11-28 1999-06-18 Toshiba Corp 音声合成方法及び装置
JPH11327870A (ja) * 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
JP2001188777A (ja) * 1999-10-27 2001-07-10 Microsoft Corp 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法
JP2002330233A (ja) * 2001-05-07 2002-11-15 Sony Corp 通信装置および方法、記録媒体、並びにプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240987A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240988A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240989A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240990A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2009230210A (ja) * 2008-03-19 2009-10-08 Katsuyoshi Nagashima テキスト検索処理を実行させるコンピュータソフトウエアプログラムおよびその処理方法
WO2013172179A1 (ja) * 2012-05-18 2013-11-21 日産自動車株式会社 音声情報提示装置及び音声情報提示方法
JP2022510528A (ja) * 2019-11-14 2022-01-27 グーグル エルエルシー 表示されたテキストコンテンツの自動オーディオ再生
JP7395505B2 (ja) 2019-11-14 2023-12-11 グーグル エルエルシー 表示されたテキストコンテンツの自動オーディオ再生
US11887581B2 (en) 2019-11-14 2024-01-30 Google Llc Automatic audio playback of displayed textual content

Also Published As

Publication number Publication date
CN100547654C (zh) 2009-10-07
JPWO2006008871A1 (ja) 2008-07-31
US20060106609A1 (en) 2006-05-18
US7257534B2 (en) 2007-08-14
JP3895766B2 (ja) 2007-03-22
CN1906660A (zh) 2007-01-31

Similar Documents

Publication Publication Date Title
JP3895766B2 (ja) 音声合成装置
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US8249858B2 (en) Multilingual administration of enterprise data with default target languages
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
WO2005093713A1 (ja) 音声合成装置
JP2007271655A (ja) 感情付加装置、感情付加方法及び感情付加プログラム
Burnett et al. Speech Synthesis Markup Language (SSML) Version
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2005215888A (ja) テキスト文の表示装置
JPH10171485A (ja) 音声合成装置
Burnett et al. Speech synthesis markup language version 1.0
JP2002132282A (ja) 電子テキスト読み上げ装置
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP2002525663A (ja) ディジタル音声処理装置及び方法
Henton Challenges and rewards in using parametric or concatenative speech synthesis
JP2006349787A (ja) 音声合成方法および装置
JP3668583B2 (ja) 音声合成装置及びその方法
JPH10274999A (ja) 文書読み上げ装置
JP4056647B2 (ja) 波形接続型音声合成装置および方法
JPH05134691A (ja) 音声合成方法および装置
JP2577372B2 (ja) 音声合成装置および方法
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JP3235747B2 (ja) 音声合成装置及び音声合成方法
JPH0644247A (ja) 音声合成装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2006524539

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11304652

Country of ref document: US

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 11304652

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580001970.2

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase