WO2014203329A1 - 音声応答装置および応答音声生成方法 - Google Patents

音声応答装置および応答音声生成方法 Download PDF

Info

Publication number
WO2014203329A1
WO2014203329A1 PCT/JP2013/066698 JP2013066698W WO2014203329A1 WO 2014203329 A1 WO2014203329 A1 WO 2014203329A1 JP 2013066698 W JP2013066698 W JP 2013066698W WO 2014203329 A1 WO2014203329 A1 WO 2014203329A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
speech
recorded
character string
response
Prior art date
Application number
PCT/JP2013/066698
Other languages
English (en)
French (fr)
Inventor
充 海老原
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2013/066698 priority Critical patent/WO2014203329A1/ja
Publication of WO2014203329A1 publication Critical patent/WO2014203329A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Definitions

  • the present invention relates to a voice response device and a response voice generation method for generating a response voice in which synthesized voice and recorded voice are mixed.
  • the voice response device such as the above-mentioned Patent Document 1 has a problem that the response voice is difficult to hear because the speed and volume of the synthesized voice cannot be adjusted according to conditions such as the time when the recorded voice is recorded. It was.
  • the present invention has been made to solve the above-described problems, and it is an object of the present invention to make it easy to hear a response voice in which synthesized voice and recorded voice are mixed.
  • the voice response device analyzes an input character string and obtains a voice synthesis target character string to be a voice synthesis target and a recorded voice identification character string unique to the recorded voice.
  • An analysis unit a recorded voice storage unit storing the recorded voice of the recorded voice identification character string and the recorded voice classification information indicating the classification to which the recorded voice belongs, in association with the recorded voice identification character string, and a response voice generation
  • the recorded voice storage unit is searched using the recorded voice identification character string acquired by the character string analyzing unit as a search key, and the recorded voice and the recorded voice classification information associated with the recorded voice identification character string matching the search key are obtained.
  • a recorded speech acquisition unit to be acquired a speech synthesis parameter storage unit that stores at least one of an utterance speed and an utterance volume used for speech synthesis in association with the recorded speech classification information, and a recorded sound
  • a voice searches the speech synthesis parameter storage unit using the recorded voice classification information acquired by the acquisition unit as a search key, and acquires at least one of the speech rate and the speech volume associated with the recorded voice classification information that matches the search key
  • a synthesized speech of the speech synthesis target character string acquired by the response speech generation character string analysis unit is generated.
  • the voice synthesis unit includes a voice output control unit that generates a response voice by combining the recorded voice acquired by the recorded voice acquisition unit and the synthesized voice generated by the voice synthesis unit.
  • the voice response device generates a response voice corresponding to the input character string, and communicates with the output device to output the response voice, and analyzes the input character string.
  • the response voice generation character string analysis unit for obtaining the voice synthesis target character string to be synthesized and the recorded voice identification character string specific to the recorded voice, and the recording voice identification character string
  • a recorded voice identification character string acquired by a recorded voice storage unit storing a recorded voice of a voice identification character string and recorded voice classification information representing a classification to which the recorded voice belongs, and a response voice generation character string analyzing unit.
  • a recording voice acquisition unit that searches the recording voice storage unit as a search key and acquires a recording voice and recording voice classification information associated with the recording voice identification character string that matches the search key, and an utterance speed used for voice synthesis
  • the speech synthesis parameter storage unit stores at least one of the utterance volume in association with the recorded speech classification information, and searches the speech synthesis parameter storage unit using the recorded speech classification information acquired by the recorded speech acquisition unit as a search key.
  • a speech synthesis parameter acquisition unit that acquires at least one of the speech speed and speech volume associated with the recorded speech classification information that matches the search key, and the speech speed and speech volume acquired by the speech synthesis parameter acquisition unit.
  • a response voice is generated by combining the synthesized voices, and the response voice is output from the output device by communication. It is intended and a voice output control unit.
  • the response speech generation method of the present invention is to generate a response speech corresponding to an input character string and output the response speech from an output device.
  • the response speech generation character string analysis unit converts the input character string Analyzing a character string to be synthesized for speech synthesis and a character string analysis step for generating a response voice to obtain a recorded voice identification character string specific to the recorded voice;
  • the recorded voice acquisition unit performs the response voice generation character string analysis step with respect to the recorded voice storage unit storing the recorded voice of the recorded voice identification character string and the recorded voice classification information indicating the classification to which the recorded voice belongs.
  • a search using the acquired recorded voice identification character string as a search key is performed, and a recorded voice acquisition step for acquiring the recorded voice and the recorded voice classification information associated with the recorded voice identification character string that matches the search key.
  • a speech synthesis parameter storage unit that stores at least one of the speech speed and speech volume used for speech synthesis in association with the recorded speech classification information.
  • a speech synthesis parameter acquisition step for performing a search using the acquired recorded voice classification information as a search key, and acquiring at least one of an utterance speed and an utterance volume associated with the recorded voice classification information matching the search key;
  • a voice synthesizing unit that generates a synthesized voice of the voice synthesis target character string acquired in the response voice generation character string analysis step based on at least one of the speech speed and the voice volume acquired in the voice synthesis parameter acquisition step.
  • At least one of the speaking speed and the speaking volume is stored for each classification to which the recorded voice belongs, and based on at least one of the speaking speed and the speaking volume corresponding to the recorded voice classification when generating the response voice.
  • FIG. 4 is a diagram illustrating an example of a recorded voice storage unit of the voice response device according to Embodiment 1.
  • FIG. 3 is a diagram illustrating an example of a speech synthesis parameter storage unit of the speech response apparatus according to Embodiment 1.
  • FIG. 3 is a flowchart showing processing of the voice response device according to the first embodiment.
  • 4 is a block diagram illustrating a configuration example for generating a speech synthesis parameter of the speech response apparatus according to Embodiment 1.
  • FIGS. 7A and 7B are diagrams illustrating an example of the voice synthesis unit feature storage unit of FIG.
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 7A is a table of speech speeds
  • FIG. 10 is a block diagram which shows the structural example which produces
  • 10 is a flowchart illustrating processing for determining a speech synthesis parameter (speech rate) of the speech response apparatus according to the third embodiment.
  • 10 is a flowchart showing processing for determining a speech synthesis parameter
  • 10 is a flowchart illustrating processing for registering a user utterance of a voice response device according to Embodiment 4 in a recorded voice storage unit.
  • 15 is a flowchart for describing processing for registering a speech synthesis parameter (speech rate) of a speech response apparatus according to Embodiment 4 in a speech synthesis parameter storage unit.
  • 14 is a flowchart for describing processing for registering a speech synthesis parameter (speech volume) of a speech response apparatus according to Embodiment 4 in a speech synthesis parameter storage unit.
  • FIG. 1 is a block diagram showing an example of a voice response device according to Embodiment 1 of the present invention.
  • This voice response device includes a response voice generation character string analysis unit 1, a recorded voice storage unit 2, a recorded voice acquisition unit 3, a voice synthesis parameter storage unit 4, a voice synthesis parameter acquisition unit 5, a voice synthesis unit 6, and a voice output control.
  • a character string (hereinafter referred to as response speech generation character string) input to the response speech generation character string analysis unit 1 is a character string (hereinafter referred to as speech synthesis target) that is a target of synthesized speech generation by the speech synthesis unit 6 described later.
  • Character string and a unique recorded voice identification character string (hereinafter, recorded voice ID) assigned to each recorded voice to identify the recorded voice.
  • the speech synthesis target character string is designated by “ ⁇ ” “>”
  • the recording voice ID is designated by “ ⁇ ” “ ⁇ ” “ ⁇ ”
  • the response voice generation character string is input.
  • the response voice generation character string analysis unit 1 analyzes the structure of the character string and acquires the voice synthesis target character string and the recorded voice ID.
  • the recorded voice storage unit 2 stores the recorded voice and classification information to which the recorded voice belongs (hereinafter, recorded voice classification information) in association with the recorded voice ID.
  • FIG. 2 shows an example of the recorded voice storage unit 2.
  • the recorded voice is digital data obtained by converting, for example, ADPCM (Adaptive Differential Pulse Code Modulation), analog data obtained by, for example, having a narrator or the like utter a predetermined word, collecting the uttered voice with a microphone.
  • ADPCM Adaptive Differential Pulse Code Modulation
  • analog data obtained by, for example, having a narrator or the like utter a predetermined word, collecting the uttered voice with a microphone.
  • the recorded voice classification information of the recorded voice ID “200” is “2”
  • the recorded voice “G” is voice data that records the utterance character string “I will make it neatly”.
  • the recorded voice is classified according to the recording period, and the same recorded voice classification information is assigned to those recorded at the same time. In addition, you may classify
  • the recorded voice acquisition unit 3 searches the recorded voice storage unit 2 using the recorded voice ID acquired by the response voice generation character string analysis unit 1 as a search key. Recorded voice and the recorded voice classification information associated with the recorded voice ID matching the above are acquired.
  • the speech synthesis parameter storage unit 4 stores an utterance speed and an utterance volume set for the speech synthesis unit 6 described later in association with the recorded speech classification information.
  • the speech synthesis parameter storage unit 4 is generated offline by the speech synthesis parameter calculation unit 10 described later.
  • the speech synthesis parameter is the speech speed and speech volume set for the speech synthesizer 6, but either one may be used.
  • FIG. 3 shows an example of the speech synthesis parameter storage unit 4.
  • the utterance speed and the utterance volume for the recorded voice classification information are calculated by the voice synthesis parameter calculation unit 10 described later.
  • both the speech rate and the speech volume are stored in the speech synthesis parameter storage unit 4 as speech synthesis parameters of the speech synthesis unit 6, but either one may be stored.
  • the speech synthesis parameter acquisition unit 5 searches the speech synthesis parameter storage unit 4 using the recorded speech classification information acquired by the recorded speech acquisition unit 3 as a search key, and uses it as a search key. An utterance speed and an utterance volume associated with the matching recorded voice classification information are acquired.
  • the speech synthesizer 6 receives an instruction from the control unit 8 to be described later, and based on the speech synthesis target character string acquired by the response speech generation character string analysis unit 1, the speech set by the control unit 8 to be described later Synthetic speech is generated so as to achieve speed and speech volume.
  • the speech synthesis is performed using, for example, the method disclosed in Chapter 4 of “Speech Information Processing” (written by Sadahiro Furui, Morikita Publishing, 1998).
  • the voice output control unit 7 analyzes the recorded voice acquired by the recorded voice acquisition unit 3 and the synthesized voice generated by the voice synthesis unit 6 as a response voice generation character string analysis. An instruction is output to the speaker 9 so as to correspond to the structure analyzed by the unit 1.
  • the control unit 8 controls the entire voice response device. Specifically, the following processing is performed.
  • the control unit 8 outputs an instruction to the recorded voice acquisition unit 3 to acquire the recorded voice and the recorded voice classification information associated with the recorded voice ID. Further, the control unit 8 outputs an instruction to the speech synthesis parameter acquisition unit 5 to acquire the speech speed and speech volume associated with the recorded speech classification information acquired by the recorded speech acquisition unit 3. Furthermore, the control unit 8 sets the speech rate and speech volume acquired by the speech synthesis parameter acquisition unit 5 to the speech synthesis unit 6 and generates synthesized speech from the speech synthesis target character string for the speech synthesis unit 6. The instruction is output. The control unit 8 also outputs the recorded voice acquired by the recorded voice acquisition unit 3 and the synthesized voice generated by the voice synthesis unit 6 to the voice output control unit 7.
  • control unit 8 analyzes the recorded voice acquired by the recorded voice acquisition unit 3 and the synthesized voice generated by the voice synthesis unit 6 by the response voice generation character string analysis unit 1 with respect to the voice output control unit 7.
  • An instruction is output so as to be output in correspondence with the structure of the response voice generation character string.
  • the response voice generation character string analysis unit 1 analyzes the configuration of the character string, Recording voice ID is acquired (step ST1).
  • the control unit 8 instructs the recording voice acquisition unit 3 to perform a search using the recording voice ID acquired by the response voice generation character string analysis unit 1 as a search key.
  • the voice acquisition unit 3 searches the recorded voice storage unit 2 using the recorded voice ID as a search key, and acquires the recorded voice and the recorded voice classification information associated with the recorded voice ID that matches the search key (step ST2).
  • control unit 8 instructs the speech synthesis parameter acquisition unit 5 to perform a search using the recorded speech classification information acquired by the recorded speech acquisition unit 3 as a search key, and receives the received speech synthesis parameter.
  • the acquisition unit 5 searches the speech synthesis parameter storage unit 4 using the recorded speech classification information as a search key, and acquires the speech rate and speech volume associated with the recorded speech classification information that matches the search key (step ST3).
  • control unit 8 sets the speech speed and speech volume acquired by the speech synthesis parameter acquisition unit 5 in the speech synthesis unit 6 (step ST4).
  • control unit 8 instructs the speech synthesis unit 6 to generate a synthesized speech of the speech synthesis target character string acquired by the response speech generation character string analysis unit 1, and the speech synthesis unit 6 that receives the instruction Then, synthesized speech of the speech synthesis target character string is generated so as to obtain the speech speed and speech volume acquired by the speech synthesis parameter acquisition unit 5 and set by the control unit 8 (step ST5).
  • control unit 8 uses the response speech generation character string analyzed by the response speech generation character string analysis unit 1 to analyze the recorded speech acquired by the recorded speech acquisition unit 3 and the synthesized speech generated by the speech synthesis unit 6.
  • the voice output control unit 7 is instructed to generate a response voice in association with the structure of the voice synthesis target character string and the recorded voice ID in the sequence, and the voice output control unit 7 that has received the instruction A response voice is generated from the synthesized voice and output from the speaker 9 (step ST6).
  • response sound generation character string “ ⁇ XX Kuu> ⁇ 200 ⁇ ” is input to the response sound generation character string analysis unit 1, the response sound generation character string is generated.
  • the character string analysis unit 1 analyzes the structure of the character string, and acquires a voice synthesis target character string “XX Kuu” and a recorded voice ID “200” (step ST1).
  • the recorded voice acquisition unit 3 searches the recorded voice storage unit 2 using the recorded voice ID “200” as a search key, and acquires the recorded voice classification information “2” and the recorded voice “G” (step ST2).
  • the speech synthesis parameter acquisition unit 5 searches the speech synthesis parameter storage unit 4 using the recorded speech classification information “2” acquired by the recorded speech acquisition unit 3 as a search key, and determines the speech rate “2” and the speech volume. “4” is acquired (step ST3).
  • the control unit 8 sets the utterance speed “2” and the utterance volume “4” to the speech synthesis unit 6 (step ST4).
  • the speech synthesizer 6 After that, the speech synthesizer 6 generates a synthesized speech of the speech synthesis target character string “XXukuu” so as to have the set speech speed and speech volume (step ST5). Finally, the voice output control unit 7 synthesizes the voice corresponding to the voice synthesis target character string “XX Kuu” specified in the response voice generation character string and the recording corresponding to the voice recording ID “200”. The voice “G” (the utterance character string “has been neatly made”) is output to the speaker 9 so as to be output in association with the structure of the response voice generation character string (step ST6). As a result, the response voice “Set the airport as the destination” is output from the speaker 9.
  • step ST3 the speech synthesis parameter acquisition unit 5 acquires either the utterance speed or the utterance volume from the speech synthesis parameter storage unit 4, and in step ST4, the control unit 8 determines whether the acquired utterance speed or utterance.
  • One of the volumes may be set in the voice synthesizer 6, and the voice synthesizer 6 may generate the synthesized voice so that either the set utterance speed or the utterance volume is set in step ST5.
  • the configuration of the block diagram shown in FIG. 5 may be provided in the voice response device, or provided separately from the voice response device, and the generated voice synthesis parameter is stored in the voice synthesis parameter storage unit 4 of the voice response device. You may register.
  • FIG. 6 shows an example of the original recorded voice storage unit 2a.
  • the original recording voice storage unit 2a is obtained by further adding an utterance character string to the recording voice ID, the recording voice classification information, and the recording voice stored in the recording voice storage unit 2. , Stored in association with the recorded voice ID.
  • the utterance character string is a character string representing the content uttered by a narrator or the like.
  • the speech synthesis parameter calculation unit 10 calculates the corresponding speech speed and speech volume for each classification of the recorded speech classification information based on the information stored in the original recorded speech storage unit 2a. For example, as shown in FIG. 7A, the speech synthesizer feature storage unit 11 stores an utterance speed that can be set for the speech synthesizer 6 and a duration length per 1 mora described later in association with each other. Yes. Further, as shown in FIG. 7B, the speech volume and gain that can be set for the speech synthesizer 6 are stored in association with each other.
  • the speech synthesis parameter calculation unit 10 refers to the original recording voice storage unit 2a, uses a recorded voice belonging to the same classification and an utterance character string corresponding to the recorded voice, and per one mora in the classification.
  • An average duration length T is calculated.
  • “mora” refers to “beat” and corresponds to a Japanese kana character unit.
  • “utterance” is represented by three mora of “ha”, “tsu” and “wa”.
  • the number of recorded voices belonging to the same classification is N
  • the time length of each recorded voice is t 1 , t 2 ,..., T N
  • the number of mora of the utterance character string corresponding to each recorded voice L 1 , L 2 ,..., L N
  • the speech synthesis parameter calculation unit 10 calculates the following expression (1).
  • the speech synthesis parameter calculation unit 10 refers to the speech synthesis unit feature storage unit 11 (table of FIG. 7A), and the speech corresponding to the average duration length T calculated by the above equation (1). Determine the speed.
  • the determined speech rate is stored in the speech synthesis parameter storage unit 4 as the speech rate for the recorded speech classification information.
  • the speech synthesis parameter calculation unit 10 calculates the average duration per mora for other classifications, determines the corresponding speech rate, and corresponds to the recorded speech classification information in the speech synthesis parameter storage unit 4. Store with attachments.
  • the time length of each recorded voice and the number of mora of the utterance character string may be calculated by a well-known method, and thus description thereof is omitted.
  • the time length of each recorded voice and the number of mora of the uttered character string may be calculated in advance or may be calculated by the voice synthesis parameter calculation unit 10.
  • the speech synthesis unit of the speech synthesizer 6 is a mora, the speech rate is determined from the average duration length per mora, but the speech synthesis unit may be arbitrary, and any speech synthesis unit per unit The speech rate may be determined from the average duration time.
  • the speech rate for the recorded voice classification information “1” in FIG. 6 is determined.
  • the time length of the recorded voice “A” is 1400 ms
  • the voice synthesis parameter calculation unit 10 acquires recorded voices belonging to the same category from the original recorded voice storage unit 2a, and calculates an average gain for each recorded voice. Then, the average gain corresponding to the classification is obtained by dividing the sum of the average gains for each recording voice by the number of recording voices.
  • the speech synthesis parameter calculation unit 10 refers to the speech synthesis unit feature storage unit 11 (table of FIG. 7B) to determine the speech volume corresponding to the calculated average gain.
  • the voice synthesis parameter calculation unit 10 performs the above-described processing for each recorded voice classification, and stores the determined speech volume in the voice synthesis parameter storage unit 4 in association with the recorded voice classification information. Note that the method for calculating the average gain of the recorded voice is a well-known technique, and thus the description thereof is omitted.
  • the voice response device analyzes the response voice generation character string, and the voice synthesis target character string to be voice synthesis target and the recorded voice identification character string unique to the recorded voice ( Recording voice classification information representing the recorded voice of the recorded voice identification character string and the classification to which the recorded voice belongs, in association with the recorded voice identification character string.
  • Recording voice classification information representing the recorded voice of the recorded voice identification character string and the classification to which the recorded voice belongs, in association with the recorded voice identification character string.
  • the recorded voice identification character string acquired by the response voice generation character string analyzing unit 1 is used as a search key to search the recorded voice storage unit 2, and a recording that matches the search key is recorded.
  • the recorded voice acquisition unit 3 that acquires the recorded voice and the recorded voice classification information associated with the voice identification character string, and at least one of the utterance speed and the utterance volume used for voice synthesis is associated with the recorded voice classification information.
  • the speech synthesis parameter storage unit 4 and the recorded speech classification information acquired by the recorded speech acquisition unit 3 are searched using the remembered speech synthesis parameter storage unit 4 and the recorded speech classification information acquired by the recorded speech acquisition unit 3, and the recorded speech classification information matching the search key is obtained.
  • a speech synthesis parameter acquisition unit 5 that acquires at least one of the associated speech speed and speech volume, and a response speech generation character based on at least one of the speech speed and speech volume acquired by the speech synthesis parameter acquisition unit 5
  • a speech synthesizer 6 that generates synthesized speech of a speech synthesis target character string acquired by the sequence analysis unit 1, and a combination of the recorded speech acquired by the recorded speech acquisition unit 3 and the synthesized speech generated by the speech synthesizer 6.
  • a voice output control unit 7 that generates response voice and a speaker 9 that outputs the response voice generated by the voice output control unit 7 are provided. It was. As described above, the recorded voice is classified into the recording time, the speed and volume set at the time of voice synthesis are determined for each classification, and the synthesized voice is generated at the speed and volume corresponding to the classification of the recorded voice when generating the response voice. Since it is generated, the speed and volume of the synthesized voice are approximately the same as the speed and volume of the recorded voice, and the response voice is easy to hear.
  • the average duration length per speech synthesis unit of the recorded speech belonging to the same category is calculated using the time length of the recorded speech and the utterance character string corresponding to the recorded speech. , It was configured to determine the speaking rate. For this reason, the synthesized voice can be generated at an average speed of the recorded voice recorded at the same time, and the response voice can be easily heard.
  • the average gain of the recorded voices belonging to the same category is calculated, and the speech volume is determined. For this reason, the synthesized voice can be generated with an average volume of the recorded voice recorded at the same time, and the response voice can be easily heard.
  • the configuration example in which the voice response device is integrally provided with the speaker 9 has been described.
  • the portion of the voice response device surrounded by the broken line in FIG. 1 is configured as a server device, and the speaker (output device) ) 9 may be installed on the user side to communicate with the server device, and a response voice may be transmitted from the server device to the output device.
  • a portable information terminal such as a smartphone, a tablet PC (personal computer), or a mobile phone is used as a voice response device
  • an application program that is installed to cause the portable information terminal to function as the voice response device. Good.
  • FIG. FIG. 8 is a block diagram showing an example of a configuration related to generation of a speech synthesis parameter stored in the speech synthesis parameter storage unit 4 of the speech response apparatus according to Embodiment 2 of the present invention.
  • the voice recognition unit 12 is newly provided. Since the original recording voice storage unit 2a and the voice synthesis unit feature storage unit 11 are the same as those in the first embodiment, description thereof is omitted.
  • the speech rate for the recorded voice classification information is determined by the method of the first embodiment, for example, if the recorded voice includes a pause, the average duration time per 1 mora will be longer, so it is appropriate. Speaking speed may not be achieved.
  • the recorded voice “A” and the recorded voice “B” in FIG. 6 there is a pause of 360 ms between “Ni” and “Denshi Suru”, and “O” and “Turukuri”.
  • the time length of the recorded voice “A” is 1760 ms
  • the time length of the recorded voice “B” is 1830 ms. Since the number of mora is “7”, when the average duration length per mora is calculated from the above equation (1), it becomes 256 ms (rounded down to the decimal point) and the speech rate becomes “4”.
  • the recorded speech stored in the original recorded speech storage unit 2a is recognized by the speech recognition unit 12 by a speech recognition method using, for example, an HMM (Hidden Markov Model), and the speech synthesis parameter calculation unit 10 Uses the duration for each phoneme calculated during the recognition process to calculate the average duration per mora in the same recorded speech classification.
  • HMM Hidden Markov Model
  • the voice recognition processing by the voice recognition unit 12 for example, see Chapter 5 of “Speech Information Processing” by Sadahiro Furui described above
  • the calculation of the duration length for each phoneme are well-known techniques. Is omitted.
  • N is the number of recorded voices belonging to the same classification with the same recorded voice classification information
  • M is the number of phonemes output as a result of recognizing one recorded voice
  • the duration for each phoneme is L 1 , l 2 ,..., L M
  • the number of mora of the utterance character string corresponding to the recorded speech is L
  • the speech synthesis parameter calculation unit 10 first calculates each recorded speech by the following formula (2). The average duration time t per mora is calculated.
  • the speech synthesis parameter calculation unit 10 refers to the speech synthesis unit feature storage unit 11 (table of FIG. 7A), and utterances corresponding to the average duration T calculated by the above equation (3). Determine the speed.
  • the speech synthesis parameter calculation unit 10 stores the speech rate thus determined in the speech synthesis parameter storage unit 4 as the speech rate for the recorded speech classification information.
  • the speech synthesis parameter calculation unit 10 calculates the average duration T of speech per mora for other classifications, determines the corresponding speech rate, and stores the speech classification parameters in the speech synthesis parameter storage unit 4. Store in association with.
  • the speech rate is determined from the duration time for each phoneme and the average duration time per mora.
  • the speech recognition unit and the speech synthesis unit may be arbitrary, and the speech rate may be determined from the duration time of any speech recognition unit and the average duration time per any speech synthesis unit.
  • the method for determining the utterance volume is the same as that in the first embodiment, and a description thereof will be omitted.
  • the recorded voices belonging to the same category are recorded.
  • the average duration time per speech synthesis unit is calculated, and the speech rate is determined. For this reason, it is possible to calculate the average duration of speech per speech synthesis unit (1 mora) by excluding the pause time included in the recorded speech, and to determine a more appropriate speech rate, making it easy to hear the response speech Become.
  • FIG. 9 is a block diagram showing an example of a configuration relating to generation of a speech synthesis parameter recorded by the speech synthesis parameter storage unit 4 of the speech response apparatus according to Embodiment 3 of the present invention.
  • the speech synthesis parameter calculation unit 10 receives as input a time length of a reference speech to be described later, an average gain of the reference speech, and a character string corresponding to the reference speech, corresponding to each recorded speech classification information. 6 is used to calculate a speech synthesis parameter.
  • the reference voice is digital data of the recorded voice prepared for each recorded voice classification information. For example, every time the narrator records the recorded voice, a predetermined voice in addition to the character string corresponding to the recorded voice is used. A character string (character string corresponding to the reference voice) is uttered, and the voice is recorded to be a reference voice belonging to the same category as the recorded voice. Then, the utterance speed of the reference voice is regarded as the utterance speed of the classification to which the reference voice belongs.
  • the speech synthesis parameter calculation unit 10 first designates a default speech rate to the speech synthesis unit 6 and outputs an instruction to generate a synthesized speech from the input character string (a character string corresponding to the reference speech). (Step ST11). Subsequently, the voice synthesizer 6 generates a synthesized voice at the specified speech rate in response to the instruction (step ST12). Then, the speech synthesis parameter calculation unit 10 acquires the generated synthesized speech and calculates the time length (step ST13).
  • the speech synthesis parameter calculation unit 10 determines whether or not the difference between the calculated time length and the time length of the reference speech is equal to or smaller than (or less than) a predetermined value (step ST14). If the difference is less than or equal to (or less than) the predetermined value (step ST14 “YES”), the default speech rate is stored in association with the recorded speech classification information “1” in the speech synthesis parameter storage unit 4 ( Step ST15), the process is terminated. On the other hand, if the difference is not less than or equal to (or less than) the predetermined value (step ST14 “NO”), the speech rate designated for the speech synthesizer 6 is changed, and the character string corresponding to the reference speech is again obtained. Is output to generate the synthesized speech (step ST16), and the process returns to step ST12.
  • the speech rate of the speech synthesis parameter storage unit 4 can be generated by performing the processing described above for each recorded speech classification information. Even if the character string corresponding to the recorded voice is different for each classification, a more accurate speech rate can be calculated by making the character string corresponding to the reference voice the same regardless of the classification.
  • the default speech rate is first designated (step ST11), but for example, the earliest (or slowest) speech rate may be designated in order.
  • the time length of the reference speech is input to the speech synthesis parameter calculation unit 10, but the reference speech is input, and the speech synthesis parameter calculation unit 10 calculates the time length using a well-known technique. May be used.
  • the speech synthesis parameter calculation unit 10 first designates a default speech volume to the speech synthesis unit 6 and outputs an instruction to generate a synthesized speech from the input character string (character string corresponding to the reference speech). (Step ST21). Subsequently, the voice synthesizer 6 generates a synthesized voice with the designated utterance volume in response to the instruction (step ST22). Then, the speech synthesis parameter calculation unit 10 acquires the generated synthesized speech and calculates the average gain of the synthesized speech (step ST23).
  • the speech synthesis parameter calculation unit 10 determines whether or not the difference between the calculated average gain and the average gain of the reference speech is equal to or less than (or less than) a predetermined value (step ST24).
  • the predetermined value step ST24 “YES”
  • the default speech volume is stored in association with the recorded speech classification information “1” in the speech synthesis parameter storage unit 4 ( Step ST25), the process ends.
  • the utterance volume designated for the speech synthesizer 6 is changed, and the character string corresponding to the reference speech is again obtained. Is output (step ST26), and the process returns to step ST22.
  • the speech volume of the speech synthesis parameter storage unit 4 can be generated by performing the above-described processing for each recorded speech classification information. Even if the character string corresponding to the recorded voice is different for each classification, it is possible to calculate a more accurate utterance volume by making the character string corresponding to the reference voice the same regardless of the classification.
  • the default utterance volume is first designated (step ST21), for example, it may be designated in order from the highest (or lowest) utterance volume.
  • the average gain of the reference speech is input to the speech synthesis parameter calculation unit 10, but the reference speech is input, and the speech synthesis parameter calculation unit 10 calculates the average gain using a well-known technique. May be used.
  • the speech rate is generated by the speech synthesizer 6 using the time length of the reference speech classified according to the same rule as the recorded speech and the character string corresponding to the reference speech as inputs.
  • the configuration is such that the difference from the time length of the synthesized speech is determined to be equal to or less than a predetermined value (or less than a predetermined value). For this reason, the speech rate closest to the reference voice recorded at the same time as the recorded voice can be determined, and the response voice can be easily heard.
  • the speech volume is synthesized by the pre-speech synthesizer 6 by using the gain of the reference voice classified according to the same rule as the recorded voice and the character string corresponding to the reference voice as input.
  • the configuration is such that the difference from the audio gain is determined to be equal to or less than a predetermined value (or less than a predetermined value). For this reason, the speech volume closest to the reference voice recorded at the same time as the recorded voice can be determined, and the response voice can be easily heard.
  • FIG. FIG. 12 is a block diagram showing an example of a voice response device according to Embodiment 4 of the present invention.
  • This voice response device is incorporated in a navigation device or the like, records a voice uttered by a user of the navigation device, adds it as a recorded voice to the recorded voice storage unit 2, and based on a result of recognizing the spoken voice. Then, the speech synthesis parameters are calculated and added to the speech synthesis parameter storage unit 4. Then, when generating a response voice in which the recorded voice and the synthesized voice are mixed according to the analysis result of the response voice generation character string, the synthesized voice is generated and output using the voice synthesis parameter. is there.
  • the voice acquisition unit 13 takes in the user utterance acquired by the microphone, that is, the input voice, and performs A / D (Analog / Digital) conversion, for example, by PCM (Pulse Code Modulation).
  • a / D Analog / Digital
  • PCM Pulse Code Modulation
  • the voice information registration unit 14 assigns the recorded voice ID and the recorded voice classification information to the voice data acquired by the voice acquisition unit 13, and associates the recorded voice data and the recorded voice classification information with the recorded voice ID. Register to 2.
  • the recording voice classification information may be arbitrarily assigned. For example, the same recording voice classification information is assigned to the voice data acquired on the same day, or different recording voice classification information is assigned to each voice data.
  • FIG. 13 is a flowchart when registering the voice uttered by the user in the recorded voice storage unit 2.
  • the voice acquisition unit 13 captures a user utterance collected by a microphone, that is, an input voice, performs A / D conversion using, for example, PCM, and the voice information registration unit 14 is acquired by the voice acquisition unit 13.
  • a recorded voice ID and recorded voice classification information are assigned to the voice data (step ST31).
  • the voice information registering unit 14 registers the voice data and the recorded voice ID in the recorded voice storage unit 2 in association with the recorded voice classification information (step ST32).
  • FIG. 14 is a flowchart when the speech speed is determined using the speech data of the user utterance acquired by the speech acquisition unit 13 and registered in the speech synthesis parameter storage unit 4.
  • the speech recognition unit 12 recognizes the speech data acquired by the speech acquisition unit 13, and outputs the duration length for each phoneme and the recognition result character string as a recognition result (step ST41).
  • the speech synthesis parameter calculation unit 10 calculates the average duration for one mora using the duration for each phoneme output by the speech recognition unit 12 and the recognition result character string (step ST42).
  • the speech synthesis parameter calculation unit 10 refers to the speech synthesis unit feature storage unit 11 to determine an utterance speed corresponding to the average duration (step ST43), and the recorded voice assigned by the speech information registration unit 14 The determined speech rate is registered in the speech synthesis parameter storage unit 4 in association with the same recorded speech classification information as the classification information (step ST44).
  • the calculation method of the average duration per mora by the speech synthesis parameter calculation unit 10 is the same as the expression (2) in the second embodiment, and thus the description thereof is omitted. It is assumed that the number of mora of the recognition result character string is calculated by the speech synthesis parameter calculation unit 10 using a known method.
  • FIG. 15 is a flowchart when the speech volume is determined using the speech data of the user utterance acquired by the speech acquisition unit 13 and registered in the speech synthesis parameter storage unit 4.
  • the speech synthesis parameter calculation unit 10 calculates the average gain of the speech data acquired by the speech acquisition unit 13 (step ST51).
  • the speech synthesis parameter calculation unit 10 refers to the speech synthesis unit feature storage unit 11 and determines a speech volume corresponding to the calculated average gain (step ST52).
  • the speech synthesis parameter calculation unit 10 registers the utterance volume in the speech synthesis parameter storage unit 4 in association with the recorded speech classification information identical to the recorded speech classification information assigned by the speech information registration unit 14 (step ST53).
  • the speech synthesis parameter calculation unit 10 may determine only one of the speech speed and the speech volume as a speech synthesis parameter and register it in the speech synthesis parameter storage unit 4. Furthermore, as a method for determining the speech speed and speech volume, any of the methods in the first and second embodiments may be used.
  • the voice synthesis parameter calculation unit 10 uses the voice data of the user utterance to say the utterance speed and the utterance volume.
  • the speech synthesizer 6 is configured to generate a synthesized speech based on at least one of the speech speed and speech volume determined by the speech synthesis parameter calculator 10. Therefore, when a voice synthesis parameter is determined for the recorded voice additionally recorded by the user and a response voice in which the recorded voice and the synthesized voice are mixed is generated, the voice synthesis parameter corresponding to the recorded voice is used. Since the synthesized speech is used, the response speech is easy to hear.
  • the configuration example in which the voice response device integrally includes the speaker 9 and the voice acquisition unit 13 has been described.
  • the portion of the voice response device that is surrounded by the broken line in FIG. 12 is configured as a server device.
  • An input / output device having a voice acquisition unit 13 and a speaker 9 is installed on the user side, communicates with the server device, transmits user voice from the input / output device to the server device, and inputs / outputs from the server device.
  • the portable information terminal when used as a voice response device, it may be an application program that is installed to cause the portable information terminal to function as the voice response device.
  • any combination of the embodiments, or any modification of any component in each embodiment, or omission of any component in each embodiment is possible.
  • the voice response apparatus corresponding to Japanese was taken as an example in the above description, it is also possible to support a language other than Japanese.
  • the voice response device generates a synthesized voice based on at least one of an utterance speed and an utterance volume corresponding to a classification of a recorded voice, and generates a response voice combined with the recorded voice. Therefore, it is suitable for use in a navigation device that outputs a response voice in which synthesized voice and recorded voice are mixed.
  • 1 Character string analysis unit for generating response speech 2 recording speech storage unit, 2a original recording speech storage unit, 3 recording speech acquisition unit, 4 speech synthesis parameter storage unit, 5 speech synthesis parameter acquisition unit, 6 speech synthesis unit, 7 speech Output control unit, 8 control unit, 9 speaker, 10 speech synthesis parameter calculation unit, 11 speech synthesis unit feature storage unit, 12 speech recognition unit, 13 speech acquisition unit, 14 speech information registration unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 録音音声をその録音時期で分類し、当該分類毎に発話速度と発話音量を設定して音声合成パラメータ記憶部4に登録しておく。録音音声と合成音声が混在した応答音声を生成する際、音声合成部6は当該録音音声の分類に対応した発話速度と発話音量に基づいて合成音声を生成する。

Description

音声応答装置および応答音声生成方法
 この発明は、合成音声と録音音声が混在した応答音声を生成する音声応答装置および応答音声生成方法に関する。
 従来、規則音声合成により生成された合成音声とあらかじめ録音された録音音声とを組み合わせて入力文字列に対応する応答音声を生成し出力する音声応答装置があった(例えば、特許文献1参照)。
特開平5-27789号公報
 上記特許文献1のような音声応答装置では、出力される合成音声の速度および音量が録音音声の速度および音量と異なっていると、応答音声全体として聞き取りにくくなるため、両者の速度と音量を同程度にする必要がある。また、録音音声は収録された条件、例えば時期などによって速度と音量が異なるため、条件毎に合成音声の速度と音量を調整する必要がある。
 しかしながら、上記特許文献1のような音声応答装置では、録音音声が収録された時期などの条件に応じて合成音声の速度および音量を調整することができないため、応答音声が聞き取りにくいという課題があった。
 この発明は、上記のような課題を解決するためになされたもので、合成音声と録音音声が混在した応答音声を聞き取りやすくすることを目的とする。
 この発明の音声応答装置は、入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、音声合成に使用する発話速度および発話音量の少なくとも一方を、録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、録音音声取得部により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、録音音声取得部により取得された録音音声と音声合成部により生成された合成音声を組み合わせて応答音声を生成する音声出力制御部とを備えるものである。
 この発明の音声応答装置は、入力された文字列に対応する応答音声を生成し、出力装置との間で通信を行って当該応答音声を出力させるものであって、入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、音声合成に使用する発話速度および発話音量の少なくとも一方を、録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、録音音声取得部により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、録音音声取得部により取得された録音音声と音声合成部により生成された合成音声を組み合わせて応答音声を生成し、通信により出力装置から当該応答音声を出力させる音声出力制御部とを備えるものである。
 この発明の応答音声生成方法は、入力された文字列に対応する応答音声を生成して、出力装置から出力させるものであって、応答音声生成用文字列解析部が、入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析ステップと、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部に対して、録音音声取得部が、応答音声生成用文字列解析ステップで取得された録音音声識別文字列を検索キーとした検索を行い、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得ステップと、音声合成使用する発話速度および発話音量の少なくとも一方を、録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部に対して、音声合成パラメータ取得部が、録音音声取得ステップで取得された録音音声分類情報を検索キーとした検索を行い、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得ステップと、音声合成部が、音声合成パラメータ取得ステップで取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析ステップで取得された音声合成対象文字列の合成音声を生成する音声合成ステップと、音声出力制御部が、録音音声取得ステップで取得された録音音声と音声合成ステップで生成された合成音声を組み合わせて応答音声を生成して出力装置から出力させる音声出力制御ステップとを備えるものである。
 この発明によれば、録音音声の属する分類ごとに発話速度および発話音量の少なくとも一方を記憶しておき、応答音声生成時に、録音音声の分類に対応した発話速度および発話音量の少なくとも一方に基づいて合成音声を生成して当該録音音声に組み合わせることにより、合成音声と録音音声の速度および音量の少なくとも一方が同程度になり、応答音声が聞き取りやすくなる。
この発明の実施の形態1に係る音声応答装置の一例を示すブロック図である。 実施の形態1に係る音声応答装置の録音音声記憶部の一例を示す図である。 実施の形態1に係る音声応答装置の音声合成パラメータ記憶部の一例を示す図である。 実施の形態1に係る音声応答装置の処理を示すフローチャートである。 実施の形態1に係る音声応答装置の音声合成パラメータを生成する構成例を示すブロック図である。 図5の原録音音声記憶部の一例を示す図である。 図5の音声合成部特徴記憶部の一例を示す図であり、図7(a)は発話速度、図7(b)は発話音量の表である。 この発明の実施の形態2に係る音声応答装置の音声合成パラメータを生成する構成例を示すブロック図である。 この発明の実施の形態3に係る音声応答装置の音声合成パラメータを生成する構成例を示すブロック図である。 実施の形態3に係る音声応答装置の音声合成パラメータ(発話速度)を決定する処理を示すフローチャートである。 実施の形態3に係る音声応答装置の音声合成パラメータ(発話音量)を決定する処理を示すフローチャートである。 この発明の実施の形態4に係る音声応答装置の一例を示すブロック図である。 実施の形態4に係る音声応答装置のユーザ発話を録音音声記憶部に登録する処理を示すフローチャートである。 実施の形態4に係る音声応答装置の音声合成パラメータ(発話速度)を音声合成パラメータ記憶部に登録する処理を説明するフローチャートである。 実施の形態4に係る音声応答装置の音声合成パラメータ(発話音量)を音声合成パラメータ記憶部に登録する処理を説明するフローチャートである。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1に係る音声応答装置の一例を示すブロック図である。この音声応答装置は、応答音声生成用文字列解析部1、録音音声記憶部2、録音音声取得部3、音声合成パラメータ記憶部4、音声合成パラメータ取得部5、音声合成部6、音声出力制御部7、制御部8、スピーカ9を備えている。
 応答音声生成用文字列解析部1に入力される文字列(以下、応答音声生成用文字列)は、後述する音声合成部6での合成音声生成の対象となる文字列(以下、音声合成対象文字列)と、録音音声を識別するために録音音声毎に割当てられる固有の録音音声識別文字列(以下、録音音声ID)とで構成される。
 具体的には、例えば、音声合成対象文字列を“<”“>”で指定し、録音音声IDを“{”“}”で指定することとし、「<○○くうこう>{200}」というような応答音声生成用文字列を入力とする。
 応答音声生成用文字列が入力されると、応答音声生成用文字列解析部1は、当該文字列の構造を解析し、音声合成対象文字列と録音音声IDを取得する。
 録音音声記憶部2は、録音音声と、当該録音音声が属する分類情報(以下、録音音声分類情報)とを、録音音声IDに対応付けて記憶している。
 図2に、録音音声記憶部2の一例を示す。
 録音音声は、例えばナレータなどに所定の文言を発話してもらい、当該発話音声をマイクで集音し取得されたアナログデータを、例えばADPCM(Adaptive Differential Pulse Code Modulation)により変換したデジタルデータである。
 例えば、録音音声ID「200」の録音音声分類情報は「2」、録音音声「G」は発話文字列「をもくてきちにせっていします」を収録した音声データである。
 録音音声は、収録した期間により分類され、同じ時期に録音されたものには同一の録音音声分類情報が割り当てられる。なお、期間ではなく収録した日などで分類してもよい。
 録音音声取得部3は、後述する制御部8からの指示を受けて、応答音声生成用文字列解析部1により取得された録音音声IDを検索キーとして録音音声記憶部2を検索し、検索キーに一致する録音音声IDに対応付けられている録音音声と録音音声分類情報を取得する。
 音声合成パラメータ記憶部4は、後述する音声合成部6に対して設定される発話速度と発話音量とを、録音音声分類情報に対応付けて記憶している。この音声合成パラメータ記憶部4は、後述する音声合成パラメータ計算部10によりオフラインで生成されるものである。
 なお、以降の説明では音声合成パラメータは、音声合成部6に対して設定される発話速度および発話音量とするが、いずれか一方でもよい。
 図3に、音声合成パラメータ記憶部4の一例を示す。
 録音音声分類情報に対する発話速度と発話音量は、後述する音声合成パラメータ計算部10により算出されたものである。
 なお、この例では音声合成部6の音声合成パラメータとして発話速度および発話音量の両方を音声合成パラメータ記憶部4に記憶させているが、いずれか一方を記憶させる構成でもよい。
 音声合成パラメータ取得部5は、後述する制御部8からの指示を受けて、録音音声取得部3により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部4を検索し、検索キーに一致する録音音声分類情報に対応付けられている発話速度と発話音量を取得する。
 音声合成部6は、後述する制御部8からの指示を受けて、応答音声生成用文字列解析部1により取得された音声合成対象文字列に基づいて、後述する制御部8により設定された発話速度と発話音量となるよう合成音声を生成する。音声合成については、例えば「音声情報処理」(古井貞煕著、森北出版、1998年)の第4章に開示されている方法を用いて行う。
 音声出力制御部7は、後述する制御部8からの指示を受けて、録音音声取得部3により取得された録音音声と音声合成部6により生成された合成音声を、応答音声生成用文字列解析部1により解析された構造に対応させて出力するよう、スピーカ9に対して指示出力する。
 制御部8は、音声応答装置全体を制御する。具体的には以下の処理を行う。
 制御部8から録音音声取得部3に対して、録音音声IDに対応付けられている録音音声と録音音声分類情報を取得するよう指示出力する。
 また、制御部8から音声合成パラメータ取得部5に対して、録音音声取得部3により取得された録音音声分類情報に対応付けられている発話速度と発話音量を取得するよう指示出力する。さらに制御部8は、音声合成パラメータ取得部5により取得された発話速度と発話音量を音声合成部6に対して設定すると共に、音声合成部6に対して音声合成対象文字列から合成音声を生成するよう指示出力する。
 また、制御部8は、録音音声取得部3により取得された録音音声と音声合成部6により生成された合成音声を音声出力制御部7へ出力する。さらに制御部8は、音声出力制御部7に対して、録音音声取得部3により取得された録音音声と音声合成部6により生成された合成音声を、応答音声生成用文字列解析部1により解析された応答音声生成用文字列の構造に対応させて出力するよう指示出力する。
 次に、図4に示すフローチャートを用いて、実施の形態1に係る音声応答装置の処理を説明する。
 まず、応答音声生成用文字列解析部1に応答音声生成用文字列が入力されると、応答音声生成用文字列解析部1は、当該文字列の構成を解析し、音声合成対象文字列と録音音声IDを取得する(ステップST1)。
 次に、制御部8は、応答音声生成用文字列解析部1により取得された録音音声IDを検索キーとした検索を行うよう録音音声取得部3に対して指示し、当該指示を受けた録音音声取得部3がその録音音声IDを検索キーとして録音音声記憶部2を検索し、検索キーと一致する録音音声IDに対応付けられた録音音声と録音音声分類情報を取得する(ステップST2)。
 続いて、制御部8は、録音音声取得部3により取得された録音音声分類情報を検索キーとした検索を行うよう音声合成パラメータ取得部5に対して指示し、当該指示を受けた音声合成パラメータ取得部5がその録音音声分類情報を検索キーとして音声合成パラメータ記憶部4を検索し、検索キーと一致する録音音声分類情報に対応付けられた発話速度と発話音量を取得する(ステップST3)。
 そして、制御部8は、音声合成パラメータ取得部5により取得された発話速度と発話音量を、音声合成部6に設定する(ステップST4)。
 その後、制御部8は、応答音声生成用文字列解析部1により取得された音声合成対象文字列の合成音声生成を音声合成部6に対して指示し、当該指示を受けた音声合成部6が、音声合成パラメータ取得部5により取得されて制御部8により設定された発話速度と発話音量となるよう、音声合成対象文字列の合成音声を生成する(ステップST5)。
 最後に、制御部8は、録音音声取得部3により取得された録音音声と音声合成部6により生成された合成音声を、応答音声生成用文字列解析部1により解析された応答音声生成用文字列における音声合成対象文字列と録音音声IDの構造に対応付けて応答音声を生成するよう音声出力制御部7に対して指示し、当該指示を受けた音声出力制御部7が、それら録音音声と合成音声から応答音声を生成して、スピーカ9から出力させる(ステップST6)。
 具体的な例を挙げて説明すると、例えば、「<○○くうこう>{200}」という応答音声生成用文字列が応答音声生成用文字列解析部1に入力されると、応答音声生成用文字列解析部1は、当該文字列の構造を解析し、音声合成対象文字列「○○くうこう」と録音音声ID「200」を取得する(ステップST1)。
 次に、録音音声取得部3は録音音声ID「200」を検索キーとして録音音声記憶部2を検索し、録音音声分類情報「2」と録音音声「G」を取得する(ステップST2)。
 続いて、音声合成パラメータ取得部5は、録音音声取得部3により取得された録音音声分類情報「2」を検索キーとして、音声合成パラメータ記憶部4を検索し、発話速度「2」と発話音量「4」を取得する(ステップST3)。
 そして、制御部8は、音声合成部6に対して発話速度「2」と発話音量「4」を設定する(ステップST4)。
 その後、音声合成部6は、設定された発話速度と発話音量となるように、音声合成対象文字列「○○くうこう」の合成音声を生成する(ステップST5)。
 最後に、音声出力制御部7は、応答音声生成用文字列内で指定されている音声合成対象文字列「○○くうこう」に対応する合成音声と、録音音声ID「200」に対応する録音音声「G」(発話文字列「をもくてきちにせっていします」)を、応答音声生成用文字列の構造に対応付けて出力するようスピーカ9に指示出力する(ステップST6)。その結果、「○○空港を目的地に設定します」という応答音声がスピーカ9から出力される。
 なお、ステップST3にて音声合成パラメータ取得部5が、発話速度か発話音量のいずれか一方を音声合成パラメータ記憶部4から取得し、ステップST4にて制御部8が、取得された発話速度か発話音量のいずれか一方を音声合成部6に設定し、ステップST5にて音声合成部6が、設定された発話速度か発話音量のいずれか一方となるよう合成音声を生成する構成にしてもよい。
 次に、図5に示すブロック図を参照して、音声合成パラメータ記憶部4の音声合成パラメータを生成する方法について説明する。なお、図5に示すブロック図の構成を音声応答装置内に設けてもよいし、あるいは、音声応答装置とは別に設けて、生成した音声合成パラメータを音声応答装置の音声合成パラメータ記憶部4に登録してもよい。
 図6に、原録音音声記憶部2aの一例を示す。原録音音声記憶部2aは、録音音声記憶部2に記憶している録音音声ID、録音音声分類情報、および録音音声に対して、さらに発話文字列を追加したものであり、この発話文字列は、録音音声IDに対応付けて記憶されている。
 ここで、発話文字列とは、ナレータ等により発話された内容を表す文字列である。
 音声合成パラメータ計算部10は、原録音音声記憶部2aに記憶されている情報に基づいて、録音音声分類情報の分類毎に、対応する発話速度と発話音量を計算する。
 音声合成部特徴記憶部11は、例えば図7(a)に示すように、音声合成部6に対して設定可能な発話速度と後述する1モーラあたりの継続時間長とを対応付けて記憶している。また、図7(b)に示すように、音声合成部6に対して設定可能な発話音量とゲインとを対応付けて記憶している。
 初めに、発話速度の決定方法について説明する。
 まず、音声合成パラメータ計算部10は、原録音音声記憶部2aを参照して、同一の分類に属する録音音声と当該録音音声に対応すると発話文字列とを用いて、その分類における1モーラあたりの平均継続時間長Tを算出する。
 ここで、モーラ(mora)とは「拍」をいい、日本語の仮名文字単位に相当するものである。例えば、「発話」は、「は」、「つ」および「わ」の3個のモーラで表される。
 具体的には、同一の分類に属する録音音声の個数をN、各録音音声の時間長をt,t,・・・,t、各録音音声に対応する発話文字列のモーラ数をL,L,・・・,Lとし、音声合成パラメータ計算部10が以下の式(1)を計算する。
Figure JPOXMLDOC01-appb-I000001
 次に、音声合成パラメータ計算部10は、音声合成部特徴記憶部11(図7(a)の表)を参照して、上式(1)で算出された平均継続時間長Tに対応する発話速度を決定する。
 このように決定された発話速度を、録音音声分類情報に対する発話速度として音声合成パラメータ記憶部4に格納する。
 音声合成パラメータ計算部10は、同様にして他の分類についても、1モーラあたりの平均継続時間長を算出し、対応する発話速度を決定し、音声合成パラメータ記憶部4に録音音声分類情報に対応付けて格納する。
 なお、各録音音声の時間長と発話文字列のモーラ数については周知の方法で算出すればよいため説明を省略する。
 また、各録音音声の時間長と発話文字列のモーラ数はあらかじめ算出されたものを用いてもよいし、音声合成パラメータ計算部10で算出してもよい。
 さらに、ここでは、音声合成部6の音声合成単位がモーラであるため、1モーラあたりの平均継続時間長から発話速度を決定したが、音声合成単位は任意でよく、任意の音声合成単位あたりの平均継続時間長から発話速度を決定すればよい。
 次に、具体的な例を挙げて説明する。ここでは、図6の録音音声分類情報「1」に対する発話速度を決定する。
 ここで、録音音声「A」の時間長を1400ms、録音音声「B」の時間長を1470msとする。発話文字列「にでんわします」「をとうろくする」のモーラ数はそれぞれ「7」であるので、上式(1)に当てはめると、1モーラあたりの平均継続時間長Tは、(1400/7+1470/7)/2=205msとなる。
 そして、図7(a)の表を参照すると、1モーラあたりの平均継続時間長205msに対応する発話速度は「3」と決定される。
 続いて、発話音量の決定方法について説明する。
 まず、音声合成パラメータ計算部10は、原録音音声記憶部2aから同一の分類に属する録音音声を取得し、録音音声毎に平均ゲインを算出する。そして、録音音声毎の平均ゲインの和を録音音声数で割ったものを、当該分類に対応する平均ゲインとする。
 次に、音声合成パラメータ計算部10は、音声合成部特徴記憶部11(図7(b)の表)を参照して、算出した平均ゲインに対応する発話音量を決定する。
 音声合成パラメータ計算部10は、録音音声の分類毎に上述した処理を行い、決定された発話音量を録音音声分類情報に対応付けて音声合成パラメータ記憶部4に格納する。
 なお、録音音声の平均ゲインの算出方法は周知の技術であるため説明を省略する。
 以上より、実施の形態1によれば、音声応答装置は、応答音声生成用文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列(録音音声ID)とを取得する応答音声生成用文字列解析部1と、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部2と、応答音声生成用文字列解析部1により取得された録音音声識別文字列を検索キーとして録音音声記憶部2を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部3と、音声合成に使用する発話速度および発話音量の少なくとも一方を録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部4と、録音音声取得部3により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部4を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部5と、音声合成パラメータ取得部5により取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析部1により取得された音声合成対象文字列の合成音声を生成する音声合成部6と、録音音声取得部3により取得された録音音声と音声合成部6により生成された合成音声を組み合わせて応答音声を生成する音声出力制御部7と、音声出力制御部7により生成された応答音声を出力するスピーカ9とを備える構成にした。
 以上のように、録音音声をその録音時期に分類し、当該分類毎に音声合成時に設定する速度と音量を決定し、応答音声生成時に、録音音声の分類に対応した速度と音量で合成音声を生成するようにしたので、合成音声の速度と音量が録音音声の速度と音量と同程度になり、応答音声が聞き取りやすくなる。
 また、実施の形態1によれば、録音音声の時間長および当該録音音声に対応する発話文字列を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出して、発話速度を決定する構成にした。このため、同時期に録音された録音音声の平均的な速度で合成音声を生成でき、応答音声が聞き取りやすくなる。
 また、実施の形態1によれば、同一の分類に属する録音音声の平均ゲインを算出して、発話音量を決定する構成にした。このため、同時期に録音された録音音声の平均的な音量で合成音声を生成でき、応答音声が聞き取りやすくなる。
 なお、実施の形態1では、音声応答装置がスピーカ9を一体に備える構成例を説明したが、音声応答装置のうちの図1に破線で囲んだ部分をサーバ装置として構成し、スピーカ(出力装置)9をユーザ側に設置してサーバ装置との間で通信を行って、サーバ装置から出力装置へ応答音声を送信する構成にしてもよい。また、スマートフォン、タブレットPC(パーソナルコンピュータ)、携帯電話等の携帯情報端末を音声応答装置として使用する場合に、その携帯情報端末を音声応答装置として機能させるためにインストールされるアプリケーションプログラムであってもよい。
実施の形態2.
 図8は、この発明の実施の形態2に係る音声応答装置の音声合成パラメータ記憶部4が記憶する音声合成パラメータの生成に係る構成の一例を示すブロック図であり、上記実施の形態1の図5と比べて、新たに音声認識部12を備える。
 原録音音声記憶部2aと音声合成部特徴記憶部11については、上記実施の形態1と同様のため説明を省略する。
 上記実施の形態1の方法で録音音声分類情報に対する発話速度を決定する場合、例えば、録音音声にポーズが含まれていると、1モーラあたりの平均継続時間長が長くなってしまうため、適切な発話速度にならないことがある。
 例えば図6の録音音声「A」と録音音声「B」において、「に」と「でんわします」の間、「を」と「とうろくする」の間にそれぞれ360msのポーズがあり、各モーラの時間長が先の例の場合と同一であるとすると、録音音声「A」の時間長は1760ms、録音音声「B」の時間長は1830msとなる。モーラ数はそれぞれ「7」であるから、上式(1)より、1モーラあたりの平均継続時間長を算出すると256ms(小数点以下切捨て)となり、発話速度は「4」となる。
 そこで、実施の形態2では、原録音音声記憶部2aに格納された録音音声を、音声認識部12で例えばHMM(Hidden Markov Model)を用いた音声認識方法によって認識し、音声合成パラメータ計算部10は、認識処理の際に算出される音素毎の継続時間長を用いて、同一の録音音声分類における1モーラあたりの平均継続時間長を算出する。
 なお、音声認識部12による音声認識処理(例えば、上述した古井貞煕著「音声情報処理」の第5章を参照)、および音素毎の継続時間長の算出については周知の技術であるため説明を省略する。
 具体的には、同一の録音音声分類情報が付された同一の分類に属する録音音声の個数をN、1個の録音音声を認識した結果出力される音素の個数をM、音素毎の継続時間長をl,l,・・・,l、録音音声に対応する発話文字列のモーラ数をLとし、音声合成パラメータ計算部10が、まず、以下の式(2)により各録音音声における1モーラあたりの平均継続時間長tを算出する。
Figure JPOXMLDOC01-appb-I000002
 その後、以下の式(3)により、同一の分類に属する録音音声における1モーラあたりの平均継続時間長Tを算出する。
Figure JPOXMLDOC01-appb-I000003
 次に、音声合成パラメータ計算部10は、音声合成部特徴記憶部11(図7(a)の表)を参照して、上式(3)で算出された平均継続時間長Tに対応する発話速度を決定する。
 音声合成パラメータ計算部10は、このように決定された発話速度を、録音音声分類情報に対する発話速度として音声合成パラメータ記憶部4に格納する。
 音声合成パラメータ計算部10は、同様にして他の分類についても、1モーラあたりの音声の平均継続時間長Tを算出し、対応する発話速度を決定し、音声合成パラメータ記憶部4に録音音声分類に対応付けて格納する。
 なお、ここでは、音声認識部12の音声認識単位が音素、音声合成部6の音声合成単位がモーラであるため、音素毎の継続時間長と1モーラあたりの平均継続時間長から発話速度を決定したが、音声認識単位と音声合成単位は任意でよく、任意の音声認識単位の継続時間長と任意の音声合成単位あたりの平均継続時間長から発話速度を決定すればよい。
 発話音量の決定方法については上記実施の形態1と同一であるため説明を省略する。
 以上より、実施の形態2によれば、録音音声を認識処理して得られる当該録音音声に対応する発話文字列および当該認識単位ごとの継続時間長を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出して、発話速度を決定する構成にした。このため、録音音声に含まれるポーズの時間を除外して音声合成単位(1モーラ)あたりの音声の平均継続時間を算出してより適切な発話速度を決定することができ、応答音声が聞き取りやすくなる。
実施の形態3.
 図9は、この発明の実施の形態3に係る音声応答装置の音声合成パラメータ記憶部4が記録する音声合成パラメータの生成に係る構成の一例を示すブロック図である。
 音声合成パラメータ計算部10は、各録音音声分類情報に対応する、後述する参照音声の時間長と、当該参照音声の平均ゲインと、当該参照音声に対応する文字列とを入力とし、音声合成部6を用いて音声合成パラメータを算出する。
 ここで、参照音声とは、録音音声分類情報毎に用意されている録音音声のデジタルデータであり、例えばナレータが録音音声を収録する時期ごとに、録音音声に対応する文字列に加えて所定の文字列(参照音声に対応する文字列)を発話してもらい、その音声を録音して録音音声と同じ分類に属する参照音声にする。そして、参照音声の発話速度を、その参照音声が属する分類の発話速度とみなす。
 初めに、録音音声分類情報「1」に対応する参照音声の時間長と参照音声に対応する文字列が音声合成パラメータ計算部10に入力されたものとして、図10のフローチャートを用いて、発話速度の決定処理を説明する。
 音声合成パラメータ計算部10は、まず、音声合成部6に対して、デフォルトの発話速度を指定し、入力された文字列(参照音声に対応する文字列)から合成音声を生成するよう指示出力する(ステップST11)。続いて、音声合成部6は、当該指示を受けて指定された発話速度で合成音声を生成する(ステップST12)。そして、音声合成パラメータ計算部10は、当該生成された合成音声を取得し、その時間長を算出する(ステップST13)。
 その後、音声合成パラメータ計算部10は、当該算出された時間長と参照音声の時間長の差が所定値以下(または、未満)であるか否か判定する(ステップST14)。当該差が所定値以下(または、未満)である場合(ステップST14「YES」)は、音声合成パラメータ記憶部4の録音音声分類情報「1」に対応付けて、デフォルトの発話速度を格納し(ステップST15)、処理を終了する。一方、当該差が所定値以下(または、未満)でない場合(ステップST14「NO」)は、音声合成部6に対して指定する発話速度を変更した上で、再度、参照音声に対応する文字列の合成音声を生成するよう指示出力し(ステップST16)、ステップST12の処理へ戻る。
 録音音声分類情報毎に上述した処理を行うことで、音声合成パラメータ記憶部4の発話速度を生成することができる。録音音声に対応する文字列が分類ごとに異なっていたとしても、参照音声に対応する文字列を分類によらず同一にすることでより正確な発話速度を算出可能となる。
 なお、初めにデフォルトの発話速度を指定する(ステップST11)としたが、例えば、最も早い(または最も遅い)発話速度から順に指定してもよい。
 また、音声合成パラメータ計算部10へ参照音声の時間長が入力されるようにしたが、参照音声を入力とし、音声合成パラメータ計算部10が、周知の技術を用いて時間長を算出し、それを用いてもよい。
 続いて、録音音声分類情報「1」に対応する参照音声の平均ゲインと参照音声に対応する文字列が音声合成パラメータ計算部10に入力されたものとして、図11のフローチャートを用いて、発話音量の決定処理を説明する。
 音声合成パラメータ計算部10は、まず、音声合成部6に対して、デフォルトの発話音量を指定し、入力された文字列(参照音声に対応する文字列)から合成音声を生成するよう指示出力する(ステップST21)。続いて、音声合成部6は、当該指示を受けて指定された発話音量で合成音声を生成する(ステップST22)。そして、音声合成パラメータ計算部10は、当該生成された合成音声を取得し、当該合成音声の平均ゲインを算出する(ステップST23)。
 その後、音声合成パラメータ計算部10は、当該算出された平均ゲインと参照音声の平均ゲインの差が所定値以下(または、未満)であるか否か判定する(ステップST24)。当該差が所定値以下(または、未満)である場合(ステップST24「YES」)は、音声合成パラメータ記憶部4の録音音声分類情報「1」に対応付けて、デフォルトの発話音量を格納し(ステップST25)、処理を終了する。一方、当該差が所定値以下(または、未満)でない場合(ステップST24「NO」)は、音声合成部6に対して指定する発話音量を変更した上で、再度、参照音声に対応する文字列の合成音声を生成するよう指示出力し(ステップST26)、ステップST22の処理へ戻る。
 録音音声分類情報毎に上述した処理を行うことで、音声合成パラメータ記憶部4の発話音量を生成することができる。録音音声に対応する文字列が分類ごとに異なっていたとしても、参照音声に対応する文字列を分類によらず同一にすることでより正確な発話音量を算出可能となる。
 なお、初めにデフォルトの発話音量を指定する(ステップST21)としたが、例えば、最も大きい(または最も小さい)発話音量から順に指定してもよい。
 また、音声合成パラメータ計算部10へ参照音声の平均ゲインが入力されるようにしたが、参照音声を入力とし、音声合成パラメータ計算部10が、周知の技術を用いて平均ゲインを算出し、それを用いてもよい。
 以上より、実施の形態3によれば、発話速度を、録音音声と同じ規則に従って分類された参照音声の時間長と、当該参照音声に対応する文字列を入力として音声合成部6より生成された合成音声の時間長との差が所定値以下(または所定値未満)となるように決定する構成にした。このため、録音音声と同じ時期に録音された参照音声に最も近い発話速度を決定することができ、応答音声が聞き取りやすくなる。
 また、実施の形態3によれば、発話音量を、録音音声と同じ規則に従って分類された参照音声のゲインと、当該参照音声に対応する文字列を入力として前音声合成部6により生成された合成音声のゲインとの差が所定値以下(または所定値未満)となるように決定する構成にした。このため、録音音声と同じ時期に録音された参照音声に最も近い発話音量を決定することができ、応答音声が聞き取りやすくなる。
実施の形態4.
 図12は、この発明の実施の形態4に係る音声応答装置の一例を示すブロック図であり、図1と同一または相当の部分については同一の符号を付し説明を省略する。
 この音声応答装置はナビゲーション装置などに組み込まれ、当ナビゲーション装置のユーザにより発話された音声を録音し、録音音声記憶部2に録音音声として追加するとともに、当該発話された音声を認識した結果に基づいて音声合成パラメータを計算して音声合成パラメータ記憶部4に追加する。そして、応答音声生成用文字列の解析結果に応じて、当該録音音声と合成音声が混在した応答音声を生成する際、当該音声合成パラメータを用いて合成音声を生成し出力するようにしたものである。
 音声取得部13は、マイクにより取得されたユーザ発話、すなわち、入力された音声を取り込み、例えば例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。
 音声情報登録部14は、音声取得部13により取得された音声データに録音音声IDと録音音声分類情報を割り当てるとともに、録音音声IDに対応付けて当該音声データと録音音声分類情報を録音音声記憶部2に登録する。
 録音音声分類情報の割り当ては任意でよく、例えば、同じ日に取得された音声データに同一の録音音声分類情報を割り当てたり、音声データ毎に異なる録音音声分類情報を割り当てたりする。
 次に、図13~図15に示すフローチャートを用いて、実施の形態4による音声応答装置の処理を説明する。
 図13は、ユーザにより発話された音声を録音音声記憶部2に登録する際のフローチャートである。
 まず、音声取得部13は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばPCMによりA/D変換し、音声情報登録部14が、音声取得部13により取得された音声データに録音音声IDと録音音声分類情報を割り当てる(ステップST31)。次に、音声情報登録部14は、録音音声分類情報に対応付けて当該音声データと当該録音音声IDを録音音声記憶部2に登録する(ステップST32)。
 図14は、音声取得部13により取得されたユーザ発話の音声データを用いて発話速度を決定し、音声合成パラメータ記憶部4に登録する際のフローチャートである。ここでは、音声データ毎に異なる録音音声分類情報が割り当てられているものとする。
 まず、音声認識部12は、音声取得部13により取得された音声データを認識し、認識結果として音素毎の継続時間長と認識結果文字列を出力する(ステップST41)。
 次に、音声合成パラメータ計算部10は、音声認識部12により出力された音素毎の継続時間長と認識結果文字列を用いて1モーラあたりの平均継続時間長を算出する(ステップST42)。そして、音声合成パラメータ計算部10は、音声合成部特徴記憶部11を参照して当該平均継続時間長に対応する発話速度を決定し(ステップST43)、音声情報登録部14により割り当てられた録音音声分類情報と同一の録音音声分類情報に対応付けて、決定した発話速度を音声合成パラメータ記憶部4に登録する(ステップST44)。
 ここで、音声合成パラメータ計算部10による1モーラあたりの平均継続時間長の算出方法は、上記実施の形態2の式(2)と同様であるため説明を省略する。なお、認識結果文字列のモーラ数は、音声合成パラメータ計算部10で、周知の方法を用いて算出されるものとする。
 図15は、音声取得部13により取得されたユーザ発話の音声データを用いて発話音量を決定し、音声合成パラメータ記憶部4に登録する際のフローチャートである。ここでは、音声データ毎に異なる録音音声分類情報が割り当てられているものとする。
 まず、音声合成パラメータ計算部10は、音声取得部13により取得された音声データの平均ゲインを算出する(ステップST51)。
 次に、音声合成パラメータ計算部10は、音声合成部特徴記憶部11を参照して、算出した平均ゲインに対応する発話音量を決定する(ステップST52)。そして、音声合成パラメータ計算部10は、音声情報登録部14により割り当てられた録音音声分類情報と同一の録音音声分類情報に対応付けて、当該発話音量を音声合成パラメータ記憶部4に登録する(ステップST53)。
 なお、録音音声の平均ゲインの算出方法は周知の技術であるため説明を省略する。
 また、音声合成パラメータ計算部10は、音声合成パラメータとして発話速度および発話音量のいずれか一方のみを決定して音声合成パラメータ記憶部4に登録してもよい。さらに、発話速度および発話音量の決定方法は、上記実施の形態1,2のいずれの方法を使用しても構わない。
 以上より、実施の形態4によれば、音声応答装置においてユーザの発話した音声を録音音声として使用する場合に、音声合成パラメータ計算部10が、ユーザ発話の音声データを用いて発話速度および発話音量の少なくとも一方を決定し、音声合成部6は、音声合成パラメータ計算部10により決定された発話速度および発話音量の少なくとも一方に基づいて合成音声を生成する構成にした。このため、ユーザにより追加録音された録音音声について音声合成パラメータを決定し、当該録音音声と合成音声が混在した応答音声を生成する際に、当該録音音声に対応する音声合成パラメータを使用して生成された合成音声を用いるようにしたので、応答音声が聞き取りやすくなる。
 なお、実施の形態4では、音声応答装置がスピーカ9および音声取得部13を一体に備える構成例を説明したが、音声応答装置のうちの図12に破線で囲んだ部分をサーバ装置として構成し、音声取得部13およびスピーカ9を有する入出力装置をユーザ側に設置してサーバ装置との間で通信を行って、入出力装置からサーバ装置へユーザ音声を送信すると共に、サーバ装置から入出力装置へ応答音声を送信する構成にしてもよい。また、携帯情報端末を音声応答装置として使用する場合に、その携帯情報端末を音声応答装置として機能させるためにインストールされるアプリケーションプログラムであってもよい。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 また、上記説明では日本語に対応した音声応答装置を例にしたが、日本語以外の言語に対応することも可能である。
 以上のように、この発明に係る音声応答装置は、録音音声の分類に対応した発話速度および発話音量の少なくとも一方に基づいて合成音声を生成して当該録音音声に組み合わせた応答音声を生成するようにしたので、合成音声と録音音声の混在する応答音声を出力するナビゲーション装置などに用いるのに適している。
 1 応答音声生成用文字列解析部、2 録音音声記憶部、2a 原録音音声記憶部、3 録音音声取得部、4 音声合成パラメータ記憶部、5 音声合成パラメータ取得部、6 音声合成部、7 音声出力制御部、8 制御部、9 スピーカ、10 音声合成パラメータ計算部、11 音声合成部特徴記憶部、12 音声認識部、13 音声取得部、14 音声情報登録部。

Claims (9)

  1.  入力された文字列に対応する応答音声を生成して出力する音声応答装置において、
     前記入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、
     前記録音音声識別文字列に対応付けて、前記録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、
     前記応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして前記録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、
     音声合成に使用する発話速度および発話音量の少なくとも一方を、前記録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、
     前記録音音声取得部により取得された録音音声分類情報を検索キーとして前記音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、
     前記音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、前記応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、
     前記録音音声取得部により取得された録音音声と前記音声合成部により生成された合成音声を組み合わせて応答音声を生成する音声出力制御部とを備えることを特徴とする音声応答装置。
  2.  前記発話速度は、録音音声の時間長および当該録音音声に対応する発話文字列を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出することにより決定されることを特徴とする請求項1記載の音声応答装置。
  3.  前記発話音量は、録音音声を用いて、同一の分類に属する録音音声の平均ゲインを算出することにより決定されることを特徴とする請求項1記載の音声応答装置。
  4.  前記発話速度は、録音音声を認識処理して得られる当該録音音声に対応する発話文字列および当該認識単位ごとの継続時間長を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出することにより決定されることを特徴とする請求項1記載の音声応答装置。
  5.  前記発話速度は、録音音声と同じ規則に従って分類された参照音声の時間長と、当該参照音声に対応する文字列を入力として前記音声合成部により生成された合成音声の時間長との差が所定値以下となるように決定されることを特徴とする請求項1記載の音声応答装置。
  6.  前記発話音量は、録音音声と同じ規則に従って分類された参照音声のゲインと、当該参照音声に対応する文字列を入力として前記音声合成部により生成された合成音声のゲインとの差が所定値以下となるように決定されることを特徴とする請求項1記載の音声応答装置。
  7.  ユーザが発話した音声を録音音声として使用する場合に、当該ユーザが発話した音声を用いて前記発話速度および前記発話音量の少なくとも一方を決定する音声合成パラメータ計算部を備え、
     前記音声合成部は、前記音声合成パラメータ計算部により決定された発話速度および発話音量の少なくとも一方に基づいて合成音声を生成することを特徴とする請求項1記載の音声応答装置。
  8.  入力された文字列に対応する応答音声を生成し、出力装置との間で通信を行って当該応答音声を出力させる音声応答装置において、
     前記入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、
     前記録音音声識別文字列に対応付けて、前記録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、
     前記応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして前記録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、
     音声合成に使用する発話速度および発話音量の少なくとも一方を、前記録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、
     前記録音音声取得部により取得された録音音声分類情報を検索キーとして前記音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、
     前記音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、前記応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、
     前記録音音声取得部により取得された録音音声と前記音声合成部により生成された合成音声を組み合わせて応答音声を生成し、通信により前記出力装置から当該応答音声を出力させる音声出力制御部とを備えることを特徴とする音声応答装置。
  9.  入力された文字列に対応する応答音声を生成して、出力装置から出力させる応答音声生成方法において、
     応答音声生成用文字列解析部が、前記入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析ステップと、
     前記録音音声識別文字列に対応付けて、前記録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部に対して、録音音声取得部が、前記応答音声生成用文字列解析ステップで取得された録音音声識別文字列を検索キーとした検索を行い、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得ステップと、
     音声合成に使用に使用する発話速度および発話音量の少なくとも一方を、前記録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部に対して、音声合成パラメータ取得部が、前記録音音声取得ステップで取得された録音音声分類情報を検索キーとした検索を行い、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得ステップと、
     音声合成部が、前記音声合成パラメータ取得ステップで取得された発話速度および発話音量の少なくとも一方に基づいて、前記応答音声生成用文字列解析ステップで取得された音声合成対象文字列の合成音声を生成する音声合成ステップと、
     音声出力制御部が、前記録音音声取得ステップで取得された録音音声と前記音声合成ステップで生成された合成音声を組み合わせて応答音声を生成して前記出力装置から出力させる音声出力制御ステップとを備えることを特徴とする応答音声生成方法。
PCT/JP2013/066698 2013-06-18 2013-06-18 音声応答装置および応答音声生成方法 WO2014203329A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/066698 WO2014203329A1 (ja) 2013-06-18 2013-06-18 音声応答装置および応答音声生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/066698 WO2014203329A1 (ja) 2013-06-18 2013-06-18 音声応答装置および応答音声生成方法

Publications (1)

Publication Number Publication Date
WO2014203329A1 true WO2014203329A1 (ja) 2014-12-24

Family

ID=52104096

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/066698 WO2014203329A1 (ja) 2013-06-18 2013-06-18 音声応答装置および応答音声生成方法

Country Status (1)

Country Link
WO (1) WO2014203329A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254471A (ja) * 1997-03-14 1998-09-25 Toshiba Corp 音声合成装置
JPH11126087A (ja) * 1997-10-21 1999-05-11 Sony Corp 音声合成方法及び音声合成装置、ナビゲーションシステム、並びに情報記録媒体
JP2003333203A (ja) * 2002-05-13 2003-11-21 Canon Inc 音声合成システム、サーバ装置および情報処理方法ならびに記録媒体、プログラム
JP2008014756A (ja) * 2006-07-05 2008-01-24 Xanavi Informatics Corp ナビゲーション装置及びその音声出力方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254471A (ja) * 1997-03-14 1998-09-25 Toshiba Corp 音声合成装置
JPH11126087A (ja) * 1997-10-21 1999-05-11 Sony Corp 音声合成方法及び音声合成装置、ナビゲーションシステム、並びに情報記録媒体
JP2003333203A (ja) * 2002-05-13 2003-11-21 Canon Inc 音声合成システム、サーバ装置および情報処理方法ならびに記録媒体、プログラム
JP2008014756A (ja) * 2006-07-05 2008-01-24 Xanavi Informatics Corp ナビゲーション装置及びその音声出力方法

Similar Documents

Publication Publication Date Title
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
TWI721268B (zh) 用於語音合成的系統和方法
US20150025892A1 (en) Method and system for template-based personalized singing synthesis
KR20210008510A (ko) 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20070213987A1 (en) Codebook-less speech conversion method and system
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
US20100198577A1 (en) State mapping for cross-language speaker adaptation
JPH11327592A (ja) 話者正規化処理装置及び音声認識装置
WO2007063827A1 (ja) 声質変換システム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JP6993376B2 (ja) 音声合成装置、方法及びプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
US11282495B2 (en) Speech processing using embedding data
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP5062178B2 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
WO2014203329A1 (ja) 音声応答装置および応答音声生成方法
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
US11978431B1 (en) Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks
KR102457822B1 (ko) 자동 통역 장치 및 그 방법
US11574624B1 (en) Synthetic speech processing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13887446

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13887446

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP