WO2016063879A1 - 音声合成装置および方法 - Google Patents
音声合成装置および方法 Download PDFInfo
- Publication number
- WO2016063879A1 WO2016063879A1 PCT/JP2015/079594 JP2015079594W WO2016063879A1 WO 2016063879 A1 WO2016063879 A1 WO 2016063879A1 JP 2015079594 W JP2015079594 W JP 2015079594W WO 2016063879 A1 WO2016063879 A1 WO 2016063879A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- pitch
- answer
- voice
- shift amount
- utterance
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000015572 biosynthetic process Effects 0.000 title description 11
- 238000003786 synthesis reaction Methods 0.000 title description 11
- 230000005236 sound signal Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000001308 synthesis method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 17
- 238000005516 engineering process Methods 0.000 abstract description 3
- 239000011295 pitch Substances 0.000 description 253
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Definitions
- the present invention relates to a speech synthesizer and a method, and further relates to a storage medium storing a program for executing the method.
- JP 2003-271194 A Japanese Patent No. 4495907 Japanese Patent No. 4832097
- An object of the present invention is to provide a speech synthesizer capable of synthesizing speech while preventing quality degradation in the sense of hearing, and furthermore, a speech synthesis method and a storage medium storing a program for executing the method Is to provide.
- a speech synthesizer detects a pitch of a representative section of an utterance based on a receiving unit that receives an utterance audio signal and the received audio signal.
- a pitch detection unit a response acquisition unit that acquires voice data of an answer to the utterance, a pitch acquisition unit that acquires a pitch based on the acquired voice data of the answer, and the acquired pitch,
- a pitch shift amount determination unit for determining a pitch shift amount for shifting to a target pitch having a specific relationship with the pitch of the representative section, and the voice of the answer based on the voice data of the answer
- the answer synthesizer is configured to shift the pitch of the voice of the answer to be synthesized according to the pitch shift amount.
- the pitch of the representative section of the received utterance is detected, and the pitch shift amount is determined and synthesized according to the target pitch having a specific relationship with the pitch of the representative section. Since the pitch of the voice of the answer is shifted according to the pitch shift amount, the voice of the answer to the voice of the received utterance (for example, a question uttered by the user) is changed with respect to the pitch of the utterance (question). Since it is possible to synthesize with a pitch having a specific relationship, it is possible to synthesize (reproduce) a high-quality answer voice that is not unnatural.
- a speech signal received from a speaker (user) is composed of a relatively short speech such as one sentence, one to several phrases, or one voice.
- the answer is not limited to a specific answer to the content (question) of the received utterance, but also includes an answer (interjection).
- answers include animal calls such as “bow” and “meow”. That is, the answer and the voice here are concepts including not only a voice uttered by a person but also an animal cry.
- the pitch of the representative section of the received utterance is representative of the pitch characteristic of the received utterance.
- the pitch of a section that strongly impresses the purpose of the uttered voice specifically, the highest pitch of a section whose volume is equal to or higher than a predetermined value, or the pitch of the last section of the uttered voice (question) .
- the pitch based on the answer voice data acquired by the pitch acquisition unit may be, for example, a pitch at a characteristic part when the answer voice data is reproduced in a standard pitch band.
- the characteristic portion may be the pitch at the beginning of the word, the pitch at the highest volume, or the average pitch.
- the pitch shift amount determination unit may determine a pitch that forms a concert pitch with respect to the pitch of the representative section as the target pitch.
- Kyowa means a relationship in which a plurality of musical sounds are generated at the same time and are well-harmonized with each other. These pitch relationships are called Kyowa pitches. The degree of cooperation is higher as the frequency ratio (frequency ratio) between two sounds is simpler.
- the pitch shift amount determination unit may determine the target pitch so that the target pitch falls within a predetermined range from the acquired pitch.
- the target pitch is determined so that the target pitch falls within a predetermined range from the acquired pitch, although it deteriorates if the shift amount is large. Thus, such deterioration can be prevented.
- the pitch shift amount determination unit may adjust the target pitch in octave units so that the target pitch falls within a predetermined range from the acquired pitch.
- the pitch detector may detect the highest pitch in a section where the volume of the received audio signal is equal to or higher than a predetermined value as the pitch in the representative section. In determining whether the value is equal to or greater than the predetermined value at this time, the determination may be made with a hysteresis characteristic or may be added on condition that the pitch can be detected.
- the present invention can be configured and embodied not only as an apparatus invention as described above but also as a method invention.
- the present invention can also be used as a software program that can be executed by a processor such as a computer or a DSP (digital signal processor), or as a non-transitory computer-readable storage medium that stores such a software program.
- a processor such as a computer or a DSP (digital signal processor), or as a non-transitory computer-readable storage medium that stores such a software program.
- the program is provided to the user in the storage medium and then installed in the user's computer, or distributed from the server device to the client computer via a communication network, and then the client computer. It may be installed inside.
- the processor used in the present invention is not only a computer or other general-purpose processor capable of starting an arbitrary software program, but a dedicated processor having a dedicated logic circuit assembled by hardware. There may be.
- FIG. 1 is a diagram showing a configuration of a speech synthesizer 10 according to an embodiment of the present invention.
- the speech synthesizer 10 is configured to be incorporated in a stuffed toy and automatically synthesize and output a response such as an answer when a speaker (user) asks the stuffed toy.
- the speech synthesizer 10 includes a CPU (Central Processing Unit), a speech receiving unit 102, a speaker 142, and the like.
- a plurality of functional blocks are as follows.
- a speech feature amount acquisition unit 106, an answer selection unit 110, an answer pitch acquisition unit 112, a pitch shift amount determination unit 114, and an answer synthesis unit 116 are constructed.
- the speech synthesizer 10 also has a display unit, an operation input unit, and the like, so that an administrator or a user can check the status of the device or perform various operations on the device. You can enter and make various settings.
- the voice synthesizer 10 is not limited to a toy such as a stuffed toy, and may be a so-called pet robot, a terminal device such as a mobile phone, a tablet personal computer, or the like.
- the voice receiving unit 102 receives a voice signal emitted by a speaker (user), converts the voice signal into an electric signal, and converts the converted voice signal into a digital signal. And an A / D converter.
- the voice feature amount acquisition unit 106 analyzes the voice signal received by the voice reception unit 102 (the voice signal converted into a digital signal), and processes the voice signal into a speech section and a non-speech section.
- the pitch of a specific section in the voiced section is detected, and data indicating the pitch is supplied to the answer selection section 110 and the pitch shift amount determination section 114.
- the utterance section refers to, for example, a section in which the volume of the audio signal is equal to or higher than a threshold
- the non-utterance section refers to a section in which the volume of the audio signal is less than the threshold.
- the voiced section is a section in which the pitch (pitch) of the voice signal can be detected in the utterance section.
- the section in which the pitch can be detected means that there is a periodic part in the audio signal and that part can be detected.
- the specific section that is a target for detecting the pitch of the received voice signal by the voice feature quantity acquisition unit 106 is a representative section of the utterance indicated by the voice signal.
- the specific section (representative section) may be all or a part of the utterance section as long as it is a section that represents the characteristics of the utterance (for example, inquiry).
- the end section of the voiced section of the received audio signal is set as the specific section (representative section), and the highest pitch in the end section is detected as the pitch to be detected.
- the tail section is a section between the end time of the voiced section and a time point that is a predetermined time (for example, 180 msec) after the end time, that is, a section having a predetermined time width (for example, 180 msec) at the end of the voiced section. It is.
- the volume of the voice signal may be determined by two (or three or more) threshold values. Moreover, you may make it detect not only the highest pitch in this specific area (representative area) but the minimum pitch or an average pitch.
- the answer library 124 stores in advance a plurality of voice data of various answers to utterances (for example, questions) by the user.
- This audio data consists of a recording of the sound of an appropriate person as a model. For example, questions such as “Yes”, “No”, “Yes”, “Yes”, “Fun”, “I see” It may consist of multiple types of answer patterns, such as general or typical responses to and answers.
- the voice data of the answer is stored in an appropriate format such as wav or mp3, and the pitch of the answer voice waveform for one period or a plurality of periods when played back as a standard and the average pitch thereof are obtained in advance.
- the data indicating the average pitch (pitch based on the answer) is stored in the answer library 124 in association with the voice data.
- the standard reproduction here means that the audio data is reproduced under the same conditions as the recording conditions (sampling frequency).
- the answer selection unit 110 selects one voice data of the answer to the voice from the answer library 124.
- the voice data of the selected answer is read out and output together with the data indicating the associated average pitch.
- the answer selection unit 110 may select at random or representative of utterances (questions). You may make it select the reply audio
- the speech synthesizer 10 is used for the question made by the user. This is sufficient for a device that returns a simple answer as an answer.
- the present invention is not limited thereto, and a language analysis unit 108 is provided as shown by a broken line in FIG. 1, and the language analysis unit 108 analyzes the semantic content of an utterance (for example, an inquiry) defined by the received voice signal.
- the answer selection unit 110 may be configured to select or create an answer suitable for the meaning content of the utterance (question) via a database or the like.
- the answer pitch acquisition unit 112 is configured to acquire a pitch (representative pitch) based on the acquired voice data of the answer.
- the answer pitch acquisition unit 112 extracts data indicating the average pitch of the answer from the data read by the answer selection unit 110, and generates a pitch (typical pitch) based on the answer voice data. ) Get as.
- Data indicating the average pitch of the answers acquired by the answer pitch acquisition unit 112 is supplied to the pitch shift amount determination unit 114.
- the pitch shift amount determination unit 114 sets the pitch (average pitch of answers) acquired by the answer pitch acquisition unit 112 to a target pitch having a specific relationship with the pitch of the representative section.
- the pitch shift amount for shifting is determined.
- the pitch shift determining unit 114 determines the target pitch so that the target pitch falls within a predetermined range from the acquired pitch (average pitch of answers). That is, the pitch shift amount determination unit 114 includes the pitch of the representative section in the voice signal output from the voice feature amount acquisition unit 106, and the average pitch of the answer output from the answer pitch acquisition unit 112. From this difference, a pitch shift amount for controlling the pitch when the answer voice data is reproduced is determined in the manner described later.
- the answer synthesizing unit 116 reproduces (synthesizes) the sound of the answer based on the sound data of the answer read from the answer library 124. At this time, the pitch of the sound of the answer to be reproduced (synthesized) is reproduced. It is determined by the pitch shift amount determination unit 114 and is shifted according to the pitch shift amount.
- the answer voice signal whose pitch has been shifted is converted into an analog signal by a D / A converter (not shown), and then acoustically converted by the speaker 142 and spatially output.
- the pitch (representative pitch) based on the voice data of the answer acquired by the answer pitch acquisition unit 112 is not limited to the average pitch of the answer, and may be another type of pitch. .
- an intermediate value of the pitch may be used, or an average pitch of a predetermined partial section of the answer voice data may be stored in advance in the answer library 124 in association with the corresponding answer voice data. You may make it use for the determination of the pitch shift amount in the high shift amount determination part 114.
- FIG. 2 is a flowchart showing an example of processing operations in the speech synthesizer 10.
- the processing shown in this flowchart is started.
- the pitch of the answer voice data is higher than the pitch of the user's voice (question) will be described as an example.
- step Sa11 the audio signal received by the audio receiving unit 102 is supplied to the audio feature amount acquiring unit 106.
- step Sa12 the audio feature amount acquisition unit 106 performs analysis processing on the audio signal from the audio reception unit 102, that is, the pitch of the representative section of the utterance (that is, the question or the inquiry) uttered by the user. Execute the process to detect.
- step Sa13 the answer composition unit 116 determines whether or not the answer is being reproduced.
- step Sa13 determines whether or not the answer is not being played back (if the determination result in step Sa13 is “No”). If the answer is not being played back (if the determination result in step Sa13 is “No”), the audio feature quantity acquisition unit 106 determines whether or not the inquiry (speech) of the audio signal from the audio reception unit 102 has ended. A determination is made (step Sa14). Note that whether or not the inquiry has ended is specifically determined based on, for example, whether or not a state in which the volume of the audio signal has become less than a predetermined threshold has continued for a predetermined time.
- step Sa14 If the inquiry has not ended (if the determination result in step Sa14 is “No”), the processing procedure returns to step Sa11, whereby the audio feature quantity acquisition unit 106 receives the audio signal from the audio reception unit 102. Continue the analysis process.
- step Sa14 If the question has been completed (if the determination result in step Sa14 is “Yes”), the pitch shift amount determination unit 114 reproduces the pitch when the voice data of the answer selected by the answer selection unit 110 is reproduced.
- the shift amount is determined as will be described later (step Sa15).
- the pitch shift amount determination unit 114 notifies the answer composition unit 116 of the determined pitch shift amount, and instructs the reproduction of the voice data of the response selected by the response selection unit 110 (step Sa16).
- the answer synthesizer 116 shifts and reproduces the audio data by the pitch shift amount determined by the pitch shift amount determiner 114 (step Sa17).
- step Sa13 when the answer composition unit 116 determines that the answer is being reproduced (when the determination result in step Sa13 is “Yes”), the answer is being reproduced according to a certain question. For example, when the following question is asked by the user. In this case, the processing procedure does not return the path of steps Sa14 and Sa11, and proceeds to step Sa17, so that the reproduction of the answer has priority.
- FIG. 3 is a flowchart showing details of the process of step Sa15 in FIG. 2, that is, the process of determining the pitch shift amount of the answer voice data.
- the premise for executing this process is that the answer composition unit 116 is not reproducing the answer (the determination result in step Sa13 is “No”), and the user has finished inputting the question ( The determination result of step Sa14 is “Yes”).
- the voice feature amount acquisition unit 106 detects the pitch of the representative section of the question (speech).
- the answer selection unit 110 selects voice data of the answer to the question by the user from the answer library 124, the voice data of the selected answer, and data indicating the average pitch associated with the voice data Is read.
- the answer pitch acquisition unit 112 acquires data indicating the average pitch among the read data as a pitch (representative pitch) based on the voice data of the answer (step Sb12).
- the pitch shift amount determination unit 114 has a predetermined relationship (for example, 5 degrees) with respect to the pitch of a representative section of the question (speech) detected by the voice feature amount acquisition unit 106 (step Sb11).
- the pitch in the lower part is provisionally determined as the target pitch when answering with voice data (step Sb13).
- the pitch shift amount determination unit 114 determines the tentatively determined target pitch (steps Sb16 and Sb18 described below in addition to step Sb13) from the average pitch of the answers acquired by the response pitch acquisition unit 112.
- the pitch shift amount up to is calculated (step Sb14).
- the pitch shift amount determination unit 114 determines whether or not the target pitch (the target pitch after the shift) when the average pitch of the answer is shifted by the pitch shift amount is lower than the lower limit threshold (step Sb15).
- the lower limit threshold value is a threshold value indicating how much a lower pitch is allowed with respect to the average pitch of answers, and will be described in detail later.
- step Sb15 If the target pitch after the shift is lower than the lower threshold (if the determination result in step Sb15 is “Yes”), the pitch shift amount determination unit 114 raises the target pitch of the tentatively determined answer by one octave. Then, the pitch raised by one octave is provisionally determined again as the target pitch when replying with voice data (step Sb16). After this, the processing procedure returns to step Sb14, the pitch shift amount is calculated again, and the determinations of steps Sb15 and Sb17 are executed.
- the pitch shift amount determination unit 114 determines that the target pitch after the shift is the upper limit threshold. Or not (step Sb17).
- the upper limit threshold value is a threshold value indicating how much pitch is allowed to be higher than the average pitch of answers, and details will be described later.
- step Sb17 If the target pitch after the shift is higher than the upper limit threshold (if the determination result in step Sb17 is “Yes”), the pitch shift amount determination unit 114 lowers the target pitch of the tentatively determined answer by one octave. Then, the target pitch lowered by one octave is provisionally determined again as the target pitch when replying with voice data (step Sb18). After this, the processing procedure returns to step Sb14, the pitch shift amount is calculated again, and the determinations of steps Sb15 and Sb17 are executed.
- the target pitch after the shift is not higher than the upper limit threshold (if the determination result in step Sb17 is “No”), the target pitch after the shift is a predetermined value that is equal to or higher than the lower limit threshold and equal to or lower than the upper limit threshold. It means that it is within the pitch range. For this reason, the pitch shift amount determination unit 114 shifts the processing procedure to step Sb19, sets the target pitch currently in the tentative determination stage as the final determination, and sets the corresponding pitch shift amount to the answer composition unit 116. Notice.
- FIG. 4 is a diagram illustrating the relationship between a question (speech) input by the user and an answer synthesized by the speech synthesizer 10 with the pitch as the vertical axis and the time as the horizontal axis.
- the solid line indicated by the symbol T1 simply indicates a change in the pitch of the question by the user as a straight line.
- a symbol P1 is a pitch of a specific section in the question T1.
- the solid line indicated by reference symbol A1 is a diagram simply showing the change in pitch when the voice data of the answer selected for the question T1 is reproduced as a standard, and reference symbol P2 indicates the average It is pitch.
- the pitch of the specific section of the question is far away from the average pitch of the answer (for example, if the user making the question is male and the answer model is female), the direction of decreasing the pitch If the playback is shifted to, it tends to be unnatural and remarkably deteriorated.
- the average pitch P2 of the original answer A1 is maintained while maintaining that the target pitch of the answer synthesized by the answer synthesis unit 116 has a specific relationship with the pitch P1.
- the pitch P2-1 of the answer A1-1 is shifted step by step in octave units until it falls within a predetermined pitch range.
- the answer A1-4 is increased by 3 octaves from the answer A1-1 to the answer A1-2 and the answer A1-3 until it falls within the pitch range based on the pitch P2 of the answer A1. It is an example.
- the pitch difference amount from the average pitch P2 to the lower limit threshold Pth_L among the pitch ranges set with reference to the average pitch P2 of the answer A1 is defined by the code T_L, and the upper limit threshold Pth_H.
- the pitch difference amount until is defined by the code T_H. That is, the lower limit threshold Pth_L is a relative value defined by the pitch difference amount T_L based on the average pitch P2 of the answer A1, and similarly, the upper limit threshold Pth_H is a pitch based on the average pitch P2. It is a relative value defined by the difference amount T_H.
- the lower limit threshold value Pth_L and the upper limit threshold value Pth_H that define the pitch range of the answer are different for each answer.
- the pitch difference amount By relatively defining the pitch difference amount with reference to P2, there is no need to store the lower limit threshold value Pth_L and the upper limit threshold value Pth_H in advance for each answering voice data.
- the pitch P2-1 is in a relationship of the Kyowa interval with the pitch P1 of the question T1
- the pitch P2-4 is in a relationship of 3 octaves above the pitch P2-1. For this reason, since the relation of the integer ratio is maintained between the frequency of the pitch P2-4 and the frequency of the pitch P2-1, the pitch P1 and the pitch P2-4 are almost the same. The relationship of Kyowa intervals will be maintained.
- the answer A1-2 may be decided and reproduced. However, just shifting it one octave higher than the answer A1-1 as in A1-2, the amount of shift from the original answer A1 is large, and still unnatural or the degree of quality degradation in the sense of hearing. Since there are cases where it cannot be overlooked, control is performed so that it falls within a predetermined pitch range as described above.
- the answer to the question issued by the user can be synthesized (reproduced) without being mechanical, unnatural, and preventing deterioration in quality of hearing. Further, it is not necessary to add attribute information indicating whether the answer is female or male to the voice data of the answer, and determine the pitch shift amount according to the attribute information.
- FIGS. 5A and 5B the horizontal axis represents time, and in FIG. 5A, the vertical axis represents pitch, and (b) The vertical axis is the volume.
- symbol Av is the pitch change width of the answer A1
- symbol d is the time from the end of the question T1 until the response A1 starts to be reproduced
- symbol Ad is the reproduction time of the answer A1.
- symbol Tg shows the time change of the sound volume in the question T1
- symbol Ag shows the time change of the sound volume in the answer A1.
- the playback speed of the answer A1 is increased to play back like the answer A11, and the time d11 from the end of the question T1 to the start of playback of the answer A11 is expressed as time It is shorter than d, and the volume Ag11 of the answer A11 is larger than the volume Ag.
- an answer expressing anger can be output. Note that since the playback speed of the answer A11 is increased, the playback time Ad11 of the answer A11 is shorter than the playback time Ad of the answer A1.
- the playback speed of the answer A1 is slowed down and played back as the answer A12, and the time d12 from the end of the question T1 to the start of playback of the answer A12 is set.
- the volume Ag12 of the answer A12 is made smaller than the volume Ag.
- the playback speed of the answer A12 is slow, the playback time Ad12 of the answer A12 is longer than the playback time Ad of the answer A1.
- the answer A13 is reproduced like the answer A13 so that the pitch increases with respect to the answer A1, that is, the answer A13 changes in pitch.
- Reproduction is performed so as to increase by the width Av13. This makes it possible to output an answer that asks the utterance (question) in reverse.
- the pitch change width (including the height direction) of the answer to the question T1 the time from the end of the question T1 until the answer starts to be reproduced, the answer playback volume,
- the response playback speed or the like may be set by the user or the like via the operation input unit.
- FIG. 9 is a diagram illustrating a relationship between detection of a speech segment, a non-speech segment, and a voiced segment and a sound volume threshold in an application example (No. 4).
- the temporal change in pitch is shown in (a)
- the temporal change in volume is shown in (b). Specifically, it is shown that the pitch and volume gradually increase and then start to decrease from the middle.
- the threshold value Thvg_H is applied when the pitch (pitch) can be detected from the audio signal, and is applied when the volume of the question is in the increasing direction, and the utterance period when the volume exceeds the threshold Thvg_H. And the start of a voiced interval is detected.
- the threshold value Thvg_L is applied when the pitch can be detected from the audio signal, and is applied when the volume of the question is in the descending direction, and is detected as the end of the voiced section when the volume is less than the threshold Thvg_L. .
- Thvg_H Thvg_L> Thuvg
- the maximum value of the pitch in the voiced section detected by the thresholds Thvg_H and Thvg_L may be detected as the pitch of the representative section in the utterance (question). Moreover, if the voiced section detected in this way is a relatively short time, it is assumed that noise is picked up as an audio signal. For this reason, as a condition for detection as a voiced section, when a pitch can be detected from a voice signal and the volume of the question is in an increasing direction, a predetermined time or more has elapsed since the threshold Thvg_H or higher. This may be a requirement.
- the pitch is detected from the audio signal as a condition for detection as an unvoiced section. In a possible case, it may be a requirement that a predetermined time elapses after the volume of the question is in the descending direction and becomes less than the threshold Thvg_L.
- the highest value of the pitch in the previous voiced section may be detected as the pitch of the specific section in the question.
- the last section of the voiced section set as the representative section is an unvoiced sound (in short, a sound that is not accompanied by vocal cord vibration when speaking)
- the pitch of the unvoiced sound part may be estimated from the immediately voiced sound part.
- the last area of the voiced area was set as a typical area of the utterance (question) by a speaker (user), it is not restricted to this. For example, it may be a head section or a configuration in which the user can arbitrarily set which section of the utterance (question) is set as the representative section.
- it instead of using two of the volume and the pitch for detecting the voiced section, it may be detected using either one, and the user determines which one is used to detect the voiced section. You may make it selectable.
- the answer voice data stored in the answer library 124 may be stored with the same answer voice over a plurality of people such as persons A, B, C,. For the persons A, B, C,..., For example, as celebrities, talents, singers, etc., audio data may be made into a library for each person.
- the answer voice data may be stored in the answer library 124 via a medium such as a memory card, or the voice synthesizer 10 is provided with a network connection function to answer from a specific server. May be downloaded and stored in the answer library 124. When obtaining the answer voice data from the memory card or the server, it may be free or paid.
- a configuration in which the user can select a person as a model can be selected by an operation input unit or the like.
- the answer voice model may be determined at random for each condition (day, week, month, etc.).
- the voice data of the answer is recorded by the voice of the user himself / herself, the user's family or acquaintance via the microphone of the voice receiving unit 102 (or converted into data by a separate device) ) May be recorded in the library.
- the voice data of the answer is recorded by the voice of the user himself / herself, the user's family or acquaintance via the microphone of the voice receiving unit 102 (or converted into data by a separate device) ) May be recorded in the library.
- the answer voice may be made of a call from an animal (dog, cat, etc.), or may be configured such that the type of animal or the type of dog can be selected as appropriate. In this way, by using an answer as an animal call, it is possible to obtain a kind of healing effect as if it were interacting with the animal.
- the answer pitch acquisition unit 112 analyzes the voice data of the answer determined by the answer selection unit 110, acquires an average pitch when the voice data is reproduced as a standard, and obtains this pitch.
- the indicated data may be supplied to the pitch shift amount determination unit 114. According to this configuration, there is no need to store data indicating the pitch based on the answer voice data in the answer library 124 in advance in association with the answer voice data.
- the pitch band of the answer voice data is higher than the pitch of the utterance (question) by the speaker (user) has been described as an example.
- the pitch band of the answer voice data may be lowered with respect to the pitch of the utterance (question) by the person.
- voice input part (reception part) 102 is a user, it is not restricted to this,
- a third party or an automatic speech generator is a speaker. It may be.
- the voice uttered by the speaker may be generated from a third party via a communication network, or may be generated from another voice synthesizer.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Toys (AREA)
- Machine Translation (AREA)
Abstract
話者(利用者)が発した音声に対して回答音声を自動的に発生する技術の改良であり、発話音声の音高に応じて回答音声の音高を制御することを特徴とする。話者が発した発話(例えば問い掛け)の音声信号を受信し(102)、該発話の代表的区間の音高(例えば最高音高)を検出する(106)。該発話に対する回答の音声データを適宜に取得し(110,124)、かつ、取得された前記回答の音声データに基づく音高(例えば平均音高)を取得する(112)。前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する(114)。前記回答の音声データに基づき該回答の音声を合成する際に、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトする(116)。
Description
本発明は、音声合成装置および方法に関し、さらには該方法を実行するためのプログラムを記憶した記憶媒体に関する。
近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による問い掛けに対し、当該問い掛けに対する相槌などの回答を音声合成により出力する対話システムを想定してみる。この想定では、音声合成によって出力される音声が、利用者に、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、問い掛けに対する回答を自動的に音声合成する場合に、利用者に不自然な感じを与えず、また、聴感上の品質劣化を防止して音声を合成することが可能な音声合成装置を提供することにあり、さらにはそのような音声合成方法、及び該方法を実行するためのプログラムを記憶した記憶媒体を提供しようとするものである。
まず、利用者による問い掛けに対する回答を音声合成で出力するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、言語的情報以外の情報、とりわけ対話を特徴付ける音高(周波数)に着目して考察する。人同士の対話として、一方の人(aとする)による発話(問い掛け、あるいは問いなど)に対し、他方の人(bとする)が返答する場合について検討する。この場合において、aが問い掛けを発したとき、aだけなく、当該問い掛けに対して回答しようとするbも、当該問い掛けのうちの、特定区間における音高を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問い掛けの音高に対し、当該回答を特徴付ける部分の音高が、特定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたaは、自己の問い掛けについて印象に残っている音高と当該問い掛けに対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と考えられる。このように人同士の対話では、問い掛けの音高と回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。このような考察を踏まえて、利用者による問い掛けに対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該音声合成について上記目的を達成するために、次のような構成とした。
すなわち、上記目的を達成するために、本発明に係る音声合成装置は、発話の音声信号を受信する受信部と、前記受信した音声信号に基づき、前記発話の代表的区間の音高を検出する音高検出部と、前記発話に対する回答の音声データを取得する回答取得部と、取得された前記回答の音声データに基づく音高を取得する音高取得部と、前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する音高シフト量決定部と、前記回答の音声データに基づき該回答の音声を合成する回答合成部であって、該回答合成部は、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトするように構成されているものと、を具備する。
これによれば、受信した発話の代表的区間の音高を検出し、該代表的区間の音高に対して特定の関係を持つ目標音高に応じて音高シフト量を決定し、合成する回答の音声の音高を該音高シフト量に応じてシフトするので、受信した発話の音声(例えば利用者が発した問い掛け)に対する回答の音声を、該発話(問い掛け)の音高に対して特定の関係を持つ音高で合成することができるので、不自然でなく、かつ、高品質な回答音声を合成(再生)することができる。なお、本発明において、話者(利用者)から受信される発話の音声信号は、1センテンスあるいは1乃至数フレーズ又は一声等の比較的短い言語音声からなる。
なお、回答には、受信した発話の内容(問い掛け)に対する具体的な答えに限られず、相槌(間投詞)も含まれる。また、回答には、人による声のほかにも、「ワン」(bowwow)、「ニャー」(meow)などの動物の鳴き声も含まれる。すなわち、ここでいう回答や音声とは、人が発する声のみならず、動物の鳴き声を含む概念である。
受信した発話音声の代表的区間の音高とは、受信した発話音声の音高的特徴を代表するものを指す。例えば、発話音声の趣旨を強く印象づける区間の音高であり、具体的には、音量が所定値以上である区間の最高音高や、発話音声(問い)の末尾区間の音高であってよい。
前記音高取得部によって取得される前記回答の音声データに基づく音高とは、例えば該回答の音声データを標準的音高帯域で再生したときの特徴的な部分での音高であってよく、例えば、特徴的な部分とは語頭部分の音高、音量が最も高い部分での音高のほか、平均音高などであってよい。
一実施例において、前記音高シフト量決定部は、前記代表的区間の音高に対して協和音程をなす音高を前記目標音高として定めるようにしてよい。協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。
一実施例において、前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高を定めるようにしてよい。音声データを音高シフト量だけシフトする場合に、そのシフト量が大きければ、劣化するが、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高を定めることにより、そのような劣化を防止することができる。また、一実施例において、前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高をオクターブ単位で調整するようにしてよい。
一実施例において、前記音高検出部は、前記受信した音声信号の音量が所定値以上である区間における最高音高を、前記代表的区間の音高として検出するようにしてよい。このときの所定値以上であることの判別において、ヒステリシス特性を持たせて判別しても良いし、音高が検出可能であることを条件として追加してもよい。
本発明は、上述したような装置の発明のみならず方法の発明としても構成され具体化され得る。また、本発明は、コンピュータ又はDSP(デジタル信号処理器)のようなプロセッサによって実行可能なソフトウェアプログラムとして、また、そのようなソフトウェアプログラムを記憶した非一過性のコンピュータ読み取り可能な記憶媒体としても、構成され具体化され得る。その場合、該プログラムは該記憶媒体内においてユーザに提供され、それから該ユーザのコンピュータ内にインストールされるか、若しくは、サーバ装置から通信ネットワークを介してクライアントのコンピュータに配信され、それから該クライアントのコンピュータ内にインストールされるようになっていてよい。更に、本発明において使用されるプロセッサとは、任意のソフトウェアプログラムを起動させることができるコンピュータ又はその他の汎用プロセッサのみを言うのではなく、ハードウェアで組み立てられた専用ロジック回路を具備した専用プロセッサであってもよい。
以下、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る音声合成装置10の構成を示す図である。この音声合成装置10は、例えば、ぬいぐるみに組み込まれて、話者(利用者)が当該ぬいぐるみに問い掛けを発したときに、相槌などの回答を自動的に音声合成して出力するように構成されている。音声合成装置10は、CPU(Central Processing Unit)や、音声受信部102、スピーカ142等を有し、当該CPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声合成装置10では、音声特徴量取得部106、回答選択部110、回答音高取得部112、音高シフト量決定部114および回答合成部116が構築される。
なお、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、管理者又は利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定などができるようになっている。また、音声合成装置10は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。
音声受信部102は、詳細については省略するが、話者(利用者)が発した音声信号を受信し、該音声信号を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するA/D変換器とで構成される。
音声特徴量取得部106(音高検出部)は、音声受信部102で受信さけた音声信号(デジタル信号に変換された音声信号)を解析処理して、当該音声信号を発話区間および非発話区間に分別するとともに、発話区間のうち、有声区間における特定区間の音高を検出し、当該音高を示すデータを回答選択部110および音高シフト量決定部114に供給する。ここで、発話区間とは、例えば音声信号の音量が閾値以上となる区間をいい、反対に、非発話区間とは、音声信号の音量が閾値未満となる区間をいう。また、有声区間とは、発話区間のうち、音声信号の音高(ピッチ)が検出可能な区間をいう。音高が検出可能な区間とは、音声信号に周期的な部分があって、その部分が検出可能であることを意味する。
なお、音声特徴量取得部106(音高検出部)により前記受信した音声信号の音高を検出する対象となる前記特定区間とは、該音声信号により示された発話の代表的区間である。この特定区間(代表的区間)としては、発話(例えば問い掛け)の特徴を代表する区間であれば、発話区間の全部又は一部であってもよい。一例として、前記受信した音声信号の有声区間のうちの末尾区間を該特定区間(代表的区間)とし、検出すべき音高として、当該末尾区間における最高音高を検出するものとしている。一例として、該末尾区間とは、有声区間の終了時点と該終了時点から所定時間(例えば180msec)遡った時点との間の区間、つまり有声区間の末尾の所定時間幅(例えば180msec)からなる区間である。有声区間については後述するように、音声信号の音量を2つ(または3つ以上)の閾値で判別しても良い。また、該特定区間(代表的区間)における最高音高に限らず、最低音高あるいは平均音高等を検出するようにしてもよい。
回答ライブラリ124は、利用者による発話(例えば問い掛け)に対する各種の回答の音声データを、予め複数記憶する。この音声データは、モデルとなる適宜の人物の音声を録音したものからなり、例えば、「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような、質問に対する一般的な若しくは典型的な返事や相槌など、複数種の回答パターンからなっていてよい。回答の音声データは、例えばwavやmp3などの適宜のフォーマットで記憶され、標準で再生したときの該回答音声波形1周期又は複数周期毎の音高と、それらの平均音高が予め求められて、その平均音高(回答に基づく音高)を示すデータが当該音声データに対応付けられて回答ライブラリ124に記憶されている。なお、ここでいう標準で再生とは、音声データを録音時の条件(サンプリング周波数)と同じ条件で再生する、という意味である。
回答選択部110(回答取得部)は、音声特徴量取得部106から前記代表的区間の音高を示すデータが出力された場合、当該音声に対する回答の音声データを、回答ライブラリ124から1つを選択し、当該選択した回答の音声データを、対応付けられた平均音高を示すデータとともに、読み出して出力する。回答選択部110が、複数の回答音声データのうち、1つの回答音声データをどのようなルールで選択するかの手法については、例えばランダムで選択してもよいし、発話(問い掛け)の代表的区間の音高に対して平均音高が最も近い回答音声データを選択するようにしてもよい。なお、その場合、本実施形態において、選択される回答については、利用者の発した問い掛けの意味内容が考慮されないことになるが、この音声合成装置10を、利用者が発した問い掛けに対し、回答として単なる相槌等を返す装置としてみれば、これで十分である。しかし、それに限らず、図1において破線で示されるように言語解析部108を設けて、当該言語解析部108により前記受信された音声信号で規定される発話(例えば問い掛け)の意味内容を解析し、回答選択部110が、データベース等を介して当該発話(問い掛け)の意味内容にふさわしい回答を選択若しくは作成するように構成してもよい。
回答音高取得部112は、取得された前記回答の音声データに基づく音高(代表的音高)を取得するように構成されている。一例として、回答音高取得部112は、回答選択部110で読み出されたデータのうち、回答の平均音高を示すデータを抜き出して、前記回答の音声データに基づく音高(代表的音高)として取得する。回答音高取得部112によって取得した前記回答の平均音高を示すデータは音高シフト量決定部114に供給される。
音高シフト量決定部114は、前記回答音高取得部112によって取得された音高(回答の平均音高)を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する。好ましい実施例において、前記音高シフト量決定部114は、前記目標音高が前記取得された音高(回答の平均音高)から所定範囲内に収まるように該目標音高を定める。すなわち、音高シフト量決定部114は、音声特徴量取得部106から出力された音声信号における前記代表的区間の音高と、回答音高取得部112から出力された前記回答の平均音高との差から、回答の音声データを再生する際における音高を制御するための音高シフト量を、後述するようなやり方で決定する。
回答合成部116は、回答ライブラリ124から読み出された回答の音声データに基づき該回答の音声を再生(合成)するもので、その際に、再生(合成)する前記回答の音声の音高を前記音高シフト量決定部114で決定され前記音高シフト量に応じてシフトする。なお、音高がシフトされた回答音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて空間的に出力される。
なお、前記回答音高取得部112が取得する前記回答の音声データに基づく音高(代表的音高)は、前記回答の平均音高に限らず、他のタイプの音高であってもよい。例えば、音高の中間値でもよいし、回答音声データの所定の一部区間の平均音高でもよく、それを対応する回答音声データに対応づけて前記回答ライブラリ124に予め記憶しておき、音高シフト量決定部114における音高シフト量の決定のために用いるようにしてよい。
次に、音声合成装置10の動作について説明する。図2は、音声合成装置10における処理動作の一例を示すフローチャートである。はじめに、音声合成装置10が適用されたぬいぐるみに対して、利用者が音声で問い掛けを発したときに、このフローチャートで示される処理が起動される。なお、ここでは便宜的に、利用者の発話音声(問い掛け)の音高に対して回答の音声データの音高が高い場合を例にとって説明する。
まず、ステップSa11において、音声受信部102によって受信された音声信号が音声特徴量取得部106に供給される。次に、ステップSa12において、音声特徴量取得部106は、音声受信部102からの音声信号に対して解析処理、すなわち利用者が発した発話(すなわち、問い若しくは問い掛け)の代表的区間の音高を検出する処理を実行する。ステップSa13において、回答合成部116によって回答が再生中であるか否かが判別される。
回答が再生中でなければ(ステップSa13の判別結果が「No」であれば)、音声特徴量取得部106は、音声受信部102からの音声信号の問い(発話)が終了したか否かを判別する(ステップSa14)。なお、問いが終了したか否かについては、具体的には、例えば、音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判別される。
問いが終了していなければ(ステップSa14の判別結果が「No」であれば)、処理手順がステップSa11に戻り、これにより、音声特徴量取得部106は、音声受信部102からの音声信号の解析処理を継続する。
問いが終了していれば(ステップSa14の判別結果が「Yes」であれば)、音高シフト量決定部114は、回答選択部110により選択された回答の音声データを再生する際の音高シフト量を、後述するように決定する(ステップSa15)。
そして、音高シフト量決定部114は、決定した音高シフト量を回答合成部116に通知して、回答選択部110により選択された回答の音声データの再生を指示する(ステップSa16)。この指示にしたがって回答合成部116は、当該音声データを、音高シフト量決定部114で決定された音高シフト量だけシフトして再生する(ステップSa17)。
なお、ステップSa13において、回答合成部116によって回答が再生中であると判別される場合(ステップSa13の判別結果が「Yes」となる場合)とは、ある問いに応じて回答を再生中に、次の問いが利用者によって発せられた場合などである。この場合、処理手順は、ステップSa14、Sa11という経路を戻らず、ステップSa17に移行するので、回答の再生が優先されることになる。
図3は、図2におけるステップSa15の処理、すなわち回答の音声データの音高シフト量を決定する処理の詳細を示すフローチャートである。なお、この処理が実行されるための前提は、回答合成部116が回答を再生中でなく(ステップSa13の判別結果が「No」)、かつ、利用者により問いの入力が終了している(ステップSa14の判別結果が「Yes」)、ことである。まず、ステップSb11において、前記音声特徴量取得部106により問い(発話)の代表的区間の音高を検出する。
一方、回答選択部110は、利用者による問いに対する回答の音声データを、回答ライブラリ124から選択し、当該選択した回答の音声データと、当該音声データに対応付けられた平均音高を示すデータとを読み出す。回答音高取得部112は、該読み出されたデータのうちの平均音高を示すデータを、前記回答の音声データに基づく音高(代表的音高)として取得する(ステップSb12)。
次に、音高シフト量決定部114は、前記音声特徴量取得部106(ステップSb11)により検出された前記問い(発話)の代表的区間の音高に対して、所定の関係(例えば5度下)にある音高を、音声データで回答する際の目標音高として仮決定する(ステップSb13)。
続いて、音高シフト量決定部114は、前記回答音高取得部112により取得された前記回答の平均音高から、前記仮決定した目標音高(ステップSb13のほか、後述するステップSb16、Sb18で変更された音高を含む)までの音高シフト量を算出する(ステップSb14)。音高シフト量決定部114は、回答の平均音高を音高シフト量だけシフトした場合の目標音高(シフト後の目標音高)が下限閾値よりも低いか否かを判別する(ステップSb15)。ここで、下限閾値とは、回答の平均音高に対して、どれだけ低い音高まで許容するのかを示す閾値であり、詳細について後述する。
シフト後の目標音高が下限閾値よりも低ければ(ステップSb15の判別結果が「Yes」であれば)、音高シフト量決定部114は、仮決定した回答の目標音高を1オクターブ引き上げて、当該1オクターブ上げた音高を、音声データで回答する際の目標音高として再度仮決定する(ステップSb16)。なお、この後、処理手順がステップSb14に戻り、再度、音高シフト量が算出されて、ステップSb15、Sb17の判別が実行されることになる。
一方、シフト後の目標音高が下限閾値よりも低くなければ(ステップSb15の判別結果が「No」であれば)、音高シフト量決定部114は、当該シフト後の目標音高が上限閾値よりも高いか否かを判別する(ステップSb17)。ここで、上限閾値とは、回答の平均音高に対して、どれだけ高い音高まで許容するのかを示す閾値であり、詳細については後述する。
シフト後の目標音高が上限閾値よりも高ければ(ステップSb17の判別結果が「Yes」であれば)、音高シフト量決定部114は、仮決定した回答の目標音高を1オクターブ引き下げて、当該1オクターブ下げた目標音高を、音声データで回答する際の目標音高として再度仮決定する(ステップSb18)。なお、この後、処理手順がステップSb14に戻り、再度、音高シフト量が算出されて、ステップSb15、Sb17の判別が実行されることになる。
シフト後の目標音高が上限閾値よりも高くなければ(ステップSb17の判別結果が「No」であれば)、当該シフト後の目標音高が、下限閾値以上であって上限閾値以下の所定の音高範囲内に収まっていることを意味する。このため、音高シフト量決定部114は、処理手順をステップSb19に移行させ、現時点において仮決定の段階にある目標音高を本決定として、それに対応する音高シフト量を回答合成部116に通知する。
図4は、利用者によって音声入力された問い(発話)と、音声合成装置10により合成される回答との関係を、音高を縦軸に、時間を横軸にとって例示した図である。この図において、符号T1で示される実線は、利用者による問いの音高変化を簡易的に直線で示している。符号P1は、この問いT1における特定区間の音高である。また、図において、符号A1で示される実線は、問いT1に対して選択された回答の音声データを標準で再生したときの音高変化を簡易的に示す図であり、符号P2は、その平均音高である。
問いT1に対して、回答A1の音高をシフトさせずに再生すると、機械的な感じを受けやすい。このため、本実施形態では、第1に、問いT1の特徴的で印象的な部分である代表的区間(語尾)の音高P1に対して、協和音程の例えば5度下の関係にある音高P2-1となるように、回答A1をシフトさせた回答A1-1で再生しようとする。なお、符号D1は、音高P1と音高P2-1との音高差である。ただし、回答A1に対する回答A1-1の音高シフト量D2が大きすぎると、音高シフトした回答A1-1を再生したときに聴感上の品質が劣化する。特に、問いの特定区間の音高と回答の平均音高とが大きく離れている場合(例えば、問いを発する利用者が男性で、回答のモデルが女性である場合)、音高を低くする方向にシフトさせて再生すると、不自然になりやすく、また、著しく劣化しやすい。
そこで、本実施形態では、第2に、回答合成部116で合成させる回答の目標音高が音高P1に対して特定の関係となることを維持しつつ、元の回答A1の平均音高P2に対して、所定の音高範囲に収まるまで、回答A1-1の音高P2-1を、オクターブ単位で段階的にシフトさせる構成となっている。図4の例において、回答A1-4は、回答A1の音高P2を基準にした音高範囲に収まるまで、回答A1-1から回答A1-2、回答A1-3を経て、3オクターブ高めた例である。
図4において、回答A1の平均音高P2を基準にして設定される音高範囲のうち、当該平均音高P2から、下限閾値Pth_Lまでの音高差分量が符号T_Lで規定され、上限閾値Pth_Hまでの音高差分量が符号T_Hで規定される。すなわち、下限閾値Pth_Lは、回答A1の平均音高P2を基準にして音高差分量T_Lで規定される相対値であり、同様に、上限閾値Pth_Hは、平均音高P2を基準にして音高差分量T_Hで規定される相対値である。回答ライブラリ124に記憶された回答の音声データは複数存在するので、回答の音高範囲を規定する下限閾値Pth_Lおよび上限閾値Pth_Hについては、回答毎に異なることになるが、このように平均音高P2を基準にして音高差分量で相対的に規定することによって、回答の音声データ毎に下限閾値Pth_Lおよび上限閾値Pth_Hを予め対応付けて記憶させる必要がない。
なお、音高P2-1は、問いT1の音高P1に対して協和音程の関係にあり、音高P2-4は、当該音高P2-1に対して3オクターブの上の関係にある。このため、音高P2-4の周波数と、音高P2-1の周波数とは、整数比の関係が維持されていることになるので、音高P1と音高P2-4とについても、ほぼ協和音程の関係が維持されることになる。
また例えば、回答A1-2を本決定して再生して良い場合もある。しかし、A1-2のように回答A1-1よりも1オクターブ上にシフトしただけでは、元の回答A1からのシフト量が大きく、なおも不自然であったり、聴感上の品質劣化の程度が看過できなったりすることがあるので、上述のように所定の音高範囲に収まるように制御している。
本実施形態によれば、利用者が発した問いに対する回答を、機械的ではなく、調子が不自然でもなく、かつ、聴感上の品質の劣化を防いで、合成(再生)することができる。また、回答の音声データに、当該回答は女性であるのか、男性であるのかを示す属性情報を付与して、当該属性情報に応じて音高のシフト量を決定する必要もない。
本実施形態では、次に例示するように回答を合成することで、怒りの回答、気のない回答など、感情を伴った回答を合成することができる。なお、図5は、次の各用語を説明するための図であり、図5(a)(b)において横軸は時間であり、(a)において縦軸は音高であり、(b)において縦軸は音量である。図において、符号Avは、回答A1の音高変化幅であり、符号dは、問いT1の終了から回答A1が再生開始されるまでの時間であり、符号Adは、回答A1の再生時間である。また、符号Tgは、問いT1における音量の時間的変化を示し、符号Agは、回答A1における音量の時間的変化を示す。
例えば、図6に示される応用例(その1)では、回答A1の再生速度を高めて回答A11のように再生し、問いT1の終了から回答A11が再生開始されるまでの時間d11を、時間dよりも短くし、かつ、回答A11の音量Ag11を音量Agよりも大きくしている。これによって、怒りを表現した回答を、出力することができる。なお、回答A11の再生速度が高められているので、当該回答A11の再生時間Ad11は、回答A1の再生時間Adよりも短くなっている。
また例えば、図7に示される応用例(その2)では、回答A1の再生速度を遅くして回答A12のように再生し、問いT1の終了から回答A12が再生開始されるまでの時間d12を、時間dよりも長くし、かつ、回答A12の音量Ag12を音量Agよりも小さくしている。これによって、いわゆる、気のない感情を表現した回答を、出力することができる。なお、回答A12の再生速度が遅くなっているので、当該回答A12の再生時間Ad12は、回答A1の再生時間Adより長くなっている。
加えて、図8に示される応用例(その3)では、回答A1に対して末尾に向かって音高が上昇するように回答A13のように再生することによって、すなわち、回答A13が音高変化幅Av13だけ上昇するように再生している。これによって、発話(問い)に対して逆に問い掛けるような回答を出力することができる。
このように感情を伴った回答を合成する際に、問いT1に対する回答の音高変化幅(高低方向含む)や、問いT1の終了から回答が再生開始されるまでの時間、回答の再生音量、回答の再生速度などについては、利用者等が上記操作入力部などを介して設定できる構成としてもよい。また、怒りの回答、気のない回答、問い掛けるような回答の種類を利用者が選択できる構成としてもよい。
また、利用者により発せられた発話(問い掛け)の音声信号から、発話区間、有声区間等を次のように検出しても良い。図9は、応用例(その4)において、発話区間、非発話区間および有声区間の検出と、音量の閾値との関係を示す図である。この図では、利用者が発した発話(問い掛け)について、音高の時間的変化が(a)に、音量の時間的変化が(b)に、それぞれ示される。詳細には、音高および音量が徐々に上昇し、途中から下降に転じる様子が示されている。
ここで、閾値Thvg_Hは、音声信号から音高(ピッチ)が検出可能な場合であって、問いの音量が上昇方向であるときに適用され、音量が当該閾値Thvg_H以上になったときに発話区間および有声区間の開始と検出される。閾値Thvg_Lは、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに適用され、音量が当該閾値Thvg_L未満になったときに有声区間の終了と検出される。
発話においては、音量が閾値Thvg_L未満になっても、音量の揺れ戻しなどがある。そこで、この図の例では、問いの音声信号から音高が検出できる下限の閾値Thuvgを用意し、問いの音量が下降方向である場合であって、当該音量が閾値Thvg_L未満になった後、さらに閾値Thuvg未満になったときに、発話区間が終了(非発話区間の開始)と検出している。なお、閾値Thvg_H、Thvg_L、Thuvgについては、
Thvg_H>Thvg_L>Thuvg
という関係にある。
Thvg_H>Thvg_L>Thuvg
という関係にある。
閾値Thvg_H、Thvg_Lによって検出した有声区間における音高の最高値を、発話(問い掛け)における前記代表的区間の音高として検出してもよい。また、このようにして検出される有声区間は、比較的短い時間であれば、音声信号としてノイズを拾ってしまうことが想定される。このため、有声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が上昇方向であるときに、閾値Thvg_H以上になってから所定時間以経過したことを要件としてもよい。
非有声(無声)区間は、比較的短い時間であれば、発話(問い掛け)が終了していないことが想定されるので、無声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに、閾値Thvg_L未満になってから所定時間経過したことを要件としてもよい。もちろん、音量が閾値Thvg_H以上になってから所定時間以経過したことを要件として検出した有声区間の後に、音量が閾値Thvg_L未満になってから所定時間経過したことを要件として無声区間を検出したときに、先の有声区間での音高の最高値を、問いにおける特定区間の音高として検出してもよい。
なお、話者(利用者)による発話(問い掛け)において、代表的区間として設定した有声区間の末尾区間が無声音(端的にいえば、発声の際に声帯の振動を伴わない音)である場合、直前の有声音部分から、当該無声音部分の音高を推定するようにしてもよい。また、上記実施例では、有声区間の末尾区間を、話者(利用者)による発話(問い掛け)の代表的区間として設定したが、これに限らない。例えば語頭区間であってもよいし、発話(問い掛け)のうち、どの部分の区間を代表的区間として設定するかについて、利用者が任意に設定できる構成としてもよい。また、有声区間の検出のために音量および音高の2つを用いるのではなく、いずれか一方を用いて検出してもよいし、どれを用いて有声区間の検出をするのかを利用者が選択できるようにしてもよい。
変形例として、回答ライブラリ124に記憶する回答の音声データについて、人物A、B、C、・のように複数人にわたって、同一内容の回答音声を記憶させてもよい。人物A、B、C、・については例えば有名人、タレント、歌手などとして、各人物毎に音声データをライブラリ化するとよい。このようにライブラリ化する場合、メモリーカードなどの媒体を介して回答の音声データを回答ライブラリ124に格納させてもよいし、音声合成装置10にネットワーク接続機能を持たせて、特定のサーバから回答の音声データをダウンロードし、回答ライブラリ124に格納させてもよい。メモリーカードやサーバから回答の音声データを入手する場合、無償であってもよいし、有償であってもよい。一方で、話者(利用者)が発話(問い)を発するに際して、どの人物をモデルとして回答して欲しいのかを、利用者が操作入力部等によって選択可能な構成としてもよいし、あるいは、各種条件(日、週、月など)毎にランダムで回答音声モデルを決定する構成としてもよい。
また、変形例として、回答の音声データとして、音声受信部102のマイクロフォンを介して、利用者自身や、当該利用者の家族、知人の音声を録音したもの(または別途の装置によってデータ化したもの)をライブラリ内に記録するようにしてもよい。このように身近な人物の音声で回答がなされると、発話(問い)を発したときに、あたかも当該人物と対話しているかのような感覚を得ることができる。
また、変形例として、回答音声は、動物(イヌ、ネコなど)などの鳴き声からなっていてもよいし、動物の種類や犬種などを適宜選択可能な構成としてもよい。このように回答を動物の鳴き声とすることで、あたかも当該動物と対話しているかのような、一種の癒しの効果を得ることができる。
変形例として、回答音高取得部112が、回答選択部110により決定された回答の音声データを解析して、当該音声データを標準で再生したときの平均音高を取得し、この音高を示すデータを音高シフト量決定部114に供給する構成としてもよい。この構成によれば、回答の音声データに基づく音高を示すデータを該回答の音声データに、予め対応付けて回答ライブラリ124に記憶させておく必要がなくなる。
なお、上記実施形態では、話者(利用者)による発話(問い掛け)の音高に対して回答の音声データの音高帯域が高くなる場合を例にとって説明したが、逆に、話者(利用者)による発話(問い掛け)の音高に対して回答の音声データの音高帯域を低くするように構成してもよい。また、上記実施例では、音声入力部(受信部)102によって受信される発話の音声の話者が利用者であるとしているが、これに限らず、第三者あるいは自動音声発生装置が話者であってもよい。例えば、話者が発する音声は、通信ネットワークを介して第三者から発生されたものであってもよいし、あるいは別の音声合成装置から発生されたものであってもよい。
Claims (12)
- 発話の音声信号を受信する受信部と、
前記受信した音声信号に基づき、前記発話の代表的区間の音高を検出する音高検出部と、
前記発話に対する回答の音声データを取得する回答取得部と、
取得された前記回答の音声データに基づく音高を取得する回答音高取得部と、
前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する音高シフト量決定部と、
前記回答の音声データに基づき該回答の音声を合成する回答合成部であって、該回答合成部は、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトするように構成されているものと、
を具備する音声合成装置。 - 前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高を定める、請求項1に記載の音声合成装置。
- 前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高をオクターブ単位で調整する、請求項2に記載の音声合成装置。
- 前記音高検出部は、前記受信した音声信号の音量が所定値以上である区間における最高音高を、前記代表的区間の音高として検出する、請求項1乃至3のいずれかに記載の音声合成装置。
- 前記音高検出部は、前記受信した音声信号の末尾区間における音高を前記代表的区間の音高として検出する、請求項1乃至4のいずれかに記載の音声合成装置。
- 前記音高シフト量決定部は、前記代表的区間の音高に対して協和音程をなす音高を前記目標音高として定める、請求項1乃至5のいずれかに記載の音声合成装置。
- 前記音高シフト量決定部は、前記代表的区間の音高に対して5度下音程をなす音高を前記目標音高として定める、請求項6に記載の音声合成装置。
- 前記回答合成部は、合成する前記回答の音声の再生速度を可変制御するように、更に構成されている、請求項1乃至7のいずれかに記載の音声合成装置。
- 前記回答合成部は、合成する前記回答の音声の音量を可変制御するように、更に構成されている、請求項1乃至8のいずれかに記載の音声合成装置。
- 前記回答合成部は、合成する前記回答の音声の音高を時間的に制御するように、更に構成されている、請求項1乃至9のいずれかに記載の音声合成装置。
- 発話の音声信号を受信することと、
前記受信した音声信号に基づき、前記発話の代表的区間の音高を検出することと、
前記発話に対する回答の音声データを取得することと、
取得された前記回答の音声データに基づく音高を取得することと、
前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定することと、
前記回答の音声データに基づき該回答の音声を合成し、かつ、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトすること、
からなる音声合成方法。 - 非一過性のコンピュータ読み取り可能な記憶媒体であって、音声合成方法を実行するためにプロセッサ実行可能な命令群を内容としており、前記方法は、
発話の音声信号を受信することと、
前記受信した音声信号の代表的区間の音高を検出することと、
前記発話に対する回答の音声データを取得することと、
取得された前記回答の音声データに基づく音高を取得することと、
前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定することと、
前記回答の音声データに基づき該回答の音声を合成し、かつ、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトすること、
からなる前記記憶媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201580056851.0A CN107077840B (zh) | 2014-10-20 | 2015-10-20 | 语音合成装置和方法 |
EP15852291.2A EP3211637B1 (en) | 2014-10-20 | 2015-10-20 | Speech synthesis device and method |
US15/491,414 US10217452B2 (en) | 2014-10-20 | 2017-04-19 | Speech synthesis device and method |
US16/239,891 US10789937B2 (en) | 2014-10-20 | 2019-01-04 | Speech synthesis device and method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014213852A JP6446993B2 (ja) | 2014-10-20 | 2014-10-20 | 音声制御装置およびプログラム |
JP2014-213852 | 2014-10-20 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/491,414 Continuation US10217452B2 (en) | 2014-10-20 | 2017-04-19 | Speech synthesis device and method |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016063879A1 true WO2016063879A1 (ja) | 2016-04-28 |
Family
ID=55760911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/079594 WO2016063879A1 (ja) | 2014-10-20 | 2015-10-20 | 音声合成装置および方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10217452B2 (ja) |
EP (1) | EP3211637B1 (ja) |
JP (1) | JP6446993B2 (ja) |
CN (1) | CN107077840B (ja) |
WO (1) | WO2016063879A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393541A (zh) * | 2017-08-29 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 信息验证方法和装置 |
CN107564532A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 电子设备的唤醒方法、装置、设备及计算机可读存储介质 |
WO2020085323A1 (ja) * | 2018-10-22 | 2020-04-30 | ヤマハ株式会社 | 音声処理方法、音声処理装置及び音声処理プログラム |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105247609B (zh) * | 2013-05-31 | 2019-04-12 | 雅马哈株式会社 | 利用言语合成对话语进行响应的方法及装置 |
JP6430305B2 (ja) * | 2015-03-18 | 2018-11-28 | 株式会社東芝 | データ処理装置、データ処理方法およびプログラム |
EP3340240B1 (en) * | 2015-08-20 | 2021-04-14 | Sony Corporation | Information processing device, information processing method, and program |
US10943583B1 (en) * | 2017-07-20 | 2021-03-09 | Amazon Technologies, Inc. | Creation of language models for speech recognition |
CN108962283B (zh) * | 2018-01-29 | 2020-11-06 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
CN108847239A (zh) * | 2018-08-31 | 2018-11-20 | 上海擎感智能科技有限公司 | 语音交互/处理方法、系统、存储介质、车机端及服务端 |
TWI716029B (zh) * | 2019-07-09 | 2021-01-11 | 佑華微電子股份有限公司 | 隨選聲音片段偵測方法 |
US11393471B1 (en) * | 2020-03-30 | 2022-07-19 | Amazon Technologies, Inc. | Multi-device output management based on speech characteristics |
KR20240030714A (ko) * | 2022-08-31 | 2024-03-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JP2001242881A (ja) * | 2000-02-29 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及び装置 |
JP2007271910A (ja) * | 2006-03-31 | 2007-10-18 | Fujitsu Ltd | 合成音声生成装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57122497A (en) * | 1980-12-30 | 1982-07-30 | Tokuko Ikegami | Voice input/output apparatus |
SG43076A1 (en) * | 1994-03-18 | 1997-10-17 | British Telecommuncations Plc | Speech synthesis |
US6697457B2 (en) * | 1999-08-31 | 2004-02-24 | Accenture Llp | Voice messaging system that organizes voice messages based on detected emotion |
SE0004221L (sv) | 2000-11-17 | 2002-04-02 | Forskarpatent I Syd Ab | Metod och anordning för talanalys |
JP2003271194A (ja) * | 2002-03-14 | 2003-09-25 | Canon Inc | 音声対話装置及びその制御方法 |
US8768701B2 (en) * | 2003-01-24 | 2014-07-01 | Nuance Communications, Inc. | Prosodic mimic method and apparatus |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
JP4274852B2 (ja) * | 2003-05-20 | 2009-06-10 | 日本電信電話株式会社 | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
JP4387822B2 (ja) * | 2004-02-05 | 2009-12-24 | 富士通株式会社 | 韻律正規化システム |
FR2868586A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme ameliores de conversion d'un signal vocal |
US20060106603A1 (en) * | 2004-11-16 | 2006-05-18 | Motorola, Inc. | Method and apparatus to improve speaker intelligibility in competitive talking conditions |
JP4832097B2 (ja) | 2006-02-13 | 2011-12-07 | 富士通テン株式会社 | 音声対話システム |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
JP2008139631A (ja) * | 2006-12-04 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、装置、プログラム |
JP2008256942A (ja) * | 2007-04-04 | 2008-10-23 | Toshiba Corp | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 |
JP2008275836A (ja) * | 2007-04-27 | 2008-11-13 | National Institute Of Information & Communication Technology | 読み上げ用ドキュメント処理方法及び装置 |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
JP2011197564A (ja) * | 2010-03-23 | 2011-10-06 | Yamaha Corp | 電子音楽装置及びプログラム |
CN102473416A (zh) * | 2010-06-04 | 2012-05-23 | 松下电器产业株式会社 | 音质变换装置及其方法、元音信息制作装置及音质变换系统 |
JP5750839B2 (ja) * | 2010-06-14 | 2015-07-22 | 日産自動車株式会社 | 音声情報提示装置および音声情報提示方法 |
GB2544070B (en) * | 2015-11-04 | 2021-12-29 | The Chancellor Masters And Scholars Of The Univ Of Cambridge | Speech processing system and method |
-
2014
- 2014-10-20 JP JP2014213852A patent/JP6446993B2/ja not_active Expired - Fee Related
-
2015
- 2015-10-20 WO PCT/JP2015/079594 patent/WO2016063879A1/ja active Application Filing
- 2015-10-20 EP EP15852291.2A patent/EP3211637B1/en active Active
- 2015-10-20 CN CN201580056851.0A patent/CN107077840B/zh not_active Expired - Fee Related
-
2017
- 2017-04-19 US US15/491,414 patent/US10217452B2/en not_active Expired - Fee Related
-
2019
- 2019-01-04 US US16/239,891 patent/US10789937B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62115199A (ja) * | 1985-11-14 | 1987-05-26 | 日本電気株式会社 | 音声応答装置 |
JP2001242881A (ja) * | 2000-02-29 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及び装置 |
JP2007271910A (ja) * | 2006-03-31 | 2007-10-18 | Fujitsu Ltd | 合成音声生成装置 |
Non-Patent Citations (1)
Title |
---|
See also references of EP3211637A4 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107564532A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 电子设备的唤醒方法、装置、设备及计算机可读存储介质 |
US10783884B2 (en) | 2017-07-05 | 2020-09-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Electronic device-awakening method and apparatus, device and computer-readable storage medium |
CN107393541A (zh) * | 2017-08-29 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 信息验证方法和装置 |
WO2020085323A1 (ja) * | 2018-10-22 | 2020-04-30 | ヤマハ株式会社 | 音声処理方法、音声処理装置及び音声処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20170221470A1 (en) | 2017-08-03 |
US10789937B2 (en) | 2020-09-29 |
CN107077840A (zh) | 2017-08-18 |
US10217452B2 (en) | 2019-02-26 |
EP3211637A4 (en) | 2018-06-20 |
US20190139535A1 (en) | 2019-05-09 |
EP3211637A1 (en) | 2017-08-30 |
CN107077840B (zh) | 2021-06-01 |
JP2016080944A (ja) | 2016-05-16 |
EP3211637B1 (en) | 2020-01-01 |
JP6446993B2 (ja) | 2019-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016063879A1 (ja) | 音声合成装置および方法 | |
WO2014192959A1 (ja) | 音声合成を用いて発言に応答する技術 | |
US10854219B2 (en) | Voice interaction apparatus and voice interaction method | |
WO2017006766A1 (ja) | 音声対話方法および音声対話装置 | |
JP6464703B2 (ja) | 会話評価装置およびプログラム | |
JP6375605B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6569588B2 (ja) | 音声対話装置およびプログラム | |
JP6728660B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
JP6657888B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP2017106988A (ja) | 音声対話装置およびプログラム | |
JP2015069037A (ja) | 音声合成装置およびプログラム | |
US20190392814A1 (en) | Voice dialogue method and voice dialogue apparatus | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6190030B1 (ja) | 音声生成プログラム | |
JP6185136B1 (ja) | 音声生成プログラムおよびゲーム装置 | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JP2018159776A (ja) | 音声再生制御装置、およびプログラム | |
JP2018151661A (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2018159778A (ja) | 音声再生制御装置、および音声再生制御プログラム | |
WO2017098940A1 (ja) | 音声対話装置および音声対話方法 | |
WO2018050212A1 (en) | Telecommunication terminal with voice conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15852291 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
REEP | Request for entry into the european phase |
Ref document number: 2015852291 Country of ref document: EP |