WO2018164278A1 - 音声対話方法および音声対話装置 - Google Patents

音声対話方法および音声対話装置 Download PDF

Info

Publication number
WO2018164278A1
WO2018164278A1 PCT/JP2018/009354 JP2018009354W WO2018164278A1 WO 2018164278 A1 WO2018164278 A1 WO 2018164278A1 JP 2018009354 W JP2018009354 W JP 2018009354W WO 2018164278 A1 WO2018164278 A1 WO 2018164278A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
pitch
interjection
reproduction
response
Prior art date
Application number
PCT/JP2018/009354
Other languages
English (en)
French (fr)
Inventor
嘉山 啓
松原 弘明
純也 浦
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN201880017267.8A priority Critical patent/CN110431622A/zh
Publication of WO2018164278A1 publication Critical patent/WO2018164278A1/ja
Priority to US16/561,348 priority patent/US20190392814A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present invention relates to a voice dialogue.
  • Patent Document 1 discloses a technique for analyzing utterance contents by voice recognition on a user's uttered voice and synthesizing and reproducing a response voice according to the analysis result.
  • an object of the present invention is to realize a natural voice conversation.
  • a speech dialogue method adjusts the prosody of a preceding speech to be reproduced prior to the dialogue speech according to the prosody of the dialogue speech for dialogue.
  • a prosody adjustment step a first reproduction instruction step for instructing reproduction of the preceding voice adjusted in the prosody adjustment step, and an instruction for reproduction of the dialogue voice after the reproduction of the preceding voice in the first reproduction instruction step.
  • a second reproduction instruction step A second reproduction instruction step.
  • a speech dialogue apparatus comprising: a prosody adjustment unit that adjusts a prosody of a preceding voice that is reproduced prior to the dialogue voice according to a prosody of the dialogue voice for dialogue; and the prosody adjustment A first reproduction instruction unit that instructs the reproduction of the preceding voice adjusted by the unit, and a second reproduction instruction unit that instructs the reproduction of the dialogue voice after the reproduction of the preceding voice by the first reproduction instruction unit.
  • FIG. 1 is a configuration diagram of a voice interactive apparatus 100 according to the first embodiment of the present invention.
  • the voice interaction apparatus 100 according to the first embodiment is a voice interaction system that reproduces a response voice (hereinafter referred to as “response voice”) Vz to a voice (hereinafter referred to as “utterance voice”) Vx generated by the user U.
  • a portable information processing device such as a mobile phone or a smartphone, or an information processing device such as a personal computer can be used as the voice interaction device 100.
  • the speech sound Vx is, for example, speech speech including a question (question) and a speech
  • the response speech (example of dialogue speech) Vz is a response including an answer to the question or a response to the speech.
  • the response voice (interactive voice) Vz of the first embodiment is a voice having a specific meaning composed of one or more words.
  • the response voice Vz to the utterance voice Vx “Tell me where the school is?” Can be assumed to be “the corner of 3-chome”.
  • some kind of voice typically an interjection voice
  • the voice interaction apparatus 100 reproduces the response voice Vz (for example, starts to play the response voice Vz) from the generation of the utterance voice Vx (for example, at the end of the pronunciation of the utterance voice Vx).
  • the interjection voice (hereinafter referred to as “interjection voice”) Vy is reproduced within a period Q (hereinafter referred to as “waiting period”). That is, the interjection voice (an example of the preceding voice) Vy is a voice that is reproduced prior to the response voice (interactive voice) Vz.
  • Interjection speech is speech meaning interjection.
  • An interjection is an independent word (an exclamation or an exclamation) that is used independently of other phrases and is not used. More specifically, phrases such as “un” and “ee” (in English, “aha” or “right”) that express the relationship to the utterance, and “e-” that expresses speech (stagnation of response). "Et” and “ano”, etc. ("um” or “er” in English), “yes” and “no” for responses (affirmative or negative for questions) , Etc.
  • phrases such as “aa” and “oo” that express the impression of the speaker (“ah” or “woo” in English),
  • phrases such as “par?” Or “sorry?” In English) such as “e? (E)”, “what? obtain.
  • the response voice (interactive voice) Vz is positioned as a necessary response to the utterance voice Vx, whereas the interjection voice (preceding voice) Vy is pronounced supplementarily (auxiliary) or additionally prior to the response voice Vz. It is positioned as an arbitrary response (response that can be omitted in the dialogue).
  • the interjection voice Vy can also be expressed as a separate voice that is not included in the response voice Vz.
  • the interjection voice Vy representing the word “e-to” is reproduced with respect to the utterance voice Vx asking “Tell me where the school is?”
  • the case where the response voice Vz of the answer “3rd corner” is reproduced after the interjection voice Vy is illustrated.
  • the voice interaction apparatus 100 of the first embodiment includes a sound collection device 20, a storage device 22, a control device 24, and a sound emission device 26, as illustrated in FIG.
  • the sound collection device 20 (for example, a microphone) generates a signal X (hereinafter referred to as “utterance signal”) X representing the speech Ux of the user U.
  • the A / D converter that converts the speech signal X generated by the sound collection device 20 from analog to digital is not shown for convenience.
  • the sound emitting device 26 (for example, a speaker or headphones) reproduces sound according to the signal supplied from the control device 24.
  • the sound emitting device 26 of the first embodiment reproduces the interjection voice Vy and the response voice Vz according to instructions from the control device 24.
  • the storage device 22 stores a program executed by the control device 24 and various data used by the control device 24.
  • a known recording medium such as a semiconductor recording medium or a magnetic recording medium, or a combination of a plurality of recording media can be arbitrarily employed as the storage device 22.
  • the storage device 22 stores a speech signal Y1 representing the verbal speech Vy during speech.
  • a speech signal Y1 representing an interjection speech Vy representing an arbitrary prosody representing speech “Eto” is stored in the storage device 22 will be exemplified.
  • pitch is used as a prosody.
  • the audio signal Y1 is recorded in advance and is stored in the storage device 22 as an audio file of an arbitrary format such as a wav format.
  • the control device 24 is an arithmetic processing device (for example, CPU) that comprehensively controls each element of the voice interaction device 100.
  • the control device 24 executes a program stored in the storage device 22 to establish a plurality of functions (response generation unit 41, pitch adjustment unit 43 (prosody adjustment unit), A first reproduction instruction unit 45 and a second reproduction instruction unit 47) are realized.
  • a configuration in which the function of the control device 24 is realized by a plurality of devices (that is, a system) or a configuration in which a part of the function of the control device 24 is shared by a dedicated electronic circuit may be employed.
  • the response generation unit 41 of the first embodiment generates a response signal Z representing the response voice Vz by voice recognition for the speech signal X and voice synthesis using the result of the voice recognition. Specifically, the response generation unit 41 first specifies the content of the speech voice Vx (hereinafter referred to as “speech content”) by speech recognition with respect to the speech signal X generated by the sound collection device 20. In the first embodiment, the utterance content of the utterance voice Vx “Please tell me where the school is?” Is specified.
  • a known technique such as a recognition technique using an acoustic model such as HMM (Hidden Markov Model) and a language model indicating linguistic restrictions can be arbitrarily employed.
  • the response generation unit 41 analyzes the meaning of the specified utterance content (phoneme) and generates a response character string (hereinafter referred to as “response character string”) corresponding to the utterance content.
  • a known natural language processing technique can be arbitrarily employed for generating the response character string.
  • a response character string “the corner of 3-chome” corresponding to the utterance voice Vx “Please tell me where the school is?” May be generated.
  • the response generation unit 41 generates a response signal Z representing a voice (that is, a response voice Vz) that pronounces the generated response character string.
  • a known speech synthesis technique can be arbitrarily employed.
  • a speech unit corresponding to a response character string is sequentially selected from a set of a plurality of speech units collected in advance from recorded speech of a specific speaker, and the speech units are connected to each other on a time axis.
  • the response signal Z is generated.
  • the pitch of the response voice Vz represented by the response signal Z can vary depending on, for example, the contents of the response character string or the voice synthesis process.
  • the generated response signal Z is supplied to the sound emitting device 26 by the second reproduction instruction unit 47. Note that the method of generating the response signal Z is not limited to the speech synthesis technique.
  • Each of the plurality of response signals Z is recorded in advance and is stored in the storage device 22 as an audio file of an arbitrary format such as a wav format.
  • the pitches of each sound are influenced by each other.
  • the pitch of the preceding voice depends on the pitch of the following voice.
  • the pitch of the interjection speech tends to depend on the pitch of the response speech immediately after. Therefore, in the first embodiment, the interjection voice Vy is reproduced during the pitch corresponding to the pitch of the response voice Vz.
  • the pitch adjustment unit 43 of the first embodiment adjusts the pitch of the voice signal Y1 stored in the storage device 22 according to the pitch Pz of the response voice Vz, thereby obtaining the voice signal Y2 of the interjection voice Vy. Generate.
  • the first reproduction instruction unit 45 in FIG. 1 instructs the reproduction of the interjection voice Vy whose pitch is adjusted by the pitch adjustment unit 43 during the waiting period Q. Specifically, the first reproduction instruction unit 45 supplies the sound signal Y2 of the interjection voice Vy “Eto” to the sound emitting device 26. As illustrated in FIG. 2, the reproduction of the interjection voice Vy is instructed at a time point tY in the waiting period Q from the end point tx of the utterance voice Vx to the time point tZ at which the reproduction of the response voice Vz is started.
  • the second reproduction instruction unit 47 instructs the first reproduction instruction unit 45 to reproduce the response voice Vz after the interjection voice Vy is reproduced. Specifically, the second reproduction instruction unit 47 supplies the response signal Z generated by the response generation unit 41 to the sound emitting device 26 after reproduction of the interjection voice Vy (typically immediately after reproduction of the interjection voice Vy). To do.
  • the sound emitting device 26 uses the interjection voice Vy “Uto” represented by the voice signal Y2 supplied from the first reproduction instruction unit 45 and the response voice Vz “represented by the response signal Z supplied from the second reproduction instruction unit 47. "3rd corner” is played in sequence.
  • the D / A converter that converts the audio signal Y2 and the response signal Z from digital to analog is not shown for convenience.
  • the response voice Vz “the corner of 3-chome” is reproduced.
  • FIG. 3 is a flowchart of processing executed by the control device 24 of the first embodiment. For example, the process of FIG. 3 is started when the utterance voice Vx of the user U ends.
  • the response generation unit 41 acquires the utterance signal X representing the utterance voice Vx “Please tell me where the school is? Specify (SA1).
  • the response generation unit 41 analyzes the meaning of the specified utterance content, and generates a response character string “3rd corner” corresponding to the utterance content (SA2).
  • the response generation unit 41 generates a response signal Z representing the response voice Vz that pronounces the generated response character string “3-chome corner” (SA3).
  • the pitch adjusting unit 43 specifies the pitch Pz of the response voice Vz (SA4).
  • the pitch Pz is, for example, the lowest value (hereinafter referred to as “minimum pitch”) Pzmin of the response voice Vz within the end section Ez including the end point tz.
  • the tail section Ez is, for example, a part of the response voice Vz over a predetermined length (for example, several seconds) before the end point tz.
  • the pitch tends to decrease monotonously toward the end point tz.
  • the pitch (minimum pitch Pzmin) at the end point tz of the response voice Vz is specified as the pitch Pz.
  • the tail section Ez is not limited to a predetermined ratio section including the end point tz in the response voice Vz.
  • a predetermined proportion of the response voice Vz including the end point tz can be defined as the end section Ez.
  • the end interval Ez is defined with the time point near the end point tz (the time point before the end point tz) as the end point in the response voice Vz (that is, the end interval excluding the interval near the end point tz in the response sound Vz). It is also possible to specify Ez).
  • the end section Ez is comprehensively expressed as a section near the end point tz in the response voice Vz.
  • the pitch adjusting unit 43 adjusts the pitch of the interjection voice Vy “Eto” in accordance with the pitch Pz (minimum pitch Pzmin) specified for the response voice Vz “Sanchome corner” (SA5).
  • Pz minimum pitch Pzmin
  • SA5 pitch near the end point of the interjection speech uttered by the conversation partner with respect to the speech of the speaker
  • the pitch adjustment unit 43 of the first embodiment performs adjustment so that the pitch of the interjection voice Vy “Eto” matches the pitch Pz specified for the response voice Vz “the corner of Sanchome”.
  • the pitch adjusting unit 43 determines that the pitch Pz of the response voice Vz is a pitch at a specific time point (hereinafter referred to as “target point”) ⁇ y on the time axis of the voice signal Y1 representing the interjection voice Vy.
  • target point a specific time point
  • the voice signal Y2 representing the interjection voice Vy is generated.
  • a preferred example of the target point ⁇ y is the end point ty of the interjection voice Vy.
  • the pitch adjustment unit 43 matches the pitch Pz of the response voice Vz with the pitch of the end point ty of the voice signal Y1 representing the interjection voice Vy “Uto”.
  • the audio signal Y2 is generated by adjusting (pitch shifting) the pitch of the entire audio signal Y1.
  • a well-known technique can be arbitrarily employ
  • the target point ⁇ y is not limited to the end point ty of the interjection voice Vy.
  • the pitch can be adjusted with the start point (time tY) of the interjection voice Vy as the target point ⁇ y.
  • the first reproduction instructing unit 45 supplies the sound signal Y2 generated by the pitch adjusting unit 43 to the sound emitting device 26 within the waiting period Q, so that the interjection voice Vy “e-to” whose pitch has been adjusted is supplied. Reproduction is instructed (SA6).
  • the second reproduction instruction unit 47 supplies the response signal Z generated by the response generation unit 41 to the sound emitting device 26 after reproducing the interjection voice Vy “Eto”, so that the response voice Vz “the corner of the 3-chome” Is instructed to be reproduced (SA7).
  • the interjection voice Vy is reproduced before the response voice Vz for the uttered voice Vx is reproduced. Therefore, a natural voice conversation that simulates the tendency of a real conversation in which some kind of voice (typically interjection voice) by the conversation partner is uttered between the utterance voice of the speaker and the response voice uttered by the conversation partner. Can be realized.
  • the pitch of the interjection voice Vy is adjusted according to the pitch of the response voice Vz, the pitch of the interjection voice is the pitch of the response voice uttered immediately after the interjection voice. It is possible to realize a natural voice conversation that simulates the tendency of an actual speaker to be affected.
  • Second Embodiment A second embodiment of the present invention will be described.
  • symbol used by description of 1st Embodiment is diverted, and each detailed description is abbreviate
  • the voice interaction apparatus 100 reproduces the interjection voice (example of preceding voice) Vy within the waiting period Q from the utterance voice Vx to the response voice Vz.
  • the voice interaction apparatus 100 according to the second embodiment in addition to the reproduction of the interjection voice (an example of the preceding voice) Vy similar to the first embodiment, during the waiting period Q.
  • another interjection voice an example of the initial voice
  • Vw is reproduced before the interjection voice Vy is reproduced. That is, the interjection sound (initial sound) Vw is a sound reproduced prior to the interjection sound (preceding sound) Vy.
  • the interjection voice Vw and the interjection voice Vy are sequentially reproduced within the waiting period Q.
  • the interjection voice Vw is a voice that means an interjection like the interjection voice Vy.
  • the utterance content (phoneme) of the interjection voice Vw in the second embodiment is different from the utterance content of the interjection voice Vy.
  • a plurality of interjection voices may be uttered by the conversation partner before the response voice is uttered.
  • the voice interaction apparatus 100 of the second embodiment reproduces a plurality of interjection voices Vw and Vy within the waiting period Q as described above.
  • the second embodiment exemplifies a case where the interjection voice Vw “Ye” indicating the companion and the interjection voice Vy “Uto” indicating the speech are sequentially reproduced within the waiting period Q.
  • the voice interactive apparatus 100 of the second embodiment includes a sound collection device 20, a storage device 22, a control device 24, and a sound emission device 26, as in the first embodiment. Similar to the first embodiment, the sound collection device 20 of the second embodiment generates an utterance signal X representing the utterance voice Vx of the user U.
  • the storage device 22 according to the second embodiment in addition to the audio signal Y1 representing the interjection voice Vy “Uto” similar to the first embodiment, the audio signal W1 representing the interjection voice Vw “Yes” during a predetermined pitch.
  • the control device 24 has a plurality of functions (response generation unit 41, pitch adjustment unit 43, first reproduction instruction unit 45) for establishing a conversation with the user U. And the 2nd reproduction
  • the response generation unit 41 of the second embodiment generates a response voice Vz “Sanchome no Kaku” for the utterance voice Vx “Tell me where the school is?”.
  • the response generation unit 41 specifies the utterance content by voice recognition with respect to the utterance signal X of the utterance voice Vx “Tell me where the school is?” And generates a response signal Z representing a response character string for the utterance content. .
  • the pitch adjustment unit 43 (prosody adjustment unit) of the second embodiment adjusts the pitch of the interjection voice Vw according to the pitch Px of the utterance voice Vx of the user U and sets the pitch Pz of the response voice Vz. Accordingly, the pitch of the interjection voice Vy is adjusted.
  • the pitch adjustment unit 43 adjusts the pitch of the voice signal W1 stored in the storage device 22 in accordance with the pitch Px of the utterance voice Vx, thereby enabling the interjection voice.
  • An audio signal W2 of Vw is generated.
  • the pitch adjustment section 43 uses the initial interjection voice Vy “eto” represented by the voice signal Y1 as the sound of the response voice Vz, as in the first embodiment.
  • the speech signal Y2 representing the interjection speech Vy “Eto” is generated.
  • the first reproduction instruction unit 45 of the second embodiment instructs the reproduction of the interjection voice Vw “Yes” and the interjection voice Vy “Eto” whose pitches have been adjusted by the pitch adjustment unit 43. That is, the sound signal W2 representing the interjection sound Vw and the sound signal Y2 representing the interjection sound Vy are supplied to the sound emitting device 26. Specifically, the first reproduction instruction unit 45 instructs the reproduction of the interjection voice Vw during the waiting period Q in FIG. 4 and the reproduction of the interjection voice Vy after the reproduction of the interjection voice Vw during the waiting period Q.
  • the second reproduction instruction unit 47 of the second embodiment supplies the response signal Z generated by the response generation unit 41 after the reproduction of the interjection voice Vy to the sound emitting device 26, thereby enabling the interjection voice.
  • the reproduction of the response voice Vz after the reproduction of Vy is instructed.
  • the sound emitting device 26 sequentially reproduces the interjection voice Vw “Ye” represented by the audio signal W2 supplied from the first reproduction instruction unit 45 and the interjection voice Vy “Eto” represented by the audio signal Y2. 2.
  • the response voice Vz “the corner of the 3-chome” represented by the response signal Z supplied from the playback instruction unit 47 is played back.
  • the reproduction of the interjection voice Vw is instructed, and the middle of the period from the end point tw to the time point tZ At the time tY, reproduction of the interjection voice Vy is instructed.
  • FIG. 5 is a flowchart of processing executed by the control device 24 of the second embodiment.
  • processing (SB1 to SB3) for reproducing the interjection voice Vw is added to the steps SA1 to SA7 exemplified in the first embodiment.
  • the process from the start of the process to the process of generating the response signal Z (SA3) is the same as in the first embodiment.
  • the pitch adjusting unit 43 specifies the pitch Px of the speech voice Vx “Would you tell me where the school is?” From the speech signal X generated by the sound collection device 20 (SB1). As illustrated in FIG. 4, the pitch Px is, for example, the lowest value (hereinafter referred to as “minimum pitch”) Pxmin of the end section Ex including the end point tx in the speech voice Vx.
  • the tail section Ex is, for example, a part of the utterance voice Vx over a predetermined length (for example, several seconds) before the end point tx. For example, as understood from FIG. 4, the pitch of the utterance voice Vx “Please tell me where the school is?” Tends to increase near the end point tx.
  • the pitch (minimum pitch Pxmin) at the minimum point at which the transition of the pitch of the speech voice Vx changes from a decrease to an increase is specified as the pitch P.
  • the end section Ex is not limited to a predetermined ratio of the utterance voice Vx including the end point tx. For example, it is possible to define a predetermined proportion of the utterance voice Vx including the end point tx as the end section Ex. Further, the end section Ex is defined with the time point in the vicinity of the end point tx (the time point before the end point tx) in the utterance voice Vx as the end point (that is, the end section excluding the section in the vicinity of the end point tx in the utterance voice Vx). It is also possible to specify Ex). As understood from the above examples, the end section Ex is comprehensively expressed as a section near the end point tx in the speech voice Vx.
  • the pitch adjustment unit 43 adjusts the pitch of the interjection voice Vw “Yes” according to the pitch Px (minimum pitch Pxmin) specified for the speech voice Vx “Tell me where the school is?” (SB2).
  • the pitch adjusting unit 43 of the second embodiment has a specific time point on the time axis (hereinafter referred to as “target point”) of the voice signal W1 of the interjection voice Vw at the lowest pitch Pxmin specified for the speech voice Vx.
  • a preferred example of the target point ⁇ w is a start point of a specific mora (typically the last mora) among the plurality of mora constituting the interjection voice Vw.
  • the pitch of the start point of “n”, which is the last mora in the speech signal W1 matches the minimum pitch Pxmin.
  • the pitch can be arbitrarily employ
  • the target point ⁇ w is not limited to the start point of the last mora in the interjection voice Vw.
  • the pitch can be adjusted with the start point (time point tW) or end point tw of the interjection voice Vw as the target point ⁇ w.
  • the first reproduction instruction unit 45 supplies the sound signal W2 generated by the pitch adjustment unit 43 to the sound emitting device 26, thereby reproducing the interjection voice Vw “Yun” whose pitch has been adjusted. Instruct (SB3).
  • the pitch adjustment and reproduction instruction (SA4 to SA6) of the interjection voice Vy and the instruction to reproduce the response voice Vz (SA7) are the same as in the first embodiment. It is executed sequentially.
  • the same effect as in the first embodiment is realized.
  • the interjection voice Vw reproduced immediately after the utterance voice Vx is reproduced at a pitch corresponding to the pitch Px of the utterance voice Vx
  • the interjection voice Vy reproduced immediately before the response voice Vz is Since it is reproduced at a pitch corresponding to the pitch Pz of the response voice Vz, a natural voice conversation closer to a real conversation can be simulated.
  • the response voice Vz to the utterance voice Vx is reproduced after the interjection voice Vy is reproduced.
  • the voice dialogue apparatus 100 does not utter the utterance voice Vx, but the voice dialogue apparatus 100 performs the interjection voice Vy.
  • the response voice Vz is reproduced. That is, the uttered voice Vx can be omitted.
  • the voice interactive apparatus 100 plays the voice “What is the weather today?” That asks the user U a question.
  • a configuration in which a response voice Vz representing a response to a character string input by the user U using an input device can be reproduced.
  • the voice reproduced after the interjection voice Vy is reproduced is not limited to the voice of the response to the uttered voice Vx, but is comprehensive as a dialogue voice for dialogue (that is, constituting a dialogue). It is expressed in The response voice Vz in each of the above-described forms is an example of dialogue voice.
  • the interjection voice Vy is reproduced before the response voice Vz is reproduced.
  • the content of the voice reproduced before the response voice Vz is reproduced is not limited to the above example (that is, the interjection).
  • a voice having a specific meaning for example, a sentence composed of a plurality of words
  • the sound that is reproduced before the response sound Vz is reproduced is comprehensively expressed as the preceding sound that is reproduced before the response sound Vz
  • the interjection sound Vy is an example of the preceding sound. is there.
  • the interjection voice Vw of the second embodiment is reproduced before the interjection voice Vy is reproduced.
  • the content of the voice reproduced before the reproduction of the interjection voice Vy is limited to the above example (that is, the interjection).
  • the sound reproduced before the reproduction of the interjection voice Vy is not limited to the voice representing the interjection voice, but is comprehensively expressed as the initial voice reproduced prior to the interjection voice Vy.
  • the interjection voice Vw in each of the above-described forms is an example of the initial voice.
  • the two interjections voices Vw and Vy are reproduced within the waiting period Q.
  • a configuration in which three or more voices are reproduced within the waiting period Q may be employed.
  • the voice reproduced immediately after the uttered voice Vx is adjusted according to the pitch Px of the uttered voice Vx
  • the voice immediately before the response voice Vz is the pitch of the response voice Vz.
  • a configuration that adjusts according to Pz is preferable. According to the above configuration, as in the above-described embodiments, the effect of simulating a natural voice conversation closer to a real conversation is ensured. It should be noted that the contents (phonemes) of a plurality of voices reproduced during the waiting period Q are not relevant.
  • the configuration in which the pitch of the target point ⁇ y in the interjection voice Vy is made to coincide with the lowest pitch Pzmin in the tail section Ez of the response voice Vz is exemplified.
  • the target point ⁇ y of the interjection voice Vy is exemplified.
  • the relationship between the pitch at and the pitch Pz of the response voice Vz is not limited to the above example (a relationship in which both match).
  • the pitch at the target point ⁇ y of the interjection voice Vy can be matched with the pitch obtained by adding or subtracting a predetermined adjustment value (offset) to the pitch Pz of the response voice Vz.
  • the adjustment value is a fixed value selected in advance (for example, a numerical value corresponding to a pitch of 5 degrees or the like with respect to the lowest pitch Pzmin) or a variable value according to an instruction from the user U.
  • the relationship between the pitch at the target point ⁇ w of the interjection speech Vw and the minimum pitch Pxmin of the uttered speech Vx is not limited to a relationship in which both match.
  • the adjustment value when adopting a configuration in which the adjustment value is set to a value corresponding to an integral multiple of an octave, the interjective voice Vw is reproduced during the pitch obtained by octave shifting the minimum pitch Pxmin. Note that it is also possible to switch whether to apply the adjustment value according to an instruction from the user U.
  • the pitch of the interjection voice Vy is adjusted according to the minimum pitch Pzmin of the tail section Ez of the response voice Vz.
  • the pitch Pz at an arbitrary point in the response voice Vz is the interjection voice Vy.
  • a configuration that adjusts according to the pitch Pz (particularly, the lowest pitch Pzmin) of the tail section (that is, near the end point tz) Ez of the response voice Vz is preferable.
  • the pitch Px at an arbitrary time point in the utterance voice Vx can be used for adjusting the pitch of the interjection voice Vw.
  • the first reproduction instruction unit 45 determines whether or not to instruct reproduction of the interjection voice Vy according to the utterance voice Vx. For example, it is possible to determine whether or not to instruct the reproduction of the interjection voice Vy according to the utterance content. For example, the first reproduction instruction unit 45 instructs the reproduction of the interjection voice Vy when the utterance content is a question sentence, but does not instruct the reproduction of the interjection voice Vy when the utterance content is a plain sentence. It is also possible to determine whether or not to instruct the reproduction of the interjection voice Vy according to the time length of the uttered voice Vx.
  • the first reproduction instructing unit 45 instructs the reproduction of the interjection voice Vy when the time length of the uttered voice Vx exceeds a predetermined value, while the interplay verb when the time length of the uttered voice Vx falls below the predetermined value. Does not instruct playback of the voice Vy.
  • the first reproduction instruction unit 45 determines whether or not to instruct the reproduction of the interjection voice Vy according to the response voice Vz. For example, it is possible to determine whether or not to instruct the reproduction of the interjection voice Vy according to the content of the response voice Vz. For example, when the content of the response voice Vz is a sentence composed of a plurality of words, the first playback instruction unit 45 instructs the playback of the interjection voice Vy, whereas the content of the response voice Vz is one word. When it is composed of (for example, the pronoun “no”), the interjection voice Vy is not instructed to be reproduced.
  • the first playback instruction unit 45 instructs the reproduction of the interjection voice Vy, whereas when the time length of the response voice Vz falls below a predetermined value, the first playback instruction section 45 Does not instruct playback of the voice Vy.
  • a configuration that determines whether or not to instruct the reproduction of the interjection voice Vy according to the utterance voice Vx or the response voice Vz can be suitably employed.
  • the reproduction of the interjection voice Vy is instructed at the time tY in the middle of the waiting period Q, but the time tY at which the reproduction of the interjection voice Vy is instructed is the time length of the utterance voice Vx or the response voice Vz. It is also possible to variably set according to the above. For example, when the time length of the utterance voice Vx or the response voice Vz is long (for example, in the case of the response voice Vz representing a sentence composed of a plurality of words), the time point tY close to the time point tZ at which the playback of the response voice Vz is started.
  • the time point tY close to the end point tx of the utterance voice Vx is set when the time length of the utterance voice Vx or the response voice Vz is short (for example, in the case of the response voice Vz representing one word / phrase).
  • the utterance of the utterance voice Vx of the user U and the reproduction of the response voice Vz of the voice dialogue apparatus 100 can be executed in a reciprocating manner a plurality of times in the same manner as in the dialogue between real people. Therefore, it is possible to variably set the time tY in the middle of the waiting period Q according to the time length from the end point tz of the response voice Vz to the time tX when the next uttered voice Vx is started by the user. . According to the above configuration, there is an advantage that the dialogue with the voice dialogue apparatus 100 can be realized at the pace of the utterance of the user U. Note that a configuration in which the time point tY for instructing the reproduction of the interjection voice Vy is randomly set for each dialogue may be employed.
  • the pitch of the voice signal Y1 stored in the storage device 22 is adjusted according to the pitch Pz of the response voice Vz, thereby generating the voice signal Y2 of the interjection voice Vy.
  • the method for generating the voice signal Y2 representing the interjection voice Vy is not limited to the above examples.
  • a configuration in which a speech signal Y2 representing a speech uttering a character string of the interjection “Eto” (that is, an interjection speech Vy) is generated by a known speech synthesis technique can be suitably employed.
  • the pitch adjusting unit 43 generates a voice signal Y2 representing the interjection voice Vy adjusted in accordance with the pitch Pz of the response voice Vz.
  • the storage of the audio signal Y1 in the storage device 22 can be omitted.
  • the method of adjusting the pitch of the interjection voice Vy according to the pitch Pz of the response voice Vz (that is, the method of generating the voice signal Y2 of the interjection voice Vy) is arbitrary.
  • the voice signal W2 of the interjection voice Vw is also generated by using the voice signal W2 representing the voice of the character string of the interjection “Yes” (that is, the interjection voice Vw) as the pitch Px of the voice Vx. It can also be generated by a known speech synthesis technique with a corresponding pitch. That is, the method for adjusting the pitch of the interjection speech Vw according to the pitch Px of the uttered speech Vx (that is, the method of generating the speech signal W2 of the interjection speech Vw) is arbitrary.
  • the pitch of the interjection voice Vy is adjusted according to the pitch Pz of the response voice Vz, but the type of prosody of the interjection voice Vy to be adjusted is not limited to the pitch.
  • Prosodic is a linguistic and phonetic characteristic that can be perceived by the listener of a speech, and cannot be grasped only from the general notation of the language (for example, not a special notation that expresses prosody). Means nature. Prosody can also be rephrased as a characteristic that allows the listener to recall or guess the intention or emotion of the speaker.
  • volume, intonation change or intonation of voice tone
  • tone sound level or strength
  • tone length tone length
  • speech speed rhythm
  • rhythm structure of temporal change in tone
  • Various features such as accents (high or low or strong accents) can be included in the concept of prosody, but a typical example of prosody is pitch. If the configuration is such that the prosody of the interjection voice Vy is adjusted according to the prosody of the response voice Vz, a natural voice conversation can be realized.
  • the type of prosody of the interjection voice Vw to be adjusted is not limited to the pitch.
  • the voice interaction apparatus 100 exemplified in the above-described embodiments can be realized by the cooperation of the control device 24 and the program for voice conversation as described above.
  • the program for voice interaction can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium is used. This type of recording medium can be included. It is also possible to distribute the program to a computer in the form of distribution via a communication network.
  • the present invention can also be specified as an operation method (voice dialogue method) of the voice dialogue apparatus 100 according to each of the above-described embodiments.
  • a computer speech dialogue apparatus 100
  • the speech dialogue method adjusts the pitch of the preceding voice that is reproduced prior to the dialogue voice according to the pitch of the dialogue voice for the dialogue.
  • the speech dialogue method adjusts the pitch of the preceding voice reproduced prior to the dialogue voice according to the pitch of the dialogue voice for the dialogue.
  • the pitch of each voice tends to be influenced by each other (that is, the pitch of the preceding voice depends on the pitch of the subsequent voice).
  • the preceding voice prior to the playback of the dialog voice, the preceding voice whose pitch is adjusted according to the pitch of the dialog voice is played, so it is possible to realize a natural voice dialog that simulates the above-mentioned tendency It is.
  • the dialogue voice is a response voice to the utterance voice
  • the preceding voice is an interjection voice
  • the utterance The reproduction of the preceding voice is instructed within a waiting period from the voice to the reproduction of the response voice.
  • some voice typically an interjection
  • the interjection voice is reproduced before the response voice to the uttered voice is reproduced, it is possible to realize a natural voice conversation simulating the tendency of an actual conversation.
  • ⁇ Aspect 4> In the voice dialogue method according to a preferred example of the aspect 3 (aspect 4), in the pitch adjustment step, adjustment is performed so that the pitch of the end point of the preceding voice matches the lowest pitch in the vicinity of the end point of the dialogue voice. .
  • the preceding voice is reproduced so that the pitch of the end point of the preceding voice matches the lowest pitch near the end point of the dialogue voice, the effect of realizing a natural voice dialogue close to the actual dialogue is achieved. It is particularly remarkable.
  • ⁇ Aspect 5> In the voice interaction method according to a preferred example (aspect 5) of aspect 2, in the first reproduction instruction step, it is determined whether to instruct reproduction of the preceding sound according to the uttered sound or the conversation sound. including. In the above method, since it is determined whether or not to reproduce the preceding voice according to the utterance voice or the conversation voice, it is more realistic than the method in which the preceding voice is always reproduced regardless of the utterance voice and the dialogue voice. Can simulate a natural voice conversation that is close to the conversation.
  • ⁇ Aspect 6> In the voice dialogue method according to a preferred example of the aspect 5 (aspect 6), in the first reproduction instruction step, whether or not to instruct reproduction of the preceding voice according to a time length of the utterance voice or the conversation voice is determined. decide. In the above method, whether or not to reproduce the preceding voice is determined according to the time length of the uttered voice or the dialogue voice.
  • ⁇ Aspect 7> In the voice dialogue method according to a preferred example of the aspect 2 (aspect 7), in the first reproduction instruction step, the preceding voice is reproduced at a time point corresponding to a time length of the uttered voice or the conversation voice in the standby period. Instruct. In the above method, since the preceding voice is played back at the time corresponding to the duration of the utterance voice or the conversation voice during the standby period, the time point when the preceding voice is reproduced changes regardless of the duration of the utterance voice or the conversation voice. Compared with a configuration that does not, it is possible to reduce giving a mechanical impression to the user.
  • ⁇ Aspect 8> In the voice interaction method according to a preferred example (aspect 8) of aspect 2, in the pitch adjustment step, the pitch of the initial voice reproduced prior to the preceding voice is adjusted according to the pitch of the uttered voice. In the first reproduction instruction step, the reproduction of the adjusted initial sound during the standby period and the reproduction of the preceding sound after the reproduction of the initial sound during the standby period are instructed. In the above method, since the initial voice having a pitch corresponding to the pitch of the uttered voice is reproduced during the period from the uttered voice to the reproduction of the preceding voice, it is possible to simulate a natural voice conversation closer to a real conversation.
  • the voice interactive apparatus adjusts the pitch of the preceding voice that is reproduced prior to the dialogue voice according to the pitch of the dialogue voice for the dialogue.
  • the pitch of each voice tends to be influenced by each other (that is, the pitch of the preceding voice depends on the pitch of the subsequent voice).
  • the preceding voice with the pitch adjusted according to the pitch of the dialog voice is played prior to the playback of the dialog voice, so it is possible to realize a natural voice dialog simulating the above-mentioned tendency It is.

Abstract

音声対話装置(100)は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部(43)と、音高調整部(43)が調整した先行音声の再生を指示する第1再生指示部(45)と、第1再生指示部(45)による先行音声の再生後における対話音声の再生を指示する第2再生指示部(47)とを具備する。

Description

音声対話方法および音声対話装置
 本発明は、音声対話に関する。
 利用者による発話に対する応答(例えば質問に対する回答)の音声を再生することで利用者との対話を実現する音声対話の技術が従来から提案されている。例えば特許文献1には、利用者の発話音声に対する音声認識で発話内容を解析し、解析結果に応じた応答音声を合成および再生する技術が開示されている。
日本国特開2012-128440号公報
 しかし、特許文献1を含む既存の技術のもとでは、現実の人間同士の対話の傾向を忠実に反映した自然な音声対話を実現することは実際には困難であり、機械的で不自然な印象を利用者が感取し得るという問題がある。以上の事情を考慮して、本発明は、自然な音声対話の実現を目的とする。
 以上の課題を解決するために、本発明の好適な態様に係る音声対話方法は、対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整ステップと、前記韻律調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップとを含む。
 本発明の好適な態様に係る音声対話装置は、対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整部と、前記韻律調整部が調整した前記先行音声の再生を指示する第1再生指示部と、前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部とを具備する。
第1実施形態における音声対話装置の構成図である。 第1実施形態における間投詞音声および応答音声の説明図である。 第1実施形態における制御装置が実行する処理のフローチャートである。 第2実施形態における発話音声,2個の間投詞音声および応答音声の説明図である。 第2実施形態における制御装置が実行する処理のフローチャートである。
<第1実施形態>
 図1は、本発明の第1実施形態に係る音声対話装置100の構成図である。第1実施形態の音声対話装置100は、利用者Uが発音した音声(以下「発話音声」という)Vxに対する応答の音声(以下「応答音声」という)Vzを再生する音声対話システムである。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置100として利用され得る。また、動物等の外観を模擬した玩具(例えば動物のぬいぐるみ等の人形)やロボットの形態で音声対話装置100を実現することも可能である。
 発話音声(speech sound)Vxは、例えば問掛け(質問)および話掛けを含む発話の音声であり、応答音声(対話音声の例示)Vzは、問掛けに対する回答または話掛けに対する受応えを含む応答の音声である。第1実施形態の応答音声(対話音声)Vzは、1個以上の語句で構成される特定の意味を持った音声である。例えば、発話音声Vx「学校の場所をおしえて?」に対する応答音声Vzは、「三丁目の角」が想定され得る。ここで、現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手により何らかの音声(典型的には間投詞の音声)が発声されるという傾向がある。したがって、発話音声Vxの直後に応答音声Vzが再生されると利用者Uに機械的で不自然な印象を与える。そこで、第1実施形態の音声対話装置100は、図2に例示される通り、発話音声Vxの発生(例えば発話音声Vxの発音終了時)から応答音声Vzの再生(例えば応答音声Vzの再生開始時)までの期間(以下「待機期間」という)Q内に、間投詞の音声(以下「間投詞音声」という)Vyを再生する。つまり、間投詞音声(先行音声の例示)Vyは、応答音声(対話音声)Vzに先行して再生される音声である。
 間投詞音声(先行音声)Vyは、間投詞を意味する音声である。間投詞は、他の文節から独立して利用されて活用のない自立語(感動詞または感嘆詞)である。具体的には、発話に対する相づちを表す「うん(un)」および「ええ(ee)」等の語句(英語では“aha”または“right”)、言淀み(応答の停滞)を表す「え~と(eto)」および「あの~(ano)」等の語句(英語では“um”または“er”)、応答(質問に対する肯定または否定)を表す「はい(hai)」および「いいえ(iie)」等の語句(英語では“yes”または“no”)、話者の感動を表す「ああ(aa)」および「おお(oo)」等の語句(英語では“ah”または“woo”)、ならびに、発話に対する問返し(聞き直し)を意味する「え?(e)」「なに?(nani)」等の語句(英語では“pardon?”または“sorry?”)が、間投詞として例示され得る。
 応答音声(対話音声)Vzは、発話音声Vxに対する必要的な応答と位置付けられるのに対し、間投詞音声(先行音声)Vyは応答音声Vzに先立って補足的(補助的)ないし追加的に発音される任意的な応答(対話において省略され得る応答)と位置付けられる。間投詞音声Vyは、応答音声Vzには含まれない別個の音声であるとも換言され得る。図2に例示される通り、第1実施形態では、「学校の場所をおしえて?」という問掛けの発話音声Vxに対して、「え~と」という言淀みを表す間投詞音声Vyが再生され、間投詞音声Vyに後続して「三丁目の角」という回答の応答音声Vzが再生される場合を例示する。
 第1実施形態の音声対話装置100は、図1に例示される通り、収音装置20と記憶装置22と制御装置24と放音装置26とを具備する。収音装置20(例えばマイクロホン)は、利用者Uの発話音声Vxを表す信号(以下「発話信号」という)Xを生成する。なお、収音装置20が生成した発話信号Xをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。放音装置26(例えばスピーカまたはヘッドホン)は、制御装置24から供給される信号に応じた音を再生する。第1実施形態の放音装置26は、間投詞音声Vyと応答音声Vzとを制御装置24の指示により再生する。
 記憶装置22は、制御装置24が実行するプログラムや制御装置24が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置22として任意に採用され得る。具体的には、記憶装置22は、言淀みの間投詞音声Vyを表す音声信号Y1を記憶する。以下の説明では、言淀み「え~と」を表す任意の韻律の間投詞音声Vyを表す音声信号Y1が記憶装置22に記憶された場合を例示する。本実施例では、韻律として音高を用いる。音声信号Y1は、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置22に記憶される。
 制御装置24は、音声対話装置100の各要素を統括的に制御する演算処理装置(例えばCPU)である。制御装置24は、記憶装置22に記憶されたプログラムを実行することで、利用者Uとの対話を成立させるための複数の機能(応答生成部41,音高調整部43(韻律調整部),第1再生指示部45および第2再生指示部47)を実現する。なお、制御装置24の機能を複数の装置(すなわちシステム)で実現した構成、または、制御装置24の機能の一部を専用の電子回路が分担する構成も採用され得る。
 図1の応答生成部41は、発話音声Vxに対する応答音声Vzを生成する。第1実施形態の応答生成部41は、発話信号Xに対する音声認識と、当該音声認識の結果を利用した音声合成とにより、応答音声Vzを表す応答信号Zを生成する。具体的には、応答生成部41は、第1に、収音装置20が生成した発話信号Xに対する音声認識で発話音声Vxの内容(以下「発話内容」という)を特定する。第1実施形態では、発話音声Vx「学校の場所をおしえて?」の発話内容が特定される。発話信号Xの音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。
 応答生成部41は、第2に、特定した発話内容(音韻)の意味を解析し、発話内容に対応する応答の文字列(以下「応答文字列」という)を生成する。応答文字列の生成には、公知の自然言語処理技術が任意に採用され得る。第1実施形態では、発話音声Vx「学校の場所をおしえて?」に対応する応答文字列「三丁目の角」が生成され得る。応答生成部41は、第3に、生成した応答文字列を発音した音声(すなわち応答音声Vz)を表す応答信号Zを生成する。応答信号Zの生成には、公知の音声合成技術が任意に採用され得る。例えば、特定の発声者の収録音声から事前に採取された複数の音声素片の集合から応答文字列に対応する音声素片を順次選択し、当該音声素片を時間軸上で相互に連結することで応答信号Zが生成される。応答信号Zが表す応答音声Vzの音高は、例えば応答文字列の内容または音声合成処理の内容に応じて変化し得る。生成された応答信号Zは、第2再生指示部47により放音装置26に供給される。なお、応答信号Zを生成する方法は、音声合成技術には限定されない。例えば、発話内容が相違する複数の応答信号Zを記憶装置22に記憶させ、当該複数の応答信号Zのうち特定した発話内容に応じた応答信号Zを選択して放音装置26に供給する構成も好適に採用され得る。複数の応答信号Zの各々は、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置22に記憶される。
 ここで、現実の人間が複数の音声を順次に発声する場合、各々の音声の音高は相互に影響を受ける。例えば、先行する音声の音高は後続する音声の音高に依存する。特に、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向がある。そこで、第1実施形態では、応答音声Vzの音高に応じた音高の間投詞音声Vyを再生させる。
 図1の音高調整部43は、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整する。第1実施形態の音高調整部43は、記憶装置22に記憶された音声信号Y1の音高を、応答音声Vzの音高Pzに応じて調整することで、間投詞音声Vyの音声信号Y2を生成する。
 図1の第1再生指示部45は、待機期間Q内に、音高調整部43により音高が調整された間投詞音声Vyの再生を指示する。具体的には、第1再生指示部45は、間投詞音声Vy「え~と」の音声信号Y2を放音装置26に供給する。図2に例示される通り、発話音声Vxの終点txから応答音声Vzの再生が開始される時点tZまでの待機期間Q内の途中の時点tYにおいて、間投詞音声Vyの再生が指示される。
 第2再生指示部47は、第1再生指示部45による間投詞音声Vyの再生後における応答音声Vzの再生を指示する。具体的には、第2再生指示部47は、間投詞音声Vyの再生後(典型的には間投詞音声Vyの再生直後)に、応答生成部41が生成した応答信号Zを放音装置26に供給する。
 放音装置26は、第1再生指示部45から供給された音声信号Y2が表わす間投詞音声Vy「え~と」と、第2再生指示部47から供給された応答信号Zが表わす応答音声Vz「三丁目の角」とを順次に再生する。なお、音声信号Y2と応答信号Zとをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。以上の説明から理解される通り、利用者Uが発話音声Vx「学校の場所をおしえて?」を発声すると、言淀みを表す間投詞音声Vy「え~と」が再生され、間投詞音声Vyの再生に後続して応答音声Vz「三丁目の角」が再生される。
 図3は、第1実施形態の制御装置24が実行する処理のフローチャートである。例えば利用者Uの発話音声Vxの終了を契機として図3の処理が開始される。
 図3の処理を開始すると、応答生成部41は、発話音声Vx「学校の場所をおしえて?」を表す発話信号Xを収音装置20から取得し、当該発話信号Xに対する音声認識で発話内容を特定する(SA1)。応答生成部41は、特定した発話内容の意味を解析し、発話内容に対応する応答文字列「三丁目の角」を生成する(SA2)。応答生成部41は、生成した応答文字列「三丁目の角」を発音した応答音声Vzを表す応答信号Zを生成する(SA3)。
 音高調整部43は、応答音声Vzの音高Pzを特定する(SA4)。音高Pzは、図2に例示される通り、例えば、応答音声Vzのうち終点tzを含む末尾区間Ez内の音高の最低値(以下「最低音高」という)Pzminである。末尾区間Ezは、例えば応答音声Vzのうち終点tz以前の所定長(例えば数秒)にわたる一部の区間である。例えば、図2から理解される通り、平叙文「三丁目の角」の応答音声Vzでは終点tzにかけて音高が単調に低下する傾向がある。したがって、応答音声Vzの終点tzでの音高(最低音高Pzmin)が音高Pzとして特定される。なお、末尾区間Ezは、応答音声Vzのうち終点tzを含む所定の割合の区間に限定されない。例えば、応答音声Vzのうち終点tzを含む所定の割合の区間を末尾区間Ezとして画定することも可能である。また、応答音声Vzのうち終点tzの近傍の時点(終点tzよりも過去の時点)を終点として末尾区間Ezを画定する(すなわち応答音声Vzのうち終点tzの近傍の区間を除外して末尾区間Ezを特定する)ことも可能である。以上の例示から理解される通り、末尾区間Ezは、応答音声Vzのうち終点tz付近の区間として包括的に表現される。
 音高調整部43は、応答音声Vz「三丁目の角」について特定した音高Pz(最低音高Pzmin)に応じて間投詞音声Vy「え~と」の音高を調整する(SA5)。現実の対話の場合、発話者の発話音声に対して対話相手が発声する間投詞音声の終点付近の音高は、間投詞音声の直後に対話相手により発声される応答音声の終点付近の最低音高と一致する傾向がある。そこで、第1実施形態の音高調整部43は、応答音声Vz「三丁目の角」について特定した音高Pzに間投詞音声Vy「え~と」の音高が一致するように調整する。具体的には、音高調整部43は、間投詞音声Vyを表す音声信号Y1のうち時間軸上の特定の時点(以下「目標点」という)τyでの音高が応答音声Vzの音高Pzに一致するように当該間投詞音声Vyの音高を調整することで、間投詞音声Vyを表す音声信号Y2を生成する。目標点τyの好適例は、間投詞音声Vyの終点tyである。具体的には、音高調整部43は、図2に例示される通り、間投詞音声Vy「え~と」を表す音声信号Y1の終点tyの音高が応答音声Vzの音高Pzに一致するように音声信号Y1の全区間にわたる音高を調整(ピッチシフト)することで、音声信号Y2を生成する。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τyは、間投詞音声Vyの終点tyに限定されない。例えば、間投詞音声Vyの始点(時点tY)を目標点τyとして音高を調整することも可能である。
 第1再生指示部45は、待機期間Q内に、音高調整部43が生成した音声信号Y2を放音装置26に供給することで、音高を調整した間投詞音声Vy「え~と」の再生を指示する(SA6)。第2再生指示部47は、間投詞音声Vy「え~と」の再生後に、応答生成部41が生成した応答信号Zを放音装置26に供給することで、応答音声Vz「三丁目の角」の再生を指示する(SA7)。以上に説明した処理により、利用者Uによる発話音声Vx「学校の場所をおしえて?」に対して、間投詞音声Vy「え~と」と応答音声Vz「三丁目の角」とが順次に再生される音声対話が実現される。
 以上に説明した通り、第1実施形態では、発話音声Vxに対する応答音声Vzの再生の前に間投詞音声Vyが再生される。したがって、発話者の発話音声と対話相手が発声する応答音声との間に対話相手による何らかの音声(典型的には間投詞音声)が発声されるという現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、第1実施形態では、応答音声Vzの音高に応じて間投詞音声Vyの音高が調整されるので、間投詞音声の音高が当該間投詞音声の直後に発声される応答音声の音高の影響を受けるという現実の発話者の傾向を模擬した自然な音声対話を実現することが可能である。
<第2実施形態>
 本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 第1実施形態の音声対話装置100は、発話音声Vxから応答音声Vzの再生までの待機期間Q内に間投詞音声(先行音声の例示)Vyを再生する。それに対して、第2実施形態の音声対話装置100は、図4に例示される通り、待機期間Q内に、第1実施形態と同様の間投詞音声(先行音声の例示)Vyの再生に加えて、間投詞音声Vyの再生の前に他の間投詞音声(初期音声の例示)Vwを再生する。つまり、間投詞音声(初期音声)Vwは、間投詞音声(先行音声)Vyに先行して再生される音声である。以上の説明から理解される通り、待機期間Q内に間投詞音声Vwと間投詞音声Vyとが順次に再生される。間投詞音声Vwは、間投詞音声Vyと同様に間投詞を意味する音声である。第2実施形態の間投詞音声Vwの発話内容(音韻)は、間投詞音声Vyの発話内容とは相違する。
 現実の対話の場面では、発話者の発話内容によっては、応答音声の発声までに複数の間投詞音声が対話相手により発声される場合がある。例えば、現実の対話では、発話音声「学校の場所をおしえて?」が発声される場合、発話音声に対する相づちを表す「うん」の間投詞音声と言淀み「え~と」を表す間投詞音声とを順次に発声してから、応答音声「三丁目の角」が発声される。以上の傾向を考慮して、第2実施形態の音声対話装置100は、前述の通り、待機期間Q内に複数の間投詞音声Vw,Vyを再生する。第2実施形態では、相づちを表す間投詞音声Vw「うん」と、言淀みを表す間投詞音声Vy「え~と」とを待機期間Q内に順次に再生させる場合を例示する。
 また、現実の対話において、発話者の発話音声から対話相手の応答音声Vzまでに、複数の間投詞音声が対話相手により発声される場合、発話音声の直後に発声される音声の音高は発話音声の音高に依存し、応答音声の直前に発声される音声の音高は応答音声の音高に依存するという傾向がある。以上の傾向を前提として、第2実施形態では、発話音声Vxの音高に応じた音高の間投詞音声Vwと、応答音声Vzの音高に応じた音高の間投詞音声Vyとを再生する。
 第2実施形態の音声対話装置100は、第1実施形態と同様に、収音装置20と記憶装置22と制御装置24と放音装置26とを具備する。第2実施形態の収音装置20は、第1実施形態と同様に、利用者Uの発話音声Vxを表す発話信号Xを生成する。第2実施形態の記憶装置22は、第1実施形態と同様の間投詞音声Vy「え~と」を表す音声信号Y1に加えて、所定の音高の間投詞音声Vw「うん」を表す音声信号W1を記憶する。
 第2実施形態の制御装置24は、第1実施形態と同様に、利用者Uとの対話を成立させるための複数の機能(応答生成部41,音高調整部43,第1再生指示部45および第2再生指示部47)を実現する。第2実施形態の応答生成部41は、第1実施形態と同様に、発話音声Vx「学校の場所をおしえて?」に対する応答音声Vz「三丁目の角」を生成する。具体的には、応答生成部41は、発話音声Vx「学校の場所をおしえて?」の発話信号Xに対する音声認識により発話内容を特定し、発話内容に対する応答文字列を表す応答信号Zを生成する。
 第2実施形態の音高調整部43(韻律調整部)は、利用者Uの発話音声Vxの音高Pxに応じて間投詞音声Vwの音高を調整するとともに、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整する。間投詞音声Vwの音高の調整については、音高調整部43は、記憶装置22に記憶された音声信号W1の音高を、発話音声Vxの音高Pxに応じて調整することで、間投詞音声Vwの音声信号W2を生成する。なお、間投詞音声Vyの音高の調整については、音高調整部43は、第1実施形態と同様に、音声信号Y1が表す初期的な間投詞音声Vy「え~と」を応答音声Vzの音高Pzに応じて調整することで、間投詞音声Vy「え~と」を表す音声信号Y2を生成する。
 第2実施形態の第1再生指示部45は、待機期間Q内に、音高調整部43により音高が調整された間投詞音声Vw「うん」および間投詞音声Vy「え~と」の再生を指示する、つまり間投詞音声Vwを表す音声信号W2と間投詞音声Vyを表す音声信号Y2とを放音装置26に供給する。具体的には、第1再生指示部45は、図4の待機期間Qにおける間投詞音声Vwの再生と、待機期間Qのうちの間投詞音声Vwの再生後における間投詞音声Vyの再生とを指示する。
 第2実施形態の第2再生指示部47は、第1実施形態と同様に、間投詞音声Vyの再生後に応答生成部41が生成した応答信号Zを放音装置26に供給することで、間投詞音声Vyの再生後における応答音声Vzの再生を指示する。
 放音装置26は、第1再生指示部45から供給された音声信号W2が表す間投詞音声Vw「うん」と音声信号Y2が表わす間投詞音声Vy「え~と」とを順次に再生した後に、第2再生指示部47から供給された応答信号Zが表わす応答音声Vz「三丁目の角」を再生する。発話音声Vxの終点txから応答音声Vzの再生が開始される時点tZまでの待機期間Q内の途中の時点tWにおいて、間投詞音声Vwの再生が指示され、終点twから時点tZまでの期間の途中の時点tYにおいて間投詞音声Vyの再生が指示される。以上の説明から理解される通り、利用者Uが発話音声Vx「学校の場所をおしえて?」を発声すると、相づちを表す間投詞音声Vw「うん」と言淀みを表す間投詞音声Vy「え~と」との再生に後続して応答音声Vz「三丁目の角」が再生される。
 図5は、第2実施形態の制御装置24が実行する処理のフローチャートである。第2実施形態では、第1実施形態で例示したスッテップSA1~SA7に、間投詞音声Vwを再生させるための処理(SB1~SB3)を追加する。処理の開始から応答信号Zを生成する処理(SA3)までは第1実施形態と同様である。
 音高調整部43は、収音装置20が生成した発話信号Xから発話音声Vx「学校の場所をおしえて?」の音高Pxを特定する(SB1)。音高Pxは、図4に例示される通り、例えば、発話音声Vxのうち終点txを含む末尾区間Ex内の音高の最低値(以下「最低音高」という)Pxminである。末尾区間Exは、例えば発話音声Vxのうち終点tx以前の所定長(例えば数秒)にわたる一部の区間である。例えば、図4から理解される通り、疑問文の発話音声Vx「学校の場所をおしえて?」では終点txの近傍にて音高が上昇する傾向がある。したがって、発話音声Vxの音高の推移が低下から上昇に転換する極小点での音高(最低音高Pxmin)が音高Pとして特定される。なお、末尾区間Exは、発話音声Vxのうち終点txを含む所定の割合の区間に限定されない。例えば、発話音声Vxのうち終点txを含む所定の割合の区間を末尾区間Exとして画定することも可能である。また、発話音声Vxのうち終点txの近傍の時点(終点txよりも過去の時点)を終点として末尾区間Exを画定する(すなわち発話音声Vxのうち終点txの近傍の区間を除外して末尾区間Exを特定する)ことも可能である。以上の例示から理解される通り、末尾区間Exは、発話音声Vxのうち終点tx付近の区間として包括的に表現される。
 音高調整部43は、発話音声Vx「学校の場所をおしえて?」について特定した音高Px(最低音高Pxmin)応じて間投詞音声Vw「うん」の音高を調整する(SB2)。具体的には、第2実施形態の音高調整部43は、発話音声Vxについて特定した最低音高Pxminに間投詞音声Vwの音声信号W1のうち時間軸上の特定の時点(以下「目標点」という)τwでの音高が一致するように当該間投詞音声Vwの音高を調整することで、間投詞音声Vw「うん」を表す音声信号W2を生成する。目標点τwの好適例は、間投詞音声Vwを構成する複数のモーラのうち特定のモーラ(典型的には最後のモーラ)の始点である。例えば、「うん」という間投詞音声Vwの音声信号W1を想定すると、図4から理解される通り、音声信号W1のうち最後のモーラである「ん」の始点の音高が最低音高Pxminに一致するように音声信号W1の全区間にわたる音高を調整(ピッチシフト)することで、間投詞音声Vwの音声信号W2が生成される。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τwは、間投詞音声Vwのうち最後のモーラの始点に限定されない。例えば、間投詞音声Vwの始点(時点tW)や終点twを目標点τwとして音高を調整することも可能である。
 第1再生指示部45は、待機期間Q内に、音高調整部43が生成した音声信号W2を放音装置26に供給することで、音高を調整した間投詞音声Vw「うん」の再生を指示する(SB3)。間投詞音声Vwの再生が指示された後に、間投詞音声Vyの音高の調整および再生の指示(SA4~SA6)と、応答音声Vzの再生の指示(SA7)とが、第1実施形態と同様に順次実行される。
 第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、待機期間Q内に複数の間投詞音声Vw,Vyが再生されるので、現実の対話をより適切に模擬した音声対話の実現が可能である。また、第2実施形態では、発話音声Vxの直後に再生される間投詞音声Vwは発話音声Vxの音高Pxに応じた音高で再生され、応答音声Vzの直前に再生される間投詞音声Vyは応答音声Vzの音高Pzに応じた音高で再生されるので、より現実の対話に近い自然な音声対話を模擬できる。
<変形例>
 以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、間投詞音声Vyの再生後に発話音声Vxに対する応答音声Vzを再生したが、利用者Uが発話音声Vxを発声していない状態で、音声対話装置100が間投詞音声Vyおよび応答音声Vzを再生することも想定され得る。つまり、発話音声Vxは省略され得る。音声対話装置100は、例えば、間投詞音声Vy「え~と」の再生後に、利用者Uに質問をする音声「今日の天気は?」を再生する。また、利用者Uが入力機器により入力した文字列に対する応答を表す応答音声Vzを再生する構成も採用され得る。以上の説明から理解される通り、間投詞音声Vyの再生後に再生される音声は、発話音声Vxに対する応答の音声には限定されず、対話のための(つまり対話を構成する)対話音声として包括的に表現される。前述の各形態における応答音声Vzは、対話音声の例示である。
(2)前述の各形態では、応答音声Vzの再生前に間投詞音声Vyを再生したが、応答音声Vzの再生前に再生する音声の内容は以上の例示(つまり間投詞)に限定されない。例えば応答音声Vzの再生前に特定の意味を持つ音声(例えば複数の語句で構成される文章)が再生されることも想定され得る。以上の説明から理解される通り、応答音声Vzの再生前に再生される音声は、応答音声Vzに先行して再生される先行音声として包括的に表現され、間投詞音声Vyは先行音声の例示である。なお、第2実施形態の間投詞音声Vwについても、間投詞音声Vyの再生前に間投詞音声Vwを再生したが、間投詞音声Vyの再生前に再生する音声の内容は以上の例示(つまり間投詞)に限定されない。間投詞音声Vyの再生前に再生される音声は、間投詞を表す音声には限定されず、間投詞音声Vyに先行して再生される初期音声として包括的に表現される。前述の各形態における間投詞音声Vwは、初期音声の例示である。
(3)第2実施形態では、2個の間投詞音声Vw,Vyを待機期間Q内に再生させたが、3個以上の音声を待機期間Q内に再生させる構成も採用され得る。待機期間Q内の音声の総数に関わらず、発話音声Vxの直後に再生される音声が発話音声Vxの音高Pxに応じて調整され、応答音声Vzの直前の音声が応答音声Vzの音高Pzに応じて調整する構成が好適である。以上の構成によれば、前述の各形態と同様に、より現実の対話に近い自然な音声対話を模擬できるという効果は担保される。なお、待機期間Q内に再生される複数の音声の内容(音韻)の異同は不問である。
(4)前述の各形態では、間投詞音声Vyのうち目標点τyの音高を応答音声Vzの末尾区間Ez内の最低音高Pzminに一致させる構成を例示したが、間投詞音声Vyの目標点τyでの音高と応答音声Vzの音高Pzとの関係は以上の例示(両者が一致する関係)に限定されない。例えば、間投詞音声Vyの目標点τyでの音高を、応答音声Vzの音高Pzに所定の調整値(オフセット)を加算または減算した音高に一致させることも可能である。調整値は、事前に選定された固定値(例えば最低音高Pzminに対して5度等の音程に相当する数値)または利用者Uからの指示に応じた可変値である。なお、第2実施形態においても、間投詞音声Vwの目標点τwでの音高と発話音声Vxの最低音高Pxminとの関係は両者が一致する関係に限定されない。第2実施形態において調整値をオクターブの整数倍に相当する数値に設定した構成を採用する場合、最低音高Pxminをオクターブシフトした音高の間投詞音声Vwが再生される。なお、調整値を適用するか否かを利用者Uからの指示に応じて切替えることも可能である。
(5)前述の各形態では、応答音声Vzの末尾区間Ezの最低音高Pzminに応じて間投詞音声Vyの音高を調整したが、応答音声Vzにおける任意の時点の音高Pzが間投詞音声Vyの音高の調整に利用され得る。ただし、現実の対話に近い自然な音声対話の実現という観点からは、応答音声Vzの末尾区間(つまり終点tz付近)Ezの音高Pz(特に最低音高Pzmin)に応じて調整する構成が好適に採用され得る。なお、第2実施形態においても、発話音声Vxにおける任意の時点の音高Pxが間投詞音声Vwの音高の調整に利用され得る。
(6)前述の各形態において、発話音声Vxに応じて、間投詞音声Vyの再生を指示するか否かを第1再生指示部45が決定する構成も好適に採用され得る。例えば発話内容に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、発話内容が疑問文である場合は間投詞音声Vyの再生を指示するのに対して、発話内容が平叙文である場合は間投詞音声Vyの再生を指示しない。また、発話音声Vxの時間長に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、発話音声Vxの時間長が所定値を上回る場合は間投詞音声Vyの再生を指示するのに対して、発話音声Vxの時間長が所定値を下回る場合は間投詞音声Vyの再生を指示しない。
 また、応答音声Vzに応じて間投詞音声Vyの再生を指示するか否かを第1再生指示部45が決定する構成も好適に採用され得る。例えば応答音声Vzの内容に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、応答音声Vzの内容が複数の語句で構成される文章である場合は間投詞音声Vyの再生を指示するのに対して、応答音声Vzの内容が1つの語句(例えば指示代名詞「そこ」)で構成される場合は間投詞音声Vyの再生を指示しない。また、応答音声Vzの時間長に応じて間投詞音声Vyの再生を指示するか否かを決定することも可能である。第1再生指示部45は、例えば、応答音声Vzの時間長が所定値を上回る場合は間投詞音声Vyの再生を指示するのに対して、応答音声Vzの時間長が所定値を下回る場合は間投詞音声Vyの再生を指示しない。以上の説明から理解される通り、発話音声Vxまたは応答音声Vzに応じて、間投詞音声Vyの再生を指示するか否かを決定する構成も好適に採用され得る。以上の構成によれば、発話音声Vxおよび応答音声Vzに依存せずに常に先行音声が再生される構成と比較して、より現実の対話に近い自然な音声対話を模擬できる。なお、第2実施形態においては、発話音声Vxまたは応答音声Vzに応じて、間投詞音声Vwの再生を指示するか否かを決定することも可能である。
(7)前述の各形態では、待機期間Q内の途中の時点tYにおいて間投詞音声Vyの再生を指示したが、間投詞音声Vyの再生を指示する時点tYを発話音声Vxまたは応答音声Vzの時間長に応じて可変に設定することも可能である。例えば、発話音声Vxまたは応答音声Vzの時間長が長い場合(例えば複数の語句から構成される文章を表す応答音声Vzの場合)は、応答音声Vzの再生が開始される時点tZに近い時点tYを設定するのに対して、発話音声Vxまたは応答音声Vzの時間長が短い場合(例えば1つの語句を表す応答音声Vzの場合)は、発話音声Vxの終点txに近い時点tYを設定する。
 ここで、利用者Uの発話音声Vxの発声と音声対話装置100の応答音声Vzの再生とは、現実の人間同士の対話と同様に、往復して複数回実行され得る。そこで、待機期間Q内の途中の時点tYを応答音声Vzの終点tzから、次の発話音声Vxが利用者により開始される時点tXまでの時間長に応じて可変に設定することも可能である。以上の構成によれば、利用者Uの発話のペースで音声対話装置100との対話が実現できるという利点がある。なお、間投詞音声Vyの再生を指示する時点tYを対話毎に無作為に設定する構成も採用され得る。
(8)前述の各形態では、記憶装置22に記憶された音声信号Y1の音高を、応答音声Vzの音高Pzに応じて調整することで、間投詞音声Vyの音声信号Y2を生成する構成を例示したが、間投詞音声Vyを表す音声信号Y2を生成する方法は以上の例示に限定されない。例えば、間投詞「え~と」の文字列を発話した音声(すなわち間投詞音声Vy)を表す音声信号Y2を公知の音声合成技術により生成する構成も好適に採用され得る。具体的には、音高調整部43は、応答音声Vzの音高Pzに応じて調整した音高の間投詞音声Vyを表す音声信号Y2を生成する。つまり、記憶装置22への音声信号Y1の記憶は省略され得る。以上の説明から理解される通り、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整する方法(つまり間投詞音声Vyの音声信号Y2を生成する方法)は任意である。なお、第2実施形態の間投詞音声Vwの音声信号W2の生成についても、間投詞「うん」の文字列を発話した音声(すなわち間投詞音声Vw)を表す音声信号W2を発話音声Vxの音高Pxに応じた音高で、公知の音声合成技術により生成することも可能である。すなわち、発話音声Vxの音高Pxに応じて間投詞音声Vwの音高を調整する方法(つまり間投詞音声Vwの音声信号W2を生成する方法)は任意である。
(9)前述の各形態では、応答音声Vzの音高Pzに応じて間投詞音声Vyの音高を調整したが、調整対象となる間投詞音声Vyの韻律の種類は音高に限定されない。韻律(プロソディ)は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記(例えば韻律を表す特別な表記を除いた表記)のみからでは把握できない性質を意味する。韻律は、発話者の意図または感情を受聴者に想起ないし推測させ得る特性とも換言され得る。具体的には、音量,抑揚(音声の調子の変化もしくはイントネーション),音調(音声の高低もしくは強弱),音長(発話長),話速,リズム(音調の時間的な変化の構造),またはアクセント(高低もしくは強弱のアクセント)等の種々の特徴が、韻律の概念には包含され得るが、韻律の典型例は音高である。応答音声Vzの韻律に応じて間投詞音声Vyの韻律を調整する構成であれば、自然な音声対話を実現することが可能である。なお、発話音声Vxの音高Pxに応じて間投詞音声Vwの音高を調整する第2実施形態についても、調整対象となる間投詞音声Vwの韻律の種類は音高に限定されない。
(10)前述の各形態で例示した音声対話装置100は、前述の通り、制御装置24と音声対話用のプログラムとの協働で実現され得る。音声対話用のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。
(11)本発明は、前述の各形態に係る音声対話装置100の動作方法(音声対話方法)としても特定され得る。音声対話方法の動作主体となるコンピュータ(音声対話装置100)は、例えば単体のコンピュータまたは複数のコンピュータで構成されるシステムである。具体的には、本発明の好適な態様の音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、音高調整ステップが調整した先行音声の再生を指示する第1再生指示ステップと、第1再生指示ステップによる先行音声の再生後における対話音声の再生を指示する第2再生指示ステップとを含む。
(12)以上に例示した形態から、例えば以下の構成が把握される。
<態様1>
 本発明の好適な態様(態様1)に係る音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップとを含む。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける(つまり先行する音声の音高は後続する音声の音高に依存する)という傾向がある。以上の方法では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。
<態様2>
 態様1の好適例(態様2)に係る音声対話方法において、前記対話音声は、発話音声に対する応答音声であり、前記先行音声は、間投詞の音声であり、前記第1再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する。現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手による何らかの音声(典型的には間投詞)が発声されるという傾向がある。発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向は顕著である。したがって、発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、自然な音声対話を実現できるという前述の効果は特に有効である。
<態様3>
 態様1または態様2の好適例(態様3)に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の音高に応じて前記先行音声の音高を調整する。以上の方法では、対話音声のうち終点付近の音高に応じた音高の先行音声が再生されるから、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。
<態様4>
 態様3の好適例(態様4)に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する。以上の方法では、対話音声の終点付近の最低音高に先行音声の終点の音高が一致するように先行音声が再生されるので、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。
<態様5>
 態様2の好適例(態様5)に係る音声対話方法において、前記第1再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む。以上の方法では、発話音声または対話音声に応じて、先行音声を再生させるか否かが決定するから、発話音声および対話音声によらず常に先行音声が再生される方法と比較して、より現実の対話に近い自然な音声対話を模擬できる。
<態様6>
 態様5の好適例(態様6)に係る音声対話方法において、前記第1再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する。以上の方法では、発話音声または対話音声の時間長に応じて、先行音声の再生の有無が決定する。
<態様7>
 態様2の好適例(態様7)に係る音声対話方法において、前記第1再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する。以上の方法では、待機期間のうち発話音声または対話音声の時間長に応じた時点において先行音声が再生されるので、先行音声が再生さされる時点が発話音声または対話音声の時間長に関わらず変化しない構成と比較して、利用者に機械的に印象を与えることを低減することができる。
<態様8>
 態様2の好適例(態様8)に係る音声対話方法において、前記音高調整ステップでは、前記発話音声の音高に応じて、前記先行音声に先行して再生される初期音声の音高を調整し、前記第1再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する。以上の方法では、発話音声から先行音声の再生までの期間に、発話音声の音高に応じた音高の初期音声が再生されるので、より現実の対話に近い自然な音声対話を模擬できる。
<態様9>
 本発明の好適な態様(態様9)に係る音声対話装置は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部と、前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部とを具備する。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける(つまり先行する音声の音高は後続する音声の音高に依存する)という傾向がある。以上の構成では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。
 本出願は、2017年3月9日に出願された日本特許出願(特願2017-044557)に基づくものであり、ここに参照として取り込まれる。
 本発明によれば、自然な音声対話が実現されるため、有用である。
100……音声対話装置
20……収音装置
22……記憶装置
24……制御装置
26……放音装置
41……応答生成部
43……音高調整部
45……第1再生指示部
47……第2再生指示部
 

Claims (10)

  1.  対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整ステップと、
     前記韻律調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、
     前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップと
     を含む音声対話方法。
  2.  前記対話音声は、発話音声に対する応答音声であり、
     前記先行音声は、間投詞の音声であり、
     前記第1再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する
     請求項1の音声対話方法。
  3.  前記韻律は、音高を含み、
     前記韻律調整ステップでは、前記対話音声の音高に応じて前記先行音声の音高を調整する
     請求項1の音声対話方法。
  4.  前記韻律調整ステップでは、前記対話音声のうち末尾区間の音高に応じて前記先行音声の音高を調整する
     請求項3の音声対話方法。
  5.  前記韻律調整ステップでは、前記対話音声のうち前記末尾区間の最低音高に前記先行音声の終点の音高が一致するように調整する
     請求項4の音声対話方法。
  6.  前記第1再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む
     請求項2の音声対話方法。
  7.  前記第1再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する
     請求項6の音声対話方法。
  8.  前記第1再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する
     請求項2の音声対話方法。
  9.  前記韻律調整ステップでは、前記発話音声の韻律に応じて、前記先行音声に先行して再生される初期音声の韻律を調整し、
     前記第1再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する
     請求項2の音声対話方法。
  10.  対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整部と、
     前記韻律調整部が調整した前記先行音声の再生を指示する第1再生指示部と、
     前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部と
     を具備する音声対話装置。 
     
PCT/JP2018/009354 2017-03-09 2018-03-09 音声対話方法および音声対話装置 WO2018164278A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880017267.8A CN110431622A (zh) 2017-03-09 2018-03-09 语音对话方法及语音对话装置
US16/561,348 US20190392814A1 (en) 2017-03-09 2019-09-05 Voice dialogue method and voice dialogue apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017044557A JP6911398B2 (ja) 2017-03-09 2017-03-09 音声対話方法、音声対話装置およびプログラム
JP2017-044557 2017-03-09

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/561,348 Continuation US20190392814A1 (en) 2017-03-09 2019-09-05 Voice dialogue method and voice dialogue apparatus

Publications (1)

Publication Number Publication Date
WO2018164278A1 true WO2018164278A1 (ja) 2018-09-13

Family

ID=63447734

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/009354 WO2018164278A1 (ja) 2017-03-09 2018-03-09 音声対話方法および音声対話装置

Country Status (4)

Country Link
US (1) US20190392814A1 (ja)
JP (1) JP6911398B2 (ja)
CN (1) CN110431622A (ja)
WO (1) WO2018164278A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351486A (ja) * 2001-05-30 2002-12-06 Toshiba Corp 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP2009251029A (ja) * 2008-04-01 2009-10-29 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
JP2016038501A (ja) * 2014-08-08 2016-03-22 国立大学法人京都大学 音声対話方法、及び音声対話システム
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351486A (ja) * 2001-05-30 2002-12-06 Toshiba Corp 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP2009251029A (ja) * 2008-04-01 2009-10-29 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
JP2016038501A (ja) * 2014-08-08 2016-03-22 国立大学法人京都大学 音声対話方法、及び音声対話システム
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置

Also Published As

Publication number Publication date
JP2018146906A (ja) 2018-09-20
US20190392814A1 (en) 2019-12-26
JP6911398B2 (ja) 2021-07-28
CN110431622A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
US10789937B2 (en) Speech synthesis device and method
JP4246792B2 (ja) 声質変換装置および声質変換方法
US10854219B2 (en) Voice interaction apparatus and voice interaction method
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US7536303B2 (en) Audio restoration apparatus and audio restoration method
WO2017006766A1 (ja) 音声対話方法および音声対話装置
Doi et al. Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models
JP5580019B2 (ja) 語学学習支援システム及び語学学習支援方法
JP2006517037A (ja) 韻律的模擬語合成方法および装置
US11727949B2 (en) Methods and apparatus for reducing stuttering
CN111418006A (zh) 声音合成方法、声音合成装置及程序
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP2005070430A (ja) 音声出力装置および方法
JP6569588B2 (ja) 音声対話装置およびプログラム
JP6728660B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6657887B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6657888B2 (ja) 音声対話方法、音声対話装置およびプログラム
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
WO2018164278A1 (ja) 音声対話方法および音声対話装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2018146907A (ja) 音声対話方法および音声対話装置
WO2017098940A1 (ja) 音声対話装置および音声対話方法
JP7432879B2 (ja) 発話トレーニングシステム
JP2019060941A (ja) 音声処理方法
JP6922306B2 (ja) 音声再生装置、および音声再生プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18763293

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18763293

Country of ref document: EP

Kind code of ref document: A1