WO2022201458A1 - 音声対話システム、音声対話方法及び音声対話管理装置 - Google Patents

音声対話システム、音声対話方法及び音声対話管理装置 Download PDF

Info

Publication number
WO2022201458A1
WO2022201458A1 PCT/JP2021/012655 JP2021012655W WO2022201458A1 WO 2022201458 A1 WO2022201458 A1 WO 2022201458A1 JP 2021012655 W JP2021012655 W JP 2021012655W WO 2022201458 A1 WO2022201458 A1 WO 2022201458A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
output
unit
response
user
Prior art date
Application number
PCT/JP2021/012655
Other languages
English (en)
French (fr)
Inventor
啓吾 川島
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/012655 priority Critical patent/WO2022201458A1/ja
Priority to JP2023508340A priority patent/JP7361988B2/ja
Publication of WO2022201458A1 publication Critical patent/WO2022201458A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present disclosure relates to a voice dialogue system, a voice dialogue method, and a voice dialogue management device.
  • a user who is a user of the voice dialogue system interrupts even when the response voice output of the voice dialogue system is being output.
  • a barge-in function (hereinafter barge-in) has been developed to enable voice input.
  • barge-in may have side effects in interactive processing. For example, when the voice dialogue system fails to perform speech recognition well and asks the user to input an utterance again, the continuation of the previous utterance is erroneously recognized. This delay in speech recognition start timing, in other words, the low accuracy of speech recognition barge-in reception determination, reduces the usability of the speech dialogue system. I was letting
  • a conventional voice dialogue system receives a generated response voice signal as an input, calculates the length of the response voice utterance from the size of the signal data file, and determines the length of the calculated response voice utterance time. Based on the length, the timing of starting speech recognition is controlled before the output of the response speech is completed (see, for example, Patent Document 1).
  • the voice dialogue management unit and the voice input/output unit are separated from each other by the voice dialogue management unit.
  • the system will operate in response to the output completion timing (output completion time) of the response voice output by the system, but the system is often interconnected by an asynchronous communication network.
  • the output completion timing of the response voice generated by the voice dialogue management unit and the response voice at the voice input/output unit differs. Therefore, it is difficult to accurately detect the output completion time of the response voice output to the user.
  • the voice dialogue management unit cannot accurately detect the output completion time of the response voice output to the user by the voice dialogue system.
  • the barge-in acceptance determination accuracy of voice recognition is degraded, and the usability of the voice dialogue system is degraded.
  • the present disclosure has been made in order to solve the above-described problems.
  • By receiving the output completion time of the response voice output by the input/output unit it is possible to accurately detect the output completion time of the response voice output to the user by the voice interaction management unit. Accordingly, it is an object of the present invention to improve the barge-in acceptability determination accuracy of voice recognition and improve the usability of the voice interaction system.
  • the voice dialogue system is having a voice input/output unit and a voice dialogue management unit, A voice dialogue system in which a response voice generated by the voice dialogue management unit is output to a user with a delay,
  • the voice input/output unit is a voice input unit that acquires the user's uttered voice; a voice output unit that outputs the response voice to the user and outputs a voice output status of the response voice to the voice dialogue management unit;
  • the voice dialogue management unit a voice recognition unit that recognizes the user's uttered voice and outputs a voice recognition result; an intention understanding unit that estimates the user's utterance intention from the speech recognition result and outputs an intention understanding result; a dialog management unit that outputs response content information to the user based on the intention understanding result; an audio generation unit that generates an audio signal of the response audio based on the response content information and outputs the audio signal to the audio input/output unit; an audio output information generating unit that generates audio output information, which is information indicating whether or not the response audio
  • the voice dialogue method is having a voice input/output step and a voice interaction management step;
  • a voice interaction method in which the response voice generated by the voice interaction management step is output to the user with a delay includes: a voice input step of acquiring the user's uttered voice; a voice output step of outputting the response voice to the user and outputting a voice output status of the response voice to the voice dialogue management step;
  • the voice interaction management step includes: a voice recognition step of recognizing the user's uttered voice and outputting a voice recognition result; an intention understanding step of estimating the user's utterance intention from the speech recognition result and outputting an intention understanding result; a dialogue management step of outputting response content information to the user based on the intention understanding result; an audio generation step of generating an audio signal of the response audio based on the response content information and outputting the audio signal to the audio input/output step; a voice output information generating step of generating voice output information, which is information indicating whether
  • the voice dialogue management device is a voice recognition unit for recognizing a user's uttered voice and outputting a voice recognition result; an intention understanding unit that estimates the user's utterance intention from the speech recognition result and outputs an intention understanding result; a dialog management unit that outputs response content information to the user based on the intention understanding result; an audio generator that generates and outputs an audio signal of the response audio based on the response content information; An audio output information generation unit that receives an audio output status, which is a status in which an audio signal of the response audio is being output to the user, and generates audio output information that is information indicating whether or not the response audio is being output.
  • an input acceptance determination unit that determines whether or not input to the intention understanding unit can be accepted using the voice output information.
  • the present disclosure it is possible to accurately detect the output completion time of the response voice of the voice dialogue system even in a voice dialogue system in which the voice dialogue management unit and the voice input/output unit have separate and independent configurations. As a result, it is possible to improve the barge-in acceptability determination accuracy of speech recognition, and the usability of the speech dialogue system and the speech dialogue method is improved.
  • FIG. 1 is a block configuration diagram of a voice dialogue system according to Embodiment 1;
  • FIG. 2 is a hardware configuration diagram of the voice interaction system according to Embodiment 1.
  • FIG. 4 is a flow chart showing the operation of the voice interaction system according to Embodiment 1; 4 is an example of the operation of an input acceptance determination unit according to Embodiment 1;
  • 2 is a block configuration diagram of a voice dialogue system according to Embodiment 2;
  • FIG. FIG. 10 is a hardware configuration diagram of a voice dialogue system according to Embodiment 2;
  • FIG. 10 is a block configuration diagram of a voice dialogue system according to Embodiment 3;
  • 10 is a flow chart showing the operation of the voice dialogue system in Embodiment 3;
  • FIG. 1 is a block configuration diagram of a voice dialogue system showing the first embodiment.
  • a voice dialogue system 1000 is composed of a voice input/output unit 200, a voice dialogue management unit 300, and a network NW.
  • the voice input/output unit 200 faces the user U, and performs processing for inputting voice to the voice dialog system 1000 and for presenting the response voice from the voice dialog system 1000 to the user U. Also, the voice input/output unit 200 is built in, for example, a voice input/output device of a smart speaker.
  • the voice dialogue management unit 300 obtains a voice signal uttered by the user U through a network NW described later, performs voice recognition and intention understanding of the voice uttered by the user U, and generates a response voice corresponding to the intention of the user U. process.
  • the generated response voice is output to the network NW.
  • the voice dialogue management unit 300 is built in a server device in a data center located away from the user U, for example.
  • the network NW is a communication device that transmits and receives data between the voice input/output unit 200 and the voice dialogue management unit 300, and is, for example, a wired or wireless digital communication device such as the Internet or LAN (Local Area Network). Note that the network NW may be a communication device that analog-transmits voice through a telephone line and a modem.
  • the audio input/output unit 200 is composed of an audio input unit 1 and an audio output unit 7.
  • the voice dialogue management unit 300 is composed of a voice recognition unit 2, an input acceptance determination unit 3, an intention understanding unit 4, a dialogue management unit 5, a voice generation unit 6, and a voice output information generation unit 8. be.
  • the speech input unit 1 uses a microphone (not shown) to acquire speech uttered by the user U who is the user of the speech dialogue system 1000 .
  • the acquired analog audio waveform is sampled at a sampling frequency of, for example, 16 kHz using an analog/digital converter and converted into a digital audio data string.
  • acoustic analysis of the converted digital speech data string is performed, for example, it is converted to 20th order MFCC (Mel Frequency Cepstrum Coefficients), which is a feature parameter used in speech recognition. .
  • MFCC Mel Frequency Cepstrum Coefficients
  • the input speech information D1 is not limited to the feature parameter MFCC.
  • the input speech information D2 may be any information that can be subjected to speech recognition processing in the speech recognition section 2, which will be described later.
  • the acoustic analysis in the speech input unit 1 can be omitted, and the amount of processing for acoustic analysis can be reduced.
  • the speech recognition unit 2 receives the input speech information D1 obtained through the network NW, detects the speech start timing and the speech completion timing of the user U by speech section detection processing, and cuts out only the user U's speech section. By performing voice recognition processing on the cut-out uttered voice, the utterance content of the user U is recognized, and text data representing the utterance content, the utterance start timing, and the utterance completion timing are output as a speech recognition result D2.
  • the utterance content of the speech recognition result D2 may be just text data representing a specific keyword included in the user U's utterance. Numerical data representing an ID indicating a predetermined keyword may also be used.
  • the input acceptance determination unit 3 receives the voice recognition result D2 and the voice output information D8, which will be described later, as inputs, and determines whether or not to accept the input of the voice uttered by the user U. When the input is accepted, the received voice recognition result D3 is Output.
  • the intention understanding unit 4 receives the received speech recognition result D3 as an input, estimates the intention of the input content, and outputs it as an intention understanding result D4.
  • the intention comprehension result D4 may be any information representing the user U's utterance intention/operation content, and may be numeric data such as text data or an ID indicating the content of the text.
  • the dialogue management unit 5 receives the intention understanding result D4 as input, and outputs response content information D5 when a response to the user U is required.
  • response content information D5 may be information necessary for generating a response sentence such as the type and content of the response, and can take any form such as text data or numerical data.
  • the voice generation unit 6 receives the response content information D5, generates a response voice, and outputs it to the network NW as an output voice D6.
  • the output voice D6 is a data string representing a voice waveform.
  • the audio output unit 7 receives the output audio D6 obtained through the network NW, and converts the output audio D6 into an analog audio signal using a digital/analog converter.
  • the output voice D6 converted into an analog voice signal is output to the user U as a response voice from the voice interaction system 1000 using a voice notification device such as a speaker (not shown).
  • the audio output unit 7 outputs the audio output status D7, which is information indicating the audio output start time or the audio output completion time of the output audio D6, to the network NW.
  • the audio output status D7 may be the audio output start time of the output audio D6 and the elapsed time from the audio output start time.
  • the audio output information generation unit 8 receives as input the audio output status D7 obtained through the network NW, and generates and outputs audio output information D8, which is information indicating whether or not the audio output unit 7 is outputting audio.
  • the audio output information D8 is not limited to the time itself as long as it can express at least whether or not audio is being output.
  • the audio output information D8 may be flag information (e.g., 1 during audio output, 0 during audio stop) that indicates the timing at which audio output is completed and is output at predetermined intervals (e.g., 0.25 msec). Just do it.
  • a signal that can determine the timing at which audio output is completed such as numerical information on the relative time from the start of audio output until the output is completed, text information that indicates time, or the number of audio data frames counted since system startup. Good if
  • Each configuration of the voice interactive system 1000 shown in FIG. 1 can be realized by a computer, which is an information processing device with a built-in CPU (Central Processing Unit).
  • a computer with a built-in CPU is, for example, a stationary computer such as a personal computer or a server computer, a portable computer such as a smartphone or a tablet computer, or a microcomputer embedded in an in-vehicle information system such as a car navigation system, and SoC (System on Chip) and the like.
  • SoC System on Chip
  • each configuration of the spoken dialogue system 1000 shown in FIG. Integrated circuit).
  • each configuration of the spoken dialogue system 1000 shown in FIG. 1 may be a combination of a computer and an LSI.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of the voice interaction system 1000 configured using an information processing device such as a computer.
  • the voice input/output unit 200 of the voice dialogue system 1000 includes a memory 101A, a processor 102A containing a CPU 110A, a recording medium 103A, an acoustic interface 104 (described as acoustic I/F in FIG. 2), and a bus. such as signal path 108A.
  • the speech dialogue management unit 300 of the speech dialogue system 1000 includes a memory 101B, a processor 102B containing a CPU 110B, a recording medium 103B, a network interface 105B (described as network I/F in FIG. 2), It has a text interface 106 (described as text I/F in FIG. 2), a display interface 107 (described as display I/F in FIG. 2), and a signal path 108B such as a bus.
  • the memory 101A and the memory 101B are a program memory for storing various programs for realizing the speech dialogue processing of the first embodiment, a work memory for use when the processor performs data processing, a memory for developing signal data, and the like.
  • storage devices such as ROM (Read Only Memory) and RAM (Random Access Memory) used as
  • the memory 101A can store programs for the voice input unit 1 and the voice output unit 7.
  • the memory 101A can also store intermediate data such as the input voice information D1, the output voice D6, and the voice output status D7.
  • the memory 101B stores the programs of the voice recognition unit 2, the input acceptance determination unit 3, the intention understanding unit 4, the dialog management unit 5, the voice generation unit 6, and the voice output information generation unit 8. be able to.
  • the memory 101B also stores intermediate data such as input speech information D1, speech recognition result D2, received speech recognition result D3, intention understanding result D4, response content information D5, output speech D6, speech output situation D7, speech output information D8, and so on. Data can be stored.
  • the processor 102A uses the CPU 110A and the RAM in the memory 101A as working memory, and operates according to a computer program (that is, voice dialogue program) read from the ROM in the memory 101A.
  • a computer program that is, voice dialogue program
  • the processor 102A reads a program corresponding to each process of the speech input unit 1 and the speech output unit 7 from the memory 101A, and executes the processing by the CPU 110A, thereby realizing the speech dialogue shown in the first embodiment.
  • a voice input/output process related to the process can be executed.
  • the processor 102B uses the CPU 110B and the RAM in the memory 101B as working memory, and operates according to a computer program (that is, voice dialogue program) read from the ROM in the memory 101B.
  • a computer program that is, voice dialogue program
  • the processor 102B is a program corresponding to each process of the voice recognition unit 2, the input acceptance determination unit 3, the intention understanding unit 4, the dialog management unit 5, the voice generation unit 6, and the voice output information generation unit 8. is read from the memory 101B and processed by the CPU 110B, it is possible to execute the voice dialogue management process related to the voice dialogue process shown in the first embodiment.
  • the recording medium 103A is used to store various data such as various setting data and signal data for the processor 102A.
  • a volatile memory such as SDRAM (Synchronous DRAM) or a non-volatile memory such as HDD (Hard Disk Drive) or SSD (Solid State Drive) can be used.
  • the recording medium 103A stores, for example, a startup program including an OS (Operating System), a voice dialogue system program, initial states and various setting data, constant data for control, sound signal data, and various data such as error information logs. can be accumulated.
  • OS Operating System
  • voice dialogue system program initial states and various setting data
  • constant data for control constant data for control
  • sound signal data and various data such as error information logs.
  • various data such as error information logs.
  • the recording medium 103B is used to store various data such as various setting data and signal data for the processor 102B.
  • a volatile memory such as SDRAM or a nonvolatile memory such as HDD or SSD can be used.
  • various data such as a startup program including an OS, a program for a voice interaction system, initial state and various setting data, constant data for control, sound signal data, error information logs, etc., can be accumulated. can be done.
  • Various data in the memory 101B can also be stored in this recording medium 103B.
  • the acoustic interface 104 is composed of a microphone that acquires a voice signal uttered by the user U, and a speaker that notifies the user U of the output voice D6.
  • the network interface 105A may be used to input stream data acquired from another device. Alternatively, recorded voice data stored in an external device may be selected and read through the network interface 105A. Also, instead of notifying the user U of the output voice D6 through a speaker, the network interface 105A may be used to send the output voice D6 to another device as data. Note that the acoustic interface 104 can be omitted if the system inputs/outputs sound via wired or wireless communication instead of using a microphone and a speaker.
  • the network interface 105A and the network interface 105B transmit and receive external data via a cable or a network interface, such as when referring to the input audio information D1, the output audio D6, and the audio output status D7 from data on the network, and when inputting/outputting as stream data.
  • This is a communication interface for wireless communication.
  • the text interface 106 is an input device for manually inputting characters such as response voice content, and is composed of input devices such as a keyboard, a touch panel, and a mouse. Note that the text interface 106 can be omitted if the system does not require human input.
  • the display interface 107 is a device for displaying speech recognition results of input speech, output contents of response speech, etc., and is composed of a display device such as a display. Note that the display interface 107 can be omitted if the system does not require display on a display device.
  • Each function of the generator 8 can be realized by the memory 101A, memory 101B, processor 102A, processor 102B, recording medium 103A, and recording medium 103B.
  • the program for executing voice dialogue system 1000 may be stored in a storage device inside the computer that executes the software program, or may be stored in a computer-readable external storage medium such as a CD-ROM or flash memory. It may be held in a distributed format and loaded and operated when the computer is started. It is also possible to acquire programs from other computers through a wireless or wired network such as a LAN (Local Area Network).
  • a wireless or wired network such as a LAN (Local Area Network).
  • the program that executes the voice dialogue system 1000 can be combined on the software with a program that executes an externally executed program, such as a car navigation system or an automatic telephone answering system, so that they can be operated on the same computer. Alternatively, distributed processing on multiple computers is possible.
  • FIG. 3 is a flow chart showing the flow of processing of the voice interaction system 1000 showing the first embodiment.
  • step ST1 the speech input unit 1 acquires the input speech uttered by the user U, performs acoustic analysis, and outputs the obtained feature parameter MFCC to the speech recognition unit 2 as the input speech information D1 (step ST1 ).
  • the speech recognition unit 2 first detects the speech start timing and the speech completion timing of the input speech by detecting the speech period of the input speech, and cuts out only the speech speech of the user U from the feature parameter of the input speech. Subsequently, speech recognition processing is performed on the cut-out utterance speech, so that the utterance content of the user U is recognized from the input speech information D1, and the speech content recognition result, utterance start timing, and utterance completion timing are output as voice.
  • the recognition result D2 is output to the input acceptance determination unit 3 (step ST2).
  • a known speech recognition technology may be used for speech recognition. , or sentence-by-sentence speech recognition.
  • a known technique such as comparison of the short-time power of the speech with a predetermined threshold or cepstrum analysis of the input speech can be used.
  • the input acceptance determination unit 3 receives the speech recognition result D2 and the voice output information D8, and determines whether or not to accept the input of the user U's uttered voice (step ST3).
  • the voice output information 8 is information indicating whether or not the response voice is being output. For example, it is a flag indicating whether or not the response voice is being output. If the flag value is 0, the response voice is not being output. Alternatively, it may be the output elapsed time from the response voice output start time, and if the elapsed time is not 0, it can be determined that the response voice is being output. Note that the output result time is reset to 0 when the output of the response voice is completed.
  • FIG. 4 shows an example of a specific operation of the input reception determination section 3 in step ST3.
  • the response voice output by the voice dialogue system 1000 to the user U is abbreviated as "system utterance”
  • the utterance voice input by the user U to the voice dialogue system 1000 is abbreviated as "user utterance”.
  • the start and end timings of system speech are input as the audio output information D8. Also, in this example, it operates so as not to accept the input of the user's utterance in the section from the start of the system utterance to the end of the utterance.
  • (a) is an example of an operation based on the system utterance output by the speech generation unit 6, and (b) is according to the first embodiment of the present invention.
  • An example of operation is shown respectively.
  • the audio of the system utterance output by the audio generating unit 6 is illustrated as the audio content in the upper row (A)
  • the audio of the system utterance output to the user U by the audio output unit 7 is illustrated as the audio content in the lower row (B).
  • “user utterance” represents the contents of speech uttered by the user U
  • "utterance status” represents the output status of the system utterance
  • "acceptance result” represents the acceptance result of the input speech at the input acceptance determination unit 3, respectively.
  • the horizontal axis is time in the voice dialogue management unit 300 .
  • the timing differs from that of the system utterance (voice content of (A)) output by the voice generator 6 .
  • ST(A) shown on the time axis is the start time of the system utterance obtained from the voice data of the voice generation unit 6, and "EN(A)” is the time from the voice data of the voice generation unit 6. is the completion time of the resulting system utterance.
  • ST(B) shown on the time axis is the start time of the system utterance, which is the response voice output by the voice output unit 7 to the user U, that is, the utterance start time in Embodiment 1 of the present invention.
  • EN(B) is the completion time of the system utterance, which is the response voice output by the voice output unit 7 to the user U, that is, the utterance completion time in the first embodiment of the present invention.
  • the timing at which the user U starts speaking is after the output of the response voice output by the voice output unit 7 is completed, that is, when the user U hears the system utterance notified to the user U (that is, the voice content of (B)). Since it is after listening, the example of the operation based on the system utterance output by the speech generator 6 in (a) is the same as the example of the operation according to the first embodiment of the present invention in (b).
  • the voice interaction system 1000 outputs the system utterance "Please tell us your business.” prompting the user U to input voice ([1] start utterance). After completion of the system utterance ([1] utterance completion), the user U utters, "Please deliver home.”
  • the voice input unit 1 acquires the user's utterance
  • the voice recognition unit 2 when the user's utterance is divided into utterance segments of "Delivery,” "Um,” and "Please.”
  • the speech recognition unit 2 first receives an input of "home delivery,” and the speech dialogue system 1000 understands the intention of the user's utterance even though the user U is in the middle of speaking, and starts system utterance of "please tell me your address.” ([2] speech start).
  • the voice interaction system 1000 determines that the input is for the previous system utterance "Tell me about your business.” Then, in response to the user utterance "Tokyo" input after the completion of the system utterance, the input of the system utterance "Please tell me your address.” can be correctly accepted, and as a result, it can be correctly recognized.
  • Embodiment 1 of the present invention by using the voice output information D8, the output completion time of the system utterance generated by the voice generation unit 6 and the system utterance output by the voice output unit 7 to the user U Since the time difference between the output completion time and the output completion time of the speech dialogue system 1000 can be absorbed or corrected, the system utterance completion time output to the user U (that is, the timing at which the system utterance output at the voice input/output unit 7 is completed) can be accurately adjusted. I understand. Therefore, even if the user speaks immediately after the completion of the system speech, the user's speech can be accepted. With this operation, even if the voice dialogue system 1000 understands the intention of the user U in the middle of speaking and proceeds to the next dialogue, the effect of accurately preventing misrecognition due to the user U's utterance for the previous question can be achieved. be.
  • the user's utterance is not accepted in the interval from the start time to the end time of the system utterance, but it is not limited to this. For example, after the completion of the system utterance, user utterances may not be accepted within a predetermined period of time. The user's utterance may not be accepted until the time elapses.
  • FIG. 4 shows an example of the operation using the start of system utterance at the time of input acceptance determination, but the transmission delay of the network NW and the processing delay of voice recognition are small, and the time when voice recognition is completed is the system utterance start time. If it can be seen, the voice output status D7 and the voice output information D8 may not contain information on the system speech start time, that is, information on the response voice output start time may not be included.
  • the intention understanding unit 4 receives the speech recognition result D2 as an input, estimates the utterance intention/operation content of the user U with respect to the speech dialogue system 1000, and outputs an intention understanding result D4 (step ST4).
  • a known intention understanding method may be used. It is possible to use an intention understanding method that calculates a score that indicates the degree of conformity to the user's utterance, and selects intention information indicating the intention of the user's utterance from a plurality of pieces of intention information based on the calculated score.
  • the dialogue management unit 5 determines the content of the response based on the intention understanding result of the user's utterance, and outputs it as response content information D5 (step ST5).
  • the dialogue management processing in the dialogue management unit 5 may use a known dialogue management method.
  • a dialogue management method can be used that selects and outputs the term symbols contained in the selected response template.
  • the voice generation unit 6 generates a response voice to be presented to the user U according to the response content information D5, and outputs it as an output voice D6 (step ST6).
  • the speech generation unit 6 may use a known speech synthesis method, for example, text speech based on the PSOLA (Pitch Synchronous Overlap and Add) method. A synthesizing method or a waveform editing type text-to-speech synthesizing method as described in Non-Patent Document 2 may be used.
  • the response content information D5 is an ID linked to voice data prepared in advance
  • the voice data corresponding to the ID is read from a storage device (not shown) built in the voice generation unit 6, and the output voice D6 is generated. can also be output as
  • the voice output unit 7 notifies the user U of the generated output voice D6 as a system utterance (step ST7). Further, when the output of the audio data of the response voice is completed, the voice output unit 7 outputs the voice output status D7, which is information indicating the voice output completion time of the response voice, which is the system utterance, through the network NW to the voice output information generation unit. 8 (step ST7).
  • the timing of sending the information indicating the audio output completion time as the audio output status D7 is, for example, when all the audio data is stored in the audio output buffer during speaker output or in the audio transmission buffer during data transmission to the network NW. at the end of writing. Also, the timing of sending the information indicating the audio output start time as the audio output status D7 is the time when the audio data starts to be written in the audio output buffer during speaker output or in the audio transmission buffer during data transmission to the network NW. Good if
  • the voice output information generation unit 8 generates voice output information D8 from the input voice output situation D7, and outputs it to the input acceptance determination unit 3 (step ST8).
  • the audio output information D8 may be output as it is.
  • the audio output status D7 output by the output unit 7 may be used as the audio output information D8.
  • the system is configured so that there are a plurality of audio output units 7, it is sufficient to distinguish the audio output status of each audio output unit 7. For example, the ID of the audio output unit 7, etc. is added to generate the audio output information D8.
  • the processing in the input acceptance determination unit 3 in step ST3 is performed after the processing in the speech recognition unit 2 in step ST2, but after the processing in the intention understanding unit 4 in step ST4 , the processing in the input acceptance determination unit 3 in step ST3 may be executed.
  • the intention understanding section 4 executes the intention understanding processing for all the speech recognition results D2, but the input reception determination section 3 executes the input reception determination processing based on the contents of the intention understanding. can be performed, it is possible to improve the accuracy of the input acceptance determination process.
  • the intention understanding result D4 obtained by the intention understanding unit 4 in step ST4 is content corresponding to the content of the dialogue with the voice dialogue system 1000, input acceptance determination is made according to the voice output information D8, and the dialogue content If the intention understanding result D4 is unrelated to the above, the input may be always accepted without being affected by the voice output information D8.
  • the voice output information generation unit generates voice output information that is information indicating whether or not the system utterance is being output, and the input acceptance determination unit receives the voice output information Since it is configured to correct the output completion time of the system utterance based on the input It becomes possible for the acceptance determination unit to accurately grasp the timing of completion of the system utterance.
  • the input acceptance determination unit can be absorbed and the timing of system utterance completion can be accurately grasped.
  • the voice dialog system can accurately detect the output completion time of the response voice. can. As a result, it is possible to improve the barge-in acceptability determination accuracy of speech recognition, and the usability of the speech dialogue system is improved.
  • the voice output information generation unit is configured to output information on the timing of completion of the system utterance as voice output information, the input reception determination unit does not need to receive the response voice, and the input reception determination unit does not need to receive the response voice again. Compared with the case of analyzing the response voice and calculating the utterance time, there is an effect that the amount of processing for the response voice data analysis can be reduced.
  • the input acceptance judgment unit since the input acceptance judgment unit does not need to receive the voice data of the response voice, it is not necessary to transmit the voice data of the response voice in the voice output unit. On top of that, since there is no need to send and receive voice data for the response voice, there are differences in voice input/output settings, such as the sampling frequency for the voice data output by the voice input/output unit and the voice data received by the voice dialogue management unit. There is also an effect of increasing the degree of freedom in designing the voice dialogue system.
  • Embodiment 2 ⁇ 2-1>> Configuration
  • voice data is transmitted and received between the voice input/output unit 200 and the voice dialogue management unit 300 via the network NW, but the present invention is not limited to this.
  • the voice input/output unit 200 and the voice dialogue management unit 300 are arranged in the same device.
  • the standard (for example, sampling frequency) of the voice data received by the voice dialogue manager and the voice data received by the voice dialogue manager are often different. Even in such a case, it is possible to directly connect the voice input/output unit 200 and the voice dialogue management unit 300 . This will be described as a second embodiment.
  • FIG. 5 is a block configuration diagram of a voice dialogue system showing Embodiment 2.
  • the same reference numerals as in FIG. 1 denote the same or corresponding parts. Also, since their configurations are the same as those shown in the first embodiment, description thereof is omitted.
  • the speech input unit 1 uses a microphone (not shown) to acquire speech uttered by the user U who is the user of the speech dialogue system 1000 .
  • the acquired analog audio waveform is sampled at a sampling frequency of 16 kHz, for example, and converted into a digital audio data string.
  • acoustic analysis of the converted digital speech data string is performed, and conversion is performed to, for example, a 20th order MFCC, which is a feature parameter used in speech recognition.
  • the obtained feature amount parameter MFCC is output to the speech recognition section 2 in the speech dialogue management section 300 as the input speech information D1.
  • the speech recognition unit 2 receives the input speech information D1, for example, extracts an utterance period of the user U, performs speech recognition on the utterance content of the extracted utterance voice, and extracts text data representing the utterance content, the utterance start timing, and the utterance.
  • the completion timing is output as the speech recognition result D2.
  • the input acceptance judgment unit 3 receives the speech recognition result D2 and the speech output information D8 as inputs, judges whether or not to accept the input of the speech uttered by the user U, and outputs the accepted speech recognition result D3 when the input is accepted. .
  • the intention understanding unit 4 receives the received speech recognition result D3 as an input, estimates the intention of the input content, and outputs it as an intention understanding result D4.
  • the dialogue management unit 5 receives the intention understanding result D4 as input, and outputs response content information D5 when a response to the user U is required.
  • the voice generation unit 6 receives the response content information D5, generates a response voice, and outputs it to the voice output unit 7 in the voice input/output unit 200 as the output voice D6.
  • the voice output unit 7 receives the output voice D6 obtained from the voice generation unit 6, and outputs the response voice from the voice dialogue system 1000 to the user U through a voice notification device such as a speaker (not shown).
  • the output status D7 is output to the voice output information generating section 8.
  • the audio output information generation unit 8 receives as input the audio output status D7 obtained from the audio output unit 7, and generates and outputs audio output information D8, which is information indicating whether the audio output unit 7 is outputting audio. .
  • Each configuration of the voice interaction system 1000 shown in FIG. 5 can be realized by a computer, which is an information processing device with a built-in CPU, as in the first embodiment.
  • a computer with a built-in CPU is, for example, a stationary computer such as a personal computer or a server computer, a portable computer such as a smartphone or a tablet computer, or a microcomputer embedded in an in-vehicle information system such as a car navigation system, and SoC and the like.
  • each configuration of the voice dialogue system 1000 shown in FIG. 5 may be implemented by an LSI, which is an electric circuit such as a DSP, ASIC, or FPGA. Also, each configuration of the spoken dialogue system 1000 shown in FIG. 5 may be a combination of a computer and an LSI.
  • FIG. 6 is a block diagram showing an example of the hardware configuration of a speech dialogue system 1000 configured using an information processing device such as a computer.
  • the same reference numerals as those in FIG. 2 denote the same or corresponding parts, and their configurations are the same as those shown in the first embodiment, so description thereof will be omitted.
  • the voice dialogue system 1000 includes a memory 101, a processor 102 containing a CPU 110, a recording medium 103, an acoustic interface 104 (described as an acoustic I/F in FIG. 6), a network interface 105 ( network I/F), display interface 106 (display I/F in FIG. 6), text interface 107 (text I/F in FIG. 6), and signal path 108 such as a bus.
  • acoustic interface 104 described as an acoustic I/F in FIG. 6
  • network interface 105 network I/F
  • display interface 106 display I/F in FIG. 6
  • text interface 107 text I/F in FIG. 6
  • signal path 108 such as a bus.
  • the memory 101 is a program memory for storing various programs for realizing the speech dialogue processing of the second embodiment, a work memory used when the processor performs data processing, and a ROM used as a memory for developing signal data. and a storage device such as a RAM.
  • the memory 101 includes a speech input unit 1, a speech recognition unit 2, an input acceptance determination unit 3, an intention understanding unit 4, a dialogue management unit 5, a speech generation unit 6, a speech output unit 7, a speech output
  • Each program of the information generator 8 can be stored.
  • the memory 101 also stores intermediate information such as input speech information D1, speech recognition result D2, received speech recognition result D3, intent understanding result D4, response content information D5, output speech D6, speech output situation D7, speech output information D8, and so on. Data can be stored.
  • the processor 102 uses the CPU 110 and the RAM in the memory 101 as working memory, and operates according to a computer program (that is, voice dialogue program) read from the ROM in the memory 101 .
  • a computer program that is, voice dialogue program
  • the processor 102 includes a voice input unit 1, a voice recognition unit 2, an input acceptance determination unit 3, an intention understanding unit 4, a dialog management unit 5, a voice generation unit 6, a voice output unit 7, voice output information
  • a voice input unit 1 a voice recognition unit 2
  • an input acceptance determination unit 3 an intention understanding unit 4
  • a dialog management unit 5 a voice generation unit 6
  • voice output unit 7 voice output information
  • the recording medium 103 is used to store various data such as various setting data and signal data for the processor 102 .
  • a volatile memory such as SDRAM or a nonvolatile memory such as HDD or SSD can be used.
  • various data such as a boot program including an OS, a voice dialogue system program, initial state and various setting data, constant data for control, sound signal data, error information log, etc. are accumulated. can be done.
  • Various data in the memory 101 can also be stored in this recording medium 103 .
  • the network interface 105 may be used to input stream data acquired from another device. Alternatively, recorded voice data stored in an external device may be selected and read through the network interface 105 . Also, instead of notifying the user U of the output voice D6 through a speaker, the network interface 105 may be used to transmit the output voice D6 to another device as data. Note that the acoustic interface 104 can be omitted if the system inputs/outputs sound via wired or wireless communication instead of using a microphone and a speaker.
  • the network interface 105 transmits and receives external data via wired or wireless communication, such as when referring to the input audio information D1, the output audio D6, and the audio output status D7 from data on the network, or when inputting/outputting as stream data. Communication interface. Note that the network interface 105 can be omitted when external data is not transmitted and received.
  • Each function of the generator 8 can be realized by the memory 101 , the processor 102 and the recording medium 103 .
  • the program for executing voice dialogue system 1000 may be stored in a storage device inside the computer that executes the software program, or may be stored in a computer-readable external storage medium such as a CD-ROM or flash memory. It may be held in a distributed format and loaded and operated when the computer is started. It is also possible to acquire programs from other computers through a wireless or wired network such as LAN.
  • the program that executes the voice dialogue system 1000 can be combined on the software with a program that executes an externally executed program, such as a car navigation system or an automatic telephone answering system, so that they can be operated on the same computer. Alternatively, distributed processing on multiple computers is possible.
  • the voice input/output unit 200 and the voice dialogue management unit 300 are configured independently, the standard of the voice data output by the voice input/output unit and the voice data received by the voice dialogue management unit, such as sampling Frequencies are often different.
  • sampling Frequencies In order to interconnect the voice input/output unit and the voice dialogue management unit, it is necessary to use the same sampling frequency for the voice data sent and received by both.
  • the input acceptance determination unit 3 uses the voice output information D8 to accurately determine the system utterance completion time (output completion timing of the system utterance). It becomes possible to detect
  • the voice output information generation unit generates voice output information that is information indicating whether or not the system utterance is being output, and the input acceptance determination unit receives the voice output information Since it is configured to determine whether or not to accept the user's utterance based on can be accurately grasped.
  • the input acceptance determination unit can be absorbed and the timing of system utterance completion can be accurately grasped.
  • the output completion time of the response voice of the voice dialog system (system utterance output completion timing ) can be accurately detected.
  • the voice output information generation unit is configured to output information on the timing of completion of the system utterance as voice output information, the input reception determination unit does not need to receive the response voice, and the input reception determination unit does not need to receive the response voice again.
  • the amount of processing for analyzing the response voice data can be reduced compared to the case of analyzing the response voice and calculating the utterance time.
  • the configuration in which the voice input/output unit 200 and the voice dialogue management unit 300 are independent has been described. It is also possible to operate them in the same system and have the same effect as the independent configuration.
  • the response voice output start time or output completion time is detected only from the voice output status D7 generated by the voice output unit 7, but this is not the only option. Instead, it is also possible to detect the output start time or output completion time of the response voice by analyzing the output voice D6 as well, which will be described as a third embodiment.
  • FIG. 7 is a block configuration diagram of a voice dialogue system showing Embodiment 3.
  • the same reference numerals as in FIG. 1 denote the same or corresponding parts. Also, since their configurations are the same as those shown in the first embodiment, description thereof is omitted.
  • the voice generation unit 6 receives the response content information D5, generates a response voice, and outputs it to the network NW as an output voice D6. Also, the time length of the output sound D6 is calculated from, for example, the size of the sound data, and the obtained time length is output as the sound length information D9.
  • the voice output unit 7 receives the output voice D6 obtained from the voice generation unit 6 through the network NW, and outputs the response voice from the voice dialogue system 1000 to the user U using a voice notification device such as a speaker (not shown). At the same time, the voice output status D7 is output to the voice output information generating section 8.
  • a voice notification device such as a speaker (not shown).
  • the voice output unit 7 receives as input the voice length information D9 obtained from the voice generation unit 6 through the network NW, and uses an information presentation device such as a display (not shown) to display information regarding the time length of the output voice D6. For example, it is also possible to present to the user U the remaining time until the completion of response voice output by text display. By presenting information about the time length of the output speech D6 to the user U, the user U can determine the timing of his or her own speech, thereby improving the usability of the voice interaction system.
  • an information presentation device such as a display (not shown) to display information regarding the time length of the output voice D6. For example, it is also possible to present to the user U the remaining time until the completion of response voice output by text display.
  • a light-emitting device such as a lamp may be used to present the speech timing to the user U based on the speed of the blinking cycle of the lamp. For example, when the response voice output is started, all the lamps are turned on, and as the remaining time until the response voice output is completed becomes shorter, the flashing cycle is accelerated. You may present the utterance timing to .
  • the user U By presenting information about the time length of the output speech D6 to the user U, the user U can determine the timing of his or her own speech, improving the usability of the voice interaction system, and providing information that is simpler than the display. Since the presentation device can notify the user U of the speech timing, the cost of the device can be reduced.
  • the voice output information generation unit 8 acquires the voice output start time of the response voice from the voice output status D7 obtained through the network NW.
  • the time obtained by adding the time length of the voice length information D9 to the voice output start time of the acquired response voice is set as the voice output completion time of the response voice, and the voice output start time and voice output completion time are output as voice output information D8.
  • the voice output information generator 8 can correct the voice output status D7 based on the voice output completion time of the response voice of the voice output status D7 and the voice length information D9.
  • the correction of the voice output status D7 based on the voice length information D9 includes, for example, the output completion time of the response voice recorded in the voice output status D7 and the voice length recorded in the voice length information D9 (that is, The output completion time of the output signal) is measured every predetermined time, and correction is made in real time based on the measured time lag.
  • the output completion time information of the voice length information D9 by correcting the output completion time of the voice output status D7 in real time every predetermined time, the transmitted response voice caused by congestion or retransmission of the network NW can be corrected.
  • data length fluctuation that is, the effect of "fluctuation" in transmission, can be suppressed, and the output completion time of the response voice of the voice dialogue system can be accurately detected.
  • the voice output obtained from the voice length information D9 It is also possible to correct the completion time by replacing it with the voice output completion time of the voice output situation D7, and even if the voice output situation D7 is not obtained, the output completion time of the response voice of the voice dialogue system can be accurately detected.
  • FIG. 8 is a flow chart showing the flow of processing of the voice interaction system 1000 showing the third embodiment.
  • the sound generator 6 calculates the time length of the sound data of the output sound D6, and outputs it as sound length information D9 to the sound output information generator 8 (step ST9).
  • the time length of the audio data can be calculated from the size of the generated audio data, the audio format such as the sampling frequency, and the file format.
  • the duration of the synthetic audio specified by the audio synthesizing method may be used as the audio length information D9.
  • the speech synthesis method can acquire the silent interval (silent duration) at the end of the audio data of the output speech D6, the duration obtained by deleting the silent duration at the end of the audio data may be used as the speech length information D9.
  • the end of the voice data for example, when the amplitude value is equal to or less than a predetermined threshold value, it may be regarded as a silent section, and the length of time obtained by deleting the silent section may be used as the voice length information D9.
  • a known silent interval judging method can be used in addition to a method of judging based on an amplitude value equal to or less than a predetermined threshold value.
  • the speech synthesis method connects and outputs two or more pieces of audio data prepared in advance
  • the sum of the time lengths of the connected audio data may be used as the audio length information D9.
  • the speech length information D9 can be calculated before speech generation is completed, it may be output at that time. In that case, in a configuration in which voice generation and voice output are processed in parallel, it is possible to output the voice length information D9 to the voice output information generator 8 without delay.
  • the voice output unit 7 notifies the user U of the generated output voice D6 as a system utterance (step ST10). Further, when the output of the voice data of the response voice is completed, the voice output unit 7 outputs the voice output completion time of the response voice, which is the system utterance, or the voice output status D7, which is information indicating the voice output completion time, through the network NW. It is output to the voice output information generator 8 (step ST10).
  • the voice output information generator 8 acquires the voice output start time of the response voice from the voice output status D7 obtained through the network NW.
  • the time obtained by adding the time length of the voice length information D9 to the voice output start time of the acquired response voice is set as the voice output completion time of the response voice, and the timing including the voice output start time and the voice output completion time is set as the voice output information D8. output (step ST11).
  • the voice generator 6 is configured to generate the voice length information D9, but the dialogue manager 5 generates the desired voice length information D9, and the voice generator 6 generates the generated voice
  • the output speech D6 may be generated so as to have the same speech length as the length information D9.
  • the speech generator 6 may adjust the speech length by increasing or decreasing the speaking speed or pause length.
  • the voice length may be adjusted by a known waveform conversion method.
  • the voice output information generation unit 8 may receive the voice length information D9 directly from the dialogue management unit 5.
  • the audio output information generation unit receives as input the audio output status obtained through the network NW and the audio length information calculated by the audio generation unit, and generates information on the audio output status. Correction based on the voice length information makes it possible to accurately detect the output completion time of the response voice of the voice dialogue system (the main system utterance completion timing) even if there is an influence of the network NW or data transmission error. As a result, it is possible to improve the barge-in acceptability determination accuracy of speech recognition, and the usability of the speech dialogue system is improved.
  • the third embodiment it is possible to suppress the occurrence of a delay after the actual output of the response voice is completed, as compared with the configuration of the first embodiment in which the voice output information is generated after the completion of the response voice output. , it has a remarkable effect of being able to more accurately detect the output completion time of the response voice of the voice dialogue system.
  • the voice generation unit is configured so that the length of time obtained by deleting the silent time length at the end is used as the voice length information, the voice data string exists, but the user U cannot hear the end of the voice data string. can be considered that the output of the system utterance has been completed. Therefore, it is possible to perform input acceptance determination according to the audio output information that is close to the user U's sense of hearing. Therefore, it is possible to improve the barge-in acceptability determination accuracy of voice recognition, and the usability of the voice interaction system is further improved.
  • the audio output unit receives the audio length information from the audio generation unit and presents the information on the time length of the output audio to the user U through a display or the like.
  • the timing of the user's own speech can be determined, and the input acceptance determination unit can perform input acceptance determination on the premise that the user U has grasped the remaining time of voice output of the system utterance. Therefore, it is possible to improve the barge-in acceptability determination accuracy of voice recognition, and the usability of the voice interaction system is further improved.
  • the speech generator is configured to generate output speech according to the speech length information set by the dialogue manager, so that it is possible to perform input acceptance determination in consideration of the speech length of the system utterance. It becomes possible. Therefore, it is possible to improve the barge-in acceptability determination accuracy of voice recognition, and the usability of the voice interaction system is further improved.
  • the input acceptance determination unit 3 outputs a signal for confirming the output status of the response voice to the voice output unit 7, and outputs an arbitrary It is also possible to configure so that the output state of the response voice can be checked at the timing, and this will be described as a fourth embodiment.
  • FIG. 9 is a block configuration diagram of a voice dialogue system showing Embodiment 4.
  • the same reference numerals as in FIG. 1 denote the same or corresponding parts. Also, since their configurations are the same as those shown in the first embodiment, the description thereof is omitted.
  • the input acceptance judgment unit 3 receives the speech recognition result D2 and the speech output information D8 as inputs, judges whether or not to accept the input of the speech uttered by the user U, and outputs the accepted speech recognition result D3 when the input is accepted. . It also outputs an output status confirmation command D10, which is a signal for inquiring about the output status of the response voice, to the voice output unit 7.
  • an output status confirmation command D10 which is a signal for inquiring about the output status of the response voice
  • the voice output unit 7 receives the output voice D6 as an input, outputs a response voice to the user U, and outputs a voice output state D7 in response to the output state confirmation command D10 from the input acceptance determination unit 3.
  • FIG. 10 is a flow chart showing the processing flow of the voice interaction system 1000 showing the fourth embodiment.
  • the input acceptance determination unit 3 determines that the user U has started speaking, and outputs an output status confirmation command D10 to the voice output unit 7 (step ST12).
  • step ST13 the voice output unit 7 receives the output status confirmation command D10, and sends the information as to whether voice output is currently being performed or has completed voice output to the voice output information generation unit 8 via the network NW as the voice output status D7. output (step ST13).
  • the voice output unit 7 is configured to output the voice output status D7 indicating whether or not the voice is being output in response to the output status confirmation command D10, the response voice for the first time after the output status confirmation command D10 is received.
  • an audio output status D7 indicating that the audio output is completed may be generated, thereby further reducing the amount of processing for information transmission.
  • the voice output information generation unit 8 generates voice output information D8 from the input voice output situation D7, and outputs it to the input acceptance determination unit 3 (step ST14).
  • step ST3 to step ST6 that follows is the same as in the first embodiment, so the description is omitted.
  • the voice output unit 7 notifies the user U of the generated output voice D6 as a system utterance (step ST15).
  • the input acceptance determination unit is configured to output an output status confirmation command to the voice output unit so that the output status of the response voice can be confirmed at any timing.
  • the reception judgment unit can immediately obtain information on the response voice output status at the time when reception judgment processing for user utterances is required, so it is possible to improve the accuracy of judgment of acceptance of speech recognition barge-in. As a result, there is an effect that the usability of the voice dialogue system is further improved.
  • the voice output unit does not need to send the response voice output completion time, so there is a secondary effect of reducing the amount of processing such as information transmission.
  • the sampling frequency of the input voice is 16 kHz, but this is not the only option. Similar effects are obtained in each of the embodiments.
  • the operation was illustrated using Japanese as the language of user utterance and system utterance, but the voice dialogue system according to the present disclosure is applicable not only to Japanese, and in that case A speech recognition method, an intention understanding method, and a dialogue processing method corresponding to the language to be used may be used.
  • any component of the embodiment can be modified, or any component of the embodiment can be omitted.
  • the voice dialogue system is suitable for use in, for example, an automatic voice response system of a call center that accepts product delivery.
  • the voice input/output unit 200 is built in the voice input/output device of the smart speaker installed facing the user U, and the voice dialog management unit 300 , is installed in a server device in a data center located away from the user U.
  • the voice interaction management unit 300 performs voice recognition and intention understanding of the user utterance, and responds to the intention of the user U. Processing for generating a response voice (system utterance) is performed, and the generated system utterance is output to the network NW.
  • a user utterance is input during a system utterance, the input is rejected because the user is speaking during the interval from the start of the system utterance to the end of the utterance. Then, it operates to accept the input of the user's utterance input after the completion of the system utterance. With this operation, even if the voice dialogue system understands the intention of the user U in the middle of speaking and proceeds to the next dialogue, it is possible to prevent erroneous recognition due to the user U's speech to the previous question. Since it is possible to output an appropriate response voice to the user U and accept user utterances, it can be used as an automatic voice response system with further improved functions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声対話管理部と音声入出力部とが別の独立した構成であっても、音声認識のバージインの受付判定精度が劣化せず、音声対話システムのユーザビリティを維持する。 音声入出力部(200)内に、ユーザの発話音声を取得する音声入力部(1)と、応答音声をユーザへ出力すると共に、応答音声の出力状況を音声対話管理部(300)へ出力する音声出力部(7)とを備え、 音声対話管理部(300)内に、ユーザの発話音声を音声認識する音声認識部(2)と、ユーザの発話意図を推定する意図理解部(4)と、ユーザへの応答内容情報を出力する対話管理部(5)と、応答音声を生成して音声入出力部(1)へ出力する音声生成部(6)と、応答音声を出力中か否かを示す音声出力情報を生成する音声出力情報生成部(8)と、音声出力情報を用いて、意図理解部(4)への入力受付可否を判定する入力受付判定部(3)とを備える。

Description

音声対話システム、音声対話方法及び音声対話管理装置
 本開示は、音声対話システム、音声対話方法及び音声対話管理装置に関する。
 音声認識機能が搭載されているカーナビゲーションシステム、スマートスピーカ、電話自動応答システムなどに代表される音声対話システムにおいて、音声対話システムの利用者であるユーザが、音声対話システムの応答音声出力中でも割り込んで音声入力可能とするためのバージイン機能(以降、バージイン)が開発されている。一方、このバージインをユーザに許可することで、対話型の処理においては副作用が出る場合もある。例えば、音声対話システムがうまく音声認識が出来ず、ユーザにもう一度発話の入力を求める際に、前の発話の続きを誤認識したり、また、ユーザが音声対話システムの応答音声を途中までしか聞かず、質問内容を勘違いしたまま発話してしまうこともあり、これら音声認識開始タイミングのずれ、言い換えれば、音声認識のバージインの受付判定精度が低いことが、音声対話システムの可用性(ユーザビリティ)を低下させていた。
 これらの課題に対して、従来の音声対話システムでは、生成した応答音声の信号を入力として、応答音声の発話時間の長さを信号データファイル容量から算出し、算出された応答音声の発話時間の長さに基づいて、音声認識開始のタイミングを応答音声出力完了前に制御するように動作させている(例えば、特許文献1参照)。
特開2007-155986号公報
 しかしながら、上記した従来の音声対話システムを、音声対話管理部と音声入出力部とが別の独立した構成のシステムに適用する際、音声対話管理部と音声入出力部とは、音声対話管理部が出力する応答音声の出力完了タイミング(出力完了時刻)に呼応して動作することとなるが、当該システムは非同期の通信ネットワークにより相互接続される場合が多い。このような場合、通信ネットワークの伝送遅延は時々刻々と変動することから、音声対話管理部が生成した応答音声と音声入出力部とでの応答音声の出力完了タイミングが異なる。そのため、ユーザに出力した応答音声の出力完了時刻を正確に検出することは困難である。
 更に、音声対話管理部と音声入出力部との音声データを取り扱う上での相違、例えば、音声データのサンプリング周波数の相違により、信号データファイル容量から応答音声の出力完了時刻を正確に検出することは困難であり、また、応答音声の出力信号に出力データファイルサイズ等の出力設定情報を付与することも困難である。
 つまり、出力タイミングが異なる応答音声データから、応答音声の出力完了時刻を算出できないため、音声対話管理部では、音声対話システムがユーザに出力した応答音声の出力完了時刻を正確に検出することができず、その結果、音声認識のバージインの受付判定精度が劣化して、音声対話システムのユーザビリティが低下する問題があった。
 本開示は、上述の課題を解決するためになされたものであり、音声対話管理部と音声入出力部が独立した構成となる音声対話システムにおいても、音声対話管理部が、ユーザに対して音声入出力部が出力した応答音声の出力完了時刻を受信することで、音声対話管理部がユーザに出力した応答音声の出力完了時刻を正確に検出することができる。これにより、音声認識のバージインの受付判定精度を改善し、音声対話システムのユーザビリティを向上することを目的とする。
 本開示に係る音声対話システムは、
音声入出力部と、音声対話管理部とを有し、
前記音声対話管理部により生成される応答音声が、ユーザに対して遅延して出力される音声対話システムであって、
 前記音声入出力部は、
前記ユーザの発話音声を取得する音声入力部と、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理部へ出力する音声出力部とを備え、
 前記音声対話管理部は、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力部へ出力する音声生成部と、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備えるものである。
 また、本開示に係る音声対話方法は、
音声入出力ステップと、音声対話管理ステップとを有し、
前記音声対話管理ステップにより生成される応答音声が、ユーザに対して遅延して出力される音声対話方法であって、
 前記音声入出力ステップは、
前記ユーザの発話音声を取得する音声入力ステップと、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理ステップへ出力する音声出力ステップとを備え、
 前記音声対話管理ステップは、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識ステップと、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解ステップと、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理ステップと、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力ステップへ出力する音声生成ステップと、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成ステップと、
前記音声出力情報を用いて、前記意図理解ステップへの入力受付可否を判定する入力受付判定ステップとを備えるものである。
 また、本開示に係る音声対話管理装置は、
ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成部と、
前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備えるものである。
 本開示によれば、音声対話管理部と音声入出力部が別の独立した構成となる音声対話システムにおいても、音声対話システムの応答音声の出力完了時刻を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システム及び音声対話方法のユーザビリティが向上する効果を有する。
実施の形態1における音声対話システムのブロック構成図である。 実施の形態1における音声対話システムのハードウェア構成図である。 実施の形態1における音声対話システムの動作を示すフローチャートである。 実施の形態1における入力受付判定部の動作の一例である。 実施の形態2における音声対話システムのブロック構成図である。 実施の形態2における音声対話システムのハードウェア構成図である。 実施の形態3における音声対話システムのブロック構成図である。 実施の形態3における音声対話システムの動作を示すフローチャートである。 実施の形態4における音声対話システムのブロック構成図である。 実施の形態4における音声対話システムの動作を示すフローチャートである。
実施の形態1.
《1-1》構成
 実施の形態1における音声対話システムについて図1~図4を用いて説明する。図1は本実施の形態1を示す音声対話システムのブロック構成図である。
 図1において、音声対話システム1000は、音声入出力部200と、音声対話管理部300と、ネットワークNWとから構成される。
 音声入出力部200は、ユーザUに対面しており、音声対話システム1000への音声入力と、音声対話システム1000からの応答音声をユーザUへ提示する処理を行う。また、音声入出力部200は、例えば、スマートスピーカの音声入出力装置に内蔵されている。
 音声対話管理部300は、ユーザUが発話した音声信号を、後述するネットワークNWを通じて得ると共に、ユーザUの発話した音声の音声認識と意図理解を行い、ユーザUの意図に対応した応答音声を生成する処理を行う。生成された応答音声はネットワークNWへ出力される。また、音声対話管理部300は、例えば、ユーザUと離れた位置にあるデータセンタのサーバ装置に内蔵されている。
 ネットワークNWは、音声入出力部200と音声対話管理部300とのデータ送受を行う通信機器であり、例えば、インターネットあるいはLAN(Local Area Network)など、有線または無線によるデジタル通信機器である。なお、ネットワークNWは、電話回線とモデムにより音声をアナログ伝送する通信機器であってもよい。
 音声入出力部200は、音声入力部1と、音声出力部7とから構成される。また、音声対話管理部300は、音声認識部2と、入力受付判定部3と、意図理解部4と、対話管理部5と、音声生成部6と、音声出力情報生成部8とから構成される。
 音声入力部1は、マイクロフォン(図示せず)を用いて、音声対話システム1000の利用者であるユーザUが発話した音声を取得する。取得したアナログ音声波形は、アナログ/デジタル変換器を用いて、例えば16kHzのサンプリング周波数でサンプリングされ、デジタル音声データ列に変換される。続いて、変換されたデジタル音声データ列の音響分析が行われて、例えば、音声認識で使用される特徴量パラメータである20次のMFCC(Mel Frequnecy Cepstrum Coefficients;メル周波数ケプストラム係数)に変換される。得られた特徴量パラメータMFCCを入力音声情報D1としてネットワークNWへ出力する。
 なお、入力音声情報D1は特徴量パラメータMFCCに限られることは無い。入力音声情報D2は、後述する音声認識部2において音声認識処理が可能な情報であれば良く、例えば、音声波形を表すデジタル音声データ列、あるいはアナログ音声信号のままでも良い。この場合、音声入力部1中の音響分析を省略することができ、音響分析のための処理量を削減できる。
 音声認識部2は、ネットワークNWを通じて得られた入力音声情報D1を入力し、音声区間検出処理により、ユーザUの発話開始タイミングと発話完了タイミングとを検出し、ユーザUの発話区間のみを切り出す。切り出された発話音声に対して音声認識処理を行うことでユーザUの発話内容を音声認識し、発話内容を表すテキストデータと発話開始タイミングおよび発話完了タイミングとを音声認識結果D2として出力する。
 音声認識結果D2の発話内容は、ユーザUの発話中に含まれていた特定のキーワードを表すテキストデータだけでも良い。また、予め決められたキーワードを示すIDなどを表す数値データであっても良い。
 入力受付判定部3は、音声認識結果D2及び、後述する音声出力情報D8を入力として、ユーザUが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果D3を出力する。
 意図理解部4は、受理した音声認識結果D3を入力とし、入力内容の意図を推定し意図理解結果D4として出力する。ここで、意図理解結果D4は、ユーザUの発話意図・操作内容を表す情報であれば良く、テキストデータ、テキストの内容を示すIDといった数値データであれば良い。 
 対話管理部5は、意図理解結果D4を入力とし、ユーザUへの応答が必要な場合に応答内容情報D5を出力する。
 なお、応答内容情報D5は、応答の種類・内容等の応答文を生成するために必要な情報であれば良く、テキストデータ、あるいは数値データ等、任意の形式をとることができる。
 音声生成部6は、応答内容情報D5を入力とし、応答音声を生成し出力音声D6としてネットワークNWへ出力する。ここで、出力音声D6は、音声波形を表すデータ列である。
 音声出力部7は、ネットワークNWを通じて得られた出力音声D6を入力し、出力音声D6をデジタル/アナログ変換器によりアナログ音声信号へ変換する。アナログ音声信号へ変換された出力音声D6は、スピーカ(図示せず)等の音声報知装置を用いて、音声対話システム1000からの応答音声としてユーザUへ出力される。
 また、音声出力部7は、出力音声D6の音声出力開始時刻、あるいは音声出力完了時刻を示す情報である音声出力状況D7をネットワークNWへ出力する。なお、音声出力状況D7は、出力音声D6の音声出力開始時刻と音声出力開始時からの経過時間であっても良い。
 音声出力情報生成部8は、ネットワークNWを通じて得られた音声出力状況D7を入力とし、音声出力部7が音声出力中か否かを示す情報である、音声出力情報D8を生成し出力する。ここで、音声出力情報D8は少なくとも音声出力中か否かを表現可能な情報であれば良く、時間そのものに限ることは無い。例えば、音声出力情報D8は、音声出力が完了するタイミングを示す、所定の周期(例えば、0.25msec)毎で出力するフラグ情報(例えば、音声出力中は1、音声停止中は0)であればよい。あるいは、音声出力開始時から出力完了するまでの相対時間の数値情報、時間を表すテキスト情報、あるいは、システム起動時からの音声データフレームのカウント数など、音声出力が完了するタイミングが判別可能な信号であれば良い。
《1-2》ハードウェア構成
 図1に示される音声対話システム1000の各構成は、CPU(Central Processing Unit)内蔵の情報処理装置であるコンピュータで実現可能である。CPU内蔵のコンピュータは、例えば、パーソナルコンピュータ、サーバ型コンピュータなどの据え置き型コンピュータ、スマートフォン、タブレット型コンピュータなどの可搬型コンピュータ、あるいは、カーナビゲーションシステムなどの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びSoC(System on Chip)などである。
 また、図1に示される音声対話システム1000の各構成は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、又はFPGA(Field-Programmable Gate Array)などの電気回路であるLSI(Large Scale Integrated circuit)により実現されてもよい。また、図1に示される音声対話システム1000の各構成は、コンピュータとLSIの組み合わせであってもよい。
 図2は、コンピュータ等の情報処理装置を用いて構成される音声対話システム1000のハードウェア構成の例を示すブロック図である。
 図2の例では、音声対話システム1000の音声入出力部200は、メモリ101A、CPU110Aを内蔵するプロセッサ102A、記録媒体103A、音響インタフェース104(図2中では音響I/Fと記載)、及びバスなどの信号路108Aを備えている。
 また、図2の例では、音声対話システム1000の音声対話管理部300は、メモリ101B、CPU110Bを内蔵するプロセッサ102B、記録媒体103B、ネットワークインタフェース105B(図2中ではネットワークI/Fと記載)、テキストインタフェース106(図2中ではテキストI/Fと記載)、表示インタフェース107(図2中では表示I/Fと記載)、及びバスなどの信号路108Bを備えている。
 メモリ101A、及びメモリ101Bは、実施の形態1の音声対話処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するROM(Read Only Memory)及びRAM(Random Access Memory)等の記憶装置である。
 メモリ101Aには、より具体的に言えば、音声入力部1、音声出力部7の各プログラムを記憶することができる。また、メモリ101Aには、入力音声情報D1、出力音声D6、音声出力状況D7などの中間データを記憶することができる。
 メモリ101Bには、より具体的に言えば、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力情報生成部8の各プログラムを記憶することができる。また、メモリ101Bには、入力音声情報D1、音声認識結果D2、受理した音声認識結果D3、意図理解結果D4、応答内容情報D5、出力音声D6、音声出力状況D7、音声出力情報D8などの中間データを記憶することができる。
 プロセッサ102Aは、CPU110Aと、作業用メモリとしてメモリ101A中のRAMを使用し、メモリ101A中のROMから読み出されたコンピュータ・プログラム(すなわち、音声対話プログラム)に従って動作する。
 プロセッサ102Aは、より具体的に言えば、音声入力部1、音声出力部7の各処理に対応するプログラムをメモリ101Aから読み出し、CPU110Aで処理を行うことで、本実施の形態1に示す音声対話処理に係る音声入出力処理を実行することができる。
 プロセッサ102Bは、CPU110Bと、作業用メモリとしてメモリ101B中のRAMを使用し、メモリ101B中のROMから読み出されたコンピュータ・プログラム(すなわち、音声対話プログラム)に従って動作する。
 プロセッサ102Bは、より具体的に言えば、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力情報生成部8の各処理に対応するプログラムをメモリ101Bから読み出し、CPU110Bで処理を行うことで、本実施の形態1に示す音声対話処理に係る音声対話管理処理を実行することができる。
 記録媒体103Aは、プロセッサ102Aの各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体103Aとしては、例えば、SDRAM(Synchronous DRAM)などの揮発性メモリ、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の不揮発性メモリを使用することが可能である。記録媒体103Aには、例えば、OS(Operating System)を含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体103Aに、メモリ101A内の各種データを蓄積しておくこともできる。
 記録媒体103Bは、プロセッサ102Bの各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体103Bとしては、例えば、SDRAMなどの揮発性メモリ、HDD又はSSD等の不揮発性メモリを使用することが可能である。記録媒体103Bには、例えば、OSを含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体103Bに、メモリ101B内の各種データを蓄積しておくこともできる。
 音響インタフェース104は、ユーザUの発話した音声信号を取得するマイクロフォンと、出力音声D6をユーザUに報知するためのスピーカとで構成される。
 ユーザUが発話した音声をマイクロフォンで取得する代わりに、後述するネットワークインタフェース105Aを用い、他の装置から取得したストリームデータを入力するようにしても良い。また、ネットワークインタフェース105Aを通じて外部装置に記憶されている録音済みの音声データを選択し、読み込むようにしても良い。また、出力音声D6をスピーカによりユーザUに報知する代わりに、ネットワークインタフェース105Aを用い、他の装置へデータとして送出しても構わない。なお、マイクロフォン及びスピーカを用いる代わりに、有線あるいは無線等の通信を介して音声を入出力するシステムであれば、音響インタフェース104は省略することが可能である。
 ネットワークインタフェース105A、及びネットワークインタフェース105Bは、入力音声情報D1、出力音声D6、及び音声出力状況D7をネットワーク上のデータから参照する場合、ストリームデータとして入出力する場合など、外部データの送受信を有線又は無線通信にて行う通信インタフェースである。
 テキストインタフェース106は、応答音声内容等を人の手によって文字入力するための入力機器であり、キーボード、タッチパネル、マウスなどの入力装置で構成される。なお、人による入力を必要としないシステムであれば、テキストインタフェース106は省略することが可能である。
 表示インタフェース107は、入力音声の音声認識結果、応答音声の出力内容等の表示機器であり、ディスプレイ等の表示装置で構成される。なお、表示装置での表示を必要としないシステムであれば、表示インタフェース107は省略することが可能である。
 以上のように、図2に示される、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各機能は、メモリ101A、メモリ101B、プロセッサ102A、プロセッサ102B、記録媒体103A、及び記録媒体103Bで実現することができる。
 なお、音声対話システム1000を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD-ROMあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、LAN(Local Area Network)等の無線または有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。
 また、音声対話システム1000を実行するプログラムは、外部で実行されるプログラム、例えば、カーナビゲーションシステム、自動電話応答システムを実行するプログラムとソフトウェア上で結合し、同一のコンピュータで動作させることも可能であるし、又は、複数のコンピュータ上で分散処理することも可能である。
《1-3》処理動作
 続いて、実施の形態1の音声対話システムの処理動作について図3を用いて説明する。図3は、本実施の形態1を示す音声対話システム1000の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。
 ステップST1で、音声入力部1は、ユーザUが発話した入力音声を取得して音響分析が行われ、得られた特徴量パラメータMFCCを入力音声情報D1として音声認識部2へ出力する(ステップST1)。
 ステップST2で、音声認識部2は、まず、入力音声の音声区間検出により、入力音声の発話開始タイミングならびに発話完了タイミングを検出し、入力音声の特徴量パラメータからユーザUの発話音声のみを切り出す。続いて、切り出された発話音声に対して音声認識処理が行われることで、入力音声情報D1からユーザUの発話内容を認識し、発話内容の認識結果と発話開始タイミングならびに発話完了タイミングとを音声認識結果D2として入力受付判定部3へ出力する(ステップST2)。ここで、音声認識は公知の音声認識技術を用いればよく、例えば、非特許文献1に記載されているように、HMM(Hidden Markov Model;隠れマルコフモデル)法に基づく音声認識方法により、単語単位、あるいは文単位の音声認識を行えばよい。また、入力音声の音声区間検出方法として、音声の短時間パワーと所定の閾値との比較、あるいは、入力音声のケプストラム分析などの公知の手法を用いることができる。
古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日発行、p.96-105
 ステップST3で、入力受付判定部3は、音声認識結果D2及び音声出力情報D8を入力し、ユーザUの発話音声の入力を受け付けるか否かを判定する(ステップST3)。ここで、音声出力情報  8は、応答音声を出力中か否かを表す情報であり、例えば、応答音声を出力中か否かであることを示すフラグであり、例えば、フラグの値が1の場合、応答音声出力中とし、フラグの値が0であれば応答音声が出力されていない状態である。あるいは、応答音声出力開始時刻からの出力経過時間であってもよく、経過時間が0でなければ、応答音声出力中であると判断することができる。なお、応答音声が出力完了した場合、出力結果時間は0にリセットされる。
 図4に、ステップST3の入力受付判定部3における具体的な動作の一例を示す。以下、音声対話システム1000がユーザUへ出力する応答音声を“システム発話”と略し、ユーザUが音声対話システム1000へ入力する発話音声を“ユーザ発話”と略する。この一例では、システム発話の開始及び完了のタイミングを音声出力情報D8として入力される。また、この一例では、システム発話開始から発話完了までの区間におけるユーザ発話の入力を受け付けないように動作する。
 本発明の実施の形態1の効果を具体的に比較可能とするため、(a)に音声生成部6が出力するシステム発話に基づく動作の一例、(b)に本発明の実施の形態1による動作の一例をそれぞれ示す。なお、音声生成部6が出力するシステム発話の音声を、上段(A)の音声内容として図示し、音声出力部7がユーザUへ出力するシステム発話の音声を、下段(B)の音声内容として図示する。また、”ユーザ発話”はユーザUが発話した音声内容、”発話状況”はシステム発話の出力状況、”受理結果”は入力受付判定部3での入力音声の受け付け結果をそれぞれ表す。横軸は音声対話管理部300における時間である。
 また、図4に示す動作の一例では、音声出力部7がユーザUへ出力するシステム発話((B)の音声内容)の発話開始時刻と発話完了時刻は、音声生成部6が出力する応答音声のデータがネットワークNWの伝送遅延等の影響を受けるため、音声生成部6が出力するシステム発話((A)の音声内容)と異なるタイミングとなる。具体的には、時間軸上に示す”ST(A)”が、音声生成部6の音声データから得られるシステム発話の開始時刻、同じく”EN(A)”が音声生成部6の音声データから得られるシステム発話の完了時刻である。また、時間軸上に示す”ST(B)”は、音声出力部7がユーザUに出力する応答音声であるシステム発話の開始時刻、すなわち、本発明の実施の形態1における発話開始時刻、同じく”EN(B)”は、音声出力部7がユーザUに出力する応答音声であるシステム発話の完了時刻、すなわち、本発明の実施の形態1における発話完了時刻である。
 なお、ユーザUが発話開始するタイミングは、音声出力部7が出力する応答音声の出力完了後、すなわち、ユーザUに対し報知されたシステム発話(すなわち、(B)の音声内容)をユーザUが聴取した後であるため、(a)の音声生成部6が出力するシステム発話に基づく動作の一例と(b)の本発明の実施の形態1による動作の一例とは同じになる。
 図4において、まず、音声対話システム1000は、ユーザUに対して音声入力を促すシステム発話である「ご用件をお話しください。」を出力する([1]発話開始)。システム発話完了後([1]発話完了)、ユーザUが「宅配を、えーと、お願いします」と発話する。
 音声入力部1がユーザ発話を取得後、音声認識部2において、ユーザ発話が「宅配を、」と「えーと、」と「お願いします。」とに発話区間が分割されて入力された場合、音声認識部2はまず「宅配を、」という入力を受け付け、音声対話システム1000はユーザUの発話途中であるがユーザの発話意図を理解し、「住所をお話しください。」とシステム発話を開始する([2]発話開始)。
 「住所をお話しください。」のシステム発話中に、「えーと、」「お願いします。」というユーザ発話が入力された場合、(a)に示す動作の一例では、「えーと」のユーザ発話はシステム発話中([2]発話開始の”ST(A)”から[2]発話完了の”EN(A)”の間)であると判断できるので、ユーザ発話「えーと、」の入力受付は棄却される。しかし、ユーザ発話「お願いします。」の語尾部分に関しては、システム発話完了時刻(”EN(A)”印)よりも後に発話したものと見做される。このユーザ発話の語尾部分は、システム発話完了後のユーザ発話「東京都・・・」と共に誤って受け付けられてしまい、その結果、誤認識となってしまう。
 一方、(b)に示す本発明の動作の一例では、システム発話「住所をお話しください。」の開始及び完了のタイミングを含む音声出力情報D8の入力を受けることで、ユーザ発話「えーと、」「お願いします。」は、システム発話開始時刻([2]発話開始の”ST(B)”)から発話完了時刻([2]発話完了の”EN(B)”)までの区間の入力であることが分かるので、前のシステム発話「ご用件をお話ください。」に対する入力であると音声対話システム1000は判断し、ユーザ発話「えーと、」「お願いします。」の入力受付を棄却する。そして、システム発話完了後に入力された「東京都・・・」というユーザ発話に対し、システム発話「住所をお話しください。」の入力を正しく受け付けることができ、その結果、正しく認識することができる。
 つまり、本発明の実施の形態1に示すように、音声出力情報D8を用いることで、音声生成部6が生成したシステム発話の出力完了時刻と、音声出力部7がユーザUに出力したシステム発話の出力完了時刻との時間差を吸収あるいは補正できるので、音声対話システム1000は、ユーザUに出力したシステム発話完了時刻(すなわち、音声入出力部7でのシステム発話出力が完了するタイミング)が正確に分かる。よって、システム発話完了直後にユーザが発話したとしても、そのユーザ発話を受け付けすることが可能である。この動作により、音声対話システム1000がユーザUの発話途中に意図を理解し、次の対話に進んでしまった場合にも、前の質問に対するユーザUの発話による誤認識を精度良く防止する効果がある。
 なお、上記したステップST3の動作の一例では、システム発話の開始時刻から完了時刻までの区間のユーザ発話を受け付けないように動作しているが、これに限られるものではない。例えば、システム発話完了後から所定の時間内はユーザ発話を受け付けないようにしても良く、システム発話開始時刻とシステム発話完了時刻から発話時間長を算出し、発話時間長のうち所定の割合時間が経過するまで、ユーザ発話を受け付けないようにしても良い。
 また、図4において、入力受付判定時にシステム発話開始を利用する動作の一例を示したが、ネットワークNWの伝送遅延、音声認識の処理遅延が少なく、音声認識が完了した時点がシステム発話開始時刻と見なせる場合には、音声出力状況D7及び音声出力情報D8にシステム発話開始時刻に関する情報が無くても良い、すなわち、応答音声出力開始時刻に関する情報が含まれなくても良い。
 ステップST4で、意図理解部4は、音声認識結果D2を入力とし、音声対話システム1000に対するユーザUの発話意図・操作内容を推定し、意図理解結果D4を出力する(ステップST4)。なお、意図理解部4における意図理解処理は公知の意図理解方法を用いれば良く、例えば、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザ発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアを算出し、算出されたスコアに基づいて、複数の意図情報の中から、ユーザ発話の意図を示す意図情報を選択する意図理解方法を用いることができる。
 ステップST5で、対話管理部5は、ユーザ発話の意図理解結果に基づき応答内容を決定し、応答内容情報D5として出力する(ステップST5)。ここで、対話管理部5における対話管理処理は公知の対話管理方法を用いれば良く、例えば、予め定められた対話状態に対応する応答テンプレートの中から、ユーザとの対話状態に対応する応答テンプレートを選択し、選択した応答テンプレートに含まれる用語シンボルを出力する対話管理方法を用いることができる。
 ステップST6で、音声生成部6は、応答内容情報D5に応じてユーザUに提示する応答音声を生成し、出力音声D6として出力する(ステップST6)。応答内容情報D5が、発話内容を示すテキストである場合、音声生成部6は公知の音声合成方法を用いれば良く、例えば、PSOLA(Pitch Synchronous Overlap and Add;ピッチ同期重畳加算)方式に基づくテキスト音声合成方法、あるいは、非特許文献2に記載されているような、波形編集型テキスト音声合成方法を用いれば良い。また、応答内容情報D5が予め用意された音声データに紐づくIDであった場合、音声生成部6が内蔵する記憶装置(図示せず)から、IDに対応する音声データを読み込んで出力音声D6として出力することもできる。
古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日、p.73-78
 ステップST7で、音声出力部7は、生成した出力音声D6をシステム発話としてユーザUへ報知する(ステップST7)。また、音声出力部7は応答音声の音声データの送出が完了した時点で、システム発話である応答音声の音声出力完了時刻を示す情報である音声出力状況D7を、ネットワークNWを通じて音声出力情報生成部8に出力する(ステップST7)。
 ここで、音声出力状況D7として音声出力完了時刻を示す情報を送出するタイミングは、例えば、スピーカ出力時の音声出力用バッファ、あるいはネットワークNWへのデータ送信時の音声送信用バッファにすべての音声データを書き込み終わった時点であれば良い。また、音声出力状況D7として音声出力開始時刻を示す情報を送出するタイミングは、スピーカ出力時の音声出力用バッファ、あるいはネットワークNWへのデータ送信時の音声送信用バッファに音声データを書き込み始めた時点であれば良い。
 ステップST8で、音声出力情報生成部8は、入力された音声出力状況D7から音声出力情報D8を生成し、入力受付判定部3へ出力する(ステップST8)。
 ここで、ステップST8での動作の一例として、音声出力開始時刻を示す信号、あるいは、音声出力完了時刻を示す信号を音声出力状況D7として受け取り次第、音声出力情報D8としてそのまま出力すればよく、音声出力部7が出力する音声出力状況D7を音声出力情報D8としても良い。また、音声出力部7が複数存在するようにシステムが構成されている場合には、音声出力部7のそれぞれの音声出力状況が区別できるようにすれば良く、例えば、音声出力部7のID等を付与した音声出力情報D8を生成するようにすればよい。
 この実施の形態1では、ステップST2の音声認識部2での処理後に、ステップST3の入力受付判定部3での処理を行うように構成したが、ステップST4の意図理解部4での処理の後に、ステップST3の入力受付判定部3での処理を実行するように構成しても良い。この場合には、すべての音声認識結果D2に対して意図理解部4における意図理解処理を実行するが、入力受付判定部3では、意図理解内容を踏まえた上で入力受付判定処理を実行することができるので、入力受付判定処理の精度を高めることが可能となる。
 また、ステップST4の意図理解部4で得られた意図理解結果D4が、音声対話システム1000との対話内容に応じた内容であれば、音声出力情報D8に応じた入力受付判定を行い、対話内容とは関係のない意図理解結果D4であれば、音声出力情報D8に影響されず常時入力を受け付けるように動作させても良い。
 以上のように、この実施の形態1では、音声出力情報生成部が、システム発話を出力中か否かを示す情報である音声出力情報を生成し、入力受付判定部は、受け取った音声出力情報に基づいてシステム発話の出力完了時刻を補正し、ユーザ発話を受け付けるか否かを判定するように構成したので、ユーザUが最後まで発話内容を聞く必要がある、システム発話に対する音声入力について、入力受付判定部がシステム発話完了のタイミングを正確に把握することが可能となる。
 すなわち、この実施の形態1の構成を為すことにより、入力受付判定部は、ユーザが実際に聞いた応答音声と、音声生成部が生成した応答音声との時間差がある場合であってもその影響を吸収し、システム発話完了のタイミングを正確に把握することが可能となる。言い換えれば、音声対話管理部と音声入出力部が別の独立した構成で、応答音声の伝送遅延がある音声対話システムにおいても、音声対話システムは応答音声の出力完了時刻を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。
 また、音声出力情報生成部が、システム発話完了のタイミングの情報を音声出力情報として出力するように構成したので、入力受付判定部で応答音声を受信する必要は無くなり、入力受付判定部にて改めて応答音声を分析して発話時間を算出する場合と比べ、応答音声データ分析のための処理量が削減できるという効果がある。
 更に、ネットワークNWの通信において伝送遅延が生じ、入力受付判定部で応答音声の受信に遅延が生じた場合、改めて応答音声を分析する場合と比べ、正確なシステム発話完了のタイミングが得られるために入力受付の判定精度が維持できる効果がある。
 また、入力受付判定部が応答音声の音声データを受信する必要が無いので、音声出力部における応答音声の音声データ送信も不要であり、そのための処理コスト及び装置コストを削減可能であるという効果がある上、応答音声の音声データの送受信が不要なことから、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データとのサンプリング周波数が異なるなど、音声入出力設定に差異があっても影響されず、音声対話システムの設計自由度が増す効果も奏する。
実施の形態2.
《2-1》構成
 上記した実施の形態1では、音声入出力部200と音声対話管理部300との音声データ送受をネットワークNWを介して行っていたが、これに限ることは無い。例えば、音声入出力部200と音声対話管理部300は同一の装置内に配置されているが、音声入出力部200と音声対話管理部300とが独立した構成の場合、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データの規格(例えば、サンプリング周波数)が異なることが多い。このような場合でも、音声入出力部200と音声対話管理部300とを直接接続することも可能である。これを実施の形態2として説明する。
 実施の形態2における音声対話システムについて図5を用いて説明する。図5は実施の形態2を示す音声対話システムのブロック構成図である。図5中、図1と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
 音声入力部1は、マイクロフォン(図示せず)を用いて、音声対話システム1000の利用者であるユーザUが発話した音声を取得する。取得したアナログ音声波形は、例えば16kHzのサンプリング周波数でサンプリングされ、デジタル音声データ列に変換される。続いて、変換されたデジタル音声データ列の音響分析が行われて、例えば、音声認識で使用される特徴量パラメータである20次のMFCCに変換される。得られた特徴量パラメータMFCCを入力音声情報D1として音声対話管理部300内の音声認識部2へ出力する。
 音声認識部2は、入力音声情報D1を入力し、例えば、ユーザUの発話区間の切り出しと、切り出された発話音声の発話内容を音声認識し、発話内容を表すテキストデータと発話開始タイミングおよび発話完了タイミングとを音声認識結果D2として出力する。
 入力受付判定部3は、音声認識結果D2、及び音声出力情報D8を入力として、ユーザUが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果D3を出力する。
 意図理解部4は、受理した音声認識結果D3を入力とし、入力内容の意図を推定し意図理解結果D4として出力する。
 対話管理部5は、意図理解結果D4を入力とし、ユーザUへの応答が必要な場合に応答内容情報D5を出力する。
 音声生成部6は、応答内容情報D5を入力とし、応答音声を生成し出力音声D6として音声入出力部200内の音声出力部7へ出力する。
 音声出力部7は、音声生成部6から得られた出力音声D6を入力し、スピーカ(図示せず)等の音声報知装置により音声対話システム1000からの応答音声をユーザUへ出力すると共に、音声出力状況D7を音声出力情報生成部8へ出力する。
 音声出力情報生成部8は、音声出力部7から得られた音声出力状況D7を入力とし、音声出力部7が音声出力中か否かを示す情報である、音声出力情報D8を生成し出力する。
《2-2》ハードウェア構成
 図5に示される音声対話システム1000の各構成は、実施の形態1で示したのと同様に、CPU内蔵の情報処理装置であるコンピュータで実現可能である。CPU内蔵のコンピュータは、例えば、パーソナルコンピュータ、サーバ型コンピュータなどの据え置き型コンピュータ、スマートフォン、タブレット型コンピュータなどの可搬型コンピュータ、あるいは、カーナビゲーションシステムなどの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びSoCなどである。
 また、図5に示される音声対話システム1000の各構成は、DSP、ASIC、又はFPGAなどの電気回路であるLSIにより実現されてもよい。また、図5に示される音声対話システム1000の各構成は、コンピュータとLSIの組み合わせであってもよい。
図6は、コンピュータ等の情報処理装置を用いて構成される音声対話システム1000のハードウェア構成の例を示すブロック図である。図6中、図2と同一符号を付したものは同一または相当部分を示すものとし、またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
 図6の例では、音声対話システム1000は、メモリ101、CPU110を内蔵するプロセッサ102、記録媒体103、音響インタフェース104(図6中では音響I/Fと記載)、ネットワークインタフェース105(図6中ではネットワークI/Fと記載)、表示インタフェース106(図6中では表示I/Fと記載)、テキストインタフェース107(図6中ではテキストI/Fと記載)、及びバスなどの信号路108を備えている。
 メモリ101は、実施の形態2の音声対話処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するROM及びRAM等の記憶装置である。
 メモリ101には、より具体的に言えば、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各プログラムを記憶することができる。また、メモリ101には、入力音声情報D1、音声認識結果D2、受理した音声認識結果D3、意図理解結果D4、応答内容情報D5、出力音声D6、音声出力状況D7、音声出力情報D8などの中間データを記憶することができる。
 プロセッサ102は、CPU110と、作業用メモリとしてメモリ101中のRAMを使用し、メモリ101中のROMから読み出されたコンピュータ・プログラム(すなわち、音声対話プログラム)に従って動作する。
 プロセッサ102は、より具体的に言えば、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各処理に対応するプログラムをメモリ101から読み出し、CPU110で処理を行うことで、本実施の形態2に示す音声対話処理を実行することができる。
 記録媒体103は、プロセッサ102の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体103としては、例えば、SDRAMなどの揮発性メモリ、HDD又はSSD等の不揮発性メモリを使用することが可能である。記録媒体103には、例えば、OSを含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体103に、メモリ101内の各種データを蓄積しておくこともできる。
 ユーザUが発話した音声をマイクロフォンで取得する代わりに、後述するネットワークインタフェース105を用い、他の装置から取得したストリームデータを入力するようにしても良い。また、ネットワークインタフェース105を通じて外部装置に記憶されている録音済みの音声データを選択し、読み込むようにしても良い。また、出力音声D6をスピーカによりユーザUに報知する代わりに、ネットワークインタフェース105を用い、他の装置へデータとして送出しても構わない。なお、マイクロフォン及びスピーカを用いる代わりに、有線あるいは無線等の通信を介して音声を入出力するシステムであれば、音響インタフェース104は省略することが可能である。
 ネットワークインタフェース105は、入力音声情報D1、出力音声D6、及び音声出力状況D7をネットワーク上のデータから参照する場合、ストリームデータとして入出力する場合など、外部データの送受信を有線又は無線通信にて行う通信インタフェースである。なお、外部データの送受信を行わない場合、ネットワークインタフェース105は省略することが可能である。
 以上のように、図5に示される、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各機能は、メモリ101、プロセッサ102、及び記録媒体103で実現することができる。
 なお、音声対話システム1000を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD-ROMあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、LAN等の無線または有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。
 また、音声対話システム1000を実行するプログラムは、外部で実行されるプログラム、例えば、カーナビゲーションシステム、自動電話応答システムを実行するプログラムとソフトウェア上で結合し、同一のコンピュータで動作させることも可能であるし、又は、複数のコンピュータ上で分散処理することも可能である。
 上記したように、音声入出力部200と音声対話管理部300とが独立した構成の場合、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データの規格、例えば、サンプリング周波数が異なることが多い。音声入出力部と音声対話管理部とを相互接続するためには、両者が送受信する音声データのサンプリング周波数を同一にする必要があり、サンプリング周波数変換に伴う音声データの時間遅延が生じるが、この実施の形態2の構成を為すことで、システム発話の時間遅延が生じても、入力受付判定部3は音声出力情報D8を用いることで、システム発話完了時刻(システム発話の出力完了タイミング)を正確に検出することが可能となる。
 以上のように、この実施の形態2では、音声出力情報生成部が、システム発話を出力中か否かを示す情報である音声出力情報を生成し、入力受付判定部は、受け取った音声出力情報に基づいて、ユーザ発話を受け付けるか否かを判定するように構成したので、ユーザUが最後まで発話内容を聞く必要がある、システム発話に対する音声入力について、入力受付判定部がシステム発話完了のタイミングを正確に把握することが可能となる。
 すなわち、この実施の形態2の構成を為すことにより、入力受付判定部は、ユーザが実際に聞いた応答音声と、音声生成部が生成した応答音声との時間差がある場合であってもその影響を吸収し、システム発話完了のタイミングを正確に把握することが可能となる。言い換えれば、音声対話管理部と音声入出力部が別の独立した構成で、応答音声の伝送遅延がある音声対話システムにおいても、音声対話システムの応答音声の出力完了時刻(システム発話の出力完了タイミング)を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。
 また、音声出力情報生成部が、システム発話完了のタイミングの情報を音声出力情報として出力するように構成したので、入力受付判定部で応答音声を受信する必要は無くなり、入力受付判定部にて改めて応答音声を分析して発話時間を算出する場合と比べ、応答音声データ分析のための処理量が削減できるという効果も有する。
 なお、この実施の形態2では、音声入出力部200と音声対話管理部300とが独立した構成について説明したが、これに限ることは無く、音声入出力部200と音声対話管理部300とを同じシステム内で動作させることも可能であり、独立した構成の場合と同様の効果を奏する。
実施の形態3.
《3-1》構成
 上記した実施の形態1では、音声出力部7が生成する音声出力状況D7のみから応答音声の出力開始時刻、あるいは出力完了時刻を検出していたが、これに限ることはなく、出力音声D6を併せて分析して、応答音声の出力開始時刻あるいは出力完了時刻を検出することも可能であり、これを実施の形態3として説明する。
 実施の形態3における音声対話システムについて図7を用いて説明する。図7は実施の形態3を示す音声対話システムのブロック構成図である。図7中、図1と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
 音声生成部6は、応答内容情報D5を入力とし、応答音声を生成し出力音声D6としてネットワークNWへ出力する。また、出力音声D6の時間長を、例えば、音声データのサイズから算出し、得られた時間長を音声長情報D9として出力する。
 音声出力部7は、音声生成部6からネットワークNWを通じて得られた出力音声D6を入力し、スピーカ(図示せず)等の音声報知装置により音声対話システム1000からの応答音声をユーザUへ出力すると共に、音声出力状況D7を音声出力情報生成部8へ出力する。
 また、音声出力部7は、音声生成部6からネットワークNWを通じて得られた音声長情報D9を入力とし、ディスプレイ(図示せず)等の情報提示装置を用いて、出力音声D6の時間長に関する情報、例えば、応答音声出力完了までの残り時間をテキスト表示することで、ユーザUへ提示することも可能である。ユーザUへ出力音声D6の時間長に関する情報をユーザUに提示することで、ユーザUは自身の発話タイミングを図ることが可能となり、音声対話システムのユーザビリティが向上する。
 あるいは、ランプ等の発光装置を用いて、ランプの点滅周期の速度によってユーザUへ発話タイミングを提示してもよい。例えば、応答音声出力開始時はランプを全点灯し、応答音声出力完了までの残り時間が少なくなるにしたがって点滅周期を早くし、ランプが消灯した時点で応答音声出力完了とすることで、ユーザUへ発話タイミングを提示しても良い。ユーザUへ出力音声D6の時間長に関する情報をユーザUに提示することで、ユーザUは自身の発話タイミングを図ることが可能となり、音声対話システムのユーザビリティが向上する上、ディスプレイよりも簡易な情報提示装置でユーザUに発話タイミングを通知することができるので、装置コストを削減することができる。
 音声出力情報生成部8は、ネットワークNWを通じて得られた音声出力状況D7から応答音声の音声出力開始時刻を取得する。取得した応答音声の音声出力開始時刻に、音声長情報D9の時間長を加算した時間を応答音声の音声出力完了時刻とし、音声出力開始時刻及び音声出力完了時刻を音声出力情報D8として出力する。
 また、音声出力情報生成部8では、音声出力状況D7の応答音声の音声出力完了時刻と音声長情報D9により音声出力状況D7の補正を行うことも可能である。
 ここで、音声長情報D9による音声出力状況D7の補正とは、例えば、音声出力状況D7に記録されている応答音声の出力完了時刻と、音声長情報D9に記録されている音声長(すなわち、出力信号の出力完了時刻)との時間のずれを所定の時間毎に測定し、測定された時間のずれに基づいてリアルタイムに補正することである。このように、音声長情報D9の出力完了時刻の情報に基づいて、音声出力状況D7の出力完了時刻を所定時間毎にリアルタイムに補正することで、ネットワークNWの輻輳あるいは再送によって生じる送出した応答音声のデータ長変動、すなわち伝送の“ゆらぎ”の影響を抑制することができ、音声対話システムの応答音声の出力完了時刻を正確に検出することができる。
 また、音声出力状況D7がネットワークNWの影響で受信が不可能である場合、あるいは、データ伝送誤りにより応答音声の出力完了時刻データが壊れるなどした場合には、音声長情報D9から得られる音声出力完了時刻を、音声出力状況D7の音声出力完了時刻に置き換える補正も可能であり、音声出力状況D7が得られない場合でも音声対話システムの応答音声の出力完了時刻を正確に検出することができる。
《3-2》処理動作
 続いて、実施の形態3の音声対話システムの処理動作について図8を用いて説明する。図8は、本実施の形態3を示す音声対話システム1000の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。ステップST1からステップST6までの動作は、実施の形態1と同様であるので説明を省略する。
 ステップST9で、音声生成部6は、出力音声D6の音声データの時間長を算出し、音声長情報D9として音声出力情報生成部8へ出力する(ステップST9)。この時、音声データの時間長は生成された音声データのサイズとサンプリング周波数等の音声フォーマット、ファイル形式から算出することが可能である。また、音声合成方法により出力音声D6の音声データを生成する場合、音声合成方法が指定する合成音声継続時間長を音声長情報D9とすれば良い。
 また、音声合成方法が、出力音声D6の音声データ末尾の無音区間(無音時間長)を取得可能な場合、音声データ末尾の無音時間長を削除した時間長を音声長情報D9としても良い。また、音声データ末尾において、例えば、所定の閾値以下の振幅値となった場合に無音区間と見なし、無音区間を削除した時間長を音声長情報D9としても良い。なお、無音区間を判定する方法は、所定の閾値以下の振幅値により判断する方法の他、公知の無音区間判定方法を用いることができる。
 また、音声合成方法が、予め用意された音声データを2つ以上連結して出力する場合には、連結する音声データの時間長を合算した値を音声長情報D9とすれば良い。更に、音声長情報D9は、音声生成が完了する前に算出できる場合には、その時点で出力するようにしても良い。その場合には、音声生成と音声出力を並列に処理するような構成において、遅延なく音声長情報D9を音声出力情報生成部8へ出力することが可能である。
 ステップST10で、音声出力部7は、生成した出力音声D6をシステム発話としてユーザUへ報知する(ステップST10)。また、音声出力部7は応答音声の音声データの送出が完了した時点で、システム発話である応答音声の音声出力完了時刻あるいは音声出力完了時刻を示す情報である音声出力状況D7を、ネットワークNWを通じて音声出力情報生成部8に出力する(ステップST10)。
 ステップST11で、音声出力情報生成部8は、ネットワークNWを通じて得られた音声出力状況D7から応答音声の音声出力開始時刻を取得する。取得した応答音声の音声出力開始時刻に、音声長情報D9の時間長を加算した時間を応答音声の音声出力完了時刻とし、音声出力開始時刻及び音声出力完了時刻を含むタイミングを音声出力情報D8として出力する(ステップST11)。
 この実施の形態3では、音声生成部6が音声長情報D9を生成するように構成したが、対話管理部5が所望の音声長情報D9を生成し、音声生成部6は、生成された音声長情報D9と同一の音声長となるように出力音声D6を生成するようにしても良い。この場合、音声生成部6は話速やポーズ長を増減させることで音声長を調整すれば良い。その他、公知の波形変換方法により音声長を調整しても良い。
 また、音声出力情報生成部8は、音声長情報D9を対話管理部5から直接入力するようにしても良い。
 以上のように、この実施の形態3では、音声出力情報生成部が、ネットワークNWを通じて得られた音声出力状況と、音声生成部が算出した音声長情報とを入力とし、音声出力状況の情報を音声長情報により補正を行うことで、ネットワークNWあるいはデータ伝送誤りの影響があっても、音声対話システムの応答音声の出力完了時刻(システム発話の主力完了タイミング)を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。
 また、この実施の形態3では、応答音声出力完了後に音声出力情報を生成する実施の形態1の構成と比べて、実際に応答音声出力が完了してからの遅延が発生することを抑制できるので、音声対話システムの応答音声の出力完了時刻を更に正確に検出することができる顕著な効果を有する。
 また、この実施の形態3では、音声生成部において、末尾の無音時間長を削除した時間長を音声長情報とするように構成したので、音声データ列は存在するがユーザUには聴こえない末尾の時間はシステム発話が出力完了済みと見なすことができる。したがって、ユーザUの聴感に近い音声出力情報に従って入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。
 また、この実施の形態3では、音声出力部が、音声生成部から音声長情報を入力とし、ディスプレイ等により出力音声の時間長に関する情報をユーザUへ提示するように構成したので、ユーザUは自身の発話タイミングを図ることができ、入力受付判定部は、ユーザUがシステム発話の音声出力の残り時間を把握していることを前提とした入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。
 また、この実施の形態3では、音声生成部が、対話管理部において設定した音声長情報に従って出力音声を生成するように構成したので、システム発話の音声長を考慮した入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。
実施の形態4.
《4-1》構成
 上記した実施の形態1の別の構成例として、入力受付判定部3は、音声出力部7に対して応答音声の出力状況を確認するための信号を出力し、任意のタイミングで応答音声の出力状況を確認できるように構成することも可能であり、これを実施の形態4として説明する。
 実施の形態4における音声対話システムについて図9を用いて説明する。図9は実施の形態4を示す音声対話システムのブロック構成図である。図9中、図1と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
 入力受付判定部3は、音声認識結果D2、及び音声出力情報D8を入力として、ユーザUが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果D3を出力する。また、音声出力部7に対し、応答音声の出力状況を問い合わせるための信号である、出力状況確認命令D10を出力する。
 音声出力部7は、出力音声D6を入力とし、ユーザUに対し応答音声出力を行うとともに、入力受付判定部3からの出力状況確認命令D10に応じて音声出力状況D7を出力する。
《4-2》処理動作
 続いて、実施の形態4の音声対話システムの処理動作について図10を用いて説明する。図10は、本実施の形態4を示す音声対話システム1000の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。ステップST1からステップST2までの動作は、実施の形態1と同様であるので説明を省略する。
 ステップST12で、入力受付判定部3は、ユーザUの発話開始を判断し、音声出力部7に対して出力状況確認命令D10を出力する(ステップST12)。
 ステップST13で、音声出力部7は、出力状況確認命令D10を受信し、現在音声出力中であるか、音声出力完了済みかの情報を音声出力状況D7としてネットワークNWを通じて音声出力情報生成部8へ出力する(ステップST13)。
 なお、音声出力部7が、出力状況確認命令D10に対し音声出力中か否かを示す音声出力状況D7を出力するようにしたが、出力状況確認命令D10を受信した時点以降の、初めて応答音声出力が完了状態になっている時点で、音声出力が完了した旨を示す音声出力状況D7を生成するようにしても良く、情報伝送のための処理量を更に削減可能である。
 ステップST14で、音声出力情報生成部8は、入力された音声出力状況D7から音声出力情報D8を生成し、入力受付判定部3へ出力する(ステップST14)。
 続くステップST3からステップST6の処理は、実施の形態1と同様であるので説明を省略する。
 ステップST15で、音声出力部7は、生成した出力音声D6をシステム発話としてユーザUへ報知する(ステップST15)。
 以上のように、本実施の形態4では、入力受付判定部は、音声出力部に対し出力状況確認命令を出力し、任意のタイミングで応答音声の出力状況を確認できるように構成したので、入力受付判定部は、ユーザ発話の受付判定処理が必要な時点で、応答音声出力状況に関する情報を即座に入手をすることが可能となるので、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。
 また、この実施の形態4では、音声出力部が、応答音声出力完了時刻を送出する必要が無くなるので、情報伝送等の処理量を削減できる更なる副次効果も奏する。
 上記した実施の形態のそれぞれにおいて、入力音声のサンプリング周波数を16kHzとして用いたが、これに限ることは無く、例えば、サンプリング周波数22kHzなどの異なるサンプリング周波数の音声信号を用いてもよく、上述した各実施の形態のそれぞれにおいて同様の効果を奏する。
 上記した実施の形態のそれぞれにおいて、ユーザ発話及びシステム発話の言語に日本語を用いて動作を例示したが、本開示に係る音声対話システムは日本語に限らず適用可能であり、その場合は適用する言語に対応した音声認識方法、意図理解方法、及び対話処理方法を用いればよい。
 上記以外にも、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 本開示に係る音声対話システムは、例えば、商品配送を受け付けるコールセンタの自動音声応答システムに用いられるのに適している。例えば、実施の形態1に係る音声対話システム1000において、音声入出力部200が、ユーザUに対面して設置されているスマートスピーカの音声入出力装置に内蔵され、また、音声対話管理部300が、ユーザUと離れた位置にあるデータセンタのサーバ装置に内蔵されているとする。
 ユーザUが、例えば、購入した商品の配送手配をスマートスピーカに対して発話(ユーザ発話)すると、音声対話管理部300は、ユーザ発話の音声認識と意図理解を行い、ユーザUの意図に対応した応答音声(システム発話)を生成する処理を行い、生成されたシステム発話はネットワークNWへ出力される。
 システム発話中にユーザ発話が入力される場合、システム発話開始から発話完了までの区間にユーザが発話していることからその入力を棄却する。そして、システム発話完了後に入力されたユーザ発話の入力を受け付けるように動作する。この動作により、音声対話システムがユーザUの発話途中に意図を理解し、次の対話に進んでしまった場合にも、前の質問に対するユーザUの発話による誤認識を防止することができるので、ユーザUに対して適切な応答音声出力とユーザ発話受付ができるので、更に機能が向上した自動音声応答システムとして利用することができる。
1 音声入力部、2 音声認識部、3 入力受付判定部、4 意図理解部、5 対話管理部、6 音声生成部、7 音声出力部、8 音声出力情報生成部、
101、101A、101B メモリ、
102、102A、102B プロセッサ、
103、103A、103B 記録媒体、
104 音響インタフェース、
105、105A、105B ネットワークインタフェース、
106 テキストインタフェース、
107 表示インタフェース、
108、108A、108B 信号路、
110、110A、110B CPU、
200 音声入出力部、300 音声対話管理部、1000 音声対話システム

Claims (12)

  1.  音声入出力部と、音声対話管理部とを有し、
    前記音声対話管理部により生成される応答音声が、ユーザに対して遅延して出力される音声対話システムであって、
     前記音声入出力部は、
    前記ユーザの発話音声を取得する音声入力部と、
    前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理部へ出力する音声出力部とを備え、
     前記音声対話管理部は、
    前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
    前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
    前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
    前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力部へ出力する音声生成部と、
    前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
    前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備える音声対話システム。
  2.  前記音声出力情報は、少なくとも前記応答音声の出力開始タイミング及び出力完了タイミングを含むことを特徴とする請求項1に記載の音声対話システム。
  3.  前記音声生成部が生成する前記音声信号の音声長情報により、前記応答音声の前記出力完了時刻の情報を補正することを特徴とする、請求項1または請求項2に記載の音声対話システム。
  4.  前記入力受付判定部が、前記音声出力部に対し、前記応答音声の出力状況を問い合わせるための信号を出力し、前記応答音声の出力状況を確認可能とすることを特徴とする、請求項1~3のいずれか1項に記載の音声対話システム。
  5.  前記音声出力部が、前記ユーザに対し、音声発話タイミングを視認可能なように提示することを特徴とする、請求項3に記載の音声対話システム。
  6.  ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
    前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
    前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
    前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成部と、
    前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
    前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備える音声対話管理装置。
  7.  音声入出力ステップと、音声対話管理ステップとを有し、
    前記音声対話管理ステップにより生成される応答音声が、ユーザに対して遅延して出力される音声対話方法であって、
     前記音声入出力ステップは、
    前記ユーザの発話音声を取得する音声入力ステップと、
    前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理ステップへ出力する音声出力ステップとを備え、
     前記音声対話管理ステップは、
    前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識ステップと、
    前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解ステップと、
    前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理ステップと、
    前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力ステップへ出力する音声生成ステップと、
    前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成ステップと、
    前記音声出力情報を用いて、前記意図理解ステップへの入力受付可否を判定する入力受付判定ステップとを備える音声対話方法。
  8.  前記音声出力情報は、少なくとも前記応答音声の出力開始タイミング及び出力完了タイミングを含むことを特徴とする請求項7に記載の音声対話方法。
  9.  前記音声生成ステップが生成する前記音声信号の音声長情報により、前記応答音声の前記出力完了時刻の情報を補正することを特徴とする、請求項7または請求項8に記載の音声対話方法。
  10.  前記入力受付判定ステップが、前記音声出力ステップに対し、前記応答音声の出力状況を問い合わせるための信号を出力し、前記応答音声の出力状況を確認可能とすることを特徴とする、請求項7~9のいずれか1項に記載の音声対話方法。
  11.  前記音声出力ステップが、前記ユーザに対し、音声発話タイミングを視認可能なように提示することを特徴とする、請求項9に記載の音声対話方法。
  12.  ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識ステップと、
    前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解ステップと、
    前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理ステップと、
    前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成ステップと、
    前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成ステップと、
    前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定ステップとを備える音声対話管理方法。
PCT/JP2021/012655 2021-03-25 2021-03-25 音声対話システム、音声対話方法及び音声対話管理装置 WO2022201458A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/012655 WO2022201458A1 (ja) 2021-03-25 2021-03-25 音声対話システム、音声対話方法及び音声対話管理装置
JP2023508340A JP7361988B2 (ja) 2021-03-25 2021-03-25 音声対話システム、音声対話方法及び音声対話管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/012655 WO2022201458A1 (ja) 2021-03-25 2021-03-25 音声対話システム、音声対話方法及び音声対話管理装置

Publications (1)

Publication Number Publication Date
WO2022201458A1 true WO2022201458A1 (ja) 2022-09-29

Family

ID=83396579

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/012655 WO2022201458A1 (ja) 2021-03-25 2021-03-25 音声対話システム、音声対話方法及び音声対話管理装置

Country Status (2)

Country Link
JP (1) JP7361988B2 (ja)
WO (1) WO2022201458A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007155986A (ja) * 2005-12-02 2007-06-21 Mitsubishi Heavy Ind Ltd 音声認識装置および音声認識装置を備えたロボット
JP2010152119A (ja) * 2008-12-25 2010-07-08 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7284455B2 (ja) * 2019-05-16 2023-05-31 コニカミノルタ株式会社 装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007155986A (ja) * 2005-12-02 2007-06-21 Mitsubishi Heavy Ind Ltd 音声認識装置および音声認識装置を備えたロボット
JP2010152119A (ja) * 2008-12-25 2010-07-08 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Also Published As

Publication number Publication date
JP7361988B2 (ja) 2023-10-16
JPWO2022201458A1 (ja) 2022-09-29

Similar Documents

Publication Publication Date Title
CN102708855B (zh) 利用话音识别器反馈来进行语音活动检测
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP4960596B2 (ja) 音声認識の方法およびシステム
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
JP2019090942A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
US20230298575A1 (en) Freeze Words
JP2007017620A (ja) 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
JP6827536B2 (ja) 音声認識装置および音声認識方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
US9218807B2 (en) Calibration of a speech recognition engine using validated text
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
JP5402089B2 (ja) 音響信号変換装置、方法、及びプログラム
WO2022201458A1 (ja) 音声対話システム、音声対話方法及び音声対話管理装置
JP2019045831A (ja) 音声処理装置、方法およびプログラム
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2008216618A (ja) 音声判別装置
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2023228542A1 (ja) 認証システムおよび認証方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21933064

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023508340

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21933064

Country of ref document: EP

Kind code of ref document: A1