WO2016027909A1 - データ構造、音声対話装置及び電子機器 - Google Patents

データ構造、音声対話装置及び電子機器 Download PDF

Info

Publication number
WO2016027909A1
WO2016027909A1 PCT/JP2015/078633 JP2015078633W WO2016027909A1 WO 2016027909 A1 WO2016027909 A1 WO 2016027909A1 JP 2015078633 W JP2015078633 W JP 2015078633W WO 2016027909 A1 WO2016027909 A1 WO 2016027909A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
voice
dialogue
conversation
content
Prior art date
Application number
PCT/JP2015/078633
Other languages
English (en)
French (fr)
Other versions
WO2016027909A8 (ja
Inventor
晃二 福永
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US15/328,169 priority Critical patent/US20170221481A1/en
Publication of WO2016027909A1 publication Critical patent/WO2016027909A1/ja
Publication of WO2016027909A8 publication Critical patent/WO2016027909A8/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present invention relates to a voice dialogue apparatus using voice recognition and voice synthesis of text content, and more particularly to a data structure of data used for voice dialogue in the voice dialogue apparatus.
  • IVR Interactive Voice Response
  • ASR Automatic Speech Recognition
  • TTS Text Voice To Speech
  • VXML VoiceXML
  • XISL Extensible Interaction Sheet Language
  • Patent No. 4890721 registered on December 22, 2011
  • Patent Publication “Patent No. 4073668 (Registered on Feb. 1, 2008)”
  • the conventional voice dialogue system is based on the assumption that the user has a specific purpose at the start of voice dialogue.
  • the data system for describing conversations has also been optimized.
  • the conversation with the user is divided into subroutines.
  • the postal code and prefecture name are asked in order.
  • Such a data structure is not suitable for forms in which conversations diverge.
  • conversation is a form of chat that constantly changes and diverges, and the description method of VoiceXML only realizes a part of many communication.
  • Patent Document 1 proposes a method for jumping to a specific conversation routine at high speed using a search key called a marker as a solution to the above problem.
  • a search key called a marker
  • Patent Document 2 discloses a method for understanding user's intention by converting voice information to text, adding attribute information obtained by semantic analysis, and transferring the information to an external computer having high processing capability.
  • this is premised on sequential processing, it is difficult to realize a conversation at a comfortable timing without using a computer having high processing capability.
  • the present invention has been made in view of the above-mentioned problems, and its purpose is to allow a conversation at a comfortable timing without requiring high processing capability, and to continue the conversation even when the conversation diverges. It is an object of the present invention to provide a data structure of data used for a voice dialogue, a voice dialogue device, and an electronic device that can be performed in the same manner.
  • a data structure is a data structure of data used for voice conversation, and includes at least utterance contents to be uttered to a user and the utterance contents. It is characterized in that the response content for which conversation is established and the attribute information indicating the attribute of the utterance content are set as one set.
  • a voice interaction device is a voice interaction device that performs a voice conversation with a user, and analyzes the voice uttered by the user to identify the utterance content, and the utterance Response content acquisition unit for acquiring response content for which conversation is established with respect to the utterance content specified by the content specification unit, and response content acquired by the response content acquisition unit as voice data
  • a voice data output unit for outputting, and the data structure of the data for dialogue includes at least utterance contents uttered to the user, response contents for establishing a conversation with the utterance contents, and the utterance contents It is characterized by having a data structure in which attribute information indicating the attributes of a single set.
  • FIG. 1 It is a schematic block diagram of a voice dialogue system according to Embodiment 1 of the present invention. It is a figure which shows the data structure of the data used for the dialogue process in the voice dialogue system shown in FIG. It is the figure which represented the data A1 shown in FIG. 2 with the data of the dialog markup language format. It is the figure which represented the data A2 shown in FIG. 2 with the data of the dialog markup language format. It is the figure which represented the data A3 shown in FIG. 2 with the data of the dialog markup language format. It is the figure which represented the data A4 shown in FIG. 2 with the data of the dialog markup language format. It is a sequence diagram which shows the flow of the dialogue process of the voice dialogue system shown in FIG.
  • FIG. 1 is a schematic configuration block diagram showing an outline of a voice dialogue system (voice dialogue apparatus) 101 according to the present invention.
  • the voice dialogue system 101 is a system for carrying out a voice dialogue with an operator (user) 1 who operates the system, and includes a sound collecting device 2, a voice recognition device (ASR) 3, a topic management device. (Utterance content specifying unit) 4, topic acquisition device (response content acquisition unit) 5, temporary storage device 6, file system 7, communication device 8, speech synthesizer (TTS) 9, and sound wave output device 10.
  • ASR voice recognition device
  • TTS speech synthesizer
  • the topic management device 4, the speech synthesizer 9, and the sound wave output device 10 constitute a voice data output unit that outputs the topic data acquired by the topic acquisition device 5 as a voice. Note that the speech synthesizer 9 can be omitted. The reason for this will be described later.
  • the sound collector 2 is a device that collects the voice uttered by the operator 1 and converts the collected voice into electronic wave data (waveform data).
  • the sound collection device 2 sends the converted electronic waveform data to the subsequent speech recognition device 3.
  • the voice recognition device 3 is a device that converts electronic waveform data sent from the sound collector 2 into text data.
  • the voice recognition device 3 sends the converted text data to the subsequent topic management device 4.
  • the topic management device 4 analyzes the text data sent from the speech recognition device 3 to identify the utterance content (analysis result), and the dialogue data (for example, FIG. 2). Details of the acquisition of data for dialogue will be described later.
  • the topic management device 4 extracts text data or voice data (PCM data) corresponding to the response content from the acquired dialogue data.
  • PCM data voice data
  • the topic management device 4 sends the text data to the subsequent speech synthesizer 9.
  • the topic management device 4 sends the registered address information of the speech data to the subsequent sound wave output device. Send to 10.
  • the audio data is stored in the file system 7
  • the registered address information is the address information of the audio data stored in the file system 7
  • the audio data is stored in the external device (not shown) via the communication device 8.
  • the speech synthesizer 9 is a TTS (Text-to-Speech) device that converts text data sent from the topic management device 4 into PCM data.
  • the speech synthesizer 9 sends the converted PCM data to the sound wave output device 10 at the subsequent stage.
  • TTS Text-to-Speech
  • the sound wave output device 10 is a device that outputs PCM data input from the speech synthesizer 9 as sound waves.
  • the sound wave output here means a sound that can be recognized by a person.
  • the sound wave output from the sound wave output device 10 becomes a response content to the utterance content of the operator 1. Thereby, a conversation is established between the operator 1 and the voice interaction system 101.
  • registered address information of PCM data may be input to the sound wave output device 10 from the topic management device 4.
  • the sound wave output device 10 acquires PCM data stored in any one of the external devices connected via the file system 7 or the communication device 8 from the registered address information of the input PCM data. Output as.
  • the topic management device 4 acquires conversation data using the topic acquisition device 5, the temporary storage device 6, the file system 7, and the communication device 8.
  • the temporary storage device 6 is a device that temporarily stores the analysis result from the topic management device 4 in the RAM so that it can be processed at high speed.
  • the file system 7 is a device that holds dialogue data as files, text data (dialog markup language format data), and voice data (PCM format data) as permanent information inside the device. Details of the text data (interactive markup language format data) will be described later.
  • the communication device 8 is connected to a communication network (network) such as the Internet, and receives dialogue markup language format data and PCM format data registered in an external device (a device existing outside the voice interaction system 101). It is a device to acquire.
  • a communication network such as the Internet
  • the topic management device 4 sends a conversation data acquisition instruction to the topic acquisition device 5 and temporarily stores the analysis result in the temporary storage device 6.
  • the topic acquisition device 5 acquires dialogue data from the file system 7 based on the analysis result stored in the temporary storage device 6 or from an external device connected to the communication network via the communication device 8. The topic acquisition device 5 sends the acquired dialogue data to the topic management device 4.
  • FIG. 2 shows an example of the data structure of the interaction data (A1 to A4).
  • the dialog data indicates a unit obtained by subdividing an expected response when a dialog is performed.
  • the conversation data A1 includes “Speak: tomorrow is free?” As the utterance content (assumed response content) uttered to the operator 1 and the utterance content. "Return: 1: Mean: I'm free”, “2: Mean: Busy” as the response content (adjacent pair) that holds the conversation, and "Entity: Schedule, Tomorrow" as the attribute information indicating the attribute of the utterance content It has a structure with a single set.
  • a specific data structure of the dialogue data A1 is, for example, a data structure as shown in FIG. That is, in the example shown in FIG. 3, the interaction data A1 has a data structure described in XML extension.
  • the topic management device 4 extracts text data from the dialogue data, “Tomorrow is free?” Described in “Speak” of the dialogue data A1 is extracted.
  • the dialogue data A1 may include an address (registered address information) where voice data “Tomorrow is free?” Is registered, although not shown.
  • the dialogue data A2 and A3 shown in (b) of FIG. 2 and the dialogue data A4 shown in (c) of FIG. 2 are different from the dialogue data A1, but the data structure thereof is dialogue data. Same as A1.
  • the specific data structure of the interaction data A2 is, for example, a data structure as shown in FIG.
  • the specific data structure of the interaction data A3 is, for example, a data structure as shown in FIG.
  • the specific data structure of the interaction data A4 is, for example, a data structure as shown in FIG.
  • the utterance content (Speak: go to somewhere, etc.) related to the response content (adjacent pair: 1: Mean: free time, etc.) in which conversation is established for the content of the conversation. ?) Includes data structure designation information (Link To: A2.DML, etc.) that designates another data structure (dialog data A2, etc.) registered, so that the conversation can be continued.
  • the conversation is established, but if the response to the utterance content is other than the adjacent pair, the conversation diverges and the conversation may not be established.
  • the dialog data of the present invention includes attribute information (Entity: schedule, tomorrow) indicating the attribute of the utterance content, as in the dialog data A1 shown in FIG. That is, when the conversation is likely to diverge, that is, when the response to the utterance content is other than the adjacent pair, it is possible to obtain dialogue data including appropriate response content by using the attribute information.
  • attribute information Entity: schedule, tomorrow
  • the attribute information is preferably a keyword for specifying a response content further assumed from the utterance content.
  • a keyword for specifying a response content further assumed from the utterance content. For example, in the dialogue data A1 shown in FIG. 2A, “schedule, tomorrow” is described as a keyword indicating attribute information indicating an attribute of Speak “Tomorrow is free?” Indicating the utterance content.
  • dialogue data indicating the utterance content including the keyword “schedule, tomorrow” described as the attribute information is acquired.
  • the system 7 is searched to find the dialogue data A4 whose Entity is “Tomorrow, Weather”, and speaks Speak “Tomorrow is sunny” of the dialogue data A4.
  • the appropriate response content can be obtained for the utterance content, so that the conversation can be continued without being diverged.
  • attribute information is not always necessary and can be omitted.
  • the sound collecting device 2 converts the voice input by the operator 1 speaking into waveform data and outputs it to the voice recognition device 3.
  • the voice recognition device 3 converts the input waveform data into text data and outputs it to the topic management device 4.
  • the topic management device 4 analyzes the topic in the utterance content of the operator 1 from the input text data, and instructs the topic acquisition device 5 to acquire the topic data (data for dialogue) based on the analysis result. Do.
  • the topic acquisition device 5 acquires topic data from the file system 7 based on an instruction from the topic management device 4, temporarily stores it in the temporary storage device 6, acquires an appropriate number of topic data, and then acquires the acquired topic. Data is output to the topic management device 4 (topic return).
  • the topic data acquired by the topic acquisition device 5 is text data (response text).
  • the topic management device 4 extracts text data (response text) from the topic data acquired by the topic acquisition device 5 and outputs it to the speech synthesizer 9.
  • the speech synthesizer 9 converts the input response text into output sound wave data (PCM data) and outputs it to the sound wave output device 10.
  • the sound wave output device 10 outputs the input sound wave data for output to the operator 1 as sound waves.
  • the conversation is established between the operator 1 and the voice dialogue system 101 by the above series of flows.
  • the topic data related to the topic data already acquired by the topic acquisition device 5 is acquired from the file system 7 and temporarily stored in the temporary storage device 6.
  • the already acquired topic data is the conversation data A1 shown in FIG. 2
  • the related topic data is the link destination conversation data A2 and the conversation data described in the conversation data A1.
  • the dialogue data A2 is read, the linked dialogue data A5 and A6 are also read.
  • the topic acquisition device 5 acquires related topic data, saves all of them in the temporary storage device 6, and notifies the topic management device 4 that the data reading has been completed.
  • the topic management device 4 instructs the speech synthesizer 9 to create PCM data of the read topic data when the data reading is completed.
  • continuous conversation can be performed at an appropriate tempo by acquiring related topic data in advance.
  • the dialogue data prefetching process that is, when the dialogue data A1 is read, the dialogue data A2 and the dialogue data A3 included in the dialogue data A1 are read to perform sequential processing, That is, since it is not necessary to perform processing for generating sound waves by generating PCM data from acquisition of interactive data, it is possible to use a CPU with low processing capability.
  • the sequence shown in FIG. 9 is basically the same as the sequence shown in FIG. 7 except that the topic data has already been acquired and temporarily stored in the temporary storage device 6 and thus the topic acquisition device 5 is not used. It is.
  • the topic management device 4 instructs the speech synthesizer 9 to create PCM data of text data (response text) extracted from topic data (interaction data) read from the temporary storage device 6.
  • the topic management device 4 sequentially reads the topic data stored in the temporary storage device 6 based on the analysis results obtained sequentially from the utterance contents.
  • the speech synthesizer 9 converts the input response text into output sound wave data (PCM data) and outputs it to the sound wave output device 10.
  • the sound wave output device 10 outputs the input sound wave data for output to the operator 1 as a sound wave.
  • This process is performed until there is no topic data temporarily stored in the temporary storage device 6.
  • the topic management device 4 may instruct the speech synthesizer 9 to convert all topic data stored in the temporary storage device 6 into PCM data.
  • the speech synthesizer 9 temporarily stores the created PCM data in the temporary storage device 6, reads out necessary PCM data according to an instruction from the topic management device 4, and sends it to the sound wave output device 10.
  • the sequence shown in FIG. 10 is basically the same as the sequence shown in FIG. 7, except that the topic data is directly reproduced by the sound wave output device 10 without using the speech synthesizer 9.
  • topic data converted into PCM data and a response file name (registered address information) associated with the topic data are stored in the file system 7.
  • the topic acquisition device 5 specifies topic data from the file system 7 based on the analysis result from the topic management device 4 and acquires a response file name associated with the specified topic data. To do.
  • the topic acquisition device 5 temporarily stores the acquired response file name in the temporary storage device 6 and then returns the topic to the topic management device 4.
  • the topic management device 4 acquires the topic acquisition device 5 and outputs the response file name to the sound wave output device 10.
  • the sound wave output device 10 acquires topic data converted into PCM data associated with the input response file name from the file system 7 and outputs the PCM data to the operator 1 as sound waves.
  • the sequence shown in FIG. 11 is basically the same as the sequence shown in FIG. 7, and differs in that the topic data is acquired from an external device connected to the communication network instead of the file system 7.
  • the topic acquisition device 5 acquires topic data from an external device (not shown) connected to the communication network via the communication device 8.
  • the topic management device 4 When the topic data acquired from the external device is voice data (PCM data), the topic management device 4 also acquires registration address information of the voice data. Accordingly, when the topic data is audio data, the topic management device 4 sends the registered address information to the sound wave output device 10.
  • the sound wave output device 10 acquires voice data from an external device from the input registered address information via the communication device 8 and outputs the sound data to the operator 1 as a sound wave.
  • a CPU having a high processing capability can be used by performing the prefetch processing of the dialogue data.
  • the dialog data includes attribute information indicating the attributes of the utterance content, even if the conversation diverges, appropriate dialog data can be acquired based on the attribute information. It is possible to continue.
  • the timing at which sound waves are output from the sound wave output device 10 to the operator 1 is not particularly specified. That is, the sound wave output device 10 outputs a sound wave when there is an instruction from the topic management device 4 or an instruction from the speech synthesizer 9.
  • the processing time of the voice interaction system 101 determines the time (response time) from when the operator 1 speaks until the sound wave indicating the response content is output from the sound wave output device 10. For example, if the processing capacity of the voice interaction system 101 is high, the response time is short, and if the processing capacity is low, the response time is long.
  • FIG. 12 is a schematic configuration block diagram showing an outline of the voice dialogue system (voice dialogue apparatus) 201 of the invention according to the present embodiment.
  • the spoken dialogue system 201 basically has the same configuration as the spoken dialogue system 101 described in the first embodiment. However, as shown in FIG. The difference is that a timer 11 is connected in parallel with the speech synthesizer 9.
  • the configuration other than the timer 11 is the same as that of the voice dialogue system 101 of the first embodiment, and detailed description thereof is omitted.
  • the timer 11 measures the elapsed time (measurement time) from the time when the voice uttered by the operator 1 is acquired, and when the specific time input from the topic management device 4 has elapsed, the sound wave It is a device that instructs the output device 10 to output sound waves. That is, the timer 11 counts (measures) the time set by the output (timer control signal) from the topic management device 4 and outputs a signal indicating completion of counting (a signal indicating that the time is determined to be equal to or greater than the preset time). The sound is output to the sound wave output device 10.
  • the sound wave output device 10 acquires the measurement time by the timer 11 immediately before outputting the sound data, and when the measurement time is determined to be equal to or longer than the preset time, outputs the sound data immediately after the determination of the measurement time, If it is determined that the measurement time is shorter than a preset time, audio data is output when the measurement time reaches the preset time. That is, when a signal indicating the completion of counting is input from the timer 11, the sound wave output device 10 outputs a sound wave to the operator 1 at that timing (immediately after the determination of the measurement time).
  • the sound wave output device 10 receives the sound data from the sound synthesizer 9, the sound wave output device 10 waits for the sound wave output until the signal indicating the completion of counting from the timer 11 is input. If the data to be output cannot be received before the signal indicating the completion of counting is input, the sound wave output device 10 outputs a sound wave when the data to be output has been received.
  • the set time of the timer 11 is preferably set to a time when there is no sense of incongruity in the conversation.
  • the set time of the timer 11 is preferably a response within 1.4 seconds on average, for example, and a response within a range of about 250 ms to 800 ms is desirable.
  • the set time of the timer 11 can be set according to the situation as a system.
  • the response text acquired by the topic acquisition device 5 is synthesized by speech.
  • the process until the voice synthesizer 9 converts the input response text into output sound wave data (PCM data) and outputs it to the sound wave output apparatus 10 until the process is output to the apparatus 9, and the sequence shown in FIG. Is the same.
  • the difference from the speech dialogue system 101 of the first embodiment is that the sound wave output device 10 sends sound waves to the operator 1 in accordance with a signal output from the timer 11, that is, a signal for designating the output timing of sound waves. It is a point to output.
  • the sequence shown in FIG. 14 is basically the same as the sequence shown in FIG. 13 except that the topic data has already been acquired and temporarily stored in the temporary storage device 6 and thus the topic acquisition device 5 is not used. It is.
  • the topic management device 4 instructs the speech synthesizer 9 to create PCM of topic data (response text) read from the temporary storage device 6.
  • the topic management device 4 sequentially reads the topic data stored in the temporary storage device 6 based on the analysis results obtained sequentially from the utterance contents.
  • the speech synthesizer 9 converts the input response text into output sound wave data (PCM data) and outputs it to the sound wave output device 10.
  • PCM data output sound wave data
  • the sound wave output device 10 When receiving the signal designating the output timing from the timer 11, the sound wave output device 10 outputs the input sound wave data for output to the operator 1 as a sound wave.
  • the voice dialogue system 201 As described above, according to the voice dialogue system 201 according to the present embodiment, the same effect as the voice dialogue system 101 according to the first embodiment is obtained, and the timing of the sound wave output of the sound wave output device 10 by the timer is adjusted. Therefore, it is possible to have a conversation with a natural response tempo and no sense of incongruity.
  • the electronic apparatus includes the voice dialogue system 101 shown in FIG. 1 or the voice dialogue system 201 shown in FIG.
  • the above electronic devices include mobile phones, smartphones, robots, game machines, toys (stuffed animals, etc.), general household appliances (cleaning robots, air conditioners, refrigerators, washing machines, etc.), PCs (personal computers), registers, ATMs (Automatic Teller) Machine), business equipment such as vending machines, all electronic devices assuming voice conversation, and all vehicles that can be maneuvered by people such as cars, airplanes, ships and trains.
  • the electronic device of the present embodiment since the conversation can be continued even when the conversation diverges, an operator who operates the electronic device can talk with the electronic device without a sense of incongruity. .
  • the use of the dialog data having the data structure of the present invention provides the following effects.
  • a user's speech can be made to respond efficiently and quickly by storing the assumed response in memory in a unit (dialogue markup language) that has been subdivided in advance. Thereby, the amount of prefetching and preprocessing can be adjusted according to the capability (CPU, memory, etc.) of the electronic device to be executed.
  • the user has a conversation other than the expected response, it is considered that the conversation has been diverged, and appropriate speech information can be searched based on the attribute information.
  • continuous conversation can be performed by including information indicating the data of the continuous conversation in the data structure.
  • the present invention by using data having a data structure as shown in FIG. 2 as interactive data, even if the computer has a powerless CPU that does not have high processing capability, the content of the dialog is diverged. It is possible to construct a voice interaction system (IVR: Interactive Voice Response) in an environment where there is a possibility of being.
  • IVR Interactive Voice Response
  • the present invention is not limited to this format. However, if it contains the same component, that is, the response content in which conversation is established for the utterance content, it may be converted into different XML or HTML by XSLT, and JSON (JavaScript (registered trademark) Object Notation ) Format or a simple text description format such as YAML format, or a specific binary format.
  • JSON JavaScript (registered trademark) Object Notation ) Format
  • a simple text description format such as YAML format, or a specific binary format.
  • the control blocks (particularly the topic management device 4 and the topic acquisition device 5) of the voice interaction systems 101 and 201 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or a CPU ( It may be realized by software using a Central Processing Unit.
  • the voice interaction systems 101 and 201 include a CPU that executes instructions of a program that is software that realizes each function, and a ROM (Read Only) in which the program and various data are recorded so as to be readable by the computer (or CPU).
  • Memory or a storage device (these are referred to as “recording media”), a RAM (Random Access Memory) for expanding the program, and the like.
  • the objective of this invention is achieved when a computer (or CPU) reads the said program from the said recording medium and runs it.
  • a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
  • a transmission medium such as a communication network or a broadcast wave
  • the present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
  • the data structure according to the first aspect of the present invention is a data structure of data used for a voice dialogue of a voice dialogue apparatus (voice dialogue systems 101 and 102), and at least speaks to a user (operator 1).
  • the feature is that the utterance content (Speak), the response content (Return) in which conversation is established for the utterance content, and the attribute information (Entity) indicating the attribute of the utterance content are combined into one set.
  • the user's (operator 1) utterance can be efficiently and quickly responded.
  • the amount of prefetching and preprocessing can be adjusted according to the capability (CPU, memory, etc.) of the electronic device to be executed.
  • the data since the data is collected in a relatively small unit, it can be mounted and executed even by a weak electronic device.
  • an appropriate response content can be obtained by searching based on attribute information indicating the attribute of the utterance content.
  • the attribute information may be a keyword for specifying the response content further assumed from the utterance content.
  • the data structure according to aspect 3 of the present invention is the data structure according to aspect 1 or 2 described above, in which another utterance content (Speak) related to the response content (Mean) in which conversation is established with respect to the utterance content is registered ( A2.DML etc.) data structure designation information (Link To: A2. DML etc.) may be included.
  • the response content (Mean) in which conversation is established with respect to the utterance content may be registered as audio data.
  • the processing for converting text data into voice data becomes unnecessary, so the processing capability required to convert text data into voice data Is not required, and the interactive processing can be performed by a CPU having a higher processing capability.
  • the voice interactive apparatus is a voice interactive apparatus (voice interactive system 101, 201) that performs a voice conversation with the user (operator 1), and analyzes the voice uttered by the user to utter content.
  • An utterance content identification unit (topic management device 4) that identifies (Speak), and response content (Return) that establishes a conversation with respect to the utterance content identified by the utterance content identification unit are stored in advance as dialogue data ( A1. DML, A2.
  • response content acquisition unit topic acquisition device 5
  • voice data output unit topic management device 4
  • a voice synthesizer 9 and a sound wave output device 10 that outputs the response content acquired by the response content acquisition unit as audio data
  • a voice synthesizer 9 and a sound wave output device 10 that outputs the response content acquired by the response content acquisition unit as audio data
  • a voice synthesizer 9 and a sound wave output device 10 and the data structure of the interactive data is the data structure described in any one of the first to fourth aspects.
  • the voice interactive apparatus may be provided with a storage device (file system 7) for registering the interactive data as a file in aspect 5 described above.
  • file system 7 for registering the interactive data as a file in aspect 5 described above.
  • the storage device (file system 7) for registering dialogue data as a file is provided inside the device, a response to the utterance content can be quickly processed.
  • the content acquisition unit may acquire the data for interaction from the outside of the voice interaction device via a network.
  • a voice interaction device in any one of the fifth to seventh aspects, further includes a timer (11) that measures an elapsed time from the time when the voice uttered by the user is acquired,
  • the voice data output unit acquires the measurement time by the timer immediately before outputting the voice data, and when the measurement time is determined to be equal to or longer than a preset time, outputs the voice data immediately after the determination of the measurement time, If it is determined that the measurement time is shorter than the preset time, the audio data may be output when the measurement time reaches the preset time.
  • the electronic device according to aspect 9 of the present invention is characterized by including the voice interaction device according to any one of the above aspects 5 to 8.
  • the present invention can be used for an electronic device assuming that voice conversation is performed not only for device operation but also for general conversation, and can be particularly preferably used for home appliances.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

 高い処理能力を必要とせず、会話が発散した場合であっても、対話を適切なタイミングで継続して行うことを可能にする。本発明のデータ構造は、少なくとも、使用者に対して発話する発話内容(Speak)と、当該発話内容に対して会話が成り立つ応答内容(Return)と、当該発話内容の属性を示す属性情報(Entity)と、を一つのセットとしたデータ構造である。

Description

データ構造、音声対話装置及び電子機器
 本発明は、音声認識とテキスト内容の音声合成とを用いた音声対話装置に関し、特に音声対話装置における音声対話に用いられるデータのデータ構造に関する。
 音声認識(ASR:Automatic Speech Recognition)とテキスト内容の音声合成(TTS:Text To Speech)を用いた音声対話システム(IVR:Interactive Voice Response)は古くから研究や商品化の対象として取り扱われてきている。この音声対話システムは、使用者と電子機器とのユーザI/Fの一つと考えられているが、一般的なユーザI/Fとして使用されているマウスやキーボードと異なり普及が進んでいないのが現状である。
 普及が進んでいない理由の一つとして考えられるのが、人と人の会話と同じレベルの内容の品質及び応答タイミングで電子機器との音声入力・応答を期待していることが挙げられる。この期待を満たすには、人の会話を音の波形として電子機器に入力し、そこから単語・文脈などを判定し意味を理解する処理と、意味に対し電子機器自体の状況・周りの環境から適切な文章を候補から特定もしくは創造し、音波として出力するまでの処理の2つを遅くとも数秒以内に行う必要があり、会話の内容の品質ももちろんのことながら、電子機器における非常に多くの計算量やメモリ量が必要とされる。
 これらの状況を鑑みた解決策の一つとして、想定される用途に応じた会話内容を記述するデータ方式を定義し、それを利用することで電子機器の処理力を超えないレベルで妥当な対話システムを構築することが提案されている。例えば、音声対話に用いられるデータの一種である、VoiceXML(VXML)は会話パターンをマークアップランゲージとして記載することで電話応答などの用途において実現している。また、XISL(Extensible Interaction Sheet Language)は文脈だけでなく声の抑揚などの非言語的な情報を加味した形でデータを定義することで円滑な対話システムを構築することを可能としている。さらに、特許文献1では、会話の内容をデータベースから高速に検索する方法、特許文献2では、ネットワーク上の強力な電子機器と効率的に処理をする方法が挙げられている。
日本国公開特許公報「特許第4890721号公報(2011年12月22日登録)」 日本国公開特許公報「特許第4073668号公報(2008年02月01日登録)」
 従来の音声対話システムは音声対話開始時に使用者が特定の目的を持っていることを前提としている。それに伴い会話を記述するデータ方式も最適化されている。例えば、VoiceXMLの場合、使用者との会話はサブルーチンに分割される仕組みとなっている。VoiceXMLにて住所検索を行う場合はポスタルコードや県名を順次聞いて行くような記載となっている。このようなデータ構造は会話が発散する形式には向いていない。一般的なマンツーマンコミュニケーションでは会話は常に主題を変え発散していく雑談形式であり、VoiceXMLの記載方法は数あるコミュニケーションの一部が実現されているに留まっているにすぎない。
 また、特許文献1は、上記の問題の解決方法としてマーカーと呼ばれる検索キーを用いて高速に特定の会話ルーチンに飛ぶ方法が提案されているが、到達方法が確立された会話データを呼び出すために過ぎないため、会話が発散した場合には向いていないし、音声対話に用いられるデータのデータ構造そのものには触れていない。
 さらに、特許文献2は、音声情報をテキストに変換し、さらに意味解析をした属性情報を付加したうえで、処理能力の高い外部のコンピュータに情報を転送することで使用者の意図を理解する方法を提案されているが、これは逐次処理を前提としているため、高い処理能力を有するコンピュータを用いないと快適なタイミングでの対話を実現することが難しい。
 本発明は、上記の問題点に鑑みなされたものであって、その目的は、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことを可能にする音声対話に用いられるデータのデータ構造、音声対話装置及び電子機器を提供することにある。
 上記の課題を解決するために、本発明の一態様に係るデータ構造は、音声対話に用いられるデータのデータ構造であって、少なくとも、使用者に対して発話する発話内容と、当該発話内容に対して会話が成り立つ応答内容と、当該発話内容の属性を示す属性情報とを一つのセットとしたことを特徴としている。
 また、本発明の一態様に係る音声対話装置は、使用者と音声対話を行う音声対話装置であって、使用者が発する音声を解析して発話内容を特定する発話内容特定部と、上記発話内容特定部が特定した発話内容に対して会話が成り立つ応答内容を、予め登録された対話用のデータから取得する応答内容取得部と、上記応答内容取得部が取得した応答内容を、音声データとして出力する音声データ出力部と、を備え、上記対話用のデータのデータ構造は、少なくとも、使用者に対して発話する発話内容と、当該発話内容に対して会話が成り立つ応答内容と、当該発話内容の属性を示す属性情報とを一つのセットとしたデータ構造であることを特徴としている。
 本発明の一態様によれば、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。
本発明の実施形態1に係る音声対話システムの概略構成ブロック図である。 図1に示す音声対話システムにおける対話処理に用いられるデータのデータ構造を示す図である。 図2に示すデータA1を対話マークアップ言語形式のデータで表した図である。 図2に示すデータA2を対話マークアップ言語形式のデータで表した図である。 図2に示すデータA3を対話マークアップ言語形式のデータで表した図である。 図2に示すデータA4を対話マークアップ言語形式のデータで表した図である。 図1に示す音声対話システムの対話処理の流れを示すシーケンス図である。 図1に示す音声対話システムの対話処理の流れを示すシーケンス図である。 図1に示す音声対話システムの対話処理の流れを示すシーケンス図である。 図1に示す音声対話システムの対話処理の流れを示すシーケンス図である。 図1に示す音声対話システムにおける対話処理の流れを示すシーケンス図である。 本発明の実施形態2に係る音声対話システムの概略構成ブロック図である。 図12に示す音声対話システムの対話処理の流れを示すシーケンス図である。 図12に示す音声対話システムの対話処理の流れを示すシーケンス図である。
 〔実施形態1〕
 以下、本発明の実施形態について、詳細に説明する。
 (音声対話システムの概要)
 図1は、本実施形態に係る発明の音声対話システム(音声対話装置)101の概略を示す概略構成ブロック図である。音声対話システム101は、図1に示すように、当該システムを操作する操作者(使用者)1と音声対話するシステムであって、集音装置2、音声認識装置(ASR)3、話題管理装置(発話内容特定部)4、話題取得装置(応答内容取得部)5、一時保存装置6、ファイルシステム7、通信装置8、音声合成装置(TTS)9、音波出力装置10を備えている。
 なお、上記話題管理装置4、音声合成装置9、音波出力装置10によって、話題取得装置5が取得した話題データを音声として出力する音声データ出力部を構成している。なお、音声合成装置9は省略可能である。この理由については後述する。
 集音装置2は、操作者1が発する声を集音し、集音した声を電子的な波のデータ(波形データ)に変換する装置である。集音装置2は、変換した電子的な波形データを、後段の音声認識装置3に送る。
 音声認識装置3は、集音装置2から送られた電子的な波形データからテキストデータに変換する装置である。音声認識装置3は、変換したテキストデータを、後段の話題管理装置4に送る。
 話題管理装置4は、音声認識装置3から送られたテキストデータを解析して発話内容(解析結果)を特定し、特定した発話内容に対して会話が成り立つ応答内容を示す対話用データ(例えば図2に示すデータ)の取得を行う装置である。対話用のデータの取得についての詳細は後述する。
 話題管理装置4は、取得した対話用データから、応答内容に対応する、テキストデータまたは音声データ(PCMデータ)を抽出する。そして、話題管理装置4は、テキストデータを抽出した場合には、当該テキストデータを後段の音声合成装置9に送り、音声データを抽出した場合、当該音声データの登録アドレス情報を後段の音波出力装置10に送る。ここで、登録アドレス情報は、音声データがファイルシステム7に格納されていれば、当該ファイルシステム7に格納された音声データのアドレス情報、音声データが通信装置8を介して外部機器(図示せず)に格納されていれば、当該外部機器に格納された音声データのアドレス情報である。
 音声合成装置9は、話題管理装置4から送られたテキストデータをPCMデータにするTTS(Text to Speech)装置である。音声合成装置9は、変換したPCMデータを後段の音波出力装置10に送る。
 音波出力装置10は、音声合成装置9から入力されるPCMデータを音波として出力する装置である。ここで出力される音波は、人が認識できる音をいう。音波出力装置10から出力された音波は、操作者1の発話内容に対する応答内容となる。これにより、操作者1と音声対話システム101との間で会話が成り立つことになる。
 音波出力装置10には、上述したように、話題管理装置4からPCMデータの登録アドレス情報が入力される場合もある。この場合、音波出力装置10は、入力されたPCMデータの登録アドレス情報から、ファイルシステム7または通信装置8を介して接続された外部機器の何れかに格納されているPCMデータを取得し、音波として出力する。
 (対話用データの取得)
 話題管理装置4は、話題取得装置5、一時保存装置6、ファイルシステム7、通信装置8を用いて、対話用データを取得する。
 一時保存装置6は、高速で処理ができるようRAMに、上記話題管理装置4からの解析結果を一時的に保持する装置である。
 また、ファイルシステム7は、対話用データをファイルとして、テキストデータ(対話マークアップ言語形式のデータ)と、音声データ(PCM形式のデータ)を機器内部に永続情報として保持する装置である。上記テキストデータ(対話マークアップ言語形式のデータ)の詳細については後述する。
 さらに、通信装置8は、インターネット等の通信ネットワーク(ネットワーク)と接続し、外部機器(音声対話システム101の外部に存在する機器)に登録された対話マークアップ言語形式のデータとPCM形式のデータを取得する装置である。
 ここで、話題管理装置4は、対話用データの取得指示を話題取得装置5に送り、解析結果を一時保存装置6に一時的に保存する。
 話題取得装置5は、一時保存装置6に保存された解析結果に基づいて、対話用データをファイルシステム7から取得、または通信装置8を介して通信ネットワークに接続された外部機器から取得する。話題取得装置5は、取得した対話用データを話題管理装置4に送る。
 (対話マークアップ言語形式のデータ)
 図2は、対話用データ(A1~A4)のデータ構造の一例を示している。上記対話用データは、対話を行う際に、想定される応答を細分化した一単位を示している。
 対話用データA1は、例えば図2の(a)に示すように、上記操作者1に対して発話する発話内容(想定される応答内容)として「Speak:明日は暇?」と、当該発話内容に対して会話が成り立つ応答内容(隣接ペア)として「Return:1:Mean:暇だよ、2:Mean:忙しい」と、当該発話内容の属性を示す属性情報として「Entity:予定、明日」とを一つのセットとした構造となっている。対話用データA1の具体的なデータ構造は、例えば図3に示すようなデータ構造となる。つまり、図3に示す例では、対話用データA1は、XML拡張で記載したデータ構造をとっている。
 例えば、上述したように、話題管理装置4が対話用データからテキストデータを抽出するとは、対話用データA1の「Speak」に記載された「明日は暇?」を抽出することになる。また、対話用データA1には、「Speak」の他に、図示されていないが、「明日は暇?」の音声データを登録しているアドレス(登録アドレス情報)を含めていてもよい。
 図2の(b)に示す対話用データA2、A3、図2の(c)に示す対話用データA4は、対話用データA1と格納されている情報は異なるものの、そのデータ構造は対話用データA1と同じである。ここで、対話用データA2の具体的なデータ構造は、例えば図4に示すようなデータ構造となる。また、対話用データA3の具体的なデータ構造は、例えば図5に示すようなデータ構造となる。また、対話用データA4の具体的なデータ構造は、例えば図6に示すようなデータ構造となる。
 なお、対話用データA1には、Speak「明日は暇?」に対するReturnが「1:Mean:暇だよ」のとき、リンク先が対話用データA2、Speak「明日は暇?」に対するReturnが「2:Mean:忙しい」のとき、リンク先が対話用データA3であることが記されている。
 従って、「明日は暇?」という発話内容に対して、「暇だよ」と応答したとき、Speak「じゃあどこかに行く?」と記載された対話用データA2にリンクして会話を成立させる。また、「明日は暇?」という発話内容にして、「忙しい」と応答したとき、Speak「大変だねー」と記載された対話用データA3にリンクして会話を成立させる。
 このように、対話用データA1には、話内容に対して会話が成り立つ応答内容(隣接ペア:1:Mean:暇だよ、等)に関連した発話内容(Speak:じゃあどこかへ行く、等?)が登録された別データ構造(対話用データA2等)を指定するデータ構造指定情報(Link To:A2.DML、等)が含まれているため、会話を継続させることが可能となる。
 さらに、対話用データA2には、Speak「じゃあどこかに行く?」に対するReturnが「1:Mean:いいよ」のとき、リンク先が対話用データA5、Speak「じゃあどこかに行く?」に対するReturnが「2:いやだよ」のとき、リンク先が対話用データA6であることが記されているため、会話をさらに継続させることが可能となる。
 ところで、発話内容に対する応答が、隣接ペアを用いていれば、会話が成立するが、発話内容に対する応答が、隣接ペア以外である場合、会話が発散し、会話が成立しない虞がある。
 そこで、本発明の対話用データでは、図2の(a)に示す対話用データA1のように、発話内容の属性を示す属性情報(Entity:予定、明日)を含んでいる。つまり、会話が発散しそう場合、すなわち発話内容に対する応答が、隣接ペア以外である場合、属性情報を用いることで、適切な応答内容を含んだ対話用データを得ることが可能になる。
 上記属性情報は、上記発話内容からさらに想定される応答内容を特定するためのキーワードであることが好ましい。例えば図2の(a)に示す対話用データA1では、発話内容を示すSpeak「明日は暇?」の属性を示す属性情報を示すキーワードとして、「予定、明日」が記されている。
 従って、この属性情報として記された「予定,明日」というキーワードを含む発話内容を示す対話用データが取得される。例えば、対話用データA1において、「明日は暇?」と聞いた後、返答が「明日の天気は何?」と返ってきた場合に、「明日」、「天気」というキーワードを用いて、ファイルシステム7を検索して、図2の(c)に示すように、Entityが「明日,天気」である対話用データA4を見つけて、対話用データA4のSpeak「明日は晴れです」を話す。これにより、発話内容に対する応答が、隣接ペア以外であっても、当該発話内容に対して、適切な応答内容を得ることができるので、発散することなく会話を継続させることができる。なお、会話の途中で用いられるような対話データの場合には、属性情報は必ずしも必要でなく、省略することができる。
 ここで、本音声対話システム101を用いた対話処理のシーケンスについて以下の5つのパターンに分けて説明する。
 (シーケンス1:基本形)
 まず、図7を参照しながら、操作者1からの話かけによる対話処理のシーケンスについて説明する。
 集音装置2は、操作者1が発話することで入力された音声を波形データに変換し、音声認識装置3に出力する。
 音声認識装置3は、入力された波形データをテキストデータに変換し、話題管理装置4に出力する。
 話題管理装置4は、入力されたテキストデータから操作者1の発話内容における話題を解析し、解析結果に基づいて、話題データ(対話用データ)を取得するように、話題取得装置5に指示を行う。
 話題取得装置5は、話題管理装置4からの指示に基づいて、ファイルシステム7から話題データを取得し、一時保存装置6に一時保存し、適当な数の話題データを取得した後、取得した話題データを話題管理装置4に出力(話題返却)する。ここで、話題取得装置5が取得する話題データは、テキストデータ(応答テキスト)である。
 話題管理装置4は、話題取得装置5が取得した話題データからテキストデータ(応答テキスト)を抽出し、音声合成装置9に出力する。
 音声合成装置9は、入力された応答テキストを出力用音波データ(PCMデータ)に変換し、音波出力装置10に出力する。
 音波出力装置10は、入力された出力用音波データを音波として操作者1に出力する。
 上記一連の流れにより、操作者1と音声対話システム101との間で会話が成立する。
 (シーケンス2:連続会話の準備)
 次に、図7に示すシーケンスにより操作者1に対する応答が完了した後、連続して会話を行うための処理について、図8に示すシーケンスを参照しながら以下に説明する。
 図8に示すシーケンスでは、話題取得装置5が既に取得した話題データに関連した話題データをファイルシステム7から取得し、一時保存装置6に一時保存しておくようになっている。ここで、上記の既に取得した話題データを、図2に示す対話用データA1とした場合、関連した話題データは、当該対話用データA1に記されたリンク先の対話用データA2、対話用データA3となる。なお、対話用データA2を読み込んだとき、リンク先の対話用データA5、A6も読み込んでおく。
 また、話題取得装置5は、関連した話題データを取得して、全て一時保存装置6に一保存したのち、話題管理装置4に対してデータ読み込みを終了したことを知らせる。
 話題管理装置4は、データ読み込み終了した時点で、音声合成装置9に対して、読み込んだ話題データのPCMデータの作成を命令する。
 上記のように、関連した話題データを予め取得することで、連続した会話を適当なテンポで行うことが可能となる。
 しかも、対話用データの先読み処理、すなわち対話用データA1を読み込んだとき、当該対話用データA1に含まれるリンク先の対話用データA2、対話用データA3を読み込む処理を行うことで、逐次処理、すなわち対話用データの取得からPCMデータの作成を行って音波出力を行う処理を行う必要がないため、処理能力の高くないCPUを用いることが可能となる。
 (シーケンス3:連続会話)
 次に、図8に示すシーケンスにより関連した話題データを取得した後、連続した会話の応答までの処理について、図9に示すシーケンスを参照しながら以下に説明する。
 図9に示すシーケンスは、図7に示すシーケンスと基本的に同じであり、異なるのが、既に話題データが取得され一時保存装置6に一時保存されているため、話題取得装置5を用いない点である。
 すなわち、話題管理装置4は、音声合成装置9に対して、一時保存装置6から読み出した話題データ(対話用データ)から抽出したテキストデータ(応答テキスト)のPCMデータの作成を命令する。話題管理装置4は、発話内容から逐次得られる解析結果に基づいて、一時保存装置6に保存されている話題データを順次読み出すようになっている。
 音声合成装置9は、入力された応答テキストを出力用の音波データ(PCMデータ)に変換し、音波出力装置10に出力する。
 音波出力装置10は、入力された出力用の音波データを音波として操作者1に出力する。
 そして、この処理は、一時保存装置6に一時保存された話題データがなくなるまで行われる。
 なお、話題管理装置4は、一時保存装置6に保存された全ての話題データをPCMデータに変換するように、音声合成装置9を指示してもよい。この場合、音声合成装置9は、作成したPCMデータを、一時保存装置6に一時的に保存し、話題管理装置4から指示により、必要なPCMデータ読み出して、音波出力装置10に送る。
 このように、関連した話題データを予めPCMデータに変換しておけば、PCMデータの変換にかかる処理時間の分だけ早く応答することが可能となる。
 (シーケンス4:直接再生)
 上記のシーケンス1~3では、音声合成装置9を用いて話題データをPCMデータに変換していたが、音声合成装置9を用いずに、音波出力装置10において話題データを直接再生する場合の処理について、図10に示すシーケンスを参照しながら以下に説明する。
 図10に示すシーケンスは、図7に示すシーケンスと基本的に同じであり、異なるのが、音声合成装置9を用いずに、音波出力装置10において話題データを直接再生する点である。
 ここでは、ファイルシステム7に、PCMデータに変換した話題データと、当該話題データに対応付けられた応答ファイル名(登録アドレス情報)とを格納しておく。
 話題取得装置5は、図7に示すシーケンスと異なり、話題管理装置4からの解析結果に基づいて、ファイルシステム7から話題データを特定し、特定した話題データに対応付けられた応答ファイル名を取得する。
 話題取得装置5は、取得した応答ファイル名を一時保存装置6に一時保存した後、話題管理装置4に対して、話題返却を行う。
 話題管理装置4は、話題返却が行われると、話題取得装置5が取得し応答ファイル名を音波出力装置10に出力する。
 音波出力装置10は、入力された応答ファイル名に対応付けられたPCMデータに変換された話題データをファイルシステム7から取得し、PCMデータを音波として操作者1に出力する。
 (シーケンス5)
 上記のシーケンス1~4では、話題データをファイルシステム7から取得する例を示したが、話題データを外部機器、例えば、本音声対話システム101と通信ネットワークで接続された外部機器から取得する場合の処理について、図11に示すシーケンスを参照しながら以下に説明する。
 図11に示すシーケンスは、図7に示すシーケンスと基本的に同じであり、話題データの取得先が、ファイルシステム7でなく、通信ネットワークに接続された外部機器である点で異なる。この場合、話題取得装置5が、通信装置8を介して通信ネットワークに接続された外部機器(図示せず)から話題データを取得することになる。
 話題管理装置4は、外部機器から取得する話題データが音声データ(PCMデータ)の場合には、当該音声データの登録アドレス情報も合わせて取得する。従って、話題データが音声データの場合には、話題管理装置4は、登録アドレス情報を音波出力装置10に送る。音波出力装置10は、入力された登録アドレス情報から、通信装置8を介して外部機器から音声データを取得し、音波として操作者1に出力する。
 以上のように、本実施形態に係る音声対話システム101によれば、対話用データの先読み処理を行うことで、処理能力の高くないCPUを用いることができる。しかも、対話用データには発話内容の属性を示す属性情報が含まれているので、会話が発散した場合であっても、属性情報に基づいて適切な対話用データを取得でき、その結果、会話を継続することを可能としている。
 ここで、上記の各シーケンスにおいて、音波出力装置10から操作者1に対して音波が出力されるタイミングについては特に規定していない。つまり、音波出力装置10は、話題管理装置4からの指示あるいは音声合成装置9からの指示があれば、音波を出力するようになっている。
 従って、音声対話システム101の処理能力によって、操作者1が発話してから、音波出力装置10から応答内容を示す音波を出力するまでの時間(応答時間)が決まる。例えば、音声対話システム101の処理能力が高ければ、上記応答時間が短くなり、処理能力が低ければ、上記応答時間が長くなる。
 ところで、応答時間は、長すぎても、また、速すぎても、会話のテンポが不自然になるため、応答時間の調整は重要である。以下の実施形態2では、上記応答時間の調整を行う例について説明する。
 〔実施形態2〕
 本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 図12は、本実施形態に係る発明の音声対話システム(音声対話装置)201の概略を示す概略構成ブロック図である。音声対話システム201は、基本的に、前記実施形態1に記載の音声対話システム101と同じ構成を有しているが、図12に示すように、話題管理装置4と音波出力装置10との間に、音声合成装置9と並列にタイマ11を接続している点で異なる。なお、音声対話システム201において、タイマ11以外の他の構成については、前記実施形態1の音声対話システム101と同じであるため、詳細な説明は省略する。
 タイマ11は、操作者1が発する音声を取得した時点からの経過時間(計測時間)を計測するものであって、上記話題管理装置4から入力された特定の時間が経過した場合に、上記音波出力装置10に音波出力タイミングを指示する装置である。つまり、タイマ11は、話題管理装置4からの出力(タイマ制御信号)によって設定された時間をカウント(計測)し、カウント完了を示す信号(予め設定した時間以上と判定したことを示す信号)を音波出力装置10に出力する。
 音波出力装置10は、音声データを出力する直前の上記タイマ11による計測時間を取得し、上記計測時間が予め設定した時間以上と判定した場合、上記計測時間の判定直後に音声データを出力し、上記計測時間が予め設定した時間よりも短いと判定した場合、当該計測時間が当該予め設定した時間に達した時点で、音声データを出力する。すなわち、音波出力装置10は、タイマ11からカウント完了を示す信号が入力されると、そのタイミング(計測時間の判定直後)で音波を操作者1に出力する。つまり、音波出力装置10は、音声合成装置9からの音声データを受け取るものの、タイマ11からのカウント完了を示す信号が入力されるまで、音波の出力を待機している。なお、音波出力装置10は、カウント完了を示す信号が入力される前に、出力すべきデータを受信できていない場合には、出力すべきデータを受信できた時点で、音波を出力する。
 タイマ11における設定時間を調整することにより、音波出力装置10からの音波の出力タイミングを調整することができる。タイマ11の設定時間は、会話において違和感のない時間に設定されるのが好ましく。タイマ11の設定時間は、例えば平均値的には1.4秒以内の応答が好ましく、望ましくは250ms~800ms程度での応答が望ましい。なお、タイマ11の設定時間は、システムとして、状況に応じて設定可能である。
 ここで、本音声対話システム201を用いた対話処理のシーケンスについて以下の2つのパターンに分けて説明する。
 (シーケンス6:音波出力タイミングの基本形)
 まず、図13を参照しながら、操作者1からの話かけによる対話処理のシーケンスについて説明する。このシーケンスは、前記実施形態1の図7に示すシーケンスとほぼ同じであり、異なるのは、タイマ11を用いて音波出力装置10の音波出力のタイミングを制御している点である。
 すなわち、集音装置2が操作者1の発話を集音してから、話題管理装置4が、話題取得装置5から話題が返却された後に、当該話題取得装置5が取得した応答テキストを音声合成装置9に出力するまでの処理、音声合成装置9が、入力された応答テキストを出力用音波データ(PCMデータ)に変換し、音波出力装置10に出力するまでの処理は、図7に示すシーケンスと同じである。
 前記実施形態1の音声対話システム101と異なるのは、音波出力装置10が、タイマ11から出力される信号、すなわち音波の出力タイミングの指定を行うための信号に応じて、音波を操作者1に出力する点である。
 (シーケンス7:連続会話)
 次に、連続した会話の応答までの処理について、図14に示すシーケンスを参照しながら以下に説明する。
 図14に示すシーケンスは、図13に示すシーケンスと基本的に同じであり、異なるのが、既に話題データが取得され一時保存装置6に一時保存されているため、話題取得装置5を用いない点である。
 すなわち、話題管理装置4は、音声合成装置9に対して、一時保存装置6から読み出した話題データ(応答テキスト)のPCM作成を命令する。話題管理装置4は、発話内容から逐次得られる解析結果に基づいて、一時保存装置6に保存されている話題データを順次読み出すようになっている。
 音声合成装置9は、入力された応答テキストを出力用音波データ(PCMデータ)に変換し、音波出力装置10に出力する。音波出力装置10は、タイマ11からの出力タイミングを指定する信号を受け付けると、入力された出力用音波データを音波として操作者1に出力する。
 ここまでの処理は、一時保存装置6に一時保存された話題データがなくなるまで行われる。
 以上のように、本実施形態に係る音声対話システム201によれば、前記実施形態1に係る音声対話システム101と同じ効果を奏し、且つ、タイマによる音波出力装置10の音波出力のタイミングを調整することができるため、応答のテンポが自然で、違和感のない会話を行うことができる。
 〔実施形態3〕
 本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 本実施形態に係る電子機器は、図1に示す音声対話システム101または図12に示す音声対話システム201を備えている。
 上記電子機器としては、携帯電話、スマートフォン、ロボット、ゲーム機、おもちゃ(ぬいぐるみなど)、家電全般(お掃除ロボット、エアコン、冷蔵庫、洗濯機など)、PC(パーソナルコンピュータ)、レジスタ、ATM(Automatic Teller Machine)、自動販売機などの業務用機器、音声対話を想定した電子機器全般、自動車、飛行機、船舶、電車などの人が操縦することが可能な乗り物全般を含む。
 従って、本実施形態の電子機器によれば、会話が発散した場合であっても、会話を継続することが可能なので、電子機器を操作する操作者は違和感なく電子機器と会話を行うことができる。
 以上のように、本発明のデータ構造の対話用データを用いれば、以下のような効果を奏する。
(1)想定される応答を予め細分化された単位(対話マークアップ言語)でメモリ上に保存しておくことで使用者の発話を効率的に、素早く応答させることができる。これにより、実行する電子機器の能力(CPUやメモリ等)に応じて、先読みや事前処理を行う量を調整することができる。
(2)想定される応答以外の内容で使用者が会話をした場合、会話が発散されたとみなし、適切な発話情報を、属性情報を元に検索することができる。
(3)データが比較的小さな単位でまとまるため非力な電子機器でも搭載・実行可能となる。
 更に、使用者からの応答によって会話が継続される場合、その継続会話のデータを指し示す情報を前記データ構造に含めることで連続した会話を行うことができる。
 予め想定される会話の応答に対してのデータを先読みすることで、音声合成データ等を事前に合成も可能とし、タイミングの良い会話を行うことができる。
 従って、本発明によれば、図2に示すようなデータ構造のデータを対話用データとして使用することで、処理能力の高くない非力なCPUをもったコンピュータであったとしても、対話内容が発散する可能性がある環境下での音声対話システム(IVR:Interactive Voice Response)を構築することが可能となる。
 なお、実施形態1~3において、対話用データを実現するための形式として、図3~図6に示したようなXML拡張で記載したデータ形式を採用した例を示したが、この形式に限定されるものではなく、同じ構成要素、すなわち発話内容に対して会話が成り立つ応答内容を含んでいれば、XSLTで異なるXMLやHTMLに変換しても構わないし、JSON(JavaScript(登録商標) Object Notation)形式やYAML形式等の簡易テキスト記述形に変換しても構わないし、同様に特定バイナリのフォーマットであっても構わない。
 〔ソフトウェアによる実現例〕
 音声対話システム101、201の制御ブロック(特に話題管理装置4および話題取得装置5)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
 後者の場合、音声対話システム101、201は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係るデータ構造は、音声対話装置(音声対話システム101、102)の音声対話に用いられるデータのデータ構造であって、少なくとも、使用者(操作者1)に対して発話する発話内容(Speak)と、当該発話内容に対して会話が成り立つ応答内容(Return)と、当該発話内容の属性を示す属性情報(Entity)とを一つのセットとしたことを特徴としている。
 上記の構成によれば、使用者(操作者1)の発話を効率的に、素早く応答させることができる。また、実行する電子機器の能力(CPUやメモリ等)に応じて、先読みや事前処理を行う量を調整することができる。しかも、データが比較的小さな単位でまとまるため非力な電子機器でも搭載・実行可能となる。さらに、会話が発散しても、適切な応答内容を、当該発話内容の属性を示す属性情報を元に検索して得られる。
 従って、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。
 本発明の態様2に係るデータ構造は、上記態様1において、属性情報は、発話内容からさらに想定される応答内容を特定するためのキーワードでであってもよい。
 上記の構成によれば、発話内容を考慮した適切な応答内容を含むデータを取得することができるので、会話が発散しても、より適切な応答内容により会話を継続させることができる。
 本発明の態様3に係るデータ構造は、上記態様1または2において、さらに、上記発話内容に対して会話が成り立つ応答内容(Mean)に関連した発話内容(Speak)が登録された別データ構造(A2.DML等)を指定するデータ構造指定情報(Link To:A2. DML等)が含まれていてもよい。
 上記の構成によれば、対話用データの先読みを可能とするため、高い処理能力を必要とせず、対話処理を行うことができる。
 本発明の態様4に係るデータ構造は、上記態様1~3の何れか1態様において、上記発話内容に対して会話が成り立つ応答内容(Mean)は、音声データで登録されていてもよい。
 上記の構成によれば、応答内要が音声データで登録されていることで、テキストデータから音声データに変換する処理が不要となるため、テキストデータから音声データに変換するのに必要な処理能力を必要としないので、さらに処理能力の高くないCPUによって対話処理を行うことができる。
 本発明の態様5に係る音声対話装置は、使用者(操作者1)と音声対話を行う音声対話装置(音声対話システム101、201)であって、使用者が発する音声を解析して発話内容(Speak)を特定する発話内容特定部(話題管理装置4)と、上記発話内容特定部が特定した発話内容に対して会話が成り立つ応答内容(Return)を、予め登録された対話用のデータ(A1. DML,A2. DML等)から取得する応答内容取得部(話題取得装置5)と、上記応答内容取得部が取得した応答内容を、音声データとして出力する音声データ出力部(話題管理装置4、音声合成装置9、音波出力装置10)と、を備え、上記対話用のデータのデータ構造は、前記態様1~4の何れか1態様に記載のデータ構造であることを特徴としている。
 上記の構成によれば、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。
 本発明の態様6に係る音声対話装置は、上記の態様5において、上記対話用のデータをファイルとして登録する記憶装置(ファイルシステム7)が設けられていてもよい。
 上記構成によれば、装置内部に対話用のデータをファイルとして登録する記憶装置(ファイルシステム7)が設けられていることで、発話内容に対する応答を迅速に処理することが可能となる。
 本発明の態様7に係る音声対話装置は、上記の態様5または6において、上記内容取得部は、ネットワークを介して上記音声対話装置外部から上記対話用のデータを取得するようにしてもよい。
 上記の構成によれば、対話用データを記憶する記憶装置を自装置内に設ける必要がなくなるので、電子機器自体の小型化を可能にする。
 本発明の態様8に係る音声対話装置は、上記の態様5~7の何れか1態様において、使用者が発する音声を取得した時点からの経過時間を計測するタイマ(11)をさらに備え、上記音声データ出力部は、音声データを出力する直前の上記タイマによる計測時間を取得し、上記計測時間が予め設定した時間以上と判定した場合、上記計測時間の判定直後に音声データを出力し、上記計測時間が予め設定した時間よりも短いと判定した場合、当該計測時間が当該予め設定した時間に達した時点で、音声データを出力するようにしてもよい。
 上記構成によれば、音波出力までの時間をタイマによって調整可能であるため、使用者に対して適切なタイミングで応答することが可能となる。これにより、違和感のないテンポのよい会話を行うことができる。
 本発明の態様9に係る電子機器は、上記の態様5~8の何れか1態様の音声対話装置を備えていることを特徴としている。
 上記高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 本発明は、音声対話を機器の操作のみならず、一般的な会話まで行うことを想定した電子機器に利用することができ、特に家電に好適に利用することができる。
 1 操作者(使用者)、2 集音装置、3 音声認識装置、4 話題管理装置、5 話題取得装置、6 一時保存装置、7 ファイルシステム、8 通信装置、9 音声合成装置、10 音波出力装置、11 タイマ、101、201音声対話システム(音声対話装置)、A1~A6 対話用データ(音声対話に用いられるデータ)

Claims (9)

  1.  音声対話装置の音声対話に用いられるデータのデータ構造であって、
     少なくとも、使用者に対して発話する発話内容と、当該発話内容に対して会話が成り立つ応答内容と、当該発話内容の属性を示す属性情報とを一つのセットとしたことを特徴とするデータ構造。
  2.  上記属性情報は、上記発話内容からさらに想定される応答内容を特定するためのキーワードであることを特徴とする請求項1に記載のデータ構造。
  3.  さらに、上記発話内容に対して会話が成り立つ応答内容に関連した発話内容が登録された別データ構造を指定するデータ構造指定情報が含まれていることを特徴とする請求項1または2に記載のデータ構造。
  4.  上記発話内容に対して会話が成り立つ応答内容は、音声データで登録されていることを特徴とする請求項1~3の何れか1項に記載のデータ構造。
  5.  使用者と音声対話を行う音声対話装置であって、
     使用者が発する音声を解析して発話内容を特定する発話内容特定部と、
     上記発話内容特定部が特定した発話内容に対して会話が成り立つ応答内容を、予め登録された対話用のデータから取得する応答内容取得部と、
     上記応答内容取得部が取得した応答内容を、音声データとして出力する音声データ出力部と、を備え、
     上記対話用のデータのデータ構造は、請求項1~4の何れか1項に記載のデータ構造であることを特徴とする音声対話装置。
  6.  上記対話用のデータをファイルとして登録する記憶装置が設けられていることを特徴とする請求項5に記載の音声対話装置。
  7.  上記応答内容取得部は、ネットワークを介して上記音声対話装置外部から上記対話用のデータを取得することを特徴とする請求項5または6に記載の音声対話装置。
  8.  使用者が発する音声を取得した時点からの経過時間を計測するタイマをさらに備え、
     上記音声データ出力部は、
     音声データを出力する直前の上記タイマによる計測時間を取得し、
     上記計測時間が予め設定した時間以上と判定した場合、上記計測時間の判定直後に音声データを出力し、
     上記計測時間が予め設定した時間よりも短いと判定した場合、当該計測時間が当該予め設定した時間に達した時点で、音声データを出力することを特徴とする請求項5~7の何れか1項に記載の音声対話装置。
  9.  請求項5~8の何れか1項に記載の音声対話装置を備えた電子機器。
PCT/JP2015/078633 2014-08-20 2015-10-08 データ構造、音声対話装置及び電子機器 WO2016027909A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/328,169 US20170221481A1 (en) 2014-08-20 2015-10-08 Data structure, interactive voice response device, and electronic device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-167856 2014-08-20
JP2014167856A JP6448950B2 (ja) 2014-08-20 2014-08-20 音声対話装置及び電子機器

Publications (2)

Publication Number Publication Date
WO2016027909A1 true WO2016027909A1 (ja) 2016-02-25
WO2016027909A8 WO2016027909A8 (ja) 2016-04-14

Family

ID=55350847

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/078633 WO2016027909A1 (ja) 2014-08-20 2015-10-08 データ構造、音声対話装置及び電子機器

Country Status (3)

Country Link
US (1) US20170221481A1 (ja)
JP (1) JP6448950B2 (ja)
WO (1) WO2016027909A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019219077A (ja) * 2018-06-15 2019-12-26 シャープ株式会社 空気調和機

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108369804A (zh) * 2015-12-07 2018-08-03 雅马哈株式会社 语音交互设备和语音交互方法
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
JP6690767B1 (ja) * 2019-09-30 2020-04-28 大日本印刷株式会社 対話シナリオのデータ構造、対話システム、サーバ装置、クライアント装置、及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2007017990A (ja) * 2006-07-20 2007-01-25 Denso Corp 単語列認識装置
JP2010152119A (ja) * 2008-12-25 2010-07-08 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792993A (ja) * 1993-09-20 1995-04-07 Fujitsu Ltd 音声認識装置
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US7487085B2 (en) * 2004-08-24 2009-02-03 International Business Machines Corporation Method and system of building a grammar rule with baseforms generated dynamically from user utterances
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7949526B2 (en) * 2007-06-04 2011-05-24 Microsoft Corporation Voice aware demographic personalization
US8374859B2 (en) * 2008-08-20 2013-02-12 Universal Entertainment Corporation Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US20130211841A1 (en) * 2012-02-15 2013-08-15 Fluential, Llc Multi-Dimensional Interactions and Recall
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
JP6126870B2 (ja) * 2013-03-01 2017-05-10 本田技研工業株式会社 音声対話システム及び音声対話方法
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2007017990A (ja) * 2006-07-20 2007-01-25 Denso Corp 単語列認識装置
JP2010152119A (ja) * 2008-12-25 2010-07-08 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019219077A (ja) * 2018-06-15 2019-12-26 シャープ株式会社 空気調和機

Also Published As

Publication number Publication date
JP6448950B2 (ja) 2019-01-09
JP2016045253A (ja) 2016-04-04
WO2016027909A8 (ja) 2016-04-14
US20170221481A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
US11361768B2 (en) Utterance classifier
KR102098136B1 (ko) 응답을 제공하기 위한 디바이스 선택
AU2013252518B2 (en) Embedded system for construction of small footprint speech recognition with user-definable constraints
CN102292766B (zh) 用于语音处理的方法和装置
US20210241768A1 (en) Portable audio device with voice capabilities
KR20170103925A (ko) 일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN102543071A (zh) 用于移动设备的语音识别系统和方法
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
JP2015135494A (ja) 音声認識方法及び装置
WO2016027909A1 (ja) データ構造、音声対話装置及び電子機器
JP2013164515A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CN103514882B (zh) 一种语音识别方法及系统
JP6549009B2 (ja) 通信端末及び音声認識システム
US9218807B2 (en) Calibration of a speech recognition engine using validated text
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN108010518B (zh) 一种语音交互设备的语音采集方法、系统及存储介质
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
CN103824560A (zh) 中文语音识别系统
CN109243424A (zh) 一种一键语音翻译终端及翻译方法
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
KR102181583B1 (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15833600

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15328169

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15833600

Country of ref document: EP

Kind code of ref document: A1