WO2019107145A1 - 情報処理装置、及び情報処理方法 - Google Patents

情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
WO2019107145A1
WO2019107145A1 PCT/JP2018/042058 JP2018042058W WO2019107145A1 WO 2019107145 A1 WO2019107145 A1 WO 2019107145A1 JP 2018042058 W JP2018042058 W JP 2018042058W WO 2019107145 A1 WO2019107145 A1 WO 2019107145A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
utterance
result
execution
speech
Prior art date
Application number
PCT/JP2018/042058
Other languages
English (en)
French (fr)
Inventor
真里 斎藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/765,438 priority Critical patent/US20200327890A1/en
Publication of WO2019107145A1 publication Critical patent/WO2019107145A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present technology relates to an information processing apparatus and an information processing method, and more particularly to an information processing apparatus and an information processing method capable of performing an appropriate response when an interruption utterance occurs.
  • speech dialog systems that make responses in accordance with user's speech have begun to be used in various fields.
  • the speech dialogue system is required not only to recognize the speech of the user's speech but also to estimate the intention of the user's speech and to make an appropriate response.
  • Patent Document 1 when two or more interrupt information interrupts occur in duplicate, an interrupt having a larger priority value according to the priority set for the two or more interrupt information It is disclosed that information is output with priority.
  • the user's motion information is recognized from speech signal, head movement, direction of sight line, input data of facial expression, and time information, and based on the result of the recognition, a speech right It is disclosed that the computer determines whether it is in the computer or the user, and generates a response from the computer according to the location of the right to speak.
  • the present technology has been made in view of such a situation, and is intended to be able to perform an appropriate response when an interrupting speech occurs.
  • An information processing apparatus includes a control unit that controls presentation of a response to a first utterance based on the content of a second utterance temporally after the first utterance by the user. It is an information processing apparatus.
  • the information processing device performs the information processing method based on the content of a second utterance that is temporally later than a first utterance by a user. It is an information processing method which controls presentation of a response to the 1st utterance.
  • a response to the first utterance is presented based on the content of the second utterance temporally after the first utterance by the user. It is controlled.
  • the information processing apparatus may be an independent apparatus or an internal block constituting one apparatus.
  • an appropriate response can be made when an interrupting speech occurs.
  • FIG. 1 is a block diagram showing an example of the configuration of a voice dialogue system to which the present technology is applied.
  • the voice dialogue system 1 includes a terminal device 10 installed on the local side such as a user's home and a server 20 installed on the cloud side such as a data center. In the voice dialogue system 1, the terminal device 10 and the server 20 are mutually connected via the Internet 30.
  • the terminal device 10 is a device connectable to a network such as a home LAN (Local Area Network), and executes processing for realizing a function as a user interface of the voice interaction service.
  • a network such as a home LAN (Local Area Network)
  • LAN Local Area Network
  • the terminal device 10 is also referred to as a home agent (agent), and has functions such as playback of music and voice operation on devices such as lighting fixtures and air conditioning facilities in addition to voice dialogue with the user.
  • agent home agent
  • the terminal device 10 is configured as an electronic device such as a speaker (so-called smart speaker), a game machine, a mobile device such as a smartphone, a tablet computer, or a television receiver. You may do so.
  • a speaker so-called smart speaker
  • a game machine such as a game machine
  • a mobile device such as a smartphone, a tablet computer, or a television receiver. You may do so.
  • the terminal device 10 can provide (a user interface of) a voice interactive service to the user by cooperating with the server 20 via the Internet 30.
  • the terminal device 10 picks up the voice (user's speech) emitted from the user, and transmits the voice data to the server 20 via the Internet 30.
  • the terminal device 10 receives the processing data transmitted from the server 20 via the Internet 30, and presents information such as an image or sound according to the processing data.
  • the server 20 is a server that provides a cloud-based voice interaction service, and executes processing for realizing the voice interaction function.
  • the server 20 executes processing such as voice recognition processing and semantic analysis processing based on voice data transmitted from the terminal device 10 via the Internet 30, and processing data corresponding to the processing result is transmitted to the Internet. 30 to the terminal device 10.
  • FIG. 1 shows a configuration in which one terminal device 10 and one server 20 are provided, a plurality of terminal devices 10 are provided, and data from each terminal device 10 is concentrated by the server 20. It may be processed in the same manner. Further, for example, one or more servers 20 may be provided for each function such as speech recognition and semantic analysis.
  • FIG. 2 is a block diagram showing an example of a functional configuration of the voice dialogue system 1 shown in FIG.
  • the voice dialogue system 1 includes a camera 101, a microphone 102, a user recognition unit 103, a voice recognition unit 104, a meaning analysis unit 105, a request execution unit 106, a presentation method control unit 107, a display control unit 108, and an utterance generation unit. And 109, a display device 110, and a speaker 111.
  • the voice dialogue system 1 has a database such as the user DB 131 and the like.
  • the camera 101 has an image sensor, and supplies image data obtained by imaging a subject such as a user to the user recognition unit 103.
  • the microphone 102 supplies voice data obtained by converting a voice uttered by the user into an electrical signal to the voice recognition unit 104.
  • the user recognition unit 103 executes user recognition processing based on the image data supplied from the camera 101, and supplies the result of the user recognition to the semantic analysis unit 105.
  • image data is analyzed to detect (recognize) a user who is around the terminal device 10. Further, in the user recognition process, for example, the direction of the user's line of sight or the direction of the face may be detected using the result of the image analysis.
  • the speech recognition unit 104 executes speech recognition processing based on the speech data supplied from the microphone 102, and supplies the result of the speech recognition to the semantic analysis unit 105.
  • a process of converting voice data from the microphone 102 into text data is executed by referring to a database for voice-to-text conversion as appropriate.
  • the semantic analysis unit 105 executes semantic analysis processing based on the result of speech recognition supplied from the speech recognition unit 104, and supplies the result of the semantic analysis to the request execution unit 106.
  • semantic analysis process for example, a process of converting the result (text data) of speech recognition that is a natural language into a representation that can be understood by a machine (system) is executed by referring to a database etc. for understanding speech language as appropriate. Be done.
  • the meaning of the utterance is expressed in the form of "Intent” that the user wants to execute and "Entity" as its parameter.
  • the user information recorded in the user DB 131 is referred to as appropriate, and the information on the target user is reflected in the result of the semantic analysis. You may do so.
  • the request execution unit 106 executes a process according to the user's request (hereinafter, also referred to as a request handling process) based on the result of the semantic analysis supplied from the semantic analysis unit 105, and shows the result of the execution as a presentation method
  • the control unit 107 is supplied.
  • the user information recorded in the user DB 131 can be referred to as appropriate, and the information on the target user can be applied.
  • the presentation method control unit 107 executes a presentation method control process based on the result of execution supplied from the request execution unit 106, and based on the process result, at least one of the display control unit 108 and the speech generation unit 109. Control the presentation method (output modal presentation). The details of the presentation method control process will be described later with reference to FIGS. 3 to 8.
  • the display control unit 108 executes display control processing under the control of the presentation method control unit 107, and displays (presents) information (system response) such as an image or text on the display device 110.
  • the display device 110 is configured, for example, as a projector, and projects a screen including information such as an image or text on a wall surface or a floor surface.
  • the display device 110 may be configured by a display such as a liquid crystal display or an organic EL display.
  • the speech generation unit 109 executes speech generation processing (for example, speech synthesis processing (TTS: Text to Speech) etc.), and response speech (system response) obtained as a result of speech generation is generated. ) Is output from the speaker 111.
  • the speaker may output music such as BGM other than voice.
  • the database such as the user DB 131 is recorded in a recording unit such as a hard disk or a semiconductor memory.
  • the user DB 131 stores user information on the user.
  • user information for example, personal information such as name, age, gender, etc., usage history information such as system functions and applications, and characteristic information such as habit or tendency of speech of the user It can contain any information.
  • the voice dialogue system 1 is configured as described above.
  • the user recognition unit 103 and the voice recognition unit 104 have other functions.
  • the semantic analysis unit 105, the request execution unit 106, the presentation method control unit 107, the display control unit 108, and the speech generation unit 109 can be incorporated into the server 20 on the cloud side.
  • the presentation method control process for example, based on one of the presentation methods (A) to (E) shown below, the result of execution of processing (request response processing) according to the user's request is presented based on one presentation method. Be done.
  • the user's previous user's speech “searching for the movie currently doing” and the user's speech (interrupted speech) after “tell the movie doing today” are , Has been performed continuously during the reception period.
  • a list of screening schedules of today's movies is presented (displayed) in the display area 201 by the display device 110.
  • a response voice “It's a movie being screened today is here” is presented (output).
  • the user can receive a desired presentation conforming to the intention of his / her own speech even when the subsequent user's speech (interrupted speech) having the same content is given to the previous user's speech.
  • the example which put processing into one is shown when the intention becomes equivalent by the user utterance after and after, it is not restricted to it, for example, the tip to the user utterance before. If the process has already been executed and the result of the execution is being presented first, the execution of the subsequent process on the later user's speech may be canceled (the presentation may be canceled) or the like. The point is that the same process may not be repeatedly performed if the intentions of the user's utterance are the same or later, and the method of realization is arbitrary.
  • a list of screening schedules of today's Japanese films is presented (displayed) in the display area 201 by the display device 110, and the speaker 111 A response voice that is a Japanese picture is presented (output).
  • the user receives a desired presentation conforming to his / her intention even when the user's speech (condition that is lacking) is added to the previous user's speech in the later user's speech (interrupted speech) be able to.
  • (C) Third Presentation Method In the third presentation method of (C) described above, when some conditions are changed by the later user's utterance with respect to the earlier user's utterance, A part of the content is changed to the content of the later user utterance, and the result of execution of the request handling process according to the request is presented.
  • the user's previous user's utterance “search for a restaurant serving Japanese food in the neighborhood” and the user's utterance after "after all in Chinese” (interrupted utterance) are within the reception period. It is done continuously.
  • Intent "restaurant search”
  • Entity "neighboring”
  • Japanese food is obtained as a result of the semantic analysis for the previous user utterance, and the semantic analysis for the subsequent user utterance is obtained.
  • Entity "Chinese” is obtained.
  • Entity "Japanese food”
  • Entity "Chinese”
  • the display device 110 presents (displays) a list of Chinese restaurants in the vicinity on the display area 201, and the speakers 111 indicate "It is a Chinese restaurant in the neighborhood".
  • the response voice which is is presented (output).
  • the user can receive a desired presentation in line with the intention of his / her speech even when the condition is changed by the later user's speech (interrupted speech) with respect to the previous user's speech.
  • (D) Fourth presentation method In the above-described fourth presentation method of (D), when the later user's utterance is performed for the earlier user's utterance, the intention of the utterance is different. In response to the user's utterance and the user's utterance after, the request handling process according to the request is individually executed, and the result of the execution is presented respectively.
  • the voice dialogue system 1 it is possible to determine that the former user speech and the latter user speech are completely different intentions based on the result of the semantic analysis. Then, in the voice dialogue system 1, the request handling process according to the request is individually executed for the previous user utterance and the subsequent user utterance.
  • the speech dialog system executes processing (preceding request handling processing) according to the request by the previous user utterance.
  • processing post-request handling processing
  • the result of the execution of the prior request handling process and the result of the execution of the late request handling process are presented.
  • a list of screening schedules of today's movies is presented (displayed) in the display area 201 by the display device 110, and the speaker 111 The movie is here. The weather for tomorrow is fine. A response voice is presented (output).
  • the user can receive a desired presentation conforming to his / her intention of the user even when the user's utterance after the user's utterance (interrupted speech) after the intention is different.
  • an example of the multimodal interface using the image display by the display device 110 and the audio output by the speaker 111 as a method of presenting the result of execution of the front request handling process and the result of execution of the post request handling process Although other user interfaces may be employed.
  • the display area 201 displayed by the display device 110 is vertically divided into two, and the upper stage shows the result of execution of the prior request handling process (for example, a list of movie show schedules etc.)
  • the result of the execution of the post-request handling process for example, the weather forecast for tomorrow etc.
  • a sound corresponding to the result of the execution of the front request handling process and a sound according to the result of the execution of the rear request handling process may be output from the speaker 111 in order.
  • the result of the execution of the front request handling process and the result of the execution of the rear request handling process may be presented by different devices. More specifically, for example, while presenting the result of the execution of the front request handling process by the terminal device 10, the result of the execution of the rear request handling process is carried out by the portable device (for example, a smartphone etc.) possessed by the user. Can be presented. At that time, the user interface (modal) used in one device and the user interface (modal) used in the other device may use the same modal or may use different modals.
  • the subsequent user utterance is not an interrupting utterance. Only the process (preceding request handling process) according to the request by the previous user utterance is executed, and the result of the execution is presented. That is, in this case, the process according to the request by the later user utterance (post-request handling process) is not executed, and the later user utterance is ignored.
  • the voice dialogue system 1 It considers that the user's speech is not an interruption speech and ignores the later user's speech.
  • the result of speech recognition or the result of semantic analysis for the later user's speech can be obtained by user recognition processing for a captured image
  • the determination can be made based on information such as the face direction or the line of sight of the user (for example, line-of-sight information indicating whether the line of sight of the user who is speaking is facing the direction of another user).
  • line-of-sight information indicating whether the line of sight of the user who is speaking is facing the direction of another user.
  • a recipe for lunch may be proposed.
  • the voice interaction system 1 executes the prior request handling process according to the request by the previous user utterance, and Make the results of the run presented.
  • a list of screening schedules of today's movies is presented (displayed) in the display area 201 by the display device 110.
  • the response voice “it's the movie you are doing here is here” is presented (output).
  • the user can receive a desired presentation in line with his / her intention even when the user's utterance after the previous user's utterance is not the interrupting utterance.
  • examples of image display by the display device 110 and multimodal interface (modal of visual and auditory) using audio output by the speaker 111 are shown.
  • modalities such as a sense of touch by vibration of a device (for example, a smartphone or a wearable device) worn by the user.
  • a device for example, a smartphone or a wearable device
  • the result of execution of the request handling process by each user utterance is presented by the image display by the display device 110. It is also good.
  • the process mentioned above assumes the utterance which arises by the completion of execution of a request, for example, even if it takes a long time until the result of execution is provided, such as processing takes several days, the above-mentioned process Can be applied as well. In that case, since the possibility that the user has forgotten his / her request content is also assumed, the processing for the interrupted content may be performed while presenting the previous request content to the side user.
  • the presentation method is controlled appropriately by controlling the presentation method according to the situation at the time of interruption and the content of the utterance. Response can be made.
  • the system operates as intended for those utterances.
  • presentation methods (A) to (E) described above are examples, and as the other presentation methods, for example, the presentation methods as shown below can be used.
  • Request handling processing can be performed to present the results of that execution.
  • the utterances of the subsequent user are integrated into one, and the request according to the request is integrated. It is possible to present the result of the execution of the response process.
  • the content of the later user utterance is added to the content of the earlier user utterance by the second presentation method, or a part of the content of the earlier user utterance by the third presentation method, It can also be changed to the content of the later user utterance.
  • the request handling process can be executed as another request, and the result of the execution can be presented.
  • the front request handling process and the rear request handling process are individually executed,
  • the result of the execution of the pre-request processing can be presented to a device near a certain user, and the result of the execution of the post-request processing can be presented to a device near another user.
  • the voice dialogue system 1 is based on information such as user information in addition to the result of the semantic analysis. We adopt the result of one semantic analysis.
  • an inconsistent operation request is made by recording the execution rate of the past request, the operation history of the system, and the like for each user as user information in the user DB 131, for example.
  • a request can be selected according to the result of the prediction.
  • a user whose operation request should be prioritized may be set and registered on an operation request of a user who is closer to the system such as the terminal device 10 or in advance on a setting screen or the like. Further, the user who adopts the operation request may be switched according to the time zone such as morning or night.
  • the display device 110 presents (displays) the set temperature (changed from 26 ° C. to 24 ° C.) of the air conditioner in the living room to the display area 201.
  • the response voice which is "temperature lowered” is presented (output).
  • the other user who made the subsequent user utterance has a stronger voice right here, The operation request of is adopted to lower the set temperature of the air conditioner.
  • the voice dialogue system 1 may ask the user to perform a screen display or voice output such as “which way?”.
  • transition is made to a mode in which it is determined whether the user having the determination right is to adopt the user utterance of the former user utterance or the later user utterance.
  • the operation request by the user's utterance may be adopted.
  • the user's priority or behavior may be changed for each application such as a search application or a device operation application.
  • a search application it is possible to give priority to the speech of a certain user, but in the device operation application, it is possible to set such that the speech of another user is prioritized.
  • the terminal device 10 is installed locally at a user's home or the like, and is assumed to be used by various users such as being used not only by one user but by a plurality of users such as family members. By personalizing the presentation timing of the result of execution of the request handling process for each user, the result of execution can be presented more appropriately.
  • the timing until presenting the result of execution is delayed, or the threshold for detecting the end of speech is made longer.
  • such personalization is effective for the user who frequently makes rewords when changing a part of the content of the previous user's utterance to the content of the later user's utterance by the above-described third presentation method. It is.
  • the user speaks a single word "I wonder if this is true”, “Good morning”, and “I see”, but the following user's speech is "second like" Since (the later user's speech) is not a clear request and is not an interruption speech, processing for that is not performed.
  • the user has made a soliloquy which is "This or not” and “Good morning,” but the user's speech (which will be “tell me the second detail” that follows) Since the user's utterance can be said to be a clear request, a request handling process for the request is executed so that the result of the execution is presented.
  • the voice dialogue system for example, for a user who always rewords or says, or for which a filler (for example, “uh,” “oh,” etc.) is included, based on user information.
  • a filler for example, “uh,” “oh,” etc.
  • the speech dialog system 1 may be reworded accordingly.
  • the user who is frequently reworded is requested to search for the first user speech, and the second user speech is requested to search for the reworded user speech. ing.
  • the request handling process is executed for the search request by the user's speech, and the result of the execution is presented (outputted) by the response voice "searched for xx".
  • the voice dialogue system 1 executes request response processing for a request for retrieval by a later user utterance (speech for rewording), and the result of the execution is matched with the user's utterance utterance, “yes, additional Presented (outputted) by the response voice which is "searched for xx".
  • a request for a search for the previous user speech is made.
  • the voice dialogue system 1 executes request response processing for the request for rewording search, and the result of the execution is matched with the user's rewording utterance. "Is presented (output) by the response voice which is”. "
  • the information for personalization mentioned above (for example, information such as remarks etc. such as rewords etc.) can be recorded on user DB131 as user information for every user.
  • the speech dialog system 1 detects the rewording start position based on the user information. Then, the voice interaction system 1 suspends the presentation of the result of the execution of the prior request handling process for the request by the user's utterance based on the detected start position of the reword, or the result of the execution of the prior request handling process , It can be changed and presented as the result of execution of post-request handling processing.
  • the user When executing the execution result presentation process at the time of the interruption speech, the user performs the previous user's speech, and in the voice dialogue system 1, the speech recognition process and the semantic analysis process for the previous user's speech are performed. It is assumed that the result (Intent, Entity) of the semantic analysis of the user's speech of is obtained. Further, it is assumed that the first user speech and the second user speech are uttered by the same user.
  • step S101 the speech recognition unit 104 determines whether or not a later user utterance has been input with respect to the previous user utterance during the acceptance period.
  • step S101 If it is determined in step S101 that a subsequent user utterance is not input with respect to the previous user utterance in the reception period, the interrupting utterance is not performed, and the determination process of step S101 is repeated.
  • step S101 If it is determined in step S101 that a subsequent user utterance has been input with respect to the previous user utterance within the acceptance period, the process proceeds to step S102.
  • step S102 the voice recognition unit 104 executes voice recognition processing based on voice data obtained by collecting the subsequent user utterance.
  • step S103 the semantic analysis unit 105 executes semantic analysis processing based on the result of speech recognition obtained in the processing of step S102.
  • the result Intent, Entity
  • the semantic analysis unit 105 executes semantic analysis processing based on the result of speech recognition obtained in the processing of step S102.
  • step S104 the request execution unit 106 determines the intention of the previous user utterance based on the acquired result of the semantic analysis of the previous user utterance and the result of the semantic analysis of the user utterance obtained in the process of step S103. And it is determined whether the intention of the later user's speech is equivalent (substantially the same).
  • step S104 If it is determined in step S104 that the intention of the previous user utterance is equal to the intention of the subsequent user utterance, the process proceeds to step S105.
  • step S105 the request execution unit 106 executes processing (equivalent request handling processing) according to a request obtained by integrating the intention of the previous user utterance and the intention of the subsequent user utterance.
  • step S106 the presentation method control unit 107 presents the result of execution of the equivalence request handling process obtained in the process of step S105.
  • steps S105 and S106 even if the result of the speech recognition is different between the last and the last user utterances according to the above-mentioned first presentation method, the result of the semantic analysis is equal between the first and second user utterances ( When they become substantially the same, the former user speech and the latter user speech are integrated into one so that similar responses are not presented multiple times.
  • the previous process for the previous user utterance and the subsequent process for the later user utterance are combined into one process, or the previous process has already been performed.
  • the process is being executed, only the result of the execution of one process is presented by canceling the subsequent process, and therefore, it is possible to suppress the execution of a plurality of processes corresponding to the same request. be able to.
  • the subsequent process may be canceled as well.
  • the screening schedule confirmation processing is performed based on the request obtained by integrating them.
  • the presentation method control unit 107 controls the display control unit 108 or the speech generation unit 109 so that the result of execution of the process is presented by the display device 110 or the speaker 111.
  • the display device 110 presents (displays) a list of screening schedules on the display area 201 under the control of the display control unit 108.
  • the speaker 111 presents (outputs) a response voice that is “a movie that is currently being screened is here” under the control of the speech generation unit 109.
  • step S104 when it is determined in step S104 that the intention of the previous user utterance and the intention of the subsequent user utterance are not equal, the process proceeds to step S107.
  • step S107 the request execution unit 106 determines whether or not there is an addition or change of the condition with respect to the content of the previous user's utterance based on the content of the later user's utterance.
  • step S107 If it is determined in step S107 that there is an additional condition with respect to the content of the previous user utterance based on the content of the subsequent user utterance, the process proceeds to step S108.
  • step S108 the request execution unit 106 executes processing (addition request processing) according to the request obtained by adding the content (conditions) of the subsequent user utterance to the content of the previous user utterance.
  • step S108 When the process of step S108 ends, the process proceeds to step S106.
  • the presentation method control unit 107 presents the result of execution of the addition request handling process obtained in the process of step S108.
  • the display device 110 presents a list of the Japanese movie screening schedules in the display area 201, and the speaker 111 responds to the response voice of "It is a Japanese movie you are doing now". Will be presented.
  • the previous process for the previous user utterance is already executed, and if the result of the execution is being presented first, the later user utterance For example, additional processing obtained as a result of the execution may be presented following the information currently presented.
  • step S107 When it is determined in step S107 that there is a change in the condition with respect to the content of the previous user utterance based on the content of the later user utterance, the process proceeds to step S109.
  • step S109 request execution unit 106 executes a process (change request handling process) according to a request obtained by changing a part of the content of the previous user utterance according to the content (condition) of the subsequent user utterance. .
  • step S109 When the process of step S109 ends, the process proceeds to step S106.
  • step S106 the presentation method control unit 107 presents the result of execution of the change request handling process obtained in the process of step S109.
  • steps S109 and S106 when there is a change in the condition due to the later user's utterance with respect to the former user's utterance by the above-mentioned third presentation method, a part of the content of the earlier user's utterance is , Change the content of the user's speech (information to be changed) later, so that the result of more accurate execution is presented.
  • display device 110 presents a list of Chinese restaurants in the vicinity on display area 201, and speaker 111 presents a response voice indicating "It is a Chinese restaurant in the neighborhood". Be done.
  • the section where the response speech is good For example, after the output of the response speech is interrupted at a punctuation mark position, etc., the result of the execution of the subsequent process on the previous user speech changed by the later user speech is presented (the response speech is output), etc. May be
  • step S107 when it is determined that the addition and the change of the condition are not performed on the content of the previous user utterance according to the content of the later user utterance, the process proceeds to step S110.
  • step S110 the request execution unit 106 considers that the subsequent user utterance is not an interrupt utterance and ignores it, and executes processing (request processing without interrupt request) according to the request obtained from the content of the previous user utterance.
  • step S110 When the process of step S110 ends, the process proceeds to step S106.
  • step S106 the presentation method control unit 107 presents the result of execution of the no-interrupt request handling process obtained in the process of step S110.
  • step S106 When the process of step S106 ends, the execution result presentation process at the time of the interrupt utterance ends.
  • the later user's speech is an interruption speech temporarily and the semantic analysis of the previous user's speech and the user's speech after that is not clearly specified. If it is determined that the result of the is completely different, the first request handling process and the second request handling process are respectively executed to present the results of the execution (for example, FIG. 6 described above).
  • the previous user's speech is performed by a certain user, and the speech dialogue system 1 executes speech recognition processing and semantic analysis processing for the previous user's speech It is assumed that the result (Intent, Entity) of the previous user speech semantic analysis is obtained.
  • steps S201 to S203 as in steps S101 to S103 of FIG. 9, when the later user's utterance is input to the previous user's utterance during the reception period, the subsequent user's utterance is collected and obtained. Speech recognition processing and semantic analysis processing are executed on the basis of the voice data to be processed.
  • step S204 the semantic analysis unit 105 determines whether the preceding user utterance and the subsequent user utterance are the same user utterance.
  • step S204 If it is determined in step S204 that the speech is from the same user, the process proceeds to step S104 in FIG. 9 described above.
  • step S204 If it is determined in step S204 that the utterance is not the same user, the process proceeds to step S205.
  • the user who performs the first user speech and the user who performs the second user speech are different.
  • a user who makes a subsequent user speech is referred to as another user, and is distinguished from a user who makes a previous user speech.
  • step S205 as in step S104 of FIG. 9 described above, it is determined whether the intention of the previous user utterance and the intention of the subsequent user utterance are equal (approximately the same). If it is determined in step S205 that the intentions are equal, the process proceeds to step S206.
  • step S206 the request execution unit 106 determines whether the user who made the previous user utterance and the other user who made the subsequent user utterance are in the same place.
  • a process of determining whether the user is at the same place is performed.
  • step S206 If it is determined in step S206 that the user is at the same place, the process proceeds to step S207.
  • step S207 the request execution unit 106 executes processing (equivalent request handling processing) according to a request obtained by integrating the intention of the previous user utterance and the intention of the subsequent user utterance.
  • step S208 the presentation method control unit 107 presents the result of execution of the equivalence request handling process obtained in the process of step S207.
  • step S208 for example, as the process executed by the request execution unit 106, when the previous process is already being executed, the subsequent process is canceled or the like to respond to the same request. It is possible to suppress multiple executions of the process. Also, even if the previous process for the previous user utterance has already been executed and the result of the execution is being presented earlier, the subsequent process may be canceled as well.
  • step S206 If it is determined in step S206 that the user is not at the same place, the process proceeds to step S209.
  • step S209 the request execution unit 106 individually executes the processing according to the request by the previous user utterance (preceding request response processing) and the processing according to the later user utterance request (post request response processing). Do.
  • step S210 the presentation method control unit 107 presents the result of execution of the first request handling process obtained in the process of step S209 to a device (for example, the terminal device 10) near the user, and performs the second request handling process.
  • the result of the execution of is presented to a device (for example, a smartphone possessed by another user) near the other user.
  • the first request handling process and the second request handling process are respectively executed, and the results of the execution are presented to each user It is like that.
  • the pre-request response process and the post-request response process are collectively executed into one process, and the result of the execution of the process is near the user It may be presented on the device and on devices near other users.
  • step S205 when it is determined in step S205 that the intention of the preceding user utterance and the intention of the subsequent user utterance are not equal to each other, the process proceeds to step S211.
  • step S211 as in step S107 of FIG. 9 described above, it is determined whether or not there is an addition or change of the condition with respect to the content of the previous user utterance based on the content of the later user utterance.
  • step S211 If it is determined in step S211 that there is an additional condition with respect to the content of the previous user utterance based on the content of the subsequent user utterance, the process proceeds to step S212.
  • step S212 the request execution unit 106 executes processing (addition request processing) according to a request obtained by adding the content (conditions) of the subsequent user utterance to the content of the previous user utterance.
  • step S213 the presentation method control unit 107 obtains another device (for example, a smartphone possessed by another user) or the same device (for example, the same device (for example, the same device). , And continuously (or sequentially) on the terminal device 10).
  • another device for example, a smartphone possessed by another user
  • the same device for example, the same device (for example, the same device).
  • step S213 although the result of execution of the addition request handling process is presented continuously (or sequentially) with another device or the same device, for example, the previous process for the previous user's speech Is already executed, and if the result of the execution is being presented earlier, the later process is executed on the later user's speech, and the additional information obtained as a result of the execution is already presented information It can be presented in succession.
  • step S211 If it is determined in step S211 that the content of the subsequent user utterance has a change in the condition of the previous user utterance, the process proceeds to step S214.
  • step S214 request execution unit 106 executes a process (change request handling process) according to a request obtained by changing a part of the content of the previous user's utterance according to the content (conditions) of the subsequent user's utterance .
  • step S215 the presentation method control unit 107 causes another device near the other user who made the change request (for example, another device holds the result of the execution of the change request handling process obtained in the process of step S214). ) Or continuously (or sequentially) or in a split display with the same device (for example, the terminal device 10).
  • steps S214 and S215 similar to the processes of steps S109 and S106 of FIG. 9 described above, when there is a change in the condition due to the user's utterance after the user's utterance before, the user's utterance before the user's utterance The part of the content of () is changed to the content (information to be changed) of the later user's utterance so that the result of more accurate execution is presented (for example, the example of the presentation in FIG. 5 described above).
  • step S215 for example, when the previous process for the previous user utterance is already executed and the result of the execution is being presented earlier (while the response voice is being output), the response voice is completed. It is also possible to present the result of the execution of the subsequent processing on the previous user utterance changed by the subsequent user utterance (output a response voice).
  • step S211 when it is determined in step S211 that there is no addition or change of the condition with respect to the content of the previous user utterance, the process proceeds to step S216.
  • step S216 the request execution unit 106 considers that the subsequent user utterance is not an interruption utterance and ignores it, and executes processing (request processing without interruption request) corresponding to the request obtained from the content of the previous user utterance.
  • step S217 the presentation method control unit 107 presents the result of the execution of the no-interrupt request handling process obtained in the process of step S216.
  • the subsequent user's utterance is an utterance for another user and is ignored because it is not an utterance to the system. Be done. Then, the no-interrupt request handling process is executed, and the result of the process is presented (for example, the example of the presentation in FIG. 7 described above).
  • step S301 the microphone 102 receives the user's speech by converting the voice uttered by the user into voice data.
  • step S302 the speech recognition unit 104 performs speech recognition processing based on the speech data obtained in the process of step S301.
  • the speed of the user's speech is detected based on the speech data of the user's speech.
  • step S303 the speech recognition unit 104 sets an acceptance period of the interrupting speech based on the speed of the speech obtained in the process of step S302.
  • step S303 When the process of step S303 ends, the process returns to step S301, and the subsequent processes are repeated. That is, by repeating the processes of steps S301 to S303, the acceptance period of the interrupting speech is set sequentially according to the speed of the user's speech.
  • the acceptance period of the interrupt utterance set here is used as the determination condition of the process of step S101 of FIG. 9 described above or the process of step S201 of FIG.
  • the speed of speech varies depending on the user, such as a slow-speaking user or a fast-speaking user
  • the interruptions issued by various users by setting the reception period of the interruption speech according to the user's speech speed It becomes possible to respond to speech.
  • the acceptance period of the interruption speech may be set based on other parameters.
  • the camera 101, the microphone 102, the display device 110, and the speaker 111 are incorporated into the terminal device 10 on the local side, and the user recognition unit 103 to the speech generation unit 109 are on the cloud side.
  • the configuration incorporated in the server 20 has been described as an example, each of the camera 101 to the speaker 111 may be incorporated in either of the terminal device 10 and the server 20.
  • the cameras 101 to the speakers 111 may be incorporated in the terminal device 10 and the processing may be completed locally.
  • the database such as the user DB 131 can be managed by the server 20 on the Internet 30.
  • the speech recognition process performed by the speech recognition unit 104 and the semantic analysis process performed by the semantic analysis unit 105 may use speech recognition services and semantic analysis services provided by other services.
  • the server 20 can obtain voice recognition results by sending voice data to a voice recognition service provided on the Internet 30.
  • the server 20 it is possible to obtain the result (Intent, Entity) of the semantic analysis by sending data (text data) as a result of the speech recognition to the semantic analysis service provided on the Internet 30. .
  • the terminal device 10 and the server 20 can be configured as an information processing device including the computer 1000 of FIG. 12 described later.
  • the user recognition unit 103, the speech recognition unit 104, the semantic analysis unit 105, the request execution unit 106, the presentation method control unit 107, the display control unit 108, and the speech generation unit 109 are CPUs of the terminal device 10 or the server 20, for example. This is realized by executing a program recorded in a recording unit (for example, the ROM 1002 or the recording unit 1008 in FIG. 12 described later) by (the CPU 1001 in FIG. 12 described later).
  • a recording unit for example, the ROM 1002 or the recording unit 1008 in FIG. 12 described later
  • a communication I / F (for example, the communication in FIG. 12 described later) configured with a communication interface circuit or the like for the terminal device 10 and the server 20 to exchange data via the Internet 30. Parts 1009).
  • the terminal device 10 and the server 20 communicate via the Internet 30.
  • processing such as presentation method control processing is performed based on data from the terminal device 10 It can be carried out.
  • the terminal device 10 may be provided with an input unit (for example, an input unit 1006 in FIG. 12 described later) including, for example, a button and a keyboard so that an operation signal according to the user's operation can be obtained
  • the display device 110 for example, the output unit 1007 in FIG. 12 described later
  • the display device 110 is configured as a touch panel integrated with a touch sensor, and an operation signal according to an operation by a user's finger or a touch pen (stylus pen) is obtained. You may do so.
  • the display control part 108 shown in FIG. 2 all the functions are not provided as a function of the terminal device 10 or the server 20, but one part of all the functions is a terminal device.
  • the remaining functions may be provided as the functions of the server 20.
  • the rendering function may be the function of the terminal device 10 on the local side
  • the display layout function may be the function of the server 20 on the cloud side.
  • the input device such as the camera 101 or the microphone 102 is not limited to the terminal device 10 configured as a dedicated terminal or the like, and a mobile device (for example, a smartphone) possessed by the user And other electronic devices.
  • the output device such as the display device 110 or the speaker 111 may be another electronic device such as a mobile device (for example, a smartphone) possessed by the user. .
  • the configuration including the camera 101 having an image sensor is shown, but other sensor devices may be provided to perform sensing such as sensing of a user or its surroundings. Sensor data corresponding to the result may be acquired and used in the subsequent processing.
  • a biological sensor that detects biological information such as respiration, pulse, fingerprint, or iris
  • a magnetic sensor that detects the magnitude or direction of a magnetic field (magnetic field)
  • an acceleration sensor that detects acceleration
  • a gyro sensor that detects an attitude, an angular velocity, and an angular acceleration
  • a proximity sensor that detects an approaching object, and the like
  • the sensor device may be an electroencephalogram sensor attached to the head of the user and detecting an electroencephalogram by measuring an electric potential or the like. Further, the sensor device may be a sensor for measuring the surrounding environment such as a temperature sensor for detecting temperature, a humidity sensor for detecting humidity, an ambient light sensor for detecting ambient brightness, or GPS (Global Positioning System) A sensor may be included to detect position information, such as signals).
  • a temperature sensor for detecting temperature
  • a humidity sensor for detecting humidity
  • an ambient light sensor for detecting ambient brightness
  • GPS Global Positioning System
  • a sensor may be included to detect position information, such as signals).
  • the number of interruption speech is not limited to one, and two or more interruption speech lines are performed.
  • the above-described present technology can be applied to the case of That is, for example, when two interruption utterances are made by the same or different users as the later user utterances with respect to the first user utterances, if the intentions of those three utterances are equivalent, the above-described first These three utterances may be integrated into one according to the presentation method of, and the result of execution of the request handling process according to the request may be presented.
  • FIG. 12 is a block diagram showing an example of a hardware configuration of a computer that executes the series of processes described above according to a program.
  • a central processing unit (CPU) 1001, a read only memory (ROM) 1002, and a random access memory (RAM) 1003 are mutually connected by a bus 1004.
  • An input / output interface 1005 is further connected to the bus 1004.
  • An input unit 1006, an output unit 1007, a recording unit 1008, a communication unit 1009, and a drive 1010 are connected to the input / output interface 1005.
  • the input unit 1006 includes a microphone, a keyboard, a mouse, and the like.
  • the output unit 1007 includes a speaker, a display, and the like.
  • the recording unit 1008 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 1009 includes a network interface or the like.
  • the drive 1010 drives a removable recording medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 1001 loads the program stored in the ROM 1002 or the recording unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004, and executes the program. A series of processing is performed.
  • the program executed by the computer 1000 can be provided by being recorded on, for example, a removable recording medium 1011 as a package medium or the like. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 1008 via the input / output interface 1005 by attaching the removable recording medium 1011 to the drive 1010. Also, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the recording unit 1008. In addition, the program can be installed in advance in the ROM 1002 or the recording unit 1008.
  • the processing performed by the computer according to the program does not necessarily have to be performed chronologically in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or separately (for example, parallel processing or processing by an object). Further, the program may be processed by one computer (processor) or may be distributed and processed by a plurality of computers.
  • each step of the execution result presentation process shown in FIG. 9 or FIG. 10 can be shared and executed by a plurality of devices in addition to being executed by one device. Furthermore, in the case where a plurality of processes are included in one step, the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
  • the present technology can be configured as follows.
  • An information processing apparatus comprising: a control unit configured to control presentation of a response to the first utterance based on content of a second utterance temporally after the first utterance by the user.
  • the control unit presents, as the response, the result of the execution based on the user's request specified by the relationship between the content of the first utterance and the content of the second utterance. Information processor as described.
  • the control unit integrates and obtains the intention of the first speech and the intention of the second speech.
  • the information processing apparatus according to (2) which presents the result of the execution based on the requested request.
  • the control unit is configured to add the content of the second utterance to the content of the first utterance when the addition to the content of the first utterance is performed according to the content of the second utterance.
  • the information processing apparatus according to (2) which presents the result of the execution based on the requested request.
  • the control unit changes a part of the content of the first utterance according to the content of the second utterance, the part of the content of the first utterance is the content of the second utterance
  • the information processing apparatus according to (2) which presents the result of the execution based on the request obtained by being changed.
  • the control unit determines that the result of the first execution is based on a first request obtained from the content of the first utterance.
  • the information processing apparatus according to (2) which respectively presents a result of a second execution based on a second request obtained from the content of the second utterance.
  • the control unit presents the result of execution based on a request obtained from the content of the first utterance. apparatus.
  • the control unit presents only the result of the execution of the first process when the first process on the first utterance is already being executed or the result of the execution of the first process is being presented.
  • the information processing apparatus according to (3).
  • the control unit continues the presentation of the result of the execution of the first process when the first process for the first utterance is already being performed or the result of the execution of the first process is being presented.
  • the information processing apparatus according to (4) wherein a result of execution of a second process on the second utterance is presented.
  • the control unit suspends the presentation of the result of the execution of the first process when the first process for the first utterance is already being performed or the result of the execution of the first process is being presented.
  • the information processing apparatus according to (5), which presents the result of execution of the second process on the second utterance after waiting for the completion of the presentation.
  • the first utterance is made by a first user, The information processing apparatus according to any one of (1) to (10), wherein the second utterance is performed by a second user different from the first user. (12) The information processing apparatus according to (11), wherein the control unit presents the result of the execution based on user information including characteristics of each user. (13) When the content of the first utterance and the content of the second utterance are contradictory requests, the control unit selects one of the requests based on past history information, The information processing apparatus according to (12), which presents a result of execution based on the request. (14) The information processing apparatus according to any one of (2) to (13), wherein the control unit presents the result of the execution by at least one of the first presentation unit and the second presentation unit. .
  • the information processing apparatus according to (14), wherein the first presentation unit and the second presentation unit are provided on the same device or different devices.
  • the first presentation unit is a display device, The information processing apparatus according to (14) or (15), wherein the second presentation unit is a speaker.
  • the second speech is made after the first speech has been made and is performed within a predetermined period according to the speed of the user's speech according to any one of (2) to (16).
  • Information processing device. The system further comprises an execution unit that executes a predetermined process according to the user's request, The information processing apparatus according to any one of (2) to (17), wherein the control unit presents, as the response, a result of execution of a predetermined process performed by the execution unit.
  • a voice recognition unit that performs voice recognition processing based on voice data of the user's speech;
  • the information processing apparatus according to any one of (2) to (18), further comprising: a semantic analysis unit that performs semantic analysis processing based on a result of speech recognition obtained by the speech recognition processing.
  • a semantic analysis unit that performs semantic analysis processing based on a result of speech recognition obtained by the speech recognition processing.
  • the information processing apparatus An information processing method, comprising: controlling a presentation of a response to a first utterance based on contents of a second utterance temporally after a first utterance by a user.
  • Reference Signs List 1 voice dialogue system 10 terminal devices, 20 servers, 30 Internet, 101 cameras, 102 microphones, 103 user recognition units, 104 speech recognition units, 105 semantic analysis units, 106 request execution units, 107 presentation method control units, 108 display controls Unit, 109 utterance generation unit, 110 display device, 111 speaker, 131 user DB, 1000 computer, 1001 CPU

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、割り込み発話の発生時に、適切な応答を行うことができるようにする情報処理装置、及び情報処理方法に関する。 ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、第1の発話に対する応答の提示を制御する制御部を備える情報処理装置が提供されることで、ユーザとシステムとの対話に際して、ユーザの発話に対する割り込み発話の発生時に、システムが、適切な応答を行うことができるようになる。本技術は、例えば、音声対話システムに適用することができる。

Description

情報処理装置、及び情報処理方法
 本技術は、情報処理装置、及び情報処理方法に関し、特に、割り込み発話の発生時に、適切な応答を行うことができるようにした情報処理装置、及び情報処理方法に関する。
 近年、ユーザの発話に応じた応答を行う音声対話システムが、様々な分野で利用されはじめている。音声対話システムでは、ユーザの発話の音声を認識するだけでなく、ユーザの発話の意図を推定して、適切な応答を行うことが求められる。
 また、ユーザによって、ある発話がなされた場合に、他の発話が割り込む場面が想定され、このような割り込み発話に対して、システム側では、適切な動作が行われるようにする必要がある。
 例えば、特許文献1には、2つ以上の割り込み情報の割り込みが重複して発生したときに、当該2つ以上の割り込み情報に対して設定された優先度に従って、より優先度の値が大きい割り込み情報を優先して出力するものが開示されている。
 また、例えば、特許文献2には、音声信号、頭の動き、視線の方向、表情の入力データと、時間情報とから、ユーザの動作情報を認識して、その認識の結果に基づき、発話権が、コンピュータとユーザのどちらにあるかを判定し、発話権の所在に応じてコンピュータ側からの応答を生成するものが開示されている。
特開2013-29977号公報 特開平9-269889号公報
 しかしながら、上述した特許文献1や特許文献2に開示されているような、割り込み情報に対する優先度や発話権の判定では、ユーザとシステムとの対話の状況によっては、割り込み発話の発生時に、システム側で、適切な応答が行われない可能性がある。
 本技術はこのような状況に鑑みてなされたものであり、割り込み発話の発生時に、適切な応答を行うことができるようにするものである。
 本技術の一側面の情報処理装置は、ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、前記第1の発話に対する応答の提示を制御する制御部を備える情報処理装置である。
 本技術の一側面の情報処理方法は、情報処理装置の情報処理方法において、前記情報処理装置が、ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、前記第1の発話に対する応答の提示を制御する情報処理方法である。
 本技術の一側面の情報処理装置、及び情報処理方法においては、ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、前記第1の発話に対する応答の提示が制御される。
 本技術の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
 本技術の一側面によれば、割り込み発話の発生時に、適切な応答を行うことができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した音声対話システムの構成の例を示すブロック図である。 音声対話システムの機能的構成の例を示すブロック図である。 実行の結果の提示の第1の例を示す図である。 実行の結果の提示の第2の例を示す図である。 実行の結果の提示の第3の例を示す図である。 実行の結果の提示の第4の例を示す図である。 実行の結果の提示の第5の例を示す図である。 実行の結果の提示の第6の例を示す図である。 割り込み発話時の実行結果提示処理の流れを説明するフローチャートである。 他のユーザ割り込み発話時の実行結果提示処理の流れを説明するフローチャートである。 受付期間設定処理の流れを説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.本技術の実施の形態
2.変形例
3.コンピュータの構成
<1.本技術の実施の形態>
(音声対話システムの構成例)
 図1は、本技術を適用した音声対話システムの構成の例を示すブロック図である。
 音声対話システム1は、ユーザ宅等のローカル側に設置される端末装置10と、データセンタ等のクラウド側に設置されるサーバ20とから構成される。音声対話システム1において、端末装置10とサーバ20とは、インターネット30を介して相互に接続されている。
 端末装置10は、家庭内LAN(Local Area Network)等のネットワークに接続可能な機器であって、音声対話サービスのユーザインターフェースとしての機能を実現するための処理を実行する。
 例えば、端末装置10は、ホームエージェント(エージェント)などとも称され、ユーザとの音声対話のほか、音楽の再生や、照明器具や空調設備などの機器に対する音声操作などの機能を有している。
 なお、端末装置10は、専用の端末として構成されるほか、例えば、スピーカ(いわゆるスマートスピーカ)やゲーム機、スマートフォン等のモバイル機器、タブレット型のコンピュータ、テレビ受像機等の電子機器として構成されるようにしてもよい。
 端末装置10は、インターネット30を介してサーバ20と連携することで、ユーザに対し、音声対話サービス(のユーザインターフェース)を提供することができる。
 例えば、端末装置10は、ユーザから発せられた音声(ユーザ発話)を収音し、その音声データを、インターネット30を介して、サーバ20に送信する。また、端末装置10は、インターネット30を介してサーバ20から送信されてくる処理データを受信し、その処理データに応じた画像や音声などの情報を提示する。
 サーバ20は、クラウドベースの音声対話サービスを提供するサーバであって、音声対話機能を実現するための処理を実行する。
 例えば、サーバ20は、インターネット30を介して端末装置10から送信されてくる音声データに基づき、音声認識処理や意味解析処理などの処理を実行し、その処理の結果に応じた処理データを、インターネット30を介して端末装置10に送信する。
 なお、図1においては、端末装置10とサーバ20とが1つずつ設けられた構成を示しているが、複数の端末装置10が設けられ、各端末装置10からのデータが、サーバ20により集中的に処理されるようにしてもよい。また、例えば、音声認識や意味解析等の機能ごとに、1又は複数のサーバ20が設けられるようにしてもよい。
(音声対話システムの機能的構成例)
 図2は、図1に示した音声対話システム1の機能的構成の例を示すブロック図である。
 図2において、音声対話システム1は、カメラ101、マイクロフォン102、ユーザ認識部103、音声認識部104、意味解析部105、依頼実行部106、提示方法制御部107、表示制御部108、発話生成部109、表示デバイス110、及びスピーカ111から構成される。また、音声対話システム1は、ユーザDB131等のデータベースを有している。
 カメラ101は、イメージセンサを有し、ユーザ等の被写体を撮像して得られる画像データを、ユーザ認識部103に供給する。
 マイクロフォン102は、ユーザが発した声を電気信号に変換して得られる音声データを、音声認識部104に供給する。
 ユーザ認識部103は、カメラ101から供給される画像データに基づいて、ユーザ認識処理を実行し、そのユーザ認識の結果を、意味解析部105に供給する。
 このユーザ認識処理では、画像データを解析し、端末装置10の周りにいるユーザを検出(認識)する。また、ユーザ認識処理では、画像解析の結果を用い、例えば、ユーザの視線の方向や顔の向きなどを検出するようにしてもよい。
 音声認識部104は、マイクロフォン102から供給される音声データに基づいて、音声認識処理を実行し、その音声認識の結果を、意味解析部105に供給する。
 この音声認識処理では、例えば、音声テキスト変換用のデータベース等を適宜参照することで、マイクロフォン102からの音声データを、テキストデータに変換する処理が実行される。
 意味解析部105は、音声認識部104から供給される音声認識の結果に基づいて、意味解析処理を実行し、その意味解析の結果を、依頼実行部106に供給する。
 この意味解析処理では、例えば、音声言語理解用のデータベース等を適宜参照することで、自然言語である音声認識の結果(テキストデータ)を、機械(システム)が理解できる表現に変換する処理が実行される。ここでは、例えば、意味解析の結果として、ユーザが実行させたい「意図(Intent)」と、そのパラメータとなる「実体情報(Entity)」の形で、発話の意味が表現される。
 なお、意味解析処理では、ユーザ認識部103から供給されるユーザ認識の結果に基づき、ユーザDB131に記録されているユーザ情報を適宜参照し、対象のユーザに関する情報を、意味解析の結果に反映させるようにしてもよい。
 依頼実行部106は、意味解析部105から供給される意味解析の結果に基づいて、ユーザの依頼に応じた処理(以下、依頼対応処理ともいう)を実行し、その実行の結果を、提示方法制御部107に供給する。
 この依頼対応処理では、ユーザ認識部103から供給されるユーザ認識の結果に基づき、ユーザDB131に記録されているユーザ情報を適宜参照し、対象のユーザに関する情報を適用することができる。
 提示方法制御部107は、依頼実行部106から供給される実行の結果に基づいて、提示方法制御処理を実行し、その処理の結果に基づき、表示制御部108及び発話生成部109の少なくとも一方の提示方法(出力モーダルの提示)を制御する。なお、この提示方法制御処理の詳細は、図3乃至図8を参照して後述する。
 表示制御部108は、提示方法制御部107からの制御に従い、表示制御処理を実行し、画像やテキスト等の情報(システム応答)を、表示デバイス110により表示(提示)する。
 表示デバイス110は、例えばプロジェクタとして構成され、画像やテキスト等の情報を含む画面を、壁面や床面などに投影する。なお、表示デバイス110は、液晶ディスプレイや有機ELディスプレイ等のディスプレイにより構成されるようにしてもよい。
 発話生成部109は、提示方法制御部107からの制御に従い、発話生成処理(例えば、音声合成処理(TTS:Text To Speech)等)を実行し、その発話生成の結果得られる応答音声(システム応答)を、スピーカ111から出力する。なお、スピーカは、音声のほか、BGMなどの音楽を出力してもよい。
 ユーザDB131等のデータベースは、ハードディスクや半導体メモリ等の記録部に記録されている。ユーザDB131は、ユーザに関するユーザ情報を記録している。ここで、ユーザ情報としては、例えば、名前や年齢、性別などの個人情報のほか、システムの機能やアプリケーション等の使用履歴情報、ユーザの発話時の癖や発話傾向などの特性情報など、ユーザに関するあらゆる情報を含めることができる。
 音声対話システム1は、以上のように構成される。
 なお、図2の音声対話システム1において、カメラ101乃至スピーカ111を、端末装置10(図1)と、サーバ20(図1)のどちらの機器に組み込むかは、任意であるが、例えば、次のような構成とすることができる。
 すなわち、ユーザインターフェースとして機能する、カメラ101、マイクロフォン102、表示デバイス110、及びスピーカ111を、ローカル側の端末装置10に組み込む一方で、それ以外の機能となる、ユーザ認識部103、音声認識部104、意味解析部105、依頼実行部106、提示方法制御部107、表示制御部108、及び発話生成部109を、クラウド側のサーバ20に組み込むことができる。
(提示方法制御処理)
 次に、提示方法制御部107によって実行される提示方法制御処理の詳細な内容について説明する。
 提示方法制御処理では、例えば、下記に示した(A)乃至(E)の提示方法のうち、1つの提示方法に基づき、ユーザの依頼に応じた処理(依頼対応処理)の実行の結果が提示される。
(A)同等の意図の場合に、1つに統合した実行の結果を提示
(B)条件の追加がある場合に、追加の条件を加えた実行の結果を提示
(C)条件の変更がある場合に、一部の条件を変更した実行の結果を提示
(D)異なる意図の場合に、それぞれの実行の結果を提示
(E)システムに対する発話ではない場合に、割り込み発話ではないとみなして無視
 以下、図3乃至図8を参照して、上述した(A)乃至(E)の提示方法の詳細な内容を順に説明する。
(A)第1の提示方法
 上述の(A)の第1の提示方法では、先のユーザ発話と後のユーザ発話で、それらの発話の意図が同等(略同一)となる場合には、先後のユーザ発話を1つに統合して、その依頼に応じた依頼対応処理の実行の結果を提示する。
 ここで、例えば、ユーザとシステムとの対話として、図3に示すような、第1の対話が行われた場面を想定する。ただし、以下の説明では、対話における、ユーザの発話を、「U(User)」と表記し、ホームコンソールシステムの応答音声を、「S(System)」と表記する。
(第1の対話の例)

 U:「今やっている映画探して」
 U:「今日やっている映画を教えて」

 S:「今日上映している映画はこちらです」
 この第1の対話の例では、ユーザによって、「今やっている映画探して」である先のユーザ発話と、「今日やっている映画を教えて」である後のユーザ発話(割り込み発話)が、受付期間内に連続して行われている。
 このとき、音声対話システム1は、先のユーザ発話と後のユーザ発話とでは、音声認識の結果は異なるが、意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"又は"今日"が得られるため、その意図が、同等(略同一)であると判定することができる。
 そして、音声対話システム1では、先のユーザ発話(に対する先の処理)と、後のユーザ発話(に対する後の処理)とを1つに統合して、例えば、Intent = "上映スケジュール確認",Entity = "今日"である意味解析の結果に基づき、ユーザの依頼に応じた処理(同等依頼対応処理)を実行して、その実行の結果が提示されるようにする。
 これにより、図3に示すように、端末装置10においては、表示デバイス110によって、表示エリア201に、今日の映画(邦画と洋画を含む)の上映スケジュールの一覧が提示(表示)され、スピーカ111によって、「今日上映している映画はこちらです」である応答音声が提示(出力)される。その結果として、ユーザは、先のユーザ発話に対し、同等の内容となる後のユーザ発話(割り込み発話)を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。
 このように、音声対話システム1では、先のユーザ発話と後のユーザ発話の意味解析の結果が同等である場合に、処理を1つにまとめることで、同等の処理が複数回繰り返されないようにしている。
 仮に、このような場合に、処理を1つにまとめないと、同様の処理が複数回繰り返され、ユーザに対し、同一の上映スケジュールの一覧を繰り返して提示することになって、ユーザは、同じ情報を繰り返し確認するのを不快に感じてしまう恐れがある。また、同様の処理を繰り返すことは、システム側にとっても無駄である。
 なお、ここでは、説明の都合上、先後のユーザ発話で、その意図が同等となる場合に、処理を1つにまとめる例を示したが、それに限らず、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理の実行を中止(提示を中止)するなどとしてもよい。要は、先後のユーザ発話で、その意図が同等となる場合に、同様の処理が繰り返し実行されないようにすればよいのであって、その実現方法は、任意である。
(B)第2の提示方法
 上述の(B)の第2の提示方法では、先のユーザ発話に対し、後のユーザ発話によって条件が加えられる場合には、先のユーザ発話の内容に、後のユーザ発話の内容(条件)を追加して、その依頼に応じた依頼対応処理の実行の結果を提示する。
 ここで、例えば、ユーザとシステムとの対話として、図4に示すような、第2の対話が行われた場面を想定する。
(第2の対話の例)

 U:「今やっている映画探して」
 U:「邦画でお願い」

 S:「今やっている邦画です」
 この第2の対話の例では、ユーザによって、「今やっている映画探して」である先のユーザ発話と、「邦画でお願い」である後のユーザ発話(割り込み発話)が、受付期間内に連続して行われている。それに対し、音声対話システム1では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Entity = "邦画"が得られる。
 このとき、音声対話システム1は、意味解析の結果に基づき、後のユーザ発話の意味解析の結果(Entity = "邦画")が、先のユーザ発話の意味解析の結果(Intent = "上映スケジュール確認",Entity = "今")に加えるべき条件(不足している情報)であると判定することができる。
 そして、音声対話システム1では、先のユーザ発話の意味解析の結果に対し、後のユーザ発話の意味解析の結果を追加して、例えば、Intent = "上映スケジュール確認",Entity = "今","邦画"である意味解析の結果に基づき、ユーザの依頼に応じた処理(追加依頼対応処理)を実行して、その実行の結果が提示されるようにする。
 これにより、図4に示すように、端末装置10においては、表示デバイス110によって、表示エリア201に、今日の邦画の上映スケジュールの一覧が提示(表示)され、スピーカ111によって、「今やっている邦画です」である応答音声が提示(出力)される。その結果として、ユーザは、先のユーザ発話に対し、後のユーザ発話(割り込み発話)で条件(不足している情報)を加えた場合でも、自身の発話の意図に即した所望の提示を受けることができる。
 なお、ここでは、説明の都合上、先のユーザ発話の内容に、後のユーザ発話の内容(条件)を追加して処理を実行する例を示したが、それに限らず、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理を実行し、その実行の結果得られる追加分の情報を、先に提示中の情報に続けて提示するなどとしてもよい。
(C)第3の提示方法
 上述の(C)の第3の提示方法では、先のユーザ発話に対し、後のユーザ発話によって一部の条件が変更される場合には、先のユーザ発話の内容の一部を、後のユーザ発話の内容に変更して、その依頼に応じた依頼対応処理の実行の結果を提示する。
 ここで、例えば、ユーザとシステムとの対話として、図5に示すような、第3の対話が行われた場面を想定する。
(第3の対話の例)

 U:「近所の和食のレストラン探して」
 U:「やっぱり中華で」

 S:「近所の中華レストランです」
 この第3の対話の例では、ユーザによって、「近所の和食のレストラン探して」である先のユーザ発話と、「やっぱり中華で」である後のユーザ発話(割り込み発話)が、受付期間内に連続して行われている。それに対し、音声対話システム1では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "レストラン検索",Entity = "近所","和食"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Entity = "中華"が得られる。
 このとき、音声対話システム1は、意味解析の結果に基づき、後のユーザ発話の意味解析の結果(Entity = "中華")が、先のユーザ発話の意味解析の結果(Intent = "レストラン検索",Entity = "近所","和食")の一部を変更すべき条件(変更するための情報)であると判定することができる。
 そして、音声対話システム1では、先のユーザ発話の意味解析の結果の一部の情報を、後のユーザ発話の意味解析の結果により変更して、例えば、Intent = "レストラン検索",Entity = "近所","中華"である意味解析の結果に基づき、ユーザの依頼に応じた処理(変更依頼対応処理)を実行して、その実行の結果が提示されるようにする。
 なお、ここでは、先のユーザ発話の意味解析の結果において、Entity = "和食"が、後のユーザ発話の意味解析の結果によって、Entity = "中華"に変更され、変更依頼対応処理が実行されている。
 これにより、図5に示すように、端末装置10においては、表示デバイス110によって、表示エリア201に、近所の中華レストランの一覧が提示(表示)され、スピーカ111によって、「近所の中華レストランです」である応答音声が提示(出力)される。その結果として、ユーザは、先のユーザ発話に対し、後のユーザ発話(割り込み発話)で条件の変更を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。
 なお、ここでは、説明の都合上、先のユーザ発話の内容を、後のユーザ発話の内容(条件)により変更して処理を実行する例を示したが、それに限らず、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中(応答音声の出力中)である場合には、応答音声の区切りがよいところ(例えば、句読点の位置等)で、応答音声の出力を中断してから、後のユーザ発話により変更された先のユーザ発話に対する後の処理の実行の結果を提示するなどとしてもよい。
(D)第4の提示方法
 上述の(D)の第4の提示方法では、先のユーザ発話に対し、後のユーザ発話が行われたが、それらの発話の意図が異なる場合には、先のユーザ発話と後のユーザ発話に対し、それらの依頼に応じた依頼対応処理を個別に実行して、実行の結果をそれぞれ提示する。
 ここで、例えば、ユーザとシステムとの対話として、図6に示すような、第4の対話が行われた場面を想定する。
(第4の対話の例)

 U:「今やっている映画を探して」
 U:「明日の天気は?」

 S:「今やっている映画はこちらです 明日の天気は晴れです」
 この第4の対話の例では、ユーザによって、「今やっている映画を探して」である先のユーザ発話と、「明日の天気は?」である後のユーザ発話(割り込み発話)が、受付期間内に連続して行われている。それに対し、音声対話システム1では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Intent = "天気確認",Entity = "明日"が得られる。
 このとき、音声対話システム1では、意味解析の結果に基づき、先のユーザ発話と後のユーザ発話とでは、全く異なる意図であると判定することができる。そして、音声対話システム1では、先のユーザ発話と後のユーザ発話に対し、それらの依頼に応じた依頼対応処理を個別に実行する。
 例えば、音声対話システムは、Intent = "上映スケジュール確認",Entity = "今"である意味解析の結果に基づき、先のユーザ発話による依頼に応じた処理(先依頼対応処理)を実行するとともに、Intent = "天気確認",Entity = "明日"である意味解析の結果に基づき、後のユーザ発話による依頼に応じた処理(後依頼対応処理)を実行する。その結果として、先依頼対応処理の実行の結果と、後依頼対応処理の実行の結果とが、それぞれ提示される。
 これにより、図6に示すように、端末装置10においては、表示デバイス110によって、表示エリア201に、今日の映画の上映スケジュールの一覧が提示(表示)され、スピーカ111によって、「今やっている映画はこちらです 明日の天気は晴れです」である応答音声が提示(出力)される。その結果として、ユーザは、先のユーザ発話に対し、意図が異なる後のユーザ発話(割り込み発話)を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。
 なお、ここでは、先依頼対応処理の実行の結果と、後依頼対応処理の実行の結果の提示方法として、表示デバイス110による画像表示と、スピーカ111による音声出力を用いたマルチモーダル・インターフェースの例を示したが、他のユーザインターフェースを採用してもよい。
 より具体的には、例えば、表示デバイス110によって表示される表示エリア201を上下に2分割して、上段に、先依頼対応処理の実行の結果(例えば、映画の上映スケジュールの一覧等)を提示する一方で、下段に、後依頼対応処理の実行の結果(例えば、明日の天気予報等)を提示することができる。さらに、先依頼対応処理の実行の結果に応じた音声と、後依頼対応処理の実行の結果に応じた音声とが、スピーカ111から順に出力されるようにしてもよい。
 また、先依頼対応処理の実行の結果と、後依頼対応処理の実行の結果とが、異なる機器により提示されるようにしてもよい。より具体的には、例えば、先依頼対応処理の実行の結果を、端末装置10により提示する一方で、後依頼対応処理の実行の結果を、ユーザが所持する携帯装置(例えば、スマートフォン等)により提示することができる。その際に、一方の機器で用いられるユーザインターフェース(モーダル)と、他方の機器で用いられるユーザインターフェース(モーダル)は、同一のモーダルを用いてもよいし、異なるモーダルを用いてもよい。
(E)第5の提示方法
 上述の(E)の第5の提示方法では、先のユーザ発話に対し、後のユーザ発話が行われたが、後のユーザ発話が、割り込み発話ではない場合には、先のユーザ発話による依頼に応じた処理(先依頼対応処理)のみ実行して、その実行の結果を提示する。すなわち、この場合、後のユーザ発話による依頼に応じた処理(後依頼対応処理)は、未実行となって、後のユーザ発話は無視される。
 ここで、例えば、ユーザとシステムとの対話として、図7に示すような、第5の対話が行われた場面を想定する。
(第5の対話の例)

 U:「今やっている映画探して」
 U:「昼何食べようか?」

 S:「今やっている映画はこちらです」
 この第5の対話の例では、ユーザによって、「今やっている映画探して」である先のユーザ発話と、「昼何食べようか?」である後のユーザ発話が、受付期間内に連続して行われている。それに対し、音声対話システム1では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"が得られる。
 このとき、後のユーザ発話として、「昼何食べようか?」が行われているが、他のユーザに対する発話であって、システムに対して話しかけていないため、音声対話システム1は、後のユーザ発話が、割り込み発話ではないとみなして、後のユーザ発話を無視する。
 ここで、後のユーザ発話が、割り込み発話であるかどうかの判定方法としては、例えば、後のユーザ発話に対する音声認識の結果や意味解析の結果を用いるほか、撮像画像に対するユーザ認識処理により得られるユーザの顔向きや視線などの情報(例えば、発話中のユーザの視線が、他のユーザの方向を向いているかを示す視線情報等)に基づき、判定することができる。なお、同じ「昼何食べようか?」という発話に対し、システムに対する依頼であると解釈(判定)された場合には、例えば、昼ごはんのレシピを提案してもよい。
 そして、音声対話システム1は、例えば、Intent = "上映スケジュール確認",Entity = "今"である意味解析の結果に基づき、先のユーザ発話による依頼に応じた先依頼対応処理を実行し、その実行の結果が提示されるようにする。
 これにより、図7に示すように、端末装置10においては、表示デバイス110によって、表示エリア201に、今日の映画(邦画と洋画を含む)の上映スケジュールの一覧が提示(表示)され、スピーカ111によって、「今やっている映画はこちらです」である応答音声が提示(出力)される。その結果として、ユーザは、先のユーザ発話に対し、割り込み発話ではない後のユーザ発話を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。
 なお、上述した(A)乃至(D)の提示方法において、後のユーザ発話(割り込み発話)に対する後の処理(割り込み処理)を実行するに際して、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中(例えば、応答音声の出力中)である場合には、その提示(例えば、応答音声の出力)の区切りがよいところで(例えば、句読点の位置等の適切な切れ目まで発話してから)、後の処理(割り込み処理)の実行の結果が提示(例えば、応答音声の出力)されるようにすることができる。
 また、上述した(A)乃至(D)の提示方法において、後のユーザ発話(割り込み発話)に対する後の処理(割り込み処理)を実行するに際して、システム側で、後の処理の実行が完了するまでに時間がかかりそうであると判定した場合に(処理時間が許容時間を超える場合に)、あえて、後のユーザ発話を無視して、後の処理が実行されないようにしてもよい。
 さらに、上述した(A)乃至(D)の提示方法においては、表示デバイス110による画像表示と、スピーカ111による音声出力を用いたマルチモーダル・インターフェース(視覚と聴覚のモーダル)の例を示したが、例えば、ユーザが身につけている機器(例えば、スマートフォンやウェアラブル機器)が振動することによる触覚などの他のモーダルを用いるようにしてもよい。また、先のユーザ発話や後のユーザ発話など、複数のユーザ発話がなされた場合には、それぞれのユーザ発話による依頼対応処理の実行の結果を、表示デバイス110による画像表示によって提示するようにしてもよい。
 なお、上述した処理は、依頼の実行終了までに起きる発話を想定しているが、例えば、処理に数日かかるなど、実行の結果が提供されるまでに長時間を要する場合でも、上述した処理を同様に適用することができる。その場合に、ユーザが、自身の依頼内容を忘れている可能性も想定されるため、先の依頼内容をサイドユーザに提示しながら、割り込まれた内容に対する処理を行うようにしてもよい。
 以上のように、音声対話システム1では、上述した(A)乃至(E)の提示方法によって、割り込み発話の発生時に、割り込むときの状況や発話の内容によって、提示方法を制御することで、適切な応答を行うことができる。これにより、例えば、ユーザが、次々に発話を行ったとしても、それらの発話の意図通りに、システムが動作することになる。
(提示方法の他の例)
 上述した(A)乃至(E)の提示方法は一例であって、それ以外の提示方法としては、例えば、次に示すような提示方法を用いることができる。
(第1の他の例)
 上述した提示方法では、先のユーザ発話と後のユーザ発話が、同一のユーザによりなされた場合を説明したが、他のユーザによって、割り込み発話がなされた場合には、先のユーザ発話と後のユーザ発話とが異なるユーザにより発せされることになる。ここでは、そのような場面に対応した提示方法を説明する。
 ここで、あるユーザが、先のユーザ発話を行った場合に、他のユーザが、割り込み発話として後のユーザ発話を行ったとき、上述した(A)乃至(E)の提示方法と同様に、依頼対応処理を実行して、その実行の結果を提示することができる。
 より具体的には、例えば、第1の提示方法によって、先後のユーザ発話で、それらの発話の意図が同等となる場合に先後のユーザ発話を1つに統合して、その依頼に応じた依頼対応処理の実行の結果を提示することができる。また、例えば、第2の提示方法によって、先のユーザ発話の内容に、後のユーザ発話の内容を追加したり、あるいは、第3の提示方法によって、先のユーザ発話の内容の一部を、後のユーザ発話の内容に変更したりすることもできる。
 また、同じユーザ発話であっても、異なるユーザによってなされた場合には、別の依頼として、依頼対応処理を実行して、その実行の結果を提示することができる。例えば、先のユーザ発話を行ったあるユーザと、後のユーザ発話を行った他のユーザとが異なる場所にいる場合には、先依頼対応処理と、後依頼対応処理を個別に実行して、先依頼対応処理の実行の結果を、あるユーザの近くにある機器に提示し、後依頼対応処理の実行の結果を、他のユーザの近くにある機器に提示することができる。
 次に、例えば、ユーザとシステムとの対話として、図8に示すような、第6の対話が行われた場面を想定する。ただし、図8において、あるユーザの発話を、「U1」と表記する一方で、他のユーザの発話を、「U2」と表記して、区別している。
(第6の対話の例)

 U1:「温度上げて」
 U2:「温度下げて」

 S:「温度を下げました」
 この第6の対話の例では、あるユーザによる、「温度上げて」である先のユーザ発話と、他のユーザによる、「温度下げて」である後のユーザ発話(割り込み発話)が、受付期間内に連続して行われている。それに対し、音声対話システム1は、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "エアコン設定",Entity = "温度上げる"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Intent = "エアコン設定",Entity = "温度下げる"が得られる。
 このとき、先のユーザ発話と後のユーザ発話とでは、矛盾した操作依頼がなされているが、音声対話システム1は、意味解析の結果のほか、例えば、ユーザ情報等の情報に基づき、いずれか一方の意味解析の結果を採用する。
 ここでは、ユーザDB131に、ユーザ情報として、例えば、ユーザごとに、過去の依頼の実行率や、システムの操作履歴などを記録しておくことで、矛盾した操作依頼がなされたときに、過去の依頼の実行率の高い方のユーザの操作依頼を採用したり、あるいはシステムの使用歴の長い方のユーザの操作履歴を採用したりするなど、より発言権の強そうなユーザを予測して、その予測の結果に応じた依頼を選択することができる。
 なお、ここでは、例えば、端末装置10等のシステムのより近くにいるユーザの操作依頼や、あらかじめ設定画面などで、操作依頼を優先すべきユーザを設定登録しておくようにしてもよい。また、朝や夜等の時間帯に応じて、操作依頼を採用するユーザを切り替えるようにしてもよい。
 そして、音声対話システム1は、例えば、過去の依頼の実行率の高いユーザの操作依頼を採用して、Intent = "エアコン設定",Entity = "温度下げる"である意味解析の結果に基づき、ユーザの依頼に応じた処理を実行して、その実行の結果が提示されるようにする。
 これにより、図8に示すように、端末装置10においては、表示デバイス110によって、表示エリア201に、居間のエアコンの設定温度(26℃から24℃に変更)が提示(表示)され、スピーカ111によって、「温度を下げました」である応答音声が提示(出力)される。このように、複数のユーザによって、矛盾する操作依頼がなされた場合に、ここでは、後のユーザ発話(割り込み発話)を行った他のユーザの方が、発言権が強いので、他のユーザからの操作依頼を採用して、エアコンの設定温度を下げている。
 また、上述の例では、発言権が強い方のユーザからの操作依頼を採用する場合を示したが、「温度上げて」と「温度下げて」などの矛盾した依頼がなされた場合に、例えば、音声対話システム1が、「どちらにしますか?」などの画面表示や音声出力をすることで、ユーザに対し、聞き返すようにしてもよい。
 さらに、例えば、矛盾した発話がなされた場合に、決定権を持つユーザに、先のユーザ発話と後のユーザ発話のどちらのユーザ発話を採用するかを決定されるモードに遷移し、決定されたユーザ発話による操作依頼を採用するようにしてもよい。
 また、複数のユーザによる発話が混信した場合には、例えば、最初に発話をしたユーザなど、どのユーザの発話を採用するかを指定させるようにしてもよい。例えば、上述した図5の提示の例で、「近所の和食レストラン探して」である先のユーザ発話と、「やっぱり中華で」である後のユーザ発話とが、異なるユーザによりなされた場合に、「和食」と「中華」のどちらを採用すべきかを、入力操作や発話などによって、ユーザに指示してもらうことになる。
 なお、先のユーザ発話と後のユーザ発話とが、異なるユーザにより発せられる場合に、例えば、検索用アプリや機器操作アプリなどのアプリケーションごとに、ユーザの優先度や挙動を変えるようにしてもよい。例えば、検索用アプリでは、あるユーザの発話を優先するが、機器操作アプリでは、他のユーザの発話を優先するなどの設定を行うことが可能である。
(第2の他の例)
 端末装置10は、ユーザ宅等のローカル側に設置され、1人のユーザだけでなく、家族などの複数人のユーザによって使用されるなど、様々なユーザによって使用されることが想定されるため、ユーザごとに、依頼対応処理の実行の結果の提示タイミングを個人化することで、より適切に、実行の結果を提示することができる。
 例えば、一度発話をして、言い直しが多いユーザの場合には、実行の結果を提示するまでのタイミングを遅らせるか、あるいは、発話の終端検出の閾値を長めにとるようにする。特に、このような個人化は、上述した第3の提示方法によって、先のユーザ発話の内容の一部を、後のユーザ発話の内容に変更する場合に、言い直しが多いユーザに対して有効である。
 また、例えば、発話をした後に、独り言が多いユーザの場合には、先のユーザ発話に続く、後のユーザ発話が、割り込み発話ではない可能性が高いので、第2のユーザ発話として明確な依頼が入るとき以内は、後の処理を実行しないようにする。より具体的には、ユーザによって、以下のような独り言が指される場合が想定される。
(第1の独り言の例)

 U:「これかあ、いいなあ、なるほどね 2番目いいね」
 この第1の独り言の例では、ユーザによって、「これかあ」、「いいなあ」、及び「なるほどね」である独り言がなされているが、その後に続く「2番目いいね」であるユーザ発話(後のユーザ発話)は、明確な依頼ではなく、割り込み発話ではないので、それに対する処理は実行されないようにする。
(第2の独り言の例)

 U:「これかあ、いいなあ 2番の詳細教えて」
 この第2の独り言の例では、ユーザによって、「これかあ」、及び「いいなあ」である独り言がなされているが、その後に続く「2番の詳細教えて」であるユーザ発話(後のユーザ発話)は、明確な依頼であると言えるので、その依頼に対する依頼対応処理が実行され、実行の結果が提示されるようにする。
 このように、音声対話システム1では、ユーザ情報に基づき、例えば、いつも言い直したりや、言いよどんだり、あるいはフィラー(例えば、「えーと」、「あのー」など)が入ったりするユーザに対しては、発話の終わりの判別のタイミングを遅らせたりすることで、仮に、ユーザが、次々に発話を行ったとしても、それらの発話の意図通りに、システムを動作させることができる。
 また、言い直しが多いユーザに対しては、音声対話システム1も、それに合わせて言い直すようにしてもよい。
(第1のシステムの言い直しの例)

 S:「×××を検索しました  あっ、追加の××も検索しました」
 この第1のシステムの言い直しの例では、言い直しが多いユーザによって、先のユーザ発話として、検索の依頼がなされ、後のユーザ発話として、先のユーザ発話に対する言い直しの検索の依頼がなされている。
 このとき、音声対話システム1では、先のユーザ発話による検索の依頼に対する依頼対応処理を実行し、その実行の結果を、「×××を検索しました」である応答音声により提示(出力)する。また、音声対話システム1は、後のユーザ発話(言い直しの発話)による検索の依頼に対する依頼対応処理を実行し、その実行の結果を、ユーザの言い直し発話に合わせて、「あっ、追加の××も検索しました」である応答音声により提示(出力)する。
(第2のシステムの言い直しの例)

 S:「×××を検索しました  やっぱり、××だったんですね、こちらです」
 この第2のシステムの言い直しの例では、第1のシステムの言い直しの例と同様に、後のユーザ発話として、先のユーザ発話に対する言い直しの検索の依頼がなされている。このとき、音声対話システム1は、言い直しの検索の依頼に対する依頼対応処理を実行し、その実行の結果を、ユーザの言い直し発話に合わせて、「やっぱり、××だったんですね、こちらです」である応答音声により提示(出力)する。
 なお、上述した個人化するための情報(例えば、言い直しなどの言い方の癖などの情報)は、ユーザごとに、ユーザ情報として、ユーザDB131に記録しておくことができる。
 例えば、言い直しの多いユーザについて、あるタイミングで、言い直すときの言い方を、ユーザ情報として記録しておくことで、次回以降に、当該ユーザが、後のユーザ発話(言い直しの発話)として、その言い直すときの言い方をしたときに、音声対話システム1は、ユーザ情報に基づき、言い直しの開始位置を検出する。そして、音声対話システム1は、検出した言い直しの開始位置に基づき、先のユーザ発話による依頼に対する先依頼対応処理の実行の結果の提示を中断するか、あるいは先依頼対応処理の実行の結果を、後依頼対応処理の実行の結果に変更して提示することができる。
(第3の他の例)
 なお、音声対話システム1は、先のユーザ発話による依頼に対する先依頼対応処理の実行の結果の提示を開始している場合に、ユーザから、後のユーザ発話がなされたときに、その発話の内容(種類)に応じて、依頼の実行の仕方を変更するだけでなく、先依頼対応処理の実行の結果の提示を開始していない場合であっても、意味解析後の処理(先依頼対応処理)を実行中(開始後)であれば、上述した(A)乃至(E)の提示方法と同様の動作を実行することができる。
(実行結果提示処理の流れ)
 次に、図9のフローチャートを参照して、音声対話システム1により実行される、割り込み発話時の実行結果提示処理の流れを説明する。
 なお、この割り込み発話時の実行結果提示処理を実行するに際して、ユーザによって、先のユーザ発話が行われ、音声対話システム1では、先のユーザ発話に対する音声認識処理と意味解析処理が実行され、先のユーザ発話の意味解析の結果(Intent,Entity)が得られているものとする。また、先のユーザ発話と後のユーザ発話とは、同一のユーザにより発せられるものとする。
 ステップS101において、音声認識部104は、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されたかどうかを判定する。
 ステップS101において、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されていないと判定された場合、割り込み発話が行われていないため、ステップS101の判定処理が繰り返される。
 ステップS101において、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されたと判定された場合、処理は、ステップS102に進められる。
 ステップS102において、音声認識部104は、後のユーザ発話を収音して得られる音声データに基づいて、音声認識処理を実行する。
 ステップS103において、意味解析部105は、ステップS102の処理で得られる音声認識の結果に基づいて、意味解析処理を実行する。この意味解析処理によって、後のユーザ発話の意味解析の結果(Intent,Entity)が得られる。
 ステップS104において、依頼実行部106は、取得済みの先のユーザ発話の意味解析の結果と、ステップS103の処理で得られる後のユーザ発話の意味解析の結果に基づいて、先のユーザ発話の意図と、後のユーザ発話の意図とが同等(略同一)であるかどうかを判定する。
 ステップS104において、先のユーザ発話の意図と、後のユーザ発話の意図とが同等であると判定された場合、処理は、ステップS105に進められる。
 ステップS105において、依頼実行部106は、先のユーザ発話の意図と、後のユーザ発話の意図とを統合して得られる依頼に応じた処理(同等依頼対応処理)を実行する。
 ステップS106において、提示方法制御部107は、ステップS105の処理で得られる、同等依頼対応処理の実行の結果を提示する。
 すなわち、ステップS105,106の処理では、上述した第1の提示方法によって、先後のユーザ発話で、音声認識の結果が異なる場合であっても、先後のユーザ発話で、意味解析の結果が同等(略同一)となるときには、同じような応答が、複数回提示されないように、先のユーザ発話と、後のユーザ発話とが1つに統合されるようにする。
 ここでは、例えば、依頼実行部106により実行される処理として、先のユーザ発話に対する先の処理と、後のユーザ発話に対する後の処理とを1つの処理にまとめたり、あるいは、先の処理を既に実行中である場合には、後の処理を中止したりすることで、1つの処理の実行の結果のみが提示されるため、同等の依頼に応じた処理を複数実行してしまうのを抑制することができる。なお、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合にも、同様に後の処理を中止すればよい。
 例えば、上述の図3に示したように、「今やっている映画探して」である先のユーザ発話と、「今日やっている映画を教えて」である後のユーザ発話がなされた場合には、先後のユーザ発話で、意味解析の結果(Intent,Entity)が同等であると言えるので、それらを統合して得られる依頼に基づき、上映スケジュール確認処理が行われる。
 そして、提示方法制御部107は、表示制御部108又は発話生成部109を制御して、処理の実行の結果が、表示デバイス110又はスピーカ111により提示されるようにする。例えば、上述の図3に示したように、表示デバイス110は、表示制御部108からの制御に従い、表示エリア201に、上映スケジュールの一覧を提示(表示)する。また、例えば、スピーカ111は、発話生成部109からの制御に従い、「今上映している映画はこちらです」である応答音声を提示(出力)する。
 一方で、ステップS104において、先のユーザ発話の意図と、後のユーザ発話の意図とが同等ではないと判定された場合、処理は、ステップS107に進められる。
 ステップS107において、依頼実行部106は、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加又は変更があるかどうかを判定する。
 ステップS107において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加があると判定された場合、処理は、ステップS108に進められる。
 ステップS108において、依頼実行部106は、先のユーザ発話の内容に、後のユーザ発話の内容(条件)を追加して得られる依頼に応じた処理(追加依頼対応処理)を実行する。
 ステップS108の処理が終了すると、処理は、ステップS106に進められる。ステップS106において、提示方法制御部107は、ステップS108の処理で得られる、追加依頼対応処理の実行の結果を提示する。
 すなわち、ステップS108,106の処理では、上述した第2の提示方法によって、先のユーザ発話に対し、後のユーザ発話によって条件の追加がある場合には、先のユーザ発話の内容に、後の処理の内容(不足する情報)を加えて、より詳細な実行の結果が提示されるようにする。
 例えば、上述の図4に示したように、「今やっている映画探して」である先のユーザ発話と、「邦画でお願い」である後のユーザ発話がなされた場合には、先のユーザ発話の意味解析の結果(Intent = "上映スケジュール確認",Entity = "今")に対し、後のユーザ発話の意味解析の結果(Entity = "邦画")を追加して得られる依頼に基づき、上映スケジュール確認処理が行われる。
 これにより、提示方法制御部107からの制御に従い、表示デバイス110によって、表示エリア201に、邦画の上映スケジュールの一覧が提示され、スピーカ111によって、「今やっている邦画です」である応答音声が提示される。
 なお、ここでは、例えば、依頼実行部106により実行される処理として、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理を実行し、その実行の結果得られる追加分の情報を、先に提示中の情報に続けて提示するなどしてもよい。
 また、ステップS107において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の変更があると判定された場合、処理は、ステップS109に進められる。
 ステップS109において、依頼実行部106は、先のユーザ発話の内容の一部を、後のユーザ発話の内容(条件)により変更して得られる依頼に応じた処理(変更依頼対応処理)を実行する。
 ステップS109の処理が終了すると、処理は、ステップS106に進められる。ステップS106において、提示方法制御部107は、ステップS109の処理で得られる、変更依頼対応処理の実行の結果を提示する。
 すなわち、ステップS109,106の処理では、上述した第3の提示方法によって、先のユーザ発話に対し、後のユーザ発話によって条件の変更がある場合には、先のユーザ発話の内容の一部を、後のユーザ発話の内容(変更する情報)に変更して、より正確な実行の結果が提示されるようにする。
 例えば、上述の図5に示したように、「近所の和食レストラン探して」である先のユーザ発話と、「やっぱり中華で」である後のユーザ発話がなされた場合には、先のユーザ発話の意味解析の結果(Intent = "レストラン検索",Entity = "近所","和食")の一部である"和食"を、後のユーザ発話に対する意味解析の結果である"中華"に変更して得られる依頼に基づき、レストラン検索処理が実行される。
 これにより、提示方法制御部107からの制御に従い、表示デバイス110によって、表示エリア201に、近所の中華レストランの一覧が提示され、スピーカ111によって、「近所の中華レストランです」である応答音声が提示される。
 なお、ここでは、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中(応答音声の出力中)である場合には、応答音声の区切りがよいところ(例えば、句読点の位置等)で、応答音声の出力を中断してから、後のユーザ発話により変更された先のユーザ発話に対する後の処理の実行の結果を提示(応答音声を出力)するなどしてもよい。
 さらに、ステップS107において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加及び変更がないと判定された場合、処理は、ステップS110に進められる。
 ステップS110において、依頼実行部106は、後のユーザ発話が割り込み発話ではないとみなして無視し、先のユーザ発話の内容から得られる依頼に応じた処理(割り込みなし依頼対応処理)を実行する。
 ステップS110の処理が終了すると、処理は、ステップS106に進められる。ステップS106において、提示方法制御部107は、ステップS110の処理で得られる、割り込みなし依頼対応処理の実行の結果を提示する。
 すなわち、ステップS110,S106の処理では、上述した第5の提示方法によって、後のユーザ発話が、割り込み発話ではない場合には、先のユーザ発話による依頼のみに対する割り込みなし依頼対応処理を実行し、後のユーザ発話は無視する。
 例えば、上述の図7に示したように、「今やっている映画探して」である先のユーザ発話と、「昼何食べようか?」である後のユーザ発話がなされた場合に、後のユーザ発話は、他のユーザに対する発話であって、システムに話しかけたものではないため、割り込み発話ではないとみなして、後のユーザ発話を無視する。そして、先のユーザ発話の意味解析の結果(Intent = "上映スケジュール確認",Entity = "今")から得られる依頼に基づき、上映スケジュール確認処理が実行される。
 ステップS106の処理が終了すると、割り込み発話時の実行結果提示処理は、終了する。
 なお、特に明示はしていないが、図9に示した割り込み発話時の実行結果提示処理において、仮に、後のユーザ発話が割り込み発話であって、先のユーザ発話と後のユーザ発話の意味解析の結果が全く異なる意図であると判定された場合には、先依頼対応処理と後依頼対応処理をそれぞれ実行して、それらの実行の結果が提示されることになる(例えば、上述した図6の提示の例)。
 以上、割り込み発話時の実行結果提示処理の流れを説明した。
(他のユーザ割り込み発話時の実行結果提示処理の流れ)
 次に、図10のフローチャートを参照して、音声対話システム1により実行される、他のユーザ割り込み発話時の実行結果提示処理の流れを説明する。
 なお、他のユーザ割り込み発話時の実行結果提示処理を実行するに際して、あるユーザによって、先のユーザ発話が行われ、音声対話システム1では、先のユーザ発話に対する音声認識処理と意味解析処理が実行され、先のユーザ発話の意味解析の結果(Intent,Entity)が得られているものとする。
 ステップS201乃至S203においては、図9のステップS101乃至S103と同様に、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されたとき、後のユーザ発話を収音して得られる音声データに基づき、音声認識処理や意味解析処理が実行される。
 ステップS204において、意味解析部105は、先のユーザ発話と後のユーザ発話が、同一のユーザの発話であるかどうかを判定する。
 ステップS204において、同一のユーザの発話であると判定された場合、処理は、上述した図9のステップS104の処理に進められる。なお、図9のステップS104以降の処理として実行される、同一のユーザの発話に対する処理の説明は、繰り返しになるので省略する。
 また、ステップS204において、同一のユーザの発話ではないと判定された場合、処理は、ステップS205に進められる。以下の説明では、先のユーザ発話を行うユーザと、後のユーザ発話を行うユーザとは異なるものとして説明する。なお、以下、説明の便宜上、後のユーザ発話を行うユーザを、他のユーザと称して、先のユーザ発話を行うユーザと区別する。
 ステップS205においては、上述した図9のステップS104と同様に、先のユーザ発話の意図と、後のユーザ発話の意図とが同等(略同一)であるかどうかが判定される。ステップS205において、意図が同等であると判定された場合、処理は、ステップS206に進められる。
 ステップS206において、依頼実行部106は、先のユーザ発話を行ったユーザと、後のユーザ発話を行った他のユーザが、同一の場所にいるかどうかを判定する。ここでは、例えば、ユーザ認識処理の結果に基づき、ユーザが同一の場所にいるかどうかの判定処理が実行される。
 ステップS206において、ユーザが同一の場所にいると判定された場合、処理は、ステップS207に進められる。
 ステップS207において、依頼実行部106は、先のユーザ発話の意図と、後のユーザ発話の意図とを統合して得られる依頼に応じた処理(同等依頼対応処理)を実行する。
 ステップS208において、提示方法制御部107は、ステップS207の処理で得られる、同等依頼対応処理の実行の結果を提示する。
 すなわち、ステップS207,S208の処理では、上述した図9のステップS105,S106の処理と同様に、先のユーザ発話と後のユーザ発話が異なるユーザによりなされた場合でも、それらのユーザが同一の場所にいるため、先後のユーザ発話で、意味解析の結果が同等となるときには、同じような応答が複数回提示されないように、先のユーザ発話と、後のユーザ発話とを1つに統合して、その依頼に応じた実行の結果が提示されるようにしている(例えば、上述した図3の提示の例)。
 なお、ステップS208の処理では、例えば、依頼実行部106により実行される処理として、先の処理を既に実行中である場合には、後の処理を中止したりすることで、同等の依頼に応じた処理を複数実行してしまうのを抑制することができる。また、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合にも、同様に後の処理を中止すればよい。
 また、ステップS206において、ユーザが同一の場所にいないと判定された場合、処理は、ステップS209に進められる。
 ステップS209において、依頼実行部106は、先のユーザ発話による依頼に応じた処理(先依頼対応処理)と、後のユーザ発話による依頼に応じた処理(後依頼対応処理)を、個別にそれぞれ実行する。
 ステップS210において、提示方法制御部107は、ステップS209の処理で得られる、先依頼対応処理の実行の結果を、ユーザの近くにある機器(例えば、端末装置10)に提示し、後依頼対応処理の実行の結果を、他のユーザの近くにある機器(例えば、他のユーザが所持するスマートフォン)に提示する。
 すなわち、ステップS209,S210の処理では、発話を行ったユーザが異なる場所にいるため、先依頼対応処理と後依頼対応処理をそれぞれ実行し、その実行の結果が、各ユーザに対して提示されるようにしている。ただし、ここでは、先依頼対応処理と後依頼対応処理を1つの処理にまとめることが可能であれば、1つの処理にまとめて実行して、その処理の実行の結果が、ユーザの近くにある機器と、他のユーザの近くにある機器にそれぞれ提示されるようにしてもよい。
 一方で、ステップS205において、先のユーザ発話の意図と、後のユーザ発話の意図とが同等ではないと判定された場合、処理は、ステップS211に進められる。
 ステップS211においては、上述した図9のステップS107と同様に、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加又は変更があるかどうかが判定される。
 ステップS211において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加があると判定された場合、処理は、ステップS212に進められる。
 ステップS212において、依頼実行部106は、先のユーザ発話の内容に、後のユーザ発話の内容(条件)を追加して得られる依頼に応じた処理(追加依頼対応処理)を実行する。
 ステップS213において、提示方法制御部107は、ステップS212の処理で得られる、追加依頼対応処理の実行の結果を、別の機器(例えば、他のユーザが所持するスマートフォン)、又は同一の機器(例えば、端末装置10)で継続的(又は継時的)に提示する。
 すなわち、ステップS212,213の処理では、上述した図9のステップS108,S106の処理と同様に、先のユーザ発話の内容に、後の処理の内容(不足する情報)を加えて、より詳細な実行の結果が提示されるようにする(例えば、上述した図4の提示の例)。
 なお、ステップS213の処理では、追加依頼対応処理の実行の結果を、別の機器、又は同一の機器で継続的(又は継時的)に提示するが、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理を実行し、その実行の結果得られる追加分の情報を、先に提示中の情報に続けて提示することができる。
 また、ステップS211において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の変更があると判定された場合、処理は、ステップS214に進められる。
 ステップS214において、依頼実行部106は、先のユーザ発話の内容の一部を、後のユーザ発話の内容(条件)により変更して得られる依頼に応じた処理(変更依頼対応処理)を実行する。
 ステップS215において、提示方法制御部107は、ステップS214の処理で得られる、変更依頼対応処理の実行の結果を、変更依頼をした他のユーザの近くの別の機器(例えば、他のユーザが所持するスマートフォン)、又は同一の機器(例えば、端末装置10)で継続的(又は継時的)、若しくは分割表示で提示する。
 すなわち、ステップS214,S215の処理では、上述した図9のステップS109,S106の処理と同様に、先のユーザ発話に対し、後のユーザ発話によって条件の変更がある場合には、先のユーザ発話の内容の一部を、後のユーザ発話の内容(変更する情報)に変更して、より正確な実行の結果が提示されるようにする(例えば、上述した図5の提示の例)。
 なお、ステップS215の処理では、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中(応答音声の出力中)である場合には、応答音声を完結して、後のユーザ発話により変更された先のユーザ発話に対する後の処理の実行の結果を提示(応答音声を出力)するなどしてもよい。
 さらに、ステップS211において、先のユーザ発話の内容に対し、条件の追加及び変更がないと判定された場合、処理は、ステップS216に進められる。
 ステップS216において、依頼実行部106は、後のユーザ発話が割り込み発話ではないとみなして無視し、先のユーザ発話の内容から得られる依頼に応じた処理(割り込みなし依頼対応処理)を実行する。
 ステップS217において、提示方法制御部107は、ステップS216の処理で得られる、割り込みなし依頼対応処理の実行の結果を提示する。
 すなわち、ステップS216,S217の処理では、上述した図9のステップS110,S106の処理と同様に、後のユーザ発話が、他のユーザに対する発話であって、システムに話しかけたものではないために無視される。そして、割り込みなし依頼対応処理が実行され、その処理の結果が提示される(例えば、上述した図7の提示の例)。
 ステップS208,S210,S213,S215,又はS217の処理が終了すると、他のユーザ割り込み発話時の実行結果提示処理は、終了する。
 以上、他のユーザ割り込み発話時の実行結果提示処理の流れを説明した。
(受付期間設定処理の流れ)
 次に、図11のフローチャートを参照して、音声対話システム1により実行される、受付期間設定処理の流れを説明する。
 ステップS301において、マイクロフォン102は、ユーザが発した声を、音声データに変換することで、ユーザの発話を受け付ける。
 ステップS302において、音声認識部104は、ステップS301の処理で得られる音声データに基づいて、音声認識処理を行う。この音声認識処理では、ユーザの発話の音声データに基づき、ユーザの発話の速度が検出される。
 ステップS303において、音声認識部104は、ステップS302の処理で得られる発話の速度に基づいて、割り込み発話の受付期間を設定する。
 ステップS303の処理が終了すると、処理は、ステップS301に戻り、それ以降の処理が繰り返される。すなわち、ステップS301乃至S303の処理が繰り返されることで、逐次、ユーザの発話の速度に応じた割り込み発話の受付期間が設定される。
 そして、ここで設定される割り込み発話の受付期間が、上述した図9のステップS101の処理や、図10のステップS201の処理の判定条件として用いられる。例えば、ゆっくり話すユーザや、はやく話すユーザなど、発話の速度は、ユーザごとに異なるが、ユーザの発話の速度に応じて、割り込み発話の受付期間を設定することで、様々なユーザによって発せられる割り込み発話に対応することが可能となる。
 なお、ここでは、割り込み発話の受付期間が、ユーザの発話の速度に応じて設定される場合を例示したが、他のパラメータに基づき、割り込み発話の受付期間が設定されるようにしてもよい。
 以上、受付期間設定処理の流れを説明した。
<2.変形例>
 上述した説明では、音声対話システム1において、カメラ101、マイクロフォン102、表示デバイス110、及びスピーカ111が、ローカル側の端末装置10に組み込まれ、ユーザ認識部103乃至発話生成部109が、クラウド側のサーバ20に組み込まれる構成を一例として説明したが、カメラ101乃至スピーカ111のそれぞれは、端末装置10とサーバ20のうち、どちらの機器に組み込まれてもよい。
 例えば、カメラ101乃至スピーカ111のすべてが、端末装置10側に組み込まれ、ローカル側で処理が完結するようにしてもよい。ただし、このような構成を採用した場合でも、ユーザDB131等のデータベースは、インターネット30上のサーバ20が管理することができる。
 また、音声認識部104で行われる音声認識処理や、意味解析部105で行われる意味解析処理は、他のサービスで提供されている音声認識サービスや意味解析サービスを利用するようにしてもよい。この場合、例えば、サーバ20では、インターネット30上で提供される音声認識サービスに対し、音声データを送ることで、音声認識の結果を得ることができる。また、例えば、サーバ20では、インターネット30上で提供される意味解析サービスに対し、音声認識の結果のデータ(テキストデータ)を送ることで、意味解析の結果(Intent,Entity)を得ることができる。
 なお、上述した説明では、意味解析処理によって、意味解析の結果として、意図(Intent)と実体情報(Entity)が得られるとして説明したが、それらは一例であって、ユーザによる発話の意味(意図)を表現した情報であれば、他の情報を用いるようにしてもよい。
 ここで、端末装置10とサーバ20は、後述する図12のコンピュータ1000を含んだ情報処理装置として構成することができる。
 すなわち、ユーザ認識部103、音声認識部104、意味解析部105、依頼実行部106、提示方法制御部107、表示制御部108、及び発話生成部109は、例えば、端末装置10又はサーバ20のCPU(例えば、後述する図12のCPU1001)によって、記録部(例えば、後述する図12のROM1002や記録部1008等)に記録されたプログラムが実行されることで実現される。
 また、図示はしていないが、端末装置10とサーバ20は、インターネット30を介してデータをやり取りするために、通信インターフェース回路等から構成される通信I/F(例えば、後述する図12の通信部1009)をそれぞれ有している。これにより、ユーザの発話中に、端末装置10とサーバ20が、インターネット30を介して通信を行い、例えば、サーバ20側では、端末装置10からのデータに基づき、提示方法制御処理などの処理を行うことができる。
 さらに、端末装置10には、例えば、ボタンやキーボード等からなる入力部(例えば、後述する図12の入力部1006)を設けて、ユーザの操作に応じた操作信号が得られるようにするか、あるいは、表示デバイス110(例えば、後述する図12の出力部1007)が、タッチセンサと一体化されたタッチパネルとして構成され、ユーザの指やタッチペン(スタイラスペン)による操作に応じた操作信号が得られるようにしてもよい。
 なお、図2に示した表示制御部108であるが、すべての機能が、端末装置10又はサーバ20の機能として提供されるのではなく、全ての機能のうち、一部の機能が、端末装置10の機能として提供され、残りの機能が、サーバ20の機能として提供されるようにしてもよい。例えば、表示制御機能のうち、レンダリング機能は、ローカル側の端末装置10の機能とする一方で、表示レイアウト機能は、クラウド側のサーバ20の機能とすることができる。
 また、図2に示した音声対話システム1において、カメラ101又はマイクロフォン102等の入力デバイスは、専用の端末等として構成される端末装置10に限らず、ユーザの所持するモバイル機器(例えば、スマートフォン)等の他の電子機器であってもよい。さらに、図2に示した音声対話システム1において、表示デバイス110又はスピーカ111等の出力デバイスについても同様に、ユーザの所持するモバイル機器(例えば、スマートフォン)等の他の電子機器であってもよい。
 さらに、図2に示した音声対話システム1においては、イメージセンサを有するカメラ101を含む構成を示したが、他のセンサデバイスを設けて、ユーザやその周辺などのセンシングを行うことで、そのセンシング結果に応じたセンサデータを取得し、後段の処理で用いるようにしてもよい。
 ここで、センサデバイスとしては、例えば、呼吸や脈拍、指紋、虹彩などの生体情報を検出する生体センサ、磁場(磁界)の大きさや方向を検出する磁気センサ、加速度を検出する加速度センサ、角度(姿勢)や角速度、角加速度を検出するジャイロセンサ、近接するものを検出する近接センサなどを含めることができる。
 また、センサデバイスは、ユーザの頭部に取り付けられ、電位等を計測することで脳波を検出する脳波センサであってもよい。さらに、センサデバイスには、温度を検出する温度センサや、湿度を検出する湿度センサ、周囲の明るさを検出する環境光センサなどの周囲の環境を測定するためのセンサや、GPS(Global Positioning System)信号などの位置情報を検出するためのセンサを含めることができる。
 なお、上述した説明では、先のユーザ発話と後のユーザ発話(割り込み発話)が続けて行われた場合を説明したが、割り込み発話は、1つに限らず、2つ以上の割り込み発話が行われ場合にも、上述した本技術を適用することができる。すなわち、例えば、先のユーザ発話に対し、後のユーザ発話として、同一の又は異なるユーザによって2つの割り込み発話がなされた場合に、それらの3つの発話の意図が同等であれば、上述の第1の提示方法によって、それらの3つの発話を1つに統合して、その依頼に応じた依頼対応処理の実行の結果を提示すればよい。
<3.コンピュータの構成>
 上述した一連の処理(例えば、図9又は図10に示した実行結果提示処理)は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インターフェース1005が接続されている。入出力インターフェース1005には、入力部1006、出力部1007、記録部1008、通信部1009、及び、ドライブ1010が接続されている。
 入力部1006は、マイクロフォン、キーボード、マウスなどよりなる。出力部1007は、スピーカ、ディスプレイなどよりなる。記録部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインターフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
 以上のように構成されるコンピュータ1000では、CPU1001が、ROM1002や記録部1008に記録されているプログラムを、入出力インターフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータ1000では、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インターフェース1005を介して、記録部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記録部1008にインストールすることができる。その他、プログラムは、ROM1002や記録部1008に、あらかじめインストールしておくことができる。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、図9又は図10に示した実行結果提示処理の各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本技術は、以下のような構成をとることができる。
(1)
 ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、前記第1の発話に対する応答の提示を制御する制御部を備える
 情報処理装置。
(2)
 前記制御部は、前記第1の発話の内容と、前記第2の発話の内容との関係により特定される前記ユーザの依頼に基づいた実行の結果を、前記応答として提示する
 前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記第1の発話の意図と、前記第2の発話の意図とが略同一となる場合、前記第1の発話の意図と前記第2の発話の意図とを統合して得られる依頼に基づいた実行の結果を提示する
 前記(2)に記載の情報処理装置。
(4)
 前記制御部は、前記第2の発話の内容によって、前記第1の発話の内容に対する追加を行っている場合、前記第1の発話の内容に、前記第2の発話の内容を追加して得られる依頼に基づいた実行の結果を提示する
 前記(2)に記載の情報処理装置。
(5)
 前記制御部は、前記第2の発話の内容によって、前記第1の発話の内容の一部を変更している場合、前記第1の発話の内容の一部を、前記第2の発話の内容により変更して得られる依頼に基づいた実行の結果を提示する
 前記(2)に記載の情報処理装置。
(6)
 前記制御部は、前記第1の発話の意図と、前記第2の発話の意図とが異なる場合、前記第1の発話の内容から得られる第1の依頼に基づいた第1の実行の結果と、前記第2の発話の内容から得られる第2の依頼に基づいた第2の実行の結果をそれぞれ提示する
 前記(2)に記載の情報処理装置。
(7)
 前記制御部は、前記第2の発話の内容が、システムに対するものではない場合、前記第1の発話の内容から得られる依頼に基づいた実行の結果を提示する
 前記(2)に記載の情報処理装置。
(8)
 前記制御部は、前記第1の発話に対する第1の処理を既に実行中、又は前記第1の処理の実行の結果を提示中である場合、前記第1の処理の実行の結果のみを提示する
 前記(3)に記載の情報処理装置。
(9)
 前記制御部は、前記第1の発話に対する第1の処理を既に実行中、又は前記第1の処理の実行の結果を提示中である場合、前記第1の処理の実行の結果の提示に続いて、前記第2の発話に対する第2の処理の実行の結果を提示する
 前記(4)に記載の情報処理装置。
(10)
 前記制御部は、前記第1の発話に対する第1の処理を既に実行中、又は前記第1の処理の実行の結果を提示中である場合、前記第1の処理の実行の結果の提示を中断し、又はその提示の完結を待って、前記第2の発話に対する第2の処理の実行の結果を提示する
 前記(5)に記載の情報処理装置。
(11)
 前記第1の発話は、第1のユーザによりなされ、
 前記第2の発話は、前記第1のユーザと異なる第2のユーザによりされる
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記制御部は、各ユーザの特性を含むユーザ情報に基づいて、前記実行の結果を提示する
 前記(11)に記載の情報処理装置。
(13)
 前記制御部は、前記第1の発話の内容と、前記第2の発話の内容とが、矛盾した依頼となっている場合、過去の履歴情報に基づいて、いずれか一方の依頼を選択し、その依頼に基づいた実行の結果を提示する
 前記(12)に記載の情報処理装置。
(14)
 前記制御部は、前記実行の結果を、第1の提示部及び第2の提示部のうち、少なくとも一方の提示部により提示する
 前記(2)乃至(13)のいずれかに記載の情報処理装置。
(15)
 前記第1の提示部と前記第2の提示部とは、同一の機器又は異なる機器に設けられる
 前記(14)に記載の情報処理装置。
(16)
 前記第1の提示部は、表示デバイスであり、
 前記第2の提示部は、スピーカである
 前記(14)又は(15)に記載の情報処理装置。
(17)
 前記第2の発話は、前記第1の発話がなされた後であって、前記ユーザの発話の速度に応じた所定の期間内になされる
 前記(2)乃至(16)のいずれかに記載の情報処理装置。
(18)
 前記ユーザの依頼に応じた所定の処理を実行する実行部をさらに備え、
 前記制御部は、前記実行部により実行される所定の処理の実行の結果を、前記応答として提示する
 前記(2)乃至(17)のいずれかに記載の情報処理装置。
(19)
 前記ユーザの発話の音声データに基づいて、音声認識処理を行う音声認識部と、
 前記音声認識処理により得られる音声認識の結果に基づいて、意味解析処理を行う意味解析部と
 をさらに備える前記(2)乃至(18)のいずれかに記載の情報処理装置。
(20)
 情報処理装置の情報処理方法において、
 前記情報処理装置が、
 ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、前記第1の発話に対する応答の提示を制御する
 情報処理方法。
 1 音声対話システム, 10 端末装置, 20 サーバ, 30 インターネット, 101 カメラ, 102 マイクロフォン, 103 ユーザ認識部, 104 音声認識部, 105 意味解析部, 106 依頼実行部, 107 提示方法制御部, 108 表示制御部, 109 発話生成部, 110 表示デバイス, 111 スピーカ, 131 ユーザDB, 1000 コンピュータ, 1001 CPU

Claims (20)

  1.  ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、前記第1の発話に対する応答の提示を制御する制御部を備える
     情報処理装置。
  2.  前記制御部は、前記第1の発話の内容と、前記第2の発話の内容との関係により特定される前記ユーザの依頼に基づいた実行の結果を、前記応答として提示する
     請求項1に記載の情報処理装置。
  3.  前記制御部は、前記第1の発話の意図と、前記第2の発話の意図とが略同一となる場合、前記第1の発話の意図と前記第2の発話の意図とを統合して得られる依頼に基づいた実行の結果を提示する
     請求項2に記載の情報処理装置。
  4.  前記制御部は、前記第2の発話の内容によって、前記第1の発話の内容に対する追加を行っている場合、前記第1の発話の内容に、前記第2の発話の内容を追加して得られる依頼に基づいた実行の結果を提示する
     請求項2に記載の情報処理装置。
  5.  前記制御部は、前記第2の発話の内容によって、前記第1の発話の内容の一部を変更している場合、前記第1の発話の内容の一部を、前記第2の発話の内容により変更して得られる依頼に基づいた実行の結果を提示する
     請求項2に記載の情報処理装置。
  6.  前記制御部は、前記第1の発話の意図と、前記第2の発話の意図とが異なる場合、前記第1の発話の内容から得られる第1の依頼に基づいた第1の実行の結果と、前記第2の発話の内容から得られる第2の依頼に基づいた第2の実行の結果をそれぞれ提示する
     請求項2に記載の情報処理装置。
  7.  前記制御部は、前記第2の発話の内容が、システムに対するものではない場合、前記第1の発話の内容から得られる依頼に基づいた実行の結果を提示する
     請求項2に記載の情報処理装置。
  8.  前記制御部は、前記第1の発話に対する第1の処理を既に実行中、又は前記第1の処理の実行の結果を提示中である場合、前記第1の処理の実行の結果のみを提示する
     請求項3に記載の情報処理装置。
  9.  前記制御部は、前記第1の発話に対する第1の処理を既に実行中、又は前記第1の処理の実行の結果を提示中である場合、前記第1の処理の実行の結果の提示に続いて、前記第2の発話に対する第2の処理の実行の結果を提示する
     請求項4に記載の情報処理装置。
  10.  前記制御部は、前記第1の発話に対する第1の処理を既に実行中、又は前記第1の処理の実行の結果を提示中である場合、前記第1の処理の実行の結果の提示を中断し、又はその提示の完結を待って、前記第2の発話に対する第2の処理の実行の結果を提示する
     請求項5に記載の情報処理装置。
  11.  前記第1の発話は、第1のユーザによりなされ、
     前記第2の発話は、前記第1のユーザと異なる第2のユーザによりされる
     請求項2に記載の情報処理装置。
  12.  前記制御部は、各ユーザの特性を含むユーザ情報に基づいて、前記実行の結果を提示する
     請求項11に記載の情報処理装置。
  13.  前記制御部は、前記第1の発話の内容と、前記第2の発話の内容とが、矛盾した依頼となっている場合、過去の履歴情報に基づいて、いずれか一方の依頼を選択し、その依頼に基づいた実行の結果を提示する
     請求項12に記載の情報処理装置。
  14.  前記制御部は、前記実行の結果を、第1の提示部及び第2の提示部のうち、少なくとも一方の提示部により提示する
     請求項2に記載の情報処理装置。
  15.  前記第1の提示部と前記第2の提示部とは、同一の機器又は異なる機器に設けられる
     請求項14に記載の情報処理装置。
  16.  前記第1の提示部は、表示デバイスであり、
     前記第2の提示部は、スピーカである
     請求項15に記載の情報処理装置。
  17.  前記第2の発話は、前記第1の発話がなされた後であって、前記ユーザの発話の速度に応じた所定の期間内になされる
     請求項2に記載の情報処理装置。
  18.  前記ユーザの依頼に応じた所定の処理を実行する実行部をさらに備え、
     前記制御部は、前記実行部により実行される所定の処理の実行の結果を、前記応答として提示する
     請求項2に記載の情報処理装置。
  19.  前記ユーザの発話の音声データに基づいて、音声認識処理を行う音声認識部と、
     前記音声認識処理により得られる音声認識の結果に基づいて、意味解析処理を行う意味解析部と
     をさらに備える請求項18に記載の情報処理装置。
  20.  情報処理装置の情報処理方法において、
     前記情報処理装置が、
     ユーザによる第1の発話よりも時間的に後の第2の発話の内容に基づいて、前記第1の発話に対する応答の提示を制御する
     情報処理方法。
PCT/JP2018/042058 2017-11-28 2018-11-14 情報処理装置、及び情報処理方法 WO2019107145A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/765,438 US20200327890A1 (en) 2017-11-28 2018-11-14 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017227377 2017-11-28
JP2017-227377 2017-11-28

Publications (1)

Publication Number Publication Date
WO2019107145A1 true WO2019107145A1 (ja) 2019-06-06

Family

ID=66664493

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/042058 WO2019107145A1 (ja) 2017-11-28 2018-11-14 情報処理装置、及び情報処理方法

Country Status (2)

Country Link
US (1) US20200327890A1 (ja)
WO (1) WO2019107145A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2022501623A (ja) * 2019-08-16 2022-01-06 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. オーディオ処理方法、装置及び記憶媒体
EP4026120A4 (en) * 2019-09-04 2023-10-18 Brain Technologies, Inc. REAL-TIME MORPHING INTERFACE FOR DISPLAY ON A COMPUTER SCREEN

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11935521B2 (en) * 2019-09-12 2024-03-19 Oracle International Corporation Real-time feedback for efficient dialog processing
KR20210059367A (ko) * 2019-11-15 2021-05-25 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN113779208A (zh) * 2020-12-24 2021-12-10 北京汇钧科技有限公司 用于人机对话的方法和装置
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193123A (ja) * 2008-02-12 2009-08-27 Nec Corp ネットワーク型制御システム、その装置、その方法及びそのプログラム
WO2015037098A1 (ja) * 2013-09-12 2015-03-19 株式会社 東芝 電子機器、方法及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
JP5695199B2 (ja) * 2010-08-30 2015-04-01 本田技研工業株式会社 対話システムにおける思考追跡および行動選択
US8838546B1 (en) * 2012-08-10 2014-09-16 Google Inc. Correcting accidental shortcut usage
WO2016147401A1 (ja) * 2015-03-19 2016-09-22 株式会社 東芝 分類装置、方法及びプログラム
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
KR102502220B1 (ko) * 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
JP6851894B2 (ja) * 2017-04-24 2021-03-31 株式会社東芝 対話システム、対話方法及び対話プログラム
KR102374910B1 (ko) * 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US10002259B1 (en) * 2017-11-14 2018-06-19 Xiao Ming Mai Information security/privacy in an always listening assistant device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193123A (ja) * 2008-02-12 2009-08-27 Nec Corp ネットワーク型制御システム、その装置、その方法及びそのプログラム
WO2015037098A1 (ja) * 2013-09-12 2015-03-19 株式会社 東芝 電子機器、方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HOTTA, NAOKI ET AL.: "Detecting Whether Incorrectly-Segmented Utterance Needs to be Restored or not", DOCUMENT OF 70TH SPECIAL INTEREST GROUP ON SPOKEN LANGUAGE UNDERSTANDING AND DIALOGUE PROCESSING, 26 February 2014 (2014-02-26), pages 45 - 52 *
MIYAZAKI, NOBORU ET AL.: "An Incremental Speech Understanding Method for Spoken Dialogue Utterances", PROCEEDINGS D-II OF IEICE, vol. J87-D-II, no. 2, 1 February 2004 (2004-02-01), pages 456 - 463 *
MIYAZAKI, NOBORU: "Voice interaction system dealing with colloquial expression", DOCUMENT OF 37TH SPECIAL INTEREST GROUP ON SPOKEN LANGUAGE UNDERSTANDING AND DIALOGUE PROCESSING, 7 March 2003 (2003-03-07), pages 21 - 27 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2022501623A (ja) * 2019-08-16 2022-01-06 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. オーディオ処理方法、装置及び記憶媒体
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up
JP7166294B2 (ja) 2019-08-16 2022-11-07 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッド オーディオ処理方法、装置及び記憶媒体
EP4026120A4 (en) * 2019-09-04 2023-10-18 Brain Technologies, Inc. REAL-TIME MORPHING INTERFACE FOR DISPLAY ON A COMPUTER SCREEN
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP7058305B2 (ja) 2020-07-10 2022-04-21 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム

Also Published As

Publication number Publication date
US20200327890A1 (en) 2020-10-15

Similar Documents

Publication Publication Date Title
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
US10770073B2 (en) Reducing the need for manual start/end-pointing and trigger phrases
EP3192072B1 (en) Dynamic thresholds for always listening speech trigger
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
US11861265B2 (en) Providing audio information with a digital assistant
WO2019026617A1 (ja) 情報処理装置、及び情報処理方法
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6973380B2 (ja) 情報処理装置、および情報処理方法
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18882571

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18882571

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP