WO2018163646A1 - 対話方法、対話システム、対話装置、およびプログラム - Google Patents

対話方法、対話システム、対話装置、およびプログラム Download PDF

Info

Publication number
WO2018163646A1
WO2018163646A1 PCT/JP2018/002505 JP2018002505W WO2018163646A1 WO 2018163646 A1 WO2018163646 A1 WO 2018163646A1 JP 2018002505 W JP2018002505 W JP 2018002505W WO 2018163646 A1 WO2018163646 A1 WO 2018163646A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
user
logical
dialogue
confirmation
Prior art date
Application number
PCT/JP2018/002505
Other languages
English (en)
French (fr)
Inventor
弘晃 杉山
宏美 成松
雄一郎 吉川
尊優 飯尾
庸浩 有本
石黒 浩
Original Assignee
日本電信電話株式会社
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社, 国立大学法人大阪大学 filed Critical 日本電信電話株式会社
Priority to JP2019504380A priority Critical patent/JP6864326B2/ja
Priority to US16/491,301 priority patent/US11354517B2/en
Publication of WO2018163646A1 publication Critical patent/WO2018163646A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a technology in which a computer interacts with a human using a natural language or the like, which can be applied to a robot that communicates with a human.
  • an information presentation system it is basic to let robots talk to each other, but by talking to people from time to time, people can participate in the conversation without being bored, and information that is easy for people to accept Can be presented.
  • Efficient information presentation such as introduction and education (for example, childcare / education for children, general education professor for adults, moral education, etc.) can be expected.
  • introduction and education for example, childcare / education for children, general education professor for adults, moral education, etc.
  • communication can be maintained through communication with the robot, information can be collected without giving a sense of pressure that people are listening.
  • it is assumed to be applied to personal information surveys, market surveys, product evaluations, preference surveys for recommended products, and the like.
  • various applications of human-robot communication are expected, and realization of a robot that can more naturally interact with users is expected.
  • services such as LINE (registered trademark) that allow users to enjoy conversations with people by chatting in almost real time are also being implemented. If the technology of conversation with the robot is applied to this chat service, it becomes possible to realize a chat service for more natural dialogue with the user even when there is no chat partner.
  • the hardware used as a conversation partner with a user such as a robot and a chat partner used in these services
  • the computer software for causing the computer to function as the hardware as a conversation partner with the user are collectively referred to. It will be called an agent. Since the agent is a conversation partner with the user, the agent may be anthropomorphic, personalized, or have personality or individuality, such as a robot or a chat partner.
  • Non-Patent Document 1 As an example of the agent described above, there is a voice dialogue system that recognizes a user's utterance, understands and infers the intention of the utterance, and responds appropriately as described in Non-Patent Document 1, for example.
  • Research on speech dialogue systems has been actively promoted with the progress of speech recognition technology, and has been put to practical use in, for example, automatic speech response systems.
  • the dialogue system described in Non-Patent Document 2 is a system that performs a dialogue between a user and a plurality of agents, including an interruption by an agent and an exchange between agents. For example, when an agent utters a question prepared for a scenario to a user, and the utterance of a user's answer to the question corresponds to an option prepared for the scenario, the agent functions to utter corresponding to the option. To do.
  • the scenario dialogue system is a dialogue system in which an agent makes an utterance based on a scenario stored in advance in the system.
  • the agent asks the user and receives a response from the user, the conversation is swayed regardless of the content of the user's utterance, or the topic is changed by interrupting the agent. Even when the user's utterance deviates from the original topic, it is possible to respond so as not to make the user feel the story is broken.
  • chat dialogue system in which a user and an agent have a natural dialogue when the agent utters according to the content of the user's utterance.
  • words included in the utterance of the user or the agent while giving more importance to the context-specific ones in a plurality of dialogues between the user and the agent Is a system that realizes a chat conversation between the user and the system by the system speaking according to the rules described in advance.
  • the rules used by the chat dialogue system are not limited to those described in advance, but may be automatically generated based on the user's utterance content, or uttered in the immediate utterance by the user or agent or in the vicinity thereof.
  • Non-Patent Document 3 describes a technique for automatically generating a rule based on words that have a co-occurrence relationship or a dependency relationship with words included in a user's utterance.
  • the dialogue system described in Non-Patent Document 4 is a system that reduces the cost of rule generation by fusing rules described manually and rules described using a statistical utterance generation method.
  • the chat dialogue system is different from the scenario dialogue system because the agent does not utter the utterance according to the prepared scenario.
  • the agent's utterance does not correspond to the user's utterance.
  • At least the content of the user's utterance, the utterance spoken immediately before or near the user or agent, or the utterance spoken immediately before or near the user or agent An agent can make an utterance based on the utterance. That is, the chat dialogue system includes at least the utterance content of the user, the utterance spoken immediately before or by the user or agent, or the utterance uttered immediately before or by the user or agent. It is a dialogue system in which an agent utters speech based on. In these chat dialogue systems, it is possible to explicitly respond to the user's utterance.
  • the transition may give a sudden impression. Also, trying to predict the goodness of the connection may not always be a reasonable evaluation. Furthermore, if the conversation between agents continues smoothly, the impression is as if a small play is being shown, and the feeling of dialogue may be reduced or the understanding of the user may not be able to keep up.
  • the dialogue by the dialogue system is often free from being caught and hit, and the user's co-sensitivity to the dialogue system tends to be low. In this case, even if the user is not convinced about the utterance of the agent, the user often listens appropriately.
  • An object of the present invention is to realize a dialog system and a dialog device that prevent a user from listening to an agent's dialogue and easily understand the dialogue with the agent in view of the above points.
  • the dialogue method of the present invention is a dialogue method executed by a dialogue system for dialogue with a user, in which a presentation unit is a logic that is an utterance in which a part of a logical structure is missing.
  • An utterance presentation step that presents a leap utterance, and an utterance that explains the missing information after the presenter has shown a confirmation action that confirms the missing information in the logical leap utterance.
  • the user understands the interaction with the agent in order to prevent the user from listening to the agent's utterance by intentionally presenting an utterance that is difficult to understand because a part of the logical structure is missing.
  • An easy-to-use dialogue system and dialogue device can be realized.
  • the user has an intellectual impression of the agent and understands the interaction between the agents to show that the interaction between the agents may cause a habit and can recover from the state. It is possible to realize a dialog system and a dialog device that are easy to do.
  • FIG. 1 is a diagram illustrating a functional configuration of the interactive system according to the embodiment.
  • FIG. 2 is a diagram illustrating a processing procedure of the interactive method according to the embodiment.
  • FIG. 3 is a diagram illustrating a functional configuration of a dialog system according to a modification.
  • the dialogue system presents an utterance whose content has jumped (for example, an utterance having a logical jump or an utterance in which a key word of a topic is omitted), thereby interrupting by a user or another agent. Prompt.
  • the conversation between agents including utterances whose content has jumped, is created to catch the conversation between agents, thereby prompting the user to interrupt.
  • an agent presents an utterance of an assertion that is generally unacceptable, and performs an utterance that supplements the content with an interruption by a user or another agent.
  • words indicating that topics may transition may be presented.
  • the user is less likely to hear the utterance of the agent, and the user can easily understand the dialogue with the agent.
  • the user since it is shown that a trap can occur even in a dialogue between agents and that the state can be restored, the user must have an intellectual impression on the agent and understand the dialogue between agents. Becomes easier.
  • the dialogue system of the embodiment is a system in which at least one humanoid robot interacts with a user. That is, the dialogue system of the embodiment is an example in the case where the agent is a humanoid robot.
  • the dialogue system 100 includes, for example, a dialogue device 1, an input unit 10 including a microphone 11 and a camera 12, and a presentation unit 50 including at least a speaker 51.
  • the dialogue apparatus 1 includes, for example, an action recognition unit 20, an utterance determination unit 30, and a voice synthesis unit 40.
  • the action recognition unit 20 includes, for example, a voice recognition unit 21 and an operation recognition unit 22.
  • the interactive method of the embodiment is realized by the processing of each step described later by the interactive system 100.
  • the interactive device 1 is a special configuration in which a special program is read into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. Device.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • the interactive device 1 executes each process under the control of the central processing unit.
  • the data input to the interactive device 1 and the data obtained in each process are stored in, for example, the main storage device, and the data stored in the main storage device is read out as necessary and used for other processing.
  • at least a part of each processing unit of the interactive apparatus 1 may be configured by hardware such as an integrated circuit.
  • the input unit 10 may be configured integrally or partially with the presentation unit 50.
  • microphones 11-1 and 11-2 that are part of the input unit 10 are mounted on the heads (ear positions) of the humanoid robots 50-1 and 50-2 that are the presentation unit 50.
  • the camera 12 that is a part of the input unit 10 is installed independently.
  • the presentation unit 50 is composed of two humanoid robots 50-1 and 50-2, but may be composed of one humanoid robot, and may be composed of three or more humanoid robots. You may be comprised from the robot.
  • the input unit 10 is an interface for the dialogue system 100 to acquire at least one of a user's utterance (linguistic behavior) and action (non-linguistic behavior).
  • the input unit 10 is an interface for inputting a user's action to the dialogue system 100.
  • the input unit 10 is a microphone 11 for collecting a user's uttered voice and converting it into a voice signal.
  • FIG. 1 is an example, and either one of the microphones 11-1 and 11-2 may not be provided.
  • the microphone 11- 1 and 11-2 may not be provided.
  • the microphone 11 outputs an acoustic signal obtained by the conversion.
  • the acoustic signal output from the microphone 11 is input to the voice recognition unit 21 of the action recognition unit 20.
  • the input unit 10 is a camera 12 for recording a user's physical movement and converting it into a video signal.
  • the camera 12 may be a single camera or a plurality of cameras.
  • the camera 12 outputs a video signal obtained by the conversion.
  • the video signal output from the camera 12 is input to the action recognition unit 22 of the action recognition unit 20.
  • the action recognition unit 20 receives at least one of an acoustic signal picked up by the microphone 11 and a video signal recorded by the camera 12 and uses at least one of the voice recognition unit 21 and the action recognition unit 22 to perform the user's action. Information representing the contents is obtained and output to the utterance determination unit 30.
  • the voice recognition unit 21 performs voice recognition on the acoustic signal input from the microphone 11 and outputs text obtained as a recognition result.
  • the text output by the voice recognition unit 21 is included in information representing the user's action content output by the action recognition unit 20.
  • the speech recognition method performed by the speech recognition unit 21 may be any existing speech recognition technology, and an optimal method may be selected as appropriate in accordance with the usage environment.
  • the speech recognition unit 21 does not output the text, and the behavior recognition unit 20 outputs the information indicating the action content of the user. Does not contain text.
  • the motion recognition unit 22 recognizes the motion of the video signal input from the camera 12 and obtains and outputs information representing the content of the user's motion.
  • Information indicating the user's action content output by the action recognition unit 22 is included in the information indicating the user's action content output by the action recognition unit 20.
  • the motion recognition method performed by the motion recognition unit 22 is, for example, a method that uses changes in the user's facial expression or the like. In this method, the motion recognition unit 22 acquires a time-series image of the user's face from the input video signal, and features (for example, the size of the pupil, the position of the corner of the eye, the position of the eye's head) from the acquired time-series image.
  • the action content of the user which is a change in position, mouth corner position, mouth opening degree, etc.
  • the motion recognition unit 22 obtains the user operation content corresponding to each time in the input video signal, generates time-series data representing the user operation content, and uses the generated time-series data as the user operation content. Is output as information representing.
  • the above-described motion recognition method is an example, and the motion recognition method performed by the motion recognition unit 22 may be any existing motion recognition technology, and an optimal one is appropriately selected according to the usage environment. That's fine.
  • the utterance determination unit 30 determines text representing the utterance content from the dialogue system 100 and outputs the text to the speech synthesis unit 40.
  • text representing the content of the user's behavior is input from the behavior recognition unit 20
  • text representing the content of the utterance from the dialogue system 100 is determined based on the input information representing the content of the user's behavior, and speech synthesis is performed.
  • the presentation unit 50 of the interactive system 100 is configured with a plurality of humanoid robots
  • the utterance determination unit 30 may determine which humanoid robot presents the utterance. In this case, information representing the humanoid robot that presents the utterance is also output to the speech synthesizer 40.
  • the utterance determination unit 30 determines whether to present the utterance, that is, whether to present the utterance to the user or any humanoid robot. Also good. In this case, information representing the partner who presents the utterance is also output to the speech synthesizer 40.
  • the voice synthesis unit 40 converts the text representing the utterance content input from the utterance determination unit 30 into a voice signal representing the utterance content, and outputs the voice signal to the presentation unit 50.
  • the speech synthesis method performed by the speech synthesizer 40 may be any existing speech synthesis technology, and an optimal method may be selected as appropriate according to the usage environment.
  • the presentation unit 50 of the interactive system 100 is configured by a plurality of humanoid robots, when information representing a humanoid robot that presents the utterance is input from the utterance determination unit 30 together with text representing the utterance content.
  • the voice synthesizer 40 outputs a voice signal representing the utterance content to the humanoid robot corresponding to the information.
  • the speech synthesizer 40 receives the voice signal representing the utterance content and the information representing the partner who presents the utterance and the voice signal representing the utterance from the humanoid robot corresponding to the information.
  • the presentation unit 50 is an interface for presenting the utterance content determined by the utterance determination unit 30 to the user.
  • the presentation unit 50 is a humanoid robot imitating a human shape. This humanoid robot generates a voice corresponding to the voice signal representing the utterance content input from the voice synthesizer 40, for example, from the speaker 51 mounted on the head, that is, presents the utterance.
  • the speaker 51 only needs to be able to produce sound corresponding to the sound signal representing the utterance content input from the sound synthesizer 40. That is, FIG. 1 is an example, and one of the speakers 51-1 and 51-2 may not be provided.
  • a speaker array including one or more speakers or a plurality of speakers is installed in a place different from the humanoid robots 50-1 and 50-2 such as in the vicinity of the user 101, and the speakers 51-1 and 51- are installed. 2 may be provided.
  • the humanoid robot may present the utterance content determined by the utterance determination unit 30 based on non-verbal behavior such as facial expressions and body movements to the user. For example, when presenting consent to the previous utterance, present a non-verbal action such as swinging the head vertically and presenting the disagreement by shaking the head sideways. Is mentioned.
  • a humanoid robot when presenting an utterance, directs the face or body toward the user or another humanoid robot, thereby allowing the user or other humanoid robot facing the face or body. In contrast, it is possible to express that an utterance is being presented.
  • the presentation unit 50 is a humanoid robot, for example, one humanoid robot is prepared for each personality (agent) participating in the dialogue. In the following, it is assumed that there are two humanoid robots 50-1 and 50-2 as an example in which two personalities participate in the dialogue.
  • the presentation unit 50 of the interactive system 100 is configured by a plurality of humanoid robots
  • speech synthesis is performed.
  • the humanoid robot 50-1 or 50-2 that receives the audio signal representing the utterance content output by the unit 40 presents the utterance.
  • the humanoid robot 50-1 or 50-2 selects the humanoid corresponding to the information representing the partner presenting the utterance.
  • the utterance is presented with the face or line of sight directed at the utterance of the robot or user.
  • step S1 the dialogue system 100 outputs a voice representing the content of the logical jump utterance from the speaker 51-1 included in the humanoid robot 50-1, that is, presents the logical jump utterance.
  • a logical leap utterance is an utterance in which a part of the logical structure is missing.
  • the logical structure is a sentence structure composed of, for example, a premise, an interpretation, and a conclusion.
  • the voice representing the content of the logical jump utterance is obtained by converting the text representing the content of the logical jump utterance determined by the utterance determination unit 30 into a voice signal.
  • the text representing the content of the logical leap utterance is obtained by analyzing the logical structure of the text representing the content of the utterance determined by the utterance determination unit 30 in a normal procedure, and masking some information (for example, omission, synonymization, etc.) Can be generated.
  • the text representing the utterance content may be arbitrarily selected by the utterance determination unit 30 from, for example, fixed phrases stored in advance in a storage unit (not shown) in the utterance determination unit 30, or the utterance content up to the previous time may be selected. It may be determined accordingly.
  • a technique for determining the utterance contents according to the utterance contents up to immediately before a technique used in a conventional dialogue system may be used. For example, the scenario dialogue system described in Non-Patent Document 2 and Non-Patent Document 3 Alternatively, the chat dialogue system described in 4 can be used.
  • the utterance determination unit 30 uses the technology used in the scenario dialogue system, for example, the utterance determination unit 30 has a word included in each utterance and a focal point constituting each utterance with respect to a conversation including about the last five utterances. Select a scenario in which the distance between the words and the words included in each scenario stored in the storage unit (not shown) in the utterance determination unit 30 or the focal word is closer than a predetermined distance, and select the text included in the selected scenario To determine the text representing the utterance content.
  • the utterance determination unit 30 uses the technology used in the chat dialogue system, the utterance determination unit 30 is described in advance using a word included in the user's utterance as a trigger, for example, and is not shown in the utterance determination unit 30.
  • the text representing the utterance content may be determined according to the rules stored in the storage unit, and the rules are automatically generated based on the words co-occurring or dependency relations with the words included in the user's utterances.
  • the text representing the utterance content may be determined according to the rule.
  • the text representing the utterance content may be composed of one sentence including all the premise, interpretation and conclusion, or may be composed as one sentence including the premise, interpretation and conclusion by combining a plurality of sentences. For example, even if the conversation is between humans, when trying to transition from a topic that has been handled in the previous conversation to another topic, the keyword that recalls the previous topic may be omitted. At this time, if the relationship between topics is weak, it is impossible to understand what topic the utterance is. Such an utterance can be understood as a lack of the premise that there is a common point between the topic up to the immediately preceding topic and the topic of the presented utterance.
  • the logical leap utterance is an utterance whose content is to be changed from the topic handled in the previous conversation to another topic, even if a topic transition word indicating that the topic has transitioned is added to the beginning of the logical leap utterance Good.
  • topic transition words include “Speaking of which” and “I have just come up with it”.
  • step S ⁇ b> 2 the behavior recognition unit 20 obtains and outputs information representing the behavior content of the user based on at least one of the acoustic signal acquired by the microphone 11 and the video signal acquired by the camera 12.
  • the recognizing unit 20 recognizes the user's behavior and obtains and outputs information representing the content of the user's behavior.
  • the speech recognition unit 21 in the action recognition unit 20 recognizes the acoustic signal in a predetermined time interval after the presentation unit 50 presents the logical jump utterance among the acoustic signals acquired by the microphone 11 and obtains it as a recognition result.
  • This text is used as the output of the action recognition unit 20 as text representing the user's utterance content.
  • the motion recognition unit 22 in the action recognition unit 20 recognizes the motion of a video signal in a predetermined time period after the presentation unit 50 presents a logical jump utterance out of the video signals acquired by the camera 12, and obtains it as a recognition result.
  • the time-series data representing the user's operation content at each time is output from the action recognition unit 20 as information representing the user's operation content.
  • the predetermined time interval may be set in advance with a sufficient time (for example, about 3 seconds to about 10 seconds) to acquire the user's verbal behavior or non-linguistic behavior with respect to the logical jump utterance. Note that the predetermined time interval may be set to 0 second so that the user's action for the logical jump utterance is not acquired.
  • Information representing the user's action content output by the action recognition unit 20 is input to the utterance determination unit 30.
  • step S ⁇ b> 3 the utterance determination unit 30 is based on the input information indicating the user's action content, that is, the text indicating the user's utterance content included in the input information indicating the user's action content and the user's operation. Based on at least one of the time-series data representing the contents, it is determined whether or not the user has made a confirmation action in a predetermined time interval with respect to the logical jump utterance.
  • confirmation action is a linguistic action
  • Confirmation utterances are, for example, utterances of contents that confirm missing information in logical leap utterances (question sentences, etc.), utterances of contents that require supplementation of missing information in logical leap utterances (question sentences, etc.), logical It is inferred that it is desirable to supplement the utterance of the content that is supposed to confirm the missing information in the leap utterance, the missing information in the logical leap utterance The utterance of the content.
  • the confirmation action is a non-verbal action
  • the confirmation action is called a confirmation action.
  • the confirmation operation is, for example, an operation that opens the eyes, opens the mouth, and makes a certain expression.
  • the storage unit (not shown) in the utterance determination unit 30 stores in advance at least one of one or more confirmation utterances and one or more confirmation operations as exemplified above.
  • the utterance determination unit 30 determines whether or not the user performs a confirmation action in a predetermined time interval with respect to the logical jump utterance based on the linguistic action of the user, for example, the determination is performed as follows. To do. The utterance determination unit 30 acquires text representing the user's utterance content from information representing the user's action content, and the acquired text corresponds to a confirmation utterance stored in a storage unit (not shown) in the utterance determination unit 30. Determines that the user has performed a confirmation action, and determines that the user has not performed a confirmation action if the acquired text does not correspond to a confirmation utterance stored in a storage unit (not shown) in the utterance determination unit 30.
  • the utterance determination unit 30 determines whether or not the user has displayed a confirmation action in a predetermined time interval with respect to the logical jump utterance based on the nonverbal action of the user, for example, as follows. Judgment.
  • the utterance determination unit 30 acquires time-series data representing the user's operation content from information representing the user's action content, and the acquired time-series data representing the operation content is stored in a storage unit (not shown) in the utterance determination unit 30.
  • the time series data representing the acquired operation content is stored in a storage unit (not shown) in the utterance determination unit 30.
  • it does not correspond it determines with the user not having performed confirmation action.
  • the utterance determination unit 30 determines the determination based on the linguistic behavior of the user and the non-verbal behavior of the user. Based on both determination results based on the determination based on the determination result, a determination result may be obtained as to whether or not the user has performed a confirmation action in a predetermined time interval with respect to the logical jump utterance. For example, when the utterance determination unit 30 determines that the user has performed a confirmation action based on at least one of the determination based on the linguistic behavior of the user and the determination based on the non-linguistic behavior of the user. Then, it is determined that the user performs a confirmation action in a predetermined time interval for the logical jump utterance, and otherwise, it is determined that the user does not perform the confirmation action in the predetermined time interval for the logical jump utterance.
  • the utterance determination unit 30 thereafter performs the same operation as that performed when it is determined that the user has not performed the confirmation action.
  • step S3 If it is determined in step S3 that the user has performed a confirmation action (YES), utterance determination unit 30 performs step S6 without performing steps S4 and S5, and determines in step S3 that the user has performed a confirmation action. If so (NO), step S4 and step S5 are performed, and then step S6 is performed.
  • step S4 the utterance determination unit 30 determines the text representing the content of the confirmation utterance based on the text representing the content of the logical jump utterance, and outputs the determined text. For example, the utterance determination unit 30 obtains the text representing the content of the confirmation utterance stored in a storage unit (not shown) in the utterance determination unit 30 together with the text representing the content of the logical jump utterance, thereby obtaining the confirmation utterance. Determine the text that represents the content. The utterance determination unit 30 may determine a humanoid robot that presents a confirmation utterance.
  • the utterance determination unit 30 also determines a humanoid robot that presents the confirmation utterance, and outputs information specifying the humanoid robot that presents the supplementary utterance. For example, the utterance determination unit 30 determines another humanoid robot 50-2 different from the humanoid robot 50-1 presenting the logical jump utterance as the humanoid robot presenting the confirmation utterance, and presents the supplementary utterance. Information specifying that the humanoid robot is the humanoid robot 50-2 is also output.
  • step S5 the speech synthesis unit 40 converts the text representing the content of the confirmation utterance determined by the utterance determination unit 30 into a speech signal representing the content of the confirmation utterance, and outputs the speech signal.
  • a voice representing the content of the confirmation utterance corresponding to the outputted speech signal representing the content of the confirmation utterance is output.
  • the presenting unit 50 receives a voice representing the content of the confirmation utterance corresponding to the voice signal output from the voice synthesizing unit 40 from a humanoid robot 50-2 that is different from the humanoid robot 50-1 that presented the logical jump utterance. Output from the provided speaker 51-2.
  • the confirmation utterance is based on the voice signal output by the speech synthesizer 40 and the information specifying the humanoid robot output by the utterance determination unit 30.
  • the voice representing the content is output from the speaker (51-1 or 51-2) provided in the humanoid robot (50-1 or 50-2) designated by the utterance determination unit 30.
  • the dialogue system 100 converts the voice representing the content of the confirmation utterance into the humanoid robot 50-1 presenting the logical jump utterance. Is output from the speaker 51-2 included in another humanoid robot 50-2 different from the above.
  • the interactive system 100 it is not essential for the interactive system 100 to perform steps S4 and S5, and the interactive system 100 may not perform the confirmation utterance even when the user 101 does not utter the confirmation utterance in the predetermined time interval.
  • the utterance determination unit 30 determines the text representing the content of the supplementary utterance based on the text representing the content of the logical jump utterance and the text representing the content of the confirmation utterance, and outputs the determined text.
  • the supplementary utterance is an utterance having contents supplementing information that is missing in the logical jump utterance.
  • the supplementary utterance may be one utterance or a plurality of utterances.
  • the utterance determination unit 30 may determine a humanoid robot that presents a supplementary utterance. In this case, the utterance determination unit 30 is based on which humanoid robot that presented the logical jump utterance is, which humanoid robot that presented the confirmation utterance is, etc.
  • the humanoid robot that presents the supplementary utterance is also determined, and information that specifies the humanoid robot that presents the supplementary utterance is also output.
  • the utterance determination unit 30 determines a humanoid robot to be presented for each utterance and outputs information specifying the humanoid robot to be presented.
  • step S7 the speech synthesizer 40 converts the text representing the content of the confirmation utterance determined by the utterance determination unit 30 into a speech signal and outputs the speech signal.
  • the presentation unit 50 corresponds to the speech signal output by the speech synthesizer 40.
  • a voice representing the content of the supplementary utterance is output.
  • the presentation unit 50 outputs a voice representing the content of the supplementary utterance corresponding to the voice signal output from the voice synthesis unit 40 from the speaker 51-1 included in the humanoid robot 50-1 presenting the logical jump utterance.
  • the utterance determining unit 30 When the utterance determining unit 30 also outputs information specifying the humanoid robot, the supplementary utterance is generated based on the voice signal output by the speech synthesizing unit 40 and the information specifying the humanoid robot output by the utterance determining unit 30.
  • the voice representing the content is output from the speaker (51-1 or 51-2) provided in the humanoid robot (50-1 or 50-2) designated by the utterance determination unit 30.
  • the supplementary utterance may include a question with content that the user 101 can easily agree with regarding information that is missing in the logical jump utterance. If this question is presented to the user, the user is likely to utter that he / she agrees with the content of the supplementary utterance, and as a result, the user is satisfied with the explanation by the supplementary utterance. There is an increase effect. In addition, a sense of dialogue is improved by speaking positive contents.
  • R represents a robot and H represents a user.
  • the number after R is the identifier of the humanoid robot.
  • the right arrow ( ⁇ ) represents the speaking partner.
  • “R1 ⁇ H” indicates that the humanoid robot R1 speaks toward the user H.
  • Specific Example 1-1 is a humanoid robot different from the humanoid robot that presents a logical leap utterance in which a premise is missing in the logical structure and determines that the user did not express a confirmation action and presented the logical leap utterance This is an example in which a confirmation utterance is presented, and a supplementary utterance is presented from a humanoid robot that has presented a logical leap utterance.
  • the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the dialogue system 100 determines that the user utterance t (2) is not a confirmation utterance, and in the logical jump utterance t (1) from the humanoid robot R2 different from the humanoid robot R1 presenting the logical jump utterance t (1).
  • the dialogue system 100 presents a supplementary utterance t (4) supplementing the premise missing in the logical jump utterance t (1) from the humanoid robot R1.
  • Concrete Example 1-2-1 presents a logical leap utterance with a lack of interpretation in the logical structure, and a humanoid robot that presents a logical leap utterance without acquiring an action expressed by the user after the logical leap utterance.
  • a confirmation utterance is presented from a different humanoid robot and a supplementary utterance is presented from a humanoid robot that presented a logical leap forward utterance.
  • the dialogue system 100 does not acquire the action of the user H with respect to the logical leap utterance t (1), and the logical leap from the humanoid robot R2 different from the humanoid robot R1 that presented the logical leap utterance t (1).
  • the confirmation utterance t (2) of the content for requesting supplementation of missing information in the utterance t (1) is presented.
  • the dialogue system 100 presents a supplementary utterance t (3) having contents supplementing the interpretation missing from the humanoid robot R1 in the logical jump utterance t (1).
  • the dialogue system 100 presents a logical leap utterance t (1) whose interpretation is missing from the humanoid robot R1, as in the specific example 1-2-1.
  • the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the user utterance t (2) is the confirmation utterance t (2) of the content that is presumed that the user utterance t (2) wants to confirm the missing information in the logical jump utterance t (1). Judgment and do not present confirmation utterance.
  • the dialogue system 100 presents a supplementary utterance t (3) that supplements the interpretation that is missing in the logical leap utterance t (1) from the humanoid robot R1. Furthermore, since the dialogue system 100 performed the utterance t (4) indicating that the user H was satisfied with the supplementary utterance t (3), the portion indicating that the user H was satisfied from the content of the original utterance (“Such It presents the utterance t (5) with ”) omitted”.
  • Concrete Example 1-3 shows a logical leap utterance in which a conclusion is missing in the logical structure divided into a plurality of utterances, and it is determined that the user did not express the confirmation action, and the human type that presented the logical leap utterance
  • a confirmation utterance is presented from a humanoid robot different from the robot and a supplementary utterance is presented from a humanoid robot presenting a logical leap forward utterance.
  • t (1) The temperature is 25 degrees.
  • a logical leap utterance with no conclusion is divided into a logical leap utterance t (1) that presents only a premise and a logical leap utterance t (3) that presents only an interpretation.
  • the dialogue system 100 presents a logic leap utterance t (1) that presents only the premise from the humanoid robot R1.
  • the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the dialogue system 100 determines that the user utterance t (2) is not a confirmation utterance, and presents a logical jump utterance t (3) that presents only an interpretation.
  • the dialogue system 100 acquires a user utterance t (4) that is an utterance of the user H with respect to the logical jump utterance t (3).
  • the dialogue system 100 determines that the user utterance t (4) is not a confirmation utterance, and the logical jump utterance from the humanoid robot R2 different from the humanoid robot R1 presenting the logical jump utterances t (1), t (3).
  • a confirmation utterance t (5) for content that requests supplementation of missing information in t (1) and t (3) is presented.
  • the dialogue system 100 presents the supplementary utterance t (6) supplementing the conclusion missing from the logic leap utterances t (1) and t (3) from the humanoid robot R1.
  • Specific example 1-4-1 shows a logical leap utterance in which a premise is missing in the logical structure, presents a part of the interpretation and conclusion omitted, and confirms the omitted part in the logical leap utterance It is an example in which it is determined that the confirmation action is expressed by the user, and a supplementary utterance with contents supplementing the omitted part in the logical jump utterance is presented.
  • the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the dialogue system 100 determines that the user utterance t (2) is a confirmation utterance of the content that confirms the omitted part in the logical jump utterance t (1), and presents the logical jump utterance t (1).
  • a supplementary utterance t (3) having contents supplementing the omitted part in the logical jump utterance t (1) from R1 is presented.
  • the dialogue system 100 acquires a user utterance t (4) that is an utterance of the user H with respect to the supplementary utterance t (3).
  • the dialog system 100 determines that neither of the user utterances t (2) and t (4) is a confirmation utterance of the content for confirming the premise that the user utterance t (1) is missing in the logical jump utterance t (1).
  • a confirmation utterance t (5) for confirming the premise missing in the logical jump utterance t (1) from the humanoid robot R2 different from the humanoid robot R1 presenting (1) is presented.
  • the dialogue system 100 presents a supplementary utterance t (6) having contents supplementing the premise missing from the humanoid robot R1 in the logical jump utterance t (1).
  • Specific example 1-4-2 shows a content that confirms a part of a logical leap utterance as a synonym when presenting a logical leap utterance with a lack of interpretation in the logical structure. It is determined that the confirmation action is expressed by the user, and the confirmation utterance of the content for confirming the missing information in the logical leap utterance is presented from the humanoid robot different from the humanoid robot that presented the logical leap utterance, and the logic This is an example in which a supplementary utterance of contents supplementing information missing in a logical leap utterance is presented from a humanoid robot that presented a leap utterance.
  • the dialogue system 100 first presents a logic leap utterance t (1) in which interpretation is missing from the humanoid robot R1 and a part of the conclusion (“replacement”) is synonymous (“are”). To do. Next, the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the dialogue system 100 is a confirmation utterance of the content that confirms the portion of the user utterance t (2) that is synonymous in the logical jump utterance t (1), but interprets the interpretation that is missing in the logical jump utterance t (1). It is determined that the confirmation utterance is not a confirmation utterance, and a missing interpretation is confirmed in the logical jump utterance t (1) from the humanoid robot R2 different from the humanoid robot R1 presenting the logical jump utterance t (1). Present content confirmation utterance t (3). Then, the dialogue system 100 presents a supplementary utterance t (4) having contents supplementing the interpretation missing from the humanoid robot R1 in the logical jump utterance t (1). Since the synonymous part (“replacement”) is explained in the user utterance t (2), the supplementary utterance t (4) supplements only the interpretation missing in the logical jump utterance t (1).
  • Specific Example 1-4-3 presented a logical leap utterance in which a logical leap utterance with no conclusion in the logical structure was divided into a plurality of utterances, determined that the user did not express a confirmation action, and presented
  • a part of the supplementary utterance is presented as a synonym in the supplementary utterance. It is an example which shows the supplementary utterance of the content to supplement.
  • the dialogue system 100 presents a logic leap utterance t (1) that presents only the premise from the humanoid robot R1.
  • the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the dialogue system 100 determines that the user utterance t (2) is not a confirmation utterance, and presents a logical jump utterance t (3) that presents only an interpretation.
  • the dialogue system 100 acquires a user utterance t (4) that is an utterance of the user H with respect to the logical jump utterance t (3).
  • the dialogue system 100 determines that the user utterance t (4) is not a confirmation utterance, and the logical jump utterance from the humanoid robot R2 different from the humanoid robot R1 presenting the logical jump utterances t (1), t (3).
  • a confirmation utterance t (5) for content that requests supplementation of missing information in t (1) and t (3) is presented.
  • the dialogue system 100 presents a supplementary utterance t (6) supplementing the conclusion missing from the logic leap utterances t (1) and t (3) from the humanoid robot R1.
  • a part of is pronounized ("are") and presented.
  • the dialogue system 100 acquires a user utterance t (7) that is an utterance of the user H with respect to the supplementary utterance t (6).
  • the dialogue system 100 determines that the user utterance t (7) is a confirmation utterance of the content that confirms the synonymous part in the supplementary utterance t (6) and presents the supplementary utterance t (6).
  • the supplementary utterance t (8) with the content supplementing the synonymous part is presented. Since the information (“air conditioner”) presented in the supplementary utterance t (6) is redundant, in the supplementary utterance t (8), only the part synonymous with the supplementary utterance t (6) will be described.
  • Specific Example 2-1 presents a logical leap utterance that lacks assumptions and interpretations in the logical structure, determines that the user has expressed confirmation behavior, and supplements utterances that supplement the assumptions and interpretations.
  • This is an example in which a plurality of humanoid robots are divided into a plurality of utterances and shared and presented.
  • a humanoid robot shares and presents a plurality of supplementary utterances it is an example of guiding the user to make an utterance that the user agrees, including questions that are difficult to deny, is there.
  • the dialogue system 100 first presents a logic leap utterance t (1) that is missing the premise and interpretation from the humanoid robot R1, and that only states the conclusion.
  • the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the dialogue system 100 determines that the user utterance t (2) is a confirmation utterance of the contents for confirming the missing information in the logical jump utterance t (1), and presents the logical jump utterance t (1).
  • the supplementary utterance of the content supplementing the premise and interpretation from the type robot R1 is divided into a plurality of utterances t (3), t (5), t (7), and t (9) and presented.
  • a supplementary utterance in a natural flow it is presented as a dialogue between the humanoid robot R1 and another humanoid robot R2.
  • the dialogue system 100 includes the supplementary utterance t (7), which is a question of the content that is difficult to deny to the user H, and induces the user to agree to the utterance t (8) that the user H agrees to. And improve the sense of dialogue.
  • Specific Example 2-2 is different from a humanoid robot that presents a logical leap utterance that lacks assumptions and interpretations in the logical structure and determines that the user did not express a confirmation action and presented a logical leap utterance This is an example in which a humanoid robot presents a confirmation utterance and a humanoid robot that presents a logical leap utterance presents a supplementary utterance.
  • the dialog system 100 is different from the humanoid robot R1 that determines that the user H does not show the confirmation action because the user H does not show the action during the predetermined time interval, and utters the logical jump utterance t (1).
  • the confirmation utterance t (3) of the content for confirming the missing information in the logic leap utterance t (1) from the humanoid robot R2 is presented.
  • the dialogue system 100 presents a supplementary utterance t (4) supplementing the premise missing in the logical jump utterance t (1) from the humanoid robot R1.
  • Specific example 3 is an example in which a topic transition word indicating that a topic is transitioned is added and presented when presenting a logical leap utterance in which a premise is missing in the logical structure. Also, the supplementary utterance is divided into a plurality of utterances and shared and presented by a plurality of humanoid robots. At that time, the user utters that the user agrees, including questions that are difficult to deny. This is an example of performing the guidance.
  • the dialogue system 100 presents the logical jump utterance t (1) that is missing the premise after presenting the topic transition word “I just came up with it” from the humanoid robot R1.
  • the dialogue system 100 acquires the user utterance t (2) that is the utterance of the user H with respect to the logical jump utterance t (1).
  • the dialogue system 100 determines that the user utterance t (2) is a confirmation utterance of the contents for confirming the missing information in the logical jump utterance t (1), and presents the logical jump utterance t (1).
  • a confirmation utterance t (3) for confirming information missing in the logical jump utterance t (1) from the humanoid robot R2 different from the type robot R1 is presented.
  • the dialogue system 100 divides and presents a supplementary utterance having contents supplementing the premise and interpretation into a plurality of utterances t (4), t (6), and t (10).
  • the dialogue system 100 guides the user H to make an utterance t (8) that the user H agrees by including a supplementary utterance t (7) that is a question of a content that is difficult to deny.
  • Specific example 4 is a confirmation that when a topic transitions, a logical leap utterance in which a common point with the previous topic as a premise of a new topic is omitted is presented, and the user confirms information that is missing in the logical leap utterance It is an example in which it is determined that an action has been expressed, and a supplementary utterance of contents supplementing information missing in a logical jump utterance is presented.
  • the dialogue system 100 presents the topic transition word “Speaking of Speaking” and is a topic that is a current affairs but less relevant to the first topic (“Former Islanders' questionnaire on the Northern Territories, Presenting a topic-guided utterance t (7) that does not include at least one of the words indicating the premise of the second topic (for example, “Return” is the majority ”) (for example,“ Motoshima questionnaire ”or“ Northern territory ”) To do.
  • the dialogue system 100 acquires a user utterance t (8) that is an utterance of the user H with respect to the logical jump utterance t (7).
  • the dialogue system 100 determines that the user utterance t (8) is a confirmation utterance of the content for confirming the premise missing in the logical jump utterance t (7), and presents the logical jump utterance t (7).
  • the supplementary utterance t (8) with the content supplementing the premise missing in the logical jump utterance t (7) from the type robot R2 is presented.
  • the interactive system 200 includes, for example, a single interactive device 2.
  • the interactive apparatus 2 according to the modification includes, for example, an input unit 10, an action recognition unit 20, an utterance determination unit 30, and a presentation unit 50.
  • the action recognition unit 20 includes, for example, a voice recognition unit 21 and an operation recognition unit 22.
  • the interactive device 2 may include, for example, a microphone 11, a camera 12, and a speaker 51.
  • the interactive apparatus 2 is an information processing apparatus such as a mobile terminal such as a smartphone or a tablet, or a desktop or laptop personal computer.
  • the interactive device 2 is a smartphone.
  • the presentation unit 50 is a liquid crystal display included in the smartphone.
  • a chat application window is displayed on the liquid crystal display, and conversation contents of the group chat are displayed in time series in the window.
  • the group chat is a function in which a plurality of accounts post a text message to each other and develop a conversation in the chat. It is assumed that a plurality of virtual accounts corresponding to a virtual personality controlled by the dialogue apparatus 2 and a user account participate in this group chat.
  • this modification is an example in which the agent is a virtual account displayed on a liquid crystal display of a smartphone that is an interactive device.
  • the user can input the utterance content to the input unit 10 which is an input area provided in the group chat window using the software keyboard, and can post to the group chat through his / her account.
  • the utterance determination unit 30 determines the utterance content from the dialogue apparatus 2 based on the posting from the user's account, and posts it to the group chat through each virtual account.
  • it is good also as a structure which uses the microphone 11 mounted in the smart phone and a speech recognition function, and a user inputs speech content to the input part 10 by speech.
  • it is good also as a structure which outputs the utterance content obtained from each dialog system from the speaker 51 by the audio
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • this program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own recording medium and executes the process according to the read program.
  • the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good.
  • ASP Application Service Provider
  • the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • the present apparatus is configured by executing a predetermined program on a computer.
  • a predetermined program on a computer.
  • at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Manipulator (AREA)

Abstract

エージェントの対話を聞き流すことを防ぎ、エージェントとの対話を理解しやすくする。対話システム100は、ユーザ101と対話を行う。人型ロボット50-1は、論理構造の一部が欠落している発話である論理飛躍発話を提示する。ユーザ101は、論理飛躍発話において欠落している情報を確認する行動である確認行動を表出する。人型ロボット50-1は、欠落している情報を説明する発話である補足発話を提示する。

Description

対話方法、対話システム、対話装置、およびプログラム
 この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。
 近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄・知識紹介、教育(例えば、子供の保育・教育、大人への一般教養教授、モラル啓発など)など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、人との会話を楽しむサービスも実施されている。このチャットサービスにロボットとの会話の技術を適用すれば、チャット相手がいなくても、ユーザとより自然に対話を行うチャットサービスの実現が可能となる。
 本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザとの対話相手となるハードウェアやユーザとの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザとの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。
 これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。
 上記のエージェントの一例として、例えば、非特許文献1に記載されたような、ユーザの発話を音声認識し、発話の意図を理解・推論して、適切な応答をする音声対話システムがある。音声対話システムの研究は、音声認識技術の進展に伴って活発に進められ、例えば音声自動応答システムなどで実用化されている。
 また、上記のエージェントの一例として、あらかじめ定められたシナリオに沿って特定の話題についてユーザと対話を行うシナリオ対話システムがある。シナリオ対話システムでは、シナリオに沿って対話が展開する限り対話を続けることが可能である。例えば、非特許文献2に記載された対話システムは、ユーザと複数のエージェント間で、エージェントによる割り込みやエージェント同士のやり取りを含めながら対話を行うシステムである。例えば、エージェントは、ユーザに対してシナリオに用意された質問を発話し、質問に対するユーザの回答の発話がシナリオに用意された選択肢に対応する場合に、その選択肢に対応する発話を行うように機能する。すなわち、シナリオ対話システムは、システムに予め記憶されたシナリオに基づいた発話をエージェントが行う対話システムである。この対話システムでは、エージェントがユーザに問いかけ、ユーザからの返答を受けた際に、ユーザの発話内容に関わらず「そっか」といった相槌で流したり、エージェントの割り込みで話題を変えたりすることで、ユーザの発話が本来の話題から外れた場合であってもストーリーの破綻をユーザに感じさせないように応答することが可能である。
 また、上記のエージェントの一例として、ユーザの発話内容に沿った発話をエージェントが行うことにより、ユーザとエージェントとが自然な対話を行う雑談対話システムがある。例えば、非特許文献3に記載された対話システムは、ユーザとエージェントとの間で行われる複数回の対話の中で文脈に特有のものをより重視しながら、ユーザまたはエージェントの発話に含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従ってシステムが発話することで、ユーザとシステムとの間で雑談対話を実現するシステムである。雑談対話システムが用いるルールは、あらかじめ記述したものだけでなく、ユーザの発話内容に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいて自動的に生成したものであってもよい。非特許文献3には、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて、自動的にルールを生成する技術が記載されている。また、例えば、非特許文献4に記載された対話システムは、人手で記述したルールと統計的発話生成手法で記述したルールを融合することで、ルール生成のコストを低減したシステムである。雑談対話システムは、シナリオ対話システムとは異なり、予め用意されたシナリオに沿った発話をエージェントが行うものではないため、ユーザの発話によっては、エージェントの発話がユーザの発話に対応しないものとなってしまうという事態は生じずに、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行うことが可能である。すなわち、雑談対話システムは、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行う対話システムである。これらの雑談対話システムでは、ユーザの発話に対して明示的に応答することが可能である。
河原達也,"話し言葉による音声対話システム",情報処理,vol. 45,no. 10,pp. 1027-1031,2004年10月 有本庸浩,吉川雄一郎,石黒浩,"複数体のロボットによる音声認識なし対話の印象評価",日本ロボット学会学術講演会,2016年 杉山弘晃,目黒豊美,東中竜一郎,南泰浩,"任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成",人工知能学会論文誌,vol. 30(1),pp. 183-194,2015年 目黒豊美,杉山弘晃,東中竜一郎,南泰浩,"ルールベース発話生成と統計的発話生成の融合に基づく対話システムの構築",人工知能学会全国大会論文集,vol. 28,pp. 1-4,2014年
 対話システムが対話の話題やシナリオを遷移させるとき、その遷移が唐突な印象を与える場合がある。また、その繋がりの良さを予測しようとしても、必ずしも妥当な評価とはならないことがある。さらに、エージェント間の対話がスムーズに繋がり続けると、あたかも小芝居を見せられているような印象を与えてしまい、対話感が減退したり、ユーザの理解が追い付かなくなったりする。
 また、対話システムによる対話は、対話が破綻することを避けるために、引っ掛かりや当たり障りのないものとなることが多く、ユーザの対話システムに対する共感度が低くなりやすい。この場合、ユーザはエージェントの発話に対してあまり納得していなくても、適当に聞き流してしまうことが多くなる。
 この発明の目的は、上述のような点に鑑みて、ユーザがエージェントの対話を聞き流すことを防ぎ、エージェントとの対話を理解しやすい対話システム、対話装置を実現することである。
 上記の課題を解決するために、この発明の対話方法は、ユーザと対話を行う対話システムが実行する対話方法であって、提示部が、論理構造の一部が欠落している発話である論理飛躍発話を提示する発話提示ステップと、提示部が、論理飛躍発話中の欠落している情報を確認する行動である確認行動が表出された後に、欠落している情報を説明する発話である補足発話を提示する補足提示ステップと、を含む。
 この発明によれば、論理構造の一部が欠落しており理解しにくい発話を意図的に提示することで、ユーザがエージェントの発話を聞き流すことを防ぐため、ユーザがエージェントとの対話を理解しやすい対話システム、対話装置を実現することが可能となる。また、エージェント間の対話であっても齟齬が生じることがあり、かつ、その状態から復帰することができることを示すため、ユーザがエージェントに対して知的な印象を持ち、エージェント間の対話を理解することが容易な対話システム、対話装置を実現することが可能となる。
図1は、実施形態の対話システムの機能構成を例示する図である。 図2は、実施形態の対話方法の処理手続きを例示する図である。 図3は、変形例の対話システムの機能構成を例示する図である。
 この発明では、対話システムが、内容が飛躍した発話(例えば、論理的に飛躍がある発話や、話題の鍵となる単語が省略された発話)を提示することで、ユーザや他のエージェントによる割り込みを促す。また、エージェント間の対話に内容が飛躍した発話を含め、エージェント間の対話に引っ掛かりを作ることで、ユーザによる割り込みを促す。もしくは、一般的に受け入れ難い主張の発話をエージェントが提示し、ユーザや他のエージェントによる割り込みを挟んで、内容を補足する発話を行う。内容が飛躍した発話や一般的に受け入れ難い主張の発話を提示する前に、話題が遷移することを示す語を提示してもよい。これにより、ユーザがエージェントの発話を聞き流すことが少なくなり、ユーザはエージェントとの対話を理解しやすくなる。また、エージェント間の対話であっても齟齬が生じることがあり、かつ、その状態から復帰できることが示されるため、ユーザはエージェントに対して知的な印象を持ち、エージェント間の対話を理解することが容易になる。
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 実施形態の対話システムは、少なくとも一台の人型ロボットがユーザとの対話を行うシステムである。すなわち、実施形態の対話システムは、エージェントが人型ロボットである場合の一例である。対話システム100は、図1に示すように、例えば、対話装置1と、マイクロホン11およびカメラ12からなる入力部10と、少なくともスピーカ51を備える提示部50とを含む。対話装置1は、例えば、行動認識部20、発話決定部30、および音声合成部40を備える。行動認識部20は、例えば、音声認識部21および動作認識部22を備える。この対話システム100が後述する各ステップの処理を行うことにより実施形態の対話方法が実現される。
 対話装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
 [入力部10]
 入力部10は提示部50と一体もしくは部分的に一体として構成してもよい。図1の例では、入力部10の一部であるマイクロホン11-1、11-2が、提示部50である人型ロボット50-1、50-2の頭部(耳の位置)に搭載されている。また、図1の例では入力部10の一部であるカメラ12が独立して設置されているが、例えば、人型ロボット50-1、50-2の頭部(目の位置)に搭載されていてもよい。図1の例では、提示部50は二台の人型ロボット50-1、50-2から構成されているが、一台の人型ロボットから構成されていてもよく、三台以上の人型ロボットから構成されていてもよい。
 入力部10は、ユーザの発話(言語的な行動)と動作(非言語的な行動)の少なくとも何れかを対話システム100が取得するためのインターフェースである。言い換えれば、入力部10は、ユーザの行動を対話システム100へ入力するためのインターフェースである。例えば、入力部10はユーザの発話音声を収音して音声信号に変換するためのマイクロホン11である。入力部10をマイクロホンとする場合、ユーザ101が発話した発話音声を収音可能とすればよい。つまり、図1は一例であって、マイクロホン11-1,11-2の何れか一方を備えないでもよい。また、ユーザ101の近傍などの人型ロボット50-1,50-2とは異なる場所に設置された1個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、マイクロホン11-1,11-2の双方を備えない構成としてもよい。マイクロホン11が、変換により得た音響信号を出力する。マイクロホン11が出力した音響信号は、行動認識部20の音声認識部21へ入力される。また、例えば、入力部10はユーザの身体的な動作を収録して映像信号に変換するためのカメラ12である。入力部10をカメラとする場合、ユーザ101の身体動作を収録可能とすればよい。つまり、図1は一例であって、カメラ12は1個のカメラでもよいし複数のカメラでもよい。カメラ12が、変換により得た映像信号を出力する。カメラ12が出力した映像信号は、行動認識部20の動作認識部22へ入力される。
 [行動認識部20]
 行動認識部20は、マイクロホン11が収音した音響信号とカメラ12が収録した映像信号の少なくとも何れかを入力として、音声認識部21と動作認識部22の少なくとも何れかを用いて、ユーザの行動内容を表す情報を得て、発話決定部30に対して出力する。
 [音声認識部21]
 音声認識部21は、マイクロホン11から入力された音響信号を音声認識し、認識結果として得たテキストを出力する。音声認識部21が出力したテキストは、行動認識部20が出力するユーザの行動内容を表す情報に含められる。音声認識部21が行う音声認識の方法は、既存のいかなる音声認識技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。なお、音響信号に音声が含まれない場合には、認識結果としてテキストは得られないため、音声認識部21はテキストを出力せず、行動認識部20が出力するユーザの行動内容を表す情報にはテキストは含まれない。
 [動作認識部22]
 動作認識部22は、カメラ12から入力された映像信号を動作認識し、ユーザの動作内容を表す情報を得て出力する。動作認識部22が出力したユーザの動作内容を表す情報は、行動認識部20が出力するユーザの行動内容を表す情報に含められる。動作認識部22が行う動作認識の方法は、例えば、ユーザの表情などの変化などを利用する方法である。この方法では、動作認識部22は、入力された映像信号からユーザの顔の時系列の画像を取得し、取得した時系列の画像から特徴(例えば、瞳孔の大きさ、目尻の位置、目頭の位置、口角の位置、口の開き具合等)の変化であるユーザの動作内容を取得する。動作認識部22は、入力された映像信号中の各時刻に対応するユーザの動作内容を得て、ユーザの動作内容を表す時系列のデータを生成し、生成した時系列データをユーザの動作内容を表す情報として出力する。ただし、上記の動作認識の方法は一例であり、動作認識部22が行う動作認識の方法は、既存のいかなる動作認識技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
 [発話決定部30]
 発話決定部30は、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。行動認識部20からユーザの行動内容を表す情報が入力された場合には、入力されたユーザの行動内容を表す情報に基づいて、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。なお、対話システム100の提示部50が複数の人型ロボットで構成される場合には、発話決定部30は、当該発話をいずれの人型ロボットが提示するかを決定してもよい。この場合には、当該発話を提示する人型ロボットを表す情報も併せて音声合成部40へ出力する。また、この場合には、発話決定部30は、当該発話を提示する相手、すなわち、当該発話をユーザに対して提示するのか、何れかの人型ロボットに対して提示するのか、を決定してもよい。この場合には、当該発話を提示する相手を表す情報も併せて音声合成部40へ出力する。
 [音声合成部40]
 音声合成部40は、発話決定部30から入力された発話内容を表すテキストを、発話内容を表す音声信号に変換し、提示部50に対して出力する。音声合成部40が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。なお、対話システム100の提示部50が複数の人型ロボットで構成される場合に、発話決定部30から発話内容を表すテキストと共に当該発話を提示する人型ロボットを表す情報が入力された場合には、音声合成部40は、当該情報に対応する人型ロボットへ発話内容を表す音声信号を出力する。また、発話決定部30から発話内容を表すテキストと当該発話を提示する人型ロボットを表す情報に併せて発話を提示する相手を表す情報も入力された場合には、音声合成部40は、当該情報に対応する人型ロボットへ発話内容を表す音声信号と発話を提示する相手を表す情報を出力する。
 [提示部50]
 提示部50は、発話決定部30が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部50は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部40から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ51から発音する、すなわち、発話を提示する。スピーカ51は、音声合成部40から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図1は一例であって、スピーカ51-1,51-2の何れか一方を備えないでもよい。また、ユーザ101の近傍などの人型ロボット50-1,50-2とは異なる場所に1個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、スピーカ51-1,51-2の双方を備えない構成としてもよい。また、人型ロボットは、顔の表情や、身体の動作等の非言語的な行動により発話決定部30が決定した発話内容をユーザへ提示してもよい。例えば、直前の発話に対して同意する旨を提示する際には、首を縦に振り、同意しない旨を提示する際には、首を横に振るなどの非言語的な行動を提示することが挙げられる。また、人型ロボットは、発話を提示する際に、顔や体全体をユーザまたは他の人型ロボットの方へ向けることで、顔や身体を向いた方にいるユーザまたは他の人型ロボットに対して発話を提示していることを表現することができる。提示部50を人型ロボットとした場合には、例えば、対話に参加する人格(エージェント)ごとに一台の人型ロボットを用意する。以下では、二人の人格が対話に参加する例として、二台の人型ロボット50-1および50-2が存在するものとする。なお、対話システム100の提示部50が複数の人型ロボットで構成される場合に、発話決定部30が当該発話をいずれの人型ロボットから提示するかを決定していた場合には、音声合成部40が出力した発話内容を表す音声信号を受け取った人型ロボット50-1または50-2が当該発話を提示する。また、発話決定部30が決定した発話を提示する相手を表す情報も入力された場合には、人型ロボット50-1または50-2は、発話を提示する相手を表す情報に対応する人型ロボットまたはユーザの発話に顔や視線を向けた状態で、発話を提示する。
 以下、図2を参照して、実施形態の対話方法の処理手続きを説明する。
 ステップS1において、対話システム100は、論理飛躍発話の内容を表す音声を、人型ロボット50-1が備えるスピーカ51-1から出力する、すなわち、論理飛躍発話を提示する。論理飛躍発話とは、論理構造の一部が欠落している発話である。論理構造とは、例えば、前提、解釈、結論からなる文構造である。論理飛躍発話の内容を表す音声は、発話決定部30が決定した論理飛躍発話の内容を表すテキストを音声合成部40が音声信号に変換したものである。論理飛躍発話の内容を表すテキストは、発話決定部30が通常の手順で決定した発話内容を表すテキストから、その論理構造を解析して一部の情報をマスク(例えば、省略、代名詞化など)することで生成することができる。
 発話内容を表すテキストは、発話決定部30が、例えば、あらかじめ定められ発話決定部30内の図示しない記憶部に記憶された定型文から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。直前までの発話内容に応じて発話内容を決定する技術は、従来の対話システムにおいて用いられているものを利用すればよく、例えば、非特許文献2に記載されたシナリオ対話システムや非特許文献3または4に記載された雑談対話システムなどを用いることができる。発話決定部30がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部30は、直前の5発話程度を含む対話について、各発話に含まれる単語や各発話を構成する焦点語と発話決定部30内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより発話内容を表すテキストを決定する。発話決定部30が雑談対話システムにおいて用いられている技術を用いる場合は、発話決定部30は、例えば、ユーザの発話に含まれる単語をトリガーとして、あらかじめ記述して発話決定部30内の図示しない記憶部に記憶しておいたルールに従って発話内容を表すテキストを決定してもよいし、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて自動的にルールを生成し、そのルールに従って発話内容を表すテキストを決定してもよい。
 発話内容を表すテキストは、前提、解釈、結論をすべて含む一文から構成されていてもよいし、複数の文を組み合わせることにより前提、解釈、結論を含む一つの文章として構成されていてもよい。例えば、人間同士の対話であっても、直前までの対話で扱っていた話題から他の話題へ遷移しようとする場合、直前の話題を想起させるキーワードを省略して発話されることがある。このとき、話題間の関連が薄いと、何の話題についての発話であるのか理解できない。このような発話は、直前までの話題と提示した発話の話題とに共通点があるという前提が欠落しているものと捉えることができる。
 論理飛躍発話が、直前までの対話で扱っていた話題から他の話題へ遷移させる内容の発話である場合、論理飛躍発話の先頭に、話題が遷移したことを表す話題遷移語を付加してもよい。話題遷移語としては、例えば、「そういえば」「今思いついたんだけど」などが挙げられる。
 ステップS2において、行動認識部20は、マイクロホン11が取得した音響信号と、カメラ12が取得した映像信号の少なくとも何れかに基づいて、ユーザの行動内容を表す情報を得て出力する、すなわち、行動認識部20はユーザの行動を認識してユーザの行動内容を表す情報を得て出力する。行動認識部20内の音声認識部21は、マイクロホン11が取得した音響信号のうちの、提示部50が論理飛躍発話を提示した後の所定時間区間の音響信号を音声認識し、認識結果として得たテキストを、ユーザの発話内容を表すテキストとして行動認識部20の出力とする。行動認識部20内の動作認識部22は、カメラ12が取得した映像信号のうちの、提示部50が論理飛躍発話を提示した後の所定時間区間の映像信号を動作認識し、認識結果として得た各時刻におけるユーザの動作内容を表す時系列のデータを、ユーザの動作内容を表す情報として行動認識部20の出力とする。所定時間区間は、論理飛躍発話に対するユーザの言語行動や非言語行動を取得できるのに十分な時間(例えば3秒程度から10秒程度)を予め設定しておけばよい。なお、所定時間区間を0秒とし、論理飛躍発話に対するユーザの行動を取得しないようにしてもよい。行動認識部20が出力するユーザの行動内容を表す情報は、発話決定部30に入力される。
 ステップS3において、発話決定部30は、入力されたユーザの行動内容を表す情報に基づいて、すなわち、入力されたユーザの行動内容を表す情報に含まれるユーザの発話内容を表すテキストとユーザの動作内容を表す時系列のデータの少なくとも何れかに基づいて、論理飛躍発話に対して所定時間区間にユーザが確認行動を表出したか否かを判定する。
 確認行動が言語的な行動である場合には、確認行動のことを確認発話と呼ぶ。確認発話は、例えば、論理飛躍発話において欠落している情報を確認する内容の発話(質問文など)、論理飛躍発話において欠落している情報の補足を求める内容の発話(質問文など)、論理飛躍発話において欠落している情報の確認をしたいと感じていることが推察される内容の発話、論理飛躍発話において欠落している情報が補足されることが望ましいと感じていることが推察される内容の発話、である。確認行動が非言語的な行動である場合には、確認行動のことを確認動作と呼ぶ。確認動作は、例えば、目を見開いて、口をあけて、何か言いたげな表情をする動作、である。発話決定部30内の図示しない記憶部には、例えば先に例示したような、1つ以上の確認発話と1つ以上の確認動作との少なくとも何れかを予め記憶しておく。
 発話決定部30が、論理飛躍発話に対して所定時間区間にユーザが確認行動をしたか否かを、ユーザの言語的な行動に基づいて判定する場合には、例えば、以下のようにして判定する。発話決定部30は、ユーザの行動内容を表す情報からユーザの発話内容を表すテキストを取得し、取得したテキストが発話決定部30内の図示しない記憶部に記憶された確認発話に対応する場合には、ユーザが確認行動をしたと判定し、取得したテキストが発話決定部30内の図示しない記憶部に記憶された確認発話に対応しない場合には、ユーザが確認行動をしなかったと判定する。
 発話決定部30が、論理飛躍発話に対して所定時間区間にユーザが確認行動を表出したか否かを、ユーザの非言語的な行動に基づいて判定する場合には、例えば、以下のようにして判定する。発話決定部30は、ユーザの行動内容を表す情報からユーザの動作内容を表す時系列のデータを取得し、取得した動作内容を表す時系列のデータが発話決定部30内の図示しない記憶部に記憶された確認動作に対応する場合には、ユーザが確認行動をしたと判定し、取得した動作内容を表す時系列のデータが発話決定部30内の図示しない記憶部に記憶された確認動作に対応しない場合には、ユーザが確認行動をしなかったと判定する。
 行動認識部20が音声認識部21と動作認識部22の両方を備える場合には、発話決定部30は、上記のユーザの言語的な行動に基づく判定と上記のユーザの非言語的な行動に基づく判定との両方の判定結果に基づいて、論理飛躍発話に対して所定時間区間にユーザが確認行動をしたか否かの判定結果を得てもよい。例えば、発話決定部30は、上記のユーザの言語的な行動に基づく判定と上記のユーザの非言語的な行動に基づく判定の少なくとも何れかの判定でユーザが確認行動をしたと判定した場合に、論理飛躍発話に対して所定時間区間にユーザが確認行動をしたと判定し、それ以外の場合に、論理飛躍発話に対して所定時間区間にユーザが確認行動をしなかったと判定する。
 なお、所定時間区間を0秒とし、行動認識部20が論理飛躍発話に対するユーザの行動を取得しないようにした場合には、ユーザの行動内容を表す情報にはユーザの発話内容やユーザの動作内容は含まれないため、発話決定部30は、以降は、ユーザが確認行動をしなかったと判定した場合と同じ動作をする。
 発話決定部30は、ステップS3においてユーザが確認行動をしたと判定した場合(YES)にはステップS4とステップS5とを行わずにステップS6を行い、ステップS3においてユーザが確認行動をしたと判定した場合(NO)にはステップS4とステップS5とを行ってからステップS6を行う。
 ステップS4において、発話決定部30は、論理飛躍発話の内容を表すテキストに基づいて確認発話の内容を表すテキストを決定し、決定したテキストを出力する。例えば、発話決定部30は、発話決定部30内の図示しない記憶部に論理飛躍発話の内容を表すテキストと組にして記憶された確認発話の内容を表すテキストを取得することで、確認発話の内容を表すテキストを決定する。発話決定部30は、確認発話を提示する人型ロボットを決定してもよい。この場合は、発話決定部30は、確認発話を提示する人型ロボットも決定し、補足発話を提示する人型ロボットを指定する情報も出力する。例えば、発話決定部30は、確認発話を提示する人型ロボットとして、論理飛躍発話を提示した人型ロボット50-1とは異なる他の人型ロボット50-2を決定し、補足発話を提示する人型ロボットが人型ロボット50-2であることを指定する情報も出力する。
 ステップS5において、音声合成部40は、発話決定部30が決定した確認発話の内容を表すテキストを確認発話の内容を表す音声信号に変換して出力し、提示部50は、音声合成部40が出力した確認発話の内容を表す音声信号に対応する確認発話の内容を表す音声を出力する。例えば、提示部50は、音声合成部40が出力した音声信号に対応する確認発話の内容を表す音声を、論理飛躍発話を提示した人型ロボット50-1とは異なる人型ロボット50-2が備えるスピーカ51-2から出力する。発話決定部30が人型ロボットを指定する情報を出力した場合には、音声合成部40が出力した音声信号と発話決定部30が出力した人型ロボットを指定する情報とに基づき、確認発話の内容を表す音声を、発話決定部30が指定した人型ロボット(50-1または50-2)が備えるスピーカ(51-1または51-2)から出力する。
 すなわち、ステップS4とS5によって、所定時間区間においてユーザ101が確認発話を発話しなかった場合、対話システム100は、確認発話の内容を表す音声を、論理飛躍発話を提示した人型ロボット50-1とは異なる他の人型ロボット50-2が備えるスピーカ51-2から出力する。ただし、対話システム100がステップS4とS5を行うのは必須ではなく、所定時間区間においてユーザ101が確認発話を発話しなかった場合でも対話システム100が確認発話を行わないようにしてもよい。
 ステップS6において、発話決定部30は、論理飛躍発話の内容を表すテキストおよび確認発話の内容を表すテキストに基づいて、補足発話の内容を表すテキストを決定し、決定したテキストを出力する。補足発話とは、論理飛躍発話において欠落している情報を補足する内容の発話である。補足発話は1つの発話であっても複数の発話であってもよい。発話決定部30は、補足発話を提示する人型ロボットを決定してもよい。この場合は、発話決定部30は、論理飛躍発話を提示した人型ロボットが何れの人型ロボットであるか、確認発話を提示した人型ロボットが何れの人型ロボットであるか、などに基づいて、補足発話を提示する人型ロボットも決定し、補足発話を提示する人型ロボットを指定する情報も出力する。補足発話が複数の発話である場合には、発話決定部30は、それぞれの発話について、提示する人型ロボットを決定し、提示する人型ロボットを指定する情報を出力する。
 ステップS7において、音声合成部40は、発話決定部30が決定した確認発話の内容を表すテキストを音声信号に変換して出力し、提示部50は、音声合成部40が出力した音声信号に対応する補足発話の内容を表す音声を出力する。例えば、提示部50は、音声合成部40が出力した音声信号に対応する補足発話の内容を表す音声を、論理飛躍発話を提示した人型ロボット50-1が備えるスピーカ51-1から出力する。発話決定部30が人型ロボットを指定する情報も出力した場合には、音声合成部40が出力した音声信号と発話決定部30が出力した人型ロボットを指定する情報とに基づき、補足発話の内容を表す音声を、発話決定部30が指定した人型ロボット(50-1または50-2)が備えるスピーカ(51-1または51-2)から出力する。
 補足発話には、論理飛躍発話において欠落している情報に関して、ユーザ101が同意しやすい内容の質問を含めてもよい。この質問がユーザに向けて提示されれば、ユーザは補足発話の内容に対して同意する旨を発話する可能性が高く、そうなることで、補足発話による説明に対してユーザが持つ納得感を増す効果がある。また、肯定的な内容を発話することで対話感も向上する。
 [具体例]
 以下、実施形態の対話システムによる対話内容の具体例を示す。以降の具体例の記載では、Rはロボットを表し、Hはユーザを表す。Rの後の数字は人型ロボットの識別子である。t(i)(i=0, 1, 2, …)は対話中の発話を表し、iは発話の順番を表す数字である。右矢印(→)は発話相手を表す。例えば、「R1→H」であれば、人型ロボットR1がユーザHに向けて発話することを表す。
 具体例1-1~1-4-3では、以下の論理構造の発話内容を想定している。
   前提:気温が25度である
   解釈:エアコンが効いていない
   結論:エアコンを買い替える
 (具体例1-1)
 具体例1-1は、論理構造のうち前提が欠落した論理飛躍発話を提示し、ユーザが確認行動を表出しなかったと判定して、論理飛躍発話を提示した人型ロボットとは異なる人型ロボットから確認発話を提示し、論理飛躍発話を提示した人型ロボットから補足発話を提示する例である。
   t(1) R1:エアコン、買い替えてください。エアコン、効いてないですよね?
   t(2) H:そうかな
   t(3) R2:ねぇ、なんでそう思うの?
   t(4) R1:だって、気温、25度ですよ
   t(5) R2:そういうことか。でも、我慢した方がエコだよ。
 この例では、まず、対話システム100は、人型ロボットR1から前提が欠落した論理飛躍発話t(1)を提示する。この論理飛躍発話t(1)は、いきなり結論「エアコン、買い替えてください。」を述べ、その後に解釈「エアコン、効いてないですよね?」を述べており、前提が欠落している。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が確認発話ではないと判定し、論理飛躍発話t(1)を提示した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1)において欠落している情報の補足を求める内容の確認発話t(3)を提示する。そして、対話システム100は、人型ロボットR1から論理飛躍発話t(1)において欠落している前提を補足する内容の補足発話t(4)を提示する。
 (具体例1-2-1)
 具体例1-2-1は、論理構造のうち解釈が欠落した論理飛躍発話を提示し、論理飛躍発話後にユーザが表出する行動を取得せずに、論理飛躍発話を提示した人型ロボットとは異なる人型ロボットから確認発話を提示し、論理飛躍発話を提示した人型ロボットから補足発話を提示する例である。
   t(1) R1:気温、25度ですよ。エアコン、買い替えてください。
   t(2) R2:ねぇ、なんでそう思うの?
   t(3) R1:エアコン、効いてないってことでしょ
   t(4) R2:そういうことか。でも、我慢した方がエコだよ。
 この例では、まず、対話システム100は、人型ロボットR1から解釈が欠落した論理飛躍発話t(1)を提示する。この論理飛躍発話t(1)は、前提「気温、25度ですよ。」から結論「エアコン、買い替えてください。」へ飛躍しており、解釈が欠落している。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの行動を取得せずに、論理飛躍発話t(1)を提示した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1)において欠落している情報の補足を求める内容の確認発話t(2)を提示する。そして、対話システム100は、人型ロボットR1から論理飛躍発話t(1)において欠落している解釈を補足する内容の補足発話t(3)を提示する。
 (具体例1-2-2)
 具体例1-2-2は、論理構造のうち解釈が欠落した論理飛躍発話を提示し、ユーザが確認行動を表出したと判定して、論理飛躍発話を提示した人型ロボットから補足発話を提示する例である。
   t(1) R1:気温、25度ですよ。エアコン、買い替えてください。
   t(2) H:え、急にそんなこと言われても
   t(3) R1:エアコン、効いてないってことでしょ
   t(4) H:そういうことか
   t(5) R2:でも、我慢した方がエコだよ。
 この例では、まず、対話システム100は、具体例1-2-1と同様に、人型ロボットR1から解釈が欠落した論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が、論理飛躍発話t(1)において欠落している情報の確認をしたいと感じていることが推察される内容の確認発話t(2)であると判定し、確認発話を提示しない。次に、対話システム100は、人型ロボットR1から論理飛躍発話t(1)において欠落している解釈を補足する内容の補足発話t(3)を提示する。さらに、対話システム100は、ユーザHが補足発話t(3)に納得した旨を表す発話t(4)を行ったため、人型ロボットR2から本来の発話内容から納得した旨を表す部分(「そういうことか。」)を省略した発話t(5)を提示する。
 (具体例1-3)
 具体例1-3は、論理構造のうち結論が欠落した論理飛躍発話を複数の発話に分割して提示し、ユーザが確認行動を表出しなかったと判定して、論理飛躍発話を提示した人型ロボットとは異なる人型ロボットから確認発話を提示し、論理飛躍発話を提示した人型ロボットから補足発話を提示する例である。
   t(1) R1:気温、25度ですよ。
   t(2) H:うん
   t(3) R1:エアコン、効いてないってことですよね
   t(4) H:そうかもね
   t(5) R2:ねぇ、何か言いたいことあるの?
   t(6) R1:うん、エアコン、買い替えて下さい
   t(7) R2:そういうことか。でも、我慢した方がエコだよ。
 この例では、結論が欠落した論理飛躍発話を、前提のみを提示する論理飛躍発話t(1)と解釈のみを提示する論理飛躍発話t(3)とに分割して提示する。まず、対話システム100は、人型ロボットR1から前提のみを提示する論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が確認発話ではないと判定し、解釈のみを提示する論理飛躍発話t(3)を提示する。次に、対話システム100は、論理飛躍発話t(3)に対するユーザHの発話であるユーザ発話t(4)を取得する。対話システム100は、ユーザ発話t(4)が確認発話ではないと判定し、論理飛躍発話t(1), t(3)を提示した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1), t(3)において欠落している情報の補足を求める内容の確認発話t(5)を提示する。そして、対話システム100は、人型ロボットR1から論理飛躍発話t(1), t(3)において欠落している結論を補足する内容の補足発話t(6)を提示する。
 (具体例1-4-1)
 具体例1-4-1は、論理構造のうち前提が欠落した論理飛躍発話を提示する際に、解釈と結論の一部を省略して提示し、論理飛躍発話において省略した部分を確認する内容の確認行動をユーザが表出したと判定して、論理飛躍発話において省略した部分を補足する内容の補足発話を提示する例である。さらに、論理飛躍発話において欠落している情報を確認する内容の確認行動をユーザが表出しなかったと判定して、論理飛躍発話を提示した人型ロボットとは異なる人型ロボットから論理飛躍発話において欠落している情報を確認する内容の確認発話を提示し、論理飛躍発話を提示した人型ロボットから論理飛躍発話において欠落している情報を補足する内容の補足発話を提示する例である。
   t(1) R1:買い替えて下さい。効いてないですよね?
   t(2) H:何の話?
   t(3) R1:エアコンですよ
   t(4) H:ああ、エアコンね
   t(5) R2:ねぇ、なんでそう思うの?
   t(6) R1:だって、気温、25度ですよ
   t(7) R2:そういうことか。でも、我慢した方がエコだよ。
 この例では、まず、対話システム100は、人型ロボットR1から前提が欠落しており、解釈と結論の一部(「エアコン」)を省略した論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が、論理飛躍発話t(1)において省略した部分を確認する内容の確認発話であると判定し、論理飛躍発話t(1)を提示した人型ロボットR1から論理飛躍発話t(1)において省略した部分を補足する内容の補足発話t(3)を提示する。次に、対話システム100は、補足発話t(3)に対するユーザHの発話であるユーザ発話t(4)を取得する。対話システム100は、ユーザ発話t(2), t(4)がいずれも、論理飛躍発話t(1)において欠落している前提を確認する内容の確認発話ではないと判定し、論理飛躍発話t(1)を提示した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1)において欠落している前提を確認する内容の確認発話t(5)を提示する。そして、対話システム100は、人型ロボットR1から論理飛躍発話t(1)において欠落している前提を補足する内容の補足発話t(6)を提示する。
 (具体例1-4-2)
 具体例1-4-2は、論理構造のうち解釈が欠落した論理飛躍発話を提示する際に、結論の一部を代名詞化して提示し、論理飛躍発話において代名詞化した部分を確認する内容の確認行動をユーザが表出したと判定して、論理飛躍発話を提示した人型ロボットとは異なる人型ロボットから論理飛躍発話において欠落している情報を確認する内容の確認発話を提示し、論理飛躍発話を提示した人型ロボットから論理飛躍発話において欠落している情報を補足する内容の補足発話を提示する例である。
   t(1) R1:気温、25度ですよ。エアコン、アレしてください。
   t(2) H:え、買い替えてってこと?
   t(3) R2:ねぇ、なんでそう思うの?
   t(4) R1:エアコン、効いてないってことでしょ
   t(5) R2:そういうことか。でも、我慢した方がエコだよ。
 この例では、まず、対話システム100は、人型ロボットR1から解釈が欠落しており、結論の一部(「買い替え」)を代名詞化(「アレ」)した論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が、論理飛躍発話t(1)において代名詞化した部分を確認する内容の確認発話であるが、論理飛躍発話t(1)において欠落している解釈を確認する内容の確認発話ではないと判定し、論理飛躍発話t(1)を提示した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1)において欠落している解釈を確認する内容の確認発話t(3)を提示する。そして、対話システム100は、人型ロボットR1から論理飛躍発話t(1)において欠落している解釈を補足する内容の補足発話t(4)を提示する。代名詞化した部分(「買い替え」)についてはユーザ発話t(2)で説明されているため、補足発話t(4)では、論理飛躍発話t(1)で欠落している解釈のみを補足する。
 (具体例1-4-3)
 具体例1-4-3は、論理構造のうち結論が欠落した論理飛躍発話を複数の発話に分割して提示し、ユーザが確認行動を表出しなかったと判定して、論理飛躍発話を提示した人型ロボットとは異なる人型ロボットから確認発話を提示し、論理飛躍発話を提示した人型ロボットから論理飛躍発話において欠落している結論を補足する内容の補足発話を提示する際に、結論の一部を代名詞化して提示し、補足発話において代名詞化した部分を確認する確認行動をユーザが表出したと判定して、論理飛躍発話を提示した人型ロボットから補足発話において代名詞化した部分を補足する内容の補足発話を提示する例である。
   t(1) R1:気温、25度ですよ
   t(2) H:うん
   t(3) R1:エアコン、効いてないってことですよね
   t(4) H:そうかもね
   t(5) R2:ねぇ、何か言いたいことあるの?
   t(6) R1:うん、エアコン、アレしてください
   t(7) H:アレ?
   t(8) R1:買い替えて下さい
   t(9) R2:そういうことか。でも、我慢した方がエコだよ。
 この例では、結論が欠落した論理飛躍発話を、前提のみを提示する論理飛躍発話t(1)と解釈のみを提示する論理飛躍発話t(3)とに分割して提示する。まず、対話システム100は、人型ロボットR1から前提のみを提示する論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が確認発話ではないと判定し、解釈のみを提示する論理飛躍発話t(3)を提示する。次に、対話システム100は、論理飛躍発話t(3)に対するユーザHの発話であるユーザ発話t(4)を取得する。対話システム100は、ユーザ発話t(4)が確認発話ではないと判定し、論理飛躍発話t(1), t(3)を提示した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1), t(3)において欠落している情報の補足を求める内容の確認発話t(5)を提示する。そして、対話システム100は、人型ロボットR1から論理飛躍発話t(1), t(3)において欠落している結論を補足する内容の補足発話t(6)を提示するが、このとき、結論の一部を代名詞化(「アレ」)して提示する。次に、対話システム100は、補足発話t(6)に対するユーザHの発話であるユーザ発話t(7)を取得する。対話システム100は、ユーザ発話t(7)が、補足発話t(6)において代名詞化した部分を確認する内容の確認発話であると判定し、補足発話t(6)を提示した人型ロボットR1から補足発話t(6)において代名詞化した部分を補足する内容の補足発話t(8)を提示する。補足発話t(6)で提示した情報(「エアコン」)については冗長になるため、補足発話t(8)では補足発話t(6)において代名詞化した部分のみを説明する。
 (具体例2-1)
 具体例2-1は、論理構造のうち前提と解釈とが欠落した論理飛躍発話を提示し、ユーザが確認行動を表出したと判定して、前提と解釈とを補足する内容の補足発話を複数の発話に分割して複数の人型ロボットが分担して提示する例である。さらに、人型ロボットが複数の補足発話を分担して提示する際に、ユーザに対して否定し難い内容の質問を含め、ユーザが同意する旨の発話を行うように誘導することを行う例である。
   t(1) R1:人間は必ずしも生身の体を必要としていないよね
   t(2) H:どういうこと?
   t(3) R1:だって、最近は二次元で生きてる人も多いじゃん
   t(4) R2:まあ、そうっちゃそうだけど
   t(5) R1:VRも最近すごいしね
   t(6) R2:あれはすごいね
   t(7) R1→H:それに、仕事だって、人間はみんな何か道具を使って仕事してるじゃない?あなたもそうだよね?
   t(8) H:まあ、そうだね
   t(9) R1:生身の体がなくても快楽が得られるし、仕事をできるし、あんまり必要そうには見えないなあと思ったんだ
   t(10) R2:まあ、そういわれるとそうかなあ
 この例では、まず、対話システム100は、人型ロボットR1から前提と解釈とが欠落しており、結論だけを述べる論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が、論理飛躍発話t(1)において欠落している情報を確認する内容の確認発話であると判定し、論理飛躍発話t(1)を提示した人型ロボットR1から前提と解釈とを補足する内容の補足発話を複数の発話t(3), t(5), t(7), t(9)に分割して提示する。このとき、自然な流れで補足発話を提示するために、人型ロボットR1と他の人型ロボットR2との対話として提示する。さらに、対話システム100は、ユーザHに対する否定し難い内容の質問である補足発話t(7)を含めることで、ユーザHが同意する旨の発話t(8)を行うように誘導し、納得感や対話感の向上を図っている。
 (具体例2-2)
 具体例2-2は、論理構造のうち前提と解釈とが欠落した論理飛躍発話を提示し、ユーザが確認行動を表出しなかったと判定して、論理飛躍発話を提示した人型ロボットとは異なる人型ロボットが確認発話を提示し、論理飛躍発話を提示した人型ロボットが補足発話を提示する例である。
   t(1) R1:人間は必ずしも生身の体を必要としていないよね
   t(2) H:(沈黙)
   t(3) R2:どういうこと?
   t(4) R1:だって、最近は二次元で生きてる人も多いじゃん
   t(5) R2:まあ、そうっちゃそうだけど
 この例は、具体例2-1において、ユーザHが確認行動を表出しなかった場合の例である。まず、対話システム100は、人型ロボットR1から前提と解釈とが欠落しており、結論だけを述べる論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、所定時間区間において、ユーザHが行動を表出しなかったため、ユーザHが確認行動を表出しなかったと判定し、論理飛躍発話t(1)を発話した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1)において欠落している情報を確認する内容の確認発話t(3)を提示する。そして、対話システム100は、人型ロボットR1から論理飛躍発話t(1)において欠落している前提を補足する内容の補足発話t(4)を提示する。
 (具体例3)
 具体例3は、論理構造のうち前提が欠落した論理飛躍発話を提示する際に、話題が遷移することを表す話題遷移語を付加して提示する例である。また、補足発話を複数の発話に分割して複数の人型ロボットが分担して提示し、その際に、ユーザに対して否定し難い内容の質問を含め、ユーザが同意する旨の発話を行うように誘導することを行う例である。
   t(1) R1:今思い付いたんだけど、みんなロボットなら人間はもっとゆったり生きられるかもね
   t(2) H:ん?
   t(3) R2:何の話してるのさ?
   t(4) R1:ああ、ごめん。仕事の話。年末年始もお店の人たちはなかなか休めてないじゃない?
   t(5) R2:うん
   t(6) R1:そういうところで、多少質は落ちても、ロボットが代わりに働けば、きっと人はうれしいと思うんだ
   t(7) R2→H:うーん、うれしい?
   t(8) H:そりゃ、まあね
   t(9) R2:ふーん、そっか、そういうもんか
   t(10) R1:ま、お正月をロボットと過ごしたい人が増えてくれば、またちょっと違うかもしれないけどね
 この例では、まず、対話システム100は、人型ロボットR1から話題遷移語「今思い付いたんだけど」を提示した後に、前提が欠落している論理飛躍発話t(1)を提示する。次に、対話システム100は、論理飛躍発話t(1)に対するユーザHの発話であるユーザ発話t(2)を取得する。対話システム100は、ユーザ発話t(2)が、論理飛躍発話t(1)において欠落している情報を確認する内容の確認発話であると判定し、論理飛躍発話t(1)を提示した人型ロボットR1とは異なる人型ロボットR2から論理飛躍発話t(1)において欠落している情報を確認する内容の確認発話t(3)を提示する。次に、対話システム100は、前提と解釈とを補足する内容の補足発話を複数の発話t(4), t(6), t(10)に分割して提示する。このとき、自然な流れで補足発話を提示するために、人型ロボットR1と他の人型ロボットR2との対話として提示する。さらに、対話システム100は、ユーザHに対して否定し難い内容の質問である補足発話t(7)を含めることで、ユーザHが同意する旨の発話t(8)を行うように誘導する。
 (具体例4)
 具体例4は、話題が遷移する際に、新しい話題の前提である直前の話題との共通点を省略した論理飛躍発話を提示し、ユーザが論理飛躍発話において欠落している情報を確認する確認行動を表出したと判定して、論理飛躍発話において欠落している情報を補足する内容の補足発話を提示する例である。
   t(1) R1:沖縄でね
   t(2) H:ん?
   t(3) R1:訓練中の輸送機が墜落したの知ってる?
   t(4) H:うわ、まじか、知らなかったなー
   t(5) R2:聞いた聞いた、二人怪我したんだってね
   t(6) R1:こわいねえ
   t(7) R2:そういえば、「まず二島返還」が多数だったってよ
   t(8) H:ん?北方領土?
   t(9) R2:そうそう、元島民アンケート
   t(10) R1:どうかなあ
 この例では、まず、対話システム100は、ある時事問題に関する話題(「沖縄で輸送機が墜落」)を第一の話題とした対話t(1)~t(6)をユーザHとの間で実行する。次に、対話システム100は、話題遷移語「そういえば」を提示し、時事問題ではあるものの第一の話題とは関連性が低い話題(「北方領土に関する元島民のアンケートで、「まず二島返還」が多数派」)である第二の話題の前提を示す単語のうちの少なくとも1つ(例えば「元島民アンケート」や「北方領土」など)を含まない話題誘導発話t(7)を提示する。次に、対話システム100は、論理飛躍発話t(7)に対するユーザHの発話であるユーザ発話t(8)を取得する。対話システム100は、ユーザ発話t(8)が、論理飛躍発話t(7)において欠落している前提を確認する内容の確認発話であると判定し、論理飛躍発話t(7)を提示した人型ロボットR2から論理飛躍発話t(7)において欠落している前提を補足する内容の補足発話t(8)を提示する。
 [変形例]
 上述した実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、上述した実施形態の提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」(登録商標)や「2ちゃんねる」(登録商標)のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。
 変形例の対話システム200は、図3に示すように、例えば、一台の対話装置2からなる。変形例の対話装置2は、例えば、入力部10、行動認識部20、発話決定部30、および提示部50を備える。行動認識部20は、例えば、音声認識部21および動作認識部22を備える。対話装置2は、例えば、マイクロホン11、カメラ12、スピーカ51を備えていてもよい。
 変形例の対話装置2は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置2がスマートフォンであるものとして説明する。提示部50はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置2が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いてグループチャットのウィンドウ内に設けられた入力エリアである入力部10へ発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。発話決定部30はユーザのアカウントからの投稿に基づいて対話装置2からの発話内容を決定し、各仮想アカウントを通じてグループチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホン11と音声認識機能を用い、ユーザが発声により入力部10へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカ51と音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカ51から出力する構成としてもよい。
 以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、提示部が提示する発話順を除いて、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
 上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1.  ユーザと対話を行う対話システムが実行する対話方法であって、
     提示部が、論理構造の一部が欠落している発話である論理飛躍発話を提示する発話提示ステップと、
     上記提示部が、上記論理飛躍発話において欠落している情報を確認する行動である確認行動が表出された後に、上記欠落している情報を説明する発話である補足発話を提示する補足提示ステップと、
     を含む対話方法。
  2.  請求項1に記載の対話方法であって、
     上記論理飛躍発話は、前提、解釈、および結論からなる論理構造のうち少なくともいずれか一つに関する情報が欠落している発話である、
     対話方法。
  3.  請求項1または2に記載の対話方法であって、
     入力部が、上記論理飛躍発話が提示された後の上記ユーザの行動を受け付ける確認受付ステップと、
     上記提示部が、上記論理飛躍発話が提示された後の上記ユーザの行動が確認行動ではないとき、上記確認行動として、上記論理飛躍発話において欠落している情報を確認する発話を提示する確認提示ステップ
     をさらに含む対話方法。
  4.  請求項1から3のいずれかに記載の対話方法であって、
     上記論理飛躍発話は、上記論理飛躍発話以前に行われた対話の話題との関連性が低い話題である第二話題の発話であって、当該第二話題を表す単語の少なくとも1つが含まれない発話である、
     対話方法。
  5.  請求項1から4のいずれかに記載の対話方法であって、
     上記論理飛躍発話は、上記論理飛躍発話以前に行われた対話の話題との関連性が低い話題の発話であって、話題が遷移したことを表す話題遷移語が先頭に付加された発話である、
     対話方法。
  6.  請求項1から5のいずれかに記載の対話方法であって、
     上記補足発話は、上記欠落している情報に関して、上記ユーザが同意しやすい内容の質問を含む発話である、
     対話方法。
  7.  ユーザと対話を行う対話システムであって、
     論理構造の一部が欠落している発話である論理飛躍発話と、上記欠落している情報を説明する発話である補足発話とを決定する発話決定部と、
     上記論理飛躍発話を提示し、上記論理飛躍発話中の欠落している情報を確認する行動である確認行動が表出された後に、上記補足発話を提示する提示部と、
     を含む対話システム。
  8.  発話を提示する提示部を少なくとも含む対話システムが提示する発話を決定する対話装置であって、
     論理構造の一部が欠落している発話である論理飛躍発話と、上記論理飛躍発話中の欠落している情報を確認する行動である確認行動が表出された後に提示される、上記欠落している情報を説明する発話である補足発話と、を決定する発話決定部
     を含む対話装置。
  9.  請求項1から6のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
  10.  請求項8に記載の対話装置としてコンピュータを機能させるためのプログラム。
PCT/JP2018/002505 2017-03-10 2018-01-26 対話方法、対話システム、対話装置、およびプログラム WO2018163646A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019504380A JP6864326B2 (ja) 2017-03-10 2018-01-26 対話方法、対話システム、対話装置、およびプログラム
US16/491,301 US11354517B2 (en) 2017-03-10 2018-01-26 Dialogue method, dialogue system, dialogue apparatus and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017046364 2017-03-10
JP2017-046364 2017-03-10

Publications (1)

Publication Number Publication Date
WO2018163646A1 true WO2018163646A1 (ja) 2018-09-13

Family

ID=63448148

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/002505 WO2018163646A1 (ja) 2017-03-10 2018-01-26 対話方法、対話システム、対話装置、およびプログラム

Country Status (3)

Country Link
US (1) US11354517B2 (ja)
JP (1) JP6864326B2 (ja)
WO (1) WO2018163646A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020153028A1 (ja) * 2019-01-22 2020-07-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
KR20220026863A (ko) * 2020-08-26 2022-03-07 서울대학교산학협력단 인간 친화적인 목표 지향 대화 시스템 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232789B2 (en) * 2016-05-20 2022-01-25 Nippon Telegraph And Telephone Corporation Dialogue establishing utterances without content words
JP6719741B2 (ja) * 2016-05-20 2020-07-08 日本電信電話株式会社 対話方法、対話装置、及びプログラム
US20220115001A1 (en) * 2019-05-09 2022-04-14 Sri International Method, System and Apparatus for Understanding and Generating Human Conversational Cues

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60249195A (ja) * 1984-05-25 1985-12-09 株式会社日立製作所 会話型音声入出力装置
JP2009193532A (ja) * 2008-02-18 2009-08-27 Oki Electric Ind Co Ltd 対話管理装置、方法及びプログラム、並びに意識抽出システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027458B1 (en) * 2004-04-06 2011-09-27 Tuvox, Inc. Voice response system with live agent assisted information selection and machine playback
GB0411377D0 (en) * 2004-05-21 2004-06-23 Univ Belfast Dialogue manager
US8442209B2 (en) * 2006-08-15 2013-05-14 Intellisist, Inc. System and method for processing out-of-order caller responses during automated call processing
US20160164813A1 (en) * 2014-12-04 2016-06-09 Intel Corporation Conversation agent

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60249195A (ja) * 1984-05-25 1985-12-09 株式会社日立製作所 会話型音声入出力装置
JP2009193532A (ja) * 2008-02-18 2009-08-27 Oki Electric Ind Co Ltd 対話管理装置、方法及びプログラム、並びに意識抽出システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020153028A1 (ja) * 2019-01-22 2020-07-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN113168500A (zh) * 2019-01-22 2021-07-23 索尼集团公司 信息处理设备、信息处理方法及程序
KR20220026863A (ko) * 2020-08-26 2022-03-07 서울대학교산학협력단 인간 친화적인 목표 지향 대화 시스템 및 방법
KR102414107B1 (ko) 2020-08-26 2022-06-28 서울대학교산학협력단 인간 친화적인 목표 지향 대화 시스템 및 방법

Also Published As

Publication number Publication date
US11354517B2 (en) 2022-06-07
US20200034434A1 (en) 2020-01-30
JPWO2018163646A1 (ja) 2020-05-14
JP6864326B2 (ja) 2021-04-28

Similar Documents

Publication Publication Date Title
JP6818280B2 (ja) 対話システム、対話方法、対話装置、およびプログラム
WO2018163646A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6842095B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6719741B2 (ja) 対話方法、対話装置、及びプログラム
JP6719740B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
WO2017200072A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
López-Cózar et al. Review of spoken dialogue systems
JP6682104B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6551793B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6601625B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2007030050A (ja) ロボット制御装置、ロボット制御システム、ロボット装置、およびロボット制御方法
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6610965B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6755509B2 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム
Maltoni et al. ALMA MATER STUDIORUM–BOLOGNA UNIVERSITY CESENA CAMPUS

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18763140

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019504380

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18763140

Country of ref document: EP

Kind code of ref document: A1