WO2020066154A1 - 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム - Google Patents

情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム Download PDF

Info

Publication number
WO2020066154A1
WO2020066154A1 PCT/JP2019/023644 JP2019023644W WO2020066154A1 WO 2020066154 A1 WO2020066154 A1 WO 2020066154A1 JP 2019023644 W JP2019023644 W JP 2019023644W WO 2020066154 A1 WO2020066154 A1 WO 2020066154A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
output
determination unit
information processing
determines
Prior art date
Application number
PCT/JP2019/023644
Other languages
English (en)
French (fr)
Inventor
範亘 高橋
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/275,667 priority Critical patent/US20220051669A1/en
Publication of WO2020066154A1 publication Critical patent/WO2020066154A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Definitions

  • the technology disclosed in this specification relates to an information processing apparatus and an information processing method for processing a dialog with a user, a computer program, and a dialog system.
  • agents for presenting various information to users according to applications and situations while interacting with users using voices and the like.
  • agents for presenting various information to users according to applications and situations while interacting with users using voices and the like.
  • home appliances such as lighting and air conditioners
  • agents when responding to weather forecasts, stock / exchange information, and news, responding by voice, accepting product orders, and the contents of purchased books Agents that read aloud are known.
  • the agent function is provided, for example, by cooperation between an agent device installed around a user at home or the like and an agent service constructed on the cloud (for example, see Patent Document 1).
  • the agent device mainly provides a user interface such as a voice input for receiving a voice spoken by the user and a voice output for responding to an inquiry from the user by voice.
  • the agent service performs high-load processing such as recognition and semantic analysis of speech input by the agent device, information retrieval in response to a user inquiry, and speech synthesis based on the processing result.
  • the agent device that directly interacts with the user is not only configured as a dedicated device, but also various CE devices such as a television receiver, an air conditioner, a recorder, and a washing machine installed indoors, and IoT (Internet of Things).
  • various information devices incorporating an agent application such as a device, a portable information terminal such as a smartphone or a tablet, an interactive robot, and a car navigation system installed in a vehicle may be used (for example, see Patent Document 2). Thing).
  • the purpose of the technology disclosed in this specification is to provide an information processing apparatus and an information processing method for processing a dialogue with a user, a computer program, and a dialogue system.
  • a determination unit that determines a user's situation or tendency;
  • a determination unit that determines an output to the user based on a determination result of the determination unit; It is an information processing apparatus comprising:
  • the determination unit determines a situation or a tendency of the user based on a recognition result regarding an operation of the user or a device used by the user. Then, the determination unit determines the timing of speaking to the user, the speaking conditions, or the content to speak.
  • a second aspect of the technology disclosed in the present specification is as follows.
  • An information processing method having the following.
  • a determination unit that determines a user's situation or tendency
  • a determining unit that determines an output to the user based on a determination result of the determining unit
  • the computer program according to the third aspect defines a computer program described in a computer-readable format so as to realize a predetermined process on a computer.
  • a cooperative action is exerted on the computer, and the same effect as the information processing apparatus according to the first aspect can be obtained. .
  • a recognition unit that recognizes and processes an operation of a user or a device used by the user, A determining unit that determines the situation or tendency of the user based on the recognition result of the recognition unit; A determination unit that determines an output to the user based on a determination result of the determination unit; An output unit that outputs to the user based on the determination; It is a dialogue system comprising:
  • system refers to a logical collection of a plurality of devices (or functional modules that realize specific functions), and each device or functional module is in a single housing. It does not matter in particular.
  • an information processing apparatus and an information processing method, a computer program, and an interactive system that independently perform a process of responding to a response result from a user while talking to the user. Can be.
  • FIG. 1 is a diagram schematically illustrating a functional configuration example of the interactive system 100.
  • FIG. 2 is a diagram showing a modification of the interactive system 100.
  • FIG. 3 is a diagram showing a schematic processing flow for realizing a main utterance function in the interactive system 100.
  • FIG. 4 is a diagram illustrating a manner in which the dialogue system 100 implements a main utterance function.
  • FIG. 5 is a diagram showing a schematic processing flow for realizing a feedback function for notifying a response result and a response status in the interactive system 100.
  • FIG. 6 is a diagram illustrating an example of realizing the independent utterance function based on the decrease in the concentration of the line of sight.
  • FIG. 7 is a diagram illustrating an example of realizing the independent utterance function based on the position information.
  • the conventional dialog system basically has no mechanism for feeding back to the user how the user information collected from the dialog has been used thereafter. For this reason, the reward obtained for the user responding to the inquiry from the dialogue system is only the pleasure of the dialogue, and there is little motivation to answer, and there is a concern that the answer rate may decrease. In addition, the response result from the user cannot be used for the experience of the device or the service itself.
  • the dialogue system proposed in this specification has the following two main functions.
  • the independent utterance function is a function in which the dialogue system independently speaks to the user at the timing and content according to the context based on the situation, tendency and history of the user.
  • the dialogue system having the independent utterance function can acquire a larger amount of detailed user information.
  • a dialogue system having an independent speech function acquires a wide range of user information from a silent majority (power that does not actively speak but is a majority), or a device that leaves the device or service from a leaving user. You can ask why you no longer use it.
  • the feedback function is a function that, after the dialogue system responds to the response result from the user, talks to the user about the response result and the response status and notifies the user. According to this feedback function, the motivation for the user to answer the conversation from the dialogue system can be increased, and the barrier for the dialogue system to listen to the user can be reduced. Further, the present invention can be used for improvement of a device equipped with an interactive system or a service itself.
  • FIG. 1 schematically illustrates a functional configuration example of a dialog system 100 to which the technology disclosed in this specification is applied.
  • the interactive system 100 provides a voice-based service to the user as an “agent”, “assistant”, or “smart speaker”.
  • the dialog system 100 is characterized in that it has an independent speech function and a feedback function.
  • the illustrated interactive system 100 includes a recognition unit 101, a situation determination unit 102, an output determination unit 103, an output generation unit 104, and an output unit 105. Further, the interactive system 100 includes a sensor unit 106 including various sensor elements. The interactive system 100 communicates with the external device 110 installed in the same space as the interactive system 100, such as a living room, and the mobile device 120 owned by a user with whom the interactive system 100 interacts by wire or wirelessly. It is assumed that a communication interface (not shown) is provided.
  • the sensor unit 106 mainly senses environmental information in a room where the interactive system 100 is installed.
  • the specific configuration of the sensor unit 106, that is, what kind of sensor element is included is arbitrary. Some or all of the sensor elements may be external to the interaction system 100. Further, the sensor unit 106 may include a sensor element mounted on the external device 110 or the mobile device 120. In the present embodiment, it is assumed that the sensor unit 106 includes at least a camera, a proximity sensor, and a microphone.
  • the sensor unit 106 includes an infrared sensor, a human sensor, an object detection sensor, a depth sensor, a biological sensor for detecting a user's pulse and sweat, brain waves, myoelectric potential, exhalation, and the like, an illuminance sensor, a temperature sensor, a humidity sensor, and the like.
  • An environment sensor for detecting environment information may be provided.
  • the external device 110 is an electronic device installed in the same space as the interactive system 100 such as a living room.
  • the external device 110 includes a television device, a recorder, a content player such as a Blu-ray disc player, other audio devices, an agent device related to an agent service other than the interactive system 100, and the like.
  • an IoT device installed around the user may be included in the external device 110.
  • the mobile device 120 is an information terminal owned by the user, such as a smartphone, a tablet terminal, or a personal computer. Further, an IoT device installed around the user may be included in the mobile device 120.
  • the recognition unit 101 performs a recognition process on various sensor signals of the sensor unit 106.
  • the recognition unit 101 also operates the device of the interactive system 100 itself and the operation of the external device 110 (for example, channel switching operation and volume adjustment for a television device, image quality or sound quality adjustment, content playback status, and the like). Recognition processing is also performed.
  • a recognition result of a sensor in the external device 110 or the mobile device 120 is received. It is also assumed that the recognition unit 101 performs a sensor fusion process.
  • the recognition unit 101 performs user room position recognition for a sensor signal of a camera or a proximity sensor, face recognition, face direction recognition, gaze recognition, facial expression recognition, voice recognition for voice input from a microphone, sound pressure recognition, voiceprint. At least recognition, emotion recognition, etc. are performed. Then, it is assumed that the recognition unit 101 outputs the recognition result to the situation determination unit 102.
  • the situation determination unit 102 determines a situation in which a user who is interacting with the interactive system 100 or a family of the user is placed based on the recognition result of the recognition unit 101. Specifically, the situation determination unit 102 determines the following situations (1) to (4).
  • Usage status of the interactive system 100 and the external device 110 (content playback status, etc.)
  • Indoor position and orientation of the user and family face orientation, movement amount, line of sight, facial expression, etc.
  • Outdoor position of each family Conversation amount and relative volume of conversation sound of each user and family , Emotions, conversation content
  • the situation determination unit 102 appropriately refers to the history database 107 that stores history information in order to determine the above situation.
  • the history database 107 has, for example, the following history information (1) and (2).
  • Operation history of the interactive system 100 itself and the external device 110 content reproduction history
  • User profile family structure, family preference, questionnaire response result, etc.
  • history information in the history database 107 is updated sequentially. For example, each time the status determination unit 102 determines a status, the history information in the history database 107 is updated.
  • the output determining unit 103 outputs the following interactive actions (1) to “agent”, “assistant”, or “smart speaker” based on the situation determined by the situation determining unit 102, ie, “agent”, “assistant”, or “smart speaker”. (3) is determined.
  • the output determining unit 103 appropriately queries the dialogue database 108 that stores the dialogue information in order to determine the above situation.
  • the conversation database 108 has conversation contents and conditions for activating the conversation contents as conversation information.
  • the speaking conditions include a conversation partner (for example, to whom in the family to speak) and a speaking mode (such as tone). It is assumed that the conversation information in the conversation database 108 is updated sequentially. For example, each time the output determining unit 103 determines an output, the dialog information in the dialog database 108 is updated.
  • the output generation unit 104 generates the output determined by the output determination unit 103.
  • the output unit 105 performs the output generated by the output generation unit 104.
  • the output unit 105 includes, for example, a speaker and outputs a sound.
  • the output generation unit 104 performs voice synthesis on the dialog information (text) determined by the output determination unit 103, and the output unit 105 outputs voice from a speaker.
  • the output unit 105 may include a screen, and display a screen of a video or an image (for example, a character of an agent) together with the sound. Further, the output unit 105 may perform the output through an output device provided in the external device 110 or the mobile device 120 connected to the interactive system 100.
  • FIG. 2 shows a modification of the interactive system 100.
  • the interactive system 100 includes an agent device 210 and a server 220.
  • the agent device 210 is installed in a room, such as a living room, where a user with whom to interact and a family member are present.
  • the server 220 is installed on a cloud.
  • the agent device 210 provides a dialogue service to the user in cooperation with the server 220, but is characterized in that it has an independent speech function and a feedback function.
  • the agent device 210 includes the recognition unit 101, the output unit 105, and the sensor unit 106, and includes a communication unit 211 for connecting to a network such as the Internet.
  • the agent device 210 transmits the recognition result by the recognition unit 101 to the server 220 from the communication unit 211 via the network. Further, the agent device 210 receives the content of the dialogue action determined by the server 220 by the communication unit 211 via the network.
  • the server 220 includes the situation determination unit 102, the output determination unit 103, and the output generation unit 104, and includes a communication unit 221 for connecting to a network such as the Internet. .
  • the server 220 receives the recognition result by the agent device 210 by the communication unit 221 via the network. Further, the server 220 transmits the content of the dialogue action determined by the output determination unit 103 to the agent device 210 from the communication unit 221 via the network.
  • the configurations of the agent device 210 and the server 220 should be designed in consideration of the expandability and responsiveness of the interactive system.
  • the term “cloud” generally refers to cloud computing.
  • the cloud provides computing services via a network such as the Internet.
  • the computing is also referred to as edge computing (Edge @ Computing) or fog computing (Fog @ Computing).
  • edge computing Edge @ Computing
  • fog computing Fog @ Computing
  • the cloud in the present specification is understood to refer to a network environment or a network system for cloud computing (resources for computing (including a processor, a memory, a wireless or wired network connection facility, and the like)). There is also. Also, it may be understood that it indicates a service or a provider provided in the form of a cloud.
  • server device refers to at least one computer (or a group of computers) that mainly provides a computing service in computing.
  • server device in this specification may mean a single computer, or may mean a set (group) of computers.
  • FIG. 3 shows a schematic processing flow for realizing a main utterance function in the interactive system 100 shown in FIG. It should be understood that the interactive system 100 shown in FIG. 2 also implements a main utterance function by a similar processing flow.
  • the recognition unit 101 recognizes the situation of the user and the operation state of the external device 110 based on the sensor signal from the sensor unit 106. (Step S301).
  • the recognizing unit 101 can recognize that a movie content is being reproduced on a television device by a Blu-ray disc player as the external device 110.
  • the recognition unit 101 performs image recognition of a captured image of a camera to recognize that a family including a user (three parents and their children) is watching movie content (movie AAA) being reproduced. Can be.
  • the recognizing unit 101 can recognize that the reproduction of the movie content has ended.
  • the recognition unit 101 recognizes the image captured by the camera, and the amount of conversation between the family members is still almost occurring after the family's line of sight has moved away from the movie playback screen or the movie content has been played back. You can recognize that there is no.
  • the situation determination unit 102 determines a situation in which a user who is interacting with the interactive system 100 or a family of the user is placed based on the recognition result of the recognition unit 101 (step S302). In addition, the status determination unit 102 appropriately refers to the history database 107.
  • the situation determination unit 102 may recognize that the reproduction of the movie content has been completed and that the family's line of sight is away from the movie reproduction screen, but that the amount of conversation between the family members has not substantially occurred yet. It can be determined that the family including the user is in front of the television device and is quietly immersed in the finish.
  • the output determination unit 103 determines the dialogue behavior of the dialogue system 100 based on the situation determined by the situation determination unit 102, such as the timing of speaking to the user, the speaking conditions, and the content of speaking (step S303).
  • the output determination unit 103 determines to ask a question "can children enjoy the movie AAA?" In a situation where the user is immersed in the lingering sound of the movie. Then, based on the above situation, the output determination unit 103 determines to output in the “question to the child with parents” and the “voice tone for keeping quiet lingering” mode, and the interactive database 108 To create a conversation.
  • the output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 executes the output generated by the output generation unit 104 (Step S304).
  • the output unit 105 outputs the voice of the conversation content determined by the output determination unit 103 from the speaker.
  • the character may be displayed on the screen of the television device, and the user may interact through the character.
  • a conversation partner is specified as a child from three family members who have watched the movie AAA together. Then, the interactive system 100 speaks to the child through the character displayed on the screen of the television device, saying, "... AAA, I was impressed. . In response, the child replied, "It was interesting!
  • the content of the child's utterance is picked up by a microphone included in the sensor unit 106, voice-recognized by the recognizing unit 101, the situation is determined by the situation determining unit 102, and used for the next action of the interactive system 100.
  • the interactive system 100 can acquire a larger amount of detailed user information.
  • the interactive system 100 can acquire a wide range of user information from the silent majority, and can hear from a leaving user the reason why the device or service is not actively used.
  • FIG. 5 shows a schematic processing flow for the following. It should be understood that the interactive system 100 shown in FIG. 2 also implements a main utterance function by a similar processing flow.
  • the recognition unit 101 recognizes the situation of the user and the operation state of the external device 110 based on the sensor signal from the sensor unit 106. (Step S501).
  • the recognizing unit 101 recognizes the family in the living room from the image captured by the camera, recognizes the voice input from the microphone, and recognizes the conversation amount between the families. Further, the recognition unit 101 recognizes the operation status of the interactive system 100 itself and the external device 110 installed in the living room.
  • the situation determination unit 102 determines a situation in which a user who is interacting with the interactive system 100 or a family of the user is placed based on the recognition result of the recognition unit 101 (step S502). In addition, the status determination unit 102 appropriately refers to the history database 107.
  • the situation determination unit 102 determines that all the family members are gathering, there is no appearance of operating any device, and a conversation is held in a moderately relaxed atmosphere, and tea is being played.
  • the output determination unit 103 determines the dialogue behavior of the dialogue system 100, such as the timing of speaking to the user, the speaking conditions, and the content of speaking (step S503).
  • the output determination unit 103 determines to ask a question about the “CM shortening function”, which is a new function of the recording / playback device, based on the above situation determined by the situation determination unit 102. Further, based on the above situation, the output determination unit 103 determines to output in the “lunch time” mode, and refers to the dialog database 108 to create the contents of the dialog.
  • the output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 implements the output generated by the output generation unit 104 (Step S504).
  • the output unit 105 has made an utterance in a question format for a specific user. Then, it is assumed that the user has answered this question.
  • the microphone included in the sensor unit 106 picks up an answer from the user (step S505).
  • the recognizing unit 101 performs voice recognition processing on the utterance content of the user collected by the microphone (step S506).
  • it is recognized as the answer from the speaker to the question regarding the “CM shortening function” which is a new function of the recording / reproducing apparatus.
  • the situation determination unit 102 determines the situation of the speaker based on the recognition result of the recognition unit 101 (step S507). For example, the situation determination unit 102 determines from the answer from the speaker about the question about the “CM shortening function” that “the appropriate CM length for this family is 30 seconds for dramas and movies, and 10 seconds for others”. Is determined.
  • the dialogue system 100 performs a corresponding process based on the determination result by the status determination unit 102.
  • the setting of the “CM shortening function” based on the determination result is automatically performed for the recording / reproducing device connected as the external device 110.
  • the setting process of the external device 110 may be performed by the output determining unit 103, or may be performed by the situation determining unit 102.
  • the output determination unit 103 determines the dialogue behavior of the dialogue system 100, such as the timing of speaking to the user, the speaking conditions, and the content of the speaking (step S508).
  • the output determination unit 103 determines the timing to speak to the user about the response result and the response situation, the speaking conditions, and the content to be spoken. Further, based on the situation that the user has responded to the response result from the user, the output determination unit 103 determines to output in the “notify that” and “teach the change method” modes, and queries the interactive database 108. To create a conversation.
  • the output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 performs the output generated by the output generation unit 104 (Step S509).
  • the output unit 105 notifies the user of the response result and the response status by talking to the user.
  • the dialogue system 100 can realize a feedback function of, after responding to the response result from the user, talking to the user about the response result and the response status. According to such a feedback function, the motivation for the user to answer the conversation from the dialog system 100 can be increased, and the barrier for the dialog system 100 to listen to the user can be reduced. In addition, it can be used for improvement of a device or service equipped with the interactive system 100.
  • the interactive system 100 is based on the situation, tendency, and history of the user, based on the timing and content according to the context, and initiatively speaks to the user. It has a speech function.
  • a speech function For example, several specific examples of implementing the independent utterance function from the interactive system 100 will be described.
  • the independent utterance recognition unit 101 based on a decrease in gaze concentration can recognize the reproduction state of the content in the content reproduction device as the external device 110 and the operation state of other devices.
  • the recognition unit 101 can recognize the voice input from the microphone and recognize the user's line of sight from the camera image.
  • the recognizing unit 101 recognizes that the user has finished viewing a movie or a drama, that his / her line of sight has left the content reproduction screen, and that no conversation or other device operation has been performed. Based on such a recognition result, the situation determination unit 102 determines that “the user has reduced his / her gaze concentration on the content, but has stayed in front of the playback device, and has a lingering sound, and has watched the content. It is time to listen to the impressions.
  • the output determining unit 103 determines a dialogue action of asking the user for an impression, and refers to the dialogue database 108 to create a dialogue content.
  • the output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 implements the output generated by the output generation unit 104.
  • the dialogue system 100 determines, based on the recognition result that three family members have finished watching the movie AAA, the concentration of the eyes has moved away from the screen, and no conversation or another device operation has been performed. The user's gaze concentration on the content is reduced, but since the user stays in front of the playback device, there is lingering sound, and it is determined that it is time to hear the impression of viewing the content. " Then, the conversation partner is specified as a child, and the child is asked through the character displayed on the screen of the television device, "... AAA, it was terrible! @ It was a little difficult but how was XX? In response, the child replied, "It was interesting!
  • the content of the child's utterance is picked up by a microphone included in the sensor unit 106, voice-recognized by the recognizing unit 101, the situation is determined by the situation determining unit 102, and used for the next action of the interactive system 100.
  • the dialogue system 100 receives feedback from the user in a state of high freshness in which the memory of the user's experience is not faint, and does not disturb the user's viewing behavior and the next behavior. Can be obtained. Since it is considered that the number of users who provide feedback by themselves after the viewing behavior is limited, the dialogue system 100 according to the present embodiment has a wide range of users as compared with the conventional dialogue system triggered by talking to the user. The feature is that feedback can be obtained from the layer.
  • the independent utterance recognition unit 101 based on the position information can recognize the location of the user through the position information of the mobile device 120 owned by the user and the camera image recognition. For example, the recognition unit 101 recognizes from the position information of the mobile device 120 and the camera image that the dialog system 100 actually went to a destination (such as a restaurant) recommended by the user and returned home from the destination. I do.
  • the situation determination unit 102 determines that it is time to hear the impression of the restaurant based on such a recognition result. Then, based on such a determination result, the output determining unit 103 determines a dialogue action of asking the user for an impression, and refers to the dialogue database 108 to create a dialogue content.
  • the output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 implements the output generated by the output generation unit 104.
  • the dialogue system 100 asks the father based on the recognition result that three family members actually went to the restaurant AA and returned home from whereabouts. Did you eat? " In response, his father replied, "BB is no longer on the menu ... but we are no smoking and the customer service is good. I want to go again.”
  • the content of the father's speech is picked up by a microphone included in the sensor unit 106, is recognized by the recognition unit 101, and the situation is determined by the situation determination unit 102, and is used for the next action of the interactive system 100.
  • the dialogue system 100 provides feedback on the recommendation technique of the dialogue system 100, feedback on the destination and the restaurant in a state of high freshness in which the memory of the user's experience does not fade, User preference information can be obtained.
  • the dialogue system 100 according to the present embodiment has a wide range of users as compared with the conventional dialogue system that is triggered by talking to the user. The feature is that feedback can be obtained from the layer.
  • the independent utterance recognition unit 101 based on the state without conversation can recognize the work being performed by the user and the presence or absence of conversation through image recognition of the camera image and voice recognition of the input voice from the microphone. For example, the recognition unit 101 recognizes, through image recognition and voice recognition, that a plurality of family members of the user are eating but have no conversation.
  • the situation determination unit 102 determines, based on such a recognition result, a situation in which the interactive system 100 can independently talk to the user. Then, based on such a determination result, the output determination unit 103 determines to start a conversation with the user, such as a questionnaire, and refers to the interaction database 108 to create the contents of the questionnaire.
  • the output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 implements the output generated by the output generation unit 104.
  • the dialogue system 100 can promote the conversation of the user without hindering the conversation of the user. Further, since it is considered that the number of users who provide feedback by themselves in the absence of a conversation is limited, the dialogue system 100 according to the present embodiment, when compared with a conventional dialogue system triggered by talking to the user, The feature is that feedback can be obtained from a wide range of users.
  • the independent utterance recognition unit 101 based on the sensing of the user's behavior can recognize the music reproduction status of the music player as the external device 110 and the music that the user often listens to. For example, the recognizing unit 101 starts the reproduction of the music of the artist by the user who always plays the music of the specific artist in the room and starts the reproduction of the music of the artist through the operation state of the music player and the image recognition. Recognize that you have been stopped. Based on the recognition result, the situation determination unit 102 determines that the dialog system 100 is a situation in which the user can independently talk about why the user performed an unusual action.
  • the output determining unit 103 determines a dialogue action of asking the user for the reason for stopping the music, and refers to the dialogue database 108 to create a dialogue content.
  • the output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 implements the output generated by the output generation unit 104.
  • the dialogue system 100 "does not want to listen to music with lyrics when reading a book", “does not dislike the artisk", It is possible to acquire more detailed user information such as "I do not dislike the song” and information that is hard to be found from the operation log of the device.
  • the dialogue system according to the present embodiment is compared with a conventional dialogue system triggered by talking to the user. According to 100, there is a feature that feedback can be obtained from a wide range of users.
  • the independent utterance recognition unit 101 based on sensing of device operation can recognize the operation status of various external devices 110 connectable to the interactive system 100. For example, the recognizing unit 101 recognizes from the log of the operation status of the external device 110 that the device operation by the user has been interrupted for a long time or that only a specific function of a part of the device is used. Based on the recognition result, the situation determination unit 102 determines from the interactive system 100 why the user has stopped the device operation or why the user is performing a unique (or unusual) device operation. It is determined that it is a good situation to be able to speak independently.
  • the output determining unit 103 determines a dialogue action of stopping the user's device operation or asking a reason for performing a unique device operation, and refers to the dialogue database 108 to determine the dialogue content.
  • Create The output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 implements the output generated by the output generation unit 104.
  • the recognition unit 101 can recognize a service provided by the interactive system 100 and a use state of a service that cooperates with the interactive system 100 by a user. For example, the recognizing unit 101 recognizes from the usage log that the user has not used the service for a long time or that only a part of the service is used. Based on such a recognition result, the situation determination unit 102 is a situation in which the dialogue system 100 can independently talk about whether the user has lost interest in the service or the reason why the user has lost interest in the service. Is determined.
  • the output determining unit 103 determines a dialogue action of stopping the user's device operation or asking a reason for performing a unique device operation, and refers to the dialogue database 108 to determine the dialogue content.
  • Create The output generation unit 104 generates the output determined by the output determination unit 103, and the output unit 105 implements the output generated by the output generation unit 104.
  • the interactive system 100 can obtain an opportunity to work with a user who has lost or is losing interest in the corresponding device or service. Also, it is considered that the number of users who provide feedback on the reason for losing or losing interest in the device or service by themselves is limited.
  • the interactive system 100 according to the embodiment has a feature that feedback can be obtained from a wide range of user groups.
  • the interactive system 100 can acquire a greater amount of detailed user information by the independent utterance function. In addition, it is possible to acquire a wide range of user information from the silent majority, and to hear from a leaving user the reason why the device or service is no longer used independently.
  • the dialogue system 100 has a feedback function that, after responding to a response result from the user, talks to the user about the response result and the response status and notifies the user.
  • a feedback function that, after responding to a response result from the user, talks to the user about the response result and the response status and notifies the user.
  • the interactive system 100 performs, for example, a questionnaire regarding the external device 110 and the service to the user, and reflects the answer result of the questionnaire from the user to the setting of the external device 110 and the service. .
  • the output determining unit 103 specifies a user who is always fast-forwarding a CM to the other party, and Decide to do a questionnaire about the shortening function. Then, a questionnaire is given to the user through the output generation unit 104 and the output unit 105.
  • the answer of the questionnaire from the user is picked up by a microphone, and the recognition unit 101 performs voice recognition. Then, based on the recognition result, the situation determination unit 102 determines that the appropriate CM length for the user is 30 seconds for a drama or movie, and 10 seconds for others. The setting of the “CM shortening function” based on the result is automatically performed, and the answer of the questionnaire is reflected on the external device 110 and the service.
  • the output determination unit 103 determines the timing of speaking to the user about the response result and the response status, the speaking condition, and the content to be spoken. Then, the user talks to the user through the output generation unit 104 and the output unit 105 to notify the response result and the response status of the questionnaire response.
  • the motivation for the user to answer the conversation from the dialog system 100 can be increased, and the barrier for the dialog system 100 to listen to the user can be reduced. In addition, it can be used for improvement of a device or service equipped with the interactive system 100.
  • the interactive system 100 When hearing user dissatisfaction and reflecting it on the improvement of devices and services, the interactive system 100 performs, for example, a questionnaire regarding the external device 110 and the service to the user, and answers the results of the questionnaire from the user to the improvement of the external device 110 and the service. And notify the user.
  • the output determination unit 103 determines to ask the user about the dissatisfaction with the service of the external device 110 or the interactive system 100, and conducts a questionnaire to the user through the output generation unit 104 and the output unit 105.
  • the answer from the user is picked up by a microphone and the recognition unit 101 performs voice recognition. Then, based on the recognition result, the situation determination unit 102 determines the release of improved software or another alternative at the external device 110 or the service provider, which is necessary to resolve the user's dissatisfaction.
  • the output determination unit 103 determines the timing for speaking to the user, the speaking conditions, and the content to be spoken for the release of the improved software and other alternatives for solving the user's dissatisfaction. Then, the user is notified via the output generation unit 104 and the output unit 105 of the release of the improved software and other alternatives. As a result of notifying the user, the user notices that the external device 110 and the service have been improved by the conversation of the dialog system 100, and can increase the motivation of the user to respond to the conversation from the dialog system 100, It also leads to lowering the barrier for the dialogue system 100 to listen to the user.
  • the output determination unit 103 determines to ask a plurality of users for a function that the user wants to add to the service of the external device 110 or the service of the interactive system 100 or a function that may be reduced.
  • a questionnaire is given to each user through the output unit 105. Then, a response from the user is picked up by a microphone, and the recognition unit 101 performs voice recognition, and the situation determination unit 102 tallies the responses to the questionnaire based on the recognition result.
  • the output determination unit 103 determines the timing of speaking to the user, the speaking conditions, and the details to be spoken for the voting result of the function to be developed next or the function to be reduced. Then, the user is notified via the output generation unit 104 and the output unit 105 of the release of the improved software and other alternatives.
  • the status determination unit 102 determines the status
  • the output determination unit 103 determines the release of the software.
  • the timing for speaking to the user, the speaking conditions, and the speaking content are determined.
  • the user is notified of the release of the software by talking to the user through the output generation unit 104 and the output unit 105.
  • the user notices that the external device 110 and the service have been improved by the conversation of the dialog system 100, and can increase the motivation of the user to respond to the conversation from the dialog system 100, It also leads to lowering the barrier for the dialogue system 100 to listen to the user.
  • the feedback function of the interactive system 100 can increase the motivation of the user to respond to the conversation from the interactive system 100, and can reduce the barrier for the interactive system 100 to listen to the user. Connect. In addition, it can be used for improvement of a device or service equipped with the interactive system 100.
  • the dialogue system 100 can independently speak to the user in consideration of the situation or tendency of the user. Therefore, it is possible to obtain a larger amount of detailed user information, to obtain a wide range of user information from the silent majority, and to ask the leaving user for the reason why the device or service is no longer used independently. There is an effect that it can be done.
  • the conventional dialogue system basically does not have a mechanism for feeding back to the user how the user information collected from the dialogue has been used since the user responded to the inquiry from the dialogue system.
  • the reward that can be obtained is only the pleasure of the dialogue, and there is a problem that the response rate decreases because there is little motivation to answer.
  • the response result from the user cannot be used for the experience of the device or the service itself.
  • the dialogue system 100 can respond to the answer result from the user, and can notify the user of the response result and the response status by talking to the user. Therefore, it is possible to increase the motivation for the user to answer the conversation from the interactive system, and to reduce the barrier for the interactive system to listen to the user. In addition, it can be used for improvement of a device equipped with the interactive system 100 or a service itself.
  • the technology disclosed in this specification is applied to a dialogue system also called an "agent” or “assistant” has been mainly described, but the gist of the technology disclosed in this specification is not limited to this. It is not something to be done.
  • the technology disclosed in the present specification can be applied to a questionnaire data collection system that collects questionnaire responses, thereby collecting a larger amount of detailed questionnaire responses.
  • the technology disclosed in the present specification may have the following configurations.
  • An information processing apparatus comprising: (2) The determining unit determines a situation or a tendency of the user based on a recognition result regarding an operation of the user or an apparatus used by the user.
  • the information processing device according to (1).
  • the determination unit is configured to determine the use status of the device, the position and orientation of the user or the family in the room, the direction of the face, the amount of movement, the line of sight, the facial expression, the outdoor position of the family, and the outdoor position of the user or the family.
  • Judgment of conversation volume, relative loudness of conversation sound, emotion, conversation content The information processing apparatus according to any one of (1) and (2).
  • the deciding unit decides a timing for speaking to the user, a speaking condition, or a speaking content.
  • the information processing device according to any one of (1) to (3).
  • the determination unit determines the degree of gaze concentration of the user, The determining unit determines an output to the user based on a decrease in the line-of-sight concentration of the user, The information processing apparatus according to any one of (1) to (4).
  • the determining unit determines the situation of the user based on the position information of the user, The determination unit determines an output to the user based on a determination result according to the position information of the user, The information processing apparatus according to any one of (1) to (5).
  • the determining unit determines the situation of the user based on a state of conversation, The determination unit determines an output to the user based on a determination result according to a state of a conversation, The information processing apparatus according to any one of (1) to (6).
  • the determination unit determines the status of the user based on a change in the operation of the user or a device used by the user, The determining unit determines an output to the user based on a determination result according to the change, The information processing device according to any one of the above (1) to (7).
  • the determination unit determines the status of the user based on the content or the tendency of the operation performed by the user on the device, The determination unit determines an output to the user based on a determination result according to the content or tendency of the device operation of the user, The information processing device according to any one of the above (1) to (8).
  • the determining unit determines a response from the user to the question for which the determining unit has determined the output, and performs a corresponding process.
  • the information processing device determines any one of (1) to (9).
  • the determining unit determines a status or a result of the corresponding process, The determining unit determines an output of a status or a result of the corresponding process to the user.
  • the information processing device (10).
  • the determination unit determines the setting of the new function based on a response from the user to a questionnaire on the new function of the device or service, The information processing device according to (10).
  • the determining unit determines the response status of the response from the user or the output of the response result to the user, The information processing device according to (12).
  • the determination unit determines a release of improved software or another alternative based on a response from the user to a questionnaire regarding dissatisfaction with the device or service, The information processing device according to (10).
  • the determining unit determines an output for notifying the user of a release of the improved software or another alternative, The information processing device according to (14).
  • a determining step of determining the situation or tendency of the user comprising: (17) a determination unit that determines the situation or tendency of the user; A determining unit that determines an output to the user based on a determination result of the determining unit; A computer program written in a computer-readable format to function as a computer.
  • a recognition unit that recognizes and processes an operation of a user or a device used by the user;
  • a determining unit that determines a situation or a tendency of the user based on a recognition result of the recognition unit;
  • a determination unit that determines an output to the user based on a determination result of the determination unit;
  • An output unit that outputs to the user based on the determination;
  • Reference Signs List 100 Dialogue system 101: Recognition unit, 102: Situation determination unit 103: Output determination unit, 104: Output generation unit, 105: Output unit 106: sensor unit, 107: history database 108: conversation database

Abstract

ユーザとの対話を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムを提供する。 情報処理装置は、ユーザの状況又は傾向を判定する判定部と、前記判定部の判定結果に基づいて前記ユーザに対する出力を決定する決定部を具備する。前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関するセンシング結果に基づいて、前記ユーザの状況又は傾向を判定する。そして、前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する。

Description

情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム
 本明細書で開示する技術は、ユーザとの対話を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムに関する。
 最近、音声などを用いてユーザと対話を行いながら、用途や状況に応じて種々の情報をユーザに提示する「エージェント」、「アシスタント」、若しくは「スマートスピーカー」と呼ばれるサービスが普及し始めている。例えば、照明やエアコンなどの家電機器のオンオフや調整操作を代行したり、天気予報や株・為替情報、ニュースについて聞かれると音声で回答したり、商品の注文を受け付けたり、購入した書籍の内容を読み上げたりするエージェントが知られている。
 エージェント機能は、例えば、家庭内などでユーザの周囲に設置されるエージェントデバイスと、クラウド上に構築されるエージェントサービスの連携により提供される(例えば、特許文献1を参照のこと)。エージェントデバイスは、ユーザが発話する音声を受け付ける音声入力、並びにユーザからの問い合せに対して音声で回答する音声出力といったユーザインターフェースを主に提供する。一方のエージェントサービス側では、エージェントデバイスで入力された音声の認識や意味解析、ユーザの問い合わせに応じた情報検索などの処理、処理結果に基づく音声合成など、負荷の高い処理を実行する。
 また、ユーザと直接対話を行うエージェントデバイスは、専用の装置として構成される以外に、屋内に設置されたテレビ受像機、エアコン、録画機、洗濯機などの各種CE機器やIoT(Internet of Thing)デバイス、スマートフォンやタブレットなどの持ち運びが可能な情報端末、対話型ロボット、車内に設置されたカーナビなど、エージェント用アプリケーションが組み込まれている各種情報機器であってもよい(例えば、特許文献2を参照のこと)。
 エージェントがユーザに有益な情報を提示するサービスを実施するには、より多くのユーザ情報を収集する必要がある。例えば、自然な対話を通じてユーザ情報を収集する対話システムについて提案がなされている(特許文献3を参照のこと)。
特表2017-527844号公報 WO2014/203495 特開2003-196462号公報
 本明細書で開示する技術の目的は、ユーザとの対話を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムを提供することにある。
 本明細書で開示する技術の第1の側面は、
 ユーザの状況又は傾向を判定する判定部と、
 前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
を具備する情報処理装置である。
 前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関する認識結果に基づいて、前記ユーザの状況又は傾向を判定する。そして、前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する。
 また、本明細書で開示する技術の第2の側面は、
 ユーザの状況又は傾向を判定する判定ステップと、
 前記判定ステップにおける判定結果に基づいて、前記ユーザに対する出力を決定する決定ステップと、
を有する情報処理方法である。
 また、本明細書で開示する技術の第3の側面は、
 ユーザの状況又は傾向を判定する判定部、
 前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラムである。
 第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、第3の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、第1の側面に係る情報処理装置と同様の作用効果を得ることができる。
 また、本明細書で開示する技術の第4の側面は、
 ユーザ又は前記ユーザが使用する機器の動作を認識処理する認識部と、
 前記認識部の認識結果に基づいてユーザの状況又は傾向を判定する判定部と、
 前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
 前記決定に基づいて前記ユーザに対する出力を行う出力部と、
を具備する対話システムである。
 但し、ここで言う「システム」とは、複数の装置(又は特定の機能を実現する機能モジュール)が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。
 本明細書で開示する技術によれば、主体的にユーザに話し掛けるとともにユーザからの回答結果に対応するための処理を実施する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムを提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、対話システム100の機能的構成例を模式的に示した図である。 図2は、対話システム100の変形例を示した図である。 図3は、対話システム100において主体的な発話機能を実現するための概略的な処理フローを示した図である。 図4は、対話システム100において主体的な発話機能を実現する様子を示した図である。 図5は、対話システム100において対応結果や対応状況について通知するフィードバック機能を実現するための概略的な処理フローを示した図である。 図6は、視線集中の低下に基づく主体的な発話機能の実現例を示した図である。 図7は、位置情報に基づく主体的な発話機能の実現例を示した図である。
 以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
 エージェントがユーザに有益な情報を提示するサービスを実施するには、より多くのユーザ情報を収集する必要がある。対話を通じてユーザ情報やアンケート回答を収集する対話システムについて提案がなされているが(特許文献3を参照のこと)、従来のシステムは、基本的に、ユーザから話し掛けられたことをトリガにしてユーザとの対話が開始されるので、言い換えれば、ユーザが話し掛けない限り、システム側からユーザに対して情報を聞き出すことができない。このため、ユーザから情報を取得する機会や取得できる情報の内容は限定的となってしまい、取得できるユーザ情報の質及び量のいずれも不十分となることが懸念される。また、ユーザ毎に回答の数にばらつきが生じると、統計的な情報を取得し難いという問題がある。また、当該機器又はサービスを主体的に使わなくなったユーザに対してその理由を聞き出すことができない、すなわち、離脱ユーザに働きかけられないという問題がある。
 また、従来の対話システムは、基本的に、対話から収集したユーザ情報がその後どのように使われたかをユーザにフィードバックする仕組みを備えていない。このため、ユーザは対話システムからの問いかけに応答したことに対して得られる報酬は、対話の楽しみのみであり、回答する動機付けが少ないため回答率が低下していくことが懸念される。また、ユーザからの回答結果を当該機器又はサービスの体験自体に活用することができない。
 そこで、本明細書では、主体的にユーザに話し掛けることができるとともに、ユーザからの回答結果に対応することができる対話システムについて、以下で提案する。本明細書で提案する対話システムは、以下の2つの主要な機能を備えている。
(1)主体的な発話機能
(2)フィードバック機能
 主体的な発話機能は、対話システムが、ユーザが置かれている状況や傾向、履歴に基づいて、文脈に沿ったタイミング及び内容で、主体的にユーザに話し掛ける機能である。この主体的な発話機能を有する対話システムは、より多量で詳細なユーザ情報を取得することが可能となる。また、主体的な発話機能を有する対話システムは、サイレントマジョリティー(積極的な発言行為をしないが大多数である勢力)から幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる。
 また、フィードバック機能は、対話システムが、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知する機能である。このフィードバック機能によれば、ユーザが対話システムからの話し掛けに回答する動機付けを増加することができ、対話システムがユーザに話を聞ける障壁を低くすることにもつながる。また、対話システムを搭載した機器又はサービス自体の改善に活用することができる。
A.システム構成例
 図1には、本明細書で開示する技術を適用した対話システム100の機能的構成例を模式的に示している。対話システム100は、「エージェント」、「アシスタント」、若しくは「スマートスピーカー」として、ユーザに対して音声をベースにしたサービスを提供する。とりわけ本実施形態では、対話システム100は、主体的な発話機能及びフィードバック機能を有する点に特徴がある。
 図示の対話システム100は、認識部101と、状況判定部102と、出力決定部103と、出力生成部104と、出力部105を備えている。また、対話システム100は、各種センサ素子からなるセンサ部106を備えている。また、対話システム100は、リビングルームなど当該対話システム100と同じ空間に設置されている外部機器110や、対話システム100が対話する相手となるユーザが所持するモバイル機器120などと有線又は無線により通信する通信インターフェース(図示しない)を備えているものとする。
 センサ部106は、主に、対話システム100が設置されている室内の環境情報をセンシングする。センサ部106の具体的構成、すなわちどのようなセンサ素子を含むかは任意である。一部又は全部のセンサ素子は、対話システム100に外付けされていてもよい。また、センサ部106は、外部機器110やモバイル機器120に搭載されたセンサ素子を含んでいてもよい。本実施形態では、センサ部106は、少なくともカメラや近接センサ、マイクを含むことを前提とする。また、センサ部106は、赤外線センサや人感センサ、物体検出センサや深度センサ、ユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサ、照度センサや温度センサ、湿度センサなどの環境情報を検出する環境センサを備えていてもよい。
 外部機器110は、リビングルームなど当該対話システム100と同じ空間に設置されている電子機器である。例えば、テレビジョン装置や、録画機、ブルーレイディスクプレイヤなどのコンテンツ再生機、その他のオーディオ機器、当該対話システム100以外のエージェントサービスに係るエージェントデバイスなどが外部機器110に含まれる。また、ユーザの周囲に設置されたIoTデバイスを外部機器110に含めてもよい。
 モバイル機器120は、スマートフォンやタブレット端末、パーソナルコンピュータなど、ユーザが所持する情報端末である。また、ユーザの周囲に設置されたIoTデバイスをモバイル機器120に含めてもよい。
 認識部101は、センサ部106の各種センサ信号に対して認識処理を行う。また、認識部101は、当該対話システム100自体の機器動作状況や、外部機器110の動作内容(例えば、テレビジョン装置に対するチャンネル切り替え操作や音量調整、画質又は音質調整の状況、コンテンツ再生状況など)などの認識処理も行う。また、外部機器110やモバイル機器120からは、センサ信号を受け取る場合の他、外部機器110やモバイル機器120内でのセンサの認識結果を受け取ることも想定される。また、認識部101はセンサフュージョン処理を行うことも想定される。本実施形態では、認識部101は、カメラ又は近接センサのセンサ信号に対するユーザ室内位置認識、顔認識、顔向き認識、視線認識、表情認識、マイクからの入力音声に対する音声認識、音圧認識、声紋認識、感情認識などを少なくとも行うものとする。そして、認識部101は、認識結果を状況判定部102に出力するものとする。
 状況判定部102は、認識部101による認識結果に基づいて、対話システム100と対話しているユーザやユーザの家族などが置かれている状況を判定する。具体的には、状況判定部102は、以下のような状況(1)~(4)を判定する。
(1)当該対話システム100自体、及び外部機器110の使用状況(コンテンツの再生状況など)
(2)ユーザや家族の室内の位置及び向き、顔の向き、移動量、視線、表情など
(3)家族それぞれの室外位置
(4)ユーザや家族それぞれの会話量、会話音の相対的大きさ、感情、会話内容
 また、状況判定部102は、上記のような状況を判定するために履歴情報を蓄積する履歴データベース107を適宜照会する。履歴データベース107は、例えば以下のような履歴情報(1)、(2)を持す。
(1)当該対話システム100自体、及び外部機器110の動作履歴、コンテンツの再生履歴
(2)ユーザプロファイル(家族構成や、家族それぞれの好み、アンケートの回答結果など)
 履歴データベース107内の履歴情報は、逐次更新されていくものとする。例えば、状況判定部102が状況を判定する度に、履歴データベース107内の履歴情報を更新する。
 出力決定部103は、状況判定部102が判定した状況に基づいて、対話システム100の出力、すなわち「エージェント」、「アシスタント」、若しくは「スマートスピーカー」として、以下のような対話行動(1)~(3)を決定する。
(1)話し掛けるタイミング
(2)話し掛ける条件
(3)話し掛ける内容
 また、出力決定部103は、上記のような状況を判定するために対話情報を蓄積する対話データベース108を適宜照会する。対話データベース108は、対話情報として、対話内容及びそれを起動する条件を持つ。話し掛ける条件は、対話相手(例えば、家族のうちの誰に話し掛けるのか)や、話をするモード(口調など)を含む。対話データベース108内の対話情報は、逐次更新されていくものとする。例えば、出力決定部103が出力を決定する度に、対話データベース108内の対話情報を更新する。
 出力生成部104は、出力決定部103により決定された出力を生成する。出力部105は、出力生成部104が生成した出力を実施する。
 出力部105は、例えばスピーカを備え、音声により出力する。音声出力を行う場合、出力決定部103が決定した対話情報(テキスト)を、出力生成部104で音声合成し、出力部105がスピーカから音声出力する。また、出力部105は、画面を備え、映像又は画像(例えば、エージェントのキャラクター)の画面表示を、音声と併せて行うようにしてもよい。また、出力部105は、対話システム100に接続された外部機器110やモバイル機器120が装備する出力デバイスを通じて出力を行うようにしてもよい。
 図2には、対話システム100の変形例を示している。図2に示す例では、対話システム100は、エージェントデバイス210と、サーバ220で構成される。
 エージェントデバイス210は、例えばリビングルームなど、対話する相手となるユーザやその家族がいる室内に設置される。一方、サーバ220は、クラウド上に設置されている。そして、エージェントデバイス210は、サーバ220との連携により、ユーザに対話サービスを提供するが、主体的な発話機能及びフィードバック機能を有する点に特徴がある。
 図2に示す例では、エージェントデバイス210は、認識部101と、出力部105と、センサ部106を搭載するとともに、インターネットなどのネットワークに接続するための通信部211を備えている。エージェントデバイス210は、認識部101による認識結果を、通信部211からネットワークを介して、サーバ220に送信する。また、エージェントデバイス210は、サーバ220により決定された対話行動の内容を、ネットワーク経由で通信部211により受信する。
 また、図2に示す例では、サーバ220は、状況判定部102と、出力決定部103と、出力生成部104を搭載するとともに、インターネットなどのネットワークに接続するための通信部221を備えている。サーバ220は、エージェントデバイス210による認識結果を、ネットワーク経由で通信部221により受信する。また、サーバ220は、出力決定部103により決定した対話行動の内容を、通信部221からネットワークを介して、エージェントデバイス210に送信する。
 対話システムの拡張性と応答性を鑑みて、エージェントデバイス210及びサーバ220側の構成を設計すべきである。
 なお、本明細書では、クラウド(Cloud)というときは、一般的に、クラウドコンピューティング(Cloud Computing)を指すものとする。クラウドは、インターネットなどのネットワークを経由してコンピューティングサービスを提供する。コンピューティングが、ネットワークにおいて、サービスを受ける情報処理装置により近い位置で行われる場合には、エッジコンピューティング(Edge Computing)やフォグコンピューティング(Fog Computing)などとも称される。本明細書におけるクラウドは、クラウドコンピューティングのためのネットワーク環境やネットワークシステム(コンピューティングのための資源(プロセッサ、メモリ、無線又は有線のネットワーク接続設備などを含む))を指すものと解される場合もある。また、クラウドの形態で提供されるサービスやプロバイダ(Provider)を指すものと解される場合もある。また、「サーバ装置」という場合には、コンピューティングにおいて主としてコンピューティングサービスを提供する少なくとも1台のコンピュータ(又はコンピュータの集合)を指すものとする。言い換えると、本明細書における「サーバ装置」は、単体のコンピュータを意味する場合もあるし、コンピュータの集合(群)を意味する場合もある。
B.システム動作例
 図3には、図1に示す対話システム100において、主体的な発話機能を実現するための概略的な処理フローを示している。図2に示す対話システム100も同様の処理フローにより主体的な発話機能を実現するものと理解されたい。
 認識部101は、センサ部106からのセンサ信号に基づいて、ユーザの状況を認識するとともに、外部機器110の動作状況を認識する。(ステップS301)。
 例えば、認識部101は、外部機器110としてのブルーレイディスクプレイヤで映画コンテンツをテレビジョン装置上で再生していることを認識することができる。また、認識部101は、カメラの撮像画像を画像認識して、ユーザを含む家族(両親とその子供の3人)が再生中の映画コンテンツ(映画AAA)を視聴していることを認識することができる。
 その後、認識部101は、その後、映画コンテンツの再生が終了したことを認識することができる。また、認識部101は、カメラの撮像画像を画像認識して、家族の視線が映画の再生画面から離れたことや、映画コンテンツの再生が終了した後に、家族間の会話量がまだほぼ起こっていないことを認識することができる。
 状況判定部102は、認識部101による認識結果に基づいて、対話システム100と対話しているユーザやユーザの家族などが置かれている状況を判定する(ステップS302)。また、状況判定部102は、履歴データベース107を適宜照会する。
 例えば、状況判定部102は、映画コンテンツの再生が終了したこと、及び、家族の視線が映画の再生画面から離れているが、家族間の会話量がまだほぼ起こっていないという認識結果に基づいて、ユーザを含む家族がテレビジョン装置の前に居て静かに余韻に浸っている状況であると判定することができる。
 そして、出力決定部103は、状況判定部102が判定した状況に基づいて、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容など、対話システム100の対話行動を決定する(ステップS303)。
 例えば、出力決定部103は、ユーザが映画の余韻に浸っているという状況から、「映画AAAを、子供でも楽しめるか」という質問を行うことを決定する。そして、出力決定部103は、上記の状況を踏まえて、「両親が傍にいる子供への質問」及び「静かな余韻を保つための声色」モードで出力することを決定して、対話データベース108を照会して対話内容を作成する。
 その後、出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する(ステップS304)。
 例えば、出力部105は、出力決定部103が決定した対話内容の音声をスピーカから出力する。また、キャラクターをテレビジョン装置の画面に表示して、キャラクター通じて対話するようにしてもよい。図4に示す例では、一緒に映画AAAを観賞した家族3人の中から、対話の相手を子供に特定している。そして、対話システム100は、テレビジョン装置の画面に表示したキャラクターを通じて、子供に「…AAA、感動しちゃいました。あれ、○○君泣いてます? ちょっと難しかったけどどうでした?」と話し掛ける。これに対し、子供は、「おもしろかった! 字幕の漢字の読みと意味が分かればもっと理解できたと思う!」と回答する。子供の発話内容は、センサ部106に含まれるマイクによって収音され、認識部101により音声認識され、さらに状況判定部102により状況が判定され、対話システム100の次の行動に活用される。
 図3に示したような主体的な発話機能によれば、対話システム100は、より多量で詳細なユーザ情報を取得することが可能となる。また、対話システム100は、サイレントマジョリティーから幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる。
 図5には、図1に示す対話システム100において、主体的な発話機能に引き続いて、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知するフィードバック機能を実現するための概略的な処理フローを示している。図2に示す対話システム100も同様の処理フローにより主体的な発話機能を実現するものと理解されたい。
 認識部101は、センサ部106からのセンサ信号に基づいて、ユーザの状況を認識するとともに、外部機器110の動作状況を認識する。(ステップS501)。
 例えば、認識部101は、カメラの撮像画像からリビングにいる家族を認識するとともに、マイクからの入力音声を音声認識して、家族間の会話量を認識する。また、認識部101は、当該対話システム100自身、及びリビングに設置された外部機器110の動作状況を認識する。
 次いで、状況判定部102は、認識部101による認識結果に基づいて、対話システム100と対話しているユーザやユーザの家族などが置かれている状況を判定する(ステップS502)。また、状況判定部102は、履歴データベース107を適宜照会する。
 例えば、状況判定部102は、家族全員が集まっていること、何か機器操作をしている様子はなく、ほどほどに緩い雰囲気で会話がされて、お茶をしているような状況を判定する。
 次いで、出力決定部103は、状況判定部102が判定した状況に基づいて、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容など、対話システム100の対話行動を決定する(ステップS503)。
 例えば、出力決定部103は、状況判定部102が判定した上記の状況から、録画再生機の新機能である「CM短縮機能」についての質問を行うことに決定する。また、出力決定部103は、上記の状況を踏まえて、「お昼のお茶時間」モードで出力することを決定して、対話データベース108を照会して対話内容を作成する。
 次いで、出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する(ステップS504)。ここでは、出力部105からは、特定のユーザに対する質問形式の発話がなされたとする。そして、ユーザは、この質問に対して回答したとする。
 センサ部106に含まれるマイクは、ユーザからの回答を収音する(ステップS505)。認識部101は、マイクで収音されたユーザの発話内容を音声認識処理する(ステップS506)。ここでは、録画再生機の新機能である「CM短縮機能」に関する質問に対する発話者からの回答と認識する。
 次いで、状況判定部102は、認識部101による認識結果に基づいて、発話者の状況を判定する(ステップS507)。例えば、状況判定部102は、「CM短縮機能」に関する質問に対する発話者からの回答から、「この家族にとって適当なCMの長さは、ドラマや映画では30秒で、その他では10秒」といった状況を判定する。
 対話システム100は、状況判定部102による判定結果に基づいて、対応処理を実施する。上記のように適当なCMの長さを判定した場合には、外部機器110として接続される録画再生機に対して、判定結果に基づく「CM短縮機能」の設定を自動で実施する。外部機器110の設定処理は、出力決定部103が行ってもよいが、状況判定部102が行うようにしてもよい。
 次いで、出力決定部103は、状況判定部102が判定した状況に基づいて、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容など、対話システム100の対話行動を決定する(ステップS508)。
 上記のようにユーザからのアンケート回答結果に対応した直後においては、出力決定部103は、対応結果や対応状況についてユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。また、出力決定部103は、ユーザからの回答結果に対応したという状況を踏まえて、「その旨を通知」及び「変更方法も教示」モードで出力することを決定して、対話データベース108を照会して対話内容を作成する。
 次いで、出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する(ステップS509)。ここでは、出力部105からは、対応結果や対応状況についてユーザに話し掛けて通知する。
 図5に示した処理手順によれば、対話システム100は、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知するフィードバック機能を実現することができる。このようなフィードバック機能によれば、ユーザが対話システム100からの話し掛けに回答する動機付けを増加することができ、対話システム100がユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム100を搭載した機器又はサービスの改善に活用することができる。
C.主体的発話機能の動作例
 本実施形態に係る対話システム100は、ユーザが置かれている状況や傾向、履歴に基づいて、文脈に沿ったタイミング及び内容で、主体的にユーザに話し掛ける主体的な発話機能を有している。ここでは、対話システム100から主体的な発話機能を実施するいくつかの具体例について説明する。
C-1.視線集中の低下に基づく主体的な発話
 認識部101は、外部機器110としてのコンテンツ再生機でのコンテンツの再生状況や、その他の機器の操作状況を認識することができる。また、認識部101は、マイクからの入力音声を音声認識し、カメラ画像からユーザの視線を認識することができる。認識部101が、ユーザが映画やドラマの視聴を終了し、視線の集中がコンテンツ再生画面から離れたこと、会話や別の機器操作をしていないことを認識する。状況判定部102は、このような認識結果に基づいて、「ユーザは、コンテンツへの視線集中は低下したが、再生機器の前には引き続き滞在しているため、余韻があり、コンテンツを視聴した感想を聞いてもよいタイミング」であると判定する。そして、出力決定部103は、このような判定結果に基づいて、ユーザに感想を尋ねるという対話行動を決定して、対話データベース108を照会して対話内容を作成する。出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する。
 図6に示す例では、対話システム100は、家族3人が映画AAAの視聴を終了し、視線の集中が画面から離れ、会話や別の機器操作を行っていないという認識結果に基づいて、「ユーザは、コンテンツへの視線集中は低下したが、再生機器の前には引き続き滞在しているため、余韻があり、コンテンツを視聴した感想を聞いてもよいタイミング」であると判定する。そして、対話の相手を子供に特定して、テレビジョン装置の画面に表示したキャラクターを通じて、子供に「…AAA、凄かったですね! ちょっと難しかったけど○○君はどうでした?」と尋ねる。これに対し、子供は、「おもしろかった! 字幕の漢字の読みと意味が分かればもっと理解できたと思う!」と回答する。子供の発話内容は、センサ部106に含まれるマイクによって収音され、認識部101により音声認識され、さらに状況判定部102により状況が判定され、対話システム100の次の行動に活用される。
 対話システム100は、上記のような主体的な発話を実施した結果、ユーザの体験の記憶が薄れない鮮度の高い状態で、且つ、ユーザの視聴行動や次の行動を邪魔せず、ユーザからフィードバックを得ることができる。視聴行動の事後にフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム100によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。
C-2.位置情報に基づく主体的な発話
 認識部101は、ユーザが所持するモバイル機器120の位置情報と、カメラ画像認識を通じて、ユーザの居場所を認識することができる。例えば、認識部101が、対話システム100がユーザに推薦したお出掛け先(レストランなど)に実際に行ったこと、そしてその外出先から帰宅したことを、モバイル機器120の位置情報とカメラ画像から認識する。状況判定部102は、このような認識結果に基づいて、レストランの感想を聞いてもよいタイミングであると判定する。そして、出力決定部103は、このような判定結果に基づいて、ユーザに感想を尋ねるという対話行動を決定して、対話データベース108を照会して対話内容を作成する。出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する。
 図7に示す例では、対話システム100は、家族3人がレストランAAに実際に行き、その外出先から帰宅したという認識結果に基づいて、父親に「おかえりなさい。レストランAAはいかがでしたか? ここは食べられました?」と尋ねる。これに対し、父親は、「BBはもうメニューになかったよ…でも禁煙だし接客もよくて満足。また行きたい。」と回答する。父親の発話内容は、センサ部106に含まれるマイクによって収音され、認識部101により音声認識され、さらに状況判定部102により状況が判定され、対話システム100の次の行動に活用される。
 対話システム100は、上記のような主体的な発話を実施した結果、ユーザの体験の記憶が薄れない鮮度の高い状態で、対話システム100の推薦技術に対するフィードバックや、お出掛け先やレストランに対するフィードバック、ユーザの嗜好情報を取得することができる。また、推薦技術に対するフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム100によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。
C-3.会話のない状態に基づく主体的な発話
 認識部101は、カメラ画像の画像認識と、マイクからの入力音声の音声認識を通じて、ユーザが行っている作業と、会話の有無を認識することができる。例えば、認識部101は、画像認識及び音声認識を通じて、ユーザの家族複数人で食事中であるが会話がない状態が続いていることを認識する。状況判定部102は、このような認識結果に基づいて、対話システム100から主体的にユーザに話し掛けてよい状況であると判定する。そして、出力決定部103は、このような判定結果に基づいて、アンケートなどのユーザとの会話を開始することを決定して、対話データベース108を照会してアンケート内容を作成する。出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する。
 対話システム100は、上記のような主体的な発話を実施した結果、ユーザの会話を阻害せず、むしろユーザの会話を促進することができる。また、会話がない状態でフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム100によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。
C-4.ユーザの行動のセンシングに基づく主体的な発話
 認識部101は、外部機器110としての音楽再生機での音楽の再生状況や、ユーザがよく聴く楽曲を認識することができる。例えば、認識部101は、音楽再生器の動作状況及び画像認識を通じて、いつも特定のアーティストの楽曲を再生するユーザが部屋に居て、そのアーティストの楽曲の再生を開始するが、すぐにそのユーザによって止められてしまったことを認識する。状況判定部102は、このような認識結果に基づいて、そのユーザがなぜいつもと違う行動をしたのかを対話システム100から主体的に話しかけてよい状況であると判定する。そして、出力決定部103は、このような判定結果に基づいて、ユーザが楽曲を止めた理由を尋ねるという対話行動を決定して、対話データベース108を照会して対話内容を作成する。出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する。
 対話システム100は、上記のような主体的な発話を実施した結果、「本を読んでいるときは歌詞のある音楽は聴きたくない」、「そのアーティスクが嫌いになった訳ではない」、「その曲が嫌いな訳ではない」といった、より詳しいユーザ情報や、機器の操作ログなどでは判明し難い情報を取得することができる。また、通常とは異なる行動をとった理由のフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム100によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。
C-5.機器操作のセンシングに基づく主体的な発話
 認識部101は、対話システム100と接続可能な各種の外部機器110の操作状況を認識することができる。例えば、認識部101は、外部機器110の操作状況のログから、ユーザからの機器操作が長時間途絶えていることや、機器の一部の特定の機能のみが使用されていることを認識する。状況判定部102は、このような認識結果に基づいて、そのユーザがなぜ機器操作を止めたのか、あるいはなぜ特異な(若しくは、いつもとは異なる)機器操作を行っているのかを対話システム100から主体的に話しかけてよい状況であると判定する。そして、出力決定部103は、このような判定結果に基づいて、ユーザの機器操作を止め又は特異な機器操作を行う理由を尋ねるという対話行動を決定して、対話データベース108を照会して対話内容を作成する。出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する。
 また、認識部101は、対話システム100が提供するサービスや、対話システム100と連携するサービスのユーザによる利用状況を認識することができる。例えば、認識部101は、利用状況のログから、ユーザがサービスを長時間利用していないことや、一部のサービスのみが利用されていることを認識する。状況判定部102は、このような認識結果に基づいて、ユーザがサービスに興味を失ったか否か、あるいはユーザがサービスに興味を失った理由について対話システム100から主体的に話しかけてよい状況であると判定する。そして、出力決定部103は、このような判定結果に基づいて、ユーザの機器操作を止め又は特異な機器操作を行う理由を尋ねるという対話行動を決定して、対話データベース108を照会して対話内容を作成する。出力生成部104は、出力決定部103により決定された出力を生成し、出力部105は、出力生成部104が生成した出力を実施する。
 対話システム100は、上記のような主体的な発話を実施した結果、該当する機器やサービスに興味を失った又は失いつつあるユーザに対して、働きかける機会を得ることができる。また、機器やサービスに対して興味を失った又は失いつつある理由のフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム100によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。
 本実施形態に係る対話システム100は、主体的発話機能により、より多量で詳細なユーザ情報を取得することが可能となる。また、サイレントマジョリティーから幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる。
D.フィードバック機能の動作例
 本実施形態に係る対話システム100は、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知するフィードバック機能を有している。ここでは、対話システム100からフィードバック機能を実施するいくつかの具体例について説明する。
D-1.ユーザからの回答結果を機器設定に反映する場合
 対話システム100は、例えば外部機器110やサービスに関するアンケートをユーザに対して行い、ユーザからのアンケートの回答結果を外部機器110やサービスの設定に反映する。
 例えば、外部機器110の1つである録画再生機の新機能として「CM短縮機能」が実現した際に、出力決定部103は、いつもCMを早送りしているユーザを相手に特定して、CM短縮機能についてアンケートを行うことに決定する。そして、出力生成部104及び出力部105を通じて、そのユーザにアンケートを実施する。
 ユーザからのアンケートの回答をマイクで収音し、認識部101で音声認識する。そして、状況判定部102は、認識結果に基づいて、そのユーザにとって適当なCMの長さは、ドラマや映画では30秒で、その他では10秒であると判定すると、録画再生機に対して判定結果に基づく「CM短縮機能」の設定を自動で実施して、アンケートの回答を外部機器110やサービスに反映する。
 出力決定部103は、ユーザからのアンケート回答結果に対応した直後においては、対応結果や対応状況についてユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部104及び出力部105を通じてユーザに話し掛けて、アンケート回答の対応結果や対応状況を通知する。その結果、ユーザが対話システム100からの話し掛けに回答する動機付けを増加することができ、対話システム100がユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム100を搭載した機器又はサービスの改善に活用することができる。
D-2.ユーザの不満を聞き出して機器やサービスの改善に反映する場合
 対話システム100は、例えば外部機器110やサービスに関するアンケートをユーザに対して行い、ユーザからのアンケートの回答結果を外部機器110やサービスの改善に反映するとともに、ユーザに通知する。
 例えば、出力決定部103は、外部機器110や対話システム100のサービスに対する不満をユーザに尋ねることを決定して、出力生成部104及び出力部105を通じて、そのユーザにアンケートを実施する。
 ユーザからの回答をマイクで収音し、認識部101で音声認識する。そして、状況判定部102は、認識結果に基づいて、ユーザの不満を解決するために必要となる、外部機器110又はサービスの提供元における改善ソフトウェアのリリースやその他の代替策を判定する。
 出力決定部103は、ユーザの不満を解決するための改善ソフトウェアのリリースやその他の代替策について、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部104及び出力部105を通じてユーザに話し掛けて、改善ソフトウェアのリリースやその他の代替策を通知する。ユーザへの通知を行った結果、ユーザは対話システム100の話し掛けによって外部機器110やサービスが改善されたことに気付き、ユーザが対話システム100からの話し掛けに回答する動機付けを増加することができ、対話システム100がユーザに話を聞ける障壁を低くすることにもつながる。
 あるいは、出力決定部103は、外部機器110や対話システム100のサービスに追加して欲しい機能や、逆に削減してもよい機能を複数のユーザに尋ねることを決定して、出力生成部104及び出力部105を通じて、各ユーザにアンケートを実施する。そして、ユーザからの回答をマイクで収音し、認識部101で音声認識し、状況判定部102は、認識結果に基づいてアンケートの回答を集計する。
 出力決定部103は、次に開発すべき機能や削減してもよい機能の投票結果について、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部104及び出力部105を通じてユーザに話し掛けて、改善ソフトウェアのリリースやその他の代替策を通知する。
 また、外部機器110やサービスの提供元が、ユーザの投票結果に基づいてソフトウェアを更新してリリースした際には、状況判定部102がかかる状況を判定し、出力決定部103はソフトウェアのリリースをユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部104及び出力部105を通じてユーザに話し掛けて、ソフトウェアのリリースを通知する。ユーザへの通知を行った結果、ユーザは対話システム100の話し掛けによって外部機器110やサービスが改善されたことに気付き、ユーザが対話システム100からの話し掛けに回答する動機付けを増加することができ、対話システム100がユーザに話を聞ける障壁を低くすることにもつながる。
 本実施形態に係る対話システム100は、フィードバック機能により、ユーザが対話システム100からの話し掛けに回答する動機付けを増加することができ、対話システム100がユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム100を搭載した機器又はサービスの改善に活用することができる。
E.対話システムの効果
 最後に、本実施形態に係る対話システム100の効果についてまとめておく。
 ユーザから話し掛けられたことをトリガにしてユーザとの対話が開始される従来の対話システムでは、ユーザから話し掛けられない限り、ユーザ情報やアンケートの回答を聞き出すことができないため、ユーザから情報を得る機会と内容は限定的となり、得られるユーザ情報やアンケート回答の量及び質が十分でないという問題がある。また、ユーザ毎に回答の数にばらつきが生じ、統計的な情報を取得し難い。また、外部機器110やサービスの利用から遠ざかった離脱ユーザからその理由を聞き出すなど働きかけを行い難い。
 これに対し、本実施形態に係る対話システム100は、ユーザの状況又は傾向を鑑みて主体的にユーザに話し掛けることができる。したがって、より多量で詳細なユーザ情報を取得することが可能であり、サイレントマジョリティーから幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる、という効果がある。
 また、従来の対話システムは、基本的に、対話から収集したユーザ情報がその後どのように使われたかをユーザにフィードバックする仕組みを備えておらず、ユーザは対話システムからの問いかけに応答したことに対して得られる報酬は、対話の楽しみのみであり、回答する動機付けが少ないため回答率が低下していくという問題がある。また、ユーザからの回答結果を当該機器又はサービスの体験自体に活用することができない。
 これに対し、本実施形態に係る対話システム100は、ユーザからの回答結果に対応することができる、且つ、対応結果や対応状況についてユーザに話し掛けて通知することができる。したがって、ユーザが対話システムからの話し掛けに回答する動機付けを増加することができ、対話システムがユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム100を搭載した機器又はサービス自体の改善に活用することができる。
 以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書では、本明細書で開示する技術を「エージェント」又は「アシスタント」とも呼ばれる対話システムに適用した実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。例えば、アンケートの回答を収集するアンケートデータ収集システムにも、本明細書で開示する技術を適用して、より多量で詳細なアンケート回答を収集することができる。
 要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)ユーザの状況又は傾向を判定する判定部と、
 前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
を具備する情報処理装置。
(2)前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関する認識結果に基づいて、前記ユーザの状況又は傾向を判定する、
上記(1)に記載の情報処理装置。
(3)前記判定部は、前記機器の使用状況、前記ユーザや家族の室内の位置及び向き、顔の向き、移動量、視線、表情、前記家族それぞれの室外位置、前記ユーザや前記家族それぞれの会話量、会話音の相対的大きさ、感情、会話内容を判定する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)前記判定部は、前記ユーザの視線集中度を判定し、
 前記決定部は、前記ユーザの視線集中が低下したことに基づいて、前記ユーザに対する出力を決定する、
上記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)前記判定部は、前記ユーザの位置情報に基づいて前記ユーザの状況を判定し、
 前記決定部は、前記ユーザの位置情報に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)前記判定部は、会話の状態に基づいて前記ユーザの状況を判定し、
 前記決定部は、会話の状態に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作の変化に基づいて前記ユーザの状況を判定し、
 前記決定部は、前記変化に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)前記判定部は、前記ユーザが機器に対して行う操作の内容又は操作の傾向に基づいて前記ユーザの状況を判定し、
 前記決定部は、前記ユーザの機器操作の内容又は傾向に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)前記判定部は、前記決定部が出力を決定した質問に対する前記ユーザからの回答を判定して、対応処理を実施する、
上記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)前記判定部は、前記対応処理の状況又は結果を判定し、
 前記決定部は、前記対応処理の状況又は結果の前記ユーザへの出力を決定する、
上記(10)に記載の情報処理装置。
(12)前記判定部は、機器又はサービスの新機能のアンケートに対する前記ユーザからの回答に基づいて、前記新機能の設定を判定する、
上記(10)に記載の情報処理装置。
(13)前記決定部は、前記ユーザからの回答の対応状況又は対応結果の前記ユーザへの出力を決定する、
上記(12)に記載の情報処理装置。
(14)前記判定部は、機器又はサービスへの不満に関するアンケートに対する前記ユーザからの回答に基づいて、改善ソフトウェアのリリース又はその他の代替策を判定する、
上記(10)に記載の情報処理装置。
(15)前記決定部は、前記改善ソフトウェアのリリース又はその他の代替策を前記ユーザに通知するための出力を決定する、
上記(14)に記載の情報処理装置。
(16)ユーザの状況又は傾向を判定する判定ステップと、
 前記判定ステップにおける判定結果に基づいて、前記ユーザに対する出力を決定する決定ステップと、
を有する情報処理方法。
(17)ユーザの状況又は傾向を判定する判定部、
 前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
(18)ユーザ又は前記ユーザが使用する機器の動作を認識処理する認識部と、
 前記認識部の認識結果に基づいて前記ユーザの状況又は傾向を判定する判定部と、
 前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
 前記決定に基づいて前記ユーザに対する出力を行う出力部と、
を具備する対話システム。
 100…対話システム
 101…認識部、102…状況判定部
 103…出力決定部、104…出力生成部、105…出力部、
 106…センサ部、107…履歴データベース
 108…対話データベース

Claims (18)

  1.  ユーザの状況又は傾向を判定する判定部と、
     前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
    を具備する情報処理装置。
  2.  前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関する認識結果に基づいて、前記ユーザの状況又は傾向を判定する、
    請求項1に記載の情報処理装置。
  3.  前記判定部は、前記機器の使用状況、前記ユーザや家族の室内の位置及び向き、顔の向き、移動量、視線、表情、前記家族それぞれの室外位置、前記ユーザや前記家族それぞれの会話量、会話音の相対的大きさ、感情、会話内容を判定する、
    請求項1に記載の情報処理装置。
  4.  前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する、
    請求項1に記載の情報処理装置。
  5.  前記判定部は、前記ユーザの視線集中度を判定し、
     前記決定部は、前記ユーザの視線集中が低下したことに基づいて、前記ユーザに対する出力を決定する、
    請求項1に記載の情報処理装置。
  6.  前記判定部は、前記ユーザの位置情報に基づいて前記ユーザの状況を判定し、
     前記決定部は、前記ユーザの位置情報に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
    請求項1に記載の情報処理装置。
  7.  前記判定部は、会話の状態に基づいて前記ユーザの状況を判定し、
     前記決定部は、会話の状態に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
    請求項1に記載の情報処理装置。
  8.  前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作の変化に基づいて前記ユーザの状況を判定し、
     前記決定部は、前記変化に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
    請求項1に記載の情報処理装置。
  9.  前記判定部は、前記ユーザが機器に対して行う操作の内容又は操作の傾向に基づいて前記ユーザの状況を判定し、
     前記決定部は、前記ユーザの機器操作の内容又は傾向に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
    請求項1に記載の情報処理装置。
  10.  前記判定部は、前記決定部が出力を決定した質問に対する前記ユーザからの回答を判定して、対応処理を実施する、
    請求項1に記載の情報処理装置。
  11.  前記判定部は、前記対応処理の状況又は結果を判定し、
     前記決定部は、前記対応処理の状況又は結果の前記ユーザへの出力を決定する、
    請求項10に記載の情報処理装置。
  12.  前記判定部は、機器又はサービスの新機能のアンケートに対する前記ユーザからの回答に基づいて、前記新機能の設定を判定する、
    請求項10に記載の情報処理装置。
  13.  前記決定部は、前記ユーザからの回答の対応状況又は対応結果の前記ユーザへの出力を決定する、
    請求項12に記載の情報処理装置。
  14.  前記判定部は、機器又はサービスへの不満に関するアンケートに対する前記ユーザからの回答に基づいて、改善ソフトウェアのリリース又はその他の代替策を判定する、
    請求項10に記載の情報処理装置。
  15.  前記決定部は、前記改善ソフトウェアのリリース又はその他の代替策を前記ユーザに通知するための出力を決定する、
    請求項14に記載の情報処理装置。
  16.  ユーザの状況又は傾向を判定する判定ステップと、
     前記判定ステップにおける判定結果に基づいて、前記ユーザに対する出力を決定する決定ステップと、
    を有する情報処理方法。
  17.  ユーザの状況又は傾向を判定する判定部、
     前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部、
    としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
  18.  ユーザ又は前記ユーザが使用する機器の動作を認識処理する認識部と、
     前記認識部の認識結果に基づいて前記ユーザの状況又は傾向を判定する判定部と、
     前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
     前記決定に基づいて前記ユーザに対する出力を行う出力部と、
    を具備する対話システム。
PCT/JP2019/023644 2018-09-25 2019-06-14 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム WO2020066154A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/275,667 US20220051669A1 (en) 2018-09-25 2019-06-14 Information processing device, information processing method, computer program, and interaction system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-179521 2018-09-25
JP2018179521 2018-09-25

Publications (1)

Publication Number Publication Date
WO2020066154A1 true WO2020066154A1 (ja) 2020-04-02

Family

ID=69949907

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/023644 WO2020066154A1 (ja) 2018-09-25 2019-06-14 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム

Country Status (2)

Country Link
US (1) US20220051669A1 (ja)
WO (1) WO2020066154A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021524949A (ja) * 2019-04-30 2021-09-16 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. 対象推薦方法および装置、記憶媒体と端末装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003340757A (ja) * 2002-05-24 2003-12-02 Mitsubishi Heavy Ind Ltd ロボット
JP2011118750A (ja) * 2009-12-04 2011-06-16 Toyota Motor Corp 操作画面カスタマイズ装置
JP2015156725A (ja) * 2015-06-03 2015-08-27 シャープ株式会社 電気機器制御装置、電気機器制御システム、プログラム、電気機器制御方法、入出力装置、電気機器、およびセンサ
JP2016004367A (ja) * 2014-06-16 2016-01-12 株式会社リコー 情報収集システム、情報処理装置、情報収集方法、プログラム
JP2016100033A (ja) * 2014-11-19 2016-05-30 シャープ株式会社 再生制御装置
WO2018016095A1 (ja) * 2016-07-19 2018-01-25 Gatebox株式会社 画像表示装置、話題選択方法、話題選択プログラム、画像表示方法及び画像表示プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006089390A1 (en) * 2005-02-22 2006-08-31 Nextair Corporation Facilitating mobile device awareness of the availability of new or updated server-side applications
US9679300B2 (en) * 2012-12-11 2017-06-13 Nuance Communications, Inc. Systems and methods for virtual agent recommendation for multiple persons
US10832684B2 (en) * 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing
US10950228B1 (en) * 2017-06-28 2021-03-16 Amazon Technologies, Inc. Interactive voice controlled entertainment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003340757A (ja) * 2002-05-24 2003-12-02 Mitsubishi Heavy Ind Ltd ロボット
JP2011118750A (ja) * 2009-12-04 2011-06-16 Toyota Motor Corp 操作画面カスタマイズ装置
JP2016004367A (ja) * 2014-06-16 2016-01-12 株式会社リコー 情報収集システム、情報処理装置、情報収集方法、プログラム
JP2016100033A (ja) * 2014-11-19 2016-05-30 シャープ株式会社 再生制御装置
JP2015156725A (ja) * 2015-06-03 2015-08-27 シャープ株式会社 電気機器制御装置、電気機器制御システム、プログラム、電気機器制御方法、入出力装置、電気機器、およびセンサ
WO2018016095A1 (ja) * 2016-07-19 2018-01-25 Gatebox株式会社 画像表示装置、話題選択方法、話題選択プログラム、画像表示方法及び画像表示プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021524949A (ja) * 2019-04-30 2021-09-16 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. 対象推薦方法および装置、記憶媒体と端末装置
JP7252969B2 (ja) 2019-04-30 2023-04-05 北京字節跳動網絡技術有限公司 対象推薦方法および装置、記憶媒体と端末装置

Also Published As

Publication number Publication date
US20220051669A1 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
US11055739B2 (en) Using environment and user data to deliver advertisements targeted to user interests, e.g. based on a single command
US9344815B2 (en) Method for augmenting hearing
CN106464939B (zh) 播放音效的方法及装置
JP2015518680A (ja) 受動的に検知された聴衆反応に基づくメディア・プログラムの提示制御
CN110198375A (zh) 录音方法、终端及计算机可读存储介质
JPWO2019225201A1 (ja) 情報処理装置及び情報処理方法、並びに情報処理システム
JP7294337B2 (ja) 情報処理装置及び情報処理方法、並びに情報処理システム
WO2020066154A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
JP7284570B2 (ja) 音声再生システムおよびプログラム
JP2005332404A (ja) コンテンツ提供システム
JP7070546B2 (ja) 情報処理装置および情報処理方法
WO2019138652A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN111696566B (zh) 语音处理方法、装置和介质
Panek et al. Challenges in adopting speech control for assistive robots
JP3638591B2 (ja) コンテンツ提供システム
JP3696869B2 (ja) コンテンツ提供システム
US20220217442A1 (en) Method and device to generate suggested actions based on passive audio
JP7327161B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Tsukamoto et al. Investigating a Method to Reduce Japanese People's Embarrassment in Using Voice Inputs
WO2020017165A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN111696564A (zh) 语音处理方法、装置和介质
CN112331179A (zh) 一种数据处理方法和耳机收纳装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19865847

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19865847

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP