WO2019155717A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2019155717A1
WO2019155717A1 PCT/JP2018/042411 JP2018042411W WO2019155717A1 WO 2019155717 A1 WO2019155717 A1 WO 2019155717A1 JP 2018042411 W JP2018042411 W JP 2018042411W WO 2019155717 A1 WO2019155717 A1 WO 2019155717A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
utterance
information processing
information
processing apparatus
Prior art date
Application number
PCT/JP2018/042411
Other languages
English (en)
French (fr)
Inventor
真一 河野
祐平 滝
広 岩瀬
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/966,047 priority Critical patent/US20200365139A1/en
Priority to EP18904853.1A priority patent/EP3751393A4/en
Priority to JP2019570303A priority patent/JP7347217B2/ja
Priority to CN201880084925.5A priority patent/CN111587413A/zh
Publication of WO2019155717A1 publication Critical patent/WO2019155717A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing system, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that execute processing according to a user utterance.
  • the video content is acquired from the video content providing server and output to the display unit or the connected TV.
  • the user speaks “Turn off the TV” an operation of turning off the TV is performed.
  • a general spoken dialogue system has, for example, a natural language understanding function such as NLU (Natural Language Understanding) and applies a natural language understanding (NLU) function to understand the intention (intent) of a user utterance.
  • NLU Natural Language Understanding
  • NLU natural language understanding
  • Japanese Patent Laid-Open No. 2007-052397 discloses a related art that discloses a configuration for reliably executing a processing request by user utterance.
  • This document discloses a configuration in which a voice command list that can be input to a car navigation system is displayed in advance on a display unit so that the user can input a voice command while viewing the list.
  • the user utterance (command) that can be understood by the car navigation can be uttered by the user, and the possibility that the user utterance (command) that cannot be understood by the car navigation can be reduced.
  • This configuration makes it possible to match the user utterance with the command registered in the system.
  • the user can It becomes necessary to search a plurality of commands corresponding to the processing from the list, which increases the burden on the user. As a result, there is a problem that the time until the process is completed also increases.
  • the present disclosure has been made in view of the above-described problems, for example, and provides an information processing apparatus, an information processing system, an information processing method, and a program that can more reliably execute a process according to a user utterance.
  • the purpose is to do.
  • an information processing apparatus capable of reliably executing a plurality of processes requested by a user when a plurality of different processes are collectively executed, and Provide a program.
  • the first aspect of the present disclosure is: It has a learning processing unit that performs user utterance learning processing, The learning processing unit The information processing apparatus generates an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected.
  • the second aspect of the present disclosure is: An information processing system having a user terminal and a data processing server,
  • the user terminal is A voice input unit for inputting a user utterance;
  • the data processing server A learning processing unit that performs learning processing of the user utterance received from the user terminal;
  • the learning processing unit The information processing system generates an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected.
  • the third aspect of the present disclosure is: An information processing method executed in an information processing apparatus,
  • the information processing apparatus includes a learning processing unit that performs learning processing of user utterances,
  • the learning processing unit There is an information processing method for generating an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected.
  • the fourth aspect of the present disclosure is: An information processing method executed in an information processing system having a user terminal and a data processing server,
  • the user terminal is Execute voice input processing to input user utterance
  • the data processing server is Performing the learning process of the user utterance received from the user terminal;
  • the fifth aspect of the present disclosure is: A program for executing information processing in an information processing apparatus;
  • the information processing apparatus includes a learning processing unit that performs learning processing of user utterances,
  • the program is stored in the learning processing unit.
  • the program of the present disclosure is a program that can be provided by, for example, a storage medium or a communication medium provided in a computer-readable format to an information processing apparatus or a computer system that can execute various program codes.
  • a program in a computer-readable format, processing corresponding to the program is realized on the information processing apparatus or the computer system.
  • system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
  • an apparatus and a method capable of accurately and repeatedly executing a process based on a plurality of user utterances by generating and using an utterance summary list that summarizes the plurality of user utterances are realized. Is done. Specifically, for example, the learning processing unit generates an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected. Further, the generated utterance summary list is displayed on the display unit. The learning processing unit obtains the user's consent, determines that the execution of a plurality of processes corresponding to the user utterance has succeeded, or the combination of the plurality of user utterances is a predetermined threshold number of times.
  • an utterance summary list is generated and stored in the storage unit.
  • FIG. 2 is a diagram illustrating a configuration example and a usage example of an information processing device.
  • FIG. 25 is a diagram for describing a specific configuration example of an information processing device. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus. It is a figure explaining an example of the display data of information processing apparatus.
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus.
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus.
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus.
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus.
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus.
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus.
  • FIG. 25 is a diagram for describing an example hardware configuration of an information processing device.
  • FIG. 1 is a diagram illustrating a configuration and a processing example of an information processing apparatus 10 that recognizes a user utterance uttered by a user 1 and performs a process or response corresponding to the user utterance.
  • the user 1 performs the following user utterance.
  • User utterance “Show me an interesting video”
  • step S02 the information processing apparatus 10 performs voice recognition of the user utterance and executes processing based on the recognition result.
  • System utterance “I understand, I will play an interesting video.”
  • the information processing apparatus 10 acquires moving image content from, for example, a content distribution server that is a cloud-side server 20 connected to the network, and is controlled by the display unit 13 of the information processing apparatus 10 or the information processing apparatus 10. Output to a nearby external device (television) 30.
  • step S04 the information processing apparatus 10 performs voice recognition of the user utterance and executes processing based on the recognition result.
  • System utterance “I understand, I will play the classic.”
  • the information processing apparatus 10 acquires classical music content from, for example, a music distribution server that is a cloud-side server 20 connected to the network, and the speaker 14 of the information processing apparatus 10 or a nearby external device (speaker). Output to.
  • the information processing apparatus 10 shown in FIG. 1 includes a camera 11, a microphone 12, a display unit 13, and a speaker 14, and has a configuration capable of audio input / output and image input / output.
  • the information processing apparatus 10 shown in FIG. 1 is called, for example, a smart speaker or an agent device.
  • voice recognition processing and semantic analysis processing for user utterances may be performed in the information processing apparatus 10 or may be performed in a data processing server that is one of the servers 20 on the cloud side.
  • the information processing apparatus 10 of the present disclosure is not limited to the agent device 10a, but may be various device forms such as a smartphone 10b and a PC 10c.
  • the information processing apparatus 10 recognizes the utterance of the user 1 and performs a response based on the user utterance. For example, the information processing apparatus 10 also executes control of the external device 30 such as a television and an air conditioner illustrated in FIG. For example, when the user utterance is a request such as “change the TV channel to 1” or “set the air conditioner temperature to 20 degrees”, the information processing apparatus 10 determines whether the user utterance is based on the voice recognition result of the user utterance. A control signal (Wi-Fi, infrared light, etc.) is output to the external device 30 to execute control according to the user utterance.
  • Wi-Fi Wi-Fi, infrared light, etc.
  • the information processing apparatus 10 is connected to the server 20 via the network, and can acquire information necessary for generating a response to the user utterance from the server 20. Further, as described above, the server may be configured to perform voice recognition processing and semantic analysis processing.
  • FIG. 3 is a diagram illustrating a configuration example of the information processing apparatus 10 that recognizes a user utterance and performs processing and a response corresponding to the user utterance.
  • the information processing apparatus 10 includes an input unit 110, an output unit 120, and a data processing unit 150.
  • the data processing unit 150 can be configured in the information processing apparatus 10, but may not be configured in the information processing apparatus 10 but may use a data processing unit of an external server.
  • the information processing apparatus 10 transmits the input data input from the input unit 110 to the server via the network, receives the processing result of the data processing unit 150 of the server, and outputs the output unit 120. Output via.
  • the input unit 110 includes an audio input unit (microphone) 111, an image input unit (camera) 112, and a sensor 113.
  • the output unit 120 includes an audio output unit (speaker) 121 and an image output unit (display unit) 122.
  • the information processing apparatus 10 has at least these components.
  • the voice input unit (microphone) 111 corresponds to the microphone 12 of the information processing apparatus 10 illustrated in FIG.
  • the image input unit (camera) 112 corresponds to the camera 11 of the information processing apparatus 10 illustrated in FIG.
  • the audio output unit (speaker) 121 corresponds to the speaker 14 of the information processing apparatus 10 illustrated in FIG.
  • the image output unit (display unit) 122 corresponds to the display unit 13 of the information processing apparatus 10 illustrated in FIG. Note that the image output unit (display unit) 122 can be configured by, for example, a projector or the like, or can be configured using a display unit of a television set of an external device.
  • the data processing unit 150 is configured in either the information processing apparatus 10 or a server that can communicate with the information processing apparatus 10.
  • the data processing unit 150 includes an input data analysis unit 160, a storage unit 170, and an output information generation unit 180.
  • the input data analysis unit 160 includes a voice analysis unit 161, an image analysis unit 162, a sensor information analysis unit 163, a user state estimation unit 164, and a learning processing unit 165.
  • the output information generation unit 180 includes an output audio generation unit 181 and a display information generation unit 182.
  • the display information generation unit 182 generates display data such as a node tree and an utterance summary list. These display data will be described in detail later.
  • the user's speech is input to the voice input unit 111 such as a microphone.
  • the voice input unit (microphone) 111 inputs the input user utterance voice to the voice analysis unit 161.
  • the voice analysis unit 161 has, for example, an ASR (Automatic Speech Recognition) function, and converts voice data into text data composed of a plurality of words. Furthermore, an utterance semantic analysis process is performed on the text data.
  • the speech analysis unit 161 has a natural language understanding function such as NLU (Natural Language Understanding), for example, and the intention (intent) of a user utterance from text data and a meaningful element (significant element) included in the utterance ) Which is entity information (entity: Entity).
  • NLU Natural Language Understanding
  • the information processing apparatus 100 can perform an accurate process on the user utterance. For example, in the above example, tomorrow's afternoon weather in Osaka can be obtained and output as a response.
  • the user utterance analysis information 191 acquired by the voice analysis unit 161 is stored in the storage unit 170 and is output to the learning processing unit 165 and the output information generation unit 180.
  • the voice analysis unit 161 acquires information (non-verbal information) necessary for user emotion analysis processing based on the user voice, and outputs the acquired information to the user state estimation unit 164.
  • the image input unit 112 captures an image of the uttering user and the surrounding image and inputs the captured image to the image analysis unit 162.
  • the image analysis unit 162 analyzes the facial expression, gesture, line-of-sight information, etc. of the user, and outputs the analysis result to the user state estimation unit 164.
  • the sensor 113 is configured by a sensor that acquires data necessary for analyzing a user's line of sight, body temperature, heart rate, pulse, brain wave, and the like, for example.
  • the sensor acquisition information is input to the sensor information analysis unit 163.
  • the sensor information analysis unit 163 acquires data such as the user's line of sight, body temperature, and heart rate based on the sensor acquisition information, and outputs the analysis result to the user state estimation unit 164.
  • the user state estimation unit 164 Analysis result by the voice analysis unit 161, that is, information necessary for user emotion analysis processing based on user voice (non-verbal information), Analysis results by the image analysis unit 162, that is, analysis information such as facial expressions, gestures, and line-of-sight information of the user, Analysis results by the sensor information analysis unit 163, that is, data such as the user's line of sight, body temperature, heart rate, pulse, electroencephalogram, By inputting these data, the user state is estimated, and the user state estimation information 192 is generated.
  • the generated user state estimation information 192 is stored in the storage unit 170 and is output to the learning processing unit 165 and the output information generation unit 180.
  • the user state estimation information 192 generated by the user state estimation unit 164 is specifically, for example, whether the user is satisfied or dissatisfied, that is, is the user state utterance satisfied with the processing executed by the information processing apparatus for the user utterance? It is the estimation information etc. of no. For example, if it is estimated that the user is satisfied, it is estimated that the process executed by the information processing apparatus for the user utterance is correct, that is, the execution process is successful.
  • the learning processing unit 165 performs a learning process on the user utterance and stores learning data in the storage unit 170. For example, when a new user utterance is input or when the intention of the user utterance is unknown, the intention is analyzed based on the subsequent interaction between the device and the user, and the user utterance is obtained when the analysis result is obtained. The learning data in which the intentions are associated with each other is generated and stored in the storage unit 170. By executing such learning processing, it becomes possible to gradually understand the intentions of many user utterances.
  • the learning processing unit 165 also executes a process of generating an “utterance summary list” in which a plurality of user utterances are collected and storing them in the storage unit 170.
  • the “speech summary list” will be described in detail later.
  • the learning processing unit 165 grasps the success level of the processing executed by the information processing apparatus 10 for the user utterance, for example, and generates learning data when it is determined to be successful, and stores the learning data.
  • the processing stored in 170 is executed.
  • the storage unit 170 stores user utterance content, learning data based on the user utterance, display data to be output to the image output unit (display unit) 122, and the like.
  • the display data includes a node tree generated by the display information generation unit 182, an utterance summary list, and the like. These data will be described in detail later.
  • the output information generation unit 180 includes an output audio generation unit 181 and a display information generation unit 182.
  • the output voice generation unit 181 generates a response to the user based on the user utterance analysis information 191 that is an analysis result of the voice analysis unit 161. Specifically, a response corresponding to the intention of the user utterance, which is the analysis result of the voice analysis unit 161, is generated.
  • the response sound information generated by the output sound generation unit 181 is output via the sound output unit 121 such as a speaker.
  • the output sound generation unit 181 further performs control to change the response to be output based on the user state estimation information 192. For example, when the user has a troubled expression that seems to be unsatisfactory, a process for executing a system utterance such as “Are you troubled?” Is performed.
  • the display information generation unit 182 generates display data such as a node tree and an utterance summary list to be displayed on the image output unit (display unit) 122. These data will be described in detail later.
  • FIG. 3 does not show a process execution function for a user utterance, for example, a moving image acquisition process for reproducing a moving image described above with reference to FIG. 1 or a configuration for outputting an acquired moving image.
  • These functions are also configured in the data processing unit 150.
  • FIG. 4 is a diagram illustrating an example of display data output to the image output unit (display unit) 122 of the information processing apparatus 10.
  • the image output unit (display unit) 122 corresponds to the display unit 13 of the information processing apparatus 10 illustrated in FIG. 1, but may be configured by, for example, a projector, or an external device. It is also possible to adopt a configuration using the display portion of the TV.
  • the user utters the following user as a call to the information processing apparatus 10.
  • User utterance "Hey, Soni Taro” Soni Taro is a nickname for the information processing apparatus 10.
  • the information processing apparatus 10 makes the following system response.
  • System response "What do you want to do? Here's what you can do.”
  • the output sound generation unit 182 generates the system response and outputs the system response via the sound output unit (speaker) 121.
  • the information processing apparatus 10 further displays the display data shown in FIG. 4 generated by the display information generation unit 182 on the image output unit (display unit) 122 together with the output of the system response.
  • the domain-corresponding node tree 200 divides processes that can be executed by the information processing apparatus 10 according to user utterances by type (domain), and further shows tree (tree structure) data indicating user utterance examples that can be accepted for each domain. It is.
  • an acceptable utterance display node 202 is set as a lower node.
  • a specific example of the acceptable utterance display node 202 will be described later with reference to FIG.
  • display area identification information 211 shown in the upper right is displayed on the display unit. This is information indicating which part of the entire tree corresponds to the domain-corresponding node tree 200 displayed on the display unit.
  • the display section further displays registered utterance summary list information 212 shown in the lower right.
  • This is list data of the utterance summary list recorded in the storage unit 170 of the information processing apparatus 10.
  • the utterance summary list is a list that summarizes a series of different user utterances. For example, it is used when two or more processes are continuously requested to the information processing apparatus 10. This utterance summary list will be described in detail later.
  • the state shown in FIG. 4 is shifted to the state shown in FIG. As shown in FIG. 5, the user performs the following user utterance.
  • User utterance “I want to apply BGM”
  • the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance and grasps that the user intention is “reproduction”. Based on this user utterance analysis information, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • the display data shows a processing category display node 203 as a lower node of the video domain and the music domain, and further shows an acceptable utterance display node 202 as a lower node of the processing category display node 203.
  • the processing category display node 203 is a node indicating a category of processing that can be executed corresponding to each domain (video, music, game, etc.).
  • An acceptable utterance display node 202 is displayed as a subordinate node of the processing category display node 203.
  • the receivable utterance display node 202 displays a registered user utterance, for example, a command, which causes the information processing apparatus 10 to execute a process related to the process displayed in the process category node.
  • the user utterances displayed on these acceptable utterance display nodes 202 include, for example, learning data recorded in advance in the storage unit 170 (learning data recording the correspondence between user utterances and intentions) utterance data, and past users This is learning data generated by learning processing unit 165 based on the utterance, and is data recorded in storage unit 170. If the user performs an utterance that matches the acceptable utterance display node 202, the information processing apparatus 10 accurately grasps the intention of the user utterance based on the learning data, and reliably performs processing according to the user utterance. Can be executed.
  • the user can be confident that the information processing apparatus 10 will execute the process intended by the user. Can do.
  • the character string displayed on the acceptable utterance display node 202 is a character string recorded as learning data.
  • the information processing apparatus The speech analysis unit 161 of 10 estimates the intention of the user utterance with reference to learning data composed of close character strings. Therefore, if the user speaks close to the displayed data, the information processing apparatus 10 can execute an accurate process according to the user's speech.
  • the process proceeds to FIG.
  • the user performs the following user utterance.
  • User utterance "Play 80s songs”
  • the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, and grasps that the user intention is “reproduction of a song in the 80s”. Based on this user utterance analysis information, the information processing apparatus 10 executes processing (reproduction of 80's music). Note that the music to be played back is acquired from, for example, a server (service providing server that provides music content) connected to the network. Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • the display data shown in FIG. It is one node of the acceptable utterance display node 202, Node "Play songs from the 99s" This node is highlighted as the highlighted node 221.
  • User utterance “Play 80s songs” Utterance data shown in the node which is the utterance already recorded as learning data
  • the speech analysis unit 161 of the information processing apparatus 10 performs accurate speech recognition and semantic analysis by referring to the learning data in which the utterance data “play a song from the 99s” is recorded, It can be ascertained that the user's intention is “reproduction of 80's music”. That is, as a result of acquiring “80s” as the age entity, the 80s music is played back.
  • the process proceeds to FIG. As shown in FIG. 7, the user performs the following user utterance.
  • User utterance "play favorite list”
  • the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, and grasps that the user intention is “play favorite list”. Based on this user utterance analysis information, the information processing apparatus 10 executes processing (plays back a favorite list).
  • the favorite list and the music to be played back are acquired from, for example, a server (service providing server that provides music content) connected to the network. Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • the display data shown in FIG. It is one node of the acceptable utterance display node 202, Node "Play Favorite List" This node is highlighted as the highlighted node 221.
  • the output sound generation unit 181 of the information processing apparatus 10 generates the following system response and outputs it via the sound output unit 121.
  • System response “Your favorite song was played”
  • the voice analysis unit 161, the image analysis unit 162, the sensor information analysis unit 163, and the user state estimation unit 164 of the input data analysis unit 160 Based on the sensor information or the like, the user's state (whether satisfied or unsatisfied) is estimated, and this estimated information is output to the learning processing unit 165.
  • the learning processing unit 165 performs processing such as generation, updating, and discarding of learning data based on this information.
  • the generated learning data is discarded.
  • the process proceeds to FIG. As shown in FIG. 8, the user performs the following user utterance.
  • User utterance "Add Southern” “Southern” is a famous artist name. It is assumed that the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance but cannot interpret the user intention. Such an utterance that cannot be interpreted by the user is called an OOD utterance (Out Of Domain utterance). Note that a user utterance that can interpret the user's intention and can be executed by the information processing apparatus 10 is referred to as in-domain (utterance).
  • the output voice generation unit 181 When the information processing apparatus 10 inputs such an OOD utterance, the output voice generation unit 181 generates an inquiry response and outputs the inquiry response via the voice output unit 121. That is, as shown in FIG. 8, the following system response is generated and output.
  • System response "I'm sorry, I don't know, please rephrase”
  • the process proceeds to FIG.
  • the user performs the following user utterance as a rephrasing utterance “adding a Southern”, which is an OOD utterance.
  • User utterance (rephrase) "Together with yesterday's Southern song”
  • the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, It is understood that the user intention of “adding a Southern” as an OOD utterance is the intention of “turning on a Southern song” in the same way as “taking a Southern song” yesterday.
  • the learning processing unit 165 stores the result of the intention grasp in the storage unit 170 as learning data.
  • the output sound generation unit 181 of the information processing apparatus 10 generates and outputs the following system response.
  • System response "I understand. I learned” Adding Southern ""
  • the display information generation unit 182 updates the display data of the display unit as shown in FIG. As the additional node 231, a node indicating a user utterance that has been successfully grasped is added, and guide information 232 indicating that learning has been performed is displayed.
  • the learning processing unit 165 has the user state estimated from information input from the voice analysis unit 161, the image analysis unit 162, the sensor information analysis unit 163, and the user state estimation unit 164 of the input data analysis unit 160. Based on (satisfied or unsatisfied state, etc.), the learning data is generated, updated, or discarded. That is, if it is estimated that the user is satisfied, it is determined that the intention for the user utterance is grasped and the execution process is correctly performed, and learning data is generated and updated, and stored in the storage unit 170. If it is estimated that the user is not satisfied, it is determined that the intention grasping and execution process for the user utterance is not correctly performed, and learning data is not generated or updated. Alternatively, the generated learning data is discarded.
  • Node “Send an invitation to a friend” And utter the utterance displayed on this node.
  • the user performs the following user utterance.
  • User utterance "Send an invitation to a friend"
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, and based on the result, the information processing apparatus 10 executes processing (transmission of invitation mail to friends).
  • the invitation email for the friend is transmitted, for example, directly from the information processing apparatus 10 or via a server (service providing server that provides a game) connected to the network.
  • the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • System response “Invitation sent to usual game friend”
  • the user wants to play a video while playing a game, and makes the following user utterance.
  • User utterance “Play the video you watched yesterday”
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance. Based on the analysis result, the information processing apparatus 10 executes processing (moving image reproduction). Note that the moving image to be played back is acquired from, for example, a server (service providing server that provides moving image content) connected to the network. Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • System response “I played a comedy video you were watching yesterday”
  • FIG. 13 the user thinks as follows. That is, ⁇ I did it a while ago, but I don't know if it's going to work if I try to do the same thing (four things) ⁇ These four things are processing corresponding to the following four user utterances. (1) “Play Favorite List” (FIG. 7), (2) “Adding Southern” ( Figure 8), (3) “Send an invitation to a friend” ( Figure 11), (4) “Play the video you watched yesterday” (FIG. 12),
  • the input data analysis unit 160 of the information processing apparatus 10 analyzes that the user is troubled and dissatisfied at this point. That is, the user state estimation unit 164 indicates user state estimation information indicating that the user is troubled and dissatisfied based on information input from the voice analysis unit 161, the image analysis unit 162, and the sensor information analysis unit 163. 192 is generated and output to the output information generation unit 180.
  • the output voice generation unit 181 of the output information generation unit 180 generates and outputs the following system utterance in response to the input of the user state estimation information 192.
  • System utterance “Record utterances from“ Play Favorite List ”to“ Play Videos I Watched yesterday ””
  • the process proceeds to FIG.
  • the user performs the following user utterance as shown in FIG.
  • User utterance “Remember the current operation”
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance. Based on the analysis result, the information processing apparatus 10 executes a process (a process for generating an “utterance summary list”). Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • an utterance summary list 231 in which a plurality of utterances are listed together is displayed on the display unit.
  • the “utterance summary list” is data in which a plurality of user utterances (commands) are listed. That is, the user utterance recorded in the “utterance summary list” is a user utterance corresponding to a command that is a processing request from the user to the information processing apparatus 10.
  • This “utterance summary list” is generated in the learning processing unit 165.
  • “Play Favorite List” (FIG. 7)
  • (2) "Adding Southern” Figure 8
  • (3) "Send an invitation to a friend” Figure 11
  • (4) “Play the video you watched yesterday” FIG. 12)
  • the information processing apparatus 10 sequentially executes processes corresponding to the user utterances recorded in the “utterance summary list”.
  • the display information generation unit 182 displays the generated “utterance summary list” 231 on the display unit. If the user performs an utterance designating the “utterance summary list” 231 from the next time, the information processing apparatus can collectively execute a plurality of processes recorded in the designated list.
  • an initial screen shown in FIG. 15 is displayed on the display unit of the information processing apparatus 10. This is the same as the display data described above with reference to FIG.
  • the user utters the following user as a call to the information processing apparatus 10.
  • User utterance "Hey, Soni Taro”
  • the information processing apparatus 10 makes the following system response.
  • System response "What do you want to do? Here's what you can do.”
  • the information processing apparatus 10 further displays the display data shown in FIG. 15 generated by the display information generation unit 182 on the image output unit (display unit) 122 in conjunction with the output of the system response.
  • the display data shown in FIG. 15 is data that displays the domain-corresponding node tree 200 described above with reference to FIG.
  • the process proceeds to FIG. As shown in FIG. 16, the user utters the following user.
  • User utterance "Oto, please show me the utterance summary list”
  • the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance and grasps that the user intention is “a request to display the utterance summary list generated by the user”.
  • the display information generation unit 182 of the information processing apparatus 10 displays the “utterance summary list” 231 on the display unit. Further, the output sound generation unit 181 of the information processing apparatus 10 generates the following system response and outputs it via the sound output unit 121.
  • System response “I understand. Here is the list of utterances collected yesterday.” By viewing the utterance summary list 231 displayed on the display unit, the user can reconfirm the four series of utterances and processes that have been executed.
  • the process proceeds to FIG. In FIG. 17, the user sequentially performs utterances similar to the utterances recorded in the utterance summary list 231 displayed on the display unit. That is, (1) “Play favorite list”, (2) “Add Southern” (3) “Send an invitation to a friend” (4) “Play the video you watched yesterday” By sequentially executing these utterances, the information processing apparatus 10 can be surely executed the same process as the oto.
  • User utterance "Process utterance summary list (2)”
  • User utterance "Process the displayed utterance summary list” Any of these utterances may be performed.
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance. Based on the analysis result, the information processing apparatus 10 executes processing (processing of “utterance summary list (2)”). That is, processing corresponding to a plurality of user utterances recorded in the utterance summary list is sequentially executed.
  • the display information generation unit 182 of the information processing device 10 changes the display mode of the utterance summary list 231 displayed on the display unit according to the execution state of the processing in the information processing device 10. Specifically, a process of highlighting a node (acceptable utterance display node) in the list corresponding to the process being executed by the information processing apparatus 10 is performed.
  • the information processing apparatus 10 first starts processing (favorite list reproduction processing) based on the user utterance corresponding to this node.
  • the user can confirm that the information processing apparatus 10 is correctly executing the reproduction process of the favorite list by seeing the highlighting.
  • FIG. 19 shows the second node recorded in the utterance summary list 231.
  • Node “Add Thousand”
  • the information processing apparatus 10 starts processing (reproduction of Southern) based on the user utterance corresponding to this node.
  • the user can confirm that the information processing apparatus 10 is correctly executing the reproduction process of Southern by looking at the highlighting.
  • FIG. 20 shows the third node recorded in the utterance summary list 231.
  • Node “Send an invitation to a friend”
  • the information processing apparatus 10 starts processing based on the user utterance corresponding to this node (sends an invitation mail to a friend).
  • the user can confirm that the information processing apparatus 10 is correctly executing the invitation mail transmission to the friend by seeing this highlighting.
  • FIG. 20 shows the fourth node recorded in the utterance summary list 231.
  • Node “Play the video you watched yesterday”
  • the information processing apparatus 10 starts processing based on the user utterance corresponding to this node (reproduction of the moving image viewed yesterday).
  • the user can confirm that the information processing apparatus 10 is correctly executing the reproduction of the moving image viewed yesterday by viewing the highlighting.
  • the “speech summary list” can be freely created by the user, and by performing processing using the created list, the information processing apparatus 10 can reliably execute a plurality of processes collectively or sequentially. It becomes possible.
  • the “utterance summary list” can also use a list created by another user.
  • FIG. 22 shows an example in which an utterance summary list 232 generated by another user, user ABC, is displayed.
  • the user performs the following user utterance.
  • User utterance “Show ABC's public development story summary list”
  • the voice analysis unit 161 of the information processing device 10 performs voice recognition and semantic analysis of the user utterance, and based on the result, the information processing device 10 executes processing (acquisition and display of ABC's publicly developed story summary list). To do.
  • the display information generation unit 182 updates the display data on the display unit as shown in FIG. That is, ABC's public development story summary list 232 is displayed.
  • an utterance summary list of a large number of users is stored in a storage unit of a server accessible by the information processing apparatus 10. Whether or not disclosure is permitted can be set in the utterance summary list, and only the permitted list can be acquired and displayed in response to a request from another user.
  • the other user's public development story summary list displayed on the display unit is then stored in the storage unit 170 as a list that can be used anytime by the user who called this list.
  • a net public development story summary list 233 that is a public development story summary list generated by a game dedicated network managed by a game dedicated server, for example.
  • a blog public development story summary list 234 that is a public development story summary list published on a blog can be acquired, displayed, and used.
  • the information processing apparatus 10 further displays the display data shown in FIG. 15 generated by the display information generation unit 182 on the image output unit (display unit) 122 in conjunction with the output of the system response.
  • the display data shown in FIG. 15 is data that displays the domain-corresponding node tree 200 described above with reference to FIG.
  • the processing shifts to FIG. As shown in FIG. 26, the user utters the following user.
  • User utterance "play favorite list”
  • the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, and grasps that the user intention is “request to play a favorite list”.
  • the “speech summary list” described above with reference to FIG. 14 is stored in the storage unit 170. That is, (1) “Play favorite list”, (2) “Add Southern” (3) “Send an invitation to a friend” (4) “Play the video you watched yesterday” It is detected that the “speech summary list” in which these user utterances are recorded is stored in the storage unit 170.
  • the display information generation unit 182 of the information processing apparatus 10 executes a process of displaying the “utterance summary list” stored in the storage unit 170 on the display unit.
  • the movement of the node corresponding to the user utterance recorded in the “utterance summary list”, that is, the utterance summary list corresponding node 241 shown in FIG. 26 is started.
  • an utterance summary list 242 composed of these nodes is displayed.
  • the user utters the following user.
  • User utterance “Happy Birthday”
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, and grasps that the user intention is a “happy birthday playback request”. Based on this user utterance analysis information, the information processing apparatus 10 executes processing (reproduction of Happy Birthday). Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • the display data shown in FIG. It is one node of the acceptable utterance display node 202, Node "Happy Birthday" This node is highlighted as the highlighted node 221.
  • the output sound generation unit 181 of the information processing apparatus 10 generates the following system response and outputs it via the sound output unit 121.
  • System response “Happy Birthday played”
  • the user utters the following user.
  • User utterance “Play a movie that uses the song”
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, and grasps that the user intention is “a movie playback request using Happy Birthday”. Based on this user utterance analysis information, the information processing apparatus 10 executes processing (reproduction of a movie using Happy Birthday). Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • the display data shown in FIG. It is one node of the acceptable utterance display node 202, Node "Play a movie with Happy Birthday" This node is highlighted as the highlighted node 221.
  • System response “Play movie happy life”
  • the learning processing unit 165 of the information processing apparatus 10 verifies the history of user utterances.
  • User utterance “Happy Birthday”
  • User utterance “Play a movie that uses the song” Among these two user utterances, it is confirmed that the instruction word “that” for the first user utterance is included in the second user utterance, and it is determined that the relationship between the two user utterances is high.
  • the learning processing unit 165 determines that one utterance summary list including the two user utterances should be generated. As illustrated in FIG. 30, the information processing apparatus 10 outputs the following system utterance even when there is no explicit request from the user.
  • System utterance “Recording utterances from“ Happy Birthday ”to“ Playing a movie with that song ””
  • the processing shifts to FIG.
  • the user performs the following user utterance as shown in FIG.
  • User utterance “Remember the current operation”
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance. Based on the analysis result, the information processing apparatus 10 executes a process (a process for generating an “utterance summary list”). Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • an utterance summary list 261 in which a plurality of utterances are listed together is displayed on the display unit.
  • the “utterance summary list” 261 shown in FIG. User utterance “Happy Birthday”
  • User utterance “Play a movie that uses the song”
  • This “utterance summary list” is generated in the learning processing unit 165.
  • the user utters the following user.
  • User utterance "Play Happy Life”
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance, and grasps that the user intention is “a movie happy life reproduction request”. Based on this user utterance analysis information, the information processing apparatus 10 executes processing (reproduction of movie happy life). Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • the display data shown in FIG. It is one node of the acceptable utterance display node 202, Node "Play Happy Life" This node is highlighted as the highlighted node 221.
  • System response “Play movie“ Happy Life ””
  • the user utters the following user.
  • User utterance “Play the main song of this movie”
  • the image analysis unit 162 of the information processing apparatus 10 analyzes the user's line-of-sight information and confirms that the user is watching the movie Happy Life.
  • the voice analysis unit 161 performs voice recognition and semantic analysis of the user utterance, and grasps that the user intention is “reproduction request of the leading role of the movie Happy Life”.
  • the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • the display data shown in FIG. It is one node of the acceptable utterance display node 202, Node "Happy Birthday" This node is highlighted as the highlighted node 221.
  • the output sound generation unit 181 of the information processing apparatus 10 generates the following system response and outputs it via the sound output unit 121.
  • System response “Happy Birthday played”
  • the learning processing unit 165 of the information processing apparatus 10 verifies the history of user utterances.
  • User utterance "Play Happy Life”
  • User utterance “Play the main song of this movie”
  • the instruction word “this” for the first user utterance is included in the second user utterance.
  • the learning processing unit 165 determines that one utterance summary list composed of the two user utterances should be generated. As illustrated in FIG. 34, the information processing apparatus 10 outputs the following system utterance even when there is no explicit request from the user.
  • System utterance You can record all utterances from “Playing Happy Life” to “Playing the main character of this movie”
  • the processing shifts to FIG.
  • the user performs the following user utterance as shown in FIG.
  • User utterance “Remember the current operation”
  • the voice analysis unit 161 of the information processing apparatus 10 performs voice recognition and semantic analysis of the user utterance. Based on the analysis result, the information processing apparatus 10 executes a process (a process for generating an “utterance summary list”). Further, the display information generation unit 182 updates the display data of the display unit as shown in FIG.
  • an utterance summary list 262 in which a plurality of utterances are listed together is displayed on the display unit.
  • the “speech summary list” 262 shown in FIG. User utterance "Play Happy Life”
  • User utterance “Happy Birthday”
  • This “utterance summary list” is generated in the learning processing unit 165.
  • the learning processing unit 165 of the information processing apparatus 10 generates an utterance summary list according to various conditions.
  • the learning processing unit 165 generates the utterance summary list and stores it in the storage unit 170 as follows. (1) The user is inquired whether to generate an utterance summary list, and when the user's consent is obtained, the utterance summary list is generated and stored in the storage unit 170. (2) If it is determined that a plurality of processes corresponding to a plurality of user utterances have been successfully executed, an utterance summary list is generated and stored in the storage unit 170.
  • the state of the user with respect to the processing executed by the information processing apparatus 10 is analyzed, and an utterance summary list is generated and stored in the storage unit 170 according to the analysis result.
  • the voice analysis unit 161, the image analysis unit 162, the sensor information analysis unit 163, and the user state estimation unit 164 of the input data analysis unit 160 are based on user utterances, images, sensor information, etc. Whether the user is satisfied or dissatisfied), and the estimated information is output to the learning processing unit 165.
  • the learning processing unit 165 performs processing such as generation, updating, and discarding of learning data based on this information.
  • the generated learning data is discarded.
  • the user utterances to be summarized are selected, and the utterance summary list is generated and stored in the storage unit 170.
  • learning data is generated based on context information indicating the user state obtained from the analysis results of the voice analysis unit 161, the image analysis unit 162, and the sensor information analysis unit 163 of the input data analysis unit 160. This is an example of performing processing such as update and discard.
  • the context information may be configured to use not only user behavior information but also various environment information such as time information, weather information, and position information. For example, when the time zone is noon, a list including only user utterances corresponding to a request for processing that is highly likely to be executed in the day is generated. When the time zone is night, a list including only user utterances corresponding to a request for processing that is highly likely to be executed at night is generated.
  • Step S101 First, in step S101, the information processing apparatus 10 inputs and analyzes voice, image, and sensor information. This process is a process executed by the input unit 110 and the input data analysis unit 160 of the information processing apparatus 10 shown in FIG.
  • step S101 voice recognition and semantic analysis of the user uttered voice are executed to acquire the intention of the user utterance, and the user status based on the user uttered voice, image, sensor information, etc. (whether the user is satisfied or dissatisfied) To get. Details of this processing will be described later with reference to the flowchart of FIG.
  • Steps S102 to S103 the information processing apparatus 10 analyzes the contents of the user utterance (command (processing request)) and can execute processing corresponding to the user utterance (in domain). Or inexecutable (OOD: Out Of Domain).
  • step S104 if it is determined that the process corresponding to the user utterance is executable (in domain), the process proceeds to step S104.
  • Step S104 Next, in step S ⁇ b> 104, the information processing apparatus 10 records the user utterance determined to be executable (in domain) in the storage unit 170.
  • Step S105 the information processing apparatus 10 highlights the node corresponding to the user utterance in the domain corresponding node tree displayed on the image output unit (display unit) 122.
  • this is a process of displaying the highlight node 221 described above with reference to FIG.
  • This process is a process executed by the display information generation unit 182 of the information processing apparatus 10 illustrated in FIG.
  • step S106 the information processing apparatus 10 executes processing corresponding to the user utterance, that is, processing corresponding to the highlighted node in step S105.
  • processing corresponding to the user utterance that is, processing corresponding to the highlighted node in step S105.
  • the favorite list and the music to be played back are acquired from, for example, a server (service providing server that provides music content) connected to the network.
  • Steps S107 to S108 the information processing apparatus 10 processes the user utterance (command) based on the user state (satisfaction / dissatisfaction etc.) estimated from the analysis result of the input information (voice, image, sensor information). The presence / absence of success is estimated, and it is determined whether or not to execute the process of summarizing multiple utterances based on the estimation result.
  • the learning processing unit 165 has, for example, the following conditions, that is, (1) A plurality of user utterances (commands) are input at intervals within a specified time. When this condition is satisfied, for example, as described with reference to FIG. 13, a system utterance indicating that the “utterance summary list” can be generated is output.
  • step S108 Yes
  • step S109 the process proceeds to step S109.
  • step S108 No
  • the example shown in FIG. 14 is an utterance summary list in which the following four user utterances are collected into one list. (1) “Play favorite list”, (2) “Add Southern” (3) “Send an invitation to a friend” (4) “Play the video you watched yesterday”
  • the learning processing unit 165 of the information processing apparatus 10 stores this list in the storage unit 170 as one learning data.
  • the display information generation unit 182 displays the generated “utterance summary list” on the display unit.
  • the information processing apparatus can collectively execute a plurality of processes recorded in the designated list. For example, when the user utters a user utterance included in the “utterance summary list” stored in the storage unit 170, or the user designates the “utterance summary list” stored in the storage unit 170 and requests the processing. When the utterance is performed, the information processing apparatus 10 sequentially executes processes corresponding to the user utterances recorded in the “utterance summary list”.
  • step S101 of the flowchart shown in FIG. Details of the input of voice, image, and sensor information and analysis processing will be described with reference to the flowchart shown in FIG.
  • This process is a process executed by the input unit 110 and the input data analysis unit 160 of the information processing apparatus 10 shown in FIG.
  • step S101 voice recognition and semantic analysis of the user uttered voice are executed to acquire the intention of the user utterance, and the user status based on the user uttered voice, image, sensor information, etc. (whether the user is satisfied or dissatisfied) To get.
  • the input unit 110 includes a voice input unit (microphone) 111, an image input unit (camera) 112, and a sensor 113, and includes user speech, user images, and sensor acquisition information (user's line of sight, body temperature, heart rate, heart rate, EEG etc.).
  • the voice analysis unit 161, the image analysis unit 162, the sensor information analysis unit 163, and the user state estimation unit 164 of the input data analysis unit 160 execute analysis of input data.
  • Step S201 First, in step S201, the voice input unit (microphone) 111, the image input unit (camera) 112, and the sensor 113 of the input unit 110 are connected to the user utterance voice, the user image, and sensor acquisition information (user gaze, body temperature, heart rate). , Pulse, brain waves, etc.).
  • the voice information acquired by the voice input unit (microphone) 111 is processed in steps S202 and S204.
  • the image information acquired by the image input unit (camera) 112 is processed in steps S206 and S207.
  • the sensor information acquired by the sensor 113 is processed in step S208. These processes can be executed in parallel.
  • Steps S202 to S203 are processes executed by the voice analysis unit 161.
  • the voice analysis unit 161 converts the voice data into text data composed of a plurality of words by using, for example, an ASR (Automatic Speech Recognition) function.
  • the utterance meaning analysis process for the text data is executed. For example, by applying a natural language understanding function such as NLU (Natural Language Understanding), the intention information of the user utterance (Intent) from the text data, or the entity information that is a meaningful element (significant element) included in the utterance (Entity: Entity) is estimated.
  • NLU Natural Language Understanding
  • Steps S204 to S205 The processing in steps S204 to S205 is also processing executed by the voice analysis unit 161.
  • the voice analysis unit 161 acquires information (non-verbal information) necessary for user emotion analysis processing based on the user voice, and outputs the acquired information to the user state estimation unit 164.
  • Non-verbal information is information such as voice pitch, tone, intonation, tremor, etc. other than text data obtained from user voice, and can be used to analyze the user's state, for example, excitement state, tension state, etc. Information. This information is output to the user state estimation unit 164.
  • Step S206 The process in step S206 is a process executed by the image analysis unit 162.
  • the image analysis unit 162 analyzes the facial expression and gesture of the user taken by the image input unit 112 and outputs the analysis result to the user state estimation unit 164.
  • Step S207 The process of step S207 is a process executed by the image analysis unit 162 or the sensor information analysis unit 163.
  • the image analysis unit 162 or the sensor information analysis unit 163 performs analysis of the user's line-of-sight direction based on the user image captured by the image input unit 112 or the sensor information.
  • line-of-sight information for analyzing the degree of attention to the processing executed by the information processing apparatus 10, such as whether or not the information processing apparatus 10 is viewing a moving image that has started playback, is acquired. This information is output to the user state estimation unit 164.
  • Step S208 The process in step S208 is a process executed by the sensor information analysis unit 163.
  • the sensor information analysis unit 163 acquires the acquisition information (such as the user's line of sight, body temperature, heart rate, pulse rate, brain wave) of the sensor 113 and outputs the acquired information to the user state estimation unit 164.
  • Step S210 The process of step S210 is a process executed by the user state estimation unit 164.
  • Analysis result by the voice analysis unit 161 that is, information necessary for user emotion analysis processing based on user voice (non-verbal information)
  • Analysis results by the image analysis unit 162 that is, analysis information such as facial expressions, gestures, and line-of-sight information of the user
  • Analysis results by the sensor information analysis unit 163 that is, data such as the user's line of sight, body temperature, heart rate, pulse, electroencephalogram,
  • the user state is estimated by inputting these data, and the user state estimation information 192 shown in FIG. 3 is generated. This information is then used in the processing in step S102 and the processing in step S107 in the flow shown in FIG.
  • the user state estimation information 192 generated by the user state estimation unit 164 is specifically, for example, whether the user is satisfied or dissatisfied, that is, is the user state utterance satisfied with the processing executed by the information processing apparatus for the user utterance? It is the information which estimated whether or not. If it is estimated that the user is satisfied, it is estimated that the process executed by the information processing apparatus for the user utterance is correct, that is, the execution process is successful.
  • the learning processing unit 165 performs a learning process on the user utterance and stores learning data in the storage unit 170. For example, when a new user utterance is input and the intention of the user utterance is unknown, the user utterance is associated with the intention when the intention is analyzed based on subsequent dialogue with the device. A process of generating learning data and storing it in the storage unit 170 is performed. By executing such learning processing, it becomes possible to gradually grasp the intention of the user utterance gradually.
  • the learning processing unit 165 also executes a process of generating an “utterance summary list” in which a plurality of user utterances are collected and storing them in the storage unit 170 in step S107 of FIG. 36 described above.
  • Steps S301 to S304 The processing in steps S301 to S304 is the same as the processing in steps S101 to S104 described above with reference to the flow of FIG.
  • the information processing apparatus 10 inputs and analyzes voice, image, and sensor information in step S301.
  • This process is the process described with reference to FIG. 37, and performs voice recognition and semantic analysis of the user uttered voice to acquire the intention of the user utterance, and further, based on the user uttered voice, image, sensor information, and the like.
  • This is a process for acquiring a user state (whether satisfied or unsatisfied).
  • the information processing apparatus 10 analyzes the contents of the user utterance (command (processing request)), and can execute processing corresponding to the user utterance (in-domain (In Domain)). Or inexecutable (OOD: Out Of Domain). If it is not possible to execute (out of domain (OOD)), the process ends. On the other hand, if it is determined that the process corresponding to the user utterance is executable (in domain), the process proceeds to step S304.
  • step S304 the information processing apparatus 10 records the user utterance determined to be executable (in domain) in the storage unit 170.
  • Step S305 the information processing apparatus determines whether there is an utterance summary list including utterances corresponding to user utterances.
  • This process is a process executed by the output information generation unit 180 shown in FIG.
  • the output information generation unit 180 searches the storage unit 170 for an utterance summary list including utterances corresponding to user utterances.
  • step S306 If there is no utterance summary list including utterances corresponding to user utterances, the process proceeds to step S306. On the other hand, if there is an utterance summary list including utterances corresponding to user utterances, the process proceeds to step S308.
  • Steps S306 to S307) If it is determined in step S305 that there is no utterance summary list including utterances corresponding to the user utterances, the user utterance correspondences in the domain-corresponding node tree displayed on the image output unit (display unit) 122 in step S306. Highlight the node. For example, this is a process of displaying the highlight node 221 described above with reference to FIG. This process is a process executed by the display information generation unit 182 of the information processing apparatus 10 illustrated in FIG.
  • step S307 processing corresponding to the user utterance, that is, processing corresponding to the highlighted node in step S306 is executed.
  • Step S308 On the other hand, if it is determined in step S305 that there is an utterance summary list including utterances corresponding to user utterances, the utterance summary list is displayed on the image output unit (display unit) 122 in step S308. For example, this is a process of displaying the utterance summary list 231 described above with reference to FIG. This process is a process executed by the display information generation unit 182 of the information processing apparatus 10 illustrated in FIG.
  • step S309 the process corresponding to the user utterance, that is, the process corresponding to the user utterance corresponding node listed in the utterance summary list 231 displayed in step S308 is sequentially executed.
  • This process corresponds to the process described above with reference to FIGS.
  • This process is a process executed by the display information generation unit 182 of the information processing apparatus 10 illustrated in FIG.
  • Steps S401 to S404 The processing of steps S401 to S404 is the same processing as the processing of steps S101 to S104 described above with reference to the flow of FIG.
  • step S401 the information processing apparatus 10 inputs and analyzes voice, image, and sensor information.
  • This process is the process described with reference to FIG. 37, and performs voice recognition and semantic analysis of the user uttered voice to acquire the intention of the user utterance, and further, based on the user uttered voice, image, sensor information, and the like.
  • This is a process for acquiring a user state (whether satisfied or unsatisfied).
  • the information processing apparatus 10 analyzes the contents of the user utterance (command (processing request)) and can execute processing corresponding to the user utterance (in-domain (In Domain)). Or inexecutable (OOD: Out Of Domain). If it is not possible to execute (out of domain (OOD)), the process ends. On the other hand, if it is determined that the process corresponding to the user utterance is executable (in domain), the process proceeds to step S404.
  • step S404 the information processing apparatus 10 records the user utterance determined to be executable (in domain) in the storage unit 170.
  • step S405 the information processing apparatus determines whether the user utterance is an external utterance summary list acquisition / display request.
  • step S406 If the user utterance is not an external utterance summary list acquisition / display request, the process proceeds to step S406. On the other hand, if the user utterance is an acquisition / display request for an external utterance summary list, the process proceeds to step S408.
  • Step S405 if the user utterance is not an acquisition / display request for an external utterance summary list, a node corresponding to the user utterance in the domain-corresponding node tree displayed in the image output unit (display unit) 122 is selected in step S406.
  • Highlight For example, this is a process of displaying the highlight node 221 described above with reference to FIG. This process is a process executed by the display information generation unit 182 of the information processing apparatus 10 illustrated in FIG.
  • step S407 processing corresponding to the user utterance, that is, processing corresponding to the highlighted node in step S406 is executed.
  • Step S408 On the other hand, if the user utterance is an external utterance summary list acquisition / display request in step S405, the externally acquired utterance summary list is displayed on the image output unit (display unit) 122 in step S408. For example, this is a process of displaying the utterance summary list described above with reference to FIGS. This process is a process executed by the display information generation unit 182 of the information processing apparatus 10 illustrated in FIG.
  • Step S501 it is determined whether a new user utterance indicating a processing request corresponding to the node displayed in the displayed external utterance summary list has been input.
  • This process is a process executed by the input data analysis unit 160 of the information processing apparatus 10.
  • step S502 If it is determined that a new user utterance indicating a processing request corresponding to the node displayed in the displayed external utterance summary list is input, the process proceeds to step S502. On the other hand, if it is determined that a new user utterance indicating the processing request corresponding to the node displayed in the displayed external utterance summary list has not been input, the process proceeds to step S503.
  • Step S502 If it is determined that a new user utterance indicating the processing request corresponding to the node displayed in the external utterance summary list displayed in step S501 is input, the process proceeds to step S502, and is listed in the utterance summary list in step S502.
  • the processing corresponding to the user utterance correspondence node is sequentially executed. Furthermore, the highlighting process of the node corresponding to the user utterance being executed in the displayed utterance summary list is executed. This process is a process executed by the display information generation unit 182 of the information processing apparatus 10 illustrated in FIG.
  • Step S503 On the other hand, if it is determined that a new user utterance indicating the processing request corresponding to the node displayed in the external utterance summary list displayed in step S501 has not been input, the process proceeds to step S503, and the utterance summary list is displayed in step S503. A normal process corresponding to a user utterance that is not used is executed.
  • FIG. 41 shows a system configuration example.
  • Information processing system configuration example 1 has almost all the functions of the information processing apparatus shown in FIG. 3 as one apparatus, for example, a smartphone or PC owned by the user, or voice input / output and image input / output functions.
  • the information processing apparatus 410 is a user terminal such as an agent device.
  • the information processing apparatus 410 corresponding to the user terminal executes communication with the service providing server 420 only when an external service is used when generating a response sentence, for example.
  • the service providing server 420 is, for example, a music providing server, a content providing server such as a movie, a game server, a weather information providing server, a traffic information providing server, a medical information providing server, a tourism information providing server, and the like, and executes processing for user utterances And a server group capable of providing information necessary for generating a response.
  • FIG. 41 (2) information processing system configuration example 2 includes a part of the functions of the information processing apparatus shown in FIG. 3 in the information processing apparatus 410 that is a user terminal such as a smartphone, PC, or agent device owned by the user.
  • This is an example of a system that is configured and configured to be executed by a data processing server 460 that can partially communicate with an information processing apparatus.
  • FIG. 42 is an example of the hardware configuration of the information processing apparatus described above with reference to FIG. 3, and constitutes the data processing server 460 described with reference to FIG. It is an example of the hardware constitutions of information processing apparatus.
  • a CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to a program stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, processing according to the sequence described in the above-described embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs executed by the CPU 501 and data.
  • the CPU 501, ROM 502, and RAM 503 are connected to each other by a bus 504.
  • the CPU 501 is connected to an input / output interface 505 via a bus 504.
  • An input unit 506 including various switches, a keyboard, a mouse, a microphone, and a sensor, and an output unit 507 including a display and a speaker are connected to the input / output interface 505.
  • the CPU 501 executes various processes in response to a command input from the input unit 506 and outputs a processing result to the output unit 507, for example.
  • the storage unit 508 connected to the input / output interface 505 includes, for example, a hard disk and stores programs executed by the CPU 501 and various data.
  • a communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • BT Bluetooth
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and executes data recording or reading.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • the technology disclosed in this specification can take the following configurations. (1) having a learning processing unit for learning processing of user utterances;
  • the learning processing unit An information processing apparatus that generates an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected.
  • the information processing apparatus further includes: The information processing apparatus according to (1), wherein the utterance summary list is displayed on a display unit.
  • the learning processing unit The user is inquired whether to generate an utterance summary list, and when the user's consent is obtained, the utterance summary list is generated and stored in the storage unit (1) to (3) The information processing apparatus described.
  • the learning processing unit The information processing apparatus according to any one of (1) to (4), wherein when it is determined that a plurality of processes corresponding to a plurality of user utterances have been successfully executed, the utterance summary list is generated and stored in a storage unit.
  • the learning processing unit The information processing method according to any one of (1) to (4), wherein when the combination of a plurality of user utterances exceeds a predetermined threshold number of times, the utterance summary list is generated and stored in the storage unit. apparatus.
  • the learning processing unit The presence / absence of an instruction word indicating the relationship between each utterance included in a plurality of user utterances is analyzed, and the utterance summary list is generated and stored in the storage unit according to the analysis result (1) to (4).
  • the information processing apparatus according to any one of the above.
  • the learning processing unit According to the user utterance, the state of the user with respect to the processing executed by the information processing device is analyzed, and according to the analysis result, the utterance summary list is generated and stored in the storage unit (1) to (4) The information processing apparatus described.
  • the learning processing unit Enter user status information, The information processing apparatus according to any one of (1) to (4), wherein when the user status information is information indicating that the user is satisfied, the utterance summary list is generated and stored in a storage unit.
  • the user status information is: Non-verbal information based on user utterances generated by the voice analysis unit, Image analysis information based on the user image generated by the image analysis unit, Sensor information analysis information generated by the sensor information analysis unit, The information processing apparatus according to (9), which is information indicating a user satisfaction state acquired based on at least one of these pieces of information.
  • the information processing apparatus further includes: Any of (1) to (10) including a display information generation unit that executes highlighting processing of an utterance correspondence node being executed by the information processing apparatus among a plurality of utterance correspondence nodes included in the utterance summary list displayed on the display unit The information processing apparatus described in 1.
  • the information processing apparatus further includes: The information processing apparatus according to any one of (1) to (11), wherein an external utterance summary list that can be acquired is acquired and displayed on a display unit.
  • the learning processing unit The information processing apparatus according to any one of (1) to (12), wherein a user utterance to be summarized is selected according to context information to generate an utterance summary list.
  • An information processing system having a user terminal and a data processing server,
  • the user terminal is A voice input unit for inputting a user utterance;
  • the data processing server A learning processing unit that performs learning processing of the user utterance received from the user terminal;
  • the learning processing unit An information processing system that generates an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected.
  • the user terminal The information processing system according to (14), wherein the utterance summary list is displayed on a display unit.
  • the information processing apparatus includes a learning processing unit that performs learning processing of user utterances,
  • the learning processing unit An information processing method for generating an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected.
  • An information processing method executed in an information processing system having a user terminal and a data processing server The user terminal is Execute voice input processing to input user utterance,
  • the data processing server is Performing the learning process of the user utterance received from the user terminal;
  • a program for executing information processing in an information processing device includes a learning processing unit that performs learning processing of user utterances, The program is stored in the learning processing unit.
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
  • the learning processing unit generates an utterance summary list in which a plurality of user utterances corresponding to a plurality of different processing requests are collected. Further, the generated utterance summary list is displayed on the display unit. The learning processing unit obtains the user's consent, determines that the execution of a plurality of processes corresponding to the user utterance has succeeded, or the combination of the plurality of user utterances is a predetermined threshold number of times.
  • an utterance summary list is generated and stored in the storage unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

複数のユーザ発話をまとめた発話まとめリストを生成、利用することで、複数のユーザ発話に基づく処理を正確に繰り返し実行可能とした装置、方法を実現する。学習処理部が複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する。さらに、生成した発話まとめリストを表示部に表示する。学習処理部は、ユーザの了解が得られた場合や、ユーザ発話に対応する複数の処理の実行に成功したと判定した場合、あるいは複数のユーザ発話の組み合わせが、予め規定されたしきい値回数以上になった場合、またユーザが満足していることが推定される場合等に、発話まとめリストを生成して記憶部に格納する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。
 この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
 例えばユーザが、「面白い動画を見せて」と発話した場合、動画コンテンツ提供サーバから動画コンテンツを取得して表示部、あるいは接続されたテレビに出力するといった処理を行う。あるいは、ユーザが、「テレビを消して」と発話した場合、テレビをオフにする動作等を行う。
 一般的な音声対話システムは、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有しており、自然言語理解(NLU)機能を適用して、ユーザ発話の意図(Intent)を理解する。
 しかし、例えば、複数の処理を連続的に行わせようとすると、ユーザは、複数の処理に相当する複数のユーザ発話を行うことが必要となる。例えば、以下のような例である。
 「面白い動画を見せて」
 「クラシックを再生して」
 「昨日のゲームの続きがしたいな」
 「友達と一緒にゲームがしたいから連絡して」
 例えば、このような連続的なユーザ発話を行った場合、ユーザは、これらの全ての発話をシステムが理解し、実行できるのか否かを、即座に確認することは難しい。
 実際には、ユーザは、発話を行った後、しばらく待機して、ユーザ発話に対する処理が実行されているか否かを、実行結果に基づいて確認することが必要となる。
 実行されていない場合は、その実行されていなかった処理について、再度、繰り返して発話するか、あるいは言い方を変えて発話するといった言い直し等の処理が必要となる。
 このような対応はユーザにとって大きな負担であり、また、処理完了までの時間も増大するという問題がある。
 ユーザ発話による処理依頼を確実に実行させるための構成を開示した従来技術として、例えば特許文献1(特開2007-052397号公報)がある。この文献は、カーナビに入力可能な音声コマンドのリストを、予め表示部に表示することで、ユーザがリストを見ながら音声コマンドを入力可能とした構成を開示している。
 この構成により、カーナビが理解できるユーザ発話(コマンド)を、ユーザに発話させることが可能となり、カーナビの理解できないユーザ発話(コマンド)がなされる可能性を低減させることができる。
 この構成は、ユーザ発話をシステムに登録されたコマンドに一致させることが可能となるが、上述したように、複数の処理要求を連続して実行させようとすると、ユーザは、ユーザの意図する複数処理に対応する複数のコマンドをリストから探すことが必要となり、ユーザの負担が大きくなる。また、結果として処理完了までの時間も増大するという問題が発生する。
特開2007-052397号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザ発話に応じた処理を、より確実に実行可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 また、本開示の一実施例においては、複数の異なる処理をまとめて実行させる場合に、ユーザの要求する複数処理を確実に実行可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供する。
 本開示の第1の側面は、
 ユーザ発話の学習処理を行う学習処理部を有し、
 前記学習処理部は、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理装置にある。
 さらに、本開示の第2の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話の学習処理を行う学習処理部を有し、
 前記学習処理部は、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、ユーザ発話の学習処理を行う学習処理部を有し、
 前記学習処理部が、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理方法にある。
 さらに、本開示の第4の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末が、
 ユーザ発話を入力する音声入力処理を実行し、
 前記データ処理サーバが、
 前記ユーザ端末から受信する前記ユーザ発話の学習処理を実行し、
 前記学習処理において、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、ユーザ発話の学習処理を行う学習処理部を有し、
 前記プログラムは、前記学習処理部に、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、複数のユーザ発話をまとめた発話まとめリストを生成、利用することで、複数のユーザ発話に基づく処理を正確に繰り返し実行可能とした装置、方法が実現される。
 具体的には、例えば、学習処理部が複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する。さらに、生成した発話まとめリストを表示部に表示する。学習処理部は、ユーザの了解が得られた場合や、ユーザ発話に対応する複数の処理の実行に成功したと判定した場合、あるいは複数のユーザ発話の組み合わせが、予め規定されたしきい値回数以上になった場合、またユーザが満足していることが推定される場合等に、発話まとめリストを生成して記憶部に格納する。
 本構成により、複数のユーザ発話をまとめた発話まとめリストを生成、利用することで、複数のユーザ発話に基づく処理を正確に繰り返し実行可能とした装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話に基づく応答や処理を行う情報処理装置の例について説明する図である。 情報処理装置の構成例と利用例について説明する図である。 情報処理装置の具体的な構成例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の表示データの一例について説明する図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理システムの構成例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.情報処理装置の構成例について
 2.情報処理装置の出力する表示情報と発話まとめリストの生成例について
 3.発話まとめリストを利用した処理例について
 4.発話まとめリストのその他の表示例と生成例について
 5.情報処理装置の実行する処理のシーケンスについて
 6.情報処理装置、および情報処理システムの構成例について
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.情報処理装置の構成例について]
 まず、図1以下を参照して、本開示の一実施例の情報処理装置の構成例について説明する。
 図1は、ユーザ1の発するユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置10の構成と処理例を示す図である。
 ユーザ1は、ステップS01において、以下のユーザ発話を行う。
 ユーザ発話=「面白い動画を見せて」
 情報処理装置10は、ステップS02において、ユーザ発話の音声認識を行い認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「面白い動画を見せて」の応答として、ステップS02において、以下のシステム発話を出力する。
 システム発話=「分かりました、面白い動画を再生します。」
 さらに、情報処理装置10は、動画コンテンツを、例えば、ネットワーク接続されたクラウド側のサーバ20であるコンテンツ配信サーバから取得して、情報処理装置10の表示部13、あるいは情報処理装置10によって制御される近くの外部装置(テレビ)30に出力する。
 さらに、ユーザ1は、ステップS03において、以下のユーザ発話を行う。
 ユーザ発話=「クラシックを聞かせて」
 情報処理装置10は、ステップS04において、ユーザ発話の音声認識を行い認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「クラシックを聞かせて」の応答として、ステップS04において、以下のシステム発話を出力する。
 システム発話=「分かりました、クラシックを再生します。」
 さらに、情報処理装置10は、クラシック音楽コンテンツを、例えば、ネットワーク接続されたクラウド側のサーバ20である音楽配信サーバから取得して、情報処理装置10のスピーカー14、あるいは近くの外部装置(スピーカー)に出力する。
 図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器等と呼ばれる。
 なお、ユーザ発話に対する音声認識処理や意味解析処理は、情報処理装置10内で行ってもよいし、クラウド側のサーバ20の1つであるデータ処理サーバにおいて実行する構成としもよい。
 本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等のような様々な装置形態とすることが可能である。
 情報処理装置10は、ユーザ1の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図2に示すテレビ、エアコン等の外部機器30の制御も実行する。
 例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
 なお、情報処理装置10は、ネットワークを介してサーバ20と接続され、サーバ20から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、前述したように音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
 次に、図3を参照して、情報処理装置の具体的な構成例について説明する。
 図3は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置10の一構成例を示す図である。
 図3に示すように、情報処理装置10は、入力部110、出力部120、データ処理部150を有する。
 なお、データ処理部150は、情報処理装置10内に構成することも可能であるが、情報処理装置10内に構成せず、外部サーバのデータ処理部を利用してもよい。サーバを利用した構成の場合、情報処理装置10は、入力部110から入力した入力データを、ネットワークを介してサーバに送信し、サーバのデータ処理部150の処理結果を受信して、出力部120を介して出力する。
 次に、図3に示す情報処理装置10の構成要素について説明する。
 入力部110は、音声入力部(マイク)111、画像入力部(カメラ)112、センサー113を有する。
 出力部120は、音声出力部(スピーカー)121、画像出力部(表示部)122を有する。
 情報処理装置10は、最低限、これらの構成要素を有する。
 なお、音声入力部(マイク)111は、図1に示す情報処理装置10のマイク12に対応する。
 画像入力部(カメラ)112は、図1に示す情報処理装置10のカメラ11に対応する。
 音声出力部(スピーカー)121は、図1に示す情報処理装置10のスピーカー14に対応する。
 画像出力部(表示部)122は、図1に示す情報処理装置10の表示部13に対応する。
 なお、画像出力部(表示部)122は、例えば、プロジェクタ等によって構成することも可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。
 データ処理部150は、前述したように情報処理装置10、または情報処理装置10と通信可能なサーバのいずれかに構成される。
 データ処理部150は、入力データ解析部160、記憶部170、出力情報生成部180を有する。
 入力データ解析部160は、音声解析部161、画像解析部162、センサー情報解析部163、ユーザ状態推定部164、学習処理部165を有する。
 出力情報生成部180は、出力音声生成部181、表示情報生成部182を有する。
 表示情報生成部182はノードツリー、発話まとめリスト等の表示データを生成する。これらの表示データについては後段で詳細に説明する。
 ユーザの発話音声はマイクなどの音声入力部111に入力される。
 音声入力部(マイク)111は、入力したユーザ発話音声を音声解析部161に入力する。
 音声解析部161は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
 さらに、テキストデータに対する発話意味解析処理を実行する。
 音声解析部161は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 具体例について説明する。例えば以下のユーザ発話が入力されたとする。
 ユーザ発話=明日の大阪の午後の天気を教えて
 このユーザ発話の、
 意図(インテント)は、天気を知りたいであり、
 実体情報(エンティティ)は、大阪、明日、午後、これらのワードである。
 ユーザ発話から、意図(インテント)と、実体情報(エンティティ)を正確に推定、取得することができれば、情報処理装置100は、ユーザ発話に対する正確な処理を行うことができる。
 例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。
 音声解析部161によって取得されたユーザ発話解析情報191は、記憶部170に格納されるとともに、学習処理部165、出力情報生成部180に出力される。
 また、音声解析部161は、ユーザ音声に基づくユーザ感情の解析処理に必要な情報(ノンバーバル情報)を取得し、取得した情報をユーザ状態推定部164に出力する。
 画像入力部112は、発話ユーザおよびその周囲の画像を撮影して、画像解析部162に入力する。
 画像解析部162は、ユーザの顔の表情、ジェスチャ、視線情報等の解析を行い、この解析結果をユーザ状態推定部164に出力する。
 センサー113は、例えばユーザの視線、体温、心拍数、脈拍、脳波等を解析するために必要となるデータを取得するセンサーによって構成される。センサーの取得情報は、センサー情報解析部163に入力される。
 センサー情報解析部163は、センサー取得情報に基づいて、ユーザの視線、体温、心拍数等のデータを取得して、この解析結果をユーザ状態推定部164に出力する。
 ユーザ状態推定部164は、
 音声解析部161による解析結果、すなわち、ユーザ音声に基づくユーザ感情の解析処理に必要な情報(ノンバーバル情報)、
 画像解析部162による解析結果、すなわち、ユーザの顔の表情、ジェスチャ、視線情報等の解析情報、
 センサー情報解析部163による解析結果、すなわち、ユーザの視線、体温、心拍数、脈拍、脳波等のデータ、
 これらのデータを入力して、ユーザ状態を推定して、ユーザ状態推定情報192を生成する。
 生成されたユーザ状態推定情報192は、記憶部170に格納されるとともに、学習処理部165、出力情報生成部180に出力される。
 なお、ユーザ状態推定部164の生成するユーザ状態推定情報192とは、具体的には、例えばユーザが満足しているか不満か、すなわち、ユーザ発話に対する情報処理装置が実行した処理に満足しているか否かの推定情報等である。
 例えば、ユーザが満足していると推定されれば、ユーザ発話に対して情報処理装置が実行した処理が正しい処理、すなわち実行処理が成功であると推定する。
 学習処理部165は、ユーザ発話に対する学習処理を実行して学習データを記憶部170に格納する。例えば新たなユーザ発話が入力された場合や、ユーザ発話の意図が不明である場合等において、その後の装置とユーザの対話に基づいて意図を解析し、解析結果が得られた場合にはユーザ発話と意図を対応付けた学習データを生成して記憶部170に格納する処理等を行う。
 このような学習処理を実行することで、次第に、多くのユーザ発話の意図を正確に理解することが可能となる。
 また、学習処理部165は、複数のユーザ発話をまとめた「発話まとめリスト」を生成して記憶部170に格納する処理も実行する。
 「発話まとめリスト」については、後段で詳細に説明する。
 なお、学習処理部165には、音声解析部161の解析結果の他、画像解析部162、センサー情報解析部163、ユーザ状態推定部164の生成した解析情報、推定情報も入力される。
 学習処理部165は、これらの入力情報に基づいて、例えばユーザ発話に対して情報処理装置10の実行した処理の成功度を把握し、成功したと判定した場合に学習データを生成して記憶部170に格納する処理等を実行する。
 記憶部170には、ユーザ発話の内容や、ユーザ発話に基づく学習データや、画像出力部(表示部)122に出力する表示用データ等が格納される。
 なお、表示用データには、表示情報生成部182が生成するノードツリー、発話まとめリスト等が含まれる。これらのデータについては後段で詳細に説明する。
 出力情報生成部180は、出力音声生成部181、表示情報生成部182を有する。
 出力音声生成部181は、音声解析部161の解析結果であるユーザ発話解析情報191に基づいて、ユーザに対する応答を生成する。具体的には、音声解析部161の解析結果であるユーザ発話の意図に応じた応答を生成する。
 出力音声生成部181の生成した応答音声情報は、スピーカー等の音声出力部121を介して出力される。
 出力音声生成部181は、さらに、ユーザ状態推定情報192に基づいて、出力する応答を変更する制御も行う。
 例えばユーザが不満そうな困った表情である場合には、「何かお困りですか」といったシステム発話を実行するための処理等を行う。
 表示情報生成部182は、画像出力部(表示部)122に表示するノードツリーや、発話まとめリスト等の表示データを生成する。
 これらのデータについては、後段で詳細に説明する。
 なお、図3には、ユーザ発話に対する処理実行機能、例えば、先に図1を参照して説明した動画再生のための動画取得処理や、取得動画の出力を行うための構成は示していないが、これらの機能もデータ処理部150内に構成される。
  [2.情報処理装置の出力する表示情報と発話まとめリストの生成例について]
 次に、情報処理装置10の出力する表示情報と発話まとめリストの生成例について説明する。
 図4は、情報処理装置10の画像出力部(表示部)122に出力される表示データの例を示する図である。
 なお、前述したように、画像出力部(表示部)122は、図1に示す情報処理装置10の表示部13に対応するが、例えば、プロジェクタ等によって構成することも可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。
 図4に示す例において、まず、ユーザが、情報処理装置10に対する呼びかけとして以下のユーザ発話を行う。
 ユーザ発話=「ねえ、ソニ太郎」
 なお、ソニ太郎は、情報処理装置10のニックネームである。
 この呼びかけに対して、情報処理装置10は、以下のシステム応答を行う。
 システム応答=「やりたいことは何ですか?、できることはこちらです。」
 情報処理装置10は、出力音声生成部182が、上記のシステム応答を生成して音声出力部(スピーカ)121を介して出力する。
 情報処理装置10は、さらに、上記のシステム応答の出力に併せて、表示情報生成部182が生成した図4に示す表示データを画像出力部(表示部)122に表示する。
 図4に示す表示データについて説明する。
 ドメイン対応ノードツリー200は、情報処理装置10がユーザ発話に応じて実行可能な処理を種類(ドメイン)別に区分し、さらに、ドメインごとに受付可能なユーザ発話例を示したツリー(木構造)データである。
 図4に示す例は、ドメイン201として、
 ゲームドメイン、
 メディアドメイン、
 設定ドメイン、
 ショップドメイン、
 が設定され、さらに、
 メディアドメインの下位ドメインとして、
 フォトドメイン、
 ビデオドメイン、
 ミュージックドメイン、
 これらのドメインを表示している。
 ドメインには、さらに下位ノードとして、受付可能発話表示ノード202が設定される。
 受付可能発話表示ノード202の具体例については、後段において、図5以下を参照して説明する。
 表示部には、さらに、右上に示す表示領域識別情報211が表示される。これは、表示部に表示されたドメイン対応ノードツリー200がツリー全体のどの部分に該当するかを示す情報である。
 表示部には、さらに、右下に示す登録済み発話まとめリスト情報212が表示される。これは、情報処理装置10の記憶部170に記録された発話まとめリストの一覧データである。
 発話まとめリストは、一連の異なる複数のユーザ発話をまとめたリストである。例えば、2つ以上の処理を連続して情報処理装置10に依頼する場合に利用される。
 この発話まとめリストについては、後段で詳細に説明する。
 図4に示す状態から、次に図5に示す状態に移行する。
 図5に示すように、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「BGMをかけたいんだけど」
 情報処理装置10は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「再生」であることを把握する。
 このユーザ発話解析情報に基づいて、表示情報生成部182は、表示部の表示データを図5に示すように更新する。
 図5に示す表示データは、
 ビデオドメイン、ミュージックドメインの下位ノードとして、処理カテゴリ表示ノード203を示し、さらに、この処理カテゴリ表示ノード203の下位ノードとして、受付可能発話表示ノード202を示した表示データである。
 処理カテゴリ表示ノード203は、各ドメイン(ビデオ、ミュージック、ゲーム等)に対応して実行可能な処理のカテゴリを示すノードである。
 この処理カテゴリ表示ノード203の下位ノードとして、受付可能発話表示ノード202が表示される。
 受付可能発話表示ノード202には、処理カテゴリノードに表示された処理の関連処理を情報処理装置10に実行させる登録済みのユーザ発話、例えばコマンドが表示される。なお、コマンドはユーザ発話中、情報処理装置10に何等かの処理を実行させるユーザ発話(=コマンド)である。
 図5に示すように、
 「10分早送りして」
 「最初に戻って」
 「昨日見た動画を再生して」
 これらのユーザ発話(=コマンド)のテキストデータが受付可能発話表示ノード202に表示される。
 これらの受付可能発話表示ノード202に表示されるユーザ発話は、例えば、予め記憶部170に記録された学習データ(ユーザ発話と意図との対応関係を記録した学習データ)発話データや、過去のユーザ発話に基づいて学習処理部165が学習して生成した学習データであり、記憶部170に記録されているデータである。
 ユーザがこの受付可能発話表示ノード202に一致する発話を行えば、情報処理装置10は、学習データに基づいて、そのユーザ発話の意図を正確に把握して、ユーザ発話に従った処理を確実に実行することができる。
 ユーザ側から見れば、表示部に表示された受付可能発話表示ノード202をそのまま読み上げることで、情報処理装置10がユーザの意図する処理を実行してくれることを確信して安心して発話を行うことができる。
 なお、受付可能発話表示ノード202に表示される文字列は、学習データとして記録されている文字列であるが、ユーザはこの文字列と一致しない文字列からなる発話を行っても、情報処理装置10の音声解析部161は、近い文字列からなる学習データを参照してユーザ発話の意図を推定する。従って、ユーザは、この表示されたデータに近い発話を行えば、情報処理装置10は、ユーザ発話に応じた的確な処理を実行することが可能となる。
 図5に示す表示データが表示部に表示された後、次に図6に移行する。
 図6に示すように、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「80年代の曲を再生して」
 情報処理装置10は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「80年代の曲の再生」であることを把握する。
 このユーザ発話解析情報に基づいて、情報処理装置10は処理(80年代の曲の再生)を実行する。
 なお、再生対象となる音楽は、例えばネットワークに接続されたサーバ(音楽コンテンツを提供するサービス提供サーバ)から取得される。
 さらに、表示情報生成部182は、表示部の表示データを図6に示すように更新する。
 図6に示す表示データは、
 受付可能発話表示ノード202の1つのノードである、
 ノード「99年代の曲を再生して」
 このノードを強調表示ノード221として強調表示したものである。
 ユーザ発話=「80年代の曲を再生して」は、
 すでに学習データとして記録済みの発話であるノードに示す発話データ「99年代の曲を再生して」
と類似しており、情報処理装置10の音声解析部161は、発話データ「99年代の曲を再生して」を記録した学習データを参照することで、正確な音声認識と意味解析を行い、ユーザ意図が「80年代の曲の再生」であることを確実に把握することができる。すなわち、年代エンティティとして「80年代」が取得できた結果、80年代の曲の再生を行う。
 情報処理装置10の表示情報生成部182は、このユーザ発話の意図把握に併せて、類似する意図を持つ受付可能発話表示ノード202の1つのノード、
 ノード=「99年代の曲を再生して」
 このノードを強調表示ノード221として強調表示する。
 ユーザはこの表示を見ることで、ユーザ発話が正確に解釈されたことを確信することができる。
 さらに、図6に示すように、
 {実行された。よかった。「99年」のところを変えればいろいろ言えそうだ}
 のように、情報処理装置10の理解度を把握し、その他の利用可能な発話についても判断することが可能となる。
 次に図7に移行する。
 図7に示すように、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「お気に入りリストを再生」
 情報処理装置10は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「お気に入りリストを再生」であることを把握する。
 このユーザ発話解析情報に基づいて、情報処理装置10は処理(お気に入りリストを再生)を実行する。
 なお、お気に入りリストや、再生対象となる音楽は、例えばネットワークに接続されたサーバ(音楽コンテンツを提供するサービス提供サーバ)から取得される。
 さらに表示情報生成部182は、表示部の表示データを図7に示すように更新する。
 図7に示す表示データは、
 受付可能発話表示ノード202の1つのノードである、
 ノード「お気に入りリストを再生して」
 このノードを強調表示ノード221として強調表示したものである。
 さらに、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「あなたの好きな曲を再生しました」
 なお、このユーザ発話に対する処理実行時(曲再生時)に、入力データ解析部160の音声解析部161、画像解析部162、センサー情報解析部163、ユーザ状態推定部164は、ユーザ発話、画像、センサー情報等に基づいて、ユーザの状態(満足しているか不満な状態か等)を推定し、この推定情報を学習処理部165に出力する。学習処理部165は、この情報に基づいて学習データの生成、更新、破棄等の処理を行う。
 例えば、ユーザが満足していると推定されれば、ユーザ発話に対する意図把握と、実行処理が正しく行われたと判定して学習データの生成、更新を行い記憶部170に格納する。
 ユーザが満足していないと推定されれば、ユーザ発話に対する意図把握と、実行処理が正しく行われていないと判定して学習データの生成、更新を行わない。あるいは生成した学習データの破棄等を行う。
 次に、図8に移行する。
 図8に示すように、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「サウザン追加して」
 なお、「サウザン」は、著名なアーティスト名であるとする。
 情報処理装置10は、このユーザ発話の音声認識と意味解析を行うが、ユーザ意図が解釈できなかったとする。
 このようなユーザ意図が解釈できない発話をOOD発話(アウト オブ ドメイン(Out Of Domain)発話)と呼ぶ。
 なお、ユーザ意図が解釈でき、情報処理装置10が実行可能なユーザ発話をイン ドメイン(発話)と呼ぶ。
 情報処理装置10は、このようなOOD発話を入力すると、出力音声生成部181は、問い合わせ応答を生成して音声出力部121を介して出力する。すなわち、図8に示すように、以下のシステム応答を生成して出力する。
 システム応答=「すみません、わかりません、言い直してください」
 さらに、表示情報生成部182は、図8に示すように、表示部の右下に以下のようなガイド情報222を表示する。
 ガイド情報=「サウザン追加して」が分かりません、10秒以内であれば言い直し可能です
 情報処理装置10は、この表示後、10秒待機する。
 次に図9に移行する。
 図9に示すように、ユーザは、OOD発話とされた「サウザン追加して」の言い直し発話として、以下のユーザ発話を行う。
 ユーザ発話(言い直し)=「昨日のサウザンの曲をかけて」
 情報処理装置10は、このユーザ発話の音声認識と意味解析を行い、
 OOD発話とした「サウザン追加して」のユーザ意図が「昨日のサウザンの曲をかけて」と同様、「サウザンの曲をかけて」という意図であることを把握する。
 学習処理部165は、この意図把握の結果を学習データとして記憶部170に格納する。
 さらに、情報処理装置10の出力音声生成部181は、以下のシステム応答を生成して出力する。
 システム応答=「分かりました。「サウザン追加して」を学習しました」
 さらに、表示情報生成部182は、表示部の表示データを図9に示すように更新する。
 追加ノード231として、意図把握に成功したユーザ発話を示すノードを追加し、さらに、学習がなされたことを示すガイド情報232を表示する。
 なお、前述したように、学習処理部165は、入力データ解析部160の音声解析部161、画像解析部162、センサー情報解析部163、ユーザ状態推定部164から入力する情報から推定されるユーザ状態(満足しているか不満な状態か等)に基づいて学習データの生成、更新、破棄等の処理を行う。
 すなわち、ユーザが満足していると推定されれば、ユーザ発話に対する意図把握と、実行処理が正しく行われたと判定して学習データの生成、更新を行い記憶部170に格納する。ユーザが満足していないと推定されれば、ユーザ発話に対する意図把握と、実行処理が正しく行われていないと判定して学習データの生成、更新を行わない。あるいは生成した学習データの破棄を行う。
 次に、図10に移行する。
 ユーザは、次にゲームをやりたくなり、以下のユーザ発話を行う。
 ユーザ発話=「ゲームで使えるコマンド(発話)を見せて」
 なお、コマンドとは、前述したように情報処理装置10に何等かの処理を実行させるユーザ発話(=コマンド)である。
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行う。この解析結果に基づいて、表示情報生成部182は、表示部の表示データを図10に示すように更新する。
 図10に示すようにゲームドメインに対応して設定された受付可能発話表示ノード202(=受付可能コマンドノード)を示すツリー領域を表示する。
 ユーザは、フレンドを誘って一緒にゲームをしたいと考え、そのための最適な発話(コマンド)を受付可能発話表示ノード202(=受付可能コマンドノード)から探す。
 ノード=「フレンドにお誘いを送って」
 を見つけて、このノードに表示された発話を行う。
 図11に示すように、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「フレンドにお誘いを送って」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行い、この結果に基づいて、情報処理装置10は処理(フレンドに対するお誘いメールの送信)を実行する。
 なお、フレンドに対するお誘いメールの送信は、例えば情報処理装置10から直接送信するか、あるいは、ネットワークに接続されたサーバ(ゲームを提供するサービス提供サーバ)経由で送信される。
 さらに、表示情報生成部182は、表示部の表示データを図11に示すように更新する。
 情報処理装置10の表示情報生成部182は、このユーザ発話の意図把握に併せて、類似する意図を持つ受付可能発話表示ノード202の1つのノード、
 ノード=「フレンドにお誘いを送って」
 このノードを強調表示する。
 ユーザはこの表示を見ることで、ユーザ発話が正確に解釈されたことを確信することができる。
 また、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「いつものゲームフレンドにインビテーションを送付しました」
 次に、図12に移行する。
 ユーザは、ゲームをしながら動画再生を行いたくなり、以下のユーザ発話を行う。
 ユーザ発話=「昨日見た動画を再生して」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行う。この解析結果に基づいて、情報処理装置10は処理を実行(動画再生)する。
 なお、再生対象となる動画は、例えばネットワークに接続されたサーバ(動画コンテンツを提供するサービス提供サーバ)から取得される。
 さらに、表示情報生成部182は、表示部の表示データを図12に示すように更新する。
 図12に示すようにビデオドメインの受付可能発話表示ノードの1つのノード、すなわちユーザ発話に対応するノード
 ノード=「昨日見た動画を再生して」
 このノードを強調表示する。
 ユーザはこの表示を見ることで、ユーザ発話が正確に解釈されたことを確信することができる。
 また、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「昨日皆さんが見ていたお笑い動画を再生しました」
 次に、図13に移行する。
 図13において、ユーザは、以下のように考える。すなわち、
 {さっきは実行できたけど、同じこと(4つのこと)をやろうと思ったらうまくいくか分からないし面倒くさいな}
 この4つのこととは、以下の4つのユーザ発話に対応する処理である。
 (1)「お気に入りリストを再生」(図7)、
 (2)「サウザン追加して」(図8)、
 (3)「フレンドにお誘いを送って」(図11)、
 (4)「昨日見た動画を再生して」(図12)、
 情報処理装置10の入力データ解析部160は、この時点で、ユーザが何か悩んで不満そうにしていることを解析する。すなわち、ユーザ状態推定部164は、音声解析部161、画像解析部162、センサー情報解析部163から入力する情報に基づいて、ユーザが何か悩んで不満そうにしていることを示すユーザ状態推定情報192を生成して出力情報生成部180に出力する。
 出力情報生成部180の出力音声生成部181は、このユーザ状態推定情報192の入力に応じて、以下のシステム発話を生成して出力する。
 システム発話=「「お気に入りリストを再生」から、「昨日見た動画を再生」までの発話をまとめて記録できます」
 次に、図14に移行する。
 このシステム発話に応じて、ユーザは、図14に示すように、以下のユーザ発話を行う。
 ユーザ発話=「今の操作を覚えておいて」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行う。この解析結果に基づいて、情報処理装置10は処理(「発話まとめリスト」の生成処理)を実行する。さらに、表示情報生成部182は、表示部の表示データを図14に示すように更新する。
 図14に示すように表示部には、複数の発話をまとめてリスト化した発話まとめリスト231が表示される。
 「発話まとめリスト」とは、複数のユーザ発話(コマンド)をリスト化したデータである。
 すなわち、「発話まとめリスト」に記録するユーザ発話は、情報処理装置10に対するユーザからの処理要求であるコマンドに相当するユーザ発話である。
 この「発話まとめリスト」は、学習処理部165において生成される。
 学習処理部165は、
 ユーザ発話=「今の操作を覚えておいて」
 に応じて、以下の4つのユーザ発話を1つのリストにまとめた発話まとめリストを生成して、このリストを1つの学習データとして記憶部170に格納する。
 (1)「お気に入りリストを再生」(図7)、
 (2)「サウザン追加して」(図8)、
 (3)「フレンドにお誘いを送って」(図11)、
 (4)「昨日見た動画を再生して」(図12)、
 例えば、ユーザが、記憶部170に格納された「発話まとめリスト」に含まれるユーザ発話を行った場合、あるいは、ユーザが記憶部170に格納された「発話まとめリスト」を指定して処理を依頼する発話を行った場合、情報処理装置10は、「発話まとめリスト」に記録されたユーザ発話に応じた処理を順次、実行する。
 学習処理部165において「発話まとめリスト」が生成されると、図14に示すように、表示情報生成部182は、表示部に、生成された「発話まとめリスト」231を表示する。
 ユーザは、次回から、この「発話まとめリスト」231を指定する発話を行えば、指定されたリストに記録された複数の処理を情報処理装置に一括して実行させることが可能となる。
 図15以下を参照して生成した発話まとめリストを利用した処理例について説明する。
  [3.発話まとめリストを利用した処理例について]
 次に、発話まとめリストを利用した処理例について説明する。
 先に図14を参照して説明した処理によって生成された「発話まとめリスト」231を利用した処理例について説明する。
 まず、情報処理装置10の起動時に、情報処理装置10の表示部には図15に示す初期画面が表示される。
 これは、先に図4を参照して説明した表示データと同じである。
 図15に示すように、まず、ユーザが、情報処理装置10に対する呼びかけとして以下のユーザ発話を行う。
 ユーザ発話=「ねえ、ソニ太郎」
 この呼びかけに対して、情報処理装置10は、以下のシステム応答を行う。
 システム応答=「やりたいことは何ですか?、できることはこちらです。」
 情報処理装置10は、さらに、上記のシステム応答の出力に併せて、表示情報生成部182が生成した図15に示す表示データを画像出力部(表示部)122に表示する。
 図15に示す表示データは、先に図4を参照して説明したドメイン対応ノードツリー200を表示したデータである。
 ユーザは、この表示データを見ながら、次のように考える。
 {一昨日と同じことがやりたいな・・・どうやればよいのかな・・・?覚えてないよ・・・}
 なお、図14を参照して説明した「発話まとめリスト」231は一昨日(おととい)に生成したものとする。
 次に、図16に移行する。
 図16に示すように、ユーザは以下のユーザ発話を行う。
 ユーザ発話=「おととい、まとめた発話まとめリストを見せて」
 情報処理装置10は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「おととい生成した発話まとめリストの表示要求」であることを把握する。
 このユーザ発話解析情報に基づいて、情報処理装置10の表示情報生成部182は、表示部に「発話まとめリスト」231を表示する。
 さらに、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「了解しました。一昨日まためた発話まとめリストはこちらです」
 ユーザは、表示部に表示された発話まとめリスト231を見ることで、おととい実行した4つの一連の発話と処理を再確認することができる。
 次に、図17に進む。
 図17では、ユーザは、表示部に表示された発話まとめリスト231に記録された発話と同様の発話を順次行う。すなわち、
 (1)「お気に入りリストを再生」、
 (2)「サウザン追加して」、
 (3)「フレンドにお誘いを送って」、
 (4)「昨日見た動画を再生して」、
 これらの発話を順次、実行することで、おとといと全く同じ処理を情報処理装置10に確実に実行させることができる。
 あるいは、ユーザは、これらの発話を順次行う代わりに、
 ユーザ発話=「発話まとめリスト(2)を処理して」
 ユーザ発話=「表示されている発話まとめリストを処理して」
 これらいずれかの発話を行ってもよい。
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行う。この解析結果に基づいて、情報処理装置10は処理(「発話まとめリスト(2)」の処理)を実行する。すなわち、発話まとめリストに記録された複数のユーザ発話に対応する処理を順次、実行する。
 なお、情報処理装置10の表示情報生成部182は、情報処理装置10における処理の実行状態に応じて、表示部に表示された発話まとめリスト231の表示態様を変更する。
 具体的には、情報処理装置10が実行中の処理に対応するリスト内のノード(受付可能発話表示ノード)を強調表示する処理を行う。
 図18以下を参照してこの強調表示処理について説明する。
 まず、発話まとめリスト231に記録された最初のノード、
 ノード=「お気に入りリストを再生して」
 情報処理装置10は、まずこのノードに対応するユーザ発話に基づく処理(お気に入りリストの再生処理)を開始する。
 表示情報生成部182は、図18に示すように、情報処理装置10によって実行中の発話まとめリスト231に記録されたノード、すなわち、
 ノード=「お気に入りリストを再生して」
 このノードを強調表示する。
 ユーザはこの強調表示を見て、情報処理装置10が、お気に入りリストの再生処理を正しく実行していることを確認することが可能となる。
 次に、図19に移行する。
 図19は、発話まとめリスト231に記録された2番目のノード、
 ノード=「サウザンを追加して」
 情報処理装置10は、このノードに対応するユーザ発話に基づく処理(サウザンの再生)を開始する。
 すると、表示情報生成部182は、図19に示すように、情報処理装置10によって実行中の発話まとめリスト231に記録されたノード、すなわち、
 ノード=「サウザンを追加して」
 このノードを強調表示する。
 ユーザはこの強調表示を見て、情報処理装置10が、サウザンの再生処理を正しく実行していることを確認することが可能となる。
 次に、図20に移行する。
 図20は、発話まとめリスト231に記録された3番目のノード、
 ノード=「フレンドにお誘いを送って」
 情報処理装置10は、このノードに対応するユーザ発話に基づく処理(フレンドに対するお誘いメール送信)を開始する。
 すると、表示情報生成部182は、図20に示すように、情報処理装置10によって実行中の発話まとめリスト231に記録されたノード、すなわち、
 ノード=「フレンドにお誘いを送って」
 このノードを強調表示する。
 ユーザはこの強調表示を見て、情報処理装置10が、フレンドに対するお誘いメール送信を正しく実行していることを確認することが可能となる。
 次に、図21に移行する。
 図20は、発話まとめリスト231に記録された4番目のノード、
 ノード=「昨日見た動画を再生して」
 情報処理装置10は、このノードに対応するユーザ発話に基づく処理(昨日みた動画の再生)を開始する。
 すると、表示情報生成部182は、図20に示すように、情報処理装置10によって実行中の発話まとめリスト231に記録されたノード、すなわち、
 ノード=「昨日見た動画を再生して」
 このノードを強調表示する。
 ユーザはこの強調表示を見て、情報処理装置10が、昨日見た動画の再生を正しく実行していることを確認することが可能となる。
 「発話まとめリスト」は、ユーザが自由に作成することが可能であり、作成したリストを利用して処理を行うことで、複数の処理を確実に情報処理装置10に一括または順次実行させることが可能となる。
 「発話まとめリスト」は、さらに、他のユーザが作成したものを利用することもできる。
 図22は、他のユーザであるユーザABCの生成した発話まとめリスト232を表示した例である。
 ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「ABCさんの公開発話まとめリストを見せて」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行い、この結果に基づいて、情報処理装置10は処理(ABCさんの公開発話まとめリストの取得と表示)を実行する。
 表示情報生成部182は、表示部の表示データを図22に示すように更新する。
 すなわち、ABCさんの公開発話まとめリスト232を表示する。
 例えば情報処理装置10がアクセス可能なサーバの記憶部には多数のユーザの発話まとめリストが格納されている。
 発話まとめリストには公開を許容するか否かの設定が可能であり、公開許容されたリストのみ、他のユーザの要求に応じて取得、表示することができる。
 図22に示すように表示部に表示された他ユーザ公開発話まとめリストは、その後、このリストを呼び出したユーザがいつでも利用可能なリストとして記憶部170に格納される。
 さらに、図23に示すように、例えばゲーム専用サーバの管理するゲーム専用ネットワークが生成した公開発話まとめリストであるネット公開発話まとめリスト233を取得して表示し、利用することも可能である。
 また、図24に示すように、例えばブログにおいて公開された公開発話まとめリストであるブログ公開発話まとめリスト234を取得して表示し、利用することも可能である。
  [4.発話まとめリストのその他の表示例と生成例について]
 次に、上述した実施例とは異なる発話まとめリストのその他の表示処理例、および生成処理例について説明する。
 図25以下を参照してこれらの処理例について説明する。
 図25は、情報処理装置10の起動時に情報処理装置10の表示部に表示される初期画面である。
 これは、先に図4を参照して説明した表示データと同じである。
 図25に示すように、まず、ユーザが、情報処理装置10に対する呼びかけとして以下のユーザ発話を行う。
 ユーザ発話=「ねえ、ソニ太郎」
 この呼びかけに対して、情報処理装置10は、以下のシステム応答を行う。
 システム応答=「やりたいことは何ですか?、できることはこちらです。」
 情報処理装置10は、さらに、上記のシステム応答の出力に併せて、表示情報生成部182が生成した図15に示す表示データを画像出力部(表示部)122に表示する。
 図15に示す表示データは、先に図4を参照して説明したドメイン対応ノードツリー200を表示したデータである。
 ユーザは、この表示データを見ながら、次のように考える。
 {一昨日と同じことがやりたいな・・・初めに何を話したっけ?あ、・・お気に入りリストを再生したんだった!}
 次に、図26に移行する。
 図26に示すように、ユーザは以下のユーザ発話を行う。
 ユーザ発話=「お気に入りリストを再生」
 情報処理装置10は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「お気に入りリストの再生要求」であることを把握する。
 さらに、情報処理装置10の学習処理部165は、この音声解析結果を入力して、
 ユーザ発話=「お気に入りリストを再生」
 このユーザ発話を登録した「発話まとめリスト」が記憶部170に格納されていないかを検索する。
 その結果、先に図14を参照して説明した「発話まとめリスト」が記憶部170に格納されていることを検出する。すなわち、
 (1)「お気に入りリストを再生」、
 (2)「サウザン追加して」、
 (3)「フレンドにお誘いを送って」、
 (4)「昨日見た動画を再生して」、
 これらのユーザ発話を記録した「発話まとめリスト」が記憶部170に格納されていることを検出する。
 この検出結果に基づいて、情報処理装置10の表示情報生成部182は、記憶部170に格納されている「発話まとめリスト」を表示部に表示する処理を実行する。
 まず、図26に示すように、「発話まとめリスト」に記録されているユーザ発話に対応するノード、すなわち図26に示す発話まとめリスト対応ノード241の移動を開始する。
 次に、図27に示すように、これらのノードから構成される発話まとめリスト242を表示する。
 ユーザは、この表示を見て、先に行ったユーザ発話、すなわち、
 ユーザ発話=「お気に入りリストを再生」
 このユーザ発話を含む「発話まとめリスト」242が存在したことを確認することが可能となる。
 さらに、ユーザは表示された「発話まとめリスト」242を参照して、以前に実行した複数の一連の処理と全く同じ処理を確実に情報処理装置10に実行させることが可能となる。
 さらに、図28以下を参照して、情報処理装置10の学習処理部165が自発的に発話まとめリストの生成処理を行うべきか否かを判断して、発話まとめリストの生成処理を行う例について説明する。
 まず、図28に示すように、ユーザが以下のユーザ発話を行う。
 ユーザ発話=「ハッピーバースデーをかけて」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「ハッピーバースデーの再生要求」であることを把握する。
 このユーザ発話解析情報に基づいて、情報処理装置10は処理(ハッピーバースデーの再生)を実行する。さらに表示情報生成部182は、表示部の表示データを図28に示すように更新する。
 図28に示す表示データは、
 受付可能発話表示ノード202の1つのノードである、
 ノード「ハッピーバースデーをかけて」
 このノードを強調表示ノード221として強調表示したものである。
 さらに、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「ハッピーバースデーを再生しました」
 次に、図29に示すように、ユーザが以下のユーザ発話を行う。
 ユーザ発話=「その曲が使われた映画を再生して」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「ハッピーバースデーが使われた映画の再生要求」であることを把握する。
 このユーザ発話解析情報に基づいて、情報処理装置10は処理(ハッピーバースデーが使われた映画の再生)を実行する。さらに表示情報生成部182は、表示部の表示データを図29に示すように更新する。
 図29に示す表示データは、
 受付可能発話表示ノード202の1つのノードである、
 ノード「ハッピーバースデーが使われた映画を再生して」
 このノードを強調表示ノード221として強調表示したものである。
 さらに、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「映画ハッピーライフを再生します」
 さらに図30において、情報処理装置10の学習処理部165は、ユーザ発話の履歴を検証する。
 ユーザ発話=「ハッピーバースデーをかけて」
 ユーザ発話=「その曲が使われた映画を再生して」
 この2つのユーザ発話中、2番目のユーザ発話には最初のユーザ発話に対する指示語「その」が含まれていることを確認し、この2つのユーザ発話の関係性が高いと判定する。
 学習処理部165は、この関係性の判定に基づいて、この2つのちユーザ発話から構成される1つの発話まとめリストを生成すべきと判断する。
 図30に示すように、ユーザの明示的要求がなくても、情報処理装置10は、以下のシステム発話を出力する。
 システム発話=「「ハッピーバースデーをかけて」から、「その曲が使われた映画を再生して」までの発話をまとめて記録できます」
 次に、図31に移行する。
 このシステム発話に応じて、ユーザは、図31に示すように、以下のユーザ発話を行う。
 ユーザ発話=「今の操作を覚えておいて」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行う。この解析結果に基づいて、情報処理装置10は処理(「発話まとめリスト」の生成処理)を実行する。さらに、表示情報生成部182は、表示部の表示データを図31に示すように更新する。
 図31に示すように表示部には、複数の発話をまとめてリスト化した発話まとめリスト261が表示される。
 図31に示す「発話まとめリスト」261は、
 ユーザ発話=「ハッピーバースデーをかけて」
 ユーザ発話=「その曲が使われた映画を再生して」
 これらの2つのユーザ発話をまとめたリストである。
 この「発話まとめリスト」は、学習処理部165において生成される。
 学習処理部165は、
 ユーザ発話=「今の操作を覚えておいて」
 に応じて、以下の2つのユーザ発話を1つのリストにまとめた発話まとめリストを生成して、このリストを1つの学習データとして記憶部170に格納する。
 (1)「ハッピーバースデーをかけて」、
 (2)「その曲が使われた映画を再生して」、
 ユーザは、後日、この発話まとめリストを利用して、同じ一連の処理を確実に実行することが可能となる。
 図28~図31を参照して説明した処理は、
 第1のユーザ発話=「ハッピーバースデーをかけて」
 第2のユーザ発話=「その曲が使われた映画を再生して」
 この2つのユーザ発話中、2番目のユーザ発話に最初のユーザ発話に対する指示語「その」が含まれていることを確認し、この2つのユーザ発話の関係性が高いと判定した結果として発話まとめリストを生成した処理例である。
 次に、この2つのユーザ発話の順番が違う場合、すなわち最初に映画の再生要求があり、その次にその映画で使われた曲の再生要求を行った場合の発話まとめリスト生成処理例について、図32以下を参照して説明する。
 まず、図32に示すように、ユーザが以下のユーザ発話を行う。
 ユーザ発話=「ハッピーライフを再生して」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「映画ハッピーライフの再生要求」であることを把握する。
 このユーザ発話解析情報に基づいて、情報処理装置10は処理(映画ハッピーライフの再生)を実行する。さらに表示情報生成部182は、表示部の表示データを図32に示すように更新する。
 図32に示す表示データは、
 受付可能発話表示ノード202の1つのノードである、
 ノード「ハッピーライフを再生して」
 このノードを強調表示ノード221として強調表示したものである。
 さらに、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「映画「ハッピーライフ」を再生します」
 次に、図33に示すように、ユーザが以下のユーザ発話を行う。
 ユーザ発話=「この映画の主役の曲をかけて」
 まず、情報処理装置10の画像解析部162は、ユーザの視線情報を解析してユーザが映画ハッピーライフを見ていることを確認する。さらに、音声解析部161は、このユーザ発話の音声認識と意味解析を行い、ユーザ意図が「映画ハッピーライフの主役の曲の再生要求」であることを把握する。
 このユーザ発話解析情報に基づいて、情報処理装置10は処理(映画ハッピーライフの主役の曲=ハッピーバースデーの再生)を実行する。さらに表示情報生成部182は、表示部の表示データを図33に示すように更新する。
 図33に示す表示データは、
 受付可能発話表示ノード202の1つのノードである、
 ノード「ハッピーバースデーをかけて」
 このノードを強調表示ノード221として強調表示したものである。
 さらに、情報処理装置10の出力音声生成部181は以下のシステム応答を生成して音声出力部121を介して出力する。
 システム応答=「ハッピーバースデーを再生しました」
 さらに図34において、情報処理装置10の学習処理部165は、ユーザ発話の履歴を検証する。
 ユーザ発話=「ハッピーライフを再生して」
 ユーザ発話=「この映画の主役の曲をかけて」
 この2つのユーザ発話中、2番目のユーザ発話には最初のユーザ発話に対する指示語「この」が含まれていることを確認する。
 また、画像解析部162の解析結果すからユーザが映画ハッピーライフを見ていることを確認し、上記の2つのユーザ発話の関係性が高いと判定する。
 学習処理部165は、この関係性の判定に基づいて、この2つのユーザ発話から構成される1つの発話まとめリストを生成すべきと判断する。
 図34に示すように、ユーザの明示的要求がなくても、情報処理装置10は、以下のシステム発話を出力する。
 システム発話=「「ハッピーライフを再生して」から、「この映画の主役の曲をかけて」までの発話をまとめて記録できます」
 次に、図35に移行する。
 このシステム発話に応じて、ユーザは、図35に示すように、以下のユーザ発話を行う。
 ユーザ発話=「今の操作を覚えておいて」
 情報処理装置10の音声解析部161は、このユーザ発話の音声認識と意味解析を行う。この解析結果に基づいて、情報処理装置10は処理(「発話まとめリスト」の生成処理)を実行する。さらに、表示情報生成部182は、表示部の表示データを図35に示すように更新する。
 図35に示すように表示部には、複数の発話をまとめてリスト化した発話まとめリスト262が表示される。
 図35に示す「発話まとめリスト」262は、
 ユーザ発話=「ハッピーライフを再生して」
 ユーザ発話=「ハッピーバースデーをかけて」
 これらの2つのユーザ発話をまとめたリストである。
 この「発話まとめリスト」は、学習処理部165において生成される。
 学習処理部165は、
 ユーザ発話=「今の操作を覚えておいて」
 に応じて、以下の2つのユーザ発話を1つのリストにまとめた発話まとめリストを生成して、このリストを1つの学習データとして記憶部170に格納する。
 (1)「ハッピーライフを再生して」、
 (2)「ハッピーバースデーをかけて」、
 ユーザは、後日、この発話まとめリストを利用して、同じ一連の処理を確実に実行することが可能となる。
 上述したように、本開示の情報処理装置10の学習処理部165は、様々な条件に応じて発話まとめリストの生成を行う。
 学習処理部165が発話まとめリストを生成して記憶部170に格納する処理の実行例としては、例えば以下のものがある。
 (1)ユーザに対して、発話まとめリストを生成するか否かを問い合わせ、ユーザの了解が得られた場合に、発話まとめリストを生成して記憶部170に格納する。
 (2)複数のユーザ発話に対応する複数の処理の実行に成功したと判定した場合に、発話まとめリストを生成して記憶部170に格納する。
 (3)複数のユーザ発話の組み合わせが、予め規定されたしきい値回数以上になった場合に、発話まとめリストを生成して記憶部170に格納する。
 例えばしきい値=3回と設定した場合、
 ユーザ発話=お気に入りリストを再生して
 ユーザ発話=お笑い動画を見せて
 これらの2つのユーザ発話の組み合わせが、3回、入力された場合に、学習処理部165は、上記2つの発話の組み合わせからなる発話まとめリストを生成して記憶部170に格納する。
 (4)複数のユーザ発話中に含まれる各発話の関係性を示す指示語の有無を解析して、解析結果に応じて、発話まとめリストを生成して記憶部170に格納する。
 これは、上述した図28~図31を参照して説明した処理例に相当する。
 (5)ユーザ発話に応じて、情報処理装置10が実行した処理に対するユーザの状態を解析し、解析結果に応じて、発話まとめリストを生成して記憶部170に格納する。
 前述したように、入力データ解析部160の音声解析部161、画像解析部162、センサー情報解析部163、ユーザ状態推定部164は、ユーザ発話、画像、センサー情報等に基づいて、ユーザの状態(満足しているか不満な状態か等)を推定し、この推定情報を学習処理部165に出力する。学習処理部165は、この情報に基づいて学習データの生成、更新、破棄等の処理を行う。
 例えば、ユーザが満足していると推定されれば、ユーザ発話に対する意図把握と、実行処理が正しく行われたと判定して学習データの生成、更新を行い記憶部170に格納する。
 ユーザが満足していないと推定されれば、ユーザ発話に対する意図把握と、実行処理が正しく行われていないと判定して学習データの生成、更新を行わない。あるいは生成した学習データの破棄等を行う。
 (6)コンテキスト情報に応じて、まとめ対象のユーザ発話を選択して発話まとめリストを生成して記憶部170に格納する。
 これは、上記例と同様、例えば、入力データ解析部160の音声解析部161、画像解析部162、センサー情報解析部163の解析結果から得られるユーザ状態を示すコンテキスト情報に基づいて学習データの生成、更新、破棄等の処理を行う例の一例である。
 例えば、ユーザが料理中である、ユーザがゲームをしている、ユーザが音楽を聞いている等のユーザ状態に応じて、そのユーザが必要としていると推定される処理のみを選択して1つの発話まとめリストを生成して記憶部170に格納するものである。
 なお、コンテキスト情報としては、ユーザの行動情報のみならず、時間情報、天気情報、位置情報等、様々な環境情報を利用する構成も可能である。
 例えば時間帯が昼の場合は、昼に実行する可能性の高い処理の要求に対応するユーザ発話のみからなるリストを生成する。
 時間帯が夜の場合は、夜に実行する可能性の高い処理の要求に対応するユーザ発話のみからなるリストを生成する等である。
  [5.情報処理装置の実行する処理のシーケンスについて]
 次に、図36以下のフローチャートを参照して情報処理装置10の実行する処理のシーケンスについて説明する。
 図36以下に示すフローチャートに従った処理は、例えば情報処理装置10の記憶部に格納されたプログラムに従って実行される。例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として実行可能である。
 まず、図36に示すフローチャートを参照して、情報処理装置10の実行する処理の全体シーケンスについて説明する。
 図36に示すフローの各ステップの処理について説明する。
  (ステップS101)
 まず、情報処理装置10は、ステップS101において、音声、画像、センサー情報を入力し、解析する。
 この処理は、図3に示す情報処理装置10の入力部110と、入力データ解析部160の実行する処理である。
 ステップS101では、ユーザ発話音声の音声認識、意味解析を実行してユーザ発話の意図を獲得し、さらに、ユーザ発話音声、画像、センサー情報等に基づくユーザ状態(満足状態か、不満状態か等)を取得する。
 この処理の詳細については、後段で、図37のフローを参照して説明する。
  (ステップS102~S103)
 次に、情報処理装置10は、ステップS102~S103において、ユーザ発話(コマンド(処理要求))の内容を解析して、そのユーザ発話に対応する処理が実行可能(イン ドメイン(In Domein)であるか、実行不可能(アウト オブ ドメイン(OOD:Out Of Domein)であるかを判定する。
 実行不可能(アウト オブ ドメイン(OOD:Out Of Domein)である場合は、処理を終了する。
 なお、この際、ユーザに対して、処理ができないことの通知や、言い直しを要求するシステム応答を行ってもよい。
 一方、ユーザ発話に対応する処理が実行可能(イン ドメイン(In Domein)であると判定した場合は、ステップS104に進む。
  (ステップS104)
 次に、情報処理装置10は、ステップS104において、実行可能(イン ドメイン(In Domein)であると判定されたユーザ発話を記憶部170に記録する。
  (ステップS105)
 次に、情報処理装置10は、ステップS105において、画像出力部(表示部)122に表示されているドメイン対応ノードツリー中のユーザ発話対応のノードを強調表示する。
 例えば先に図7を参照して説明した強調表示ノード221を表示する処理である。
 この処理は、図3に示す情報処理装置10の表示情報生成部182の実行する処理である。
  (ステップS106)
 次に、情報処理装置10は、ステップS106において、ユーザ発話に対応する処理、すなわちステップS105において強調表示したノードに対応する処理を実行する。
 具体的には、例えば図7に示す例では、ユーザ発話が、
 ユーザ発話=「お気に入りリストを再生」
 であるので、予め登録されたユーザのお気に入りリストに入った音楽の再生を実行する。
 なお、お気に入りリストや、再生対象となる音楽は、例えばネットワークに接続されたサーバ(音楽コンテンツを提供するサービス提供サーバ)から取得される。
  (ステップS107~S108)
 次に、情報処理装置10は、ステップS107~S108において、入力情報(音声、画像、センサー情報)の解析結果から推定されるユーザ状態(満足/不満等)に基づいてユーザ発話(コマンド)に対する処理成功の有無を推定し、推定結果に基づいて、複数発話のまとめ処理を実行するか否かを決定する。
 これは、図3に示す情報処理装置10の学習処理部165の実行する処理である。
 すなわち、学習処理部165は図14他において説明した発話まとめリスストを生成して記憶部170に格納する。
 学習処理部165は、例えば、以下の条件、すなわち、
 (1)規定時間内の間隔で複数のユーザ発話(コマンド)を入力した。
 この条件が満足された場合、例えば図13を参照して説明したように、「発話まとめリスト」の生成が可能であることを示すシステム発話を出力する。
 さらに、図14に示すように、ユーザからの了解が得られた場合、「発話まとめリスト」の生成を行うことを決定(ステップS108=Yes)し、ステップS109に進む。
 一方、ユーザからの了解が得られない場合、「発話まとめリスト」の生成を行わないことを決定(ステップS108=No)して処理を終了する。
  (ステップS109)
 ステップS108において、「発話まとめリスト」の生成を行うことを決定(ステップS108=Yes)し、ステップS109に進むと、情報処理装置10の学習処理部165は、「発話まとめリスト」の生成を行う。
 これは、具体的には、例えば図14に示す発話まとめリスト231である。
 図14に示す例は、以下の4つのユーザ発話を1つのリストにまとめた発話まとめリストである。
 (1)「お気に入りリストを再生」、
 (2)「サウザン追加して」、
 (3)「フレンドにお誘いを送って」、
 (4)「昨日見た動画を再生して」、
 情報処理装置10の学習処理部165は、このリストを1つの学習データとして記憶部170に格納する。
 学習処理部165において「発話まとめリスト」が生成されると、図14に示すように、表示情報生成部182は、表示部に生成された「発話まとめリスト」を表示する。
 ユーザは、次回から、この「発話まとめリスト」231を指定する発話を行えば、指定されたリストに記録された複数の処理を情報処理装置に一括して実行させることが可能となる。
 例えば、ユーザが、記憶部170に格納された「発話まとめリスト」に含まれるユーザ発話を行った場合、あるいは、ユーザが記憶部170に格納された「発話まとめリスト」を指定して処理を依頼する発話を行った場合、情報処理装置10は、「発話まとめリスト」に記録されたユーザ発話に応じた処理を順次、実行する。
 次に、図36に示すフローチャートのステップS101の処理、すなわち、
 音声、画像、センサー情報の入力し、解析処理の詳細について、図37に示すフローチャートを参照して説明する。
 この処理は、図3に示す情報処理装置10の入力部110と、入力データ解析部160の実行する処理である。
 ステップS101では、ユーザ発話音声の音声認識、意味解析を実行してユーザ発話の意図を獲得し、さらに、ユーザ発話音声、画像、センサー情報等に基づくユーザ状態(満足状態か、不満状態か等)を取得する。
 入力部110は、音声入力部(マイク)111、画像入力部(カメラ)112、センサー113を有し、ユーザ発話音声、ユーザ画像、さらにセンサー取得情報(ユーザの視線、体温、心拍数、脈拍、脳波等)を取得する。
 入力データ解析部160の音声解析部161、画像解析部162、センサー情報解析部163、ユーザ状態推定部164が、入力データの解析を実行する。
 図37に示すフローの各ステップの処理について説明する。
  (ステップS201)
 まず、ステップS201において、入力部110の音声入力部(マイク)111、画像入力部(カメラ)112、センサー113が、ユーザ発話音声、ユーザ画像、さらにセンサー取得情報(ユーザの視線、体温、心拍数、脈拍、脳波等)を取得する。
 音声入力部(マイク)111の取得した音声情報については、ステップS202とステップS204において処理が行われる。
 画像入力部(カメラ)112の取得した画像情報については、ステップS206,S207において処理される。
 センサー113の取得したセンサー情報については、ステップS208において処理が行われる。
 これらの処理は並列に実行することが可能である。
  (ステップS202~S203)
 ステップS202~S203は、音声解析部161の実行する処理である。
 音声解析部161は、ステップS202において、例えばASR(Automatic Speech Recognition)機能により、音声データを複数の単語から構成されるテキストデータに変換する。
 さらに、ステップS203においてテキストデータに対する発話意味解析処理を実行する。例えば、NLU(Natural Language Understanding)等の自然言語理解機能を適用して、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 図36に示すフローのステップS102の処理は、この意味解析結果を用いて実行される。
  (ステップS204~S205)
 ステップS204~S205の処理も、音声解析部161の実行する処理である。
 音声解析部161は、ユーザ音声に基づくユーザ感情の解析処理に必要な情報(ノンバーバル情報)を取得し、取得した情報をユーザ状態推定部164に出力する。
 ノンバーバル情報とは、例えば、ユーザ音声から得られるテキストデータ以外の声のピッチ、トーン、抑揚、震え等の情報であり、ユーザの状態、例えば興奮状態、緊張状態等を解析するために利用可能な情報である。この情報がユーザ状態推定部164に出力される。
  (ステップS206)
 ステップS206の処理は、画像解析部162の実行する処理である。
 画像解析部162は、画像入力部112において撮影されたユーザの顔の表情、ジェスチャ等の解析を行い、この解析結果をユーザ状態推定部164に出力する。
  (ステップS207)
 ステップS207の処理は、画像解析部162、あるいはセンサー情報解析部163の実行する処理である。
 画像解析部162、またはセンサー情報解析部163は、画像入力部112において撮影されたユーザの画像、あるいはセンサー情報に基づいてユーザの視線方向の解析を行う。
 具体的には、例えば、情報処理装置10が再生を開始した動画を見ているか否か等、情報処理装置10の実行した処理に対する注目度を解析するための視線情報等を取得する。この情報はユーザ状態推定部164に出力される。
  (ステップS208)
 ステップS208の処理は、センサー情報解析部163の実行する処理である。
 センサー情報解析部163は、センサー113の取得情報(ユーザの視線、体温、心拍数、脈拍、脳波等)を取得し、これらの取得情報をユーザ状態推定部164に出力する。
  (ステップS210)
 ステップS210の処理は、ユーザ状態推定部164の実行する処理である。
 音声解析部161による解析結果、すなわち、ユーザ音声に基づくユーザ感情の解析処理に必要な情報(ノンバーバル情報)、
 画像解析部162による解析結果、すなわち、ユーザの顔の表情、ジェスチャ、視線情報等の解析情報、
 センサー情報解析部163による解析結果、すなわち、ユーザの視線、体温、心拍数、脈拍、脳波等のデータ、
 これらのデータを入力して、ユーザ状態を推定して、図3に示すユーザ状態推定情報192を生成する。
 この情報は、その後、図36に示すフローのステップS102の処理、およびステップS107の処理において利用される。
 なお、ユーザ状態推定部164の生成するユーザ状態推定情報192とは、具体的には、例えばユーザが満足しているか不満か、すなわち、ユーザ発話に対する情報処理装置が実行した処理に満足しているか否かを推定した情報である。
 ユーザが満足していると推定されれば、ユーザ発話に対して情報処理装置が実行した処理が正しい処理、すなわち実行処理が成功であると推定する。
 学習処理部165は、ユーザ発話に対する学習処理を実行して学習データを記憶部170に格納する。例えば新たなユーザ発話が入力された場合に、そのユーザ発話の意図が不明である場合等、その後の装置との対話に基づいて、意図が解析された場合等にユーザ発話と意図を対応付けた学習データを生成して記憶部170に格納する処理等を行う。
 このような学習処理を実行することで、次第にユーザ発話の意図を正確に把握することが可能となる。
 また、学習処理部165は、先に説明した図36のステップS107において、複数のユーザ発話をまとめた「発話まとめリスト」を生成して記憶部170に格納する処理も実行する。
 次に、図38に示すフローチャートを参照して、発話まとめリストの表示、利用処理の一例を示すシーケンスについて説明する。
 図38に示すフローチャートの各ステップの処理について、順次、説明する。
  (ステップS301~S304)
 ステップS301~S304の処理は、先に図36のフローを参照して説明したステップS101~S104の処理と同様の処理である。
 すなわち、まず、情報処理装置10は、ステップS301において、音声、画像、センサー情報を入力し、解析する。
 この処理は、図37を参照して説明した処理であり、ユーザ発話音声の音声認識、意味解析を実行してユーザ発話の意図を獲得し、さらに、ユーザ発話音声、画像、センサー情報等に基づくユーザ状態(満足状態か、不満状態か等)を取得する処理である。
 次に、情報処理装置10は、ステップS302~S303において、ユーザ発話(コマンド(処理要求))の内容を解析して、そのユーザ発話に対応する処理が実行可能(イン ドメイン(In Domein)であるか、実行不可能(アウト オブ ドメイン(OOD:Out Of Domein)であるかを判定する。
 実行不可能(アウト オブ ドメイン(OOD:Out Of Domein)である場合は、処理を終了する。
 一方、ユーザ発話に対応する処理が実行可能(イン ドメイン(In Domein)であると判定した場合は、ステップS304に進む。
 次に、情報処理装置10は、ステップS304において、実行可能(イン ドメイン(In Domein)であると判定されたユーザ発話を記憶部170に記録する。
  (ステップS305)
 次に、情報処理装置は、ステップS305において、ユーザ発話に対応する発話を含む発話まとめリストがあるか否かを判定する。
 この処理は、図3に示す出力情報生成部180の実行する処理である。
 出力情報生成部180は、記憶部170にユーザ発話に対応する発話を含む発話まとめリストがあるか否かを検索する。
 ユーザ発話に対応する発話を含む発話まとめリストがない場合はステップS306に進む。
 一方、ユーザ発話に対応する発話を含む発話まとめリストがある場合は、ステップS308に進む。
  (ステップS306~S307)
 ステップS305において、ユーザ発話に対応する発話を含む発話まとめリストがないと判定した場合は、ステップS306において、画像出力部(表示部)122に表示されているドメイン対応ノードツリー中のユーザ発話対応のノードを強調表示する。
 例えば先に図7を参照して説明した強調表示ノード221を表示する処理である。
 この処理は、図3に示す情報処理装置10の表示情報生成部182の実行する処理である。
 さらに、ステップS307において、ユーザ発話に対応する処理、すなわちステップS306において強調表示したノードに対応する処理を実行する。
  (ステップS308)
 一方、ステップS305において、ユーザ発話に対応する発話を含む発話まとめリストがあると判定した場合は、ステップS308において、画像出力部(表示部)122に発話まとめリストを表示する。
 例えば先に図14他を参照して説明した発話まとめリスト231を表示する処理である。
 この処理は、図3に示す情報処理装置10の表示情報生成部182の実行する処理である。
  (ステップS309)
 次に、ステップS309において、ユーザ発話に対応する処理、すなわちステップS308において表示した発話まとめリスト231にリストアップされたユーザ発話対応ノードに対応する処理を、順次、実行する。
 さらに、表示した発話まとめリスト231内の実行中のユーザ発話対応ノードの強調表示処理を実行する。
 この処理は、先に図18~図21を参照して説明した処理に相当する。
 この処理は、図3に示す情報処理装置10の表示情報生成部182の実行する処理である。
 次に、図39、図40に示すフローチャートを参照して、ユーザの作成した発話まとめリストが無い場合において、外部の発話まとめリスト、すなわち、先に図22~図24を参照して説明した他人のリスト、あるいはネット公開リスト、あるいはブログ公開リスト等を利用する場合の処理シーケンスについて説明する。
 図39、図40に示すフローチャートの各ステップの処理について、順次、説明する。
  (ステップS401~S404)
 ステップS401~S404の処理は、先に図36のフローを参照して説明したステップS101~S104の処理と同様の処理である。
 すなわち、まず、情報処理装置10は、ステップS401において、音声、画像、センサー情報を入力し、解析する。
 この処理は、図37を参照して説明した処理であり、ユーザ発話音声の音声認識、意味解析を実行してユーザ発話の意図を獲得し、さらに、ユーザ発話音声、画像、センサー情報等に基づくユーザ状態(満足状態か、不満状態か等)を取得する処理である。
 次に、情報処理装置10は、ステップS402~S403において、ユーザ発話(コマンド(処理要求))の内容を解析して、そのユーザ発話に対応する処理が実行可能(イン ドメイン(In Domein)であるか、実行不可能(アウト オブ ドメイン(OOD:Out Of Domein)であるかを判定する。
 実行不可能(アウト オブ ドメイン(OOD:Out Of Domein)である場合は、処理を終了する。
 一方、ユーザ発話に対応する処理が実行可能(イン ドメイン(In Domein)であると判定した場合は、ステップS404に進む。
 次に、情報処理装置10は、ステップS404において、実行可能(イン ドメイン(In Domein)であると判定されたユーザ発話を記憶部170に記録する。
  (ステップS405)
 次に、情報処理装置は、ステップS405において、ユーザ発話が外部の発話まとめリストの取得、表示要求であるか否かを判定する。
 ユーザ発話が外部の発話まとめリストの取得、表示要求でない場合は、ステップS406に進む。
 一方、ユーザ発話が外部の発話まとめリストの取得、表示要求である場合は、ステップS408に進む。
  (ステップS4306~S407)
 ステップS405において、ユーザ発話が外部の発話まとめリストの取得、表示要求でない場合は、ステップS406において、画像出力部(表示部)122に表示されているドメイン対応ノードツリー中のユーザ発話対応のノードを強調表示する。
 例えば先に図7を参照して説明した強調表示ノード221を表示する処理である。
 この処理は、図3に示す情報処理装置10の表示情報生成部182の実行する処理である。
 さらに、ステップS407において、ユーザ発話に対応する処理、すなわちステップS406において強調表示したノードに対応する処理を実行する。
  (ステップS408)
 一方、ステップS405において、ユーザ発話が外部の発話まとめリストの取得、表示要求である場合は、ステップS408において、外部から取得した発話まとめリストを画像出力部(表示部)122に表示する。
 例えば先に図22~図24を参照して説明した発話まとめリストを表示する処理である。
 この処理は、図3に示す情報処理装置10の表示情報生成部182の実行する処理である。
  (ステップS501)
 次に、ステップS501において、表示した外部の発話まとめリストに表示されたノード対応の処理要求を示す新たなユーザ発話を入力したか否かを判定する。
 この処理は、情報処理装置10の入力データ解析部160の実行する処理である。
 表示した外部の発話まとめリストに表示されたノード対応の処理要求を示す新たなユーザ発話を入力したと判定した場合は、ステップS502に進む。
 一方、表示した外部の発話まとめリストに表示されたノード対応の処理要求を示す新たなユーザ発話を入力しなかったと判定した場合は、ステップS503に進む。
  (ステップS502)
 ステップS501において表示した外部の発話まとめリストに表示されたノード対応の処理要求を示す新たなユーザ発話を入力したと判定した場合は、ステップS502に進み、ステップS502において、発話まとめリストにリストアップされたユーザ発話対応ノードに対応する処理を、順次、実行する。
 さらに、表示した発話まとめリスト内の実行中のユーザ発話対応ノードの強調表示処理を実行する。
 この処理は、図3に示す情報処理装置10の表示情報生成部182の実行する処理である。
  (ステップS503)
 一方、ステップS501において表示した外部の発話まとめリストに表示されたノード対応の処理要求を示す新たなユーザ発話を入力しなかったと判定した場合は、ステップS503に進み、ステップS503において、発話まとめリストを利用しない
ユーザ発話に応じた通常処理を実行する。
  [6.情報処理装置、および情報処理システムの構成例について]
 複数の実施例について説明したが、これらの実施例において説明した様々な処理機能、例えば、図3に示す情報処理装置10の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
 図41にシステム構成例を示す。
 図41(1)情報処理システム構成例1は、図3に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
 ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部サービスを利用する場合にのみ、サービス提供サーバ420と通信を実行する。
 サービス提供サーバ420は、例えば音楽提供サーバ、映画等のコンテンツ提供サーバ、ゲームサーバ、天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する処理の実行や応答生成に必要となる情報を提供可能なサーバ群によって構成される。
 一方、図41(2)情報処理システム構成例2は、図3に示す情報処理装置の機能の一部をユーザの所有するスマホやPC、エージェント機器等のユーザ端末である情報処理装置410内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ460において実行する構成としたシステム例である。
 例えば、図3に示す装置中の入力部110、出力部120のみをユーザ端末側の情報処理装置410側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。
 なお、ユーザ端末側の機能と、サーバ側の機能の機能分割態様は、様々な異なる設定が可能であり、また、1つの機能を双方で実行する構成も可能である。
  [7.情報処理装置のハードウェア構成例について]
 次に、図42を参照して、情報処理装置のハードウェア構成例について説明する。
 図42を参照して説明するハードウェアは、先に図3を参照して説明した情報処理装置のハードウェア構成例であり、また、図41を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) ユーザ発話の学習処理を行う学習処理部を有し、
 前記学習処理部は、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理装置。
 (2) 前記情報処理装置は、さらに、
 前記発話まとめリストを表示部に表示する(1)に記載の情報処理装置。
 (3) 前記発話まとめリストに記録するユーザ発話は、前記情報処理装置に対するユーザからの処理要求であるコマンドに相当するユーザ発話である(1)または(2)に記載の情報処理装置。
 (4) 前記学習処理部は、
 ユーザに対して、発話まとめリストを生成するか否かを問い合わせ、ユーザの了解が得られた場合に、前記発話まとめリストを生成して記憶部に格納する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記学習処理部は、
 複数のユーザ発話に対応する複数の処理の実行に成功したと判定した場合に、前記発話まとめリストを生成して記憶部に格納する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記学習処理部は、
 複数のユーザ発話の組み合わせが、予め規定されたしきい値回数以上になった場合に、前記発話まとめリストを生成して記憶部に格納する(1)~(4)いずれかに記載の情報処理装置。
 (7) 前記学習処理部は、
 複数のユーザ発話中に含まれる各発話の関係性を示す指示語の有無を解析して、解析結果に応じて、前記発話まとめリストを生成して記憶部に格納する(1)~(4)いずれかに記載の情報処理装置。
 (8) 前記学習処理部は、
 ユーザ発話に応じて、情報処理装置が実行した処理に対するユーザの状態を解析し、解析結果に応じて、前記発話まとめリストを生成して記憶部に格納する(1)~(4)いずれかに記載の情報処理装置。
 (9) 前記学習処理部は、
 ユーザ状態情報を入力し、
 ユーザ状態情報が、ユーザが満足していることを示す情報である場合に、前記発話まとめリストを生成して記憶部に格納する(1)~(4)いずれかに記載の情報処理装置。
 (10) 前記ユーザ状態情報は、
 音声解析部の生成するユーザ発話に基づくノンバーバル情報、
 画像解析部の生成するユーザ画像に基づく画像解析情報、
 センサー情報解析部の生成するセンサー情報解析情報、
 少なくともこれらのいずれかの情報に基づいて取得するユーザの満足状態を示す情報である(9)に記載の情報処理装置。
 (11) 前記情報処理装置は、さらに、
 表示部に表示した発話まとめリストに含まれる複数の発話対応ノード中、情報処理装置が実行中の発話対応ノードの強調表示処理を実行する表示情報生成部を有する(1)~(10)いずれかに記載の情報処理装置。
 (12) 前記情報処理装置は、さらに、
 取得可能な外部の発話まとめリストを取得して、表示部に表示する(1)~(11)いずれかに記載の情報処理装置。
 (13) 前記学習処理部は、
 コンテキスト情報に応じて、まとめ対象のユーザ発話を選択して発話まとめリストを生成する(1)~(12)いずれかに記載の情報処理装置。
 (14) ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話の学習処理を行う学習処理部を有し、
 前記学習処理部は、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理システム。
 (15) 前記ユーザ端末は、
 前記発話まとめリストを表示部に表示する(14)に記載の情報処理システム。
 (16) 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、ユーザ発話の学習処理を行う学習処理部を有し、
 前記学習処理部が、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理方法。
 (17) ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末が、
 ユーザ発話を入力する音声入力処理を実行し、
 前記データ処理サーバが、
 前記ユーザ端末から受信する前記ユーザ発話の学習処理を実行し、
 前記学習処理において、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理方法。
 (18) 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、ユーザ発話の学習処理を行う学習処理部を有し、
 前記プログラムは、前記学習処理部に、
 複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、複数のユーザ発話をまとめた発話まとめリストを生成、利用することで、複数のユーザ発話に基づく処理を正確に繰り返し実行可能とした装置、方法が実現される。
 具体的には、例えば、学習処理部が複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する。さらに、生成した発話まとめリストを表示部に表示する。学習処理部は、ユーザの了解が得られた場合や、ユーザ発話に対応する複数の処理の実行に成功したと判定した場合、あるいは複数のユーザ発話の組み合わせが、予め規定されたしきい値回数以上になった場合、またユーザが満足していることが推定される場合等に、発話まとめリストを生成して記憶部に格納する。
 本構成により、複数のユーザ発話をまとめた発話まとめリストを生成、利用することで、複数のユーザ発話に基づく処理を正確に繰り返し実行可能とした装置、方法が実現される。
  10 情報処理装置
  11 カメラ
  12 マイク
  13 表示部
  14 スピーカー
  20 サーバ
  30 外部機器
 110 入力部
 111 音声入力部
 112 画像入力部
 113 センサー
 120 出力部
 121 音声出力部
 122 画像出力部
 150 データ処理部
 160 入力データ解析部
 161 音声解析部
 162 画像解析部
 163 センサー情報解析部
 164 ユーザ状態推定部
 165 学習処理部
 170 記憶部
 180 出力情報生成部
 181 出力音声生成部
 182 表示情報生成部
 200 ドメイン対応ノードツリー
 201 ドメイン
 202 受付可能発話表示ノード
 211 表示領域識別情報
 212 登録済み発話まとめリスト情報
 221 強調表示ノード
 222 ガイド情報
 231 発話まとめリスト
 232 他ユーザ公開発話まとめリスト
 233 ネット公開発話まとめリスト
 234 ブログ公開発話まとめリスト
 241 発話まとめリスト対応ノード
 242 発話まとめリスト
 261 発話まとめリスト
 420 サービス提供サーバ
 460 データ処理サーバ
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (18)

  1.  ユーザ発話の学習処理を行う学習処理部を有し、
     前記学習処理部は、
     複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理装置。
  2.  前記情報処理装置は、さらに、
     前記発話まとめリストを表示部に表示する請求項1に記載の情報処理装置。
  3.  前記発話まとめリストに記録するユーザ発話は、前記情報処理装置に対するユーザからの処理要求であるコマンドに相当するユーザ発話である請求項1に記載の情報処理装置。
  4.  前記学習処理部は、
     ユーザに対して、発話まとめリストを生成するか否かを問い合わせ、ユーザの了解が得られた場合に、前記発話まとめリストを生成して記憶部に格納する請求項1に記載の情報処理装置。
  5.  前記学習処理部は、
     複数のユーザ発話に対応する複数の処理の実行に成功したと判定した場合に、前記発話まとめリストを生成して記憶部に格納する請求項1に記載の情報処理装置。
  6.  前記学習処理部は、
     複数のユーザ発話の組み合わせが、予め規定されたしきい値回数以上になった場合に、前記発話まとめリストを生成して記憶部に格納する請求項1に記載の情報処理装置。
  7.  前記学習処理部は、
     複数のユーザ発話中に含まれる各発話の関係性を示す指示語の有無を解析して、解析結果に応じて、前記発話まとめリストを生成して記憶部に格納する請求項1に記載の情報処理装置。
  8.  前記学習処理部は、
     ユーザ発話に応じて、情報処理装置が実行した処理に対するユーザの状態を解析し、解析結果に応じて、前記発話まとめリストを生成して記憶部に格納する請求項1に記載の情報処理装置。
  9.  前記学習処理部は、
     ユーザ状態情報を入力し、
     ユーザ状態情報が、ユーザが満足していることを示す情報である場合に、前記発話まとめリストを生成して記憶部に格納する請求項1に記載の情報処理装置。
  10.  前記ユーザ状態情報は、
     音声解析部の生成するユーザ発話に基づくノンバーバル情報、
     画像解析部の生成するユーザ画像に基づく画像解析情報、
     センサー情報解析部の生成するセンサー情報解析情報、
     少なくともこれらのいずれかの情報に基づいて取得するユーザの満足状態を示す情報である請求項9に記載の情報処理装置。
  11.  前記情報処理装置は、さらに、
     表示部に表示した発話まとめリストに含まれる複数の発話対応ノード中、情報処理装置が実行中の発話対応ノードの強調表示処理を実行する表示情報生成部を有する請求項1に記載の情報処理装置。
  12.  前記情報処理装置は、さらに、
     取得可能な外部の発話まとめリストを取得して、表示部に表示する請求項1に記載の情報処理装置。
  13.  前記学習処理部は、
     コンテキスト情報に応じて、まとめ対象のユーザ発話を選択して発話まとめリストを生成する請求項1に記載の情報処理装置。
  14.  ユーザ端末と、データ処理サーバを有する情報処理システムであり、
     前記ユーザ端末は、
     ユーザ発話を入力する音声入力部を有し、
     前記データ処理サーバは、
     前記ユーザ端末から受信する前記ユーザ発話の学習処理を行う学習処理部を有し、
     前記学習処理部は、
     複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理システム。
  15.  前記ユーザ端末は、
     前記発話まとめリストを表示部に表示する請求項14に記載の情報処理システム。
  16.  情報処理装置において実行する情報処理方法であり、
     前記情報処理装置は、ユーザ発話の学習処理を行う学習処理部を有し、
     前記学習処理部が、
     複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理方法。
  17.  ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記ユーザ端末が、
     ユーザ発話を入力する音声入力処理を実行し、
     前記データ処理サーバが、
     前記ユーザ端末から受信する前記ユーザ発話の学習処理を実行し、
     前記学習処理において、
     複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成する情報処理方法。
  18.  情報処理装置において情報処理を実行させるプログラムであり、
     前記情報処理装置は、ユーザ発話の学習処理を行う学習処理部を有し、
     前記プログラムは、前記学習処理部に、
     複数の異なる処理要求に対応する複数のユーザ発話をまとめた発話まとめリストを生成させるプログラム。
PCT/JP2018/042411 2018-02-09 2018-11-16 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2019155717A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/966,047 US20200365139A1 (en) 2018-02-09 2018-11-16 Information processing apparatus, information processing system, and information processing method, and program
EP18904853.1A EP3751393A4 (en) 2018-02-09 2018-11-16 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING METHOD AND PROGRAM
JP2019570303A JP7347217B2 (ja) 2018-02-09 2018-11-16 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN201880084925.5A CN111587413A (zh) 2018-02-09 2018-11-16 信息处理装置、信息处理系统、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018022114 2018-02-09
JP2018-022114 2018-02-09

Publications (1)

Publication Number Publication Date
WO2019155717A1 true WO2019155717A1 (ja) 2019-08-15

Family

ID=67549410

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/042411 WO2019155717A1 (ja) 2018-02-09 2018-11-16 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (5)

Country Link
US (1) US20200365139A1 (ja)
EP (1) EP3751393A4 (ja)
JP (1) JP7347217B2 (ja)
CN (1) CN111587413A (ja)
WO (1) WO2019155717A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086354A (ja) * 2019-11-27 2021-06-03 Tis株式会社 情報処理システム、情報処理方法、及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398221B2 (en) 2018-02-22 2022-07-26 Sony Corporation Information processing apparatus, information processing method, and program
JP2022051970A (ja) * 2019-02-01 2022-04-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US20210312138A1 (en) * 2020-03-10 2021-10-07 MeetKai, Inc. System and method for handling out of scope or out of domain user inquiries

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2007018586A (ja) * 2005-07-06 2007-01-25 Sony Corp コンテンツデータ再生装置及びコンテンツデータ再生方法
JP2007052397A (ja) 2005-07-21 2007-03-01 Denso Corp 操作装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5222411B2 (ja) 2006-06-19 2013-06-26 キヤノン株式会社 印刷装置、印刷装置の制御方法、コンピュータプログラム
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US20140115456A1 (en) * 2012-09-28 2014-04-24 Oracle International Corporation System for accessing software functionality
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
KR20160045353A (ko) * 2014-10-17 2016-04-27 현대자동차주식회사 에이브이엔 장치, 차량, 및 에이브이엔 장치의 제어방법
US20170060348A1 (en) * 2015-08-26 2017-03-02 Sap Se Compact display of hierarchical structure on user interface

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2007018586A (ja) * 2005-07-06 2007-01-25 Sony Corp コンテンツデータ再生装置及びコンテンツデータ再生方法
JP2007052397A (ja) 2005-07-21 2007-03-01 Denso Corp 操作装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OHTSU, MAKOTO: "A solid understanding of core OS functions UNIX usage", MAC POWER, vol. 2, 3 September 2010 (2010-09-03), pages 140 - 142, XP009521474, ISBN: 978-4-04-868714-0 *
TOGAI, RYOTA: "Making AI speaker and image recognition machine, Artificial intelligence at Raspberry Pi", RASPBERRY PI MAGAZINE, vol. 2017, no. 12, 22 December 2017 (2017-12-22), JP, pages 63 - 72, XP009521473 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086354A (ja) * 2019-11-27 2021-06-03 Tis株式会社 情報処理システム、情報処理方法、及びプログラム
JP7123028B2 (ja) 2019-11-27 2022-08-22 Tis株式会社 情報処理システム、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2019155717A1 (ja) 2021-02-25
EP3751393A1 (en) 2020-12-16
CN111587413A (zh) 2020-08-25
EP3751393A4 (en) 2021-03-31
JP7347217B2 (ja) 2023-09-20
US20200365139A1 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
US11798528B2 (en) Systems and methods for providing notifications within a media asset without breaking immersion
CN108391149B (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
WO2019155717A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11687526B1 (en) Identifying user content
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US11705106B2 (en) On-device speech synthesis of textual segments for training of on-device speech recognition model
WO2019087811A1 (ja) 情報処理装置、及び情報処理方法
EP4144095B1 (en) Text-to-speech audio segment retrieval
US11545133B2 (en) On-device personalization of speech synthesis for training of speech model(s)
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
US11948564B2 (en) Information processing device and information processing method
WO2019155716A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11269590B2 (en) Audio presentation of conversation threads
US11367429B2 (en) Road map for audio presentation of communications
US11914923B1 (en) Computer system-based pausing and resuming of natural language conversations
US20240078374A1 (en) System(s) and method(s) for causing contextually relevant emoji(s) to be visually rendered for presentation to user(s) in smart dictation
WO2021166504A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2024054271A1 (en) System(s) and method(s) for causing contextually relevant emoji(s) to be visually rendered for presentation to user(s) in smart dictation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18904853

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019570303

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018904853

Country of ref document: EP

Effective date: 20200909