WO2020039726A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2020039726A1
WO2020039726A1 PCT/JP2019/024660 JP2019024660W WO2020039726A1 WO 2020039726 A1 WO2020039726 A1 WO 2020039726A1 JP 2019024660 W JP2019024660 W JP 2019024660W WO 2020039726 A1 WO2020039726 A1 WO 2020039726A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
utterance
information processing
learning data
reliability
Prior art date
Application number
PCT/JP2019/024660
Other languages
English (en)
French (fr)
Inventor
早紀 横山
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020039726A1 publication Critical patent/WO2020039726A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present disclosure relates to an information processing device, an information processing system, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that perform a voice recognition process of a user utterance and an utterance meaning analysis to respond.
  • Such a device that recognizes a user's utterance and realizes a conversation with the user is called an agent device or a smart speaker, and the use thereof is increasing recently.
  • a user uttered voice input from a voice input unit is input to a voice recognition unit having an automatic voice recognition (ASR) function, and voice data is converted into text data.
  • ASR automatic voice recognition
  • voice data is converted into text data.
  • the text data generated by the speech recognition unit is input to the intention understanding unit, and the intention understanding unit executes natural language understanding (NLU) processing to analyze the utterance intention from the text data.
  • NLU natural language understanding
  • a process different from the user's intention may be executed. For example, when the user utters “photograph”, it is difficult to determine whether it is “show a photo” or “take a photo”.
  • Patent Literature 1 International Publication WO2016 / 151699
  • Patent Literature 2 JP-T-2017-516153
  • Patent Literature 1 generates the vector expression data based on the components of the text data obtained from the utterance, and performs similarity determination with the vector expression data based on various text data to improve the intent understanding accuracy of the user utterance. It discloses a configuration for improving.
  • Patent Literature 2 discloses a configuration in which a speech recognition system causes a user to execute a plurality of utterances, and based on a semantic connection between the first utterance and the second utterance, increases the accuracy of grasping the intention of the user utterance. Has been disclosed.
  • a plurality of techniques are disclosed as a configuration for improving the accuracy of understanding the intention of a user's utterance.
  • the present disclosure has been made in view of, for example, the above-described problem, and provides an information processing apparatus, an information processing system, an information processing method, and a program that realize a configuration that more reliably understands the intention of a user utterance.
  • the purpose is to do.
  • a first aspect of the present disclosure is: An utterance meaning analysis unit that analyzes the intention of the user utterance, A learning data storage unit that stores learning data, The learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label, The utterance meaning analysis unit, An information processing apparatus performs an analysis process of a user utterance in response to an inquiry utterance to a user, and executes a process of updating the reliability according to an analysis result.
  • a second aspect of the present disclosure includes: An information processing system having a user terminal and a data processing server, The user terminal, A voice input unit for inputting a user utterance, The data processing server, An utterance meaning analysis unit that analyzes the intention of the user utterance received from the user terminal, A learning data storage unit that stores learning data, The learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label, The utterance meaning analysis unit, An information processing system performs analysis processing of a user utterance in response to an inquiry utterance to the user, and executes the reliability update processing according to the analysis result.
  • a third aspect of the present disclosure includes: An information processing method executed in the information processing apparatus, The information processing device, An utterance meaning analysis unit that analyzes the intention of the user utterance, A learning data storage unit that stores learning data, The learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label, The utterance meaning analysis unit, An information processing method for performing an analysis process of a user utterance in response to an inquiry utterance to a user, and executing the reliability update process in accordance with the analysis result.
  • a fourth aspect of the present disclosure includes: An information processing method executed in an information processing system having a user terminal and a data processing server, The user terminal, Execute a voice input process for inputting a user utterance, The data processing server, An utterance meaning analysis unit that analyzes the intention of the user utterance received from the user terminal, A learning data storage unit that stores learning data, The learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label, The utterance meaning analysis unit, An information processing method for performing an analysis process of a user utterance in response to an inquiry utterance to a user, and executing the reliability update process in accordance with the analysis result.
  • a fifth aspect of the present disclosure includes: A program for executing information processing in the information processing apparatus, The information processing device, An utterance meaning analysis unit that analyzes the intention of the user utterance, A learning data storage unit that stores learning data, The learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label, The program includes: The program is for causing an analysis process of a user utterance in response to an inquiry utterance to the user to be performed, and for executing the update process of the reliability according to the analysis result.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • processing according to the program is realized on an information processing device or a computer system.
  • a system is a logical set configuration of a plurality of devices, and is not limited to a configuration in which devices of each configuration are in the same housing.
  • reliability is set to a label corresponding to an intention of a user utterance or a user attribute, and a highly accurate intention analysis of a user utterance is realized by a process based on the reliability.
  • it has an utterance meaning analysis unit that analyzes the intention of the user utterance, and a learning data storage unit that stores learning data.
  • the learning data storage unit is configured to record the label generated by the learning process and the reliability of the label, and the utterance meaning analysis unit updates the reliability according to the analysis result of the user utterance in response to the inquiry to the user.
  • the utterance meaning analysis unit executes an inquiry for confirming the intention when there is a problem in executing the processing according to the intention of the user utterance.
  • the processing is executed or stopped according to the analysis result of the user response to the inquiry.
  • the reliability is set for the label corresponding to the intention of the user utterance or the user attribute, and highly accurate intention analysis of the user utterance is realized by the processing based on the reliability.
  • FIG. 9 is a diagram illustrating a specific processing example of an information processing device that recognizes a user utterance and responds.
  • FIG. 2 is a diagram illustrating a configuration example and a usage example of an information processing device.
  • FIG. 3 is a diagram illustrating a specific configuration example of an information processing device.
  • FIG. 9 is a diagram illustrating a specific example of a process performed by the information processing device.
  • FIG. 11 is a diagram illustrating a specific example of a reliability update process performed by the information processing device.
  • FIG. 9 is a diagram illustrating a specific example of a process performed by the information processing device.
  • FIG. 11 is a diagram illustrating a specific example of a reliability update process performed by the information processing device.
  • FIG. 9 is a diagram illustrating a specific example of a process performed by the information processing device.
  • FIG. 11 is a diagram illustrating a specific example of a reliability update process performed by the information processing device.
  • FIG. 9 is a diagram illustrating a flowchart illustrating a sequence of a process performed by the information processing device.
  • FIG. 9 is a diagram illustrating a flowchart illustrating a sequence of a process performed by the information processing device.
  • FIG. 9 is a diagram illustrating a specific example of a process performed by the information processing device.
  • FIG. 11 is a diagram illustrating a specific example of a reliability update process performed by the information processing device.
  • FIG. 9 is a diagram illustrating a specific example of a process performed by the information processing device.
  • FIG. 11 is a diagram illustrating a specific example of a reliability update process performed by the information processing device.
  • FIG. 9 is a diagram illustrating a flowchart illustrating a sequence of a process performed by the information processing device.
  • FIG. 2 is a diagram illustrating a configuration example of an information processing system.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of an information processing device.
  • FIG. 1 is a diagram illustrating a processing example of an information processing apparatus 10 that recognizes a user utterance uttered by a user 1 and responds.
  • the voice recognition processing of this user utterance is executed.
  • the information processing device 10 executes a process based on the speech recognition result of the user utterance.
  • the information processing device 10 makes the following device response.
  • Device response "Tomorrow, the weather in Osaka will be fine in the afternoon, but there may be showers in the evening.”
  • the information processing apparatus 10 generates and outputs a response using knowledge data acquired from a storage unit in the apparatus or knowledge data acquired via a network.
  • the information processing apparatus 10 illustrated in FIG. 1 includes a camera 11, a microphone 12, a display unit 13, and a speaker 14, and has a configuration in which voice input / output and image input / output can be performed.
  • the information processing apparatus 10 shown in FIG. 1 is called, for example, a smart speaker or an agent device.
  • the information processing apparatus 10 of the present disclosure is not limited to the agent device 10a, but may be various device forms such as a smartphone 10b and a PC 10c.
  • the information processing apparatus 10 recognizes the utterance of the user 1 and performs a response based on the user's utterance.
  • the information processing apparatus 10 also controls an external device 30 such as a television and an air conditioner illustrated in FIG.
  • an external device 30 such as a television and an air conditioner illustrated in FIG.
  • the information processing apparatus 10 performs, based on the voice recognition result of this user utterance, A control signal (Wi-Fi, infrared light, etc.) is output to the external device 30 to execute control according to the user's utterance.
  • the information processing apparatus 10 is connected to the server 20 via a network, and can acquire information required for generating a response to the user's utterance from the server 20. Further, a configuration may be adopted in which the server performs voice recognition processing and semantic analysis processing.
  • FIG. 3 is a diagram illustrating a configuration example of the information processing apparatus 100 that recognizes a user utterance and responds.
  • the information processing apparatus 100 includes a voice input unit 101, a voice recognition unit 102, an utterance meaning analysis unit (learning processing unit) 103, an image input unit 104, an image recognition unit 105, a sensor 106, and a sensor information analysis. It has a unit 107, a corpus 111, a learning data storage unit 112, a communication unit 115, a response generation unit 121, a voice synthesis unit 122, a voice output unit 123, a display image generation unit 124, and an image output unit 125. Note that all of these components can be configured in one information processing device 100, but a configuration in which some of the components and functions are provided in another information processing device or an external server may be employed.
  • a user's uttered voice is input to a voice input unit 101 such as a microphone.
  • the voice input unit (microphone) 101 inputs the input user uttered voice to the voice recognition unit 102.
  • the speech recognition unit 102 has, for example, an ASR (Automatic Speech Recognition) function, and converts speech data into text data composed of a plurality of words.
  • ASR Automatic Speech Recognition
  • the text data generated by the voice recognition unit 102 is input to an utterance meaning analysis unit (learning processing unit) 103.
  • the utterance meaning analysis unit (learning processing unit) 103 selects and outputs a user's intention candidate included in the text.
  • the utterance meaning analysis unit (learning processing unit) 103 also has a function as a learning processing unit, and performs a learning process on the correspondence data between the text data generated by the voice recognition unit 102 and the intention of the user, and the hobby / preference information of each user. Generated, updated, and stored in the learning data storage unit 112.
  • the utterance meaning analysis unit (learning processing unit) 103 has a natural language understanding function such as NLU (Natural Language Understanding), and converts text data into an intention (Intent) of a user utterance and a meaning included in the utterance.
  • NLU Natural Language Understanding
  • Estimate entity information (entity) which is a certain element (significant element).
  • the analysis of the user's intention based on the text data is performed using the corpus 111 in which various utterance sentence examples are recorded together with the syntax analysis data.
  • the information processing apparatus 100 can perform an accurate process on the user utterance.
  • the user utterance often does not match the sentence example stored in the corpus 111, and in such a case, it may not be possible to accurately estimate the intention of the user utterance.
  • the information processing apparatus 100 of the present disclosure has a configuration in which it is possible to accurately grasp the intention of the user utterance by using the learning data stored in the learning data storage unit 112. Have.
  • the following data are input to the utterance meaning analysis unit (learning processing unit) 103.
  • the utterance meaning analysis unit (learning processing unit) 103 inputs the information of (1) to (3) and executes a user utterance learning process including generation, correction, update, and discarding of user utterance learning data. I do.
  • Learning data which is the result data of the learning process executed in the utterance meaning analysis unit (learning processing unit) 103, is stored in the learning data storage unit 112. Further, the information may be stored in the storage unit of the external server via the communication unit 115. Details of the processing executed in the utterance meaning analysis unit (learning processing unit) 103 will be described later.
  • the utterance meaning analysis unit (learning processing unit) 103 refers to the learning data stored in the learning data storage unit 112 and estimates an intention (intent) and entity information (entity) for the utterance unique to the user. This estimation process can be executed as a process with higher accuracy by using the learning data.
  • the utterance meaning analysis unit (learning processing unit) 103 uses the learning data stored in the learning data storage unit 112 and the data stored in the corpus 111 to make an intention (intent) for the utterance unique to the user. And the entity information (entity) is estimated. This estimation result is input to the response generation unit 121.
  • the response generation unit 121 generates a response to the user based on the intention (intent) of the user utterance estimated by the utterance meaning analysis unit (learning processing unit) 103 and the entity information (entity).
  • the response is composed of voice and / or image.
  • the voice information generated by the voice synthesis unit 122 is output via a voice output unit 123 such as a speaker.
  • the display image information generated by the display image synthesizing unit 124 is output via the image output unit 125 such as a display.
  • the communication unit 115 executes communication with an external server, for example.
  • the external server includes a service providing server that provides information for response output by the information processing apparatus 100, a data processing server that provides learning data and a corpus, and the like.
  • the utterance meaning analysis processing and learning processing in the utterance meaning analysis unit (learning processing unit) 103 can be performed by applying information obtained from an external server via the communication unit 115.
  • the service providing server is a server that provides various information such as a weather information providing server and a music information providing server, and is used when responding to a user or outputting information.
  • the case where it is determined that the intention of the user utterance needs to be reconfirmed is, for example, the following case.
  • A When a user's utterance including a user's own language is input and it is difficult to estimate a user's intention only by a sentence example registered in a corpus,
  • B Malfunctions such as taking a picture, registering a message, deleting a schedule, etc., may cause serious problems such as confidential disclosure or the inability to redo,
  • the information processing apparatus 100 determines that it is necessary to reconfirm the intention of the user's utterance, and makes an inquiry for reconfirmation.
  • the information processing apparatus 100 that has input the first user's utterance determines in step S02a that execution of the process (photographing) may cause a serious problem. That is, if a process of taking a photograph and saving the photographed photograph in a shared folder or a process of uploading the photograph to a server is performed, there is a possibility that personal information, secret leakage or the like may occur, and it is determined that this is a problem. Further, referring to the reliability recorded in the learning data storage unit 112, it is determined that an inquiry is necessary because the reliability is lower than the specified threshold. The reliability recorded in the learning data storage unit 112 will be described later.
  • the information processing apparatus 100 determines that it is necessary to reconfirm the intention of the user utterance, and makes an inquiry for reconfirming.
  • the information processing apparatus 100 having input the second user utterance determines in step S04a that the “photograph” of the first user utterance has the intention of “photographing request”, and the learning data storage unit 112 Update the learning data stored in.
  • a specific example of the learning data update process will be described later.
  • step S04b the information processing apparatus 100 performs the following system utterance to execute photographing.
  • System utterance Take a picture.
  • the information processing apparatus 100 is configured such that when the reliability stored in the learning data storage unit 112 is lower than the specified threshold value and when a process is performed according to the intention of the user's utterance, a problem occurs. If it is determined, an inquiry to the user is executed to execute a process for reconfirming the user's intention.
  • FIG. 5 shows the following data stored in the learning data storage unit 112.
  • A Learning data (before updating)
  • B Learning data (after updating)
  • Learning data (before updating) is learning data before the execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG.
  • the learning data is constituted by data corresponding to the following data. * User utterance text (speech recognition result) * Label (user's utterance intention (utterance semantic analysis result)) * Reliability (0 to 100)
  • the learning data illustrated in FIG. 5 is a part of the learning data stored in the learning data storage unit 112.
  • “User uttered text (speech recognition result)” is text data acquired as a speech recognition result of the speech recognition unit 102.
  • Label (user utterance intention (utterance meaning analysis result)”) is a result of the utterance meaning analysis of the utterance meaning analysis unit 103 and is a label stored in the learning data storage unit 112.
  • the label is, for example, a label set corresponding to text data as a result of speech recognition, and is stored in the learning data storage unit 112.
  • the learning data storage unit 112. there are various types of labels stored in the learning data storage unit 112. For example, as shown in the figure, in addition to the label indicating the intention corresponding to the speech recognition result (text data), as the label corresponding to the user, a label indicating the user's hobbies and preferences, and a label indicating the user attributes (sex, age, etc.) For example, various types of labels are set and stored in the learning data storage unit 112.
  • the reliability (0 to 100) is data indicating the reliability of the label.
  • User uttered text speech recognition result
  • the (B) learning data (after the update) shown in the lower part of FIG. 5 is the learning data after the execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG. That is, the learning data is updated by the information processing apparatus 100 based on the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG. In this updated data, The value of “reliability” has been updated from 60 to 80.
  • the learning data shown in FIG. 5B is stored in the learning data storage unit 112, and is used in the subsequent semantic analysis processing of the user's utterance.
  • User utterance photo
  • the learning data is preferably recorded as learning data corresponding to the user. That is, the learning data recorded in the learning data storage unit 112 shown in FIG. 5 is recorded as user-associated data associated with the user identifier. With such a configuration in which the learning data for each user is stored, it is possible to determine the intention corresponding to the user. That is, the utterance meaning analysis unit (learning processing unit) 103 of the information processing apparatus 100 identifies the user who made the utterance, and performs intention analysis with reference to the learning data corresponding to the identified user.
  • the information processing apparatus 100 that has input the first user utterance determines in step S12a that execution of the process (photographing) may cause a serious problem. That is, it is determined that there is a risk that personal information, secret leakage, or the like may occur when a process of taking a photograph and saving the photographed photograph in a shared folder or a process of uploading the photograph to a server is performed. Further, referring to the reliability recorded in the learning data storage unit 112, it is determined that the reliability is lower than the specified threshold.
  • the information processing apparatus 100 determines that it is necessary to reconfirm the intention of the user utterance, and makes an inquiry for reconfirming.
  • step S13 the user 1 performs the following second user utterance in step S13.
  • Second user utterance different Alternatively, user 1 does not utter in step S13.
  • step S14a the information processing apparatus 100 determines that the “photograph” of the first user utterance does not have the intention of “photographing request”, and updates the learning data.
  • FIG. 7 is a diagram illustrating the learning data before and after the execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG. FIG. 7 shows the following data stored in the learning data storage unit 112.
  • A Learning data (before updating)
  • B Learning data (after updating)
  • Learning data (before updating) is learning data before the execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG.
  • the learning data is data corresponding to the following data.
  • User utterance text speech recognition result
  • Reliability (0 to 100)
  • the (B) learning data (after update) shown in the lower part of FIG. 7 is the learning data after the execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG. That is, the learning data is updated by the information processing apparatus 100 based on the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG. In this updated data, The value of “reliability” has been updated from 60 to 40.
  • the learning data shown in FIG. 7B is stored in the learning data storage unit 112, and is used in the subsequent semantic analysis processing of the user's utterance.
  • User utterance photo
  • FIGS. 8 and 9 a sequence of processing executed by the information processing apparatus 100 of the present disclosure will be described. 8 and 9 can be executed in accordance with, for example, a program stored in the storage unit of the information processing apparatus 100. For example, it can be performed as a program execution process by a processor such as a CPU having a program execution function.
  • a processor such as a CPU having a program execution function.
  • Step S101 First, in step S101, the information processing apparatus 100 executes a first user utterance input process. This processing is executed in the voice input unit 101 shown in FIG.
  • Step S102 a voice recognition process for the first user utterance is performed. This process is executed by the voice recognition unit 102 shown in FIG.
  • the voice recognition unit 102 performs voice recognition processing of the user's utterance, and generates text data as a recognition result.
  • Step S103 utterance meaning analysis processing is performed based on the text data that is the speech recognition result of the first user utterance. This process is executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG.
  • the utterance meaning analysis unit (learning processing unit) 103 has a natural language understanding function such as NLU (Natural Language Understanding), and converts text data into an intention (Intent) of a user utterance and a meaning included in the utterance.
  • NLU Natural Language Understanding
  • Estimate entity information (entity) which is a certain element (significant element).
  • the analysis of the user's intention based on the text data is performed using the corpus 111 in which various utterance sentence examples are recorded together with the syntax analysis data.
  • Step S104 Next, in step S104, it is determined whether an inquiry for confirming the intention of the first user utterance is necessary.
  • This processing is executed in the utterance meaning analysis unit (learning processing unit) 103.
  • the utterance meaning analysis unit (learning processing unit) 103 stores the utterance history of the user and the conversation history with the information processing device 100 stored in the learning data storage unit 112, and further receives the utterance history from the image input unit (camera) 104 or the sensor 106. It is determined whether an inquiry is necessary based on input information, information from an external server input via the communication unit 115, and the like.
  • the utterance meaning analysis unit (learning processing unit) 103 determines that it is necessary to make an inquiry for reconfirming the intention of the user utterance in the following cases, for example.
  • A When a user's utterance including a user's own language is input and it is difficult to estimate a user's intention only by a sentence example registered in a corpus,
  • B Malfunctions such as taking a picture, registering a message, deleting a schedule, etc., may cause serious problems such as confidential disclosure or the inability to redo,
  • the information processing apparatus 100 determines that it is necessary to reconfirm the intention of the user's utterance, and makes an inquiry for reconfirmation.
  • a process is performed in consideration of the reliability value corresponding to the label stored in the learning data storage unit 112. That is, if the value of the reliability corresponding to the label stored in the learning data storage unit 112 is equal to or larger than the specified threshold, no inquiry is made. On the other hand, if the value of the reliability corresponding to the label stored in the learning data storage unit 112 is less than the specified threshold, it is determined that an inquiry is to be made.
  • Step S105 is a branch process as a result of the determination process of step S104. If it is determined in step S104 that it is not necessary to reconfirm the intention of the user's utterance, the process proceeds to step S107. On the other hand, if it is determined that the intention of the user utterance needs to be reconfirmed, the process proceeds to step S106.
  • Step S106 If it is determined in steps S104 to S105 that the intention of the user utterance needs to be reconfirmed, the process proceeds to step S106. In this case, in step S106, an inquiry response to the user is generated and output to confirm the utterance intention of the first user utterance. Thereafter, the process proceeds to step S201.
  • Step S107 On the other hand, if it is determined in steps S104 to S105 that it is not necessary to reconfirm the intention of the user's utterance, the process proceeds to step S107. In this case, in step S107, a process based on the utterance intention of the first user's utterance, for example, a process such as a system response or photographing is executed, and the process ends.
  • step S201 and subsequent steps The processing in step S201 and subsequent steps is performed after the information processing apparatus 100 generates and outputs an inquiry response to the user in step S106 for confirming the utterance intention of the first user utterance.
  • Step S201 the information processing apparatus 100 waits for an input of a second user utterance for the inquiry system utterance executed in step S106.
  • Step S202 If it is determined in step S202 that the second user utterance has been input, the process proceeds to step S203. On the other hand, if the second user utterance has not been input within the predetermined standby time, the process proceeds to step S209.
  • Step S203 If it is determined in step S202 that the second user utterance has been input, the process proceeds to step S203, and in step S203, a voice recognition process of the second user utterance is performed. This process is executed by the voice recognition unit 102 shown in FIG. The voice recognition unit 102 performs voice recognition processing of the user's utterance, and generates text data as a recognition result.
  • Step S204 utterance meaning analysis processing is performed based on the text data that is the speech recognition result of the second user utterance. This process is executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG.
  • Step S205 it is determined whether or not the second user utterance is an utterance that affirms the analysis intention of the system with respect to the first user utterance. This process is executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG.
  • Step S206 is a branch process as a result of the determination process of step S205.
  • the process proceeds to step S207.
  • the process proceeds to step S209.
  • Step S207 In the determination processing of steps S205 to S206, when it is determined that the second user utterance is an utterance that affirms the analysis intention of the system with respect to the first user utterance, the process proceeds to step S207. In step S207, an update process for increasing the label reliability of the learning data corresponding to the first user utterance is executed.
  • This process is a process executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG. 3, and is a process corresponding to the learning data update process described above with reference to FIG.
  • Step S208 the information processing apparatus 100 executes processing based on the utterance meaning analysis result of the second user utterance, for example, utterance of a system response, photographing, and the like.
  • Step S209 On the other hand, if it is determined in the determination processing of steps S205 to S206 that the second user utterance is not an utterance that affirms the analysis intention of the system with respect to the first user utterance, the process proceeds to step S209. Also, in step S202, if the second user utterance has not been input within the predetermined standby time, the process proceeds to step S209.
  • step S209 a reliability update process for lowering the label reliability of the learning data corresponding to the first user utterance is executed.
  • This process is a process executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG. 3, and is a process corresponding to the learning data update process described above with reference to FIG.
  • the information processing apparatus 100 of the present disclosure has a problem in, for example, a case where the intention of the user utterance cannot be accurately grasped, or a problem in performing a process in accordance with the intention of the user utterance, and is recorded as learning data.
  • the reliability of the label (intent) corresponding to the uttered text is lower than a prescribed threshold value
  • an inquiry for reconfirming the user intention is executed.
  • the user's intention is confirmed, and a process of updating the value of the label correspondence reliability stored in the learning data storage unit 112 based on the confirmation result is executed.
  • the execution and response of the problematic process corresponding to the analysis intention determined to have low reliability are temporarily stopped. After the correctness of the analysis intention is confirmed based on the user's utterance in response to the subsequent inquiry, processing and response are performed. Further, when the reliability is increased by the learning process, the process can be executed without the inquiry response of the reconfirmation, and the process according to the user's intention can be executed quickly.
  • the learning data storage unit 112. there are various types of labels stored in the learning data storage unit 112. For example, in addition to the label indicating the intention of the speech recognition result (text data) as described with reference to FIGS. 5 and 7, as the label corresponding to the user, the label indicating the user's hobbies and preferences, the user attribute (sex , Age, etc.), and are stored in the learning data storage unit 112.
  • the information processing apparatus 100 of the present disclosure records reliability information in association with these various labels, and sequentially updates the reliability information according to a dialog between the system (the information processing apparatus 100) and the user. .
  • step S31a the information processing apparatus 100 determines that it is necessary to confirm the hypothesis that the user 1 likes animation. This is because, for example, the information processing apparatus 100 determines that the user 1 likes the animation based on the previous dialogue history of the user 1 and determines that the processing should be performed to determine whether or not the estimation is correct. This is the process to be executed if the user has done this.
  • the corpus or the learning model corresponding to the user group who likes the animation is applied in the semantic analysis processing for the utterance of the user 1. Becomes possible. That is, utterance meaning analysis using a corpus or a learning model suitable for the user's hobbies and preferences becomes possible, and more accurate and quick processing can be performed.
  • the user 1 makes the following user utterance in step S32.
  • User utterance Cold Planet ABC
  • step S33a the information processing apparatus 100 that has input the user utterance determines in step S33a the label corresponding to the user in the learning data stored in the learning data storage unit 112, specifically, the label associated with the user's hobbies and preferences. Execute data update processing to increase reliability.
  • step S33b the information processing apparatus 100 performs the following system utterance.
  • System utterance correct answer
  • the information processing apparatus 100 executes the inquiry to the user in order to update the reliability of the label corresponding to the user attribute (user's hobby, taste) stored in the learning data storage unit 112.
  • a process for confirming user attributes such as a user's hobbies and preferences is executed.
  • FIG. 11 shows the following data stored in the learning data storage unit 112.
  • A Learning data (before updating)
  • B Learning data (after updating)
  • Learning data (before updating) is learning data before execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG.
  • the learning data is data corresponding to the following data.
  • User identifier * Label (hobby, taste of user) * Reliability (0 to 100)
  • the “user identifier” is, for example, an identifier (ID) of a user automatically registered by the information processing apparatus 100 or a registration process by the user.
  • the information processing apparatus 100 automatically identifies a user and an identifier (ID) corresponding to an identified user based on a captured image of the image input unit (camera) 100 and audio information input via the audio input unit (microphone) 101, for example. Is set and registered in the learning data storage unit 112. It is also possible for the user to register the user identifier by inputting the face image and the voice data by himself.
  • the user can register the attribute information of the user, for example, information such as gender, age, hobbies, and preferences in the learning data storage unit 112 in association with the user identifier.
  • the information processing apparatus 100 also records the user attribute information estimated based on the conversation with the user in the learning data storage unit 112.
  • Label (hobby, preference) of the user is one of the user attributes that can be registered in the learning data storage unit 112.
  • the reliability (0 to 100) is data indicating the reliability of the label.
  • the (B) learning data (after the update) shown in the lower part of FIG. 11 is the learning data after the execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG. That is, the learning data is updated by the information processing apparatus 100 based on the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG. In this updated data, The value of “reliability” has been updated from 60 to 80.
  • the information processing device 100 learns that the certainty of the hypothesis that the user 1 likes the anime is increased, and as a result of the learning, executes the update process of increasing the value of the reliability from 60 to 80.
  • the learning data shown in FIG. 11B is stored in the learning data storage unit 112, and is used in the subsequent semantic analysis processing of the user's utterance.
  • a process that preferentially uses a corpus or learning data specialized for a user who likes animation is performed.
  • By performing such processing it is possible to perform semantic analysis processing of the user utterance adapted to the user attribute, it is possible to improve the accuracy of the semantic analysis processing of the user utterance, and also to shorten the processing time.
  • the process described with reference to FIGS. 10 and 11 is an example in which an update process for increasing the reliability of the label corresponding to the user attribute in the learning data stored in the learning data storage unit 112 is performed.
  • an example of performing an update process for lowering the reliability of a label corresponding to a user attribute in learning data stored in the learning data storage unit 112 will be described with reference to FIGS.
  • step S41a the information processing apparatus 100 determines that it is necessary to confirm the hypothesis that the user 1 likes animation. This is because, for example, the information processing apparatus 100 determines that the user 1 likes the animation based on the previous dialogue history of the user 1 and determines that the processing should be performed to determine whether or not the estimation is correct. This is the process to be executed if the user has done this.
  • the corpus or the learning model corresponding to the user group who likes the animation is applied in the semantic analysis processing for the utterance of the user 1. This makes it possible to perform utterance semantic analysis using a corpus or a learning model suitable for the user's hobbies and preferences, and perform more accurate and quick processing.
  • step S41a determines in step S41a that it is necessary to confirm the hypothesis that the user 1 likes animation
  • the information processing apparatus 100 executes the following inquiry system utterance to the user in step S41b.
  • Inquiry system utterance Do you know the title of the animation work in which Gold Queen A (the main character of the animation) appears?
  • the user 1 makes the following user utterance in step S42.
  • User utterance Unknown
  • the user 1 does not utter in step S42.
  • step S43a the information processing apparatus 100 determines the reliability of the label corresponding to the user in the learning data stored in the learning data storage unit 112, specifically, the label associated with the user's hobbies and preferences. Execute a data update process to lower the data. This updating process is based on the result that the information processing device 100 has learned that the reliability of the hypothesis that the user 1 likes anime has decreased by executing the interactive sequence between the user 1 and the information processing device 100 shown in FIG. Processing.
  • the information processing apparatus 100 executes an inquiry to the user to check the user's hobby, taste, and the like. Execute the process to confirm the user attribute.
  • FIG. 13 shows the following data stored in the learning data storage unit 112 as in FIG. 11 described above.
  • A Learning data (before updating)
  • B Learning data (after updating)
  • Learning data (before updating) is learning data before the execution of the interaction sequence between the user 1 and the information processing apparatus 100 described with reference to FIG.
  • the learning data is data corresponding to the following data.
  • User identifier * Label (hobby, taste of user) * Reliability (0 to 100)
  • the value of the “reliability” is updated from 60 to 80.
  • the information processing apparatus 100 learns that the execution of the interactive sequence between the user 1 and the information processing apparatus 100 shown in FIG. 10 increases the reliability of the hypothesis that the user 1 likes anime. This is an example of an update process in which the reliability value is increased from 60 to 80 as the learning result.
  • FIG. 13 illustrates an example of an update process for reducing the value of “reliability” from 60 to 40.
  • This update process is a result of the information processing device 100 learning that the reliability of the hypothesis that the user 1 likes animation is reduced by the execution of the interactive sequence between the user 1 and the information processing device 100 illustrated in FIG. .
  • the learning data shown in FIG. 13B is stored in the learning data storage unit 112, and is used in the subsequent semantic analysis processing of the user's utterance. Specifically, for example, in the semantic analysis processing of the user's utterance, processing that preferentially uses a corpus or learning data that is specialized for a user who likes animation is not performed.
  • sequence of label reliability update processing for user executed by information processing apparatus of the present disclosure a description will be given of a sequence of the above-mentioned embodiment, that is, a sequence of label reliability update processing corresponding to a user executed by the information processing apparatus of the present disclosure.
  • a sequence of a process executed by the information processing apparatus 100 according to the present disclosure will be described with reference to a flowchart illustrated in FIG.
  • the processing according to the flowchart illustrated in FIG. 14 can be executed according to, for example, a program stored in the storage unit of the information processing device 100.
  • a processor such as a CPU having a program execution function.
  • the processing of each step of the flow illustrated in FIG. 14 will be described.
  • Step S301 First, in step S301, the information processing apparatus 100 inquires (questions) to the user for confirming the reliability of the user attribute stored in the learning data storage unit 112, for example, the user attributes such as the user's hobbies and preferences. Execute
  • Step S302 the information processing apparatus 100 executes a user utterance input process. This processing is executed in the voice input unit 101 shown in FIG.
  • Step S303 a voice recognition process of the user utterance is executed. This process is executed by the voice recognition unit 102 shown in FIG.
  • the voice recognition unit 102 performs voice recognition processing of the user's utterance, and generates text data as a recognition result.
  • Step S304 Next, in step S304, an utterance meaning analysis process is performed based on the text data that is the speech recognition result of the user utterance. This process is executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG.
  • Step S305 it is determined whether or not the user utterance is an utterance that affirms the user characteristic (label) whose reliability is to be checked. This process is executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG.
  • Step S306 In the determination processing of step S305, when it is determined that the user utterance is an utterance that affirms the user characteristic (label) whose reliability is to be checked, the process proceeds to step S306. In step S306, a reliability update process for increasing the label reliability of the learning data corresponding to the user is executed.
  • This process is a process executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG. 3, and is a process corresponding to the learning data update process described above with reference to FIG.
  • Step S307 On the other hand, if it is determined in the determination processing of step S305 that the user utterance is not an utterance that affirms the user characteristic (label) whose reliability is to be checked, the process proceeds to step S307. In step S307, a reliability update process for lowering the label reliability of the learning data corresponding to the user is executed.
  • This process is a process executed in the utterance meaning analysis unit (learning processing unit) 103 shown in FIG. 3, and is a process corresponding to the learning data update process described above with reference to FIG.
  • the information processing apparatus 100 can confirm the reliability of the label of the user attribute information corresponding to the user stored in the learning data storage unit 112, for example, the reliability of the label of the user's hobby and preference. Execute a question-type inquiry to the user. Further, based on the user utterance in response to the inquiry, a process of updating the reliability value of the label of the user attribute information corresponding to the user stored in the learning data storage unit 112 is executed.
  • the reliability of the label of the user attribute information is sequentially updated to data that reliably reflects the user attribute.
  • FIG. 15 shows a system configuration example.
  • Information processing system configuration example 1 has almost all the functions of the information processing apparatus shown in FIG. 3 as one apparatus, for example, a smartphone or PC owned by a user, or has a voice input / output and an image input / output function.
  • the information processing apparatus 410 is a user terminal such as an agent device.
  • the information processing device 410 corresponding to the user terminal executes communication with the information providing server 420 only when, for example, using information provided by an external server when generating a response sentence.
  • the information providing server 420 is, for example, a weather information providing server, a traffic information providing server, a medical information providing server, a sightseeing information providing server, or the like, and includes a group of servers that can provide information for generating a response to a user utterance. .
  • FIG. 15 information processing system configuration example 2
  • an information processing apparatus 410 which is a user terminal such as a smartphone, a PC, and an agent device owned by the user.
  • This is an example of a system that is configured to be partially executed by a data processing server 460 capable of communicating with an information processing apparatus.
  • the audio input unit 101, the image input unit 104, the sensor 106, the audio output unit 123, and the image output unit 125 in the apparatus shown in FIG. 3 are provided on the information processing apparatus 410 side of the user terminal, and all other functions are provided.
  • a configuration in which the processing is executed on the server side is possible.
  • various different settings are possible for the function division mode of the user terminal side function and the server side function, and a configuration in which one function is executed by both sides is also possible.
  • FIG. 16 is an example of the hardware configuration of the information processing apparatus described above with reference to FIG. 3, and also configures the data processing server 460 described with reference to FIG. 2 is an example of a hardware configuration of an information processing device.
  • the CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to a program stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, the processing according to the sequence described in the above embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs executed by the CPU 501, data, and the like. These CPU 501, ROM 502, and RAM 503 are interconnected by a bus 504.
  • the CPU 501 is connected to an input / output interface 505 via a bus 504, and an input unit 506 including various switches, a keyboard, a mouse, a microphone, a sensor, and the like, and an output unit 507 including a display, a speaker, and the like are connected to the input / output interface 505.
  • the CPU 501 executes various processes in response to a command input from the input unit 506, and outputs a processing result to, for example, the output unit 507.
  • the storage unit 508 connected to the input / output interface 505 includes, for example, a hard disk and stores programs executed by the CPU 501 and various data.
  • the communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • the technology disclosed in the present specification can have the following configurations.
  • an utterance meaning analysis unit that analyzes the intention of the user utterance;
  • a learning data storage unit that stores learning data,
  • the learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label,
  • the utterance meaning analysis unit An information processing apparatus that performs analysis processing of a user utterance in response to an inquiry utterance to the user, and executes update processing of the reliability according to the analysis result.
  • the utterance meaning analysis unit includes: The information processing device according to (1), wherein when it is determined that there is a problem in performing a process according to the intention generated as an analysis result of the user utterance, an inquiry to the user for confirming the intention is performed.
  • the utterance meaning analysis unit includes: Analyzing the user utterance in response to the inquiry to the user for the purpose confirmation, The information processing apparatus according to (2), wherein the information processing apparatus executes or cancels processing according to the intention according to an analysis result.
  • the label is A label set to the intention analyzed by the utterance meaning analysis unit according to the generated text of the speech recognition unit, The information processing device according to any one of (1) to (3), wherein the reliability is information indicating a reliability of an intention corresponding to a text.
  • the utterance meaning analysis unit includes: When the user's utterance analysis process for the inquiry utterance to the user is performed and it is confirmed that the intention corresponding to the text stored in the learning data storage unit is correct, the learning data is updated to increase the reliability corresponding to the intention.
  • the information processing device according to (4), which performs a process.
  • the utterance meaning analysis unit includes: When the user utterance analysis process for the inquiry utterance to the user is performed, and the intention of the text correspondence stored in the learning data storage unit is not confirmed to be correct, the learning data of the reliability corresponding to the intention is lowered.
  • the information processing device according to (4) or (5), which executes an update process.
  • the utterance meaning analysis unit includes: When the reliability corresponding to the intention corresponding to the text stored in the learning data storage unit is lower than a specified threshold, an inquiry to the user for confirming the intention is executed (1) to (6).
  • An information processing apparatus according to claim 1.
  • the learning data storage unit includes: (1) The information processing apparatus according to any one of (1) to (7), having a configuration in which a label set for an intention corresponding to a text and a degree of reliability are recorded as learning data for each user in association with a user identifier.
  • the label is A label set for the user attribute recorded corresponding to the user identifier,
  • the information processing apparatus according to any one of (1) to (8), wherein the reliability is information indicating the reliability of the user attribute.
  • the utterance meaning analysis unit includes: Analysis processing of a user utterance in response to an inquiry utterance to the user, and when it is confirmed that the user attribute stored in the learning data storage unit is correct, a learning data updating process for increasing the reliability corresponding to the user attribute (9)
  • the information processing apparatus according to (9).
  • the utterance meaning analysis unit, Analysis processing of the user utterance with respect to the inquiry utterance to the user is performed, and when the user attribute stored in the learning data storage unit is not confirmed to be correct, the learning data for reducing the reliability corresponding to the user attribute is updated.
  • the information processing device according to (9) or (10), which executes processing.
  • An information processing system having a user terminal and a data processing server, The user terminal, A voice input unit for inputting a user utterance, The data processing server, An utterance meaning analysis unit that analyzes the intention of the user utterance received from the user terminal, A learning data storage unit that stores learning data, The learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label, The utterance meaning analysis unit, An information processing system that performs an analysis process of a user utterance in response to an inquiry utterance to the user, and executes a process of updating the reliability according to an analysis result.
  • a program for causing an information processing device to execute information processing The information processing device, An utterance meaning analysis unit that analyzes the intention of the user utterance, A learning data storage unit that stores learning data, The learning data storage unit includes: It is a configuration that records a label generated by the learning process and the reliability associated with the label, The program includes: A program for performing analysis processing of a user utterance in response to an inquiry utterance to the user, and executing the reliability update processing according to the analysis result.
  • the series of processes described in the specification can be executed by hardware, software, or a combination of both.
  • the program recording the processing sequence is installed in a memory in a computer built in dedicated hardware and executed, or the program is stored in a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in a recording medium in advance.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • a system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to those in the same housing.
  • the reliability is set to the label corresponding to the intention of the user utterance and the user attribute, and the highly accurate intention of the user utterance is performed by the processing based on the reliability.
  • the analysis is realized. Specifically, for example, it has an utterance meaning analysis unit that analyzes the intention of the user utterance, and a learning data storage unit that stores learning data.
  • the learning data storage unit is configured to record the label generated by the learning process and the reliability of the label, and the utterance meaning analysis unit updates the reliability according to the analysis result of the user utterance in response to the inquiry to the user.
  • the utterance meaning analysis unit executes an inquiry for confirming the intention when there is a problem in executing the processing according to the intention of the user utterance.
  • the processing is executed or stopped according to the analysis result of the user response to the inquiry.
  • the reliability is set for the label corresponding to the intention of the user utterance or the user attribute, and highly accurate intention analysis of the user utterance is realized by the processing based on the reliability.

Abstract

ユーザ発話の意図やユーザ属性に対応するラベルに信頼度を設定し、信頼度に基づく処理によりユーザ発話の高精度な意図解析を実現する。ユーザ発話の意図を解析する発話意味解析部と、学習データを格納した学習データ記憶部を有する。学習データ記憶部は学習処理によって生成するラベルとラベルの信頼度を記録した構成であり、発話意味解析部はユーザへの問い合わせに対するユーザ発話の解析結果に応じて信頼度を更新する。発話意味解析部は、ユーザ発話の意図に従った処理の実行に問題がある場合、意図確認のための問い合わせを実行する。また問い合わせに対するユーザ応答の解析結果に応じて処理を実行、または中止する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話の音声認識処理と発話意味解析を実行して応答を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、発話意味解析を実行して解析結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
 この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 このようなシステム発話を出力する。
 このようにユーザ発話の音声認識を行いユーザとの会話を実現する装置は、エージェント機器、あるいはスマートスピーカー等と呼ばれ、昨今、利用が増大している。
 近年の音声認識システムでは、発話の多様性に対応するために、様々な発話データの学習を行い、学習データを用いて発話の意図理解精度を高める処理が行われている。
 しかし、このような学習処理を利用しても、多様なユーザ発話の全てについて正確な意図理解を行うことは困難である。システムが発話意図を理解してくれない場合、ユーザはシステムに対する話しかけを止めてしまうことが多い。
 音声対話システムの一般的な処理は以下のように行われる。
 音声入力部(マイク)から入力したユーザ発話音声を自動音声認識(ASR:Automatic Speech Recognition)機能を有する音声認識部に入力して、音声データをテキストデータに変換する。
 音声認識部が生成したテキストデータを意図理解部に入力し、意図理解部が自然言語理解(NLU)処理を実行して、テキストデータから発話意図を解析する。
 一般的な音声対話システムは、このような処理を実行する。
 例えば、上記処理に含まれる意図理解部において、誤った意図理解が行われると、ユーザの意図と違う処理が実行されてしまう可能性がある。例えば、ユーザが「写真」と発話した場合、「写真を見せて」なのか「写真を撮影して」なのか判別することが困難となる。
 ユーザは「写真を見せて」の意図で「写真」と発話したのに、システムが「写真を撮影して」と誤った解釈を行ってしまうと、システムは写真を撮影して写真を外部のサーバにアップロードしてしまい、多くのユーザに写真が閲覧されてしまうといった事態を引き起こす可能性もある。
 なお、音声認識システムの意図理解精度を高める構成を開示した従来技術として、例えば特許文献1(国際公開WO2016/151699号公報)や、特許文献2(特表2017-516153号公報)がある。
 特許文献1は、発話から得られたテキストデータの構成要素に基づくベクトル表現データを生成して、様々なテキストデータに基づくベクトル表現データとの類似度判定を行うことでユーザ発話の意図理解精度を向上させる構成を開示している。
 特許文献2は、音声認識システムがユーザに対して複数の発話を実行させて、第1発話と第2発話との意味論的なつながりに基づいて、ユーザ発話の意図把握の精度を高める構成を開示している。
国際公開WO2016/151699号公報 特表2017-516153号公報
 上述したように、ユーザ発話の意図理解精度を向上させるための構成として、複数の技術が開示されている。しかし、これらの従来技術の構成を適用しても、ユーザの発話からユーザの意図を正確に把握することは困難である。
 本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザ発話の意図理解を、より確実に行う構成を実現する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理装置にある。
 さらに、本開示の第2の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、
 ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部が、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末が、
 ユーザ発話を入力する音声入力処理を実行し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部が、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、
 ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記プログラムは、前記発話意味解析部に、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行わせ、解析結果に応じて前記信頼度の更新処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、ユーザ発話の意図やユーザ属性に対応するラベルに信頼度を設定し、信頼度に基づく処理によりユーザ発話の高精度な意図解析が実現される。
 具体的には、例えばユーザ発話の意図を解析する発話意味解析部と、学習データを格納した学習データ記憶部を有する。学習データ記憶部は学習処理によって生成するラベルとラベルの信頼度を記録した構成であり、発話意味解析部はユーザへの問い合わせに対するユーザ発話の解析結果に応じて信頼度を更新する。発話意味解析部は、ユーザ発話の意図に従った処理の実行に問題がある場合、意図確認のための問い合わせを実行する。また問い合わせに対するユーザ応答の解析結果に応じて処理を実行、または中止する。
 本構成により、ユーザ発話の意図やユーザ属性に対応するラベルに信頼度を設定し、信頼度に基づく処理によりユーザ発話の高精度な意図解析が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話を認識して応答を行う情報処理装置の具体的な処理例について説明する図である。 情報処理装置の構成例と利用例について説明する図である。 情報処理装置の具体的な構成例について説明する図である。 情報処理装置の実行する処理の具体例について説明する図である。 情報処理装置の実行する信頼度更新処理の具体例について説明する図である。 情報処理装置の実行する処理の具体例について説明する図である。 情報処理装置の実行する信頼度更新処理の具体例について説明する図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理装置の実行する処理の具体例について説明する図である。 情報処理装置の実行する信頼度更新処理の具体例について説明する図である。 情報処理装置の実行する処理の具体例について説明する図である。 情報処理装置の実行する信頼度更新処理の具体例について説明する図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理システムの構成例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.情報処理装置の構成例について
 2.本開示の情報処理装置の実行する処理の具体例について
 3.本開示の情報処理装置が実行する処理のシーケンスについて
 4.ユーザ対応のラベルの信頼度更新処理について
 5.本開示の情報処理装置が実行するユーザ対応のラベルの信頼度更新処理のシーケンスについて
 6.情報処理装置、および情報処理システムの構成例について
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.情報処理装置の構成例について]
 まず、図1以下を参照して、本開示の一実施例の情報処理装置の構成例について説明する。
 図1は、ユーザ1の発するユーザ発話を認識して応答を行う情報処理装置10の一処理例を示す図である。
 情報処理装置10は、ユーザの発話、例えば、
 ユーザ発話=「大阪の明日、午後の天気を教えて」
 このユーザ発話の音声認識処理を実行する。
 さらに、情報処理装置10は、ユーザ発話の音声認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー14を介して出力する。
 図1に示す例では、情報処理装置10は、以下の装置応答を行っている。
 装置応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
 情報処理装置10は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
 図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
 本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等のような様々な装置形態とすることが可能である。
 情報処理装置10は、ユーザ1の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図2に示すテレビ、エアコン等の外部機器30の制御も実行する。
 例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
 なお、情報処理装置10は、ネットワークを介してサーバ20と接続され、サーバ20から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
 次に、図3を参照して、情報処理装置の具体的な構成例について説明する。
 図3は、ユーザ発話を認識して応答を行う情報処理装置100の一構成例を示す図である。
 図3に示すように、情報処理装置100は、音声入力部101、音声認識部102、発話意味解析部(学習処理部)103、画像入力部104、画像認識部105、センサー106、センサー情報解析部107、コーパス111、学習データ記憶部112、通信部115、応答生成部121、音声合成部122、音声出力部123、表示画像生成部124、画像出力部125を有する。
 なお、これらの構成要素は、全てを1つの情報処理装置100内部に構成することも可能であるが、一部の構成や機能を他の情報処理装置や外部サーバに備える構成としてもよい。
 ユーザの発話音声はマイクなどの音声入力部101に入力される。
 音声入力部(マイク)101は、入力したユーザ発話音声を音声認識部102に入力する。
 音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
 音声認識部102において生成されたテキストデータは、発話意味解析部(学習処理部)103に入力される。
 発話意味解析部(学習処理部)103は、テキストに含まれるユーザの意図候補を選択して出力する。
 発話意味解析部(学習処理部)103は学習処理部としての機能も備え、音声認識部102において生成されたテキストデータとユーザの意図の対応データや、ユーザ単位の趣味嗜好情報等を学習処理によって生成、更新し、学習データ記憶部112に格納する。
 発話意味解析部(学習処理部)103は、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 具体的には、例えば、様々な発話文例を構文解析データとともに記録したコーパス111を用いて、テキストデータに基づくユーザ意図の解析を実行する。
 ユーザ発話から、意図(エンティティ)と、実体情報(エンティティ)を正確に推定、取得することができれば、情報処理装置100は、ユーザ発話に対する正確な処理を行うことができる。
 ただし、実際には、ユーザ発話とコーパス111に格納された文例とが一致しないことが多く、このような場合には、ユーザ発話の意図を正確に推定することができない場合がある。
 本開示の情報処理装置100は、このような場合であっても、学習データ記憶部112に格納された学習データを用いることにより、ユーザ発話の意図を正確に把握することを可能とした構成を有する。
 発話意味解析部(学習処理部)103には、以下の各データが入力される。
 (1)音声認識部102が、ユーザ発話に基づいて生成したテキストデータ、
 (2)カメラなどの画像入力部104が取得した発話ユーザおよびその周囲の画像に対する画像認識部105の画像認識結果情報、
 (3)センサー106が取得した発話ユーザおよびその周囲の状態の検出情報に基づいて、センサー情報解析部107が解析したセンサー解析情報、
 発話意味解析部(学習処理部)103は、上記(1)~(3)の情報を入力して、ユーザ発話の学習データの生成、修正、更新、破棄処理を含むユーザ発話の学習処理を実行する。
 発話意味解析部(学習処理部)103において実行された学習処理の結果データである学習データは、学習データ記憶部112に格納される。また、通信部115を介して外部サーバの記憶部に格納してもよい。
 この発話意味解析部(学習処理部)103において実行される処理の詳細については後述する。
 発話意味解析部(学習処理部)103は、学習データ記憶部112に格納された学習データを参照して、ユーザ固有の発話に対する意図(インテント)と実体情報(エンティティ)を推定する。
 この推定処理は、学習データを利用することで、より高精度な処理として実行することができる。
 このように、発話意味解析部(学習処理部)103は、学習データ記憶部112に格納された学習データや、コーパス111に格納されたデータを用いて、ユーザ固有の発話に対する意図(インテント)と実体情報(エンティティ)を推定する。
 この推定結果は、応答生成部121に入力される。
 応答生成部121は、発話意味解析部(学習処理部)103において推定されたユーザ発話の意図(インテント)と実体情報(エンティティ)に基づいて、ユーザに対する応答を生成する。応答は、音声、または画像の少なくともいずれかによって構成される。
 応答音声を出力する場合は、音声合成部122において生成した音声情報が、スピーカー等の音声出力部123を介して出力される。
 応答画像を出力する場合は、表示画像合成部124において生成した表示画像情報が、ディスプレイ等の画像出力部125を介して出力される。
 通信部115は、例えば外部サーバとの通信を実行する。外部サーバには、情報処理装置100による応答出力のための情報を提供するサービス提供サーバや、学習データやコーパスの提供を行うデータ処理サーバ等が含まれる。
 発話意味解析部(学習処理部)103における発話意味解析処理や学習処理は、通信部115を介して外部サーバから取得する情報を適用して行うことも可能である。
 サービス提供サーバは例えば天気情報提供サーバ、音楽情報提供サーバ等、様々な情報を提供するサーバであり、ユーザに対する応答や情報出力の際に利用される。
  [2.本開示の情報処理装置の実行する処理の具体例について]
 次に、図4以下を参照して本開示の情報処理装置100の実行する処理の具体例について説明する。
 本開示の情報処理装置100は、ユーザとシステム(情報処理装置100)との対話シーケンスにおいて情報処理装置100がユーザ発話の意図を再確認する必要があると判定した場合、再確認するための問い合わせを行う。
 ユーザ発話の意図を再確認する必要があると判定する場合とは、例えば以下のような場合である。
 (a)ユーザ独自の言い方などを含むユーザ発話を入力し、コーパスに登録された文例のみではユーザ意図の推定が困難である場合、
 (b)写真の撮影、メッセージの登録、スケジュールの削除などの処理のように誤作動した場合、秘密漏えいや、やり直しができない等の重大な問題を引き起こす恐れがある場合、
 情報処理装置100は、例えば上記(a),(b)のような場合に、ユーザ発話の意図を再確認する必要があると判定し、再確認するための問い合わせを行う。
 図4を参照して、ユーザ1と、本開示の情報処理装置100との対話例を説明する。
 まず、ユーザ1は、ステップS01において、以下の第1のユーザ発話を行う。
 第1のユーザ発話=写真
 この第1のユーザ発話を入力した情報処理装置100は、ステップS02aにおいて、処理実行(写真撮影)が重大な問題を発生させる可能性があると判断する。すなわち、写真を撮影し、撮影した写真を共有フォルダに保存する処理、あるいはサーバにアップロードする処理を行うと個人情報や秘密漏えい等が発生する恐れがあり、問題であると判断する。さらに、学習データ記憶部112に記録された信頼度を参照し、信頼度が規定しきい値より低いため問い合わせが必要と判断する。なお、学習データ記憶部112に記録される信頼度については後段で説明する。
 このような場合、情報処理装置100は、ユーザ発話の意図を再確認する必要があると判定し、再確認するための問い合わせを行う。
 情報処理装置100は、ステップS02bにおいて、ユーザに対する意図確認のための問い合わせの発話、すなわち以下の問い合わせシステム発話を行う。
 問い合わせシステム発話=写真を撮影したい場合は、再度、「写真」といってください
 その後、ユーザ1は、ステップS03において、以下の第2のユーザ発話を行う。
 第2のユーザ発話=写真
 この第2のユーザ発話を入力した情報処理装置100は、ステップS04aにおいて、第1のユーザ発話の「写真」が、「写真の撮影要求」である意図を持つと判断して学習データ記憶部112に格納された学習データを更新する。学習データの更新処理の具体例については後述する。
 さらに、情報処理装置100は、ステップS04bにおいて、以下のシステム発話を行い、写真撮影を実行する。
 システム発話=写真を撮ります。
 このように、本開示の情報処理装置100は、学習データ記憶部112に格納された信頼度が規定しきい値より低く、またユーザ発話の意図に従った処理を行った場合に問題が発生すると判断した場合、ユーザに対する問い合わせを実行してユーザ意図を再確認する処理を実行する。
 次に、図5を参照して、学習データ記憶部112に格納される信頼度の詳細と、ステップS04aにおける学習データの更新処理、すなわち学習データ記憶部112に格納された学習データの更新処理の具体例について説明する。
 図5には、学習データ記憶部112に格納された以下の各データを示している。
 (A)学習データ(更新前)
 (B)学習データ(更新後)
 (A)学習データ(更新前)は、図4を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行前の学習データである。
 学習データは、以下の各データの対応データによって構成される。
 *ユーザ発話テキスト(音声認識結果)
 *ラベル(ユーザ発話意図(発話意味解析結果))
 *信頼度(0~100)
 なお、図5に示す学習データは学習データ記憶部112に格納された学習データの一部のデータである。
 「ユーザ発話テキスト(音声認識結果)」は、音声認識部102の音声認識結果として取得されるテキストデータである。
 「ラベル(ユーザ発話意図(発話意味解析結果))」は、発話意味解析部103の発話意味解析結果であり、また学習データ記憶部112に格納されるラベルである。
 ラベルは、例えば、音声認識結果であるテキストデータに対応して設定されるラベルであり、学習データ記憶部112に格納される。なお、学習データ記憶部112に格納されるラベルには様々な種類がある。例えば、図に示すような、音声認識結果(テキストデータ)対応の意図を示すラベルの他、ユーザ対応のラベルとして、ユーザの趣味、嗜好を示すラベル、ユーザ属性(性別、年齢等)を示すラベルなど、様々な種類のラベルが設定され、学習データ記憶部112に格納される。
 信頼度(0~100)は、ラベルの信頼度を示すデータである。低信頼度=0~高信頼度=100まで、ラベルの信頼度が記録される。この信頼度は、逐次、更新される。
 図に示す例では、
 ユーザ発話テキスト(音声認識結果)=写真、
 に対して、
 ラベル(ユーザ発話意図(発話意味解析結果))=意図:写真の撮影要求
 このラベルが設定されている。
 さらに、
 信頼度=60
 が設定されている。この信頼度=60は、
 ユーザ発話=写真
 このユーザ発話のユーザ意図が「写真の撮影要求である」と判断した場合の信頼度が60%程度であることを意味する。
 図5の下段に示す(B)学習データ(更新後)は、図4を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行後の学習データである。
 すなわち、図4を参照して説明したユーザ1と情報処理装置100との対話シーケンスに基づいて、情報処理装置100が更新した学習データである。
 この更新データにおいて、
 「信頼度」の値が、60から80に更新されている。
 これは、図4を参照して説明したユーザ1と情報処理装置100との対話シーケンスの結果、
 ユーザ発話=写真
 このユーザ発話のユーザ意図が「写真の撮影要求である」確実性が高まったと情報処理装置100が学習し、この学習結果として、信頼度の値を60から80に上昇させる更新処理を実行した結果である。
 この図5(B)に示す学習データは、学習データ記憶部112に格納され、その後のユーザ発話の意味解析処理に際して利用される。
 例えば、この学習データが学習データ記憶部112に格納された後に、ユーザ発話として、
 ユーザ発話=写真
 この発話を入力した場合、先に図4を参照して説明したような問い合わせを行うことなく、写真撮影を行うといった処理が可能となる。これは、ユーザ発話=「写真」のユーザ意図が「写真の撮影要求である」と推定する信頼度が80と高い値であり、問い合わせを省略しても問題がないと判断することが可能であるからである。
 なお、問い合わせを実行するか否かの判断は、例えば、予め規定したしきい値、具体的には例えば、「信頼度しきい値=75」といったしきい値と現在の設定信頼度との比較に基づいて行うことができる。例えば、設定信頼度がしきい値以上であれば問い合わせを実行せず、しきい値未満であれば、問い合わせを行うといった処理を実行する。
 また、学習データは、ユーザ対応の学習データとして記録することが好ましい。すなわち、図5に示す学習データ記憶部112に記録される学習データを、ユーザ識別子に対応付けられたユーザ対応のデータとして記録する。このようなユーザ単位の学習データを格納する構成とすることで、ユーザ対応の意図判定を行うことが可能となる。
 すなわち、情報処理装置100の発話意味解析部(学習処理部)103は、発話を行ったユーザを識別した上で、その識別ユーザに対応する学習データを参照して意図解析を行う。
 次に、図6、図7を参照して、学習データ記憶部112に格納されたラベル対応信頼度を低下させるデータ更新処理を行う場合の処理例について説明する。
 図6を参照して、ユーザ1と、本開示の情報処理装置100との対話例を説明する。
 まず、ユーザ1は、ステップS11において、以下の第1のユーザ発話を行う。
 第1のユーザ発話=写真
 この第1のユーザ発話を入力した情報処理装置100は、ステップS12aにおいて、処理実行(写真撮影)が重大な問題を発生させる可能性があると判断する。すなわち、写真を撮影し、撮影した写真を共有フォルダに保存する処理、あるいはサーバにアップロードする処理を行うと個人情報や秘密漏えい等が発生する恐れがあると判断する。さらに、学習データ記憶部112に記録された信頼度を参照し、信頼度が規定しきい値より低いと判断する。
 このような場合、情報処理装置100は、ユーザ発話の意図を再確認する必要があると判定し、再確認するための問い合わせを行う。
 情報処理装置100は、ステップS12bにおいて、以下の問い合わせシステム発話を行う。
 問い合わせシステム発話=写真を撮影したい場合は、再度、「写真」といってください
 その後、ユーザ1は、ステップS13において、以下の第2のユーザ発話を行う。
 第2のユーザ発話=違う
 あるいは、ユーザ1は、ステップS13において、発話を行わない。
 この場合、情報処理装置100は、ステップS14aにおいて、第1のユーザ発話の「写真」が、「写真の撮影要求」である意図を持たないと判定して、学習データを更新する。
 図7は、図6を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行前後の学習データを示す図である。
 図7には、学習データ記憶部112に格納された以下の各データを示している。
 (A)学習データ(更新前)
 (B)学習データ(更新後)
 (A)学習データ(更新前)は、図6を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行前の学習データである。
 学習データは、以下の各データの対応データである。
 *ユーザ発話テキスト(音声認識結果)
 *ラベル(ユーザ発話意図(発話意味解析結果))
 *信頼度(0~100)
 これらのデータは、先に説明した図5の(A)学習データ(更新前)と同様のデータである。
 図7(A)に示す例では、
 ユーザ発話テキスト(音声認識結果)=写真、
 に対して、
 ラベル(ユーザ発話意図(発話意味解析結果))=意図:写真の撮影要求
 このラベルが設定され、さらに、
 信頼度=60
 が設定されている。この信頼度=60は、
 ユーザ発話=写真
 このユーザ発話のユーザ意図が「写真の撮影要求である」と判断した場合の信頼度が60%であることを意味している。
 図7の下段に示す(B)学習データ(更新後)は、図6を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行後の学習データである。
 すなわち、図6を参照して説明したユーザ1と情報処理装置100との対話シーケンスに基づいて、情報処理装置100が更新した学習データである。
 この更新データにおいて、
 「信頼度」の値が、60から40に更新されている。
 これは、図6を参照して説明したユーザ1と情報処理装置100との対話シーケンスの結果、
 ユーザ発話=写真
 このユーザ発話のユーザ意図が「写真の撮影要求である」確実性が低下したと情報処理装置100が学習し、この学習結果として、信頼度の値を60から40に低下させる更新処理を実行した結果である。
 この図7(B)に示す学習データは、学習データ記憶部112に格納され、その後のユーザ発話の意味解析処理に際して利用される。
 例えば、この学習データが学習データ記憶部112に格納された後に、ユーザ発話として、
 ユーザ発話=写真
 この発話を入力した場合、先に図4を参照して説明したような問い合わせを行うことになる。これは、ユーザ発話=「写真」のユーザ意図が「写真の撮影要求である」と推定する信頼度が40と、規定しきい値(例えば75)より低い値であり、問い合わせを省略すると問題があると判断できるからである。
  [3.本開示の情報処理装置が実行する処理のシーケンスについて]
 次に、本開示の情報処理装置が実行する処理のシーケンスについて説明する。
 図8~図9に示すフローチャートを参照して、本開示の情報処理装置100の実行する処理のシーケンスについて説明する。
 図8、図9に示すフローチャートに従った処理は、例えば情報処理装置100の記憶部に格納されたプログラムに従って実行することが可能である。例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図8~図9に示すフローの各ステップの処理について説明する。
  (ステップS101)
 まず、ステップS101において、情報処理装置100は、第1のユーザ発話の入力処理を実行する。
 この処理は、図3に示す音声入力部101において実行される。
  (ステップS102)
 次に、ステップS102において、第1のユーザ発話の音声認識処理を実行する。
 この処理は、図3に示す音声認識部102が実行する。
 音声認識部102は、ユーザ発話の音声認識処理を実行し、認識結果としてのテキストデータを生成する。
  (ステップS103)
 次に、ステップS103において、第1のユーザ発話の音声認識結果であるテキストデータに基づく発話意味解析処理を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する。
 発話意味解析部(学習処理部)103は、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 具体的には、例えば、様々な発話文例を構文解析データとともに記録したコーパス111を用いて、テキストデータに基づくユーザ意図の解析を実行する。
  (ステップS104)
 次に、ステップS104において、第1のユーザ発話の意図を確認するための問い合わせが必要か否かを判定する。
 この処理は、発話意味解析部(学習処理部)103において実行される。
 発話意味解析部(学習処理部)103は、学習データ記憶部112に格納されたユーザの発話履歴や情報処理装置100との対話履歴、さらに、画像入力部(カメラ)104、あるいはセンサー106からの入力情報、あるいは通信部115を介して入力する外部サーバからの情報等に基づいて問い合わせが必要か否かを判定する。
 具体的には、前述したように、発話意味解析部(学習処理部)103は、例えば以下のような場合にユーザ発話の意図を再確認するための問い合わせを行う必要があると判定する。
 (a)ユーザ独自の言い方などを含むユーザ発話を入力し、コーパスに登録された文例のみではユーザ意図の推定が困難である場合、
 (b)写真の撮影、メッセージの登録、スケジュールの削除などの処理のように誤作動した場合、秘密漏えいや、やり直しができない等の重大な問題を引き起こす恐れがある場合、
 情報処理装置100は、例えば上記(a),(b)のような場合に、ユーザ発話の意図を再確認する必要があると判定し、再確認するための問い合わせを行う。
 なお、この判定処理に際しては、学習データ記憶部112に格納されたラベル対応の信頼度の値を考慮した処理を実行する。
 すなわち、学習データ記憶部112に格納されたラベル対応の信頼度の値が、規定しきい値以上であれば、問い合わせは行わない。一方、学習データ記憶部112に格納されたラベル対応の信頼度の値が、規定しきい値未満であれば、問い合わせを行うと判定する。
  (ステップS105)
 ステップS105は、ステップS104の判定処理の結果としての分岐処理である。ステップS104において、ユーザ発話の意図を再確認する必要がないと判定した場合、ステップS107に進む。
 一方、ユーザ発話の意図を再確認する必要があると判定した場合、ステップS106に進む。
  (ステップS106)
 ステップS104~S105において、ユーザ発話の意図を再確認する必要があると判定した場合、ステップS106に進む。
 この場合は、ステップS106において、第1のユーザ発話の発話意図確認のため、ユーザに対する問い合わせ応答を生成して出力する。
 その後、ステップS201に進む。
 この処理は、先に図4を参照して説明したステップS12bの問い合わせシステム発話、すなわち、
 問い合わせシステム発話=写真を撮影したい場合は、再度、「写真」といってください
 この問い合わせシステム発話の生成、出力処理に相当する。
  (ステップS107)
 一方、ステップS104~S105において、ユーザ発話の意図を再確認する必要がないと判定した場合、ステップS107に進む。
 この場合は、ステップS107において、第1のユーザ発話の発話意図に基づく処理、例えばシステム応答や写真撮影等の処理を実行して処理を終了する。
 次に、図9を参照して、ステップS201以下の処理について説明する。
 ステップS201以下の処理は、ステップS106において、情報処理装置100が、第1のユーザ発話の発話意図確認のため、ユーザに対する問い合わせ応答を生成して出力した後に行われる処理である。
  (ステップS201)
 情報処理装置100は、ステップS201において、ステップS106で実行した問い合わせシステム発話に対する第2のユーザ発話の入力を待機する。
  (ステップS202)
 ステップS202において、第2のユーザ発話を入力したと判定した場合、ステップS203に進む。
 一方、予め規定した待機時間内に第2のユーザ発話を入力しなかった場合、ステップS209に進む。
  (ステップS203)
 ステップS202において、第2のユーザ発話を入力したと判定した場合、ステップS203に進み、ステップS203において、第  2のユーザ発話の音声認識処理を実行する。
 この処理は、図3に示す音声認識部102が実行する。
 音声認識部102は、ユーザ発話の音声認識処理を実行し、認識結果としてのテキストデータを生成する。
  (ステップS204)
 次に、ステップS204において、第2のユーザ発話の音声認識結果であるテキストデータに基づく発話意味解析処理を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する。
  (ステップS205)
 次に、ステップS205において、第2のユーザ発話が、第1のユーザ発話に対するシステムの解析意図を肯定する発話であるか否かを判定する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する。
 例えば先に図4を参照して説明した例は、第2のユーザ発話(=写真)が、第1のユーザ発話(=写真)に対するシステムの解析意図(意図=写真の撮影要求)を肯定する発話の例である。
 また、先に図6を参照して説明した例は、第2のユーザ発話(=違う)が、第1のユーザ発話(=写真)に対するシステムの解析意図(意図=写真の撮影要求)を肯定しない発話の例である。
  (ステップS206)
 ステップS206は、ステップS205の判定処理の結果としての分岐処理である。ステップS205の判定処理において、第2のユーザ発話が、第1のユーザ発話に対するシステムの解析意図を肯定する発話であると判定した場合、ステップS207に進む。
 一方、第2のユーザ発話が、第1のユーザ発話に対するシステムの解析意図を肯定しない発話であると判定した場合、ステップS209に進む。
  (ステップS207)
 ステップS205~S206の判定処理において、第2のユーザ発話が、第1のユーザ発話に対するシステムの解析意図を肯定する発話であると判定した場合、ステップS207に進む。
 ステップS207では、第1のユーザ発話対応の学習データのラベル信頼度を高くする更新処理を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する処理であり、先に図5を参照して説明した学習データの更新処理に相当する処理である。
  (ステップS208)
 次に、情報処理装置100は、ステップS208において、第2のユーザ発話の発話意味解析結果に基づく処理、例えばシステム応答の発話や、写真撮影等の処理を実行する。
  (ステップS209)
 一方、ステップS205~S206の判定処理において、第2のユーザ発話が、第1のユーザ発話に対するシステムの解析意図を肯定する発話でないと判定した場合、ステップS209に進む。
 また、ステップS202において、所定の待機時間内に第2のユーザ発話が入力されなかった場合もステップS209に進む。
 ステップS209では、第1のユーザ発話対応の学習データのラベル信頼度を低くする信頼度更新処理を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する処理であり、先に図7を参照して説明した学習データの更新処理に相当する処理である。
 以上、説明したように本開示の情報処理装置100は、例えばユーザ発話の意図が正確に把握できない場合や、ユーザ発話の意図に従った処理を実行することに問題があり、学習データとして記録された発話テキスト対応のラベル(意図)の信頼度が、規定しきい値より低い場合などの際にユーザ意図を再確認するための問い合わせを実行する。
 さらに、この問い合わせに対するユーザ発話に基づいて、ユーザ意図を確認し、確認結果に基づいて学習データ記憶部112に格納されたラベル対応信頼度の値を更新する処理を実行する。
 これらの処理によって、信頼度の低いと判定される解析意図に対応する問題のある処理の実行や応答が一時的に中止される。その後の問い合わせに対するユーザ発話に基づいて解析意図の正しさが確認された後、処理や応答が行われる。
 また、学習処理によって信頼度が高まった場合は、再確認の問い合わせ応答を省略して処理を実行することが可能となり、ユーザ意図に従った処理を迅速に実行することが可能となる。
  [4.ユーザ対応のラベルの信頼度更新処理について]
 上述した実施例は、ユーザ発話の意味解析結果として取得される意図に対応付けたラベルの信頼度に基づく処理例であった。次に、ユーザ対応のラベルの信頼度を更新する処理について説明する。
 前述したように、学習データ記憶部112に格納されるラベルには様々な種類がある。例えば、図5、図7を参照して説明したような音声認識結果(テキストデータ)対応の意図を示すラベルの他、ユーザ対応のラベルとして、ユーザの趣味、嗜好を示すラベル、ユーザ属性(性別、年齢等)を示すラベルなど、様々な種類のラベルが設定され、学習データ記憶部112に格納される。本開示の情報処理装置100は、これら、様々なラベルに信頼度情報を対応付けて記録し、この信頼度情報をシステム(情報処理装置100)とユーザとの対話に応じて、逐次、更新する。
 以下において説明する実施例は、ユーザ対応のラベルの一例として、ユーザの趣味、嗜好に対応付けたラベルの信頼度を更新する処理例について説明する。
 図10を参照して、本実施例に従った処理を行う場合のユーザ1と情報処理装置100との対話例について説明する。
 まず、情報処理装置100は、ステップS31aにおいて、ユーザ1が、アニメ好きであるという仮説の確認が必要であると判断する。これは、例えば、ユーザ1のこれまでの対話履歴に従い、情報処理装置100が、ユーザ1はアニメ好きであると推定し、この推定が正しいか否かを判定する処理を行うべきであると判断した場合に実行する処理である。
 例えば、この処理の結果、ユーザ1はアニメ好きであるという仮説が正しいことが確認されれば、ユーザ1の発話に対する意味解析処理に際して、アニメ好きのユーザグループ対応のコーパスや学習モデルを適用することが可能となる。すなわち、ユーザの趣味、嗜好に適合したコーパスや学習モデルを適用した発話意味解析が可能となり、より精度の高い、迅速な処理を行うことができる。
 このような処理を実現するため、図10に示す処理が実行される。
 ステップS31aにおいて、情報処理装置100が、ユーザ1がアニメ好きであるという仮説の確認が必要であると判断すると、情報処理装置100は、ステップS31bにおいて、ユーザに対する以下の問い合わせシステム発話を実行する。
 問い合わせシステム発話=ゴールドクイーンA(アニメの主人公)が登場するアニメ作品の題名、知ってる?
 このシステム発話に対して、ユーザ1は、ステップS32において以下のユーザ発話を行う。
 ユーザ発話=コールドプラネットABCだよ
 「コールドプラネットABC」は、ゴールドクイーンA(アニメの主人公)が登場するアニメ作品の正しい作品名であるとする。
 このユーザ発話を入力した情報処理装置100は、ステップS33aにおいて、学習データ記憶部112に格納された学習データ中のユーザ対応のラベル、具体的には、ユーザの趣味、嗜好に対応付けたラベルの信頼度を上げるデータ更新処理を実行する。
 さらに、情報処理装置100は、ステップS33bにおいて、以下のシステム発話を行う。
 システム発話=正解
 このように、本開示の情報処理装置100は、学習データ記憶部112に格納されたユーザ属性(ユーザの趣味、嗜)対応のラベルの信頼度を更新するために、ユーザに対する問い合わせを実行してユーザの趣味、嗜好等のユーザ属性を確認する処理を実行する。
 次に、図11を参照して、学習データ記憶部112に格納されるデータの詳細と学習データの更新処理の例について説明する。
 図11には、学習データ記憶部112に格納された以下の各データを示している。
 (A)学習データ(更新前)
 (B)学習データ(更新後)
 (A)学習データ(更新前)は、図10を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行前の学習データである。
 学習データは、以下の各データの対応データである。
 *ユーザ識別子
 *ラベル(ユーザの趣味、嗜好)
 *信頼度(0~100)
 「ユーザ識別子」は、例えば、ユーザによる登録処理、あるいは情報処理装置100によって自動登録されたユーザの識別子(ID)である。
 情報処理装置100は、例えば画像入力部(カメラ)100の撮影画像や、音声入力部(マイク)101を介して入力する音声情報に基づいて、ユーザを自動識別子、識別ユーザ対応の識別子(ID)を設定して学習データ記憶部112に登録する。
 なお、ユーザが自ら、顔画像と音声データを入力してユーザ識別子を登録することも可能である。
 さらに、ユーザは、ユーザの属性情報、例えば性別、年齢、趣味、嗜好等の情報をユーザ識別子に対応付けて学習データ記憶部112に登録することができる。情報処理装置100も、ユーザとの対話に基づいて推定したユーザ属性情報を学習データ記憶部112に記録する。
 図11に示す「ラベル(ユーザの趣味、嗜好)」は、学習データ記憶部112に登録可能なユーザ属性の一つである。
 図に示す例では、ユーザ(ID=U00123)に対応するユーザ属性を示す「ラベル」として、「趣味嗜好=アニメ好き」というラベルが設定された例を示している。
 信頼度(0~100)は、ラベルの信頼度を示すデータである。低信頼度=0~高信頼度=100まで、ラベルの信頼度が記録される。この信頼度は、逐次、更新される。
 図に示す例では、
 ユーザ(ID=U00123)対応の「趣味嗜好=アニメ好き」というラベルに対して、
 信頼度=60が設定されている。
 この信頼度=60は、
 ユーザ(ID=U00123)対応のラベル「趣味嗜好=アニメ好き」の信頼度が60%程度であることを意味している。
 図11の下段に示す(B)学習データ(更新後)は、図10を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行後の学習データである。
 すなわち、図10を参照して説明したユーザ1と情報処理装置100との対話シーケンスに基づいて、情報処理装置100が更新した学習データである。
 この更新データにおいて、
 「信頼度」の値が、60から80に更新されている。
 これは、図10を参照して説明したユーザ1と情報処理装置100との対話シーケンスの結果、
 ユーザ1がアニメ好きであるという仮説の確実性が高まったと、情報処理装置100が学習し、この学習結果として、信頼度の値を60から80に上昇させる更新処理を実行した結果である。
 この図11(B)に示す学習データは、学習データ記憶部112に格納され、その後のユーザ発話の意味解析処理に際して利用される。
 具体的には、例えば、ユーザ発話の意味解析処理に際して、アニメ好きのユーザに特化したコーパスや、学習データを優先的に利用した処理が行われる。
 このような処理を行うことでユーザ属性に適合したユーザ発話の意味解析処理を行うことが可能となり、ユーザ発話の意味解析処理の精度を向上させることが可能となり、また処理時間の短縮も実現される。
 図10、図11を参照して説明した処理は、学習データ記憶部112に格納された学習データ中のユーザ属性対応のラベルの信頼度を上げる更新処理を行った例である。
 次に、図12、図13を参照して、学習データ記憶部112に格納された学習データ中のユーザ属性対応のラベルの信頼度を下げる更新処理を行う例について説明する。
 図12を参照してユーザ1と情報処理装置100との対話例について説明する。
 まず、情報処理装置100は、ステップS41aにおいて、ユーザ1が、アニメ好きであるという仮説の確認が必要であると判断する。これは、例えば、ユーザ1のこれまでの対話履歴に従い、情報処理装置100が、ユーザ1はアニメ好きであると推定し、この推定が正しいか否かを判定する処理を行うべきであると判断した場合に実行する処理である。
 例えば、この処理の結果、ユーザ1はアニメ好きであるという仮説が正しいことが確認されれば、ユーザ1の発話に対する意味解析処理に際して、アニメ好きのユーザグループ対応のコーパスや学習モデルを適用することが可能となり、ユーザの趣味、嗜好に適合したコーパスや学習モデルを適用した発話意味解析が可能となり、より精度の高い、迅速な処理を行うことができる。
 このような処理を実現するため、図12に示す処理が実行される。
 ステップS41aにおいて、情報処理装置100が、ユーザ1がアニメ好きであるという仮説の確認が必要であると判断すると、情報処理装置100は、ステップS41bにおいて、ユーザに対する以下の問い合わせシステム発話を実行する。
 問い合わせシステム発話=ゴールドクイーンA(アニメの主人公)が登場するアニメ作品の題名、知ってる?
 このシステム発話に対して、ユーザ1は、ステップS42において以下のユーザ発話を行う。
 ユーザ発話=分からない
 あるいは、ユーザ1は、ステップS42において発話を行わない。
 次に、情報処理装置100は、ステップS43aにおいて、学習データ記憶部112に格納された学習データ中のユーザ対応のラベル、具体的には、ユーザの趣味、嗜好に対応付けたラベルの信頼度を低下させるデータ更新処理を実行する。
 この更新処理は、図12に示すユーザ1と情報処理装置100との対話シーケンスの実行によって、ユーザ1がアニメ好きであるという仮説の確実性が低下したと情報処理装置100が学習した結果に基づく処理である。
 このように、本開示の情報処理装置100は、学習データ記憶部112に格納されたユーザ属性対応のラベルの信頼度を更新するために、ユーザに対する問い合わせを実行してユーザの趣味、嗜好等のユーザ属性を確認する処理を実行する。
 次に、図13を参照して、学習データ記憶部112に格納されるデータの詳細と学習データの更新処理の例について説明する。
 図13には、先に説明した図11と同様、学習データ記憶部112に格納された以下の各データを示している。
 (A)学習データ(更新前)
 (B)学習データ(更新後)
 (A)学習データ(更新前)は、図12を参照して説明したユーザ1と情報処理装置100との対話シーケンスの実行前の学習データである。
 学習データは、以下の各データの対応データである。
 *ユーザ識別子
 *ラベル(ユーザの趣味、嗜好)
 *信頼度(0~100)
 先に図11を参照して説明したデータ更新例では、「信頼度」の値を60から80に更新した例であった。図11に示すデータ更新例は、図10に示すユーザ1と情報処理装置100との対話シーケンスの実行によって、ユーザ1がアニメ好きであるという仮説の確実性が高まったと情報処理装置100が学習し、この学習結果として、信頼度の値を60から80に上昇させる更新処理例である。
 一方、図13は、「信頼度」の値を60から40に低下させる更新処理例を示している。
 この更新処理は、図12に示すユーザ1と情報処理装置100との対話シーケンスの実行によって、ユーザ1がアニメ好きであるという仮説の確実性が低下したと情報処理装置100が学習した結果である。
 すなわち、情報処理装置100の発話意味解析部(学習処理部)103は、学習結果に基づいて、ユーザ(ID=U00123)対応のラベル「趣味嗜好=アニメ好き」の信頼度の値を60から40に低下させる更新処理を実行する。
 この図13(B)に示す学習データは、学習データ記憶部112に格納され、その後のユーザ発話の意味解析処理に際して利用される。
 具体的には、例えば、ユーザ発話の意味解析処理に際して、アニメ好きのユーザに特化したコーパスや、学習データを優先的に利用した処理は行わなくなる。
 このような処理を行うことでユーザ属性に適合しないコーパスや、学習データの優先利用処理率が低下し、誤ったユーザ属性に応じたユーザ発話の意味解析処理が行われることが回避される。結果として、ユーザ発話の意味解析処理の精度を向上させることが可能となり、また処理時間の短縮も実現される。
  [5.本開示の情報処理装置が実行するユーザ対応のラベルの信頼度更新処理のシーケンスについて]
 次に、上述した実施例、すなわち、本開示の情報処理装置が実行するユーザ対応のラベルの信頼度更新処理のシーケンスについて説明する。
 図14に示すフローチャートを参照して、本開示の情報処理装置100の実行する処理のシーケンスについて説明する。
 図14に示すフローチャートに従った処理は、例えば情報処理装置100の記憶部に格納されたプログラムに従って実行することが可能である。例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図14に示すフローの各ステップの処理について説明する。
  (ステップS301)
 まず、ステップS301において、情報処理装置100は、学習データ記憶部112に格納されたユーザ対応のラベル、例えばユーザの趣味、嗜好等のユーザ属性の信頼度の確認のためのユーザに対する問い合わせ(質問)を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103、応答生成部121、音声合成部122、、音声出力部123、表示画像生成部124、画像出力部125等において実行される。
 具体的には、例えば図10、図12を参照して説明した例では、以下のシステム発話の実行処理に対応する処理である。
 問い合わせシステム発話=ゴールドクイーンA(アニメの主人公)が登場するアニメ作品の題名、知ってる?
  (ステップS302)
 次に、情報処理装置100は、ステップS302において、ユーザ発話の入力処理を実行する。
 この処理は、図3に示す音声入力部101において実行される。
  (ステップS303)
 次に、ステップS303において、ユーザ発話の音声認識処理を実行する。
 この処理は、図3に示す音声認識部102が実行する。
 音声認識部102は、ユーザ発話の音声認識処理を実行し、認識結果としてのテキストデータを生成する。
  (ステップS304)
 次に、ステップS304において、ユーザ発話の音声認識結果であるテキストデータに基づく発話意味解析処理を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する。
  (ステップS305)
 次に、ステップS305において、ユーザ発話が、信頼度の確認対象のユーザ特性(ラベル)を肯定する発話であるか否かを判定する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する。
 例えば先に図10を参照して説明した例は、ユーザ発話(=ゴールドプラネットABCだよ)が、信頼度の確認対象のラベル(ユーザ属性=アニメ好き)を肯定する発話の例である。
 また、先に図12を参照して説明した例は、ユーザ発話(=分からない)が、信頼度の確認対象のラベル(ユーザ属性=アニメ好き)を肯定しない発話の例である。
  (ステップS306)
 ステップS305の判定処理において、ユーザ発話が、信頼度の確認対象のユーザ特性(ラベル)を肯定する発話であると判定した場合、ステップS306に進む。
 ステップS306では、ユーザ対応の学習データのラベル信頼度を高くする信頼度更新処理を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する処理であり、先に図11を参照して説明した学習データの更新処理に相当する処理である。
  (ステップS307)
 一方、ステップS305の判定処理において、ユーザ発話が、信頼度の確認対象のユーザ特性(ラベル)を肯定する発話でないと判定した場合、ステップS307に進む。
 ステップS307では、ユーザ対応の学習データのラベル信頼度を低くする信頼度更新処理を実行する。
 この処理は、図3に示す発話意味解析部(学習処理部)103において実行する処理であり、先に図13を参照して説明した学習データの更新処理に相当する処理である。
 以上、説明したように本開示の情報処理装置100は、学習データ記憶部112に格納されたユーザ対応のユーザ属性情報のラベル、例えばユーザの趣味嗜好のラベルの信頼度の確かさを確認するため、ユーザに対する質問形式の問い合わせを実行する。
 さらに、この問い合わせに対するユーザ発話に基づいて、学習データ記憶部112に格納されたユーザ対応のユーザ属性情報のラベルの信頼度の値を更新する処理を実行する。
 これらの処理によって、ユーザ属性情報のラベルの信頼度が、ユーザ属性を確実に反映したデータに逐次、更新される。
 この処理によって、ユーザ発話の意味解析処理を行う場合に、信頼度の高いユーザ属性対応のコーパスや学習データを優先的に利用することが可能となり、ユーザ発話の意味解析処理をより高精度にかつ迅速に実行することが可能となる。
  [6.情報処理装置、および情報処理システムの構成例について]
 複数の実施例について説明したが、これらの実施例において説明した様々な処理機能、例えば、図3に示す情報処理装置100の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
 図15にシステム構成例を示す。
 図15(1)情報処理システム構成例1は、図3に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
 ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部サーバの提供する情報を利用する場合にのみ、情報提供サーバ420と通信を実行する。
 情報提供サーバ420は、例えば天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する応答を生成するための情報を提供可能なサーバ群によって構成される。
 一方、図15(2)情報処理システム構成例2は、図3に示す情報処理装置の機能の一部をユーザの所有するスマホやPC、エージェント機器等のユーザ端末である情報処理装置410内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ460において実行する構成としたシステム例である。
 例えば、図3に示す装置中の音声入力部101、画像入力部104、センサー106、音声出力部123、画像出力部125のみをユーザ端末側の情報処理装置410側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。
 なお、ユーザ端末側の機能と、サーバ側の機能の機能分轄態様は、様々な異なる設定が可能であり、また、1つの機能を双方で実行する構成も可能である。
  [7.情報処理装置のハードウェア構成例について]
 次に、図16を参照して、情報処理装置のハードウェア構成例について説明する。
 図16を参照して説明するハードウェアは、先に図3を参照して説明した情報処理装置のハードウェア構成例であり、また、図15を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理装置。
 (2) 前記発話意味解析部は、
 ユーザ発話に対する解析結果として生成した意図に従った処理の実行に問題があると判定した場合、意図確認のためのユーザへの問い合わせを実行する(1)に記載の情報処理装置。
 (3) 前記発話意味解析部は、
 前記意図確認のためのユーザへの問い合わせに対するユーザ発話の解析処理を行い、
 前記情報処理装置は、解析結果に応じて前記意図に従った処理を実行、または中止する(2)に記載の情報処理装置。
 (4) 前記ラベルは、
 音声認識部の生成テキストに従って前記発話意味解析部が解析した意図に設定されたラベルであり、
 前記信頼度は、テキスト対応の意図の信頼度を示す情報である(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記テキスト対応の意図が正しいことが確認された場合、該意図に対応する信頼度を上げる学習データの更新処理を実行する(4)に記載の情報処理装置。
 (6) 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記テキスト対応の意図が正しいことが確認されなかった場合、該意図に対応する信頼度を下げる学習データの更新処理を実行する(4)または(5)に記載の情報処理装置。
 (7) 前記発話意味解析部は、
 前記学習データ記憶部に格納された前記テキスト対応の意図に対応する信頼度が規定しきい値より低い場合、意図確認のためのユーザへの問い合わせを実行する(1)~(6)いずれかに記載の情報処理装置。
 (8) 前記学習データ記憶部は、
 テキスト対応の意図に設定されたラベルと信頼度をユーザ識別子に対応付けたユーザ単位の学習データとして記録した構成を有する(1)~(7)いずれかに記載の情報処理装置。
 (9) 前記ラベルは、
 ユーザ識別子に対応して記録されたユーザ属性に設定されたラベルであり、
 前記信頼度は、前記ユーザ属性の信頼度を示す情報である(1)~(8)いずれかに記載の情報処理装置。
 (10) 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記ユーザ属性が正しいことが確認された場合、該ユーザ属性に対応する信頼度を上げる学習データの更新処理を実行する(9)に記載の情報処理装置。
 (11) 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記ユーザ属性が正しいことが確認されなかった場合、該ユーザ属性に対応する信頼度を下げる学習データの更新処理を実行する(9)または(10)に記載の情報処理装置。
 (12) 前記ユーザ属性は、ユーザの趣味嗜好情報である(9)~(11)いずれかに記載の情報処理装置。
 (13) ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部は、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理システム。
 (14) 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、
 ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部が、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理方法。
 (15) ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末が、
 ユーザ発話を入力する音声入力処理を実行し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記発話意味解析部が、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理方法。
 (16) 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、
 ユーザ発話の意図を解析する発話意味解析部と、
 学習データを格納した学習データ記憶部を有し、
 前記学習データ記憶部は、
 学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
 前記プログラムは、前記発話意味解析部に、
 ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行わせ、解析結果に応じて前記信頼度の更新処理を実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、ユーザ発話の意図やユーザ属性に対応するラベルに信頼度を設定し、信頼度に基づく処理によりユーザ発話の高精度な意図解析が実現される。
 具体的には、例えばユーザ発話の意図を解析する発話意味解析部と、学習データを格納した学習データ記憶部を有する。学習データ記憶部は学習処理によって生成するラベルとラベルの信頼度を記録した構成であり、発話意味解析部はユーザへの問い合わせに対するユーザ発話の解析結果に応じて信頼度を更新する。発話意味解析部は、ユーザ発話の意図に従った処理の実行に問題がある場合、意図確認のための問い合わせを実行する。また問い合わせに対するユーザ応答の解析結果に応じて処理を実行、または中止する。
 本構成により、ユーザ発話の意図やユーザ属性に対応するラベルに信頼度を設定し、信頼度に基づく処理によりユーザ発話の高精度な意図解析が実現される。
  10 情報処理装置
  11 カメラ
  12 マイク
  13 表示部
  14 スピーカー
  20 サーバ
  30 外部機器
 100 情報処理装置
 101 音声入力部
 102 音声認識部
 103 発話意味解析部(学習処理部)
 104 画像入力部
 105 画像認識部
 106 センサー
 107 センサー情報解析部
 111 コーパス
 112 学習データ記憶部
 121 応答生成部
 122 音声合成部
 123 音声出力部
 124 表示画像生成部
 125 画像出力部
 410 情報処理装置
 420 情報提供サーバ
 460 データ処理サーバ
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (16)

  1.  ユーザ発話の意図を解析する発話意味解析部と、
     学習データを格納した学習データ記憶部を有し、
     前記学習データ記憶部は、
     学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
     前記発話意味解析部は、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理装置。
  2.  前記発話意味解析部は、
     ユーザ発話に対する解析結果として生成した意図に従った処理の実行に問題があると判定した場合、意図確認のためのユーザへの問い合わせを実行する請求項1に記載の情報処理装置。
  3.  前記発話意味解析部は、
     前記意図確認のためのユーザへの問い合わせに対するユーザ発話の解析処理を行い、
     前記情報処理装置は、解析結果に応じて前記意図に従った処理を実行、または中止する請求項2に記載の情報処理装置。
  4.  前記ラベルは、
     音声認識部の生成テキストに従って前記発話意味解析部が解析した意図に設定されたラベルであり、
     前記信頼度は、テキスト対応の意図の信頼度を示す情報である請求項1に記載の情報処理装置。
  5.  前記発話意味解析部は、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記テキスト対応の意図が正しいことが確認された場合、該意図に対応する信頼度を上げる学習データの更新処理を実行する請求項4に記載の情報処理装置。
  6.  前記発話意味解析部は、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記テキスト対応の意図が正しいことが確認されなかった場合、該意図に対応する信頼度を下げる学習データの更新処理を実行する請求項4に記載の情報処理装置。
  7.  前記発話意味解析部は、
     前記学習データ記憶部に格納された前記テキスト対応の意図に対応する信頼度が規定しきい値より低い場合、意図確認のためのユーザへの問い合わせを実行する請求項1に記載の情報処理装置。
  8.  前記学習データ記憶部は、
     テキスト対応の意図に設定されたラベルと信頼度をユーザ識別子に対応付けたユーザ単位の学習データとして記録した構成を有する請求項1に記載の情報処理装置。
  9.  前記ラベルは、
     ユーザ識別子に対応して記録されたユーザ属性に設定されたラベルであり、
     前記信頼度は、前記ユーザ属性の信頼度を示す情報である請求項1に記載の情報処理装置。
  10.  前記発話意味解析部は、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記ユーザ属性が正しいことが確認された場合、該ユーザ属性に対応する信頼度を上げる学習データの更新処理を実行する請求項9に記載の情報処理装置。
  11.  前記発話意味解析部は、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、前記学習データ記憶部に格納された前記ユーザ属性が正しいことが確認されなかった場合、該ユーザ属性に対応する信頼度を下げる学習データの更新処理を実行する請求項9に記載の情報処理装置。
  12.  前記ユーザ属性は、ユーザの趣味嗜好情報である請求項9に記載の情報処理装置。
  13.  ユーザ端末と、データ処理サーバを有する情報処理システムであり、
     前記ユーザ端末は、
     ユーザ発話を入力する音声入力部を有し、
     前記データ処理サーバは、
     前記ユーザ端末から受信する前記ユーザ発話の意図を解析する発話意味解析部と、
     学習データを格納した学習データ記憶部を有し、
     前記学習データ記憶部は、
     学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
     前記発話意味解析部は、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理システム。
  14.  情報処理装置において実行する情報処理方法であり、
     前記情報処理装置は、
     ユーザ発話の意図を解析する発話意味解析部と、
     学習データを格納した学習データ記憶部を有し、
     前記学習データ記憶部は、
     学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
     前記発話意味解析部が、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理方法。
  15.  ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記ユーザ端末が、
     ユーザ発話を入力する音声入力処理を実行し、
     前記データ処理サーバは、
     前記ユーザ端末から受信する前記ユーザ発話の意図を解析する発話意味解析部と、
     学習データを格納した学習データ記憶部を有し、
     前記学習データ記憶部は、
     学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
     前記発話意味解析部が、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行い、解析結果に応じて前記信頼度の更新処理を実行する情報処理方法。
  16.  情報処理装置において情報処理を実行させるプログラムであり、
     前記情報処理装置は、
     ユーザ発話の意図を解析する発話意味解析部と、
     学習データを格納した学習データ記憶部を有し、
     前記学習データ記憶部は、
     学習処理によって生成されるラベルと該ラベルに対応づけられた信頼度を記録した構成であり、
     前記プログラムは、前記発話意味解析部に、
     ユーザへの問い合わせ発話に対するユーザ発話の解析処理を行わせ、解析結果に応じて前記信頼度の更新処理を実行させるプログラム。
PCT/JP2019/024660 2018-08-20 2019-06-21 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2020039726A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-154017 2018-08-20
JP2018154017 2018-08-20

Publications (1)

Publication Number Publication Date
WO2020039726A1 true WO2020039726A1 (ja) 2020-02-27

Family

ID=69592542

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024660 WO2020039726A1 (ja) 2018-08-20 2019-06-21 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2020039726A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP6482703B1 (ja) * 2018-03-20 2019-03-13 ヤフー株式会社 推定装置、推定方法および推定プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP6482703B1 (ja) * 2018-03-20 2019-03-13 ヤフー株式会社 推定装置、推定方法および推定プログラム

Similar Documents

Publication Publication Date Title
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US10714085B2 (en) Temporary account association with voice-enabled devices
US20220335930A1 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
US7487096B1 (en) Method to automatically enable closed captioning when a speaker has a heavy accent
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
CN110770736A (zh) 将对话驱动式应用程序导出到数字通信平台
CN110047481B (zh) 用于语音识别的方法和装置
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
US10896688B2 (en) Real-time conversation analysis system
US10540973B2 (en) Electronic device for performing operation corresponding to voice input
KR20160132748A (ko) 전자 장치 및 그 제어 방법
CN104240718A (zh) 转录支持设备和方法
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019031268A1 (ja) 情報処理装置、及び情報処理方法
KR20200007530A (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
WO2019155716A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020039726A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10831442B2 (en) Digital assistant user interface amalgamation
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019202804A1 (ja) 音声処理装置および音声処理方法
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
WO2020017166A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11664018B2 (en) Dialogue system, dialogue processing method
JP2022055347A (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善)
KR20210098250A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19851185

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19851185

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP