WO2019198405A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2019198405A1
WO2019198405A1 PCT/JP2019/010022 JP2019010022W WO2019198405A1 WO 2019198405 A1 WO2019198405 A1 WO 2019198405A1 JP 2019010022 W JP2019010022 W JP 2019010022W WO 2019198405 A1 WO2019198405 A1 WO 2019198405A1
Authority
WO
WIPO (PCT)
Prior art keywords
terminal
information processing
unit
semantic analysis
user utterance
Prior art date
Application number
PCT/JP2019/010022
Other languages
English (en)
French (fr)
Inventor
山田 敬一
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP19785495.3A priority Critical patent/EP3779965A4/en
Priority to US17/045,456 priority patent/US11545153B2/en
Publication of WO2019198405A1 publication Critical patent/WO2019198405A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing system, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that cause a local terminal or a remote terminal to execute processing based on a user utterance.
  • Patent Document 1 Japanese Patent Laid-Open No. 2008-146054.
  • the present disclosure has been made in view of the above-described problem, for example, and causes a remote terminal to execute processing based on a local user utterance using a local terminal that communicates with a remote terminal at a remote location. It is an object of the present invention to provide an information processing apparatus, an information processing system, an information processing method, and a program that can perform the above-described processing.
  • the first aspect of the present disclosure is: A semantic analysis unit for executing semantic analysis processing of user utterances; It is determined whether or not the user utterance is a processing request for the information processing device based on the semantic analysis result generated by the semantic analysis unit, and when the user utterance is a processing request for the information processing device,
  • the information processing apparatus includes an operation target terminal determination unit that determines which information processing apparatus is a processing request.
  • the second aspect of the present disclosure is: An information processing system having a local terminal and a remote terminal,
  • the local terminal is A semantic analysis unit that executes a semantic analysis process of a user utterance input to the local terminal;
  • An operation target terminal determination unit that determines whether or not the user utterance is a processing request for the remote terminal based on a semantic analysis result generated by the semantic analysis unit;
  • the semantic analysis result in the semantic analysis unit has a communication unit that transmits to the remote terminal
  • the remote terminal is A communication unit for receiving a semantic analysis result of a user utterance on the local terminal side;
  • the information processing system includes an application execution unit that executes processing based on the semantic analysis result of the user utterance on the local terminal side received via the communication unit.
  • the third aspect of the present disclosure is: An information processing method executed in an information processing apparatus,
  • the semantic analysis unit executes semantic analysis processing of user utterances,
  • the operation target terminal determination unit determines whether or not the user utterance is a processing request to the information processing device based on the semantic analysis result generated by the semantic analysis unit, and the user utterance is processed to the information processing device.
  • the information processing method determines which information processing apparatus is the processing request.
  • the fourth aspect of the present disclosure is: An information processing method executed in an information processing system having a local terminal and a remote terminal,
  • the local terminal is Semantic analysis processing of user utterances input to the local terminal;
  • An operation target terminal determination process for determining whether the user utterance is a process request for the remote terminal based on a semantic analysis result of the semantic analysis process; If it is determined that the user utterance is a processing request for the remote terminal, the semantic analysis result in the semantic analysis unit is transmitted to the remote terminal,
  • the remote terminal is Receiving the semantic analysis result of the user utterance on the local terminal side,
  • the information processing method executes processing based on the semantic analysis result of the received user utterance on the local terminal side.
  • the fifth aspect of the present disclosure is: A program for executing information processing in an information processing apparatus; Let the semantic analysis unit execute semantic analysis processing of user utterances, The operation target terminal determination unit determines whether or not the user utterance is a processing request for the information processing device based on the semantic analysis result generated by the semantic analysis unit, and further, the user utterance is processed for the information processing device. If it is a request, it is in a program that executes a process for determining which information processing apparatus is a process request.
  • the program of the present disclosure is a program that can be provided by, for example, a storage medium or a communication medium provided in a computer-readable format to an information processing apparatus or a computer system that can execute various program codes.
  • a program in a computer-readable format, processing corresponding to the program is realized on the information processing apparatus or the computer system.
  • system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
  • an apparatus and a method that enable a remote terminal to execute processing based on a user utterance on the local terminal side are realized.
  • the local terminal executes a semantic analysis process of the user utterance input to the local terminal, and the user utterance requests a processing request to the remote terminal based on the semantic analysis result It is determined whether or not. Further, when the user utterance is a processing request to the remote terminal, the semantic analysis result in the semantic analysis unit is transmitted to the remote terminal.
  • the remote terminal receives the semantic analysis result of the user utterance on the local terminal side, and executes processing based on the received semantic analysis result of the user utterance on the local terminal side.
  • an apparatus and a method that enable a remote terminal to execute processing based on a user utterance on the local terminal side are realized. Note that the effects described in the present specification are merely examples and are not limited, and may have additional effects.
  • FIG. 2 is a diagram illustrating a configuration example and a usage example of an information processing device. It is a figure explaining the outline
  • FIG. 25 is a diagram for describing a configuration example of an information processing device.
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus. It is a figure explaining the specific example of the process which determines whether a user utterance is an utterance regarding terminal operation, and which terminal is a process request utterance.
  • FIG. 25 is a diagram for describing an example hardware configuration of an information processing device.
  • FIG. 1 is a diagram illustrating a processing example of an information processing apparatus 10 that recognizes and responds to a user utterance made by a user 1.
  • the information processing apparatus 10 executes processing based on the speech recognition result of the user utterance.
  • the information processing apparatus 10 performs the following system response.
  • System response “Tomorrow in Osaka, the afternoon weather is fine, but there may be a shower in the evening.”
  • the information processing apparatus 10 executes speech synthesis processing (TTS: Text To Speech) to generate and output the system response.
  • TTS Text To Speech
  • the information processing apparatus 10 generates and outputs a response using knowledge data acquired from a storage unit in the apparatus or knowledge data acquired via a network.
  • An information processing apparatus 10 illustrated in FIG. 1 includes a camera 11, a microphone 12, a display unit 13, and a speaker 14, and has a configuration capable of audio input / output and image input / output.
  • the information processing apparatus 10 illustrated in FIG. 1 is called, for example, a smart speaker or an agent device.
  • the information processing apparatus 10 according to the present disclosure is not limited to the agent device 10 a, but may be various apparatus forms such as a smartphone 10 b and a PC 10 c.
  • the information processing apparatus 10 recognizes the utterance of the user 1 and performs a response based on the user utterance. For example, the information processing apparatus 10 also executes control of the external device 30 such as a television and an air conditioner illustrated in FIG. For example, when the user utterance is a request such as “change the TV channel to 1” or “set the air conditioner temperature to 20 degrees”, the information processing apparatus 10 determines whether the user utterance is based on the voice recognition result of the user utterance. A control signal (Wi-Fi, infrared light, etc.) is output to the external device 30 to execute control according to the user utterance.
  • Wi-Fi Wi-Fi, infrared light, etc.
  • the information processing apparatus 10 is connected to the server 20 via the network, and can acquire information necessary for generating a response to the user utterance from the server 20. Moreover, it is good also as a structure which makes a server perform a speech recognition process and a semantic analysis process.
  • the present disclosure solves such a problem, and uses a local agent device (local terminal) that performs communication with a remote agent device (remote terminal), so that a television is connected between the local terminal and the remote terminal. It is possible to cause the remote terminal to execute various processes while having a telephone conversation.
  • local agent device local terminal
  • remote agent device remote terminal
  • FIG. 3 shows the local side on the right and the remote side on the left.
  • On the local side there is a local user 51 and a local terminal 100.
  • On the other hand there is a remote side user 52 and a remote terminal 200 on the remote side.
  • Each of the local terminal 100 and the remote terminal 200 has the same configuration as the information processing apparatus 10 described above with reference to FIGS. 1 and 2, and includes a camera 11, a microphone 12, a display unit 13, and a speaker 14. It is a device that is capable of voice input / output and image input / output and executes voice recognition processing. Further, these terminals communicate with each other. For example, data communication via the Internet or the like is executed.
  • the remote user 52 on the remote side is a user unfamiliar with the operation of the remote terminal 200.
  • FIG. 3 shows user utterances for the local terminal 100 and the remote terminal 200 in time series as user utterances in steps S11 to S16. These utterances will be described sequentially below. Note that the local terminal 100 and the remote terminal 200 are in a state in which video and telephone conversations are being performed since images and sound are transmitted and received between each other.
  • Step S11 First, the remote user 52 makes the following user utterance toward the local user 51 displayed on the display unit of the remote terminal 200.
  • Remote user utterance what should I do? This user utterance is acquired by the microphone of the remote terminal 200, transmitted to the local terminal 100, and output via the speaker of the local terminal 100.
  • Step S12 the local user 51 makes the following user utterance toward the remote user 52 displayed on the display unit of the local terminal 100.
  • Local user utterance Grandpa, stand in front of the machine and look at the camera. This user utterance is acquired by the microphone of the local terminal 100, transmitted to the remote terminal 200, and output via the speaker of the remote terminal 200.
  • the remote user 52 performs an operation of standing in front of the machine and looking at the camera.
  • Local user utterance begin face registration over this user utterance is acquired by the microphone of the local terminal 100 and transmitted to the remote terminal 200.
  • the remote terminal 200 starts the face registration process of the remote user 52 currently being photographed by the camera.
  • the face registration process is a process of registering a face image captured by the terminal in the storage unit, and by performing the face registration process, the face image captured by the camera is associated with a predetermined user ID in a remote manner. It is stored in the storage unit of terminal 200.
  • the local terminal 100 needs to identify whether the user utterance is an utterance to the remote user 52 or an operation instruction to the remote terminal 200. This identification is performed by analyzing the user utterance. For example, when a predetermined utterance (word) such as “beyond”, “remotely”, or “face registration” is included in the user utterance, the local terminal 100 is an operation instruction to the remote terminal 200 for the user utterance. Is determined.
  • the user utterance in step S13 includes expressions (words) such as “beyond” and “face registration”, and the local terminal 100 determines that the user utterance is an operation instruction to the remote terminal 200.
  • the local terminal 100 transmits this operation instruction, specifically, the result of semantic analysis of the user utterance to the remote terminal 200.
  • the remote terminal 200 executes processing based on the user utterance according to the intention of the user utterance included in the received semantic analysis result. That is, the face registration process of the remote user 52 currently being photographed by the camera is started.
  • user utterances and user-captured images during communication between the local terminal 100 and the remote terminal 200 are transmitted and received between the terminals and output to the speaker and display unit of the counterpart terminal. That is, a dialogue between users similar to a videophone is executed between terminals, and various processes such as an operation instruction analysis process for the terminal and a face registration process by the terminal are performed in parallel with the conversation.
  • Step S14 the local user 51 utters the following user toward the remote user 52 displayed on the display unit of the local terminal 100.
  • Local side user utterance grandfather, shake your face left and right This user utterance is acquired by the microphone of the local terminal 100, transmitted to the remote terminal 200, and output through the speaker of the remote terminal 200.
  • the remote user 52 performs an operation of shaking the face left and right in accordance with the local user utterance.
  • Step S15 the remote user 52 makes the following user utterance toward the local user 51 displayed on the display unit of the remote terminal 200.
  • Remote user utterance is this OK? This user utterance is acquired by the microphone of the remote terminal 200, transmitted to the local terminal 100, and output via the speaker of the local terminal 100.
  • Step S16 the local user 51 makes the following user utterance toward the remote user 52 displayed on the display unit of the local terminal 100.
  • Local-side user utterance Yes. This user utterance is acquired by the microphone of the local terminal 100, transmitted to the remote terminal 200, and output through the speaker of the remote terminal 200.
  • the face registration processing of the remote user 52 by the remote terminal 200 is executed on the remote side. Even when the remote user 52 does not know how to perform the face registration process, the face registration process can be performed without any problem.
  • the processing of the present disclosure it is possible to simultaneously perform a real-time videophone conversation using an agent device and a voice operation on a remote terminal at a remote location.
  • FIG. 4 is a block diagram showing the configuration of the local terminal 100 and the remote terminal 200.
  • the local terminal 100 and the remote terminal 200 have the same configuration.
  • the local terminal 100 includes an image input unit 101, a voice input unit 102, an image recognition unit 103, a voice recognition unit 104, an information integration unit 105, a semantic analysis unit 106, an operation target terminal determination unit 107, an application execution unit 108, and a communication unit 109.
  • the remote terminal 200 includes an image input unit 201, a voice input unit 202, an image recognition unit 203, a voice recognition unit 204, an information integration unit 205, a semantic analysis unit 206, an operation target terminal determination unit 207, an application execution unit 208, and a communication unit 209.
  • the image input unit 101 is a camera that captures an image signal. For example, it is configured by a web camera (VGA or higher).
  • the image recognition unit 103 performs analysis of the camera-captured image signal input from the image input unit 101. For example, information about a person (user) is detected, identified, and estimated from a captured image.
  • the image recognition unit 103 includes a “face region detection unit” that detects a face region from the image, a “face identification unit” that identifies the face of the face region image, and a face region. "Face direction estimator” that estimates the direction of the face of the image relative to the camera, and estimates the direction of the line of sight relative to the camera for the face area image A “line-of-sight direction estimation unit” is included.
  • the face identification process by the “face identification unit” for identifying who is the face is identified by the collation process with the face image registered in advance and stored in the storage unit. If the face included in the captured image is not a registered face, a result indicating that identification is impossible is output.
  • the voice input unit 102 is a microphone that takes in a sound (voice) signal.
  • the voice recognition unit 104 converts the voice signal input from the voice input unit 102 into text information corresponding to the utterance content.
  • the voice recognition unit 104 has, for example, an ASR (Automatic Speech Recognition) function, and converts voice data into text data composed of a plurality of words.
  • the sound recognition unit 104 receives a “sound source direction estimation unit” that estimates the direction of the sound source (relative to the microphone array) of each signal for a plurality of sound (speech) signals input to the microphone array.
  • “speech section detection unit” that detects a section in which speech exists (estimates the start time and end time of the section), and corresponds to them based on the information on the sound source direction and the speech section
  • a “sound source extraction unit” for extracting an audio signal (signal output from the sound source) is also included.
  • the information integration unit 105 inputs an image recognition result generated by the image recognition unit 103, that is, an image analysis result including who the face image is included in the captured image, the face direction, and the line-of-sight direction information. Furthermore, the speech recognition result generated by the speech recognition unit 104, that is, the speech recognition result including the direction of the input speech signal, the speech section, the speech signal, and the like is input. Based on the input information, the information integration unit 105 performs a process of collecting each input information as information on a user (person) basis.
  • the semantic analysis unit 106 inputs text information corresponding to the user utterance that is the voice recognition result of the voice recognition unit 105, and analyzes the meaning of the utterance intended by the user using a technique such as natural language processing. .
  • the semantic analysis unit 106 has, for example, a natural language understanding function such as NLU (Natural Language Understanding), and from text data, an intention (intent) of a user utterance and a meaningful element (significant) included in the utterance Entity information (entity) which is an element) is estimated.
  • NLU Natural Language Understanding
  • the intention (intent) and the entity information (entity) can be accurately estimated and acquired from the user utterance, accurate processing for the user utterance can be performed. For example, in the above example, tomorrow's afternoon weather in Osaka can be obtained and output as a response.
  • the operation target terminal determination unit 107 inputs the analysis result of the semantic analysis unit 106, that is, the utterance intention of the user utterance and the semantic analysis result. Based on this input information, the terminal that is the operation target of the user utterance is the local terminal. Whether it is a remote terminal or no terminal.
  • the intention of the user utterance and the semantic analysis result which are the analysis results of the semantic analysis unit 106
  • the subsequent application execution unit 108 If it is determined that the terminal that is the operation target of the user utterance is a remote terminal, the intention of the user utterance and the semantic analysis result, which are the analysis results of the semantic analysis unit 106, are output to the subsequent communication unit 109.
  • the user utterance is not an utterance to the terminal in the intention and semantic analysis result of the user utterance as the analysis result of the semantic analysis unit 106 Is added to the application execution unit 108.
  • the application execution unit 108 inputs the intention of the user utterance that is the analysis result of the semantic analysis unit 106, the semantic analysis result, or the determination result that the user utterance is not an utterance to the terminal, and follows the intention of the user utterance Run the application.
  • the weather forecast information is acquired from the weather information providing server.
  • the terminal that the user utterance is the operation target is the local terminal 100 and, for example, the user utterance is an utterance requesting face registration
  • registration processing of a face included in the camera-captured image is started.
  • the application execution unit 108 performs the processing in particular. Absent.
  • the communication unit 109 analyzes the intention of the user utterance, which is the analysis result of the semantic analysis unit 106, and the semantic analysis result. And the input information is transmitted to the remote terminal 200. Further, the communication unit 109 receives information transmitted from the remote terminal 200 and outputs the received information to the application execution unit 108 of the local terminal 100.
  • the communication unit 109 also executes transmission / reception processing of images and audio signals for performing a videophone real-time conversation between the local terminal 100 and the remote terminal 200. That is, the camera-captured image acquired by the image input unit 101 and the audio signal acquired by the audio input unit 102 are transmitted to the remote terminal 200. Furthermore, the remote terminal 200 receives the camera captured image acquired by the image input unit 201 of the remote terminal 200 and the audio signal acquired by the audio input unit 202, and the image display unit 112 and the audio output unit 113 of the local terminal 100. Output via.
  • This image / speech transmission / reception process is continuously executed as a process independent of the speech signal utterance semantic analysis process.
  • the response information generation unit 110 receives the information output from the application execution unit 108 and generates response information to be presented to the user. For example, output information (voice information, image information) of weather forecast information is generated.
  • the response information includes GUI screen display information as an image, audio output information by sound, and at least one of these information.
  • the speech synthesis processing by the speech synthesis unit 111 is executed when the output by speech is performed.
  • the voice synthesis unit 111 receives, for example, text information that is response information to the user generated by the application execution unit 108 or the response information generation unit 110, and converts the text information into a voice signal (TTS: Run Text To Speech).
  • the image display unit 112 includes, for example, a display such as an LCD or an organic EL display, or a projector that performs projection display.
  • the image display unit 112 performs display processing of an image that is response information generated by the response information generation unit 110 based on the execution result of the application execution unit 108, for example, GUI screen display.
  • the audio output unit 113 is a speaker, and outputs an audio signal that is response information generated by the response information generation unit 110 based on the execution result of the application execution unit 108.
  • the image display unit 112 and the audio output unit 113 output the captured image of the image input unit 201 of the remote terminal 200 and the acquired audio of the audio input unit 202 together with the output of the application execution result information. That is, the image display unit 112 and the voice output unit 113 output a response as a processing result based on the voice recognition result of the user utterance, and also output a received image and voice from the counterpart terminal similar to the videophone. Process.
  • each terminal has constituent elements of a basic information processing apparatus, such as a storage unit that stores data, an input unit that can be operated by a user, a switch, and a power source.
  • a basic information processing apparatus such as a storage unit that stores data, an input unit that can be operated by a user, a switch, and a power source.
  • FIG. 5 is a sequence of processing executed in the local terminal 100 described with reference to FIG. Note that the same processing is executed in the remote terminal 200.
  • processing according to the flowchart shown in FIG. 5 can be executed in accordance with a program stored in the storage unit of the local terminal 100 that is an information processing apparatus, for example, by a processor such as a CPU having a program execution function. It can be performed as a program execution process.
  • a processor such as a CPU having a program execution function.
  • Steps S101 to S102 First, in steps S101 and S102, voice recognition processing and image recognition processing are executed.
  • the voice recognition process in step S101 is executed in the voice recognition unit 104.
  • the voice recognition unit 104 converts the voice signal input from the voice input unit 102 into text data composed of a plurality of words corresponding to the utterance content.
  • the speech recognition unit 104 performs “sound source direction estimation processing” for estimating the direction of the sound source, “speech segment detection processing” for detecting the speech existing section of the input speech signal, sound source direction and speech.
  • a “sound source extraction process” for extracting a sound signal corresponding to the section information (a signal output from the sound source) is also executed.
  • the image recognition process in step S102 is executed by the image recognition unit 103.
  • the image recognition unit 103 performs analysis of the camera-captured image signal input from the image input unit 101. For example, “face area detection process” for detecting a face area from an image, “face identification process” for identifying who the face is, “face direction estimation process” for estimating a face direction, “line of sight” for estimating a gaze direction
  • the direction estimation process is also executed.
  • Step S103 speaker estimation processing is executed.
  • This process is a process executed by the information integration unit 105.
  • the information integration unit 105 inputs an image recognition result generated by the image recognition unit 103, that is, an image analysis result including who the face image is included in the captured image, the face direction, and line-of-sight direction information. Furthermore, the speech recognition result generated by the speech recognition unit 104, that is, the speech recognition result including the direction of the input speech signal, the speech section, the speech signal, and the like is input.
  • the information integration unit 105 estimates which user is the speaker corresponding to the speech recognition result of the user utterance based on the input information.
  • Step S104 semantic analysis processing is executed.
  • This process is a process executed by the semantic analysis unit 106.
  • the semantic analysis unit 106 inputs text information corresponding to the user utterance that is the voice recognition result of the voice recognition unit 105, and analyzes the meaning of the utterance intended by the user using a technique such as natural language processing. .
  • a technique such as natural language processing.
  • it has a natural language understanding function such as NLU (Natural Language Understanding), and from text data, an intention information (intent) of a user utterance and entity information that is a meaningful element (significant element) included in the utterance (Entity: Entity) is estimated. If the intention (intent) and the entity information (entity) can be accurately estimated and acquired from the user utterance, accurate processing for the user utterance can be performed.
  • NLU Natural Language Understanding
  • Step S105 it is determined whether the user utterance is an utterance related to the terminal operation.
  • Terminals include both local terminals and remote terminals.
  • This process is a process executed by the operation target terminal determination unit 107.
  • the operation target terminal determination unit 107 inputs the analysis result of the semantic analysis unit 106, that is, the utterance intention of the user utterance and the semantic analysis result, and based on this input information, whether or not the user utterance is an utterance related to the terminal operation. Determine.
  • step S106 If it is determined that the user utterance is related to the terminal operation, the process proceeds to step S106. On the other hand, if it is determined that the user utterance is not related to terminal operation, the process returns to steps S101 to S102.
  • Step S106 If it is determined in step S105 that the user utterance is related to the terminal operation, the process proceeds to step S106, and in step S106, it is determined whether the terminal that is the operation target of the user utterance is a local terminal or a remote terminal. .
  • This process is also a process executed by the operation target terminal determination unit 107. Based on the analysis result of the semantic analysis unit 106, the operation target terminal determination unit 107 determines whether the terminal that is the operation target of the user utterance is a local terminal or a remote terminal.
  • steps S105 to S106 that is, (A) a process for determining whether or not the user utterance relates to a terminal operation; (B) a process for determining whether a terminal that is operated by a user utterance is a local terminal or a remote terminal; These are executed based on the analysis result of the semantic analysis unit 106 of the user utterance. These specific processing examples will be described later.
  • step S106 If it is determined in step S106 that the terminal that is the target of user utterance is a local terminal, the process proceeds to step S107. On the other hand, if it is determined that the terminal that is the operation target of the user utterance is a remote terminal, the process proceeds to step S111.
  • Step S107 If it is determined in step S106 that the terminal that is the operation target of the user utterance is a local terminal, the process proceeds to step S107.
  • step S107 processing by the application execution unit 108 of the local terminal is executed.
  • the operation target terminal determination unit 107 of the local terminal determines in the determination process of step S106 that the terminal that is the operation target of the user utterance is a local terminal, the intention of the user utterance that is the analysis result of the semantic analysis unit 106, The semantic analysis result is output to the subsequent application execution unit 108.
  • the application execution unit 108 executes application processing according to the intention of the user utterance, which is the analysis result of the semantic analysis unit 106, and the semantic analysis result. For example, when the user utterance is an utterance that is listening to the weather forecast, the weather forecast information is acquired from the weather information providing server. Further, for example, when the user utterance is an utterance requesting face registration, processing corresponding to the intention of the user utterance is executed, such as starting registration processing of a face included in the camera-captured image.
  • the processing according to these applications is executed as processing involving response information generation processing in step S108, image display processing in step S109, and audio output processing. That is, the response information generation unit 110 receives the information output from the application execution unit 108 and generates response information to be presented to the user. For example, output information (voice information, image information) of weather forecast information is generated.
  • the image display unit 112 performs display processing of the image information generated by the response information generation unit 110
  • the audio output unit 113 performs output processing of the audio information generated by the response information generation unit 110.
  • Step S111 On the other hand, if it is determined in step S106 that the terminal that is the user's utterance operation target is a remote terminal, the process proceeds to step S111.
  • the operation information is transmitted to the operation target terminal, that is, the remote terminal. Specifically, the intention of the user utterance and the semantic analysis result generated as the analysis processing result of the semantic analysis unit 106 for the user utterance are transmitted via the communication unit 109.
  • the remote terminal 200 receives the intention of the user utterance and the semantic analysis result via the communication unit 209, inputs this received information to the application execution unit 208 on the remote terminal 200 side, and the application execution unit 208 of the remote terminal 200.
  • the application processing according to the intention of the user utterance and the semantic analysis result is executed. For example, when the user utterance is an utterance requesting face registration on the remote terminal 200 side, registration processing of the user utterance such as starting registration processing of a face included in the camera-captured image input from the image input unit 201 of the remote terminal 200 is performed. Perform processing according to the intention.
  • Step S112 The process of step S112 is an operation information input process from another terminal (remote terminal).
  • the utterance of the remote user input to the remote terminal 200 is analyzed by the semantic analysis unit 206 of the remote terminal 200.
  • the operation target terminal determination unit 207 of the remote terminal 200 determines that the user utterance requests operation of the local terminal based on the analysis result
  • the analysis result of the semantic analysis unit 206 that is, the user on the remote terminal side
  • the intention of speech and the result of semantic analysis are transmitted to the local terminal 100 via the communication unit 209.
  • the local terminal 100 receives the intention and semantic analysis result of the user utterance of the remote terminal side user from the remote terminal 200 via the communication unit 109, and inputs the received information to the application execution unit 108 on the local terminal 100 side.
  • the application execution unit 108 of the local terminal 100 executes application processing according to the intention of the user utterance on the remote terminal side and the semantic analysis result.
  • both the local terminal and the remote terminal determine which terminal the user utterance is the operation request based on the semantic analysis result of the user utterance, and the meaning of the user utterance to the terminal that is the operation request target. Performs processing to send analysis results.
  • transmission and reception of images and sounds are executed between the local terminal 100 and the remote terminal 200, as in a normal videophone, and between the local user and the remote user.
  • a videophone-like dialogue takes place.
  • the operation target terminal determination unit 107 determines whether or not the user utterance is an utterance related to the terminal operation, and when the user utterance is an utterance related to the terminal operation, A process for determining whether the operation target terminal is a local terminal or a remote terminal is executed.
  • the operation target terminal determination unit 107 performs the determination process based on the analysis result of the semantic analysis unit 106, that is, the utterance intention of the user utterance and the semantic analysis result. A specific example of this determination process will be described with reference to FIG.
  • the example shown in FIG. 6 is a processing example for determining the user utterances uttered by each user when there are a plurality of users on the local side.
  • a local terminal 100 is placed on the local side
  • a remote terminal 200 is placed on the remote side, and communicate with each other.
  • On the local side there are a ma 351, a dad 352, and a plurality of children 353 as local users.
  • the local user (mama) 351 is trying to execute an operation request to the remote terminal 200 while having a videophone conversation with the remote user (grandmother) 251.
  • the local user (daddy) 352 and the local user (child) 353 have a conversation between the local users.
  • the voice input unit (microphone) 102 of the local terminal 100 inputs all local user utterances. All these utterances are transmitted to the remote terminal 200 as they are and are output via the audio output unit (speaker) 213 of the remote terminal 200 as in the case of the videophone. Further, the operation target terminal determination unit 107 of the local terminal 100 performs the following determination processing for all user utterances on the local side based on the analysis result of the semantic analysis unit 106, that is, the utterance intention of the user utterance and the semantic analysis result. Execute. (A) whether or not the user utterance relates to terminal operation, (B) Whether the terminal that is the operation target of the user utterance is a local terminal or a remote terminal,
  • FIG. 6 shows the following two types of utterances.
  • Both of these two utterances contain expressions that mean the remote side “Ochanchanchi” or “Ochanchan”, but the user's utterance in (A) is executed by the terminal “face registration”. Contains expressions (words) for possible processing. On the other hand, the user utterance (B) does not include expressions (words) related to processing that can be executed by the terminal.
  • the semantic analysis unit 106 and the operation target terminal determination unit 107 of the local terminal 100 execute the following processing based on the semantic analysis results of the two user utterances. It is determined from “Ochanchanchi” and “face registration” included in the user utterance in (A) that the intention of the user utterance is a face registration processing request in the remote terminal 200, and this semantic analysis result is sent to the remote terminal 200. Send. It is determined that the intention of the user's utterance is not a processing request for the terminal because “the grandmother” and “good” included in the user's utterance in (B), and this semantic analysis result is rejected.
  • FIG. 7 is also a setting example similar to FIG. 6, and is a processing example for determining the user utterances uttered by each user when there are a plurality of users on the local side.
  • FIG. 7 shows the following two types of utterance examples.
  • (B) User utterance example in which it is determined that the operation object is not equal to the terminal User utterance (daddy) “Play over there”
  • Both of these two utterances include an expression meaning the remote side “beyond”, but the user utterance (A) is an expression (word) related to the process that can be executed by the terminal “face registration”. )It is included.
  • the user utterance (B) does not include expressions (words) related to processing that can be executed by the terminal.
  • the semantic analysis unit 106 and the operation target terminal determination unit 107 of the local terminal 100 execute the following processing based on the semantic analysis results of the two user utterances.
  • the intention of the user utterance is determined to be a face registration processing request in the remote terminal 200 from “beyond” and “face registration” included in the user utterance in (A), and the semantic analysis result is transmitted to the remote terminal 200. To do. It is determined that the intention of the user utterance is not a processing request for the terminal from “beyond” and “please play” included in the user utterance in (B), and this semantic analysis result is rejected.
  • FIG. 8 shows the following two types of utterance examples.
  • B User utterance example in which it is determined that the operation object is not equal to the terminal
  • Each utterance of (a1) and (b1) is the utterance described with reference to FIG. Assume that (a2) and (b2) are made after these utterances. Both of these two utterances (a2) and (b2) include the expression “remote side”, which means the remote side, but the user utterance (a2) has a terminal “microphone setting”. Expressions (words) relating to executable processing are included, and it can be determined that the request is a processing request to the terminal.
  • the user utterance (b2) also includes an expression (word) that may be determined as a process that can be executed by the terminal “begin”.
  • word an expression that may be determined as a process that can be executed by the terminal “begin”.
  • the operation target terminal determination unit 107 of the local terminal 100 uses the semantic analysis result of the two user utterances (a2) and (b2) and the image recognition result to perform the following. Execute the process. It is determined from “the other side” and “microphone setting” included in the user utterance (a2) that the intention of the user utterance is a face registration processing request in the remote terminal 200, and the semantic analysis result is transmitted to the remote terminal 200. To do.
  • the intention of the user utterance is a processing request for the terminal from “Beside” and “Begin” included in the user utterance of (b2)
  • the utterance executing user (daddy) from the image recognition result Since the face direction and the line-of-sight direction of 352 do not face the local terminal 100, it is determined that the request is not a processing request for the terminal, and the semantic analysis result is rejected.
  • the following two utterances are made continuously.
  • (B1) User utterance (daddy) “Play over there”
  • (B2) User utterance (daddy) “Begin over there”
  • the preceding utterance (b1) of these two consecutive utterances can be determined not to be a processing request to the terminal based only on the semantic analysis result.
  • the subsequent utterance (b2) may also be subjected to processing for determining that there is a high possibility that it is not a processing request for the terminal.
  • the operation target terminal determination unit 107 can also perform determination processing using such “speech context information”.
  • the operation target terminal determination unit 107 determines whether or not the user utterance is an utterance related to the terminal operation, and further, the user utterance is an utterance related to the terminal operation. First, a process for determining whether the operation target terminal is a local terminal or a remote terminal is executed. The operation target terminal determination unit 107 performs determination processing using the analysis result of the semantic analysis unit 106 and the image recognition result generated by the image recognition unit 103.
  • FIG. 9 shows an example of analysis processing of the semantic analysis unit 106.
  • the user utterance is decomposed into a plurality of phrases.
  • phrase A is composed of expressions that mean the remote terminal 200 side.
  • phrase B is composed of expressions that mean specific operation objects. Note that particles such as “(no)” and “(o)” may be omitted in the utterance or the speech recognition result text.
  • Phrase C is composed of expressions meaning specific operation contents.
  • the remote terminal 200 it is possible to cause the remote terminal 200 to execute various processes in accordance with a user instruction on the local terminal 100 side.
  • processing to be executed by the remote terminal 200 a processing sequence in the case of performing face registration processing of a remote user will be described with reference to FIG.
  • FIG. 10 sequentially shows an example of performing face registration of the remote side user (grandmother) on the remote terminal 200 side by voice operation of the local side user (mama) on the local terminal 100 side. Processing proceeds in the order of (1) to (4).
  • (1) shows a state before face registration is started, and a local user (mama) on the local terminal 100 side and a remote user (grandmother) on the remote terminal 200 side have a real-time conversation. ing.
  • the user utterance is input to the local terminal 100.
  • the semantic analysis unit 106 of the local terminal 100 executes the semantic analysis of the user utterance and inputs the semantic analysis result to the operation target terminal determination unit 107.
  • the operation target terminal determination unit 107 determines that the user utterance is an utterance with the remote terminal 200 as an operation target based on the semantic analysis result, and transmits the semantic analysis result to the remote terminal 200.
  • the remote terminal 200 starts an application for executing the face registration process based on the semantic analysis result received from the local terminal 100 and starts the face registration process.
  • the remote terminal 200 outputs a voice guide from the terminal such as “I remember your face.
  • a face registration screen including a frame representing the position is displayed.
  • (3) represents a state in which face registration is performed on the remote terminal 200 side.
  • the user (grandmother) on the remote terminal 200 side locates the face in the frame in the face registration screen, so that the face is detected. By changing the color of the frame, the user is notified that the face has been properly detected. After that, a voice guide such as “Please move your face left and right while watching the screen” is output, and “Please move your face left and right” is also displayed on the screen, and the direction of the frame in the screen is changed By automatically displaying the screen so as to swing left and right, the user is encouraged to move his / her face left and right. In this way, in addition to registering a face facing the front, a face facing left or a face facing right is also registered. Furthermore, face registration in the vertical direction may be performed in addition to the horizontal direction.
  • (4) represents a state in which face registration has been completed on the remote terminal 200 side.
  • the face registration function automatically ends. Further, by performing an utterance such as “cancel remote face registration” on the local terminal 100 side, the face registration process on the remote terminal side can be forcibly terminated.
  • the terminals execute control of output information based on a face identification result based on a camera photographed image input via the image input unit.
  • This control is performed by a data processing unit having an output control unit function for executing output control for the image display units 112 and 212 and the audio output units 113 and 213.
  • the output control unit functions are included in the response information generation units 110 and 210 and the application execution units 108 and 208, and output information is controlled in any of these processing units.
  • a person identification process is executed based on a photographed image input from the image input unit 101 or audio information input from the audio input unit 102, and a third user other than the user registered in advance is detected. If this happens, output of privacy information and security information is stopped. In addition, even if a registered user detects a registered user whose attribute information indicating a third party other than a family is “registered user other than family”, the privacy information and security information are output. Stop.
  • the information to be output stopped is, for example, the following information.
  • Privacy information date of birth, bank, bank account information, health insurance card number, social insurance number, income information, etc.
  • Security information credit card information, password information held on the remote terminal, etc.
  • -Content information Calendar application schedule information, message information, etc. Output of these privacy information and security information is stopped.
  • the output stop target data can be set and changed by the user.
  • the example shown in FIG. 11 shows a display example of (a) personal data and (b) schedule.
  • (a) the date of birth and personal number included in the personal data are set as output stop targets, that is, non-display data 381 as privacy information and security information.
  • (B) specific schedule information in the schedule is set in the non-display data 381 by the user.
  • the local terminal 100 and the remote terminal 200 include attribute information (name and face / voice identification) related to a terminal user, for example, a close relative such as a family, in the storage unit of each terminal. Data) can be registered.
  • attribute information name and face / voice identification data
  • register attribute information for helpers, visiting caregivers, neighbors, etc., together with attribute information indicating a third party other than family, such as “registered user other than family”. Has a possible configuration.
  • each terminal for example, a person identification process is executed based on a captured image input from the image input unit 101 or audio information input from the audio input unit 102 to detect and identify a registered user. It is possible to automatically output combined information.
  • the output control target information includes talking by recorded voice or synthesized voice, GUI screen, and the like.
  • the local user can use the local terminal 100 to record or input the following text as text output from the remote terminal 200 (system utterance). "Today is the day to go to day care” “Did you finish eating?” For example, such an utterance can be registered and output at a predetermined timing in the remote terminal 200.
  • the remote terminal 200 summarizes the response of the remote user acquired on the remote side and daily actions (for example, a summary of sensing information logs that could be sensed) ( For example, it can be transmitted to the local terminal 100 and periodically reported to the local user.
  • Report information includes the presence / absence of a response to an inquiry, the presence / absence information of a person detection regarding an elderly close relative, and the like.
  • the remote terminal 200 may send the information to the local terminal 100 when a pre-specified abnormality or emergency condition is met, such as no response to a question from the remote terminal 200 or no person detection. To the local user.
  • the remote registered user inputs the message to the remote terminal 200 and reports it to the user on the local terminal 100 side.
  • Registration of a message by a visiting caregiver and confirmation of a message by a user on the local terminal side can be performed by interactive interaction (voice operation) via each terminal.
  • the example shown in FIG. 13 is an example in which the remote user's response obtained by the remote terminal 200 and daily behavior (for example, a summary of sensing information logs that can be sensed) are transmitted to the local terminal 100 and output.
  • System utterances as usual. The system utterance is output to the local terminal 100 according to the information acquired by the remote terminal 200.
  • FIG. System utterance Message from helper.
  • An output example of this system utterance is shown. This is an example in which the local terminal 100 outputs a notification message from the remote terminal 200 when there is a message from a registered user other than a family member such as a visiting caregiver on the remote side.
  • FIG. 14 is an example of the hardware configuration of the information processing apparatus that configures the local terminal or the remote terminal described above with reference to FIG.
  • a CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to a program stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, processing according to the sequence described in the above-described embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs executed by the CPU 501 and data.
  • the CPU 501, ROM 502, and RAM 503 are connected to each other by a bus 504.
  • the CPU 501 is connected to an input / output interface 505 via a bus 504.
  • An input unit 506 including various switches, a keyboard, a mouse, a microphone, and a sensor, and an output unit 507 including a display and a speaker are connected to the input / output interface 505.
  • the CPU 501 executes various processes in response to a command input from the input unit 506 and outputs a processing result to the output unit 507, for example.
  • the storage unit 508 connected to the input / output interface 505 includes, for example, a hard disk and stores programs executed by the CPU 501 and various data.
  • a communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • BT Bluetooth
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and executes data recording or reading.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • the technology disclosed in this specification can take the following configurations.
  • An information processing apparatus having an operation target terminal determination unit that determines which information processing apparatus is a processing request.
  • the operation target terminal determination unit includes: Whether the user utterance is a processing request to the local terminal which is the information processing apparatus to which the user utterance is input, The information processing apparatus according to (1), wherein it is determined whether the processing request is for a remote terminal communicating with the local terminal.
  • the operation target terminal determination unit It is verified whether the user utterance includes an expression indicating a remote location where the remote terminal is located or an expression indicating a remote side user located at a remote location where the remote terminal is included, and the user utterance is The information processing apparatus according to (2), which determines whether or not the request is a processing request for a terminal.
  • the operation target terminal determination unit further includes: In (3), whether or not the user utterance includes an expression corresponding to an executable process of the terminal is determined, and whether or not the user utterance is a processing request to a remote terminal is determined according to the verification result.
  • Information processing device In (3), whether or not the user utterance includes an expression corresponding to an executable process of the terminal is determined, and whether or not the user utterance is a processing request to a remote terminal is determined according to the verification result.
  • the operation target terminal determination unit The information processing apparatus according to any one of (1) to (4), wherein whether or not the user utterance is a processing request to the information processing apparatus is determined based on a face direction or a line-of-sight direction of a user who performs the user utterance .
  • the operation target terminal determination unit includes: When it is determined that the user utterance is a processing request for a local terminal that is an information processing apparatus to which the user utterance is input, the application execution unit executes processing based on the semantic analysis result in the semantic analysis unit, When it is determined that the user utterance is a processing request for a remote terminal other than the information processing apparatus to which the user utterance is input, the semantic analysis result in the semantic analysis unit is transmitted to the remote terminal via the communication unit. (1) to (5) The information processing apparatus according to any one of the above.
  • the information processing apparatus An image input unit for inputting a photographed image; A voice input unit for inputting acquired voice; The information processing apparatus according to any one of (1) to (6), further including a communication unit that transmits the input image of the image input unit and the acquired sound of the sound acquisition unit to the remote terminal.
  • the information processing apparatus further includes: From the remote terminal, a communication unit that receives the semantic analysis result of the user utterance on the remote terminal side, The information processing apparatus according to any one of (1) to (7), further including an application execution unit that executes processing based on a semantic analysis result of a user utterance on the remote terminal side received via the communication unit.
  • the information processing apparatus An input information recognition unit for executing a person identification process based on the input information;
  • the information processing apparatus according to any one of (1) to (8), further including an output control unit that controls output information according to a person identification result in the input information recognition unit.
  • the input information recognition unit An image recognition unit that analyzes an image input from the image input unit and performs person identification, or The information processing apparatus according to (9), wherein the information processing apparatus is at least one of a voice recognition unit that analyzes a voice input from a voice input unit and executes person identification.
  • An information processing system having a local terminal and a remote terminal,
  • the local terminal is A semantic analysis unit that executes a semantic analysis process of a user utterance input to the local terminal;
  • An operation target terminal determination unit that determines whether or not the user utterance is a processing request for the remote terminal based on a semantic analysis result generated by the semantic analysis unit;
  • the semantic analysis result in the semantic analysis unit has a communication unit that transmits to the remote terminal
  • the remote terminal is A communication unit for receiving a semantic analysis result of a user utterance on the local terminal side;
  • An information processing system having an application execution unit that executes processing based on a semantic analysis result of a user utterance on the local terminal side received via the communication unit.
  • the local terminal and the remote terminal are: The information processing system according to (11), which is configured to mutually transmit and receive a captured image and acquired sound.
  • An information processing method executed in the information processing apparatus The semantic analysis unit executes semantic analysis processing of user utterances, The operation target terminal determination unit determines whether or not the user utterance is a processing request to the information processing device based on the semantic analysis result generated by the semantic analysis unit, and the user utterance is processed to the information processing device.
  • An information processing method executed in an information processing system having a local terminal and a remote terminal The local terminal is Semantic analysis processing of user utterances input to the local terminal; An operation target terminal determination process for determining whether the user utterance is a process request for the remote terminal based on a semantic analysis result of the semantic analysis process; If it is determined that the user utterance is a processing request for the remote terminal, the semantic analysis result in the semantic analysis unit is transmitted to the remote terminal, The remote terminal is Receiving the semantic analysis result of the user utterance on the local terminal side, An information processing method for executing processing based on a semantic analysis result of a received user utterance on a local terminal side.
  • a program for executing information processing in an information processing device Let the semantic analysis unit execute semantic analysis processing of user utterances, The operation target terminal determination unit determines whether or not the user utterance is a processing request for the information processing device based on the semantic analysis result generated by the semantic analysis unit, and further, the user utterance is processed for the information processing device. If it is a request, a program for executing processing for determining which information processing apparatus is a processing request.
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
  • an apparatus and a method that allow a remote terminal to execute a process based on a user utterance on the local terminal side are realized.
  • the local terminal executes a semantic analysis process of the user utterance input to the local terminal, and the user utterance requests a processing request to the remote terminal based on the semantic analysis result It is determined whether or not. Further, when the user utterance is a processing request to the remote terminal, the semantic analysis result in the semantic analysis unit is transmitted to the remote terminal.
  • the remote terminal receives the semantic analysis result of the user utterance on the local terminal side, and executes processing based on the received semantic analysis result of the user utterance on the local terminal side.

Abstract

ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法を実現する。ローカル端末とリモート端末を有し、ローカル端末は、ローカル端末に入力されたユーザ発話の意味解析処理を実行し、意味解析結果に基づいてユーザ発話がリモート端末に対する処理要求であるか否かを判定する。さらに、ユーザ発話がリモート端末に対する処理要求である場合、意味解析部における意味解析結果を、リモート端末に送信する。リモート端末は、ローカル端末側のユーザ発話の意味解析結果を受信し、受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に基づく処理をローカル端末やリモート端末に実行させる情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
 この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 このようなシステム発話を出力する。
 なお、音声認識処理を開示した従来技術として、例えば特許文献1(特開2008-146054号公報)がある。
 最近は、ユーザ発話の音声認識結果に基づく処理や応答を行う端末として、スマートスピーカーあるいはエージェント機器の利用が増加している。
 しかし、このような装置は、例えば高齢者等、情報処理機器の操作に不慣れなユーザにとって十分に使いこなすことが困難であるという問題がある。
 例えば、高齢の近親者が住んでいる遠隔地の住居(実家)にエージェント機器を設置したいが、機器の設定や日常的な管理や操作を高齢者にまかせることは難しいといった場合も多い。
 高齢者の住む遠隔地に設置したエージェント機器を操作する場合に、遠隔地に住む高齢者に対して、エージェント機器の操作方法を電話等で伝え、高齢者が直接操作する等の処理も可能ではあるが、うまく操作出来ない可能性が高い。この状況は、PCや情報機器に関する問合せを行った高齢者に対して、サポート窓口担当者が、PCや機器の操作方法を口頭で説明してもなかなかうまく解決できないことに類似するものである。
特開2008-146054号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、遠隔地にあるリモート端末との通信を行うローカル端末を用いて、ローカル側のユーザ発話に基づく処理をリモート端末に実行させることを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 ユーザ発話の意味解析処理を実行する意味解析部と、
 前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する操作対象端末判定部を有する情報処理装置にある。
 さらに、本開示の第2の側面は、
 ローカル端末とリモート端末を有する情報処理システムであり、
 前記ローカル端末は、
 前記ローカル端末に入力されたユーザ発話の意味解析処理を実行する意味解析部と、
 前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定部と、
 前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する通信部を有し、
 前記リモート端末は、
 前記ローカル端末側のユーザ発話の意味解析結果を受信する通信部と、
 前記通信部を介して受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 意味解析部が、ユーザ発話の意味解析処理を実行し、
 操作対象端末判定部が、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する情報処理方法にある。
 さらに、本開示の第4の側面は、
 ローカル端末とリモート端末を有する情報処理システムにおいて実行する情報処理方法であり、
 前記ローカル端末が、
 前記ローカル端末に入力されたユーザ発話の意味解析処理と、
 前記意味解析処理の意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定処理と、
 前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する処理を実行し、
 前記リモート端末が、
 前記ローカル端末側のユーザ発話の意味解析結果を受信し、
 受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 意味解析部に、ユーザ発話の意味解析処理を実行させ、
 操作対象端末判定部に、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。
 具体的には、例えば、ローカル端末とリモート端末を有し、ローカル端末は、ローカル端末に入力されたユーザ発話の意味解析処理を実行し、意味解析結果に基づいてユーザ発話がリモート端末に対する処理要求であるか否かを判定する。さらに、ユーザ発話がリモート端末に対する処理要求である場合、意味解析部における意味解析結果を、リモート端末に送信する。リモート端末は、ローカル端末側のユーザ発話の意味解析結果を受信し、受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する。
 本構成により、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話に対する応答を行う情報処理装置の具体的な処理例について説明する図である。 情報処理装置の構成例と利用例について説明する図である。 本開示の情報処理装置の実行する処理の概要について説明する図である。 情報処理装置の構成例について説明する図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理の具体例について説明する図である。 ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理の具体例について説明する図である。 ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理の具体例について説明する図である。 ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理のためのユーザ発話の解析処理例について説明する図である。 ローカル端末からの指示で、リモート端末側で顔登録処理を行う場合の処理シーケンスについて説明する図である。 プライバシー情報やセキュリティ情報の出力制御処理例について説明する図である。 リモート側ユーザに対するリモート端末からのシステム発話出力例について説明する図である。 リモート側ユーザの観察情報や、伝言をローカル端末に出力する処理例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.情報処理装置の実行する処理の概要について
 2.情報処理装置の構成例について
 3.情報処理装置の実行する処理シーケンスについて
 4.ユーザ発話が端末に対する処理要求であるか否か、またどの端末に対する処理要求であるかを判定する処理の具体例について
 5.プライバシー情報やセキュリティ情報の出力制御処理について
 6.端末の設定処理、情報登録処理例について
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.情報処理装置の実行する処理の概要について]
 まず、図1以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。
 図1は、ユーザ1の発するユーザ発話を認識して応答を行う情報処理装置10の一処理例を示す図である。
 情報処理装置10は、ユーザの発話、例えば、
 ユーザ発話=「大阪の明日、午後の天気を教えて」
 このユーザ発話の音声認識処理を実行する。
 さらに、情報処理装置10は、ユーザ発話の音声認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して、生成した応答をスピーカー14を介して出力する。
 図1に示す例では、情報処理装置10は、以下のシステム応答を行っている。
 システム応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
 情報処理装置10は、音声合成処理(TTS:Text To Speech)を実行して上記のシステム応答を生成して出力する。
 情報処理装置10は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
 図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
 本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等のような様々な装置形態とすることが可能である。
 情報処理装置10は、ユーザ1の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図2に示すテレビ、エアコン等の外部機器30の制御も実行する。
 例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
 なお、情報処理装置10は、ネットワークを介してサーバ20と接続され、サーバ20から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
 昨今は、図1、図2を参照して説明した情報処理装置10としてのスマートスピーカーあるいはエージェント機器の利用が増加している。しかし、前述したように、このような装置は、例えば高齢者等、情報処理機器の操作に不慣れなユーザには、十分に使いこなすことが困難であるという問題がある。例えば、高齢の親が住んでいる遠隔地の住居(実家)にエージェント機器を設置したいが、機器の設定や日常的な管理や操作を高齢者にまかせることは難しいといった場合がある。
 本開示は、このような問題を解決するものであり、遠隔地のエージェント機器(リモート端末)との通信を実行する手元のエージェント機器(ローカル端末)を用いて、ローカル端末とリモート端末間でテレビ電話的な会話を行いながらリモート端末に様々な処理を実行させることを可能とするものである。
 図3を参照して、本開示の構成によって実行される処理の一例について説明する。
 図3下部には、右にローカル側、左にリモート側を示している。ローカル側には、ローカル側ユーザ51がおり、ローカル端末100がある。一方、リモート側にはリモート側ユーザ52がおり、リモート端末200がある。
 ローカル端末100、リモート端末200は、いずれも先に図1、図2を参照して説明した情報処理装置10と同様の構成であり、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能であり音声認識処理を実行する装置である。さらに、これらの端末は、相互に通信を実行する。例えばインターネット等を介したデータ通信を実行する。
 リモート側のリモート側ユーザ52は、リモート端末200の操作に不慣れなユーザである。
 図3には、ローカル端末100とリモート端末200に対するユーザ発話を時系列に、ステップS11~S16のユーザ発話として示している。これらの発話について、以下、順次、説明する。
 なお、ローカル端末100とリモート端末200間は、相互に画像と音声が送受信されており、テレビ電話的な会話が実行されている状態である。
  (ステップS11)
 まず、リモート側ユーザ52が、リモート端末200の表示部に表示されたローカル側ユーザ51に向かって以下のユーザ発話を行う。
 リモート側ユーザ発話=どうすればいいの?
 このユーザ発話は、リモート端末200のマイクによって取得され、ローカル端末100に送信されてローカル端末100のスピーカーを介して出力される。
  (ステップS12)
 次に、ローカル側ユーザ51が、ローカル端末100の表示部に表示されたリモート側ユーザ52に向かって以下のユーザ発話を行う。
 ローカル側ユーザ発話=お婆ちゃん、機械の前に立ってカメラを見てね
 このユーザ発話は、ローカル端末100のマイクによって取得され、リモート端末200に送信されてリモート端末200のスピーカーを介して出力される。
 リモート側ユーザ52は、このローカル側ユーザ発話に応じて、機械の前に立ってカメラを見る動作を行う。
  (ステップS13)
 次に、ローカル側ユーザ51は、ローカル端末100に対する指示発話(=遠隔音声操作)として、以下のユーザ発話を行う。
 ローカル側ユーザ発話=向こうで顔登録を始めて
 このユーザ発話は、ローカル端末100のマイクによって取得され、リモート端末200に送信される。リモート端末200は、このユーザ発話に従って、現在、カメラが撮影中のリモート側ユーザ52の顔登録処理を開始する。
 なお、顔登録処理は、端末によって撮影された顔画像を記憶部に登録する処理であり、顔登録処理を行うことで、カメラによって撮影された顔画像が所定のユーザIDに対応付けられてリモート端末200の記憶部に格納される。
 なお、この処理に際しては、ローカル端末100は、ユーザ発話がリモート側ユーザ52に対する発話であるか、リモート端末200に対する操作指示であるかを識別することが必要となる。
 この識別は、ユーザ発話の解析によって行われる。例えば、「向こうで」、「リモートで」、「顔登録」といった、予め規定された発話(単語)がユーザ発話に含まれる場合、ローカル端末100は、ユーザ発話がリモート端末200に対する操作指示であると判定する。
 ステップS13のユーザ発話には、「向こうで」や「顔登録」という表現(ワード)が含まれ、ローカル端末100は、ユーザ発話がリモート端末200に対する操作指示であると判定する。ローカル端末100は、この操作指示、具体的にはユーザ発話の意味解析結果をリモート端末200に送信する。リモート端末200は、受信した意味解析結果に含まれるユーザ発話の意図に従い、ユーザ発話に基づく処理を実行する。すなわち、現在、カメラが撮影中のリモート側ユーザ52の顔登録処理を開始する。
 なお、ローカル端末100とリモート端末200間の通信実行中のユーザ発話やユーザ撮影画像は端末間で送受信され、相手側端末のスピーカーや表示部に出力される。すなわち、端末間ではテレビ電話と同様のユーザ間の対話が実行され、この対話に並列した処理として、端末に対する操作指示の解析処理、端末による顔登録処理等の様々な処理が行われる。
  (ステップS14)
 さらに、ローカル側ユーザ51は、ローカル端末100の表示部に表示されたリモート側ユーザ52に向かって以下のユーザ発話を行う。
 ローカル側ユーザ発話=お婆ちゃん、顔を左右に振ってみて
 このユーザ発話は、ローカル端末100のマイクによって取得され、リモート端末200に送信されてリモート端末200のスピーカーを介して出力される。
 リモート側ユーザ52は、このローカル側ユーザ発話に応じて、顔を左右に振る動作を行う。
  (ステップS15)
 次に、リモート側ユーザ52が、リモート端末200の表示部に表示されたローカル側ユーザ51に向かって以下のユーザ発話を行う。
 リモート側ユーザ発話=これでいいの?
 このユーザ発話は、リモート端末200のマイクによって取得され、ローカル端末100に送信されてローカル端末100のスピーカーを介して出力される。
  (ステップS16)
 次に、ローカル側ユーザ51は、ローカル端末100の表示部に表示されたリモート側ユーザ52に向かって以下のユーザ発話を行う。
 ローカル側ユーザ発話=そうそう
 このユーザ発話は、ローカル端末100のマイクによって取得され、リモート端末200に送信されてリモート端末200のスピーカーを介して出力される。
 この一連のユーザ発話と対話によって、リモート側では、リモート端末200によるリモート側ユーザ52の顔登録処理が実行されることになる。
 リモート側ユーザ52が顔登録処理のやり方を知らない場合でも、問題なく顔登録処理を行うことが可能となる。
 このように本開示の処理では、エージェント機器を利用してテレビ電話的なリアルタイムの会話と、遠隔地にあるリモート端末に対する音声による操作を同時に実行することが可能となる。
  [2.情報処理装置の構成例について]
 次に、図4を参照して、本開示の情報処理装置、すなわち図3を参照して説明したローカル端末100とリモート端末200の具体的な構成例について説明する。
 図4は、ローカル端末100とリモート端末200の構成を示すブロック図である。
 図4に示すように、ローカル端末100とリモート端末200は同様の構成を有する。
 ローカル端末100は、画像入力部101、音声入力部102、画像認識部103、音声認識部104、情報統合部105、意味解析部106、操作対象端末判定部107、アプリケーション実行部108、通信部109、応答情報生成部110、音声合成部111、画像表示部112、音声出力部113を有する。
 リモート端末200は、画像入力部201、音声入力部202、画像認識部203、音声認識部204、情報統合部205、意味解析部206、操作対象端末判定部207、アプリケーション実行部208、通信部209、応答情報生成部210、音声合成部211、画像表示部212、音声出力部213を有する。
 いずれも同一構成であるので、代表して、ローカル端末100の構成要素について、以下説明する。
 画像入力部101は、画像信号を取り込むカメラである。例えば、(VGA以上の)ウェブカメラによって構成される。
 画像認識部103は、画像入力部101から入力するカメラ撮影画像信号の解析を実行する。例えば、撮影画像から、人(ユーザ)に関する情報を検出、識別、推定する。なお、画像認識部103には、画像から顔の領域を検出する「顔領域検出部」、顔領域画像を対象に、それが誰の顔であるかを識別する「顔識別部」、顔領域画像を対象に、その顔がカメラに対してどの方向に向いているかを推定する「顔方向推定部」、顔領域画像を対象に、視線がカメラに対してどの方向に向いているかを推定する「視線方向推定部」が含まれる。なお、誰の顔であるかを識別する「顔識別部」による顔識別処理は、予め登録され、記憶部に格納された顔画像との照合処理により誰の顔であるかを識別する。撮影画像に含まれる顔が、登録済みの顔でない場合は、識別不可との結果を出力する。
 音声入力部102は、音(音声)信号を取り込むマイクである。例えば、4チャンネル以上のマイクロフォン・アレイによって構成される。
 音声認識部104は、音声入力部102から入力する音声信号をその発話内容に対応したテキスト情報に変換する。音声認識部104は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。音声認識部104には、マクロフォン・アレイに入力される複数の音(音声)信号に対して、各信号の(マイクロフォン・アレイに対する)音源の方向を推定する「音源方向推定部」、入力される音(音声)信号において、音声が存在する区間を検出する(区間の開始時刻と終了時刻を推定する)「音声区間検出部」、音源方向と音声区間の情報に基づいて、それらに対応する音声信号(その音源から出されている信号)を抽出する「音源抽出部」も含まれる。
 情報統合部105は、画像認識部103の生成した画像認識結果、すなわち撮影画像に含まれる顔画像が誰であるか、その顔の方向、視線方向情報含む画像解析結果を入力する。さらに、音声認識部104の生成した音声認識結果、すなわち、入力音声信号の方向、音声区間、音声信号等を含む音声認識結果を入力する。情報統合部105は、これらの入力情報に基づいて、各入力情報をユーザ(人)単位の情報としてまとめ上げる処理を行う。
 意味解析部106は、音声認識部105の音声認識結果であるユーザ発話に対応したテキスト情報を入力して、自然言語処理等の技術を用いて、ユーザが意図している発話の意味を解析する。意味解析部106は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 具体例について説明する。例えば以下のユーザ発話が入力されたとする。
 ユーザ発話=明日の大阪の午後の天気を教えて
 このユーザ発話の、
 意図(インテント)は、天気を知りたいであり、
 実体情報(エンティティ)は、大阪、明日、午後、これらのワードである。
 ユーザ発話から、意図(インテント)と、実体情報(エンティティ)を正確に推定、取得することができれば、ユーザ発話に対する正確な処理を行うことができる。
 例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。
 操作対象端末判定部107は、意味解析部106の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果を入力し、この入力情報に基づいて、ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるのか、あるいはどの端末でもないかを判定する。
 ユーザ発話が操作対象としている端末がローカル端末であると判定した場合は、意味解析部106の解析結果であるユーザ発話の意図、意味解析結果を後続するアプリケーション実行部108に出力する。
 また、ユーザ発話が操作対象としている端末がリモート端末であると判定した場合は、意味解析部106の解析結果であるユーザ発話の意図、意味解析結果を後続する通信部109に出力する。
 さらに、ユーザ発話が操作対象としている端末がローカル端末でもリモート端末でもないと判定した場合は、意味解析部106の解析結果であるユーザ発話の意図、意味解析結果に、ユーザ発話が端末に対する発話でないとの判定結果を付加してアプリケーション実行部108に出力する。
 アプリケーション実行部108は、意味解析部106の解析結果であるユーザ発話の意図、意味解析結果、あるいはこれらとユーザ発話が端末に対する発話でないとの判定結果を入力して、ユーザ発話の意図に従ったアプリケーションを実行する。
 具体的には、ユーザ発話が操作対象としている端末がローカル端末100であり、例えば、ユーザ発話が天気予報を聞いている発話である場合は、天気情報提供サーバから天気予報情報を取得する。また、ユーザ発話が操作対象としている端末がローカル端末100であり、例えば、ユーザ発話が顔登録を要求している発話である場合は、カメラ撮影画像に含まれる顔の登録処理を開始する。
 また、ユーザ発話が操作対象としている端末がローカル端末でもリモート端末でもないと判定されており、ユーザ発話が端末に対する発話でないとの判定結果を入力した場合は、アプリケーション実行部108は特に処理を行わない。
 通信部109は、操作対象端末判定部107において、ユーザ発話が操作対象としている端末がリモート端末であると判定された場合に、意味解析部106の解析結果であるユーザ発話の意図、意味解析結果を入力し、この入力情報をリモート端末200に送信する。
 さらに、通信部109は、リモート端末200から送信されてきた情報を受信し、ローカル端末100のアプリケーション実行部108に受信情報を出力する。
 また、通信部109は、ローカル端末100とリモート端末200間でテレビ電話的なリアルタイムの会話を行うための画像、音声信号の送受信処理も実行する。すなわち、画像入力部101の取得するカメラ撮影画像と、音声入力部102の取得する音声信号をリモート端末200に送信する。さらに、リモート端末200から、リモート端末200の画像入力部201の取得するカメラ撮影画像と、音声入力部202の取得する音声信号を受信して、ローカル端末100の画像表示部112、音声出力部113を介して出力する。
 この画像、音声の送受信処理は、音声信号の発話意味解析処理とは並列に独立した処理として継続的に実行される。
 応答情報生成部110は、アプリケーション実行部108から出力された情報を入力して、ユーザに対して提示する応答情報を生成する。
 例えば天気予報情報の出力情報(音声情報、画像情報)を生成する。
 応答情報としては、画像としてのGUI画面表示情報、あるいは音声による音声出力情報、少なくともこれらのいずれかの情報を含むものとなる。
 なお、応答情報生成部110においては、音声による出力を行う場合、音声合成部111による音声合成処理が実行される。音声合成部111は、例えば、アプリケーション実行部108、あるいは応答情報生成部110が生成したユーザへの応答情報であるテキスト情報を入力し、そのテキスト情報を音声信号へ変換する音声合成処理(TTS:Text To Speech)を実行する。
 画像表示部112は、例えばLCD、有機ELディスプレイ等のディスプレイ、あるいはプロジェクション表示を行うプロジェクタ等によって構成される。画像表示部112は、応答情報生成部110が、アプリケーション実行部108の実行結果に基づいて生成した応答情報である画像の表示処理、例えばGUI画面表示を行う。
 音声出力部113は、スピーカーであり、応答情報生成部110が、アプリケーション実行部108の実行結果に基づいて生成した応答情報である音声信号を出力する。
 なお、画像表示部112と、音声出力部113は、アプリケーション実行結果の情報の出力に併せて、リモート端末200の画像入力部201の撮影画像と、音声入力部202の取得音声も出力する。
 すなわち、画像表示部112と、音声出力部113は、ユーザ発話の音声認識結果に基づく処理結果としての応答を出力するとともに、テレビ電話と同様の相手端末からの受信画像、音声も併せて出力する処理を行う。
 なお、図4に示すブロック図には、ローカル端末100、リモート端末200の構成中、本開示の処理に利用される主要構成のみを示している。各端末は図4に示す構成の他、例えばデータを格納する記憶部、ユーザ操作可能な入力部、スイッチ、電源等、基本的な情報処理装置の有する構成要素を有している。
  [3.情報処理装置の実行する処理シーケンスについて]
 次に、情報処理装置の実行する処理シーケンスについて説明する。
 図5に示すフローチャートを参照して情報処理装置の実行する処理シーケンスについて説明する。図5に示すフローチャートは、図4を参照して説明したローカル端末100において実行する処理のシーケンスである。なお、リモート端末200においても同様の処理が実行される。
 なお、図5に示すフローチャートに従った処理は、例えば情報処理装置であるローカル端末100の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図5に示すフローの各ステップの処理について説明する。
  (ステップS101~S102)
 まず、ステップS101とステップS102において、音声認識処理と画像認識処理を実行する。
 ステップS101の音声認識処理は、音声認識部104において実行される。音声認識部104は、音声入力部102から入力する音声信号をその発話内容に対応した複数の単語から構成されるテキストデータに変換する。なお、ステップS101の音声認識処理では、音声認識部104は、音源の方向を推定する「音源方向推定処理」、入力音声信号の音声存在区間を検出する「音声区間検出処理」、音源方向と音声区間の情報に基づいて、それらに対応する音声信号(その音源から出されている信号)を抽出する「音源抽出処理」も実行する。
 ステップS102の画像認識処理は、画像認識部103において実行される。画像認識部103は、画像入力部101から入力するカメラ撮影画像信号の解析を実行する。例えば、画像から顔領域を検出する「顔領域検出処理」、誰の顔であるかを識別する「顔識別処理」、顔方向を推定する「顔方向推定処理」、視線方向を推定する「視線方向推定処理」も実行する。
  (ステップS103)
 次に、ステップS103において、発話者の推定処理を実行する。
 この処理は情報統合部105の実行する処理である。情報統合部105は、画像認識部103の生成した画像認識結果、すなわち撮影画像に含まれる顔画像が誰であるか、その顔の方向、視線方向情報含む画像解析結果を入力する。さらに、音声認識部104の生成した音声認識結果、すなわち、入力音声信号の方向、音声区間、音声信号等を含む音声認識結果を入力する。情報統合部105は、これらの入力情報に基づいて、ユーザ発話の音声認識結果に対応する発話者が、どのユーザであるかを推定する。
  (ステップS104)
 次に、ステップS104において、意味解析処理を実行する。
 この処理は、意味解析部106の実行する処理である。意味解析部106は、音声認識部105の音声認識結果であるユーザ発話に対応したテキスト情報を入力して、自然言語処理等の技術を用いて、ユーザが意図している発話の意味を解析する。例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。ユーザ発話から、意図(インテント)と、実体情報(エンティティ)を正確に推定、取得することができれば、ユーザ発話に対する正確な処理を行うことができる。
  (ステップS105)
 次に、ステップS105において、ユーザ発話が端末操作に関する発話であるか否かを判定する。端末にはローカル端末、リモート端末の双方が含まれる。
 この処理は、操作対象端末判定部107の実行する処理である。操作対象端末判定部107は、意味解析部106の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果を入力し、この入力情報に基づいて、ユーザ発話が端末操作に関する発話であるか否かを判定する。
 ユーザ発話が端末操作に関するものであると判定した場合は、ステップS106に進む。一方、ユーザ発話が端末操作に関するものでないと判定した場合は、ステップS101~S102に戻る。
  (ステップS106)
 ステップS105において、ユーザ発話が端末操作に関するものであると判定した場合は、ステップS106に進み、ステップS106において、ユーザ発話の操作対象としている端末がローカル端末であるかリモート端末であるかを判定する。
 この処理も、操作対象端末判定部107の実行する処理である。操作対象端末判定部107は、意味解析部106の解析結果に基づいて、ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるのかを判定する。
 このステップS105~S106の判定処理、すなわち、
 (a)ユーザ発話が端末操作に関するものであるか否かの判定処理と、
 (b)ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるのかの判定処理、
 これらは、ユーザ発話の意味解析部106の解析結果に基づいて実行される。これらの具体的な処理例については、後段において説明する。
 ステップS106において、ユーザ発話の操作対象としている端末がローカル端末であると判定した場合は、ステップS107に進む。
 一方、ユーザ発話の操作対象としている端末がリモート端末であると判定した場合は、ステップS111に進む。
  (ステップS107~S109)
 ステップS106の判定処理において、ユーザ発話の操作対象としている端末がローカル端末であると判定した場合は、ステップS107に進む。
 ステップS107では、ローカル端末のアプリケーション実行部108による処理を実行する。ローカル端末の操作対象端末判定部107は、ステップS106の判定処理において、ユーザ発話の操作対象としている端末がローカル端末であると判定した場合、意味解析部106の解析結果であるユーザ発話の意図、意味解析結果を後続するアプリケーション実行部108に出力する。
 アプリケーション実行部108は、意味解析部106の解析結果であるユーザ発話の意図、意味解析結果に従ったアプリケーション処理を実行する。例えば、ユーザ発話が天気予報を聞いている発話である場合は、天気情報提供サーバから天気予報情報を取得する。また、例えば、ユーザ発話が顔登録を要求している発話である場合は、カメラ撮影画像に含まれる顔の登録処理を開始する等、ユーザ発話の意図に応じた処理を実行する。
 なお、これらのアプリケーションに従った処理は、ステップS108の応答情報生成処理、ステップS109の画像表示処理、音声出力処理を伴う処理として実行される。すなわち、応答情報生成部110は、アプリケーション実行部108から出力された情報を入力して、ユーザに対して提示する応答情報を生成する。例えば天気予報情報の出力情報(音声情報、画像情報)を生成する。
 画像表示部112は、応答情報生成部110の生成した画像情報の表示処理を行い、音声出力部113は、応答情報生成部110の生成した音声情報の出力処理を行う。
  (ステップS111)
 一方、ステップS106の判定処理において、ユーザ発話の操作対象としている端末がリモート端末であると判定した場合は、ステップS111に進む。
 ステップS111では、操作対象端末、すなわちリモート端末に対して、操作情報を送信する。具体的には、ユーザ発話に対する意味解析部106の解析処理結果として生成されたユーザ発話の意図、意味解析結果を、通信部109を介して送信する。
 リモート端末200は、通信部209を介して、ユーザ発話の意図、意味解析結果を受信し、この受信情報をリモート端末200側のアプリケーション実行部208に入力して、リモート端末200のアプリケーション実行部208が、ユーザ発話の意図、意味解析結果に従ったアプリケーション処理を実行する。例えば、ユーザ発話がリモート端末200側での顔登録を要求する発話の場合は、リモート端末200の画像入力部201から入力するカメラ撮影画像に含まれる顔の登録処理を開始する等、ユーザ発話の意図に応じた処理を実行する。
  (ステップS112)
 ステップS112の処理は、別の端末(リモート端末)からの操作情報の入力処理である。
 例えば、リモート端末200に入力されたリモート側ユーザの発話は、リモート端末200の意味解析部206において解析される。リモート端末200の操作対象端末判定部207が、この解析結果に基づいてユーザ発話がローカル端末の操作を要求していると判定した場合、意味解析部206の解析結果、すなわち、リモート端末側のユーザ発話の意図、意味解析結果が、通信部209を介してローカル端末100に送信される。
 ローカル端末100は、通信部109を介して、リモート端末200からリモート端末側ユーザのユーザ発話の意図、意味解析結果を受信し、この受信情報をローカル端末100側のアプリケーション実行部108に入力して、ローカル端末100のアプリケーション実行部108が、リモート端末側のユーザ発話の意図、意味解析結果に従ったアプリケーション処理を実行する。
 このように、ローカル端末、リモート端末の双方は、ユーザ発話の意味解析結果に基づいて、ユーザ発話がどの端末に対する操作要求であるかを判別して、操作要求対象となる端末にユーザ発話の意味解析結果を送信する処理を行う。
 なお、図5に示すフローチャートに従った処理に並行して、ローカル端末100とリモート端末200間では通常のテレビ電話と同様、画像、音声の送受信が実行され、ローカル側ユーザとリモート側ユーザ間ではテレビ電話的な対話が行われる。
  [4.ユーザ発話が端末に対する処理要求であるか否か、またどの端末に対する処理要求であるかを判定する処理の具体例について]
 次に、図6以下を参照して、ユーザ発話が端末に対する処理要求であるか否か、またどの端末に対する処理要求であるかを判定する処理の具体例について説明する。
 図5のフローチャートのステップS105、S106において、操作対象端末判定部107は、ユーザ発話が端末操作に関する発話であるか否かを判定し、さらに、ユーザ発話が端末操作に関する発話である場合には、操作対象端末が、ローカル端末であるのか、あるいはリモート端末であるのかの判定処理を実行する。
 操作対象端末判定部107は、意味解析部106の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果に基づいて上記の判定処理を行う。図6以下を参照して、この判定処理の具体例について説明する。
 図6に示す例は、ローカル側にユーザが複数いる状態で、各ユーザの発するユーザ発話を判定する処理例である。
 図6に示すように、ローカル側にはローカル端末100、リモート側にはリモート端末200が置かれ、相互に通信を行っている。
 ローカル側には、ローカル側ユーザとして、ママ351、パパ352、複数の子供353がいる。一方リモート側にはリモート側ユーザとしてお婆ちゃん251がいる。
 ローカル側ユーザ(ママ)351は、リモート側ユーザ(お婆ちゃん)251と、テレビ電話的に会話しつつ、リモート端末200に対して操作要求を実行しようとしている。
 これと同時にローカル側ユーザ(パパ)352と、ローカル側ユーザ(子供)353は、ローカル側ユーザ間の会話を行っている。
 ローカル端末100の音声入力部(マイク)102は、これらローカル側のすべてのユーザ発話を入力する。これらの全ての発話は、テレビ電話と同様、そのままリモート端末200に送信されリモート端末200の音声出力部(スピーカー)213を介して出力される。
 さらに、ローカル端末100の操作対象端末判定部107は、意味解析部106の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果に基づいて、ローカル側のすべてのユーザ発話について、以下の判定処理を実行する。
 (a)ユーザ発話が端末操作に関するものであるか否か、
 (b)ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるか、
 図6には、以下の2種類の発話例を示している。
 (A)操作対象=リモート端末と判定するユーザ発話例
 ユーザ発話(ママ)=「お婆ちゃんちの顔登録を始めて」
 (B)操作対象≠端末と判定するユーザ発話例
 ユーザ発話(パパ)=「お婆ちゃん、うまく出来てる?」
 これら2つの発話は、いずれも、「お婆ちゃんち」、または「お婆ちゃん」というリモート側を意味する表現が含まれているが、(A)のユーザ発話には「顔登録」という端末の実行可能な処理に関する表現(ワード)が含まれている。一方(B)のユーザ発話には端末の実行可能な処理に関する表現(ワード)が含まれていない。
 ローカル端末100の意味解析部106と、操作対象端末判定部107は、この2つのユーザ発話の意味解析結果に基づいて、以下の処理を実行する。
 (A)のユーザ発話に含まれる「お婆ちゃんち」と「顔登録」からユーザ発話の意図が、リモート端末200における顔登録の処理要求であると判定し、この意味解析結果をリモート端末200に送信する。
 (B)のユーザ発話に含まれる「お婆ちゃん」と「うまく出来てる」からユーザ発話の意図が、端末に対する処理要求でないと判定し、この意味解析結果を棄却する。
 なお、図6に示すユーザ発話例において、
 (A)操作対象=リモート端末と判定するユーザ発話例
 ユーザ発話(ママ)=「お婆ちゃんちの顔登録を始めて」
 このユーザ発話は、「お婆ちゃんち」というリモート側を意味する表現が含まれているため、リモート端末200に対する処理要求であると判定している。
 例えば、以下のようなユーザ発話がなされた場合、
 ユーザ発話(ママ)=「顔登録を始めて」
 このユーザ発話がなされた場合は、このユーザ発話にはリモート側を意味する表現が含まれていない。このような場合は、操作対象端末判定部107は、このユーザ発話がローカル端末100に対する処理要求であると判定し、ローカル端末100のアプリケーション実行部108において起動されるアプリケーションにより顔登録を開始する。
 図7に示す例も図6と同様の設定であり、ローカル側にユーザが複数いる状態で、各ユーザの発するユーザ発話を判定する処理例である。
 図7には、以下の2種類の発話例を示している。
 (A)操作対象=リモート端末と判定するユーザ発話例
 ユーザ発話(ママ)=「向こうで顔登録を始めて」
 (B)操作対象≠端末と判定するユーザ発話例
 ユーザ発話(パパ)=「向こうで遊んでなさい」
 これら2つの発話は、いずれも、「向こうで」というリモート側を意味する表現が含まれているが、(A)のユーザ発話には「顔登録」という端末の実行可能な処理に関する表現(ワード)が含まれている。一方(B)のユーザ発話には端末の実行可能な処理に関する表現(ワード)が含まれていない。
 ローカル端末100の意味解析部106と、操作対象端末判定部107は、この2つのユーザ発話の意味解析結果に基づいて、以下の処理を実行する。
 (A)のユーザ発話に含まれる「向こうで」と「顔登録」からユーザ発話の意図が、リモート端末200における顔登録の処理要求であると判定し、この意味解析結果をリモート端末200に送信する。
 (B)のユーザ発話に含まれる「向こうで」と「遊んでなさい」からユーザ発話の意図が、端末に対する処理要求でないと判定し、この意味解析結果を棄却する。
 図8に示す例も図6と同様の設定であり、ローカル側にユーザが複数いる状態で、各ユーザの発するユーザ発話を判定する処理例である。
 図8には、以下の2種類の発話例を示している。
 (A)操作対象=リモート端末と判定するユーザ発話例
 (a1)ユーザ発話(ママ)=「向こうで顔登録を始めて」
 (a2)ユーザ発話(ママ)=「あっち側でマイク設定始めて」
 (B)操作対象≠端末と判定するユーザ発話例
 (b1)ユーザ発話(パパ)=「向こうで遊んでなさい」
 (b2)ユーザ発話(パパ)=「あっち側で始めなさい」
 (a1),(b1)の各発話は、図7を参照して説明した発話である。これらの発話の後に、(a2),(b2)の発話がなされたとする。
 これら(a2),(b2)の2つの発話は、いずれも、「あっち側」というリモート側を意味する表現が含まれているが、(a2)のユーザ発話には「マイク設定」という端末の実行可能な処理に関する表現(ワード)が含まれており、端末に対する処理要求であると判定することができる。
 一方(b2)のユーザ発話にも「始めなさい」という端末の実行可能な処理と判定される可能性を有する表現(ワード)が含まれている。
 この場合、意味解析部106における意味解析結果のみでは、(b2)のユーザ発話が、端末に対する処理要求であるか否かを判定することが困難となる。
 このような場合、操作対象端末判定部107は、画像認識部103の画像認識結果を利用した判定処理を行う。すなわち、ユーザ発話(パパ)=「あっち側で始めなさい」の発話を実行したユーザ(パパ)352の顔の向きや視線方向を取得し、顔の向きや視線方向が、ローカル端末100を向いているか否かを確認する。
 顔の向きや視線方向が、ローカル端末100を向いている場合、(b2)のユーザ発話は、端末に対する処理要求であると判定し、向いていない場合は端末に対する処理要求でないと判定する。
 図8に示す例では、ユーザ発話(パパ)=「あっち側で始めなさい」の発話を実行したユーザ(パパ)352の顔の向きや視線方向が、ローカル端末100を向いていないため、端末に対する処理要求でないと判定する。
 このように、図8に示す例では、ローカル端末100の操作対象端末判定部107は、(a2),(b2)の2つのユーザ発話の意味解析結果と、画像認識結果を利用して、以下の処理を実行する。
 (a2)のユーザ発話に含まれる「あっち側」と「マイク設定」からユーザ発話の意図が、リモート端末200における顔登録の処理要求であると判定し、この意味解析結果をリモート端末200に送信する。
 (b2)のユーザ発話に含まれる「あっち側」と「始めなさい」からユーザ発話の意図が、端末に対する処理要求であるかないかが不明確であるが、画像認識結果から、発話実行ユーザ(パパ)352の顔の向きや視線方向が、ローカル端末100を向いていないため、端末に対する処理要求でないと判定し、この意味解析結果を棄却する。
 なお、さらに、本例では、以下の2つの発話が連続的になされている。
 (b1)ユーザ発話(パパ)=「向こうで遊んでなさい」
 (b2)ユーザ発話(パパ)=「あっち側で始めなさい」
 これらの2つの連続発話の先行発話(b1)については先に図7を参照して説明したように、意味解析結果のみに基づいて端末に対する処理要求でないと判定可能である。このような場合、その後続発話(b2)についても、端末に対する処理要求でない可能性が高いと判定する処理を行ってもよい。操作対象端末判定部107は、このような「発話のコンテキスト情報」を用いた判定処理を行うことも可能である。
 図6~図8を参照して説明したように、操作対象端末判定部107は、ユーザ発話が端末操作に関する発話であるか否かを判定し、さらに、ユーザ発話が端末操作に関する発話である場合には、操作対象端末が、ローカル端末であるのか、あるいはリモート端末であるのかの判定処理を実行する。
 操作対象端末判定部107は、意味解析部106の解析結果や画像認識部103の生成する画像認識結果を利用した判定処理を行う。
 意味解析部106の解析結果に基づく判定処理を行う場合に利用するユーザ発話の解析処理の一例について、図9を参照して説明する。
 図9には、意味解析部106の解析処理の一例を示している。意味解析部106の解析処理では、例えば、図9に示すように、ユーザ発話を複数のフレーズに分解する。ここでは、それぞれ「フレーズA」、「フレーズB」、「フレーズC」とする。
 フレーズAは、リモート端末200側を意味する表現から成る。
 図に示すフレーズA内の「○○」の部分には、フレーズA欄下部に記載の「向こう」~「御爺様」の内、いずれかの表現が入り得る。
 フレーズBは、具体的な操作対象を意味する表現から成る。
 なお、「(の)」や「(を)」といった助詞については、発話あるいは音声認識結果テキストにおいて省略されていてもよい。
 フレーズCは、具体的な動作内容を意味する表現から成る。
 操作対象端末判定部107が、リモート端末200を操作対象とする発話であると判定するユーザ発話は、
 フレーズA+フレーズB+フレーズC
 この3つのフレーズが組み合わさった発話である。
 例えば、ユーザ発話=「向こうで顔登録を始めて」
 このユーザ発話は、フレーズA+フレーズB+フレーズCの組み合わせであり、リモート端末200を操作対象とする発話であると判定する。
 このように、本開示の構成を利用することで、ローカル端末100側のユーザの指示によって、リモート端末200に様々な処理を実行させることが可能となる。リモート端末200に実行させる処理の一例として、リモート側ユーザの顔登録処理を行う場合の処理シーケンスについて、図10を参照して説明する。
 図10には、ローカル端末100側のローカル側ユーザ(ママ)の音声操作によって、リモート端末200側で、リモート側ユーザ(お婆ちゃん)の顔登録を行う例をシーケンシャルに示している。(1)~(4)の順に処理が進行する。
 (1)では、顔登録を開始する前の状態を表しており、ローカル端末100側のローカル側ユーザ(ママ)と、リモート端末200側のリモート側ユーザ(お婆ちゃん)が、リアルタイムの会話を行っている。
 (2)は、ローカル端末100側のローカル側ユーザ(ママ)が、リモート端末200を操作対象としたユーザ発話、すなわち、
 ユーザ発話=「リモート側で顔登録を始めて」
 上記ユーザ発話がローカル端末100に入力される。
 ローカル端末100の意味解析部106は、このユーザ発話の意味解析を実行し、意味解析結果を操作対象端末判定部107に入力する。操作対象端末判定部107は、この意味解析結果に基づいて、ユーザ発話が、リモート端末200を操作対象とした発話であると判定して、意味解析結果をリモート端末200に送信する。
 リモート端末200は、ローカル端末100から受信する意味解析結果に基づいて顔登録処理を実行するアプリケーションを起動して、顔登録処理を開始する。リモート端末200は、顔登録機能が開始されることで、端末から「あなたの顔を覚えます。顔を枠にきちんとはめて、顔登録をしてください」といった音声ガイドが出力されると共に、顔位置を表した枠を含む顔登録用画面が表示される。
 (3)は、リモート端末200側で顔登録を行っている状態を表している。リモート端末200側のユーザ(お婆ちゃん)が、顔を顔登録用画面内の枠に位置させることによって、その顔が検出される。枠の色が変化することによって、顔が適切に検出されたことがユーザに通知される。
 その後、「画面を見ながら、顔を左右に動かしてください」といった音声ガイドが出力されると共に、画面上にも「顔を左右に動かしてください」と表示され、且つ画面内の枠の向きを左右に振るように自動で表示することによって、ユーザに顔を左右に動かすことを促す。こうすることによって、正面方向を向いた顔を登録することに加えて、左を向いた顔、または右を向いた顔の登録も行う。さらに、左右方向に加えて、上下方向に対する顔登録を行ってもよい。
 (4)は、リモート端末200側で顔登録が終了した状態を表している。
 必要な全ての顔向きの登録が終了した時点で、顔登録機能は自動的に終了する。
 また、ローカル端末100側において「リモート側の顔登録を中止」といった発話を行うことによって、リモート端末側の顔登録処理を強制的に終了することも可能となる。
  [5.プライバシー情報やセキュリティ情報の出力制御処理について]
 次に、端末の出力部を介したデータ出力におけるプライバシー情報やセキュリティ情報の出力制御処理について説明する。
 リモート端末200の置かれたリモート側には、例えば身内以外の第三者がいる場合がある。例えば図11に示すように身内であるリモート側ユーザ(お婆ちゃん)251以外に、身内ではないリモート側ユーザ(お手伝いさん)252がいるといった設定である。
 このような場合、リモート端末200の画像表示部212等の出力部を介して、プライバシー情報やセキュリティ情報を出力してしまうと、これらの情報が第三者に漏えいする恐れがある。
 このような情報漏えいを防止するため、端末(ローカル端末100、リモート端末200)は、画像入力部を介して入力するカメラ撮影画像に基づく顔識別結果等に基づいて出力情報の制御を実行する。
 この制御は、画像表示部112,212、音声出力部113,213に対する出力制御を実行する出力制御部機能を持つデータ処理部が行う。出力制御部機能は、具体的には、応答情報生成部110,210や、アプリケーション実行部108,208が有しており、これらの処理部のいずれかにおいて出力情報の制御が実行される。
 例えば、画像入力部101から入力する撮影画像や、音声入力部102から入力する音声情報に基づいて人の識別処理を実行して、予め登録がなされたユーザ以外の第三のユーザが検出された場合、プライバシー情報やセキュリティ情報の出力を停止する。また、登録されたユーザであっても、「家族以外の登録ユーザ」という家族以外の第三者を示す属性情報が登録されているユーザが検出された場合は、プライバシー情報やセキュリティ情報の出力を停止する。
 出力停止対象となる情報は、例えば、以下の情報である。
 プライバシー情報:生年月日、本籍、銀行口座情報、健康保険証番号、社会保険番号、収入に関する情報、等
 セキュリティ情報:クレジットカード情報、リモート端末上に保持されているパスワード情報、等-コンテンツ情報:カレンダーアプリケーションの予定情報、伝言情報、等
 これらのプライバシー情報やセキュリティ情報の出力を停止する。
 なお、出力停止対象データはユーザによる設定、変更を行うことが可能である。
 図11に示す例は、(a)個人データと(b)スケジュールの表示例を示している。例えば(a)個人データに含まれる生年月日、個人番号は、プライバシー情報やセキュリティ情報として、出力停止対象、すなわち非表示データ381に設定されている。同様に(B)スケジュール内の特定の予定情報が、ユーザによって非表示データ381に設定されている。
  [6.端末の設定処理、情報登録処理例について]
 次に、ローカル端末やリモート端末に対して実行する端末の設定処理、情報登録処理例について説明する。
 (1)ユーザ登録処理と出力制御について
 ローカル端末100、リモート端末200には、各端末の記憶部内に端末利用者、例えば家族を中心とする近親者の人物に関する属性情報(名前や顔/音声識別用データ)を登録することが可能である。
 さらに、お手伝いさん、訪問介護士や隣人等についても属性情報(名前や顔/音声識別用データ)を「家族以外の登録ユーザ」という家族以外の第三者を示す属性情報に併せて登録することが可能な構成を持つ。
 なお、各端末では、例えば画像入力部101から入力する撮影画像や、音声入力部102から入力する音声情報に基づいて人の識別処理を実行して、登録ユーザを検知、識別し、そのユーザに合わせた情報出力を自動的に行うことが可能となっている。例えば、図11を参照して説明した処理である。
 出力制御対象の情報には、録音音声あるいは合成音声による話しかけや、GUI画面等がある。
 (2)ユーザによる事前登録可能な情報について
 さらに、ローカル側のユーザはローカル端末100を利用して、リモート端末200の出力音声(システム発話)の文言を録音、あるいはテキストで入力することが可能である。
 さらに、このシステム発話の出力対象となるリモート側ユーザ(=話しかける相手)と、その話しかけを行うタイミング(曜日/日時を基本とした時間設定)に関する情報も、ローカル端末100内に事前登録することができる。
 登録情報の例について、図12を参照して説明する。
 ローカル側のユーザ(ママ351)はローカル端末100を利用して、リモート端末200の出力音声(システム発話)として、以下のような文言を録音、あるいはテキストで入力することが可能である。
 「今日はデイケアに行く日だよ」
 「食事はもう済んだ?」
 例えば、このような発話を登録して、リモート端末200において、予め規定したタイミングで出力させることが可能となる。
 さらに、「薬を飲む時間ですよ」、「もう寝た方がいいよ」等の発話を登録して、リモート端末200において、予め規定したタイミングで出力させることが可能である。
 さらに、リモート側のお手伝いさんや介護士等に対する通知情報としてのシステム発話として、「来週は不在の予定の為、訪問は無しで結構です」、「薬の受け取りをよろしくお願い致します」、「何か問題がありましたら伝言下さい」等、様々なシステム発話の出力設定を行うことができる。なお、これらの発話内容を事前に多数、登録し、ユーザは逐次、利用したい項目を選択する処理を行う構成としてもよい。
 (3)ユーザへの報告、通知処理例について
 リモート端末200は、リモート側で取得されるリモート側ユーザの応答や日常的な行動(例えば感知し得たセンシング情報のログのサマリー)をまとめて(例えば一日分)、ローカル端末100に送信して、ローカル側のユーザに定期的に報告することが可能である。
 報告情報としては、問いかけに対する応答の有無や、高齢の近親者に関する人物検出の有無情報等である。
 ローカル側ユーザによる事前設定によっては、リモート端末200からの問いかけに対する応答や人物検出が無かった等、予め規定された異常や緊急事態条件に当てはまる場合には、リモート端末200はその情報をローカル端末100に送信して、ローカル側ユーザに通知することが可能である。
 また、リモート側にいる訪問介護士等の家族以外の登録ユーザからの伝言がある場合には、その旨をリモート側登録ユーザがリモート端末200に入力することで、ローカル端末100側のユーザに報告あるいは通知することが可能である。訪問介護士による伝言の登録や、ローカル端末側のユーザによる伝言の確認は、各端末を介した対話インタラクション(音声操作)によって実行可能である。
 図13に示す例は、リモート端末200が取得したリモート側ユーザの応答や日常的な行動(例えば感知し得たセンシング情報のログのサマリー)をローカル端末100に送信して出力する例である。
 システム発話=お婆様はいつも通りです。
 ローカル端末100には、リモート端末200が取得した情報に応じて上記のシステム発話が出力される。
 さらに、図13には、
 システム発話=ヘルパーさんからの伝言があります。
 このシステム発話の出力例を示している。
 これは、リモート側にいる訪問介護士等の家族以外の登録ユーザからの伝言がある場合に、リモート端末200からの通知メッセージをローカル端末100で出力する例である。
  [7.情報処理装置のハードウェア構成例について]
 次に、図14を参照して、ローカル端末や、リモート端末を構成する情報処理装置のハードウェア構成例について説明する。
 図14を参照して説明するハードウェアは、先に図4を参照して説明したローカル端末や、リモート端末を構成する情報処理装置のハードウェア構成の一例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) ユーザ発話の意味解析処理を実行する意味解析部と、
 前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する操作対象端末判定部を有する情報処理装置。
 (2) 前記操作対象端末判定部は、
 ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であるか、
 前記ローカル端末と通信中のリモート端末に対する処理要求であるかを判定する(1)に記載の情報処理装置。
 (3) 前記操作対象端末判定部は、
 前記ユーザ発話に前記リモート端末のある遠隔地を示す表現、または前記リモート端末のある遠隔地にいるリモート側ユーザを示す表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する(2)に記載の情報処理装置。
 (4) 前記操作対象端末判定部は、さらに、
 前記ユーザ発話に端末の実行可能な処理に対応する表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する(3)に記載の情報処理装置。
 (5) 前記操作対象端末判定部は、
 前記ユーザ発話の実行ユーザの顔方向、または視線方向に基づいて、前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記操作対象端末判定部は、
 前記ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果に基づく処理をアプリケーション実行部に実行させ、
 前記ユーザ発話が、該ユーザ発話が入力された情報処理装置以外のリモート端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果を、通信部を介して前記リモート端末に送信する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記情報処理装置は、
 撮影画像を入力する画像入力部と、
 取得音声を入力する音声入力部と、
 画像入力部の入力画像と、音声取得部の取得音声を、リモート端末に送信する通信部を有する(1)~(6)いずれかに記載の情報処理装置。
 (8) 前記情報処理装置は、さらに、
 リモート端末から、リモート端末側のユーザ発話の意味解析結果を受信する通信部と、
 前記通信部を介して受信したリモート端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する(1)~(7)いずれかに記載の情報処理装置。
 (9) 前記情報処理装置は、
 入力情報に基づく人識別処理を実行する入力情報認識部と、
 前記入力情報認識部における人識別結果に応じて、出力情報を制御する出力制御部を有する(1)~(8)いずれかに記載の情報処理装置。
 (10) 前記入力情報認識部は、
 画像入力部から入力する画像を解析して人識別を実行する画像認識部、または、
 音声入力部から入力する音声を解析して人識別を実行する音声認識部の少なくともいずれかである(9)に記載の情報処理装置。
 (11) ローカル端末とリモート端末を有する情報処理システムであり、
 前記ローカル端末は、
 前記ローカル端末に入力されたユーザ発話の意味解析処理を実行する意味解析部と、
 前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定部と、
 前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する通信部を有し、
 前記リモート端末は、
 前記ローカル端末側のユーザ発話の意味解析結果を受信する通信部と、
 前記通信部を介して受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する情報処理システム。
 (12) 前記ローカル端末および前記リモート端末は、
 相互に撮影画像と取得音声を送受信する構成である(11)に記載の情報処理システム。
 (13) 情報処理装置において実行する情報処理方法であり、
 意味解析部が、ユーザ発話の意味解析処理を実行し、
 操作対象端末判定部が、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する情報処理方法。
 (14) ローカル端末とリモート端末を有する情報処理システムにおいて実行する情報処理方法であり、
 前記ローカル端末が、
 前記ローカル端末に入力されたユーザ発話の意味解析処理と、
 前記意味解析処理の意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定処理と、
 前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する処理を実行し、
 前記リモート端末が、
 前記ローカル端末側のユーザ発話の意味解析結果を受信し、
 受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する情報処理方法。
 (15) 情報処理装置において情報処理を実行させるプログラムであり、
 意味解析部に、ユーザ発話の意味解析処理を実行させ、
 操作対象端末判定部に、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する処理を実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。
 具体的には、例えば、ローカル端末とリモート端末を有し、ローカル端末は、ローカル端末に入力されたユーザ発話の意味解析処理を実行し、意味解析結果に基づいてユーザ発話がリモート端末に対する処理要求であるか否かを判定する。さらに、ユーザ発話がリモート端末に対する処理要求である場合、意味解析部における意味解析結果を、リモート端末に送信する。リモート端末は、ローカル端末側のユーザ発話の意味解析結果を受信し、受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する。
 本構成により、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。
  10 情報処理装置
  11 カメラ
  12 マイク
  13 表示部
  14 スピーカー
  20 サーバ
  30 外部機器
 100 ローカル端末
 200 リモート端末
 101,201 画像入力部
 102,202 音声入力部
 103,203 画像認識部
 104,204 音声認識部
 105,205 情報統合部
 106,206 意味解析部
 107,207 操作対象端末判定部
 108,208 アプリケーション実行部
 109,209 通信部
 110.210 応答情報生成部
 111,211 音声合成部
 112,212 画像表示部
 113,213 音声出力部
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (15)

  1.  ユーザ発話の意味解析処理を実行する意味解析部と、
     前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する操作対象端末判定部を有する情報処理装置。
  2.  前記操作対象端末判定部は、
     ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であるか、
     前記ローカル端末と通信中のリモート端末に対する処理要求であるかを判定する請求項1に記載の情報処理装置。
  3.  前記操作対象端末判定部は、
     前記ユーザ発話に前記リモート端末のある遠隔地を示す表現、または前記リモート端末のある遠隔地にいるリモート側ユーザを示す表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する請求項2に記載の情報処理装置。
  4.  前記操作対象端末判定部は、さらに、
     前記ユーザ発話に端末の実行可能な処理に対応する表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する請求項3に記載の情報処理装置。
  5.  前記操作対象端末判定部は、
     前記ユーザ発話の実行ユーザの顔方向、または視線方向に基づいて、前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定する請求項1に記載の情報処理装置。
  6.  前記操作対象端末判定部は、
     前記ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果に基づく処理をアプリケーション実行部に実行させ、
     前記ユーザ発話が、該ユーザ発話が入力された情報処理装置以外のリモート端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果を、通信部を介して前記リモート端末に送信する請求項1に記載の情報処理装置。
  7.  前記情報処理装置は、
     撮影画像を入力する画像入力部と、
     取得音声を入力する音声入力部と、
     画像入力部の入力画像と、音声取得部の取得音声を、リモート端末に送信する通信部を有する請求項1に記載の情報処理装置。
  8.  前記情報処理装置は、さらに、
     リモート端末から、リモート端末側のユーザ発話の意味解析結果を受信する通信部と、
     前記通信部を介して受信したリモート端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する請求項1に記載の情報処理装置。
  9.  前記情報処理装置は、
     入力情報に基づく人識別処理を実行する入力情報認識部と、
     前記入力情報認識部における人識別結果に応じて、出力情報を制御する出力制御部を有する請求項1に記載の情報処理装置。
  10.  前記入力情報認識部は、
     画像入力部から入力する画像を解析して人識別を実行する画像認識部、または、
     音声入力部から入力する音声を解析して人識別を実行する音声認識部の少なくともいずれかである請求項9に記載の情報処理装置。
  11.  ローカル端末とリモート端末を有する情報処理システムであり、
     前記ローカル端末は、
     前記ローカル端末に入力されたユーザ発話の意味解析処理を実行する意味解析部と、
     前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定部と、
     前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する通信部を有し、
     前記リモート端末は、
     前記ローカル端末側のユーザ発話の意味解析結果を受信する通信部と、
     前記通信部を介して受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する情報処理システム。
  12.  前記ローカル端末および前記リモート端末は、
     相互に撮影画像と取得音声を送受信する構成である請求項11に記載の情報処理システム。
  13.  情報処理装置において実行する情報処理方法であり、
     意味解析部が、ユーザ発話の意味解析処理を実行し、
     操作対象端末判定部が、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する情報処理方法。
  14.  ローカル端末とリモート端末を有する情報処理システムにおいて実行する情報処理方法であり、
     前記ローカル端末が、
     前記ローカル端末に入力されたユーザ発話の意味解析処理と、
     前記意味解析処理の意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定処理と、
     前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する処理を実行し、
     前記リモート端末が、
     前記ローカル端末側のユーザ発話の意味解析結果を受信し、
     受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する情報処理方法。
  15.  情報処理装置において情報処理を実行させるプログラムであり、
     意味解析部に、ユーザ発話の意味解析処理を実行させ、
     操作対象端末判定部に、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する処理を実行させるプログラム。
PCT/JP2019/010022 2018-04-12 2019-03-12 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2019198405A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP19785495.3A EP3779965A4 (en) 2018-04-12 2019-03-12 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING PROCESS AND PROGRAM
US17/045,456 US11545153B2 (en) 2018-04-12 2019-03-12 Information processing device, information processing system, and information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-076968 2018-04-12
JP2018076968 2018-04-12

Publications (1)

Publication Number Publication Date
WO2019198405A1 true WO2019198405A1 (ja) 2019-10-17

Family

ID=68163599

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/010022 WO2019198405A1 (ja) 2018-04-12 2019-03-12 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US11545153B2 (ja)
EP (1) EP3779965A4 (ja)
WO (1) WO2019198405A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3779965A4 (en) * 2018-04-12 2021-06-09 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING PROCESS AND PROGRAM
CN111243587A (zh) * 2020-01-08 2020-06-05 北京松果电子有限公司 语音交互方法、装置、设备及存储介质
WO2023141887A1 (zh) * 2022-01-27 2023-08-03 Oppo广东移动通信有限公司 语义通信的传输方法、终端设备
US20230244769A1 (en) * 2022-02-03 2023-08-03 Johnson Controls Tyco IP Holdings LLP Methods and systems for employing an edge device to provide multifactor authentication
CN115410579B (zh) * 2022-10-28 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、语音交互装置、车辆和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
JP2001067098A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 人物検出方法と人物検出機能搭載装置
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
JP2008146054A (ja) 2006-12-06 2008-06-26 Korea Electronics Telecommun 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP2018013545A (ja) * 2016-07-19 2018-01-25 トヨタ自動車株式会社 音声対話装置および発話制御方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6427137B2 (en) * 1999-08-31 2002-07-30 Accenture Llp System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
US6480826B2 (en) * 1999-08-31 2002-11-12 Accenture Llp System and method for a telephonic emotion detection that provides operator feedback
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
ATE547785T1 (de) * 2008-07-03 2012-03-15 Mobiter Dicta Oy Verfahren und einrichtung zum umsetzen von sprache
WO2010000322A1 (en) * 2008-07-03 2010-01-07 Mobiter Dicta Oy Method and device for converting speech
US20130018659A1 (en) * 2011-07-12 2013-01-17 Google Inc. Systems and Methods for Speech Command Processing
WO2013042117A1 (en) * 2011-09-19 2013-03-28 Personetics Technologies Ltd. System and method for evaluating intent of a human partner to a dialogue between human user and computerized system
CN104704797B (zh) * 2012-08-10 2018-08-10 纽昂斯通讯公司 用于电子设备的虚拟代理通信
US9892208B2 (en) * 2014-04-02 2018-02-13 Microsoft Technology Licensing, Llc Entity and attribute resolution in conversational applications
EP3272101B1 (en) * 2015-03-20 2019-11-27 Aplcomp OY Audiovisual associative authentication method, related system and device
JP2016192121A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
JP2017156511A (ja) * 2016-03-01 2017-09-07 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11020860B2 (en) * 2016-06-15 2021-06-01 Irobot Corporation Systems and methods to control an autonomous mobile robot
KR102508677B1 (ko) * 2018-03-08 2023-03-13 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
EP3779965A4 (en) * 2018-04-12 2021-06-09 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING PROCESS AND PROGRAM

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
JP2001067098A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 人物検出方法と人物検出機能搭載装置
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
JP2008146054A (ja) 2006-12-06 2008-06-26 Korea Electronics Telecommun 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP2018013545A (ja) * 2016-07-19 2018-01-25 トヨタ自動車株式会社 音声対話装置および発話制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3779965A4

Also Published As

Publication number Publication date
EP3779965A1 (en) 2021-02-17
US20210174809A1 (en) 2021-06-10
EP3779965A4 (en) 2021-06-09
US11545153B2 (en) 2023-01-03

Similar Documents

Publication Publication Date Title
WO2019198405A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6947852B2 (ja) 複数のコンピューティングデバイスを使用したインターホン式の通信
JP6475386B2 (ja) 機器の制御方法、機器、及びプログラム
KR102419513B1 (ko) 캡처된 이미지들과 관련된 메타 데이터 저장
KR102002979B1 (ko) 사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징
KR20190100512A (ko) 챗봇과 대화하기 위한 전자 장치 및 그의 동작 방법
US20150279369A1 (en) Display apparatus and user interaction method thereof
CN113287175A (zh) 互动式健康状态评估方法及其系统
JP7316271B2 (ja) 医療照会回答装置
JP6973380B2 (ja) 情報処理装置、および情報処理方法
CN109032554A (zh) 一种音频处理方法和电子设备
WO2017134300A1 (fr) Procédé d'aide au suivi d'une conversation pour personne malentendante
US20180350360A1 (en) Provide non-obtrusive output
EP3674882A1 (en) Localized virtual personal assistant
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11929081B2 (en) Electronic apparatus and controlling method thereof
US11430429B2 (en) Information processing apparatus and information processing method
US20210134272A1 (en) Information processing device, information processing system, information processing method, and program
JP2018055155A (ja) 音声対話装置および音声対話方法
Čupková et al. Cloud-enabled assisted living: The role of robot receptionist in the home environment
US9122312B2 (en) System and method for interacting with a computing device
JP7351642B2 (ja) 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム
JP7450748B2 (ja) 情報表示装置及び情報表示方法
WO2020017165A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10887552B1 (en) Door-knocking for teleconferencing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19785495

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019785495

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2019785495

Country of ref document: EP

Effective date: 20201112

NENP Non-entry into the national phase

Ref country code: JP