WO2017175442A1 - 情報処理装置、および情報処理方法 - Google Patents

情報処理装置、および情報処理方法 Download PDF

Info

Publication number
WO2017175442A1
WO2017175442A1 PCT/JP2017/001261 JP2017001261W WO2017175442A1 WO 2017175442 A1 WO2017175442 A1 WO 2017175442A1 JP 2017001261 W JP2017001261 W JP 2017001261W WO 2017175442 A1 WO2017175442 A1 WO 2017175442A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
output
information processing
response
unit
Prior art date
Application number
PCT/JP2017/001261
Other languages
English (en)
French (fr)
Inventor
秀明 渡辺
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2018510235A priority Critical patent/JP6973380B2/ja
Priority to EP17778821.3A priority patent/EP3441889A4/en
Priority to US16/071,832 priority patent/US20190026265A1/en
Publication of WO2017175442A1 publication Critical patent/WO2017175442A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/10Small scale networks; Flat hierarchical networks
    • H04W84/12WLAN [Wireless Local Area Networks]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing apparatus and an information processing method.
  • Patent Document 1 it is analyzed how human beings pay attention to the integrated analysis of human voices and direct instructions such as human gestures and gazes.
  • a multimodal information analysis device is disclosed that outputs an analysis result as user's attention information.
  • the present disclosure proposes an information processing apparatus and an information processing method capable of performing easy-to-understand responses suitable for various environments by outputting responses according to context.
  • the utterance information may be transmitted to a first transmission unit that transmits the input utterance information, a second transmission unit that transmits the acquired context information, and an output destination determined based on the context information. And an output control unit configured to control to output response information to the information processing apparatus.
  • the context information may be a first receiving unit that receives input utterance information, a second receiving unit that receives the acquired context information, and response information generated based on the utterance information. And an output control unit configured to control output to an output destination determined based on the above.
  • the processor transmits the input utterance information, transmits the acquired context information, and sends the response information to the utterance information to the output destination determined based on the context information. And providing an information processing method including controlling to output.
  • the processor is configured to receive the input utterance information, to receive the acquired context information, and to determine response information generated based on the utterance information based on the context information.
  • An information processing method is proposed, including controlling to output to an output destination.
  • FIG. 1 is a diagram for explaining an outline of an information processing apparatus 1 according to the present embodiment.
  • the information processing apparatus 1 has an audio input unit 10 (for example, a microphone array) and an audio output unit 16 and has an agent function for realizing an audio dialogue with a user.
  • the information processing apparatus 1 acquires the speech of the user by the speech input unit 10, and responds to the speech of the user from the speech output unit 16 to the user. For example, when an inquiry about tomorrow's weather is received from the user, the information processing apparatus 1 responds to the user with weather information on tomorrow.
  • the information processing apparatus 1 may have the image output unit 14 and can display image information when responding to the user.
  • the information processing apparatus 1 may be a stationary home agent apparatus as shown in FIG. 1 or may be a self-propelled home agent apparatus (for example, a robot).
  • the information processing apparatus 1 may be a mobile terminal such as a smartphone, a tablet terminal, a mobile phone terminal, or a wearable terminal, or may be a personal computer, a game machine, a music player, an in-vehicle terminal, or the like.
  • the information processing apparatus 1 can be connected to the server 2, transmit and receive data with the server 2, and can perform a response process to the user.
  • An overall configuration of a system according to the present embodiment including the information processing device 1 and the server 2 will be described with reference to FIG.
  • the information processing apparatus 1 is connected to the server 2 via the network 3 and connected to various devices (peripheral devices 5) in the home via the home network 4.
  • the peripheral device 5 is a variety of devices that exist in the periphery of the information processing device 1 (or in the vicinity of the user) and include an audio output unit, a display output unit, or a lighting output unit.
  • a television receiver 51 an audio device 52, a lighting device 53, a smartphone 54, and a PC 55 are assumed.
  • a home network 4 for example, Wi-Fi (registered trademark), infrared communication, or Bluetooth (registered trademark) can be used.
  • the response since the response is output without considering the user's situation or environment, it may be difficult for the user to understand the response result. For example, when voice response was made in a long sentence from the system, the user was difficult to understand. In addition, there may be cases in which it is difficult to hear even if a voice response is given while watching a television or vacuuming. In addition, when the user was making a phone call, there was a case where it was difficult to notice or alert even when notified by the system. Furthermore, for example, when confirming a shared family's schedule, the user (utterer) can not understand the content even if a schedule including a keyword etc. which can be understood only by the person who input the schedule is presented as it is There was a problem that.
  • the information processing apparatus 1 acquires the context of the user (for example, who is listening, time, action / condition of the user, environmental state, schedule of the user, etc.), and appropriate according to the user's context The user can easily understand the contents of the response by presenting the response at a different output format, output destination (output unit), and output timing.
  • the context of the user for example, who is listening, time, action / condition of the user, environmental state, schedule of the user, etc.
  • the user can easily understand the contents of the response by presenting the response at a different output format, output destination (output unit), and output timing.
  • FIG. 3 is a block diagram showing an example of the configuration of the information processing apparatus 1 according to the present embodiment.
  • the information processing apparatus 1 includes a voice input unit 10, a voice recognition unit 11, a control unit 12, a communication unit 13, an image output unit 14, a voice synthesis unit 15, and a voice output unit 16.
  • the voice input unit 10 picks up a user voice and surrounding environmental sound, and outputs a voice signal to the voice recognition unit 11.
  • the audio input unit 10 is realized by a microphone, an amplifier, and the like.
  • the voice input unit 10 may be realized by a microphone array composed of a plurality of microphones.
  • the speech recognition unit 11 performs speech recognition on the speech signal output from the speech input unit 10, and converts the speech of the user into text.
  • the speech data in text form is output to the control unit 12.
  • the control unit 12 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing apparatus 1 according to various programs.
  • the control unit 12 is realized by, for example, an electronic circuit such as a central processing unit (CPU) or a microprocessor.
  • the control unit 12 may include a ROM (Read Only Memory) that stores programs to be used, operation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters and the like that change appropriately.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • control unit 12 may respond to user utterance data (text information) output from the speech recognition unit 11 as utterance information (response information), spontaneous utterance information (notification to a user, etc. ) Is output to the image output unit 14 or the speech synthesis unit 15.
  • the control unit 12 transmits, from the communication unit 13 to the server 2, utterance information based on the user's voice input, and the response information returned from the server 2 and received by the communication unit 13 is the image output unit 14 or the voice synthesis unit 15.
  • the response information may be output from the communication unit 13 to the peripheral device 5 in the home network 4.
  • the detailed configuration of the control unit 12 will be described later with reference to FIG.
  • the communication unit 13 is a communication module that transmits / receives data to / from another device by wired / wireless communication.
  • the communication unit 13 is, for example, a wired LAN (Local Area Network), a wireless LAN, a Wi-Fi (Wireless Fidelity (registered trademark), infrared communication, Bluetooth (registered trademark), a short distance / non-contact communication, etc. Communicate directly with or wirelessly through a network access point.
  • the communication unit 13 is also connected to the server 2 to transmit and receive predetermined data. For example, the communication unit 13 transmits utterance information based on a user utterance to the server 2 or receives, from the server 2, response information or the like for the user utterance.
  • speech information refers to the speech format, text format, or vector format of the feature amount, which recognizes / analyzes / analyzes / estimates all or part of the information in addition to the information of the utterance input by the user. Including those converted to other formats.
  • the communication unit 13 also transmits the device information and sensor information acquired from the peripheral device 5 or the like to the server 2.
  • the communication unit 13 receives various information from, for example, a camera, a user terminal (for example, a smartphone), and sensors.
  • the sensors may be provided in the user terminal, may be provided in a wearable terminal worn by the user, or may be provided in a door or sofa of a room, a corridor or the like.
  • the sensors for example, a gyro sensor, an acceleration sensor, an azimuth sensor, a position positioning unit, a living body sensor, and the like are assumed.
  • the image output unit 14 is realized by, for example, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, or the like.
  • the image output unit 14 displays the image information output from the control unit 12 to the user.
  • the speech synthesis unit 15 converts (speech) speech information (text) output from the control unit 12 into speech data, and outputs the speech data to the speech output unit 16.
  • the voice output unit 16 outputs the voice data output from the voice synthesis unit 15 to the user.
  • the audio output unit 16 is realized by a speaker, an amplifier, and the like.
  • FIG. 4 is a diagram showing an example of a functional configuration of the control unit 12 according to the present embodiment.
  • control unit 12 includes a local utterance meaning analysis unit 121, a local user registration information storage unit 122, a local information search unit 123, a local context recognition unit 124, a local response information generation unit 125, And functions as a local output control unit 126.
  • the local utterance semantic analysis unit 121 applies so-called natural language processing to the utterance data (text) input from the speech recognition unit 11, and performs extraction of keywords in the utterance, estimation of the user's utterance intention, and the like.
  • the local utterance semantic analysis unit 121 according to the present embodiment is a subset of the utterance semantic analysis unit 201 of the server 2 described later, and has a simple utterance semantic analysis function.
  • the local user registration information storage unit 122 stores user information (profile) and information registered by the user (referred to as user registration information).
  • the local user registration information storage unit 122 according to the present embodiment is a subset of the user registration information storage unit 22 of the server 2 described later, and the amount of data to be stored is small (for example, information registered in the last 3 months is stored) .
  • the local information search unit 123 searches the local user registration information storage unit 122 based on the search keyword extracted by the local utterance semantic analysis unit 121 or the utterance semantic analysis unit 201. .
  • the local information search unit 123 according to the present embodiment is a subset of the information search unit 202 of the server 2 described later, and has a simple information search function.
  • the local context recognition unit 124 sequentially recognizes and estimates the context of the user (speaker), and outputs context information.
  • the local context recognition unit 124 may be a microphone, a camera, or the like provided in the information processing apparatus 1 or a peripheral device (TV receiver 51, smartphone 54, lighting device 53, etc.) connected wirelessly / wiredly to the information processing apparatus 1.
  • the context of the user is recognized (estimated) based on sensor information (voice information, image information, sensor value, etc.) acquired by various sensors or the like, and device information.
  • the local context recognition unit 124 according to the present embodiment is a subset of the context recognition unit 203 of the server 2 described later, and has a simple context recognition function.
  • the local response information generation unit 125 generates information on the response to the user's speech.
  • the local response information generation unit 125 according to the present embodiment generates response information according to the context such as the user status or the environment based on the search result and the context information.
  • the local response information generation unit 125 according to the present embodiment is a subset of the response information generation unit 204 of the server 2 described later, and has a simple response information generation function.
  • the response information includes response contents, output format (voice output, text output, image output, light output, etc.), and an output unit (output destination; for example, information processing apparatus 1, or voice output apparatus, display apparatus, information processing
  • the information of the peripheral device 5 such as a terminal or a lighting device is included.
  • the local output control unit 126 uses the response information generated by the local response information generation unit 125 or the response information generation unit 204 and the context information to output the response information in an optimal output method and output destination according to the context of the user. Control to output. Specifically, the local output control unit 126 generates output information including response information, an output start condition, and an output end condition, and outputs the output information to an optimal output destination.
  • the local output control unit 126 according to the present embodiment is a subset of the output control unit 205 of the server 2 described later, and has a simple output control function.
  • the output information output from the local output control unit 126 is output to the peripheral device 5 via the image output unit 14, the voice synthesis unit 15, or the communication unit 13.
  • the response content (text, image) is displayed on the screen or projected on a wall or the like.
  • the voice synthesis unit 15 the response content is voiced and reproduced from the voice output unit 16.
  • the configuration of the information processing apparatus 1 according to the present embodiment has been specifically described above.
  • the configuration of the information processing apparatus 1 according to the present embodiment is not limited to the examples shown in FIGS. 3 and 4.
  • the information processing apparatus 1 does not have all or part of the local utterance semantic analysis unit 121, the local user registration information storage unit 122, the local information search unit 123, the local context recognition unit 124, and the local response information generation unit 125. It may be a configuration. Further, the information processing apparatus 1 may have a human sensor or a camera.
  • the information processing apparatus 1 requests the server 2 to perform processing when the processing by the local user registration information storage unit 122, the local information search unit 123, the local context recognition unit 124, or the local response information generation unit 125 can not be supported. You may In addition, the information processing apparatus 1 performs processing by the local user registration information storage unit 122, the local information search unit 123, the local context recognition unit 124, or the local response information generation unit 125, and a processing request corresponding to the server 2 And one of the processing results may be used.
  • FIG. 5 is a block diagram showing an example of the configuration of the server 2 according to the present embodiment.
  • the server 2 includes a control unit 20, a communication unit 21, and a user registration information storage unit 22.
  • the communication unit 21 is connected to an external device to transmit and receive data.
  • the communication unit 21 receives speech information and sensor information from the information processing device 1, and transmits, to the information processing device 1, response information generated by the response information generation unit 204 described later.
  • the user registration information storage unit 22 stores user information (profile) and information registered by the user (referred to as user registration information).
  • user registration information may be a schedule (schedule), a memorandum (memo), a message to another user, and the like.
  • the control unit 20 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the server 2 according to various programs.
  • the control unit 20 is realized by, for example, an electronic circuit such as a CPU or a microprocessor.
  • the control unit 20 may include a ROM that stores programs to be used, operation parameters, and the like, and a RAM that temporarily stores parameters and the like that change appropriately.
  • the control unit 20 functions as an utterance meaning analysis unit 201, an information search unit 202, a context recognition unit 203, a response information generation unit 204, and an output control unit 205, as shown in FIG.
  • the utterance semantic analysis unit 201 applies so-called natural language processing to the utterance information transmitted from the information processing device 1, and performs extraction of keywords in the utterance, estimation of the user's utterance intention, and the like.
  • the speech information is assumed to be various data such as data converted into text by speech recognition processing such as "Piano classroom from 10 o'clock on February 28" and "What is your plan today?"
  • the utterance semantic analysis unit 201 analyzes, for example, what kind of request (a user wants to register information, wants to search, etc.) a user makes, and extracts information to be registered and a search keyword from utterance data. .
  • the extracted registration target information is stored in the user registration information storage unit 22.
  • the extracted search keyword is output to the information search unit 202.
  • the information search unit 202 a specific example of the information analyzed by the utterance meaning analysis unit 201 is shown in FIG. As illustrated, for example, estimation of an application (calendar application, memorandum application, etc.), operation content (registration, search, deletion, etc.) performed by the application, and values of search keywords, registration information, etc. , “Schedule for the weekend”, “Tomorrow”, etc.) are extracted.
  • the information search unit 202 When the user request is “search”, the information search unit 202 performs a search from the user registration information storage unit 22 based on the search keyword extracted by the utterance meaning analysis unit 201, and sends the result to the response information generation unit 204. Output. For example, in the case of a request “Tell me the schedule of everyone on the weekend,” the information search unit 202 may indicate that all the families registered in the user registration information storage unit 22 (here, “everyone” indicates “family”) The "Weekend" schedule is retrieved from the schedule information of the speech semantic analysis unit 201).
  • the context recognition unit 203 sequentially recognizes and estimates the context of the user (speaker), and outputs context information. Specifically, the context recognition unit 203 recognizes (estimates) the context of the user based on the sensor information transmitted from the information processing device 1.
  • the sensor information may be a microphone, a camera, or the like provided in the information processing device 1 or the peripheral device 5 (TV receiver 51, audio device 52, lighting device 53, smartphone 54, etc.) connected wirelessly / wiredly to the information processing device 1. Or it includes information (voice information, image information, sensor value, etc.) acquired by various sensors and the like.
  • the context recognition unit 203 recognizes (estimates) the context of the user based on the device information (ON / OFF information, operation information, etc.) of the information processing device 1 and the peripheral device 5 transmitted from the information processing device 1. It is also possible.
  • User context is, for example, who the user is (speaker identification), user state (action, situation, user gaze direction estimation from image, estimation of user's attentional object based on gaze direction estimation)
  • Environmental conditions user environment such as whether the user is alone or a plurality of people, user position
  • device conditions conditions of devices existing around the user
  • Context information refers to information obtained indirectly as a result of recognizing / analyzing / analyzing / estimating the above-mentioned user status, environmental status, device status, etc. obtained directly from images, sounds, and various sensor information. Including.
  • a specific example of context information is shown in FIG. As illustrated, for example, as a user state, watching TV, not in a room, doing housework, etc. are estimated. Further, as the device state, device information that can be controlled by the information processing device 1, specifically, ON / OFF of the television receiver 51, the state of the smartphone 54, the lighting device 53, and the like are recognized. Further, as the environmental condition, a noise level (paininess), an illuminance level (brightness) of a room, and the like are recognized.
  • the response information generation unit 204 generates information on the response to the user's speech. For example, based on the search result output from the information search unit 202 and the context information output from the context recognition unit 203, the response information generation unit 204 according to the present embodiment responds according to the context such as the user situation or the environment. Generate information. More specifically, based on the search result and the context information, the response information generation unit 204 designates the response content, the output format (voice, text, light, etc.), and the output destination (the information processing apparatus 1, the television receiver 51). , The audio device 52, the smartphone 54, the lighting device 53, the PC 55, etc.), and generates response information. Further, the response information generation unit 204 may generate a plurality of pieces of response information that can be candidates for output and output the plurality of pieces of response information to the output control unit 205.
  • the response information generation unit 204 may generate a plurality of pieces of response information that can be candidates for output and output the plurality of pieces of response information to the output control unit 205.
  • the utterance contents are all queries for the schedule of the weekend ("Please tell us the schedule of everyone on the weekend?")
  • the information retrieval unit 202 based on the semantic analysis result of the utterance, "Saturday, 13 o'clock C (registrant: user A) Sunday, 10 o'clock User B Soccer Sunday, 18 o'clock User B Neighborhood Association
  • An example of the response information when the user registration information is searched is shown. Specifically, response information generated when the speaker is the user A and the user B is shown.
  • the user A and the user B are family members (husbands), and the information processing apparatus 1 is used as a home agent to share the schedule of each other.
  • the response information generation unit 204 has context information such as “utterer: user A (wife)”, “user state: the speaker is looking at the information processing apparatus 1” , According to the search result, generates response information "output device: information processing device 1", “output format: display output (text)”, “output content (response content): display searched information as it is” .
  • response information "output device: information processing device 1"
  • output format display output (text)”
  • output content response content
  • the response information generation unit 204 is, for example, “speaker: user A (wife)”, “user status: the speaker is watching the hand, as shown in the example of the response information in FIG.
  • Response information "output device: information processing apparatus 1", “output format: voice output”, “output content (response content): summary of retrieved information” according to the context information "na state” and the search result Generate
  • voice output of the response information enables the user to easily understand the response information.
  • the search user registration information can be summarized so as to be easy for the user to understand.
  • the response information generation unit 204 is context information that "utterer: user B (husband)", “user state: speaker is watching TV”, According to the above search results, “output device: TV”, “output format: display output (text)”, “output content (response content): change the searched information to a content that the speaker can understand and display” Generate response information.
  • the response information since the user B is watching TV, displaying the response information on the television receiver 51 enables the user to easily understand the response information. Also, among the retrieved user registration information, when the proper noun "Mr.
  • the response information generation unit 204 changes the response content to be easily understood by persons other than the registrant using the knowledge database. Specifically, for example, when information “M: C: hairdresser's hairdresser” can be extracted from the knowledge database, the response information generation unit 204 “Saturday, 13 o'clock C” as “Saturday, 13 o'clock. Change to user A ⁇ hairdresser and generate response contents that can be understood by user B as well.
  • the response information generation unit 204 changes the response content according to the context information
  • the present embodiment is not limited to this, for example, even if the response content is changed according to the search result Good.
  • the search result is one
  • the response is "voice”
  • the search results are plural
  • the response may be "display (or projection by the projector)".
  • the response information generation unit 204 may generate response information corresponding to a plurality of contexts, and may output the generated plurality of response information to the output control unit 205.
  • response information corresponding to each context is generated and output to the output control unit 205.
  • the output control unit 205 controls to output the response information in the optimal output method and output destination according to the context of the user based on the response information generated by the response information generation unit 204 and the context information. Specifically, the output control unit 205 generates output information including response information, and outputs the generated output information to an optimal output destination.
  • the output control unit 205 can also select optimal response information according to the user's real-time context information at the time of output, and can output it as output information.
  • the output information output from the output control unit 205 is output to the image output unit 14, the voice synthesis unit 15, the peripheral device 5 or the like of the information processing device 1.
  • the response content text, image
  • the response content is displayed on the screen or projected on a wall or the like.
  • the voice synthesis unit 15 the response content is voiced and reproduced from the voice output unit 16.
  • the peripheral device 5 such as the television receiver 51 around the user, the audio device 52, the lighting device 53, the smartphone 54, the PC 55, etc.
  • the peripheral device 5 presents the user by text or voice.
  • Output information may be transmitted to the peripheral device 5 via the information processing device 1.
  • the output control unit 205 can also control the output timing according to the context information. Specifically, the output control unit 205 generates optimal output start conditions and output end conditions according to the context information, and includes the output information in the output information and outputs the output information to the output destination.
  • the output start condition may be, for example, "immediately, time designation (15:00 or the like), user state designation (after the call is ended or the like), and the like.
  • the output end condition may be "specified number of times (only once), specified time (such as 60 seconds), specified user state (such as until the user leaves the room)” and the like. As a result, for example, when noise in the user environment becomes quiet (when cleaning and the like are finished), it becomes possible to present response information by voice.
  • the configuration of the server 2 according to the present embodiment has been specifically described above.
  • the configuration of the server 2 according to the present embodiment is not limited to the example shown in FIG.
  • all or part of the utterance meaning analysis unit 201, the information search unit 202, the context recognition unit 203, the response information generation unit 204, the output control unit 205, and the user registration information storage unit 22 of the server 2 may be external devices (for example, information It may be provided in the processing apparatus 1).
  • At least one of the processing of the utterance meaning analysis unit 201, the information search unit 202, the context recognition unit 203, the response information generation unit 204, and the output control unit 205 is performed on the corresponding subset on the information processing apparatus 1 side
  • the processing result may be received from the information processing apparatus 1 and used on the server 2 side.
  • FIG. 9 is a sequence diagram showing response control processing according to the present embodiment.
  • the response control process according to the present embodiment is executed by a system (application program) activated by the information processing apparatus 1 and a system (application program) activated by the server 2.
  • the information processing apparatus 1 acquires sensor information (step S100), and transmits the sensor information to the server 2 (step S103).
  • the sensor information is, for example, a captured image, collected voice, or various sensor values, and can be detected by a camera, a microphone, a sensor, or the like provided in the information processing device 1 or the peripheral device 5 or the like.
  • the sensor information transmitted to the server 2 may be detected raw data, or data obtained by performing predetermined processing such as extraction of feature amounts from the raw data.
  • the context recognition unit 203 of the server 2 recognizes the context based on the sensor information, and stores the recognition result (context information) (step S106). Note that the context recognition and storage processing shown in steps S100 to S106 may be sequentially performed while the processing of step S109 and subsequent steps is being performed.
  • the information processing apparatus 1 when the information processing apparatus 1 recognizes an utterance from the user (step S109 / Yes), the information processing apparatus 1 transmits the utterance information to the server 2 (step S112).
  • the speech information transmitted to the server 2 may be voice data of the collected user's speech, and in addition to text data converted into text by speech recognition processing, speech data is recognized / analyzed / analyzed / estimated The result may be indirectly obtained data.
  • the utterance semantic analysis unit 201 of the server 2 performs semantic analysis of the user utterance based on the utterance information, and extracts a search condition and a search keyword (step S115).
  • the server 2 searches the user registration information stored in the user registration information storage unit 22 by the information search unit 202 using the extracted search condition and search keyword (step S118).
  • the server 2 acquires context information accumulated by the context recognition unit 203 (step S121).
  • the server 2 causes the response information generation unit 204 to generate response information candidates according to the user's situation and the surrounding environment based on the search result and the context information (step S124).
  • the output control unit 205 of the server 2 determines whether or not it is the optimum response timing based on the current context information (step S127). Specifically, the output control unit 205 determines whether the current situation based on the context information satisfies the output start condition.
  • the output control unit 205 performs optimal response output control according to the user's situation (current context information). Specifically, for example, when the output destination is the information processing apparatus 1 (the image output unit 14 or the audio output unit 16 or the like), the output control unit 205 outputs information (response information, output start condition, and the like to the information processing apparatus 1). The output end condition is included) (step S130), and the information processing apparatus 1 outputs the response information (step S133). On the other hand, when the output destination is the peripheral device 5, the output control unit 205 similarly transmits the output information to the peripheral device 5 (step S136), and the peripheral device 5 outputs the response information (step S139).
  • the server 2 transmits a plurality of response information candidates to the information processing device 1 and the local output control unit 126 of the information processing device 1
  • the response timing may be determined, and the output from the information processing device 1 or the output from the peripheral device 5 connected via the home network 4 may be controlled.
  • a computer program for causing the hardware such as the CPU, the ROM, and the RAM built in the above-described information processing apparatus 1 to exhibit the functions of the information processing apparatus 1 can also be created.
  • a computer readable storage medium storing the computer program is also provided.
  • the system including the information processing apparatus 1 and the server 2 has been described with reference to FIG. 2.
  • the present embodiment is not limited to this, and the information processing apparatus 1 performs all the processing performed by the server 2.
  • the configuration may be implemented by the information processing apparatus 1 alone.
  • the information processing apparatus 1 may be configured to include the configuration (terminal-side module) described with reference to FIG. 4 and the configuration (server-side module) described with reference to FIG.
  • the system configuration according to the present embodiment is not limited to the example illustrated in FIG. 2, and may be, for example, a system including an edge server between the information processing device 1 and the server 2.
  • the edge server has a subset (external subset) corresponding to at least one of the utterance meaning analysis unit 201, the information search unit 202, the context recognition unit 203, the response information generation unit 204, and the user registration information storage unit 22.
  • the external subset of the edge server has higher performance than the subset (internal subset) of the information processing device 1.
  • the dialogue between the information processing apparatus 1 according to the present embodiment and the user is not limited to voice, and may be gesture (sign language, gesture) or text (chat).
  • the interaction is realized, for example, through a display with a touch panel, an input by the display and the keyboard, or the like.
  • a first transmission unit that transmits the input utterance information; A second transmitter that transmits the acquired context information; An output control unit configured to output response information to the utterance information to an output destination determined based on the context information;
  • An information processing apparatus comprising: (2) A first receiving unit that receives input utterance information; A second receiver that receives the acquired context information; An output control unit configured to output response information generated based on the utterance information to an output destination determined based on the context information;
  • An information processing apparatus comprising: (3) The information processing apparatus according to (1) or (2), wherein the output control unit outputs output information including the response information and an output start condition and an output end condition according to the context information to the output destination.
  • the response information includes information of a response content, an output format, and an output destination.
  • the output format indicates audio output, text output, image output, or light output.
  • the output destination indicates the information processing apparatus, an audio output apparatus, a display apparatus, an information processing terminal, or a lighting apparatus.
  • Processor is Transmitting the input utterance information; Sending the obtained context information, Controlling to output response information to the utterance information to an output destination determined based on the context information;
  • Information processing methods including: (11) Processor is Receiving input speech information; Receiving the acquired context information, Controlling response information generated based on the utterance information to an output destination determined based on the context information;
  • Information processing methods including:

Abstract

【課題】コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能な情報処理装置、および情報処理方法を提供する。 【解決手段】入力された発話情報を送信する第一の送信部と、取得したコンテキスト情報を送信する第二の送信部と、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、を備える、情報処理装置。

Description

情報処理装置、および情報処理方法
 本開示は、情報処理装置、および情報処理方法に関する。
 近年、ユーザの発話音声に対して音声認識・意味解析を行い、音声により応答する技術の開発が行われている。特に昨今の音声認識アルゴリズムの進歩とコンピュータ技術の発展により、音声認識処理を実用的な時間で行うことが可能となり、音声を用いたUI(ユーザインタフェース)がスマートフォンやタブレット端末等で普及してきている。
 音声入力に関して、例えば下記特許文献1では、人間のジェスチャ、視線といった直接的な指示と、人間の発話音声とを統合的に解析して人間が何に対してどのように注目しているのかというユーザの注目情報として解析結果を出力するマルチモーダル情報解析装置が開示されている。
特開2000-231427号公報
 ここで、システムから出力される応答は、ユーザの状況や環境を考慮せずに提示されるため、ユーザが応答結果を理解し難い場合があった。
 そこで、本開示では、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能な情報処理装置、および情報処理方法を提案する。
 本開示によれば、入力された発話情報を送信する第一の送信部と、取得したコンテキスト情報を送信する第二の送信部と、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、を備える、情報処理装置を提案する。
 本開示によれば、入力された発話情報を受信する第一の受信部と、取得したコンテキスト情報を受信する第二の受信部と、前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、を備える、情報処理装置を提案する。
 本開示によれば、プロセッサが、入力された発話情報を送信することと、取得したコンテキスト情報を送信することと、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、を含む、情報処理方法を提案する。
 本開示によれば、プロセッサが、入力された発話情報を受信することと、取得したコンテキスト情報を受信することと、前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、を含む、情報処理方法を提案する。
 以上説明したように本開示によれば、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本実施形態による情報処理装置の概要を説明する図である。 本実施形態によるシステムの全体構成を説明する図である。 本実施形態による情報処理装置の構成の一例を示すブロック図である。 本実施形態による制御部の機能構成例を示す図である。 本実施形態によるサーバの構成の一例を示すブロック図である。 本実施形態による発話意味解析部により解析される情報の具体例を示す図である。 本実施形態によるコンテキスト情報の具体例を示す図である。 本実施形態による応答情報の具体例を示す図である。 本実施形態による応答制御処理を示すシーケンス図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による情報処理装置の概要
 2.構成
  2-1.情報処理装置1の構成
  2-2.サーバ2の構成
 3.動作
 4.まとめ
 <1.本開示の一実施形態による情報処理装置の概要>
 まず、本開示の一実施形態による情報処理装置の概要について説明する。図1は、本実施形態による情報処理装置1の概要を説明する図である。図1に示すように、本実施形態による情報処理装置1は、音声入力部10(例えばマイクアレイ)および音声出力部16を有し、ユーザとの音声対話を実現するエージェント機能を有する。具体的には、情報処理装置1は、ユーザの発話音声を音声入力部10により取得し、ユーザの発話に対する応答情報を音声出力部16からユーザに対して返答する。例えば明日の天気の問い合わせをユーザから受けた場合、情報処理装置1は明日の天気情報をユーザに応答する。
 さらに、本実施形態による情報処理装置1は画像出力部14を有していてもよく、ユーザに応答する際に画像情報を表示することが可能である。
 また、本実施形態による情報処理装置1は、図1に示すような据え置き型のホームエージェント装置であってもよいし、自走型のホームエージェント装置(例えばロボット)であってもよい。また、情報処理装置1は、スマートフォン、タブレット端末、携帯電話端末、ウェアラブル端末等のモバイル端末であってもよいし、パーソナルコンピュータ、ゲーム機、音楽プレイヤー、車載端末等であってもよい。
 また、本実施形態による情報処理装置1は、サーバ2と接続し、サーバ2とデータの送受信を行い、ユーザへの応答処理を行い得る。情報処理装置1とサーバ2を含む本実施形態によるシステムの全体構成について図2を参照して説明する。図2に示すように、情報処理装置1は、ネットワーク3を介してサーバ2に接続し、また、ホームネットワーク4を介してホーム内の各種機器(周辺装置5)と接続する。周辺装置5は、情報処理装置1の周辺(若しくはユーザの周辺)に存在し、音声出力部、表示出力部、または照明出力部等を有する各種装置である。具体的には、例えばテレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54、PC55が想定される。ホームネットワーク4は、例えばWi-Fi(登録商標)、赤外線通信、またはBluetooth(登録商標)等が利用され得る。
 ここで、既存の音声対話システムでは、ユーザの状況や環境を考慮せずに応答が出力されるため、ユーザが応答結果を理解し難い場合があった。例えばシステムから長い文章で音声応答された場合、ユーザは理解することが困難であった。また、テレビを見ていたり掃除機をかけている際に音声で応答されても聞こえ難い場合があった。また、ユーザが電話を行っている時にシステムから通知があっても気付き難かったり注意を向けられない場合があった。さらに、例えば共有している家族の予定を確認した際に、予定を入力した者にしか分からないようなキーワード等を含む予定がそのまま提示されても、ユーザ(発話者)には内容が理解できないという問題があった。
 そこで、本開示では、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことを可能とする。具体的には、例えば情報処理装置1は、ユーザのコンテキスト(例えば、誰が聞いているか、時刻、ユーザの行動・状況、環境状態、ユーザの予定等)を取得し、ユーザのコンテキストに応じた適切な出力形式、出力先(出力部)、および出力タイミングで応答を提示することで、ユーザが容易に応答内容を理解できるようにする。
 以上、本実施形態による情報処理装置1の概要およびシステム全体の概要について説明した。続いて、本実施形態による情報処理装置1およびサーバ2の構成について順次説明する。
 <2.構成>
 <2-1.情報処理装置1の構成>
 図3は、本実施形態による情報処理装置1の構成の一例を示すブロック図である。図3に示すように、情報処理装置1は、音声入力部10、音声認識部11、制御部12、通信部13、画像出力部14、音声合成部15、および音声出力部16を有する。
 音声入力部10は、ユーザ音声や周辺の環境音を収音し、音声信号を音声認識部11に出力する。具体的には、音声入力部10は、マイクロホンおよびアンプ等により実現される。また、音声入力部10は、複数のマイクロホンから成るマイクアレイにより実現されてもよい。
 音声認識部11は、音声入力部10から出力された音声信号に対して音声認識を行い、ユーザの発話音声をテキスト化する。テキスト化した発話データは、制御部12に出力される。
 制御部12は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置1内の動作全般を制御する。制御部12は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部12は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部12は、音声認識部11から出力されたユーザ発話データ(テキスト情報)に対して応答する発話情報(応答情報)や、自発的な発話情報(ユーザへの通知等)を、画像出力部14または音声合成部15に出力する。例えば制御部12は、音声入力されたユーザ発話に基づく発話情報を通信部13からサーバ2へ送信し、サーバ2から返送され通信部13で受信した応答情報を画像出力部14または音声合成部15に出力したり、当該応答情報を通信部13からホームネットワーク4内の周辺装置5に出力したりしてもよい。制御部12の詳細な構成については図4を参照して後述する。
 通信部13は、有線/無線により他の装置との間でデータの送受信を行う通信モジュールである。通信部13は、例えば有線LAN(Local Area Network)、無線LAN、Wi-Fi(Wireless Fidelity、登録商標)、赤外線通信、Bluetooth(登録商標)、近距離/非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して無線通信する。
 また、通信部13は、サーバ2と接続し、所定のデータの送受信を行う。例えば通信部13は、ユーザ発話に基づく発話情報をサーバ2に送信したり、サーバ2からユーザ発話への応答情報等を受信したりする。本明細書において「発話情報」とは、ユーザが入力した発話の情報の他、当該情報の全部または一部を認識/解析/分析/推定し、音声形式、テキスト形式、または特徴量のベクトル形式等その他の形式に変換したものも含む。また、通信部13は、周辺装置5等から取得した機器情報やセンサ情報をサーバ2へ送信する。
 また、本実施形態による通信部13は、例えばカメラ、ユーザ端末(例えばスマートフォン)、センサ類から各種情報を受信する。センサ類はユーザ端末に設けられてもよいし、ユーザが装着するウェアラブル端末に設けられていてもよいし、部屋のドアやソファー、廊下等に設置されていてもよい。センサ類としては、例えばジャイロセンサ、加速度センサ、方位センサ、位置測位部、および生体センサ等が想定される。
 画像出力部14は、例えば液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置等により実現される。画像出力部14は、制御部12から出力された画像情報をユーザに表示する。
 音声合成部15は、制御部12から出力された発話情報(テキスト)を音声データに変換(音声化)し、音声出力部16に出力する。
 音声出力部16は、音声合成部15から出力された音声データをユーザに出力する。具体的には、音声出力部16は、スピーカおよびアンプ等により実現されている。
 (制御部12の詳細構成)
 続いて、図4を参照して本実施形態による制御部12の詳細構成について説明する。図4は、本実施形態による制御部12の機能構成例を示す図である。
 図4に示すように、本実施形態による制御部12は、ローカル発話意味解析部121、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、ローカル応答情報生成部125、およびローカル出力制御部126として機能する。
 ローカル発話意味解析部121は、音声認識部11から入力された発話データ(テキスト)に対していわゆる自然言語処理を適用し、発話中のキーワードの抽出やユーザの発話意図の推定等を行なう。本実施形態によるローカル発話意味解析部121は、後述するサーバ2の発話意味解析部201のサブセットであって、簡易の発話意味解析機能を有する。
 ローカルユーザ登録情報記憶部122は、ユーザ情報(プロファイル)やユーザにより登録された情報(ユーザ登録情報と称す)を記憶する。本実施形態によるローカルユーザ登録情報記憶部122は、後述するサーバ2のユーザ登録情報記憶部22のサブセットであって、記憶するデータ量は少ない(例えば直近3カ月に登録された情報を記憶する)。
 ローカル情報検索部123は、ユーザの要求が「検索」の場合、ローカル発話意味解析部121または発話意味解析部201により抽出された検索キーワードに基づいて、ローカルユーザ登録情報記憶部122から検索を行う。本実施形態によるローカル情報検索部123は、後述するサーバ2の情報検索部202のサブセットであって、簡易の情報検索機能を有する。
 ローカルコンテキスト認識部124は、ユーザ(発話者)のコンテキストを逐次認識、推定し、コンテキスト情報を出力する。例えば、ローカルコンテキスト認識部124は、情報処理装置1や、情報処理装置1と無線/有線により接続する周辺装置(テレビ受像機51、スマートフォン54、照明機器53等)に設けられるマイクロホン、カメラ、または各種センサ等により取得されたセンサ情報(音声情報、画像情報、センサ値等)や、機器情報に基づいて、ユーザのコンテキストを認識(推定)する。本実施形態によるローカルコンテキスト認識部124は、後述するサーバ2のコンテキスト認識部203のサブセットであって、簡易のコンテキスト認識機能を有する。
 ローカル応答情報生成部125は、ユーザの発話に対する応答に関する情報を生成する。例えば本実施形態によるローカル応答情報生成部125は、検索結果とコンテキスト情報とに基づいて、ユーザ状況や環境等のコンテキストに応じた応答情報を生成する。本実施形態によるローカル応答情報生成部125は、後述するサーバ2の応答情報生成部204のサブセットであって、簡易の応答情報生成機能を有する。なお応答情報には、応答内容、出力形式(音声出力、テキスト出力、画像出力、または光出力等)、および出力部(出力先;例えば情報処理装置1、または音声出力装置、表示装置、情報処理端末、または照明装置等の周辺装置5)の情報が含まれる。
 ローカル出力制御部126は、ローカル応答情報生成部125または応答情報生成部204により生成された応答情報と、コンテキスト情報に基づいて、ユーザのコンテキストに応じた最適な出力方式と出力先で応答情報を出力するよう制御する。具体的には、ローカル出力制御部126は、応答情報、出力開始条件、出力終了条件を含む出力情報を生成し、最適な出力先に出力する。本実施形態によるローカル出力制御部126は、後述するサーバ2の出力制御部205のサブセットであって、簡易の出力制御機能を有する。
 なお、ローカル出力制御部126から出力された出力情報は、画像出力部14、音声合成部15、または通信部13を介して周辺装置5に出力される。画像出力部14に出力された場合、応答内容(テキスト、画像)が画面に表示、若しくは壁等に投影される。また、音声合成部15に出力された場合、応答内容が音声化され、音声出力部16から再生される。また、通信部13を介して有線/無線で接続する周辺のテレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54、PC55等に送信された場合、これらの周辺装置5からテキストや音声等によりユーザに提示される。
 以上、本実施形態による情報処理装置1の構成について具体的に説明した。なお本実施形態による情報処理装置1の構成は図3および図4に示す例に限定されない。例えば情報処理装置1は、ローカル発話意味解析部121、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、およびローカル応答情報生成部125の全てまたは一部を有さない構成であってもよい。また、情報処理装置1が人感センサやカメラを有していてもよい。
 また、情報処理装置1は、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、またはローカル応答情報生成部125による処理が対応できない場合にサーバ2へ対応する処理の要求を行ってもよい。また、情報処理装置1は、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、またはローカル応答情報生成部125で処理を行うと共に、サーバ2に対して対応する処理要求を行い、いずれかの処理結果を利用するようにしてもよい。
 <2-2.サーバ2の構成>
 次に、図5を参照して本実施形態によるサーバ2の構成について説明する。図5は、本実施形態によるサーバ2の構成の一例を示すブロック図である。
 図5に示すように、本実施形態によるサーバ2は、制御部20、通信部21、およびユーザ登録情報記憶部22を有する。
 通信部21は、外部装置と接続し、データの送受信を行う。例えば通信部21は、情報処理装置1から発話情報やセンサ情報を受信したり、後述する応答情報生成部204で生成された応答情報を情報処理装置1に送信したりする。
 ユーザ登録情報記憶部22は、ユーザ情報(プロファイル)やユーザにより登録された情報(ユーザ登録情報と称す)を記憶する。例えばユーザ登録情報は、予定(スケジュール)、備忘録(メモ)、他ユーザへの伝言等が想定される。
 制御部20は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ2内の動作全般を制御する。制御部20は、例えばCPU、マイクロプロセッサ等の電子回路によって実現される。また、制御部20は、使用するプログラムや演算パラメータ等を記憶するROM、及び適宜変化するパラメータ等を一時記憶するRAMを含んでいてもよい。
 本実施形態による制御部20は、図5に示すように、発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、および出力制御部205として機能する。
 発話意味解析部201は、情報処理装置1から送信された発話情報に対していわゆる自然言語処理を適用し、発話中のキーワードの抽出やユーザの発話意図の推定等を行なう。発話情報は、例えば「2月28日10時からピアノ教室」、「今日の予定は?」等の音声認識処理によりテキスト化されたデータ等、様々想定される。本実施形態による発話意味解析部201は、例えばユーザがどのような要求(情報を登録したい、検索したい等)をしているのかを解析し、発話データから登録対象の情報や検索キーワードを抽出する。ユーザの要求が「登録」の場合、抽出された登録対象の情報がユーザ登録情報記憶部22に格納される。また、ユーザの要求が「検索」の場合、抽出された検索キーワードが情報検索部202に出力される。ここで、発話意味解析部201により解析される情報の具体例を図6に示す。図示されたように、例えばアプリケーション(カレンダーアプリケーション、備忘録アプリケーション等)や、当該アプリケーションで行う操作内容(登録、検索、削除等)の推定、および検索キーワードや登録情報等の値(「13時美容院」、「週末の予定」、「明日」等)の抽出が行われる。
 情報検索部202は、ユーザの要求が「検索」の場合、発話意味解析部201により抽出された検索キーワードに基づいて、ユーザ登録情報記憶部22から検索を行い、結果を応答情報生成部204に出力する。例えば、「週末のみんなの予定を教えて」という要求の場合、情報検索部202は、ユーザ登録情報記憶部22に登録された家族全員(ここでは、「みんな」とは『家族』を示すことが発話意味解析部201により推定される)の予定情報から「週末」の予定を検索する。
 コンテキスト認識部203は、ユーザ(発話者)のコンテキストを逐次認識、推定し、コンテキスト情報を出力する。具体的には、コンテキスト認識部203は、情報処理装置1から送信されるセンサ情報に基づいて、ユーザのコンテキストを認識(推定)する。かかるセンサ情報は、情報処理装置1や、情報処理装置1と無線/有線により接続する周辺装置5(テレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54等)に設けられるマイクロホン、カメラ、または各種センサ等により取得された情報(音声情報、画像情報、センサ値等)を含む。また、コンテキスト認識部203は、情報処理装置1から送信された情報処理装置1や周辺装置5等の機器情報(ON/OFF情報、操作情報等)に基づいてユーザのコンテキストを認識(推定)することも可能である。ユーザのコンテキストとは、例えばユーザが誰であるか(発話者の識別)、ユーザ状態(行動、状況、画像からのユーザ視線方向推定、同視線方向推定に基づくユーザのアテンションのある物体の推定)、環境状態(ユーザが一人でいるのか複数人でいるのか等のユーザ環境、ユーザ位置)、または機器状態(ユーザ周辺に存在する機器の状態)等が想定される。コンテキスト情報とは、画像、音声、各種センサ情報から直接得られる前述のユーザ状態、環境状態、機器状態の他、これらの情報を認識/解析/分析/推定した結果、間接的に得られる情報を含む。ここで、コンテキスト情報の具体例を図7に示す。図示されたように、例えばユーザ状態として、TVを見ている、部屋にいない、家事をしている等が推定される。また、機器状態として、情報処理装置1が制御可能なデバイス情報、具体的にはテレビ受像機51のON/OFF、スマートフォン54、照明機器53の状態等が認識される。また、環境状態として、騒音レベル(煩さ)や部屋の照度レベル(明るさ)等が認識される。
 応答情報生成部204は、ユーザの発話に対する応答に関する情報を生成する。例えば本実施形態による応答情報生成部204は、情報検索部202から出力された検索結果と、コンテキスト認識部203から出力されたコンテキスト情報とに基づいて、ユーザ状況や環境等のコンテキストに応じた応答情報を生成する。より具体的には、応答情報生成部204は、検索結果およびコンテキスト情報に基づいて、応答内容、出力形式(音声、テキスト、ライト等)の指定、出力先(情報処理装置1、テレビ受像機51、オーディオ機器52、スマートフォン54、照明機器53、PC55等)の指定を含む応答情報を生成する。また、応答情報生成部204は、出力の候補となり得る応答情報を複数生成して出力制御部205に出力してもよい。
 ここで、応答情報の具体例を図8に示す。図8では、いずれも発話内容が週末の予定の問い合わせ(「週末のみんなの予定を教えて?」)であって、当該発話の意味解析結果に基づいて情報検索部202により、
「土曜日、13時Cさん(登録者:ユーザA)
 日曜日、10時ユーザB サッカー
 日曜日、18時ユーザB 町内会」
というユーザ登録情報が検索された場合における応答情報の一例が示されている。具体的には、発話者がユーザA、ユーザBの場合に生成される応答情報が示されている。ここでは、ユーザAとユーザBが家族(夫婦)であって、情報処理装置1をホームエージェントとして利用し、互いのスケジュールを共有している場合を想定する。
 応答情報生成部204は、例えば図8の応答情報例に示すように、「発話者:ユーザA(妻)」、「ユーザ状態:発話者が情報処理装置1を見ている」というコンテキスト情報と、上記検索結果に応じて、「出力機器:情報処理装置1」、「出力形式:表示出力(テキスト)」、「出力内容(応答内容):検索した情報をそのまま表示」という応答情報を生成する。ここでは、ユーザAが情報処理装置1の方に視線を向けているため、応答情報を情報処理装置1に表示することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、表示出力という形式のため、ある程度長い文章(ここでは、週末の3つの予定全ての内容)をそのまま出力してもユーザが容易に理解できるため、検索したユーザ登録情報がそのまま表示するものとする。
 また、応答情報生成部204は、例えば図8の応答情報例に示すように、「発話者:ユーザA(妻)」、「ユーザ状態:発話者が手元を見ている。環境:部屋は静かな状態」というコンテキスト情報と、上記検索結果に応じて、「出力機器:情報処理装置1」、「出力形式:音声出力」、「出力内容(応答内容):検索した情報を要約」という応答情報を生成する。ここでは、ユーザAが手元を見ており、かつ部屋は静かな状態であるため、応答情報を音声出力することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、音声出力という形式のため、長い文章を出力してもユーザが理解し難いため、検索ユーザ登録情報を要約することでユーザが理解し易いようにすることができる。
 また、応答情報生成部204は、例えば図8の応答情報例に示すように、「発話者:ユーザB(夫)」、「ユーザ状態:発話者がTVを見ている」というコンテキスト情報と、上記検索結果に応じて、「出力機器:TV」、「出力形式:表示出力(テキスト)」、「出力内容(応答内容):検索した情報を発話者が理解できる内容に変更して表示」という応答情報を生成する。ここでは、ユーザBがTVを見ているため、応答情報をテレビ受像機51に表示することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、検索したユーザ登録情報のうち、ユーザAによって登録された情報が「土曜日、13時Cさん」というように、固有名詞「Cさん」が用いられている場合、登録した本人以外にはどのような予定であるのか理解するのは困難である。そこで、例えば家族に関する知識データベースが予め構築されている場合、応答情報生成部204は、当該知識データベースを用いて登録者以外も容易に理解できる応答内容に変更する。具体的には、例えば知識データベースから「Cさん:○○美容院の美容師」という情報が抽出できた場合、応答情報生成部204は、「土曜日、13時Cさん」を『土曜日、13時ユーザA ○○美容院』に変更してユーザBも理解できる応答内容を生成する。
 以上、本実施形態による応答情報例について説明した。上述した例では、応答情報生成部204がコンテキスト情報に応じて応答内容を変更する場合について説明したが、本実施形態はこれに限定されず、例えば検索結果に応じて応答内容を変更してもよい。具体的には、例えば検索結果が1件の場合は「音声」で返答するが、検索結果が複数の場合は「表示(またはプロジェクターによる投影)」で返答するようにしてもよい。検索結果が多い場合は音声で聞くよりも表示画面を視認した方が理解し易いためである。
 また、本実施形態による応答情報生成部204は、複数のコンテキストに応じた応答情報を生成し、生成した複数の応答情報を出力制御部205に出力してもよい。例えば発話者ユーザAの場合に、図8に示す「ユーザ状態:情報理装置1を見ている場合」と、「ユーザ状態:手元(情報処理装置1以外)を見ている場合」等の異なるコンテキストにそれぞれ対応する応答情報を生成し、出力制御部205に出力する。
 出力制御部205は、応答情報生成部204により生成された応答情報と、コンテキスト情報に基づいて、ユーザのコンテキストに応じた最適な出力方式と出力先で応答情報を出力するよう制御する。具体的には、出力制御部205は、応答情報を含む出力情報を生成し、最適な出力先に出力する。ここで、コンテキストは逐次変化するため、出力制御部205は、出力時におけるユーザのリアルタイムのコンテキスト情報に応じて最適な応答情報を選択し、出力情報として出力することも可能である。
 なお、出力制御部205から出力された出力情報は、情報処理装置1の画像出力部14、音声合成部15、または周辺装置5等に出力される。画像出力部14に出力された場合、応答内容(テキスト、画像)が画面に表示、若しくは壁等に投影される。また、音声合成部15に出力された場合、応答内容が音声化され、音声出力部16から再生される。また、ユーザ周辺のテレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54、PC55等の周辺装置5に送信された場合、これらの周辺装置5からテキストや音声等によりユーザに提示される。なお周辺装置5へは、情報処理装置1を介して出力情報が送信されてもよい。
 また、出力制御部205は、コンテキスト情報に応じて出力タイミングを制御することも可能である。具体的には、出力制御部205は、コンテキスト情報に応じて最適な出力開始条件と出力終了条件を生成し、出力情報に含めて出力先へ出力する。出力開始条件は、例えば「即座に、時間指定(15:00等)、ユーザ状態指定(電話が終了してから等)」等が挙げられる。また、出力終了条件は、「回数指定(1回だけ等)、時間指定(60秒間等)、ユーザ状態指定(ユーザが部屋から出るまで等)」等が挙げられる。これにより、例えばユーザ環境の騒音が静かになった時(掃除等が終了した時)等に、音声で応答情報を提示したりすることが可能となる。
 以上、本実施形態によるサーバ2の構成について具体的に説明した。なお本実施形態によるサーバ2の構成は図5に示す例に限定されない。例えばサーバ2の発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、出力制御部205、およびユーザ登録情報記憶部22の全てまたは一部が、外部装置(例えば情報処理装置1)に設けられていてもよい。
 また、発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、および出力制御部205の少なくともいずれかの処理が情報処理装置1側の対応するサブセットで行われ、その処理結果を情報処理装置1から受信してサーバ2側で利用してもよい。
  <3.動作>
 続いて、本実施形態による動作処理について図9を参照して説明する。図9は、本実施形態による応答制御処理を示すシーケンス図である。本実施形態による応答制御処理は、情報処理装置1で起動するシステム(アプリケーションプログラム)およびサーバ2で起動するシステム(アプリケーションプログラム)により実行される。
 図9に示すように、まず、情報処理装置1は、センサ情報を取得し(ステップS100)、サーバ2に送信する(ステップS103)。センサ情報は、例えば撮像画像、収音音声、または各種センサ値等であって、情報処理装置1または周辺装置5等に設けられたカメラ、マイク、センサ等により検知され得る。サーバ2に送信されるセンサ情報は、検知された生データであってもよいし、生データから特徴量抽出等、所定の加工を行ったデータであってもよい。
 次に、サーバ2のコンテキスト認識部203は、センサ情報に基づいてコンテキストを認識し、認識結果(コンテキスト情報)を蓄積する(ステップS106)。なおステップS100~S106に示すコンテキストの認識、蓄積処理は、ステップS109以降の処理を行っている間も逐次行われ得る。
 次いで、情報処理装置1は、ユーザからの発話を認識すると(ステップS109/Yes)、発話情報をサーバ2に送信する(ステップS112)。サーバ2に送信される発話情報は、収音されたユーザ発話の音声データであってもよいし、音声認識処理によりテキスト化されたテキストデータの他、音声データを認識/解析/分析/推定した結果、間接的に得られるデータであってもよい。
 次に、サーバ2の発話意味解析部201は、発話情報に基づいてユーザ発話の意味解析を行い、検索条件や検索キーワードを抽出する(ステップS115)。
 次いで、サーバ2は、情報検索部202により、上記抽出した検索条件、検索キーワードを用いて、ユーザ登録情報記憶部22に記憶されているユーザ登録情報から検索を行う(ステップS118)。
 次に、サーバ2は、コンテキスト認識部203により蓄積されたコンテキスト情報を取得する(ステップS121)。
 次いで、サーバ2は、応答情報生成部204により、検索結果およびコンテキスト情報に基づいて、ユーザの状況や周辺環境に応じた応答情報の候補を生成する(ステップS124)。
 続いて、サーバ2の出力制御部205は、現在のコンテキスト情報に基づいて、最適な応答タイミングであるか否かを判断する(ステップS127)。具体的には、出力制御部205は、コンテキスト情報に基づく現在の状況が出力開始条件を満たすか否かを判断する。
 次いで、最適な応答タイミングであると判断した場合(ステップS127/Yes)、出力制御部205は、ユーザの状況(現在のコンテキスト情報)に応じた最適な応答出力制御を行う。具体的には、例えば出力先が情報処理装置1(画像出力部14、または音声出力部16等)である場合、出力制御部205は情報処理装置1に出力情報(応答情報、出力開始条件、出力終了条件を含む)を送信し(ステップS130)、情報処理装置1において応答情報が出力される(ステップS133)。一方、出力先が周辺装置5である場合、出力制御部205は同様に出力情報を周辺装置5に送信し(ステップS136)、周辺装置5において応答情報が出力される(ステップS139)。
 なお、本実施形態による処理は図9に示す例に限定されず、例えばサーバ2が情報処理装置1に複数の応答情報の候補を送信し、情報処理装置1のローカル出力制御部126により最適な応答タイミングを判断し、情報処理装置1からの出力、またはホームネットワーク4を介して接続する周辺装置5からの出力を制御してもよい。
  <4.まとめ>
 上述したように、本開示の実施形態による情報処理装置1では、コンテキストに応じて応答を生成し、出力することで、様々な環境下に適した理解し易い応答を行うことを可能とする。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述した情報処理装置1に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置1の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本実施形態では図2を参照して情報処理装置1とサーバ2を含むシステムとして説明したが、本実施形態はこれに限定されず、サーバ2で行われる処理を全て情報処理装置1が行う構成とし、情報処理装置1単体で実現してもよい。例えば、情報処理装置1が、図4を参照して説明した構成(端末側モジュール)と、図5を参照して説明した構成(サーバ側モジュール)を含む構成であってもよい。
 また、本実施形態によるシステム構成は、図2に示す例に限定されず、例えば情報処理装置1とサーバ2の間にエッジサーバを含むシステムであってもよい。エッジサーバは、発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、またはユーザ登録情報記憶部22の少なくともいずれかに対応するサブセット(外部サブセット)を有する。エッジサーバの外部サブセットは情報処理装置1のサブセット(内部サブセット)よりも高い性能を有する。
 なお、本実施形態による情報処理装置1とユーザの対話は音声に限定されず、ジェスチャー(手話、身振り手振り)やテキスト(チャット)であってもよい。この場合、例えばタッチパネル付のディスプレイや、ディスプレイとキーボードによる入力等を介してインタラクションが実現される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 入力された発話情報を送信する第一の送信部と、
 取得したコンテキスト情報を送信する第二の送信部と、
 前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、
を備える、情報処理装置。
(2)
 入力された発話情報を受信する第一の受信部と、
 取得したコンテキスト情報を受信する第二の受信部と、
 前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、
を備える、情報処理装置。
(3)
 前記出力制御部は、前記応答情報と、前記コンテキスト情報に応じた出力開始条件および出力終了条件を含む出力情報を前記出力先に出力する、前記(1)または(2)に記載の情報処理装置。
(4)
 前記応答情報は、応答内容、出力形式、および出力先の情報を含む、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
 前記出力形式は、音声出力、テキスト出力、画像出力、または光出力を示す、前記(4)に記載の情報処理装置。
(6)
 前記出力先は、前記情報処理装置、音声出力装置、表示装置、情報処理端末、または照明装置を示す、前記(4)または(5)に記載の情報処理装置。
(7)
 前記応答内容は、発話者に応じて変更される、前記(4)~(6)のいずれか1項に記載の情報処理装置。
(8)
 前記応答内容は、出力形式に応じて変更される、前記(4)~(7)のいずれか1項に記載の情報処理装置。
(9)
 前記出力制御部は、リアルタイムのコンテキスト情報に応じて出力制御する、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(10)
 プロセッサが、
 入力された発話情報を送信することと、
 取得したコンテキスト情報を送信することと、
 前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、
を含む、情報処理方法。
(11)
 プロセッサが、
 入力された発話情報を受信することと、
 取得したコンテキスト情報を受信することと、
 前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、
を含む、情報処理方法。
 1 情報処理装置
 10 音声入力部
 11 音声認識部
 12 制御部
 13 通信部
 14 画像出力部
 15 音声合成部
 16 音声出力部
 121 ローカル発話意味解析部
 122 ローカルユーザ登録情報記憶部
 123 ローカル情報検索部
 124 ローカルコンテキスト認識部
 125 ローカル応答情報生成部
 126 ローカル出力制御部
 2  サーバ
 20  制御部
 201 発話意味解析部
 202 情報検索部
 203 コンテキスト認識部
 204 応答情報生成部
 205 出力制御部
 21  通信部
 22  ユーザ登録情報記憶部
 3  ネットワーク
 4  ホームネットワーク
 5  周辺装置

Claims (11)

  1.  入力された発話情報を送信する第一の送信部と、
     取得したコンテキスト情報を送信する第二の送信部と、
     前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、
    を備える、情報処理装置。
  2.  入力された発話情報を受信する第一の受信部と、
     取得したコンテキスト情報を受信する第二の受信部と、
     前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、
    を備える、情報処理装置。
  3.  前記出力制御部は、前記応答情報と、前記コンテキスト情報に応じた出力開始条件および出力終了条件を含む出力情報を前記出力先に出力する、請求項2に記載の情報処理装置。
  4.  前記応答情報は、応答内容、出力形式、および出力先の情報を含む、請求項2に記載の情報処理装置。
  5.  前記出力形式は、音声出力、テキスト出力、画像出力、または光出力を示す、請求項4に記載の情報処理装置。
  6.  前記出力先は、前記情報処理装置、音声出力装置、表示装置、情報処理端末、または照明装置を示す、請求項4に記載の情報処理装置。
  7.  前記応答内容は、発話者に応じて変更される、請求項4に記載の情報処理装置。
  8.  前記応答内容は、出力形式に応じて変更される、請求項4に記載の情報処理装置。
  9.  前記出力制御部は、リアルタイムのコンテキスト情報に応じて出力制御する、請求項2に記載の情報処理装置。
  10.  プロセッサが、
     入力された発話情報を送信することと、
     取得したコンテキスト情報を送信することと、
     前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、
    を含む、情報処理方法。
  11.  プロセッサが、
     入力された発話情報を受信することと、
     取得したコンテキスト情報を受信することと、
     前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、
    を含む、情報処理方法。
PCT/JP2017/001261 2016-04-08 2017-01-16 情報処理装置、および情報処理方法 WO2017175442A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018510235A JP6973380B2 (ja) 2016-04-08 2017-01-16 情報処理装置、および情報処理方法
EP17778821.3A EP3441889A4 (en) 2016-04-08 2017-01-16 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US16/071,832 US20190026265A1 (en) 2016-04-08 2017-01-16 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-078499 2016-04-08
JP2016078499 2016-04-08

Publications (1)

Publication Number Publication Date
WO2017175442A1 true WO2017175442A1 (ja) 2017-10-12

Family

ID=60000314

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/001261 WO2017175442A1 (ja) 2016-04-08 2017-01-16 情報処理装置、および情報処理方法

Country Status (4)

Country Link
US (1) US20190026265A1 (ja)
EP (1) EP3441889A4 (ja)
JP (1) JP6973380B2 (ja)
WO (1) WO2017175442A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019164709A (ja) * 2018-03-20 2019-09-26 ヤフー株式会社 出力制御装置、出力制御方法、および出力制御プログラム
JP2020030246A (ja) * 2018-08-20 2020-02-27 Zホールディングス株式会社 決定装置、決定方法及び決定プログラム
CN111788566A (zh) * 2018-03-08 2020-10-16 索尼公司 信息处理设备、终端装置、信息处理方法和程序

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600911B (zh) * 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11341051A (ja) * 1998-05-25 1999-12-10 Canon Inc 通信システム及び通信システムにおけるメディア変換方法
JP2002259252A (ja) * 2001-02-28 2002-09-13 Ntt Docomo Inc 情報提供方法及び情報提供装置
JP2004177990A (ja) * 2002-11-22 2004-06-24 Ntt Docomo Inc 情報提示システム、情報提示方法、プログラム及び記録媒体
JP2004350214A (ja) * 2003-05-26 2004-12-09 Hitachi Ltd コンテンツ配信サーバ及び端末並びにプログラム
JP2013254395A (ja) * 2012-06-07 2013-12-19 Ricoh Co Ltd 処理装置、処理システム、出力方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589565B2 (en) * 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11341051A (ja) * 1998-05-25 1999-12-10 Canon Inc 通信システム及び通信システムにおけるメディア変換方法
JP2002259252A (ja) * 2001-02-28 2002-09-13 Ntt Docomo Inc 情報提供方法及び情報提供装置
JP2004177990A (ja) * 2002-11-22 2004-06-24 Ntt Docomo Inc 情報提示システム、情報提示方法、プログラム及び記録媒体
JP2004350214A (ja) * 2003-05-26 2004-12-09 Hitachi Ltd コンテンツ配信サーバ及び端末並びにプログラム
JP2013254395A (ja) * 2012-06-07 2013-12-19 Ricoh Co Ltd 処理装置、処理システム、出力方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3441889A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111788566A (zh) * 2018-03-08 2020-10-16 索尼公司 信息处理设备、终端装置、信息处理方法和程序
JP2019164709A (ja) * 2018-03-20 2019-09-26 ヤフー株式会社 出力制御装置、出力制御方法、および出力制御プログラム
JP2020030246A (ja) * 2018-08-20 2020-02-27 Zホールディングス株式会社 決定装置、決定方法及び決定プログラム
JP7093266B2 (ja) 2018-08-20 2022-06-29 ヤフー株式会社 決定装置、決定方法及び決定プログラム

Also Published As

Publication number Publication date
EP3441889A1 (en) 2019-02-13
JP6973380B2 (ja) 2021-11-24
JPWO2017175442A1 (ja) 2019-02-21
EP3441889A4 (en) 2019-05-22
US20190026265A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
CN113095798B (zh) 社交提醒
JP7418526B2 (ja) 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
CN106463114B (zh) 信息处理设备、控制方法及程序存储单元
JP6669162B2 (ja) 情報処理装置、制御方法、およびプログラム
JP2023169309A (ja) 自動アシスタントによって応答アクションをトリガするためのホットコマンドの検出および/または登録
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
CN109643548B (zh) 用于将内容路由到相关联输出设备的系统和方法
EP3419020B1 (en) Information processing device, information processing method and program
WO2017175442A1 (ja) 情報処理装置、および情報処理方法
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
WO2020105302A1 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2020116026A1 (ja) 応答処理装置、応答処理方法及び応答処理プログラム
KR20210116897A (ko) 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
US11688268B2 (en) Information processing apparatus and information processing method
WO2016052520A1 (ja) 対話装置
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP7415952B2 (ja) 応答処理装置及び応答処理方法
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2022172774A (ja) 電子装置および電子システム
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018510235

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2017778821

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2017778821

Country of ref document: EP

Effective date: 20181108

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17778821

Country of ref document: EP

Kind code of ref document: A1