WO2016158005A1 - 制御装置、制御方法及びコンピュータプログラム - Google Patents

制御装置、制御方法及びコンピュータプログラム Download PDF

Info

Publication number
WO2016158005A1
WO2016158005A1 PCT/JP2016/053420 JP2016053420W WO2016158005A1 WO 2016158005 A1 WO2016158005 A1 WO 2016158005A1 JP 2016053420 W JP2016053420 W JP 2016053420W WO 2016158005 A1 WO2016158005 A1 WO 2016158005A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
response
content
control device
unit
Prior art date
Application number
PCT/JP2016/053420
Other languages
English (en)
French (fr)
Inventor
淳也 小野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/313,817 priority Critical patent/US10474669B2/en
Priority to EP16771889.9A priority patent/EP3279809A4/en
Priority to CN201680001441.0A priority patent/CN106462646B/zh
Publication of WO2016158005A1 publication Critical patent/WO2016158005A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Definitions

  • the present disclosure relates to a control device, a control method, and a computer program.
  • a technology that generates a response including an answer to the question and presents the generated response to the user who has made a question (see, for example, Patent Document 1).
  • the user can easily ask the question about the question without stopping viewing the content, and can appropriately obtain a response to the question Ask for things.
  • a new and improved control device and control method capable of presenting a response to a question issued to a user while viewing the content in a form appropriate to the questioned user, and Suggest a computer program.
  • a control device includes a control unit that includes a control unit that performs control to determine.
  • the computer outputs the contents of the response generated in response to the query from the user for the content output to at least one or more users, the target for outputting the response, and the response.
  • a control device is provided that includes performing control to determine the output timing.
  • contents of a response generated in response to a query from the user for contents output to at least one or more users, a target for outputting the response, and the response A computer program is provided that performs performing control to determine output timing.
  • a new and improved control capable of presenting a response to a question issued to a user while viewing the content in a form appropriate to the questioned user
  • An apparatus, a control method, and a computer program can be provided.
  • FIG. 3 is an explanatory view showing an example of a functional configuration of an utterance detection unit 110;
  • FIG. 6 is an explanatory diagram showing an example of a functional configuration of a speaker recognition unit 140.
  • It is an explanatory view showing an example of functional composition of utterance analysis part 150.
  • It is an explanatory view showing an example of functional composition of knowledge base system section 160.
  • It is an explanatory view showing an example of functional composition of output control section 180.
  • It is a flow chart which shows an operation example of control device 100 concerning one embodiment of this indication.
  • FIG. 7 is a flowchart showing an operation example of the speech analysis unit 150. It is an explanatory view explaining acquisition of a main node. It is an explanatory view explaining acquisition of a list of nodes related to a main node. It is an explanatory view explaining mapping of main nodes. It is an explanatory view explaining generation of an entity. It is explanatory drawing explaining the descending sort by the score of an entity. It is explanatory drawing which shows the example of interest graph structure. It is an explanatory view showing an example of a use case using control device 100 concerning one embodiment of this indication. It is an explanatory view showing an example of a use case using control device 100 concerning one embodiment of this indication.
  • Wearable devices include, for example, various types of devices such as a glasses type and a watch type, but what is common is that the screen is small. Therefore, when a user views content using a wearable device having such a small screen, it is assumed that the user operates the content by talking to the device instead of directly operating the screen. In addition, when the user speaks to the device, it is also assumed that utterances using vague expressions using instruction words such as “this” and “that” increase.
  • the present disclosure technology is capable of presenting a response to a question issued to the content in a form appropriate for the user who asked the question when the user is viewing the content.
  • FIG. 1 is an explanatory view showing an example of a functional configuration of a control device 100 according to an embodiment of the present disclosure.
  • FIG. 1 shows an example of a functional configuration of the control device 100 for receiving a question from a user viewing content and generating a response to the question.
  • the functional configuration example of the control device 100 according to an embodiment of the present disclosure will be described using FIG. 1.
  • a control device 100 includes an input unit 101, an output unit 102, a communication unit 103, and a control unit 104.
  • the input unit 101 is for receiving user's input, and is provided in the control device 100 in the present embodiment as a unit for receiving a question from a user who is viewing content output from the output unit 102. It is done.
  • the input unit 101 includes, for example, a microphone for collecting a sound uttered by the user, a camera for capturing a gesture of the user, and a depth sensor for detecting a distance from the input unit 101 to the user.
  • the input unit 101 sends data generated by the user's input operation to the control unit 104.
  • the control device 100 provides a plurality of microphones in the input unit 101 and facilitates beamforming with a plurality of microphones in order to facilitate identification of which user has uttered when there are a plurality of users. You may go.
  • the output unit 102 outputs the data generated by the control unit 104.
  • the output unit 102 outputs the content to the user, and the user who has been issued about the output content.
  • the output unit 102 includes, for example, a display for displaying characters, images and other visual information, and a speaker for outputting sound.
  • the communication unit 103 communicates information with other devices. For example, by communicating information with another device based on the control of the control unit 104, the communication unit 103 can obtain, from the other device, information serving as a basis for a response to a question from the user. it can.
  • the control unit 104 controls the operation of the control device 100, and includes, for example, a central processing unit (CPU), a graphics processing unit (GPU), a read only memory (ROM), and a random access memory (RAM). .
  • the control unit 104 operates to generate a response to the question input by the user via the input unit 101, and to output the response from the output unit 102 in an appropriate form for the user.
  • the control unit 104 included in the control device 100 includes an utterance detection unit 110, a gesture detection unit 120, a content analysis unit 130, and a speaker recognition unit 140. , A speech analysis unit 150, a knowledge base system unit 160, a response generation unit 170, an output control unit 180, and a device management unit 190.
  • the utterance detection unit 110 detects that the user has uttered the input unit 101. Then, when detecting that the user has made a speech, the speech detection unit 110 converts the contents of the speech into text. When the speech detection unit 110 detects that the user has made a speech, the speech detection unit 110 sends the speech of the section of the speech to the subsequent speaker recognition unit 140.
  • FIG. 2 is an explanatory view showing an example of a functional configuration of the speech detection unit 110.
  • the speech detection unit 110 includes a signal processing unit 111, a speech reception processing unit 112, and a speech recognition unit 113.
  • the signal processing unit 111 performs signal processing on the audio signal sent from the input unit 101 in order to improve the accuracy of voice recognition.
  • the signal processing unit 111 performs signal processing for removing noise and reverberation from the voice signal, for example, in order to improve the accuracy of voice recognition in the far field.
  • the speech reception processing unit 112 performs processing for receiving that the user has made a speech on the audio signal subjected to the signal processing by the signal processing unit 111.
  • the speech reception processing unit 112 receives the speech of the user and detects a speech section of the user.
  • the speech recognition unit 113 in the subsequent stage can improve the accuracy of recognition by accepting the speech of the user and detecting the speech section of the user to limit the speech portion.
  • the processing period of the speech recognition in the speech recognition unit 113 in the latter stage is limited, and power saving is realized. Can be realized.
  • the speech recognition unit 113 performs speech recognition processing in the speech segment of the user detected by the speech reception processing unit 112, and converts speech into text.
  • the speech to text conversion process is not limited to a specific process.
  • the utterance detection unit 110 can detect that the user utters and convert the content uttered by the user into text.
  • the gesture detection unit 120 detects a gesture input to the input unit 101 by the user.
  • the gesture detection unit 120 can detect which part of the content displayed by the output unit 102 is indicated by the user by detecting the user's gesture.
  • the content analysis unit 130 analyzes the content of the content displayed by the output unit 102. For example, the content analysis unit 130 analyzes the video and audio of the content displayed by the output unit 102, and sends the analysis result to the speech analysis unit 150.
  • the content analysis unit 130 separates, for example, images, sounds, and texts in the content, and extracts feature quantities according to the separated data. Then, the content analysis unit 130 converts, for example, the feature amount of the image into a keyword, converts the voice into a text, and acquires the feature amount of the text by linguistic analysis. Also, for example, if metadata is attached to the content displayed by the output unit 102, the content analysis unit 130 analyzes the content of the metadata, and sends the analysis result to the speech analysis unit 150.
  • the speaker recognition unit 140 specifies the speaker who has uttered the input unit 101.
  • the speaker recognition unit 140 specifies the speaker by, for example, specifying the direction in which the user uttered the voice or analyzing the voice uttered.
  • FIG. 3 is an explanatory view showing an example of a functional configuration of the speaker recognition unit 140.
  • the speaker recognition unit 140 includes a beamforming processing unit 141 and a speaker identification processing unit 142.
  • the beamforming processing unit 141 identifies the uttered direction by beamforming with a plurality of microphones provided as the input unit 101.
  • the speaker identification processing unit 142 executes processing for identifying who the person who uttered is. For example, the speaker identification processing unit 142 identifies a person who is in the speech direction specified by the beamforming processing unit 141 by face recognition processing on an image captured by a camera provided as the input unit 101. Further, the speaker identification processing unit 142 executes, for example, a process of analyzing the voice of the utterance and specifying who the person who uttered is.
  • the speaker recognition unit 140 can accurately schedule who is the speaker who has uttered the input unit 101.
  • the speaker identification process by the speaker recognition unit 140 according to the present embodiment will be described in detail later.
  • the speech analysis unit 150 analyzes the content of the speech detected by the speech detection unit 110.
  • the speech analysis unit 150 analyzes the content of the speech detected by the speech detection unit 110 by language analysis, context analysis (handover of speech sentence), semantic analysis and the like. Then, as a result of analyzing the content of the speech detected by the speech detection unit 110, if the content of the speech is a question sentence, the speech analysis unit 150 queries the knowledge base system unit 160.
  • FIG. 4 is an explanatory view showing an example of a functional configuration of the speech analysis unit 150.
  • the speech analysis unit 150 is configured to include a language analysis unit 151 and a semantic analysis unit 152.
  • the language analysis unit 151 analyzes the structure of the text converted by the speech detection unit 110.
  • the language analysis unit 151 can determine whether the content of the speech by the user is a question by analyzing the structure of the text converted by the speech detection unit 110.
  • the language analysis unit 151 may perform context analysis. By context analysis, it is possible to take over and analyze the previous speech by the user and to properly normalize expressions or instruction words omitted by the user.
  • the semantic analysis unit 152 interprets ambiguous expressions included in the text converted by the utterance detection unit 110, and interprets the intention of the user's utterance.
  • the semantic analysis unit 152 interprets ambiguous expressions by inquiring to the knowledge base system unit 160.
  • the speech analysis unit 150 can analyze the content of the speech detected by the speech detection unit 110 and detect what meaning the user has uttered. .
  • the knowledge base system unit 160 holds a database in which, for example, general knowledge, user-specific knowledge, device-specific knowledge, etc. are graph structured, and performs a search on the database to infer an ambiguous expression. And interpret vague expressions.
  • the knowledge base system unit 160 may reflect the preference of the user when interpreting ambiguous expressions.
  • the knowledge base system unit 160 generates a response to the question from the speech analysis unit 150.
  • the response generated by the knowledge base system unit 160 is also referred to as a response based parameter in the present embodiment.
  • the response-based parameters generated by the knowledge base system unit 160 are sent to the response generation unit 170 and become the basis of the response to the user generated by the response generation unit 170.
  • FIG. 5 is an explanatory view showing an example of a functional configuration of the knowledge base system unit 160.
  • the knowledge base system unit 160 includes a knowledge database 161 and a WEB information holding unit 162.
  • the knowledge database 161 is a database in which general knowledge, user-specific knowledge, and device-specific knowledge are graph structured. Also, the WEB information holding unit 162 is a database that collects information existing on the Internet and graph-structures the information.
  • the knowledge base system unit 160 can generate a response to the question from the speech analysis unit 150 by having the configuration as shown in FIG. 5. Further, the knowledge base system unit 160 enables the analysis of the user's intention to the vague expression in the speech analysis unit 150 by having the configuration as shown in FIG. The generation of a response using the knowledge base system unit 160 and the analysis processing of the user's intention for ambiguous expressions will be described in detail later.
  • the response generation unit 170 generates a response (a response sentence, a response display, a response voice, and the like) as a base based on the response base parameter obtained from the knowledge base system unit 160.
  • the output control unit 180 controls the output timing of the response and the content of the response, which is the base response generated by the response generation unit 170.
  • the output control unit 180 controls the output timing and the content of the response to be output for the response that is the base generated by the response generation unit 170.
  • FIG. 6 is an explanatory view showing an example of a functional configuration of the output control unit 180.
  • the output control unit 180 includes a trigger determination unit 181 and a personalization output unit 182.
  • the trigger determination unit 181 manages reproduction and stop of the content, and determines the timing of output of the response.
  • the control device 100 has two types of modes, a mode in which response output is performed in real time, and a mode in which a response is output when a predetermined condition is satisfied.
  • the mode of outputting the response in real time is also referred to as a real time mode, and the mode of outputting the response when a predetermined condition is satisfied is also referred to as a bookmark mode.
  • the predetermined condition used by the trigger determination unit 181 may be, for example, that the content being output is in a predetermined state, or may be, for example, that a predetermined time has come.
  • the predetermined state of the content being output may be, for example, the timing when the content ends, or when the content is a television program, the timing may become a commercial.
  • the timing at which the content ends may include both the timing at which the content is reproduced to the end and the timing at which the user explicitly ends the reproduction of the content.
  • the predetermined time may include both a time relatively elapsed from the end time of the content and a time unrelated to the end of the content.
  • the personalization output unit 182 performs control to optimize and output the contents of the base response generated by the response generation unit 170 according to the interest level of the user who has uttered the question.
  • the output control unit 180 can control the output timing of the base response generated by the response generation unit 170. Further, by having the configuration as shown in FIG. 6, the output control unit 180 can control the contents to be output for the base response generated by the response generation unit 170.
  • the device management unit 190 manages a device to which the output control unit 180 outputs a response, and selects a device suitable for the output of the response.
  • FIG. 7 is an explanatory view showing an example of the functional configuration of the device management unit 190.
  • the device management unit 190 includes a sensor information acquisition unit 191 and an output device selection unit 192.
  • the sensor information acquisition unit 191 acquires information sent from the sensor of the input unit 101.
  • the sensor information acquired by the sensor information acquisition unit 191 is used in the process of selecting a device suitable for the output of the response in the output device selection unit 192.
  • the output device selection unit 192 uses the sensor information acquired by the sensor information acquisition unit 191 to perform processing for selecting a device suitable for the output of the response.
  • the device selection process by the output device selection unit 192 will be described in detail later.
  • the device management unit 190 manages the device to which the output control unit 180 outputs a response, and outputs the response based on the information sent from the sensor of the input unit 101. It is possible to select a suitable device.
  • control device 100 includes the input unit 101 and the output unit 102.
  • the present disclosure is not limited to such an example, and the input unit The 101, the output unit 102, and the control unit 104 may be provided in separate devices.
  • control device 100 by having the configuration as shown in FIGS. 1 to 7, understands the intention of the question issued by the user for the content being output, and the question It is possible to output the response to the question in an appropriate form for the user who
  • control device 100 The functional configuration example of the control device 100 according to an embodiment of the present disclosure has been described above. Subsequently, an operation example of the control device 100 according to an embodiment of the present disclosure will be described.
  • FIG. 8 is a flowchart showing an operation example of the control device 100 according to an embodiment of the present disclosure.
  • FIG. 8 shows the control device 100 for generating an answer to a question issued by the user for the content being output and outputting an answer to the question in an appropriate form for the questioned user. Is an operation example of Hereinafter, an operation example of the control device 100 according to an embodiment of the present disclosure will be described using FIG. 8.
  • the control device 100 When the user utters the content output by the output unit 102 toward the input unit 101, the control device 100 first extracts the utterance sentence (step S101).
  • the utterance detection unit 110 performs, for example, the extraction of the utterance sentence in step S101.
  • the control device 100 may detect, for example, a predetermined action of the user at the time of extraction of the utterance sentence, and shift to the speech acceptance state by detection of the action.
  • the control device 100 can shift to the speech acceptance state by detecting the operation, thereby limiting the speech section, reducing the probability that noise will occur when extracting the speech sentence, and improving the accuracy of the speech recognition. it can. Further, by transitioning to the speech acceptance state by detecting the operation, the control device 100 does not have to make the speech recognition always resident, and power saving can be realized.
  • the predetermined operation for shifting to the speech acceptance state may be, for example, an operation of the remote controller, a predetermined activation word, a predetermined gesture, or the like.
  • the control device 100 operates a voice recognition process in which a predetermined activation word is preset and which recognizes only the activation word. Then, upon recognizing the activation word, the control device 100 activates voice recognition and waits for the user's speech.
  • control device 100 operates only the voice recognition function that recognizes only a predetermined activation word and consumes less power, and operates the speech recognition function that recognizes all voices when a predetermined activation word is recognized. You may
  • the control device 100 when transitioning to the speech acceptance state by recognition of a predetermined gesture, the control device 100 detects the operation of the user's face, a finger, and the line of sight with a camera, a depth sensor, or the like. For example, when it is detected that the user turns the face, the finger, or the line of sight to a specific part of the display area for a predetermined time, the control device 100 can shift to the speech acceptance state.
  • control apparatus 100 When the control apparatus 100 extracts the utterance sentence of the user in step S101, the control apparatus 100 subsequently determines which position of the content outputted by the output unit 102 the utterance target of the user is in, the utterance target A position determination process in content is performed (step S102). For example, the gesture detection unit 120 performs the position determination process in the content to be uttered in step S102.
  • control device 100 extracts an utterance sentence in step S101. For example, it is assumed that as a result of the control device 100 extracting an utterance sentence in step S101, an utterance sentence "who is on the left side of the screen?" Can be extracted.
  • the control apparatus 100 can determine from the content of the utterance that the utterance target is on the left side in the content. As described above, when the user designates a position in the content to a certain extent, the control device 100 can easily determine the position in the content to be uttered.
  • the control device 100 extracts the utterance sentence in the above-mentioned step S101.
  • the utterance sentence "this person?" Can be extracted.
  • the control device 100 can not identify who the user is talking about only by “who is this person?”.
  • the control device 100 detects a gesture of the user made along with the speech.
  • the control device 100 according to the present embodiment detects the user's gesture made with the speech, so that even if vague contents such as “this person?” Determine the position of
  • the case where the user explicitly indicates the position is defined as the unique type, and the case where the user does not explicitly indicate the position is defined as the candidate type.
  • a touch panel is provided in the output unit 102, and when the user touches the touch panel with a finger or the like, the control device 100 can determine the touched place as the position in the content to be uttered.
  • the control device 100 detects the gesture of the user to determine the position in the content to be uttered.
  • the control device 100 detects which part the user is pointing to, for example, by detecting the position at which the user's finger is pointing or the line of sight of the user.
  • control device 100 may output the detection result of the user's gesture to the output unit 102.
  • the control device 100 displays the position pointed to by the user's gesture in the content, thereby detecting that the user's gesture is pointing to which portion in the content. It can be fed back to the user.
  • the control device 100 inquires of the user where in the content the user is pointing. At the time of the inquiry, the control device 100 has one of a real-time mode in which the inquiry is returned to the user in real time, and a bookmark mode in which the inquiry is returned to the user according to the content status. Ask the user at
  • the control device 100 may pause the content to allow the user to narrow down the candidates, and the screen of the content at the time the user speaks to prevent the user from viewing the content.
  • the shot may be displayed on another screen.
  • the control device 100 displays the screen output from the output unit 102 to the user when the user speaks, and causes the user to specify the position again. By causing the user to specify the position again, the control device 100 can specify the position in the content.
  • the control device 100 When responding in the bookmark mode, the control device 100 holds a screen shot of the content at the time when the user speaks, displays the screen shot at a predetermined timing, and outputs the screen from the output unit 102 To the user and let the user specify the position again. By causing the user to specify the position again, the control device 100 can specify the position in the content.
  • the control device 100 may arbitrarily determine the position in the content that the user seems to designate. For example, when it is known from the user's preference that the user has a strong interest in female entertainers, the control device 100 asks the user "Who is this person?" If done, it may be determined that it is pointing to a woman rather than a man, and may identify where the woman is in the content.
  • the user When the user utters a question, if there are a plurality of candidates in the content that can be candidates at that time, it can be classified into the following patterns depending on whether the user designates a position in the content.
  • the case A-1 is a pattern that allows the user to directly specify the position.
  • the cases B-1 and B-2 are patterns that allow the user to specify the position by a gesture.
  • the case B-3 is a pattern that allows the user to specify a position on another device that is not the device watching the content. The selection method of another device is mentioned later.
  • the C-1 to C-3 cases are patterns that automatically prioritize the system from the graph structure of a knowledge based system using user profiles. The method of determining the priority will be described later.
  • the cases D-1 and D-2 are patterns to be prioritized by hierarchy and big data analysis possessed by a knowledge base system. The method of determining the priority will be described later.
  • control device 100 When the position in the content to be uttered is determined in step S102, the control device 100 subsequently extracts the feature amount of the content (step S103). For example, the content analysis unit 130 performs the extraction process of the feature amount of the content in step S103.
  • step S103 separation of images, sounds, and texts in the content is performed as extraction processing of the feature amounts of the content, and feature amounts corresponding to the separated data are extracted.
  • the extracted feature amount is converted to a keyword by image analysis, and in the case of speech, it is converted to text by speech recognition, and a feature amount is obtained by linguistic analysis on the text.
  • the feature amount of the content is required to answer the question.
  • information provided (tagged) in advance to the content is defined as a static feature amount, and the image or sound of the content is analyzed.
  • Information obtained is defined as a dynamic feature.
  • information such as a person or a place tagged in advance in the content corresponds.
  • the information may be managed along the time series of the content based on the information held by the knowledge base system unit 160. For example, in a situation where a person in a television program changes along a time series, all information on the person (position range in the content, name of person, age, etc.) may be held by the content reproduction device. Only the ID information for identifying the content may be held by the content reproduction apparatus, and the person's information may be obtained by inquiring of the knowledge base system unit 160.
  • the control device 100 analyzes the image and the sound of the content after going back a predetermined time from the time of detecting the speech by a method called perceptual delay feedback.
  • control device 100 may have a mechanism for synchronizing the time when the user wonders and the time when the user speaks.
  • the time lag until a human perceives a picture or sound and generates a voice varies among individuals, and the time lag changes with age, for example. Therefore, the control device 100 enables a person to perceive a picture or a sound and set a time lag statically until a voice is generated in advance with a constant value, and after specifying a uttered user, the user profile information is determined from the user profile information.
  • the time lag may be dynamically changed. For example, if it is possible to determine from the user profile information that the uttered user is a teenager, the time lag can be shortened, and if it can be determined from the user profile information that the uttered user is a 60s user, the time lag can be extended. You may
  • the control device 100 acquires content information for each frame from the time when the user's speech is detected to the past time in consideration of the time lag. By setting the time lag in this manner, the control device 100 can feed back the user's perceived delay, and can include the content that the user focused on in the analysis target of the image and the sound.
  • the control device 100 After extracting the feature amount of the content in step S103, subsequently, the control device 100 performs a process of specifying the uttered speaker (step S104).
  • the speaker recognition unit 140 performs the speaker identification process of step S104.
  • the control device 100 performs signal processing, image analysis, and speaker identification using data sensed by a camera sensor, a microphone sensor, and a depth sensor of a device that outputs content.
  • a microphone array sensor is used to specify the speech direction.
  • the control device 100 may determine from which direction speech is generated by beamforming technology that identifies the speech direction by identifying the direction in which the sound is generated by the time delay when sound passes through the microphone array. it can.
  • a depth sensor or a camera sensor is used to specify the speech direction.
  • the control device 100 can specify the direction of the user's gesture detected by the depth sensor or the camera sensor as the speech direction.
  • control device 100 When identifying the user's voice, for example, the control device 100 identifies the speech direction by beamforming technology or the like and then picks up the voice of that direction and collects the voice waveform, and the knowledge base system unit 160 This can be identified by comparison with the waveform registered in.
  • the control device 100 When identifying the face of the uttered user, the control device 100 identifies the direction of the utterance by, for example, beam forming technology and then picks up the direction and executes face detection processing on the captured image to extract the face. It can be identified by collation with the face image registered in the knowledge base system unit 160.
  • the control device 100 may cause the screen displaying the content to display the image of the face captured by the camera or the icon displaying the face or name registered in the knowledge base system unit 160 in advance.
  • the control device 100 may perform speaker identification by causing the user to select an icon or an image.
  • the selection of the icon or the image by the user may be direct specification using a touch panel, or may be indirect specification by gesture.
  • step S104 When the speaker uttered in step S104 is specified, the control device 100 subsequently performs speaker recognition feedback processing (step S105).
  • the output control unit 180 executes the speaker recognition feedback process of step S105.
  • the speaker recognition feedback process of step S105 is a process of feeding back the reception of the speech recognition, an error, and the speaker identification result to the user.
  • the speaker recognition feedback process is performed, for example, as follows.
  • the speaker recognition unit 140 passes the reception of the speech recognition, an error, and the parameters of the speaker identification result to the response generation unit 170.
  • the response generation unit 170 generates a response based on the parameter received from the speaker recognition unit 140, and passes the generated response to the output control unit 180.
  • the output control unit 180 immediately outputs the response received from the response generation unit 170 in a format to be superimposed on the content.
  • the control device 100 may not necessarily execute the speaker recognition feedback process of step S105.
  • the control device 100 may determine whether or not to execute the speaker recognition feedback process based on the setting of the user, and may execute the speaker recognition feedback process if the user requests the speaker recognition feedback process. . Further, the control device 100 may execute the speaker recognition feedback process only when the speech recognition can not be performed or the speaker can not be identified.
  • control device 100 executes a process of understanding the intention of the utterance sentence extracted in step S101 (step S106).
  • the utterance analysis unit 150 executes the intention understanding process of the utterance text in step S 106 using the knowledge base system unit 160.
  • the speech analysis unit 150 is a database (structured) in which a knowledge such as a fact, common sense, experience, etc. is referred to as a knowledge base, which is called a knowledge base when understanding the intention of a speech sentence.
  • a knowledge base is not a mere database but includes a search and inference mechanism for utilizing stored knowledge.
  • the knowledge base system unit 160 stores the knowledge base and has a knowledge database 161 and a WEB information holding unit 162 as shown in FIG.
  • the knowledge database 161 has a Resource Description Framework (RDF) structure of triples (triples) in which each piece of knowledge of “subject, predicate, object” is called a node, and a link between the nodes is a relation. Constructs a connected knowledge graph structure.
  • RDF Resource Description Framework
  • triples triples
  • each piece of knowledge of “subject, predicate, object” is called a node
  • link between the nodes is a relation.
  • Constructs a connected knowledge graph structure As an example of a triple, there is "Mount Fuji, elevation, 3776 meters” and the like.
  • the database is broadly classified into general knowledge that does not depend on the user, such as world facts, common sense, and experience, and user knowledge (user profile) that depends on the user.
  • user knowledge user profile
  • device information is required, and which device the user holds is the user knowledge, and the device characteristic information ( The screen size, the presence or absence of the screen, etc. become general knowledge.
  • the speech analysis unit 150 When searching for the knowledge stored in the knowledge base system unit 160 using the speech sentence, the speech analysis unit 150 needs to cope with the writing fluctuation. In the case of speech recognition, it is necessary to absorb no symbols, differences in hiragana / katakana, differences in kanji, and differences in half / full width. Assuming that all candidates are not read in the database, the utterance analysis unit 150 dynamically changes the character string of the extracted utterance sentence, increases search candidates, and searches the knowledge base system unit 160. In order to change the character string of the utterance sentence dynamically and search the knowledge base system unit 160 by increasing search candidates, define the conversion rule of the character string and define the character string converted by the rule as the compression notation It is desirable to generate compressed notation in the database beforehand. The utterance analysis unit 150 dynamically generates a compression notation from the character string of the utterance sentence, and collates the compression notation stored in the knowledge base system unit 160.
  • the speech analysis unit 150 sorts the score in descending order of the score value of the data, for example, in order to improve the processing speed, and the search processing is performed when the number of hits reaches a predetermined value. You may finish the process.
  • the utterance analysis unit 150 generates compressed notation from the written sentence according to the conversion rule of the compressed notation shown in Table 2. Also, in advance, the knowledge database 161 is also converted by the same conversion notation of the compression notation.
  • the knowledge base system unit 160 may maintain a synonym database.
  • the speech analysis unit 150 can increase the number of writing candidates by expanding synonyms using the synonym database.
  • the utterance analysis unit 150 determines which domain or genre the expression of the utterance is. Since triple data of RDF structure is publicized and databases do not have a unified format or system, the knowledge base system unit 160 uniquely defines semantic attributes and maps the attributes of each database. Holds the condition of
  • FIG. 9 is a flowchart showing an operation example of the speech analysis unit 150.
  • FIG. 9 shows an operation example of the speech analysis unit 150 when searching the knowledge base system unit 160 based on the content of the speech sentence.
  • the utterance analysis unit 150 first performs dynamic expansion of the expression of the utterance sentence based on the conversion rules of Table 2 above, and generates search expression candidates (step S111). After performing the dynamic expansion of the expression of the utterance sentence in step S111, the speech analysis unit 150 subsequently selects a database to be searched according to the parameters such as the target language (step S112).
  • the speech analysis unit 150 When the database to be searched in step S112 is selected, the speech analysis unit 150 subsequently acquires semantic attribute conditions, that is, conditions for determining a domain or genre such as a person, place name, music, etc. (step S113). When the conditions for determining the domain and the genre are acquired in step S113, the speech analysis unit 150 subsequently acquires the main node from each database and sets the score (step S114).
  • FIG. 10 is an explanatory diagram for explaining acquisition of a main node. The utterance analysis unit 150 finds an extraction node from the target language, the written list, the search database list, and the semantic attribute condition.
  • the utterance analysis unit 150 finds an extraction node, the utterance analysis unit 150 traces an equivalence relation (predicate) from the extraction node to find a main node. Then, the speech analysis unit 150 acquires the score value of the found main node.
  • the speech analysis unit 150 After acquiring the main node and setting the score in step S114, the speech analysis unit 150 acquires a list of nodes related to the main node (step S115).
  • FIG. 11 is an explanatory diagram for explaining acquisition of a list of nodes related to the main node.
  • the utterance analysis unit 150 traces equivalent relations from the main node of each database and extracts related nodes. Related nodes are abbreviated notation and reading kana notation.
  • the speech analysis unit 150 When the list of nodes related to the main node is acquired in step S115, the speech analysis unit 150 subsequently maps the main nodes of each database (step S116).
  • FIG. 12 is an explanatory diagram for explaining the mapping of main nodes.
  • the utterance analysis unit 150 calculates link information of the acquired main nodes from the related nodes, generates links of the main nodes, and connects the databases.
  • the speech analysis unit 150 After mapping the main nodes of each database in step S116, the speech analysis unit 150 subsequently generates an integrated graph structure and an entity (step S117). It is assumed that a hierarchy is set in each database. The utterance analysis unit 150 links each database in hierarchical order to create an integrated graph structure. Then, the speech analysis unit 150 sets the main node of the database with the highest hierarchy as an entity.
  • FIG. 13 is an explanatory diagram for explaining generation of an entity.
  • the speech analysis unit 150 After generating the integrated graph structure and the entity in step S117, subsequently, the speech analysis unit 150 performs the score setting of the entity and the descending sort (step S118).
  • the utterance analysis unit 150 sets the highest score among the scores of the main nodes of each database as the score of the entity, and sorts the entities in descending order of the score.
  • FIG. 14 is an explanatory diagram for explaining the descending sort on the score of the entity.
  • the speech analysis unit 150 can search the knowledge base system unit 160 based on the contents of the speech and can understand the intention of the speech.
  • FIG. 9 A specific example of a series of operations of the speech analysis unit 150 shown in FIG. 9 will be described.
  • an operation example of the speech analysis unit 150 will be described in the case where the user utters "What is the age of A-chan?" And returns a response of "23 years old" based on the analysis result by the speech analysis unit 150.
  • the speech analysis unit 150 generates various search terms by dynamic expansion of the expression of the speech sentence.
  • the speech analysis unit 150 has the expression of speech recognition result “Achan” and the expression in the knowledge base system unit 160 is “ If “A-chan”, not only “A-chan” but also “A-chan” is generated as a search term. Further, if the speech recognition unit 150 includes a symbol in the expression of the speech recognition result, the speech analysis unit 150 also deletes the symbol and generates a search term.
  • the speech analysis unit 150 selects a database to be searched based on parameters such as the target language.
  • the utterance analysis unit 150 selects a database in which information is stored in Japanese, assuming that Japanese is a target in this example.
  • the speech analysis unit 150 acquires the semantic attribute condition. For example, if the person shown in the content is a singer, the utterance analysis unit 150 sets the semantic attribute to "person: singer:”.
  • the speech analysis unit 150 acquires a main node and sets a score from the selected search target database.
  • Each database holds triple data of subject predicate object.
  • AA alias AB Chan AB alias AA attribute Person: Singer AB attribute Person: Performer AA Age 23 years AB Age 32 years
  • “AA” and “AB” mean a person's name and correspond to the main node.
  • "A-chan” corresponds to an extraction node.
  • the speech analysis unit 150 can first find an extraction node of “A-chan”, follow alias, and arrive at the main nodes “AA” and “AB”. Note that, in this example, there are two candidates “AA” and “AB”, so it is not possible to uniquely determine the main node.
  • the speech analysis unit 150 acquires a list of nodes related to the main node.
  • the utterance analysis unit 150 acquires, as information related to the main node “AA”, information that the age is 23 and the semantic attribute is “person: singer”. Similarly, the utterance analysis unit 150 acquires information that the age is 32 and the semantic attribute is “person: entertainer” as the information related to the main node “AB”.
  • the speech analysis unit 150 generates an integrated graph structure and an entity. For example, if there are a plurality of search target databases and data of the main node “AA” exists for each database, the speech analysis unit 150 combines the same main nodes into one and is related to the main node Merge nodes
  • the speech analysis unit 150 performs the score setting of the entity and the descending sort.
  • "AA" and "AB” are generated as entities. Therefore, the speech analysis unit 150 sets a score to determine the priority of entities.
  • the utterance analysis unit 150 calculates scores from the frequency of nodes accessing the database and WEB information (for example, the frequency of browsing the encyclopedia site and the keyword frequency of the SNS), and sorts the scores in descending order.
  • the speech analysis unit 150 can set “AA” as an entity candidate.
  • the speech analysis part 150 is good also as a candidate of an entity by sorting in score order, and having the highest score.
  • the speech analysis unit 150 can determine an entity by operating in this manner. Then, if the entity can be determined to be “AA”, the utterance analysis unit 150 can generate a response “it is 23 years old” by tracing age information from the entity.
  • the control device 100 When the intention understanding of the utterance sentence is performed in step S106 of FIG. 8, subsequently, the control device 100 generates a response base parameter which is a parameter serving as a base of the response (step S107).
  • the response generation unit 170 performs the process of generating a response-based parameter in step S107.
  • the response generation unit 170 generates a base response sentence, a response display, and a response voice based on the parameters obtained by the speech analysis unit 150 searching the knowledge base system unit 160.
  • step S108 When a response base parameter which is a parameter serving as a base of the response is generated in step S107 of FIG. 8, subsequently, the control device 100 controls the output timing of the response (step S108).
  • the output control unit 180 controls the output timing of the response in step S108.
  • control device 100 controls the timing of the response in accordance with the state of the content and the state of the user who has uttered the question.
  • the control device 100 has two modes, a real time mode and a bookmark mode, as modes of response output timing.
  • the real-time mode is a mode in which a response is returned immediately while the user is watching content.
  • the user can obtain information immediately.
  • the real time mode is based on a form in which the response is superimposed on the device where the user is viewing the content.
  • the control device 100 outputs a response without changing the device the user is watching, thereby responding to the question issued by the user without stopping the work that the user is concentrating (that is, viewing of the content). It is possible to present
  • the control device 100 When outputting a response in the real time mode, the control device 100 outputs the result on the screen displaying the content, and the display position of the response indicates the device outputting the content and the user who identified the speech. Determine the position relationship with For example, if there are people on the left and right of the device displaying the content and it is detected that the user on the left side utters, the control device 100 displays a response on the left side of the screen.
  • the control device 100 When it is desired to emphasize the response when outputting the response in the real time mode, for example, the control device 100 darkens the brightness of the content being outputted, blurs the content by a shader or the like, and causes the response to be popped up etc. May be Also, the control device 100 may automatically pause the content being output and superimpose a response on the content. If the user does not want to emphasize the response result, the control device 100 may pop up at the edge of the screen or the like so as not to disturb the user's viewing of the content.
  • the response When outputting a response in real time mode, the response may be output to a device capable of outputting only voice.
  • the control device 100 reduces the volume of the content being output to make the user easy to hear the response result, and superimposes it on the background sound as a response. May be output by voice.
  • One bookmark mode is a mode in which a response is stored in a buffer so as not to disturb the user's viewing of content as much as possible, and the output timing is appropriately changed according to the user's situation or the situation of the content.
  • the bookmark mode is a mode in which a response is output when a predetermined condition is satisfied, as described above, rather than outputting the response immediately.
  • the control device 100 When outputting a response in the bookmark mode, the control device 100 sends the response to the device of the user who uttered the question. It is possible to control the amount of information of the response depending on the type of device used by the user. The relationship between the device used by the user and the amount of information of the response will be described in detail later.
  • the control device 100 can immediately send a response to the user's device, and when sending the response immediately to the user's device, the destination device may be a device registered in advance.
  • the device may be a device frequently used by the user determined from the user's usage history.
  • the response is sent to the user's device immediately, for example, it is assumed that the user is viewing the content while operating another second device (tablet or PC) other than the device outputting the content. Ru.
  • the user can confirm the response to the question by viewing the second device displayed on the second device at any time when the response to the question is displayed.
  • control device 100 performs face recognition when the user sees the second device without displaying the response immediately to the user's device, and displays the response to the second device based on the face recognition result You may
  • control device 100 may transmit a response to a device obtained by the user.
  • the control device 100 detects the timing when the user holds the device and the timing when the user operates the device while keeping the response in the buffer, and the buffer to the device Send information
  • the control device 100 may detect the timing at which the content ends and transmit the response at that timing.
  • the control device 100 may return a response to all the users. Further, the control device 100 may transmit a response to the specified user's device even if there are not a plurality of users in front of the device displaying the content. That is, even if the user to whom the response is to be returned (another user who is not the user who is not viewing or listening to the content) is not in front of the device outputting the content, the control device 100 Response can be returned to the For example, when the user utters “return response to father”, the control device 100 can determine the destination to which the response is to be returned as the device used by the father.
  • the control device 100 may not respond immediately, but may output a response according to the content status.
  • the status of the content for example, when the content reaches a predetermined timing (for example, after the timing of moving to a CM or the end of a program, the reproduction is ended if it is music), the user A response may be returned to the device to be used.
  • the control device 100 may overlay the response on the device where the user is viewing the content, and is viewing the content being used by the user The response may be sent to a device other than the device.
  • Control device 100 may transmit a response based on the setting of the output timing of the response according to the condition of the content.
  • the setting of the response output timing may include a default setting registered in advance and a user setting registered by the user. Table 3 shows an example of the default setting, and the output timing is set for each predetermined content genre.
  • the user setting is a setting that allows the user to register the output timing for each genre of content.
  • step S109 After controlling the output timing of the response in step S108 of FIG. 8, subsequently, the control device 100 performs interest level determination by personalization (step S109).
  • the determination of the level of interest by personalization in step S109 is performed by the output control unit 180 making an inquiry to the knowledge base system unit 160.
  • the control device 100 may customize and output the content of the response for each user.
  • the control device 100 refers to the personal information (user profile) of the user stored in the knowledge base system unit 160 when customizing the contents of the response for each user.
  • Table 4 is an example of the user profile stored in the knowledge base system unit 160.
  • the control device 100 determines the interest level of the user when customizing the contents of the response for each user.
  • the interest level of the user is divided into three levels. The high level is personal interest, the middle level is feature extraction and co-occurrence relation, and the low level is not applicable.
  • the control device 100 traces the interest graph structure to determine the interest level of the user.
  • the interest graph structure is generated from the feature similarity profile shown in Table 5 and the related user profile shown in Table 6 in addition to the user profile (Table 4) held by the knowledge base system unit 160.
  • FIG. 15 is an explanatory view showing an example of an interest graph structure that can be generated from the user profile, the feature similarity profile, and the related user profile which the knowledge base system unit 160 holds. From the interest graph structure shown in FIG. 15, the individual interest can be determined as “AA”, the feature extraction as “BB”, and the co-occurrence relation as “EE”. Then, the control device 100 can determine the interest level based on the content of the response.
  • the control device 100 may change the amount of summary of the contents of the response according to the determined user's interest level.
  • the control device 100 can present the user with the level of interest by changing, for example, the color, shape, and number of icons, or changing the type and height of sounds when represented by sounds.
  • Table 7 is an explanatory view showing an example of the output display according to the interest level.
  • control apparatus 100 When there are a plurality of candidates in the content and the user does not designate a target, the control apparatus 100 gives priority to the utterance such as "who is this person?" Good.
  • the control device 100 can generate an extraction priority list as shown in Table 9 by tracing the interest graph based on, for example, the transaction rules as shown in Table 8.
  • the control device 100 can determine the priority in the order of “EE”, “GG”, and “UU”, matching with the candidates in the content, Each candidate can be prioritized.
  • the control device 100 holds priorities in a triple (triple) predicate, and may specify entities (subjects) in the hierarchy order of predicate. For example, if the content being viewed by the user is a television drama, predicate may be determined in the order of leading, directing, directing, and supporting. Further, the control device 100 may acquire WEB information such as SNS or EPG, and may be focused on the higher the frequency of the entity, and the entities may be specified in the order of the frequency.
  • WEB information such as SNS or EPG
  • control device 100 After performing the interest level determination by personalization in step S109 of FIG. 8, subsequently, the control device 100 optimizes the output according to the device that outputs the response (step S110).
  • the output control unit 180 optimizes the output in step S110.
  • a device profile in which a method of response is described is held in the knowledge base system unit 160 according to the presence or absence of the display in the device held by the user and the size of the area of the display.
  • the device management unit 190 acquires a device profile from the knowledge base system unit 160.
  • the output control unit 180 optimizes the output based on the device profile acquired by the device management unit 190 from the knowledge base system unit 160.
  • Table 10 shows an example of a device profile.
  • the output control unit 180 can optimize the output of the response according to the feature of the output destination device based on the device profile as shown in Table 10.
  • control device 100 generates a response to an utterance from the user by executing the series of operations illustrated in FIG. 8 and outputs the generated response in an optimal form. I can do it.
  • FIG. 16 is an explanatory view showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 16 is an example in which the user's face uttered is imaged by a camera provided as the input unit 101 and superimposed on the content output by the display provided as the output unit 102.
  • the use case shown in FIG. 16 is a case where the user A utters “here?” While watching the content output by the display.
  • the control device 100 detects the location of the user A, captures an image of the user A with a camera, and superimposes the face of the user A on the content output by the display.
  • an image of a face may be superimposed on the side of the user who has made a speech. That is, when the user A who is on the left side of the display utters "here?", The control device 100 may cause the face image of the user A to be displayed in the left area of the display.
  • FIG. 17 is an explanatory diagram illustrating an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example illustrated in FIG. 17 is an example in which a display corresponding to a uttered user is superimposed on the content output by the output unit 102.
  • the use case shown in FIG. 17 is a case where the user A utters “here?” While looking at the content outputted by the output unit 102.
  • the control device 100 detects the uttered user A and superimposes an icon corresponding to the user A on the content output by the output unit 102.
  • the control device 100 may superimpose a color, a shape, an avatar, and the like corresponding to the user A on the content output by the output unit 102 in addition to the icon.
  • an icon, an avatar, or the like may be superimposed on the side of the uttered user. That is, when the user A who is on the left side of the display utters "here?", The control device 100 may cause the icon corresponding to the user A to be displayed in the left area of the display.
  • FIG. 18 is an explanatory view showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 18 is an example in which a voice response is returned to the user who has made a speech.
  • the use case shown in FIG. 18 is a case where the user A utters “here?” While looking at the content output by the output unit 102. In this case, the control device 100 detects the uttered user A and responds by voice as "user A, XXX".
  • FIG. 19 is an explanatory view showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 19 is an example in which a speaker who has uttered is specified, and a response to the utterance is superimposed on the content.
  • the control device 100 may display the response to the utterance at the always determined default position, or may dynamically change the display position according to the position of the speaker. In addition, the control device 100 may analyze the content of the content and display a response to the utterance at a position that does not interfere with the content. Further, when the control device 100 outputs the response to the speech by voice, the volume of the content being output may be reduced. In addition, when outputting a response to an utterance, the control device 100 may pause the content when the utterance is detected.
  • the control device 100 may be immediately after an utterance, during a commercial, or after a program or music is over, as a trigger for superimposing information on content being viewed by the user.
  • FIG. 20 is an explanatory view showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 20 is an example in which a speaker who spoke is specified and a response to the speech is sent to another device possessed by that speaker.
  • control device 100 may send it to a predetermined device, or may send it to a device obtained by the speaker, the speaker May be sent to the specified device dynamically.
  • the control device 100 may notify another device (e.g., a device in which the user is viewing content) that the response has been transmitted to the device.
  • FIG. 21 is an explanatory diagram showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 21 is an example in which the speaker designates a plurality of candidates in the content, and is an example in which the speaker designates a candidate simultaneously with the utterance.
  • FIG. 22 is an explanatory view showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 22 is an example in which the speaker designates a plurality of candidates in the content, and is an example in which the speaker designates a candidate after speech.
  • the speaker utters "this person, who?", And the controller 100 does not explicitly designate a candidate by a gesture or the like. For example, as shown in FIG. 22, the question is asked in reverse about which person the speaker is speaking. Then, when the speaker utters and designates "A", "It is left", etc., directly designates it by touching the screen, or indirectly designates it by gestures such as movement of a finger or a line of sight, etc. Can generate a response based on the specification and output the generated response.
  • FIG. 23 is an explanatory diagram showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 23 is an example where the speaker designates a plurality of candidates in the content, and a screen shot of the content at the time when the speaker utters is stored by the control device 100, and This is an example of a case where the speaker is made to specify a candidate.
  • the speaker utters "this person, who?", And the controller 100 does not explicitly designate a candidate by a gesture or the like. For example, as shown in FIG. 23, a screen shot of the content at the time the speaker speaks is held, and the screen shot is later presented to the speaker device to point to which person It may be specified. Also, if the device possessed by the speaker does not have a display, the control device 100 outputs a voice such as "Please look at the device with screen" to prompt the user to use the device with the display. It is also good.
  • FIG. 24 is an explanatory view showing an example of a use case using the control device 100 according to an embodiment of the present disclosure.
  • the use case example shown in FIG. 24 is an example in which a plurality of candidates exist in the content when the user speaks, and the control apparatus 100 determines the priority and outputs a response.
  • the controller 100 does not explicitly designate a candidate by a gesture or the like.
  • the candidates may be prioritized and the responses may be output.
  • the control device 100 responds with the information of the two persons as a response. It is outputting.
  • control device 100 After the control device 100 outputs information of two persons appearing in the content as a response, the user utters and designates it, or directly touches the screen to designate it, or gestures such as movement of a finger or a sight line When the instruction is indirectly designated, the control device 100 can generate a response again based on the designation and output the generated response.
  • the control device 100 may identify a speaker and output a response to the speaker.
  • the response may be output to all users who are viewing the content without specifying the speaker.
  • the control device 100 is set to a mode in which the speaker is not specified, or a case where the control device 100 can not specify the speaker.
  • control device 100 may identify the speaker and change the destination according to the content of the utterance. For example, when a destination such as “send to user B” is included in the utterance content of a certain user A, the control device 100 may change the destination of the response from user A to user B.
  • the control device 100 may always output with the same amount of information, or may change the amount of information based on the interest of the uttered user.
  • the control device 100 may display the color or symbol so that the amount of information can be understood, or change the type and height of sound. Good.
  • the control device 100 may add and output supplemental information.
  • the supplementary information may include savings, information related to the user, and the like. For example, if it is understood from the user profile that a certain entertainer is the same age as the user's mother, the control device 100 may output information such as "this person is the same age as your mother" as supplementary information. .
  • FIG. 25 is a block diagram showing an example of the hardware configuration of the control device 100 according to the embodiment of the present disclosure.
  • Each of the above algorithms can be executed, for example, using the hardware configuration of the information processing apparatus shown in FIG. That is, the processing of each algorithm is realized by controlling the hardware shown in FIG. 25 using a computer program.
  • the form of the hardware shown in FIG. 25 is arbitrary, and it may be, for example, a personal computer, a portable information terminal such as a mobile phone, PHS, or PDA, a game machine, a contact or noncontact IC chip, a contact type or These include non-contact IC cards, speakers, televisions, monitors, wearable devices, or various information home appliances.
  • a personal computer a portable information terminal such as a mobile phone, PHS, or PDA
  • a game machine such as a mobile phone, PHS, or PDA
  • a contact or noncontact IC chip such as a contact or noncontact IC chip, a contact type or These include non-contact IC cards, speakers, televisions, monitors, wearable devices, or various information home appliances.
  • PHS is an abbreviation for Personal Handy-phone System.
  • PDA is an abbreviation of Personal Digital Assistant.
  • this hardware mainly includes a CPU 902, a ROM 904, a RAM 906, a host bus 908, and a bridge 910. Further, the hardware includes an external bus 912, an interface 914, an input unit 916, an output unit 918, a storage unit 920, a drive 922, a connection port 924, and a communication unit 926.
  • said CPU is the abbreviation for Central Processing Unit.
  • ROM is an abbreviation of Read Only Memory.
  • the above RAM is an abbreviation of Random Access Memory.
  • the CPU 902 functions as, for example, an arithmetic processing unit or a control unit, and controls the entire operation of each component or a part thereof based on various programs recorded in the ROM 904, the RAM 906, the storage unit 920, or the removable recording medium 928.
  • the ROM 904 is a means for storing a program read by the CPU 902, data used for an operation, and the like.
  • the RAM 906 temporarily or permanently stores, for example, a program read by the CPU 902, various parameters that appropriately change when the program is executed, and the like.
  • a host bus 908 capable of high-speed data transmission.
  • the host bus 908 is connected to the external bus 912, which has a relatively low data transmission speed, via the bridge 910, for example.
  • the input unit 916 for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like is used.
  • a remote controller capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • a display device such as a CRT, LCD, PDP, or ELD
  • an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile etc.
  • the above-mentioned CRT is an abbreviation of Cathode Ray Tube.
  • the above LCD is an abbreviation of Liquid Crystal Display.
  • the above-mentioned PDP is an abbreviation of Plasma Display Panel.
  • the above ELD is an abbreviation of Electro-Luminescence Display.
  • the storage unit 920 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • HDD hard disk drive
  • the above HDD is an abbreviation of Hard Disk Drive.
  • the drive 922 is a device that reads information recorded in a removable recording medium 928 such as, for example, a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information in the removable recording medium 928.
  • the removable recording medium 928 is, for example, a DVD medium, a Blu-ray medium, an HD DVD medium, various semiconductor storage media, and the like.
  • the removable recording medium 928 may be, for example, an IC card equipped with a noncontact IC chip, an electronic device, or the like.
  • the above IC is an abbreviation for Integrated Circuit.
  • the connection port 924 is a port for connecting an external connection device 930 such as a USB port, an IEEE 1394 port, a SCSI, an RS-232C port, or an optical audio terminal.
  • the external connection device 930 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • USB is an abbreviation of Universal Serial Bus.
  • SCSI is an abbreviation of Small Computer System Interface.
  • the communication unit 926 is a communication device for connecting to the network 932, and for example, a wired or wireless LAN, a communication card for Bluetooth (registered trademark) or WUSB, a router for optical communication, a router for ADSL, or a contact Or a device for contactless communication.
  • a network 932 connected to the communication unit 926 is configured by a wired or wirelessly connected network, and is, for example, the Internet, a home LAN, infrared communication, visible light communication, broadcasting, satellite communication, or the like.
  • the above-mentioned LAN is an abbreviation of Local Area Network.
  • WUSB is an abbreviation of Wireless USB.
  • the above-mentioned ADSL is an abbreviation of Asymmetric Digital Subscriber Line.
  • an utterance from a user who is viewing content is detected, the content of the utterance is analyzed, and a response to the utterance is directed to the user in an appropriate form.
  • a control device 100 capable of outputting is provided.
  • each device in the present specification does not necessarily have to be processed chronologically in the order described as the sequence diagram or the flowchart.
  • each step in the process performed by each device may be processed in an order different from the order described as the flowchart or may be processed in parallel.
  • each functional block shown in the functional block diagram used in the above description may be realized by a single device or may be realized by a system in which a plurality of devices cooperate.
  • the system in which a plurality of devices cooperate may include, for example, a combination of a plurality of server devices, a combination of a server device and a terminal device, and the like.
  • the following configurations are also within the technical scope of the present disclosure.
  • (1) The contents and response of the response generated in response to the query from the user for the content output for at least one or more users, the target for outputting the response, and the target for outputting the timing for outputting the response
  • a control device comprising a control unit that performs control to determine.
  • the control unit outputs the response in response to an inquiry from the user as the timing of outputting the response, or waits for the output of the response until a predetermined condition is satisfied even if there is an inquiry from the user.
  • the control device according to (1) The control device according to (1).
  • (3) The control device according to (2), wherein the control unit waits for the output of the response until the condition of the content satisfies a predetermined condition even if there is an inquiry from the user.
  • control device determines a timing of outputting a response according to a genre of the content when responding to the user.
  • the control unit outputs a response to a device different from the device outputting the content when waiting for the output of the response until a predetermined condition is satisfied even if there is an inquiry from the user.
  • Control device described in. The control unit outputs that there is a response to a device different from the device that outputs the content when waiting for the output of the response until a predetermined condition is satisfied even if there is an inquiry from the user.
  • the control device according to (5).
  • (7) The control device according to any one of (2) to (6), wherein the predetermined condition is that the content has reached a predetermined timing.
  • the control device (8) The control device according to (7), wherein the predetermined timing is timing when the content ends. (9) The control device according to (7), wherein the predetermined timing is timing when the content becomes a commercial. (10) The control device according to any one of (2) to (6), wherein the predetermined condition is that a predetermined time has come. (11) The control device according to any one of (1) to (11), wherein the control unit determines the content of the response according to an interest level of the user who has made an inquiry. (12) The control device according to (11), wherein the control unit determines an interest level of the inquired user based on a profile of an individual of the user.
  • control device (13) The control device according to (11), wherein the control unit outputs a display corresponding to the interest level of the user in addition to the response. (14) The control device according to any one of (1) to (13), wherein the control unit outputs the response to a device held by the user. (15) The control device according to (14), wherein the control unit outputs the response to an apparatus held by the user when the output of the content ends. (16) When the control unit detects a plurality of users who view the content, the control unit detects the user who made the inquiry, and outputs the response to the detected user. Control device described in.
  • control device (17) The control device according to (16), wherein the control unit detects a user who made the inquiry by detecting a direction in which the inquiry is made, and outputs the response to the detected user. (18) The control device according to any one of (1) to (17), wherein the control unit outputs the response to all users when detecting a plurality of users who view the content. (19) Control for determining the content of a response generated in response to a query from the user for content being output to at least one or more users, a target for outputting the response, and a timing of outputting the response Control methods, including doing. (20) Control for determining the content of a response generated in response to a query from the user for the content output to at least one or more users, the target for outputting the response, and the timing of outputting the response to the computer A computer program that makes it perform.
  • control device 101 input unit 102: output unit 103: communication unit 104: control unit 110: speech detection unit 111: signal processing unit 112: speech reception processing unit 113: speech recognition unit 120: gesture detection unit 130: content analysis Unit 140: Speaker recognition unit 141: Beamforming processing unit 142: Speaker identification processing unit 150: Speech analysis unit 151: Language analysis unit 152: Semantic analysis unit 160: Knowledge base system unit 161: Knowledge database 162: WEB information holding Unit 170: Response generation unit 180: Output control unit 181: Trigger determination unit 182: Personalization output unit 190: Device management unit 191: Sensor information acquisition unit 192: Output device selection unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ユーザがコンテンツを見ながらそのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な制御装置を提供する。少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容及び応答を出力する対象を決定する制御を行う制御部を備える、制御装置が提供される。

Description

制御装置、制御方法及びコンピュータプログラム
 本開示は、制御装置、制御方法及びコンピュータプログラムに関する。
 ユーザからの質問に対して、その質問に対する回答を含んだ応答を生成し、生成した応答を質問したユーザに対して提示する技術が開示されている(例えば特許文献1等参照)。
特開2014-225766号公報
 ユーザがコンテンツを見ている際にそのコンテンツに対する疑問が生じると、ユーザは、そのコンテンツの視聴を止めずに、手軽にその疑問に対して質問し、その質問に対する応答を適切な形態で得られることを求める。
 そこで、本開示では、ユーザがコンテンツを見ながらそのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な、新規かつ改良された制御装置、制御方法及びコンピュータプログラムを提案する。
 本開示によれば、少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行う制御部を備える制御部を備える、制御装置が提供される。
 また本開示によれば、コンピュータが、少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを含む、制御装置が提供される。
 また本開示によれば、コンピュータに、少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを実行させる、コンピュータプログラムが提供される。
 以上説明したように本開示によれば、ユーザがコンテンツを見ながらそのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な、新規かつ改良された制御装置、制御方法及びコンピュータプログラムを提供することが出来る。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る制御装置100の機能構成例を示す説明図である。 発話検出部110の機能構成例を示す説明図である。 話者認識部140の機能構成例を示す説明図である。 発話解析部150の機能構成例を示す説明図である。 知識ベースシステム部160の機能構成例を示す説明図である。 出力制御部180の機能構成例を示す説明図である。 デバイス管理部190の機能構成例を示す説明図である。 本開示の一実施形態に係る制御装置100の動作例を示す流れ図である。 発話解析部150の動作例を示す流れ図である。 主ノードの取得について説明する説明図である。 主ノードに関連するノードの一覧の取得について説明する説明図である。 主ノード同士のマッピングを説明する説明図である。 エンティティの生成について説明する説明図である。 エンティティのスコアでの降順ソートについて説明する説明図である。 興味グラフ構造の例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。 ハードウェア構成例を示す説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の一実施形態
  1.1.背景
  1.2.機能構成例
  1.3.動作例
 2.ハードウェア構成例
 3.まとめ
 <1.本開示の一実施形態>
 [1.1.背景]
 まず、本開示の実施の形態について詳細に説明する前に、本開示の実施の形態の背景について説明する。
 ユーザは、テレビ番組、映画などの動画コンテンツを、テレビやパーソナルコンピュータ(PC)などを用いて視聴する機会が多いが、近年はユーザが身体に装着して使用することを目的とした、いわゆるウェアラブルデバイスと呼ばれている機器が登場しつつある。ウェアラブルデバイスには、例えばメガネ型、腕時計型などの様々な形態のデバイスがあるが、共通しているのは画面が小さいということである。従って、ユーザがこのような画面の小さいウェアラブルデバイスを用いてコンテンツを視聴する場合、画面を直接操作するのでは無く、デバイスに向かって話しかけることでコンテンツに対する操作を行うことが想定される。またユーザは、デバイスに向かって話しかける際には、「これ」、「あれ」等の指示語を用いた曖昧な表現を用いた発話が増えることも想定される。
 逆に、ユーザがテレビでコンテンツを視聴する場合、4Kと言われる横4000ピクセル×縦2000ピクセル前後の解像度に対応したコンテンツを視聴できる機器が登場しており、さらにその上の8Kと言われる横8000ピクセル×縦4000ピクセル前後の解像度に対応したコンテンツも、今後登場することが見込まれている。従って、今後は大きな画面でコンテンツを家族など複数人で視聴するケースが増えることも想定される。このように大きな画面でコンテンツを視聴する場合でも、ユーザが画面に向かって話しかけることでコンテンツに対する操作を行うことが想定され、ユーザが画面に向かって話しかける際には、「これ」、「あれ」等の指示語を用いた曖昧な表現を用いた発話が増えることも想定される。
 いずれの場合にしても、ユーザがコンテンツを視聴している際に、コンテンツに対して疑問に思ったことを知ろうとする場合、コンテンツの視聴を一時的に止めて、コンテンツの視聴に用いている機器や、コンテンツの視聴に用いていない機器を用いて検索するのは、ユーザによってコンテンツの視聴の妨げになる。従って、ユーザがコンテンツを視聴していて、コンテンツに対して疑問に思ったことを知ろうとする際に、ユーザはコンテンツの視聴を止めずにその疑問に対する応答が得られることが望ましい。
 また、上述したように、ユーザは、デバイスに向かって話しかける際には、「これ」、「あれ」等の指示語を用いた曖昧な表現を用いた発話が増えることも想定されるが、この曖昧な表現を正確に解釈して応答をユーザに提示することも望ましい。すなわち、ユーザがコンテンツを見ていて「この人は誰?」と問いかけた場合に、ユーザが何に対して疑問に思っているのか、それに対してどのような応答を生成すれば良いのか、を正確に解釈することが求められる。
 また上述したように、今後は大きな画面でコンテンツを家族など複数人で視聴するケースが増えることも想定されるが、その際にどのユーザが質問を発話したのかを正確に検知して、発話したユーザに向けてその発話に対する応答を返すことも求められる。
 そこで本件開示者は、上述の背景に鑑みて、ユーザがコンテンツを見ている際に、そのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な技術について鋭意検討を行った。その結果、本件開示者は、以下で説明するように、ユーザがコンテンツを見ている際に、そのコンテンツに対して発した質問の意図を解析し、その質問に対する応答を、質問したユーザに適切な形態で提示することが可能な技術を考案するに至った。
 以上、本開示の実施の形態の背景について説明した。続いて、本開示の実施の形態について詳細に説明する。
 [1.2.機能構成例]
 まず、本開示の一実施形態に係る制御装置100の機能構成例を示す。図1は、本開示の一実施形態に係る制御装置100の機能構成例を示す説明図である。図1に示したのは、コンテンツを視聴しているユーザからの質問を受け付けて、その質問に対する応答を生成することを目的とした制御装置100の機能構成例である。以下、図1を用いて本開示の一実施形態に係る制御装置100の機能構成例について説明する。
 図1に示したように、本開示の一実施形態に係る制御装置100は、入力部101と、出力部102と、通信部103と、制御部104と、を含んで構成される。
 入力部101は、ユーザの入力を受け付けるためのものであり、本実施形態では、出力部102から出力されているコンテンツを視聴しているユーザからの質問を受け付けるためのものとして制御装置100に設けられている。入力部101は、例えば、ユーザが発話した音を集音するマイク、ユーザのジェスチャを撮像するカメラ、入力部101からユーザまでの距離を検出するデプスセンサなどで構成される。入力部101は、ユーザの入力操作によって生成されたデータを制御部104に送る。
 本実施形態に係る制御装置100は、ユーザが複数人いる場合に、どのユーザが発話したのかの特定を容易にするために、入力部101に複数のマイクを設け、複数のマイクによるビームフォーミングを行っても良い。
 出力部102は、制御部104で生成されたデータを出力するものであり、本実施形態では、出力部102は、ユーザに対してコンテンツを出力するとともに、出力しているコンテンツについて発せられたユーザからの質問に対し、制御部104が生成した応答を出力する。出力部102は、例えば、文字、画像その他の視覚情報を表示するディスプレイ、音声を出力するスピーカなどで構成される。
 通信部103は、他の装置との間で情報の通信を行う。例えば、通信部103は、制御部104の制御に基づいて他の装置との間で情報を通信することで、他の装置から、ユーザからの質問に対する応答の基になる情報を取得することができる。
 制御部104は、制御装置100の動作を制御するものであり、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。本実施形態では、制御部104は、ユーザが入力部101で入力した質問に対する応答を生成し、そのユーザに対して適切な形態で出力部102から応答を出力するよう動作する。
 図1に示したように、本開示の一実施形態に係る制御装置100に含まれる制御部104は、発話検出部110と、ジェスチャ検出部120と、コンテンツ解析部130と、話者認識部140と、発話解析部150と、知識ベースシステム部160と、応答生成部170と、出力制御部180と、デバイス管理部190と、を含んで構成される。
 発話検出部110は、ユーザが入力部101に対して発話されたことを検出する。そして発話検出部110は、ユーザが発話したことを検出すると、その発話の内容をテキストに変換する。また発話検出部110は、ユーザが発話したことを検出すると、その発話の区間の音声を後段の話者認識部140に送る。
 図2は、発話検出部110の機能構成例を示す説明図である。図2に示したように、発話検出部110は、信号処理部111と、発話受付処理部112と、音声認識部113と、を含んで構成される。
 信号処理部111は、音声認識の精度の向上のために、入力部101から送られてくる音声信号に対する信号処理を実行する。信号処理部111は、例えばファーフィールドでの音声認識の精度を向上させるために、音声信号から雑音や残響を除去する信号処理を行う。
 発話受付処理部112は、信号処理部111で信号処理を行った音声信号に対して、ユーザが発話したことを受け付ける処理を行う。発話受付処理部112は、ユーザが発話したことを受け付けて、ユーザの発話区間を検出する。このようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、後段の音声認識部113での認識の精度を向上させることができる。またこのようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、後段の音声認識部113での音声認識の処理期間を限定し、省電力化を実現できる。
 音声認識部113は、発話受付処理部112が検出したユーザの発話区間において、音声認識処理を実行して、音声をテキストに変換する。音声からテキストへの変換処理は、特定の処理に限定されるものではない。
 発話検出部110は、図2に示したような構成を有することで、ユーザが発話したことを検出し、ユーザが発話した内容をテキストに変換することが出来る。
 ジェスチャ検出部120は、ユーザが入力部101に対して入力したジェスチャを検出する。ジェスチャ検出部120は、ユーザのジェスチャを検出することで、出力部102が表示しているコンテンツのどの部分をユーザが示しているのかを判定することができる。
 コンテンツ解析部130は、出力部102が表示しているコンテンツの内容を解析する。例えば、コンテンツ解析部130は、出力部102が表示しているコンテンツの映像や音声を解析し、その解析結果を発話解析部150に送る。コンテンツ解析部130は、例えばコンテンツ内の画像、音声、テキストを分離して、分離したデータに応じて特徴量を抽出する。そしてコンテンツ解析部130は、例えば画像の特徴量をキーワードに変換したり、音声をテキストに変換して、言語解析によってそのテキストの特徴量を取得したりする。また例えば、コンテンツ解析部130は、出力部102が表示しているコンテンツにメタデータが付随されていれば、そのメタデータの内容を解析し、その解析結果を発話解析部150に送る。
 話者認識部140は、入力部101に対して発話した話者を特定する。話者認識部140は、例えば発話された方向を特定したり、発話された音声を解析したりすることで話者を特定する。
 図3は、話者認識部140の機能構成例を示す説明図である。図3に示したように、話者認識部140は、ビームフォーミング処理部141と、話者識別処理部142と、を含んで構成される。
 ビームフォーミング処理部141は、入力部101として設けられている複数のマイクによるビームフォーミングによって、発話された方向を特定する。
 話者識別処理部142は、発話した人物が誰であるかを特定する処理を実行する。話者識別処理部142は、例えば、ビームフォーミング処理部141によって特定された発話方向にいる人物を、入力部101として設けられているカメラで撮像された画像に対する顔認識処理によって特定する。また話者識別処理部142は、例えば、発話の音声を解析して、発話した人物が誰であるかを特定する処理を実行する。
 話者認識部140は、図3に示したような構成を有することで、入力部101に対して発話した話者が誰であるかを精度良く予定することが可能になる。なお、本実施形態に係る話者認識部140による話者特定処理については後に詳述する。
 発話解析部150は、発話検出部110が検出した発話の内容を解析する。発話解析部150は、言語解析、コンテキスト解析(発話文の引き継ぎ)、意味解析等によって発話検出部110が検出した発話の内容を解析する。そして発話解析部150は、発話検出部110が検出した発話の内容を解析した結果、その発話の内容が質問文であれば、知識ベースシステム部160に問い合わせを行う。
 図4は、発話解析部150の機能構成例を示す説明図である。図4に示したように、発話解析部150は、言語解析部151と、意味解析部152と、を含んで構成される。
 言語解析部151は、発話検出部110が変換したテキストの構造を解析する。言語解析部151は、発話検出部110が変換したテキストの構造を解析することで、ユーザによる発話の内容が質問なのかどうかを判定することが出来る。言語解析部151は、発話検出部110が変換したテキストの構造を解析する際に、コンテキスト解析を行っても良い。コンテキスト解析によって、ユーザによる前の発話を引き継いで解析し、ユーザによって省略された表現や指示語等を正しく正規化することが出来る。
 意味解析部152は、発話検出部110が変換したテキストに含まれる曖昧な表現を解釈して、ユーザによる発話の意図を解釈する。意味解析部152は、知識ベースシステム部160へ問い合わせることで、曖昧な表現を解釈する。
 発話解析部150は、図4に示したような構成を有することで、発話検出部110が検出した発話の内容を解析し、ユーザがどのような意味の発話を行ったかを検出することが出来る。
 知識ベースシステム部160は、例えば一般的な知識、ユーザ固有の知識、デバイス固有の知識等をグラフ構造化したデータベースを保持し、そのデータベースに対する検索を実行して、曖昧な表現に対する推論を行うことで、曖昧な表現を解釈する。知識ベースシステム部160は、曖昧な表現の解釈の際には、ユーザの嗜好を反映させても良い。
 知識ベースシステム部160は、発話解析部150からの質問に対して応答を生成する。知識ベースシステム部160が生成する応答を、本実施形態では、応答ベースパラメータとも賞する。知識ベースシステム部160が生成した応答ベースパラメータは、応答生成部170に送られて、応答生成部170で生成されるユーザに対する応答の基となる。
 図5は、知識ベースシステム部160の機能構成例を示す説明図である。図5に示したように、知識ベースシステム部160は、知識データベース161と、WEB情報保持部162と、を含んで構成される。
 知識データベース161は、一般的な知識、ユーザ固有の知識、デバイス固有の知識をグラフ構造化したデータベースである。また、WEB情報保持部162は、インターネット上に存在する情報を収集し、その情報をグラフ構造化したデータベースである。
 知識ベースシステム部160は、図5に示したような構成を有することで、発話解析部150からの質問に対して応答を生成することができる。また、知識ベースシステム部160は、図5に示したような構成を有することで、発話解析部150における曖昧な表現に対するユーザの意図の解析を可能にする。知識ベースシステム部160を用いた応答の生成や、曖昧な表現に対するユーザの意図の解析処理については後に詳述する。
 応答生成部170は、知識ベースシステム部160から得た応答ベースパラメータに基づいてベースとなる応答(応答文、応答表示、応答音声など)を生成する。応答生成部170によって生成されたベースとなる応答は、出力制御部180によって応答の出力のタイミング及び応答の内容が制御される。
 出力制御部180は、応答生成部170が生成したベースとなる応答について、出力のタイミングや、出力する応答の内容を制御する。
 図6は、出力制御部180の機能構成例を示す説明図である。図6に示したように、出力制御部180は、トリガ判定部181と、個人化出力部182と、を含んで構成される。
 トリガ判定部181は、コンテンツの再生や停止を管理し、応答の出力のタイミングについての判定を行う。本実施形態に係る制御装置100は、応答の出力をリアルタイムに行うモードと、所定の条件を満たした時点で応答を出力するモードの2種類のモードを備える。応答の出力をリアルタイムに行うモードのことをリアルタイムモードとも称し、所定の条件を満たした時点で応答を出力するモードのことをブックマークモードとも称する。トリガ判定部181が使用する所定の条件は、例えば出力中のコンテンツが所定の状態になったことであってもよく、また例えば所定の時間になったことであってもよい。出力中のコンテンツの所定の状態としては、例えばコンテンツが終了したタイミングであってもよく、コンテンツがテレビ番組であればコマーシャルになったタイミングであってもよい。コンテンツが終了したタイミングは、コンテンツが最後まで再生されたタイミングと、ユーザが明示的にコンテンツの再生を終了したタイミングの両方が含まれうる。上記所定の時間には、コンテンツの終了時間から相対的に経過した時間と、コンテンツの終了とは無関係な時間の両方が含まれうる。なお、所定の時間になったことを条件に応答を出力する場合、コンテンツが出力されていない状態であることが、トリガ判定部181が使用する所定の条件に加えられていても良い。
 個人化出力部182は、応答生成部170が生成したベースとなる応答について、質問を発話したユーザの興味レベルに応じて内容を最適化して出力する制御を行う。
 出力制御部180は、図6に示したような構成を有することで、応答生成部170が生成したベースとなる応答について、出力のタイミングを制御することが出来る。また出力制御部180は、図6に示したような構成を有することで、応答生成部170が生成したベースとなる応答について、出力する内容を制御することが出来る。
 デバイス管理部190は、出力制御部180が応答を出力するデバイスを管理し、応答の出力に適したデバイスを選択する。
 図7は、デバイス管理部190の機能構成例を示す説明図である。図7に示したように、デバイス管理部190は、センサ情報取得部191と、出力デバイス選択部192と、を含んで構成される。
 センサ情報取得部191は、入力部101のセンサから送られる情報を取得する。センサ情報取得部191が取得したセンサの情報は、出力デバイス選択部192での、応答の出力に適したデバイスを選択する処理に用いられる。
 出力デバイス選択部192は、センサ情報取得部191が取得したセンサの情報を用いて、応答の出力に適したデバイスを選択する処理を行う。出力デバイス選択部192によるデバイスの選択処理については後に詳述する。
 デバイス管理部190は、図7に示したような構成を有することで、出力制御部180が応答を出力するデバイスを管理して、入力部101のセンサから送られる情報に基づき、応答の出力に適したデバイスを選択すること出来る。
 なお、図1に示した機能構成例では、制御装置100に、入力部101及び出力部102が含まれている形態を示したが、本開示は係る例に限定されるものではなく、入力部101及び出力部102と、制御部104とは、別々の装置に設けられてもよい。
 以上、本開示の一実施形態に係る制御装置100の機能構成例について説明した。本開示の一実施形態に係る制御装置100は、図1~図7に示したような構成を有することで、出力しているコンテンツに対してユーザから発せられた質問の意図を理解し、質問したユーザに対して適切な形態で質問に対する応答を出力することが出来る。
 以上、本開示の一実施形態に係る制御装置100の機能構成例について説明した。続いて、本開示の一実施形態に係る制御装置100の動作例について説明する。
 [1.3.動作例]
 図8は、本開示の一実施形態に係る制御装置100の動作例を示す流れ図である。図8に示したのは、出力しているコンテンツに対してユーザから発せられた質問に対する解答を生成し、質問したユーザに対して適切な形態で質問に対する応答を出力する際の、制御装置100の動作例である。以下、図8を用いて本開示の一実施形態に係る制御装置100の動作例について説明する。
 出力部102が出力しているコンテンツに対してユーザが入力部101に向かって発話すると、制御装置100は、まずその発話文の抽出を行う(ステップS101)。ステップS101の発話文の抽出は、例えば発話検出部110が行う。
 制御装置100は、発話文の抽出の際に、例えばユーザの所定の動作を検出し、その動作の検出によって発話受付状態に移行しても良い。制御装置100は、動作の検出によって発話受付状態に移行することで、発話区間を限定し、発話文の抽出の際に雑音が入る確率を下げることができ、音声認識の精度を向上させることができる。また制御装置100は、動作の検出によって発話受付状態に移行することで、音声認識を常に常駐させる必要がなく省電力化が実現できる。
 発話受付状態に移行するための所定の動作として、例えばリモートコントローラの操作、所定の起動ワード、所定のジェスチャなどがあり得る。例えば、制御装置100は、所定の起動ワードが予め設定され、その起動ワードだけを認識する音声認識処理を動作させる。そして、制御装置100は、起動ワードを認識すると、音声認識を起動してユーザの発話を待機する。
 例えば制御装置100は、所定の起動ワードだけを認識する、消費電力が少ない音声認識機能だけを動作させておき、所定の起動ワードを認識すると、全ての声を認識する音声認識機能を動作させるようにしても良い。
 また例えば、所定のジェスチャの認識によって発話受付状態に移行する場合、制御装置100は、カメラやデプスセンサ等により、ユーザの顔、指の操作、視線を検出する。例えば、表示領域の特定部分に、ユーザが顔や指、視線を所定時間向けたことを検出すると、制御装置100は、発話受付状態に移行させることが出来る。
 制御装置100は、ユーザの発話文の抽出をステップS101で行うと、続いて、ユーザの発話の対象が、出力部102が出力しているコンテンツのどの位置にあるのかを決定する、発話対象のコンテンツ内の位置決定処理を行う(ステップS102)。ステップS102の発話対象のコンテンツ内の位置決定処理は、例えばジェスチャ検出部120が行う。
 例えば、制御装置100が上記ステップS101で発話文を抽出した結果、「画面の左側にいる人は誰?」という発話文が抽出出来たとする。制御装置100は、その発話の内容から、発話対象はコンテンツ内の左側にいると決定することが出来る。このように、ユーザがコンテンツ内の位置をある程度指定していれば、制御装置100は、発話対象のコンテンツ内の位置決定は容易に行える。
 しかし、例えば、制御装置100が上記ステップS101で発話文を抽出した結果、「この人誰?」という発話文が抽出出来たとする。その発話の時点で、出力部102が出力しているコンテンツに人物が1人しか存在していなければ対象の特定は容易であるが、出力部102が出力しているコンテンツに人物が複数人存在していると、「この人誰?」だけでは、制御装置100はユーザが誰のことについて言っているのかを特定することが出来ない。
 そこで本実施形態に係る制御装置100は、発話と共になされたユーザのジェスチャを検出する。本実施形態に係る制御装置100は、発話と共になされたユーザのジェスチャを検出することで、「この人誰?」のような曖昧な内容が発話された場合であっても、発話対象のコンテンツ内の位置を決定する。本実施形態では、ユーザが明示的に位置を示している場合を一意型と定義し、ユーザが明示的に位置を示していない場合を候補型と定義する。
 まず一意型の場合について説明する。例えば、出力部102にタッチパネルが設けられており、ユーザが指などでタッチパネルに触れると、制御装置100は、その触れた場所を発話対象のコンテンツ内の位置に決定することが出来る。ユーザがタッチパネルに触れずに位置を指定するような場合は、制御装置100は、ユーザのジェスチャを検出することで、発話対象のコンテンツ内の位置に決定する。制御装置100は、例えばユーザの指が指している位置や、ユーザの視線を検出する等して、ユーザがどの部分を指し示しているのかを特定する。
 また制御装置100は、ユーザのジェスチャの検出結果を出力部102に出力しても良い。制御装置100は、上述の発話受付状態に移行している場合に、ユーザのジェスチャが指す位置をコンテンツ内に表示させることで、ユーザのジェスチャがコンテンツ内のどの部分を指していると検出しているかをユーザにフィードバックすることが出来る。
 続いて候補型の場合について説明する。ユーザがコンテンツに対して明示的に位置を示していない場合は、制御装置100は、ユーザにコンテンツ内のどこを指しているかを問い合わせる。その問い合わせの際に、制御装置100は、リアルタイムでユーザに問い合わせを返すリアルタイムモードと、コンテンツの視聴終了後やコマーシャルの間など、コンテンツ状態に応じてユーザに問い合わせを返すブックマークモードのいずれかのモードでユーザへ問い合わせる。
 制御装置100は、リアルタイムモードで応答する場合に、コンテンツを一時停止させてユーザに候補を絞らせてもよく、ユーザのコンテンツの視聴を妨げないために、ユーザが発話した時点でのコンテンツのスクリーンショットを別画面で表示させてもよい。いずれの場合であっても、制御装置100は、ユーザが発話した時点で出力部102から出力している画面をユーザに示し、ユーザに改めて位置を特定させる。ユーザに改めて位置を特定させることで、制御装置100は、コンテンツ内の位置を特定することができる。
 制御装置100は、ブックマークモードで応答する場合に、ユーザが発話した時点でのコンテンツのスクリーンショットを保持しておき、所定のタイミングでスクリーンショットを表示して、出力部102から出力している画面をユーザに示し、ユーザに改めて位置を特定させる。ユーザに改めて位置を特定させることで、制御装置100は、コンテンツ内の位置を特定することができる。
 制御装置100は、いずれのモードであっても、ユーザが位置を指定しなかった場合は、ユーザが指定したと思われるコンテンツ内の位置を任意に決定してもよい。例えば、ユーザの嗜好などから、ユーザが女性の芸能人に強い興味があることが分かっている場合、制御装置100は、男性と女性が映っているシーンでユーザから「この人誰?」という問いかけがなされると、男性ではなく女性の方を指していると判断して、コンテンツ内で女性がいる場所を特定してもよい。
 ユーザが質問を発話した際に、その時点で候補となり得るものがコンテンツに複数存在している場合、ユーザがコンテンツ内の位置を指定するか否かにより、以下のパターンに分類することが出来る。
Figure JPOXMLDOC01-appb-T000001
 A-1のケースは、ユーザに位置を直接指定させるパターンである。B-1及びB-2のケースは、ユーザにジェスチャで位置を指定させるパターンである。B-3のケースは、コンテンツを視聴しているデバイスではない別のデバイスで、ユーザに位置を指定させるパターンである。別デバイスの選定方法は後述する。C-1からC-3のケースは、ユーザプロファイルを使用して、知識ベースシステムのグラフ構造からシステムが自動的に優先順位を付けるパターンである。優先順位の決め方については後述する。D-1及びD-2のケースは、知識ベースシステムが持つヒエラルキーやビッグデータ解析により、優先順位を付けるパターンである。優先順位の決め方については後述する。
 ステップS102で発話対象のコンテンツ内の位置決定を行うと、続いて制御装置100は、コンテンツの特徴量の抽出を行う(ステップS103)。ステップS103のコンテンツの特徴量の抽出処理は、例えばコンテンツ解析部130が行う。
 ステップS103では、コンテンツの特徴量の抽出処理として、コンテンツ内の画像、音声、テキストの分離が行われ、分離したデータに応じた特徴量を抽出する。例えば画像ならば、抽出された特徴量が画像解析によってキーワードに変換され、音声なら音声認識によってテキストに変換され、テキストに対する言語解析によって特徴量が得られる。
 コンテンツに対して、「この人誰?」や「ここどこ?」という曖昧な表現を含む質問をユーザが発した場合、その質問に答えるためにはコンテンツが持つ特徴量が必要となる。本実施形態では、ユーザの発話を検出した時点のコンテンツに対して、予めコンテンツに付与された(タグ付けされた)情報を静的特徴量と定義し、コンテンツの画像や音声を解析することで得られる情報を動的特徴量と定義する。
 静的特徴量の場合、コンテンツに予めタグ付けされた人物や場所などの情報が該当する。なお、コンテンツに予めタグ付けされた情報がなくても、知識ベースシステム部160が保持する情報に基づいて、コンテンツの時系列に沿って情報を管理していても良い。例えば、テレビ番組内の人物が時系列に沿って変化する状況下で、その人物の情報(コンテンツ内の位置範囲や人物の名前、年齢等)を全てコンテンツの再生装置で保持してもよく、コンテンツを識別するID情報だけをコンテンツの再生装置で保持し、知識ベースシステム部160に問い合わせることで人物の情報が得られるようにしても良い。
 動的特徴量の場合、コンテンツの画像や音声を解析することで得られる情報が該当する。ここで本実施形態に係る制御装置100は、知覚遅延フィードバックという手法によって、発話を検出した時点から所定時間遡ってから、コンテンツの画像や音声を解析する。
 動画等の時間と共に場面が変化するコンテンツの場合、ユーザがコンテンツを見て、発話するまでにはタイムラグがある。従って、制御装置100は、ユーザが疑問に思った時点と、ユーザが発話した時点との同期を取る仕組みを有していても良い。
 人間が絵や音を知覚して、声を発生するまでのタイムラグは個人差があり、例えば年齢によってそのタイムラグが変化する。従って制御装置100は、人間が絵や音を知覚して、声を発生するまでのタイムラグを予め定数値で静的に設定できるようにするとともに、発話したユーザを特定した後に、ユーザプロファイル情報から、タイムラグを動的に変化できるようにしてもよい。例えば、発話したのが10代のユーザであることをユーザプロファイル情報から判別できれば、タイムラグを短くし、発話したのが60代のユーザであることをユーザプロファイル情報から判別できれば、タイムラグを長くするようにしてもよい。
 そして制御装置100は、ユーザの発話を検出した時点から、タイムラグを考慮して過去の時点までの毎フレームごとのコンテンツ情報を取得する。このようにタイムラグを設定することで、制御装置100は、ユーザの知覚遅延をフィードバックすることができ、ユーザが注目したコンテンツを画像や音声の解析対象に含めることが可能となる。
 上記ステップS103でコンテンツの特徴量の抽出を行うと、続いて制御装置100は、発話した話者を特定する処理を行う(ステップS104)。ステップS104の話者の特定処理は、話者認識部140が行う。制御装置100は、コンテンツを出力するデバイスのカメラセンサ、マイクセンサ、デプスセンサでセンシングしたデータを用いて信号処理、画像解析、話者識別を行う。
 発話方向を特定するには、例えばマイクアレーセンサが用いられる。制御装置100は、マイクアレー上を音が通過する際の時間遅延によって音が発生する方向を識別することで発話方向を特定するビームフォーミング技術により、どの方向から発話されているかを判断することができる。
 発話方向を特定するには、また例えばデプスセンサやカメラセンサが用いられる。制御装置100は、デプスセンサやカメラセンサによって検出されるユーザのジェスチャの方向を発話方向として特定することが出来る。
 制御装置100は、ユーザの声を識別する際には、例えばビームフォーミング技術などで発話方向を特定した後でその方向の音声を集音し、集音した音声の波形と、知識ベースシステム部160に登録されている波形との照合により識別出来る。
 制御装置100は、発話したユーザの顔を識別する際には、例えばビームフォーミング技術などで発話方向を特定した後でその方向を撮像して、撮像画像に対する顔検出処理を実行して顔を抽出し、知識ベースシステム部160に登録されている顔画像との照合により識別出来る。
 制御装置100は、事前に知識ベースシステム部160に登録した顔や名前を表示したアイコンまたはカメラにより撮像した顔の画像を、コンテンツを出力している画面に表示させてもよい。制御装置100は、アイコンや画像をユーザに選択させることで、話者特定を行ってもよい。ユーザによるアイコンや画像の選択は、タッチパネルを用いた直接指定であってもよく、ジェスチャによる間接指定であってもよい。
 上記ステップS104で発話した話者の特定を行うと、続いて制御装置100は、話者認識フィードバック処理を行う(ステップS105)。ステップS105の話者認識フィードバック処理は出力制御部180が実行する。
 ステップS105の話者認識フィードバック処理は、発話認識の受付、エラー、話者特定結果をユーザへフィードバックする処理である。話者認識フィードバック処理は、例えば以下のように行われる。話者認識部140は、発話認識の受付、エラー、話者特定結果のパラメータを応答生成部170に渡す。応答生成部170は、話者認識部140から受け取ったパラメータに基づいて応答を生成し、生成した応答を出力制御部180に渡す。出力制御部180は、応答生成部170から受け取った応答を、コンテンツに重畳させる形式で即座に出力する。
 なお制御装置100は、上記ステップS105の話者認識フィードバック処理を、必ずしも実行しなくても良い。制御装置100は、話者認識フィードバック処理を実行するかどうかを、ユーザの設定に基づいて判断し、ユーザが話者認識フィードバック処理を要求していれば話者認識フィードバック処理を実行しても良い。また制御装置100は、発話認識が出来なかった場合や、話者を特定することが出来なかった場合に限って話者認識フィードバック処理を実行しても良い。
 上記ステップS105で話者認識フィードバック処理を実行すると、続いて制御装置100は、上記ステップS101で抽出した発話文の意図を理解する処理を実行する(ステップS106)。ステップS106の発話文の意図理解処理は、発話解析部150が知識ベースシステム部160を用いて実行する。
 本実施形態では、発話解析部150は、発話文の意図を理解する際に、知識ベースと称する、事実、常識、経験などの知識をコンピュータが理解できる形式にしてデータベース化(構造化)したものを用いる。知識ベースは、単なるデータベースではなく、格納した知識を活用するための検索や推論の機構を含めたものである。知識ベースシステム部160は、その知識ベースを格納したものであり、図5に示したように知識データベース161と、WEB情報保持部162と、を有する。
 知識データベース161は、「subject,predicate,object」の各知識をノードと呼び、各ノードを結ぶものをリレーションとする3つ組(トリプル)のRDF(Resource Description Framework)構造を持ち、3つ組を繋いだ知識グラフ構造を構築している。3つ組の例として、「富士山,標高,3776メートル」等がある。
 なお、データベースには、世の中の事実、常識、経験などユーザに依存しない一般知識と、ユーザに依存したユーザ知識(ユーザプロファイル)に大きく分類される。本実施形態では、制御装置100が応答をどのデバイスに出力するかを決定するためにはデバイス情報が必要になり、ユーザがどのデバイスを保持しているかはユーザ知識になり、デバイスの特性情報(画面のサイズ、画面有無等)は一般知識となる。
 発話解析部150は、発話文を用いて知識ベースシステム部160に格納されている知識を探索する際には、表記ゆれに対応する必要がある。音声認識の場合には、記号なし、ひらがな/カタカナの違い、漢字の違い、半角/全角の違いを吸収することが必要になる。データベースに全ての候補が読み込まれていないケースを想定し、発話解析部150は、抽出した発話文の文字列を動的に変えて、検索候補を増やして知識ベースシステム部160を探索する。発話文の文字列を動的に変えて、検索候補を増やして知識ベースシステム部160を探索するためには、文字列の変換ルールを定義し、ルールによって変換した文字列を圧縮表記と定義し、事前にデータベースには圧縮表記を生成しておくことが望ましい。発話解析部150は、発話文の文字列から動的に圧縮表記を生成し、知識ベースシステム部160に格納されている圧縮表記と照合する。
 知識データベース161の量は膨大となるため、発話解析部150は、処理速度を向上させるために、例えばデータのスコア値で降順ソートしておき、ヒットした件数が既定値に達した場合に探索処理を終えるようにしても良い。
 発話解析部150は、発話文の表記から、表2で示した圧縮表記の変換ルールに応じて、圧縮表記を生成する。また、事前に知識データベース161も同じ圧縮表記の変換ルールで変換しておく。
Figure JPOXMLDOC01-appb-T000002
 知識ベースシステム部160は、同義語データベースを保持していてもよい。発話解析部150は、同義語データベースによって同義語を展開することで、表記の候補を増やすことが可能になる。
 発話解析部150は、発話文の曖昧な表現を解釈する上で、発話の表記がどのドメイン、ジャンルであるかを判断して行う。RDF構造の3つ組データは公開されており、データベースは統一されたフォーマットや体系になっていないため、知識ベースシステム部160は、意味属性を独自に定義し、各データベースの属性をマッピングするための条件を保持している。
 図9は、発話解析部150の動作例を示す流れ図である。図9に示したのは、発話文の内容に基づいて知識ベースシステム部160を探索する際の発話解析部150の動作例を示したものである。
 発話解析部150は、まず、上記表2の変換ルールに基づいて、発話文の表記の動的展開を行って、検索表記の候補を生成する(ステップS111)。ステップS111で発話文の表記の動的展開を行うと、続いて発話解析部150は、対象言語等のパラメータにより、探索するデータベースを選択する(ステップS112)。
 ステップS112で探索するデータベースを選択すると、続いて発話解析部150は、意味属性条件、すなわち、人、地名、音楽等のドメインやジャンルを判定するための条件を取得する(ステップS113)。ステップS113で、ドメインやジャンルを判定するための条件を取得すると、続いて発話解析部150は、各データベースから主ノードの取得とスコアの設定を行う(ステップS114)。図10は、主ノードの取得について説明する説明図である。発話解析部150は、対象言語、表記リスト、探索データベースリスト、意味属性条件から、抽出ノードを見つける。発話解析部150は、抽出ノードを見つけると、その抽出ノードから同値関係子(predicate)を辿り、主ノードを見つける。そして発話解析部150は、発見した主ノードのスコア値を取得する。
 ステップS114で主ノードの取得とスコアの設定を行うと、続いて発話解析部150は、主ノードに関連するノードの一覧を取得する(ステップS115)。図11は、主ノードに関連するノードの一覧の取得について説明する説明図である。発話解析部150は、各データベースの主ノードから同値関係子を辿り、関連ノードを抽出する。関連ノードは略称表記や読み仮名表記となる。
 ステップS115で主ノードに関連するノードの一覧を取得すると、続いて発話解析部150は、各データベースの主ノード同士をマッピングする(ステップS116)。図12は、主ノード同士のマッピングを説明する説明図である。発話解析部150は、取得した主ノード同士のリンク情報を関連ノードから算出して、主ノード同士のリンクを生成し、データベース間を結ぶ。
 ステップS116で各データベースの主ノード同士をマッピングすると、続いて発話解析部150は、統合グラフ構造とエンティティとを生成する(ステップS117)。各データベースにはヒエラルキーが設定してあるものとする。発話解析部150は、ヒエラルキー順に各データベースをリンクして統合グラフ構造を作成する。そして発話解析部150は、ヒエラルキーが一番高いデータベースの主ノードをエンティティとする。図13は、エンティティの生成について説明する説明図である。
 ステップS117で統合グラフ構造とエンティティとを生成すると、続いて発話解析部150は、エンティティのスコア設定と降順ソートとを行う(ステップS118)。発話解析部150は、各データベースの主ノードのスコアで一番高いものをエンティティのスコアとし、エンティティをスコアで降順ソートする。図14は、エンティティのスコアでの降順ソートについて説明する説明図である。
 発話解析部150は、図9に示した一連の動作を実行することで、発話文の内容に基づいて知識ベースシステム部160を探索し、発話文の意図を理解することが出来る。
 図9に示した発話解析部150の一連の動作の具体例について説明する。例えば、ユーザが「あっちゃんの年齢はいくつ?」と発話し、発話解析部150による解析結果に基づいて「23歳です」という応答を返す場合の、発話解析部150の動作例を説明する。
 まず発話解析部150は、発話文の表記の動的展開によって様々な検索語を生成する、発話解析部150は、音声認識結果の表記が「アッチャン」で、知識ベースシステム部160における表記が「あっちゃん」であれば、「アッチャン」だけでなく「あっちゃん」についても検索語として生成する。また発話解析部150は、音声認識結果の表記に記号が含まれていれば、その記号も削除して検索語を生成する。
 続いて発話解析部150は、対象言語等のパラメータにより、探索するデータベースを選択する。発話解析部150は、この例では日本語が対象であるとして、日本語で情報が格納されたデータベースを選択する。
 続いて発話解析部150は、意味属性条件を取得する。例えばコンテンツ内に映っている人物が歌手であれば、発話解析部150は、意味属性を「人物:歌手:」とする。
 続いて発話解析部150は、選択した探索対象のデータベースから、主ノードを取得すると共にスコアを設定する。各データベースは、subject predicate objectのトリプルデータを保持する。
 AA alias あっちゃん
 AB alias あっちゃん
 AA attribute 人物:歌手
 AB attribute 人物:芸人
 AA 年齢 23歳
 AB 年齢 32歳
 なお、「AA」「AB」はそれぞれ人物名を意味すると共に主ノードに相当する。また「あっちゃん」は抽出ノードに相当する。発話解析部150は、「あっちゃん」の抽出ノードを最初に見つけてaliasを辿り、主ノードである「AA」「AB」にたどり着くことが出来る。なお、この例では候補が「AA」「AB」の2つ存在するので、一意に主ノードを決定することが出来ない。
 続いて発話解析部150は、主ノードに関連するノードの一覧を取得する。発話解析部150は、主ノード「AA」に関連する情報として、年齢は23歳、意味属性(attribute)は「人物:歌手」という情報を取得する。同様に発話解析部150は、主ノード「AB」に関連する情報として、年齢は32歳、意味属性(attribute)は「人物:芸人」という情報を取得する。
 続いて発話解析部150は、統合グラフ構造とエンティティを生成する。例えば、探索対象のデータベースが複数存在し、データベースごとに主ノード「AA」のデータが存在していれば、発話解析部150は、同じ主ノードをまとめて一つにして、主ノードに関連するノードをマージする。
 続いて発話解析部150は、エンティティのスコア設定と降順ソートを行う。この例では、エンティティとして「AA」、「AB」が生成される。従って発話解析部150は、エンティティの優先順位を決めるためにスコアを設定する。発話解析部150は、データベース内にアクセスするノードの頻度や、WEB情報(例えば、百科事典サイトの閲覧回数やSNSのキーワード頻度)からスコアを算出し、高い順にソートする。この例では、コンテンツ内の状態から、「人物:歌手」とあるため、発話解析部150は、「AA」をエンティティの候補とすることができる。なお、コンテンツ内の状態からは特定できない場合は、発話解析部150は、スコア順にソートして、一番スコアが高い物をエンティティの候補としてもよい。
 発話解析部150は、このように動作することでエンティティを決定することができる。そしてエンティティが「AA」と決定できれば、発話解析部150は、そのエンティティから年齢の情報を辿ることで、「23歳です」という応答を生成することが出来る。
 図8のステップS106で、発話文の意図理解を行うと、続いて制御装置100は、応答のベースとなるパラメータである応答ベースパラメータを生成する(ステップS107)。ステップS107の応答ベースパラメータの生成処理は、応答生成部170が行う。
 応答生成部170は、発話解析部150が知識ベースシステム部160を探索することによって得られたパラメータに基づき、ベースとなる応答文、応答表示、応答音声を生成する。
 図8のステップS107で、応答のベースとなるパラメータである応答ベースパラメータを生成すると、続いて制御装置100は、応答の出力タイミングの制御を行う(ステップS108)。ステップS108の応答の出力タイミングの制御は、出力制御部180が行う。
 本実施形態では、制御装置100は、コンテンツの状況や、質問を発話したユーザの状況に応じて、応答のタイミングを制御する。制御装置100は、応答の出力タイミングのモードとして、リアルタイムモードとブックマークモードの2つのモードを有する。
 リアルタイムモードは、ユーザがコンテンツを視聴している最中に、即座に応答を返すモードである。リアルタイムモードでは、ユーザは即座に情報を取得することが可能である。リアルタイムモードでは、ユーザがコンテンツを視聴しているデバイスに応答を重畳する(オーバーレイする)形態を基本とする。制御装置100は、ユーザが注視しているデバイスを変えずに応答を出力することで、ユーザが集中している作業(すなわち、コンテンツの視聴)を止めさせずに、ユーザが発した質問に対する応答を提示することが可能である。
 制御装置100は、リアルタイムモードで応答を出力する場合はコンテンツを表示している画面に結果を出すことになり、その応答の表示位置は、コンテンツを出力しているデバイスと、発話を識別したユーザとの位置関係を考慮して決定する。例えば、コンテンツを表示しているデバイスの左右に人がいて、左側のユーザが発話したと検出していれば、制御装置100は、画面の左側に応答を表示する。
 リアルタイムモードでの応答の出力時に応答を強調させたい場合は、制御装置100は、例えば出力中のコンテンツの明るさを暗くし、シェーダー等によってコンテンツをぼかして、応答をポップアップ表示させる等で強調させてもよい。また制御装置100は、出力中のコンテンツを自動的に一時停止させて、コンテンツに応答を重畳させてもよい。応答結果を強調させたくない場合には、制御装置100は、画面の端にポップアップさせるなどして、ユーザのコンテンツの視聴を妨げないようにしてもよい。
 リアルタイムモードでの応答の出力時に、応答を、音声のみ出力可能なデバイスに出力する可能性もある。音声のみ出力可能なデバイスに応答を出力する場合、制御装置100は、応答結果をユーザに聞き取りやすくさせるため、出力中のコンテンツの音量を小さくして背景音として、その背景音に重畳して応答を音声で出力するようにしてもよい。
 一方のブックマークモードは、ユーザのコンテンツの視聴をなるべく妨げないために、応答をバッファに保存しておき、ユーザの状況やコンテンツの状況に応じて、出力タイミングを適切に変えるモードである。ブックマークモードは、上述したように、応答を即座に出力するのではなく、所定の条件を満たした時点で応答を出力するモードのことである。
 ブックマークモードで応答を出力する場合、制御装置100は、質問を発話したユーザのデバイスに応答を送る。ユーザが使用するデバイスの種類により、応答の情報量を制御することが可能である。ユーザが使用するデバイスと、応答の情報量との関係については後に詳述する。
 制御装置100は、応答を即座にユーザのデバイスへ送ることが可能であり、応答を即座にユーザのデバイスへ送る際、その送信先のデバイスは、事前に登録しているデバイスであってもよく、ユーザの使用履歴から判断されるユーザが頻繁に使用するデバイスであってもよい。応答を即座にユーザのデバイスへ送るケースとしては、例えば、ユーザがコンテンツを視聴しながら、コンテンツを出力しているデバイスでは無い別のセカンドデバイス(タブレットやPC)を操作しているケースが想定される。ユーザはコンテンツを視聴しつつ、セカンドデバイスに表示されて、ユーザは好きなタイミングで質問の応答が表示されたセカンドデバイスを見ることで、質問の応答を確認することが出来る。
 なお、制御装置100は、応答をユーザのデバイスへ即座に送信しなくても、ユーザがセカンドデバイスを見た時点で顔認識を行って、その顔認識の結果に基づいてセカンドデバイスへ応答を表示させても良い。
 また制御装置100は、ユーザが手にしたデバイスに応答を送信しても良い。ユーザが手にしたデバイスに応答を送信する際、制御装置100は、応答をバッファに保持したまま、ユーザがデバイスを持ったタイミングや、ユーザがデバイスを操作したタイミングを検知し、バッファからデバイスへ情報を送信する。また、ユーザが手にしたデバイスに応答を送信する際、制御装置100は、コンテンツが終了したタイミングを検出し、そのタイミングで応答を送信しても良い。
 コンテンツを視聴しているユーザが複数人いた場合、制御装置100は、その全てのユーザに向けて応答を返してもよい。また、制御装置100は、コンテンツを表示しているデバイスの前にユーザが複数いなくても、指定したユーザのデバイスに応答を送信しても良い。すなわち制御装置100は、応答を返す先のユーザ(視聴中のユーザではない別のユーザ)がコンテンツを出力しているデバイスの前にいなくても、発話内で解釈したユーザや、予め設定しているユーザに応答を返すことができる。例えば、ユーザが「お父さんに応答を返して」と発話すると、制御装置100は、応答を返す先を、お父さんが使用しているデバイスに決定することが出来る。
 制御装置100は、ユーザがコンテンツに集中していると考えられる場合、即座に応答は返さず、コンテンツの状況に応じて応答を出力しても良い。制御装置100は、コンテンツの状況の例として、例えばコンテンツが所定のタイミングになったときに(例えばCMに移ったタイミングや番組が終了した後、音楽であれば再生が終了した後)そのユーザが使用するデバイスへ応答を返しても良い。コンテンツが所定のタイミングになったときに応答を返す際、制御装置100は、ユーザがコンテンツを視聴中のデバイスへ応答をオーバーレイさせてもよく、ユーザが使用している、コンテンツを視聴しているデバイスとは別のデバイスへ応答を送ってもよい。
 制御装置100は、コンテンツの状況に応じた応答の出力タイミングの設定に基づいて応答を送信してもよい。応答の出力タイミングの設定には、予め登録されたデフォルト設定と、ユーザによって登録されたユーザ設定と、があってもよい。表3は、デフォルト設定の一例を示したものであり、予め決められたコンテンツのジャンルごとに出力タイミングが設定されている。ユーザ設定は、ユーザがコンテンツのジャンルごとに出力タイミングを登録できる設定である。
Figure JPOXMLDOC01-appb-T000003
 図8のステップS108で、応答の出力タイミングの制御を行うと、続いて制御装置100は、個人化による興味レベル判定を行う(ステップS109)。ステップS109の個人化による興味レベル判定は、出力制御部180が知識ベースシステム部160に問い合わせることで行う。
 ここで制御装置100による,個人化による興味レベル判定処理について詳細に説明する。制御装置100は、応答の内容をユーザごとにカスタマイズして出力してもよい。制御装置100は、応答の内容をユーザごとにカスタマイズする際には、知識ベースシステム部160に格納されているユーザの個人情報(ユーザプロファイル)を参照する。表4は、知識ベースシステム部160に格納されているユーザプロファイルの例である。
Figure JPOXMLDOC01-appb-T000004
 制御装置100は、応答の内容をユーザごとにカスタマイズする際に、ユーザの興味レベルを判定する。本実施形態では、ユーザの興味レベルを3段階に分ける。高レベルは個人興味、中レベルは特徴抽出・共起関係、低レベルは該当しない、とする。制御装置100は、ユーザの興味レベルの判定を行うために、興味グラフ構造を辿る。興味グラフ構造は、知識ベースシステム部160が保持するユーザプロファイル(表4)の他に、表5で示す特徴類似プロファイル、表6で示す関連ユーザプロファイルから生成される。
Figure JPOXMLDOC01-appb-T000005
Figure JPOXMLDOC01-appb-T000006
 図15は、知識ベースシステム部160が保持するユーザプロファイル、特徴類似プロファイル、関連ユーザプロファイルから生成することができる興味グラフ構造の例を示す説明図である。図15に示した興味グラフ構造から、個人興味は「AA」、特徴抽出は「BB」、共起関係は「EE」と決めることができる。そして制御装置100は、応答の内容と合致するものから、興味レベルを判定することができる。
 制御装置100は、判定したユーザの興味レベルに応じて、応答の内容のサマリーの量を変えてもよい。制御装置100は、例えばアイコンの色や形、数を変えたり、音で表す場合には音の種類や高さを変えたりすることで興味レベルの高低をユーザに提示できる。表7は、興味レベルに応じた出力表示の例を示す説明図である。
Figure JPOXMLDOC01-appb-T000007
 制御装置100は、ユーザからの「この人は誰?」のような発話に対して、コンテンツ内で候補が複数あり、かつユーザが対象を指定しない場合は、優先度を付けて判定してもよい。制御装置100は、例えば表8に示したようなトランザクションルールに基づいて興味グラフを辿ることで、表9に示すような抽出優先度リストを生成することが出来る。
Figure JPOXMLDOC01-appb-T000008
Figure JPOXMLDOC01-appb-T000009
 例えば、ユーザが視聴しているコンテンツがXXXドラマの場合には、制御装置100は、「EE」、「GG」、「UU」の順に優先度を決定でき、コンテンツ内の候補とマッチングして、それぞれの候補に優先度を付けることができる。
 制御装置100は、3つ組(トリプル)のpredicateに優先順位を保持してあり、predicateのヒエラルキー順にエンティティ(subject)を特定してもよい。例えば、ユーザが視聴しているコンテンツがテレビドラマなら、主演、監督、演出、助演の順にpredicateが決められていても良い。また制御装置100は、SNSやEPG等のWEB情報を取得し、エンティティの頻度が高いものほど注目されているとし、その頻度順でエンティティを特定してもよい。
 図8のステップS109で、個人化による興味レベル判定を行うと、続いて制御装置100は、応答を出力するデバイスに応じた出力の最適化を行う(ステップS110)。ステップS110の出力の最適化は出力制御部180が行う。
 ユーザが保持するデバイスにおけるディスプレイの有無や、ディスプレイの領域の大きさに応じて、応答の方法が記載されたデバイスプロファイルが知識ベースシステム部160に保持される。デバイス管理部190は、知識ベースシステム部160からデバイスプロファイルを取得する。そして出力制御部180は、デバイス管理部190が知識ベースシステム部160から取得したデバイスプロファイルに基づいた出力の最適化を行う。表10は、デバイスプロファイルの例を示す表である。出力制御部180は、表10に示したようなデバイスプロファイルに基づいて、出力先のデバイスの特徴に応じた応答の出力の最適化を行うことが出来る。
Figure JPOXMLDOC01-appb-T000010
 以上、図8を用いて本開示の一実施形態に係る制御装置100の動作例について説明した。本開示の一実施形態に係る制御装置100は、図8に示した一連の動作を実行することで、ユーザからの発話に対して応答を生成し、その生成した応答を最適な形態で出力することが出来る。
 [1.4.ユースケース例]
 続いて、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す。
 (1)誰が発話したかをユーザにフィードバックする
 図16は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図16に示したユースケース例は、発話したユーザの顔を入力部101として設けられているカメラで撮像し、出力部102として設けられるディスプレイが出力しているコンテンツに重畳させる例である。図16に示したユースケースは、ディスプレイが出力しているコンテンツを見ながらユーザAが「ここどこ?」と発話したケースである。このケースでは、制御装置100は、ユーザAの場所を検出して、カメラでユーザAを撮像して、そのユーザAの顔を、ディスプレイが出力しているコンテンツに重畳させている。
 また図16に示したユースケースでは、発話したユーザの側に顔の画像を重畳させても良い。すなわち、ディスプレイに向かって左側にいるユーザAが「ここどこ?」と発話すると、制御装置100は、そのユーザAの顔画像をディスプレイの左側の領域に表示させてもよい。
 図17は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図17に示したユースケース例は、発話したユーザに対応する表示を、出力部102が出力しているコンテンツに重畳させる例である。図17に示したユースケースは、出力部102が出力しているコンテンツを見ながらユーザAが「ここどこ?」と発話したケースである。このケースでは、制御装置100は、発話したユーザAを検出して、そのユーザAに対応するアイコンを、出力部102が出力しているコンテンツに重畳させている。制御装置100は、アイコンの他に、ユーザAに対応する色、形、アバターなどを、出力部102が出力しているコンテンツに重畳させてもよい。
 また図17に示したユースケースでは、発話したユーザの側にアイコンやアバター等を重畳させても良い。すなわち、ディスプレイに向かって左側にいるユーザAが「ここどこ?」と発話すると、制御装置100は、そのユーザAに対応するアイコンをディスプレイの左側の領域に表示させてもよい。
 図18は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図18に示したユースケース例は、発話したユーザに対して音声で応答を返す例である。図18に示したユースケースは、出力部102が出力しているコンテンツを見ながらユーザAが「ここどこ?」と発話したケースである。このケースでは、制御装置100は、発話したユーザAを検出して、「ユーザAさん、XXXです」と音声で応答させている。
 (2)話者を特定して、コンテンツに情報を重畳する
 図19は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図19に示したユースケース例は、発話した話者を特定して、その発話に対する応答をコンテンツに重畳させる例である。
 制御装置100は、発話に対する応答を、常に決まったデフォルト位置に表示してもよく、話者の位置に応じて、動的に表示位置を変えて表示してもよい。また制御装置100は、コンテンツの内容を解析して、コンテンツの妨げにならない位置に発話に対する応答を表示してもよい。また制御装置100は、発話に対する応答を音声で出力する場合は、出力中のコンテンツの音量を下げてもよい。また制御装置100は、発話に対する応答を出力する際に、発話を検出した時点でコンテンツを一時停止させてもよい。
 制御装置100は、ユーザが視聴中のコンテンツに情報を重畳する場合のトリガとして、発話直後であってもよく、CM中であってもよく、番組や音楽が終わった後であってもよい。
 (3)話者を特定して、話者の別のデバイスに情報を送る
 図20は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図20に示したユースケース例は、発話した話者を特定して、その発話に対する応答を、その話者が持つ別のデバイスに送る例である。
 制御装置100は、話者を特定して、話者の別のデバイスに情報を送る場合、予め定められたデバイスに送ってもよく、話者が手にしたデバイスへ送ってもよく、話者が動的に指定したデバイスに送ってもよい。制御装置100は、話者の別のデバイスに情報を送る場合、当該デバイスに応答を送信した旨を、さらに別のデバイス(例えばユーザがコンテンツを視聴しているデバイス)に通知しても良い。
 (4)話者がコンテンツ内の複数の候補に対して指定する
 図21は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図21に示したユースケース例は、話者がコンテンツ内の複数の候補に対して指定する例であり、発話と同時に話者が候補を指定する場合の例である。
 話者が「この左の人、誰?」などのように発話文の中で明示的に指定したり、ジェスチャや画面への接触などで候補を指定したりすると、制御装置100は、その話者が指定した候補について応答を生成し、生成した応答を出力することが出来る。
 図22は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図22に示したユースケース例は、話者がコンテンツ内の複数の候補に対して指定する例であり、発話後に話者が候補を指定する場合の例である。
 コンテンツに複数の人物が含まれているような場合に、話者が「この人、誰?」と発話し、その他にジェスチャなどで候補を明示的に指定しなかったときは、制御装置100は、例えば図22に示したように、話者がどの人物について発話しているのかを逆に質問する。そして話者が、「Aです」「左です」など発話して指定したり、画面を触って直接指定したり、指や視線の動きなどのジェスチャで間接的に指定したりすると、制御装置100は、その指定に基づいて応答を生成し、生成した応答を出力することが出来る。
 図23は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図23に示したユースケース例は、話者がコンテンツ内の複数の候補に対して指定する例であり、話者が発話した時点のコンテンツのスクリーンショットを制御装置100で保存しておき、後で話者に候補を指定させる場合の例である。
 コンテンツに複数の人物が含まれているような場合に、話者が「この人、誰?」と発話し、その他にジェスチャなどで候補を明示的に指定しなかったときは、制御装置100は、例えば図23に示したように、話者が発話した時点のコンテンツのスクリーンショットを保持しておき、後で話者のデバイスにそのスクリーンショットを提示して、どの人物のことを指しているのか指定させてもよい。また、話者が持っているデバイスにディスプレイが無い場合は、制御装置100は、「画面付のデバイスを見てください」等の音声を出力して、ディスプレイのあるデバイスを使用するように促してもよい。
 (5)コンテンツ内に複数の候補があり、制御装置で判断するケース
 図24は、本開示の一実施形態に係る制御装置100を用いたユースケース例を示す説明図である。図24に示したユースケース例は、ユーザが発話した時点でコンテンツ内に候補が複数存在し、制御装置100が優先度を判断して応答を出力する例である。
 コンテンツに複数の人物が含まれているような場合に、話者が「この人、誰?」と発話し、その他にジェスチャなどで候補を明示的に指定しなかったときは、制御装置100は、例えば図24に示したように、考えられる候補について優先度を付けて応答を出力してもよい。図24に示した例では、コンテンツに2人の人物が登場しており、話者が候補を明示的に指定しなかった場合に、制御装置100が、その2人の人物の情報を応答として出力している。
 制御装置100が、コンテンツに登場している2人の人物の情報を応答として出力した後に、ユーザが発話して指定したり、画面を触って直接指定したり、指や視線の動きなどのジェスチャで間接的に指定したりすると、制御装置100は、その指定に基づいて再度応答を生成し、生成した応答を出力することが出来る。
 (6)コンテンツを視聴しているユーザが複数いる場合
 コンテンツを視聴しているユーザが複数いる場合、制御装置100は、話者を特定し、その話者に向けて応答を出力してもよく、話者を特定せず、コンテンツを視聴しているユーザ全員に向けて応答を出力してもよい。話者を特定しない場合には、制御装置100が話者を特定しないモードに設定されている場合や、制御装置100が話者を特定できなかった場合が含まれうる。
 またコンテンツを視聴しているユーザが複数いる場合、制御装置100は、話者を特定し、発話内容に応じて送り先を変えてもよい。例えば、あるユーザAの発話内容に「ユーザBに送る」と言ったような送り先が含まれる場合に、制御装置100は、応答の送り先をユーザAからユーザBに変えてもよい。
 (7)応答の情報量
 制御装置100は、応答を出力する際に、常に同じ情報量で出力してもよく、発話したユーザの興味に基づいて情報量を変化させてもよい。発話したユーザの興味に基づいて情報量を変化させる場合、制御装置100は、情報量がどの程度か分かるように色や記号等で表示したり、音の種類や高さを変えたりしてもよい。
 (8)補足情報の出力
 制御装置100は、応答を出力する際に、補足情報を付加して出力してもよい。補足情報には、薀蓄や、ユーザに関連する情報などが含まれうる。例えば、ある芸能人がユーザの母親と同じ年齢であることがユーザプロファイルから解れば、制御装置100は、「この人はあなたの母と同じ年齢です」などの情報を補足情報として出力してもよい。
 <2.ハードウェア構成例>
 次に、図25を参照して、本開示の一実施形態にかかる制御装置100のハードウェア構成について説明する。図25は、本開示の実施形態にかかる制御装置100のハードウェア構成例を示すブロック図である。上記の各アルゴリズムは、例えば、図25に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図25に示すハードウェアを制御することにより実現される。
 なお、この図25に示したハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、接触式又は非接触式のICチップ、接触式又は非接触式のICカード、スピーカ、テレビ、モニタ、ウェアラブル機器、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy-phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
 図25に示すように、このハードウェアは、主に、CPU902と、ROM904と、RAM906と、ホストバス908と、ブリッジ910と、を有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926と、を有する。但し、上記のCPUは、Central Processing Unitの略である。また、上記のROMは、Read Only Memoryの略である。そして、上記のRAMは、Random Access Memoryの略である。
 CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
 出力部918としては、例えば、CRT、LCD、PDP、又はELD等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のCRTは、Cathode Ray Tubeの略である。また、上記のLCDは、Liquid Crystal Displayの略である。そして、上記のPDPは、Plasma DisplayPanelの略である。さらに、上記のELDは、Electro-Luminescence Displayの略である。
 記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のHDDは、Hard Disk Driveの略である。
 ドライブ922は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928は、例えば、DVDメディア、Blu-rayメディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体928は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。但し、上記のICは、Integrated Circuitの略である。
 接続ポート924は、例えば、USBポート、IEEE1394ポート、SCSI、RS-232Cポート、又は光オーディオ端子等のような外部接続機器930を接続するためのポートである。外部接続機器930は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。但し、上記のUSBは、Universal Serial Busの略である。また、上記のSCSIは、Small Computer System Interfaceの略である。
 通信部926は、ネットワーク932に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB用の通信カード、光通信用のルータ、ADSL用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内LAN、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のLANは、Local Area Networkの略である。また、上記のWUSBは、Wireless USBの略である。そして、上記のADSLは、Asymmetric Digital Subscriber Lineの略である。
 <3.まとめ>
 以上説明したように本開示の一実施形態によれば、コンテンツを視聴しているユーザからの発話を検出し、その発話の内容を解析して、発話に対する応答を適切な形態でユーザに向けて出力することが可能な制御装置100が提供される。
 本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、各装置に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアまたはハードウェア回路で構成することで、一連の処理をハードウェアまたはハードウェア回路で実現することもできる。
 また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの一部又は全部は、たとえばインターネット等のネットワークを介して接続されるサーバ装置で実現されてもよい。また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容及び応答、前記応答を出力する対象及び前記応答を出力するタイミングを出力する対象を決定する制御を行う制御部を備える、制御装置。
(2)
 前記制御部は、前記応答を出力するタイミングとして、前記ユーザからの問い合わせに応じて前記応答を出力するか、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機するか前記(1)に記載の制御装置。
(3)
 前記制御部は、前記ユーザからの問い合わせがあっても前記コンテンツの状況が所定の条件を満たすまで前記応答の出力を待機する、前記(2)に記載の制御装置。
(4)
 前記制御部は、前記ユーザに応答する際に前記コンテンツのジャンルに応じて応答を出力するタイミングを決定する、前記(2)に記載の制御装置。
(5)
 前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答を出力する、前記(2)に記載の制御装置。
(6)
 前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答が存在する旨を出力する、前記(5)に記載の制御装置。
(7)
 前記所定の条件は、前記コンテンツが所定のタイミングとなったことである、前記(2)~(6)のいずれかに記載の制御装置。
(8)
 前記所定のタイミングは、前記コンテンツが終了したタイミングである、前記(7)に記載の制御装置。
(9)
 前記所定のタイミングは、前記コンテンツがコマーシャルになったタイミングである、前記(7)に記載の制御装置。
(10)
 前記所定の条件は、所定の時間になったことである、前記(2)~(6)のいずれかに記載の制御装置。
(11)
 前記制御部は、問い合わせを行った前記ユーザの興味レベルに応じて前記応答の内容を決定する、前記(1)~(11)のいずれかに記載の制御装置。
(12)
 前記制御部は、問い合わせを行った前記ユーザの興味レベルを、該ユーザの個人のプロファイルに基づいて決定する、前記(11)に記載の制御装置。
(13)
 前記制御部は、前記ユーザの興味レベルに相当する表示を前記応答に併せて出力する、前記(11)に記載の制御装置。
(14)
 前記制御部は、前記ユーザが手に持った装置に対して前記応答を出力する、前記(1)~(13)のいずれかに記載の制御装置。
(15)
 前記制御部は、前記コンテンツの出力が終了した時点で前記ユーザが手に持った装置に対して前記応答を出力する、前記(14)に記載の制御装置。
(16)
 前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、前記問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、前記(1)~(15)のいずれかに記載の制御装置。
(17)
 前記制御部は、前記問い合わせが行われた方向を検出することで該問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、前記(16)に記載の制御装置。
(18)
 前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、全てのユーザに向けて前記応答を出力する、前記(1)~(17)のいずれかに記載の制御装置。
(19)
 コンピュータが、少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを含む、制御方法。
(20)
 コンピュータに、少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを実行させる、コンピュータプログラム。
100  :制御装置
101  :入力部
102  :出力部
103  :通信部
104  :制御部
110  :発話検出部
111  :信号処理部
112  :発話受付処理部
113  :音声認識部
120  :ジェスチャ検出部
130  :コンテンツ解析部
140  :話者認識部
141  :ビームフォーミング処理部
142  :話者識別処理部
150  :発話解析部
151  :言語解析部
152  :意味解析部
160  :知識ベースシステム部
161  :知識データベース
162  :WEB情報保持部
170  :応答生成部
180  :出力制御部
181  :トリガ判定部
182  :個人化出力部
190  :デバイス管理部
191  :センサ情報取得部
192  :出力デバイス選択部

Claims (20)

  1.  少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行う制御部を備える、制御装置。
  2.  前記制御部は、前記応答を出力するタイミングとして、前記ユーザからの問い合わせに応じて前記応答を出力するか、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機するかを決定する、請求項1に記載の制御装置。
  3.  前記制御部は、前記ユーザからの問い合わせがあっても前記コンテンツの状況が所定の条件を満たすまで前記応答の出力を待機する、請求項2に記載の制御装置。
  4.  前記制御部は、前記ユーザに応答する際に前記コンテンツのジャンルに応じて応答を出力するタイミングを決定する、請求項2に記載の制御装置。
  5.  前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答を出力する、請求項2に記載の制御装置。
  6.  前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答が存在する旨を出力する、請求項5に記載の制御装置。
  7.  前記所定の条件は、前記コンテンツが所定のタイミングとなったことである、請求項2に記載の制御装置。
  8.  前記所定のタイミングは、前記コンテンツが終了したタイミングである、請求項7に記載の制御装置。
  9.  前記所定のタイミングは、前記コンテンツがコマーシャルになったタイミングである、請求項7に記載の制御装置。
  10.  前記所定の条件は、所定の時間になったことである、請求項2に記載の制御装置。
  11.  前記制御部は、問い合わせを行った前記ユーザの興味レベルに応じて前記応答の内容を決定する、請求項1に記載の制御装置。
  12.  前記制御部は、問い合わせを行った前記ユーザの興味レベルを、該ユーザの個人のプロファイルに基づいて決定する、請求項11に記載の制御装置。
  13.  前記制御部は、前記ユーザの興味レベルに相当する表示を前記応答に併せて出力する、請求項11に記載の制御装置。
  14.  前記制御部は、前記ユーザが手に持った装置に対して前記応答を出力する、請求項1に記載の制御装置。
  15.  前記制御部は、前記コンテンツの出力が終了した時点で前記ユーザが手に持った装置に対して前記応答を出力する、請求項14に記載の制御装置。
  16.  前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、前記問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、請求項1に記載の制御装置。
  17.  前記制御部は、前記問い合わせが行われた方向を検出することで該問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、請求項12に記載の制御装置。
  18.  前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、全てのユーザに向けて前記応答を出力する、請求項1に記載の制御装置。
  19.  コンピュータが、少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを含む、制御方法。
  20.  コンピュータに、少なくとも1人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを実行させる、コンピュータプログラム。
PCT/JP2016/053420 2015-03-31 2016-02-04 制御装置、制御方法及びコンピュータプログラム WO2016158005A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/313,817 US10474669B2 (en) 2015-03-31 2016-02-04 Control apparatus, control method and computer program
EP16771889.9A EP3279809A4 (en) 2015-03-31 2016-02-04 Control device, control method, computer and program
CN201680001441.0A CN106462646B (zh) 2015-03-31 2016-02-04 控制设备、控制方法和计算机程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015072406A JP2016192121A (ja) 2015-03-31 2015-03-31 制御装置、制御方法及びコンピュータプログラム
JP2015-072406 2015-03-31

Publications (1)

Publication Number Publication Date
WO2016158005A1 true WO2016158005A1 (ja) 2016-10-06

Family

ID=57004498

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/053420 WO2016158005A1 (ja) 2015-03-31 2016-02-04 制御装置、制御方法及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US10474669B2 (ja)
EP (1) EP3279809A4 (ja)
JP (1) JP2016192121A (ja)
CN (1) CN106462646B (ja)
WO (1) WO2016158005A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3599604A4 (en) * 2017-03-24 2020-03-18 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019098803A1 (en) * 2017-11-20 2019-05-23 Lg Electronics Inc. Device for providing toolkit for agent developer
JP6788620B2 (ja) * 2018-01-22 2020-11-25 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
CN111903138A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理装置、信息处理方法、发送装置以及发送方法
WO2019198405A1 (ja) * 2018-04-12 2019-10-17 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2021113835A (ja) * 2018-04-19 2021-08-05 ソニーグループ株式会社 音声処理装置および音声処理方法
US10884699B2 (en) * 2018-10-05 2021-01-05 Microsoft Technology Licensing, Llc Facilitating content navigation based on event context
US20220172716A1 (en) * 2019-03-29 2022-06-02 Sony Group Corporation Response generation device and response generation method
JP2021066199A (ja) * 2019-10-17 2021-04-30 本田技研工業株式会社 制御装置
JP7463242B2 (ja) * 2020-09-16 2024-04-08 Tvs Regza株式会社 受信装置、サーバ及び音声情報処理システム
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002133352A (ja) * 2000-10-27 2002-05-10 Nec Corp 双方向クロスメディア・サービスシステム及びサービス方法
JP2002162973A (ja) * 2000-11-24 2002-06-07 Univ Waseda 放送された音楽の検索方法
JP2003534737A (ja) * 2000-05-23 2003-11-18 ユナイテッド ビデオ プロパティーズ, インコーポレイテッド 視聴リストを有する双方向テレビアプリケーション
JP2005328167A (ja) * 2004-05-12 2005-11-24 Sanyo Electric Co Ltd 放送受信機能付き携帯電話機
JP2007519326A (ja) * 2003-12-29 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ推奨方法及び装置
JP2007299159A (ja) * 2006-04-28 2007-11-15 Toshiba Corp コンテンツ検索装置
JP2010016583A (ja) * 2008-07-03 2010-01-21 Panasonic Corp 視聴制限装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2428153A (en) * 2005-07-08 2007-01-17 Sharp Kk Interactive multiple view display
US8370375B2 (en) * 2005-12-08 2013-02-05 International Business Machines Corporation Method for presenting database query result sets using polymorphic output formats
KR100752351B1 (ko) * 2006-07-03 2007-08-27 (주)이즈메이커 쌍방향 데이터 및 음성 송수신이 가능한 통신매체를 이용한실시간 답변 시스템 및 제공 방법
US9477666B2 (en) * 2007-01-29 2016-10-25 Home Box Office, Inc. Method and system for providing “what's next” data
US20090113475A1 (en) * 2007-08-21 2009-04-30 Yi Li Systems and methods for integrating search capability in interactive video
KR20100088904A (ko) * 2009-02-02 2010-08-11 삼성전자주식회사 문답 서비스 방법, 문답 서비스 기능을 갖는 방송 수신기 및 저장 매체
US20100325140A1 (en) * 2009-06-18 2010-12-23 Verizon Patent And Licensing Inc. System for and method of parallel searching
US9015139B2 (en) * 2010-05-14 2015-04-21 Rovi Guides, Inc. Systems and methods for performing a search based on a media content snapshot image
CN102289491B (zh) * 2011-08-11 2014-05-07 中国人民解放军信息工程大学 基于模糊规则推理的并行应用性能脆弱点分析方法
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
KR101952170B1 (ko) * 2011-10-24 2019-02-26 엘지전자 주식회사 검색 방법을 채용한 휴대 전자 기기
US20130311506A1 (en) * 2012-01-09 2013-11-21 Google Inc. Method and apparatus for user query disambiguation
US8935277B2 (en) * 2012-03-30 2015-01-13 Sap Se Context-aware question answering system
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
KR102056461B1 (ko) * 2012-06-15 2019-12-16 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR101914708B1 (ko) * 2012-06-15 2019-01-14 삼성전자주식회사 서버 및 서버의 제어 방법
WO2014000280A1 (en) * 2012-06-29 2014-01-03 Nokia Corporation Method and apparatus for providing task-based service recommendations
US8706096B2 (en) * 2012-07-12 2014-04-22 Time Warner Cable Enterprises Llc Call management and notifications in media player applications
US9330379B2 (en) * 2012-09-14 2016-05-03 Intel Corporation Providing notifications of messages for consumption
KR102093198B1 (ko) * 2013-02-21 2020-03-25 삼성전자주식회사 시선 인식을 이용한 사용자 인터페이스 방법 및 장치
US9368114B2 (en) * 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
KR20140141026A (ko) * 2013-05-31 2014-12-10 삼성전자주식회사 디스플레이 장치 및 검색 결과를 표시하는 방법.
CN104216913B (zh) * 2013-06-04 2019-01-04 Sap欧洲公司 问题回答方法、系统和计算机可读介质
US9401881B2 (en) * 2013-09-26 2016-07-26 International Business Machines Corporation Automatic question generation and answering based on monitored messaging sessions
CN103823844B (zh) * 2014-01-26 2017-02-15 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
US9310205B2 (en) * 2014-02-20 2016-04-12 Stubhub, Inc. Interactive venue assistant
CN104915340B (zh) * 2014-03-10 2019-09-10 北京大学 自然语言问答方法及装置
US20150261859A1 (en) * 2014-03-11 2015-09-17 International Business Machines Corporation Answer Confidence Output Mechanism for Question and Answer Systems
KR20150136312A (ko) * 2014-05-27 2015-12-07 삼성전자주식회사 디스플레이 장치 및 이의 정보 제공 방법
US9720917B2 (en) * 2015-02-17 2017-08-01 International Business Machines Corporation Electronic meeting question management

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003534737A (ja) * 2000-05-23 2003-11-18 ユナイテッド ビデオ プロパティーズ, インコーポレイテッド 視聴リストを有する双方向テレビアプリケーション
JP2002133352A (ja) * 2000-10-27 2002-05-10 Nec Corp 双方向クロスメディア・サービスシステム及びサービス方法
JP2002162973A (ja) * 2000-11-24 2002-06-07 Univ Waseda 放送された音楽の検索方法
JP2007519326A (ja) * 2003-12-29 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ推奨方法及び装置
JP2005328167A (ja) * 2004-05-12 2005-11-24 Sanyo Electric Co Ltd 放送受信機能付き携帯電話機
JP2007299159A (ja) * 2006-04-28 2007-11-15 Toshiba Corp コンテンツ検索装置
JP2010016583A (ja) * 2008-07-03 2010-01-21 Panasonic Corp 視聴制限装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3279809A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3599604A4 (en) * 2017-03-24 2020-03-18 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Also Published As

Publication number Publication date
EP3279809A4 (en) 2018-08-29
CN106462646A (zh) 2017-02-22
US10474669B2 (en) 2019-11-12
JP2016192121A (ja) 2016-11-10
EP3279809A1 (en) 2018-02-07
US20170206243A1 (en) 2017-07-20
CN106462646B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
WO2016158005A1 (ja) 制御装置、制御方法及びコンピュータプログラム
US10014008B2 (en) Contents analysis method and device
KR101878488B1 (ko) 대화 연관 컨텐츠 제공 방법 및 장치
JP6229287B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP2018170015A (ja) 情報処理装置
WO2015163068A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
WO2013115235A1 (ja) 出力システム、出力システムの制御方法、制御プログラム、および記録媒体
US20140303975A1 (en) Information processing apparatus, information processing method and computer program
US20160156774A1 (en) Techniques for enhancing content on a mobile device
US10650814B2 (en) Interactive question-answering apparatus and method thereof
US11256463B2 (en) Content prioritization for a display array
US20150347461A1 (en) Display apparatus and method of providing information thereof
CN107155121B (zh) 语音控制文本的显示方法及装置
CN109165292A (zh) 数据处理方法、装置以及移动终端
CN111539219A (zh) 一种用于自然语言内容标题消歧的方法、设备和系统
KR102122918B1 (ko) 대화형 질의응답 장치 및 그 방법
CN112053688B (zh) 一种语音交互方法及交互设备、服务器
CN111344664B (zh) 电子设备及其控制方法
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
CN117812323A (zh) 显示设备、语音识别方法、装置及存储介质
CN114974252A (zh) 语音处理方法、装置、电子设备和介质
CN115237929A (zh) 显示设备、交互方法和存储介质

Legal Events

Date Code Title Description
REEP Request for entry into the european phase

Ref document number: 2016771889

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16771889

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15313817

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016771889

Country of ref document: EP