WO2018142686A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2018142686A1
WO2018142686A1 PCT/JP2017/037875 JP2017037875W WO2018142686A1 WO 2018142686 A1 WO2018142686 A1 WO 2018142686A1 JP 2017037875 W JP2017037875 W JP 2017037875W WO 2018142686 A1 WO2018142686 A1 WO 2018142686A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
evaluation
content
information processing
utterance
Prior art date
Application number
PCT/JP2017/037875
Other languages
English (en)
French (fr)
Inventor
真里 斎藤
宮嵜 充弘
麗子 桐原
寿理 八重田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201780084544.2A priority Critical patent/CN110235119A/zh
Priority to JP2018565931A priority patent/JP6958573B2/ja
Priority to EP17894835.2A priority patent/EP3579123A4/en
Priority to US16/477,026 priority patent/US20210280181A1/en
Publication of WO2018142686A1 publication Critical patent/WO2018142686A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent Document 1 discloses a technique for collecting viewer feedback for a broadcast and using it to generate a rating for the broadcast.
  • Patent Document 1 provides a questionnaire to the user immediately after the content viewing ends, there is a possibility that the user's viewing and the afterglow after viewing may be hindered.
  • the present disclosure proposes an information processing apparatus, an information processing method, and a program that can acquire user preference information in a more natural conversation according to the content of the user's utterance.
  • the evaluation extraction unit that extracts the user's evaluation of the content based on the content of the user's utterance regarding the content, and the user's preference information for the content is further acquired based on the extracted evaluation
  • An information processing apparatus includes a generation unit that generates question voice data.
  • the processor extracts the user's evaluation of the content based on the user's utterance content regarding the content, and further obtains the user's preference information for the content based on the extracted evaluation. Proposing an information processing method including generating question voice data to be acquired.
  • the computer extracts the user's evaluation of the content based on the user's utterance content regarding the content, and the user's preference information for the content based on the extracted evaluation.
  • a program for functioning as a generation unit that generates question voice data for further acquiring the question voice data is proposed.
  • FIG. 1 is a diagram illustrating an overview of an information processing system according to an embodiment of the present disclosure.
  • the agent device 1 can acquire user preference information in a more natural conversation according to the content of the user's utterance.
  • the agent device 1 includes a voice output unit (speaker) and a voice input unit (microphone), and has a voice agent function of collecting voices of surrounding users and outputting response voices.
  • the information processing system may be a client server type including, for example, an agent device 1 and a server 2, and utterance voice analysis and response voice generation are performed on the server 2 side. May be.
  • the agent device 1 is connected to the server 2 on the network by wire or wirelessly, and transmits the collected uttered voice (raw data or processed data obtained by performing a predetermined process such as extraction of a feature amount) or the server 2 Or output the response voice received from.
  • the external shape of the agent device 1 is not limited to the example shown in FIG. In FIG. 1, as an example, it is simply formed in a cylindrical shape, and a light emitting part (or display part) such as an LED (Light Emitting Diode) is provided on a side surface.
  • a light emitting part or display part
  • LED Light Emitting Diode
  • the information processing system outputs question voice data for naturally participating in the conversation and acquiring the user's preference information regarding the content when the user (one or more) is having a conversation regarding the content. To do.
  • the server 2 extracts the evaluation regarding the evaluation target (content) based on the conversation contents collected by the agent device 1 and the metadata of the travel program acquired from the content DB 4.
  • the server 2 extracts the positive evaluation (positive evaluation) of the user A from Pharmaceutical from the speech of the user A “here is good”, and further the user A positive evaluation of the user B for Pharmaceutical is extracted from the speech that agrees with the user A, “I want to go”. Then, the server 2 accumulates these evaluations as preference information, and further asks what kind of place you like in Farm, as well as a question voice for acquiring more detailed preference information about the content (for example, “ Do you like it? ”) Is output from the agent device 1. Since the user is in the middle of talking about the content, it can be expected to respond naturally to the question voice from the agent device 1. In addition, the server 2 can increase the conversation with the user by adding, to the question voice, a line that sympathizes with the user's evaluation (for example, “It's a really nice place”).
  • the server 2 can excite a user's ambiguous conversation and can acquire preference information more reliably.
  • FIG. 2 is a block diagram illustrating an example of the configuration of the agent device 1 according to the present embodiment.
  • the agent device 1 includes a control unit 10, a communication unit 11, a voice input unit 12, a camera 13, a biometric sensor 14, a voice output unit 15, a projector 16, and a storage unit 17.
  • the control unit 10 functions as an arithmetic processing device and a control device, and controls the overall operation in the agent device 1 according to various programs.
  • the control unit 10 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor, for example.
  • the control unit 10 may include a ROM (Read Only Memory) that stores programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • the control unit 10 controls the information input from the voice input unit 12, the camera 13, and the biological sensor 14 to be transmitted from the communication unit 11 to the server 2 via the network 5. Further, the control unit 10 has a voice agent function for outputting the voice data received from the server 2 from the voice output unit 15. The control unit 10 can also project information from the projector 16 and present information by receiving image data received from the server 2. Further, the control unit 10 is connected to a home network such as home Wi-Fi by the communication unit 11 and displays presentation information on a display device in a room or plays music from an audio device or the like according to a request from a user. It is also possible to instruct the TV recorder to make a recording reservation and to control the air conditioning equipment.
  • a home network such as home Wi-Fi
  • the communication unit 11 is connected to the network 5 by wire or wireless, and transmits / receives data to / from the server 2 on the network.
  • the communication unit 11 is, for example, by a wired / wireless LAN (Local Area Network), Wi-Fi (registered trademark), a mobile communication network (LTE (Long Term Evolution), 3G (third generation mobile communication system)) or the like. Connect to the network 5 for communication.
  • the communication unit 11 can be connected to a home network by Wi-Fi or the like, or can be connected to peripheral external devices by Bluetooth (registered trademark) or the like.
  • the audio input unit 12 is realized by a microphone, a microphone amplifier unit that amplifies the audio signal obtained by the microphone, and an A / D converter that digitally converts the audio signal, and outputs the audio signal to the control unit 10. .
  • the voice input unit 12 is realized by, for example, an omnidirectional microphone, and collects voices of surrounding users.
  • the camera 13 includes a lens system including an imaging lens, a drive system that operates the lens system, a solid-state imaging device array that photoelectrically converts imaging light obtained by the lens system, and generates an imaging signal.
  • the solid-state imaging device array may be realized by a CCD (Charge Coupled Device) sensor array or a CMOS (Complementary Metal Oxide Semiconductor) sensor array, for example.
  • the camera 13 captures a user's face image (expression), for example.
  • the biosensor 14 has a function of acquiring user biometric information by contact or non-contact.
  • the configuration of the biosensor is not particularly limited, but for example, a non-contact biosensor includes a sensor that detects a pulse or a heartbeat using radio waves.
  • the audio output unit 15 includes a speaker that reproduces an audio signal and an amplifier circuit for the speaker.
  • the audio output unit 15 is realized by, for example, an omnidirectional speaker, and outputs the agent's audio.
  • the projector 16 has a function of projecting an image on a wall or a screen.
  • the storage unit 17 is realized by a ROM (Read Only Memory) that stores programs and calculation parameters used for the processing of the control unit 10, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the configuration of the agent device 1 according to this embodiment has been specifically described above.
  • the configuration of the agent device 1 is not limited to the example shown in FIG.
  • the agent device 1 may be configured without the camera 13, the biological sensor 14, or the projector 16.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the server 2 according to the present embodiment.
  • the server 2 includes a control unit 20, a communication unit 21, a user information DB (database) 22, an evaluation word DB 23, a question utterance sentence DB 24, and an agent stance DB 25.
  • the control unit 20 functions as an arithmetic processing device and a control device, and controls the overall operation in the server 2 according to various programs.
  • the control unit 20 is realized by an electronic circuit such as a CPU (Central Processing Unit) and a microprocessor, for example.
  • the control unit 20 may include a ROM (Read Only Memory) that stores programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • control unit 20 includes a voice recognition unit 201, a user state recognition unit 202, an utterance analysis unit 203, a content detection unit 204, an evaluation extraction unit 205, a content preference management unit 206, an utterance generation unit 207, and a stance setting.
  • the unit 208 and the output control unit 209 also function.
  • the speech recognition unit 201 performs recognition processing (text conversion) of the transmitted user utterance collected by the agent device 1 and outputs a recognition result (user utterance speech text) to the utterance analysis unit 203.
  • the user state recognition unit 202 recognizes the user's state (behavior, action, line of sight, facial expression, emotion, etc.) based on the user's captured image and biological information acquired by the agent device 1, and the recognition result is the content detection unit 204. And output to the evaluation extraction unit 205.
  • the captured image of the user may be captured by a camera installed around the user and acquired by the agent device 1 via the home network.
  • the utterance analysis unit 203 analyzes the user utterance speech text recognized by the speech recognition unit 201.
  • the utterance analysis unit 203 can divide speech text into words by morphological analysis or part-of-speech decomposition, and can interpret the meaning of text by syntactic analysis, context analysis, semantic analysis, or the like.
  • the content detection unit 204 has a function of detecting (identifying) an evaluation object (content) in the user's uttered voice based on the analysis result by the utterance analysis unit 203.
  • the content detection unit 204 when there is a word indicating an evaluation target (for example, a pronoun such as “this drama”, “here”, “this”, “that”, etc.) in the user's conversation while viewing the content,
  • the content to be evaluated can be specified with reference to information on the content (video, music, TV program, etc.).
  • Information on the content being played back may be acquired from the agent device 1 or may be acquired from the content DB 4 on the network.
  • the content detection unit 204 can specify the content to be evaluated from the user's uttered voice, and can also specify the user state such as the user's gesture and line of sight. For example, the content detection unit 204 determines, based on the analysis result of the utterance analysis unit 203 and the recognition result of the user state recognition unit 202, that the user points while holding something or pointing his / her line of sight. When talking to “Yone” or “That is my favorite”, an object that the user is pointing to, an object that is being held, or an object that is directed to the line of sight is detected as content to be evaluated. Further, when a plurality of users are having a conversation, an object held by one of them or an object to which the plurality of users are looking may be detected as content to be evaluated.
  • the evaluation extraction unit 205 extracts the evaluation based on the analysis result by the utterance analysis unit 203 or the recognition result of the user state recognition unit 202. Specifically, the evaluation extraction unit 205 extracts predetermined adjectives, adverbs, exclamations, and the like from the words analyzed by the utterance analysis unit 203 as evaluation words, and determines the user's positive evaluation and negative evaluation for the content.
  • the extraction of the evaluation by the evaluation extraction unit 205 is not limited to the positive / negative binary determination, and the degree thereof (that is, the positive degree and the negative degree) may be determined.
  • the evaluation word may be registered in advance in the evaluation word DB 23 or may be extracted from the user's past wording.
  • the evaluation extraction unit 205 can extract an evaluation from the facial expression (face image recognition) and emotion (biological information, face image recognition) of the user during the conversation. For example, the evaluation extraction unit 205 determines negative evaluation when the user is frowning while viewing the content, and positive evaluation when the user is laughing.
  • the evaluation extracting unit 205 may register the preference information on the assumption that the other user is also performing the same evaluation.
  • Example of dialogue (if you agree) User A: “Hey, this is it” (pointing at something or turning his gaze. Server 2 identifies the content)
  • User B “Oh, good” (Server 2 registers positive evaluation)
  • User A “That's right” (Since I agree, Server 2 registers positive evaluation)
  • Agent “Oh (the specified content) is good. ] / “What is good about OO? ]
  • the content preference management unit 206 manages preference information (content preference) for user content stored in the user information DB 22. Specifically, the content preference management unit 206 stores the user evaluation extracted by the evaluation extraction unit 205 for the content (evaluation target) detected by the content detection unit 204 in the user information DB 22.
  • the utterance generation unit 207 generates agent response utterance voice data for the user's utterance according to the analysis result by the utterance analysis unit 203.
  • the utterance analysis unit 203 can also generate question utterance voice data for further acquiring user preference information regarding the content with which the user is talking.
  • the utterance analysis unit 203 generates a question utterance for acquiring further preference information based on the user evaluation. Specifically, when the user evaluation is positive, positive empathy is shown and the reason for the evaluation is asked. If the user evaluation is negative, negative empathy is shown and the reason for the evaluation is asked. Further, the utterance analysis unit 203 may generate a question utterance that fills in insufficient user preference information (items) related to the content.
  • the missing item can be acquired from the content preference management unit 206. Further, the utterance generation unit 207 may generate a question utterance (whether it really likes / dislikes) that makes the evaluation more reliable when the degree of definiteness of evaluation is low (the evaluation is ambiguous). . For example, when it is difficult to determine the preference only with the following dialogue contents of a plurality of users watching a gourmet program, a question for confirming the evaluation is performed. ⁇ Example of dialogue (while watching a gourmet program); User A: “Wow, try it! This” User B: “What is it? User A: “It ’s amazing” Agent: “Sushi looks delicious. Do you like sushi?
  • the utterance generation unit 207 generates question utterance voice data with reference to, for example, a question utterance template registered in the question utterance sentence DB 24.
  • the utterance generation unit 207 may generate the question utterance voice data using a predetermined algorithm.
  • the utterance generation unit 207 may generate the utterance voice data by adding a line that sympathizes with the user's evaluation. For example, if the user's evaluation is positive, positive empathy may be performed, and if the user's evaluation is negative, negative empathy may be performed. For example, if the user makes a positive evaluation, the user may positively sympathize with “Good”, and if the user makes a negative evaluation, the user may negatively sympathize with “I don't like”. At this time, empathy lines may be defined in advance according to the part of speech of the evaluation word or the type of the word.
  • the utterance generation unit 207 may ask the reason for the positive / negative evaluation of the user. For example, if a user makes a positive / negative evaluation regarding content, “Yes? Why, why? ⁇ And answer to ask the reason. By sympathizing with the user's evaluation or asking a reason, it becomes possible to excite the user's conversation and to obtain preference information. For example, the utterance generation unit 207 may make a response to hear the evaluation of the content related to the content being evaluated by the user. For example, if the user is positively evaluating the music of artist X, “Yes. It is possible to further obtain a user evaluation for artist Y by responding with “Y (song name) of artist Y is also good”.
  • the utterance generation unit 207 gives empathy or asks the reason for evaluation when the evaluations of a plurality of users who are interacting with the content match, and evaluates one of the users when the evaluations of the plurality of users do not match. You may make it ask a reason.
  • -Dialogue example when evaluations match) User A: “This is good” (looking at the cosmetics CM) User B: “I think so” Agent: “Is it good?” / “XX (product name)? What kind of place is good? ]
  • the utterance generation unit 207 may make a response that prompts the user to utter when there is a user who is not evaluating among a plurality of users who are interacting with the content. For example, the following dialogue example is assumed.
  • Agent “Phuket is attractive. What kind of place is good? ] User A: “Because you can relax.” (Server 2 registers user A's preference information (why he likes Pharmaceutical)) Agent: “Do you think so too?
  • the utterance generation unit 207 may make a response in consideration of the agent stance. Specifically, if the agent stance matches the user's evaluation, it may be sympathetic, and if it is different, the reason for the evaluation may be heard. As a result, it is possible to avoid sympathy with each user performing different evaluations.
  • the utterance generation unit 207 may generate questions with different granularities (categories and classifications) in order to acquire further preference information. For example, in addition to the above-described question regarding the content itself, a question regarding the content category itself or a question regarding the metadata of the content (particularly, information not registered in the user information DB 22) can be generated. For example, if the content is a drama, in addition to asking the reason for evaluation of the drama, ask the drama category, for example, the preference of the drama genre such as “Do you like criminal drama?” “Do you like medical drama?” May be.
  • drama's metadata for example, “Do you like the main actor?” “Do you like the theme song?” “Do you like setting the era?” “Do you like the original author?” You may ask questions about the taste of songs, insert songs, stage performances, and originals.
  • the utterance generation unit 207 may set an upper limit of the number of questions in order to avoid persistently asking questions. Further, the utterance generation unit 207 may determine whether or not to continue the question based on the user's reaction when asked (such as looking away, silence, disgusting face, etc.).
  • the utterance generation unit 207 may generate a question for obtaining a user's reaction with a multimodal expression. Specifically, for example, the utterance generation unit 207 refers to the set agent stance and encourages the conversation by saying the agent's opinion, or does not participate in the conversation (such as past utterances of other family members, You may be encouraged to talk by presenting opinions of others on the Internet (for example, “C said“... ”, but what does A think? "Such).
  • the utterance generation unit 207 may not only ask for the reason for the evaluation but also ask for the evaluation by specifying another content.
  • An example of dialogue is shown below.
  • User A “I don't really like beach resorts.” (The server registers a negative evaluation for the beach resort as the preference information of the user A, and makes a question asking the reason for the evaluation and a question for obtaining a reaction about other contents.)
  • Agent “Is that so? Why? Are you interested in World Heritage? ]
  • the stance setting unit 208 has a function of setting an agent stance.
  • the agent stance is preference information of the agent, and it can be set whether it is a stance that positively evaluates a certain content or a stance that negatively evaluates (agent character setting).
  • Information on the set agent stance is stored in the agent stance DB 25.
  • the stance setting unit 208 may gradually change the dialog with the user by affecting the agent stance. For example, if the content is a stance that you do not like, ask the user who gives a positive evaluation the reason, change the stance while continuing the conversation with the user, “I see. You may respond, “I've come to like you a little.”
  • the output control unit 209 has a function of controlling the utterance voice data generated by the utterance generation unit 207 to be output from the agent device 1 as a voice. Specifically, the output control unit 209 transmits the speech voice data from the communication unit 21 to the agent device 1 and instructs to output the voice. Further, the output control unit 209 can also perform control so that audio is output at a predetermined timing. For example, the output control unit 209 does not ask questions when the conversations of a plurality of users are exciting (when the laughter is uninterrupted, the volume of the voice is high, the conversation is short, the conversation is short, the conversation tempo is fast, etc.) Thus, a question may be asked when the conversation has settled down (for example, when the interval between conversations becomes a predetermined length).
  • the output control unit 209 may not output a question when the conversation is not exciting, the conversation tempo is poor, and the conversation is likely to be interrupted, and may be output when the next timing is good.
  • the output control unit 209 may ask the user at a time when the user does not forget the content experience, such as within one day from the content experience, or when the user is relaxed or busy. If you have n’t, “What do you like the XX (content) you talked about? "Why don't you hate the XXX you saw before?" You may ask questions.
  • the user may respond and ask a question.
  • the communication unit 21 is connected to the network 5 by wire or wireless, and transmits / receives data to / from the agent device 1 via the network 5.
  • the communication unit 21 is connected to the network 5 through, for example, a wired / wireless LAN (Local Area Network) or Wi-Fi (Wireless Fidelity, registered trademark).
  • the configuration of the server 2 according to the present embodiment has been specifically described above.
  • the configuration of the server 2 according to the present embodiment is not limited to the example illustrated in FIG.
  • a part of the configuration of the server 2 may be provided in an external device.
  • the agent device 1 may have a part or all of the functional configuration of the control unit 20 of the server 2.
  • FIG. 4 is a flowchart showing the response process of the voice agent according to the present embodiment.
  • the server 2 recognizes the user dialogue voice collected by the agent device 1 by the voice recognition unit 201 (step S104), and analyzes the utterance by the utterance analysis unit 203 (step S104). S106).
  • control unit 20 of the server 2 determines whether or not the content of the user's dialogue is an utterance related to the content (some evaluation object) (step S109).
  • step S109 / Yes when the utterance is related to the content (step S109 / Yes), the control unit 20 of the server 2 detects the content to be evaluated by the content detection unit 204 based on the utterance content, the user's gesture, the line of sight, or the like. (Identify) (step S112).
  • control unit 20 causes the evaluation extraction unit 205 to extract, as preference information, positive / negative evaluation (or evaluation reason, etc.) regarding the content from the utterance content and facial expression (step S115).
  • Evaluation words indicating positive / negative are registered in the evaluation word DB 23 in advance, and the evaluation extraction unit 205 extracts evaluations by analyzing the evaluation words included in the user utterance with reference to the evaluation word DB 23. Alternatively, an algorithm that recognizes each time may be used.
  • the evaluation extraction unit 205 can extract positive / negative evaluations on the user's content with reference to the user's facial expressions and emotions (which can be acquired from facial expressions and biological information).
  • the content preference management unit 206 updates the user preference information stored in the user information DB 22 (that is, user preference information related to the content) (step S118).
  • the content preference management unit 206 determines whether there is insufficient information (data items) in the user preference information (step S121).
  • step S121 / Yes when there is insufficient information (step S121 / Yes), the control unit 20 of the server 2 generates a question utterance by the utterance generation unit 207 if there is a situation to utter (step S124 / Yes). Then, the output control unit 209 controls to output from the agent device 1 (step S127). Whether or not the situation is to be uttered is determined based on, for example, the state of the user (line of sight or behavior), the degree of excitement, and the like. Moreover, although the question utterance for acquiring the information (item) which lacks among user preference information registered into user information DB22 as an example here is produced
  • the utterance generation unit 207 for example, A question utterance may be generated to finalize the content and evaluation (for example, “Do you like OO (content)?”, “Do you like XX (content)?”).
  • the server 2 If there is no insufficient preference information regarding the content (step S121 / No), the server 2 generates a response indicating empathy and / or an utterance that prompts the next utterance if the situation is to be uttered (step S130). And output (step S133).
  • the next utterance is, for example, a question utterance that asks for preference information about other content related to the content to be evaluated (for example, “I like XX (content). ⁇ (other related content) How is it? "
  • the question utterance is generated after determining whether or not the situation is to be uttered.
  • the present embodiment is not limited to this, and the utterance generating unit 207 first performs the process.
  • a question utterance may be generated, and output control may be performed by the output control unit 209 after waiting for a situation to be uttered (the upper limit of the waiting time may be set).
  • step S136 when a new utterance is uttered by the user (step S136 / Yes), the processing after step S103 is repeated.
  • step S124 / No, step S130 / No If the situation is not to be uttered (step S124 / No, step S130 / No), the response process ends (waits for a new utterance).
  • FIG. 5 is a flowchart showing a process for detecting content to be evaluated according to the present embodiment.
  • the content detection unit 204 of the server 2 first determines whether or not there is a word indicating content in the analyzed user utterance (step S153).
  • the content detection unit 204 determines whether the word is in the content DB 4 (step S156).
  • the content DB 4 may be a program information database provided in an external server, or a content dictionary database (a database in which content names are registered in advance, not shown) included in the server 2.
  • the content detection unit 204 specifies the evaluation target content (step S159). Note that the content detection unit 204 may acquire content information specified from the content DB 4 as necessary.
  • step S153 when there is no word indicating content during utterance (step S153 / No), or when the word indicating content is an instruction word (step S162 / Yes), the content detection unit 204 is based on the recognition result of the user state. Then, the user's line of sight detection (step S165), pointing detection (step S168), or gripping object detection (step S171) is performed, and the evaluation target content indicated by the user is specified (step S174).
  • step S174 / Yes when the content to be evaluated can be specified (step S174 / Yes), the content detection process ends.
  • step S174 if the content to be evaluated cannot be specified (step S174 / No), the response process ends.
  • a question for specifying the evaluation target content may be generated.
  • FIG. 6 is a flowchart showing the evaluation extraction process according to this embodiment.
  • the utterance generation unit 207 acquires the positive / negative evaluation extracted by the evaluation extraction unit 205 (step S183).
  • the utterance generation unit 207 utters a question about positive empathy and / or a reason (for example, “Good”, “Nice. Like? ”Is generated (step S189).
  • step S186 the utterance generation unit 207 asks for a negative empathy and / or a reason (for example, “I don't like it”, “I don't like it. What was particularly boring?” Etc.) is generated (step S192).
  • Agent stance setting process Next, the agent stance setting process according to the present embodiment will be described with reference to FIG. As described above, the server 2 according to the present embodiment can set an agent stance by the stance setting unit 208 and generate a question utterance referring to the agent stance.
  • FIG. 7 is a flowchart showing an agent stance setting process according to this embodiment.
  • the control unit 20 of the server 2 first analyzes an evaluation word by the evaluation extraction unit 205 (evaluation extraction) (step S203), and determines whether or not the user evaluation matches the stance of the agent. Judgment is made (step S206).
  • control unit 20 when the user evaluation does not match the stance of the agent (step S206 / No), the control unit 20 generates an utterance asking the reason for the positive evaluation / negative evaluation by the utterance generation unit 207, and the output control unit 209. Is controlled to output a voice from the agent device 1 (step S209).
  • the control unit 20 analyzes the user's answer using the utterance analysis unit 203 (step S212), and determines whether or not to change the stance of the agent using the stance setting unit 208 (step S215).
  • the condition for changing the stance is not particularly limited, but can be determined according to, for example, a preset rule. Specifically, for example, when the user's evaluation reason is specific or when a large number of evaluation reasons are listed, the agent stance may be changed. Further, when the content is music, the agent stance may be changed when the user listens to the music many times.
  • the stance setting unit 208 changes the agent stance (update of the agent stance DB 25).
  • the control unit 20 responds to the user that the change has been made (for example, “It's a good song. I've come to like it while listening to it” (change from negative stance to positive stance)), “I see. You may also hate me ”(change from positive stance to negative stance).
  • control unit 20 when the user evaluation matches the stance of the agent (step S206 / Yes), the control unit 20 generates a response utterance sympathetic to the positive evaluation / negative evaluation by the utterance generation unit 207, and the output control unit 209. Is controlled to output a voice from the agent device 1 (step S221).
  • the control unit 20 may further perform an utterance asking a reason.
  • the question utterance of the voice agent is not limited to the case where the voice is output from the agent device 1, and for example, the response sentence of the agent may be displayed or projected.
  • the user may ask a question before viewing the content. For example, when the user is going to watch a suspense drama (recognition of the user state), the server 2 will say “Do you like suspense? Is output from the agent device 1.
  • the server 2 also accumulates user positive / negative reactions (including user status such as gestures, facial expressions, eye movements, etc. in addition to utterance contents), and positive / negative even when there is no explicit response from the user. It is possible to predict the evaluation. In this case, the server 2 can make an utterance for asking the user whether the predicted evaluation is correct (for example, “I don't like this song so much”) and can acquire more definite preference information.
  • the server 2 extracts evaluations in consideration of individual characteristics.
  • the server 2 lowers the degree of determination (decreases the weight) in the evaluation in synchronization with the evaluation of other users of the user. This is because when talking with multiple users, it is actually a different opinion, but there is a possibility that it is in sync with others. Further, the method and contents of the question may be changed depending on whether the user is alone or plural.
  • the preference information is likely to be acquired according to the user's situation, continue to ask further questions and reduce if the user is tired. Further, the user's situation (tired, busy, relaxed, spare time, etc.) is determined from biometric information, utterances (utterance content, utterance tempo, voice volume, etc.), time zone, day of the week, or the like.
  • the dialogue may be continued after the user's preference information is acquired and the purpose is achieved. For example, it may be an utterance that shows empathy and prompts the next utterance (for example, “That ’s amazing. What else?”).
  • the server 2 may control the timing for asking a question according to the content. For example, if the content is a broadcast program, a question may be asked during the CM, or if the content is music, the evaluation regarding the content may be asked when the song changes.
  • a plurality of agents may be set in one agent device 1.
  • a stance may be set for each agent, and an agent that matches the user evaluation may appear.
  • the user evaluation is sympathetic, the dialogue of related contents is encouraged, the utterance of the user who is not evaluated is encouraged, etc. It is possible to obtain.
  • this technique can also take the following structures.
  • An evaluation extraction unit that extracts the user's evaluation of the content based on the content of the user's utterance regarding the content; Based on the extracted evaluation, a generation unit that generates question voice data for further acquiring the user's preference information for the content;
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the evaluation extraction unit extracts each user's evaluation of the content from the contents of a dialogue among a plurality of users. (3) The information processing apparatus according to (1) or (2), wherein the generation unit generates question voice data for asking the reason for the user's evaluation as the preference information.
  • the generation unit generates question voice data asking the reason for evaluation as the preference information after sympathizing with either positive evaluation or negative evaluation when evaluations of a plurality of users for the content do not match.
  • the information processing apparatus according to any one of (6) to (6).
  • the generation unit generates question voice data that asks a user who has not spoken of the evaluation of the content among a plurality of users about the evaluation of the content.
  • the information processing apparatus described. The information processing apparatus includes: The information processing apparatus according to any one of (1) to (7), further including an output control unit configured to control the generated question data to be output as a voice.
  • the information processing apparatus determines a state of dialogue between a plurality of users and controls to output the question voice data at a predetermined timing.
  • the evaluation extraction unit extracts the evaluation of the other user according to whether or not another user who interacts with the user agrees to the evaluation of the user, any of (1) to (10) The information processing apparatus according to claim 1.
  • the generation unit generates sympathetic voice data that sympathizes when the preference preference information of the agent is similar to the user's evaluation, and questions the reason for the evaluation when the setting preference information is different from the user's evaluation, any one of (1) to (11) The information processing apparatus according to item.
  • the generation unit according to any one of (1) to (12), wherein the generation unit generates question voice data for asking questions about unregistered preference information regarding the content among the stored user preference information. Information processing device.
  • the information processing apparatus according to any one of (1) to (13), wherein the generation unit determines whether to continue generating the question voice data according to a user's response to the question.
  • (15) Processor Extracting the user's assessment of the content based on the user's utterance content about the content; Generating question voice data for further obtaining the user's preference information for the content based on the extracted evaluation; Including an information processing method.
  • Agent device 2 Server 3 Display device 4 Content DB 5 Network 10
  • Control Unit 11 Communication Unit 12 Audio Input Unit 13
  • Camera 14 Biosensor 15
  • Storage Unit 20 Control Unit 21
  • Communication Unit 22 User Information DB 23
  • Evaluation DB 24 Question utterance DB 25
  • Voice recognition part 202 User state recognition part 203
  • Speech analysis part 204
  • Content detection part 205
  • Evaluation extraction part 206
  • Speech generation part 208 Stance setting part 209

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能な情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、ユーザの発話音声を解析し、ユーザの質問に対して情報提供を行う音声エージェントシステムの技術が提案されている。このような音声エージェントシステムでは、ユーザの質問内容から、ユーザが興味あること等、ユーザの嗜好情報を取得することが可能である。
 コンテンツに対するユーザの嗜好情報を取得する技術としては、例えば下記特許文献1では、放送に対する視聴者フィードバックを収集し、放送に対する格付けの生成に用いる技術が開示されている。
特開2010-252361号公報
 しかしながら、上記特許文献1に記載の技術は、コンテンツ視聴終了直後にユーザへの質問表を提供するため、ユーザの視聴や視聴後の余韻を妨げてしまう恐れがあった。
 そこで、本開示では、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能な情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、を備える、情報処理装置を提案する。
 本開示によれば、プロセッサが、コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出することと、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成することと、を含む、情報処理方法を提案する。
 本開示によれば、コンピュータを、コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、として機能させるための、プログラムを提案する。
 以上説明したように本開示によれば、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態による情報処理システムの概要について説明する図である。 本実施形態によるエージェント装置の構成の一例を示すブロック図である。 本実施形態によるサーバの構成の一例を示すブロック図である。 本実施形態による音声エージェントの応答処理を示すフローチャートである。 本実施形態による評価対象コンテンツの検出処理を示すフローチャートである。 本実施形態による評価抽出処理を示すフローチャートである。 本実施形態によるエージェントスタンスの設定処理を示すフローチャートである。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による情報処理システムの概要
 2.構成
  2-1.エージェント装置1の構成
  2-2.サーバ2の構成
 3.動作処理
  3-1.応答処理
  3-2.エージェントスタンスの設定処理
 4.補足
 5.まとめ
 <<1.本開示の一実施形態による情報処理システムの概要>>
 図1は、本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による情報処理システムでは、エージェント装置1により、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することを可能とする。
 エージェント装置1は、音声出力部(スピーカ)および音声入力部(マイクロホン)を有し、周辺のユーザの発話音声を集音し、応答音声を出力する音声エージェント機能を有する。本実施形態による情報処理システムは、図1に示すように、例えばエージェント装置1およびサーバ2を含むクライアントサーバ型であってもよく、発話音声の分析および応答音声の生成がサーバ2側で行われてもよい。エージェント装置1は、有線または無線によりネットワーク上のサーバ2と通信接続し、集音した発話音声(生データ、若しくは特徴量の抽出等所定の処理を行った処理データ)を送信したり、サーバ2から受信した応答音声を音声出力したりする。
 また、エージェント装置1の外観形状は図1に示す例に限定されない。図1では、一例として簡易的に円柱形状により形成され、側面にLED(Light Emitting Diode)等の発光部(または表示部)が設けられている。
 (背景)
 ここで、従来の音声エージェントシステムでは、ユーザの質問内容からユーザが興味あること等、ユーザの嗜好情報を取得することが可能であったが、自発的により多くの嗜好情報や確定的な嗜好情報を自然な会話で取得することは困難であった。通常、コンテンツに関する発話をユーザが単独で発することは少なく、複数ユーザで対話している際にコンテンツについて話をすることが自然である。コンテンツ視聴直後等に、音声エージェントがコンテンツに関する質問を一方的にユーザに行うことは、自然な会話状況とは言えず、視聴後の余韻を邪魔してしまう恐れがあった。
 そこで、本開示による情報処理システムは、ユーザ(一人または複数)がコンテンツに関して会話を行っている際に、自然に会話に参加し、コンテンツに関するユーザの嗜好情報を取得するための質問音声データを出力する。
 例えば、図1に示すように表示装置3で旅番組を見ているユーザAとユーザBが、「ここいいなぁ」「行ってみたいね」と、旅番組で特集されている場所について話している際、サーバ2は、エージェント装置1により集音したこれらの会話内容と、コンテンツDB4から取得した当該旅番組のメタデータに基づいて、評価対象(コンテンツ)に関する評価を抽出する。
 例えば旅番組が「プーケット」に関するものである場合、サーバ2は、ユーザAの「ここいいなぁ」という発話音声から、ユーザAのプーケットに対するポジティブな評価(肯定的な評価)を抽出し、さらにユーザBの「行ってみたいね」というユーザAに同意する発話音声から、ユーザBのプーケットに対するポジティブな評価を抽出する。そして、サーバ2は、これらの評価を嗜好情報として蓄積すると共に、さらにプーケットのどのような所が好きか、コンテンツに関するより詳細な嗜好情報を取得するための質問音声(例えば、『特にどんな所が好きなの?』)をエージェント装置1から出力させる。ユーザはコンテンツについて会話している最中であるため、エージェント装置1からの質問音声に対しても自然に応答することが期待できる。また、サーバ2は、ユーザの評価に共感するセリフ(例えば、『ほんとに素敵な所だね』)を質問音声に加えることで、ユーザとの会話を盛り上げることも可能である。
 なお、上述したユーザとの応答は一例であって、サーバ2は、ユーザの曖昧な会話を盛り上げて、より確実に嗜好情報を取得することが可能となる。
 以上、本開示の一実施形態による情報処理システムについて説明した。続いて、本実施形態による情報処理システムに含まれる各装置の具体的な構成について図面を参照して説明する。
 <<2.構成>>
  <2-1.エージェント装置1の構成>
 図2は、本実施形態によるエージェント装置1の構成の一例を示すブロック図である。図3に示すように、エージェント装置1は、制御部10、通信部11、音声入力部12、カメラ13、生体センサ14、音声出力部15、プロジェクタ16、および記憶部17を有する。
 制御部10は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェント装置1内の動作全般を制御する。制御部10は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部10は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 本実施形態による制御部10は、音声入力部12、カメラ13、生体センサ14から入力された情報を、通信部11からネットワーク5を介してサーバ2へ送信するよう制御する。また、制御部10は、サーバ2から受信した発話音声データを音声出力部15から音声出力する音声エージェント機能を有する。また、制御部10は、サーバ2から受信した画像データをプロジェクタ16から投影して情報提示することも可能である。さらに、制御部10は、通信部11により家庭のWi-Fi等、ホームネットワークに接続し、ユーザからの要求に従って、部屋の表示装置に提示情報を表示したり、オーディオ装置等から音楽を流したり、テレビレコーダーに録画予約を指示したり、空調設備を制御したりすることも可能である。
 通信部11は、有線または無線によりネットワーク5と接続し、ネットワーク上のサーバ2とデータの送受信を行う。通信部11は、例えば有線/無線LAN(Local Area Network)、またはWi-Fi(登録商標)、携帯通信網(LTE(Long Term Evolution)、3G(第3世代の移動体通信方式))等によりネットワーク5と通信接続する。また、通信部11は、例えばWi-Fi等によりホームネットワークと接続したり、Bluetooth(登録商標)等により周辺の外部機器と接続したりすることも可能である。
 音声入力部12は、マイクロホンと、そのマイクロホンで得られた音声信号を増幅処理するマイクアンプ部と、音声信号にデジタル変換するA/D変換器により実現され、音声信号を制御部10に出力する。音声入力部12は、例えば全方位マイクロホンにより実現され、周辺のユーザの発話音声を集音する。
 カメラ13は、撮像レンズを含むレンズ系、レンズ系に対して動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。カメラ13は、例えばユーザの顔画像(表情)を撮像する。
 生体センサ14は、接触または非接触によりユーザの生体情報を取得する機能を有する。生体センサの構成は特に限定しないが、例えば非接触の生体センサとしては、電波を用いて脈拍や心拍を検出するセンサが挙げられる。
 音声出力部15は、音声信号を再生するスピーカと、スピーカに対するアンプ回路を有する。音声出力部15は、例えば全方位スピーカにより実現され、エージェントの音声を出力する。
 プロジェクタ16は、画像を壁やスクリーンに投影する機能を有する。
 記憶部17は、制御部10の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。
 以上、本実施形態によるエージェント装置1の構成について具体的に説明した。なおエージェント装置1の構成は、図2に示す例に限定されない。例えば、エージェント装置1は、カメラ13、生体センサ14、またはプロジェクタ16を有さない構成であってもよい。
  <2-2.サーバ2の構成>
 図3は、本実施形態によるサーバ2の構成の一例を示すブロック図である。図3に示すように、サーバ2は、制御部20、通信部21、ユーザ情報DB(データベース)22、評価語DB23、質問発話文DB24、およびエージェントスタンスDB25を有する。
 (制御部20)
 制御部20は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ2内の動作全般を制御する。制御部20は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部20は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部20は、音声認識部201、ユーザ状態認識部202、発話分析部203、コンテンツ検出部204、評価抽出部205、コンテンツ嗜好管理部206、発話生成部207、スタンス設定部208、および出力制御部209としても機能する。
 音声認識部201は、エージェント装置1により集音された送信されたユーザの発話音声の認識処理(テキスト化)を行い、認識結果(ユーザ発話音声テキスト)を発話分析部203に出力する。
 ユーザ状態認識部202は、エージェント装置1により取得したユーザの撮像画像や生体情報に基づいて、ユーザの状態(行動、動作、視線、表情、感情等)を認識し、認識結果をコンテンツ検出部204および評価抽出部205に出力する。なおユーザの撮像画像は、ユーザ周辺に設置されたカメラにより撮像され、ホームネットワークを介してエージェント装置1が取得したものであってもよい。
 発話分析部203は、音声認識部201により認識されたユーザ発話音声テキストを分析する。例えば発話分析部203は、形態素解析や品詞分解により音声テキストを単語に分割し、構文解析、文脈解析、意味解析等により文意を解釈し得る。
 コンテンツ検出部204は、発話分析部203による解析結果に基づいて、ユーザの発話音声における評価対象物(コンテンツ)を検出(特定)する機能を有する。例えばコンテンツ検出部204は、コンテンツ視聴中におけるユーザの会話に、評価対象を示す単語(例えば、「このドラマ」、「ここ」「これ」「あれ」等の指示代名詞)がある場合、再生中のコンテンツ(映像、音楽、テレビ番組等)の情報を参照して、評価対象となるコンテンツを特定し得る。再生中のコンテンツの情報は、エージェント装置1から取得してもよいし、ネットワーク上のコンテンツDB4から取得してもよい。
 また、コンテンツ検出部204は、評価対象のコンテンツを、ユーザの発話音声から特定する他、ユーザのジェスチャーや視線等のユーザ状態も考慮して特定することも可能である。例えばコンテンツ検出部204は、発話分析部203による解析結果と、ユーザ状態認識部202の認識結果に基づいて、ユーザが何かを指差しながら、把持しながら、または視線を向けながら、「これいいよね」「あれお気に入りなの」等と会話している場合、ユーザが指差している物、把持している物、または視線を向けている物を、評価対象のコンテンツとして検出する。また、複数ユーザが会話している場合は、どちらかが把持している物や、複数ユーザが視線を向けている物を、評価対象のコンテンツとして検出するようにしてもよい。
 評価抽出部205は、発話分析部203による解析結果またはユーザ状態認識部202の認識結果に基づいて、評価を抽出する。具体的には、評価抽出部205は、発話分析部203により解析された単語から所定の形容詞、副詞、感嘆詞等を評価語として抽出し、コンテンツに対するユーザのポジティブ評価、ネガティブ評価を判定する。評価抽出部205による評価の抽出は、ポジティブ/ネガティブの2値判定に限定されず、その度合い(すなわち、ポジティブ度合い、ネガティブ度合い)を判定するようにしてもよい。また、評価語は、評価語DB23に予め登録されていてもよいし、ユーザの過去の言い回しから抽出したものであってもよい。さらに、評価抽出部205は、会話中のユーザの表情(顔画像認識)や感情(生体情報、顔画像認識)から評価を抽出することも可能である。例えば評価抽出部205は、コンテンツを視聴中にユーザが顔をしかめている場合はネガティブ評価、笑っている場合はポジティブ評価として判定する。
 また、評価抽出部205は、一のユーザの評価に他のユーザが同意を示す場合、当該他のユーザも同じ評価をしているとみなして嗜好情報を登録するようにしてもよい。
・対話例(同意する場合)
 ユーザA:「ねぇ、これってさぁ」(何かを指差したり、視線を向けながら。サーバ2はコンテンツを特定)
 ユーザB:「あー、いいよね」(サーバ2はポジティブ評価を登録)
 ユーザA:「そうだよね」(同意しているため、サーバ2はポジティブ評価を登録)
 エージェント:『○○(特定したコンテンツ)いいですよね。』/『○○、どんな所が良いですか?』
・対話例(非同意の場合)
 ユーザA:「ねぇ、これってさぁ」(何かを指差したり、視線を向けながら。サーバ2はコンテンツを特定)
 ユーザB:「あー、いいよね」(サーバ2はポジティブ評価を登録)
 ユーザA:「いや、そうでもないよ」(非同意のため、サーバ2はネガティブ評価を登録)
 エージェント:『Aさんは○○(特定したコンテンツ)はどうして好みじゃないのですか?』(ユーザAに評価理由を質問)
 ユーザA:「“・・・・(理由)”だからだよ」(サーバ2は、ユーザAの評価理由を登録)
 エージェント:『Bさんは○○(特定したコンテンツ)のどこが好きですか?』(ユーザBに評価理由を質問)
 ユーザB:「“・・・・(理由)”だからだよ」(サーバ2は、ユーザBの評価理由を登録)
 エージェント:『なるほど。ちなみに□□□はどうですか?』(サーバ2は、関連するコンテンツの評価を質問し、会話を続ける。)
 コンテンツ嗜好管理部206は、ユーザ情報DB22に格納されるユーザのコンテンツに対する嗜好情報(コンテンツ嗜好)の管理を行う。具体的には、コンテンツ嗜好管理部206は、コンテンツ検出部204により検出されたコンテンツ(評価対象物)に対する、評価抽出部205により抽出されたユーザ評価を、ユーザ情報DB22に格納する。
 発話生成部207は、発話分析部203による分析結果に応じて、ユーザの発話に対するエージェントの応答発話音声データを生成する。また、発話分析部203は、ユーザが会話しているコンテンツに関するユーザの嗜好情報をさらに取得するための質問発話音声データを生成することも可能である。例えば発話分析部203は、ユーザ評価に基づいて、さらなる嗜好情報を取得するための質問発話を生成する。具体的には、ユーザ評価がポジティブ評価の場合はポジティブ共感を示すと共に、評価の理由を質問する。また、ユーザ評価がネガティブ評価の場合はネガティブ共感を示すと共に、評価の理由を質問する。また、発話分析部203は、コンテンツに関連する、不足するユーザ嗜好情報(項目)を埋める質問発話を生成してもよい。不足項目は、コンテンツ嗜好管理部206から取得され得る。また、発話生成部207は、評価の確定度が低い(曖昧な評価であった)場合、評価をより確実なものとする質問発話(本当に好きなのか/嫌いなのか)を生成してもよい。例えば、グルメ番組を見ている複数ユーザの下記のような対話内容だけでは嗜好が判断し難い場合に、評価を確定するための質問を行う。
・対話例(グルメ番組を見ながら);
 ユーザA:「わー、みてみて!これ」
 ユーザB:「なになに?え、すごい豪華だね」
 ユーザA:「すごいよね」
 エージェント:『お寿司、美味しそうですね。お寿司は好きですか?』(評価対象「お寿司」をグルメ番組のメタデータから取得し、評価語「わー!」「すごい」からポジティブ評価の可能性が高いが確定できない場合、質問を行う)
 ユーザA:「好きだよー。」
 ユーザB:「私は苦手なんだよね」
 エージェント:『そうなんですね。Bさんはどうしてお寿司が苦手なんですか?』(ユーザAの嗜好情報として「お寿司が好き」を登録し、ユーザBの嗜好情報として「お寿司が苦手」を登録し、さらに嗜好情報を取得するための質問を続ける)
 ユーザB:「生魚が苦手なの。加熱しているネタのお寿司は大丈夫」
 エージェント:『なるほど。Aさんはどんなお寿司が好きなのですか?』(ユーザBの嗜好情報として「生魚が苦手」「加熱しているネタのお寿司は大丈夫」を新たに登録する。その後も質問を続ける)
 また、発話生成部207は、例えば質問発話文DB24に登録された質問発話テンプレート等を参照して質問発話音声データを生成する。若しくは、発話生成部207は、所定のアルゴリズムを用いて質問発話音声データを生成してもよい。
 また、発話生成部207は、質問音声データを生成する際に、ユーザの評価に共感するセリフを加えて発話音声データを生成してもよい。例えば、ユーザの評価がポジティブであればポジティブ共感、ネガティブであればネガティブ共感を行うようにしてもよい。例えば、ユーザがポジティブな評価を行った場合は『いいよね』とポジティブ共感し、ネガティブな評価を行った場合は『嫌だよね』とネガティブ共感するようにしてもよい。また、この際、予め評価語の品詞や単語の種類に応じて共感セリフを定義しておいてもよい。例えば、ユーザが「いいね」と発話した場合は『そうだね』、ユーザが「すごい」と発話した場合は『ほんとすごい』と応答するように定義しておいてもよい。また、発話生成部207は、ユーザのポジティブ/ネガティブ評価に対して理由を質問するようにしてもよい。例えば、ユーザがコンテンツに関してポジティブ/ネガティブ評価した場合、『そうなの?どうしてどうして?』と理由を質問する応答を行う。ユーザの評価に共感したり、理由を質問することでユーザの会話を盛り上げ、さらに嗜好情報を聞き出すことが可能となる。例えば発話生成部207は、ユーザ評価しているコンテンツに関連するコンテンツへの評価を聞き出す応答を行ってもよい。例えば、ユーザがアーティストXの音楽についてポジティブな評価を行っている場合に、『そうだね。アーティストYの○○(曲名)もいいよね』と応答することで、さらにアーティストYに対するユーザ評価を取得することが可能となる。
 また、発話生成部207は、コンテンツについて対話を行っている複数ユーザの評価が一致する場合は共感を示したり評価理由を質問し、複数ユーザの評価が一致しない場合は、いずれかのユーザに評価理由を質問するようにしてもよい。
・対話例(評価が一致する場合)
 ユーザA:「これ、いいよね」(化粧品のCMを見ながら)
 ユーザB:「私もそう思う」
 エージェント:『いいですよね』/『○○(化粧品の製品名)ですか?どんな所が良いですか?』
・対話例(評価が一致しない場合)
 ユーザA:「これ、いいよね」(化粧品のCMを見ながら)
 ユーザB:「そうかなぁ」
 エージェント:『○○(化粧品の製品名)ですか?Bさんはなぜ好きではないのですか?』
 また、発話生成部207は、コンテンツについて対話を行っている複数ユーザのうち、評価を行っていないユーザがいる場合は当該ユーザに発話を促す応答を行うようにしてもよい。例えば以下のような対話例が想定される。
 ・対話例(旅番組を見た後)
 ユーザA:「いいなあ、プーケット」
 (サーバ2は、番組のメタデータから、ユーザが視聴した旅番組の内容がプーケットに関するものであることを把握し、評価対象のコンテンツが「プーケット」であると特定する。また、プーケットについてユーザAのポジティブ評価を登録する。
 ユーザB:「だよね、行きたいね」
 (サーバ2は、同じ対象についてユーザAと同じポジティブ評価を抽出し、ユーザBの嗜好情報として登録)
 (サーバ2は、ユーザAとユーザBの視線や発話の間から会話継続の意図を検出し、発話すべきタイミングと判断し、質問発話音声データを生成し、出力する。具体的には複数ユーザの評価一致しているため共感を示し、さらに対話に無かった評価理由を質問する。)
 エージェント:『プーケット魅力的だね。どんなところがいいの?』
 ユーザA:「のんびりできそうだからね」
 (サーバ2は、ユーザAの嗜好情報(プーケットを好きな理由)を登録)
 エージェント:『Bさんもそう思う?』(ユーザBが答えなかったため、ユーザBに会話を促す)
 ユーザB:「どっちかというと料理かな」
 (サーバ2は、ユーザBの嗜好情報(プーケットを好きな理由)を登録)
 (サーバ2は、間が空いたためまだ対話が続くと予測し、発話すべきタイミングと判断する)
 エージェント:『料理、魅了的ですよね』
 ユーザA:「そろそろ、食事にする?」
 (コンテンツに関する発話ではないため、サーバ2は次の発話を待つ)
 また、エージェントスタンスが設定されている場合、発話生成部207は、エージェントスタンスを考慮して応答を行うようにしてもよい。具体的には、エージェントスタンスがユーザの評価と一致する場合には共感し、異なる場合は評価理由を聞くようにしてもよい。これにより、異なる評価を行っているユーザそれぞれに共感して矛盾してしまうことを回避することができる。
 また、発話生成部207は、さらなる嗜好情報を取得するため、粒度(カテゴリーや分類)の異なる質問を生成してもよい。例えば、上述したコンテンツ自体に関する質問の他、当該コンテンツのカテゴリー自体に関する質問や、当該コンテンツのメタデータに関する質問(特にユーザ情報DB22に未登録の情報)を生成し得る。例えばコンテンツがドラマである場合、当該ドラマの評価理由を質問する他、当該ドラマのカテゴリー、例えば、「刑事ドラマが好きなの?」「医療ドラマが好きなの?」等のドラマのジャンルの好みを質問してもよい。また、当該ドラマのメタデータ、例えば、「主役の俳優さんが好きなの?」「主題歌が好きなの?」「時代設定が好きなの?」「原作者が好きなの?」等のドラマの登場人物や挿入歌、舞台、原作等の好みを質問してもよい。
 また、発話生成部207は、しつこく質問することを避けるため、質問回数の上限を設定してもよい。また、発話生成部207は、質問したときのユーザの反応(よそ見をする、沈黙する、嫌な顔をする等)に基づいて、質問を継続するか否かを判断するようにしてもよい。
 また、発話生成部207は、マルチモーダルな表現でユーザの反応を取得する質問を生成してもよい。具体的には、例えば発話生成部207は、設定されたエージェントスタンスを参照してエージェントの意見を言って会話を促したり、対話に参加していない他者(他の家族の過去の発言や、インターネット上の他者の発言など)の意見を提示して会話を促したりしてもよい(例えば、『Cさんは“・・・・・”って言っていたけど、Aさんはどう思う?』など)。
 また、発話生成部207は、ユーザがネガティブな評価を示した場合、評価理由を聞くだけではなく、別のコンテンツを明示して評価を尋ねてもよい。以下、対話例を示す。
・対話例(リゾート特集の番組を見ながら)
 ユーザA:「ビーチリゾートってあんまり好きじゃないなー」
 (サーバは、ビーチリゾートについてネガティブな評価をユーザAの嗜好情報として登録し、評価理由を尋ねる質問と、他のコンテンツについての反応を得る質問を行う。)
 エージェント:『そうなんですか。どうしてですか?世界遺産は興味ありますか?』
 スタンス設定部208は、エージェントのスタンスを設定する機能を有する。エージェントスタンスとは、エージェントの嗜好情報であって、あるコンテンツに対してポジティブな評価をするスタンスであるか、ネガティブな評価をするスタンスであるかが設定され得る(エージェントのキャラクター設定)。設定されたエージェントスタンスの情報は、エージェントスタンスDB25に格納される。また、スタンス設定部208はユーザとの対話をエージェントスタンスに影響させて徐々に変更させてもよい。例えば、あるコンテンツは好みではないというスタンスである場合に、ポジティブな評価を行うユーザに対して理由を尋ね、ユーザとの会話を続けるうちにスタンスを変更し、『なるほど。少し好きになってきたよ』と応答してもよい。
 出力制御部209は、発話生成部207により生成された発話音声データを、エージェント装置1から音声出力するよう制御する機能を有する。具体的には、出力制御部209は、発話音声データを通信部21からエージェント装置1に送信し、音声出力するよう指示する。また、出力制御部209は、所定のタイミングで音声出力するよう制御することも可能である。例えば、出力制御部209は、複数ユーザの会話が盛り上がっている場合(笑い声が途切れない、声のボリュームが大きい、会話中、会話の間が短い、会話のテンポが早い場合等)は質問しないようにして、会話が落ち着いた際(会話の間が所定の長さになった場合等)に質問するようにしてもよい。また、出力制御部209は、会話が盛り上がっておらず、会話のテンポが悪く、途切れがちな場合は、質問せず、次にタイミングが良い時に出力するようにしてもよい。後から質問する際は、例えば出力制御部209は、コンテンツ体験から1日以内等、ユーザがコンテンツ体験を忘れないタイミングで質問するようにしてもよいし、ユーザがリラックスしている場合や忙しくしていない場合に、『この前話してた○○○(コンテンツ)って、どういう所が好きなの?』、『この前見ていた○○○はどうして嫌いなの?』等と質問してもよい。また、ユーザからスケジュールやニュース等が質問された際に、応答する共に質問するようにしてもよい。例えば、ユーザからのスケジュール要求(「今日のスケジュールは?」)に対して、『今日のスケジュールは○時から○○の予定です。そういえばこの前話してた□□□は本当に良いよね。』と応答し、評価が曖昧であったコンテンツに対してより確実な嗜好情報を取得することも可能である。
 (通信部21)
 通信部21は、有線または無線によりネットワーク5と接続し、ネットワーク5を介してエージェント装置1とデータの送受信を行う。通信部21は、例えば有線/無線LAN(Local Area Network)、またはWi-Fi(Wireless Fidelity、登録商標)等によりネットワーク5と通信接続する。
 以上、本実施形態によるサーバ2の構成について具体的に説明した。なお本実施形態によるサーバ2の構成は、図3に示す例に限定されない。例えば、サーバ2の構成の一部は、外部装置に設けられていてもよい。また、サーバ2の制御部20の機能構成の一部または全ては、エージェント装置1が有していてもよい。
 <<3.動作処理>>
 続いて、本実施形態による情報処理システムの動作処理について図4~図7を用いて具体的に説明する。
  <3-1.応答処理>
 図4は、本実施形態による音声エージェントの応答処理を示すフローチャートである。図4に示すように、まず、サーバ2は、エージェント装置1で集音されたユーザ対話音声を、音声認識部201により音声認識し(ステップS104)、発話分析部203により、発話分析する(ステップS106)。
 次に、サーバ2の制御部20は、ユーザの対話内容がコンテンツ(何らかの評価対象物)に関する発話であるか否かを判断する(ステップS109)。
 次いで、コンテンツに関する発話である場合(ステップS109/Yes)、サーバ2の制御部20は、コンテンツ検出部204により、発話内容やユーザのジェスチャー、または視線等に基づいて、評価対象であるコンテンツを検出(特定)する(ステップS112)。
 また、制御部20は、評価抽出部205により、発話内容や表情等から当該コンテンツに関するポジティブ/ネガティブ評価(または評価理由等)を嗜好情報として抽出する(ステップS115)。ポジティブ/ネガティブを示す評価語は、予め評価語DB23に登録されており、評価抽出部205は、評価語DB23を参照してユーザ発話に含まれる評価語の分析を行うことで評価を抽出してもよいし、その都度認識するアルゴリズムを用いてもよい。また、評価抽出部205は、ユーザ発話の分析の他、ユーザの表情や感情(表情や生体情報から取得可能)を参照してユーザのコンテンツに対するポジティブ/ネガティブ評価を抽出するとこも可能である。
 次に、コンテンツ嗜好管理部206は、ユーザ情報DB22に格納されているユーザ嗜好情報(すなわち、コンテンツに関するユーザ嗜好の情報)を更新する(ステップS118)。
 次いで、コンテンツ嗜好管理部206は、ユーザ嗜好情報に不足する情報(データ項目)があるか否かを判断する(ステップS121)。
 次に、不足する情報がある場合(ステップS121/Yes)、サーバ2の制御部20は、発話すべき状況で有れば(ステップS124/Yes)、発話生成部207により質問発話の生成を行い、出力制御部209によりエージェント装置1から出力するよう制御する(ステップS127)。発話すべき状況であるか否かは、例えばユーザの状態(視線や行動)、発話の間、盛り上がり度合い等に基づいて判断される。また、ここでは一例としてユーザ情報DB22に登録されているユーザの嗜好情報のうち不足する情報(項目)を取得するための質問発話を生成するが、本開示はこれに限定されない。例えば発話生成部207は、上記ステップS112でコンテンツが検出できない(例えば曖昧な表現であって特定できない)場合や、ステップS115で評価が抽出できない(例えば曖昧な表現であって確定できない)場合に、コンテンツや評価を確定するための質問発話を生成してもよい(例えば、「○○(コンテンツ)のことですか?」、「○○(コンテンツ)が好きなのですか?」など)。
 一方、当該コンテンツに関し不足する嗜好情報が無い場合(ステップS121/No)、サーバ2は、発話すべき状況であれば(ステップS130)、共感を示す応答および/または次の発話を促す発話を生成し、出力する(ステップS133)。次の発話とは、例えば評価対象のコンテンツと関連する他のコンテンツに関する嗜好情報を尋ねる質問発話である(例えば、「○○(コンテンツ)が好きなんですね。□□(関連する他のコンテンツ)はどうですか?」など)。
 なお、以上説明したステップS124~S133では、発話すべき状況であるか否かを判断した後に質問発話を生成しているが、本実施形態はこれに限定されず、先に発話生成部207により質問発話を生成し、発話すべき状況を待って(待ち時間の上限を設定してもよい)出力制御部209により出力制御してもよい。
 そして、ユーザから新たな発話が発せられると(ステップS136/Yes)、上記ステップS103以降の処理を繰り返す。
 また、発話すべき状況ではない場合(ステップS124/No、ステップS130/No)、応答処理が終了する(新たな発話を待つ)。
 (評価対象コンテンツの検出処理)
 次に、上記ステップS112に示す評価対象コンテンツの検出処理について、図5を参照して詳細に説明する。図5は、本実施形態による評価対象コンテンツの検出処理を示すフローチャートである。
 図5に示すように、まず、サーバ2のコンテンツ検出部204は、分析されたユーザ発話の中にコンテンツを示す単語があるか否かを判断する(ステップS153)。
 次に、コンテンツを示す単語がある場合(ステップS153/Yes)、コンテンツ検出部204は、当該単語がコンテンツDB4にあるか否かを判断する(ステップS156)。コンテンツDB4は、外部サーバに設けられた番組情報データベースであってもよいし、サーバ2が有するコンテンツ辞書データベース(コンテンツの名称が予め登録されたデータベース。不図示)であってもよい。
 次いで、単語がコンテンツDB4にある場合(ステップS156/Yes)、コンテンツ検出部204は、評価対象コンテンツを特定する(ステップS159)。なおコンテンツ検出部204は、必要に応じて特定したコンテンツの情報をコンテンツDB4から取得してもよい。
 一方、発話中にコンテンツを示す単語がない場合(ステップS153/No)、またはコンテンツを示す単語が指示語である場合(ステップS162/Yes)、コンテンツ検出部204は、ユーザ状態の認識結果に基づいて、ユーザの視線検出(ステップS165)、指差し検出(ステップS168)、または把持物の検出(ステップS171)を行い、ユーザが示している評価対象コンテンツを特定する(ステップS174)。
 そして、評価対象コンテンツが特定できた場合(ステップS174/Yes)、コンテンツ検出処理が終了する。
 なお、評価対象コンテンツが特定できない場合(ステップS174/No)、応答処理が終了する。若しくは、上述したように、評価対象コンテンツを特定するための質問を生成するようにしてもよい。
 (質問発話の生成)
 次いで、上記ステップS127に示す質問発話の生成処理について、図6を参照して詳細に説明する。図6は、本実施形態による評価抽出処理を示すフローチャートである。
 図6に示すように、まず、発話生成部207は、評価抽出部205により抽出されたポジティブ/ネガティブ評価を取得する(ステップS183)
 次に、ユーザ評価がポジティブ評価だった場合(ステップS186/ポジティブ)、発話生成部207は、ポジティブ共感および/または理由を質問する発話(例えば『いいよね』、『素敵だよね。特にどんな所が好き?』など。)を生成する(ステップS189)。
 一方、ネガティブ評価の場合だった場合(ステップS186/ネガティブ)、発話生成部207は、ネガティブ共感および/または理由を質問する発話(例えば『嫌だよね』、『面白くないね。特にどこがつまらなかった?』など。)を生成する(ステップS192)。
  <3-2.エージェントスタンスの設定処理>
 続いて、本実施形態によるエージェントスタンスの設定処理について図7を参照して説明する。上述したように、本実施形態によるサーバ2は、スタンス設定部208により、エージェントスタンスの設定を行い、エージェントスタンスを参照した質問発話を生成することが可能である。
 図7は、本実施形態によるエージェントスタンスの設定処理を示すフローチャートである。図7に示すように、まず、サーバ2の制御部20は、評価抽出部205により評価語の分析を行い(評価抽出)(ステップS203)、ユーザ評価がエージェントのスタンスと合っているか否かを判断する(ステップS206)。
 次に、ユーザ評価がエージェントのスタンスと一致しない場合(ステップS206/No)、制御部20は、発話生成部207により、ポジティブ評価/ネガティブ評価の理由を質問する発話を生成し、出力制御部209によりエージェント装置1から音声出力するよう制御する(ステップS209)。
 次いで、制御部20は、発話分析部203により、ユーザの回答を分析し(ステップS212)、スタンス設定部208により、エージェントのスタンスを変更するか否かを判断する(ステップS215)。スタンス変更の条件は特に限定しないが、例えば予め設定したルールに従って判断され得る。具体的には、例えばユーザの評価理由が具体的なものである場合や、評価理由が多数挙げられた場合に、エージェントスタンスを変更するようにしてもよい。また、コンテンツが音楽の場合、ユーザが何度も当該音楽を聞いている場合、エージェントスタンスを変更するようにしてもよい。
 次に、エージェントスタンスを変更する場合(ステップS215/Yes)、スタンス設定部208は、エージェントスタンスの変更を行う(エージェントスタンスDB25の更新)。また、制御部20は、変更したことをユーザに伝える応答(例えば『良い曲だね。何度も聴いているうちに好きになってきたよ』(ネガティブスタンスからポジティブスタンスへの変化)、『なるほど。やっぱり私も嫌いかも』(ポジティブスタンスからネガティブスタンスへの変化)など)を生成して出力してもよい。
 一方、ユーザ評価がエージェントのスタンスと一致している場合(ステップS206/Yes)、制御部20は、発話生成部207により、ポジティブ評価/ネガティブ評価に共感する応答発話を生成し、出力制御部209によりエージェント装置1から音声出力するよう制御する(ステップS221)。なお制御部20は、理由を質問する発話をさらに行ってもよい。
 <<4・補足>>
 以上、本実施形態の情報処理システムについて詳細に説明した。以下、上記実施形態について補足を行う。
 音声エージェントの質問発話は、エージェント装置1から音声出力する場合に限定されず、例えばエージェントの応答文を表示または投影するようにしてもよい。
 また、ユーザがコンテンツを視聴する前に質問を行ってもよい。例えばユーザがサスペンスドラマを見ようとしている場合(ユーザ状態の認識)、サーバ2は、『サスペンス好きなの?』という質問発話をエージェント装置1から出力する。
 また、ニュース等他の情報と組み合わせてユーザに質問してもよい(例えば、『最近○○ってドラマが話題だけど、どう思う?』など)。
 また、サーバ2は、ユーザのポジティブ/ネガティブ反応(発話内容の他、ジェスチャー、表情、視線の動き等のユーザ状態も含む)を蓄積し、ユーザから明示的な返答が無い場合にもポジティブ/ネガティブ評価を予測することが可能である。この場合、サーバ2は、予測した評価が正しいかをユーザに質問する発話(例えば『この歌あまり好きそうじゃないね』など)を行い、より確定的な嗜好情報を取得し得る。
 また、ポジティブ/ネガティブ反応は個人差があるため(反応が大きい人と小さい人が想定される)、サーバ2は、個人の特徴を考慮して評価を抽出する。
 また、サーバ2は、ユーザの他のユーザの評価に同調した場合の評価は、確定の度合いを低く(重みを小さく)する。複数ユーザで対話している場合、本当は異なる意見であるが周りに同調してしまっている可能性もあるためである。また、ユーザが一人でいるときと複数でいるときとで質問の仕方や内容を変えるようにしてもよい。
 また、ユーザの状況に応じてさらに嗜好情報が取得できそうな場合はさらに質問を継続し、ユーザが疲れている様子であったら少なくする。また、ユーザの状況(疲れている、忙しい、リラックスしている、暇な時間等)は、生体情報、発話(発話内容、発話テンポ、声量等)、時間帯、または曜日等から判断される。
 また、ユーザの嗜好情報を取得して目的が達成した後も対話を継続してもよい。例えば、共感を示して次の発話を促すだけの発話(例えば『それはすごいね。他には?』など)であってもよい。
 また、サーバ2は、コンテンツによって質問するタイミングを制御してもよい。例えばコンテンツが放送番組の場合は、CM中に質問したり、コンテンツが音楽の場合は、曲が切り変わる時に、コンテンツに関する評価を質問するようにしてもよい。
 また、1つのエージェント装置1に複数のエージェント(キャラクー、人格)を設定してもよい。各エージェントにスタンスを設定し、ユーザ評価と一致するエージェントを登場させるようにしてもよい。
 <<5.まとめ>>
 以上説明したように、本開示の実施形態による情報処理システムでは、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能となる。
 また、ユーザ評価に共感を示したり、関連するコンテンツの対話を促したり、評価していないユーザの発話を促したり等、さりげない会話で複数ユーザの対話に混ざって会話を盛り上げ、さらなる嗜好情報を取得することが可能である。
 また、本実施形態では、発話の間や盛り上がりを考慮して質問のタイミングを制御することで、ユーザの会話を邪魔することなく、エージェントが自然に会話に参加し、会話を継続させることが可能となる。従来のような一方的な情報提示とは異なり、ユーザと音声エージェントとの快適な(ストレスのない)会話(やり取り)を実現することができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述したエージェント装置1、またはサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、エージェント装置1、またはサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
 前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
を備える、情報処理装置。
(2)
 前記評価抽出部は、複数ユーザの対話内容から前記コンテンツに対する各ユーザの評価を抽出する、前記(1)に記載の情報処理装置。
(3)
 前記生成部は、前記嗜好情報として、前記ユーザの評価の理由を尋ねる質問音声データを生成する、前記(1)または(2)に記載の情報処理装置。
(4)
 前記生成部は、前記コンテンツに対する前記ユーザの評価に共感する発話を含む質問音声データを生成する、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
 前記評価抽出部は、前記発話内容の分析結果から評価対象物であるコンテンツに関する評価語を取得し、評価を抽出する、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
 前記評価抽出部は、さらに前記ユーザの表情、感情、視線、またはジェスチャーの少なくともいずれかに基づいて、前記コンテンツに対する前記ユーザの評価を抽出する、前記(1)~(5)のいずれか1項に記載の情報処理装置。
(7)
 前記生成部は、前記コンテンツに対する複数ユーザの評価が一致しない場合、ポジティブ評価またはネガティブ評価のいずれかに共感した上で前記嗜好情報として評価理由を質問する質問音声データを生成する、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
 前記生成部は、複数ユーザのうち前記コンテンツに対する評価を発話していないユーザに対して前記コンテンツの評価を質問する質問音声データを生成する、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
 前記情報処理装置は、
 前記生成した質問データを音声出力するよう制御する出力制御部をさらに備える、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(10)
 前記出力制御部は、複数ユーザの対話の状況を判断し、所定のタイミングで前記質問音声データを音声出力するよう制御する、前記(9)に記載の情報処理装置。
(11)
 前記評価抽出部は、前記ユーザと対話する他のユーザが、前記ユーザの評価に同意したか否かに応じて、当該他のユーザの評価を抽出する、前記(1)~(10)のいずれか1項に記載の情報処理装置。
(12)
 前記生成部は、エージェントの設定嗜好情報が前記ユーザの評価と類似する場合は共感し、異なる場合は評価理由を質問する質問音声データを生成する、前記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
 前記生成部は、記憶された前記ユーザの嗜好情報のうち、前記コンテンツに関する未登録の嗜好情報を質問する質問音声データを生成する、前記(1)~(12)のいずれか1項に記載の情報処理装置。
(14)
 前記生成部は、質問に対するユーザの反応に応じて、質問音声データの生成を継続するか否かを判断する、前記(1)~(13)のいずれか1項に記載の情報処理装置。
(15)
 プロセッサが、
 コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出することと、
 前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成することと、
を含む、情報処理方法。
(16)
 コンピュータを、
 コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
 前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
として機能させるための、プログラム。
 1  エージェント装置
 2  サーバ
 3  表示装置
 4  コンテンツDB
 5  ネットワーク
 10  制御部
 11  通信部
 12  音声入力部
 13  カメラ
 14  生体センサ
 15  音声出力部
 16  プロジェクタ
 17  記憶部
 20  制御部
 21  通信部
 22  ユーザ情報DB
 23  評価語DB
 24  質問発話文DB
 25  エージェントスタンスDB
 201  音声認識部
 202  ユーザ状態認識部
 203  発話分析部
 204  コンテンツ検出部
 205  評価抽出部
 206  コンテンツ嗜好管理部
 207  発話生成部
 208  スタンス設定部
 209  出力制御部

Claims (16)

  1.  コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
     前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
    を備える、情報処理装置。
  2.  前記評価抽出部は、複数ユーザの対話内容から前記コンテンツに対する各ユーザの評価を抽出する、請求項1に記載の情報処理装置。
  3.  前記生成部は、前記嗜好情報として、前記ユーザの評価の理由を尋ねる質問音声データを生成する、請求項1に記載の情報処理装置。
  4.  前記生成部は、前記コンテンツに対する前記ユーザの評価に共感する発話を含む質問音声データを生成する、請求項1に記載の情報処理装置。
  5.  前記評価抽出部は、前記発話内容の分析結果から評価対象物であるコンテンツに関する評価語を取得し、評価を抽出する、請求項1に記載の情報処理装置。
  6.  前記評価抽出部は、さらに前記ユーザの表情、感情、視線、またはジェスチャーの少なくともいずれかに基づいて、前記コンテンツに対する前記ユーザの評価を抽出する、請求項1に記載の情報処理装置。
  7.  前記生成部は、前記コンテンツに対する複数ユーザの評価が一致しない場合、ポジティブ評価またはネガティブ評価のいずれかに共感した上で前記嗜好情報として評価理由を質問する質問音声データを生成する、請求項1に記載の情報処理装置。
  8.  前記生成部は、複数ユーザのうち前記コンテンツに対する評価を発話していないユーザに対して前記コンテンツの評価を質問する質問音声データを生成する、請求項1に記載の情報処理装置。
  9.  前記情報処理装置は、
     前記生成した質問データを音声出力するよう制御する出力制御部をさらに備える、請求項1に記載の情報処理装置。
  10.  前記出力制御部は、複数ユーザの対話の状況を判断し、所定のタイミングで前記質問音声データを音声出力するよう制御する、請求項9に記載の情報処理装置。
  11.  前記評価抽出部は、前記ユーザと対話する他のユーザが、前記ユーザの評価に同意したか否かに応じて、当該他のユーザの評価を抽出する、請求項1に記載の情報処理装置。
  12.  前記生成部は、エージェントの設定嗜好情報が前記ユーザの評価と類似する場合は共感し、異なる場合は評価理由を質問する質問音声データを生成する、請求項1に記載の情報処理装置。
  13.  前記生成部は、記憶された前記ユーザの嗜好情報のうち、前記コンテンツに関する未登録の嗜好情報を質問する質問音声データを生成する、請求項1に記載の情報処理装置。
  14.  前記生成部は、質問に対するユーザの反応に応じて、質問音声データの生成を継続するか否かを判断する、請求項1に記載の情報処理装置。
  15.  プロセッサが、
     コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出することと、
     前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成することと、
    を含む、情報処理方法。
  16.  コンピュータを、
     コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
     前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
    として機能させるための、プログラム。
PCT/JP2017/037875 2017-01-31 2017-10-19 情報処理装置、情報処理方法、およびプログラム WO2018142686A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780084544.2A CN110235119A (zh) 2017-01-31 2017-10-19 信息处理设备、信息处理方法及程序
JP2018565931A JP6958573B2 (ja) 2017-01-31 2017-10-19 情報処理装置、情報処理方法、およびプログラム
EP17894835.2A EP3579123A4 (en) 2017-01-31 2017-10-19 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US16/477,026 US20210280181A1 (en) 2017-01-31 2017-10-19 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017015710 2017-01-31
JP2017-015710 2017-01-31

Publications (1)

Publication Number Publication Date
WO2018142686A1 true WO2018142686A1 (ja) 2018-08-09

Family

ID=63040471

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/037875 WO2018142686A1 (ja) 2017-01-31 2017-10-19 情報処理装置、情報処理方法、およびプログラム

Country Status (5)

Country Link
US (1) US20210280181A1 (ja)
EP (1) EP3579123A4 (ja)
JP (1) JP6958573B2 (ja)
CN (1) CN110235119A (ja)
WO (1) WO2018142686A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020087234A (ja) * 2018-11-30 2020-06-04 株式会社三菱総合研究所 情報処理装置、情報処理方法及びプログラム
WO2020189340A1 (ja) * 2019-03-20 2020-09-24 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP2020166359A (ja) * 2019-03-28 2020-10-08 株式会社日本総合研究所 プログラム及び情報処理装置
JP2020201748A (ja) * 2019-06-11 2020-12-17 日本放送協会 発話生成装置、発話生成方法及び発話生成プログラム
JP2020201669A (ja) * 2019-06-07 2020-12-17 株式会社日本総合研究所 情報処理装置
WO2021070681A1 (ja) * 2019-10-10 2021-04-15 株式会社村田製作所 関心度評価システムおよび関心度評価方法
CN113168500A (zh) * 2019-01-22 2021-07-23 索尼集团公司 信息处理设备、信息处理方法及程序
JP2021117580A (ja) * 2020-01-23 2021-08-10 株式会社ミクシィ 情報処理装置、及びプログラム
WO2021230100A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2023048154A1 (ja) * 2021-09-21 2023-03-30 株式会社アイシン レコメンドシステム
WO2023163197A1 (ja) * 2022-02-28 2023-08-31 パイオニア株式会社 コンテンツ評価装置、コンテンツ評価方法、プログラム及び記憶媒体

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015852A (zh) * 2019-05-31 2020-12-01 微软技术许可有限责任公司 在关于事件的会话中提供响应
US11308110B2 (en) 2019-08-15 2022-04-19 Rovi Guides, Inc. Systems and methods for pushing content
WO2021064948A1 (ja) * 2019-10-03 2021-04-08 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010140282A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 対話装置、対話方法、対話プログラムおよび記録媒体
JP2010186237A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> 多人数思考喚起型対話装置、多人数思考喚起型対話方法、多人数思考喚起型対話プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010237761A (ja) * 2009-03-30 2010-10-21 Nikon Corp 電子機器
JP2010252361A (ja) 1998-11-04 2010-11-04 Intel Corp 放送に対する視聴者フィードバックを収集し、かつ提供するための方法および装置
JP2015035140A (ja) * 2013-08-09 2015-02-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010252361A (ja) 1998-11-04 2010-11-04 Intel Corp 放送に対する視聴者フィードバックを収集し、かつ提供するための方法および装置
JP2010140282A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 対話装置、対話方法、対話プログラムおよび記録媒体
JP2010186237A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> 多人数思考喚起型対話装置、多人数思考喚起型対話方法、多人数思考喚起型対話プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010237761A (ja) * 2009-03-30 2010-10-21 Nikon Corp 電子機器
JP2015035140A (ja) * 2013-08-09 2015-02-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATSUYAMA, YOUICHI ET AL.: "Active timing detection and strategies for multiparty conversation facilitation systems", MATERIALS OF THE 67TH SPECIAL INTEREST GROUP ON SPOKEN LANGUAGE UNDERSTANDING AND DIALOGUE PROCESSING, vol. 67, 25 January 2013 (2013-01-25), pages 17 - 24, XP009515520 *
See also references of EP3579123A4
TANAKA, TAKASHI ET AL.: "Online Query Generation from User Dialog", IEICE TECHNICAL REPORT. DE, DĒTA-KŌGAKU = DATA ENGINEERING, vol. 103, no. 191, 10 July 2003 (2003-07-10), pages 43 - 48, XP009515415 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020087234A (ja) * 2018-11-30 2020-06-04 株式会社三菱総合研究所 情報処理装置、情報処理方法及びプログラム
CN113168500A (zh) * 2019-01-22 2021-07-23 索尼集团公司 信息处理设备、信息处理方法及程序
WO2020189340A1 (ja) * 2019-03-20 2020-09-24 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP7307576B2 (ja) 2019-03-28 2023-07-12 株式会社日本総合研究所 プログラム及び情報処理装置
JP2020166359A (ja) * 2019-03-28 2020-10-08 株式会社日本総合研究所 プログラム及び情報処理装置
JP2020201669A (ja) * 2019-06-07 2020-12-17 株式会社日本総合研究所 情報処理装置
JP7418975B2 (ja) 2019-06-07 2024-01-22 株式会社日本総合研究所 情報処理装置
JP2020201748A (ja) * 2019-06-11 2020-12-17 日本放送協会 発話生成装置、発話生成方法及び発話生成プログラム
JP7365791B2 (ja) 2019-06-11 2023-10-20 日本放送協会 発話生成装置、発話生成方法及び発話生成プログラム
WO2021070681A1 (ja) * 2019-10-10 2021-04-15 株式会社村田製作所 関心度評価システムおよび関心度評価方法
JP6915765B1 (ja) * 2019-10-10 2021-08-04 株式会社村田製作所 関心度評価システムおよび関心度評価方法
JP2021117580A (ja) * 2020-01-23 2021-08-10 株式会社ミクシィ 情報処理装置、及びプログラム
JP7436804B2 (ja) 2020-01-23 2024-02-22 株式会社Mixi 情報処理装置、及びプログラム
WO2021230100A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2023048154A1 (ja) * 2021-09-21 2023-03-30 株式会社アイシン レコメンドシステム
WO2023163197A1 (ja) * 2022-02-28 2023-08-31 パイオニア株式会社 コンテンツ評価装置、コンテンツ評価方法、プログラム及び記憶媒体

Also Published As

Publication number Publication date
CN110235119A (zh) 2019-09-13
US20210280181A1 (en) 2021-09-09
JP6958573B2 (ja) 2021-11-02
JPWO2018142686A1 (ja) 2019-12-19
EP3579123A4 (en) 2019-12-18
EP3579123A1 (en) 2019-12-11

Similar Documents

Publication Publication Date Title
WO2018142686A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20210280185A1 (en) Interactive voice controlled entertainment
JP7295110B2 (ja) 会話との関連でコンテンツを推奨する方法およびシステム
CN106462636B (zh) 解释视频内容中的可听话语信息
US10657965B2 (en) Conversational audio assistant
TWI681315B (zh) 數據發送系統及其方法
US20210249012A1 (en) Systems and methods for operating an output device
US20070271518A1 (en) Methods, Apparatus and Computer Program Products for Audience-Adaptive Control of Content Presentation Based on Sensed Audience Attentiveness
US11250857B1 (en) Polling with a natural language interface
CN106941619A (zh) 基于人工智能的节目提醒方法、装置以及系统
US10645464B2 (en) Eyes free entertainment
US11803579B2 (en) Apparatus, systems and methods for providing conversational assistance
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
CN109922376A (zh) 一种模式设置方法、装置、电子设备及存储介质
Hagio et al. TV-watching robot: Toward enriching media experience and activating human communication
Souto‐Rico et al. A new system for automatic analysis and quality adjustment in audiovisual subtitled‐based contents by means of genetic algorithms
KR102135076B1 (ko) 인공지능 스피커를 이용한 감성 기반의 사용자 맞춤형 뉴스 추천 시스템
CN113301352A (zh) 在视频播放期间进行自动聊天
CN115866339A (zh) 电视节目推荐方法、装置、智能设备及可读存储介质
CN110399471A (zh) 一种引导式情景对话方法和系统
JP6351987B2 (ja) 発話制御装置、発話装置、発話制御システム、発話制御方法、発話装置の制御方法、および制御プログラム
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
US10965391B1 (en) Content streaming with bi-directional communication
CN115335898A (zh) 信息处理设备、交互式机器人、控制方法
WO2020054361A1 (ja) 情報処理システム、情報処理方法、および記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17894835

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018565931

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017894835

Country of ref document: EP

Effective date: 20190902