WO2018142686A1

WO2018142686A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2018142686A1
Application number: PCT/JP2017/037875
Authority: WO
Inventors: 真里斎藤; 宮嵜　充弘; 麗子桐原; 寿理八重田
Original assignee: ソニー株式会社
Priority date: 2017-01-31
Filing date: 2017-10-19
Publication date: 2018-08-09
Also published as: CN110235119A; US20210280181A1; JP6958573B2; JPWO2018142686A1; EP3579123A4; EP3579123A1

Abstract

【課題】ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能な情報処理装置、情報処理方法、およびプログラムを提供する。【解決手段】コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、ユーザの発話音声を解析し、ユーザの質問に対して情報提供を行う音声エージェントシステムの技術が提案されている。このような音声エージェントシステムでは、ユーザの質問内容から、ユーザが興味あること等、ユーザの嗜好情報を取得することが可能である。

　コンテンツに対するユーザの嗜好情報を取得する技術としては、例えば下記特許文献１では、放送に対する視聴者フィードバックを収集し、放送に対する格付けの生成に用いる技術が開示されている。

特開２０１０－２５２３６１号公報

　しかしながら、上記特許文献１に記載の技術は、コンテンツ視聴終了直後にユーザへの質問表を提供するため、ユーザの視聴や視聴後の余韻を妨げてしまう恐れがあった。

　そこで、本開示では、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能な情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、を備える、情報処理装置を提案する。

　本開示によれば、プロセッサが、コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出することと、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成することと、を含む、情報処理方法を提案する。

　本開示によれば、コンピュータを、コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、として機能させるための、プログラムを提案する。

　以上説明したように本開示によれば、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態によるエージェント装置の構成の一例を示すブロック図である。本実施形態によるサーバの構成の一例を示すブロック図である。本実施形態による音声エージェントの応答処理を示すフローチャートである。本実施形態による評価対象コンテンツの検出処理を示すフローチャートである。本実施形態による評価抽出処理を示すフローチャートである。本実施形態によるエージェントスタンスの設定処理を示すフローチャートである。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による情報処理システムの概要
　２．構成
　　２－１．エージェント装置１の構成
　　２－２．サーバ２の構成
　３．動作処理
　　３－１．応答処理
　　３－２．エージェントスタンスの設定処理
　４．補足
　５．まとめ

　＜＜１．本開示の一実施形態による情報処理システムの概要＞＞
　図１は、本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による情報処理システムでは、エージェント装置１により、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することを可能とする。

　エージェント装置１は、音声出力部（スピーカ）および音声入力部（マイクロホン）を有し、周辺のユーザの発話音声を集音し、応答音声を出力する音声エージェント機能を有する。本実施形態による情報処理システムは、図１に示すように、例えばエージェント装置１およびサーバ２を含むクライアントサーバ型であってもよく、発話音声の分析および応答音声の生成がサーバ２側で行われてもよい。エージェント装置１は、有線または無線によりネットワーク上のサーバ２と通信接続し、集音した発話音声（生データ、若しくは特徴量の抽出等所定の処理を行った処理データ）を送信したり、サーバ２から受信した応答音声を音声出力したりする。

　また、エージェント装置１の外観形状は図１に示す例に限定されない。図１では、一例として簡易的に円柱形状により形成され、側面にＬＥＤ（Light　Emitting　Diode）等の発光部（または表示部）が設けられている。

　（背景）
　ここで、従来の音声エージェントシステムでは、ユーザの質問内容からユーザが興味あること等、ユーザの嗜好情報を取得することが可能であったが、自発的により多くの嗜好情報や確定的な嗜好情報を自然な会話で取得することは困難であった。通常、コンテンツに関する発話をユーザが単独で発することは少なく、複数ユーザで対話している際にコンテンツについて話をすることが自然である。コンテンツ視聴直後等に、音声エージェントがコンテンツに関する質問を一方的にユーザに行うことは、自然な会話状況とは言えず、視聴後の余韻を邪魔してしまう恐れがあった。

　そこで、本開示による情報処理システムは、ユーザ（一人または複数）がコンテンツに関して会話を行っている際に、自然に会話に参加し、コンテンツに関するユーザの嗜好情報を取得するための質問音声データを出力する。

　例えば、図１に示すように表示装置３で旅番組を見ているユーザＡとユーザＢが、「ここいいなぁ」「行ってみたいね」と、旅番組で特集されている場所について話している際、サーバ２は、エージェント装置１により集音したこれらの会話内容と、コンテンツＤＢ４から取得した当該旅番組のメタデータに基づいて、評価対象（コンテンツ）に関する評価を抽出する。

　例えば旅番組が「プーケット」に関するものである場合、サーバ２は、ユーザＡの「ここいいなぁ」という発話音声から、ユーザＡのプーケットに対するポジティブな評価（肯定的な評価）を抽出し、さらにユーザＢの「行ってみたいね」というユーザＡに同意する発話音声から、ユーザＢのプーケットに対するポジティブな評価を抽出する。そして、サーバ２は、これらの評価を嗜好情報として蓄積すると共に、さらにプーケットのどのような所が好きか、コンテンツに関するより詳細な嗜好情報を取得するための質問音声（例えば、『特にどんな所が好きなの？』）をエージェント装置１から出力させる。ユーザはコンテンツについて会話している最中であるため、エージェント装置１からの質問音声に対しても自然に応答することが期待できる。また、サーバ２は、ユーザの評価に共感するセリフ（例えば、『ほんとに素敵な所だね』）を質問音声に加えることで、ユーザとの会話を盛り上げることも可能である。

　なお、上述したユーザとの応答は一例であって、サーバ２は、ユーザの曖昧な会話を盛り上げて、より確実に嗜好情報を取得することが可能となる。

　以上、本開示の一実施形態による情報処理システムについて説明した。続いて、本実施形態による情報処理システムに含まれる各装置の具体的な構成について図面を参照して説明する。

　＜＜２．構成＞＞
　　＜２－１．エージェント装置１の構成＞
　図２は、本実施形態によるエージェント装置１の構成の一例を示すブロック図である。図３に示すように、エージェント装置１は、制御部１０、通信部１１、音声入力部１２、カメラ１３、生体センサ１４、音声出力部１５、プロジェクタ１６、および記憶部１７を有する。

　制御部１０は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェント装置１内の動作全般を制御する。制御部１０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　本実施形態による制御部１０は、音声入力部１２、カメラ１３、生体センサ１４から入力された情報を、通信部１１からネットワーク５を介してサーバ２へ送信するよう制御する。また、制御部１０は、サーバ２から受信した発話音声データを音声出力部１５から音声出力する音声エージェント機能を有する。また、制御部１０は、サーバ２から受信した画像データをプロジェクタ１６から投影して情報提示することも可能である。さらに、制御部１０は、通信部１１により家庭のＷｉ－Ｆｉ等、ホームネットワークに接続し、ユーザからの要求に従って、部屋の表示装置に提示情報を表示したり、オーディオ装置等から音楽を流したり、テレビレコーダーに録画予約を指示したり、空調設備を制御したりすることも可能である。

　通信部１１は、有線または無線によりネットワーク５と接続し、ネットワーク上のサーバ２とデータの送受信を行う。通信部１１は、例えば有線／無線ＬＡＮ（Local　Area　Network）、またはＷｉ－Ｆｉ（登録商標）、携帯通信網（ＬＴＥ（Long　Term　Evolution）、３Ｇ（第３世代の移動体通信方式））等によりネットワーク５と通信接続する。また、通信部１１は、例えばＷｉ－Ｆｉ等によりホームネットワークと接続したり、Ｂｌｕｅｔｏｏｔｈ（登録商標）等により周辺の外部機器と接続したりすることも可能である。

　音声入力部１２は、マイクロホンと、そのマイクロホンで得られた音声信号を増幅処理するマイクアンプ部と、音声信号にデジタル変換するＡ／Ｄ変換器により実現され、音声信号を制御部１０に出力する。音声入力部１２は、例えば全方位マイクロホンにより実現され、周辺のユーザの発話音声を集音する。

　カメラ１３は、撮像レンズを含むレンズ系、レンズ系に対して動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）センサアレイや、ＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）センサアレイにより実現されてもよい。カメラ１３は、例えばユーザの顔画像（表情）を撮像する。

　生体センサ１４は、接触または非接触によりユーザの生体情報を取得する機能を有する。生体センサの構成は特に限定しないが、例えば非接触の生体センサとしては、電波を用いて脈拍や心拍を検出するセンサが挙げられる。

　音声出力部１５は、音声信号を再生するスピーカと、スピーカに対するアンプ回路を有する。音声出力部１５は、例えば全方位スピーカにより実現され、エージェントの音声を出力する。

　プロジェクタ１６は、画像を壁やスクリーンに投影する機能を有する。

　記憶部１７は、制御部１０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。

　以上、本実施形態によるエージェント装置１の構成について具体的に説明した。なおエージェント装置１の構成は、図２に示す例に限定されない。例えば、エージェント装置１は、カメラ１３、生体センサ１４、またはプロジェクタ１６を有さない構成であってもよい。

　　＜２－２．サーバ２の構成＞
　図３は、本実施形態によるサーバ２の構成の一例を示すブロック図である。図３に示すように、サーバ２は、制御部２０、通信部２１、ユーザ情報ＤＢ（データベース）２２、評価語ＤＢ２３、質問発話文ＤＢ２４、およびエージェントスタンスＤＢ２５を有する。

　（制御部２０）
　制御部２０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ２内の動作全般を制御する。制御部２０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部２０は、音声認識部２０１、ユーザ状態認識部２０２、発話分析部２０３、コンテンツ検出部２０４、評価抽出部２０５、コンテンツ嗜好管理部２０６、発話生成部２０７、スタンス設定部２０８、および出力制御部２０９としても機能する。

　音声認識部２０１は、エージェント装置１により集音された送信されたユーザの発話音声の認識処理（テキスト化）を行い、認識結果（ユーザ発話音声テキスト）を発話分析部２０３に出力する。

　ユーザ状態認識部２０２は、エージェント装置１により取得したユーザの撮像画像や生体情報に基づいて、ユーザの状態（行動、動作、視線、表情、感情等）を認識し、認識結果をコンテンツ検出部２０４および評価抽出部２０５に出力する。なおユーザの撮像画像は、ユーザ周辺に設置されたカメラにより撮像され、ホームネットワークを介してエージェント装置１が取得したものであってもよい。

　発話分析部２０３は、音声認識部２０１により認識されたユーザ発話音声テキストを分析する。例えば発話分析部２０３は、形態素解析や品詞分解により音声テキストを単語に分割し、構文解析、文脈解析、意味解析等により文意を解釈し得る。

　コンテンツ検出部２０４は、発話分析部２０３による解析結果に基づいて、ユーザの発話音声における評価対象物（コンテンツ）を検出（特定）する機能を有する。例えばコンテンツ検出部２０４は、コンテンツ視聴中におけるユーザの会話に、評価対象を示す単語（例えば、「このドラマ」、「ここ」「これ」「あれ」等の指示代名詞）がある場合、再生中のコンテンツ（映像、音楽、テレビ番組等）の情報を参照して、評価対象となるコンテンツを特定し得る。再生中のコンテンツの情報は、エージェント装置１から取得してもよいし、ネットワーク上のコンテンツＤＢ４から取得してもよい。

　また、コンテンツ検出部２０４は、評価対象のコンテンツを、ユーザの発話音声から特定する他、ユーザのジェスチャーや視線等のユーザ状態も考慮して特定することも可能である。例えばコンテンツ検出部２０４は、発話分析部２０３による解析結果と、ユーザ状態認識部２０２の認識結果に基づいて、ユーザが何かを指差しながら、把持しながら、または視線を向けながら、「これいいよね」「あれお気に入りなの」等と会話している場合、ユーザが指差している物、把持している物、または視線を向けている物を、評価対象のコンテンツとして検出する。また、複数ユーザが会話している場合は、どちらかが把持している物や、複数ユーザが視線を向けている物を、評価対象のコンテンツとして検出するようにしてもよい。

　評価抽出部２０５は、発話分析部２０３による解析結果またはユーザ状態認識部２０２の認識結果に基づいて、評価を抽出する。具体的には、評価抽出部２０５は、発話分析部２０３により解析された単語から所定の形容詞、副詞、感嘆詞等を評価語として抽出し、コンテンツに対するユーザのポジティブ評価、ネガティブ評価を判定する。評価抽出部２０５による評価の抽出は、ポジティブ／ネガティブの２値判定に限定されず、その度合い（すなわち、ポジティブ度合い、ネガティブ度合い）を判定するようにしてもよい。また、評価語は、評価語ＤＢ２３に予め登録されていてもよいし、ユーザの過去の言い回しから抽出したものであってもよい。さらに、評価抽出部２０５は、会話中のユーザの表情（顔画像認識）や感情（生体情報、顔画像認識）から評価を抽出することも可能である。例えば評価抽出部２０５は、コンテンツを視聴中にユーザが顔をしかめている場合はネガティブ評価、笑っている場合はポジティブ評価として判定する。

　また、評価抽出部２０５は、一のユーザの評価に他のユーザが同意を示す場合、当該他のユーザも同じ評価をしているとみなして嗜好情報を登録するようにしてもよい。
・対話例（同意する場合）
　ユーザＡ：「ねぇ、これってさぁ」（何かを指差したり、視線を向けながら。サーバ２はコンテンツを特定）
　ユーザＢ：「あー、いいよね」（サーバ２はポジティブ評価を登録）
　ユーザＡ：「そうだよね」（同意しているため、サーバ２はポジティブ評価を登録）
　エージェント：『○○（特定したコンテンツ）いいですよね。』／『○○、どんな所が良いですか？』

・対話例（非同意の場合）
　ユーザＡ：「ねぇ、これってさぁ」（何かを指差したり、視線を向けながら。サーバ２はコンテンツを特定）
　ユーザＢ：「あー、いいよね」（サーバ２はポジティブ評価を登録）
　ユーザＡ：「いや、そうでもないよ」（非同意のため、サーバ２はネガティブ評価を登録）
　エージェント：『Ａさんは○○（特定したコンテンツ）はどうして好みじゃないのですか？』（ユーザＡに評価理由を質問）
　ユーザＡ：「“・・・・（理由）”だからだよ」（サーバ２は、ユーザＡの評価理由を登録）
　エージェント：『Ｂさんは○○（特定したコンテンツ）のどこが好きですか？』（ユーザＢに評価理由を質問）
　ユーザＢ：「“・・・・（理由）”だからだよ」（サーバ２は、ユーザＢの評価理由を登録）
　エージェント：『なるほど。ちなみに□□□はどうですか？』（サーバ２は、関連するコンテンツの評価を質問し、会話を続ける。）

　コンテンツ嗜好管理部２０６は、ユーザ情報ＤＢ２２に格納されるユーザのコンテンツに対する嗜好情報（コンテンツ嗜好）の管理を行う。具体的には、コンテンツ嗜好管理部２０６は、コンテンツ検出部２０４により検出されたコンテンツ（評価対象物）に対する、評価抽出部２０５により抽出されたユーザ評価を、ユーザ情報ＤＢ２２に格納する。

　発話生成部２０７は、発話分析部２０３による分析結果に応じて、ユーザの発話に対するエージェントの応答発話音声データを生成する。また、発話分析部２０３は、ユーザが会話しているコンテンツに関するユーザの嗜好情報をさらに取得するための質問発話音声データを生成することも可能である。例えば発話分析部２０３は、ユーザ評価に基づいて、さらなる嗜好情報を取得するための質問発話を生成する。具体的には、ユーザ評価がポジティブ評価の場合はポジティブ共感を示すと共に、評価の理由を質問する。また、ユーザ評価がネガティブ評価の場合はネガティブ共感を示すと共に、評価の理由を質問する。また、発話分析部２０３は、コンテンツに関連する、不足するユーザ嗜好情報（項目）を埋める質問発話を生成してもよい。不足項目は、コンテンツ嗜好管理部２０６から取得され得る。また、発話生成部２０７は、評価の確定度が低い（曖昧な評価であった）場合、評価をより確実なものとする質問発話（本当に好きなのか／嫌いなのか）を生成してもよい。例えば、グルメ番組を見ている複数ユーザの下記のような対話内容だけでは嗜好が判断し難い場合に、評価を確定するための質問を行う。
・対話例（グルメ番組を見ながら）；
　ユーザＡ：「わー、みてみて！これ」
　ユーザＢ：「なになに？え、すごい豪華だね」
　ユーザＡ：「すごいよね」
　エージェント：『お寿司、美味しそうですね。お寿司は好きですか？』（評価対象「お寿司」をグルメ番組のメタデータから取得し、評価語「わー！」「すごい」からポジティブ評価の可能性が高いが確定できない場合、質問を行う）
　ユーザＡ：「好きだよー。」
　ユーザＢ：「私は苦手なんだよね」
　エージェント：『そうなんですね。Ｂさんはどうしてお寿司が苦手なんですか？』（ユーザＡの嗜好情報として「お寿司が好き」を登録し、ユーザＢの嗜好情報として「お寿司が苦手」を登録し、さらに嗜好情報を取得するための質問を続ける）
　ユーザＢ：「生魚が苦手なの。加熱しているネタのお寿司は大丈夫」
　エージェント：『なるほど。Ａさんはどんなお寿司が好きなのですか？』（ユーザＢの嗜好情報として「生魚が苦手」「加熱しているネタのお寿司は大丈夫」を新たに登録する。その後も質問を続ける）

　また、発話生成部２０７は、例えば質問発話文ＤＢ２４に登録された質問発話テンプレート等を参照して質問発話音声データを生成する。若しくは、発話生成部２０７は、所定のアルゴリズムを用いて質問発話音声データを生成してもよい。

　また、発話生成部２０７は、質問音声データを生成する際に、ユーザの評価に共感するセリフを加えて発話音声データを生成してもよい。例えば、ユーザの評価がポジティブであればポジティブ共感、ネガティブであればネガティブ共感を行うようにしてもよい。例えば、ユーザがポジティブな評価を行った場合は『いいよね』とポジティブ共感し、ネガティブな評価を行った場合は『嫌だよね』とネガティブ共感するようにしてもよい。また、この際、予め評価語の品詞や単語の種類に応じて共感セリフを定義しておいてもよい。例えば、ユーザが「いいね」と発話した場合は『そうだね』、ユーザが「すごい」と発話した場合は『ほんとすごい』と応答するように定義しておいてもよい。また、発話生成部２０７は、ユーザのポジティブ／ネガティブ評価に対して理由を質問するようにしてもよい。例えば、ユーザがコンテンツに関してポジティブ／ネガティブ評価した場合、『そうなの？どうしてどうして？』と理由を質問する応答を行う。ユーザの評価に共感したり、理由を質問することでユーザの会話を盛り上げ、さらに嗜好情報を聞き出すことが可能となる。例えば発話生成部２０７は、ユーザ評価しているコンテンツに関連するコンテンツへの評価を聞き出す応答を行ってもよい。例えば、ユーザがアーティストＸの音楽についてポジティブな評価を行っている場合に、『そうだね。アーティストＹの○○（曲名）もいいよね』と応答することで、さらにアーティストＹに対するユーザ評価を取得することが可能となる。

　また、発話生成部２０７は、コンテンツについて対話を行っている複数ユーザの評価が一致する場合は共感を示したり評価理由を質問し、複数ユーザの評価が一致しない場合は、いずれかのユーザに評価理由を質問するようにしてもよい。
・対話例（評価が一致する場合）
　ユーザＡ：「これ、いいよね」（化粧品のＣＭを見ながら）
　ユーザＢ：「私もそう思う」
　エージェント：『いいですよね』／『○○（化粧品の製品名）ですか？どんな所が良いですか？』

・対話例（評価が一致しない場合）
　ユーザＡ：「これ、いいよね」（化粧品のＣＭを見ながら）
　ユーザＢ：「そうかなぁ」
　エージェント：『○○（化粧品の製品名）ですか？Ｂさんはなぜ好きではないのですか？』

　また、発話生成部２０７は、コンテンツについて対話を行っている複数ユーザのうち、評価を行っていないユーザがいる場合は当該ユーザに発話を促す応答を行うようにしてもよい。例えば以下のような対話例が想定される。

　・対話例（旅番組を見た後）
　ユーザＡ：「いいなあ、プーケット」
　（サーバ２は、番組のメタデータから、ユーザが視聴した旅番組の内容がプーケットに関するものであることを把握し、評価対象のコンテンツが「プーケット」であると特定する。また、プーケットについてユーザＡのポジティブ評価を登録する。
　ユーザＢ：「だよね、行きたいね」
　（サーバ２は、同じ対象についてユーザＡと同じポジティブ評価を抽出し、ユーザＢの嗜好情報として登録）
　（サーバ２は、ユーザＡとユーザＢの視線や発話の間から会話継続の意図を検出し、発話すべきタイミングと判断し、質問発話音声データを生成し、出力する。具体的には複数ユーザの評価一致しているため共感を示し、さらに対話に無かった評価理由を質問する。）
　エージェント：『プーケット魅力的だね。どんなところがいいの？』
　ユーザＡ：「のんびりできそうだからね」
　（サーバ２は、ユーザＡの嗜好情報（プーケットを好きな理由）を登録）
　エージェント：『Ｂさんもそう思う？』（ユーザＢが答えなかったため、ユーザＢに会話を促す）
　ユーザＢ：「どっちかというと料理かな」
　（サーバ２は、ユーザＢの嗜好情報（プーケットを好きな理由）を登録）
　（サーバ２は、間が空いたためまだ対話が続くと予測し、発話すべきタイミングと判断する）
　エージェント：『料理、魅了的ですよね』
　ユーザＡ：「そろそろ、食事にする？」
　（コンテンツに関する発話ではないため、サーバ２は次の発話を待つ）

　また、エージェントスタンスが設定されている場合、発話生成部２０７は、エージェントスタンスを考慮して応答を行うようにしてもよい。具体的には、エージェントスタンスがユーザの評価と一致する場合には共感し、異なる場合は評価理由を聞くようにしてもよい。これにより、異なる評価を行っているユーザそれぞれに共感して矛盾してしまうことを回避することができる。

　また、発話生成部２０７は、さらなる嗜好情報を取得するため、粒度（カテゴリーや分類）の異なる質問を生成してもよい。例えば、上述したコンテンツ自体に関する質問の他、当該コンテンツのカテゴリー自体に関する質問や、当該コンテンツのメタデータに関する質問（特にユーザ情報ＤＢ２２に未登録の情報）を生成し得る。例えばコンテンツがドラマである場合、当該ドラマの評価理由を質問する他、当該ドラマのカテゴリー、例えば、「刑事ドラマが好きなの？」「医療ドラマが好きなの？」等のドラマのジャンルの好みを質問してもよい。また、当該ドラマのメタデータ、例えば、「主役の俳優さんが好きなの？」「主題歌が好きなの？」「時代設定が好きなの？」「原作者が好きなの？」等のドラマの登場人物や挿入歌、舞台、原作等の好みを質問してもよい。

　また、発話生成部２０７は、しつこく質問することを避けるため、質問回数の上限を設定してもよい。また、発話生成部２０７は、質問したときのユーザの反応（よそ見をする、沈黙する、嫌な顔をする等）に基づいて、質問を継続するか否かを判断するようにしてもよい。

　また、発話生成部２０７は、マルチモーダルな表現でユーザの反応を取得する質問を生成してもよい。具体的には、例えば発話生成部２０７は、設定されたエージェントスタンスを参照してエージェントの意見を言って会話を促したり、対話に参加していない他者（他の家族の過去の発言や、インターネット上の他者の発言など）の意見を提示して会話を促したりしてもよい（例えば、『Ｃさんは“・・・・・”って言っていたけど、Ａさんはどう思う？』など）。

　また、発話生成部２０７は、ユーザがネガティブな評価を示した場合、評価理由を聞くだけではなく、別のコンテンツを明示して評価を尋ねてもよい。以下、対話例を示す。
・対話例（リゾート特集の番組を見ながら）
　ユーザＡ：「ビーチリゾートってあんまり好きじゃないなー」
　（サーバは、ビーチリゾートについてネガティブな評価をユーザＡの嗜好情報として登録し、評価理由を尋ねる質問と、他のコンテンツについての反応を得る質問を行う。）
　エージェント：『そうなんですか。どうしてですか？世界遺産は興味ありますか？』

　スタンス設定部２０８は、エージェントのスタンスを設定する機能を有する。エージェントスタンスとは、エージェントの嗜好情報であって、あるコンテンツに対してポジティブな評価をするスタンスであるか、ネガティブな評価をするスタンスであるかが設定され得る（エージェントのキャラクター設定）。設定されたエージェントスタンスの情報は、エージェントスタンスＤＢ２５に格納される。また、スタンス設定部２０８はユーザとの対話をエージェントスタンスに影響させて徐々に変更させてもよい。例えば、あるコンテンツは好みではないというスタンスである場合に、ポジティブな評価を行うユーザに対して理由を尋ね、ユーザとの会話を続けるうちにスタンスを変更し、『なるほど。少し好きになってきたよ』と応答してもよい。

　出力制御部２０９は、発話生成部２０７により生成された発話音声データを、エージェント装置１から音声出力するよう制御する機能を有する。具体的には、出力制御部２０９は、発話音声データを通信部２１からエージェント装置１に送信し、音声出力するよう指示する。また、出力制御部２０９は、所定のタイミングで音声出力するよう制御することも可能である。例えば、出力制御部２０９は、複数ユーザの会話が盛り上がっている場合（笑い声が途切れない、声のボリュームが大きい、会話中、会話の間が短い、会話のテンポが早い場合等）は質問しないようにして、会話が落ち着いた際（会話の間が所定の長さになった場合等）に質問するようにしてもよい。また、出力制御部２０９は、会話が盛り上がっておらず、会話のテンポが悪く、途切れがちな場合は、質問せず、次にタイミングが良い時に出力するようにしてもよい。後から質問する際は、例えば出力制御部２０９は、コンテンツ体験から１日以内等、ユーザがコンテンツ体験を忘れないタイミングで質問するようにしてもよいし、ユーザがリラックスしている場合や忙しくしていない場合に、『この前話してた○○○（コンテンツ）って、どういう所が好きなの？』、『この前見ていた○○○はどうして嫌いなの？』等と質問してもよい。また、ユーザからスケジュールやニュース等が質問された際に、応答する共に質問するようにしてもよい。例えば、ユーザからのスケジュール要求（「今日のスケジュールは？」）に対して、『今日のスケジュールは○時から○○の予定です。そういえばこの前話してた□□□は本当に良いよね。』と応答し、評価が曖昧であったコンテンツに対してより確実な嗜好情報を取得することも可能である。

　（通信部２１）
　通信部２１は、有線または無線によりネットワーク５と接続し、ネットワーク５を介してエージェント装置１とデータの送受信を行う。通信部２１は、例えば有線／無線ＬＡＮ（Local　Area　Network）、またはＷｉ－Ｆｉ（Wireless　Fidelity、登録商標）等によりネットワーク５と通信接続する。

　以上、本実施形態によるサーバ２の構成について具体的に説明した。なお本実施形態によるサーバ２の構成は、図３に示す例に限定されない。例えば、サーバ２の構成の一部は、外部装置に設けられていてもよい。また、サーバ２の制御部２０の機能構成の一部または全ては、エージェント装置１が有していてもよい。

　＜＜３．動作処理＞＞
　続いて、本実施形態による情報処理システムの動作処理について図４～図７を用いて具体的に説明する。

　　＜３－１．応答処理＞
　図４は、本実施形態による音声エージェントの応答処理を示すフローチャートである。図４に示すように、まず、サーバ２は、エージェント装置１で集音されたユーザ対話音声を、音声認識部２０１により音声認識し（ステップＳ１０４）、発話分析部２０３により、発話分析する（ステップＳ１０６）。

　次に、サーバ２の制御部２０は、ユーザの対話内容がコンテンツ（何らかの評価対象物）に関する発話であるか否かを判断する（ステップＳ１０９）。

　次いで、コンテンツに関する発話である場合（ステップＳ１０９／Ｙｅｓ）、サーバ２の制御部２０は、コンテンツ検出部２０４により、発話内容やユーザのジェスチャー、または視線等に基づいて、評価対象であるコンテンツを検出（特定）する（ステップＳ１１２）。

　また、制御部２０は、評価抽出部２０５により、発話内容や表情等から当該コンテンツに関するポジティブ／ネガティブ評価（または評価理由等）を嗜好情報として抽出する（ステップＳ１１５）。ポジティブ／ネガティブを示す評価語は、予め評価語ＤＢ２３に登録されており、評価抽出部２０５は、評価語ＤＢ２３を参照してユーザ発話に含まれる評価語の分析を行うことで評価を抽出してもよいし、その都度認識するアルゴリズムを用いてもよい。また、評価抽出部２０５は、ユーザ発話の分析の他、ユーザの表情や感情（表情や生体情報から取得可能）を参照してユーザのコンテンツに対するポジティブ／ネガティブ評価を抽出するとこも可能である。

　次に、コンテンツ嗜好管理部２０６は、ユーザ情報ＤＢ２２に格納されているユーザ嗜好情報（すなわち、コンテンツに関するユーザ嗜好の情報）を更新する（ステップＳ１１８）。

　次いで、コンテンツ嗜好管理部２０６は、ユーザ嗜好情報に不足する情報（データ項目）があるか否かを判断する（ステップＳ１２１）。

　次に、不足する情報がある場合（ステップＳ１２１／Ｙｅｓ）、サーバ２の制御部２０は、発話すべき状況で有れば（ステップＳ１２４／Ｙｅｓ）、発話生成部２０７により質問発話の生成を行い、出力制御部２０９によりエージェント装置１から出力するよう制御する（ステップＳ１２７）。発話すべき状況であるか否かは、例えばユーザの状態（視線や行動）、発話の間、盛り上がり度合い等に基づいて判断される。また、ここでは一例としてユーザ情報ＤＢ２２に登録されているユーザの嗜好情報のうち不足する情報（項目）を取得するための質問発話を生成するが、本開示はこれに限定されない。例えば発話生成部２０７は、上記ステップＳ１１２でコンテンツが検出できない（例えば曖昧な表現であって特定できない）場合や、ステップＳ１１５で評価が抽出できない（例えば曖昧な表現であって確定できない）場合に、コンテンツや評価を確定するための質問発話を生成してもよい（例えば、「○○（コンテンツ）のことですか？」、「○○（コンテンツ）が好きなのですか？」など）。

　一方、当該コンテンツに関し不足する嗜好情報が無い場合（ステップＳ１２１／Ｎｏ）、サーバ２は、発話すべき状況であれば（ステップＳ１３０）、共感を示す応答および／または次の発話を促す発話を生成し、出力する（ステップＳ１３３）。次の発話とは、例えば評価対象のコンテンツと関連する他のコンテンツに関する嗜好情報を尋ねる質問発話である（例えば、「○○（コンテンツ）が好きなんですね。□□（関連する他のコンテンツ）はどうですか？」など）。

　なお、以上説明したステップＳ１２４～Ｓ１３３では、発話すべき状況であるか否かを判断した後に質問発話を生成しているが、本実施形態はこれに限定されず、先に発話生成部２０７により質問発話を生成し、発話すべき状況を待って（待ち時間の上限を設定してもよい）出力制御部２０９により出力制御してもよい。

　そして、ユーザから新たな発話が発せられると（ステップＳ１３６／Ｙｅｓ）、上記ステップＳ１０３以降の処理を繰り返す。

　また、発話すべき状況ではない場合（ステップＳ１２４／Ｎｏ、ステップＳ１３０／Ｎｏ）、応答処理が終了する（新たな発話を待つ）。

　（評価対象コンテンツの検出処理）
　次に、上記ステップＳ１１２に示す評価対象コンテンツの検出処理について、図５を参照して詳細に説明する。図５は、本実施形態による評価対象コンテンツの検出処理を示すフローチャートである。

　図５に示すように、まず、サーバ２のコンテンツ検出部２０４は、分析されたユーザ発話の中にコンテンツを示す単語があるか否かを判断する（ステップＳ１５３）。

　次に、コンテンツを示す単語がある場合（ステップＳ１５３／Ｙｅｓ）、コンテンツ検出部２０４は、当該単語がコンテンツＤＢ４にあるか否かを判断する（ステップＳ１５６）。コンテンツＤＢ４は、外部サーバに設けられた番組情報データベースであってもよいし、サーバ２が有するコンテンツ辞書データベース（コンテンツの名称が予め登録されたデータベース。不図示）であってもよい。

　次いで、単語がコンテンツＤＢ４にある場合（ステップＳ１５６／Ｙｅｓ）、コンテンツ検出部２０４は、評価対象コンテンツを特定する（ステップＳ１５９）。なおコンテンツ検出部２０４は、必要に応じて特定したコンテンツの情報をコンテンツＤＢ４から取得してもよい。

　一方、発話中にコンテンツを示す単語がない場合（ステップＳ１５３／Ｎｏ）、またはコンテンツを示す単語が指示語である場合（ステップＳ１６２／Ｙｅｓ）、コンテンツ検出部２０４は、ユーザ状態の認識結果に基づいて、ユーザの視線検出（ステップＳ１６５）、指差し検出（ステップＳ１６８）、または把持物の検出（ステップＳ１７１）を行い、ユーザが示している評価対象コンテンツを特定する（ステップＳ１７４）。

　そして、評価対象コンテンツが特定できた場合（ステップＳ１７４／Ｙｅｓ）、コンテンツ検出処理が終了する。

　なお、評価対象コンテンツが特定できない場合（ステップＳ１７４／Ｎｏ）、応答処理が終了する。若しくは、上述したように、評価対象コンテンツを特定するための質問を生成するようにしてもよい。

　（質問発話の生成）
　次いで、上記ステップＳ１２７に示す質問発話の生成処理について、図６を参照して詳細に説明する。図６は、本実施形態による評価抽出処理を示すフローチャートである。

　図６に示すように、まず、発話生成部２０７は、評価抽出部２０５により抽出されたポジティブ／ネガティブ評価を取得する（ステップＳ１８３）

　次に、ユーザ評価がポジティブ評価だった場合（ステップＳ１８６／ポジティブ）、発話生成部２０７は、ポジティブ共感および／または理由を質問する発話（例えば『いいよね』、『素敵だよね。特にどんな所が好き？』など。）を生成する（ステップＳ１８９）。

　一方、ネガティブ評価の場合だった場合（ステップＳ１８６／ネガティブ）、発話生成部２０７は、ネガティブ共感および／または理由を質問する発話（例えば『嫌だよね』、『面白くないね。特にどこがつまらなかった？』など。）を生成する（ステップＳ１９２）。

　　＜３－２．エージェントスタンスの設定処理＞
　続いて、本実施形態によるエージェントスタンスの設定処理について図７を参照して説明する。上述したように、本実施形態によるサーバ２は、スタンス設定部２０８により、エージェントスタンスの設定を行い、エージェントスタンスを参照した質問発話を生成することが可能である。

　図７は、本実施形態によるエージェントスタンスの設定処理を示すフローチャートである。図７に示すように、まず、サーバ２の制御部２０は、評価抽出部２０５により評価語の分析を行い（評価抽出）（ステップＳ２０３）、ユーザ評価がエージェントのスタンスと合っているか否かを判断する（ステップＳ２０６）。

　次に、ユーザ評価がエージェントのスタンスと一致しない場合（ステップＳ２０６／Ｎｏ）、制御部２０は、発話生成部２０７により、ポジティブ評価／ネガティブ評価の理由を質問する発話を生成し、出力制御部２０９によりエージェント装置１から音声出力するよう制御する（ステップＳ２０９）。

　次いで、制御部２０は、発話分析部２０３により、ユーザの回答を分析し（ステップＳ２１２）、スタンス設定部２０８により、エージェントのスタンスを変更するか否かを判断する（ステップＳ２１５）。スタンス変更の条件は特に限定しないが、例えば予め設定したルールに従って判断され得る。具体的には、例えばユーザの評価理由が具体的なものである場合や、評価理由が多数挙げられた場合に、エージェントスタンスを変更するようにしてもよい。また、コンテンツが音楽の場合、ユーザが何度も当該音楽を聞いている場合、エージェントスタンスを変更するようにしてもよい。

　次に、エージェントスタンスを変更する場合（ステップＳ２１５／Ｙｅｓ）、スタンス設定部２０８は、エージェントスタンスの変更を行う（エージェントスタンスＤＢ２５の更新）。また、制御部２０は、変更したことをユーザに伝える応答（例えば『良い曲だね。何度も聴いているうちに好きになってきたよ』（ネガティブスタンスからポジティブスタンスへの変化）、『なるほど。やっぱり私も嫌いかも』（ポジティブスタンスからネガティブスタンスへの変化）など）を生成して出力してもよい。

　一方、ユーザ評価がエージェントのスタンスと一致している場合（ステップＳ２０６／Ｙｅｓ）、制御部２０は、発話生成部２０７により、ポジティブ評価／ネガティブ評価に共感する応答発話を生成し、出力制御部２０９によりエージェント装置１から音声出力するよう制御する（ステップＳ２２１）。なお制御部２０は、理由を質問する発話をさらに行ってもよい。

　＜＜４・補足＞＞
　以上、本実施形態の情報処理システムについて詳細に説明した。以下、上記実施形態について補足を行う。

　音声エージェントの質問発話は、エージェント装置１から音声出力する場合に限定されず、例えばエージェントの応答文を表示または投影するようにしてもよい。

　また、ユーザがコンテンツを視聴する前に質問を行ってもよい。例えばユーザがサスペンスドラマを見ようとしている場合（ユーザ状態の認識）、サーバ２は、『サスペンス好きなの？』という質問発話をエージェント装置１から出力する。

　また、ニュース等他の情報と組み合わせてユーザに質問してもよい（例えば、『最近○○ってドラマが話題だけど、どう思う？』など）。

　また、サーバ２は、ユーザのポジティブ／ネガティブ反応（発話内容の他、ジェスチャー、表情、視線の動き等のユーザ状態も含む）を蓄積し、ユーザから明示的な返答が無い場合にもポジティブ／ネガティブ評価を予測することが可能である。この場合、サーバ２は、予測した評価が正しいかをユーザに質問する発話（例えば『この歌あまり好きそうじゃないね』など）を行い、より確定的な嗜好情報を取得し得る。

　また、ポジティブ／ネガティブ反応は個人差があるため（反応が大きい人と小さい人が想定される）、サーバ２は、個人の特徴を考慮して評価を抽出する。

　また、サーバ２は、ユーザの他のユーザの評価に同調した場合の評価は、確定の度合いを低く（重みを小さく）する。複数ユーザで対話している場合、本当は異なる意見であるが周りに同調してしまっている可能性もあるためである。また、ユーザが一人でいるときと複数でいるときとで質問の仕方や内容を変えるようにしてもよい。

　また、ユーザの状況に応じてさらに嗜好情報が取得できそうな場合はさらに質問を継続し、ユーザが疲れている様子であったら少なくする。また、ユーザの状況（疲れている、忙しい、リラックスしている、暇な時間等）は、生体情報、発話（発話内容、発話テンポ、声量等）、時間帯、または曜日等から判断される。

　また、ユーザの嗜好情報を取得して目的が達成した後も対話を継続してもよい。例えば、共感を示して次の発話を促すだけの発話（例えば『それはすごいね。他には？』など）であってもよい。

　また、サーバ２は、コンテンツによって質問するタイミングを制御してもよい。例えばコンテンツが放送番組の場合は、ＣＭ中に質問したり、コンテンツが音楽の場合は、曲が切り変わる時に、コンテンツに関する評価を質問するようにしてもよい。

　また、１つのエージェント装置１に複数のエージェント（キャラクー、人格）を設定してもよい。各エージェントにスタンスを設定し、ユーザ評価と一致するエージェントを登場させるようにしてもよい。

　＜＜５．まとめ＞＞
　以上説明したように、本開示の実施形態による情報処理システムでは、ユーザの発話内容に応じて、より自然な会話でユーザの嗜好情報を取得することが可能となる。

　また、ユーザ評価に共感を示したり、関連するコンテンツの対話を促したり、評価していないユーザの発話を促したり等、さりげない会話で複数ユーザの対話に混ざって会話を盛り上げ、さらなる嗜好情報を取得することが可能である。

　また、本実施形態では、発話の間や盛り上がりを考慮して質問のタイミングを制御することで、ユーザの会話を邪魔することなく、エージェントが自然に会話に参加し、会話を継続させることが可能となる。従来のような一方的な情報提示とは異なり、ユーザと音声エージェントとの快適な（ストレスのない）会話（やり取り）を実現することができる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上述したエージェント装置１、またはサーバ２に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、エージェント装置１、またはサーバ２の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
　前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
を備える、情報処理装置。
（２）
　前記評価抽出部は、複数ユーザの対話内容から前記コンテンツに対する各ユーザの評価を抽出する、前記（１）に記載の情報処理装置。
（３）
　前記生成部は、前記嗜好情報として、前記ユーザの評価の理由を尋ねる質問音声データを生成する、前記（１）または（２）に記載の情報処理装置。
（４）
　前記生成部は、前記コンテンツに対する前記ユーザの評価に共感する発話を含む質問音声データを生成する、前記（１）～（３）のいずれか１項に記載の情報処理装置。
（５）
　前記評価抽出部は、前記発話内容の分析結果から評価対象物であるコンテンツに関する評価語を取得し、評価を抽出する、前記（１）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記評価抽出部は、さらに前記ユーザの表情、感情、視線、またはジェスチャーの少なくともいずれかに基づいて、前記コンテンツに対する前記ユーザの評価を抽出する、前記（１）～（５）のいずれか１項に記載の情報処理装置。
（７）
　前記生成部は、前記コンテンツに対する複数ユーザの評価が一致しない場合、ポジティブ評価またはネガティブ評価のいずれかに共感した上で前記嗜好情報として評価理由を質問する質問音声データを生成する、前記（１）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記生成部は、複数ユーザのうち前記コンテンツに対する評価を発話していないユーザに対して前記コンテンツの評価を質問する質問音声データを生成する、前記（１）～（７）のいずれか１項に記載の情報処理装置。
（９）
　前記情報処理装置は、
　前記生成した質問データを音声出力するよう制御する出力制御部をさらに備える、前記（１）～（７）のいずれか１項に記載の情報処理装置。
（１０）
　前記出力制御部は、複数ユーザの対話の状況を判断し、所定のタイミングで前記質問音声データを音声出力するよう制御する、前記（９）に記載の情報処理装置。
（１１）
　前記評価抽出部は、前記ユーザと対話する他のユーザが、前記ユーザの評価に同意したか否かに応じて、当該他のユーザの評価を抽出する、前記（１）～（１０）のいずれか１項に記載の情報処理装置。
（１２）
　前記生成部は、エージェントの設定嗜好情報が前記ユーザの評価と類似する場合は共感し、異なる場合は評価理由を質問する質問音声データを生成する、前記（１）～（１１）のいずれか１項に記載の情報処理装置。
（１３）
　前記生成部は、記憶された前記ユーザの嗜好情報のうち、前記コンテンツに関する未登録の嗜好情報を質問する質問音声データを生成する、前記（１）～（１２）のいずれか１項に記載の情報処理装置。
（１４）
　前記生成部は、質問に対するユーザの反応に応じて、質問音声データの生成を継続するか否かを判断する、前記（１）～（１３）のいずれか１項に記載の情報処理装置。
（１５）
　プロセッサが、
　コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出することと、
　前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成することと、
を含む、情報処理方法。
（１６）
　コンピュータを、
　コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
　前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
として機能させるための、プログラム。

　１　　エージェント装置
　２　　サーバ
　３　　表示装置
　４　　コンテンツＤＢ
　５　　ネットワーク
　１０　　制御部
　１１　　通信部
　１２　　音声入力部
　１３　　カメラ
　１４　　生体センサ
　１５　　音声出力部
　１６　　プロジェクタ
　１７　　記憶部
　２０　　制御部
　２１　　通信部
　２２　　ユーザ情報ＤＢ
　２３　　評価語ＤＢ
　２４　　質問発話文ＤＢ
　２５　　エージェントスタンスＤＢ
　２０１　　音声認識部
　２０２　　ユーザ状態認識部
　２０３　　発話分析部
　２０４　　コンテンツ検出部
　２０５　　評価抽出部
　２０６　　コンテンツ嗜好管理部
　２０７　　発話生成部
　２０８　　スタンス設定部
　２０９　　出力制御部

Claims

　コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
　前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
を備える、情報処理装置。
　前記評価抽出部は、複数ユーザの対話内容から前記コンテンツに対する各ユーザの評価を抽出する、請求項１に記載の情報処理装置。
　前記生成部は、前記嗜好情報として、前記ユーザの評価の理由を尋ねる質問音声データを生成する、請求項１に記載の情報処理装置。
　前記生成部は、前記コンテンツに対する前記ユーザの評価に共感する発話を含む質問音声データを生成する、請求項１に記載の情報処理装置。
　前記評価抽出部は、前記発話内容の分析結果から評価対象物であるコンテンツに関する評価語を取得し、評価を抽出する、請求項１に記載の情報処理装置。
　前記評価抽出部は、さらに前記ユーザの表情、感情、視線、またはジェスチャーの少なくともいずれかに基づいて、前記コンテンツに対する前記ユーザの評価を抽出する、請求項１に記載の情報処理装置。
　前記生成部は、前記コンテンツに対する複数ユーザの評価が一致しない場合、ポジティブ評価またはネガティブ評価のいずれかに共感した上で前記嗜好情報として評価理由を質問する質問音声データを生成する、請求項１に記載の情報処理装置。
　前記生成部は、複数ユーザのうち前記コンテンツに対する評価を発話していないユーザに対して前記コンテンツの評価を質問する質問音声データを生成する、請求項１に記載の情報処理装置。
　前記情報処理装置は、
　前記生成した質問データを音声出力するよう制御する出力制御部をさらに備える、請求項１に記載の情報処理装置。
　前記出力制御部は、複数ユーザの対話の状況を判断し、所定のタイミングで前記質問音声データを音声出力するよう制御する、請求項９に記載の情報処理装置。
　前記評価抽出部は、前記ユーザと対話する他のユーザが、前記ユーザの評価に同意したか否かに応じて、当該他のユーザの評価を抽出する、請求項１に記載の情報処理装置。
　前記生成部は、エージェントの設定嗜好情報が前記ユーザの評価と類似する場合は共感し、異なる場合は評価理由を質問する質問音声データを生成する、請求項１に記載の情報処理装置。
　前記生成部は、記憶された前記ユーザの嗜好情報のうち、前記コンテンツに関する未登録の嗜好情報を質問する質問音声データを生成する、請求項１に記載の情報処理装置。
　前記生成部は、質問に対するユーザの反応に応じて、質問音声データの生成を継続するか否かを判断する、請求項１に記載の情報処理装置。
　プロセッサが、
　コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出することと、
　前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成することと、
を含む、情報処理方法。
　コンピュータを、
　コンテンツに関するユーザの発話内容に基づいて、前記コンテンツに対する前記ユーザの評価を抽出する評価抽出部と、
　前記抽出した評価に基づいて、前記コンテンツに対する前記ユーザの嗜好情報をさらに取得する質問音声データを生成する生成部と、
として機能させるための、プログラム。