WO2020066154A1

WO2020066154A1 - 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム

Info

Publication number: WO2020066154A1
Application number: PCT/JP2019/023644
Authority: WO
Inventors: 範亘高橋
Original assignee: ソニー株式会社
Priority date: 2018-09-25
Filing date: 2019-06-14
Publication date: 2020-04-02
Also published as: US20220051669A1

Abstract

ユーザとの対話を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムを提供する。　情報処理装置は、ユーザの状況又は傾向を判定する判定部と、前記判定部の判定結果に基づいて前記ユーザに対する出力を決定する決定部を具備する。前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関するセンシング結果に基づいて、前記ユーザの状況又は傾向を判定する。そして、前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する。

Description

情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム

　本明細書で開示する技術は、ユーザとの対話を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムに関する。

　最近、音声などを用いてユーザと対話を行いながら、用途や状況に応じて種々の情報をユーザに提示する「エージェント」、「アシスタント」、若しくは「スマートスピーカー」と呼ばれるサービスが普及し始めている。例えば、照明やエアコンなどの家電機器のオンオフや調整操作を代行したり、天気予報や株・為替情報、ニュースについて聞かれると音声で回答したり、商品の注文を受け付けたり、購入した書籍の内容を読み上げたりするエージェントが知られている。

　エージェント機能は、例えば、家庭内などでユーザの周囲に設置されるエージェントデバイスと、クラウド上に構築されるエージェントサービスの連携により提供される（例えば、特許文献１を参照のこと）。エージェントデバイスは、ユーザが発話する音声を受け付ける音声入力、並びにユーザからの問い合せに対して音声で回答する音声出力といったユーザインターフェースを主に提供する。一方のエージェントサービス側では、エージェントデバイスで入力された音声の認識や意味解析、ユーザの問い合わせに応じた情報検索などの処理、処理結果に基づく音声合成など、負荷の高い処理を実行する。

　また、ユーザと直接対話を行うエージェントデバイスは、専用の装置として構成される以外に、屋内に設置されたテレビ受像機、エアコン、録画機、洗濯機などの各種ＣＥ機器やＩｏＴ（Ｉｎｔｅｒｎｅｔ　ｏｆ　Ｔｈｉｎｇ）デバイス、スマートフォンやタブレットなどの持ち運びが可能な情報端末、対話型ロボット、車内に設置されたカーナビなど、エージェント用アプリケーションが組み込まれている各種情報機器であってもよい（例えば、特許文献２を参照のこと）。

　エージェントがユーザに有益な情報を提示するサービスを実施するには、より多くのユーザ情報を収集する必要がある。例えば、自然な対話を通じてユーザ情報を収集する対話システムについて提案がなされている（特許文献３を参照のこと）。

特表２０１７－５２７８４４号公報ＷＯ２０１４／２０３４９５特開２００３－１９６４６２号公報

　本明細書で開示する技術の目的は、ユーザとの対話を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムを提供することにある。

　本明細書で開示する技術の第１の側面は、
　ユーザの状況又は傾向を判定する判定部と、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
を具備する情報処理装置である。

　前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関する認識結果に基づいて、前記ユーザの状況又は傾向を判定する。そして、前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する。

　また、本明細書で開示する技術の第２の側面は、
　ユーザの状況又は傾向を判定する判定ステップと、
　前記判定ステップにおける判定結果に基づいて、前記ユーザに対する出力を決定する決定ステップと、
を有する情報処理方法である。

　また、本明細書で開示する技術の第３の側面は、
　ユーザの状況又は傾向を判定する判定部、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラムである。

　第３の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、第３の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、第１の側面に係る情報処理装置と同様の作用効果を得ることができる。

　また、本明細書で開示する技術の第４の側面は、
　ユーザ又は前記ユーザが使用する機器の動作を認識処理する認識部と、
　前記認識部の認識結果に基づいてユーザの状況又は傾向を判定する判定部と、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
　前記決定に基づいて前記ユーザに対する出力を行う出力部と、
を具備する対話システムである。

　但し、ここで言う「システム」とは、複数の装置（又は特定の機能を実現する機能モジュール）が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。

　本明細書で開示する技術によれば、主体的にユーザに話し掛けるとともにユーザからの回答結果に対応するための処理を実施する情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システムを提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、対話システム１００の機能的構成例を模式的に示した図である。図２は、対話システム１００の変形例を示した図である。図３は、対話システム１００において主体的な発話機能を実現するための概略的な処理フローを示した図である。図４は、対話システム１００において主体的な発話機能を実現する様子を示した図である。図５は、対話システム１００において対応結果や対応状況について通知するフィードバック機能を実現するための概略的な処理フローを示した図である。図６は、視線集中の低下に基づく主体的な発話機能の実現例を示した図である。図７は、位置情報に基づく主体的な発話機能の実現例を示した図である。

　以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

　エージェントがユーザに有益な情報を提示するサービスを実施するには、より多くのユーザ情報を収集する必要がある。対話を通じてユーザ情報やアンケート回答を収集する対話システムについて提案がなされているが（特許文献３を参照のこと）、従来のシステムは、基本的に、ユーザから話し掛けられたことをトリガにしてユーザとの対話が開始されるので、言い換えれば、ユーザが話し掛けない限り、システム側からユーザに対して情報を聞き出すことができない。このため、ユーザから情報を取得する機会や取得できる情報の内容は限定的となってしまい、取得できるユーザ情報の質及び量のいずれも不十分となることが懸念される。また、ユーザ毎に回答の数にばらつきが生じると、統計的な情報を取得し難いという問題がある。また、当該機器又はサービスを主体的に使わなくなったユーザに対してその理由を聞き出すことができない、すなわち、離脱ユーザに働きかけられないという問題がある。

　また、従来の対話システムは、基本的に、対話から収集したユーザ情報がその後どのように使われたかをユーザにフィードバックする仕組みを備えていない。このため、ユーザは対話システムからの問いかけに応答したことに対して得られる報酬は、対話の楽しみのみであり、回答する動機付けが少ないため回答率が低下していくことが懸念される。また、ユーザからの回答結果を当該機器又はサービスの体験自体に活用することができない。

　そこで、本明細書では、主体的にユーザに話し掛けることができるとともに、ユーザからの回答結果に対応することができる対話システムについて、以下で提案する。本明細書で提案する対話システムは、以下の２つの主要な機能を備えている。

（１）主体的な発話機能
（２）フィードバック機能

　主体的な発話機能は、対話システムが、ユーザが置かれている状況や傾向、履歴に基づいて、文脈に沿ったタイミング及び内容で、主体的にユーザに話し掛ける機能である。この主体的な発話機能を有する対話システムは、より多量で詳細なユーザ情報を取得することが可能となる。また、主体的な発話機能を有する対話システムは、サイレントマジョリティー（積極的な発言行為をしないが大多数である勢力）から幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる。

　また、フィードバック機能は、対話システムが、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知する機能である。このフィードバック機能によれば、ユーザが対話システムからの話し掛けに回答する動機付けを増加することができ、対話システムがユーザに話を聞ける障壁を低くすることにもつながる。また、対話システムを搭載した機器又はサービス自体の改善に活用することができる。

Ａ．システム構成例
　図１には、本明細書で開示する技術を適用した対話システム１００の機能的構成例を模式的に示している。対話システム１００は、「エージェント」、「アシスタント」、若しくは「スマートスピーカー」として、ユーザに対して音声をベースにしたサービスを提供する。とりわけ本実施形態では、対話システム１００は、主体的な発話機能及びフィードバック機能を有する点に特徴がある。

　図示の対話システム１００は、認識部１０１と、状況判定部１０２と、出力決定部１０３と、出力生成部１０４と、出力部１０５を備えている。また、対話システム１００は、各種センサ素子からなるセンサ部１０６を備えている。また、対話システム１００は、リビングルームなど当該対話システム１００と同じ空間に設置されている外部機器１１０や、対話システム１００が対話する相手となるユーザが所持するモバイル機器１２０などと有線又は無線により通信する通信インターフェース（図示しない）を備えているものとする。

　センサ部１０６は、主に、対話システム１００が設置されている室内の環境情報をセンシングする。センサ部１０６の具体的構成、すなわちどのようなセンサ素子を含むかは任意である。一部又は全部のセンサ素子は、対話システム１００に外付けされていてもよい。また、センサ部１０６は、外部機器１１０やモバイル機器１２０に搭載されたセンサ素子を含んでいてもよい。本実施形態では、センサ部１０６は、少なくともカメラや近接センサ、マイクを含むことを前提とする。また、センサ部１０６は、赤外線センサや人感センサ、物体検出センサや深度センサ、ユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサ、照度センサや温度センサ、湿度センサなどの環境情報を検出する環境センサを備えていてもよい。

　外部機器１１０は、リビングルームなど当該対話システム１００と同じ空間に設置されている電子機器である。例えば、テレビジョン装置や、録画機、ブルーレイディスクプレイヤなどのコンテンツ再生機、その他のオーディオ機器、当該対話システム１００以外のエージェントサービスに係るエージェントデバイスなどが外部機器１１０に含まれる。また、ユーザの周囲に設置されたＩｏＴデバイスを外部機器１１０に含めてもよい。

　モバイル機器１２０は、スマートフォンやタブレット端末、パーソナルコンピュータなど、ユーザが所持する情報端末である。また、ユーザの周囲に設置されたＩｏＴデバイスをモバイル機器１２０に含めてもよい。

　認識部１０１は、センサ部１０６の各種センサ信号に対して認識処理を行う。また、認識部１０１は、当該対話システム１００自体の機器動作状況や、外部機器１１０の動作内容（例えば、テレビジョン装置に対するチャンネル切り替え操作や音量調整、画質又は音質調整の状況、コンテンツ再生状況など）などの認識処理も行う。また、外部機器１１０やモバイル機器１２０からは、センサ信号を受け取る場合の他、外部機器１１０やモバイル機器１２０内でのセンサの認識結果を受け取ることも想定される。また、認識部１０１はセンサフュージョン処理を行うことも想定される。本実施形態では、認識部１０１は、カメラ又は近接センサのセンサ信号に対するユーザ室内位置認識、顔認識、顔向き認識、視線認識、表情認識、マイクからの入力音声に対する音声認識、音圧認識、声紋認識、感情認識などを少なくとも行うものとする。そして、認識部１０１は、認識結果を状況判定部１０２に出力するものとする。

　状況判定部１０２は、認識部１０１による認識結果に基づいて、対話システム１００と対話しているユーザやユーザの家族などが置かれている状況を判定する。具体的には、状況判定部１０２は、以下のような状況（１）～（４）を判定する。

（１）当該対話システム１００自体、及び外部機器１１０の使用状況（コンテンツの再生状況など）
（２）ユーザや家族の室内の位置及び向き、顔の向き、移動量、視線、表情など
（３）家族それぞれの室外位置
（４）ユーザや家族それぞれの会話量、会話音の相対的大きさ、感情、会話内容

　また、状況判定部１０２は、上記のような状況を判定するために履歴情報を蓄積する履歴データベース１０７を適宜照会する。履歴データベース１０７は、例えば以下のような履歴情報（１）、（２）を持す。

（１）当該対話システム１００自体、及び外部機器１１０の動作履歴、コンテンツの再生履歴
（２）ユーザプロファイル（家族構成や、家族それぞれの好み、アンケートの回答結果など）

　履歴データベース１０７内の履歴情報は、逐次更新されていくものとする。例えば、状況判定部１０２が状況を判定する度に、履歴データベース１０７内の履歴情報を更新する。

　出力決定部１０３は、状況判定部１０２が判定した状況に基づいて、対話システム１００の出力、すなわち「エージェント」、「アシスタント」、若しくは「スマートスピーカー」として、以下のような対話行動（１）～（３）を決定する。

（１）話し掛けるタイミング
（２）話し掛ける条件
（３）話し掛ける内容

　また、出力決定部１０３は、上記のような状況を判定するために対話情報を蓄積する対話データベース１０８を適宜照会する。対話データベース１０８は、対話情報として、対話内容及びそれを起動する条件を持つ。話し掛ける条件は、対話相手（例えば、家族のうちの誰に話し掛けるのか）や、話をするモード（口調など）を含む。対話データベース１０８内の対話情報は、逐次更新されていくものとする。例えば、出力決定部１０３が出力を決定する度に、対話データベース１０８内の対話情報を更新する。

　出力生成部１０４は、出力決定部１０３により決定された出力を生成する。出力部１０５は、出力生成部１０４が生成した出力を実施する。

　出力部１０５は、例えばスピーカを備え、音声により出力する。音声出力を行う場合、出力決定部１０３が決定した対話情報（テキスト）を、出力生成部１０４で音声合成し、出力部１０５がスピーカから音声出力する。また、出力部１０５は、画面を備え、映像又は画像（例えば、エージェントのキャラクター）の画面表示を、音声と併せて行うようにしてもよい。また、出力部１０５は、対話システム１００に接続された外部機器１１０やモバイル機器１２０が装備する出力デバイスを通じて出力を行うようにしてもよい。

　図２には、対話システム１００の変形例を示している。図２に示す例では、対話システム１００は、エージェントデバイス２１０と、サーバ２２０で構成される。

　エージェントデバイス２１０は、例えばリビングルームなど、対話する相手となるユーザやその家族がいる室内に設置される。一方、サーバ２２０は、クラウド上に設置されている。そして、エージェントデバイス２１０は、サーバ２２０との連携により、ユーザに対話サービスを提供するが、主体的な発話機能及びフィードバック機能を有する点に特徴がある。

　図２に示す例では、エージェントデバイス２１０は、認識部１０１と、出力部１０５と、センサ部１０６を搭載するとともに、インターネットなどのネットワークに接続するための通信部２１１を備えている。エージェントデバイス２１０は、認識部１０１による認識結果を、通信部２１１からネットワークを介して、サーバ２２０に送信する。また、エージェントデバイス２１０は、サーバ２２０により決定された対話行動の内容を、ネットワーク経由で通信部２１１により受信する。

　また、図２に示す例では、サーバ２２０は、状況判定部１０２と、出力決定部１０３と、出力生成部１０４を搭載するとともに、インターネットなどのネットワークに接続するための通信部２２１を備えている。サーバ２２０は、エージェントデバイス２１０による認識結果を、ネットワーク経由で通信部２２１により受信する。また、サーバ２２０は、出力決定部１０３により決定した対話行動の内容を、通信部２２１からネットワークを介して、エージェントデバイス２１０に送信する。

　対話システムの拡張性と応答性を鑑みて、エージェントデバイス２１０及びサーバ２２０側の構成を設計すべきである。

　なお、本明細書では、クラウド（Ｃｌｏｕｄ）というときは、一般的に、クラウドコンピューティング（Ｃｌｏｕｄ　Ｃｏｍｐｕｔｉｎｇ）を指すものとする。クラウドは、インターネットなどのネットワークを経由してコンピューティングサービスを提供する。コンピューティングが、ネットワークにおいて、サービスを受ける情報処理装置により近い位置で行われる場合には、エッジコンピューティング（Ｅｄｇｅ　Ｃｏｍｐｕｔｉｎｇ）やフォグコンピューティング（Ｆｏｇ　Ｃｏｍｐｕｔｉｎｇ）などとも称される。本明細書におけるクラウドは、クラウドコンピューティングのためのネットワーク環境やネットワークシステム（コンピューティングのための資源（プロセッサ、メモリ、無線又は有線のネットワーク接続設備などを含む））を指すものと解される場合もある。また、クラウドの形態で提供されるサービスやプロバイダ（Ｐｒｏｖｉｄｅｒ）を指すものと解される場合もある。また、「サーバ装置」という場合には、コンピューティングにおいて主としてコンピューティングサービスを提供する少なくとも１台のコンピュータ（又はコンピュータの集合）を指すものとする。言い換えると、本明細書における「サーバ装置」は、単体のコンピュータを意味する場合もあるし、コンピュータの集合（群）を意味する場合もある。

Ｂ．システム動作例
　図３には、図１に示す対話システム１００において、主体的な発話機能を実現するための概略的な処理フローを示している。図２に示す対話システム１００も同様の処理フローにより主体的な発話機能を実現するものと理解されたい。

　認識部１０１は、センサ部１０６からのセンサ信号に基づいて、ユーザの状況を認識するとともに、外部機器１１０の動作状況を認識する。（ステップＳ３０１）。

　例えば、認識部１０１は、外部機器１１０としてのブルーレイディスクプレイヤで映画コンテンツをテレビジョン装置上で再生していることを認識することができる。また、認識部１０１は、カメラの撮像画像を画像認識して、ユーザを含む家族（両親とその子供の３人）が再生中の映画コンテンツ（映画ＡＡＡ）を視聴していることを認識することができる。

　その後、認識部１０１は、その後、映画コンテンツの再生が終了したことを認識することができる。また、認識部１０１は、カメラの撮像画像を画像認識して、家族の視線が映画の再生画面から離れたことや、映画コンテンツの再生が終了した後に、家族間の会話量がまだほぼ起こっていないことを認識することができる。

　状況判定部１０２は、認識部１０１による認識結果に基づいて、対話システム１００と対話しているユーザやユーザの家族などが置かれている状況を判定する（ステップＳ３０２）。また、状況判定部１０２は、履歴データベース１０７を適宜照会する。

　例えば、状況判定部１０２は、映画コンテンツの再生が終了したこと、及び、家族の視線が映画の再生画面から離れているが、家族間の会話量がまだほぼ起こっていないという認識結果に基づいて、ユーザを含む家族がテレビジョン装置の前に居て静かに余韻に浸っている状況であると判定することができる。

　そして、出力決定部１０３は、状況判定部１０２が判定した状況に基づいて、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容など、対話システム１００の対話行動を決定する（ステップＳ３０３）。

　例えば、出力決定部１０３は、ユーザが映画の余韻に浸っているという状況から、「映画ＡＡＡを、子供でも楽しめるか」という質問を行うことを決定する。そして、出力決定部１０３は、上記の状況を踏まえて、「両親が傍にいる子供への質問」及び「静かな余韻を保つための声色」モードで出力することを決定して、対話データベース１０８を照会して対話内容を作成する。

　その後、出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する（ステップＳ３０４）。

　例えば、出力部１０５は、出力決定部１０３が決定した対話内容の音声をスピーカから出力する。また、キャラクターをテレビジョン装置の画面に表示して、キャラクター通じて対話するようにしてもよい。図４に示す例では、一緒に映画ＡＡＡを観賞した家族３人の中から、対話の相手を子供に特定している。そして、対話システム１００は、テレビジョン装置の画面に表示したキャラクターを通じて、子供に「…ＡＡＡ、感動しちゃいました。あれ、○○君泣いてます？　ちょっと難しかったけどどうでした？」と話し掛ける。これに対し、子供は、「おもしろかった！　字幕の漢字の読みと意味が分かればもっと理解できたと思う！」と回答する。子供の発話内容は、センサ部１０６に含まれるマイクによって収音され、認識部１０１により音声認識され、さらに状況判定部１０２により状況が判定され、対話システム１００の次の行動に活用される。

　図３に示したような主体的な発話機能によれば、対話システム１００は、より多量で詳細なユーザ情報を取得することが可能となる。また、対話システム１００は、サイレントマジョリティーから幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる。

　図５には、図１に示す対話システム１００において、主体的な発話機能に引き続いて、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知するフィードバック機能を実現するための概略的な処理フローを示している。図２に示す対話システム１００も同様の処理フローにより主体的な発話機能を実現するものと理解されたい。

　認識部１０１は、センサ部１０６からのセンサ信号に基づいて、ユーザの状況を認識するとともに、外部機器１１０の動作状況を認識する。（ステップＳ５０１）。

　例えば、認識部１０１は、カメラの撮像画像からリビングにいる家族を認識するとともに、マイクからの入力音声を音声認識して、家族間の会話量を認識する。また、認識部１０１は、当該対話システム１００自身、及びリビングに設置された外部機器１１０の動作状況を認識する。

　次いで、状況判定部１０２は、認識部１０１による認識結果に基づいて、対話システム１００と対話しているユーザやユーザの家族などが置かれている状況を判定する（ステップＳ５０２）。また、状況判定部１０２は、履歴データベース１０７を適宜照会する。

　例えば、状況判定部１０２は、家族全員が集まっていること、何か機器操作をしている様子はなく、ほどほどに緩い雰囲気で会話がされて、お茶をしているような状況を判定する。

　次いで、出力決定部１０３は、状況判定部１０２が判定した状況に基づいて、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容など、対話システム１００の対話行動を決定する（ステップＳ５０３）。

　例えば、出力決定部１０３は、状況判定部１０２が判定した上記の状況から、録画再生機の新機能である「ＣＭ短縮機能」についての質問を行うことに決定する。また、出力決定部１０３は、上記の状況を踏まえて、「お昼のお茶時間」モードで出力することを決定して、対話データベース１０８を照会して対話内容を作成する。

　次いで、出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する（ステップＳ５０４）。ここでは、出力部１０５からは、特定のユーザに対する質問形式の発話がなされたとする。そして、ユーザは、この質問に対して回答したとする。

　センサ部１０６に含まれるマイクは、ユーザからの回答を収音する（ステップＳ５０５）。認識部１０１は、マイクで収音されたユーザの発話内容を音声認識処理する（ステップＳ５０６）。ここでは、録画再生機の新機能である「ＣＭ短縮機能」に関する質問に対する発話者からの回答と認識する。

　次いで、状況判定部１０２は、認識部１０１による認識結果に基づいて、発話者の状況を判定する（ステップＳ５０７）。例えば、状況判定部１０２は、「ＣＭ短縮機能」に関する質問に対する発話者からの回答から、「この家族にとって適当なＣＭの長さは、ドラマや映画では３０秒で、その他では１０秒」といった状況を判定する。

　対話システム１００は、状況判定部１０２による判定結果に基づいて、対応処理を実施する。上記のように適当なＣＭの長さを判定した場合には、外部機器１１０として接続される録画再生機に対して、判定結果に基づく「ＣＭ短縮機能」の設定を自動で実施する。外部機器１１０の設定処理は、出力決定部１０３が行ってもよいが、状況判定部１０２が行うようにしてもよい。

　次いで、出力決定部１０３は、状況判定部１０２が判定した状況に基づいて、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容など、対話システム１００の対話行動を決定する（ステップＳ５０８）。

　上記のようにユーザからのアンケート回答結果に対応した直後においては、出力決定部１０３は、対応結果や対応状況についてユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。また、出力決定部１０３は、ユーザからの回答結果に対応したという状況を踏まえて、「その旨を通知」及び「変更方法も教示」モードで出力することを決定して、対話データベース１０８を照会して対話内容を作成する。

　次いで、出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する（ステップＳ５０９）。ここでは、出力部１０５からは、対応結果や対応状況についてユーザに話し掛けて通知する。

　図５に示した処理手順によれば、対話システム１００は、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知するフィードバック機能を実現することができる。このようなフィードバック機能によれば、ユーザが対話システム１００からの話し掛けに回答する動機付けを増加することができ、対話システム１００がユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム１００を搭載した機器又はサービスの改善に活用することができる。

Ｃ．主体的発話機能の動作例
　本実施形態に係る対話システム１００は、ユーザが置かれている状況や傾向、履歴に基づいて、文脈に沿ったタイミング及び内容で、主体的にユーザに話し掛ける主体的な発話機能を有している。ここでは、対話システム１００から主体的な発話機能を実施するいくつかの具体例について説明する。

Ｃ－１．視線集中の低下に基づく主体的な発話
　認識部１０１は、外部機器１１０としてのコンテンツ再生機でのコンテンツの再生状況や、その他の機器の操作状況を認識することができる。また、認識部１０１は、マイクからの入力音声を音声認識し、カメラ画像からユーザの視線を認識することができる。認識部１０１が、ユーザが映画やドラマの視聴を終了し、視線の集中がコンテンツ再生画面から離れたこと、会話や別の機器操作をしていないことを認識する。状況判定部１０２は、このような認識結果に基づいて、「ユーザは、コンテンツへの視線集中は低下したが、再生機器の前には引き続き滞在しているため、余韻があり、コンテンツを視聴した感想を聞いてもよいタイミング」であると判定する。そして、出力決定部１０３は、このような判定結果に基づいて、ユーザに感想を尋ねるという対話行動を決定して、対話データベース１０８を照会して対話内容を作成する。出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する。

　図６に示す例では、対話システム１００は、家族３人が映画ＡＡＡの視聴を終了し、視線の集中が画面から離れ、会話や別の機器操作を行っていないという認識結果に基づいて、「ユーザは、コンテンツへの視線集中は低下したが、再生機器の前には引き続き滞在しているため、余韻があり、コンテンツを視聴した感想を聞いてもよいタイミング」であると判定する。そして、対話の相手を子供に特定して、テレビジョン装置の画面に表示したキャラクターを通じて、子供に「…ＡＡＡ、凄かったですね！　ちょっと難しかったけど○○君はどうでした？」と尋ねる。これに対し、子供は、「おもしろかった！　字幕の漢字の読みと意味が分かればもっと理解できたと思う！」と回答する。子供の発話内容は、センサ部１０６に含まれるマイクによって収音され、認識部１０１により音声認識され、さらに状況判定部１０２により状況が判定され、対話システム１００の次の行動に活用される。

　対話システム１００は、上記のような主体的な発話を実施した結果、ユーザの体験の記憶が薄れない鮮度の高い状態で、且つ、ユーザの視聴行動や次の行動を邪魔せず、ユーザからフィードバックを得ることができる。視聴行動の事後にフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム１００によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。

Ｃ－２．位置情報に基づく主体的な発話
　認識部１０１は、ユーザが所持するモバイル機器１２０の位置情報と、カメラ画像認識を通じて、ユーザの居場所を認識することができる。例えば、認識部１０１が、対話システム１００がユーザに推薦したお出掛け先（レストランなど）に実際に行ったこと、そしてその外出先から帰宅したことを、モバイル機器１２０の位置情報とカメラ画像から認識する。状況判定部１０２は、このような認識結果に基づいて、レストランの感想を聞いてもよいタイミングであると判定する。そして、出力決定部１０３は、このような判定結果に基づいて、ユーザに感想を尋ねるという対話行動を決定して、対話データベース１０８を照会して対話内容を作成する。出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する。

　図７に示す例では、対話システム１００は、家族３人がレストランＡＡに実際に行き、その外出先から帰宅したという認識結果に基づいて、父親に「おかえりなさい。レストランＡＡはいかがでしたか？　ここは食べられました？」と尋ねる。これに対し、父親は、「ＢＢはもうメニューになかったよ…でも禁煙だし接客もよくて満足。また行きたい。」と回答する。父親の発話内容は、センサ部１０６に含まれるマイクによって収音され、認識部１０１により音声認識され、さらに状況判定部１０２により状況が判定され、対話システム１００の次の行動に活用される。

　対話システム１００は、上記のような主体的な発話を実施した結果、ユーザの体験の記憶が薄れない鮮度の高い状態で、対話システム１００の推薦技術に対するフィードバックや、お出掛け先やレストランに対するフィードバック、ユーザの嗜好情報を取得することができる。また、推薦技術に対するフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム１００によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。

Ｃ－３．会話のない状態に基づく主体的な発話
　認識部１０１は、カメラ画像の画像認識と、マイクからの入力音声の音声認識を通じて、ユーザが行っている作業と、会話の有無を認識することができる。例えば、認識部１０１は、画像認識及び音声認識を通じて、ユーザの家族複数人で食事中であるが会話がない状態が続いていることを認識する。状況判定部１０２は、このような認識結果に基づいて、対話システム１００から主体的にユーザに話し掛けてよい状況であると判定する。そして、出力決定部１０３は、このような判定結果に基づいて、アンケートなどのユーザとの会話を開始することを決定して、対話データベース１０８を照会してアンケート内容を作成する。出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する。

　対話システム１００は、上記のような主体的な発話を実施した結果、ユーザの会話を阻害せず、むしろユーザの会話を促進することができる。また、会話がない状態でフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム１００によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。

Ｃ－４．ユーザの行動のセンシングに基づく主体的な発話
　認識部１０１は、外部機器１１０としての音楽再生機での音楽の再生状況や、ユーザがよく聴く楽曲を認識することができる。例えば、認識部１０１は、音楽再生器の動作状況及び画像認識を通じて、いつも特定のアーティストの楽曲を再生するユーザが部屋に居て、そのアーティストの楽曲の再生を開始するが、すぐにそのユーザによって止められてしまったことを認識する。状況判定部１０２は、このような認識結果に基づいて、そのユーザがなぜいつもと違う行動をしたのかを対話システム１００から主体的に話しかけてよい状況であると判定する。そして、出力決定部１０３は、このような判定結果に基づいて、ユーザが楽曲を止めた理由を尋ねるという対話行動を決定して、対話データベース１０８を照会して対話内容を作成する。出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する。

　対話システム１００は、上記のような主体的な発話を実施した結果、「本を読んでいるときは歌詞のある音楽は聴きたくない」、「そのアーティスクが嫌いになった訳ではない」、「その曲が嫌いな訳ではない」といった、より詳しいユーザ情報や、機器の操作ログなどでは判明し難い情報を取得することができる。また、通常とは異なる行動をとった理由のフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム１００によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。

Ｃ－５．機器操作のセンシングに基づく主体的な発話
　認識部１０１は、対話システム１００と接続可能な各種の外部機器１１０の操作状況を認識することができる。例えば、認識部１０１は、外部機器１１０の操作状況のログから、ユーザからの機器操作が長時間途絶えていることや、機器の一部の特定の機能のみが使用されていることを認識する。状況判定部１０２は、このような認識結果に基づいて、そのユーザがなぜ機器操作を止めたのか、あるいはなぜ特異な（若しくは、いつもとは異なる）機器操作を行っているのかを対話システム１００から主体的に話しかけてよい状況であると判定する。そして、出力決定部１０３は、このような判定結果に基づいて、ユーザの機器操作を止め又は特異な機器操作を行う理由を尋ねるという対話行動を決定して、対話データベース１０８を照会して対話内容を作成する。出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する。

　また、認識部１０１は、対話システム１００が提供するサービスや、対話システム１００と連携するサービスのユーザによる利用状況を認識することができる。例えば、認識部１０１は、利用状況のログから、ユーザがサービスを長時間利用していないことや、一部のサービスのみが利用されていることを認識する。状況判定部１０２は、このような認識結果に基づいて、ユーザがサービスに興味を失ったか否か、あるいはユーザがサービスに興味を失った理由について対話システム１００から主体的に話しかけてよい状況であると判定する。そして、出力決定部１０３は、このような判定結果に基づいて、ユーザの機器操作を止め又は特異な機器操作を行う理由を尋ねるという対話行動を決定して、対話データベース１０８を照会して対話内容を作成する。出力生成部１０４は、出力決定部１０３により決定された出力を生成し、出力部１０５は、出力生成部１０４が生成した出力を実施する。

　対話システム１００は、上記のような主体的な発話を実施した結果、該当する機器やサービスに興味を失った又は失いつつあるユーザに対して、働きかける機会を得ることができる。また、機器やサービスに対して興味を失った又は失いつつある理由のフィードバックを自ら行うユーザは限定的と考えられるので、ユーザから話し掛けられたことをトリガとする従来の対話システムと比較すると、本実施形態に係る対話システム１００によれば、幅広いユーザ層からフィードバックを得られるという特徴がある。

　本実施形態に係る対話システム１００は、主体的発話機能により、より多量で詳細なユーザ情報を取得することが可能となる。また、サイレントマジョリティーから幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる。

Ｄ．フィードバック機能の動作例
　本実施形態に係る対話システム１００は、ユーザからの回答結果に対応した後に、対応結果や対応状況についてユーザに話し掛けて通知するフィードバック機能を有している。ここでは、対話システム１００からフィードバック機能を実施するいくつかの具体例について説明する。

Ｄ－１．ユーザからの回答結果を機器設定に反映する場合
　対話システム１００は、例えば外部機器１１０やサービスに関するアンケートをユーザに対して行い、ユーザからのアンケートの回答結果を外部機器１１０やサービスの設定に反映する。

　例えば、外部機器１１０の１つである録画再生機の新機能として「ＣＭ短縮機能」が実現した際に、出力決定部１０３は、いつもＣＭを早送りしているユーザを相手に特定して、ＣＭ短縮機能についてアンケートを行うことに決定する。そして、出力生成部１０４及び出力部１０５を通じて、そのユーザにアンケートを実施する。

　ユーザからのアンケートの回答をマイクで収音し、認識部１０１で音声認識する。そして、状況判定部１０２は、認識結果に基づいて、そのユーザにとって適当なＣＭの長さは、ドラマや映画では３０秒で、その他では１０秒であると判定すると、録画再生機に対して判定結果に基づく「ＣＭ短縮機能」の設定を自動で実施して、アンケートの回答を外部機器１１０やサービスに反映する。

　出力決定部１０３は、ユーザからのアンケート回答結果に対応した直後においては、対応結果や対応状況についてユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部１０４及び出力部１０５を通じてユーザに話し掛けて、アンケート回答の対応結果や対応状況を通知する。その結果、ユーザが対話システム１００からの話し掛けに回答する動機付けを増加することができ、対話システム１００がユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム１００を搭載した機器又はサービスの改善に活用することができる。

Ｄ－２．ユーザの不満を聞き出して機器やサービスの改善に反映する場合
　対話システム１００は、例えば外部機器１１０やサービスに関するアンケートをユーザに対して行い、ユーザからのアンケートの回答結果を外部機器１１０やサービスの改善に反映するとともに、ユーザに通知する。

　例えば、出力決定部１０３は、外部機器１１０や対話システム１００のサービスに対する不満をユーザに尋ねることを決定して、出力生成部１０４及び出力部１０５を通じて、そのユーザにアンケートを実施する。

　ユーザからの回答をマイクで収音し、認識部１０１で音声認識する。そして、状況判定部１０２は、認識結果に基づいて、ユーザの不満を解決するために必要となる、外部機器１１０又はサービスの提供元における改善ソフトウェアのリリースやその他の代替策を判定する。

　出力決定部１０３は、ユーザの不満を解決するための改善ソフトウェアのリリースやその他の代替策について、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部１０４及び出力部１０５を通じてユーザに話し掛けて、改善ソフトウェアのリリースやその他の代替策を通知する。ユーザへの通知を行った結果、ユーザは対話システム１００の話し掛けによって外部機器１１０やサービスが改善されたことに気付き、ユーザが対話システム１００からの話し掛けに回答する動機付けを増加することができ、対話システム１００がユーザに話を聞ける障壁を低くすることにもつながる。

　あるいは、出力決定部１０３は、外部機器１１０や対話システム１００のサービスに追加して欲しい機能や、逆に削減してもよい機能を複数のユーザに尋ねることを決定して、出力生成部１０４及び出力部１０５を通じて、各ユーザにアンケートを実施する。そして、ユーザからの回答をマイクで収音し、認識部１０１で音声認識し、状況判定部１０２は、認識結果に基づいてアンケートの回答を集計する。

　出力決定部１０３は、次に開発すべき機能や削減してもよい機能の投票結果について、ユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部１０４及び出力部１０５を通じてユーザに話し掛けて、改善ソフトウェアのリリースやその他の代替策を通知する。

　また、外部機器１１０やサービスの提供元が、ユーザの投票結果に基づいてソフトウェアを更新してリリースした際には、状況判定部１０２がかかる状況を判定し、出力決定部１０３はソフトウェアのリリースをユーザに話し掛けるタイミング、話し掛ける条件、及び話し掛ける内容を決定する。そして、出力生成部１０４及び出力部１０５を通じてユーザに話し掛けて、ソフトウェアのリリースを通知する。ユーザへの通知を行った結果、ユーザは対話システム１００の話し掛けによって外部機器１１０やサービスが改善されたことに気付き、ユーザが対話システム１００からの話し掛けに回答する動機付けを増加することができ、対話システム１００がユーザに話を聞ける障壁を低くすることにもつながる。

　本実施形態に係る対話システム１００は、フィードバック機能により、ユーザが対話システム１００からの話し掛けに回答する動機付けを増加することができ、対話システム１００がユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム１００を搭載した機器又はサービスの改善に活用することができる。

Ｅ．対話システムの効果
　最後に、本実施形態に係る対話システム１００の効果についてまとめておく。

　ユーザから話し掛けられたことをトリガにしてユーザとの対話が開始される従来の対話システムでは、ユーザから話し掛けられない限り、ユーザ情報やアンケートの回答を聞き出すことができないため、ユーザから情報を得る機会と内容は限定的となり、得られるユーザ情報やアンケート回答の量及び質が十分でないという問題がある。また、ユーザ毎に回答の数にばらつきが生じ、統計的な情報を取得し難い。また、外部機器１１０やサービスの利用から遠ざかった離脱ユーザからその理由を聞き出すなど働きかけを行い難い。

　これに対し、本実施形態に係る対話システム１００は、ユーザの状況又は傾向を鑑みて主体的にユーザに話し掛けることができる。したがって、より多量で詳細なユーザ情報を取得することが可能であり、サイレントマジョリティーから幅広いユーザ情報を取得したり、離脱ユーザから当該機器又はサービスを主体的に使わなくなった理由を聞き出したりすることができる、という効果がある。

　また、従来の対話システムは、基本的に、対話から収集したユーザ情報がその後どのように使われたかをユーザにフィードバックする仕組みを備えておらず、ユーザは対話システムからの問いかけに応答したことに対して得られる報酬は、対話の楽しみのみであり、回答する動機付けが少ないため回答率が低下していくという問題がある。また、ユーザからの回答結果を当該機器又はサービスの体験自体に活用することができない。

　これに対し、本実施形態に係る対話システム１００は、ユーザからの回答結果に対応することができる、且つ、対応結果や対応状況についてユーザに話し掛けて通知することができる。したがって、ユーザが対話システムからの話し掛けに回答する動機付けを増加することができ、対話システムがユーザに話を聞ける障壁を低くすることにもつながる。また、対話システム１００を搭載した機器又はサービス自体の改善に活用することができる。

　以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本明細書では、本明細書で開示する技術を「エージェント」又は「アシスタント」とも呼ばれる対話システムに適用した実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。例えば、アンケートの回答を収集するアンケートデータ収集システムにも、本明細書で開示する技術を適用して、より多量で詳細なアンケート回答を収集することができる。

　要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）ユーザの状況又は傾向を判定する判定部と、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
を具備する情報処理装置。
（２）前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関する認識結果に基づいて、前記ユーザの状況又は傾向を判定する、
上記（１）に記載の情報処理装置。
（３）前記判定部は、前記機器の使用状況、前記ユーザや家族の室内の位置及び向き、顔の向き、移動量、視線、表情、前記家族それぞれの室外位置、前記ユーザや前記家族それぞれの会話量、会話音の相対的大きさ、感情、会話内容を判定する、
上記（１）又は（２）のいずれかに記載の情報処理装置。
（４）前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する、
上記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）前記判定部は、前記ユーザの視線集中度を判定し、
　前記決定部は、前記ユーザの視線集中が低下したことに基づいて、前記ユーザに対する出力を決定する、
上記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）前記判定部は、前記ユーザの位置情報に基づいて前記ユーザの状況を判定し、
　前記決定部は、前記ユーザの位置情報に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）前記判定部は、会話の状態に基づいて前記ユーザの状況を判定し、
　前記決定部は、会話の状態に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作の変化に基づいて前記ユーザの状況を判定し、
　前記決定部は、前記変化に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）前記判定部は、前記ユーザが機器に対して行う操作の内容又は操作の傾向に基づいて前記ユーザの状況を判定し、
　前記決定部は、前記ユーザの機器操作の内容又は傾向に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
上記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）前記判定部は、前記決定部が出力を決定した質問に対する前記ユーザからの回答を判定して、対応処理を実施する、
上記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）前記判定部は、前記対応処理の状況又は結果を判定し、
　前記決定部は、前記対応処理の状況又は結果の前記ユーザへの出力を決定する、
上記（１０）に記載の情報処理装置。
（１２）前記判定部は、機器又はサービスの新機能のアンケートに対する前記ユーザからの回答に基づいて、前記新機能の設定を判定する、
上記（１０）に記載の情報処理装置。
（１３）前記決定部は、前記ユーザからの回答の対応状況又は対応結果の前記ユーザへの出力を決定する、
上記（１２）に記載の情報処理装置。
（１４）前記判定部は、機器又はサービスへの不満に関するアンケートに対する前記ユーザからの回答に基づいて、改善ソフトウェアのリリース又はその他の代替策を判定する、
上記（１０）に記載の情報処理装置。
（１５）前記決定部は、前記改善ソフトウェアのリリース又はその他の代替策を前記ユーザに通知するための出力を決定する、
上記（１４）に記載の情報処理装置。
（１６）ユーザの状況又は傾向を判定する判定ステップと、
　前記判定ステップにおける判定結果に基づいて、前記ユーザに対する出力を決定する決定ステップと、
を有する情報処理方法。
（１７）ユーザの状況又は傾向を判定する判定部、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
（１８）ユーザ又は前記ユーザが使用する機器の動作を認識処理する認識部と、
　前記認識部の認識結果に基づいて前記ユーザの状況又は傾向を判定する判定部と、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
　前記決定に基づいて前記ユーザに対する出力を行う出力部と、
を具備する対話システム。

　１００…対話システム
　１０１…認識部、１０２…状況判定部
　１０３…出力決定部、１０４…出力生成部、１０５…出力部、
　１０６…センサ部、１０７…履歴データベース
　１０８…対話データベース

Claims

　ユーザの状況又は傾向を判定する判定部と、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
を具備する情報処理装置。
　前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作に関する認識結果に基づいて、前記ユーザの状況又は傾向を判定する、
請求項１に記載の情報処理装置。
　前記判定部は、前記機器の使用状況、前記ユーザや家族の室内の位置及び向き、顔の向き、移動量、視線、表情、前記家族それぞれの室外位置、前記ユーザや前記家族それぞれの会話量、会話音の相対的大きさ、感情、会話内容を判定する、
請求項１に記載の情報処理装置。
　前記決定部は、ユーザに話し掛けるタイミング、話し掛ける条件、又は話し掛ける内容を決定する、
請求項１に記載の情報処理装置。
　前記判定部は、前記ユーザの視線集中度を判定し、
　前記決定部は、前記ユーザの視線集中が低下したことに基づいて、前記ユーザに対する出力を決定する、
請求項１に記載の情報処理装置。
　前記判定部は、前記ユーザの位置情報に基づいて前記ユーザの状況を判定し、
　前記決定部は、前記ユーザの位置情報に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
請求項１に記載の情報処理装置。
　前記判定部は、会話の状態に基づいて前記ユーザの状況を判定し、
　前記決定部は、会話の状態に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
請求項１に記載の情報処理装置。
　前記判定部は、前記ユーザ又は前記ユーザが使用する機器の動作の変化に基づいて前記ユーザの状況を判定し、
　前記決定部は、前記変化に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
請求項１に記載の情報処理装置。
　前記判定部は、前記ユーザが機器に対して行う操作の内容又は操作の傾向に基づいて前記ユーザの状況を判定し、
　前記決定部は、前記ユーザの機器操作の内容又は傾向に応じた判定結果に基づいて、前記ユーザに対する出力を決定する、
請求項１に記載の情報処理装置。
　前記判定部は、前記決定部が出力を決定した質問に対する前記ユーザからの回答を判定して、対応処理を実施する、
請求項１に記載の情報処理装置。
　前記判定部は、前記対応処理の状況又は結果を判定し、
　前記決定部は、前記対応処理の状況又は結果の前記ユーザへの出力を決定する、
請求項１０に記載の情報処理装置。
　前記判定部は、機器又はサービスの新機能のアンケートに対する前記ユーザからの回答に基づいて、前記新機能の設定を判定する、
請求項１０に記載の情報処理装置。
　前記決定部は、前記ユーザからの回答の対応状況又は対応結果の前記ユーザへの出力を決定する、
請求項１２に記載の情報処理装置。
　前記判定部は、機器又はサービスへの不満に関するアンケートに対する前記ユーザからの回答に基づいて、改善ソフトウェアのリリース又はその他の代替策を判定する、
請求項１０に記載の情報処理装置。
　前記決定部は、前記改善ソフトウェアのリリース又はその他の代替策を前記ユーザに通知するための出力を決定する、
請求項１４に記載の情報処理装置。
　ユーザの状況又は傾向を判定する判定ステップと、
　前記判定ステップにおける判定結果に基づいて、前記ユーザに対する出力を決定する決定ステップと、
を有する情報処理方法。
　ユーザの状況又は傾向を判定する判定部、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
　ユーザ又は前記ユーザが使用する機器の動作を認識処理する認識部と、
　前記認識部の認識結果に基づいて前記ユーザの状況又は傾向を判定する判定部と、
　前記判定部の判定結果に基づいて、前記ユーザに対する出力を決定する決定部と、
　前記決定に基づいて前記ユーザに対する出力を行う出力部と、
を具備する対話システム。