WO2020116026A1

WO2020116026A1 - 応答処理装置、応答処理方法及び応答処理プログラム

Info

Publication number: WO2020116026A1
Application number: PCT/JP2019/040156
Authority: WO
Inventors: 真里斎藤
Original assignee: ソニー株式会社
Priority date: 2018-12-07
Filing date: 2019-10-11
Publication date: 2020-06-11
Also published as: EP3893087A4; EP3893087A1; US20220036897A1

Abstract

応答処理装置（１００）は、情報機器が応答を生成する契機となる情報である入力情報をユーザから取得する取得部（４０）と、複数の情報機器のうち、入力情報に対応した応答を生成する情報機器を選択する選択部（５０）と、入力情報に対応する応答であって、選択された情報機器によって生成された応答の出力を制御する出力制御部（５５）と、を備える。

Description

応答処理装置、応答処理方法及び応答処理プログラム

　本開示は、応答処理装置、応答処理方法及び応答処理プログラムに関する。詳しくは、複数の情報機器を利用するユーザに対する応答処理に関する。

　ネットワーク技術の進歩に伴い、ユーザが複数の情報機器を利用する機会が増えている。このような状況に鑑みて、複数の情報機器を円滑に活用するための技術が提案されている。

　例えば、ネットワークを介して複数のクライアント機器が接続されたシステムにおいて、システムを統括制御する機器を置くことで、システム全体の処理を効率良く行うための技術が提案されている。

特開平７－４８８２号公報

　上記の従来技術によれば、システムを統括制御する機器が各情報機器への処理依頼を受け、個々の情報機器の機能に応じた処理を実行することにより、システム全体の処理を効率良く行うことができる。

　しかしながら、従来技術では、ユーザの利便性を向上させることができるとは限らない。具体的には、従来技術では、各情報機器が処理依頼を受け入れられるか否かを判定するに過ぎず、例えば各情報機器がユーザの要求を受けて処理を行う場合等に、ユーザの要求に応えるような態様で処理が行われるとは限らない。

　そこで、本開示では、ユーザの利便性を向上させることができる応答処理装置、応答処理方法及び応答処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の応答処理装置は、情報機器が応答を生成する契機となる情報である入力情報をユーザから取得する取得部と、複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択する選択部と、前記入力情報に対応する応答であって、前記選択された情報機器によって生成された応答の出力を制御する出力制御部と、を備える。

本開示の第１の実施形態に係る応答処理の一例を示す図（１）である。本開示の第１の実施形態に係る応答処理の一例を示す図（２）である。本開示の第１の実施形態に係る応答処理の一例を示す図（３）である。本開示の第１の実施形態に係る応答処理の一例を示す図（４）である。本開示の第１の実施形態に係る応答処理の一例を示す図（５）である。本開示の第１の実施形態に係る応答処理の一例を示す図（６）である。本開示の第１の実施形態に係る応答処理システムの構成例を示す図である。本開示の第１の実施形態に係るユーザ情報テーブルの一例を示す図である。本開示の第１の実施形態に係る行動情報テーブルの一例を示す図である。本開示の第１の実施形態に係る端末情報テーブルの一例を示す図である。本開示の第１の実施形態に係る機能テーブルの一例を示す図である。本開示の第１の実施形態に係る処理の流れを示すフローチャートである。本開示の第２の実施形態に係る情報処理の一例を示す図である。本開示の第２の実施形態に係るデータベースの一例を示す図である。本開示の第３の実施形態に係る情報処理の一例を示す図である。本開示の第４の実施形態に係る情報処理の一例を示す図である。応答処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．第１の実施形態
　　　１－１．第１の実施形態に係る応答処理の一例
　　　１－２．第１の実施形態に係る応答処理システムの構成
　　　１－３．第１の実施形態に係る応答処理の手順
　　　１－４．第１の実施形態に係る変形例
　　２．第２の実施形態
　　　２－１．第２の実施形態に係る応答処理の一例
　　　２－２．第２の実施形態に係る変形例
　　３．第３の実施形態
　　４．第４の実施形態
　　５．その他の実施形態
　　６．本開示に係る応答処理装置の効果
　　７．ハードウェア構成

（１．第１の実施形態）
［１－１．第１の実施形態に係る応答処理の一例］
　図１を用いて、本開示の第１の実施形態に係る応答処理の一例を説明する。図１は、本開示の第１の実施形態に係る応答処理の一例を示す図（１）である。本開示の第１の実施形態に係る情報処理は、図１に示す応答処理装置１００によって実行される。

　応答処理装置１００は、本開示に係る応答処理装置の一例である。応答処理装置１００は、いわゆるＩｏＴ（Internet　of　Things）機器であり、クラウドサーバ等の外部機器と連携して、種々の情報処理を行う。例えば、応答処理装置１００は、ユーザとの対話を行う機器であり、音声認識やユーザへの応答生成等の種々の情報処理を行う。応答処理装置１００が実行する音声認識及び音声による応答処理等は、エージェント（Agent）機能と称される場合がある。また、応答処理装置１００は、エージェント機器と称される場合がある。

　第１の実施形態では、応答処理装置１００が、いわゆるスマートスピーカー（smart　speaker）である例を示す。なお、応答処理装置１００は、音声出力を行うスピーカー部のみならず、映像等を出力する表示部（液晶ディスプレイ等）を備えてもよい。また、応答処理装置１００は、スマートフォンやタブレット端末等であってもよい。この場合、スマートフォンやタブレット端末は、本開示の応答処理を実現するためのプログラム（アプリケーション）を実行することにより、本開示に係る応答処理装置１００として機能する。

　また、応答処理装置１００は、スマートフォンやタブレット端末以外にも、時計型端末や眼鏡型端末などのウェアラブルデバイス（wearable　device）であってもよい。また、応答処理装置１００は、情報処理機能を有する種々のスマート機器により実現されてもよい。例えば、応答処理装置１００は、テレビやエアコン、冷蔵庫等のスマート家電や、自動車などのスマートビークル（Smart　vehicle）や、ドローン（drone）、ペット型ロボットや人型ロボット等の自律型ロボットであってもよい。

　図１の例では、応答処理装置１００は、応答処理装置１００を利用するユーザが居住する自宅に設置されるものとする。第１の実施形態において、応答処理装置１００は、集音した音声やユーザの行動等、応答を生成するための契機となる情報（以下、「入力情報」と称する）に対する応答処理を実行する。例えば、応答処理装置１００は、ユーザが発した質問を認識し、質問に対する回答を音声出力したり、質問に関する情報を画面に表示したりする。なお、応答処理装置１００が実行する音声認識処理や出力処理等については、種々の既知の技術が利用されてもよい。

　また、図１に示す例では、ユーザは、応答処理装置１００とともに、端末１０Ａや、端末１０Ｂや、端末１０Ｃ等の情報機器を利用するものとする。端末１０Ａ、端末１０Ｂ、及び端末１０Ｃは、応答処理装置１００と同様、エージェント機能を有する各種情報機器である。例えば、端末１０Ａ、端末１０Ｂ、及び端末１０Ｃは、種々のメーカが開発した情報機器であり、各々が異なるクラウドサーバ等と連携し、各々がエージェント機器として利用可能な情報機器である。なお、以下では、端末１０Ａや端末１０Ｂ、端末１０Ｃ等の個々の端末を区別する必要のない場合、「端末１０」と総称する。

　図１の例のように、複数のエージェント機器がユーザに利用される状況で適切な運用を行うためには、様々な課題が存在する。

　例えば、各々のエージェント機器には、エージェント機能の利用を開始するための起動ワードが設定される。このため、複数のエージェント機器を利用する場合、ユーザは、各々のエージェント機器に対応する起動ワードを発することを要する。

　また、各々のエージェント機器は、例えばユーザから質問を受けた場合には、各々異なるサービスにアクセスして回答を得る。具体的には、各々のエージェント機器は、天気情報をユーザから尋ねられた場合、各々が異なる天気情報サービスにアクセスして、各々が異なる回答を得る。このため、ユーザは、質問に答えたエージェント機器が、自身が知りたかった情報（例えば紫外線情報や花粉情報等）を発するか否かを判別することが難しい。また、エージェント機器によっては、ユーザから質問された回答を得るためのサービスにアクセスできず、回答を生成することができない可能性もある。適切な回答が得られなかった場合、ユーザは、異なるエージェント機器に同じ質問を発するという手間を要する。

　また、各々のエージェント機器は、画像出力が可能であるか否か、音声出力が可能であるか否か等、様々に異なる性能や機能を有する。エージェント機器が増えるにつれ、ユーザにはそれらの性能や機能を記憶することが難しくなるため、エージェント機器の性能や機能を発揮させにくくなる。また、エージェント機器が更新され、新たな機能が追加された場合等にも、ユーザがその更新を一つ一つ確認することは負担が大きく、追加された機能が利用されないおそれもある。

　そこで、本開示に係る応答処理装置１００は、以下に説明する応答処理によって、上記課題を解決する。

　具体的には、応答処理装置１００は、複数のエージェント機器のフロンドエンド機器として機能し、ユーザとのやりとりを一括して受け付ける。例えば、応答処理装置１００は、ユーザから受け付けた質問の内容を解析し、応答を生成するエージェント機器を選択する。一例として、応答処理装置１００は、連携する複数のエージェント機器の機能や性能を参照し、ユーザの質問に対して最も適切な応答を生成すると想定されるエージェント機器を選択する。これにより、応答処理装置１００は、ユーザが望む応答が生成される精度を向上させることができる。また、応答処理装置１００は、選択されたエージェント機器によって生成された応答を出力する態様を決定する。例えば、応答処理装置１００は、生成された応答（例えば音声データ）を受け付けたのち、ユーザの位置を検知し、ユーザから最も近い位置に設置されている他のエージェント機器に応答を送信する。そして、応答処理装置１００は、応答を受信したエージェント機器を制御し、応答を出力させる。これにより、応答処理装置１００は、ユーザから最も近い位置にあるエージェント機器から応答を出力できるため、ユーザに情報を適切に伝達することができる。

　このように、応答処理装置１００は、複数のエージェント機器のフロントエンド機器としてふるまい、応答の生成や出力を制御することにより、ユーザの利便性を向上させる。以下、本開示に係る第１の実施形態の応答処理の一例について、図１乃至図６を用いて、流れに沿って説明する。

　図１に示す例では、応答処理装置１００は、端末１０Ａ、端末１０Ｂ、端末１０Ｃの各々と連携しているものとする。例えば、応答処理装置１００は、端末１０Ａ、端末１０Ｂ、端末１０Ｃを起動するための起動ワードや、各々が音声を受け付けるための形式（例えば、各々のエージェント機器が処理可能な音声ＡＰＩ（Application　Programming　Interface）の種類等）等の情報をデータベースとして記憶する。

　また、応答処理装置１００は、自装置を起動するための起動ワードの設定もユーザから予め受け付ける。例えば、応答処理装置１００は、「ハロー」という音声入力を起動ワードとして受け付けているものとする。

　この場合、応答処理装置１００は、ユーザから「ハロー」という音声Ａ０１が入力された場合、自装置の応答処理を起動する（ステップＳ１）。また、応答処理装置１００は、音声Ａ０１を契機として、連携する各々の端末１０を起動させる。

　具体的には、応答処理装置１００は、「ユーザから音声Ａ０１が入力された」ということを示す情報を端末１０Ａの起動ワードに相当する情報に変換し、変換した情報Ａ０２を端末１０Ａに送信する（ステップＳ２）。端末１０Ａの起動ワードに相当する情報とは、実際に端末１０Ａを起動させるための音声データであってもよいし、端末１０Ａを起動させるためのスクリプト（プログラム）であってもよい。例えば、応答処理装置１００は、Ｗｉ－Ｆｉ（登録商標）等の家庭内ネットワークや、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の無線通信を利用し、情報Ａ０２を端末１０Ａに送信する。

　すなわち、ユーザは、応答処理装置１００に起動ワードである音声Ａ０１を入力するだけで、端末１０Ａも連動して起動させることができる。

　同様に、応答処理装置１００は、「ユーザから音声Ａ０１が入力された」ということを示す情報を端末１０Ｂの起動ワードに相当する情報に変換し、変換した情報Ａ０３を端末１０Ｂに送信する（ステップＳ３）。また、応答処理装置１００は、「ユーザから音声Ａ０１が入力された」ということを示す情報を端末１０Ｃの起動ワードに相当する情報に変換し、変換した情報Ａ０４を端末１０Ｃに送信する（ステップＳ４）。

　このように、応答処理装置１００は、自装置の起動ワードを認識した場合に、連携する端末１０Ａ、端末１０Ｂ、端末１０Ｃの各々を起動させる。これにより、ユーザは、これから対話を行おうとする機器の全てに起動ワードを発することなく、自宅に設置された全ての機器を起動させることができる。なお、応答処理装置１００は、自装置と連動して起動させない端末１０を個別に指定する設定をユーザから受け付けておいてもよい。これにより、ユーザは、連動して起動させる端末１０と起動させない端末１０とを区別することができる。

　次に、図２を用いて、応答処理装置１００が、ユーザから受け付けた質問に対して応答を出力する一例について説明する。図２は、本開示の第１の実施形態に係る応答処理の一例を示す図（２）である。

　図１の例において応答処理装置１００を起動させたユーザは、続けて、応答処理装置１００に対して質問を入力する。例えば、ユーザは、「料理ＸＸＸのレシピおしえて」と発話することで、発話の内容を含む音声Ａ１１を応答処理装置１００に入力する。

　応答処理装置１００は、音声Ａ１１を入力情報として、応答処理を開始する（ステップＳ１１）。具体的には、応答処理装置１００は、音声Ａ１１を取得し、自動音声認識（ＡＳＲ（Automatic　Speech　Recognition））処理や自然言語理解（ＮＬＵ（Natural　Language　Understanding））処理を経て、音声Ａ１１に含まれるユーザの質問を解析する。例えば、応答処理装置１００は、音声Ａ１１にユーザからの質問の意図が含まれている場合、質問の意図を入力情報と認識し、質問の意図に対する回答を応答として出力するための処理を開始する。

　図２に示す例では、応答処理装置１００は、ユーザの質問の意図が「料理ＸＸＸに関するレシピ検索」であると認識する。この場合、応答処理装置１００は、まず自装置で「料理ＸＸＸに関するレシピ検索」が可能であるか否かを判定する。応答処理装置１００は、自装置で「料理ＸＸＸに関するレシピ検索」が可能である場合には、ユーザへの応答を生成し、自装置から出力してもよい。

　応答処理装置１００が「料理ＸＸＸに関するレシピ検索」が不可能な場合、例えば、「レシピ検索」を行うサービスにアクセスできない場合や、「料理ＸＸＸのレシピ」を発見できなかった場合、応答処理装置１００は、連携する端末１０Ａ等にユーザの質問を送信する。すなわち、応答処理装置１００は、ユーザの質問の意図である「料理ＸＸＸに関するレシピ検索」を端末１０Ａ等に送信し、自装置の代わりに検索を実行させる。

　例えば、応答処理装置１００は、ユーザの質問の意図である「料理ＸＸＸに関するレシピ検索」を示す情報Ａ１２を端末１０Ａに送信する（ステップＳ１２）。このとき、応答処理装置１００は、例えば端末１０Ａの音声ＡＰＩ等に対応するように、ユーザから受け付けた音声Ａ１１を「料理ＸＸＸに関するレシピ検索」を示す情報Ａ１２に変換する。すなわち、応答処理装置１００は、音声Ａ１１を端末１０Ａが認識可能な形式である情報Ａ１２に変換したうえで、情報Ａ１２を端末１０Ａに送信する。このことは、端末１０Ａが、ユーザから「料理ＸＸＸのレシピおしえて」という発話を受け付けたことと同様の状況を意味する。

　同様に、応答処理装置１００は、音声Ａ１１を端末１０Ｂが認識可能な形式である情報Ａ１３に変換したうえで、情報Ａ１３を端末１０Ｂに送信する（ステップＳ１３）。また、応答処理装置１００は、音声Ａ１１を端末１０Ｃが認識可能な形式である情報Ａ１４に変換したうえで、情報Ａ１４を端末１０Ｃに送信する（ステップＳ１４）。すなわち、応答処理装置１００は、ユーザの質問に対する応答を生成させるエージェント機器として、端末１０Ａ、端末１０Ｂ及び端末１０Ｃを選択する。

　その後、応答処理装置１００は、ユーザの質問に対する回答を生成することが可能であるか否かの返信を端末１０Ａ、端末１０Ｂ又は端末１０Ｃから受信する。図２の例では、端末１０Ｂが、ユーザの質問に対する回答を生成することが可能である旨の返信を応答処理装置１００に送信するものとする（ステップＳ１５）。なお、図２では図示を省略しているが、端末１０Ａ及び端末１０Ｃは、ユーザの質問に対する回答を生成することが不可能である旨を応答処理装置１００に送信してもよい。

　端末１０Ｂからの返信を受けて、応答処理装置１００は、ユーザに対して出力される応答を生成するエージェント機器として、端末１０Ｂを選択する。この場合、応答処理装置１００は、出力先となる端末１０Ｂをユーザに通知する旨の音声を出力する。例えば、応答処理装置１００は、「端末１０Ｂから出力します。」といった内容を含む音声Ａ１５をユーザに対して出力する。その後、応答処理装置１００は、端末１０Ｂを制御し、端末１０Ｂが検索したレシピを音声出力させる。

　なお、応答処理装置１００は、端末１０Ｂと共通する音声ＡＰＩを利用して、端末１０Ｂが出力しようとする音声データを端末１０Ｂから取得してもよい。この場合、応答処理装置１００は、端末１０Ｂから音声を出力させるのではなく、自装置が音声を出力してもよい。これにより、ユーザは、実際には端末１０Ｂが検索した情報であっても、応答処理装置１００による音声出力によって情報を得ることができるため、応答処理装置１００以外の端末１０Ｂ等を意識せずに対話を行うことができる。

　次に、図３を用いて、応答処理装置１００が、ユーザの質問に対する応答を生成させる端末１０を指定する処理について説明する。図３は、本開示の第１の実施形態に係る応答処理の一例を示す図（３）である。

　図２と同様、応答処理装置１００は、ユーザから「料理ＸＸＸのレシピおしえて」という内容を含む音声Ａ１６を取得する（ステップＳ１６）。

　図３の例では、応答処理装置１００は、各端末１０が実行可能な機能を記憶したデータベースＤＢ０１を有する。この場合、応答処理装置１００は、音声Ａ１６に対するＡＳＲ処理やＮＬＵ処理を経て、ユーザの意図が「レシピ検索」であると判定した場合、データベースＤＢ０１を参照し、「レシピ検索」が可能である端末１０を抽出する。

　応答処理装置１００は、データベースＤＢ０１を参照し、端末１０Ａや端末１０Ｃはレシピ検索の機能を有しないこと、及び、端末１０Ｂはレシピ検索の機能を有することを認識する。この場合、応答処理装置１００は、端末１０Ａや端末１０Ｃには情報を送信せず、端末１０Ｂを選択して、ユーザの意図を示す情報Ａ１７を送信する（ステップＳ１７）。

　端末１０Ｂは、情報Ａ１７に対する応答を生成することが可能である旨の返信を応答処理装置１００に送信する（ステップＳ１８）。その後、応答処理装置１００は、図２の例と同様、「端末１０Ｂから出力します。」といった内容を含む音声Ａ１８をユーザに対して出力するとともに、端末１０Ｂからレシピを音声出力させる。このように、応答処理装置１００は、予め各端末１０の機能を確認し、応答を生成することができると推定される端末１０のみにユーザの依頼を送信してもよい。これにより、応答処理装置１００は、無駄な通信を発生させずに済むため、通信負荷を低減させたり、情報処理を高速化させたりすることができる。

　次に、図４を用いて、応答処理装置１００が、ユーザのコンテキスト（context）に基づいて応答を出力する一例について説明する。図４は、本開示の第１の実施形態に係る応答処理の一例を示す図（４）である。

　図２と同様、応答処理装置１００は、ユーザから「料理ＸＸＸのレシピおしえて」という内容を含む音声Ａ２１を取得する（ステップＳ２１）。また、応答処理装置１００は、ユーザの意図を示す情報Ａ２２を端末１０Ｂに送信する（ステップＳ２２）。端末１０Ｂは、情報Ａ２２に対する応答を生成することが可能である旨の返信を応答処理装置１００に送信する（ステップＳ２３）。

　図４の例では、応答処理装置１００は、応答を出力する際にユーザのコンテキストを取得する。ユーザのコンテキストとは、例えば、現在のユーザの状況を示す情報である。図４の例では、応答処理装置１００は、コンテキストとして、自装置が備えたカメラで捉えたユーザの位置や、カメラで撮像された画像を認識することで得られるユーザの状況等を取得する。具体的には、応答処理装置１００は、ユーザが「台所にいる」状態であり、また、例えば両手がふさがっている等、ユーザが「作業中」であるというコンテキストを取得する。

　そして、応答処理装置１００は、取得したコンテキストに応じて、応答を出力する態様を決定する。例えば、応答処理装置１００は、端末１０Ｂが台所に所在する場合、端末１０Ｂが生成した応答を端末１０Ｂで出力することを決定する。

　また、応答処理装置１００は、ユーザが作業中であることから、ユーザが手をとめないで済むように、音声とともに画像で応答を出力するよう、端末１０Ｂを制御する。例えば、端末１０Ｂは、プロジェクタ機能を動作させ、画像を台所の壁に投影することにより、生成した応答（レシピ情報）を壁に出力する。また、端末１０Ｂは、生成した応答を音声出力する。また、応答処理装置１００は、図３の例と同様、「端末１０Ｂから出力します。」といった内容を含む音声Ａ２３をユーザに対して出力する。

　このように、応答処理装置１００は、ユーザのコンテキストに応じて応答を出力する態様を決定してもよい。応答処理装置１００は、例えば、ユーザの近くに所在する端末１０に応答を出力させたり、ユーザの状況に応じて応答の情報の種別（音声か画像か動画か等）を選択したりする。これにより、応答処理装置１００は、よりユーザビリティに優れた対話システムを実現することができる。

　次に、図５を用いて、応答処理装置１００が、複数の応答を取得した場合の一例について説明する。図５は、本開示の第１の実施形態に係る応答処理の一例を示す図（５）である。

　図５の例では、応答処理装置１００は、ユーザから「今日の天気おしえて」という内容を含む音声Ａ２５を取得する（ステップＳ３１）。応答処理装置１００は、音声Ａ２５に対するＡＳＲ処理やＮＬＵ処理を経て、ユーザの意図が「今日の天気情報の検索」であると判定した場合、各端末１０にユーザの意図を送信する。

　すなわち、図２と同様、応答処理装置１００は、端末１０Ａに応じた形式の情報Ａ２６を端末１０Ａに送信する（ステップＳ３２）。また、応答処理装置１００は、端末１０Ｂに応じた形式の情報Ａ２７を端末１０Ｂに送信する（ステップＳ３３）。また、応答処理装置１００は、端末１０Ｃに応じた形式の情報Ａ２８を端末１０Ｃに送信する（ステップＳ３４）。

　端末１０Ａは、情報Ａ２６に対応する応答として、検索した天気情報を応答処理装置１００に送信する（ステップＳ３５）。同様に、端末１０Ｂは、情報Ａ２７に対応する応答として、検索した天気情報を応答処理装置１００に送信する（ステップＳ３６）。同様に、端末１０Ｃは、情報Ａ２８に対応する応答として、検索した天気情報を応答処理装置１００に送信する（ステップＳ３７）。

　上述のように、端末１０Ａ、端末１０Ｂ及び端末１０Ｃは、それぞれ異なるサービスから情報を取得するため、同じ天気情報でも、応答処理装置１００に送信する情報が異なる。すなわち、応答処理装置１００は、端末１０Ａ、端末１０Ｂ及び端末１０Ｃの各々から異なる応答（天気情報）を取得する。

　例えば、図５に示すデータベースＤＢ０２は、応答処理装置１００が取得した応答に含まれる情報を示す。図５に示す例では、端末１０Ａが取得した天気情報は、「画面表示」が可能であり、「音声出力」が可能であり、「降水確率」や「花粉情報」が含まれるものの、「紫外線情報」が含まれないことを示している。また、端末１０Ｂが取得した天気情報は、「画面表示」が可能であり、「音声出力」が可能であり、「降水確率」が含まれるものの、「紫外線情報」や「花粉情報」が含まれないことを示している。また、端末１０Ｃが取得した天気情報は、「音声出力」が可能であり、「降水確率」や「紫外線情報」や「花粉情報」が含まれるものの、静止画や動画等で天気情報を表示するような「画面表示」はできないことを示す。

　応答処理装置１００は、データベースＤＢ０２を参照し、いずれの応答をユーザに出力するかを決定する。例えば、応答処理装置１００は、取得した天気情報のうち、「降水確率」や「紫外線情報」や「花粉情報」といった多くの情報が含まれる、端末１０Ｃの天気情報を出力してもよい。あるいは、応答処理装置１００は、取得した天気情報のうち、画面表示が可能な、端末１０Ａや端末１０Ｂの天気情報を出力してもよい。応答処理装置１００は、出力すると決定した天気情報を含む音声Ａ２９や、天気情報に含まれる画面を出力する。あるいは、応答処理装置１００は、端末１０Ａ等を制御し、天気情報を出力させてもよい。

　このように、応答処理装置１００は、複数の応答を取得し、取得した応答から、ユーザに出力する応答を決定してもよい。例えば、応答処理装置１００は、取得した応答の情報量や質等に応じて、実際にユーザに出力する応答を決定してもよい。これにより、応答処理装置１００は、複数の応答から適切な応答を選択して出力できるので、ユーザが所望するような応答処理を実現しやすくなる。また、応答処理装置１００は、複数のソースから得られた情報を、適宜、統合したり組み合わせたりして応答を生成してもよい。具体的には、応答処理装置１００は、異なる端末１０から得られた画像情報と音声情報との一部を組み合わせたり、複数の音声情報の各部分を編集して組み合わせたりしてもよい。

　次に、図６を用いて、応答処理装置１００が、様々な態様の端末１０と連携して応答処理を行う一例について説明する。図６は、本開示の第１の実施形態に係る応答処理の一例を示す図（６）である。

　図６に示す例では、応答処理装置１００は、端末１０Ａの他に、ペット型ロボットである端末１０Ｄや、人型ロボットである端末１０Ｅや、把持ロボットである１０Ｆ等と連携する。

　図６の例では、図５の例と同様、応答処理装置１００は、ユーザから「今日の天気おしえて」という内容を含む音声Ａ３１を取得する（ステップＳ４１）。応答処理装置１００は、音声Ａ３１に対するＡＳＲ処理やＮＬＵ処理を経て、ユーザの意図が「今日の天気情報の検索」であると判定した場合、各端末１０にユーザの意図を送信する。

　すなわち、図５と同様、応答処理装置１００は、端末１０Ａに応じた形式に変換したユーザの意図を端末１０Ａに送信する（ステップＳ４２）。また、応答処理装置１００は、端末１０Ｄに応じた形式に変換したユーザの意図を端末１０Ｄに送信する（ステップＳ４３）。また、応答処理装置１００は、端末１０Ｅに応じた形式に変換したユーザの意図を端末１０Ｅに送信する（ステップＳ４４）。また、応答処理装置１００は、端末１０Ｆに応じた形式に変換したユーザの意図を端末１０Ｆに送信する（ステップＳ４５）。

　端末１０Ａは、検索した天気情報を応答処理装置１００に送信する（ステップＳ４６）。一方、端末１０Ｄは、出力として、検索した天気情報に対応した動きを行う旨を応答処理装置１００に伝達する（ステップＳ４７）。例えば、端末１０Ｄは、検索した天気情報が晴れである場合、喜びを示す動きを行う旨を応答処理装置１００に伝達する。また、端末１０Ｅは、検索した天気情報を音声出力することができる旨を応答処理装置１００に伝達する（ステップＳ４８）。なお、端末１０Ｆは、天気情報に応答することができない旨を送信するか、あるいは、ユーザの意図が理解できない旨を示すエラー情報を返してもよい。

　応答処理装置１００は、各々の端末１０から送信された情報に基づいて、ユーザに出力する応答の態様を決定する。例えば、応答処理装置１００は、自装置で天気情報を示す音声Ａ３２を出力する。また、応答処理装置１００は、端末１０Ａを制御し、画面表示付きの天気情報を出力させる。また、応答処理装置１００は、端末１０Ｄを制御し、喜びを示す動きを出力させる。また、応答処理装置１００は、端末１０Ｅを制御し、天気情報を示す音声を出力させる。

　このように、応答処理装置１００は、必ずしも一つの天気情報のみを一つの端末１０から出力するのではなく、各端末１０の特性を生かして、異なる複数の態様の応答を出力させてもよい。これにより、ユーザは、応答処理装置１００に対する一つの対話のみで、様々な端末１０が出力する種々の応答を確認することができる。

　図１乃至図６で示すように、第１の実施形態に係る応答処理装置１００は、各端末１０が応答を生成する契機となる情報である入力情報をユーザから取得し、複数の端末１０のうち、入力情報に対応した応答を生成する端末１０を一つあるいは複数選択する。さらに、応答処理装置１００は、入力情報に対応する応答であって、選択された端末１０によって生成された応答の出力を制御する。

　このように、応答処理装置１００が複数の端末１０を制御するフロントエンドの機能を果たすことにより、ユーザは、応答処理装置１００とのみ対話することで、複数の端末１０が取得する情報や、出力する応答を得ることができる。これにより、応答処理装置１００は、ユーザの利便性を向上させることができる。

［１－２．第１の実施形態に係る応答処理システムの構成］
　続いて、上述した第１の実施形態に係る応答処理装置１００等の構成について、図７を用いて説明する。図７は、本開示の第１の実施形態に係る応答処理システム１の構成例を示す図である。

　図７に示すように、応答処理システム１は、端末１０と、応答処理装置１００と、外部サーバ２００とを含む。端末１０、応答処理装置１００及び外部サーバ２００は、図７に図示するネットワークＮ（例えば、インターネット）を介して、有線又は無線により通信可能に接続される。なお、図７での図示は省略するが、応答処理システム１は、複数台の端末１０や外部サーバ２００を含んでもよい。

　端末１０は、ユーザに利用される情報処理端末である。端末１０は、いわゆるエージェント機器であり、ユーザとの対話を行ったり、ユーザが発した音声や動作等に対する応答を生成したりする。端末１０は、後述する応答処理装置１００が備える構成の全て又は一部を備えていてもよい。

　外部サーバ２００は、各種サービスを提供するサービスサーバである。例えば、外部サーバ２００は、端末１０や応答処理装置１００の要求に従い、天気情報や交通情報等を提供する。

　応答処理装置１００は、本開示に係る応答処理を実行する情報処理端末である。図７に示すように、応答処理装置１００は、センサ２０と、入力部２１と、通信部２２と、記憶部３０と、取得部４０と、選択部５０と、出力部６０とを有する。

　センサ２０は、各種情報を検知するためのデバイスである。センサ２０は、例えば、ユーザが発話した音声を集音する音声入力センサ２０Ａを含む。音声入力センサ２０Ａは、例えば、マイクロフォンである。また、センサ２０は、例えば、画像入力センサ２０Ｂを含む。画像入力センサ２０Ｂは、例えば、ユーザやユーザの自宅内の状況を撮影するためのカメラである。

　また、センサ２０は、ユーザが応答処理装置１００に触れたことを検知するタッチセンサや、加速度センサやジャイロセンサ等を含んでもよい。また、センサ２０は、応答処理装置１００の現在位置を検知するセンサを含んでもよい。例えば、センサ２０は、ＧＰＳ（Global　Positioning　System）衛星から送出される電波を受信し、受信した電波に基づいて応答処理装置１００の現在位置を示す位置情報（例えば、緯度及び経度）を検知してもよい。

　また、センサ２０は、外部装置が発する電波を検知する電波センサや、電磁波を検知する電磁波センサ等を含んでもよい。また、センサ２０は、応答処理装置１００が置かれた環境を検知してもよい。具体的には、センサ２０は、応答処理装置１００の周囲の照度を検知する照度センサや、応答処理装置１００の周囲の湿度を検知する湿度センサや、応答処理装置１００の所在位置における磁場を検知する地磁気センサ等を含んでもよい。

　また、センサ２０は、必ずしも応答処理装置１００の内部に備えられなくてもよい。例えば、センサ２０は、通信等を用いてセンシングした情報を応答処理装置１００に送信することが可能であれば、応答処理装置１００の外部に設置されてもよい。

　入力部２１は、ユーザから各種操作を受け付けるためのデバイスである。例えば、入力部２１は、キーボードやマウス、タッチパネル等によって実現される。

　通信部２２は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部２２は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、端末１０や外部サーバ２００等との間で情報の送受信を行う。

　記憶部３０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部３０は、ユーザ情報テーブル３１と、端末情報テーブル３２と、機能テーブル３３とを有する。以下、各データテーブルについて順に説明する。

　ユーザ情報テーブル３１は、応答処理装置１００を利用するユーザに関する情報を記憶する。図８に、第１の実施形態に係るユーザ情報テーブル３１の一例を示す。図８は、本開示の第１の実施形態に係るユーザ情報テーブル３１の一例を示す図である。図８に示した例では、ユーザ情報テーブル３１は、「ユーザＩＤ」、「ユーザ属性情報」、「履歴情報」といった項目を有する。

　「ユーザＩＤ」は、ユーザを識別する識別情報を示す。「ユーザ属性情報」は、応答処理装置１００の利用の際にユーザから登録される、ユーザの各種情報を示す。図８に示した例では、ユーザ属性情報の項目を「Ｆ０１」のように概念的に記載しているが、実際には、ユーザ属性情報には、ユーザの年齢や性別、居住地、家族構成等の属性情報（ユーザプロファイル）が含まれる。また、ユーザ属性情報には、例えば、ユーザに視覚障碍があること等、出力する情報の種別を選択するために要する情報が含まれてもよい。例えば、ユーザ属性情報に視覚障碍があることが登録されている場合、応答処理装置１００は、通常であれば画面に表示される応答の内容を、音声に変換して出力してもよい。このような変換は、例えばＴＴＳ（text-to-speech）処理等の既知の技術が用いられてもよい。

　「履歴情報」は、ユーザの応答処理装置１００の利用履歴を示す。図８に示した例では、履歴情報の項目を「Ｇ０１」のように概念的に記載しているが、実際には、履歴情報には、ユーザが応答処理装置１００に質問した内容や、聞き返しの履歴や、出力された応答の履歴等の各種情報が含まれる。また、履歴情報には、ユーザを音声で識別するための声紋情報や波形情報等が含まれてもよい。

　すなわち、図８に示した例では、ユーザＩＤが「Ｕ０１」で識別されるユーザは、ユーザ属性情報が「Ｆ０１」であり、履歴情報が「Ｇ０１」であることを示している。

　なお、図８に示した「履歴情報」には、ユーザの過去の行動を示す情報が含まれてもよい。図９に、履歴情報に含まれるユーザの行動情報の例を示す。

　図９は、本開示の第１の実施形態に係る行動情報テーブル３１Ａの一例を示す図である。図９に示した例では、行動情報テーブル３１Ａは、「ユーザＩＤ」、「時刻」、「位置」、「動作」、「状況」、「体勢」、「利用履歴」といった項目を有する。

　「ユーザＩＤ」は、図８に示した同一の項目に対応する。「時刻」は、ユーザの行動が観測された時刻を示す。「位置」は、ユーザが観測された位置を示す。「動作」は、ユーザの動作を示す。「状況」は、動作等から推定されるユーザの状況を示す。「体勢」は、ユーザの体勢を示す。なお、動作や状況や体勢は、例えば、応答処理装置１００が撮影した画像や動画を画像認識すること等により得られる。「利用履歴」は、ユーザの行動が観測された場合に、ユーザが応答処理装置１００を利用した利用履歴を示す。

　図９に示すように、応答処理装置１００は、ユーザの行動情報や、行動情報と対応付けた応答処理装置１００の利用履歴を取得し、記憶してもよい。これにより、応答処理装置１００は、ユーザがどのような行動をとっているときに、どのような質問や対話を行っているかといった、ユーザごとの傾向を取得することができる。

　次に、端末情報テーブル３２について説明する。端末情報テーブル３２は、応答処理装置１００と連携する端末１０に関する情報を記憶する。

　図１０に、第１の実施形態に係る端末情報テーブル３２の一例を示す。図１０は、本開示の第１の実施形態に係る端末情報テーブル３２の一例を示す図である。図１０に示した例では、端末情報テーブル３２は、「端末ＩＤ」、「入力情報」、「機能」、「出力フォーマット」、「設置位置」といった項目を有する。また、「入力情報」は、「音声入力」、「入力方式」、「対応フォーマット」といった小項目を有する。

　「端末ＩＤ」は、端末１０を識別する識別情報を示す。なお、明細書中では、端末ＩＤと端末１０の参照符号は共通するものとする。例えば、端末ＩＤが「１０Ａ」で識別される端末１０とは、「端末１０Ａ」を意味する。

　「入力情報」は、端末１０に情報が入力される際のファイル形式等の情報を示す。「音声入力」は、端末１０に入力される音声がどのような形式で入力されるかといった情報を示す。「入力方式」は、例えば、応答処理装置１００から送信される音声がどのような方式で入力されるかといった情報を示す。「対応フォーマット」は、端末１０が処理可能なデータ（音声や画像等）のフォーマットを示す。図１０に示した例では、対応フォーマットの項目を「Ｂ０１」のように概念的に記載しているが、実際には、対応フォーマットの項目には、端末１０が処理可能な具体的な音声フォーマットの種類（「mp3」や「wav」等）や静止画フォーマットの種類（「jpg」等）、動画フォーマットの種類（「mp4」等）が記憶される。また、対応フォーマットの項目には、端末１０が有する音声ＡＰＩや画像ＡＰＩ等の種別が記憶されてもよい。

　「機能」は、端末１０が有する機能を示す。図１０に示した例では、機能の項目を「Ｃ０１」のように概念的に記載しているが、実際には、機能の項目には、端末１０が実行可能な機能の種別が記憶される。なお、機能の詳細な情報については、後述する機能テーブル３３に記憶される。

　「出力フォーマット」は、端末１０が出力可能なデータのフォーマットを示す。図１０に示した例では、出力フォーマットの項目を「Ｄ０１」のように概念的に記載しているが、実際には、出力フォーマットの項目には、音声出力が可能か、画像出力が可能か、動画再生が可能かといった、端末１０が出力することが可能な態様が具体的に記憶される。

　「設置位置」は、端末１０が設置される位置を示す。なお、図１０の例では、「設置位置」を「リビング」や「台所」等、ユーザの自宅における名称で示しているが、「設置位置」の項目には、異なる情報が記憶されてもよい。例えば、「設置位置」は、具体的な経度緯度等の位置情報で示されてもよいし、応答処理装置１００が生成したマップにおける対応位置で示されてもよい。すなわち、設置位置は、応答処理装置１００が各端末１０の位置を把握することが可能な情報であれば、どのような情報であってもよい。

　すなわち、図１０に示した例では、端末ＩＤ「１０Ａ」で識別される端末１０Ａは、音声入力が「デジタル信号」であり、入力方式が「無線又は有線」であり、対応フォーマットが「Ｂ０１」であることを示している。また、図１０に示した例では、端末１０Ａが備える機能が「Ｃ０１」であり、出力フォーマットが「Ｄ０１」であり、設置位置が「リビング」であることを示している。

　次に、機能テーブル３３について説明する。機能テーブル３３は、端末１０が備える各機能の詳細な情報を記憶する。

　図１１に、第１の実施形態に係る機能テーブル３３の一例を示す。図１１は、本開示の第１の実施形態に係る機能テーブル３３の一例を示す図である。図１１に示した例では、機能テーブル３３は、「機能ＩＤ」、「端末ＩＤ」、「接続サービス」、「出力フォーマット」、「平均再生時間」、「内容」、「ユーザの選択履歴」といった項目を有する。

　「機能ＩＤ」は、機能を識別する識別情報を示す。「端末ＩＤ」は、図１０に示した同一の項目に対応する。「接続サービス」は、各端末１０が機能を実現するために接続する外部サービスやアプリケーション等の名称を示す。なお、端末１０が応答を生成するために外部サービスに接続する必要のない場合、「接続サービス」の項目は空欄となる。また、図１１に示した例では、接続サービスの項目を「Ｊ０１」のように概念的に記載しているが、実際には、接続するサービスとは、サービスを示す具体的な名称や接続先（具体的なアドレス等）が記憶される。

　「出力フォーマット」は、各端末１０が接続サービスから受信した情報を出力することが可能なフォーマットを示す。例えば、出力フォーマットは、音声や画像等である。「平均再生時間」は、各端末１０が接続サービスから受信した情報を再生する際にかかる時間を示す。「内容」は、各端末１０が外部サービス等から取得可能な内容を示す。「ユーザの選択履歴」は、ある機能を利用しようとしたユーザが、どのくらいの頻度でどの端末１０を選択したかといった履歴を示す。

　すなわち、図１１に示した例では、機能ＩＤ「Ｋ０１」で識別される機能は、「天気予報」に関する機能であり、その機能を実現する端末は、例えば、「端末１０Ａ」や「端末１０Ｂ」や「端末１０Ｃ」であることを示している。また、「端末１０Ａ」は、天気予報を実行するために（すなわち、天気予報に関する情報を取得するために）、「Ｊ０１」というサービスに接続し、出力フォーマット「Ｋ０１」に対応する情報を取得し、その情報は、平均再生時間「１０秒」であることを示している。また、「端末１０Ａ」が取得する天気予報に関する情報には、「天気概況、降水確率、画像出力、音声出力、花粉、・・・」といった内容が含まれる。また、応答処理装置１００が天気予報という機能を実行した場合に、「端末１０Ａ」が選択された履歴は、「Ｌ０１」であることを示している。

　なお、図１１では、機能の一例として「天気予報」を示したが、機能はこの例に限られない。例えば、端末１０が有する機能としては、「交通情報」や「ニュース」等を出力する機能や、「カレンダー」等のスケジュール管理機能や、「レシピ検索」や「ネットスーパー注文」、「翻訳」、「百科事典」、「辞書」等、ユーザの活動を支援する機能等が挙げられる。また、端末１０がロボット等である場合には、端末１０は、「感情表現」や、「ユーザと遊ぶ」や「危険を知らせる」等の機能を備えてもよい。また、人型ロボットである端末１０は、「調理補助」や「家族間伝言」や「翻訳」等の機能を備えてもよい。また、把持ロボットや掃除専用ロボットである端末１０は、「掃除センサ」や「ほこりセンサ」、「物の移動や片づけ」、「ＤＩＹ補助」等の機能を備えてもよい。また、ロボットである端末１０の機能には、「動力部（アクチュエータ）」を備えているか否か、あるいは、「アーム部（マニピュレータ等と称される）」を備えているか否か等の情報が含まれてもよい。

　図７に戻って説明を続ける。取得部４０、選択部５０及び出力制御部５５は、応答処理装置１００が実行する情報処理を実行する処理部である。取得部４０、選択部５０及び出力制御部５５は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等によって、応答処理装置１００内部に記憶されたプログラム（例えば、本開示に係る応答処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、取得部４０、選択部５０及び出力制御部５５は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　取得部４０は、各種情報を取得する処理部である。図７に示すように、取得部４０は、検知部４１と、登録部４２と、受信部４３とを含む。

　検知部４１は、センサ２０を介して、各種情報を検知する。例えば、検知部４１は、センサ２０の一例である音声入力センサ２０Ａを介して、ユーザが発話した音声を検知する。また、検知部４１は、画像入力センサ２０Ｂや加速度センサ、赤外線センサ等を介して、ユーザの顔情報、ユーザの身体の向き、傾き、動きや移動速度等、ユーザの動作に関する各種情報を検知してもよい。すなわち、検知部４１は、センサ２０を介して、位置情報、加速度、温度、重力、回転（角速度）、照度、地磁気、圧力、近接、湿度、回転ベクトルといった、種々の物理量をコンテキストとして検知してもよい。

　登録部４２は、入力部２１を介して、ユーザからの登録を受け付ける。例えば、登録部４２は、タッチパネルやキーボードを介して、ユーザプロファイル（属性情報）の登録をユーザから受け付ける。

　また、登録部４２は、ユーザのスケジュール等の登録を受け付けてもよい。例えば、登録部４２は、応答処理装置１００に組み込まれたアプリケーション機能を利用して、スケジュール登録をユーザから受け付ける。

　受信部４３は、各種情報を受信する。例えば、受信部４３は、ユーザの属性情報やスケジュール情報が、応答処理装置１００ではなく外部サービス等に登録されている場合、外部サーバ２００から、ユーザの属性情報やスケジュール等を受信する。

　また、受信部４３は、通信に関するコンテキストを受信してもよい。例えば、受信部４３は、応答処理装置１００と各種機器（ネットワーク上のサーバや、自宅内の家電等）との接続状況をコンテキストとして受信してもよい。各種機器との接続状況とは、例えば、相互通信が確立しているか否かを示す情報や、通信に利用している通信規格等である。

　取得部４０は、上記各処理部を制御することにより、各種情報を取得する。例えば、取得部４０は、端末１０が応答を生成する契機となる情報である入力情報をユーザから取得する。

　例えば、取得部４０は、入力情報として、ユーザが発した音声情報を取得する。具体的には、取得部４０は、「天気おしえて」などのユーザの発話を取得し、当該発話に含まれる何らかの意図を入力情報として取得する。

　あるいは、取得部４０は、入力情報として、ユーザの行動を検知した検知情報を取得してもよい。検知情報とは、検知部４１がセンサ２０を介して検知した情報である。具体的には、検知情報とは、ユーザが応答処理装置１００のカメラを見たことを示す情報や、ユーザが自宅の部屋から玄関へ移動したことを示す情報等、応答処理装置１００が応答を生成する契機となりうるユーザの行動である。

　また、取得部４０は、各種のコンテキストに関する情報を取得してもよい。コンテキストとは、応答処理装置１００が応答を生成する際の各種状況を示す情報である。なお、コンテキストには、ユーザが応答処理装置１００を見たことを示す行動情報等の「ユーザの状況を示す情報」が含まれるため、コンテキストは、入力情報にもなりうる。

　例えば、取得部４０は、コンテキストとして、ユーザによって予め登録されたユーザの属性情報を取得してもよい。具体的には、取得部４０は、ユーザの性別や年齢、居住地等の情報を取得する。また、取得部４０は、属性情報として、ユーザが視覚障碍を有すること等、ユーザの特徴を示す情報を取得してもよい。また、取得部４０は、応答処理装置１００の利用履歴等に基づいて、ユーザの趣味嗜好等の情報をコンテキストとして取得してもよい。

　また、取得部４０は、コンテキストとして、ユーザの位置を示す位置情報を取得してもよい。位置情報とは、具体的な経度緯度等の位置を示す情報であってもよいし、ユーザが自宅内のどの部屋にいるか等を示す情報であってもよい。例えば、位置情報は、ユーザが自宅内のリビングにいるか、寝室にいるか、子供部屋にいるかといった、ユーザの所在地を示した情報であってもよい。あるいは、位置情報は、ユーザの外出先を示す具体的な場所の情報であってもよい。また、ユーザの外出先を示す情報には、ユーザが電車に乗っているか、自動車を運転しているか、あるいは、学校や会社に出かけていること等の状況を示す情報が含まれてもよい。取得部４０は、例えば、ユーザが所有するスマートフォン等の携帯端末と相互に通信を行うことにより、これらの情報を取得してもよい。

　また、取得部４０は、コンテキストとして、ユーザの行動もしくは感情を推定した推定情報を取得してもよい。

　例えば、取得部４０は、コンテキストとして、ユーザの行動から推定される情報であって、ユーザの将来の行動予測を示した情報である行動予測情報を取得する。具体的には、取得部４０は、ユーザが自宅の部屋から玄関へ移動したことを示す行動から推定される情報として、「ユーザが外出しようとしている」といった行動予測情報を取得する。例えば、取得部４０は、「ユーザが外出しようとしている」といった行動予測情報を取得した場合、当該情報に基づいて、「外出」といったタグ付けされたコンテキストを取得する。

　また、取得部４０は、ユーザの行動として、ユーザが予め登録したスケジュール情報を取得してもよい。具体的には、取得部４０は、ユーザが発話した時刻から所定期間以内（例えば１日以内等）の予定時刻で登録されたスケジュール情報を取得する。これにより、取得部４０は、ある時刻にユーザがどこに出かけようとしているかといった情報等を推定することができる。

　また、取得部４０は、センサ２０で捉えられたユーザの移動速度や、ユーザが所在する位置や、ユーザの発話速度等を検知すること等によりユーザの状況や感情を推定してもよい。例えば、取得部４０は、通常のユーザの発話速度よりも速い発話速度が観測された場合、「ユーザが急いでいる」という状況や感情を推定してもよい。例えば、応答処理装置１００は、ユーザが通常よりも急いでいる状況にあることを示すコンテキストが取得された場合、より手短な応答を出力する等の調整を行うことができる。

　なお、上記で示したコンテキストは一例であり、ユーザや応答処理装置１００が置かれた状況を示すあらゆる情報がコンテキストとなりうる。例えば、取得部４０は、センサ２０を介して取得される、応答処理装置１００の位置情報、加速度、温度、重力、回転（角速度）、照度、地磁気、圧力、近接、湿度、回転ベクトルといった、種々の物理量をコンテキストとして取得してもよい。また、取得部４０は、内蔵する通信機能を利用して、各種装置との接続状況（例えば、通信の確立に関する情報や、利用している通信規格）などを、コンテキストとして取得してもよい。

　また、コンテキストには、ユーザと他のユーザや、ユーザと応答処理装置１００とが交わしている対話に関する情報が含まれてもよい。例えば、コンテキストには、ユーザが交わしている対話の文脈を示す対話文脈情報、対話のドメイン（天気、ニュース、電車運行情報等）、ユーザ発話の意図や属性情報等が含まれてもよい。

　また、コンテキストには、対話が行われている際の日時情報が含まれてもよい。具体的には、日時情報とは、日付、時間、曜日、祝日特性（クリスマス等）、時間帯（朝、昼、夜、夜中）等の情報である。

　また、取得部４０は、ユーザが行っている特定の家事の情報や、視聴しているテレビ番組の内容や、何を食べているかを示す情報や、特定の人物と会話をしていること等、ユーザの状況を示す種々の情報をコンテキストとして取得してもよい。

　また、取得部４０は、自宅内に置かれた家電（ＩｏＴ機器等）との相互通信により、どの家電がアクティブであるか否か（例えば、電源がオンであるかオフであるか）、どの家電がどのような処理を実行しているか、といった情報を取得してもよい。

　また、取得部４０は、外部サービスとの相互通信により、ユーザの生活圏における交通状況や気象情報等をコンテキストとして取得してもよい。取得部４０は、取得した各情報をユーザ情報テーブル３１等に格納する。また、取得部４０は、ユーザ情報テーブル３１や端末情報テーブル３２を参照し、処理に要する情報を適宜取得してもよい。

　続いて、選択部５０について説明する。図７に示すように、選択部５０は、依頼分析部５１と、状態推定部５２とを含む。選択部５０は、依頼分析部５１及び状態推定部５２が実行する処理により得られる情報に基づき、複数の端末１０のうち入力情報に対応した応答を生成する端末１０を選択する。

　なお、選択部５０は、入力情報に対する応答を応答処理装置１００が生成することができないと判定した場合に、複数の端末１０のうち、入力情報に対応した応答を生成する端末１０を選択してもよい。言い換えれば、選択部５０は、自装置で応答を生成することができる場合には自装置で応答を生成してもよい。これにより、選択部５０は、自装置で処理が可能な対話に関しては迅速な対応を行うことができる。

　また、選択部５０は、複数の端末１０の各々が入力情報に対する応答を生成することができるか否かを判定し、入力情報に対する応答を生成することができないと判定された端末１０以外の端末１０を、当該入力情報に対応した応答を生成する端末１０として選択してもよい。すなわち、選択部５０は、端末情報テーブル３２や機能テーブル３３を参照し、応答を生成することができると想定される端末１０を選択するようにしてもよい。これにより、選択部５０は、全ての端末１０に無作為に要求を送信するような手間を省くことができる。

　また、選択部５０は、入力情報に対応した応答を生成する端末１０として複数の端末１０を選択してもよい。すなわち、選択部５０は、応答を生成する端末１０として一つの端末１０のみを選択するのではなく、応答を生成することが可能な複数の端末１０を選択してもよい。これにより、選択部５０は、ユーザの質問に対して生成される応答を多様化することができる。

　選択部５０は、選択した複数の端末１０の各々が認識可能な態様に入力情報を変換し、変換後の入力情報を複数の端末１０に送信する。例えば、選択部５０は、図２等で示したように、ユーザの発話を分析した結果を各端末１０が読み込み可能な形式に変換し、変換後の情報を各端末１０に送信する。

　例えば、選択部５０は、各端末１０のＡＰＩを利用してユーザの発話を分析した結果を送信してもよい。また、選択部５０は、端末１０が利用するＡＰＩが利用できなかったり、ＡＰＩが不明であったりする場合には、他の手法を用いてユーザの発話を分析した結果を送信してもよい。

　例えば、選択部５０は、通信での情報が不可能であり、アナログ音声入力のみしか受け付けることのできない端末１０に対しては、ユーザの発話を実際に音声で再生することにより、当該端末１０に入力情報を送信してもよい。

　依頼分析部５１は、取得部４０によって取得された情報の意味理解処理を行う。具体的には、依頼分析部５１は、取得部４０によって音声情報等について、自動音声認識（ＡＳＲ）処理や自然言語理解（ＮＬＵ）処理を行う。例えば、依頼分析部５１は、ＡＳＲやＮＬＵを経て、取得した音声を形態素に分解したり、各形態素がどのような意図や属性を有する要素であるかを判定したりする。

　なお、依頼分析部５１は、入力情報の解析の結果、ユーザの意図が理解不能であった場合、その旨を出力制御部５５に渡してもよい。例えば、依頼分析部５１は、解析の結果、ユーザの発話から推定することのできない情報が含まれている場合、その内容を出力制御部５５に渡す。この場合、出力制御部５５は、不明な情報について、ユーザにもう一度正確に発話してもらうことを要求するような応答を生成してもよい。

　状態推定部５２は、取得部４０によって取得されたコンテキストに基づいて、ユーザの状態を推定する。選択部５０は、状態推定部５２によって推定された情報に基づいて、端末１０を選択するようにしてもよい。例えば、ユーザから発話があったタイミングで、状態推定部５２によって当該ユーザが玄関付近にいることが推定された場合、選択部５０は、応答を生成する端末１０として、玄関付近に設置されている端末１０を優先的に選択してもよい。

　出力制御部５５は、入力情報に対応する応答であって、選択部５０によって選択された端末１０によって生成された応答の出力を制御する。

　例えば、出力制御部５５は、複数の端末１０によって応答が生成された場合に、複数の端末１０によって生成された応答を比較した情報に基づいて、ユーザに対して出力する応答を決定する。

　一例として、出力制御部５５は、複数の端末１０によって生成された各々の応答の情報量もしくは種別に基づいて、ユーザに対して出力する応答を決定する。

　例えば、出力制御部５５は、図５で示したように、複数の端末１０によって天気情報に関する応答が生成された場合、情報量のより多い天気情報をユーザに対して出力するよう決定する。あるいは、出力制御部５５は、ユーザとの対話の履歴を参照し、ユーザが「紫外線情報」よりも「花粉情報」を要求した履歴が多い場合、「花粉情報」という種別が含まれる天気情報をユーザに対して出力するよう決定してもよい。すなわち、出力制御部５５は、複数の応答が存在する場合、応答の情報量や種別、また、ユーザのこれまでの履歴や状況（すなわちコンテキスト）に応じて、実際にユーザに出力する応答を柔軟に決定する。これにより、出力制御部５５は、よりユーザの要望に沿った応答を出力することができる。

　なお、出力制御部５５は、各々の応答のうち、ソース情報の信憑性が高いこと（例えば、多くのユーザに利用されているサービスであること等）や、よりユーザが好むサービスであること等を判定基準として、出力する応答を決定してもよい。

　なお、出力制御部５５は、複数の端末１０によって生成された複数の応答を合成し、ユーザに対して出力する応答を生成してもよい。

　例えば、出力制御部５５は、図５で示したように、複数の端末１０によって天気情報に関する応答が生成された場合、各天気情報に含まれる情報の種別を判定する。一例として、出力制御部５５は、各天気情報に含まれる情報の有無（画面表示の有無、音声出力の有無、降水確率の有無等）をベクトルとして取得する。この場合、ベクトルは、情報が存在する次元では「１」が記憶され、情報が存在しない次元では「０」が記憶される。出力制御部５５は、複数の天気情報を取得し合成することにより、できる限り「１」が記憶される次元の多いベクトルを生成する。そして、出力制御部５５は、生成したベクトルを音声に変換し、ユーザに対して出力する。これにより、出力制御部５５は、個々の端末１０が生成した場合には含まれない可能性のある情報（図５の例では、「紫外線情報」や「花粉情報」）を全て含む天気情報をユーザに提供することができる。

　なお、出力制御部５５は、取得した天気情報の全ての種別を合成するのではなく、例えば所定の再生時間に合うよう情報を取捨選択するなど、柔軟に情報を合成してもよい。

　また、出力制御部５５は、コンテキストに基づいて、選択された端末１０によって生成された応答を出力する態様を決定してもよい。

　一例として、出力制御部５５は、ユーザの属性情報に応じて、ユーザに対して出力する応答の種別、もしくは、応答を出力する出力先を決定してもよい。例えば、天気情報を出力する場合に、ユーザの属性が「子ども」である場合、出力制御部５５は、理解の難しい単語等が含まれる可能性のある音声出力ではなく、一目で天気がわかる「画像出力」を選択してもよい。この場合、出力制御部５５は、出力する情報の種別（画像情報）に合わせて、出力する端末１０を選択してもよい。具体的には、出力制御部５５は、画像表示が可能な端末１０を選択して、応答を出力させる。

　また、出力制御部５５は、ユーザの属性に「視覚障碍」が含まれる場合、画像出力ではなく、音声出力を優先してもよい。また、出力制御部５５は、端末１０の応答がユーザにとってわかりにくいと推定される場合、ユーザに出力する音声を付与してもよい。例えば、ユーザが「部屋の温度を下げて」と応答処理装置１００に依頼したとする。この場合、応答処理装置１００は、エアコンである端末１０にユーザの依頼を送信し、ユーザに対する応答を実行させる。この場合、端末１０は、「部屋の設定温度を下げる」という応答を実行する。このとき、ユーザの属性に「視覚障碍」が含まれる場合、ユーザはエアコンを見ても動作の状況がわからないため、応答処理装置１００が、「エアコンの温度が２度下がりました」といった、ユーザが理解しやすい具体的な情報を音声出力する。これにより、ユーザは、端末１０がどのように動作したかを、応答処理装置１００を介して知覚することができる。また、応答処理装置１００は、ユーザの属性に「聴覚障碍」が含まれる場合、端末１０が動作したときの反応音を画面上に表示する等、ユーザに対応して様々な出力を行ってもよい。

　また、出力制御部５５は、ユーザと複数の端末１０の少なくともいずれかとの位置関係に基づいて、ユーザに対して応答を出力する端末１０を決定してもよい。

　例えば、出力制御部５５は、応答が生成された時点で、最もユーザの近くに所在する端末１０から応答が出力されるよう制御してもよい。例えば、出力制御部５５は、応答を生成した端末１０とユーザの位置が遠く離れており、かつ、ユーザの近くに他の端末１０が存在する場合、応答を生成した端末１０から応答を取得し、取得した応答をユーザの近くの他の端末１０に送信する。そして、出力制御部５５は、応答をユーザの近くの他の端末１０から出力するよう制御する。これにより、ユーザは、より的確に応答を知覚することができる。

　また、出力制御部５５は、コンテキストとしてユーザの行動もしくは感情を推定した推定情報が取得されている場合、推定情報に基づいて、ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する端末１０を決定してもよい。

　例えば、出力制御部５５は、ユーザが通常よりも速い発話速度で「今日の天気おしえて」と発話した場合、ユーザが通常よりも「急いでいる」という状況にあることを推定する。この場合、出力制御部５５は、例えば複数の端末１０から得られた応答のうち、最も短い再生時間でユーザに天気情報を伝えることのできる応答を出力する。あるいは、出力制御部５５は、通常よりも速い速度で天気情報を出力するよう、出力の態様を変化させてもよい。

　また、出力制御部５５は、ユーザがリビングから玄関に移動しながら「今日の天気おしえて」と発話した場合、ユーザが玄関へ移動中であるという行動を推定する。この場合、出力制御部５５は、ユーザに知覚されやすいよう、玄関に設置された端末１０から天気情報を出力するよう制御してもよい。

　ユーザの行動と応答の関係の一例について、図９で示したユーザの行動を例に挙げて説明する。図９の例において、ユーザが寝室にいるとき（図９に示す時刻「６：０５」の行動データ）に、「天気情報」を応答処理装置１００に尋ねたとする。この場合、出力制御部５５は、朝の早い時間に寝室でユーザが天気を質問したというコンテキストに基づいて、服装のアドバイス（「今日は寒くなりそうです」等）が含まれる天気情報をユーザに出力してもよい。

　また、図９の例において、ユーザが台所にいるとき（図９に示す時刻「６：１５」の行動データ）に、「天気情報」を応答処理装置１００に尋ねたとする。この場合、出力制御部５５は、ユーザが集中している状態であることから、画面表示を含まず、かつ、音声情報が豊富な応答を選択して出力してもよい。また、図９の例において、ユーザがリビングにいるとき（図９に示す時刻「６：４０」の行動データ）に、「天気情報」を応答処理装置１００に尋ねたとする。この場合、出力制御部５５は、ユーザが集中している状態であることから、情報量が豊富な画面表示を含む応答を選択して出力してもよい。また、図９の例において、ユーザが玄関にいるとき（図９に示す時刻「７：４２」の行動データ）に、「天気情報」を応答処理装置１００に尋ねたとする。この場合、出力制御部５５は、外出前でユーザが急いでいると推定されることから、なるべく短い音声出力を含む応答であって、外出に関係する情報（紫外線情報等）を含む応答を出力してもよい。このように、出力制御部５５は、コンテキストに応じて、種々に異なる応答を出力するよう制御することができる。

　出力制御部５５は、出力制御部５５によって生成された応答を出力する場合、例えば各端末１０が対応する出力フォーマットに応答を変換し、変換度の情報を端末１０に送信する。例えば、出力制御部５５は、応答に含まれる文字列からなる応答を、出力先となる端末１０に対応する音声データに変換する。あるいは、出力制御部５５は、いずれかの端末１０によって生成もしくは取得された画像情報を伴う応答を、出力先となる端末１０に対応する画像データに変換する。

　出力部６０は、種々の情報を出力するための機構である。例えば、出力部６０は、スピーカーやディスプレイである。例えば、出力部６０は、出力制御部５５によって応答が出力される場合に、出力先となる端末１０の名称等をユーザに対して音声出力する。また、出力部６０は、画像データをディスプレイに出力してもよい。また、出力部６０は、応答処理装置１００が自装置で応答を生成した場合、生成した応答を音声もしくは画像等で出力する。なお、出力部６０は、生成された音声データを文字認識してディスプレイに表示する等、種々の態様で応答を出力してもよい。

［１－３．第１の実施形態に係る応答処理の手順］
　次に、図１２を用いて、第１の実施形態に係る応答処理の手順について説明する。図１２は、本開示の第１の実施形態に係る処理の流れを示すフローチャートである。

　図１２に示すように、応答処理装置１００は、入力情報を受け付けたか否かを判定する（ステップＳ１０１）。入力情報を受け付けていない場合（ステップＳ１０１；Ｎｏ）、応答処理装置１００は、入力情報を受け付けるまで待機する。

　一方、入力情報を受け付けた場合（ステップＳ１０１；Ｙｅｓ）、応答処理装置１００は、入力情報を解析する（ステップＳ１０２）。具体的には、応答処理装置１００は、入力情報を解析し、入力情報に含まれるユーザの意図や、発話の属性等を取得する。

　続いて、応答処理装置１００は、ユーザの依頼を自装置で実施可能か否かを判定する（ステップＳ１０３）。ユーザの依頼を自装置で実施可能である場合（ステップＳ１０３；Ｙｅｓ）、応答処理装置１００は、さらに、ユーザの依頼が連携する端末１０でも実施可能か否かを判定する（ステップＳ１０４）。

　ユーザの依頼が連携する端末１０で実施可能である場合（ステップＳ１０４；Ｙｅｓ）、もしくは、ステップＳ１０３においてユーザの依頼を自装置で実施可能でない場合（ステップＳ１０３；Ｎｏ）、応答処理装置１００は、依頼を送信する端末１０を選択する（ステップＳ１０５）。上述のように、応答処理装置１００は、一つの端末１０を選択してもよいし、複数の端末１０を選択してもよい。

　このとき、応答処理装置１００は、依頼を伝えるＡＰＩが送信先となる端末１０に備わっているか否かを判定する（ステップＳ１０６）。ＡＰＩが端末１０に備わっていない場合（ステップＳ１０６；Ｎｏ）、応答処理装置１００は、端末１０に合わせた態様で依頼を送信する（ステップＳ１０７）。例えば、応答処理装置１００は、依頼を示す文字列をアナログ音声に変換し、変換した音声を端末１０に対して出力することで、ユーザの依頼を送信（伝達）する。一方、ＡＰＩが端末１０に備わっている場合（ステップＳ１０６；Ｙｅｓ）、応答処理装置１００は、ＡＰＩで依頼の実行を指示する（ステップＳ１０８）。

　その後、応答処理装置１００は、各端末１０でユーザの依頼に対する処理が実行された実行結果を取得する（ステップＳ１０９）。例えば、応答処理装置１００は、ユーザが発話した質問に対応する検索処理等の実行結果を各端末１０から取得する。

　なお、ステップＳ１０４において、ユーザの依頼が連携する端末１０で実施可能でない場合（ステップＳ１０４；Ｎｏ）、応答処理装置１００は、依頼に応答するための処理を自装置で実行する（ステップＳ１１０）。

　実行結果を取得した応答処理装置１００は、ユーザに対する応答の出力態様を決定する（ステップＳ１１１）。例えば、応答処理装置１００は、ユーザのコンテキスト等に従い、出力する応答を決定したり、応答を出力する出力先となる端末１０を決定したりする。

　応答処理装置１００は、ステップＳ１１１において決定した態様で、出力先となる端末１０に応答を出力させる（ステップＳ１１２）。もしくは、応答処理装置１００は、自装置から応答を出力する。

　応答をユーザに対して出力した応答処理装置１００は、ユーザとの対話処理が終了したか否かを判定する（ステップＳ１１３）。具体的には、応答処理装置１００は、ユーザとの対話に関する一つのセッションが終了したか否かを判定する。

　対話処理が終了していない場合（ステップＳ１１３；Ｎｏ）、応答処理装置１００は、処理をステップＳ１０１に戻し、対話処理を継続する。一方、対話処理が終了したと判定した場合（ステップＳ１１３；Ｙｅｓ）、応答処理装置１００は、処理を終了する。

［１－４．第１の実施形態に係る変形例］
　上記で説明した第１の実施形態に係る応答処理は、様々な変形を伴ってもよい。以下に、第１の実施形態の変形例について説明する。

　例えば、応答処理装置１００は、端末情報テーブル３２や機能テーブル３３に格納された情報について、定期的にアップデートを行ってもよい。例えば、端末１０は、ネットワークを介して機能が拡張される場合がある。具体的には、「翻訳」機能を有する端末１０が、以前は対応できなかった言語に対応する等のアップデートを行う場合がある。

　この場合、応答処理装置１００は、連携する端末１０からアップデートが行われた旨の情報を受信し、受信した情報に基づいて、端末情報テーブル３２や機能テーブル３３に格納された情報を更新する。これにより、ユーザは、複数の端末１０の各々の機能のアップデート等を意識せずとも、最新の機能を享受することができる。

　また、応答処理装置１００は、定期的に各端末１０に対して起動ワードを送信し、各端末１０が正常に稼働しているかをチェックしてもよい。

　また、応答処理装置１００は、連携する端末１０の音声返答等を抑止してもよい。例えば、ユーザが応答処理装置１００に対して発話した際には、近くに所在する端末１０もその発話を検知することになる。この場合、応答処理装置１００が応答を生成する前に、端末１０から音声返答がなされるおそれがある。このため、応答処理装置１００は、自装置よりも先に端末１０が返答を行うことのないよう、返答処理を制御してもよい。

　また、応答処理装置１００は、複数の端末１０にユーザの依頼を送信する場合、例えば、利用する音声の帯域を分けること等により、複数の端末１０に同時に依頼を送信してもよい。これにより、応答処理装置１００は、迅速にユーザの依頼を複数の端末１０に伝達することができる。また、応答処理装置１００は、依頼を送信する場合、送信先の端末１０が処理可能であれば、可聴領域の音声を用いないようにしてもよい。また、応答処理装置１００は、周囲の雑音や人の声の周波数を検知し、雑音の周波数とは異なる声音を持つＴＴＳを選択したうえで、音声を出力するようにしてもよい。

　また、応答処理装置１００は、過去に出力した応答に対する反応をユーザから取得し、ユーザから取得した反応に基づいて、ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する出力先を決定してもよい。すなわち、応答処理装置１００は、ユーザの反応に基づいて、学習処理を行ってもよい。

　例えば、ある情報を質問したユーザに対して応答を出力した際に、応答処理装置１００は、ユーザから「ほかの情報をおしえて」などの反応を受ける可能性がある。この場合、応答処理装置１００は、前に出力した情報はユーザが欲していた情報でないと判定する。一方、応答処理装置１００は、次に出力した情報がユーザから受け入れられた場合、当該情報がユーザの欲していた情報と判定する。

　この場合、応答処理装置１００は、次の機会からは、ユーザから同様の質問を受けた場合、ユーザが欲していた応答を生成することのできる端末１０を優先的に選択するようにしてもよい。また、応答処理装置１００は、例えば、ある端末１０から出力されることをユーザが望んでいるような傾向がある場合（ユーザが出力先に特定の端末１０を指定することが統計的に多い場合等）、当該端末１０から優先的に応答が出力されるように調整を行ってもよい。このように、応答処理装置１００は、ユーザの指示や操作履歴に基づいて学習を行うことにより、よりユーザの要望に応えることのできる応答処理を実行することができる。

　また、応答処理装置１００は、例えば、端末１０の起動において、起動ワードではなく、ユーザの生体認証（顔認証や指紋認証等）を要する場合、ユーザにその旨を通知する音声を出力してもよい。また、応答処理装置１００は、起動されなかった端末１０の位置や情報をユーザに通知し、ユーザに端末１０を起動させるよう促すようにしてもよい。

　また、応答処理装置１００は、出力先として複数の端末１０を選択してもよい。この場合、応答処理装置１００は、例えば音声は端末１０Ａ、画像は端末１０Ｂなど、応答として出力される情報の種別に応じて出力先を変えてもよい。また、応答処理装置１００は、比較的大画面で情報を表示できるプロジェクタと、小さく表示できるモニター付きスマートスピーカーの両方で情報を同時に表示するなど、柔軟に出力先を決定してもよい。また、応答処理装置１００は、周囲が暗い場合にはプロジェクタを表示させ、周囲が明るい場合にはスマートテレビを表示させる等、周囲のコンテキストに応じた出力処理を行ってもよい。

　また、応答処理装置１００は、ユーザの依頼を各端末１０に送信する際に、ユーザの意図を抽出せずに、ユーザから受け付けた入力情報（音声等）をそのまま送信してもよい。また、この場合、応答処理装置１００は、ユーザの音声を文字認識したうえで、依頼を示す文字列を変換してもよい。例えば、ユーザが「来月のこよみ見せておくれ」といった依頼を応答処理装置１００に行ったとする。このとき、例えば「こよみ」を各端末１０が認識できない可能性があると判定した場合、応答処理装置１００は、同義語辞書や類似語辞書を参照し、各端末１０が認識可能な態様にユーザの依頼を変換してもよい。例えば、応答処理装置１００は、端末１０Ａに対しては、ユーザの依頼を「来月のカレンダー見せて」に変換したうえで、変換後の情報を送信してもよい。また、応答処理装置１００は、端末１０Ｂに対しては、ユーザの依頼を「来月の予定表見せて」に変換したうえで、変換後の情報を送信してもよい。このように、応答処理装置１００は、フロントエンド機器として、各端末１０への依頼がスムーズに行われるよう、種々の調整処理を行ってもよい。これにより、ユーザは、各端末１０が認識可能な言い回し等を意識せずに依頼を行うことができる。

　また、応答処理装置１００は、ユーザの依頼に応答する端末１０について優先度等を設定していてもよい。この場合、応答処理装置１００は、優先度の高い端末１０を優先して、応答を生成する端末１０として選択する。例えば、応答処理装置１００は、機能の実行時に利用する外部サービスについて、課金されないサービスを利用する端末１０ほど優先度を高く設定してもよい。これにより、応答処理装置１００は、サービスの利用等でユーザに不当に課金がされないよう対処することができる。

（２．第２の実施形態）
［２－１．第２の実施形態に係る応答処理の一例］
　次に、第２の実施形態について説明する。第２の実施形態では、ユーザの状況に応じて、本開示に係る応答処理装置としてふるまう情報機器が変化する例を示す。なお、第２の実施形態では、区別のため応答処理装置１００Ａや応答処理装置１００Ｂ等の参照符号を付与するが、応答処理装置１００Ａや応答処理装置１００Ｂの機能構成は、第１の実施形態で示した応答処理装置１００と同様である。また、以下の説明において、応答処理装置１００Ａや応答処理装置１００Ｂ等を区別する必要のない場合、「応答処理装置１００」と総称する。

　図１３に、本開示の第２の実施形態に係る情報処理の一例を示す。図１３は、本開示の第２の実施形態に係る情報処理の一例を示す図である。図１３では、応答処理装置１００Ａが、ユーザが身に着けるウェアラブルデバイスである例を示す。

　図１３の例では、ユーザは、外出先から帰宅し、ウェアラブルデバイスである応答処理装置１００Ａを腕から外す。このとき、応答処理装置１００Ａは、ユーザが外出先から帰宅し、ウェアラブルデバイスである応答処理装置１００Ａを腕から外したというコンテキストを取得する（ステップＳ５１）。

　このとき、応答処理装置１００Ａは、本開示に係る応答処理装置としての機能を、自宅内に所在する端末１０の一例である応答処理装置１００Ｂに譲渡する。例えば、応答処理装置１００Ａは、図１４に示すデータベースＤＢ１１に従い、本開示に係る応答処理装置の機能の譲渡を実行する。

　図１４は、本開示の第２の実施形態に係るデータベースＤＢ１１の一例を示す図である。図１４に示すデータベースＤＢ１１は、本開示に係る応答処理装置が譲渡される条件を記憶する。例えば、図１４の例では、応答処理装置１００Ａが、譲渡条件「装着解除」もしくは「電源オフ」を満たした場合、「相互通信先」の端末１０や、「近くの端末１０」に本開示に係る応答処理装置の機能を譲渡することを示している。

　図１３の例では、応答処理装置１００Ａは、図１４に記憶された情報に従い、本開示に係る応答処理装置としての機能を応答処理装置１００Ｂに譲渡する。この後、応答処理装置１００Ａは、機能を一時停止してもよいし、端末１０の一つとして機能してもよい。

　この後、ユーザは、新たに本開示に係る応答処理装置として機能する応答処理装置１００Ｂに対して、「今日の天気おしえて」という内容を含む依頼を入力する。応答処理装置１００Ｂは、「今日の天気おしえて」という内容を含む音声Ａ４１を取得する（ステップＳ５２）。応答処理装置１００Ｂは、音声Ａ４１に対するＡＳＲ処理やＮＬＵ処理を経て、ユーザの意図が「今日の天気情報の検索」であると判定した場合、各端末１０にユーザの意図を送信する。

　応答処理装置１００Ｂは、端末１０Ａに応じた形式の情報を端末１０Ａに送信する（ステップＳ５３）。また、応答処理装置１００は、端末１０Ｃに応じた形式の情報を端末１０Ｃに送信する（ステップＳ５４）。

　端末１０Ａは、応答として、検索した天気情報を応答処理装置１００Ｂに送信する（ステップＳ５５）。同様に、端末１０Ｂは、応答として、検索した天気情報を応答処理装置１００Ｂに送信する（ステップＳ５６）。

　こののち、応答処理装置１００Ｂは、自装置に備えられた構成に応じて、ユーザに応答を出力する。例えば、応答処理装置１００Ｂが日本語の音声出力を行わない装置である場合、応答処理装置１００Ｂは、例えば晴れを示す表現（楽しそうな感情表現等）を行うことで、応答を出力する。すなわち、応答処理装置１００Ｂは、自装置に備えられた構成に応じて出力態様を変換し、ユーザに対して出力する。なお、応答処理装置１００Ｂは、第１の実施形態と同様、端末１０Ａや端末１０Ｃから応答を出力させるよう制御してもよい。

　このように、応答処理装置１００Ａや応答処理装置１００Ｂは、本開示に係る応答処理装置としての機能を端末１０等に譲渡してもよい。本開示に係る応答処理装置としての機能が譲渡された端末１０は、その後、本開示に係る応答処理装置としてふるまう。これにより、ユーザは、ある応答処理装置を見失ったり、別の場所に置き忘れたりした場合であっても、代わりの端末１０を利用して本開示に係る応答処理を実行させることができる。すなわち、本開示に係る応答処理装置とは、いずれかの装置に限定されるものではなく、連携する端末１０のいずれかであってもよい。

［２－２．第２の実施形態に係る変形例］
　応答処理装置１００は、譲渡先となる端末１０について、優先度等の情報を設定していてもよい。この場合、応答処理装置１００は、優先度の高い端末１０に優先して本開示に係る応答処理装置としての機能を譲渡してもよい。例えば、応答処理装置１００は、情報処理性能の高い端末１０や、機能を多く有する端末１０ほど、優先度を高く設定してもよい。

（３．第３の実施形態）
　次に、第３の実施形態について説明する。第３の実施形態では、応答処理装置１００が、各端末１０が有する機能を組み合わせて、ユーザの依頼に応答する例を示す。

　図１５に、本開示の第３の実施形態に係る情報処理の一例を示す。図１５は、本開示の第３の実施形態に係る情報処理の一例を示す図である。

　図１５の例では、応答処理装置１００は、ユーザから「日記をつけておいて」という依頼を含む音声Ａ５１を受け付ける（ステップＳ６１）。このとき、応答処理装置１００は、複数の情報を組み合わせて実行する依頼に関する情報が記憶されたデータベースＤＢ２１を参照する。図１５に示すように、データベースＤＢ２１には、ユーザからの依頼と、依頼を実行するために収集するデータと、データの収集先（リソース）とが対応付けられて記憶される。

　応答処理装置１００は、データベースＤＢ２１を参照し、「日記」という依頼を達成するためには、収集データとして、「写真」や「テキスト」や「動画」を収集することを認識する。また、応答処理装置１００は、それぞれのデータを「端末１０Ａ」の写真アプリや、「端末１０Ｃ」が蓄積した会話データや、「端末１０Ｂ」を介してネットワーク上にアップされた動画データ等から収集することを認識する。

　そして、応答処理装置１００は、日記をつけるために要する各データの取得要求を各端末１０に送信する（ステップＳ６２、ステップＳ６３、ステップＳ６４）。また、応答処理装置１００は、各端末１０から送信されるデータを取得する（ステップＳ６５、ステップＳ６６、ステップＳ６７）。

　そして、応答処理装置１００は、取得したデータを組み合わせて、ユーザの依頼に応答する。具体的には、応答処理装置１００は、所定時間内（例えば２４時間）に撮影された画像や、ユーザの会話や、動画等を組み合わせて、ユーザの当日の日記として記憶する。応答処理装置１００は、依頼を完了することができた場合、「かしこまりました。」といった内容を含む音声Ａ５２を出力する。

　このように、応答処理装置１００は、各端末１０が収集可能なデータを組み合わせて、ユーザの依頼に応答してもよい。これにより、応答処理装置１００は、単独の機器では実行が難しい、ユーザの複雑な依頼にも応答することができる。例えば、応答処理装置１００は、ユーザから「旅行計画を立てて」といった依頼を受けたとする。この場合、応答処理装置１００は、「観光地情報を検索する」処理や、「交通機関を予約する」処理や、「宿泊施設を予約する」処理等を、各端末１０に実行させる。そして、応答処理装置１００は、それらを組み合わせてユーザの依頼に応答する。このように、応答処理装置１００は、各々の端末１０の得意とする処理や、実行可能な機能を組み合わせることで、ユーザの依頼に的確に応答することができる。なお、応答処理装置１００は、データベースＤＢ２１のような情報を自装置で保持してもよいし、ユーザの依頼を受けるたびに、当該依頼を実現するための情報を保持する外部サーバ等にアクセスし、情報を取得してもよい。

（４．第４の実施形態）
　次に、第４の実施形態について説明する。第４の実施形態では、応答処理装置１００が、各端末１０が応答できない依頼について、他のユーザに対して依頼内容を出力する例を示す。

　図１６に、本開示の第４の実施形態に係る情報処理の一例を示す。図１６は、本開示の第４の実施形態に係る情報処理の一例を示す図である。

　図１６の例では、応答処理装置１００は、ユーザから「料理ＹＹＹのレシピおしえて」という依頼を含む音声Ａ６１を受け付ける（ステップＳ７１）。応答処理装置１００は、連携する端末１０Ａや端末１０Ｂに対して、音声Ａ６１に対応する依頼を送信する（ステップＳ７２、ステップＳ７３）。

　送信された依頼に対して、端末１０Ａは、「料理ＹＹＹのレシピ」が検索できなかった旨を返信する（ステップＳ７４）。同様に、端末１０Ｂも、「料理ＹＹＹのレシピ」が検索できなかった旨を返信する（ステップＳ７５）。

　この場合、応答処理装置１００は、自装置や端末１０Ａや端末１０Ｂが備えるカメラ等を制御し、近くに所在する他のユーザのコンテキストの検知を試みる。図１６の例では、応答処理装置１００は、端末１０Ｂの近くに所在する「ＺＺＺ」という名称の第２のユーザを検知したものとする。なお、第２のユーザに関する情報は、予めユーザ情報テーブル３１等に保持されているものとする。

　応答処理装置１００は、第２のユーザを検知した場合、「ＺＺＺさんが近くにいます。ＺＺＺさんに聞いてみます。」といった内容を含む音声Ａ６２をユーザに対して出力する。なお、ユーザは、第２のユーザに依頼が聞かれたくない場合、応答処理装置１００にその旨を入力してもよい。

　応答処理装置１００は、音声Ａ６２を出力したのち、「ＺＺＺさん、料理ＹＹＹのレシピをご存じでしたら、音声を入力してください。」といった内容を含む音声Ａ６３を、近くの端末１０Ｂから出力させる（ステップＳ７６）。第２のユーザは、「料理ＹＹＹのレシピ」を知っている場合、例えば、端末１０Ｂに音声を入力する（ステップＳ７７）。あるいは、第２のユーザは、「料理ＹＹＹのレシピ」を知らない旨を端末１０Ｂに入力する。

　応答処理装置１００は、第２のユーザから返答された内容をユーザに対して出力する。すなわち、応答処理装置１００は、各端末１０によって応答が生成されない場合には、第２のユーザ等に質問を出力することで、依頼に対する応答を取得する。

　このように、応答処理装置１００は、入力情報に対する応答を応答処理装置１００、及び、複数の端末１０のいずれもが生成できないと判定した場合、ユーザ以外の他のユーザのコンテキストを取得する。そして、応答処理装置１００は、他のユーザのコンテキストに基づいて、入力情報に関する出力の出力先を決定する。入力情報に関する出力とは、例えば、エージェント機器が入力情報に対する応答を生成できない旨を示す音声や、入力情報に対する回答を他のユーザに求める旨を示す音声等である。具体的には、応答処理装置１００は、図１６に示す音声Ａ６３の出力先として端末１０Ｂを決定し、音声Ａ６３を出力する。この後、応答処理装置１００は、他のユーザから回答が得られた場合、その音声を応答処理装置１００等から出力することで、ユーザの依頼に応答することができる。

　上記のように、応答処理装置１００は、対話システム上で解決できない依頼がなされた場合も、複数の端末１０を制御して他のユーザのコンテキストを取得することで、依頼を解決できそうな他のユーザを検知することができる。これにより、応答処理装置１００は、対話システムのみでは解決できない珍しい質問や、エージェント機器が認識しにくい質問に対しても、何らかの応答をユーザに出力することのできる可能性を高めることができる。なお、応答処理装置１００は、他のユーザに限らず、応答処理装置１００と連携していないものの、依頼の回答になりうると想定されるもの（例えば、特定の道具や本）を検知してもよい。この場合、応答処理装置１００は、特定の道具や本に記載された内容をユーザに伝達したり、特定の道具や本の所在場所をユーザに提示したりしてもよい。

（５．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　上記各実施形態では、応答処理装置１００がいわゆるスマートスピーカーであり、スタンドアロンで処理を行う例を示した。しかし、応答処理装置１００は、ネットワークによって接続されたサーバ装置（いわゆるクラウドサーバ（Cloud　Server）等）と連携して本開示に係る応答処理を行ってもよい。

　この場合、応答処理装置１００は、スマートスピーカー等の端末に入力された音声やコンテキストを取得し、取得した情報に基づいて応答を生成し、生成した応答を端末に送信する。この場合には、スマートスピーカー等の端末は、ユーザの発話を集音する処理や、集音した発話をサーバ装置に送信する処理や、サーバ装置から送信された回答を出力する処理といった、ユーザとの対話処理を主に実行するインターフェイスとして機能する。

　また、本開示に係る応答処理装置とは、応答処理装置１００内に搭載されるＩＣチップ等の態様で実現されてもよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、依頼分析部５１と状態推定部５２は統合されてもよい。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（６．本開示に係る応答処理装置の効果）
　上述のように、本開示に係る応答処理装置（実施形態では応答処理装置１００）は、取得部（実施形態では取得部４０）と、選択部（実施形態では選択部５０）と、出力制御部（実施形態では出力制御部５５）を備える。取得部は、情報機器（実施形態では端末１０）が応答を生成する契機となる情報である入力情報をユーザから取得する。選択部は、複数の情報機器のうち、入力情報に対応した応答を生成する情報機器を選択する。出力制御部は、入力情報に対応する応答であって、選択された情報機器によって生成された応答の出力を制御する。

　このように、本開示に係る応答処理装置は、複数の情報機器のフロントエンド機器としてふるまい、応答を生成する情報機器を選択したり、出力を制御したりする。これにより、応答処理装置は、複数の情報機器をユーザが利用する際に、個々の情報機器に対して対話を行うような手間を省かせることができるので、ユーザの利便性を向上させることができる。

　また、取得部は、入力情報として、ユーザが発した音声情報を取得する。これにより、応答処理装置は、音声を介したユーザとのコミュニケーションにおいて、ユーザの状況に合わせた適切な対話を行うことができる。

　また、取得部は、入力情報として、ユーザの行動を検知した検知情報を取得する。これにより、応答処理装置は、ユーザが発話をせずとも、ユーザの行動に合わせた適切な応答を生成することができる。

　また、選択部は、入力情報に対する応答を応答処理装置が生成することができないと判定した場合に、複数の情報機器のうち、入力情報に対応した応答を生成する情報機器を選択する。これにより、応答処理装置は、自装置で応答が不可能な依頼のみを情報機器に送るので、無駄な通信を発生させず、通信量や通信負荷を抑制することができる。

　また、選択部は、複数の情報機器の各々が入力情報に対する応答を生成することができるか否かを判定し、入力情報に対する応答を生成することができないと判定された情報機器以外の情報機器を、入力情報に対応した応答を生成する情報機器として選択する。これにより、応答処理装置は、依頼に対して対応が可能な情報機器のみに選択的に依頼を送信することができるので、通信量や通信負荷を抑制することができる。

　また、選択部は、入力情報に対応した応答を生成する情報機器として複数の情報機器を選択する。出力制御部は、複数の情報機器によって生成された応答を比較した情報に基づいて、ユーザに対して出力する応答を決定する。これにより、応答処理装置は、ユーザの依頼に対して、複数の応答を用意することができるため、よりユーザの要望に沿った応答を出力しやすくなる。

　また、出力制御部は、複数の情報機器によって生成された各々の応答の情報量もしくは種別に基づいて、ユーザに対して出力する応答を決定する。これにより、応答処理装置は、複数の応答のうち、情報量が多い応答等を選択して出力できるので、よりユーザの要望に沿った応答を出力しやすくなる。

　また、選択部は、入力情報に対応した応答を生成する情報機器として複数の情報機器を選択する。出力制御部は、複数の情報機器によって生成された複数の応答を合成し、ユーザに対して出力する応答を生成する。これにより、応答処理装置は、複数の機器が取得した情報を取捨選択して応答を生成することができるので、ユーザが要望するような的確な応答を行うことができる。

　また、選択部は、選択した複数の情報機器の各々が認識可能な態様に入力情報を変換し、変換後の入力情報を複数の情報機器に送信する。これにより、応答処理装置は、様々なＡＰＩや入力方式を有する複数の情報機器に対しても、迅速にユーザの依頼を送信することができる。

　また、取得部は、ユーザのコンテキストを取得する。出力制御部は、コンテキストに基づいて、選択された情報機器によって生成された応答を出力する態様を決定する。これにより、応答処理装置は、ユーザのコンテキストに合わせた柔軟な応答を出力することができるため、対話等のエージェント機能をより効果的にユーザに提供することができる。

　また、取得部は、コンテキストとして、ユーザによって予め登録されたユーザの属性情報を取得する。これにより、応答処理装置は、老齢や子ども、視覚障碍を有するユーザ等、各々のユーザの特性に合わせた応答を生成することができる。

　また、出力制御部は、ユーザの属性情報に応じて、ユーザに対して出力する応答の種別、もしくは、応答を出力する出力先を決定する。これにより、応答処理装置は、音声や画像等、ユーザの属性に合わせた適切な出力を選択することができる。

　また、取得部は、コンテキストとして、ユーザの位置を示す位置情報を取得する。これにより、応答処理装置は、ユーザが所在する位置に対して応答を出力する等、ユーザビリティの高い応答処理を行うことができる。

　また、出力制御部は、ユーザと複数の情報機器の少なくともいずれかとの位置関係に基づいて、ユーザに対して応答を出力する情報機器を決定する。これにより、応答処理装置は、ユーザから近い位置に所在する情報機器に応答を出力させる等、ユーザの位置に合わせた柔軟な出力を行うことができる。

　また、取得部は、コンテキストとして、ユーザの行動もしくは感情を推定した推定情報を取得する。これにより、応答処理装置は、ユーザがこれから実行しようとする行動に即した応答を出力することができる。

　また、出力制御部は、推定情報に基づいて、ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する情報機器を決定する。これにより、応答処理装置は、例えば、ユーザが通常よりも急いでいるという状況にあると推定される場合には、より短い再生時間の応答を出力する等、柔軟な対応を行うことができる。

　また、取得部は、入力情報に対する応答を応答処理装置、及び、複数の情報機器のいずれもが生成できないと判定した場合、ユーザ以外の他のユーザのコンテキストを取得する。出力制御部は、他のユーザのコンテキストに基づいて、入力情報に関する出力の出力先を決定する。これにより、応答処理装置は、エージェント機器では対応の難しいような依頼については、その依頼を他のユーザに質問すること等ができるので、ユーザの要望に応えることのできる可能性を高めることができる。

　また、取得部は、過去に出力した応答に対する反応をユーザから取得する。出力制御部は、ユーザから取得した反応に基づいて、ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する出力先を決定する。これにより、応答処理装置は、過去のユーザの反応を学習した結果を出力に反映できるので、より的確にユーザの要望に応えることができる。

（７．ハードウェア構成）
　上述してきた各実施形態に係る応答処理装置１００や端末１０、外部サーバ２００等の情報機器は、例えば図１７に示すような構成のコンピュータ１０００によって実現される。以下、第１の実施形態に係る応答処理装置１００を例に挙げて説明する。図１７は、応答処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る応答処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が第１の実施形態に係る応答処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた応答処理プログラムを実行することにより、取得部４０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る応答処理プログラムや、記憶部３０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　情報機器が応答を生成する契機となる情報である入力情報をユーザから取得する取得部と、
　複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択する選択部と、
　前記入力情報に対応する応答であって、前記選択された情報機器によって生成された応答の出力を制御する出力制御部と
　を備える応答処理装置。
（２）
　前記取得部は、
　前記入力情報として、前記ユーザが発した音声情報を取得する
　前記（１）に記載の応答処理装置。
（３）
　前記取得部は、
　前記入力情報として、前記ユーザの行動を検知した検知情報を取得する
　前記（１）又は（２）に記載の応答処理装置。
（４）
　前記選択部は、
　前記入力情報に対する応答を前記応答処理装置が生成することができないと判定した場合に、前記複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択する
　前記（１）～（３）のいずれかに記載の応答処理装置。
（５）
　前記選択部は、
　前記複数の情報機器の各々が前記入力情報に対する応答を生成することができるか否かを判定し、当該入力情報に対する応答を生成することができないと判定された情報機器以外の情報機器を、当該入力情報に対応した応答を生成する情報機器として選択する
　前記（４）に記載の応答処理装置。
（６）
　前記選択部は、
　前記入力情報に対応した応答を生成する情報機器として複数の情報機器を選択し、
　前記出力制御部は、
　前記複数の情報機器によって生成された応答を比較した情報に基づいて、前記ユーザに対して出力する応答を決定する
　前記（４）又は（５）に記載の応答処理装置。
（７）
　前記出力制御部は、
　前記複数の情報機器によって生成された各々の応答の情報量もしくは種別に基づいて、前記ユーザに対して出力する応答を決定する
　前記（６）に記載の応答処理装置。
（８）
　前記選択部は、
　前記入力情報に対応した応答を生成する情報機器として複数の情報機器を選択し、
　前記出力制御部は、
　前記複数の情報機器によって生成された複数の応答を合成し、前記ユーザに対して出力する応答を生成する
　前記（４）～（７）のいずれかに記載の応答処理装置。
（９）
　前記選択部は、
　前記選択した複数の情報機器の各々が認識可能な態様に前記入力情報を変換し、変換後の入力情報を当該複数の情報機器に送信する
　前記（１）～（８）のいずれかに記載の応答処理装置。
（１０）
　前記取得部は、
　前記ユーザのコンテキストを取得し、
　前記出力制御部は、
　前記コンテキストに基づいて、前記選択された情報機器によって生成された応答を出力する態様を決定する
　前記（１）～（９）のいずれかに記載の応答処理装置。
（１１）
　前記取得部は、
　前記コンテキストとして、前記ユーザによって予め登録された当該ユーザの属性情報を取得する
　前記（１０）に記載の応答処理装置。
（１２）
　前記出力制御部は、
　前記ユーザの属性情報に応じて、当該ユーザに対して出力する応答の種別、もしくは、応答を出力する出力先を決定する
　前記（１１）に記載の応答処理装置。
（１３）
　前記取得部は、
　前記コンテキストとして、前記ユーザの位置を示す位置情報を取得する
　前記（１０）～（１２）のいずれかに記載の応答処理装置。
（１４）
　前記出力制御部は、
　前記ユーザと前記複数の情報機器の少なくともいずれかとの位置関係に基づいて、当該ユーザに対して応答を出力する情報機器を決定する
　前記（１３）に記載の応答処理装置。
（１５）
　前記取得部は、
　前記コンテキストとして、前記ユーザの行動もしくは感情を推定した推定情報を取得する
　前記（１０）～（１４）のいずれかに記載の応答処理装置。
（１６）
　前記出力制御部は、
　前記推定情報に基づいて、前記ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する情報機器を決定する
　前記（１５）に記載の応答処理装置。
（１７）
　前記取得部は、
　前記入力情報に対する応答を前記応答処理装置、及び、前記複数の情報機器のいずれもが生成できないと判定した場合、前記ユーザ以外の他のユーザのコンテキストを取得し、
　前記出力制御部は、
　前記他のユーザのコンテキストに基づいて、前記入力情報に関する出力の出力先を決定する
　前記（１０）～（１６）のいずれかに記載の応答処理装置。
（１８）
　前記取得部は、
　過去に出力した応答に対する反応を前記ユーザから取得し、
　前記出力制御部は、
　前記ユーザから取得した反応に基づいて、前記ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する出力先を決定する
　前記（１）～（１７）のいずれかに記載の応答処理装置。
（１９）
　コンピュータが、
　情報機器が応答を生成する契機となる情報である入力情報をユーザから取得し、
　複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択し、
　前記入力情報に対応する応答であって、前記選択された情報機器によって生成された応答の出力を制御する
　応答処理方法。
（２０）
　コンピュータを、
　情報機器が応答を生成する契機となる情報である入力情報をユーザから取得する取得部と、
　複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択する選択部と、
　前記入力情報に対応する応答であって、前記選択された情報機器によって生成された応答の出力を制御する出力制御部と、
　として機能させるための応答処理プログラム。

　１　応答処理システム
　１０　端末
　１００　応答処理装置
　２０　センサ
　２０Ａ　音声入力センサ
　２０Ｂ　画像入力センサ
　２１　入力部
　２２　通信部
　３０　記憶部
　３１　ユーザ情報テーブル
　３２　端末情報テーブル
　３３　機能テーブル
　４０　取得部
　４１　検知部
　４２　登録部
　４３　受信部
　５０　選択部
　５１　依頼分析部
　５２　状態推定部
　５５　出力制御部
　６０　出力部
　２００　外部サーバ

Claims

　情報機器が応答を生成する契機となる情報である入力情報をユーザから取得する取得部と、
　複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択する選択部と、
　前記入力情報に対応する応答であって、前記選択された情報機器によって生成された応答の出力を制御する出力制御部と
　を備える応答処理装置。
　前記取得部は、
　前記入力情報として、前記ユーザが発した音声情報を取得する
　請求項１に記載の応答処理装置。
　前記取得部は、
　前記入力情報として、前記ユーザの行動を検知した検知情報を取得する
　請求項１に記載の応答処理装置。
　前記選択部は、
　前記入力情報に対する応答を前記応答処理装置が生成することができないと判定した場合に、前記複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択する
　請求項１に記載の応答処理装置。
　前記選択部は、
　前記複数の情報機器の各々が前記入力情報に対する応答を生成することができるか否かを判定し、当該入力情報に対する応答を生成することができないと判定された情報機器以外の情報機器を、当該入力情報に対応した応答を生成する情報機器として選択する
　請求項４に記載の応答処理装置。
　前記選択部は、
　前記入力情報に対応した応答を生成する情報機器として複数の情報機器を選択し、
　前記出力制御部は、
　前記複数の情報機器によって生成された応答を比較した情報に基づいて、前記ユーザに対して出力する応答を決定する
　請求項４に記載の応答処理装置。
　前記出力制御部は、
　前記複数の情報機器によって生成された各々の応答の情報量もしくは種別に基づいて、前記ユーザに対して出力する応答を決定する
　請求項６に記載の応答処理装置。
　前記選択部は、
　前記入力情報に対応した応答を生成する情報機器として複数の情報機器を選択し、
　前記出力制御部は、
　前記複数の情報機器によって生成された複数の応答を合成し、前記ユーザに対して出力する応答を生成する
　請求項４に記載の応答処理装置。
　前記選択部は、
　前記選択した複数の情報機器の各々が認識可能な態様に前記入力情報を変換し、変換後の入力情報を当該複数の情報機器に送信する
　請求項４に記載の応答処理装置。
　前記取得部は、
　前記ユーザのコンテキストを取得し、
　前記出力制御部は、
　前記コンテキストに基づいて、前記選択された情報機器によって生成された応答を出力する態様を決定する
　請求項１に記載の応答処理装置。
　前記取得部は、
　前記コンテキストとして、前記ユーザによって予め登録された当該ユーザの属性情報を取得する
　請求項１０に記載の応答処理装置。
　前記出力制御部は、
　前記ユーザの属性情報に応じて、当該ユーザに対して出力する応答の種別、もしくは、応答を出力する出力先を決定する
　請求項１１に記載の応答処理装置。
　前記取得部は、
　前記コンテキストとして、前記ユーザの位置を示す位置情報を取得する
　請求項１０に記載の応答処理装置。
　前記出力制御部は、
　前記ユーザと前記複数の情報機器の少なくともいずれかとの位置関係に基づいて、当該ユーザに対して応答を出力する情報機器を決定する
　請求項１３に記載の応答処理装置。
　前記取得部は、
　前記コンテキストとして、前記ユーザの行動もしくは感情を推定した推定情報を取得する
　請求項１０に記載の応答処理装置。
　前記出力制御部は、
　前記推定情報に基づいて、前記ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する情報機器を決定する
　請求項１５に記載の応答処理装置。
　前記取得部は、
　前記入力情報に対する応答を前記応答処理装置、及び、前記複数の情報機器のいずれもが生成できないと判定した場合、前記ユーザ以外の他のユーザのコンテキストを取得し、
　前記出力制御部は、
　前記他のユーザのコンテキストに基づいて、前記入力情報に関する出力の出力先を決定する
　請求項１０に記載の応答処理装置。
　前記取得部は、
　過去に出力した応答に対する反応を前記ユーザから取得し、
　前記出力制御部は、
　前記ユーザから取得した反応に基づいて、前記ユーザに対して出力する応答の種別、応答の態様、もしくは、応答を出力する出力先を決定する
　請求項１に記載の応答処理装置。
　コンピュータが、
　情報機器が応答を生成する契機となる情報である入力情報をユーザから取得し、
　複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択し、
　前記入力情報に対応する応答であって、前記選択された情報機器によって生成された応答の出力を制御する
　応答処理方法。
　コンピュータを、
　情報機器が応答を生成する契機となる情報である入力情報をユーザから取得する取得部と、
　複数の情報機器のうち、前記入力情報に対応した応答を生成する情報機器を選択する選択部と、
　前記入力情報に対応する応答であって、前記選択された情報機器によって生成された応答の出力を制御する出力制御部と、
　として機能させるための応答処理プログラム。