WO2019107145A1

WO2019107145A1 - 情報処理装置、及び情報処理方法

Info

Publication number: WO2019107145A1
Application number: PCT/JP2018/042058
Authority: WO
Inventors: 真里斎藤
Original assignee: ソニー株式会社
Priority date: 2017-11-28
Filing date: 2018-11-14
Publication date: 2019-06-06
Also published as: US20200327890A1

Abstract

本技術は、割り込み発話の発生時に、適切な応答を行うことができるようにする情報処理装置、及び情報処理方法に関する。ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、第１の発話に対する応答の提示を制御する制御部を備える情報処理装置が提供されることで、ユーザとシステムとの対話に際して、ユーザの発話に対する割り込み発話の発生時に、システムが、適切な応答を行うことができるようになる。本技術は、例えば、音声対話システムに適用することができる。

Description

情報処理装置、及び情報処理方法

　本技術は、情報処理装置、及び情報処理方法に関し、特に、割り込み発話の発生時に、適切な応答を行うことができるようにした情報処理装置、及び情報処理方法に関する。

　近年、ユーザの発話に応じた応答を行う音声対話システムが、様々な分野で利用されはじめている。音声対話システムでは、ユーザの発話の音声を認識するだけでなく、ユーザの発話の意図を推定して、適切な応答を行うことが求められる。

　また、ユーザによって、ある発話がなされた場合に、他の発話が割り込む場面が想定され、このような割り込み発話に対して、システム側では、適切な動作が行われるようにする必要がある。

　例えば、特許文献１には、２つ以上の割り込み情報の割り込みが重複して発生したときに、当該２つ以上の割り込み情報に対して設定された優先度に従って、より優先度の値が大きい割り込み情報を優先して出力するものが開示されている。

　また、例えば、特許文献２には、音声信号、頭の動き、視線の方向、表情の入力データと、時間情報とから、ユーザの動作情報を認識して、その認識の結果に基づき、発話権が、コンピュータとユーザのどちらにあるかを判定し、発話権の所在に応じてコンピュータ側からの応答を生成するものが開示されている。

特開2013-29977号公報特開平9-269889号公報

　しかしながら、上述した特許文献１や特許文献２に開示されているような、割り込み情報に対する優先度や発話権の判定では、ユーザとシステムとの対話の状況によっては、割り込み発話の発生時に、システム側で、適切な応答が行われない可能性がある。

　本技術はこのような状況に鑑みてなされたものであり、割り込み発話の発生時に、適切な応答を行うことができるようにするものである。

　本技術の一側面の情報処理装置は、ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、前記第１の発話に対する応答の提示を制御する制御部を備える情報処理装置である。

　本技術の一側面の情報処理方法は、情報処理装置の情報処理方法において、前記情報処理装置が、ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、前記第１の発話に対する応答の提示を制御する情報処理方法である。

　本技術の一側面の情報処理装置、及び情報処理方法においては、ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、前記第１の発話に対する応答の提示が制御される。

　本技術の一側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

　本技術の一側面によれば、割り込み発話の発生時に、適切な応答を行うことができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した音声対話システムの構成の例を示すブロック図である。音声対話システムの機能的構成の例を示すブロック図である。実行の結果の提示の第１の例を示す図である。実行の結果の提示の第２の例を示す図である。実行の結果の提示の第３の例を示す図である。実行の結果の提示の第４の例を示す図である。実行の結果の提示の第５の例を示す図である。実行の結果の提示の第６の例を示す図である。割り込み発話時の実行結果提示処理の流れを説明するフローチャートである。他のユーザ割り込み発話時の実行結果提示処理の流れを説明するフローチャートである。受付期間設定処理の流れを説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．本技術の実施の形態
２．変形例
３．コンピュータの構成

＜１．本技術の実施の形態＞

（音声対話システムの構成例）
　図１は、本技術を適用した音声対話システムの構成の例を示すブロック図である。

　音声対話システム１は、ユーザ宅等のローカル側に設置される端末装置１０と、データセンタ等のクラウド側に設置されるサーバ２０とから構成される。音声対話システム１において、端末装置１０とサーバ２０とは、インターネット３０を介して相互に接続されている。

　端末装置１０は、家庭内LAN(Local Area Network)等のネットワークに接続可能な機器であって、音声対話サービスのユーザインターフェースとしての機能を実現するための処理を実行する。

　例えば、端末装置１０は、ホームエージェント（エージェント）などとも称され、ユーザとの音声対話のほか、音楽の再生や、照明器具や空調設備などの機器に対する音声操作などの機能を有している。

　なお、端末装置１０は、専用の端末として構成されるほか、例えば、スピーカ（いわゆるスマートスピーカ）やゲーム機、スマートフォン等のモバイル機器、タブレット型のコンピュータ、テレビ受像機等の電子機器として構成されるようにしてもよい。

　端末装置１０は、インターネット３０を介してサーバ２０と連携することで、ユーザに対し、音声対話サービス（のユーザインターフェース）を提供することができる。

　例えば、端末装置１０は、ユーザから発せられた音声（ユーザ発話）を収音し、その音声データを、インターネット３０を介して、サーバ２０に送信する。また、端末装置１０は、インターネット３０を介してサーバ２０から送信されてくる処理データを受信し、その処理データに応じた画像や音声などの情報を提示する。

　サーバ２０は、クラウドベースの音声対話サービスを提供するサーバであって、音声対話機能を実現するための処理を実行する。

　例えば、サーバ２０は、インターネット３０を介して端末装置１０から送信されてくる音声データに基づき、音声認識処理や意味解析処理などの処理を実行し、その処理の結果に応じた処理データを、インターネット３０を介して端末装置１０に送信する。

　なお、図１においては、端末装置１０とサーバ２０とが１つずつ設けられた構成を示しているが、複数の端末装置１０が設けられ、各端末装置１０からのデータが、サーバ２０により集中的に処理されるようにしてもよい。また、例えば、音声認識や意味解析等の機能ごとに、１又は複数のサーバ２０が設けられるようにしてもよい。

（音声対話システムの機能的構成例）
　図２は、図１に示した音声対話システム１の機能的構成の例を示すブロック図である。

　図２において、音声対話システム１は、カメラ１０１、マイクロフォン１０２、ユーザ認識部１０３、音声認識部１０４、意味解析部１０５、依頼実行部１０６、提示方法制御部１０７、表示制御部１０８、発話生成部１０９、表示デバイス１１０、及びスピーカ１１１から構成される。また、音声対話システム１は、ユーザDB１３１等のデータベースを有している。

　カメラ１０１は、イメージセンサを有し、ユーザ等の被写体を撮像して得られる画像データを、ユーザ認識部１０３に供給する。

　マイクロフォン１０２は、ユーザが発した声を電気信号に変換して得られる音声データを、音声認識部１０４に供給する。

　ユーザ認識部１０３は、カメラ１０１から供給される画像データに基づいて、ユーザ認識処理を実行し、そのユーザ認識の結果を、意味解析部１０５に供給する。

　このユーザ認識処理では、画像データを解析し、端末装置１０の周りにいるユーザを検出（認識）する。また、ユーザ認識処理では、画像解析の結果を用い、例えば、ユーザの視線の方向や顔の向きなどを検出するようにしてもよい。

　音声認識部１０４は、マイクロフォン１０２から供給される音声データに基づいて、音声認識処理を実行し、その音声認識の結果を、意味解析部１０５に供給する。

　この音声認識処理では、例えば、音声テキスト変換用のデータベース等を適宜参照することで、マイクロフォン１０２からの音声データを、テキストデータに変換する処理が実行される。

　意味解析部１０５は、音声認識部１０４から供給される音声認識の結果に基づいて、意味解析処理を実行し、その意味解析の結果を、依頼実行部１０６に供給する。

　この意味解析処理では、例えば、音声言語理解用のデータベース等を適宜参照することで、自然言語である音声認識の結果（テキストデータ）を、機械（システム）が理解できる表現に変換する処理が実行される。ここでは、例えば、意味解析の結果として、ユーザが実行させたい「意図（Intent）」と、そのパラメータとなる「実体情報（Entity）」の形で、発話の意味が表現される。

　なお、意味解析処理では、ユーザ認識部１０３から供給されるユーザ認識の結果に基づき、ユーザDB１３１に記録されているユーザ情報を適宜参照し、対象のユーザに関する情報を、意味解析の結果に反映させるようにしてもよい。

　依頼実行部１０６は、意味解析部１０５から供給される意味解析の結果に基づいて、ユーザの依頼に応じた処理（以下、依頼対応処理ともいう）を実行し、その実行の結果を、提示方法制御部１０７に供給する。

　この依頼対応処理では、ユーザ認識部１０３から供給されるユーザ認識の結果に基づき、ユーザDB１３１に記録されているユーザ情報を適宜参照し、対象のユーザに関する情報を適用することができる。

　提示方法制御部１０７は、依頼実行部１０６から供給される実行の結果に基づいて、提示方法制御処理を実行し、その処理の結果に基づき、表示制御部１０８及び発話生成部１０９の少なくとも一方の提示方法（出力モーダルの提示）を制御する。なお、この提示方法制御処理の詳細は、図３乃至図８を参照して後述する。

　表示制御部１０８は、提示方法制御部１０７からの制御に従い、表示制御処理を実行し、画像やテキスト等の情報（システム応答）を、表示デバイス１１０により表示（提示）する。

　表示デバイス１１０は、例えばプロジェクタとして構成され、画像やテキスト等の情報を含む画面を、壁面や床面などに投影する。なお、表示デバイス１１０は、液晶ディスプレイや有機ELディスプレイ等のディスプレイにより構成されるようにしてもよい。

　発話生成部１０９は、提示方法制御部１０７からの制御に従い、発話生成処理（例えば、音声合成処理（TTS：Text To Speech）等）を実行し、その発話生成の結果得られる応答音声（システム応答）を、スピーカ１１１から出力する。なお、スピーカは、音声のほか、BGMなどの音楽を出力してもよい。

　ユーザDB１３１等のデータベースは、ハードディスクや半導体メモリ等の記録部に記録されている。ユーザDB１３１は、ユーザに関するユーザ情報を記録している。ここで、ユーザ情報としては、例えば、名前や年齢、性別などの個人情報のほか、システムの機能やアプリケーション等の使用履歴情報、ユーザの発話時の癖や発話傾向などの特性情報など、ユーザに関するあらゆる情報を含めることができる。

　音声対話システム１は、以上のように構成される。

　なお、図２の音声対話システム１において、カメラ１０１乃至スピーカ１１１を、端末装置１０（図１）と、サーバ２０（図１）のどちらの機器に組み込むかは、任意であるが、例えば、次のような構成とすることができる。

　すなわち、ユーザインターフェースとして機能する、カメラ１０１、マイクロフォン１０２、表示デバイス１１０、及びスピーカ１１１を、ローカル側の端末装置１０に組み込む一方で、それ以外の機能となる、ユーザ認識部１０３、音声認識部１０４、意味解析部１０５、依頼実行部１０６、提示方法制御部１０７、表示制御部１０８、及び発話生成部１０９を、クラウド側のサーバ２０に組み込むことができる。

（提示方法制御処理）
　次に、提示方法制御部１０７によって実行される提示方法制御処理の詳細な内容について説明する。

　提示方法制御処理では、例えば、下記に示した（Ａ）乃至（Ｅ）の提示方法のうち、１つの提示方法に基づき、ユーザの依頼に応じた処理（依頼対応処理）の実行の結果が提示される。

（Ａ）同等の意図の場合に、１つに統合した実行の結果を提示
（Ｂ）条件の追加がある場合に、追加の条件を加えた実行の結果を提示
（Ｃ）条件の変更がある場合に、一部の条件を変更した実行の結果を提示
（Ｄ）異なる意図の場合に、それぞれの実行の結果を提示
（Ｅ）システムに対する発話ではない場合に、割り込み発話ではないとみなして無視

　以下、図３乃至図８を参照して、上述した（Ａ）乃至（Ｅ）の提示方法の詳細な内容を順に説明する。

（Ａ）第１の提示方法
　上述の（Ａ）の第１の提示方法では、先のユーザ発話と後のユーザ発話で、それらの発話の意図が同等（略同一）となる場合には、先後のユーザ発話を１つに統合して、その依頼に応じた依頼対応処理の実行の結果を提示する。

　ここで、例えば、ユーザとシステムとの対話として、図３に示すような、第１の対話が行われた場面を想定する。ただし、以下の説明では、対話における、ユーザの発話を、「Ｕ（User）」と表記し、ホームコンソールシステムの応答音声を、「Ｓ（System）」と表記する。

（第１の対話の例）

　Ｕ：「今やっている映画探して」
　Ｕ：「今日やっている映画を教えて」

　Ｓ：「今日上映している映画はこちらです」

　この第１の対話の例では、ユーザによって、「今やっている映画探して」である先のユーザ発話と、「今日やっている映画を教えて」である後のユーザ発話（割り込み発話）が、受付期間内に連続して行われている。

　このとき、音声対話システム１は、先のユーザ発話と後のユーザ発話とでは、音声認識の結果は異なるが、意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"又は"今日"が得られるため、その意図が、同等（略同一）であると判定することができる。

　そして、音声対話システム１では、先のユーザ発話（に対する先の処理）と、後のユーザ発話（に対する後の処理）とを１つに統合して、例えば、Intent = "上映スケジュール確認",Entity = "今日"である意味解析の結果に基づき、ユーザの依頼に応じた処理（同等依頼対応処理）を実行して、その実行の結果が提示されるようにする。

　これにより、図３に示すように、端末装置１０においては、表示デバイス１１０によって、表示エリア２０１に、今日の映画（邦画と洋画を含む）の上映スケジュールの一覧が提示（表示）され、スピーカ１１１によって、「今日上映している映画はこちらです」である応答音声が提示（出力）される。その結果として、ユーザは、先のユーザ発話に対し、同等の内容となる後のユーザ発話（割り込み発話）を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。

　このように、音声対話システム１では、先のユーザ発話と後のユーザ発話の意味解析の結果が同等である場合に、処理を１つにまとめることで、同等の処理が複数回繰り返されないようにしている。

　仮に、このような場合に、処理を１つにまとめないと、同様の処理が複数回繰り返され、ユーザに対し、同一の上映スケジュールの一覧を繰り返して提示することになって、ユーザは、同じ情報を繰り返し確認するのを不快に感じてしまう恐れがある。また、同様の処理を繰り返すことは、システム側にとっても無駄である。

　なお、ここでは、説明の都合上、先後のユーザ発話で、その意図が同等となる場合に、処理を１つにまとめる例を示したが、それに限らず、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理の実行を中止（提示を中止）するなどとしてもよい。要は、先後のユーザ発話で、その意図が同等となる場合に、同様の処理が繰り返し実行されないようにすればよいのであって、その実現方法は、任意である。

（Ｂ）第２の提示方法
　上述の（Ｂ）の第２の提示方法では、先のユーザ発話に対し、後のユーザ発話によって条件が加えられる場合には、先のユーザ発話の内容に、後のユーザ発話の内容（条件）を追加して、その依頼に応じた依頼対応処理の実行の結果を提示する。

　ここで、例えば、ユーザとシステムとの対話として、図４に示すような、第２の対話が行われた場面を想定する。

（第２の対話の例）

　Ｕ：「今やっている映画探して」
　Ｕ：「邦画でお願い」

　Ｓ：「今やっている邦画です」

　この第２の対話の例では、ユーザによって、「今やっている映画探して」である先のユーザ発話と、「邦画でお願い」である後のユーザ発話（割り込み発話）が、受付期間内に連続して行われている。それに対し、音声対話システム１では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Entity = "邦画"が得られる。

　このとき、音声対話システム１は、意味解析の結果に基づき、後のユーザ発話の意味解析の結果（Entity = "邦画"）が、先のユーザ発話の意味解析の結果（Intent = "上映スケジュール確認",Entity = "今"）に加えるべき条件（不足している情報）であると判定することができる。

　そして、音声対話システム１では、先のユーザ発話の意味解析の結果に対し、後のユーザ発話の意味解析の結果を追加して、例えば、Intent = "上映スケジュール確認",Entity = "今","邦画"である意味解析の結果に基づき、ユーザの依頼に応じた処理（追加依頼対応処理）を実行して、その実行の結果が提示されるようにする。

　これにより、図４に示すように、端末装置１０においては、表示デバイス１１０によって、表示エリア２０１に、今日の邦画の上映スケジュールの一覧が提示（表示）され、スピーカ１１１によって、「今やっている邦画です」である応答音声が提示（出力）される。その結果として、ユーザは、先のユーザ発話に対し、後のユーザ発話（割り込み発話）で条件（不足している情報）を加えた場合でも、自身の発話の意図に即した所望の提示を受けることができる。

　なお、ここでは、説明の都合上、先のユーザ発話の内容に、後のユーザ発話の内容（条件）を追加して処理を実行する例を示したが、それに限らず、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理を実行し、その実行の結果得られる追加分の情報を、先に提示中の情報に続けて提示するなどとしてもよい。

（Ｃ）第３の提示方法
　上述の（Ｃ）の第３の提示方法では、先のユーザ発話に対し、後のユーザ発話によって一部の条件が変更される場合には、先のユーザ発話の内容の一部を、後のユーザ発話の内容に変更して、その依頼に応じた依頼対応処理の実行の結果を提示する。

　ここで、例えば、ユーザとシステムとの対話として、図５に示すような、第３の対話が行われた場面を想定する。

（第３の対話の例）

　Ｕ：「近所の和食のレストラン探して」
　Ｕ：「やっぱり中華で」

　Ｓ：「近所の中華レストランです」

　この第３の対話の例では、ユーザによって、「近所の和食のレストラン探して」である先のユーザ発話と、「やっぱり中華で」である後のユーザ発話（割り込み発話）が、受付期間内に連続して行われている。それに対し、音声対話システム１では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "レストラン検索",Entity = "近所","和食"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Entity = "中華"が得られる。

　このとき、音声対話システム１は、意味解析の結果に基づき、後のユーザ発話の意味解析の結果（Entity = "中華"）が、先のユーザ発話の意味解析の結果（Intent = "レストラン検索",Entity = "近所","和食"）の一部を変更すべき条件（変更するための情報）であると判定することができる。

　そして、音声対話システム１では、先のユーザ発話の意味解析の結果の一部の情報を、後のユーザ発話の意味解析の結果により変更して、例えば、Intent = "レストラン検索",Entity = "近所","中華"である意味解析の結果に基づき、ユーザの依頼に応じた処理（変更依頼対応処理）を実行して、その実行の結果が提示されるようにする。

　なお、ここでは、先のユーザ発話の意味解析の結果において、Entity = "和食"が、後のユーザ発話の意味解析の結果によって、Entity = "中華"に変更され、変更依頼対応処理が実行されている。

　これにより、図５に示すように、端末装置１０においては、表示デバイス１１０によって、表示エリア２０１に、近所の中華レストランの一覧が提示（表示）され、スピーカ１１１によって、「近所の中華レストランです」である応答音声が提示（出力）される。その結果として、ユーザは、先のユーザ発話に対し、後のユーザ発話（割り込み発話）で条件の変更を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。

　なお、ここでは、説明の都合上、先のユーザ発話の内容を、後のユーザ発話の内容（条件）により変更して処理を実行する例を示したが、それに限らず、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中（応答音声の出力中）である場合には、応答音声の区切りがよいところ（例えば、句読点の位置等）で、応答音声の出力を中断してから、後のユーザ発話により変更された先のユーザ発話に対する後の処理の実行の結果を提示するなどとしてもよい。

（Ｄ）第４の提示方法
　上述の（Ｄ）の第４の提示方法では、先のユーザ発話に対し、後のユーザ発話が行われたが、それらの発話の意図が異なる場合には、先のユーザ発話と後のユーザ発話に対し、それらの依頼に応じた依頼対応処理を個別に実行して、実行の結果をそれぞれ提示する。

　ここで、例えば、ユーザとシステムとの対話として、図６に示すような、第４の対話が行われた場面を想定する。

（第４の対話の例）

　Ｕ：「今やっている映画を探して」
　Ｕ：「明日の天気は？」

　Ｓ：「今やっている映画はこちらです明日の天気は晴れです」

　この第４の対話の例では、ユーザによって、「今やっている映画を探して」である先のユーザ発話と、「明日の天気は？」である後のユーザ発話（割り込み発話）が、受付期間内に連続して行われている。それに対し、音声対話システム１では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Intent = "天気確認",Entity = "明日"が得られる。

　このとき、音声対話システム１では、意味解析の結果に基づき、先のユーザ発話と後のユーザ発話とでは、全く異なる意図であると判定することができる。そして、音声対話システム１では、先のユーザ発話と後のユーザ発話に対し、それらの依頼に応じた依頼対応処理を個別に実行する。

　例えば、音声対話システムは、Intent = "上映スケジュール確認",Entity = "今"である意味解析の結果に基づき、先のユーザ発話による依頼に応じた処理（先依頼対応処理）を実行するとともに、Intent = "天気確認",Entity = "明日"である意味解析の結果に基づき、後のユーザ発話による依頼に応じた処理（後依頼対応処理）を実行する。その結果として、先依頼対応処理の実行の結果と、後依頼対応処理の実行の結果とが、それぞれ提示される。

　これにより、図６に示すように、端末装置１０においては、表示デバイス１１０によって、表示エリア２０１に、今日の映画の上映スケジュールの一覧が提示（表示）され、スピーカ１１１によって、「今やっている映画はこちらです明日の天気は晴れです」である応答音声が提示（出力）される。その結果として、ユーザは、先のユーザ発話に対し、意図が異なる後のユーザ発話（割り込み発話）を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。

　なお、ここでは、先依頼対応処理の実行の結果と、後依頼対応処理の実行の結果の提示方法として、表示デバイス１１０による画像表示と、スピーカ１１１による音声出力を用いたマルチモーダル・インターフェースの例を示したが、他のユーザインターフェースを採用してもよい。

　より具体的には、例えば、表示デバイス１１０によって表示される表示エリア２０１を上下に２分割して、上段に、先依頼対応処理の実行の結果（例えば、映画の上映スケジュールの一覧等）を提示する一方で、下段に、後依頼対応処理の実行の結果（例えば、明日の天気予報等）を提示することができる。さらに、先依頼対応処理の実行の結果に応じた音声と、後依頼対応処理の実行の結果に応じた音声とが、スピーカ１１１から順に出力されるようにしてもよい。

　また、先依頼対応処理の実行の結果と、後依頼対応処理の実行の結果とが、異なる機器により提示されるようにしてもよい。より具体的には、例えば、先依頼対応処理の実行の結果を、端末装置１０により提示する一方で、後依頼対応処理の実行の結果を、ユーザが所持する携帯装置（例えば、スマートフォン等）により提示することができる。その際に、一方の機器で用いられるユーザインターフェース（モーダル）と、他方の機器で用いられるユーザインターフェース（モーダル）は、同一のモーダルを用いてもよいし、異なるモーダルを用いてもよい。

（Ｅ）第５の提示方法
　上述の（Ｅ）の第５の提示方法では、先のユーザ発話に対し、後のユーザ発話が行われたが、後のユーザ発話が、割り込み発話ではない場合には、先のユーザ発話による依頼に応じた処理（先依頼対応処理）のみ実行して、その実行の結果を提示する。すなわち、この場合、後のユーザ発話による依頼に応じた処理（後依頼対応処理）は、未実行となって、後のユーザ発話は無視される。

　ここで、例えば、ユーザとシステムとの対話として、図７に示すような、第５の対話が行われた場面を想定する。

（第５の対話の例）

　Ｕ：「今やっている映画探して」
　Ｕ：「昼何食べようか？」

　Ｓ：「今やっている映画はこちらです」

　この第５の対話の例では、ユーザによって、「今やっている映画探して」である先のユーザ発話と、「昼何食べようか？」である後のユーザ発話が、受付期間内に連続して行われている。それに対し、音声対話システム１では、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "上映スケジュール確認",Entity = "今"が得られる。

　このとき、後のユーザ発話として、「昼何食べようか？」が行われているが、他のユーザに対する発話であって、システムに対して話しかけていないため、音声対話システム１は、後のユーザ発話が、割り込み発話ではないとみなして、後のユーザ発話を無視する。

　ここで、後のユーザ発話が、割り込み発話であるかどうかの判定方法としては、例えば、後のユーザ発話に対する音声認識の結果や意味解析の結果を用いるほか、撮像画像に対するユーザ認識処理により得られるユーザの顔向きや視線などの情報（例えば、発話中のユーザの視線が、他のユーザの方向を向いているかを示す視線情報等）に基づき、判定することができる。なお、同じ「昼何食べようか？」という発話に対し、システムに対する依頼であると解釈（判定）された場合には、例えば、昼ごはんのレシピを提案してもよい。

　そして、音声対話システム１は、例えば、Intent = "上映スケジュール確認",Entity = "今"である意味解析の結果に基づき、先のユーザ発話による依頼に応じた先依頼対応処理を実行し、その実行の結果が提示されるようにする。

　これにより、図７に示すように、端末装置１０においては、表示デバイス１１０によって、表示エリア２０１に、今日の映画（邦画と洋画を含む）の上映スケジュールの一覧が提示（表示）され、スピーカ１１１によって、「今やっている映画はこちらです」である応答音声が提示（出力）される。その結果として、ユーザは、先のユーザ発話に対し、割り込み発話ではない後のユーザ発話を行った場合でも、自身の発話の意図に即した所望の提示を受けることができる。

　なお、上述した（Ａ）乃至（Ｄ）の提示方法において、後のユーザ発話（割り込み発話）に対する後の処理（割り込み処理）を実行するに際して、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中（例えば、応答音声の出力中）である場合には、その提示（例えば、応答音声の出力）の区切りがよいところで（例えば、句読点の位置等の適切な切れ目まで発話してから）、後の処理（割り込み処理）の実行の結果が提示（例えば、応答音声の出力）されるようにすることができる。

　また、上述した（Ａ）乃至（Ｄ）の提示方法において、後のユーザ発話（割り込み発話）に対する後の処理（割り込み処理）を実行するに際して、システム側で、後の処理の実行が完了するまでに時間がかかりそうであると判定した場合に（処理時間が許容時間を超える場合に）、あえて、後のユーザ発話を無視して、後の処理が実行されないようにしてもよい。

　さらに、上述した（Ａ）乃至（Ｄ）の提示方法においては、表示デバイス１１０による画像表示と、スピーカ１１１による音声出力を用いたマルチモーダル・インターフェース（視覚と聴覚のモーダル）の例を示したが、例えば、ユーザが身につけている機器（例えば、スマートフォンやウェアラブル機器）が振動することによる触覚などの他のモーダルを用いるようにしてもよい。また、先のユーザ発話や後のユーザ発話など、複数のユーザ発話がなされた場合には、それぞれのユーザ発話による依頼対応処理の実行の結果を、表示デバイス１１０による画像表示によって提示するようにしてもよい。

　なお、上述した処理は、依頼の実行終了までに起きる発話を想定しているが、例えば、処理に数日かかるなど、実行の結果が提供されるまでに長時間を要する場合でも、上述した処理を同様に適用することができる。その場合に、ユーザが、自身の依頼内容を忘れている可能性も想定されるため、先の依頼内容をサイドユーザに提示しながら、割り込まれた内容に対する処理を行うようにしてもよい。

　以上のように、音声対話システム１では、上述した（Ａ）乃至（Ｅ）の提示方法によって、割り込み発話の発生時に、割り込むときの状況や発話の内容によって、提示方法を制御することで、適切な応答を行うことができる。これにより、例えば、ユーザが、次々に発話を行ったとしても、それらの発話の意図通りに、システムが動作することになる。

（提示方法の他の例）
　上述した（Ａ）乃至（Ｅ）の提示方法は一例であって、それ以外の提示方法としては、例えば、次に示すような提示方法を用いることができる。

（第１の他の例）
　上述した提示方法では、先のユーザ発話と後のユーザ発話が、同一のユーザによりなされた場合を説明したが、他のユーザによって、割り込み発話がなされた場合には、先のユーザ発話と後のユーザ発話とが異なるユーザにより発せされることになる。ここでは、そのような場面に対応した提示方法を説明する。

　ここで、あるユーザが、先のユーザ発話を行った場合に、他のユーザが、割り込み発話として後のユーザ発話を行ったとき、上述した（Ａ）乃至（Ｅ）の提示方法と同様に、依頼対応処理を実行して、その実行の結果を提示することができる。

　より具体的には、例えば、第１の提示方法によって、先後のユーザ発話で、それらの発話の意図が同等となる場合に先後のユーザ発話を１つに統合して、その依頼に応じた依頼対応処理の実行の結果を提示することができる。また、例えば、第２の提示方法によって、先のユーザ発話の内容に、後のユーザ発話の内容を追加したり、あるいは、第３の提示方法によって、先のユーザ発話の内容の一部を、後のユーザ発話の内容に変更したりすることもできる。

　また、同じユーザ発話であっても、異なるユーザによってなされた場合には、別の依頼として、依頼対応処理を実行して、その実行の結果を提示することができる。例えば、先のユーザ発話を行ったあるユーザと、後のユーザ発話を行った他のユーザとが異なる場所にいる場合には、先依頼対応処理と、後依頼対応処理を個別に実行して、先依頼対応処理の実行の結果を、あるユーザの近くにある機器に提示し、後依頼対応処理の実行の結果を、他のユーザの近くにある機器に提示することができる。

　次に、例えば、ユーザとシステムとの対話として、図８に示すような、第６の対話が行われた場面を想定する。ただし、図８において、あるユーザの発話を、「Ｕ１」と表記する一方で、他のユーザの発話を、「Ｕ２」と表記して、区別している。

（第６の対話の例）

　Ｕ１：「温度上げて」
　Ｕ２：「温度下げて」

　Ｓ：「温度を下げました」

　この第６の対話の例では、あるユーザによる、「温度上げて」である先のユーザ発話と、他のユーザによる、「温度下げて」である後のユーザ発話（割り込み発話）が、受付期間内に連続して行われている。それに対し、音声対話システム１は、先のユーザ発話に対する意味解析の結果として、例えば、Intent = "エアコン設定",Entity = "温度上げる"が得られ、後のユーザ発話に対する意味解析の結果として、例えば、Intent = "エアコン設定",Entity = "温度下げる"が得られる。

　このとき、先のユーザ発話と後のユーザ発話とでは、矛盾した操作依頼がなされているが、音声対話システム１は、意味解析の結果のほか、例えば、ユーザ情報等の情報に基づき、いずれか一方の意味解析の結果を採用する。

　ここでは、ユーザDB１３１に、ユーザ情報として、例えば、ユーザごとに、過去の依頼の実行率や、システムの操作履歴などを記録しておくことで、矛盾した操作依頼がなされたときに、過去の依頼の実行率の高い方のユーザの操作依頼を採用したり、あるいはシステムの使用歴の長い方のユーザの操作履歴を採用したりするなど、より発言権の強そうなユーザを予測して、その予測の結果に応じた依頼を選択することができる。

　なお、ここでは、例えば、端末装置１０等のシステムのより近くにいるユーザの操作依頼や、あらかじめ設定画面などで、操作依頼を優先すべきユーザを設定登録しておくようにしてもよい。また、朝や夜等の時間帯に応じて、操作依頼を採用するユーザを切り替えるようにしてもよい。

　そして、音声対話システム１は、例えば、過去の依頼の実行率の高いユーザの操作依頼を採用して、Intent = "エアコン設定",Entity = "温度下げる"である意味解析の結果に基づき、ユーザの依頼に応じた処理を実行して、その実行の結果が提示されるようにする。

　これにより、図８に示すように、端末装置１０においては、表示デバイス１１０によって、表示エリア２０１に、居間のエアコンの設定温度（26℃から24℃に変更）が提示（表示）され、スピーカ１１１によって、「温度を下げました」である応答音声が提示（出力）される。このように、複数のユーザによって、矛盾する操作依頼がなされた場合に、ここでは、後のユーザ発話（割り込み発話）を行った他のユーザの方が、発言権が強いので、他のユーザからの操作依頼を採用して、エアコンの設定温度を下げている。

　また、上述の例では、発言権が強い方のユーザからの操作依頼を採用する場合を示したが、「温度上げて」と「温度下げて」などの矛盾した依頼がなされた場合に、例えば、音声対話システム１が、「どちらにしますか？」などの画面表示や音声出力をすることで、ユーザに対し、聞き返すようにしてもよい。

　さらに、例えば、矛盾した発話がなされた場合に、決定権を持つユーザに、先のユーザ発話と後のユーザ発話のどちらのユーザ発話を採用するかを決定されるモードに遷移し、決定されたユーザ発話による操作依頼を採用するようにしてもよい。

　また、複数のユーザによる発話が混信した場合には、例えば、最初に発話をしたユーザなど、どのユーザの発話を採用するかを指定させるようにしてもよい。例えば、上述した図５の提示の例で、「近所の和食レストラン探して」である先のユーザ発話と、「やっぱり中華で」である後のユーザ発話とが、異なるユーザによりなされた場合に、「和食」と「中華」のどちらを採用すべきかを、入力操作や発話などによって、ユーザに指示してもらうことになる。

　なお、先のユーザ発話と後のユーザ発話とが、異なるユーザにより発せられる場合に、例えば、検索用アプリや機器操作アプリなどのアプリケーションごとに、ユーザの優先度や挙動を変えるようにしてもよい。例えば、検索用アプリでは、あるユーザの発話を優先するが、機器操作アプリでは、他のユーザの発話を優先するなどの設定を行うことが可能である。

（第２の他の例）
　端末装置１０は、ユーザ宅等のローカル側に設置され、１人のユーザだけでなく、家族などの複数人のユーザによって使用されるなど、様々なユーザによって使用されることが想定されるため、ユーザごとに、依頼対応処理の実行の結果の提示タイミングを個人化することで、より適切に、実行の結果を提示することができる。

　例えば、一度発話をして、言い直しが多いユーザの場合には、実行の結果を提示するまでのタイミングを遅らせるか、あるいは、発話の終端検出の閾値を長めにとるようにする。特に、このような個人化は、上述した第３の提示方法によって、先のユーザ発話の内容の一部を、後のユーザ発話の内容に変更する場合に、言い直しが多いユーザに対して有効である。

　また、例えば、発話をした後に、独り言が多いユーザの場合には、先のユーザ発話に続く、後のユーザ発話が、割り込み発話ではない可能性が高いので、第２のユーザ発話として明確な依頼が入るとき以内は、後の処理を実行しないようにする。より具体的には、ユーザによって、以下のような独り言が指される場合が想定される。

（第１の独り言の例）

　Ｕ：「これかあ、いいなあ、なるほどね２番目いいね」

　この第１の独り言の例では、ユーザによって、「これかあ」、「いいなあ」、及び「なるほどね」である独り言がなされているが、その後に続く「２番目いいね」であるユーザ発話（後のユーザ発話）は、明確な依頼ではなく、割り込み発話ではないので、それに対する処理は実行されないようにする。

（第２の独り言の例）

　Ｕ：「これかあ、いいなあ２番の詳細教えて」

　この第２の独り言の例では、ユーザによって、「これかあ」、及び「いいなあ」である独り言がなされているが、その後に続く「２番の詳細教えて」であるユーザ発話（後のユーザ発話）は、明確な依頼であると言えるので、その依頼に対する依頼対応処理が実行され、実行の結果が提示されるようにする。

　このように、音声対話システム１では、ユーザ情報に基づき、例えば、いつも言い直したりや、言いよどんだり、あるいはフィラー（例えば、「えーと」、「あのー」など）が入ったりするユーザに対しては、発話の終わりの判別のタイミングを遅らせたりすることで、仮に、ユーザが、次々に発話を行ったとしても、それらの発話の意図通りに、システムを動作させることができる。

　また、言い直しが多いユーザに対しては、音声対話システム１も、それに合わせて言い直すようにしてもよい。

（第１のシステムの言い直しの例）

　Ｓ：「×××を検索しましたあっ、追加の××も検索しました」

　この第１のシステムの言い直しの例では、言い直しが多いユーザによって、先のユーザ発話として、検索の依頼がなされ、後のユーザ発話として、先のユーザ発話に対する言い直しの検索の依頼がなされている。

　このとき、音声対話システム１では、先のユーザ発話による検索の依頼に対する依頼対応処理を実行し、その実行の結果を、「×××を検索しました」である応答音声により提示（出力）する。また、音声対話システム１は、後のユーザ発話（言い直しの発話）による検索の依頼に対する依頼対応処理を実行し、その実行の結果を、ユーザの言い直し発話に合わせて、「あっ、追加の××も検索しました」である応答音声により提示（出力）する。

（第２のシステムの言い直しの例）

　Ｓ：「×××を検索しましたやっぱり、××だったんですね、こちらです」

　この第２のシステムの言い直しの例では、第１のシステムの言い直しの例と同様に、後のユーザ発話として、先のユーザ発話に対する言い直しの検索の依頼がなされている。このとき、音声対話システム１は、言い直しの検索の依頼に対する依頼対応処理を実行し、その実行の結果を、ユーザの言い直し発話に合わせて、「やっぱり、××だったんですね、こちらです」である応答音声により提示（出力）する。

　なお、上述した個人化するための情報（例えば、言い直しなどの言い方の癖などの情報）は、ユーザごとに、ユーザ情報として、ユーザDB１３１に記録しておくことができる。

　例えば、言い直しの多いユーザについて、あるタイミングで、言い直すときの言い方を、ユーザ情報として記録しておくことで、次回以降に、当該ユーザが、後のユーザ発話（言い直しの発話）として、その言い直すときの言い方をしたときに、音声対話システム１は、ユーザ情報に基づき、言い直しの開始位置を検出する。そして、音声対話システム１は、検出した言い直しの開始位置に基づき、先のユーザ発話による依頼に対する先依頼対応処理の実行の結果の提示を中断するか、あるいは先依頼対応処理の実行の結果を、後依頼対応処理の実行の結果に変更して提示することができる。

（第３の他の例）
　なお、音声対話システム１は、先のユーザ発話による依頼に対する先依頼対応処理の実行の結果の提示を開始している場合に、ユーザから、後のユーザ発話がなされたときに、その発話の内容（種類）に応じて、依頼の実行の仕方を変更するだけでなく、先依頼対応処理の実行の結果の提示を開始していない場合であっても、意味解析後の処理（先依頼対応処理）を実行中（開始後）であれば、上述した（Ａ）乃至（Ｅ）の提示方法と同様の動作を実行することができる。

（実行結果提示処理の流れ）
　次に、図９のフローチャートを参照して、音声対話システム１により実行される、割り込み発話時の実行結果提示処理の流れを説明する。

　なお、この割り込み発話時の実行結果提示処理を実行するに際して、ユーザによって、先のユーザ発話が行われ、音声対話システム１では、先のユーザ発話に対する音声認識処理と意味解析処理が実行され、先のユーザ発話の意味解析の結果（Intent,Entity）が得られているものとする。また、先のユーザ発話と後のユーザ発話とは、同一のユーザにより発せられるものとする。

　ステップＳ１０１において、音声認識部１０４は、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されたかどうかを判定する。

　ステップＳ１０１において、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されていないと判定された場合、割り込み発話が行われていないため、ステップＳ１０１の判定処理が繰り返される。

　ステップＳ１０１において、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されたと判定された場合、処理は、ステップＳ１０２に進められる。

　ステップＳ１０２において、音声認識部１０４は、後のユーザ発話を収音して得られる音声データに基づいて、音声認識処理を実行する。

　ステップＳ１０３において、意味解析部１０５は、ステップＳ１０２の処理で得られる音声認識の結果に基づいて、意味解析処理を実行する。この意味解析処理によって、後のユーザ発話の意味解析の結果（Intent,Entity）が得られる。

　ステップＳ１０４において、依頼実行部１０６は、取得済みの先のユーザ発話の意味解析の結果と、ステップＳ１０３の処理で得られる後のユーザ発話の意味解析の結果に基づいて、先のユーザ発話の意図と、後のユーザ発話の意図とが同等（略同一）であるかどうかを判定する。

　ステップＳ１０４において、先のユーザ発話の意図と、後のユーザ発話の意図とが同等であると判定された場合、処理は、ステップＳ１０５に進められる。

　ステップＳ１０５において、依頼実行部１０６は、先のユーザ発話の意図と、後のユーザ発話の意図とを統合して得られる依頼に応じた処理（同等依頼対応処理）を実行する。

　ステップＳ１０６において、提示方法制御部１０７は、ステップＳ１０５の処理で得られる、同等依頼対応処理の実行の結果を提示する。

　すなわち、ステップＳ１０５，１０６の処理では、上述した第１の提示方法によって、先後のユーザ発話で、音声認識の結果が異なる場合であっても、先後のユーザ発話で、意味解析の結果が同等（略同一）となるときには、同じような応答が、複数回提示されないように、先のユーザ発話と、後のユーザ発話とが１つに統合されるようにする。

　ここでは、例えば、依頼実行部１０６により実行される処理として、先のユーザ発話に対する先の処理と、後のユーザ発話に対する後の処理とを１つの処理にまとめたり、あるいは、先の処理を既に実行中である場合には、後の処理を中止したりすることで、１つの処理の実行の結果のみが提示されるため、同等の依頼に応じた処理を複数実行してしまうのを抑制することができる。なお、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合にも、同様に後の処理を中止すればよい。

　例えば、上述の図３に示したように、「今やっている映画探して」である先のユーザ発話と、「今日やっている映画を教えて」である後のユーザ発話がなされた場合には、先後のユーザ発話で、意味解析の結果（Intent，Entity）が同等であると言えるので、それらを統合して得られる依頼に基づき、上映スケジュール確認処理が行われる。

　そして、提示方法制御部１０７は、表示制御部１０８又は発話生成部１０９を制御して、処理の実行の結果が、表示デバイス１１０又はスピーカ１１１により提示されるようにする。例えば、上述の図３に示したように、表示デバイス１１０は、表示制御部１０８からの制御に従い、表示エリア２０１に、上映スケジュールの一覧を提示（表示）する。また、例えば、スピーカ１１１は、発話生成部１０９からの制御に従い、「今上映している映画はこちらです」である応答音声を提示（出力）する。

　一方で、ステップＳ１０４において、先のユーザ発話の意図と、後のユーザ発話の意図とが同等ではないと判定された場合、処理は、ステップＳ１０７に進められる。

　ステップＳ１０７において、依頼実行部１０６は、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加又は変更があるかどうかを判定する。

　ステップＳ１０７において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加があると判定された場合、処理は、ステップＳ１０８に進められる。

　ステップＳ１０８において、依頼実行部１０６は、先のユーザ発話の内容に、後のユーザ発話の内容（条件）を追加して得られる依頼に応じた処理（追加依頼対応処理）を実行する。

　ステップＳ１０８の処理が終了すると、処理は、ステップＳ１０６に進められる。ステップＳ１０６において、提示方法制御部１０７は、ステップＳ１０８の処理で得られる、追加依頼対応処理の実行の結果を提示する。

　すなわち、ステップＳ１０８，１０６の処理では、上述した第２の提示方法によって、先のユーザ発話に対し、後のユーザ発話によって条件の追加がある場合には、先のユーザ発話の内容に、後の処理の内容（不足する情報）を加えて、より詳細な実行の結果が提示されるようにする。

　例えば、上述の図４に示したように、「今やっている映画探して」である先のユーザ発話と、「邦画でお願い」である後のユーザ発話がなされた場合には、先のユーザ発話の意味解析の結果（Intent = "上映スケジュール確認",Entity = "今"）に対し、後のユーザ発話の意味解析の結果（Entity = "邦画"）を追加して得られる依頼に基づき、上映スケジュール確認処理が行われる。

　これにより、提示方法制御部１０７からの制御に従い、表示デバイス１１０によって、表示エリア２０１に、邦画の上映スケジュールの一覧が提示され、スピーカ１１１によって、「今やっている邦画です」である応答音声が提示される。

　なお、ここでは、例えば、依頼実行部１０６により実行される処理として、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理を実行し、その実行の結果得られる追加分の情報を、先に提示中の情報に続けて提示するなどしてもよい。

　また、ステップＳ１０７において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の変更があると判定された場合、処理は、ステップＳ１０９に進められる。

　ステップＳ１０９において、依頼実行部１０６は、先のユーザ発話の内容の一部を、後のユーザ発話の内容（条件）により変更して得られる依頼に応じた処理（変更依頼対応処理）を実行する。

　ステップＳ１０９の処理が終了すると、処理は、ステップＳ１０６に進められる。ステップＳ１０６において、提示方法制御部１０７は、ステップＳ１０９の処理で得られる、変更依頼対応処理の実行の結果を提示する。

　すなわち、ステップＳ１０９，１０６の処理では、上述した第３の提示方法によって、先のユーザ発話に対し、後のユーザ発話によって条件の変更がある場合には、先のユーザ発話の内容の一部を、後のユーザ発話の内容（変更する情報）に変更して、より正確な実行の結果が提示されるようにする。

　例えば、上述の図５に示したように、「近所の和食レストラン探して」である先のユーザ発話と、「やっぱり中華で」である後のユーザ発話がなされた場合には、先のユーザ発話の意味解析の結果（Intent = "レストラン検索",Entity = "近所","和食"）の一部である"和食"を、後のユーザ発話に対する意味解析の結果である"中華"に変更して得られる依頼に基づき、レストラン検索処理が実行される。

　これにより、提示方法制御部１０７からの制御に従い、表示デバイス１１０によって、表示エリア２０１に、近所の中華レストランの一覧が提示され、スピーカ１１１によって、「近所の中華レストランです」である応答音声が提示される。

　なお、ここでは、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中（応答音声の出力中）である場合には、応答音声の区切りがよいところ（例えば、句読点の位置等）で、応答音声の出力を中断してから、後のユーザ発話により変更された先のユーザ発話に対する後の処理の実行の結果を提示（応答音声を出力）するなどしてもよい。

　さらに、ステップＳ１０７において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加及び変更がないと判定された場合、処理は、ステップＳ１１０に進められる。

　ステップＳ１１０において、依頼実行部１０６は、後のユーザ発話が割り込み発話ではないとみなして無視し、先のユーザ発話の内容から得られる依頼に応じた処理（割り込みなし依頼対応処理）を実行する。

　ステップＳ１１０の処理が終了すると、処理は、ステップＳ１０６に進められる。ステップＳ１０６において、提示方法制御部１０７は、ステップＳ１１０の処理で得られる、割り込みなし依頼対応処理の実行の結果を提示する。

　すなわち、ステップＳ１１０，Ｓ１０６の処理では、上述した第５の提示方法によって、後のユーザ発話が、割り込み発話ではない場合には、先のユーザ発話による依頼のみに対する割り込みなし依頼対応処理を実行し、後のユーザ発話は無視する。

　例えば、上述の図７に示したように、「今やっている映画探して」である先のユーザ発話と、「昼何食べようか？」である後のユーザ発話がなされた場合に、後のユーザ発話は、他のユーザに対する発話であって、システムに話しかけたものではないため、割り込み発話ではないとみなして、後のユーザ発話を無視する。そして、先のユーザ発話の意味解析の結果（Intent = "上映スケジュール確認",Entity = "今"）から得られる依頼に基づき、上映スケジュール確認処理が実行される。

　ステップＳ１０６の処理が終了すると、割り込み発話時の実行結果提示処理は、終了する。

　なお、特に明示はしていないが、図９に示した割り込み発話時の実行結果提示処理において、仮に、後のユーザ発話が割り込み発話であって、先のユーザ発話と後のユーザ発話の意味解析の結果が全く異なる意図であると判定された場合には、先依頼対応処理と後依頼対応処理をそれぞれ実行して、それらの実行の結果が提示されることになる（例えば、上述した図６の提示の例）。

　以上、割り込み発話時の実行結果提示処理の流れを説明した。

（他のユーザ割り込み発話時の実行結果提示処理の流れ）
　次に、図１０のフローチャートを参照して、音声対話システム１により実行される、他のユーザ割り込み発話時の実行結果提示処理の流れを説明する。

　なお、他のユーザ割り込み発話時の実行結果提示処理を実行するに際して、あるユーザによって、先のユーザ発話が行われ、音声対話システム１では、先のユーザ発話に対する音声認識処理と意味解析処理が実行され、先のユーザ発話の意味解析の結果（Intent,Entity）が得られているものとする。

　ステップＳ２０１乃至Ｓ２０３においては、図９のステップＳ１０１乃至Ｓ１０３と同様に、受付期間内に、先のユーザ発話に対し、後のユーザ発話が入力されたとき、後のユーザ発話を収音して得られる音声データに基づき、音声認識処理や意味解析処理が実行される。

　ステップＳ２０４において、意味解析部１０５は、先のユーザ発話と後のユーザ発話が、同一のユーザの発話であるかどうかを判定する。

　ステップＳ２０４において、同一のユーザの発話であると判定された場合、処理は、上述した図９のステップＳ１０４の処理に進められる。なお、図９のステップＳ１０４以降の処理として実行される、同一のユーザの発話に対する処理の説明は、繰り返しになるので省略する。

　また、ステップＳ２０４において、同一のユーザの発話ではないと判定された場合、処理は、ステップＳ２０５に進められる。以下の説明では、先のユーザ発話を行うユーザと、後のユーザ発話を行うユーザとは異なるものとして説明する。なお、以下、説明の便宜上、後のユーザ発話を行うユーザを、他のユーザと称して、先のユーザ発話を行うユーザと区別する。

　ステップＳ２０５においては、上述した図９のステップＳ１０４と同様に、先のユーザ発話の意図と、後のユーザ発話の意図とが同等（略同一）であるかどうかが判定される。ステップＳ２０５において、意図が同等であると判定された場合、処理は、ステップＳ２０６に進められる。

　ステップＳ２０６において、依頼実行部１０６は、先のユーザ発話を行ったユーザと、後のユーザ発話を行った他のユーザが、同一の場所にいるかどうかを判定する。ここでは、例えば、ユーザ認識処理の結果に基づき、ユーザが同一の場所にいるかどうかの判定処理が実行される。

　ステップＳ２０６において、ユーザが同一の場所にいると判定された場合、処理は、ステップＳ２０７に進められる。

　ステップＳ２０７において、依頼実行部１０６は、先のユーザ発話の意図と、後のユーザ発話の意図とを統合して得られる依頼に応じた処理（同等依頼対応処理）を実行する。

　ステップＳ２０８において、提示方法制御部１０７は、ステップＳ２０７の処理で得られる、同等依頼対応処理の実行の結果を提示する。

　すなわち、ステップＳ２０７，Ｓ２０８の処理では、上述した図９のステップＳ１０５，Ｓ１０６の処理と同様に、先のユーザ発話と後のユーザ発話が異なるユーザによりなされた場合でも、それらのユーザが同一の場所にいるため、先後のユーザ発話で、意味解析の結果が同等となるときには、同じような応答が複数回提示されないように、先のユーザ発話と、後のユーザ発話とを１つに統合して、その依頼に応じた実行の結果が提示されるようにしている（例えば、上述した図３の提示の例）。

　なお、ステップＳ２０８の処理では、例えば、依頼実行部１０６により実行される処理として、先の処理を既に実行中である場合には、後の処理を中止したりすることで、同等の依頼に応じた処理を複数実行してしまうのを抑制することができる。また、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合にも、同様に後の処理を中止すればよい。

　また、ステップＳ２０６において、ユーザが同一の場所にいないと判定された場合、処理は、ステップＳ２０９に進められる。

　ステップＳ２０９において、依頼実行部１０６は、先のユーザ発話による依頼に応じた処理（先依頼対応処理）と、後のユーザ発話による依頼に応じた処理（後依頼対応処理）を、個別にそれぞれ実行する。

　ステップＳ２１０において、提示方法制御部１０７は、ステップＳ２０９の処理で得られる、先依頼対応処理の実行の結果を、ユーザの近くにある機器（例えば、端末装置１０）に提示し、後依頼対応処理の実行の結果を、他のユーザの近くにある機器（例えば、他のユーザが所持するスマートフォン）に提示する。

　すなわち、ステップＳ２０９，Ｓ２１０の処理では、発話を行ったユーザが異なる場所にいるため、先依頼対応処理と後依頼対応処理をそれぞれ実行し、その実行の結果が、各ユーザに対して提示されるようにしている。ただし、ここでは、先依頼対応処理と後依頼対応処理を１つの処理にまとめることが可能であれば、１つの処理にまとめて実行して、その処理の実行の結果が、ユーザの近くにある機器と、他のユーザの近くにある機器にそれぞれ提示されるようにしてもよい。

　一方で、ステップＳ２０５において、先のユーザ発話の意図と、後のユーザ発話の意図とが同等ではないと判定された場合、処理は、ステップＳ２１１に進められる。

　ステップＳ２１１においては、上述した図９のステップＳ１０７と同様に、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加又は変更があるかどうかが判定される。

　ステップＳ２１１において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の追加があると判定された場合、処理は、ステップＳ２１２に進められる。

　ステップＳ２１２において、依頼実行部１０６は、先のユーザ発話の内容に、後のユーザ発話の内容（条件）を追加して得られる依頼に応じた処理（追加依頼対応処理）を実行する。

　ステップＳ２１３において、提示方法制御部１０７は、ステップＳ２１２の処理で得られる、追加依頼対応処理の実行の結果を、別の機器（例えば、他のユーザが所持するスマートフォン）、又は同一の機器（例えば、端末装置１０）で継続的（又は継時的）に提示する。

　すなわち、ステップＳ２１２，２１３の処理では、上述した図９のステップＳ１０８，Ｓ１０６の処理と同様に、先のユーザ発話の内容に、後の処理の内容（不足する情報）を加えて、より詳細な実行の結果が提示されるようにする（例えば、上述した図４の提示の例）。

　なお、ステップＳ２１３の処理では、追加依頼対応処理の実行の結果を、別の機器、又は同一の機器で継続的（又は継時的）に提示するが、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中である場合には、後のユーザ発話に対する後の処理を実行し、その実行の結果得られる追加分の情報を、先に提示中の情報に続けて提示することができる。

　また、ステップＳ２１１において、後のユーザ発話の内容によって、先のユーザ発話の内容に対し、条件の変更があると判定された場合、処理は、ステップＳ２１４に進められる。

　ステップＳ２１４において、依頼実行部１０６は、先のユーザ発話の内容の一部を、後のユーザ発話の内容（条件）により変更して得られる依頼に応じた処理（変更依頼対応処理）を実行する。

　ステップＳ２１５において、提示方法制御部１０７は、ステップＳ２１４の処理で得られる、変更依頼対応処理の実行の結果を、変更依頼をした他のユーザの近くの別の機器（例えば、他のユーザが所持するスマートフォン）、又は同一の機器（例えば、端末装置１０）で継続的（又は継時的）、若しくは分割表示で提示する。

　すなわち、ステップＳ２１４，Ｓ２１５の処理では、上述した図９のステップＳ１０９，Ｓ１０６の処理と同様に、先のユーザ発話に対し、後のユーザ発話によって条件の変更がある場合には、先のユーザ発話の内容の一部を、後のユーザ発話の内容（変更する情報）に変更して、より正確な実行の結果が提示されるようにする（例えば、上述した図５の提示の例）。

　なお、ステップＳ２１５の処理では、例えば、先のユーザ発話に対する先の処理が既に実行され、その実行の結果を先に提示中（応答音声の出力中）である場合には、応答音声を完結して、後のユーザ発話により変更された先のユーザ発話に対する後の処理の実行の結果を提示（応答音声を出力）するなどしてもよい。

　さらに、ステップＳ２１１において、先のユーザ発話の内容に対し、条件の追加及び変更がないと判定された場合、処理は、ステップＳ２１６に進められる。

　ステップＳ２１６において、依頼実行部１０６は、後のユーザ発話が割り込み発話ではないとみなして無視し、先のユーザ発話の内容から得られる依頼に応じた処理（割り込みなし依頼対応処理）を実行する。

　ステップＳ２１７において、提示方法制御部１０７は、ステップＳ２１６の処理で得られる、割り込みなし依頼対応処理の実行の結果を提示する。

　すなわち、ステップＳ２１６，Ｓ２１７の処理では、上述した図９のステップＳ１１０，Ｓ１０６の処理と同様に、後のユーザ発話が、他のユーザに対する発話であって、システムに話しかけたものではないために無視される。そして、割り込みなし依頼対応処理が実行され、その処理の結果が提示される（例えば、上述した図７の提示の例）。

　ステップＳ２０８，Ｓ２１０，Ｓ２１３，Ｓ２１５，又はＳ２１７の処理が終了すると、他のユーザ割り込み発話時の実行結果提示処理は、終了する。

　以上、他のユーザ割り込み発話時の実行結果提示処理の流れを説明した。

（受付期間設定処理の流れ）
　次に、図１１のフローチャートを参照して、音声対話システム１により実行される、受付期間設定処理の流れを説明する。

　ステップＳ３０１において、マイクロフォン１０２は、ユーザが発した声を、音声データに変換することで、ユーザの発話を受け付ける。

　ステップＳ３０２において、音声認識部１０４は、ステップＳ３０１の処理で得られる音声データに基づいて、音声認識処理を行う。この音声認識処理では、ユーザの発話の音声データに基づき、ユーザの発話の速度が検出される。

　ステップＳ３０３において、音声認識部１０４は、ステップＳ３０２の処理で得られる発話の速度に基づいて、割り込み発話の受付期間を設定する。

　ステップＳ３０３の処理が終了すると、処理は、ステップＳ３０１に戻り、それ以降の処理が繰り返される。すなわち、ステップＳ３０１乃至Ｓ３０３の処理が繰り返されることで、逐次、ユーザの発話の速度に応じた割り込み発話の受付期間が設定される。

　そして、ここで設定される割り込み発話の受付期間が、上述した図９のステップＳ１０１の処理や、図１０のステップＳ２０１の処理の判定条件として用いられる。例えば、ゆっくり話すユーザや、はやく話すユーザなど、発話の速度は、ユーザごとに異なるが、ユーザの発話の速度に応じて、割り込み発話の受付期間を設定することで、様々なユーザによって発せられる割り込み発話に対応することが可能となる。

　なお、ここでは、割り込み発話の受付期間が、ユーザの発話の速度に応じて設定される場合を例示したが、他のパラメータに基づき、割り込み発話の受付期間が設定されるようにしてもよい。

　以上、受付期間設定処理の流れを説明した。

＜２．変形例＞

　上述した説明では、音声対話システム１において、カメラ１０１、マイクロフォン１０２、表示デバイス１１０、及びスピーカ１１１が、ローカル側の端末装置１０に組み込まれ、ユーザ認識部１０３乃至発話生成部１０９が、クラウド側のサーバ２０に組み込まれる構成を一例として説明したが、カメラ１０１乃至スピーカ１１１のそれぞれは、端末装置１０とサーバ２０のうち、どちらの機器に組み込まれてもよい。

　例えば、カメラ１０１乃至スピーカ１１１のすべてが、端末装置１０側に組み込まれ、ローカル側で処理が完結するようにしてもよい。ただし、このような構成を採用した場合でも、ユーザDB１３１等のデータベースは、インターネット３０上のサーバ２０が管理することができる。

　また、音声認識部１０４で行われる音声認識処理や、意味解析部１０５で行われる意味解析処理は、他のサービスで提供されている音声認識サービスや意味解析サービスを利用するようにしてもよい。この場合、例えば、サーバ２０では、インターネット３０上で提供される音声認識サービスに対し、音声データを送ることで、音声認識の結果を得ることができる。また、例えば、サーバ２０では、インターネット３０上で提供される意味解析サービスに対し、音声認識の結果のデータ（テキストデータ）を送ることで、意味解析の結果（Intent,Entity）を得ることができる。

　なお、上述した説明では、意味解析処理によって、意味解析の結果として、意図（Intent）と実体情報（Entity）が得られるとして説明したが、それらは一例であって、ユーザによる発話の意味（意図）を表現した情報であれば、他の情報を用いるようにしてもよい。

　ここで、端末装置１０とサーバ２０は、後述する図１２のコンピュータ１０００を含んだ情報処理装置として構成することができる。

　すなわち、ユーザ認識部１０３、音声認識部１０４、意味解析部１０５、依頼実行部１０６、提示方法制御部１０７、表示制御部１０８、及び発話生成部１０９は、例えば、端末装置１０又はサーバ２０のCPU（例えば、後述する図１２のCPU１００１）によって、記録部（例えば、後述する図１２のROM１００２や記録部１００８等）に記録されたプログラムが実行されることで実現される。

　また、図示はしていないが、端末装置１０とサーバ２０は、インターネット３０を介してデータをやり取りするために、通信インターフェース回路等から構成される通信I/F（例えば、後述する図１２の通信部１００９）をそれぞれ有している。これにより、ユーザの発話中に、端末装置１０とサーバ２０が、インターネット３０を介して通信を行い、例えば、サーバ２０側では、端末装置１０からのデータに基づき、提示方法制御処理などの処理を行うことができる。

　さらに、端末装置１０には、例えば、ボタンやキーボード等からなる入力部（例えば、後述する図１２の入力部１００６）を設けて、ユーザの操作に応じた操作信号が得られるようにするか、あるいは、表示デバイス１１０（例えば、後述する図１２の出力部１００７）が、タッチセンサと一体化されたタッチパネルとして構成され、ユーザの指やタッチペン（スタイラスペン）による操作に応じた操作信号が得られるようにしてもよい。

　なお、図２に示した表示制御部１０８であるが、すべての機能が、端末装置１０又はサーバ２０の機能として提供されるのではなく、全ての機能のうち、一部の機能が、端末装置１０の機能として提供され、残りの機能が、サーバ２０の機能として提供されるようにしてもよい。例えば、表示制御機能のうち、レンダリング機能は、ローカル側の端末装置１０の機能とする一方で、表示レイアウト機能は、クラウド側のサーバ２０の機能とすることができる。

　また、図２に示した音声対話システム１において、カメラ１０１又はマイクロフォン１０２等の入力デバイスは、専用の端末等として構成される端末装置１０に限らず、ユーザの所持するモバイル機器（例えば、スマートフォン）等の他の電子機器であってもよい。さらに、図２に示した音声対話システム１において、表示デバイス１１０又はスピーカ１１１等の出力デバイスについても同様に、ユーザの所持するモバイル機器（例えば、スマートフォン）等の他の電子機器であってもよい。

　さらに、図２に示した音声対話システム１においては、イメージセンサを有するカメラ１０１を含む構成を示したが、他のセンサデバイスを設けて、ユーザやその周辺などのセンシングを行うことで、そのセンシング結果に応じたセンサデータを取得し、後段の処理で用いるようにしてもよい。

　ここで、センサデバイスとしては、例えば、呼吸や脈拍、指紋、虹彩などの生体情報を検出する生体センサ、磁場（磁界）の大きさや方向を検出する磁気センサ、加速度を検出する加速度センサ、角度（姿勢）や角速度、角加速度を検出するジャイロセンサ、近接するものを検出する近接センサなどを含めることができる。

　また、センサデバイスは、ユーザの頭部に取り付けられ、電位等を計測することで脳波を検出する脳波センサであってもよい。さらに、センサデバイスには、温度を検出する温度センサや、湿度を検出する湿度センサ、周囲の明るさを検出する環境光センサなどの周囲の環境を測定するためのセンサや、GPS(Global Positioning System)信号などの位置情報を検出するためのセンサを含めることができる。

　なお、上述した説明では、先のユーザ発話と後のユーザ発話（割り込み発話）が続けて行われた場合を説明したが、割り込み発話は、１つに限らず、２つ以上の割り込み発話が行われ場合にも、上述した本技術を適用することができる。すなわち、例えば、先のユーザ発話に対し、後のユーザ発話として、同一の又は異なるユーザによって２つの割り込み発話がなされた場合に、それらの３つの発話の意図が同等であれば、上述の第１の提示方法によって、それらの３つの発話を１つに統合して、その依頼に応じた依頼対応処理の実行の結果を提示すればよい。

＜３．コンピュータの構成＞

　上述した一連の処理（例えば、図９又は図１０に示した実行結果提示処理）は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

　入力部１００６は、マイクロフォン、キーボード、マウスなどよりなる。出力部１００７は、スピーカ、ディスプレイなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　また、図９又は図１０に示した実行結果提示処理の各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　なお、本技術は、以下のような構成をとることができる。

（１）
　ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、前記第１の発話に対する応答の提示を制御する制御部を備える
　情報処理装置。
（２）
　前記制御部は、前記第１の発話の内容と、前記第２の発話の内容との関係により特定される前記ユーザの依頼に基づいた実行の結果を、前記応答として提示する
　前記（１）に記載の情報処理装置。
（３）
　前記制御部は、前記第１の発話の意図と、前記第２の発話の意図とが略同一となる場合、前記第１の発話の意図と前記第２の発話の意図とを統合して得られる依頼に基づいた実行の結果を提示する
　前記（２）に記載の情報処理装置。
（４）
　前記制御部は、前記第２の発話の内容によって、前記第１の発話の内容に対する追加を行っている場合、前記第１の発話の内容に、前記第２の発話の内容を追加して得られる依頼に基づいた実行の結果を提示する
　前記（２）に記載の情報処理装置。
（５）
　前記制御部は、前記第２の発話の内容によって、前記第１の発話の内容の一部を変更している場合、前記第１の発話の内容の一部を、前記第２の発話の内容により変更して得られる依頼に基づいた実行の結果を提示する
　前記（２）に記載の情報処理装置。
（６）
　前記制御部は、前記第１の発話の意図と、前記第２の発話の意図とが異なる場合、前記第１の発話の内容から得られる第１の依頼に基づいた第１の実行の結果と、前記第２の発話の内容から得られる第２の依頼に基づいた第２の実行の結果をそれぞれ提示する
　前記（２）に記載の情報処理装置。
（７）
　前記制御部は、前記第２の発話の内容が、システムに対するものではない場合、前記第１の発話の内容から得られる依頼に基づいた実行の結果を提示する
　前記（２）に記載の情報処理装置。
（８）
　前記制御部は、前記第１の発話に対する第１の処理を既に実行中、又は前記第１の処理の実行の結果を提示中である場合、前記第１の処理の実行の結果のみを提示する
　前記（３）に記載の情報処理装置。
（９）
　前記制御部は、前記第１の発話に対する第１の処理を既に実行中、又は前記第１の処理の実行の結果を提示中である場合、前記第１の処理の実行の結果の提示に続いて、前記第２の発話に対する第２の処理の実行の結果を提示する
　前記（４）に記載の情報処理装置。
（１０）
　前記制御部は、前記第１の発話に対する第１の処理を既に実行中、又は前記第１の処理の実行の結果を提示中である場合、前記第１の処理の実行の結果の提示を中断し、又はその提示の完結を待って、前記第２の発話に対する第２の処理の実行の結果を提示する
　前記（５）に記載の情報処理装置。
（１１）
　前記第１の発話は、第１のユーザによりなされ、
　前記第２の発話は、前記第１のユーザと異なる第２のユーザによりされる
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記制御部は、各ユーザの特性を含むユーザ情報に基づいて、前記実行の結果を提示する
　前記（１１）に記載の情報処理装置。
（１３）
　前記制御部は、前記第１の発話の内容と、前記第２の発話の内容とが、矛盾した依頼となっている場合、過去の履歴情報に基づいて、いずれか一方の依頼を選択し、その依頼に基づいた実行の結果を提示する
　前記（１２）に記載の情報処理装置。
（１４）
　前記制御部は、前記実行の結果を、第１の提示部及び第２の提示部のうち、少なくとも一方の提示部により提示する
　前記（２）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記第１の提示部と前記第２の提示部とは、同一の機器又は異なる機器に設けられる
　前記（１４）に記載の情報処理装置。
（１６）
　前記第１の提示部は、表示デバイスであり、
　前記第２の提示部は、スピーカである
　前記（１４）又は（１５）に記載の情報処理装置。
（１７）
　前記第２の発話は、前記第１の発話がなされた後であって、前記ユーザの発話の速度に応じた所定の期間内になされる
　前記（２）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
　前記ユーザの依頼に応じた所定の処理を実行する実行部をさらに備え、
　前記制御部は、前記実行部により実行される所定の処理の実行の結果を、前記応答として提示する
　前記（２）乃至（１７）のいずれかに記載の情報処理装置。
（１９）
　前記ユーザの発話の音声データに基づいて、音声認識処理を行う音声認識部と、
　前記音声認識処理により得られる音声認識の結果に基づいて、意味解析処理を行う意味解析部と
　をさらに備える前記（２）乃至（１８）のいずれかに記載の情報処理装置。
（２０）
　情報処理装置の情報処理方法において、
　前記情報処理装置が、
　ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、前記第１の発話に対する応答の提示を制御する
　情報処理方法。

　１　音声対話システム，　１０　端末装置，　２０　サーバ，　３０　インターネット，　１０１　カメラ，　１０２　マイクロフォン，　１０３　ユーザ認識部，　１０４　音声認識部，　１０５　意味解析部，　１０６　依頼実行部，　１０７　提示方法制御部，　１０８　表示制御部，　１０９　発話生成部，　１１０　表示デバイス，　１１１　スピーカ，　１３１　ユーザDB，　１０００　コンピュータ，　１００１　CPU

Claims

　ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、前記第１の発話に対する応答の提示を制御する制御部を備える
　情報処理装置。
　前記制御部は、前記第１の発話の内容と、前記第２の発話の内容との関係により特定される前記ユーザの依頼に基づいた実行の結果を、前記応答として提示する
　請求項１に記載の情報処理装置。
　前記制御部は、前記第１の発話の意図と、前記第２の発話の意図とが略同一となる場合、前記第１の発話の意図と前記第２の発話の意図とを統合して得られる依頼に基づいた実行の結果を提示する
　請求項２に記載の情報処理装置。
　前記制御部は、前記第２の発話の内容によって、前記第１の発話の内容に対する追加を行っている場合、前記第１の発話の内容に、前記第２の発話の内容を追加して得られる依頼に基づいた実行の結果を提示する
　請求項２に記載の情報処理装置。
　前記制御部は、前記第２の発話の内容によって、前記第１の発話の内容の一部を変更している場合、前記第１の発話の内容の一部を、前記第２の発話の内容により変更して得られる依頼に基づいた実行の結果を提示する
　請求項２に記載の情報処理装置。
　前記制御部は、前記第１の発話の意図と、前記第２の発話の意図とが異なる場合、前記第１の発話の内容から得られる第１の依頼に基づいた第１の実行の結果と、前記第２の発話の内容から得られる第２の依頼に基づいた第２の実行の結果をそれぞれ提示する
　請求項２に記載の情報処理装置。
　前記制御部は、前記第２の発話の内容が、システムに対するものではない場合、前記第１の発話の内容から得られる依頼に基づいた実行の結果を提示する
　請求項２に記載の情報処理装置。
　前記制御部は、前記第１の発話に対する第１の処理を既に実行中、又は前記第１の処理の実行の結果を提示中である場合、前記第１の処理の実行の結果のみを提示する
　請求項３に記載の情報処理装置。
　前記制御部は、前記第１の発話に対する第１の処理を既に実行中、又は前記第１の処理の実行の結果を提示中である場合、前記第１の処理の実行の結果の提示に続いて、前記第２の発話に対する第２の処理の実行の結果を提示する
　請求項４に記載の情報処理装置。
　前記制御部は、前記第１の発話に対する第１の処理を既に実行中、又は前記第１の処理の実行の結果を提示中である場合、前記第１の処理の実行の結果の提示を中断し、又はその提示の完結を待って、前記第２の発話に対する第２の処理の実行の結果を提示する
　請求項５に記載の情報処理装置。
　前記第１の発話は、第１のユーザによりなされ、
　前記第２の発話は、前記第１のユーザと異なる第２のユーザによりされる
　請求項２に記載の情報処理装置。
　前記制御部は、各ユーザの特性を含むユーザ情報に基づいて、前記実行の結果を提示する
　請求項１１に記載の情報処理装置。
　前記制御部は、前記第１の発話の内容と、前記第２の発話の内容とが、矛盾した依頼となっている場合、過去の履歴情報に基づいて、いずれか一方の依頼を選択し、その依頼に基づいた実行の結果を提示する
　請求項１２に記載の情報処理装置。
　前記制御部は、前記実行の結果を、第１の提示部及び第２の提示部のうち、少なくとも一方の提示部により提示する
　請求項２に記載の情報処理装置。
　前記第１の提示部と前記第２の提示部とは、同一の機器又は異なる機器に設けられる
　請求項１４に記載の情報処理装置。
　前記第１の提示部は、表示デバイスであり、
　前記第２の提示部は、スピーカである
　請求項１５に記載の情報処理装置。
　前記第２の発話は、前記第１の発話がなされた後であって、前記ユーザの発話の速度に応じた所定の期間内になされる
　請求項２に記載の情報処理装置。
　前記ユーザの依頼に応じた所定の処理を実行する実行部をさらに備え、
　前記制御部は、前記実行部により実行される所定の処理の実行の結果を、前記応答として提示する
　請求項２に記載の情報処理装置。
　前記ユーザの発話の音声データに基づいて、音声認識処理を行う音声認識部と、
　前記音声認識処理により得られる音声認識の結果に基づいて、意味解析処理を行う意味解析部と
　をさらに備える請求項１８に記載の情報処理装置。
　情報処理装置の情報処理方法において、
　前記情報処理装置が、
　ユーザによる第１の発話よりも時間的に後の第２の発話の内容に基づいて、前記第１の発話に対する応答の提示を制御する
　情報処理方法。