WO2019198405A1

WO2019198405A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: WO2019198405A1
Application number: PCT/JP2019/010022
Authority: WO
Inventors: 山田　敬一
Original assignee: ソニー株式会社
Priority date: 2018-04-12
Filing date: 2019-03-12
Publication date: 2019-10-17
Also published as: EP3779965A1; US20210174809A1; EP3779965A4; US11545153B2

Abstract

ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法を実現する。ローカル端末とリモート端末を有し、ローカル端末は、ローカル端末に入力されたユーザ発話の意味解析処理を実行し、意味解析結果に基づいてユーザ発話がリモート端末に対する処理要求であるか否かを判定する。さらに、ユーザ発話がリモート端末に対する処理要求である場合、意味解析部における意味解析結果を、リモート端末に送信する。リモート端末は、ローカル端末側のユーザ発話の意味解析結果を受信し、受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に基づく処理をローカル端末やリモート端末に実行させる情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
　この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
　例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
　システム発話＝「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
　このようなシステム発話を出力する。

　なお、音声認識処理を開示した従来技術として、例えば特許文献１（特開２００８－１４６０５４号公報）がある。

　最近は、ユーザ発話の音声認識結果に基づく処理や応答を行う端末として、スマートスピーカーあるいはエージェント機器の利用が増加している。
　しかし、このような装置は、例えば高齢者等、情報処理機器の操作に不慣れなユーザにとって十分に使いこなすことが困難であるという問題がある。

　例えば、高齢の近親者が住んでいる遠隔地の住居（実家）にエージェント機器を設置したいが、機器の設定や日常的な管理や操作を高齢者にまかせることは難しいといった場合も多い。

　高齢者の住む遠隔地に設置したエージェント機器を操作する場合に、遠隔地に住む高齢者に対して、エージェント機器の操作方法を電話等で伝え、高齢者が直接操作する等の処理も可能ではあるが、うまく操作出来ない可能性が高い。この状況は、ＰＣや情報機器に関する問合せを行った高齢者に対して、サポート窓口担当者が、ＰＣや機器の操作方法を口頭で説明してもなかなかうまく解決できないことに類似するものである。

特開２００８－１４６０５４号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、遠隔地にあるリモート端末との通信を行うローカル端末を用いて、ローカル側のユーザ発話に基づく処理をリモート端末に実行させることを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　ユーザ発話の意味解析処理を実行する意味解析部と、
　前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する操作対象端末判定部を有する情報処理装置にある。

　さらに、本開示の第２の側面は、
　ローカル端末とリモート端末を有する情報処理システムであり、
　前記ローカル端末は、
　前記ローカル端末に入力されたユーザ発話の意味解析処理を実行する意味解析部と、
　前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定部と、
　前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する通信部を有し、
　前記リモート端末は、
　前記ローカル端末側のユーザ発話の意味解析結果を受信する通信部と、
　前記通信部を介して受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する情報処理システムにある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　意味解析部が、ユーザ発話の意味解析処理を実行し、
　操作対象端末判定部が、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する情報処理方法にある。

　さらに、本開示の第４の側面は、
　ローカル端末とリモート端末を有する情報処理システムにおいて実行する情報処理方法であり、
　前記ローカル端末が、
　前記ローカル端末に入力されたユーザ発話の意味解析処理と、
　前記意味解析処理の意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定処理と、
　前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する処理を実行し、
　前記リモート端末が、
　前記ローカル端末側のユーザ発話の意味解析結果を受信し、
　受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　意味解析部に、ユーザ発話の意味解析処理を実行させ、
　操作対象端末判定部に、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する処理を実行させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。
　具体的には、例えば、ローカル端末とリモート端末を有し、ローカル端末は、ローカル端末に入力されたユーザ発話の意味解析処理を実行し、意味解析結果に基づいてユーザ発話がリモート端末に対する処理要求であるか否かを判定する。さらに、ユーザ発話がリモート端末に対する処理要求である場合、意味解析部における意味解析結果を、リモート端末に送信する。リモート端末は、ローカル端末側のユーザ発話の意味解析結果を受信し、受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する。
　本構成により、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ユーザ発話に対する応答を行う情報処理装置の具体的な処理例について説明する図である。情報処理装置の構成例と利用例について説明する図である。本開示の情報処理装置の実行する処理の概要について説明する図である。情報処理装置の構成例について説明する図である。情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理の具体例について説明する図である。ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理の具体例について説明する図である。ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理の具体例について説明する図である。ユーザ発話が端末操作に関する発話であるか否か、また、どの端末に対する処理要求発話であるかを判定する処理のためのユーザ発話の解析処理例について説明する図である。ローカル端末からの指示で、リモート端末側で顔登録処理を行う場合の処理シーケンスについて説明する図である。プライバシー情報やセキュリティ情報の出力制御処理例について説明する図である。リモート側ユーザに対するリモート端末からのシステム発話出力例について説明する図である。リモート側ユーザの観察情報や、伝言をローカル端末に出力する処理例について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．情報処理装置の実行する処理の概要について
　２．情報処理装置の構成例について
　３．情報処理装置の実行する処理シーケンスについて
　４．ユーザ発話が端末に対する処理要求であるか否か、またどの端末に対する処理要求であるかを判定する処理の具体例について
　５．プライバシー情報やセキュリティ情報の出力制御処理について
　６．端末の設定処理、情報登録処理例について
　７．情報処理装置のハードウェア構成例について
　８．本開示の構成のまとめ

　　［１．情報処理装置の実行する処理の概要について］
　まず、図１以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。

　図１は、ユーザ１の発するユーザ発話を認識して応答を行う情報処理装置１０の一処理例を示す図である。
　情報処理装置１０は、ユーザの発話、例えば、
　ユーザ発話＝「大阪の明日、午後の天気を教えて」
　このユーザ発話の音声認識処理を実行する。

　さらに、情報処理装置１０は、ユーザ発話の音声認識結果に基づく処理を実行する。
　図１に示す例では、ユーザ発話＝「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して、生成した応答をスピーカー１４を介して出力する。
　図１に示す例では、情報処理装置１０は、以下のシステム応答を行っている。
　システム応答＝「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
　情報処理装置１０は、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行して上記のシステム応答を生成して出力する。

　情報処理装置１０は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
　図１に示す情報処理装置１０は、カメラ１１、マイク１２、表示部１３、スピーカー１４を有しており、音声入出力と画像入出力が可能な構成を有する。

　図１に示す情報処理装置１０は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
　本開示の情報処理装置１０は、図２に示すように、エージェント機器１０ａに限らず、スマホ１０ｂやＰＣ１０ｃ等のような様々な装置形態とすることが可能である。

　情報処理装置１０は、ユーザ１の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図２に示すテレビ、エアコン等の外部機器３０の制御も実行する。
　例えばユーザ発話が「テレビのチャンネルを１に変えて」、あるいは「エアコンの設定温度を２０度にして」といった要求である場合、情報処理装置１０は、このユーザ発話の音声認識結果に基づいて、外部機器３０に対して制御信号（Ｗｉ－Ｆｉ、赤外光など）を出力して、ユーザ発話に従った制御を実行する。

　なお、情報処理装置１０は、ネットワークを介してサーバ２０と接続され、サーバ２０から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。

　昨今は、図１、図２を参照して説明した情報処理装置１０としてのスマートスピーカーあるいはエージェント機器の利用が増加している。しかし、前述したように、このような装置は、例えば高齢者等、情報処理機器の操作に不慣れなユーザには、十分に使いこなすことが困難であるという問題がある。例えば、高齢の親が住んでいる遠隔地の住居（実家）にエージェント機器を設置したいが、機器の設定や日常的な管理や操作を高齢者にまかせることは難しいといった場合がある。

　本開示は、このような問題を解決するものであり、遠隔地のエージェント機器（リモート端末）との通信を実行する手元のエージェント機器（ローカル端末）を用いて、ローカル端末とリモート端末間でテレビ電話的な会話を行いながらリモート端末に様々な処理を実行させることを可能とするものである。

　図３を参照して、本開示の構成によって実行される処理の一例について説明する。
　図３下部には、右にローカル側、左にリモート側を示している。ローカル側には、ローカル側ユーザ５１がおり、ローカル端末１００がある。一方、リモート側にはリモート側ユーザ５２がおり、リモート端末２００がある。
　ローカル端末１００、リモート端末２００は、いずれも先に図１、図２を参照して説明した情報処理装置１０と同様の構成であり、カメラ１１、マイク１２、表示部１３、スピーカー１４を有しており、音声入出力と画像入出力が可能であり音声認識処理を実行する装置である。さらに、これらの端末は、相互に通信を実行する。例えばインターネット等を介したデータ通信を実行する。
　リモート側のリモート側ユーザ５２は、リモート端末２００の操作に不慣れなユーザである。

　図３には、ローカル端末１００とリモート端末２００に対するユーザ発話を時系列に、ステップＳ１１～Ｓ１６のユーザ発話として示している。これらの発話について、以下、順次、説明する。
　なお、ローカル端末１００とリモート端末２００間は、相互に画像と音声が送受信されており、テレビ電話的な会話が実行されている状態である。

　　（ステップＳ１１）
　まず、リモート側ユーザ５２が、リモート端末２００の表示部に表示されたローカル側ユーザ５１に向かって以下のユーザ発話を行う。
　リモート側ユーザ発話＝どうすればいいの？
　このユーザ発話は、リモート端末２００のマイクによって取得され、ローカル端末１００に送信されてローカル端末１００のスピーカーを介して出力される。

　　（ステップＳ１２）
　次に、ローカル側ユーザ５１が、ローカル端末１００の表示部に表示されたリモート側ユーザ５２に向かって以下のユーザ発話を行う。
　ローカル側ユーザ発話＝お婆ちゃん、機械の前に立ってカメラを見てね
　このユーザ発話は、ローカル端末１００のマイクによって取得され、リモート端末２００に送信されてリモート端末２００のスピーカーを介して出力される。
　リモート側ユーザ５２は、このローカル側ユーザ発話に応じて、機械の前に立ってカメラを見る動作を行う。

　　（ステップＳ１３）
　次に、ローカル側ユーザ５１は、ローカル端末１００に対する指示発話（＝遠隔音声操作）として、以下のユーザ発話を行う。
　ローカル側ユーザ発話＝向こうで顔登録を始めて
　このユーザ発話は、ローカル端末１００のマイクによって取得され、リモート端末２００に送信される。リモート端末２００は、このユーザ発話に従って、現在、カメラが撮影中のリモート側ユーザ５２の顔登録処理を開始する。

　なお、顔登録処理は、端末によって撮影された顔画像を記憶部に登録する処理であり、顔登録処理を行うことで、カメラによって撮影された顔画像が所定のユーザＩＤに対応付けられてリモート端末２００の記憶部に格納される。

　なお、この処理に際しては、ローカル端末１００は、ユーザ発話がリモート側ユーザ５２に対する発話であるか、リモート端末２００に対する操作指示であるかを識別することが必要となる。
　この識別は、ユーザ発話の解析によって行われる。例えば、「向こうで」、「リモートで」、「顔登録」といった、予め規定された発話（単語）がユーザ発話に含まれる場合、ローカル端末１００は、ユーザ発話がリモート端末２００に対する操作指示であると判定する。

　ステップＳ１３のユーザ発話には、「向こうで」や「顔登録」という表現（ワード）が含まれ、ローカル端末１００は、ユーザ発話がリモート端末２００に対する操作指示であると判定する。ローカル端末１００は、この操作指示、具体的にはユーザ発話の意味解析結果をリモート端末２００に送信する。リモート端末２００は、受信した意味解析結果に含まれるユーザ発話の意図に従い、ユーザ発話に基づく処理を実行する。すなわち、現在、カメラが撮影中のリモート側ユーザ５２の顔登録処理を開始する。

　なお、ローカル端末１００とリモート端末２００間の通信実行中のユーザ発話やユーザ撮影画像は端末間で送受信され、相手側端末のスピーカーや表示部に出力される。すなわち、端末間ではテレビ電話と同様のユーザ間の対話が実行され、この対話に並列した処理として、端末に対する操作指示の解析処理、端末による顔登録処理等の様々な処理が行われる。

　　（ステップＳ１４）
　さらに、ローカル側ユーザ５１は、ローカル端末１００の表示部に表示されたリモート側ユーザ５２に向かって以下のユーザ発話を行う。
　ローカル側ユーザ発話＝お婆ちゃん、顔を左右に振ってみて
　このユーザ発話は、ローカル端末１００のマイクによって取得され、リモート端末２００に送信されてリモート端末２００のスピーカーを介して出力される。
　リモート側ユーザ５２は、このローカル側ユーザ発話に応じて、顔を左右に振る動作を行う。

　　（ステップＳ１５）
　次に、リモート側ユーザ５２が、リモート端末２００の表示部に表示されたローカル側ユーザ５１に向かって以下のユーザ発話を行う。
　リモート側ユーザ発話＝これでいいの？
　このユーザ発話は、リモート端末２００のマイクによって取得され、ローカル端末１００に送信されてローカル端末１００のスピーカーを介して出力される。

　　（ステップＳ１６）
　次に、ローカル側ユーザ５１は、ローカル端末１００の表示部に表示されたリモート側ユーザ５２に向かって以下のユーザ発話を行う。
　ローカル側ユーザ発話＝そうそう
　このユーザ発話は、ローカル端末１００のマイクによって取得され、リモート端末２００に送信されてリモート端末２００のスピーカーを介して出力される。

　この一連のユーザ発話と対話によって、リモート側では、リモート端末２００によるリモート側ユーザ５２の顔登録処理が実行されることになる。
　リモート側ユーザ５２が顔登録処理のやり方を知らない場合でも、問題なく顔登録処理を行うことが可能となる。
　このように本開示の処理では、エージェント機器を利用してテレビ電話的なリアルタイムの会話と、遠隔地にあるリモート端末に対する音声による操作を同時に実行することが可能となる。

　　［２．情報処理装置の構成例について］
　次に、図４を参照して、本開示の情報処理装置、すなわち図３を参照して説明したローカル端末１００とリモート端末２００の具体的な構成例について説明する。
　図４は、ローカル端末１００とリモート端末２００の構成を示すブロック図である。

　図４に示すように、ローカル端末１００とリモート端末２００は同様の構成を有する。
　ローカル端末１００は、画像入力部１０１、音声入力部１０２、画像認識部１０３、音声認識部１０４、情報統合部１０５、意味解析部１０６、操作対象端末判定部１０７、アプリケーション実行部１０８、通信部１０９、応答情報生成部１１０、音声合成部１１１、画像表示部１１２、音声出力部１１３を有する。
　リモート端末２００は、画像入力部２０１、音声入力部２０２、画像認識部２０３、音声認識部２０４、情報統合部２０５、意味解析部２０６、操作対象端末判定部２０７、アプリケーション実行部２０８、通信部２０９、応答情報生成部２１０、音声合成部２１１、画像表示部２１２、音声出力部２１３を有する。
　いずれも同一構成であるので、代表して、ローカル端末１００の構成要素について、以下説明する。

　画像入力部１０１は、画像信号を取り込むカメラである。例えば、（ＶＧＡ以上の）ウェブカメラによって構成される。
　画像認識部１０３は、画像入力部１０１から入力するカメラ撮影画像信号の解析を実行する。例えば、撮影画像から、人（ユーザ）に関する情報を検出、識別、推定する。なお、画像認識部１０３には、画像から顔の領域を検出する「顔領域検出部」、顔領域画像を対象に、それが誰の顔であるかを識別する「顔識別部」、顔領域画像を対象に、その顔がカメラに対してどの方向に向いているかを推定する「顔方向推定部」、顔領域画像を対象に、視線がカメラに対してどの方向に向いているかを推定する「視線方向推定部」が含まれる。なお、誰の顔であるかを識別する「顔識別部」による顔識別処理は、予め登録され、記憶部に格納された顔画像との照合処理により誰の顔であるかを識別する。撮影画像に含まれる顔が、登録済みの顔でない場合は、識別不可との結果を出力する。

　音声入力部１０２は、音（音声）信号を取り込むマイクである。例えば、４チャンネル以上のマイクロフォン・アレイによって構成される。
　音声認識部１０４は、音声入力部１０２から入力する音声信号をその発話内容に対応したテキスト情報に変換する。音声認識部１０４は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。音声認識部１０４には、マクロフォン・アレイに入力される複数の音（音声）信号に対して、各信号の（マイクロフォン・アレイに対する）音源の方向を推定する「音源方向推定部」、入力される音（音声）信号において、音声が存在する区間を検出する（区間の開始時刻と終了時刻を推定する）「音声区間検出部」、音源方向と音声区間の情報に基づいて、それらに対応する音声信号（その音源から出されている信号）を抽出する「音源抽出部」も含まれる。

　情報統合部１０５は、画像認識部１０３の生成した画像認識結果、すなわち撮影画像に含まれる顔画像が誰であるか、その顔の方向、視線方向情報含む画像解析結果を入力する。さらに、音声認識部１０４の生成した音声認識結果、すなわち、入力音声信号の方向、音声区間、音声信号等を含む音声認識結果を入力する。情報統合部１０５は、これらの入力情報に基づいて、各入力情報をユーザ（人）単位の情報としてまとめ上げる処理を行う。

　意味解析部１０６は、音声認識部１０５の音声認識結果であるユーザ発話に対応したテキスト情報を入力して、自然言語処理等の技術を用いて、ユーザが意図している発話の意味を解析する。意味解析部１０６は、例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　具体例について説明する。例えば以下のユーザ発話が入力されたとする。
　ユーザ発話＝明日の大阪の午後の天気を教えて
　このユーザ発話の、
　意図（インテント）は、天気を知りたいであり、
　実体情報（エンティティ）は、大阪、明日、午後、これらのワードである。

　ユーザ発話から、意図（インテント）と、実体情報（エンティティ）を正確に推定、取得することができれば、ユーザ発話に対する正確な処理を行うことができる。
　例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。

　操作対象端末判定部１０７は、意味解析部１０６の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果を入力し、この入力情報に基づいて、ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるのか、あるいはどの端末でもないかを判定する。

　ユーザ発話が操作対象としている端末がローカル端末であると判定した場合は、意味解析部１０６の解析結果であるユーザ発話の意図、意味解析結果を後続するアプリケーション実行部１０８に出力する。
　また、ユーザ発話が操作対象としている端末がリモート端末であると判定した場合は、意味解析部１０６の解析結果であるユーザ発話の意図、意味解析結果を後続する通信部１０９に出力する。
　さらに、ユーザ発話が操作対象としている端末がローカル端末でもリモート端末でもないと判定した場合は、意味解析部１０６の解析結果であるユーザ発話の意図、意味解析結果に、ユーザ発話が端末に対する発話でないとの判定結果を付加してアプリケーション実行部１０８に出力する。

　アプリケーション実行部１０８は、意味解析部１０６の解析結果であるユーザ発話の意図、意味解析結果、あるいはこれらとユーザ発話が端末に対する発話でないとの判定結果を入力して、ユーザ発話の意図に従ったアプリケーションを実行する。

　具体的には、ユーザ発話が操作対象としている端末がローカル端末１００であり、例えば、ユーザ発話が天気予報を聞いている発話である場合は、天気情報提供サーバから天気予報情報を取得する。また、ユーザ発話が操作対象としている端末がローカル端末１００であり、例えば、ユーザ発話が顔登録を要求している発話である場合は、カメラ撮影画像に含まれる顔の登録処理を開始する。
　また、ユーザ発話が操作対象としている端末がローカル端末でもリモート端末でもないと判定されており、ユーザ発話が端末に対する発話でないとの判定結果を入力した場合は、アプリケーション実行部１０８は特に処理を行わない。

　通信部１０９は、操作対象端末判定部１０７において、ユーザ発話が操作対象としている端末がリモート端末であると判定された場合に、意味解析部１０６の解析結果であるユーザ発話の意図、意味解析結果を入力し、この入力情報をリモート端末２００に送信する。
　さらに、通信部１０９は、リモート端末２００から送信されてきた情報を受信し、ローカル端末１００のアプリケーション実行部１０８に受信情報を出力する。

　また、通信部１０９は、ローカル端末１００とリモート端末２００間でテレビ電話的なリアルタイムの会話を行うための画像、音声信号の送受信処理も実行する。すなわち、画像入力部１０１の取得するカメラ撮影画像と、音声入力部１０２の取得する音声信号をリモート端末２００に送信する。さらに、リモート端末２００から、リモート端末２００の画像入力部２０１の取得するカメラ撮影画像と、音声入力部２０２の取得する音声信号を受信して、ローカル端末１００の画像表示部１１２、音声出力部１１３を介して出力する。
　この画像、音声の送受信処理は、音声信号の発話意味解析処理とは並列に独立した処理として継続的に実行される。

　応答情報生成部１１０は、アプリケーション実行部１０８から出力された情報を入力して、ユーザに対して提示する応答情報を生成する。
　例えば天気予報情報の出力情報（音声情報、画像情報）を生成する。
　応答情報としては、画像としてのＧＵＩ画面表示情報、あるいは音声による音声出力情報、少なくともこれらのいずれかの情報を含むものとなる。
　なお、応答情報生成部１１０においては、音声による出力を行う場合、音声合成部１１１による音声合成処理が実行される。音声合成部１１１は、例えば、アプリケーション実行部１０８、あるいは応答情報生成部１１０が生成したユーザへの応答情報であるテキスト情報を入力し、そのテキスト情報を音声信号へ変換する音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行する。

　画像表示部１１２は、例えばＬＣＤ、有機ＥＬディスプレイ等のディスプレイ、あるいはプロジェクション表示を行うプロジェクタ等によって構成される。画像表示部１１２は、応答情報生成部１１０が、アプリケーション実行部１０８の実行結果に基づいて生成した応答情報である画像の表示処理、例えばＧＵＩ画面表示を行う。
　音声出力部１１３は、スピーカーであり、応答情報生成部１１０が、アプリケーション実行部１０８の実行結果に基づいて生成した応答情報である音声信号を出力する。

　なお、画像表示部１１２と、音声出力部１１３は、アプリケーション実行結果の情報の出力に併せて、リモート端末２００の画像入力部２０１の撮影画像と、音声入力部２０２の取得音声も出力する。
　すなわち、画像表示部１１２と、音声出力部１１３は、ユーザ発話の音声認識結果に基づく処理結果としての応答を出力するとともに、テレビ電話と同様の相手端末からの受信画像、音声も併せて出力する処理を行う。

　なお、図４に示すブロック図には、ローカル端末１００、リモート端末２００の構成中、本開示の処理に利用される主要構成のみを示している。各端末は図４に示す構成の他、例えばデータを格納する記憶部、ユーザ操作可能な入力部、スイッチ、電源等、基本的な情報処理装置の有する構成要素を有している。

　　［３．情報処理装置の実行する処理シーケンスについて］
　次に、情報処理装置の実行する処理シーケンスについて説明する。
　図５に示すフローチャートを参照して情報処理装置の実行する処理シーケンスについて説明する。図５に示すフローチャートは、図４を参照して説明したローカル端末１００において実行する処理のシーケンスである。なお、リモート端末２００においても同様の処理が実行される。

　なお、図５に示すフローチャートに従った処理は、例えば情報処理装置であるローカル端末１００の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するＣＰＵ等のプロセッサによるプログラム実行処理として行うことができる。
　以下、図５に示すフローの各ステップの処理について説明する。

　　（ステップＳ１０１～Ｓ１０２）
　まず、ステップＳ１０１とステップＳ１０２において、音声認識処理と画像認識処理を実行する。

　ステップＳ１０１の音声認識処理は、音声認識部１０４において実行される。音声認識部１０４は、音声入力部１０２から入力する音声信号をその発話内容に対応した複数の単語から構成されるテキストデータに変換する。なお、ステップＳ１０１の音声認識処理では、音声認識部１０４は、音源の方向を推定する「音源方向推定処理」、入力音声信号の音声存在区間を検出する「音声区間検出処理」、音源方向と音声区間の情報に基づいて、それらに対応する音声信号（その音源から出されている信号）を抽出する「音源抽出処理」も実行する。

　ステップＳ１０２の画像認識処理は、画像認識部１０３において実行される。画像認識部１０３は、画像入力部１０１から入力するカメラ撮影画像信号の解析を実行する。例えば、画像から顔領域を検出する「顔領域検出処理」、誰の顔であるかを識別する「顔識別処理」、顔方向を推定する「顔方向推定処理」、視線方向を推定する「視線方向推定処理」も実行する。

　　（ステップＳ１０３）
　次に、ステップＳ１０３において、発話者の推定処理を実行する。
　この処理は情報統合部１０５の実行する処理である。情報統合部１０５は、画像認識部１０３の生成した画像認識結果、すなわち撮影画像に含まれる顔画像が誰であるか、その顔の方向、視線方向情報含む画像解析結果を入力する。さらに、音声認識部１０４の生成した音声認識結果、すなわち、入力音声信号の方向、音声区間、音声信号等を含む音声認識結果を入力する。情報統合部１０５は、これらの入力情報に基づいて、ユーザ発話の音声認識結果に対応する発話者が、どのユーザであるかを推定する。

　　（ステップＳ１０４）
　次に、ステップＳ１０４において、意味解析処理を実行する。
　この処理は、意味解析部１０６の実行する処理である。意味解析部１０６は、音声認識部１０５の音声認識結果であるユーザ発話に対応したテキスト情報を入力して、自然言語処理等の技術を用いて、ユーザが意図している発話の意味を解析する。例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。ユーザ発話から、意図（インテント）と、実体情報（エンティティ）を正確に推定、取得することができれば、ユーザ発話に対する正確な処理を行うことができる。

　　（ステップＳ１０５）
　次に、ステップＳ１０５において、ユーザ発話が端末操作に関する発話であるか否かを判定する。端末にはローカル端末、リモート端末の双方が含まれる。
　この処理は、操作対象端末判定部１０７の実行する処理である。操作対象端末判定部１０７は、意味解析部１０６の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果を入力し、この入力情報に基づいて、ユーザ発話が端末操作に関する発話であるか否かを判定する。

　ユーザ発話が端末操作に関するものであると判定した場合は、ステップＳ１０６に進む。一方、ユーザ発話が端末操作に関するものでないと判定した場合は、ステップＳ１０１～Ｓ１０２に戻る。

　　（ステップＳ１０６）
　ステップＳ１０５において、ユーザ発話が端末操作に関するものであると判定した場合は、ステップＳ１０６に進み、ステップＳ１０６において、ユーザ発話の操作対象としている端末がローカル端末であるかリモート端末であるかを判定する。
　この処理も、操作対象端末判定部１０７の実行する処理である。操作対象端末判定部１０７は、意味解析部１０６の解析結果に基づいて、ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるのかを判定する。

　このステップＳ１０５～Ｓ１０６の判定処理、すなわち、
　（ａ）ユーザ発話が端末操作に関するものであるか否かの判定処理と、
　（ｂ）ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるのかの判定処理、
　これらは、ユーザ発話の意味解析部１０６の解析結果に基づいて実行される。これらの具体的な処理例については、後段において説明する。

　ステップＳ１０６において、ユーザ発話の操作対象としている端末がローカル端末であると判定した場合は、ステップＳ１０７に進む。
　一方、ユーザ発話の操作対象としている端末がリモート端末であると判定した場合は、ステップＳ１１１に進む。

　　（ステップＳ１０７～Ｓ１０９）
　ステップＳ１０６の判定処理において、ユーザ発話の操作対象としている端末がローカル端末であると判定した場合は、ステップＳ１０７に進む。
　ステップＳ１０７では、ローカル端末のアプリケーション実行部１０８による処理を実行する。ローカル端末の操作対象端末判定部１０７は、ステップＳ１０６の判定処理において、ユーザ発話の操作対象としている端末がローカル端末であると判定した場合、意味解析部１０６の解析結果であるユーザ発話の意図、意味解析結果を後続するアプリケーション実行部１０８に出力する。

　アプリケーション実行部１０８は、意味解析部１０６の解析結果であるユーザ発話の意図、意味解析結果に従ったアプリケーション処理を実行する。例えば、ユーザ発話が天気予報を聞いている発話である場合は、天気情報提供サーバから天気予報情報を取得する。また、例えば、ユーザ発話が顔登録を要求している発話である場合は、カメラ撮影画像に含まれる顔の登録処理を開始する等、ユーザ発話の意図に応じた処理を実行する。

　なお、これらのアプリケーションに従った処理は、ステップＳ１０８の応答情報生成処理、ステップＳ１０９の画像表示処理、音声出力処理を伴う処理として実行される。すなわち、応答情報生成部１１０は、アプリケーション実行部１０８から出力された情報を入力して、ユーザに対して提示する応答情報を生成する。例えば天気予報情報の出力情報（音声情報、画像情報）を生成する。
　画像表示部１１２は、応答情報生成部１１０の生成した画像情報の表示処理を行い、音声出力部１１３は、応答情報生成部１１０の生成した音声情報の出力処理を行う。

　　（ステップＳ１１１）
　一方、ステップＳ１０６の判定処理において、ユーザ発話の操作対象としている端末がリモート端末であると判定した場合は、ステップＳ１１１に進む。
　ステップＳ１１１では、操作対象端末、すなわちリモート端末に対して、操作情報を送信する。具体的には、ユーザ発話に対する意味解析部１０６の解析処理結果として生成されたユーザ発話の意図、意味解析結果を、通信部１０９を介して送信する。

　リモート端末２００は、通信部２０９を介して、ユーザ発話の意図、意味解析結果を受信し、この受信情報をリモート端末２００側のアプリケーション実行部２０８に入力して、リモート端末２００のアプリケーション実行部２０８が、ユーザ発話の意図、意味解析結果に従ったアプリケーション処理を実行する。例えば、ユーザ発話がリモート端末２００側での顔登録を要求する発話の場合は、リモート端末２００の画像入力部２０１から入力するカメラ撮影画像に含まれる顔の登録処理を開始する等、ユーザ発話の意図に応じた処理を実行する。

　　（ステップＳ１１２）
　ステップＳ１１２の処理は、別の端末（リモート端末）からの操作情報の入力処理である。
　例えば、リモート端末２００に入力されたリモート側ユーザの発話は、リモート端末２００の意味解析部２０６において解析される。リモート端末２００の操作対象端末判定部２０７が、この解析結果に基づいてユーザ発話がローカル端末の操作を要求していると判定した場合、意味解析部２０６の解析結果、すなわち、リモート端末側のユーザ発話の意図、意味解析結果が、通信部２０９を介してローカル端末１００に送信される。

　ローカル端末１００は、通信部１０９を介して、リモート端末２００からリモート端末側ユーザのユーザ発話の意図、意味解析結果を受信し、この受信情報をローカル端末１００側のアプリケーション実行部１０８に入力して、ローカル端末１００のアプリケーション実行部１０８が、リモート端末側のユーザ発話の意図、意味解析結果に従ったアプリケーション処理を実行する。

　このように、ローカル端末、リモート端末の双方は、ユーザ発話の意味解析結果に基づいて、ユーザ発話がどの端末に対する操作要求であるかを判別して、操作要求対象となる端末にユーザ発話の意味解析結果を送信する処理を行う。

　なお、図５に示すフローチャートに従った処理に並行して、ローカル端末１００とリモート端末２００間では通常のテレビ電話と同様、画像、音声の送受信が実行され、ローカル側ユーザとリモート側ユーザ間ではテレビ電話的な対話が行われる。

　　［４．ユーザ発話が端末に対する処理要求であるか否か、またどの端末に対する処理要求であるかを判定する処理の具体例について］
　次に、図６以下を参照して、ユーザ発話が端末に対する処理要求であるか否か、またどの端末に対する処理要求であるかを判定する処理の具体例について説明する。

　図５のフローチャートのステップＳ１０５、Ｓ１０６において、操作対象端末判定部１０７は、ユーザ発話が端末操作に関する発話であるか否かを判定し、さらに、ユーザ発話が端末操作に関する発話である場合には、操作対象端末が、ローカル端末であるのか、あるいはリモート端末であるのかの判定処理を実行する。
　操作対象端末判定部１０７は、意味解析部１０６の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果に基づいて上記の判定処理を行う。図６以下を参照して、この判定処理の具体例について説明する。

　図６に示す例は、ローカル側にユーザが複数いる状態で、各ユーザの発するユーザ発話を判定する処理例である。
　図６に示すように、ローカル側にはローカル端末１００、リモート側にはリモート端末２００が置かれ、相互に通信を行っている。
　ローカル側には、ローカル側ユーザとして、ママ３５１、パパ３５２、複数の子供３５３がいる。一方リモート側にはリモート側ユーザとしてお婆ちゃん２５１がいる。

　ローカル側ユーザ（ママ）３５１は、リモート側ユーザ（お婆ちゃん）２５１と、テレビ電話的に会話しつつ、リモート端末２００に対して操作要求を実行しようとしている。
　これと同時にローカル側ユーザ（パパ）３５２と、ローカル側ユーザ（子供）３５３は、ローカル側ユーザ間の会話を行っている。

　ローカル端末１００の音声入力部（マイク）１０２は、これらローカル側のすべてのユーザ発話を入力する。これらの全ての発話は、テレビ電話と同様、そのままリモート端末２００に送信されリモート端末２００の音声出力部（スピーカー）２１３を介して出力される。
　さらに、ローカル端末１００の操作対象端末判定部１０７は、意味解析部１０６の解析結果、すなわち、ユーザ発話の発話意図、意味解析結果に基づいて、ローカル側のすべてのユーザ発話について、以下の判定処理を実行する。
　（ａ）ユーザ発話が端末操作に関するものであるか否か、
　（ｂ）ユーザ発話が操作対象としている端末が、ローカル端末であるのか、あるいはリモート端末であるか、

　図６には、以下の２種類の発話例を示している。
　（Ａ）操作対象＝リモート端末と判定するユーザ発話例
　ユーザ発話（ママ）＝「お婆ちゃんちの顔登録を始めて」
　（Ｂ）操作対象≠端末と判定するユーザ発話例
　ユーザ発話（パパ）＝「お婆ちゃん、うまく出来てる？」

　これら２つの発話は、いずれも、「お婆ちゃんち」、または「お婆ちゃん」というリモート側を意味する表現が含まれているが、（Ａ）のユーザ発話には「顔登録」という端末の実行可能な処理に関する表現（ワード）が含まれている。一方（Ｂ）のユーザ発話には端末の実行可能な処理に関する表現（ワード）が含まれていない。

　ローカル端末１００の意味解析部１０６と、操作対象端末判定部１０７は、この２つのユーザ発話の意味解析結果に基づいて、以下の処理を実行する。
　（Ａ）のユーザ発話に含まれる「お婆ちゃんち」と「顔登録」からユーザ発話の意図が、リモート端末２００における顔登録の処理要求であると判定し、この意味解析結果をリモート端末２００に送信する。
　（Ｂ）のユーザ発話に含まれる「お婆ちゃん」と「うまく出来てる」からユーザ発話の意図が、端末に対する処理要求でないと判定し、この意味解析結果を棄却する。

　なお、図６に示すユーザ発話例において、
　（Ａ）操作対象＝リモート端末と判定するユーザ発話例
　ユーザ発話（ママ）＝「お婆ちゃんちの顔登録を始めて」
　このユーザ発話は、「お婆ちゃんち」というリモート側を意味する表現が含まれているため、リモート端末２００に対する処理要求であると判定している。
　例えば、以下のようなユーザ発話がなされた場合、
　ユーザ発話（ママ）＝「顔登録を始めて」
　このユーザ発話がなされた場合は、このユーザ発話にはリモート側を意味する表現が含まれていない。このような場合は、操作対象端末判定部１０７は、このユーザ発話がローカル端末１００に対する処理要求であると判定し、ローカル端末１００のアプリケーション実行部１０８において起動されるアプリケーションにより顔登録を開始する。

　図７に示す例も図６と同様の設定であり、ローカル側にユーザが複数いる状態で、各ユーザの発するユーザ発話を判定する処理例である。
　図７には、以下の２種類の発話例を示している。
　（Ａ）操作対象＝リモート端末と判定するユーザ発話例
　ユーザ発話（ママ）＝「向こうで顔登録を始めて」
　（Ｂ）操作対象≠端末と判定するユーザ発話例
　ユーザ発話（パパ）＝「向こうで遊んでなさい」

　これら２つの発話は、いずれも、「向こうで」というリモート側を意味する表現が含まれているが、（Ａ）のユーザ発話には「顔登録」という端末の実行可能な処理に関する表現（ワード）が含まれている。一方（Ｂ）のユーザ発話には端末の実行可能な処理に関する表現（ワード）が含まれていない。

　ローカル端末１００の意味解析部１０６と、操作対象端末判定部１０７は、この２つのユーザ発話の意味解析結果に基づいて、以下の処理を実行する。
　（Ａ）のユーザ発話に含まれる「向こうで」と「顔登録」からユーザ発話の意図が、リモート端末２００における顔登録の処理要求であると判定し、この意味解析結果をリモート端末２００に送信する。
　（Ｂ）のユーザ発話に含まれる「向こうで」と「遊んでなさい」からユーザ発話の意図が、端末に対する処理要求でないと判定し、この意味解析結果を棄却する。

　図８に示す例も図６と同様の設定であり、ローカル側にユーザが複数いる状態で、各ユーザの発するユーザ発話を判定する処理例である。
　図８には、以下の２種類の発話例を示している。
　（Ａ）操作対象＝リモート端末と判定するユーザ発話例
　（ａ１）ユーザ発話（ママ）＝「向こうで顔登録を始めて」
　（ａ２）ユーザ発話（ママ）＝「あっち側でマイク設定始めて」
　（Ｂ）操作対象≠端末と判定するユーザ発話例
　（ｂ１）ユーザ発話（パパ）＝「向こうで遊んでなさい」
　（ｂ２）ユーザ発話（パパ）＝「あっち側で始めなさい」

　（ａ１），（ｂ１）の各発話は、図７を参照して説明した発話である。これらの発話の後に、（ａ２），（ｂ２）の発話がなされたとする。
　これら（ａ２），（ｂ２）の２つの発話は、いずれも、「あっち側」というリモート側を意味する表現が含まれているが、（ａ２）のユーザ発話には「マイク設定」という端末の実行可能な処理に関する表現（ワード）が含まれており、端末に対する処理要求であると判定することができる。

　一方（ｂ２）のユーザ発話にも「始めなさい」という端末の実行可能な処理と判定される可能性を有する表現（ワード）が含まれている。
　この場合、意味解析部１０６における意味解析結果のみでは、（ｂ２）のユーザ発話が、端末に対する処理要求であるか否かを判定することが困難となる。
　このような場合、操作対象端末判定部１０７は、画像認識部１０３の画像認識結果を利用した判定処理を行う。すなわち、ユーザ発話（パパ）＝「あっち側で始めなさい」の発話を実行したユーザ（パパ）３５２の顔の向きや視線方向を取得し、顔の向きや視線方向が、ローカル端末１００を向いているか否かを確認する。
　顔の向きや視線方向が、ローカル端末１００を向いている場合、（ｂ２）のユーザ発話は、端末に対する処理要求であると判定し、向いていない場合は端末に対する処理要求でないと判定する。

　図８に示す例では、ユーザ発話（パパ）＝「あっち側で始めなさい」の発話を実行したユーザ（パパ）３５２の顔の向きや視線方向が、ローカル端末１００を向いていないため、端末に対する処理要求でないと判定する。

　このように、図８に示す例では、ローカル端末１００の操作対象端末判定部１０７は、（ａ２），（ｂ２）の２つのユーザ発話の意味解析結果と、画像認識結果を利用して、以下の処理を実行する。
　（ａ２）のユーザ発話に含まれる「あっち側」と「マイク設定」からユーザ発話の意図が、リモート端末２００における顔登録の処理要求であると判定し、この意味解析結果をリモート端末２００に送信する。
　（ｂ２）のユーザ発話に含まれる「あっち側」と「始めなさい」からユーザ発話の意図が、端末に対する処理要求であるかないかが不明確であるが、画像認識結果から、発話実行ユーザ（パパ）３５２の顔の向きや視線方向が、ローカル端末１００を向いていないため、端末に対する処理要求でないと判定し、この意味解析結果を棄却する。

　なお、さらに、本例では、以下の２つの発話が連続的になされている。
　（ｂ１）ユーザ発話（パパ）＝「向こうで遊んでなさい」
　（ｂ２）ユーザ発話（パパ）＝「あっち側で始めなさい」
　これらの２つの連続発話の先行発話（ｂ１）については先に図７を参照して説明したように、意味解析結果のみに基づいて端末に対する処理要求でないと判定可能である。このような場合、その後続発話（ｂ２）についても、端末に対する処理要求でない可能性が高いと判定する処理を行ってもよい。操作対象端末判定部１０７は、このような「発話のコンテキスト情報」を用いた判定処理を行うことも可能である。

　図６～図８を参照して説明したように、操作対象端末判定部１０７は、ユーザ発話が端末操作に関する発話であるか否かを判定し、さらに、ユーザ発話が端末操作に関する発話である場合には、操作対象端末が、ローカル端末であるのか、あるいはリモート端末であるのかの判定処理を実行する。
　操作対象端末判定部１０７は、意味解析部１０６の解析結果や画像認識部１０３の生成する画像認識結果を利用した判定処理を行う。

　意味解析部１０６の解析結果に基づく判定処理を行う場合に利用するユーザ発話の解析処理の一例について、図９を参照して説明する。

　図９には、意味解析部１０６の解析処理の一例を示している。意味解析部１０６の解析処理では、例えば、図９に示すように、ユーザ発話を複数のフレーズに分解する。ここでは、それぞれ「フレーズＡ」、「フレーズＢ」、「フレーズＣ」とする。
　フレーズＡは、リモート端末２００側を意味する表現から成る。
　図に示すフレーズＡ内の「○○」の部分には、フレーズＡ欄下部に記載の「向こう」～「御爺様」の内、いずれかの表現が入り得る。
　フレーズＢは、具体的な操作対象を意味する表現から成る。
　なお、「（の）」や「（を）」といった助詞については、発話あるいは音声認識結果テキストにおいて省略されていてもよい。
　フレーズＣは、具体的な動作内容を意味する表現から成る。

　操作対象端末判定部１０７が、リモート端末２００を操作対象とする発話であると判定するユーザ発話は、
　フレーズＡ＋フレーズＢ＋フレーズＣ
　この３つのフレーズが組み合わさった発話である。
　例えば、ユーザ発話＝「向こうで顔登録を始めて」
　このユーザ発話は、フレーズＡ＋フレーズＢ＋フレーズＣの組み合わせであり、リモート端末２００を操作対象とする発話であると判定する。

　このように、本開示の構成を利用することで、ローカル端末１００側のユーザの指示によって、リモート端末２００に様々な処理を実行させることが可能となる。リモート端末２００に実行させる処理の一例として、リモート側ユーザの顔登録処理を行う場合の処理シーケンスについて、図１０を参照して説明する。

　図１０には、ローカル端末１００側のローカル側ユーザ（ママ）の音声操作によって、リモート端末２００側で、リモート側ユーザ（お婆ちゃん）の顔登録を行う例をシーケンシャルに示している。（１）～（４）の順に処理が進行する。

　（１）では、顔登録を開始する前の状態を表しており、ローカル端末１００側のローカル側ユーザ（ママ）と、リモート端末２００側のリモート側ユーザ（お婆ちゃん）が、リアルタイムの会話を行っている。

　（２）は、ローカル端末１００側のローカル側ユーザ（ママ）が、リモート端末２００を操作対象としたユーザ発話、すなわち、
　ユーザ発話＝「リモート側で顔登録を始めて」
　上記ユーザ発話がローカル端末１００に入力される。

　ローカル端末１００の意味解析部１０６は、このユーザ発話の意味解析を実行し、意味解析結果を操作対象端末判定部１０７に入力する。操作対象端末判定部１０７は、この意味解析結果に基づいて、ユーザ発話が、リモート端末２００を操作対象とした発話であると判定して、意味解析結果をリモート端末２００に送信する。

　リモート端末２００は、ローカル端末１００から受信する意味解析結果に基づいて顔登録処理を実行するアプリケーションを起動して、顔登録処理を開始する。リモート端末２００は、顔登録機能が開始されることで、端末から「あなたの顔を覚えます。顔を枠にきちんとはめて、顔登録をしてください」といった音声ガイドが出力されると共に、顔位置を表した枠を含む顔登録用画面が表示される。

　（３）は、リモート端末２００側で顔登録を行っている状態を表している。リモート端末２００側のユーザ（お婆ちゃん）が、顔を顔登録用画面内の枠に位置させることによって、その顔が検出される。枠の色が変化することによって、顔が適切に検出されたことがユーザに通知される。
　その後、「画面を見ながら、顔を左右に動かしてください」といった音声ガイドが出力されると共に、画面上にも「顔を左右に動かしてください」と表示され、且つ画面内の枠の向きを左右に振るように自動で表示することによって、ユーザに顔を左右に動かすことを促す。こうすることによって、正面方向を向いた顔を登録することに加えて、左を向いた顔、または右を向いた顔の登録も行う。さらに、左右方向に加えて、上下方向に対する顔登録を行ってもよい。

　（４）は、リモート端末２００側で顔登録が終了した状態を表している。
　必要な全ての顔向きの登録が終了した時点で、顔登録機能は自動的に終了する。
　また、ローカル端末１００側において「リモート側の顔登録を中止」といった発話を行うことによって、リモート端末側の顔登録処理を強制的に終了することも可能となる。

　　［５．プライバシー情報やセキュリティ情報の出力制御処理について］
　次に、端末の出力部を介したデータ出力におけるプライバシー情報やセキュリティ情報の出力制御処理について説明する。
　リモート端末２００の置かれたリモート側には、例えば身内以外の第三者がいる場合がある。例えば図１１に示すように身内であるリモート側ユーザ（お婆ちゃん）２５１以外に、身内ではないリモート側ユーザ（お手伝いさん）２５２がいるといった設定である。

　このような場合、リモート端末２００の画像表示部２１２等の出力部を介して、プライバシー情報やセキュリティ情報を出力してしまうと、これらの情報が第三者に漏えいする恐れがある。

　このような情報漏えいを防止するため、端末（ローカル端末１００、リモート端末２００）は、画像入力部を介して入力するカメラ撮影画像に基づく顔識別結果等に基づいて出力情報の制御を実行する。
　この制御は、画像表示部１１２，２１２、音声出力部１１３，２１３に対する出力制御を実行する出力制御部機能を持つデータ処理部が行う。出力制御部機能は、具体的には、応答情報生成部１１０，２１０や、アプリケーション実行部１０８，２０８が有しており、これらの処理部のいずれかにおいて出力情報の制御が実行される。

　例えば、画像入力部１０１から入力する撮影画像や、音声入力部１０２から入力する音声情報に基づいて人の識別処理を実行して、予め登録がなされたユーザ以外の第三のユーザが検出された場合、プライバシー情報やセキュリティ情報の出力を停止する。また、登録されたユーザであっても、「家族以外の登録ユーザ」という家族以外の第三者を示す属性情報が登録されているユーザが検出された場合は、プライバシー情報やセキュリティ情報の出力を停止する。

　出力停止対象となる情報は、例えば、以下の情報である。
　プライバシー情報：生年月日、本籍、銀行口座情報、健康保険証番号、社会保険番号、収入に関する情報、等
　セキュリティ情報：クレジットカード情報、リモート端末上に保持されているパスワード情報、等－コンテンツ情報：カレンダーアプリケーションの予定情報、伝言情報、等
　これらのプライバシー情報やセキュリティ情報の出力を停止する。
　なお、出力停止対象データはユーザによる設定、変更を行うことが可能である。

　図１１に示す例は、（ａ）個人データと（ｂ）スケジュールの表示例を示している。例えば（ａ）個人データに含まれる生年月日、個人番号は、プライバシー情報やセキュリティ情報として、出力停止対象、すなわち非表示データ３８１に設定されている。同様に（Ｂ）スケジュール内の特定の予定情報が、ユーザによって非表示データ３８１に設定されている。

　　［６．端末の設定処理、情報登録処理例について］
　次に、ローカル端末やリモート端末に対して実行する端末の設定処理、情報登録処理例について説明する。

　（１）ユーザ登録処理と出力制御について
　ローカル端末１００、リモート端末２００には、各端末の記憶部内に端末利用者、例えば家族を中心とする近親者の人物に関する属性情報（名前や顔／音声識別用データ）を登録することが可能である。
　さらに、お手伝いさん、訪問介護士や隣人等についても属性情報（名前や顔／音声識別用データ）を「家族以外の登録ユーザ」という家族以外の第三者を示す属性情報に併せて登録することが可能な構成を持つ。

　なお、各端末では、例えば画像入力部１０１から入力する撮影画像や、音声入力部１０２から入力する音声情報に基づいて人の識別処理を実行して、登録ユーザを検知、識別し、そのユーザに合わせた情報出力を自動的に行うことが可能となっている。例えば、図１１を参照して説明した処理である。
　出力制御対象の情報には、録音音声あるいは合成音声による話しかけや、ＧＵＩ画面等がある。

　（２）ユーザによる事前登録可能な情報について
　さらに、ローカル側のユーザはローカル端末１００を利用して、リモート端末２００の出力音声（システム発話）の文言を録音、あるいはテキストで入力することが可能である。
　さらに、このシステム発話の出力対象となるリモート側ユーザ（＝話しかける相手）と、その話しかけを行うタイミング（曜日／日時を基本とした時間設定）に関する情報も、ローカル端末１００内に事前登録することができる。

　登録情報の例について、図１２を参照して説明する。
　ローカル側のユーザ（ママ３５１）はローカル端末１００を利用して、リモート端末２００の出力音声（システム発話）として、以下のような文言を録音、あるいはテキストで入力することが可能である。
　「今日はデイケアに行く日だよ」
　「食事はもう済んだ？」
　例えば、このような発話を登録して、リモート端末２００において、予め規定したタイミングで出力させることが可能となる。

　さらに、「薬を飲む時間ですよ」、「もう寝た方がいいよ」等の発話を登録して、リモート端末２００において、予め規定したタイミングで出力させることが可能である。
　さらに、リモート側のお手伝いさんや介護士等に対する通知情報としてのシステム発話として、「来週は不在の予定の為、訪問は無しで結構です」、「薬の受け取りをよろしくお願い致します」、「何か問題がありましたら伝言下さい」等、様々なシステム発話の出力設定を行うことができる。なお、これらの発話内容を事前に多数、登録し、ユーザは逐次、利用したい項目を選択する処理を行う構成としてもよい。

　（３）ユーザへの報告、通知処理例について
　リモート端末２００は、リモート側で取得されるリモート側ユーザの応答や日常的な行動（例えば感知し得たセンシング情報のログのサマリー）をまとめて（例えば一日分）、ローカル端末１００に送信して、ローカル側のユーザに定期的に報告することが可能である。
　報告情報としては、問いかけに対する応答の有無や、高齢の近親者に関する人物検出の有無情報等である。
　ローカル側ユーザによる事前設定によっては、リモート端末２００からの問いかけに対する応答や人物検出が無かった等、予め規定された異常や緊急事態条件に当てはまる場合には、リモート端末２００はその情報をローカル端末１００に送信して、ローカル側ユーザに通知することが可能である。

　また、リモート側にいる訪問介護士等の家族以外の登録ユーザからの伝言がある場合には、その旨をリモート側登録ユーザがリモート端末２００に入力することで、ローカル端末１００側のユーザに報告あるいは通知することが可能である。訪問介護士による伝言の登録や、ローカル端末側のユーザによる伝言の確認は、各端末を介した対話インタラクション（音声操作）によって実行可能である。

　図１３に示す例は、リモート端末２００が取得したリモート側ユーザの応答や日常的な行動（例えば感知し得たセンシング情報のログのサマリー）をローカル端末１００に送信して出力する例である。
　システム発話＝お婆様はいつも通りです。
　ローカル端末１００には、リモート端末２００が取得した情報に応じて上記のシステム発話が出力される。

　さらに、図１３には、
　システム発話＝ヘルパーさんからの伝言があります。
　このシステム発話の出力例を示している。
　これは、リモート側にいる訪問介護士等の家族以外の登録ユーザからの伝言がある場合に、リモート端末２００からの通知メッセージをローカル端末１００で出力する例である。

　　［７．情報処理装置のハードウェア構成例について］
　次に、図１４を参照して、ローカル端末や、リモート端末を構成する情報処理装置のハードウェア構成例について説明する。
　図１４を参照して説明するハードウェアは、先に図４を参照して説明したローカル端末や、リモート端末を構成する情報処理装置のハードウェア構成の一例である。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）５０２、または記憶部５０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）５０３には、ＣＰＵ５０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４により相互に接続されている。

　ＣＰＵ５０１はバス５０４を介して入出力インタフェース５０５に接続され、入出力インタフェース５０５には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部５０６、ディスプレイ、スピーカーなどよりなる出力部５０７が接続されている。ＣＰＵ５０１は、入力部５０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部５０７に出力する。

　入出力インタフェース５０５に接続されている記憶部５０８は、例えばハードディスク等からなり、ＣＰＵ５０１が実行するプログラムや各種のデータを記憶する。通信部５０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース５０５に接続されているドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア５１１を駆動し、データの記録あるいは読み取りを実行する。

　　［８．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　ユーザ発話の意味解析処理を実行する意味解析部と、
　前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する操作対象端末判定部を有する情報処理装置。

　（２）　前記操作対象端末判定部は、
　ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であるか、
　前記ローカル端末と通信中のリモート端末に対する処理要求であるかを判定する（１）に記載の情報処理装置。

　（３）　前記操作対象端末判定部は、
　前記ユーザ発話に前記リモート端末のある遠隔地を示す表現、または前記リモート端末のある遠隔地にいるリモート側ユーザを示す表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する（２）に記載の情報処理装置。

　（４）　前記操作対象端末判定部は、さらに、
　前記ユーザ発話に端末の実行可能な処理に対応する表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する（３）に記載の情報処理装置。

　（５）　前記操作対象端末判定部は、
　前記ユーザ発話の実行ユーザの顔方向、または視線方向に基づいて、前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定する（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記操作対象端末判定部は、
　前記ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果に基づく処理をアプリケーション実行部に実行させ、
　前記ユーザ発話が、該ユーザ発話が入力された情報処理装置以外のリモート端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果を、通信部を介して前記リモート端末に送信する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記情報処理装置は、
　撮影画像を入力する画像入力部と、
　取得音声を入力する音声入力部と、
　画像入力部の入力画像と、音声取得部の取得音声を、リモート端末に送信する通信部を有する（１）～（６）いずれかに記載の情報処理装置。

　（８）　前記情報処理装置は、さらに、
　リモート端末から、リモート端末側のユーザ発話の意味解析結果を受信する通信部と、
　前記通信部を介して受信したリモート端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する（１）～（７）いずれかに記載の情報処理装置。

　（９）　前記情報処理装置は、
　入力情報に基づく人識別処理を実行する入力情報認識部と、
　前記入力情報認識部における人識別結果に応じて、出力情報を制御する出力制御部を有する（１）～（８）いずれかに記載の情報処理装置。

　（１０）　前記入力情報認識部は、
　画像入力部から入力する画像を解析して人識別を実行する画像認識部、または、
　音声入力部から入力する音声を解析して人識別を実行する音声認識部の少なくともいずれかである（９）に記載の情報処理装置。

　（１１）　ローカル端末とリモート端末を有する情報処理システムであり、
　前記ローカル端末は、
　前記ローカル端末に入力されたユーザ発話の意味解析処理を実行する意味解析部と、
　前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定部と、
　前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する通信部を有し、
　前記リモート端末は、
　前記ローカル端末側のユーザ発話の意味解析結果を受信する通信部と、
　前記通信部を介して受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する情報処理システム。

　（１２）　前記ローカル端末および前記リモート端末は、
　相互に撮影画像と取得音声を送受信する構成である（１１）に記載の情報処理システム。

　（１３）　情報処理装置において実行する情報処理方法であり、
　意味解析部が、ユーザ発話の意味解析処理を実行し、
　操作対象端末判定部が、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する情報処理方法。

　（１４）　ローカル端末とリモート端末を有する情報処理システムにおいて実行する情報処理方法であり、
　前記ローカル端末が、
　前記ローカル端末に入力されたユーザ発話の意味解析処理と、
　前記意味解析処理の意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定処理と、
　前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する処理を実行し、
　前記リモート端末が、
　前記ローカル端末側のユーザ発話の意味解析結果を受信し、
　受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する情報処理方法。

　（１５）　情報処理装置において情報処理を実行させるプログラムであり、
　意味解析部に、ユーザ発話の意味解析処理を実行させ、
　操作対象端末判定部に、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する処理を実行させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。
　具体的には、例えば、ローカル端末とリモート端末を有し、ローカル端末は、ローカル端末に入力されたユーザ発話の意味解析処理を実行し、意味解析結果に基づいてユーザ発話がリモート端末に対する処理要求であるか否かを判定する。さらに、ユーザ発話がリモート端末に対する処理要求である場合、意味解析部における意味解析結果を、リモート端末に送信する。リモート端末は、ローカル端末側のユーザ発話の意味解析結果を受信し、受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する。
　本構成により、ローカル端末側のユーザ発話に基づいてリモート端末に処理を実行させることを可能とした装置、方法が実現される。

　　１０　情報処理装置
　　１１　カメラ
　　１２　マイク
　　１３　表示部
　　１４　スピーカー
　　２０　サーバ
　　３０　外部機器
　１００　ローカル端末
　２００　リモート端末
　１０１，２０１　画像入力部
　１０２，２０２　音声入力部
　１０３，２０３　画像認識部
　１０４，２０４　音声認識部
　１０５，２０５　情報統合部
　１０６，２０６　意味解析部
　１０７，２０７　操作対象端末判定部
　１０８，２０８　アプリケーション実行部
　１０９，２０９　通信部
　１１０．２１０　応答情報生成部
　１１１，２１１　音声合成部
　１１２，２１２　画像表示部
　１１３，２１３　音声出力部
　５０１　ＣＰＵ
　５０２　ＲＯＭ
　５０３　ＲＡＭ
　５０４　バス
　５０５　入出力インタフェース
　５０６　入力部
　５０７　出力部
　５０８　記憶部
　５０９　通信部
　５１０　ドライブ
　５１１　リムーバブルメディア

Claims

　ユーザ発話の意味解析処理を実行する意味解析部と、
　前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する操作対象端末判定部を有する情報処理装置。
　前記操作対象端末判定部は、
　ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であるか、
　前記ローカル端末と通信中のリモート端末に対する処理要求であるかを判定する請求項１に記載の情報処理装置。
　前記操作対象端末判定部は、
　前記ユーザ発話に前記リモート端末のある遠隔地を示す表現、または前記リモート端末のある遠隔地にいるリモート側ユーザを示す表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する請求項２に記載の情報処理装置。
　前記操作対象端末判定部は、さらに、
　前記ユーザ発話に端末の実行可能な処理に対応する表現が含まれるか否かを検証し、検証結果に従って前記ユーザ発話が、リモート端末に対する処理要求であるか否かを判定する請求項３に記載の情報処理装置。
　前記操作対象端末判定部は、
　前記ユーザ発話の実行ユーザの顔方向、または視線方向に基づいて、前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定する請求項１に記載の情報処理装置。
　前記操作対象端末判定部は、
　前記ユーザ発話が、該ユーザ発話が入力された情報処理装置であるローカル端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果に基づく処理をアプリケーション実行部に実行させ、
　前記ユーザ発話が、該ユーザ発話が入力された情報処理装置以外のリモート端末に対する処理要求であると判定した場合、前記意味解析部における意味解析結果を、通信部を介して前記リモート端末に送信する請求項１に記載の情報処理装置。
　前記情報処理装置は、
　撮影画像を入力する画像入力部と、
　取得音声を入力する音声入力部と、
　画像入力部の入力画像と、音声取得部の取得音声を、リモート端末に送信する通信部を有する請求項１に記載の情報処理装置。
　前記情報処理装置は、さらに、
　リモート端末から、リモート端末側のユーザ発話の意味解析結果を受信する通信部と、
　前記通信部を介して受信したリモート端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する請求項１に記載の情報処理装置。
　前記情報処理装置は、
　入力情報に基づく人識別処理を実行する入力情報認識部と、
　前記入力情報認識部における人識別結果に応じて、出力情報を制御する出力制御部を有する請求項１に記載の情報処理装置。
　前記入力情報認識部は、
　画像入力部から入力する画像を解析して人識別を実行する画像認識部、または、
　音声入力部から入力する音声を解析して人識別を実行する音声認識部の少なくともいずれかである請求項９に記載の情報処理装置。
　ローカル端末とリモート端末を有する情報処理システムであり、
　前記ローカル端末は、
　前記ローカル端末に入力されたユーザ発話の意味解析処理を実行する意味解析部と、
　前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定部と、
　前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する通信部を有し、
　前記リモート端末は、
　前記ローカル端末側のユーザ発話の意味解析結果を受信する通信部と、
　前記通信部を介して受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行するアプリケーション実行部を有する情報処理システム。
　前記ローカル端末および前記リモート端末は、
　相互に撮影画像と取得音声を送受信する構成である請求項１１に記載の情報処理システム。
　情報処理装置において実行する情報処理方法であり、
　意味解析部が、ユーザ発話の意味解析処理を実行し、
　操作対象端末判定部が、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する情報処理方法。
　ローカル端末とリモート端末を有する情報処理システムにおいて実行する情報処理方法であり、
　前記ローカル端末が、
　前記ローカル端末に入力されたユーザ発話の意味解析処理と、
　前記意味解析処理の意味解析結果に基づいて前記ユーザ発話が前記リモート端末に対する処理要求であるか否かを判定する操作対象端末判定処理と、
　前記ユーザ発話が、前記リモート端末に対する処理要求であると判定した場合は、前記意味解析部における意味解析結果を、前記リモート端末に送信する処理を実行し、
　前記リモート端末が、
　前記ローカル端末側のユーザ発話の意味解析結果を受信し、
　受信したローカル端末側のユーザ発話の意味解析結果に基づく処理を実行する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　意味解析部に、ユーザ発話の意味解析処理を実行させ、
　操作対象端末判定部に、前記意味解析部の生成した意味解析結果に基づいて前記ユーザ発話が情報処理装置に対する処理要求であるか否かを判定し、さらに、前記ユーザ発話が情報処理装置に対する処理要求である場合には、どの情報処理装置に対する処理要求であるかを判定する処理を実行させるプログラム。