WO2021140816A1

WO2021140816A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: WO2021140816A1
Application number: PCT/JP2020/045667
Authority: WO
Inventors: 加奈西川
Original assignee: ソニーグループ株式会社
Priority date: 2020-01-07
Filing date: 2020-12-08
Publication date: 2021-07-15
Also published as: JP2021110768A

Abstract

ユーザ発話を入力した装置以外の装置においてユーザ発話に応じた処理を実行させることを可能とした装置、方法を実現する。データ処理部は、ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、ユーザ発話の解析を実行してユーザ発話解釈データを生成し、生成したユーザ発話解釈データを変換して、第２情報処理装置が理解可能な変換データを生成して第２情報処理装置に送信する。ユーザ発話解釈データは、ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有し、データ処理部はインテントとスロットを含むユーザ発話解釈データを、第２情報処理装置が理解可能なインテントとスロットを含むデータに変換する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理や応答を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。
　この音声対話システムにおいては、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。

　例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
　システム発話＝「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
　このようなシステム発話を出力する。

　このように、ユーザとの対話を行なう情報処理装置は、エージェント装置やスマートスピーカーと呼ばれる。
　なお、ユーザとの対話を行なうエージェント装置について開示した従来技術として、例えば特許文献１（特開２００８－０９０５４５号公報）、特許文献２（特開２０１８－０８１４４４号公報）等がある。

　近年は、様々なメーカーが安価なエージェント装置を提供しており、家に複数台のエージェント装置を有するユーザも多い。
　しかし、個別のエージェント装置は、ユーザが要求する処理の全てを実行できるわけでなく、各々、得意とする処理が限定されている。例えばユーザからのリクエストに応じて家の中のテレビやエアコンの制御を行なうエージェント装置Ａや、ニュースや天気情報の情報提供処理を得意とするエージェント装置Ｂや、レストラン検索や、食事のデリバリサービスの依頼処理等を得意とするエージェント装置Ｃ等、様々である。

　例えば、上記の得意とする処理が異なる複数のエージェント装置Ａ，Ｂ，Ｃを有しているユーザが、食事のデリバリサービスを依頼するために、
　「おいしいピザを注文して」
　と発話する場合、レストラン検索や、食事のデリバリサービスの依頼処理等を得意とするエージェント装置Ｃに対して発話を行なうことが必要となる。
　その他のエージェント装置Ａ，Ｂに対して、上記のユーザ発話を行なっても、ユーザの依頼は実行されないという問題がある。

特開２００８－０９０５４５号公報特開２０１８－０８１４４４号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザがある１つのエージェント装置に対して行った発話に対する処理を他のエージェント装置に実行させることを可能として、ユーザ負担の軽減を実現する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　ユーザ発話を入力する音声入力部と、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理部を有し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する情報処理装置にある。

　さらに、本開示の第２の側面は、
　複数の情報処理装置を有する情報処理システムであり、
　第１情報処理装置は、
　ユーザ発話を入力する音声入力部と、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理部を有し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信し、
　前記第２情報処理装置は、
　前記第１情報処理装置から受信する前記変換データに基づいて、前記ユーザ発話に対応した処理を実行する情報処理システムにある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　音声入力部が、ユーザ発話を入力し、
　データ処理部が、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理を実行し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する情報処理方法にある。

　さらに、本開示の第４の側面は、
　複数の情報処理装置を有する情報処理システムにおいて実行する情報処理方法であり、
　第１情報処理装置が、
　入力したユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成し、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する処理を実行し、
　前記第２情報処理装置が、
　前記第１情報処理装置から受信する前記変換データに基づいて、前記ユーザ発話に対応した処理を実行する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　前記プログラムは、データ処理部に、
　ユーザ発話の解析を実行してユーザ発話解釈データを生成させ、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成させ、前記第２情報処理装置に送信させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、ユーザ発話を入力した装置以外の装置においてユーザ発話に応じた処理を実行させることを可能とした装置、方法が実現される。
　具体的には、例えば、ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、ユーザ発話の解析を実行してユーザ発話解釈データを生成し、生成したユーザ発話解釈データを変換して、第２情報処理装置が理解可能な変換データを生成して第２情報処理装置に送信する。ユーザ発話解釈データは、ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有し、データ処理部はインテントとスロットを含むユーザ発話解釈データを、第２情報処理装置が理解可能なインテントとスロットを含むデータに変換する。
　本構成により、ユーザ発話を入力した装置以外の装置においてユーザ発話に応じた処理を実行させることを可能とした装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ユーザ発話に基づく応答や処理を行う情報処理装置であるエージェント装置の例について説明する図である。複数のエージェント装置の利用例と問題点について説明する図である。複数のエージェント装置の利用例と問題点について説明する図である。本開示のエージェント装置の実行する処理の具体例について説明する図である。マッピングデータの一例について説明する図である。複数のエージェント装置を利用した処理のシーケンスについて説明する図である。複数のエージェント装置を利用した処理のシーケンスについて説明する図である。エージェント装置リストの具体例について説明する図である。１台のエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ａ以外の様々なエージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）の対応データの例を示す図である。図９（５）に示す例に対応するエージェント装置Ａ，１０の具体的処理例を説明する図である。エージェント装置の実行する処理シーケンスについて説明するフローチャートを示す図である。エージェント装置の実行する処理シーケンスについて説明するフローチャートを示す図である。エージェント装置の実行する処理シーケンスについて説明するフローチャートを示す図である。エージェント装置の実行する処理シーケンスについて説明するフローチャートを示す図である。記憶部に記録される対話履歴情報（コンテキスト）のデータ例を示す図である。記憶部に記録される対話履歴情報（コンテキスト）のデータ例を示す図である。３台以上のエージェント装置を利用したシステム構成例について説明する図である。本開示の情報処理装置であるエージェント装置の構成例について説明する図である。本開示の情報処理装置であるエージェント装置の構成例と利用例について説明する図である。本開示の情報処理装置であるエージェント装置等のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．エージェント装置の概要について
　２．複数台のエージェント装置の利用例と問題点について
　３．本開示の情報処理装置（エージェント装置）の実行する処理について
　４．複数のエージェント装置を利用した処理のシーケンスについて
　５．エージェント装置各々の異なるユーザ発話解釈データの例について
　６．エージェント装置の実行する処理フローについて
　７．処理を実行するためのデータが不足している場合の処理例について
　８．複数のユーザ発話の管理処理例について
　９．その他の実施例について
　１０．エージェント装置（情報処理装置）の構成例について
　１１．エージェント装置（情報処理装置）のハードウェア構成例について
　１２．本開示の構成のまとめ

　　［１．エージェント装置の概要について］
　まず、図１以下を参照して、本開示の情報処理装置に相当するエージェント装置の概要についてについて説明する。

　図１は、ユーザ１の発するユーザ発話を認識して応答を行うエージェント装置１０の一処理例を示す図である。
　エージェント装置１０は、ユーザの発話、例えば、
　ユーザ発話＝「大阪の明日、午後の天気を教えて」
　このユーザ発話の音声認識処理を実行する。

　さらに、エージェント装置１０は、ユーザ発話の音声認識結果に基づく処理を実行する。
　図１に示す例では、ユーザ発話＝「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー１４を介して出力する。
　図１に示す例では、エージェント装置１０は、以下のシステム応答を行っている。
　システム応答＝「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
　エージェント装置１０は、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行して上記のシステム応答を生成して出力する。

　エージェント装置１０は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
　図１に示すエージェント装置１０は、カメラ１１、マイク１２、表示部１３、スピーカー１４を有しており、音声入出力と画像入出力が可能な構成を有する。

　なお、ユーザ発話に対する音声認識処理や意味解析処理は、エージェント装置１０内で行ってもよいし、クラウド側のサーバにおいて実行する構成としもよい。

　エージェント装置１０は、ユーザ１の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じた様々な処理、例えば、家の中のテレビ、エアコン等の外部機器の制御も実行する。
　例えばユーザ発話が「テレビのチャンネルを１に変えて」、あるいは「エアコンの設定温度を２０度にして」といった要求である場合、エージェント装置１０は、このユーザ発話の音声認識結果に基づいて、外部機器に対して制御信号（Ｗｉ－Ｆｉ、赤外光など）を出力して、ユーザ発話に従った制御を実行する。

　　［２．複数台のエージェント装置の利用例と問題点について］
　次に、複数台のエージェント装置の利用例と問題点について説明する。

　近年は、様々なメーカーが安価なエージェント装置を提供しており、家に複数台のエージェント装置を有するユーザも多い。
　しかし、前述したように、個別のエージェント装置は、ユーザが要求する処理の全てを実行できるわけでなく、各々、得意とする処理が限定されている。例えばユーザからのリクエストに応じて家の中のテレビやエアコンの制御を行なうエージェント装置Ａや、ニュースや天気情報の情報提供処理を得意とするエージェント装置Ｂや、レストラン検索や、食事のデリバリサービスの依頼処理等を得意とするエージェント装置Ｃ等、様々である。

　図２以下を参照して、複数のエージェント装置を所有するユーザによるエージェント装置の利用例と問題点について説明する。

　図２に示すように、家の２階にユーザ１がいる。ユーザのいる２階にエージェント装置Ａ，１０が置いてあり、１階に別のエージェント装置Ｂ，２０が置いてある。
　２階のエージェント装置Ａ，１０は、実行可能な主要機能がニュースや天気情報、交通情報等の様々な情報提供処理である。
　一方、１階のエージェント装置Ｂ，２０は、実行可能な主要機能が家の中の電気製品（テレビ、エアコン等）の制御や、レストラン検索、宅配（デリバリ）サービスの依頼等である。

　このような特性の異なる２台のエージェント装置がそれぞれ１階と２階に置いてある。
　ここで、図３に示すように、２階にいるユーザ１が、目の前のエージェント装置Ａ，１０に対して、以下のようなユーザ発話を行なったとする。
　「ピザ注文したいです。１２：００に配達で、マルゲリータお願い」

　このユーザ発話は、ユーザ１の前にあるエージェント装置Ａ，１０のマイクを介してエージェント装置Ａ，１０に入力される。
　エージェント装置Ａ，１０は、ユーザ発話の音声解析を実行して、ユーザの要求を理解するが、エージェント装置Ａ，１０には宅配（デリバリ）サービスの依頼機能がない。この結果、図３に示すように、エージェント装置Ａ，１０は、例えば、ユーザ１に対して、以下のシステム発話を行なう。
　「申し訳ありません。実行できません」

　このように、宅配（デリバリ）サービスの依頼機能がないエージェント装置Ａ，１０に対して、ピザ注文の要求発話を行なっても処理が行われない。
　この結果、ユーザ１は、宅配（デリバリ）サービスの依頼機能があるエージェント装置Ｂ，２０のある１階に移動して、エージェント装置Ｂ，２０に対して、上記のユーザ発話を、再度、行なわなければならない。
　本開示の情報処理装置（エージェント装置）は、このようなユーザ負担を解消するものである。

　　［３．本開示の情報処理装置（エージェント装置）の実行する処理について］
　次に、本開示の情報処理装置（エージェント装置）の実行する処理について説明する。

　図４を参照して、本開示のエージェント装置の実行する処理の概要について説明する。
　図４には、先に図２、図３を参照して説明したと同様の設定を示している。すなわち、家の２階にユーザ１がおり、同じ２階にエージェント装置Ａ，１０があり、１階に別のエージェント装置Ｂ，２０が置いてある。
　２階のエージェント装置Ａ，１０は、実行可能な主要機能がニュースや天気情報、交通情報等の様々な情報提供処理である。
　一方、１階のエージェント装置Ｂ，２０は、実行可能な主要機能が家の中の電気製品（テレビ、エアコン等）の制御や、レストラン検索、宅配（デリバリ）サービスの依頼等である。
　このような特性の異なる２台のエージェント装置がそれぞれ１階と２階においてある。

　ここで、図４に示すように、２階にいるユーザ１が、目の前のエージェント装置Ａ，１０に対して、以下のようなユーザ発話を行なったとする。
　「ピザ注文したいです。１２：００に配達で、マルゲリータお願い」

　このユーザ発話は、ユーザ１の前にあるエージェント装置Ａ，１０のマイクを介してエージェント装置Ａ，１０に入力される。
　エージェント装置Ａ，１０は、ユーザ発話の音声解析を実行して、ユーザの要求を理解する。
　この処理は、図４に示す（ステップＳ０１）の処理である。

　図４に示す（ステップＳ０１）において、エージェント装置Ａ，１０は、ユーザ発話に対する音声認識処理や意味解析処理や対話状態推定処理を行なって、ユーザ発話を解釈する。
　エージェント装置Ａ，１０は、ユーザ発話の解釈結果として、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である要素情報（スロット：Ｓｌｏｔ）を推定する。
　なお、このインテントやスロットの推定処理は、エージェント装置Ａ，１０固有のユーザ発話解釈アルゴリズムに従って実行される。

　図４に示すエージェント装置Ａ，１０は、（ステップＳ０１）において、例えば以下のユーザ発話解釈データを生成する。
　（インテントａ）配達
　（スロットａ１）配達時刻＝１２：００
　（スロットａ２）食べ物＝ピザ
　（スロットａ３）種類＝マルゲリータ

　エージェント装置Ａ，１０は、上記のユーザ発話解釈データに基づいて、ユーザ１が、ピザ（マルゲリータ）の配達依頼を要求していることを理解する。
　しかし、エージェント装置Ａ，１０は、ピザの配達依頼機能を有していない。

　この場合、本開示のエージェント装置Ａ，１０は、ピザの配達依頼機能を有している他のエージェント装置に対して、ユーザ発話解釈データを転送する。
　図４に示す例では、１階のエージェント装置Ｂ，２０に対して、ユーザ発話解釈データを転送する。

　ただし、エージェント装置Ａ，１０が上記の（ステップＳ０１）で生成したユーザ発話解釈データ（インテントａ、スロットａ）をそのままエージェント装置Ｂ，２０に転送しても、エージェント装置Ｂ，２０は、これらのユーザ発話解釈データ（インテントａ、スロットａ）に基づく処理の実行、すなわちピザの注文処理を実行することができない場合がある。

　この理由は、エージェント装置Ａ，１０の実行するユーザ発話解釈処理アルゴリズムＡと、エージェント装置Ｂ，２０の実行するユーザ発話解釈処理アルゴリズムＢとが異なる場合があるからである。

　エージェント装置Ａ，１０は、エージェント装置Ａ，１０のユーザ発話解釈処理アルゴリズムＡに従ってユーザ発話解釈データＡ（インテントａ、スロットａ）を生成し、ユーザ発話解釈処理アルゴリズムＡに従ったユーザ発話解釈データＡ（インテントａ、スロットａ）に従って処理（例えばユーザに対する応答等）を実行する。

　一方、エージェント装置Ｂ，２０は、エージェント装置Ｂ，２０のユーザ発話解釈処理アルゴリズムＢに従ってユーザ発話解釈データＢ（インテントｂ、スロットｂ）を生成し、ユーザ発話解釈処理アルゴリズムＢに従ったユーザ発話解釈データＢ（インテントｂ、スロットｂ）に従って処理を実行する。

　従って、エージェント装置Ｂ，２０に対して、エージェント装置Ａ，１０が生成したユーザ発話解釈処理アルゴリズムＡに従ったユーザ発話解釈データＡ（インテントａ、スロットａ）を送信しても、エージェント装置Ｂ，２０は、ユーザ発話解釈データＡ（インテントａ、スロットａ）に基づく正しい処理（ユーザ要求に従った処理）を実行できない可能性がある。

　そこで、エージェント装置Ａ，１０は、図４に示す（ステップＳ０２）の処理を実行する。
　エージェント装置Ａ，１０は、（ステップＳ０２）において、（ステップＳ０１）で生成したユーザ発話解釈データＡ（インテントａ、スロットａ）を、エージェント装置Ｂ，２０が理解可能なユーザ発話解釈データＢ（インテントｂ、スロットｂ）に変換する処理（マッピング処理）を実行する。

　ユーザ発話解釈データＢ（インテントｂ、スロットｂ）は、エージェント装置Ｂ，２０の実行するユーザ発話解釈処理アルゴリズムＢに従って生成されるユーザ発話解釈データ（インテントｂ、スロットｂ）に相当する。

　エージェント装置Ａ，１０は、このデータ変換に必要なマッピングデータを記憶部に保持しており、このマッピングデータを参照して、（ステップＳ０１）で生成したユーザ発話解釈データＡ（インテントａ、スロットａ）を、エージェント装置Ｂ，２０が理解可能なユーザ発話解釈データＢ（インテントｂ、スロットｂ）に変換する処理（マッピング処理）を実行する。

　具体的には、例えば、エージェント装置Ａ，１０は、図４（ステップＳ０２）に示す以下の変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））を生成する。
　（インテントｂ）ピザ注文
　（スロットｂ１）配達時刻＝１２：００
　（スロットｂ２）種類＝マルゲリータ

　この変換データは、エージェント装置Ａ，１０の記憶部に格納されたマッピングデータ、具体的には、例えば図５に示すようなマッピングデータを参照して実行される。

　なお、上記変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））は、エージェント装置Ｂ，２０が、以下のユーザ発話、すなわち、
　「ピザ注文したいです。１２：００に配達で、マルゲリータお願い」
　上記ユーザ発話を直接、入力した場合にエージェント装置Ｂ，２０が実行するユーザ発話解釈処理アルゴリズムＢに従って生成するユーザ発話解釈データＢ（インテントｂ、スロットｂ）に相当する。

　エージェント装置Ａ，１０の記憶部に格納されているマッピングデータの例を図５に示す。
　図５に示すように、マッピングデータは、以下のデータを対応付けて登録した構成を有する。
　（Ａ）エージェント装置Ａ，１０が実行するユーザ発話解釈処理アルゴリズムＡに従って生成するユーザ発話解釈データＡ（インテントａ、スロットａ）、
　（Ｂ）エージェント装置Ｂ，２０が処理を実行するために必要となるユーザ発話解釈データＢ（インテントｂ、スロットｂ）
　なお、上記データ（Ｂ）は、エージェント装置Ｂ，２０のＡＰＩ（Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ）を適用して、エージェント装置Ｂに処理を実行させることが可能なデータに相当する。
　例えば、エージェント装置Ｂ，２０、またはエージェント装置Ｂ，２０の管理サーバ等が提供するＡＰＩが入力データとして許容したデータである。

　次に、エージェント装置Ａ，１０は、（ステップＳ０３）において、（ステップＳ０２）で生成した変換データ、
　（インテントｂ）ピザ注文
　（スロットｂ１）配達時刻＝１２：００
　（スロットｂ２）種類＝マルゲリータ
　この変換データを、通信部を介して、１階のエージェント装置Ｂ，２０に送信する。
　例えば、エージェント装置Ａ，１０は、ステップＳ０２で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））を、エージェント装置Ｂ，２０、またはエージェント装置Ｂ，２０の管理サーバ等が提供するＡＰＩを利用した処理（ＡＰＩのＣａｌｌ処理）により、エージェント装置Ｂ，２０に入力することができる。

　１階のエージェント装置Ｂ，２０は、２階のエージェント装置Ａ，１０から上記の変換データを受信する。
　エージェント装置Ｂ，２０は、（ステップＳ０４）において、エージェント装置Ａ，１０から受信した変換データに基づく処理を実行する。
　すなわち、ユーザの要求に従ってピザを注文する処理を行なう。

　エージェント装置Ａ，１０から受信した変換データは、エージェント装置Ｂ，２０が、以下のユーザ発話、すなわち、
　「ピザ注文したいです。１２：００に配達で、マルゲリータお願い」
　上記ユーザ発話を直接、入力した場合にエージェント装置Ｂ，２０が実行するユーザ発話解釈処理アルゴリズムＢに従って生成するユーザ発話解釈データＢ（インテントｂ、スロットｂ）と同じである。
　従って、エージェント装置Ｂ，２０は、ユーザ１から上記ユーザ発話を直接、入力した場合と同様、正確にユーザ１の意図を理解して正確な処理を実行することが可能となる。

　また、エージェント装置Ｂ，２０では、ユーザ発話に対する音声認識処理や意味解析処理や対話状態推定処理等のユーザ発話解釈処理を行なう必要がなく、処理が遅延することなくスムーズに処理を行なうことが可能となる。

　　［４．複数のエージェント装置を利用した処理のシーケンスについて］
　次に、複数のエージェント装置を利用した処理のシーケンスについて説明する。

　図６、図７を参照して複数のエージェント装置を利用した処理のシーケンスについて説明する。
　図６、図７には、左から、
　（１）ユーザ発話を行なうユーザ、
　（２）エージェント装置Ａ，１０、
　（３）エージェント装置Ｂ，２０、
　これらを示している。
　図６、図７に示すステップＳ２１～Ｓ２７の順番に処理が実行される。
　以下、各ステップの処理について、順次、説明する。

　　（ステップＳ２１）
　まず、ステップＳ２１において、ユーザ１がエージェント装置Ａ，１０に対して話かけ、ユーザ１とエージェント装置Ａ，１０との間で対話処理が実行される。

　　（ステップＳ２２）
　次に、ステップＳ２２において、エージェント装置Ａ，１０は、ステップＳ２１の対話処理で取得したユーザ発話の音声認識処理や意味解析処理や対話状態推定処理によるユーザ発話解釈処理を実行する。

　この処理は、エージェント装置Ａ，１０のデータ処理部（音声解析部）が実行するユーザ発話解釈アルゴリズムＡに従って行われる。
　エージェント装置Ａ，１０は、ユーザ発話解釈処理の結果として、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である要素情報（スロット：Ｓｌｏｔ）からなるユーザ発話解釈データＡを生成する。

　具体的には、例えば、先に図４を参照して説明した以下のユーザ発話解釈データＡを生成する。
　（インテントａ）配達
　（スロットａ１）配達時刻＝１２：００
　（スロットａ２）食べ物＝ピザ
　（スロットａ３）種類＝マルゲリータ

　　（ステップＳ２３～Ｓ２４）
　エージェント装置Ａ，１０は、ステップＳ２２で取得したユーザ発話解釈データに基づいて、ユーザ１の要求を処理できるかできないかを判定し、処理が実行できる場合は処理を行なう。
　ただし、このシーケンス図は、エージェント装置Ａ，１０がユーザ１の要求を処理できないと判定した場合のシーケンスを示している。

　例えば、エージェント装置Ａ，１０は、ステップＳ２２で取得したユーザ発話解釈データに基づいて、ユーザ１が、ピザ（マルゲリータ）の配達依頼を要求していることを理解するが、エージェント装置Ａ，１０は、ピザの配達依頼機能を有していない。

　この場合、エージェント装置Ａ，１０は、ステップＳ２３において、以下のシステム発話を出力する。
　「処理できません」
　ユーザ１は、このシステム応答に対して、以下のユーザ発話を行なう。
　「エージェント装置Ｂに転送して」
　エージェント装置Ａ，１０は、このユーザ発話を解釈し、ユーザ要求に従ってユーザ要求をエージェント装置Ｂに転送するための処理を行なう。
　すなわち、図７に示すステップＳ２５以下の処理を行なう。

　なお、図６に示すシーケンス図では、ステップＳ２３～Ｓ２４で、エージェント装置Ａ，１０が、ユーザ要求を処理できないことをユーザ１に伝え、ユーザ１が応答としてエージェント装置Ｂに転送する要求を行なった例を示している。

　このようなユーザとの対話処理を行なうことなく、エージェント装置Ａ，１０がユーザ要求を処理できる通信可能な他のエージェント装置を、自ら検索して、検索されたエージェント装置にユーザ要求を転送する処理を行なう構成としてもよい。

　ただし、この処理を行なう場合、エージェント装置Ａ，１０の記憶部には、例えば、図８に示すようなエージェント装置リストを保持することが必要である。このリストを参照して、ユーザ要求転送先のエージェント装置を選択する。

　図８に示すエージェント装置リストは、通信可能な他のエージェント装置の識別子、エージェント装置の機能、通信用アドレスを対応付けて記録したエージェント装置リストである。
　エージェント装置Ａ，１０は、エージェント装置Ａ，１０の記憶部に格納された図８に示すエージェント装置リストを参照してユーザ要求転送先のエージェント装置を選択する処理を行なう構成としてもよい。

　　（ステップＳ２５）
　ユーザ要求転送先のエージェント装置が決定されると、エージェント装置Ａ，１０はステップＳ２５の処理を実行する。
　なお、ユーザ要求転送先のエージェント装置はエージェント装置Ｂ，２０であるとする。

　エージェント装置Ａ，１０は、ステップＳ２５において、ステップＳ２２で生成した「ユーザ発話解釈データＡ」を、エージェント装置Ｂ，２０が理解可能な「ユーザ発話解釈データＢ」に変換（マッピング）する処理を行なう。
　すなわち、エージェント装置Ｂ，２０が処理を実行するために必要となるユーザ発話解釈データＢ（インテント、スロット）に変換（マッピング）する処理を行なう。

　先に、図４を参照して説明したように、エージェント装置Ｂ，２０は、エージェント装置Ｂ，２０のユーザ発話解釈処理アルゴリズムＢに従ってユーザ発話解釈データ（インテントｂ、スロットｂ）を生成し、生成したユーザ発話解釈データＢ（インテントｂ、スロットｂ）に従って処理を実行する。
　従って、エージェント装置Ｂ，２０に対して、エージェント装置Ａ，１０が生成したユーザ発話解釈処理アルゴリズムＡに従ったユーザ発話解釈データＡ（インテントａ、スロットａ）を送信しても、エージェント装置Ｂ，２０は、正しい処理（ユーザ要求に従った処理）を実行できない可能性がある。

　このような事態を避けるため、エージェント装置Ａ，１０は、ステップＳ２５において、ステップＳ２２で生成した「ユーザ発話解釈データＡ」を、エージェント装置Ｂ，２０が理解可能な「ユーザ発話解釈データＢ」に変換（マッピング）する処理を行なう。
　すなわち、エージェント装置Ｂ，２０が処理を実行するために必要となるユーザ発話解釈データＢ（インテント、スロット）を生成する処理を行なう。

　エージェント装置Ａ，１０は、このマッピング処理に適用するマッピング用対応データを記憶部に格納し、このマッピング用対応データを参照して、「ユーザ発話解釈データＡ」を、「ユーザ発話解釈データＢ」に変換する処理を行なう。
　記憶部に格納されたマッピング用対応データは、
　「ユーザ発話解釈データＡを構成するインテント、スロット」と、
　「ユーザ発話解釈データＢを構成するテンテント、スロット」との対応データによって構成される。

　エージェント装置Ａ，１０は、ステップＳ２５において、記憶部に格納されたマッピング用対応データを参照して、ステップＳ２２で生成した「ユーザ発話解釈データＡ」を、エージェント装置Ｂ，２０が理解可能な「ユーザ発話解釈データＢ」に変換（マッピング）する処理を行なう。

　具体的には、例えば先に図４を参照して説明したように、図４（ステップＳ０２）に示す以下の変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））を生成する。
　（インテントｂ）ピザ注文
　（スロットｂ１）配達時刻＝１２：００
　（スロットｂ２）種類＝マルゲリータ

　上記変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））は、エージェント装置Ｂ，２０が、以下のユーザ発話、すなわち、
　「ピザ注文したいです。１２：００に配達で、マルゲリータお願い」
　上記ユーザ発話を直接、入力した場合にエージェント装置Ｂ，２０が実行するユーザ発話解釈処理アルゴリズムＢに従って生成するユーザ発話解釈データＢ（インテントｂ、スロットｂ）に相当する。

　　（ステップＳ２６）
　次に、エージェント装置Ａ，１０は、ステップＳ２６において、ステップＳ２５で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））をエージェント装置Ｂ，２０に送信する。

　なお、ステップＳ２５においてエージェント装置Ａ，１０が生成する変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））は、例えば、エージェント装置Ｂ，２０、またはエージェント装置Ｂ，２０の管理サーバ等が提供するＡＰＩ（Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ）が入力データとして許容したデータである。
　エージェント装置Ａ，１０は、ステップＳ２５で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））をこのＡＰＩを利用した処理（ＡＰＩのＣａｌｌ処理）により、エージェント装置Ｂ，２０に入力することができる。

　　（ステップＳ２７）
　ステップＳ２６で、エージェント装置Ａ，１０から、変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））を入力したエージェント装置Ｂ，２０は、次に、ステップＳ２７において、入力変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））に基く処理を実行する。

　先に図４を参照して説明した実施例の場合、例えば、エージェント装置Ａ，１０から受信する変換データは、エージェント装置Ｂ，２０が、以下のユーザ発話、すなわち、
　「ピザ注文したいです。１２：００に配達で、マルゲリータお願い」
　上記ユーザ発話を直接、入力した場合にエージェント装置Ｂ，２０が実行するユーザ発話解釈処理アルゴリズムＢに従って生成するユーザ発話解釈データＢ（インテントｂ、スロットｂ）と同じである。
　従って、エージェント装置Ｂ，２０は、ユーザ１から上記ユーザ発話を直接、入力した場合と同様、正確にユーザ１の意図を理解して正確な処理を実行することが可能となる。

　　［５．エージェント装置各々の異なるユーザ発話解釈データの例について］
　次に、エージェント装置各々の異なるユーザ発話解釈データの例について説明する。

　上述したように、エージェント装置の各々が実行するユーザ発話解釈処理アルゴリズムは、エージェント装置の種類に応じて異なる場合が多い。

　例えば、３台のエージェント装置Ａ～Ｃに対して、同一のユーザ発話を入力しても、各エージェント装置が実行するユーザ発話解釈処理アルゴリズムが異なると、各エージェント装置Ａ～Ｃが生成するユーザ発話解釈データ（インテント、スロット）は異なる場合がある。

　図９に、様々なユーザ発話に対して、ある１台のエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ａ以外の様々なエージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）の対応データの例を示す。
　なお、エージェント装置Ｘは、１台のエージェント装置ではなく、エージェント装置Ａと異なる様々なエージェント装置である。

　図９に示す（１）は、
　ユーザ発話＝「洗濯機のタイマーを１２：００に設定して」
　上記のユーザ発話に対するエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）の対応データを示している。
　この（１）の例は、これら２つのエージェント装置Ａ，Ｘ対応のインテント、スロットは、以下のように同一である。
　（インテント）洗濯機タイマー設定
　（スロット）開始時間＝１２：００

　この（１）の例の場合、エージェント装置Ａが、ユーザ発話解釈アルゴリズムＡを適用して生成したユーザ発話解釈データＡ（インテント、スロット）を、変換することなく、そのまま、エージェント装置Ｘ対応のＡＰＩを介してエージェント装置Ｘに入力することで、エージェント装置Ｘに、ユーザ発話に従った正しい処理を実行させることができる。

　図９に示す（２），（３）は、（１）と同様、
　ユーザ発話＝「洗濯機のタイマーを１２：００に設定して」
　上記のユーザ発話に対するエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）の対応データを示している。
　（２）の例は、エージェント装置Ａ，Ｘ対応のインテント、スロットが完全に一致しないが、類似する例である。
　（３）の例は、エージェント装置Ａ，Ｘ対応のインテントは一致するが、スロットの数が一致しない例である。

　これらの場合、エージェント装置Ａが、ユーザ発話解釈アルゴリズムＡを適用して生成したユーザ発話解釈データＡ（インテント、スロット）を変換することなく、そのまま、エージェント装置Ｘ対応のＡＰＩを介してエージェント装置Ｘに入力した場合、エージェント装置Ｘがユーザ発話に従った正しい処理を実行できない可能性がある。

　このような場合、エージェント装置Ａは、ユーザ発話解釈アルゴリズムＡを適用して生成したユーザ発話解釈データＡ（インテント、スロット）を変換して、図９の（２），（３）の各エントリのユーザ発話解釈データＸ（インテント、スロット）に相当する変換データを生成して、エージェント装置Ｘ対応のＡＰＩを介してエージェント装置Ｘに入力することが必要となる。
　このような変換データ生成、入力処理を行なうことで、エージェント装置Ｘにユーザ発話に従った正しい処理を実行させることが可能となる。

　図９（４），（５）は、あるユーザ発話に対してエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）とが異なる例である。
　これらは、エージェント装置Ａが生成するインテントが、エージェント装置Ｘが処理を実行するために必要となるインテントの下位データである例である。

　図９（６），（７）も、あるユーザ発話に対してエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）とが異なる例である。
　これらは、エージェント装置Ａが生成するインテントが、エージェント装置Ｘが処理を実行するために必要となるインテントの上位データである例である。

　これら（４）～（７）の例の設定の場合にも、エージェント装置Ａは、ユーザ発話解釈アルゴリズムＡを適用して生成したユーザ発話解釈データＡ（インテント、スロット）を変換して、図９の（４）～（７）の各エントリのユーザ発話解釈データＸ（インテント、スロット）に相当する変換データを生成して、エージェント装置Ｘ対応のＡＰＩを介してエージェント装置Ｘに入力することが必要となる。
　このような変換データ生成、入力処理を行なうことで、エージェント装置Ｘにユーザ発話に従った正しい処理を実行させることが可能となる。

　なお、図９（６），（７）に示す例では、エージェント装置Ｘが処理を実行するために必要となるスロットに、ユーザ発話に含まれない時間情報が設定されている。
　このように、エージェント装置Ｘが処理を実行するために必要となるスロットに、ユーザ発話に含まれない情報が含まれる場合には、エージェントＡは、エージェント装置Ｘが処理を実行するために必要となるスロットに相当する情報を取得するためにユーザに質問する等の処理を行なう。
　この処理例については後段で説明する。

　図１０は、図９（５）に示す例に対応するエージェント装置Ａ，１０の具体的処理例を説明する図である。

　図１０に示すステップＳ２１～Ｓ２７の各ステップは、先に説明した図６、図７のシーケンス図に示すステップＳ２１～Ｓ２７の各ステップに対応する。

　まず、ステップＳ２１において、ユーザ１とエージェント装置Ａ，１０との間で対話処理が実行され、ユーザ１が、以下のユーザ発話を実行する。
　ユーザ発話＝「和食店を検索して、大崎で１７：００から開いているところ」

　次に、ステップＳ２２において、エージェント装置Ａ，１０は、ステップＳ２１の対話処理で取得したユーザ発話の音声認識処理や意味解析処理や対話状態推定処理によるユーザ発話解釈処理を実行する。

　この処理は、エージェント装置Ａ，１０のデータ処理部（音声解析部）が実行するユーザ発話解釈アルゴリズムＡに従って行われる。
　エージェント装置Ａ，１０は、ユーザ発話解釈処理の結果として、以下のユーザ発話解釈データＡを生成する。
　（インテント）和食店検索
　（スロット１）回転時間＝１７：００
　（スロット２）場所＝大崎

　次に、エージェント装置Ａ，１０は、ステップＳ２５において、ステップＳ２２で生成した「ユーザ発話解釈データＡ」を、エージェント装置Ｂ，２０が理解可能な「ユーザ発話解釈データＢ」に変換（マッピング）する処理を行なう。
　すなわち、エージェント装置Ｂ，２０が処理を実行するために必要となるユーザ発話解釈データＢ（インテント、スロット）を生成する処理を行なう。

　エージェント装置Ａ，１０は、ステップＳ２５において、以下の変換データ（ユーザ発話解釈データＢ（インテント、スロット））を生成する。
　（インテント）レストラン検索
　（スロット１）開店時間＝１７：００
　（スロット２）場所＝大崎
　（スロット３）ジャンル＝和食

　次に、エージェント装置Ａ，１０は、ステップＳ２６において、ステップＳ２５で生成した変換データ（ユーザ発話解釈データＢ（インテント、スロット））をエージェント装置Ｂ，２０に送信する。
　例えば、エージェント装置Ｂ，２０、またはエージェント装置Ｂ，２０の管理サーバ等が提供するＡＰＩを利用した処理（ＡＰＩのＣａｌｌ処理）によりエージェント装置Ｂ，２０に入力する。

　ステップＳ２６で、エージェント装置Ａ，１０から、変換データ（ユーザ発話解釈データＢ（インテント、スロット））を入力したエージェント装置Ｂ，２０は、次に、ステップＳ２７において、入力変換データ（ユーザ発話解釈データＢ（インテント、スロット））に基く処理を実行する。

　具体的には、大崎で１７：００から開いている和食店を検索する処理を実行する。
　なお、この処理結果は、エージェント装置Ｂ，２０からエージェント装置Ａ，１０に送信され、エージェント装置Ａ，１０の出力部（表示部、スピーカ）を介してユーザ１に提示される。

　　［６．エージェント装置の実行する処理フローについて］
　次に、エージェント装置の実行する処理フローについて説明する。

　図１１以下のフローチャートを参照して、ユーザと直接、対話を実行するエージェント装置の実行する処理シーケンスについて説明する。
　なお、図１１以下のフローチャートに示す処理のほとんどは、ユーザと直接、対話を実行するエージェント装置、すなわち、図４～図１０を参照して説明した例におけるエージェント装置Ａ，１０の実行する処理である。
　一部は、ユーザと直接、対話をしないエージェント装置、すなわち、図４～図１０を参照して説明した例におけるエージェント装置Ｂ，２０の実行する処理も含まれる。

　図１１以下に示すフローにおいて、ユーザと直接、対話をするエージェント装置Ａ（エージェント装置Ａ，１０に相当）の実行する処理は実線で示しており、ユーザと直接、対話をしないエージェント装置Ｂ（エージェント装置Ｂ，２０に相当）の実行する処理は点線で示している。

　図１１以下に示すフローチャートに従った処理は、エージェント装置Ａの記憶部に格納されたプログラムに従って実行される。例えばプログラム実行機能を有するＣＰＵ等のプロセッサによるプログラム実行処理として実行可能である。

　まず、図１１に示すフローの各ステップの処理について説明する。

　　（ステップＳ１０１）
　まず、ユーザとの直接対話を行なうエージェント装置Ａは、ステップＳ１０１において、ユーザ発話を入力する。

　　（ステップＳ１０２）
　次に、エージェント装置Ａは、ステップＳ１０２において、ステップＳ１０１で入力したユーザ発話の音声認識処理や意味解析処理や対話状態推定処理によるユーザ発話解釈処理を実行する。

　この処理は、エージェント装置Ａのデータ処理部（音声解析部）が実行するユーザ発話解釈アルゴリズムＡに従って行われる。
　なお、このユーザ発話解釈処理においては、エージェント装置Ａの記憶部に格納されたコンテキスト（対話履歴情報）が参照される。エージェント装置Ａの記憶部には、例えばユーザ単位の過去のコンテキスト、すなわち対話履歴情報が格納されている。コンテキストを参照することで、例えばユーザ（Ｕ１）は、料理の話題が多い。あるいはユーザ（Ｕ２）は、車や旅行の話が多いといったデータが取得され、これらのデータに基づいて、ユーザのインテントを高精度に解析することが可能となる。

　　（ステップＳ１０３）
　次に、エージェント装置Ａは、ステップＳ１０３において、ステップＳ１０２におけるユーザ発話解釈処理の結果として、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である要素情報（スロット：Ｓｌｏｔ）からなるユーザ発話解釈データＡを生成する。

　　（ステップＳ１０４～Ｓ１０５）
　次に、エージェント装置Ａは、ステップＳ１０４～Ｓ１０５において、ステップＳ１０３で取得したユーザ発話解釈データに基づいて、エージェント装置Ａ自身でユーザ発話に応じた処理を実行できるかできないかを判定する。
　エージェント装置Ａ自身での処理が可能であると判定した場合はステップＳ１０６に進む。
　一方、エージェント装置Ａ自身での処理が可能でないと判定した場合はステップＳ２０１に進む。

　　（ステップＳ１０６）
　ステップＳ１０５において、ユーザ発話に応じた処理を、エージェント装置Ａ自身で実行可能であると判定した場合はステップＳ１０６に進む。
　この場合、エージェント装置Ａは、ステップＳ１０６において、ユーザ発話に応じた処理を実行する。

　　（ステップＳ１０７）
　ステップＳ１０６において、ユーザ発話に応じた処理を実行した後、エージェント装置Ａは、ステップＳ１０７において、エージェント装置Ａとユーザとの対話履歴情報等のコンテキストを記憶部に格納する。

　次に、ステップＳ１０５において、ユーザ発話に応じた処理を、エージェント装置Ａ自身で実行可能でないと判定した場合の処理について、図１２に示すフローチャートを参照して説明する。

　　（ステップＳ２０１）
　ステップＳ１０５において、ユーザ発話に応じた処理を、エージェント装置Ａ自身で実行可能でないと判定した場合、エージェント装置Ａは、ステップＳ２０１において、ユーザ要求を処理できる通信可能な他のエージェント装置を検索する。

　エージェント装置Ａの記憶部には、例えば、先に説明した図８に示すようなエージェント装置リストを保持し、このリストを参照して、ユーザ要求転送先のエージェント装置を選択する。

　なお、先に図６、図７を参照して説明したシーケンスのステップＳ２３～Ｓ２４のように、エージェント装置Ａがユーザに実行できないことを通知し、ユーザから要求を他のエージェント装置に転送するよう依頼されたことを条件として要求転送処理を開始してもよい。

　　（ステップＳ２０２）
　次に、エージェント装置Ａは、ステップＳ２０２において、ステップＳ２０１における検索処理において、ユーザ要求を処理できる通信可能な他のエージェント装置が検出されたか否かを判定する。
　検出された場合は、ステップＳ２０４に進む。
　一方、検出されなかった場合はステップＳ２０３に進む。

　　（ステップＳ２０３）
　ステップＳ２０２における判定処理において、ユーザ要求を処理できる通信可能な他のエージェント装置が検出されなかったと判定した場合、エージェント装置Ａは、ステップＳ２０３において、ユーザ発話に基づく処理が実行できないことをユーザに伝えるためのシステム発話を生成して、ユーザに向けて出力する。

　　（ステップＳ２０４）
　一方、ステップＳ２０２における判定処理において、ユーザ要求を処理できる通信可能な他のエージェント装置（エージェント装置Ｂ）が検出されたと判定した場合、エージェント装置Ａは、ステップＳ２０４において以下の処理を実行する。

　エージェント装置Ａは、先のステップＳ１０３で生成した「ユーザ発話解釈データＡ」を、ユーザ要求を処理できる通信可能なエージェント装置Ｂが理解可能な「ユーザ発話解釈データＢ」に変換（マッピング）する処理を行なう。
　すなわち、エージェント装置Ｂ，２０が処理を実行するために必要となるユーザ発話解釈データＢ（インテント、スロット）に変換（マッピング）する処理を行なう。

　前述したように、エージェント装置Ａは、このマッピング処理に適用するマッピング用対応データを記憶部に格納し、このマッピング用対応データを参照して、「ユーザ発話解釈データＡ」を、「ユーザ発話解釈データＢ」に変換する処理を行なう。
　記憶部に格納されたマッピング用対応データは、
　「ユーザ発話解釈データＡを構成するインテント、スロット」と、
　「ユーザ発話解釈データＢを構成するテンテント、スロット」との対応データによって構成される。

　エージェント装置Ａは、ステップＳ２０４において、記憶部に格納されたマッピング用対応データを参照して、ステップＳ１０３で生成した「ユーザ発話解釈データＡ」を、エージェント装置Ｂが理解可能な「ユーザ発話解釈データＢ」に変換（マッピング）する処理を行なう。

　　（ステップＳ２０５）
　次に、エージェント装置Ａは、ステップＳ２０５において、ステップＳ２０４で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））をエージェント装置Ｂに送信する。

　なお、ステップＳ２０４においてエージェント装置Ａが生成する変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））は、例えば、エージェント装置Ｂ、またはエージェント装置Ｂの管理サーバ等が提供するＡＰＩ（Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ）が入力データとして許容したデータである。
　エージェント装置Ａは、ステップＳ２０４で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））をこのＡＰＩを利用した処理（ＡＰＩのＣａｌｌ処理）により、エージェント装置Ｂに入力することができる。

　　（ステップＳ２０６）
　ステップＳ２０６の処理は、エージェント装置Ｂが実行する処理である。
　ステップＳ２０５において、エージェント装置Ａから、変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））を入力したエージェント装置Ｂは、ステップＳ２０６において、入力変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））に基く処理を実行する。

　エージェント装置Ａから入力した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））は、エージェント装置Ｂが、ステップＳ１０１のユーザ発話を、直接入力した場合にエージェント装置Ｂが実行するユーザ発話解釈処理アルゴリズムＢに従って生成するユーザ発話解釈データＢ（インテントｂ、スロットｂ）に相当するデータである。
　従って、エージェント装置Ｂは、ユーザからユーザ発話を直接、入力した場合と同様、正確にユーザの意図を理解して正確な処理を実行することが可能となる。

　また、エージェント装置Ｂでは、ユーザ発話に対する音声認識処理や意味解析処理や対話状態推定処理等のユーザ発話解釈処理を行なう必要がなく、処理が遅延することなくスムーズに処理を行なうことが可能となる。

　　（ステップＳ２０７）
　次に、エージェント装置Ａは、ステップＳ２０７において、エージェント装置Ｂから処理完了通知を受信する。

　　（ステップＳ２０８）
　最後に、エージェント装置Ａは、ステップＳ２０８において、ユーザに処理が完了したことを通知する。例えば、「処理が完了しました」や、「ピザを注文しました」等、ユーザ発話に応じた処理が完了したことをユーザに知らせるためのシステム発話を生成して、ユーザに向けて出力する。

　このように、図１１、図１２に示すフローチャートに従った処理を行なうことで、ユーザの発話対象のエージェント装置が、ユーザ発話に応じた処理を実行できない場合であっても、他のエージェント装置に処理を実行させることが可能となる。
　この結果、ユーザは、他のエージェント装置がある場所に移動して、同じ発話を繰り返す必要がなくなり、ユーザ負担が軽減される。
　すなわち、ユーザは、１つのエージェント装置に対して１度の発話を行なえば、複数のエージェント装置の全ての機能を利用した処理を行なうことが可能となる。

　　［７．処理を実行するためのデータが不足している場合の処理例について］
　次に、処理を実行するためのデータが不足している場合の処理例について説明する。

　図１１、図１２に示すフローチャートを参照して説明したように、ユーザ発話を直接、入力するエージェント装置Ａが、ユーザ発話に応じた処理を実行できない場合には、他の通信可能なエージェント装置Ｂに処理を依頼することになる。

　この場合、エージェント装置Ａは、ユーザ発話に基づいて生成したユーザ発話解釈データＡ（インテントａ、スロットａ）を変換して、処理を実行するエージェント装置Ｂの理解可能なユーザ発話解釈データＢ（インテントｂ、スロットｂ）を生成する。

　しかし、ユーザ発話解釈データＡ（インテントａ、スロットａ）を変換して生成されるユーザ発話解釈データＢ（インテントｂ、スロットｂ）に含まれるデータのみでは、エージェント装置Ｂが処理を実行できない場合がある。

　例えば先に説明した図９に示すデータ、すなわち、様々なユーザ発話に対して、ある１台のエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ａ以外の様々なエージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）の対応データ例において、エントリ（３）や、エントリ（６），（７）のデータである。

　例えば図９（３）は、
　ユーザ発話＝「洗濯機のタイマーを１２：００に設定して」
　上記のユーザ発話に対するエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）の対応データを示している。

　ここで、エントリ（４）のエージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）は以下の各データである。
　（インテント）洗濯機タイマー設定
　（スロット１）開始時刻＝１２：００
　（スロット２）開始モード＝？

　これらのインテント、スロット１，２中、インテント、スロット１はユーザ発話「洗濯機のタイマーを１２：００に設定して」から取得されるが、
　（スロット２）開始モード
　このスロットは、上記のユーザ発話からは取得されないデータである。
　エージェント装置Ｘにおいて、正確な処理（＝洗濯機のタイマー設定処理）を行なうためには、
　（スロット２）開始モード
　このスロットデータが必要であり、このデータは、上記のユーザ発話「洗濯機のタイマーを１２：００に設定して」からは取得できない。

　同様に、図９（６），（７）は、それぞれ、
　ユーザ発話＝「イタリアンを検索して、大崎で探して」
　ユーザ発話＝「和食店を検索して、大崎で探して」
　上記のユーザ発話に対するエージェント装置Ａが生成するユーザ発話解釈データＡ（インテント、スロット）と、エージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）の対応データを示している。

　図９に示すデータには、これらのエージェント装置Ｘが処理を実行するために必要となるユーザ発話解釈データＸ（インテント、スロット）として、
　（スロット１）開店時間＝１７：００－２３：００
　このスロットが含まれているが、この（スロット）は、上記のユーザ発話からは取得されないデータである。
　エージェント装置Ｘにおいて、正確な処理（レストラン検索処理）を行なうためには、
　（スロット１）開店時間＝１７：００－２３：００
　このスロットデータが必要であり、このデータは、ユーザ発話からは取得できない。

　このように、ユーザ発話を、入力するエージェント装置Ａが、ユーザ発話に基づいて生成したユーザ発話解釈データＡ（インテントａ、スロットａ）を変換してユーザ発話解釈データＢ（インテントｂ、スロットｂ）を生成し、これを、エージェント装置Ｂに送信しても、エージェント装置Ｂは、処理を実行できない場合がある。

　このような場合、エージェント装置Ｂは、処理を実行するために必要な情報を取得するようにエージェント装置Ａに依頼する。
　エージェント装置Ａは、エージェント装置Ｂからの情報取得依頼に応じて、ユーザに質問を行い、ユーザからの応答を取得して、この応答に基づくデータをエージェント装置Ｂに送信する。
　この追加情報送信処理を行なうことで、エージェント装置Ｂは、ユーザ発話に応じた処理を正確に実行することが可能となる。

　この処理シーケンスについて、図１３に示すフローチャートを参照して説明する。
　図１３に示すフローチャートは、先に図１１、図１２を参照して説明したフローのステップＳ２０５に続いて実行する処理を示している。
　図１３に示すフロー中、実線で示すステップは、ユーザ発話を直接、入力するエージェント装置Ａの実行する処理であり、点線で示すステップは、エージェント装置Ａと通信を行い、ユーザ発話に応じた処理を実行するエージェント装置Ｂの実行する処理である。

　図１３に示すフローの各ステップの処理について説明する。
　　（ステップＳ２０５）
　このステップＳ２０５の処理は、先に図１２を参照して説明した処理である。すなわち、エージェント装置Ａは、ステップＳ２０５において、ステップＳ２０４で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））をエージェント装置Ｂに送信する。

　　（ステップＳ２１１）
　ステップＳ２１１～Ｓ２１３の処理は、エージェント装置Ｂが実行する処理である。
　まず、エージェント装置Ｂは、ステップＳ２０４でエージェント装置Ａから受信した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））の検証処理を実行する。

　具体的には、エージェント装置Ｂでの処理に必要なデータがすべて、エージェント装置Ａからの受信データに含まれているか否かを判定する。すなわち、エージェント装置Ａから受信した変換データであるユーザ発話解釈データＢ（インテントｂ、スロットｂ）に不足情報があるか否かを判定する。
　不足情報があると判定した場合は、ステップＳ２１２に進む。

　一方、不足情報がなく、処理を実行できると判定した場合は、ステップＳ２０６に進む。この場合は、先に図１２を参照して説明したステップＳ２０６～Ｓ２０８の処理を実行する。

　　（ステップＳ２１２）
　ステップＳ２１１において、エージェント装置Ｂが、エージェント装置Ａから受信した変換データであるユーザ発話解釈データＢ（インテントｂ、スロットｂ）に不足情報があると判定した場合、エージェント装置ＢはステップＳ２１２の処理を実行する。

　エージェント装置Ｂは、ステップＳ２１２において、不足情報を取得するためのユーザへの質問をエージェント装置Ａに依頼する。

　エージェント装置Ａは、エージェント装置Ｂからの依頼に応じて、不足情報を取得するための質問を生成してユーザに対して出力する。すなわち質問を実行し、質問に対するユーザ応答に対するユーザ発話に対する処理を実行する。
　新たなユーザ発話に対して実行する処理は、先に図１１、図１２を参照して説明したステップＳ１０２～Ｓ１０３，ステップＳ２０４～Ｓ２０５の処理と同様の処理である。

　　（ステップＳ２１３）
　次に、エージェント装置Ｂは、ステップＳ２１３において、エージェント装置から追加情報を取得し、さらに、ステップＳ２１１に戻り、不足情報の有無を判定する。

　追加情報を入力しても、まだ不足情報がある場合は、ステップＳ２１１～Ｓ２１３の処理を繰り返す。
　ステップＳ２１１において、不足情報がないと判定されると、ステップＳ２０６に進み、処理を実行する。

　このように、エージェント装置Ｂは、処理の実行に必要となる情報が不足していると判定した場合は、エージェント装置Ａに不足情報を取得するように依頼し、不足情報を再送信してもらい、処理に必要となるデータを揃えて処理を実行する。
　この追加情報送信処理を行なうことで、エージェント装置Ｂは、ユーザ発話に応じた処理を正確に実行することが可能となる。

　図１３に示すフローチャートを参照して説明した処理では、ユーザ発話に応じた処理を実行するエージェント装置Ｂが処理実行に必要となる不足情報の有無を判定している。
　このような処理態様の他、エージェント装置Ｂでの処理に必要な情報に不足があるか否かを、エージェント装置Ａ側で判定する構成も可能である。
　この処理を行なう場合の処理シーケンス例について、図１４に示すフローチャートを参照して説明する。

　図１４に示すフロー中のステップＳ２０４、ステップＳ２０５～Ｓ２０８は、先に図１２を参照して説明したフローのステップＳ２０４、ステップＳ２０５～Ｓ２０８と同様の処理である。
　ステップＳ２２１～Ｓ２２４が新たに追加される処理である。ステップＳ２２１～Ｓ２２４の処理は、エージェント装置ＡがステップＳ２０４の処理に続いて実行する。
　ステップＳ２０４，ステップＳ２２１～Ｓ２２４の処理について説明する。

　　（ステップＳ２０４）
　先に図１２を参照して説明したステップＳ２０２における判定処理において、ユーザ要求を処理できる通信可能な他のエージェント装置（エージェント装置Ｂ）が検出されたと判定した場合、エージェント装置Ａは、ステップＳ２０４において以下の処理を実行する。

　前述したように、エージェント装置Ａは、マッピング処理に適用するマッピング用対応データを記憶部に格納し、このマッピング用対応データを参照して、「ユーザ発話解釈データＡ」を、「ユーザ発話解釈データＢ」に変換する処理を行なう。

　　（ステップＳ２１１）
　次に、エージェント装置Ａは、ステップＳ２１１において、ステップＳ２０４で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））が、エージェント装置Ｂでの処理に必要な情報として十分であるか、不足があるかを判定する。

　なお、不足があるか否かの判定は、例えば、上述した記憶部に格納されたマッピングデータを参照して判定することが可能である。
　不足情報があると判定した場合は、ステップＳ２２２に進む。

　　（ステップＳ２２２）
　ステップＳ２２１において、ステップＳ２０４で生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））が、エージェント装置Ｂでの処理に必要な情報として不十分であると判定した場合、エージェント装置ＡはステップＳ２２２の処理を実行する。

　エージェント装置Ａは、ステップＳ２２２において、不足情報を取得するための質問を生成してユーザに対して出力すし、ユーサから、質問に対する応答としての新たなユーザ発話を入力する。

　　（ステップＳ２２３～Ｓ２２４）
　次に、エージェント装置Ａは、質問に対する応答としての新たなユーザ発話に対してステップＳ２２３～Ｓ２２４の処理を実行する。

　この処理は、先に図１１、図１２を参照して説明したステップＳ１０２～Ｓ１０３の処理と同様の処理である。
　すなわち、ステップＳ２２３では、ステップ２２２で入力した質問に対する新たなユーザ発話の音声認識処理や意味解析処理や対話状態推定処理によるユーザ発話解釈処理を実行する。
　さらに、ステップＳ２２４で、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である要素情報（スロット：Ｓｌｏｔ）からなるユーザ発話解釈データＡ（インテント、スロット）を生成する。

　これらの処理の後、ステップＳ２０４に戻り、ステップＳ２２４で追加生成したユーザ発話解釈データＡ（インテント、スロット）を、先のユーザ発話に基づいて生成済みのユーザ発話解釈データＡ（インテント、スロット）に追加し、追加後の新たなユーザ発話解釈データＡ（インテント、スロット）に基づいて、「ユーザ発話解釈データＢ」を生成（マッピング）する処理を行なう。

　さらに、ステップＳ２２１で、新たに生成した「ユーザ発話解釈データＢ」が、エージェント装置Ｂでの処理に必要な情報として十分であるか否かを判定する。不足がある場合は、ステップＳ２２２～Ｓ２２４，Ｓ２０４～Ｓ２２１の処理を繰り返す。

　ステップＳ２２１で新たに生成した「ユーザ発話解釈データＢ」が、エージェント装置Ｂでの処理に必要な情報として十分であると判定された場合は、ステップＳ２０５に進み、変換データ（ユーザ発話解釈データＢ）をエージェント装置Ｂに送信する。

　その後、ステップＳ２０６においてエージェント装置Ｂにおいて送信データに基づく処理が実行される。
　エージェント装置Ｂは、処理の実行に必要となる情報をすべて取得したうえで、処理を実行することが可能となり、ユーザ発話に応じた処理を正確に実行することが可能となる。

　　［８．複数のユーザ発話の管理処理例について］
　次に、複数のユーザ発話の管理処理例について説明する。

　ユーザ発話を直接、入力するエージェント装置Ａは、連続して同一ユーザ、あるいは異なる複数のユーザからユーザ発話を入力する場合がある。

　エージェント装置Ａは、このように入力する複数のユーザ発話の各々について、１つの共通タスク（処理）についての発話であるか、別のタスク（処理）についての発話であるかを区別して管理しないと、誤った処理を行なってしまう可能性がある。

　このような誤った処理の発生を防止するため、エージェント装置は、ユーザ発話の各々にタスクＩＤを設定した対話履歴情報、すなわちコンテキストを記憶部に記録する。
　図１５は、記憶部に記録される対話履歴情報（コンテキスト）のデータ例を示す図である。

　図１５には、時間（ｔ１），（ｔ２）に入力した以下の２つのユーザ発話に関する登録データの例を示している。
　時間ｔ１のユーザ発話＝ピザ注文したいです。１２：００に配達で
　時間ｔ２のユーザ発話＝マルゲリータ１つで
　これら２つのユーザ発話に関する対話履歴情報（コンテキスト）の登録データである。

　これらのユーザ発話を入力するエージェント装置Ａのデータ処理部は、図１５に示す対話履歴情報（コンテキスト）の登録データを生成して記憶部に格納する。
　すなわち各ユーザ発話について、以下の対応データを生成して記録する。
　（ａ）タスクＩＤ
　（ｂ）ユーザ発話（テキストデータ）
　（ｃ）発話ユーザ識別子
　（ｄ）ユーザ発話解釈データ（インテント，スロット）
　（ｅ）処理実行エージェント識別子

　なお、タスクＩＤは、１つのタスクに関する発話である場合は、同一のＩＤを設定する。
　図１５に示す例は、
　時間ｔ１のユーザ発話＝ピザ注文したいです。１２：００に配達で
　時間ｔ２のユーザ発話＝マルゲリータ１つで
　これら２つのユーザ発話をエージェント装置Ａのデータ処理部が同一タスクと判定し、同一のタスクＩＤを設定した例である。

　同一のタスクＩＤを設定するか否かの判定基準としては、例えば各発話の時間間隔や、発話解釈処理において推定するユーザ発話対応のドメインの類似性が利用される。

　具体的には、複数のユーザ発話の時間間隔が予め規定したしきい値時間以下である場合、これらのユーザ発話は同一タスクと判定し、同一のタスクＩＤを設定する。
　また、各ユーザ発話に対して実行する発話解釈処理において推定されたユーザ発話対応のドメインが類似している場合は、これらのユーザ発話は同一タスクと判定し、同一のタスクＩＤを設定する。

　なお、ドメインとは、ユーザ発話の意味領域であり、先に説明したインテントの上位概念である。
　例えば、
　ユーザ発話＝洗濯機のタイマーを１２：００に設定して
　このユーザ発話の発話解釈データとして得られるデータの一例は、
　（インテント）洗濯機タイマー設定
　（スロット）開始時刻＝１２：００
　これらのデータであるが、さらに、（インテント）の上位概念の意味領域を示す（ドメイン）として、
　（ドメイン）家電制御
　このようなドメインについても推定される。

　すなわちエージェント装置は、ユーザ発話に対する発話解釈処理において、ドメイン、インテンント、スロットに対応する発話解釈データを決定する。

　エージェント装置は、入力したユーザ発話に対して、ユーザ発話解釈処理を実行し、複数のユーザ発話間隔が、しきい値時間以内であり、かつそのドメインが類似する場合には、同一タスクに関する発話であると判定し、同一のタスクＩＤを設定して記録する。
　図１５に示す２つのユーザ発話は、このような発話に関する対話履歴情報（コンテキスト）のデータ例である。

　図１６は、図１５と異なる発話に関する対話履歴情報（コンテキスト）のデータ例である。
　図１６には、時間（ｔ１），（ｔ２）に入力した以下の２つのユーザ発話に関する登録データの例を示している。
　時間ｔ１のユーザ発話＝トマトののったピザ注文したいです。１２：００に配達で
　時間ｔ２のユーザ発話＝明日の朝８：００にタイマー設定して
　これら２つのユーザ発話に関する対話履歴情報（コンテキスト）の登録データである。

　これらのユーザ発話が、エージェント装置に連続して入力された場合、エージェント装置は、入力したユーザ発話に対して、ユーザ発話解釈処理を実行する。
　複数のユーザ発話間隔が、しきい値時間以内であり、かつそのドメインが類似する場合には、同一タスクに関する発話であると判定し、同一のタスクＩＤを設定して記録する。

　しかし、図１６に示す例の場合、
　時間ｔ１のユーザ発話＝トマトののったピザ注文したいです。１２：００に配達で
　時間ｔ２のユーザ発話＝明日の朝８：００にタイマー設定して
　これら２つのユーザ発話に対する発話解釈処理の結果として得られる２つの発話対応のドメインは異なるドメインとなる。
　例えば、
　時間ｔ１のユーザ発話＝トマトののったピザ注文したいです。１２：００に配達で
　このユーザ発話のドメインは例えば、
　（ドメイン）デリバリ処理
　である。

　一方、
　時間ｔ２のユーザ発話＝明日の朝８：００にタイマー設定して
　このユーザ発話のドメインは例えば、
　（ドメイン）タイマー設定
　である。

　従って、エージェント装置のデータ処理部は、これら２つのユーザ発話は同一タスクに関する発話ではないと判定し、これら２つの発話に対して異なるタスクＩＤを設定する。

　なお、同一タスクＩＤが設定された複数の発話に対する処理は、基本的には１つのエージェント装置が実行する。異なるタスクＩＤが設定された複数の発話に対する処理は、それぞれのタスクＩＤ単位で処理を実行するエージェント装置がことなってもよい。

　　［９．その他の実施例について］
　次に、その他の実施例について説明する。

　上述した実施例では、ユーザ発話を直接、入力するエージェント装置Ａと、ユーザ発話を直接、入力せず、エージェント装置Ａと通信を行なってユーザ発話に基づく処理を実行するエージェント装置Ｂの２台のエージェント装置を利用したシステムに基づく実施例について説明した。

　この他、例えば、図１７に示すように３台以上のエージェント装置を利用したシステム構成例としてもよい。
　図１７に示すシステムは、ユーザ発話を直接、入力するエージェント装置Ａ，１０と、ユーザ発話を直接、入力せず、エージェント装置Ａ，１０と通信を行なってユーザ発話に基づく処理を実行するエージェント装置Ｂ，２０、エージェント装置Ｃ，３０の３台のエージェント装置を利用したシステムである。

　なお、各エージェント装置Ａ～Ｃの記憶部には、先に図８を参照して説明したようなエージェント装置リストが記録されている。例えば、エージェント装置Ａ，１０は、このリストを参照して、ユーザ要求転送先のエージェント装置を選択する。

　先に説明したように、図８に示すエージェント装置リストは、通信可能な他のエージェント装置の識別子、エージェント装置の機能、通信用アドレスを対応付けて記録したエージェント装置リストである。
　エージェント装置Ａ，１０は、エージェント装置Ａ，１０の記憶部に格納された図８に示すエージェント装置リストを参照してユーザ要求転送先のエージェント装置を選択する処理を行なうことが可能となる。

　さらに、上述した実施例では、ユーザ発話を直接、入力するエージェント装置Ａ，１０が、ユーザ発話を直接、入力せず、エージェント装置Ａ，１０と通信を行なってユーザ発話に基づく処理を実行するエージェント装置Ｂ，２０に対して、エージェント装置Ｂ，２０が理解可能な「ユーザ発話解釈データＢ」を送信する実施例を説明した。

　エージェント装置Ａ，１０が実行する処理は、ユーザ発話解釈処理アルゴリズムＡに従って生成したユーザ発話解釈データＡ（インテントａ、スロットａ）を、エージェント装置Ｂ，２０が理解可能なユーザ発話解釈データＢ（インテントｂ、スロットｂ）に変換する処理（マッピング処理）である。
　エージェント装置Ａ，１０は、このエージェント装置Ｂ，２０が理解可能なユーザ発話解釈データＢ（インテントｂ、スロットｂ）をエージェント装置Ｂ，２０に送信していた。

　エージェント装置Ａ，１０が生成する変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））は、例えば、エージェント装置Ｂ，２０、またはエージェント装置Ｂ，２０の管理サーバ等が提供するＡＰＩ（Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ）が入力データとして許容したデータである。
　エージェント装置Ａ，１０は、生成した変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））をこのＡＰＩを利用した処理（ＡＰＩのＣａｌｌ処理）により、エージェント装置Ｂ，２０に入力することができる。

　例えば、このＡＰＩが、変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））のみならず、ユーザ発話データそのもの（テキストデータ）を入力データとして許容している場合は、エージェント装置Ａ，１０は、変換データ（ユーザ発話解釈データＢ（インテントｂ、スロットｂ））を生成することなく、ユーザ発話データそのもの（テキストデータ）をエージェント装置Ｂ，２０に送信してもよい。

　エージェント装置Ａ，１０からエージェント装置Ｂ，２０に対して入力するデータ形式は、データ入力に利用するＡＰＩの許容データであればよく、例えば、ＡＰＩの設定に応じて以下のようなデータ形式が利用可能となる可能性がある。
　１．ユーザ発話文そのもの（テキストデータ）
　２．ユーザ発話文の正規化データ（例えば、ひらがなを漢字に変換したデータ、助詞抜けや表記ゆれの修正を行ったデータ等）
　４．送信先のエージェント装置の特性に応じた解釈しやすい文に変換したデータ

　なお、さらに、ユーザ発話文に基づくデータのみならず、ユーザの顔画像や、その他のセンサーによるセンサー検出情報等も併せて送信する構成としてもよい。

　また、上述した実施例では、、ユーザ発話を直接、入力するエージェント装置Ａ，１０が、ユーザ発話に応じた処理を実行できない場合に、エージェント装置Ｂ，２０に処理を依頼するという実施例について説明した。

　この他、例えば、各エージェント装置の自然言語処理（ＮＬＰ：Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ）の能力等に応じて、ユーザ発話に対する処理を振り分ける構成としてもよい。

　例えばユーザが利用可能なエージェント装置が以下の３台あるとする。
　エージェント装置Ａ
　エージェント装置Ｂ
　エージェント装置Ｃ
　これらの各エージェント装置は、それぞれ自然言語処理（ＮＬＰ：Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ）の能力、音声認識処理（ＡＳＲ：Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）の能力、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）の能力や、装着したセンサーの種類が異なっている。

　このような設定の場合、ユーザ発話の内容等に応じて、ユーザ発話に対応する処理を実行する最適なエージェント装置を選択し、選択されたエージェント装置が処理を実行する。
　このような構成とすることで、ユーザ発話に対応した処理を、より最適なエージェント装置において実行することができる。

　なお、この処理を実現するためには、各エージェント装置の記憶部に先に説明した図８に示すエージェントリストをさらに拡張させたリストを記録しておくことが必要である。すなわち、各エージェント装置の自然言語処理（ＮＬＰ）の能力、音声認識処理（ＡＳＲ）の能力、音声合成処理（ＴＴＳ）の能力や、装着したセンサーの種類等の情報を記録したリストを記憶部に格納し、このリストを参照してユーザ発話に対応する処理を実行するエージェント装置を選択する。

　　［１０．エージェント装置（情報処理装置）の構成例について］
　次に、本開示の情報処理装置、すなわちエージェント装置の構成例について説明する。

　図１８は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行うエージェント装置１００（情報処理装置）の一構成例を示す図である。

　図１８に示すように、エージェント装置１００は、入力部１１０、出力部１２０、データ処理部１３０、通信部１４０、記憶部１５０を有する。

　入力部１１０は、音声入力部（マイク）１１１、画像入力部（カメラ）１１２、センサー１１３を有する。
　出力部１２０は、音声出力部（スピーカー）１２１、画像出力部（表示部）１２２を有する。

　なお、音声入力部（マイク）１１１は、例えば図１に示すエージェント装置１０のマイク１２に対応する。
　画像入力部（カメラ）１１２は、図１に示すエージェント装置１０のカメラ１１に対応する。
　音声出力部（スピーカー）１２１は、図１に示すエージェント装置１０のスピーカー１４に対応する。
　画像出力部（表示部）１２２は、図１に示すエージェント装置１０の表示部１３に対応する。
　なお、画像出力部（表示部）１２２は、例えば、プロジェクタ等によって構成することも可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。

　データ処理部１３０は、入力データ解析部１６０、応答処理実行部１７０を有する。
　入力データ解析部１６０は、音声解析部１６１、画像解析部１６２、センサー情報解析部１６３、ユーザ発話対応処理実行制御部１６４、データ変換部１６５を有する。
　データ処理実行部１７０は、出力音声生成部１７１、表示情報生成部１７２、ユーザ発話応答処理実行部１７３を有する。

　ユーザの発話音声はマイクなどの音声入力部１１１に入力される。
　音声入力部（マイク）１１１は、入力したユーザ発話音声を音声解析部１６１に入力する。
　音声解析部１６１は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
　さらに、テキストデータに対する発話意味解析処理を実行する。
　音声解析部１６１は、例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能を有し、テキストデータからユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である（スロット：Ｓｌｏｔ）を推定する。すなわち、ユーザ発話解釈処理を実行してユーザ発話解釈データ（インテント、スロット）を生成する。

　ユーザ発話から、意図（インテント）と、要素（スロット）を正確に推定、取得することができれば、エージェント装置１００は、ユーザ発話に対する正確な処理を行うことができる。

　音声解析部１６１によって取得されたユーザ発話解析情報は、記憶部１５０に格納されるとともに、ユーザ発話対応処理実行制御部１６４に出力される。

　画像入力部１１２は、発話ユーザおよびその周囲の画像を撮影して、画像解析部１６２に入力する。
　画像解析部１６２は、発話ユーザの顔の表情やユーザの行動、視線情報、発話ユーザの周囲情報等の解析を行い、この解析結果を記憶部１５０に格納するとともに、ユーザ発話対応処理実行制御部１６４に出力する。

　センサー１１３は、例えば気温、気圧、ユーザの視線等を解析するために必要となるデータを取得するセンサーによって構成される。センサーの取得情報は、センサー情報解析部１６３に入力される。
　センサー情報解析部１６３は、センサー取得情報に基づいて、例えば気温、気圧、ユーザの視線等のデータを取得して、この解析結果を記憶部１５０に格納するとともに、ユーザ発話対応処理実行制御部１６４に出力する。

　ユーザ発話対応処理実行制御部１６４は、音声解析部１６１の生成したユーザ発話解釈データ（インテント、スロット）や、画像解析部１６２の生成した画像解析情報や、センサー情報解析部１６３の生成したセンサー解析情報を入力して、ユーザ発話に対応する処理を自装置で実行するか、他の通信可能なエージェント装置で実行させるかを決定する。

　ユーザ発話対応処理実行制御部１６４がユーザ発話に対応する処理を他のエージェント装置で実行させることを決定した場合、データ変換部１６５は、音声解析部１６１が生成したユーザ発話解釈データＡ（インテントａ、スロットａ）を、ユーザ発話対応処理を実行する他のエージェント装置Ｂ，２０が理解可能なユーザ発話解釈データＢ（インテントｂ、スロットｂ）に変換する処理（マッピング処理）を実行する。
　データ変換部１６５の生成した変換データは、通信部１４０を介して他のエージェント装置Ｂに送信される。

　記憶部１５０には、ユーザ発話の内容や、ユーザ発話に基づく学習データや、ユーザとの対話履歴情報等のコンテキスト情報、画像出力部（表示部）１２２に出力する表示用データ等が格納される。

　記憶部１５０には、さらに、音声解析部１６１が生成したユーザ発話解釈データＡ（インテントａ、スロットａ）を他のエージェント装置が理解可能なユーザ発話解釈データＢ（インテントｂ、スロットｂ）に変換する処理（マッピング処理）を実行するためのマッピングデータが格納されている。
　また、記憶部１５０には、さらに先に図８を参照して説明した通信可能な他のエージェント装置の機能情報やアクセス情報（通信アドレス）等を記録したエージェント装置リストが格納されている。

　応答処理実行部１７０は、出力音声生成部１７１、表示情報生成部１７２、ユーザ発話応答処理実行部１７３を有する。
　出力音声生成部１７１は、音声解析部１６１の解析結果であるユーザ発話解析データに基づいて、ユーザに対するシステム発話を生成する。
　出力音声生成部１７１の生成した応答音声情報は、スピーカー等の音声出力部１２１を介して出力される。

　表示情報生成部１７２は、ユーザに対するシステム発話のテキスト情報や、その他の提示情報を表示する。
　例えばユーザが世界地図を見せてというユーザ発話を行った場合、世界地図を表示する。
　世界地図は、例えばサービス提供サーバから取得可能である。

　ユーザ発話応答処理実行部１７３は、ユーザ発話に対する処理を実行する。
　入力データ解析部１６０のユーザ発話対応処理実行制御部１６４がユーザ発話に対応する処理を自装置で実行することを決定した場合、ユーザ発話応答処理実行部１７３は、ユーザ発話に対する処理を実行する。

　例えば、
　ユーザ発話＝音楽を再生して
　ユーザ発話＝面白い動画を見せて
　このような発話である場合、ユーザ発話対応処理実行部１７３は、ユーザ発話に対する処理、すなわち音楽再生処理や、動画再生処理を行う。

　ただし、入力データ解析部１６０のユーザ発話対応処理実行制御部１６４がユーザ発話に対応する処理を他のエージェント装置で実行させることを決定した場合は、前述したように、データ変換部１６５が生成した変換データが通信部１４０を介して他のエージェント装置Ｂに送信され、他のエージェント装置Ｂにおいてユーザ発話に対応する処理が実行されることになる。

　通信部１４０は、他のエージェント装置との通信処理や、外部サーバ、例えばニュース情報や天気情報、音楽情報等の様々な情報を提供するサーバ、さらに音声解析処理を実行するサーバ等との通信処理に利用される。
　図１８に示すデータ処理部１３０の入力データ解析部１６０の実行する処理の一部、例えば音声解析処理や意味解析処理等は、外部サーバを利用して実行する構成としてもよい。

　なお、本開示のエージェント装置（情報処理装置）１００は、図１９に示すように、いわゆるスマートスピーカー型のエージェント装置に限らず、スマホやＰＣ等のような様々な装置形態とすることが可能である。

　エージェント装置（情報処理装置）１００は、ユーザ１の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じてテレビ、エアコン等の外部機器２５０の制御も実行する。
　例えばユーザ発話が「テレビのチャンネルを１に変えて」、あるいは「エアコンの設定温度を２０度にして」といった要求である場合、エージェント装置（情報処理装置）１００は、このユーザ発話の音声認識結果に基づいて、外部機器２５０に対して制御信号（Ｗｉ－Ｆｉ、赤外光など）を出力して、ユーザ発話に従った制御を実行する。

　また、エージェント装置（情報処理装置）１００は、ネットワークを介して様々なデータ処理や情報提供を行なうサーバ２００と接続されている。エージェント装置（情報処理装置）１００は、サーバ２００から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。

　　［１１．エージェント装置（情報処理装置）のハードウェア構成例について］
　次に、図２０を参照して、エージェント装置（情報処理装置）のハードウェア構成例について説明する。
　図２０を参照して説明するハードウェアは、先に図１８を参照して説明したエージェント装置（情報処理装置）１００の１つの具体的なハードウェア構成例であり、また、図１９を参照して説明したサーバ２００を構成する情報処理装置のハードウェア構成の一例でもある。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）３０２、または記憶部３０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）３０３には、ＣＰＵ３０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ３０１、ＲＯＭ３０２、およびＲＡＭ３０３は、バス３０４により相互に接続されている。

　ＣＰＵ３０１はバス３０４を介して入出力インタフェース３０５に接続され、入出力インタフェース３０５には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部３０６、ディスプレイ、スピーカーなどよりなる出力部３０７が接続されている。ＣＰＵ３０１は、入力部３０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部３０７に出力する。

　入出力インタフェース３０５に接続されている記憶部３０８は、例えばハードディスク等からなり、ＣＰＵ３０１が実行するプログラムや各種のデータを記憶する。通信部３０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース３０５に接続されているドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア３１１を駆動し、データの記録あるいは読み取りを実行する。

　　［１２．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　ユーザ発話を入力する音声入力部と、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理部を有し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する情報処理装置。

　（２）　前記データ処理部が生成するユーザ発話解釈データは、
　ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有するデータである（１）に記載の情報処理装置。

　（３）　前記データ処理部は、
　前記データ処理部が生成したインテントとスロットを含むユーザ発話解釈データを、前記第２情報処理装置が理解可能なインテントとスロットを含む変換データに変換する処理を実行する（２）に記載の情報処理装置。

　（４）　前記データ処理部は、
　前記データ処理部の実行するユーザ発話解釈処理アルゴリズムに従って生成されるユーザ発話解釈データに含まれるインテントおよびスロットと、前記第２情報処理装置が理解可能なインテントとスロットを対応付けたマッピンクデータを参照して、前記変換データの生成処理を実行する（２）または（３）に記載の情報処理装置。

　（５）　前記情報処理装置は、
　前記マッピングデータを格納した記憶部を有する（４）に記載の情報処理装置。

　（６）　前記データ処理部は、
　前記第２情報処理装置が理解可能なデータの入力を許容するＡＰＩ（Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏｇｒａｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ）に対して前記変換データを入力する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記データ処理部は、
　前記ユーザ発話に対応した処理を自装置で実行できるか否かを判定し、実行できないと判定した場合に、前記変換データを生成して前記第２情報処理装置に送信する（１）～（６）いずれかに記載の情報処理装置。

　（８）　前記データ処理部は、
　ユーザから、前記ユーザ発話に対応した処理を他装置で実行させることの要求発話を入力した場合、
　前記変換データを生成して前記第２情報処理装置に送信する（１）～（７）いずれかに記載の情報処理装置。

　（９）　前記データ処理部は、
　通信可能な他の情報処理装置各々の機能情報とアクセス情報を登録したリストを参照して前記ユーザ発話に対応した処理を実行させる外部装置を決定する（１）～（８）いずれかに記載の情報処理装置。

　（１０）　前記データ処理部は、
　生成した前記変換データが、前記第２情報処理装置においてユーザ発話対応の処理を実行するための必要情報の少なくとも一部を含まず、不足情報がある場合、
　ユーザに対して、前記不足情報を取得するための質問を実行する（１）～（９）いずれかに記載の情報処理装置。

　（１１）　前記データ処理部は、
　ユーザ発話に対応するタスクＩＤを設定してユーザ発話の管理処理を実行する（１）～（１０）いずれかに記載の情報処理装置。

　（１２）　前記データ処理部は、
　複数のユーザ発話を、しきい値時間以内の時間間隔で入力し、かつ、前記複数のユーザ発話のドメインが類似する場合、前記複数のユーザ発話に立てして同一のタスクＩＤを設定する（１１）に記載の情報処理装置。

　（１３）　複数の情報処理装置を有する情報処理システムであり、
　第１情報処理装置は、
　ユーザ発話を入力する音声入力部と、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理部を有し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信し、
　前記第２情報処理装置は、
　前記第１情報処理装置から受信する前記変換データに基づいて、前記ユーザ発話に対応した処理を実行する情報処理システム。

　（１４）　前記第１情報処理装置は、
　前記ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有するユーザ発話解釈データを生成し、
　前記第２情報処理装置が理解可能なインテントとスロットを有する変換データを生成して、前記第２情報処理装置に送信する（１３）に記載の情報処理システム。

　（１５）　情報処理装置において実行する情報処理方法であり、
　音声入力部が、ユーザ発話を入力し、
　データ処理部が、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理を実行し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する情報処理方法。

　（１６）　複数の情報処理装置を有する情報処理システムにおいて実行する情報処理方法であり、
　第１情報処理装置が、
　入力したユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成し、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する処理を実行し、
　前記第２情報処理装置が、
　前記第１情報処理装置から受信する前記変換データに基づいて、前記ユーザ発話に対応した処理を実行する情報処理方法。

　（１７）　情報処理装置において情報処理を実行させるプログラムであり、
　前記プログラムは、データ処理部に、
　ユーザ発話の解析を実行してユーザ発話解釈データを生成させ、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成させ、前記第２情報処理装置に送信させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、ユーザ発話を入力した装置以外の装置においてユーザ発話に応じた処理を実行させることを可能とした装置、方法が実現される。
　具体的には、例えば、ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、ユーザ発話の解析を実行してユーザ発話解釈データを生成し、生成したユーザ発話解釈データを変換して、第２情報処理装置が理解可能な変換データを生成して第２情報処理装置に送信する。ユーザ発話解釈データは、ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有し、データ処理部はインテントとスロットを含むユーザ発話解釈データを、第２情報処理装置が理解可能なインテントとスロットを含むデータに変換する。
　本構成により、ユーザ発話を入力した装置以外の装置においてユーザ発話に応じた処理を実行させることを可能とした装置、方法が実現される。

　　１０，２０，３０　エージェント装置
　　１１　カメラ
　　１２　マイク
　　１３　表示部
　　１４　スピーカー
　１１０　入力部
　１１１　音声入力部
　１１２　画像入力部
　１１３　センサー
　１２０　出力部
　１２１　音声出力部
　１２２　画像出力部
　１３０　データ処理部
　１４０　通信部
　１５０　記憶部
　１６０　入力データ解析部
　１６１　音声解析部
　１６２　画像解析部
　１６３　センサー情報解析部
　１６４　ユーザ発話対応処理実行制御部
　１６５　データ変換部
　１７０　応答処理実行部
　１７１　出力音声生成部
　１７２　表示情報生成部
　１７３　ユーザ発話応答処理実行部
　３０１　ＣＰＵ
　３０２　ＲＯＭ
　３０３　ＲＡＭ
　３０４　バス
　３０５　入出力インタフェース
　３０６　入力部
　３０７　出力部
　３０８　記憶部
　３０９　通信部
　３１０　ドライブ
　３１１　リムーバブルメディア

Claims

　ユーザ発話を入力する音声入力部と、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理部を有し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する情報処理装置。
　前記データ処理部が生成するユーザ発話解釈データは、
　ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有するデータである請求項１に記載の情報処理装置。
　前記データ処理部は、
　前記データ処理部が生成したインテントとスロットを含むユーザ発話解釈データを、前記第２情報処理装置が理解可能なインテントとスロットを含む変換データに変換する処理を実行する請求項２に記載の情報処理装置。
　前記データ処理部は、
　前記データ処理部の実行するユーザ発話解釈処理アルゴリズムに従って生成されるユーザ発話解釈データに含まれるインテントおよびスロットと、前記第２情報処理装置が理解可能なインテントとスロットを対応付けたマッピンクデータを参照して、前記変換データの生成処理を実行する請求項２に記載の情報処理装置。
　前記情報処理装置は、
　前記マッピングデータを格納した記憶部を有する請求項４に記載の情報処理装置。
　前記データ処理部は、
　前記第２情報処理装置が理解可能なデータの入力を許容するＡＰＩ（Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏｇｒａｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ）に対して前記変換データを入力する請求項１に記載の情報処理装置。
　前記データ処理部は、
　前記ユーザ発話に対応した処理を自装置で実行できるか否かを判定し、実行できないと判定した場合に、前記変換データを生成して前記第２情報処理装置に送信する請求項１に記載の情報処理装置。
　前記データ処理部は、
　ユーザから、前記ユーザ発話に対応した処理を他装置で実行させることの要求発話を入力した場合、
　前記変換データを生成して前記第２情報処理装置に送信する請求項１に記載の情報処理装置。
　前記データ処理部は、
　通信可能な他の情報処理装置各々の機能情報とアクセス情報を登録したリストを参照して前記ユーザ発話に対応した処理を実行させる外部装置を決定する請求項１に記載の情報処理装置。
　前記データ処理部は、
　生成した前記変換データが、前記第２情報処理装置においてユーザ発話対応の処理を実行するための必要情報の少なくとも一部を含まず、不足情報がある場合、
　ユーザに対して、前記不足情報を取得するための質問を実行する請求項１に記載の情報処理装置。
　前記データ処理部は、
　ユーザ発話に対応するタスクＩＤを設定してユーザ発話の管理処理を実行する請求項１に記載の情報処理装置。
　前記データ処理部は、
　複数のユーザ発話を、しきい値時間以内の時間間隔で入力し、かつ、前記複数のユーザ発話のドメインが類似する場合、前記複数のユーザ発話に立てして同一のタスクＩＤを設定する請求項１１に記載の情報処理装置。
　複数の情報処理装置を有する情報処理システムであり、
　第１情報処理装置は、
　ユーザ発話を入力する音声入力部と、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理部を有し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信し、
　前記第２情報処理装置は、
　前記第１情報処理装置から受信する前記変換データに基づいて、前記ユーザ発話に対応した処理を実行する情報処理システム。
　前記第１情報処理装置は、
　前記ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有するユーザ発話解釈データを生成し、
　前記第２情報処理装置が理解可能なインテントとスロットを有する変換データを生成して、前記第２情報処理装置に送信する請求項１３に記載の情報処理システム。
　情報処理装置において実行する情報処理方法であり、
　音声入力部が、ユーザ発話を入力し、
　データ処理部が、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成するデータ処理を実行し、
　前記データ処理部は、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する情報処理方法。
　複数の情報処理装置を有する情報処理システムにおいて実行する情報処理方法であり、
　第１情報処理装置が、
　入力したユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話の解析を実行してユーザ発話解釈データを生成し、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成し、前記第２情報処理装置に送信する処理を実行し、
　前記第２情報処理装置が、
　前記第１情報処理装置から受信する前記変換データに基づいて、前記ユーザ発話に対応した処理を実行する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　前記プログラムは、データ処理部に、
　ユーザ発話の解析を実行してユーザ発話解釈データを生成させ、
　前記ユーザ発話に対応した処理を外部の第２情報処理装置に実行させる場合、
　前記ユーザ発話解釈データを変換して、前記第２情報処理装置が理解可能な変換データを生成させ、前記第２情報処理装置に送信させるプログラム。