WO2024069975A1

WO2024069975A1 - 学習装置、推定装置、学習方法、推定方法及びプログラム

Info

Publication number: WO2024069975A1
Application number: PCT/JP2022/036822
Authority: WO
Inventors: 克洋鈴木; 済央野本; 亮北原
Original assignee: 日本電信電話株式会社
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-04

Abstract

処理装置（１０）は、ユーザＡの個人特性と、ユーザＡにおける他者に対する信頼度を示す信頼指数と、第１の認識結果と、第１の認識結果に基づくユーザＡの意図及び／またはアクションの推定結果と、を第１の学習データとして、第１のモデルに、ユーザＡが他のユーザのオブジェクトと協調してタスク際のユーザＡの意図及び／またはアクションと、第１の認識結果との関係である第１の関係を学習させる。第１の認識結果は、ユーザＡの協調対象である他のユーザのオブジェクトの画像、音声、及び／または、他のユーザのオブジェクトが作成したテキストである第１のデータに対するユーザＡの画像、音声及び／またはユーザＡが作成したテキストを基に認識されたユーザＡの外観、仕草、表情、声色、感情及び／または言語情報に関する。

Description

学習装置、推定装置、学習方法、推定方法及びプログラム

　本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。

　ニューラルネットワーク等を用いて、実在するユーザのタスクや発言からデータを取得する技術や、ロールプレイングゲームに登場する架空の人物を追加する技術が提案されている。このように、ニューラルネットワーク等を用いた人工知能技術の発展により、例えば、対戦ゲームなどの分野で人間を超える性能を発揮できるようになった。ニューラルネットワークや人工知能の技術は協調作業の分野においても広く研究されている。協調作業では、人工知能は自分の知識のみで推論を行うのではなく、相手を理解して、相手によって思考を変更することが必要となる。協調作業を行う上で、人間と対等な関係を構築する能力や、人間とコミュニケーションを取りながら一緒に仕事をするといった社会的な行動をする能力が求められる。

特開２０００－２７１３４７号公報特開２０１０－１１７８５９号公報

　人間の代理行為を行うことが可能である人工知能技術の開発が望まれている。人工知能が本人の代理行為として人間関係を構築し、経験を本人にフィードバックすることで、その本人は、より多くの機会や経験を得ることができる。しかしながら、特許文献１に記載の技術は、実在する人物をモデルにして登場させることはできず、特定のロールプレイングゲームに用途が限られている。また、特許文献２に記載の技術は、実在するユーザのタスクや発言からデータを取得しているが、ユーザの思考内容を深めるよう支援するに過ぎない。

　このように、従来の技術では、タスクを早く、正確に解くことや、決められたポイントを最大化することはできるものの、人間のような個性を持つモデルがまだ実現できていない。言い換えると、機械学習技術では、協調作業などの相手を理解して、相手によって思考を変更することが必要となるタスクを解くことは難しい。また、従来技術では、特定の用途に限られたモデルや、人間の一部機能しかモデル化できていない。また、特許文献１，２には、本人の代理行為を行うために必要な個性を持つモデルについては言及されていない。

　本発明は、上記に鑑みてなされたものであって、人間のような個性を持った出力を可能とする学習装置、推定装置、学習方法、推定方法及びプログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、他の人物または前記他の人物のオブジェクトの画像、音声、及び／または、前記他の人物または前記他の人物のオブジェクトが作成したテキストである入力データに基づいて、前記他の人物または前記他の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を認識結果として認識する認識部と、第１のモデルを用いて、少なくとも前記認識部による認識結果を基に、自己となる人物の意図及び／またはアクションを推定する推定部と、前記推定部が推定した前記自己となる人物の意図及び／またはアクションを表現した外観、仕草、表情、声色、感情及び／または言語情報を示す、前記自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する生成部と、第１の人物の個人特性と、前記第１の人物における他者に対する信頼度を示す信頼指数と、前記第１の人物の協調対象である第３の人物のオブジェクトの画像、音声、及び／または、前記第３の人物のオブジェクトが作成したテキストである第１のデータに対する前記第１の人物の画像、音声及び／または前記第１の人物が作成したテキストを基に前記認識部によって認識された前記第１の人物の外観、仕草、表情、声色、感情及び／または言語情報に関する第１の認識結果と、前記第１の認識結果に基づく前記第１の人物の意図及び／またはアクションの推定結果と、を第１の学習データとして、前記第１のモデルに、前記第１の人物が前記第３の人物のオブジェクトと協調してタスクを行う際の前記第１の人物の意図及び／またはアクションと、前記第１の認識結果との関係である第１の関係を学習させる学習部と、を有することを特徴とする。

　また、本発明に係る推定装置は、実在する第１の人物の人物と協調してタスクを行う第２の人物または前記第２の人物のオブジェクトの画像、音声、及び／または、前記第２の人物または前記第２の人物のオブジェクトが作成したテキストである第２のデータに基づいて、前記第２の人物または前記第２の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を第２の認識結果として認識する認識部と、前記第１の人物が前記第２の人物または前記第２の人物のオブジェクトと協調してタスクを行う際の前記第１の人物の意図及び／またはアクションと、前記第２の認識結果との関係である第３の関係を学習した第１のモデルと、前記第２の認識結果を基に前記第２の人物または前記第２の人物のオブジェクトの意図及びアクションを推定する第２のモデルと、を用いて、前記第２の人物と協調してタスクを行う際の前記第１の人物の意図及び／またはアクションを推定する推定部と、前記推定部が推定した前記第１の人物の意図及び／またはアクションを表現した外観、仕草、表情、声色、感情及び／または言語情報を示す、前記第１の人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する生成部と、を有することを特徴とする。

　本発明によれば、人間のような個性を持った出力を可能とする。

図１は、実施の形態１に係る処理装置の構成の一例を示す図である。図２は、データ蓄積フェーズを説明する図である。図３は、学習フェーズを説明する図である。図４は、実施の形態１における処理方法の処理手順を示すフローチャートである。図５は、図４に示す推定処理の処理手順を示すフローチャートである。図６は、図４に示す学習処理の処理手順を示すフローチャートである。図７は、実施の形態２に係る処理装置の構成の一例を示す図である。図８は、推定フェーズを説明する図である。図９は、学習フェーズを説明する図である。図１０は、実施の形態２における処理方法の処理手順を示すフローチャートである。図１１は、図１０に示す推定処理の処理手順を示すフローチャートである。図１２は、図１０に示す学習処理の処理手順を示すフローチャートである。図１３は、実施の形態２の変形例に係る処理装置の構成の一例を示す図である。図１４は、実施の形態３に係る処理システムの構成の一例を示す図である。図１５は、実施の形態３における処理方法の手順を示すシーケンス図である。図１６は、プログラムが実行されることにより、処理装置が実現されるコンピュータの一例を示す図である。

　以下に、本願に係る学習装置、推定装置、学習方法、推定方法及びプログラムの実施の形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。

［実施の形態１］
　実施の形態１では、人間のような個性を持った出力を可能とするモデルの学習を実行する処理装置について説明する。実施の形態１では、あるユーザの個性を有する思考モデルの出力を基に、あるユーザが実際に他のユーザと信頼感を構築して協調してタスクを行う場合と同様に、他のユーザと信頼感を構築し、協調タスクを達成することを目標とする。なお、他のユーザは、実在する他の人物のほか、この他の人物の個性を有する思考モデルも含まれる。

　まず、実施の形態１では、あるユーザの個性を有するモデルを生成するために必要な要素が、このユーザの外見、しぐさ、言語情報、人格特性、信頼度であることを定義する。実施の形態１では、これらの各種要素を学習データとして用いることで、例えば、ユーザＡ（第１の人物）の個性を有する思考モデルを生成する。なお、ユーザＡは、実在する人物である。

　そして、ユーザＡの思考モデルが、協調タスクを他のユーザと実行するには、ユーザＡの個性を有するとともに、協調してタスクを行う他のユーザがどのような意図及び／またはアクションを行うかを推定することも必要であると考えられる。

　そこで、実施の形態１では、他のユーザと実際に協調してタスクを行うユーザＡの行動等を収集することで、他のユーザの行動等に対しユーザＡがどのような論理的思考、意図決定、意図生成を行い、実際の行動に至っているかを学習するための学習データ（第１の学習データ）を蓄積する。そして、実施の形態１では、蓄積した第１の学習データを基に、ユーザＡの個性を有する思考モデルの学習を実行する。

［処理装置］
　図１は、実施の形態１に係る処理装置の構成の一例を示す図である。図１に示す処理装置１０は、当初は、汎用的な二つの思考モデル（汎用自己モデル、他者モデル）を搭載する。

　データ蓄積フェーズにおいて、まず、処理装置１０では、一方の思考モデルが、自己（汎用自己モデル）として、自己の意図及び／またはアクションを推定し、この自己の意図及び／またはアクションに対応するデジタルツイン等（第１のデータ）を出力する。実施の形態１では、処理装置１０が、自装置を自己（第３の人物）と見立て、ユーザＡ（第１の人物）を自己と協調してタスクを行う他者として見立て、出力した自己のデジタルツイン等に対するユーザＡの行動等を収集する。

　そして、処理装置１０は、他方の思考モデルを他者モデルとし、この他者モデルが、ユーザＡの行動等を基に、ユーザＡの意図及び／またはユーザＡが次に取るアクションを推定して、汎用自己モデルに出力する。処理装置１０は、ユーザＡの行動等を蓄積するとともに、他者モデルで推定したユーザＡの意図及び／またはアクションを蓄積する。

　学習フェーズにおいて、処理装置１０は、蓄積した学習データを基に、他者モデルの学習を実行する。処理装置１０は、この学習によって生成された、ユーザＡの個性を有する他者モデルを、自己モデルに転写し、以降の処理（後述する実施の形態２，３参照）では、転写した自己モデルを用いて、他のユーザ（ユーザＢ（第２の人物））と協調してタスクを行う際のユーザＡの意図及び／またはアクションを推定する。

　処理装置１０は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。処理装置１０は、受付部２０、推定処理部３０、出力部４０及び学習部５０を有する。

　受付部２０は、ユーザＡの行動等を示す情報の入力を受け付ける。具体的には、ユーザＡの行動は、処理装置１０が出力した、自己である人物の意図及び／またはアクションに対応する画像、音声またはテキストに対して取った行動である。ユーザＡの行動等を示す情報は、例えば、ユーザＡの画像、ユーザＡの音声、及び／または、ユーザＡが作成したテキストである。

　推定処理部３０は、受付部２０が受け付けたユーザＡの行動等を示す情報を認識し、少なくとも該認識結果（第１の認識結果）を基に汎用自己モデル３３（後述）が推定した、自己の意図及び／またはアクションに対応する情報を出力する。推定処理部３０は、例えば、自己である汎用自己モデル３３の意図及び／またはアクションに対応させた、汎用的に使用される人物モデルの画像（例えば、３次元または２次元のオブジェクトの画像やデジタルツイン）、音声、及び／または、テキスト等を出力する。

　汎用自己モデル３３は、ユーザＡの行動等に関する認識結果とともに、ユーザＡの行動等を基に他者モデル３４Ａ（後述）で推定されたユーザＡの意図及び／またはアクションを入力として、自己の意図及び／またはアクションを推定してもよい。

　推定処理部３０は、第１の認識結果、他者モデル３４Ａで推定したユーザＡの意図及び／またはアクションを蓄積する。また、推定処理部３０は、ユーザＡによるアンケート等から取得したユーザＡの個人特性、ユーザＡにおける他者に対する信頼度を示す信頼指数を取得し、ＤＢ３６（後述）に蓄積する。

　学習部５０は、ＤＢ３６に蓄積されたデータのうち、第１の学習データを用いて、他者モデル３４ＡにユーザＡの個性を学習させる。第１の学習データは、ユーザＡの人物の個人特性と、ユーザＡにおける他者に対する信頼度を示す信頼指数と、ユーザＡの行動等に関する第１の認識結果と、他者モデル３４Ａが推定したユーザＡの意図及び／またはアクションの推定結果とを蓄積したデータである。第１の学習データは、汎用自己モデル３３によって推定された、自己となる人物の意図及びアクションとを含んでもよい。また、第１の学習データは、汎用自己モデルの個人特性情報と信頼指数も含んでもよい。

　学習部５０は、学習後の他者モデル３４Ａを汎用自己モデル３３に転写し、以降の処理（後述する実施の形態２，３参照）では、ユーザＡの個性を有する自己モデル３３Ａ（後述）（第１のモデル）を用いて、他のユーザ（ユーザＢ）と協調してタスクを行う際のユーザＡの意図及び／またはアクションを推定する。

　続いて、推定処理部３０について説明する。推定処理部３０は、認識部３１、汎用自己モデル３３及び他者モデル３４Ａを有する推定部３２、生成部３５及び出力部４０を有する。

　認識部３１は、画像、音声、テキストの入力を受け付けて、推定部３２が処理可能である形式の情報へと変換する。例えば、認識部３１は、受付部２０が受け付けたユーザＡの画像、音声及び／またはテキストを基に、ユーザＡの外観（例えば、３次元オブジェクト（３次元モデル））、仕草（例えば、ポーズ）、表情、声色、感情及び／または言語情報を認識し、この認識結果（第１の認識結果）を、推定部３２及びＤＢ３６に出力する。認識部３１は、推定部３２（後述）が推定した意図及び／アクションとの対応付けが判別できるように、第１の認識結果に、この第１の認識結果を識別可能である識別情報（例えば、識別ＩＤ）、または、タイムスタンプを付して出力する。

　認識部３１は、例えば、画像解析による表情認識及び感情認識の技術を適用する。また、認識部３１は、顔と体と手の特徴点に基づく外観認識または仕草認識の技術を適用する。また、認識部３１は、音声解析による声色認識、感情認識、言語情報認識の認識技術を適用する。

　推定部３２は、認識部３１による認識結果を入力として受け付ける。推定部３２は、少なくとも第１の認識結果を基に、汎用自己モデル３３を用いて、自己となる人物の意図及び／またはアクションを推定する。

　他者モデル３４Ａは、他者であるユーザＡがどのような論理的思考、意図決定、意図生成を行っているのか推定する。他者モデル３４Ａは、第１の認識結果を基に、他者となるユーザＡの意図及び／またはアクションを推定し、汎用自己モデル３３及びＤＢ３６に出力する。他者モデル３４Ａは、第１の認識結果との対応付けが判別できるように、推定した意図及び／またはアクションに、この意図及び／またはアクションに、認識部３１が第１の認識結果に付与した識別情報と対応する識別情報（例えば、識別ＩＤ）、または、タイムスタンプを付して出力する。

　汎用自己モデル３３は、自己となる人物の論理的思考、意図決定、意図生成などを推定する。例えば、汎用自己モデル３３は、第１の認識結果とＤＢ３６の情報とから、他者であるユーザＡの意図を理解し、自己となる人物の意図と、自己となる人物が今から取るべきアクションとを推定する。

　汎用自己モデル３３は、第１の認識結果に加え、他者モデル３４Ａによる推定結果を入力として受け付け、自己となる人物の意図及び／またはアクションを推定してもよい。推定部３２は、汎用自己モデル３３が推定した、自己となる人物の意図及び／またはアクションを生成部３５及びＤＢ３６に出力する。

　生成部３５は、推定部３２から入力された、自己となる人物の意図及び／アクションを、他者に伝わる形態の情報に変換する。生成部３５は、推定部３２が推定した、自己となる人物の意図及び／またはアクションを表現した、自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する。例えば、生成部３５は、自己となる人物の外観（例えば、３次元オブジェクト（３Ｄモデル））、仕草（例えば、ポーズ）、表情、音声、及び／または、言語情報を示す、画像、音声、テキストを生成する。

　ＤＢ３６は、例えば、推定部３２が有する各種モデルの学習データを記憶する。ＤＢ３６は、各ユーザによるアンケート等から取得した各ユーザの個人特性情報３６１（例えば、Big　Five）、各ユーザの他のユーザに対する信頼度を示す信頼指数３６２（例えば、Rapport）を記憶する。個人特性情報３６１及び信頼指数３６２は、協調してタスクを行う関係者全員について記憶される。

　ＤＢ３６は、認識部３１から出力された認識結果、及び、推定部３２から出力された意図及び／またはアクションを蓄積情報群３６３として記憶する。意図及びアクションは、汎用自己モデル３３によって推定された自己となる人物の意図及びアクションのほか、他者モデル３４Ａによって推定された他者であるユーザＡの意図及びアクションを含む。

　出力部４０は、生成部３５が生成した自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を、出力対象に応じた形式で出力する。例えば、出力部４０は、ディスプレイ及びスピーカーを有する端末装置であり、自己となる人物のオブジェクトの画像、音声、テキストを、他者であるユーザＡに対して出力する。また、出力部４０は、ユーザＡとの間でコントローラを用いてゲーム等を行っている場合には、コントローラに対する操作情報を、ゲーム制御装置に出力する。

［データ蓄積フェーズ］
　続いて、学習データを蓄積するデータ蓄積フェーズの処理について説明する。図２は、データ蓄積フェーズを説明する図である。図２では、ユーザＡを他者として、各種データを蓄積する場合について説明する。なお、ＤＢ３６には、予め、ユーザＡの個人特性情報及び信頼指数が格納されている。

　図２に示すように、処理装置１０では、ユーザＡの画像、音声及び／またはテキストをの入力を受け付けて（ステップＳ１）、認識部３１が、他者であるユーザＡの外観、仕草、表情、声色、感情及び／または言語情報を認識する。認識部３１は、認識結果を、第１の認識結果として、汎用自己モデル３３、他者モデル３４Ａ及びＤＢ３６に出力する（ステップＳ２－１，Ｓ２－２，Ｓ２－３）。ＤＢ３６は、第１の認識結果を、蓄積情報群３６３に蓄積する。

　他者モデル３４Ａは、第１の認識結果を基に、他者となるユーザＡの意図及びアクションを推定し、汎用自己モデル３３及びＤＢ３６に出力する（ステップＳ３－１、Ｓ３－２）。他者モデル３４Ａは、時間ｎの時の認識結果から時間ｎ＋１の時のユーザＡの意図及び／またはアクションを推定する。ＤＢ３６は、他者モデル３４Ａによって推定された、他者となるユーザＡの意図及びアクションを、蓄積情報群３６３に蓄積する。

　汎用自己モデル３３は、第１の認識結果と、他者モデル３４Ａによる推定結果とを基に、自己となる人物の意図及び／またはアクションを推定し、生成部３５及びＤＢ３６に出力する（ステップＳ４－１、Ｓ４－２）。ＤＢ３６は、汎用自己モデル３３によって推定された、自己となる人物の意図及び／またはアクションを、蓄積情報群３６３に蓄積する。

　生成部３５は、推定部３２が推定した、自己となる人物の意図及び／またはアクションを表現した仕草、表情、音声、及び／または、言語情報を示す、自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する（ステップＳ５）。

　出力部４０は、生成部３５が生成した自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報（第１のデータ）を、他者であるユーザＡに対して出力する（ステップＳ６）。

　そして、受付部２０は、出力部４０による出力に対するユーザＡの画像、音声及び／またはテキストの入力を受け付ける（ステップＳ１）。処理装置１０は、ステップＳ１～ステップＳ６の処理を繰り返すことで、ＤＢ３６に、蓄積情報群３６３を蓄積する。

［学習フェーズ］
　次に、学習フェーズの処理について説明する。図３は、学習フェーズを説明する図である。図３では、処理装置１０は、他者モデル３４Ａに対する学習を行うことによって、ユーザＡの個性を有するモデルを生成する場合について説明する。

　まず、学習部５０は、学習タイミングであるか否かを判定する。学習タイミングは、例えば、予め設定された所定の日時に達した場合、所定量の協調タスクが終了した場合、ＤＢ３６の蓄積情報群３６３のデータ量が所定量に達した場合などである。

　学習部５０は、学習タイミングであると判定した場合、推定処理部３０の他者モデル３４Ａの学習を開始する（ステップＳ１１）。

　まず、学習フェーズでは、ＤＢ３６に蓄積された各種データのうち、他者モデル３４Ａの学習に使用する第１の学習データを読み出す（ステップＳ１２）。

　具体的には、第１の学習データとして、ユーザＡの個人特性情報３６１、及び、ユーザＡの信頼指数３６２を使用する。第１の学習データとして、認識部３１によるユーザＡの認識結果（第１の認識結果）を使用する。第１の認識結果は、処理装置１０が出力した画像、音声及び／またはテキストに対する、時間ｎにおけるユーザＡの画像、音声及び／またはユーザＡが作成したテキストを基に認識された認識部３１による認識結果であり、ユーザＡの外観、仕草、表情、声色、感情及び／または言語情報に関する。

　そして、第１の学習データとして、他者モデル３４Ａによって推定された、他者であるユーザＡの時間時間ｎ＋１での意図及びアクションと、汎用自己モデル３３によって推定された、自己（第３の人物）の時間時間ｎ＋１での意図及びアクションとを使用する。また、教師データとして、ユーザＡの時間ｎ＋１での認識部３１による認識結果を用いる。

　学習部５０は、第１の学習データを用いて、他者モデル３４Ａに第１の関係を学習させる。第１の関係は、ユーザＡが処理装置１０（自己（第３の人物））と協調してタスクを行う際のユーザＡの意図及び／またはアクションと、第１の認識結果との関係である。学習部５０は、時間ｎの時のユーザＡに対する認識部３１による認識結果に基づいて時間ｎ＋１のユーザＡの意図及び／またはアクションを推定した推定結果と、教師データである時間ｎ＋１の時のユーザＡに対する認識部３１による認識結果との差が最も小さくなるように他者モデル３４Ａの学習を実行する。

　ここで、処理装置１０の出力（第１のデータ）は、自己（汎用自己モデル３３）となる人物のオブジェクトの画像、音声、及び／または、自己となる人物のオブジェクトが作成したテキストである。第１の認識結果は、処理装置１０の出力（第１のデータ）に対するユーザＡの画像の画像、音声及び／またはテキストを基に、認識部３１によって認識された認識結果である。

　これによって、他者モデル３４Ａは、ユーザＡが、他のユーザと協調してタスクを行う際に、どのような論理的思考、意図決定、意図生成を行っているのか推定することができる。学習部５０は、学習が終了した他者モデル３４Ａを、汎用自己モデル３３に転写し（ステップＳ１３）、以降、自己モデル３３Ａ（後述）とする。

［処理方法］
　次に、実施の形態１の処理装置１０が実行する処理方法の処理手順について説明する。図４は、実施の形態１における処理方法の処理手順を示すフローチャートである。

　図４に示すように、処理装置１０は、処理装置１０による出力に対する他者であるユーザＡの画像、音声及び／またはテキストの入力を受け付けて（ステップＳ２１）、自己の意図及び／またはアクションを推定する推定処理を行う（ステップＳ２２）。

　処理装置１０は、推定処理において推定された自己となる人物の意図及び／またはアクションを表現した、自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を出力する（ステップＳ２３）。

　処理装置１０は、ユーザＡとの協調タスクが終了したか否かを判定する（ステップＳ２４）。ユーザＡとの協調タスクが終了していない場合（ステップＳ２４：Ｎｏ）、ステップＳ２１に戻る。処理装置１０は、ステップＳ２１～ステップＳ２４を繰り返すことによって、第１の学習データを蓄積する。

　ユーザＡとの協調タスクが終了している場合（ステップＳ２４：Ｙｅｓ）、処理装置１０は、学習タイミングであるか否かを判定する（ステップＳ２５）。学習タイミングでない場合（ステップＳ２５：Ｎｏ）、処理装置１０は、例えば、一旦処理を終了する。

　学習タイミングである場合（ステップＳ２５：Ｙｅｓ）、処理装置１０は、第１の学習データを基に、モデルの学習を実行する学習処理を実行する（ステップＳ２６）。実施の形態１の学習処理は、他者モデル３４ＡがユーザＡの個性を有するように、他者モデル３４Ａに対して学習を実行する。

　そして、処理装置２６は、他者モデル３４Ａを汎用自己モデル３３に転写し（ステップＳ２７）、処理を終了する。

［推定処理］
　次に、推定処理（ステップＳ２２）について説明する。図５は、図４に示す推定処理の処理手順を示すフローチャートである。

　図５に示すように、推定処理部３０では、認識部３１が、ユーザＡの画像、音声及び／またはテキストを基に、ユーザＡの外観、仕草、表情、声色、感情及び／または言語情報を認識する認識処理を行う(ステップＳ３１)。認識部３１は、ユーザＡの認識結果（第１の認識結果）を汎用自己モデル３３、他者モデル３４Ａ及びＤＢ３６に出力する。

　他者モデル３４Ａは、第１の認識結果を基に、他者となるユーザＡの意図及びアクションを推定する（ステップＳ３２）。他者モデル３４は、時間ｎの時のユーザＡに対する認識部３１による認識結果を基に、時間ｎ＋１の時のユーザＡの意図及び／またはアクションを推定する。他者モデル３４Ａは、推定したユーザＡの意図及びアクションを汎用自己モデル３３に出力するとともに、ＤＢ３６に格納する（ステップＳ３３）。

　汎用自己モデル３３は、第１の認識結果と、他者モデル３４Ａによる推定結果とを基に、自己となる人物の意図及び／またはアクションを推定する（ステップＳ３４）。汎用自己モデル３３は、推定した自己となる人物の意図及びアクションを生成部３５に出力するとともに、ＤＢ３６に格納する（ステップＳ３５）。

　生成部３５は、例えば、自己となる人物の３次元オブジェクト（３Ｄモデル）、そのポーズ、表情、音声、言語情報仕草、表情、音声、及び／または、言語情報を示す、自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する（ステップＳ３６）。

［学習処理］
　次に、学習処理（ステップＳ２６）について説明する。図６は、図４に示す学習処理の処理手順を示すフローチャートである。

　図６に示すように、推定処理部３０は、学習部５０の制御の基、ＤＢ３６に蓄積された各種データのうち、第１の学習データを取得する（ステップＳ４１）。第１の学習データは、ユーザＡの個人特性情報３６１、ユーザＡの信頼指数３６２、時間ｎの時のユーザＡに対する認識部３１による第１の認識結果、第１の認識結果を基に他者モデル３４Ａによって推定された時間ｎ＋１の時のユーザＡの意図及びアクションと、第１の認識結果を基に汎用自己モデル３３によって推定された、自己となる人物の時間ｎ＋１での意図及びアクションとを使用する。教師データは、ユーザＡの時間ｎ＋１での認識部３１による認識結果を用いる。

　学習部５０は、第１の学習データを用いて他者モデル３４Ａに第１の関係を学習させ、他者モデル３４Ａのパラメータを最適化する（ステップＳ４２）。

［実施の形態１の効果］
　このように、実施の形態１では、実際の人物をモデル化するために必要な要素として、外見、しぐさ、言語情報、性格特性、信頼度を学習データとして用いることによって、ユーザＡをモデル化することができる。また、実施の形態１では、ユーザＡが他者と協調してタスクを行っている状態の、ユーザＡの行動等に関するデータを第１の学習データに含めてモデル学習を行うため、他者と協調してタスクを行うユーザＡの思考を推定することができるモデルを実現できた。処理装置１０は、人間の持つ個性をモデル化することができるため、様々な協調タスクに適用することができる。

［実施の形態２］
　次に、実施の形態２について説明する。実施の形態２に係る処理装置は、実施の形態１において学習されたユーザＡ（第１の人物）の個性を有する自己モデル３３Ａ（後述）（第１のモデル）を用いて、他者であるユーザＢ（第２の人物）と協調してタスクを実行する。なお、ユーザＢは、実在する他のユーザＢ自身のほか、ユーザＢの人物の個性を有する思考モデルも含まれる。

［処理装置］
　図７は、実施の形態２に係る処理装置の構成の一例を示す図である。処理装置２１０は、処理装置１０と同様の機能を有する。処理装置２１０は、受付部２０と、推定部２３２を有する推定処理部２３０と、出力部４０と、学習部２５０とを有する。

　受付部２０は、ユーザＢの行動等を示す情報の入力を受け付ける。具体的には、ユーザＢの行動は、処理装置２１０が出力した、自己である人物（ユーザＡ）の意図及び／またはアクションに対応する画像、音声またはテキストに対して取った行動である。ユーザＢの行動等を示す情報（第２のデータ）は、例えば、ユーザＢまたはユーザＢのオブジェクトの画像、ユーザＢの音声、及び／または、ユーザＢまたはユーザＢのオブジェクトが作成したテキストである。

　推定処理部２３０は、認識部３１、推定部２３２、生成部３５、ＤＢ３６及び出力部４０を有する。

　認識部３１は、第２のデータに基づいて、ユーザＢの人物またはユーザＢのオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を、第２の認識結果として認識する。認識部３１は、第２の認識結果を、推定部２３２及びＤＢ３６に出力する。認識部３１は、推定部２３２（後述）が推定した意図及び／アクションとの対応付けが判別できるように、第２の認識結果に、この第２の認識結果を識別可能である識別情報（例えば、識別ＩＤ）、または、タイムスタンプを付して出力する。

　推定部２３２は、実施の形態１の処理において転写された、ユーザＡの個性を有する自己モデル３３Ａ（第１のモデル）と、処理当初は汎用的思考モデルである他者モデル３４Ｂ（第２のモデル）とを搭載する。

　他者モデル３４Ｂは、第２の認識結果を基に、他者であるユーザＢがどのような論理的思考、意図決定、意図生成を行っているのか推定し、ユーザＢまたはユーザＢのオブジェクトの意図及びアクションを推定する。他者モデル３４Ｂは、推定結果を自己モデル３３Ａ及びＤＢ３６に出力する。他者モデル３４Ｂは、第２の認識結果との対応付けが判別できるように、推定した意図及び／またはアクションに、この意図及び／またはアクションに、認識部３１が第２の認識結果に付与した識別情報と対応する識別情報（例えば、識別ＩＤ）、または、タイムスタンプを付して出力する。

　自己モデル３３Ａは、ユーザＡの個性を学習した思考モデルであり、自己となるユーザＡの論理的思考、意図決定、意図生成などを推定する。自己モデル３３Ａは、第２の認識結果と、他者モデル３４Ｂによる推定結果とを基に、ユーザＢと協調してタスクする際のユーザＡの意図及び／またはアクションを推定する。自己モデル３３Ａは、推定結果を生成部３５及びＤＢ３６に出力する。自己モデル３３Ａは、第２の認識結果との対応付けが判別できるように、推定した意図及び／またはアクションに、この意図及び／またはアクションに、認識部３１が第２の認識結果に付与した識別情報と対応する識別情報（例えば、識別ＩＤ）、または、タイムスタンプを付して出力する。

　生成部３５は、自己モデル３３Ａが推定したユーザＡの意図及び／またはアクションを表現した仕草、表情、音声、及び／または、言語情報を示す、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する。出力部４０は、ユーザＡのオブジェクトの画像、音声、テキストを、他者であるユーザＢに対して出力する。

　ＤＢ３６は、第２の認識結果、及び、自己モデル３３Ａ及び他者モデル３４Ｂの推定結果を蓄積情報群３６３として記憶する。

　学習部２５０は、ＤＢ３６に格納されたデータのうち、第２の学習データを用いて、他者モデル３４Ｂに、第２の関係を学習させる。

　第２の学習データは、ユーザＢの個人特性と、ユーザＢにおける他者に対する信頼度を示す信頼指数と、時間ｎでの認識部３１によるユーザＢに対する第２の認識結果と、他者モデル３４Ｂによる時間時間ｎ＋１でのユーザＢの意図及び／またはアクションの推定結果とを含む。そして、第２の学習データは、ユーザＡの個人特性と、ユーザＡにおける他者に対する信頼度を示す信頼指数と、自己モデル３３Ａによる時間時間ｎ＋１でのユーザＡの意図及び／またはアクションの推定結果を含む。教師データは、ユーザＢの時間ｎ＋１での認識部３１による認識結果である。

　第２の関係は、ユーザＢまたはユーザＢのオブジェクトがユーザＡと協調してタスクを行う際のユーザＢまたはユーザＢのオブジェクトの意図及び／またはアクションと、第２の認識結果との関係である。

　学習部２５０は、他者モデル３４Ｂに第２の関係を学習させるとともに、第２の学習データを用いて、自己モデル３３Ａに、第３の関係を学習させる。第３の関係は、ユーザＡがユーザＢまたはユーザＢのオブジェクトと協調してタスクを行う際のユーザＡの意図及び／またはアクションと、第２の認識結果との関係である。

［推定フェーズ］
　続いて、ユーザＡの意図及ぶ／アクションを推定しながら、ユーザＢと協調してタスクを行う推定フェーズの処理について説明する。図８は、推定フェーズを説明する図である。推定フェーズでは、学習用の各種データの蓄積も行う。なお、ＤＢ３６には、予め、ユーザＡ，Ｂの個人特性情報及び信頼指数が格納されている。

　図８に示すように、処理装置２１０では、ユーザＢの画像、音声及び／またはテキストの入力を受け付けて（ステップＳ２０１）、認識部３１が、他者であるユーザＢの外観、仕草、表情、声色、感情及び／または言語情報を認識する。認識部３１は、認識結果を、第２の認識結果として、自己モデル３３Ａ、他者モデル３４Ｂ及びＤＢ３６に出力する（ステップＳ２０２－１，Ｓ２０２－２，Ｓ２０２－３）。ＤＢ３６は、第２の認識結果を、蓄積情報群３６３に蓄積する。

　他者モデル３４Ｂは、第２の認識結果を基に、他者となるユーザＢの意図及びアクションを推定し、自己モデル３３Ａ及びＤＢ３６に出力する（ステップＳ２０３－１、Ｓ２０３－２）。他者モデル３４Ｂは、時間ｎの時の認識結果を基に、時間ｎ＋１の時のユーザＢの意図及び／またはアクションを推定する。ＤＢ３６は、他者モデル３４Ｂによって推定された、他者となるユーザＢの意図及びアクションを、蓄積情報群３６３に蓄積する。

　自己モデル３３Ａは、第２の認識結果と、他者モデル３４Ｂによる推定結果とを基に、自己となるユーザＡの意図及び／またはアクションを推定し、生成部３５及びＤＢ３６に出力する（ステップＳ２０４－１、Ｓ２０４－２）。自己モデル３３Ａは、時間ｎの時の認識結果と、時間ｎ＋１の時のユーザＢの意図及び／またはアクションとを基に、時間ｎ＋１の時のユーザＡの意図及び／またはアクションを推定する。ＤＢ３６は、自己モデル３３Ａによって推定された、自己となるユーザＡの意図及び／またはアクションを、蓄積情報群３６３に蓄積する。

　生成部３５は、推定部３２が推定した、ユーザＡの意図及び／またはアクションを表現した仕草、表情、音声、及び／または、言語情報を示す、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する（ステップＳ２０５）。

　出力部４０は、生成部３５が生成したユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を、他者であるユーザＢに対して出力する（ステップＳ２０６）。

　そして、受付部２０は、出力部４０による出力に対するユーザＢの画像、音声及び／またはテキストの入力を受け付ける（ステップＳ２０１）。

　処理装置２１０は、ステップＳ２０１～ステップＳ２０６の処理を繰り返す。すなわち、ユーザＢの行動等に関するデータを受け付け、それに対するユーザＢの意図及び／またはアクションを推定して、デジタルツイン等を出力する処理を送り返す。これら処理の繰り返しを行うことで、処理装置２１０は、ユーザＡを自己とし、ユーザＢとの間で協調してタスクを実行することができる。それとともに、処理装置２１０は、ＤＢ３６に、学習用の蓄積情報群３６３を蓄積する。

［学習フェーズ］
　次に、学習フェーズの処理について説明する。図９は、学習フェーズを説明する図である。図９では、処理装置２１０は、他者モデル３４Ｂに対する学習を行うことによって、ユーザＢの意図及び／またはアクションを推定するモデルを生成するとともに、自己モデル３３Ａに対する学習を行うことによって、ユーザＢと協調してタスクを行う場合のユーザの意図及び／またはアクションを推定できるモデルについて説明する。

　まず、学習部２５０は、学習タイミングであるか否かを判定する。学習タイミングは、例えば、予め設定された所定の日時に達した場合、所定量の協調タスクが終了した場合、ＤＢ３６の蓄積情報群３６３のデータ量が所定量に達した場合などである。

　学習部２５０は、学習タイミングであると判定した場合、推定処理部２３０の他者モデル３４Ｂ及び自己モデル３３Ａの学習を開始する（ステップＳ２１１）。

　まず、学習フェーズでは、ＤＢ３６に蓄積された各種データのうち、他者モデル３４Ｂ及び自己モデル３３Ａの学習に使用する第２の学習データを読み出す（ステップＳ２１２）。

　そして、学習部２５０は、第２の学習データを用いて、他者モデル３４Ｂに、第２の関係を学習させる（ステップＳ２１２）。学習部２５０は、時間ｎの時のユーザＢに対する認識部３１による認識結果に基づいて推定された時間ｎ＋１の時のユーザＢの意図及び／またはアクションと、教師データである時間ｎ＋１の時のユーザＢに対する認識部３１による認識結果と、の差が最も小さくなるように他者モデル３４Ａの学習を実行する。これとともに、学習部２５０は、第２の学習データを用いて、自己モデル３３Ａに、第３の関係を学習させる（ステップＳ２１３）。

［処理方法］
　次に、実施の形態２の処理装置２１０が実行する処理方法の処理手順について説明する。図１０は、実施の形態２における処理方法の処理手順を示すフローチャートである。

　図１０に示すように、処理装置２１０は、他者であるユーザＢの画像、音声及び／またはテキストの入力を受け付けて（ステップＳ２２１）、自己（ユーザＡ）の意図及び／またはアクションを推定する推定処理を行う（ステップＳ２２２）。

　処理装置２１０は、ユーザＡの意図及び／またはアクションを表現した、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を出力する（ステップＳ２２３）。

　処理装置２１０は、ユーザＢとの協調タスクが終了したか否かを判定する（ステップＳ２２４）。ユーザＢとの協調タスクが終了していない場合（ステップＳ２２４：Ｎｏ）、ステップＳ２２１に戻る。処理装置２１０は、ステップＳ２２１～ステップＳ２２４を繰り返すことによって、ユーザＢと協調してタスクを行う。

　処理装置２１０は、ユーザＢとの協調タスクが終了している場合（ステップＳ２２４：Ｙｅｓ）、図４に示すステップＳ２５と同じ処理であるステップＳ２２５を実行する。

　学習タイミングである場合（ステップＳ２２５：Ｙｅｓ）、処理装置２１０は、処理装置１０は、第２の学習データを基に、モデルの学習を実行する学習処理を実行する（ステップＳ２２６）。

［推定処理］
　次に、推定処理（ステップＳ２２２）について説明する。図１１は、図１０に示す推定処理の処理手順を示すフローチャートである。

　図１１に示すように、推定処理部３３０では、認識部３１が、ユーザＢの画像、音声及び／またはテキストを基に、ユーザＢの外観、仕草、表情、声色、感情及び／または言語情報を認識する認識処理を行う(ステップＳ２３１)。認識部３１は、ユーザＢの認識結果（第２の認識結果）を自己モデル３３Ａ、他者モデル３４Ｂ及びＤＢ３６に出力する。

　他者モデル３４Ｂは、第３の認識結果を基に、ユーザＢの意図及びアクションを推定し（ステップＳ２３２）、自己モデル３３Ａへの出力、及び、ＤＢ３６への格納を行う（ステップＳ２３３）。

　自己モデル３３Ａは、第２の認識結果と、他者モデル３４Ｂによる推定結果とを基に、自己となるユーザＡの意図及び／またはアクションを推定し（ステップＳ２３４）、生成部３５への出力、及び、ＤＢ３６への格納を行う（ステップＳ２３５）。

　生成部３５は、例えば、自己となるユーザＡの仕草、表情、音声、及び／または、言語情報を示す、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する（ステップＳ２３６）。

［学習処理］
　次に、学習処理（ステップＳ２２６）について説明する。図１２は、図１０に示す学習処理の処理手順を示すフローチャートである。

　図１２に示すように、推定処理部２３０は、学習部２５０の制御の基、ＤＢ３６に蓄積された各種データのうち、第２の学習データを取得する（ステップＳ２４１，Ｓ２４３）。第２の学習データは、ユーザＡ，Ｂの個人特性と、ユーザＡ，Ｂにおける他者に対する信頼度を示す信頼指数と、時間ｎでの認識部３１によるユーザＢに対する第２の認識結果と、他者モデル３４Ｂによる時間時間ｎ＋１でのユーザＢの意図及び／またはアクションの推定結果と、自己モデル３３Ａによる時間時間ｎ＋１でのユーザＡの意図及び／またはアクションの推定結果とを含む。教師データは、ユーザＢの時間ｎ＋１での認識部３１による認識結果である。

　学習部２５０は、ＤＢ３６に格納されたデータのうち、第２の学習データを用いて、他者モデル３４Ｂに第２の関係を学習させ、他者モデル３４Ｂのパラメータを最適化する（ステップＳ２４２）。

　学習部２５０は、第２の学習データを用いて、自己モデル３３Ａに、第３の関係を学習させ、自己モデル３３Ａのパラメータを最適化する（ステップＳ２４４）。

［実施の形態２の効果］
　ユーザＡは、実際にユーザＢと協調してタスクを行っている場合、ユーザＢの表情や仕草等を基に、ユーザＢの意図及び／アクションを予測しながら、自己の思考及び／またはアクションを決定している。

　実施の形態２では、推定部２３２に、他者モデル３４Ｂを持たせ、自己モデル３３Ａに、他者であるユーザＢに対する第２の認識結果に加え、さらに、他者モデル３４ＢによるユーザＢの思考及び／またはアクションの推定結果を入力する。そして、自己モデル３３Ａは、第２の認識結果に加え、さらに、他者モデル３４ＢによるユーザＢの思考及び／またはアクションの推定結果を基に、ユーザＡの思考及び／またはアクションを推定している。

　このため、自己モデル３３Ａは、実際にユーザＢと協調してタスクを行っている場合のユーザＡと近似した意図及び／アクションを推定することができるといえる。したがって、処理装置２１０は、ユーザＡが実際に行うように、ユーザＢと信頼感を構築し、ユーザＢと協調して円滑にタスクを実行することができる。

　そして、処理装置２１０は、ユーザＢとの間で協調してタスクを行っている間も、自己モデル３３Ａ及び他者モデル３４Ｂにおいて、それぞれ推定された意図及び／またはアクションを、自己或いは他者の特性を示すものとしてＤＢ３６に蓄積価値観データベースに蓄積している。このため、処理装置２１０は、協調タスクを行う間も自己モデル３３Ａ及び他者モデル３４Ｂを成長させていくことができる。

［実施の形態２の変形例］
　図１３は、実施の形態２の変形例に係る処理装置の構成の一例を示す図である。図１３に示すように、実施の形態２の変形例に係る処理装置２１０－１は、ユーザＢ及びユーザＣと協調してタスクを行う。

　この際、処理装置２１０－１は、ユーザＢの画像、音声、及び／または、ユーザＢが作成したテキストを受ける受付部２０Ｂと、ユーザＣの画像、音声、及び／または、ユーザＣが作成したテキストを受ける受付部２０Ｃと、推定処理部２３０－１と、出力部４０と、他者モデル３４Ｂ，３４Ｃ及び自己モデル３３Ａの学習処理を制御する学習部２５０Ａとを有する。

　推定処理部２３０－１は、受付部２０Ｃが受け付けたデータを基にユーザＣの外観、仕草、表情、声色、感情及び／または言語情報を認識する認識部３１Ｃをさらに有する。推定部２３２－１は、他者モデル３４Ｃをさらに有する。他者モデル３４Ｃは、認識部３１Ｃの認識結果を基に、ユーザＣの意図及び／アクションを推定し、推定結果を自己モデル３３Ａ及びＤＢ３６に出力する。

　自己モデル３３Ａは、認識部３１Ｂ，３１Ｃによる認識結果と、他者モデル３４Ｂ，３４Ｃの推定結果を基に、自己となるユーザＡの意図及び／またはアクションを推定する。そして、生成部３５は、ユーザＡの意図及び／またはアクションを表現した仕草、表情、音声、及び／または、言語情報を示す、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成し、出力部４０から出力する。

　そして、受付部２０Ｂ，２０Ｃは、出力部４０による出力に対するユーザＢ，Ｃの画像、音声及び／またはテキストの入力を受け付ける。以降、処理装置２１０－１は、同様の処理を繰り返すことで、ユーザＡが実際に行うように、ユーザＢ，Ｃと協調してタスクを実行する。

　学習部２５０Ａは、ユーザＡ，Ｂ，Ｃの個人特性と、ユーザＡ，Ｂ，Ｃにおける他者に対する信頼度を示す信頼指数と、認識部３１Ｂ，３１Ｃによる認識結果と、他者モデル３４Ｂ，３４Ｃによる推定結果と、自己モデル３３Ａによる推定結果とを学習データとして、他者モデル３４Ｂ，３４Ｃ及び自己モデル３３Ａの学習を実行する。

　学習部２５０Ａは、他者モデル３４Ｂに、ユーザＢが、ユーザＡ及びユーザＣと協調してタスクを行う際のユーザＢの意図及び／またはアクションと、認識部３１Ｂ，３１Ｃによる認識結果との関係を学習させる。学習部２５０Ａは、他者モデル３４Ｃに、ユーザＣが、ユーザＡ及びユーザＢと協調してタスクを行う際のユーザＣのオブジェクトの意図及び／またはアクションと、認識部３１Ｂ，３１Ｃによる認識結果との関係を学習させる。また、学習部２５０Ａは、自己モデル３３Ａに、ユーザＡがユーザＢ及びユーザＣと協調してタスクを行う際のユーザＡの意図及び／またはアクションと、認識部３１Ｂ，３１Ｃによる認識結果との関係を学習させる。

　このため、処理装置２１０－１は、ユーザＢ，Ｃとの間で協調してタスクを行っている間も、自己モデル３３Ａ及び他者モデル３４Ｂ，３４Ｃにおいて、それぞれ推定された意図及び／またはアクションを、自己或いは他者の特性を示すものとしてＤＢ３６に蓄積価値観データベースに蓄積している。このため、処理装置２１０は、協調タスクを行う間も自己モデル３３Ａ及び他者モデル３４Ｂ，３４Ｃを成長させていくことができる。また、処理装置２１０－１は、協調するユーザが３名以上となる場合には、他者となるユーザごとに他者モデルを持たせて、協調タスクを行う間も学習用データを蓄積し、各モデルの学習を行えばよい。

［実施の形態３］
　次に、実施の形態３について説明する。実施の形態３では、複数の人の処理装置同士がデジタルツインを出力しながら協調してタスクを行う場合、各処理装置が他者となるデジタルツインの行動を認識してそれぞれの他者モデルを更新しながら、更新された他者モデルに基づき自己の意図及び／またはアクションを決定するループシステムを提案する。

［処理システム］
　図１４は、実施の形態３に係る処理システムの構成の一例を示す図である。実施の形態に係る処理システムでは、例えば、ユーザＡの個性を有する自己モデル３３３Ａを有する処理装置３１０Ａと、ユーザＢの個性を有する自己モデル３３３Ｂを有する処理装置３１０Ｂとを有する。

　処理装置３１０Ａは、受付部３２０Ａが、処理装置３１０Ｂから出力されたユーザＢの意図及び／またはアクションを表現した、ユーザＢのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報の入力を受け付ける。推定処理部３３０Ａは、推定部３３２Ａが、自己（ユーザＡ）の意図及び／またはアクションを推定し、生成部３５Ａ及び出力部４０Ａを介して、ユーザＡの意図及び／またはアクションを表現した、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を処理装置３１０Ｂに出力する。

　処理装置３１０Ｂは、受付部３２０Ｂが、処理装置３１０Ａから出力されたユーザＡの意図及び／またはアクションを表現した、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報の入力を受け付ける。そして、推定処理部３３０Ｂは、推定部３３２Ｂが、自己（ユーザＢ）の意図及び／またはアクションを推定し、生成部３５Ｂ及び出力部４０Ｂを介して、ユーザＢの意図及び／またはアクションを表現した仕草、表情、音声、及び／または、言語情報を示す、ユーザＢのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を処理装置３１０Ａに出力する。

　推定部３３２Ａは、処理装置３１０Ｂが出力したユーザＢのオブジェクトの画像、音声、テキストに対する認識部３３１Ａによる認識結果を基に、ユーザＢの意図及び／またはアクションを推定する他者モデル３３４Ｂを有する。自己モデル３３３Ａは、認識部３３１Ａによる認識結果及び他者モデル３３４Ｂの推定結果を基に、ユーザＡの意図及び／またはアクションを推定する。

　推定部３３２Ｂは、処理装置３１０Ａが出力したユーザＡのオブジェクトの画像、音声、テキストに対する認識部３３１Ｂによる認識結果を基に、ユーザＡの意図及び／またはアクションを推定する他者モデル３３４Ａを有する。自己モデル３３３Ｂは、認識部３３１Ｂによる認識結果及び他者モデル３３４Ａの推定結果を基に、ユーザＢの意図及び／またはアクションを推定する。

　このように、ユーザＡのオブジェクトと、ユーザＢのオブジェクトとが協調してタスクを行う場合、ユーザＡのオブジェクトを生成する処理装置３１０Ａと、ユーザＢのオブジェクトを生成する他方の処理装置３１０Ｂとのそれぞれが、それぞれ他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を認識した認識結果を基に、出力する人物のオブジェクトの意図及び／またはアクションを推定する。

　学習部３５０Ａ，３５０Ｂは、学習時には、他方の処理装置３１０Ａ，３１０ＢのＤＢ３６Ａ，３６Ｂが格納する個人特性情報、信頼指数、蓄積情報群を共有し、共有したデータを用いて、それぞれ学習を行う。

　このようにユーザＡのオブジェクトと、ユーザＢのオブジェクトとが協調してタスクを行う場合、ユーザＡのオブジェクトを生成する処理装置３１０Ａと、ユーザＢのオブジェクトを生成する他方の処理装置３１０Ｂとのそれぞれが、他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を認識した認識結果、及び、他方の自己モデル及び他者モデルの推定結果を共有して、自装置の自己モデル及び他者モデルを更新する。

［処理方法］
　次に、実施の形態３の処理システムが実行する処理方法の処理手順について説明する。図１５は、実施の形態３における処理方法の手順を示すシーケンス図である。

　図１５に示すように、処理装置３１０Ａが、処理装置３１０Ｂから、ユーザＢのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報の入力を受け付ける（ステップＳ３０１，Ｓ３０２）。

　処理装置３１０Ａは、自己（ユーザＡ）の意図及び／またはアクションを推定する推定処理を行い（ステップＳ３０３）、ユーザＡの意図及び／またはアクションを表現した、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を処理装置３１０Ｂに出力する（ステップＳ３０４，Ｓ３０５）。ステップＳ３０３は、図１０のステップＳ２２２と同じ処理である。

　処理装置３１０Ｂの処理は、処理装置３１０Ａから、ユーザＡのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報の入力を受け付ける（ステップＳ３０７，Ｓ３０８）。

　処理装置３１０Ｂは、自己（ユーザＢ）の意図及び／またはアクションを推定する推定処理を行い（ステップＳ３０８）、ユーザＢの意図及び／またはアクションを表現した、ユーザＢのオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を処理装置３１０Ａに出力する（ステップＳ３０９，Ｓ３０１）。ステップＳ３０８は、図１０のステップＳ２２２において、ユーザＡをユーザＢに入れ替え、自己モデル３３Ａを自己モデル３３３Ｂに入れ替え、他者モデル３４Ｂを他者モデル３３４Ａに入れ替えた処理となる。

　処理装置３１０Ａ，３１０Ｂは、協調タスクが終了していない場合（ステップＳ３０６：Ｎｏ，ステップＳ３１０：Ｎｏ）、それぞれステップＳ３０２、ステップＳ３０７に戻り、協調タスクを継続する。

　協調タスクが終了しており（ステップＳ３０６：Ｙｅｓ，ステップＳ３１０：Ｙｅｓ）、宅習タイミングである場合（ステップＳ３１１：Ｙｅｓ，ステップＳ３１２：Ｙｅｓ）、処理装置３１０Ａ，３１０Ｂ間で、個人特性、信頼指数、蓄積情報群の共有を行い（ステップＳ３１３）、それぞれ、自己モデル及び他者モデルに対する学習処理を行う（ステップＳ３１４，Ｓ３１５）。

［実施の形態３の効果］
　実施の形態３では、処理装置３１０Ａ，３１０Ｂ同士が、デジタルツイン等を出力しながら協調してタスクを行う場合、各処理装置３１０Ａ，３１０Ｂが他者となるデジタルツインの行動を認識してそれぞれの自己モデル、他者モデルを更新しながら、更新された他者モデルに基づき自己の意図及び／またはアクションを決定するループシステムを構成する。

　このため、処理装置３１０Ａ，３１０Ｂは、学習時には、他方の処理装置３１０Ａ，３１０Ｂが有する個人特性情報、信頼指数、蓄積情報群を共有し、共有したデータを用いて、それぞれ自己モデル及び他者モデルの学習を行う。この結果、処理装置３１０Ａ，３１０Ｂは、自装置が蓄積した情報のみならず、協調対象の他方の装置が蓄積した情報も取得できるため、モデルの学習に必要なデータが集めやすく、適切なモデルを構築しやすい。

　また、人が持つ相手への価値観、経験だけでは、データが不十分である場合や、主観が入る場合があり、正確な情報になりにくい場合がある。これに対し、実施の形態３では、複数の処理装置３１０Ａ，３１０Ｂ間で価値観、各モデルの推定結果を共有することで、各ユーザが持つ不変の価値観はどこにあるのかをより適切に推定できるといえる。

［実施形態のシステム構成について］
　上記に示した処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂの各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂの機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

　また、処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂにおいておこなわれる各処理は、全部または任意の一部が、ＣＰＵおよびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂにおいておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

　また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
　図１６は、プログラムが実行されることにより、処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂが実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂの各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、処理装置１０，２１０，２１０－１，３１０Ａ，３１０Ｂにおける機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３およびプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３およびプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例および運用技術等はすべて本発明の範疇に含まれる。

　１０，２１０，２１０－１，３１０Ａ，３１０Ｂ　処理装置
　２０，２０Ｂ，２０Ｃ，３２０Ａ，３２０Ｂ　受付部
　３０，２３０，２３０－１，３３０Ａ，３３０Ｂ　推定処理部
　３１，３１Ｂ，３１Ｃ，３３１Ａ，３３１Ｂ　認識部
　３２，２３２，２３２－１，３３２Ａ，３３２Ｂ　推定部
　３３　汎用自己モデル
　３３Ａ，３３３Ａ，３３３Ｂ　自己モデル
　３４Ａ，３４Ｂ，３４Ｃ，３３４Ａ，３３４Ｂ　他者モデル
　３５，３５Ａ，３５Ｂ　生成部
　３６，３６Ａ，３６Ｂ　データベース（ＤＢ）
　４０，４０Ａ，４０Ｂ　出力部
　５０，２５０，２５０Ａ，３５０Ａ，３５０Ｂ　学習部
　３６１　個人特性情報
　３６２　信頼指数
　３６３　蓄積情報群

Claims

　他の人物または前記他の人物のオブジェクトの画像、音声、及び／または、前記他の人物または前記他の人物のオブジェクトが作成したテキストである入力データに基づいて、前記他の人物または前記他の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を認識結果として認識する認識部と、
　第１のモデルを用いて、少なくとも前記認識部による認識結果を基に、自己となる人物の意図及び／またはアクションを推定する推定部と、
　前記推定部が推定した前記自己となる人物の意図及び／またはアクションを表現した外観、仕草、表情、声色、感情及び／または言語情報を示す、前記自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する生成部と、
　第１の人物の個人特性と、前記第１の人物における他者に対する信頼度を示す信頼指数と、前記第１の人物の協調対象である第３の人物のオブジェクトの画像、音声、及び／または、前記第３の人物のオブジェクトが作成したテキストである第１のデータに対する前記第１の人物の画像、音声及び／または前記第１の人物が作成したテキストを基に認識された前記第１の人物の外観、仕草、表情、声色、感情及び／または言語情報に関する第１の認識結果と、前記第１の認識結果に基づく前記第１の人物の意図及び／またはアクションの推定結果と、を第１の学習データとして、前記第１のモデルに、前記第１の人物が前記第３の人物のオブジェクトと協調してタスクを行う際の前記第１の人物の意図及び／またはアクションと、前記第１の認識結果との関係である第１の関係を学習させる学習部と、
　を有することを特徴とする学習装置。
　前記認識部は、前記第１の人物と協調してタスクを行う第２の人物または前記第２の人物のオブジェクトの画像、音声、及び／または、前記第２の人物または前記第２の人物のオブジェクトが作成したテキストである第２のデータに基づいて、前記第２の人物または前記第２の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を第２の認識結果として認識し、
　前記推定部は、前記第２の認識結果を基に、前記第２の人物または前記第２の人物のオブジェクトの意図及びアクションを推定する第２のモデルを有し、
　前記第１のモデルは、自己となる人物を前記第１の人物として、前記第２の認識結果と、前記第２のモデルによる推定結果とを基に、前記第２の人物と協調してタスクを行う際の前記第１の人物の意図及び／またはアクションを推定し、
　前記学習部は、前記第１の人物の個人特性と、前記第１の人物における他者に対する信頼度を示す信頼指数と、前記第２の人物の個人特性と、前記第２の人物における他者に対する信頼度を示す信頼指数と、前記第２の認識結果と、前記第２のモデルによる推定結果と、前記第１のモデルによる推定結果と、を第２の学習データとして、前記第２のモデルに、前記第２の人物または前記第２の人物のオブジェクトが前記第１の人物と協調してタスクする際の前記第２の人物または前記第２の人物のオブジェクトの意図及び／またはアクションと、前記第２の認識結果との関係である第２の関係を学習させるとともに、前記第２の学習データを用いて前記第１のモデルに、前記第１の人物が前記第２の人物または前記第２の人物のオブジェクトと協調してタスクを行う際の前記第１の人物の意図及び／またはアクションと、前記第２の認識結果との関係である第３の関係を学習させることを特徴とする請求項１に記載の学習装置。
　前記第１の人物のオブジェクトと、前記第２の人物のオブジェクトとが協調してタスクを行う場合、前記第１の人物のオブジェクトを生成する当該学習装置と、前記第２の人物のオブジェクトを生成する学習装置とのそれぞれが、他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を認識した認識結果、及び、他方の前記第１のモデル及び前記第２のモデルの推定結果を共有して、前記第１のモデル及び前記第２のモデルを更新することを特徴とする請求項２に記載の学習装置。
　実在する第１の人物の人物と協調してタスクを行う第２の人物または前記第２の人物のオブジェクトの画像、音声、及び／または、前記第２の人物または前記第２の人物のオブジェクトが作成したテキストである第２のデータに基づいて、前記第２の人物または前記第２の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を第２の認識結果として認識する認識部と、
　前記第１の人物が前記第２の人物または前記第２の人物のオブジェクトと協調してタスクを行う際の前記第１の人物の意図及び／またはアクションと、前記第２の認識結果との関係である第３の関係を学習した第１のモデルと、前記第２の認識結果を基に前記第２の人物または前記第２の人物のオブジェクトの意図及びアクションを推定する第２のモデルと、を用いて、前記第２の人物と協調してタスクを行う際の前記第１の人物の意図及び／またはアクションを推定する推定部と、
　前記推定部が推定した前記第１の人物の意図及び／またはアクションを表現した外観、仕草、表情、声色、感情及び／または言語情報を示す、前記第１の人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する生成部と、
　を有することを特徴とする推定装置。
　前記第１の人物のオブジェクトと、前記第２の人物のオブジェクトとが協調してタスクを行う場合、前記第１の人物のオブジェクトを生成する当該推定装置と、前記第２の人物のオブジェクトを生成する推定装置とのそれぞれが、それぞれ他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を認識した認識結果を基に、出力する人物のオブジェクトの意図及び／またはアクションを推定することを特徴とする請求項４に記載の推定装置。
　学習装置が実行する学習方法であって、
　他の人物または前記他の人物のオブジェクトの画像、音声、及び／または、前記他の人物または前記他の人物のオブジェクトが作成したテキストである入力データに基づいて、前記他の人物または前記他の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を認識結果として認識する工程と、
　第１のモデルを用いて、少なくとも前記認識する工程における認識結果を基に、自己となる人物の意図及び／またはアクションを推定する工程と、
　前記推定する工程において推定された前記自己となる人物の意図及び／またはアクションを表現した外観、仕草、表情、声色、感情及び／または言語情報を示す、前記自己となる人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する工程と、
　第１の人物の個人特性と、前記第１の人物における他者に対する信頼度を示す信頼指数と、前記第１の人物の協調対象である第３の人物のオブジェクトの画像、音声、及び／または、前記第３の人物のオブジェクトが作成したテキストである第１のデータに対する前記第１の人物の画像、音声及び／または前記第１の人物が作成したテキストを基に認識された前記第１の人物の外観、仕草、表情、声色、感情及び／または言語情報に関する第１の認識結果と、前記第１の認識結果に基づく前記第１の人物の意図及び／またはアクションの推定結果と、を第１の学習データとして、前記第１のモデルに、前記第１の人物が前記第３の人物のオブジェクトと協調してタスクする際の前記第１の人物の意図及び／またはアクションと、前記第１の認識結果との関係である第１の関係を学習させる工程と、
　を含んだことを特徴とする学習方法。
　推定装置が実行する推定方法であって、
　実在する第１の人物の人物と協調してタスクを行う第２の人物または前記第２の人物のオブジェクトの画像、音声、及び／または、前記第２の人物または前記第２の人物のオブジェクトが作成したテキストである第２のデータに基づいて、前記第２の人物または前記第２の人物のオブジェクトの外観、仕草、表情、声色、感情及び／または言語情報を第２の認識結果として認識する工程と、
　前記第１の人物が前記第２の人物または前記第２の人物のオブジェクトと協調してタスクを行う際の前記第１の人物の意図及び／またはアクションと、前記第２の認識結果との関係である第３の関係を学習した第１のモデルと、前記第２の認識結果を基に前記第２の人物または前記第２の人物のオブジェクトの意図及びアクションを推定する第２のモデルと、を用いて、前記第２の人物と協調してタスクを行う際の前記第１の人物の意図及び／またはアクションを推定する工程と、
　前記推定する工程において推定された前記第１の人物の意図及び／またはアクションを表現した外観、仕草、表情、声色、感情及び／または言語情報を示す、前記第１の人物のオブジェクトの画像、音声、テキスト、及び／または、所定の装置に対する操作情報を生成する工程と、
　を含んだことを特徴とする推定方法。
　コンピュータを、請求項１～３のいずれか一つに記載の学習装置、または、請求項４または５に記載の推定装置として機能させるためのプログラム。