WO2021140800A1

WO2021140800A1 - コミュニケーション支援システムおよびコミュニケーション支援プログラム

Info

Publication number: WO2021140800A1
Application number: PCT/JP2020/045302
Authority: WO
Inventors: 由奈翁; 柿井　俊昭; 桂明戴; 細谷　俊史
Original assignee: 住友電気工業株式会社
Priority date: 2020-01-10
Filing date: 2020-12-04
Publication date: 2021-07-15

Abstract

システムは、ユーザが端末を用いて行うコミュニケーションを支援する。システムは、端末に表示されコミュニケーションに参加するエージェントがコミュニケーション状況に応じて動作するように、学習済みモデルを用いてエージェントを制御するための制御データを生成する制御データ生成部を備える。エージェントは、仮想空間内のアバターである。学習済みモデルは、コミュニケーション状況が入力されると、制御データを出力するように、訓練データを用いて生成される。

Description

コミュニケーション支援システムおよびコミュニケーション支援プログラム

　本開示の一側面は、コミュニケーション支援システムおよびコミュニケーション支援プログラムに関する。
　本出願は、２０２０年１月１０日出願の日本出願２０２０－００３１０６号に基づく優先権を主張し、前記日本出願に記載された全ての記載内容を援用するものである。

　コンピュータを用いるコミュニケーションに関して、たとえば特開２００９－７７３８０号公報（特許文献１）は、ユーザ動作に対応するアバター動作のうち、凝視およびジェスチャのような非言語行動動作を、文化的適切度の観点から別の動作に修正する会議システムを開示する。

特開２００９－７７３８０号公報

　本開示の一側面に係るコミュニケーション支援システムは、ユーザが端末を用いて行うコミュニケーションを支援するコミュニケーション支援システムであって、上記端末に表示され上記コミュニケーションに参加するエージェントがコミュニケーション状況に応じて動作するように、学習済みモデルを用いて上記エージェントの動作を制御するための制御データを生成する制御データ生成部を備え、上記エージェントは、仮想空間内のアバターであり、上記学習済みモデルは、コミュニケーション状況が入力されると、上記制御データを出力するように、訓練データを用いて生成された学習済みモデルである。

図１は、実施形態に係るコミュニケーション支援システムの概略構成の例を示す図である。図２は、実施形態に係るコミュニケーション支援システムによって提供されるコミュニケーションの例を示す図である。図３は、端末およびサーバの機能ブロックの例を示す図である。図４は、コミュニケーションシステムにおいて実行される処理の例を示すシーケンス図である。

［本開示が解決しようとする課題］
　上述のような会議システムといったコンピュータを用いるコミュニケーションでは、通常、実空間のユーザが端末を介して参加する。これにより、たとえば、コミュニケーションに参加すべきユーザが距離的に離れている場合でもあっても、仮想空間においてコミュニケーションを実施できる。しかしながら、この場合、一部のユーザが進行役を担う必要があることから、進行役のユーザがコミュニケーション（たとえば会議）に集中できなかったりする等の実空間と同様の問題が生じる。更に、従来のコンピュータを用いるコミュニケーションでは、端末を介した複数のユーザの参加が前提であり、コンピュータを用いるコミュニケーションの特性を十分に活用できていなかった。
　そこで、本開示の一側面は、コンピュータを用いることの特性をより活用したコミュニケーションを提供することを目的とする。

　［本開示の効果］
　本開示の一側面によれば、コンピュータを用いることの特性をより活用したコミュニケーションを提供できる。

　［本開示の実施形態の説明］
　はじめに、本開示の実施態様を列記して説明する。以下に記載する実施態様の一部を任意に組み合わせてもよい。

　本開示の一側面に係るコミュニケーション支援プログラムは、上記コミュニケーション支援システムとしてコンピュータを動作させる。

　このような側面においては、端末を介して参加するユーザ以外に、コミュニケーション状況に応じて動作するエージェントがコミュニケーションに参加する。そのため、コンピュータを用いることの特性をより活用したコミュニケーションを提供できる。

　上記コミュニケーション状況は、センサによって得た情報で示される上記ユーザの様子を含んでよい。上記様子は、上記ユーザの言語行動または非言語行動を含んでよい。このようなコミュニケーション状況に応じてエージェントが動作することにより、自然なコミュニケーションが提供される。

　上記エージェントは、コミュニケーションに参加していない不参加のアバターであってよい。これにより、コミュニケーションに参加していない実在人物のアバターを、コミュニケーションに参加させることができる。上記エージェントは、架空人物のアバターでもよい。

　上記制御データ生成部は、さらに、上記端末に表示され上記コミュニケーションに参加する上記ユーザのアバターが、上記ユーザの動作に応じて動作するように、上記ユーザのアバターを制御ための制御データを生成してもよい。これにより、ユーザの動作に応じて動作するアバターも参加するコミュニケーションが提供される。

　以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明は繰り返さない。

　図１は、実施形態に係るコミュニケーション支援システム（以下、単に「システム」という場合もある。）の概略構成の例を示す図である。システム１００は、コミュニケーションを支援するコンピュータシステムである。コミュニケーションの例は、テレビ会議、チャット、診察、カウンセリング、面接（人物評価）、テレワーク、ナビゲーション等である。コミュニケーションは、複数のユーザ間のコミュニケーションであってもよいし、単一のユーザとシステム１００との間のコミュニケーションであってもよい。以下、とくに説明がある場合を除き、複数のユーザ間のコミュニケーションを支援する態様を例に挙げて本実施形態を説明する。

　システム１００は、端末１０、端末２０および端末３０を含む。図１に示される例では、端末１０は、ユーザＵ１が使用するラップトップ型のパーソナルコンピュータ（ＰＣ）である。端末２０は、ユーザＵ２が使用する携帯電話機（スマートフォン等）である。端末３０は、ユーザＵ３が使用するデスクトップ型のＰＣである。端末１０、端末２０および端末３０は、ネットワークＮに接続可能である。この例では、端末１０はアクセスポイントＡＰを介して、端末２０は基地局ＢＳを介して、端末３０は有線（不図示）により、それぞれネットワークＮに接続される。端末１０、端末２０および端末３０には、上述のＰＣ、携帯電話機以外にも、タブレット端末、ウェアラブル端末、ヘッドマウントディスプレイ（ＨＭＤ）端末、その他さまざまな端末が用いられてよい。システム１００に含まれる端末の数は、図１の例に限定されない。

　システム１００は、サーバ４０を含む。サーバ４０は、ネットワークＮに接続される。したがって、端末１０、端末２０、端末３０およびサーバ４０は、ネットワークＮを介して互いに通信可能である。システム１００に含まれるサーバの数は、図１の例に限定されない。

　ネットワークＮの構成は限定されない。例えば、ネットワークＮは、インターネット（公衆網）、通信キャリアネットワーク、事業者ネットワーク等を含んで構成されてよい。

　本願発明者らは、システム１００を用いて、コミュニケーション状況に応じて動作するエージェントをコミュニケーションに参加させることを着想した。図２は、システム１００によって提供されるコミュニケーションの例を示す図である。コミュニケーションは、コンピュータによって表現される仮想空間５０で行われる。仮想空間５０は、端末１０、端末２０および端末３０に表示されることで、ユーザＵ１、ユーザＵ２およびユーザＵ３に提示される。

　本実施形態においては、エージェントＡが、コミュニケーションの参加者として仮想空間５０に現れる。さらに、図２に示される例では、ユーザＵ１のアバターＶ１、ユーザＵ２のアバターＶ２およびユーザＵ３のアバターＶ３も、コミュニケーションの参加者として仮想空間５０に現れる。

　アバターＶ１は、仮想空間５０内で表現されるユーザＵ１の分身であり、ユーザＵ１の実際の像（撮像データ等）とは独立した画像素材によって生成される。アバターＶ１は、ネットワークＮ上の仮想空間５０内で表現されるユーザＵ１の分身でもよい。画像素材は、アニメーションキャラクタを生成するための素材であってもよいし、ユーザＵ１の写真等に基づいて予め作成されたより本物に近いユーザ画像を生成するための素材であってもよい。アバターＶ１は二次元または三次元のコンピュータグラフィック（ＣＧ）によって描画されてもよい。アバターＶ１の属性は、例えばアバターの服装、髪の毛、年齢、性別、美醜（たとえば、可愛い、普通、可愛くないなど）などを含む。アバターＶ１は上記属性を含めてユーザＵ１によって自由に選択及び設定されてもよい。アバターＶ２およびユーザＵ２、アバターＶ３およびユーザＵ３についても同様である。

　エージェントＡは、仮想空間５０内のアバターである。エージェントＡは、架空人物（実在しない人物）のアバターであってよい。あるいは、エージェントＡは、現在コミュニケーションに参加していない他のユーザ（不参加ユーザ）のアバターであってもよい。エージェントＡのアバターの属性の例は、例えばアバターの服装、髪の毛、年齢、性別、美醜（たとえば、可愛い、普通、可愛くないなど）などを含む。ユーザＵ１、ユーザＵ２およびユーザＵ３それぞれ端末１０、端末２０および端末３０に表示されるエージェントＡのアバターは、その属性を含めてユーザＵ１、ユーザＵ２およびユーザＵ３によって自由に選択及び設定されてもよい。他のユーザは、ユーザＵ１、ユーザＵ２およびユーザＵ３以外の実在人物のアバターである。以下では、とくに説明がある場合を除き、エージェントＡが架空人物のアバターである場合を説明する。

　図３は、端末１０、端末２０、端末３０およびサーバ４０の機能ブロックの例を示す図である。端末２０および端末３０の機能ブロックは、端末１０の機能ブロックと同様であるので、以下では端末１０およびサーバ４０を説明する。はじめに端末１０について説明し、次にサーバ４０を説明する。

　端末１０は、入力部１１を含む。入力部１１は、ユーザＵ１の映像が入力される部分である。ユーザＵ１の映像は、ユーザＵ１の音声および画像を含む。

　端末１０は、制御部１２を含む。制御部１２は、ユーザＵ１の映像データを生成する部分である。ユーザＵ１の映像データは、入力部１１に入力されたユーザＵ１の映像に基づいて生成される。映像データは、互いに分離可能な音声データおよび画像データで構成され得る。画像データは、連続する複数の単位フレーム画像データによって構成される。たとえば６０フレーム／秒の画像データは、一秒間に６０個の単位フレーム画像データを含む。制御部１２は、ネットワークＮを介した通信に適合するように、音声データおよびフレーム画像データを符号化および多重化してよい。

　制御部１２は、エージェントＡを制御する部分でもある。エージェントＡの制御は、エージェントＡの動作の制御を含む。ここでの動作は、言語行動および非言語行動を含む。言語行動は、言語を用いる行動であり、発話（言葉）等である。非言語行動は、言語を用いない行動であり、たとえば視線（視線移動）、姿勢、ジェスチャ、表情等である。顔の姿勢または動作の例は、領き、首振り、首傾げ、うなずき等である。上半身の姿勢または動作の例は、胴体の向き、肩のねじり、肘の曲げ、手の上げ下げ等である。指の動きの例は、伸展、屈曲、外転、内転等である。表情の例は、中立、喜び、軽蔑、嫌悪、恐怖、驚き、悲しみ、怒り等である。エージェントＡの制御は、エージェントＡが実施すべき動作に対応する制御データに基づいて行われる。制御データは後述するようにサーバ４０で生成される。

　制御部１２は、アバターＶ１、アバターＶ２およびアバターＶ３を制御する部分でもある。アバターＶ１、アバターＶ２およびアバターＶ３の制御は、アバターＶ１、アバターＶ２およびアバターＶ３の動作の制御を含む。ここでの動作は、上述の言語行動および非言語行動のうち、少なくとも非言語行動を含む。アバターＶ１、アバターＶ２およびアバターＶ３の制御は、アバターＶ１、アバターＶ２およびアバターＶ３が実施すべき動作に対応する制御データに基づいて行われる。制御データは後述するようにサーバ４０で生成される。

　制御部１２は、仮想空間５０の映像データを生成する部分でもある。仮想空間５０の映像データは、制御データに基づいて制御されるエージェントＡ、アバターＶ１、アバターＶ２およびアバターＶ３の映像データを含む。この他に、仮想空間５０に現れるさまざまなオブジェクトが、仮想空間５０の映像データに含まれてよい。オブジェクトの例は、会議室に設けられる椅子、机、その他装飾品、会議用の資料、当該資料を映し出すスクリーン等である。

　端末１０は、記憶部１３を含む。記憶部１３は、端末１０の制御（処理）に必要な情報を記憶する部分である。図３には、記憶部１３に記憶される情報として、端末プログラム１３Ｐが例示される。端末プログラム１３Ｐは、端末１０を動作させるためのプログラムであり、制御部１２による制御等が実行されるようにコンピュータを動作させる。システム１００がコミュニケーション支援システムであるので、端末プログラム１３Ｐは、コミュニケーション支援プログラムともいえる。

　端末１０は、通信部１４を含む。通信部１４は、ネットワークＮ（図１）を介して、端末１０の外部装置と通信する部分である。端末１０の外部装置の例は、端末２０、端末３０およびサーバ４０である。通信部１４は、制御部１２が生成した映像データをサーバ４０に送信したり、エージェントＡ、アバターＶ１、アバターＶ２およびアバターＶ３の制御データをサーバ４０から受信したりする。

　端末１０は、出力部１５を含む。出力部１５は、仮想空間５０の映像を出力する。仮想空間５０の映像は、制御部１２によって生成された仮想空間５０の映像データに基づく映像である。

　サーバ４０は、制御部４２を含む。制御部４２は、エージェントＡを制御するための制御データを生成する部分（制御データ生成部）でもある。エージェントＡの制御データ(エージェント動作情報)は、後述の状況データ４３Ｓおよび学習済みモデル４３Ｌを用いて生成される。制御部４２は、状況データ４３Ｓを学習済みモデル４３Ｌに入力することによって、エージェントＡの動作情報を取得し、取得した動作情報に基づいて、エージェントＡの制御データを生成する。

　制御部４２は、コミュニケーション状況を特定する部分でもある。コミュニケーション状況は、コミュニケーションの雰囲気を含む。コミュニケーションの雰囲気は、コミュニケーションに参加しているユーザＵ１、ユーザＵ２、ユーザＵ３の様子を含む。ユーザＵ１、ユーザＵ２およびユーザＵ３の様子は、上述の言語行動または非言語行動を含んでよい。このようなコミュニケーション状況は、ユーザＵ１の映像データ、ユーザＵ２の映像データおよびユーザＵ３の映像データから特定されてよい。映像データのうちの音声データを解析することによって、発話（音声の意味内容）等の言語行動が特定される。映像データのうちの画像データを解析することによって、表情、視線、うなずき等の非言語行動が特定される。音声データの解析および画像データの解析には、種々の公知の手法が用いられてよい。映像データではなく、アバターＶ１、アバターＶ２およびアバターＶ３の制御データからコミュニケーション状況が特定されてもよい。

　コミュニケーション状況は、ユーザＵ１、ユーザＵ２およびユーザＵ３のために準備された仮想空間５０（たとえば、会議室といったコミュニケーション室）またはユーザＵ１、ユーザＵ２およびユーザＵ３が所属する組織における法令または規則、ＮＧ（禁止）ワードなどを含んでもよい。たとえば、ハラスメント（パワーハラスメントなど）に分類される動作または言動、過度な労働（長時間の会議等）、差別用語、たとえば会社の会議などにおける極秘事項などである。ユーザＵ１、ユーザＵ２およびユーザＵ３の何れかの言動表現が法令または規則違反に該当したり、ＮＧワードが含まれている場合、制御部４２は、たとえば、音声にノイズを加えて、規則違反の言語表現、ＮＧワードなどが、そのような言語表現などによって気分を害することが想定されるユーザに聞こえないようにする、又は、そのような言語表現などを行ったユーザの端末にアラーム音を出すような制御データを生成してもよい。

　コミュニケーション状況は、たとえば、仮想空間５０（或いは、仮想空間５０に設定する会議室といったコミュニケーション室）の背景、色、ＢＧＭ（Ｂａｃｋ　Ｇｒｏｕｎｄ　Ｍｕｓｉｃ）、上述したオブジェクト（机、椅子など）、オブジェクトの配置等を含んでもよい。

　コミュニケーション状況は、コミュニケーションのタイミングも含んでよい。タイミングの例は、コミュニケーション序盤のタイミング、コミュニケーション中盤のタイミング、コミュニケーション終盤のタイミング、資料展示（提示）のタイミング等である。

　コミュニケーションがいずれのタイミングであるかは、たとえば次のように判断されてよい。
　たとえば、コミュニケーションの序盤、中盤および終盤のいずれのタイミングであるかは、言語表現で判断してもよい。たとえば、コミュニケーションの序盤、中盤または終盤を示す言語表現（たとえば、コミュニケーションの開始を示す言語表現、終わりを示す言語表現等）が音声データに含まれるか否かで判断してもよい。コミュニケーションの序盤、中盤および終盤かどうかは、ユーザＵ１、ユーザＵ２およびユーザＵ３間のアイコンタクトで判断してもよい。たとえば、アイコンタクトが少ない場合は、コミュニケーションの序盤または終盤と判断し、アイコンタクトが多い場合は、コミュニケーションの中盤と判断してもよい。コミュニケーションの序盤、中盤および終盤かどうかは、上述した言語表現およびアイコンタクトの両方を用いて判断してもよい。
　たとえば、資料展示（提示）のタイミングは、言語表現で判断してもよい。たとえば、言語表現に「資料を出します」などの表現が含まれている場合に、資料展示（提示）のタイミングと判断してもよい。資料展示（提示）のタイミングは、ユーザＵ１、ユーザＵ２またはユーザＵ３の視線に基づいて判断してもよい。たとえば、複数のユーザの視線が資料といった共有アイテムに向けられている場合に、資料展示（提示）のタイミングと判断してもよい。

　上述したアイコンタクトの有無は、ユーザＵ１、ユーザＵ２およびユーザＵ３の視線をも用いて判断され得る。視線は、上述したように、映像データのうちの画像データを解析することによって特定され得る。たとえば、ユーザＵ１の視線がユーザＵ２に向かっており、ユーザＵ２の視線がユーザＵ１に向かっている場合、ユーザＵ１およびユーザＵ２間にアイコンタクトがあると判断し得る。ユーザＵ１の視線がユーザＵ２に向かっている（又は、ユーザＵ２の視線がユーザＵ１に向かっている）か否かは、ユーザＵ１（又はユーザＵ２）が端末１０（又は端末２０）のモニター画面のどこを注視しているかで判定され得る。ユーザＵ１およびユーザＵ２間にアイコンタクトがあると判断した場合、制御部４２は、ユーザＵ１およびユーザＵ２のアバターＶ１およびアバターＶ２の視線、体の向きなどを、たとえば実空間でアイコンタクトした場合と同様の動作をするように制御する。ここでは、ユーザＵ１とユーザＵ２のアイコンタクトの例を説明したが、ユーザＵ１、ユーザＵ２およびユーザＵ３のうち任意の二人のアイコンタクトについても同様である。アイコンタクトの判断方法は、例示した方法に限定されない。

　制御部４２は、アバターＶ１、アバターＶ２およびアバターＶ３を制御するための制御データを生成する部分でもある。アバターＶ１の制御データは、ユーザＵ１の映像データに基づいて生成される。アバターＶ２の制御データは、ユーザＵ２の映像データに基づいて生成される。アバターＶ３の制御データは、ユーザＵ３の映像データに基づいて生成される。制御部４２は、映像データから分離された画像データを解析して、ユーザＵ１、ユーザＵ２およびユーザＵ３の非言語行動に対応するパターンを決定してよい。画像パターンは、予め記憶部４３に記憶された有限個の所与のパターンの中から選択されてもよい。この場合、ユーザＵ１、ユーザＵ２およびユーザＵ３の無限の非言語行動が有限個のパターンにまとめられる（分類される）ので、アバターＶ１、アバターＶ２およびアバターＶ３の制御データのボリューム、ひいては通信負荷が低減される。制御データにおいては、たとえば非言語行動がＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ＜登録商標＞　Ｏｂｊｅｃｔ　Ｎｏｔａｔｉｏｎ）形式で記述されてよい。アバターＶ１、アバターＶ２およびアバターＶ３の音声データは、映像データから分離された音声データそのものが用いられてもよいし、何らかの変更が加えられた音声データが用いられてもよい。制御部４２は、決定したアバターＶ１、アバターＶ２およびアバターＶ３のパターンを示すデータと、ユーザＵ１、ユーザＵ２およびユーザＵ３の音声データとを組み合わせて、アバターＶ１、アバターＶ２およびアバターＶ３の制御データを生成する。

　アバターＶ１、アバターＶ２およびアバターＶ３の非言語行動のデータの生成に、学習済みモデルが用いられてもよい。この場合の学習済みモデルは、たとえば、人物の画像が入力されると、アバターの非言語行動を示す情報を出力するように、訓練データを用いて生成される。訓練データは、さまざまな人物の画像と非言語行動とを対応付けた教師データの群であってよい。ユーザＵ１、ユーザＵ２およびユーザＵ３の各々にカスタマイズされた学習済みモデルがそれぞれ用いられてもよい。このような学習済みモデルも、学習済みモデル４３Ｌの一態様として記憶部４３に記憶されてよい。

　サーバ４０は、記憶部４３を含む。記憶部４３は、サーバ４０の制御に必要な情報を記憶する部分である。図３には、記憶部４３に記憶される情報として、サーバプログラム４３Ｐ、状況データ４３Ｓおよび学習済みモデル４３Ｌが例示される。サーバプログラム４３Ｐは、サーバ４０を動作させるためのプログラムであり、制御部４２による制御等が実行されるようにコンピュータを動作させる。システム１００がコミュニケーション支援システムであるので、サーバプログラム４３Ｐは、コミュニケーション支援プログラムともいえる。

　状況データ４３Ｓは、コミュニケーション状況を示す情報である。先に説明したように制御部４２が特定したコミュニケーション状況が、状況データ４３Ｓとして記憶部４３に記憶される。状況データ４３Ｓは、所定期間にわたって特定されたコミュニケーション状況が蓄積された時系列情報であってよい。所定期間は任意に設定されてよい。所定期間の例は、コミュニケーションの開始時点から現時点までの期間である。

　学習済みモデル４３Ｌは、状況データ４３Ｓに応じたエージェントＡの動作を選択、決定、推定等するために用いられる。学習済みモデル４３Ｌは、状況データ４３Ｓが入力されると、エージェント動作情報を出力するように、訓練データを用いて生成される。エージェント動作情報は、エージェントＡの動作を示す情報である。エージェントＡの動作情報は、エージェントＡの役割に適した動作を示す。たとえばエージェントＡが会議の進行役である場合、会議の進行に適した動作情報が、学習済みモデル４３Ｌから出力される。たとえば、エージェントＡが会議の進行役である場合、会議の序盤であれば、挨拶、参加者の紹介、トピックの説明を行うための動作を示す情報が出力されてよい。会議の中盤であれば、議論に関する発話、発話中の参加者に対する視線移動、うなずき、表情等の動作を示す情報が出力されてよい。会議の終盤であれば、終了の挨拶、会議のまとめを行うための動作を示す情報が出力されてよい。エージェントＡがコミュニケーションに参加していない他のユーザのアバターである場合には、学習済みモデル４３Ｌは、上記他のユーザである実在人物の特徴（例えば会議などにおける行動パターン、応答パターンなど）が反映された動作を示す情報を出力するようにカスタマイズされた学習済みモデルであってよい。

　訓練データの例は、状況データと、エージェントＡの動作情報とを対応付けた教師データの群である。状況データおよびエージェントＡの動作情報については、これまで説明したとおりである。たとえば、上述の会議の例であれば、教師データとして以下のようなデータが準備されてよい。すなわち、教師データは、会議の序盤であるという状況データと、挨拶、参加者の紹介、トピックの説明を行うための動作を示す情報とを対応付けた教師データであってよい。教師データは、会議の中盤であるという状況データと、議論に関する発話、発話中の参加者に対する視線移動、うなずき、表情等の動作を示す情報とを対応付けた教師データであってよい。教師データは、会議の終盤であるという状況データと、終了の挨拶、会議のまとめを行うための動作を示す情報が出力されてよい。

　訓練データは、たとえば、エージェントＡの役割と同様の役割を果たしている実際の人物（ユーザを含む）のコミュニケーションの様子を、カメラ、マイクロフォン等を用いてモニタリングすることによって準備される。モニタリングによって得られたコミュニケーションの映像を分析することによって、コミュニケーション状況と、人物の動作とを対応づけた教師データ作られてよい。映像の分析は、専門家等がマニュアルで行ってもよいし、アプリケーション等を用いて自動的に行われてもよい。

　サーバ４０は、通信部４４を含む。通信部４４は、ネットワークＮ（図１）を介して、サーバ４０の外部装置と通信する部分である。サーバ４０の外部装置の例は、端末１０、端末２０および端末３０である。通信部４４は、ユーザＵ１の映像データ、ユーザＵ２の映像データおよびユーザＵ３の映像データを端末１０、端末２０および端末３０からそれぞれ受信したり、制御部４２が生成したエージェントＡの制御データ、アバターＶ１の制御データ、アバターＶ２の制御データおよびアバターＶ３の制御データを端末１０、端末２０および端末３０のそれぞれに送信したりする。

　端末１０およびサーバ４０の各機能部分に関するハードウェア構成の例を説明する。サーバ４０の通信部４４は、ネットワークＮにアクセスできるように、ネットワークカードまたは無線通信デバイスを用いて構成され得る。サーバ４０の制御部４２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサを用いて構成され得る。制御部４２は、プロセッサとともにクロックと、内蔵メモリとを更に用いて構成されてもよい。制御部４２は、プロセッサ、クロック、内蔵メモリ、記憶部４３および通信部４４を集積した一つのハードウェア（ＳｏＣ：Ｓｙｓｔｅｍ　Ｏｎ　ａ　Ｃｈｉｐ）として構成されてもよい。サーバプログラム４３Ｐに基づいて動作することで、サーバコンピュータをサーバ４０として動作させる。サーバ４０の記憶部４３は、フラッシュメモリ、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｉｓｋ）等の不揮発性記憶媒体を用いて構成され得る。

　端末１０の入力部１１は、ユーザＵ１の様子を示す情報（たとえば、音声、画像等）を取得するセンサを含む。上記センサは、たとえば、ユーザＵ１の音声を取得するマイクロフォン、ユーザＵ１の画像を取得するカメラ等を用いて構成され得る。さらに、入力部１１は、キーボード、マウス、タッチパネルの操作デバイスも用いて構成されてよい。端末１０の制御部１２は、サーバ４０の制御部４２と同様に構成され得る。制御部１２は、端末プログラム１３Ｐに基づいて動作することで、汎用コンピュータを端末１０として動作させる。端末１０の記憶部１３は、サーバ４０の記憶部４３と同様に構成され得る。端末１０の通信部１４は、サーバ４０の通信部４４と同様に構成され得る。端末１０の出力部１５は、液晶パネル、有機ＥＬパネル等（タッチパネルでもよい）等のディスプレイ装置を用いて構成され得る。さらに、出力部１５は、スピーカも用いて構成されてよい。

　図４は、システム１００において実行される処理の例を示すシーケンス図である。図４に示される処理は、コミュニケーションが継続している間、繰り返し実行され得る。記憶部４３には、状況データ４３Ｓがコミュニケーションの序盤のタイミングであることを示す初期データが記憶されていてよい。以下、初期データが記憶部４３に記憶されている場合を説明する。

　ステップＳ１において、エージェントの制御データが生成される。具体的に、サーバ４０の制御部４２が、初期データとして記憶部４３に記憶されている状況データ４３Ｓと学習済みモデル４３Ｌとを用いて、エージェントＡの制御データを生成する。

　ステップＳ２からステップＳ４において、エージェントの制御データが送信される。具体的に、ステップＳ２において、サーバ４０が、先のステップＳ１で生成したエージェントＡの制御データを端末１０に送信する。ステップＳ３において、サーバ４０が、先のステップＳ１で生成したエージェントＡの制御データを端末２０に送信する。ステップＳ４において、サーバ４０が、先のステップＳ１で生成したエージェントＡの制御データを端末３０に送信する。

　ステップＳ５からステップＳ７において、エージェントが制御される。具体的に、ステップＳ５において、端末１０が、先のステップＳ２で受信したエージェントＡの制御データに基づいて、エージェントＡを制御する。これにより、端末１０に表示される仮想空間５０中のエージェントＡが、コミュニケーション状況に応じて動作する。ステップＳ６において、端末２０が、先のステップＳ３で受信したエージェントＡの制御データに基づいて、エージェントＡを制御する。これにより、端末２０に表示される仮想空間５０中のエージェントＡが、コミュニケーション状況に応じて動作する。ステップＳ７において、端末３０が、先のステップＳ４で受信したエージェントＡの制御データに基づいて、エージェントＡを制御する。これにより、端末３０に表示される仮想空間５０中のエージェントＡが、コミュニケーション状況に応じて動作する。

　ステップＳ８からステップＳ１０において、ユーザの映像データがサーバ４０に送信される。具体的に、ステップＳ８において、端末１０が、ユーザＵ１の映像データをサーバ４０に送信する。ステップＳ９において、端末２０が、ユーザＵ２の映像データをサーバ４０に送信する。ステップＳ１０において、端末３０が、ユーザＵ３の映像データをサーバ４０に送信する。これらの映像データは、状況データ４３Ｓとして記憶部４３に記憶され得る。

　ステップＳ１１において、アバターの制御データが生成される。具体的に、サーバ４０の制御部４２が、先のステップＳ８で受信したユーザＵ１の映像データに基づいてアバターＶ１の制御データを生成し、先のステップＳ９で受信したユーザＵ２の映像データに基づいてアバターＶ２の制御データを生成し、先のステップＳ１０で受信したユーザＵ３の映像データに基づいてアバターＶ３の制御データを生成する。これらの制御データは、状況データ４３Ｓとして記憶部４３に記憶され得る。

　ステップＳ１２において、状況データが記憶される。具体的に、サーバ４０の制御部４２がコミュニケーション状況を解析し、解析したコミュニケーション状況を、状況データ４３Ｓとして記憶部４３に記憶する。すでに状況データ４３Ｓが記憶されている場合には、情報が追加される。

　ステップＳ１３からステップＳ１５において、アバターの制御データが送信される。具体的に、ステップＳ１３において、サーバ４０が、先のステップＳ１１で生成したアバターＶ１、アバターＶ２およびアバターＶ３の制御データを端末１０に送信する。ステップＳ１４において、サーバ４０が、それらの制御データを端末２０に送信する。ステップＳ１５において、サーバ４０が、それらの制御データを端末３０に送信する。

　ステップＳ１６からステップＳ１８において、アバターが制御される。具体的に、ステップＳ１６において、端末１０が、先のステップＳ１３で受信したアバターＶ１、アバターＶ２およびアバターＶ３の制御データに基づいて、アバターＶ１、アバターＶ２およびアバターＶ３を制御する。これにより、端末１０に表示される仮想空間５０中のアバターＶ１、アバターＶ２およびアバターＶ３が、ユーザＵ１、ユーザＵ２およびユーザＵ３の動作を反映するように動作する。ステップＳ１７において、端末２０が、先のステップＳ１４で受信したアバターＶ１、アバターＶ２およびアバターＶ３の制御データに基づいて、アバターＶ１、アバターＶ２およびアバターＶ３を制御する。これにより、端末２０に表示される仮想空間５０中のアバターＶ１、アバターＶ２およびアバターＶ３が、ユーザＵ１、ユーザＵ２およびユーザＵ３の動作を反映するように動作する。ステップＳ１８において、端末３０が、先のステップＳ１５で受信したアバターＶ１、アバターＶ２およびアバターＶ３の制御データに基づいて、アバターＶ１、アバターＶ２およびアバターＶ３を制御する。これにより、端末３０に表示される仮想空間５０中のアバターＶ１、アバターＶ２およびアバターＶ３が、ユーザＵ１、ユーザＵ２およびユーザＵ３の動作を反映するように動作する。

　ステップＳ１９からステップＳ２５は、先に説明したステップＳ１～Ｓ７と同様である。すなわち、ステップＳ１９において、エージェントの制御データが生成される。ステップＳ２０からステップＳ２２において、エージェントの制御データが送信される。ステップＳ２３からステップＳ２５において、エージェントが制御される。図示されないが、この後には、先に説明したステップＳ８からステップＳ１０の処理と同様の処理が実行される。このように処理が繰り返し実行されることで、エージェントＡ、アバターＶ１、アバターＶ２およびアバターＶ３が制御され、コミュニケーションが進められる。
　ステップＳ１９におけるエージェントＡの制御データの生成には、ステップＳ１２で記憶部４３に記憶された状況データが用いられる。

　以上説明したシステム１００は、たとえば次のように特定される。すなわち、システム１００は、ユーザＵ１、ユーザＵ２およびユーザＵ３（以下、「ユーザＵ１等」という。）が端末１０、端末２０および端末３０（以下、「端末１０等」という。）を用いて行うコミュニケーションを支援する。制御部（制御データ生成部）４２（制御部１２との協働を含んでよい）は、端末１０等に表示されコミュニケーションに参加するエージェントＡをコミュニケーション状況に応じて動作させるための制御データを、学習済みモデル４３Ｌを用いて生成する。エージェントＡは、仮想空間内のアバターである。学習済みモデル４３Ｌは、コミュニケーション状況が入力されると、エージェント動作情報を出力するように、訓練データを用いて生成される。

　システム１００は、端末プログラム１３Ｐおよびサーバプログラム４３Ｐ（コミュニケーション支援プログラム）がシステム１００としてコンピュータを動作させることによって実現され得る。

　システム１００によれば、コミュニケーション状況に応じて動作するエージェントが参加するコミュニケーションが提供される。そのため、システム１００によって、コンピュータを用いることの特性をより活用したコミュニケーションを提供される。たとえば、エージェントがコミュニケーション状況に応じて動作することで、コミュニケーションをよりスムーズに進められる。たとえば、コミュニケーションが会議であり、エージェントが会議の進行役である場合、エージェントは進行役として動作する。そのため、端末１０等を介して参加するユーザＵ１等は会議に集中できるので、会議をスムーズに進められる。エージェントは、端末１０等を介して参加するユーザＵ１等とは別にコンピュータ支援により仮想的に作成された参加者であるため、システム１００によって、コンピュータ支援によるよりスムーズなコミュニケーションを提供できる。

　コミュニケーション状況は、センサによって得た情報で示されるユーザＵ１等の様子を含んでよい。様子は、ユーザＵ１等の言語行動または非言語行動を含んでよい。このようなコミュニケーション状況に応じてエージェントＡが動作することにより、自然なコミュニケーションが提供される。

　エージェントＡは、コミュニケーションに参加していない他のユーザ（不参加ユーザ）のアバターであってよい。これにより、コミュニケーションに参加していない実在人物のアバターを、コミュニケーションに参加させることができる。エージェントＡは、架空人物のアバターでもよい。

　制御部４２は、さらに、端末１０等に表示されコミュニケーションに参加するアバターＶ１、アバターＶ２およびアバターＶ３（以下、「アバターＶ１等」という。）が、ユーザＵ１等の動作に応じて動作するように、アバターＶ１等を制御するための制御データを生成してよい。これにより、ユーザＵ１等の動作に応じて動作するアバターＶ１等も参加するコミュニケーションが提供される。

　本開示は上記実施形態に限定されない。たとえば、上記実施形態では、仮想空間５０内にエージェントＡ、アバターＶ１、アバターＶ２およびアバターＶ３が現れる例を説明した。ただし、仮想空間５０内に現れるのは、エージェントＡだけであってもよい。また、仮想空間５０内には、ユーザ自身のアバターが現れなくともよい。この場合、ユーザＵ１の端末１０に表示される仮想空間５０内には、エージェントＡ、アバターＶ２およびアバターＶ３は現れるが、アバターＶ１は現れない。エージェントＡ、アバターＶ２およびアバターＶ３の非言語動作（視線移動等）は、端末１０に表示される仮想空間５０を見ているユーザＵ１に対する動作となるように制御されてよい。ユーザＵ２の端末２０に表示される仮想空間５０内には、エージェントＡ、アバターＶ１およびアバターＶ３は現れるが、アバターＶ２は現れない。エージェントＡ、アバターＶ１およびアバターＶ３の非言語動作は、端末２０に表示される仮想空間５０を見ているユーザＵ２に対する動作となるように制御されてよい。ユーザＵ３の端末３０に表示される仮想空間５０内には、エージェントＡ、アバターＶ１およびアバターＶ２は現れるが、アバターＶ３は現れない。エージェントＡ、アバターＶ２およびアバターＶ３の非言語動作は、端末３０に表示される仮想空間５０を見ているユーザＵ３に対する動作となるように制御されてよい。

　上記実施形態では、ユーザＵ１等の複数のユーザがコミュニケーションに参加する例を説明した。ただし、コミュニケーションに参加するユーザは、一人であってもよい。この場合でも、仮想空間５０に少なくともエージェントＡが現れるので、エージェントＡとユーザＵ１との間でコミュニケーションを行うことができる。この場合、たとえば、エージェントＡを、ユーザＵ１の上司または同僚とすることによって、ユーザＵ１が自問自答するよりもユーザＵ１自身の考えを整理または深化させることも可能である。或いは、ユーザＵ１、上司または同僚が参加する会議の予行演習を行うことも可能である。

　１０、２０、３０…端末、１１…入力部、１２…制御部、４２…制御部（制御データ生成部）、１３…記憶部、１３Ｐ…端末プログラム（コミュニケーション支援プログラム）、１４…通信部、１５…出力部、４０…サーバ、４３Ｌ…学習済みモデル、４３Ｐ…サーバプログラム（コミュニケーション支援プログラム）、４３Ｓ…状況データ、５０…仮想空間、１００…システム（コミュニケーション支援システム）、Ａ…エージェント、Ｕ１、Ｕ２、Ｕ３…ユーザ、Ｖ１、Ｖ２、Ｖ３…アバター。

Claims

　ユーザが端末を用いて行うコミュニケーションを支援するコミュニケーション支援システムであって、
　前記端末に表示され前記コミュニケーションに参加するエージェントがコミュニケーション状況に応じて動作するように、学習済みモデルを用いて前記エージェントの動作を制御するための制御データを生成する制御データ生成部を備え、
　前記エージェントは、仮想空間内のアバターであり、
　前記学習済みモデルは、コミュニケーション状況が入力されると、前記制御データを出力するように、訓練データを用いて生成された学習済みモデルである、
コミュニケーション支援システム。
　前記コミュニケーション状況は、センサによって得た情報で示される前記ユーザの様子を含む、
請求項１に記載のコミュニケーション支援システム。
　前記様子は、前記ユーザの言語行動または非言語行動を含む、
請求項２に記載のコミュニケーション支援システム。
　前記エージェントは、前記コミュニケーションに参加していない不参加ユーザのアバターである、
請求項１から請求項３のいずれか一項に記載のコミュニケーション支援システム。
　前記エージェントは、架空人物のアバターである、
請求項１から請求項３のいずれか一項に記載のコミュニケーション支援システム。
　前記制御データ生成部は、さらに、前記端末に表示され前記コミュニケーションに参加する前記ユーザのアバターが、前記ユーザの動作に応じて動作するように、前記ユーザのアバターを制御するための制御データを生成する、
請求項４または請求項５に記載のコミュニケーション支援システム。
　請求項１に記載のコミュニケーション支援システムとしてコンピュータを動作させる、コミュニケーション支援プログラム。