WO2021157530A1

WO2021157530A1 - 対話ユーザの感情情報の提供装置

Info

Publication number: WO2021157530A1
Application number: PCT/JP2021/003558
Authority: WO
Inventors: 幸弘丸
Original assignee: マルコムホールディングス株式会社
Priority date: 2020-02-03
Filing date: 2021-02-01
Publication date: 2021-08-12
Also published as: GB2607800B; GB2607800A; GB202212377D0; JP2021125734A; US20230074113A1; JP7316664B2

Abstract

【課題】対話ユーザのコミュニケーションの向上を図ることを目的とする。【解決手段】本発明の一態様における、相互に遠隔に位置する、第１のユーザの入出力端末と第２ユーザの入出力端末とを用いた、第１ユーザと第２ユーザとのビデオ対話を支援する装置であって、前記装置は、第１のユーザの、前記第１のユーザの入出力端末上の視点情報を受信する入力受付部と、前記視点情報を解析する解析部と、前記解析した視点情報を基に、感情情報を生成する感情情報生成部と、を有する。

Description

対話ユーザの感情情報の提供装置

　本発明は、遠隔に離れたユーザ同士の対話における、対話ユーザの感情情報の提供装置に関わる。

　昨今、ビデオ会議や電話会議が普及するようになり、遠隔に離れたユーザ間の対話において、円滑なコミュニケーションを図るための技術が提供されている。

　例えば、特許文献１において、ビデオ会議装置の表示部の近傍に備えられた撮像部によって撮像された画像からユーザの視線方向を解析し、ユーザが注目する画面領域を拡大してユーザに配信する技術が開示されている。

特開２０１４－０５００１８号

　しかしながら、特許文献１には、遠隔に離れた対話ユーザの感情を伝えることでコミュニケーションの向上を図る技術は開示されていない。

　そこで、本発明は、遠隔に離れた対話ユーザのコミュニケーションの向上を図ることを目的とする。

本発明の一態様における、相互に遠隔に位置する、第１のユーザの入出力端末と第２ユーザの入出力端末とを用いた、第１ユーザと第２ユーザとのビデオ対話を支援する装置であって、前記装置は、第１のユーザの、前記第１のユーザの入出力端末上の視点情報を受信する入力受付部と、前記視点情報を解析する解析部と、前記解析した視点情報を基に、感情情報を生成する感情情報生成部と、を有する。

　本発明によれば、遠隔に離れた対話ユーザのコミュニケーションの向上を図ることができる。

本発明の第一実施形態に係る、遠隔対話システムを示すブロック構成図である。図１のサーバ端末１００を示す機能ブロック構成図である。図１の対話装置２００を示す機能ブロック構成図である。対話装置の一例として、撮像部を説明する図である。サーバ１００に格納されるユーザデータの一例を示す図である。サーバ１００に格納される解析データの一例を示す図である。サーバ１００に格納される感情情報の一例を示す図である。感情情報を時系列で表現した図である。サーバ１００に格納される感情情報の他の一例を示す図である。本発明の第一実施形態に係る、感情情報の生成方法を示すフローチャートである。

　以下、本発明の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本発明の必須の構成要素であるとは限らない。

　＜構成＞
　図１は、本発明の第一実施形態に係る、本発明の第一実施形態に係る、遠隔対話システムを示すブロック構成図である。本システム１は、視点情報を格納し、解析し、感情情報を生成するためのサーバ端末１００と、ユーザ同士の対話に用いられ、カメラ等の撮像部を内蔵し、ユーザの視点情報を取得する対話装置２００Ａ、２００Ｂと、を含む。なお、説明の便宜上、サーバ端末を単一のものとして、また、対話装置を２台記載しているが、複数のサーバ端末、また、１台または２台より多くの対話装置で構成されてもよい。

　サーバ端末１００及び対話装置２００Ａ、２００Ｂは各々、ネットワークＮＷを介して接続される。ネットワークＮＷは、インターネット、イントラネット、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）やＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等により構成される。

サーバ端末１００は、例えば、ワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。

　対話装置２００は、例えば、ビデオ会議装置のほか、パーソナルコンピュータやタブレット端末等の情報処理装置、または、スマートフォンや携帯電話、ＰＤＡ等により構成しても良い。また、例えば、対話装置として、パーソナルコンピュータやスマートフォンと液晶表示装置とを近距離無線通信等で接続し、対話を行う自ユーザ及び他ユーザの画像を液晶表示装置に表示しながら、必要な操作を、パーソナルコンピュータやスマートフォンを介して行うことを可能とする構成としてもよい。

　図２は、図１のサーバ端末１００の機能ブロック構成図である。サーバ端末１００は、通信部１１０と、記憶部１２０と、制御部１３０とを備える。

　通信部１１０は、ネットワークＮＷを介して対話装置２００と通信を行うための通信インターフェースであり、例えばＴＣＰ／ＩＰ（Ｔｒａｎｓｍｉｓｓｉｏｎ　Ｃｏｎｔｒｏｌ　Ｐｒｏｔｏｃｏｌ／Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）等の通信規約により通信が行われる。

　記憶部１２０は、各種制御処理や制御部１３０内の各機能、また、遠隔対話アプリケーションを実行するためのプログラム、入力データ等を記憶するものであり、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等から構成される。また、記憶部１２０は、ユーザに関連する各種データを格納するユーザデータ格納部１２１、及びユーザから視点情報を解析した解析データ及び解析結果を基に生成した感情情報を格納する、解析データ格納部１２２を有する。なお、各種データを格納したデータベース（図示せず）が記憶部１２０またはサーバ端末１００外に構築されていてもよい。

　制御部１３０は、記憶部１２０に記憶されているプログラムを実行することにより、サーバ端末１００の全体の動作を制御するものであり、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等から構成される。制御部１３０の機能として、各装置からの視点情報等の情報を受け付ける入力受付部１３１と、視点情報を解析する、解析部１３２と、視点情報の解析結果を基に感情情報を生成する、感情情報生成部１３３とを有する。この入力受付部１３１、解析部１３２、及び感情方情報生成部１３３は、記憶部１２０に記憶されているプログラムにより起動されてコンピュータ（電子計算機）であるサーバ端末１００により実行される。

　入力受付部１３１は、対話装置２００において取得した、ユーザの視点情報を受信し、ビデオ通話の場合、ユーザから音声情報、画像情報等を受信することができる。受信したユーザの視点情報を、記憶部１２０の、ユーザデータ格納部１２１及び／または解析データ格納部１２２に格納することができる。

　解析部１３２は、受信した視点情報を解析し、解析した視点情報を、ユーザデータ格納部１２１及び／または解析データ格納部１２２に格納することができる。

　感情情報生成部１３３は、解析した視点情報を基に感情情報を生成し、感情情報を、ユーザデータ格納部１２１及び／または解析データ格納部１２２に格納することができる。

　また、制御部１３０は、図示しない、感情情報報知制御部を有することもでき、対話装置２００に備えられた報知部を介して、感情情報を報知できるよう、例えば、報知部がスマートフォン端末を振動させる振動モータ等である場合、対話ユーザの感情に基づいて振動をアクティベートさせるよう制御する制御信号を生成し、制御信号を対話ユーザとは異なる対話装置に送信することができる。

また、制御部１３０は、図示しない、画面生成部を有することもでき、対話装置２００のユーザインターフェースを介して表示される画面情報を生成する。例えば、記憶部１２０に格納された（図示しない）画像及びテキストデータを素材として、所定のレイアウト規則に基づいて、各種画像及びテキストをユーザインターフェースの所定の領域に配置することで、（例えば、広告主に対して広告効果を可視化して示すためのダッシュボード等の）ユーザインターフェースを生成する。画像生成部に関連する処理は、ＧＰＵ（Graphics Processing Unit）によって実行することもできる。特に、上記生成した感情情報を可視化して対話装置２００に表示したい場合、画面生成部は、感情情報を色や文字等で識別化して可視化した画面情報を生成することができる。

また、制御部１３０は、その他、複数のユーザ間の、ビデオによる遠隔対話を実現するための遠隔対話アプリケーションに含まれる各種処理を実行することができる。

　図３は、図１の対話装置２００を示す機能ブロック構成図である。対話装置２００は、通信部２１０と、表示操作部２２０と、記憶部２３０と、制御部２４０、撮像部２５０、報知部２６０とを備える。

　通信部２１０は、ネットワークＮＷを介してサーバ端末１００、他の対話装置２００と通信を行うための通信インターフェースであり、例えばＴＣＰ／ＩＰ等の通信規約により通信が行われる。

　表示操作部２２０は、ユーザが指示を入力し、制御部２４０からの入力データに応じてテキスト、画像等を表示するために用いられるユーザインターフェースであり、対話装置２００がパーソナルコンピュータで構成されている場合はディスプレイとキーボードやマウスにより構成され、対話装置２００がスマートフォンまたはタブレット端末で構成されている場合はタッチパネル等から構成される。この表示操作部２２０は、記憶部２３０に記憶されている制御プログラムにより起動されてコンピュータ（電子計算機）である対話装置２００により実行される。

　記憶部２３０は、各種制御処理や制御部４４０内の各機能を実行するためのプログラム、入力データ等を記憶するものであり、ＲＡＭやＲＯＭ等から構成される。また、記憶部２３０は、サーバ端末１００との通信内容を一時的に記憶している。

　制御部２４０は、記憶部２３０に記憶されているプログラム（遠隔対話アプリケーションに含まれるプログラムを含む）を実行することにより、対話装置２００の全体の動作を制御するものであり、ＣＰＵやＧＰＵ等から構成される。

　また、対話装置２００が、パーソナルコンピュータやスマートフォン、タブレット端末等で構成されている場合は、ユーザの眼球を赤外線により撮像し、ユーザの液晶表示画面上の視点位置をトラッキングすることが可能な、内蔵カメラ等の撮像部２５０を有し、また、スマートフォン等で構成されている場合は、振動を発生させる振動モータ等、感情情報をユーザに対して報知するための報知部を有することができる。

図４は、対話装置２００の他の一例として、撮像部を説明する図である。

　図４に示す対話装置２００は、液晶表示装置２１０を含み、液晶表示部２２０の中央部に貫通穴２３０が設けられ、ＣＣＤカメラ２４０が貫通穴２３０に嵌合されるように備えられる。本例の対話装置２００は、液晶表示装置２１０と近距離無線通信または有線により接続する（図示しない）スマートフォンをさらに備え、スマートフォンは、遠隔対話アプリケーションに含まれる、ビデオ通話、画面共有等の各種処理を実行し、遠隔対話するユーザの対話装置２００Ａから、サーバ端末１００、ネットワークＮＷを介して伝送される画像情報から生成される画面を、液晶表示装置２１０の液晶表示部２１０に表示させることができる。ＣＣＤカメラ２４０は、対話装置２００を用いるユーザの眼球を赤外線により撮像し、液晶表示装置上のユーザの視点位置をトラッキングすることができる。液晶表示部の中央部に撮像部（ＣＣＤカメラ）を設けることで、その液晶表示装置を用いて対話を行うユーザは自然な形で液晶表示部に表示される相手の対話ユーザと会話をすることができる。本例において、このような自然な形での対話方法を実現するために、撮像部が位置する領域に相手ユーザの顔の位置（より好ましくは眼の位置）が合わさるよう表示されることが好ましく、相手ユーザが移動する場合には、常に顔が中心に位置するよう相手ユーザの対話装置に備えられるカメラが追従されることが好ましい。

図５は、サーバ１００に格納されるユーザデータの一例を示す図である。

ユーザデータ１０００は、ユーザに関連する各種データを格納する。図５において、説明の便宜上、一ユーザ（ユーザＩＤ「１０００１」で識別される予定）の例を示すが、複数のユーザに関連する情報を格納することができる。ユーザに関連する各種データとして、例えば、ユーザの基本情報（例えば、「氏名、住所、年齢、性別、職業」等のユーザとしての属性情報として利用される情報）、視点情報（例えば、撮像された画像に基づいて解析された、ユーザＩＤ「１０００１」で識別されるユーザの液晶表示画面上の視点位置情報）、及び感情情報（例えば、視点位置情報に基づいて生成された、ユーザＩＤ「１０００１」で識別されるユーザの感情情報）を含むことができる。

図６は、サーバ１００に格納される解析データの一例を示す図である。

解析データとして、（例えば、撮像された画像に基づいて解析された、各ユーザの液晶表示画面上の視点位置情報）、及び感情情報（例えば、視点位置情報に基づいて生成された、各ユーザの感情情報）を含むことができる。

図７は、サーバ１００に格納される感情情報の一例を示す図である。

図７に示す感情情報のテーブルにおいて、例えば、ユーザが、液晶表示部（液晶表示画面）の中心部の座標をｘ軸、ｙ軸方向に（０、０）として定義するときに、あるユーザの視点位置を、テーブルの上から下方向に向けてトラッキングし、対応する感情情報を含むように構成されたものである。例えば、あるユーザと対話する対話ユーザの映像が、画面中央に表示される液晶表示画面において、ユーザが、視点位置（０、０）、すなわち、画面中央に視点を合わせるときは、そのユーザは、対話ユーザとのコミュニケーションについて非常にポジティブである（高い関心を示している）ことが推定できる。一方で、ユーザの視点が、画面中央から離れていくに従って、そのユーザは、コミュニケーションについてネガティブとなる（関心が低くなる）ことが推定できる。ここで、ユーザの視点位置（座標）と対応する感情情報については、中心部の座標を中心として、座標の範囲に対応するようにルールを予め設定することもできるし、一のユーザの過去の視点情報と感情情報の組み合わせ、及び／または、複数のユーザの、過去の視点情報と感情情報の組み合わせを学習モデルとして、機械学習により、視点情報の入力から感情情報を出力することもできる。学習モデルの生成に際しては、ユーザから感情情報のフィードバックを、サーベイや音声情報等の追加的な情報によって取得することもできる。音声情報を用いる場合、例えば、音声情報からユーザの感情を検出したり、音声情報から自然言語解析を行い、会話内容から感情情報を検出し、入力情報（視点情報）に対する出力として評価することができる。

図８は、感情情報を時系列で表現した図である。

図８において、縦軸は、ユーザの感情を５段階（１：Ｖｅｒｙ　Ｎｅｇａｔｉｖｅ、２：Ｎｅｇａｔｉｖｅ、３：Ｎｅｕｔｒａｌ、４：Ｐｏｓｉｔｉｖｅ、５：Ｖｅｒｙ　Ｐｏｓｉｔｉｖｅ）で示しており、横軸は時間軸として示している。図８に示すように、ユーザの視点情報を基に感情情報を導出し、これを時系列で表現することができる。図８においては、ユーザが対話の冒頭、コミュニケーションについて高い関心を示しており、途中関心が低くなり、その後関心の高まりを次第に示す様子が可視化される。このような可視化された感情情報の遷移を、上述のようにサーバ端末１００の画面生成部により画面情報として生成し、対話装置２００に送信し、表示させることで、ユーザは対話ユーザの感情情報の遷移を参照しながらコミュニケーションを図ることできる。

図９は、サーバ１００に格納される感情情報の他の一例を示す図である。

図９に示すように、ユーザの視点情報を位置別に回数をカウントし、及び／または、その注視時間の累計を格納することで、そのユーザが、対話ユーザとのコミュニケーション全体（途中経過を含む）として、どのような感情を抱いているか、測ることができる。例えば、図９に示す情報から、ユーザは、コミュニケーション全体を通じて、視点位置が、座標（０、０）、すなわち、画面中央に最も注がれていることが理解でき、そのユーザが、コミュニケーションに対して、Ｖｅｒｙ　Ｐｏｓｉｔｉｖｅ（関心が非常に高い）な感情を頂いていることがわかる。

　＜処理の流れ＞
図１０を参照しながら、本実施形態のシステム１が実行する感情情報生成処理の流れについて説明する。図１０は、本発明の第一実施形態に係る、感情情報の生成方法を示すフローチャートである。

　ここで、本システム１を利用するために、ユーザは、各対話装置のウェブブラウザまたはアプリケーション等を利用してサーバ端末１００にアクセスし、初めてサービスを利用する場合は、前述のユーザ基本情報等を入力し、既にユーザアカウントを取得済の場合は、例えばＩＤとパスワードを入力する等の所定の認証を受けてログインすることで、サービスが利用可能となる。この認証後、ウェブサイト、アプリケーション等を介して所定のユーザインターフェースが提供され、ビデオ通話サービスを利用することができ、図１０に示すステップＳ１０１へ進む。

　まず、ステップＳ１０１の処理として、サーバ端末１００の制御部１３０の入力受付部１３１は、通信部１１０を介して、対話装置２００Ａから、視点情報を受信する。視点情報については、例えば、図４に示す対話装置の液晶表示部２２０に備えられた、ＣＣＤカメラ２４０により、ユーザの画像を撮像することで、視点位置の情報を取得することができる。図４に示す対話装置を用いる場合は、液晶表示部２２０の中心部（カメラ２４０が備えられる位置）に対話ユーザの映像が表示されることが好ましい。ここで、対話装置２００Ａにおいて、撮像された画像に基づいてユーザの視点位置を算出したうえで、視点位置に係る情報を、対話装置２００Ａからサーバ端末１００に送信することもできるし、画像情報をサーバ端末１００に送信したうえで、サーバ端末１００の制御部１３０の解析部１３２によって、受信した画像に基づいて視点位置を算出することもできる。

　次に、ステップＳ１０２の処理として、サーバ端末１００の制御部１３０の解析部１３２は、視点情報を解析する。また、解析部１３２は、視点情報として、ユーザの、液晶表示部（画面）上の視点位置を、継続的に、または、所定時間間隔にて、視点情報を取得した都度、特定のユーザに紐づけてユーザデータ格納部１２１、及び／または、解析データ格納部１２２に格納する。また、解析部１３２は、時系列でユーザの視点情報をトラッキングし、格納することができる。さらに、解析部１３２は、視点情報を基に、ユーザの視点位置が所定の座標に置かれた回数をカウントしたり、または、所定の座標に置かれた時間を都度計測したり、時間の累計を算出したりすることができる。また、上述のように、解析部１３２は、対話装置２００Ａから受信した、対話ユーザを含む画像に基づいて視点位置を算出することもできる。

続いて、ステップＳ１０３の処理として、サーバ端末１００の制御部１３０の感情情報生成部１３３は、解析した視点情報に基づいて、感情情報を生成する。例えば、感情情報生成部１３３は、図７に示すように、ユーザの視点位置が、液晶表示部の中心部を中心とした座標からどの範囲にあるか、という所定のルールに基づいて、感情情報を生成することができる。例えば、ユーザの視点位置が座標（０、０）、すなわち、画面中央にあるときは、そのユーザは、対話ユーザとのコミュニケーションについて非常にポジティブである（高い関心を示している）という感情情報が生成され、一方で、ユーザの視点が、画面中央から離れており、座標（－５００、５００）にあるときは、そのユーザは、コミュニケーションについて非常にネガティブである（関心が非常に低い）、という感情情報を生成することができる。または、上述のように、ユーザの視点情報と感情情報とで構成される学習モデルから、機械学習により、入力された視点情報を基に感情情報を生成することもできる。

また、図８に示すように、感情情報の遷移を時系列で変化することを可視化する情報を生成したり、図９に示すように、ユーザの視点が置かれた座標の回数及び／または累計時間によって、そのユーザの、コミュニケーション全体における感情を評価した情報を生成することもできる。生成した感情情報を可視化した情報として、対話装置２００Ｂに送信し、対話装置２００Ｂの表示部に表示させたり、感情情報を、対話装置２００Ｂを用いるユーザに報知させるために、感情情報の度合い（上述の５段階評価）に基づいてアイコン等により識別表示させたり、ユーザに感情情報を感覚的に伝達するために、対話装置２００Ｂの振動モータ等の報知部を駆動させるための制御信号を生成し、送信することができる。

以上により、ユーザの視点位置に基づいて感情情報を生成することにより、遠隔のユーザのコミュニケーションにおいて、相互のユーザに感情情報を共有することが可能となり、コミュニケーションの質の向上を図ることができる。

　以上、発明に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換および変更を行なって実施することが出来る。これらの実施形態および変形例ならびに省略、置換および変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。

１　システム　１００　サーバ端末、１１０　通信部、１２０　記憶部、１３０　制御部、２００　対話装置、ＮＷ　ネットワーク

Claims

　相互に遠隔に位置する、第１のユーザの対話装置と第２ユーザの対話装置とを用いた、第１ユーザと第２ユーザとのビデオ対話を支援する装置であって、
　前記装置は、
　第１のユーザの、前記第１のユーザの対話装置上の視点情報を受信する入力受付部と、
　前記視点情報を解析する解析部と、
　前記解析した視点情報を基に、感情情報を生成する感情情報生成部と、
　を有する装置。　
　請求項１に記載の装置であって、
　さらに、前記感情情報を、前記第２ユーザの対話装置に送信する感情情報送信部を有する装置。
　請求項１に記載の装置であって、
　さらに、前記感情情報を、前記第２ユーザの対話装置が有する感情報知部を制御するための制御情報に変換する、感情報知制御部を有する、装置。
　請求項１に記載の装置であって、
前記感情情報生成部は、前記視点情報に含まれる、前記対話装置上の視点の位置に基づいて、感情情報を生成する、装置。
　請求項１に記載の装置であって、
　前記感情情報生成部は、前記視点情報に含まれる、前記対話装置上の視点の位置の回数または時間に基づいて、感情情報を生成する、装置。