WO2022137502A1

WO2022137502A1 - ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Info

Publication number: WO2022137502A1
Application number: PCT/JP2020/048710
Authority: WO
Inventors: 渉三神谷
Original assignee: 株式会社I’mbesideyou
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-06-30
Also published as: JPWO2022137502A1; JP7477909B2

Abstract

【課題】ビデオミーティングにおいて取得された動画像を評価することにより、ビデオミーティング自体の評価を行うこと。の解析結果を活用できるようにすること。【解決手段】本開示のビデオミーティング評価システムは、他の端末とのビデオミーティングから取得される少なくとも動画像を表示する表示手段と、動画像を取得する取得手段と、取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成手段と、生成した表示オブジェクトを当該動画像に重畳して表示する表示制御手段と、を備えている。本発明によれば、動画像の分析・評価結果がリアルタイムで表示可能となる。

Description

ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

　本開示は、ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラムに関する。

　従来、オンラインで何らかの知識を教授したり、説明等を行うためのシステムが知られている（例えば、特許文献１参照）。

　また、このようなオンラインで行われるビデオミーティングの効果測定の方法として、例えば、ビデオミーティング後にアンケート等を行う方法も提案されている（例えば、特許文献２参照）。

特開２０１９－５８６２５号公報

　上述したアンケートによる効果測定の方法は、主観的になりがちであり、ビデオミーティングの内容に関して客観的な効果測定を行う方法としては不十分である。

　また、第三者によってビデオミーティングを監視し、第三者による客観的な評価を取得する方法も考えられるが、手間と時間がかかりすぎて現実的ではない。

　そこで、本発明は、ビデオミーティングの特に内容に関する評価を客観的に行うことを目的とする。

　本発明によれば、
　他の端末とのビデオミーティングから取得される少なくとも動画像を表示する表示手段と、
　前記動画像を取得する取得手段と、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成手段と、
　生成した前記表示オブジェクトを当該動画像に重畳して表示する表示制御手段と、を備える
ビデオミーティング評価端末が得られる。

　本開示によれば、ビデオミーティングの動画像を評価することにより、特に内容に関する評価を客観的に行うことができる。

　特に、本発明によれば、取得した動画像は当該端末に保存されることを前提としていることから、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオミーティングや機密情報を含むビデオミーティングであっても、その動画自体を外部の評価事業者等に提供することなく分析評価できる

　また、分析・評価した結果をリアルタイムで又は事後的に動画像に重畳して表示することとすれば、より利便性が向上できる。

本発明の実施の形態によるシステム全体図を示す図である。本発明の実施の形態による端末の構成例を示す図である。本発明の第１の実施の形態による評価端末の機能ブロック図の一例である。本発明の第１の実施の形態による機能ブロック図である。本発明の第２の実施の形態による機能ブロック図である。本発明の第３の実施の形態による機能ブロック図である。図６の実施の形態による画面例である。図６の実施の形態による他の画面例である。本発明の変形例を示す機能ブロック図である。本発明の変形例を示す機能ブロック図である。

　本開示の実施形態の内容を列記して説明する。本開示は、以下のような構成を備える。
［項目１］
　他の端末とのビデオミーティングから取得される少なくとも動画像を表示する表示手段と、
　前記動画像を取得する取得手段と、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成手段と、
　生成した前記表示オブジェクトを当該動画像に重畳して表示する表示制御手段と、を備える
ビデオミーティング評価端末。
［項目２］
　共有１に記載のビデオミーティング評価装置であって、
　前記動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別する識別手段と、
　識別した前記顔画像に関する評価値を算出する評価手段と、
ビデオミーティング評価端末。
［項目３］
　共有１に記載のビデオミーティング評価装置であって、
　前記動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別する顔画像識別手段と、
　前記動画像内に含まれる少なくとも音声を取得する音声取得手段と
　識別した前記顔画像及び前記音声の双方に基づいて評価値を算出する評価手段と、
ビデオミーティング評価端末。
［項目４］
　共有１乃至共有３のいずれかに記載のビデオミーティング評価端末であって、
　ビデオミーティング評価端末は、前記評価値の時系列によるグラフ情報を提供する、
ビデオミーティング評価端末。
［項目５］
　共有１乃至共有４のいずれかに記載のビデオミーティング評価端末であって、
　前記ビデオミーティング評価端末は、前記顔画像を複数の異なる観点によって評価した複数の評価値を算出する、
ビデオミーティング評価端末。
［項目６］
　共有１乃至共有５のいずれかに記載のビデオミーティング評価端末であって、
　前記ビデオミーティング評価端末は、前記動画像に含まれる音声と共に前記評価値を算出する、
ビデオミーティング評価端末。
［項目７］
　共有１乃至共有６のいずれかに記載のビデオミーティング評価端末であって、
　前記ビデオミーティング評価端末は、前記動画像内に含まれる前記顔画像以外の対象物と共に前記評価値を算出する、
ビデオミーティング評価端末。
［項目８］
　共有１乃至共有７のいずれかに記載のビデオミーティング評価端末であって、
　前記動画像に関連付けられた識別子を生成する識別子生成手段と、
　前記識別子及び前記前記評価値を対応付けて共有する共有手段をさらに有する、
ビデオミーティング評価端末。
［項目９］
　コンピュータを、
　ビデオミーティングを実行するビデオミーティング実行部、
　前記ビデオミーティングから取得される少なくとも動画像を表示する表示部、
　前記動画像を取得する取得部と、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成部と、
　生成した前記表示オブジェクトを当該動画像に重畳して表示する表示制御部として機能させる
ビデオミーティング評価プログラム。
［項目１０］
　コンピュータに、
　他の端末とのビデオミーティングから取得される少なくとも動画像を表示するステップと、
　前記動画像を取得するステップと、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するステップと、
　生成した前記表示オブジェクトを当該動画像に重畳して表示するステップと、を実行させることにより、前記ビデオミーティングを評価する
ビデオミーティング評価方法。
［項目１１］
　第１コンピュータと、当該第１コンピュータとビデオミーティングを行う第２コンピュータとを備えるビデオミーティング評価システムであって、
　ビデオミーティングを実行するビデオミーティング実行部、
　前記ビデオミーティングから取得される少なくとも動画像を表示する表示部、
　前記動画像を取得する取得部と、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成部と、
　生成した前記表示オブジェクトを当該動画像に重畳して表示する表示制御部として機能させる
ビデオミーティング評価プログラム。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　＜基本機能＞
　本実施形態のビデオミーティング評価システムは、複数人でビデオミーティング（以下、一方向及び双方向含めてオンラインセッションという）が行われる環境において、当該複数人の中の解析対象者について他者とは異なる特異的な感情（自分または他人の言動に対して起こる気持ち。快・不快またはその程度など）を解析し評価するシステムである。

　オンラインセッションは、例えばオンライン会議、オンライン授業、オンラインチャットなどであり、複数の場所に設置された端末をインターネットなどの通信ネットワークを介してサーバに接続し、当該サーバを通じて複数の端末間で動画像をやり取りできるようにしたものである。

　オンラインセッションで扱う動画像には、端末を使用するユーザの顔画像や音声が含まれる。また、動画像には、複数のユーザが共有して閲覧する資料などの画像も含まれる。各端末の画面上に顔画像と資料画像とを切り替えて何れか一方のみを表示させたり、表示領域を分けて顔画像と資料画像とを同時に表示させたりすることが可能である。また、複数人のうち１人の画像を全画面表示させたり、一部または全部のユーザの画像を小画面に分割して表示させたりすることが可能である。

　端末を使用してオンラインセッションに参加する複数のユーザのうち、何れか１人または複数人を解析対象者として指定することが可能である。例えば、オンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）が何れかのユーザを解析対象者として指定する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。なお、解析対象者を指定せず全ての参加者を解析対象としてもよい。

　また、オンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）が何れかのユーザを解析対象者として指定することも可能である。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。

　本実施の形態によるビデオミーティング評価システムは、複数の端末間においてビデオミーティングセッションが確立された場合に、当該ビデオミーティングから取得される少なくとも動画像を表示される。表示された動画像は、端末によって取得され、動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別される。その後、識別された顔画像に関する評価値が算出される。当該評価値は必要に応じて共有される。

　特に、本実施の形態においては、取得した動画像は当該端末に保存され、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオミーティングや機密情報を含むビデオミーティングであっても、その動画自体を外部の評価機関等に提供することなく分析評価できる。また、必要に応じて、当該評価結果（評価値）だけを外部端末に提供することによって、結果を可視化したり、クロス分析等行うことができる。

　図１に示されるように、本実施の形態によるビデオミーティング評価システムは、少なくともカメラ部及びマイク部等の入力部と、ディスプレイ等の表示部とスピーカー等の出力部とを有するユーザ端末１０、２０と、ユーザ端末１０、２０に双方向のビデオミーティングを提供するビデオミーティングサービス端末３０と、ビデオミーティングに関する評価の一部を行う評価端末４０とを備えている。

＜ハードウェア構成例＞
　図２は、本実施形態に係る各端末１０乃至４０を実現するコンピュータのハードウェア構成例を示す図である。コンピュータは、少なくとも、制御部１１０、メモリ１２０、ストレージ１３０、通信部１４０および入出力部１５０等を備える。これらはバス１６０を通じて相互に電気的に接続される。

　制御部１１０は、各端末全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部１１０は、ＣＰＵ等のプロセッサであり、ストレージ１３０に格納されメモリ１２０に展開されたプログラム等を実行して各情報処理を実施する。

　メモリ１２０は、ＤＲＡＭ等の揮発性記憶装置で構成される主記憶と、フラッシュメモリまたはＨＤＤ等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ１２０は、制御部１１０のワークエリア等として使用され、また、各端末の起動時に実行されるＢＩＯＳ、及び各種設定情報等を格納する。

　ストレージ１３０は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ１３０に構築されていてもよい。特に本実施の形態においては、ビデオミーティングサービス端末３０のストレージ１３０にはオンラインセッションにおける動画像は記録されず、ユーザ端末１０のストレージ１３０に格納される。また、評価端末４０は、ユーザ端末１０上において取得された動画像を評価するために必要なアプリケーションその他のプログラムを格納し、ユーザ端末１０が利用可能に適宜提供する。なお、評価端末４０の管理するストレージ１３には、例えば、ユーザ端末１０によって解析された結果、評価された結果のみが共有されることとしてもよい。

　通信部１４０は、端末をネットワークに接続する。通信部１４０は、例えば、有線ＬＡＮ、無線ＬＡＮ、Ｗｉ－Ｆｉ（登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離または非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。

　入出力部１５０は、例えば、キーボード、マウス、タッチパネル等の情報入力機器、及びディスプレイ等の出力機器である。

　バス１６０は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。

　特に、本実施の形態による評価端末は、ビデオミーティングサービス端末から動画像を取得し、当該動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別すると共に、顔画像に関する評価値を算出する（詳しくは後述する）。
＜動画の取得方法＞
　図３に示されるように、ビデオミーティングサービス端末が提供するビデオミーティングサービス（以下、単に「本サービス」と言うことがある」）は、ユーザ端末１０、２０に対して双方向に画像および音声によって通信が可能となるものである。本サービスは、ユーザ端末のディスプレイに相手のユーザ端末のカメラ部で取得した動画像を表示し、相手のユーザ端末のマイク部で取得した音声をスピーカーから出力可能となっている。

　また、本サービスは双方の又はいずれかのユーザ端末によって、動画像及び音声（これらを合わせて「動画像等」という）を少なくともいずれかのユーザ端末上の記憶部に記録（レコーディング）することが可能に構成されている。記録された動画像情報Ｖｓ（以下「記録情報」という）は、記録を開始したユーザ端末にキャッシュされつついずれかのユーザ端末のローカルのみに記録されることとなる。ユーザは、必要があれば当該記録情報を本サービスの利用の範囲内で自分で視聴、他者に共有等行うこともできる。

　ユーザ端末１０は、当該記録情報を取得して、後述するような分析及び評価を行う。

　ユーザ端末１０は、以上のようにして取得した動画を以下のような分析によって評価を行う。

＜実施の形態１＞
　以下、本発明の一実施形態を図面に基づいて説明する。図４は、本実施形態による構成例を示すブロック図である。図４に示すように、本実施形態のビデオミーティング評価システムは、ユーザ端末１０が有する機能構成として実現される。すなわち、ユーザ端末１０はその機能として、動画像取得部１１、生体反応解析部１２、特異判定部１３、関連事象特定部１４、クラスタリング部１５および解析結果通知部１６を備えている。

　上記各機能ブロック１１～１６は、例えばユーザ端末１０に備えられたハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１１～１６は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

　動画像取得部１１は、オンラインセッション中に各端末が備えるカメラにより複数人（複数のユーザ）を撮影することによって得られる動画像を各端末から取得する。各端末から取得する動画像は、各端末の画面上に表示されるように設定されているものか否かは問わない。すなわち、動画像取得部１１は、各端末に表示中の動画像および非表示中の動画像を含めて、動画像を各端末から取得する。

　生体反応解析部１２は、動画像取得部１１により取得された動画像（画面上に表示中のものか否かは問わない）に基づいて、複数人のそれぞれについて生体反応の変化を解析する。本実施形態において生体反応解析部１２は、動画像取得部１１により取得された動画像を画像のセット（フレーム画像の集まり）と音声とに分離し、それぞれから生体反応の変化を解析する。

　例えば、生体反応解析部１２は、動画像取得部１１により取得された動画像から分離したフレーム画像を用いてユーザの顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも１つに関する生体反応の変化を解析する。また、生体反応解析部１２は、動画像取得部１１により取得された動画像から分離した音声を解析することにより、ユーザの発言内容、声質の少なくとも１つに関する生体反応の変化を解析する。

　人は感情が変化すると、それが表情、目線、脈拍、顔の動き、発言内容、声質などの生体反応の変化となって現れる。本実施形態では、ユーザの生体反応の変化を解析することを通じて、ユーザの感情の変化を解析する。本実施形態において解析する感情は、一例として、快／不快の程度である。本実施形態において生体反応解析部１２は、生体反応の変化を所定の基準に従って数値化することにより、生体反応の変化の内容を反映させた生体反応指標値を算出する。

　表情の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、事前に機械学習させた画像解析モデルに従って特定した顔の表情を複数に分類する。そして、その分類結果に基づいて、連続するフレーム画像間でポジティブな表情変化が起きているか、ネガティブな表情変化が起きているか、およびどの程度の大きさの表情変化が起きているかを解析し、その解析結果に応じた表情変化指標値を出力する。

　目線の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から目の領域を特定し、両目の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、目線の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。目線の変化はユーザの集中度にも関連する。生体反応解析部１２は、目線の変化の解析結果に応じた目線変化指標値を出力する。

　脈拍の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定する。そして、顔の色情報（ＲＧＢのＧ）の数値を捉える学習済みの画像解析モデルを用いて、顔表面のＧ色の変化を解析する。その結果を時間軸に合わせて並べることによって色情報の変化を表した波形を形成し、この波形から脈拍を特定する。人は緊張すると脈拍が速くなり、気持ちが落ち着くと脈拍が遅くなる。生体反応解析部１２は、脈拍の変化の解析結果に応じた脈拍変化指標値を出力する。

　顔の動きの変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、顔の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、顔の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。顔の動きと目線の動きとを合わせて解析するようにしてもよい。例えば、表示中の話者の顔をまっすぐ見ているか、上目遣いまたは下目使いに見ているか、斜めから見ているかなどを解析するようにしてもよい。生体反応解析部１２は、顔の向きの変化の解析結果に応じた顔向き変化指標値を出力する。

　発言内容の解析は、例えば以下のようにして行う。すなわち、生体反応解析部１２は、指定した時間（例えば、３０～１５０秒程度の時間）の音声について公知の音声認識処理を行うことによって音声を文字列に変換し、当該文字列を形態素解析することにより、助詞、冠詞などの会話を表す上で不要なワードを取り除く。そして、残ったワードをベクトル化し、ポジティブな感情変化が起きているか、ネガティブな感情変化が起きているか、およびどの程度の大きさの感情変化が起きているかを解析し、その解析結果に応じた発言内容指標値を出力する。

　声質の解析は、例えば以下のようにして行う。すなわち、生体反応解析部１２は、指定した時間（例えば、３０～１５０秒程度の時間）の音声について公知の音声解析処理を行うことによって音声の音響的特徴を特定する。そして、その音響的特徴に基づいて、ポジティブな声質変化が起きているか、ネガティブな声質変化が起きているか、およびどの程度の大きさの声質変化が起きているかを解析し、その解析結果に応じた声質変化指標値を出力する。

　生体反応解析部１２は、以上のようにして算出した表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値、声質変化指標値の少なくとも１つを用いて生体反応指標値を算出する。例えば、表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値および声質変化指標値を重み付け計算することにより、生体反応指標値を算出する。

　特異判定部１３は、解析対象者について解析された生体反応の変化が、解析対象者以外の他者について解析された生体反応の変化と比べて特異的か否かを判定する。本実施形態において、特異判定部１３は、生体反応解析部１２により複数のユーザのそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。

　例えば、特異判定部１３は、生体反応解析部１２により複数人のそれぞれについて算出された生体反応指標値の分散を算出し、解析対象者について算出された生体反応指標値と分散との対比により、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。

　解析対象者について解析された生体反応の変化が他者と比べて特異的である場合として、次の３パターンが考えられる。１つ目は、他者については特に大きな生体反応の変化が起きていないが、解析対象者について比較的大きな生体反応の変化が起きた場合である。２つ目は、解析対象者については特に大きな生体反応の変化が起きていないが、他者について比較的大きな生体反応の変化が起きた場合である。３つ目は、解析対象者についても他者についても比較的大きな生体反応の変化が起きているが、変化の内容が解析対象者と他者とで異なる場合である。

　関連事象特定部１４は、特異判定部１３により特異的であると判定された生体反応の変化が起きたときに解析対象者、他者および環境の少なくとも１つに関して発生している事象を特定する。例えば、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける解析対象者自身の言動を動画像から特定する。また、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける他者の言動を動画像から特定する。また、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける環境を動画像から特定する。環境は、例えば画面に表示中の共有資料、解析対象者の背景に写っているものなどである。

　クラスタリング部１５は、特異判定部１３により特異的であると判定された生体反応の変化（例えば、目線、脈拍、顔の動き、発言内容、声質のうち１つまたは複数の組み合わせ）と、当該特異的な生体反応の変化が起きたときに発生している事象（関連事象特定部１４により特定された事象）との相関の程度を解析し、相関が一定レベル以上であると判定された場合に、その相関の解析結果に基づいて解析対象者または事象をクラスタリングする。

　例えば、特異的な生体反応の変化がネガティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もネガティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部１５は、その事象の内容やネガティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。

　同様に、特異的な生体反応の変化がポジティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もポジティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部１５は、その事象の内容やポジティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。

　解析結果通知部１６は、特異判定部１３により特異的であると判定された生体反応の変化、関連事象特定部１４により特定された事象、およびクラスタリング部１５によりクラスタリングされた分類の少なくとも１つを、解析対象者の指定者（解析対象者またはオンラインセッションの主催者）に通知する。

　例えば、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたとき（上述した３パターンの何れか。以下同様）に発生している事象として解析対象者自身の言動を解析対象者自身に通知する。これにより、解析対象者は、自分がある言動を行ったときに他者とは違う感情を持っていることを把握することができる。このとき、解析対象者について特定された特異的な生体反応の変化も併せて解析対象者に通知するようにしてもよい。さらに、対比される他者の生体反応の変化を更に解析対象者に通知するようにしてもよい。

　例えば、解析対象者が普段どおりの感情で特に意識せずに行った言動、または、解析対象者がある感情を伴って特に意識して行った言動に対して他者が受けた感情と、言動の際に解析対象者自身が抱いていた感情とが相違している場合に、そのときの解析対象者自身の言動が解析対象者に通知される。これにより、自分の意識に反して他者の受けが良い言動や他者の受けが良くない言動などを発見することも可能である。

　また、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象を、特異的な生体反応の変化と共にオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者に特有の現象として、どのような事象がどのような感情の変化に影響を与えているのかを知ることができる。そして、その把握した内容に応じて適切な処置を解析対象者に対して行うことが可能となる。

　また、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象または解析対象者のクラスタリング結果をオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者がどの分類にクラスタリングされたかによって、解析対象者に特有の行動の傾向を把握したり、今後起こり得る行動や状態などを予測したりすることができる。そして、それに対して適切な処置を解析対象者に対して行うことが可能となる。

　なお、上記実施形態では、生体反応の変化を所定の基準に従って数値化することによって生体反応指標値を算出し、複数人のそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する例について説明したが、この例に限定されない。例えば、以下のようにしてもよい。

　すなわち、生体反応解析部１２は、複数人のそれぞれについて目線の動きを解析して目線の方向を示すヒートマップを生成する。特異判定部１３は、生体反応解析部１２により解析対象者について生成されたヒートマップと他者について生成されたヒートマップとの対比により、解析対象者について解析された生体反応の変化が、他者について解析された生体反応の変化と比べて特異的か否かを判定する。

　このように、本実施の形態においては、ビデオミーティングの動画像をユーザ端末１０のローカルストレージに保存し、ユーザ端末１０上で上述した分析を行うこととしている。ユーザ端末１０のマシンスペックに依存する可能性があるとはいえ、動画像の情報を外部に提供することなく分析することが可能となる。

＜実施の形態２＞
　以下、本発明の実施例２に基づいて説明する。図５は、本実施形態による構成例を示すブロック図である。図１に示すように、本実施形態のビデオミーティング評価システムは、機能構成として、動画像取得部１１、生体反応解析部１２および反応情報提示部１３ａを備えている。

　反応情報提示部１３ａは、画面に表示されていない参加者を含めて生体反応解析部１２ａにより解析された生体反応の変化を示す情報を提示する。例えば、反応情報提示部１３ａは、生体反応の変化を示す情報をオンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）に提示する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。

　このようにすることにより、オンラインセッションの主催者は、複数人でオンラインセッションが行われる環境において、画面に表示されていない参加者の様子も把握することができる。

＜実施の形態３＞
　以下、本発明の実施例３に基づいて説明する。図６は、本実施形態による構成例を示すブロック図である。図６に示すように、本実施形態のビデオミーティング評価システムは、機能構成として、上述した実施の形態１と類似する機能については同一つの参照符号を付して説明を省略することがある。

　本実施の形態によるシステムは、ビデオミーティングの映像を取得するカメラ部及び音声を取得するマイク部と、動画像を分析及び評価する解析部、取得した動画像を評価することによって得られた情報に基づいて表示オブジェクト（後述する）を生成するオブジェクト生成部、前記ビデオミーティング実行中にビデオミーティングの動画像と表示オブジェクトの両方を表示する表示部と、を備えている。

　解析部は、上述した説明と同様に、動画像取得部１１、生体反応解析部１２、特異判定部１３、関連事象特定部１４、クラスタリング部１５および解析結果通知部１６を備えている。各要素の機能については上述したとおりである。

　図７に示されるように、オブジェクト生成部は、解析部によってビデオミーティングから取得される動画像を解析した結果に基づいて、必要に応じて、当該認識した顔の部分を示すオブジェクト５０と、上述した分析・評価した内容を示す情報１００を当該動画像に重畳して表示する。当該オブジェクト５０は、複数人の顔が動画像内に移っている場合には、複数人全員の顔を識別し、表示することとしてもよい。

　また、オブジェクト５０は、例えば、相手側の端末において、ビデオミーティングのカメラ機能を停止している場合（即ち、物理的にカメラを覆う等ではなく、ビデオミーティングのアプリケーション内においてソフトウェア的に停止している場合）であっても、相手側のカメラで相手の顔を認識していた場合には、相手の顔が位置している部分にオブジェクト５０やオブジェクト１００を表示することとしてもよい。これにより、カメラ機能がオフになっていたとしても、相手側が端末の前にいることがお互い確認することが可能となる。この場合、例えば、ビデオミーティングのアプリケーションにおいては、カメラから取得した情報を非表示にする一方、解析部によって認識された顔に対応するオブジェクト５０やオブジェクト１００のみを表示することとしてもよい。また、ビデオミーティングから取得される映像情報と、解析部によって認識され得られた情報とを異なる表示レイヤーに分け、前者の情報に関するレイヤーを非表示にすることとしてもよい。

　オブジェクト５０やオブジェクト１００は、複数の動画像を表示する領域がある場合には、すべての領域又は一部の領域のみに表示することとしてもよい。例えば、図８に示されるように、ゲスト側の動画像のみに表示することとしてもよい。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　本明細書において説明した装置は、単独の装置として実現されてもよく、一部または全部がネットワークで接続された複数の装置（例えばクラウドサーバ）等により実現されてもよい。例えば、各端末１０の制御部１１０およびストレージ１３０は、互いにネットワークで接続された異なるサーバにより実現されてもよい。

　即ち、本システムは、ユーザ端末１０、２０と、ユーザ端末１０、２０に双方向のビデオミーティングを提供するビデオミーティングサービス端末３０と、ビデオミーティングに関する評価を行う評価端末４０とを含んでいるところ、以下のような構成のバリエーション組み合わせが考えられる。
（１）すべてをユーザ端末のみで処理
　図９に示されるように、解析部による処理をビデオミーティングを行っている端末で行うことにより、（一定の処理能力は必要なものの）ビデオミーティングを行っている時間と同時に（リアルタイムに）分析・評価結果を得ることができる。
（２）ユーザ端末と評価端末とで処理
　図１０に示されるように、ネットワーク等で接続された評価端末に解析部を備えさせることとしてもよい。この場合、ユーザ端末で取得された動画像は、ビデオミーティングと同時に又は事後的に評価端末に共有され、評価端末における解析部によって分析・評価されたのちに、オブジェクト５０及びオブジェクト１００の情報がユーザ端末に動画像データと共に又は別に（即ち、少なくとも解析データを含む情報が）共有され表示部に表示される。

　本明細書において説明した装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る情報共有支援装置１０の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することが可能である。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

　また、本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　以下の構成も本発明に含み得る。
＜構成１＞
　複数人でオンラインセッションが行われる環境において、当該複数人の中の解析対象者について他者とは異なる特異的な感情を解析するビデオミーティング評価システム。
＜構成２＞
　上記オンラインセッション中に上記複数人を撮影することによって得られる動画像を取得する動画像取得部と、
　上記動画像取得部により取得された動画像に基づいて、上記複数人のそれぞれについて生体反応の変化を解析する生体反応解析部と、
　上記解析対象者について解析された上記生体反応の変化が、上記解析対象者以外の他者について解析された上記生体反応の変化と比べて特異的か否かを判定する特異判定部とを備えた
ことを特徴とするビデオミーティング評価システム。
＜構成３＞
　上記生体反応解析部は、上記動画像取得部により取得された動画像にける顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも１つに関する生体反応の変化を解析することを特徴とする構成２に記載のビデオミーティング評価システム。
＜構成４＞
　上記生体反応解析部は、上記動画像取得部により取得された動画像にける音声を解析することにより、発言内容、声質の少なくとも１つに関する生体反応の変化を解析することを特徴とする構成２または３に記載のビデオミーティング評価システム。
＜構成５＞
　上記生体反応解析部は、上記生体反応の変化を所定の基準に従って数値化することによって生体反応指標値を算出し、
　上記特異判定部は、上記生体反応解析部により上記複数人のそれぞれについて算出された上記生体反応指標値に基づいて、上記解析対象者について解析された上記生体反応の変化が、上記解析対象者以外の他者について解析された上記生体反応の変化と比べて特異的か否かを判定する
ことを特徴とする構成２～４の何れか１項に記載のビデオミーティング評価システム。
＜構成６＞
　上記特異判定部は、上記生体反応解析部により上記複数人のそれぞれについて算出された上記生体反応指標値の分散を算出し、上記解析対象者について算出された上記生体反応指標値と上記分散との対比により、上記解析対象者について解析された上記生体反応の変化が、上記他者について解析された上記生体反応の変化と比べて特異的か否かを判定することを特徴とする構成５に記載のビデオミーティング評価システム。
＜構成７＞
　上記生体反応解析部は、上記複数人のそれぞれについて上記目線の動きを解析して目線の方向を示すヒートマップを生成し、
　上記特異判定部は、上記生体反応解析部により上記解析対象者について生成されたヒートマップと上記他者について生成されたヒートマップとの対比により、上記解析対象者について解析された上記生体反応の変化が、上記他者について解析された上記生体反応の変化と比べて特異的か否かを判定する
ことを特徴とする構成３に記載のビデオミーティング評価システム。
＜構成８＞
　上記特異判定部により特異的であると判定された生体反応の変化が起きたときに上記解析対象者、上記他者および環境の少なくとも１つに関して発生している事象を特定する関連事象特定部を更に備えたことを特徴とする構成２～７の何れか１項に記載のビデオミーティング評価システム。
＜構成９＞
　上記特異判定部により特異的であると判定された生体反応の変化と、当該特異的な生体反応の変化が起きたときに発生している事象との相関の程度を解析し、相関が一定レベル以上であると判定された場合に、その相関の解析結果に基づいて上記解析対象者または上記事象をクラスタリングするクラスタリング部を更に備えたことを特徴とする構成８に記載のビデオミーティング評価システム。
＜構成１０＞
　上記特異判定部により特異的であると判定された生体反応の変化および上記関連事象特定部により特定された事象の少なくとも一方を、上記解析対象者または上記オンラインセッションの主催者に通知する解析結果通知部を更に備えたことを特徴とする構成８に記載のビデオミーティング評価システム。
＜構成１１＞
　上記特異判定部により特異的であると判定された生体反応の変化、上記関連事象特定部により特定された事象、および上記クラスタリング部によりクラスタリングされた分類の少なくとも１つを、上記解析対象者または上記オンラインセッションの主催者に通知する解析結果通知部を更に備えたことを特徴とする項目９に記載のビデオミーティング評価システム。
＜構成１２＞
　複数人の参加者でオンラインセッションが行われる環境において、オンラインセッション中に参加者が画面に表示されているか否かによらず、上記参加者を撮影することによって得られる動画像をもとに上記参加者の反応を解析し、その解析結果を提示する反応解析システム。
＜構成１３＞
　上記オンラインセッション中に上記参加者を撮影することによって得られる動画像を取得する動画像取得部と、
　上記動画像取得部により取得された動画像に基づいて、上記参加者について生体反応の変化を解析する生体反応解析部と、
　上記画面に表示されていない参加者を含めて上記生体反応解析部により解析された上記生体反応の変化を示す情報を提示する反応情報提示部とを備えた
ことを特徴とする項目１２に記載の反応解析システム。
＜構成１４＞
　上記生体反応解析部は、上記動画像取得部により取得された動画像にける顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも１つに関する生体反応の変化を解析することを特徴とする項目１３に記載の反応解析システム。
＜構成１５＞
　上記生体反応解析部は、上記動画像取得部により取得された動画像にける音声を解析することにより、発言内容、声質の少なくとも１つに関する生体反応の変化を解析することを特徴とする項目１３又は項目１４に記載の反応解析システム。
＜構成１６＞
　上記生体反応解析部は、上記画面に表示されていない参加者が、上記画面に表示されている共有資料のどこを見ているかを解析することを特徴とする項目１３に記載の反応解析システム。
＜構成１７＞
　上記生体反応解析部は、上記画面に表示されていない参加者が、上記オンラインセッション中のどのタイミングで声を出したかを解析することを特徴とする項目１３に記載の反応解析システム。
＜構成１８＞
　上記反応情報提示部は、上記生体反応の変化を示す情報を上記オンラインセッションの主催者に提示することを特徴とする項目１３乃至項目１７の何れか１項に記載の反応解析システム。

　１０、２０　　　ユーザ端末
　３０　　　ビデオミーティングサービス端末
　４０　　　評価端末

Claims

　他の端末とのビデオミーティングから取得される少なくとも動画像を表示する表示手段と、
　前記動画像を取得する取得手段と、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成手段と、
　生成した前記表示オブジェクトを当該動画像に重畳して表示する表示制御手段と、を備える
ビデオミーティング評価端末。
　請求項１に記載のビデオミーティング評価装置であって、
　前記動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別する識別手段と、
　識別した前記顔画像に関する評価値を算出する評価手段と、
ビデオミーティング評価端末。
　請求項１に記載のビデオミーティング評価装置であって、
　前記動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別する顔画像識別手段と、
　前記動画像内に含まれる少なくとも音声を取得する音声取得手段と
　識別した前記顔画像及び前記音声の双方に基づいて評価値を算出する評価手段と、
ビデオミーティング評価端末。
　請求項１乃至請求項３のいずれかに記載のビデオミーティング評価端末であって、
　ビデオミーティング評価端末は、前記評価値の時系列によるグラフ情報を提供する、
ビデオミーティング評価端末。
　請求項１乃至請求項４のいずれかに記載のビデオミーティング評価端末であって、
　前記ビデオミーティング評価端末は、前記顔画像を複数の異なる観点によって評価した複数の評価値を算出する、
ビデオミーティング評価端末。
　請求項１乃至請求項５のいずれかに記載のビデオミーティング評価端末であって、
　前記ビデオミーティング評価端末は、前記動画像に含まれる音声と共に前記評価値を算出する、
ビデオミーティング評価端末。
　請求項１乃至請求項６のいずれかに記載のビデオミーティング評価端末であって、
　前記ビデオミーティング評価端末は、前記動画像内に含まれる前記顔画像以外の対象物と共に前記評価値を算出する、
ビデオミーティング評価端末。
　請求項１乃至請求項７のいずれかに記載のビデオミーティング評価端末であって、
　前記動画像に関連付けられた識別子を生成する識別子生成手段と、
　前記識別子及び前記前記評価値を対応付けて共有する共有手段をさらに有する、
ビデオミーティング評価端末。
　コンピュータを、
　ビデオミーティングを実行するビデオミーティング実行部、
　前記ビデオミーティングから取得される少なくとも動画像を表示する表示部、
　前記動画像を取得する取得部と、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成部と、
　生成した前記表示オブジェクトを当該動画像に重畳して表示する表示制御部として機能させる
ビデオミーティング評価プログラム。
　コンピュータに、
　他の端末とのビデオミーティングから取得される少なくとも動画像を表示するステップと、
　前記動画像を取得するステップと、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するステップと、
　生成した前記表示オブジェクトを当該動画像に重畳して表示するステップと、を実行させることにより、前記ビデオミーティングを評価する
ビデオミーティング評価方法。
　第１コンピュータと、当該第１コンピュータとビデオミーティングを行う第２コンピュータとを備えるビデオミーティング評価システムであって、
　ビデオミーティングを実行するビデオミーティング実行部、
　前記ビデオミーティングから取得される少なくとも動画像を表示する表示部、
　前記動画像を取得する取得部と、
　取得した動画像を評価することによって得られた情報に基づいて、表示オブジェクトを生成するオブジェクト生成部と、
　生成した前記表示オブジェクトを当該動画像に重畳して表示する表示制御部として機能させる
ビデオミーティング評価プログラム。