WO2022145038A1

WO2022145038A1 - ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Info

Publication number: WO2022145038A1
Application number: PCT/JP2020/049293
Authority: WO
Inventors: 渉三神谷
Original assignee: 株式会社I’mbesideyou
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-07-07
Also published as: JPWO2022145038A1

Abstract

【課題】ビデオミーティングにおいて取得された動画像を評価することにより、ビデオミーティング自体の評価を行うこと。【解決手段】本開示のビデオミーティング評価システムは、他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段を備えている。

Description

ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

　本開示は、ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラムに関する。

　従来、オンラインで何らかの知識を教授したり、説明等を行うためのシステムが知られている（例えば、特許文献１参照）。

　また、このようなオンラインで行われるビデオミーティングの効果測定の方法として、例えば、ビデオミーティング後にアンケート等を行う方法も提案されている（例えば、特許文献２参照）。

特開２０１９－５８６２５号公報

　上述したアンケートによる効果測定の方法は、主観的になりがちであり、ビデオミーティングの内容に関して客観的な効果測定を行う方法としては不十分である。

　また、第三者によってビデオミーティングを監視し、第三者による客観的な評価を取得する方法も考えられるが、手間と時間がかかりすぎて現実的ではない。

　そこで、本発明は、ビデオミーティングの特に内容に関する評価を客観的に行うことを目的とする。

　本発明によれば、
　他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、
　前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、
　前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と
　認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、
　前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、
ビデオミーティング評価端末が得られる。

　本開示によれば、ビデオミーティングの動画像を評価することにより、特に内容に関する評価を客観的に行うことができる。

　特に、本発明によれば、取得した動画像は当該端末に保存されることを前提としていることから、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオミーティングや機密情報を含むビデオミーティングであっても、その動画自体を外部の評価事業者等に提供することなく分析評価できる

　また、分析・評価した結果をリアルタイムで又は事後的に動画像に重畳して表示することとすれば、より利便性が向上できる。

本発明の実施の形態によるシステム全体図を示す図である。本発明の実施の形態による端末の構成例を示す図である。本発明の第１の実施の形態による評価端末の機能ブロック図の一例である。本発明の第１の実施の形態による機能ブロック図である。本発明の第１の実施の形態による機能ブロック図である。本発明の第１の実施の形態による機能ブロック図である。本発明の第１の実施の形態による機能ブロック図である。本発明の第１の実施の形態による機能ブロック図である。本発明の第２の実施の形態による機能ブロック図である。本発明の第２の実施の形態による機能ブロック図である。本発明の第３の実施の形態による実装例である。本発明の第４の実施の形態による実装例である。本発明の第５の実施の形態による実装例である。本発明の第６の実施の形態による実装例である。

　本開示の実施形態の内容を列記して説明する。本開示は、以下のような構成を備える。
［項目１］
　他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、
　前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、
　前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と
　認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、
　前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、
ビデオミーティング評価端末。
［項目２］
　請求項１に記載のビデオミーティング評価端末であって、
　前記グラフ出力手段は、一の前記動画像内において認識した前記対象者の前記評価値を出力する、
ビデオミーティング評価端末。
［項目３］
　請求項１又は２に記載のビデオミーティング評価端末であって、
　複数の前記動画像から前記対象者が含まれる一以上の対象者動画像を前記顔認識手段又は前記音声認識手段の少なくともいずれかを利用して抽出する対象者抽出手段を更に備えており、
　前記グラフ出力手段は、前記対象者動画像毎に算出された前記評価値を一覧可能に出力する、
ビデオミーティング評価端末。
［項目４］
　請求項１乃至請求項３のいずれかに記載のビデオミーティング評価端末であって、
　前記グラフ出力手段は、前記観点毎の折れ線グラフとして出力する、
ビデオミーティング評価端末。
［項目５］
　請求項１乃至請求項４のいずれかに記載のビデオミーティング評価端末であって、
　前記グラフ出力手段は、前記観点毎に異なる色として表示される前記グラフ情報を表示する
ビデオミーティング評価端末。
［項目６］
　請求項１乃至請求項５のいずれかに記載のビデオミーティング評価端末であって、
　前記評価手段は、複数の対象者間で平準化された評価基準に従って前記対象者の感情の度合いを評価し、
　前記グラフ出力手段は、前記感情の度合いを、感情の種類毎に出力する、
ビデオミーティング評価端末。
［項目７］
　請求項６に記載のビデオミーティング評価端末であって、
　前記評価手段は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、前記対象者による同じ感情の生起しやすさに応じて調整された感情の度合いを評価し、
　前記グラフ出力手段は、前記調整された感情の度合いを、感情の種類毎に出力する、
ビデオミーティング評価端末。
［項目８］
　請求項６に記載のビデオミーティング評価端末であって、
　前記評価手段は、前記対象者による同じ感情の生起しやすさに応じて調整した値である感情反応絶対値を算出し、
　前記グラフ出力手段は、前記感情反応絶対値を、感情の種類毎に出力する、
ビデオミーティング評価端末。
［項目９］
　コンピュータを、
　他の端末との間で行われるビデオミーティングの動画像を取得する取得手段、
　前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段、
　前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段
　認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段、
　前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、として機能させる
ビデオミーティング評価プログラム。
［項目１０］
　他の端末との間で行われるビデオミーティングの動画像を取得する取得ステップ、
　前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識ステップ、
　前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識ステップ、
　認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価ステップ、
　前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力ステップ、を含む、
ビデオミーティング評価方法。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　＜基本機能＞
　本実施形態のビデオミーティング評価システム（以下、単に「本システム」という場合がある）は、複数人でビデオミーティング（以下、一方向及び双方向含めてオンラインセッションという）が行われる環境において、当該複数人の中の解析対象者について他者とは異なる特異的な感情（自分または他人の言動に対して起こる気持ち。快・不快またはその程度など）を解析し評価するシステムである。

　オンラインセッションは、例えばオンライン会議、オンライン授業、オンラインチャットなどであり、複数の場所に設置された端末をインターネットなどの通信ネットワークを介してサーバに接続し、当該サーバを通じて複数の端末間で動画像をやり取りできるようにしたものである。

　オンラインセッションで扱う動画像には、端末を使用するユーザの顔画像や音声が含まれる。また、動画像には、複数のユーザが共有して閲覧する資料などの画像も含まれる。各端末の画面上に顔画像と資料画像とを切り替えて何れか一方のみを表示させたり、表示領域を分けて顔画像と資料画像とを同時に表示させたりすることが可能である。また、複数人のうち１人の画像を全画面表示させたり、一部または全部のユーザの画像を小画面に分割して表示させたりすることが可能である。

　端末を使用してオンラインセッションに参加する複数のユーザのうち、何れか１人または複数人を解析対象者として指定することが可能である。例えば、オンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）が何れかのユーザを解析対象者として指定する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。なお、解析対象者を指定せず全ての参加者を解析対象としてもよい。

　また、オンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）が何れかのユーザを解析対象者として指定することも可能である。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。

　本実施の形態によるビデオミーティング評価システムは、複数の端末間においてビデオミーティングセッションが確立された場合に、当該ビデオミーティングから取得される少なくとも動画像を表示される。表示された動画像は、端末によって取得され、動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別される。その後、識別された顔画像に関する評価値が算出される。当該評価値は必要に応じて共有される。

　特に、本実施の形態においては、取得した動画像は当該端末に保存され、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオミーティングや機密情報を含むビデオミーティングであっても、その動画自体を外部の評価機関等に提供することなく分析評価できる。また、必要に応じて、当該評価結果（評価値）だけを外部端末に提供することによって、結果を可視化したり、クロス分析等行うことができる。

　図１に示されるように、本実施の形態によるビデオミーティング評価システムは、少なくともカメラ部及びマイク部等の入力部と、ディスプレイ等の表示部とスピーカー等の出力部とを有するユーザ端末１０、２０と、ユーザ端末１０、２０に双方向のビデオミーティングを提供するビデオミーティングサービス端末３０と、ビデオミーティングに関する評価の一部を行う評価端末４０とを備えている。

＜ハードウェア構成例＞
　図２は、本実施形態に係る各端末１０乃至４０を実現するコンピュータのハードウェア構成例を示す図である。コンピュータは、少なくとも、制御部１１０、メモリ１２０、ストレージ１３０、通信部１４０および入出力部１５０等を備える。これらはバス１６０を通じて相互に電気的に接続される。

　制御部１１０は、各端末全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部１１０は、ＣＰＵ等のプロセッサであり、ストレージ１３０に格納されメモリ１２０に展開されたプログラム等を実行して各情報処理を実施する。

　メモリ１２０は、ＤＲＡＭ等の揮発性記憶装置で構成される主記憶と、フラッシュメモリまたはＨＤＤ等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ１２０は、制御部１１０のワークエリア等として使用され、また、各端末の起動時に実行されるＢＩＯＳ、及び各種設定情報等を格納する。

　ストレージ１３０は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ１３０に構築されていてもよい。特に本実施の形態においては、ビデオミーティングサービス端末３０のストレージ１３０にはオンラインセッションにおける動画像は記録されず、ユーザ端末１０のストレージ１３０に格納される。また、評価端末４０は、ユーザ端末１０上において取得された動画像を評価するために必要なアプリケーションその他のプログラムを格納し、ユーザ端末１０が利用可能に適宜提供する。なお、評価端末４０の管理するストレージ１３には、例えば、ユーザ端末１０によって解析された結果、評価された結果のみが共有されることとしてもよい。

　通信部１４０は、端末をネットワークに接続する。通信部１４０は、例えば、有線ＬＡＮ、無線ＬＡＮ、Ｗｉ－Ｆｉ（登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離または非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。

　入出力部１５０は、例えば、キーボード、マウス、タッチパネル等の情報入力機器、及びディスプレイ等の出力機器である。

　バス１６０は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。

　特に、本実施の形態による評価端末は、ビデオミーティングサービス端末から動画像を取得し、当該動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別すると共に、顔画像に関する評価値を算出する（詳しくは後述する）。
＜動画の取得方法＞
　図３に示されるように、ビデオミーティングサービス端末が提供するビデオミーティングサービス（以下、単に「本サービス」と言うことがある」）は、ユーザ端末１０、２０に対して双方向に画像および音声によって通信が可能となるものである。本サービスは、ユーザ端末のディスプレイに相手のユーザ端末のカメラ部で取得した動画像を表示し、相手のユーザ端末のマイク部で取得した音声をスピーカーから出力可能となっている。

　また、本サービスは双方の又はいずれかのユーザ端末によって、動画像及び音声（これらを合わせて「動画像等」という）を少なくともいずれかのユーザ端末上の記憶部に記録（レコーディング）することが可能に構成されている。記録された動画像情報Ｖｓ（以下「記録情報」という）は、記録を開始したユーザ端末にキャッシュされつついずれかのユーザ端末のローカルのみに記録されることとなる。ユーザは、必要があれば当該記録情報を本サービスの利用の範囲内で自分で視聴、他者に共有等行うこともできる。

　ユーザ端末１０は、以上のようにして取得した動画を以下のような分析によって評価を行う。

　以下、本発明の一実施形態を図面に基づいて説明する。図４は、本実施形態による構成例を示すブロック図である。図４に示すように、本実施形態のビデオミーティング評価システムは、ユーザ端末１０が有する機能構成として実現される。すなわち、ユーザ端末１０はその機能として、動画像取得部１１、生体反応解析部１２、特異判定部１３、関連事象特定部１４、クラスタリング部１５および解析結果通知部１６を備えている。

　上記各機能ブロック１１～１６は、例えばユーザ端末１０に備えられたハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１１～１６は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

　動画像取得部１１は、オンラインセッション中に各端末が備えるカメラにより複数人（複数のユーザ）を撮影することによって得られる動画像を各端末から取得する。各端末から取得する動画像は、各端末の画面上に表示されるように設定されているものか否かは問わない。すなわち、動画像取得部１１は、各端末に表示中の動画像および非表示中の動画像を含めて、動画像を各端末から取得する。

　生体反応解析部１２は、動画像取得部１１により取得された動画像（画面上に表示中のものか否かは問わない）に基づいて、複数人のそれぞれについて生体反応の変化を解析する。本実施形態において生体反応解析部１２は、動画像取得部１１により取得された動画像を画像のセット（フレーム画像の集まり）と音声とに分離し、それぞれから生体反応の変化を解析する。

　例えば、生体反応解析部１２は、動画像取得部１１により取得された動画像から分離したフレーム画像を用いてユーザの顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも１つに関する生体反応の変化を解析する。また、生体反応解析部１２は、動画像取得部１１により取得された動画像から分離した音声を解析することにより、ユーザの発言内容、声質の少なくとも１つに関する生体反応の変化を解析する。

　人は感情が変化すると、それが表情、目線、脈拍、顔の動き、発言内容、声質などの生体反応の変化となって現れる。本実施形態では、ユーザの生体反応の変化を解析することを通じて、ユーザの感情の変化を解析する。本実施形態において解析する感情は、一例として、快／不快の程度である。本実施形態において生体反応解析部１２は、生体反応の変化を所定の基準に従って数値化することにより、生体反応の変化の内容を反映させた生体反応指標値を算出する。

　表情の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、事前に機械学習させた画像解析モデルに従って特定した顔の表情を複数に分類する。そして、その分類結果に基づいて、連続するフレーム画像間でポジティブな表情変化が起きているか、ネガティブな表情変化が起きているか、およびどの程度の大きさの表情変化が起きているかを解析し、その解析結果に応じた表情変化指標値を出力する。

　目線の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から目の領域を特定し、両目の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、目線の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。目線の変化はユーザの集中度にも関連する。生体反応解析部１２は、目線の変化の解析結果に応じた目線変化指標値を出力する。

　脈拍の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定する。そして、顔の色情報（ＲＧＢのＧ）の数値を捉える学習済みの画像解析モデルを用いて、顔表面のＧ色の変化を解析する。その結果を時間軸に合わせて並べることによって色情報の変化を表した波形を形成し、この波形から脈拍を特定する。人は緊張すると脈拍が速くなり、気持ちが落ち着くと脈拍が遅くなる。生体反応解析部１２は、脈拍の変化の解析結果に応じた脈拍変化指標値を出力する。

　顔の動きの変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、顔の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、顔の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。顔の動きと目線の動きとを合わせて解析するようにしてもよい。例えば、表示中の話者の顔をまっすぐ見ているか、上目遣いまたは下目使いに見ているか、斜めから見ているかなどを解析するようにしてもよい。生体反応解析部１２は、顔の向きの変化の解析結果に応じた顔向き変化指標値を出力する。

　発言内容の解析は、例えば以下のようにして行う。すなわち、生体反応解析部１２は、指定した時間（例えば、３０～１５０秒程度の時間）の音声について公知の音声認識処理を行うことによって音声を文字列に変換し、当該文字列を形態素解析することにより、助詞、冠詞などの会話を表す上で不要なワードを取り除く。そして、残ったワードをベクトル化し、ポジティブな感情変化が起きているか、ネガティブな感情変化が起きているか、およびどの程度の大きさの感情変化が起きているかを解析し、その解析結果に応じた発言内容指標値を出力する。

　声質の解析は、例えば以下のようにして行う。すなわち、生体反応解析部１２は、指定した時間（例えば、３０～１５０秒程度の時間）の音声について公知の音声解析処理を行うことによって音声の音響的特徴を特定する。そして、その音響的特徴に基づいて、ポジティブな声質変化が起きているか、ネガティブな声質変化が起きているか、およびどの程度の大きさの声質変化が起きているかを解析し、その解析結果に応じた声質変化指標値を出力する。

　生体反応解析部１２は、以上のようにして算出した表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値、声質変化指標値の少なくとも１つを用いて生体反応指標値を算出する。例えば、表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値および声質変化指標値を重み付け計算することにより、生体反応指標値を算出する。

　特異判定部１３は、解析対象者について解析された生体反応の変化が、解析対象者以外の他者について解析された生体反応の変化と比べて特異的か否かを判定する。本実施形態において、特異判定部１３は、生体反応解析部１２により複数のユーザのそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。

　例えば、特異判定部１３は、生体反応解析部１２により複数人のそれぞれについて算出された生体反応指標値の分散を算出し、解析対象者について算出された生体反応指標値と分散との対比により、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。

　解析対象者について解析された生体反応の変化が他者と比べて特異的である場合として、次の３パターンが考えられる。１つ目は、他者については特に大きな生体反応の変化が起きていないが、解析対象者について比較的大きな生体反応の変化が起きた場合である。２つ目は、解析対象者については特に大きな生体反応の変化が起きていないが、他者について比較的大きな生体反応の変化が起きた場合である。３つ目は、解析対象者についても他者についても比較的大きな生体反応の変化が起きているが、変化の内容が解析対象者と他者とで異なる場合である。

　関連事象特定部１４は、特異判定部１３により特異的であると判定された生体反応の変化が起きたときに解析対象者、他者および環境の少なくとも１つに関して発生している事象を特定する。例えば、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける解析対象者自身の言動を動画像から特定する。また、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける他者の言動を動画像から特定する。また、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける環境を動画像から特定する。環境は、例えば画面に表示中の共有資料、解析対象者の背景に写っているものなどである。

　クラスタリング部１５は、特異判定部１３により特異的であると判定された生体反応の変化（例えば、目線、脈拍、顔の動き、発言内容、声質のうち１つまたは複数の組み合わせ）と、当該特異的な生体反応の変化が起きたときに発生している事象（関連事象特定部１４により特定された事象）との相関の程度を解析し、相関が一定レベル以上であると判定された場合に、その相関の解析結果に基づいて解析対象者または事象をクラスタリングする。

　例えば、特異的な生体反応の変化がネガティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もネガティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部１５は、その事象の内容やネガティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。

　同様に、特異的な生体反応の変化がポジティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もポジティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部１５は、その事象の内容やポジティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。

　解析結果通知部１６は、特異判定部１３により特異的であると判定された生体反応の変化、関連事象特定部１４により特定された事象、およびクラスタリング部１５によりクラスタリングされた分類の少なくとも１つを、解析対象者の指定者（解析対象者またはオンラインセッションの主催者）に通知する。

　例えば、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたとき（上述した３パターンの何れか。以下同様）に発生している事象として解析対象者自身の言動を解析対象者自身に通知する。これにより、解析対象者は、自分がある言動を行ったときに他者とは違う感情を持っていることを把握することができる。このとき、解析対象者について特定された特異的な生体反応の変化も併せて解析対象者に通知するようにしてもよい。さらに、対比される他者の生体反応の変化を更に解析対象者に通知するようにしてもよい。

　例えば、解析対象者が普段どおりの感情で特に意識せずに行った言動、または、解析対象者がある感情を伴って特に意識して行った言動に対して他者が受けた感情と、言動の際に解析対象者自身が抱いていた感情とが相違している場合に、そのときの解析対象者自身の言動が解析対象者に通知される。これにより、自分の意識に反して他者の受けが良い言動や他者の受けが良くない言動などを発見することも可能である。

　また、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象を、特異的な生体反応の変化と共にオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者に特有の現象として、どのような事象がどのような感情の変化に影響を与えているのかを知ることができる。そして、その把握した内容に応じて適切な処置を解析対象者に対して行うことが可能となる。

　また、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象または解析対象者のクラスタリング結果をオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者がどの分類にクラスタリングされたかによって、解析対象者に特有の行動の傾向を把握したり、今後起こり得る行動や状態などを予測したりすることができる。そして、それに対して適切な処置を解析対象者に対して行うことが可能となる。

　なお、上記実施形態では、生体反応の変化を所定の基準に従って数値化することによって生体反応指標値を算出し、複数人のそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する例について説明したが、この例に限定されない。例えば、以下のようにしてもよい。

　すなわち、生体反応解析部１２は、複数人のそれぞれについて目線の動きを解析して目線の方向を示すヒートマップを生成する。特異判定部１３は、生体反応解析部１２により解析対象者について生成されたヒートマップと他者について生成されたヒートマップとの対比により、解析対象者について解析された生体反応の変化が、他者について解析された生体反応の変化と比べて特異的か否かを判定する。

　このように、本実施の形態においては、ビデオミーティングの動画像をユーザ端末１０のローカルストレージに保存し、ユーザ端末１０上で上述した分析を行うこととしている。ユーザ端末１０のマシンスペックに依存する可能性があるとはいえ、動画像の情報を外部に提供することなく分析することが可能となる。

　生体反応解析部１２は、対象者について解析された生体反応の変化に基づいて、複数の対象者間で平準化された評価基準に従って対象者の感情の度合いを評価する感情評価部を有していてもよい。例えば、感情評価部は、生体反応解析部１２により対象者について解析された生体反応の変化（生体反応指標値）に基づいて、複数の対象者間で平準化された評価基準に基づく感情反応絶対値を算出する。

　感情評価部が算出する感情反応絶対値は、例えば、生体反応解析部１２により算出された生体反応指標値を、対象者による同じ感情の生起しやすさに応じて調整した値である。例えば、感情評価部は、生体反応解析部１２により算出された生体反応指標値に対し、同じ感情を生起する頻度に応じた重み値を乗算することによって感情反応絶対値を算出する。

　例えば、対象者Ａについて算出された生体反応指標値と対象者Ｂについて算出された生体反応指標値とが同じ値であった場合としても、同じ感情の生起しやすさ（同じ感情を生起する頻度）が対象者Ａと対象者Ｂとで異なる場合、感情評価部により算出される感情反応絶対値は対象者Ａと対象者Ｂとで異なる値となる。一例として、感情評価部は、同じ感情を生起しやすいほど重み値が小さくなり、同じ感情を生起しにくいほど重み値が大きくなるような関数に従って感情反応絶対値を算出する。

　このように算出した感情反応絶対値を用いることにより、対象者に関する真の意味での感情の度合いを評価することが可能となり、異なる対象者間で感情の度合いを客観的に対比することができる。

　なお、感情評価部は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、対象者による同じ感情の生起しやすさに応じて調整された感情の度合いを評価するようにしてもよい。例えば、感情評価部は、生体反応解析部１２により算出された生体反応指標値を、平常時の生体反応に対する現在の生体反応の違いの大きさと、対象者による同じ感情の生起しやすさとに応じて調整することによって感情反応絶対値を算出する。このように算出される感情反応絶対値は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度を表す値であって、対象者が同じ感情を生起しやすいまたは生起しにくい度合いに応じて調整された値である。

　また、上記実施形態では、同じ感情の生起しやすさを表す尺度として、同じ感情を生起する頻度を用いる例について説明したが、これに限定されない。例えば、同じ感情を生起する頻度に代えてまたは加えて、対象者の性質または性格を用いるようにしてもよい。

　なお、図５に示されるように、画面に表示されていない参加者を含めて生体反応解析部１２ａにより解析された生体反応の変化を示す情報を提示する反応情報提示部１３ａを備えていてもよい。例えば、反応情報提示部１３ａは、生体反応の変化を示す情報をオンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）に提示する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。

　このようにすることにより、オンラインセッションの主催者は、複数人でオンラインセッションが行われる環境において、画面に表示されていない参加者の様子も把握することができる。

＜第１の実施の形態＞
　図６乃至図８を参照して、上述した構成に基づく本システムの第１の実施の形態を説明する。本実施の形態においては、動画像内に含まれる対象者の顔画像を所定のフレーム単位ごとに認識するとともに、対象者の音声を認識する。認識は複数の対象者に対して行うこととしてもよい。

　続いて、認識されたた顔画像及び音声の双方に基づいて、前記対象者の複数の観点による感情が数値化され評価される。評価された感情はその度合いとともにグラフにプロットされる。

　グラフは動画の時系列に沿ってプロットされる。図６に示されるように、位置の動画像内における一の対象者について、幸福度（Happy Score）という一の観点で評価された数値をプロットすることとしてもよい。また、図７に示されるように、同一の動画像内における複数の対象者について、対象者ごとに複数の観点による感情の度合いをプロットすることとしてもよい。

　更には、図８に示されるように、ある対象者が含まれる複数の動画像（例えばユーザがオンラインで受講した複数の授業の動画像や、ユーザが参加した複数のオンライン会議の動画像等）における感情の平均値（最高値、最低値、最頻値等でもよい）の度合いについて、横軸に動画像のタイトル、縦軸に感情の度合いをとってプロットすることとしてもよい。これにより、当該対象者が複数のビデオミーティングへの参加経験に伴って感情がどのように変化したのかにいてが可視化可能となる。

　図示されたグラフは、折れ線グラフであるが、棒グラフやヒートマップ等どのようものであってもよい。また、感情の種類毎に色分けして表示することとしてもよい。

　各グラフの縦軸は、例えば、複数の対象者間で平準化された評価基準に従って対象者の感情の度合いを感情の種類毎にプロットすることとしてもよい。これにより、同一の軸の尺度（例えば0～100）でも客観的な評価を行うことが可能になる。また、当該対象者の平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、同じ感情の生起しやすさに応じて調整された感情の度合いを評価して、当該調整された感情の度合いを、感情の種類毎にプロットすることとしても同様の効果を得られる。

＜第２の実施の形態＞
　図９及び図１０を参照して本発明の第２の実施の形態を説明する。図に示されるように本実施の形態による画面には、検索ワードを受け付ける検索ワードボックスが表示されている。検索ワードボックスにワードが入力されると（例えば、「塩基」と入力されると）入力された検索ワードに対応する音声が含まれる動画像内の所定範囲が抽出され表示される。

　本実施の形態によるシステムは、動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、動画像内に含まれる対象者の少なくとも音声を認識する音声認識手段と、検索ワードの入力を受け付ける検索受付手段とを備えている。かかる構成によれば、図示されているように、動画像ファイル「20201230_Biology_Tanaka」の中から「塩基」と話されている範囲に対応する動画像の一部と、テキスト情報を表示することが可能となる。

　抽出された動画像と対応するテキスト情報を同一画面内に表示することにより、当該ワードを話していた際にどのような状況・表情をしていたのかの確認を容易に行うことができる。

　また、図示される画面例には「塩基」というワードが３か所に抽出されている。表示されている検索ワード（例えば、一番最初の「塩基」）を選択すると、当該ワードを話していたときのフレームを含む動画像が（部分的に）再生される。

　なお、動画像内に検索ワードが複数抽出されていた場合に、当該検索ワードを含む複数の部分的動画像をつなぎ合わせたダイジェスト動画像を生成することとしてもよい。これにより、短時間で効率的に検索したワード周囲の動画像を確認することができる。

　また、あらかじめ検索ワードの登録を受け付けておき、動画像内に、登録された検索ワードが抽出されていた場合にアラートを発したり、当該検索ワードを含む複数の部分的動画像をつなぎ合わせたダイジェスト動画像を自動生成することとしてもよい。

　例えば図１０に示されるように、alert valueの列に示されるような単語を登録しておき、当該単語が登場する動画像の情報の所在を示す情報を関連付けることとしてもよい。

　更には、ビデオミーティング中に当該単語が発された場合に動画像内の当該地点への再生リンクを生成することとしてもよい。

　登録された単語は事前に何らかのタグ付け（alert pattern）をしておくことにより管理が容易にしやすくなる。

　動画中に当該単語が何回発生したかをカウントすることとしてもよい。例えば、認識された音声の中（又は変換されたテキスト情報）の中における単語の登場回数をカウントすることとすればよい。

＜第３の実施の形態＞
　図１１を参照して本発明の第３の実施の形態によるシステムを説明する。本実施の形態においては、特に、相手側がカメラをＯＦＦ（カメラから得られた視覚的な情報が提供されない状態）にした際であっても、他方に対して、当該ユーザがカメラの範囲内（即ち、コンピュータの正面）に存在していることやその時の表情を提供することが可能になる。

　授業や会議のように複数の参加者によりビデオミーティングがされると、カメラから取得された情報を悪意を持って利用されることが想定される。例えば、他人の顔をスクリーンショットで記録したり、背景に映りこんだ部屋等のプライベート空間を見られたりすることがある。このため、参加者の中にはカメラ機能をＯＦＦにして参加するものも少なくない。

　しかしながら、カメラをＯＦＦにした場合、ホスト側からは、相手の顔が見えないことから、講義や会議にきちんと参加しているのかどうかを確かめることができない。このように、ホスト側からは、カメラの正面にゲストがきちんと参加しているのかどうかが知りたい一方、ゲスト側からは、きちんと参加していることを伝えたくてもカメラをＯＮにしたくない状況が生じ得る。

　そこで本実施の形態においては、ゲストユーザの端末は、ゲストユーザのカメラの動画像を取得、当該動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別するとともに、識別した顔画像を顔情報に変換してホストユーザ端末に提供する。

　顔情報を例示すれば、カメラの正面にいるかいないか、顔の向き、カメラでとらえた表情から得られる感情、当該感じ用に基づいて生成されたオブジェクト情報などが挙げられるがこれに限られない。

　このような構成によれば、ゲストユーザのプライベートな情報（カメラで得られる視覚的情報）はホスト側に共有することなく、ゲストがカメラで検出されていることや、画面を正視していること、表情などの情報を提供することができる。

＜第４の実施の形態＞
　図１２を参照して本発明の第４の実施の形態によるシステムを説明する。本実施の形態においては、動画像から取得されたテキスト情報に感情に関する情報を付加するものである。

　本実施の形態によるシステムは、テキストに感情に関する評価値を関連付けて出力する。例えば、図１２に示されるように、所定以上の大きさの声で話された内容はフォントサイズを大きくしたり、カメラ目線で話された単語にはアンダーラインが引かれたりして表示される。

　すなわち、本実施の形態によれば、動画像から得られるユーザの直接的な言動や、当該言動を分析した結果等に基づいて、テキストに所定の加工を加えることが可能になる。

　ユーザの言動としては、身振り、手ぶり、ジェスチャー、顔の向き、顔の動き等の他、音声の抑揚、大きさ、高低、速さ等を事前に登録することができる。また、テキストへ加える加工は、フォントサイズの変更、太さの変更、斜体に変更、文字色の変更、影の付加、フォント種類の変更等などが例示できる。

　また、例えば、音声に関する条件（例えば、一定以上の大きさ）の登録を受け付けておき、登録された条件を満たす音声に対応するテキストを所定の表示形式に変更（大きく表示）することとしてもよい。

＜第５の実施の形態＞
　図１３を参照して本発明の第５の実施の形態によるシステムを説明する。本実施の形態においては、動画像から取得された複数の観点による分析評価情報それぞれの間における矛盾（評価値の乖離）によって、潜在的な感情の分析を行うものである。

　具体的には、本システムは、顔画像及び音声の双方に基づいて複数の観点による評価値を算出する。複数の観点による評価値の相対的な乖離が一定以上になった場合に通知手段による通知が行われる。

　乖離のパターンとしては、例えば、顔画像及び音声の夫々から得られる評価値が一定以上乖離していた場合、顔画像から取得できる顔の動き及び音声の夫々から得られる評価値が一定以上乖離していた場合、顔画像から評価される感情の度合いと、音声とから得られる評価値が一定以上乖離していた場合などが例示できる。

　例えば、図１３示されるように、ある地点において、幸福度を表すグラフの点（Ｈ０１）と、怒り度を表すグラフの点（Ａ０１）とを比較すると、幸福度の方が優位に高い値を示しており、当該ユーザの感情としては幸福である（よいコミュニケーションである）と感じていることが推定される。一方、別の地点における幸福度を表すグラフの点（Ｈ０２）と、怒り度を表すグラフの点（Ａ０２）とを比較すると、いずれも同じ程度の値を示しており、感情的には矛盾することとなる。このような場合、例えば、顔は笑っているけれども、内心は疑っていたり、不審に思っていたりすることなどが考えられる。

　本実施の形態によれば、評価値の乖離に基づく真の感情を推定することが可能となる。乖離の判断としては、所定の相関関係に基づいて判断すればよく、機械学習的な判断を行うこととしてもよい。

＜第６の実施の形態＞
　図１４を参照して本発明の第６の実施の形態によるシステムを説明する。本実施の形態においては、同時に参加している多数のユーザによる動画像から分析評価された評価値を当該動画像のそれぞれに関連付けて表示する。これにより、参加者全体の状態が、ヒートマップのように一括して理解できるようになる。

　本システムは、同時にビデオミーティングに参加している複数のユーザのカメラから得られた動画像を一覧に表示する表示手段と、複数の動画像の夫々について、評価値に関連付けられたオブジェクトを関連付けて表示する関連付け手段を備えている。

　例えば、関連付け手段は、評価値に応じたヒートマップを生成し、対応する色を動画像の夫々にオーバーレイして表示することとしてもよい。図１４に示されるように、怒り度が高いユーザをグレーアウトしたりすることとしてもよい。

　また、関連付け手段は、評価値に応じた喜怒哀楽アイコンを生成し、対応するアイコンを動画像の夫々に併記して表示することとしてもよい。

＜第７の実施の形態＞
　再度図４を参照して、本発明の第７の実施の形態を説明する。本実施の形態においては、上述した特異判定部１３によって、判定された同一のユーザについて以前とは異なる特異的な反応を解析した場合に所定の端末（画面等）にアラートを出す通知手段を備えている。

　通知手段は、反応が閾値の範囲を超えた場合に通知を行う。例えば、普段は怒らないユーザの怒り度数が以前よりも極めて高くなった場合などに通知を行うこととしてもよいし、普段なかなか笑わないユーザが笑った際に通知を行うこととしてもよい。どのような条件のときにどのような通知を行うかはあらかじめ登録することができる。

　また、通知手段は、同一の時間帯（１度の会議、１度の授業等）に行われたオンラインミーティング内において、ユーザの特定の反応が所定の回数を超えた場合に前記通知を行うこととしてもよい。

＜ハードウェア構成の補足＞
　本明細書において説明した装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る情報共有支援装置１０の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することが可能である。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

　また、本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　１０、２０　　　ユーザ端末
　３０　　　ビデオミーティングサービス端末
　４０　　　評価端末

Claims

　他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、
　前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、
　前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と
　認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、
　前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、
ビデオミーティング評価端末。
　請求項１に記載のビデオミーティング評価端末であって、
　前記グラフ出力手段は、一の前記動画像内において認識した前記対象者の前記評価値を出力する、
ビデオミーティング評価端末。
　請求項１又は２に記載のビデオミーティング評価端末であって、
　複数の前記動画像から前記対象者が含まれる一以上の対象者動画像を前記顔認識手段又は前記音声認識手段の少なくともいずれかを利用して抽出する対象者抽出手段を更に備えており、
　前記グラフ出力手段は、前記対象者動画像毎に算出された前記評価値を一覧可能に出力する、
ビデオミーティング評価端末。
　請求項１乃至請求項３のいずれかに記載のビデオミーティング評価端末であって、
　前記グラフ出力手段は、前記観点毎の折れ線グラフとして出力する、
ビデオミーティング評価端末。
　請求項１乃至請求項４のいずれかに記載のビデオミーティング評価端末であって、
　前記グラフ出力手段は、前記観点毎に異なる色として表示される前記グラフ情報を表示する
ビデオミーティング評価端末。
　請求項１乃至請求項５のいずれかに記載のビデオミーティング評価端末であって、
　前記評価手段は、複数の対象者間で平準化された評価基準に従って前記対象者の感情の度合いを評価し、
　前記グラフ出力手段は、前記感情の度合いを、感情の種類毎に出力する、
ビデオミーティング評価端末。
　請求項６に記載のビデオミーティング評価端末であって、
　前記評価手段は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、前記対象者による同じ感情の生起しやすさに応じて調整された感情の度合いを評価し、
　前記グラフ出力手段は、前記調整された感情の度合いを、感情の種類毎に出力する、
ビデオミーティング評価端末。
　請求項６に記載のビデオミーティング評価端末であって、
　前記評価手段は、前記対象者による同じ感情の生起しやすさに応じて調整した値である感情反応絶対値を算出し、
　前記グラフ出力手段は、前記感情反応絶対値を、感情の種類毎に出力する、
ビデオミーティング評価端末。
　コンピュータを、
　他の端末との間で行われるビデオミーティングの動画像を取得する取得手段、
　前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段、
　前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段
　認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段、
　前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、として機能させる
ビデオミーティング評価プログラム。
　他の端末との間で行われるビデオミーティングの動画像を取得する取得ステップ、
　前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識ステップ、
　前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識ステップ、
　認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価ステップ、
　前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力ステップ、を含む、
ビデオミーティング評価方法。