WO2022091970A1

WO2022091970A1 - オンライン会議サポートシステムおよびオンライン会議サポートプログラム

Info

Publication number: WO2022091970A1
Application number: PCT/JP2021/039102
Authority: WO
Inventors: 圭司田谷
Original assignee: 圭司田谷
Priority date: 2020-10-28
Filing date: 2021-10-22
Publication date: 2022-05-05
Also published as: JP7231301B2; JPWO2022091970A1

Abstract

本発明の目的は、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することである。　本発明の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、カメラで取り込んだ使用者の画像を解析する画像解析部と、マイクで取り込んだ使用者の音声を解析する音声解析部と、画像解析部および音声解析部の少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成部と、アドバイス生成部で生成されたアドバイスを使用者のディスプレイに出力するアドバイス出力部と、を備えたオンライン会議サポートシステムである。

Description

オンライン会議サポートシステムおよびオンライン会議サポートプログラム

　本発明は、オンライン会議システムの使用者に対して会議中の映像や音声に基づき種々のサポートを行うオンライン会議サポートシステムおよびオンライン会議サポートプログラムに関するものである。

　近年、インターネット等のネットワークを利用したオンライン会議システムが多く利用されている。オンライン会議システムでは、各利用者はカメラやマイクを用いて映像や音声を双方に送受信して画面上での会議を行うことができる。このようなオンライン会議システムは、会議のみならず、セミナー、面接、お見合いなど、対面に代わるツールとして広く利用される。

　オンライン会議システムでは、画面上の映像や音声だけでは把握しにくい部分も生じ得る。特許文献１には、発言する出席者に対する評価ばかりでなく、会議に参加する他の出席者の態度をも含めて評価することができる会議品質評価装置が開示される。特許文献２には、面接において面接志望者に対する非言語情報に基づく評価を支援するシステムが開示される。

特開２０１３－００８１１４号公報特開２０１８－０６０３７４号公報

庄境　誠（旭化成株式会社），"使い勝手の良い音声インターフェイスの実現"，情報処理　Ｖｏｌ．５１　Ｎｏ．１１　Ｎｏｖ．　２０１０，ｐ．１４０１－１４０９ＩＴｍｅｄｉａ　ＮＥＷＳ，"オンライン授業の集中度をＡＩで測定　生徒の視線や表情を解析　リモート指導を効率化"，[online]，２０２０年６月２５日　１５時２４分　公開，（２０２０年１０月５日検索），インターネットＵＲＬ＜https://www.itmedia.co.jp/news/articles/2006/25/news104.html＞

　オンライン会議システムは、場所を問わずに会議を行うことができるため、非常に利便性が高い。その一方、映像や音声をネットワークで送信して画面やスピーカから出力するため、システムの使用者は対面での会議とは異なる注意を払う必要がある。

　本発明は、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することを目的とする。

　本発明の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、カメラで取り込んだ使用者の画像を解析する画像解析部と、マイクで取り込んだ使用者の音声を解析する音声解析部と、画像解析部および音声解析部の少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成部と、アドバイス生成部で生成されたアドバイスを使用者のディスプレイに出力するアドバイス出力部と、を備えたオンライン会議サポートシステムである。

　本発明の他の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、コンピュータに、カメラで取り込んだ使用者の画像を解析する画像解析ステップと、マイクで取り込んだ使用者の音声を解析する音声解析ステップと、画像解析ステップおよび音声解析ステップの少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成ステップと、アドバイス生成ステップで生成したアドバイスを使用者のディスプレイに出力するアドバイス出力ステップと、を実行させるオンライン会議サポートプログラムである。

　このようなオンライン会議システムおよびオンライン会議サポートプログラムの構成によれば、オンライン会議システムの使用者は、対面とは異なりオンライン会議システムを利用する上で必要な情報に関するアドバイスを自動的に得られるようになる。

　本発明によれば、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することが可能になる。

第１実施形態に係るオンライン会議サポートシステムが適用される情報処理装置を例示する図である。第１実施形態に係るオンライン会議サポートシステムのブロック図である。第１実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。使用者が正面を見ているときの状態を示す模式図である。使用者が下を向いているときの状態を示す模式図である。第２実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。第３実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。第４実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。第５実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。第６実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。カメラの高さおよび座る位置のアドバイスを例示する模式図である。ディスプレイに表示するガイドラインを例示する模式図である。進行に関する情報の表示例を示す模式図である。複数のディスプレイを用いた場合を例示する模式図である。

　以下、本発明の実施形態を図面に基づいて説明する。なお、以下の説明では、同一の部材には同一の符号を付し、一度説明した部材については適宜その説明を省略する。

（第１実施形態）
　図１Ａおよび図１Ｂは、第１実施形態に係るオンライン会議サポートシステムの構成を例示する図である。図１Ａにはオンライン会議サポートシステム１が適用される情報処理装置１００の例が示され、図１Ｂにはオンライン会議サポートシステム１のブロック図が示される。

　本実施形態に係るオンライン会議サポートシステム１は、情報処理装置１００を使用するオンライン会議システムにおいて、使用者に対するサポートを行うシステムである。図１Ａに示すように、オンライン会議システムで適用される情報処理装置１００は、カメラ１０１、マイク１０２、スピーカ１０３およびディスプレイ１０４を有する。

　情報処理装置１００としては、ノート型コンピュータ、デスクトップ型コンピュータ、タブレット端末および携帯電話である。なお、情報処理装置１００として、カメラ１０１、マイク１０２、スピーカ１０３およびディスプレイ１０４を個別に用意した装置構成であってもよい。また、マイク１０２およびスピーカ１０３は一体型のヘッドセットであってもよい。また、スピーカ１０３はディスプレイ１０４の筐体に組み込まれていてもよい。

　オンライン会議システムでは、使用者側の情報処理装置１００と、相手側の情報処理装置１００とをネットワークＮで接続し、双方で音声および画像を送受して会議を行う。オンライン会議システムの参加者は３人以上であってもよい。オンライン会議システムでは、画像として静止画および動画を取り扱うことができる。動画とは、特定時間内に特定回数の画像が変化することを示す。例えば、１０秒に１回（１秒間に０．１回）～１秒間に１２０回画像が変化していく情報のことをいう。

　本実施形態に係るオンライン会議サポートシステム１の利用者は、オンライン会議システムの参加者のうち少なくとも１人である。説明の便宜上、本実施形態に係るオンライン会議サポートシステム１を利用する者を「使用者」または「自分」と称し、「使用者」とオンラインで会議を行う者を「相手方」と称することにする。また、カメラ１０１で取得する使用者の画像には、使用者の背景の画像（使用者側の画像）を含むものとする。

　オンライン会議を行っている状態では、情報処理装置１００のディスプレイ１０４に自分（使用者）の画像と相手方の画像とが映し出され、それぞれの音声がオンライン会議の参加者の情報処理装置１００へ送られる。また、所定の操作によって画面の共有やファイルの送受信を行うことができる。

　例えば、図１Ａに示す例では、Ａさん（第１の相手方）、Ｂさん（第２の相手方）、Ｃさん（第３の相手方）と自分（使用者）がそれぞれ異なる場所にいて、各自がカメラ１０１、マイク１０２、スピーカ１０３およびディスプレイ１０４を有した情報処理装置１００を所持し、インターネットやイントラネット等のネットワークＮを介して、画像や音声が送受信される。各参加者はネットワークＮに接続された情報処理装置１００を用いて互いにリアルタイムで情報を送受信しながらオンライン会議を進めていく。なお、オンライン会議においては、必ずしも参加者全員の画像がディスプレイ１０４に映し出される必要はないし、必ずしも参加者全員の音声がマイク１０２で入力される必要もない。

　本実施形態に係るオンライン会議サポートシステム１は、このようなオンライン会議システムにおいてオンライン会議を進めていく際に、使用者に対して各種のアドバイスを自動的に生成し、出力することで、オンライン会議を円滑に進めていくサポートを行う。

　図１Ｂに示すように、本実施形態に係るオンライン会議サポートシステム１は、画像解析部１０、音声解析部２０、アドバイス生成部３０およびアドバイス出力部４０を備える。画像解析部１０は、情報処理装置１００のカメラ１０１で取り込んだ使用者の画像を解析する部分である。画像解析部１０には複数のカメラ１０１が接続されていてもよい。

　音声解析部２０は、情報処理装置１００のマイク１０２で取り込んだ使用者の音声を解析する部分である。音声解析部２０には複数のマイク１０２が接続されていてもよい。なお、画像解析部１０および音声解析部２０は、画像および音声の少なくとものいずれかを解析する情報解析部として設けられていてもよい。

　アドバイス生成部３０は、画像解析部１０および音声解析部２０で解析した結果に基づき使用者に対するアドバイスを生成する部分である。アドバイス出力部４０は、アドバイス生成部３０で生成されたアドバイスを使用者（自分）のディスプレイ１０４に出力する部分である。アドバイス出力部４０には複数のディスプレイ１０４が接続されていてもよい。

　第１実施形態に係るオンライン会議サポートシステム１では、オンライン会議中に使用者の情報処理装置１００のカメラ１０１で取得した画像情報を用いて、ディスプレイ１０４に映し出される使用者の顔の向きや視線、目線の向きを画像解析部１０で判別する。例えば視線が正面を向いていなければ、アドバイス生成部３０において顔の向きや視線に関するアドバイス（顔や目線を上げるように、下げるように、カメラ１０１の方を見るように、など）をテキストやイラスト、写真などによるメッセージとして生成し、アドバイス出力部４０によってそのアドバイスを使用者のディスプレイ１０４に表示する。アドバイスはディスプレイ１０４のアドバイスウインドウ１０４Ｗに表示される。この際、音や音声、振動などによりアドバイスを使用者に伝えるようにしてもよい。音や音声、振動によるアドバイスでは、使用者がディスプレイ１０４を見ていない場合でもアドバイスがあることを認識させることができる。

（情報処理方法）
　図２は、第１実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。以下、ステップごとに説明する。
＜ステップＳ１０１＞
　カメラ１０１による撮像処理を行う。すなわち、自分（使用者）の情報処理装置（コンピュータ等）に付属、または、ＵＳＢ（Universal Serial Bus）等の端子、もしくは無線によって接続されたカメラ１０１によって使用者の画像を取り込む。

＜ステップＳ１０２＞
　画像解析部１０による目線または顔の向きの検出処理を行う。画像解析部１０は、カメラ１０１で取り込んだ使用者の画像から、使用者の目線または顔の向きを検出し、その後、検出した目線や顔の向きから視線の向きを検出する。視線の向きを検出する方法は、例えば下記のような流れで行われる。
　（１）対象者の顔を検出する。
　（２）目、鼻、口、顔の輪郭などの顔の部位を検出する。
　（３）顔の中心点を検出する。
　（４）顔の中心方向の向きを検出する。
　（５）目と瞳、まぶた、目尻を検出する。
　（６）これらの情報を用いて、顔と目の向きのベクトルを検出する。
　（７）視線のプロット先を検出する。
　この（７）による視線のプロット先が視線情報（目線と顔の向き）となる。なお、目線の向きと顔の向きとは別々の情報として検出されてもよいし、同一に検出されてもよい。
　これらの処理は、ＡＩ（人工知能）、マシンラーニング、ディープラーニングなどの処理を用いてもよい。

　ステップＳ１０２における視線の向きの検出方法の別の例について示す。
　（１）対象者の顔を検出する。
　（２）目、鼻、口、顔の輪郭などの顔の部位を検出する。
　（３）顔の中心点を検出する。
　（４）顔の中心方向の向きを検出する。
　（５）目と瞳、まぶた、目尻を検出する。
　（６）これらの情報を用いて、視線の角度を検出する。角度は正面を向いている時を中心として、上下左右方向の角度θ１（ディスプレイ１０４の画面平面内での角度）と、その上下左右に対して奥行き方向の角度θ２（ディスプレイ１０４の画面平面の法線に対する角度）とを持つ。角度θ１、θ２の表し方を図４に示す。また、角度は立体角の考え方を用いることもできる。
　この（６）による視線の角度が視線情報（目線と顔の向き）となる。なお、目線の向きと顔の向きとは別々の情報として検出されてもよいし、同一に検出されてもよい。
　これらの処理は、ＡＩ（人工知能）、マシンラーニング、ディープラーニングなどの処理を用いてもよい。

　また、上記視線のプロットや視線の角度を割り出す際にあらかじめ基準となる画像を用意（記憶）してもよい。その場合は、下記のような方法が考えられる。
・予めディスプレイ１０４の中央に表示されたガイドラインＧＬ（図１１参照）に顔や目の位置をあわせ、このときにカメラ１０１で得られた画像の情報を、ディスプレイ１０４の中央を見ている場合の基準とする。
・カメラ１０１のほうを向いてもらい、このときにカメラ１０１で得られた画像の情報の情報を基準とする。
・ディスプレイ１０４の画面の四隅を順番に見てもらい、それぞれの隅を見た際にカメラ１０１で得られた画像の情報をディスプレイ１０４の端を見ている場合の基準とする。
・顔や視線を意図的に上下左右にむけさせ、その際にカメラ１０１で取り込まれた画像の情報から、顔の向きの基準や顔の可動範囲の基準の情報を得る。
などである。
　これらは、１つで行ってもよいし、複数を組み合わせてもよい。
　また、ディスプレイ１０４の端を見るなどの情報はアドバイスウインドウ１０４Ｗを生成する場所の情報に用いてもよい。

　また、一定時間における視線の角度の値の統計（視線の角度の変化の分布）を求め、その統計から視線の中心および視線の端を想定して視線範囲の基準として利用するようにしてもよい。この場合、想定された視線範囲において利用者の視線の角度がどの位置にあるのかを計測すればよい。

　また、ディスプレイ１０４と使用者の顔との距離を測定できるセンサを用いてもよい。センサを用いるとより、ディスプレイ１０４と使用者の顔との正確な距離がわかる。
　距離を測定するセンサがなくとも、映し出される顔の大きさからディスプレイ１０４と使用者の顔との距離を割り出してもよい。
　ディスプレイ１０４と使用者の顔との距離が分かると、視線のプロット先や角度からディスプレイ１０４上のどの位置を見ているかを正確に求めることができる。

　上記に示した視線の先のプロットや角度を割り出す際は、カメラ１０１で取り込んだ画像の情報をベースに行うことになる。使用するカメラ１０１からの画像にはいくつかの方法がある。その方法を下記に挙げる。
・カメラ１０１から出力された信号が、オンライン会議システムに入力される前の画像を用いる方法。
・カメラ１０１から出力された信号がオンライン会議システムに入力され、オンライン会議システム上で扱われる画像を使用する方法。例えば、ディスプレイ１０４に表示するための画像を使用する方法が挙げられる。
・画像処理ソフトウエア（例：Snap Camera）の画像を使用する方法。
　これらはどれか１つを用いてもよいし、複数を用いてもよい。

＜ステップＳ１０３＞
　アドバイス生成部３０は、アドバイスを生成するか否かの判断を行う。アドバイス生成部３０は、画像解析部１０で解析した使用者の視線情報に基づき、使用者がカメラ１０１の方を向いているかどうかや、正面を向いているかを判断し、もし使用者がカメラ１０１の方や正面を向いていない場合にはアドバイスを生成する。例えば、上記（７）で検出した視線のプロット先が、予め設定された基準となる視線のプロット先から閾値を超えてずれている場合、アドバイス生成部３０によってアドバイスを自動的に生成する。アドバイス生成部３０は、アドバイスとしてテキストやイラスト、写真などで使用者にカメラ１０１の方や正面を向くようなメッセージを生成する。

　ここで、ステップＳ１０２からステップＳ１０３までの処理の具体例を以下に示す。
　（１）視線のプロット先を検出する。
　（２）検出した視線のプロット先と、自分が映っているカメラ映像（自分が映っているディスプレイ１０４の画面）とを比較する。
　（３）プロット先を自分が映っているディスプレイ１０４の画面の中で画面中央からどの程度離れているかを計測する。この計測は、先に示した基準とする画像の情報を利用すればよい。例えば、ディスプレイ１０４の中央を向いている場合の基準の画像と、ディスプレイ１０４の隅を見ている場合の基準の画像とから、視線のプロット先に対応したディスプレイ１０４上の視線の位置を計測する。
　（４）ディスプレイ１０４の画面中央からの距離の計測は、画面の画角全体の何％と計算してもよいし、解像度に応じて何画素（何ピクセル）分と定義してもよい。また、想定された視線範囲に対して中央から何％と計算してもよい。
　（５）仮に視線のプロット先が画面中央にあった場合はアドバイスを出さない。
　（６）同じように画角中央から画面全体の例えば２０％以下ならアドバイスを出さないなどを取り決める。逆に、例えば２０％以上の距離が離れていた場合は、カメラの方に視線を向けるようアドバイスを生成する。この２０％という割合は予め任意に決めることができる。また、ディスプレイ１０４の画面の外に視線がある場合は１００％以上の数字をだすこともある。
　（７）アドバイスを出す際、視線のプロット先が画角の一定距離から離れている時間を計測し、ある一定時間以上の場合のみアドバイスを表示する。例えば５秒以上、画角中央から２０％以上離れている場合はアドバイスを生成する判断をし、画角中央から２０％以上離れていても５秒未満であればアドバイスを出さないようにする。この時間の設定は予め任意に決めることができる。

　なお、ステップＳ１０２からステップＳ１０３までの処理の具体例として、上記のように視線のプロット先からディスプレイ１０４上の視線のずれの距離を計測しなくても、ディスプレイ１０４の中央を見ている場合の画像や、カメラ１０１を見ている場合の画像を基準として、その基準の画像から視線や顔の向きがずれていることを一定時間以上継続した場合にアドバイスを生成すると判断してもよい。

＜ステップＳ１０４＞
　アドバイス出力部４０は、アドバイスを使用者のディスプレイ１０４に出力する。すなわち、アドバイス出力部４０は、アドバイス生成部３０で生成したアドバイス（テキストやイラストなどのメッセージ）を使用者のディスプレイ１０４に出力する。

　アドバイス生成部３０がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は１０秒間行われ、その後３０秒間はアドバイスを表示しない期間を設けるようにしてもよい。
　また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。

　図３は、使用者が正面を見ているときの状態を示す模式図である。
　図４は、使用者が下を向いているときの状態を示す模式図である。
　図３に示す状態では、視線のベクトルは正面を向いている。一方、図４に示す状態では、視線のベクトルは下を向いている。

　画像解析部１０は、カメラ１０１で取得した使用者の画像からカメラ１０１の画角中心に対する使用者の視線の方向を解析する。すなわち、画像解析部１０は、図３および図４に示すようにカメラ１０１で取り込んだ使用者の顔の画像から視線のベクトルを検出し、使用者の画角中心に対する視線の方向を解析する。

　アドバイス生成部３０は、画像解析部１０で解析した使用者の視線の方向が画角中心に対して予め設定した範囲を超えてずれている場合に、視線をカメラ１０１に向けるアドバイスを生成する。また、視線がずれている時間が一定時間を越えている場合にアドバイスを生成するようにしてもよい。アドバイス出力部４０は、アドバイス生成部３０で生成したアドバイスを使用者のディスプレイ１０４に表示する。

　例えば、図１に示すように、ディスプレイ１０４のアドバイスウインドウ１０４Ｗに「カメラを見て！」のようなテキストメッセージを表示する。これにより、使用者は、自分の顔の画像の視線の方向がカメラ１０１からずれていることを認識でき、カメラ１０１の方向を見るように視線を修正することができる。

　画像解析部１０は、カメラ１０１で取得した使用者の画像からカメラ１０１の画角中心に対する使用者の顔の向き解析してもよい。例えば、図２のステップＳ１０２の処理で顔の向きのベクトルを検出し、カメラ１０１の画角中心に対する使用者の顔の向きのベクトルのずれを検出する。

　アドバイス生成部３０は、画像解析部１０で解析した使用者の顔の向きが画角中心に対して予め設定した範囲を超えてずれている場合に、顔をカメラ１０１に向けるアドバイスを生成する。また、顔の向きがずれている時間が一定時間を越えている場合にアドバイスを生成するようにしてもよい。アドバイス出力部４０は、アドバイス生成部３０で生成したアドバイスを使用者のディスプレイ１０４に表示する。

　例えば、ディスプレイ１０４のアドバイスウインドウ１０４Ｗに、「顔を上げて！」のようなテキストメッセージを表示する。これにより、例えば視線はカメラ１０１に向いていても、顔がカメラ１０１に向けられていない場合、顔をカメラ１０１の方向に向けるよう修正することができる。

　ディスプレイ１０４にアドバイスを表示する際、アドバイス出力部４０は、画像解析部１０で解析した視線の延長上付近となるディスプレイ１０４の位置にアドバイスを出力するようにしてもよい。例えば、画像解析部１０で解析した視線の方向が使用者の向きで左下であった場合、ディスプレイ１０４の左下付近にアドバイスウインドウ１０４Ｗを表示して、そこにアドバイスを出力する。これにより、使用者が見ている方向（視線の延長上）に近いディスプレイ１０４の位置にアドバイスが表示され、使用者に迅速に気付かせることができる。

　オンライン会議において、対話を行う相手への印象を良くすることができない課題に対する一つの要因は、ディスプレイ１０４の中心とカメラ１０１の位置とが離れていることである。ディスプレイ１０４で対話を行う相手の顔や資料をみていると、ディスプレイ１０４の方向には向いているもののカメラ１０１の方を向いていないため、正面を向いているようにならず、目線や顔を伏せたような状態に映ったり、上から見上げるような印象を与えるよう映ったりすることが起こり得る。また、正面に実際の人がいない状況であったり、慣れないテレビ会議の状況に表情が硬くなったり、印象が悪くなるということもおこる。

　本実施形態によれば、視線や顔の向きをカメラ１０１で取り込んだ画像から解析し、アドバイスをディスプレイ１０４に自動的に表示することから、使用者に視線や顔の向きがずれていることを迅速に指摘することができる。これにより、オンライン会議システムなどの映像や音声の対話装置を使い、面接やお見合い、会議、セミナーなどの際に、視線や顔の向きのずれといったオンライン会議で生じやすい課題をいち早く修正でき、対話を行う相手への印象を良くすることができる。

　なお、オンライン会議中に使用者側のディスプレイ１０４の画面に表示される内容を相手方と共有する場合もある。このような画面共有の状態になった場合、アドバイス出力部４０はアドバイスを相手方の情報処理装置１００のディスプレイ１０４には表示させない処理を行ってもよい。具体的には、画面共有の状態になった場合、アドバイスウインドウ１０４Ｗを共有された画面の外（共有ウインドウの外）に表示する処理が挙げられる。アドバイス出力部４０は、オンライン会議システムで画面共有の状態が設定された段階でアドバイスの出力を一旦停止し、画面共有の状態が解除された段階でアドバイスの出力を再開するようにしてもよい。これにより、画面共有の状態であってもアドバイスが必要な使用者のみにアドバイスが表示されることになる。

　また、アドバイス出力部４０は、出力したアドバイスをネットワークＮを介して記憶装置（ファイルサーバなど）に送信（保存）する処理を行ってもよい。これにより、オンライン会議が終了したあとで、使用者がオンライン会議の内容を記憶装置から読み出し、どのような状況のときにアドバイスが表示されたのかを振り返ることが可能となる。

　また、ステップＳ１０３の判断において、使用者がカメラ１０１の方や正面を向いている場合にアドバイスを生成するようにしてもよい。例えば、使用者がカメラ１０１の方や正面を向いている場合、「正面を向いています。そのままどうぞ。」などのメッセージをアドバイスウインドウ１０４Ｗに表示したり、メッセージではなくディスプレイ１０４の所定位置にアイコン（例えば、青丸表示や青枠表示）を出力したりして、使用者の顔の向きに問題がない状態であることを知らせるようにしてもよい。
　また、使用者がカメラ１０１の方や正面を向いている場合、向いていない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。

（第２実施形態）
　第２実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、画像解析部１０がカメラ１０１で取得した使用者の画像情報を用いて、使用者の表情を解析する。表情の解析には、例えば、Microsoft社から提供されるFace APIなどを用いてもよい。その情報を元に、画像解析部１０で使用者の表情の判断を行い、必要な時には表情の修正を促すようなアドバイスをアドバイス生成部３０で生成し、アドバイス出力部４０によってアドバイスを出力する。

　例えば、オンラインでの面接やお見合いの際、笑顔ではない期間が長ければ、笑顔になるように促す。会議中に怒りの表情がみられたら、平常な顔にもどるようにうながす。交渉などの時には驚きの表情をださないように促すなどである。その場が、面接や、お見合い、会議、交渉など、どのような場であるかといった情報を事前に入力しておいてもよいし、会話の内容から音声解析部２０で判断してもよい。

（情報処理方法）
　図５は、第２実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。以下、ステップごとに説明する。
＜ステップＳ２０１＞
　カメラ１０１による撮像処理を行う。すなわち、自分（使用者）の情報処理装置（コンピュータ等）に付属、または、ＵＳＢ等の端子、もしくは無線によって接続されたカメラ１０１によって使用者の画像を取り込む。

＜ステップＳ２０２＞
　画像解析部１０による表情の検出処理を行う。画像解析部１０は、カメラ１０１で取り込んだ使用者の画像から、使用者の表情を検出する。

　表情の検出処理に関しては、アクションユニット（ＡＵ）と呼ばれる眉を下げる、眉の内側を上げる、眉の外側を上げる、上瞼を上げる、瞼を緊張させる、頬を上げる、瞼を閉じる、まばたく、ウインクする、鼻にしわを寄せる、上唇を上げる、下唇を上げる、唇端を下げる、唇を開く（は下げない）、顎を下げて唇を開く、口を大きく開く、下唇を下げる、唇を横に引っ張る、えくぼを作る、鼻唇溝を深める、唇端を引っ張りあげる、唇端を鋭く上げて頬を膨らます、唇をすぼめる、唇を突き出す、唇を固く閉じる、唇を押さえつける、唇を噛むなどの動作を検出し、その上で、例えば、頬をあげて、唇端を引っ張りあげるの組みあわせであれば、笑顔（喜び）を表すといった方法で検出していく。これらの手法には、ディープラーニングやＡＩの仕組みを用いてもよい。

＜ステップＳ２０３＞
　アドバイス生成部３０は、アドバイスを生成するか否かの判断を行う。アドバイス生成部３０は、画像解析部１０で解析した使用者の表情の情報に基づき、表情に関するアドバイスを与えたほうがよと判断した場合にはアドバイスを生成する。アドバイス生成部３０は、画像解析部１０の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。

　表情の認識とアドバイス生成部３０が行う判断の具体例を以下に示す。
　ここでは、例えば、Amazon Rekognitionのサービスを利用した流れを示す。
（Amazon Rekognitionに関しては以下のＵＲＬを参照）
　https://aws.amazon.com/jp/about-aws/whats-new/2019/08/amazon-rekognition-improves-face-analysis/
　https://ledge.ai/2019-05-30-12904310615cefa2e89a156/

　上記のアクションユニット（ＡＵ）を用いたＡＩが組み込まれたAmazon Rekognitionのサービスを用いると、画像より、SMILING：笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱などの情報が出力される。
　この情報を元に、例えば、SMILING：笑顔の数字が予め設定された一定割合以下であって、予め設定された時間以上続いた場合には、アドバイスを生成する。数字の一例をあげると５０％以下である時間が５分続いた場合には、笑顔になるようなアドバイスを生成する、などである。
　他にも、ANGRY:怒りの数値が予め設定された一定数値を超えた場合は、平常心を取り戻すようなアドバイスを生成する。

＜ステップＳ２０４＞
　アドバイス出力部４０は、アドバイスを使用者のディスプレイ１０４に出力する。すなわち、アドバイス出力部４０は、アドバイス生成部３０で生成したアドバイス（テキストやイラストなどのメッセージ）を使用者のディスプレイ１０４に出力する。例えば、使用者の表情が硬いと判断した場合には表情を和らげるようなアドバイスを使用者のディスプレイ１０４に表示する。

　アドバイス生成部３０がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になる得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は１０秒間行われ、その後３０秒間はアドバイスを表示しない期間を設けるようにしてもよい。
　また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。

　また、例えば、１分～３０分といった時間の期間内に、現れることが望ましいと考えられる例えば笑顔の回数などを１回～１００回などと規定しておき、その期間内に規定の回数の表情が現れなければ、笑顔など特定の表情をするように、イラストやテキストなどで促すようにしてもよい。

　また、ステップＳ２０３の判断において、使用者の表情が笑顔や穏やかな場合にアドバイスを生成するようにしてもよい。例えば、使用者の表情が笑顔である場合、「良い表情です。」のメッセージをアドバイスウインドウ１０４Ｗに表示したり、メッセージではなくディスプレイ１０４の所定位置にアイコン（例えば、青丸表示や青枠表示）を出力したりして、使用者の表情に問題がない状態であることを知らせるようにしてもよい。
　また、使用者の表情が好ましい場合、好ましくない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。

　本実施形態のようなアドバイス出力は、特にディスプレイ１０４に表示される自分の画像のウィンドウサイズが小さい場合、自分の映り方の確認し難いために有効である。

（第３実施形態）
　第３実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、画像解析部１０がカメラ１０１で取得した使用者の画像情報を用いて、使用者の表情を解析するとともに、相手方の情報処理装置１００のカメラ１０１で取得した相手方の画像情報を用いて、使用者の情報処理装置１００の画像解析部１０が相手方の表情を解析する。表情の解析には、例えば、Ｍｉｃｒｏｓｏｆｔ社から提供されるＦａｃｅ　ＡＰＩなどを用いてもよい。第３実施形態では、使用者の表情の解析結果と、相手方の表情の解析結果とに基づき、使用者の情報処理装置１００のディスプレイ１０４にアドバイスを出力する。

　例えば、相手方の表情に笑顔が多く、使用者の表情に笑顔が少ない場合には、使用者に笑顔を返すようなアドバイスを出力する。また、相手方が真剣な表情をしているときは、使用者にも真剣な表情を返すようなアドバイスを出力する。また、相手方が真剣な表情をしているときに使用者に笑顔が見受けられる場合には、笑顔をやめるように促すアドバイスを出力する。

（情報処理方法）
　図６は、第３実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。以下、ステップごとに説明する。
＜ステップＳ３０１＞
　カメラ１０１による撮像処理を行う。すなわち、自分（使用者）の情報処理装置（コンピュータ等）に付属、または、ＵＳＢ等の端子、もしくは無線によって接続されたカメラ１０１によって使用者の画像を取り込む。

＜ステップＳ３０２＞
　画像解析部１０による使用者の表情の検出処理を行う。画像解析部１０は、カメラ１０１で取り込んだ使用者の画像から、使用者の表情を検出する。表情の検出処理は第２実施形態と同様である。

＜ステップＳ３０３＞
　相手方の情報処理装置１００のカメラ１０１による撮像処理を行う。相手方のカメラ１０１で撮像した相手方の画像はネットワークを介して使用者の情報処理装置１００に送られる。

＜ステップＳ３０４＞
　画像解析部１０による相手方の表情の検出処理を行う。画像解析部１０は、相手方の情報処理装置１００からネットワークＮを介して送られた相手方の画像から、相手方の表情を検出する。表情の検出処理は第２実施形態と同様である。

＜ステップＳ３０５＞
　アドバイス生成部３０は、アドバイスを生成するか否かの判断を行う。アドバイス生成部３０は、画像解析部１０で解析した使用者の表情の情報および相手方の表情の情報に基づき、表情に関するアドバイスを与えたほうがよいと判断した場合にはアドバイスを生成する。アドバイス生成部３０は、画像解析部１０の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。

　表情の認識とアドバイス生成部３０が行う判断の具体例を以下に示す。
　第２実施形態と同様の方法で、SMILING：笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱といった情報が識別される。
　この表情の認識を双方の画像で行い、表情の組み合わせが行われる。この組み合わせの中には、表情のどの数字も低い、いわゆる「無表情」の状態も含まれる。
　例えば、一方が笑顔であり、他方が無表情の時間が一定時間続いた場合には無表情の側に笑顔になることを促すアドバイスを生成する。この場合、一例を挙げると、一方の側はSMILING：笑顔の割合が６０％以上であり、他方の側の無表情はどの数値も３０％以下である状態が３０秒続いた場合にアドバイスを生成する。

＜ステップＳ３０６＞
　アドバイス出力部４０は、アドバイスを使用者のディスプレイ１０４に出力する。すなわち、アドバイス出力部４０は、アドバイス生成部３０で生成したアドバイス（テキストやイラストなどのメッセージ）を使用者のディスプレイ１０４に出力する。

　アドバイス生成部３０がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイス生成と表示は１０秒間行われ、その後３０秒間はアドバイスを表示しない期間を設けるようにしてもよい。
　また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。

　オンライン会議を行っている状態で、例えば、相手方が嫌悪や怒り、疑問などの表情を表したときには、使用者の発言が相手の意図にそぐわない可能性や、意図が伝わっていない可能性があると考えられる。使用者の情報処理装置１００の画像解析部１０は、相手方の画像から相手方の表情を読み取り、使用者の情報処理装置１００のディスプレイ１０４に状況に適したアドバイスを出力する。例えば、使用者に疑問点がないかを聞いてみる、発言の訂正を促すなどのメッセージを表示してもよい。

　また、画像解析部１０は、相手方の笑顔の回数と、自分（使用者）の笑顔の回数とを比較し、例えば１．２倍以上などある一定以上の比率差がある場合には、アドバイス生成部３０によって自分（使用者）に笑顔を促すイラストやメッセージを生成し、アドバイス出力部４０によってディスプレイ１０４に表示するようにしてもよい。逆に、自分の側に笑顔が多く、相手に笑顔が少ないときは、自分の笑顔も押さえて、真剣な会話になるように促すアドバイスを表示するようにしてもよい。
　また、笑顔だけではなく、怒りや嫌悪、恐怖、悲しみ、驚きなどの表情や、声のトーン、くびをかしげる、頷く、眉をつり上げるなどの動作から、相互の理解度や感情のずれを把握し、コミュニケーションが円滑になるようなアドバイスを生成してもよい。

（第４実施形態）
　第４実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、画像解析部１０が相手方の情報処理装置１００のカメラ１０１で取得した相手方の画像情報を用いて、相手方の表情を解析する。表情の解析は第２実施形態と同様である。その情報を元に、画像解析部１０で相手方の表情の判断を行い、その判断結果に応じて使用者の情報処理装置１００のディスプレイ１０４にアドバイスを出力する。

　例えば、相手方の表情に笑顔がある場合や、うなずいているなどの場合は、相手方に対して良い印象を与えていることを示すメッセージ（「その調子」「このままつづけて」など）を使用者の情報処理装置１００のディスプレイ１０４に表示する。また、相手方の表情が曇っている場合や、首をかしげている場合は、使用者の情報処理装置１００のディスプレイ１０４に注意を促すメッセージ（「理解してもらえていないかも」「理解できているか聞いてみて」など）を表示する。

（情報処理方法）
　図７は、第４実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。以下、ステップごとに説明する。
＜ステップＳ４０１＞
　相手方の情報処理装置１００のカメラ１０１による撮像処理を行う。相手方のカメラ１０１で撮像した相手方の画像はネットワークを介して使用者の情報処理装置１００に送られる。

＜ステップＳ４０２＞
　画像解析部１０による相手方の表情の検出処理を行う。画像解析部１０は、相手方の情報処理装置１００からネットワークを介して送られた相手方の画像から、相手方の表情を検出する。表情の検出処理は第２実施形態と同様である。

＜ステップＳ４０３＞
　アドバイス生成部３０は、アドバイスを生成するか否かの判断を行う。アドバイス生成部３０は、画像解析部１０で解析した相手方の表情の情報に基づき、表情に関するアドバイスを与えたほうがよと判断した場合にはアドバイスを生成する。アドバイス生成部３０は、画像解析部１０の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。

　相手方の表情の検出に関しては、第２実施形態と同様なアクションユニットと、以下の処理とを組み合わせる。例えば、頷くなどの行為に関しては、顔の特定の位置、例えば顎や目の位置が、０．１秒から５秒などといった特定時間内に上下にゆれたことを判別することにより判断する。また、例えば、首をかしげる行為に関しては、顔の輪郭をとらえた上で、顔の中心線を決め、それが会議開始時より１°～３０°など特定の角度傾いた場合に首をかげていると判断する。

　表情の認識とアドバイス生成部３０が行う判断の具体例を以下に示す。
　第２実施形態と同様の方法で、SMILING：笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱といった情報が識別される。
　例えば、相手方が無表情の時間が一定時間続いた場合には、話の話題を変えることを促すようなアドバイスを生成する。この場合、一例を挙げると、相手方の表情はどの数値が３０％以下である状態が３０秒続いた場合にアドバイスを生成する。

　このような表情の検出を行った上で、相手方がうなずいている場合には、こちらの意見に同意を示している、または理解を示していると判断し、良い印象を与えているメッセージ（「その調子」「このままつづけて」など）をアドバイス生成部３０で生成し、アドバイス出力部４０によってディスプレイ１０４に表示する。また、首をかしげている場合は、疑問を持っている、または同意していないと判断し、注意を促すメッセージ（「理解してもらえていないかも」「理解できているか聞いてみて」など）を表示するようにしてもよい。

（第５実施形態）
　第５実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、音声解析部２０がマイク１０２で取得した使用者の音声情報を用いて、話すスピードを解析する。そして、使用者の音声の解析結果に基づき、使用者の情報処理装置１００のディスプレイ１０４にアドバイスを出力する。

　例えば、使用者の話すスピードが速すぎる、または遅すぎるなどを解析し、その解析結果に基づいて話すスピードをコントロールするためのアドバイスを出力する。アドバイスは、テキストやイラスト、写真などのメッセージとしてディスプレイ１０４に表示される（「もっとゆっくり話して」「もっと丁寧に話して」「もう少しスピードアップ」など）。話のスピード以外にも抑揚、滑舌などを判別して、それを修正するメッセージを提示することも含む。滑舌／スピード／抑揚の善し悪しを判別するには、音声をテキストに変換するソフトウエアの精度を用いてもよい。

（情報処理方法）
　図８は、第５実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。以下、ステップごとに説明する。
＜ステップＳ５０１＞
　マイク１０２による集音処理を行う。すなわち、自分（使用者）の情報処理装置（コンピュータ等）に付属、またはＵＳＢ等の端子、もしくは無線によって接続されたマイク１０２により音声（使用者の声やノイズ成分を含む使用者側の音声情報）を入手する。

＜ステップＳ５０２＞
　音声解析部２０による使用者の音声の解析処理を行う。音声解析部２０は、マイク１０２で取り込んだ使用者の音声から、話し方のスピード、抑揚、滑舌などの使用者音声情報を検出する。そして、音声解析部２０は、使用者の音声を解析した使用者音声情報と、予め設定された基準音声情報とを比較して音声比較情報を求める。

　話し方のスピード、抑揚、滑舌などの使用者音声情報および音声比較情報に関しては、例えば次のように検出する。例えば、滑舌に関しては５母音間の距離を判定し、その距離が一定以上近ければ、滑舌が悪い（音声比較情報）とする。また。スピードに関しては単位時間あたりのモーラ数（一定の時間的長さをもった音の分節単位）などを基準にする方法などがある。また、抑揚に関しては、例えば、音声の波形（使用者音声情報）から、その大きさと周波数を読み取り、一定値内かどうか（音声比較情報）で判断していく。

＜ステップＳ５０３＞
　アドバイス生成部３０は、アドバイスを生成するか否かの判断を行う。アドバイス生成部３０は、音声解析部２０で解析した使用者音声情報に基づき、話し方に関するアドバイスを与えたほうがよいと判断した場合にはアドバイスを生成する。アドバイス生成部３０は、画像解析部１０の解析結果に基づき、テキストやイラスト、写真などで使用者に話し方に関するメッセージを生成する。

　ここで、ステップＳ５０２からステップＳ５０３までの処理の具体例を以下に示す。
　滑舌を例にした場合には、
（１）５母音間の距離を判定する。
（２）予め決められた５母音間の距離と、得られた５母音間の距離を比較する。
　例えば、予め１秒と決められていれば、１秒未満か、１秒以上を判定する。
（３）予め決められた５母音間の距離以下であれば、アドバイスを生成する。
　このとき、今回の例では距離を時間として表したが、周波数などを使用してもよい。
　また、得られた５母音間の距離を予め決められた距離と比較する場合、一定時間の平均を利用したり、連続して複数回距離が短い場合のみアドバイスを生成したりするなどを行ってもよい。

　また、話すスピードにあたるモーラ数や、抑揚に関して音の大きさと周波数の場合も同じで、予め決められた規定の数字と、平均や連続する回数との比較を行いながら、アドバイスを生成していくことが挙げられる。

＜ステップＳ５０４＞
　アドバイス出力部４０は、アドバイスを使用者のディスプレイ１０４に出力する。すなわち、アドバイス出力部４０は、アドバイス生成部３０で生成したアドバイス（テキストやイラストなどのメッセージ）を使用者のディスプレイ１０４に出力する。

　第５実施形態では、例えば、事前にインプットした、規定のスピード範囲、規定の滑舌範囲、規定の抑揚範囲かを判断して、規定の範囲内でない場合は、修正を促すメッセージを生成する。その際、メッセージを出し続けるのではなく、１回のメッセージから次のメッセージまでの期間を決めておいてもよい。

　また、既存の音声認識システムでは、言葉を音素に分けて、その音素がどの言葉に近いかを判別し、一番近い音素を、正しい音素と判断するシステムが用いられている。例えば、「か」と発音したときに、「か」５０％、「あ」３０％、「さ」２０％であれば、「か」と認識したと見なすなどである。ある音素を判別する際、確率を表すパーセントが、複数近かったり、多くの候補がでたりする状況であれば、相手も聞き取れないと判断して、修正を促すメッセージを生成するようにしてもよい。

　また、ステップＳ５０３の判断において、使用者の話し方のスピード、抑揚、滑舌などの使用者音声情報が音声比較情報に対して適正は範囲に入っている場合にアドバイスを生成するようにしてもよい。例えば、使用者の話し方が適切なスピードであった場合、「聞き取りやすい話し方です。」などのメッセージをアドバイスウインドウ１０４Ｗに表示したり、メッセージではなくディスプレイ１０４の所定位置にアイコン（例えば、青丸表示や青枠表示）を出力したりして、使用者の話し方に問題がない状態であることを知らせるようにしてもよい。
　また、使用者の話し方が好ましい場合、好ましくない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。

（第６実施形態）
　第６実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、音声解析部２０が相手方の情報処理装置１００のマイク１０２で取得した相手方の音声情報を用いて、その音声情報をテキストに変換し、アドバイス生成部３０がそのテキストをアドバイスとして生成する。アドバイス出力部４０は、テキストを使用者の情報処理装置１００のディスプレイ１０４に出力する。これにより、オンライン会議において相手方との会話や質問の聞き逃しを抑制することができる。

　また、このときに相手方が話した内容を全てテキスト化しては表示するのではなく、一部の情報のみテキスト化してもよい。例えば、専門用語や重要となるキーワードのみをテキスト化して表示するなどである。また、予め設定されたデータベース（例えば、専門用語などを辞書登録したデータベース）に基づき抽出された用語を強調表示するアドバイスを生成してもよい。さらに、抽出された用語をインターネット検索して、用語の意味をアドバイスとして生成、表示したり、検索結果から関連する用語などを同時に表示したりしてもよい。

（情報処理方法）
　図９は、第６実施形態に係るオンライン会議サポートシステムの動作（情報処理方法）を例示するフローチャートである。以下、ステップごとに説明する。
＜ステップＳ６０１＞
　相手方の情報処理装置１００のマイク１０２による音声の取得処理を行う。すなわち、相手方のパーソナルコンピュータ等に付属、またはＵＳＢ等の端子、もしくは無線を用いて接続されたマイク１０２により相手方の音声を入手する。

＜ステップＳ６０２＞
　音声解析部２０による相手方の音声情報の検出処理を行う。音声解析部２０は、相手方の情報処理装置１００からネットワークを介して送られた相手方の音声情報をテキスト化する。この際、音声情報の全てをテキスト化してもよいし、音声情報からキーワードとなる言葉を抽出してテキスト化してもよい。

　音声認識に関しては、音響分析において、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさまざまな特徴量を抽出し、音響モデルで扱いやすい（コンピュータが認識しやすい）データに変換する。次に、音響モデルでは、音響分析により抽出された特徴量が、どの記号（音素や単語）にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算する。たとえば、「ありがとう」と音声を入力した場合、音声分析により抽出された特徴量を用いて「A-R-I-G-A-T-O-U」という音素になるように、音声を正しい文字にマッチングさせる。さらに、言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立て、あらかじめ蓄積したデータから使用する単語の出現率を算出し、単語を文章化する言語モデルで主に利用されるモデルが「隠れマルコフモデル」である。これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義している。膨大なデータから単語を連結させる確率を出し、文脈が正しくなるように単語を文章化する。さらに、発音辞書では、音声の最小単位の”音素”ごとにモデル化されている膨大なデータベースから、音の組み合わせをピックアップし、「単語」として認識させる。これらは、ディープラーニングやＡＩなどの技術を用いても良い。

＜ステップＳ６０３＞
　アドバイス生成部３０は、アドバイスを生成するか否かの判断を行う。アドバイス生成部３０は、音声解析部２０でテキスト化した音声情報に基づき、そのテキストをアドバイスとして生成する判断を行う。

　アドバイス生成部３０でテキスト全文を表示する場合、ディスプレイ１０４の画面上の指定の場所や、資料や相手の画像など何らかのソフトウエアやアプリケーションを表示していない場所に相手方の話した内容を表示していくことが好ましい。その際、カメラ部分に近い場所や、自分の視線が自分のカメラ画像中央を向くような場所に表示させるなども可能である。

　また、アドバイス生成部３０でキーワードのみ抽出する場合は下記のような方法が考えられる。
　（１）専門用語辞典や専門用語集などを事前に収集、もしくはインターネット上のサービスを指定することにより得ることができる状態にしていく。
　（２）それらの情報と比較し、当てはまる場合には、テキスト表示をする。
　その際に、その前後の言葉を記憶しておき、その前後の言葉と一緒に、もしくは、その文節や文章単位で表示してもよい。

　アドバイス生成部３０でキーワードのみ抽出する場合のもう一つの方法は下記のようなものが挙げられる。
　（１）予め、一般的に使われる「私」や「御社」などの専門用語に当たらないであろう情報を抽出しておく。
　（２）この情報と比較し、上記専門用語に当てはまらないであろう単語を除去し、残った部分を専門用語として、アドバイス生成すると判断する。
　その際に、その専門用語にあたる前後の言葉を記憶しておき、その前後の言葉と一緒に、もしくは、その文節や文章単位で表示してもよい。

　さらに、専門用語だけではなく、会話をなり立たせる上で重要な言葉や文節を抽出することもできる。例えば、疑問形であると考えられる「～ですか？」という言葉や、文章の終わりの抑揚などを抽出する。
　相手方からの疑問形は、自分が答える必要があると考えられるため、その前後の言葉を記憶しておき、アドバイスの生成が必要であると判断してもよい。

　一例として、疑問形を抽出する例を挙げる。
　（１）音声を常にテキスト変換しておき、常に例えば直近５分間分を記憶しておく。
　（２）音声の抑揚（音声信号の周波数や大きさ）を読み取る。
　（３）音声の抑揚や、音声の語尾の言葉の状態から疑問文かどうかを判断する。
　（４）疑問文であった場合は、その疑問文の前にさかのぼり、文章の切れ目を探す。
　（５）その切れ目から、疑問文の語尾までの情報をテキストにアドバイス生成として表示する。
　このとき、その疑問文に対する答えが検索可能なのであれば、検索して表示してもよいし、模範解答を集めておき、それを同時に表示してもよい。

＜ステップＳ６０４＞
　アドバイス出力部４０は、アドバイスを使用者のディスプレイ１０４に出力する。すなわち、アドバイス出力部４０は、アドバイス生成部３０で生成したアドバイス（テキスト化された情報）を使用者のディスプレイ１０４に出力する。

　例えば、相手方の音声ついて音声認識されたテキストデータをそのまま表示してもよいし、事前に一般的な会話で使われる言葉（たとえば、「はじめまして」や「御社」、「さて」など）を登録しておき、それをのぞいた専門用語のみを表示してもよい。また、疑問形（たとえば、語尾があがる、「～ですか？」などの言葉）を認識し、その疑問文のみを表示しても良い。
　また、専門用語などは、アドバイス生成部３０がその言葉をインターネットで自動的に検索し、アドバイス出力部４０がその検索結果をディスプレイ１０４に表示するようにしてもよい。

（第７実施形態）
　第７実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、音声解析部２０が相手方の情報処理装置１００のマイク１０２で取得した相手方の音声情報を用いて、質問にあたる部分を抽出する。アドバイス生成部３０は、音声解析部２０で抽出された質問に対する応答をアドバイスとして生成する。相手方の質問に対する応答は、事前に登録されたものであってもよいし、ネットワーク上にある答えの例（模範解答、一般解答など）であってもよい。アドバイス出力部４０は、アドバイス生成部３０によって生成されたアドバイス（質問に対する応答）を使用者のディスプレイ１０４に出力する。これにより、オンライン会議の進行中に相手方から出された質問に対して、使用者はディスプレイ１０４に表示されたアドバイスを参照して応答することができる。

　処理の流れの一例を以下に挙げる。
　（１）前記の方法で、質問に当たる部分を抽出する。（例えば「志望動機は何ですか？」など）
　（２）その質問に対する単語や文脈から質問内容を把握する。（志望動機を聞かれていると把握する）
　（３）予め志望動機と紐付けて入力された言葉をアドバイスとして表示する。

　処理の流れの別の一例を以下に挙げる。
　（１）前記の方法で、質問に当たる部分を抽出する。（例えば「量子コンピュータの仕組みはどんなものですか？」など）
　（２）それに対して、インターネット上で、全文もしくは、単語を検索する。（例えば、「量子コンピュータ」と「仕組み」を検索する）
　（３）その結果をテキスト、またはＷｅｂサイトのリンクで表示する。

　オンライン会議において、対話相手からの質問に的確に答えることができないことや、相手の質問の意味が理解できない、でてくる単語が理解できない、といったことが起こりえる。本実施形態によれば、相手方との会話を解析して質問や用語に対するアドバイスを自動的に表示でき、円滑な会議を行うことができる。

（第８実施形態）
　第８実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、音声解析部２０が相手方の情報処理装置１００のマイク１０２で取得した相手方の音声情報を用いて時間に関する情報を検出する。アドバイス生成部３０は、音声解析部２０で検出した時間に関する情報に基づくアドバイスを生成する。アドバイス出力部４０は、アドバイス生成部３０によって生成されたアドバイスを使用者のディスプレイ１０４に出力する。

　時間に関する情報は、音声解析部２０で解析された相手方の音声に時間に関する内容、例えば、「１０分で話してください」「５、６分で話してください」などの時間に関する内容を含む音声の情報である。アドバイス生成部３０は、音声解析部２０で読み取った時間に関する情報をもとに、カウントダウンまたはカウントアップする時間情報をアドバイスとして生成する。アドバイス出力部４０は、カウントダウンまたはカウントアップする時間情報をディスプレイ１０４に表示する。アドバイス出力部４０は、時間情報を音や音声で出力してもよい。

　処理の流れの一例を以下に挙げる。
　（１）相手側の音声からを分析して、時間の情報を抽出する。（例えば、「５分で話してください」から、「５分」という情報を抽出する。）
　（２）その時間を、ディスプレイ１０４の画面上に表示する。
　（３）その時間から、例えば、１秒ごとにカウントダウンしてディスプレイ１０４に表示していく。（４分５９秒、４分５８秒、…など）
　（４）０秒になった時点でディスプレイ１０４に表示されるカウントダウンの表示の色を変えるなどによって知らせる。
　これにより、指定された時間内に話を終えることを意識させることができる。

（第９実施形態）
　第９実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムを用いたオンライン会議の事前準備として、カメラ１０１によって取得した画像を用いて最適なセッティングの指導を行う。

　事前のセッティングを行う方法としては下記が挙げられる。
　（１）図１０に示すように、ディスプレイ上にパソコンの高さなどの配置例が表示される。
　配置例はカメラの高さや向き、座る位置、カメラやパソコンからの距離などである。最適なカメラ１０１の高さや向きなどは、カメラ１０１で取り込んだ画像を解析して顔の映る範囲、視線から導き出したカメラ１０１の高さや向きの方向性（例えば、「もう少しカメラの位置を高くして」や「もう少しカメラを離して」など）を示すことができる。
　（２）図１１に示すように、ディスプレイ１０４にガイドラインＧＬと、カメラに映った自分の画像を重ね合わせる。そのガイドラインＧＬにあった配置が推奨される配置となる。顔や体の輪郭のガイドだけではなく、目や鼻、口の位置が示されてもよい。
　（３）周囲の明るさや、顔の明るさなど、全体の明るさやコントラストを最適にするようなメッセージやイラスト、写真などが表示される。
　（４）周囲の明るさや、顔の明るさなど、全体の明るさやコントラストを最適にするよう画像を調整する。

（第１０実施形態）
　第１０実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムを用いたオンライン会議の事前準備として、面接や相手の情報を入力する。例えば、企業名や、相手の好きなもの、好きなこと、嫌いなこと、嫌いなもの、氏名、出身値、今の住まい、興味のあることなどである。その情報を元に事前もしくは、会議や面接、お見合いなどの実行中に情報がディスプレイ１０４に表示される。

　例えば、面接の際、企業名を入力しておけば、よくその企業がする質問や、業務内容などが表示される。また、お見合いの際に相手のすきなものを入力しておけば、それに関する情報がディスプレイ１０４の画面に表示されていくなどである。

　オンライン会議においては、対話相手に考えているとおりに話を伝えることができない場合や、当初予定していた話が思い出せなかったり、緊張のために言葉に出てこなかったりといったことが起こり得る。本実施形態によれば、事前準備した情報がディスプレイ１０４に適宜のタイミングで表示されるため、このような問題を解消してオンライン会議を円滑に進めることができるようになる。

（第１１実施形態）
　第１１実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムを用いたオンライン会議の事前準備として、オンラインでの会話中に行う予定の質問をあらかじめ入力しておき、実際の会話中にその情報が表示される。
　表示されるタイミングは、はじめから表示されていてもよいし、本人がディスプレイ１０４の画面上をクリックしたタイミングで表示させてもよい。また、予め時間を入力しておき、その時間になったタイミングで表示させてもよい。また、別の方法としては相手の質問を促す音声を認識して、認識した結果に応じて表示させてもよい。

（第１２実施形態）
　第１２実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムを用いたオンライン会議の事前準備として、予め進行に関する情報を入力しておく。進行に関する情報としては、例えば、何分の予定で会議を行うという時間情報や、どの順番で何分頃に行うという手順に関する情報である。

　図１２は、進行に関する情報の表示例を示す模式図である。
　実際のオンラインでの会話中に、情報処理装置１００の時間情報、またはインターネットを介した時間情報を照らし合わせて、残り時間や次に行うことの情報がディスプレイ１０４のアドバイスウインドウ１０４Ｗに表示される。例えば、アドバイスウインドウ１０４Ｗには、時間情報（例えば、会議の残り時間や会議の手順およびその残り時間など）が表示される。

（第１３実施形態）
　第１３実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、使用者の情報処理装置１００のディスプレイ１０４にアドバイスを表示するタイミングを調整する。

　例えば、会話中に使用者のディスプレイ１０４にテキストやイラスト等でアドバイス表示されると、そちらの方に視線が行き、考えや会話が中断してしまう恐れがある。これを防ぐために、音声解析部２０によって音声を解析した結果を利用し、音声のやりとり、つまり会話が少ない期間に、会話をしている期間と比較して多くのアドバイスをアドバイス生成部３０で生成し、アドバイス出力部４０によってそのアドバイスを出力する。これにより、会話を中断させることなく、ディスプレイ１０４のアドバイスを見ることができるようになる。

　音声のやりとりの少ない期間に関しては、ノイズレベルの音声信号を除去した上で、例えば、０．５秒から１分といったある特定期間閾値を超える音声信号がない、または数が少ない場合に音声のやりとりが少ないと判断することができる。

（第１４実施形態）
　第１４実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、ディスプレイ１０４に表示されるテキストを、予め設定された言語で表示する。すなわち、ディスプレイ１０４には、表示すべきテキストとその翻訳文との少なくともいずれかが表示される。

　第１４実施形態に係るオンライン会議サポートシステム１において、図１Ｂに示す音声解析部２０は、マイク１０２で取り込んだ使用者の音声や、ネットワークＮを介して送られる相手方の音声を認識してテキスト化する。テキスト化された音声は、アドバイス生成部３０において予め設定された言語に自動的に翻訳される。翻訳言語は１つであってもよいし、複数であってもよい。

　アドバイス生成部３０で翻訳された言語は、アドバイス出力部４０によってディスプレイ１０４に表示される。アドバイス出力部４０は、翻訳された言語のみをディスプレイ１０４に表示してもよいし、翻訳前の言語と翻訳された言語との両方をディスプレイ１０４に表示してもよい。

（第１５実施形態）
　第１５実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、複数のディスプレイ１０４を接続して使う場合、使用者の視線の位置に合わせて、その視線の先のディスプレイ１０４にテキストなどのアドバイスを出力する。

　図１３は、複数のディスプレイを用いた場合を例示する模式図である。
　使用者は、複数のディスプレイ１０４を並列に配置したり、ノート型コンピュータ（情報処理装置１００）にディスプレイ１０４を接続したりして、マルチディスプレイを構築することがある。この場合、第１５実施形態に係るオンライン会議サポートシステム１では、図１Ｂに示す画像解析部１０において、カメラ１０１で取り込んだ使用者の画像から、使用者の視線の向きを検出する。

　アドバイス生成部３０は、所定のアドバイスを生成するとともに、予め設定された視線の向きとディスプレイ１０４の位置との関係から、視線の向きに合ったディスプレイ１０４を選択する処理を行う。アドアイス出力部４０は、アドバイス生成部３０で選択されたディスプレイ１０４にアドバイスウインドウ１０４Ｗを出力する。これにより、マルチディスプレイを構築した場合であっても、使用者の視線の向きに合ったディスプレイ１０４にアドバイスウインドウ１０４Ｗを表示させることができる。

（第１６実施形態）
　第１６実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、複数のカメラ１０１を接続して使う場合、使用者の視線の位置に合わせて、その視線の先のカメラ１０１での撮像に自動的に切り換える処理を行う。

　第１６実施形態に係るオンライン会議サポートシステム１では、図１Ｂに示す画像解析部１０において、複数のカメラ１０１で取り込んだ使用者の画像のそれぞれから使用者の視線の向き検出する。

　アドバイス生成部３０は、検出した使用者の視線の向きに合った（視線の向きが最も正面に近い）カメラ１０１を選択する処理を行う。オンライン会議サポートシステム１は、アドバイス生成部３０で選択されたカメラ１０１の映像を、ネットワークＮを介して相手先に送信する。

　例えば、図１３に示すマルチディスプレイ構成において、それぞれのディスプレイ１０４の中央上にカメラ１０１が設けられている場合、使用者がノート型コンピュータ（情報処理装置１００）のディスプレイ１０４に表示された資料を見ているときはノート型コンピュータ（情報処理装置１００）のカメラ１０１で撮影された画像が自動的に選択され、使用者がノート型コンピュータ（情報処理装置１００）に接続された別のディスプレイ１０４を見ているときはこのディスプレイ１０４に設けられたカメラ１０１で撮影された画像が自動的に選択される。このようなカメラ１０１の自動切り替えによって、複数のカメラ１０１を用いた場合であっても、使用者の視線の向きに合ったカメラ１０４が自動的に選択されて、常に正面を向いた映像を相手方に送ることができる。

（第１７実施形態）
　第１７実施形態に係るオンライン会議サポートシステム１では、図１Ａに示すオンライン会議システムおよび図１Ｂに示すブロック構成において、使用者がその方向に指さす、顔を向ける、といった特定の動作（ジェスチャーなど）をすることで、その特定の動作に応じてカメラ１０１の撮像領域をズームしたり、パンしたり、フォーカスを合わせたりする動作を行う。

　例えば、使用者はホワイトボード、黒板、資料の付箋で示された箇所などを説明したい場合、カメラ１０１でその箇所を撮像して相手方に送りたいことがある。この場合、第１７実施形態に係るオンライン会議サポートシステム１では、図１Ｂに示す画像解析部１０において、予め設定された特定の動作を検出すると、カメラ１０１の撮像領域を制御する。

　例えば、カメラ１０１で取り込んだ使用者の画像から、使用者が指さす動作を検知した場合、その指さす位置にカメラ１０１をズームしたり、パンしたり、フォーカスを合わせたりする。ズームやパンは電式的に行ってもよいし、機械的に行ってもよい。また、カメラ１０１で取り込んだ使用者の画像から、使用者の顔の向きを検出し、検出した顔の向きにカメラ１０１をパンしてもよい。

　これにより、例えば、使用者の背景にホワイトボードが配置され、そこに使用者が説明書きなどを書き込んだ場合、使用者の顔の向きや、指さしの動作によって、カメラ１０１の撮像領域が自動的に注目させた位置に制御される。使用者の特定の動作は、指さしに限定されず、予め設定された特定のジェスチャーによって各種の制御（カメラ１０１の撮像の制御、オンライン会議サポートシステム１の動作制御など）を行うようにしてもよい。

　また、カメラ１０１で取り込んだ使用者の特定の動作に加え、マイク１０２で取り込んだ使用者の音声から特定のキーワード（例えば、「ここをズーム」、「ここにパン」、「ここにフォーカス」という言葉）を認識した場合、カメラ１０１の撮像領域の制御を行うようにしてもよい。

（付加機能）
　前述の各実施形態に係るオンライン会議サポートシステム１においては、下記のような機能の少なくともいずれかを付加してもよい。
　（１）テキストやイラストなどの表示、音声や振動による通知は、オンラインでの会議/面接/面談/お見合いの途中で、かつ、表情や音声が認識された直後（例えば、３０秒以内）に行われる。
　（２）テキストやイラストなどの表示、音声や振動による通知は、オンラインでの会議/面接/面談/お見合いの途中で、かつ、会話や会議の妨げにならない、会話がなされていない、または、画像が動いていない期間に行われる（例えば、０．１秒から１０分）。
　（３）会議の事前準備として、会議開催前（オンラインで相手と繋がる前）に、音声や顔の位置、表情を認識してアドバイスを与える。
　（４）会議の振り返りや反省として、会議開催後（オンラインで相手との通信が途切れた後）にアドバイスを与える。
　（５）カメラ１０１で取り込んだ画像から背景に映っている物を抽出し、会議に適さないと思われる物が映っている場合にアドバイスを与える。例えば、背景の画像から文字を抽出した場合、「背景に○○の文字が映っています。」などのメッセージを出力する。また、背景の画像から動きのある物を抽出した場合、「背景に動いているものが映っています。」などのメッセージを出力する。例えば、会議中に部屋にペットが入り込んで背景に映り込んだ場合、このようなメッセージを出力して使用者に認識させることができる。
　（６）マイク１０２で取り込んだ音声情報からノイズ成分を抽出し、ある一定レベル以上のノイズ成分が一定時間以上続く場合、「ノイズ音が含まれています。」などのメッセージを出力する。

（オンライン会議サポートプログラム）
　上記説明したオンライン会議サポートシステム１は、オンライン会議サポートプログラムとして適用可能である。オンライン会議サポートプログラムは、コンピュータに以下のステップを実行させる。
　（１）カメラ１０１で取り込んだ使用者の画像を解析する画像解析ステップ
　（２）マイク１０２で取り込んだ使用者の音声を解析する音声解析ステップ
　（３）画像解析ステップおよび音声解析ステップで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成ステップ
　（４）アドバイス生成ステップで生成したアドバイスを使用者のディスプレイ１０４に出力するアドバイス出力ステップ

　オンライン会議サポートプログラムは、各種の情報処理装置（コンピュータ、タブレット端末、携帯電話等）で実行されるアプリケーションソフトウェアとして構成することができる。オンライン会議サポートプログラムは、媒体に記憶されていてもよいし、ネットワークを介して配信されてもよい。オンライン会議サポートプログラムは、オンライン会議を行うアプリケーションソフトウェアに組み込まれてもよいし、プラグインなどで後から追加で組み込むことができるようになっていてもよい。

　以上説明したように、本実施形態によれば、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステム１およびオンライン会議サポートプログラムを提供することが可能になる。

　なお、上記に本実施形態およびその適用例を説明したが、本発明はこれらの例に限定されるものではない。例えば、本実施形態に係るオンライン会議サポートシステム１を構成する画像解析部１０、音声解析部２０、アドバイス生成部３０およびアドバイス出力部４０の少なくともいずれかは情報処理装置１００の外部に設けられ、ネットワークＮを介して情報処理装置１００と接続される構成になっていてもよい。また、前述の各実施形態またはその適用例に対して、当業者が適宜、構成要素の追加、削除、設計変更を行ったものや、各実施形態の特徴を適宜組み合わせたものも、本発明の要旨を備えている限り、本発明の範囲に包含される。

　本発明に係るオンライン会議サポートシステム１およびオンライン会議サポートプログラムは、オンライン会議のほか、オンライン面接、オンラインセミナー、オンライン授業、オンライン商談など、オンラインで使用者および相手方の双方で情報の送受信を行うシステムに好適に利用可能である。

１…オンライン会議サポートシステム
１０…画像解析部
２０…音声解析部
３０…アドバイス生成部
４０…アドバイス出力部
１００…情報処理装置
１０１…カメラ
１０２…マイク
１０３…スピーカ
１０４…ディスプレイ
１０４Ｗ…アドバイスウインドウ
ＧＬ…ガイドライン
Ｎ…ネットワーク

Claims

　カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、
　前記カメラで取り込んだ前記使用者の画像を解析する画像解析部と、
　前記マイクで取り込んだ前記使用者の音声を解析する音声解析部と、
　前記画像解析部および前記音声解析部の少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成するアドバイス生成部と、
　前記アドバイス生成部で生成された前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力部と、
　を備えたことを特徴とするオンライン会議サポートシステム。
　前記画像解析部は、前記使用者の前記画像から前記カメラの画角中心に対する前記使用者の顔の向き解析し、
　前記アドバイス生成部は、前記画像解析部で解析した前記顔の向きが一定時間を越えて基準の向きから外れている場合に顔を前記カメラに向けるアドバイスを生成する、請求項１記載のオンライン会議サポートシステム。
　前記画像解析部は、前記使用者の前記画像から前記カメラの画角中心に対する前記使用者の視線の方向を解析し、
　前記アドバイス生成部は、前記画像解析部で解析した前記視線の方向が一定時間を越えて基準の方向から外れている場合に視線を前記カメラに向けるアドバイスを生成する、請求項１記載のオンライン会議サポートシステム。
　前記アドバイス出力部は、前記画像解析部で解析した前記視線の延長上付近となる前記ディスプレイの位置に前記アドバイスを出力する、請求項３記載のオンライン会議サポートシステム。
　前記画像解析部は、前記使用者の前記画像から前記使用者の表情を解析し、
　前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情に基づくアドバイスを生成する、請求項１記載のオンライン会議サポートシステム。
　前記画像解析部は、オンラインで送信される相手方の画像から前記相手方の表情を解析し、
　前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情と、前記相手方の表情との相違に基づくアドバイスを生成する、請求項５記載のオンライン会議サポートシステム。
　前記音声解析部は、前記使用者の音声を解析した使用者音声情報と、予め設定された基準音声情報とを比較して音声比較情報を求め、
　前記アドバイス生成部は、前記音声解析部で求めた前記音声比較情報に基づくアドバイスを生成する、請求項１記載のオンライン会議サポートシステム。
　前記音声解析部は、オンラインで送信される相手方の音声から前記音声に対応したテキストデータを解析し、
　前記アドバイス生成部は、前記音声解析部で解析した前記テキストデータを前記アドバイスとして生成する、請求項１記載のオンライン会議サポートシステム。
　前記アドバイス生成部は、前記音声解析部で解析した前記テキストデータから予め設定されたデータベースに基づき抽出された用語を強調表示するアドバイスを生成する、請求項８記載のオンライン会議サポートシステム。
　前記情報処理装置は、前記使用者からの入力を受け付ける入力手段を有し、
　前記アドバイス生成部は、前記入力手段で入力された前記用語の意味をインターネットで検索して、検索結果をアドバイスとして生成する、請求項９記載のオンライン会議サポートシステム。
　前記音声解析部は、前記使用者の音声から話している内容が質問であるか否かを解析し、
　前記アドバイス生成部は、前記音声解析部で解析した音声の内容が質問であった場合、前記質問に対する回答をインターネット検索して、検索結果をアドバイスとして生成する、請求項１記載のオンライン会議サポートシステム。
　前記音声解析部は、前記使用者の音声から前記使用者の会話時間を解析し、
　前記アドバイス生成部は、前記会話時間に基づくカウントアップ時間またはカウントダウン時間をアドバイスとして生成する、請求項１記載のオンライン会議サポートシステム。
　前記アドバイス出力部は、前記音声解析部によって解析した前記使用者と相手方との音声のやりとりが少ない期間または音声のやりとりが途絶えた期間に、アドバイス出力をする、請求項１記載のオンライン会議サポートシステム。
　前記画像解析部は、オンライン会議における前記カメラの最適な撮影領域と撮影位置とを示すガイドを前記ディスプレイに表示し、
　前記アドバイス生成部は、前記カメラで取得した前記使用者の画像の領域および位置と前記ガイドとの比較結果に基づき前記使用者に対するアドバイスを生成する、請求項１記載のオンライン会議サポートシステム。
　前記画像解析部は、前記カメラで取得した前記使用者の画像に基づき画質を解析する、請求項１記載のオンライン会議サポートシステム。
　前記情報処理装置は、前記使用者からの入力を受け付ける入力手段を有し、
　前記アドバイス生成部は、前記入力手段で受け付けた前記使用者の会議に使用する事前の情報を、会議における所定のタイミングでアドバイスとして生成する、請求項１記載のオンライン会議サポートシステム。
　オンライン会議中に前記使用者の前記ディスプレイに表示される内容を相手方と共有した際、前記アドバイス出力部は前記アドバイスを前記相手方のディスプレイに表示させない処理を行う、請求項１記載のオンライン会議サポートシステム。
　前記アドバイス出力部は、出力した前記アドバイスをネットワークを介して記憶装置に送信する処理を行う、請求項１記載のオンライン会議サポートシステム。
　カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、
　コンピュータに、
　前記カメラで取り込んだ前記使用者の画像を解析する画像解析ステップと、
　前記マイクで取り込んだ前記使用者の音声を解析する音声解析ステップと、
　前記画像解析ステップおよび前記音声解析ステップの少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成するアドバイス生成ステップと、
　前記アドバイス生成ステップで生成した前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力ステップと、
　を実行させることを特徴とするオンライン会議サポートプログラム。