WO2023100594A1

WO2023100594A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2023100594A1
Application number: PCT/JP2022/041340
Authority: WO
Inventors: 和子山田; 吉弘田村; 祐介阪井; 龍正小池; 光高鳥
Original assignee: ソニーグループ株式会社
Priority date: 2021-12-03
Filing date: 2022-11-07
Publication date: 2023-06-08

Abstract

ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出する情報検出部と、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する音量調整部とを備える情報処理装置である。

Description

情報処理装置、情報処理方法およびプログラム

　本技術は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、テレプレゼンスシステムと呼ばれる技術が注目されている。テレプレゼンスとは、「Tele（遠隔）」と「Presence（面前、存在）」からなる造語であり、物理的に離れた遠隔地同士で映像および音声の双方向通信を行うことにより異なる２つ以上の遠隔地にいる人々に対して対面で同じ空間を共有しているかのような臨場感を提供することができる技術の総称である。これにより、人は遠隔地にいながらいつでもシームレスにコミュニケーションすることができ、同じ空間で対面しているような感覚を得ることができる（特許文献１）。

特開２０２１－７１６３２号公報

　テレプレゼンスシステムは常時接続が前提であること、ディスプレイの表示領域に制約があることなどから、特許文献１のようなテレプレゼンスシステムでは、不必要な音声や他の空間において出力すべきではない音声を相手の空間におけるテレプレゼンスシステムから出力してしまうという問題がある。

　本技術はこのような点に鑑みなされたものであり、映像と音声を使用した遠隔コミュニケーションシステムにおいて人物の状況に応じて音声の音量を適切に調整することができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

　上述した課題を解決するために、第１の技術は、ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出する情報検出部と、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する音量調整部とを備える情報処理装置である。

　また、第２の技術は、ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出し、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する情報処理方法である。

　さらに、第３の技術は、ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出し、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する情報処理方法をコンピュータに実行させるプログラムである。

遠隔コミュニケーションシステム１０の構成を示すブロック図である。テレプレゼンスシステム１００の外観図である。テレプレゼンスシステム１００の構成を示すブロック図である。第１の実施の形態における情報処理装置２００の構成を示すブロック図である。サーバ装置１０００の構成を示すブロック図である。第１の実施の形態の第１の使用例における空間Ａを示す図である。第１の実施の形態の第１の使用例における処理を示すシーケンス図である。第１の実施の形態の第２の使用例における空間Ａを示す図である。第１の実施の形態の第２の使用例における処理を示すシーケンス図である。第２の実施の形態における情報処理装置２００の構成を示すブロック図である。第２の実施の形態の使用例における空間Ａを示す図である。第２の実施の形態の使用例における処理を示すシーケンス図である。注目度算出の説明図である。第３の実施の形態における情報処理装置２００の構成を示すブロック図である。注目領域特定部２０８の説明図である。第３の実施の形態の使用例における空間Ａおよび空間Ｂを示す図である。第３の実施の形態の使用例における処理を示すシーケンス図である。第４の実施の形態における遠隔コミュニケーションシステム１０の構成を示すブロック図である。図１９Ａは第４の実施の形態における情報処理装置２００Ａの構成を示すブロック図であり、図１９Ｂは第４の実施の形態における情報処理装置２００Ｂの構成を示すブロック図である。第４の実施の形態の使用例における空間Ａを示す図である。第４の実施の形態の使用例における空間Ｂを示す図である。第４の実施の形態の使用例におけるディスプレイ４００の表示態様を示す図である。第４の実施の形態の使用例における処理を示すシーケンス図である。注目度算出の説明図である。ディスプレイ４００における表示の切り替えの説明図である。ディスプレイ４００における小窓映像表示の説明図である。

　以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．第１の実施の形態＞
［１－１．遠隔コミュニケーションシステム１０の構成］
［１－２．テレプレゼンスシステム１００の構成］
［１－３．情報処理装置２００の構成］
［１－４．サーバ装置１０００の構成］
［１－５．第１の実施の形態の第１の使用例］
［１－６．第１の実施の形態の第２の使用例］
＜２．第２の実施の形態＞
［２－１．情報処理装置２００の構成］
［２－２．第２の実施の形態の使用例］
＜３．第３の実施の形態＞
［３－１．情報処理装置２００の構成］
［３－２．第３の実施の形態の使用例］
＜４．第４の実施の形態＞
［４－１．遠隔コミュニケーションシステム１０の構成］
［４－２．情報処理装置２００の構成］
［４－３．第４の実施の形態の使用例］
＜５．変形例＞

＜１．第１の実施の形態＞
［１－１．遠隔コミュニケーションシステム１０の構成］
　まず、図１を参照して遠隔コミュニケーションシステム１０の構成について説明する。遠隔コミュニケーションシステム１０は複数のテレプレゼンスシステム１００とサーバ装置１０００により構成されている。図１では、複数のテレプレゼンスシステム１００として１対１の関係で接続されているテレプレゼンスシステム１００Ａとテレプレゼンスシステム１００Ｂを示している。ただし、遠隔コミュニケーションシステム１０を構成するテレプレゼンスシステム１００は３つ以上であってもよく、その数に制限はない。

　テレプレゼンスシステム１００Ａとサーバ装置１０００、テレプレゼンスシステム１００Ｂとサーバ装置１０００はそれぞれインターネットなどのネットワークを介して接続されており、テレプレゼンスシステム１００Ａとテレプレゼンスシステム１００ＢはＷｅｂＲＴＣ（Web Real-Time Communication）のＰ２Ｐ（Peer to Peer）通信を確立している。

　テレプレゼンスシステム１００Ａは、情報処理装置２００Ａ、端末装置３００Ａ、ディスプレイ４００Ａ、カメラ５００Ａ、マイクロフォンアレイ６００Ａ、スピーカ７００Ａ、センサ８００Ａにより構成されているシステムである。テレプレゼンスシステム１００Ｂは、情報処理装置２００Ａ、端末装置３００Ｂ、ディスプレイ４００Ｂ、カメラ５００Ｂ、マイクロフォンアレイ６００Ｂ、スピーカ７００Ｂ、センサ８００Ｂにより構成されているシステムである。本技術における処理を行う情報処理装置２００Ａは端末装置３００Ａにおいて動作し、情報処理装置２００Ｂは端末装置３００Ｂにおいてそれぞれ動作する。

　テレプレゼンスシステム１００とは、複数の空間に存在するユーザ間のコミュニケーションのために双方向通信を行うシステムである。図２Ａに示すようにテレプレゼンスシステム１００Ａは空間Ａに設置され、図２Ｂに示すようにテレプレゼンスシステム１００Ｂは空間Ａとは異なる空間である空間Ｂに設置されている。テレプレゼンスシステム１００Ａは、そのテレプレゼンスシステム１００Ａが設置されている空間に存在する人物と、テレプレゼンスシステム１００Ｂが設置されている空間に存在する人物とが映像および音声でコミュニケーションをとるために用いられるものである。同様に、テレプレゼンスシステム１００Ｂは、そのテレプレゼンスシステム１００Ｂが設置されている空間に存在する人物と、テレプレゼンスシステム１００Ａが設置されている空間に存在する人物とが映像および音声でコミュニケーションをとるために用いられるものである。

［１－２．テレプレゼンスシステム１００の構成］
　次に図３を参照してテレプレゼンスシステム１００Ａとテレプレゼンスシステム１００Ｂの構成について説明する。テレプレゼンスシステム１００Ａは、情報処理装置２００Ａ、端末装置３００Ａ、ディスプレイ４００Ａ、カメラ５００Ａ、マイクロフォンアレイ６００Ａ、スピーカ７００Ａ、センサ８００Ａにより構成されている。

　情報処理装置２００Ａは端末装置３００Ａにおいて動作し、本技術における処理を行うものである。情報処理装置２００の構成は後述する。

　端末装置３００Ａは、制御部３０１Ａ、記憶部３０２Ａ、インターフェース３０３Ａ、入力部３０４Ａを備えて構成されている。

　制御部３０１Ａは、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）およびＲＯＭ（Read Only Memory）などから構成されている。ＣＰＵは、ＲＯＭに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置３００Ａの全体および各部の制御を行う。

　記憶部３０２Ａは、例えばハードディスク、フラッシュメモリなどの大容量記憶媒体である。記憶部３０２には端末装置３００Ａで使用する各種アプリケーションやデータなどが格納されている。

　インターフェース３０３Ａは端末装置３００Ａとサーバ装置１０００Ａとの間のインターフェースである。インターフェース３０３Ａは、有線または無線の通信インターフェースを含みうる。より具体的には、有線または無線の通信インターフェースは、３Ｇ／ＬＴＥなどのセルラー通信、Ｗｉ－Ｆｉ、Bluetooth（登録商標）、ＮＦＣ（Near Field Communication）、イーサネット（登録商標）、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）、ＵＳＢ（Universal Serial Bus）などを含みうる。また、インターフェース３０３Ａは、端末装置３００Ａ内のバスや、プログラムモジュール内でのデータ参照などを含みうる。

　入力部３０４Ａは、端末装置３００Ａに対してユーザが各種指示などを入力するためのものである。入力部３０４Ａに対してユーザから入力がなされると、その入力に応じた制御信号が生成されて制御部３０１Ａに供給される。そして、制御部３０１Ａはその制御信号に対応した各種処理を行う。入力部３０４Ａは物理ボタンの他、タッチパネル、音声認識による音声入力、人体認識によるジェスチャ入力などがある。

　端末装置３００Ａは以上のようにして構成されている。端末装置３００Ａの具体例としてはパーソナルコンピュータ、スマートフォン、タブレット端末などがある。また、端末装置３００Ａはテレプレゼンスシステム専用の装置として構成されているものでもよい。本技術に係る処理のために必要なプログラムがある場合、そのプログラムは予め端末装置３００Ａにインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。

　端末装置３００Ａには、外部装置としてのディスプレイ４００Ａ、カメラ５００Ａ、マイクロフォンアレイ６００Ａ、スピーカ７００Ａ、センサ８００Ａが接続されている。それら外部装置の接続方法は有線であっても無線であってもよい。

　ディスプレイ４００Ａは、図２に示すように、空間Ｂに設置されたテレプレゼンスシステム１００Ｂのカメラ５００Ｂで撮影された映像を表示するテレプレゼンス用の大型ディスプレイである。テレプレゼンスシステム１００Ｂの端末装置３００Ｂが送信した映像信号はサーバ装置１０００により端末装置３００Ａに送信される。そして、端末装置３００Ａが映像信号に所定の処理を施してディスプレイ４００Ａに出力することによりディスプレイ４００Ａにカメラ５００Ｂで撮影された空間Ｂの映像が表示される。

　カメラ５００Ａはレンズ、撮像素子、映像信号処理回路などから構成され、テレプレゼンスシステム１００Ａが設置されている空間Ａを撮影するためのものである。カメラ５００Ａはディスプレイ４００Ａの前方に広がる空間を撮影することができる位置に設置されている。カメラ５００Ａの撮影により生成された映像信号は端末装置３００Ａのインターフェース３０３Ａからサーバ装置１０００に送信され、サーバ装置１０００から端末装置３００Ｂに送信される。そして、カメラ５００Ａで撮影された映像が空間Ｂに設置されたテレプレゼンスシステム１００Ｂのディスプレイ４００Ｂに表示される。カメラ５００Ａとしては例えばWebカメラなどを用いることができる。なお、以下の説明においてはカメラ５００Ａが撮影した映像をカメラ映像と称する場合がある。

　マイクロフォンアレイ６００Ａはテレプレゼンスシステム１００Ａが設置されている空間Ａにおける音声を収音するためのものである。マイクロフォンアレイ６００Ａは、複数のマイクロフォンにより構成され、複数のマイクロフォンのそれぞれで空間内の音声を収音することができるともに、指向性を任意の方向へ切り替えることができるビームフォーミングマイクロフォンである。また、マイクロフォンアレイ６００Ａは複数のマイクロフォンにより構成されているため、マイクロフォンのゲインを調整することにより、任意のマイクロフォンから出力される音声信号の音量を上げる、または下げることが可能である。本技術ではこのマイクロフォンアレイの特性を利用する。マイクロフォンアレイ６００Ａにより生成された音声信号は端末装置３００Ａのインターフェース３０３Ａからサーバ装置１０００に送信され、サーバ装置１０００から端末装置３００Ｂに送信される。そして、マイクロフォンアレイ６００Ａで収音された映像が空間Ｂに設置されたテレプレゼンスシステム１００Ｂのスピーカ７００Ｂから出力される。

　スピーカ７００Ａは、テレプレゼンスシステム１００Ｂを構成するマイクロフォンアレイ６００Ｂで収音された空間Ｂにおける音声を空間Ａにおいて出力するためのものである。テレプレゼンスシステム１００Ｂの端末装置３００Ｂが送信した音声信号はサーバ装置１０００により端末装置３００Ａに送信される。そして、端末装置３００Ａが音声信号に所定の処理を施してスピーカ７００に出力することによりマイクロフォンアレイ６００Ｂで収音された空間Ｂの音声が出力される。

　センサ８００Ａは、ＲＧＢ（Red,Green,Blue）または単色のカラー映像を撮影可能なカメラ、ＴｏＦ（Time of Flight）などを利用した深度センサ、マイクロフォンなどの複数のセンサ機能を備えたセンサ装置である。センサ８００Ａとして例えば、カメラ機能および深度センサ機能を備えるAzure kinect（登録商標）などを用いることができる。センサ８００Ａは一つの空間に複数設置してもよい。なお、センサ８００Ａは距離センサ（LiDAR（light detection and ranging）など）、ＩＲカメラ、温度センサ、その他各種の環境センサなどの機能を備えていてもよい。以下の説明ではセンサ８００Ａが取得する映像や深度情報などを総じてセンサ情報と称する。

　センサ８００Ａは、空間Ａにおけるディスプレイ４００Ａが設置されている位置から最も離れた位置、空間の後方端中央、ディスプレイ４００Ａの近傍、その空間を形成する部屋の天井など、空間全体を撮影することができる位置に設置されている。センサ８００Ａの位置は空間Ａの形状や状態、空間内にいる人物の人数や位置、テレプレゼンスシステム１００Ａの使用目的などに応じて設置位置を変更してもよい。センサ８００Ａは１つの空間に複数設置してもよい。

　なお、ディスプレイ４００Ａ、カメラ５００Ａ、マイクロフォンアレイ６００Ａ、スピーカ７００Ａは端末装置３００Ａが一体的に備えているものでもよい。また、ディスプレイ４００Ａ、カメラ５００Ａおよびスピーカ７００Ａが一体的に構成され、それが端末装置３００Ａと接続されているという構成でもよい。さらに、ディスプレイ４００Ａ、カメラ５００Ａ、マイクロフォンアレイ６００Ａおよびスピーカ７００Ａが一体的に構成され、それが端末装置３００Ａと接続されている、という構成でもよい。

　図３Ｂに示すようにテレプレゼンスシステム１００Ｂもテレプレゼンスシステム１００Ａと同様に構成されている。

［１－３．情報処理装置２００の構成］
　次に図４を参照してテレプレゼンスシステム１００Ａにおける情報処理装置２００Ａの構成について説明する。情報処理装置２００Ａは、人体検出部２０１Ａ、距離算出部２０２Ａ、位置判定部２０３Ａ、音量調整部２０４Ａを備えて構成されている。

　人体検出部２０１Ａは、公知の人体検出技術を用いて、カメラ５００Ａが撮影したカメラ映像やセンサ８００Ａで取得したセンサ情報からテレプレゼンスシステム１００Ａが設置されている空間Ａに存在する人物の位置と人数を検出する。また、人体検出部２０１Ａは検出した人体を追跡するトラッキング処理も行う。人体検出技術としては、機械学習やディープラーニングによる方法、テンプレートマッチングによる方法、人の動きや姿勢も検出することができる骨格検出（ボーン検出）に基づく方法、ＡＩ（Artificial Intelligence）を用いる方法などがある。これらの手法を組み合わせて検出精度を高めるようにしてもよい。人体を検出することができればどのような方法を採用してもよい。人体検出部２０１Ａは特許請求の範囲における情報検出部に相当するものである。

　距離算出部２０２Ａは、人体検出部２０１Ａにより検出された空間Ａに存在する人物とディスプレイ４００Ａとの間の距離を算出する。予めセンサ８００Ａに対するディスプレイ４００Ａの位置を決めておくことにより、センサ８００Ａに対するディスプレイ４００Ａの位置（座標）を特定することができる。また、センサ８００Ａが備える深度センサで人物の位置（座標）を取得することができる。よって、距離算出部２０２Ａはセンサ８００Ａに対するディスプレイ４００Ａの位置（座標）と人物の位置（座標）とからディスプレイ４００Ａと人物の間の距離を算出することができる。また、同様にして距離算出部２０２Ａは人体検出部２０１Ａにより検出された空間Ａに存在する人物とマイクロフォンアレイ６００Ａを構成する各マイクロフォンとの間の距離を算出する。

　位置判定部２０３Ａは、人体検出部２０１Ａにより検出された人物がカメラ５００Ａの撮影範囲（画角）内にいるか否かを判定する。カメラ５００Ａの画角情報はカメラ５００Ａが備えるレンズの仕様やカメラ５００Ａの設定情報などから予め取得するできるため、予め空間Ａにおけるカメラ５００Ａの撮影範囲を把握することができる。そして、そのカメラ５００Ａの撮影範囲と人体検出部２０１Ａが検出した人物の位置（座標）を照らし合わせることにより人物がカメラ５００Ａの撮影範囲内にいるか否かを判定することができる。この処理のためには予めカメラ５００Ａの撮影範囲を予め位置判定部２０３Ａに登録しておく必要がある。

　音量調整部２０４Ａは、位置判定部２０３Ａの判定結果に基づいてマイクロフォンアレイ６００Ａから出力される音声信号のゲインを大きくするまたは小さくすることにより、空間Ｂに設置されたテレプレゼンスシステム１００Ｂのスピーカ７００Ｂから出力される音声の音量を調整する。音量調整部２０４Ａは、マイクロフォンアレイ６００Ａを構成する複数のマイクロフォンのうちの特定のマイクロフォンから出力される音声信号を選択してそのゲインを調整することができる。音量調整部２０４Ａの処理の詳細については後述する。

　情報処理装置２００Ａは以上のようにして構成されている。情報処理装置２００Ａは単体の装置として構成してもよいし、コンピュータとしての機能を有する端末装置３００Ａにおいてプログラムを実行させることにより実現してもよい。そのプログラムは予め端末装置３００にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザなどがインストールするようにしてもよい。

　テレプレゼンスシステム１００Ｂを構成する情報処理装置２００Ｂも情報処理装置２００Ａと同様に構成されている。

［１－４．サーバ装置１０００の構成］
　次に図５を参照してサーバ装置１０００の構成について説明する。サーバ装置１０００はテレプレゼンスシステム１００のユーザに遠隔コミュニケーションシステム１０を実現するためのクラウドサービスを提供するためのものである。

　サーバ装置１０００は少なくとも、制御部１００１、記憶部１００２、インターフェース１００３を備えて構成されている。これらは端末装置３００Ａが備えるものと同様のものであるため説明を省略する。

　またサーバ装置１０００は、受信処理部１００４、送信処理部１００５、装置登録部１００６、マッチング部１００７という処理ブロックを備えている。

　受信処理部１００４は、端末装置３００Ａおよび端末装置３００Ｂから送信された映像信号、音声信号、その他各種情報などを受信する処理を行うものである。

　送信処理部１００５は、端末装置３００Ａから送信された映像信号、音声信号、その他各種情報などを端末装置３００Ｂに送信する処理を行うものである。また、送信処理部１００５は、端末装置３００Ｂから送信された映像信号、音声信号、その他各種情報などを端末装置３００Ａに送信する処理も行う。

　装置登録部１００６は、サーバ装置１０００に接続されており遠隔コミュニケーションシステム１０を構成する各端末装置３００を識別するための情報をデータベースに保存する。

　マッチング部１００７は、端末装置３００からの要求により現在利用可能な（オンラインである）装置の中から最適な装置を検索し、それぞれが接続できるように端末装置３００同士のマッチングを行う。

［１－５．第１の実施の形態の第１の使用例］
　次に第１の実施の形態における遠隔コミュニケーションシステム１０の第１の使用例について説明する。

　第１の使用例では図６に示すように、テレプレゼンスシステム１００Ａを構成するディスプレイ４００Ａ、カメラ５００Ａ、マイクロフォンアレイ６００Ａ、センサ８００Ａが空間Ａに設置されている。なお、端末装置３００Ａ、スピーカ７００Ａも空間Ａに設置されているが、図示の都合上省略する。

　また、図示は省略するがテレプレゼンスシステム１００Ｂを構成する端末装置３００Ｂ、ディスプレイ４００Ｂ、カメラ５００Ｂ、マイクロフォンアレイ６００Ｂ、スピーカ７００Ｂ、センサ８００Ｂが空間Ｂに設置されているとする。空間Ａと空間Ｂは物理的に離れた空間である。

　空間Ａにおいて、カメラ５００Ａはディスプレイ４００Ａの前方に広がる空間を撮影することができる位置に設置されている。なお、この配置はあくまで一例でありカメラ５００Ａの位置は図６に示す位置に限定されるものではない。

　センサ８００Ａは空間Ａにおけるディスプレイ４００Ａの設置位置の反対側である後方端中央に設置されている。

　また、マイクロフォンアレイ６００Ａはディスプレイ４００Ａの近傍に設置されている。図６においてマイクロフォンアレイ６００Ａはディスプレイ４００Ａの横に設置されているが、これは図示の都合上の位置であり、マイクロフォンアレイ６００Ａの位置は図６の位置に限定されるものではない。マイクロフォンアレイ６００Ａの位置はディスプレイ４００の近傍であればどこでもよい。例えば、マイクロフォンアレイ６００Ａはディスプレイ４００Ａや空間を構成する部屋の天井からぶら下げるなどの方法で設置される。

　第１の使用例では図６に示すように、空間Ａに複数の人物（人物１、人物２）がいるとする。人物１と人物２はカメラ５００Ａの撮影範囲外にいるため、空間Ｂのディスプレイ４００Ｂにはその姿が表示されないが、マイクロフォンアレイ６００Ａの近くで話しているため、その声はマイクロフォンアレイ６００Ａによって収音されて空間Ｂにおいてスピーカ７００Ｂから出力される。

　そうすると、空間Ｂにいる人物にとってはディスプレイ４００Ｂに誰も表示されていないにも関わらず、空間Ａにおける人物の声がスピーカ７００Ｂから出力されて聞こえることになる。これにより、空間Ｂにいる人物にとっては、誰が話しているのかわからない、声は聞こえるが誰に向けて話しているのかわからない、うるさく感じて注意したくとも相手の姿が見えないので誰に対して注意したらよいのかわからない、などの問題が生じる。

　また、空間Ａにいる人物１と人物２にとっては、空間Ｂに向けて話していないにも関わらず声が空間Ｂにおけるスピーカ７００Ｂから出力されてしまうという問題がある。また、空間Ａにいる人物１、人物２はカメラ５００Ａの撮影範囲外にいるため、自分たちの声が空間Ｂにおけるマイクロフォンアレイ６００Ｂから出力されているとは思わないという問題もある。第１の使用例ではこのような問題を解決する。

　図７を参照して第１の使用例における処理について説明する。

　まずステップＳ１１１で、テレプレゼンスシステムＡの情報処理装置２００Ａは、空間Ａに設置されているセンサ８００Ａからのセンサ情報の取得を開始する。センサ８００Ａからはリアルタイムで情報処理装置２００Ａにセンサ情報が出力され続ける。

　次にステップＳ１１２で、人体検出部２０１Ａがセンサ情報に基づいて空間Ａに存在する人物の人数と位置を検出する。

　次にステップＳ１１３で、距離算出部２０２Ａが人体検出部２０１Ａにより検出された人物とディスプレイ４００Ａとの距離を算出する。

　次にステップＳ１１４で、位置判定部２０３Ａが人体検出部２０１により検出された人物がカメラ５００Ａの撮影範囲内に存在しているか否かを判定する。

　図６に示すように人物１と人物２がカメラ５００Ａの撮影範囲内に存在していない場合、ステップＳ１１５で音量調整部２０４Ａがマイクロフォンアレイ６００Ａから出力された音声信号のゲインを下げる。この際、マイクロフォンアレイ６００Ａを構成する複数のマイクロフォンのうち、人物１と人物２に最も近いマイクロフォンからの音声信号に所定の倍率をかけて音声信号のゲインを下げる。音量調整部２０４は例えばディスプレイ４００Ａから人物までの距離に反比例してゲインの低減量が大きくなるようにしてもよい。

　人物とマイクロフォンの距離は上述したように距離算出部２０２Ａで算出することができる。マイクロフォンアレイ６００Ａを構成するマイクロフォンのうち、検出された人物に最も近いマイクロフォンは、検出された人物の位置と、マイクロフォンアレイ６００Ａを構成するマイクロフォンの位置に基づいて特定することができる。その際、複数の人物の位置の略中心を人物の位置の基準としてもよいし、複数の人物のうち最もマイクロフォンアレイ６００に近い人物の位置を基準としてもよい。

　なお、検出された全ての人物がカメラ５００Ａの撮影範囲外にいる場合には、マイクロフォンアレイ６００Ａを構成する全てのマイクロフォンからの音声信号のゲインを下げるようにしてもよい。

　一方、検出された人物がカメラ５００Ａの撮影範囲内に存在する場合には音量調整部２０４Ａは処理を行わない。

　次にステップＳ１１６で、ネットワークを介して端末装置３００Ａから端末装置３００Ｂに対して、カメラ５００Ａの撮影で生成された映像信号と、マイクロフォンアレイ６００Ａの収音で生成され、音量調整部２０４Ａによる処理が施された音声信号が送信される。

　次にステップＳ１１７でテレプレゼンスシステムＢにおいて、端末装置３００Ａから送信された映像信号が映像としてディスプレイ４００Ｂに表示され、音声信号がスピーカ７００Ｂから音声として出力される。

　以上の処理がテレプレゼンスシステム１００Ａとテレプレゼンスシステム１００Ｂで遠隔コミュニケーションを実行する間継続される。

　第１の実施の形態の第１の使用例では、空間Ａにおいてカメラ５００Ａの撮影範囲外にいる人物に近いマイクロフォンから出力された音声信号のゲインを下げたため、空間Ｂのスピーカ７００Ｂから出力される空間Ａの音声の音量は小さくなる。これにより、空間Ｂにいる人にとってディスプレイ４００Ｂに誰も表示されていないにも関わらず、空間Ａにいる人の声が聞こえるという問題を解決することができる。また、空間Ａにいる人にとっては、空間Ｂに向けて話していないにも関わらず、声が空間Ｂにいる人物に聞かれてしまう、という問題を解決することができる。

　なお、上述の説明では空間Ａにおけるテレプレゼンスシステム１００Ａの情報処理装置２００Ａの処理を説明したが、テレプレゼンスシステム１００Ｂの情報処理装置２００Ｂも同様の処理を行ってもよい。

［１－６．第１の実施の形態の第２の使用例］
　次に第１の実施の形態における遠隔コミュニケーションシステム１０の第２の使用例について説明する。空間Ａにおけるテレプレゼンスシステム１００Ａの設置と空間Ｂにおけるテレプレゼンスシステム１００Ｂの設置は第１の使用例と同様である。

　第２の使用例は、図８に示すように空間Ａにおいてカメラ５００Ａの撮影範囲外であり、かつ、マイクロフォンアレイ６００Ａに近い位置に複数の人物（人物１、人物２）がいるとする。さらに、カメラ５００Ａの撮影範囲内であり、かつ、人物１と人物２よりもマイクロフォンアレイ６００Ａから遠い位置にも複数の人物（人物３、人物４）がいるとする。カメラ５００Ａの撮影範囲外にいる人物１と人物２に最も近いマイクロフォンからの音声信号のゲインを下げるのは第１の使用例と同様である。

　一方、人物３と人物４はカメラ５００Ａの撮影範囲内にいるため、空間Ｂのディスプレイ４００Ｂに姿が表示されるにも関わらず、マイクロフォンアレイ６００Ａから遠い位置にいるため、その声は空間Ｂのスピーカ７００Ｂから小さい音量で出力されてしまい、空間Ｂにいる人にとっては声が聞き取りにくいという問題が生じる。第２の使用例ではこのような問題を解決する。

　図９を参照して第２の使用例における処理について説明する。ステップＳ１１１からステップＳ１１４までは第１の使用例と同様である。

　次にステップＳ１２１で音量調整部２０４Ａは、マイクロフォンアレイ６００Ａを構成するマイクロフォンのうち、撮影範囲外にいる人物１および人物２に最も近いマイクロフォンから出力された音声信号のゲインを小さくする。

　またステップＳ１２２で音量調整部２０４Ａは、マイクロフォンアレイ６００Ａを構成するマイクロフォンのうち、撮影範囲内にいる人物３および人物４に最も近いマイクロフォンから出力される音声信号のゲインを大きくする。例えば、ディスプレイ４００Ａから人物までの距離に比例してゲインの増幅量が大きくなるようにしてもよい。人物に最も近いマイクロフォンを特定する際に、複数の人物の位置の略中心を人物の位置の基準としてもよいし、複数の人物のうち最もマイクロフォンアレイ６００に近い人物の位置を基準としてもよいのは第１の使用例と同様である。

　なお、ステップＳ１２１とステップＳ１２２は逆の順序でもよいし、同時またはほぼ同時に行ってもよい。

　次にステップＳ１２３で、ネットワークを介して端末装置３００Ａから端末装置３００Ｂに対して、カメラ５００Ａの撮影で生成された映像信号と、マイクロフォンアレイ６００Ａの収音で生成され、音量調整部２０４Ａによる処理が施された音声信号が送信される。

　次にステップＳ１２４でテレプレゼンスシステムＢにおいて、端末装置３００Ａから送信された映像信号が映像としてディスプレイ４００Ｂに表示され、音声信号がスピーカ７００Ｂから音声として出力される。

　第１の実施の形態の第２の使用例では、空間Ａにおいてカメラ５００Ａの撮影範囲外にいる人物に近いマイクロフォンからの音声信号のゲインを小さくしたため、空間Ｂのスピーカ７００Ｂから出力されるカメラ５００Ａの撮影範囲外の人物の声の音量は小さくなる。また、空間Ａにおいてカメラ５００Ａの撮影範囲内にいる人物に近いマイクロフォンからの音声信号のゲインを大きくしたため、空間Ｂのスピーカ７００Ｂから出力されるカメラ５００Ａの撮影範囲内の人物の声の音量は大きくなる。これにより、空間Ａにおいてカメラ５００Ａの撮影範囲内にいる人物は空間Ｂにおけるディスプレイ４００Ｂに姿が表示されているにも関わらず空間Ｂにいる人にとっては声が聞き取りにくいという問題を解決することができる。

＜２．第２の実施の形態＞
［２－１．情報処理装置２００の構成］
　次に本技術の第２の実施の形態について説明する。図１０に示すように第２の実施の形態においては情報処理装置２００Ａが顔検出部２０５Ａ、視線検出部２０６Ａ、注目度算出部２０７Ａを備える。この点で第２の実施の形態は第１の実施の形態と異なる。それ以外の情報処理装置２００Ａの構成、遠隔コミュニケーションシステム１０、テレプレゼンスシステム１００Ａ、テレプレゼンスシステム１００Ｂ、サーバ装置１０００の構成は第１の実施の形態と同様である。

　顔検出部２０５Ａは、公知の顔検出技術を用いて、カメラ５００Ａが撮影した映像やセンサ８００Ａで取得したセンサ情報から空間Ａに存在する人物の顔を検出する。また、顔検出部２０５Ａは検出した顔を追跡するトラッキング処理も行う。顔検出技術としては、機械学習やディープラーニングによる方法、テンプレートマッチングによる方法、輝度分布情報や色分布情報や人間の顔の特徴量等に基づく方法、ＡＩ（Artificial Intelligence）を用いる方法などがある。また、これらの手法を組み合わせて検出精度を高めるようにしてもよい。顔を検出することができればどのような方法を採用してもよい。顔検出部２０５Ａは表情の検出や、口の動きに基づいて話しているか否かの検出なども行うことができる。

　視線検出部２０６Ａは、公知の視線検出技術を用いて、カメラ５００Ａが撮影した映像やセンサ８００Ａで取得したセンサ情報から空間Ａに存在する人物の視線を検出する。また、視線検出部２０６Ａは検出した視線を追跡するトラッキング処理も行う。視線検出技術としては、目の基準点とその基準点に対する動点の位置に基づく方法、眼の瞳孔や虹彩に基づく手法、赤外線ＬＥＤを照射して赤外線対応撮像素子で撮影者の眼球を撮影した画像に基づいて視線を検出する方法などがある。視線を検出することができればどのような方法を採用してもよい。顔検出部２０５Ａと視線検出部２０６Ａは特許請求の範囲における情報検出部に相当するものである。

　注目度算出部２０７Ａは、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Ａにいる人物のディスプレイ４００Ａに対する注目度、すなわち他の空間（空間Ｂ）への注目度を算出する。

　さらに注目度算出部２０７Ａは、複数の人物により構成されるグループについて、そのグループに含まれる全ての人物の注目度の平均をそのグループの注目度として算出することもできる。例えば、人体検出部２０１Ａにより検出された複数の人物の間の距離が所定の閾値以下であるそれらの複数の人物は共通のグループに含まれるとすることができる。第２の実施の形態では音量調整部２０４Ａはこの注目度に基づいてマイクロフォンアレイ６００Ａから出力された音声信号のゲインの調整を行う。

［２－２．第２の実施の形態の使用例］
　次に第２の実施の形態における遠隔コミュニケーションシステム１０の使用例について説明する。

　第２の実施の形態の使用例においては、図１１に示すようにセンサ８００Ａがディスプレイ４００Ａの近傍に設置されているとする。その点以外の空間Ａにおけるテレプレゼンスシステム１００Ａの設置と空間Ｂにおけるテレプレゼンスシステム１００Ｂの設置は第１の実施の形態と同様である。

　空間Ａにおいて複数の人物（人物１、人物２）がテレプレゼンスシステム１００の存在を意識することなく、さらにディスプレイ４００Ａに注目することもなく会話をしているとする。この人物１と人物２の声をマイクロフォンアレイ６００Ａが収音してその声が空間Ｂのスピーカ７００Ｂから出力されると、空間Ａの人物１と人物２の声が意図せず空間Ｂにいる人物に聞かれてしまうことになる。もし、人物１と人物２の会話の内容に秘匿情報が含まれている場合、情報漏洩といったセキュリティ事故になるおそれもある。第２の実施の形態の使用例ではこのような問題を解決する。

　図１２を参照して第２の実施の形態の使用例における処理について説明する。ステップＳ１１１からステップＳ１１３までは第１の実施の形態の第１の使用例と同様である。

　次にステップＳ２１１で、人体検出部２０１Ａが検出した人物に対して顔検出部２０５Ａが顔の向きを検出する。また、人体検出部２０１Ａが検出した人物に対して視線検出部２０６Ａが視線の向きを検出する。

　次にステップＳ２１２で、注目度算出部２０７Ａが顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Ａにいる人物のディスプレイ４００Ａに対する注目度を算出する。

　例えば、注目度を所定の幅を持つ値として定義し、図１３Ａや図１３Ｂに示すように顔の向きと視線の向きの両方またはいずれか一方がディスプレイ４００Ａに向いている状態を注目度が最大値である状態とする。顔の向きと視線の向きがディスプレイ４００Ａに向いているということは、人物はディスプレイ４００Ａ、すなわち空間Ｂに注目しているといえるからである。

　そして、図１３Ｃおよび図１３Ｄに示すように、顔の向きと視線の向きの両方またはいずれか一方がディスプレイ４００Ａに向いていない状態においては、ディスプレイ４００Ａに対する顔または視線の向きが逸れていく（角度θが大きくなる）に従い注目度の値も小さくしていく。よって、図１３Ｃの状態よりも図１３Ｄの状態のほうが注目度は小さい値となる。これは図１３Ａや図１３Ｂの状態に比べて人物の顔がディスプレイ４００Ａに向いておらず、ディスプレイ４００Ａに対する注目度は低いと考えられるからである。

　なお、図１３では人物が右方向を向いている例で説明を行ったが、左方向を向いている場合も同様にして顔の向きの角度で注目度を算出する。

　なお、注目度算出部２０７は顔の向きと視線の向きのいずれか一方のみに基づいて注目度を算出してもよいし、顔の向きと視線の向きの両方に基づいて総合的に注目度を算出してもよい。

　図１２の説明に戻る。次にステップＳ２１３で音量調整部２０４Ａは、マイクロフォンアレイ６００Ａを構成するマイクロフォンのうち、注目度が所定の閾値以下である人物に最も近いマイクロフォンから出力される音声信号のゲインを小さくする。

　次にステップＳ２１４で、ネットワークを介して端末装置３００Ａから端末装置３００Ｂに対して、カメラ５００Ａの撮影で生成された映像信号と、マイクロフォンアレイ６００の収音で生成され、音量調整部２０４による処理が施された音声信号が送信される。

　次にステップＳ２１５でテレプレゼンスシステムＢにおいて、端末装置３００Ａから送信された映像信号が映像としてディスプレイ４００Ｂに表示され、音声信号がスピーカ７００Ｂから音声として出力される。

　第２の実施の形態ではテレプレゼンスシステム１００Ａにおいて、注目度が閾値以下である人物に近いマイクロフォンからの音声信号のゲインを小さくしたため、テレプレゼンスシステム１００Ｂのスピーカ７００Ｂから出力される空間Ａにおける注目度が閾値以下の人物の声の音量は小さくなる。これにより、空間Ａにおいてディスプレイ４００Ａに対する注目度が低い人物の音声が空間Ｂのスピーカ７００Ｂから大きな音量で出力されて意図せずに空間Ｂにいる人物に聞かれてしまうという問題を解決することができる。なお、音量調整部２０４Ａはマイクロフォンアレイ６００Ａを構成するマイクロフォンのうち、注目度が所定の閾値以上である人物に最も近いマイクロフォンから出力される音声信号のゲインを大きくすることも可能である。

　上述の説明では空間Ａにおけるテレプレゼンスシステム１００Ａの情報処理装置２００Ａの処理を説明したが、テレプレゼンスシステム１００Ｂの情報処理装置２００Ｂも同様の処理を行ってもよい。

　注目度算出部２０７はディスプレイ４００Ａに対する顔の向きに限られず、各人物がどの人物に向かって話しているかに基づいて注目度を算出してもよい。各人物がどの人物に向かって話しているかは、人体検出部２０１Ａ、顔検出部２０５Ａ、視線検出部２０６Ａの検出結果に基づいて推定することができる。例えば、特定の人物について、顔検出部２０５Ａで検出したその人物の顔が向いている方向や、視線検出部２０６Ａで検出したその人物の視線が向いている方向に人体検出部２０１Ａで検出した他の人物が存在している場合、その特定の人物は他の人物に注目しており、ディスプレイ４００Ａ、すなわち空間Ｂには注目していないとして注目度を低く算出する。

　空間Ａに存在する複数の人物をグループとしてそのグループの注目度を算出し、そのグループの注目度に基づいてグループに最も近いマイクロフォンの音声信号を調整するようにしてもよい。上述したように、グループは、例えば人体検出部２０１により検出された複数の人物の位置間の距離が所定の閾値以下であるそれら複数の人物は共通のグループに含まれるとすることができる。また注目度算出部２０７は、複数の人物により構成されるグループについて、そのグループに含まれる全ての人物それぞれの注目度の平均をそのグループの注目度として算出することもできる。

＜３．第３の実施の形態＞
［３－１．情報処理装置２００の構成］
　次に本技術の第３の実施の形態について説明する。図１４に示すように第３の実施の形態において情報処理装置２００Ａは顔検出部２０５Ａ、視線検出部２０６Ａ、注目領域特定部２０８Ａ、収音指示部２０９Ａを備える。この点で第３の実施の形態は第１の実施の形態と異なる。それ以外の情報処理装置２００Ａの構成、遠隔コミュニケーションシステム１０、テレプレゼンスシステム１００Ａ、テレプレゼンスシステム１００Ｂ、サーバ装置１０００の構成は第１の実施の形態と同様である。空間Ｂに設置されているテレプレゼンスシステム１００Ｂを構成する情報処理装置２００Ｂは少なくとも音量調整部２０４Ｂを備えていればよく、それ以外の構成は情報処理装置２００Ａと同様でもよいし、第１または第２の実施の形態における情報処理装置２００Ａと同様でもよい。

　注目領域特定部２０８Ａは、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Ａに存在する人物がディスプレイ４００Ａのどこに注目しているか、すなわち、ディスプレイ４００Ａに表示されている空間Ｂのどこに注目しているかを特定する。

　図１５に示すように、空間Ａのディスプレイ４００Ａの表示領域を複数の領域に分割し、各領域が空間Ｂにおけるカメラ５００Ｂの撮影範囲のどこに対応しているかを予め対応付けておく。図１５の例ではディスプレイ４００Ａの表示領域を縦方向にサイズが等しい３つの領域（領域Ａ１、領域Ａ２、領域Ａ３）に分割し、各領域が表示するカメラ５００Ｂの撮影範囲（領域Ｂ１、Ｂ２、Ｂ３）と予め対応付けておく。

　図１５では領域Ａ１と領域Ｂ１、領域Ａ２と領域Ｂ２、領域Ａ３と領域Ｂ３がそれぞれ対応している。よって、空間Ｂの領域Ｂ１の様子はディスプレイ４００Ａの領域Ａ１に表示され、空間Ｂの領域Ｂ２の様子はディスプレイ４００Ａの領域Ａ２に表示され、空間Ｂの領域Ｂ３の様子はディスプレイ４００Ａの領域Ａ３に表示される。なお、図１５に示す分割数はあくまで一例であり、本技術は特定の分割数に限定されるものではない。

　例えば、図１５の空間Ａに示すように空間Ａの人物１の顔および視線がディスプレイ４００Ａの左側の領域Ａ１に向いている場合、注目領域特定部２０８Ａは、人物１はディスプレイ４００Ａの領域Ａ１、すなわち空間Ｂの領域Ｂ１に注目していると特定する。

　なお、注目領域特定部２０８Ａはディスプレイ４００Ａのいずれかの領域に対する顔と視線が向いている時間（視線の滞留時間）の長さが所定値以上である場合、その注目領域を特定することもできる。

　収音指示部２０９Ａは、注目領域特定部２０８Ａが特定した注目領域に基づいて空間Ａのテレプレゼンスシステム１００Ａから空間Ｂのテレプレゼンスシステム１００Ｂに対して空間Ｂのどの領域に向けて収音するかを指示する収音指示情報を生成する。この収音指示情報はネットワークを介してテレプレゼンスシステム１００Ａからテレプレゼンスシステム１００Ｂに送信される。そして、テレプレゼンスシステム１００Ｂではその収音指示に基づいてマイクロフォンアレイ６００Ｂで収音を行う。

　顔検出部２０５Ａ、視線検出部２０６Ａは第２の実施の形態と同様のものである。

［３－２．第３の実施の形態の使用例］
　次に第３の実施の形態における遠隔コミュニケーションシステム１０の使用例について説明する。

　第３の使用例においては、第２の使用例と同様に図１６に示すようにセンサ８００Ａがディスプレイ４００Ａの近傍に設置されているとする。その点以外の空間Ａにおけるテレプレゼンスシステム１００Ａの設置と空間Ｂにおけるテレプレゼンスシステム１００Ｂの設置は第２の実施の形態と同様である。

　空間Ａに人物１が存在しているとする。また、空間Ｂにおいて複数の人物（人物２、人物３、人物４）が存在しているとする。空間Ａの人物１と空間Ｂの人物２が遠隔コミュニケーションシステム１０を利用して会話をしている場合、空間Ｂの他の人物（人物３、人物４）の話し声をマイクロフォンアレイ６００Ｂが集音して空間Ａのスピーカ７００Ａから出力されることにより空間Ａの人物１にとって空間Ｂの人物２の声が聞き取りにくい場合がある。すなわち、会話とは関係のない空間Ｂの人物（人物３と人物４）の声により会話が邪魔されて会話が聞き取りにくいという場合である。第３の実施の形態ではこのような問題を解決する。

　図１７を参照して第１の使用例における処理について説明する。ステップＳ１１１からステップＳ１１３までは第１の実施の形態の第１の使用例と同様である。

　次にステップＳ３１１で、注目領域特定部２０８Ａが顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Ａにおいて人体検出部２０１が検出した人物１がディスプレイ４００Ａの表示領域のどの領域に注目しているかを特定する。

　次にステップＳ３１２で、収音指示部２０９Ａは、注目度算出部２０７Ａが特定した注目領域に基づいて収音指示を生成する。

　空間Ａの人物１のディスプレイ４００Ａの領域Ａ２に注目している場合、それは人物１が空間Ｂにおける領域Ｂ２に注目していることを示している。そこで収音指示部２０９Ａは、空間Ｂにおけるマイクロフォンアレイ６００Ｂを構成する複数のマイクロフォンのうち、空間Ｂの領域Ｂ２に最も近いマイクロフォンのゲインを上げるように収音指示を生成する。なお、このためには予め領域Ｂ１乃至Ｂ３とマイクロフォンアレイ６００Ｂを構成する各マイクロフォンを位置に基づいて対応付けておく必要がある。

　次にステップＳ３１３で、ネットワークを介してテレプレゼンスシステム１００Ａからテレプレゼンスシステム１００Ｂに対して、収音指示が送信される。

　次にステップＳ３１４で、テレプレゼンスシステム１００Ａから送信された収音指示情報を受信したテレプレゼンスシステム１００Ｂにおいて、音量調整部２０４Ｂは収音指示情報に基づいて、マイクロフォンアレイ６００Ｂを構成するマイクロフォンのゲインを調整する。

　図１６の例では、空間Ａの人物１はディスプレイ４００Ａの中央の領域Ａ２、すなわち空間Ｂの中央の領域Ｂ２に注目しているため、音量調整部２０４はマイクロフォンアレイ６００Ｂを構成する複数のマイクロフォンのうち、空間Ｂの領域Ｂ２に最も近いマイクロフォンから出力された音声信号のゲインを上げる。

　次にステップＳ３１５で、ネットワークを介してテレプレゼンスシステム１００Ｂからテレプレゼンスシステム１００Ａに対して、カメラ５００Ｂの撮影で生成された映像信号と、マイクロフォンアレイ６００Ｂの収音で生成されて、音量調整部２０４で処理が施された音声信号が送信される。

　次にステップＳ３１６で、テレプレゼンスシステム１００Ｂから送信された映像信号と音声信号を受信したテレプレゼンスシステム１００Ａにおいて、映像信号が映像としてディスプレイ４００Ａに表示され、音声信号がスピーカ７００Ａから音声として出力される。

　第３の実施の形態では、空間Ａの人物が注目している空間Ｂの領域に対応するマイクロフォンからの音声信号のゲインを大きくするため、スピーカ７００Ａから出力される、空間Ａの人物が注目している空間Ｂの人物の声の音量が大きくなる。これにより会話している人物の声が大きく出力されて、会話とは関係のない他の人物の声により会話が邪魔されて会話が聞き取りにくいという問題を解決することができる。

　上述の処理では空間Ａの人物が注目している空間Ｂの領域に位置するマイクロフォンからの音声信号のゲインを大きくしたが、それに加えて、または代えて、空間Ａの人物の注目度が低い空間Ｂの領域に位置するマイクロフォンからの音声信号のゲインを小さくしてもよい。これによっても、会話とは関係のない他の人物の声により会話が邪魔されて会話が聞き取りにくいという問題を解決することができる。

　また、収音指示部２０９Ａは空間Ａの人物１のディスプレイ４００Ａに対する注目度がどの領域に対しても高くない場合には空間Ｂのマイクロフォンアレイ６００Ｂを構成する全てのマイクロフォンのゲインを下げるように収音指示を生成してもよい。

　この第３の実施の形態と第１および第２の実施の形態の説明において空間にいる人物の数はあくまで例示であり、本技術は人物が特定の人数である場合に限定されるものではない。

　この第３の実施の形態と第１および第２の実施の形態は例えば、学校における図書室や視聴覚室に設置して生成と生徒がやり取りをしたり、企業の会議室に設置して社員同士でやり取りを行う場合に有用である。また、公共施設の多目的ホールに設置してイベントや話し合いをする場合にも有用である。さらに、離れた土地に住む複数の家族のコミュニケーションにも有用である。

＜４．第４の実施の形態＞
［４－１．遠隔コミュニケーションシステム１０の構成］
　次に本技術の第４の実施の形態について説明する。図１８に示すように第４の実施の形態では、テレプレゼンスシステム１００がＮ対１（多数対単数）という関係で接続されている。ここでは多数側として空間Ａ内における空間Ａ－１、空間Ａ－２、空間Ａ－３、空間Ａ－４にそれぞれテレプレゼンスシステム１００Ａ－１、テレプレゼンスシステム１００Ａ－２、テレプレゼンスシステム１００Ａ－３、テレプレゼンスシステム１００Ａ－４が設置されている。また、単数側として空間Ｂにテレプレゼンスシステム１００Ｂが設置されている。テレプレゼンスシステム１００Ａ－１、テレプレゼンスシステム１００Ａ－２、テレプレゼンスシステム１００Ａ－３、テレプレゼンスシステム１００Ａ－４は相互には接続されている必要はなく、それぞれがサーバ装置１０００を介してテレプレゼンスシステム１００Ｂに接続されている。テレプレゼンスシステム１００Ａ－１乃至Ａ－４の構成は同一である。

［４－２．情報処理装置２００の構成］
　図１９Ａは多数側である情報処理装置２００Ａの構成である。また、図１９Ｂは単数側の情報処理装置２００Ｂの構成である。

　図１９Ａに示すように情報処理装置２００Ａは人体検出部２０１Ａ、距離算出部２０２Ａ、音量調整部２０４Ａ、顔検出部２０５Ａ、視線検出部２０６Ａ、注目度算出部２０７Ａ、表示制御部２１０Ａを備える。人体検出部２０１Ａ、距離算出部２０２Ａ、音量調整部２０４Ａは第１の実施の形態と同様のものである。また、顔検出部２０５、視線検出部２０６は第２の実施の形態におけるものと同様である。

　注目度算出部２０７Ａは、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Ａにおける人物がディスプレイ４００Ａに注目しているか、すなわち、空間Ｂにいる人物に注目しているかを示す注目度を算出する。その際、口の動きに基づいて空間Ａにいる人物が空間Ｂにいる人物に話している、または話しかけようとしていることも考慮して注目度を算出してもよい。

　表示制御部２１０Ａは、空間Ｂに設置されているテレプレゼンスシステム１００Ｂから送信されたフィードバック情報と映像信号を受けてディスプレイ４００Ａにおいて小窓映像表示を行う。小窓映像表示の詳細は後述する。

　図１９Ｂに示すように、テレプレゼンスシステム１００Ｂの情報処理装置２００Ｂは音量調整部２０４Ｂ、表示制御部２１０Ｂ、注目度比較部２１１Ｂを備える。

　注目度比較部２１１Ｂは、複数のテレプレゼンスシステム１００Ａ－１乃至Ａ－４から送信された複数の注目度を比較して、最も高い注目度を送信したテレプレゼンスシステム１００Ａを特定する。

　表示制御部２１０Ｂは、テレプレゼンスシステム１００Ｂに接続されているテレプレゼンスシステム１００Ａの数に応じてディスプレイ４００Ｂの表示領域を分割し、各テレプレゼンスシステム１００Ａから送信された映像信号を各表示領域にそれぞれ表示するよう表示制御を行う。また表示制御部２１０Ｂは、注目度比較部２１１Ｂの比較結果に基づき、最も高い注目度を送信したテレプレゼンスシステム１００Ａから送信された映像信号をディスプレイ４００Ｂに表示するよう表示制御を行う。

　音量調整部２０４Ｂは、注目度比較部２１１Ｂの比較結果に基づき、最も高い注目度を送信したテレプレゼンスシステム１００Ａから送信された音声信号のゲインを上げて音量を大きくする。また、それ以外のテレプレゼンスシステム１００Ａから送信された音声信号は注目度の大きさの順にゲインを下げて音量を小さくする。

　情報処理装置２００Ｂ以外のテレプレゼンスシステム１００Ｂの構成はテレプレゼンスシステムＡ－１乃至Ａ－４と同一である。また、遠隔コミュニケーションシステム１０、テレプレゼンスシステム１００Ａ、テレプレゼンスシステム１００Ｂ、端末装置３００、サーバ装置１０００の構成は第１の実施の形態と同様である。

［４－３．第４の実施の形態の使用例］
　次に第４の実施の形態における遠隔コミュニケーションシステム１０の使用例について説明する。

　第４の実施の形態の使用例では図２０に示すように、空間Ａ内の空間Ａ－１、空間Ａ－２、空間Ａ－３、空間Ａ－４にそれぞれテレプレゼンスシステム１００Ａ－１、テレプレゼンスシステム１００Ａ－２、テレプレゼンスシステム１００Ａ－３、テレプレゼンスシステム１００Ａ－４が設置されている。また、図２１に示すように空間Ｂにおいてはテレプレゼンスシステム１００Ｂが設置されている。

　テレプレゼンスシステム１００Ａ－１乃至Ａ－４とテレプレゼンスシステム１００Ｂのそれぞれの設置方法は第２の実施の形態と同様である。空間Ａにおいては、複数の人物が４つのグループに分かれ、それぞれのグループがテレプレゼンスシステム１００Ａ－１乃至Ａ－４を使用する。各空間Ａ－１乃至空間Ａ－４においては全ての人物はカメラ５００Ａの撮影範囲内かつセンサ８００Ａのセンシング範囲内にいるものとする。また、空間Ｂのテレプレゼンスシステム１００Ｂは一人の人物１が使用する。

　よって図２２Ａに示すように、テレプレゼンスシステム１００Ａ－１乃至Ａ－４のディスプレイ４００Ａにはテレプレゼンスシステム１００Ｂのカメラ５００Ｂで撮影した共通の空間Ｂの映像が表示される。

　また図２２Ｂに示すように、テレプレゼンスシステム１００Ｂのディスプレイ４００Ｂにおける表示はテレプレゼンスシステム１００Ｂに接続されているテレプレゼンスシステム１００の数（この使用例では４つ）に分割され、各分割表示領域にはテレプレゼンスシステムＡ－１乃至Ａ－４の各カメラ５００が撮影した空間Ａ－１乃至Ａ－４の映像が表示されている。この表示は表示制御部２１０Ｂにより行われる。

　この第４の情報処理の使用例では、このような表示により空間Ｂにおけるテレプレゼンスシステム１００Ｂを使用する人物１が、テレプレゼンスシステム１００Ａ－１を使用する人物、テレプレゼンスシステム１００Ａ－２を使用する人物、テレプレゼンスシステム１００Ａ－３を使用する人物、テレプレゼンスシステム１００Ａ－４を使用する人物の様子を見ながら全ての人物に対して同時に話をすることもできるし、いずれかの空間の人物と個別に話すこともできる。

　しかしこの状態では、空間Ｂの人物１は、空間Ａ―１乃至Ａ－４にいる人物のうちの誰が自分に話しかけてきているのかわからない場合がある。第４の実施の形態ではこのような問題を解決する。

　図２３を参照して第４の実施の形態の使用例における処理について説明する。詳しくは後述するが、ここではテレプレゼンスシステム１００Ａ－１乃至Ａ－４から出力される注目度のうち、テレプレゼンスシステムＡ－１が出力する注目度が最も高いと仮定して説明を行う。それによりテレプレゼンスシステム１００Ａ－２乃至Ａ－４における処理は同一になるため、図２３においてはまとめて図示する。

　情報処理装置２００ＡにおけるステップＳ１１１からステップＳ１１３までは第１の実施の形態の第１の使用例と同様である。

　次にステップＳ４１１で、テレプレゼンスシステム１００Ａ－１乃至Ａ－４において注目度算出部２０７Ａが、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、検出された全ての人物のディスプレイ４００Ａに対する注目度を算出する。

　例えば、注目度を所定の幅を持つ値として定義し、図２４Ａに示すようにディスプレイ４００Ａに対する顔と視線の向きが約９０度である状態において注目度が最大値になるとする。顔の向きがディスプレイ４００Ａに対して９０度の状態とは人物の顔がディスプレイ４００Ａに真正面に向いており、人物はディスプレイ４００Ａ、すなわち空間Ｂにいる人物に対する注目しているといえるからである。

　そして、図２４Ｂおよび図２４Ｃに示すように、ディスプレイ４００Ａに対する顔の向きが下がっていく（角度θが大きくなる）に従い注目度の値も小さくしていく。これは図２３Ａの状態に比べて人物の顔がディスプレイ４００Ａに向いておらず、ディスプレイ４００Ａ、すなわち空間Ｂにいる人物に対する注目度は低いと考えられるからである。なお、図１３を参照して説明した、上面視におけるディスプレイ４００Ａに対する顔と視線の向きに基づく注目度の算出方法を利用してもよい。

　次にステップＳ４１２で、ネットワークを介してテレプレゼンスシステム１００Ａ－１乃至Ａ－４からテレプレゼンスシステム１００Ｂに対して、カメラ５００Ａの撮影で生成された映像信号と、マイクロフォンアレイ６００Ａの収音で生成された音声信号と、注目度が送信される。

　次にステップＳ４１３で、情報処理装置２００Ｂの注目度比較部２１１Ｂがテレプレゼンスシステム１００Ａ－１乃至Ａ－４から送信された注目度を比較して最も注目度が高いテレプレゼンスシステム１００Ａを特定する。ここではテレプレゼンスシステム１００Ａ－１が出力した注目度が最も高いとする。

　次にステップＳ４１４で、情報処理装置２００Ｂの表示制御部２１０Ｂは、最も注目度が高いテレプレゼンスシステム１００Ａ－１から送信された映像信号のみをディスプレイ４００Ｂに表示するよう表示制御を行う。最も注目度が高いテレプレゼンスシステム１００Ａ－１以外のテレプレゼンスシステム１００Ａ－２乃至Ａ－４から送信された映像信号はディスプレイ４００Ｂに表示しない。これによりテレプレゼンスシステム１００Ｂのディスプレイ４００Ｂにおける表示は、図２５Ａに示す分割表示から図２５Ｂに示すように最も注目度が高いテレプレゼンスシステム１００Ａ－１からの映像のみの表示に切り替わる。

　またステップＳ４１５で、テレプレゼンスシステム１００Ｂの音量調整部２０４Ｂは、テレプレゼンスシステム１００Ａ－１乃至Ａ－４から送信された音声信号をスピーカ７００Ｂから出力する。その際、最も注目度が高いテレプレゼンスシステム１００Ａ－１から送信された音声信号のゲインを上げて音量を大きくし、それ以外の音声信号は注目度の大きさの順にゲインを下げて音量を小さくする。これにより、テレプレゼンスシステム１００Ｂにおいては最も注目度が高い空間Ａ－１の音声が最も大きく出力され、それ以外の空間からの音声は小さく出力されるので、空間Ｂにいる人物は最も注目度が高い空間Ａ－１の音声を聞きやすくなる。

　次にステップＳ４１６で、テレプレゼンスシステム１００Ｂからテレプレゼンスシステム１００Ａ－１乃至Ａ－４に対して映像表示と音声出力の結果を示すフィードバックを送信する。

　次にステップＳ４１７で、最も注目度が高いテレプレゼンスシステム１００Ａ－１以外のテレプレゼンスシステム１００Ａ－２乃至Ａ－４において表示制御部２１０Ａはディスプレイ４００Ａにおいて小窓映像表示を行う。小窓映像表示では、図２６に示すように最も注目度が高いテレプレゼンスシステム１００Ａ－１以外のテレプレゼンスシステム１００Ａ－２乃至Ａ－４のディスプレイ４００Ａにおいてテレプレゼンスシステム１００Ａ－１のカメラ５００Ａで撮影した映像が表示される。これにより、空間Ａ－２乃至Ａ－４にいる人物は今現在人物１が空間Ａ－１にいる人物と話していることを把握できる。なお、空間Ａ－１乃至Ａ－４にいる人物をそれぞれグループとして定義し、図２５に示すようにグループ名を小窓映像表示の近傍に表示してもよい。これにより、小窓映像表示されていないグループは今現在どのグループが空間Ｂの人物１と話しているかを把握することができる。

　このようにして空間Ｂの人物１に注目していたり、話しかけようとしている人物がいる空間の映像を空間Ｂのディスプレイ４００に表示することにより、複数の空間のうちのどの空間にいる人物が話しかけてきているのかわからないという問題を解決することができる。

　逆に空間Ｂにいる人物１がディスプレイ４００Ｂに分割表示されている各空間Ａ－１乃至Ａ－４の映像を見ていて、特定のグループに話かけたいということもある。この場合、カメラ５００Ｂで撮影したカメラ映像から顔検出部２０５で人物１の顔の向きを検出するととともに視線検出部２０６で人物１の視線のディスプレイ４００Ａ上の位置と滞留時間を検出する。そしてその検出結果から人物１が所定時間以上特定のグループを見ていると判定した場合、図２４Ｂに示すようにディスプレイ４００Ｂにおける表示を分割表示から特定のグループのみの表示に切り替える。そして、空間Ｂの人物１が一定時間目を閉じる又はディスプレイ４００全体から目をそらした場合、ディスプレイ４００の表示を分割表示に戻すという切り替え表示も可能である。これにより、煩雑な操作をすることなくディスプレイ４００の表示を切り替えることができるので人物１は会話に集中することができる。

　なお、空間Ａ－１乃至Ａ－４は部屋などの１つの空間内でもよいし、壁などで物理的に隔たれた空間でもよいし、別の建物内の空間など異なる空間でもよい。

　空間Ａ－１乃至Ａ－４にはそれぞれ複数の人物がいる場合を例にして説明を行ったが、空間Ａ－１乃至Ａ－４にいる人物はそれぞれ一人でもよいし、何人でもよい。また、空間Ｂにいる人物は複数人でもよい。

　この第４の実施の形態の使用例は、例えば、空間Ｂのテレプレゼンスシステム１００Ｂを多数の人物に説明や話をする必要がある人物（先生など）が使用し、空間Ａに集まっている複数の人物（学生など）に対して遠隔授業を行うような場合に有用である。また、顧客向けのプレゼンテーション、社内向けのプレゼンテーション、会議などにも有用である。

＜５．変形例＞
　以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。

　各実施の形態で情報処理装置２００が備える各処理ブロックはサーバ装置１０００が備えていてもよい。すなわち、情報処理装置２００はサーバ装置１０００において動作するものでもよい。その場合、テレプレゼンスシステム１００を構成する端末装置３００はサーバ装置１０００における情報処理装置２００が処理を行うために映像信号、音声信号、カメラ５００画像、センサ情報などをサーバ装置１０００に送信する。

　人体検出、顔検出、瞳検出などの検出処理は、ＡＩとインターネットを利用した外部サービスとして提供されているものを利用してもよい。

　実施の形態では音声信号のゲインを調整することにより音量を上げ下げの調整を行ったが、音声出力の際のボリュームを調整する制御信号をテレプレゼンスシステムに送信し、その制御信号に基づいてボリュームを調整することにより音量の上げ下げを行ってもよい。

　第１乃至第４の実施の形態では情報処理装置２００の構成および実行する処理の内容も異なるが、複数または全ての実施の形態の処理ブロックを備え、複数または全ての実施の形態の処理が可能なように情報処理装置２００を構成してもよい。

　本技術は以下のような構成も取ることができる。
（１）
　ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出する情報検出部と、
　前記人物に関する情報に基づいて、前記マイクロフォンから出力されて第２の空間に設置された外部装置に送信される音声信号の音量を調整する音量調整部と、
を備える情報処理装置。
（２）
　前記情報検出部は、前記第１の空間における前記人物の位置を検出する人体検出部である（１）に記載の情報処理装置。
（３）
　前記人物の位置に基づいて、前記第１の空間に設置されたカメラの撮影範囲内に前記人物がいるか否かを判定する位置判定部を備える（２）に記載の情報処理装置。
（４）
　前記位置判定部が、前記人物が前記カメラの撮影範囲内にいないと判定した場合、前記音量調整部は前記音声信号の音量を下げる（３）に記載の情報処理装置。
（５）
　前記位置判定部が、前記人物が前記カメラの撮影範囲内にいると判定した場合、前記音量調整部は前記音声信号の音量を上げる（３）または（４）に記載の情報処理装置。
（６）
　前記情報検出部は、前記人物の顔を検出する顔検出部と、前記人物の視線を検出する視線検出部のいずれか一方または両方である（１）から（５）のいずれかに記載の情報処理装置。
（７）
　前記人物の顔と視線のいずれか一方または両方に基づいて、前記人物の前記ディスプレイに対する注目度を算出する注目度算出部を備える（６）に記載の情報処理装置。
（８）
　前記人物の前記ディスプレイに対する前記注目度が低い場合、前記音量調整部は前記音声信号の音量を下げる（７）に記載の情報処理装置。
（９）
　前記人物の前記ディスプレイに対する前記注目度が高い場合、前記音量調整部は前記音声信号の音量を上げる（７）または（８）に記載の情報処理装置。
（１０）
　前記人物の前記ディスプレイの表示領域における注目領域を特定する注目領域特定部と、
　前記注目領域に対応する第２の空間内の領域への収音を指示する収音指示部を備える（６）に記載の情報処理装置。
（１１）
　前記注目領域特定部は、前記顔検出部の検出結果と前記視線検出部の検出結果のいずれか一方または両方に基づいて前記注目領域を特定する（１０）に記載の情報処理装置。
（１２）
　複数の前記外部装置から送信された複数の注目度を比較する注目度比較部を備える（１）から（１１）のいずれかに記載の情報処理装置。
（１３）
　前記ディスプレイにおける表示を制御する表示制御部を備え、
　前記表示制御部は、最も高い注目度を送信した前記外部装置から送信された映像信号を前記ディスプレイに表示する（１２）に記載の情報処理装置。
（１４）
　前記音量調整部は、最も高い注目度を送信した前記外部装置から送信された音声信号の音量を上げる（１２）または（１３）に記載の情報処理装置。
（１５）
　前記音量調整部は、最も高い注目度を送信した前記外部装置以外の前記外部装置から送信された音声信号の音量を下げる（１２）から（１４）のいずれかに記載の情報処理装置。
（１６）
　前記ディスプレイは、複数の地点に存在する人物のコミュニケーションのために双方向通信を行うテレプレゼンスシステムを構成するディスプレイである（１）から（１５）のいずれかに記載の情報処理装置。
（１７）
　前記マイクロフォンは、複数のマイクロフォンで構成され、複数の方向に対する収音が可能なマイクロフォンアレイである（１）から（１６）のいずれかに記載の情報処理装置。
（１８）
　前記音量調整部は、前記マイクロフォンアレイを構成する複数のマイクロフォンのうち、前記人物に最も近いマイクロフォンから出力される音声信号の音量を調整する（１７）に記載の情報処理装置。
（１９）
　ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出し、
　前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
情報処理方法。
（２０）
　ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出し、
　前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
情報処理方法をコンピュータに実行させるプログラム。

１００Ａ、１００Ｂ・・・テレプレゼンスシステム
２００Ａ、２００Ｂ・・・情報処理装置
２０１Ａ・・・人体検出部
２０３Ａ・・・位置判定部
２０４Ａ、２０４Ｂ・・・音量調整部
２０５Ａ・・・顔検出部
２０６Ａ・・・視線検出部
２０７Ａ・・・注目度算出部
２１０Ａ・・・表示制御部
４００Ａ、４００Ｂ・・・ディスプレイ
６００Ａ、６００Ｂ・・・マイクロフォンアレイ

Claims

　ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出する情報検出部と、
　前記人物に関する情報に基づいて、前記マイクロフォンから出力されて第２の空間に設置された外部装置に送信される音声信号の音量を調整する音量調整部と、
を備える情報処理装置。
　前記情報検出部は、前記第１の空間における前記人物の位置を検出する人体検出部である
請求項１に記載の情報処理装置。
　前記人物の位置に基づいて、前記第１の空間に設置されたカメラの撮影範囲内に前記人物がいるか否かを判定する位置判定部を備える
請求項２に記載の情報処理装置。
　前記位置判定部が、前記人物が前記カメラの撮影範囲内にいないと判定した場合、前記音量調整部は前記音声信号の音量を下げる
請求項３に記載の情報処理装置。
　前記位置判定部が、前記人物が前記カメラの撮影範囲内にいると判定した場合、前記音量調整部は前記音声信号の音量を上げる
請求項３に記載の情報処理装置。
　前記情報検出部は、前記人物の顔を検出する顔検出部と、前記人物の視線を検出する視線検出部のいずれか一方または両方である
請求項１に記載の情報処理装置。
　前記人物の顔と視線のいずれか一方または両方に基づいて、前記人物の前記ディスプレイに対する注目度を算出する注目度算出部を備える
請求項６に記載の情報処理装置。
　前記人物の前記ディスプレイに対する前記注目度が低い場合、前記音量調整部は前記音声信号の音量を下げる
請求項７に記載の情報処理装置。
　前記人物の前記ディスプレイに対する前記注目度が高い場合、前記音量調整部は前記音声信号の音量を上げる
請求項７に記載の情報処理装置。
　前記人物の前記ディスプレイの表示領域における注目領域を特定する注目領域特定部と、
　前記注目領域に対応する第２の空間内の領域への収音を指示する収音指示部と
を備える請求項６に記載の情報処理装置。
　前記注目領域特定部は、前記顔検出部の検出結果と前記視線検出部の検出結果のいずれか一方または両方に基づいて前記注目領域を特定する
請求項１０に記載の情報処理装置。
　複数の前記外部装置から送信された複数の注目度を比較する注目度比較部を備える
請求項１に記載の情報処理装置。
　前記ディスプレイにおける表示を制御する表示制御部を備え、
　前記表示制御部は、最も高い注目度を送信した前記外部装置から送信された映像信号を前記ディスプレイに表示する
請求項１２に記載の情報処理装置。
　前記音量調整部は、最も高い注目度を送信した前記外部装置から送信された音声信号の音量を上げる
請求項１２に記載の情報処理装置。
　前記音量調整部は、最も高い注目度を送信した前記外部装置以外の前記外部装置から送信された音声信号の音量を下げる
請求項１２に記載の情報処理装置。
　前記ディスプレイは、複数の地点に存在する人物のコミュニケーションのために双方向通信を行うテレプレゼンスシステムを構成するディスプレイである
請求項１に記載の情報処理装置。
　前記マイクロフォンは、複数のマイクロフォンで構成され、複数の方向に対する収音が可能なマイクロフォンアレイである
請求項１に記載の情報処理装置。
　前記音量調整部は、前記マイクロフォンアレイを構成する複数のマイクロフォンのうち、前記人物に最も近いマイクロフォンから出力される音声信号の音量を調整する
請求項１７に記載の情報処理装置。
　ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出し、
　前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
情報処理方法。
　ディスプレイとマイクロフォンが設置された第１の空間に存在する人物に関する情報を検出し、
　前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
情報処理方法をコンピュータに実行させるプログラム。