WO2021230363A1

WO2021230363A1 - 遠隔制御システム、遠隔作業装置、映像処理装置およびプログラム

Info

Publication number: WO2021230363A1
Application number: PCT/JP2021/018475
Authority: WO
Inventors: 聡哉中蔵
Original assignee: エヌ・ティ・ティ・コミュニケーションズ株式会社
Priority date: 2020-05-14
Filing date: 2021-05-14
Publication date: 2021-11-18
Also published as: JP7203157B2; CN115606173A; US20230071690A1; EP4152746A1; JP2021180421A; JP2021180496A; EP4152746A4; JP6965398B1

Abstract

遠隔作業装置において得られる映像の視野角と画質の両方を改善する。ユーザ装置と遠隔作業装置とを具備する遠隔制御システムにあって、遠隔作業装置は、第１の視野角を有する第１の撮像デバイスと、上記第１の視野角を含みかつ第１の視野角より大きい第２の視野角を有する第２の撮像デバイスとを備え、上記第１の撮像デバイスにより得られた第１の映像および上記第２の撮像デバイスにより得られた第２の映像を、ネットワークを介してユーザ装置へ送信する。一方ユーザ装置は、遠隔作業装置からネットワークを介して送られた上記第１の映像および上記第２の映像を受信し、受信された上記第１の映像と上記第２の映像とを、座標位置および時間位置を合わせて合成して第３の映像を生成し、生成された上記第３の映像を表示部へ出力するようにしたものである。

Description

遠隔制御システム、遠隔作業装置、映像処理装置およびプログラム

　この発明の実施形態は、例えば、ユーザ装置が遠隔地に配置された遠隔作業装置をネットワークを介して制御する遠隔制御システムと、このシステムで使用される遠隔作業装置、映像処理装置およびプログラムに関する。

　ユーザが、表示装置に表示される映像を見ながら、遠隔地にある作業装置をネットワークを介して遠隔制御するシステムが開発されている。この種のシステムは、例えば、ユーザの頭部にヘッドマウントディスプレイ（Head Mount Display：ＨＭＤ）（以後ヘッドセットとも称する）を装着する。そしてユーザが、遠隔地に存在するロボットが撮像した映像をヘッドセットにより見ながら自身の体を動かすことで、上記ロボットの動きを遠隔制御するように構成されている（例えば特許文献１を参照）。

日本国特開２０１９－１０６６２８号公報

　ところが、一般的な遠隔制御システムでは、遠隔地の映像をユーザが見ようとすると以下の２つの課題がある。一つは、一般にロボット等の遠隔作業装置に設けられるカメラは一眼カメラであるため、その映像では奥行き方向の情報が失われてしまい、ユーザは物体の前後を認識できず操作性の低下を招くという点である。この課題を軽減するために、２台のカメラを人の目を模して配置し、その撮像映像をもとに例えばヘッドセットで立体映像を生成して表示する技術が提案されている。この技術は例えばstereoscopicとして知られている。しかしながら、この技術を使用してもその視野角は人の目に比べると依然として小さく、ユーザにとって十分な視認性を得ることは困難である。

　もう一つの課題は、奥行きの情報が失われてしまい、立体としてものを捉えることができないという点である。この課題を解決するために、例えば３６０度カメラを利用して広い範囲の映像を取得する方法がある。しかしながら、３６０度カメラは、例えばカメラ内に備えるセンサや映像処理部により３６０度全方向の映像を処理する必要があり、これにより画質の劣化が生じたり、映像の描画遅延が大きくなるという別の課題を有する。

　この発明は上記事情に着目してなされたもので、一側面では、遠隔作業装置において得られる映像の視野角と画質の両方を改善する技術を提供しようとするものである。

　上記課題を解決するためにこの発明の第１の態様は、ユーザ装置と、このユーザ装置からユーザ動作に応じてネットワークを介して送られる制御信号により動作する遠隔作業装置とを具備する遠隔制御システムに関する。遠隔作業装置は、第１の視野角を有する第１の撮像デバイスと、前記第１の視野角を含みかつ前記第１の視野角より大きい第２の視野角を有する第２の撮像デバイスとを備える。そして遠隔作業装置は、前記第１の撮像デバイスにより得られた第１の映像および前記第２の撮像デバイスにより得られた第２の映像を、前記ネットワークを介して前記ユーザ装置へ送信する。一方、前記ユーザ装置は、受信部と、映像合成部と、表示部とを備える。受信部は、前記遠隔作業装置から前記ネットワークを介して送られた前記第１の映像および前記第２の映像を受信する。映像合成部は、受信された前記第１の映像と前記第２の映像とを座標位置および時間位置を合わせて合成して第３の映像を生成する。表示部は、生成された前記第３の映像を表示する。

　この発明の第２の態様は、ユーザ装置からユーザ動作に応じてネットワークを介して送られる制御信号により動作する遠隔作業装置に関する。遠隔作業装置は、第１の視野角を有する第１の撮像デバイスと、前記第１の視野角を含みかつ前記第１の視野角より大きい第２の視野角を有する第２の撮像デバイスとを備え、さらに映像合成部と、送信部とを備える。映像合成部は、前記第１の撮像デバイスにより得られた第１の映像と、前記第２の撮像デバイスにより得られた第２の映像とを、座標位置および時間位置を合わせて合成し、第３の映像を生成する。送信部は、生成された前記第３の映像を前記ネットワークを介して前記ユーザ装置へ送信する。

　この発明の第３の態様は、ユーザ装置と、このユーザ装置からユーザ動作に応じてネットワークを介して送られる制御信号により動作する遠隔作業装置とを具備し、前記遠隔作業装置が、第１の視野角を有する第１の撮像デバイスと、前記第１の視野角を含みかつ前記第１の視野角より大きい第２の視野角を有する第２の撮像デバイスとを備える遠隔制御システムの、前記ユーザ装置または前記遠隔作業装置のいずれかに設けられる映像処理装置に関する。映像処理装置は、映像合成部と、出力部とを備える。映像合成部は、前記第１の撮像デバイスにより得られた第１の映像と、前記第２の撮像デバイスにより得られた第２の映像とを、座標位置および時間位置を合わせて合成し、第３の映像を生成する。出力部は、生成された前記第３の映像を出力する。

　この発明の第１の態様によれば、遠隔作業装置では、視野角の異なる第１および第２の撮像デバイスにより撮像された映像がユーザ装置へ伝送される。ユーザ装置では、上記遠隔作業装置から送られた各映像がその座標位置および時間位置を合わせて合成され、ユーザに向け表示される。このためユーザに対し、その視線方向を含む主たる注視範囲については第１の撮像デバイスにより得られる映像により例えば奥行き感のある高画質の映像を提供でき、一方注視範囲外の周辺の領域については広い視野角の映像を提供することができる。

　また、この発明の第２の態様によれば、遠隔作業装置において、視野角の異なる第１および第２の撮像デバイスにより撮像された映像がその座標位置および時間位置を合わせて合成され、ユーザ装置に送られる。このためユーザ装置では、上記合成された映像が表示されることになる。このためユーザに対し、その視線方向を含む主たる注視範囲については第１の撮像デバイスにより得られる映像により例えば奥行き感のある高画質の映像を提供でき、一方注視範囲外の周辺の領域については広い視野角の映像を提供することができる。

　この発明の第３の態様によれば、遠隔作業装置に設けられた視野角の異なる第１および第２の撮像デバイスにより撮像された映像が、遠隔作業装置またはユーザ装置のいずれか一方に設けられた映像処理装置により合成され、ユーザ装置における表示に供される。このため、ユーザに対し、その視線方向を含む主たる注視範囲については第１の撮像デバイスにより得られる映像により例えば奥行き感のある高画質の映像を提供でき、一方注視範囲外の周辺の領域については広い視野角の映像を提供することができる。

　すなわちこの発明の各態様によれば、遠隔作業装置において得られる映像の視野角と画質の両方を改善する技術を提供することができる。

図１は、この発明の第１の実施形態に係る遠隔制御システムの全体構成を示す図である。図２は、図１に示した遠隔制御システムにおいて遠隔作業装置として使用されるロボットのハードウェア構成を示すブロック図である。図３は、図１に示した遠隔制御システムにおいてユーザが装着するヘッドマウントディスプレイのハードウェア構成を示すブロック図である。図４は、図１に示した遠隔制御システムにおいてユーザ装置として使用される情報処理装置のハードウェア構成を示すブロック図である。図５は、図１に示した遠隔制御システムにおいてユーザ装置として使用される情報処理装置のソフトウェア構成を示すブロック図である。図６は、図５に示した情報処理装置の処理手順と処理内容を示すフローチャートである。図７は、図５に示した情報処理装置により生成された合成映像の第１の例を示す図である。図８は、図５に示した情報処理装置により生成された合成映像の第２の例を示す図である。図９は、図５に示した情報処理装置により生成された合成映像の第３の例を示す図である。図１０は、ロボットに設けられるカメラの他の配置例を示す図である。

　以下、図面を参照してこの発明に係わるいくつかの実施形態を説明する。

　［第１の実施形態］
　（構成例）
　（１）システム
　図１は、この発明の第１の実施形態に係る遠隔制御システムの全体構成を示す図である。　
　第１の実施形態に係る遠隔制御システムは、ヘッドマウントディスプレイ（ＨＭＤ）１と、ユーザ装置として動作する情報処理装置２と、上記情報処理装置２との間でネットワーク４を介して通信が可能な遠隔作業装置３とを備えている。なお、ここではユーザ装置が情報処理装置２のみを含む場合を例にとって説明するが、ユーザ装置は情報処理装置２とＨＭＤ１の両方を含んでいてもよい。

　ネットワーク４は、例えばインターネット等の公衆ＩＰ（Internet Protocol）網と、当該公衆ＩＰ網にアクセスするためのアクセス網とからなり、アクセス網にはＬＡＮ（Local Area Network）、無線ＬＡＮ、公衆有線ネットワーク、公衆移動通信ネットワーク、ＣＡＴＶ（Cable Television）ネットワークが用いられる。

　（２）装置
　（２－１）遠隔作業装置３
　遠隔作業装置３は、例えば遠隔地で動作する人型のロボットからなる。なお、遠隔作業装置３を以後ロボットとも呼ぶ。ロボット３は、胴体部、頭部、腕部および脚部からなり、頭部、腕部および脚部はそれぞれサーボ機構を備える駆動部により所定の可動範囲内で動作するように構成されている。

　ロボット３の例えば頭部前面部、つまり顔に相当する部位には、第１の撮像デバイスとしての立体カメラ３４が設置されている。またロボット３の例えば頭頂部に相当する部位には、第２の撮像デバイスとしての全方位カメラ３５が設置されている。なお、ロボット３の側頭部に相当する部位にはマイクロフォン３６も設置されている。

　図２は、ロボット３のハードウェア構成を示すブロック図である。　
　ロボット３は、例えば制御部３１を備える。制御部３１は、中央処理ユニット（Central Processing Unit：ＣＰＵ）等のハードウェアプロセッサを有する。この制御部３１には、記憶部３２と、センサインタフェース（センサＩ／Ｆ）３３と、駆動インタフェース（駆動Ｉ／Ｆ）３７と、通信インタフェース（通信Ｉ／Ｆ）３９が、バス３０を介して接続されている。

　記憶部３２は、記憶媒体として例えばSolid State Drive（ＳＳＤ）等の随時書込みおよび読出しが可能な不揮発性メモリを用いたもので、プログラム記憶領域とデータ記憶領域とを有する。プログラム記憶領域には、ロボット３の動作を実現するための各種アプリケーション・プログラムが格納される。データ記憶領域は、ロボット３の動作過程で取得或いは生成された各種データを保存するために用いられる。なお、記憶媒体としては、他にRead Only Memory（ＲＯＭ）やRandom Access Memory（ＲＡＭ）等を併用することも可能である。

　センサＩ／Ｆ３３には、上記立体カメラ３４、全方位カメラ３５およびマイクロフォン３６が接続される。立体カメラ３４は、例えば二眼カメラからなり、ロボット３の前方向を第１の視野角（例えば１３０度）の範囲で撮像し、得られた映像データ（以後立体映像データと云う）をセンサＩ／Ｆ３３へ出力する。

　全方位カメラ３５は、上記立体カメラ３４が有する第１の視野角より大きい第２の視野角（例えば全周に相当する３６０度）を有する。そして、ロボット３の周囲を全方位に渡って撮像し、得られた映像データ（以後全方位映像データと云う）をセンサＩ／Ｆ３３へ出力する。　
　なお、マイクロフォン３６は、ロボット３の周囲の音を検出し、得られた音声データをセンサＩ／Ｆ３３へ出力する。

　駆動Ｉ／Ｆ３７には、上記頭部、腕部および脚部を駆動するための駆動部３８が接続される。駆動Ｉ／Ｆ３７は、制御部３１から出力される制御信号を駆動信号に変換し、変換された駆動信号を駆動部３８へ出力して駆動部３８を動作させる。例えば、頭部を動作させる駆動部であれば、頭部をパンおよびチルトの各方向へ所定の角度の範囲内で回動させる。

　通信Ｉ／Ｆ３９は、例えば、無線ＬＡＮ、近距離無線データ通信規格（例えばBluetooth（登録商標））、または公衆移動通信ネットワークに対応したインタフェースを備え、ネットワーク４を介して情報処理装置２との間でデータ伝送を行う。なお、通信Ｉ／Ｆ３０は、公衆有線網や有線ＬＡＮ、ＣＡＴＶネットワーク等の有線網に対応するインタフェースを備えていてもよい。

　制御部３１は、情報処理装置２から送られる遠隔制御信号に従い上記頭部、腕部および脚部の動きを制御する。制御対象となる動作としては、例えば、ロボット３の頭部の向きを制御することで、立体カメラ３４および全方位カメラ３５による撮像対象範囲を可変制御する動作がある。なお、遠隔作業装置は人型のロボット３以外に、例えば産業用ロボットや単に監視カメラが設置された架台であってもよい。

　また制御部３１は、上記立体カメラ３４により撮像された立体映像データ、および上記全方位カメラ３５により撮像された全方位映像データをセンサＩ／Ｆ３３を介して受信する。そして、受信された上記立体映像データと上記全方位映像データとを所定のフォーマットに従いパケット化して多重化し、多重化された映像データを通信Ｉ／Ｆ３９から情報処理装置２に向け送信する処理を行う。なお、その際、マイクロフォン３６により検出された音声データを上記各映像データに多重化して送信することも可能である。また、ロボット３Ａと情報処理装置２との間に複数の通信リンクを並行して設定する場合には、これら複数の通信リンクを用いて立体映像データと全方位映像データを別々のストリームとして送信するようにしてもよい。

　なお、上記パケット化に際し制御部３１は、上記立体映像データおよび全方位映像データに撮像時刻または受信時刻を表す時刻データを付与する。また制御部３１は、上記立体映像データおよび全方位映像データに、それぞれの撮像範囲の相対的な位置関係を示す基準座標データを付与する。これらの時刻データおよび基準座標データは、後述する情報処理装置２において上記立体映像データと全方位映像データとを合成する際に使用される。

　（２－２）ヘッドマウントディスプレイ（ＨＭＤ）１
　ＨＭＤ１は、例えばゴーグル型をなし、ユーザの頭部に着脱自在に装着される。図３は、ＨＭＤ１のハードウェア構成を示すブロック図である。

　ＨＭＤ１は、例えばＣＰＵを有する制御部１１に対し、記憶部１２と、表示インタフェース（表示Ｉ／Ｆ）１３と、センサインタフェース（センサＩ／Ｆ）１５と、通信インタフェース（通信Ｉ／Ｆ）１７を、バス１０を介して接続したものとなっている。なお、上記制御部１１には、他に、各種スイッチやマイクロフォン、スピーカ、カメラ、位置センサ等のデバイスが接続されてもよい。

　記憶部１２は、記憶媒体として例えばＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリを用いたもので、プログラム記憶領域とデータ記憶領域とを有する。プログラム記憶領域には、ＨＭＤ１の動作を実現するための各種アプリケーション・プログラムが格納される。データ記憶領域は、ＨＭＤ１の動作過程で取得或いは生成された各種データを保存するために用いられる。なお、記憶媒体としては、他にＲＯＭやＲＡＭ等を併用することも可能である。

　表示Ｉ／Ｆ１３には表示部１４が接続される。表示部１４は、例えば、有機ＥＬ（Electro Luminescence）ディスプレイからなる表示パネルを、仮想現実（Virtual Reality：ＶＲ）表示に対応するためにユーザの左右の眼に対応して２枚備える。なお、表示パネルは１枚であってもよい。また表示部１４は、有機ＥＬディスプレイに限られるものではなく、例えば液晶ディスプレイ（Liquid Cristal Display：ＬＣＤ）や７セグメントを用いた表示器等の、他のタイプの表示器であってもよい。表示Ｉ／Ｆ１３は、後述する情報処理装置２により生成された映像データを表示部１４に表示させる。

　センサＩ／Ｆ１５には、動きセンサ１６が接続される。動きセンサ１６は、例えば角速度センサ（ジャイロセンサ）からなり、ＨＭＤ１の動き、つまりユーザの頭部の動きを検出するために使用される。検出対象となる頭部の動きは、例えば六軸方向の動きが好ましいが、パンおよびチルトの２軸方向の動きだけでもよい。センサＩ／Ｆ１５は、上記動きセンサ１６の出力信号をもとに、ユーザの頭部の動きを表す動きデータを生成する。

　なお、センサＩ／Ｆ１５には、上記動きセンサ１６の他に、磁気センサ、加速度センサ、位置センサ、赤外センサ、輝度センサ、近接センサ、カメラ等が接続されてもよい。またセンサＩ／Ｆ１５には、ユーザの頭部の動きのほか、ユーザの視線の動きを検出するためのセンサが接続されてもよい。ユーザの視線の動きは、例えばユーザの眼球を撮像するカメラを用いることで検出可能である。

　通信Ｉ／Ｆ１７には、例えばUniversal Serial Bus（ＵＳＢ）ケーブル等の信号ケーブルを使用した有線インタフェースが用いられる。そして通信Ｉ／Ｆ１７は、制御部１１の制御の下、情報処理装置２から送信される映像データを受信すると共に、上記センサＩ／Ｆ１５により生成された動きデータ等を情報処理装置２へ転送する。なお、通信Ｉ／Ｆ１７には、近距離無線データ通信規格（例えばBluetooth（登録商標））が使用されてもよい。

　なお、この例では、ＨＭＤ１として制御部１１および記憶部１２を備えた多機能型のディスプレイを例にとって説明している。しかし、ＨＭＤ１は、表示部１４、表示Ｉ／Ｆ１３、センサ１６およびセンサＩ／Ｆ１５のみを有する標準型または簡易型のディスプレイであってもよい。

　（２－３）情報処理装置２
　図４および図５は、それぞれユーザ装置として使用される情報処理装置２のハードウェアおよびソフトウェアの構成を示すブロック図である。

　情報処理装置２は、例えばスマートフォンやタブレット型端末等の携帯情報端末、またはノート型もしくは据え置き型のパーソナルコンピュータにより構成される。情報処理装置２は、ＣＰＵ等のハードウェアプロセッサを有する制御部２１に、バス２０を介して記憶部２２、入出力インタフェース（入出力Ｉ／Ｆ）２３および通信インタフェース（通信Ｉ／Ｆ）２４を接続したものとなっている。

　入出力Ｉ／Ｆ２３には、上記ＵＳＢケーブルまたは無線インタフェースを介して上記ＨＭＤ１が接続される。また入出力Ｉ／Ｆ２３には、ロボット３を遠隔制御するためのコントローラ等が接続されてもよい。

　通信Ｉ／Ｆ２４は、例えば、無線ＬＡＮ、近距離無線データ通信規格（例えばBluetooth（登録商標））または公衆移動通信ネットワークに対応したインタフェースを備え、ネットワーク４を介してロボット３との間でデータ伝送を行う。なお、通信Ｉ／Ｆ２４は、公衆有線網や有線ＬＡＮ、ＣＡＴＶネットワーク等の有線網に対応するインタフェースを備えていてもよい。

　記憶部２２は、記憶媒体として、例えば、ＨＤＤまたはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリと、ＲＡＭ等の揮発性メモリとを組み合わせて構成される。その記憶領域には、プログラム記憶領域と、データ記憶領域とが設けられる。プログラム記憶領域には、ＯＳ等のミドルウェアに加えて、この発明の第１の実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムが格納される。

　データ記憶領域には、映像コンテンツ記憶部２２１が設けられている。映像コンテンツ記憶部２２１は、ロボット３から送信される立体映像および全方位映像の各データを一時保存するために使用される。

　制御部２１は、この発明の第１の実施形態を実現するための制御処理機能として、動きデータ取得部２１１と、顔方向検出部２１２と、顔方向検出データ送信部２１３と、映像コンテンツ受信部２１４と、映像合成部２１５と、映像合成制御部２１６とを備えている。これらの制御処理機能は、いずれも上記記憶部２２内のプログラム記憶領域に格納されたアプリケーション・プログラムを制御部２１のハードウェアプロセッサに実行させることにより実現される。

　動きデータ取得部２１１は、上記ＨＭＤ１のセンサ１６により検出されたユーザの頭部の動きを表す動きデータを、ＨＭＤ１から入出力Ｉ／Ｆ２３を介して取得する処理を行う。

　顔方向検出部２１２は、例えば、取得された上記動きデータをもとにユーザの顔の向きの変化を検出する処理を行う。例えば、上記動きデータをもとに、ユーザの顔のパン方向およびチルト方向の向き（角度）の変化を算出する処理を行う。なお、検出対象となる顔の方向には、パン方向およびチルト方向以外に、首の左右方向の傾きやズーム方向等の他の方向を含めてもよい。

　なお、ＨＭＤ１にユーザの顔を撮像するカメラが設けられている場合、顔方向検出部２１２は、当該カメラの映像をもとにユーザの視線方向の変化を検出する機能を有していてもよい。

　顔方向検出データ送信部２１３は、上記顔方向検出部２１２により得られた顔方向の検出データを、通信Ｉ／Ｆ２４からネットワーク４を介してロボット３へ送信する処理を行う。

　映像コンテンツ受信部２１４は、ロボット３からネットワーク４を介して送られる映像コンテンツ、つまり立体映像データと全方位映像データとを多重化した映像データを通信Ｉ／Ｆ２４を介して受信する。そして、受信された多重化映像データから立体映像データと全方位映像データとを分離し、さらにデパケットしたのち映像コンテンツ記憶部２２１に一時保存させる処理を行う。

　映像合成部２１５は、上記映像コンテンツ記憶部２２１から立体映像データおよび全方位映像データを読み出し、これらの映像データに付与されている基準座標データおよび時刻データに基づいて、上記立体映像データと全方位映像データとを合成する。そして、合成された映像データを入出力Ｉ／Ｆ２３からＨＭＤ１へ出力する。

　上記映像の合成手法としては、例えば以下の手法が考えられる。　
　(1) 全方位映像データ上に立体映像データを、それぞれの座標位置および時刻を合わせて単純に重畳させる。　
　(2) (1) により全方位映像データと立体映像データとを合成した上で、その境界部位を目立たなくするため、境界部位に対し画素単位で輝度、濃度および色の少なくとも一つを一致させる処理を行う。

　映像合成制御部２１６は、上記映像合成部２１５による映像合成処理を制御するもので、上記顔方向検出部２１２による顔方向の検出結果に基づいて、ユーザの顔方向が変化している期間に、上記合成映像データの上記立体映像に対し、静止、消去または解像度を所定値より低下させる処理を行う。

　（動作例）
　次に、以上のように構成された遠隔制御システムの動作例を説明する。図６は情報処理装置２の処理手順と処理内容を示すフローチャートである。

　ユーザが自身の頭部にＨＭＤ１を装着したのち情報処理装置２を起動すると、まずＨＭＤ１の通信Ｉ／Ｆ１７と情報処理装置２の入出力Ｉ／Ｆ２３との間が接続され、さらに情報処理装置２の通信Ｉ／Ｆ２４とロボット３の通信Ｉ／Ｆ３９との間にネットワーク４を介して通信リンクが形成される。

　この状態で、ユーザが自身の頭部を動かして顔の方向を変化させたとする。そうすると、この頭部の動きがＨＭＤ１のセンサ１６により検出され、その動きデータが情報処理装置２に入力される。情報処理装置２は、動きデータ取得部２１１の制御の下、ステップＳ１１により上記動きデータを取得し、ステップＳ１２において顔方向検出部２１２により上記動きデータからユーザの顔の方向の変化を検出する。

　例えば、顔方向検出部２１２は、角速度センサ（ジャイロセンサ）から出力される６軸の角速度検出信号から、ユーザの顔の方向を示すベクトルの変化を算出する。情報処理装置２は、上記ユーザの顔の向きの変化を示す検出データを、顔方向検出データ送信部２１３の制御の下、ステップＳ１３により通信Ｉ／Ｆ２４からロボット３に向け送信する。

　これに対しロボット３は、上記情報処理装置２から送信された顔の方向の検出データを受信すると、この顔の方向の検出データをもとに、駆動Ｉ／Ｆ３７により例えばサーボ機構を有する駆動部３８を動作させて頭部の向きを変化させる。そうすると、頭部に取り付けられた立体カメラ３４の撮像方向が変化し、その変化の過程および変化後の撮像対象範囲の立体映像データが得られる。また、それと同時に全方位カメラ３５では、ロボット３周辺の全周に渡る映像データが得られる。

　ロボット３の制御部３１は、得られた上記立体映像データおよび全方位映像データをそれぞれパケットに変換したのち多重化し、多重化された映像データを通信Ｉ／Ｆ３９から情報処理装置２へ送信する。なお、上記各映像データをパケット化する際に、制御部３１は上記立体映像データおよび全方位映像データに撮像時刻または受信時刻を表す時刻データを付与する。また制御部３１は、上記立体映像データおよび全方位映像データに、それぞれの撮像範囲の相対的な位置関係を示す基準座標データを付与する。

　情報処理装置２は、上記ロボット３から送信される多重化映像データを、映像コンテンツ受信部２１４の制御の下、ステップＳ１４で受信する。このステップＳ１４では、受信された多重化映像データが立体映像データと全方位映像データとに分離され、さらにデパケットされて映像コンテンツ記憶部２２１に一旦保存される。

　情報処理装置２の制御部２１は、ステップＳ１５において、映像合成部２１５により、上記映像コンテンツ記憶部２２１から上記立体映像データおよび全方位映像データを読み出す。そして、それぞれの映像データに付与されている基準座標データおよび時刻データをもとに、上記立体映像データと上記全方位映像データとを合成する。例えば、全方位映像上に立体映像を、映像フレームの座標位置および時刻を合わせて重畳させる。映像合成部２１５は、ステップＳ１８において、上記合成された映像データを入出力Ｉ／Ｆ２３からＨＭＤ１へ出力する。この結果、ＨＭＤ１では、上記全方位映像上に立体映像が重畳された合成映像がディスプレイに表示される。

　図７は、ＨＭＤ１に表示された合成映像の第１の例を示すもので、３６０度の全方位映像を二次元平面に展開した状態で示している。この例では、全方位映像ＶＤ２上に立体映像ＶＤ１が位置を合わせて単純に重畳された状態を示しており、映像間の境界が表示された状態を示している。

　図８は、ＨＭＤ１に表示された合成映像の第２の例を示す。この例では、全方位映像ＶＤ２と立体映像ＶＤ１との境界部位に対し、画素単位で輝度、濃度および色の少なくとも一つについてそれぞれの差分を減少させる処理を行っている。このようにすることで、全方位映像ＶＤ２と立体映像ＶＤ１との境界を目立たなくすることができる。

　一方、情報処理装置２の制御部２１は、映像合成制御部２１６の制御の下、ステップＳ１６において、ユーザの顔の方向が変化中であるか否かを判定する。この判定は、例えば、顔方向検出部２１２により検出された顔の方向の状態に基づいて行われる。上記判定の結果、ユーザの顔の方向が変化中であると判定された場合、映像合成制御部２１６はステップＳ１７において、上記ユーザの顔の方向が変化している期間において、上記合成された映像における立体映像ＶＤ１の表示を停止させる。映像合成部２１５は、ステップＳ１８において、上記立体映像の表示が停止された合成映像を入出力Ｉ／Ｆ２３からＨＭＤ１へ出力する。

　この結果、ＨＭＤ１では立体映像の表示が停止された合成映像が表示される。図９は、表示が停止された立体映像ＶＤ３を含む合成映像の一例を示したものである。なお、合成映像中の立体映像は表示を停止させずに静止させるようにしてもよく、また表示を停止または静止させずに、解像度を一定レベル以下にて低下させるようにしてもよい。さらに映像合成部２１５において、ユーザの顔の方向が変化している期間には、全方位映像ＶＤ２への立体映像ＶＤ１の合成処理自体を行わないようにしてもよい。

　（作用・効果）
　以上述べたように第１の実施形態では、ロボット３に立体カメラ３４に加え全方位カメラ３５を設け、これらのカメラ３４，３５により撮像された各映像データをロボット３からネットワーク４を介してユーザ側の情報処理装置２へ送信する。一方、ユーザ側の情報処理装置２では、上記ロボット３から送られた各映像データを受信すると、当該各映像データを映像フレーム中の座標位置および時間位置を合わせて合成し、合成された映像データをＨＭＤ１へ出力し表示させるようにしている。

　従って、ＨＭＤ１には、ロボット３において立体カメラ３４により撮像された立体映像と全方位カメラ３５により撮像された全方位映像とが合成された映像が表示されることになる。このため、ユーザに対し、その視線方向を含む主たる注視範囲については立体カメラ３４により得られる立体映像により例えば奥行き感のある高画質の映像を提供でき、一方注視範囲外の周辺の領域については全方位カメラ３５により得られる全方位映像により広い視野角の映像を提供することができる。

　従ってユーザは、例えば、全方位映像により広範囲にわたって視認性を確保しつつ、注視範囲に含まれる作業対象物または監視対象を立体映像により確認しながら作業を行うことが可能となり、これにより精度の高い作業または監視を能率良く行うことが可能となる。

　さらに、第１の実施形態では、ユーザの顔の方向が変化している期間中に、合成映像における立体映像の表示を停止または静止させるか、あるいは立体映像の解像度を低下させるようにしている。このため、ユーザの頭部の動きに応じてロボット３から送られる立体映像の表示動作に、伝送遅延や描画遅延による表示遅延が発生しても、ユーザにおけるＶＲ酔いの発生を抑制することが可能となる。またその際、立体映像の表示のみを停止または静止させ、全方位映像の表示を維持させるようにしている。従って、ユーザは全方位映像によりロボット３がどちらの方向を向いているかを確認しながら、自身の顔の向きを円滑に移動させることができる。

　［第２の実施形態］
　この発明の第２の実施形態は、遠隔作業装置としてのロボット３において、立体カメラ３４により得られた立体映像と、全方位カメラ３５により得られた全方位映像とを、画像フレーム上の座標位置および撮像時刻を合わせた状態で合成し、合成された映像をネットワーク４を介してユーザ側の情報処理装置２へ送信するようにしたものである。

　この第２の実施形態は、第１の実施形態において情報処理装置２の制御部２１が備える映像合成部２１５および映像合成制御部２１６をロボット３の制御部３１に備えるようにすることで実現できる。この例でも、上記映像合成部２１５および映像合成制御部２１６の処理は、制御部３１が備えるハードウェアプロセッサにプログラムを実行させることにより実現できる。

　この場合、映像合成制御部２１６は、情報処理装置２から送られる顔方向検出データに基づいてユーザの顔向きが変化中か否かを判定し、変化中に上記映像合成部２１５により生成される合成映像の立体映像の表示を停止または静止させる。なお、映像合成制御部２１６は、情報処理装置２から送られる顔方向検出データをもとにユーザの顔方向が変化中か否かを判定する代わりに、ロボット３の頭部が動いているか否かを判定し、ロボット３の頭部が動いている期間に、上記映像合成部２１５により生成される合成映像の立体映像の表示を停止または静止させるようにしてもよい。

　この発明の第２の実施形態によれば、ロボット３において立体映像と全方位映像とを合成した映像データが生成されて情報処理装置２へ送られるので、ロボット３から情報処理装置２へ伝送する映像データの情報量を減らして伝送遅延を提言することが可能となる。また、情報処理装置２は、映像合成処理および映像合成制御処理を行う必要がなくなり、その分処理負荷が軽減される。

　［その他の実施形態］
　（１）第１の実施形態では、ロボット３Ａの頭部の顔に相当する部位に二眼カメラ３４を配置し、頭頂部に全方位カメラ３５を配置した場合を例にとって説明した。しかし、この発明はそれに限定されるものではなく、例えばロボット３Ａの顔に相当する部位に第１の撮像デバイスとして機能する二眼カメラ３４を配置すると共に、この二眼カメラ３４の中間部に第２の撮像デバイスとして機能する広角カメラ３５ｂを配置するように構成してもよい。

　図１０にその配置例を示す。この例では、広角カメラ３５ｂはロボット３Ａの前方向を１８０度の視野で撮像する。このため、全方位カメラ３５を使用する場合に比べ視野角は小さくなるが、視野角が１８０度であればユーザの視野角に近い十分に広視野角の映像をユーザ装置へ送信することができるので、実用上十分な効果が期待できる。なお、ユーザが広角カメラ３５ｂの視野角外の映像を視認しようとする場合には、ユーザ装置から遠隔操作によりロボット３の向きをパン方向に移動させればよい。

　以上の構成により以下のような作用効果が奏せられる。すなわち、一般に遠隔制御システムでは、ユーザの頭部が回動し始めたことがＨＭＤ１で検出されると、それに応じて情報処理装置２から遠隔地のロボット３へネットワーク４を介して遠隔制御信号が送られる。そして、ロボット３では、上記遠隔制御信号に応じて頭部の向きが回動してカメラにより撮像される映像データが変化し、この映像データがネットワーク４を介して情報処理装置２へ送信され、ＨＭＤ１に表示される。このため、ユーザが頭部を動かし始めてからそれに応じたロボット映像がユーザのＨＭＤ１に表示されるまでに、伝送遅延や描画遅延による時間差が生じる。

　これに対し上記構成によれば、ユーザが頭を回動し始める前に、広角カメラ３５ｂにより１８０度の視野角の広角映像がＨＭＤ１に既に表示されているため、この広角映像により、ユーザの頭部が回動した際に得られるロボット映像に近い映像をユーザに提示することが可能である。従って、遠隔地のロボット３からユーザのＨＭＤ１に映像が届くまでの間に映像は固定されることがなく、これによりユーザがＶＲ酔いを起こす不具合は軽減される。

　（２）第１の実施形態では、ロボット３に、第１の撮像デバイスとして立体カメラ３４を設けると共に、第２の撮像デバイスとして全方位カメラ３５を設けた場合を例にとって説明した。しかし、それに限らず、第１の撮像デバイスとしては一眼カメラを設けてもよく、また第２の撮像デバイスとしては撮像範囲を分割して撮像するように配置された複数の一眼カメラを設けてもよい。

　（３）第２の実施形態では、立体映像と全方位映像との映像合成処理と、合成映像における立体映像の表示の停止または静止させる制御をロボット３の制御部３１により行う場合を例にとって説明した。しかし、それに限らず、立体映像と全方位映像との映像合成処理のみをロボット３の制御部３１で行い、合成映像における立体映像の表示の停止または静止させる制御については情報処理装置２において行うようにしてもよい。

　（４）さらに第１および第２の実施形態では、ユーザが顔の方向を変化させたときの映像の表示遅延によるＶＲ酔いを抑制するために、ユーザの主として注視している立体映像の表示を停止または静止させるようにした。しかし、それに加えて、全方位映像の表示を静止させるようにしてもよい。このようにすると、ユーザはロボット３の向きを確認できなくなるが、映像データの伝送遅延や描画遅延が大きい場合に、ユーザがＶＲ酔いを起こさないようにすることができる。

　（５）前記第１の実施形態では、ＨＭＤ１とは別に設けた情報処理装置２により、ロボット３との間のデータ通信および映像表示制御を行うようにした。しかし、ＨＭＤ１が情報処理装置２の機能を備える場合、つまり情報処理装置と一体型のＨＭＤを使用する場合には、ＨＭＤにおいてロボット３との間のデータ通信および映像表示制御を行うように構成してもよい。

　（６）その他、遠隔作業装置の種類と構成、第１および第２の撮像デバイスの種類と構成、情報処理装置の構成、映像合成処理および合成制御処理の手順とその処理内容等についても、この発明の範囲を逸脱することなく種々の改良や変形を行うことができる。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

　要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　１…ヘッドマウントディスプレイ（ＨＭＤ）
　２…情報処理装置
　３Ａ，３Ｂ…ロボット
　４…ネットワーク
　１０，２０，３０…バス
　１１，２１，３１…制御部
　１２，２２，３２…記憶部
　１３…表示インタフェース（表示Ｉ／Ｆ）
　１４…表示部
　１５，３３…センサインタフェース（センサＩ／Ｆ）
　１６…動きセンサ
　１７，２４，３９…通信インタフェース（通信Ｉ／Ｆ）
　２３…入出力インタフェース（入出力Ｉ／Ｆ）
　３４…立体カメラ
　３５…全方位カメラ
　３５ｂ…広角カメラ
　３６…マイクロフォン
　３７…駆動インタフェース（駆動Ｉ／Ｆ）
　３８…駆動部
　２１１…動きデータ取得部
　２１２…顔方向検出部
　２１３…顔方向検出データ送信部
　２１４…映像コンテンツ受信部
　２１５…映像合成部
　２１６…映像合成制御部
　２２１…映像コンテンツ記憶部

Claims

　ユーザ装置と、前記ユーザ装置からユーザ動作に応じてネットワークを介して送られる制御信号により動作する遠隔作業装置とを具備する遠隔制御システムであって、
　前記遠隔作業装置は、
　　第１の視野角を有する第１の撮像デバイスと、
　　前記第１の視野角を含みかつ前記第１の視野角より大きい第２の視野角を有する第２の撮像デバイスと、
　　前記第１の撮像デバイスにより得られた第１の映像および前記第２の撮像デバイスにより得られた第２の映像を、前記ネットワークを介して前記ユーザ装置へ送信する送信部と
　を備え、
　前記ユーザ装置は、
　　前記遠隔作業装置から前記ネットワークを介して送られた前記第１の映像および前記第２の映像を受信する受信部と、
　　受信された前記第１の映像と前記第２の映像とを、座標位置および時間位置を合わせて合成し、第３の映像を生成する映像合成部と、
　　生成された前記第３の映像を表示部へ出力する出力部と
　を備える遠隔制御システム。
　ユーザ装置からユーザ動作に応じてネットワークを介して送られる制御信号により動作する遠隔作業装置であって、
　第１の視野角を有する第１の撮像デバイスと、
　前記第１の視野角を含みかつ前記第１の視野角より大きい第２の視野角を有する第２の撮像デバイスと、
　前記第１の撮像デバイスにより得られた第１の映像と、前記第２の撮像デバイスにより得られた第２の映像とを、座標位置および時間位置を合わせて合成し、第３の映像を生成する映像合成部と、
　　生成された前記第３の映像を前記ネットワークを介して前記ユーザ装置へ送信する送信部と
　を具備する遠隔作業装置。
　前記第１の撮像デバイスは、前記第１の視野角を有する立体カメラを有し、
　前記第２の撮像デバイスは、前記第２の視野角として全周を撮像可能な視野角を有する全方位カメラを有する、請求項２に記載の遠隔作業装置。
　ユーザ装置と、前記ユーザ装置からユーザ動作に応じてネットワークを介して送られる制御信号により動作し、かつ第１の視野角を有する第１の撮像デバイスと、前記第１の視野角を含みかつ前記第１の視野角より大きい第２の視野角を有する第２の撮像デバイスとを有する遠隔作業装置とを具備する遠隔制御システムの、前記ユーザ装置または前記遠隔作業装置のいずれかに設けられる映像処理装置であって、
　前記第１の撮像デバイスにより得られた第１の映像と、前記第２の撮像デバイスにより得られた第２の映像とを、座標位置および時間位置を合わせて合成し、第３の映像を生成する映像合成部と、
　　生成された前記第３の映像を出力する出力部と
　を備える映像処理装置。
　前記映像合成部は、前記第２の映像に前記第１の映像を座標位置および時間位置を合わせて重畳する、請求項４に記載の映像処理装置。
　前記映像合成部は、前記第２の映像に前記第１の映像を座標位置および時間位置を合わせて重畳し、かつ前記第１の映像と前記第２の映像との境界部位に対し画素単位で輝度、濃度および色の少なくとも一つの差分を減少させるための補正処理を行う、請求項４に記載の映像処理装置。
　前記ユーザ装置が、前記ユーザの頭部の位置又は向きの変化を検出する検出部を備える場合に、
　前記映像合成部は、前記検出部による検出出力をもとに、前記ユーザの頭部の位置または向きが変化している期間に、前記第３の映像における前記第２の映像に対し、静止、消去または解像度を所定値より低下させる処理を行う、請求項４に記載の映像処理装置。
　請求項４乃至７のいずれかに記載の映像処理装置が備える前記各部による処理を、前記映像処理装置が備えるプロセッサに実行させるプログラム。