WO2021230366A1

WO2021230366A1 - 遠隔作業装置とそのプログラム

Info

Publication number: WO2021230366A1
Application number: PCT/JP2021/018478
Authority: WO
Inventors: 聡哉中蔵
Original assignee: エヌ・ティ・ティ・コミュニケーションズ株式会社
Priority date: 2020-05-14
Filing date: 2021-05-14
Publication date: 2021-11-18
Also published as: CN115552892A; EP4151370A1; JP6828205B1; EP4151370A4; JP2021180426A; US20230069407A1

Abstract

遠隔地で得られる映像に対し適切な圧縮を行えるようにしてユーザの視認性の向上を図る。遠隔地のロボット（３）において、その位置および動きの検出データと映像データとから導出される特徴量をもとにロボット（３）の行動シーンが判定され、判定された上記行動シーンに対応した映像パラメータまたは撮像モードが選択される。そして、映像データについて上記選択された映像パラメータを調整する処理、またはカメラに対し上記選択された撮像モードを設定する処理が行われ、この処理後の映像データがネットワーク（４）を介してユーザ側の情報処理装置（２）に送られ、ＨＭＤ（１）に表示される。

Description

遠隔作業装置とそのプログラム

　この発明の実施形態は、例えばユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置と、この遠隔作業装置で使用されるプログラムに関する。

　ユーザが、遠隔地に存在するロボットからネットワークを介して送信される映像を見ながら、ロボットの動作を制御する遠隔制御するシステムが開発されている。この種のシステムは、例えば、ユーザの頭部にヘッドマウントディスプレイ（Head Mount Display：ＨＭＤ）（以後ヘッドセットとも称する）を装着する。そしてユーザが、遠隔地に存在するロボットが撮像した映像をヘッドセットにより見ながら自身の体を動かすかまたはコントローラを操作することで、上記ロボットの動きを遠隔制御するように構成される。

　また、この種のシステムでは、例えば、拡張現実（Augmented Reality；ＡＲ）の技術または仮想現実（Virtual Reality：ＶＲ）の技術を用いて、ロボットから送られる映像をもとにＡＲ映像またはＶＲ映像を生成し、ヘッドセットに表示することにより、ユーザが高い没入感を得ることができるようにしている。

日本国特開２０１９－１０６６２８号公報

　ところが、従来のシステムには、以下のような解決すべき課題があった。すなわち、撮影された映像をネットワークを介して伝送する場合、映像の圧縮条件が一定に固定される単純なシステムでは、通信環境の影響を受ける。特に無線環境では、ユーザが電波が弱い環境に移動すると、一定時間内に伝送可能な通信帯域が狭くなるため、高品質な映像を伝送しようとすると、例えばフレームが欠落して飛び飛びの映像になったり、ノイズが重畳したり、伝送遅延等が発生し、伝送品質の劣化を招く。

　これを解決するために、従来Adaptive Bitrate Streamingという手法が考案された。この手法は、通信帯域を推定し、その範囲内に収まるように映像の圧縮度合いを変更するというものである。例えば、映像の解像度を低くしてデータの伝送容量を削減するといった対応が行われる。

　しかしこの手法では、空間解像度または時間解像度のどちらかを積極的に担保すべき映像であっても、映像の種類を考慮しないAdaptive Bitrate Streamingの実装系のアルゴリズムに従い圧縮処理を施されてしまう。このため、遠隔制御システムのように、遠隔地のロボットにより様々なシーンの映像を撮像し、これらの映像をユーザがＨＭＤ等を用いて視聴する場合には、視聴に必要な映像品質が得られず実用に適さなくなることが想定される。

　この発明は上記事情に着目してなされたもので、遠隔地で得られる映像に対し適切な圧縮を行えるようにしてユーザの視認性の向上を図る技術を提供しようとするものである。

　上記課題を解決するためにこの発明の第１の態様は、表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、カメラから当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、センサから当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、取得された前記映像データおよび前記状態検出データに基づいて前記遠隔作業装置の行動シーンを判定する判定部と、判定された前記行動シーンに応じて調整対象の映像パラメータを選択する選択部と、前記映像データについて前記選択された映像パラメータを調整する制御部と、前記映像パラメータが調整された後の前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部とを具備するように構成したものである。

　この発明の第２の態様は、表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、カメラから、当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、センサから、当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、取得された前記映像データおよび前記状態検出データに基づいて、前記遠隔作業装置の行動シーンを判定する判定部と、判定された前記行動シーンに対応する撮像モードを選択する選択部と、前記カメラに対し前記選択された撮像モードを設定する制御部と、前記設定された撮像モードを用いて前記カメラにより撮像された前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部とを具備するように構成したものである。

　この発明の第１の態様によれば、遠隔作業装置において、当該遠隔作業装置の位置または動きと撮像された映像をもとに遠隔作業装置の行動シーンが判定され、判定された上記行動シーンに応じて調整対象の映像パラメータが選択される。そして、映像データについて、上記選択された映像パラメータが調整され、調整後の映像データがユーザ装置へ送信される。このため、例えば、読書シーンやスポーツ観戦シーン等、行動シーンごとに、当該行動シーンに対応する映像パラメータを用いて映像データが調整され、ユーザ装置へ送られる。このため、行動シーンごとにそれに適した映像パラメータにより圧縮されたリモート映像がユーザ装置へ伝送されることになり、これによりユーザに対し、遠隔作業装置の行動シーンごとにシーンに適した視聴性の良いリモート映像を提供することが可能となる。

　この発明の第２の態様によれば、遠隔作業装置において、当該遠隔作業装置の位置または動きと撮像された映像をもとに遠隔作業装置の行動シーンが判定され、判定された上記行動シーンに応じてカメラの撮像モードが選択される。そして、カメラに対し前記選択された撮像モードが設定され、当該撮像モードにより撮像された映像データがネットワークを介してユーザ装置へ伝送される。このため、例えば、読書シーンやスポーツ観戦シーン等、行動シーンごとに、当該行動シーンに対応する撮像モードにより撮像された映像データがユーザ装置へ送られる。このため、行動シーンごとにそれに適した品質を有するリモート映像がユーザ装置へ伝送されることになり、これによりユーザに対し、遠隔作業装置の行動シーンごとにシーンに適した視聴性の良いリモート映像を提供することが可能となる。

　すなわちこの発明の各態様によれば、遠隔地で得られる映像に対し適切な圧縮を行えるようにしてユーザの視認性の向上を図ることが可能な技術を提供することができる。

図１は、この発明の一実施形態に係る遠隔制御システムの全体構成を示す図である。図２は、図１に示した遠隔制御システムにおいてユーザが装着するヘッドマウントディスプレイのハードウェア構成を示すブロック図である。図３は、図１に示した遠隔制御システムにおいてユーザ装置として使用される情報処理装置のハードウェア構成を示すブロック図である。図４は、図１に示した遠隔制御システムにおいて遠隔作業装置として使用されるロボットのハードウェア構成を示すブロック図である。図５は、図１に示した遠隔制御システムにおいて遠隔作業装置として使用されるロボットのソフトウェア構成を示すブロック図である。図６は、図５に示したロボットによる処理手順と処理内容を示すフローチャートである。図７は、図６に示したロボットの処理手順のうち行動シーンの判定処理と映像パラメータの選択処理の処理手順と処理内容を示すフローチャートである。図８は、図５に示した記憶部に記憶される行動シーン情報の一例を示す図である。図９は、図５に示した記憶部に記憶されるサブシーン情報の一例を示す図である。図１０は、図５に示した記憶部に記憶される映像パラメータ情報の一例を示す図である。

　以下、図面を参照してこの発明に係わる実施形態を説明する。

　［一実施形態］
　（構成例）
　（１）システム
　図１は、この発明の一実施形態に係る遠隔制御システムの全体構成を示す図である。
この発明の一実施形態に係る遠隔制御システムは、ヘッドマウントディスプレイ（ＨＭＤ）１と、ユーザ装置として動作する情報処理装置２と、上記情報処理装置２との間でネットワーク４を介して通信が可能な遠隔作業装置３とを備えている。遠隔作業装置３は、例えば人型をなすロボットからなる。以後、この実施形態では遠隔作業装置３をロボットと呼ぶ。

　なお、この実施形態ではユーザ装置が情報処理装置２のみを含む場合を例にとって説明するが、ユーザ装置は情報処理装置２とＨＭＤ１の両方を含んでいてもよい。

　ネットワーク４は、例えばインターネット等の公衆ＩＰ（Internet Protocol）網と、当該公衆ＩＰ網にアクセスするためのアクセス網とからなり、アクセス網にはＬＡＮ（Local Area Network）、無線ＬＡＮ、公衆有線ネットワーク、公衆移動通信ネットワーク、ＣＡＴＶ（Cable Television）ネットワークが用いられる。

　（２）装置
　（２－１）ヘッドマウントディスプレイ（ＨＭＤ）１
　ＨＭＤ１は、例えばゴーグル型をなし、ユーザの頭部に着脱自在に装着される。図２は、ＨＭＤ１のハードウェア構成を示すブロック図である。

　ＨＭＤ１は、例えば中央処理ユニット（Central Processing Unit：ＣＰＵ）等のハードウェアプロセッサを有する制御部１１に対し、記憶部１２と、表示インタフェース（表示Ｉ／Ｆ）１３と、センサインタフェース（センサＩ／Ｆ）１５と、通信インタフェース（通信Ｉ／Ｆ）１７を、バス１０を介して接続したものとなっている。なお、上記制御部１１には、他に、各種スイッチやマイクロフォン、スピーカ、カメラ、位置センサ等のデバイスが接続されてもよい。

　記憶部１２は、記憶媒体として例えばSolid State Drive（ＳＳＤ）等の随時書込みおよび読出しが可能な不揮発性メモリを用いたもので、プログラム記憶領域とデータ記憶領域とを有する。プログラム記憶領域には、ＨＭＤ１の動作を実現するためのアプリケーション・プログラムが格納される。データ記憶領域は、ＨＭＤ１の動作過程で取得或いは生成された各種データを保存するために用いられる。なお、記憶媒体としては、他にRead Only Memory（ＲＯＭ）やRandom Access Memory（ＲＡＭ）等を併用することも可能である。

　表示Ｉ／Ｆ１３には表示部１４が接続される。表示部１４は、例えば、有機ＥＬ（Electro Luminescence）ディスプレイからなる表示パネルを、仮想現実（Virtual Reality：ＶＲ）表示に対応するためにユーザの左右の眼に対応して２枚備える。なお、表示パネルは１枚であってもよい。また表示部１４は、有機ＥＬディスプレイに限られるものではなく、例えば液晶ディスプレイ（Liquid Cristal Display：ＬＣＤ）や７セグメントを用いた表示器等の、他のタイプの表示器であってもよい。表示Ｉ／Ｆ１３は、後述する情報処理装置２により生成された映像データを表示部１４に表示させる。

　センサＩ／Ｆ１５には、動きセンサ１６が接続される。動きセンサ１６は、例えば６軸の角速度センサ（ジャイロセンサ）からなり、ＨＭＤ１の動き、つまりユーザの頭部の動きを検出するために使用される。なお、検出対象となる頭部の動きは、例えば６軸方向の動きであることが好ましいが、パンおよびチルトの２軸方向の動きだけでもよい。センサＩ／Ｆ１５は、上記動きセンサ１６の出力信号をもとに、ユーザの頭部の動きを表す動き検出データを生成する。

　なお、センサＩ／Ｆ１５には、上記動きセンサ１６の他に、磁気センサ、加速度センサ、位置センサ、赤外センサ、輝度センサ、近接センサ、カメラ等が接続されてもよい。またセンサＩ／Ｆ１５には、ユーザの頭部の動きのほか、ユーザの視線の動きを検出するためのセンサが接続されてもよい。ユーザの視線の動きは、例えばユーザの眼球を撮像するカメラを用いることで検出可能である。

　通信Ｉ／Ｆ１７には、例えばUniversal Serial Bus（ＵＳＢ）ケーブル等の信号ケーブルを使用した有線インタフェースが用いられる。そして通信Ｉ／Ｆ１７は、制御部１１の制御の下、情報処理装置２から送信される映像データを受信すると共に、上記センサＩ／Ｆ１５により生成された動き検出データ等を情報処理装置２へ転送する。なお、通信Ｉ／Ｆ１７には、近距離無線データ通信規格（例えばBluetooth（登録商標））が使用されてもよい。

　なお、この例では、ＨＭＤ１として制御部１１および記憶部１２を備えた多機能型のデバイスを例にとって説明している。しかし、ＨＭＤ１は、表示部１４、表示Ｉ／Ｆ１３、動きセンサ１６およびセンサＩ／Ｆ１５のみを有する標準型または簡易型のデバイスであってもよい。

　（２－２）情報処理装置２
　図３は、ユーザ装置として使用される情報処理装置２のハードウェア構成を示すブロック図である。

　情報処理装置２は、例えばスマートフォンやタブレット型端末等の携帯情報端末、またはノート型もしくは据え置き型のパーソナルコンピュータにより構成される。情報処理装置２は、ＣＰＵ等のハードウェアプロセッサを有する制御部２１に、バス２０を介して記憶部２２、入出力インタフェース（入出力Ｉ／Ｆ）２３および通信インタフェース（通信Ｉ／Ｆ）２４を接続したものとなっている。

　入出力Ｉ／Ｆ２３には、上記ＵＳＢケーブルまたは無線インタフェースを介して上記ＨＭＤ１が接続される。また入出力Ｉ／Ｆ２３には、コントローラ等の操作部２５６が接続される。操作部２５は、ユーザがロボット３の動作を遠隔制御する際に、例えばその制御対象部位、制御方向および制御量を入力するために使用される。

　通信Ｉ／Ｆ２４は、例えば、無線ＬＡＮ、近距離無線データ通信規格（例えばBluetooth（登録商標））または公衆移動通信ネットワークに対応したインタフェースを備え、ネットワーク４を介してロボット３との間でデータ伝送を行う。なお、通信Ｉ／Ｆ２４は、公衆有線網や有線ＬＡＮ、ＣＡＴＶネットワーク等の有線網に対応するインタフェースを備えていてもよい。

　記憶部２２は、記憶媒体として、例えば、Hard Disk Drive（ＨＤＤ）またはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリと、ＲＡＭ等の揮発性メモリとを組み合わせて構成される。その記憶領域には、プログラム記憶領域と、データ記憶領域とが設けられる。プログラム記憶領域には、Operating System(ＯＳ)等のミドルウェアに加えて、この発明の一実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムが格納される。データ記憶領域には、ロボット３から送られた映像データを一時保存する映像データ記憶領域と、制御部２１が種々の処理作業を行うために使用する作業用の記憶領域が設けられている。

　制御部２１は、この発明の一実施形態を実現するための制御処理機能として、遠隔制御信号送信部と、映像データ受信部と、映像表示制御部とを備えている。これらの制御処理機能は、いずれも上記記憶部２２内のプログラム記憶領域に格納されたアプリケーション・プログラムを制御部２１のハードウェアプロセッサに実行させることにより実現される。

　遠隔制御信号送信部は、上記操作部２５において入力された操作データと、ＨＭＤ１の動きセンサ１６により得られた動き検出データとをもとに、ロボット３の動きを制御するための動き制御データを生成する。動き制御データには、ロボット３の制御対象部位、制御方向および制御量を表す情報が含まれる。そして、生成された上記動き制御データを含む遠隔制御信号を、通信Ｉ／Ｆ２４からロボット３へ向け送信する。

　映像データ受信部は、ロボット３からネットワーク４を介して送られる映像データを通信Ｉ／Ｆ２４を介して受信する。そして、受信された映像データを復号処理したのち、記憶部２２内の映像データ記憶領域に一時保存させる。

　映像表示制御部は、上記映像データ記憶領域から読み出した映像データに対し、必要に応じてＡＲ表示またはＶＲ表示のための映像編集処理を行った後、入出力Ｉ／Ｆ２３からＨＭＤ１へ出力して表示させる。

　（２－３）ロボット３
　ロボット３は、例えば図１に示したように胴体部、頭部、腕部および脚部を有する。このうち、頭部、腕部および脚部はそれぞれサーボ機構を備える駆動部により所定の可動範囲内で動作し、これによりロボット３は姿勢を種々変化させることができるようになっている。ロボット３の頭部の前面部、つまり顔に相当する部位には、撮像デバイスとしてのカメラ３４が設置されている。またロボット３の頭部内にはその動きを検出するために動きセンサが設けられている。

　図４および図５は、それぞれロボット３のハードウェア構成およびソフトウェア構成を示すブロック図である。　
　ロボット３は、制御部３１を備える。制御部３１は、ＣＰＵ等のハードウェアプロセッサを有する。この制御部３１には、記憶部３２と、センサインタフェース（センサＩ／Ｆ）３３と、駆動インタフェース（駆動Ｉ／Ｆ）３７と、通信インタフェース（通信Ｉ／Ｆ）３９が、バス３０を介して接続されている。

　センサＩ／Ｆ３３には、上記カメラ３４、動きセンサ３５および位置センサ３６が接続される。カメラ３４は、例えば立体映像を撮像可能な二眼カメラと、パノラマ映像を撮像可能なパノラマカメラとを備える。二眼カメラは、ロボット３の前方方向を所定の視野角（例えば１３０度）で撮像し、得られた立体映像データをセンサＩ／Ｆ３３へ出力する。パノラマカメラは、ロボット３の前方方向から両側方向に渡る範囲を、上記二眼カメラより広い視野角（例えば１８０度）で撮像し、得られたパノラマ映像データをセンサＩ／Ｆ３３へ出力する。

　動きセンサ３５は、例えば６軸の加速度センサからなり、ロボット３の頭部の６軸方向の動きを検出してその検出データをセンサＩ／Ｆ３３へ出力する。位置センサ３６は、例えばGlobal Positioning System（ＧＰＳ）を利用してロボット３の位置を計測するもので、計測された位置データをセンサＩ／Ｆ３３へ出力する。

　駆動Ｉ／Ｆ３７には、上記頭部、腕部および脚部を駆動するための駆動部３８が接続される。駆動Ｉ／Ｆ３７は、制御部３１から出力される制御信号を駆動信号に変換し、変換された駆動信号を駆動部３８へ出力して駆動部３８を動作させる。

　通信Ｉ／Ｆ３９は、例えば、無線ＬＡＮ、近距離無線データ通信規格（例えばBluetooth（登録商標））、または公衆移動通信ネットワークに対応したインタフェースを備え、ネットワーク４を介して情報処理装置２との間でデータ伝送を行う。なお、通信Ｉ／Ｆ３０は、公衆有線網や有線ＬＡＮ、ＣＡＴＶネットワーク等の有線網に対応するインタフェースを備えていてもよい。

　記憶部３２は、例えばＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリやＲＯＭおよびＲＡＭを用いて構成され、プログラム記憶領域とデータ記憶領域とを有する。プログラム記憶領域には、ＯＳ等のミドルウェアに加え、ロボット３の動作を実現するための各種アプリケーション・プログラムが格納される。

　データ記憶領域には、映像データ記憶部３２１と、行動シーン記憶部３２２と、映像パラメータ記憶部３２３が設けられている。

　映像データ記憶部３２１は、カメラ３４により撮像された映像データを、後述する映像処理を行うために一時保存するバッファメモリとして機能する。

　行動シーン記憶部３２２は、ロボット３の行動シーンとして想定される複数のシーンを表す情報を記憶する第１のテーブルと、上記行動シーンをさらに細かく分類した複数のサブシーンを表す情報を記憶する第２のテーブルとを有する。第１のテーブルには、ロボット３の位置、動きおよびカメラ３４の映像の組み合わせに対応づけて、ロボット３の想定される行動シーンを表す情報が記憶されている。また第２のテーブルには、上記第１のテーブルで定義された行動シーンの各々について、さらに映像から想定される複数のサブシーンを表す情報が記憶されている。行動シーンを表す情報およびサブシーンを表す情報については、後に例をあげて説明する。

　なお、上記行動シーン情報およびそのサブシーン情報は、管理者等により予めテーブルに記憶されてもよいが、例えばユーザの端末装置のスケジューラや、その他のユーザの行動を予測するシステムから適宜取得してテーブルに記憶されるようにしてもよい。このようにすると、ユーザごとにその行動を適切に推測し、それに応じた行動シーン情報およびサブシーン情報を設定することが可能となる。

　例えば、スケジューラにミーティングの予定が記載されている場合には、会議資料を読み込む必要があるので、映像パラメータを読書に準じた設定に調整することが可能となり、またスケジューラに野球観戦の予定が記載されていれば、映像パラメータをスポーツ観戦に対応する設定に調整することが可能となる。

　映像パラメータ記憶部３２３は、上記行動シーンごとにその各サブシーンに対応づけて、当該サブシーンに対し予め設定された映像パラメータが記憶されている。この映像パラメータについても、後に例をあげて説明する。

　制御部３１は、この発明の一実施形態に係わる処理機能部として、遠隔制御信号受信部３１１と、動き制御データ抽出部３１２と、駆動制御部３１３と、映像データ取得部３１４と、位置・動き検出データ取得部３１５と、行動シーン判定部３１６と、映像制御部３１７と、映像処理部３１８と、映像送信部３１９とを備えている。これらの制御処理部はいずれも、記憶部３２に記憶されたプログラムを上記制御部３１のハードウェアプロセッサに実行させることにより実現される。

　遠隔制御信号受信部３１１は、情報処理装置２からネットワーク４を介して伝送された遠隔制御信号を通信Ｉ／Ｆ３９を介して受信し、受信された上記遠隔制御信号を動き制御データ抽出部３１２に渡す処理を行う。

　動き制御データ抽出部３１２は、上記遠隔制御信号から動き制御データを抽出して駆動制御部３１３に渡す処理を行う。

　駆動制御部３１３は、抽出された上記動き制御データに含まれる制御対象部位を指定する情報に基づいて対応する駆動部３８を選択し、上記動き制御データに含まれる制御方向および制御量を指定する情報に基づいて、上記選択された駆動部３８を駆動するための駆動制御信号を生成する。そして、生成された上記駆動制御信号を駆動Ｉ／Ｆ３７へ出力する処理を行う。駆動Ｉ／Ｆ３７は、上記駆動制御信号をもとに駆動信号を生成して駆動部３８に与える。

　映像データ取得部３１４は、カメラ３４により撮像された立体映像データまたはパノラマ映像データをセンサＩ／Ｆ３３を介して取り込み、後述する映像処理のために映像データ記憶部３２１に一時保存させる処理を行う。

　位置・動き検出データ取得部３１５は、位置センサ３６により検出された位置データと、動きセンサ３５により検出されたロボット３の頭部の動きを表す動き検出データを、センサＩ／Ｆ３３を介して取り込む処理を行う。

　行動シーン判定部３１６は、上記位置・動き検出データ取得部３１５により取得された位置データおよび動き検出データと、上記映像データ取得部３１４により取得された映像データから、それぞれ特徴量を抽出する。そして、抽出された各特徴量もとに、行動シーン記憶部３２２を参照して、ロボット３の現在の行動シーンおよびそのサブシーンを判定する処理を行う。

　映像制御部３１７は、上記行動シーン判定部３１６により判定された行動シーンおよびそのサブシーンをもとに、当該行動シーンおよびサブシーンに対応する映像パラメータを、映像パラメータ記憶部３２３から選択する。そして、上記映像パラメータを映像処理部３１８に与える。

　映像処理部３１８は、映像データ記憶部３２１から映像データを読み込み、この映像データについて、上記映像制御部３１７から与えられた映像パラメータを調整する処理を行う。なお、映像パラメータの調整処理の一例は後に詳しく述べる。

　映像送信部３１９は、上記映像処理部３１８により映像処理された後の映像データを、通信Ｉ／Ｆ３９から情報処理装置２へ送信する処理を行う。

　（動作例）
　次に、以上のように構成されたロボット３の動作例を説明する。図６は、ロボット３による全体の処理手順と処理内容の一例を示すフローチャートである。

　情報処理装置２から、動き制御データを含む遠隔制御信号が送られると、ロボット３は、遠隔制御信号受信部３１１の制御の下、ステップＳ１１により、上記遠隔制御信号を通信Ｉ／Ｆ３９を介して受信する。そして、動き制御データ抽出部３１２の制御の下で、ステップＳ１２により上記遠隔制御信号から動き制御データを抽出する。

　次にロボット３は、駆動制御部３１３の制御の下、ステップＳ１３において、上記動き制御データに含まれる制御対象部位を指定する情報に基づいて対応する駆動部３８を選択する。そして、上記動き制御データに含まれる制御方向および制御量を指定する情報に基づいて、上記選択された駆動部３８を駆動するための駆動制御信号を生成し、生成された上記駆動制御信号を駆動Ｉ／Ｆ３７へ出力する。この結果、駆動Ｉ／Ｆ３７から駆動部３８に駆動信号が与えられ、駆動部３８が駆動されて対応する部位が動作する。

　例えば、制御対象部位が頭部であれば、それに対応する駆動部３８が駆動され、頭部の向きが例えばパン方向またはチルト方向に変化する。また、制御対象部位が脚部であれば、それに対応する駆動部３８が駆動され、ロボット３は例えば前後方向に歩行動作する。その他の部位についても駆動制御信号に応じて同様に動作する。

　一方、上記頭部または脚部等が動作している状態で、ロボット３の制御部３１は、映像データ取得部３１４の制御の下、ステップＳ１４において、頭部に取り付けられたカメラ３４から映像データをセンサＩ／Ｆ３３を介して取り込み、当該映像データを映像データ記憶部３２１に一時保存させる。

　またそれと共に、ロボット３の制御部３１は、位置・動き検出データ取得部３１５の制御の下、ステップＳ１５において、動きセンサ３５からロボット３の頭部の動きの変化を表す動き検出データをセンサＩ／Ｆ３３を介して取り込む。またステップＳ１６において、位置センサ３６からロボット３の現在位置を示す位置データをセンサＩ／Ｆ３３を介して取り込む。

　次にロボット３の制御部３１は、行動シーン判定部３１６および映像制御部３１７の制御の下、ステップＳ２０において、ロボット３の現在の行動シーンの判定および映像パラメータの選択処理を以下のように実行する。図７はその処理手順と処理内容を示すフローチャートである。

　すなわち、行動シーン判定部３１６は、まずステップＳ２１において、上記位置・動き検出データ取得部３１５により取得された位置データおよび動き検出データと、映像データ取得部３１４により取得された映像データから、それぞれ特徴量を判定する。そして、判定された各特徴量をもとに行動シーン記憶部３２２を検索し、ロボット３の行動シーンを判定する。

　例えば、いま行動シーン記憶部３２２の第１のテーブルに図８に示す行動シーン情報が記憶されているものとする。この状態で、行動シーン判定部３１６は、まず位置データと記憶部３２に記憶されている地図データとをもとに、ロボット３の位置を示す特徴量が「自宅」であると判定する。また、動き検出データをもとに、ロボット３の動きを示す特徴量が「静止状態」であると判定する。さらに映像データに写っている「書籍」を特徴量として判定する。そして、行動シーン判定部３１６は、行動シーン記憶部３２２の第１のテーブルに記憶されている、図８に示す行動シーン情報に基づいて、ロボット３の現在の行動シーンを「読書」と判定する。

　同様に、ロボット３の現在位置の特徴量が「図書館」で、ロボット３の動きの特徴量が「静止状態」と判定され、さらに映像から抽出される特徴量が「書籍」であれば、行動シーン判定部３１６は、図８に示す行動シーン情報に基づいて、ロボット３のこのときの行動シーンも「読書」と判定する。なお、ロボット３の現在位置の特徴量が「自宅」で、ロボット３の動きの特徴量が「動作状態」と判定され、さらに映像から抽出された特徴量が「キッチン」であれば、行動シーン判定部３１６は、ロボット３のこのときの行動シーンを「料理」と判定する。

　一方、位置データと記憶部３２に記憶されている地図データとからロボット３の現在位置の特徴量が「スポーツセンタ」と判定され、また動き検出データによりロボット３の動きの特徴量が「静止状態」と判定され、さらに映像データから抽出される特徴量が「フィールドまたはコート」だったとする。この場合行動シーン判定部３１６は、図８に示す行動シーン情報をもとに、ロボット３の現在の行動シーンを「スポーツ観戦」であると判定する。

　上記ステップＳ２１において「読書」と判定されると、次に行動シーン判定部３１６は、ステップＳ２２において、映像データから抽出された上記特徴量と、行動シーン記憶部３２２の第２のテーブルに記憶されたサブシーン情報とをもとに、読書シーンからさらに分類されるサブシーンを判定する。

　例えば、いま第２のテーブルに図９に例示するようなサブシーン情報が記憶され、映像データから抽出された特徴量である「書籍」の画像が「モノクロ主体」だったとする。この場合行動シーン判定部３１６は、サブシーンを単行本や文庫本などの「文芸書」の読書シーンであると判定する。これに対し、映像データから抽出された特徴量である「書籍」の画像が「カラー主体」だったとする。この場合行動シーン判定部３１６は、サブシーンをグラビア、絵本または図鑑などの「参考書類」の読書シーンであると判定する。

　上記のようにサブシーンが判定されると、ロボット３の制御部３１は、次に映像制御部３１７の制御の下、映像パラメータ記憶部３２３を参照して、上記サブシーンに対応して設定された映像パラメータを選択する。

　例えば、いま映像パラメータ記憶部３２３に、図１０に示す映像パラメータ情報が記憶されていたとする。この場合映像制御部３１７は、判定された上記サブシーンが「文芸書」だったとすると、ステップＳ２３において、上記文芸書を映像により読む際に優先される映像パラメータとして「空間解像度」と共に「輝度」を選択する。これに対し、判定された上記サブシーンが「参考書類」だったとすると、映像制御部３１７はステップＳ２４において、参考書類を映像で読む際に優先される映像パラメータとして「空間解像度」と共に「色調」を選択する。

　上記映像パラメータが選択されるとロボット３の制御部３１は、映像処理部３１８の制御の下、ステップＳ１７において、映像データ記憶部３２１から読み出した映像データについて、上記選択された映像パラメータを調整する処理を行う。そして、調整後の映像データを、映像送信部３１９の制御の下、ステップＳ１８により通信Ｉ／Ｆ３９から情報処理装置２へ送信する。

　例えば、映像パラメータとして「空間解像度」と「輝度」が選択された場合には、映像処理部３１８は、映像データに対し、例えば空間解像度を予め設定された高解像度となるように映像処理を行い、さらに輝度を所定レベルまで高める処理を行う。そして映像送信部３１９が、上記処理後の映像データを情報処理装置２へ送信する。これに対し、映像パラメータとして「空間解像度」と「色調」が選択された場合には、映像処理部３１８は、映像データに対し、例えば空間解像度を予め設定された高解像度となるように映像処理を行い、さらに色の彩度を所定レベルに高める処理を行う。そして映像送信部３１９が、上記映像処理後の映像データを情報処理装置２へ送信する。

　この結果、ユーザは、ロボット３が撮像した書籍をＨＭＤ１により読む場合に、文芸書であれば高解像度でかつ輝度が高く設定された映像により文字を明確に視認することが可能となる。これに対し、絵本や図鑑などの参考書類を読む場合に、ユーザは高解像度でかつ彩度が高められた映像により絵や写真を鮮明に視認することが可能となる。

　なお、「輝度」の調整手法としては、映像データに対し行うもの以外に、カメラのいわゆる絞り機能を調整することにより行うものを使用してもよい。

　一方、上記ステップＳ２１においてロボット３の行動シーンが「スポーツ観戦」と判定されると、行動シーン判定部３１６は、次にステップＳ２５において、映像データと、行動シーン記憶部３２２の第２のテーブルに記憶されたサブシーン情報とをもとに、「スポーツ観戦」からその小分類であるサブシーンを判定する。

　例えば、いま映像データから抽出される特徴量が「屋外」であれば、行動シーン判定部３１６はサブシーンとして、サッカーやラグビーなどの「フィールドゲーム」を観戦していると判定する。これに対し、映像データから抽出される特徴量が「屋内」であれば、行動シーン判定部３１６はサブシーンとして、バスケットボールやバレーボールなどの「コートゲーム」を観戦していると判定する。

　そして、上記サブシーンが判定されると、ロボット３の制御部３１は、次に映像制御部３１７の制御の下、映像パラメータ記憶部３２３を参照して、上記サブシーンに対応して設定された映像パラメータを選択する。

　例えば、いまサブシーンが「フィールドゲーム」と判定されると、映像制御部３１７はステップＳ２６において、上記フィールドゲームを映像により観戦する際に優先される映像パラメータとして、「時間解像度」と「視野角」を選択する。これに対し、サブシーンが「コートゲーム」と判定された場合には、映像制御部３１７はステップＳ２７において、上記コートゲームを映像により観戦する際に優先される映像パラメータとして、「時間解像度」と「立体感」を選択する。

　次にロボット３の制御部３１は、映像処理部３１８の制御の下、ステップＳ１７において、映像データについて、上記選択された映像パラメータを調整する処理を行う。そして、映像パラメータが調整された映像データを、映像送信部３１９の制御の下、ステップＳ１８により通信Ｉ／Ｆ３９から情報処理装置２へ送信する。

　例えば、映像パラメータとして「時間解像度」と「視野角」が選択された場合には、映像処理部３１８は映像データ記憶部３２１からフレームレートが高くかつ視野角の大きいパノラマ映像データを選択的に読み出す。そして映像送信部３１９が、上記パノラマ映像データを情報処理装置２へ送信する。これに対し、映像パラメータとして「時間解像度」と「立体感」が選択された場合には、映像処理部３１８は映像データ記憶部３２１からフレームレートが高くかつ立体感を有する立体映像データを選択的に読み出す。そして映像送信部３１９が、上記立体映像データを情報処理装置２へ送信する。

　なお、上記パノラマ映像と立体映像の選択は、カメラ３４に対し撮像モードの切り替え指示を与えて、カメラ３４から出力される映像データを切り替えることにより行われてもよい。また、パノラマ映像のみではフレームレートが不足する場合には、パノラマ映像と立体映像とを座標位置を合わせて合成するようにしてもよいが、フィールドゲームを観戦する場合は一般にカメラからフィールドまでの距離が遠いため、フレームレートがそれほど高くなくても視聴上の影響は少ない。

　以上によりユーザは、ロボット３がスタジアムなどで撮像したフィールドゲームの映像をＨＭＤ１により視聴しようとする場合に、視野角の広いパノラマ映像により広範囲に渡ってもれなく見ることが可能となる。一方、ロボット３がアリーナなどで撮像したコートゲームの映像をＨＭＤ１で見ようとする場合に、ユーザはフレームレートの高い立体映像により臨場感のある映像を見ることが可能となる。

　（作用・効果）
　以上述べたように一実施形態では、遠隔地のロボット３において、その位置および動きの検出データと映像データとから導出される特徴量をもとにロボット３の行動シーンが判定され、判定された上記行動シーンに対応した映像パラメータが選択される。そして、映像データについて上記選択された映像パラメータを調整する処理が行われ、この処理後の映像データがネットワーク４を介してユーザ側の情報処理装置２に送られ、ＨＭＤ１に表示される。

　従って、遠隔地におけるロボット３からユーザ側の情報処理装置２に対し、ロボット３の行動シーンに応じて映像パラメータが調整された映像データを送信することが可能となる。このため、ユーザは、自身が遠隔制御をするロボット３の行動シーンごとに、各々それに適した映像パラメータにより映像処理されたリモート映像を視聴することが可能となり、これによりリモート映像の視認性を高めることができる。

　また、上記映像データに対する映像パラメータの調整処理がロボット３において自律的に行われる。このため、ユーザ側の装置、つまり情報処理装置２またはＨＭＤ１に、上記映像パラメータを調整するための特殊な処理機能を備える必要がなく、これによりユーザは汎用の情報処理装置２またはＨＭＤ１を使用できる利点がある。

　［その他の実施形態］
　（１）前記一実施形態では、ロボット３の行動シーンの判定結果に応じてそれに適した映像パラメータを選択し、映像データに対し上記選択された映像パラメータを調整する場合を例にとって説明した。しかし、この発明はそれに限定されるものではない。例えば、ロボット３の行動シーンの判定結果に応じてそれに適した撮像モードを選択し、カメラに対し上記選択された撮像モードを設定して、これにより撮像された映像データをユーザ装置へ伝送するようにしてもよい。

　一般にカメラには、例えば、低い時間解像度（１５FPSFPS）で高い空間解像度（４K）で撮像するモードや、高い時間解像度（１２０FPS）で低い空間解像度（VGA）で撮影するモード等、複数の撮像モードが備えられている。

　そこで、ロボット３の行動シーンに応じて上記撮像モードを選択的にカメラに設定し、この条件の下で撮像を行えば、上記ロボット３の行動シーンに適した時間解像度または空間解像度を有する映像データをユーザ装置へ送信することが可能となり、前記一実施形態と同様の効果を奏することができる。

　（２）前記一実施形態では、情報処理装置２から送信される遠隔制御信号に応じてロボット３を遠隔制御する場合を例にとって説明した。しかし、この発明はそれに限定されるものではなく、ロボット３が予め設定されたプログラムに従い自律的に行動する場合に、ロボット３が自己の行動シーンを判定して、当該行動シーンに応じた映像パラメータを選択し、映像データに対し上記選択された映像パラメータを調整する処理を行い、調整処理後の映像データをユーザ側の情報処理装置２へ送信するように構成してもよい。

　（３）前記一実施形態では、予め用意された行動シーン情報および映像パラメータ情報を記憶したメモリテーブルを設け、このメモリテーブルを参照して行動シーンおよびサブシーンの判定および映像パラメータの選択を行うようにした。しかし、この発明はそれに限るものではない。例えば、ディープラーニングなどの機械学習を使用して最適な映像パラメータを選択するようにしてもよい。これは、例えばロボットの位置データ、動き検出データおよび映像データ等からそれぞれ特徴量を抽出し、抽出された各特徴量を学習済みの学習モデルに入力し、当該学習モデルから最適な映像パラメータを出力することにより実現できる。

　（４）前記一実施形態では、ＨＭＤ１とは別に設けた情報処理装置２により、ロボット３との間のデータ通信および映像表示制御等を行うようにした。しかし、ＨＭＤ１が情報処理装置２の機能を備える場合、つまり情報処理装置と一体型のＨＭＤを使用する場合には、ＨＭＤ１においてロボット３との間のデータ通信および映像表示制御等を行うように構成してもよい。

　（５）遠隔作業装置としては、人型のロボットに限らず、室内または屋外に固定的に設置された可動式のリモートカメラやスマートスピーカが使用されてもよい。その他、遠隔作業装置の種類やその構成および処理内容、カメラが有する撮像モードの種類や数、ユーザ装置の種類や構成、リモート映像の種類等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。

　以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

　要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　１…ヘッドマウントディスプレイ（ＨＭＤ）
　２…情報処理装置
　３…ロボット
　４…ネットワーク
　１０，２０，３０…バス
　１１，２１，３１…制御部
　１２，２２，３２…記憶部
　１３…表示インタフェース（表示Ｉ／Ｆ）
　１４…表示部
　１５，３３…センサインタフェース（センサＩ／Ｆ）
　１６，３５…動きセンサ
　１７，２４，３９…通信インタフェース（通信Ｉ／Ｆ）
　２３…入出力インタフェース（入出力Ｉ／Ｆ）
　２５…操作部
　３４…カメラ
　３５…動きセンサ
　３６…位置センサ
　３７…駆動インタフェース（駆動Ｉ／Ｆ）
　３８…駆動部
　３１１…遠隔制御信号受信部
　３１２…動き制御データ抽出部
　３１３…駆動制御部
　３１４…映像データ取得部
　３１５…位置・動き検出データ取得部
　３１６…行動シーン判定部
　３１７…映像制御部
　３１８…映像処理部
　３１９…映像送信部
　３２１…映像データ記憶部
　３２２…行動シーン記憶部
　３２３…映像パラメータ記憶部

Claims

　表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、
　カメラから、当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、
　センサから、当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、
　取得された前記映像データおよび前記状態検出データに基づいて、前記遠隔作業装置の行動シーンを判定する判定部と、
　判定された前記行動シーンに応じて、調整対象の映像パラメータを選択する選択部と、　前記映像データについて、選択された映像パラメータを調整する制御部と、
　前記映像パラメータが調整された後の前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部と
　を具備する遠隔作業装置。
　表示部に接続されるユーザ装置との間でネットワークを介して通信が可能な遠隔作業装置であって、
　カメラから、当該カメラにより撮像された対象の映像データを取得する映像データ取得部と、
　センサから、当該センサにより検出された前記遠隔作業装置の位置および動作の少なくとも一方を表す状態検出データを取得する状態検出データ取得部と、
　取得された前記映像データおよび前記状態検出データに基づいて、前記遠隔作業装置の行動シーンを判定する判定部と、
　判定された前記行動シーンに対応する撮像モードを選択する選択部と、
　前記カメラに対し、選択された前記撮像モードを設定する制御部と、
　前記設定された撮像モードを用いて前記カメラにより撮像された前記映像データを、前記ネットワークを介して前記ユーザ装置へ送信する送信部と
　を具備する遠隔作業装置。
　前記判定部は、前記映像データおよび前記状態検出データに基づいて、前記行動シーンが、主として静止状態の対象を前記カメラにより撮像する第１のシーンであるかを判定し、
　前記選択部は、前記行動シーンが前記第１のシーンと判定された場合に、前記映像パラメータまたは前記撮像モードとして空間解像度を選択し、
　前記制御部は、前記映像データについて前記選択された空間解像度を調整する処理、または前記カメラに対し前記選択された空間解像度を得るための撮像モードを設定する処理を行う、
　請求項１または２に記載の遠隔作業装置。
　前記判定部は、前記映像データおよび前記状態検出データに基づいて、前記行動シーンが、主として移動状態の対象を前記カメラにより撮像する第２のシーンであるかを判定し、
　前記選択部は、前記行動シーンが前記第２のシーンと判定された場合に、前記映像パラメータまたは前記撮像モードとして時間解像度を選択し、
　前記制御部は、前記映像データについて前記選択された時間解像度を調整する処理、または前記カメラに対し前記選択された空間解像度を得るための撮像モードを設定する処理を行う、
　請求項１または２に記載の遠隔作業装置。
　前記判定部は、前記行動シーンが前記第１のシーンと判定された場合に、前記映像データに基づいて前記対象の色調がモノクロを主体とするかを、さらに判定し、
　前記選択部は、前記対象の色調がモノクロを主体とすると判定された場合に、前記映像パラメータとして輝度をさらに選択し、
　前記制御部は、前記映像データについて前記選択された輝度をさらに調整する処理、または前記カメラに対し前記選択された輝度を得るための撮像モードを設定する処理を行う、
　請求項３に記載の遠隔作業装置。
　前記判定部は、前記行動シーンが前記第１のシーンと判定された場合に、前記映像データに基づいて前記対象の色調がカラーを主体とするかを、さらに判定し、
　前記選択部は、前記対象の色調がカラーを主体とすると判定された場合に、前記映像パラメータまたは前記撮像モードとして色調をさらに選択し、
　前記制御は、前記映像データについて前記選択された色調をさらに調整する処理、または前記カメラに対し前記選択された色調を得るための撮像モードを設定する処理を行う、
　請求項３に記載の遠隔作業装置。
　前記判定部は、前記行動シーンが前記第２のシーンと判定された場合に、前記映像データに基づいて前記対象が屋外であるかを判定し、
　前記選択部は、前記対象が屋外と判定された場合に、前記映像パラメータまたは前記撮像モードとして視野角をさらに選択し、
　前記制御部は、前記映像データについて前記選択された視野角をさらに調整する処理、または前記カメラに対し前記選択された視野角を得るための撮像モードを設定する処理を行う、
　請求項４に記載の遠隔作業装置。
　前記判定部は、前記行動シーンが前記第２のシーンと判定された場合に、前記映像データに基づいて前記対象が屋内であるかを判定し、
　前記選択部は、前記対象が屋内と判定された場合に、前記映像パラメータまたは前記撮像モードとして立体感をさらに選択し、
　前記制御部は、前記映像データについて前記選択された立体感をさらに調整する処理、または前記カメラに対し前記選択された立体感を得るための撮像モードを設定する処理を行う、
　請求項４に記載の遠隔作業装置。
　請求項１乃至８のいずれかに記載の遠隔作業装置が具備する前記各部による処理を、前記遠隔作業装置が備えるプロセッサに実行させるプログラム。