WO2017013986A1

WO2017013986A1 - 情報処理装置、端末、および、遠隔通信システム

Info

Publication number: WO2017013986A1
Application number: PCT/JP2016/068390
Authority: WO
Inventors: 拓人市川; 大津　誠; 太一三宅
Original assignee: シャープ株式会社
Priority date: 2015-07-17
Filing date: 2016-06-21
Publication date: 2017-01-26
Also published as: JPWO2017013986A1; US20180211445A1

Abstract

同一空間ではあるが、異なる位置にいる複数の作業者に対して効率的な指示を行うことが可能な技術を提供する。第１の視点から撮影された第１の画像、および、第２の視点から撮影された第２の画像を取得する特徴点検出部（１５０１）と、第１の画像に重畳されたマーカーの位置情報である第１の位置情報を取得するマーカー情報保管部（１５００）と、第１の画像、および、第２の画像を参照して、当該第１の画像を当該第２の画像に変換するための画像間変換パラメータを算出する画像間変換パラメータ算出部（１５０４）と、画像間変換パラメータを参照して、第１の位置情報を、第２の画像に重畳されるマーカーの位置情報である第２の位置情報に変換するマーカー情報変換部（１５０５）と、を備えた指示装置（１１１２）。

Description

情報処理装置、端末、および、遠隔通信システム

　本発明は、少なくとも２つの視点から撮影された画像に関する処理を行う情報処理装置、端末、および、遠隔通信システムに関する。

　知識、経験、ノウハウが重要視される作業の現場において、その作業に習練していない人員に対して、有識者や熟練者が、作業手順、判断基準、問題の対処法等の指示を行うことは多い。その際に、指示を行う側（以下、指示者と称す）と、指示を受ける側（以下、作業者と称す）と、が同じ場所にいて、対面でコミュニケーションを取りながら指示を行うことができれば、作業者は、作業者から効率的な指示を受けることができる。しかし、指示者と、作業者とが同じ場所にいない場合、作業者は、指示者から効率的な指示を受けることはできない。

　指示者と、作業者とが同じ場所にいない場合に、作業者が指示者から指示を受ける方法として、マニュアルによる指示がある。この方法では、マニュアルに記載されていない突発的な問題や、状況に応じて経験的に判断しなければならない事例等については、作業者は指示を受けることができない。

　指示者と、作業者とが同じ場所にいない場合に、作業者が、指示者から指示を受ける別の方法として、テレビ電話（ビデオ電話）を用いて、遠隔地にいる指示者から指示を受ける方法がある。作業者は、作業箇所や作業の様子を撮影して、その映像を指示者に送信し、指示者は、受信した映像をもとに主に音声によって指示を伝達する。この方法では、マニュアルに記載されていない突発的な問題や、状況に応じて経験的に判断しなければならない事例等についても、作業者は指示者から指示を受けることができる。しかし、指示者は、実物を指さして、視覚的な指示をすることはできない。この課題を解決するために、指示者は、「ここに」「あれを」といった曖昧な表現を含めた指示ではなく、「右端から何番目の上から何番目」といった位置を特定できる表現を用いた指示を行う必要がある。しかし、作業者が絶えず動いている場合、指示者にとっては「三番目」の場所が、作業者にとっては「四番目」やそれ以外の場所となっており、正確に指示内容を伝えることができず、作業効率が低下するという課題が挙げられる。また、「右端から何番目の上から何番目」といった会話は、普段の会話で用いる表現とは異なっており、指示者にかかる負荷が大きいという課題もある。

　テレビ電話（ビデオ電話）による指示の課題を解決する方法として、実写の映像上にコンピュータグラフィックス（ＣＧ：ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）を重畳描画する拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）技術を用いる手段がある。ＡＲ技術は、ＣＧで作成した絵柄、符号、文字などの目印を、あたかもその場所にあるかのように、映像上に描画することができる。特許文献１及び非特許文献１には、ＡＲ技術を用いたＡＲ型作業支援方法について開示されている。

　特許文献１及び非特許文献１には、作業者は、撮影した映像（以下、撮影映像と称す）を指示者に送信し、指示者は、作業者から受信した映像上で、目印を指示箇所に設置した映像（以下、合成映像と称す）を作業者に送信することで、作業者に対し視覚的に指示に関する位置を提示する方法が記載されている。特許文献１では、作業者が頭部装着式映像表示装置を表示装置として用いる手法について記載されている。非特許文献１では、作業者が携帯端末を表示装置として用いる手法について記載されている。特許文献１及び非特許文献１の手法は、指示者が指示する箇所が視覚的に明示されているため、テレビ電話（ビデオ電話）と比べて、効率的な指示を行える利点がある。

日本国公開特許公報「特開２００８－１２４７９５号公報」

ＡＲサポート機能、東日本電信電話株式会社ｈｔｔｐ：／／ｗｗｗ．ｎｔｔ－ｅａｓｔ．ｃｏ．ｊｐ／ｒｅｌｅａｓｅ／ｄｅｔａｉｌ／２０１３１０２４＿０１．ｈｔｍｌ

　しかし、特許文献１及び非特許文献１に記載の手法は、同一空間ではあるが、異なる位置に複数の作業者がいる場合に、指示の効率が低下する、という課題がある。同一空間ではあるが、異なる位置に複数の作業者がいる場合に、特許文献１及び非特許文献１に記載の方法を用いて、指示者が作業者に指示を行う方法として、定点カメラで撮影した映像に対して、指示者が目印を指示箇所に設置して指示を行う方法と、全作業者が撮影した映像のそれぞれに対して、指示者が目印を指示箇所に設置して指示を行う方法と、がある。

　定点カメラで撮影した映像に対して、指示者が目印を指示箇所に設置して指示を行う方法では、作業者が作業対象物を規定の位置で撮影する定点カメラを用意し、この定点カメラで撮影した映像（以下、定点撮影映像と称す）を指示者に送信する。指示者は、受信した定点撮影映像に対して、目印を指示箇所に設置し、全作業者に送信する。この方法では、作業者が作業を行う位置と、定点カメラが撮影した位置と、が一致しないため、作業者は、指示箇所と、作業箇所と、を目視で判断する必要があり、作業効率が低下する、という課題がある。

　全作業者が撮影した映像のそれぞれに対して、指示者が目印を指示箇所に設置して指示を行う方法では、指示者は、全作業者に共通する指示を行う場合、同じ指示を各作業者に行うことになり、効率的な指示を行うことができない。また、作業者ごとに指示を行うタイミングが異なるため、指示者は、即時性が求められる内容の指示を、同時に全作業者に行うことができない。また、指示者が指示箇所を判断するためには、指示者は、各作業者が撮影した位置を、受信した映像から判断する必要があり、指示効率が低下する、という課題がある。

　本発明は、以上の課題を鑑みてなされたものであり、同一空間ではあるが、異なる位置にいる複数の作業者に対して効率的な指示を行うことが可能な技術を提供することを目的とする。

　上記課題を解決するために、本発明の一態様に係る情報処理装置は、少なくとも２つの視点から撮影された画像に関する処理を行う情報処理装置であって、第１の視点から撮影された第１の画像、および、第２の視点から撮影された第２の画像を取得する画像取得部と、前記第１の画像に重畳されたマーカーの位置情報である第１の位置情報を取得する位置情報取得部と、前記第１の画像、および、前記第２の画像を参照して、当該第１の画像を当該第２の画像に変換するための画像間変換パラメータを算出する画像間変換パラメータ算出部と、前記画像間変換パラメータを参照して、前記第１の位置情報を、前記第２の画像に重畳されるマーカーの位置情報である第２の位置情報に変換するマーカー情報変換部と、を備えている。

　本発明によれば、同一空間ではあるが、異なる位置にいる複数の作業者に対して効率的な指示を行うことができる。

本実施形態に係るテレコミュニケーション装置の利用シーンの一例を示す模式図である。本実施形態に係る作業端末および指示装置の画面の表示内容を示す図であり、（ａ）は作業端末の画面の表示内容を示し、（ｂ）は指示装置の画面の表示内容を示す。本実施形態に係る遠隔通信システムの構成を示す構成図である。本実施形態に係る指示装置の構成例を示すブロック図である。本実施形態に係るマーカー情報管理部の構成を示すブロック図である。本実施形態に係るマーカー情報の一例を示す図である。本実施形態に係る映像およびマーカーの合成処理を説明するための図である。本実施形態に係る指示装置の処理を示すフローチャートである。本実施形態に係るマーカー情報管理部がマーカー情報を登録、削除する処理の一例を示すフローチャートである。本実施形態に係る作業端末の構成を示すブロック図である。本実施形態に係る対応画素の追跡による画像間変換パラメータの算出を説明するための図である。本実施形態に係る表示装置において２つの表示画像の向きを揃えた例を示す図である。本実施形態に係る表示装置の表示画面に１つの作業者画面のみを表示した例を示す図である。本実施形態に係る作業者の映像によって表示内容が異なる例を示す図である。本実施形態に係る指示操作に用いられている画像の撮影範囲と、撮影方向とを表示する例を示す図であり、（ａ）は作業端末の画面の表示内容を示し、（ｂ）は指示装置の画面の表示内容を示す。

　以下、図面を参照しながら本発明の実施の形態について詳細に説明する。図面において同じ機能を有する部分については同じ符号を付し、繰り返しの説明は省略する。

　〔第１の実施の形態〕
　本実施形態においては、本発明における基本的な構成について説明する。具体的には、撮影映像内にコンピュータグラフィックス（ＣＧ：ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）で作成された作業指示を合成して表示された合成映像を見ながら作業できる拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）型作業支援において、同一空間ではあるが、異なる位置にいる複数の作業者に向けて、表示する合成映像の見え方を、適切に制御する方法について説明する。

　特に、本実施形態では、基準となる映像から検出した特徴点を記述する特徴量と、基準とは異なる映像から検出した特徴点を記述する特徴量とを比較することによって、対応する特徴点を特定し、画像間変換パラメータを求める例について説明する。なお、画像間変換パラメータの詳細は、後述する。

　〈装置の利用シーン〉
　図１は、本実施形態に係るテレコミュニケーション装置Ａの利用シーンの一例を示す模式図である。図１の左側が作業の現場１１００であり、図１の右側が指示室１１１０を示しており、お互いに離れたところに位置している。このシーンは、作業現場１１００にいる作業者１１０１と作業者１１０４とが、指示室１１１０にいる指示者１１１１から、作業対象１１０２に関する作業指示を、作業端末（端末）１１０３、あるいは、１１０５で受けながら、作業を行なっているシーンである。作業対象１１０２の修理を行っている作業者１１０１と作業者１１０４とが、当該作業者を監督する指示者１１１１から修理に関する指示をもらっている例である。

　作業端末１１０３と作業端末１１０５の背面には、それぞれ、撮影用のカメラ１１０３ａとカメラ１１０５ａを具備しており、作業対象１１０２を撮影することができる。ここで、カメラ１１０３ａで撮影した画像を、第１の視点で撮影した画像と称す。また、カメラ１１０５ａで撮影した画像を、第２の視点で撮影した画像と称す。作業端末１１０３と作業端末１１０５は、それぞれ、撮影映像を遠隔地に送信することもできる。

　指示室１１１０に設置された指示装置（情報処理装置）１１１２は、遠隔地の作業端末１１０３と、作業端末１１０５とから送られてきた撮影映像を受信し、それらの映像を表示装置１１１３に表示させることができる。そして、表示装置１１１３に表示された作業対象の映像を見ながら、指示者１１１１は、表示装置１１１３上で、作業者１１０１、あるいは、作業者１１０４に対して作業指示を行う。

　図２を参照して、作業端末１１０３、１１０５、および、指示装置１１１２の表示装置１１１３に表示される表示内容と、ＡＲ重畳された指示内容の表示のされ方とについて詳しく説明する。図２は、本実施形態に係る作業端末１１０３、１１０５、および、指示装置１１１２の画面の表示内容を示す図である。図２（ａ）は、作業端末１１０３、および、１１０５の画面の表示内容を示す図である。図２（ｂ）は、指示装置１１１２の画面の表示内容を示す図である。

　指示者１１１１が見ている表示装置１１１３の画面には、作業者１１０１から受信した、第１の視点で撮影した画像１２００と、作業者１１０４から受信した、第２の視点で撮影した画像１２０１とが、画面内に分割されて表示されている。指示者１１１１は、表示映像１２００あるいは１２０１に、タッチパネル機能やマウス機能などを利用して入力した、指示位置を示すポインタやマーカー等を重畳させることができる。一方の映像内にマーカー等により示された指示位置は、同時に、他方の映像内の対応する指示位置に変換されて、他方の映像内の当該指示位置を示すようにマーカー等が表示される。以下、ポインタやマーカー等を表示画面上に表示させるための情報を総称して、マーカー情報と称し、詳細は後ほど説明する。マーカー情報には、テキストや絵柄などを表示画面上に表示させるための情報を含めることも可能である。また、マーカー情報には、マーカーの位置情報が含まれる。

　マーカー情報は、指示装置１１１２から作業端末１１０３あるいは作業端末１１０５に送られ、そのマーカー情報を受け取った作業端末１１０３、１１０５は、作業対象を撮影した映像内にマーカーを重畳して表示する。

　なお、指示装置１１１２が、マーカーが重畳された映像を作業端末１１０３あるいは作業端末１１０５に送信し、作業端末１１０３、１１０５は、マーカーが重畳された映像を受信して、当該映像をそのまま表示する構成としてもよい。

　作業者は、作業端末の表示部においてその映像を見ることができ、これにより、遠隔地（指示室１１１０）からの作業指示を視覚的に把握することができるようになる。尚、作業者１１０１あるいは作業者１１０４の入力に基づいて、映像の上にマーカーを重畳させることも可能であり、作業者１１０１、１１０４と、指示者１１１１とがマーカー情報を共有することができる。図１の指示者の端末の形態はどのような形状でも良く、作業者が用いているようなタブレット状の装置を用いることも可能である。作業者の端末の形状もどの様な形状であってもよい。

　なお、作業者が３名以上の場合であっても同様である。

　〈遠隔通信〉
　図３は、本実施形態に係る遠隔通信システムの構成を示す構成図である。作業端末１１０３、作業端末１１０５と、指示装置１１１２とは、図３に示すような公衆通信網（例えば、インターネット）ＮＴによって、お互いに接続されており、ＴＣＰ／ＩＰやＵＤＰ等のプロトコルに従い、通信することができる。

　本実施の形態によるテレコミュニケーション装置Ａには、さらに、マーカー情報を一括して管理するための管理サーバー１３００が設けられ、同じ公衆通信網ＮＴに接続されている。尚、作業端末１１０３あるいは作業端末１１０５は、無線通信によって公衆通信網ＮＴと接続することも可能である。この場合、無線通信は、例えばＷｉ－ＦｉＡｌｌｉａｎｃｅ（米国業界団体）によって規定された国際標準規格（ＩＥＥＥ８０２．１１）のＷｉ－Ｆｉ（ワイファイ、ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ：登録商標）接続によって実現することが可能である。通信網に関しては、インターネットなどの公衆通信網について示してきたが、例えば、企業などで使用されている、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）を用いることも可能であり、また、それらが混在した構成であってもよい。

　図３では、管理サーバー１３００を用いた構成を示しているが、管理サーバーの機能を指示装置１１１２内に盛り込むことにより、直接、作業端末１１０３、作業端末１１０５と、指示装置１１１２とがやりとりする形態でも問題はない。そこで、以下の説明では、作業端末１１０３、作業端末１１０５と、指示装置１１１２とが直接やり取りする方法について記載する。また、通常のテレビ会議システムで用いられる、一般的な音声通信処理や付加画面情報以外の映像通信処理に関しては、支障のない範囲で説明を省略する。

　〈構成例〉
　続いて、本実施形態に係るテレコミュニケーション装置の構成例について説明する。前述したように、テレコミュニケーション装置Ａには、指示者の指示装置１１１２と、作業者の作業端末１１０３、１１０５とがあり、それぞれについて順番に説明する。

　〈指示装置の構成〉
　図４は、本実施形態に係る指示装置１１１２の構成例を示すブロック図である。

　指示装置１１１２は、外部から送られてくる映像やマーカー情報の受信と、内部で生成するマーカー情報を外部に送信するための通信部１４００と、映像にマーカー情報の示すマーカーを合成する映像合成部１４０１と、合成映像を表示するための表示部１４０２と、ユーザからの入力を受け入れるための外部入出力部１４０３と、映像そのもの、または、映像処理の出力結果、マーカー情報、映像処理に利用する種々のデータを保存する保存部１４０４と、マーカー情報を管理するためのマーカー情報管理部１４０５と、指示装置１１１２全体の制御を行うための制御部１４０６と、各々のブロック間でのデータのやり取りを行うためのデータバス１４０７とを有している。

　通信部１４００は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などによって構成され、外部とデータの送受信を行う処理ブロックである。具体的には、後述する作業端末から送られてくる映像符号およびマーカー情報の受信と、内部で作りだすマーカー情報の送信処理を行う。映像符号は、動画像の符号化に適した符号化処理が実行されたデータであり、例えばＨ．２６４によって符号化されたデータである。Ｈ．２６４符号化とは、動画データの圧縮符号化方式の標準の一つであり、ＩＳＯ（国際標準化機構）によって規格化された方式である。

　映像合成部１４０１は、ＦＰＧＡやＡＳＩＣ、あるいは、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などによって構成され、入力した映像に、後述するマーカー情報管理部１４０５において管理されているマーカー情報を合成する処理を行う。マーカー情報とは、マーカーやポインタなどの視覚的に表現できる指示内容を生成する際に必要な情報である。

　図６は、本実施形態に係るマーカー情報１６００の一例を示す図である。図６に示すように、マーカー情報１６００は、各種の属性（ＩＤ、タイムスタンプ、座標、登録時周辺局所画像、マーカー種類、色、大きさ、太さ）を含んでおり、位置や形状等の表示状態を制御するための情報群である。図６に記載の属性は一例であり、マーカー情報１６００は図６に記載の属性の一部を有する構成としてもよいし、図６に記載の属性に加えて、追加の属性情報を有する構成としてもよい。

　図７は、本実施形態に係る映像１７００およびマーカー１７０１の合成処理を説明するための図である。図７に示すように、入力された映像１７００に対して、マーカー情報１６００に含まれる属性に従って生成したマーカー１７０１（位置と形状）を合成し、合成映像１７０２が生成される。

　表示部１４０２は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）や有機ＥＬディスプレイ（ＯＥＬＤ：ＯｒｇａｎｉｃＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙ）などによって構成され、映像合成部１４０１から出力された合成映像、映像処理結果、保存部１４０４に保存された画像や、装置を制御するためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）などを表示する。また、表示部１４０２は、その表示面を押すことで端末を操作することができるようなタッチパネルの機能を具備させることもでき、本機能を用いることで、前述のマーカーの設置する場所などを指定することができる。なお、表示部１４０２は、外部入出力部１４０３を介して、指示装置１１１２の外部に外付け設置される構成としてもよい。

　外部入出力部１４０３は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＨＤＭＩ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ：登録商標）などの入出力ポートを有し、外部ストレージとのインターフェースとして動作する。

　保存部１４０４は、例えば、ＲＡＭ（ＲａｍｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの主記憶装置、および、ハードディスクなどの補助記憶装置からなる。主記憶装置は、画像データや画像処理結果を一時的に保持するために利用される。補助記憶装置は、撮像された画像データ、画像処理結果など、ストレージとして長期的に保存するためのデータが格納される。

　マーカー情報管理部１４０５は、ＦＰＧＡやＡＳＩＣなどによって構成され、マーカー情報の管理を行っており、具体的には、マーカー情報の挿入・削除、映像の動きに合わせて逐次その位置を更新させて、トラッキングする処理を行う。マーカー情報管理部１４０５における詳細な情報については後述する。

　制御部１４０６は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などによって構成され、各処理ブロックにおける処理の命令・制御やデータの入出力に関するコントロールを行う。

　データバス１４０７は、各々のユニット間でのデータのやり取りを行うためのバスである。

　〈マーカー情報管理部〉
　続いて、本発明におけるマーカー情報管理部１４０５における詳細な構成例及び動作例について説明する。

　本発明においては、指示者１１１１が、表示装置１１１３を用いて、複数の作業端末で撮影された映像の中の、少なくとも一つの映像内にマーカーを重畳させる。そのとき、指示装置１１１２は、当該マーカーの重畳位置に対応する、他の映像の位置にマーカー情報を変換し、当該マーカー情報を他の作業端末に送信する。当該他の作業端末は、当該マーカー情報を受信し、参照して、その端末で撮影された他の映像に当該マーカーを合成する。これにより、当該他の作業端末の映像内において、マーカーが、当初の映像内の重畳位置に対応する位置に表示される。

　また、指示装置１１１２は、作業者自身の動き、あるいは、作業者または指示者によるズーム処理等による取得映像範囲を変える動作によって発生する、映像の動きに応じて、マーカーの重畳位置を変えるトラッキング機能も備えている。当該トラッキング機能によって、随時変化する映像にマーカーが追従するように表示することが可能となる。

　以下、作業者１１０１から受信した、第１の視点で撮影した画像１２００（以下、基準映像と称す。）を基準とし、指示者がマーカーを画像に重畳させる場合について説明する。図５は、本実施形態に係るマーカー情報管理部１４０５の構成を示すブロック図である。

　図５に示すように、マーカー情報管理部１４０５は、複数の画像データを入力して、それぞれの画像内の特徴点を検出する特徴点検出部（画像取得部、フレーム取得部）１５０１と、基準となる撮影映像の現フレーム（ｔ）および前フレーム（ｔ－１）の画像間の画像変換に必要なフレーム間の変換パラメータを算出するフレーム間変換パラメータ算出部１５０２と、フレーム間の変換パラメータを用いて、既に重畳されているマーカーの重畳位置を更新するマーカー情報更新部１５０３と、管理中のマーカー情報を保管しておくマーカー情報保管部（マーカー情報取得部）１５００と、異なる作業者の画像間を変換するための画像間変換パラメータを算出する画像間変換パラメータ算出部１５０４と、画像間変換パラメータを用いて、更新されたマーカー情報を変換して、基準とする画像とは異なる作業者端末の画像に向けたマーカー情報になるように変換するマーカー情報変換部１５０５とを有する。

　　〈特徴点検出〉
　特徴点検出部１５０１は、データバス１４０７から基準映像における現フレームの画像（ｔ）と一フレーム前の前フレーム画像（ｔ－１）とを受け取り、特徴点を算出する。ここで、特徴点とは、例えば複数のエッジが結合するような画素であり、例えばＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）を用いて、特徴点の情報を算出することができる。特徴点の情報とは、検出された特徴点の画像座標における位置情報、および、その特徴点を特定することができる記述情報（特徴量）である。なお、特徴点の検出手法はＳＵＲＦに限定されず、ＰｒｅｗｉｔｔフィルタやＬａｐｌａｃｉａｎフィルタ、Ｃａｎｎｙフィルタ、ＳＩＦＴ（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）と呼ばれる各種特徴点データのいずれか、もしくは、複数を使う構成にすることもできる。算出した特徴点および特徴点を記述する特徴量をフレーム間変換パラメータ算出部１５０２に出力する。特徴点検出部１５０１は、さらに、データバス１４０７から、別の作業者端末の画像（例えば、作業端末１１０５からの画像）を受け取り、同様に特徴点と特徴量を算出して、その結果を画像間変換パラメータ算出部１５０４に出力する。

　　〈マーカー情報のトラッキングの方法〉
　フレーム間変換パラメータ算出部１５０２は、基準映像における現フレーム（ｔ）と前フレーム（ｔ－１）の特徴点の情報を特徴点検出部１５０１から受け取ると、以下の処理を行い、前フレームの画像上の任意の画像座標を、現フレームの対応する画像座標に変換するフレーム間変換パラメータを算出する。

　検出された複数の特徴点をＦＰ_ｔ－１（ｌ）、ｌ＝１、…、ｎとする。ここで、添え字のｔ－１はフレーム番号を、カッコ内のｌはそれぞれの特徴点のインデックスである。

　算出したフレーム（ｔ－１）の特徴点ＦＰ_ｔ－１から、フレーム（ｔ）の対応する位置を求める必要があり、各フレームの時間間隔が十分短いとすると、撮影された物体の移動量は小さくなる。このことを利用し、元の特徴点の位置を基点に、比較的狭い範囲を探索することで、その対応点を求めることができる。例えば、コンピュータビジョンの汎用ＡＰＩであるＯｐｅｎＣＶ（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒ、オープンソースのコンピュータビジョン向けのライブラリ）の関数を用いて実現することができ、ｃｖＣａｌｃＯｐｔｉｃａｌＦｌｏｗＬＫという関数を用いて、次のフレームの対応する位置を算出することができる。この関数は、Ｌｕｃａｓ－Ｋａｎａｄｅのアルゴリズムを用いており、次のフレームにおける対応する画素の位置を求める方法の一つである。これ以外の手法を用いることも可能である。

　上記により、（ｔ－１）番目のフレームにおいて抽出した特徴点の位置と、それに対応する（ｔ）番目のフレームの点の位置を求めることができるので、この対応関係を用いて、映像合成部１４０１は、画像全体の変換を行う。つまり、フレーム間の画像の変化を、画像の変換と捉えて表現するものである。具体的には、以下の変換式を用いる。この変換式によって、（ｔ－１）番目の映像フレームの画素（ｍ、ｎ）を（ｔ）番目のフレームの（ｍ’，ｎ’）に変換することができるようになる。

　この変換（式１）におけるＨ^＊は、３×３の行列で、ホモグラフィ行列と呼ばれている。ホモグラフィ行列とは、２枚の画像を射影変換することができる行列で、前述の仮定の下で、連続するフレーム間の変化を近似することができる。

　ここで、ホモグラフィ行列の各要素を（式２）のように定義すると、フレーム間変換パラメータ算出部１５０２は、連続するフレーム間の特徴点の対応関係の下で、（式１）による座標変換誤差を最小にするように３×３の各要素の値を求める。具体的には、次式（式３）を最小にするように各要素を計算する。

　ここで、ａｒｇｍｉｎ（・）は、括弧内を最小にするａｒｇｍｉｎの下部にあるパラメータを算出する関数である。また、（ｍ_ｔ－１（ｌ）、ｎ_ｔ―１（ｌ））は、（ｔ－１）番目のフレームの特徴点の座標（ＦＰ_ｔ―１（ｌ））を、（ｍ_ｔ（ｌ）、ｎ_ｔ（ｌ））は、それに対応する（ｔ－１）番目のフレームの特徴点の座標（ＦＰ_ｔ（ｌ））をそれぞれ示している。

　上記により、フレーム間変換パラメータ算出部１５０２は、１フレーム前の映像内の座標を、現フレームの対応する座標に変換する行列とその変換式を求めることができる。この行列のことを変換パラメータと呼ぶ。

　フレーム間変換パラメータ算出部１５０２は、（式３）で示した変換パラメータを算出し、マーカー情報更新部１５０３に送信する。マーカー情報更新部１５０３は、当該変換パラメータを受信し、（式１）の更新処理を行う。この際に、マーカー情報は、マーカー情報保管部１５００に保管されている。マーカー情報更新部１５０３は、保管されているマーカー情報の画像の座標を変換する。更新後のマーカー情報は、マーカー情報保管部１５００に再度送られて、次のフレームの更新のために保管される。また、更新後のマーカー情報は、データバス１４０７に出力されて、その後、映像合成部１４０１および通信部１４００に送られる。

　マーカー情報保管部１５００は、マーカー情報の追加・削除、および、マーカー情報更新部１５０３によって更新されたマーカー情報の保管を行う。マーカー情報保管部１５００は、マーカー情報の追加・削除・更新の際に、マーカー情報の属性の一つであるＩＤに従って、対象とするマーカー情報を確定することによって、当該マーカー情報の削除・追加・更新を行うことが可能になる。

　　〈別の作業端末に向けて、マーカー情報を変換する方法〉
　画像間変換パラメータ算出部１５０４は、異なる作業者間の画像を変換するためのパラメータを算出する。その方法は、前述したフレーム間変換パラメータ算出部で説明した方法と同様でよい。画像間変換パラメータ算出部１５０４は、特徴点検出部１５０１において検出された、異なる作業端末からの２つの画像の特徴点を参照して、（式２）の画像間変換パラメータを算出し、当該画像間変換パラメータをマーカー情報変換部１５０５に出力する。上記にて、画像間変換パラメータ算出部１５０４が参照すべき特徴点は、２つの画像の間で対応する部分である。なお、当該対応する部分は、特徴点に限定されることはなく、特徴点以外の対応する部分を参照して画像間変換パラメータを算出してもよい。

　マーカー情報変換部１５０５は、画像間変換パラメータ算出部１５０４から変換パラメータを受け取ると、前述の（式１）を用いて、更新後のマーカー情報を別の作業者に向けた画像に合わせて、その座標を変換する処理を行う。変換後のマーカー情報は、データバス１４０７に出力され、前述の更新後のマーカー情報と同様に、映像合成部１４０１および通信部１４００に送られる。

　〈指示装置の処理〉
　次に、本実施形態の指示装置１１１２が行う処理の手順について、図８を用いて説明する。図８は、本実施形態に係る指示装置１１１２の処理を示すフローチャートである。

　図８は、指示装置１１１２が、外部から送られてくる複数の作業端末からの映像を受け取り、マーカー情報管理部１４０５に登録されているマーカー情報を更新して、表示部１４０２に表示する処理と、更新後のマーカー情報を通信部１４００から外部に出力する処理とを示している。

　指示装置１１１２は、通信部１４００の機能により、外部（例えば、後述する作業端末）から映像符号を受け取ると、復号処理を行い、元の映像信号を再現する（ステップＳ１１００）。その後、指示装置１１１２は、映像信号を保存部１４０４に出力するとともに、復号された映像信号が前述の基準映像である場合に、さらに、映像信号をマーカー情報管理部１４０５に出力する。マーカー情報管理部１４０５は、基準映像の画像を受け取ると、さらに、保存部１８０４から、基準映像における１フレーム前の前フレーム画像を取得する。

　マーカー情報管理部１４０５は、基準映像の現フレームの画像と、前フレームの画像とを用いて算出したフレーム間変換パラメータに基づいて、保管されているマーカー情報の画像の座標を更新する（ステップＳ１１０１）。更新後の結果に基づき、保管されているマーカー情報の更新を行い、さらに、更新後の結果を映像合成部１４０１に出力する。続いて、マーカー情報管理部１４０５は、保存部１４０４に保存されている基準映像ではない作業端末の画像の現フレームのデータを取得するとともに、前述の基準映像の現フレームの特徴点との対応関係から算出した画像間変換パラメータに基づいて、ステップＳ１１０１で更新されたマーカー情報を別途変換する（ステップＳ１１０２）。

　変換後のマーカー情報は、基準映像とは異なる別の作業端末のためのマーカー情報となる。マーカー情報管理部１４０５は、変換後のマーカー情報を映像合成部１４０１に出力する。映像合成部１４０１は、マーカー情報管理部１４０５から受け取った更新後のマーカー情報と、変換後のマーカー情報とを用いて、それぞれの映像上にマーカーを重畳して合成する（ステップＳ１１０３）。その後、映像合成部１４０１は、合成映像を表示部１４０２に送信し、表示部１４０２は、合成映像を画面に表示する（ステップＳ１１０４）。マーカー情報管理部１４０５は、更新後のマーカー情報と、変換後のマーカー情報とを通信部１４００に出力し、通信部１４００は、それらのマーカー情報を、対応する各作業端末に送信する（ステップＳ１１０５）。制御部１４０６は、指示装置１１１２の処理を継続するか否かを判断する（ステップＳ１１０６）。処理を継続する場合（Ｓ１１０６のＹＥＳ）には、ステップＳ１１００に戻り、前述した処理を繰り返す。処理を終了させる場合（Ｓ１１０６のＮＯ）には、全ての処理を終了させる。

　〈マーカー情報管理部の処理〉
　図９は、本実施形態に係るマーカー情報管理部１４０５がマーカー情報を登録、削除する処理の一例を示すフローチャートである。

　図９に示すように、通信部１４００は、指示装置１１１２の外部から送られてくるマーカー情報を受け取ると、マーカー情報管理部１４０５に出力する（ステップＳ１２００）。一方、表示部１４０２は、指示者が表示画面を押すことによって入力された位置にマーカーを重畳させる場合に、そのマーカーに応じたマーカー情報をマーカー情報管理部１４０５に出力する（ステップＳ１２０１）。マーカー情報管理部１４０５は、外部から入力されたマーカー情報と、表示部１４０２で生成されたマーカー情報とを受け取ると、内部に保管されているマーカー情報に含まれるＩＤを参照して、同一ＩＤを有するマーカー情報が存在するか否かを判定する（ステップＳ１２０２）。

　同一のＩＤを持つマーカー情報が存在する場合（ステップＳ１２０２のＹＥＳ）、マーカー情報管理部１４０５は、当該同一のＩＤを持つすべてのマーカー情報の削除を行う（ステップＳ１２０３）。同一のＩＤを持つマーカー情報が存在しない場合（ステップＳ１２０２のＮＯ）、マーカー情報管理部１４０５は、新しいマーカー情報として、マーカー情報の追加を行う（ステップＳ１２０４）。

　制御部１４０６は、指示装置１１１２の処理を継続するか否かを判断する（ステップＳ１２０５）。処理を継続する場合（ステップＳ１２０５のＮＯ）には、ステップＳ１１００に戻り、前述した処理を繰り返す。処理を終了させる場合（ステップＳ１２０５のＹＥＳ）には、全ての処理を終了させる。

　以上が、指示装置１１１２の構成及び処理の内容である。なお、指示装置１１１２に備わるマーカー情報管理部１４０５を外部に独立させた構成をとることも可能である。その場合、指示装置１１１２を、表示部１４０２を除いたすべての処理ブロックによる構成とし、前述のマーカー管理サーバー１３００として、独立させることも可能である。

　〈作業端末の構成〉
　続いて、作業端末１１０３の構成について、図１０を用いて説明する。図１０は、本実施形態に係る作業端末１１０３の構成を示すブロック図である。

　作業端末１１０３（作業端末１１０５も同様）と、指示装置１１１２との構成の違いは、映像取得部およびマーカー管理部に関連する。すなわち、作業端末１１０３には、映像を取得するための映像取得部１８０５が存在する一方、マーカー管理部が存在しない。その他の構成は、指示装置１１１２と同じである。つまり、通信部（送信部、位置情報取得部）１８００は通信部１４００と、映像合成部１８０１は映像合成部１４０１と、表示部１８０２は表示部１４０２と、外部入出力部１８０３は外部入出力部１４０３と、保存部１８０４は保存部１４０４と、制御部１８０６は制御部１４０６と、データバス１８０７はデータバス１４０７と、それぞれ同等の機能を有する。

　映像取得部１８０５は、撮影空間を画像として、作業端末１１０３に取り込むための光学部品、および、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）やＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）などの撮像素子を具備するように構成され、光電変換によって得られた電気信号に基づいて生成された画像データをデータバス１８０７に出力する。映像取得部１８０５は、撮影された情報を元々のデータのままデータバス１８０７に出力してもよいし、図示していない映像処理部において処理しやすいように事前に画像処理（輝度画像化、ノイズ除去など）された映像データとしてデータバス１８０７に出力してもよく、また、その両方を出力するような構成としてもよい。さらに、撮影時の絞り値や焦点距離などのカメラパラメータを保存部１８０４に送るように構成することもできる。

　映像合成部１８０１は、取得後の映像を、外部から送られてきたマーカー情報と合成し、表示部１８０２は、合成した映像を表示する。また、同時に、通信部１８００は、合成した映像に対して、前述した動画像信号に適した符号化処理を施し、映像符号として外部（例えば、前述の指示装置１１１２）に出力する。

　以上の構成によって、撮影映像内にＣＧで作成された作業指示を合成して表示された合成映像を見ながら作業できるＡＲ型作業支援において、同一空間ではあるが、異なる位置にいる複数の作業者に向けて、表示する合成映像の見え方を適切に制御する方法を提供することができる。

　〔第２の実施の形態〕
　第２の実施の形態においては、複数の作業端末間の映像に対する画像間変換パラメータの算出において、所定の状態から開始して、画像間変換パラメータの算出に使う対応点を随時更新して求める処理を行う。これにより、第１の実施の形態に比べて、精度よく、画像間変換パラメータを算出することができる。対応点は、２つの画像の間で対応する部分である。なお、当該対応する部分は、対応点に限定されることはなく、対応点以外の部分を参照して画像間変換パラメータを算出してもよい。

　以下、第１の実施の形態との相違を示しながら、画像間変換のパラメータを算出する方法について説明する。

　第１の実施の形態では、基準となる映像から検出した特徴点を記述する特徴量と、基準とは異なる作業端末の映像から検出した特徴点を記述する特徴量とを比較することによって、対応する特徴点を特定し、前述した（式２）の画像間変換パラメータを求めている。ところが、作業端末の撮影の向きや、位置が大きく異なる場合、その対応付けにおいて誤りが増えることがある。そこで、本実施形態では、予め対応関係が正しく分かっている所定の状態から開始して、対応する点の座標を随時更新していき、変換パラメータを算出する方法を用いる。

　ここで、予め対応関係が正しく分かる状態とは、具体的には以下のような例である。

　第１の方法は、指示すべき点を実際に手や指で指定し、その状態を撮影することにより、指示すべき点を確定させる方法である。作業端末を用いて作業対象を撮影する際に、例えば、作業者の一人が作業対象の任意の場所を指さす。そうすると、撮影した映像の中で指さされた場所が写っていれば、その位置を各作業端末において確定させることが可能となる。４か所以上の位置を手動で確定させると、前述の（式２）の変換パラメータを算出することができ、より正確な変換パラメータを求めることができる。

　第２の方法は、前述したような誤対応が発生しにくい状態、つまり、同じ位置に作業端末を置き、正しく対応関係が求められる状態にする方法である。この場合、撮影の向きや、作業端末の位置がほぼ一致するため、対応関係を容易に求めることができ、その精度も高めることが可能になる。

　上記以外にも、複数の作業端末で取得した映像において、お互いに対応する点の関係を正しく求める方法であれば、いずれの方法であってもよい。

　上記方法によって、求められた基準映像における点をＰ_ｂａｓｅ（ｊ、ｉ）、基準とは異なる作業端末の映像内の点をＰ_ｔａｂ（ｊ、ｉ）、（ｊは対応する点を示す番号であり、ｊ＝０、・・・、３とする。ｉはフレーム番号である。）とする。つまり、Ｐ_ｂａｓｅ（０、ｉ）とＰ_ｔａｂ（０、ｉ）、・・・、Ｐ_ｂａｓｅ（３、ｉ）とＰ_ｔａｂ（３、ｉ）はお互いに対応する点である。

　図１１は、本実施形態に係る対応画素の追跡による画像間変換パラメータの算出を説明するための図である。図１１の２１００に示すように、点Ａと点Ａ’、点Ｂと点Ｂ’、・・・、点Ｄと点Ｄ’がそれぞれ対応する。

　次に、マーカー情報更新部１５０３は、各点について、フレーム間の移動を算出する。フレーム間の移動の算出には、前述したフレーム間変換パラメータによる更新の方法を用いればよく、以下のように算出することができる。

　ｓはどの作業端末からの映像であるかを示す記号であり、Ｈ_ｓ ^＊（ｉ）はフレーム（ｉ）からフレーム（ｉ＋１）に変換する、フレーム間の変換パラメータを示している。この変換パラメータは、前述のフレーム間変換パラメータ算出部１５０２と同じ方法で算出される。

　以上により、フレームｉにおける対応関係を求めるための４点を、フレームｔの映像内に逐次遷移させることが可能となる（図１１の２１０１を参照）。

　最後に、前述の方法によって求められた対応点を用いて、前記（式２）のパラメータを算出し、画像間の変換パラメータを求めることができる。

　上記では、４点の画素を用いて処理する例を示したが、点の数は４点に限定するものではなく、それ以上の数であってもよい。

　以上、対応する画素が明らかな状態から開始して、その対応の明らかな点を追跡することにより、画像間の変換パラメータを精度よく算出することが可能になる。

　〔第３の実施の形態〕
　第３の実施の形態においては、前述した画像間変換パラメータを用いて、指示装置１１１２の表示装置１１１３に映し出される各作業者端末の映像を同一の視点による映像に変換して表示する方法について説明する。第１の実施の形態では、画面を分割して、各作業者端末からの映像をそのまま表示している。そのため、作業者の位置関係によっては、同一の作業対象を撮影しているにもかかわらず、図２に示したように、異なる視点による映像となる。そのため、指示者は、映像に対する視点の位置を把握（変換）しながら、マーカーを重畳させる必要があるが、マーカーを異なる映像の同一個所に重畳させにくい場合がある。そこで、本実施形態では、画面に映し出される映像が同一の視点によるものになるように、基準映像の視点によるものとして表示する方法について説明する。

　前述したように、（式２）の変換パラメータおよび（式１）の変換式を用いることで、基準映像内の任意の点を、基準とは異なる作業端末の映像の座標に変換することができる。ここでは、（式１）を以下のように変形する。

　ここで、Ｈ^＊－１は、前述した変換行列の逆行列である。（ｍ’、ｎ’）は、基準映像内の座標であり、（ｍ、ｎ）は基準とは異なる作業端末の映像の座標を示している。

　（式５）に従えば、基準とは異なる作業端末の映像の任意の座標を基準映像の座標に変換することが可能となり、画像内の全ての画素を（式５）によって変換して生成された画像は、基準画像と同一の視点による画像となる。図１２は、本実施形態に係る表示装置１１１３において２つの表示画像の視点を同じにした例を示す図である。図１２の表示装置１１１３に示すように、作業者１１０４の映像が、映像１２０１から映像３１００に変換されて、映像１２００と同一の視点によるものとして表示される。

　なお、生成する画像において、変換元の対応する画素が存在しない場合には、近傍の画素を用いて補間すればよい。補間の方法は、任意の手法を用いてよいが、例えばニアレストネイバー法(ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ)を用いて、間の画素を補間する。以上の処理を、映像合成部（画像変換部）１４０１において実施する。

　以上、基準映像の視点に合致するように、各作業者の映像を変換して表示する方法について記載したが、同様な方法を用いて、基準画像ではない作業者の映像の一つに合わせるように変換して表示することも可能である。その場合、作業の途中で、指示者あるいは作業者が手動で切り替えられるようにしてもよい。

　以上、複数の作業端末から送られてくる映像の視点を同じにして、指示者の見ている画面上に表示する方法を提供できる。

　〔第４の実施の形態〕
　第４の実施の形態においては、指示装置１１１２の表示装置１１１３に映し出される各作業者の映像から、１つを選択して指示を行う方法について説明する。

　図２に示すように、表示装置１１１３には、各作業者の画面が、表示装置１１１３の画面を分割して表示されている。作業者数が増加すると、表示装置１１１３に表示される各作業者の映像の表示領域が小さくなり、指示者１１１１の指示効率が低下する、という場合がある。

　上記に対応するために、指示者は、まず、図２のような表示の状態から、指示に用いたい画面として、作業者１１０１からの映像、および、作業者１１０４からの映像の中から１つを選択する。

　図１３は、本実施形態に係る表示装置１１１３の表示画面に１つの作業者画面のみを表示した例を示す図である。例えば、図１３に示すように、表示装置（表示部、指示受付部）１１１３は、指示者によって選択された、作業者１１０１からの映像のみを表示する。指示装置１１１２は、映像４１００にマーカーが重畳されると、（式１）を用いて、重畳されたマーカーに対応するマーカー情報を更新し、作業端末１１０３と、作業端末１１０５とにそれぞれのマーカー情報を送信する。この方法では、指示装置１１１２の表示装置１１１３には、１つの作業者の映像のみが表示されるため、表示領域が小さくならず、指示者の作業効率が低下しない。

　〔第５の実施の形態〕
　第５の実施の形態においては、前述した画像間変換パラメータを用いて、指示者１１１１が指示操作に用いている画像の撮影位置や向き（撮影方向）を、作業端末１１０３、または、作業端末１１０５に表示する方法について説明する。

　指示者が複数の作業者に対し、既に設置されているマーカー情報、または、撮影対象の特徴や指示箇所といった場所の指示を口頭で説明する際、前記指示箇所に該当する場所の個数がそれぞれの作業者で異なる場合が考えられる。

　この場合について、図１４を用いて説明する。図１４は、本実施形態に係る作業者の映像によって表示内容が異なる例を示す図である。指示者が作業者１１０４の画面を見ながら説明する際、例えば「丸いマーカー」という表現で指示位置５１０４の説明をしたとする。このとき、作業者１１０１の映像には「丸いマーカー」に該当するマーカー情報５１０２と、マーカー情報５１０３とが映っており、現在どちらの説明をしているのかが判断できないということが生じる。

　また、指示者が複数の作業者に対し、既に重畳されているマーカー情報、または、撮影対象の特徴や指示箇所などの向きを口頭で説明する際、前記指示箇所に該当する場所の向きがそれぞれの作業者で異なる場合が考えられる。

　この場合について、図２を用いて説明する。指示者が作業者１１０４の作業端末１１０５の画面を見て、右向きに行う作業の指示を行ったとする。この指示を受けた作業は、作業者１１０１にとっては、作業端末１１０３の画面において下向きの作業であり、口頭の指示内容と異なるため、正しく作業ができない、ということが生じる。

　上記の対応方法として、図１５は、本実施形態に係る指示操作に用いられている画像の撮影範囲と、撮影方向とを表示する例を示す図である。図１５（ａ）は、作業端末１１０３、および、１１０５の画面の表示内容を示す図である。図１５（ｂ）は、指示装置１１１２の画面の表示内容を示す図である。

　図１５に示すように、映像合成部（情報合成部）１４０１が、指示者１１１１の指示に用いられている画像の撮影範囲を表現する枠５２０１と、撮影の向きを表現する印５２０２とを作業端末１１０３の映像に重畳し、表示部１４０２が、当該映像を表示する方法がある。この方法により、指示者が説明のために見ている映像の範囲と、向きとが、作業者の映像上で明らかになる。

　以下、マーカー情報管理部（情報合成部）１４０５が、枠５２０１と、印５２０２とを算出する方法について説明する。前述したように、（式２）の変換パラメータと（式１）の変換式を用いることにより、基準映像内の任意の点を、基準とは異なる作業端末の映像の座標に変換することができる。そこで、（式１）に従って、基準映像の四隅の座標を変換することにより、基準とは異なる作業端末の映像における、基準映像の表示範囲が算出される。この算出された表示範囲を枠５２０１とする。また、基準映像における左下隅と、左上隅とを結ぶ直線を、（式１）に従って変換することにより、基準映像とは異なる作業端末の映像における、基準映像の撮影の向きを算出することができる。この算出された向きを、印５２０２とする。

　ここで、算出された範囲と、向きとは、映像５２００に枠５２０３と、印５２０４として重畳表示してもよい。

　＜第１から第５の実施形態について＞
　上記の各実施形態において、添付図面に図示されている構成等については、あくまで一例であり、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。

　上記の各実施形態の説明では、機能を実現するための各構成要素をそれぞれ異なる部位であるとして説明を行っているが、実際にこのように明確に分離して認識できる部位を有していなければならないわけではない。上記の各実施形態の機能を実現する遠隔作業支援の装置が、機能を実現するための各構成要素を、例えば実際にそれぞれ異なる部位を用いて構成していてもかまわないし、あるいは、全ての構成要素を一つのＬＳＩに実装していてもかまわない。すなわち、どういう実装形態であれ、機能として各構成要素を有していればよい。また、本発明の各構成要素は任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれる。

　また、上記の各実施形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行っても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

　また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。

　また、前記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

　〔ソフトウェアによる実現例〕
　図５に示すマーカー情報管理部１４０５の各機能ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

　後者の場合、マーカー情報管理部１４０５は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラム及び各種データがコンピュータ（又はＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）又は記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）等を備えている。そして、コンピュータ（又はＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　〔まとめ〕
　本発明の態様１に係る情報処理装置（指示装置１１１２）は、少なくとも２つの視点から撮影された画像に関する処理を行う情報処理装置であって、第１の視点から撮影された第１の画像、および、第２の視点から撮影された第２の画像を取得する画像取得部（特徴点検出部１５０１）と、前記第１の画像に重畳されたマーカーの位置情報である第１の位置情報を取得する位置情報取得部（マーカー情報保管部１５００）と、前記第１の画像、および、前記第２の画像を参照して、当該第１の画像を当該第２の画像に変換するための画像間変換パラメータを算出する画像間変換パラメータ算出部（１５０４）と、前記画像間変換パラメータを参照して、前記第１の位置情報を、前記第２の画像に重畳されるマーカーの位置情報である第２の位置情報に変換するマーカー情報変換部（１５０５）と、を備えている。

　前記の構成によれば、第１の画像に重畳されたマーカーの位置情報である第１の位置情報を、第２の画像に重畳されるマーカーの位置情報である第２の位置情報に変換する。これにより、指示者が特定の画像に重畳したマーカーを、他の画像に重畳させることができる。したがって、作業者は、自分の視点で撮影された画像に重畳されたマーカーを参照することができるので、指示者は、複数の作業者に対する指示を効率的に行うことができる。

　本発明の態様２に係る情報処理装置は、上記態様１において、前記画像間変換パラメータ算出部が、前記第１の画像と、前記第２の画像との間で対応する部分を参照して、前記画像間変換パラメータを算出することとしてもよい。

　前記の構成によれば、２つの画像間で対応する部分から、画像間変換パラメータを算出するので、画像間変換パラメータを精度よく算出することができる。

　本発明の態様３に係る情報処理装置は、上記態様２において、前記第１の画像、および、前記第２の画像から特徴点を検出する特徴点検出部（１５０１）をさらに備えており、前記画像間変換パラメータ算出部が、上記対応する部分として、前記特徴点検出部が検出した前記第１の画像の特徴点および前記第２の画像の特徴点を参照して、前記画像間変換パラメータを算出することとしてもよい。

　前記の構成によれば、２つの画像から特徴点を検出し、当該特徴点から画像間変換パラメータを算出するので、事前に対応する部分が分からなくても、画像間変換パラメータを算出することができる。

　本発明の態様４に係る情報処理装置は、上記態様１から３において、前記画像間変換パラメータを参照して、前記第１の画像を、前記第２の視点による画像に変換する画像変換部をさらに備えていることとしてもよい。

　前記の構成によれば、第１の画像を、第２の視点による画像に変換するので、第１の画像と、第２の画像とを、同じ第２の視点による画像として表示することができる。これにより、ユーザは、異なる視点から撮影された同一物の画像を、同じ視点による画像として見ることができる。

　なお、「第２の画像」と、「第２の視点による画像」とは互いに異なる。「第２の画像」は、第２の視点から撮影された画像である。一方、「第２の視点による画像」は、他の視点で撮影された画像を、第２の視点から見た画像に変換したものである。

　本発明の態様５に係る情報処理装置は、上記態様１から４において、前記第２の画像における第１の画像の撮影範囲および撮影方向を特定し、当該撮影範囲と当該撮影方向とを示す情報を前記第２の画像に含ませる情報合成部（映像合成部１４０１、マーカー情報管理部１４０５）をさらに備えていることとしてもよい。

　前記の構成によれば、第２の画像における第１の画像の撮影範囲および撮影方向を特定し、撮影範囲および撮影方向を示す情報を第２の画像に含ませる。これにより、ユーザは、異なる視点から撮影された同一物の画像間の位置関係、包含関係を把握することができる。

　本発明の態様６に係る情報処理装置は、上記態様１から５において、前記第１の画像および前記第２の画像の少なくとも何れかを表示する表示部（表示装置１１１３）と、前記第１の画像および前記第２の画像のうち何れの画像を前記マーカーの重畳操作の対象となる画像として選択するのかを示す選択指示を受け付ける指示受付部（表示装置１１１３）と、をさらに備えており、前記表示部が、前記第１の画像および前記第２の画像のうち、前記マーカーの重畳操作の対象となる画像として選択された画像のみを表示することとしてもよい。

　前記の構成によれば、画像を表示する際に、第１の画像および第２の画像のうち、マーカーを重畳させる対象の画像のみを表示する。これにより、ユーザは、異なる視点から撮影された同一物の画像のうち、１つの画像だけを大きくして見ることができるので、効率的にマーカーによる指示を行うことができる。

　本発明の態様７に係る情報処理装置は、上記態様１から６において、第１の時点で所定の視点から撮影された画像である第１のフレーム、および、当該第１の時点より後の第２の時点で当該所定の視点から撮影された画像である第２のフレームを取得するフレーム取得部（特徴点検出部１５０１）をさらに備えており、前記位置情報取得部が、前記第１のフレームに重畳されたマーカーの位置情報である第３の位置情報を取得し、当該情報処理装置が、前記第１のフレーム、および、前記第２のフレームを参照して、当該第１のフレームを当該第２のフレームに変換するためのフレーム間変換パラメータを算出するフレーム間変換パラメータ算出部（１５０２）と、前記フレーム間変換パラメータを参照して、前記第３の位置情報を、前記第２のフレームに重畳されるマーカーの位置情報である第４の位置情報に更新するマーカー情報更新部（１５０３）と、をさらに備えていることとしてもよい。

　前記の構成によれば、第１のフレームに重畳されたマーカーの位置情報である第３の位置情報を、第２のフレームに重畳されるマーカーの位置情報である第４の位置情報に更新する。これにより、指示者が第１のフレームに重畳したマーカーを、それより後に撮影された第２のフレームに重畳させることができる。したがって、時間の経過に伴って、撮影される画像が変化しても、マーカーを追従させて、画像に重畳させることができる。

　本発明の態様８に係る端末（作業端末１１０３、１１０５）は、上記態様１から７に係る情報処理装置と通信を行う端末であって、前記第２の画像を前記情報処理装置に送信する送信部（通信部１８００）と、前記情報処理装置から前記第２の位置情報を取得する位置情報取得部（通信部１８００）と、前記第２の画像に重畳して、前記第２の位置情報の示す位置に、マーカーを表示する表示部（１８０２）と、を備えている。

　前記の構成によれば、第２の画像に重畳して、第２の位置情報の示す位置に、マーカーを表示する。これにより、ユーザは、情報処理装置において第１の画像に重畳されたマーカーを、第２の画像において見ることができる。

　本発明の態様９に係る遠隔通信システムは、情報処理装置と、第１の端末と、第２の端末と、を備えた遠隔通信システムであって、前記情報処理装置が、第１の視点から撮影された第１の画像、および、第２の視点から撮影された第２の画像を取得する画像取得部と、前記第１の画像に重畳されたマーカーの位置情報である第１の位置情報を取得する位置情報取得部と、前記第１の画像、および、前記第２の画像を参照して、当該第１の画像を当該第２の画像に変換するための画像間変換パラメータを算出する画像間変換パラメータ算出部と、前記画像間変換パラメータを参照して、前記第１の位置情報を、前記第２の画像に重畳されるマーカーの位置情報である第２の位置情報に変換するマーカー情報変換部と、を備えており、前記第１の端末が、前記第１の画像を前記情報処理装置に送信する送信部を備えており、前記第２の端末が、前記第２の画像を前記情報処理装置に送信する送信部と、前記情報処理装置から前記第２の位置情報を取得する位置情報取得部と、前記第２の画像に重畳して、前記第２の位置情報の示す位置に位置付けられたマーカー、並びに、前記第２の画像における前記第１の画像の撮影範囲および撮影方向を示す情報の少なくとも何れかを表示する表示部と、を備えている。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

　本発明は、少なくとも２つの視点から撮影された画像に関する処理を行う情報処理装置、端末、および、遠隔通信システムに利用することができる。

　１１０３、１１０５　作業端末（端末）
　１１１２　指示装置（情報処理装置）
　１１１３　表示装置（表示部、指示受付部）
　１４０１　映像合成部（画像変換部、情報合成部）
　１４０５　マーカー情報管理部（情報合成部）
　１５００　マーカー情報保管部（位置情報取得部）
　１５０１　特徴点検出部（画像取得部、フレーム取得部）
　１５０２　フレーム間変換パラメータ算出部
　１５０３　マーカー情報更新部
　１５０４　画像間変換パラメータ算出部
　１５０５　マーカー情報変換部
　１８００　通信部（送信部、位置情報取得部）
　１８０２　表示部

Claims

　少なくとも２つの視点から撮影された画像に関する処理を行う情報処理装置であって、
　第１の視点から撮影された第１の画像、および、第２の視点から撮影された第２の画像を取得する画像取得部と、
　前記第１の画像に重畳されたマーカーの位置情報である第１の位置情報を取得する位置情報取得部と、
　前記第１の画像、および、前記第２の画像を参照して、当該第１の画像を当該第２の画像に変換するための画像間変換パラメータを算出する画像間変換パラメータ算出部と、
　前記画像間変換パラメータを参照して、前記第１の位置情報を、前記第２の画像に重畳されるマーカーの位置情報である第２の位置情報に変換するマーカー情報変換部と、
　を備えている
ことを特徴とする情報処理装置。
　前記画像間変換パラメータ算出部は、
　前記第１の画像と、前記第２の画像との間で対応する部分を参照して、前記画像間変換パラメータを算出する
ことを特徴とする請求項１に記載の情報処理装置。
　前記第１の画像、および、前記第２の画像から特徴点を検出する特徴点検出部をさらに備えており、
　前記画像間変換パラメータ算出部は、
　上記対応する部分として、前記特徴点検出部が検出した前記第１の画像の特徴点および前記第２の画像の特徴点を参照して、前記画像間変換パラメータを算出する
ことを特徴とする請求項２に記載の情報処理装置。
　前記画像間変換パラメータを参照して、前記第１の画像を、前記第２の視点による画像に変換する画像変換部をさらに備えている
ことを特徴とする請求項１から３の何れか一項に記載の情報処理装置。
　前記第２の画像における第１の画像の撮影範囲および撮影方向を特定し、当該撮影範囲と当該撮影方向とを示す情報を前記第２の画像に含ませる情報合成部をさらに備えていることを特徴とする請求項１から４の何れか一項に記載の情報処理装置。
　前記第１の画像および前記第２の画像の少なくとも何れかを表示する表示部と、
　前記第１の画像および前記第２の画像のうち何れの画像を前記マーカーの重畳操作の対象となる画像として選択するのかを示す選択指示を受け付ける指示受付部と、
をさらに備えており、
　前記表示部は、前記第１の画像および前記第２の画像のうち、前記マーカーの重畳操作の対象となる画像として選択された画像のみを表示する
ことを特徴とする請求項１から５のいずれか一項に記載の情報処理装置。
　当該情報処理装置は、
　第１の時点で所定の視点から撮影された画像である第１のフレーム、および、当該第１の時点より後の第２の時点で当該所定の視点から撮影された画像である第２のフレームを取得するフレーム取得部をさらに備えており、
　前記位置情報取得部は、
　前記第１のフレームに重畳されたマーカーの位置情報である第３の位置情報を取得し、
　当該情報処理装置は、
　前記第１のフレーム、および、前記第２のフレームを参照して、当該第１のフレームを当該第２のフレームに変換するためのフレーム間変換パラメータを算出するフレーム間変換パラメータ算出部と、
　前記フレーム間変換パラメータを参照して、前記第３の位置情報を、前記第２のフレームに重畳されるマーカーの位置情報である第４の位置情報に更新するマーカー情報更新部と、
　をさらに備えている
ことを特徴とする請求項１から６のいずれか一項に記載の情報処理装置。
　請求項１から７の何れか一項に記載の情報処理装置と通信を行う端末であって、
　前記第２の画像を前記情報処理装置に送信する送信部と、
　前記情報処理装置から前記第２の位置情報を取得する位置情報取得部と、
　前記第２の画像に重畳して、前記第２の位置情報の示す位置に、マーカーを表示する表示部と、
を備えていることを特徴とする端末。
　情報処理装置と、第１の端末と、第２の端末と、を備えた遠隔通信システムであって、
　前記情報処理装置は、
　　第１の視点から撮影された第１の画像、および、第２の視点から撮影された第２の画像を取得する画像取得部と、
　　前記第１の画像に重畳されたマーカーの位置情報である第１の位置情報を取得する位置情報取得部と、
　　前記第１の画像、および、前記第２の画像を参照して、当該第１の画像を当該第２の画像に変換するための画像間変換パラメータを算出する画像間変換パラメータ算出部と、
　　前記画像間変換パラメータを参照して、前記第１の位置情報を、前記第２の画像に重畳されるマーカーの位置情報である第２の位置情報に変換するマーカー情報変換部と、
　を備えており、
　前記第１の端末は、
　　前記第１の画像を前記情報処理装置に送信する送信部
　を備えており、
　前記第２の端末は、
　　前記第２の画像を前記情報処理装置に送信する送信部と、
　　前記情報処理装置から前記第２の位置情報を取得する位置情報取得部と、
　　前記第２の画像に重畳して、前記第２の位置情報の示す位置に位置付けられたマーカー、並びに、前記第２の画像における前記第１の画像の撮影範囲および撮影方向を示す情報の少なくとも何れかを表示する表示部と、
　を備えている
ことを特徴とする遠隔通信システム。