WO2021149261A1

WO2021149261A1 - 表示システムおよび表示方法

Info

Publication number: WO2021149261A1
Application number: PCT/JP2020/002628
Authority: WO
Inventors: 遥久保田; 明片岡
Original assignee: 日本電信電話株式会社
Priority date: 2020-01-24
Filing date: 2020-01-24
Publication date: 2021-07-29
Also published as: JP7310935B2; JPWO2021149261A1; US20230119032A1

Abstract

表示システム（１００）では、映像情報に基づいて、撮影された領域の地図を生成し、映像情報における各シーンに対応付けて地図上の撮影対象に関する情報をパラメータ保管部（１３）に格納する。そして、表示装置（１０）は、ユーザの操作により地図上の位置または範囲の指定を受け付けた場合には、パラメータ保管部（１３）に記憶された各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。

Description

表示システムおよび表示方法

　本発明は、表示システムおよび表示方法に関する。

　従来、映像情報は撮影時の状況を正確に再現可能であり、個人や事業を問わず他分野で活用可能であることが知られている。例えば、工事等の作業を行うにあたって、作業者視点でのカメラ映像等の動画映像を作業ログとして、マニュアル化、業務分析、作業証跡等に活用可能である。

　このような活用にあたっては、連続的な映像から特定の場面（シーン）のみを抽出したいケースが多いが、目視での作業は手間がかかり非効率である。このため、各映像シーンへのタグ付けによる特定のシーンを検出する技術が知られている。

　例えば、顔認証やオブジェクト認証による画像認識や特定のワードや音を検出する音声認識を行って映像内の情報からタグ付けを行う方法や、撮影と同期的に取得したセンサ値等に基づき各シーンに意味情報を付与する手法が知られている。

　また、特定の場面のみを抽出する技術として、特徴量を元に人や物を識別し、近接学等により抽象化した人や物体間の関係性の遷移を元に、特定の場面を映像から自動検索する技術がある（非特許文献１参照）。

胡晟、劉健全、西村祥治　「大量な映像における高速な動的場面の分析と検索」　情報処理学会研究報告　2017/11/8

　従来の方法では、類似のオブジェクトが多数存在する場合には、映像から特定の場面を効率的に抽出することができない場合があるという課題があった。例えば、類似のオブジェクトが多数存在するため、各オブジェクトの個体識別を行うためにタグやセンサを用いる場合には、事前の準備が必要であった。また、例えば、上述した特徴量を元に人や物を識別し、近接学等により抽象化した人や物体間の関係性の遷移を元に、特定の場面を映像から自動検索する技術では、類似のオブジェクトが多数存在する領域で特定の場面を判別するのが困難であった。

　上述した課題を解決し、目的を達成するために、本発明の表示システムは、映像情報に基づいて、撮影された領域の地図を生成し、前記映像情報における各シーンに対応付けて前記地図上の撮影対象に関する情報を取得する映像処理部と、ユーザの操作により前記地図上の位置または範囲の指定を受け付けた場合には、前記各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する検索処理部とを有することを特徴とする。

　本発明によれば、類似のオブジェクトが多数存在する場合であっても、映像から特定の場面を効率的に抽出することができるという効果を奏する。

図１は、第１の実施形態に係る表示システムの構成の一例を示す図である。図２は、検索オプションの設定について説明する図である。図３は、検索した映像シーンの表示例を示す図である。図４は、第１の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。図５は、第１の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。図６は、第２の実施形態に係る表示システムの構成の一例を示す図である。図７は、第２の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。図８は、第２の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。図９は、第３の実施形態に係る表示システムの構成の一例を示す図である。図１０は、リアルタイム視点からシーンを検索する処理の概要を説明する図である。図１１は、第３の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。図１２は、表示プログラムを実行するコンピュータを示す図である。

　以下に、本願に係る表示システムおよび表示方法の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る表示システムおよび表示方法が限定されるものではない。

［第１の実施形態］
　以下の実施の形態では、第１の実施形態に係る表示システム１００の構成、表示装置１０の処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。

［表示システムの構成］
　まず、図１を用いて、表示システム１００の構成について説明する。図１は、第１の実施形態に係る表示システムの構成の一例を示す図である。表示システム１００は、表示装置１０および映像取得装置２０を有する。

　表示装置１０は、映像取得装置２０によって撮影された撮影範囲を含む地図上からオブジェクト位置や範囲を指定することで、映像から指定位置を被写体とした映像シーンを検索して出力する装置である。なお、図１の例では、表示装置１０が、端末装置として機能する場合を想定して図示しているが、これに限定されるものではなく、サーバとして機能してもよく、検索した映像シーンをユーザ端末に出力するようにしてもよい。

　映像取得装置２０は、映像を撮影するカメラ等の機器である。なお、図１の例では、表示装置１０と映像取得装置２０とが別々の装置である場合を例示しているが、表示装置１０が映像取得装置２０の機能を有していてもよい。映像取得装置２０は、撮影者が撮影した映像のデータを映像処理部１１に通知するとともに、映像保管部１６に格納する。

　表示装置１０は、映像処理部１１、パラメータ処理部１２、パラメータ保管部１３、ＵＩ（User　Interface）部１４、検索処理部１５および映像保管部１６を有する。以下では、各部について説明する。なお、上述した各部は、複数の装置が分散して保持してもよい。例えば、表示装置１０が映像処理部１１、パラメータ処理部１２、パラメータ保管部１３、ＵＩ部１４および検索処理部１５を有し、映像保管部１６は他の装置が有していてもよい。

　なお、パラメータ保管部１３および映像保管部１６は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。また、映像処理部１１、パラメータ処理部１２、パラメータ保管部１３、ＵＩ部１４、検索処理部１５は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）などの電子回路である。

　映像処理部１１は、映像情報に基づいて、撮影された領域の地図を生成し、映像情報における各シーンに対応付けて地図上の撮影対象に関する情報を取得する。

　例えば、映像処理部１１は、ＳＬＡＭ（Simultaneous　Localization　and　Mapping）の技術を用いて、映像情報から地図を生成し、地図の情報を入力処理部１４ｂに通知する。また、映像処理部１１は、撮影対象に関する情報として、映像情報における各シーンに対応付けて地図上の撮影位置および撮影方向を取得してパラメータ処理部１２に通知するとともに、パラメータ保管部１３に格納する。なお、ＳＬＡＭの技術に限定されるものではなく、他の技術を代用してもよい。

　ＳＬＡＭとは自己位置推定と環境地図作成を同時に行う技術であるが、本実施形態では、Ｖｉｓｕａｌ　ＳＬＡＭの技術が用いられるものとする。Ｖｉｓｕａｌ　ＳＬＡＭでは、映像内の連続したフレーム間で画素や特徴点をトラッキングすることで、フレーム間での変位を用いて自己位置の変位を推定する。更に、その際に利用した画素や特徴点の位置を３次元点群としてマッピングすることで、撮影環境の環境地図を再構成する。

　また、Ｖｉｓｕａｌ　ＳＬＡＭでは、自己位置がループした場合は、以前に生成した点群と新たにマッピングした点群が矛盾しないように点群地図全体を再構築（ループクロージング）する。なお、Ｖｉｓｕａｌ　ＳＬＡＭでは、単眼カメラやステレオカメラ、ＲＧＢ－Ｄカメラなど用いるデバイスによって精度、地図の特性、利用可能なアルゴリズム等が異なる。

　映像処理部１１は、ＳＬＡＭの技術を適用して、映像、カメラパラメータ（例えば、ＲＧＢ－Ｄカメラのｄｅｐｔｈ値等）を入力データとして用いることで、点群地図、各キーフレームの姿勢情報（フレーム時刻（タイムスタンプ）、撮影位置（ｘ座標、ｙ座標、ｚ座標）、撮影方向（方向ベクトルもしくはクオータニオン））を出力データとして得ることができる。

　パラメータ処理部１２は、各シーンの撮影位置および向きから滞在時間および移動速度を算出し、パラメータ保管部１３に格納する。具体的には、パラメータ処理部１２は、映像情報の各シーンのフレーム時刻（タイムスタンプ）、撮影位置、撮影方向を映像処理部１１から受信し、フレーム時刻（タイムスタンプ）、撮影位置、撮影方向に基づき滞在時間および移動速度を算出し、パラメータ保管部１３に格納する。

　パラメータ保管部１３は、映像シーンの各シーンに紐付けて、フレーム時刻（タイムスタンプ）、撮影位置、撮影方向、滞在時間および移動速度を保存する。パラメータ保管部１３に記憶される情報は、後述する検索処理部１５によって検索される。

　ＵＩ部１４は、オプション設定部１４ａ、入力処理部１４ｂおよび出力部１４ｃを有する。オプション設定部１４ａは、検索ユーザの操作により、映像シーンを検索するためのオプションパラメータの設定を受け付け、オプション条件として検索処理部１５に設定を通知する。なお、ＵＩ部１４は、オプションパラメータの設定として、撮影者の行動モデルを示す複数のラベルのなかから一のラベルの指定を受け付けるようにしてもよい。

　ここで、図２を用いて、検索オプションの設定について説明する。図２は、検索オプションの設定について説明する図である。図２の例示するデフォルト検索条件とは、例えば、対象位置（または範囲）が入力された際に各場面で対象位置を撮影していたかを判断するための「撮影位置からの対象までの距離が一定以内か」「対象がカメラの視野範囲に収まっているか」等の条件である。このデフォルト条件により、特定のオブジェクトを撮影した映像シーンが検索できる。また、図２に例示する指定可能項目とは、特定のオブジェクトを撮影した映像シーンから更に特定行動中のシーンを絞り込むためのパラメータである。指定可能項目としては、撮影者が撮影した際の映像取得装置２０と対象物との距離を示す対象距離（撮影距離）、撮影者が撮影した際の映像取得装置２０の有効視野角、撮影者が撮影した際の映像取得装置２０の各位置での移動速度、滞在時間および回転量、撮影者が撮影した際のシーン全体での映像取得装置２０の移動量、シーン全体での映像取得装置２０の方向変化およびシーン全体に対する対象範囲が撮影されたシーンの割合である対象網羅率等がある。

　また、指定可能項目のパラメータを入力せずに、予め設定された行動モデルのラベルから指定してもよい。例えば、図２に例示するように、検索ユーザは、対象機材を直接操作した際の作業映像が見たい場合には、ラベル「作業」を指定する。これにより、表示装置１０は、ラベル「作業」に対応する撮影距離、視野範囲、滞在時間および位置変動の各パラメータを用いて、特定のオブジェクトを撮影した映像シーンから更に特定行動中のシーンを簡易に絞り込むことができる。

　入力処理部１４ｂは、検索ユーザの操作により、地図上の位置または範囲の指定を受け付ける。例えば、検索ユーザが特定のオブジェクトが撮影されている映像シーンを検索したい場合には、入力処理部１４ｂは、オブジェクトが位置する地図上のポイントに対するクリック操作を受け付ける。

　出力部１４ｃは、後述する検索処理部１５によって検索された映像シーンを表示する。例えば、出力部１４ｃは、検索処理部１５から検索結果として、該当シーンの時間帯を受信すると、該当シーンの時間帯に対応する映像シーンを映像保管部１６から読み出し、読み出した映像シーンを出力する。映像保管部１６は、映像取得装置２０によって撮影された映像情報を保存する。

　検索処理部１５は、ユーザの操作により地図上の位置または範囲の指定を受け付けた場合には、パラメータ保管部１３に記憶された各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。例えば、検索処理部１５は、入力処理部１４ｂによってユーザの操作により地図上の特定のオブジェクト位置の指定を受け付けた場合には、指定位置を映した撮影フレームについてパラメータ保管部１３への照会を行い、撮影フレームのパラメータリストを取得し、該当シーンの時間帯を出力部１４ｃに出力する。

　また、検索処理部１５は、地図上の位置または範囲の指定とともに、オブジェクトとの撮影距離、視野範囲、移動範囲、移動量、方向変化のうちいずれか一つまたは複数のオプション条件の指定を受け付けた場合には、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、オプション条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力する。例えば、検索処理部１５は、取得したパラメータリストのシーンのなかからオプション条件に合うシーンのみを抽出し、該当シーンの時間帯を出力部１４ｃに出力する。

　また、検索処理部１５は、地図上の位置または範囲の指定とともに、撮影距離、視野範囲、移動範囲、移動量、方向変化のうちいずれか一つまたは複数の条件に対応付けられたラベルの指定を受け付け、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、ラベルに対応する条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力するようにしてもよい。つまり、検索処理部１５は、例えば、複数のラベルからユーザが検索したい特定の行動モデルのラベルの指定を受け付けた場合には、指定されたラベルに対応するオプション条件に合うシーンのみを抽出し、該当シーンの時間帯を出力部１４ｃに出力する。

　ここで、図３を用いて、検索した映像シーンの表示例について説明する。図３は、検索した映像シーンの表示例を示す図である。図３に例示するように、表示装置１０は、画面左側に地図を表示し、検索ユーザの操作により確認したい映像の位置がクリックされると、該当シーンを検索して該当シーンの動画を画面右側に表示する。

　また、表示装置１０は、検索された各シーンの動画内における時間帯を右下に表示するとともに、該当シーンの撮影位置を地図上にプロットして表示する。また、図３に例示するように、表示装置１０は、検索結果を撮影時刻の早いものから自動再生し、表示中のシーンの撮影位置および撮影時刻も表示する。

［表示装置の処理手順］
　次に、図４および図５を用いて、第１の実施形態に係る表示装置１０による処理手順の例を説明する。図４は、第１の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。図５は、第１の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。

　まず、図４を用いて、映像およびパラメータの保管時の処理の流れについて説明する。図４に例示するように、表示装置１０の映像処理部１１は、映像情報を取得すると（ステップＳ１０１）、取得した映像を映像保管部１６に映像を保存する（ステップＳ１０２）。また、映像処理部１１は、映像から撮影環境の地図と各シーンの撮影位置、撮影向き、タイムスタンプを取得する（ステップＳ１０３）。なお、映像処理部１１は、ＳＬＡＭ以外の技術を用いて、撮影環境の地図と各シーンの撮影位置、撮影向き、タイムスタンプを取得してもよい。例えば、映像処理部１１は、映像と同期的にＧＰＳや屋内設置センサで撮影位置を取得し、既存地図に取得した位置情報をマッピングしてもよい。

　そして、パラメータ処理部１２は、取得した各シーンの撮影位置、撮影向き、タイムスタンプに基づき滞在時間と移動速度を算出し（ステップＳ１０４）、各シーンの撮影位置、撮影向き、タイムスタンプ、滞在時間および移動速度をパラメータ保管部１３に保存する（ステップＳ１０５）。また、入力処理部１４ｂは、映像と紐づいた地図を受け取る（ステップＳ１０６）。

　次に、図５を用いて、検索時の処理の流れについて説明する。図５に例示するように、表示装置１０のオプション設定部１４ａは、ユーザが検索オプションをカスタマイズする場合には（ステップＳ２０１肯定）、ユーザ入力に応じてシーン撮影時の行動モデルの指定をオプション条件として受け付ける（ステップＳ２０２）。

　続いて、入力処理部１４ｂは、映像処理部１１から受け取った地図を表示し、ユーザ入力を待機する（ステップＳ２０３）。そして、入力処理部１４ｂがユーザ入力を受け付けると（ステップＳ２０４肯定）、検索処理部１５は、指定位置を映したフレームをパラメータ保管部１３に対して照会する（ステップＳ２０５）。

　パラメータ保管部１３は、各フレームの撮影位置・方向を参照し、条件を満たす全フレーム、つまり、指定位置を映したフレームの各パラメータリストを検索処理部１５に返す（ステップＳ２０６）。そして、検索処理部１５は、取得したフレームのタイムスタンプのうち所定の閾値以下の時間のもの同士を映像として復元し（ステップＳ２０７）、オプション条件を照会し、取得したシーンから指定条件に合うシーンを絞り込む（ステップＳ２０８）。その後、出力部１４ｃは、検出した各映像シーンをユーザに提示する（ステップＳ２０９）。

［第１の実施形態の効果］
　このように、第１の実施形態に係る表示システム１００の表示装置１０では、映像情報に基づいて、撮影された領域の地図を生成し、映像情報における各シーンに対応付けて地図上の撮影対象に関する情報をパラメータ保管部１３に格納する。そして、表示装置１０は、ユーザの操作により地図上の位置または範囲の指定を受け付けた場合には、パラメータ保管部１３に記憶された各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。このため、表示装置１０では、類似のオブジェクトが多数存在する場合であっても、映像から特定の場面を効率的に抽出することができるという効果を奏する。

　つまり、表示システム１００では、ユーザが地図上、または地図と紐づけられたデータベースから任意の対象を選択することで、類似オブジェクトが多数存在する領域内においても、特定の対象を撮影した映像シーンを判別し検索することができる。

　このように、表示システム１００では、映像情報から特定の映像シーンを抽出する際、特定の確認対象（オブジェクトや空間）に関する映像シーンを絞り込む機能を構築することで、ユーザがより映像を有効に活用するための支援を行うことができる。

　また、表示システム１００では、オブジェクト位置の指定時に用いる地図への各映像シーンの撮影位置のマッピングに関して、要素技術にＳＬＡＭ技術を用いることで、ユーザ負担を削減または緩和することが可能になる。つまり、表示装置１０が、指定時に用いる地図として、ＳＬＡＭ地図をそのまま利用した場合には、地図の用意および撮影位置のマッピング不要であり、ＳＬＡＭ地図と異なる地図を利用する場合でも、ＳＬＡＭ地図との位置合わせのみで位置のマッピングが完了できるため、ユーザの負担を軽減することができる。

　また、表示システム１００では、撮影者の行動モデルを用いた検索により、特定のオブジェクトを撮影した映像シーンが多数ある場合でも、映像の利用意図により即した映像シーンを効率的に検索することが可能になる。

［第２の実施形態］
　上述した第１の実施形態では、表示装置１０が撮影位置と撮影方向に基づいて特定のオブジェクトを撮影した映像シーンを検索する場合を説明したが、これに限定されるものではなく、例えば、地図生成の際に各特徴点が観測されたフレームのリストを取得し、フレームのリストに基づいて特定のオブジェクトを撮影した映像シーンを検索するようにしてもよい。

　以下では、第２の実施形態として、表示システム１００Ａの表示装置１０Ａが、映像情報から特徴点のトラッキングにより地図を生成し、撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得し、地図上の位置または範囲の指定を受け付けた場合には、フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する場合について説明する。なお、第１の実施形態と同様の構成や処理については説明を適宜省略する。

　図６は、第２の実施形態に係る表示システムの構成の一例を示す図である。表示装置１０Ａの映像処理部１１は、映像情報から特徴点のトラッキングにより地図を生成し、撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得する。具体的には、映像処理部１１は、ＳＬＡＭでフレーム内から検出した特徴点を連続フレーム間でトラッキングする際に、各特徴点がどのフレーム内に存在したかを取得する。

　例えば、映像処理部１１は、ＳＬＡＭの技術を用いて、映像情報から特徴点のトラッキングにより地図を生成し、各オブジェクトが観測されたフレームのリストを取得して入力処理部１４ｂに通知する。また、映像処理部１１は、撮影対象に関する情報として、映像情報における各シーンに対応付けて地図上の撮影位置および撮影方向を取得してパラメータ処理部１２に通知するとともに、パラメータ保管部１３に格納する。

　入力処理部１４ｂは、検索ユーザの操作により、地図上の位置または範囲の指定を受け付けると、指定された位置または範囲とともに、フレームのリストを検索処理部１５に通知する。

　検索処理部１５は、地図上の位置または範囲の指定を受け付けた場合には、フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。

　例えば、検索処理部１５は、入力処理部１４ｂによってユーザの操作により地図上の特定のオブジェクト位置の指定を受け付けた場合には、オブジェクト位置に対応するフレームリストに基づき、該当フレームについてパラメータ保管部１３への照会を行い、該当フレームに関するパラメータを取得し、該当シーンの時間帯を出力部１４ｃに出力する。

［表示装置の処理手順］
　次に、図７および図８を用いて、第２の実施形態に係る表示装置１０Ａによる処理手順の例を説明する。図７は、第２の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。図８は、第１の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。

　まず、図７を用いて、映像およびパラメータの保管時の処理の流れについて説明する。図７に例示するように、表示装置１０Ａの映像処理部１１は、映像情報を取得すると（ステップＳ３０１）、取得した映像を映像保管部１６に映像を保存する（ステップＳ３０２）。また、映像処理部１１は、映像から撮影環境の地図、各位置を撮影したフレームのリスト、各シーンの撮影位置、撮影向き、タイムスタンプを取得する（ステップＳ３０３）。例えば、映像処理部１１は、ＳＬＡＭでフレーム内から検出した特徴点を連続フレーム間でトラッキングする際に、各特徴点がどのフレーム内に存在したかを取得する。

　そして、パラメータ処理部１２は、取得した各シーンの撮影位置、撮影向き、タイムスタンプに基づき滞在時間と移動速度を算出し（ステップＳ３０４）、各シーンの撮影位置、撮影向き、タイムスタンプ、滞在時間および移動速度をパラメータ保管部１３に保存する（ステップＳ３０５）。また、入力処理部１４ｂは、映像と紐づいた地図と、地図内の各オブジェクトを撮影したフレームのリストを受け取る（ステップＳ３０６）。

　次に、図８を用いて、検索時の処理の流れについて説明する。図８に例示するように、表示装置１０Ａのオプション設定部１４ａは、ユーザが検索オプションをカスタマイズする場合には（ステップＳ４０１肯定）、ユーザ入力に応じてシーン撮影時の行動モデルの指定をオプション条件として受け付ける（ステップＳ４０２）。

　続いて、入力処理部１４ｂは、映像処理部１１から受け取った地図を表示し、ユーザ入力を待機する（ステップＳ４０３）。そして、入力処理部１４ｂがユーザ入力を受け付けると（ステップＳ４０４肯定）、検索処理部１５は、指定位置に対応するフレームリストに基づき該当フレーム情報をパラメータ保管部１３に照会する（ステップＳ４０５）。

　パラメータ保管部１３は、各フレームの撮影位置・方向を参照し、条件を満たす全フレーム、つまり、指定位置を映したフレームの各パラメータリストを検索処理部１５に返す（ステップＳ４０６）。そして、検索処理部１５は、取得したフレームのタイムスタンプのうち所定の閾値以下の時間のもの同士を映像として復元し（ステップＳ４０７）、オプション条件を照会し、取得したシーンから指定条件に合うシーンを絞り込む（ステップＳ４０８）。その後、出力部１４ｃは、検出した各映像シーンをユーザに提示する（ステップＳ４０９）。

［第２の実施形態の効果］
　このように、第２の実施形態に係る表示システム１００Ａでは、表示装置１０Ａが、映像情報から特徴点のトラッキングにより地図を生成し、撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得する。そして、表示装置１０Ａは、地図上の位置または範囲の指定を受け付けた場合には、フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。このため、表示装置１０Ａは、地図生成の際に、観測された特徴点がどのフレーム内に存在したかを示すリストの情報を用いて、映像から特定の場面を効率的に抽出することができるという効果を奏する。例えば、第１の実施形態では距離と角度の条件のみでシーンの検出を行うため、撮影した位置と対象物の位置との間に遮蔽物があり実際には対象物が映っていない場合もシーンを検出してしまう場合がある。これに対して、第２の実施形態では「該当する特徴点を実際に映したフレーム」が把握できているため、そのような問題は発生しない。

［第３の実施形態］
　上述した第１の実施形態および第２の実施形態では、検索時において検索ユーザが位置を指定し、指定した位置が撮影された映像シーンを検索する場合を説明した。つまり、例えば、検索ユーザが特定のオブジェクトが撮影された映像シーンを見たい場合に、表示装置１０、１０Ａは、検索ユーザから地図上のオブジェクト位置の指定を受け付け、オブジェクト位置が撮影された映像シーンを検索する場合を説明した。しかし、このような場合に限定されるものではなく、例えば、検索ユーザがリアルタイムに映像を撮影し、撮影した映像と同一対象物が撮影された映像シーンを検索するようにしてもよい。

　以下では、第３の実施形態として、表示システム１００Ｂの表示装置１０Ｂが、ユーザが撮影したリアルタイムの映像情報を取得し、撮影された領域の地図を生成し、該映像情報から地図上におけるユーザの撮影位置および撮影方向を特定し、特定したユーザの撮影位置および撮影方向を用いて、撮影位置および撮影方向が同一または類似のシーンの情報を検索する場合を説明する。なお、第１の実施形態と同様の構成や処理については説明を適宜省略する。

　図９は、第３の実施形態に係る表示システムの構成の一例を示す図である。図９に例示するように、表示システム１００Ｂの表示装置１０Ｂは、第１の実施形態と比較して、特定部１７および地図比較部１８を有する点が異なる。

　特定部１７は、検索ユーザが撮影したリアルタイムの映像情報をウェアラブルカメラ等の映像取得装置２０から取得し、映像情報に基づいて、撮影された領域の地図Ｂを生成し、該映像情報から地図上におけるユーザの撮影位置および撮影方向を特定する。そして、特定部１７は、生成した地図Ｂを地図比較部１８に通知し、特定したユーザの撮影位置および撮影方向を検索処理部１５に通知する。例えば、特定部１７は、映像処理部１１と同様に、ＳＬＡＭの技術を用いて、映像情報から特徴点のトラッキングにより地図を生成し、各シーンの撮影位置および撮影方向を取得するようにしてもよい。

　地図比較部１８は、映像処理部１１から受信した地図Ａと特定部１７から受信した地図Ｂとを比較し、両者の対応関係をもとめ、地図間の対応関係を検索処理部１５に通知する。

　検索処理部１５は、特定部１７によって特定されたユーザの撮影位置および撮影方向を用いて、パラメータ保管部１３に記憶された各シーンのなかから、撮影位置および撮影方向が同一または類似のシーンの情報を検索し、検索したシーンの情報を出力する。例えば、検索処理部１５は、先行者の地図Ａにおける検索ユーザの撮影位置および撮影方向に基づき映像シーンを照会し、撮影フレームのタイムスタンプを取得し、該当シーンの時間帯を出力部１４ｃに出力する。

　これにより、検索ユーザは検索地点までの視点映像を撮影し、得られた地図Ｂと保管された地図Ａとの比較に基づき、同一視点で撮影された映像シーンを受け取ることが可能である。ここで、図１０を用いて、リアルタイム視点からシーンを検索する処理の概要を説明する。図１０は、リアルタイム視点からシーンを検索する処理の概要を説明する図である。

　例えば、ユーザが目前の作業対象Ａに関する過去の作業履歴を閲覧したい場合に、ウェアラブルカメラを装着したユーザは作業対象Ａの前に移動して、作業対象Ａの映像をウェアラブルカメラで撮影し、表示装置１０Ｂに検索実行を命令する。表示装置１０Ｂは、過去の作業対象Ａに対する作業履歴のシーンを検索し、シーンの映像を表示する。なお、例えば、表示装置１０Ｂは、あらかじめ先行者の点群地図にＡＲ（Augmented　Reality）をマッピングしておくことで、映像の代わりにユーザ位置に応じたＡＲを抽出することも可能である。

［表示装置の処理手順］
　次に、図１１を用いて、第３の実施形態に係る表示装置１０Ｂによる処理手順の例を説明する。図１１は、第３の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。

　図１１に例示するように、表示装置１０Ｂの映像処理部１１は、ユーザの移動中の位置および向きを取得する（ステップＳ５０１）。その後、特定部１７は、ユーザからの検索命令を受け付けたか判定する（ステップＳ５０２）。そして、特定部１７は、ユーザからの検索命令を受け付けると（ステップＳ５０２肯定）、ユーザの視点映像から地図と各シーンの位置および向きを取得する（ステップＳ５０３）。

　そして、地図比較部１８は、先行者の地図および検索ユーザの視点映像から生成された地図について、各地図における位置の対応関係を求める（ステップＳ５０４）。そして、検索処理部１５は、先行者の地図における検索ユーザの位置・向きに基づき映像シーンを照会する（ステップＳ５０５）。

　そして、パラメータ保管部１３は、各映像シーンのパラメータを参照し、同一視点で撮影された各フレームのタイムスタンプを抽出する（ステップＳ５０６）。そして、検索処理部１５は、取得したフレームのタイムスタンプのうち所定の閾値以下の時間のもの同士を映像として復元する（ステップＳ５０７）。その後、出力部１４ｃは、検出した各映像シーンをユーザに提示する（ステップＳ５０８）。

［第３の実施形態の効果］
　このように、第３の実施形態に係る表示システム１００Ｂでは、表示装置１０Ｂが、ユーザが撮影したリアルタイムの映像情報を取得し、映像情報に基づいて、撮影された領域の地図を生成し、該映像情報から地図上におけるユーザの撮影位置および撮影方向を特定する。そして、表示装置１０Ｂは、特定したユーザの撮影位置および撮影方向を用いて、パラメータ保管部１３に記憶された各シーンのなかから、撮影位置および撮影方向が同一または類似のシーンの情報を検索し、検索したシーンの情報を出力する。このため、表示装置１０Ｂは、リアルタイム視点からのシーン検索を実現することが可能であり、例えば、目前の作業対象に関する過去の作業履歴をリアルタイムに閲覧することが可能である。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　図１２は、表示プログラムを実行するコンピュータを示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、表示装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク、ＷＡＮを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０、１０Ａ、１０Ｂ　表示装置
　１１　映像処理部
　１２　パラメータ処理部
　１３　パラメータ保管部
　１４　ＵＩ部
　１４ａ　オプション設定部
　１４ｂ　入力処理部
　１４ｃ　出力部
　１５　検索処理部
　１６　映像保管部
　１７　特定部
　１８　地図比較部
　２０　映像取得装置
　１００、１００Ａ、１００Ｂ　表示システム

Claims

　映像情報に基づいて、撮影された領域の地図を生成し、前記映像情報における各シーンに対応付けて前記地図上の撮影対象に関する情報を取得する映像処理部と、
　ユーザの操作により前記地図上の位置または範囲の指定を受け付けた場合には、前記各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する検索処理部と
　を有することを特徴とする表示システム。
　前記検索処理部は、前記地図上の位置または範囲の指定とともに、オブジェクトとの撮影距離、視野範囲、移動範囲、移動量、方向変化のうちいずれか一つまたは複数の条件の指定を受け付けた場合には、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、前記条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力することを特徴とする請求項１に記載の表示システム。
　前記検索処理部は、前記地図上の位置または範囲の指定とともに、前記撮影距離、前記視野範囲、前記移動範囲、前記移動量、前記方向変化のうちいずれか一つまたは複数の条件に対応付けられたラベルの指定を受け付け、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、前記ラベルに対応する条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力することを特徴とする請求項２に記載の表示システム。
　前記映像処理部は、前記撮影対象に関する情報として、前記映像情報における各シーンに対応付けて前記地図上の撮影位置および撮影方向を取得して記憶部に格納し、
　前記検索処理部は、前記地図上の位置または範囲の指定を受け付けた場合には、前記記憶部に記憶された各シーンの撮影位置および撮影方向を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力することを特徴とする請求項１に記載の表示システム。
　前記映像処理部は、前記映像情報から特徴点のトラッキングにより地図を生成し、前記撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得し、
　前記検索処理部は、前記地図上の位置または範囲の指定を受け付けた場合には、前記フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力することを特徴とする請求項１に記載の表示システム。
　ユーザが撮影したリアルタイムの映像情報を取得し、前記映像情報に基づいて、撮影された領域の地図を生成し、該映像情報から前記地図上における前記ユーザの撮影位置および撮影方向を特定する特定部をさらに有し、
　前記検索処理部は、前記特定部によって特定されたユーザの撮影位置および撮影方向を用いて、前記記憶部に記憶された各シーンのなかから、撮影位置および撮影方向が同一または類似のシーンの情報を検索し、検索したシーンの情報を出力することを特徴とする請求項４に記載の表示システム。
　表示システムによって実行される表示方法であって、
　映像情報に基づいて、撮影された領域の地図を生成し、前記映像情報における各シーンに対応付けて前記地図上の撮影対象に関する情報を取得する映像処理工程と、
　ユーザの操作により前記地図上の位置または範囲の指定を受け付けた場合には、前記各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する検索処理工程と
　を含むことを特徴とする表示方法。