WO2016098187A1

WO2016098187A1 - 画像検索装置および画像検索方法

Info

Publication number: WO2016098187A1
Application number: PCT/JP2014/083326
Authority: WO
Inventors: 直人秋良; 廣池　敦
Original assignee: 株式会社日立製作所
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2016-06-23

Abstract

　複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する装置であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第１画像から抽出した複数の第１画像特徴量と、検索用動画像を構成する第１シーンについての情報である第１シーン情報とを記憶する記憶部と、クエリ動画像を構成する複数の第２画像から複数の第２画像特徴量を抽出する抽出部と、第２画像特徴量と第１画像特徴量とを用いて、第２画像に類似する第１画像を検索し、検索結果を出力する検索部と、検索結果と前記第１シーン情報とを用いて、クエリ動画像を構成する第２シーンに類似した第１シーンを、類似シーンとして検出する類似シーン検出部と、を有する画像検索装置。

Description

画像検索装置および画像検索方法

　本発明は、蓄積されている映像の中からシーンを検索する画像検索装置および画像検索方法に関する。

　ストレージの低価格化に伴い、プラントにおける作業風景を記録した作業映像や放送映像、監視カメラでの映像等、映像データが大量に蓄積されるようになり、これらの映像データを有効に活用したいというニーズが高まっている。映像を活用する目的として、映像の内容を構成している単位であるシーンに着目し、大量の映像から同じシーンを探すことで、映像の再利用状況を確認したり、視聴する映像を探したりといった用途が挙げられる。これらの用途では、再生してデータを確認するために実時間に近い時間を要してしまうことから、大量の映像データを対象とした場合には活用が困難であるという問題があった。

　これに対し、入力された映像と見た目が類似するシーンを検索可能な技術としては特許文献１があげられる。特許文献１の段落番号００１０には、「本実施例では、見つけ出したいシーンの映像（以下、問合せ映像と呼ぶ）１００は、検索に先立って予め、問合せ用映像入力部１０２によってフレーム毎に逐次入力され、メモリ９に一時的に格納される。フレーム特徴量抽出部１０６は、メモリ９のフレーム画像１０４から特徴量１０８を抽出する。特徴量テーブル作成部１１０は、特徴量が許容変動範囲内にある一続きの区間ごとに、その特徴量と、その先頭フレーム番号とを対にして、特徴量テーブル１１２を作成し、記憶装置１１４に記録する。検索対象であるビデオ映像１１６も、問合せ映像と同様にして照合対象映像入力部１１８によってフレーム毎に逐次入力され、メモリ９に一時的に格納される。フレーム特徴量抽出部１２２は、メモリ９のフレーム画像１２０から特徴量１２４を抽出する。ここで、１２２は１０６と全く同じ処理を行う。特徴量照合部１３０は、１２２から次々と送られてくる特徴量１２４の最新の時系列の並びと、記録された特徴量テーブル３００（データ内容は１１２と同一）とが一致するか比較照合する。」と開示されている。

特開２００３－２２４７９１号公報

　特許文献１の技術では、放送映像など繰り返し同じ素材映像が用いられている場合に、指定した素材映像がどこで使われているかを探すといった用途を想定している。即ち、画質やサイズが異なる素材映像、編集でフレーム画像の一部が削除された素材映像、時間が伸縮された素材映像のように、基本的にはオリジナルの映像ソースが同じであるシーンを検索（照合）の対象としており、オリジナルの映像が異なるシーンを検索することは困難という問題があった。

　特に、権利上そのままでは使えない放送映像を、シーン単位で権利上問題ない映像に置き換えたいという場合に、類似する景色や雰囲気のシーンを探すことが困難である。

　また、特許文献１に対し、公知技術である類似画像を検索する技術を適用し、まったく同じ映像ではなく類似する映像を探そうとしても、検索の入力となる映像が複数のシーンで構成されている場合、事前にシーンに分割して、シーン単位で入力しなければならないという問題があった。例えば、シーンの内容をＡＢＣＤの記号で表した場合に、ＢＣＤＡという４つの内容で構成されるシーンを入力として、類似する素材映像の連続であるＢ’Ｃ’Ｄ’Ａ’を探そうとした場合に、Ｂ’Ｃ’Ｄ’Ａ’各々を別々の動画から取得するといった用途には対応できない。

　そこで、同じ作業内容が映っている別の映像や、同じような風景が映っている別の映像のように、情報ソースが異なる類似したシーンを、シーンの前後の内容を考慮した上で高精度に検索することを本発明が解決すべき課題とする。

　上記課題を解決するために、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、画像検索装置であって、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する装置であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第１画像から抽出した複数の第１画像特徴量と、検索用動画像を構成する第１シーンについての情報である第１シーン情報とを記憶する記憶部と、クエリ動画像を構成する複数の第２画像から複数の第２画像特徴量を抽出する抽出部と、第２画像特徴量と第１画像特徴量とを用いて、第２画像に類似する第１画像を検索し、検索結果を出力する検索部と、検索結果と第１シーン情報とを用いて、クエリ動画像を構成する第２シーンに類似した第１シーンを、類似シーンとして検出する類似シーン検出部と、を有することを特徴とする。

　あるいは、画像検索方法であって、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する方法であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第１画像から抽出した複数の第１画像特徴量と、検索用動画像を構成する第１シーンについての情報である第１シーン情報とを記憶部に記憶する第１ステップと、クエリ動画像を構成する複数の第２画像から複数の第２画像特徴量を抽出する第２ステップと、第２画像特徴量と第１画像特徴量とを用いて、第２画像に類似する第１画像を検索し、検索結果を出力する第３ステップと、検索結果と前記第１シーン情報とを用いて、クエリ動画像を構成する第２シーンに類似した第１シーンを、類似シーンとして検出する第４ステップと、を有することを特徴とする。

　本発明によれば、複数のシーンから構成される入力映像に対し、シーンごとに類似するシーンを検索することができる。

本発明の画像検索システムの構成を示す図である。本発明の映像解析ＰＣの構成の一例を示すブロック図である。画像特徴量の一例を示す図である。本発明の映像蓄積ＰＣの構成の一例を示すブロック図である。映像データの一例を示す図である。フレーム画像データの一例を示す図である。オブジェクトデータの一例を示す図である。センサデータの一例を示す図である。本発明の作業端末の構成の一例を示すブロック図である。本発明の映像を蓄積する手順を示すフローチャートである。本発明の映像シーンを検索する手順を示すフローチャートである。シーンデータの一例を示す図である。分割されたシーンの例を示す図である。類似フレームからの連続したフレームの検出例を示す図である。頻出するシーン区間の選定方法を示す図である。動画の選択画面の一例を示す図である。本発明の画像検索システムの一例を示す図である。

＜全体構成＞
　まず本発明の第一の実施の形態について、図面を参照して説明する。

　図１は、本実施例の映像シーン検索システムの一例を示す構成図である。図１において、映像シーン検索システムは、撮影デバイスやセンサデバイスなどで構成される入力デバイス１と、各入力デバイスと各ＰＣ（パーソナルコンピュータ）を接続するインターネットやイントラネットなどのネットワーク２と、入力または蓄積された映像の内容を解析する映像解析ＰＣ３と、映像および映像関連データを蓄積する映像蓄積ＰＣ４と、類似シーンの検索の指示や映像データの登録の指示、および検索結果の表示などに用いる作業端末ＰＣ５を主体に構成される。入力デバイス１は、作業者の視野映像を撮影するＡＲカメラ１０１と、作業者の作業風景を定位置から撮影する固定カメラ１０２と、撮影や情報の閲覧を行うタブレット端末１０３と、音声情報を取得するマイク１０４と、プラントの稼働状況などを把握する圧力センサ、電流計、電圧計、温度計などの機器センサ１０５とで構成される。また、これらのデバイスを複数の拠点に設置し、複数拠点間で映像などを共有して活用することも可能である。また、これらの入力デバイスは、すべてのデバイスを設置する必要はなく、必要な種類のデバイスを設置すればよい。

　次に、ＡＲカメラ１０１の構成について、以下に説明する。ＡＲカメラ１０１は、メガネに付いているカメラと、該カメラの映像に任意の情報を重畳表示するディスプレイなどの表示装置で構成され、映像蓄積ＰＣ４とは、無線ＬＡＮやＵＳＢケーブルなど、無線または有線のネットワーク２で構成される。尚、ＡＲメガネ１０１は、ウェブカメラとヘッドマウントディスプレイの組合せなどで同様の機能を実現しても構わない。また、作業者が情報をその場で確認する必要がない場合は、頭部等にカメラを取り付けるのみでも構わない。

　次に、固定カメラ１０２の構成について、以下に説明する。固定カメラ１０２は、作業者の作業が確認できる位置に設置されており、作業者の作業内容を固定視点で確認できる。尚、固定カメラの設置が困難な場合には、省略しても構わない。

　次に、タブレット端末１０３の構成について、以下に説明する。タブレット端末１０３は、作業者が作業手順書やマニュアルを閲覧したり、ＡＲカメラ１０１やカメラ１０２がない場合に、作業内容を撮影したりするために用いる。尚、撮影デバイスとディスプレイがあれば、スマートフォンなどを代用に用いることも可能である。尚、タブレット端末１０３が不要な場合には、省略しても構わない。

　次に、マイク１０４の構成について、以下に説明する。マイク１０４は、機器の稼働により生じる音や、作業者の音声などを入力する。尚、ＡＲカメラ１０１や固定カメラ１０２にマイクが内蔵されている場合は、それらを代用として用いても構わない。また、音声処理が不要な場合は、マイク１０４を省略しても構わない。

　次に、機器センサ１０５の構成について、以下に説明する。機器センサは、圧力センサ、電流計、電圧計、温度計などのセンサで構成され、配管やメータなどの状況を把握するための情報が電気信号として入力される。直接センサから映像蓄積ＰＣ４に情報を送信できない場合は、制御用に別途ＰＣを用意しても構わない。

　次に、映像解析ＰＣ３の構成要素について、図２を参照しながら、以下に説明する。映像蓄積ＰＣ４に蓄積された映像に対して、映像を解析したり、作業端末ＰＣ５で選択または入力された映像から類似シーンを検索したりする映像解析ＰＣ３は、図２に例を示す構成図のように、ＣＰＵ２０１、主メモリ２０２、入力部２０３、表示部２０４、通信部２０５および記憶部２１０を含む計算機で構成される。記憶部２１０には、ＯＳ２１１と、キャッシュデータ２１２と、画像特徴量抽出プログラム２１３と、オブジェクト検出プログラム２１４と、類似シーン区間検出プログラム２１５と、類似シーン選定プログラム２１６と、類似画像検索プログラム２１７と、フレーム画像取得プログラム２１８と、データ入出力プログラム２１９と、センサ情報取得プログラム２２０とが登録される。

　キャッシュデータ２１２には、データ入出力プログラム２１９で取得した、映像解析に必要な映像データが一時保存される。尚、通信が高速であるなど、キャッシュしなくても映像解析が可能な場合は、省略しても構わない。

　画像特徴量抽出プログラム２１３は、フレーム画像取得プログラム２１８で取得したフレーム画像から、画像の見た目の特徴を表す画像特徴量を抽出する。例えば、画像の画素値情報を用いて、画像中のエッジパターンの分布を示す多次元ベクトルを生成し、主成分分析法などを用いて多次元ベクトルを次元圧縮して数十～数百次元程度のベクトルを生成し、画像特徴量とすることができる。ここで、エッジパターンの分布は、図３に例を示す図のように、特徴的なエッジパターンを予め複数設定し、格子状に領域分割を行い、各領域内に含まれるエッジパターン数を計数することによって多次元ベクトルを生成し、主成分分析法を用いて次元圧縮することにより生成される。尚、画像の見た目の特徴を示す特徴量であれば、一般に広く知られているＭＰＥＧ－７で規定されているエッジヒストグラム特徴など他の特徴量を用いても構わない。

　オブジェクト検出プログラム２１４は、事前に登録された部品画像などのオブジェクト画像をテンプレートとしてテンプレートマッチングを行い、オブジェクトの単位として可能性の高い画像領域を検出する。テンプレートマッチングは、広く知られているパターン認識的なアプローチや、画像特徴量を対象とした検索によるマッチングを行うアプローチなどを用いる。例えば、検出対象の画像から、様々な形状やサイズの矩形領域で画像を切り出し、オブジェクト画像の類似画像と画像特徴量が類似する矩形領域の有無を探索することで領域を検出できる。尚、オブジェクト領域が特定できれば、どのような方式を用いても構わない。また、３Ｄカメラやレーザーレーダーなどのセンサを用いて取得した三次元構造の情報と設計図面の対応付けによってオブジェクトを取得しても構わない。

　類似シーン区間検出プログラム２１５は、フレーム画像取得プログラム２１８で取得した蓄積映像のフレーム画像から、画像特徴量抽出プログラム２１３で取得した画像特徴量を用いて、頻出する類似区間を検出し、シーン区間の特定およびシーン間の類似性を取得する。尚、取得したシーンの情報は、シーンデータ４１６に登録される。尚、オブジェクトが検出できる場合は、オブジェクト検出プログラム２１４で取得したオブジェクトの一致性をフレームの類似の判定に用いても構わない。

　類似シーン選定プログラム２１６は、類似シーン区間検出プログラム２１５で取得した複数の類似シーンの候補から、シーンの前後の内容およびセンサ情報取得プログラム２２０で取得したセンサ情報などを用いて、ユーザの条件に適合する最適なシーンを選定する。
類似画像検索プログラム２１７は、検索要求の画像の画像特徴量と、画像特徴量抽出プログラム２１３で取得した検索対象の画像各々の画像特徴量とのベクトル間の距離を計算し、特徴量ベクトル空間における両者間の距離が小さい画像を、見た目の類似度が高い画像として取得するプログラムである。尚、ベクトル間の距離の計算は、自乗距離など、ベクトル間の類似度を計算できれば、どのような方式を用いても構わない。

　フレーム画像取得プログラム２１８は、入力デバイス１から取得した映像、または作業端末ＰＣ５でファイルとして入力された映像からフレーム画像を取得する。映像のビットレートが高い場合は、すべてのフレームを用いてしまうと計算量が大きくなるため、例えば１秒毎など間引いて検出しても構わない。

　データ入出力プログラム２１９は、入力デバイス１および映像蓄積ＰＣ４、作業端末ＰＣ５とのデータの送受信を行う。

　センサ情報取得プログラム２２０は、入力デバイス１から各種センサ情報およびマイク１０４で取得した音声を取得する。

　次に、映像蓄積ＰＣ４の構成要素について、図４を参照しながら、以下に説明する。入力デバイス１または作業端末ＰＣ５から入力された映像および関連データを蓄積する映像蓄積ＰＣ４は、図４に例を示す構成図のように、ＣＰＵ４０１、主メモリ４０２、入力部４０３、表示部４０４、通信部４０５および記憶部４１０を含む計算機で構成される。記憶部４１０には、ＯＳ４１１と、映像データ４１２と、フレーム画像データ４１３と、オブジェクトデータ４１４と、センサデータ４１５と、シーンデータ４１６と、映像蓄積プログラム４１７と、データ入出力プログラム４１８とが登録される。

　映像データ４１２には、図５に例を示すように、映像を識別するためのＩＤ、映像の格納先、撮影装置、撮影日時など、オリジナルの映像および映像の属性情報が登録される。尚、映像データが保存できれば、ファイルやデータベースなど、どのような保存方法を用いても構わない。

　フレーム画像データ４１３には、図６に例を示すように、フレーム画像を識別するためのフレーム画像ＩＤ、フレーム画像が属する映像を示す映像ＩＤ、映像中の先頭からのフレーム画像の位置を示す時間、フレーム画像から画像特徴量抽出プログラム２１３で取得した画像特徴量、フレーム画像などが登録される。

　オブジェクトデータ４１４には、図７に例を示すように、オブジェクトが属するフレームを示すフレーム画像ＩＤと、オブジェクトの種類を示すオブジェクトＩＤと、オブジェクトが出現するフレーム画像中の位置を示す座標などが登録される。

　センサデータ４１５には、図８に例を示すように、フレーム画像を識別するためのフレーム画像ＩＤ、センサの種類を示すセンサ種別、センサの計測値などが登録される。尚、マイクで取得された音声データは、音の種別や音の大きさを示す値がセンサデータとして登録される。

　シーンデータ４１６には、図１２に例を示すように、シーンを識別するためのシーンＩＤ、類似しているシーンに対して同じＩＤが付与されるシーン種別ＩＤ、シーンの開始フレームと終了フレームのフレーム画像ＩＤ、シーンが属する映像の映像ＩＤなどが登録される。

　映像蓄積プログラム４１７は、入力デバイス１または作業端末ＰＣから入力した映像データ、および映像解析ＰＣ３で解析した映像の関連情報を保存する形式に変換し、映像データ４１２、フレーム画像データ４１３、オブジェクトデータ４１４、センサデータ４１５、シーンデータ４１６に登録する。尚、映像蓄積プログラム４１７は、映像および関連情報が蓄積できれば、映像蓄積プログラム４１７が主体的に動作しなくても、外部からの映像登録要求に応じて登録処理を実行しても構わない。

　データ入出力プログラム４１８は、入力デバイス１および映像解析ＰＣ３、作業端末ＰＣ５とのデータの送受信を行う。

　次に、作業端末ＰＣ５について、図９を参照しながら以下に説明する。映像の編集や作業者および監督者向けの画面の表示などを行う作業端末ＰＣ５は、図９に例を示す構成図のように、ＣＰＵ９０１、主メモリ９０２、入力部９０３、表示部９０４、通信部９０５および記憶部９１０を含む計算機で構成される。記憶部９１０には、ＯＳ９１１と、映像編集プログラム９１２と、編集画面生成プログラム９１３と、作業者画面生成プログラム９１４と、監督者画面生成プログラム９１５と、画面表示プログラム９１６と、データ入出力プログラム９１７とが登録される。

　映像編集プログラム９１２は、映像解析ＰＣ３で解析した映像解析結果を用いて、入力映像に含まれる複数のシーンに対して、別の類似シーンに置き換えた映像を生成するなど、映像解析結果を用いた映像の編集を行う。

　編集画面生成プログラム９１３は、映像編集の指示や素材の選択を行うための画面を生成する。尚、編集画面が不要な場合は、省略しても構わない。

　作業者画面生成プログラム９１４は、実作業を行う作業端末に表示させる画面を生成する。尚、作業者向けの画面が不要な場合は、省略しても構わない。

　監督者画面生成プログラム９１５は、作業員を指導する立場にある監督者向けの画面を生成する。尚、監督者向けの画面が不要な場合は省略しても構わない。

　画面表示プログラム９１６は、作業端末ＰＣ５または作業者が使用しているタブレットなどの表示装置に画面を表示させる。

　データ入出力プログラム４１８は、入力デバイス１および映像解析ＰＣ３、映像蓄積ＰＣ４とのデータの送受信を行う。
＜映像データ蓄積＞
　次に、映像データを記憶部１１０１へ蓄積する手順を、図１０に示すフローチャートを用いて説明する。この映像データ蓄積を行うのは、図１７の映像解析部１１００である。

　まず、映像蓄積プログラム４１７で、ＡＲカメラ１０１、固定カメラ１０２、タブレット端末１０３で入力された映像を取得する（Ｓ１００１）。なお、映像の取得は、作業端末ＰＣ５等で、ユーザから映像ファイルの入力を受け、映像を取得しても構わない。

　次に、取得された映像をデータ入出力プログラム４１８で、映像解析ＰＣ３のキャッシュデータに保存し、フレーム画像取得プログラム２１８で、フレーム画像を取得し、キャッシュデータ２１２に保存する（Ｓ１００２）。ここで、フレーム画像の取得は、事前に定めた時間毎（たとえば１秒ごと）に取得することで計算量およびデータ量を低減することができる。

　次に、取得したフレーム画像から、画像特徴量抽出プログラム２１３で画像特徴量を取得し、キャッシュデータ２１２に保存する（Ｓ１００３）。ここで、ＡＲカメラ１０１のフレーム画像である場合は、視点位置によって構図が異なるため、事前に定めた特徴量を抽出する矩形領域を、ＳＩＦＴ特徴量の対応付けやＡＲマーカーなどによる位置情報を元に切り出し、その領域から特徴量を抽出してもよい。位置情報をもとに領域を特定することで、異なる構図で同じ場所を撮影した動画像を検索することができる。

　次に、オブジェクト検出プログラム２１４で、フレーム画像からオブジェクト領域を検出し、キャッシュデータ２１２に検出結果を保存する（Ｓ１００４）。なお、連続するフレーム画像の場合、同じオブジェクトが前後のフレームの近い位置に表示されることが多いことから、前後のフレームのオブジェクト検出結果から多数決で取得した結果をオブジェクトとして用いたり、一定フレーム毎に検出したオブジェクトをパーティクルフィルター等で追跡して検出していないフレームのオブジェクトを補完したり、映像の連続性を活用してオブジェクトを検出することができる。これにより、全てのフレームに対してオブジェクト検出を行った場合に比べてPCの演算処理量を低減できる。

　次に、センサ情報取得プログラム２２０で、入力デバイス１に接続されている機器センサやマイクなどから情報を取得し、事前に登録されている機器センサやマイクの設置位置に近いカメラのフレーム画像の関連データとして、キャッシュデータ２１２に保存する（Ｓ１００５）。

　次に、類似シーン区間検出プログラム２１５で、図１３に結果の例を示すように、各動画で頻出する類似フレームの集合を検出することで、シーン区間を検出する（１００６）。ここで、シーンとは時間的に連続する複数のフレーム画像で構成される内容が同一である映像の区間を示し、作業映像の場合には、ネジを締めている、メータを確認しているなど、同一の作業をしている区間がシーンとなる。

　シーン区間の検出は、図１４に例を示すように、画像特徴量を取得するステップ（Ｓ１００３）で取得した画像特徴量を用いて、記憶部４１０に蓄積されているすべての動画のうち、１の動画を構成する全フレームをクエリとし、残りの動画を構成する全フレームを検索対象として、クエリフレームに類似するフレームを類似画像検索プログラム２１７で検索する。検索結果の中から事前に定めたフレーム数以内で連続するＩＤ列を見つけることで、どのフレームが１のシーン区間かを検出する。なお、類似するかどうかの判定は、類似画像検索プログラム２１７で取得した類似度が事前に定めた閾値以上であるかどうかで判断できる。

　図１４では、１行目に表示されているフレームＩＤがクエリフレームにＩＤであり、他は検索対象フレームのＩＤである。ここで下線付きのＩＤが連続するフレームであるが、実際のデータでは、一つの区間について複数の類似フレームのＩＤ列が検索される。この複数のＩＤ列を各区間について並べると、図１５のようになり、この中でシーン数を最大とする区間を最終的なシーン区間として採用する。ここでは、フレームＩＤが７７７６９から７７７７８の区間をシーン区間とした場合には、シーン数が３であるのに対し、フレームＩＤが７７７６９～７７７７２の区間と、７７７７３～７７７７８の区間をシーン区間とした場合には、シーン数は１１となるため、後者を採用し、クエリとなる動画のシーン区間としてシーンデータ（図１２）に登録する。これを、記憶部４０１に蓄積されているすべての動画に対して行うことで、蓄積されている動画のシーン区間を検出することできる。

　なお、内容がほとんどないシーン区間となることを防止するために、シーン区間には区間の長さに下限値を設ける。また、シーン区間の境界は、若干の変動が含まれることが多いことから、シーン数を最大とする区間を判定する際には、両端にマージンもたせて判定を行う。このステップにより、入力映像のシーン分割と、類似シーンの対応付けが同時にできるという効果がある。

　また、入力映像が固定カメラの場合には、固定カメラの映像を検索対象とし、入力映像がＡＲカメラの場合には、ＡＲカメラの映像を検索対象とすることで、撮影条件の違いによる映像の違いに対応することが可能である。なお、類似フレームの判定には、映像中のオブジェクトの種別・大きさ・位置の共通性を用いる方法、映像中のＡＲマーカーなどの一致度、センサ情報の共通性などを用いても構わない。ＡＲカメラ１０１のカメラを使用した場合には、頭部の動き等で画角が変化するが、そのような場合にはオブジェクトの共通性などを用いることで、同様の作業を検出できる。各フレームの類似フレームの結果から連続するＩＤ列を検出する処理は、前のフレームの類似フレーム各々と近いフレームがあるかどうかのみ判定すればよいので、計算量は現実的な範囲内に収めることが可能である。

　次に、データ入出プログラム２１９で、上記ステップＳ１００１乃至Ｓ１００６で取得したデータを、映像蓄積ＰＣ４に送信し、映像データ４１２、フレーム画像データ４１３、オブジェクトデータ４１４、センサデータ４１５、シーンデータ４１６に保存する。上記処理を終了指示があるまで繰り返し、終了指示があった場合には登録処理を終了する（Ｓ１００７）。ここで、映像解析に使用するデータに関しては、キャッシュデータ２１２に残しておくことで、映像解析時のデータの入出力の負荷を低減することができる。尚、映像が追加された場合は、シーンデータ４１６を参照して、追加した映像に登録されているシーン区間の有無を検索し、類似シーンが含まれている場合には、そのシーンと類似するシーンとして登録しても構わない。但し、大量の映像を追加した場合は、映像全体としてシーンの定義を変更したほうがよいため、その場合は全データでシーンデータを再構築したほうがよい。
＜映像シーン検索＞
　次に、映像シーンを検索する手順を、図１１に示すフローチャートと図１７のブロック図を用いて説明する。まず、画面表示プログラム９１６で、作業端末ＰＣ５の表示部９０４に、図１６に例を示す映像を選択または入力するための画面を表示させ、記憶部１１０１（映像蓄積ＰＣ）に蓄積されている映像をクエリとして取得する（Ｓ１１０１）。ここで、作業者が映像を入力したい場合は、タブレット１０３で動画を撮像する等して取得した映像を入力し、クエリ映像としても構わない。このときユーザは、作業端末を介し、クエリ映像のうち所定のシーンあるいは所定のフレームを指定することで、指定したシーン（あるいは指定されたフレームを含むシーン）をクエリシーンとして指定する。これにより、ある程度の時間がある動画の中で、必要な場面の映像を指定して検索することができる。ユーザからの入力が無い場合には、自動的に入力映像の最初のシーンを指定されたクエリシーンとして検索を行う。もちろん、システムにおいて、ユーザからのクエリシーン指定が無い場合には、どのシーンをクエリシーンとするかあらかじめ登録しておくことも可能である。

　次に、データ入出力プログラム９１７で、クエリとして入力されたクエリ映像を映像解析ＰＣ３に送信し、映像を蓄積するステップのステップＳ１００２乃至ステップ１００５と同様に、フレーム画像、画像特徴量、オブジェクト領域およびセンサ情報を取得し、キャッシュデータ２１２に保存する（Ｓ１１０２、Ｓ１１０３、Ｓ１１０４、Ｓ１１０５）。ここで、センサ情報がない場合には、センサ情報を取得するステップ（Ｓ１１０５）は省略しても構わない。このＳ１１０３からＳ１１０５の処理は抽出部が行う。

　次に、類似シーン区間検出プログラム２１５で、入力映像に含まれる複数のシーンに対して、類似シーンを取得する。ここで、シーン区間の検出は、２種類のやり方がある。

　一つ目は、クエリとして入力された入力映像が解析済みの場合、すなわち記憶部４０１に蓄積されている動画がクエリとして指定された場合である。この場合には、シーン区間のデータはあらかじめシーンデータ４１６に登録されているため、この情報を呼び出してくれば良い。この場合、検索部１１０３を経ずに、直接シーン検出部１１０４がシーンデータ４１６を参照してこの後の処理を実行する。

　二つ目は、クエリとして入力された入力映像が解析されていない場合である。この場合には、類似画像検索プログラム２１７で、入力映像の各フレームをクエリとした類似画像検索を行ってフレームごとに類似画像を取得する（Ｓ１１０６）。この類似画像検索プログラムを用いた処理は検索部１１０３が行う。

　次に、入力映像と類似するフレーム画像が連続しているＩＤ列の有無を、シーンデータ４１６を参照して検索し、シーン数を最大とする対応がとれる区間を入力映像のシーン区間として検出する（Ｓ１１０７）。

　なお、ここではシーンデータに含まれるシーン区間があるかどうかのみ判定すればよいので、映像を蓄積する手順のように、すべての映像から再度シーン区間を検出し直す必要はない。また、ここで複数の類似シーンがある場合には、複数の候補を取得する。

　このいずれかのやり方により、入力映像のシーン区間を検出し、類似画像検索の結果を用いて類似シーンを検出する。

　次に、類似シーン選定プログラム２１６で、ステップＳ１１０７で検出した複数のシーンから、類似シーンとして採用するシーンを選定する（Ｓ１１０８）。

　まず、類似シーンの候補を、シーンデータ４１６のシーン種別ＩＤが同じシーンを追加シーンの候補として拡張し、その中から最適なシーンを選定する。ここで、シーンの選定には、前後の内容が似ているシーンであれば、より類似シーンとして適していると考えられるため、ある１シーンが類似である映像が複数あった場合には、当該シーンの
前後のシーンも類似するシーンを類似シーンとして選定する。具体的には、入力映像と蓄積映像の類似シーン各々に対して、前後のシーンも類似している候補の蓄積映像を優先的に選定する。

　なお、前後の類似性の判定に、センサデータ４１５に蓄積されているセンサ情報の一致度を用いて選定しても構わない。センサデータの類似性を用いることで、機器が同じような状況における作業内容を優先的に選定できるという効果がある。類似しているシーンから、更に前後のシーンの類似性を加味して、類似シーンを絞り込むことで、同じ作業を示す映像であっても、より同一の作業内容を示すシーンが見つけやすくなるという効果がある。また、作業者の属性などの情報を用いて、熟練度合いを判定し、類似シーンが複数の場合には、熟練者の映像を積極的に提示することも可能である。このＳ１１０７からＳ１１０８の処理はシーン検出部１１０５が行う。

　次に、映像編集プログラム９１２で、類似シーン選定プログラム２１６で取得した類似シーンの情報を用いて映像を編集する（Ｓ１１０９）。作業映像を対象とする場合、複数の類似シーンが取得されている場合には、蓄積映像と共に登録されている作業者の熟練度合いまたは作業時間（シーンの継続時間）を基に、熟練度合いが高い、または効率的に作業が実現できていると推測されるシーンの継続時間が短い時間を選択して、入力映像の各々のシーンを選択されたシーンに置換した映像を生成する。なお、シーンの選定には、他の基準を用いても構わない。このS１１０９の処理は置換映像生成部が行う。もちろん、置換映像を生成せずに、類似シーンをそのまま表示することもできる。本ステップを用いることで、熟練度合いが高いと判断された動画のみをつなぎ合わせた教育用映像や、入力映像と同じ構成で、かつ権利上問題がない放送映像を容易に生成することができる。

　次に、S1108で類似シーンとされたシーンを含む映像、あるいは映像を編集するステップＳ１１０９で生成された映像を、画面表示プログラム９１６で、表示部９０４などに表示させる（Ｓ１１１０）。ここで映像の閲覧者が作業者である場合は、作業者画面生成プログラム９１４で生成した画面を用いて、作業後に作業内容を入力し、蓄積映像に保存されている同じ作業映像でより作業効率が高いシーンが含まれる映像を確認することで、改善すべき作業箇所の確認や作業漏れを確認できるという効果がある。

　また、映像の閲覧者が監督者である場合は、監督者画面生成プログラム９１４で生成した画面を用いて、作業者を指定し、その作業者の作業映像に含まれるシーンと他の作業者のシーンを比較することで、作業効率が高い部分と低い部分を容易に分析できるという効果がある。また、放送映像などを対象とする場合、権利上使えない映像を入力として、蓄積されている映像から権利上問題ないシーンを取得して置換することで、入力映像と同じ構成で権利上問題がない映像を生成できるという効果がある。

　以上を踏まえ、本実施例に記載の画像検索装置は、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する装置であって、
　クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第１画像から抽出した複数の第１画像特徴量と、検索用動画像を構成する第１シーンについての情報である第１シーン情報とを記憶する記憶部と、クエリ動画像を構成する複数の第２画像から複数の第２画像特徴量を抽出する抽出部と、第２画像特徴量と第１画像特徴量とを用いて、第２画像に類似する第１画像を検索し、検索結果を出力する検索部と、検索結果と第１シーン情報とを用いて、クエリ動画像を構成する第２シーンに類似した第１シーンを、類似シーンとして検出する類似シーン検出部と、を有することを特徴とする。

　また、本実施例に記載の画像検索方法は、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する方法であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第１画像から抽出した複数の第１画像特徴量と、検索用動画像を構成する第１シーンについての情報である第１シーン情報とを記憶部に記憶する第１ステップと、クエリ動画像を構成する複数の第２画像から複数の第２画像特徴量を抽出する第２ステップと、第２画像特徴量と第１画像特徴量とを用いて、第２画像に類似する前記第１画像を検索し、検索結果を出力する第３ステップと、検索結果と第１シーン情報とを用いて、クエリ動画像を構成する第２シーンに類似した第１シーンを、類似シーンとして検出する第４ステップと、を有することを特徴とする。

　本実施例の画像検索装置を用いることで、蓄積映像の性質に基づいて、入力映像のシーン分割と、各々のシーンの類似シーンが検索できるので、異なる蓄積映像から最適なシーンを集めて置換映像を生成したい場合に、最適なシーンの素材を選択して映像を生成できるという効果がある。また、作業映像を対象とした場合に、類似シーンを検出することで、他の作業員が作業した同じ作業内容の映像を容易に閲覧することができるため、作業内容のチェックや効率よく作業するためのマニュアルとして映像が活用できるという効果がある。

　１０１　ＡＲカメラ
　１０２　カメラ
　１０３　タブレット
　１０４　マイク
　１０５　機器センサ
　２０１　ＣＰＵ
　２０２　主メモリ
　２０３　入力部
　２０４　表示部
　２０５　通信部
　２１０　記憶部
　２１１　ＯＳ
　２１２　キャッシュデータ
　２１３　画像特徴量抽出プログラム
　２１４　オブジェクト検出プログラム　
　２１５　類似シーン区間検出プログラム
　２１６　類似シーン選定プログラム
　２１７　類似画像検索プログラム　
　２１８　フレーム画像取得プログラム
　２１９　データ入出力プログラム
　２２０　センサ情報取得プログラム
　４０１　ＣＰＵ
　４０２　主メモリ
　４０３　入力部
　４０４　表示部
　４０５　通信部
　４１０　記憶部
　４１１　ＯＳ
　４１２　映像データ
　４１３　フレーム画像データ
　４１４　オブジェクトデータ
　４１５　センサデータ
　４１６　シーンデータ
　４１７　映像蓄積プログラム
　４１８　データ入出力プログラム
　９０１　ＣＰＵ
　９０２　主メモリ
　９０３　入力部
　９０４　表示部
　９０５　通信部
　９１０　記憶部
　９１１　ＯＳ
　９１２　映像編集プログラム
　９１３　編集画面生成プログラム
　９１４　作業者画面生成プログラム
　９１５　監督者画面生成プログラム
　９１６　画面表示プログラム
　９１７　データ入出力プログラム
　１０００　映像検索システム
　１１００　映像解析部
　１１０１　記憶部
　１１０２　特徴量抽出部
　１１０３　検索部
　１１０４　シーン検出部
　１１０５　置換映像生成部。

Claims

　複数の時間的に連続した画像から構成されるシーンと、複数の前記シーンから構成される動画像を検索する装置であって、
　クエリ動画像と、複数の検索用動画像と、前記検索用動画像を構成する複数の第１画像から抽出した複数の第１画像特徴量と、前記検索用動画像を構成する複数の第１シーンについての情報である第１シーン情報とを記憶する記憶部と、
　前記クエリ動画像を構成する複数の第２画像から複数の第２画像特徴量を抽出する抽出部と、
　前記第２画像特徴量と第１画像特徴量とを用いて、前記第２画像に類似する前記第１画像を検索し、検索結果を出力する検索部と、
　前記検索結果と前記第１シーン情報とを用いて、前記クエリ動画像を構成する複数の第２シーンのうち、指定されたクエリシーンに類似する類似第１シーンを類似シーンとして検出し、前記類似シーンを含む検索用動画像を出力する類似シーン検出部と、を有することを特徴とする画像検索装置。
　請求項１に記載の画像検索装置であって、
　複数の前記検索用動画像を解析し、前記第１画像特徴量と前記第１シーン情報とを前記記憶部へ出力する解析部を、さらに有し、
　前記解析部では、
複数の前記検索用動画像を構成する複数の画像から前記第１画像特徴量を抽出し、
前記第１画像特徴量を用いて類似度を算出することで、一の前記検索用動画像を構成する第３画像に類似する第４画像を検索し、
複数の前記第４画像のうち、時間的に連続する区間を検出し、
前記区間に含まれる前記第４画像と類似する複数の前記第３画像を１のシーンと判定し、前記第１シーン情報として出力することを特徴とする画像検索装置。
　請求項２に記載の画像検索装置であって、
　前記類似シーン検出部では、
前記類似第１シーンが複数検出された場合、前記クエリシーンの時間的に前のシーンと前記類似第１シーンの時間的に前のシーンとが類似する前記類似第１シーンを前記類似シーンとして検出することを特徴とする画像検索装置。
　請求項１に記載の画像検索装置であって、
　前記クエリ動画像は、複数の前記検索用動画像のうちから指定されることを特徴とする画像検索装置。
　請求項１に記載の画像検索装置であって、
　前記第２シーンを前記類似シーンに置き換えることにより、置換動画像を生成する生成部、をさらに有することを特徴とする画像検索装置。
　複数の時間的に連続した画像から構成されるシーンと、複数の前記シーンから構成される動画像を検索する方法であって、
　クエリ動画像と、複数の検索用動画像と、前記検索用動画像を構成する複数の第１画像から抽出した複数の第１画像特徴量と、前記検索用動画像を構成する第１シーンについての情報である第１シーン情報とを記憶部に記憶する第１ステップと、
　前記クエリ動画像を構成する複数の第２画像から複数の第２画像特徴量を抽出する第２ステップと、
　前記第２画像特徴量と第１画像特徴量とを用いて、前記第２画像に類似する前記第１画像を検索し、検索結果を出力する第３ステップと、
　前記検索結果と前記第１シーン情報とを用いて、前記クエリ動画像を構成する複数の第２シーンのうち、指定されたクエリシーンに類似する類似第１シーンを、類似シーンとし、前記類似シーンを含む検索用動画像を出力する第４ステップと、を有することを特徴とする画像検索方法。
　請求項６に記載の画像検索方法であって、
　複数の前記検索用動画像を解析し、前記第１画像特徴量と前記第１シーン情報とを前記記憶部へ出力する第５ステップ、をさらに有し、
　前記第５ステップでは、
複数の前記検索用動画像を構成する複数の画像から前記第１画像特徴量を抽出し、
前記第１画像特徴量を用いて類似度を算出することで、一の前記検索用動画像を構成する第３画像に類似する第４画像を検索し、
複数の前記第４画像のうち、時間的に連続する区間を検出し、
前記区間に含まれる前記第４画像と類似する複数の前記第３画像を１のシーンと判定し、前記第１シーン情報として出力することを特徴とする画像検索方法。
　請求項７に記載の画像検索方法であって、
　前記第２ステップでは、
前記類似第１シーンが複数検出された場合、前記クエリシーンの時間的に前のシーンと前記類似第１シーンの時間的に前のシーンとが類似する前記類似第１シーンを、前記類似シーンとして検出することを特徴とする画像検索方法。
　請求項６に記載の画像検索方法であって、
　前記クエリ動画像は、複数の前記検索用動画像のうちから指定されることを特徴とする画像検索方法。
　請求項６に記載の画像検索方法であって、
　前記第２シーンを前記類似シーンに置き換えることにより、置換動画像を生成する第６ステップ、をさらに有することを特徴とする画像検索方法。