WO2013108448A1

WO2013108448A1 - 動画検索装置、動画検索方法、記録媒体、ならびに、プログラム

Info

Publication number: WO2013108448A1
Application number: PCT/JP2012/076480
Authority: WO
Inventors: 廣美平野; 正裕三條; 裕太川手; 誠岡部; 理紀夫尾内
Original assignee: 楽天株式会社
Priority date: 2012-01-20
Filing date: 2012-10-12
Publication date: 2013-07-25
Also published as: TW201333734A; EP2733931B1; ES2618075T3; CN103748870B; EP2733931A1; JP5248685B1; CN103748870A; JP2013150218A; TWI514172B; US9076036B2; US20140205148A1; EP2733931A4

Abstract

　動画像内に現れるべきオブジェクトの位置や向き等をユーザが容易に指定して動画検索を行う動画検索装置等を提供する。動画検索装置（５０１）において、受付部（５０２）は、静止画像、静止画像内の２つの参照位置、動画フレーム内の２つの目標位置、の入力を受け付ける。抽出部（５０３）は、静止画像から２つの参照位置を含む参照画像を抽出する。検索部（５０４）は、動画像に含まれるフレーム画像から、参照画像に類似する局所画像が描画される類似フレーム画像を検索し、局所画像内において、２つの参照位置に対応する開始位置に描画される２つの注目画素の、動画像において類似フレーム画像から時間を進行あるいは逆行させた際の２つの移動軌跡を追跡し、２つの移動軌跡が２つの目標位置の近傍に至る目標フレーム画像を検索し、類似フレーム画像と目標フレーム画像とを含む動画像を、検索結果とする。

Description

動画検索装置、動画検索方法、記録媒体、ならびに、プログラム

　本発明は、動画検索装置、動画検索方法、記録媒体、ならびに、プログラムに関し、動画像内に現れるべきオブジェクト、その位置や向き、さらには、その動きをユーザが容易に指定できるようにして、動画検索を行うものである。

　従来から、静止画像に描画されているオブジェクトやその特徴点を認識する技術として、非特許文献１に開示されるＳＩＦＴ（Scale Invariant Feature Transformation）や、非特許文献２に開示されるＨＯＧ（Histograms of Oriented Gradients）などが提案されている。これらの技術を応用すれば、２つの静止画像に描画されているオブジェクトの外観が類似しているか否かを、オブジェクトが回転していたり、拡大率が異なったり、輝度が異なったりする場合でも、容易に判定することができる。また、描画されたオブジェクトを表すオブジェクト画像を反転させてから上記の技術を適用することで、オブジェクトの鏡像が描画されている場合であっても、画像が類似している、と判断することができる。

　一方で、動画像内におけるオブジェクトの動きを追跡する技術として、非特許文献３、４においてParticle Videoが提案されている。この技術を応用すれば、現実世界におけるオブジェクトの表面のある箇所が、動画像に含まれる各フレーム画像においてどの位置に描画されているかを取得することができ、当該描画位置の移動の軌跡を得ることができる。すなわち、本技術によれば、あるフレーム画像におけるある画素が、時間の進行もしくは逆行によって、どのように移動していくのかを表す軌跡を得ることができる。

　さらに、ユーザが指定した動画像に類似する他の動画像を検索する技術が、特許文献１に提案されている。

特開２００１－１３４５８９号公報

D. G. Lowe, Object Recognition from Local Scale-Invariant Features, Proceedings of IEEE International Conference on Computer Vision, pp.1150-1157, 1999年 N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection, Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.886-893, 2005年 Peter Sand and Seth Teller, Particle Video: Long-Range Motion Estimation using Point Trajectories, International Journal of Computer Vision, vol.80，no.1，pp.72-91, Springer, 2008年 Dan B.Goldman，Chris Gonterman，Brian Curless, David Salesin and Steven M.Seitz, Video Object Annotation，Navigation，and Composition, UIST 2008, Proc.ACM symposium on User Interface Software and Technology, pp.3-12, ACM 978-1-59593-975-3/08/10, http://www.danbgoldman.com/uw/papers/ivoa.uist08.pdf, 2008年

　しかしながら、動画検索に際し、動画像内に描画されるオブジェクトの外観や位置、向きなどの情報を、ユーザが容易に指定できるようにしたい、との要望は、依然として大きい。

　特に、所望のオブジェクトが描画されている静止画像が既に用意されている場合に、当該静止画像を用いて、動画像内に当該オブジェクトが出現する際の位置や向きを容易に指定できるようにしたい、との要望がある。

　この際に、静止画像に描画されているオブジェクトの向きとは異なる位置、向き、異なる撮影方向で撮影されたオブジェクトが登場するような動画像であっても、検索結果として得られるようにしたい、との要望も強い。

　本発明は、上記のような課題を解決するもので、動画像内に現れるべきオブジェクト、その位置や向き、さらには、その動きをユーザが容易に指定できるようにして、動画検索を行う動画検索装置、動画検索方法、記録媒体、ならびに、プログラムを提供することを目的とする。

　本発明の第１の観点に係る動画検索装置は、
　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付部、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
　を備えるように構成する。

　また、本発明の動画検索装置において、
　前記受付部は、前記動画像に含まれるフレーム画像内における目標軌跡の入力をさらに受け付け、
　前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、前記目標軌跡と、前記代表軌跡と、が類似する動画像を、前記検索結果とする
　ように構成することができる。

　また、本発明の動画検索装置において、
　前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、当該動画像とともに、当該動画像の代表軌跡を、前記検索結果とする
　ように構成することができる。

　また、本発明の動画検索装置において、
　前記抽出部は、前記参照画像の画像特徴量を取得し、
　前記検索部は、前記参照画像の前記画像特徴量に類似する画像特徴量を有するフレーム画像を検索することにより、前記類似フレーム画像を検索する
　ように構成することができる。

　また、本発明の動画検索装置において、
　前記抽出部は、前記参照画像を反転した鏡画像の画像特徴量をさらに取得し、
　前記検索部は、前記参照画像の前記画像特徴量もしくは前記鏡画像の前記画像特徴量に類似するフレーム画像を検索することにより、前記類似フレーム画像を検索する
　ように構成することができる。

　本発明の第２の観点に係る動画検索方法は、
　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるべきフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付ステップ、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出ステップ、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索ステップ
　を備えるように構成する。

　本発明の第３の観点に係るコンピュータ読取可能な記録媒体は、コンピュータを、
　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるべきフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付部、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
　として機能させるプログラムを記録するように構成する。

　本発明の第４の観点に係るプログラムは、コンピュータを、
　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるべきフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付部、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
　として機能させるように構成する。

　本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読み取り可能な非一時的（non-transitory）な記録媒体に記録することができる。また、これらの記録媒体は、コンピュータとは独立して配布・販売することができる。

　また、本発明のプログラムは、上記のような記録媒体から、ＲＡＭ（Random Access Memory）等のコンピュータによる読み書き可能な記録媒体にロードされ、一時的（temporary）に記録された上で、ＣＰＵ（Central Processing Unit）が、当該ＲＡＭ等に記録されたプログラムを読み出して解釈、実行するように構成することができる。

　さらに、本発明のプログラムは、プログラムが実行されるコンピュータとは独立して、コンピュータ通信網等の一時的（transitory）な伝送媒体を介して配布・販売することができる。

　本発明によれば、動画像内に現れるべきオブジェクト、その位置や向き、さらには、その動きをユーザが容易に指定できるようにして、動画検索を行う動画検索装置、動画検索方法、記録媒体、ならびに、プログラムを提供することができる。

参照オブジェクトが描画された静止画像の例を示す説明図である。静止画像内の参照領域の様子を示す説明図である。参照画像の様子を示す説明図である。動画像に含まれるフレーム画像内において目標オブジェクトが配置されるべき位置および向きの例を示す説明図である。フレーム画像内の局所領域の様子を示す説明図である。局所画像の様子を示す説明図である。ユーザが参照画像と目標画像との対応関係を指定する様子を表す説明図である。ユーザが参照画像と目標画像との対応関係を指定する様子を表す説明図である。本発明の実施例に係る動画検索装置の概要構成を示す説明図である。本発明の実施例に係る動画検索装置が実行する動画検索処理の制御の流れを示すフローチャートである。ユーザの指定により得られる参照画像の様子を示す説明図である。参照画像に類似する局所画像を有するフレーム画像を含む動画像の例を示す説明図である。参照画像と類似フレーム画像との対応関係を示す説明図である。動画像における画素の移動の様子を示す説明図である。動画像における画素の移動の軌跡を表す説明図である。参照位置の相対的な位置関係と、目標位置の相対的な位置関係と、の説明を示す説明図である。参照位置の相対的な位置関係と、目標位置の相対的な位置関係と、の説明を示す説明図である。代表軌跡の様子を表す説明図である。概要画像の様子を表す説明図である。ユーザが目標軌跡を指定する様子を示す説明図である。動画検索処理に追加される処理の内容を示すフローチャートである。

　以下に本発明の実施形態を説明する。なお、本実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。

　本発明に係る動画検索装置は、サーバ用コンピュータやパーソナルコンピュータ等、各種のコンピュータにおいて、所定のプログラムを実行することにより実現することができる。

　ここで、コンピュータとは、ＣＰＵがプログラムを実行することによって、ＲＡＭを一時的な記憶域や処理の結果の出力先として利用し、キーボードやマウス等の入力装置によりユーザからの指示を受け付けたり、ディスプレイ等の出力装置に処理の結果を出力したり、ＮＩＣ（Network Interface Card）を介して他の機器と通信することにより上記の入出力を行ったりするハードウェアであり、入出力用の機器は、適宜省略することも可能である。

　コンピュータのハードディスク等には、ＣＰＵが実行するプログラムのほか、ＣＰＵによる処理の対象となる各種の情報を表現したレコードが蓄積されたデータベースが記録される。ＣＰＵは、データベースから検索クエリに合致するレコードを検索したり、データベースに新たなレコードを追加したり等の処理を行う。

　本実施形態では、データベースには、多数の動画像のほか、動画像に含まれるフレーム画像のそれぞれを静止画像として考えた場合の局所情報量が登録されている。

　また、専用の接続線や通信回線、インターネットなどのコンピュータ通信網を介して接続された複数のコンピュータが、上記の処理を並列、分散、並行して実行することにより、本発明に係る動画検索装置の処理の高速化を図ることも可能である。

　このほか、ＦＰＧＡ（Field Programmable Gate Array）等の技術を応用することにより、プログラムから電子回路の設計を作成し、当該設計に基づいて、専用の電子回路を構成することによって、本発明の動画検索装置を実現することも可能である。

　（動画検索の手法）
　本実施形態では、ユーザは、静止画像とともに種々の情報を指定することにより、どのような動画像を得たいか、を指定する。以下ではまず、これらの情報の指定方法について概説する。

　本実施形態では、ユーザは、所望のオブジェクトの画面フレーム内における所望の位置ならびに所望の向きを指定する。そして、動画検索装置は、所望の位置に所望の向きであるオブジェクト（以下「参照オブジェクト」という。）に類似するオブジェクト（以下「目標オブジェクト」という。）が出現する動画像を検索する。

　文書検索と対比して考えると、参照オブジェクトは、検索キーとなる文字列に相当し、目標オブジェクトは、検索を行った結果、得られた文書に出現した文字列に相当する。

　文書検索においては、検索キーと完全一致する文字列が出現する文書を検索することができるほか、検索キーと類似（綴りの揺れや同義語など、種々の態様がある。）する文字列が出現する文書を検索することができるものがある。すなわち、検索キーと、検索結果の文字列に出現する文字列とは、必ずしも一致しない。

　同様に、本実施形態では、ユーザは、検索キーとして、静止画像に描画された参照オブジェクト、所望の位置、所望の向きを指定する。

　すると、動画検索装置は、参照オブジェクトに類似する目標オブジェクトが、所望の位置、所望の向きで出現する動画像を検索するのである。

　理解を容易にするため、以下では、オブジェクトの例として、自動車を採用して説明する。

　まず、ユーザは、検索キーに相当する参照オブジェクトが描画されている静止画像を１枚、たとえば画像検索エンジン等を利用して、入手する。

　図１Ａは、参照オブジェクトが描画された静止画像の例を示す説明図である。以下、本図を参照して説明する。

　本図に示すように、静止画像１０１内には、参照オブジェクトである自動車１０２が描画されている。本図では、自動車１０２は、画面中央に左横向きに描画されている。すなわち、静止画像１０１は、自動車１０２の運転者から見て左真横に配置されたカメラから、自動車１０２を撮影することによって得られたものである。

　以下、理解を容易にするため、静止画像において参照オブジェクトが描画されている領域を参照領域と呼び、当該参照領域に描画されている画像を参照画像と呼ぶこととする。

　図１Ｂは、静止画像１０１内の参照領域の様子を示す説明図であり、図１Ｃは、参照画像の様子を示す説明図である。以下、これら図を参照して説明する。

　図１Ｂには、静止画像１０１の全領域１２１内に、点線で囲まれた参照領域１２２が図示されている。全領域１２１は、静止画像１０１全体に相当し、参照領域１２２は、静止画像１０１内において自動車１０２（参照オブジェクト）が描画されていた領域に相当する。

　図１Ｃには、静止画像１０１内から、自動車１０２（参照オブジェクト）の外観のみを切り出した参照画像１２３を図示している。本実施形態では、参照画像１２３により表現される参照オブジェクトに類似する目標オブジェクトが出現するような動画像を検索するのである。

　さて、上記のように、ユーザは、検索キーとして所望の位置および所望の向きを指定する。以下では、ユーザが、所望の位置として画面フレーム右上、所望の向きとして左斜め下向きを指定した例を説明する。

　この例では、ユーザは、参照オブジェクトに類似する目標オブジェクトが、画面フレーム右上に、左斜め下向きで出現するような動画像を、検索結果として得たい、と考えていることになる。

　図２Ａは、動画像に含まれるフレーム画像内において目標オブジェクトが配置されるべき位置および向きの例を示す説明図である。以下、本図を参照して説明する。

　本図に示す例では、ユーザが検索したいと考えているフレーム画像２０１内には、目標オブジェクトとして、この自動車１０２に類似する自動車２０２（自動車１０２と同じであっても良い。）が描画されている。

　すなわち、本実施形態では、静止画像１０１に描画される参照オブジェクト（自動車１０２）に類似する目標オブジェクト（自動車２０２）が出現するフレーム画像２０１を含むような動画像が、検索結果の候補となる。

　ここで、フレーム画像２０１内においては、自動車２０２は、画面フレーム右上に、左斜め下向きで登場している。すなわち、所望の動画像は、自動車２０２の運転者から見て左斜め前に配置されたカメラで自動車２０２を撮影した一瞬を含む動画像である。

　以下、理解を容易にするため、フレーム画像において目標オブジェクトが描画されている領域を局所領域と呼び、当該局所領域に描画されている画像を局所画像と呼ぶこととする。

　図２Ｂは、フレーム画像２０１内の局所領域の様子を示す説明図であり、図２Ｃは、局所画像の様子を示す説明図である。以下、これら図を参照して説明する。

　図２Ｂには、フレーム画像２０１の全領域２２１内に、点線で囲まれた目標領域２２２が図示されている。全領域２２１は、フレーム画像２０１全体に相当し、目標領域２２２は、フレーム画像２０１内において自動車２０２（目標オブジェクト）が描画されている領域に相当する。

　図２Ｃには、フレーム画像２０１内から、自動車２０２（目標オブジェクト）の外観のみを切り出した目標画像２２３を図示している。

　本実施形態では、参照画像１２３により表現される参照オブジェクトと、目標画像２２３により表現される目標オブジェクトと、が、類似するような動画像を検索する。

　しかしながら、静止画像１０１は、自動車１０２を左横から撮影したものであるから、参照画像１２３に対して回転、反転、平行移動、拡大縮小、シアーなどを含むアフィン変換を施しても、目標画像２２３に類似する構図を得ることはできない。

　本例では、静止画像１０１では、自動車１０２の正面がほとんど見えないのに対して、フレーム画像２０１には、自動車２０２の正面がよく見えるからである。

　一般に、画像検索技術を利用すれば、ユーザが望む参照オブジェクトが出現する静止画像を得ることは不可能ではない。

　しかしながら、その静止画像において参照オブジェクトが描画されている位置や向き、参照オブジェクトの撮影方向やアングルが、そのまま、動画像に含まれるフレーム画像において目標オブジェクトが描画されている位置や向き、目標オブジェクトの撮影方向やアングルが一致する、ということは、殆どありえない。

　そこで、本実施形態では、静止画像１０１における参照画像と、フレーム画像２０１における目標画像と、の対応関係を、ユーザが指定する。

　図３、図４は、ユーザが参照画像と目標画像との対応関係を指定する様子を表す説明図である。以下、これら図を参照して説明する。

　これらの図に示す例では、画面３０１内に、静止画像１０１と、フレーム画像２０１を含む動画像が再生されるべき領域を表す動画フレーム３３１と、が、表示されている。

　なお、図３に示す例では、静止画像１０１を拡縮して動画フレーム３３１の中央におさまるように配置しているが、図４に示す例では、静止画像１０１は、動画フレーム３３１とは離間して配置している。

　これは一般に、静止画像１０１と動画フレーム３３１とでは、縦横比が異なるからである。

　ここで、ユーザは、
　（ａ）静止画像１０１内において、自動車１０２の前端が描画されている参照位置３１１から、動画フレーム３３１内において自動車２０２の前端が描画されるべき目標位置３５１へ、矢印３７１を引く指示、ならびに、
　（ｂ）静止画像１０１内において、自動車１０２の後端が描画されている参照位置３１２から、動画フレーム３３１内において自動車２０２の後端が描画されるべき目標位置３５２へ、矢印３７２を引く指示
を行っている。このような指示は、たとえば、マウスを用いたドラッグアンドドロップ操作や、タッチスクリーンやタッチパネルに対するスライド操作（指で表面に触れ、触れたまま指を移動させた後、指を離す操作）によって行われる。

　本実施形態では、ユーザは、参照オブジェクト（自動車１０２）の目印となるような箇所（前端と後端）を、静止画像においてその箇所（前端と後端）が描画されている参照位置３１１、３１２を指定することにより、選択する。

　さらに、ユーザは、目標オブジェクト（自動車２０２）の対応する箇所（前端と後端）が、動画フレーム３３１内において、描画されるべき目標位置３５１、３５２を指定する。

　なお、これらの図に示す例では、動画フレーム３３１の縦横比は、９対１６となっており、検索対象となる動画像と大きさが一致している。したがって、ユーザが動画フレーム３３１内において指定した目標位置３５１、３５２は、目標オブジェクト２０２たる自動車２０２が出現すべき位置および向きを直接表すものとして利用される。

　一方、異なる縦横比を有する動画像や縦横の画素数が異なる動画像に対しては、９対１６の動画フレーム３３１を縦横に伸ばしたり縮めたりしてその動画の縦横に合致させる。すなわち、縦横比や縦横画素数が異なる動画像における目標位置としては、動画フレーム３３１内においてユーザが直接指定した目標位置３５１、３５２ではなく、これらが上記の伸縮において移動した先を、目標位置として用いれば良い。

　本実施形態では、動画像に含まれるフレーム画像において目標オブジェクトがどのような位置や向きで出現すべきであるかを、このような簡易な操作で指定することにより、動画像の検索が可能となる。以下、動画像の検索技術の詳細について、説明する。

　（動画検索装置）
　図５は、本発明の実施例に係る動画検索装置の概要構成を示す説明図である。図６は、本発明の実施例に係る動画検索装置が実行する動画検索処理の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。

　本実施形態に係る動画検索装置５０１は、コンピュータにおいて所定のプログラムが実行されることにより実現され、受付部５０２、抽出部５０３、検索部５０４を備える。

　ここで、受付部５０２は、以下の情報を検索条件として、入力を受け付ける（ステップＳ６０１）。
　（ａ）静止画像１０１。
　（ｂ）静止画像１０１内の参照位置３１１、３１２（本実施形態では、矢印３７１、３７２の始点）。
　（ｃ）動画フレーム３３１内の目標位置３５１、３５２（本実施形態では、矢印３７１、３７２の終点）。

　上記のように、受付部５０２の機能は、ＣＰＵの制御の下、ディスプレイやマウス、タッチスクリーンやタッチパネルが共働することによって実現される。

　ついで、抽出部５０３は、参照位置３１１、３１２に基づいて、参照領域内に描画されている参照画像を抽出する（ステップＳ６０２）。

　上記のように、本実施形態では、ユーザは、参照オブジェクトが描画されていると静止画像１０１を指定する。また、ユーザは、静止画像１０１内において、ユーザが参照オブジェクトの目印となると考える箇所が描画されている参照位置３１１、３１２を指定する。

　抽出部５０３は、静止画像１０１と、参照位置３１１、３１２と、の情報から、画像処理技術を利用することにより、参照画像を抽出する。

　図７は、図３、４に示すユーザの指定により得られる参照画像の様子を示す説明図である。以下、本図を参照して説明する。

　本図に示すように、参照画像７０１は、ある撮影方向から撮影された参照オブジェクトの外観を示すものである。本例では、自動車１０１をその左横から撮影して、撮影画像から背景を除去したものである。すなわち、参照領域の外縁は、静止画像１０１において、参照オブジェクトと背景とを切り分ける境界線に相当する。

　参照画像７０１の抽出には、各種の画像認識技術を利用することができる。たとえば、静止画像１０１の輪郭抽出、領域分割を行った後、参照位置３１１、３１２が含まれる領域を選び出す。そして、選択された領域に挟まれる領域や、選択された領域に隣接し、平均色の相違が小さい領域などを結合することを繰り返して、参照領域を得る。このほか、特許文献１等に開示される技術を利用しても良い。

　参照画像７０１は、静止画像１０１から、参照位置３１１、３１２を含む参照領域を切り出したものであるから、参照位置３１１、３１２は、いずれも、参照領域内に含まれ、参照画像７０１内において、参照オブジェクトの目印となる箇所に配置されることになる。

　抽出部５０３は、ＣＰＵが静止画像１０１の画素情報が記憶されたＲＡＭ等と共働することにより、実現される。

　そして、検索部５０４は、複数の動画像のそれぞれについて、以下の処理を繰り返す（ステップＳ６０３）。

　まず、当該動画像に含まれるフレーム画像であって、参照画像７０１に類似する局所画像が描画されているフレーム画像（以下「類似フレーム画像」という。）を検索して、動画像に類似フレーム画像が含まれるか否かを調べる（ステップＳ６０４）。

　ここで、動画像は、複数のフレーム画像の時間経過順の列によって構成される。画面３０１内に用意された動画フレーム３３１内に、所定の時間間隔（３０分の１秒、あるいは、６０分の１秒とされることが多い。）おきに、フレーム動画を順に表示することによって、動画像の再生が可能となる。すなわち、フレーム画像は、静止画像の一種と考えられる。

　本実施形態では、複数の動画像が、あらかじめ動画像データベースなどに記録される。各動画像にはフレーム画像が複数含まれる。そこで、各種の画像類似判定技術、画像認識技術を適用して、各フレーム画像に、参照画像７０１に類似する局所画像が描画されているか否かを判定する。

　図８は、参照画像７０１に類似する局所画像を有するフレーム画像を含む動画像の例を示す説明図である。以下、本図を参照して説明する。

　本図に示すように、動画像８０１は、複数のフレーム画像８０２ａ、８０２ｂ、…、８０２ｆ、…、８０２ｉ、８０２ｊ、…の列として構成される（本図では、理解を容易にするため、フレーム画像同士の時間間隔を長くしている。すなわち、一般的な動画像から、フレーム画像を間引いて示している）。以下の説明では、これら複数のフレーム画像を総称する場合には、符号の末尾の英字を省略して、「フレーム画像８０２」のように呼ぶこととする。

　フレーム画像８０２には、参照オブジェクトである自動車１０２に類似する自動車２０２が描画されている。

　しかしながら、フレーム画像８０２ａ、８０２ｂや８０２ｉ、８０２ｊにおいては、撮影方向が異なるため、フレーム画像８０２ａ、８０２ｂや８０２ｉ、８０２ｊには、参照画像７０１に類似する画像は描画されていないことになる。

　一方、フレーム画像８０２ｆには、撮影方向がほぼ同じ自動車２０２が、描画されており、これが局所画像８０３に相当する。すなわち、局所画像８０３と、参照画像７０１とは、互いに対応付けられる特徴点を有し、参照画像７０１を拡大縮小、平行移動、回転、反転させる変換を行うことで、局所画像８０３と参照画像７０１とを重ね合わせることができる。

　フレーム画像８０２内から参照画像７０１に類似する画像を検出するには、各種の画像認識、画像検出、パターン認識の技術を適用する。

　たとえば、各動画像に含まれるフレーム画像８０２のそれぞれについて、あらかじめＳＩＦＴやＨＯＧなどの局所特徴量を計算しておき、データベースに記録しておく。そして、参照画像７０１についても局所特徴量を計算し、この局所特徴量に類似する局所特徴量を有するフレーム画像８０２をデータベースから検索する。

　なお、ある動画像に含まれるフレーム画像の局所特徴量をデータベースに登録する際には、互いに隣接するフレーム画像８０２の局所特徴量が類似するのであれば、適宜間引きをして登録をすることで、データ量を抑制するとともに、検索の高速化を図ることができる。

　このようにして、参照画像７０１に類似する局所画像８０３が描画された類似フレーム画像（図示する例では、フレーム画像８０２ｆが類似フレーム画像に相当する）が発見されたら（ステップＳ６０４；Ｙｅｓ）、検索部５０４は、参照画像７０１を局所画像８０３に重ね合わせた際に、参照位置３１１、３１２が局所画像８０３内のどこに位置するのか（以下、この位置を「開始位置」という。）、を、調べる。すなわち、検索部５０４は、検索された類似フレーム画像８０２ｆにおいて局所画像８０３が描画されている局所領域内において、参照領域内の参照位置３１１、３１２に対応付けられる開始位置を求める（ステップＳ６０５）。

　図９は、参照画像７０１と類似フレーム画像８０２ｆとの対応関係を示す説明図である。以下、本図を参照して説明する。

　本図では、参照画像７０１内には、自動車１０２の前端と後端に参照位置３１１、３１２の目印として黒丸が図示されている。

　一方、類似フレーム画像８０２ｆの局所画像８０３に相当する自動車２０２内には、自動車２０２の前端と後端に、開始位置８１１、８１２の目印として黒丸が図示されている。

　参照位置３１１、３１２は、参照オブジェクト（自動車１０２）において、ユーザが目印として選んだ箇所が、参照画像７０１内において描画されている位置である。

　一方、目標オブジェクト（自動車１０２に類似する自動車２０２）において、参照オブジェクト（自動車１０２）における目印に対応する箇所は、局所画像８０３内の開始位置８１１、８１２に描画されていることになる。

　参照画像７０１に類似する局所画像８０３の検出の際には、参照画像７０１が局所画像８０３に重なるように拡大縮小、回転、反転等の変換を施すこととなるが、参照位置３１１、３１２に対しても、これらの変換を同じように施すことにより、開始位置８１１、８１２が得られる。

　この後、検索部５０４は、類似フレーム画像８０２ｆ内の開始位置８１１、８１２に配置されている画素（以下「注目画素」という。）が、動画像８０１の中でどのように移動していくか、を追跡して、その移動軌跡を得る。すなわち、検索部５０４は、検索された類似フレーム画像８０２ｆを含む動画像８０１に含まれるフレーム画像８０２ａ、８０２ｂ、…、８０２ｉ、８０２ｊ、…を当該検索された類似フレーム画像から時間の進行方向（フレーム画像８０２ｇ、８０２ｈ、８０２ｉ、８０２ｊ、…の順）もしくは逆行方向（フレーム画像８０２ｅ、８０２ｄ、８０２ｃ、８０２ｂ、…の順）に走査することにより、当該検索された類似フレーム画像８０２ｆにおいて開始位置８１１、８１２に描画されている注目画素が他のフレーム画像８０２において描画されることによって移動する移動軌跡を追跡する（ステップＳ６０６）。

　図１０は、動画像８０１における画素の移動の様子を示す説明図である。以下、本図を参照して説明する。

　本図に示すように、類似フレーム画像８０２ｆの開始位置８１１、８１２には、注目画素９０１、９０２が描画されているが、これらはそれぞれ、自動車２０２の前端と後端を描画するものである。

　本図には、動画像８０１に含まれるフレーム画像８０２ａ、８０２ｂ、…、８０２ｆ、…、８０２ｉ、８０２ｊ、…において、自動車２０２の前端と後端を描画する注目画素９０１、９０２の位置が示されている。各フレーム画像８０２ａ、８０２ｂ、…、８０２ｆ、…、８０２ｉ、８０２ｊ、…においては、注目画素９０１、９０２の符号の末尾に、そのフレーム画像８０２に対する英字の添字を付してある。

　また、本図においては、後の処理で参照される目標位置３５１、３５２も図示されている。目標位置３５１、３５２は、ユーザから動画フレーム３３１内において指定されており、各フレーム画像８０２が動画フレーム３３１内にぴったり入るように拡縮等することで、各フレーム画像８０２内における目標位置３５１、３５２が得られる。

　このような注目画素９０１、９０２の追跡は、たとえば、ＳＩＦＴやＨＯＧなどの技術を利用して隣接するフレーム画像８０２同士の特徴点の対応関係を求めた上で、対応する特徴点の位置の変化を補間することにより、一方のフレーム画像８０２における注目画素９０１、９０２の位置が、他方のフレーム画像８０２においてどこに移動するか、を、計算することにより、得ることができる。このほか、Particle Videoの技術を適用することによっても、注目画素９０１、９０２の追跡が可能である。

　なお、注目画素９０１、９０２の追跡とは、必ずしも、同じ色の画素が移動する軌跡を追跡することを意味しない。すなわち、注目画素９０１、９０２によってフレーム画像８０２に描画されている目標オブジェクトの箇所が、他のフレーム画像８０２ではどこに描画されているか、を追跡することを意味する。したがって、目標オブジェクトの撮影の状況等によっては、注目画素９０１、９０２の色は、次第に変化していくこともありうる。

　このように、動画像８０１に含まれる類似フレーム画像８０２から、時間の進行方向と逆行方向にフレーム画像８０２を走査して、注目画素９０１、９０２が各フレーム画像８０２においてどこに位置するか、を追跡する。すると、注目画素９０１、９０２のそれぞれの移動軌跡が得られる。

　図１１は、動画像８０１における注目画素９０１、９０２の移動軌跡を表す説明図である。以下、本図を参照して説明する。

　本図に示すように、動画像８０１においては、注目画素９０１、９０２は、時間の経過とともに、画面右上（フレーム画像８０２ａ）から画面左下（フレーム画像８０２ｊ以降）へ滑らかに移動する移動軌跡９５１、９５２を描く。移動軌跡９５１、９５２は、それぞれ、類似フレーム画像８０２ｆにおける開始位置８１１、８１２を通過する。

　検索部５０４は、これらの移動軌跡９５１、９５２を時間の経過に沿って追跡し、これらが目標位置３５１、３５２の近傍に同時に至るようなフレーム画像（以下「目標フレーム画像」という。）８０２を検索して、動画像８０１が目標フレーム画像を含むか否かを調べる（ステップＳ６０７）。

　図１０に戻り、各フレーム画像８０２における注目画素９０１、９０２の位置と、目標位置３５１、３５２と、を対比すると、フレーム画像８０２ｂにおいて、これらが近傍に位置することがわかる。したがって、本例では、検索の結果、目標フレーム画像としてフレーム画像８０２ｂが見つかることになる。

　このように、目標フレーム画像が見つかったら（ステップＳ６０７；Ｙｅｓ）、当該動画像８０１を検索結果として出力する（ステップＳ６０８）。

　そして、データベースに登録されているすべての動画像８０１について、ステップＳ６０３以降の処理を繰り返し（ステップＳ６０９）、すべてについて処理を実行したら、本処理を終了する。

　なお、ステップＳ６０８における検索結果としての出力は、直ちにディスプレイ等の画面に出力して表示し、所望の動画像が発見されるごとに順次画面に検索結果が追加表示されていくようにしても良い。このほか、ステップＳ６０８においては、検索結果をＲＡＭ等に一時的に出力して蓄積し、ステップＳ６０３～ステップＳ６０９の繰り返しが終了した後に、一括してディスプレイ等の画面に表示することとしても良い。

　一方、類似フレーム画像が発見されない場合（ステップＳ６０４；Ｎｏ）や、目標フレーム画像が発見されない場合（ステップＳ６０７；Ｎｏ）は、ステップＳ６０９にそのまま進む。したがって、当該動画像８０１は検索結果とはならない。

　このように、本実施形態においては、静止画像１０１に参照オブジェクトが描画される際の構図と、動画像８０１に目標オブジェクトが出現する際の構図と、が、まったく異なるような場合であっても、ユーザは、単に、静止画像１０１における目印となる参照位置３１１、３１２と、これらの動画フレーム３３１における目標位置３５１、３５２と、の対応関係を入力するだけで、容易に動画の検索を行うことができる。

　特に、本実施形態においては、２次元的な画像処理によって検索を実行するので、簡易かつ高速に動画検索ができる。

　現在のところ、ＳＩＦＴなどの画像認識技術では、局所画像８０３が参照画像７０１に対して３０度程度回転していても類似している、と判定ができる。しかしながら、回転角度がこれを超える場合や、反転して互いに鏡像の関係となっている場合には、検出できないことがある。

　このような場合には、参照画像７０１の局所特徴量のほか、参照画像７０１を反転した鏡画像を用意し、当該鏡画像の局所特徴量も求め、これら２つの局所特徴量のいずれかに類似する局所特徴量を有するフレーム画像８０２をデータベースから検索すれば良い。

　類似フレーム画像の検索において、参照画像７０１とその鏡画像の両方を常に用いることとしても良いが、参照画像７０１と鏡画像のいずれか一方を選択的に利用することも可能である。

　たとえば、参照位置３１１、３１２の相対的な位置関係と、目標位置３５１、３５２の相対的な位置関係と、を用いることができる。

　図１２、１３は、参照位置３１１、３１２の相対的な位置関係と、目標位置３５１、３５２の相対的な位置関係と、の説明を示す説明図である。以下、これらの図を参照して説明する。

　これらの図においては、参照位置３１１から参照位置３１２へ向かう方向ベクトル９７１と、目標位置３５１から目標位置３５２へ向かう方向ベクトル９７２と、が、図示されている。

　図１２に示す例は、図３（および図４）において掲げた例を参照するものであり、方向ベクトル９７１、９７２は、鋭角をなしている。このような場合には、類似フレーム画像の検索において、参照画像７０１を用いる。

　一方、図１３に示す例では、静止画像１０１における左横向きの自動車１０２の参照位置３１１、３１２の前端と後端を入れ換えるように、目標位置３５１、３５２を指定して、右やや上向きの自動車２０２が登場する動画像を検索しようとしている。

　したがって、方向ベクトル９７１、９７２は、鈍角をなしている。このような場合には、類似フレーム画像の検索において、鏡画像を用いる。

　このほか、方向ベクトル９７１、９７２のなす角が、６０度以下であれば、参照画像７０１を利用し、方向ベクトル９７１、９７２のなす角が、１２０度以上であれば、鏡画像を利用し、方向ベクトル９７１、９７２のなす角が、６０度を超えて１２０度未満であれば、参照画像７０１と鏡画像の両方を用いる、等のように、適宜境界となる角度を定める手法もある。

　これらの手法は、垂直方向の反転よりも水平方向の反転の方が、動画撮影の場合には一般的であり、また、ユーザが検索したいと考える、というヒューリスティクスに基づくものであり、動画検索の高速化を図ることができる。

　上記の実施例により得られる情報によれば、検索された動画像８０１を再生すると、目標オブジェクト２０２そのものが移動する軌跡（以下「代表軌跡」という。）を求めることが可能である。

　たとえば、各フレーム画像８０２において、目標オブジェクト２０２が描画されている領域を求め、その中心点（領域の重心）の画素を代表画素とする。そして、代表画素を追跡することにより、目標オブジェクト２０２が動画像８０１の中で移動する代表軌跡とすることができる。

　このほか、より簡易な計算による手法として、各フレーム画像８０２において、注目画素９０１、９０２の中点の位置の画素を、代表画素とする手法もある。

　図１４Ａは、図１１に示す例に対して、代表軌跡の様子を表す説明図である。以下、本図を参照して説明する。

　本図に示すように、代表軌跡９８１は、各フレーム画像８０２における注目画素９０１、９０２の中点９８０を通過する。したがって、代表軌跡９８１は、注目画素９０１、９０２の移動の移動軌跡９５１、９５２を平均化したものとなる。

　本実施形態の動画検索装置５０１では、ユーザからは、参照オブジェクト１０２に類似する目標オブジェクト２０２がユーザ所望の位置、姿勢で出現する動画像８０１が検索される。

　そこで、本実施形態では、検索された動画像８０１とともに、代表軌跡９８１を検索結果として出力することとする。

　図１４Ｂは、動画像８０１と代表軌跡９８１とが検索結果として出力される場合の当該動画像８０１の概要を説明するための概要画像の様子を示す説明図である。以下、本図を参照して説明する。

　本図に示すように、概要画像９９１は、検索結果の動画像８０１のうち、参照オブジェクト１０２に類似する目標オブジェクト２０２がユーザ所望の位置、姿勢で出現するフレーム画像８０２ｂに対して、代表軌跡９８１を矢印の形状で重ねて描画したものである。

　概要画像９９１は、検索結果の動画像を一覧表示する際のサムネール画像等として利用することが可能であり、代表軌跡９８１を検索結果として示すことで、ユーザに、得られた動画像８０１に関するより詳細な情報を提供することができる。

　上記実施例では、目標オブジェクト２０２が移動する代表軌跡９８１を検索結果として出力することとしたが、本実施形態では、目標オブジェクト２０２が移動すべき軌跡（以下「目標軌跡」という。）をユーザに入力させ、代表軌跡９８１が目標軌跡に類似する動画像を検索結果とする。

　すなわち、本実施形態では、受付部５０２は、上記の情報に加えて、動画像に含まれるフレーム画像内における目標軌跡の入力をさらに受け付ける。

　図１５は、図３に示す入力例において、ユーザが目標軌跡をさらに指定している様子を示す説明図である。以下、本図を参照して説明する。

　本図に示すように、ユーザは、矢印３７１、３７２に加えて、動画フレーム３３１内において、目標位置３５１、３５２の近傍から始まる矢印９８２を入力している。この矢印９８２が、ユーザにより入力された目標軌跡である。

　本実施形態では、動画像８０１において、目標フレーム画像８０２ｂが発見された後（ステップＳ６０７；Ｙｅｓ）に、以下の処理を実行する。

　図１６は、図６に示すフローチャートにおいて、動画検索処理に追加される処理の内容を示す部分フローチャートである。以下、本図を参照して説明する。

　本図に示すように、目標フレーム画像８０２ｂが発見されると（ステップＳ６０７；Ｙｅｓ）、検索部５０４は、目標フレーム画像８０２ｂから時間経過順にフレーム画像８０２を追跡して、代表軌跡９８１を取得する（ステップＳ６２１）。

　そして、得られた代表軌跡９８１と、ユーザから矢印９８２により指定された目標軌跡と、が類似するか否かを判定する（ステップＳ６２２）。

　ここで、代表軌跡９８１と目標軌跡との類似の判定の最も単純な手法は、以下の通りである。すなわち、代表軌跡９８１の開始点から終了点への向きと、目標軌跡の開始点から終了点への向きと、が、なす角の差が、所定の閾値以下の場合に、両者は類似する、と判定し、所定の閾値を超えていたら、両者は類似しない、と判定するものである。このほか、種々の曲線の類似判定技術を適用することができる。

　代表軌跡９８１と目標軌跡とが類似する場合（ステップＳ６２２；Ｙｅｓ）、ステップＳ６０８に進んで、当該動画像を検索結果として出力する。

　一方、代表軌跡９８１と目標軌跡とが類似しない場合（ステップＳ６２２；Ｎｏ）、ステップＳ６０９に進み、他の動画像を処理対象として処理を繰り返す。

　本発明によれば、目標オブジェクトが動画フレーム３３１内において、どの位置、どの向きに配置され、そこからどの方向に移動するのか、を、ユーザが容易に指定することができるようになり、動画検索を簡易かつ高速に実行することができるようになる。

　なお、上記の実施例では、動画像８０１として、現実世界をカメラで撮影することにより得られるものを例としてとりあげたが、仮想世界を仮想視点から見た様子をコンピュータグラフィックスにより生成した動画像や、フレーム画像を１枚ずつ手作業などによって作成して並べることにより得られるアニメーション的な動画像等、任意の動画像に対しても同じ手法を適用することが可能である。

　上記実施形態では、矢印３７１、３７２の入力によって、参照位置３１１、３１２ならびに目標位置３５１、３５２を指定していたが、ユーザが矢印３７１、３７２を描く際に利用できる他のパラメータを利用することも可能である。

　たとえば、ユーザの押圧の強さが検知可能なタッチパネルやマウス、コントローラなどを利用している場合には、矢印３７１、３７２を描く際のユーザの押圧の強さに応じて、目標位置３５１、３５２の近傍の大きさを変化させることが可能である。

　この態様では、図３、図４に示す入力例において、ユーザの押圧力が強ければ、矢印３７１、３７２が太く描かれ、ユーザの押圧力が弱ければ、矢印３７１、３７２が細く描かれるように、画面３０１の表示設定を行っておく。

　そして、ユーザの押圧の強さ、すなわち、矢印３７１、３７２の太さにより、目標位置の近傍か否かの閾値の大きさを決めるのである。

　本実施形態によれば、動画像の検索条件の詳細な指定を、簡易な操作によって実現することが可能となる。

　このほか、図３に示すように、動画フレーム３３１が静止画像１０１とは異なる位置に表示されている場合には、動画フレーム３３１内に種々の情報を提示することが可能である。

　データベースに登録されているすべての動画像８０１のフレーム画像８０２の局所情報量を動画フレーム３３１内の各位置についてそれぞれ集計して、集計結果の各位置における分布を、動画フレーム３３１内に画面表示する、という手法である。

　一般に、局所情報量がスカラー値である場合には、その値が大きければ大きいほど、その箇所が人間にとって目に付きやすい、特徴的な箇所であると予想される。

　また、局所情報量がベクトル値である場合には、その長さが長ければ長いほど、その箇所が特徴的であると予想される。

　したがって、局所情報量の総和をスカラー化することにより、動画フレーム３３１内の各位置が、全動画像の平均においてどの程度特徴的であるか、を得ることができる。

　したがって、この手法によれば、ユーザは、どの位置を目標位置とすれば、より適切な検索結果が得られるか、等の予測がしやすくなる。

　なお、本願においては、２０１２年１月２０日に日本国に出願した特願２０１２－０１０４９２を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容をすべて本願に取り込むものとする。

　　１０１　静止画像
　　１０２　参照オブジェクトの自動車
　　１２１　静止画像の全領域
　　１２２　参照領域
　　１２３　参照画像
　　２０１　フレーム画像
　　２０２　目標オブジェクトの自動車
　　２２１　フレーム画像の全領域
　　２２２　目標領域
　　２２３　目標画像
　　３０１　画面
　　３１１　参照位置
　　３１２　参照位置
　　３３１　動画フレーム
　　３５１　目標位置
　　３５２　目標位置
　　３７１　矢印
　　３７２　矢印
　　５０１　動画検索装置
　　５０２　受付部
　　５０３　抽出部
　　５０４　検索部
　　７０１　参照画像
　　８０１　動画像
　　８０２　フレーム画像
　　８０３　局所画像
　　８１１　開始位置
　　８１２　開始位置
　　９０１　注目画素
　　９０２　注目画素
　　９５１　移動軌跡
　　９５２　移動軌跡
　　９７１　参照位置に係る方向ベクトル
　　９７２　目標位置に係る方向ベクトル
　　９８１　代表軌跡
　　９８２　目標軌跡に係る矢印
　　９９１　概要画像

Claims

　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付部、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
　を備えることを特徴とする動画検索装置。
　請求項１に記載の動画検索装置であって、
　前記受付部は、前記動画像に含まれるフレーム画像内における目標軌跡の入力をさらに受け付け、
　前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、前記目標軌跡と、前記代表軌跡と、が類似する動画像を、前記検索結果とする
　ことを特徴とする動画検索装置。
　請求項１に記載の動画検索装置であって、
　前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、当該動画像とともに、当該動画像の代表軌跡を、前記検索結果とする
　ことを特徴とする動画検索装置。
　請求項１から３のいずれか１項に記載の動画検索装置であって、
　前記抽出部は、前記参照画像の画像特徴量を取得し、
　前記検索部は、前記参照画像の前記画像特徴量に類似する画像特徴量を有するフレーム画像を検索することにより、前記類似フレーム画像を検索する
　ことを特徴とする動画検索装置。
　請求項４に記載の動画検索装置であって、
　前記抽出部は、前記参照画像を反転した鏡画像の画像特徴量をさらに取得し、
　前記検索部は、前記参照画像の前記画像特徴量もしくは前記鏡画像の前記画像特徴量に類似するフレーム画像を検索することにより、前記類似フレーム画像を検索する
　ことを特徴とする動画検索装置。
　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるべきフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付ステップ、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出ステップ、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索ステップ
　を備えることを特徴とする動画検索方法。
　コンピュータを、
　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるべきフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付部、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
　として機能させることを特徴とするプログラムを記録したコンピュータ読取可能な記録媒体。
　コンピュータを、
　参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第１参照位置ならびに第２参照位置、動画像に含まれるべきフレーム画像内の第１目標位置ならびに第２目標位置の入力を受け付ける受付部、
　前記第１参照位置ならびに前記第２参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
　複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第１参照位置と、前記第２参照位置と、に対応付けられる第１開始位置と、第２開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第１開始位置に描画されている第１注目画素が移動する第１移動軌跡と、前記第２開始位置に描画されている第２注目画素が移動する第２移動軌跡と、を追跡して、当該第１移動軌跡が前記第１目標位置の近傍に至り、当該第２移動軌跡が前記第２目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
　として機能させることを特徴とするプログラム。