WO2019078164A1

WO2019078164A1 - 検索装置、端末装置、解析装置、検索方法、端末装置の動作方法、解析方法及びプログラム

Info

Publication number: WO2019078164A1
Application number: PCT/JP2018/038338
Authority: WO
Inventors: 健全劉; 晟胡
Original assignee: 日本電気株式会社
Priority date: 2017-10-16
Filing date: 2018-10-15
Publication date: 2019-04-25
Also published as: JP6965939B2; US20200242155A1; JPWO2019078164A1

Abstract

動画から抽出された１つ又は複数の物体の種類と、当該物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する記憶部（１１）と、検索対象の１つまたは複数の物体の種類と、物体の動きとを対応付けた検索キーを取得する取得部（１２）と、検索キーに基づき、動画インデックス情報を検索する検索部（１３）と、を有する検索装置（１０）を提供する。

Description

検索装置、端末装置、解析装置、検索方法、端末装置の動作方法、解析方法及びプログラム

　本発明は、検索装置、端末装置、解析装置、検索方法、端末装置の動作方法、解析方法及びプログラムに関する。

　特許文献１は、ユーザがディスプレイ画面に描いた図形の大まかな形状を入力し、画像やオブジェクトのデータベースからユーザが描いた図形の形状に類似するオブジェクトを抽出し、抽出したオブジェクトをユーザが描いた図形に対応する位置に配置し、図として背景画像等と合成することにより違和感のない１枚の画像に仕上げて出力する技術を開示している。

　非特許文献１は手書き画像に基づいた動画検索技術を開示している。当該技術では、入力欄において手書き画像の入力を受付けると、手書き画像に類似するシーンを検索し、出力する。また、手書きされた図形に類似する図形を入力候補として提示し、入力候補の中の１つが選択されると、入力欄における手書きされた図形を選択された図形に置き代える。

特開２０１１－２８７５号公報国際公開第２０１４／１０９１２７号特開２０１５－４９５７４号公報

Claudiu Tanase、他７名、"Semantic Sketch-Based Video Retrieval with Auto completion"、［Online］、［平成２９年９月５日検索］、インターネット＜URL: https://iui.ku.edu.tr/sezgin_publications/2016/Sezgin-IUI-2016.pdf＞

　非特許文献１に記載のような「画像のみをキーとしたシーン検索」の場合、検索結果を十分に絞り込むことができない場合がある。本発明は、所望のシーンを検索する新たな技術を提供することを課題とする。

　本発明によれば、
　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する記憶手段と、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得手段と、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索手段と、
を有する検索装置が提供される。

　また、本発明によれば、
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御手段と、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付手段と、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信手段と、
を有する端末装置が提供される。

　また、本発明によれば、
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出手段と、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断手段と、
　前記検出手段により検出された前記物体の種類と、前記判断手段により判断された前記物体各々の動きとを対応付けて登録する登録手段と、
を有する解析装置が提供される。

　また、本発明によれば、
　コンピュータが、
　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶しておき、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得工程と、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索工程と、
を実行する検索方法が提供される。

　また、本発明によれば、
　コンピュータを、
　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する記憶手段、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得手段、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索手段、
として機能させるプログラムが提供される。

　また、本発明によれば、
　コンピュータが、
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御工程と、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付工程と、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信工程と、
を実行する端末装置の動作方法が提供される。

　また、本発明によれば、
　コンピュータを、
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御手段、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付手段、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信手段、
として機能させるプログラムが提供される。

　また、本発明によれば、
　コンピュータが、
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出工程と、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断工程と、
　前記検出工程で検出された前記物体の種類と、前記判断工程で判断された前記物体各々の動きとを対応付けて登録する登録工程と、
を実行する解析方法が提供される。

　また、本発明によれば、
　コンピュータを、
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出手段、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断手段、
　前記検出手段により検出された前記物体の種類と、前記判断手段により判断された前記物体各々の動きとを対応付けて登録する登録手段、
として機能させるプログラムが提供される。

　本発明によれば、所望のシーンを検索する新たな技術が実現される。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本実施形態の検索システムの機能ブロック図の一例を示す図である。本実施形態の検索装置の機能ブロック図の一例を示す図である。本実施形態の動画インデックス情報に含まれる対応情報の一例を模式的に示す図である。本実施形態の検索装置の処理の流れの一例を示すフローチャートである。本実施形態の動画インデックス情報に含まれる対応情報の他の一例を模式的に示す図である。本実施形態の対応情報のデータ表現の一例を模式的に示す図である。図６のpred_iの種類を例示する図である。動画ファイルごとにセグメントＩＤと対応情報とを対応付けた図の一例である。物体の種類と関連情報とを対応付けた図である。木構造のインデックス情報の一例を概念的に示す図である。ノードＩＤと関連情報とを対応付けた図の一例である。物体の種類ごとに各ノードの流れで示されるシーンに各物体が現れるか否かを示す図の一例である。物体の種類ごとに各ノードの流れで示されるシーンに各物体が現れるか否かを示す図の他の一例である。本実施形態の検索キーのデータ表現の一例を示す図である。本実施形態の検索キーのデータ表現の具体例を示す図である。本実施形態の解析装置の機能ブロック図の一例を示す図である。外観が類似する物体をグループ化する処理で用いるインデックス情報の一例を模式的に示す図である。本実施形態の端末装置の機能ブロック図の一例を示す図である。本実施形態の端末装置が表示する画面の一例を模式的に示す図である。本実施形態の装置のハードウエア構成の一例を示す図である。

＜第１の実施形態＞
　まず、本実施形態の検索システムの概要を説明する。検索システムは、動画から抽出された１つ又は複数の物体の種類（例：人、カバン、車等）と、その物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する。そして、検索対象の１つまたは複数の物体の種類と、その物体の動きとを対応付けた検索キーを取得すると、検索キーに基づき動画インデックス情報を検索し、結果を出力する。このような本実施形態の検索システムは、物体の動きをキーとして所望のシーンを検索するこができる。動画に現れる物体の外観は印象に残っていないが、物体の動きは明確に記憶している場合がある。物体の動きをキーとして検索するこができる本実施形態の検索システムは、例えばこのような場合に所望のシーンを検索するのに利用することができる。

　動画は、例えばある位置に固定された監視カメラで連続的に撮影されたものであってもよいし、コンテンツ制作者により制作されたコンテンツ（映画、テレビ番組、ネット動画等）であってもよいし、一般人により撮影されたプライベートな動画であってもよいし、その他であってもよい。本実施形態の検索システムによれば、このような動画から所望のシーンを検索することができる。

　次に、本実施形態の検索システムの構成を詳細に説明する。図１の機能ブロック図に示すように、本実施形態の検索システムは、検索装置１０と端末装置２０とを有する。検索装置１０と端末装置２０とは、有線及び／又は無線で互いに通信可能に構成される。検索装置１０と端末装置２０は、例えば有線及び／又は無線で直接（他の装置を介さずに）通信してもよい。その他、検索装置１０と端末装置２０は、例えば有線及び／又は無線で公共及び／又はプライベートな通信ネットワークを介して（他の装置を介して）通信してもよい。検索システムはいわゆるクライアントサーバシステムであり、検索装置１０はサーバとして、端末装置２０はクライアントとして機能する。

　次に、検索装置１０の機能構成を説明する。図２に、検索装置１０の機能ブロック図の一例を示す。図示するように、検索装置１０は、記憶部１１と、取得部１２と、検索部１３とを有する。

　記憶部１１は、例えば図３に示すような対応情報を含む動画インデックス情報を記憶する。図示する対応情報は、各シーンを含む動画ファイルを識別する情報（動画ファイルＩＤ（identifier））、動画ファイル内の各シーンの位置を識別する情報（開始時間、終了時間）、各シーンから抽出された１つ又は複数の物体の種類、及び、各シーンでの各種物体の動きを対応付けている。開始時間及び終了時間は、動画ファイルの冒頭からの経過時間であってもよい。

　物体の種類は、例えば、人、犬、猫、カバン、車、バイク、自転車、ベンチ、ポスト等であってもよい。なお、例示した物体の種類はあくまで一例であり、その他の種類を含んでもよいし、例示したものを含まなくてもよい。また、例示した物体の種類は更に細かく分類されてもよい。例えば、人は成人、子供、老人等のように細かく分類されてもよい。物体の種類の欄には、１つの物体の種類が記載されてもよいし、複数の物体の種類が記載されてもよい。

　物体の動きは、例えば、複数の物体の相対的な位置関係の変化によって示されてもよい。具体的には、「複数の物体が互いに近づく」、「複数の物体が互いに遠ざかる」、「複数の物体が互いに一定の距離を保つ」等が例示されるが、これらに限定されない。例えば、人がカバンに近づく様子を含むシーンの場合、「人（物体の種類）」と、「カバン（物体の種類）」と、「互いに近づく（物体の動き）」とを対応付けた対応情報が記憶部１１に記憶される。

　その他、物体の動きは、「静止している」、「徘徊している」等を含んでもよい。例えば、人がある位置で静止している様子を含むシーンの場合、「人（物体の種類）」と、「静止している（物体の動き）」とを対応付けた対応情報が記憶部１１に記憶される。

　動画インデックス情報は、コンピュータが動画を解析することで自動的に生成されてもよいし、人間が動画を解析することで生成されてもよい。動画を解析して動画インデックス情報を生成する装置（解析装置）は以下の実施形態で説明する。

　図２に戻り、取得部１２は、検索対象の１つまたは複数の物体の種類と、その物体の動きとを対応付けた検索キーを取得する。取得部１２は、端末装置２０から検索キーを取得する。

　端末装置２０は、入出力機能を有する。端末装置２０は、ユーザから検索キーの入力を受付けると、受付けた検索キーを検索装置１０に送信する。そして、端末装置２０は、検索結果を検索装置１０から受信すると、検索結果をディスプレイに表示する。端末装置２０は、例えば、ＰＣ（personal computer）、スマートフォン、タブレット、携帯ゲーム、検索システム専用の端末等である。なお、端末装置２０のより詳細な機能構成は以下の実施形態で説明する。

　検索部１３は、取得部１２により取得された検索キーに基づき、動画インデックス情報を検索する。そして、検索部１３は、検索キーに合致する対応情報を抽出する。例えば、検索部１３は、検索キーで示される種類の物体と、検索キーで示される物体の動きとを対応付けた対応情報を抽出する。結果、検索キーに合致するシーン（抽出された対応情報が含む動画ファイルＩＤ、開始時間、終了時間で特定されるシーン。図３参照。）で特定されるシーンが検索される。

　検索装置１０の出力部（不図示）は、検索結果を端末装置２０に送信する。例えば、出力部は、検索部１３により抽出された対応情報で特定されるシーンを再生するための情報（動画ファイル、検索されたシーンの開始時間及び終了時間）を、検索結果として端末装置２０に送信してもよい。複数の対応情報が抽出されている場合、各々に対応して上記情報を端末装置２０に送信してもよい。

　端末装置２０は、検索装置１０から受信した検索結果をディスプレイに表示させる。例えば、複数の動画を再生可能に一覧表示してもよい。

　次に、図４のフローチャートを用いて、検索装置１０の処理の流れの一例を説明する。

　取得部１２が検索対象の１つまたは複数の物体の種類と、その物体の動きとを対応付けた検索キーを端末装置２０から取得すると（Ｓ１０）、検索部１３は、Ｓ１０で取得された検索キーに基づき、記憶部１１に記憶されている動画インデックス情報を検索する（Ｓ１１）。そして、検索装置１０は、検索結果を端末装置２０に送信する（Ｓ１２）。

　物体の動きをキーとして検索できる本実施形態の検索システムによれば、従来にないアプローチで所望のシーンを検索することができる。

＜第２の実施形態＞
　本実施形態の検索システムは、動画インデックス情報が物体の動きの時間変化を更に示す。例えば、人がカバンに近づき、その後、そのカバンを持って立ち去る様子を含むシーンの場合、「人（物体の種類）」と、「カバン（物体の種類）」と、「互いに近づく（物体の動き）」とを対応付けた情報と、「人（物体の種類）」と、「カバン（物体の種類）」と、「同行する（物体の動き）」とを対応付けた情報とをこの順に（時系列順に）互いに対応付けた対応情報が記憶部１１に記憶される。

　取得部１２は、検索対象の物体の種類と、その物体の動きの時間変化とを示す検索キーを取得する。そして、検索部１３は、このような検索キーに合致する対応情報を検索する。本実施形態の検索システムのその他の構成は、第１の実施形態と同様である。

　本実施形態の検索システムによれば、第１の実施形態と同様な作用効果を実現できる。また、物体の動きのみならず、物体の動きの時間変化をさらにキーとして検索できるので、所望のシーンをより高精度に検索することができる。

＜第３の実施形態＞
　本実施形態の検索システムは、動画インデックス情報が、動画から抽出された物体各々の外観の特徴をさらに含んでいる（図５参照）。物体が人の場合の外観の特徴は、顔の特徴、性別、年齢層、国籍、体型、身に着けている物の特徴等が例示されるがこれらに限定されない。顔の特徴は、例えば顔のパーツ等を用いて表現することができるが、その詳細は制限されない。身に着けている物の特徴は、例えば、青いキャップ、黒いズボン、白いスカート、黒いハイヒール等のように、種類、色、柄、形等で表現される。物体が人以外の場合の外観の特徴は、色、形状、大きさ等が例示されるがこれらに限定されない。

　例えば、５０代の男性が黒いカバンに近づき、その後、そのカバンを持って立ち去る様子を含むシーンの場合、「人（物体の種類）－５０代・男性（外観の特徴）」と、「カバン（物体の種類）－黒（外観の特徴）」と、「互いに近づく（物体の動き）」とを対応付けた情報と、「人（物体の種類）－５０代・男性（外観の特徴）」と、「カバン（物体の種類）－黒（外観の特徴）」と、「同行する（物体の動き）」とを対応付けた情報とをこの順に（時系列順に）互いに対応付けた対応情報が記憶部１１に記憶される。

　取得部１２は、検索対象の１つまたは複数の物体の種類と、その物体の動き（又は、動きの時間変化）と、その物体の外観の特徴とを対応付けた検索キーを取得する。そして、検索部１３は、このような検索キーに合致する対応情報を検索する。本実施形態の検索システムのその他の構成は、第１及び第２の実施形態と同様である。

　本実施形態の検索システムによれば、第１及び第２の実施形態と同様な作用効果を実現できる。また、物体の動きや物体の動きの時間変化のみならず、物体の外観の特徴をさらにキーとして検索できるので、所望のシーンをより高精度に検索することができる。

＜第４の実施形態＞
　本実施形態では、検索装置１０の処理をより詳細に説明する。動画は、例えばある位置に固定された監視カメラで連続的に撮影されたものである。

　まず、検索装置１０により処理されるデータ構造の一例を詳細に説明する。

　図６に、記憶部１１に記憶される対応情報のデータ表現の一例を示す。対応情報はシーンごとに生成され、記憶部１１に記憶される。video-idは各シーンを含む動画ファイルのＩＤである。t_sは各シーンの開始位置を示す情報（動画ファイルの冒頭からの経過時間、又は、開始時刻等）である。t_eは各シーンの終了位置を示す情報（動画ファイルの冒頭からの経過時間、又は、終了時刻等）である。

　subjectsは各シーンから検出された物体の種類を示す。具体的な値としては、例えば、人、犬、猫、カバン、車、バイク、自転車、ベンチ、ポスト、その他、又はこれらに対応するコード等であるがこれらに限定されない。

　pred_iは各シーンから検出された物体の各シーンでの動きを示す。図７に、pred_iの種類を例示する。なお、図示する種類はあくまで一例であり、これに限定されない。

　pred_１は、「集まる」、すなわち複数の物体が互いに近づく動きに対応する。
　pred_２は、「別れる」、すなわち複数の物体が互いに遠ざかる動きに対応する。
　pred_３は、「同行する」、すなわち複数の物体が互いに一定の距離を保つ動きに対応する。
　pred_４は、「徘徊する」、すなわち物体が徘徊している動きに対応する。
　pred_５は、「静止する」、すなわち物体が静止している動きに対応する。

　なお、この５種類があれば、例えば次のようなシーンを表現することができる。

　まず、「pred_１：集まる：複数の物体が互いに近づく動き」によれば、例えば、人と人の待ち合わせシーン、ある人が他の人に接近するシーン、他の人を追いかけている人が他の人に追いつくシーン、人が物（例：カバン）に近づき手に取るシーン、ある人が物を受け取るシーン、人が車に近づき乗車するシーン、車と車が衝突するシーン、車が人に衝突するシーン等を表現することができる。

　また、「pred_２：別れる：複数の物体が互いに遠ざかる動き」によれば、例えば、人と人が別れるシーン、複数の人のグループのシーン、人が物（例：カバン）を投げる又は捨てるシーン、ある人が他の人から逃げるシーン、人が車から降車し離れるシーン、ある車が衝突した車から逃げるシーン、ある車が衝突した人から逃げるシーン等を表現することができる。

　また、「pred_３：同行する：複数の物体が互いに一定の距離を保つ動き」によれば、例えば、人と人が並んで歩くシーン、ある人が他の人と一定の距離を保って尾行するシーン、人が物（例：カバン）を持ち歩くシーン、人が動物（例：馬）に乗って移動するシーン、車と車がレースするシーン等を表現することができる。

　また、「pred_４：徘徊する：物体が徘徊している動きき」によれば、例えば、あるエリア内で人や車がウロウロするシーン、人が道に迷っているシーン等を表現することができる。

　また、「pred_５：静止する：物体が静止している動きき」によれば、例えば、人が立ち止まっているシーン、人が寝ているシーン、故障車、意識を失って倒れている人、体調不良で動きが取れず助けが必要な人、ある場所に不法に廃棄された物等が写るシーンを表現することができる。

　pred_i（subjects）の表現は、pred_iとsubjectsが互いに対応付けられていることを意味する。すなわち、subjectsは対応付けられているpred_iの動きをしたことを意味する。

　中カッコ：｛｝の中には、pred_i（subjects）を１つ又は複数記載できる。複数のpred_i（subjects）は時系列順に並べられる。

　ここで、具体例を用いて対応情報を説明する。

例１：<｛pred_５（人）｝,00:02:25,00:09:01,vid2>
　例１の対応情報は、vid2の動画ファイルの00:02:25～00:09:01において、「人が静止しているシーン」が存在することを示す。

例２：<｛pred_５（人）、pred_４（人）｝,00:09:15,00:49:22,vid１>
　例２の対応情報は、vid1の動画ファイルの00:09:15～00:49:22において、「人が静止し、その後、人が徘徊するシーン」が存在することを示す。

例３：<｛pred_１（人，カバン）、pred_３（人，カバン）｝,00:49:23,00:51:11,vid１>
　例３の対応情報は、vid1の動画ファイルの00:49:23～00:51:11において、「人とカバンが互いに近づき、その後、人とカバンが同行するシーン」が存在することを示す。

　対応情報は、例えば、図８に示すように動画ファイルごとにまとめて記憶部１１に記憶されてもよい。図示する対応情報は、vid1の動画ファイルに基づき生成された対応情報である。セグメントＩＤは各シーンを識別する情報と同義である。

　また、記憶部１１は、図９に示すような情報を記憶してもよい。図示する情報は、物体の種類毎に、動画ＩＤとセグメントＩＤとのペアを対応付けている。すなわち、物体の種類毎に、各々が写るシーンを識別する情報を対応付けている。図より、「人」は、vid1の動画ファイルのseg1のシーンや、vid1の動画ファイルのseg2のシーン等に写っていることが分かる。また、「カバン」は、vid1の動画ファイルのseg2のシーン等に写っていることが分かる。

　また、記憶部１１は、動画から抽出された物体の動きの時間変化を木構造で示すインデックス情報を記憶してもよい。図１０に、当該インデックス情報の一例を概念的に示す。当該木構造のインデックス情報は、動画から抽出された物体の動きの時間変化を示している。各ノードは１つの動きに対応する。ノード内の数字が物体の動きを示す。ノード内の数字は、「pred_i」の「i」に対応する。すなわち、「１」は「集まる」、「２」は「別れる」、「３」は「同行する」、「４」は「徘徊する」、「５」は「静止する」である。図１０の例の場合、「集まる（１）」のシーン、「静止する→徘徊する→集まる→同行する（５→４→１→３）」がこの順に起きるシーン、「同行する→別れる（３→２）」がこの順に起きるシーン、「静止する→徘徊する→静止する（５→４→５）」がこの順に起きるシーンが動画内に存在することが分かる。

　各ノードにはノードＩＤ（Ｎ：００１等）が付与される。そして、図１１に示すように、各ノードに対応付けて、各ノードの動きが図１０に示す動きの流れで現れる動画ＩＤとセグメントＩＤとのペアが登録される。例えば、N:002のノードには、動画内に存在する「徘徊する（４）」シーンの中の、「静止する→徘徊する→集まる→同行する（５→４→１→３）」の流れで現れる「徘徊する（４）」シーンを識別する動画ＩＤとセグメントＩＤとのペアが登録される。

　ここで、図１０に示す木構造のインデックス情報を用いれば、図１２及び図１３に示すような情報を生成することができる。図示する情報は、物体の種類ごとに生成される。当該情報は、図１０の木構造で示されるノードの流れの組合せ（動きの時間変化）毎に、その動きの時間変化を示すシーンに各物体が現れるか否かを示している。そして、現れる場合には、そのシーンを示す動画ＩＤとセグメントＩＤとのペアを対応付けている。

　図１２の５→４に対応付けられている「１１」、「０１」、「１０」は、動きが「静止する（５）」→「徘徊する（４）」と変化するシーンに人が現れるか否かを示す。左側の数字が５のノードに対応し、右側の数字が４のノードに対応する。動きが「静止する（５）」のシーンに人が現れる場合には左側の数字を「１」に、現れない場合には左側の数字を「０」にセットする。また、動きが「徘徊する（４）」のシーンに人が現れる場合には右側の数字を「１」に、現れない場合には右側の数字を「０」にセットする。

　図１２の５→４→１に対応付けられている「１１１」、・・・「００１」は、動きが「静止する（５）」→「徘徊する（４）」→「集まる（１）」と変化するシーンに人が現れるか否かを示す。一番左の数字が５のノードに対応し、真ん中の数字が４のノードに対応し、一番右の数字が１のノードに対応する。動きが「静止する（５）」のシーンに人が現れる場合には左端の数字を「１」に、現れない場合には左端の数字を「０」にセットする。また、動きが「徘徊する（４）」のシーンに人が現れる場合には真ん中の数字を「１」に、現れない場合には真ん中の数字を「０」にセットする。また、動きが「集まる（１）」のシーンに人が現れる場合には右端の数字を「１」に、現れない場合には右端の数字を「０」にセットする。

　図１４は、取得部１２が取得する検索キー（Query）のデータ表現の一例を示す。これは、図６を用いて説明した対応情報の中カッコ：｛｝の中身と一緒である。

　次に、検索部１３による検索処理を具体的に説明する。取得部１２が図１５に示す検索キーを取得したとする。この検索キーは、「集まる（１）」→「同行する（３）」の動きの時間変化を示す。また、動きが「集まる（１）」のシーン、及び、動きが「同行する（３）」のシーンいずれにも人とカバンが現れることが分かる。

　この場合、検索部１３は、図１２及び図１３に示す情報を検索対象とし、人に対応する情報（図１２）の中から１→３の動きの時間変化、及び、「１１」に対応付けられている動画ＩＤとセグメントＩＤとのペアを抽出する。図示する例の場合、<vid1,seg2>のペア等を抽出する。また、検索部１３は、カバンに対応する情報（図１３）の中から１→３の動きの時間変化、及び、「１１」に対応付けられている動画ＩＤとセグメントＩＤとのペアを抽出する。図示する例の場合、<vid1,seg2>のペア等を抽出する。そして、人に対応する情報（図１２）から抽出した動画ＩＤとセグメントＩＤとのペア、及び、カバンに対応する情報（図１３）から抽出した動画ＩＤとセグメントＩＤとのペアの両方に含まれるペアを、検索結果として抽出する。

　なお、記憶部１１に記憶される上述のようなデータは、コンピュータが動画を解析することで自動的に生成されてもよいし、人間が動画を解析することで生成されてもよい。以下、動画を解析し、記憶部１１に記憶される上述のようなデータを生成する解析装置の機能構成を説明する。図１６に、解析装置３０の機能ブロック図の一例を示す。図示するように、解析装置３０は、検出部３１と、判断部３２と、登録部３３とを有する。

　検出部３１は、複数種類の物体各々の外観の特徴を示す情報に基づき、動画から各種物体を検出する。

　判断部３２は、検出部３１により検出された物体が予め定義された複数の動きのいずれに該当するかを判断する。予め定義された複数の動きは、複数の物体の相対的な位置関係の変化で示されてもよい。例えば、予め定義された複数の動きは、複数の物体が互いに近づく（pred_１：集まる）、複数の物体が互いに遠ざかる（pred_２：別れる）、複数の物体が互いに一定の距離を保つ（pred_３：同行する）、徘徊している（pred_４：徘徊する）、及び、静止している（pred_５：静止する）の中の少なくとも１つを含んでもよい。

　例えば、同じシーンに存在する複数の物体の距離が時間経過とともに小さくなっている場合、判断部３２は当該複数の物体の動きは「pred_１：集まる」であると判断してもよい。

　また、同じシーンに存在する複数の物体の距離が時間経過とともに大きくなっている場合、判断部３２は当該複数の物体の動きは「pred_２：別れる」であると判断してもよい。

　また、同じシーンに存在する複数の物体の距離が一定時間の間所定の距離以内に保たれている場合、判断部３２は当該複数の物体の動きは「pred_３：同行する」であると判断してもよい。

　また、ある物体が基準位置から予め定められた距離Ｌ１以内のエリアでの移動を続けている場合、判断部３２は当該物体の動きは「pred_４：徘徊する」であると判断してもよい。

　また、ある物体が基準位置から予め定められた距離Ｌ２以内のエリアに居続ける場合（Ｌ１＞Ｌ２）、判断部３２は、当該物体の動きは「pred_５：静止する」であると判断してもよい。

　なお、ここで説明した判断基準はあくまで一例であり、他の判断基準を採用してもよい。

　登録部３３は、検出部３１により検出された物体の種類と、判断部３２により判断された物体各々の動きとを対応付けたデータ（pred_i（subjects））を登録する。

　なお、登録部３３は、さらにシーンの開始位置及び終了位置を対応付けて登録することができる。シーンの開始位置及び終了位置を決定する手法は設計的事項である。例えば、動画からある物体が検出されたタイミングをシーンの開始位置とし、その物体が検出されなくなったタイミングをシーンの終了位置としてもよい。あるシーンと他のシーンは一部が重なってもよいし、重ならないように定められてもよい。結果、動画ファイルごとに図８のような情報が生成され、それらに基づき図９乃至図１３に示すような情報が生成される。

　ここで、本実施形態の変形例を説明する。対応情報のsubjects（図６参照）の値は、人、犬、猫、カバン、車、バイク、自転車、ベンチ、ポスト、その他、又はこれらに対応するコード等に加えて、各種物体を外観に応じてさらに細かく分類した分類コードを含んでもよい。例えば、subjectsの値は、人（h000001）、カバン（b000001）等で表現されてもよい。カッコ内の値が分類コードである。物体が人の場合、分類コードは動画に写る個人を識別する識別コードを意味する。物体がカバンの場合、分類コードは形状、大きさ、柄、色、デザイン等が同一又は類似するものどうしをまとめたグループ各々を識別する情報となる。物体がその他の場合も同様である。そして、図示しないが、記憶部１１は、分類コード毎に、外観の特徴を示す情報を記憶してもよい。

　当該変形例の場合、取得部１２は、検索対象の物体の種類、当該物体の動き又は動きの時間変化、当該物体の外観の特徴を含む検索キーを取得することができる。そして、検索部１３は、検索キーに含まれる外観の特徴を上記分類コードに変換し、当該分類コードの各種物体が検索キーで示される動き又は動きの時間変化をしたシーンを上記と同様にして検索することができる。

　なお、変形例の場合、各フレームから抽出された各種物体を、外観が同一又は類似するものどうしでグループ化し、各グループに分類コードを付与するという処理が必要となる。以下、当該処理の一例を説明する。

　まず、複数のフレーム各々から物体を抽出する。そして、あるフレームから抽出された第１の種類の物体（例：人）と、それ以前のフレームから抽出された第１の種類の物体（例：人）との外観が所定レベル以上類似するか判断し、所定レベル以上類似するもの同士をグループ化する。それ以前のフレームから抽出されたすべての第１の種類の物体（例：人）各々の外観の特徴と、あるフレームから抽出されたすべての第１の種類の物体（例：人）各々の外観の特徴とのすべてのペアを比較することで、上記判断を行ってもよい。しかし、この処理の場合、蓄積された物体のデータが増えるほど、比較するペアの数が膨大となり、処理負担が大きくなる。そこで、例えば、次のような方法を採用してもよい。

　例えば、抽出された物体を物体の種類ごとに図１７のようにインデックス化し、当該インデックスを用いて外観が所定レベル以上類似するものどうしでグループ化する。当該インデックスの詳細及び生成方法は、特許文献２及び３に開示されているが、以下、簡単に説明する。ここでは、人を例にとり説明するが、物体の種類がその他の物である場合も同様の処理を採用できる。

　図１７に示す抽出ＩＤ：「Ｆ○○○－○○○○」は、各フレームから抽出された人物各々に付される識別情報である。Ｆ○○○がフレーム識別情報であり、ハイフン以下が各フレームから抽出された人物各々の識別情報である。同一人物が異なるフレームから抽出された場合、各々に異なる抽出ＩＤが付されることとなる。

　第３層には、それまでに処理されたフレームから得られた全ての抽出ＩＤ各々に対応したノードが配置される。そして、第３層に配置された複数のノードは、類似度（外観の特徴量の類似度）が第１のレベル以上のもの同士でまとめてグループ化される。第３層では、同一人物に関すると判断される複数の抽出ＩＤどうしでグループ化されている。すなわち、上記類似度の第１のレベルは、このようなグループ化を実現可能とする値に設定されている。このような第３層の各グループに対応して、人物識別情報（人物ＩＤ：人の分類ＩＤ）が付される。

　第２層には、第３層の複数のグループ各々から選択された１つのノード（代表）が配置され、第３層の当該グループと紐付けられる。第２層に配置された複数のノードは、類似度が第２のレベル以上のもの同士でまとめてグループ化される。なお、類似度の第２のレベルは、上記第１のレベルよりも低い。すなわち、第１のレベルを基準にした場合にはグループ化されないノード同士が、第２のレベルを基準にした場合にはグループ化され得る。

　第１層には、第２層の複数のグループ各々から選択された１つのノード（代表）が配置され、第２層の当該グループと紐付けられる。

　新たなフレームから新たな抽出ＩＤが得られた場合、まず、第１層に位置する複数の抽出ＩＤを比較対象とする。すなわち、新たな抽出ＩＤと、第１層に位置する複数の抽出ＩＤ各々とでペアを作成する。そして、ペア毎に類似度（外観の特徴量の類似度）を算出し、算出した類似度が第１の閾値以上（所定レベル以上類似）であるか判定する。

　第１層に、類似度が第１の閾値以上である抽出ＩＤが存在しない場合、新たな抽出ＩＤに対応する人物は、それ以前に抽出された人物と同一人物でないと判断する。そして、新たな抽出ＩＤを第１層乃至第３層に追加し、それらを互いに紐付ける。第２層及び第３層においては、追加された新たな抽出ＩＤにより新たなグループが生成される。また、第３層の新たなグループに対応して新たな人物ＩＤが発行される。そして、その人物ＩＤを、新たな抽出ＩＤに対応する人物の人物ＩＤとして特定する。

　一方、第１層に、類似度が第１の閾値以上である抽出ＩＤが存在する場合、比較対象を第２層に移す。具体的には、「類似度が第１の閾値以上であると判定された第１層の抽出ＩＤ」に紐付けられた第２層のグループを、比較対象とする。

　そして、新たな抽出ＩＤと、第２層の処理対象のグループに含まれる複数の抽出ＩＤ各々とでペアを作成する。次いで、ペア毎に類似度を算出し、算出した類似度が第２の閾値以上であるか判定する。なお、第２の閾値は、第１の閾値よりも高い。

　第２層の処理対象のグループに、類似度が第２の閾値以上である抽出ＩＤが存在しない場合、新たな抽出ＩＤに対応する人物は、それ以前に抽出された人物と同一人物でないと判断する。そして、新たな抽出ＩＤを第２層及び第３層に追加し、互いに紐付ける。第２層においては、新たな抽出ＩＤは処理対象のグループに追加される。第３層においては、追加された新たな抽出ＩＤにより新たなグループが生成される。また、第３層の新たなグループに対応して新たな人物ＩＤが発行される。そして、その人物ＩＤを、新たな抽出ＩＤに対応する人物の人物ＩＤとして特定する。

　一方、第２層の処理対象のグループに、類似度が第２の閾値以上である抽出ＩＤが存在する場合、新たな抽出ＩＤに対応する人物は、それ以前に抽出された人物と同一人物であると判断する。そして、新たな抽出ＩＤを、「類似度が第２の閾値以上であると判定された第２層の抽出ＩＤ」に紐付けられた第３層のグループに属させる。また、第３層のそのグループに対応する人物ＩＤを、新たな抽出ＩＤに対応する人物の人物ＩＤとして特定する。

　例えば、以上のようにして、新たなフレームから抽出された１つ又は複数の抽出ＩＤを図１７のインデックスに追加し、各々に人物ＩＤを対応付けることができる。

　以上説明した本実施形態の検索システムによれば、第１乃至第３の実施形態と同様な作用効果を実現できる。

＜第５の実施形態＞
　第１乃至第４の実施形態で説明した検索キーの入力を受付ける端末装置２０の機能構成を説明する。

　図１８に、端末装置２０の機能ブロック図の一例を示す。図示するように、端末装置２０は、表示制御部２１と、入力受付部２２と、送受信部２３とを有する。

　表示制御部２１は、予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる。なお、検索画面は、さらに検索結果を一覧表示する結果表示エリアを有してもよい。

　図１９に、検索画面の一例を模式的に示す。図示する検索画面１００は、アイコン表示エリア１０１と、入力エリア１０２と、結果表示エリア１０３とを有する。アイコン表示エリア１０１には、予め定義された複数の動き各々を示す複数のアイコンが選択可能に表示されている。入力エリア１０２には、ユーザにより入力された検索キーが表示されている。結果表示エリア１０３には、検索結果として複数の動画が再生可能に一覧表示されている。

　図１８に戻り、入力受付部２２は、アイコン表示エリア１０１に表示されている複数のアイコンのいずれかを入力エリア１０２に移動させる操作を受付ける。そして、入力受付部２２は、入力エリア１０２に位置するアイコンが示す動きを検索キーとして受付ける。

　アイコン表示エリア１０１に表示されているアイコンを入力エリア１０２に移動させる操作は特段制限されない。例えばドラッグアンドドロップであってもよいし、その他の操作であってもよい。

　また、入力受付部２２は、入力エリア１０２に位置するアイコンに対応付けて１つ又は複数の物体の種類を指定する入力を受付ける。そして、アイコンに対応付けて指定された物体の種類を検索キーとして受付ける。

　物体の種類を指定する操作は特段制限されない。例えば、各アイコンの点線四角内に手書きでイラストを描くことで、物体の種類が指定されてもよい。この場合、端末装置２０は、手書きされた図形に類似する図形を入力候補として提示し、入力候補の中の１つが選択されると、入力欄における手書きされた図形を選択された図形に置き代えてもよい。手書きされた図形により、各種物体の外観の特徴も入力される。外観の特徴を明示できる写真・画像がある場合は、その写真・画像を入力してもよい。

　その他、図示しないが、各種物体に対応したアイコンが選択可能にアイコン表示エリア１０１に表示されていてもよい。そして、ドラッグアンドドロップやその他の操作により、各種物体に対応したアイコンを各種動きに対応したアイコンの点線四角内に移動させることで、各動きをする物体の種類を指定する入力がなされてもよい。

　なお、物体の動きの時間変化の入力は、図示するように、各種動きに対応した複数のアイコンを入力エリア１０２に移動させ、それらを図示するように矢印で時系列順に繋いだり、時系列順に並べたり（例：左から右）することで実現される。

　送受信部２３は、入力受付部２２により受付けられた検索キーを検索装置１０に送信するとともに、検索装置１０から検索結果を受信する。表示制御部２１は、送受信部２３が受信した検索結果を結果表示エリア１０３に表示する。

　以上説明した本実施形態の検索システムによれば、第１乃至第４の実施形態と同様な作用効果を実現できる。

　また、例えば図１９に示すようなユーザフレンドリーなＧＵＩ（graphical user interface）画面から検索キーの入力を受付けることができる本実施形態の検索システムによれば、ユーザの検索キーの入力負担を軽減できる。

＜各装置のハードウエア構成＞
　最後に、検索装置１０、端末装置２０及び解析装置３０各々のハードウエア構成の一例について説明する。検索装置１０、端末装置２０及び解析装置３０各々が備える各部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図２０は、本実施形態の検索装置１０、端末装置２０及び解析装置３０各々のハードウエア構成を例示するブロック図である。図２０に示すように、検索装置１０、端末装置２０及び解析装置３０各々は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。なお、周辺回路４Ａを有さなくてもよい。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置（例：キーボード、マウス、マイク等）、外部装置、外部サーバ、外部センサー等から情報を取得するためのインターフェイスや、出力装置（例：ディスプレイ、スピーカ、プリンター、メーラ等）、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

　以下、参考形態の例を付記する。
１．　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する記憶手段と、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得手段と、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索手段と、
を有する検索装置。
２．　１に記載の検索装置において、
　前記対応情報は、複数の前記物体の種類を含み、
　複数の前記物体の動きは、複数の前記物体の相対的な位置関係の変化で示される検索装置。
３．　２に記載の検索装置において、
　複数の前記物体の動きは、複数の前記物体が互いに近づく、複数の前記物体が互いに遠ざかる、及び、複数の前記物体が互いに一定の距離を保つ、の中の少なくとも１つを含む検索装置。
４．　１から３のいずれかに記載の検索装置において、
　前記物体の動きは、静止している、及び、徘徊している、の中の少なくとも１つを含む検索装置。
５．　１から４のいずれかに記載の検索装置において、
　前記動画インデックス情報は、前記物体の動きの時間変化を更に示し、
　前記取得手段は、検索対象の前記物体の動きの時間変化をさらに示す前記検索キーを取得する検索装置。
６．　１から５のいずれかに記載の検索装置において、
　前記動画インデックス情報は、前記物体の外観の特徴をさらに含み、
　前記取得手段は、検索対象の前記物体の外観の特徴をさらに示す前記検索キーを取得する検索装置。
７．　１から６のいずれかに記載の検索装置において、
　前記対応情報は、各動きをする各物体が抽出された動画ファイル、及び、当該動画ファイル内の位置を識別する情報をさらに含む検索装置。
８．　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御手段と、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付手段と、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信手段と、
を有する端末装置。
９．　８に記載の端末装置において、
　前記入力受付手段は、前記入力エリアに位置する前記アイコンに対応付けて１つ又は複数の物体の種類を指定する入力を受付け、指定された前記物体の種類を前記検索キーとして受付ける端末装置。
１０．　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出手段と、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断手段と、
　前記検出手段により検出された前記物体の種類と、前記判断手段により判断された前記物体各々の動きとを対応付けて登録する登録手段と、
を有する解析装置。
１１．　１０に記載の解析装置において、
　前記予め定義された複数の動きは、複数の前記物体の相対的な位置関係の変化で示される解析装置。
１２．　１１に記載の解析装置において、
　前記予め定義された複数の動きは、複数の前記物体が互いに近づく、複数の前記物体が互いに遠ざかる、及び、複数の前記物体が互いに一定の距離を保つ、の中の少なくとも１つを含む解析装置。
１３．　１０から１２のいずれかに記載の解析装置において、
　前記予め定義された複数の動きは、静止している、及び、徘徊している、の中の少なくとも１つを含む解析装置。
１４．　コンピュータが、
　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶しておき、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得工程と、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索工程と、
を実行する検索方法。
１５．　コンピュータを、
　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する記憶手段、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得手段、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索手段、
として機能させるプログラム。
１６．　コンピュータが、
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御工程と、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付工程と、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信工程と、
を実行する端末装置の動作方法。
１７．　コンピュータを、
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御手段、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付手段、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信手段、
として機能させるプログラム。
１８．　コンピュータが、
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出工程と、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断工程と、
　前記検出工程で検出された前記物体の種類と、前記判断工程で判断された前記物体各々の動きとを対応付けて登録する登録工程と、
を実行する解析方法。
１９．　コンピュータを、
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出手段、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断手段、
　前記検出手段により検出された前記物体の種類と、前記判断手段により判断された前記物体各々の動きとを対応付けて登録する登録手段、
として機能させるプログラム。

　この出願は、２０１７年１０月１６日に出願された日本出願特願２０１７－２００１０３号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する記憶手段と、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得手段と、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索手段と、
を有する検索装置。
　請求項１に記載の検索装置において、
　前記対応情報は、複数の前記物体の種類を含み、
　複数の前記物体の動きは、複数の前記物体の相対的な位置関係の変化で示される検索装置。
　請求項２に記載の検索装置において、
　複数の前記物体の動きは、複数の前記物体が互いに近づく、複数の前記物体が互いに遠ざかる、及び、複数の前記物体が互いに一定の距離を保つ、の中の少なくとも１つを含む検索装置。
　請求項１から３のいずれか１項に記載の検索装置において、
　前記物体の動きは、静止している、及び、徘徊している、の中の少なくとも１つを含む検索装置。
　請求項１から４のいずれか１項に記載の検索装置において、
　前記動画インデックス情報は、前記物体の動きの時間変化を更に示し、
　前記取得手段は、検索対象の前記物体の動きの時間変化をさらに示す前記検索キーを取得する検索装置。
　請求項１から５のいずれか１項に記載の検索装置において、
　前記動画インデックス情報は、前記物体の外観の特徴をさらに含み、
　前記取得手段は、検索対象の前記物体の外観の特徴をさらに示す前記検索キーを取得する検索装置。
　請求項１から６のいずれか１項に記載の検索装置において、
　前記対応情報は、各動きをする各物体が抽出された動画ファイル、及び、当該動画ファイル内の位置を識別する情報をさらに含む検索装置。
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御手段と、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付手段と、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信手段と、
を有する端末装置。
　請求項８に記載の端末装置において、
　前記入力受付手段は、前記入力エリアに位置する前記アイコンに対応付けて１つ又は複数の物体の種類を指定する入力を受付け、指定された前記物体の種類を前記検索キーとして受付ける端末装置。
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出手段と、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断手段と、
　前記検出手段により検出された前記物体の種類と、前記判断手段により判断された前記物体各々の動きとを対応付けて登録する登録手段と、
を有する解析装置。
　請求項１０に記載の解析装置において、
　前記予め定義された複数の動きは、複数の前記物体の相対的な位置関係の変化で示される解析装置。
　請求項１１に記載の解析装置において、
　前記予め定義された複数の動きは、複数の前記物体が互いに近づく、複数の前記物体が互いに遠ざかる、及び、複数の前記物体が互いに一定の距離を保つ、の中の少なくとも１つを含む解析装置。
　請求項１０から１２のいずれか１項に記載の解析装置において、
　前記予め定義された複数の動きは、静止している、及び、徘徊している、の中の少なくとも１つを含む解析装置。
　コンピュータが、
　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶しておき、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得工程と、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索工程と、
を実行する検索方法。
　コンピュータを、
　動画から抽出された１つ又は複数の物体の種類と、前記物体の動きとを対応付けた対応情報を含む動画インデックス情報を記憶する記憶手段、
　検索対象の１つまたは複数の前記物体の種類と、前記物体の動きとを対応付けた検索キーを取得する取得手段、
　前記検索キーに基づき、前記動画インデックス情報を検索する検索手段、
として機能させるプログラム。
　コンピュータが、
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御工程と、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付工程と、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信工程と、
を実行する端末装置の動作方法。
　コンピュータを、
　予め定義された複数の動き各々を示す複数のアイコンを選択可能に表示するアイコン表示エリアと、検索キーの入力を受付ける入力エリアとを有する検索画面をディスプレイに表示させる表示制御手段、
　複数の前記アイコンのいずれかを前記入力エリアに移動させる操作を受付け、前記入力エリアに位置する前記アイコンが示す動きを前記検索キーとして受付ける入力受付手段、
　前記検索キーを検索装置に送信するとともに、前記検索装置から検索結果を受信する送受信手段、
として機能させるプログラム。
　コンピュータが、
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出工程と、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断工程と、
　前記検出工程で検出された前記物体の種類と、前記判断工程で判断された前記物体各々の動きとを対応付けて登録する登録工程と、
を実行する解析方法。
　コンピュータを、
　複数種類の物体各々の外観の特徴を示す情報に基づき、動画から前記物体を検出する検出手段、
　検出された前記物体が、予め定義された複数の動きのいずれに該当するかを判断する動き判断手段、
　前記検出手段により検出された前記物体の種類と、前記判断手段により判断された前記物体各々の動きとを対応付けて登録する登録手段、
として機能させるプログラム。