JPWO2014065033A1 - Similar image search device - Google Patents
Similar image search device Download PDFInfo
- Publication number
- JPWO2014065033A1 JPWO2014065033A1 JP2014543185A JP2014543185A JPWO2014065033A1 JP WO2014065033 A1 JPWO2014065033 A1 JP WO2014065033A1 JP 2014543185 A JP2014543185 A JP 2014543185A JP 2014543185 A JP2014543185 A JP 2014543185A JP WO2014065033 A1 JPWO2014065033 A1 JP WO2014065033A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- key
- search
- frame
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7335—Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Abstract
動画から検索キー画像(顔)を指定する際の繰返し操作を簡素化する。顔をクリックすると、自動的に1コマ進めた画像に対して顔検出処理を行うことで、次々に当該人物を選択でき、当該人物が時間的に連続に登場する場面をビューア操作せず選択できるようにした。なお、当該人物が検出されない(例えば前の人と重なる)とき『次ボタン』を押す。別の例として、顔を1つ指定すると、指定画像の近傍(例えば5秒前〜5秒後までの10秒間)の顔検出結果が全て表示され、その中から当該人物の顔をユーザが指定することでビューア操作せず一連の人物の複数画像を指定できるようにした。更に別の例として、自動的に人物追跡された結果を操作端末に表示することで、自動的に人物追跡された結果に間違いが無いかユーザが判定でき、間違いがあれば修正できるようにした。Simplify the repetitive operation when specifying a search key image (face) from a video. When a face is clicked, the face detection processing is automatically performed on the image advanced by one frame, so that the person can be selected one after another, and scenes where the person appears continuously in time can be selected without operating the viewer. I did it. When the person is not detected (for example, overlaps with the previous person), the “next button” is pressed. As another example, when one face is specified, all face detection results in the vicinity of the specified image (for example, 10 seconds from 5 seconds before to 5 seconds) are displayed, and the user specifies the face of the person from among them. By doing so, you can specify multiple images of a series of people without operating the viewer. As another example, the result of automatically tracking the person is displayed on the operation terminal, so that the user can determine whether the result of the automatically tracked person is correct and correct it if there is an error. .
Description
本発明は、類似画像検索装置に係り、特に、動画像の中から所望の複数の検索キーを指定して検索を行う類似画像検索装置に関する。 The present invention relates to a similar image search apparatus, and more particularly to a similar image search apparatus that performs a search by designating a plurality of desired search keys from a moving image.
従来、監視カメラ等で撮影され或いは記録された映像(動画像)の中から、所望の人物を画像認識技術等を用いてコンピュータに検索させる人物検索システムが知られる(例えば、特許文献1乃至4参照。)。このような、タグ付け等の外部情報に拠らずに画像そのものの特徴に基づき検索する技術は、一般にCBIR(Content-Based Image Retrieval)と呼ばれる。
特許文献1乃至4が用いる画像認識技術は、画像から人物(の顔)が映った部分を切出し、人物を個々に特定するための特徴量として色ヒストグラム等を抽出し、この特徴量が所望の人物のものと類似する場合に、同一人物であると推定するものである。2. Description of the Related Art Conventionally, there has been known a person search system that allows a computer to search for a desired person using video recognition technology or the like from video (moving images) shot or recorded by a surveillance camera or the like (for example,
The image recognition techniques used in
このような類似顔画像検索システムでは、検索の精度はキー画像の条件、例えば表情、顔の向き、照明の当たり方、顔の検出(切出し)のズレ具合)に影響され、キー画像での条件と近いものが、検索結果として出てくることが多い。
一方で、ユーザは検索キーに指定した人物を、そのような条件に影響されずに検索できることを望む。このような場合ユーザは、指定された複数のキー画像についてキー画像を1つずつ用いて検索しそれらの結果を結合して表示する複数キー検索機能を利用することができる。すなわち、最初に、所望の人物画像(1枚でよい)をキー画像にして検索する。その検索結果を確認し、同一人物の画像が含まれていれば、次にその画像に前後する画像からなる動画の1コマずつをキー画像に指定して、上記複数キー検索機能を用いて再度検索する。これにより様々な条件の画像を見つけられる可能性が向上する。In such a similar face image search system, the accuracy of search is affected by key image conditions, such as facial expressions, face orientation, lighting conditions, and face detection (cutout) misalignment). Often appear as search results.
On the other hand, the user desires to be able to search for the person specified by the search key without being affected by such conditions. In such a case, the user can use a multiple key search function for searching for a plurality of designated key images using one key image at a time and combining and displaying the results. That is, first, a desired person image (one image is sufficient) is searched as a key image. Check the search results, and if images of the same person are included, then designate each frame of a moving image consisting of images before and after that image as a key image and use the multiple key search function again. Search for. This improves the possibility of finding images with various conditions.
上述したとおり、最善の 検索を期待するユーザは、検索したい人物の画像を既得の動画中からできるだけ多く特定し、それらを全てキー画像に指定し、未特定の画像を検索しようとする。このとき、既得動画中に検索対象人物が1回(1コマ或いは複数コマ連続する1シーン)しか映っていないことが保証されている場合(例えば、一人ずつしか通過できないレーン等で通過に同期して撮影するような運用など)は、容易に動画中の当該人物の全ての画像を自動的に選択できる。
一方、通常の防犯カメラ映像のように、検索対象人物が複数回映る可能性があり、更にそれらの画像において他の人物も一緒に映る可能性がある場合は、ユーザは動画の1コマずつをコマ送りする再生装置の操作をマウスクリックで行った後、画像指定ボタンを押して顔検出させ、顔検出結果の含まれた複数の顔から探したい人物の顔をマウスクリックして指定するという3つの手順を、画像の枚数だけ繰り返す必要があり非常に手間がかかる。As described above, a user who expects the best search specifies as many images of a person who wants to search as possible from the already obtained moving images, designates all of them as key images, and tries to search for unspecified images. At this time, if it is guaranteed that the search target person is shown only once (one scene or one scene in which a plurality of frames are consecutive) in the acquired video (for example, synchronized with passing in a lane or the like in which only one person can pass). Operation such as shooting) can easily select all the images of the person in the video automatically.
On the other hand, if there is a possibility that the search target person appears multiple times as in normal security camera video, and there is a possibility that other persons will also be shown together in those images, the user can view each frame of the video. After operating the playback device for frame advance by mouse click, press the image designation button to detect the face, and specify the face of the person you want to search from the multiple faces that contain the face detection result by clicking with the mouse It is necessary to repeat the procedure as many times as the number of images, which is very troublesome.
この問題を図8、図9を参照して詳述する。図8は、従来の端末装置103に表示される検索画面400を示す図である。
図8の検索画面400は、再生画像表示領域301、画像再生操作領域303、検索キー画像指定領域304、検索絞込パラメータ指定領域308、検索実行領域317、及び、検索結果表示領域320よりなる。
画像再生操作領域303は、録画装置に記録された画像を再生操作する領域である。画像再生操作領域303を構成する各ボタンには、それぞれ固有の再生種類が割当てられており、例えば左から、巻戻し、コマ戻し、逆再生、再生停止、順再生、コマ送り、早送りの再生種類が割当てられている。ユーザが各ボタンをマウス282で適宜押下することにより、ボタンに割当てられた再生種類で再生画像表示領域301に動画302が再生される。This problem will be described in detail with reference to FIGS. FIG. 8 is a diagram showing a search screen 400 displayed on the conventional terminal device 103.
8 includes a reproduction
An image
検索キー画像指定領域304は、検索キー画像の指定と表示を行う領域である。本領域は、キー原画像305と、画像指定ボタン306、ファイル読込ボタン307よりなる。
キー原画像表示部305は、類似検索のためのキー画像或いはその元となる画像(キー原画像と呼ぶ)を表示する領域である。初期状態においては検索キー原画像は未指定であるので、画像表示はされていない。
画像指定ボタン306は、画像再生操作領域303に現在表示されている動画302をキー原画像に指定するボタンである。例えば動画302を再生停止状態にし画像指定ボタン306を押すと、そのときの画像がキー原画像に指定され、キー原画像表示部305にも表示される。キー原画像が新たに表示される都度、必要に応じ顔検出処理が実行され、検出された顔を切出す際の枠が自動的に付加される。枠は、初期的には(複数あるときは全て)非選択状態となっている。枠の1つを選択すると、キー画像(キー顔)の指定が完了する。
ファイル読込ボタン307は、録画装置102に記録されている画像以外の画像、例えば、デジタルカメラで撮影した画像やスキャナで取込んだ画像や動画像を、画像再生操作領域303に表示させるボタンである。このファイル読込ボタン307を押下すると、ファイルを開くダイアログボックスが表示され、そこで指定したファイルが読み込まれ、画像再生操作領域303で再生可能な状態になるか、自動的に再生が始まる。ファイルが静止画であれば、そのままキー原画像に指定されたことになり、キー原画像表示部305に表示される。A search key
The key original
The
The
検索絞込パラメータ指定領域308は、検索の際の絞込パラメータの種類とその値(範囲)を指定する領域である。本領域は、撮像装置指定チェックボックス309,310,311,312と、時刻指定チェックボックス313、314、時刻指定欄315、316から構成する。
撮像装置指定チェックボックス309,310,311,312は、検索の際に検索対象とする撮像装置を指定するボタンである。本ボタンは、押下すると選ばれたことを示すチェックマークがそれぞれ表示される。このマークは再押下すると非表示となり、押下で表示・非表示を繰り返す。初期状態においては、全撮像装置を検索対象とするため、撮像装置指定チェックボックスは全て選択状態となる。
時刻指定チェックボックス313,314は、検索の際に検索対象とする時刻範囲を指定するボタンである。表示の態様については本ボタンも他のチェックボックスと同様である。時刻指定チェックボックス313を選択状態にした場合には時刻範囲に先頭時刻を与える。非選択状態にした場合には、時刻範囲に先頭時刻を与えない、すなわち、録画装置に記録された最も古い時刻の画像までを検索対象範囲とすることを意味する。時刻指定チェックボックス314も同様であり、これを非選択状態にした場合には、録画装置に記録された最も新しい時刻の画像までを検索対象範囲とすることを意味する。
時刻指定欄315、316は、上述の先頭時刻と末尾時刻の値を指定する入力欄である。
初期状態においては、全時間帯を検索対象とするため、時刻指定チェックボックスは全て非選択状態、時刻指定欄は空欄とする。The search refinement
The imaging device
The time
The
In the initial state, since all time zones are to be searched, all the time specification check boxes are not selected and the time specification column is blank.
検索実行領域317は、検索実行を指示する領域である。本領域は、類似人物検索ボタン318と登場イベント検索ボタン319よりなる。
類似人物検索ボタン318は、キー原画像表示部305による類似人物検索実行を指示するボタンである。検索絞込パラメータ指定領域308にてパラメータが指定されている場合には、指定されたパラメータに従って検索の実行をすることを指示する。
登場イベント検索ボタン319は、登場イベント検索実行を指示するボタンである。通常、監視カメラシステム等では、動き検出や人感センサ発報、入退出管理等の他システムからの通知等のイベントを映像と間接的に対応付けて記録したり、映像の記録自体もそれらの発報があったときだけ行ったりしており、これらをイベント記録などと呼んでいる。登場イベント検索は、記録された各種イベントの内、人物の顔が正面方向から撮影されることが期待できるイベントに対応付けられた映像のみを、検索対象とするものである。検索絞込パラメータ指定領域308にてパラメータが指定されている場合には、指定されたパラメータに従って検索の実行をすることを指示する。The
The similar
The appearance
図9は、操作画面400で、動画の1コマずつを複数のキー画像として検索するための各手順の操作を示す図である。動画の1コマずつを複数のキー画像として検索したい場合、ユーザはまず、画像再生操作領域303を使用して、キー画像に使いたい動画の先頭の画像を再生画像表示領域301に表示させる(手順1と呼ぶ)。次に、画像指定ボタン306を押す(手順2と呼ぶ)。次に、キー原画像表示部305に表示されている顔画像を示す矩形の中から、検索キーにしたい顔をマウスで指定する(手順3と呼ぶ)。すると端末装置103の内部で、このときの画像(のID)と指定した顔の領域の情報が保持される。保持した情報は、人物検索ボタン318が押されるまで蓄積され、次にユーザは画像再生操作領域303のコマ送り機能を用いて、動画302を1コマ送る(手順4)。次に先ほどと同様に手順2と手順3を行う。以降、動画の1コマずつを複数のキー画像として検索するための末尾の画像になるまで、手順2、手順3、手順4を繰り返す。
この、手順2、手順3、手順4の繰り返しがユーザにとって非常に面倒な作業であるという課題がある。FIG. 9 is a diagram showing operations of each procedure for searching for each frame of a moving image as a plurality of key images on the operation screen 400. When searching for each frame of a moving image as a plurality of key images, the user first displays the first image of the moving image to be used as a key image in the replay
There is a problem that the repetition of the
本発明は、このような問題に鑑みてなされたものであり、単調な繰り返し作業を自動化により排除し、一般ユーザに使い易いユーザインターフェースを提供することを目的とする。 The present invention has been made in view of such a problem, and an object thereof is to provide a user interface that is easy to use for general users by eliminating monotonous repetitive work by automation.
本発明を概略的に述べると、本発明の一側面では、顔をクリックすると1コマ進めた画像に対して顔検出処理を行うことで、次々に当該人物を選択でき、当該人物が時間的に連続に登場する場面をビューア操作せず選択できるようにした。なお、当該人物が検出されない(例えば前の人と重なる)とき『次ボタン』を押す。 Briefly describing the present invention, in one aspect of the present invention, when a face is clicked, a face detection process is performed on an image advanced by one frame, whereby the person can be selected one after another. The scenes that appear continuously can be selected without operating the viewer. When the person is not detected (for example, overlaps with the previous person), the “next button” is pressed.
本発明の他の側面では、顔を1つ指定すると、指定画像の近傍(例えば5秒前〜5秒後までの10秒間)の顔検出結果が全て表示され、その中から当該人物の顔をユーザが指定することでビューア操作せず一連の人物の複数画像を指定できるようにした。 In another aspect of the present invention, when one face is specified, all face detection results in the vicinity of the specified image (for example, 10 seconds from 5 seconds before to 5 seconds after) are displayed, and The user can now specify multiple images of a series of people without operating the viewer.
本発明の他の側面では、自動的に人物追跡された結果を操作端末に表示することで、自動的に人物追跡された結果に間違いが無いかユーザが判定でき、間違いがあれば修正できるようにした。例えば、自動判定された一連の人物の顔を太枠に、その他を破線枠で区別して表示する。 In another aspect of the present invention, the result of automatically tracking the person is displayed on the operation terminal, so that the user can determine whether or not the result of the automatically tracked person is correct. I made it. For example, a series of automatically determined human faces are displayed in a bold frame and others in a broken line.
本発明のより具体的な一側面では、カメラで撮影し記録した動画像から、所定の被写体が映った部分画像をキーとして指定し、指定された該部分画像の特徴量に近い特徴量を有する画像を検索する類似画像検索装置において、
動画像の中から所望の1コマを指定するためのプレビューを提供する手段と、
前記プレビューされた1コマをキー原画像に指定する操作を受付ける手段と、
前記受付ける手段で指定された1コマに時間的に近傍の複数コマを、自動的にキー原画像に追加指定する手段と、
前記受付ける手段或いは前記追加指定する手段でキー原画像に指定された1ないし複数コマを、該1ないし複数コマから所定のアルゴリズムで検出された被写体に対応する領域を示す図形を付加して表示する手段と、
付加された前記図形の初期状態を非選択状態とし、1つのコマに対しいずれか1つの図形を選択状態とする操作を受付ける選択手段と、
選択状態となった前記図形に対応する複数の被写体をキーとする検索を要求する手段と、を有する。In a more specific aspect of the present invention, a partial image showing a predetermined subject is specified as a key from a moving image photographed and recorded by a camera, and has a feature amount close to the specified feature amount of the partial image. In a similar image search device for searching for an image,
Means for providing a preview for designating a desired frame from a moving image;
Means for accepting an operation of designating one previewed frame as a key original image;
Means for automatically specifying a plurality of frames that are temporally adjacent to one frame specified by the receiving means to be added to the key original image;
One or more frames designated as the key original image by the accepting means or the additional designation means are displayed with a figure indicating an area corresponding to the subject detected from the one or more frames by a predetermined algorithm. Means,
A selection means for accepting an operation of setting one of the graphics to a selected state for one frame, with the initial state of the added figure being a non-selected state;
Means for requesting a search using a plurality of subjects corresponding to the figure in the selected state as a key.
上記の類似画像検索装置において、前記被写体は人の顔であり、前記特徴量は、前記動画像から自動的に検出された前記被写体ごとに予め抽出され、該自動的に検出された元の画像に対応付けて記録されており、更に、前記要求する手段からの要求を受けて、前記選択状態となった前記図形に対応する複数の被写体は同一人物であると看做して、該複数の被写体に対応する複数の特徴量を1つずつキーとして検索し、それら結果を結合して応答する検索実行手段を設けてもよい。 In the similar image search device, the subject is a human face, and the feature amount is extracted in advance for each subject automatically detected from the moving image, and the automatically detected original image In response to a request from the requesting means, the plurality of subjects corresponding to the figure in the selected state are regarded as the same person, and the plurality of subjects There may be provided search execution means for searching a plurality of feature amounts corresponding to the subject one by one as a key and combining and responding to the results.
上記の類似画像検索装置において、前記表示する手段は、受付ける手段で指定された1コマに対し、前記図形を付加して、キー原画像表示領域に表示するものであり、
前記選択手段がキー原画像表示領域に表示された前記図形に対する前記選択状態とする操作を受付けるか、或いは、所定のボタンの1回の押下のみに応じて、前記追加指定する手段が、そのとき前記キー原画像表示領域に表示されていた1コマに続く次のコマをキー原画像に追加指定することで、自動的に該次のコマが前記キー原画像表示領域に表示され、再び前記選択手段が操作を受付けるという動作を繰り返し、要求する手段は、該繰り返しの間に選択状態にされた複数の前記図形に対応する複数の被写体を前記キーとするように構成してもよい。In the similar image search device, the display means adds the figure to one frame designated by the receiving means and displays the figure in the key original image display area.
The selection means accepts an operation for setting the selected state for the graphic displayed in the key original image display area, or the additional designation means in response to a single press of a predetermined button, By specifying the next frame following the one frame displayed in the key original image display area to be added to the key original image, the next frame is automatically displayed in the key original image display area, and the selection is again made. The means for repeatedly requesting the operation of the means may be configured so that a plurality of subjects corresponding to the plurality of figures selected during the repetition are used as the key.
上記の類似画像検索装置において、追加指定する手段は、前記受付ける手段により前記1コマをキー原画像に指定する操作が受付けられた後、自動的に或いは所定のボタンの1回の押下のみに応じて、前記受付ける手段で指定された1コマに時間的に前または後に連続する複数コマのうち、少なくとも被写体が検出された複数コマをキー原画像に追加指定し、前記表示する手段は、前記追加指定する手段で指定された複数のキー原画像を、夫々に前記図形を付加して指定済キー表示領域に表示するものであり、前記選択手段が、前記指定済キー表示領域に表示された複数のキー原画像に対する、前記図形を前記選択状態とする操作を複数受付け、前記要求する手段が、前記選択状態にされた複数の前記図形に対応する複数の被写体を前記キーとするように構成してもよい。 In the above similar image search device, the additional designating means may be in response to an operation of designating the one frame as a key original image by the accepting means, automatically or only by pressing a predetermined button once. The additional means designates a plurality of frames in which at least a subject is detected among a plurality of frames that are temporally before or after the one frame designated by the accepting means, and the means for displaying the key images further comprises: A plurality of key original images designated by the designating means are displayed in the designated key display area with the figure added thereto, respectively, and the selection means displays a plurality of key images displayed in the designated key display area. A plurality of operations for setting the graphic to the selected state with respect to the key original image of the key, and the requesting means selects a plurality of subjects corresponding to the plurality of the graphic in the selected state as the key. It may be configured to be.
上記の類似画像検索装置において、前記表示する手段は、受付ける手段で指定された1コマに対し、前記図形を付加して、キー原画像表示領域に表示するものであり、
前記自動追加手段は、前記選択手段が前記キー原画像表示領域に表示された前記図形に対する前記選択状態とする操作を受付けた後の所定のボタンの1回の押下のみに呼応して、該選択状態にされた前記図形に対応する被写体を起点として、記録された動画像の中から当該被写体に時空間的連続性を満たす被写体を追跡し、当該追跡が成功した範囲の複数のコマをキー原画像に追加指定するものであり、前記表示する手段は、前記追加指定する手段で指定された複数のキー原画像を、夫々に前記図形を付加して指定済キー表示領域に表示するように構成してもよい。In the similar image search device, the display means adds the figure to one frame designated by the receiving means and displays the figure in the key original image display area.
The automatic adding means responds only to a single press of a predetermined button after the selection means accepts an operation for making the selected state for the graphic displayed in the key original image display area, and the selection means Starting from the subject corresponding to the figure in the state, the subject that satisfies the spatio-temporal continuity from the recorded moving image is tracked, and a plurality of frames in the range in which the tracking is successful are recorded as key sources. The display means is configured to be additionally specified, and the display means is configured to display a plurality of key original images specified by the additional specification means in the specified key display area with the figure added thereto, respectively. May be.
本発明によれば、動画からの複数の検索キーの指定を自動もしくは半自動で行うようにしたので、簡単な操作で精度の高い検索を行うことができる。 According to the present invention, since a plurality of search keys are specified automatically or semi-automatically from a moving image, a highly accurate search can be performed with a simple operation.
以下、本発明に係る一実施形態について図面を参照して説明する。なお、各図の説明において、実質的に同一な機能を有する構成要素には同一の参照番号を付し、説明を省略する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the description of each figure, components having substantially the same function are denoted by the same reference numerals and description thereof is omitted.
まず、図1〜図4を参照して、本発明の一実施形態に係る類似画像検索システムの構成について説明する。図1には、本発明の一実施形態に係る類似画像検索システムのシステム構成を例示してある。
類似画像検索システムは、図1に示すように、ネットワーク200に、撮像装置201、録画装置102、端末装置103が接続され、互いに通信可能な状態で構成される。First, the configuration of a similar image search system according to an embodiment of the present invention will be described with reference to FIGS. FIG. 1 illustrates a system configuration of a similar image search system according to an embodiment of the present invention.
As shown in FIG. 1, the similar image search system is configured such that an
ネットワーク200は、データ通信を行う専用ネットワークやイントラネット、インターネット、無線LAN(Local Area Network)等の各装置を相互に接続して通信を行う通信手段である。
撮像装置201は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等で撮像した画像にデジタル変換処理を施し、変換結果の画像データを、ネットワーク200を介して録画装置へ出力するネットワークカメラや監視カメラ等の装置である。The
The
録画装置102は、ネットワーク200を介して撮像装置201より入力された画像データをHDD等の記録媒体に記録するネットワークビデオレコーダ等の装置である。また人物検索のための殆どの機能も搭載される。
録画装置102は、機能構成として、画像送受信部210、画像記録部211、再生制御部212、人物領域検出部213、人物特徴量抽出部214、人物特徴量記録部215、属性情報記録部216、要求受信部217、類似人物検索部218、登場イベント検索部219、検索結果送信部220を有する。The recording apparatus 102 is an apparatus such as a network video recorder that records image data input from the
The recording apparatus 102 has an image transmission /
画像送受信部210は、装置外部からの画像の入出力を行う処理部であり、撮像装置201からの画像データの受信、端末装置103への画像データの送信等を行う。
画像記録部211は、画像データの記録媒体への書込みや読出しを行う。書込みの際には、画像データに加え、画像データを読出す際の情報となる画像ID(画像の識別情報)も併せて記録する。
再生制御部212は、端末装置103への映像(ストリーム)再生を制御する。The image transmission /
The image recording unit 211 writes and reads image data to and from a recording medium. At the time of writing, in addition to the image data, an image ID (image identification information) serving as information for reading the image data is also recorded.
The playback control unit 212 controls video (stream) playback to the terminal device 103.
人物領域検出部213は、撮像装置201から受信した画像データに対し画像認識技術を用いた人物検出を行い、画像中の人物の存在判定をし、人物が存在する場合には、その顔を基準にして所定条件で顔の周囲まで含む、所定の縦横比を有する矩形の領域の座標算出を行う。
人物特徴量抽出部214は、人物領域検出部213で検出した領域に対して画像認識技術を用いて特徴量算出を行う。ここで算出する人物特徴量とは、静止画から抽出可能なものであり、例えば、検出した領域を一定サイズにスケーリングし、一律に分割した画素ブロック毎に色や輝度、あるいはそれらの勾配やテクスチャのヒストグラムを求め、その結果を集約した多次元ベクトルである。このようなappearance-baseの認識のほか、3次元形状を復元して認識するもの、例えば、顔の骨格に強く依存する輪郭や目や鼻、口に対応する特徴点の相対的配置関係を3次元上で判断するものが挙げられるが、本実施形態においては、使用する特徴量の種類や数はいずれであってもよい。特徴量の次元を減らすため、Linde-Buzo-Gray法などベクトル量子化の手法を用いることができる。ヒストグラムベースの特徴量であれば、画素ブロック1つ分を大津の2値化手法により最終的に2色で近似するBlock Truncation Codingを用いても良い。The person area detection unit 213 performs person detection using image recognition technology on the image data received from the
The person feature
人物特徴量記録部215は、人物特徴量抽出部214で算出した特徴量の記録媒体への書込みと読出しを行う。大量の特徴量の中から高速に検索するために、特徴量はクラスタに分類され、それに応じ記録構造(ツリーや辞書の構成やHDD上のセクタ配置等)も最適化される。簡易的には、単純な規則のハッシュ関数で分類し、ハッシュ値と記録先を対応付ける辞書を作り、1分類に属する特徴量の数が増えすぎたときには、さらに階層を増やして細かく分類する方法がある。このほかEM法など各種の最適化アルゴリズムが知られる。
属性情報記録部216は、個々の画像データに関連する属性情報の記録媒体への書込みと読出しを行う。属性情報とは、例えば、画像の撮影時刻や撮像装置番号、各種イベントのフラグ、人物領域検出部213で検出した領域の座標等である。The person feature amount recording unit 215 writes and reads the feature amount calculated by the person feature
The attribute
要求受信部217は、端末装置103からの検索要求の受信を行う。検索要求には、類似画像検索要求と、登場イベント検索要求がある。
類似人物検索部218は、要求受信部217にて受信した要求が類似人物検索要求であった場合に、類似画像検索を行う。基本的には、両者の特徴量ベクトルの差(ノルム)が小さいほど類似していると判断する。ヒストグラムベースの特徴量の場合、非特許文献1に記載のHistogram Intersectionにより1乃至複数ブロック分の類似度を求め、これらを重み付き加算したものを類似度とすることができ、この類似度が所定値以上のものを検索結果として出力する。
登場イベント検索部219は、要求受信部にて受信した要求が登場イベント検索要求であった場合に、登場イベント検索を行う。
検索結果送信部220は、類似人物検索部218や登場イベント検索部219から得た類似人物検索結果や登場イベント検索結果の端末装置103への送信を行う。The
The similar
The appearance
The search
端末装置103は、実際に検索を行う画像記録部211とユーザと間のインターフェースとなる装置であり、ネットワーク機能を有する一般のPC(パーソナルコンピュータ)で実現してもよい。
端末装置103は、機能構成として、検索要求送信部221、検索結果受信部222、検索結果表示部223、再生画像表示部224、画面操作検知部225の各処理部を有する。The terminal device 103 is a device serving as an interface between the image recording unit 211 that actually performs the search and the user, and may be realized by a general PC (personal computer) having a network function.
The terminal device 103 includes processing units such as a search request transmission unit 221, a search result reception unit 222, a search result display unit 223, a reproduction
検索要求送信部221は、検索要求の録画装置102への送信を行う。類似人物検索の場合、キー画像(キー顔)が指定されるたびにそれを蓄積し、その後類似人物検索ボタン318等が押されたときに、蓄積した1乃至複数の検索キー画像と、絞込みパラメータとを含む検索要求(クエリ)を送信するとともに、蓄積したキー画像をクリアする。なお、キー画像の蓄積や送信は、キー画像の画像データそのものではなく、その特徴量、或いはそれが抽出された原画像のIDと原画像内での位置情報の組等を用いてすることもできる。また送信したキー画像は別途、検索履歴として保存してもよい。
検索結果受信部222は、検索結果の録画装置102からの受信を行う。検索結果として受信するデータには、録画装置102において、類似人物検索、或いは、登場イベント検索を実施して得られた画像の集合が含まれる。集合を構成する個々の画像は、録画装置102に記録された映像から画像サイズ縮小処理等を施して生成される。以下、この個々の画像を「検索結果画像」、検索結果として送受信するデータを「検索結果データ」という。
検索結果表示部223は、検索結果受信部222にて受信した検索結果の画面表示を行う。表示される画面例については後述する。
再生画像表示部224は、DirectShow(商標)等を利用して、録画装置102から受信したされた画像データの復号や画面への再生(動画表示)を行う。
画面操作検知部225は、ユーザによる操作内容の検知及び取得を行う。The search request transmission unit 221 transmits a search request to the recording device 102. In the case of a similar person search, a key image (key face) is stored every time it is specified, and when the similar
The search result receiving unit 222 receives the search result from the recording device 102. The data received as the search result includes a set of images obtained by performing similar person search or appearance event search in the recording apparatus 102. Individual images constituting the set are generated by performing image size reduction processing or the like from the video recorded in the recording device 102. Hereinafter, each individual image is referred to as a “search result image”, and data transmitted and received as a search result is referred to as “search result data”.
The search result display unit 223 displays a screen of the search result received by the search result receiving unit 222. An example of the displayed screen will be described later.
The reproduced
The screen
図2には、本発明の一実施形態に係る類似画像検索システムに用いる撮像装置201のハードウェア構成を例示してある。
撮像装置201のハードウェア構成は、図2に示すように、撮像部241、主記憶部242、符号化部243、ネットワークインタフェース(I/F)245が、バス240で結合された形態である。FIG. 2 illustrates a hardware configuration of the
As shown in FIG. 2, the hardware configuration of the
撮像部241は、レンズで撮像した光信号をデジタルデータに変換する。符号化部243は、撮像部241が出力するデジタルデータを符号化して、JPEG(Joint Photographic Experts Group)などの画像データに変換する。主記憶部242は、撮像したデジタルデータ、符号化された画像データを記憶する。ネットワークI/F245は、ネットワーク200を介して、主記憶部242上の画像データを録画装置102に送信するためのインタフェースである。
The
図3には、本発明の一実施形態に係る類似画像検索システムに用いる録画装置102のハードウェア構成を例示してある。
録画装置102のハードウェア構成は、図3に示すように、CPU(Central Processing Unit)251、主記憶部252、補助記憶部253、ネットワークI/F254が、バス250で結合された形態である。FIG. 3 illustrates a hardware configuration of the recording apparatus 102 used in the similar image search system according to the embodiment of the present invention.
As shown in FIG. 3, the hardware configuration of the recording apparatus 102 is a form in which a CPU (Central Processing Unit) 251, a
CPU251は、録画装置102の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部252は、DRAM(Dynamic Random Access Memory)などの半導体装置で実現され、検索のための画像データやCPU251で実行するプログラムをロードして格納するための中間的なメモリである。補助記憶部253は、HDDやフラッシュメモリなどで実現され、主記憶部252より大容量のメモリであり、画像データやプログラムを格納する。ネットワークI/F254は、ネットワーク200を介して、撮像装置201からの画像データを受信したり、端末装置103から検索キーワードを受信したり、端末装置103に画像データを送信するためのインタフェースである。
The
図4には、本発明の一実施形態に係る類似画像検索システムに用いる端末装置103のハードウェア構成を例示してある。
端末装置103のハードウェア構成は、図4に示すように、CPU261、主記憶部262、補助記憶部263、表示I/F264、入出力I/F265、ネットワークI/F266が、バス260で結合された形態である。また、表示I/F264は、表示装置270と接続され、入出力I/F265は、キーボード280やマウス282などの入出力装置と接続される。FIG. 4 illustrates a hardware configuration of the terminal device 103 used in the similar image search system according to the embodiment of the present invention.
As shown in FIG. 4, the hardware configuration of the terminal device 103 includes a
CPU261は、端末装置103の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部262は、DRAMなどの半導体装置で実現され、表示のための画像データやCPU261で実行するプログラムをロードして格納するための中間的なメモリである。補助記憶部263は、HDDやフラッシュメモリなどで実現され、主記憶部262より大容量のメモリであり、検索キーワード、画像データやプログラムを格納する。表示I/F264は、表示装置270と接続するためのインタフェースである。入出力I/F265は、キーボード280やマウス282などの入出力装置と接続するためのインタフェースである。ネットワークI/F266は、ネットワーク200を介して、録画装置102からの画像データを受信したり、録画装置102に検索キーワードを送信したりするためのインタフェースである。表示装置270は、例えば、LCD(Liquid Crystal Display)などの装置であり、画像や動画をその表示部に表示する装置である。ユーザは、表示装置270の表示部に表示された画像を、キーボード280やマウス282などの入出力装置を操作して、例えばGUI(Graphical User Interface)操作することによって、端末装置103、及び、類似画像検索システムを操作する。
The
次に、本発明の実施形態に係る類似画像検索システムにおける複数キー画像検索を、実施例1乃至3により説明する。 Next, multiple key image search in the similar image search system according to the embodiment of the present invention will be described with reference to Examples 1 to 3.
本発明の実施形態である類似画像検索システムの実施例1を、図5を参照して説明する。
図5は、実施例1の端末装置103に表示される検索画面300を示す図である。本例の検索画面300は、新たに、次ボタン321を設けた点などで従来と異なる。Example 1 of the similar image search system according to the embodiment of the present invention will be described with reference to FIG.
FIG. 5 is a diagram illustrating a
本例の検索画面300を用いて、ユーザが動画の1コマずつを複数のキー画像として検索するための手順は、おおよそ以下のようになる。
まず、従来と同様に手順1を行う。つまり、画像再生操作領域303を使用して、キー画像に使いたい動画の先頭の画像(或いは任意の動画中の画像)を再生画像表示領域301に表示させる。なお、記録装置201に記録された動画の中からカメラや時刻を指定して再生するには、監視カメラシステムの分野で一般的な技術を使用すればよい。
次に、従来と同様に手順2を行う。つまり、画像指定ボタン306を押すことで、そのとき表示されている動画302(先頭の画像である)が、キー原画像として取り込まれ、検索キー画像指定領域304にキー原画像305として表示される。Using the
First,
Next,
次に、手順3として、表示されているキー原画像305中で、検索キーにしたい顔があれば、それを従来の手順3同様にマウス226で指定し、検索キーにしたい顔がなければ、次ボタン321を押す。
顔を指定した瞬間、このときの画像と指定した顔の領域の情報が端末装置103内に保持される。あるいは、顔画像の特徴量を(適宜端末装置103内で算出して)保持してもよい。保持したのち、端末装置103は、キー原画像305を1コマ進めたものに更新して検索キー画像指定領域304に表示する。次ボタン321を押した場合は、保持をせずにキー原画像305を1コマ進めたものに更新する。Next, as
At the moment when the face is designated, information on the image at this time and the designated face area is held in the terminal device 103. Or you may hold | maintain the feature-value of a face image (calculating suitably in the terminal device 103). After the holding, the terminal device 103 updates the key
ユーザはこの後、所望の人物が画像に映っている間、手順3のみを繰り返せばよく、手順2と4が省略できる。なお、本例を最も簡易に実装する方法は、ユーザのする操作と同じキーコードやマウスイベントを発生させる方法(エミュレーション)である。
Thereafter, the user only has to repeat the
以下、本例の処理の一例を詳細に説明する。本例の実現に当り、顔検出や顔画像の特徴量の計算を何時何処で行うか、コマ送り中の画像を伝送し復号するか、等により幾つかの最適実装が考えられ、最も簡易な実装は、ユーザのする操作と同じキーコードやマウスイベントを発生させる方法(エミュレーション)である。以下の説明では、顔検出や特徴量は画像(動画)に埋め込まれた状態で端末装置103にストリーム送信されるものとする。 Hereinafter, an example of the processing of this example will be described in detail. In order to realize this example, some optimal implementations are conceivable depending on when and where the face detection and facial image feature quantity calculation is performed, and whether the image during frame advance is transmitted and decoded. The implementation is a method (emulation) for generating the same key code and mouse event as the user's operation. In the following description, it is assumed that face detection and feature amounts are stream-transmitted to the terminal device 103 in a state where they are embedded in an image (moving image).
従来同様の手順1での処理は次のようになる。MPEGのような動画であれば、RTSPやMRCP(Media Resource Control Protocol)等プロトコルで、録画装置102と端末装置103間でセッションが開始され、端末装置103の再生画像表示部224から再生位置を指定したPLAYメッセージ等を送信して、所望のコマの画像が再生画像表示領域301に表示されているものとする。このとき再生画像表示部224の受信バッファには、所望のコマの後のコマも蓄えられた状態となる。静止画を一枚ずつ伝送する方法であっても、プリフェッチを行うことで同様に蓄えられた状態とする。
動画の場合、再生画像表示部224のDirectShowの入力フィルタ(スプリッタ)が、カメラ名、撮影時刻、画像ID、その画像内での顔領域の通し番号と座標(と特徴量)を取り出して、描画フィルタ及びアプリケーションソフトに渡す。静止画の場合、画像ファイルのヘッダ等に埋め込まれたものを同様に取り出す。入力フィルタはMPEGビデオのエレメンタリストリームを復号フィルタに渡す。
描画フィルタ(レンダラ)は、カメラ名、撮影時刻を文字化および画像化し、それらを復号フィルタで復号された動画(静止画)に重畳して、表示I/F264への描画処理を行う。これにより再生画像表示領域301に動画302が表示される。書出しフィルタ(グラバ)は復号された動画(静止画)を1コマ単位で所定のフォーマットでアプリケーションソフトに渡す。巻戻し等の再生制御はIMediaControlやIMediaSeeking インターフェイスにより行う。巻戻しはSet_Rateメソッドで負の値を与えれば良いが、サポートしていない場合は、SetPositionsメソッドで再生コマを1つずつ指定する。またIBasicVideo インターフェイスのGetCurrentImageメソッドやMultimedia Streaming API等を使うことで書出しフィルタと同様の機能を実現できる。The process in
In the case of a moving image, the DirectShow input filter (splitter) of the reproduction
The drawing filter (renderer) converts the camera name and shooting time into characters and images, superimposes them on the moving image (still image) decoded by the decoding filter, and performs a drawing process on the display I /
従来同様の手順2での処理は次のようになる。つまり、アプリケーションソフトは、画像指定ボタン306が押されたことを画面操作検知部225から通知されると、書出しフィルタ等から受取った1コマ分の画像(動画302として表示されている画像である)に、受取った顔領域の座標に応じた枠の画像を重畳して、表示I/F264へ描画処理を行う。これによりキー原画像305として、動画302に表示されているものと同じ画像が表示される。
The process in the
本例の手順3での処理は次のようになる。つまり、アプリケーションソフトは、検索キー画像指定領域304内でマウス操作があったことを画面操作検知部225から通知されると、マウス操作の座標と、顔領域の枠を表示した座標とを比較し、該当する枠があるか判断する。該当する枠があれば、その枠が選択されたものとしてその枠に対応する顔領域の通し番号と座標(と特徴量)を画像IDとともに配列に保持する。これにより、選択された枠内の部分画像が、指定済キー画像となる。
次にIVideoFrameStepインターフェイスのStepメソッドによりコマを1つ進め、画像、その画像での各顔領域の通し番号と座標(と特徴量)を入力フィルタ等から受取り、上記手順2と同様にキー原画像305として表示する。The processing in
Next, one frame is advanced by the Step method of the IVideoFrameStep interface, and the image and the serial number and coordinates (and feature amount) of each face area in the image are received from the input filter or the like, and the key
なお、本例では操作を極力シンプルにするため、指定済キー画像の一覧や修正(原画像で枠を選択し直すこと)、削除等のインタフェースを明示的には提供しないが、エキスパート向けにこれらを提供することを妨げるものではない。 In this example, in order to simplify the operation as much as possible, an interface such as a list of specified key images, correction (reselecting a frame in the original image), deletion, etc. is not explicitly provided. It does not prevent you from providing.
本発明の実施形態である類似画像検索システムの実施例2を、図6を参照して説明する。なお、実施例1と同様の部分は説明を省略する。
図6は、実施例2における端末装置103で複数キー画像検索を行う際の検索画面330を示す図である。本例の検索画面330は、次ボタン321に代えて近傍全表示ボタン331を備え、また自動的に追加されたキー原画像に対し顔の選択を行う指定済キー表示領域332を更に備えた点などで、実施例1と異なる。Example 2 of the similar image search system according to the embodiment of the present invention will be described with reference to FIG. The description of the same parts as those in the first embodiment will be omitted.
FIG. 6 is a diagram illustrating a
本例の検索画面330を用いて、ユーザが動画の1コマずつを複数のキー画像として指定し検索するための手順は、おおよそ以下のようになる。
まず、実施例1同様に、従来の手順1と手順2を行う。つまり、目的の人物が映った所望の画像(ただし、連続する画像中の最先のものでなくても良い)を再生画像表示領域301に表示させた状態で、画像指定ボタン306を押す。Using the
First, similar to the first embodiment, the
次に、手順3として、近傍全表示ボタン331を押す。すると手順2で画像指定ボタン306を押した時の画像の近傍(例えば5秒前〜5秒後までの10秒間)の動画302のうち1つ以上の顔検出結果を有する画像が、指定済キー表示領域332に全て表示される。図6には3つのキー原画像333、334、335が表示された例を示している。端末装置103は、キー原画像333〜335に、その画像内での顔領域の通し番号と座標に基づいて、顔領域の境界に相当する枠を重畳して表示する。
Next, as
次に、手順4として、指定済キー表示領域332に表示された画像1つずつについて、実施例1の手順3と同様に、目的の人物の顔を選択する。顔を選択すると、その顔に付された枠が、選択状態を示す枠(例えば太枠)に描画しなおされ、また画像IDと指定した顔の領域の情報が端末装置103内に保持される。
なお、目的の人物の顔がない画像は、そのままどの顔も選択せずにおけばよい。また一旦顔選択した画像において、別の顔をクリックすると、その新たにクリックした顔が選択状態、元の顔は非選択状態となり、また新たな顔の領域の情報が保持内容に上書きされる。これにより、類似人物検索ボタン318を押したときに指定済キー表示領域332内で選択状態となっていた顔が、キー画像(キー顔)となる。Next, as
An image without a target person's face may be left without selecting any face. In addition, when another face is clicked in the face-selected image, the newly clicked face is selected, the original face is not selected, and the information of the new face area is overwritten with the stored content. Thus, the face selected in the designated
本例によれば、従来の手順2と手順4の繰り返しを省くことができる。
本例の手順3の処理の詳細を以下、補足する。
アプリケーションソフトは、近傍全表示ボタン331の押下があったことを画面操作検知部225から通知されると、SetPositionsメソッドにより再生位置を例えば5秒前に戻す。またフィルタグラフを操作し、出力ピンをNullレンダラに接続する。また再生レートを可能な限り最高にする。それにより順次、コマの画像(GDIビットマップオブジェクト)、その画像での顔領域の通し番号と座標を受取り、メモリに保持すると共に指定済キー表示領域332に並べて表示する。画像をメモリに保持するのは枠の再選択や指定済キー表示領域332のスクロールで再描画が必要になるからである。もしそうしたほうが処理が速くなるのなら、元のサイズではなく指定済キー表示領域332での表示サイズに縮小して保存してよい。画像ID、顔領域の通し番号と座標は配列などに格納する。
そして10秒分の画像が取り込まれると、再生を停止し、出力ピンを元のレンダラに戻す。
Nullレンダラに接続したことで、この間、再生画像表示領域301への動画301の表示は更新されない。また通常のDirectShowフィルタは上流フィルタのスレッド内で動くので、アプリケーションのスレッドとデッドロックを起こしやすいので、Multimedia Streaming APIを使用して、フィルタグラフから画像データを取り出すことが望ましい。According to this example, the repetition of the
The details of the process of the
When the application software is notified from the screen
When 10 seconds worth of image is captured, playback is stopped and the output pin is returned to the original renderer.
By connecting to the Null renderer, the display of the moving
なお本例では、指定済キー表示領域332にキー原画像(の候補)が多数表示され、ユーザはその中で適宜スクロールしながら、キーにしたい顔を1つずつ選択する。そのため、顔が確認し易いよう、検索キー画像指定領域304に表示する場合と同じサイズで表示するようにしてある。なおキー原画像は、デフォルトを縮小表示(アイコン)としマウス226をそれに合わせることで元のサイズに表示させてもよく、顔を選択し終えた画像から順次、非表示にしても良い。
In this example, a large number of key original images (candidates) are displayed in the designated
本発明の実施形態である類似画像検索システムの実施例3を、図7A、図7Bを参照して説明する。なお、実施例1や2と同様の部分は説明を省略する。
図7Aは、実施例3の端末装置で複数キー画像検索を行う際の検索画面340を示す図である。本例は、指定済キー表示領域332内でのキー画像の指定を更に自動化した点などで、実施例2と異なる。Example 3 of the similar image search system according to the embodiment of the present invention will be described with reference to FIGS. 7A and 7B. The description of the same parts as those in the first and second embodiments will be omitted.
FIG. 7A is a diagram illustrating a
本例の検索画面340を用いて、ユーザが動画の1コマずつを複数のキー画像として指定するための手順は、おおよそ以下のようになる。
まず、実施例2同様に、従来の手順1と手順2を行う。つまり、目的の人物が映った所望の画像を再生画像表示領域301に表示させた状態で、画像指定ボタン306を押す。Using the
First, similarly to the second embodiment, the
次に、手順3として、実施例1同様に、キー原画像表示部305に表示されている原画像中で、顔を示す矩形の中から、検索キーにしたい顔をマウス226で指定する。
次に、手順4として、近傍全表示ボタン331を押す。すると、手順3で指定した顔の人物について、手順3で指定した画像の時間的近傍において人物追跡処理を行い、その結果同一人物とされた顔を含む画像が、時刻順に全て表示される。更に顔検出結果を示す枠のうち、同一人物とされた顔の枠が、自動的に選択状態となる。Next, as a
Next, as
次に、手順5として、指定済キー表示領域332に表示されたキー原画像において、間違って別の人物の顔が選択されていないか確認し、もし間違いがあれば、正しい顔を選択しなおす。それにより、図7Bに示すようにその顔に付された枠が、選択状態を示す枠(例えば太枠)に描画しなおされ、新たな顔の領域の情報が保持内容に上書きされる。これにより、類似人物検索ボタン318を押したときに指定済キー表示領域332内で選択状態となっていた顔が、キー画像(キー顔)となる。
Next, as step 5, in the key original image displayed in the designated
ここで、本例の手順4の詳細を補足する。アプリケーションソフトは、近傍全表示ボタン331の押下の通知を受けると、キー原画像305において選択されている枠があるか否か検査する。選択されている枠があれば、その情報(画像ID、通し番号、座標、特徴量)を配列の先頭などに保存する。そしてSetPositionsメソッド等を用い1つ前のコマを指定し、画像とその画像での顔領域の通し番号と座標(と特徴量)を入力フィルタから受取る。もし顔領域が1つもなければ、そのデータは破棄してさらに1つ前のコマを指定する。もし顔領域が1つ以上あれば、すでに配列(の最後)に保持された顔領域の座標(重心座標)に最も近い座標の顔領域を見つけ、領域の位置(重心座標)や大きさが、所定の連続性条件を満たすか(例えばカルマンフィルタの出力との差が所定値以内か)検査する。連続性条件を満たす場合、同一人物と推定されるので、それを配列に保存すると共に、更に前のコマを指定し、同様の処理を同一人物を見失う(ロスト)まで繰り返す。なお複数コマ連続して連続性条件を満たせなかったときにロストしたと判断する。また近傍全表示ボタン331の押下時に表示されていたキー原画像305より時間的に後の画像についても同様にコマを進めながら繰り返す。
なお、特徴量も取得しているので、配列の最初に保持された特徴量(ユーザにより手順3で指定された顔の特徴量)と今のコマの各顔領域の特徴量との類似度も用いて検査するほうが、精度が期待できる。Here, the detail of the
Since the feature quantity is also acquired, the similarity between the feature quantity held at the beginning of the array (the face feature quantity specified by the user in step 3) and the feature quantity of each face area of the current frame is also obtained. The accuracy can be expected by using the inspection.
このように、本例での人物追跡処理断は、端末装置103側で顔領域の時空間的連続性に基づき行うことができ、例えば特許文献5に記載の方法を利用できる。更に顔検出の結果以外のものによる追跡を併用することもできる。最も容易なのは、手順3で指定した顔の部分画像を用いたテンプレートマッチングである。初期テンプレートには、指定画像の時間的近傍で差分法による動体検知を行い、指定した顔に相当する人物全体の像(複数コマの中から大きさがそれらの中央値に近いものを選ぶと良い)を用いてもよい。また人物全体の像から顔以外の体の部分を切出し、その体画像から抽出した特徴量の類似度を顔の類似度と併用してもよい。なお画像処理による動体追跡手法は様々なものが知られており、本例に適用できる。複数の追跡手法を併用し、ある手法でロストしても他の手法での追跡結果をロストした手法に与え続けることで再度補足することが期待でき、全手法でロストするまで追跡できることとなり、堅牢性が向上する。或いはレーザセンサ等、距離或いは3次元形状を直接計測する手段をカメラに併設し、その計測結果から物体検出し追跡してもよい。時空間連続性における空間とは、2次元でもよく、ピクセル座標のような画像空間に限らず、経緯度のような地理的空間でもよい。複数のカメラ等の位置検出手段の計測結果を共通の座標系で扱うことで、個々のカメラを意識することなく追跡を行うことができる。
In this way, the person tracking processing interruption in this example can be performed based on the spatiotemporal continuity of the face area on the terminal device 103 side, and for example, the method described in Patent Document 5 can be used. Furthermore, tracking by means other than the result of face detection can be used together. The simplest method is template matching using the partial facial image specified in
以上説明したように、本発明の実施形態は、時系列画像(動画)に連続的に映り込んでいることが期待できる所望の人物を、一括して検索キー画像に指定する場合に、好適である。なお検索対象は記録画像に限らず、撮影中の画像からリアルタイムに検索(照合)するシステムにも適用可能である。また動画は再生画像表示領域から画像指定するものに限らず、ファイル読込ボタン307を押したときのダイアログボックスにおいて複数の静止画ファイル(時系列に撮影されたもの)を選択することで、それらをキー原画像に一括指定できるようにしても良い。
ここで、本発明に係るシステムや装置などの構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。また、本発明は、例えば、本発明に係る処理を実行する方法或いは方式や、このような方法や方式をコンピュータに実現させるためのプログラムや当該プログラムを記録する有体の媒体などとして提供することもできる。As described above, the embodiment of the present invention is suitable when a desired person who can be expected to be continuously reflected in a time-series image (moving image) is designated as a search key image collectively. is there. Note that the search target is not limited to a recorded image, but can be applied to a system that searches (collates) a captured image in real time. In addition, the moving image is not limited to the image designated from the reproduction image display area, and by selecting a plurality of still image files (those photographed in time series) in the dialog box when the
Here, the configuration of the system and apparatus according to the present invention is not necessarily limited to the configuration described above, and various configurations may be used. The present invention also provides, for example, a method or method for executing the processing according to the present invention, a program for causing a computer to implement such a method or method, a tangible medium for recording the program, and the like. You can also.
CCTV(Closed-Circuit Television )システム、顔認証システム、犯罪者データベース等のほか、テレビ番組制作システムや個人向けの電子アルバム等、カメラに映った人物や車両などの映像を扱うシステムに利用可能である。 It can be used for CCTV (Closed-Circuit Television) system, face authentication system, criminal database, etc., as well as TV program production system, personal electronic album, and other systems that handle video images of people and vehicles. .
102:録画装置、 103:端末装置、 113:複数検索キー選択部、
200:ネットワーク、 201:撮像装置、 210:画像送受信部、 211:画像記録部、 212:再生制御部、 213:人物領域検出部、 214:人物特徴量抽出部、 215:人物特徴量記録部、 216:属性情報記録部、 217:要求受信部、 218:登場人物検索部、 219:登場イベント検索部、 220:検索結果送信部、
240:バス、 241:撮像部、 242:主記憶部、 243:符号化部、 245:ネットワークI/F、
250:バス、 251:CPU、 252:主記憶部、 253:補助記憶部、 254:ネットワークI/F、
260:バス、 261:CPU、 262:主記憶部、 263:補助記憶部、 264:表示I/F、 266:ネットワークI/F、 270:表示装置、 280:キーボード、 282:マウス、
300,330,340:検索画面、 301:再生画像表示領域、 302:動画、 303:画像再生操作領域、 304:検索キー画像指定領域、 305:検索キー画像、 306:画像指定ボタン、 307:ファイル読込ボタン、 308:検索絞込パラメータ指定領域、 309〜312:撮像装置指定チェックボックス、 313,314:時刻指定チェックボックス、 315,316:時刻指定欄、 317:検索実行領域、 318:類似人物検索ボタン、 319:登場イベント検索ボタン、 320:検索結果表示領域、
331:全近傍表示ボタン、 332:指定済キー表示領域、 333〜335:キー原画像。102: Recording device, 103: Terminal device, 113: Multiple search key selection unit,
200: Network 201: Imaging device 210: Image transmission / reception unit 211: Image recording unit 212: Playback control unit 213: Person area detection unit 214: Person feature amount extraction unit 215: Person feature amount recording unit 216: Attribute information recording unit, 217: Request receiving unit, 218: Character search unit, 219: Appearance event search unit, 220: Search result transmission unit,
240: Bus, 241: Imaging unit, 242: Main storage unit, 243: Encoding unit, 245: Network I / F,
250: Bus, 251: CPU, 252: Main memory, 253: Auxiliary memory, 254: Network I / F,
260: Bus, 261: CPU, 262: Main memory, 263: Auxiliary memory, 264: Display I / F, 266: Network I / F, 270: Display device, 280: Keyboard, 282: Mouse,
300, 330, 340: Search screen, 301: Reproduction image display area, 302: Movie, 303: Image reproduction operation area, 304: Search key image designation area, 305: Search key image, 306: Image designation button, 307: File Read button, 308: Search refinement parameter designation area, 309-312: Imaging apparatus designation check box, 313, 314: Time designation check box, 315, 316: Time designation column, 317: Search execution area, 318: Similar person search Button, 319: appearance event search button, 320: search result display area,
331: All neighborhood display button, 332: Designated key display area, 333-335: Key original image.
Claims (5)
動画像の中から所望の1コマを指定するためのプレビューを提供する手段と、
前記プレビューされた1コマをキー原画像に指定する操作を受付ける手段と、
前記受付ける手段で指定された1コマに時間的に近傍の複数コマを、自動的にキー原画像に追加指定する手段と、
前記受付ける手段或いは前記追加指定する手段でキー原画像に指定された1ないし複数コマを、該1ないし複数コマから所定のアルゴリズムで検出された被写体に対応する領域を示す図形を付加して表示する手段と、
付加された前記図形の初期状態を非選択状態とし、1つのコマに対しいずれか1つの図形を選択状態とする操作を受付ける選択手段と、
選択状態となった前記図形に対応する複数の被写体をキーとする検索を要求する手段と、を有する類似画像検索装置。In a similar image search device that specifies a partial image in which a predetermined subject is captured as a key from a moving image photographed and recorded by a camera, and searches for an image having a feature amount close to the feature amount of the specified partial image.
Means for providing a preview for designating a desired frame from a moving image;
Means for accepting an operation of designating one previewed frame as a key original image;
Means for automatically specifying a plurality of frames that are temporally adjacent to one frame specified by the receiving means to be added to the key original image;
One or more frames designated as the key original image by the accepting means or the additional designation means are displayed with a figure indicating an area corresponding to the subject detected from the one or more frames by a predetermined algorithm. Means,
A selection means for accepting an operation of setting one of the graphics to a selected state for one frame, with the initial state of the added figure being a non-selected state;
And a means for requesting a search using a plurality of subjects corresponding to the graphic in the selected state as a key.
前記特徴量は、前記動画像から自動的に検出された前記被写体ごとに予め抽出され、該自動的に検出された元の画像に対応付けて記録されており、
前記要求する手段からの要求を受けて、前記選択状態となった前記図形に対応する複数の被写体は同一人物であると看做して、該複数の被写体に対応する複数の特徴量を1つずつキーとして検索し、それら結果を結合して応答する検索実行手段を設けたことを特徴とする請求項1に記載の類似画像検索システム。The subject is a human face;
The feature amount is extracted in advance for each subject automatically detected from the moving image and recorded in association with the automatically detected original image,
In response to the request from the requesting means, the plurality of subjects corresponding to the figure in the selected state are regarded as the same person, and a plurality of feature amounts corresponding to the plurality of subjects are set as one. 2. The similar image retrieval system according to claim 1, further comprising retrieval execution means for retrieving each key as a key and combining and responding to the results.
前記選択手段がキー原画像表示領域に表示された前記図形に対する前記選択状態とする操作を受付けるか、或いは、所定のボタンの1回の押下のみに応じて、前記追加指定する手段が、そのとき前記キー原画像表示領域に表示されていた1コマに続く次のコマをキー原画像に追加指定することで、自動的に該次のコマが前記キー原画像表示領域に表示され、再び前記選択手段が操作を受付けるという動作を繰り返し、
要求する手段は、該繰り返しの間に選択状態にされた複数の前記図形に対応する複数の被写体を前記キーとすることを特徴とする請求項1又は2に記載の類似画像検索装置。The display means adds the figure to one frame designated by the receiving means and displays it in the key original image display area.
The selection means accepts an operation for setting the selected state for the graphic displayed in the key original image display area, or the additional designation means in response to a single press of a predetermined button, By specifying the next frame following the one frame displayed in the key original image display area to be added to the key original image, the next frame is automatically displayed in the key original image display area, and the selection is again made. The means repeats the action of accepting the operation,
The similar image retrieval apparatus according to claim 1, wherein the requesting unit uses a plurality of subjects corresponding to the plurality of figures selected during the repetition as the keys.
前記表示する手段は、前記追加指定する手段で指定された複数のキー原画像を、夫々に前記図形を付加して指定済キー表示領域に表示するものであり、
前記選択手段が、前記指定済キー表示領域に表示された複数のキー原画像に対する、前記図形を前記選択状態とする操作を複数受付け、
前記要求する手段が、前記選択状態にされた複数の前記図形に対応する複数の被写体を前記キーとすることを特徴とする請求項1又は2に記載の類似画像検索装置。The additional designating means is designated by the accepting means automatically after the operation for designating the one frame as the key original image is accepted by the accepting means or only by pressing the predetermined button once. In addition, a plurality of frames in which at least a subject is detected are additionally specified as a key original image among a plurality of frames that are temporally before or after one frame,
The display means is to display a plurality of key original images designated by the additional designation means in the designated key display area with the figure added thereto,
The selection means accepts a plurality of operations for setting the graphic in the selected state for a plurality of key original images displayed in the designated key display area,
The similar image search apparatus according to claim 1, wherein the requesting unit uses a plurality of subjects corresponding to the plurality of graphics in the selected state as the key.
前記自動追加手段は、前記選択手段が前記キー原画像表示領域に表示された前記図形に対する前記選択状態とする操作を受付けた後の所定のボタンの1回の押下のみに呼応して、該選択状態にされた前記図形に対応する被写体を起点として、記録された動画像の中から当該被写体に時空間的連続性を満たす被写体を追跡し、当該追跡が成功した範囲の複数のコマをキー原画像に追加指定するものであり、
前記表示する手段は、前記追加指定する手段で指定された複数のキー原画像を、夫々に前記図形を付加して指定済キー表示領域に表示することを特徴とする請求項2又は4に記載の類似画像検索装置。The display means adds the figure to one frame designated by the receiving means and displays it in the key original image display area.
The automatic adding means responds only to a single press of a predetermined button after the selection means accepts an operation for making the selected state for the graphic displayed in the key original image display area, and the selection means Starting from the subject corresponding to the figure in the state, the subject that satisfies the spatio-temporal continuity from the recorded moving image is tracked, and a plurality of frames in the range in which the tracking is successful are recorded as key sources. It is to be added to the image,
5. The display unit according to claim 2, wherein the display unit displays a plurality of key original images designated by the additional designation unit in the designated key display area with the figure added thereto. Similar image search device.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012236680 | 2012-10-26 | ||
JP2012236680 | 2012-10-26 | ||
PCT/JP2013/074507 WO2014065033A1 (en) | 2012-10-26 | 2013-09-11 | Similar image retrieval device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014065033A1 true JPWO2014065033A1 (en) | 2016-09-08 |
JP6203188B2 JP6203188B2 (en) | 2017-09-27 |
Family
ID=50544414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014543185A Active JP6203188B2 (en) | 2012-10-26 | 2013-09-11 | Similar image search device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6203188B2 (en) |
WO (1) | WO2014065033A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6396682B2 (en) * | 2014-05-30 | 2018-09-26 | 株式会社日立国際電気 | Surveillance camera system |
JP6442746B2 (en) * | 2015-12-24 | 2018-12-26 | キヤノンマーケティングジャパン株式会社 | Information processing apparatus, control method, and program |
WO2018037665A1 (en) * | 2016-08-22 | 2018-03-01 | 日本電気株式会社 | Information-processing device, information-processing system, control method, and program |
CN112204545A (en) * | 2018-06-01 | 2021-01-08 | 富士胶片株式会社 | Image processing device, image processing method, image processing program, and recording medium storing the program |
JP6573346B1 (en) * | 2018-09-20 | 2019-09-11 | パナソニック株式会社 | Person search system and person search method |
JP7235612B2 (en) * | 2019-07-11 | 2023-03-08 | i-PRO株式会社 | Person search system and person search method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009027393A (en) * | 2007-07-19 | 2009-02-05 | Hitachi Ltd | Image searching system and personal searching method |
JP2010226687A (en) * | 2009-02-27 | 2010-10-07 | Sony Corp | Image processing device, image processing system, camera device, image processing method, and program therefor |
JP2011048668A (en) * | 2009-08-27 | 2011-03-10 | Hitachi Kokusai Electric Inc | Image retrieval device |
-
2013
- 2013-09-11 WO PCT/JP2013/074507 patent/WO2014065033A1/en active Application Filing
- 2013-09-11 JP JP2014543185A patent/JP6203188B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009027393A (en) * | 2007-07-19 | 2009-02-05 | Hitachi Ltd | Image searching system and personal searching method |
JP2010226687A (en) * | 2009-02-27 | 2010-10-07 | Sony Corp | Image processing device, image processing system, camera device, image processing method, and program therefor |
JP2011048668A (en) * | 2009-08-27 | 2011-03-10 | Hitachi Kokusai Electric Inc | Image retrieval device |
Also Published As
Publication number | Publication date |
---|---|
WO2014065033A8 (en) | 2015-03-12 |
JP6203188B2 (en) | 2017-09-27 |
WO2014065033A1 (en) | 2014-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5863400B2 (en) | Similar image search system | |
CN107633241B (en) | Method and device for automatically marking and tracking object in panoramic video | |
EP2710594B1 (en) | Video summary including a feature of interest | |
JP6203188B2 (en) | Similar image search device | |
US9013604B2 (en) | Video summary including a particular person | |
US8194940B1 (en) | Automatic media sharing via shutter click | |
JP5106271B2 (en) | Image processing apparatus, image processing method, and computer program | |
US20110096994A1 (en) | Similar image retrieval system and similar image retrieval method | |
JP2009199322A (en) | Monitoring system, and person retrieval method | |
JPWO2006025272A1 (en) | Video classification device, video classification program, video search device, and video search program | |
KR20180058019A (en) | The Apparatus For Searching Image And The Method For Storing Data And The Apparatus For Storing Data | |
JP5768265B2 (en) | Similar image search system | |
JPWO2018163398A1 (en) | Similar image search system | |
KR20170098139A (en) | Apparatus and method for summarizing image | |
JP6214762B2 (en) | Image search system, search screen display method | |
KR101812103B1 (en) | Method and program for setting thumbnail image | |
JP3372096B2 (en) | Image information access device | |
JP5826513B2 (en) | Similar image search system | |
JP6210634B2 (en) | Image search system | |
JP5070179B2 (en) | Scene similarity determination device, program thereof, and summary video generation system | |
KR20140033667A (en) | Apparatus and method for video edit based on object | |
CN110929056B (en) | Multimedia file generating method, multimedia file playing method, multimedia file generating device and multimedia file playing device | |
CN116597360A (en) | Video processing method, system, equipment and medium and program product | |
JP6263002B2 (en) | Imaging apparatus, control method therefor, and program | |
CN114245174A (en) | Video preview method and related equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160902 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6203188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |