WO2023042337A1 - 画像処理システム - Google Patents

画像処理システム Download PDF

Info

Publication number
WO2023042337A1
WO2023042337A1 PCT/JP2021/034106 JP2021034106W WO2023042337A1 WO 2023042337 A1 WO2023042337 A1 WO 2023042337A1 JP 2021034106 W JP2021034106 W JP 2021034106W WO 2023042337 A1 WO2023042337 A1 WO 2023042337A1
Authority
WO
WIPO (PCT)
Prior art keywords
template
image
paired
reference template
temporary
Prior art date
Application number
PCT/JP2021/034106
Other languages
English (en)
French (fr)
Inventor
海斗 笹尾
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to PCT/JP2021/034106 priority Critical patent/WO2023042337A1/ja
Priority to JP2023548027A priority patent/JPWO2023042337A1/ja
Publication of WO2023042337A1 publication Critical patent/WO2023042337A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching

Definitions

  • the present invention relates to an image processing system, an image processing apparatus, and an image processing method.
  • Object tracking is included in one of the functions of conventional image processing systems.
  • This function is, for example, a technology that can automatically detect suspicious persons and track them so that they are not overlooked.
  • Conventional techniques are often implemented with relatively simple algorithms such as finite difference methods.
  • a technique for performing advanced calculations using Deep Learning has been developed.
  • Patent Document 1 when a plurality of objects are detected from an image signal by a difference method, the average ratio of the histogram of the divided image obtained by dividing the input image signal and the reference background image signal for each pixel is detected.
  • a technique is disclosed that calculates an object and determines whether or not it is an intruding object that should be monitored.
  • Patent Document 2 when detecting an object by calculating a difference value for each pixel between an input image and a reference background image and comparing the difference value with a binarization threshold value, an intruding object is detected by removing noise. Techniques are disclosed for the process of determining an appropriate binarization threshold for .
  • the difference method basically detects all moving objects, there is a problem that it is easy to detect objects (cars, leaves, etc.) other than the target detection objects (for example, people) and generate false alarms.
  • the object tracking method using Deep Learning can be expected to improve detection accuracy, but there is a problem of high power consumption due to the difficulty of real-time due to the large amount of calculation and the hardware configuration to compensate for it.
  • tracking is performed based on the image that has changed appearance due to the temporary movement of the person to be tracked.
  • the person may be lost, and the tracking accuracy may be degraded.
  • a car temporarily passes in front of a person (occlusion)
  • the next tracking is performed based on the latest image in which the person and the car overlap, and eventually the person is lost, resulting in a decrease in tracking accuracy.
  • Patent Document 1 or Patent Document 2 does not recognize the problem of changes in the similarity of a person or object to be tracked as described above.
  • one typical image processing system of the present invention comprises an object detection unit for detecting an object from image data by a learning model, and an object tracking unit, wherein the object tracking unit Creates a reference template with a set of a resized cropped image of the detected object and the center coordinates from the image data of the predetermined frame, and sets the resized cropped image of the detected object and the center coordinates from the image data of the next frame. and extracting a pair template that satisfies matching under a predetermined condition, and adding a predetermined amount to the pixel value of the clipped image of the paired reference template and the pixel value of the clipped image of the paired temporary template.
  • a template is created by setting the cutout image and the center coordinates of the paired temporary template to update the reference template, and the remaining reference template and temporary template are held and updated as the reference template.
  • FIG. 1 is a block diagram showing the configuration of an image processing system according to this embodiment.
  • FIG. 2 is a block diagram showing the configuration of the image processing unit 103 according to this embodiment.
  • FIG. 3 is a flowchart of the image processing unit 103 according to this embodiment.
  • FIG. 4 is a diagram showing processing for creating a template of a tracked person from image data in this embodiment.
  • FIG. 5 is a diagram showing matching processing between a reference template and a temporary template in this embodiment.
  • FIG. 6 is a diagram showing processing for updating a reference template using a pair template in this embodiment.
  • 7A and 7B are diagrams showing the processing of remaining templates for which matching has not been established in this embodiment.
  • image data means image data captured within the imaging field of view (also referred to as "frame”) of the imaging device.
  • XY coordinates may be used to represent the position of a detected object with coordinates (x, y).
  • the position of the origin is not particularly limited. unit is pixel).
  • FIG. 1 is a block diagram showing the configuration of an image processing system according to this embodiment.
  • the hardware of the image processing system consists of a computer system equipped with a general-purpose CPU, and each function is executed.
  • the CPU may be replaced by a Digital Signal Processor (DSP), a Field-Programmable Gate Array (FPGA), or a Graphics Processing Unit (GPU).
  • DSP Digital Signal Processor
  • FPGA Field-Programmable Gate Array
  • GPU Graphics Processing Unit
  • the imaging device 101 is a device such as one or more IP cameras that are fixedly or movably installed to capture images.
  • the video acquisition unit 102 has a function of acquiring a real-time video signal from the imaging device 101 or a video signal recorded in the recording device 109 as image data in a one-dimensional array, a two-dimensional array, or a three-dimensional array. .
  • processing such as a smoothing filter, edge enhancement filter, and density conversion may be performed as preprocessing.
  • data formats such as RGB color, YUV, and monochrome may be selected according to the application.
  • the image data may be reduced to a predetermined size.
  • the image processing unit 103 has a function of detecting and tracking a specific object by image processing with the image data obtained from the video acquisition unit 102 as input.
  • the data communication unit 104 has a function of transmitting and receiving signals detected and processed by the image processing unit 103 and signals from the monitoring center on the network.
  • the recording control unit 105 has a function of controlling the recording of image data detected and processed by the image processing unit 103, and controlling the compression rate and recording interval of recorded images.
  • the display control unit 106 has a function of controlling the display of the image acquired by the image acquisition unit 102, the result detected by the image processing unit 103, and the information stored in the recording device 109.
  • the alarm device 107 is a device such as an alarm or patrol light that notifies the user of the result of the detection processing performed by the image processing unit 103 by sound, light, or the like.
  • the display output device 108 is a device that displays the video acquired by the video acquisition unit 102, the results of detection and processing by the image processing unit 103, and the information saved in the recording device 109.
  • the recording device 109 is a device that records and saves the video obtained from the video acquisition unit 102 and the result detected and processed by the image processing unit 103 according to the command from the recording control unit 105 .
  • FIG. 2 is a block diagram showing the configuration of the image processing unit 103 according to this embodiment.
  • the image processing unit 103 has an object detection unit 201 , a learning model 202 and an object tracking unit 203 .
  • FIG. 3 is a flowchart showing processing in the image processing unit 103 according to this embodiment.
  • An image input step 301 is a step of inputting the image data acquired by the image acquisition unit 102 .
  • Object detection step 302 is a step of detecting an object to be tracked.
  • a template creation step 303 is a step of converting the detected object information into a template.
  • a matching processing step 304 is a step of performing matching processing for connecting templates between frames.
  • a template update step 305 is a step of updating the template. After that, the process returns to the image input step 301 and repeats the process.
  • the object detection section 201 and the object detection in the object detection step 302, which is the processing there, will be described.
  • the object to be tracked is detected using the learning model 202 created in advance by machine learning from the image data acquired by the image acquisition unit 102, and the position in the image is detected. Output.
  • Object detection methods such as well-known Deep Learning may be applied to machine learning, and Fast R-CNN, Faster R-CNN, YOLO, or SSD may be used.
  • FIG. 4 is a diagram showing processing for creating a template of a tracked person from image data in this embodiment.
  • the object detection unit 201 detects a person surrounded by a bounding box (object detection step 302).
  • the size of the bounding box varies depending on the motion and size of the person to be detected.
  • t frame means the t-th imaged frame counted sequentially from the frame imaged at a certain time.
  • the frame that is the starting point of counting is not particularly limited.
  • a clipped image 407 is created by resizing bounding boxes of different sizes to a fixed size of W pixels ⁇ H pixels, and the clipped image 407 and its center coordinates (x t , y t ) are regarded as one set.
  • template creating step 303 As many reference templates 402 as the detected persons are created.
  • the image data is 640 pixels wide by 480 pixels high (24 bits per pixel)
  • resizing to a fixed size of 70 pixels (W) by 70 pixels (H) is assumed, but limited to this. It is not something that can be done.
  • the image data 401 by uniformly resizing a person detected with bounding box sizes of different sizes to a size of W ⁇ H, it becomes possible to perform arithmetic processing such as SSD (described later). Also, by resizing and reducing the number of pixels, it is possible to reduce the load on the processing of the computer.
  • Temporary templates 403 are created for the number of detected persons (template creating step 303).
  • FIG. 5 is a diagram showing matching processing between a reference template and a temporary template in this embodiment.
  • the distance L pixels between the central coordinates of the reference template 402 and the temporary template 403 is equal to or less than the threshold value R pixels
  • the similarity SSD A template 404 (hereinafter referred to as a "pair template") is extracted by combining the reference template 402 and the temporary template 403 whose Sum of Squared Difference is equal to or less than the threshold value D.
  • a reference template that constitutes a pair template will be referred to as a "pair reference template”
  • a temporary template will also be referred to as a "pair temporary template”.
  • the distance L pixels is shown in Equation 1, and the similarity SSD is shown in Equation 2.
  • the center coordinates of the reference template 402 are (x 1 , y 1 )
  • the center coordinates of the temporary template 403 are (x 2 , y 2 )
  • the pixel value at the position (i, j) of the reference template 402 is f(i , j)
  • g(i, j) be the pixel value at position (i, j) in the temporary template 403 .
  • SSD is used for similarity
  • SAD Sud of Absolute Difference
  • NCC Normalized Cross-Correlation
  • ZNCC Zero-means Normalized Cross-Correlation
  • one reference template 402 may meet the conditions for combination with multiple temporary templates 403 .
  • one temporary template 403 may meet the conditions of combination with multiple reference templates 402 .
  • the combination with the lowest similarity SSD is selected. Therefore, the reference template 402 and the temporary template 403 are always combined on a one-to-one basis.
  • Occlusion refers to a part or part of the target person other than the target person, moving objects such as automobiles, buses, motorcycles, bicycles, trains, airplanes, and helicopters, animals, natural objects such as plants, and other man-made objects. It is the secret of the whole.
  • FIG. 6 is a diagram showing processing for updating a reference template using a pair template in this embodiment.
  • the set of central coordinates (x 1 t+1 , y 1 t+1 ) of the temporary template 403 replaces and updates the reference template, and the reference template 410 is treated as a subsequent tracking target.
  • various parameters size of reference template 402 and temporary template 403 of W pixels ⁇ H pixels, threshold of distance L of R pixels, threshold of similarity SSD D, ⁇ when updating reference template 402, and ⁇ , etc.
  • the parameters may be set manually or automatically by a computer.
  • FIG. 7A and 7B are diagrams showing the processing of remaining templates for which matching has not been established in this embodiment.
  • the surplus reference template 405 described in FIG. 5 is continuously retained and updated as a reference template for use in the subsequent step of extracting combinations. However, if T frames are left in succession, they are deleted. The remaining temporary template 406 is replaced and updated as a new reference template 411 while maintaining the clipped image 408 and the central coordinates.
  • an image processing apparatus having an object detection apparatus and an object tracking apparatus operated by a computer having a CPU and a memory programmed to exhibit the functions of the image processing system according to this embodiment.
  • a computer that transmits and receives data between a video acquisition unit, a data communication unit, and a recording control unit, image input processing for inputting image data from the video acquisition unit; Object detection processing for detecting an object to be tracked using a learning model created in advance by machine learning for the image data and outputting a position in the image; template creation processing for creating a reference template or a temporary template in which a clipped image obtained by resizing a detected object to a certain fixed size (W ⁇ H) and center coordinates are set from the image data; a matching process for extracting a pair template consisting of a one-to-one paired reference template and a paired temporary template for which matching is established under a predetermined condition; A template is created by setting a cut-out image having a pixel value obtained by adding a predetermined amount to the pixel
  • the predetermined condition is The distance L pixels between the center coordinates of the reference template to be matched and the temporary template is equal to or less than a predetermined threshold, and the SSD between the clipped images is the minimum value equal to or less than the threshold.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本発明は画像処理による追跡精度向上を目的とする。本発明の画像処理システムは、画像データに対して学習モデルにより物体を検出する物体検出部と、物体追跡部を備え、前記物体追跡部は、所定フレーム目の画像データから検出物体をリサイズした切り出し画像と中心座標をセットとした基準テンプレートを作成し、次のフレームの画像データから検出物体をリサイズした切り出し画像と中心座標をセットとした一時テンプレートを作成し、かつ所定条件でマッチングが成立するペアテンプレートを抽出し、かつペア基準テンプレートの切り出し画像の画素値とペア一時テンプレートの切り出し画像の画素値を所定量加味した画素値を有する切り出し画像と前記ペア一時テンプレートの中心座標をセットとしたテンプレートを作成して基準テンプレートを更新し、余った基準テンプレートと一時テンプレートを保持して基準テンプレートとして更新する、ことを特徴とする。

Description

画像処理システム
 本発明は、画像処理システム、画像処理装置および画像処理方法に関する。
 従来の画像処理システムの機能の1つに物体追跡が含まれる。この機能は例えば、不審人物を自動で検出し、見逃さないように追跡することができる技術である。従来の技術では、差分法などの比較的に単純なアルゴリズムで実装されていることが多い。また、最新の研究では、Deep Learningを用いた高度な計算を行う手法が開発されている。
 例えば特許文献1には、画像信号から差分法によって複数の物体を検出したときに、入力画像信号と基準背景画像信号の画素ごとの除算を行って得られる除算画像のヒストグラムの平均比率を各検出物体について算出して、監視対象とすべき侵入物体か否かの判定を行う技術が開示されている。
 また特許文献2には、入力画像と基準背景画像との画素ごとの差分値を計算し、差分値と二値化閾値を比較して物体検出を行う際に、ノイズを除去し侵入物体を検出する適切な二値化閾値を決定するプロセスに関する技術が開示されている。
特開2001-175959号公報 特開2002-218443号公報
 しかしながら差分法では、基本的に動きのあるものは全て検出することから、目的とする検出物体(例えば人物)以外の物体(車や木の葉など)も検出し誤報が発生しやすい問題がある。
 Deep Learningを用いた物体追跡方法は、検出精度が高くなることは期待できるが、計算量の多さによるリアルタイム性の難しさやそれを補うためのハード構成によって消費電力が高くなる問題がある。
 また、画像で人物追跡を行う場合、最新の人物画像に更新した基準テンプレートを用いて追跡すると、追跡人物の一時的な動作で違う見え方となった画像を基準にして追跡が行われ、結局人物を見失ってしまい、追跡精度が低下することがある。また一時的に車が人物の前を通過するような場合(オクルージョン)、人物と車が重なった最新の画像を基準に次の追跡が行われ、結局人物を見失ってしまい、追跡精度が低下することがある。
 上述のような、追跡対象となる人物または物体の類似性が変化する問題について、特許文献1または特許文献2では認識されていない。
 そこで、本発明では、消費電力を抑えたハード構成で、従来よりも検出精度がよい物体追跡機能を有した画像処理の技術を提供することを目的とする。
 
 前記の課題を解決するために、代表的な本発明の画像処理システムの一つは、画像データに対して学習モデルにより物体を検出する物体検出部と、物体追跡部を備え、前記物体追跡部は、所定フレーム目の画像データから、検出物体をリサイズした切り出し画像と中心座標をセットとした基準テンプレートを作成し、次のフレームの画像データから、検出物体をリサイズした切り出し画像と中心座標をセットとした一時テンプレートを作成し、かつ所定条件でマッチングが成立するペアテンプレートを抽出し、かつペア基準テンプレートの切り出し画像の画素値とペア一時テンプレートの切り出し画像の画素値を所定量加味した画素値を有する切り出し画像と前記ペア一時テンプレートの中心座標をセットとしたテンプレートを作成して基準テンプレートを更新し、余った基準テンプレートと一時テンプレートを保持して基準テンプレートとして更新するものである。
 本発明によれば、従来よりも検出精度がよい物体追跡機能を有した画像処理の技術を提供することができる。
 前記した以外の課題、構成および効果は、以下の実施をするための形態における説明により明らかにされる。
図1は、本実施形態に係る画像処理システムの構成を示すブロック図である。 図2は、本実施形態に係る画像処理部103の構成を示すブロック図である。 図3は、本実施形態に係る画像処理部103のフローチャートである。 図4は、本実施形態において画像データから追跡人物のテンプレートを作成する処理を示す図である。 図5は、本実施形態において基準テンプレートと一時テンプレートとのマッチング処理を示す図である。 図6は、本実施形態においてペアテンプレートを用いて基準テンプレートを更新する処理を示す図である。。 図7は、本実施形態においてマッチングが成立せず余ったテンプレートの処理を示す図である。
 以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
 本開示において、「画像データ」というときは特に断りのない限り、撮像装置の撮像視野(「フレーム」ということもある。)内で撮影された画像のデータを意味する。
 本開示において、XY座標を用いて検出物体の位置などを座標(x、y)で表すことがある。その際原点の位置は特に限定されないが、例えばフレームの一番左上を原点(0、0)とし、右の向きがX軸の正方向、下の向きがY軸の正方向として画素の位置(単位はピクセル)を定めることが可能である。
 まず本実施形態に係る画像処理システムの構成について説明する。図1は、本実施形態に係る画像処理システムの構成を示すブロック図である。
 画像処理システムのハードウェアは、汎用のCPUを備えた電子計算機システムにより構成され、それぞれの機能が実行されるようになっている。前記CPUは、Digital Signal Processor(DSP)、Field-Programmable Gate Array(FPGA)、またはGraphics Processing Unit(GPU)などで代替してもよい。
 撮像装置101は、固定または可動に設置され画像を撮影する1台以上のIPカメラなどの装置である。
 映像取得部102は、撮像装置101からのリアルタイムの映像信号または記録装置109に記録されている映像信号などを、1次元配列、2次元配列、または3次元配列の画像データとして取得する機能を有する。
 画像データにおいては、ノイズやフリッカなどの影響を低減するために、前処理として平滑化フィルタや輪郭強調フィルタ、濃度変換などの処理を施してもよい。また、用途に応じてRGBカラーやYUV、モノクロなどのデータ形式を選択してもよい。さらには、処理コスト低減のために、所定の大きさで画像データに縮小処理を施してもよい。
 画像処理部103は、映像取得部102より得られた画像データを入力として画像処理により特定物体を検出し追跡する機能を有する。
 データ通信部104は、画像処理部103で検出し処理した信号やネットワーク上の監視センターの信号などを送受信する機能を有する。
 記録制御部105は、画像処理部103で検出し処理した画像データの記録制御や、記録画像の圧縮率や記録間隔を制御する機能を有する。
 表示制御部106は、映像取得部102で取得した映像および画像処理部103で検出した結果や、記録装置109に保存された情報の表示を制御する機能を有する。
 発報装置107は、画像処理部103で検出処理した結果を音声や光などでユーザに知らせる、例えば警報やパトライトなどの装置である。
 表示出力装置108は、映像取得部102で取得した映像および画像処理部103で検出し処理した結果や、記録装置109に保存された情報を表示する装置である。
 記録装置109は、映像取得部102より得られた映像および画像処理部103で検出し処理した結果を記録制御部105の命令により記録保存する装置である。
 次に画像処理部103について詳細に説明する。
 図2は、本実施形態に係る画像処理部103の構成を示すブロック図である。画像処理部103は、物体検出部201、学習モデル202、および物体追跡部203を備える。
 図3は、本実施形態に係る画像処理部103での処理を示すフローチャートである。画像入力ステップ301は、映像取得部102で取得した画像データを入力するステップである。物体検出ステップ302は、追跡対象の物体を検出するステップである。テンプレート作成ステップ303は、検出した物体情報をテンプレート化するステップである。マッチング処理ステップ304は、各フレーム間のテンプレートを結びつけるためのマッチング処理を行うステップである。テンプレート更新ステップ305は、テンプレートの更新を行うステップである。その後画像入力ステップ301に戻り繰り返し処理を行う。
<物体検出>
 次に、物体検出部201とそこでの処理である物体検出ステップ302における物体検出について説明する。
 物体検出部201と物体検出ステップ302では、映像取得部102で取得した画像データに対して、事前に機械学習により作成した学習モデル202を用いて追跡対象の物体を検出し、画像中の位置を出力する。
 機械学習には周知のDeep Learningをはじめとした物体検出手法を適用してもよく、Fast R-CNN、Faster R-CNN、YOLO、またはSSDなどが用いられてもよい。
<物体追跡>
 次に物体追跡部203と、そこでの処理であるテンプレート作成ステップ303、マッチング処理ステップ304、およびテンプレート更新ステップ305について、人物追跡を例に、図4~図7を用いて物体追跡について説明する。なお、本開示の技術による追跡対象は人物に限られるものでないことは言うまでもない。
[テンプレート作成]
 図4は、本実施形態において画像データから追跡人物のテンプレートを作成する処理を示す図である。
 映像取得部102から得られるtフレーム目の画像データ401から、物体検出部201において、事前に機械学習により作成した学習モデル202を用いた手法でバウンディングボックスに囲まれた人物が検出される(物体検出ステップ302)。バウンディングボックスのサイズは検出される人物の動作や大きさなどにより区々のサイズをとる。
 本開示において、「tフレーム」とは、ある時点で撮像したフレームから順次カウントしてt番目に撮像されたフレームを意味する。ただし、カウントの始点となるフレームは特に限定されるものではない。
 次に、区々のサイズのバウンディングボックスをWピクセル×Hピクセルの一定のサイズにリサイズした切り出し画像407を作成し、当該切り出し画像407とその中心座標(xt、yt)を1つのセットとした基準テンプレート402が検出した人物の数だけ作成される(テンプレート作成ステップ303)。
 例えば、画像データが横640ピクセル×高さ480ピクセル(1ピクセル当たり24ビット)の場合、70ピクセル(W)×70ピクセル(H)の一定のサイズにリサイズすることが想定されるがこれに限られるものではない。
 画像データ401において、区々の大きさのバウンディングボックスサイズで検出される人物を一律W×HのサイズにリサイズすることでSSD(後述する)などの演算処理をすることが可能になる。またリサイズして画素数を軽減することでコンピュータの処理にかかる負担を軽減することも可能になる。
 同様に、次のt+1フレーム目の画像データ401から、自動的にWピクセル×Hピクセルにリサイズした人物の切り出し画像408とその中心座標(xt+1、yt+1)を1つのセットとした一時テンプレート403を検出した人物の数だけ作成する(テンプレート作成ステップ303)。
[マッチング処理]
 次に、図5を参照して、物体追跡部203において、所定条件を満たす基準テンプレートと一時テンプレートの組み合わせを選択する(以下、「マッチング」ということもある。)処理について説明する(マッチング処理ステップ304)。
 図5は、本実施形態において基準テンプレートと一時テンプレートとのマッチング処理を示す図である。
 前記所定条件の例として、基準テンプレート402と一時テンプレート403との中心座標間の距離Lピクセルが閾値Rピクセル以下、かつ基準テンプレート402の切り出し画像407と一時テンプレートの切り出し画像408との類似度SSD(Sum of Squared Difference)が閾値D以下になる基準テンプレート402と一時テンプレート403を組み合わせたテンプレート404(以下、「ペアテンプレート」という。)を抽出する。以下、ペアテンプレートを構成する基準テンプレートを「ペア基準テンプレート」といい、一時テンプレートを「ペア一時テンプレート」ともいう。
距離Lピクセルを式1、類似度SSDを式2に示す。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 ここで、基準テンプレート402の中心座標を(x、y)、一時テンプレート403の中心座標を(x、y)、基準テンプレート402の位置(i、j)の画素値をf(i、j)、一時テンプレート403の位置(i、j)の画素値をg(i、j)とする。
 なお、類似度にSSDを使用しているが、SAD(Sum of Absolute Difference)やNCC(Normalized Cross-Correlation)、ZNCC(Zero-means Normalized Cross-Correlation)を用いてもよい。
 このとき1つの基準テンプレート402が複数の一時テンプレート403と組み合わせの条件を満たす場合があり得る。同様に1つの一時テンプレート403が複数の基準テンプレート402と組み合わせの条件を満たす場合があり得る。そのような場合は類似度SSDが最小となる組み合わせを選択する。よって、基準テンプレート402と一時テンプレート403は必ず1対1で組み合わさる。
 一方組み合わせが成立しない場合もある。その時は、余った基準テンプレート405と、余った一時テンプレート406も抽出する。
 例えば、人物が近方に映りオクルージョンが発生しやすい環境では、W=H=70ピクセル、距離Lの閾値R=200ピクセル、類似度SSDの閾値D=0.6(ただし、SSDの値を0~1に正規化)のように設定し、画像上で人物が比較的大きく動いても基準テンプレート402と一時テンプレート403が組み合わさりやすくしてもよい。ここでオクルージョンとは、対象人物とは別の人物や自動車、バス、バイク、自転車、電車、飛行機、ヘリコプターなどの移動体、動物、草木などの自然物、その他人工物などによる対象人物の一部もしくは全体の隠れのことである。
[テンプレート更新]
 次に物体追跡部203において、テンプレートを更新する処理について説明する(テンプレート更新ステップ305)。
(ペアテンプレートを用いた更新)
 図6は、本実施形態においてペアテンプレートを用いて基準テンプレートを更新する処理を示す図である。
 マッチングの成立したペアテンプレート404のうち、ペア基準テンプレート402の切り出し画像407の画素値と、ペア一時テンプレート403の切り出し画像408の画素値を所定量加味した画素値を有する切り出し画像409と、前記ペア一時テンプレート403の中心座標(x t+1、y t+1)のセットで基準テンプレートを置き換え更新し、当該基準テンプレート410を以後の追跡対象として取り扱う。
 前記所定量として式3に示すように、前記ペア基準テンプレート402の切り出し画像407の画素値に所定割合αを積算した値と、前記ペア一時テンプレート403の切り出し画像408の画素値に所定割合β(=1-α)を積算した値を合算した画素値を、更新した基準テンプレート410の切り出し画像409の画素値とすることができる。
Figure JPOXMLDOC01-appb-M000003
 f’(i、j)は、更新した基準テンプレート410の位置(i、j)の画素値である。α+β=1とする。
 αとβは撮影する環境や追跡人物の挙動などに応じて設定すればよい。例えば、人物が近方に映りオクルージョンが発生しやすい環境では、α=0.9、β=0.1のように設定し、元の基準テンプレート402における人物の画素値情報を多めに残してオクルージョンが消滅した後も継続して追跡できるようにすることが考えられる。逆に、人物が遠方に映りオクルージョンが発生しづらいシーンでは、αの比率を下げてβの比率を上げてもよい。この他、追跡中の人物が上着やジャケットを一時的に着脱するようなシーンにおいては、αとβの比率がほぼ同程度に設定することも考えられる。ただし、以上は単なる例示でしかない。
 実際は各環境やシーンに合わせて各種パラメータ(基準テンプレート402と一時テンプレート403のサイズWピクセル×Hピクセル、距離Lの閾値Rピクセル、類似度SSDの閾値D、基準テンプレート402を更新する際のαとβなど)を設定し、実際の挙動を確認したあとに、各パラメータを再調整することを繰り返すことで、物体追跡の性能を向上することが期待できる。パラメータの設定は人による設定の他コンピュータにより自動で設定してもよい。
<作用・効果>
 ペアテンプレートを用いて基準テンプレートを更新することで、最新の画像データによる基準テンプレート(α=0、β=1)に基づき対象人物を追跡する手法に比べ、過去の基準テンプレートにおける人物の画素値情報を加味することができ、オクルージョンや人物の一時的な動き、検出漏れなどで追跡人物の類似性が変化した場合でも、見失うことなく追跡精度を向上することが可能となる。
(余ったテンプレートを用いた更新)
 さらに物体追跡部203において、マッチング処理ステップ304でマッチングが成立せずに余ったテンプレートを用いて基準テンプレートを更新する処理について説明する(テンプレート更新処理ステップ305)。図7は、本実施形態においてマッチングが成立せず余ったテンプレートの処理を示す図である。
 図5で説明した余った基準テンプレート405はその後の組み合わせ抽出のステップに用いるために継続保持して基準テンプレートとして更新する。ただし、Tフレーム連続して余った場合は削除する。また、余った一時テンプレート406は、切り出し画像408と中心座標は保持されたままで新規の基準テンプレート411として置き換えて更新する。
<作用・効果>
 余ったテンプレートを用いて基準テンプレートを更新することで、ある追跡人物が1回目の撮像で検出され切り出し画像が基準テンプレートとなったものの、2回目に検出漏れまたはオクルージョンなどにより適切な切り出し画像が得られずマッチングもとれずに余ってしまった場合、そこで消去せず継続保持することで、仮に3回目の撮影で障害がなくなり再び適切な切り出し画像が得られたときにマッチングがとれて同一人物として追跡できるという効果がある。ただし、長期にわたり余る場合は、保持する意義も経時的に減少することから、Tフレーム連続して余った場合は削除する。
 例えば、人物が近方に映りオクルージョンが発生しやすい環境では、T=10フレームのように設定し、オクルージョンによって対象人物を途中で瞬間的に見失うことがあっても、継続してトラッキングすることができる。
 以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本実施形態に係る画像処理システムの機能を発揮べくプログラミングされたCPUとメモリを有するコンピュータにより動作する物体検出装置や物体追跡装置を備えた画像処理装置として把握することができる。
 また、例えば本実施形態に係る画像処理システムの機能をコンピュータにより実行させるためのプログラムとして把握することもできる。その場合は以下のような内容の発明になる。
「1.映像取得部と、データ通信部と、記録制御部との間でデータの送受信を行うコンピュータに、
 映像取得部から画像データを入力する画像入力処理と、
 前記画像データに対して、事前に機械学習により作成した学習モデルを用いて追跡対象の物体を検出し、画像中の位置を出力する物体検出処理と、
 前記画像データから、検出物体をある一定サイズ(W×H)にリサイズした切り出し画像と中心座標をセットとした基準テンプレートまたは一時テンプレートを作成するテンプレート作成処理と、
 所定条件でマッチングが成立する1対1のペア基準テンプレートとペア一時テンプレートからなるペアテンプレートを抽出するマッチング処理と、
 前記ペア基準テンプレートの切り出し画像の画素値と前記ペア一時テンプレートの切り出し画像の画素値を所定量加味した画素値を有する切り出し画像と前記ペア一時テンプレートの中心座標をセットとしたテンプレートを作成して基準テンプレートを更新し、さらに前記マチングが成立せずに余った基準テンプレートと一時テンプレートを保持して基準テンプレートとして更新するテンプレート更新ステップ処理と、
 を実行させるためのプログラム。」
「2.前記所定条件が、
 マッチングをとる基準テンプレートと一時テンプレートの中心座標間の距離Lピクセルが所定閾値以下であり、かつ切り出し画像間のSSDが閾値以下の最小値である、
 ことを特徴とする、1に記載のプログラム。」
「3.前記所定量が、
 前記ペア基準テンプレートの切り出し画像の画素値に所定割合α積算した値と、前記ペア一時テンプレートの切り出し画像の画素値に所定割合β(=1-α)を積算した値を合算した画素値であること、
 を特徴とする、2に記載のプログラム。」
「4.前記マチングが成立せずに余った基準テンプレートにおいて、所定のフレーム連続して余った場合は削除すること、
 を特徴とする1~3のいずれか一つに記載のプログラム。」
101…撮像装置、102…映像取得部、103…画像処理部、104…データ通信部、105…記録制御部、106…表示制御部、107…発報装置、108…表示出力装置、109…記録装置、201…物体検出部、202…学習モデル、203…物体追跡部、301…画像入力ステップ、302…物体検出ステップ、303…テンプレート作成ステップ、304…マッチングステップ、305…テンプレート更新ステップ、401…画像データ、402・405・410・411…基準テンプレート、403・406…一時テンプレート、404…ペアテンプレート、407・408・409…切り出し画像

Claims (12)

  1.  画像処理システムであって、
     映像取得部で取得した画像データに対して、事前に機械学習により作成した学習モデルを用いて追跡対象の物体を検出し、画像中の位置を出力する物体検出部と、
     検出物体を複数フレーム間に渡って追跡を行う物体追跡部を備え、
     前記物体追跡部は、
     所定フレーム目の画像データから、検出物体をある一定サイズ(W×H)にリサイズした切り出し画像と中心座標をセットとした基準テンプレートを作成するとともに、次のフレームの画像データから、検出物体をある一定サイズ(W×H)にリサイズした切り出し画像と中心座標をセットとした一時テンプレートを作成し、かつ
     所定条件でマッチングが成立する1対1のペア基準テンプレートとペア一時テンプレートからなるペアテンプレートを抽出し、かつ
     前記ペア基準テンプレートの切り出し画像の画素値と前記ペア一時テンプレートの切り出し画像の画素値を所定量加味した画素値を有する切り出し画像と前記ペア一時テンプレートの中心座標をセットとしたテンプレートを作成して基準テンプレートを更新し、さらに前記マッチングが成立せずに余った基準テンプレートと一時テンプレートを保持して基準テンプレートとして更新する、
     ことを特徴とする画像処理システム。
  2.  前記所定条件が、
     マッチングをとる基準テンプレートと一時テンプレートの中心座標間の距離Lピクセルが所定閾値以下であり、かつ切り出し画像間のSSDが閾値以下の最小値である、
     ことを特徴とする、請求項1に記載の画像処理システム。
  3.  前記所定量が、
     前記ペア基準テンプレートの切り出し画像の画素値に所定割合α積算した値と、前記ペア一時テンプレートの切り出し画像の画素値に所定割合β(=1-α)を積算した値を合算した画素値であること、
     を特徴とする、請求項2に記載の画像処理システム。
  4.  前記マッチングが成立せずに余った基準テンプレートにおいて、所定のフレーム連続して余った場合は削除すること、
     を特徴とする、請求項1~3のいずれか一つに記載の画像処理システム。
  5.   コンピュータにより動作する画像処理装置であって、
     映像取得部で取得した画像データに対して、事前に機械学習により作成した学習モデルを用いて検出物体を特定する物体検出装置と、
     検出物体を複数フレーム間に渡って追跡を行う物体追跡装置を備え、
     前記物体追跡装置は、
     所定フレーム目の画像データから、検出物体をある一定サイズ(W×H)にリサイズした切り出し画像と中心座標をセットとした基準テンプレートを作成するとともに、次のフレームの画像データから、検出物体をある一定サイズ(W×H)にリサイズした切り出し画像と中心座標をセットとした一時テンプレートを作成し、かつ
     所定条件でマッチングが成立する1対1のペア基準テンプレートとペア一時テンプレートからなるペアテンプレートを抽出し、かつ
     前記ペア基準テンプレートの切り出し画像の画素値と前記ペア一時テンプレートの切り出し画像の画素値を所定量加味した画素値を有する切り出し画像と前記ペア一時テンプレートの中心座標をセットとしたテンプレートを作成して基準テンプレートを更新し、さらに前記マチングが成立せずに余った基準テンプレートと一時テンプレートを保持して基準テンプレートとして更新する、
     ことを特徴とする画像処理装置。
  6.  前記所定条件が、
     マッチングをとる基準テンプレートと一時テンプレートの中心座標間の距離Lピクセルが所定閾値以下であり、かつ切り出し画像間のSSDが閾値以下の最小値である、
     ことを特徴とする、請求項5に記載の画像処理装置。
  7.  前記所定量が、
     前記ペア基準テンプレートの切り出し画像の画素値に所定割合α積算した値と、前記ペア一時テンプレートの切り出し画像の画素値に所定割合β(=1-α)を積算した値を合算した画素値であること、
     を特徴とする、請求項6に記載の画像処理装置。
  8.  前記マッチングが成立せずに余った基準テンプレートにおいて、所定のフレーム連続して余った場合は削除すること、
     を特徴とする、請求項5~7のいずれか一つに記載の画像処理装置。
  9.  画像処理方法であって、
     映像取得部から画像データを入力する画像入力ステップと、
     前記画像データに対して、事前に機械学習により作成した学習モデルを用いて追跡対象の物体を検出し、画像中の位置を出力する物体検出ステップと、
     前記画像データから、検出物体をある一定サイズ(W×H)にリサイズした切り出し画像と中心座標をセットとした基準テンプレートまたは一時テンプレートを作成するテンプレート作成ステップと、
     所定条件でマッチングが成立する1対1のペア基準テンプレートとペア一時テンプレートからなるペアテンプレートを抽出するマッチング処理ステップと、
     前記ペア基準テンプレートの切り出し画像の画素値と前記ペア一時テンプレートの切り出し画像の画素値を所定量加味した画素値を有する切り出し画像と前記ペア一時テンプレートの中心座標をセットとしたテンプレートを作成して基準テンプレートを更新し、さらに前記マッチングが成立せずに余った基準テンプレートと一時テンプレートを保持して基準テンプレートとして更新するテンプレート更新ステップと、
     を有することを特徴とする画像処理方法。
  10.  前記所定条件が、
     マッチングをとる基準テンプレートと一時テンプレートの中心座標間の距離Lピクセルが所定閾値以下であり、かつ切り出し画像間のSSDが閾値以下の最小値である、
     ことを特徴とする、請求項9に記載の画像処理方法。
  11.  前記所定量が、
     前記ペア基準テンプレートの切り出し画像の画素値に所定割合α積算した値と、前記ペア一時テンプレートの切り出し画像の画素値に所定割合β(=1-α)を積算した値を合算した画素値であること、
     を特徴とする、請求項10に記載の画像処理方法。
  12.  前記マッチングが成立せずに余った基準テンプレートにおいて、所定のフレーム連続して余った場合は削除すること、
     を特徴とする、請求項9~11のいずれか一つに記載の画像処理方法。
PCT/JP2021/034106 2021-09-16 2021-09-16 画像処理システム WO2023042337A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/034106 WO2023042337A1 (ja) 2021-09-16 2021-09-16 画像処理システム
JP2023548027A JPWO2023042337A1 (ja) 2021-09-16 2021-09-16

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/034106 WO2023042337A1 (ja) 2021-09-16 2021-09-16 画像処理システム

Publications (1)

Publication Number Publication Date
WO2023042337A1 true WO2023042337A1 (ja) 2023-03-23

Family

ID=85602593

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/034106 WO2023042337A1 (ja) 2021-09-16 2021-09-16 画像処理システム

Country Status (2)

Country Link
JP (1) JPWO2023042337A1 (ja)
WO (1) WO2023042337A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197507A (zh) * 2023-11-07 2023-12-08 北京闪马智建科技有限公司 图像块的确定方法及装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060269A (ja) * 1999-06-15 2001-03-06 Hitachi Denshi Ltd 物体追跡方法及び物体追跡装置
JP2004247921A (ja) * 2003-02-13 2004-09-02 Nissan Motor Co Ltd 車両周辺監視装置
JP2014063281A (ja) * 2012-09-20 2014-04-10 Fujifilm Corp 眼の開閉判断方法及び装置、プログラム、並びに監視映像システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060269A (ja) * 1999-06-15 2001-03-06 Hitachi Denshi Ltd 物体追跡方法及び物体追跡装置
JP2004247921A (ja) * 2003-02-13 2004-09-02 Nissan Motor Co Ltd 車両周辺監視装置
JP2014063281A (ja) * 2012-09-20 2014-04-10 Fujifilm Corp 眼の開閉判断方法及び装置、プログラム、並びに監視映像システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197507A (zh) * 2023-11-07 2023-12-08 北京闪马智建科技有限公司 图像块的确定方法及装置、存储介质及电子装置
CN117197507B (zh) * 2023-11-07 2024-02-09 北京闪马智建科技有限公司 图像块的确定方法及装置、存储介质及电子装置

Also Published As

Publication number Publication date
JPWO2023042337A1 (ja) 2023-03-23

Similar Documents

Publication Publication Date Title
JP4708343B2 (ja) 背景領域および前景領域をモデリングする方法
Mandellos et al. A background subtraction algorithm for detecting and tracking vehicles
US9158985B2 (en) Method and apparatus for processing image of scene of interest
Sen-Ching et al. Robust techniques for background subtraction in urban traffic video
Desa et al. Image subtraction for real time moving object extraction
KR20080103311A (ko) 감시 카메라 시스템에서 움직임을 검출하기 위한 실시간움직임 영역 분할 방법 및 장치
KR20180054808A (ko) 이미지들 내의 움직임 검출
JP2011130203A (ja) 映像情報処理方法及びその装置
Kumar et al. Multiple cameras using real time object tracking for surveillance and security system
Sengar et al. Foreground detection via background subtraction and improved three-frame differencing
US20070223596A1 (en) Spurious Motion Filter
Aslam et al. Foreground detection of moving object using Gaussian mixture model
WO2023042337A1 (ja) 画像処理システム
Devi et al. A survey on different background subtraction method for moving object detection
Zhou et al. Dynamic background subtraction using spatial-color binary patterns
Lee et al. Real-time detection of illegally parked vehicles using 1-D transformation
Okarma et al. A fast image analysis technique for the line tracking robots
Jehad et al. Developing and validating a real time video based traffic counting and classification
Sharma et al. Efficient object detection with its enhancement
Pande et al. Implementation and analysis of various background subtraction techniques for IR target detection using different filters
Spagnolo et al. Fast background modeling and shadow removing for outdoor surveillance
CN111062975B (zh) 一种基于感知哈希算法加快视频帧实时目标检测的方法
US20240046426A1 (en) Noise removal for surveillance camera image by means of ai-based object recognition
Kaittan et al. Tracking of Video Objects Based on Kalman Filter
KR101426039B1 (ko) 얼굴/물체 인식을 위한 특징점 검출 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21957518

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023548027

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18570934

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE