WO2020080535A1 - 対象追跡方法、対象追跡システムおよび対象追跡プログラム - Google Patents

対象追跡方法、対象追跡システムおよび対象追跡プログラム Download PDF

Info

Publication number
WO2020080535A1
WO2020080535A1 PCT/JP2019/041143 JP2019041143W WO2020080535A1 WO 2020080535 A1 WO2020080535 A1 WO 2020080535A1 JP 2019041143 W JP2019041143 W JP 2019041143W WO 2020080535 A1 WO2020080535 A1 WO 2020080535A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
roi
target
tracking
recognition
Prior art date
Application number
PCT/JP2019/041143
Other languages
English (en)
French (fr)
Inventor
抱 石井
則政 岸
明俊 姜
Original Assignee
国立研究開発法人科学技術振興機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人科学技術振興機構 filed Critical 国立研究開発法人科学技術振興機構
Priority to CN201980058513.9A priority Critical patent/CN112655018A/zh
Priority to JP2020553348A priority patent/JP7477168B2/ja
Publication of WO2020080535A1 publication Critical patent/WO2020080535A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a target tracking method, a target tracking system, and a target tracking program.
  • Target tracking technology is a technology that recognizes and tracks a specific target in a moving image captured by a camera.
  • the typical target tracking technology in recent years is to recognize a target by a method of locally tracking the target using template matching (hereinafter referred to as "local target tracking method”) or a process based on a learning theory such as deep learning. (Hereinafter, referred to as “learning recognition method”) and the like (for example, Non-Patent Document 1).
  • the local target tracking method has the advantage of speeding up the execution speed because it performs a local search only in the vicinity of the target, but on the other hand, it is necessary to artificially specify the initial template at the start of tracking. For this reason, if the tracking fails frequently due to the complexity of the background screen or the occlusion / posture change of the target, there is a problem that the tracking becomes difficult.
  • the learning recognition method based on the convolutional neural network (CNN) has significantly improved the performance of deep learning in recent years. Coupled with parallel implementation on high-performance GPU, the learning recognition method realizes real-time object recognition at a frame rate of several tens of fps (frame per second).
  • the learning-based recognition method has the advantage of being able to instantly re-recognize the target even if the target is lost once, because the target recognition is performed independently for each frame.
  • recognition since recognition is not always stable in all frames, there is a problem that recognition results are intermittent.
  • mechanical feedback such as active vision requires high-speed real-time object detection of several hundred fps. However, this is difficult with current computer technology.
  • the learning recognition method has a problem that there is a limit in execution speed.
  • Non-Patent Document 1 a hybrid target tracking method has been proposed that takes advantage of both the local target tracking method and the learning recognition method (for example, Non-Patent Document 1).
  • object recognition by a learning recognition method executed at a certain frame rate and object tracking by a local object tracking method executed at a higher frame rate operate in parallel. ..
  • the correlation filter updates the ROI (Region Of Interest) position and template, and continues tracking.
  • the ROI position and the template are initialized based on the object recognized by the learning recognition method, and new tracking is performed based on these.
  • robust target tracking is realized even with changes in the appearance of the target such as occlusion.
  • the above calculation time elapses from the start of the object recognition processing based on a certain frame to the completion of this processing and recognition of the object.
  • the frame targeted for ROI position and template initialization is the frame that has reached the present as a result of continued template matching (hereinafter referred to as the "current frame"). Therefore, the frame in which the target recognition processing is started is delayed with respect to the current frame. For example, when the sampling rate of a moving image is 500 fps and the frame in which the target recognition process is started is 30 frames before the current frame, this delay is 60 ms.
  • the ROI position shift will occur between the frame that started the target recognition process and the current frame.
  • this shift caused by panning the camera left and right during capturing is large. In such a case, continuous and stable tracking becomes difficult even with the hybrid target tracking method.
  • the present invention has been made in view of such circumstances, and an object thereof is to provide a technique for realizing continuous and stable target tracking even for high-speed moving images.
  • a target tracking method includes a step of recognizing at least one target in a moving image by a learning recognition method at a first frame rate, and a first frame. Tracking a target in a moving image by template matching using a template at a second frame rate higher than the rate, ROI of the frame where recognition of the target by the learning recognition method is started, and second frame
  • the method includes the step of correcting a difference between the current frame ROI and the current frame ROI as a result of continuing the template matching at a rate, and the step of initializing the ROI position of the current frame based on the corrected ROI.
  • the step of correcting the difference may include a step of reproducing an actual image from the frame where the recognition of the target is started to the current frame.
  • a part of the actual image from the frame where the recognition of the target is started to the current frame may be reproduced.
  • the ROI position of the current frame may be initialized at the first frame rate.
  • the embodiment may further include the step of initializing the template at the first frame rate based on the object recognized by the learning recognition method.
  • the embodiment further includes a step of comparing an object recognized by the learning recognition method and an object tracked by template matching, and when the comparison result in the comparing step is equal to or less than a predetermined value, the ROI position is ,
  • the ROI position may be initialized based on the corrected ROI when the comparison result in the comparing step is larger than the predetermined value, which is initialized based on the object tracked by the template matching.
  • the embodiment further comprises a step of comparing an object recognized by the learning recognition method and an object tracked by template matching, and when the comparison result in the comparing step is a predetermined value or less, the template is The template may be initialized based on the object recognized by the learning recognition method if the comparison result in the comparing step is larger than a predetermined value, which is initialized based on the object tracked by the template matching. .
  • the embodiment further includes a step of storing frames from a frame in which recognition of an object by the learning recognition method is started to a current frame, and a step of correcting differences is performed in which recognition of the object by the learning recognition method is started. This may be done by performing template matching tracking on the stored frame using the ROI position of the frame and the template.
  • Another object tracking method of the present invention includes a step of recognizing an object in a moving image by a learning recognition method at a first frame rate, and a template at a second frame rate higher than the first frame rate. From the step of tracking the target in the moving image by the template matching used and the image of the frame in which the recognition of the target by the learning recognition method is started, the result of continuing the template matching at the second frame rate has reached the present. Predicting the image of the current frame, correcting the difference between the ROI of the frame in which recognition of the object by the learning recognition method is started, and the ROI of the predicted current frame, and the corrected ROI Based on this, initializing the ROI position of the current frame.
  • ⁇ Learning recognition method may include deep learning.
  • the moving image may be a moving image taken by a high-speed camera.
  • the second frame rate may be 8 times or more the first frame rate.
  • Another aspect of the present invention is a target tracking system.
  • This object tracking system uses a template at a first frame rate, an object recognition unit that recognizes an object in a moving image by a learning recognition method, and a second frame rate that is higher than the first frame rate.
  • the object matching unit that tracks at least one object in the moving image by the template matching, the ROI of the frame where the object recognition by the learning recognition method is started, and the result of continuing the template matching at the second frame rate.
  • a ROI position initialization unit that initializes the ROI position of the current frame based on the corrected ROI.
  • Yet another aspect of the present invention is a target tracking program.
  • This object tracking program uses a template at a first frame rate to recognize at least one object in a moving image by a learning recognition method and at a second frame rate higher than the first frame rate.
  • the step of tracking the object in the moving image by the template matching, the ROI of the frame in which the recognition of the object by the learning recognition method is started, and the result of continuing the template matching at the second frame rate The computer is made to perform the steps of correcting the difference between the ROI of the frame and initializing the ROI position of the current frame based on the corrected ROI.
  • FIG. 11A and FIG. 11B show the x coordinate and the y coordinate of the tracked target, respectively. It is a figure which shows the result of the object tracking experiment by 6th Embodiment.
  • FIG. 11A and FIG. 11B show the x coordinate and the y coordinate of the tracked target, respectively. It is a figure which shows the result of the object tracking experiment by 9th Embodiment.
  • FIG. 1 shows a frame of a moving image according to the embodiment of the present invention.
  • the frames F 0 , F 1 , F 2 , F 3 , ..., F N ⁇ 1 are frames of moving images to be tracked.
  • the frames f 1b , f 1a , f 2b , and f 2a are frames in which target recognition is executed by a learning recognition method such as deep learning.
  • the frames fI 1b , fI 1a , fI 2b , and fI 2a are real images stored in a buffer or the like.
  • the target in the moving image is periodically recognized by the learning recognition method in the first cycle t1.
  • the reciprocal of the first cycle t1 is referred to as the first frame rate.
  • the ROI position is initialized based on the recognized object.
  • the target in the moving image is tracked by the template matching using the template in the second cycle t2.
  • the reciprocal of the second cycle t2 will be referred to as the second frame rate.
  • the calculation time required for object recognition by the learning method is t3.
  • the number of tracking targets in the moving image is not limited to one, and there may be a plurality of tracking targets.
  • the first cycle t1 is longer than the second cycle t2.
  • t1 N ⁇ t2.
  • t1 8 times or more than t2, that is, N ⁇ 8.
  • the first frame rate is 1 ⁇ 8 or less of the second frame rate.
  • f 1b indicates a frame at which recognition of the target is started by the learning recognition method at a certain time.
  • the ROI position of the frame F N ⁇ 1 is initialized to a new position based on the object recognition by the learning recognition method of the next cycle. Therefore, even if the tracking is missed in any one of the frames F 1 to F N-2 and the target is lost, the tracking is restarted in the frame after F N by the target recognition in the frame F N-1 . can do.
  • the frame f 1b in which the object recognition by the learning recognition method is started is delayed from the current frame CF by t3 in time. If the target moves greatly in the moving image during this t3, a large difference occurs between the target position (ROI position) in the frame f 1b and the target position in the current frame CF.
  • the embodiment corrects for this difference.
  • the real video of frames fI 1b to fI 1a stored in the buffer B1 is reproduced to track the target and correct the ROI position.
  • the reproduction of the actual video may be high-speed reproduction using all the stored frames or may be frame-by-frame reproduction of a subset of the frames extracted from the stored frames.
  • This ROI 1 is corrected by I 1a on the actual image. Then, the ROI position of the current frame CF is updated based on the corrected ROI.
  • the updated ROI position does not delay from the target position in the current frame CF, but always follows the current frame CF. Therefore, it is possible to realize smooth and uninterrupted target tracking.
  • FIGS. 2 to 8 show a cycle in which the object is recognized by the learning method at the first frame rate, that is, a flow for one cycle of the first cycle.
  • FIG. 2 is a flowchart of the target tracking method according to the first embodiment. At “start”, tracking of the object by a learning method for a certain first cycle is started.
  • the method recognizes at least one target in the moving image by the learning recognition method at the first frame rate.
  • Deep learning based on CNN for example, may be used as the learning recognition method.
  • the recognition of the target may be performed in two stages of (1) detection of a recognition candidate and (2) determination of a target. As a result, the image, position, size, etc. of the target ROI are recognized.
  • step S2 the method tracks the target in the moving image by template matching using the template at the second frame rate higher than the first frame rate.
  • Local area tracking by a correlation filter may be used for tracking an object in a moving image.
  • the local region tracking by the correlation filter may include processes such as (1) ROI image selection used in the correlation filter, (2) correlation calculation in frequency space, and (3) tracking ROI region update based on correlation peak detection.
  • the method includes the ROI of the frame in which the recognition of the object by the learning recognition method is started in step S1 and the ROI of the current frame that has reached the present as a result of continuing the template matching at the second frame rate in step S2.
  • the video images from the frame at which the recognition of the target is started by the learning recognition method to the current frame are stored in the buffer, and the real image in this buffer is reproduced to target the target. It may be done by tracking.
  • the reproduction of the actual video may be high-speed reproduction using all the frames stored in the buffer, or may be frame-by-frame reproduction of a subset of the frames extracted from the buffer.
  • step S4 the method initializes the ROI position of the current frame based on the ROI corrected in step S3.
  • the ROI position always follows the current frame without being delayed from the target position in the current frame. This makes it possible to realize smooth and uninterrupted target tracking.
  • FIG. 3 is a flowchart of the target tracking method according to the second embodiment.
  • the second embodiment includes step S41 instead of step S4 of the first embodiment.
  • Other processes are common to the first embodiment.
  • step S41 the method initializes the ROI position of the current frame at the first frame rate based on the ROI corrected in step S3. That is, in this embodiment, when an object is recognized by the learning recognition method at the first frame rate, the ROI position is initialized each time.
  • the recognition result obtained by the learning recognition method can be maximally used for updating the ROI position.
  • FIG. 4 is a flowchart of the target tracking method according to the third embodiment.
  • the third embodiment further includes step S5 in addition to the processes of the first embodiment. Other processes are common to the first embodiment.
  • step S5 the method initializes the template and ROI position at the first frame rate based on the object recognized by the learning recognition method in step S1. That is, in the present embodiment, the template and ROI position used for object tracking performed at the second frame rate are initialized each time the object is recognized by the learning recognition method at the first frame rate.
  • the recognition result obtained by the learning recognition method can be maximally used for updating the template and the ROI position.
  • FIG. 5 is a flowchart of the target tracking method according to the fourth embodiment.
  • the fourth embodiment further includes steps S42 and S6 in addition to the processes of the first embodiment. Other processes are common to the first embodiment.
  • step S6 the method compares the target recognized by the learning recognition method with the target tracked by the template matching in the frame where the recognition of the target is started. This comparison may include the positional deviation of the target ROI, the difference in the pattern of the template shape, and the like. If the comparison result in step S6 is less than or equal to the predetermined value, the ROI position is initialized based on the object tracked by the template matching in step S42. On the other hand, when the comparison result in step S6 is larger than the predetermined value, the ROI position of the current frame is initialized based on the corrected ROI in step S4. That is, in this embodiment, unless the tracking is functioning normally and there is a predetermined difference between the object recognized by the learning recognition method and the object tracked by the template matching, the ROI position is initialized. , Based on the objects tracked by template matching. Only if the object is lost due to tracking loss, the ROI position initialization is based on the object recognized by the learning recognition method.
  • the ROI position can be updated so that the tracking loci are continuous.
  • FIG. 6 is a flowchart of the target tracking method according to the fifth embodiment.
  • the fifth embodiment further includes steps S52 and S6 in addition to the processes of the third embodiment, and includes step S51 instead of step S5. Other processes are common to the third embodiment.
  • step S6 the method compares the object recognized by the learning recognition method with the object tracked by template matching. This comparison may include the positional deviation of the target ROI, the difference in the pattern of the template shape, and the like. If the comparison result in step S6 is less than or equal to the predetermined value, the template and ROI position are initialized based on the object tracked by the template matching in step S52. On the other hand, when the comparison result in step S6 is larger than the predetermined value, the template and the ROI position are initialized in step S51 based on the object recognized by the learning recognition method. That is, in the present embodiment, in the frame in which the recognition of the target is started, the tracking is functioning normally, and the predetermined difference between the target recognized by the learning recognition method and the target tracked by the template matching. Unless otherwise, the template and ROI position initialization is based on the objects tracked by template matching. Only if the tracking ROI deviates from the recognition result, the template and the ROI position are initialized based on the object recognized by the learning recognition method.
  • the recognition result obtained by the learning recognition method can be used for updating the template only when necessary.
  • FIG. 7 is a flowchart of the target tracking method according to the sixth embodiment.
  • the sixth embodiment further includes step S7 in addition to the processes of the first embodiment, and includes step S31 instead of step S3. Other processes are common to the first embodiment.
  • step S7 the method stores the frames from the frame in which recognition of the target by the learning recognition method is started to the current frame.
  • step S31 the method recognizes the target by performing tracking by template matching on the frame stored using the ROI position of the frame where the recognition of the target by the learning recognition method is started and the template. Correct the difference between the ROI of the started frame and the ROI of the current frame.
  • the template matching at this time is executed, for example, at a time corresponding to one frame at the second frame rate.
  • the ROI position can be corrected by executing the tracking by the template matching from the frame where the target recognition is started by the learning recognition method to the current frame.
  • FIG. 8 is a flowchart of the target tracking method according to the seventh embodiment.
  • the seventh embodiment further includes step S8 in addition to the processes of the first embodiment, and includes step S32 instead of step S3. Other processes are common to the first embodiment.
  • step S8 the method predicts the image of the current frame from the frame in which the recognition of the target is started by the learning recognition method in S1.
  • a known method such as linear prediction may be used for this prediction.
  • step S42 the method corrects the difference between the ROI of the frame whose recognition was started by the learning recognition method in step S1 and the ROI of the current frame predicted in step S8.
  • the processing amount of template matching can be greatly reduced by predicting the current frame instead of using the current frame of the real video.
  • FIG. 9 is a block diagram of an object tracking system according to the eighth embodiment.
  • the target tracking system 1 includes a target recognition unit 10, a target tracking unit 11, a correction unit 12, and an initialization unit 13.
  • the target recognition unit 10 recognizes a target in a moving image at a first frame rate by a learning recognition method.
  • the target tracking unit 11 tracks a target in a moving image by template matching using a template at a second frame rate higher than the first frame rate.
  • the correction unit 12 determines the ROI of the frame in which the object recognition unit 10 has started to recognize the object by the learning recognition method, and the target tracking unit 11 continues the template matching at the second frame rate. The difference between the ROI and the ROI is corrected.
  • the initialization unit 13 initializes the template and ROI position of the current frame based on the ROI corrected by the correction unit 12.
  • FIG. 10 is a block diagram of the target tracking system 2 according to the ninth embodiment.
  • the target tracking system according to the present embodiment includes a target tracking device 3 including a target recognition unit 10, a target tracking unit 11, a correction unit 12, and an initialization unit 13, and other peripheral devices.
  • the configuration and operation of the target tracking device 3 are the same as the configuration and operation of the target tracking system 1 according to the eighth example, and thus description thereof will be omitted.
  • the target tracking system 2 may include a high speed camera 14.
  • the high-speed camera 14 captures a moving image at a frame rate of, for example, 500 frames per second or higher, and transmits the captured moving image data to the target tracking device 3.
  • the target tracking system 2 may include an operation PC 15.
  • the operation PC 15 is operated by the operator and transmits the setting data and various commands set by the operator to the target tracking device 3.
  • the target tracking device 3 may include the display device 16, the smartphone 17, or the server 18.
  • the tracking target data tracked by the target tracking device 3 is transmitted to the display device 16 and the smartphone 17, and is displayed as a moving image on these devices.
  • the tracking target data tracked by the target tracking device 3 is transmitted to the server 18 and accumulated as moving image data.
  • the ROI position always follows the current frame without being delayed from the target position in the current frame, so that smooth and uninterrupted target tracking can be realized.
  • step S1 the method recognizes a plurality of objects in the moving image at the first frame rate by the learning recognition method.
  • the plurality of objects may be a plurality of objects moving in a moving image captured by a single camera, for example.
  • the speed of movement of these objects may be different.
  • the learning recognition method in this case may also use CNN-based deep learning as in the case of tracking a single target.
  • step S2 the method tracks a person and a car in a moving image by template matching using a template at a second frame rate higher than the first frame rate.
  • Local area tracking by a correlation filter may be used for tracking.
  • the local region tracking by the correlation filter may include processes such as (1) ROI image selection used in the correlation filter, (2) correlation calculation in frequency space, and (3) tracking ROI region update based on correlation peak detection.
  • step S3 the method relates to a person and an automobile, and the result of continuing template matching at the second frame rate in step S2 with the ROIs of the person and the vehicle whose recognition is started by the learning recognition method in step S1.
  • the difference between the ROI of the current frame and the ROI that reached is corrected.
  • this correction is performed, for example, by storing the video images from the frame where the recognition of the person and the car is started by the learning recognition method to the current frame in the buffer, and reproducing the real image in this buffer. It may be done by tracking.
  • the reproduction of the actual video may be high-speed reproduction using all the frames stored in the buffer, or may be frame-by-frame reproduction of a subset of the frames extracted from the buffer.
  • step S4 the method initializes the ROI position of each of the person and the car in the current frame based on the ROI corrected in step S3.
  • the ease of tracking varies depending on the target. That is, in general, an object moving at high speed is more difficult to track than an object moving at low speed. This causes the objects to be mistaken for each other during tracking, or the object tracking may fail due to occlusion caused by the intersection of two images on the screen.
  • the ROI positions of a plurality of objects are always followed by the current frame without being delayed in the current frame, so smooth and uninterrupted tracking is realized and continuous tracking is possible.
  • the above embodiments can be applied to any moving image.
  • the embodiment may be applied to a moving image captured by a high-speed camera which has been widely used in industry in recent years because the performance is remarkably improved.
  • the embodiment of the present invention is particularly effective for a moving image captured by a high speed camera.
  • the second frame rate is higher than the first frame rate
  • these frame rates may have arbitrary values.
  • the first frame rate may be 100 frames or less per second and the second frame rate may be 500 frames or more per second.
  • learning-based techniques such as deep learning exceed 100 frames per second, there are great disadvantages in computer cost and calculation time.
  • FIG. 11 is a figure which shows the result of the object tracking experiment by the method which concerns on a comparative example.
  • the technique described in Non-Patent Document 1 was used as a comparative example. The experiment was performed by tracking a moving image acquired at a sampling rate of 500 fps using a correlation filter at the same frame rate of 500 fps and performing object recognition by deep learning at a frame rate of 50 fps. As long as the tracking is working properly, the ROI location and template will be updated by the correlation filter and tracking will continue. When tracking is lost and the object is lost, the template ROI is updated based on the object recognized by deep learning, and tracking is restarted based on these.
  • 11A and 11B show the x-coordinate and the y-coordinate of the tracked target on the screen, respectively.
  • the x coordinate means the horizontal direction of the image
  • the y coordinate means the vertical direction of the image (the same applies hereinafter).
  • the graph is broken at multiple times and tracking fails. Also, even where tracking is successful, the graph does not have a smooth curve. These are considered to represent that correct tracking is not performed because the frame at the time of object recognition by deep learning is delayed with respect to the current frame.
  • FIG. 12 is a diagram showing a result of an object tracking experiment according to the sixth embodiment of the present invention.
  • the difference between this embodiment and the comparative example is that this embodiment includes a step of correcting the difference in ROI between the frame at the time of object recognition by deep learning and the current frame.
  • Other experimental conditions are the same as those of the comparative example.
  • 12A and 12B show the x-coordinate and the y-coordinate of the tracked target on the screen, respectively. Unlike FIG. 11, there is no break in the graph over the entire measurement time of 5 seconds. Also, the entire graph draws a generally smooth curve. This is considered to indicate that correct object tracking is realized, and the effectiveness of the present invention was confirmed.
  • FIG. 13 is a diagram showing a result of a target tracking experiment according to the ninth embodiment of the present invention.
  • FIG. 13 shows the x-coordinates on the object or “person” and “in-vehicle” screens.
  • the tracked car is almost unbroken in the graph over the entire 5 second measurement time.
  • the tracked person has occlusion due to the car passing in front of the camera between time 3 seconds and 3.7 seconds, and the graph is interrupted during this time.
  • the effectiveness of the present invention was confirmed even when occlusion occurred in the middle of a plurality of subjects having different exercise speeds.
  • the second frame rate may match the frame rate when capturing a moving image.
  • the second frame rate may relate to a part of the frames of the captured moving image. That is, tracking of an object by template matching may be performed frame by frame or a subset of frames.
  • the high-speed camera may be a non-visible light photographing camera for visualizing non-visible light such as infrared rays, instead of the visible light photographing camera for photographing an image that can be recognized by the naked eye.
  • the method according to the present invention is not limited to fixed cameras such as surveillance cameras, but is also used in video in a wide range of fields such as images taken by mobile cameras such as vehicle-mounted cameras and drone cameras, and cameras with large movements such as pans. It is applicable to images and has high industrial applicability.
  • the present invention relates to a target tracking method, a target tracking system, and a target tracking program.
  • Step S1 Recognizing a target in a moving image by a learning recognition method at a first frame rate S2 ...
  • S31 the frame in which the recognition of the target by the learning recognition method is started
  • Step S32 By performing tracking by template matching on the frame stored by using the ROI position and the template of the target ROI, the difference between the ROI of the frame in which the recognition of the target is started and the ROI of the current frame is corrected.
  • Step S4 of correcting a difference between the ROI of the current frame and the ROI of the corrected current frame; Step S4 of initializing the ROI position of the current frame based on the corrected ROI; Step S42 of initializing the ROI position of the current frame at a frame rate of 1 ... Initializing the ROI position of the current frame based on the object tracked by template matching S5 ... Recognized by the learning recognition method Initialize the template and ROI position at the first frame rate based on the target object S51 ... Initialize the template and ROI position of the current frame based on the target recognized by the learning recognition method Step S52 ...
  • Step S6 of initializing the template and ROI position of the current frame based on the difference between the target recognized by the learning recognition method and the target tracked by the template matching in the frame where the recognition of the target is started.
  • Step S7 storing the frames from the frame where the recognition of the object by the learning recognition method is started to the current frame
  • S8 the image of the frame where the recognition of the object by the learning recognition method is started From Step 1 of predicting the image of the current frame 1 ... Target tracking system 10 ... Target recognition unit 11 ... Target tracking unit 12 ... Correction unit 13 ... Initialization unit

Abstract

ステップS1は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する。ステップS2は、学習的認識手法により認識された対象に基づいて、ROI位置を初期化する。ステップS3は、ROI位置に基づいて、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。ステップS4は、学習的認識手法により対象が認識された時点のフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったフレームのROIとの間の差異を補正する。

Description

対象追跡方法、対象追跡システムおよび対象追跡プログラム
 本発明は、対象追跡方法、対象追跡システムおよび対象追跡プログラムに関する。
 対象追跡技術は、カメラで撮影した動画像中の特定の対象を認識し、追跡する技術である。近年の代表的な対象追跡技術には、テンプレートマッチングを用いて対象を局所的に追跡する手法(以下、局所的対象追跡手法」という)や、ディープラーニングなどの学習理論に基づく処理により対象を認識する手法(以下、「学習的認識手法」という)などがある(例えば非特許文献1)。
姜明俊、高木健、石井抱 「ディープラーニングを用いた高速対象追跡」 日本機械学会ロボティクス・メカトロニクス講演会2018 講演論文集 2A1-K17(2018)
 局所的対象追跡手法は、対象近傍のみで局所探索を行うため、実行速度を高速化できるというメリットがある反面、追跡開始時に初期テンプレートの人為的指定が必要である。このため、背景画面の複雑さや、対象のオクルージョン・姿勢変化等に起因して追跡の失敗が多発すると、追跡が困難になるという問題がある。
 一方、畳み込みニューラルネットワーク(CNN)をベースとする学習的認識手法では、近年ディープラーニングの性能が著しく向上している。高性能GPUへの並列実装と相まって、学習的認識手法は、数十fps(frame per second)といったフレームレートでのリアルタイム対象認識を実現している。
 学習的認識手法は、フレームごとに独立した形で対象認識を行うため、一度対象を見失っても瞬時に対象を再認識できるというメリットがある。しかしながら、必ずしもすべてのフレームで認識が安定するとは限らないため、認識結果が間欠的になるという問題がある。またアクティブビジョン等の機械的なフィードバックでは、数百fpsといった高速リアルタイム対象検出が要求される。しかしながら、これは現状のコンピュータ技術では困難である。このように学習的認識手法には、実行速度上の限界があるという問題がある。
 これに対し、近年、局所的対象追跡手法と学習的認識手法の双方のメリット活かしたハイブリッド対象追跡手法が提案されている(例えば非特許文献1)。非特許文献1に記載の技術では、あるフレームレートで実行される学習的認識手法による対象認識と、これより高いフレームレートで実行される局所的対象追跡手法による対象追跡とが並列動作している。
 この技術では、追跡が正常に機能している限り、相関フィルタによってROI(Region Of Interest)の位置とテンプレートとが更新され、追跡が継続される。一方、追跡が外れて対象が見失われた場合は、学習的認識手法で認識された対象を基にROI位置とテンプレートとが初期化され、これらを基に新たな追跡が行われる。これにより、オクルージョンなど、対象のアピアランス変化に対しても、ロバストな対象追跡が実現される。
 しかし実際には、学習的認識手法による対象認識は、一定の計算時間を必要とする。このため、あるフレームを基に対象認識処理を開始してから、この処理が完了して対象が認識されるまでの間に、上記の計算時間が経過する。ROI位置やテンプレート初期化の対象となるフレームは、テンプレートマッチングを継続した結果現在に至ったフレーム(以下、「カレントフレーム」という)である。従って、対象認識処理を開始したフレームは、カレントフレームに対して遅延している。例えば、動画像のサンプリングレートが500fpsで、対象認識処理を開始をしたフレームがカレントフレームに対して30フレーム前のフレームだった場合、この遅延は60msとなる。
 この遅延の間にフレーム内で対象が動くと、対象認識処理を開始したフレームと、カレントフレームとの間で、ROI位置のずれが生じる。特に、高速カメラで撮影された動画像や、フレーム内の対象の動きが大きい動画像の場合、撮影中にカメラを左右にパンしたりすることにより発生するこのずれは大きいものとなる。このような場合、ハイブリッド対象追跡手法であっても、連続的で安定した追跡が困難となってしまう。
 本発明はこうした状況に鑑みてなされたものであり、その目的は、高速な動画像に対しても、連続的で安定した対象追跡を実現する技術を提供することにある。
 上記課題を解決するために、本発明のある態様の対象追跡方法は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える。
 差異を補正するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像を再生するステップを備えてよい。
 実画像を再生するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像の一部を抽出したものを再生してもよい。
 カレントフレームのROI位置は、第1のフレームレートで初期化されてよい。
 実施形態は、学習的認識手法により認識された対象に基づいて、第1のフレームレートで、テンプレートを初期化するステップをさらに備えてよい。
 実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、ROI位置は、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、ROI位置は、補正されたROIに基づいて初期化されてよい。
 実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、テンプレートは、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、テンプレートは、学習的認識手法により認識された対象に基づいて初期化されてよい。
 実施形態は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、差異を補正するステップは、学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて、記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われてよい。
 本発明の別の対象追跡方法は、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームの画像から、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームの画像を予測するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、予測されたカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える。
 学習的認識手法は、ディープラーニングを含んでよい。
 動画像は、高速カメラにより撮影された動画像であってよい。
 第2のフレームレートは、第1のフレームレートの8倍以上であってよい。
 本発明の別の態様は、対象追跡システムである。この対象追跡システムは、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識する対象認識部と、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の少なくとも1つの対象を追跡する対象追跡部と、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正部と、補正されたROIに基づいて、カレントフレームのROI位置を初期化するROI位置初期化部と、を備える。
 本発明のさらに別の態様は、対象追跡プログラムである。この対象追跡プログラムは、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、をコンピュータに実行させる。
 なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、高速な動画像に対しても、連続的で安定した対象追跡を実現することができる。
実施形態に係る動画像のフレームを示す図である。 第1実施形態に係る対象追跡方法のフロー図である。 第2実施形態に係る対象追跡方法のフロー図である。 第3実施形態に係る対象追跡方法のフロー図である。 第4実施形態に係る対象追跡方法のフロー図である。 第5実施形態に係る対象追跡方法のフロー図である。 第6実施形態に係る対象追跡方法のフロー図である。 第7実施形態に係る対象追跡方法のフロー図である。 第8実施形態に係る対象追跡システムのブロック図である。 第9実施形態に係る対象追跡システムのブロック図である。 比較例に係る方法による対象追跡実験の結果を示す図である。図11(a)、図11(b)は、それぞれ追跡された対象のx座標、y座標を示す。 第6実施形態による対象追跡実験の結果を示す図である。図11(a)、図11(b)は、それぞれ追跡された対象のx座標、y座標を示す。 第9実施形態による対象追跡実験の結果を示す図である。
 実施形態を具体的に説明する前に、概要を説明する。
 図1は、本発明の実施形態に係る動画像のフレームを示す。フレームF、F、F、F、…、FN-1は、追跡の対象となる動画像のフレームである。フレームf1b、f1a、f2b、f2aは、ディープラーニングなどの学習的認識手法により、対象認識が実行されるフレームである。フレームfI1b、fI1a、fI2b、fI2aは、バッファ等に記憶された実画像である。
 図1の例では、第1の周期t1で、学習的認識手法により、動画像内の対象が周期的に認識される。以下、第1の周期t1の逆数を第1のフレームレートと呼ぶ。学習的認識手法により対象が認識されると、この認識された対象に基づいて、ROI位置が初期化される。この初期化されたROI位置に基づいて、第2の周期t2で、テンプレートを用いたテンプレートマッチングにより、動画像内の対象が追跡される。以下、第2の周期t2の逆数を第2のフレームレートと呼ぶ。また、学習的手法による対象認識に要する計算時間をt3とする。なお動画像内の追跡対象は1つだけとは限らず、複数あってもよい。
 第1の周期t1は、第2の周期t2より長い。ここでは、t1=N・t2であるとする。t1はt2の8倍以上であること、すなわちN≧8であることが望ましい。換言すれば、第1のフレームレートは第2のフレームレートの8分の1以下であることが望ましい。
 f1bは、ある時点で、学習的認識手法により対象の認識が開始されるフレームを示す。このときの時刻tを-t3とする。前述の通り対象認識に要する計算時間がt3であるので、t=0でこの計算が完了し、フレームf1aで対象が認識される。
 f1bの時点からt1の時間が経過してt=t1-t3になると、フレームf2bに対して、次の周期の対象認識が開始される。そして、t=t1でこの対象認識が完了する。以下同様である。
 t=-t3で対象の認識が開始されてから、t=0で対象の認識が完了するまでの実画像は、バッファ等に記憶される。本例では、t=-t3における実画像fI1bからt=0における実画像fI1aが、バッファB1に記憶される。
 次の対象認識の周期では、t=t1-t3における実画像fI2bからt=t1における実画像fI2aが、バッファB2に記憶される。以下同様である。
 F、F、F、F、…は、それぞれt=0、t2、2・t2…で順次対象が追跡されたフレームを示す。前述の通りt=0で学習的認識手法により対象が認識されるので、この時点のフレームFのROI位置が更新される。このフレームFをカレントフレームCF(Current Frame)と呼ぶ。
 時刻t=t1=N・t2で、次の周期の学習的認識手法による対象認識に基づいて、フレームFN-1のROI位置が新たな位置に初期化される。従って、もしF~FN-2のいずれかのフレームで追跡が外れて対象が見失われた場合であっても、フレームFN-1における対象認識により、F以降のフレームで追跡を再開することができる。
 図1の下段に示されるように、学習的認識手法による対象認識が開始されたフレームf1bは、カレントフレームCFに対し、時間にしてt3だけ遅延している。もしこのt3の間に動画内で対象が大きく動くと、フレームf1b内の対象位置(ROI位置)と、カレントフレームCF内の対象位置との間に大きな差異が生じる。
 実施形態は、この差異を補正する。実施形態は、バッファB1内に記憶したフレームfI1bからfI1aまでの実映像を再生して対象を追跡し、ROI位置を補正する。この実映像の再生は、記憶したすべてのフレームを用いた高速再生であってもよく、記憶したフレームから抽出したフレームのサブセットのコマ送り的な再生であってもよい。
 図1の中段に示されるように、t=-t3ではフレームfI1bの下左隅にあったROII1bは、t=0ではフレームfI1aの下右隅のI1aに移動している。一方、図1の下段に示されるように、t=0で対象認識されたフレームf1aのROIは、t=-t3におけるフレームf1bに基づいて計算されているので、フレームf1aの下左隅にある。このROIは、実画像にI1aよって補正される。そしてこの補正されたROIに基づいて、カレントフレームCFのROI位置が更新される。
 このようにして、更新されるROI位置は、カレントフレームCF内の対象位置から遅延したものではなく、常にカレントフレームCFに追随したものとなる。従って、滑らかで途切れのない対象追跡を実現することができる。
 以下、図2~図8を参照して、本発明の種々の実施形態を説明する。実施形態および変形例では、同一または同等の構成要素には同一の符号を付すものとし、適宜重複した説明は省略する。図2~図8のフロー図は、第1のフレームレートで、学習的手法により対象が認識される周期、すなわち第1の周期についての1周期分のフローを示すものである。
(第1実施形態)
 図2は、第1実施形態に係る対象追跡方法のフロー図である。
 「開始」で、ある第1の周期についての学習的手法による対象の追跡が開始される。
 ステップS1で本方法は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する。学習的認識手法には、例えばCNNをベースとするディープラーニングが使われてよい。対象の認識は例えば、(1)認識候補の検出、(2)ターゲットの決定、の2段階で行われてよい。これによりターゲットROIの画像、位置、サイズなどが認識される。
 ステップS2で本法は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。動画像内の対象の追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、(1)相関フィルタに用いるROI画像選択、(2)周波数空間での相関計算、(3)相関ピーク検出に基づく追跡ROI領域更新、などの処理を含んでよい。
 ステップS3で本方法は、ステップS1で学習的認識手法による対象の認識が開始されたフレームのROIと、ステップS2で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して対象を追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。
 ステップS4で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームのROI位置を初期化する。
 「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第1の周期についての学習的手法による対象の追跡が開始される。以下、第1の周期ごとに同様のフローが繰り返される。
 本実施例によれば、ROI位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなる。これにより、滑らかで途切れのない対象追跡を実現することができる。
(第2実施形態)
 図3は、第2実施形態に係る対象追跡方法のフロー図である。
 第2実施形態は、第1実施形態のステップS4に代えて、ステップS41を備える。その他の処理は、第1実施形態と共通である。
 ステップS41で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームのROI位置を、第1のフレームレートで初期化する。すなわち本実施形態では、第1のフレームレートで学習的認識手法により対象が認識されると、それに応じて、ROI位置は毎回初期化される。
 本実施形態によれば、学習的認識手法で得た認識結果を、ROI位置の更新に最大限利用することができる。
(第3実施形態)
 図4は、第3実施形態に係る対象追跡方法のフロー図である。
 第3実施形態は、第1実施形態の各処理に加えて、ステップS5をさらに備える。その他の処理は、第1実施形態と共通である。
 ステップS5で本方法は、ステップS1で学習的認識手法により認識された対象に基づいて、第1のフレームレートでテンプレート及びROI位置を初期化する。すなわち本実施形態では、第2のフレームレートで行われる対象追跡に用いられるテンプレート及びROI位置が、第1のフレームレートで学習的認識手法によって対象が認識される度に、毎回初期化される。
 本実施形態によれば、学習的認識手法で得た認識結果を、テンプレート及びROI位置の更新に最大限利用することができる。
(第4実施形態)
 図5は、第4実施形態に係る対象追跡方法のフロー図である。
 第4実施形態は、第1実施形態の各処理に加えて、ステップS42およびステップS6をさらに備える。その他の処理は、第1実施形態と共通である。
 ステップS6で本方法は、対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のROIの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップS6での比較結果が所定の値以下のときは、ステップS42で、テンプレートマッチングにより追跡された対象に基づいてROI位置を初期化する。一方、ステップS6での比較結果が所定の値より大きいときは、ステップS4で、補正されたROIに基づいてカレントフレームのROI位置を初期化する。すなわち本実施形態では、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、ROI位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡が外れて対象が見失われた場合に限り、ROI位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。
 本実施形態によれば、追跡軌跡が連続するように、ROI位置を更新することができる。
(第5実施形態)
 図6は、第5実施形態に係る対象追跡方法のフロー図である。
 第5実施形態は、第3実施形態の各処理に加えてステップS52およびステップS6をさらに備え、ステップS5に代えてステップS51を備える。その他の処理は、第3実施形態と共通である。
 ステップS6で本方法は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のROIの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップS6での比較結果が所定の値以下のときは、ステップS52で、テンプレートマッチングにより追跡された対象に基づいてテンプレート及びROI位置を初期化する。一方、ステップS6での比較結果が所定の値より大きいときは、ステップS51で、学習的認識手法により認識された対象に基づいてテンプレート及びROI位置を初期化する。すなわち本実施形態では、対象の認識が開始されたフレームにおいて、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、テンプレート及びROI位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡ROIが認識結果から逸脱した場合に限り、テンプレート及びROI位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。
 本実施形態によれば、必要な場合にのみ、学習的認識手法で得た認識結果を、テンプレートの更新に利用することができる。
(第6実施形態)
 図7は、第6実施形態に係る対象追跡方法のフロー図である。
 第6実施形態は、第1実施形態の各処理に加えてステップS7をさらに備え、ステップS3に代えてステップS31を備える。その他の処理は、第1実施形態と共通である。
 ステップS7で本方法は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶する。
 ステップS31で本方法は、学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正する。このときのテンプレートマッチングは、例えば、第2のフレームレートにおける1フレーム分に相当する時間で実行される。
 本実施形態によれば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのテンプレートマッチングによる追跡を実行することより、ROI位置を補正することができる。
(第7実施形態)
 図8は、第7実施形態に係る対象追跡方法のフロー図である。
 第7実施形態は、第1実施形態の各処理に加えてステップS8をさらに備え、ステップS3に代えてステップS32を備える。その他の処理は、第1実施形態と共通である。
 ステップS8で本方法は、S1で学習的認識手法により対象の認識が開始されたフレームから、カレントフレームの画像を予測する。この予測には、線形予測などの既知の手法が用いられてよい。
 ステップS42で本方法は、ステップS1で学習的認識手法により対象の認識が開始されたフレームのROIと、ステップS8で予測されたカレントフレームのROIとの間の差異を補正する。
 本実施形態によれば、実映像のカレントフレームを用いる代わりに、カレントフレームを予測することにより、テンプレートマッチングの処理量を大きく削減することができる。
(第8実施形態)
 図9は、第8実施形態に係る対象追跡システムのブロック図である。
 対象追跡システム1は、対象認識部10と、対象追跡部11と、補正部12と、初期化部13と、を備える。
 対象認識部10は、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識する。対象追跡部11は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。補正部12は、対象認識部10で学習的認識手法による対象の認識が開始されたフレームのROIと、対象追跡部11で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。初期化部13は、補正部12で補正されたROIに基づいて、カレントフレームのテンプレート及びROI位置を初期化する。
 図10は、第9実施形態に係る対象追跡システム2のブロック図である。
 本実施形態に係る対象追跡システムは、対象認識部10と、対象追跡部11と、補正部12と、初期化部13と、を備える対象追跡装置3と、その他の周辺装置を含む。対象追跡装置3の構成および動作は、第8実施例に係る対象追跡システム1の構成及び動作と共通であるため、説明を省略する。
 対象追跡システム2は、高速カメラ14を備えてよい。高速カメラ14は、例えば毎秒500フレーム以上のフレームレートで動画像を撮影し、撮影した動画像データを対象追跡装置3に送信する。
 対象追跡システム2は、操作用PC15を備えてよい。操作用PC15は操作者によって操作され、操作者が設定した設定データや各種のコマンドを対象追跡装置3に送信する。
 対象追跡装置3は、表示装置16、スマートフォン17またはサーバ18を備えてよい。対象追跡装置3で追跡された追跡対象データは、表示装置16やスマートフォン17に送信され、これらの装置で動画像として表示される。あるいは対象追跡装置3で追跡された追跡対象データは、サーバ18に送信され、動画像データとして蓄積される。
 本実施例によれば、ROI位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなるので、滑らかで途切れのない対象追跡を実現することができる。
(第9実施形態)
 追跡の対象は複数あってもよい。特にこれらの対象は、異なる速度で運動していてもよい。以下、図2を参照して、第9実施形態に係る対象追跡方法のフローを説明する。「開始」で、ある第1の周期についての学習的手法による対象の追跡が開始される。
 ステップS1で本方法は、第1のフレームレートで、学習的認識手法により、動画像内の複数の対象を認識する。複数の対象は、例えば単一のカメラで撮影された動画像内で運動する複数の対象物であってよい。特にこれらの対象物の運動速度は異なっていてもよい。以下、例示として、第1の対象として「人」、第2の対象として「自動車」を認識するものとする。なおこの場合の学習的認識手法も、単一の対象を追跡する場合と同様、例えばCNNをベースとするディープラーニングが使われてよい。
 ステップS2で本法は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の人と自動車をそれぞれ追跡する。追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、(1)相関フィルタに用いるROI画像選択、(2)周波数空間での相関計算、(3)相関ピーク検出に基づく追跡ROI領域更新、などの処理を含んでよい。
 ステップS3で本方法は、人および自動車に関し、ステップS1で学習的認識手法による認識が開始されたフレームの人および自動車のROIと、ステップS2で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により人および自動車の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。
 ステップS4で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームの人および自動車のそれぞれのROI位置を初期化する。
 「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第1の周期についての学習的手法による人および自動車の追跡が開始される。以下、第1の周期ごとに同様のフローが繰り返される。
 従来の対象追跡技術では、運動速度の異なる複数の対象物を追跡しようとした場合、対象により追跡のしやすさが異なる。すなわち、一般に高速で運動する対象は、低速で運動する対象より追跡が困難である。これは、追跡中に互いに対象物を取り違えてしまったりすることや、画面上で2つの画像が交錯することにより発生するオクルージョンに起因して対象の追跡が失敗したりすることの原因となる。本実施形態によれば、複数の対象のそれぞれのROI位置がカレントフレームに遅延することなく、常にカレントフレームに追従したものとなるため、滑らかで途切れのない追跡が実現され、継続した追跡が可能となる。
 以上の実施形態は、任意の動画像に適用することができる。特に実施形態は、近年性能の向上が著しく、産業上広く用いられている高速カメラにより撮影された動画像に適用してよい。画像取り込みのサンプリングレートが高い高速カメラの場合、対象追跡技術における前述の課題は特に深刻となる。従って、本発明の実施形態は、高速カメラにより撮影された動画像に対して特に効果的である。
 第2のフレームレートの方が第1のフレームレートより高い限り、これらのフレームレートは任意の値であってよい。一例として、第1のフレームレートは毎秒100フレーム以下であってよく、第2のフレームレートは毎秒500フレーム以上であってよい。ディープラーニング等の学習的手法は、毎秒100フレームを超えると、計算機コストや計算時間上のデメリットが大きい。一方、現在および将来の高速カメラの性能や仕様における要求条件に照らせば、テンプレートマッチングによる追跡は、毎秒500フレーム以上で行われることが望ましい。
(検証実験)
 本発明者らは、本発明の効果を確認するために、実施形態による対象追跡実験を行った。
 図11は、比較例に係る方法による対象追跡実験の結果を示す図である。
 ここでは比較例として、非特許文献1に記載の技術を用いた。実験は、サンプリングレート500fpsで取得した動画像に対し、これと同じフレームレート500fpsで相関フィルタを用いた追跡を行うとともに、フレームレート50fpsでディープラーニングによる対象認識を行うことにより行った。追跡が正常に機能している限り、ROI位置とテンプレートは相関フィルタによって更新され、追跡が継続される。追跡が外れて対象が見失われた場合は、ディープラーニングで認識された対象を基にテンプレートROIが更新され、これらを基に追跡が再開される。
 図11(a)、図11(b)は、それぞれ追跡された対象の、画面上におけるx座標、y座標を示す。ここでx座標は画像の水平方向を、y座標は画像の垂直方向をそれぞれ意味する(以下同様)。図示されるように、グラフは複数の時点で途切れており、追跡が失敗している。また追跡が成功しているところであっても、グラフは滑らかな曲線を描いていない。これらは、ディープラーニングによる対象認識時点のフレームがカレントフレームに対して遅延していることに起因して、正しい追跡が行われていないことを表すと考えられる。
 図12は、本発明に係る第6実施形態による対象追跡実験の結果を示す図である。
 本実施形態と比較例との違いは、本実施形態が、ディープラーニングによる対象認識時点のフレームとカレントフレームとの間のROIの差異を補正するステップを備える点である。その他の実験条件は、比較例と共通である。
 図12(a)、図12(b)は、それぞれ追跡された対象の、画面上におけるx座標、y座標を示す。図11と異なり、測定時間の5秒間全体にわたって、グラフには途切れがない。またグラフ全体は、概ね滑らかな曲線を描いている。これは正しい対象追跡が実現されていることを表すと考えられ、本発明の有効性が確認された。
 図13は、本発明の第9実施形態による対象追跡実験の結果を示す図である。図13は、対象すなわち「人」と「自動車の」画面上におけるx座標を示す。追跡された自動車は、測定時間の5秒間全体にわたって、グラフにはほぼ途切れがない。一方、追跡された人は、時刻3秒から3.7秒の間にカメラの前を自動車が通過したためオクルージョンが発生し、この間グラフが途切れている。しかしながら自動車が通過した後に即座に認識がされ、その後の継続した追跡に成功している。このように、運動速度の異なる複数の対象に対して、途中にオクルージョンが発生した場合であっても、本発明の有効性が確認された。ただし移動体は反転や方向転換時などでは停止期間もあるため、速度の概念は速度=0を含むものとする。
 以上、本発明を実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 例えば第2のフレームレートは、動画像を取り込むときのフレームレートと一致していてよい。あるいは第2のフレームレートは、取り込んだ動画像のフレームの一部のフレームに関するものであってもよい。すなわち、テンプレートマッチングによる対象の追跡は、フレームバイフレームで行ってもよいし、フレームのサブセットで行ってもよい。
 高速カメラは、肉眼で認識できる画像を撮影するための可視光撮影カメラに代えて、赤外線等の非可視光を可視化するための非可視光撮影カメラであってもよい。
 本発明による手法は、監視カメラ等の固定カメラに限らず、車載用カメラやドローン用カメラなどの移動体用カメラ、パンなどの大きな動きを伴うカメラで撮影された画像など、広い分野での動画像に適用が可能であり、産業上の利用性が高いものである。
 本発明は、対象追跡方法、対象追跡システムおよび対象追跡プログラムに関する。
 S1・・・第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップ
 S2・・・第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップ
 S3・・・対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正するステップ
 S31・・・学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正するステップ
 S32・・・学習的認識手法による対象の認識が開始されたフレームのROIと、予測されたカレントフレームのROIとの間の差異を補正するステップ
 S4・・・補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップ
 S41・・・補正されたROIに基づいて、第1のフレームレートで、カレントフレームのROI位置を初期化するステップ
 S42・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのROI位置を初期化
 S5・・・学習的認識手法により認識された対象に基づいて、第1のフレームレートで、テンプレート及びROI位置を初期化するステップ
 S51・・・学習的認識手法により認識された対象に基づいて、カレントフレームのテンプレート及びROI位置を初期化するステップ
 S52・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのテンプレート及びROI位置を初期化するステップ
 S6・・・対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との差を比較するステップ
 S7・・・学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップ
 S8・・・学習的認識手法による対象の認識が開始されたフレームの画像から、
カレントフレームの画像を予測するステップ
 1・・・対象追跡システム
 10・・・対象認識部
 11・・・対象追跡部
 12・・・補正部
 13・・・初期化部

Claims (14)

  1.  第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、
     前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
     前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、
     前記補正されたROIに基づいて、前記カレントフレームのROI位置を初期化するステップと、を備える、
    対象追跡方法。
  2.  前記差異を補正するステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像を再生するステップを備える、
    請求項1に記載の対象追跡方法。
  3.  前記実画像を再生するステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像の一部を抽出したものを再生する、
    請求項2に記載の対象追跡方法。
  4.  前記カレントフレームのROI位置は、前記第1のフレームレートで初期化されることを特徴とする、
    請求項1乃至3のいずれか一項に記載の対象追跡方法。
  5.  前記学習的認識手法により認識された対象に基づいて、前記第1のフレームレートで、前記テンプレートを初期化するステップをさらに備える、
    請求項1乃至4のいずれか一項に記載の対象追跡方法。
  6.  対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
     前記比較するステップでの比較結果が所定の値以下のときは、前記ROI位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
     前記比較するステップでの比較結果が所定の値より大きいときは、前記ROI位置は、前記補正されたROIに基づいて初期化されることを特徴とする、
    請求項1乃至3のいずれか1項に記載の対象追跡方法。
  7.  対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
     前記比較するステップでの比較結果が所定の値以下のときは、前記テンプレート及びROI位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
     前記比較するステップでの比較結果が所定の値より大きいときは、前記テンプレート及びROI位置は、前記学習的認識手法により認識された対象に基づいて初期化されることを特徴とする、
    請求項1乃至3のいずれか一項に記載の対象追跡方法。
  8.  前記学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、
     前記差異を補正するステップは、前記学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて、前記記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われることを特徴とする、
    請求項1に記載の対象追跡方法。
  9.  第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップと、
     前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
     前記学習的認識手法による対象の認識が開始されたフレームの画像から、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームの画像を予測するステップと、
     前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記予測されたカレントフレームのROIとの間の差異を補正するステップと、
     前記補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える、
    対象追跡方法。
  10.  前記学習的認識手法は、ディープラーニングを含むことを特徴とする、
    請求項1乃至9のいずれか一項に記載の対象追跡方法。
  11.  前記動画像は、高速カメラにより撮影された動画像であることを特徴とする、
    請求項1乃至10のいずれか一項に記載の対象追跡方法。
  12.  前記第2のフレームレートは、前記第1のフレームレートの8倍以上であることを特徴とする、
    請求項1乃至11のいずれか一項に記載の対象追跡方法。
  13.  第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する対象認識部と、
     前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡する対象追跡部と、
     前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正部と、
     前記補正されたROIに基づいて、前記カレントフレームのROI位置を初期化するROI位置初期化部と、を備える、
    対象追跡システム。
  14.  第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、
     前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
     前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、
     前記補正されたROIに基づいて、前記カレントフレームのROI位置を初期化するステップと、をコンピュータに実行させる
    対象追跡プログラム。
PCT/JP2019/041143 2018-10-18 2019-10-18 対象追跡方法、対象追跡システムおよび対象追跡プログラム WO2020080535A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201980058513.9A CN112655018A (zh) 2018-10-18 2019-10-18 对象追踪方法、对象追踪系统以及对象追踪程序
JP2020553348A JP7477168B2 (ja) 2018-10-18 2019-10-18 対象追跡方法、対象追跡システムおよび対象追跡プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018196575 2018-10-18
JP2018-196575 2018-10-18

Publications (1)

Publication Number Publication Date
WO2020080535A1 true WO2020080535A1 (ja) 2020-04-23

Family

ID=70283112

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/041143 WO2020080535A1 (ja) 2018-10-18 2019-10-18 対象追跡方法、対象追跡システムおよび対象追跡プログラム

Country Status (2)

Country Link
CN (1) CN112655018A (ja)
WO (1) WO2020080535A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489085A (zh) * 2020-12-11 2021-03-12 北京澎思科技有限公司 目标跟踪方法、目标跟踪装置、电子设备及存储介质
JP2021182288A (ja) * 2020-05-19 2021-11-25 技研トラステム株式会社 移動体追跡装置及び移動体追跡方法
TWI770725B (zh) * 2020-12-17 2022-07-11 竹陞科技股份有限公司 軌跡追蹤系統以及軌跡追蹤方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5488076B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 対象物追跡装置、対象物追跡方法、および制御プログラム
JP5613016B2 (ja) * 2010-10-29 2014-10-22 株式会社キーエンス 動画追尾装置、動画追尾方法および動画追尾プログラム
JP5789578B2 (ja) * 2012-09-20 2015-10-07 富士フイルム株式会社 眼の開閉判断方法及び装置、プログラム、並びに監視映像システム
JP2014063280A (ja) * 2012-09-20 2014-04-10 Fujifilm Corp オブジェクト追跡方法及び装置、並びにプログラム
CN103679130B (zh) * 2012-09-24 2018-04-13 富士通株式会社 手追踪方法、手追踪设备和手势识别系统
JP6265370B2 (ja) * 2013-08-21 2018-01-24 国立大学法人富山大学 対象物追跡方法及び対象物追跡システム
JP6420605B2 (ja) * 2014-09-24 2018-11-07 Kddi株式会社 画像処理装置
EP3023938A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for tracking the motion of image content in a video frames sequence using sub-pixel resolution motion estimation
JP6491517B2 (ja) * 2015-03-31 2019-03-27 Kddi株式会社 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置
CN105631899B (zh) * 2015-12-28 2019-01-04 哈尔滨工业大学 一种基于灰度纹理特征的超声图像运动目标跟踪方法
JP6869672B2 (ja) * 2016-09-14 2021-05-12 株式会社デンソーアイティーラボラトリ 物体追従システム、物体追従装置、物体追従方法、及び物体追従プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"High-speed Target Tracking Using Deep Learning", PROCEEDINGS OF THE 2018 JSME CONFERENCE ON ROBOTICS AND MECHATRONICS, 1 June 2018 (2018-06-01), Tokyo, pages 1 - 4 *
JIANG, M. ET AL.: "High-frame-rate Target Tracking with CNN-based Object Recognition", PROCEEDINGS OF THE 2018 IEEE /RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS, 5 October 2018 (2018-10-05), pages 599 - 606, XP033491570, ISBN: 978-1-5386-8094-0, DOI: 10.1109/IROS.2018.8594300 *
LAO, M. ET AL.: "Visual Target Detection and Tracking Framework Using Deep Convolutional Neural Networks for Micro Aerial Vehicles", PROCEEDINGS OF THE 2018 IEEE 14TH INTERNATIONAL CONFERENCE ON CONTROL AND AUTOMATION (ICCA, 15 June 2018 (2018-06-15), pages 276 - 281, XP033388970, ISBN: 978-1-5386-6089-8, DOI: 10.1109/ICCA.2018.8444232 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021182288A (ja) * 2020-05-19 2021-11-25 技研トラステム株式会社 移動体追跡装置及び移動体追跡方法
JP7053057B2 (ja) 2020-05-19 2022-04-12 技研トラステム株式会社 移動体追跡装置及び移動体追跡方法
CN112489085A (zh) * 2020-12-11 2021-03-12 北京澎思科技有限公司 目标跟踪方法、目标跟踪装置、电子设备及存储介质
TWI770725B (zh) * 2020-12-17 2022-07-11 竹陞科技股份有限公司 軌跡追蹤系統以及軌跡追蹤方法

Also Published As

Publication number Publication date
CN112655018A (zh) 2021-04-13
JPWO2020080535A1 (ja) 2021-10-07

Similar Documents

Publication Publication Date Title
WO2020080535A1 (ja) 対象追跡方法、対象追跡システムおよび対象追跡プログラム
CN108198199B (zh) 运动物体跟踪方法、运动物体跟踪装置和电子设备
US8098885B2 (en) Robust online face tracking
KR101071352B1 (ko) 좌표맵을 이용한 팬틸트줌 카메라 기반의 객체 추적 장치 및 방법
US10755419B2 (en) Moving object detection apparatus, moving object detection method and program
US20040141633A1 (en) Intruding object detection device using background difference method
KR100676232B1 (ko) 물체추적방법, 물체추적장치 및 물체추적을 행하기 위한 계산기의 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
US9838604B2 (en) Method and system for stabilizing video frames
JP6768537B2 (ja) 画像処理装置、画像処理方法、プログラム
CN110555377B (zh) 一种基于鱼眼相机俯视拍摄的行人检测与跟踪方法
US8675081B2 (en) Real time video stabilization
US10200618B2 (en) Automatic device operation and object tracking based on learning of smooth predictors
JP2001076156A (ja) 画像監視装置
US11494922B2 (en) Object tracking device, object tracking method, and object tracking program
JP6795224B2 (ja) 移動体検知装置、移動体検知方法、及びプログラム
KR101396838B1 (ko) 다수의 모션 모델을 선택적으로 이용하는 영상 안정화 방법 및 시스템
Liu et al. Application of ghost-deblurGAN to fiducial marker detection
Lotfi et al. Robust object tracking based on recurrent neural networks
JP7477168B2 (ja) 対象追跡方法、対象追跡システムおよび対象追跡プログラム
Monari et al. A real-time image-to-panorama registration approach for background subtraction using pan-tilt-cameras
KR101576426B1 (ko) 어안 렌즈를 이용한 감시 장치 및 방법
CN115019241A (zh) 一种行人识别与追踪方法、装置、可读存储介质及设备
CN110119649B (zh) 电子设备状态跟踪方法、装置、电子设备及控制系统
US10708501B2 (en) Prominent region detection in scenes from sequence of image frames
Jain et al. Inter-bmv: Interpolation with block motion vectors for fast semantic segmentation on video

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19873155

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020553348

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19873155

Country of ref document: EP

Kind code of ref document: A1