WO2022264533A1 - 検知枠位置精度向上システム、及び検知枠位置補正方法 - Google Patents
検知枠位置精度向上システム、及び検知枠位置補正方法 Download PDFInfo
- Publication number
- WO2022264533A1 WO2022264533A1 PCT/JP2022/007983 JP2022007983W WO2022264533A1 WO 2022264533 A1 WO2022264533 A1 WO 2022264533A1 JP 2022007983 W JP2022007983 W JP 2022007983W WO 2022264533 A1 WO2022264533 A1 WO 2022264533A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- detection frame
- detection
- time
- correction target
- frame position
- Prior art date
Links
- 238000012937 correction Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 417
- 238000009826 distribution Methods 0.000 claims abstract description 83
- 230000006872 improvement Effects 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Definitions
- the present invention relates to a detection frame position accuracy improvement system and a detection frame position correction method.
- Positional accuracy of a detection frame (the size of an object such as a forward vehicle in a camera image) is important in situation grasping and cause analysis using an image from an in-vehicle camera (camera image).
- Patent Document 1 There is a technique described in Japanese Patent No. 6614247 (Patent Document 1) for improving the detection frame position accuracy.
- Patent Document 1 states, “Based on the prediction means for predicting the position of the object in the current frame from the position of the object in the previous frame with respect to the current frame and identifying the prediction area, and the distance of the object in the previous frame, Determination means for determining whether an object exists in the first range or in a second range that is farther than the first range, and if the determination means determines that the object exists in the first range, First matching processing means for detecting an object by performing template matching using a first template for the object in the previous frame in the prediction area of the current frame, and determining that the object exists in the second distance range by the determination means.
- second matching processing means for performing template matching using a second template different from the first template for the object in the previous frame in the prediction region of the current frame to detect the object if the There is an entry that says.
- Patent Document 1 the detection frame position is estimated with high accuracy using only the frame preceding the target frame. Therefore, the improvement of the detection frame position accuracy of the target frame is limited to cases where the detection frame position accuracy of the previous frame is good. It has not been.
- the present invention provides a detection frame position accuracy improvement system and a detection frame position correction method that can estimate the detection frame position with high accuracy by using information before and after the target frame. With the goal.
- one typical detection frame position accuracy improvement system of the present invention includes a time-series image input unit that inputs time-series images, and detects an object from the time-series images.
- an object detection unit a detection frame position distribution estimating unit that estimates a distribution of detection frame position coordinates at a correction target time from detection results of the object up to a time before the correction target time; and a correction according to the detection result and the distribution.
- a detection frame prediction unit that predicts the position of the detection frame at a time after the target time, and detection at the correction target time based on the degree of overlap between the detection result of the target object and the predicted detection frame at the time after the correction target time.
- a detection frame uncertainty estimation unit that updates the distribution of frame position coordinates and estimates the uncertainty of the detection frame at the correction target time; and based on the detection frame and the uncertainty, the detection frame at the correction target time. and a detection frame correction unit that performs correction.
- FIG. 1 is a block diagram of Embodiment 1 of the present invention
- FIG. FIG. 4 is a diagram for explaining an object detection unit 20
- FIG. 4 is a diagram for explaining a detection frame position distribution estimating unit 30
- FIG. 4 is a configuration diagram of a detection frame prediction unit 40
- FIG. 3 is a configuration diagram of a detection frame uncertainty estimation unit 50
- FIG. 4 is a diagram for explaining a detection frame prediction unit 40 and a detection frame uncertainty estimation unit 50
- FIG. 4 is a diagram for explaining a detection frame uncertainty estimation unit 50
- 4 is a flow chart of a detection frame prediction unit 40 and a detection frame uncertainty estimation unit 50.
- FIG. FIG. 4 is a diagram for explaining a detection frame correction unit 60
- FIG. 4 is a configuration diagram of a detection correction target determination unit 450;
- FIG. 1 is a block diagram of Embodiment 1 of the present invention.
- a detection frame position accuracy improvement system 1 shown in FIG. 1 is a system that corrects the detection frame position of an object on an image offline using time-series images and a distance measurement sensor.
- the correction target time is time t (t is a positive integer )
- the (past) time before the correction target time is expressed as time t-n (n is a positive integer)
- the (future) time after the correction target time is expressed as time t+n (n is a positive integer).
- vehicles such as preceding vehicles are subject to detection and correction, but it is of course not limited to vehicles only.
- the detection frame position accuracy improvement system 1 shown in FIG. An object detection unit 20 that detects objects (objects) such as vehicles, motorcycles, and pedestrians in the image input by the unit 10, and the distribution of the detection frame position coordinates of the image at a certain time t to perform correction.
- the time-series image input unit 10 arranges and inputs images obtained by an imaging device such as a monocular camera or a stereo camera in time-series order.
- the object detection unit 20 estimates an area (also referred to as a detection frame) containing the object in each time-series image by a human or a detector.
- Reference numeral 70 denotes one image including time-series images
- 80 denotes an object to be detected.
- the object is an automobile.
- Reference numeral 90 denotes a detection frame used when an object is detected. By specifying (x1, y1) at the upper left of the detection frame and (x2, y2) at the lower right of the detection frame, the position of the detection frame is determined.
- the two-dimensional vertical and horizontal detection frame is shown here, a three-dimensional detection frame of vertical, horizontal and height may be used.
- the detection frame position distribution estimation unit 30 estimates the probability distribution of the detection frame position coordinates of the image at time t when correction is performed, using the detection frame positions up to time t ⁇ 1.
- 100 is one image with time-series images
- 110 indicates the probability distribution of the coordinates on the image where x1 constituting the detection frame exists
- 120 indicates the probability distribution of the coordinates on the image where x2 exists
- Reference numeral 130 indicates the probability distribution of the coordinates on the image where y1 that constitutes the detection frame exists
- 140 indicates the probability distribution of the coordinates on the image where y2 exists.
- normal distributions are shown here as probability distributions of 110, 120, 130, and 140, the distribution of coordinates is not limited to the normal distribution.
- Reference numeral 150 represents the contour line of the normal distribution of the two variables x1 and y1 at the upper left coordinates (x1, y1) of the detection frame of the object.
- Reference numeral 160 represents the contour line of the normal distribution of the x2 and y2 variables at the lower right coordinate (x2, y2) of the detection frame of the object.
- Higher contour lines at 150 and 160 are highly probable detection frame position coordinates.
- a statistical method such as a Kalman filter can be applied to predict this probability distribution.
- the detection frame prediction unit 40 will be explained using FIG.
- the detection frame prediction unit 40 has a detection frame movement amount acquisition unit 41 that estimates the movement amount of the detection frame from the relative speed of the target object at times t to t+n, and the probability estimated by the detection frame position distribution estimation unit 30. Based on the distribution, the detection frame position sampling unit 42 samples the upper left coordinate and the lower right coordinate (detection frame position coordinates) of the detection frame at time t, and the detection frame movement amount acquisition unit 41 and the detection frame position sampling unit 42 sample time t a detection frame position prediction output unit 43 that determines detection frame positions +1 to t+n. 41, 42 and 43 will be described in detail.
- a detection frame movement amount acquisition unit 41 uses a Kalman filter or the like from the detection information from time 1 to t-1 to determine the change in size and position (destination) of the detection frame at time t+1 to t+n. direction and the relative speed between the vehicle and the object, etc., and determine the amount of movement of the detection frame.
- ranging sensors such as LIDAR and millimeter waves from time t+1 to t+n
- these sensors can be used to measure the distance to the object and determine the object area range, relative speed and You can ask for directions.
- a method of limiting the upper limit of the amount of movement in light of the laws of physics is also conceivable.
- the detection frame position sampling unit 42 outputs the upper left coordinate and the lower right coordinate (detection frame position coordinates) of the detection frame at time t with a high probability based on the probability distribution estimated by the detection frame position distribution estimation unit 30 . Further, coordinates with a low probability at a certain probability ⁇ are also randomly output, so that detection frame position coordinates can be output globally.
- the detection frame position prediction output unit 43 uses the detection frame (detection frame based on the probability distribution) at time t determined by the detection frame position sampling unit 42 as an initial value, and the movement amount obtained by the detection frame movement amount acquisition unit 41 as a constraint condition.
- the position coordinates of the detection frame (also called predicted detection frame) at times t+1 to t+n are obtained.
- the detection frame uncertainty estimation unit 50 includes a detection frame overlap calculation unit 51 that calculates the degree of overlap between the detection frame (predicted detection frame) predicted by the detection frame prediction unit 40 and the detection frame estimated by the object detection unit 20; A detection frame position distribution updating unit 52 that updates the probability distribution estimated by the detection frame position distribution estimation unit 30 based on the degree of overlap, and an area (uncertainty and a detection frame uncertainty output unit 53 that calculates a detection frame that takes into account the uncertainty. 51, 52 and 53 will be described in detail.
- the detection frame overlap calculation unit 51 evaluates how much the detection frame (predicted detection frame) predicted by the detection frame prediction unit 40 and the detection frame estimated by the object detection unit 20 match with the degree of overlap between the detection frames. do. IoU (Intersection over Union) or the like can be considered as an evaluation index for the degree of overlap.
- the detection frame position distribution update unit 52 uses the value (degree of overlap) of the detection frame overlap calculation unit 51 to update the mean and variance of the multivariate normal distribution of the detection frame position coordinates using Bayesian update, A method of obtaining the average and variance that maximizes the reward by using the degree of overlap as a reward can be considered.
- the detection frame uncertainty output unit 53 uses the standard deviation of the probability distribution of the detection frame position coordinates estimated by the detection frame position distribution update unit 52 of the detection frame uncertainty estimation unit 50 to determine the detection frame at time t. Output the area that may exist (detection frame with uncertainty added). Details will be described later with reference to FIG.
- Time-series images 200 are images at certain times t+1, t+2, and t+3, when the detection frame above the object is sampled at time t.
- 170 is composed of a predicted detection frame at time t+1, a detection frame estimated by a detector or the like (that is, a detection frame estimated by the object detection unit 20), and an area where these overlap.
- 180 is composed of a predicted detection frame at time t+2, a detection frame estimated by a detector or the like, and an area where these overlap.
- 190 is composed of a predicted detection frame at time t+3, a detection frame estimated by a detector or the like, and an area where these overlap.
- the detection frame sampled at time t is above the target object.
- the time-series images 210 are images at certain times t+1, t+2, and t+3, when the detection frame below the object is sampled at time t.
- the detection frame sampled at time t is located below the target object.
- Such a relatively short-time predictive detection window exists below the object.
- the time-series images 220 are images at certain times t+1, t+2, and t+3, when a large detection frame is sampled for the object at time t.
- the detection frame is predicted to be large relative to the object at time t, so even if the predicted movement amount (detection frame movement amount acquisition unit 41) is taken into consideration, comparisons such as time t to t+3
- the predictive detection window for a short period of time is larger than the object.
- the detection frame position coordinates at times t+1 to t+3 are different, but the size of the detection frame (for example, times t+1, t+2, The enlargement ratio during t+3) is determined by (the movement amount of) the detection frame movement amount acquisition unit 41, so that 200, 210, and 220 are all equal.
- the detection frame uncertainty estimation unit 50 will be explained using FIG.
- the detection frame 230 that visualizes the uncertainty is set in advance based on the probability distribution obtained by the detection frame position distribution updating unit 52, and the size (probability If the distribution is a multivariate normal distribution, the detection frame 240 with the minimum standard deviation) and the detection frame 250 that has the highest probability (if the probability distribution is a multivariate normal distribution, the average) coordinates are set in advance. It is composed of three detection frames 260 having the maximum permissible size (standard deviation if the probability distribution is a multivariate normal distribution) as a detection frame for a certain object.
- the sizes of the detection frames 240, 250, and 260 can be determined by the probability distribution of the position coordinates (in other words, from the probability distribution of the updated detection frame position coordinates, the existence range of the detection frame at time t is limited. ) and assume a large standard deviation. For example, taking 3 times the standard deviation will predict that the detection window will fall within the range set from 240 to 260 with a 99% probability.
- step 270 from the output of the object detection unit 20 and the detection frame position distribution estimation unit 30, the amount of movement of (the detection frame of) the object at times t+1 to t+n is estimated using a Kalman filter or the like ( Detection frame movement amount acquisition unit 41). Alternatively, by using a distance measuring sensor, the amount of movement such as relative speed is estimated. If n is set to a large value, the prediction range becomes too long and the prediction accuracy decreases. detection frame undetected images), and a large misalignment of one detection frame position becomes an outlier, which increases the possibility of lowering the correction accuracy. A value must be determined.
- the detection frame position coordinates at time t are output according to the probability distribution estimated by the detection frame position distribution estimation unit 30 (detection frame position sampling unit 42). At this time, if only coordinates with a high probability are output, the accuracy of the sampled positions will decrease if the estimation accuracy of the detection frame position distribution estimating unit 30 is low. , to be able to output detection frame position coordinates globally.
- step 290 the results of steps 270 and 280 are used to predict the detection frame position (detection frame position coordinates) at times t+1 to t+n (detection frame position prediction output unit 43).
- step 300 the degree of overlap between the prediction detection frame at times t+1 to t+n and the detection frame output from the detector at each time is calculated (detection frame overlap calculation unit 51).
- the degree of overlap is calculated using IoU (Intersection over Union) or the like.
- step 310 the detection frame position coordinate distribution (probability distribution) at time t is updated according to the degree of overlap (detection frame position distribution update unit 52). That is, the detection frame position coordinates at time t when the degree of overlap is high are updated to increase the probability, and the detection frame position coordinates at time t when the degree of overlap is low are updated to decrease the probability.
- step 320 it is determined whether the number of sampling times has reached the preset value set by the user. If the number of times of sampling has been reached, the process ends, and if the number of times of sampling has not been reached, the process returns to step 280, and the detection frame position coordinates at time t are sampled again. Since the detection frame position coordinate distribution at time t is updated in step 310, by repeating sampling, the coordinates at which the degree of overlapping with the detection frames output from the detectors at times t+1 to t+n increases. A lot will be sampled.
- the detection frame correction unit 60 will be explained using FIG. 330, 340, 350, and 360 indicate the types of detection frames used in this figure.
- a solid line 330 is a detection frame output by a human or a detector (in other words, estimated by the object detection unit 20) in each image.
- the chain double-dashed line 340 is the detection frame having the minimum size assumed (acceptable as the detection frame of the object set in advance).
- a dashed line 350 is a detection frame with the highest probability
- a dashed line 360 is a detection frame having the maximum size assumed (acceptable as a detection frame for a target object set in advance) (detection frame uncertainty output unit 53). .
- Detection window 330 output by the detector contains noise 380.
- FIG. The noise of 380 corresponds to the shadow of the object due to backlight.
- the detection frame 330 includes noise 380 and is output larger than the detection frame that detects only the object.
- the detection frame 330 becomes larger than the maximum (uncertainty) detection frame 360 and becomes the detection frame to be corrected.
- An image 390 is the result of correcting the detection frame 330 in the image 370 (detection frame correction unit 60).
- the 410 is an image that visualizes the uncertainty detection frames of the detection frames 330 and 340 , 350 , and 360 .
- the detection frame 330 output by the detector is divided by noise 420 .
- the noise of 420 corresponds to the case where the front vehicle is partially hidden by the wipers, the two-wheeled vehicle, or the like.
- the two detection frames 330 are inside the maximum permissible detection frame 360 and outside the minimum permissible detection frame 340. It becomes the target detection frame.
- An image 430 is the result of correcting the detection frame 330 in the image 410 (detection frame correction unit 60). After correction, the detection frame detects the object without being affected by 440 noise.
- the detection frame correction method using the detection frame uncertainty by the detection frame correction unit 60 is not limited to the method described here.
- the information before and after the image to be corrected is used to estimate the uncertainty of the detection frame position. can be corrected to
- the detection frame position accuracy improvement system 1 includes the time-series image input unit 10 that inputs time-series images, and the object detection unit that detects an object from the time-series images.
- a detection frame position distribution estimating unit 30 for estimating the distribution of the detection frame position coordinates at the correction target time (time t) from the detection results of the target object up to the time (time t-1) before the correction target time;
- a detection frame prediction unit 40 that predicts the position of the detection frame at a time (time t+1 to t+n) after the correction target time according to the detection result and the distribution, and a time after the correction target time (time t+1 to t+n), the distribution of the detection frame position coordinates at the correction target time (time t) is updated according to the degree of overlap between the detection result of the object and the predicted detection frame, and the correction target time (time t ), and a detection frame correction unit that corrects the detection frame at the correction target time (time t)
- the detection frame prediction unit 40 determines the detection frame position sampling unit 42 that samples the position coordinates of the detection frame at the correction target time (time t) from the distribution estimated from the detection result, and determines the movement destination of the detection frame.
- a detection frame movement amount acquisition unit 41 that acquires the movement amount including at least one of the relative speed or orientation of the object at the time (time t+1 to t+n) after the correction target time.
- the detection frame position sampling unit 42 determines the detection frame position at the correction target time (time t), and the detection frame movement amount acquisition unit 41 determines the position of the detection frame at the time after the correction target time (time t+1 to t+) based on the movement amount. Predict the position of the detection window in n).
- the detection frame uncertainty estimation unit 50 limits the existence range of the detection frame at the correction target time (time t) from the updated distribution of the detection frame position coordinates.
- the detection frame position correction method inputs time-series images, detects an object in the time-series images, and detects the object until the time (time t-1) before the time to be corrected.
- the position of the detection frame is predicted, and the correction target time (time t ), estimate the uncertainty of the detection frame at the time to be corrected (time t), and based on the detection frame and the uncertainty, at the time to be corrected (time t) Correct the detection frame.
- the present embodiment 1 estimates the area (uncertainty) where the current detection frame exists by using data such as time-series images before and after the target frame for correction of the detection frame position and distance sensor data. It corrects the detection result output by the detector or the like.
- the first embodiment it is possible to improve the accuracy of the detection frame position.
- FIG. 10 is a block diagram of embodiment 2 of the present invention. In this embodiment, the case where a plurality of objects are included in the same image and there are a plurality of detection frames is targeted.
- the detection correction target determination unit 450 will be described using FIG.
- the detection correction target object determination unit 450 includes a detection information extraction unit 451 for extracting a feature amount of a target object (detection frame) used for determining whether or not the target object is the same, and a detection information extraction unit 451 . and a detection correction object output unit 453 that outputs the detection frame of the object to be detected and corrected (detection correction object). be.
- the feature values extracted by the detection information extraction unit 451 include labels of detected objects such as automobiles, humans, and motorcycles for each detection frame; Feature quantity descriptors, feature quantity descriptors output by applying a learned convolutional neural network, etc. multiple times, and the like are conceivable.
- the detection target classification unit 452 uses the Euclidean distance and cosine similarity for the feature amount obtained by the detection information extraction unit 451 for each image and each detection frame to classify the detection frame for each same object in time-series images. Judge and classify.
- a detection correction object output unit 453 outputs a detection frame to be corrected. Also, when the detection frame is automatically output by the detector, if there are many detection omissions and the number of detections is small, correction is difficult, or there is a high possibility that the correction accuracy will decrease, the user is notified.
- the detection frame position accuracy improving system 2 includes, in addition to the first embodiment, the detection correction target object determining unit 450 for determining the same target object in the time-series images. Prepare.
- the detection correction target determination unit 450 extracts the feature amount of each detection frame (detection information extraction unit 451), and determines the same target in the time-series images from the feature amount (detection target classification unit 452), and a detection correction target object output unit 453 that is used as a detection frame correction target object.
- the second embodiment it is possible to improve the accuracy of the detection frame position even when a plurality of objects are included in the same image.
- the present invention is not limited to the above-described embodiments, and includes various modifications.
- the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the described configurations.
- it is possible to replace part of the configuration of one embodiment with the configuration of another embodiment and it is also possible to add the configuration of another embodiment to the configuration of one embodiment.
- each of the above configurations, functions, processing units, processing means, and the like may be realized by hardware, for example, by designing a part or all of them using an integrated circuit.
- each of the above configurations, functions, etc. may be realized by software by a processor interpreting and executing a program for realizing each function.
- Information such as programs, tables, and files that implement each function can be stored in memory, hard disks, SSD (Solid State Drives), and other recording devices, or IC cards, SD cards, DVDs, and other recording media.
- the control lines and information lines indicate those considered necessary for explanation, and not all control lines and information lines are necessarily indicated on the product. In practice, it may be considered that almost all configurations are interconnected.
- SYMBOLS 1 ... Detection frame position accuracy improvement system (Example 1), 2... Detection frame position accuracy improvement system (Example 2), 10... Time-series image input part, 20... Object detection part, 30... Detection frame position distribution estimation part , 40... Detection frame prediction unit, 50... Detection frame uncertainty estimation unit, 60... Detection frame correction unit, 450... Detection correction target object determination unit (Embodiment 2)
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
対象フレーム前後の情報を利用して、検知枠位置を高精度に推定することができる検知枠位置精度向上システム、及び検知枠位置補正方法を提供する。時系列の画像を入力する時系列画像入力部10と、前記時系列の画像で対象物を検知する物体検知部20と、時刻t-1(tは正の整数)までの前記対象物の検知結果から時刻tの検知枠位置座標の分布を推定する検知枠位置分布推定部30と、前記検知結果と前記分布に従い時刻t+1~t+n(nは正の整数)の検知枠の位置を予測する検知枠予測部40と、時刻t+1~t+nにおいて前記対象物の検知結果と前記予測した検知枠との重なり度合いにより時刻tにおける検知枠位置座標の分布を更新し、時刻tにおける検知枠の不確実性を推定する検知枠不確実性推定部50と、前記検知枠と前記不確実性に基づき、時刻tにおける前記検知枠を補正する検知枠補正部60と、を備える。
Description
本発明は、検知枠位置精度向上システム、及び検知枠位置補正方法に関する。
車載カメラの普及等により、取得できる車両データの多様性が増加している。これにより、事故発生時等において、取得した車両データを記録した記録端末装置の情報を用いた客観的な状況把握や原因解析のニーズが高まっている。車載カメラの画像(カメラ画像)を用いた状況把握や原因解析においては、検知枠(カメラ画像における前方車両等の対象物の大きさ)の位置精度が重要である。
検知枠位置精度の向上において、特許第6614247号公報(特許文献1)に記載の技術がある。この公報には、「現在のフレームに対する前のフレームにおける物体の位置から、現在のフレームにおける物体の位置を予測して予測領域を特定する予測手段と、前のフレームにおける物体の距離に基づいて、物体が第1距離域に存在するか、第1距離域よりも遠い第2距離域に存在するかを判定する判定手段と、判定手段により物体が第1距離域に存在すると判定された場合、現在のフレームの予測領域において、前のフレームの物体についての第1テンプレートを用いたテンプレートマッチングを行い、物体を検出する第1マッチング処理手段と、判定手段により物体が第2距離域に存在すると判定された場合、現在のフレームの予測領域において、前のフレームの物体についての、第1テンプレートとは異なる第2テンプレートを用いたテンプレートマッチングを行い、物体を検出する第2マッチング処理手段と、を備えた」という記載がある。
上記特許文献1では、対象のフレームの前のフレームのみを用いて高精度に検知枠位置を推定しようとしている。そのため、対象のフレームの検知枠位置精度の向上は、前のフレームにおける検知枠位置精度が良い場合に限定されており、対象フレーム前後を利用した検知枠位置修正による検知枠位置精度の向上について想定されていない。
そこで、本発明では、上記事情に鑑み、対象フレーム前後の情報を利用して、検知枠位置を高精度に推定することができる検知枠位置精度向上システム、及び検知枠位置補正方法を提供することを目的とする。
上記課題を解決するために、代表的な本発明の検知枠位置精度向上システムの一つは、時系列の画像を入力する時系列画像入力部と、前記時系列の画像で対象物を検知する物体検知部と、補正対象時刻より前の時刻までの前記対象物の検知結果から補正対象時刻の検知枠位置座標の分布を推定する検知枠位置分布推定部と、前記検知結果と前記分布に従い補正対象時刻より後の時刻の検知枠の位置を予測する検知枠予測部と、補正対象時刻より後の時刻において前記対象物の検知結果と前記予測した検知枠との重なり度合いにより補正対象時刻における検知枠位置座標の分布を更新し、補正対象時刻における検知枠の不確実性を推定する検知枠不確実性推定部と、前記検知枠と前記不確実性に基づき、補正対象時刻における前記検知枠を補正する検知枠補正部と、を備えることを特徴とする。
本発明によれば、検知枠位置の精度を向上させることが可能となる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
以下、本発明の実施例を図面を用いて説明する。
[実施例1]
図1は本発明の実施例1のブロック図である。本実施例では、車両から得られたセンサー情報に適用した場合について説明する。図1に示す検知枠位置精度向上システム1は、時系列画像や測距センサーを利用して、画像上における対象物の検知枠位置をオフラインで補正するシステムである。
図1は本発明の実施例1のブロック図である。本実施例では、車両から得られたセンサー情報に適用した場合について説明する。図1に示す検知枠位置精度向上システム1は、時系列画像や測距センサーを利用して、画像上における対象物の検知枠位置をオフラインで補正するシステムである。
なお、以下の説明において、補正を実施する(詳しくは、補正を行う必要があるか否かを判定し、必要と判定した場合に補正を行う)補正対象時刻を時刻t(tは正の整数)とし、補正対象時刻より前の(過去の)時刻を時刻t-n(nは正の整数)、補正対象時刻より後の(未来の)時刻を時刻t+n(nは正の整数)と表記する。
また、以下の説明においては、例えば先行車両等の車両を検知・補正対象としているが、車両のみに限定されないことは勿論である。
図1に示す検知枠位置精度向上システム1は、本システムとは別に車両に搭載されたドライブレコーダー等で撮影、保存された時系列画像を入力する時系列画像入力部10と、時系列画像入力部10で入力された画像において車両や二輪車、歩行者などの対象となる物体(対象物)を検知する物体検知部20と、補正を実施するある時刻tにおける画像の検知枠位置座標の分布を推定する検知枠位置分布推定部30と、物体検知部20と検知枠位置分布推定部30の出力を基に時刻t+1~t+nの検知枠位置を予測する検知枠予測部40と、予測した検知枠と検知器により各画像で検知した検知枠との重なり度合いを基に時刻tにおける画像位置(=検知枠)の不確実性を推定する検知枠不確実性推定部50と、不確実性を利用して検知枠の補正を行う検知枠補正部60と、を有する。以下、10、20、30、40、50、60の各機能の詳細について説明する。
時系列画像入力部10は、単眼カメラやステレオカメラなどの撮像装置により得られた画像を時系列順に並べて入力する。
図2を利用して、物体検知部20について説明する。物体検知部20では、時系列画像それぞれにおいて人間や検知器により対象物を含む領域(検知枠とも呼ぶ)を推定する。70は時系列画像のある1画像、80は検知対象となる対象物で、図2では対象物を自動車としている。90は対象物を検知した場合の検知枠で、検知枠左上の(x1,y1)と検知枠右下の(x2,y2)を指定することで検知枠の位置が確定する。ここでは、縦と横の2次元で検知枠を示したが、縦と横と高さの3次元の検知枠が対象でも構わない。
図3を利用して検知枠位置分布推定部30について説明する。検知枠位置分布推定部30では、時刻t-1までの検知枠位置を利用して、補正を行う時刻tにおける画像の検知枠位置座標の確率分布を推定する。100は時系列画像のある1枚の画像で、110は検知枠を構成するx1が存在する画像上の座標の確率分布を示し、120はx2が存在する画像上の座標の確率分布を示し、130は検知枠を構成するy1が存在する画像上の座標の確率分布を示し、140はy2が存在する画像上の座標の確率分布を示している。ここでは、110、120、130、140の確率分布として正規分布を図示しているが、座標の分布としては、正規分布に限定しない。150は対象物の検知枠の左上座標(x1,y1)におけるx1,y1の2変数の正規分布の等高線を表す。160は対象物の検知枠の右下座標(x2,y2)におけるx2,y2の2変数の正規分布の等高線を表す。150や160の等高線の高い部分が検知枠位置座標として確率が高い場所になる。この確率分布の予測には、カルマンフィルタなどの統計的手法を適用することができる。
図4を利用して検知枠予測部40を説明する。検知枠予測部40は、時刻t~t+nにおける対象物の相対速度等から、検知枠の移動量を推定する検知枠移動量取得部41と、検知枠位置分布推定部30で推定した確率分布に基づいて時刻tにおける検知枠の左上座標と右下座標(検知枠位置座標)をサンプリングする検知枠位置サンプリング部42と、検知枠移動量取得部41と検知枠位置サンプリング部42から時刻t+1~t+nの検知枠位置を決定する検知枠位置予測出力部43と、を有する。41、42、43について詳細に説明する。
検知枠移動量取得部41は、時刻1~t-1までの検知情報からカルマンフィルタ等により時刻t+1~t+nにおける検知枠の大きさの変化や位置(移動先)を決定する対象物の向きや自車と対象物との相対速度等を予測し、検知枠の移動量を決定する。また、時刻t+1~t+nのLIDARやミリ波などの測距センサーを使用することが可能であれば、これらのセンサーにより対象物までの距離計測や物体領域範囲を求め、相対速度や向きを求めても良い。さらに、移動量については物理法則に照らし合わせ、移動量の上限を限定する方法も考えられる。
検知枠位置サンプリング部42は、検知枠位置分布推定部30で推定した確率分布に基づいて確率が高い時刻tにおける検知枠の左上座標と右下座標(検知枠位置座標)を出力する。さらに、ある確率εでは確率が低い座標についてもランダムで出力するようにして、大域的に検知枠位置座標を出力できるようにする。
検知枠位置予測出力部43は、検知枠位置サンプリング部42により決定した時刻tにおける検知枠(確率分布に基づく検知枠)を初期値として、検知枠移動量取得部41による移動量を拘束条件として時刻t+1~t+nでの検知枠の位置座標(予測検知枠とも呼ぶ)を求める。
図5を利用して検知枠不確実性推定部50を説明する。検知枠不確実性推定部50は、検知枠予測部40で予測した検知枠(予測検知枠)と物体検知部20で推定した検知枠との重なり度合いについて算出する検知枠重なり算出部51と、重なり度合いを基に検知枠位置分布推定部30で推定した確率分布を更新する検知枠位置分布更新部52と、推定した確率分布から時刻tにおいて検知枠が存在する可能性がある領域(不確実性を加味した検知枠)を算出する検知枠不確実性出力部53と、を有する。51、52、53について詳細に説明する。
検知枠重なり算出部51では、検知枠予測部40で予測した検知枠(予測検知枠)と物体検知部20で推定した検知枠とがどの程度一致しているかを検知枠間の重なり度合いで評価する。重なり度合いの評価指標としてはIoU(Intersection over Union)等が考えられる。
検知枠位置分布更新部52では、検知枠重なり算出部51の値(重なり度合い)を利用して、検知枠位置座標の多変量正規分布の平均と分散をベイズ更新を利用して更新したり、重なり度合いを報酬として報酬が最大となる平均と分散を強化学習を利用して求める手法等が考えられる。
検知枠不確実性出力部53では、検知枠不確実性推定部50の検知枠位置分布更新部52で推定した検知枠位置座標の確率分布の標準偏差等を利用して時刻tにおいて検知枠が存在する可能性がある領域(不確実性を加味した検知枠)を出力する。詳細については後ほど図7を利用して説明する。
検知枠予測部40から検知枠不確実性推定部50の検知枠重なり算出部51までについて図6を利用して説明する。時系列画像200は、ある時刻t+1、t+2、t+3における画像であり、時刻tにおいて対象物の上部にある検知枠がサンプリングされた場合である。170は、時刻t+1における予測検知枠と、検知器等により推定された検知枠(つまり、物体検知部20で推定した検知枠)と、これらが重なっている領域で構成されている。180は、時刻t+2における予測検知枠と、検知器等により推定された検知枠と、これらが重なっている領域で構成されている。190は、時刻t+3における予測検知枠と、検知器等により推定された検知枠と、これらが重なっている領域で構成されている。時系列画像200では時刻tにおいてサンプリングされた検知枠が対象物に対して上部にあるため、予測された移動量(検知枠移動量取得部41)を加味しても時刻t~t+3のような比較的短時間の予測検知枠は対象物に対して上部に存在する。時系列画像210は、ある時刻t+1、t+2、t+3における画像であり、時刻tにおいて対象物の下部にある検知枠がサンプリングされた場合である。時系列画像210では時刻tにおいてサンプリングされた検知枠が対象物に対して下部にあるため、予測された移動量(検知枠移動量取得部41)を加味しても時刻t~t+3のような比較的短時間の予測検知枠は対象物に対して下部に存在する。時系列画像220は、ある時刻t+1、t+2、t+3における画像であり、時刻tにおいて対象物に対して大きな検知枠がサンプリングされた場合である。時系列画像220では時刻tにおいて検知枠が対象物に対して大きく予測されたため、予測された移動量(検知枠移動量取得部41)を加味しても時刻t~t+3のような比較的短時間の予測検知枠は対象物に対して大きくなる。また、200、210、220においてそれぞれ時刻tにおける座標値が異なるため、時刻t+1~t+3の検知枠位置座標は異なるが、検知枠のサイズ(例えば時刻t+1、t+2、t+3間の拡大率)は検知枠移動量取得部41(の移動量)により決定されるため、200、210、220においてすべて等しい。
検知枠不確実性推定部50について図7を利用して説明する。不確実性を可視化した検知枠230は、本実施例では、検知枠位置分布更新部52で得られた確率分布を基にして、事前に設定した対象物の検知枠として許容できる大きさ(確率分布が多変量正規分布の場合は、標準偏差)の最小となる検知枠240と、最も確率が高い(確率分布が多変量正規分布の場合は、平均)座標による検知枠250と、事前に設定したある1つの対象物の検知枠として許容できる大きさ(確率分布が多変量正規分布の場合は、標準偏差)の最大となる検知枠260の3つで構成される。240、250、260の検知枠の大きさは、位置座標の確率分布で決定することができ(換言すると、更新された検知枠位置座標の確率分布から時刻tにおける検知枠の存在範囲を限定することができ)、大きくばらつくと仮定する場合には標準偏差を大きく取る。例えば、標準偏差の3倍を取ると、240から260に設定した範囲内に99%の確率で検知枠が含まれると予測することになる。
検知枠予測部40と検知枠不確実性推定部50について図8のフローチャートを利用して説明する。まず、ステップ270では、物体検知部20と検知枠位置分布推定部30の出力から時刻t+1~t+nにおける対象物(の検知枠)の移動量をカルマンフィルタ等を利用して推定する(検知枠移動量取得部41)。または、測距センサーを利用することで、相対速度等の移動量を推定する。ここで、nに大きな値を設定すると、予測範囲が長くなりすぎて予測精度が低下するが、一方で、nが小さすぎると、検知器で自動で検知枠を出力した場合、不検知画像(検知枠不検出画像)が多くなることや、1つの検知枠位置の大きなズレが外れ値となり補正精度を低下させる可能性が高くなるため、得られた画像のフレームレートを考慮して、nの値を決定する必要がある。
ステップ280では、検知枠位置分布推定部30で推定した確率分布に従って時刻tにおける検知枠位置座標を出力する(検知枠位置サンプリング部42)。この際、確率の高い座標のみを出力すると、検知枠位置分布推定部30の推定精度が低い場合にサンプリングした位置精度が低下するため、確率εで確率が低い座標についてもランダムで出力するようにし、大域的に検知枠位置座標を出力できるようにする。
ステップ290では、ステップ270とステップ280の結果を利用して時刻t+1~t+nにおける検知枠位置(検知枠位置座標)を予測する(検知枠位置予測出力部43)。
ステップ300では、時刻t+1~t+nにおける予測の検知枠と各時刻において検知器から出力した検知枠との重なり度合いを算出する(検知枠重なり算出部51)。重なり度合いはIoU(Intersection over Union)等を用いることで算出する。
ステップ310では、重なり度合いにより時刻tの検知枠位置座標分布(確率分布)を更新する(検知枠位置分布更新部52)。つまり、重なり度合いが高くなる時刻tの検知枠位置座標に関しては確率を高くするように更新し、重なり度合いが低くなる時刻tの検知枠位置座標に関しては確率を低くするように更新をする。
ステップ320では、ユーザーが事前に設定した設定値にサンプリング回数が達しているかを判定する。サンプリング回数に達した場合は、処理が終了となり、サンプリング回数に達していない場合はステップ280に戻り、再度時刻tにおける検知枠位置座標をサンプリングする。ステップ310で時刻tの検知枠位置座標分布が更新されるため、繰り返しサンプリングをすることで、時刻t+1~t+nの検知器等から出力した検知枠との重なり度合いが高くなる座標が多くサンプリングされることになる。
検知枠補正部60について図9を利用して説明する。330、340、350、及び360は本図で用いる検知枠の種類を示したものである。実線330は各画像で人間や検知器により出力した(換言すると、物体検知部20で推定した)検知枠である。一方、検知枠位置分布更新部52で得られた確率分布を基にして、二点鎖線340は想定する(事前に設定した対象物の検知枠として許容できる)最小の大きさとなる検知枠で、破線350は最も確率が高い検知枠で、一点鎖線360は想定する(事前に設定した対象物の検知枠として許容できる)最大の大きさとなる検知枠となる(検知枠不確実性出力部53)。
370は、検知枠330と340、350、360の不確実性の検知枠を可視化したある画像で、検知器により出力した検知枠330はノイズ380を含んでいる。380のノイズは、逆光による対象物の影等が該当する。ここで検知枠330はノイズ380を含んでおり、対象物のみを検知した検知枠よりも大きく出力されている。このとき、検知枠330は(不確実性の)最大の検知枠360よりも大きくなり、補正対象の検知枠となる。補正する場合は、検知枠330を検知枠の確率が最大となる検知枠350に置き換える方法等が考えられる。画像390は、画像370における検知枠330を補正した結果である(検知枠補正部60)。補正後は400のノイズを含まない、対象物のみを検知した検知枠となる。画像370では、検知枠330が想定する最大の検知枠360より大きい場合を説明したが、逆に検知枠330が想定する最小の検知枠340より小さい場合にも同様に修正(補正)することができる。
410は、検知枠330と340、350、360の不確実性の検知枠を可視化したある画像で、検知器により出力した検知枠330はノイズ420により分断されている。420のノイズは、ワイパーや二輪車等により前方車両の一部が隠れてしまう場合が該当する。画像410において、2つの検知枠330は、許容最大となる検知枠360の内側にあり、許容最小となる検知枠340の外側にあることから、同一対象物に対する検知枠であると判定され、補正対象の検知枠となる。補正する場合は、2つの検知枠330を統合する方法や検知枠の確率が最大となる検知枠350に置き換える方法等が考えられる。画像430は、画像410における検知枠330を補正した結果である(検知枠補正部60)。補正後は440のノイズに影響されず、対象物を検知した検知枠となる。
ただし、検知枠補正部60による検知枠不確実性を利用した検知枠補正方法はここで記載した方法に限定しない。
本発明の実施例1では上記で説明した機能構成により、補正対象の画像の前後の情報を利用して、検知枠位置の不確実性を推定することにより、ノイズによる検知枠のばらつきを高精度に補正することができる。
以上説明したように、本発明の実施例1の検知枠位置精度向上システム1は、時系列の画像を入力する時系列画像入力部10と、前記時系列の画像で対象物を検知する物体検知部20と、補正対象時刻より前の時刻(時刻t-1)までの前記対象物の検知結果から補正対象時刻(時刻t)の検知枠位置座標の分布を推定する検知枠位置分布推定部30と、前記検知結果と前記分布に従い補正対象時刻より後の時刻(時刻t+1~t+n)の検知枠の位置を予測する検知枠予測部40と、補正対象時刻より後の時刻(時刻t+1~t+n)において前記対象物の検知結果と前記予測した検知枠との重なり度合いにより補正対象時刻(時刻t)における検知枠位置座標の分布を更新し、補正対象時刻(時刻t)における検知枠の不確実性を推定する検知枠不確実性推定部50と、前記検知枠と前記不確実性に基づき、補正対象時刻(時刻t)における前記検知枠を補正する検知枠補正部60と、を備える。
また、前記検知枠予測部40は、前記検知結果により推定した前記分布から補正対象時刻(時刻t)の検知枠の位置座標をサンプリングする検知枠位置サンプリング部42と、検知枠の移動先を決定する補正対象時刻より後の時刻(時刻t+1~t+n)の対象物の相対速度または向き等の少なくとも一つを含む移動量を取得する検知枠移動量取得部41と、を備え、前記検知枠位置サンプリング部42により補正対象時刻(時刻t)における検知枠位置を決定し、前記検知枠移動量取得部41による移動量により補正対象時刻より後の時刻(時刻t+1~t+n)における検知枠の位置を予測する。
また、前記検知枠不確実性推定部50は、更新された前記検知枠位置座標の分布から補正対象時刻(時刻t)における検知枠の存在範囲を限定する。
また、本発明の実施例1の検知枠位置補正方法は、時系列の画像を入力し、前記時系列の画像で対象物を検知し、補正対象時刻より前の時刻(時刻t-1)までの前記対象物の検知結果から補正対象時刻(時刻t)の検知枠位置座標の分布を推定し、前記検知結果と前記分布に従い補正対象時刻より後の時刻(時刻t+1~t+n)の検知枠の位置を予測し、補正対象時刻より後の時刻(時刻t+1~t+n)において前記対象物の検知結果と前記予測した検知枠との重なり度合いにより補正対象時刻(時刻t)における検知枠位置座標の分布を更新し、補正対象時刻(時刻t)における検知枠の不確実性を推定し、前記検知枠と前記不確実性に基づき、補正対象時刻(時刻t)における前記検知枠を補正する。
すなわち、本実施例1は、検知枠位置修正の対象フレームの前後の時系列の画像や距離センサーなどのデータを利用して、現在の検知枠の存在する領域(不確実性)を推定し、検知器等により出力された検知結果を修正するものである。
本実施例1によれば、検知枠位置の精度を向上させることが可能となる。
[実施例2]
図10は本発明の実施例2のブロック図である。本実施例では、同一画像内に複数の対象物が含まれ、検知枠が複数ある場合を対象とする。
図10は本発明の実施例2のブロック図である。本実施例では、同一画像内に複数の対象物が含まれ、検知枠が複数ある場合を対象とする。
図10に示す検知枠位置精度向上システム2は、本システムとは別に車両に搭載されたドライブレコーダー等で撮影、保存された時系列画像を入力する時系列画像入力部10と、時系列画像入力部10で入力された画像において車両や二輪車、歩行者などの対象となる物体(対象物)を検知する物体検知部20と、時系列画像において補正対象とする検知枠を決定する検知補正対象物決定部450と、補正を行うある時刻tにおける画像の検知枠位置座標の分布を推定する検知枠位置分布推定部30と、物体検知部20と検知枠位置分布推定部30の出力を基に時刻t+1~t+nの検知枠位置を予測する検知枠予測部40と、予測した検知枠と検知器により画像から検知した検知枠との重なり度合いを基に時刻tにおける画像位置(=検知枠)の不確実性を推定する検知枠不確実性推定部50と、不確実性を利用して検知枠の補正を行う検知枠補正部60と、を有する。10、20、30、40、50、60は実施例1で説明したものと同等の機能を有する。
検知補正対象物決定部450について図11を利用して説明する。検知補正対象物決定部450は、同一の対象物であるか否かを判定するのに利用する対象物(検知枠)の特徴量等を抽出する検知情報抽出部451と、検知情報抽出部451の情報を基に時系列画像全体で対象物を分類する検知対象分類部452と、検知補正対象となる物体(検知補正対象物)の検知枠を出力する検知補正対象物出力部453で構成される。
検知情報抽出部451で抽出する特徴量としては、各検知枠ごとに自動車、人間、二輪車等の検知した対象物のラベル、SIFT(Scale invariant feature transform)をはじめとしたスケールや回転などに普遍の特徴量記述子、学習済みの畳み込みニューラルネットワーク(Convolutional Neural Network)等を複数回適用して出力した特徴量記述子等が考えられる。
検知対象分類部452では、各画像、各検知枠ごとに検知情報抽出部451により得られた特徴量についてユークリッド距離やコサイン類似度を利用することで時系列画像において同一対象物ごとに検知枠を判定・分類する。
検知補正対象物出力部453では、補正対象となる検知枠を出力する。また、検知器により自動で検知枠を出力した場合、検知漏れが数多く発生して検知数が少なく、補正が困難、もしくは、補正精度の低下の可能性が高い場合は、ユーザーへ通知を行う。
本発明の実施例2では上記で説明した機能構成により、画像に複数の物体が含まれている場合でも、補正対象を事前に1つに絞ることが可能となり、補正対象の画像の前後の情報を利用して、検知枠位置の不確実性を推定することにより、ノイズによる検知枠のばらつきを高精度に補正することができる。
以上説明したように、本発明の実施例2の検知枠位置精度向上システム2は、上記実施例1に加えて、前記時系列の画像において同一対象物を判定する検知補正対象物決定部450を備える。
また、前記検知補正対象物決定部450は、各検知枠の特徴量を抽出し(検知情報抽出部451)、前記特徴量から前記時系列の画像において同一対象物を判定し(検知対象分類部452)、検知枠補正対象物とする検知補正対象物出力部453を有する。
本実施例2によれば、同一画像内に複数の対象物が含まれている場合でも、検知枠位置の精度を向上させることが可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1…検知枠位置精度向上システム(実施例1)、2…検知枠位置精度向上システム(実施例2)、10…時系列画像入力部、20…物体検知部、30…検知枠位置分布推定部、40…検知枠予測部、50…検知枠不確実性推定部、60…検知枠補正部、450…検知補正対象物決定部(実施例2)
Claims (11)
- 時系列の画像を入力する時系列画像入力部と、
前記時系列の画像で対象物を検知する物体検知部と、
補正対象時刻より前の時刻までの前記対象物の検知結果から補正対象時刻の検知枠位置座標の分布を推定する検知枠位置分布推定部と、
前記検知結果と前記分布に従い補正対象時刻より後の時刻の検知枠の位置を予測する検知枠予測部と、
補正対象時刻より後の時刻において前記対象物の検知結果と前記予測した検知枠との重なり度合いにより補正対象時刻における検知枠位置座標の分布を更新し、補正対象時刻における検知枠の不確実性を推定する検知枠不確実性推定部と、
前記検知枠と前記不確実性に基づき、補正対象時刻における前記検知枠を補正する検知枠補正部と、を備えることを特徴とする検知枠位置精度向上システム。 - 請求項1に記載の検知枠位置精度向上システムにおいて、
前記検知枠予測部は、前記検知結果により推定した前記分布から補正対象時刻の検知枠の位置座標をサンプリングする検知枠位置サンプリング部を有することを特徴とする検知枠位置精度向上システム。 - 請求項1に記載の検知枠位置精度向上システムにおいて、
前記検知枠予測部は、検知枠の移動先を決定する補正対象時刻より後の時刻の対象物の相対速度または向きの少なくとも一つを含む移動量を取得する検知枠移動量取得部を有することを特徴とする検知枠位置精度向上システム。 - 請求項1に記載の検知枠位置精度向上システムにおいて、
前記検知枠予測部は、前記検知結果により推定した前記分布から補正対象時刻の検知枠の位置座標をサンプリングする検知枠位置サンプリング部と、検知枠の移動先を決定する補正対象時刻より後の時刻の対象物の相対速度または向きの少なくとも一つを含む移動量を取得する検知枠移動量取得部と、を備え、前記検知枠位置サンプリング部により補正対象時刻における検知枠位置を決定し、前記検知枠移動量取得部による移動量により補正対象時刻より後の時刻における検知枠の位置を予測することを特徴とする検知枠位置精度向上システム。 - 請求項1に記載の検知枠位置精度向上システムにおいて、
前記検知枠不確実性推定部は、更新された前記検知枠位置座標の分布から補正対象時刻における検知枠の存在範囲を限定することを特徴とする検知枠位置精度向上システム。 - 請求項5に記載の検知枠位置精度向上システムにおいて、
前記検知枠不確実性推定部は、前記存在範囲を限定した検知枠として、更新された前記検知枠位置座標の分布の標準偏差を基にした大きさが最小となる検知枠および最大となる検知枠と、更新された前記検知枠位置座標の分布の最も確率が高い座標による検知枠とを備えることを特徴とする検知枠位置精度向上システム。 - 請求項1に記載の検知枠位置精度向上システムにおいて、
前記時系列の画像において同一対象物を判定する検知補正対象物決定部を備えることを特徴とする検知枠位置精度向上システム。 - 請求項7に記載の検知枠位置精度向上システムにおいて、
前記検知補正対象物決定部は、各検知枠の特徴量を抽出し、前記特徴量から前記時系列の画像において同一対象物を判定し、検知枠補正対象物とする検知補正対象物出力部を有することを特徴とする検知枠位置精度向上システム。 - 時系列の画像を入力し、
前記時系列の画像で対象物を検知し、
補正対象時刻より前の時刻までの前記対象物の検知結果から補正対象時刻の検知枠位置座標の分布を推定し、
前記検知結果と前記分布に従い補正対象時刻より後の時刻の検知枠の位置を予測し、
補正対象時刻より後の時刻において前記対象物の検知結果と前記予測した検知枠との重なり度合いにより補正対象時刻における検知枠位置座標の分布を更新し、補正対象時刻における検知枠の不確実性を推定し、
前記検知枠と前記不確実性に基づき、補正対象時刻における前記検知枠を補正することを特徴とする検知枠位置補正方法。 - 請求項9に記載の検知枠位置補正方法において、
前記検知結果により推定した前記分布から補正対象時刻の検知枠の位置座標をサンプリングし、検知枠の移動先を決定する補正対象時刻より後の時刻の対象物の相対速度または向きの少なくとも一つを含む移動量を取得し、前記サンプリングにより補正対象時刻における検知枠位置を決定し、前記取得した移動量により補正対象時刻より後の時刻における検知枠の位置を予測することを特徴とする検知枠位置補正方法。 - 請求項9に記載の検知枠位置補正方法において、
更新された前記検知枠位置座標の分布から補正対象時刻における検知枠の存在範囲を限定することで、補正対象時刻における検知枠の不確実性を推定することを特徴とする検知枠位置補正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/547,762 US20240127567A1 (en) | 2021-06-15 | 2022-02-25 | Detection-frame position-accuracy improving system and detection-frame position correction method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-099602 | 2021-06-15 | ||
JP2021099602A JP2022191007A (ja) | 2021-06-15 | 2021-06-15 | 検知枠位置精度向上システム、及び検知枠位置補正方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022264533A1 true WO2022264533A1 (ja) | 2022-12-22 |
Family
ID=84526131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/007983 WO2022264533A1 (ja) | 2021-06-15 | 2022-02-25 | 検知枠位置精度向上システム、及び検知枠位置補正方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240127567A1 (ja) |
JP (1) | JP2022191007A (ja) |
WO (1) | WO2022264533A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862980A (zh) * | 2023-06-12 | 2023-10-10 | 上海玉贲智能科技有限公司 | 图像边缘的目标检测框位置优化校正方法、系统、介质及终端 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017151535A (ja) * | 2016-02-22 | 2017-08-31 | 株式会社リコー | 画像処理装置、物体認識装置、機器制御システム、画像処理方法およびプログラム |
JP2019036009A (ja) * | 2017-08-10 | 2019-03-07 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
-
2021
- 2021-06-15 JP JP2021099602A patent/JP2022191007A/ja active Pending
-
2022
- 2022-02-25 WO PCT/JP2022/007983 patent/WO2022264533A1/ja active Application Filing
- 2022-02-25 US US18/547,762 patent/US20240127567A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017151535A (ja) * | 2016-02-22 | 2017-08-31 | 株式会社リコー | 画像処理装置、物体認識装置、機器制御システム、画像処理方法およびプログラム |
JP2019036009A (ja) * | 2017-08-10 | 2019-03-07 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862980A (zh) * | 2023-06-12 | 2023-10-10 | 上海玉贲智能科技有限公司 | 图像边缘的目标检测框位置优化校正方法、系统、介质及终端 |
CN116862980B (zh) * | 2023-06-12 | 2024-01-23 | 上海玉贲智能科技有限公司 | 图像边缘的目标检测框位置优化校正方法、系统、介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
US20240127567A1 (en) | 2024-04-18 |
JP2022191007A (ja) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6670071B2 (ja) | 車両用画像認識システム、及び対応法 | |
CA2914799C (en) | Method for detecting a plurality of instances of an object | |
US9047518B2 (en) | Method for the detection and tracking of lane markings | |
KR101609303B1 (ko) | 카메라 캘리브레이션 방법 및 그 장치 | |
EP3121791B1 (en) | Method and system for tracking objects | |
JP5136504B2 (ja) | 物体識別装置 | |
US20150348270A1 (en) | Method and device for monitoring a surrounding region of a vehicle, and method for implementing emergency braking | |
US11094080B2 (en) | Method and device for determining whether a hand cooperates with a manual steering element of a vehicle | |
JP7185419B2 (ja) | 車両のための、対象物を分類するための方法および装置 | |
KR20130118116A (ko) | 자동 주차 보조 시스템에서 장애물 충돌 회피 장치 및 방법 | |
CN110853085B (zh) | 基于语义slam的建图方法和装置及电子设备 | |
JP5262705B2 (ja) | 運動推定装置及びプログラム | |
JP2014009975A (ja) | ステレオカメラ | |
WO2022264533A1 (ja) | 検知枠位置精度向上システム、及び検知枠位置補正方法 | |
JP7072765B2 (ja) | 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム | |
US11080562B1 (en) | Key point recognition with uncertainty measurement | |
EP3796256A1 (en) | Image processing apparatus, image processing method, and computer program | |
EP3009983A1 (en) | Obstacle detection apparatus and method | |
EP3879810A1 (en) | Imaging device | |
CN114846513A (zh) | 动作分析系统和动作分析程序 | |
JP4151631B2 (ja) | 物体検出装置 | |
CN113011213A (zh) | 一种基于人脸三维重建的疲劳驾驶检测方法及装置 | |
JP7345680B2 (ja) | 推論装置、推論方法及び推論プログラム | |
JP7204068B2 (ja) | 乗員温度推定装置、乗員状態検出装置、乗員温度推定方法、および、乗員温度推定システム | |
US20240230842A9 (en) | Method and apparatus of filtering dynamic objects in radar-based ego-emotion estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22824533 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 18547762 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 22824533 Country of ref document: EP Kind code of ref document: A1 |