WO2014083910A1 - 対象物追跡システム、対象物追跡方法、画像処理装置およびその制御方法と制御プログラム - Google Patents

対象物追跡システム、対象物追跡方法、画像処理装置およびその制御方法と制御プログラム Download PDF

Info

Publication number
WO2014083910A1
WO2014083910A1 PCT/JP2013/074192 JP2013074192W WO2014083910A1 WO 2014083910 A1 WO2014083910 A1 WO 2014083910A1 JP 2013074192 W JP2013074192 W JP 2013074192W WO 2014083910 A1 WO2014083910 A1 WO 2014083910A1
Authority
WO
WIPO (PCT)
Prior art keywords
tracking
image
space
target
real space
Prior art date
Application number
PCT/JP2013/074192
Other languages
English (en)
French (fr)
Inventor
航介 吉見
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2014083910A1 publication Critical patent/WO2014083910A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a technique for tracking an object in real space based on image data.
  • sensor data for detecting a recognition target from an information source such as an image includes errors such as a displacement of a detection position, omission of detection, erroneous detection, and the like. Therefore, the tracking method models these observation noises (observation noise) and solves the problem of estimating the true state that is not directly observed.
  • a Monte Carlo filter PF
  • PF Monte Carlo filter
  • Patent Document 2 a spatial point corresponding to each pixel of an image of a pedestrian by an in-vehicle camera is obtained using camera parameters, and a motion of the spatial point is a position and a relational velocity as components.
  • a technique for tracking by a state estimator that uses is disclosed.
  • feature points on an image are tracked by an unscented Kalman filter (UKF).
  • the following problem occurs when the observation noise such as the displacement of the detection result acquired on the image is large. That is, even when using a nonlinear filter such as UKF or a sequential Monte Carlo filter, the estimation error of the distribution increases due to a large error outlier, etc., or the accuracy of the estimated value decreases, so the convergence close to the true value can be achieved. It gets worse. As a result, tracking becomes unstable. In particular, when tracking an object on the road surface with a parallel camera, a slight shift in the vertical direction on the image is expanded to a large position shift on the road surface, thereby estimating the position and motion in real space. It becomes difficult. Therefore, when the observation noise due to an error in input data or a detection omission due to a detector or the like is large, the influence of the tracking performance deterioration becomes particularly remarkable.
  • a nonlinear filter such as UKF or a sequential Monte Carlo filter
  • An object of the present invention is to provide a technique for solving the above-described problems.
  • an image processing apparatus provides: Image space object tracking means for suppressing the influence of observation noise on the target image area including the tracking object and estimating the current position of the tracking object on the image space; The actual position of the tracking object is converted by converting the current position in the image space of the tracking object in which the influence of the observation noise is suppressed, estimated by the image space object tracking means, from the image space coordinates to the real space coordinates.
  • a method for controlling an image processing apparatus includes: An image space object tracking step that suppresses the influence of observation noise on the target image area including the tracking object and estimates a current position of the tracking object on the image space; Converting the current position of the tracking object in the image space estimated in the image space object tracking step, in which the influence of observation noise is suppressed, from the image space coordinates to the real space coordinates, the real space of the tracking object A real space object tracking step to estimate the current position above, including.
  • a control program for an image processing apparatus provides: An image space object tracking step that suppresses the influence of observation noise on the target image area including the tracking object and estimates a current position of the tracking object on the image space; Converting the current position of the tracking object in the image space estimated in the image space object tracking step, in which the influence of observation noise is suppressed, from the image space coordinates to the real space coordinates, the real space of the tracking object A real space object tracking step to estimate the current position above, Is executed on the computer.
  • an object tracking system includes: Image data acquisition means for acquiring image data including a tracking object; Tracking target detection means for detecting and outputting a target image region including the tracking target from the image data; An image space object tracking unit that suppresses the influence of observation noise on the target image area including the tracking object and estimates a current position of the tracking object on the image space; The actual position of the tracking object is converted by converting the current position in the image space of the tracking object in which the influence of the observation noise is suppressed, estimated by the image space object tracking means, from the image space coordinates to the real space coordinates.
  • an object tracking method includes: An image data acquisition step for acquiring image data including the tracking object; A tracking target detection step of detecting and outputting a target image region including the tracking target from the image data; An image space object tracking step that suppresses the influence of observation noise on the target image region including the tracking object and estimates a current position of the tracking object on the image space; Converting the current position of the tracking object in the image space estimated in the image space object tracking step, in which the influence of observation noise is suppressed, from the image space coordinates to the real space coordinates, the real space of the tracking object A real space object tracking step to estimate the current position above, including.
  • the present invention when tracking the position of the moving object in the time-series image in the real space, even when the observation noise is large, it is possible to realize accurate position estimation for the tracking object in the real space.
  • FIG. 1 is a block diagram illustrating a configuration of an image processing apparatus according to a first embodiment of the present invention. It is a figure which shows the outline
  • observation noise in the present specification includes, but is not limited to, errors such as detection position shifts, detection omissions and false detections in sensor data. Furthermore, it includes derivative noise due to data processing inside and outside the sensor. That is, it is a concept including the entire noise related to observation included in the data input to the “image space object tracking unit” in the present embodiment.
  • detection in the specification means that a target image area including a tracking target belonging to a specific category such as a pedestrian or a vehicle is identified and identified from other image areas on the input image.
  • tracking in the specification refers to estimating a state such as a position of a tracking target object that is a specific individual in an image in time series.
  • target image area refers to an image area including a tracking target object.
  • the image processing apparatus 100 is an apparatus that estimates a current position of a tracking target object based on a target image area including the tracking target object.
  • the image processing apparatus 100 includes an image space object tracking unit 101 and a real space object tracking unit 102.
  • the image space object tracking unit 101 suppresses the influence of observation noise on the target image area (Yi) including the tracking object, and estimates the current position (Xi, ret) of the tracking object in the image space.
  • the real space object tracking unit 102 calculates the current position (Xi, ret) on the image space of the tracking object, which is estimated by the image space object tracking unit 101 and suppressed by the influence of observation noise, in the image space coordinates (xi, By converting from yi) to real space coordinates (xr, yr), the current position (Xr, ret) of the tracking object in the real space is estimated.
  • observation noise is suppressed when tracking an object in the image space. Therefore, when tracking the position of the moving object in the time series image in the real space, accurate position estimation for the tracking object in the real space can be realized even when the observation noise is large.
  • the information processing apparatus extracts a target image area including a tracking target object from sequential images received from the image providing apparatus. Then, on the image space, the position of each target image region is estimated while suppressing the influence of observation noise, and the tracking target is tracked. Furthermore, the position of each target image area in which the influence of the observation noise is suppressed is mapped (coordinate conversion) from the image space to the real space, the position of each target image area is estimated in the real space, and the tracking object is Chase.
  • the observation noise is suppressed on the image space, and a person or other vehicle or obstacle is tracked as a tracking object.
  • An example of mapping it as a tracking object in real space is shown, but the present invention is not limited to this.
  • the present invention can be applied to any technique for tracking a tracking object in real space from video information.
  • the present embodiment by suppressing the observation noise at the time of tracking the object in the image space, it is possible to realize accurate position estimation for the tracked object in the real space even when the observation noise is large.
  • FIG. 2A is a diagram showing an outline 210 of processing on the image space in the object tracking system including the image processing apparatus according to the present embodiment.
  • a camera 203 is installed in the automobile 201, and the traveling direction (frontward in this example) is photographed. Assume that there is a pedestrian 202 on the road ahead. Image data captured by the camera 203 is subjected to image processing such as brightness adjustment and binarization in the camera 203 or an image processing unit (not shown), and is represented on the image space 211.
  • a rectangle including a pedestrian 202 as a tracking target is a coordinate of the center (center of gravity) position of the rectangle in an image space 211 expressed by xi coordinates (horizontal direction) and yi coordinates (vertical direction). (Xi, (yi), a width wi in the xi direction, and a height hi in the yi direction.
  • FIG. 2B is a diagram showing an outline 220 of processing in real space in the object tracking system including the image processing apparatus according to the present embodiment.
  • the situation is the same as in FIG. 2A. Therefore, like in FIG. 2A, the same reference numerals are given to the elements.
  • FIG. 2B a rectangle including the pedestrian 202, which is the tracking target, in the image space 211 of FIG. 2A is mapped (coordinated) on the real space 221.
  • a cylinder including a pedestrian 202 as a tracking target is located in the real space 221 expressed by xr coordinates (horizontal direction) and yr coordinates (traveling direction), and the center of the bottom of the cylinder (on the ground).
  • the position coordinates (xr, yr), the diameter wr of the cylinder, and the height hr of the cylinder are expressed.
  • FIG. 2C is a diagram for explaining mapping of the object from the image space to the real space in the object tracking system including the image processing apparatus according to the present embodiment.
  • FIG. 2C when the parameters of the camera 203 are known, by adopting a specific camera model, an image of the camera is obtained from a point 231 of arbitrary three-dimensional coordinates (xr, yr, zr) as real space coordinates. It is known that the transformation to the point 232 projected on the spatial coordinates (xi, yi) is uniquely obtained.
  • xr, yr, zr three-dimensional coordinates
  • a camera projection matrix: P is used and the following equation is applied.
  • the inverse transformation from the point on the image space coordinates of the camera to the point on the three-dimensional real space coordinates is obtained by fixing any one of the three-dimensional coordinates (xr, yr, zr).
  • the camera mounting height h is known and the xr-yr plane in the real space coincides with the road surface. . In this case, as shown in FIG.
  • FIG. 2E is a diagram showing a mapping 250 of the locus from the image space to the real space in the object tracking system including the image processing apparatus according to the present embodiment. Elements similar to those in FIGS. 2A to 2D are denoted by the same reference numerals.
  • FIG. 2E shows a tracking example of the tracking object on the image space 211 of FIG. 2A.
  • a thin broken line is a trajectory of observation input to the image space object tracking unit.
  • a thick broken line is a locus of an estimated value in which the influence of observation noise is suppressed by the image space object tracking unit in the present embodiment.
  • the thick solid line is the true value trajectory (the actual tracked object—the pedestrian—trajectory).
  • This locus is mapped (coordinate conversion) 251 from the image space 211 to the real space 221.
  • the trajectory on the real space 221 corresponding to the trajectory on the image space 211 is drawn with the same line. That is, a thin broken line is a locus on the real space 221 that directly maps the observation input.
  • a thick broken line is a trajectory on the real space 221 output from the real space object tracking unit that maps the estimated value trajectory in which the influence of the observation noise is suppressed by the image space object tracking unit in the present embodiment. .
  • a thick solid line is a locus on the real space 221 in which a true locus is mapped.
  • the locus on the real space 221 obtained by mapping the observation input as it is without suppressing the influence of the observation noise becomes unstable due to the influence of the observation noise being amplified, and tracking of the tracking target (true value) is performed. (Tracking) is completely different.
  • the tracking object tracking (true value tracking) is greatly performed. Tracking that doesn't come off is possible. Note that the tracking accuracy differs depending on the size of the tracking target and can be adjusted by the processing parameter. For example, it is not necessary to track the pedestrian's trajectory in units of millimeters or centimeters, and is adjusted according to the tracking target.
  • FIG. 3 is a block diagram showing a configuration of the object tracking system 300 including the image processing apparatus 310 according to the present embodiment.
  • the object tracking system 300 includes an image providing device 320, an image processing device 310, and a terminal device 330.
  • the function of each component will be described.
  • the image providing apparatus 320 is an apparatus that outputs at least image data to the image processing apparatus 310.
  • a camera device is imitated as an image data acquisition unit.
  • the camera device is an apparatus that captures images in real time, and continuously acquires images including a shooting target.
  • a video camera that outputs an NTSC (National Television Standards Committee) format or a PAL (Phase Alternating Line) format can be used as the image providing device 320.
  • the image providing apparatus 320 reads out image data stored in a storage medium, converts the image data into an NTSC output format, a PAL output format, and other image formats that can be read by the image processing apparatus 310 and outputs the converted image data.
  • an image capture device can be used.
  • the image providing device 320 as an image capture device can also be realized as a software program that operates inside the CPU of the image processing device 310.
  • the image processing device 310 is a computer that performs image processing for detecting an object in an image.
  • the image processing apparatus 310 is a region of an object (pedestrian, preceding vehicle, obstacle, etc.) belonging to a specific category to be detected in the image based on a predetermined program in accordance with image data sent from the image providing apparatus 320.
  • the image processing for specifying is performed.
  • the terminal device 330 operates as a user interface for operating the image processing device 310 and monitoring the internal state and output of the image processing device 310.
  • the terminal device 330 includes a display that presents an input image itself, a detection target image area, a symbol indicating a list of registered tracking target objects, and the like.
  • the terminal device 330 is an input device (for example, a switch board) for inputting commands to the image processing device 310 such as processing start / end of the image processing device 310, designation of a tracking target, selection of display presentation information, and the like. Keyboard, mouse, touch panel, etc.).
  • the object tracking system of the present embodiment can be realized with a configuration that does not include the terminal device 330.
  • an external device (not shown) that uses information acquired by the object tracking system 300 as an input can be connected.
  • the function of such an external device can also be realized as a software program that runs on the CPU inside the image processing apparatus 310.
  • the image processing apparatus 310 includes a central processing unit (CPU) 311, a memory 312, a storage 313, and interfaces (I / F) 314 and 315.
  • CPU central processing unit
  • memory 312 a storage
  • I / F interfaces
  • FIG. 3 the memory 312 and the storage 313 are illustrated separately for convenience, but these may be realized as one storage device.
  • the interface 314 mediates exchange of information among the CPU 311, the memory 312, the storage 313, and the image providing device 320.
  • the image providing device 320 and the CPU 311 are connected, but depending on the configuration, the memory 312 and the storage 313 may be directly connected.
  • the interface 315 passes the result of information processing performed in the image processing apparatus 310 to the terminal device 330 connected to the outside, or receives a command input to the image processing apparatus 310 input from the terminal device 330. In addition, it plays a role of mediating information.
  • the memory 312 includes a ROM that stores fixed data and programs at startup and a RAM that stores temporary data, and is electrically connected to the CPU 311.
  • the storage 313 mainly stores a database (hereinafter referred to as DB: DataBase) and application programs, and is electrically connected to the CPU 311. Note that the memory 312 and the storage 313 are built in the image processing apparatus 310 in FIG. 3, but may be connected as an external storage device.
  • the CPU 311 is a circuit element that performs information processing, and is electrically connected to the interfaces 314 and 315, the memory 312, and the storage 313.
  • the CPU 311 executes the program to track the tracking object while appropriately referring to the information stored in the memory 312 and the storage 313 based on the image data input from the image providing apparatus 320 via the interface 314. Information processing is performed.
  • FIG. 4 is a block diagram illustrating a functional configuration of the image processing apparatus 310 according to the present embodiment.
  • the image processing apparatus 310 implements various functions illustrated in FIG. 4 by executing a software program in the CPU 311. Note that the various functions implemented in the image processing apparatus 310 may be implemented as individual devices, function units, or electronic circuits.
  • the image processing apparatus 310 includes an image input unit 410, a tracking target class detection unit 420, an image space object tracking unit 430, and a real space object tracking unit 440. These functional units are configured and operate as follows.
  • the solid line is the most basic configuration, and the arrows indicated by the broken lines are options, and the role of each option will be described below. Also in FIGS. 5A to 5E illustrating the internal configuration of each functional component in FIG. 4, the solid line is the most basic configuration, and the arrow indicated by the broken line is an option, as described above. The role is also explained.
  • the image input unit 410 has a function of receiving input image data output from the image providing apparatus 320 to the image processing apparatus 310. At this time, the acquired image format may be adjusted, such as extraction of a necessary image region, adjustment of resolution or size, extraction of an odd (or even) field from an NTSC format image, image quality improvement, and the like. Then, the image input unit 410 outputs the image data D (t) to the tracking target class detection unit 420 and the image space target tracking unit 430.
  • FIG. 5A is a block diagram illustrating a functional configuration of the tracking target class detection unit 420 according to the present embodiment.
  • the tracking target class detection unit 420 for the image data D (t) received at each time from the image input unit 410, is a target image region candidate including a category (pedestrian, vehicle, obstacle, etc.) that is a tracking target class.
  • the region (ROI: Region of interest) (see the rectangle in FIG. 2A) is identified as the background image.
  • the tracking target class detection unit 420 outputs a numerical value of the detection reliability indicating the position, scale, and probability of the candidate region.
  • the tracking target class detection unit 420 includes a target image region candidate identification unit 511, a target image region selection unit 512, a target object model DB 513, and a threshold storage unit 514.
  • the target image region candidate identifying unit 511 identifies a target image region candidate including the tracking target object from the background of the input image with reference to the target object model DB 513 based on the image data D (t).
  • a general classifier based on statistical learning can be used.
  • a statistical discriminator such as SVM (Support vector) machine or AdaBoost (Adaptive vector boosting) using Haar-like features, HoG features (Histogramsogramof Oriented Gradients), etc. as feature quantities can be used.
  • the target image area selection unit 512 of the tracking target class detection unit 420 can set only a threshold (threshCandVal1) for the detection reliability value, and can output only candidates having a detection reliability equal to or higher than the threshold.
  • a threshold of detection reliability threshCandVal2 that is higher than the threshold (threshCandVal1) so that it falls below the threshold (maxCandNum)
  • FIG. 5B is a block diagram illustrating a functional configuration of the image space object tracking unit 430 according to the present embodiment.
  • the image space object tracking unit 430 uses the stored past state, the output of the tracking target class detection unit 420, the output of the image input unit 410, and the like to determine the position of the region on the current image of the tracking target. Is estimated. Then, the image space object tracking unit 430 finally generates an estimated value Xi, est of a parameter that represents the region to be tracked in the current image space.
  • the expression of the area to be tracked can be defined as a minimum rectangular area including the target image area to be tracked, for example (see FIG. 2A).
  • xi, yi are the coordinates of the center (center of gravity) of the rectangle
  • wi the size of the rectangle in the horizontal direction (x direction)
  • hi the size of the rectangle in the vertical direction (y direction).
  • the image space object tracking unit 430 includes an observation value association unit 521, a new tracker generation unit 522, a tracking object estimation unit 523, a tracking reliability evaluation unit 524, a tracker DB 525, A threshold storage unit 526.
  • the observation value associating unit 521 of the image space object tracking unit 430 defines each tracking target image area Yij that is an output of the tracking target class detection unit 420 that is sequentially input as an observation input, and each of the existing tracking target image regions Yij is an existing input. Has a function to associate with the tracker.
  • the association method can be realized by using a method in the existing data association filter. As an example, the nearest neighbor method is disclosed as a basic method in which the distance between the tracker and the observation input and the boundary condition are defined and the pair with the shortest distance that satisfies the boundary condition is associated. For the observation value association, see “Yaakov Bar-Shalom, Thomas E. Fortmann,“ Tracking and Data Association ”, Academic Press, Inc., 1988.” (referred to as Reference 1 below).
  • Reference 1 For the observation value association, see “Yaakov Bar-Shalom, Thomas E. Fortmann,“ Tracking and Data Association ”, Academic Press, Inc., 1988.” (referred to as Reference 1 below).
  • the new tracker generation unit 522 has a function of newly generating a tracker that is a set of internal state data such as estimation parameters corresponding thereto.
  • processing for one tracking target is basically described. However, this does not exclude the case where a plurality of tracking targets exist at the same time. Unless otherwise specified, the same processing is executed for the number of tracking targets.
  • the tracking object estimation unit 523 of the image space object tracking unit 430 estimates the current position of the tracking object by associating the observation input sequentially input to the tracker in which the different tracking objects are registered. Then, the estimated amount Xi, est for the tracking target and the tracking reliability Valid (Xi, est) are output.
  • the state estimation method used in this embodiment will be described in detail below.
  • FIG. 5C is a block diagram illustrating an implementation example of the image space object tracking unit 430 according to the present embodiment.
  • the tracking method of the image space object tracking unit 430 according to the present embodiment can be broadly divided into (1) a time-series signal filter-based method and (2) an image matching-based method.
  • FIG. 5C illustrates a configuration in which the image space object tracking unit 430 is realized by the time-series signal filter base tracking unit 531 and a configuration in which the image space object tracking unit 430 is realized by the image matching base tracking unit 532. ing.
  • Image matching-based method defines image feature values, and calculates the image feature values of the model generated at the past time point and the image feature values of the target image area in the current input image.
  • the target image area to be tracked is estimated by collating.
  • the tracking since the tracking is performed based on the newly acquired image feature amount, the tracking can be executed without being affected by the noise of the output in the tracking target class detection unit 420.
  • a color histogram feature can be used as a feature amount, and a method such as MeanShift tracking using the MeanShift method as an area search optimization method can be used.
  • MeanShift tracking please refer to “Dorin Comaniciu, Visvanathan Ramesh and Peter Meer,“ Kernel-Based Object Tracking ”, IEEE Trans. On Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, 2003. (Hereinafter, Reference 2).
  • the degree of similarity of the feature amount of the selection target image area with the model feature can be defined as the tracking reliability.
  • the expression of the similarity between feature vectors which is a vector expression of the feature quantity, an N-th power norm, a Battery distance (Bhattacharyya distance), or the like can be used.
  • tracking can be executed without using the output of the recognition target class detection unit as an observation input.
  • a process may be executed in which a tracker without an observation input corresponding continuously for a certain number of times is discarded and the tracking target corresponding to the tracker is determined to disappear.
  • the model feature may be updated using the image feature of the region corresponding to the observation input acquired sequentially (for example, using the section average value of the image feature).
  • Time-series signal filter-based method is a sequential update of parameters, such as state variables and error variance, through prediction processes based on past state transitions and filtering processes based on predicted values and observation inputs. Thus, the state at each time is estimated.
  • each method of Bayesian filter based on Bayesian estimation can be used.
  • a time series signal filter a general expression of a state space model describing time transition of a state and observation of the state is expressed as follows.
  • Equation of state Observation equation: Where t: time index, x: state vector, y: observation vector, q: dynamics noise, r: observation noise, f: dynamics model, g: observation model.
  • a linear Kalman filter is known as a dynamics model and an observation model expressed by linear equations.
  • an extended Kalman filter EKF: Extended Kalman Filter
  • an unscented Kalman filter are known.
  • PF sequential Monte Carlo filter
  • the tracking reliability may be evaluated based on the similarity obtained by separately acquiring image features in the same manner as the image collation-based method.
  • the tracking reliability obtained by adding an adjustment term that evaluates the cumulative interval average value of the detection reliability in the tracking target class detection unit 420 of the observation input associated with each tracker and decreases the value when there is no corresponding observation input. Degree can be defined.
  • the observation equation can be expressed by a linear equation.
  • the dynamics equation can also be expressed linearly, and can be rewritten into the following linear model.
  • Linear model Here, F: state transition matrix, G: observation matrix, In: n-order unit matrix, O: zero matrix.
  • linear Kalman filter may be used in image space object tracking unit.
  • the linear Kalman filter by the above modeling is used. Tracking in the image space is possible sufficiently.
  • the configuration using the linear Kalman filter is generally a configuration suitable for a case where the amount of calculation can be reduced and the processing time is limited as compared with the image matching-based method and the configuration using the nonlinear filter.
  • FIG. 5D is a block diagram illustrating a functional configuration of the real space object tracking unit 440 according to the present embodiment.
  • the real space object tracking unit 440 receives the tracking target estimation result Xi, ret defined on the image space that is the output of the image space object tracking unit 430 as an input, and uses the held past state to perform tracking. Estimate the current state (Xr) defined in the real space of the object (Xr, est).
  • the expression of the tracking target in the real space can be defined as a cylindrical model on the road surface in the real space as follows (see FIG. 2B).
  • xr, yr position coordinates on the road surface of the central axis of the cylinder
  • wr diameter of the cylinder
  • hr height of the cylinder.
  • the real space object tracking unit 440 includes a mapping (coordinate conversion) unit 541, an observation value association unit 542, a new tracker generation unit 543, a tracking object estimation unit 544, and tracking reliability evaluation.
  • observation value association, tracking reliability evaluation, tracking end determination, new tracker generation, and state estimation are executed in the same manner as described in the image space object tracking unit 430.
  • the mapping (coordinate conversion) unit 541 performs mapping according to the above conversion formula.
  • the tracking reliability evaluation unit 545 performs tracking reliability evaluation specific to the real space object tracking unit 440 and substitute for the output estimation amount.
  • the observation value association unit 542, the new tracker generation unit 543, the tracking target object estimation unit 544, the tracker DB 525, and the threshold value storage unit 547 have been described in the image space target tracking unit 430. Is omitted.
  • the value h (Xi, ret) converted into the real space of the output Xi, ret of the image space object tracking unit 430 associated with the tracking target may be substituted.
  • the estimated amount of the previous time may be substituted, or a criterion for determining that the tracking target is lost and terminating the tracking loop may be used.
  • FIG. 5E is a block diagram illustrating an implementation example of the real space object tracking unit 440 according to the present embodiment.
  • the existing time series signal filter described in the image space object tracking unit 430 can be used.
  • FIG. 5C shows the image space object tracking unit 430 as a time series signal. A configuration realized by the filter base tracking unit 531 is shown.
  • nonlinear filter In the case where a nonlinear coordinate transformation h is interposed between the real space in which the estimation amount is defined and the image space in which the observation amount is defined, it is desirable to use a nonlinear filter.
  • Typical examples of existing nonlinear filters include an unscented Kalman filter (see Patent Document 2), a sequential Monte Carlo filter (see Patent Document 1), and the like.
  • the unscented Kalman filter and the sequential Monte Carlo filter are robust against the observation noise because they can approximately estimate the noise distribution through the nonlinear transformation.
  • a linear filter such as a linear Kalman filter can be used to shorten the processing time depending on the purpose.
  • FIG. 3 The storage configuration of the storage 313 in FIG. 3 will be described below with reference to FIGS. 6A to 6E, and the storage configuration of the memory 312 will be described with reference to FIGS. 7A and 7B.
  • the storage configuration is not limited to FIGS. 6A to 6E, 7A, and 7B.
  • FIG. 6A is a diagram showing a configuration of the storage 313 according to the present embodiment.
  • the storage 313 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment.
  • the input image DB 601 is a database that accumulates an input image and a target image area including the detected tracking target (see FIG. 6B).
  • the object model DB 513 is a database that stores model data of a tracking object to be detected (see FIG. 6C).
  • the tracker DB 525 is a database that accumulates detected target image regions in association with each tracking target in order to track the movement of the tracking target (see FIG. 6D).
  • the object tracking algorithm DB 604 is a database that stores various algorithms used in the respective functional components of the image processing apparatus 310 (see FIG. 6E).
  • the storage 313 stores the following programs.
  • the object tracking program 605 is a program for executing object tracking by the image processing apparatus 310.
  • the input image processing module 606 is a module that performs image processing on an input image in the object tracking program 605, and implements the image input unit 410.
  • the tracking target class detection module 607 is a module that detects a target image area including the tracking target from the image data in the target tracking program 605, and implements the tracking target class detection unit 420.
  • the image space object tracking module 608 estimates the current position of the tracking object by suppressing the influence of the observation noise from the object image area including the tracking object, and the tracking object in the image space.
  • the image space object tracking unit 430 is realized.
  • the image space object tracking module 608 includes at least one of a time series signal filter module and an image matching module.
  • the real space object tracking module 609 maps a target image area including the tracking object on the image space from the image space to the real space, and the target image including the tracking object on the real space. This module estimates the current position of the tracking object from the area and tracks the tracking object in real space.
  • the real space object tracking module 609 implements a real space object tracking unit 440.
  • the storage 313 in FIG. 6A does not show programs and data related to general-purpose functions and other feasible functions of the image processing apparatus 310.
  • FIG. 6B is a diagram showing a configuration of the input image DB 601 according to the present embodiment.
  • the configuration of the input image DB 601 is not limited to FIG. 6B.
  • the input image DB 601 stores the object area data included in the image in association with the image ID 611 of the input image and the time stamp 612 indicating the time when the image was acquired.
  • the object area data includes coordinate data and rectangular data 613 of the image space object area, an object ID 614 for identifying the object, and an object attribute 615 included in each object.
  • FIG. 6C is a diagram showing a configuration of the object model DB 513 according to the present embodiment.
  • the configuration of the object model DB 513 is not limited to FIG. 6C.
  • the object model DB 513 stores the object attribute 622 and the feature amount of the object in association with the object ID 621.
  • the feature amount of the object includes, but is not limited to, a Haar-like feature amount 623 and a HoG feature amount 624.
  • FIG. 6D is a diagram illustrating a configuration of the tracker DB 525 according to the present embodiment.
  • the configuration of the tracker DB 525 is not limited to FIG. 6D.
  • the tracker DB 525 is assigned a tracker number 633 in association with the object ID 631 and the object attribute 632. Then, the image space position (Xi, ret) 635 and the real space position (Xr, ret) 636 at different time stamps 634 having the same tracker number 633 are accumulated. In FIG. 6D, it is expressed as one table. However, a plurality of time stamps 634, image space position (Xi, ret) 635, and real space position (Xr, ret) linked to or linked to the object ID 631, the object attribute 632, and the tracker number 633. Data including 636 may be stored at random.
  • FIG. 6E is a diagram showing a configuration of the object tracking algorithm DB 604 according to the present embodiment.
  • the configuration of the object tracking algorithm DB 604 is not limited to FIG. 6E.
  • the object tracking algorithm DB 604 stores usable algorithm names 642 and the contents 643 of each algorithm in association with the purpose of use 641 of the algorithm.
  • the algorithm used in this embodiment uses the properties of parallel camera images, and separates suppression of observation noise (position estimation on the image) and suppression of dynamic noise (position estimation in real space), respectively.
  • the combined filter is configured to have a predetermined condition. As a result, higher-accuracy or higher-speed tracking is realized than when a single filter is used and other combinations are used.
  • Disadvantages of using a single filter for real space position estimation from image input include, for example, that image dynamics in real space cannot be modeled well in image matching-based tracking and linear time series filters (eg, LKF). The estimation accuracy of the spatial position becomes worse.
  • a nonlinear time series filter for example, PF
  • position estimation can be performed by modeling dynamics in real space with respect to image space input.
  • the observation noise in the tracking target class detection unit assumed in the present invention is large and the condition is such that it is expanded in the real space after the coordinate conversion, it is great for ensuring the estimation accuracy with the filter alone. It is necessary to secure the number of reference points, and the increase in the calculation amount becomes remarkable.
  • Typical examples of image matching-based filters that can be used for tracking in the image space include normalized correlation and Color histogram based MeanShift tracking. ((Time series filter base (Gaussian / Non-Gaussian)))
  • Typical examples of time-series filter-based filters that can be used for tracking in the image space include LKF (assuming observation noise with a Gaussian distribution) and PF (not assuming observation noise with a Gaussian distribution).
  • the image space object tracking unit uses time series filter-based tracking and image matching-based tracking in a complementary combination.
  • the uncertainty of the output of the tracking target class detection unit and the tracking uncertainty due to the displacement of the individual tracking target images in the image matching base tracking can be offset.
  • PF non-Gaussian filter
  • PF non-Gaussian filter
  • the amount of calculation can be reduced by making the following changes to the combination example that places importance on the accuracy.
  • a Gaussian filter (UKF or LKF) assuming that the movement of the tracking target is a normal distribution.
  • LKF Gaussian filter
  • a Gaussian filter (LKF) is used as time-series filter-based tracking.
  • image matching base tracking is used.
  • Only time-series filter-based tracking is used in the image space tracking unit.
  • FIG. 7A is a diagram showing a configuration of the memory 312 according to the present embodiment.
  • the memory 312 includes a ROM that stores initial data and fixed data such as a program and a program, and a RAM that the CPU 311 uses as a work area for temporary storage.
  • the input image data 701 is input image data captured by a camera or the like.
  • the target image region table 702 is a table that stores various data regarding a target image region including a tracking target detected from each image data. Based on the target image area table 702, an input image DB 601 and a tracker DB 525 are generated.
  • the tracking object detection reliability threshold (threshCandVal) 703, the tracking object detection number threshold (maxCandNum) 704, the image space tracking reliability threshold (threshValidImage) 705, and the real space tracking reliability threshold (threshValidReal) 706 each have reliability. This is a threshold for increasing. These threshold values may be stored in the storage 313. Note that the use of each threshold value has been described above with reference to FIGS. 5A to 5E, and a description thereof will be omitted.
  • the memory 312 in FIG. 7A does not show programs and data related to general-purpose functions and other realizable functions that the image processing apparatus 310 has.
  • FIG. 7B is a diagram showing a configuration of the target image area table 702 according to the present embodiment.
  • the target image area table 702 is generated for each input image, and manages the target image area including the tracking target in the input image.
  • the target image region table 702 stores information on a target image region detected and having a reliability higher than a threshold in association with the image ID 721 and the time stamp 722 indicating the time when the image was acquired.
  • the target image area information is whether the target image area ID 723, the target image area 724 in the image space, the target image area 725 in the real space, the image feature amount 726 in the target image area, the assigned tracker number 727, or the tracker number 727 is new.
  • An existing flag 728 is included.
  • FIG. 8 is a flowchart showing a processing procedure of the image processing apparatus 310 according to the second embodiment of the present invention.
  • the CPU 311 of the image processing apparatus 310 acquires input image data from the image providing apparatus 320 (S801). Next, the CPU 311 detects and stores an ROI (region of interest) that is a detection region of the tracking target class (S803).
  • ROI region of interest
  • the CPU 311 executes a tracking process on the image space to estimate and store the current state of each tracking target (S805).
  • mapping coordinate transformation
  • the tracking processing in the real space is executed, and the current state of each tracking target is estimated and stored (S807). ).
  • the image space object tracking unit optimized for tracking in the state space defined on the image reduces the influence of noise such as displacement in the image space due to the output of the sequential detector, In addition, detection omission is complemented. Based on this result, the real space object tracking unit estimates the state of the tracking target in the real space by a method optimized for tracking in the state space defined on the road surface.
  • the image recognition system based on the premise of asymmetric coordinate transformation between the road surface and the image surface and an image input including noise by the tracking means optimized for the two different state spaces described above interpolating, A stable and highly accurate object tracking can be realized.
  • a system is configured in which a tracking unit specialized for noise suppression in the image space is added before the state estimation of the tracking target in the real space (on the road surface) from the observation value in the image space.
  • the observation noise on the image space is suppressed by the preceding image space object tracking unit, and the observation input value from which noise such as a large outlier is excluded is given to the real space object tracking unit.
  • the accuracy of estimation in real space can be improved, and as a result, the effect of improving tracking stability can be expected.
  • the image space object tracking unit and the real space object tracking unit are combined. If the configuration is such that tracking in the real space is performed only by transforming the results of the image space object tracking unit, the dynamics of the object moving continuously on the road plane in the real space, etc. Ignored tracking results. Therefore, a stable result may not be obtained as tracking in real space. Moreover, when it comprises only a real space target tracking part like patent document 2, the convergence of estimation may deteriorate when observation noise is large. By adopting the configuration of the present embodiment, the above problem is solved.
  • a linear filter such as a linear Kalman filter
  • the image processing apparatus according to the present embodiment differs from the second embodiment in that the image space object tracking unit has a different estimation method in a hierarchical structure. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 9 is a block diagram illustrating an implementation example of the image space object tracking unit 930 according to the present embodiment.
  • the image space object tracking unit 930 of FIG. 9 includes a time series signal filter base tracking unit 531, an image matching base tracking unit 532, and an estimation result selection unit 933, and the time series signal filter base tracking unit 531 and the image matching unit.
  • the base tracking unit 532 is combined.
  • the time-series signal filter base tracking unit 531 is a tracking processing unit configured by the time-series signal filter-based method described in the second embodiment.
  • the time-series signal filter base tracking unit 531 uses the target image area information Yi output from the tracking target class detection unit 420 as an observation input, and outputs an estimated value Xi1 of the tracking target defined on the image space.
  • the prediction process instead of using the past estimated internal state of the time series signal filter base tracking unit 531, the past final estimation obtained through the image matching base tracking unit 532 is used. Run with the results. As a result, the prediction process can be performed using a more reliable result.
  • the image matching base tracking unit 532 is a tracking processing unit configured by the image matching base method described in the second embodiment, and receives the output Xi1 of the time-series signal filter base tracking unit 531 as input, and in the image space.
  • An estimated value Xi2 of the defined tracking target is obtained.
  • Xi2 may be the output Xi, ret of the entire image space object tracking unit 430. Further, the output Xi1 of the time series signal filter base tracking unit 531 can be used as an initial value in the tracking process.
  • the estimation result selection unit 933 compares the output Xi1 of the time series signal filter base tracking unit 531 with the estimated value Xi2 of the image matching base tracking unit 532, and obtains a result with higher tracking reliability as a final output Xi, ret. It can be.
  • FIG. 10 is a flowchart showing the procedure of the image space object tracking processing according to the present embodiment. This corresponds to the processing according to the present embodiment in step S805 in FIG.
  • a time series signal filter-based tracking process is executed, and an estimated value (Xi1) as a result of tracking is acquired and stored (S1001).
  • an image collation-based tracking process is executed, and an estimated value (Xi2) that is a result of tracking is acquired and stored (S1003).
  • the reliability values Valid (Xi1) and Valid (Xi2) of the respective estimated values are compared, and the estimated value having the higher reliability is adopted as the estimated result (Xi, ret) in step S805, and stored. (S1005).
  • the image collation base tracking unit uses the output of the time-series signal filter base tracking unit to obtain an effect of improving the search processing in collating internal image features and reducing the amount of calculation.
  • the image processing apparatus according to the present embodiment is different from the second embodiment in that the tracking target class detection unit is outside the information processing apparatus and the information processing apparatus acquires the target image area information Yij from the outside.
  • the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 11 is a block diagram illustrating a configuration of an object tracking system 1100 including an image processing apparatus 1110 according to the present embodiment.
  • the same functional components as those in FIGS. 3 and 4 of the second embodiment are denoted by the same reference numerals, and description thereof is omitted.
  • the target tracking system 1100 includes a tracking target detection device 1120 that receives image data from the image providing device 320 and detects a tracking target image region.
  • the tracking target detection device 1120 includes a tracking target class detection unit 420 that is included in the image processing device 310 in FIG. Therefore, the image processing apparatus 1110 of this embodiment includes the image space object tracking unit 430 and the real space object tracking unit 440, and does not include the tracking object class detection unit 420.
  • the processing procedure of the image processing apparatus 1110 of this embodiment is steps S805 and S807 shown in FIG. 8 of the second embodiment.
  • the image input unit 410 and the tracking target class detection unit 420 in the second embodiment are not provided, and the image space object tracking unit 430 and the real space target using the information of the tracking target class region from the outside are input.
  • an image processing apparatus can be realized.
  • the image processing apparatus according to the present embodiment is different from the fourth embodiment in that the tracking target class detection unit is in the image providing apparatus. Since other configurations and operations are the same as those of the second embodiment or the fourth embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 12 is a block diagram illustrating a configuration of an object tracking system 1200 including the image processing apparatus 1110 according to the present embodiment.
  • the same reference numerals are assigned to the same functional components as those in FIG. 3 and FIG. 4 of the second embodiment or FIG. 11 of the fourth embodiment, and the description thereof is omitted.
  • the image providing apparatus 1220 includes a tracking target class detection unit 420 inside. Note that the configuration and procedure of the image processing apparatus 1110 of this embodiment are the same as those of the fourth embodiment, and a description thereof will be omitted.
  • the image input unit 410 and the tracking target class detection unit 420 in the second embodiment are not provided, and the tracking target class detection unit 420 is mounted inside the image providing device 1220.
  • a tracking system can be realized.
  • the information on the estimated position of the tracking object in the real space is used for automatic control such as stopping of the vehicle and speed adjustment, and for notifying the vehicle operator and giving a warning.
  • the vehicles include work vehicles such as construction machines, mobile robots, and the like.
  • the technology of the present embodiment can be applied to tracking conditions involving nonlinear coordinate transformation between an image space in which measurement data is input and a real space in which the tracking target moves.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where a control program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention with a computer, a control program installed in the computer, a medium storing the control program, and a WWW (World Wide Web) server that downloads the control program are also included in the scope of the present invention. include.
  • Image space object tracking means for suppressing the influence of observation noise on the target image area including the tracking object and estimating the current position of the tracking object on the image space;
  • the actual position of the tracking object is converted by converting the current position in the image space of the tracking object in which the influence of the observation noise is suppressed, estimated by the image space object tracking means, from the image space coordinates to the real space coordinates.
  • a real space object tracking means for estimating the current position on An image processing apparatus comprising: (Appendix 2) The image according to appendix 1, further comprising a tracking target detection unit that detects a target image region including the tracking target from image data and outputs the target image region including the tracking target to the image space target tracking unit. Processing equipment.
  • the tracking object detection means includes Target image region candidate identifying means for detecting a target image region candidate including the tracking target object from the image data by identifying it as a background image and outputting a detection reliability value for detection of the target image region candidate
  • a target image region selecting means for selecting a target image region including the tracking target based on the detection reliability threshold or the target image region candidate number threshold
  • the image processing apparatus according to claim 2, further comprising: (Appendix 4) The image processing apparatus according to any one of appendices 1 to 3, further comprising an image input unit that receives image data from outside and outputs the image data to the image space object tracking unit.
  • the image space object tracking unit is configured to estimate a current position of the tracking object in the image space based on the image data and data of a target image area including the tracking object.
  • the image processing apparatus according to item 1.
  • the image space object tracking means comprises: Time-series signal filter-based tracking means for estimating a current position of the tracking object using a time-series signal filter-based tracking method; Image matching base tracking means for estimating a current position of the tracking object using an image matching based tracking method based on an estimation result of the time series signal filter based tracking means;
  • the image space object tracking unit includes a tracking reliability evaluation unit that evaluates an estimation result, and when the reliability does not reach a threshold, the image space object tracking unit includes a target image area including the tracking object.
  • Appendix 9 The image processing apparatus according to any one of appendices 1 to 8, wherein at least one of the image space object tracking unit and the real space object tracking unit is configured using a linear Kalman filter.
  • An image space object tracking step that suppresses the influence of observation noise on the target image area including the tracking object and estimates a current position of the tracking object on the image space; Converting the current position of the tracking object in the image space estimated in the image space object tracking step, in which the influence of observation noise is suppressed, from the image space coordinates to the real space coordinates, the real space of the tracking object A real space object tracking step to estimate the current position above, A method for controlling an image processing apparatus.
  • An object tracking system comprising: (Appendix 13) An image data acquisition step for acquiring image data including the tracking object; A tracking target detection step of detecting and outputting a target image region including the tracking target from the image data; An image space object tracking step that suppresses the influence of observation noise on the target image region including the tracking object and estimates a current position of the tracking object on the image space; Converting the current position of the tracking object in the image space estimated in the image space object tracking step, in which the influence of observation noise is suppressed, from the image space coordinates to the real space coordinates, the real space of the tracking object A real space object tracking step to estimate the current position above, Object tracking method including.

Abstract

 本発明の装置は、時系列画像において移動する対象物の実空間上の位置を追跡する時に、観測ノイズが大きい場合においても、実空間上の追跡対象物に対する精度のよい位置推定を実現する画像処理装置に関するものである。画像処理装置は、追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡部と、画像空間対象物追跡部が推定した、観測ノイズの影響が抑制された追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、追跡対象物の実空間上における現在位置を推定する実空間対象物追跡部と、を備える。

Description

対象物追跡システム、対象物追跡方法、画像処理装置およびその制御方法と制御プログラム
 本発明は、画像データに基づいて実空間上で対象物を追跡する技術に関する。
 上記技術分野において、一般に画像などの情報源から認識対象を検出するセンサデータには、検出位置のずれなどの誤差、検出漏れや誤検出、等が存在する。そのため、追跡手法ではこれらの観測ノイズ(observation noise)をモデル化し、直接観測されない真の状態を推定する問題を解くことになる。特許文献1では、撮影画像に基づいて歩行者をトラッキングするために、モンテカルロフィルタ(PF:particle filter)を使用する。また、特許文献2には、車載カメラによる歩行者の画像の各画素に対応する空間点をカメラのパラメータを使用して求め、空間点の運動を位置および関係速度を成分とする4次元状態ベクトルを使用する状態推定器によって追跡する技術が開示されている。特許文献2では、歩行者の位置を推定するために、画像上の特徴点を無香カルマンフィルタ(UKF:Unscented Kalman filter)によって追跡する。
特許第4686663号公報 特許第4751429号公報
 しかしながら、上記文献に記載の技術では、画像上で取得される検知結果の位置ずれ等の観測ノイズが大きい場合に次のような問題が発生する。すなわち、UKFや逐次モンテカルロフィルタなどの非線形フィルタを用いた場合でも、誤差の大きな外れ値などにより分布の推定誤差が増大したり、推定値の精度が低下することで真の値に近づく収束性が悪化したりする。その結果として、追跡が不安定になる。特に、平行カメラにより路面上の対象を追跡する場合には、画像上の縦方向の僅かなずれが、路面上では大きな位置ずれに拡大されることにより、実空間上での位置や動きの推定が困難となる。従って、検出器などによる入力データの誤差や検出漏れなどによる観測ノイズが大きい場合、追跡性能低下の影響は特に顕著なものとなる。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係る画像処理装置は、
 追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡手段と、
 前記画像空間対象物追跡手段が推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡手段と、
 を備える。
 上記目的を達成するため、本発明に係る画像処理装置の制御方法は、
 追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
 前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
 を含む。
 上記目的を達成するため、本発明に係る画像処理装置の制御プログラムは、
 追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
 前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
 をコンピュータに実行させる。
 上記目的を達成するため、本発明に係る対象物追跡システムは、
 追跡対象物を含む画像データを取得する画像データ取得手段と、
 前記画像データから前記追跡対象物を含む対象画像領域を検知して出力する追跡対象検知手段と、
 前記追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡手段と、
 前記画像空間対象物追跡手段が推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡手段と、
 を備える。
 上記目的を達成するため、本発明に係る対象物追跡方法は、
 追跡対象物を含む画像データを取得する画像データ取得ステップと、
 前記画像データから前記追跡対象物を含む対象画像領域を検知して出力する追跡対象検知ステップと、
 前記追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
 前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
 を含む。
 本発明によれば、時系列画像において移動する対象物の実空間上の位置を追跡する時に、観測ノイズが大きい場合においても、実空間上の追跡対象物に対する精度のよい位置推定を実現できる。
本発明の第1実施形態に係る画像処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る画像処理装置を含む対象物追跡システムにおける画像空間上の処理の概要を示す図である。 本発明の第2実施形態に係る画像処理装置を含む対象物追跡システムにおける実空間上の処理の概要を示す図である。 本発明の第2実施形態に係る画像処理装置を含む対象物追跡システムにおける画像空間から実空間への対象物の写像を説明する図である。 本発明の第2実施形態に係る画像処理装置を含む対象物追跡システムにおける画像空間から実空間への対象物の写像を説明する図である。 本発明の第2実施形態に係る画像処理装置を含む対象物追跡システムにおける画像空間から実空間への軌跡の写像を説明する図である。 本発明の第2実施形態に係る画像処理装置を含む対象物追跡システムの構成を示すブロック図である。 本発明の第2実施形態に係る画像処理装置の機能構成を示すブロック図である。 本発明の第2実施形態に係る追跡対象クラス検知部の機能構成を示すブロック図である。 本発明の第2実施形態に係る画像空間対象物追跡部の機能構成を示すブロック図である。 本発明の第2実施形態に係る画像空間対象物追跡部の実現例を示すブロック図である。 本発明の第2実施形態に係る実空間対象物追跡部の機能構成を示すブロック図である。 本発明の第2実施形態に係る実空間対象物追跡部の実現例を示すブロック図である。 本発明の第2実施形態に係るストレージの構成を示す図である。 本発明の第2実施形態に係る入力画像DBの構成を示す図である。 本発明の第2実施形態に係る対象物モデルDBの構成を示す図である。 本発明の第2実施形態に係るトラッカDBの構成を示す図である。 本発明の第2実施形態に係る対象物抽出用アルゴリズムDBの構成を示す図である。 本発明の第2実施形態に係るメモリの構成を示す図である。 本発明の第2実施形態に係る対象画像領域テーブルの構成を示す図である。 本発明の第2実施形態に係る画像処理装置の処理手順を示すフローチャートである。 本発明の第3実施形態に係る画像空間対象物追跡部の実現例を示すブロック図である。 本発明の第3実施形態に係る画像空間対象物追跡処理の手順を示すフローチャートである。 本発明の第4実施形態に係る画像処理装置を含む対象物追跡システムの構成を示すブロック図である。 本発明の第5実施形態に係る画像処理装置を含む対象物追跡システムの構成を示すブロック図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 なお、本明細書における「観測ノイズ」との文言は、センサデータにおける、検出位置のずれなどの誤差、検出漏れや誤検出、などを含むが、これに限定されない。さらに、センサ内やセンサ外のデータ処理による派生ノイズも含む。すなわち、本実施形態における、「画像空間対象物追跡部」に入力されるデータに含まれる観測に関連するノイズ全体を含む概念である。また、明細書中の「検知」とは、歩行者、あるいは車両などといった特定のカテゴリに属する追跡対象物を含む対象画像領域を、入力画像上でその他の画像領域と識別して特定することをいう。また、明細書中の「追跡」とは、画像中の特定個体である追跡対象物の位置などの状態を時系列的に推定することをいう。また、「対象画像領域」とは、追跡対象物を含む画像領域のことをいう。
 [第1実施形態]
 本発明の第1実施形態としての画像処理装置100について、図1を用いて説明する。画像処理装置100は、追跡対象物を含む対象画像領域に基づき、追跡対象物の現在位置を推定する装置である。
 図1に示すように、画像処理装置100は、画像空間対象物追跡部101と、実空間対象物追跡部102と、を含む。画像空間対象物追跡部101は、追跡対象物を含む対象画像領域(Yi)に対する観測ノイズの影響を抑制して、追跡対象物の画像空間上における現在位置(Xi,ret)を推定する。実空間対象物追跡部102は、画像空間対象物追跡部101が推定した、観測ノイズの影響が抑制された追跡対象物の画像空間上における現在位置(Xi,ret)を画像空間座標(xi,yi)から実空間座標(xr,yr)に変換して、追跡対象物の実空間上における現在位置(Xr,ret)を推定する。
 本実施形態によれば、画像空間上の対象物の追跡時に観測ノイズを抑制する。したがって、時系列画像において移動する対象物の実空間上の位置を追跡する時に、観測ノイズが大きい場合においても、実空間上の追跡対象物に対する精度のよい位置推定を実現できる。
 [第2実施形態]
 次に、本発明の第2実施形態に係る情報処理装置を含むについて対象物追跡システムを説明する。本実施形態の情報処理装置は、画像提供装置から受け取った逐次的な画像から、追跡対象物を含む対象画像領域を抽出する。そして、画像空間上において、観察ノイズの影響を抑制しながら各対象画像領域の位置を推定して、追跡対象物を追跡する。さらに、観察ノイズの影響が抑制された各対象画像領域の位置を画像空間から実空間に写像(座標変換)して、実空間上において各対象画像領域の位置を推定して、追跡対象物を追跡する。
 なお、本実施形態においては、自動車などの車両から前方を撮影するカメラの映像から、画像空間上で観測ノイズを抑制して、人や他の車両や障害物などを追跡対象物として追跡し、それを実空間上の追跡対象物として写像する例を示すが、これに限定されない。映像情報から実空間上の追跡対象物を追跡するあらゆる技術に適用可能である。
 本実施形態によれば、画像空間上の対象物の追跡時に観測ノイズを抑制することにより、観測ノイズが大きい場合においても、実空間上の追跡対象物に対する精度のよい位置推定を実現できる。
 《対象物追跡システムの概略》
 以下、図2A~図2Cを参照して、第2実施形態に係る画像処理装置を含む対象物追跡システムの処理概要を説明する。
 (画像空間上の処理)
 図2Aは、本実施形態に係る画像処理装置を含む対象物追跡システムにおける画像空間上の処理の概要210を示す図である。
 図2Aにおいて、自動車201にはカメラ203が設置されており、進行方向(本例では前方)を撮影している。前方路上には、歩行者202が居るとする。カメラ203が撮像した画像データには、カメラ203あるいは画像処理部(図示せず)において、輝度調整や2値化などの画像処理が行なわれて、画像空間211上に表現される。図2Aにおいては、xi座標(水平方向)とyi座標(垂直方向)とにより表現される画像空間211に、追跡対象物である歩行者202を含む矩形が、矩形の中心(重心)位置の座標(xi, yi)と、xi方向の幅wiと、yi方向の高さhiと、で表現されている。
 (実空間上の処理)
 図2Bは、本実施形態に係る画像処理装置を含む対象物追跡システムにおける実空間上の処理の概要220を示す図である。図2Bにおいて、状況は図2Aと同じである。したがって、図2Aと同様に要素には同じ参照番号を付している。
 図2Bにおいては、図2Aの画像空間211にあった、追跡対象物である歩行者202を含む矩形が、実空間221上に写像(座標変換)されている。図2Aにおいては、xr座標(水平方向)とyr座標(進行方向)とにより表現される実空間221に、追跡対象物である歩行者202を含む円筒が、円筒の底の中心(地面上)位置の座標(xr, yr)と、円筒の直径wrと、円筒の高さhrと、で表現されている。
 (画像空間から実空間への対象物の写像)
 図2Cは、本実施形態に係る画像処理装置を含む対象物追跡システムにおける画像空間から実空間への対象物の写像を説明する図である。
 図2Cのように、カメラ203のパラメータが既知である場合、特定のカメラモデルを採用することで、実空間座標である任意の3次元座標(xr,yr,zr)の点231からカメラの画像空間座標(xi, yi)上に投影される点232への変換が一意に求められることが知られている。かかる技術については、Richard Hartley and Andrew Zisserman,“Multiple View Geometry in Computer Vision”, Cambridge University Press, pp.154?161.などComputer Visionの標準的な文献を参照されたい。
 特にピンホールカメラモデルを仮定すると、camera projection matrix: Pを用いて次式のようにかける。
Figure JPOXMLDOC01-appb-M000001
 カメラの画像空間座標上の点から3次元の実空間座標上の点への逆変換は、3次元座標の(xr,yr,zr)のうち、どれか1つを固定することで求められる。画像空間座標上の矩形241から実空間上の円柱表現242への変換の実現例としては、カメラの取り付け高さhが既知であり、実空間のxr-yr平面が道路面と一致すると仮定する。この場合、図2Dのように、矩形241の底辺の頂点p1,p2に対応するzr=0とした実空間上の座標p1´,p2´を求めることができる。さらに,p1´,p2´と同一のxr,yr座標をもつp3´,p4´をp3,p4、および既知の(xr,yr)座標を用いて求めることで、円柱の断面矩形を表す4点(p1´,p2´,p3´,p4´)が求まり、円柱表現を一意に決めることができる。
 (画像空間から実空間への軌跡の写像)
 図2Eは、本実施形態に係る画像処理装置を含む対象物追跡システムにおける画像空間から実空間への軌跡の写像250を示す図である。なお、図2A~図2Dと同様の要素には、同じ参照番号を付している。
 図2Eには、図2Aの画像空間211上の追跡対象物の追跡例が示されている。画像空間211上において、細い破線が、画像空間対象物追跡部への観測入力の軌跡である。また、太い破線が、本実施形態における画像空間対象物追跡部による、観測ノイズの影響を抑制した推定値の軌跡である。そして、太い実線が、真値の軌跡(実際の追跡対象物-歩行者-の軌跡)である。
 この軌跡を画像空間211から実空間221に写像(座標転換)251する。画像空間211上の軌跡と対応する実空間221上の軌跡は、同じ線で描かれている。すなわち、細い破線が、観測入力をそのまま写像した、実空間221上の軌跡である。また、太い破線が、本実施形態における画像空間対象物追跡部で観測ノイズの影響を抑制した推定値の軌跡を写像した、実空間対象物追跡部から出力される実空間221上の軌跡である。そして、太い実線が、真値の軌跡を写像した実空間221上の軌跡である。
 図2Eのように、観測入力を観測ノイズの影響を抑制せずにそのまま写像した実空間221上の軌跡は、観測ノイズの影響が増幅されて不安定となり、追跡対象物の追跡(真値の追跡)とは全く異なってしまう。これに対して、本実施形態のように、画像空間対象物追跡部で観測ノイズの影響を抑制した推定値の軌跡を写像した場合には、追跡対象物の追跡(真値の追跡)と大きく外れない追跡が可能となる。なお、追跡精度は、追跡対象物のサイズなどに対応して異なり、処理パラメータにより調整が可能である。例えば、歩行者の軌跡を、ミリ単位やセンチ単位で追跡する必要はなく、追跡対象物により調整される。
 《対象物追跡システムの構成》
 図3は、本実施形態に係る画像処理装置310を含む対象物追跡システム300の構成を示すブロック図である。図3を参照すると、対象物追跡システム300は、画像提供装置320と、画像処理装置310と、端末装置330と、を備える。以下、各構成要素について、その機能を説明する。
 (画像提供装置)
 画像提供装置320は、少なくとも画像データを画像処理装置310に向けて出力する装置である。図3ではカメラデバイスを模して画像データ取得部として表現している。カメラデバイスは、リアルタイムで画像を撮像する装置であり、撮影対象物を含む画像を連続的に取得する。画像提供装置320には、例えば、NTSC(National Television Standards Committee)形式やPAL(Phase Alternating Line)形式を出力するビデオカメラ等を用いることができる。画像提供装置320はカメラデバイスの外に、記憶媒体に保存された画像データを読み出してNTSC出力形式やPAL出力形式、その他の画像処理装置310が読み取ることのできる画像形式に変換して出力するような、画像キャプチャ装置を用いることができる。画像キャプチャ装置としての画像提供装置320は、画像処理装置310のCPU内部で動作するソフトウェアプログラムとして実現することもできる。
 (画像処理装置)
 画像処理装置310は、画像中の物体を検知するための画像処理を行なうコンピュータである。画像処理装置310は、画像提供装置320から送られる画像データに応じて、所定のプログラムに基づき、画像中の検知対象とした特定カテゴリに属する物体(歩行者、先行車両、障害物など)の領域を特定するための画像処理を行なう。
 (端末装置)
 端末装置330は、画像処理装置310を操作し、かつ画像処理装置310の内部状態や出力をモニタリングするためのユーザインタフェースとして動作する。端末装置330は、入力画像そのものや、検知対象画像領域、登録されている追跡対象物のリストをユーザに示すシンボル等、を提示するディスプレイを有する。また、端末装置330は、画像処理装置310の処理開始/処理終了、追跡対象物の指定、ディスプレイ提示情報の選択等、画像処理装置310への指令を入力するための入力デバイス(例えば、スイッチボード、キーボード、マウス、タッチパネル、等々)を有する。
 ただし、端末装置330を有しない構成で、本実施形態の対象物追跡システムを実現することも可能である。このほか、対象物追跡システム300によって取得された情報を入力として利用する外部装置(図示せず)を接続することができる。また、そのような外部装置の機能を画像処理装置310の内部のCPUで動作するソフトウェアプログラムとして実現することもできる。
 《画像処理装置のハードウェア構成》
 次に、画像処理装置310のハードウェア構成を説明する。画像処理装置310は、中央演算部(CPU:Central processing unit)311と、メモリ312と、ストレージ313と、インタフェース(I/F)314および315と、を有する。図3中ではメモリ312とストレージ313とを便宜上分けて描いているが、これらは1つの記憶デバイスとして実現してもよい。
 インタフェース314は、CPU311、メモリ312、ストレージ313、と画像提供装置320との間の情報のやり取りを仲介する。図3では画像提供装置320とCPU311のみと接続されているが、構成によってはメモリ312、ストレージ313、と直接接続される場合もある。インタフェース315は、画像処理装置310の内部で行なわれた情報処理の結果を、外部に接続した端末装置330に引き渡す場合、あるいは端末装置330から入力される画像処理装置310への指令入力を受け取る場合に、情報を仲介する役割を果たすものである。
 メモリ312は、起動時の固定のデータやプログラムを記憶するROMや一時的なデータを記憶するRAMを含み、CPU311と電気的に接続されている。ストレージ313は、主にデータベース(以下、DB:DataBase)およびアプリケーションプログラムを格納し、CPU311と電気的に接続されている。なお、メモリ312およびストレージ313は、図3では、画像処理装置310に内蔵されているが、外部の記憶装置として接続してもよい。
 CPU311は、情報処理を行なう回路素子であり、インタフェース314および315、メモリ312、およびストレージ313と電気的に接続されている。CPU311は、プログラムを実行することで、画像提供装置320からインタフェース314を介して入力された画像データに基づいて、メモリ312およびストレージ313に記憶された情報を適宜参照しながら、追跡対象物を追跡するための情報処理を行なう。
 《画像処理装置の機能構成》
 図4は、本実施形態に係る画像処理装置310の機能構成を示すブロック図である。画像処理装置310は、CPU311においてソフトウェアプログラムを実行することで、図4の各種機能を実現する。なお、画像処理装置310において実現される各種機能は、個々の装置、または機能部もしくは電子回路として実現してもよい。
 図4を参照すると、画像処理装置310は、画像入力部410と、追跡対象クラス検知部420と、画像空間対象物追跡部430と、実空間対象物追跡部440と、を有する。これらの機能部は、それぞれ次のように構成され動作する。
 なお、図4の各機能構成部間を結ぶ矢印において、実線は最も基本的な構成、破線で示す矢印はオプションであり、以下でそれぞれのオプションの役割も説明される。また、図4の各機能構成部の内部構成を図示した図5A~図5Eにおいても、上記同様に、実線は最も基本的な構成、破線で示す矢印はオプションであり、以下でそれぞれのオプションの役割も説明される。
 (画像入力部)
 画像入力部410は、画像提供装置320から画像処理装置310へ出力された入力画像データを受け取る機能である。この際、必要な画像領域の切り出し、解像度やサイズの調整、NTSC形式画像からの奇数(あるいは偶数)フィールドの抽出、画質改善等、取得画像形式の調整を行ってもよい。そして、画像入力部410は、画像データD(t)を追跡対象クラス検知部420や画像空間対象物追跡部430に出力する。
 (追跡対象クラス検知部)
 図5Aは、本実施形態に係る追跡対象クラス検知部420の機能構成を示すブロック図である。
 追跡対象クラス検知部420は、画像入力部410から各時刻に受け取る画像データD(t)に対し、追跡対象クラスとなるカテゴリ(歩行者、車両、障害物など)を含む対象画像領域の候補となる領域(ROI:Region of interest)(図2Aの矩形参照)を背景画像と識別する。そして、追跡対象クラス検知部420は、対象画像領域候補Yij(j=1,…,N)を出力する。さらに、追跡対象クラス検知部420は、候補領域の位置、スケール、およびその確からしさを表す検知信頼度の数値を出力する。
 図5Aのように、追跡対象クラス検知部420は、対象画像領域候補識別部511と、対象画像領域選別部512と、対象物モデルDB513と、閾値記憶部514とを有する。
 対象画像領域候補識別部511は、画像データD(t)に基づいて、対象物モデルDB513を参照して、入力画像の背景から追跡対象物が含まれる対象画像領域候補を識別する。実現方法としては、一般的な統計的学習による識別器を用いることができる。例えば、特徴量としてHaar-like特徴、HoG特徴(Histograms of Oriented Gradients)、などを用いた、SVM(Support vector machine)、AdaBoost(Adaptive Boosting)などの統計的識別器を用いることができる。
 追跡対象クラス検知部420の対象画像領域選別部512は、検知信頼度の数値に対して閾値(threshCandVal1)を設定することで、閾値以上の検知信頼度を持つ候補のみを出力させることができる。また、出力される候補の最大個数を定めた閾値(maxCandNum)を超える候補が検知された場合には、閾値(maxCandNum)以下に収まるように閾値(threshCandVal1)より高い検知信頼度の閾値(threshCandVal2)を再設定することで、出力される最大の候補数を制限することができる。
 (画像空間対象物追跡部)
 図5Bは、本実施形態に係る画像空間対象物追跡部430の機能構成を示すブロック図である。
 画像空間対象物追跡部430は、保持された過去の状態、および追跡対象クラス検知部420の出力、画像入力部410の出力、などを用いて、追跡対象の現在の画像上の領域の位置などの状態を推定する。そして、画像空間対象物追跡部430は、最終的に現在の画像空間上の追跡対象の領域を表現するパラメータの推定値Xi,estを生成する。
 追跡対象の領域の表現は、例えば追跡対象の対象画像領域を含む最小の矩形領域として下記のように定義できる(図2A参照)。
Figure JPOXMLDOC01-appb-M000002
ただし、xi, yi:矩形の中央(重心)位置座標、wi:矩形の横(x方向)の大きさ、hi:矩形の縦(y方向)の大きさ、である。
 図5Bのように、画像空間対象物追跡部430は、観測値対応付け部521と、新規トラッカ生成部522と、追跡対象物推定部523と、追跡信頼度評価部524と、トラッカDB525と、閾値記憶部526と、を有する。
 ((観測値対応付け))
 画像空間対象物追跡部430の観測値対応付け部521は、逐次入力される追跡対象クラス検知部420の出力である個々の追跡対象画像領域Yijを観測入力と定義し、それぞれを個々の既存のトラッカに対応づける機能をもつ。対応付けの方法は、既存のdata association filterにおける手法を用いて実現できる。一例としては、トラッカと観測入力同士の距離と境界条件を定義し、境界条件を満たす最も距離の小さいペアを対応付ける、最近傍法などが基本的な手法として開示されている。なお、観測値対応付けについては、「Yaakov Bar-Shalom, Thomas E. Fortmann、“Tracking and Data Association”, Academic Press, Inc., 1988.」を参照されたい(以下、参考文献1)。既存のトラッカに対応付けられなかった観測入力からは、新規トラッカを生成することができる。
 ((新規トラッカ生成))
 画像空間対象物追跡部430の新規トラッカ生成部522は、追跡対象クラス検知部420の出力である対象画像領域Yij(j = 1, …, N、N:検知されたROIの個数)から、新規の追跡対象を登録する。そして、新規トラッカ生成部522は、これに対応する推定パラメータなどの内部状態のデータのセットであるトラッカを新規に生成する機能をもつ。
 なお、以降の説明では、基本的に1つの追跡対象(および、それに対応付けられた1つの観測入力)についての処理を説明するが、追跡対象が同時に複数存在する場合を排除するものではなく、特記しない場合には同様の処理を追跡対象の個数分実行するものとする。
 ((追跡対象物推定部))
 画像空間対象物追跡部430の追跡対象物推定部523は、異なる追跡対象物を登録したトラッカに逐次入力される観察入力を紐付けて、追跡対象物の現在位置を推定する。そして、追跡対象に対する推定量Xi,estと、追跡信頼度Valid(Xi,est)とを出力する。本実施形態で使用する状態推定方法は、以下に詳説する。
 ((追跡信頼度評価基準・追跡終了判断))
 画像空間対象物追跡部430の追跡信頼度評価部524は、追跡対象に対する推定量Xi,estの追跡信頼度Valid(Xi,est)を評価する基準を持つ。そして、追跡信頼度評価部524は、追跡信頼度Valid(Xi,est)が閾値(threshValidImage)以上である場合には、推定結果の出力Xi,ret = Xi,estとする。閾値(threshValidImage)未満である場合には、出力Xi,retを、追跡対象クラス検知部420の出力から選択された、追跡対象に対応付けられた観測入力Yiで代用してもよい。また、前時刻の推定量で代用してもよい。また、追跡対象の消失と判断し、追跡のループを終了させる規準としてもよい。なお、追跡信頼度の具体的な基準の求め方は、下記の状態推定の方法と併記して後述する。
 (状態推定による追跡方法)
 図5Cは、本実施形態に係る画像空間対象物追跡部430の実現例を示すブロック図である。なお、本実施形態の画像空間対象物追跡部430の追跡方法は、(1)時系列信号フィルタベースの方法と、(2)画像照合ベースの方法と、に大別できる。図5Cには、画像空間対象物追跡部430を時系列信号フィルタベース追跡部531で実現した構成と、画像空間対象物追跡部430を画像照合ベース追跡部532で実現した構成と、を図示している。
 (1)画像照合ベースの方法
 画像照合ベースの方法は、画像特徴量を定義し、過去の時点で生成されたモデルの画像特徴量と、現在の入力画像中の対象画像領域の画像特徴量を照合することで、追跡対象の対象画像領域を推定する。この方法では、新たに取得した画像特徴量に基づく追跡を行なうため、追跡対象クラス検知部420における出力のノイズの影響を受けずに追跡を実行できる。
 具体的な構成方法としては、特徴量として色ヒストグラム特徴を、領域探索の最適化手法としてMeanShift法を用いたMeanShift trackingなどの方法を用いることができる。なお、MeanShift trackingについては、「Dorin Comaniciu, Visvanathan Ramesh and Peter Meer, “Kernel-Based Object Tracking”, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, 2003.」を参照されたい(以下、参考文献2)。そして、選択対象画像領域の特徴量のモデル特徴に対する類似度などを追跡信頼度として定義することができる。特徴量のベクトル表現である特徴ベクトル同士の類似度の表現としては、N乗ノルム、バッタチャリア距離(Bhattacharyya distance)などを用いることができる。
 なお、新規トラッカ生成以外では、観測入力としての認識対象クラス検知部の出力を用いずに追跡を実行できる。しかし、既存トラッカとの対応付けを行なうことで、一定回数連続で対応する観測入力のないトラッカを廃棄し、トラッカに対応する追跡対象の消失の判断とするような処理を実行してもよい。また、対応付けられた観測入力と過去の推定値の両方から照合の探索範囲と初期位置などを決定するように構成することもできる。また、逐次取得される観測入力に対応する領域の画像特徴を用いて(例えば、画像特徴の区間平均値などを用いて)、モデル特徴を更新してもよい。
 (2)時系列信号フィルタベースの方法
 時系列信号フィルタベースの方法は、過去の状態遷移に基づく予測、予測値と観測入力に基づくフィルタリングの各プロセスによる状態変数と誤差分散などのパラメータの逐次更新により、各時刻における状態の推定を行なう方法である。具体的な構成方法としては、ベイズ推定に基づくBayesian filterの各手法を用いることができる。
 時系列信号フィルタにおいて、状態の時間遷移、および状態の観測を記述する状態空間モデルの一般的な表現は、次式のように表現される。
状態方程式:
Figure JPOXMLDOC01-appb-M000003
観測方程式:
Figure JPOXMLDOC01-appb-M000004
 ただし、t:時刻インデックス、x:状態ベクトル、y:観測ベクトル、q:ダイナミクスノイズ、r:観測ノイズ、f:ダイナミクスモデル、g:観測モデル、である。ノイズを正規分布でモデル化するガウシアンフィルタのうち、ダイナミクスモデルと観測モデルを線形方程式で表現したものとして、線形カルマンフィルタが知られている。また、非線形のものとして、拡張カルマンフィルタ(EKF:Extended Kalman Filter)、無香カルマンフィルタ、が知られている。さらに、ノイズが非ガウシアンかつ非線形フィルタとして、逐次モンテカルロフィルタ(PF:particle filter)、などが良く知られている(特許文献1、特許文献2、参考文献2参照)。
 図2Aの定義を例とすれば、認識対象の画像空間上の各推定パラメータのダイナミクスを等速直線運動でモデル化した場合、
状態ベクトルを、
Figure JPOXMLDOC01-appb-M000005
観測ベクトルを、
Figure JPOXMLDOC01-appb-M000006
と定義して、上記のベイジアンフィルタを適用することにより、推定値Xi,estを逐次求めることができる。
 この場合における追跡信頼度は、画像照合ベースの方法と同様に画像特徴を別途取得してその類似度によって評価してもよい。また、各トラッカに対応付けられた観測入力の追跡対象クラス検知部420における検知信頼度の累積区間平均値によって評価し、対応する観測入力がない場合に値を低下させる調節項を加えた追跡信頼度を定義することができる。
 ((線形モデルを適用する場合))
 本実施形態の画像空間対象物追跡部430においては、状態ベクトルと観測ベクトルとの間に非線形な座標変換を介さないため、観測方程式は線形方程式で表現できる。さらに、Xiのように等速直線運動でモデル化した場合、ダイナミクス方程式も線形で表現でき、下記のような線形モデルに書き直すことができる。
線形モデル、
Figure JPOXMLDOC01-appb-M000007
ここで、F:状態遷移行列、G:観測行列、In:n次単位行列、O:ゼロ行列、である。
 上式においてダイナミクスノイズと観測ノイズを正規分布でモデル化すれば、線形カルマンフィルタを適用できる。
 ((画像空間対象物追跡部で線形カルマンフィルタを用いてもよい理由))
 一般に、上記のように画像空間上において追跡対象の実空間上での変化を表すダイナミクスノイズを上記のように線形モデルで表現することは妥当ではない。しかし、平行カメラによる歩行者追跡において、画像上の観測ノイズに対して、相対的に、追跡対象のダイナミクスの画像空間上へ投影される変化は小さいと仮定できる場合、上記モデル化による線形カルマンフィルタで十分に画像空間上の追跡が可能である。線形カルマンフィルタによる構成は、一般に画像照合ベースの方法や、非線形フィルタによる構成よりも計算量を小さくでき、処理時間に制限のある場合に適合した構成である。
 (実空間対象物追跡部)
 図5Dは、本実施形態に係る実空間対象物追跡部440の機能構成を示すブロック図である。
 実空間対象物追跡部440は、画像空間対象物追跡部430の出力である画像空間上で定義された追跡対象の推定結果Xi,retを入力とし、保持された過去の状態を用いて、追跡対象の実空間上で定義された現在の状態(Xr)を推定する(Xr,est)。
 実空間上の追跡対象の表現は、例えば実空間上の路面上の円筒モデルとして下記のように定義できる(図2B参照)。
Figure JPOXMLDOC01-appb-M000008
 ただし、xr、yr:円筒中心軸の路面における位置座標、wr:円筒の直径、hr:円筒の高さ、である。
 また、カメラパラメータは既知であるとし、画像空間における追跡対象の中央(重心)
位置が実空間における路平面上にあるという拘束のもとで、追跡対象の位置とスケールを表すパラメータの画像空間上と実空間上の表現は既知の変換式を介して対応付けられるものとする。変換式:
Figure JPOXMLDOC01-appb-M000009
 なお、画像空間から実空間への写像(座標変換)については、図2Cおよび図2Dを参照されたい。
 図5Dのように、実空間対象物追跡部440は、写像(座標変換)部541、観測値対応付け部542と、新規トラッカ生成部543と、追跡対象物推定部544と、追跡信頼度評価部545と、トラッカDB525と、閾値記憶部547と、を有する。
 実空間対象物追跡部440においても、画像空間対象物追跡部430における説明と同様の、観測値の対応付け、追跡信頼度の評価、追跡終了の判断、新規トラッカ生成、状態推定、が実行される。なお、写像(座標変換)部541は、上記変換式に従う写像を行なう。また、追跡信頼度評価部545は、実空間対象物追跡部440に特有の追跡信頼度評価と出力推定量の代用とを行なう。観測値対応付け部542と、新規トラッカ生成部543と、追跡対象物推定部544と、トラッカDB525と、閾値記憶部547と、については、画像空間対象物追跡部430で説明したので、重複説明は省略する。
 画像空間対象物追跡部430の追跡対象物推定部544において、追跡対象に対する推定量Xr,estの追跡信頼度Valid(Xr,est)を評価する基準を持ち、Valid(Xr,est)が閾値(threshValidReal)以上である場合には、出力Xr,ret = Xr,estとする。閾値(threshValidReal)未満である場合には、出力Xr,retを、追跡対象クラス検知部420の出力から選択された、追跡対象に対応付けられた観測入力Yiの実空間上に変換された値h(Yi)で代用してもよい。あるいは、追跡対象に対応付けられた画像空間対象物追跡部430の出力Xi,retの実空間上に変換された値h(Xi,ret)で代用してもよい。あるいは、前時刻の推定量で代用してもよいし、追跡対象の消失と判断し、追跡のループを終了させる規準としてもよい。
 図5Eは、本実施形態に係る実空間対象物追跡部440の実現例を示すブロック図である。実空間対象物追跡部440の構成には、画像空間対象物追跡部430で説明した既存の時系列信号フィルタを用いることができ、図5Cには、画像空間対象物追跡部430を時系列信号フィルタベース追跡部531で実現した構成が示されている。
 ((非線形フィルタを用いる理由))
 推定量が定義される実空間と観測量が定義されている画像空間の間に非線形な座標変換hが介在しているような場合には、非線形フィルタを用いることが望ましい。既存の非線形フィルタの代表的なものとしては、無香カルマンフィルタ(特許文献2参照)、逐次モンテカルロフィルタ(特許文献1参照)、等がある。無香カルマンフィルタや逐次モンテカルロフィルタは、非線形変換を介したノイズ分布を近似的に推定することが可能であるため、観測ノイズに対してロバストである。しかし、一方で推定に用いる参照点数によって処理時間が増大するため、目的によっては処理時間の短縮のために線形カルマンフィルタのような線形フィルタを用いることもできる。
 ((実空間対象物追跡部で線形カルマンフィルタを用いてもよい理由))
 線形カルマンフィルタを用いる場合、画像空間上で定義された観測値の確率分布を実空間上で定義された正規分布で近似する。そのため、図2A~図2Cの例のような強い非線形性の変換を介する場合には精度のよい追跡はできない場合が多い。しかし、本実施形態における画像空間対象物追跡部430によって、画像空間上における観測ノイズが十分小さく減衰することが期待できる。そのため、線形カルマンフィルタのような線形フィルタを用いて実空間対象物追跡部440における状態推定を構成した場合においても精度のよい追跡が期待できる。
 《画像処理装置で使用するデータ構成》
 以下、図6A~図6Eを参照して図3のストレージ313の記憶構成を示し、図7Aおよび図7Bを参照してメモリ312の記憶構成を示す。なお、記憶構成は、図6A~図6E、図7A、図7Bに限定されない。
 (ストレージ構成)
 図6Aは、本実施形態に係るストレージ313の構成を示す図である。ストレージ313には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。入力画像DB601は、入力画像と検知した追跡対象物を含む対象画像領域とを蓄積するデータベースである(図6B参照)。対象物モデルDB513は、検知する追跡対象物のモデルデータを格納するデータベースである(図6C参照)。トラッカDB525は、追跡対象物の移動を追跡するため、検出された対象画像領域を各追跡対象物に紐付けて蓄積するデータベースである(図6D参照)。対象物追跡用アルゴリズムDB604は、画像処理装置310の各機能構成部で用いられる種々のアルゴリズムを格納するデータベースである(図6E参照)。
 ストレージ313には、以下のプログラムが格納される。対象物追跡プログラム605は、画像処理装置310による対象物追跡を実行するプログラムである。入力画像処理モジュール606は、対象物追跡プログラム605において、入力画像の対する画像処理を行なうモジュールであり、画像入力部410を実現する。追跡対象クラス検知モジュール607は、対象物追跡プログラム605において、画像データから追跡対象物を含む対象画像領域を検知するモジュールであり、追跡対象クラス検知部420を実現する。画像空間対象物追跡モジュール608は、対象物追跡プログラム605において、追跡対象物を含む対象画像領域から観測ノイズの影響を抑制して追跡対象物の現在位置を推測し、画像空間上で追跡対象物を追跡するモジュールであり、画像空間対象物追跡部430を実現する。さらに、画像空間対象物追跡モジュール608は、時系列信号フィルタモジュールと画像照合モジュールとの少なくともいずれかを含む。実空間対象物追跡モジュール609は、対象物追跡プログラム605において、画像空間上の追跡対象物を含む対象画像領域を画像空間から実空間に写像して、実空間上で追跡対象物を含む対象画像領域から追跡対象物の現在位置を推測し、実空間上で追跡対象物を追跡するモジュールである。実空間対象物追跡モジュール609は、実空間対象物追跡部440を実現する。
 なお、図6Aのストレージ313には、画像処理装置310が有する汎用の機能や他の実現可能な機能に関連するプログラムやデータは図示されていない
 図6Bは、本実施形態に係る入力画像DB601の構成を示す図である。入力画像DB601の構成は、図6Bに限定されない。
 入力画像DB601は、入力画像の画像ID611と画像を取得した時刻を示すタイムスタンプ612とに対応付けて、その画像に含まれる対象物領域データを蓄積する。対象物領域データとしては、画像空間対象物領域の座標データと矩形データ613と、対象物を識別する対象物ID614と、各対象物が有する対象物属性615とを含む。
 図6Cは、本実施形態に係る対象物モデルDB513の構成を示す図である。対象物モデルDB513の構成は、図6Cに限定されない。
 対象物モデルDB513は、対象物ID621に対応付けて、対象物属性622と、対象物の特徴量とを格納する。対象物の特徴量としては、Haar-like特徴量623やHoG特徴量624などを含むが、これらに限定されない。
 図6Dは、本実施形態に係るトラッカDB525の構成を示す図である。トラッカDB525の構成は、図6Dに限定されない。
 トラッカDB525は、対象物ID631と対象物属性632とに対応付けて、トラッカ番号633が付されている。そして、同じトラッカ番号633を有する、異なるタイムスタンプ634における画像空間位置(Xi,ret)635と実空間位置(Xr,ret)636とを蓄積する。なお、図6Dにおいては、1つのテーブルのように表現した。しかし、対象物ID631と対象物属性632とトラッカ番号633とに紐付けられた、あるいはリンクされた、複数のタイムスタンプ634、画像空間位置(Xi,ret)635、実空間位置(Xr,ret)636を含むデータをランダムに格納する形式であってもよい。
 図6Eは、本実施形態に係る対象物追跡用アルゴリズムDB604の構成を示す図である。対象物追跡用アルゴリズムDB604の構成は、図6Eに限定されない。対象物追跡用アルゴリズムDB604は、アルゴリズムの使用目的641に対応付けて、使用可能なアルゴリズム名642と、各アルゴリズムの内容643とを記憶する。
 以下、本実施形態において、使用可能な各種のアルゴリズムと、そのアルゴリズムの利点や好適な対象、あるいは使用するアルゴリズムの好適な組合せの例をまとめる。しかし、これらに限定されるものではない。
 本実施形態で使用するアルゴリズムは、平行設置カメラ画像の性質を利用し、観測ノイズの抑制(画像上の位置推定)とダイナミクスノイズの抑制(実空間の位置推定)をそれぞれ分離し、各々に特化したフィルタの組合せを所定の条件のものに構成する。これにより、単独のフィルタを用いた場合およびそれ以外の組合せで用いた場合よりも高精度、または高速な追跡を実現するものである。
 単独フィルタを画像入力からの実空間位置推定に用いた場合の欠点としては、例えば、画像照合ベース追跡や線形時系列フィルタ(例えばLKF)において、実空間上のダイナミクスをうまくモデル化できないため、実空間位置の推定精度が悪くなる。また、非線形時系列フィルタ(例えばPF)を用いる場合、画像空間の入力に対して実空間上のダイナミクスをモデル化して位置推定を行なうことが可能である。しかし一般に、精度のよい推定を行なうためには大きな参照点数を用いる必要がある。特に、本発明で前提とする追跡対象クラス検知部における観測ノイズが大きく、かつ座標変換後の実空間上で拡大されるような条件の場合に、フィルタ単独で推定精度を担保するためには大きな参照点数を確保する必要があり、計算量の増大が顕著となる。
 (画像空間上の追跡に利用可能なフィルタ)
 ((画像照合ベース))
 画像空間上の追跡に利用可能な、画像照合ベースのフィルタの代表例としては、正規化相関、Color histogram based MeanShift trackingなどがある。
 ((時系列フィルタベース(ガウシアン・非ガウシアン)))
 画像空間上の追跡に利用可能な、時系列フィルタベースのフィルタの代表例としては、(観測ノイズをガウス分布で仮定する)LKF、(観測ノイズをガウス分布で仮定しない)PF、などがある。
 (実空間上の追跡に利用可能なフィルタ)
 ((時系列フィルタベース(線形/非線形、ガウシアン/非ガウシアン)))
 実空間上の追跡に利用可能な、時系列フィルタの代表例としては、(線形ガウシアン)
LKF、(非線形ガウシアン)UKF、(非線形非ガウシアン)PFなどがある。
 (望ましい組合せの例)
 以下、本実施形態におけるフィルタの組合せ例を説明する。しかしながら、以下の組合せ例に限定されない。なお、画像照合ベース追跡の利点は、個別の追跡対象の画像特徴を利用するため、画像領域の推定精度が高く、対象の初期化以降はクラス検知部の入力に依存せずに追跡できることにある。また、時系列フィルタベース追跡の利点は、クラス検知部の出力を利用するため、個別の追跡対象の画像変化に対しロバストな推定が可能なことにある。
 ((精度を重視した組合せの例))
 画像空間対象物追跡部に、時系列フィルタベース追跡と画像照合ベース追跡とを相補的に組み合わせて用いる。これにより、追跡対象クラス検知部の出力の不確定性と、画像照合ベース追跡における個別の追跡対象画像の変位による追跡の不確かさを相殺することができる。そして、時系列フィルタベース追跡には非ガウシアンフィルタ(PF)を用いることで、追跡対象クラス検知部の出力に含まれる観測ノイズの性質が非正規分布である場合に対するロバスト性を確保できる。また、実空間対象物追跡部に、非ガウシアンフィルタ(PF)を用いることで、追跡対象の実空間上の動き(ダイナミクスノイズ)が非正規分布である場合に対するロバスト性を確保できる。
 ((精度と計算速度とのバランスを考慮した組合せの例))
 上記精度を重視した組合せ例に対し、下記の変更を行なうことで計算量の削減を実現できる。1)実空間追跡部において、追跡対象の動きを正規分布と仮定して、ガウシアンフィルタ(UKFあるいはLKF)を用いることで、計算量を削減する。2)画像空間追跡部において、時系列フィルタベース追跡としてガウシアンフィルタ(LKF)を用いる。3)画像空間追跡部において、画像照合ベース追跡のみを用いる。4)画像空間追跡部において、時系列フィルタベース追跡のみを用いる。
 なお、精度と計算速度はトレードオフであり、上記変更を複数組合せることで、計算量はより削減される。
 それぞれの要素の計算量は大体下記のような傾向がある。
 (画像照合)>(PF)>(UKF)>(LKF)
 ((計算速度を最重視した組合せの例))
 画像空間対象物追跡部に、線形ガウシアンフィルタ(LKF)のみを用い、実空間対象物追跡部に、ガウシアンフィルタ(UKF,またはLKF)を用いる。
 (メモリ構成)
 図7Aは、本実施形態に係るメモリ312の構成を示す図である。メモリ312は、初期データおよびプログラムなどの固定データおよびプログラムを格納するROMと、CPU311が一時記憶のワークエリアとして使用するRAMとを含む。
 入力画像データ701は、カメラなどで撮像した入力画像のデータである。対象画像領域テーブル702は、各画像データから検知した追跡対象物を含む対象画像領域についての種々のデータを記憶するテーブルである。かかる対象画像領域テーブル702に基づいて、入力画像DB601およびトラッカDB525が生成される。
 追跡対象物検知信頼度閾値(threshCandVal)703、追跡対象物検知数閾値(maxCandNum)704、画像空間追跡信頼度閾値(threshValidImage)705、実空間追跡信頼度閾値(threshValidReal)706は、それぞれ信頼度を高めるための閾値である。これらの閾値は、ストレージ313に格納してもよい。なお、各閾値の使用は、図5A~図5Eを参照して上述しているので、説明は省略する。
 なお、図7Aのメモリ312には、画像処理装置310が有する汎用の機能や他の実現可能な機能に関連するプログラムやデータは図示されていない。
 図7Bは、本実施形態に係る対象画像領域テーブル702の構成を示す図である。対象画像領域テーブル702は、各入力画像について生成され、その入力画像にある追跡対象物を含む対象画像領域を管理する。
 対象画像領域テーブル702は、画像ID721と画像を取得した時刻を示すタイムスタンプ722に対応付けて、検知されて信頼度が閾値より高い対象画像領域の情報を記憶する。対象画像領域の情報は、対象画像領域ID723、画像空間の対象画像領域724、実空間の対象画像領域725、対象画像領域の画像特徴量726、割り当てられたトラッカ番号727、トラッカ番号727が新規か既存かのフラグ728を含む。
 《画像処理装置の処理手順》
 図8は、本発明の第2実施形態に係る画像処理装置310の処理手順を示すフローチャートである。
 図8を参照すると、まず画像処理装置310のCPU311は、画像提供装置320より、入力画像データを取得する(S801)。次に、CPU311は、追跡対象クラスの検知領域となるROI(region of interest)を検知して、記憶する(S803)。
 次に、CPU311は、画像空間上の追跡処理を実行して、個々の追跡対象の現在の状態を推定し、記憶する(S805)。最後に、画像空間上の追跡処理を入力として、実空間に写像(座標変換)をして実空間上の追跡処理を実行し、個々の追跡対象の現在の状態を推定し、記憶する(S807)。
 本実施形態では、画像上で定義される状態空間での追跡に最適化された画像空間対象物追跡部により、逐次検出器の出力による画像空間上の位置ずれなどのノイズの影響が低減され、また検出漏れが補完される。この結果に基づき、実空間対象物追跡部では、路面上で定義される状態空間での追跡に最適化された手法により実空間上の追跡対象の状態を推定する。上記、2つの異なる状態空間に最適化された追跡手段が補間的に機能することにより、道路面と画像面の間の非対称な座標変換とノイズを含む画像入力を前提とする画像認識システムにおいて、安定かつ高精度な物体追跡を実現することができる。
 また、本実施形態によれば、カメラ画像を介して観測される歩行者を検知し、実空間上で追跡する問題において、安定な結果を得るためには画像上のノイズを抑制することが重要となる。本実施形態では、画像空間上の観測値から実空間上(路面上)の追跡対象の状態推定の前に画像空間上のノイズ抑制に特化した追跡部を加えたシステムを構成する。それにより、前段の画像空間対象物追跡部によって画像空間上の観測ノイズを抑制し、大きな外れ値などのノイズを排除された観測入力値を実空間対象物追跡部に与える。その結果、実空間上の推定の精度を向上させ、結果として追跡の安定性を向上させる効果が期待できる。
 また、本実施形態では、画像空間対象物追跡部と実空間対象物追跡部とが結合されていることが重要な点である。仮に、画像空間対象物追跡部の結果を座標変換することのみで実空間上の追跡を実行するような構成にした場合、実空間上の道路平面などを連続的に移動する対象物のダイナミクスを無視した追跡結果となる。そのため、実空間上における追跡として安定な結果が得られない場合がある。また、特許文献2のように、実空間対象物追跡部のみで構成した場合、観測ノイズが大である場合において、推定の収束性が悪化する場合がある。本実施形態の構成を採用することにより、上記の問題が解決されることになる。
 特に、平行に設置された単眼カメラにより路面上の歩行者など対象を観測する場合、画像空間上の縦方向の小さな差異が実空間上の奥行き方向の推定の大きな差異になる。逆に、実空間上の歩行者の奥行き方向のフレーム間における移動が画像空間上の差異に与える影響は相対的に小さい、という画像空間と実空間におけるノイズの非対称性が存在する。この非対称性は、画像空間上の追跡では実空間上の歩行者の奥行き方向のダイナミクスを適当な近似でモデル化した構成でもよいこと、さらに画像空間上のノイズを抑制することによる安定化の効果が大きく期待できることの根拠となる。
 また、本実施形態の構成においては、画像空間対象物追跡部および実空間対象物追跡部のそれぞれを線形カルマンフィルタなどの線形フィルタで構成することも可能である。この場合でも、画像上の観測(width="500",height="500")が大きく、相対的に実空間上の対象物体のダイナミクスによる画像空間上の変化が小さいような場合においては安定化の効果が期待できる。加えて、計算量を大きく削減することが可能である。
 [第3実施形態]
 次に、本発明の第3実施形態に係る画像処理装置について説明する。本実施形態に係る画像処理装置は、上記第2実施形態と比べると、画像空間対象物追跡部が異なる推測方法を階層構造で持つ点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 (画像空間対象物追跡部)
 図9は、本実施形態に係る画像空間対象物追跡部930の実現例を示すブロック図である。
 図9の画像空間対象物追跡部930は、時系列信号フィルタベース追跡部531と、画像照合ベース追跡部532と、推定結果選択部933とを含み、時系列信号フィルタベース追跡部531と画像照合ベース追跡部532とを組み合わせて構成する。
 なお、図9の各機能構成部間を結ぶ矢印において、実線は最も基本的な構成、破線で示す矢印はオプションであり、以下でそれぞれのオプションの役割も説明される。
 ((時系列信号フィルタベース追跡部))
 時系列信号フィルタベース追跡部531は、第2実施形態に記載の時系列信号フィルタベースの方法で構成される追跡処理部である。時系列信号フィルタベース追跡部531は、追跡対象クラス検知部420の出力である対象画像領域情報Yiを観測入力とし、画像空間上で定義された追跡対象の推定値Xi1を出力とする。状態方程式を用いた予測処理を実行する際、時系列信号フィルタベース追跡部531の過去の推定された内部状態を用いる代わりに、画像照合ベース追跡部532を経て獲得された過去の最終的な推定結果を用いて実行する。その結果、より信頼性の高い結果を用いて予測処理を行なうように構成することもできる。
 ((画像照合ベース追跡部))
 画像照合ベース追跡部532は、第2実施形態に記載の画像照合ベースの方法で構成される追跡処理部であって、時系列信号フィルタベース追跡部531の出力Xi1を入力とし、画像空間上で定義された追跡対象の推定値Xi2を求める。Xi2を画像空間対象物追跡部430全体の出力Xi,retとしてもよい。また、時系列信号フィルタベース追跡部531の出力Xi1を追跡処理における初期値として用いることができる。
 ((推定結果選択部))
 推定結果選択部933は、時系列信号フィルタベース追跡部531の出力Xi1と、画像照合ベース追跡部532による推定値Xi2とを比較し、より追跡信頼度の高い結果を最終的な出力Xi,retとすることができる。
 (画像空間対象物追跡処理手順)
 図10は、本実施形態に係る画像空間対象物追跡処理の手順を示すフローチャートである。これは図8におけるステップS805の本実施形態による処理に相当する。
 図10を参照すると、最初に時系列信号フィルタベースの追跡処理を実行し、追跡の結果である推定値(Xi1)を取得して、記憶する(S1001)。次に、画像照合ベースの追跡処理を実行し、追跡の結果である推定値(Xi2)を取得して、記憶する(S1003)。最後に、それぞれの推定値の信頼度Valid(Xi1)とValid(Xi2)とを比較し、信頼度のより高いほうの推定値をステップS805における推定結果(Xi,ret)として採用して、記憶する(S1005)。
 本実施形態によれば、画像空間対象物追跡部を階層的に構成することにより、それぞれ単独で構成する場合の追跡の誤りを訂正し、安定な画像空間上の追跡が可能となる。また、画像照合ベース追跡部は、時系列信号フィルタベース追跡部の出力を用いることで内部の画像特徴の照合における探索処理を効率化し計算量を削減する効果を得る。
 [第4実施形態]
 次に、本発明の第4実施形態に係る画像処理装置について説明する。本実施形態に係る画像処理装置は、上記第2実施形態と比べると、追跡対象クラス検知部が情報処理装置の外部にあって、情報処理装置が対象画像領域情報Yijを外部から取得する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 《対象物追跡システムの構成》
 図11は、本実施形態に係る画像処理装置1110を含む対象物追跡システム1100の構成を示すブロック図である。なお、図11において、第2実施形態の図3および図4と同様の機能構成部には同じ参照番号を付して、説明は省略する。
 対象物追跡システム1100は、画像提供装置320から画像データを受け取り、追跡対象画像領域を検知する追跡対象検知装置1120を有する。そして、追跡対象検知装置1120は、図4においては画像処理装置310が有していた追跡対象クラス検知部420を有する。したがって、本実施形態の画像処理装置1110は、画像空間対象物追跡部430と実空間対象物追跡部440とを有し、追跡対象クラス検知部420は有しない。
 本実施形態の画像処理装置1110の処理手順は、第2実施形態の図8に示したステップS805およびS807である。
 本実施形態によれば、第2実施形態における画像入力部410および追跡対象クラス検知部420はなく、外部からの追跡対象クラス領域の情報を入力とした画像空間対象物追跡部430と実空間対象物追跡部440とからなる構成として、画像処理装置を実現することができる。
 [第5実施形態]
 次に、本発明の第5実施形態に係る画像処理装置について説明する。本実施形態に係る画像処理装置は、上記第4実施形態と比べると、追跡対象クラス検知部が画像提供装置にある点で異なる。その他の構成および動作は、第2実施形態または第4実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 《対象物追跡システムの構成》
 図12は、本実施形態に係る画像処理装置1110を含む対象物追跡システム1200の構成を示すブロック図である。なお、図12において、第2実施形態の図3および図4あるいは第4実施形態の図11と同様の機能構成部には同じ参照番号を付して、説明は省略する。
 画像提供装置1220は、内部に追跡対象クラス検知部420を有する。なお、本実施形態の画像処理装置1110の構成および手順は、第4実施形態と同様なので、説明は省略する。
 本実施形態によれば、第2実施形態における画像入力部410および追跡対象クラス検知部420はなく、追跡対象クラス検知部420を画像提供装置1220内部に搭載したので、簡素化した構成の対象物追跡システムを実現することができる。
 [他の実施形態]
 なお、上記実施形態においては、車両の搭載カメラにより撮像した画像内の歩行者や他の車両、他の障害物などを追跡対象物とする例を示した。この場合、かかる実空間の追跡対象物の推定位置の情報は、車両の停止や速度調整などの自動制御や、車両操作者への注意や警告の報知などに使用される。上記車両には、自動車の他、建機等の作業用車両、移動ロボット等を含む。
 また、平行または斜め下向き等の角度で備え付けられた監視カメラによる人物の追跡、人数計測等に使用できる。その他、計測データが入力される画像空間と追跡対象が移動する実空間の間に非線形な座標変換を伴う条件の追跡において、本実施形態の技術が適用できる.
 以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 [実施形態の他の表現]
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡手段と、
 前記画像空間対象物追跡手段が推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡手段と、
 を備える画像処理装置。
(付記2)
 画像データから前記追跡対象物を含む対象画像領域を検知して、前記追跡対象物を含む対象画像領域を前記画像空間対象物追跡手段に出力する追跡対象検知手段をさらに備える付記1に記載の画像処理装置。
(付記3)
 前記追跡対象検知手段は、
  前記画像データから、前記追跡対象物を含む対象画像領域の候補を背景画像と識別して検知すると共に、前記対象画像領域の候補の検知に対する検知信頼度の数値を出力する対象画像領域候補識別手段と、
 前記検知信頼度の閾値または前記対象画像領域の候補数の閾値に基づいて、前記追跡対象物を含む対象画像領域を選別する対象画像領域選別手段と、
 を有する付記2に記載の画像処理装置。
(付記4)
 外部から画像データを受け付けて、前記画像空間対象物追跡手段に出力する画像入力手段をさらに備える付記1乃至3のいずれか1項に記載の画像処理装置。
(付記5)
 前記画像空間対象物追跡手段は、前記画像データと前記追跡対象物を含む対象画像領域のデータとに基づいて、前記追跡対象物の画像空間上における現在位置を推定する付記2乃至4のいずれか1項に記載の画像処理装置。
(付記6)
 前記画像空間対象物追跡手段は、
  時系列信号フィルタベースの追跡方法を用いて前記追跡対象物の現在位置を推定する時系列信号フィルタベース追跡手段と、
  前記時系列信号フィルタベース追跡手段の推定結果に基づいて、画像照合ベースの追跡方法を用いて前記追跡対象物の現在位置を推定する画像照合ベース追跡手段と、
 を含む付記1乃至3のいずれか1項に記載の画像処理装置。
(付記7)
 前記時系列信号フィルタベース追跡手段は、前記画像照合ベース追跡手段の推定結果を用いて前記追跡対象物の現在位置を推定する付記6に記載の画像処理装置。
(付記8)
 前記画像空間対象物追跡手段は、推定結果を評価する追跡信頼度評価手段を有し、信頼度が閾値に達しない場合に、前記追跡対象物を含む対象画像領域を前記画像空間対象物追跡手段の推定結果として出力する付記1乃至7のいずれか1項に記載の画像処理装置。
(付記9)
 前記画像空間対象物追跡手段と前記実空間対象物追跡手段との少なくとも一方が線形カルマンフィルタを用いて構成される付記1乃至8のいずれか1項に記載の画像処理装置。
(付記10)
 追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
 前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
 を含む画像処理装置の制御方法。
(付記11)
 追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
 前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
 をコンピュータに実行させる画像処理装置の制御プログラム。
(付記12)
 追跡対象物を含む画像データを取得する画像データ取得手段と、
 前記画像データから前記追跡対象物を含む対象画像領域を検知して出力する追跡対象検知手段と、
 前記追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡手段と、
 前記画像空間対象物追跡手段が推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡手段と、
 を備える対象物追跡システム。
(付記13)
 追跡対象物を含む画像データを取得する画像データ取得ステップと、
 前記画像データから前記追跡対象物を含む対象画像領域を検知して出力する追跡対象検知ステップと、
 前記追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
 前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
 を含む対象物追跡方法。
 この出願は、2012年11月30日に出願された日本国特許出願 特願2012-262846号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (9)

  1.  追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡手段と、
     前記画像空間対象物追跡手段が推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡手段と、
     を備える画像処理装置。
  2.  画像データから前記追跡対象物を含む対象画像領域を検知して、前記追跡対象物を含む対象画像領域を前記画像空間対象物追跡手段に出力する追跡対象検知手段をさらに備える請求項1に記載の画像処理装置。
  3.  外部から画像データを受け付けて、前記画像空間対象物追跡手段に出力する画像入力手段をさらに備える請求項1または2に記載の画像処理装置。
  4.  前記画像空間対象物追跡手段は、
      時系列信号フィルタベースの追跡方法を用いて前記追跡対象物の現在位置を推定する時系列信号フィルタベース追跡手段と、
      前記時系列信号フィルタベース追跡手段の推定結果に基づいて、画像照合ベースの追跡方法を用いて前記追跡対象物の現在位置を推定する画像照合ベース追跡手段と、
     を含む請求項1乃至3のいずれか1項に記載の画像処理装置。
  5.  前記画像空間対象物追跡手段と前記実空間対象物追跡手段との少なくとも一方が線形カルマンフィルタを用いて構成される請求項1乃至4のいずれか1項に記載の画像処理装置。
  6.  追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
     前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
     を含む画像処理装置の制御方法。
  7.  追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
     前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
     をコンピュータに実行させる画像処理装置の制御プログラム。
  8.  追跡対象物を含む画像データを取得する画像データ取得手段と、
     前記画像データから前記追跡対象物を含む対象画像領域を検知して出力する追跡対象検知手段と、
     前記追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡手段と、
     前記画像空間対象物追跡手段が推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡手段と、
     を備える対象物追跡システム。
  9.  追跡対象物を含む画像データを取得する画像データ取得ステップと、
     前記画像データから前記追跡対象物を含む対象画像領域を検知して出力する追跡対象検知ステップと、
     前記追跡対象物を含む対象画像領域に対する観測ノイズの影響を抑制して、前記追跡対象物の画像空間上における現在位置を推定する画像空間対象物追跡ステップと、
     前記画像空間対象物追跡ステップにおいて推定した、観測ノイズの影響が抑制された前記追跡対象物の画像空間上における現在位置を画像空間座標から実空間座標に変換して、前記追跡対象物の実空間上における現在位置を推定する実空間対象物追跡ステップと、
     を含む対象物追跡方法。
PCT/JP2013/074192 2012-11-30 2013-09-09 対象物追跡システム、対象物追跡方法、画像処理装置およびその制御方法と制御プログラム WO2014083910A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012262846 2012-11-30
JP2012-262846 2012-11-30

Publications (1)

Publication Number Publication Date
WO2014083910A1 true WO2014083910A1 (ja) 2014-06-05

Family

ID=50827560

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/074192 WO2014083910A1 (ja) 2012-11-30 2013-09-09 対象物追跡システム、対象物追跡方法、画像処理装置およびその制御方法と制御プログラム

Country Status (1)

Country Link
WO (1) WO2014083910A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10796166B2 (en) 2016-03-23 2020-10-06 Nec Corporation Information processing for aggregating sensor information about persons entering and exiting a venue
JP2021026668A (ja) * 2019-08-08 2021-02-22 Kddi株式会社 人物検知装置、方法およびプログラム
CN112801903A (zh) * 2021-01-29 2021-05-14 北京博雅慧视智能技术研究院有限公司 一种基于视频降噪的目标跟踪方法、装置和计算机设备
CN113287157A (zh) * 2019-01-18 2021-08-20 三菱电机株式会社 运动状态判定装置
JPWO2021199286A1 (ja) * 2020-03-31 2021-10-07
US11580784B2 (en) 2017-12-08 2023-02-14 Nec Corporation Model learning device, model learning method, and recording medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03119482A (ja) * 1989-10-03 1991-05-21 Nippon Telegr & Teleph Corp <Ntt> 画像情報生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03119482A (ja) * 1989-10-03 1991-05-21 Nippon Telegr & Teleph Corp <Ntt> 画像情報生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HIDETO SHIOZAWA ET AL.: "A Robust Object Tracking using Tracking Planes of Multiple Cameras", IEICE TECHNICAL REPORT, vol. 104, no. 524, 10 December 2004 (2004-12-10), pages 97 - 100 *
MITSUHARU HAYASAKA ET AL.: "Multiple Object Tracking Using Back Projection Method and Kalman Filter", IEICE TECHNICAL REPORT, vol. 101, no. 425, 8 November 2001 (2001-11-08), pages 133 - 138 *
RYUZO OKADA ET AL.: "Tracking a Person with 3-D Motion by Integrating Optical Flow and Depth", IEICE TECHNICAL REPORT, vol. 98, no. 528, 22 January 1999 (1999-01-22), pages 9 - 16 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10796166B2 (en) 2016-03-23 2020-10-06 Nec Corporation Information processing for aggregating sensor information about persons entering and exiting a venue
US11580784B2 (en) 2017-12-08 2023-02-14 Nec Corporation Model learning device, model learning method, and recording medium
CN113287157A (zh) * 2019-01-18 2021-08-20 三菱电机株式会社 运动状态判定装置
CN113287157B (zh) * 2019-01-18 2022-08-16 三菱电机株式会社 运动状态判定装置
JP2021026668A (ja) * 2019-08-08 2021-02-22 Kddi株式会社 人物検知装置、方法およびプログラム
JP7201554B2 (ja) 2019-08-08 2023-01-10 Kddi株式会社 人物検知装置、方法およびプログラム
JPWO2021199286A1 (ja) * 2020-03-31 2021-10-07
WO2021199286A1 (ja) * 2020-03-31 2021-10-07 日本電気株式会社 オブジェクト追跡装置、オブジェクト追跡方法、および記録媒体
JP7355227B2 (ja) 2020-03-31 2023-10-03 日本電気株式会社 オブジェクト追跡装置、オブジェクト追跡方法、およびプログラム
CN112801903A (zh) * 2021-01-29 2021-05-14 北京博雅慧视智能技术研究院有限公司 一种基于视频降噪的目标跟踪方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN110163904B (zh) 对象标注方法、移动控制方法、装置、设备及存储介质
CN108445480B (zh) 基于激光雷达的移动平台自适应扩展目标跟踪系统及方法
JP4919036B2 (ja) 移動物体認識装置
US9405974B2 (en) System and method for using apparent size and orientation of an object to improve video-based tracking in regularized environments
WO2014083910A1 (ja) 対象物追跡システム、対象物追跡方法、画像処理装置およびその制御方法と制御プログラム
JP6454554B2 (ja) 車両用外界認識装置およびそれを用いた車両挙動制御装置
JP5944781B2 (ja) 移動体認識システム、移動体認識プログラム、及び移動体認識方法
JP6266238B2 (ja) 接近物検出システム、及び車両
JP6650657B2 (ja) フィンガープリントを使用してビデオ内で移動オブジェクトを追跡するため方法及びシステム
JP6614247B2 (ja) 画像処理装置、物体認識装置、機器制御システム、画像処理方法およびプログラム
JP2016081525A (ja) 車両用画像認識システム、及び対応法
JP2017526082A (ja) 動作推定方法、移動体、およびプロセッサに動作推定方法を実行させるコンピュータプログラムコードでコード化された非一時的コンピュータ可読媒体
KR101551026B1 (ko) 차량 검출 방법
KR101380628B1 (ko) 복수의 카메라를 사용한 객체 추적 방법 및 장치
CN112997187A (zh) 基于鸟瞰图点云的二维对象边界框信息估计
JP2014137815A (ja) 歪みのあるカメラ画像を補正するシステム及び方法
KR20220020369A (ko) 라이더 및 레이더 기반 추적 및 매핑 시스템 및 방법
Huang et al. Tightly-coupled LIDAR and computer vision integration for vehicle detection
JP2017151535A (ja) 画像処理装置、物体認識装置、機器制御システム、画像処理方法およびプログラム
Xia et al. Vehicles overtaking detection using RGB-D data
JP2013069045A (ja) 画像認識装置、画像認識方法および画像認識プログラム
JP5981284B2 (ja) 対象物検出装置、及び対象物検出方法
CN115035492B (zh) 车辆识别方法、装置、设备和存储介质
Zhang et al. Visual odometry based on random finite set statistics in urban environment
Yao et al. Multi-Person Bayesian Tracking with Multiple Cameras.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13857932

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13857932

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP