WO2022091595A1 - 物体追跡装置及び物体追跡方法 - Google Patents

物体追跡装置及び物体追跡方法 Download PDF

Info

Publication number
WO2022091595A1
WO2022091595A1 PCT/JP2021/033200 JP2021033200W WO2022091595A1 WO 2022091595 A1 WO2022091595 A1 WO 2022091595A1 JP 2021033200 W JP2021033200 W JP 2021033200W WO 2022091595 A1 WO2022091595 A1 WO 2022091595A1
Authority
WO
WIPO (PCT)
Prior art keywords
processor
detection
tracking
kalman filter
sensor data
Prior art date
Application number
PCT/JP2021/033200
Other languages
English (en)
French (fr)
Inventor
顕嗣 山本
淳 黒田
徹 佐原
方偉 童
拓也 本間
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Priority to JP2022558899A priority Critical patent/JPWO2022091595A1/ja
Priority to EP21885714.2A priority patent/EP4239616A1/en
Priority to CN202180073960.9A priority patent/CN116635919A/zh
Priority to US18/250,512 priority patent/US20230394682A1/en
Publication of WO2022091595A1 publication Critical patent/WO2022091595A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes

Definitions

  • This disclosure relates to an object tracking device and an object tracking method.
  • Patent Document 1 processes an image signal output from an in-vehicle camera that captures an image of the surroundings of a vehicle to detect the presence or absence of an approaching vehicle or pedestrian, and adds a square frame mark to the approaching vehicle or pedestrian. Disclose the device to display.
  • the object tracking device is An input interface to acquire sensor data and A processor that detects a plurality of detection targets from the sensor data and tracks each of the plurality of detection targets using a Kalman filter. It is provided with an output interface that outputs the detection result of the detection target.
  • the processor allows duplication of detection results in the tracking process of the plurality of detection targets.
  • the object tracking method is Acquiring sensor data and A plurality of detection targets are detected from the sensor data, and each of the plurality of detection targets is tracked using a Kalman filter. Including outputting the detection result of the detection target. Performing the tracking allows duplication of detection results in the tracking process of the plurality of detection targets.
  • the object tracking device is An input interface that acquires multiple sensor data obtained by different sensing methods, A processor that detects a plurality of detection targets from the plurality of sensor data and performs data processing for tracking each of the plurality of detection targets using a Kalman filter is provided. The processor allows the detection results of the plurality of sensor data to be duplicated and associated with one of the plurality of detection targets.
  • the object tracking method is Acquiring multiple sensor data obtained by different sensing methods, Includes detecting a plurality of detection targets from the plurality of sensor data and performing data processing for tracking each of the plurality of detection targets using a Kalman filter. Performing the data processing allows the detection results of the plurality of sensor data to be duplicated and associated with one of the plurality of detection targets.
  • FIG. 1 is a block diagram showing a schematic configuration of an object tracking system including an object tracking device according to an embodiment.
  • FIG. 2 is a diagram showing a vehicle equipped with the object tracking system of FIG. 1 and a detection target.
  • FIG. 3 is a flowchart showing an example of a process of tracking an image of an object on a moving image.
  • FIG. 4 is a diagram showing an example of an image of an object on a moving image.
  • FIG. 5 is a diagram illustrating the relationship between an object in real space, an image of an object in a moving image, and a mass point in virtual space.
  • FIG. 6 is a diagram showing an example of the movement of mass points in the virtual space.
  • FIG. 7 is a diagram for explaining an operation mode of the Kalman filter.
  • FIG. 1 is a block diagram showing a schematic configuration of an object tracking system including an object tracking device according to an embodiment.
  • FIG. 2 is a diagram showing a vehicle equipped with the object tracking system of FIG. 1 and a detection target.
  • FIG. 8 is a diagram for explaining the data association.
  • FIG. 9 is a diagram for explaining a representative Kalman filter.
  • FIG. 10 is a diagram illustrating a layer configuration of tracking object ID management.
  • FIG. 11 is a diagram for explaining the determination of the same object.
  • FIG. 12 is a diagram for explaining inheritance of the tracking object ID.
  • FIG. 13 is a diagram for explaining fusion.
  • FIG. 14 is a diagram for explaining the overlapping application of fusion.
  • FIG. 1 is a block diagram showing a schematic configuration of the object tracking system 1.
  • the object tracking device 20 according to the embodiment of the present disclosure is included in the object tracking system 1.
  • the object tracking system 1 includes an image pickup device 10, an object tracking device 20, and a display 30. Further, the object tracking system 1 is mounted on the vehicle 100, which is an example of a moving body, as illustrated in FIG.
  • the object tracking device 20 acquires a moving image from the image pickup device 10 as sensor data. That is, in the present embodiment, the sensor used for detecting a plurality of detection targets is an image pickup device 12 that captures visible light included in the image pickup apparatus 10.
  • the object tracking system 1 is not limited to the configuration shown in FIG.
  • the object tracking system 1 may include a device different from the image pickup device 10 as long as it detects a plurality of detection targets.
  • the object tracking system 1 may be configured to include a measuring device for measuring the distance from the reflected wave of the irradiated laser light to the detection target instead of the image pickup device 10.
  • the object tracking system 1 may be configured to include a detection device having a millimeter wave sensor instead of the image pickup device 10. Further, as another example, the object tracking system 1 may be configured to include an image pickup device 10 including an image pickup device 12 that captures light other than the visible light region. Further, the object tracking system 1 includes an image pickup device 10 for visible light, a measuring device for measuring the distance from the reflected wave of the irradiated laser light to the detection target, a detection device having a millimeter wave sensor, and a target other than visible light. It may be configured to include at least one of the image pickup devices (10).
  • the object tracking system 1 is mounted on a moving body and targets an object 40 (see FIG. 2) around the moving moving body as a detection target.
  • the object tracking system 1 is not limited to the configuration mounted on the moving body.
  • the object tracking system 1 may be used in a facility such as a factory to detect employees, transfer robots, products, and the like.
  • the object tracking system 1 may be used in a welfare facility for the elderly or the like, and may target an elderly person or a staff member in a room as a detection target.
  • the object tracking system 1 not only tracks an object for driving or behavioral safety, but also tracks an object for improving work efficiency, quality control, productivity, etc. in agricultural and industrial sites, for example. May be done.
  • the object to be detected by the object tracking device 20 includes not only an object such as a moving object but also a person.
  • the x-axis direction of the coordinates in the real space is the width direction of the vehicle 100 in which the image pickup device 10 is installed.
  • the y-axis direction is the direction in which the vehicle 100 moves backward.
  • the x-axis direction and the y-axis direction are directions parallel to the road surface on which the vehicle 100 is located.
  • the z-axis direction is a direction perpendicular to the road surface.
  • the z-axis direction can be called the vertical direction.
  • the x-axis direction, the y-axis direction, and the z-axis direction are orthogonal to each other.
  • the method of taking the x-axis direction, the y-axis direction, and the z-axis direction is not limited to this.
  • the x-axis direction, y-axis direction, and z-axis direction can be interchanged with each other.
  • the image pickup device 10 includes an image pickup optical system 11, an image pickup element 12, and a processor 13.
  • the image pickup device 10 can be installed at various positions of the vehicle 100.
  • the image pickup apparatus 10 includes, but is not limited to, a front camera, a left side camera, a right side camera, a rear camera, and the like.
  • the front camera, the left side camera, the right side camera, and the rear camera are installed in the vehicle 100 so that the peripheral areas in front, the left side, the right side, and the rear of the vehicle 100 can be imaged, respectively.
  • the image pickup apparatus 10 is attached to the vehicle 100 so that the rear of the vehicle 100 can be imaged with the optical axis direction facing downward from the horizontal direction. There is.
  • the imaging optical system 11 may be configured to include one or more lenses.
  • the image sensor 12 may be configured to include a CCD image sensor (charge-coupled device image sensor) or a CMOS image sensor (complementary MOS image sensor).
  • the image pickup element 12 converts an image (subject image) of an object imaged on the image pickup surface of the image pickup element 12 by the image pickup optical system 11 into an electric signal.
  • the image pickup device 12 can capture a moving image at a predetermined frame rate.
  • the frame is each still image that constitutes the moving image.
  • the number of images that can be captured per second is called the frame rate.
  • the frame rate may be, for example, 60 fps (frames per second) or 30 fps.
  • the processor 13 controls the entire image pickup device 10 and executes various image processing on the moving image output from the image pickup element 12.
  • the image processing performed by the processor 13 may include arbitrary processing such as distortion correction, brightness adjustment, contrast adjustment, and gamma correction.
  • the processor 13 may be composed of one or a plurality of processors.
  • the processor 13 includes, for example, one or more circuits or units configured to perform one or more data calculation procedures or processes by executing instructions stored in the associated memory.
  • the processor 13 includes one or more processors, a microprocessor, a microprocessor, an integrated circuit (ASIC: application specific integrated circuit), a digital signal processing device (DSP: digital signal processor), and a programmable logic device (PLD). ), Field Programmable Gate Array (FPGA) or any combination of these devices or configurations or other known device or configuration combinations.
  • ASIC application specific integrated circuit
  • DSP digital signal processing device
  • PLD programmable logic device
  • FPGA Field Programmable Gate Array
  • the object tracking device 20 includes an input interface 21, a storage unit 22, a processor 23, and an output interface 24.
  • the input interface 21 is configured to be able to communicate with the image pickup apparatus 10 by a wired or wireless communication means.
  • the input interface 21 acquires a moving image from the image pickup device 10 as sensor data.
  • the input interface 21 may correspond to the transmission method of the image signal transmitted by the image pickup apparatus 10.
  • the input interface 21 can be rephrased as an input unit or an acquisition unit.
  • the image pickup apparatus 10 and the input interface 21 may be connected by an in-vehicle communication network such as CAN (control area network).
  • the storage unit 22 is a storage device that stores data and programs necessary for processing performed by the processor 23.
  • the storage unit 22 temporarily stores a moving image acquired from the image pickup apparatus 10.
  • the storage unit 22 stores data generated by the processing performed by the processor 23.
  • the storage unit 22 may be configured by using any one or more of, for example, a semiconductor memory, a magnetic memory, an optical memory, and the like.
  • the semiconductor memory may include a volatile memory and a non-volatile memory.
  • the magnetic memory may include, for example, a hard disk and a magnetic tape.
  • the optical memory may include, for example, a CD (compact disc), a DVD (digital versatile disc), a BD (bl-ray (registered trademark) disc), and the like.
  • the processor 23 controls the entire object tracking device 20.
  • the processor 23 recognizes an image of an object included in the moving image acquired via the input interface 21.
  • the processor 23 maps the coordinates of the recognized image of the object to the coordinates of the object 40 in the virtual space 46 (see FIG. 6), and positions and speeds the mass point 45 (see FIG. 5) representing the object 40 on the virtual space 46.
  • the mass point 45 is a point having mass and no size.
  • the virtual space 46 is a two-dimensional space in which a value in the z-axis direction is a predetermined fixed value in a coordinate system including three axes of x-axis, y-axis, and z-axis in real space.
  • the processor 23 may map-convert the coordinates of the tracked mass point 45 on the virtual space 46 into the coordinates on the moving image.
  • the processor 23 detects a plurality of detection targets from the moving image, and tracks each of the plurality of detection targets using a Kalman filter.
  • the processor 23 can avoid such a problem by associating one or more Kalman filters with each of the plurality of detection targets.
  • the processor 23 manages the observed value, the Kalman filter, and the unique identification information of the tracked object (hereinafter referred to as “tracked object ID”) in each layer (layer).
  • the processor 23 determines whether or not the tracked object is the same object, and executes a process of associating the observed value with the Kalman filter and the tracked object ID. This makes it possible to further improve the accuracy of tracking a plurality of detection targets. The details of the processing performed by the processor 23 will be described later.
  • the processor 23 may include a plurality of processors like the processor 13 of the image pickup apparatus 10. Further, the processor 23 may be configured by combining a plurality of types of devices in the same manner as the processor 13.
  • the output interface 24 is configured to output an output signal from the object tracking device 20.
  • the output interface 24 can be rephrased as an output unit.
  • the output interface 24 may output the detection result of the detection target such as the coordinates of the mass point 45.
  • the output interface 24 may be configured to include a physical connector and a wireless communication device.
  • the output interface 24 may be connected to a network of vehicles 100, such as CAN.
  • the output interface 24 may be connected to the display 30, the control device of the vehicle 100, the alarm device, and the like via a communication network such as CAN.
  • the information output from the output interface 24 may be appropriately used in each of the display 30, the control device, and the alarm device.
  • the display 30 can display a moving image output from the object tracking device 20.
  • the display 30 receives the coordinates of the mass point 45 representing the position of the image of the object from the object tracking device 20, it generates an image element (for example, a warning to be displayed together with an approaching object) according to the coordinates and superimposes the image element on the moving image. It may have a function.
  • the display 30 may employ various types of devices.
  • the display 30 includes a liquid crystal display (LCD: liquid crystal display), an organic EL (electro-luminence) display, an inorganic EL display, a plasma display (PDP: plasma display panel), an electric field emission display (FED: field display display), and a field emission display (FED).
  • LCD liquid crystal display
  • OLED organic EL
  • FED field emission display
  • FED field emission display
  • An electrophoretic display, a twisted ball display, or the like can be adopted.
  • Non-temporary computer-readable media include, but are not limited to, magnetic storage media, optical storage media, photomagnetic storage media, and semiconductor storage media.
  • Magnetic storage media include magnetic disks, hard disks, and magnetic tapes.
  • Optical storage media include optical discs such as CDs, DVDs and BDs.
  • the semiconductor storage medium includes a ROM (read only memory), an EEPROM (electrically erasable programmable read-only memory), and a flash memory.
  • the flowchart of FIG. 3 shows a process executed by the processor 23 by acquiring sequential frames of moving images.
  • the processor 23 of the object tracking device 20 tracks (tracks) the position of the image 42 (see FIG. 4) of the object each time the frame of the moving image is acquired according to the flowchart of FIG.
  • there are a plurality of objects 40 to be detected and may include a pedestrian 40A, a car 40B, and a bicycle 40C.
  • the object 40 is not limited to moving objects and people, and may include various objects such as obstacles on the road.
  • a plurality of objects 40 specifically, a pedestrian 40A included in the moving image of the image pickup apparatus 10 installed behind the vehicle 100 will be described. Tracking is performed for each of the other objects 40 (for example, automobile 40B and bicycle 40C) by the same processing.
  • FIG. 4 shows an example of one frame of a moving image.
  • an image of an object 40 (object image 42) behind the vehicle 100 is displayed in a two-dimensional image space 41 composed of an uv coordinate system.
  • the u coordinate is the horizontal coordinate of the image.
  • the v-coordinate is the vertical coordinate of the image.
  • the origin of the uv coordinate is the point at the upper left end of the image space 41.
  • the u coordinate has a positive direction in the direction from left to right.
  • the v-coordinate has a positive direction from top to bottom.
  • the processor 23 recognizes the image 42 of the object from each frame of the moving image by image recognition (step S102).
  • the method of recognizing the image 42 of the object includes various known methods.
  • the method of recognizing an image 42 of an object includes a method of recognizing the shape of an object such as a car or a person, a method of template matching, a method of calculating a feature amount from an image and using it for matching, and the like.
  • a function approximator that can learn the relationship between input and output can be used to calculate the features.
  • a neural network can be used as a function approximator capable of learning the input / output relationship.
  • the processor 23 maps-converts the coordinates (u, v) of the image 42 of the object in the image space 41 to the coordinates (x', y') of the object in the virtual space 46 (see FIG. 6) (step S103).
  • the coordinates (u, v) of the image space 41 which are two-dimensional coordinates, cannot be converted into the coordinates (x, y, z) of the real space.
  • the coordinates (u, v) of the image space 41 can be changed to the coordinates (x, y, z 0 ) (z 0 ) of the real space.
  • the virtual space 46 is made two-dimensional, but it may be made three-dimensional depending on the input information (type of sensor).
  • a representative point 43 located at the center of the lowermost part of the image 42 of the object is specified.
  • the representative point 43 can be the lowest position of the v-coordinate of the area occupied by the image 42 of the object and the center position of the range of the u-coordinate in the image space 41.
  • the representative point 43 is assumed to be a position in contact with the road surface or the ground of the object 40 corresponding to the image 42 of the object.
  • FIG. 5 shows the relationship between the object 40 located in the three-dimensional real space and the image 42 of the object on the two-dimensional image space 41.
  • the coordinates (x, y, z) in the real space are directed from the center of the image pickup optical system 11 of the image pickup device 10 based on the coordinates (u, v) of the image space 41.
  • the direction can be calculated.
  • the internal parameters of the image pickup apparatus 10 include information such as the focal length of the image pickup optical system 11, distortion, and the pixel size of the image pickup element 12.
  • the reference surface 44 corresponds to the road surface or the ground on which the vehicle 100 is located.
  • the specific point is the point corresponding to the mass point 45.
  • the processor 23 has a position (x', y') and a velocity (v x ') of the mass point 45 mapped to the virtual space 46 from the representative point 43 of the image 42 of the object on the virtual space 46. , V y' ) (step S104). Since the mass point 45 has the information of the position (x', y') and the velocity (v x ', v y' ), the processor 23 has a range of the position (x', y') of the mass point 45 in the sequential frame. Can be predicted. The processor 23 can recognize the mass point 45 located in the predicted range in the next frame as the mass point 45 corresponding to the image 42 of the object being tracked. The processor 23 sequentially updates the position (x', y') and velocity (v x ', v y' ) of the mass point 45 each time a new frame is input.
  • an estimation using a Kalman filter based on a state space model can be adopted.
  • the robustness against undetectable and false detection of the object 40 to be detected is improved.
  • the object tracking device 20 of the present disclosure by mapping the image 42 of the object to the mass point 45 in the real space, it is possible to apply a model describing the motion in the real space, so that the accuracy of tracking the image 42 of the object can be applied. Is improved. Further, by treating the object 40 as a mass point 45 having no size, simple and simple tracking becomes possible.
  • the processor 23 may map-convert the coordinates of the mass point 45 on the virtual space 46 to the coordinates (u, v) on the image space 41 in order to indicate the estimated position.
  • the mass point 45 located at the coordinates (x, y') of the virtual space 46 can be mapped to the image space 41 as a point located at the coordinates (x, y, 0) of the real space.
  • the coordinates (x, y, 0) in the real space can be mapped to the coordinates (u, v) on the image space 41 of the image pickup apparatus 10 by a known method.
  • the processor 23 mutually converts the coordinates (u, v) on the image space 41, the coordinates (x', y') of the virtual space 46, and the coordinates (x, y, 0) of the real space. Can be done.
  • the processor 23 detects a plurality of detection targets from the moving image and tracks each of them. For example, in the situation as shown in FIG. 2, the processor 23 tracks each of the pedestrian 40A, the automobile 40B, and the bicycle 40C. The processor 23 uses the virtual space 46 to track the position and speed of the mass points 45 representing each of the plurality of detection targets. In order for the processor 23 to execute the object tracking method shown in FIG. 3, it is necessary that a Kalman filter is prepared for each of the plurality of objects 40. In the present embodiment, the processor 23 generates a new Kalman filter when the image 42 of a new object is recognized in the moving image, and executes tracking when the starting condition is satisfied.
  • one or more Kalman filters are prepared for each of the plurality of objects 40 to be detected.
  • the Kalman filter is continuously generated for a transient new object 40 (for example, an oncoming vehicle that is not included in the moving image in a certain period of time)
  • the number of Kalman filters increases more than necessary and the amount of calculation is large. Therefore, there is a risk of delaying the processing of tracking the object.
  • the processor 23 initializes the Kalman filter when the termination condition is satisfied so that the processing delay does not occur.
  • FIG. 7 is a diagram for explaining the operation mode of the Kalman filter.
  • the processor 23 controls the Kalman filter according to the initial state of the detection target, the tracking preparation state, and the tracking state.
  • the initial state of the detection target is the state in which the processor 23 recognizes the image 42 of the new object to be detected in the moving image.
  • the operation mode of the Kalman filter associated with the detection target is "mode 0".
  • the mode 0 Kalman filter has no initial values (position and velocity information).
  • the processor 23 does not track the position of the detection target, that is, predict the range of the position (x', y') of the mass point 45 in the next frame when the Kalman filter associated with the detection target is in mode 0.
  • the tracking preparation state is a state in which the image 42 of the object newly recognized in the previous frame is also recognized in the current frame.
  • the operation mode of the Kalman filter associated with the detection target is "mode 1".
  • the Kalman filter in mode 1 acquires the position (x', y') of the mass point 45 to be detected, but since there is no information on the position of the detection target in the previous frame, the velocity (v x ', v y' ) Do not get information. That is, the mode 1 Kalman filter has only a part of the necessary initial values (position and velocity information).
  • the processor 23 does not track the position of the detection target when the Kalman filter associated with the detection target is in mode 1.
  • the Kalman filter When the Kalman filter is in mode 1, a process is performed to confirm that the image 42 of the object is not erroneous detection or the like. As shown in FIG. 7, when the first censoring condition is satisfied, that is, when it is determined that the detection is false or the image 42 of the object disappears, the operation mode of the Kalman filter is initialized. And return to mode 0. This makes it possible to avoid starting tracking due to sporadic false positives.
  • the operation mode of the Kalman filter is mode 2.
  • the tracking state is a state in which the second termination condition is not satisfied after the above starting condition is satisfied.
  • the second censoring condition is that the image 42 of the object disappears in a predetermined number of frames continuously up to the current frame.
  • the operation mode of the Kalman filter associated with the detection target is “mode 2”.
  • the mode 2 Kalman filter has the required initial values (position and velocity information) and can be used immediately for tracking control.
  • the processor 23 tracks the position of the detection target when the Kalman filter associated with the detection target is in mode 2.
  • the operation mode of the Kalman filter is initialized and returns to mode 0.
  • the Kalman filter is set to the tracking state (mode 2).
  • the number continuously detected in this embodiment is 2, but it may be 3 or more.
  • the mode 1 state tilt preparation state
  • the mode 1 state tilt preparation state
  • the processor 23 stops tracking by the Kalman filter when the same detection target cannot be detected consecutively for a predetermined number of times.
  • the predetermined number is 5, but is not limited to this in the present embodiment.
  • the error in the predicted position range increases as the number of frames from which such information cannot be obtained overlaps.
  • the above predetermined number may be determined based on the magnitude of this error.
  • the processor 23 can systematically control a plurality of Kalman filters for each state by setting the above-mentioned operation mode in the Kalman filter and dynamically changing the settings.
  • FIG. 8 is a diagram for explaining the data association.
  • a data association is an association between a plurality of observation values and a plurality of Kalman filters.
  • the observed value is the position of the detection target.
  • the processor 23 attaches an identifier to a plurality of observation values and a plurality of Kalman filters to distinguish them.
  • the processor 23 uses, for example, a serial number, and sets each of the plurality of observed values as an observed value (1), an observed value (2), an observed value (3), and so on. Further, the processor 23 uses symbols and serial numbers, for example, to make each of the plurality of Kalman filters KF (1), KF (2), KF (3), and so on.
  • the processor 23 performs a data association between M observation values and N Kalman filters.
  • M is an integer of 2 or more.
  • N is an integer greater than or equal to M.
  • the processor 23 performs a data association between three observation values and five Kalman filters.
  • the observed value (1) is the position of the pedestrian 40A detected in the frame (k) of the moving image.
  • the observed value (2) is the position of the automobile 40B detected in the frame (k) of the moving image.
  • the observed value (3) is the position of the bicycle 40C detected in the frame (k) of the moving image.
  • the frame (k-1) is a frame immediately before the frame (k) in the moving image.
  • the frame (k-2) is a frame two before the frame (k) in the moving image. It is assumed that the current frame is the frame (k).
  • KF (2) was used for tracking the pedestrian 40A until the time of the frame (k-1), but it has been initialized because it satisfied the second censoring condition. That is, the operation mode of KF (2) is mode 0, and it is not used for tracking the position of the detection target.
  • the KF (5) is a Kalman filter newly prepared by the recognition of the new bicycle 40C by the frame (k-2). KF (5) was in mode 1 at the time of frame (k-1), but is in mode 2 because the starting condition is satisfied. The other Kalman filters have been in mode 2 since the time of the frame (k-2), and each of them continues to track the detection target.
  • the processor 23 associates the observed value (1) with the KF (1).
  • the processor 23 associates the observed value (2) with the KF (3) and the KF (4). Further, the processor 23 associates the observed value (3) with the KF (5).
  • the processor 23 allows duplication of detection results in the tracking process of a plurality of detection targets. That is, the processor 23 uses the KF (3) and the KF (4) to predict the observed value (2), that is, the range of the position of the automobile 40B. In this way, local optimization can be performed by allowing duplication in the data association.
  • one misassociation may be chained for overall optimization. ..
  • the problem of chain of misassociations does not occur.
  • one or more Kalman filters are associated with one observed value, and tracking failure is unlikely to occur for any of the observed values, so that robustness can be improved.
  • Kalman filter As a situation where multiple Kalman filters are associated with one observation value, for example, when one object is recognized as two objects due to the influence of light reflection, and a new Kalman filter is associated with one of them. Can be considered.
  • the control of tracking the detection target is executed in parallel by using a plurality of Kalman filters associated with each other. However, for example, when the predicted position of the detection target is used to prevent the collision of the vehicle 100, it may be preferable to output one detection result having the highest certainty from the output interface 24.
  • the processor 23 may determine a Kalman filter (hereinafter, “representative Kalman filter”) showing the most reliable detection result based on the error ellipse of the Kalman filter.
  • FIG. 9 is a diagram for explaining a representative Kalman filter.
  • three Kalman filters KF (p), KF (q) and KF (r) are associated with one observed value.
  • Processor 23 calculates an error ellipse for each of the three Kalman filters.
  • the error ellipse indicates the estimation range based on the probability density distribution of the position, and indicates that the error ellipse is located inside the ellipse with a predetermined probability (99% as an example).
  • the error ellipse is calculated using the standard deviation in the x'direction and the standard deviation in the y'direction.
  • the processor 23 determines the Kalman filter having the smallest error ellipse as the representative Kalman filter.
  • KF (r) is a representative Kalman filter.
  • the processor 23 represents the object having the smallest estimation range based on the probability density distribution of the positions of the plurality of detection targets. be able to. Therefore, the object tracking device 20 is also suitably applied to driving support such as collision prevention of the vehicle 100.
  • a plurality of Kalman filters can be associated with one observed value as described above, a plurality of observed values may be associated with one object to be detected.
  • the object tracking device 20 identifies each tracking object and grasps the correspondence with the observed value.
  • the processor 23 executes hierarchical management as described below, groups a plurality of Kalman filters, and determines whether or not they correspond to the same object.
  • FIG. 10 is a diagram showing a layer configuration of tracking object ID management in the present embodiment.
  • the processor 23 manages the observed value, the Kalman filter, and the tracking object ID in each layer. Further, the processor 23 enables accurate tracking of the object by associating the observed value with the Kalman filter and the tracking object ID.
  • the tracking object ID is the unique identification information of the tracking object as described above. If the tracking object IDs associated with the plurality of observations or the plurality of Kalman filters are the same, these observations or the Kalman filters are related to the tracking of the same object.
  • the processor 23 generates a Kalman filter for a new observation value and associates one observation value with one or more Kalman filters.
  • the processor 23 further associates the Kalman filter with the tracking object ID.
  • FIG. 11 is a diagram for explaining the determination of the same object.
  • the processor 23 groups a plurality of Kalman filters by clustering such as DBSCAN (density-based partial coupling of applications with noise).
  • the processor 23 determines that the Kalman filters belong to one group when the centers of the error ellipses of the plurality of Kalman filters are included in a predetermined range. In the example of FIG. 11, the predetermined range is indicated by a circle. Further, KF (p), KF (q) and KF (r) are one group.
  • the predetermined range may change depending on the size of the tracking object. For example, if the tracking object is the automobile 40B, the predetermined range may be set larger than the case where the tracking object is the pedestrian 40A. Further, the predetermined range may be constant regardless of the type of the tracking object.
  • the clustering method is not limited to DBSCAN. Clustering may be performed by other methods such as the k-means method.
  • the processor 23 executes grouping of a plurality of Kalman filters when a frame of a moving image is acquired. Then, the processor 23 updates the correspondence between the observed value, the Kalman filter, and the tracking object ID.
  • the processor 23 groups KF (1), KF (2), and KF (3), and is an identifier for the object to be tracked by using these Kalman filters, "tracking object ID (1)". Is assigned to perform tracking control of this object. Further, the processor 23 groups KF (4) and KF (5), assigns an identifier "tracking object ID (2)" to the object to be tracked by using these Kalman filters, and controls tracking of this object. I do.
  • KF (1) and KF (2) are associated with the observed value (1)
  • KF (3) is associated with the observed value (2).
  • the processor 23 can identify that the observed value (1) and the observed value (2), which are the positions of different objects, are the positions of the same object having the tracking object ID (1) as an identifier. ..
  • the processor 23 associates Kalman filters corresponding to objects determined to be the same, and controls tracking with a hierarchical structure that also associates detection results of detection targets corresponding to these Kalman filters with high accuracy without errors. Tracking becomes possible.
  • the processor 23 can obtain a detection result with high certainty by comparing or selecting the detection results using, for example, a plurality of linked Kalman filters.
  • the processor 23 tracks using the observed values (1), KF (1), and KF (2) even when the observed value (2) is lost or the KF (3) is initialized, for example. Tracking of an object using the object ID (1) as an identifier can be continued. That is, it is possible to enhance the robustness.
  • the processor 23 may determine the Kalman filter having the smallest error ellipse for a plurality of Kalman filters belonging to the same group as the representative Kalman filter in the same manner as described above (see FIG. 9). That is, the processor 23 may represent the group having the smallest estimation range based on the probability density distribution of the positions of a plurality of detection targets among the Kalman filters corresponding to the same grouped objects.
  • FIG. 12 is a diagram for explaining inheritance of the tracking object ID.
  • the processor 23 executes the grouping of a plurality of Kalman filters when the frame of the moving image is acquired.
  • the processor 23 appropriately inherits the tracking object ID based on the similarity when the composition of the group changes.
  • the processor 23 groups KF (1), KF (2), and KF (3) and associates them with the tracking object ID (1). ing. Then, when the frame (k) is acquired, the processor 23 similarly performs grouping, KF (1) and KF (2) are in the set (1), and KF (4) and KF (5) are in another. It is grouped into a set (2).
  • KF (3) satisfies the censoring condition and is excluded from the target of grouping.
  • the processor 23 determines the degree of similarity between the set (1) and the set (2) to the set when the frame (k-1) is acquired.
  • the determination of similarity is performed, for example, by calculating the Simpson coefficient, but is not limited to this determination method.
  • a Jaccard coefficient, a Diske coefficient, or the like may be used.
  • the set (1) including KF (1) and KF (2) has a higher similarity
  • the set (1) is associated with the tracking object ID (1). That is, the set (1) inherits the tracking object ID (1).
  • Another tracking object ID (2) is associated with the set (2).
  • the KF (2) is divided into the set (2) instead of the set (1).
  • the set (1) containing only the KF (1) has a higher degree of similarity to the set (1) when the frame (k) is acquired, the tracking object ID (1) is inherited as it is. ..
  • the processor 23 manages the identifier according to the similarity of the groups at different times. With this management, control of tracking the same object can be appropriately continued.
  • the object tracking device 20 allows duplication of detection results in the tracking process of a plurality of detection targets by the above configuration. Therefore, the object tracking device 20 can track a plurality of objects with high accuracy without causing a chain of misassociations.
  • the object tracking system 1 may be configured to perform detection in parallel by a millimeter wave sensor, a laser beam reflected wave detection device, or the like, in addition to the image pickup device 10. In the case of such a configuration, the object tracking system 1 can track a plurality of objects with higher accuracy by associating the observed values determined to be the same detection target with each other.
  • fusion is to relate observation values that are determined to be the same object from a plurality of observation values obtained by physically different sensing methods, taking into account their respective errors.
  • fusion is a process that allows a plurality of observation values obtained by different sensing methods to be linked to one detection target in duplicate. Since the new observation values generated by fusion are based on the detection results of a plurality of sensor data, the accuracy of the position of the detection target can be improved. Further, since the processor 23 does not reject the observed values that have not been fused, its complementarity is maintained.
  • the processing related to fusion may be executed as the pre-data processing (pre-processing) of direct object tracking.
  • the processor 23 applies the above-mentioned data association algorithm that allows duplication as it is when updating the observed value by fusion.
  • the processor 23 selects one observation value having the smallest Mahalanobis distance as the other observation value to be fused, with the error ellipse of one observation value to be fused as the upper limit range.
  • FIG. 13 is a diagram for explaining fusion.
  • the observation value list A is an observation value obtained as a detection result of sensor data of, for example, the image pickup apparatus 10.
  • the observation value list B is an observation value obtained as a detection result of sensor data of a millimeter wave sensor, for example.
  • the processor 23 executes fusion to integrate the observation list A and the observation list B into the observation list AB.
  • a highly accurate observation value of a1b1 can be obtained.
  • the observed values that are not fused, such as a4 are left as they are in the observed value list AB.
  • the processor 23 may execute fusion in a superimposed manner. Since the error of the fused observation value is always small, it is possible to obtain the observation value with higher accuracy and accuracy.
  • FIG. 14 is a diagram for explaining the overlapping application of fusion.
  • the observed value list AB is the same as that of FIG.
  • the observation value list C is, for example, an observation value obtained as a detection result of sensor data of a detection device for a reflected wave of laser light.
  • the processor 23 integrates the observation value list A, the observation value list B, and the observation value list C into the observation value list ABC by executing the fusion in an overlapping manner.
  • the observation list ABC has more accurate observations, for example a1b1c1.
  • the fused observations can be treated in the same way as the non-fusion observations. That is, the fused observations and the unfused observations are subjected to the same data association. Therefore, even when fusion is performed, the algorithm after the data association is the same as the above embodiment.
  • the object tracking system 1 includes an image pickup device 10, an object tracking device 20, and a display 30, but at least two of them may be integrated.
  • the function of the object tracking device 20 can be mounted on the image pickup device 10.
  • the image pickup apparatus 10 may include the above-mentioned storage unit 22 and the output interface 24 in addition to the image pickup optical system 11, the image pickup element 12, and the processor 13. Further, the processor 13 may execute the processing performed by the processor 23 in the above embodiment with respect to the moving image output by the image pickup apparatus 10. With such a configuration, an image pickup apparatus 10 that performs tracking of an object may be realized.
  • the "moving body” in this disclosure includes vehicles, ships, and aircraft.
  • Vehicles in the present disclosure include, but are not limited to, automobiles and industrial vehicles, and may include railway vehicles, living vehicles, and fixed-wing aircraft traveling on runways.
  • Automobiles include, but are not limited to, passenger cars, trucks, buses, motorcycles and trolley buses, and may include other vehicles traveling on the road.
  • Industrial vehicles include industrial vehicles for agriculture and construction.
  • Industrial vehicles include, but are not limited to, forklifts and golf carts.
  • Industrial vehicles for agriculture include, but are not limited to, tractors, tillers, transplanters, binders, combines and lawnmowers.
  • Industrial vehicles for construction include, but are not limited to, bulldozers, scrapers, excavators, mobile cranes, dump trucks and road rollers. Vehicles include those that run manually.
  • the classification of vehicles is not limited to the above.
  • an automobile may include an industrial vehicle capable of traveling on a road, and the same vehicle may be included in a plurality of categories.
  • Vessels in the present disclosure include marine jets, boats and tankers.
  • Aircraft in the present disclosure include fixed-wing aircraft and rotary-wing aircraft.
  • Object tracking system 10 Imaging device 11 Imaging optical system 12 Imaging element 13 Processor 20 Object tracking device 21 Input interface 22 Storage unit 23 Processor 24 Output interface 30 Display 40 Object 40A Pedestrian 40B Car 40C Bicycle 41 Image space 42 Object image 43 Representative point 44 Reference surface 45 Mass point 46 Virtual space 100 Vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

複数の物体を高精度に追跡できる物体追跡装置及び物体追跡方法が提供される。物体追跡装置(20)は、センサデータを取得する入力インターフェイス(21)と、センサデータから複数の検出対象を検出し、複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うプロセッサ(23)と、検出対象の検出結果を出力する出力インターフェイス(24)と、を備え、プロセッサ(23)は、複数の検出対象の追跡過程における検出結果の重複を許容する。

Description

物体追跡装置及び物体追跡方法 関連出願の相互参照
 本出願は、日本国特許出願2020-180783号(2020年10月28日出願)の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。
 本開示は、物体追跡装置及び物体追跡方法に関する。
 周囲の物体を検知し、検知した物体を追跡して動きを予測する技術が知られている。例えば、特許文献1は、車両周辺の映像を取り込む車載カメラから出力される映像信号を処理して接近する車両及び歩行者の有無を検知し、接近車両及び歩行者に四角枠のマークを付加して表示する装置を開示する。
特開平11-321494号公報
 一実施形態に係る物体追跡装置は、
 センサデータを取得する入力インターフェイスと、
 前記センサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うプロセッサと、
 前記検出対象の検出結果を出力する出力インターフェイスと、を備え、
 前記プロセッサは、前記複数の検出対象の追跡過程における検出結果の重複を許容する。
 一実施形態に係る物体追跡方法は、
 センサデータを取得することと、
 前記センサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うことと、
 前記検出対象の検出結果を出力することと、を含み、
 前記追跡を行うことは、前記複数の検出対象の追跡過程における検出結果の重複を許容する。
 一実施形態に係る物体追跡装置は、
 異なるセンシング手法によって得られる複数のセンサデータを取得する入力インターフェイスと、
 前記複数のセンサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うためのデータ処理を行うプロセッサと、を備え、
 前記プロセッサは、前記複数のセンサデータの検出結果を前記複数の検出対象の1つに重複して紐づけることを許容する。
 一実施形態に係る物体追跡方法は、
 異なるセンシング手法によって得られる複数のセンサデータを取得することと、
 前記複数のセンサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うためのデータ処理を行うこと、を含み、
 前記データ処理を行うことは、前記複数のセンサデータの検出結果を前記複数の検出対象の1つに重複して紐づけることを許容する。
図1は、一実施形態に係る物体追跡装置を含む物体追跡システムの概略構成を示すブロック図である。 図2は、図1の物体追跡システムを搭載する車両と検出対象とを示す図である。 図3は、動画像上の物体の像を追跡する処理の例を示すフローチャートである。 図4は、動画像上の物体の像の一例を示す図である。 図5は、実空間の物体、動画像中の物体の像及び仮想空間における質点の関係を説明する図である。 図6は、仮想空間における質点の移動の一例を示す図である。 図7は、カルマンフィルタの動作モードを説明するための図である。 図8は、データアソシエーションを説明するための図である。 図9は、代表カルマンフィルタを説明するための図である。 図10は、追跡物体ID管理のレイヤ構成を例示する図である。 図11は、同一物体の判定を説明するための図である。 図12は、追跡物体IDの継承を説明するための図である。 図13は、フュージョンを説明するための図である。 図14は、フュージョンの重複適用を説明するための図である。
 以下、図面を参照して、本開示の実施形態が説明される。以下の説明で用いられる図は模式的なものである。図面上の寸法比率などは現実のものと必ずしも一致していない。
 図1は、物体追跡システム1の概略構成を示すブロック図である。本開示の一実施形態に係る物体追跡装置20は、物体追跡システム1に含まれる。本実施形態において、物体追跡システム1は、撮像装置10と、物体追跡装置20と、ディスプレイ30とを含む。また、物体追跡システム1は、図2に例示するように移動体の一例である車両100に搭載される。
 本実施形態に係る物体追跡装置20は、センサデータとして撮像装置10から動画像を取得する。つまり、本実施形態において、複数の検出対象を検出するために用いられるセンサは、撮像装置10が備える可視光を撮像する撮像素子12である。ただし、物体追跡システム1は、図1に示される構成に限定されない。物体追跡システム1は、複数の検出対象を検出するものであれば、撮像装置10と異なる装置を備えることができる。別の例として、物体追跡システム1は、撮像装置10に代えて、照射したレーザー光の反射波から検出対象との距離を測定する測定装置を備える構成であってよい。別の例として、物体追跡システム1は、撮像装置10に代えて、ミリ波センサを有する検出装置を備える構成であってよい。また、別の例として、物体追跡システム1は、可視光領域以外の光を撮像する撮像素子12を備える撮像装置10を備える構成であってよい。また、物体追跡システム1は、可視光を対象とする撮像装置10、照射したレーザー光の反射波から検出対象との距離を測定する測定装置、ミリ波センサを有する検出装置及び可視光以外を対象とする撮像装置10の少なくとも1つを備える構成であってよい。
 また、本実施形態において、物体追跡システム1は移動体に搭載されて、移動する移動体の周囲の物体40(図2参照)を検出対象とする。ただし、物体追跡システム1は、移動体に搭載される構成に限定されない。別の例として、物体追跡システム1は、工場などの施設で用いられて、従業員、搬送ロボット及び製造物などを検出対象としてよい。また、別の例として、物体追跡システム1は、老人福祉施設などで用いられて、室内の老人及びスタッフなどを検出対象としてよい。また、物体追跡システム1は、走行又は行動の安全のために物体の追跡を行うだけでなく、例えば農業及び工業の現場において作業の効率化、品質管理又は生産性向上などのために物体の追跡を行ってよい。ここで、本開示において、物体追跡装置20の検出対象である物体は、移動体などの物だけでなく人を含む。
 図2に示すように、本実施形態において、実空間の座標のうち、x軸方向は、撮像装置10が設置された車両100の幅方向とする。y軸方向は、車両100の後退する方向とする。x軸方向とy軸方向とは、車両100が位置する路面に平行な方向である。z軸方向は、路面に対して垂直な方向である。z軸方向は、鉛直方向とよぶことができる。x軸方向、y軸方向及びz軸方向は、互いに直交する。x軸方向、y軸方向及びz軸方向のとり方はこれに限られない。x軸方向、y軸方向及びz軸方向は、互いに入れ替えることができる。
 撮像装置10は、撮像光学系11、撮像素子12及びプロセッサ13を含んで構成される。
 撮像装置10は、車両100の種々の位置に設置され得る。撮像装置10は、フロントカメラ、左サイドカメラ、右サイドカメラ及びリアカメラなどを含むが、これらに限られない。フロントカメラ、左サイドカメラ、右サイドカメラ及びリアカメラは、それぞれ車両100の前方、左側方、右側方及び後方の周辺領域を撮像可能となるように車両100に設置される。以下に一例として説明する実施形態では、図2に示すように、撮像装置10は、車両100の後方を撮像可能なように、光軸方向を水平方向より下に向けて車両100に取付けられている。
 撮像光学系11は、1つ以上のレンズを含んで構成されてよい。撮像素子12は、CCDイメージセンサ(charge-coupled device image sensor)又はCMOSイメージセンサ(complementary MOS image sensor)を含んで構成されてよい。
 撮像素子12は、撮像光学系11により撮像素子12の撮像面に結像された物体の像(被写体像)を電気信号に変換する。撮像素子12は、所定のフレームレートで、動画像を撮像することができる。フレームは動画像を構成する各静止画像である。1秒間に撮像できる画像の数をフレームレートという。フレームレートは、例えば60fps(frames per second)であってよいし、30fpsであってよい。
 プロセッサ13は、撮像装置10全体を制御するとともに、撮像素子12から出力された動画像に対して、種々の画像処理を実行する。プロセッサ13が行う画像処理は、歪み補正、明度調整、コントラスト調整、ガンマ補正等の任意の処理を含み得る。
 プロセッサ13は、1つ又は複数のプロセッサで構成され得る。プロセッサ13は、例えば、関連するメモリに記憶された指示を実行することによって1以上のデータ計算手続又は処理を実行するように構成された1以上の回路又はユニットを含む。プロセッサ13は、1以上のプロセッサ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路(ASIC:application specific integrated circuit)、デジタル信号処理装置(DSP:digital signal processor)、プログラマブルロジックデバイス(PLD:programmable logic device)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)又はこれらのデバイス若しくは構成の任意の組み合わせ又は他の既知のデバイス若しくは構成の組み合わせを含む。
 物体追跡装置20は、入力インターフェイス21、記憶部22、プロセッサ23及び出力インターフェイス24を含んで構成される。
 入力インターフェイス21は、撮像装置10との間で有線又は無線の通信手段により通信可能に構成される。入力インターフェイス21は、センサデータとして撮像装置10から動画像を取得する。入力インターフェイス21は、撮像装置10の送信する画像信号の伝送方式に対応してよい。入力インターフェイス21は、入力部又は取得部と言い換えることができる。撮像装置10と入力インターフェイス21との間は、CAN(control area network)などの車載通信ネットワークにより接続されてよい。
 記憶部22は、プロセッサ23が行う処理に必要なデータ及びプログラムを格納する記憶装置である。例えば、記憶部22は、撮像装置10から取得した動画像を一時的に記憶する。例えば、記憶部22は、プロセッサ23が行う処理により生成されるデータを格納する。記憶部22は、例えば半導体メモリ、磁気メモリ及び光メモリなどのいずれか一つ以上を用いて構成されてよい。半導体メモリは、揮発性メモリ及び不揮発性メモリを含んでよい。磁気メモリは、例えばハードディスク及び磁気テープなどを含んでよい。光メモリは、例えばCD(compact disc)、DVD(digital versatile disc)及びBD(blu-ray(登録商標) disc)などを含んでよい。
 プロセッサ23は、物体追跡装置20の全体を制御する。プロセッサ23は、入力インターフェイス21を介して取得した動画像に含まれる物体の像を認識する。プロセッサ23は、認識した物体の像の座標を仮想空間46(図6参照)の物体40の座標に写像変換し、仮想空間46上で物体40を表す質点45(図5参照)の位置及び速度を追跡する。質点45は、質量を有し大きさを持たない点である。仮想空間46は、実空間のx軸、y軸及びz軸の3軸より成る座標系において、z軸方向の値を所定の固定値とする2次元空間である。プロセッサ23は、追跡した質点45の仮想空間46上の座標を動画像上の座標に写像変換してよい。
 また、プロセッサ23は、動画像から複数の検出対象を検出し、複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行う。複数の検出対象を検出する場合に、動画像においてそれらの像が重なると、従来の技術では追跡を誤ったり、精度が低下したりする。本実施形態において、プロセッサ23は、複数の検出対象のそれぞれに1つ以上のカルマンフィルタを対応付けることによって、このような問題を回避できる。また、プロセッサ23は、観測値と、カルマンフィルタと、追跡物体の固有識別情報(以下「追跡物体ID」)と、を各レイヤ(階層)で管理する。プロセッサ23は、追跡物体について同一物体であるか否かを判定し、観測値と、カルマンフィルタと、追跡物体IDと、を対応付ける処理を実行する。これによって、複数の検出対象の追跡の精度をさらに向上させることができる。プロセッサ23が行う処理の詳細については後述する。プロセッサ23は、撮像装置10のプロセッサ13と同じく、複数のプロセッサを含んでよい。また、プロセッサ23は、プロセッサ13と同じく、複数の種類のデバイスが組み合わされて構成されてよい。
 出力インターフェイス24は、物体追跡装置20から出力信号を出力するように構成される。出力インターフェイス24は、出力部と言い換えることができる。出力インターフェイス24は、例えば質点45の座標などの検出対象の検出結果を出力してよい。
 出力インターフェイス24は、物理コネクタ及び無線通信機を含んで構成され得る。出力インターフェイス24は、例えばCANなどの車両100のネットワークに接続されてよい。出力インターフェイス24は、CANなどの通信ネットワークを介してディスプレイ30、車両100の制御装置及び警報装置などに接続され得る。出力インターフェイス24から出力された情報は、ディスプレイ30、制御装置及び警報装置の各々で適宜利用されてよい。
 ディスプレイ30は、物体追跡装置20から出力される動画像を表示し得る。ディスプレイ30は、物体追跡装置20から、物体の像の位置を表す質点45の座標を受け取った場合、これに従う画像要素(例えば、接近する物体とともに表示する警告)を生成して動画像に重畳させる機能を有してよい。ディスプレイ30は、種々の種類の装置を採用し得る。例えば、ディスプレイ30は、液晶ディスプレイ(LCD:liquid crystal display)、有機EL(electro-luminescence)ディスプレイ、無機ELディスプレイ、プラズマディスプレイ(PDP:plasma display panel)、電界放出ディスプレイ(FED:field emission display)、電気泳動ディスプレイ、ツイストボールディスプレイなどを採用し得る。
 次に、図3のフローチャートを参照して、物体追跡装置20が実行する物体追跡方法の詳細を説明する。物体追跡装置20は、以下に説明するプロセッサ23が行う処理を、非一時的なコンピュータ可読媒体に記録されたプログラムを読み込んで実装するように構成されてよい。非一時的なコンピュータ可読媒体は、磁気記憶媒体、光学記憶媒体、光磁気記憶媒体、半導体記憶媒体を含むがこれらに限られない。磁気記憶媒体は、磁気ディスク、ハードディスク、磁気テープを含む。光学記憶媒体は、CD、DVD及びBDなどの光ディスクを含む。半導体記憶媒体は、ROM(read only memory)、EEPROM(electrically erasable programmable read-only memory)、フラッシュメモリを含む。
 図3のフローチャートは、動画像の順次のフレームを取得して、プロセッサ23が実行する処理を示す。物体追跡装置20のプロセッサ23は、図3のフローチャートに従い、動画像のフレームを取得する度に、物体の像42(図4参照)の位置を追跡(トラッキング)する。図2に示すように、検出対象となる物体40は複数であって、歩行者40A、自動車40B及び自転車40Cを含み得る。さらに、物体40は、移動している物及び人に限定されず、道路上の障害物など、種々の対象物を含み得る。以下の物体追跡方法についての説明では、車両100の後ろに設置された撮像装置10の動画像に含まれる複数の物体40のうち1つ(具体的には歩行者40A)を用いて説明する。他の物体40(例えば自動車40B及び自転車40C)のそれぞれについても、同様の処理によって追跡が行われる。
 プロセッサ23は、入力インターフェイス21を介して、撮像装置10から動画像の各フレームを取得する(ステップS101)。図4に、動画像の1フレームの一例が示される。図4の例では、uv座標系からなる2次元の画像空間41に、車両100の後方の物体40の像(物体の像42)が表示されている。u座標は、画像の横方向の座標である。v座標は、画像の縦方向の座標である。図4において、uv座標の原点は、画像空間41の左上端の点である。また、u座標は、左から右へ向かう方向を正の方向とする。v座標は、上から下へ向かう方向を正の方向とする。
 プロセッサ23は、画像認識により動画像の各フレームから物体の像42を認識する(ステップS102)。物体の像42の認識方法は、公知の種々の方法を含む。例えば、物体の像42の認識方法は、車及び人などの物体の形状認識による方法、テンプレートマッチングによる方法、画像から特徴量を算出しマッチングに利用する方法などを含む。特徴量の算出には、入出力の関係を学習可能な関数近似器を用いることができる。入出力の関係を学習可能な関数近似器には、例えばニューラルネットワークを用いることができる。
 プロセッサ23は、画像空間41の物体の像42の座標(u,v)を仮想空間46(図6参照)の物体の座標(x´,y´)に写像変換する(ステップS103)。一般に、2次元座標である画像空間41の座標(u,v)は、実空間の座標(x,y,z)に変換することはできない。しかし、実空間における高さを特定し、z座標を所定値に固定することにより、画像空間41の座標(u,v)を、実空間の座標(x,y,z)(zは固定値)に対応する2次元の仮想空間46の座標(x´,y´)に写像することが可能になる。ここで、本実施形態では仮想空間46を2次元としたが、入力情報(センサの種類)によって3次元とすることがあり得る。
 図4に示すように、物体の像42の最下部の中央に位置する代表点43が特定される。例えば、代表点43は、画像空間41において、物体の像42が占める領域のv座標の最も下の位置且つu座標の範囲の中心位置とすることができる。この代表点43は、物体の像42に対応する物体40の路面又は地面と接している位置であると想定される。
 図5において、3次元の実空間に位置する物体40と、2次元の画像空間41上の物体の像42との関係が示される。撮像装置10の内部パラメータが既知の場合、画像空間41の座標(u,v)に基づき、撮像装置10の撮像光学系11の中心から実空間の対応する座標(x,y,z)に向かう方向を算出することができる。撮像装置10の内部パラメータは、撮像光学系11の焦点距離、歪み及び撮像素子12の画素サイズなどの情報を含む。実空間において、画像空間41の代表点43に対応する方向に向かう直線が、z=0の基準面44と交差する点を物体40の質点45とする。基準面44は、車両100が位置する路面又は地面に相当する。質点45は、3次元の座標(x,y,0)を有する。したがって、z=0の2次元空間を仮想空間46とするとき、質点45の座標は、(x´,y´)で表すことができる。仮想空間46上の質点45の座標(x´,y´)は、実空間においてz軸に沿う方向から物体40を見た場合のxy平面(z=0)での物体40の特定の点の座標(x,y)に相当する。特定の点は、質点45に対応する点である。
 プロセッサ23は、図6に示すように、仮想空間46上で物体の像42の代表点43から仮想空間46に写像変換された質点45の位置(x´,y´)及び速度(vx´,vy´)を追跡する(ステップS104)。質点45が位置(x´,y´)及び速度(vx´,vy´)の情報を有することにより、プロセッサ23は、順次のフレームにおける質点45の位置(x´,y´)の範囲を予測することができる。プロセッサ23は、次のフレームで予測された範囲に位置する質点45を、追跡している物体の像42に対応する質点45であると認識することができる。プロセッサ23は、新たなフレームの入力を受ける毎に、順次質点45の位置(x´,y´)及び速度(vx´,vy´)を更新する。
 質点45の追跡は、例えば、状態空間モデルに基づくカルマンフィルタを用いた推定を採用することができる。カルマンフィルタを用いた予測/推定を行うことにより、検出対象の物体40の検知不能及び誤検知などに対するロバスト性が向上する。一般に、画像空間41の物体の像42に対しては、運動を記述する適切なモデルで記述することは困難である。そのため、画像空間41の物体の像42に対して簡易に高精度の位置の推定を行うことは困難であった。本開示の物体追跡装置20では、物体の像42を実空間の質点45に写像変換することにより、実空間における運動を記述するモデルの適用が可能になるので、物体の像42の追跡の精度が向上する。また、物体40を、大きさを持たない質点45として扱うことにより、単純で簡易な追跡が可能となる。
 プロセッサ23は、質点45の新たな位置を推定するごとに、推定位置を示すために、質点45の仮想空間46上の座標を画像空間41上の座標(u,v)に写像変換してよい(ステップS105)。仮想空間46の座標(x´,y´)に位置する質点45は、実空間の座標(x,y,0)に位置する点として、画像空間41に写像変換することができる。実空間の座標(x,y,0)は、公知の方法により撮像装置10の画像空間41上の座標(u,v)に写像することができる。プロセッサ23は、画像空間41上の座標(u,v)と、仮想空間46の座標(x´,y´)と、実空間の座標(x,y,0)と、を相互に変換することができる。
 本実施形態において、プロセッサ23は、動画像から複数の検出対象を検出して、それぞれについて追跡を行う。例えば図2のような状況において、プロセッサ23は、歩行者40A、自動車40B及び自転車40Cのそれぞれについて追跡を行う。プロセッサ23は、仮想空間46を用いて、複数の検出対象のそれぞれを表す質点45の位置及び速度を追跡する。プロセッサ23が図3に示される物体追跡方法を実行するためには、複数の物体40のそれぞれについて、カルマンフィルタが用意されている必要がある。本実施形態において、プロセッサ23は、動画像で新たな物体の像42を認識した場合に、新たにカルマンフィルタを生成し、始動条件が満たされると追跡を実行する。このことにより、検出対象である複数の物体40のそれぞれについて、1つ以上のカルマンフィルタが用意される。ただし、一過性の新たな物体40(例えば一定時間で動画像に含まれなくなる対向車など)に対してカルマンフィルタが生成され続けると、カルマンフィルタの数が必要以上に増加して、計算量が多くなり、物体の追跡の処理遅延を生じるおそれがある。本実施形態において、プロセッサ23は、打ち切り条件を満たした場合にカルマンフィルタを初期化して、処理の遅延が生じないようにする。
 図7は、カルマンフィルタの動作モードを説明するための図である。プロセッサ23は、カルマンフィルタを、検出対象の初期状態、追跡準備状態、追跡状態の状態別に制御を行う。
 検出対象の初期状態は、プロセッサ23によって、動画像で検出対象となる新たな物体の像42が認識された状態である。このとき、検出対象に対応付けられるカルマンフィルタの動作モードは「モード0」である。モード0のカルマンフィルタは初期値(位置及び速度の情報)を有していない。プロセッサ23は、検出対象に対応付けられたカルマンフィルタがモード0の場合に、検出対象の位置の追跡すなわち次のフレームにおける質点45の位置(x´,y´)の範囲の予測を行わない。
 追跡準備状態は、前のフレームで新たに認識された物体の像42が、現フレームでも認識された状態である。このとき、検出対象に対応付けられるカルマンフィルタの動作モードは「モード1」である。モード1のカルマンフィルタは、検出対象の質点45の位置(x´,y´)を取得するが、前のフレームにおける検出対象の位置の情報がないため、速度(vx´,vy´)の情報を取得しない。つまり、モード1のカルマンフィルタは、必要な初期値(位置及び速度の情報)の一部だけを有する。プロセッサ23は、検出対象に対応付けられたカルマンフィルタがモード1の場合に、検出対象の位置の追跡を行わない。
 カルマンフィルタがモード1のときに、物体の像42が誤検出などでないことを確認する処理が行われる。図7に示すように、第1の打ち切り条件が満たされた場合に、すなわち、誤検出であると判定されたり、物体の像42が消失したりした場合に、カルマンフィルタの動作モードは初期化されてモード0に戻る。これによって、散発的な誤検出によって追跡を開始してしまうことを回避することができる。
 また、図7に示すように、始動条件が満たされた場合、すなわち、カルマンフィルタがモード1であって、2つ前のフレームで新たに認識された物体の像42が、現フレームでも認識された場合に、カルマンフィルタの動作モードはモード2になる。
 追跡状態は、上記の始動条件が満たされた後で、第2の打ち切り条件が満たされていない状態である。第2の打ち切り条件は、現フレームまで連続で所定数のフレームにおいて物体の像42が消失することである。このとき、検出対象に対応付けられるカルマンフィルタの動作モードは「モード2」である。モード2のカルマンフィルタは、必要な初期値(位置及び速度の情報)を有しており、直ちに追跡の制御に使用され得る。プロセッサ23は、検出対象に対応付けられたカルマンフィルタがモード2の場合に、検出対象の位置の追跡を行う。
 図7に示すように、検出対象に対応付けられたカルマンフィルタがモード2であって、第2の打ち切り条件が満たされた場合に、カルマンフィルタの動作モードは初期化されてモード0に戻る。
 このように、プロセッサ23は、同一の検出対象を連続で検出した場合に、カルマンフィルタを追跡状態(モード2)とする。ここで、本実施形態において連続で検出する数は2であるが、3以上であってよい。連続で検出する数が3以上の場合に、例えばモード1の状態(追跡準備状態)が長く続いてよい。
 また、プロセッサ23は、同一の検出対象を所定数連続で検出できなかった場合に、カルマンフィルタによる追跡を停止する。ここで、本実施形態において所定数は5であるが、これに限定されない。カルマンフィルタを用いる物体の追跡において、動画像から取得される検出対象の位置の情報がなくても、検出対象の位置の範囲を予測し続けることができる。ただし、予測される位置の範囲の誤差は、そのような情報を取得できないフレームの数が重なっていくと拡大する。この誤差の大きさに基づいて、上記の所定数が決定されてよい。
 プロセッサ23は、カルマンフィルタに上記のような動作モードを設定し、動的に設定を変更することによって、複数のカルマンフィルタについて、状態別に系統的な制御を行うことができる。
 図8は、データアソシエーションを説明するための図である。データアソシエーションは、複数の観測値と、複数のカルマンフィルタとの対応付けである。ここで、観測値は、検出対象の位置である。プロセッサ23は、複数の観測値及び複数のカルマンフィルタに識別子を付して区別する。本実施形態において、プロセッサ23は、例えば通し番号を用いて、複数の観測値のそれぞれを観測値(1)、観測値(2)、観測値(3)…とする。また、プロセッサ23は、例えば記号及び通し番号を用いて、複数のカルマンフィルタのそれぞれをKF(1)、KF(2)、KF(3)…とする。
 本実施形態において、プロセッサ23は、M個の観測値とN個のカルマンフィルタとのデータアソシエーションを行う。Mは2以上の整数である。NはM以上の整数である。図8の例において、プロセッサ23は、3個の観測値と5個のカルマンフィルタとのデータアソシエーションを行っている。観測値(1)は動画像のフレーム(k)において検出されている歩行者40Aの位置である。観測値(2)は動画像のフレーム(k)において検出されている自動車40Bの位置である。観測値(3)は動画像のフレーム(k)において検出されている自転車40Cの位置である。また、フレーム(k-1)は、動画像におけるフレーム(k)の1つ前のフレームである。フレーム(k-2)は、動画像におけるフレーム(k)の2つ前のフレームである。現フレームはフレーム(k)であるとする。
 ここで、KF(2)は、フレーム(k-1)の時まで歩行者40Aの追跡に用いられていたが、第2の打ち切り条件を満たしたため初期化されている。つまり、KF(2)の動作モードはモード0となっており、検出対象の位置の追跡に用いられない。また、KF(5)は、フレーム(k-2)で新たな自転車40Cが認識されたことによって、新たに用意されたカルマンフィルタである。KF(5)は、フレーム(k-1)の時にモード1であったが、始動条件が満たされたためモード2になっている。その他のカルマンフィルタは、フレーム(k-2)の時からモード2であって、それぞれ検出対象の追跡を継続している。
 図8の例において、プロセッサ23は観測値(1)にKF(1)を対応付けている。プロセッサ23は観測値(2)にKF(3)及びKF(4)を対応付けている。また、プロセッサ23は観測値(3)にKF(5)を対応付けている。観測値(2)の例のように、プロセッサ23は、複数の検出対象の追跡過程における検出結果の重複を許容する。つまり、プロセッサ23は、KF(3)及びKF(4)を用いて、観測値(2)すなわち自動車40Bの位置の範囲の予測を行う。このように、データアソシエーションにおいて重複を許容することによって、局所最適化を行うことができる。例えば、重複を許容せずに、複数の観測値と複数のカルマンフィルタとを1対1で対応づける手法(一例としてハンガリアン法)は、全体最適化のため、1つのミスアソシエーションが連鎖するおそれがある。本実施形態においては、重複が許容されるため、ミスアソシエーションの連鎖といった問題は生じない。また、追跡過程において、1つの観測値に対して1つ以上のカルマンフィルタが対応付けられており、どの観測値についても追跡の失敗が生じにくいため、ロバスト性を向上できる。
 1つの観測値に複数のカルマンフィルタが対応付けられる状況としては、例えば1つの物体が光の反射の影響などで2つの物体であると認識されて、その一方に新たなカルマンフィルタが対応付けられた場合が考えられる。上記のように、対応付けられた複数のカルマンフィルタを用いて、検出対象の追跡の制御は並行して実行される。ただし、例えば車両100の衝突防止のために検出対象の予測位置が利用されるような場合に、最も確信度が高い1つの検出結果を出力インターフェイス24から出力させることが好ましいことがある。プロセッサ23は、カルマンフィルタの誤差楕円に基づいて、最も確信度が高い検出結果を示すカルマンフィルタ(以下「代表カルマンフィルタ」)を決定してよい。
 図9は、代表カルマンフィルタを説明するための図である。図9の例では、1つの観測値に3つのカルマンフィルタであるKF(p)、KF(q)及びKF(r)、が対応付けられている。プロセッサ23は、3つのカルマンフィルタのそれぞれについて誤差楕円を計算する。誤差楕円は、位置の確率密度分布による推定範囲を示すものであって、所定の確率(一例として99%)で楕円の内部に位置することを示すものである。誤差楕円は、x´方向の標準偏差及びy´方向の標準偏差などを用いて計算される。プロセッサ23は、最も小さい誤差楕円を有するカルマンフィルタを代表カルマンフィルタに決定する。図9の例では、KF(r)が代表カルマンフィルタである。
 このように、プロセッサ23は、検出した複数の検出対象が同一物体のものと見なせるような場合に、複数の検出対象の位置の確率密度分布による推定範囲が最も小さいものを物体のものとして代表させることができる。よって、物体追跡装置20は、車両100の衝突防止などの運転支援にも好適に適用される。
 ここで、上記のように1つの観測値に複数のカルマンフィルタが対応付けられ得るが、検出対象である1つの物体に複数の観測値が対応付けられることもあり得る。例えば、検出対象が自動車40Bであって、車線変更などによって動画像から一度消失した後に再び動画像に出現した場合などに、別物体として新たな観測値が対応付けられることがあり得る。正確な物体の追跡を行うために、物体追跡装置20は、それぞれの追跡物体を識別して、観測値との対応付けを把握することが好ましい。本実施形態において、プロセッサ23は、以下に説明するように階層管理を実行し、複数のカルマンフィルタのグループ化を行って同一物体に対応するものか否かを判定する。
 図10は、本実施形態における追跡物体ID管理のレイヤ構成を示す図である。図10に示すように、プロセッサ23は、観測値と、カルマンフィルタと、追跡物体IDと、を各レイヤで管理する。また、プロセッサ23は、観測値と、カルマンフィルタと、追跡物体IDと、を対応付けることによって、正確な物体の追跡を可能にする。ここで、追跡物体IDは上記のように追跡物体の固有識別情報である。複数の観測値又は複数のカルマンフィルタに対応付けられる追跡物体IDが同じであれば、これらの観測値又はカルマンフィルタは同一物体の追跡に関連するものである。
 プロセッサ23は、上記のように、新たな観測値に対してカルマンフィルタを生成し、1つの観測値に1つ以上のカルマンフィルタを対応付ける。プロセッサ23は、さらにカルマンフィルタと追跡物体IDとを対応付ける。図11は、同一物体の判定を説明するための図である。プロセッサ23は、例えばDBSCAN(density-based spatial clustering of applications with noise)などのクラスタリングによって、複数のカルマンフィルタのグループ化を行う。プロセッサ23は、複数のカルマンフィルタの誤差楕円の中心が所定範囲に含まれる場合に、それらのカルマンフィルタが1つのグループに属すると判定する。図11の例において、所定範囲は円で示されている。また、KF(p)、KF(q)及びKF(r)は1つのグループである。ここで、所定範囲は追跡物体の大きさに応じて変化してよい。例えば追跡物体が自動車40Bであれば、所定範囲は追跡物体が歩行者40Aである場合よりも大きく設定されてよい。また、所定範囲は、追跡物体の種類によらずに一定であってよい。クラスタリングの手法は、DBSCANに限定されない。例えばk-means法など、他の手法でクラスタリングが実行されてよい。
 プロセッサ23は、動画像のフレームが取得されると複数のカルマンフィルタのグループ化を実行する。そして、プロセッサ23は、観測値、カルマンフィルタ及び追跡物体IDの対応付けを更新する。図10の例において、プロセッサ23は、KF(1)、KF(2)及びKF(3)をグループ化して、これらのカルマンフィルタを用いて追跡する物体に識別子である「追跡物体ID(1)」を割り当てて、この物体の追跡制御を行う。また、プロセッサ23は、KF(4)及びKF(5)をグループ化して、これらのカルマンフィルタを用いて追跡する物体に識別子である「追跡物体ID(2)」を割り当てて、この物体の追跡制御を行う。
 ここで、KF(1)及びKF(2)が観測値(1)に対応付けられ、KF(3)が観測値(2)に対応付けられている。プロセッサ23は、グループ化によって、それぞれ別の物体の位置としていた観測値(1)と観測値(2)とが、追跡物体ID(1)を識別子とする同一物体の位置であることを識別できる。プロセッサ23は、同一と判定した物体に対応するカルマンフィルタを紐付けし、これらのカルマンフィルタに対応する検出対象の検出結果についても紐付けする階層構造で追跡を制御することによって、誤りのない高精度な追跡が可能になる。プロセッサ23は、例えば紐づけされた複数のカルマンフィルタを用いた検出結果を比較又は選択して、確信度が高い検出結果を得ることが可能である。また、プロセッサ23は、例えば観測値(2)が失われたり、KF(3)が初期化されたりした場合でも、観測値(1)、KF(1)及びKF(2)を用いて、追跡物体ID(1)を識別子とする物体の追跡を継続することができる。つまり、ロバスト性を高めることが可能である。
 ここで、プロセッサ23は、上記と同様に(図9参照)、同じグループに属する複数のカルマンフィルタについて最も小さい誤差楕円を有するカルマンフィルタを代表カルマンフィルタに決定してよい。つまり、プロセッサ23は、グループ化された同一物体に対応するカルマンフィルタのうち、複数の検出対象の位置の確率密度分布による推定範囲が最も小さいものをグループの代表としてよい。
 図12は、追跡物体IDの継承を説明するための図である。上記のように、プロセッサ23は、動画像のフレームが取得されると複数のカルマンフィルタのグループ化を実行する。プロセッサ23は、グループの構成が変化した場合に、類似度に基づいて適切に追跡物体IDを継承させる。
 図12の例において、プロセッサ23は、フレーム(k-1)が取得された時に、KF(1)、KF(2)及びKF(3)をグループ化して、追跡物体ID(1)と対応付けている。その後、フレーム(k)が取得された時にプロセッサ23が同様にグループ化を実行し、KF(1)及びKF(2)が集合(1)に、KF(4)及びKF(5)が別の集合(2)にグループ化されている。ここで、KF(3)は打ち切り条件を満たして、グループ化の対象から外れている。
 プロセッサ23は、集合(1)及び集合(2)について、フレーム(k-1)が取得された時の集合との類似度を判定する。類似度の判定は、例えばSimpson係数を計算することによって実行されるが、この判定手法に限定されない。別の例としてJaccard係数又はDice係数などが用いられてよい。Simpson係数が大きいほど、2つの集合は類似する。図12の例では、KF(1)及びKF(2)を含む集合(1)の方が高い類似度を有するため、集合(1)が追跡物体ID(1)と対応付けられる。つまり、集合(1)が追跡物体ID(1)を継承する。集合(2)には、別の追跡物体ID(2)が対応付けられる。
 ここで、例えばフレーム(k+1)が取得された時に、KF(2)が集合(1)でなく、集合(2)に区分されたとする。このとき、KF(1)だけを含む集合(1)の方が、フレーム(k)が取得された時の集合(1)との類似度が高いため、そのまま追跡物体ID(1)を継承する。
 このように、プロセッサ23は、異なる時刻におけるグループの類似度によって識別子を管理する。この管理によって、同一物体の追跡の制御を適切に継続することができる。
 以上のように、本実施形態に係る物体追跡装置20は、上記の構成によって、複数の検出対象の追跡過程における検出結果の重複を許容する。そのため、物体追跡装置20は、ミスアソシエーションの連鎖を生じさせることなく、複数の物体を高精度に追跡できる。
 本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。従って、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部又はステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。本開示に係る実施形態について装置を中心に説明してきたが、本開示に係る実施形態は装置の各構成部が実行するステップを含む方法としても実現し得るものである。本開示に係る実施形態は装置が備えるプロセッサにより実行される方法、プログラム又はプログラムを記録した記憶媒体としても実現し得るものである。本開示の範囲にはこれらも包含されるものと理解されたい。
 上記の実施形態において、検出対象の位置である観測値は、撮像装置10からのセンサデータの検出結果である検出対象の位置がそのまま用いられた。ここで、物体追跡システム1は、撮像装置10に加えて、ミリ波センサ、レーザー光の反射波の検出装置などによって、検出を並行して行う構成であり得る。このような構成の場合に、同一の検出対象であると判定される観測値同士を関連付けることによって、物体追跡システム1は複数の物体をさらに高精度に追跡できる。以下、「フュージョン」は、物理的に異なるセンシング手法によって得られる複数の観測値から同一物体であると判定される観測値同士についてそれぞれの誤差を加味して関連付けることである。換言すると、フュージョンは、異なるセンシング手法による複数の観測値を1つの検出対象に重複して紐づけることを許容する処理である。フュージョンによって生成される新たな観測値は、複数のセンサデータの検出結果に基づくため、検出対象の位置の精度を高めることができる。また、プロセッサ23は、フュージョンされなかった観測値を棄却することがないので、その相補性が維持される。フュージョンに関する処理は、直接的な物体追跡の事前のデータ処理(前処理)として実行されてよい。
 プロセッサ23は、フュージョンによって観測値を更新する場合に、重複を許容する上記のデータアソシエーションのアルゴリズムをそのまま適用する。プロセッサ23は、フュージョンを行う一方の観測値の誤差楕円を上限範囲として、フュージョンを行う他方の観測値として、マハラノビス距離が最も小さいものを1つ選択する。図13は、フュージョンを説明するための図である。図13の例において、観測値リストAは例えば撮像装置10のセンサデータの検出結果として得られる観測値である。また、観測値リストBは例えばミリ波センサのセンサデータの検出結果として得られる観測値である。プロセッサ23は、フュージョンを実行して、観測値リストA及び観測値リストBを、観測値リストABに統合する。例えば観測値リストAのa1と観測値リストBのb1のフュージョンによって、精度の高いa1b1という観測値が得られる。また、例えばa4のようにフュージョンされなかった観測値は、そのまま観測値リストABに残される。
 プロセッサ23は、重畳的にフュージョンを実行してよい。フュージョンされた観測値の誤差は必ず小さくなるため、より確度と精度の高い観測値を得ることができる。図14は、フュージョンの重複適用を説明するための図である。図13の例において、観測値リストABは図13と同じである。また、観測値リストCは例えばレーザー光の反射波の検出装置のセンサデータの検出結果として得られる観測値である。プロセッサ23は、重畳的にフュージョンを実行することによって、観測値リストA、観測値リストB及び観測値リストCを、観測値リストABCに統合する。観測値リストABCは、例えばa1b1c1のように、さらに精度の高い観測値を有する。
 ここで、フュージョンされた観測値は、フュージョンされなかった観測値と同じように扱うことができる。つまり、フュージョンされた観測値も、フュージョンされなかった観測値も、同じようにデータアソシエーションが行われる。そのため、フュージョンが実行された場合であっても、データアソシエーション以降のアルゴリズムは、上記の実施形態と同じである。
 上記の実施形態において、物体追跡システム1は、撮像装置10と、物体追跡装置20と、ディスプレイ30とを含むが、これらのうちの少なくとも2つが一体化した構成であってよい。例えば物体追跡装置20の機能は、撮像装置10に搭載することができる。このとき、撮像装置10は、撮像光学系11、撮像素子12及びプロセッサ13に加えて、上記の記憶部22、出力インターフェイス24を備えてよい。また、プロセッサ13は、撮像装置10が出力した動画像について、上記の実施形態においてプロセッサ23が行った処理を実行してよい。このような構成によって、物体の追跡を実行する撮像装置10が実現されてよい。
 本開示における「移動体」には、車両、船舶、航空機を含む。本開示における「車両」には、自動車及び産業車両を含むが、これに限られず、鉄道車両及び生活車両、滑走路を走行する固定翼機を含めてよい。自動車は、乗用車、トラック、バス、二輪車及びトロリーバスなどを含むがこれに限られず、道路上を走行する他の車両を含んでよい。産業車両は、農業及び建設向けの産業車両を含む。産業車両には、フォークリフト及びゴルフカートを含むがこれに限られない。農業向けの産業車両には、トラクター、耕耘機、移植機、バインダー、コンバイン及び芝刈り機を含むが、これに限られない。建設向けの産業車両には、ブルドーザー、スクレーバー、ショベルカー、クレーン車、ダンプカー及びロードローラを含むが、これに限られない。車両は、人力で走行するものを含む。ここで、車両の分類は、上述に限られない。例えば、自動車には、道路を走行可能な産業車両を含んでよく、複数の分類に同じ車両が含まれてよい。本開示における船舶には、マリンジェット、ボート、タンカーを含む。本開示における航空機には、固定翼機、回転翼機を含む。
 1   物体追跡システム
 10  撮像装置
 11  撮像光学系
 12  撮像素子
 13  プロセッサ
 20  物体追跡装置
 21  入力インターフェイス
 22  記憶部
 23  プロセッサ
 24  出力インターフェイス
 30  ディスプレイ
 40  物体
 40A 歩行者
 40B 自動車
 40C 自転車
 41  画像空間
 42  物体の像
 43  代表点
 44  基準面
 45  質点
 46  仮想空間
 100 車両

Claims (9)

  1.  センサデータを取得する入力インターフェイスと、
     前記センサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うプロセッサと、
     前記検出対象の検出結果を出力する出力インターフェイスと、を備え、
     前記プロセッサは、前記複数の検出対象の追跡過程における検出結果の重複を許容する、物体追跡装置。
  2.  前記プロセッサは、前記カルマンフィルタを、前記検出対象の初期状態、追跡準備状態、追跡状態の状態別に制御を行う、請求項1に記載の物体追跡装置。
  3.  前記プロセッサは、同一の前記検出対象を連続で検出した場合に、前記カルマンフィルタを追跡状態とする、請求項1又は2に記載の物体追跡装置。
  4.  前記プロセッサは、同一の前記検出対象を所定数連続で検出できなかった場合に、前記カルマンフィルタによる追跡を停止する、請求項1から3のいずれか一項に記載の物体追跡装置。
  5.  前記プロセッサは、検出した前記複数の検出対象が同一物体のものと見なせる場合に、前記複数の検出対象の位置の確率密度分布による推定範囲が最も小さいものを前記物体のものとして代表させる、請求項1から4のいずれか一項に記載の物体追跡装置。
  6.  前記プロセッサは、実空間のx軸、y軸及びz軸の3軸より成る座標系において、z軸方向の値を所定の固定値とする2次元空間である仮想空間を用いて、前記複数の検出対象のそれぞれを表す質点の位置及び速度を追跡する、請求項1から5のいずれか一項に記載の物体追跡装置。
  7.  センサデータを取得することと、
     前記センサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うことと、
     前記検出対象の検出結果を出力することと、を含み、
     前記追跡を行うことは、前記複数の検出対象の追跡過程における検出結果の重複を許容する、物体追跡方法。
  8.  異なるセンシング手法によって得られる複数のセンサデータを取得する入力インターフェイスと、
     前記複数のセンサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うためのデータ処理を行うプロセッサと、を備え、
     前記プロセッサは、前記複数のセンサデータの検出結果を前記複数の検出対象の1つに重複して紐づけることを許容する、物体追跡装置。
  9.  異なるセンシング手法によって得られる複数のセンサデータを取得することと、
     前記複数のセンサデータから複数の検出対象を検出し、前記複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行うためのデータ処理を行うこと、を含み、
     前記データ処理を行うことは、前記複数のセンサデータの検出結果を前記複数の検出対象の1つに重複して紐づけることを許容する、物体追跡方法。
PCT/JP2021/033200 2020-10-28 2021-09-09 物体追跡装置及び物体追跡方法 WO2022091595A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022558899A JPWO2022091595A1 (ja) 2020-10-28 2021-09-09
EP21885714.2A EP4239616A1 (en) 2020-10-28 2021-09-09 Object tracking device and object tracking method
CN202180073960.9A CN116635919A (zh) 2020-10-28 2021-09-09 物体跟踪装置以及物体跟踪方法
US18/250,512 US20230394682A1 (en) 2020-10-28 2021-09-09 Object tracking device and object tracking method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-180783 2020-10-28
JP2020180783 2020-10-28

Publications (1)

Publication Number Publication Date
WO2022091595A1 true WO2022091595A1 (ja) 2022-05-05

Family

ID=81382268

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/033200 WO2022091595A1 (ja) 2020-10-28 2021-09-09 物体追跡装置及び物体追跡方法

Country Status (5)

Country Link
US (1) US20230394682A1 (ja)
EP (1) EP4239616A1 (ja)
JP (1) JPWO2022091595A1 (ja)
CN (1) CN116635919A (ja)
WO (1) WO2022091595A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4012603B1 (en) * 2020-12-10 2023-12-06 Aptiv Technologies Limited Method for classifying a tracked object

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11321494A (ja) 1998-05-08 1999-11-24 Yazaki Corp 後側方監視装置
JP2005311691A (ja) * 2004-04-21 2005-11-04 Toyota Central Res & Dev Lab Inc 物体検出装置及び方法
JP2007249309A (ja) * 2006-03-13 2007-09-27 Toshiba Corp 障害物追跡装置及びその方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11321494A (ja) 1998-05-08 1999-11-24 Yazaki Corp 後側方監視装置
JP2005311691A (ja) * 2004-04-21 2005-11-04 Toyota Central Res & Dev Lab Inc 物体検出装置及び方法
JP2007249309A (ja) * 2006-03-13 2007-09-27 Toshiba Corp 障害物追跡装置及びその方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IZUMI RYUNOSUKE, HASHIMOTO MASAFUMI, TAMURA YUTO, TAKAHASHI KAZUHIKO: "Laser-based size and pose estimation of moving objects by multiple mobile robots", TRANSACTIONS OF THE JSME (IN JAPANESE), vol. 81, no. 827, 1 January 2015 (2015-01-01), pages 14 - 14-00388, XP055927761, DOI: 10.1299/transjsme.14-00388 *

Also Published As

Publication number Publication date
EP4239616A1 (en) 2023-09-06
US20230394682A1 (en) 2023-12-07
CN116635919A (zh) 2023-08-22
JPWO2022091595A1 (ja) 2022-05-05

Similar Documents

Publication Publication Date Title
JP7140922B2 (ja) マルチセンサデータ融合方法、及び装置
JP7130505B2 (ja) 道路の曲率データ無しでの進行レーン識別
JP7040374B2 (ja) 物体検出装置、車両制御システム、物体検出方法及び物体検出用コンピュータプログラム
Shin et al. Visual lane analysis and higher-order tasks: a concise review
US11782158B2 (en) Multi-stage object heading estimation
JP4956453B2 (ja) 物体検出装置
Dey et al. VESPA: A framework for optimizing heterogeneous sensor placement and orientation for autonomous vehicles
GB2608201A (en) Identifying objects using LiDAR
JP2020086545A (ja) 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
EP3555854B1 (en) A method of tracking objects in a scene
CN115705780A (zh) 关联被感知和映射的车道边缘以进行定位
Faisal et al. Object detection and distance measurement using AI
WO2022091595A1 (ja) 物体追跡装置及び物体追跡方法
CN113432615B (zh) 基于多传感器融合可驾驶区域的检测方法、系统和车辆
JP2007280387A (ja) 物体移動の検出方法及び検出装置
Gupta et al. Multi-sensor fusion in autonomous heavy vehicles
WO2022091620A1 (ja) 物体追跡装置及び物体追跡方法
WO2022230738A1 (ja) 物体追跡装置及び物体追跡方法
WO2022230739A1 (ja) 物体追跡装置
JP2021008258A (ja) スマートオブジェクトの知識の共有
Nageswaran Integrated Multi-Object Tracking and Classification for Vehicle Environment Perception
JP2019206310A (ja) 操舵角決定装置、および、自動運転車
US20230252638A1 (en) Systems and methods for panoptic segmentation of images for autonomous driving
US20220334259A1 (en) Information processing apparatus, information processing method, and program
US20230367003A1 (en) Method and System for Tracking Extended Objects

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21885714

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022558899

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180073960.9

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021885714

Country of ref document: EP

Effective date: 20230530