WO2019201565A1 - Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten - Google Patents

Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten Download PDF

Info

Publication number
WO2019201565A1
WO2019201565A1 PCT/EP2019/057701 EP2019057701W WO2019201565A1 WO 2019201565 A1 WO2019201565 A1 WO 2019201565A1 EP 2019057701 W EP2019057701 W EP 2019057701W WO 2019201565 A1 WO2019201565 A1 WO 2019201565A1
Authority
WO
WIPO (PCT)
Prior art keywords
measurement
sensor
camera
data
time
Prior art date
Application number
PCT/EP2019/057701
Other languages
English (en)
French (fr)
Inventor
Simon Steinmeyer
Marek Musial
Carsten Deeg
Thorsten Bagdonat
Thorsten Graf
Original Assignee
Volkswagen Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Aktiengesellschaft filed Critical Volkswagen Aktiengesellschaft
Priority to US17/048,701 priority Critical patent/US11935250B2/en
Priority to CN201980026426.5A priority patent/CN111937036A/zh
Priority to EP19715031.1A priority patent/EP3782117A1/de
Publication of WO2019201565A1 publication Critical patent/WO2019201565A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Definitions

  • the present invention relates to a method, an apparatus and a computer readable storage medium having instructions for processing sensor data.
  • the invention further relates to a motor vehicle in which a method according to the invention or a
  • inventive device is used.
  • DE 10 201 1 013 776 A1 describes a method for detecting or tracking objects in a vehicle environment.
  • the objects are detected from an optical flow on the basis of a determination of corresponding pixels in at least two images.
  • a distance of the objects from the optical flux is determined on the basis of the determination of the corresponding pixels in the at least two images.
  • DE 10 2017 100 199 A1 describes a method for detecting pedestrians.
  • a first step an image of an area near a vehicle is received.
  • the image is processed to determine locations where pedestrians are likely to reside within the image.
  • the particular locations of the image are then processed using a second neural network to determine if a pedestrian is present.
  • a notification is sent to a driver assistance system or an automated driving system.
  • the neural networks may include a deep convolution network.
  • Camera sensor and a 3D sensor are present, which cover this.
  • 3D sensors are laser scanners or a radar sensor with elevation measurement.
  • object tracking sets up object hypotheses, which are confirmed and updated by new sensor measurements.
  • a Kalman filter For example, a Kalman filter.
  • an on-board computer determines that data of a new object corresponding to the object is available.
  • the on-board computer registers the data of the new object and estimates an expected location and appearance for the object according to a prediction algorithm to generate a predicted track for the object.
  • the on-board computer analyzes the movement for the object, including comparing the predicted track with an existing track associated with the object and in a database of the object
  • Classical object tracking involves a number of challenges, especially in the association step, to avoid ambiguity.
  • the dynamic state can not always be well estimated: depending on the measurements and condition of a track, no Cartesian velocity vector is often known. Acceleration can only be estimated by prolonged observation. This can lead to large errors in the prediction step.
  • an object can oppose Behave the dynamic model, eg by abrupt braking. This deviant
  • a laser scanner takes e.g. particularly well-reflecting surfaces true, such as
  • Radar cross section well true, such as taillights, kinked sheets, etc.
  • sensors of an object different points appropriate, which may be far away from each other, but are assigned to the same object.
  • some sensors e.g. Radar sensors, a comparatively low selectivity, so here the ambiguity problem is exacerbated.
  • an erroneous handling of ambiguities can lead to misassociations, in which object tracks are associated with incorrect measurement data and updated. This can have unpleasant consequences.
  • an edge development may be erroneously assigned a lateral velocity. The edge development then appears dynamic and migrates into the driving tube. This may cause emergency braking due to a "ghost object".
  • a perimeter building e.g. assigning a laser scanner scanned bollard to a nearby dynamic object, e.g. a vehicle that just passes the bollard. This prevents the bollard being recognized as such in time, which can lead to a collision with the edge development.
  • a method for processing sensor data comprises the steps:
  • a computer-readable storage medium includes instructions that, when executed by a computer, cause the computer to perform the following sensor data processing steps:
  • an apparatus for processing sensor data comprises:
  • a data fusion unit for fusing the camera images with the 3D measurement points to data of a virtual sensor.
  • the concept of a virtual sensor is introduced. This fuses the measurement data from the camera and 3D sensors on an earlier measurement point level and thus abstracts the individual sensors. The resulting data from the virtual sensor can be used in the subsequent object tracking
  • the inventive solution prevents the object hypotheses of different sensors with systematic errors from being fused over time in a common model, whereby association errors easily occur. This enables a robust environment perception, which
  • the merging of the image data with the 3D measurement points to data of a virtual sensor comprises:
  • the 3D measurement points are synchronized with the camera images. This is particularly advantageous since the optical flow automatically takes into account foreign and proper movements correctly. It is not
  • the determination of pixels in at least one of the camera images to be associated with one of the 3D measurement points at a time of the measurement comprises:
  • the entire camera image can be converted to the measurement time of the 3D sensor.
  • the 3D measuring points can be projected from the depth-measuring sensor into the camera image.
  • the pixels can be treated as infinitely long beams that intersect with the 3D measurement points.
  • the determination of pixels in at least one of the camera images to be associated with one of the 3D measurement points at a time of the measurement comprises:
  • a time to collision for the pixels of the camera images is determined from the optical flow. From the time to collision, the optical flow and a distance measurement for a 3D measuring point can then be a Cartesian
  • Speed vector can be calculated for this 3D measuring point. This one can For example, it can be used to distinguish overlapping objects of the same class. Previous sensors have to track objects over time by means of dynamic and association models for such a distinction, which is relatively error prone.
  • a time to collision from a 3D measurement is determined from a radial relative speed and a distance measurement. From the time to collision and the optical flow can then be a Cartesian
  • Speed vector can be calculated for this 3D measuring point.
  • This approach has the advantage that the measurement of the time to collision is particularly accurate when the radial relative velocity comes for example from a radar sensor.
  • object movements both horizontally and vertically (optical flow) can be observed quite accurately in the image.
  • the resulting velocity vector is therefore generally more accurate than estimating the time to collision alone from the image.
  • the 3D measurement points are extended by attributes from at least one of the camera images.
  • the attributes can be, for example, the (averaged) optical flow or the position in the image space of the associated pixel (s) of the camera image.
  • the velocity vector, a can be, for example, the (averaged) optical flow or the position in the image space of the associated pixel (s) of the camera image.
  • Doppler speed, the reflectivity or the radar cross section or the confidence are added.
  • the additional attributes allow the realization of a more robust object tracking or even a better segmentation.
  • a camera image is segmented near a measurement time of the 3D measurement.
  • measurement points of the 3D sensor are precisely projected into the image by means of the optical flow, and their measurement attributes are stored in further dimensions. This allows a cross-sensor
  • the segmentation is preferably carried out by a neural network.
  • Segmentation avoids association errors and ambiguities between two classes can be resolved.
  • Class information or identifiers resulting from the segmentation are also preferably added to the 3D measurement points as attributes.
  • an algorithm for object tracking is applied to the data of the virtual sensor.
  • This algorithm preferably takes one accumulating sensor data fusion. Accumulating sensor data fusion enables filtering of the data over time and therefore reliable object tracking.
  • Fig. 1 shows schematically the course of a classical object tracking
  • Fig. 2 shows schematically a method for processing sensor data
  • FIG. 3 schematically shows the merging of camera images with 3D measuring points
  • Fig. 4 shows a first embodiment of a device for processing
  • Fig. 5 shows a second embodiment of an apparatus for processing
  • Fig. 6 schematically illustrates a motor vehicle in which a solution according to the invention is realized
  • Fig. 7 schematically shows the concept of a virtual sensor
  • Fig. 8 shows schematically the concept of a virtual sensor with classifier.
  • Fig. 1 shows schematically the course of a classical object tracking.
  • Input variables for object tracking are sensor data E and track states transformed into the measurement space.
  • a first step 10 an attempt is made to associate a measurement with a track. It then checks 11 to see if the association was successful. If this is the case, the corresponding track will be updated. 12. If the association fails, however, a new track will be initialized. 13. This procedure is repeated for all measurements.
  • the object tracking object is an object list A.
  • the associated tracks are predicted 16 for the next measurement time and the resulting track states are transformed into the measurement space 17 again for the next pass of the object tracking 17.
  • Fig. 2 shows schematically a method for processing sensor data.
  • camera images are acquired by a camera 20.
  • 3D measurement points are also acquired by at least one 3D sensor.
  • at least one of the camera images can be segmented 22, e.g. through a neural network.
  • the camera images are then fused by a data fusion unit with the 3D measurement points to data of a virtual sensor 23.
  • an optical flow is determined, which is used for the synchronization of image and 3D measurement points.
  • the 3D measurement points can be extended by attributes from at least one of the camera images.
  • an object tracking algorithm may be applied to the data of the virtual sensor.
  • the algorithm may e.g. make an accumulating sensor data fusion.
  • the data of the virtual sensor can be segmented. The segmentation can in turn be done by a neural network.
  • FIG. 3 schematically shows the fusion of camera images with 3D measurement points to data of a virtual sensor.
  • a first step at least a first
  • From the optical flow can optionally be determined for the pixels of the camera images a time to collision 31. From the time to collision, the optical flow and a
  • a velocity vector for this 3D measurement point can also be calculated.
  • a velocity vector for this 3D measurement point can also be calculated.
  • a time to collision can be determined from a 3D measurement. From the time to collision and the optical flow, a Cartesian velocity vector for this 3D measurement point can then be calculated. On the basis of the optical flow finally pixels in at least one of
  • Camera images determine 32 associated with one of the 3D measurement points. For this purpose, first a camera image in the temporal proximity of a measurement time of the 3D sensor based on the optical flow can be converted. The 3D measuring points can then be projected into the converted camera image.
  • the device 40 has an input 41, via which camera images 11, 12 of a camera 61 and 3D measuring points MP of at least one 3D sensor 62, 64 can be received.
  • the device 40 also optionally has a segmenter 42 for segmenting at least one camera image or a further measurement-enhanced camera image 11, 12, e.g. by means of a neural network.
  • a data fusion unit 43 By a data fusion unit 43, the camera images 11, I2 are fused with the 3D measuring points MP to data VS of a virtual sensor.
  • the 3D measuring points MP can be extended by attributes from at least one of the camera images 11, 12.
  • the data fusion unit 43 can calculate an optical flow from at least a first camera image 11 and a second camera image I2 in a first step.
  • a time to collision for the pixels of the camera images 11, 12 can be determined from the optical flow. From time to collision, the optical flow and a
  • Velocity vector for this 3D measuring point MP can be calculated.
  • a time to collision can be determined from a 3D measurement.
  • a Cartesian velocity vector for this 3D measurement point MP can then be calculated.
  • the data fusion unit 43 determines pixels in at least one of the camera images 11, 12 assigned to one of the 3D measurement points MP. For this purpose, firstly a camera image 11, 12 in the temporal proximity of a measurement time MP of the 3D sensor 62, 64 can be converted on the basis of the optical flow.
  • the 3D measuring points MP can then be projected into the converted camera image.
  • a likewise optional object tracker 44 can perform an object tracking on the basis of the data VS of the virtual sensor.
  • the object tracker 44 may e.g. a
  • the data VS of the virtual sensor or the results of the object tracking or the segmentation are output for further processing.
  • the segmenter 42, the data fusion unit 43 and the object tracker 44 may be controlled by a control unit 45. Via a user interface 48
  • the data accumulating in the device 40 can be stored in a memory 46 of the device 40, for example for later evaluation or for use by the device
  • the segmenter 42, the data fusion unit 43, the object tracker 44 and the control unit 45 may be implemented as dedicated hardware, for example as integrated circuits. Of course, they can also be partially or fully combined or implemented as software running on a suitable processor, such as a GPU or a CPU.
  • the input 41 and the output 47 may be implemented as separate interfaces or as a combined bidirectional interface.
  • FIG. 5 shows a simplified schematic representation of a second embodiment of a device 50 for processing sensor data.
  • the device 50 has a processor 52 and a memory 51.
  • device 50 is a computer or controller.
  • the memory 51 stores instructions which, when executed by the processor 52, cause the device 50 to execute the steps according to one of the described methods.
  • the filed in memory 51
  • the device 50 has an input 53 for receiving information, in particular sensor data. Data generated by the processor 52 is provided via an output 54. In addition, they can be stored in the memory 51.
  • the input 53 and the output 54 may be combined to form a bidirectional interface.
  • the processor 52 may include one or more processing units, such as microprocessors, digital signal processors, or combinations thereof.
  • the memories 46, 51 of the described embodiments can have both volatile and non-volatile memory areas and a wide variety of memory devices and
  • FIG. 6 schematically illustrates a motor vehicle 50 in which a solution according to the invention is realized.
  • the motor vehicle 60 has a camera 61 for capturing camera images and a radar sensor 62 for capturing 3D measuring points.
  • the motor vehicle 60 has a device 40 for processing sensor data, by means of which the camera images with the 3D measuring points are fused to data of a virtual sensor.
  • Further components of the motor vehicle 60 are ultrasonic sensors 63 and a lidar system 64 for environmental detection, a data transmission unit 65 and a number of assistance systems 66, one of which is shown by way of example.
  • the motor vehicle 60 has a camera 61 for capturing camera images and a radar sensor 62 for capturing 3D measuring points.
  • the motor vehicle 60 has a device 40 for processing sensor data, by means of which the camera images with the 3D measuring points are fused to data of a virtual sensor.
  • Further components of the motor vehicle 60 are ultrasonic sensors 63 and a lidar system 64 for environmental detection, a data transmission unit 65
  • Assistance systems may use the data provided by the device 20, such as for object tracking.
  • a connection to service providers can be established, for example for retrieving
  • a memory 67 is provided. Of the
  • Data exchange between the various components of the motor vehicle 50 takes place via a network 68.
  • Fig. 7 shows schematically the concept of a virtual sensor as a basis for a
  • Input variables for the sensor fusion through a data fusion unit 43 are 3D measurement points of a 3D sensor (radar 62) and
  • the camera 61 may already be processing the
  • Structure from Motion Structure from motion
  • This processing of the camera images can also be achieved through the
  • Data fusion unit 43 are made. Furthermore, the camera 61 can transmit information about the camera position. Further possible data sources are ultrasound sensors 63 or a lidar system 64. Data fusion unit 43 merges the data over a very short period of time. The 3D points from the data fusion unit 42 become then passed an accumulating sensor data fusion 44, which a
  • a major challenge for data fusion is that the sensors 61, 62 measure at different times. Therefore, a precise synchronization of the data of the various sensors 61, 62 is required. For the synchronization of
  • Sensors 61, 62 is preferably used the determined from the camera images optical flow. The basic principles of synchronization will be explained below.
  • At least two camera images are now used, e.g. the camera images before and after the measurement time t to first calculate an optical flux o.
  • the image which is the recording time t closest to the measurement time of the 3D sensor, used.
  • the difference time between the recording time of this picture and the measurement is At.
  • the optical flux o is measured in the image space (polar space).
  • TTC time to collision
  • the entire image can be converted to the measurement time t of the 3D sensor.
  • the 3D measuring points from the depth-measuring sensor can easily be projected into the image.
  • the pixels can be treated as infinitely long rays, which intersect with the 3D measurement points.
  • all optical flow vectors can be rendered with line algorithms so that in each pixel the bounding box of the vector is specified. If several flow vectors overlap in one pixel, the bounding box is correspondingly enlarged so that both vectors are contained in the box.
  • the search algorithm now only needs to consider the bounding box in which the searched pixel must be contained.
  • search trees eg. B. of quadtrees (quaternaries), similar to collision detection.
  • the 3D measuring point usually has an angular uncertainty, z. B. by beam expansion. Therefore, preferably all pixels within the uncertainty are taken into account in order to extend the 3D measurement point by attributes from the image.
  • the attributes may, for example, be the averaged optical flux o (o x , o y ) or the position in the image space p (p x , p y ).
  • the 3D measurement points can additionally be extended by the class resulting from the segmentation as well as the associated identifier.
  • the resulting points from the virtual sensor can be clustered into high quality object hypotheses because they contain extensive information to separate classes.
  • these are the class information and the identifier from the segmentation and the Cartesian velocity vector, the z. B. is useful for overlapping objects of the same class.
  • the extended 3D measurement points or clusters from the virtual sensor or the clusters are then transferred to an accumulating sensor data fusion, which allows filtering over time.
  • an accumulating sensor data fusion which allows filtering over time.
  • Changes in the individual image segments can be determined over time, which can be implemented particularly efficiently.
  • a time to collision can be determined. This describes when a point penetrates the main plane of the camera optics.
  • the TTC can be calculated:
  • a hole camera model is used for the mathematical representation. From the image position p x , p y (in pixels), the TTC (in s), the optical flux o (in pixels / s) and the distance measurement d in the direction of the image plane of the camera sensor (in m), a Cartesian velocity vector v ( in m / s) for the 3D measurement, which is relative to the ego movement in the camera coordinate system. It should be noted that optical flux o and pixel position p in the image space are given, while the velocities v xy z are determined in the camera coordinate system.
  • a camera constant K is needed that takes into account the image width b (in m) and the resolution D (pixels per m) of the imaging system.
  • the speeds are then as follows d
  • the radial relative speed can be used to stabilize the measurement:
  • Doppler speed By means of this relative speed and distance measurement can be determined by quotient forming an alternative TTC. This is especially useful for features near the camera's point of expansion, where there is little optical flow. This therefore affects objects in the driving tube.
  • the driving tube is usually covered by a particularly large number of sensors, so that the information is generally available.
  • Fig. 8 shows schematically the concept of a virtual sensor with classifier. The concept largely corresponds to the concept known from FIG. 7. Currently being to
  • Image classification often uses folded neural networks. If possible, these require locally associable data, which naturally exists in an image.
  • Neighbor pixels often belong to the same object and describe the neighborhood in the polar image space.
  • the neural networks rely not only on image data, which provide little data in low light conditions and also make distance estimates generally difficult. In other dimensions, therefore, measurement data from other sensors, in particular from laser and radar measurements, are projected into the state space. For a good performance, it makes sense to synchronize the measurement data by means of the optical flow, so that the neural networks can make good use of the data locality.
  • the synchronization can be carried out in the following manner.
  • the starting point is a camera image, which is as close as possible to all sensor data from the recording time.
  • further data are now annotated:
  • this includes the shift in the image, for example using the optical flow.
  • the pixels are identified which according to the pixel shift associate with the available 3D measurement data, for example from laser or radar measurements.
  • Beam expansions are, are here usually affected several pixels.
  • the associated pixels are extended by additional dimensions and the measurement attributes are entered accordingly. Possible attributes are for example: in addition to the distance measurement from laser, radar or ultrasound, the Doppler speed of the radar, the reflectivity and the
  • the camera image which has been synchronized and enhanced with measurement attributes, will now be displayed with a
  • Classifier or segmenter 42 preferably with a folded neural network, classified. In this case, all information can now be generated as described above in connection with FIG. 7.
  • a camera is assumed that can be modeled as a pinhole camera. This assumption serves only to make the transformations easier to handle. If the used camera can not be adequately modeled as a pinhole camera, distortion models can instead be used to generate views similar to those of the camera
  • Coordinate systems are defined. In total, five coordinate systems are defined:
  • Tv ⁇ -w (t) is the transformation that transforms a 3D point in the world coordinate system into the ego vehicle's 3D coordinate system. This transformation depends on time t, as the ego vehicle moves over time.
  • Ts ⁇ -v is the transformation that transforms a 3D point in the 3D coordinate system of the ego vehicle into the 3D coordinate system of the 3D sensor.
  • Tc ⁇ -v is the transformation that transforms a 3D point in the 3D coordinate system of the ego vehicle into the 3D coordinate system of the camera.
  • Pi ⁇ c is the transformation that projects a 3D point in the 3D coordinate system of the camera into the 2D image coordinate system.
  • a world point moving in the world coordinate system e.g. a point on one
  • Vehicle can be described by x w (t).
  • Equations (6) and (7) are linked together by the movement of the ego vehicle and the movement of the world point. While there is information about the movement of the ego vehicle, the movement of the world point is unknown.
  • Equation (11) represents a relationship between the optical flux vector and the
  • Flow vector between the camera images taken at the times t 0 and t 2 and Ax v (t 0 , t 2 ) is the corresponding motion vector of the world point expressed in C v .
  • the optical flux vector is thus the projection of the motion vector in 3D space.
  • the measurements of the camera and the 3D sensor can not be combined directly with each other. It must first be introduced as an additional assumption that the motion in the image plane is linear between times t 0 and t 2 . Under this assumption, the pixel belonging to a world point is determined by:
  • equation (6) can be used to determine the pixel coordinates of the world point that it would have in a virtual camera image recorded at time t:
  • Equation (16) represents a relationship between the measurements of the camera and the
  • equation (16) establishes a complete relationship, i. there are no unknown sizes.
  • Segment at least one camera image

Abstract

Ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten. In einem ersten Schritt werden durch eine Kamera Kamerabilder erfasst (20). Durch zumindest einen 3D-Sensor werden zudem 3D-Messpunkte erfasst (21). Optional kann zumindest eines der Kamerabilder segmentiert werden (22). Die Kamerabilder werden dann durch eine Datenfusionseinheit mit den 3D-Messpunkten zu Daten eines virtuellen Sensors fusioniert (23). Die resultierenden Daten werden schließlich für eine weitere Verarbeitung ausgegeben (24).

Description

Beschreibung
Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zur
Verarbeitung von Sensordaten
Die vorliegende Erfindung betrifft ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten. Die Erfindung betrifft weiterhin ein Kraftfahrzeug, in dem ein erfindungsgemäßes Verfahren oder eine
erfindungsgemäße Vorrichtung eingesetzt wird.
Moderne Kraftfahrzeuge haben bereits heute eine Vielzahl von Sensoren für verschiedene Level-2-Assistenzsysteme (teilautomatisierte Systeme).
Beispielsweise beschreibt die DE 10 201 1 013 776 A1 ein Verfahren zur Erfassung oder Verfolgung von Objekten in einer Fahrzeugumgebung. Die Objekte werden aus einem optischen Fluss anhand einer Ermittlung von korrespondierenden Bildpunkten in zumindest zwei Bildern erfasst. Dabei wird eine Entfernung der Objekte aus dem optischen Fluss anhand der Ermittlung der korrespondierenden Bildpunkte in den zumindest zwei Bildern ermittelt. Diejenigen Objekte, welche sich in einem Erfassungsbereich eines Entfernungs- Messsensors befinden und deren aus dem optischen Fluss ermittelte Entfernung kleiner ist als ein mittels des Entfernungs-Messsensors ermittelter Entfernungswert, bleiben unberücksichtigt.
Die DE 10 2017 100 199 A1 beschreibt ein Verfahren zum Erfassen von Fußgängern. In einem ersten Schritt wird ein Bild eines Bereichs in der Nähe eines Fahrzeugs empfangen. Unter Verwendung eines ersten neuronalen Netzwerks wird das Bild verarbeitet, um Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden. Die bestimmten Orte des Bildes werden dann unter Verwendung eines zweiten neuronalen Netzwerks verarbeitet, um zu bestimmen, ob ein Fußgänger anwesend ist. Bei Anwesenheit eines Fußgängers ergeht eine Benachrichtigung an ein Fahrassistenzsystem oder ein automatisiertes Fahrsystem. Die neuronalen Netzwerke können ein tiefes Faltungsnetzwerk umfassen.
Für Level-3- und höhere Systeme (hochautomatisierte und autonome Systeme) wird die Anzahl der verbauten Sensoren weiter steigen. Hierbei wird es aus Sicherheitsgründen redundante Erfassungsbereiche geben, welche von mehreren Sensoren mit unterschiedlichen Messprinzipien abgedeckt werden.
Hierbei spielen Kamerasensoren, Radar- und Laserscanner die wichtigste Rolle. Es ist insbesondere davon auszugehen, dass in kritischen Bereichen mindestens ein
Kamerasensor und ein 3D-Sensor vorhanden sind, welche diesen abdecken. Beispiele für 3D-Sensoren sind Laserscanner oder ein Radarsensor mit Elevationsmessung.
In klassischen Systemen existiert ein sogenanntes Objekttracking, das Objekthypothesen aufsetzt, welche durch neue Sensormessungen bestätigt und aktualisiert werden.
Klassischerweise nutzt man dabei sogenannte„Prädiktor-Korrektor-Filter“, wie
beispielsweise einen Kalmanfilter. Wenn eine neue Messung eintrifft, werden alle Objekte mittels eines Dynamikmodells auf den Messzeitpunkt der neuen Messung prädiziert.
Anschließend wird versucht, die Messung zu einem existierenden Objekt zuzuordnen. Falls dieses gelingt, so wird der Track aktualisiert. Falls dieses scheitert, wird eine neue
Objekthypothese aufgesetzt, d.h. ein neuer Track.
Vor diesem Hintergrund beschreibt die DE 10 2011 119 767 A1 ein Verfahren zum
Vereinigen von Kamera- und Entfernungssensordaten, um mindestens ein externes Objekt in einem Fahrzeug mit einem Sensoruntersystem mit einer Kamera und einem
Entfernungssensor und mit einem Bordcomputer zu verfolgen. Auf der Basis einer vom Sensoruntersystem des Fahrzeugs empfangenen Eingabe stellt ein Bordcomputer fest, dass Daten eines neuen Objekts, die dem Objekt entsprechen, verfügbar sind. Der Bordcomputer registriert die Daten des neuen Objekts und schätzt einen erwarteten Ort und ein erwartetes Erscheinungsbild für das Objekt gemäß einem Vorhersagealgorithmus ab, um eine vorhergesagte Spur für das Objekt zu erzeugen. Zudem analysiert der Bordcomputer die Bewegung für das Objekt, einschließlich eines Vergleichens der vorhergesagten Spur mit einer existierenden Spur, die dem Objekt zugeordnet ist und in einer Datenbank des
Bordcomputers gespeichert ist.
Beim klassischen Objekttracking sind eine Reihe von Herausforderungen insbesondere im Assoziationsschritt zu berücksichtigen, damit Mehrdeutigkeiten vermieden werden.
Beispielsweise kann der Dynamikzustand nicht immer gut geschätzt werden: Je nach Messungen und Zustand eines Tracks ist häufig kein kartesischer Geschwindigkeitsvektor bekannt. Eine Beschleunigung kann nur durch längere Beobachtung geschätzt werden. Dies kann zu großen Fehlern im Prädiktionsschritt führen. Zudem kann sich ein Objekt entgegen dem Dynamikmodell verhalten, z.B. durch abruptes Bremsen. Dieses abweichende
Verhalten kann ebenfalls zu Prädiktionsfehlern führen.
Daneben gibt es zwischen unterschiedlichen Sensoren häufig systematische Messfehler: Ein Laserscanner nimmt z.B. besonders gut stark reflektierende Oberflächen wahr, wie
Nummernschilder oder Katzenaugen, während schwarz lackierte Fahrzeuge schwer detektierbar sind. Radarsensoren nehmen hingegen metallische Objekte mit großen
Radarquerschnitt gut wahr, wie Heckleuchten, geknickte Bleche etc. Hierbei werden dann durch die Sensoren von einem Objekt unterschiedliche Punkte angemessen, welche ggf. weit entfernt voneinander liegen, aber dem gleichen Objekt zuzuordnen sind. Zudem weisen einige Sensoren, z.B. Radarsensoren, eine vergleichsweise geringe Trennschärfe auf, sodass hier das Mehrdeutigkeitsproblem verschärft wird.
Eine fehlerhafte Behandlung von Mehrdeutigkeiten kann zu Fehlassoziationen führen, bei denen Objekttracks mit falschen Messdaten assoziiert und aktualisiert werden. Dies kann unangenehme Folgen haben. Beispielsweise kann einer Randbebauung fälschlicherweise eine Quergeschwindigkeit zugeordnet werden. Die Randbebauung erscheint daraufhin dynamisch und wandert in den Fahrschlauch. Dies kann eine Notbremsung aufgrund eines „Geisterobjekts“ verursachen. Ebenso kann es passieren, dass eine Randbebauung, z.B. ein mittels Laserscanner gemessener Poller, einem nahen dynamischen Objekt zugeordnet wird, z.B. einem Fahrzeug, dass den Poller gerade passiert. Dies verhindert, dass der Poller rechtzeitig als solcher erkannt wird, wodurch es zu einer Kollision mit der Randbebauung kommen kann.
Es ist eine Aufgabe der Erfindung, Lösungen für die Verarbeitung von Sensordaten aufzuzeigen, die es erlauben, die beim Objekttracking auftretenden Probleme zu reduzieren.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 , durch ein computerlesbares Speichermedium mit Instruktionen gemäß Anspruch 12 und durch eine Vorrichtung mit den Merkmalen des Anspruchs 13 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Gemäß einem ersten Aspekt der Erfindung umfasst ein Verfahren zur Verarbeitung von Sensordaten die Schritte:
- Erfassen von Kamerabildern durch eine Kamera;
- Erfassen von 3D-Messpunkten durch zumindest einen 3D-Sensor; und
- Fusionieren der Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors. Gemäß einem weiteren Aspekt der Erfindung enthält ein computerlesbares Speichermedium Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der folgende Schritte zur Verarbeitung von Sensordaten veranlassen:
- Erfassen von Kamerabildern durch eine Kamera;
- Erfassen von 3D-Messpunktendurch zumindest einen 3D-Sensor; und
- Fusionieren der Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors.
Der Begriff Computer ist dabei breit zu verstehen. Insbesondere umfasst er auch
Steuergeräte und andere prozessorbasierte Datenverarbeitungsvorrichtungen.
Gemäß einem weiteren Aspekt der Erfindung weist eine Vorrichtung zur Verarbeitung von Sensordaten auf:
- einen Eingang zum Empfangen von Kamerabildern einer Kamera und von 3D-Messpunkten eines 3D-Sensors; und
- eine Datenfusionseinheit zum Fusionieren der Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors.
Im Rahmen eines Vorverarbeitungsschrittes für die Auswertung von Sensordaten, insbesondere im Rahmen einer Objektverfolgung, wird das Konzept eines virtuellen Sensors eingeführt. Dieser fusioniert die Messdaten von Kamera und 3D-Sensoren auf einer früheren Messpunkt-Ebene und abstrahiert somit die einzelnen Sensoren. Die resultierenden Daten aus dem virtuellen Sensor lassen sich bei der nachfolgenden Objektverfolgung zu
Objekthypothesen mit hoher Qualität clustern, da sie umfangreiche Informationen enthalten, um verschiedene Klassen zu separieren. Durch die erfindungsgemäße Lösung wird verhindert, dass die Objekthypothesen verschiedener Sensoren mit systematischen Fehlern über Zeit in einem gemeinsamen Modell fusioniert werden, wobei leicht Assoziationsfehler auftreten. Dadurch wird eine robuste Umfeldwahrnehmung ermöglicht, welche
hochautomatisierte und autonome Fahrfunktionen erlaubt.
Gemäß einem Aspekt der Erfindung umfasst das Fusionieren der Bilddaten mit den 3D- Messpunkten zu Daten eines virtuellen Sensors:
- Berechnen eines optischen Flusses aus zumindest einem ersten Kamerabild und einem zweiten Kamerabild; und
- Bestimmen von Pixeln in zumindest einem der Kamerabilder, die einem der 3D-Messpunkte zu einem Zeitpunkt der Messung zuzuordnen sind, auf Basis des optischen Flusses. Mittels des berechneten optischen Flusses werden die 3D-Messpunkte mit den Kamerabildern synchronisiert. Dies ist besonders vorteilhaft, da der optische Fluss automatisch Fremd- und Eigenbewegungen korrekt berücksichtigt. Es ist kein
Dynamikmodell hinterlegt, welches Fehler induzieren könnte.
Gemäß einem Aspekt der Erfindung umfasst das Bestimmen von Pixeln in zumindest einem der Kamerabilder, die einem der 3D-Messpunkte zu einem Zeitpunkt der Messung zuzuordnen sind:
- Umrechnen eines Kamerabildes in der zeitlichen Nähe eines Messzeitpunktes des 3D- Sensors auf Basis des optischen Flusses; und
- Projizieren der 3D-Messpunkte in das umgerechnete Kamerabild.
Mit Hilfe des optischen Flusses lässt sich das ganze Kamerabild auf den Messzeitpunkt des 3D-Sensors umrechnen. Im Anschluss können dann die 3D-Messpunkte aus dem tiefenmessenden Sensor in das Kamerabild projiziert werden. Hierzu können die Pixel beispielsweise als unendlich lange Strahlen behandelt werden, welche sich mit dem 3D- Messpunkten schneiden.
Gemäß einem Aspekt der Erfindung umfasst das Bestimmen von Pixeln in zumindest einem der Kamerabilder, die einem der 3D-Messpunkte zu einem Zeitpunkt der Messung zuzuordnen sind:
- Bestimmen derjenigen Pixel im Kamerabild, die zum Zeitpunkt der Messung den 3D- Messpunkten zuzuordnen sind, auf Basis des optischen Flusses und eines Suchverfahrens; und
- Projizieren der 3D-Messpunkte an die so bestimmten Stellen im Kamerabild.
Mit Hilfe des optischen Flusses und eines Suchverfahrens ist es möglich, diejenigen Pixel im Kamerabild zu ermitteln, die zum Zeitpunkt der Messung den 3D-Messpunkten zuzuordnen sind. Diese ist insbesondere bei einem Lidar-System sinnvoll, wo durch den scannenden Effekt jeder Messpunkt seinen eigenen Zeitstempel hat. Der auf einen Suchverfahren basierende Ansatz ist deutlich weniger rechenaufwendig, als für jeden Messpunkt das ganze Bild umzurechnen.
Gemäß einem Aspekt der Erfindung wird aus dem optischen Fluss eine Zeit bis zur Kollision für die Pixel der Kamerabilder bestimmt. Aus der Zeit bis zur Kollision, dem optischen Fluss und einer Abstandsmessung für einen 3D-Messpunkt kann dann ein kartesischer
Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Dieser kann beispielsweise genutzt werden, um überlappende Objekte einer gleichen Klasse zu unterscheiden. Bisherige Sensoren müssen für eine solche Unterscheidung Objekte über die Zeit mittels Dynamik- und Assoziationsmodellen verfolgen, was relativ fehlerträchtig ist.
Gemäß einem Aspekt der Erfindung wird aus einer radialen Relativgeschwindigkeit und einer Abstandsmessung eine Zeit bis zur Kollision aus einer 3D-Messung bestimmt. Aus der Zeit bis zur Kollision und dem optischen Fluss kann dann ein kartesischer
Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Dieser Ansatz hat den Vorteil, dass die Messung der zeit bis zur Kollision besonders genau ist, wenn die radiale Relativgeschwindigkeit beispielsweise aus einem Radarsensor stammt. Zudem lassen sich Objektbewegungen sowohl horizontal als auch vertikal (optischer Fluss) im Bild recht genau beobachten. Der resultierende Geschwindigkeitsvektor ist daher im Allgemeinen präziser als wenn man die Zeit bis zur Kollision alleine aus dem Bild schätzt.
Gemäß einem Aspekt der Erfindung werden die 3D-Messpunkte um Attribute aus zumindest einem der Kamerabilder erweitert. Bei den Attributen kann es sich beispielsweise um den (gemittelten) optischen Fluss oder die Position im Bildraum des oder der zugehörigen Pixel aus dem Kamerabild handeln. Ebenso können der Geschwindigkeitsvektor, eine
Dopplergeschwindigkeit, die Reflektivität bzw. der Radarquerschnitt oder die Konfidenz hinzugefügt werden. Die zusätzlichen Attribute erlauben die Realisierung einer robusteren Objektverfolgung oder auch eine bessere Segmentierung.
Gemäß einem Aspekt der Erfindung werden ein Kamerabild nahe eines Messzeitpunktes der 3D-Messung segmentiert. Optional werden vor dem Segmentieren Messpunkte des 3D- Sensors mittels des optischen Flusses präzise in das Bild projiziert und deren Messattribute in weiteren Dimensionen abgelegt. Dies ermöglicht eine sensorübergreifende
Segmentierung.
Das Segmentieren erfolgt dabei vorzugsweise durch ein neuronales Netz. Durch die
Segmentierung werden zum einen Assoziationsfehler vermieden, zum anderen können Mehrdeutigkeiten zwischen zwei Klassen aufgelöst werden. Aus der Segmentierung resultierende Klasseninformationen bzw. Identifikatoren werden den 3D-Messpunkten vorzugsweise ebenfalls als Attribute hinzugefügt.
Gemäß einem Aspekt der Erfindung wird ein Algorithmus zur Objektverfolgung auf die Daten des virtuellen Sensors angewandt. Dieser Algorithmus nimmt vorzugsweise eine akkumulierende Sensordatenfusion vor. Die akkumulierende Sensordatenfusion ermöglicht eine Filterung der Daten über die Zeit und daher eine zuverlässige Objektverfolgung.
Besonders vorteilhaft wird ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung in einem Fahrzeug, insbesondere einem Kraftfahrzeug, eingesetzt.
Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den angehängten Ansprüchen in Verbindung mit den Figuren ersichtlich.
Fig. 1 zeigt schematisch den Ablauf eines klassischen Objekttrackings;
Fig. 2 zeigt schematisch ein Verfahren zur Verarbeitung von Sensordaten;
Fig. 3 zeigt schematisch das Fusionieren von Kamerabildern mit 3D-Messpunkten zu
Daten eines virtuellen Sensors;
Fig. 4 zeigt eine erste Ausführungsform einer Vorrichtung zur Verarbeitung von
Sensordaten;
Fig. 5 zeigt eine zweite Ausführungsform einer Vorrichtung zur Verarbeitung von
Sensordaten;
Fig. 6 stellt schematisch ein Kraftfahrzeug dar, in dem eine erfindungsgemäße Lösung realisiert ist;
Fig. 7 zeigt schematisch das Konzept eines virtuellen Sensors; und
Fig. 8 zeigt schematisch das Konzept eines virtuellen Sensors mit Klassifikator.
Zum besseren Verständnis der Prinzipien der vorliegenden Erfindung werden nachfolgend Ausführungsformen der Erfindung anhand der Figuren detaillierter erläutert. Es versteht sich, dass sich die Erfindung nicht auf diese Ausführungsformen beschränkt und dass die beschriebenen Merkmale auch kombiniert oder modifiziert werden können, ohne den Schutzbereich der Erfindung zu verlassen, wie er in den angehängten Ansprüchen definiert ist. Fig. 1 zeigt schematisch den Ablauf eines klassischen Objekttrackings. Eingangsgrößen für das Objekttracking sind Sensordaten E und in den Messraum transformierte Trackzustände. In einem ersten Schritt 10 wird versucht, eine Messung mit einem Track zu assoziieren. Anschließend wird überprüft 11 , ob die Assoziation erfolgreich war. Ist die der Fall, so wird der entsprechende Track aktualisiert 12. Schlägt die Assoziation jedoch fehl, so wird ein neuer Track initialisiert 13. Dieses Vorgehen wird für alle Messungen wiederholt. Weiterhin wird für alle Tracks überprüft 14, ob der jeweilige Track lange Zeit nicht aktualisiert wurde. Tracks, für die dies bejaht wird, werden gelöscht 15. Ausgangsgröße des Objekttrackings ist eine Objektliste A. Die zugehörigen Tracks werden auf den nächsten Messzeitpunkt prädiziert 16 und die resultierenden Trackzustände für den nächsten Durchgang des Objekttrackings wiederum in den Messraum transformiert 17.
Fig. 2 zeigt schematisch ein Verfahren zur Verarbeitung von Sensordaten. In einem ersten Schritt werden durch eine Kamera Kamerabilder erfasst 20. Durch zumindest einen 3D- Sensor werden zudem 3D-Messpunkte erfasst 21. Optional kann zumindest eines der Kamerabilder segmentiert werden 22, z.B. durch ein neuronales Netz. Die Kamerabilder werden dann durch eine Datenfusionseinheit mit den 3D-Messpunkten zu Daten eines virtuellen Sensors fusioniert 23. Hierbei wird ein optischer Fluss bestimmt, welcher zur Synchronisation von Bild- und 3D-Messpunkten genutzt wird. Die 3D-Messpunkte können dabei um Attribute aus zumindest einem der Kamerabilder erweitert werden. Die
resultierenden Daten werden schließlich für eine weitere Verarbeitung ausgegeben 24. Bei der weiteren Verarbeitung kann beispielsweise ein Algorithmus zur Objektverfolgung auf die Daten des virtuellen Sensors angewandt werden. Der Algorithmus kann z.B. eine akkumulierende Sensordatenfusion vornehmen. Zudem können die Daten des virtuellen Sensors segmentiert werden. Das Segmentieren kann dabei wiederum durch ein neuronales Netz erfolgen.
Fig. 3 zeigt schematisch das Fusionieren von Kamerabildern mit 3D-Messpunkten zu Daten eines virtuellen Sensors. In einem ersten Schritt wird aus zumindest einem ersten
Kamerabild und einem zweiten Kamerabild ein optischer Fluss berechnet 30. Aus dem optischen Fluss kann optional für die Pixel der Kamerabilder eine Zeit bis zur Kollision bestimmt werden 31. Aus der Zeit bis zur Kollision, dem optischen Fluss und einer
Abstandsmessung für einen 3D-Messpunkt kann zudem ein Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Alternativ kann aus einer radialen
Relativgeschwindigkeit und einer Abstandsmessung eine Zeit bis zur Kollision aus einer 3D- Messung bestimmt werden. Aus der Zeit bis zur Kollision und dem optischen Fluss kann dann ein kartesischer Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Auf Basis des optischen Flusses werden schließlich Pixel in zumindest einem der
Kamerabilder bestimmt 32, die einem der 3D-Messpunkte zugeordnet sind. Dazu kann zunächst ein Kamerabild in der zeitlichen Nähe eines Messzeitpunktes des 3D-Sensors auf Basis des optischen Flusses umgerechnet werden. Die 3D-Messpunkte können dann in das umgerechnete Kamerabild projiziert werden.
Fig. 4 zeigt eine vereinfachte schematische Darstellung einer ersten Ausführungsform einer Vorrichtung 40 zur Verarbeitung von Sensordaten. Die Vorrichtung 40 hat einen Eingang 41 , über den Kamerabilder 11 , I2 einer Kamera 61 und 3D-Messpunkte MP zumindest eines 3D- Sensors 62, 64 empfangen werden können. Die Vorrichtung 40 hat zudem optional einen Segmentierer 42 zum Segmentieren zumindest eines Kamerabildes bzw. eines mit weiteren Messungen angereicherten Kamerabildes 11 , I2, z.B. mittels eines neuronalen Netzes. Durch eine Datenfusionseinheit 43 werden die Kamerabilder 11 , I2 mit den 3D-Messpunkten MP zu Daten VS eines virtuellen Sensors fusioniert. Die 3D-Messpunkte MP können dabei um Attribute aus zumindest einem der Kamerabilder 11 , 12 erweitert werden. Für das Fusionieren kann die Datenfusionseinheit 43 in einem ersten Schritt aus zumindest einem ersten Kamerabild 11 und einem zweiten Kamerabild I2 einen optischen Fluss berechnen. Aus dem optischen Fluss kann optional eine Zeit bis zur Kollision für die Pixel der Kamerabilder 11 , I2 bestimmt werden. Aus der Zeit bis zur Kollision, dem optischen Fluss und einer
Abstandsmessung für einen gegebenen 3D-Messpunkt MP kann dann ein
Geschwindigkeitsvektor für diesen 3D-Messpunkt MP berechnet werden. Alternativ kann aus einer radialen Relativgeschwindigkeit und einer Abstandsmessung eine Zeit bis zur Kollision aus einer 3D-Messung bestimmt werden. Aus der Zeit bis zur Kollision und dem optischen Fluss kann dann ein kartesischer Geschwindigkeitsvektor für diesen 3D-Messpunkt MP berechnet werden. Auf Basis des optischen Flusses bestimmt die Datenfusionseinheit 43 schließlich Pixel in zumindest einem der Kamerabilder 11 , I2, die einem der 3D-Messpunkte MP zugeordnet sind. Dazu kann zunächst ein Kamerabild 11 , I2 in der zeitlichen Nähe eines Messzeitpunktes MP des 3D-Sensors 62, 64 auf Basis des optischen Flusses umgerechnet werden. Die 3D-Messpunkte MP können dann in das umgerechnete Kamerabild projiziert werden.
Ein ebenfalls optionaler Objekttracker 44 kann auf Basis der Daten VS des virtuellen Sensors eine Objektverfolgung durchführen. Der Objekttracker 44 kann z.B. eine
akkumulierende Sensordatenfusion vornehmen. Diese kann allerdings ebenfalls außerhalb der Vorrichtung 40 vorgenommen werden. Über einen Ausgang 47 der Vorrichtung 40 werden die Daten VS des virtuellen Sensors oder die Ergebnisse der Objektverfolgung oder der Segmentierung für eine weitere Verarbeitung ausgegeben. Der Segmentierer 42, die Datenfusionseinheit 43 und der Objekttracker 44 können von einer Kontrolleinheit 45 gesteuert werden. Über eine Benutzerschnittstelle 48 können
gegebenenfalls Einstellungen des Segmentierers 42, der Datenfusionseinheit 43, des Objekttrackers 44 oder der Kontrolleinheit 45 geändert werden. Die in der Vorrichtung 40 anfallenden Daten können bei Bedarf in einem Speicher 46 der Vorrichtung 40 abgelegt werden, beispielsweise für eine spätere Auswertung oder für eine Nutzung durch die
Komponenten der Vorrichtung 40. Der Segmentierer 42, die Datenfusionseinheit 43, der Objekttracker 44 sowie die Kontrolleinheit 45 können als dedizierte Hardware realisiert sein, beispielsweise als integrierte Schaltungen. Natürlich können sie aber auch teilweise oder vollständig kombiniert oder als Software implementiert werden, die auf einem geeigneten Prozessor läuft, beispielsweise auf einer GPU oder einer CPU. Der Eingang 41 und der Ausgang 47 können als getrennte Schnittstellen oder als eine kombinierte bidirektionale Schnittstelle implementiert sein.
Fig. 5 zeigt eine vereinfachte schematische Darstellung einer zweiten Ausführungsform einer Vorrichtung 50 zur Verarbeitung von Sensordaten. Die Vorrichtung 50 weist einen Prozessor 52 und einen Speicher 51 auf. Beispielsweise handelt es sich bei der Vorrichtung 50 um einen Computer oder ein Steuergerät. Im Speicher 51 sind Instruktionen abgelegt, die die Vorrichtung 50 bei Ausführung durch den Prozessor 52 veranlassen, die Schritte gemäß einem der beschriebenen Verfahren auszuführen. Die im Speicher 51 abgelegten
Instruktionen verkörpern somit ein durch den Prozessor 52 ausführbares Programm, welches das erfindungsgemäße Verfahren realisiert. Die Vorrichtung 50 hat einen Eingang 53 zum Empfangen von Informationen, insbesondere von Sensordaten. Vom Prozessor 52 generierte Daten werden über einen Ausgang 54 bereitgestellt. Darüber hinaus können sie im Speicher 51 abgelegt werden. Der Eingang 53 und der Ausgang 54 können zu einer bidirektionalen Schnittstelle zusammengefasst sein.
Der Prozessor 52 kann eine oder mehrere Prozessoreinheiten umfassen, beispielsweise Mikroprozessoren, digitale Signalprozessoren oder Kombinationen daraus.
Die Speicher 46, 51 der beschriebenen Ausführungsformen können sowohl volatile als auch nichtvolatile Speicherbereiche aufweisen und unterschiedlichste Speichergeräte und
Speichermedien umfassen, beispielsweise Festplatten, optische Speichermedien oder Halbleiterspeicher. Fig. 6 stellt schematisch ein Kraftfahrzeug 50 dar, in dem eine erfindungsgemäße Lösung realisiert ist. Das Kraftfahrzeug 60 weist eine Kamera 61 zum Erfassen von Kamerabildern sowie einen Radarsensor 62 zum Erfassen von 3D-Messpunkten auf. Weiterhin weist das Kraftfahrzeug 60 eine Vorrichtung 40 zur Verarbeitung von Sensordaten auf, mittels derer die Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors fusioniert werden. Weitere Komponenten des Kraftfahrzeugs 60 sind Ultraschallsensoren 63 und ein Lidar- System 64 zur Umgebungserfassung, eine Datenübertragungseinheit 65 sowie eine Reihe von Assistenzsystemen 66, von denen eines exemplarisch dargestellt ist. Die
Assistenzsysteme können die von der Vorrichtung 20 bereitgestellten Daten nutzen, beispielsweise für ein Objekttracking. Mittels der Datenübertragungseinheit 65 kann eine Verbindung zu Dienstanbietern aufgebaut werden, beispielsweise zum Abrufen von
Navigationsdaten. Zur Speicherung von Daten ist ein Speicher 67 vorhanden. Der
Datenaustausch zwischen den verschiedenen Komponenten des Kraftfahrzeugs 50 erfolgt über ein Netzwerk 68.
Nachfolgend sollen bevorzugte Ausführungsformen der Erfindung anhand der Figuren 7 und 8 beschrieben werden.
Anstatt Messdaten verschiedener Sensoren mit systematischen Fehlern über die Zeit in einem gemeinsamen Modell zu fusionieren, wobei leicht Assoziationsfehler auftreten, wird das Konzept eines virtuellen Sensors eingeführt. Dieser fusioniert die Messdaten von Kamera und 3D-Sensoren auf einer früheren Messpunkt-Ebene und abstrahiert somit die einzelnen Sensoren.
Fig. 7 zeigt schematisch das Konzept eines virtuellen Sensors als Basis für eine
akkumulierende Sensordatenfusion. Eingangsgrößen für die Sensorfusion durch eine Datenfusionseinheit 43 sind 3D-Messpunkte eines 3D-Sensors (Radar 62) sowie
Kamerabilder einer Kamera 61. Die Kamera 61 kann bereits eine Verarbeitung der
Kamerabilder vornehmen, um beispielsweise den optischen Fluss zu bestimmen, Bildpunkte im Rahmen einer Segmentierung zu klassifizieren oder mittels SfM-Algorithmen (SfM:
Structure from Motion; Struktur aus Bewegung) Punkte aus den Kamerabildern zu extrahieren. Diese Verarbeitung der Kamerabilder kann aber auch durch die
Datenfusionseinheit 43 vorgenommen werden. Weiterhin kann die Kamera 61 Angaben zur Kameraposition übermitteln. Weitere mögliche Datenquellen sind Ultraschallsensoren 63 oder ein Lidar-System 64. Durch die Datenfusionseinheit 43 erfolgt einen Fusion der Daten über eine sehr kurze Zeitspanne. Die 3D-Punkte aus der Datenfusionseinheit 42 werden anschließend einer akkumulierenden Sensordatenfusion 44 übergeben, welche eine
Filterung über Zeit ermöglicht.
Eine wesentliche Herausforderung für die Datenfusion besteht darin, dass die Sensoren 61 , 62 zu unterschiedlichen Zeitpunkten messen. Es ist daher eine präzise Synchronisation der Daten der verschiedenen Sensoren 61 , 62 erforderlich. Für die Synchronisation der
Sensoren 61 , 62 wird vorzugsweise der aus den Kamerabildern bestimmte optische Fluss genutzt. Nachfolgend sollen zunächst Grundlagen der Synchronisation erläutert werden.
Eine detaillierte Beschreibung, wie die verschiedenen auftretenden Koordinatensysteme behandelt werden, erfolgt weiter unten.
Gegeben sind die 3D-Messpunkte, welche zu einem Zeitpunkt t aufgenommen worden sind. Es werden nun zumindest zwei Kamerabilder verwendet, z.B. die Kamerabilder vor und nach dem Messzeitpunkt t, um zunächst einen optischen Fluss o zu berechnen.
Vorzugsweise wird das Bild, welches sich vom Aufnahmezeitpunkt t am dichtesten vom Messzeitpunkt des 3D-Sensors befindet, herangezogen. Die Differenzzeit zwischen dem Aufnahmezeitpunkt dieses Bildes und der Messung sei At. Der optische Fluss o wird im Bildraum (Polarraum) gemessen.
Ein Pixel mit der Position p und dem optischem Fluss o wird nun wie folgt prädiziert: r' = p + o At (1 )
Unter Berücksichtigung der Zeit bis zur Kollision (Time to collision), bezeichnet mit TTC, deren Bestimmung weiter unten erläutert wird, kann diese Formel noch verfeinert werden: o At TTC
P = p + (2)
TTC - At
Mit diesem Ansatz lässt sich das ganze Bild auf den Messzeitpunkt t des 3D-Sensors umrechnen. Im Anschluss lassen sich leicht die 3D-Messpunkte aus dem tiefenmessenden Sensor in das Bild projizieren. Hierzu können die Pixel als unendlich lange Strahlen behandelt werden, welche sich mit dem 3D-Messpunkten schneiden.
Bei einem Lidar-System ist es allerdings so, dass durch den scannenden Effekt jeder Messpunkt seinen eigenen Zeitstempel hat. Man kann in diesem Fall für jeden Messpunkt das ganze Bild umrechnen, dies ist aber rechenaufwendig. Eine Alternativmöglichkeit ist es, nach demjenigen Pixel mit der Position p im Originalbild zu suchen, welche die obige Gleichung (1 ) für den 3D-Messpunkt mit den Bildkoordinaten p‘ erfüllt.
Hierzu können verschiedene Algorithmen genutzt werden. Zum einen kann man alle optischen Flussvektoren mit Linienalgorithmen so rendern, dass in jedem Pixel die umschließende Box („Bounding Box“) des Vektors angeben wird. Überschneiden sich mehrere Flussvektoren in einem Pixel, so wird die Bounding Box entsprechend so vergrößert, dass beide Vektoren in der Box enthalten sind. Der anschließende
Suchalgorithmus muss nun nur die Bounding Box berücksichtigen, in der der gesuchte Pixel enthalten sein muss.
Eine weitere Möglichkeit besteht in der Implementierung von Suchbäumen, z. B. von Quadtrees (Quaternärbäume), ähnlich wie zur Kollisionserkennung.
Der 3D-Messpunkt hat meist eine Winkelunsicherheit, z. B. durch Strahlaufweitung. Daher werden vorzugsweise alle Pixel im Umkreis der Unsicherheit berücksichtigt, um den 3D- Messpunkt um Attribute aus dem Bild zu erweitern. Bei den Attributen kann es sich beispielsweise um den gemittelten optischen Fluss o ( ox , oy) oder die Position im Bildraum p (px, py ) handeln.
Aufgrund jüngster Fortschritte im Bereich der Bildverarbeitung mittels„[Deep] Convolutional Neuronal Networks (CNN)“ ([tiefe] gefaltete neuronale Netze) ist mit entsprechender Rechenleistung eine pixelgenaue Segmentierung von Bildern möglich. Wird zumindest eines der Kamerabilder durch ein solches neuronales Netz segmentiert, so können die 3D- Messpunkte zusätzlich um die aus der Segmentierung resultierenden Klasse sowie den zugehörigen Identifikator erweitert werden.
Die resultierenden Punkte aus dem virtuellen Sensor lassen sich zu Objekthypothesen mit hoher Qualität clustern, da sie umfangreiche Informationen enthalten, um Klassen zu separieren. Insbesondere sind dies die Klasseninformation und der Identifikator aus der Segmentierung sowie der kartesische Geschwindigkeitsvektor, der z. B. bei überlappenden Objekten der gleichen Klasse von Nutzen ist.
Die erweiterten 3D-Messpunkte oder Cluster aus dem virtuellen Sensor bzw. die Cluster werden anschließend einer akkumulierenden Sensordatenfusion übergeben, welche eine Filterung über Zeit ermöglicht. Bei einigen aktuellen neuronalen Netzen ist es möglich, dass diese sogenannte Instanzen bilden. Als Beispiel sein eine Parkreihe mit stehenden
Fahrzeugen gegeben, die von der Kamera schräg erfasst werden. Neuere Verfahren können dann trotz Überlappung im Bild die unterschiedlichen Fahrzeuge trennen. Wenn das neuronale Netz Instanzen bildet, kann man diese natürlich als Clusterinformation in der akkumulierenden Sensordatenfusion nutzen.
Sofern durch eine Segmentierung der Kamerabilder Informationen zu Bildsegmenten vorliegen, kann gegebenenfalls auf die vollständige Berechnung des optischen Flusses verzichtet werden. Stattdessen können durch geeignete Algorithmen auch die
Veränderungen der einzelnen Bildsegmente über die Zeit bestimmt werden, was sich besonders effizient umsetzen lässt.
Aus dem optischen Fluss o im Bildraum lässt sich eine Zeit bis zur Kollision bestimmen. Diese beschreibt, wann ein Punkt die Hauptebene der Kameraoptik durchstößt.
Mit dem Abstand b = p1 - p2 zweier zusammengehöriger Punkte p1 ; p2 im Bild zu zwei Zeitpunkten t , t2 bzw. mit dem Abstand zu einem Zeitpunkt und den zugehörigen optischen Flüssen o , o2 kann die TTC berechnet werden:
Figure imgf000015_0001
Im Folgenden wird für die mathematische Darstellung ein Lochkameramodell genutzt. Aus der Bildposition px, py (in Pixel), der TTC (in s), dem optischen Fluss o (in Pixel/s) und der Abstandsmessung d in Richtung Bildebene des Kamerasensors (in m) lässt sich ein kartesischer Geschwindigkeitsvektor v (in m/s) für die 3D-Messung bestimmen, welcher relativ zur Egobewegung im Kamerakoordinatensystem ist. Zu beachten ist, dass optischer Fluss o und Pixelposition p im Bildraum angegeben ist, während die Geschwindigkeiten vxy z im Kamerakoordinatensystem bestimmt werden.
Zusätzlich zu den Messattributen wird eine Kamerakonstante K benötigt, die die Bildweite b (in m) und die Auflösung D (Pixel pro m) des abbildenden Systems berücksichtigt. Die Geschwindigkeiten ergeben sich dann wie folgt d
Vx = (4)
TTC
Figure imgf000016_0001
Sollte der 3D-Messpunkt aus einem Radarsensor stammen, so kann zusätzlich die radiale Relativgeschwindigkeit (Dopplergeschwindigkeit) genutzt werden, um die Messung zu stabilisieren: Mittels dieser Relativgeschwindigkeit und Abstandsmessung kann durch Quotientenbildung eine alternative TTC bestimmt werden. Dies ist insbesondere bei Features nahe dem Expansionspunkt der Kamera nützlich, da dort nur ein geringer optischer Fluss herrscht. Dieses betrifft also Objekte im Fahrschlauch. Der Fahrschlauch wird jedoch meist durch besonders viele Sensoren abgedeckt, sodass die Information in der Regel verfügbar ist.
Fig. 8 zeigt schematisch das Konzept eines virtuellen Sensors mit Klassifikator. Das Konzept entspricht weitgehend dem aus Fig. 7 bekannten Konzept. Zurzeit werden zur
Bildklassifikation oftmals gefaltete neuronale Netze verwendet. Diese benötigen nach Möglichkeit lokal assoziierbare Daten, welche in einem Bild natürlicherweise vorliegen.
Nachbarpixel gehören häufig zum gleichen Objekt und beschreiben die Nachbarschaft im polaren Bildraum.
Vorzugsweise verlassen sich die neuronalen Netze allerdings nicht nur auf Bilddaten, welche bei schlechten Lichtverhältnissen kaum Daten liefern und auch Abstandsschätzungen generell schwer machen. In weiteren Dimensionen werden deshalb Messdaten anderer Sensoren, insbesondere aus Laser- und Radarmessungen, in den Zustandsraum projiziert. Für eine gute Performance ist es dabei sinnvoll, die Messdaten mittels des optischen Flusses zu synchronisieren, damit die neuronalen Netze die Datenlokalität gut ausnutzen können.
Die Synchronisation kann dabei auf folgende Weise vorgenommen werden. Ausgangspunkt ist ein Kamerabild, welches vom Aufnahmezeitpunkt möglichst nahe an allen Sensordaten liegt. Neben den Pixelinformationen werden nun weitere Daten annotiert: Dazu gehört im ersten Schritt die Verschiebung im Bild, beispielsweise mit Hilfe des optischen Flusses. Mittels des weiter oben bereits beschriebenen Prädiktionsschrittes werden wiederum die Pixel identifiziert, welche gemäß der Pixelverschiebung mit den verfügbaren 3D-Messdaten, beispielsweise aus Laser- oder Radarmessungen, assoziieren. Da es bei den Messungen Strahlaufweitungen gibt, sind hier meist mehrere Pixel betroffen. Die assoziierten Pixel werden um weitere Dimensionen erweitert und die Messattribute entsprechend eingetragen. Mögliche Attribute sind beispielsweise: neben der Abstandsmessung aus Laser, Radar oder Ultraschall, die Dopplergeschwindigkeit vom Radar, die Reflektivität bzw. der
Radarquerschnitt oder auch Konfidenz.
Das synchronisierte und um Messattribute erweiterte Kamerabild wird nun mit einem
Klassifikator bzw. Segmentierer 42, bevorzugt mit einem gefalteten neuronalen Netz, klassifiziert. Hierbei können nun alle Informationen so generiert werden, wie dies weiter oben in Verbindung mit Fig. 7 beschrieben wurde.
Nachfolgend soll detailliert der mathematische Hintergrund erläutert werden, der für die Synchronisation der Kamerabilder und der 3D-Messpunkte erforderlich ist. Angenommen wird dabei eine Kamera, die als Lochkamera modelliert werden kann. Diese Annahme dient lediglich dazu, die Transformationen leichter handhabbar zu machen. Lässt sich die verwendete Kamera nicht angemessen als Lochkamera modellieren, können stattdessen Verzerrungsmodelle genutzt werden, um Ansichten zu generieren, die dem
Lochkameramodell genügen. In diesen Fällen müssen in den folgenden Gleichungen die Parameter des virtuellen Lochkameramodells verwendet werden.
Zunächst müssen Koordinatensysteme und die Transformationen zwischen den
Koordinatensystemen definiert werden. Insgesamt werden fünf Koordinatensysteme definiert:
- Cw ist das 3D-Weltkoordinatensystem
- Cv ist das 3D-Koordinatensystem des Ego-Fahrzeugs
- Cc ist das 3D-Koordinatensystem der Kamera
- Cs ist das 3D-Koordinatensystem des 3D-Sensors
- ist das 2D-Bildkoordinatensystem
Die Koordinatensysteme von Kamera, 3D-Sensor, Bild und Ego-Fahrzeug sind eng miteinander verknüpft. Da sich das Ego-Fahrzeug relativ zum Weltkoordinatensystem bewegt, werden die folgenden vier Transformationen zwischen den Koordinatensystemen definiert: - Tv<-w(t) ist die Transformation, die einen 3D-Punkt im Weltkoordinatensystem in das 3D- Koordinatensystem des Ego-Fahrzeugs transformiert. Diese Transformation hängt von der Zeit t ab, da sich das Ego-Fahrzeug über die Zeit bewegt.
Ts<-v ist die Transformation, die einen 3D-Punkt im 3D-Koordinatensystem des Ego- Fahrzeugs in das 3D-Koordinatensystem des 3D-Sensors transformiert.
Tc<-v ist die Transformation, die einen 3D-Punkt im 3D-Koordinatensystem des Ego- Fahrzeugs in das 3D-Koordinatensystem der Kamera transformiert.
- Pi^c ist die Transformation, die einen 3D-Punkt im 3D-Koordinatensystem der Kamera in das 2D-Bildkoordinatensystem projiziert.
Ein sich im Weltkoordinatensystem bewegender Weltpunkt, z.B. ein Punkt auf einem
Fahrzeug, kann beschrieben werden durch xw(t).
Dieser Punkt wird durch die Kamera zu einem Zeitpunkt t0 und durch den 3D-Sensor zu einem Zeitpunkt t erfasst. In homogenen Koordinaten beobachtet die Kamera den zugehörigen Bildpunkt Xj(t0):
xi(fo)— ^«-c ' Tc<_v · Tvi-wC^o) ' xw(fo) (6)
Der 3D-Sensor beobachtet den zugehörigen Punkt xs: xs(fi) = T8<_n · TVi-wCti) · xw(fi) (7)
Die Gleichungen (6) und (7) sind miteinander durch die Bewegung des Ego-Fahrzeugs und die Bewegung des Weltpunktes verknüpft. Während Informationen zur Bewegung des Ego- Fahrzeugs vorliegen, ist die Bewegung des Weltpunktes unbekannt.
Es ist daher erforderlich, Informationen zur Bewegung des Weltpunktes zu ermitteln.
Gegeben sei eine zweite Messung der Kamera zu einem Zeitpunkt t2
xi (^2 )— ^<-C Tc<-V · Tvi-wfe) xw(f2) (8)
Man kann nun die Gleichungen (6) und (8) miteinander kombinieren: Axj (t0, t2) = Xi(t2) - Xi(t0)
= Pl«-C Tc<-V · Ty^wfe) xw(f2)
(9)
Figure imgf000019_0001
Im Koordinatensystem des Ego-Fahrzeugs ist der beobachtete Punkt xv(t) gegeben durch: cn(£)— Tv<-w(t) · xw(t) (10)
Wendet man dies auf Gleichung (10) an, so erhält man:
Figure imgf000019_0002
= Pi«-c ' Tc -v ' Dc n0< t2)
Gleichung (1 1 ) stellt eine Beziehung zwischen dem optischen Flussvektor und dem
Bewegungsvektor des Weltpunktes her. Axj(t0, t2) ist nichts anderes als der optische
Flussvektor zwischen den zu den Zeitpunkten t0 und t2 aufgenommenen Kamerabildern und Axv(t0, t2) ist der korrespondierende Bewegungsvektor des Weltpunktes ausgedrückt in Cv. Der optische Flussvektor ist somit die Projektion des Bewegungsvektors im 3D-Raum.
Die Messungen der Kamera und des 3D-Sensors können nicht direkt miteinander kombiniert werden. Es muss zunächst als zusätzliche Annahme eingeführt werden, dass die Bewegung in der Bildebene zwischen den Zeitpunkten t0 und t2 linear ist. Unter dieser Annahme ist der zu einem Weltpunkt gehörige Bildpunkt bestimmt durch:
Figure imgf000019_0003
Aus Gleichung (1 1 ) ist klar, dass sowohl die Bewegung des Weltpunktes als auch die Bewegung des Ego-Fahrzeugs linear sein müssen.
Die Transformation aus Gleichung (7) in Bezug auf den 3D-Sensor kann genutzt werden, um einen in Cs zum Zeitpunkt t gemessenen 3D-Messpunkt im Koordinatensystem Cc der Kamera zu bestimmen: xs (fi)— Ts<-v · TV -wCti) · xw(fi)
Figure imgf000020_0001
Zudem kann man mittels Gleichung (6) die Pixelkoordinaten des Weltpunktes bestimmen, die dieser in einem zum Zeitpunkt t aufgenommenen virtuellen Kamerabild hätte:
Figure imgf000020_0002
Wendet man Gleichung (13) auf Gleichung (14) an, so erhält man:
Figure imgf000020_0003
Andererseits kann man ci(^) aus Gleichung (12) bestimmen:
Figure imgf000020_0004
Gleichung (16) stellt eine Beziehung zwischen den Messungen der Kamera und den
Messungen des 3D-Sensors her. Wenn der Weltpunkt in Weltkoordinaten wohldefiniert ist, die Zeitpunkte t0 , t und t2 sowie die Bildkoordinaten in zwei Kamerabildern und die
Messung des 3D-Sensors bekannt sind, so stellt Gleichung (16) eine vollständige Beziehung her, d.h. es gibt keine unbekannten Größen.
Dieser Umstand kann selbst dann genutzt werden, wenn die korrekte Übereinstimmung zwischen Messungen des 3D-Sensors und der Kamera nicht bekannt ist. Liegt eine Messung des 3D-Sensors zum Zeitpunkt t vor, so kann sie in ein virtuelles Kamerabild transformiert werden, d.h. das Kamerabild, das die Kamera zum Zeitpunkt ^erfassen würde. Die virtuellen Pixelkoordinaten dazu sind Xj(ti). Mittels des optischen Flussvektors Vj(t0, t2) kann man nun nach dem Pixel Xj(t0) suchen, für den Vj(t0, t2) ·—— + Xj (t0) gleich oder zumindest sehr
Figure imgf000020_0005
nahe ci(^) ist. Bezugszeichenliste
Assoziieren einer Messung mit einem Track
Überprüfen der Assoziation auf Erfolg
Aktualisieren des entsprechenden Tracks
Initialisieren eines neuen Tracks
Überprüfen eines Tracks auf Zeitpunkt der letzten Aktualisierung Löschen eines Tracks
Prädizieren der T racks auf den nächsten Messzeitpunkt
Transformieren der Trackzustände in den Messraum
Erfassen von Kamerabildern
Erfassen von 3D-Messpunkten
Segmentieren zumindest eines Kamerabildes
Fusionieren der Kamerabilder mit den 3D-Messpunkten
Ausgeben von Daten eines virtuellen Sensors
Berechnen eines optischen Flusses
Bestimmen einer Zeit bis zur Kollision
Bestimmen von Pixeln, die einem der 3D-Messpunkte zugeordnet sind Vorrichtung
Eingang
Segmentierer
Datenfusionseinheit
Objekttracker
Kontrolleinheit
Speicher
Ausgang
Benutzerschnittstelle
Vorrichtung
Speicher
Prozessor
Eingang
Ausgang
Kraftfahrzeug
Kamera
Radarsensor
Ultraschallsensor 64 Lidar-System
65 Datenübertragungseinheit
66 Assistenzsystem
67 Speicher
68 Netzwerk
A Objektliste
E Sensordaten
FL Optischer Fluss
11 , I2 Kamerabild
MP Messpunkt
TTC Zeit bis zur Kollision
VS Daten eines virtuellen Sensors

Claims

Patentansprüche
1. Verfahren zur Verarbeitung von Sensordaten, mit den Schritten:
- Erfassen (20) von Kamerabildern (11 , I2) durch eine Kamera (61 );
- Erfassen (21 ) von 3D-Messpunkten (MP) durch zumindest einen 3D-Sensor (62, 64); und
- Fusionieren (23) der Kamerabilder (11 , I2) mit den 3D-Messpunkten (MP) zu Daten (VS) eines virtuellen Sensors.
2. Verfahren gemäß Anspruch 1 , wobei das Fusionieren der Bilddaten mit den 3D- Messpunkten zu Daten eines virtuellen Sensors umfasst:
- Berechnen (30) eines optischen Flusses (FL) aus zumindest einem ersten
Kamerabild (11 ) und einem zweiten Kamerabild (I2); und
- Bestimmen (32) von Pixeln in zumindest einem der Kamerabilder (11 , I2), die einem der 3D-Messpunkte (MP) zu einem Zeitpunkt der Messung zuzuordnen sind, auf Basis des optischen Flusses (FL).
3. Verfahren gemäß Anspruch 2, wobei das Bestimmen (32) von Pixeln in zumindest einem der Kamerabilder (11 , I2), die einem der 3D-Messpunkte (MP) zu einem
Zeitpunkt der Messung zuzuordnen sind, umfasst:
- Umrechnen eines Kamerabildes (11 , I2) in der zeitlichen Nähe eines Messzeitpunktes des 3D-Sensors (62, 64) auf Basis des optischen Flusses (FL); und
- Projizieren der 3D-Messpunkte (MP) in das umgerechnete Kamerabild.
4. Verfahren gemäß Anspruch 2, wobei das Bestimmen (32) von Pixeln in zumindest einem der Kamerabilder (11 , I2), die einem der 3D-Messpunkte (MP) zu einem
Zeitpunkt der Messung zuzuordnen sind, umfasst:
- Bestimmen derjenigen Pixel im Kamerabild (11 , I2), die zum Zeitpunkt der Messung den 3D-Messpunkten (MP) zuzuordnen sind, auf Basis des optischen Flusses (FL) und eines Suchverfahrens; und
- Projizieren der 3D-Messpunkte (MP) an die so bestimmten Stellen im Kamerabild (11 , I2).
5. Verfahren gemäß einem der Ansprüche 2 bis 4, wobei aus dem optischen Fluss (FL) eine Zeit bis zur Kollision (TTC) für die Pixel der Kamerabilder bestimmt wird (31 ) und aus der Zeit bis zur Kollision (TTC), dem optischen Fluss (FL) und einer Abstandsmessung für einen 3D-Messpunkt (MP) ein Geschwindigkeitsvektor für diesen 3D-Messpunkt (MP) berechnet wird.
6. Verfahren gemäß 5, wobei die Zeit bis zur Kollision statt aus dem optischen Fluss aus einer Messung des 3D-Sensors (62, 64) bestimmt wird (31 ).
7. Verfahren gemäß einem der vorherigen Ansprüche, wobei die 3D-Messpunkte um Attribute aus zumindest einem der Kamerabilder (11 , I2) erweitert werden.
8. Verfahren gemäß einem der vorherigen Ansprüche, wobei zumindest ein Kamerabild (11 , I2) nahe eines Messzeitpunktes des 3D-Sensors (62, 64) segmentiert wird.
9. Verfahren gemäß Anspruch 8, wobei die Segmentierung neben Bildinformationen auch Messungen des 3D-Sensors (62, 64) berücksichtigt.
10. Verfahren gemäß einem der vorherigen Ansprüche, wobei ein Algorithmus zur
Objektverfolgung auf die Daten (VS) des virtuellen Sensors angewandt wird.
1 1. Verfahren gemäß Anspruch 10, wobei der Algorithmus zur Objektverfolgung eine
akkumulierende Sensordatenfusion vornimmt.
12. Computerlesbares Speichermedium mit Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der Schritte eines Verfahrens gemäß einem der Ansprüche 1 bis 11 zur Verarbeitung von Sensordaten veranlassen.
13. Vorrichtung (20) zur Verarbeitung von Sensordaten, mit:
- einem Eingang (41 ) zum Empfangen von Kamerabildern (11 , I2) einer Kamera (61 ) und von 3D-Messpunkten (MP) eines 3D-Sensors (62, 64); und
- einer Datenfusionseinheit (43) zum Fusionieren (23) der Kamerabilder (11 , I2) mit den 3D-Messpunkten (MP) zu Daten (VS) eines virtuellen Sensors.
14. Kraftfahrzeug (60), dadurch gekennzeichnet, dass das Kraftfahrzeug (60) eine
Vorrichtung (40) gemäß Anspruch 13 aufweist oder eingerichtet ist, ein Verfahren gemäß einem der Ansprüche 1 bis 11 zur Verarbeitung von Sensordaten auszuführen.
PCT/EP2019/057701 2018-04-18 2019-03-27 Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten WO2019201565A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/048,701 US11935250B2 (en) 2018-04-18 2019-03-27 Method, device and computer-readable storage medium with instructions for processing sensor data
CN201980026426.5A CN111937036A (zh) 2018-04-18 2019-03-27 用于处理传感器数据的方法、设备和具有指令的计算机可读存储介质
EP19715031.1A EP3782117A1 (de) 2018-04-18 2019-03-27 Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102018205879.2 2018-04-18
DE102018205879.2A DE102018205879A1 (de) 2018-04-18 2018-04-18 Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten

Publications (1)

Publication Number Publication Date
WO2019201565A1 true WO2019201565A1 (de) 2019-10-24

Family

ID=66001192

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2019/057701 WO2019201565A1 (de) 2018-04-18 2019-03-27 Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten

Country Status (5)

Country Link
US (1) US11935250B2 (de)
EP (1) EP3782117A1 (de)
CN (1) CN111937036A (de)
DE (1) DE102018205879A1 (de)
WO (1) WO2019201565A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023146697A1 (en) * 2022-01-31 2023-08-03 Qualcomm Incorporated Sensor based object detection

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018205879A1 (de) 2018-04-18 2019-10-24 Volkswagen Aktiengesellschaft Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten
US11899099B2 (en) * 2018-11-30 2024-02-13 Qualcomm Incorporated Early fusion of camera and radar frames
DE102019134985B4 (de) * 2019-12-18 2022-06-09 S.M.S, Smart Microwave Sensors Gmbh Verfahren zum Erfassen wenigstens eines Verkehrsteilnehmers
DE102020005343A1 (de) 2020-08-31 2022-03-03 Daimler Ag Verfahren zur Objektverfolgung von mindestens einem Objekt, Steuereinrichtung zur Durchführung eines solchen Verfahrens, Objektverfolgungsvorrichtung mit einer solchen Steuereinrichtung und Kraftfahrzeug mit einer solchen Objektverfolgungsvorrichtung
US20220153262A1 (en) * 2020-11-19 2022-05-19 Nvidia Corporation Object detection and collision avoidance using a neural network
CN115431968B (zh) * 2022-11-07 2023-01-13 北京集度科技有限公司 车辆控制器、车辆及车辆控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011013776A1 (de) 2011-03-12 2011-11-10 Daimler Ag Verfahren zur Erfassung und/oder Verfolgung von Objekten
DE102011119767A1 (de) 2010-12-02 2012-06-14 GM Global Technology Operations LLC Erscheinungsbild-gestützte vereinigung von kamera- undentfernungssensordaten für mehrere objekte
DE102017100199A1 (de) 2016-01-15 2017-09-07 Ford Global Technologies, Llc FUßGÄNGERERKENNUNG MIT AUFFÄLLIGKEITSKARTEN

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101188588B1 (ko) * 2008-03-27 2012-10-08 주식회사 만도 모노큘러 모션 스테레오 기반의 주차 공간 검출 장치 및방법
US9255989B2 (en) 2012-07-24 2016-02-09 Toyota Motor Engineering & Manufacturing North America, Inc. Tracking on-road vehicles with sensors of different modalities
DE102012023030A1 (de) 2012-11-26 2014-05-28 Audi Ag Verfahren zur Ermittlung der Bewegung eines Kraftfahrzeugs
DE102014211166A1 (de) * 2013-11-20 2015-05-21 Continental Teves Ag & Co. Ohg Verfahren, Fusionsfilter und System zur Fusion von Sensorsignalen mit unterschiedlichen zeitlichen Signalausgabeverzügen zu einem Fusionsdatensatz
CN110171405B (zh) * 2014-05-22 2021-07-13 御眼视觉技术有限公司 基于检测对象制动车辆的系统和方法
DE102015012809A1 (de) * 2015-10-02 2017-04-06 Audi Ag Bildaufnahmeeinrichtung für ein Kraftfahrzeug und Verfahren zum Betreiben einer derartigen Bildaufnahmeeinrichtung
US10482331B2 (en) 2015-11-20 2019-11-19 GM Global Technology Operations LLC Stixel estimation methods and systems
US10328934B2 (en) * 2017-03-20 2019-06-25 GM Global Technology Operations LLC Temporal data associations for operating autonomous vehicles
US10444759B2 (en) * 2017-06-14 2019-10-15 Zoox, Inc. Voxel based ground plane estimation and object segmentation
US10535138B2 (en) * 2017-11-21 2020-01-14 Zoox, Inc. Sensor data segmentation
US10768304B2 (en) * 2017-12-13 2020-09-08 Luminar Technologies, Inc. Processing point clouds of vehicle sensors having variable scan line distributions using interpolation functions
US20190235521A1 (en) * 2018-02-01 2019-08-01 GM Global Technology Operations LLC System and method for end-to-end autonomous vehicle validation
US11435752B2 (en) * 2018-03-23 2022-09-06 Motional Ad Llc Data fusion system for a vehicle equipped with unsynchronized perception sensors
DE102018205879A1 (de) 2018-04-18 2019-10-24 Volkswagen Aktiengesellschaft Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten
DE102019201565A1 (de) 2019-02-07 2020-08-13 Aktiebolaget Skf Lagerkäfigsegment mit einer Stoßkante im Bereich eines zu bildenden Stegs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011119767A1 (de) 2010-12-02 2012-06-14 GM Global Technology Operations LLC Erscheinungsbild-gestützte vereinigung von kamera- undentfernungssensordaten für mehrere objekte
DE102011013776A1 (de) 2011-03-12 2011-11-10 Daimler Ag Verfahren zur Erfassung und/oder Verfolgung von Objekten
DE102017100199A1 (de) 2016-01-15 2017-09-07 Ford Global Technologies, Llc FUßGÄNGERERKENNUNG MIT AUFFÄLLIGKEITSKARTEN

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FERNANDO GARCIA ET AL: "Data fusion for overtaking vehicle detection based on radar and optical flow", INTELLIGENT VEHICLES SYMPOSIUM (IV), 2012 IEEE, IEEE, 3 June 2012 (2012-06-03), pages 494 - 499, XP032452990, ISBN: 978-1-4673-2119-8, DOI: 10.1109/IVS.2012.6232199 *
GRUYER DOMINIQUE ET AL: "Vehicle detection and tracking by collaborative fusion between laser scanner and camera", 2013 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS, IEEE, 3 November 2013 (2013-11-03), pages 5207 - 5214, XP032537762, ISSN: 2153-0858, [retrieved on 20131227], DOI: 10.1109/IROS.2013.6697109 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023146697A1 (en) * 2022-01-31 2023-08-03 Qualcomm Incorporated Sensor based object detection

Also Published As

Publication number Publication date
US20210158544A1 (en) 2021-05-27
CN111937036A (zh) 2020-11-13
EP3782117A1 (de) 2021-02-24
DE102018205879A1 (de) 2019-10-24
US11935250B2 (en) 2024-03-19

Similar Documents

Publication Publication Date Title
EP3782117A1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten
EP1589484B1 (de) Verfahren zur Erkennung und/oder Verfolgung von Objekten
EP1531343B1 (de) Verfahren zur Verfolgung von Objekten
EP1298454A2 (de) Verfahren zur Erkennung und Verfolgung von Objekten
DE102016114535A1 (de) Wegbestimmung für automatisierte Fahrzeuge
DE112014003818T5 (de) Objektschätzvorrichtung und Objektschätzverfahren
DE102016225595A1 (de) Verfahren und Anordnung zur Kalibrierung mindestens eines Sensors eines Schienenfahrzeugs
EP3980968A1 (de) Detektion, 3d-rekonstruktion und nachverfolgung von mehreren relativ zueinander bewegten starren objekten
WO2020094170A1 (de) Verfahren und verarbeitungseinheit zur ermittlung von information in bezug auf ein objekt in einem umfeld eines fahrzeugs
EP1460454B1 (de) Verfahren zur gemeinsamen Verarbeitung von tiefenaufgelösten Bildern und Videobildern
EP2200881A1 (de) Verfahren zur schätzung der relativbewegung von video-objekten und fahrerassistenzsystem für kraftfahrzeuge
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
DE102006039104A1 (de) Verfahren zur Entfernungsmessung von Objekten auf von Bilddaten eines Monokamerasystems
DE102014113372B4 (de) Filtervorrichtung
WO2022247994A1 (de) System zur sensordatenfusion für die umgebungswahrnehmung
EP1298012B1 (de) Verfahren zur Erkennung und Verfolgung von Objekten
DE102017212513A1 (de) Verfahren und System zum Detektieren eines freien Bereiches innerhalb eines Parkplatzes
EP2579228A1 (de) Verfahren und System zur Erstellung einer digitalen Abbildung eines Fahrzeugumfeldes
WO2021170321A1 (de) Verfahren zum detektieren bewegter objekte in einer fahrzeugumgebung und kraftfahrzeug
DE102021101336A1 (de) Verfahren zur Auswertung von Sensordaten eines Abstandssensors, Ermittlungseinrichtung, Computerprogramm und elektronisch lesbarer Datenträger
DE102011111856B4 (de) Verfahren und Vorrichtung zur Detektion mindestens einer Fahrspur in einem Fahrzeugumfeld
DE102020200875A1 (de) Verfahren zum Bereitstellen von Sensordaten durch eine Sensorik eines Fahrzeugs
DE10148063A1 (de) Verfahren zur Erkennung und Verfolgung von Objekten
DE102020210816A1 (de) Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem
DE102022204546A1 (de) Verfahren für eine Verarbeitung von Sensordaten für ein Fahrassistenzsystem eines Fahrzeuges

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19715031

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019715031

Country of ref document: EP

Effective date: 20201118