WO2022228809A1 - Verfahren und vorrichtung zur vorhersage von objektdaten zu einem objekt - Google Patents

Verfahren und vorrichtung zur vorhersage von objektdaten zu einem objekt Download PDF

Info

Publication number
WO2022228809A1
WO2022228809A1 PCT/EP2022/058363 EP2022058363W WO2022228809A1 WO 2022228809 A1 WO2022228809 A1 WO 2022228809A1 EP 2022058363 W EP2022058363 W EP 2022058363W WO 2022228809 A1 WO2022228809 A1 WO 2022228809A1
Authority
WO
WIPO (PCT)
Prior art keywords
camera
image
time
feature tensor
basis
Prior art date
Application number
PCT/EP2022/058363
Other languages
English (en)
French (fr)
Inventor
Alvaro Marcos-Ramiro
Mohammad-Ali Nikouei Mahani
Alexander Lehner
Johannes Niedermayer
Barbara Hilsenbeck
Michael Schmidt
Original Assignee
Bayerische Motoren Werke Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke Aktiengesellschaft filed Critical Bayerische Motoren Werke Aktiengesellschaft
Priority to CN202280031643.5A priority Critical patent/CN117280390A/zh
Priority to US18/288,631 priority patent/US20240212206A1/en
Publication of WO2022228809A1 publication Critical patent/WO2022228809A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/262Analysis of motion using transform domain methods, e.g. Fourier domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior

Definitions

  • the invention relates to a method and a corresponding device that enable a vehicle, for example, to use image data from one or more cameras to determine a prediction of object data in relation to one or more objects in the vicinity of the one or more cameras.
  • a vehicle typically includes a number of different surroundings sensors that are set up to record different sensor data relating to the surroundings of the vehicle.
  • environment sensors are lidar sensors, image sensors or image cameras, radar sensors,
  • Ultrasonic sensors etc.
  • one or more environmental objects e.g. one or more other vehicles
  • one or more environmental objects in the area surrounding the vehicle can be detected and, if necessary, tracked.
  • the present document deals with the technical task of enabling a particularly reliable and/or precise tracking of one or more objects on the basis of image data from one or more image cameras.
  • the object is solved by each of the independent claims.
  • Advantageous embodiments are described, inter alia, in the dependent claims. It is pointed out that additional features of a patent claim dependent on an independent patent claim without the features of the independent patent claim or only in combination with a subset of the features of the independent patent claim can form a separate invention independent of the combination of all features of the independent patent claim, which can be made the subject of an independent claim, a divisional application or a subsequent application. This applies equally to the technical teachings described in the description, which can form an invention independent of the features of the independent patent claims.
  • a device for determining object data in relation to (at least) one object in the Elmfeld region from at least one video camera is described.
  • Exemplary objects are obstacles and/or other road users in an Elmfeld of a vehicle.
  • the image camera can be designed to capture images, in particular a temporal sequence of images, in relation to the Elmfeld in front of the image camera.
  • the individual images can be arranged in a (two-dimensional, 2D) image plane.
  • the individual images can have pixels, for example a matrix of pixels, in a specific image plane.
  • the image camera can be installed in a vehicle (e.g. as a front camera of the vehicle).
  • vehicle e.g. as a front camera of the vehicle.
  • the vehicle can be designed to move on a roadway.
  • the image plane of the image camera can (possibly essentially or at least partially) be arranged perpendicularly to the roadway.
  • the device is set up, on the basis of at least one image from the video camera, for a first point in time using a neural encoder network (eg using a convolutional neural network that has been trained in advance).
  • Determine camera-based feature tensor may include one or more features within the imaging plane of the image camera.
  • a feature tensor described in this document can have two or more dimensions.
  • a feature tensor can be or comprise a feature matrix.
  • a feature tensor can have multiple levels of feature matrices. In such a case, the feature tensor can be three-dimensional. Each level can have a different type of feature.
  • the device is also set up to transform and/or project the camera-based feature tensor from the image plane of the image onto a raster level of a surrounding raster surrounding the image camera in order to determine a transformed feature tensor (with one or more features in the raster plane).
  • the grid plane can be arranged parallel to the roadway.
  • the raster plane may correspond to a bird's eye view (BEV) of the environment.
  • the camera-based feature tensor can be transformed and/or projected from the image plane of the image onto the raster plane of the surrounding raster of the surrounding area of the image camera by means of a transformation that is invariant over time and/or that is defined in advance.
  • the device is set up to determine object data relating to the object in the area surrounding the video camera on the basis of the transformed feature tensor using a neural evaluation network.
  • the object data can include one or more predicted properties of the object at a point in time subsequent to the first point in time.
  • the first point in time can be a point in time n, for example, and the following point in time can be a point in time n+1.
  • the device can be set up to determine the object data repeatedly, in particular periodically, for a sequence of times n, n+1, n+2, etc.
  • the one or more predicted properties of the object can include the position and/or the orientation of the object, in particular the position and/or the orientation within the environment grid, at the subsequent point in time.
  • the one or more predicted properties of the object can include one or more cells of the environment grid, which are occupied by the object at the subsequent point in time (in order to thereby describe the position and/or the orientation of the object).
  • the one or more predicted properties of the object can include an occupancy probability and/or an evidence level of the object at the subsequent point in time for one or more cells of the surrounding grid.
  • a device which, by using a neural encoder network, a (fixed) transformation and a neural evaluation network, enables (three-dimensional, 3D) object data to be recorded in a precise and robust manner on the basis of images from an image camera Predict reference to one or more objects at the birds-eye level.
  • the 3D position and/or the 3D orientation of an object can be predicted at a subsequent point in time n+1 within the birds-eye view plane (and not (only) in the image plane).
  • the prediction can possibly be made solely on the basis of the images from one or more cameras.
  • the predicted object data in particular the predicted positions and/or orientations
  • the neural encoder network and the neural evaluation network were typically trained in advance using labeled training data, with the training data comprising a large number of training data sets.
  • the individual training data sets can each have a training image from the camera with one or more training objects (shown therein) for a training time and object data with one or more actual properties of the one or more training objects for the respective training -point in time following point in time.
  • the individual parameters of the networks can be learned using a learning method and an error function based on the training data.
  • the device can be used to determine one or more predicted properties of the one or more training objects for a training data set, which are then compared with the one or more actual properties from the training data set in order to determine the error function .
  • the error function can then be used to adapt the individual parameters of the neural networks of the device in order to gradually increase the quality of the device when determining the object data.
  • the device can be set up to combine, in particular to superimpose or line up, a plurality of images from the video camera that follow one another in time to form an overall image for the first point in time.
  • the plurality of chronologically consecutive images can have been captured by the video camera before or at the latest at the first point in time.
  • a temporal sequence of images from the image camera can thus be viewed and combined.
  • the camera-based feature tensor can then be determined based on the overall image using the neural encoder network.
  • the one or more predicted properties of a (in an image shown) object can be determined with increased accuracy (especially with regard to depth information perpendicular to the image plane of the camera).
  • the device can be set up to determine a corresponding plurality of camera-based feature tensors for a plurality of temporally consecutive images of the video camera by means of the neural encoder network.
  • the plurality of images that follow one another in time can cover a detection time period that extends in time before and/or up to the first point in time.
  • the individual images of a temporal sequence of images can thus be analyzed individually in order to determine a camera-based feature tensor with features in the image plane of the image camera.
  • the device can also be set up to determine a corresponding plurality of transformed feature tensors on the basis of the plurality of camera-based feature tensors.
  • the transformation mentioned above can be used for this.
  • the device can be set up to determine odometry data in relation to a movement of the video camera during the acquisition period.
  • the image camera can be installed in a vehicle. The movement of the imaging camera can then correspond to the movement of the vehicle and odometry data relating to the movement of the vehicle can be determined, e.g. on the basis of a wheel sensor, an inertial measurement unit, a speed sensor, an acceleration sensor, etc.
  • the plurality of transformed feature tensors can then be combined, in particular fused, taking into account the odometry data, in order to determine a combined, transformed feature tensor.
  • Corresponding characteristics can be transformed in the individual Feature tensors are identified (and fused) based on the odometry data.
  • the object data relating to the object in the area surrounding the image camera can then be determined in a particularly precise manner on the basis of the combined, transformed feature tensor using the neural evaluation network.
  • the device can be set up to determine one or more updated properties of the object at the subsequent point in time that correspond to the one or more predicted properties on the basis of at least one image from the video camera for the subsequent point in time.
  • the object can then be analyzed in a precise and robust manner based on the one or more predicted properties and based on the one or more updated properties, in particular based on a comparison of the one or more updated properties with the corresponding one or more predicted properties at consecutive points in time be tracked.
  • the device can be set up to determine a grid-based feature tensor on the basis of grid-based sensor data from one or more environment sensors (e.g. a lidar sensor and/or a radar sensor) for the first point in time using a further neural encoder network. It is thus possible to use the sensor data from one or more surroundings sensors which are designed to sense information relating to the object directly within the raster plane.
  • environment sensors e.g. a lidar sensor and/or a radar sensor
  • a merged feature tensor can then be determined on the basis of the transformed feature tensor and on the basis of the grid-based feature tensor, in particular by concatenation and/or by addition.
  • the object data relating to the object in the area surrounding the image camera can then be determined in a particularly precise and robust manner on the basis of the merged feature tensor using the neural evaluation network.
  • a (road) motor vehicle in particular a passenger car or a truck or a bus or a motorcycle) is described which comprises the device described in this document.
  • a method for determining object data in relation to an object in the vicinity of at least one video camera includes determining, by means of a neural encoder network, a camera-based feature tensor based on at least one image from the image camera for a first point in time.
  • the method also includes transforming and/or projecting the camera-based feature tensor from an image plane of the image onto a raster plane of a surrounding raster surrounding the image camera in order to determine a transformed feature tensor.
  • the method also includes determining, by means of a neural evaluation network, object data relating to the object in the area surrounding the image camera on the basis of the transformed feature tensor.
  • the object data can include one or more predicted properties of the object at a point in time subsequent to the first point in time.
  • SW software program
  • the SW program can be set up to be executed on a processor (e.g. on a vehicle's control unit) and thereby to carry out the method described in this document.
  • a storage medium can comprise a SW program which is set up to be executed on a processor and thereby to carry out the method described in this document.
  • FIG. 1 shows an exemplary vehicle with one or more surroundings sensors
  • FIG. 2 shows an exemplary environment grid in relation to an environment or surroundings of a vehicle
  • FIG. 3a shows exemplary input data that can be used to identify and/or track an object
  • FIG. 3b shows an exemplary device for detecting and/or tracking an object on the basis of image data
  • FIG. 4 shows an exemplary consideration of a sequence of images when tracking an object
  • FIG. 5 shows a flowchart of an exemplary method for predicting object data in relation to an object on the basis of image data.
  • FIG. 1 shows a vehicle 100 with one or more surroundings sensors 111, 112 for acquiring sensor data.
  • Exemplary environment sensors 111, 112 are one or more lidar sensors, one or more radar sensors, one or more image cameras, etc.
  • the vehicle 100 includes a device (or a processing unit)
  • a detected object 150 in particular object data relating to an object 150, can or can in a Driving function 102 (eg for partially automated or highly automated driving of the vehicle 100) are taken into account.
  • the local environment of a vehicle 100 can be estimated or represented as an occupancy grid map or (occupancy) grid 200 (see FIG. 2).
  • 2 shows an exemplary grid 200 of an environment or surroundings of vehicle 100 with a multiplicity of grid cells or cells 201 for short three-dimensional (3D) cells 201 divide.
  • a two-dimensional cell 201 can have a rectangular shape (for example with an edge length of 10 cm, 5 cm, 2 cm, 1 cm or less).
  • the processing unit 101 of the vehicle 100 can be set up, based on the sensor data for one or more of the cells 201 (in particular for each cell 201), to determine data which indicates whether a cell 201 is occupied at a specific point in time t or not.
  • Evidence that cell 201 is occupied by an object 150 can be viewed as the object probability that cell 201 is occupied by an object 150 (particularly in terms of Dempster-Shafer theory).
  • a grid 200 with a large number of cells 201 can thus be determined on the basis of the sensor data from one or more surroundings sensors 111, with the individual cells 201 being able to display information or data about
  • the grid 200 can be determined in particular on the basis of the sensor data from a lidar sensor and/or a radar sensor 111 .
  • the data of a (environment) grid 200 can also be referred to as Bird's Eye View (BEV) data in relation to the environment, since the grid 200 describes the environment in a plan view from above.
  • BEV Bird's Eye View
  • a vehicle 100 can have different types of surroundings sensors 111, 112.
  • a vehicle 100 can include one or more environment sensors 111 (such as a lidar sensor and/or a radar sensor) with which data for a BEV environment grid 200 can be determined directly (as shown by way of example in FIG. 3a ).
  • a vehicle 100 can include one or more environment sensors 112 (in particular one or more cameras) with which two-dimensional (2D) images 300 of the environment can be captured.
  • the images 300 have a perspective of the environment that deviates from the perspective of the BEV environment grid 200 (as shown in FIG. 3a, right-hand side).
  • Fig. 3b shows an exemplary detection and / or prediction device 310, which is set up to merge the sensor data and / or the information from the different types of environment sensors 111, 112 to with increased accuracy object data 330 in relation to one or to determine a plurality of objects 150, in particular to predict them for a future point in time.
  • the device 310 includes a first neural encoder network 311 which is set up to determine a first (raster-based) feature tensor 313 on the basis of the sensor data 320 from an environment sensor 111 (which is provided within the environment grid 200). Furthermore includes the Device 310 one or more second neural encoder networks 312, each of which is set up to determine a second (camera-based) feature tensor 314 based on the one or more images 300 from one or more cameras 112.
  • the one or more second (camera-based) feature tensors 314 can be projected onto the grid 200 using a transformation 315 to provide one or more corresponding transformed feature tensors 319 .
  • An exemplary transformation 315 is described in Roddick, Thomas, Alex Kendall, and Roberto Cipolla, "Orthographie feature transform for monocular 3d object detection", arXiv preprint arXiv: 1811.08188 (2016) or British Machine Vision Conference (2019). The content of this document is incorporated into this specification by reference.
  • the first (raster-based) feature tensor 313 can then be fused in a fusion unit 316 with the one or more transformed feature tensors 319 e.g. by concatenation and/or by addition to provide a fused feature tensor 317 .
  • the object data 330 for one or more objects 150 can then be determined using an evaluation network 318 on the basis of the merged feature tensor 317 .
  • the neural network values 311, 312, 318 of the device 310 can be trained on the basis of labeled training data and possibly using the backpropagation algorithm.
  • the processing of grid-based environment data 320 is optional.
  • the device 310 can be set up to determine object data 330 in relation to one or more objects 150 solely on the basis of camera-based data 300 .
  • the object data 330 determined by the device 310 can include a prediction or prediction of one or more properties of an object 150 that has already been detected.
  • the one or more properties can be predicted for a subsequent point in time from a sequence of points in time.
  • Device 310 can be set up to repeatedly, in particular periodically, determine current object data 330 in each case on the basis of current input data 300, 320 in each case.
  • object data 330 can be determined for a sequence of times n.
  • the device 310 can be set up to predict one or more properties of an object 150 at a subsequent point in time n+1 on the basis of the input data 300, 320 for a point in time n.
  • the one or more predicted properties can then be used to track the object 150 .
  • Exemplary properties of an object 150 are
  • the object data 330 can in particular include an occupancy grid 200 predicted for the time n on the basis of the input data 300, 320 for the subsequent time n+1. Furthermore, the object data 330 can indicate an association between occupied grid cells 201 and individual objects 150 .
  • the occupancy grid 200 predicted for the subsequent time n+1 can then be overlaid with an occupancy grid 200 determined for the subsequent time n+1 on the basis of the input data 300, 320 in order to enable particularly precise and robust tracking of detected objects 150.
  • the allocation of the individual grid cells 201 to the individual grid cells known from the predicted occupancy grid 200 can be used Objects 150 in the occupancy grid 200 determined for the subsequent point in time n+1 are used in order to be able to localize the individual objects 150 therein.
  • the camera-based input data 300 can have a temporal sequence of images 401, 402, 403 of a camera 112, as shown in FIG.
  • the temporal sequence of images 401, 402, 403 can be superimposed and/or lined up in order to determine a camera-based feature tensor 314 using a (neural) encoder network 312.
  • the object data 330 can then be determined with increased accuracy using a processing module 410, which includes, for example, the transformation unit 316 and the evaluation network 318.
  • a camera-based feature tensor 314 can be determined for the individual images 401 , 402 , 403 using the encoder network 312 .
  • the individual camera-based feature tensors 314 can then each be transformed into a transformed feature tensor 319 in the transformation unit 315 .
  • the individual transformed feature tensors 319 each show corresponding features which, however, can be arranged at different positions within the grid 200 due to a movement of the video camera 112, in particular of the vehicle 100. Based on odometry data in relation to the movement of the image camera 112, in particular the vehicle 100, a precise assignment of corresponding features in the individual transformed feature tensors 319 can be carried out in order to merge the transformed feature tensors 319 and, based on this, the object data 330 with increased determine accuracy.
  • FIG. 5 shows a flowchart of an exemplary (possibly computer-implemented) method 500 for determining object data 330 in relation on one or more objects 150 in the vicinity of one or more cameras 112.
  • the one or more cameras 112 can be arranged in a vehicle 100.
  • the method 500 can be executed by a control unit 101 of the vehicle 100 .
  • the method 500 includes determining 501, by means of a neural encoder network 312, a camera-based feature tensor 314 on the basis of at least one image 300 from at least one image camera 112 for a first point in time.
  • the encoder network 312 may include a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the image 300 can display the surroundings of the image camera 112 on a 2D image plane.
  • the camera-based feature tensor 314 can display features in a 2D plane (corresponding to the 2D image plane).
  • the method 500 includes the transformation and/or projection 502 of the camera-based feature tensor 314 (by means of a predefined and/or fixed transformation) from the (2D) image plane of the image 300 onto the raster plane of an environmental raster 200 of the environment of the image camera 112, to determine a transformed feature tensor 319 .
  • the raster level can correspond to the level of a BEV in the area in front of the imaging camera 112 .
  • the transformation mentioned above can be used as the transformation.
  • the transformation can depend (possibly solely) on the geometric arrangement of the image plane and the raster plane relative to one another.
  • the method 500 also includes determining 503, by means of a neural evaluation network 318, object data 330 in relation to the object 150 in the area surrounding the image camera 112 on the basis of the transformed feature tensor 319.
  • the object data 330 can have one or more predicted properties of the Object 150 include at a time subsequent to the first time. It is thus possible to predict one or more properties of an object 150 represented in the image 300 in the future take place. A particularly precise and robust tracking of the object 150 can thus be made possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

Es wird eine Vorrichtung zur Ermittlung von Objektdaten in Bezug auf ein Objekt im Umfeld von zumindest einer Bildkamera beschrieben. Die Vorrichtung ist eingerichtet, auf Basis zumindest eines Bildes der Bildkamera für einen ersten Zeitpunkt mittels eines neuronalen Encoder-Networks einen Kamera-basierten Merkmalstensor zu ermitteln. Des Weiteren ist die Vorrichtung eingerichtet, den Kamera-basierten Merkmalstensor von einer Bildebene des Bildes auf eine Rasterebene eines Umfeldrasters des Umfelds der Bildkamera zu transformieren und/oder zu projizieren, um einen transformierten Merkmalstensor zu ermitteln. Die Vorrichtung ist ferner eingerichtet, Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera auf Basis des transformierten Merkmalstensors mittels eines neuronalen Auswerte-Netzwerks zu ermitteln, wobei die Objektdaten ein oder mehrere prädizierte Eigenschaften des Objektes an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.

Description

Verfahren und Vorrichtung zur Vorhersage von Objektdaten zu einem Objekt
Die Erfindung betrifft ein Verfahren und eine entsprechende Vorrichtung, die es z.B. einem Fahrzeug ermöglichen, auf Basis von Bilddaten von ein oder mehreren Kameras eine Vorhersage von Objektdaten in Bezug auf ein oder mehrere Objekte im Umfeld der ein oder mehreren Kameras zu ermitteln.
Ein Fahrzeug umfasst typischerweise eine Mehrzahl von unterschiedlichen Umfeldsensoren, die eingerichtet sind, unterschiedliche Sensordaten bezüglich des Umfelds des Fahrzeugs zu erfassen. Beispielhafte Umfeldsensoren sind Lidarsensoren, Bildsensoren bzw. Bildkameras, Radarsensoren,
Ultraschall sensoren, etc. Auf Basis der Sensordaten der ein oder mehreren Umfeldsensoren des Fahrzeugs können ein oder mehrere Umgebungs-Objekte (z.B. ein oder mehrere andere Fahrzeuge) in dem Umfeld des Fahrzeugs detektiert und ggf. nachverfolgt werden.
Das vorliegende Dokument befasst sich mit der technischen Aufgabe, eine besonders zuverlässige und/oder präzise Nachverfolgung von ein oder mehreren Objekten auf Basis von Bilddaten von ein oder mehreren Bildkameras zu ermöglichen. Die Aufgabe wird durch jeden der unabhängigen Ansprüche gelöst. Vorteilhafte Ausführungsformen werden u.a. in den abhängigen Ansprüchen beschrieben. Es wird daraufhingewiesen, dass zusätzliche Merkmale eines von einem unabhängigen Patentanspruch abhängigen Patentanspruchs ohne die Merkmale des unabhängigen Patentanspruchs oder nur in Kombination mit einer Teilmenge der Merkmale des unabhängigen Patentanspruchs eine eigene und von der Kombination sämtlicher Merkmale des unabhängigen Patentanspruchs unabhängige Erfindung bilden können, die zum Gegenstand eines unabhängigen Anspruchs, einer Teilungsanmeldung oder einer Nachanmeldung gemacht werden kann. Dies gilt in gleicher Weise für in der Beschreibung beschriebene technische Lehren, die eine von den Merkmalen der unabhängigen Patentansprüche unabhängige Erfindung bilden können.
Gemäß einem Aspekt wird eine Vorrichtung zur Ermittlung von Objektdaten in Bezug auf (zumindest) ein Objekt im Elmfeld von zumindest einer Bildkamera beschrieben. Beispielshafte Objekte sind Hindernisse und/oder andere Verkehrsteilnehmer in einem Elmfeld eines Fahrzeugs. Die Bildkamera kann ausgebildet sein, Bilder, insbesondere eine zeitliche Sequenz von Bildern, in Bezug auf das Elmfeld vor der Bildkamera zu erfassen. Die einzelnen Bilder können in einer (zwei-dimensionalen, 2D) Bildebene angeordnet sein. Insbesondere können die einzelnen Bilder Bildpunkte, etwa eine Matrix von Bildpunkten, in einer bestimmten Bildebene aufweisen.
Die Bildkamera kann in einem Fahrzeug verbaut sein (z.B. als Frontkamera des Fahrzeugs). Das Fahrzeug kann ausgebildet sein, sich auf einer Fahrbahn zu bewegen. Die Bildebene der Bildkamera kann (ggf. im Wesentlichen oder zumindest teilweise) senkrecht zu der Fahrbahn angeordnet sein.
Die Vorrichtung ist eingerichtet, auf Basis zumindest eines Bildes der Bildkamera für einen ersten Zeitpunkt mittels eines neuronalen Encoder-Networks (z.B. mittels eines im Vorfeld angelernten Convolutional Neural Networks) einen Kamera-basierten Merkmalstensor zu ermitteln. Der Kamera-basierte Merkmalstensor kann ein oder mehrere Merkmale (bzw. Features) innerhalb der Bildebene der Bildkamera umfassen. Ein in diesem Dokument beschriebener Merkmalstensor kann zwei oder mehr Dimensionen aufweisen. In einem Spezialfall kann ein Merkmalstensor eine Merkmalsmatrix sein oder umfassen. Beispielsweise kann ein Merkmalstensor mehrere Ebenen von Merkmalsmatrizen aufweisen. In einem solchen Fall kann der Merkmalstensor dreidimensional sein. Jede Ebene kann dabei jeweils einen unterschiedlichen Typ von Merkmal aufweisen.
Die Vorrichtung ist ferner eingerichtet, den Kamera-basierten Merkmalstensor von der Bildebene des Bildes auf eine Rasterebene eines Umfeldrasters des Umfelds der Bildkamera zu transformieren und/oder zu projizieren, um einen transformierten Merkmalstensor (mit ein oder mehreren Merkmalen in der Rasterebene) zu ermitteln. Die Rasterebene kann parallel zu der Fahrbahn angeordnet sein. Die Rasterebene kann einem Bird-Eye-View (BEV) des Umfelds entsprechen. Der Kamera-basierte Merkmalstensor kann mittels einer zeitlich invarianten und/oder im Vorfeld festgelegten Transformation von der Bildebene des Bildes auf die Rasterebene des Umfeldrasters des Umfelds der Bildkamera transformiert und/oder projiziert werden. Eine beispielhafte Transformation wird in Roddick, Thomas, Alex Kendall, and Roberto Cipolla, "Orthographie feature transform for monocular 3d object detection", British Machine Vision Conference (2019) beschrieben. Die Transformation wird in diesem Dokument als „Orthographie Feature Transform“ bezeichnet. Der Inhalt dieses Dokuments wird per Referenz in die vorliegende Beschreibung aufgenommen.
Des Weiteren ist die Vorrichtung eingerichtet, Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera auf Basis des transformierten Merkmalstensors mittels eines neuronalen Auswerte-Netzwerks zu ermitteln. Dabei können die Objektdaten ein oder mehrere prädizierte Eigenschaften des Objektes an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen. Der erste Zeitpunkt kann z.B. ein Zeitpunkt n sein, und der nachfolgende Zeitpunkt kann ein Zeitpunkt n+1 sein. Die Vorrichtung kann eingerichtet sein, die Objektdaten wiederholt, insbesondere periodische, für eine Sequenz von Zeitpunkten n, n+1, n+2, etc. zu ermitteln.
Die ein oder mehreren prädizierten Eigenschaften des Objektes können die Position und/oder die Orientierung des Objektes, insbesondere die Position und/oder die Orientierung innerhalb des Umfeldrasters, an dem nachfolgenden Zeitpunkt umfassen. Alternativ oder ergänzend können die ein oder mehreren prädizierten Eigenschaften des Objektes ein oder mehrere Zellen des Umfeldrasters umfassen, die an dem nachfolgenden Zeitpunkt von dem Objekt belegt werden (um dadurch die Position und/oder die Orientierung des Objektes zu beschreiben). Alternativ oder ergänzend können die ein oder mehreren prädizierten Eigenschaften des Objektes eine Belegungswahrscheinlichkeit und/oder eine Evidenzmasse des Objektes an dem nachfolgenden Zeitpunkt für ein oder mehrere Zellen des Umfeldrasters umfassen.
Es wird somit eine Vorrichtung beschrieben, die es durch Verwendung eines neuronalen Encoder-Netzwerks, einer (festen) Transformation und einem neuronalen Auswerte-Netzwerk ermöglicht, auf Basis von Bildern einer Bildkamera in präziser und robuster Weise (drei-dimensionale, 3D) Objektdaten in Bezug auf ein oder mehrere Objekte auf der Birds-Eye Ebene zu prädizieren. Dabei kann insbesondere eine Voraussage der 3D Position und/oder der 3D Orientierung eines Objektes an einem nachfolgenden Zeitpunkt n+1 innerhalb der Birds-Eye-View Ebene (und nicht (nur) in der Bild-Ebene) erfolgen. Die Vorhersage kann dabei ggf. allein auf Basis der Bilder von ein oder mehreren Kameras erfolgen. Die prädizierten Objektdaten (insbesondere die prädizierten Positionen und/oder Orientierungen) können dann für eine zuverlässige und robuste Nachverfolgung der ein oder mehreren Objekte verwendet werden. Das neuronale Encoder-Netzwerk und das neuronale Auswerte-Netzwerk wurden typischerweise im Vorfeld anhand von gelabelten Trainingsdaten angelernt, wobei die Trainingsdaten eine Vielzahl von Trainings-Datensätzen umfassen. Die einzelnen Trainings-Datensätze können dabei jeweils ein Trainings-Bild der Bildkamera mit ein oder mehreren (darin dargestellten) Trainings -Objekten für einen Trainings-Zeitpunkt und Objektdaten mit ein oder mehreren tatsächlichen Eigenschaften der ein oder mehreren Trainings-Objekte für einen dem jeweiligen Trainings-Zeitpunkt nachfolgenden Zeitpunkt aufweisen.
Die einzelnen Parameter der Netzwerke können unter Verwendung eines Lemverfahrens und einer Fehlerfunktion auf Basis der Trainingsdaten angelernt werden. Dabei kann die Vorrichtung dazu verwendet werden, für einen Trainings- Datensatz ein oder mehrere prädizierte Eigenschaften der ein oder mehreren Trainings-Objekte zu ermitteln, die dann mit den ein oder mehreren tatsächlichen Eigenschaften aus dem Trainings-Datensatz verglichen werden, um die Fehlerfunktion zu ermitteln. Die Fehlerfunktion kann dann dazu verwendet werden, die einzelnen Parameter der neuronalen Netzwerke der Vorrichtung anzupassen, um nach-und-nach die Güte der Vorrichtung bei der Ermittlung der Objektdaten zu erhöhen.
Die Vorrichtung kann eingerichtet sein, eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern der Bildkamera zu einem Gesamtbild für den ersten Zeitpunkt zusammenzufassen, insbesondere zu überlagern oder aneinanderzureihen. Die Mehrzahl von zeitlich aufeinanderfolgenden Bildern kann vor oder spätestens an dem ersten Zeitpunkt von der Bildkamera erfasst worden sein. Es kann somit eine zeitliche Sequenz von Bildern der Bildkamera betrachtet und kombiniert werden. Der Kamera-basierte Merkmalstensor kann dann auf Basis des Gesamtbildes mittels des neuronalen Encoder-Networks ermittelt werden. Durch die Betrachtung einer zeitlichen Sequenz von Bildern können die ein oder mehreren prädizierten Eigenschaften eines (in einem Bild dargestellten) Objektes mit erhöhter Genauigkeit ermittelt werden (insbesondere in Bezug auf Tiefeninformation senkrecht zu der Bildebene der Bildkamera).
Alternativ oder ergänzend kann die Vorrichtung eingerichtet sein, für eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern der Bildkamera mittels des neuronalen Encoder-Networks eine entsprechende Mehrzahl von Kamera basierten Merkmalstensoren zu ermitteln. Dabei kann die Mehrzahl von zeitlich aufeinanderfolgenden Bildern einen Erfassungszeitraum abdecken, der sich zeitlich vor und/oder bis zu dem ersten Zeitpunkt erstreckt. Die einzelnen Bilder einer zeitlichen Sequenz von Bildern können somit einzelnen analysiert werden, um jeweils einen Kamera-basierten Merkmalstensor mit Merkmalen in der Bildebene der Bildkamera zu ermitteln.
Die Vorrichtung kann ferner eingerichtet sein, auf Basis der Mehrzahl von Kamera-basierten Merkmalstensoren eine entsprechende Mehrzahl von transformierten Merkmalstensoren zu ermitteln. Dazu kann jeweils die o.g. Transformation verwendet werden.
Des Weiteren kann die Vorrichtung eingerichtet sein, Odometriedaten in Bezug auf eine Bewegung der Bildkamera während des Erfassungszeitraums zu ermitteln. Wie bereits oben dargelegt, kann die Bildkamera in einem Fahrzeug verbaut sein. Die Bewegung der Bildkamera kann dann der Bewegung des Fahrzeugs entsprechen und es können, z.B. auf Basis eines Radsensors, einer inertialen Messeinheit, eines Geschwindigkeitssensors, eines Beschleunigungssensors, etc., Odometriedaten in Bezug auf die Bewegung des Fahrzeugs ermittelt werden.
Die Mehrzahl von transformierten Merkmalstensoren kann dann unter Berücksichtigung der Odometriedaten kombiniert, insbesondere fusioniert werden, um einen kombinierten, transformierten Merkmalstensor zu ermitteln. Dabei können korrespondierende Merkmale in den einzelnen transformierten Merkmalstensoren auf Basis der Odometriedaten identifiziert (und fusioniert) werden. Die Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera können dann in besonders präziser Weise auf Basis des kombinierten, transformierten Merkmalstensors mittels des neuronalen Auswerte-Netzwerks ermittelt werden.
Die Vorrichtung kann eingerichtet sein, auf Basis zumindest eines Bildes der Bildkamera für den nachfolgenden Zeitpunkt ein oder mehrere, den ein oder mehreren prädizierten Eigenschaften entsprechende, aktualisierte Eigenschaften des Objektes an dem nachfolgenden Zeitpunkt zu ermitteln. Das Objekt kann dann in präziser und robuster Weise auf Basis der ein oder mehreren prädizierten Eigenschaften und auf Basis der ein oder mehreren aktualisierten Eigenschaften, insbesondere auf Basis eines Vergleichs der ein oder mehreren aktualisierten Eigenschaften mit den entsprechenden ein oder mehreren prädizierten Eigenschaften, an aufeinanderfolgenden Zeitpunkten nachverfolgt werden.
Die Vorrichtung kann eingerichtet sein, auf Basis von Raster-basierten Sensordaten von ein oder mehreren Umfeldsensoren (z.B. einem Lidarsensor und/oder einem Radarsensor) für den ersten Zeitpunkt mittels eines weiteren neuronalen Encoder-Netzwerks einen Raster-basierten Merkmalstensor zu ermitteln. Es können somit die Sensordaten von ein oder mehreren Umfeldsensoren verwendet werden, die ausgebildet sind, Information in Bezug auf das Objekt direkt innerhalb der Rasterebene zu sensieren.
Es kann dann auf Basis des transformierten Merkmalstensors und auf Basis des Raster-basierten Merkmalstensors, insbesondere durch Konkatenation und/oder durch Addition, ein fusionierter Merkmalstensor ermittelt werden. Die Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera können dann in besonders präziser und robuster Weise auf Basis des fusionierten Merkmalstensors mittels des neuronalen Auswerte-Netzwerks ermittelt werden. Gemäß einem weiteren Aspekt wird ein (Straßen-)Kraftfahrzeug (insbesondere ein Personenkraftwagen oder ein Lastkraftwagen oder ein Bus oder ein Motorrad) beschrieben, das die in diesem Dokument beschriebene Vorrichtung umfasst.
Gemäß einem weiteren Aspekt wird ein Verfahren zur Ermittlung von Objektdaten in Bezug auf ein Objekt im Umfeld von zumindest einer Bildkamera beschrieben. Das Verfahren umfasst das Ermitteln, mittels eines neuronalen Encoder-Networks, eines Kamera-basierten Merkmalstensors auf Basis zumindest eines Bildes der Bildkamera für einen ersten Zeitpunkt. Des Weiteren umfasst das Verfahren das Transformieren und/oder Projizieren des Kamera-basierten Merkmalstensors von einer Bildebene des Bildes auf eine Rasterebene eines Umfeldrasters des Umfelds der Bildkamera, um einen transformierten Merkmalstensor zu ermitteln. Das Verfahren umfasst ferner das Ermitteln, mittels eines neuronalen Auswerte-Netzwerks, von Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera auf Basis des transformierten Merkmalstensors. Dabei können die Objektdaten ein oder mehrere prädizierte Eigenschaften des Objektes an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.
Gemäß einem weiteren Aspekt wird ein Software (SW) Programm beschrieben. Das SW Programm kann eingerichtet werden, um auf einem Prozessor (z.B. auf einem Steuergerät eines Fahrzeugs) ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.
Gemäß einem weiteren Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem Prozessor ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.
Es ist zu beachten, dass die in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systeme sowohl alleine, als auch in Kombination mit anderen in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systemen verwendet werden können. Des Weiteren können jegliche Aspekte der in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systemen in vielfältiger Weise miteinander kombiniert werden. Insbesondere können die Merkmale der Ansprüche in vielfältiger Weise miteinander kombiniert werden.
Im Weiteren wird die Erfindung anhand von Ausführungsbeispielen näher beschrieben. Dabei zeigen
Figur 1 ein beispielhaftes Fahrzeug mit ein oder mehreren Umfeldsensoren;
Figur 2 ein beispielhaftes Umfeldraster in Bezug auf eine Umgebung bzw. ein Umfeld eines Fahrzeugs;
Figur 3a beispielhafte Eingangsdaten, die zur Erkennung und/oder zur Nachverfolgung eines Objektes verwendet werden können;
Figur 3b eine beispielhafte Vorrichtung zur Erkennung und/oder zur Nachverfolgung eines Objektes auf Basis von Bilddaten;
Figur 4 eine beispielhafte Berücksichtigung von einer Sequenz von Bildern bei der Nachverfolgung eines Objektes; und
Figur 5 ein Ablaufdiagramm eines beispielhaften Verfahrens zur Prädiktion von Objektdaten in Bezug auf ein Objekt auf Basis von Bilddaten.
Wie eingangs dargelegt, befasst sich das vorliegende Dokument mit der zuverlässigen und präzisen Detektion und/oder Nachverfolgung von Objekten auf Basis der Sensordaten von ein oder mehreren Umfeldsensoren. In diesem Zusammenhang zeigt Fig. 1 ein Fahrzeug 100 mit ein oder mehreren Umfeldsensoren 111, 112 zur Erfassung von Sensordaten. Beispielhafte Umfeldsensoren 111, 112 sind ein oder mehrere Lidarsensoren, ein oder mehrere Radarsensoren, ein oder mehrere Bildkameras, etc.
Das Fahrzeug 100 umfasst eine Vorrichtung (bzw. eine Verarbeitungseinheit)
101, die eingerichtet ist, auf Basis der Sensordaten ein Objekt 150 im Umfeld des Fahrzeugs 100 zu detektieren und nachzuverfolgen. Ein detektiertes Objekt 150, insbesondere Objektdaten in Bezug auf ein Objekt 150, kann bzw. können in einer Fahrfunktion 102 (z.B. für das teilautomatisierte oder hochautomatisierte Fahren des Fahrzeugs 100) berücksichtigt werden.
Die lokale Umgebung eines Fahrzeugs 100 kann als Occupancy Grid Map bzw. (Belegungs-) Raster 200 geschätzt bzw. dargestellt werden (siehe Fig. 2). Fig. 2 zeigt ein beispielhaftes Raster 200 einer Umgebung bzw. eines Umfelds des Fahrzeugs 100 mit einer Vielzahl von Rasterzellen oder kurz Zellen 201. Das Raster 200 kann die Umgebung bzw. das Umfeld des Fahrzeugs 100 in die Vielzahl von zwei- (2D) oder drei-dimensionalen (3D) Zellen 201 aufteilen. Eine zwei-dimensionale Zelle 201 kann dabei eine Rechteckform aufweisen (beispielsweise mit einer Kantenlänge von 10cm, 5cm, 2cm, 1cm oder weniger).
Die Verarbeitungseinheit 101 des Fahrzeugs 100 kann eingerichtet sein, auf Basis der Sensordaten für ein oder mehrere der Zellen 201 (insbesondere für jede Zelle 201) Daten zu ermitteln, die anzeigen, ob eine Zelle 201 an einem bestimmten Zeitpunkt t belegt ist oder nicht. Insbesondere können die Daten für eine Zelle 201 anzeigen zc = (m(0),m(F)), wobei m({0}) eine Evidenz bzw. Evidenzmasse dafür ist, dass die Zelle c 201 durch ein Objekt 150 belegt ist (z.B. ein statisches oder ein dynamisches Objekt), und wobei m(F) eine Evidenz dafür ist, dass die Zelle c 201 frei ist, und somit nicht durch ein Objekt 150 belegt ist. Die Evidenz dafür, dass die Zelle 201 durch eine Objekt 150 belegt ist, kann als Objekt-Wahrscheinlichkeit dafür betrachtet werden, dass die Zelle 201 durch ein Objekt 150 belegt ist (insbesondere im Sinne der Dempster-Shafer Theorie).
Es kann somit auf Basis der Sensordaten von ein oder mehreren Umfeldsensoren 111 ein Raster 200 mit einer Vielzahl von Zellen 201 ermittelt werden, wobei die einzelnen Zellen 201 Information bzw. Daten darüber anzeigen können,
• ob die jeweilige Zelle 201 durch ein Objekt belegt ist oder nicht; und/oder • ob die jeweilige Zelle 201 durch ein dynamisches oder durch ein statisches Objekt belegt ist; und/oder
• wie hoch ein Objekt in der jeweiligen Zelle 201 ist.
Das Raster 200 kann insbesondere auf Basis der Sensordaten eines Lidarsensors und/oder eine Radarsensors 111 ermittelt werden. Die Daten eines (Umfeld-) Rasters 200 können auch als Bird Eye View (BEV) Daten in Bezug auf das Umfeld bezeichnet werden, da das Raster 200 das Umfeld in einer Draufsicht von Oben beschreibt.
Wie bereits oben dargelegt, kann ein Fahrzeug 100 unterschiedliche Typen von Umfeldsensoren 111, 112 aufweisen. Insbesondere kann ein Fahrzeug 100 ein oder mehrere Umfeldsensoren 111 (etwa einen Lidarsensor und/oder einen Radarsensor) umfassen, mit denen direkt Daten für ein BEV Umfeldraster 200 ermittelt werden können (wie beispielhaft in Fig. 3a dargestellt). Des Weiteren kann ein Fahrzeug 100 ein oder mehrere Umfeldsensoren 112 (insbesondere ein oder mehreren Kameras) umfassen, mit denen zwei-dimensionale (2D) Bilder 300 des Umfelds erfasst werden können. Die Bilder 300 weisen dabei eine Perspektive auf das Umfeld auf, die von der Perspektive des BEV Umfeldrasters 200 abweicht (wie in Fig. 3a, rechte Seite, dargestellt).
Fig. 3b zeigt eine beispielhafte Detektions- und/oder Prädiktions-Vorrichtung 310, die eingerichtet ist, die Sensordaten und/oder die Information aus den unterschiedlichen Typen von Umfeldsensoren 111, 112 zu fusionieren, um mit erhöhter Genauigkeit Objektdaten 330 in Bezug auf ein oder mehreren Objekte 150 zu ermitteln, insbesondere für einen zukünftigen Zeitpunkt zu prädizieren.
Die Vorrichtung 310 umfasst ein erstes neuronales Encoder-Netzwerk 311, das eingerichtet ist, auf Basis der Sensordaten 320 eines Umfeldsensors 111 (die innerhalb des Umfeldrasters 200 bereitgestellt werden) einen ersten (Raster basierten) Merkmalstensor 313 zu ermitteln. Des Weiteren umfasst die Vorrichtung 310 ein oder mehrere zweite neuronale Encoder-Netzwerke 312, die jeweils eingerichtet sind, auf Basis der ein oder mehreren Bilder 300 von ein oder mehreren Kameras 112 jeweils einen zweiten (Kamera-basierten) Merkmalstensor 314 zu ermitteln.
Die ein oder mehreren zweiten (Kamera-basierten) Merkmalstensoren 314 können mittels einer Transformation 315 auf das Raster 200 projiziert werden, um ein oder mehrere entsprechende transformierte Merkmalstensoren 319 bereitzustellen. Eine beispielhafte Transformation 315 wird in Roddick, Thomas, Alex Kendall, and Roberto Cipolla, "Orthographie feature transform for monocular 3d object detection", arXiv preprint arXiv: 1811.08188 (2018) bzw. British Machine Vision Conference (2019) beschrieben. Der Inhalt dieses Dokuments wird per Referenz in die vorliegende Beschreibung aufgenommen.
Der erste (Raster-basierte) Merkmalstensor 313 kann dann in einer Fusionseinheit 316 mit den ein oder mehreren transformierten Merkmalstensoren 319 fusioniert werden, z.B. durch Konkatenation und/oder durch Addition, um einen fusionierten Merkmalstensor 317 bereitzustellen. Die Objektdaten 330 für ein oder mehrere Objekte 150 können dann mittels eines Auswerte-Netzwerks 318 auf Basis des fusionierten Merkmalstensors 317 ermittelt werden.
Die neuronalen Netzwerte 311, 312, 318 der Vorrichtung 310 können auf Basis von gelabelten Trainingsdaten und ggf. unter Verwendung des Backpropagation- Algorithmus angelernt werden.
In der in Fig. 3b dargestellten Vorrichtung 310 ist die Verarbeitung von Raster basierten Umfelddaten 320, wie z.B. Daten eines Lidarsensors und/oder eines Radarsensors 111, optional. Die Vorrichtung 310 kann eingerichtet sein, allein auf Basis von Kamera-basierten Daten 300 Objektdaten 330 in Bezug auf ein oder mehrere Objekte 150 zu ermitteln. Die von der Vorrichtung 310 ermittelten Objektdaten 330 können eine Prädiktion bzw. eine Vorhersage von ein oder mehreren Eigenschaften eines bereits detektierten Objektes 150 umfassen. Dabei können die ein oder mehreren Eigenschaften für einen nachfolgenden Zeitpunkt aus einer Sequenz von Zeitpunkten prädiziert werden. Die Vorrichtung 310 kann eingerichtet sein, wiederholt, insbesondere periodisch, auf Basis von jeweils aktuellen Eingangsdaten 300, 320 jeweils aktuelle Objektdaten 330 zu ermitteln. Beispielsweise können so für eine Sequenz von Zeitpunkten n jeweils Objektdaten 330 ermittelt werden. Die Vorrichtung 310 kann eingerichtet sein, auf Basis der Eingangsdaten 300, 320 für einen Zeitpunkt n ein oder mehrere Eigenschaften eines Objektes 150 an einem nachfolgenden Zeitpunkt n+1 zu prädizieren. Die ein oder mehreren prädizierten Eigenschaften können dann für eine Nachverfolgung (auf Englisch, für ein „Tracking“) des Objektes 150 verwendet werden.
Beispielhafte Eigenschaften eines Objektes 150 sind
• die Position (eines Referenzpunktes) des Objektes 150;
• eine Ausrichtung bzw. Orientierung des Objektes 150;
• ein oder mehrere von dem Objekt 150 belegte Zellen 201; und/oder
• eine Belegungswahrscheinlichkeit und/oder eine Evidenzmasse von ein oder mehreren Zellen 201 bezüglich der Belegung durch das Objekt 150.
Die Objektdaten 330 können insbesondere ein auf Basis der Eingangsdaten 300, 320 für den Zeitpunkt n prädiziertes Belegungsraster 200 für den nachfolgenden Zeitpunkt n+1 umfassen. Ferner können die Objektdaten 330 eine Zuordnung zwischen belegten Rasterzellen 201 und einzelnen Objekten 150 anzeigen. Das für den nachfolgenden Zeitpunkt n+1 prädizierte Belegungsraster 200 kann dann mit einem auf Basis der Eingangsdaten 300, 320 für den nachfolgenden Zeitpunkt n+1 ermittelten Belegungsraster 200 überlagert werden, um eine besonders präzise und robuste Nachverfolgung von detektierten Objekten 150 zu ermöglichen. Dabei kann insbesondere die aus dem prädizierten Belegungsraster 200 bekannte Zuordnung der einzelnen Rasterzellen 201 zu den einzelnen Objekten 150 in dem für den nachfolgenden Zeitpunkt n+1 ermittelten Belegungsraster 200 verwendet werden, um darin die einzelnen Objekte 150 lokalisieren zu können.
Die Kamera-basierten Eingangsdaten 300 können, wie beispielhaft in Fig. 4 dargestellt, eine zeitliche Sequenz von Bildern 401, 402, 403 einer Kamera 112 aufweisen. Die zeitliche Sequenz von Bildern 401, 402, 403 kann überlagert und/oder aneinandergereiht werden, um anhand eines (neuronalen) Encoder- Netzwerks 312 einen Kamera-basierten Merkmalstensor 314 zu ermitteln. Anhand eines Verarbeitungsmoduls 410, das z.B. die Transformationseinheit 316 und das Auswerte-Netzwerk 318 umfasst, können dann die Objektdaten 330 mit erhöhter Genauigkeit ermittelt werden.
Alternativ oder ergänzend können für die einzelnen Bilder 401, 402, 403 anhand des Encoder-Netzwerks 312 jeweils einen Kamera-basierten Merkmalstensor 314 ermittelt werden. Die einzelnen Kamera-basierten Merkmalstensoren 314 können dann jeweils in der Transformationseinheit 315 in einen transformierten Merkmalstensor 319 transformiert werden.
Die einzelnen transformierten Merkmalstensoren 319 zeigen dabei jeweils entsprechende Merkmale auf, die jedoch aufgrund einer Bewegung der Bildkamera 112, insbesondere des Fahrzeugs 100, an unterschiedlichen Positionen innerhalb des Raster 200 angeordnet sein können. Auf Basis von Odometriedaten in Bezug auf die Bewegung der Bildkamera 112, insbesondere des Fahrzeugs 100, kann eine präzise Zuordnung von entsprechenden Merkmalen in den einzelnen transformierten Merkmalstensoren 319 durchgeführt werden, um die transformierten Merkmalstensoren 319 zu fusionieren und um basierend darauf die Objektdaten 330 mit erhöhter Genauigkeit zu ermitteln.
Fig. 5 zeigt ein Ablaufdiagramm eines beispielhaften (ggf. Computer implementierten) Verfahrens 500 zur Ermittlung von Objektdaten 330 in Bezug auf ein oder mehrere Objekte 150 im Umfeld von ein oder mehreren Bildkameras 112. Die ein oder mehreren Bildkameras 112 können in einem Fahrzeug 100 angeordnet sein. Das Verfahren 500 kann durch eine Steuereinheit 101 des Fahrzeugs 100 ausgeführt werden.
Das Verfahren 500 umfasst das Ermitteln 501, mittels eines neuronalen Encoder- Networks 312, eines Kamera-basierten Merkmalstensors 314 auf Basis zumindest eines Bildes 300 von zumindest einer Bildkamera 112 für einen ersten Zeitpunkt. Das Encoder-Netzwerk 312 kann ein Convolutional Neural Network (CNN) umfassen. Das Bild 300 kann das Umfeld der Bildkamera 112 auf einer 2D Bildebene anzeigen. Ferner kann der Kamera-basierte Merkmalstensor 314 Merkmale bzw. Features in einer 2D Ebene anzeigen (die der 2D Bildebene entspricht).
Des Weiteren umfasst das Verfahren 500 das Transformieren und/oder Projizieren 502 des Kamera-basierten Merkmalstensors 314 (mittels einer vordefinierten und/oder fixierten Transformation) von der (2D) Bildebene des Bildes 300 auf die Rasterebene eines Umfeldrasters 200 des Umfelds der Bildkamera 112, um einen transformierten Merkmalstensor 319 zu ermitteln. Die Rasterebene kann dabei der Ebene eines BEV auf das Umfeld vor der Bildkamera 112 entsprechen. Als Transformation kann die o.g. Transformation verwendet werden. Die Transformation kann dabei (ggf. allein) von der geometrischen Anordnung der Bildebene und der Rasterebene zueinander abhängen.
Das Verfahren 500 umfasst ferner das Ermitteln 503, mittels eines neuronalen Auswerte-Netzwerks 318, von Objektdaten 330 in Bezug auf das Objekt 150 in dem Umfeld der Bildkamera 112 auf Basis des transformierten Merkmalstensors 319. Dabei können die Objektdaten 330 ein oder mehrere prädizierte Eigenschaften des Objektes 150 an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen. Es kann somit eine Prädiktion von ein oder mehreren Eigenschaften eines in dem Bild 300 dargestellten Objektes 150 in die Zukunft erfolgen. So kann eine besonders präzise und robuste Nachverfolgung des Objektes 150 ermöglicht werden.
Die vorliegende Erfindung ist nicht auf die gezeigten Ausführungsbeispiele beschränkt. Insbesondere ist zu beachten, dass die Beschreibung und die Figuren nur beispielhaft das Prinzip der vorgeschlagenen Verfahren, Vorrichtungen und Systeme veranschaulichen sollen.

Claims

Ansprüche
1) Vorrichtung (101, 310) zur Ermittlung von Objektdaten (330) in Bezug auf ein Objekt (150) im Umfeld von zumindest einer Bildkamera (112); wobei die Vorrichtung (101, 310) eingerichtet ist,
- auf Basis zumindest eines Bildes (300) der Bildkamera (112) für einen ersten Zeitpunkt mittels eines neuronalen Encoder-Networks (312) einen Kamera-basierten Merkmalstensor (314) zu ermitteln;
- den Kamera-basierten Merkmalstensor (314) von einer Bildebene des Bildes (300) auf eine Rasterebene eines Umfeldrasters (200) des
Umfelds der Bildkamera (112) zu transformieren und/oder zu projizieren, um einen transformierten Merkmalstensor (319) zu ermitteln; und
- Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des transformierten Merkmalstensors
(319) mittels eines neuronalen Auswerte-Netzwerks (318) zu ermitteln; wobei die Objektdaten (330) ein oder mehrere prädizierte Eigenschaften des Objektes (150) an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.
2) Vorrichtung (101, 310) gemäß Anspruch 1, wobei die ein oder mehreren prädizierten Eigenschaften des Objektes (150) eine Position und/oder eine Orientierung des Objektes (150), insbesondere eine Position und/oder Orientierung innerhalb des Umfeldrasters (200), an dem nachfolgenden Zeitpunkt umfassen.
3) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die ein oder mehreren prädizierten Eigenschaften des Objektes (150) umfassen, - ein oder mehrere Zellen (201) des Umfeldrasters (200), die an dem nachfolgenden Zeitpunkt von dem Objekt (150) belegt werden; und/oder
- eine Belegungswahrscheinlichkeit und/oder eine Evidenzmasse des Objektes (150) an dem nachfolgenden Zeitpunkt für ein oder mehrere Zellen (201) des Umfeldrasters (200).
4) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei der Kamera-basierte Merkmalstensor (314) mittels einer zeitlich invarianten und/oder im Vorfeld festgelegten Transformation von der Bildebene des Bildes (300) auf die Rasterebene des Umfeldrasters (200) des Umfelds der Bildkamera (112) transformiert und/oder projiziert wird.
5) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei
- das neuronale Encoder-Netzwerk (312) und das neuronale Auswerte- Netzwerk (317) im Vorfeld anhand von gelabelten Trainingsdaten angelernt wurden;
- die Trainingsdaten eine Vielzahl von Trainings-Datensätzen umfassen; und
- ein Trainings-Datensatz jeweils ein Trainings-Bild (300) der Bildkamera (112) mit ein oder mehreren Trainings-Objekten (150) für einen Trainings-Zeitpunkt und Objektdaten (330) mit ein oder mehreren tatsächlichen Eigenschaften der ein oder mehreren Trainings-Objekte (150) für einen dem Trainings-Zeitpunkt nachfolgenden Zeitpunkt aufweist.
6) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,
- eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401, 402, 403) der Bildkamera (112) zu einem Gesamtbild (300) für den ersten Zeitpunkt zusammenzufassen, insbesondere zu überlagern oder aneinanderzureihen; wobei die Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401, 402, 403) vor oder spätestens an dem ersten Zeitpunkt von der Bildkamera (112) erfasst wurden; und
- den Kamera-basierten Merkmalstensor (314) auf Basis des Gesamtbildes (300) mittels des neuronalen Encoder-Networks (312) zu ermitteln.
7) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,
- für eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401,
402, 403) der Bildkamera (112) mittels des neuronalen Encoder- Networks (312) eine entsprechende Mehrzahl von Kamera-basierten Merkmalstensoren (314) zu ermitteln; wobei die Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401, 402, 403) einen Erfassungszeitraum abdecken, der sich zeitlich vor und/oder bis zu dem ersten Zeitpunkt erstreckt;
- auf Basis der Mehrzahl von Kamera-basierten Merkmalstensoren (314) eine entsprechende Mehrzahl von transformierten Merkmalstensoren (319) zu ermitteln;
- Odometriedaten in Bezug auf eine Bewegung der Bildkamera (112) während des Erfassungszeitraums zu ermitteln;
- die Mehrzahl von transformierten Merkmalstensoren (319) unter Berücksichtigung der Odometriedaten zu kombinieren, insbesondere zu fusionieren, um einen kombinierten, transformierten Merkmalstensor zu ermitteln; und
- die Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des kombinierten, transformierten Merkmalstensors mittels des neuronalen Auswerte-Netzwerks (318) zu ermitteln. 8) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,
- auf Basis zumindest eines Bildes (300) der Bildkamera (112) für den nachfolgenden Zeitpunkt ein oder mehrere, den ein oder mehreren prädizierten Eigenschaften entsprechende, aktualisierte Eigenschaften des Objektes (150) an dem nachfolgenden Zeitpunkt zu ermitteln; und
- das Objekt (150) auf Basis der ein oder mehreren prädizierten Eigenschaften und auf Basis der ein oder mehreren aktualisierten Eigenschaften, insbesondere auf Basis eines Vergleichs der ein oder mehreren aktualisierten Eigenschaften mit den entsprechenden ein oder mehreren prädizierten Eigenschaften, an aufeinanderfolgenden Zeitpunkten nachzuverfolgen.
9) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,
- auf Basis von Raster-basierten Sensordaten von ein oder mehreren Umfeldsensoren (111) für den ersten Zeitpunkt mittels eines weiteren neuronalen Encoder-Netzwerks (311) einen Raster-basierten Merkmalstensor (313) zu ermitteln;
- auf Basis des transformierten Merkmalstensors (319) und auf Basis des Raster-basierten Merkmalstensors (313), insbesondere durch Konkatenation und/oder durch Addition, einen fusionierten Merkmalstensor (317) zu ermitteln; und
- die Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des fusionierten Merkmalstensors (417) mittels des neuronalen Auswerte-Netzwerks (318) zu ermitteln.
10) Verfahren (500) zur Ermittlung von Objektdaten (330) in Bezug auf ein Objekt (150) im Umfeld von zumindest einer Bildkamera (112); wobei das Verfahren (500) umfasst, - Ermitteln (501), mittels eines neuronalen Encoder-Networks (312), eines Kamera-basierten Merkmalstensors (314) auf Basis zumindest eines Bildes (300) der Bildkamera (112) für einen ersten Zeitpunkt;
- Transformieren und/oder Projizieren (502) des Kamera-basierten Merkmalstensors (314) von einer Bildebene des Bildes (300) auf eine
Rasterebene eines Umfeldrasters (200) des Umfelds der Bildkamera (112), um einen transformierten Merkmalstensor (319) zu ermitteln; und
- Ermitteln (503), mittels eines neuronalen Auswerte-Netzwerks (318), von Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des transformierten Merkmalstensors (319); wobei die Objektdaten (330) ein oder mehrere prädizierte Eigenschaften des Objektes (150) an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.
PCT/EP2022/058363 2021-04-28 2022-03-30 Verfahren und vorrichtung zur vorhersage von objektdaten zu einem objekt WO2022228809A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280031643.5A CN117280390A (zh) 2021-04-28 2022-03-30 用于预测对象的对象数据的方法和装置
US18/288,631 US20240212206A1 (en) 2021-04-28 2022-03-30 Method and Device for Predicting Object Data Concerning an Object

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021110824.1A DE102021110824A1 (de) 2021-04-28 2021-04-28 Verfahren und Vorrichtung zur Vorhersage von Objektdaten zu einem Objekt
DE102021110824.1 2021-04-28

Publications (1)

Publication Number Publication Date
WO2022228809A1 true WO2022228809A1 (de) 2022-11-03

Family

ID=81393077

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/058363 WO2022228809A1 (de) 2021-04-28 2022-03-30 Verfahren und vorrichtung zur vorhersage von objektdaten zu einem objekt

Country Status (4)

Country Link
US (1) US20240212206A1 (de)
CN (1) CN117280390A (de)
DE (1) DE102021110824A1 (de)
WO (1) WO2022228809A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230326215A1 (en) * 2022-04-07 2023-10-12 Waymo Llc End-to-end object tracking using neural networks with attention

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HU ANTHONY ET AL: "FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras", 2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 21 April 2021 (2021-04-21), pages 15253 - 15262, XP055946513, ISBN: 978-1-6654-2812-5, Retrieved from the Internet <URL:https://arxiv.org/pdf/2104.10490v1.pdf> DOI: 10.1109/ICCV48922.2021.01499 *
SWAPNIL DAGA ET AL: "BirdSLAM: Monocular Multibody SLAM in Bird's-Eye View", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 15 November 2020 (2020-11-15), XP081814817 *
THOMAS RODDICK ET AL: "Orthographic Feature Transform for Monocular 3D Object Detection", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 20 November 2018 (2018-11-20), XP081052453 *

Also Published As

Publication number Publication date
DE102021110824A1 (de) 2022-11-03
CN117280390A (zh) 2023-12-22
US20240212206A1 (en) 2024-06-27

Similar Documents

Publication Publication Date Title
DE102019115874B4 (de) Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten
DE102014222617B4 (de) Fahrzeugerfassungsverfahren und Fahrzeugerfassungssytem
EP2043045B1 (de) Verfahren zur Objektverfolgung
EP3038011B1 (de) Verfahren zum Bestimmen des Abstands eines Objekts von einem Kraftfahrzeug mittels einer monokularen Bilderfassungseinrichtung
DE102011078615B4 (de) Objekterfassungsvorrichtung und objekterfassungsprogramm
DE102018205879A1 (de) Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten
WO2020094170A1 (de) Verfahren und verarbeitungseinheit zur ermittlung von information in bezug auf ein objekt in einem umfeld eines fahrzeugs
DE102019109333A1 (de) Verfahren und Verarbeitungseinheit zur Ermittlung der Größe eines Objektes
DE102018200683A1 (de) Verfahren zur Detektion eines Objektes
DE102020102823A1 (de) Fahrzeugkapselnetzwerke
DE102016003261A1 (de) Verfahren zur Selbstlokalisierung eines Fahrzeugs in einer Fahrzeugumgebung
DE112021004200T5 (de) Objekterkennungsvorrichtung
DE102022100545A1 (de) Verbesserte objekterkennung
EP4088224A1 (de) Verfahren zur zusammenführung mehrerer datensätze für die erzeugung eines aktuellen spurmodells einer fahrbahn und vorrichtung zur datenverarbeitung
WO2022228809A1 (de) Verfahren und vorrichtung zur vorhersage von objektdaten zu einem objekt
EP3637311A1 (de) Vorrichtung und verfahren zum ermitteln von höheninformationen eines objekts in einer umgebung eines fahrzeugs
DE102019109332A1 (de) Verfahren und Verarbeitungseinheit zur Ermittlung eines Objekt-Zustands eines Objektes
DE102011118171A1 (de) Verfahren und Vorrichtung zur Schätzung einer Fahrbahnebene und zur Klassifikation von 3D-Punkten
DE102020117271A1 (de) Verfahren und Vorrichtung zur Ermittlung von Objektdaten in Bezug auf ein Objekt
DE102019218479A1 (de) Verfahren und Vorrichtung zur Klassifikation von Objekten auf einer Fahrbahn in einem Umfeld eines Fahrzeugs
DE102018215288A1 (de) Verfahren und Verarbeitungseinheit zur Verfolgung eines Objektes
DE102022126080A1 (de) Raumüberwachungssystem
DE112022002046T5 (de) Fahrvorrichtung, fahrzeug und verfahren zum automatisierten fahren und/oder assistierten fahren
DE102021114734A1 (de) Verbesserte infrastruktur
DE102011111856B4 (de) Verfahren und Vorrichtung zur Detektion mindestens einer Fahrspur in einem Fahrzeugumfeld

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22719544

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280031643.5

Country of ref document: CN

Ref document number: 18288631

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22719544

Country of ref document: EP

Kind code of ref document: A1