WO2022228809A1

WO2022228809A1 - Verfahren und vorrichtung zur vorhersage von objektdaten zu einem objekt

Info

Publication number: WO2022228809A1
Application number: PCT/EP2022/058363
Authority: WO
Inventors: Alvaro Marcos-Ramiro; Mohammad-Ali Nikouei Mahani; Alexander Lehner; Johannes Niedermayer; Barbara Hilsenbeck; Michael Schmidt
Original assignee: Bayerische Motoren Werke Aktiengesellschaft
Priority date: 2021-04-28
Filing date: 2022-03-30
Publication date: 2022-11-03
Also published as: DE102021110824A1; CN117280390A; US20240212206A1

Abstract

Es wird eine Vorrichtung zur Ermittlung von Objektdaten in Bezug auf ein Objekt im Umfeld von zumindest einer Bildkamera beschrieben. Die Vorrichtung ist eingerichtet, auf Basis zumindest eines Bildes der Bildkamera für einen ersten Zeitpunkt mittels eines neuronalen Encoder-Networks einen Kamera-basierten Merkmalstensor zu ermitteln. Des Weiteren ist die Vorrichtung eingerichtet, den Kamera-basierten Merkmalstensor von einer Bildebene des Bildes auf eine Rasterebene eines Umfeldrasters des Umfelds der Bildkamera zu transformieren und/oder zu projizieren, um einen transformierten Merkmalstensor zu ermitteln. Die Vorrichtung ist ferner eingerichtet, Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera auf Basis des transformierten Merkmalstensors mittels eines neuronalen Auswerte-Netzwerks zu ermitteln, wobei die Objektdaten ein oder mehrere prädizierte Eigenschaften des Objektes an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.

Description

Verfahren und Vorrichtung zur Vorhersage von Objektdaten zu einem Objekt

Die Erfindung betrifft ein Verfahren und eine entsprechende Vorrichtung, die es z.B. einem Fahrzeug ermöglichen, auf Basis von Bilddaten von ein oder mehreren Kameras eine Vorhersage von Objektdaten in Bezug auf ein oder mehrere Objekte im Umfeld der ein oder mehreren Kameras zu ermitteln.

Ein Fahrzeug umfasst typischerweise eine Mehrzahl von unterschiedlichen Umfeldsensoren, die eingerichtet sind, unterschiedliche Sensordaten bezüglich des Umfelds des Fahrzeugs zu erfassen. Beispielhafte Umfeldsensoren sind Lidarsensoren, Bildsensoren bzw. Bildkameras, Radarsensoren,

Ultraschall sensoren, etc. Auf Basis der Sensordaten der ein oder mehreren Umfeldsensoren des Fahrzeugs können ein oder mehrere Umgebungs-Objekte (z.B. ein oder mehrere andere Fahrzeuge) in dem Umfeld des Fahrzeugs detektiert und ggf. nachverfolgt werden.

Das vorliegende Dokument befasst sich mit der technischen Aufgabe, eine besonders zuverlässige und/oder präzise Nachverfolgung von ein oder mehreren Objekten auf Basis von Bilddaten von ein oder mehreren Bildkameras zu ermöglichen. Die Aufgabe wird durch jeden der unabhängigen Ansprüche gelöst. Vorteilhafte Ausführungsformen werden u.a. in den abhängigen Ansprüchen beschrieben. Es wird daraufhingewiesen, dass zusätzliche Merkmale eines von einem unabhängigen Patentanspruch abhängigen Patentanspruchs ohne die Merkmale des unabhängigen Patentanspruchs oder nur in Kombination mit einer Teilmenge der Merkmale des unabhängigen Patentanspruchs eine eigene und von der Kombination sämtlicher Merkmale des unabhängigen Patentanspruchs unabhängige Erfindung bilden können, die zum Gegenstand eines unabhängigen Anspruchs, einer Teilungsanmeldung oder einer Nachanmeldung gemacht werden kann. Dies gilt in gleicher Weise für in der Beschreibung beschriebene technische Lehren, die eine von den Merkmalen der unabhängigen Patentansprüche unabhängige Erfindung bilden können.

Gemäß einem Aspekt wird eine Vorrichtung zur Ermittlung von Objektdaten in Bezug auf (zumindest) ein Objekt im Elmfeld von zumindest einer Bildkamera beschrieben. Beispielshafte Objekte sind Hindernisse und/oder andere Verkehrsteilnehmer in einem Elmfeld eines Fahrzeugs. Die Bildkamera kann ausgebildet sein, Bilder, insbesondere eine zeitliche Sequenz von Bildern, in Bezug auf das Elmfeld vor der Bildkamera zu erfassen. Die einzelnen Bilder können in einer (zwei-dimensionalen, 2D) Bildebene angeordnet sein. Insbesondere können die einzelnen Bilder Bildpunkte, etwa eine Matrix von Bildpunkten, in einer bestimmten Bildebene aufweisen.

Die Bildkamera kann in einem Fahrzeug verbaut sein (z.B. als Frontkamera des Fahrzeugs). Das Fahrzeug kann ausgebildet sein, sich auf einer Fahrbahn zu bewegen. Die Bildebene der Bildkamera kann (ggf. im Wesentlichen oder zumindest teilweise) senkrecht zu der Fahrbahn angeordnet sein.

Die Vorrichtung ist eingerichtet, auf Basis zumindest eines Bildes der Bildkamera für einen ersten Zeitpunkt mittels eines neuronalen Encoder-Networks (z.B. mittels eines im Vorfeld angelernten Convolutional Neural Networks) einen Kamera-basierten Merkmalstensor zu ermitteln. Der Kamera-basierte Merkmalstensor kann ein oder mehrere Merkmale (bzw. Features) innerhalb der Bildebene der Bildkamera umfassen. Ein in diesem Dokument beschriebener Merkmalstensor kann zwei oder mehr Dimensionen aufweisen. In einem Spezialfall kann ein Merkmalstensor eine Merkmalsmatrix sein oder umfassen. Beispielsweise kann ein Merkmalstensor mehrere Ebenen von Merkmalsmatrizen aufweisen. In einem solchen Fall kann der Merkmalstensor dreidimensional sein. Jede Ebene kann dabei jeweils einen unterschiedlichen Typ von Merkmal aufweisen.

Die Vorrichtung ist ferner eingerichtet, den Kamera-basierten Merkmalstensor von der Bildebene des Bildes auf eine Rasterebene eines Umfeldrasters des Umfelds der Bildkamera zu transformieren und/oder zu projizieren, um einen transformierten Merkmalstensor (mit ein oder mehreren Merkmalen in der Rasterebene) zu ermitteln. Die Rasterebene kann parallel zu der Fahrbahn angeordnet sein. Die Rasterebene kann einem Bird-Eye-View (BEV) des Umfelds entsprechen. Der Kamera-basierte Merkmalstensor kann mittels einer zeitlich invarianten und/oder im Vorfeld festgelegten Transformation von der Bildebene des Bildes auf die Rasterebene des Umfeldrasters des Umfelds der Bildkamera transformiert und/oder projiziert werden. Eine beispielhafte Transformation wird in Roddick, Thomas, Alex Kendall, and Roberto Cipolla, "Orthographie feature transform for monocular 3d object detection", British Machine Vision Conference (2019) beschrieben. Die Transformation wird in diesem Dokument als „Orthographie Feature Transform“ bezeichnet. Der Inhalt dieses Dokuments wird per Referenz in die vorliegende Beschreibung aufgenommen.

Des Weiteren ist die Vorrichtung eingerichtet, Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera auf Basis des transformierten Merkmalstensors mittels eines neuronalen Auswerte-Netzwerks zu ermitteln. Dabei können die Objektdaten ein oder mehrere prädizierte Eigenschaften des Objektes an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen. Der erste Zeitpunkt kann z.B. ein Zeitpunkt n sein, und der nachfolgende Zeitpunkt kann ein Zeitpunkt n+1 sein. Die Vorrichtung kann eingerichtet sein, die Objektdaten wiederholt, insbesondere periodische, für eine Sequenz von Zeitpunkten n, n+1, n+2, etc. zu ermitteln.

Die ein oder mehreren prädizierten Eigenschaften des Objektes können die Position und/oder die Orientierung des Objektes, insbesondere die Position und/oder die Orientierung innerhalb des Umfeldrasters, an dem nachfolgenden Zeitpunkt umfassen. Alternativ oder ergänzend können die ein oder mehreren prädizierten Eigenschaften des Objektes ein oder mehrere Zellen des Umfeldrasters umfassen, die an dem nachfolgenden Zeitpunkt von dem Objekt belegt werden (um dadurch die Position und/oder die Orientierung des Objektes zu beschreiben). Alternativ oder ergänzend können die ein oder mehreren prädizierten Eigenschaften des Objektes eine Belegungswahrscheinlichkeit und/oder eine Evidenzmasse des Objektes an dem nachfolgenden Zeitpunkt für ein oder mehrere Zellen des Umfeldrasters umfassen.

Es wird somit eine Vorrichtung beschrieben, die es durch Verwendung eines neuronalen Encoder-Netzwerks, einer (festen) Transformation und einem neuronalen Auswerte-Netzwerk ermöglicht, auf Basis von Bildern einer Bildkamera in präziser und robuster Weise (drei-dimensionale, 3D) Objektdaten in Bezug auf ein oder mehrere Objekte auf der Birds-Eye Ebene zu prädizieren. Dabei kann insbesondere eine Voraussage der 3D Position und/oder der 3D Orientierung eines Objektes an einem nachfolgenden Zeitpunkt n+1 innerhalb der Birds-Eye-View Ebene (und nicht (nur) in der Bild-Ebene) erfolgen. Die Vorhersage kann dabei ggf. allein auf Basis der Bilder von ein oder mehreren Kameras erfolgen. Die prädizierten Objektdaten (insbesondere die prädizierten Positionen und/oder Orientierungen) können dann für eine zuverlässige und robuste Nachverfolgung der ein oder mehreren Objekte verwendet werden. Das neuronale Encoder-Netzwerk und das neuronale Auswerte-Netzwerk wurden typischerweise im Vorfeld anhand von gelabelten Trainingsdaten angelernt, wobei die Trainingsdaten eine Vielzahl von Trainings-Datensätzen umfassen. Die einzelnen Trainings-Datensätze können dabei jeweils ein Trainings-Bild der Bildkamera mit ein oder mehreren (darin dargestellten) Trainings -Objekten für einen Trainings-Zeitpunkt und Objektdaten mit ein oder mehreren tatsächlichen Eigenschaften der ein oder mehreren Trainings-Objekte für einen dem jeweiligen Trainings-Zeitpunkt nachfolgenden Zeitpunkt aufweisen.

Die einzelnen Parameter der Netzwerke können unter Verwendung eines Lemverfahrens und einer Fehlerfunktion auf Basis der Trainingsdaten angelernt werden. Dabei kann die Vorrichtung dazu verwendet werden, für einen Trainings- Datensatz ein oder mehrere prädizierte Eigenschaften der ein oder mehreren Trainings-Objekte zu ermitteln, die dann mit den ein oder mehreren tatsächlichen Eigenschaften aus dem Trainings-Datensatz verglichen werden, um die Fehlerfunktion zu ermitteln. Die Fehlerfunktion kann dann dazu verwendet werden, die einzelnen Parameter der neuronalen Netzwerke der Vorrichtung anzupassen, um nach-und-nach die Güte der Vorrichtung bei der Ermittlung der Objektdaten zu erhöhen.

Die Vorrichtung kann eingerichtet sein, eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern der Bildkamera zu einem Gesamtbild für den ersten Zeitpunkt zusammenzufassen, insbesondere zu überlagern oder aneinanderzureihen. Die Mehrzahl von zeitlich aufeinanderfolgenden Bildern kann vor oder spätestens an dem ersten Zeitpunkt von der Bildkamera erfasst worden sein. Es kann somit eine zeitliche Sequenz von Bildern der Bildkamera betrachtet und kombiniert werden. Der Kamera-basierte Merkmalstensor kann dann auf Basis des Gesamtbildes mittels des neuronalen Encoder-Networks ermittelt werden. Durch die Betrachtung einer zeitlichen Sequenz von Bildern können die ein oder mehreren prädizierten Eigenschaften eines (in einem Bild dargestellten) Objektes mit erhöhter Genauigkeit ermittelt werden (insbesondere in Bezug auf Tiefeninformation senkrecht zu der Bildebene der Bildkamera).

Alternativ oder ergänzend kann die Vorrichtung eingerichtet sein, für eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern der Bildkamera mittels des neuronalen Encoder-Networks eine entsprechende Mehrzahl von Kamera basierten Merkmalstensoren zu ermitteln. Dabei kann die Mehrzahl von zeitlich aufeinanderfolgenden Bildern einen Erfassungszeitraum abdecken, der sich zeitlich vor und/oder bis zu dem ersten Zeitpunkt erstreckt. Die einzelnen Bilder einer zeitlichen Sequenz von Bildern können somit einzelnen analysiert werden, um jeweils einen Kamera-basierten Merkmalstensor mit Merkmalen in der Bildebene der Bildkamera zu ermitteln.

Die Vorrichtung kann ferner eingerichtet sein, auf Basis der Mehrzahl von Kamera-basierten Merkmalstensoren eine entsprechende Mehrzahl von transformierten Merkmalstensoren zu ermitteln. Dazu kann jeweils die o.g. Transformation verwendet werden.

Des Weiteren kann die Vorrichtung eingerichtet sein, Odometriedaten in Bezug auf eine Bewegung der Bildkamera während des Erfassungszeitraums zu ermitteln. Wie bereits oben dargelegt, kann die Bildkamera in einem Fahrzeug verbaut sein. Die Bewegung der Bildkamera kann dann der Bewegung des Fahrzeugs entsprechen und es können, z.B. auf Basis eines Radsensors, einer inertialen Messeinheit, eines Geschwindigkeitssensors, eines Beschleunigungssensors, etc., Odometriedaten in Bezug auf die Bewegung des Fahrzeugs ermittelt werden.

Die Mehrzahl von transformierten Merkmalstensoren kann dann unter Berücksichtigung der Odometriedaten kombiniert, insbesondere fusioniert werden, um einen kombinierten, transformierten Merkmalstensor zu ermitteln. Dabei können korrespondierende Merkmale in den einzelnen transformierten Merkmalstensoren auf Basis der Odometriedaten identifiziert (und fusioniert) werden. Die Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera können dann in besonders präziser Weise auf Basis des kombinierten, transformierten Merkmalstensors mittels des neuronalen Auswerte-Netzwerks ermittelt werden.

Die Vorrichtung kann eingerichtet sein, auf Basis zumindest eines Bildes der Bildkamera für den nachfolgenden Zeitpunkt ein oder mehrere, den ein oder mehreren prädizierten Eigenschaften entsprechende, aktualisierte Eigenschaften des Objektes an dem nachfolgenden Zeitpunkt zu ermitteln. Das Objekt kann dann in präziser und robuster Weise auf Basis der ein oder mehreren prädizierten Eigenschaften und auf Basis der ein oder mehreren aktualisierten Eigenschaften, insbesondere auf Basis eines Vergleichs der ein oder mehreren aktualisierten Eigenschaften mit den entsprechenden ein oder mehreren prädizierten Eigenschaften, an aufeinanderfolgenden Zeitpunkten nachverfolgt werden.

Die Vorrichtung kann eingerichtet sein, auf Basis von Raster-basierten Sensordaten von ein oder mehreren Umfeldsensoren (z.B. einem Lidarsensor und/oder einem Radarsensor) für den ersten Zeitpunkt mittels eines weiteren neuronalen Encoder-Netzwerks einen Raster-basierten Merkmalstensor zu ermitteln. Es können somit die Sensordaten von ein oder mehreren Umfeldsensoren verwendet werden, die ausgebildet sind, Information in Bezug auf das Objekt direkt innerhalb der Rasterebene zu sensieren.

Es kann dann auf Basis des transformierten Merkmalstensors und auf Basis des Raster-basierten Merkmalstensors, insbesondere durch Konkatenation und/oder durch Addition, ein fusionierter Merkmalstensor ermittelt werden. Die Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera können dann in besonders präziser und robuster Weise auf Basis des fusionierten Merkmalstensors mittels des neuronalen Auswerte-Netzwerks ermittelt werden. Gemäß einem weiteren Aspekt wird ein (Straßen-)Kraftfahrzeug (insbesondere ein Personenkraftwagen oder ein Lastkraftwagen oder ein Bus oder ein Motorrad) beschrieben, das die in diesem Dokument beschriebene Vorrichtung umfasst.

Gemäß einem weiteren Aspekt wird ein Verfahren zur Ermittlung von Objektdaten in Bezug auf ein Objekt im Umfeld von zumindest einer Bildkamera beschrieben. Das Verfahren umfasst das Ermitteln, mittels eines neuronalen Encoder-Networks, eines Kamera-basierten Merkmalstensors auf Basis zumindest eines Bildes der Bildkamera für einen ersten Zeitpunkt. Des Weiteren umfasst das Verfahren das Transformieren und/oder Projizieren des Kamera-basierten Merkmalstensors von einer Bildebene des Bildes auf eine Rasterebene eines Umfeldrasters des Umfelds der Bildkamera, um einen transformierten Merkmalstensor zu ermitteln. Das Verfahren umfasst ferner das Ermitteln, mittels eines neuronalen Auswerte-Netzwerks, von Objektdaten in Bezug auf das Objekt in dem Umfeld der Bildkamera auf Basis des transformierten Merkmalstensors. Dabei können die Objektdaten ein oder mehrere prädizierte Eigenschaften des Objektes an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.

Gemäß einem weiteren Aspekt wird ein Software (SW) Programm beschrieben. Das SW Programm kann eingerichtet werden, um auf einem Prozessor (z.B. auf einem Steuergerät eines Fahrzeugs) ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.

Gemäß einem weiteren Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem Prozessor ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.

Es ist zu beachten, dass die in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systeme sowohl alleine, als auch in Kombination mit anderen in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systemen verwendet werden können. Des Weiteren können jegliche Aspekte der in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systemen in vielfältiger Weise miteinander kombiniert werden. Insbesondere können die Merkmale der Ansprüche in vielfältiger Weise miteinander kombiniert werden.

Im Weiteren wird die Erfindung anhand von Ausführungsbeispielen näher beschrieben. Dabei zeigen

Figur 1 ein beispielhaftes Fahrzeug mit ein oder mehreren Umfeldsensoren;

Figur 2 ein beispielhaftes Umfeldraster in Bezug auf eine Umgebung bzw. ein Umfeld eines Fahrzeugs;

Figur 3a beispielhafte Eingangsdaten, die zur Erkennung und/oder zur Nachverfolgung eines Objektes verwendet werden können;

Figur 3b eine beispielhafte Vorrichtung zur Erkennung und/oder zur Nachverfolgung eines Objektes auf Basis von Bilddaten;

Figur 4 eine beispielhafte Berücksichtigung von einer Sequenz von Bildern bei der Nachverfolgung eines Objektes; und

Figur 5 ein Ablaufdiagramm eines beispielhaften Verfahrens zur Prädiktion von Objektdaten in Bezug auf ein Objekt auf Basis von Bilddaten.

Wie eingangs dargelegt, befasst sich das vorliegende Dokument mit der zuverlässigen und präzisen Detektion und/oder Nachverfolgung von Objekten auf Basis der Sensordaten von ein oder mehreren Umfeldsensoren. In diesem Zusammenhang zeigt Fig. 1 ein Fahrzeug 100 mit ein oder mehreren Umfeldsensoren 111, 112 zur Erfassung von Sensordaten. Beispielhafte Umfeldsensoren 111, 112 sind ein oder mehrere Lidarsensoren, ein oder mehrere Radarsensoren, ein oder mehrere Bildkameras, etc.

Das Fahrzeug 100 umfasst eine Vorrichtung (bzw. eine Verarbeitungseinheit)

101, die eingerichtet ist, auf Basis der Sensordaten ein Objekt 150 im Umfeld des Fahrzeugs 100 zu detektieren und nachzuverfolgen. Ein detektiertes Objekt 150, insbesondere Objektdaten in Bezug auf ein Objekt 150, kann bzw. können in einer Fahrfunktion 102 (z.B. für das teilautomatisierte oder hochautomatisierte Fahren des Fahrzeugs 100) berücksichtigt werden.

Die lokale Umgebung eines Fahrzeugs 100 kann als Occupancy Grid Map bzw. (Belegungs-) Raster 200 geschätzt bzw. dargestellt werden (siehe Fig. 2). Fig. 2 zeigt ein beispielhaftes Raster 200 einer Umgebung bzw. eines Umfelds des Fahrzeugs 100 mit einer Vielzahl von Rasterzellen oder kurz Zellen 201. Das Raster 200 kann die Umgebung bzw. das Umfeld des Fahrzeugs 100 in die Vielzahl von zwei- (2D) oder drei-dimensionalen (3D) Zellen 201 aufteilen. Eine zwei-dimensionale Zelle 201 kann dabei eine Rechteckform aufweisen (beispielsweise mit einer Kantenlänge von 10cm, 5cm, 2cm, 1cm oder weniger).

Die Verarbeitungseinheit 101 des Fahrzeugs 100 kann eingerichtet sein, auf Basis der Sensordaten für ein oder mehrere der Zellen 201 (insbesondere für jede Zelle 201) Daten zu ermitteln, die anzeigen, ob eine Zelle 201 an einem bestimmten Zeitpunkt t belegt ist oder nicht. Insbesondere können die Daten für eine Zelle 201 anzeigen z_c = (m(0),m(F)), wobei m({0}) eine Evidenz bzw. Evidenzmasse dafür ist, dass die Zelle c 201 durch ein Objekt 150 belegt ist (z.B. ein statisches oder ein dynamisches Objekt), und wobei m(F) eine Evidenz dafür ist, dass die Zelle c 201 frei ist, und somit nicht durch ein Objekt 150 belegt ist. Die Evidenz dafür, dass die Zelle 201 durch eine Objekt 150 belegt ist, kann als Objekt-Wahrscheinlichkeit dafür betrachtet werden, dass die Zelle 201 durch ein Objekt 150 belegt ist (insbesondere im Sinne der Dempster-Shafer Theorie).

Es kann somit auf Basis der Sensordaten von ein oder mehreren Umfeldsensoren 111 ein Raster 200 mit einer Vielzahl von Zellen 201 ermittelt werden, wobei die einzelnen Zellen 201 Information bzw. Daten darüber anzeigen können,

• ob die jeweilige Zelle 201 durch ein Objekt belegt ist oder nicht; und/oder • ob die jeweilige Zelle 201 durch ein dynamisches oder durch ein statisches Objekt belegt ist; und/oder

• wie hoch ein Objekt in der jeweiligen Zelle 201 ist.

Das Raster 200 kann insbesondere auf Basis der Sensordaten eines Lidarsensors und/oder eine Radarsensors 111 ermittelt werden. Die Daten eines (Umfeld-) Rasters 200 können auch als Bird Eye View (BEV) Daten in Bezug auf das Umfeld bezeichnet werden, da das Raster 200 das Umfeld in einer Draufsicht von Oben beschreibt.

Wie bereits oben dargelegt, kann ein Fahrzeug 100 unterschiedliche Typen von Umfeldsensoren 111, 112 aufweisen. Insbesondere kann ein Fahrzeug 100 ein oder mehrere Umfeldsensoren 111 (etwa einen Lidarsensor und/oder einen Radarsensor) umfassen, mit denen direkt Daten für ein BEV Umfeldraster 200 ermittelt werden können (wie beispielhaft in Fig. 3a dargestellt). Des Weiteren kann ein Fahrzeug 100 ein oder mehrere Umfeldsensoren 112 (insbesondere ein oder mehreren Kameras) umfassen, mit denen zwei-dimensionale (2D) Bilder 300 des Umfelds erfasst werden können. Die Bilder 300 weisen dabei eine Perspektive auf das Umfeld auf, die von der Perspektive des BEV Umfeldrasters 200 abweicht (wie in Fig. 3a, rechte Seite, dargestellt).

Fig. 3b zeigt eine beispielhafte Detektions- und/oder Prädiktions-Vorrichtung 310, die eingerichtet ist, die Sensordaten und/oder die Information aus den unterschiedlichen Typen von Umfeldsensoren 111, 112 zu fusionieren, um mit erhöhter Genauigkeit Objektdaten 330 in Bezug auf ein oder mehreren Objekte 150 zu ermitteln, insbesondere für einen zukünftigen Zeitpunkt zu prädizieren.

Die Vorrichtung 310 umfasst ein erstes neuronales Encoder-Netzwerk 311, das eingerichtet ist, auf Basis der Sensordaten 320 eines Umfeldsensors 111 (die innerhalb des Umfeldrasters 200 bereitgestellt werden) einen ersten (Raster basierten) Merkmalstensor 313 zu ermitteln. Des Weiteren umfasst die Vorrichtung 310 ein oder mehrere zweite neuronale Encoder-Netzwerke 312, die jeweils eingerichtet sind, auf Basis der ein oder mehreren Bilder 300 von ein oder mehreren Kameras 112 jeweils einen zweiten (Kamera-basierten) Merkmalstensor 314 zu ermitteln.

Die ein oder mehreren zweiten (Kamera-basierten) Merkmalstensoren 314 können mittels einer Transformation 315 auf das Raster 200 projiziert werden, um ein oder mehrere entsprechende transformierte Merkmalstensoren 319 bereitzustellen. Eine beispielhafte Transformation 315 wird in Roddick, Thomas, Alex Kendall, and Roberto Cipolla, "Orthographie feature transform for monocular 3d object detection", arXiv preprint arXiv: 1811.08188 (2018) bzw. British Machine Vision Conference (2019) beschrieben. Der Inhalt dieses Dokuments wird per Referenz in die vorliegende Beschreibung aufgenommen.

Der erste (Raster-basierte) Merkmalstensor 313 kann dann in einer Fusionseinheit 316 mit den ein oder mehreren transformierten Merkmalstensoren 319 fusioniert werden, z.B. durch Konkatenation und/oder durch Addition, um einen fusionierten Merkmalstensor 317 bereitzustellen. Die Objektdaten 330 für ein oder mehrere Objekte 150 können dann mittels eines Auswerte-Netzwerks 318 auf Basis des fusionierten Merkmalstensors 317 ermittelt werden.

Die neuronalen Netzwerte 311, 312, 318 der Vorrichtung 310 können auf Basis von gelabelten Trainingsdaten und ggf. unter Verwendung des Backpropagation- Algorithmus angelernt werden.

In der in Fig. 3b dargestellten Vorrichtung 310 ist die Verarbeitung von Raster basierten Umfelddaten 320, wie z.B. Daten eines Lidarsensors und/oder eines Radarsensors 111, optional. Die Vorrichtung 310 kann eingerichtet sein, allein auf Basis von Kamera-basierten Daten 300 Objektdaten 330 in Bezug auf ein oder mehrere Objekte 150 zu ermitteln. Die von der Vorrichtung 310 ermittelten Objektdaten 330 können eine Prädiktion bzw. eine Vorhersage von ein oder mehreren Eigenschaften eines bereits detektierten Objektes 150 umfassen. Dabei können die ein oder mehreren Eigenschaften für einen nachfolgenden Zeitpunkt aus einer Sequenz von Zeitpunkten prädiziert werden. Die Vorrichtung 310 kann eingerichtet sein, wiederholt, insbesondere periodisch, auf Basis von jeweils aktuellen Eingangsdaten 300, 320 jeweils aktuelle Objektdaten 330 zu ermitteln. Beispielsweise können so für eine Sequenz von Zeitpunkten n jeweils Objektdaten 330 ermittelt werden. Die Vorrichtung 310 kann eingerichtet sein, auf Basis der Eingangsdaten 300, 320 für einen Zeitpunkt n ein oder mehrere Eigenschaften eines Objektes 150 an einem nachfolgenden Zeitpunkt n+1 zu prädizieren. Die ein oder mehreren prädizierten Eigenschaften können dann für eine Nachverfolgung (auf Englisch, für ein „Tracking“) des Objektes 150 verwendet werden.

Beispielhafte Eigenschaften eines Objektes 150 sind

• die Position (eines Referenzpunktes) des Objektes 150;

• eine Ausrichtung bzw. Orientierung des Objektes 150;

• ein oder mehrere von dem Objekt 150 belegte Zellen 201; und/oder

• eine Belegungswahrscheinlichkeit und/oder eine Evidenzmasse von ein oder mehreren Zellen 201 bezüglich der Belegung durch das Objekt 150.

Die Objektdaten 330 können insbesondere ein auf Basis der Eingangsdaten 300, 320 für den Zeitpunkt n prädiziertes Belegungsraster 200 für den nachfolgenden Zeitpunkt n+1 umfassen. Ferner können die Objektdaten 330 eine Zuordnung zwischen belegten Rasterzellen 201 und einzelnen Objekten 150 anzeigen. Das für den nachfolgenden Zeitpunkt n+1 prädizierte Belegungsraster 200 kann dann mit einem auf Basis der Eingangsdaten 300, 320 für den nachfolgenden Zeitpunkt n+1 ermittelten Belegungsraster 200 überlagert werden, um eine besonders präzise und robuste Nachverfolgung von detektierten Objekten 150 zu ermöglichen. Dabei kann insbesondere die aus dem prädizierten Belegungsraster 200 bekannte Zuordnung der einzelnen Rasterzellen 201 zu den einzelnen Objekten 150 in dem für den nachfolgenden Zeitpunkt n+1 ermittelten Belegungsraster 200 verwendet werden, um darin die einzelnen Objekte 150 lokalisieren zu können.

Die Kamera-basierten Eingangsdaten 300 können, wie beispielhaft in Fig. 4 dargestellt, eine zeitliche Sequenz von Bildern 401, 402, 403 einer Kamera 112 aufweisen. Die zeitliche Sequenz von Bildern 401, 402, 403 kann überlagert und/oder aneinandergereiht werden, um anhand eines (neuronalen) Encoder- Netzwerks 312 einen Kamera-basierten Merkmalstensor 314 zu ermitteln. Anhand eines Verarbeitungsmoduls 410, das z.B. die Transformationseinheit 316 und das Auswerte-Netzwerk 318 umfasst, können dann die Objektdaten 330 mit erhöhter Genauigkeit ermittelt werden.

Alternativ oder ergänzend können für die einzelnen Bilder 401, 402, 403 anhand des Encoder-Netzwerks 312 jeweils einen Kamera-basierten Merkmalstensor 314 ermittelt werden. Die einzelnen Kamera-basierten Merkmalstensoren 314 können dann jeweils in der Transformationseinheit 315 in einen transformierten Merkmalstensor 319 transformiert werden.

Die einzelnen transformierten Merkmalstensoren 319 zeigen dabei jeweils entsprechende Merkmale auf, die jedoch aufgrund einer Bewegung der Bildkamera 112, insbesondere des Fahrzeugs 100, an unterschiedlichen Positionen innerhalb des Raster 200 angeordnet sein können. Auf Basis von Odometriedaten in Bezug auf die Bewegung der Bildkamera 112, insbesondere des Fahrzeugs 100, kann eine präzise Zuordnung von entsprechenden Merkmalen in den einzelnen transformierten Merkmalstensoren 319 durchgeführt werden, um die transformierten Merkmalstensoren 319 zu fusionieren und um basierend darauf die Objektdaten 330 mit erhöhter Genauigkeit zu ermitteln.

Fig. 5 zeigt ein Ablaufdiagramm eines beispielhaften (ggf. Computer implementierten) Verfahrens 500 zur Ermittlung von Objektdaten 330 in Bezug auf ein oder mehrere Objekte 150 im Umfeld von ein oder mehreren Bildkameras 112. Die ein oder mehreren Bildkameras 112 können in einem Fahrzeug 100 angeordnet sein. Das Verfahren 500 kann durch eine Steuereinheit 101 des Fahrzeugs 100 ausgeführt werden.

Das Verfahren 500 umfasst das Ermitteln 501, mittels eines neuronalen Encoder- Networks 312, eines Kamera-basierten Merkmalstensors 314 auf Basis zumindest eines Bildes 300 von zumindest einer Bildkamera 112 für einen ersten Zeitpunkt. Das Encoder-Netzwerk 312 kann ein Convolutional Neural Network (CNN) umfassen. Das Bild 300 kann das Umfeld der Bildkamera 112 auf einer 2D Bildebene anzeigen. Ferner kann der Kamera-basierte Merkmalstensor 314 Merkmale bzw. Features in einer 2D Ebene anzeigen (die der 2D Bildebene entspricht).

Des Weiteren umfasst das Verfahren 500 das Transformieren und/oder Projizieren 502 des Kamera-basierten Merkmalstensors 314 (mittels einer vordefinierten und/oder fixierten Transformation) von der (2D) Bildebene des Bildes 300 auf die Rasterebene eines Umfeldrasters 200 des Umfelds der Bildkamera 112, um einen transformierten Merkmalstensor 319 zu ermitteln. Die Rasterebene kann dabei der Ebene eines BEV auf das Umfeld vor der Bildkamera 112 entsprechen. Als Transformation kann die o.g. Transformation verwendet werden. Die Transformation kann dabei (ggf. allein) von der geometrischen Anordnung der Bildebene und der Rasterebene zueinander abhängen.

Das Verfahren 500 umfasst ferner das Ermitteln 503, mittels eines neuronalen Auswerte-Netzwerks 318, von Objektdaten 330 in Bezug auf das Objekt 150 in dem Umfeld der Bildkamera 112 auf Basis des transformierten Merkmalstensors 319. Dabei können die Objektdaten 330 ein oder mehrere prädizierte Eigenschaften des Objektes 150 an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen. Es kann somit eine Prädiktion von ein oder mehreren Eigenschaften eines in dem Bild 300 dargestellten Objektes 150 in die Zukunft erfolgen. So kann eine besonders präzise und robuste Nachverfolgung des Objektes 150 ermöglicht werden.

Die vorliegende Erfindung ist nicht auf die gezeigten Ausführungsbeispiele beschränkt. Insbesondere ist zu beachten, dass die Beschreibung und die Figuren nur beispielhaft das Prinzip der vorgeschlagenen Verfahren, Vorrichtungen und Systeme veranschaulichen sollen.

Claims

Ansprüche

1) Vorrichtung (101, 310) zur Ermittlung von Objektdaten (330) in Bezug auf ein Objekt (150) im Umfeld von zumindest einer Bildkamera (112); wobei die Vorrichtung (101, 310) eingerichtet ist,

- auf Basis zumindest eines Bildes (300) der Bildkamera (112) für einen ersten Zeitpunkt mittels eines neuronalen Encoder-Networks (312) einen Kamera-basierten Merkmalstensor (314) zu ermitteln;

- den Kamera-basierten Merkmalstensor (314) von einer Bildebene des Bildes (300) auf eine Rasterebene eines Umfeldrasters (200) des

Umfelds der Bildkamera (112) zu transformieren und/oder zu projizieren, um einen transformierten Merkmalstensor (319) zu ermitteln; und

- Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des transformierten Merkmalstensors

(319) mittels eines neuronalen Auswerte-Netzwerks (318) zu ermitteln; wobei die Objektdaten (330) ein oder mehrere prädizierte Eigenschaften des Objektes (150) an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.

2) Vorrichtung (101, 310) gemäß Anspruch 1, wobei die ein oder mehreren prädizierten Eigenschaften des Objektes (150) eine Position und/oder eine Orientierung des Objektes (150), insbesondere eine Position und/oder Orientierung innerhalb des Umfeldrasters (200), an dem nachfolgenden Zeitpunkt umfassen.

3) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die ein oder mehreren prädizierten Eigenschaften des Objektes (150) umfassen, - ein oder mehrere Zellen (201) des Umfeldrasters (200), die an dem nachfolgenden Zeitpunkt von dem Objekt (150) belegt werden; und/oder

- eine Belegungswahrscheinlichkeit und/oder eine Evidenzmasse des Objektes (150) an dem nachfolgenden Zeitpunkt für ein oder mehrere Zellen (201) des Umfeldrasters (200).

4) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei der Kamera-basierte Merkmalstensor (314) mittels einer zeitlich invarianten und/oder im Vorfeld festgelegten Transformation von der Bildebene des Bildes (300) auf die Rasterebene des Umfeldrasters (200) des Umfelds der Bildkamera (112) transformiert und/oder projiziert wird.

5) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei

- das neuronale Encoder-Netzwerk (312) und das neuronale Auswerte- Netzwerk (317) im Vorfeld anhand von gelabelten Trainingsdaten angelernt wurden;

- die Trainingsdaten eine Vielzahl von Trainings-Datensätzen umfassen; und

- ein Trainings-Datensatz jeweils ein Trainings-Bild (300) der Bildkamera (112) mit ein oder mehreren Trainings-Objekten (150) für einen Trainings-Zeitpunkt und Objektdaten (330) mit ein oder mehreren tatsächlichen Eigenschaften der ein oder mehreren Trainings-Objekte (150) für einen dem Trainings-Zeitpunkt nachfolgenden Zeitpunkt aufweist.

6) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,

- eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401, 402, 403) der Bildkamera (112) zu einem Gesamtbild (300) für den ersten Zeitpunkt zusammenzufassen, insbesondere zu überlagern oder aneinanderzureihen; wobei die Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401, 402, 403) vor oder spätestens an dem ersten Zeitpunkt von der Bildkamera (112) erfasst wurden; und

- den Kamera-basierten Merkmalstensor (314) auf Basis des Gesamtbildes (300) mittels des neuronalen Encoder-Networks (312) zu ermitteln.

7) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,

- für eine Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401,

402, 403) der Bildkamera (112) mittels des neuronalen Encoder- Networks (312) eine entsprechende Mehrzahl von Kamera-basierten Merkmalstensoren (314) zu ermitteln; wobei die Mehrzahl von zeitlich aufeinanderfolgenden Bildern (401, 402, 403) einen Erfassungszeitraum abdecken, der sich zeitlich vor und/oder bis zu dem ersten Zeitpunkt erstreckt;

- auf Basis der Mehrzahl von Kamera-basierten Merkmalstensoren (314) eine entsprechende Mehrzahl von transformierten Merkmalstensoren (319) zu ermitteln;

- Odometriedaten in Bezug auf eine Bewegung der Bildkamera (112) während des Erfassungszeitraums zu ermitteln;

- die Mehrzahl von transformierten Merkmalstensoren (319) unter Berücksichtigung der Odometriedaten zu kombinieren, insbesondere zu fusionieren, um einen kombinierten, transformierten Merkmalstensor zu ermitteln; und

- die Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des kombinierten, transformierten Merkmalstensors mittels des neuronalen Auswerte-Netzwerks (318) zu ermitteln. 8) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,

- auf Basis zumindest eines Bildes (300) der Bildkamera (112) für den nachfolgenden Zeitpunkt ein oder mehrere, den ein oder mehreren prädizierten Eigenschaften entsprechende, aktualisierte Eigenschaften des Objektes (150) an dem nachfolgenden Zeitpunkt zu ermitteln; und

- das Objekt (150) auf Basis der ein oder mehreren prädizierten Eigenschaften und auf Basis der ein oder mehreren aktualisierten Eigenschaften, insbesondere auf Basis eines Vergleichs der ein oder mehreren aktualisierten Eigenschaften mit den entsprechenden ein oder mehreren prädizierten Eigenschaften, an aufeinanderfolgenden Zeitpunkten nachzuverfolgen.

9) Vorrichtung (101, 310) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (101, 310) eingerichtet ist,

- auf Basis von Raster-basierten Sensordaten von ein oder mehreren Umfeldsensoren (111) für den ersten Zeitpunkt mittels eines weiteren neuronalen Encoder-Netzwerks (311) einen Raster-basierten Merkmalstensor (313) zu ermitteln;

- auf Basis des transformierten Merkmalstensors (319) und auf Basis des Raster-basierten Merkmalstensors (313), insbesondere durch Konkatenation und/oder durch Addition, einen fusionierten Merkmalstensor (317) zu ermitteln; und

- die Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des fusionierten Merkmalstensors (417) mittels des neuronalen Auswerte-Netzwerks (318) zu ermitteln.

10) Verfahren (500) zur Ermittlung von Objektdaten (330) in Bezug auf ein Objekt (150) im Umfeld von zumindest einer Bildkamera (112); wobei das Verfahren (500) umfasst, - Ermitteln (501), mittels eines neuronalen Encoder-Networks (312), eines Kamera-basierten Merkmalstensors (314) auf Basis zumindest eines Bildes (300) der Bildkamera (112) für einen ersten Zeitpunkt;

- Transformieren und/oder Projizieren (502) des Kamera-basierten Merkmalstensors (314) von einer Bildebene des Bildes (300) auf eine

Rasterebene eines Umfeldrasters (200) des Umfelds der Bildkamera (112), um einen transformierten Merkmalstensor (319) zu ermitteln; und

- Ermitteln (503), mittels eines neuronalen Auswerte-Netzwerks (318), von Objektdaten (330) in Bezug auf das Objekt (150) in dem Umfeld der Bildkamera (112) auf Basis des transformierten Merkmalstensors (319); wobei die Objektdaten (330) ein oder mehrere prädizierte Eigenschaften des Objektes (150) an einem dem ersten Zeitpunkt nachfolgenden Zeitpunkt umfassen.