WO2019201565A1

WO2019201565A1 - Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten

Info

Publication number: WO2019201565A1
Application number: PCT/EP2019/057701
Authority: WO
Inventors: Simon Steinmeyer; Marek Musial; Carsten Deeg; Thorsten Bagdonat; Thorsten Graf
Original assignee: Volkswagen Aktiengesellschaft
Priority date: 2018-04-18
Filing date: 2019-03-27
Publication date: 2019-10-24
Also published as: US20210158544A1; CN111937036A; EP3782117A1; DE102018205879A1; US11935250B2

Abstract

Ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten. In einem ersten Schritt werden durch eine Kamera Kamerabilder erfasst (20). Durch zumindest einen 3D-Sensor werden zudem 3D-Messpunkte erfasst (21). Optional kann zumindest eines der Kamerabilder segmentiert werden (22). Die Kamerabilder werden dann durch eine Datenfusionseinheit mit den 3D-Messpunkten zu Daten eines virtuellen Sensors fusioniert (23). Die resultierenden Daten werden schließlich für eine weitere Verarbeitung ausgegeben (24).

Description

Beschreibung

Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zur

Verarbeitung von Sensordaten

Die vorliegende Erfindung betrifft ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten. Die Erfindung betrifft weiterhin ein Kraftfahrzeug, in dem ein erfindungsgemäßes Verfahren oder eine

erfindungsgemäße Vorrichtung eingesetzt wird.

Moderne Kraftfahrzeuge haben bereits heute eine Vielzahl von Sensoren für verschiedene Level-2-Assistenzsysteme (teilautomatisierte Systeme).

Beispielsweise beschreibt die DE 10 201 1 013 776 A1 ein Verfahren zur Erfassung oder Verfolgung von Objekten in einer Fahrzeugumgebung. Die Objekte werden aus einem optischen Fluss anhand einer Ermittlung von korrespondierenden Bildpunkten in zumindest zwei Bildern erfasst. Dabei wird eine Entfernung der Objekte aus dem optischen Fluss anhand der Ermittlung der korrespondierenden Bildpunkte in den zumindest zwei Bildern ermittelt. Diejenigen Objekte, welche sich in einem Erfassungsbereich eines Entfernungs- Messsensors befinden und deren aus dem optischen Fluss ermittelte Entfernung kleiner ist als ein mittels des Entfernungs-Messsensors ermittelter Entfernungswert, bleiben unberücksichtigt.

Die DE 10 2017 100 199 A1 beschreibt ein Verfahren zum Erfassen von Fußgängern. In einem ersten Schritt wird ein Bild eines Bereichs in der Nähe eines Fahrzeugs empfangen. Unter Verwendung eines ersten neuronalen Netzwerks wird das Bild verarbeitet, um Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden. Die bestimmten Orte des Bildes werden dann unter Verwendung eines zweiten neuronalen Netzwerks verarbeitet, um zu bestimmen, ob ein Fußgänger anwesend ist. Bei Anwesenheit eines Fußgängers ergeht eine Benachrichtigung an ein Fahrassistenzsystem oder ein automatisiertes Fahrsystem. Die neuronalen Netzwerke können ein tiefes Faltungsnetzwerk umfassen.

Für Level-3- und höhere Systeme (hochautomatisierte und autonome Systeme) wird die Anzahl der verbauten Sensoren weiter steigen. Hierbei wird es aus Sicherheitsgründen redundante Erfassungsbereiche geben, welche von mehreren Sensoren mit unterschiedlichen Messprinzipien abgedeckt werden.

Hierbei spielen Kamerasensoren, Radar- und Laserscanner die wichtigste Rolle. Es ist insbesondere davon auszugehen, dass in kritischen Bereichen mindestens ein

Kamerasensor und ein 3D-Sensor vorhanden sind, welche diesen abdecken. Beispiele für 3D-Sensoren sind Laserscanner oder ein Radarsensor mit Elevationsmessung.

In klassischen Systemen existiert ein sogenanntes Objekttracking, das Objekthypothesen aufsetzt, welche durch neue Sensormessungen bestätigt und aktualisiert werden.

Klassischerweise nutzt man dabei sogenannte„Prädiktor-Korrektor-Filter“, wie

beispielsweise einen Kalmanfilter. Wenn eine neue Messung eintrifft, werden alle Objekte mittels eines Dynamikmodells auf den Messzeitpunkt der neuen Messung prädiziert.

Anschließend wird versucht, die Messung zu einem existierenden Objekt zuzuordnen. Falls dieses gelingt, so wird der Track aktualisiert. Falls dieses scheitert, wird eine neue

Objekthypothese aufgesetzt, d.h. ein neuer Track.

Vor diesem Hintergrund beschreibt die DE 10 2011 119 767 A1 ein Verfahren zum

Vereinigen von Kamera- und Entfernungssensordaten, um mindestens ein externes Objekt in einem Fahrzeug mit einem Sensoruntersystem mit einer Kamera und einem

Entfernungssensor und mit einem Bordcomputer zu verfolgen. Auf der Basis einer vom Sensoruntersystem des Fahrzeugs empfangenen Eingabe stellt ein Bordcomputer fest, dass Daten eines neuen Objekts, die dem Objekt entsprechen, verfügbar sind. Der Bordcomputer registriert die Daten des neuen Objekts und schätzt einen erwarteten Ort und ein erwartetes Erscheinungsbild für das Objekt gemäß einem Vorhersagealgorithmus ab, um eine vorhergesagte Spur für das Objekt zu erzeugen. Zudem analysiert der Bordcomputer die Bewegung für das Objekt, einschließlich eines Vergleichens der vorhergesagten Spur mit einer existierenden Spur, die dem Objekt zugeordnet ist und in einer Datenbank des

Bordcomputers gespeichert ist.

Beim klassischen Objekttracking sind eine Reihe von Herausforderungen insbesondere im Assoziationsschritt zu berücksichtigen, damit Mehrdeutigkeiten vermieden werden.

Beispielsweise kann der Dynamikzustand nicht immer gut geschätzt werden: Je nach Messungen und Zustand eines Tracks ist häufig kein kartesischer Geschwindigkeitsvektor bekannt. Eine Beschleunigung kann nur durch längere Beobachtung geschätzt werden. Dies kann zu großen Fehlern im Prädiktionsschritt führen. Zudem kann sich ein Objekt entgegen dem Dynamikmodell verhalten, z.B. durch abruptes Bremsen. Dieses abweichende

Verhalten kann ebenfalls zu Prädiktionsfehlern führen.

Daneben gibt es zwischen unterschiedlichen Sensoren häufig systematische Messfehler: Ein Laserscanner nimmt z.B. besonders gut stark reflektierende Oberflächen wahr, wie

Nummernschilder oder Katzenaugen, während schwarz lackierte Fahrzeuge schwer detektierbar sind. Radarsensoren nehmen hingegen metallische Objekte mit großen

Radarquerschnitt gut wahr, wie Heckleuchten, geknickte Bleche etc. Hierbei werden dann durch die Sensoren von einem Objekt unterschiedliche Punkte angemessen, welche ggf. weit entfernt voneinander liegen, aber dem gleichen Objekt zuzuordnen sind. Zudem weisen einige Sensoren, z.B. Radarsensoren, eine vergleichsweise geringe Trennschärfe auf, sodass hier das Mehrdeutigkeitsproblem verschärft wird.

Eine fehlerhafte Behandlung von Mehrdeutigkeiten kann zu Fehlassoziationen führen, bei denen Objekttracks mit falschen Messdaten assoziiert und aktualisiert werden. Dies kann unangenehme Folgen haben. Beispielsweise kann einer Randbebauung fälschlicherweise eine Quergeschwindigkeit zugeordnet werden. Die Randbebauung erscheint daraufhin dynamisch und wandert in den Fahrschlauch. Dies kann eine Notbremsung aufgrund eines „Geisterobjekts“ verursachen. Ebenso kann es passieren, dass eine Randbebauung, z.B. ein mittels Laserscanner gemessener Poller, einem nahen dynamischen Objekt zugeordnet wird, z.B. einem Fahrzeug, dass den Poller gerade passiert. Dies verhindert, dass der Poller rechtzeitig als solcher erkannt wird, wodurch es zu einer Kollision mit der Randbebauung kommen kann.

Es ist eine Aufgabe der Erfindung, Lösungen für die Verarbeitung von Sensordaten aufzuzeigen, die es erlauben, die beim Objekttracking auftretenden Probleme zu reduzieren.

Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 , durch ein computerlesbares Speichermedium mit Instruktionen gemäß Anspruch 12 und durch eine Vorrichtung mit den Merkmalen des Anspruchs 13 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.

Gemäß einem ersten Aspekt der Erfindung umfasst ein Verfahren zur Verarbeitung von Sensordaten die Schritte:

- Erfassen von Kamerabildern durch eine Kamera;

- Erfassen von 3D-Messpunkten durch zumindest einen 3D-Sensor; und

- Fusionieren der Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors. Gemäß einem weiteren Aspekt der Erfindung enthält ein computerlesbares Speichermedium Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der folgende Schritte zur Verarbeitung von Sensordaten veranlassen:

- Erfassen von Kamerabildern durch eine Kamera;

- Erfassen von 3D-Messpunktendurch zumindest einen 3D-Sensor; und

- Fusionieren der Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors.

Der Begriff Computer ist dabei breit zu verstehen. Insbesondere umfasst er auch

Steuergeräte und andere prozessorbasierte Datenverarbeitungsvorrichtungen.

Gemäß einem weiteren Aspekt der Erfindung weist eine Vorrichtung zur Verarbeitung von Sensordaten auf:

- einen Eingang zum Empfangen von Kamerabildern einer Kamera und von 3D-Messpunkten eines 3D-Sensors; und

- eine Datenfusionseinheit zum Fusionieren der Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors.

Im Rahmen eines Vorverarbeitungsschrittes für die Auswertung von Sensordaten, insbesondere im Rahmen einer Objektverfolgung, wird das Konzept eines virtuellen Sensors eingeführt. Dieser fusioniert die Messdaten von Kamera und 3D-Sensoren auf einer früheren Messpunkt-Ebene und abstrahiert somit die einzelnen Sensoren. Die resultierenden Daten aus dem virtuellen Sensor lassen sich bei der nachfolgenden Objektverfolgung zu

Objekthypothesen mit hoher Qualität clustern, da sie umfangreiche Informationen enthalten, um verschiedene Klassen zu separieren. Durch die erfindungsgemäße Lösung wird verhindert, dass die Objekthypothesen verschiedener Sensoren mit systematischen Fehlern über Zeit in einem gemeinsamen Modell fusioniert werden, wobei leicht Assoziationsfehler auftreten. Dadurch wird eine robuste Umfeldwahrnehmung ermöglicht, welche

hochautomatisierte und autonome Fahrfunktionen erlaubt.

Gemäß einem Aspekt der Erfindung umfasst das Fusionieren der Bilddaten mit den 3D- Messpunkten zu Daten eines virtuellen Sensors:

- Berechnen eines optischen Flusses aus zumindest einem ersten Kamerabild und einem zweiten Kamerabild; und

- Bestimmen von Pixeln in zumindest einem der Kamerabilder, die einem der 3D-Messpunkte zu einem Zeitpunkt der Messung zuzuordnen sind, auf Basis des optischen Flusses. Mittels des berechneten optischen Flusses werden die 3D-Messpunkte mit den Kamerabildern synchronisiert. Dies ist besonders vorteilhaft, da der optische Fluss automatisch Fremd- und Eigenbewegungen korrekt berücksichtigt. Es ist kein

Dynamikmodell hinterlegt, welches Fehler induzieren könnte.

Gemäß einem Aspekt der Erfindung umfasst das Bestimmen von Pixeln in zumindest einem der Kamerabilder, die einem der 3D-Messpunkte zu einem Zeitpunkt der Messung zuzuordnen sind:

- Umrechnen eines Kamerabildes in der zeitlichen Nähe eines Messzeitpunktes des 3D- Sensors auf Basis des optischen Flusses; und

- Projizieren der 3D-Messpunkte in das umgerechnete Kamerabild.

Mit Hilfe des optischen Flusses lässt sich das ganze Kamerabild auf den Messzeitpunkt des 3D-Sensors umrechnen. Im Anschluss können dann die 3D-Messpunkte aus dem tiefenmessenden Sensor in das Kamerabild projiziert werden. Hierzu können die Pixel beispielsweise als unendlich lange Strahlen behandelt werden, welche sich mit dem 3D- Messpunkten schneiden.

- Bestimmen derjenigen Pixel im Kamerabild, die zum Zeitpunkt der Messung den 3D- Messpunkten zuzuordnen sind, auf Basis des optischen Flusses und eines Suchverfahrens; und

- Projizieren der 3D-Messpunkte an die so bestimmten Stellen im Kamerabild.

Mit Hilfe des optischen Flusses und eines Suchverfahrens ist es möglich, diejenigen Pixel im Kamerabild zu ermitteln, die zum Zeitpunkt der Messung den 3D-Messpunkten zuzuordnen sind. Diese ist insbesondere bei einem Lidar-System sinnvoll, wo durch den scannenden Effekt jeder Messpunkt seinen eigenen Zeitstempel hat. Der auf einen Suchverfahren basierende Ansatz ist deutlich weniger rechenaufwendig, als für jeden Messpunkt das ganze Bild umzurechnen.

Gemäß einem Aspekt der Erfindung wird aus dem optischen Fluss eine Zeit bis zur Kollision für die Pixel der Kamerabilder bestimmt. Aus der Zeit bis zur Kollision, dem optischen Fluss und einer Abstandsmessung für einen 3D-Messpunkt kann dann ein kartesischer

Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Dieser kann beispielsweise genutzt werden, um überlappende Objekte einer gleichen Klasse zu unterscheiden. Bisherige Sensoren müssen für eine solche Unterscheidung Objekte über die Zeit mittels Dynamik- und Assoziationsmodellen verfolgen, was relativ fehlerträchtig ist.

Gemäß einem Aspekt der Erfindung wird aus einer radialen Relativgeschwindigkeit und einer Abstandsmessung eine Zeit bis zur Kollision aus einer 3D-Messung bestimmt. Aus der Zeit bis zur Kollision und dem optischen Fluss kann dann ein kartesischer

Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Dieser Ansatz hat den Vorteil, dass die Messung der zeit bis zur Kollision besonders genau ist, wenn die radiale Relativgeschwindigkeit beispielsweise aus einem Radarsensor stammt. Zudem lassen sich Objektbewegungen sowohl horizontal als auch vertikal (optischer Fluss) im Bild recht genau beobachten. Der resultierende Geschwindigkeitsvektor ist daher im Allgemeinen präziser als wenn man die Zeit bis zur Kollision alleine aus dem Bild schätzt.

Gemäß einem Aspekt der Erfindung werden die 3D-Messpunkte um Attribute aus zumindest einem der Kamerabilder erweitert. Bei den Attributen kann es sich beispielsweise um den (gemittelten) optischen Fluss oder die Position im Bildraum des oder der zugehörigen Pixel aus dem Kamerabild handeln. Ebenso können der Geschwindigkeitsvektor, eine

Dopplergeschwindigkeit, die Reflektivität bzw. der Radarquerschnitt oder die Konfidenz hinzugefügt werden. Die zusätzlichen Attribute erlauben die Realisierung einer robusteren Objektverfolgung oder auch eine bessere Segmentierung.

Gemäß einem Aspekt der Erfindung werden ein Kamerabild nahe eines Messzeitpunktes der 3D-Messung segmentiert. Optional werden vor dem Segmentieren Messpunkte des 3D- Sensors mittels des optischen Flusses präzise in das Bild projiziert und deren Messattribute in weiteren Dimensionen abgelegt. Dies ermöglicht eine sensorübergreifende

Segmentierung.

Das Segmentieren erfolgt dabei vorzugsweise durch ein neuronales Netz. Durch die

Segmentierung werden zum einen Assoziationsfehler vermieden, zum anderen können Mehrdeutigkeiten zwischen zwei Klassen aufgelöst werden. Aus der Segmentierung resultierende Klasseninformationen bzw. Identifikatoren werden den 3D-Messpunkten vorzugsweise ebenfalls als Attribute hinzugefügt.

Gemäß einem Aspekt der Erfindung wird ein Algorithmus zur Objektverfolgung auf die Daten des virtuellen Sensors angewandt. Dieser Algorithmus nimmt vorzugsweise eine akkumulierende Sensordatenfusion vor. Die akkumulierende Sensordatenfusion ermöglicht eine Filterung der Daten über die Zeit und daher eine zuverlässige Objektverfolgung.

Besonders vorteilhaft wird ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung in einem Fahrzeug, insbesondere einem Kraftfahrzeug, eingesetzt.

Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den angehängten Ansprüchen in Verbindung mit den Figuren ersichtlich.

Fig. 1 zeigt schematisch den Ablauf eines klassischen Objekttrackings;

Fig. 2 zeigt schematisch ein Verfahren zur Verarbeitung von Sensordaten;

Fig. 3 zeigt schematisch das Fusionieren von Kamerabildern mit 3D-Messpunkten zu

Daten eines virtuellen Sensors;

Fig. 4 zeigt eine erste Ausführungsform einer Vorrichtung zur Verarbeitung von

Sensordaten;

Fig. 5 zeigt eine zweite Ausführungsform einer Vorrichtung zur Verarbeitung von

Sensordaten;

Fig. 6 stellt schematisch ein Kraftfahrzeug dar, in dem eine erfindungsgemäße Lösung realisiert ist;

Fig. 7 zeigt schematisch das Konzept eines virtuellen Sensors; und

Fig. 8 zeigt schematisch das Konzept eines virtuellen Sensors mit Klassifikator.

Zum besseren Verständnis der Prinzipien der vorliegenden Erfindung werden nachfolgend Ausführungsformen der Erfindung anhand der Figuren detaillierter erläutert. Es versteht sich, dass sich die Erfindung nicht auf diese Ausführungsformen beschränkt und dass die beschriebenen Merkmale auch kombiniert oder modifiziert werden können, ohne den Schutzbereich der Erfindung zu verlassen, wie er in den angehängten Ansprüchen definiert ist. Fig. 1 zeigt schematisch den Ablauf eines klassischen Objekttrackings. Eingangsgrößen für das Objekttracking sind Sensordaten E und in den Messraum transformierte Trackzustände. In einem ersten Schritt 10 wird versucht, eine Messung mit einem Track zu assoziieren. Anschließend wird überprüft 11 , ob die Assoziation erfolgreich war. Ist die der Fall, so wird der entsprechende Track aktualisiert 12. Schlägt die Assoziation jedoch fehl, so wird ein neuer Track initialisiert 13. Dieses Vorgehen wird für alle Messungen wiederholt. Weiterhin wird für alle Tracks überprüft 14, ob der jeweilige Track lange Zeit nicht aktualisiert wurde. Tracks, für die dies bejaht wird, werden gelöscht 15. Ausgangsgröße des Objekttrackings ist eine Objektliste A. Die zugehörigen Tracks werden auf den nächsten Messzeitpunkt prädiziert 16 und die resultierenden Trackzustände für den nächsten Durchgang des Objekttrackings wiederum in den Messraum transformiert 17.

Fig. 2 zeigt schematisch ein Verfahren zur Verarbeitung von Sensordaten. In einem ersten Schritt werden durch eine Kamera Kamerabilder erfasst 20. Durch zumindest einen 3D- Sensor werden zudem 3D-Messpunkte erfasst 21. Optional kann zumindest eines der Kamerabilder segmentiert werden 22, z.B. durch ein neuronales Netz. Die Kamerabilder werden dann durch eine Datenfusionseinheit mit den 3D-Messpunkten zu Daten eines virtuellen Sensors fusioniert 23. Hierbei wird ein optischer Fluss bestimmt, welcher zur Synchronisation von Bild- und 3D-Messpunkten genutzt wird. Die 3D-Messpunkte können dabei um Attribute aus zumindest einem der Kamerabilder erweitert werden. Die

resultierenden Daten werden schließlich für eine weitere Verarbeitung ausgegeben 24. Bei der weiteren Verarbeitung kann beispielsweise ein Algorithmus zur Objektverfolgung auf die Daten des virtuellen Sensors angewandt werden. Der Algorithmus kann z.B. eine akkumulierende Sensordatenfusion vornehmen. Zudem können die Daten des virtuellen Sensors segmentiert werden. Das Segmentieren kann dabei wiederum durch ein neuronales Netz erfolgen.

Fig. 3 zeigt schematisch das Fusionieren von Kamerabildern mit 3D-Messpunkten zu Daten eines virtuellen Sensors. In einem ersten Schritt wird aus zumindest einem ersten

Kamerabild und einem zweiten Kamerabild ein optischer Fluss berechnet 30. Aus dem optischen Fluss kann optional für die Pixel der Kamerabilder eine Zeit bis zur Kollision bestimmt werden 31. Aus der Zeit bis zur Kollision, dem optischen Fluss und einer

Abstandsmessung für einen 3D-Messpunkt kann zudem ein Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Alternativ kann aus einer radialen

Relativgeschwindigkeit und einer Abstandsmessung eine Zeit bis zur Kollision aus einer 3D- Messung bestimmt werden. Aus der Zeit bis zur Kollision und dem optischen Fluss kann dann ein kartesischer Geschwindigkeitsvektor für diesen 3D-Messpunkt berechnet werden. Auf Basis des optischen Flusses werden schließlich Pixel in zumindest einem der

Kamerabilder bestimmt 32, die einem der 3D-Messpunkte zugeordnet sind. Dazu kann zunächst ein Kamerabild in der zeitlichen Nähe eines Messzeitpunktes des 3D-Sensors auf Basis des optischen Flusses umgerechnet werden. Die 3D-Messpunkte können dann in das umgerechnete Kamerabild projiziert werden.

Fig. 4 zeigt eine vereinfachte schematische Darstellung einer ersten Ausführungsform einer Vorrichtung 40 zur Verarbeitung von Sensordaten. Die Vorrichtung 40 hat einen Eingang 41 , über den Kamerabilder 11 , I2 einer Kamera 61 und 3D-Messpunkte MP zumindest eines 3D- Sensors 62, 64 empfangen werden können. Die Vorrichtung 40 hat zudem optional einen Segmentierer 42 zum Segmentieren zumindest eines Kamerabildes bzw. eines mit weiteren Messungen angereicherten Kamerabildes 11 , I2, z.B. mittels eines neuronalen Netzes. Durch eine Datenfusionseinheit 43 werden die Kamerabilder 11 , I2 mit den 3D-Messpunkten MP zu Daten VS eines virtuellen Sensors fusioniert. Die 3D-Messpunkte MP können dabei um Attribute aus zumindest einem der Kamerabilder 11 , 12 erweitert werden. Für das Fusionieren kann die Datenfusionseinheit 43 in einem ersten Schritt aus zumindest einem ersten Kamerabild 11 und einem zweiten Kamerabild I2 einen optischen Fluss berechnen. Aus dem optischen Fluss kann optional eine Zeit bis zur Kollision für die Pixel der Kamerabilder 11 , I2 bestimmt werden. Aus der Zeit bis zur Kollision, dem optischen Fluss und einer

Abstandsmessung für einen gegebenen 3D-Messpunkt MP kann dann ein

Geschwindigkeitsvektor für diesen 3D-Messpunkt MP berechnet werden. Alternativ kann aus einer radialen Relativgeschwindigkeit und einer Abstandsmessung eine Zeit bis zur Kollision aus einer 3D-Messung bestimmt werden. Aus der Zeit bis zur Kollision und dem optischen Fluss kann dann ein kartesischer Geschwindigkeitsvektor für diesen 3D-Messpunkt MP berechnet werden. Auf Basis des optischen Flusses bestimmt die Datenfusionseinheit 43 schließlich Pixel in zumindest einem der Kamerabilder 11 , I2, die einem der 3D-Messpunkte MP zugeordnet sind. Dazu kann zunächst ein Kamerabild 11 , I2 in der zeitlichen Nähe eines Messzeitpunktes MP des 3D-Sensors 62, 64 auf Basis des optischen Flusses umgerechnet werden. Die 3D-Messpunkte MP können dann in das umgerechnete Kamerabild projiziert werden.

Ein ebenfalls optionaler Objekttracker 44 kann auf Basis der Daten VS des virtuellen Sensors eine Objektverfolgung durchführen. Der Objekttracker 44 kann z.B. eine

akkumulierende Sensordatenfusion vornehmen. Diese kann allerdings ebenfalls außerhalb der Vorrichtung 40 vorgenommen werden. Über einen Ausgang 47 der Vorrichtung 40 werden die Daten VS des virtuellen Sensors oder die Ergebnisse der Objektverfolgung oder der Segmentierung für eine weitere Verarbeitung ausgegeben. Der Segmentierer 42, die Datenfusionseinheit 43 und der Objekttracker 44 können von einer Kontrolleinheit 45 gesteuert werden. Über eine Benutzerschnittstelle 48 können

gegebenenfalls Einstellungen des Segmentierers 42, der Datenfusionseinheit 43, des Objekttrackers 44 oder der Kontrolleinheit 45 geändert werden. Die in der Vorrichtung 40 anfallenden Daten können bei Bedarf in einem Speicher 46 der Vorrichtung 40 abgelegt werden, beispielsweise für eine spätere Auswertung oder für eine Nutzung durch die

Komponenten der Vorrichtung 40. Der Segmentierer 42, die Datenfusionseinheit 43, der Objekttracker 44 sowie die Kontrolleinheit 45 können als dedizierte Hardware realisiert sein, beispielsweise als integrierte Schaltungen. Natürlich können sie aber auch teilweise oder vollständig kombiniert oder als Software implementiert werden, die auf einem geeigneten Prozessor läuft, beispielsweise auf einer GPU oder einer CPU. Der Eingang 41 und der Ausgang 47 können als getrennte Schnittstellen oder als eine kombinierte bidirektionale Schnittstelle implementiert sein.

Fig. 5 zeigt eine vereinfachte schematische Darstellung einer zweiten Ausführungsform einer Vorrichtung 50 zur Verarbeitung von Sensordaten. Die Vorrichtung 50 weist einen Prozessor 52 und einen Speicher 51 auf. Beispielsweise handelt es sich bei der Vorrichtung 50 um einen Computer oder ein Steuergerät. Im Speicher 51 sind Instruktionen abgelegt, die die Vorrichtung 50 bei Ausführung durch den Prozessor 52 veranlassen, die Schritte gemäß einem der beschriebenen Verfahren auszuführen. Die im Speicher 51 abgelegten

Instruktionen verkörpern somit ein durch den Prozessor 52 ausführbares Programm, welches das erfindungsgemäße Verfahren realisiert. Die Vorrichtung 50 hat einen Eingang 53 zum Empfangen von Informationen, insbesondere von Sensordaten. Vom Prozessor 52 generierte Daten werden über einen Ausgang 54 bereitgestellt. Darüber hinaus können sie im Speicher 51 abgelegt werden. Der Eingang 53 und der Ausgang 54 können zu einer bidirektionalen Schnittstelle zusammengefasst sein.

Der Prozessor 52 kann eine oder mehrere Prozessoreinheiten umfassen, beispielsweise Mikroprozessoren, digitale Signalprozessoren oder Kombinationen daraus.

Die Speicher 46, 51 der beschriebenen Ausführungsformen können sowohl volatile als auch nichtvolatile Speicherbereiche aufweisen und unterschiedlichste Speichergeräte und

Speichermedien umfassen, beispielsweise Festplatten, optische Speichermedien oder Halbleiterspeicher. Fig. 6 stellt schematisch ein Kraftfahrzeug 50 dar, in dem eine erfindungsgemäße Lösung realisiert ist. Das Kraftfahrzeug 60 weist eine Kamera 61 zum Erfassen von Kamerabildern sowie einen Radarsensor 62 zum Erfassen von 3D-Messpunkten auf. Weiterhin weist das Kraftfahrzeug 60 eine Vorrichtung 40 zur Verarbeitung von Sensordaten auf, mittels derer die Kamerabilder mit den 3D-Messpunkten zu Daten eines virtuellen Sensors fusioniert werden. Weitere Komponenten des Kraftfahrzeugs 60 sind Ultraschallsensoren 63 und ein Lidar- System 64 zur Umgebungserfassung, eine Datenübertragungseinheit 65 sowie eine Reihe von Assistenzsystemen 66, von denen eines exemplarisch dargestellt ist. Die

Assistenzsysteme können die von der Vorrichtung 20 bereitgestellten Daten nutzen, beispielsweise für ein Objekttracking. Mittels der Datenübertragungseinheit 65 kann eine Verbindung zu Dienstanbietern aufgebaut werden, beispielsweise zum Abrufen von

Navigationsdaten. Zur Speicherung von Daten ist ein Speicher 67 vorhanden. Der

Datenaustausch zwischen den verschiedenen Komponenten des Kraftfahrzeugs 50 erfolgt über ein Netzwerk 68.

Nachfolgend sollen bevorzugte Ausführungsformen der Erfindung anhand der Figuren 7 und 8 beschrieben werden.

Anstatt Messdaten verschiedener Sensoren mit systematischen Fehlern über die Zeit in einem gemeinsamen Modell zu fusionieren, wobei leicht Assoziationsfehler auftreten, wird das Konzept eines virtuellen Sensors eingeführt. Dieser fusioniert die Messdaten von Kamera und 3D-Sensoren auf einer früheren Messpunkt-Ebene und abstrahiert somit die einzelnen Sensoren.

Fig. 7 zeigt schematisch das Konzept eines virtuellen Sensors als Basis für eine

akkumulierende Sensordatenfusion. Eingangsgrößen für die Sensorfusion durch eine Datenfusionseinheit 43 sind 3D-Messpunkte eines 3D-Sensors (Radar 62) sowie

Kamerabilder einer Kamera 61. Die Kamera 61 kann bereits eine Verarbeitung der

Kamerabilder vornehmen, um beispielsweise den optischen Fluss zu bestimmen, Bildpunkte im Rahmen einer Segmentierung zu klassifizieren oder mittels SfM-Algorithmen (SfM:

Structure from Motion; Struktur aus Bewegung) Punkte aus den Kamerabildern zu extrahieren. Diese Verarbeitung der Kamerabilder kann aber auch durch die

Datenfusionseinheit 43 vorgenommen werden. Weiterhin kann die Kamera 61 Angaben zur Kameraposition übermitteln. Weitere mögliche Datenquellen sind Ultraschallsensoren 63 oder ein Lidar-System 64. Durch die Datenfusionseinheit 43 erfolgt einen Fusion der Daten über eine sehr kurze Zeitspanne. Die 3D-Punkte aus der Datenfusionseinheit 42 werden anschließend einer akkumulierenden Sensordatenfusion 44 übergeben, welche eine

Filterung über Zeit ermöglicht.

Eine wesentliche Herausforderung für die Datenfusion besteht darin, dass die Sensoren 61 , 62 zu unterschiedlichen Zeitpunkten messen. Es ist daher eine präzise Synchronisation der Daten der verschiedenen Sensoren 61 , 62 erforderlich. Für die Synchronisation der

Sensoren 61 , 62 wird vorzugsweise der aus den Kamerabildern bestimmte optische Fluss genutzt. Nachfolgend sollen zunächst Grundlagen der Synchronisation erläutert werden.

Eine detaillierte Beschreibung, wie die verschiedenen auftretenden Koordinatensysteme behandelt werden, erfolgt weiter unten.

Gegeben sind die 3D-Messpunkte, welche zu einem Zeitpunkt t aufgenommen worden sind. Es werden nun zumindest zwei Kamerabilder verwendet, z.B. die Kamerabilder vor und nach dem Messzeitpunkt t, um zunächst einen optischen Fluss o zu berechnen.

Vorzugsweise wird das Bild, welches sich vom Aufnahmezeitpunkt t am dichtesten vom Messzeitpunkt des 3D-Sensors befindet, herangezogen. Die Differenzzeit zwischen dem Aufnahmezeitpunkt dieses Bildes und der Messung sei At. Der optische Fluss o wird im Bildraum (Polarraum) gemessen.

Ein Pixel mit der Position p und dem optischem Fluss o wird nun wie folgt prädiziert: r' = p + o At (1 )

Unter Berücksichtigung der Zeit bis zur Kollision (Time to collision), bezeichnet mit TTC, deren Bestimmung weiter unten erläutert wird, kann diese Formel noch verfeinert werden: o At TTC

P = p + (2)

TTC - At

Mit diesem Ansatz lässt sich das ganze Bild auf den Messzeitpunkt t des 3D-Sensors umrechnen. Im Anschluss lassen sich leicht die 3D-Messpunkte aus dem tiefenmessenden Sensor in das Bild projizieren. Hierzu können die Pixel als unendlich lange Strahlen behandelt werden, welche sich mit dem 3D-Messpunkten schneiden.

Bei einem Lidar-System ist es allerdings so, dass durch den scannenden Effekt jeder Messpunkt seinen eigenen Zeitstempel hat. Man kann in diesem Fall für jeden Messpunkt das ganze Bild umrechnen, dies ist aber rechenaufwendig. Eine Alternativmöglichkeit ist es, nach demjenigen Pixel mit der Position p im Originalbild zu suchen, welche die obige Gleichung (1 ) für den 3D-Messpunkt mit den Bildkoordinaten p‘ erfüllt.

Hierzu können verschiedene Algorithmen genutzt werden. Zum einen kann man alle optischen Flussvektoren mit Linienalgorithmen so rendern, dass in jedem Pixel die umschließende Box („Bounding Box“) des Vektors angeben wird. Überschneiden sich mehrere Flussvektoren in einem Pixel, so wird die Bounding Box entsprechend so vergrößert, dass beide Vektoren in der Box enthalten sind. Der anschließende

Suchalgorithmus muss nun nur die Bounding Box berücksichtigen, in der der gesuchte Pixel enthalten sein muss.

Eine weitere Möglichkeit besteht in der Implementierung von Suchbäumen, z. B. von Quadtrees (Quaternärbäume), ähnlich wie zur Kollisionserkennung.

Der 3D-Messpunkt hat meist eine Winkelunsicherheit, z. B. durch Strahlaufweitung. Daher werden vorzugsweise alle Pixel im Umkreis der Unsicherheit berücksichtigt, um den 3D- Messpunkt um Attribute aus dem Bild zu erweitern. Bei den Attributen kann es sich beispielsweise um den gemittelten optischen Fluss o ( o_x , o_y) oder die Position im Bildraum p (p_x, p_y ) handeln.

Aufgrund jüngster Fortschritte im Bereich der Bildverarbeitung mittels„[Deep] Convolutional Neuronal Networks (CNN)“ ([tiefe] gefaltete neuronale Netze) ist mit entsprechender Rechenleistung eine pixelgenaue Segmentierung von Bildern möglich. Wird zumindest eines der Kamerabilder durch ein solches neuronales Netz segmentiert, so können die 3D- Messpunkte zusätzlich um die aus der Segmentierung resultierenden Klasse sowie den zugehörigen Identifikator erweitert werden.

Die resultierenden Punkte aus dem virtuellen Sensor lassen sich zu Objekthypothesen mit hoher Qualität clustern, da sie umfangreiche Informationen enthalten, um Klassen zu separieren. Insbesondere sind dies die Klasseninformation und der Identifikator aus der Segmentierung sowie der kartesische Geschwindigkeitsvektor, der z. B. bei überlappenden Objekten der gleichen Klasse von Nutzen ist.

Die erweiterten 3D-Messpunkte oder Cluster aus dem virtuellen Sensor bzw. die Cluster werden anschließend einer akkumulierenden Sensordatenfusion übergeben, welche eine Filterung über Zeit ermöglicht. Bei einigen aktuellen neuronalen Netzen ist es möglich, dass diese sogenannte Instanzen bilden. Als Beispiel sein eine Parkreihe mit stehenden

Fahrzeugen gegeben, die von der Kamera schräg erfasst werden. Neuere Verfahren können dann trotz Überlappung im Bild die unterschiedlichen Fahrzeuge trennen. Wenn das neuronale Netz Instanzen bildet, kann man diese natürlich als Clusterinformation in der akkumulierenden Sensordatenfusion nutzen.

Sofern durch eine Segmentierung der Kamerabilder Informationen zu Bildsegmenten vorliegen, kann gegebenenfalls auf die vollständige Berechnung des optischen Flusses verzichtet werden. Stattdessen können durch geeignete Algorithmen auch die

Veränderungen der einzelnen Bildsegmente über die Zeit bestimmt werden, was sich besonders effizient umsetzen lässt.

Aus dem optischen Fluss o im Bildraum lässt sich eine Zeit bis zur Kollision bestimmen. Diese beschreibt, wann ein Punkt die Hauptebene der Kameraoptik durchstößt.

Mit dem Abstand b = p₁ - p₂ zweier zusammengehöriger Punkte p_{1 ;} p₂ im Bild zu zwei Zeitpunkten t , t₂ bzw. mit dem Abstand zu einem Zeitpunkt und den zugehörigen optischen Flüssen o , o₂ kann die TTC berechnet werden:

Im Folgenden wird für die mathematische Darstellung ein Lochkameramodell genutzt. Aus der Bildposition p_x, p_y (in Pixel), der TTC (in s), dem optischen Fluss o (in Pixel/s) und der Abstandsmessung d in Richtung Bildebene des Kamerasensors (in m) lässt sich ein kartesischer Geschwindigkeitsvektor v (in m/s) für die 3D-Messung bestimmen, welcher relativ zur Egobewegung im Kamerakoordinatensystem ist. Zu beachten ist, dass optischer Fluss o und Pixelposition p im Bildraum angegeben ist, während die Geschwindigkeiten v_{xy z} im Kamerakoordinatensystem bestimmt werden.

Zusätzlich zu den Messattributen wird eine Kamerakonstante K benötigt, die die Bildweite b (in m) und die Auflösung D (Pixel pro m) des abbildenden Systems berücksichtigt. Die Geschwindigkeiten ergeben sich dann wie folgt d

V_x = (4)

TTC

Sollte der 3D-Messpunkt aus einem Radarsensor stammen, so kann zusätzlich die radiale Relativgeschwindigkeit (Dopplergeschwindigkeit) genutzt werden, um die Messung zu stabilisieren: Mittels dieser Relativgeschwindigkeit und Abstandsmessung kann durch Quotientenbildung eine alternative TTC bestimmt werden. Dies ist insbesondere bei Features nahe dem Expansionspunkt der Kamera nützlich, da dort nur ein geringer optischer Fluss herrscht. Dieses betrifft also Objekte im Fahrschlauch. Der Fahrschlauch wird jedoch meist durch besonders viele Sensoren abgedeckt, sodass die Information in der Regel verfügbar ist.

Fig. 8 zeigt schematisch das Konzept eines virtuellen Sensors mit Klassifikator. Das Konzept entspricht weitgehend dem aus Fig. 7 bekannten Konzept. Zurzeit werden zur

Bildklassifikation oftmals gefaltete neuronale Netze verwendet. Diese benötigen nach Möglichkeit lokal assoziierbare Daten, welche in einem Bild natürlicherweise vorliegen.

Nachbarpixel gehören häufig zum gleichen Objekt und beschreiben die Nachbarschaft im polaren Bildraum.

Vorzugsweise verlassen sich die neuronalen Netze allerdings nicht nur auf Bilddaten, welche bei schlechten Lichtverhältnissen kaum Daten liefern und auch Abstandsschätzungen generell schwer machen. In weiteren Dimensionen werden deshalb Messdaten anderer Sensoren, insbesondere aus Laser- und Radarmessungen, in den Zustandsraum projiziert. Für eine gute Performance ist es dabei sinnvoll, die Messdaten mittels des optischen Flusses zu synchronisieren, damit die neuronalen Netze die Datenlokalität gut ausnutzen können.

Die Synchronisation kann dabei auf folgende Weise vorgenommen werden. Ausgangspunkt ist ein Kamerabild, welches vom Aufnahmezeitpunkt möglichst nahe an allen Sensordaten liegt. Neben den Pixelinformationen werden nun weitere Daten annotiert: Dazu gehört im ersten Schritt die Verschiebung im Bild, beispielsweise mit Hilfe des optischen Flusses. Mittels des weiter oben bereits beschriebenen Prädiktionsschrittes werden wiederum die Pixel identifiziert, welche gemäß der Pixelverschiebung mit den verfügbaren 3D-Messdaten, beispielsweise aus Laser- oder Radarmessungen, assoziieren. Da es bei den Messungen Strahlaufweitungen gibt, sind hier meist mehrere Pixel betroffen. Die assoziierten Pixel werden um weitere Dimensionen erweitert und die Messattribute entsprechend eingetragen. Mögliche Attribute sind beispielsweise: neben der Abstandsmessung aus Laser, Radar oder Ultraschall, die Dopplergeschwindigkeit vom Radar, die Reflektivität bzw. der

Radarquerschnitt oder auch Konfidenz.

Das synchronisierte und um Messattribute erweiterte Kamerabild wird nun mit einem

Klassifikator bzw. Segmentierer 42, bevorzugt mit einem gefalteten neuronalen Netz, klassifiziert. Hierbei können nun alle Informationen so generiert werden, wie dies weiter oben in Verbindung mit Fig. 7 beschrieben wurde.

Nachfolgend soll detailliert der mathematische Hintergrund erläutert werden, der für die Synchronisation der Kamerabilder und der 3D-Messpunkte erforderlich ist. Angenommen wird dabei eine Kamera, die als Lochkamera modelliert werden kann. Diese Annahme dient lediglich dazu, die Transformationen leichter handhabbar zu machen. Lässt sich die verwendete Kamera nicht angemessen als Lochkamera modellieren, können stattdessen Verzerrungsmodelle genutzt werden, um Ansichten zu generieren, die dem

Lochkameramodell genügen. In diesen Fällen müssen in den folgenden Gleichungen die Parameter des virtuellen Lochkameramodells verwendet werden.

Zunächst müssen Koordinatensysteme und die Transformationen zwischen den

Koordinatensystemen definiert werden. Insgesamt werden fünf Koordinatensysteme definiert:

- C_w ist das 3D-Weltkoordinatensystem

- C_v ist das 3D-Koordinatensystem des Ego-Fahrzeugs

- C_c ist das 3D-Koordinatensystem der Kamera

- C_s ist das 3D-Koordinatensystem des 3D-Sensors

- ist das 2D-Bildkoordinatensystem

Die Koordinatensysteme von Kamera, 3D-Sensor, Bild und Ego-Fahrzeug sind eng miteinander verknüpft. Da sich das Ego-Fahrzeug relativ zum Weltkoordinatensystem bewegt, werden die folgenden vier Transformationen zwischen den Koordinatensystemen definiert: - T_v<-w(t) ist die Transformation, die einen 3D-Punkt im Weltkoordinatensystem in das 3D- Koordinatensystem des Ego-Fahrzeugs transformiert. Diese Transformation hängt von der Zeit t ab, da sich das Ego-Fahrzeug über die Zeit bewegt.

Ts_<-v ist die Transformation, die einen 3D-Punkt im 3D-Koordinatensystem des Ego- Fahrzeugs in das 3D-Koordinatensystem des 3D-Sensors transformiert.

Tc_<-v ist die Transformation, die einen 3D-Punkt im 3D-Koordinatensystem des Ego- Fahrzeugs in das 3D-Koordinatensystem der Kamera transformiert.

- Pi^c ist die Transformation, die einen 3D-Punkt im 3D-Koordinatensystem der Kamera in das 2D-Bildkoordinatensystem projiziert.

Ein sich im Weltkoordinatensystem bewegender Weltpunkt, z.B. ein Punkt auf einem

Fahrzeug, kann beschrieben werden durch x_w(t).

Dieser Punkt wird durch die Kamera zu einem Zeitpunkt t₀ und durch den 3D-Sensor zu einem Zeitpunkt t erfasst. In homogenen Koordinaten beobachtet die Kamera den zugehörigen Bildpunkt X_j(t₀):

xi(^fo)— ^«-c ' Tc<_v · Tvi-wC^o) ' ^xw(^fo) (6)

Der 3D-Sensor beobachtet den zugehörigen Punkt x_s: xs(^fi) ⁼ T_8<_n · TVi-wCti) · ^xw(^fi) (7)

Die Gleichungen (6) und (7) sind miteinander durch die Bewegung des Ego-Fahrzeugs und die Bewegung des Weltpunktes verknüpft. Während Informationen zur Bewegung des Ego- Fahrzeugs vorliegen, ist die Bewegung des Weltpunktes unbekannt.

Es ist daher erforderlich, Informationen zur Bewegung des Weltpunktes zu ermitteln.

Gegeben sei eine zweite Messung der Kamera zu einem Zeitpunkt t₂

xi (^2 )— ^<-C Tc<-V · Tvi-wfe) ^xw(^f2) (8)

Man kann nun die Gleichungen (6) und (8) miteinander kombinieren: Ax_j (t₀, t₂) = Xi(t₂) - Xi(t₀)

= Pl«-C Tc<-V · Ty^wfe) ^xw(^f2)

(9)

Im Koordinatensystem des Ego-Fahrzeugs ist der beobachtete Punkt x_v(t) gegeben durch: cn(£)— T_v<-w(t) · x_w(t) (10)

Wendet man dies auf Gleichung (10) an, so erhält man:

= Pi«-c ' Tc -v ' D^c _n(£_0< t₂)

Gleichung (1 1 ) stellt eine Beziehung zwischen dem optischen Flussvektor und dem

Bewegungsvektor des Weltpunktes her. Ax_j(t₀, t₂) ist nichts anderes als der optische

Flussvektor zwischen den zu den Zeitpunkten t₀ und t₂ aufgenommenen Kamerabildern und Ax_v(t₀, t₂) ist der korrespondierende Bewegungsvektor des Weltpunktes ausgedrückt in C_v. Der optische Flussvektor ist somit die Projektion des Bewegungsvektors im 3D-Raum.

Die Messungen der Kamera und des 3D-Sensors können nicht direkt miteinander kombiniert werden. Es muss zunächst als zusätzliche Annahme eingeführt werden, dass die Bewegung in der Bildebene zwischen den Zeitpunkten t₀ und t₂ linear ist. Unter dieser Annahme ist der zu einem Weltpunkt gehörige Bildpunkt bestimmt durch:

Aus Gleichung (1 1 ) ist klar, dass sowohl die Bewegung des Weltpunktes als auch die Bewegung des Ego-Fahrzeugs linear sein müssen.

Die Transformation aus Gleichung (7) in Bezug auf den 3D-Sensor kann genutzt werden, um einen in C_s zum Zeitpunkt t gemessenen 3D-Messpunkt im Koordinatensystem C_c der Kamera zu bestimmen: ^xs (^fi)— Ts<-v · TV -wCti) · ^xw(^fi)

Zudem kann man mittels Gleichung (6) die Pixelkoordinaten des Weltpunktes bestimmen, die dieser in einem zum Zeitpunkt t aufgenommenen virtuellen Kamerabild hätte:

Wendet man Gleichung (13) auf Gleichung (14) an, so erhält man:

Andererseits kann man ci(^) aus Gleichung (12) bestimmen:

Gleichung (16) stellt eine Beziehung zwischen den Messungen der Kamera und den

Messungen des 3D-Sensors her. Wenn der Weltpunkt in Weltkoordinaten wohldefiniert ist, die Zeitpunkte t₀ , t und t₂ sowie die Bildkoordinaten in zwei Kamerabildern und die

Messung des 3D-Sensors bekannt sind, so stellt Gleichung (16) eine vollständige Beziehung her, d.h. es gibt keine unbekannten Größen.

Dieser Umstand kann selbst dann genutzt werden, wenn die korrekte Übereinstimmung zwischen Messungen des 3D-Sensors und der Kamera nicht bekannt ist. Liegt eine Messung des 3D-Sensors zum Zeitpunkt t vor, so kann sie in ein virtuelles Kamerabild transformiert werden, d.h. das Kamerabild, das die Kamera zum Zeitpunkt ^erfassen würde. Die virtuellen Pixelkoordinaten dazu sind X_j(ti). Mittels des optischen Flussvektors V_j(t₀, t₂) kann man nun nach dem Pixel X_j(t₀) suchen, für den V_j(t₀, t₂) ·—— + X_j (t₀) gleich oder zumindest sehr

nahe ci(^) ist. Bezugszeichenliste

Assoziieren einer Messung mit einem Track

Überprüfen der Assoziation auf Erfolg

Aktualisieren des entsprechenden Tracks

Initialisieren eines neuen Tracks

Überprüfen eines Tracks auf Zeitpunkt der letzten Aktualisierung Löschen eines Tracks

Prädizieren der T racks auf den nächsten Messzeitpunkt

Transformieren der Trackzustände in den Messraum

Erfassen von Kamerabildern

Erfassen von 3D-Messpunkten

Segmentieren zumindest eines Kamerabildes

Fusionieren der Kamerabilder mit den 3D-Messpunkten

Ausgeben von Daten eines virtuellen Sensors

Berechnen eines optischen Flusses

Bestimmen einer Zeit bis zur Kollision

Bestimmen von Pixeln, die einem der 3D-Messpunkte zugeordnet sind Vorrichtung

Eingang

Segmentierer

Datenfusionseinheit

Objekttracker

Kontrolleinheit

Speicher

Ausgang

Benutzerschnittstelle

Vorrichtung

Speicher

Prozessor

Eingang

Ausgang

Kraftfahrzeug

Kamera

Radarsensor

Ultraschallsensor 64 Lidar-System

65 Datenübertragungseinheit

66 Assistenzsystem

67 Speicher

68 Netzwerk

A Objektliste

E Sensordaten

FL Optischer Fluss

11 , I2 Kamerabild

MP Messpunkt

TTC Zeit bis zur Kollision

VS Daten eines virtuellen Sensors

Claims

Patentansprüche

1. Verfahren zur Verarbeitung von Sensordaten, mit den Schritten:

- Erfassen (20) von Kamerabildern (11 , I2) durch eine Kamera (61 );

- Erfassen (21 ) von 3D-Messpunkten (MP) durch zumindest einen 3D-Sensor (62, 64); und

- Fusionieren (23) der Kamerabilder (11 , I2) mit den 3D-Messpunkten (MP) zu Daten (VS) eines virtuellen Sensors.

2. Verfahren gemäß Anspruch 1 , wobei das Fusionieren der Bilddaten mit den 3D- Messpunkten zu Daten eines virtuellen Sensors umfasst:

- Berechnen (30) eines optischen Flusses (FL) aus zumindest einem ersten

Kamerabild (11 ) und einem zweiten Kamerabild (I2); und

- Bestimmen (32) von Pixeln in zumindest einem der Kamerabilder (11 , I2), die einem der 3D-Messpunkte (MP) zu einem Zeitpunkt der Messung zuzuordnen sind, auf Basis des optischen Flusses (FL).

3. Verfahren gemäß Anspruch 2, wobei das Bestimmen (32) von Pixeln in zumindest einem der Kamerabilder (11 , I2), die einem der 3D-Messpunkte (MP) zu einem

Zeitpunkt der Messung zuzuordnen sind, umfasst:

- Umrechnen eines Kamerabildes (11 , I2) in der zeitlichen Nähe eines Messzeitpunktes des 3D-Sensors (62, 64) auf Basis des optischen Flusses (FL); und

- Projizieren der 3D-Messpunkte (MP) in das umgerechnete Kamerabild.

4. Verfahren gemäß Anspruch 2, wobei das Bestimmen (32) von Pixeln in zumindest einem der Kamerabilder (11 , I2), die einem der 3D-Messpunkte (MP) zu einem

Zeitpunkt der Messung zuzuordnen sind, umfasst:

- Bestimmen derjenigen Pixel im Kamerabild (11 , I2), die zum Zeitpunkt der Messung den 3D-Messpunkten (MP) zuzuordnen sind, auf Basis des optischen Flusses (FL) und eines Suchverfahrens; und

- Projizieren der 3D-Messpunkte (MP) an die so bestimmten Stellen im Kamerabild (11 , I2).

5. Verfahren gemäß einem der Ansprüche 2 bis 4, wobei aus dem optischen Fluss (FL) eine Zeit bis zur Kollision (TTC) für die Pixel der Kamerabilder bestimmt wird (31 ) und aus der Zeit bis zur Kollision (TTC), dem optischen Fluss (FL) und einer Abstandsmessung für einen 3D-Messpunkt (MP) ein Geschwindigkeitsvektor für diesen 3D-Messpunkt (MP) berechnet wird.

6. Verfahren gemäß 5, wobei die Zeit bis zur Kollision statt aus dem optischen Fluss aus einer Messung des 3D-Sensors (62, 64) bestimmt wird (31 ).

7. Verfahren gemäß einem der vorherigen Ansprüche, wobei die 3D-Messpunkte um Attribute aus zumindest einem der Kamerabilder (11 , I2) erweitert werden.

8. Verfahren gemäß einem der vorherigen Ansprüche, wobei zumindest ein Kamerabild (11 , I2) nahe eines Messzeitpunktes des 3D-Sensors (62, 64) segmentiert wird.

9. Verfahren gemäß Anspruch 8, wobei die Segmentierung neben Bildinformationen auch Messungen des 3D-Sensors (62, 64) berücksichtigt.

10. Verfahren gemäß einem der vorherigen Ansprüche, wobei ein Algorithmus zur

Objektverfolgung auf die Daten (VS) des virtuellen Sensors angewandt wird.

1 1. Verfahren gemäß Anspruch 10, wobei der Algorithmus zur Objektverfolgung eine

akkumulierende Sensordatenfusion vornimmt.

12. Computerlesbares Speichermedium mit Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der Schritte eines Verfahrens gemäß einem der Ansprüche 1 bis 11 zur Verarbeitung von Sensordaten veranlassen.

13. Vorrichtung (20) zur Verarbeitung von Sensordaten, mit:

- einem Eingang (41 ) zum Empfangen von Kamerabildern (11 , I2) einer Kamera (61 ) und von 3D-Messpunkten (MP) eines 3D-Sensors (62, 64); und

- einer Datenfusionseinheit (43) zum Fusionieren (23) der Kamerabilder (11 , I2) mit den 3D-Messpunkten (MP) zu Daten (VS) eines virtuellen Sensors.

14. Kraftfahrzeug (60), dadurch gekennzeichnet, dass das Kraftfahrzeug (60) eine

Vorrichtung (40) gemäß Anspruch 13 aufweist oder eingerichtet ist, ein Verfahren gemäß einem der Ansprüche 1 bis 11 zur Verarbeitung von Sensordaten auszuführen.