WO2022263488A1

WO2022263488A1 - Verfahren zur erkennung von objekten gesuchter typen in kamerabildern

Info

Publication number: WO2022263488A1
Application number: PCT/EP2022/066260
Authority: WO
Inventors: Denis Tananaev
Original assignee: Robert Bosch Gmbh
Priority date: 2021-06-17
Filing date: 2022-06-15
Publication date: 2022-12-22
Also published as: DE102021206190A1

Abstract

Verfahren (100) zur Erkennung von Objekten (2) eines oder mehrerer vorgegebener Typen in einem Bereich (1), der von einer oder mehreren Kameras (3) beobachtet wird, mit den Schritten: • zu mindestens einem von einer Kamera (3) aufgenommenen Bild (4) werden mit mindestens einem Machine Learning-Modell (5) eine Tiefenkarte (4a) sowie eine semantische Segmentierung (4b) nach Typen von Objekten (2) ermittelt (110); • es werden Pixel (4c) des Bildes (4) ausgewählt (120), die gemäß der semantischen Segmentierung (4b) zu Objekten (2) mindestens eines der gesuchten Typen gehören; • es wird eine virtuelle Szenerie (6) ermittelt (150), in der die durch die ausgewählten Pixel (4c) und die zugehörige Tiefe aus der Tiefenkarte (4a) angegebenen Orte jeweils zu einem Objekt (2) eines durch die semantische Segmentierung (4b) angegebenen Typs gehören; • es wird ein virtuelles Bild (7) erstellt (160), das diese virtuelle Szenerie (6) aus einer vorgegebenen Perspektive (6a) zeigt; • dieses virtuelle Bild (7) wird mit mindestens einem Objekterkennungsmodul (8) auf Objekte (2) mindestens eines der gesuchten Typen durchsucht (170).

Description

Beschreibung

Titel:

Verfahren zur Erkennung von Objekten gesuchter Typen in Kamerabildern

Die vorliegende Erfindung betrifft die Erkennung von Objekten gesuchter Typen, wie etwa bestimmter verkehrsrelevanter Objekte, in Kamerabildern eines Bereichs, wie etwa eines Fahrzeugumfelds.

Stand der Technik

Beim Führen eines Fahrzeugs im Verkehr durch einen menschlichen Fahrer sind optische Informationen aus dem Fahrzeugumfeld die wichtigste Informationsquelle. Ein wesentlicher Teil der Fahraufgabe ist, Objekte im Fahrzeugumfeld sowie deren Absichten zu erkennen und eine entsprechende Reaktion des eigenen Fahrzeugs einzuleiten.

Die DE 102019 213506 Al offenbart ein Verfahren zur Charakterisierung bewegter Objekte aus physikalischen Messdaten, wie etwa Bildern. Dieses Verfahren erlaubt eine simultane Erkennung, Klassifikation und Verfolgung von Objekten.

Offenbarung der Erfindung

Im Rahmen der Erfindung wurde ein Verfahren zur Erkennung von Objekten in einem Bereich, der von einer oder mehreren Kameras beobachtet wird, entwickelt. Hierbei wird konkret nach Objekten eines oder mehrerer vorgegebener Typen gesucht.

Das Verfahren beginnt damit, dass zu mindestens einem von einer Kamera aufgenommene Bild mit mindestens einem Machine Learning-Modell eine Tiefenkarte sowie eine semantische Segmentierung nach Typen von Objekten ermittelt werden.

Unter einem Machine Learning-Modell wird insbesondere ein Modell angesehen, das eine mit anpassbaren Parametern parametrierte Funktion mit großer Kraft zur Verallgemeinerung verkörpert. Die Parameter können beim Training eines Machine Learning-Modells insbesondere dergestalt angepasst werden, dass bei Eingabe von Lern-Eingaben in das Modell die zugehörigen Lern-Ausgaben möglichst gut reproduziert werden. Diese Art von Training wird überwachtes Training genannt. Alternativ oder auch in Kombination hierzu können die Parameter auch beispielsweise dergestalt angepasst werden, dass das Machine Learning-Modell Lern-Eingaben auf Ausgaben abbildet, die in der Zusammenschau mit den Lern-Eingaben beliebige Konsistenzbedingungen erfüllen. Diese Art von Training wird semi-überwachtes Training genannt. Das Machine Learning-Modell kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder es kann ein KNN sein.

Eine Tiefenkarte ordnet jedem Pixel eines zweidimensionalen Bildes eine Entfernung einer sichtbaren Oberfläche eines Objekts, zu der das jeweilige Pixel gehört, von einem Bezugspunkt oder einer Bezugsebene zu.

Eine semantische Segmentierung ordnet jedem Pixel des Bildes eine von mehreren Klassen einer vorgegebenen Klassifikation zu. Eine oder mehrere dieser Klassen können Typen von Objekten repräsentieren, wie beispielsweise Verkehrszeichen, Fahrzeuge, Fußgänger, Fahrbahnbegrenzungen, Hindernisse oder sonstige verkehrsrelevante Objekte. Eine oder mehrere dieser Klassen können beispielsweise auch bestimmte Typen von Bildhintergründen repräsentieren, wie beispielsweise den Himmel.

Es werden Pixel des Bildes ausgewählt, die gemäß der semantischen Segmentierung zu Objekten mindestens eines der gesuchten Typen gehören.

Es wird eine virtuelle Szenerie ermittelt, in der die durch die ausgewählten Pixel und die zugehörige Tiefe aus der Tiefenkarte angegebenen Orte jeweils zu einem Objekt eines durch die semantische Segmentierung angegebenen Typs gehören. Diese Szenerie kann beispielsweise als Punktwolke verstanden werden, in der die besagten Orte jeweils mit einem Objekttyp als Attribut belegt sind.

Es wird ein virtuelles Bild erstellt, das diese virtuelle Szenerie aus einer vorgegebenen Perspektive zeigt. Dieses virtuelle Bild wird mit mindestens einem Objekterkennungsmodul auf Objekte mindestens eines der gesuchten Typen durchsucht.

Es wurde erkannt, dass durch die Filterung nach Objekttypen insbesondere die Erkennung von im Verhältnis zum gesamten beobachteten Bereich kleinen Objekten verbessert. Das bedeutet insbesondere beispielsweise bei der Beobachtung des Verkehrs von einem fahrenden Fahrzeug aus, dass solche Objekte zu einem Zeitpunkt erkannt werden können, zu dem sie noch vergleichsweise weit von dem Fahrzeug entfernt sind und daher im Bild klein erscheinen. Dementsprechend früher kann auf diese Objekte früher reagiert werden. Relevant sind in diesem Zusammenhang insbesondere beispielsweise Radfahrer, E-Scooter-Fahrer, Fußgänger und andere schwächere Verkehrsteilnehmer. Durch die besagte Filterung wird die Tendenz unterdrückt, dass der von diesen Objekten herrührende Anteil des Bildsignals durch Bildanteile wie den Himmel oder Bäume im Bildhintergrund übertönt wird, die im Bild eine viel größere Fläche einnehmen.

Die Nutzung eines Machine Learning-Modells ist in diesem Zusammenhang besonders vorteilhaft, weil ein Machine Learning-Modell anders als beispielsweise die klassische, auf der Triangulation von Kamerapositionen basierende Photogrammetrie eine Tiefenkarte auch dann ermitteln kann, wenn der Bereich, in dem Objekte erkannt werden sollen, nur aus einer oder einigen wenigen Perspektiven beobachtet werden kann. Dies ist insbesondere bei der Beobachtung von Verkehrssituationen von einem Fahrzeug aus regelmäßig der Fall.

In einer besonders vorteilhaften Ausgestaltung wird in dem Machine Learning- Modell das Bild zu mindestens einem Zwischenprodukt vorverarbeitet. Dieses mindestens eine Zwischenprodukt wird dann zwei Zweigen des Modells zugeleitet. Der erste Zweig ermittelt die Tiefenkarte, und der zweite Zweig ermittelt die semantische Segmentierung. Das Machine Learning-Modell ist dann ein sogenanntes Multitask-Modell. Je nach konkreter Anwendung kann ein solches Multitask-Modell mit deutlich weniger Hardwareressourcen, und/oder mit deutlich weniger Rechenzeit, auskommen als eine Anordnung aus zwei Machine Learning-Modellen, die jeweils unabhängig voneinander aus dem Bild die Tiefenkarte bzw. die semantische Segmentierung ermitteln, da insbesondere die zu Beginn der Verarbeitung erarbeiteten Ergebnisse sowohl für die Ermittlung der Tiefenkarte als auch für die semantische Segmentierung brauchbar sind.

Die beiden Zweige des Modells können völlig voneinander unabhängig arbeiten. Es kann jedoch auch optional Querverbindungen zwischen den beiden Zweigen geben. Somit kann ein Zweig auch Arbeitsergebnisse des jeweils anderen Zweiges nutzen. Auf diese Weise können beispielsweise Mehrdeutigkeiten und/oder Widersprüche in der Tiefenkarte durch die Kenntnis, zu welchem Objekt ein bestimmter durch Bild und Tiefenkarte angegebener Ort gehört, aufgelöst werden. Es können insbesondere beispielsweise Informationen ergänzt werden, wenn ein Objekt teilweise verdeckt ist.

In einer weiteren vorteilhaften Ausgestaltung wird für die ausgewählten Pixel jeweils eine Plausibilität dafür ermittelt, dass diese Pixel zu Objekten der jeweils durch die semantische Segmentierung angegebenen Typen gehören. Die ausgewählten Pixel werden anhand dieser Plausibilitäten gefiltert. Hiermit kann die Qualität der virtuellen Szenerie, und damit auch die Qualität des für die letztendliche Erkennung genutzten virtuellen Bildes, noch einmal verbessert werden.

Für die Plausibilisierung können beispielsweise beliebige Konsistenzbedin gungen oder statistische Bedingungen verwendet werden. Dies ist ein Stück weit analog dazu, dass auch bei der klassischen Photogrammetrie eine Punktwolke von Orten, die als zum eingescannten Objekt zugehörig identifiziert wurden, anhand statistischer Kriterien bereinigt werden kann, um die Qualität der letztendlich erhaltenen Rekonstruktion zu verbessern. Beispielsweise können die ausgewählten Pixel anhand der räumlichen Dichte von Orten, die durch ausgewählte Pixel jeweils in Verbindung mit zugehörigen Tiefen aus der Tiefenkarte festgelegt sind, gefiltert werden. Wenn etwa ein einzelnes Pixel angeblich zu einem Objekt gehört, aber der durch Pixel und zugehörige Tiefe festgelegte Ort in der Punktwolke allein auf weiter Flur steht, handelt es sich mit hoher Wahrscheinlichkeit um einen Ausreißer.

In einer besonders vorteilhaften Ausgestaltung wird eine Aufsicht aus der Vogelperspektive als vorgegebene Perspektive für die Erstellung des virtuellen Bildes gewählt. Dies ist insbesondere für die Analyse von Verkehrssituationen diejenige Perspektive, in der der vollständigste Überblick gegeben ist und am wenigsten Objekte durch andere Objekte verdeckt sind.

Das Objekterkennungsmodul kann insbesondere beispielsweise ein weiteres Machine Learning-Modell beinhalten, und/oder es kann die Pixel des virtuellen Bildes clustern. Derartige Objekterkennungsmodule sind am besten geeignet, um Objekte auch anhand unvollständiger Darstellungen zu erkennen. Wenn beispielsweise ein Fahrzeug im ursprünglich aufgenommenen Bild nur teilweise sichtbar ist, weil es durch andere Objekte verdeckt ist, dann erzeugt nur der sichtbare Anteil des Fahrzeugs zugehörige Orte in der virtuellen Szenerie. Dementsprechend ist die Darstellung des Fahrzeugs im virtuellen Bild ebenfalls unvollständig. Ein Machine Learning-Modell kann auch ein solches „abgebissenes“ Fahrzeug noch erkennen.

Wie zuvor erläutert, wird besonders vorteilhaft ein Bereich in einem Umfeld eines Fahrzeugs als überwachter Bereich gewählt. Aus der Ausgabe des Objekterkennungsmoduls wird ein Ansteuersignal gebildet. Das Fahrzeug wird mit dem Ansteuersignal angesteuert. In diesem Kontext hat das Verfahren die Wirkung, dass das Fahrzeug infolge der Ansteuerung früher auf das Vorhandensein des erkannten Objekts reagiert. Somit kann es insbesondere mit einer höheren Wahrscheinlichkeit gelingen, eine Kollision des Fahrzeugs mit dem Objekt zu verhindern.

Die Erfindung stellt auch ein Verfahren zum Trainieren eines Machine Learning- Modells für den Einsatz in dem zuvor beschriebenen Verfahren bereit. Dieses Verfahren geht von einer Vielzahl von Trainingsbildern aus. Diese Trainingsbilder müssen aber nicht notwendigerweise mit Soll-Information, auf die sie vom Machine Learning-Modell idealerweise abgebildet werden sollten, „gelabelt“ sein.

Im Rahmen des Verfahrens wird ein erstes Trainingsbild mit dem Machine Learning-Modell auf eine Tiefenkarte abgebildet. Es wird mindestens eine Teilmenge der Pixel des ersten Trainingsbildes ausgewählt. Beispielsweise können alle Pixel des ersten Trainingsbildes ausgewählt werden.

Wenn eine semantische Segmentierung des ersten Trainingsbildes zur Verfügung steht, können vorteilhaft diejenigen Pixel des ersten Trainingsbildes ausgewählt werden, die gemäß dieser semantischen Segmentierung zu Objekten vorgegebener Typen gehören. Das zu trainierende Machine Learning-Modell kann beispielsweise ein Multitask-Modell sein, in dem in einem Zweig die Abbildung auf eine Tiefenkarte stattfindet und in dem es noch einen weiteren Zweig gibt, der die semantische Segmentierung erstellt. Das zu trainierende Machine Learning-Modell kann auch beispielsweise im Tandem mit einem weiteren, für die semantische Segmentierung zuständigen Machine Learning- Modell trainiert werden. Das Training kann dann speziell auf diejenigen Teile der Trainingsbildes fokussiert werden, die sich auf die später zu suchenden Objekte beziehen.

Die durch die ausgewählten Pixel und die zugehörige Tiefe aus der Tiefenkarte angegebenen Orte werden zu einer virtuellen Szenerie zusammengefasst.

Es wird ein virtuelles Bild ermittelt, das diese Szenerie aus einer Perspektive zeigt, aus der ein zweites Trainingsbild aufgenommen wurde. Wenn sich beispielsweise ein Fahrzeug, das mindestens eine Kamera trägt, zwischen der Aufnahme des ersten Trainingsbildes und der Aufnahme des zweiten Trainingsbildes fortbewegt, ändert sich hierdurch die Perspektive, aus der das Fahrzeugumfeld beobachtet wird.

Anhand einer vorgegebenen Kostenfunktion wird bewertet, inwieweit das virtuelle Bild mit dem zweiten Trainingsbild im Einklang steht. Parameter, die das Verhalten des Machine Learning-Modells charakterisieren, werden optimiert mit dem Ziel, dass bei weiterer Verarbeitung von Trainingsbildern durch das Machine Learning-Modell die Bewertung durch die Kostenfunktion voraussichtlich verbessert wird.

Eine in dieser Weise durchgeführte Optimierung macht lediglich von der Annahme Gebrauch, dass die Trainingsbilder untereinander konsistent sind. Diese Annahme ist insbesondere dann sinnvoll, wenn die Trainingsbilder in einer zeitlichen Sequenz aufgenommen wurden. Ein „Labein“ der Trainingsbilder mit Tiefeninformation ist nicht erforderlich.

Die Kostenfunktion für die besagte Konsistenzprüfung kann beispielsweise die Form

Hierin ist pe der photometrische Rekonstruktionsfehler. I_t ist das zum aktuellen Zeitpunkt t aufgenommene Bild. I_t^_tl ist Bild, das zum Zeitpunkt t' aufgenommen und verzerrt wurde mit dem Ziel, es in Übereinstimmung mit dem Bild I_t zu bringen:

I_t^_t, = I_t{proj(P_t,T_t^_t„K)).

Hierin bezeichnet „proj“ die Koordinaten einer Rückprojektion von der Perspektive zum Zeitpunkt t' auf die Perspektive zum Zeitpunkt t. Diese Koordinaten hängen ab von der Tiefenkarte D_t für das Bild I_t, von der Transformation T_t^_t, von der Perspektive zum Zeitpunkt t auf die Perspektive zum Zeitpunkt t' sowie von Kalibrierungsparametern K der Kamera zum Zeitpunkt t. Der Operator <> bezeichnet das Sampling. Es gilt dann:

Hierin bezeichnet SSIM die strukturelle Ähnlichkeit und a eine Gewichtung zwischen dieser strukturellen Ähnlichkeit einerseits und einer Ll-Norm andererseits.

In einer vorteilhaften Ausgestaltung wird zusätzlich eine Disparität zwischen korrespondierenden Orten, die durch ein erstes Trainingsbild und die hieraus ermittelte Tiefenkarte bzw. durch ein zweites Trainingsbild und die hieraus ermittelte Tiefenkarte angegeben werden, ermittelt. Es wird ein Vergleichswert für diese Disparität aus Lidar-Messungen der in den beiden Trainingsbildern gezeigten Szenerie bereitgestellt. Eine Abweichung zwischen der Disparität und dem Vergleichswert wird in die Kostenfunktion einbezogen. Auf diese Weise kann eine Zusatzinformation anhand von Lidar-Messungen in dem Umfang, in dem sie verfügbar ist, mit eingebracht werden. Hiermit kann insbesondere die Genauigkeit bei der Erkennung bewegter Objekte verbessert werden.

Die Kostenfunktion kann hierzu beispielsweise einen Zusatzterm LGT der Form

L_GT = | disp — disp | erhalten. Hierin ist disp die Disparität und d sp der aus Lidar-Messungen ermittelte Vergleichswert.

In einer weiteren vorteilhaften Ausgestaltung wird zusätzlich die Glätte des virtuellen Bildes in die Kostenfunktion einbezogen. Hiermit wird insbesondere das Glätten homogener Bildbereiche begünstigt. Die Kostenfunktion kann hierzu beispielsweise einen Zusatzterm Ls der Form

erhalten. Hierin bezeichnet d_t ^* = ^<^ⁱ/₌ die mittlere normierte inverse Tiefe. Die

/ df gesamte Kostenfunktion L_ü für die Tiefe kann dann als

L_D = L_GT + M L_p + L_s gebildet werden, worin M eine optionale Maske ist. Mit dieser Maske M können solche Pixel aus der Bewertung der Reprojektion ausgeblendet werden, die aus irgendeinem Grund als ungültig anzusehen sind. Pixel können beispielsweise als ungültig angesehen werden, wenn sie zu einem bewegten Objekt oder zu Teilen des Fahrzeugs, von dem aus das Umfeld dieses Fahrzeugs beobachtet wird, gehören.

In einer weiteren vorteilhaften Ausgestaltung wird mit dem Machine Learning- Modell zusätzlich eine semantische Segmentierung des Trainingsbildes erstellt. Das Machine Learning-Modell ist dann ein Multitask-Modell. Die semantische Segmentierung wird mit einer zu dem Trainingsbild gehörenden Soll- Segmentierung verglichen. Eine Abweichung der semantischen Segmentierung von der Soll-Segmentierung wird in die Kostenfunktion einbezogen. Auf diese Weise kann das Multitask-Modell gleichzeitig auf die Erstellung besserer Tiefenkarten und auf die Erstellung besserer semantischer Segmentierungen trainiert werden. Die Kostenfunktion L_seg für die semantische Segmentierung kann beispielsweise die Form L_seg softmax(l, T) haben. Hierin sind l die Klassen-Labels, die das Machine Learning-Modell den Pixeln jeweils zuordnet, und ΐ sind die aus Lidar-Messungen ermittelten Soll- Labels („ground truth“). Die Gesamt-Kostenfunktion L_muiti für das Multitask-Model kann sich dann als gewichtete Summe

aus den Beiträgen L_seg und L_D zusammensetzen. Der Parameter w bestimmt die relative Gewichtung dieser Beiträge zueinander.

Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebenen Verfahren zum Trainieren des neuronalen Netzwerks auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.

Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.

Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.

Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.

Ausführungsbeispiele Es zeigt:

Figur 1 Ausführungsbeispiel des Verfahrens 100 zur Erkennung von Objekten 2;

Figur 2 Schematische Veranschaulichung einer beispielhaften Verarbeitung eines Bildes 4 zu einer Erkennung von Objekten 2;

Figur 3 Ausführungsbeispiel des Verfahrens 200 zum Trainieren eines Machine Learning-Modells 5.

Figur 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Erkennung von Objekten 2 in einem Bereich 1, der von einer oder mehreren Kameras 3 beobachtet wird. Es werden Objekte 2 bestimmter Typen gesucht.

In Schritt 105 wird ein Bereich 1 im Umfeld eines Fahrzeugs 50 gewählt.

In Schritt 110 werden zu mindestens einem von einer Kamera 3 aufgenommenen Bild 4 mit mindestens einem Machine Learning-Modell 5 eine Tiefenkarte 4a sowie eine semantische Segmentierung 4b nach Typen von Objekten 2 ermittelt.

Hierbei kann insbesondere beispielweise gemäß Block 111 das Bild 4 zu mindestens einem Zwischenprodukt 4* vorverarbeitet werden. Dieses Zwischenprodukt 4* kann dann gemäß Block 111 einem ersten Zweig 5a des Modells 5 und gemäß Block 112 einem zweiten Zweig 5b des Modells 5 zugeleitet werden. Der erste Zweig 5a ermittelt die Tiefenkarte 4a. Der zweite Zweig 5b ermittelt die semantische Segmentierung 4b.

In Schritt 120 werden Pixel 4c des Bildes 4 ausgewählt, die gemäß der semantischen Segmentierung 4b zu Objekten 2 mindestens eines der gesuchten Typen gehören. In Schritt 130 wird für die ausgewählten Pixel 4c jeweils eine Plausibilität 4d dafür ermittelt, dass diese Pixel zu Objekten 2 der jeweils durch die semantische Segmentierung 4b angegebenen Typen gehören.

In Schritt 140 werden die ausgewählten Pixel 4c anhand dieser Plausibilitäten 4d gefiltert. Hierbei können insbesondere beispielsweise gemäß Block 141 die ausgewählten Pixel 4c anhand der räumlichen Dichte von Orten, die durch ausgewählte Pixel 4c jeweils in Verbindung mit zugehörigen Tiefen aus der Tiefenkarte 4a festgelegt sind, gefiltert werden.

In Schritt 150 wird eine virtuelle Szenerie 6 ermittelt, in der die durch die ausgewählten Pixel 4c und die zugehörige Tiefe aus der Tiefenkarte 4a angegebenen Orte jeweils zu einem Objekt 2 eines durch die semantische Segmentierung 4b angegebenen Typs gehören. Das heißt, die jeweiligen Orte sind mit dem jeweiligen Objekttyp als Attribut annotiert.

In Schritt 160 wird ein virtuelles Bild 7 erstellt, das diese virtuelle Szenerie 6 aus einer vorgegebenen Perspektive 6a zeigt. Hierbei kann insbesondere beispielsweise gemäß Block 161 eine Aufsicht aus der Vogelperspektive als vorgegebene Perspektive gewählt werden.

In Schritt 170 wird das virtuelle Bild 7 mit mindestens einem Objekterkennungsmodul 8 auf Objekte 2 mindestens eines der gesuchten Typen durchsucht.

In Schritt 180 wird aus der Ausgabe des Objekterkennungsmoduls 8 ein Ansteuersignal 9 gebildet.

In Schritt 190 wird das Fahrzeug 50 mit dem Ansteuersignal 9 angesteuert.

Figur 2 veranschaulicht schematisch die beispielhafte Verarbeitung eines Bildes 4 nach dem Verfahren 100. Das Bild 4 ist aus der Perspektive eines fahrenden Fahrzeugs aufgenommen und enthält eine Straße 61, zwei Fußgänger 62, einen Baum 63 sowie einen Himmel 64. Verkehrsrelevant sind hier nur die Straße 61 und die Fußgänger 62, die auf die Straße 61 treten können. Der Baum 63 und der Himmel 64 beeinflussen das Verkehrsgeschehen nicht, nehmen aber vergleichsweise viel Raum im Bild 4 ein. Die Fußgänger 62 hingegen erscheinen im Bild 4 sehr klein, da sie noch recht weit weg sind.

Im Laufe des Verfahrens 100 wird eine virtuelle Szenerie 6 erzeugt, in der anhand des Bildes 4 und der hieraus ermittelten Tiefenkarte 4a nur diejenigen Orte vermerkt sind, die zu der Straße 61 und den Fußgängern 62 gehören. Es wird ein virtuelles Bild 7 dieser virtuellen Szenerie 6 aus der Vogelperspektive ermittelt. Dieses virtuelle Bild enthält nur noch die Straße 61 sowie die Fußgänger 62 als klar erkennbare Objekte 2.

Figur 3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 zum Trainieren eines Machine Learning-Modells 5 für den Einsatz in dem zuvor beschriebenen Verfahren 100. Das Verfahren arbeitet auf der Basis einer Vielzahl von Trainingsbildern 4#.

In Schritt 210 wird ein erstes Trainingsbild 4# wird mit dem Machine Learning- Modell 5 auf eine Tiefenkarte 4a abgebildet.

In Schritt 220 wird mindestens eine Teilmenge 4c der Pixel des ersten Trainingsbildes 4# ausgewählt.

In Schritt 230 werden die durch die ausgewählten Pixel 4c und die zugehörige Tiefe aus der Tiefenkarte 4a angegebenen Orte zu einer virtuellen Szenerie 6 zusammengefasst.

In Schritt 240 wird ein virtuelles Bild 7 ermittelt, das diese virtuelle Szenerie 6 aus einer Perspektive zeigt, aus der ein zweites Trainingsbild 4## aufgenommen wurde.

In Schritt 250 wird anhand einer vorgegebenen Kostenfunktion 10 bewertet, inwieweit das virtuelle Bild 7 mit dem zweiten Trainingsbild 4## im Einklang steht.

In Schritt 260 werden Parameter 5a, die das Verhalten des Machine Learning- Modells 5 charakterisieren, optimiert mit dem Ziel, dass bei weiterer Verarbeitung von Trainingsbildern 4#, 4## durch das Machine Learning-Modell 5 die Bewertung 10a durch die Kostenfunktion 10 voraussichtlich verbessert wird. Der fertig trainierte Zustand der Parameter 5a ist mit dem Bezugszeichen 5a* bezeichnet.

In Schritt 270 kann eine Disparität 11 zwischen korrespondierenden Orten, die durch ein erstes Trainingsbild 4# und die hieraus ermittelte Tiefenkarte 4a bzw. durch ein zweites Trainingsbild 4## und die hieraus ermittelte Tiefenkarte 4a angegeben werden, ermittelt werden. Es wird dann in Schritt 275 ein Vergleichswert 11a für diese Disparität 11 aus Lidar-Messungen der in den beiden Trainingsbildern 4#, 4## gezeigten Szenerie bereitgestellt. Gemäß Block 251 wird dann eine Abweichung zwischen der Disparität 11 und dem Vergleichswert 11a in die Kostenfunktion 10 einbezogen.

Gemäß Block 252 kann zusätzlich die Glätte des virtuellen Bildes 7 in die Kostenfunktion 10 einbezogen werden.

In Schritt 280 kann mit dem Machine Learning-Modell 5 eine semantische Segmentierung 4b des Trainingsbildes 4# erstellt werden. Diese semantische Segmentierung 4b wird in Schritt 285 mit einer zu dem Trainingsbild 4# gehörenden Soll-Segmentierung 4b* verglichen. Gemäß Block 253 wird dann eine Abweichung | 4b-4b* | der semantischen Segmentierung 4b von der Soll- Segmentierung 4b* in die Kostenfunktion 10 einbezogen.

Claims

Ansprüche

1. Verfahren (100) zur Erkennung von Objekten (2) eines oder mehrerer vorgegebener Typen in einem Bereich (1), der von einer oder mehreren Kameras (3) beobachtet wird, mit den Schritten:

• zu mindestens einem von einer Kamera (3) aufgenommenen Bild (4) werden mit mindestens einem Machine Learning-Modell (5) eine Tiefenkarte (4a) sowie eine semantische Segmentierung (4b) nach Typen von Objekten (2) ermittelt (110);

• es werden Pixel (4c) des Bildes (4) ausgewählt (120), die gemäß der semantischen Segmentierung (4b) zu Objekten (2) mindestens eines der gesuchten Typen gehören;

• es wird eine virtuelle Szenerie (6) ermittelt (150), in der die durch die ausgewählten Pixel (4c) und die zugehörige Tiefe aus der Tiefenkarte (4a) angegebenen Orte jeweils zu einem Objekt (2) eines durch die semantische Segmentierung (4b) angegebenen Typs gehören;

• es wird ein virtuelles Bild (7) erstellt (160), das diese virtuelle Szenerie (6) aus einer vorgegebenen Perspektive (6a) zeigt;

• dieses virtuelle Bild (7) wird mit mindestens einem Objekterkennungsmodul (8) auf Objekte (2) mindestens eines der gesuchten Typen durchsucht (170).

2. Verfahren (100) nach Anspruch 1, wobei in dem Machine Learning- Modell (5)

• das Bild (4) zu mindestens einem Zwischenprodukt (4*) vorverarbeitet wird (111) und dieses mindestens eine Zwischenprodukt (4*)

• einem ersten Zweig (5a) des Modells (5), der die Tiefenkarte (4a) ermittelt, zugeleitet wird (112) und

• einem zweiten Zweig (5b) des Modells (5), der die semantische Segmentierung (4b) ermittelt, zugeleitet wird (113).

3. Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei für die ausgewählten Pixel (4c) jeweils eine Plausibilität (4d) dafür ermittelt wird (130), dass diese Pixel zu Objekten (2) der jeweils durch die semantische Segmentierung (4b) angegebenen Typen gehören, und wobei die ausgewählten Pixel (4c) anhand dieser Plausibilitäten (4d) gefiltert werden (140).

4. Verfahren (100) nach Anspruch 3, wobei die ausgewählten Pixel (4c) anhand der räumlichen Dichte von Orten, die durch ausgewählte Pixel (4c) jeweils in Verbindung mit zugehörigen Tiefen aus der Tiefenkarte (4a) festgelegt sind, gefiltert werden (141).

5. Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei eine Aufsicht aus der Vogelperspektive als vorgegebene Perspektive (6a) gewählt wird (161).

6. Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei ein Objekterkennungsmodul (8) gewählt wird, das ein weiteres Machine Learning- Modell beinhaltet, und/oder die Pixel des virtuellen Bildes (7) clustert.

7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei

• ein Bereich (1) in einem Umfeld eines Fahrzeugs (50) gewählt wird (105),

• aus der Ausgabe des Objekterkennungsmoduls (8) ein Ansteuersignal (9) gebildet wird (180) und

• das Fahrzeug (50) mit dem Ansteuersignal (9) angesteuert wird (190).

8. Verfahren (200) zum Trainieren eines Machine Learning-Modells (5) für den Einsatz in dem Verfahren (100) nach einem der Ansprüche 1 bis 7 anhand einer Vielzahl von Trainingsbildern (4#) mit den Schritten:

• ein erstes Trainingsbild (4#) wird mit dem Machine Learning-Modell (5) auf eine Tiefenkarte (4a) abgebildet (210);

• es wird mindestens eine Teilmenge (4c) der Pixel des ersten Trainingsbildes (4#) ausgewählt (220);

• die durch die ausgewählten Pixel (4c) und die zugehörige Tiefe aus der Tiefenkarte (4a) angegebenen Orte werden zu einer virtuellen Szenerie (6) zusammengefasst (230); • es wird ein virtuelles Bild (7) ermittelt (240), das diese Szenerie (6) aus einer Perspektive zeigt, aus der ein zweites Trainingsbild (4##) aufgenommen wurde;

• anhand einer vorgegebenen Kostenfunktion (10) wird bewertet (250), inwieweit das virtuelle Bild (7) mit dem zweiten Trainingsbild (4##) im Einklang steht;

• Parameter (5a), die das Verhalten des Machine Learning-Modells (5) charakterisieren, werden optimiert (260) mit dem Ziel, dass bei weiterer Verarbeitung von Trainingsbildern (4#, 4##) durch das Machine Learning- Modell (5) die Bewertung (10a) durch die Kostenfunktion (10) voraussichtlich verbessert wird.

9. Verfahren (200) nach Anspruch 8, wobei zusätzlich

• eine Disparität (11) zwischen korrespondierenden Orten, die durch ein erstes Trainingsbild (4#) und die hieraus ermittelte Tiefenkarte (4a) bzw. durch ein zweites Trainingsbild (4##) und die hieraus ermittelte Tiefenkarte (4a) angegeben werden, ermittelt wird (270);

• ein Vergleichswert (11a) für diese Disparität (11) aus Lidar-Messungen der in den beiden Trainingsbildern (4#, 4##) gezeigten Szenerie bereitgestellt wird (275); und

• eine Abweichung zwischen der Disparität (11) und dem Vergleichswert (11a) in die Kostenfunktion (10) einbezogen wird (251).

10. Verfahren (200) nach einem der Ansprüche 8 bis 9, wobei zusätzlich die

Glätte des virtuellen Bildes (7) in die Kostenfunktion (10) einbezogen wird (252).

11. Verfahren (200) nach einem der Ansprüche 8 bis 9, wobei zusätzlich

• mit dem Machine Learning-Modell (5) eine semantische Segmentierung (4b) des Trainingsbildes (4#) erstellt wird (280);

• diese semantische Segmentierung (4b) mit einer zu dem Trainingsbild (4#) gehörenden Soll-Segmentierung (4b*) verglichen wird (285) und

• eine Abweichung der semantischen Segmentierung (4b) von der Soll- Segmentierung (4b*) in die Kostenfunktion (10) einbezogen wird (253).

12. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 11 auszuführen.

13. Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 12.

14. Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 12, und/oder mit dem maschinenlesbaren Datenträger und/oder

Download produkt nach Anspruch 13.