WO2022043203A1

WO2022043203A1 - Training eines generators zur erzeugung realistischer bilder mit einem semantisch segmentierenden diskriminator

Info

Publication number: WO2022043203A1
Application number: PCT/EP2021/073121
Authority: WO
Inventors: Edgar Schoenfeld; Vadim Sushko; Dan Zhang; Anna Khoreva
Original assignee: Robert Bosch Gmbh
Priority date: 2020-08-24
Filing date: 2021-08-20
Publication date: 2022-03-03
Also published as: US20230134062A1; CN116113989A; DE102020210711A1

Abstract

Verfahren (100) zum Trainieren eines Generators (1) für Bilder (3) aus einer semantischen Karte (2, 5a), die jedem Pixel des Bildes (3) eine semantische Bedeutung (4) eines Objekts, zu dem dieses Pixel gehört, zuordnet, wobei - die vom Generator (1) erzeugten Bilder (3) und das mindestens eine reale Trainingsbild (5), die zur gleichen semantischen Trainingskarte (5a) gehören, werden einem Diskriminator (7) zugeführt (140), woraufhin der Diskriminator (7) eine semantische Segmentierung (6) des ihm zugeführten Bildes (3, 5) ermittelt (150), die jedem Pixel dieses Bildes (3, 5) eine semantische Bedeutung (4) zuordnet; - aus der vom Diskriminator (7) ermittelten semantischen Segmentierung (6) wird ausgewertet (160), ob das dem Diskriminator (7) zugeführte Bild (3, 5) ein erzeugtes Bild (3) oder ein reales Trainingsbild (5) ist.

Description

Beschreibung

Titel:

Training eines Generators zur Erzeugung realistischer Bilder mit einem semantisch segmentierenden Diskriminator

Die vorliegende Erfindung betrifft das Training eines Generators für realistische Bilder, die wiederum für das Training von Bildklassifikatoren verwendbar sind.

Stand der Technik

Etwa 90 % der Informationen, die ein menschlicher Fahrer zum Führen eines Fahrzeugs im Straßenverkehr benötigt, sind visuelle Informationen. Für das zumindest teilweise automatisierte Führen von Fahrzeugen ist es daher unabdingbar, Bilddaten gleich welcher Modalität, die bei der Überwachung des Fahrzeugumfelds aufgenommen werden, inhaltlich zutreffend auszuwerten. Von besonderer Bedeutung für die Fahraufgabe ist eine Klassifikation der Bilddaten dahingehend, welche verkehrsrelevanten Objekte in ihnen enthalten sind, wie beispielsweise andere Verkehrsteilnehmer, Fahrbahnmarkierungen, Hindernisse und Verkehrszeichen.

Entsprechende Bildklassifikatoren müssen mit Trainingsbildern, die in einer Vielzahl von Verkehrssituationen aufgenommen wurden, trainiert werden. Das Beschaffen der Trainingsbilder ist vergleichsweise schwierig und teuer. In der Realität selten vorkommende Verkehrssituationen können im Datensatz mit den Trainingsbildern zahlenmäßig so unterrepräsentiert sein, dass der Bildklassifikator ihre richtige Einordnung nicht optimal lernen kann. Weiterhin ist viel manuelle Arbeit notwendig, um die Trainingsbilder, bzw. deren Pixel, mit zugehörigen Soll- Klassenzuordnungen („ground truth“) zu „labeln“. Daher werden zusätzlich auch synthetisch erzeugte Trainingsdaten verwendet, die mit einem Generator auf der Basis von Generative Adversarial Networks, GAN, erzeugt werden. Ein solcher Generator für Radardaten ist aus der DE 10 2018 204494 B3 bekannt.

Offenbarung der Erfindung

Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Generators für Bilder entwickelt.

Der Begriff des Bildes ist nicht auf statische Kamerabilder beschränkt, sondern umfasst beispielsweise auch Videobilder, Radarbilder, Lidar-Bilder und Ultraschallbilder.

Die zu erzeugenden Bilder können insbesondere beispielsweise in Bezug auf eine vorgegebene Anwendung realistisch sein. Hierbei kann „realistisch“ insbesondere bedeuten, dass sich die Bilder in einer nachgeschalteten Verarbeitung, wie beispielsweise beim Trainieren eines Bildklassifikators, in gleicher Weise nutzen lassen wie mit physikalischen Sensoren aufgenommene Bilder. Realistisch erzeugte Bilder können insbesondere beispielsweise genutzt werden, um einen Vorrat von realen, mit Sensoren aufgenommenen und anschließend „gelabelten“ Trainingsbildern für einen Bildklassifikator anzureichern. Daher werden die zu erzeugenden Bilder im Folgenden im Interesse einer besseren Lesbarkeit als „realistische Bilder“, bzw. als „realistisch erzeugte Bilder“, bezeichnet.

Der Generator erzeugt die realistischen Bilder aus einer semantischen Karte. Diese semantische Karte ordnet jedem Pixel des zu erzeugenden realistischen Bildes eine semantische Bedeutung eines Objekts, zu dem dieses Pixel gehört, zu. Es wird also nicht irgendein zufälliges realistisches Bild erzeugt, sondern eines, das die in der semantischen Karte vorgegebene Situation widerspiegelt. So kann die semantische Karte beispielsweise eine Verkehrssituation mit verschiedenen Fahrbahnen, Fahrbahnbegrenzungen, Verkehrszeichen, Verkehrsteilnehmern und weiteren Objekten bezeichnen. Für das Verfahren werden reale Trainingsbilder und zugehörige semantische Trainingskarten, die jedem Pixel des jeweiligen Trainingsbildes eine semantische Bedeutung zuordnen, bereitgestellt. Es gibt also zu jedem realen Trainingsbild eine semantische Trainingskarte. Umgekehrt gibt es zu jeder semantischen Trainingskarte mindestens ein reales Trainingsbild, denn es kann ja beispielsweise eine semantisch identische Situation mit unterschiedlichen Belichtungen oder anderen Abbildungsparametern aufgenommen worden sein. Die semantischen Trainingskarten können beispielsweise durch manuelles Labeln der realen Trainingsbilder erhalten werden.

Mit dem zu trainierenden Generator werden aus mindestens einer semantischen Trainingskarte realistische Bilder erzeugt. Zu der gleichen mindestens einen semantischen Trainingskarte wird mindestens ein reales Trainingsbild ermittelt. Zum Trainieren des Generators wird ein Diskriminator verwendet. Hierzu werden die vom Generator erzeugten realistischen Bilder und das mindestens eine reale Trainingsbild dem Diskriminator zugeführt.

Der Diskriminator ist dazu ausgebildet, eine semantische Segmentierung des ihm zugeführten Bildes zu ermitteln, die jedem Pixel dieses Bildes eine semantische Bedeutung zuordnet. Aus dieser vom Diskriminator ermittelten semantischen Segmentierung wird ausgewertet, ob das dem Diskriminator zugeführtes Bild ein realistisch erzeugtes Bild oder aber ein reales Trainingsbild ist. Diese Auswertung kann noch im Diskriminator selbst, und/oder in einer hiervon separaten Funktionseinheit, erfolgen. Die Auswertung muss nicht trainierbar sein, sondern kann auch nach einer statischen Vorschrift erfolgen.

Die vom Generator erzeugten realistischen Bilder, das mindestens eine reale Trainingsbild sowie das mindestens eine Mischbild werden dem Diskriminator zugeführt. Generator- Parameter, die das Verhalten des Generators charakterisieren, werden optimiert mit dem Ziel, dass die vom Generator erzeugten realistischen Bilder vom Diskriminator als reale Bilder fehlklassifiziert werden.

Gleichzeitig oder auch im Wechsel hiermit werden Diskriminator-Parameter, die das Verhalten des Diskriminators charakterisieren, optimiert mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen realistisch erzeugten Bildern und realen Bildern zu verbessern. Der Diskriminator wird also darauf trainiert, dass nach der Auswertung der von ihm gelieferten semantischen Segmentierung ein realistisch erzeugtes Bild als ein realistisch erzeugtes Bild klassifiziert wird und ein reales Trainingsbild als ein reales Trainingsbild klassifiziert wird.

Die Verwendung eines Diskriminators, der nicht nur binär zwischen realen Trainingsbildern einerseits und realistisch erzeugten Bildern andererseits unterscheidet, sondern eine vollständige semantische Segmentierung des ihm zugeführten Bildes liefert, hat verschiedene Vorteile.

Die besagte binäre Unterscheidung ist immer global auf das ganze Bild bezogen. Hingegen spielt sich die semantische Segmentierung auf der lokalen Ebene der einzelnen Pixel ab. Es können also beispielsweise Teilbereiche des Bildes vom Diskriminator zweifelsfrei als Teile des realen Trainingsbilds identifiziert werden, während andere Teilbereiche des Bildes als Teile eines realistisch erzeugten Bildes identifiziert werden. Erst in der nachgeschalteten Auswertung müssen derartige Widersprüche aufgelöst werden.

Beispielsweise kann ein Bild in Antwort darauf, dass ein als Teil eines realistisch erzeugten Bildes identifizierter Anteil seiner Pixel einen vorgegebenen Schwellwert überschreitet, als realistisch erzeugtes Bild gewertet werden. Umgekehrt kann ein Bild in Antwort darauf, dass ein als Teil eines realen Trainingsbildes identifizierter Anteil seiner Pixel einen vorgegebenen Schwellwert überschreitet, als reales Trainingsbild gewertet werden. Dazwischen sind beliebige Abstufungen möglich. Werden vom Diskriminator beispielsweise 60 % der Pixel als Teil eines realen Trainingsbildes und 40 % der Pixel als Teil eines vom Generator realistisch erzeugten Bildes identifiziert, kann das dem Diskriminator zugeführte Bild mit einem Score von 0,6 als reales Trainingsbild und mit einem Score von 0,4 als vom Generator realistisch erzeugtes Bild gewertet werden.

Daher ist es allgemein vorteilhaft, bei der Auswertung der semantischen Segmentierung die Anzahl der Pixel, die vom Diskriminator als zu einem realen Trainingsbild zugehörig gewertet werden, mit der Anzahl der Pixel, die vom Diskriminator als zu einem realistisch erzeugten Bild zugehörig gewertet werden, zu vergleichen und/oder ins Verhältnis zu setzen.

Indem die semantische Segmentierung auf der Ebene der Pixel stattfindet, wird der Diskriminator vorteilhaft dazu angeregt, feine Details der ihm zugeführten Bilder auf der Größenordnung von einem Pixel oder einigen wenigen Pixeln zu lernen und die räumliche Übereinstimmung mit den semantischen Trainingskarten zu erfassen. Anhand dieser räumlichen Übereinstimmung lässt sich auf beliebigen Größenskalen prüfen, inwieweit der Diskriminator unterscheidende semantische Merkmale der Bilder lernt. Wenn hingegen eine bloße globale Aussage des Diskriminators gefordert ist, ist es der diesbezüglich für die Optimierung verwendeten Kostenfunktion „egal“, aus welcher Quelle sich der Diskriminator diese Aussage im Einzelnen beschafft. Die Detailarbeit auf der Pixelebene wird also nicht „honoriert“.

Das Training eines auf semantische Segmentierung ausgelegten Diskriminators ist in der vorliegenden Anwendung generell besser überwachbar, da der maximale Informationsgehalt der gegebenen semantischen Trainingskarten unmittelbar als „ground truth“ für das Training des Diskriminators herangezogen werden kann. Je mehr bereits vorhandene gelabelte Trainingsdaten beim Training genutzt werden können, desto größer ist die Genauigkeit, mit der der fertig trainierte Diskriminator arbeitet, bei gleichbleibenden Kosten für das Labeln der Trainingsdaten.

Weiterhin ermöglicht es das Feedback aus dem semantisch segmentierenden Diskriminator, den Generator dazu zu trainieren, auch aus einem das ganze eingegebene Bild bedeckenden zweidimensionalen Rauschen ohne räumliche Zusatzinformation realistische Bilder zu erzeugen. Die für das Training des Diskriminators vorhandene „ground truth“ wird also sozusagen auf Umwegen auch für das Training des Generators verwendbar gemacht.

In einer besonders vorteilhaften Ausgestaltung umfassen die möglichen semantischen Bedeutungen in der vom Diskriminator gelieferten semantischen Segmentierung mindestens die semantischen Bedeutungen der semantischen Trainingskarten sowie eine Einordnung als Teil eines realistisch erzeugten Bildes. Die semantischen Bedeutungen der semantischen Trainingskarten können beispielsweise N diskrete Klassen von Objekten repräsentieren, die in den realen Trainingsbildern vorkommen. Die Einordnung als Teil eines realistisch erzeugten Bildes kann sich als weitere Klasse N+l hierzu gesellen.

In einer besonders vorteilhaften Ausgestaltung werden die Diskriminator- Parameter dahingehend optimiert, dass eine Kostenfunktion, in der für alle Pixel und alle möglichen semantischen Bedeutungen Klassifikations-Scores des Diskriminators für die jeweilige semantische Bedeutung gewichtet mit binären Indikatoren, ob diese semantische Bedeutung ausweislich der semantischen Trainingskarten korrekt ist, summiert werden, einen optimalen Wert annimmt. Eine derartige Kostenfunktion bildet die Kreuzentropie der N+l Klassen ab und führt somit in statistisch gut motivierter Weise eine Anzahl von Entscheidungen des Diskriminators, die der Anzahl von Pixeln in den Bildern entspricht, zu einem Gesamturteil zusammen.

Ein Beispiel für eine derartige Kostenfunktion LD des Diskriminators ist

Hierin bezeichnet E die Bildung eines Erwartungswerts über alle Paare aus realen Bildern x und semantischen Trainingskarten t, bzw. über alle Paare aus anhand einer Zufallsverteilung gesampletem Rauschen z und semantischen Trainingskarten t. Die semantischen Trainingskarten t sind in diesem Beispiel dreidimensionale Tensoren. Zwei Dimensionen repräsentieren die räumlichen Koordinaten i und j, die bis zur Höhe H, bzw. zur Breite W, der Bilder reichen können. Die Klasse c ist dann an der Position i, j im Tensor t in Form eines „one- hot“ Vektors entlang der dritten Dimension kodiert, der nur für die Klasse c einen Eintrag 1 und ansonsten lediglich Nullen enthält.

Somit gibt tij,_c für jede Konstellation aus Koordinaten i, j und Klasse c eine Wahrscheinlichkeit dafür an, dass die Zuordnung des Pixels zur Klasse c an diesem Ort i, j der „Wahrheit“ entspricht, und diese Wahrscheinlichkeit ist immer entweder 1 oder 0. Jedes Mal, wenn diese Wahrscheinlichkeit 1 ist, jedoch die vom Diskriminator ausgegebene Wahrscheinlichkeit D(x)i, j, _c für die Zuordnung des Pixels i, j zur Klasse c nicht 1 ist (was beim Logarithmieren Null ergäbe), wächst die Kostenfunktion LD für diesen „Verstoß“ je nach „Schwere“ um einen kleineren oder größeren Strafbetrag. Dabei ist dieser Strafbetrag in dem oben genannten Beispiel mit einem klassenspezifischen Faktor a_c gewichtet.

Für alle Pixel i, j, die in Wirklichkeit nicht zu einem realen Trainingsbild gehören, sind die Wahrscheinlichkeiten ti, j, _c für alle Klassen c von 1 bis N gleich Null. Es handelt sich dann also um ein vom Generator G aus Rauschen z erzeugtes realistisches Bild G(z, t). Idealerweise sollen diese Pixel i, j vom Diskriminator mit einer Wahrscheinlichkeit D(G(z,t))ij,_c=N+i von 1 als Pixel identifiziert werden, die zu einem realistisch erzeugten Bild gehören. Dies wird beim Logarithmieren zu Null. Jede Wahrscheinlichkeit kleiner 1 führt wieder dazu, dass das entsprechende Pixel einen Strafbetrag zur Kostenfunktion LD beisteuert.

In einer besonders vorteilhaften Ausgestaltung werden die semantischen Bedeutungen der semantischen Trainingskarten in der Summierung mit dem Inversen ihrer in betroffenen Pixeln gemessenen Häufigkeit gewichtet. Dies trägt dem Umstand Rechnung, dass die Häufigkeiten der semantischen Bedeutungen in realen Trainingsbildern üblicherweise sehr ungleich verteilt sind. Wenn die semantischen Bedeutungen beispielsweise Verkehrszeichen repräsentieren, so kommen Vorfahrtschilder oder Geschwindigkeitsbeschränkungen sehr viel häufiger vor als beispielsweise Warnungen vor Bahnübergängen oder davor, dass eine Straße auf ein ungesichertes Ufer zu führt. Die Gewichtung sorgt dafür, dass auch derartige selten vorkommende, aber dennoch sehr wichtige Verkehrszeichen beim Training angemessen berücksichtigt werden.

In dem oben genannten Beispiel kann der Gewichtungsfaktor a_c beispielsweise die Form

annehmen.

Auch das Training des Generators kann anhand einer Kostenfunktion LG erfolgen. Diese Kostenfunktion LG kann beispielsweise der Kostenfunktion LD für den Diskriminator nachgebildet sein und die Form

annehmen.

In einer weiteren besonders vorteilhaften Ausgestaltung wird ein Diskriminator gewählt, der eine Encoder-Decoder-Anordnung mit einer Encoder- Struktur und einer Decoder- Struktur beinhaltet. Die Encoder-Struktur übersetzt ein eingegebenes Bild in mehreren Verarbeitungsschichten in eine informationsreduzierte Repräsentation. Die Decoder- Struktur übersetzt diese informationsreduzierte Repräsentation in eine Zuordnung jedes Pixels des eingegebenen Bildes zu einer semantischen Bedeutung weiter. Encoder- Decoder-Anordnungen dieser Art sind besonders gut geeignet, um semantische Segmentierungen zu ermitteln.

In einer weiteren vorteilhaften Ausgestaltung weist der Diskriminator mindestens eine Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation auf. Dann kann selektiv ein besonders relevanter Anteil der Information aus der Encoder-Struktur in die Decoder- Struktur überführt werden, ohne den „Flaschenhals“ der maximal informationsreduzierten Repräsentation passieren zu müssen. Der Diskriminator erhält hierdurch eine „U-Net“-Architektur. Er führt in kohärenter Weise globale und lokale Information, die er durch den besagten „Flaschenhals“ oder auch über besagte Direktverbindungen erhalten hat, zusammen.

Wie zuvor erläutert, besteht eine wesentliche Anwendung des hier beschriebenen Trainingsverfahrens darin, einen Trainingsdatensatz für einen Bildklassifikator zu vergrößern und den Bildklassifikator so ausgehend von einem vorgegebenen Trainingsdatensatz mit realen Trainingsbildern und zugehörigen Soll-Zuordnungen zu semantischen Bedeutungen insgesamt besser zu trainieren. Daher bezieht sich die Erfindung auch auf ein Verfahren zum Trainieren eines Bildklassifikators, der ein eingegebenes Bild, und/oder Pixel dieses eingegebenen Bildes, einer semantischen Bedeutung zuordnet. Bei diesem Verfahren wird ein Generator nach dem zuvor beschriebenen Verfahren trainiert. Mit diesem trainierten Generator werden aus semantischen Karten realistische Bilder erzeugt. Diese semantischen Karten sind dann nicht mehr auf diejenigen semantischen Karten beschränkt, die zum Training des Generators verwendet wurden, sondern können beliebige gewünschte Szenerien beschreiben.

Aus den semantischen Karten werden semantische Soll-Bedeutungen ermittelt, auf die der trainierte Bildklassifikator die realistischen Bilder jeweils abbilden soll. Die Soll-Bedeutungen können insbesondere beispielsweise eine Zugehörigkeit zu einer oder mehreren Klassen einer vorgegebenen Klassifikation umfassen. Wenn beispielsweise in der semantischen Karte an einem bestimmten Ort ein Fahrzeug eingezeichnet ist, dann wird das realistisch erzeugte Bild an diesem Ort ein Fahrzeug enthalten. Daher soll der Bildklassifikator zumindest diesen Bildbereich der Klasse „Fahrzeug“ zuordnen.

Ein Trainingsdatensatz für den Bildklassifikator, der reale Trainingsbilder und zugehörige semantische Soll-Bedeutungen enthält, wird um die realistisch erzeugten Bilder und zugehörigen semantischen Soll-Bedeutungen erweitert. Der Bildklassifikator wird mit dem erweiterten Trainingsdatensatz trainiert.

Wie zuvor erläutert, kann der Trainingsdatensatz auf diese Weise insbesondere um realistische Bilder von Situationen bereichert werden, die zuvor in dem Trainingsdatensatz unterrepräsentiert waren. Auf diese Weise kann der Bildklassifikator besser in die Lage versetzt werden, diese Situationen zu handhaben.

Beispielsweise sind Trainingsbilder von selten, aber gefährlichen Verkehrssituationen häufig schwer erhältlich. Beispielsweise können Nebel, extremer Schneefall oder Glatteis, die wesentlicher Bestandteil der Situation sind, nur selten vorliegen. Andere Teile der Situation, wie etwa zwei Fahrzeuge auf Kollisionskurs, sind möglicherweise zu gefährlich, um sie mit realen Fahrzeugen nachzustellen. Daher bezieht sich die Erfindung auch auf ein weiteres Verfahren. Bei diesem Verfahren wird ein Bildklassifikator, wie zuvor beschrieben, unter Nutzung von mit dem trainierten Generator erzeugten realistischen Bildern trainiert. Mit diesem trainierten Bildklassifikator werden Bilder, die mit mindestens einem von einem Fahrzeug mitgeführten Sensor aufgenommen wurden, einer semantischen Bedeutung zugeordnet. Aus der vom Bildklassifikator ermittelten semantischen Bedeutung wird ein Ansteuersignal ermittelt. Das Fahrzeug wird mit diesem Ansteuersignal angesteuert.

Durch das verbesserte Training ist die Genauigkeit der vom Bildklassifikator gelieferten semantischen Bedeutung vorteilhaft verbessert. Daher ist die Wahrscheinlichkeit, dass die durch das Ansteuersignal ausgelöste Reaktion des Fahrzeugs der in den Bildern gezeigten Verkehrssituation angemessen ist, vorteilhaft erhöht.

Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.

Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.

Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein. Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.

Ausführungsbeispiele

Es zeigt:

Figur 1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren des Generators 1;

Figur 2 Veranschaulichung einer vom Diskriminator 7 erstellten semantischen Segmentierung 6;

Figur 3 Ausführungsbeispiel des Verfahrens 200 zum Trainieren des Bildklassifikators 9;

Figur 4 Ausführungsbeispiel des Verfahrens 300 mit vollständiger Wirkkette bis zum Ansteuern eines Fahrzeugs 50.

Figur 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100. In Schritt 110 werden reale Trainingsbilder 5 sowie zugehörige semantische Trainingskarten 5a bereitgestellt. Die semantischen Trainingskarten 5a ordnen jedem Pixel des jeweiligen Trainingsbildes 5 eine semantische Bedeutung 4 zu.

In Schritt 120 werden aus mindestens einer semantischen Trainingskarte 5a mit dem zu trainierenden Generator 1 realistische Bilder 3 erzeugt. In Schritt 130 wird zu der gleichen mindestens einen semantischen Trainingskarte 5a mindestens ein reales Trainingsbild 5 ermittelt. Dies kann beispielsweise dasjenige Trainingsbild 5 sein, durch dessen „Labeln“ die semantische Trainingskarte 5a überhaupt erst entstanden ist. In Schritt 140 werden die vom Generator 1 erzeugten realistischen Bilder 3 und das mindestens eine reale Trainingsbild 5, die zur gleichen semantischen Trainingskarte 5a gehören, einem Diskriminator 7 zugeführt. Dieser Diskriminator 7 kann gemäß Block 141 insbesondere beispielsweise eine Encoder-Decoder- Anordnung aufweisen. Die Encoder-Struktur in dieser Encoder-Decoder- Anordnung übersetzt ein eingegebenes Bild in mehreren sukzessiven Verarbeitungsschichten in eine informationsreduzierte Repräsentation. Die Decoder-Struktur in der Encoder-Decoder-Anordnung übersetzt diese informationsreduzierte Repräsentation in eine Zuordnung jedes Pixels des eingegebenen Bildes zu einer semantischen Bedeutung (4) weiter. Gemäß Block 141a kann insbesondere beispielsweise in dem Diskriminator 7 mindestens eine Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder-Struktur unter Umgehung der informationsreduzierten Repräsentation vorgesehen sein.

Der Diskriminator 7 ermittelt in Schritt 150 eine semantische Segmentierung 6 des ihm zugeführten Bildes 3, 5, die jedem Pixel dieses Bildes 3, 5 eine semantische Bedeutung 4 zuordnet. Die möglichen semantischen Bedeutungen 4 in dieser semantischen Segmentierung 6 können gemäß Block 151 insbesondere beispielsweise die semantischen Bedeutungen 4 der semantischen Trainingskarten 5a sowie eine Einordnung als Teil eines realistisch erzeugten Bildes 3 umfassen.

Hierin liegt aber noch keine abschließende Beurteilung des eingegebenen Bildes als realistisch erzeugtes Bild 3 oder als reales Trainingsbild 5. Diese Beurteilung, die mit dem Bezugszeichen 3 v 5 („3 oder 5“) bezeichnet ist, wird erst bei der anschließenden Auswertung der semantischen Segmentierung 6 in Schritt 160 ermittelt. Gemäß Block 161 kann hierbei insbesondere die Anzahl der Pixel, die vom Diskriminator 7 als zu einem realen Trainingsbild 5 zugehörig gewertet werden, mit der Anzahl der Pixel, die vom Diskriminator als zu einem realistisch erzeugten Bild 3 zugehörig gewertet werden, verglichen und/oder ins Verhältnis gesetzt werden.

In Schritt 170 werden Generator- Parameter la, die das Verhalten des Generators 1 charakterisieren, optimiert mit dem Ziel, dass die vom Generator 1 erzeugten realistischen Bilder 3 vom Diskriminator 7 als reale Bilder 5 fehlklassifiziert werden. Gleichzeitig oder auch im Wechsel hierzu werden in Schritt 180 Diskriminator-Parameter 7a, die das Verhalten des Diskriminators 7 charakterisieren, optimiert mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen realistisch erzeugten Bildern 3 und realen Bildern 5 zu verbessern.

Dabei können gemäß Block 181 die Diskriminator- Parameter 7a dahingehend optimiert werden, dass eine spezielle Kostenfunktion einen optimalen Wert annimmt. In dieser Kostenfunktion werden für alle Pixel und alle möglichen semantischen Bedeutungen 4 Klassifikations-Scores des Diskriminators 7 für die jeweilige semantische Bedeutung 4 summiert. Die Summanden in dieser Summe werden gewichtet mit binären Indikatoren, ob diese semantische Bedeutung 4 ausweislich der semantischen Trainingskarten (5a) korrekt ist. Hierbei können gemäß Block 181a insbesondere beispielsweise Bedeutungen 4 der semantischen Trainingskarten 5a in der Summierung mit dem Inversen ihrer in betroffenen Pixeln gemessenen Häufigkeit gewichtet werden. Für bestimmte Bedeutungen 4 kann weiterhin das Gewicht auch auf Null gesetzt werden. So können beispielsweise in Trainingsbildern 5 Pixel vorkommen, die nicht gelabelt sind und dadurch das Platzhalter-Label „Unbekannt“ erhalten. Durch Nullsetzen des Gewichts können diese Pixel dann bei der Optimierung komplett ignoriert werden. Dies kann ein herkömmlicher Diskriminator nicht ohne weiteres, weil er seine Kostenfunktion („Löss- Funktion“) nicht auf der Pixelebene berechnet.

In Figur 2 ist die Bildung einer semantischen Segmentierung 6 durch den Diskriminator 7 an einem einfachen Beispiel veranschaulicht. Die semantische Trainingskarte 5a enthält Bereiche mit drei verschiedenen semantischen Bedeutungen 4, nämlich Himmel 41, Garten 42 und Haus 43. Diese semantischen Bedeutungen wurden durch „Labeln“ eines realen Trainingsbildes 5 entnommen, das einen sonnigen Himmel 11, ein Haus 12 sowie einen Garten 13 enthält.

Mit dem Generator 1 wird aus der semantischen Trainingskarte 5a ein realistisches Bild 3 erzeugt. Dieses realistische Bild 3 enthält einen verregneten Himmel 11', ein anderes Haus 12' als im realen Trainingsbild 5, jedoch den gleichen Garten 13 wie im realen Trainingsbild 5. Der Diskriminator 7 verarbeitet das realistische Bild 3 zu einer semantischen Segmentierung 6. In dieser semantischen Segmentierung 6 wird dem verregneten Himmel 11' die semantische Bedeutung 41 „Himmel“ zugeordnet. Dem Garten 13 wird die semantische Bedeutung 42 „Garten“ zugeordnet. Jedoch wird dem gegenüber dem realen Trainingsbild 5 geänderten Haus 12' die semantische Bedeutung 44 „Teil eines realistisch erzeugten Bildes 3“ zugeordnet.

Im Unterschied zu einem herkömmlichen Diskriminator findet also die Entscheidung, ob ein reales Bild 5 oder ein realistisch erzeugtes Bild 3 vorliegt, im Kern auf der lokalen Pixel- Ebene statt.

Hieraus lässt sich mit der nachgeschalteten Auswertung 160 in vielfältiger Weise die gesuchte Entscheidung 3 v 5 gewinnen, ob das Bild als reales Bild 5 oder als realistisch erzeugtes Bild 3 einzustufen ist. Wenn diese Auswertung 160 auf die Mehrheit der Pixel abstellt, dann kann das Bild als reales Bild 5 durchgehen, denn der als Himmel erkannte Himmel 11' und der als Garten erkannte Garten 13 belegen zusammen mehr Pixel als das geänderte Haus 12'. Die Auswertung 160 kann jedoch auch beispielsweise darauf fokussiert sein, ob das Bild am erwarteten Ort ein Objekt mit der semantischen Bedeutung 43 „Haus“ enthält, ohne Rücksicht auf einen Garten, einen Himmel oder sonstiges Beiwerk. In diesem Fall kann das Bild als realistisch erzeugtes Bild 3 erkannt werden. Wie zuvor bei der Diskussion der beispielhaften Kostenfunktion LD für den Diskriminator 7 erläutert, können aber auch beispielsweise Kostenfunktions- Beiträge, die sich auf im realen Bild vorkommende semantische Bedeutungen 41-43 beziehen, und Kostenfunktions- Beiträge, die sich auf die semantische Bedeutung 44 „Teil eines realistisch erzeugten Bildes 3“ beziehen, gemittelt oder in anderer Weise zusammengeführt werden.

Figur 3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 zum Trainieren eines Bildklassifikators 9. In Schritt 210 wird ein Generator 1 mit dem zuvor beschriebenen Verfahren 100 trainiert. In Schritt 220 werden mit dem trainierten Generator 1 aus semantischen Karten 2 realistische Bilder 3 erzeugt. Aus den jeweils verwendeten semantischen Karten 2 werden in Schritt 230 semantische Soll-Bedeutungen ermittelt, auf die der Bildklassifikator 9 die realistischen Bilder 3, bzw. Pixel hiervon, jeweils abbilden soll.

Die vom Generator 1 erzeugten realistischen Bilder 3 sowie die zugehörigen Soll- Bedeutungen 4 werden in Schritt 240 zu einem Trainingsdatensatz 9a, der bereits reale Trainingsbilder 5' sowie zugehörige Soll-Bedeutungen 4' enthält, hinzugefügt. Der solchermaßen erweiterte Trainingsdatensatz 9a* wird in Schritt 250 verwendet, um den Bildklassifikator 9 zu trainieren. Figur 4 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des

Verfahrens 300. In Schritt 310 wird ein Bildklassifikator 9 mit dem zuvor beschriebenen Verfahren 200 trainiert. Mit diesem Bildklassifikator 9 werden in Schritt 320 Bilder 5, die mit mindestens einem von einem Fahrzeug 50 mitgeführten Sensor 50a aufgenommen wurden, einer semantischen Bedeutung 4 zugeordnet. Aus dieser vom Bildklassifikator 9 ermittelten semantischen

Bedeutung 4 wird in Schritt 330 ein Ansteuersignal 330a ermittelt. In Schritt 340 wird das Fahrzeug 50 mit diesem Ansteuersignal 330a angesteuert.

Claims

Ansprüche

1. Verfahren (100) zum Trainieren eines Generators (1) für Bilder (3) aus einer semantischen Karte (2, 5a), die jedem Pixel des Bildes (3) eine semantische Bedeutung (4) eines Objekts, zu dem dieses Pixel gehört, zuordnet, mit den Schritten:

• es werden reale Trainingsbilder (5) und zugehörige semantische Trainingskarten (5a), die jedem Pixel des jeweiligen Trainingsbildes (5) eine semantische Bedeutung (4) zuordnen, bereitgestellt (110);

• aus mindestens einer semantischen Trainingskarte (5a) werden mit dem Generator (1) Bilder (3) erzeugt (120);

• zu der gleichen mindestens einen semantischen Trainingskarte (5a) wird mindestens ein reales Trainingsbild (5) ermittelt (130);

• die vom Generator (1) erzeugten Bilder (3) und das mindestens eine reale Trainingsbild (5), die zur gleichen semantischen Trainingskarte (5a) gehören, werden einem Diskriminator (7) zugeführt (140), woraufhin der Diskriminator (7) eine semantische Segmentierung (6) des ihm zugeführten Bildes (3, 5) ermittelt (150), die jedem Pixel dieses Bildes (3, 5) eine semantische Bedeutung (4) zuordnet;

• aus der vom Diskriminator (7) ermittelten semantischen Segmentierung (6) wird ausgewertet (160), ob das dem Diskriminator (7) zugeführte Bild (3, 5) ein erzeugtes Bild (3) oder ein reales Trainingsbild (5) ist;

• Generator- Parameter (la), die das Verhalten des Generators (1) charakterisieren, werden optimiert (170) mit dem Ziel, dass die vom Generator (1) erzeugten Bilder (3) als reale Bilder (5) fehlklassifiziert werden;

• Diskriminator-Parameter (7a), die das Verhalten des Diskriminators (7) charakterisieren, werden optimiert (180) mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen erzeugten Bildern (3) und realen Bildern (5) zu verbessern.

2. Verfahren (100) nach Anspruch 1, wobei die möglichen semantischen Bedeutungen (4) in der vom Diskriminator (7) gelieferten semantischen Segmentierung (6) mindestens die semantischen Bedeutungen (4) der semantischen Trainingskarten (5a) sowie eine Einordnung als Teil eines erzeugten Bildes (3) umfassen (151).

3. Verfahren (100) nach Anspruch 2, wobei die Diskriminator-Parameter (7a) dahingehend optimiert werden (181), dass eine Kostenfunktion, in der für alle Pixel und alle möglichen semantischen Bedeutungen (4) Klassifikations- Scores des Diskriminators (7) für die jeweilige semantische Bedeutung (4) gewichtet mit binären Indikatoren, ob diese semantische Bedeutung (4) ausweislich der semantischen Trainingskarten (5a) korrekt ist, summiert werden, einen optimalen Wert annimmt.

4. Verfahren (100) nach Anspruch 3, wobei die semantischen Bedeutungen (4) der semantischen Trainingskarten (5a) in der Summierung mit dem Inversen ihrer in betroffenen Pixeln gemessenen Häufigkeit gewichtet werden (181a).

5. Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei ein Diskriminator (7) mit einer Encoder- Struktur, die ein eingegebenes Bild in mehreren sukzessiven Verarbeitungsschichten in eine informationsreduzierte Repräsentation übersetzt, und einer Decoder-Struktur, die diese informationsreduzierte Repräsentation in eine Zuordnung jedes Pixels des eingegebenen Bildes zu einer semantischen Bedeutung (4) weiterübersetzt, gewählt wird (141).

6. Verfahren (100) nach Anspruch 5, wobei ein Diskriminator (7) mit mindestens einer Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation gewählt wird (141a).

7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei das Auswerten (160) der semantischen Segmentierung (6) beinhaltet, die Anzahl der Pixel, die vom Diskriminator (7) als zu einem realen Trainingsbild (5) zugehörig - 18 - gewertet werden, mit der Anzahl der Pixel, die vom Diskriminator als zu einem erzeugten Bild (3) zugehörig gewertet werden, zu vergleichen und/oder ins Verhältnis zu setzen (161).

8. Verfahren (200) zum Trainieren eines Bildklassifikators (9), der ein eingegebenes Bild, und/oder Pixel dieses eingegebenen Bildes, einer semantischen Bedeutung zuordnet, mit den Schritten:

• ein Generator (1) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 7 trainiert (210);

• mit dem trainierten Generator (1) werden aus semantischen Karten (2) Bilder (3) erzeugt (220);

• aus den jeweils verwendeten semantischen Karten (2) werden semantische Soll-Bedeutungen (4) ermittelt (230), auf die der trainierte Bildklassifikator (9) die Bilder (3) jeweils abbilden soll;

• ein Trainingsdatensatz (9a) für den Bildklassifikator (9), der reale Trainingsbilder (5') und zugehörige semantische Soll-Bedeutungen (4') enthält, wird um die erzeugten Bilder (3) und zugehörigen semantischen Soll-Bedeutungen (4) erweitert (240);

• der Bildklassifikator (9) wird mit dem erweiterten Trainingsdatensatz (9a*) trainiert (250).

9. Verfahren (300) mit den Schritten:

• ein Bildklassifikator (9) wird mit dem Verfahren (200) nach Anspruch 8 trainiert (310);

• Bilder (5), die mit mindestens einem von einem Fahrzeug (50) mitgeführten Sensor (51) aufgenommen wurden, werden mit dem Bildklassifikator (9) einer semantischen Bedeutung (4) zugeordnet (320);

• aus der vom Bildklassifikator (9) ermittelten semantischen Bedeutung (4) wird ein Ansteuersignal (330a) ermittelt (330);

• das Fahrzeug (50) wird mit dem Ansteuersignal (330a) angesteuert (340).

10. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200, 300) nach einem der Ansprüche 1 bis 9 auszuführen. - 19 -

11. Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 10.

12. Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 10, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 11.