WO2020260016A1

WO2020260016A1 - Verfahren und vorrichtung zum trainieren eines maschinellen lernsystems

Info

Publication number: WO2020260016A1
Application number: PCT/EP2020/066033
Authority: WO
Inventors: Nianlong GU; Lydia Gauerhof
Original assignee: Robert Bosch Gmbh
Priority date: 2019-06-28
Filing date: 2020-06-10
Publication date: 2020-12-30
Also published as: US20220245932A1; DE102019209566A1; CN113994349A

Abstract

Verfahren zum Trainieren eines maschinellen Lernsystems (60), umfassend Schritte zum Erzeugen eines augmentierten Datensatzes umfassend Eingangsbilder (x ⁽ ⁱ⁾)) zum Trainieren des maschinellen Lernsystem (60), welches eingerichtet ist zur Klassifikation und/oder semantischen Segmentierung von Eingangsbildern (x), mit einem ersten maschinellen Lernsystem (GEN), welches als Decoder (GEN) eines Autoencoders (ENC-GEN) ausgebildet ist, insbesondere einem ersten neuronalen Netzwerk, und einem zweiten maschinellen Lernsystem (ENG), insbesondere einem zweiten neuronalen Netzwerk, welches als Kodierer (ENG) des Autoencoders (ENC-GEN) ausgebildet ist, wobei mittels des Kodierers (ENG) jeweils latente Variablen (z ⁽ⁱ⁾) aus den Eingangsbildern (x ⁽ⁱ⁾) ermittelt werden, wobei die Eingangsbilder (x ⁽ⁱ⁾) abhängig von ermittelten Merkmalsausprägungen ihrer Bilddaten klassifiziert werden, und wobei ein augmentiertes Eingangsbild (x ⁽ⁱ⁾ _neu) des augmentierten Datensatzes aus wenigstens einem der Eingangsbilder (x ⁽ⁱ⁾) abhängig von durchschnittlichen Werten (̅z _A, ̅z _B) der ermittelten latenten Variablen (z ⁽ⁱ⁾) in wenigstens zwei der Klassen ermittelt wird, wobei die Bildklassen derart gewählt werden, dass die darin einklassifizierten Eingangsbilder (x ⁽ⁱ⁾) bezüglich ihrer Ausprägungen in einer vorgebbaren Menge anderer Merkmale übereinstimmen.

Description

Beschreibung

Titel

Verfahren und Vorrichtung zum Trainieren eines maschinellen Lernsystems

Die Erfindung betrifft ein Verfahren Trainieren eines maschinellen Lernsystems, eine Trainingsvorrichtung, ein Computerprogramm und ein maschinenlesbares Speichermedium.

Stand der Technik

„CVAE-GAN: Fine-Grained Image Generation through Asymmetrie Training”, arXiv preprint arXiv: 1703.10155, 2017, Jianmin Bao, Dong Chen, Fang Wen, Houqiang Li, und Gang Hua bietet einen Überblick über bekannte generative Verfahren wie Variational Autoencoder und Generative Adversarial Networks.

Vorteile der Erfindung

Die Erfindung mit den Merkmalen des unabhängigen Anspruch 1 hat den Vorteil, dass besonders gut augmentierter Datensatz zur Verfügung gestellt werden kann. Dies ist möglich, da besonders gut Merkmale der Bilder im Raum der latenten Variablen (englisch:„latent space“) analysiert und entflochtene

Merkmale extrahiert werden können, sodass in der beschriebenen

Vorgehensweise ein besonderes gezieltes Variieren der Merkmale der Bilder möglich ist.

Weitere Aspekte der Erfindung sind Gegenstand der nebengeordneten

Ansprüche. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.

Offenbarung der Erfindung In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum Erzeugen eines augmentierten Datensatzes umfassend

Eingangsbilder zum Trainieren eines maschinellen Lernsystem, welches eingerichtet ist zur Klassifikation und/oder semantischen Segmentierung von Eingangsbildern, mit einem ersten maschinellen Lernsystem, welches als Decoder eines Autoencoders ausgebildet ist, insbesondere einem ersten neuronalen Netzwerk, und einem zweiten maschinellen Lernsystem,

insbesondere einem zweiten neuronalen Netzwerk, welches als Kodierer des Autoencoders ausgebildet ist, wobei mittels des Kodierers jeweils latente

Variablen aus den Eingangsbildern ermittelt werden, wobei die Eingangsbilder abhängig von ermittelten Merkmalsausprägungen ihrer Bilddaten klassifiziert werden, und wobei ein augmentiertes Eingangsbild des augmentierten

Datensatzes aus wenigstens einem der Eingangsbilder abhängig von

durchschnittlichen Werten der ermittelten latenten Variablen in wenigstens zwei der Klassen ermittelt wird, wobei die Bildklassen derart gewählt werden, dass die darin einklassifizierten Eingangsbilder bezüglich ihrer Ausprägungen in einer vorgebbaren Menge anderer Merkmale übereinstimmen.

Hierbei kann dann vorteilhafterweise vorgesehen sein, dass das augmentierte Eingangsbild mittels des Decoders abhängig von einer ermittelten augmentierten latenten Variable ermittelt wird. Hiermit kann man effizient ein modifiziertes Bild erzeugen.

Um ganz gezielt ein vorgebbares Merkmal eines bestehenden Bildes zu modifizieren, kann vorgesehen sein, dass die augmentierte latente Variable aus einer vorgebbaren der ermittelten latenten Variablen und einer Differenz der durchschnittlichen Werte ermittelt wird. Damit wird das Merkmal des Bildes, das zur vorgebbaren der ermittelten latenten Variablen korrespondiert, variiert.

Um eine möglichst große Vielzahl an neuen Merkmalsausprägungen zu erhalten, kann vorgesehen sein, dass die Differenz mit einem vorgebbaren Gewichtsfaktor a gewichtet wird. Insbesondere ist es so möglich, eine Vielzahl an

Trainingsbildern zu generieren, deren Merkmale unterschiedlich stark variiert sind. Beispielsweise ist es möglich, für Straßenszenen die visuellen Attribute von Fußgängern in einer Vielzahl von Ausprägungen zu variieren, und somit einen besonders großen Trainings- oder Testdatensatz zur Verfügung zu stellen, der hinsichtlich dieses Merkmals eine sehr hohe Abdeckung gewährleistet.

In einer Weiterbildung kann vorgesehen sein, dass mittels des erzeugten augmentierten Datensatzes überprüft wird, ob das, insbesondere bereits trainierte, maschinelle Lernsystem robust ist, und abhängig davon, und wobei das Training dann, insbesondere nur dann, fortgesetzt wird, wenn die

Überprüfung ergeben hat, dass das maschinelle Lernsystem nicht robust ist. Hierdurch kann lässt sich besonders zuverlässig überprüfen, ob das maschinelle Lernsystem hinsichtlich des variierten Merkmals robust ist.

Alternativ oder zusätzlich kann vorgesehen sein, dass das maschinelle

Lernsystem dann, insbesondere nur dann, mit dem erzeugten augmentierten Datensatz trainiert wird, wenn eine Überwachung ergeben hat, dass das maschinelle Lernsystem nicht robust ist.

In einer Weiterbildung dieses Aspekts kann vorgesehen sein, dass eine

Überwachung des maschinellen Lernsystems mittels einer Überwachungseinheit durchgeführt wird, welche das erste maschinelle Lernsystem und das zweite maschinelle Lernsystem umfasst, wobei das Eingangsbild dem zweiten maschinellen Lernsystem zugeführt wird, das hieraus eine niederdimensionale latente Variable ermittelt, aus der das erste maschinelle Lernsystem eine Rekonstruktion des Eingangsbilds ermittelt, wobei abhängig von Eingangsbild und rekonstruiertem Eingangsbild entschieden wird, ob das maschinelle

Lernsystem robust ist, oder nicht.

In einer Weiterbildung dieses Aspekts kann vorgesehen sein, dass die

Überwachungseinheit auch ein drittes maschinelles Lernsystem eines neuronalen Netzwerksystems umfasst,

wobei das neuronale Netzwerksystem, das erste maschinelle Lernsystem, das zweite maschinelle Lernsystem und ein drittes maschinelles Lernsystem, insbesondere ein drittes neuronales Netzwerk, umfasst, wobei das erste maschinelle Lernsystem ausgebildet ist, aus einem vorgebbaren

niederdimensionalen latenten Variable ein höherdimensionales konstruiertes Bild zu ermitteln, wobei das zweite maschinelle Lernsystem ausgebildet ist, aus dem höherdimensionalen konstruierten Bild wieder die latente Variable zu ermitteln, und wobei das dritte maschinelle Lernsystem ausgebildet ist, zu unterscheiden, ob ein ihm zugeführtes Bild ein reales Bild ist, oder nicht,

wobei abhängig davon entschieden wird, ob das maschinelle Lernsystem robust ist, oder nicht, welchen Wert die eine Aktivierung in der vorgebbaren

Merkmalskarte des dritten maschinellen Lernsystems annimmt, wenn ihm das Eingangsbild zugeführt wird und welchen Wert die die Aktivierung in der vorgebbaren Merkmalskarte des dritten maschinellen Lernsystems annimmt, wenn ihm das rekonstruierte Eingangsbild zugeführt wird.

Hierbei kann vorgesehen sein, dass das erste maschinelle Lernsystem dahingehend trainiert wird, dass eine Aktivierung in einer vorgebbaren

Merkmalskarte der Merkmalskarten des dritten maschinellen Lernsystems möglichst den gleichen Wert annimmt, wenn ihm ein reales Bild bzw. ein von einer Hintereinanderschaltung aus zweitem maschinellem Lernsystem und erstem maschinellem Lernsystem rekonstruiertes Bild des realen Bildes zugeführt wird. Es hat sich gezeigt, dass das Training hierdurch besonders gut konvergiert.

Weiterbildung dieses Aspekts kann vorgesehen sein, dass das erste maschinelle Lernsystem auch dahingehend trainiert wird, dass das dritte maschinelle Lernsystem möglichst nicht erkennt, dass ein ihm zugeführtes vom ersten maschinellen Lernsystem generiertes Bild kein reales Bild ist. Dies sorgt für besonders robuste Anomaliedetektion.

Alternativ oder zusätzlich kann vorgesehen sein, dass das zweite maschinelle Lernsystem, und insbesondere nur das zweite maschinelle Lernsystem, dahingehend trainiert wird, dass eine von einer Hintereinanderschaltung aus erstem maschinellem Lernsystem und zweitem maschinellen Lernsystem ermittelte Rekonstruktion der latenten Variable möglichst der latenten Variable gleicht. Es wurde erkannt, dass die Konvergenz des Verfahrens erheblich verbessert ist, wenn diese Rekonstruktion so gewählt wird, dass nur die

Parameter des zweiten maschinellen Lernsystems trainiert werden, da ansonsten die Kostenfunktion des Kodierers und des Generators schwer miteinander in Einklang zu bringen sind.

Um eine möglichst gute Verbesserung des Trainingsergebnisses zu erreichen, kann in einer Weiterbildung vorgesehen sein, dass wobei das dritte maschinelle Lernsystem dahingehend trainiert wird, dass es möglichst erkennt, dass ein ihm zugeführtes vom ersten maschinellen Lernsystem generiertes Bild kein reales Bild ist und/oder dass das dritte maschinelle Lernsystem auch dahingehend trainiert wird, dass es möglichst erkennt, dass ein ihm zugeführtes reales Bild ein reales Bild ist.

Werden das maschinelle Lernsystem und das neuronale Netzwerksystem mit Datensätzen, die die gleichen Eingangsbilder umfassen, trainiert, so ist die Überwachung besonders zuverlässig, da besonders einfach sichergestellt ist, dass die statistischen Verteilungen der Trainingsdatensätze vergleichbar (nämlich: identisch) sind.

In weiteren Aspekten betrifft die Erfindung ein Computerprogramm, das eingerichtet, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.

Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

Figur 1 schematisch einen Aufbau einer Ausführungsform der Erfindung; Figur 2 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters; Figur 3 schematisch ein Ausführungsbeispiel zur Steuerung eines

Fertigungssystems;

Figur 4 schematisch ein Ausführungsbeispiel zur Steuerung eines

Zugangssystems;

Figur 5 schematisch ein Ausführungsbeispiel zur Steuerung eines

Überwachungssystems;

Figur 6 schematisch ein Ausführungsbeispiel zur Steuerung eines

persönlichen Assistenten;

Figur 7 schematisch ein Ausführungsbeispiel zur Steuerung eines

medizinisch bildgebenden Systems;

Figur 8 einen möglichen Aufbau der Überwachungseinheit;

Figur 9 einen möglichen Aufbau einer ersten Trainingsvorrichtung 141;

Figur 10 das neuronale Netzwerksystem;

Figur 11 einen möglichen Aufbau einer zweiten Trainingsvorrichtung 140.

Beschreibung der Ausführungsbeispiele Figur 1 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem

Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung 20 in einem Sensor 30, insbesondere einem bildgebenden Sensor wie einem Videosensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Auch andere bildgebende Sensoren sind denkbar, wie beispielsweise Radar, Ultraschall oder Lidar. Auch eine Wärmebildkamera ist denkbar. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steuerungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteuersignale A, welche an den Aktor 10 übertragen werden.

Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50, die die Folge von

Sensorsignalen S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird

Eingangsbild x abhängig von Sensorsignal S ermittelt. Die Folge von

Eingangsbildern x wird einem maschinellen Lernsystem, im Ausführungsbeispiel einem künstlichen neuronalen Netz 60, zugeführt.

Das künstliche neuronale Netz 60 wird vorzugsweise parametriert durch

Parameter F, die in einem Parameterspeicher P hinterlegt sind und von diesem bereitgestellt werden.

Das künstliche neuronale Netz 60 ermittelt aus den Eingangsbildern x

Ausgangsgrößen y. Diese Ausgangsgrößen y können insbesondere eine Klassifikation und/oder semantische Segmentierung der Eingangsbilder x umfassen. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden, um den Aktor 10 entsprechend anzusteuern. Ausgangsgröße y umfasst Informationen über Objekte, die der Sensor 30 erfasst hat.

Das Steuerungssystem 40 umfasst ferner eine Überwachungseinheit 61 zum Überwachen der Funktionsweise des künstlichen neuronalen Netzes 60. Der Überwachungseinheit 61 wird ebenfalls das Eingangsbild x zugeführt. Sie ermittelt abhängig hiervon ein Überwachungssignal d, das ebenfalls der

Umformeinheit 80 zugeführt wird. Das Ansteuersignal A wird auch abhängig vom Überwachungssignal d ermittelt. Das Überwachungssignal d charakterisiert, ob das neuronale Netz 60 die Ausgangsgrößen y zuverlässig ermittelt, oder nicht. Wenn das

Überwachungssignal d eine Unzuverlässigkeit charakterisiert, kann

beispielsweise vorgesehen sein, dass das Ansteuersignal A entsprechend eines abgesicherten Betriebsmodus ermittelt wird (während es andernfalls in einem normalen Betriebsmodus ermittelt wird). Der abgesicherte Betriebsmodus kann beispielsweise beinhalten, dass eine Dynamik des Aktors 10 reduziert wird, oder dass Funktionalitäten zur Ansteuerung des Aktors 10 ausgeschaltet.

Der Aktor 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor 10 angesteuert wird.

In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 alternativ oder zusätzlich auch den Aktor 10.

In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein

maschinenlesbares Speichermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.

In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor 10 eine Anzeigeeinheit 10a vorgesehen.

Figur 2 zeigt, wie das Steuerungssystem 40 zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann. Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug 100 angeordneten Videosensor handeln.

Das künstliche neuronale Netz 60 ist eingerichtet, aus den Eingangsbildern x Objekte sicher zu identifizieren.

Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des

Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom künstlichen neuronalen Netz 60 sicher identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.

Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom künstlichen neuronalen Netz 60 identifizierten Objekten verhindert.

Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuersignal A derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, mit einem der sicher identifizierten Objekte zu kollidieren.

Figur 3 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.

Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst.

Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden

Bearbeitungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.

Figur 4 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des

Objektidentifikationssystem 60 kann dieses erfasste Bild interpretiert werden.

Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktor 10 kann ein Schloss sein, dass abhängig vom

Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektidentifikationssystem 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.

Figur 5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in Figur 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom künstlichen neuronalen Netz 60 zuverlässig eine Identität der vom Videosensor 30 aufgenommenen Gegenstände ermittelt werden, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.

Figur 6 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines persönlichen Assistenten 250 eingesetzt wird. Der Sensor 30 ist bevorzugt ein optischer Sensor, der Bilder einer Geste eines Nutzers 249 empfängt.

Abhängig von den Signalen des Sensors 30 ermittelt das Steuerungssystem 40 ein Ansteuersignal A des persönlichen Assistenten 250, beispielsweise, indem das neuronale Netz eine Gestenerkennung durchführt. Dem persönlichen Assistenten 250 wird dann dieses ermittelte Ansteuersignal A übermittelt und er somit entsprechend angesteuert. Dieses ermittelte Ansteuersignal A ist kann insbesondere derart gewählt werden, dass es einer vermuteten gewünschten Ansteuerung durch den Nutzer 249 entspricht. Diese vermutete gewünschte Ansteuerung kann abhängig von der vom künstlichen neuronalen Netz 60 erkannten Geste ermittelt werden. Das Steuerungssystem 40 kann dann abhängig von der vermuteten gewünschten Ansteuerung das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten 250 wählen und/oder das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten

entsprechend der vermuteten gewünschten Ansteuerung 250 wählen.

Diese entsprechende Ansteuerung kann beispielsweise beinhalten, dass der persönliche Assistent 250 Informationen aus einer Datenbank abruft und sie für den Nutzer 249 rezipierbar wiedergibt.

Anstelle des persönlichen Assistenten 250 kann auch ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Spülmaschine vorgesehen sein, um entsprechend angesteuert zu werden. Figur 7 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines medizinischen bildgebenden System 500, beispielsweise eines MRT-, Röntgen- oder Ultraschallgeräts, verwendet wird. Der Sensor 30 kann beispielsweise durch einen bildgebenden Sensor gegeben sein, durch das Steuerungssystem 40 wird die Anzeigeeinheit 10a angesteuert. Beispielsweise kann vom neuronalen Netz 60 ermittelt werden, ob ein vom bildgebenden Sensor aufgenommener Bereich auffällig ist, und das Ansteuersignal A dann derart gewählt werden, dass dieser Bereich von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.

Figur 8 zeigt einen möglichen Aufbau der Überwachungseinheit 61. Das

Eingangsbild x wird einem Kodierer (englisch:„Encoder“) ENC zugeführt, der hieraus eine sogenannte latente Variable z ermittelt. Die latente Variable z hat eine geringere Dimensionalität als das Eingangsbild x. Diese latente Variable z wird einem Generator GEN zugeführt, der hieraus ein rekonstruiertes Bild x erzeugt. Kodierer ENC und Generator GEN sind im Ausführungsbeispiel jeweils durch ein faltendes neuronales Netz (englisch:„convolutional neural network“) gegeben. Eingangsbild x und rekonstruiertes Bild x werden einem Diskriminator DIS zugeführt. Der Diskriminator DIS wurde trainiert, möglichst gut eine Größe zu erzeugen, die charakterisiert, ob ein dem Diskriminator DIS zugeführtes Bild ein reales Bild ist, oder ob es vom Generator GEN erzeugt wurde. Dies ist unten im Zusammenhang mit Figur 10 näher erläutert. Generator GEN ist ebenfalls ein faltendes neuronales Netz.

Merkmalskarten (englisch:„feature maps“) einer l-ten Schicht (wobei l eine vorgebbare Zahl ist), die sich ergeben, wenn dem Generator GEN das

Eingangsbild x bzw. das rekonstruierte Bild x zugeführt werden, werden mit DlS_l(x) bzw. bezeichnet. Diese werden einem Bewerter BE zugeführt, in

dem beispielsweise ein Rekonstruktionsfehler

. In einer (nicht dargestellten) alternativen Ausführungsform ist es auch möglich, den Rekonstruktionsfehler unter Umgehung des Diskriminators DIS als

zu wählen.

Anschließend kann ein Anomalitätswert A(x) als der Anteil derjenigen

Eingangsbilder eines Referenzdatensatzes (beispielsweise eines Trainingsdatensatzes, mit dem der Diskriminator DIS und/oder der Generator GEN und/oder der Kodierer ENC trainiert wurde) ermittelt werden, deren

Rekonstruktionsfehler kleiner ist als der ermittelte Rekonstruktionsfehler E_x. Ist der Anomlitätswert A(x) größer als ein vorgebbarer Schwellwert, wird das Überwachungssignal d auf den Wert d = 1 gesetzt, was signalisiert, dass die Ausgangsgrößen y potenziell unzuverlässig ermittelt werden. Andernfalls wird das Überwachungssignal d auf den Wert d = 0 gesetzt, was signalisiert, dass die Ermittlung der Ausgangsgrößen y als zuverlässig eingestuft wird.

Figur 9 zeigt einen möglichen Aufbau einer ersten Trainingsvorrichtung 141 zum Trainieren der Überwachungseinheit 51. Diese wird mit Parametern q

parametriert, die von Parameterspeicher P bereitgestellt werden. Parameter q umfassen Generatorparameter q_GEN , die den Generator GEN parametrieren, Kodiererparameter q_ENC, die den Kodierer ENC parametrieren und

Diskriminatorparameter q_DIS, die den Diskriminator DIS parametrieren.

Trainingsvorrichtung 141 umfasst einen Bereitsteller 71, der aus einem

Trainingsdatensatz Eingangsbilder e bereitstellt. Eingangsbilder e werden der zu trainierenden Überwachungseinheit 61 zugeführt, die hieraus Ausgangsgrößen a ermittelt. Ausgangsgrößen a und Eingangsbilder e werden einem Beurteiler 74 zugeführt, der hieraus wie im Zusammenhang mit Figur 10 beschrieben neue Parameter q' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter q ersetzen.

Die vom Trainingsvorrichtung 141 ausgeführten Verfahren können als

Computerprogramm implementiert auf einem maschinenlesbaren

Speichermedium 146 hinterlegt sein und von einem Prozessor 145 ausgeführt werden.

Figur 10 illustriert das Zusammenspiel von Generator GEN, Kodierer ENC und Diskriminator DIS beim Training. Die hier dargestellte Anordnung von Generator GEN, Kodierer ENC und Diskriminator DIS wird in dieser Schrift auch als neuronales Netzwerksystem bezeichnet. Zunächst wird der Diskriminator DIS trainiert. Die nachfolgenden Schritte zum Training des Diskriminators DIS können beispielsweise n_DIS- fach wiederholt werden, wobei n_DIS eine vorgebbare ganze Zahl ist.

Zunächst wird ein Stapel (englisch:„batch“) realer Eingangsbilder x zur

Verfügung gestellt. Diese werden als mit einer (i.a.

unbekannten) Wahrscheinlichkeitsverteilung p_x bezeichnet. Diese Eingangsbilder x® sind reale Bilder, die beispielsweise aus einer Datenbank zur Verfügung gestellt werden. Die Gesamtheit dieser Eingangsbilder wird auch als

Trainingsdatensatz bezeichnet.

Ferner wird ein Stapel latenter Variablen z als , die zufällig aus

einer Wahrscheinlichkeitsverteilung p_z gezogen wurden, bereitgestellt. Die Wahrscheinlichkeitsverteilung p_z ist hierbei beispielsweise eine

(mehrdimensionale) Standard-Normalverteilung.

Ferner wird ein Stapel Zufallsvariablen als , die zufällig aus einer

Wahrscheinlichkeitsverteilung p_ϵ gezogen wurden, bereitgestellt. Die

Wahrscheinlichkeitsverteilung p_ϵ ist hierbei beispielsweise eine Gleichverteilung über dem Intervall [0; 1].

Die latenten Variablen z werden dem Generator GEN zugeführt und geben ein konstruiertes Eingangsbild

, also

Zwischen Eingangsbild x und konstruiertem Eingangsbild x wird mit der

Zufallsvariablen ϵ interpoliert, also

Mit einem vorgebbaren Gradientenkoeffizienten l, der z.B. als l = 10 gewählt sein kann, wird dann eine Diskriminator- Kostenfunktion

ermittelt. Neue Diskriminatorparameter können hieraus als

Ermittelt werden, wobei„Adam“ für ein Gradientenabstiegsverfahren steht. Damit endet dieses Training des Diskriminators DIS.

Anschließend werden Generator GEN und Kodierer ENC trainiert. Auch hier werden als reale Eingangsbilder und zufällig gewählte latente

Variablen zur Verfügung gestellt. Erneut wird

ermittelt. Hieraus wird eine rekonstruierte latente Variable

ermittelt, indem das konstruierte Bild dem Kodierer ENC zugeführt wird, also

Ebenso wird wie in Figur 8 illustriert das Eingangsbild x mittels Kodierer ENC und Generator GEN versucht, zu rekonstruieren, also

Nun werden eine Generator- Kostenfunktion , eine Rekonstruktions-

Kostenfunktion des Eingangsbildes x und eine Rekonstruktions- Kostenfunktion der latenten Variable z ermittelt als

Neue Generatorparameter und neue Kodiererparameter werden dann

ermittelt als

Neue Generatorparameter

, neue Kodiererparameter und neue

Diskriminatorparameter

erstetzen dann die Generatorparameter q_GEN , Kodiererparameter q_ENC und Diskriminatorparameter q_DIS.

An dieser Stelle kann eine Konvergenz der Parameter q überprüft werden und ggf. das Trining des Diskriminators DIS und/oder von Generator GEN und Kodierer ENC wiederholt werden, bis Konvergenz vorliegt. Damit endet das Verfahren.

Figur 11 zeigt eine beispielhafte zweite Trainingsvorrichtung 140 zum Trainieren des neuronalen Netzes 60. Trainingsvorrichtung 140 umfasst einen Bereitsteller 72, der Eingangsbilder x und Soll-Ausgangsgrößen ys, beispielsweise Soll- Klassifikationen, bereitstellt. Eingangsbild x wird dem zu trainierenden künstlichen neuronalen Netz 60 zugeführt, das hieraus Ausgangsgrößen y ermittelt. Ausgangsgrößen y und Soll-Ausgangsgrößen ys werden einem Vergleicher 75 zugeführt, der hieraus abhängig von einer Übereinstimmung den jeweiligen Ausgangsgrößen y und Soll-Ausgangsgrößen ys neue Parameter

ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter F ersetzen.

Die vom Trainingssystem 140 ausgeführten Verfahren können als

Computerprogramm implementiert auf einem maschinenlesbaren

Speichermedium 148 hinterlegt sein und von einem Prozessor 147 ausgeführt werden.

Ein Datensatz umfassend Eingangsbilder x und zugehörige Soll- Ausgangsgrößen ys kann (z.B. von Bereitsteller 72) wie folgt augmentiert oder erzeugt werden. Zunächst wird ein Datensatz umfassend Eingangsbilder

bereitgestellt. Diese sind nach vorgebbaren Ausprägungen (beispielhaft„A“ und „B“ genannt) eines Merkmals klassifiziert, beispielsweise können Fahrzeuge nach dem Merkmal„Scheinwerfer eingeschaltet“ bzw.„Scheinwerfer ausgeschaltet“ klassifiziert sein, oder identifizierte Autos nach dem Typ „Limousine“ oder„Kombi“. Auch sind beispielsweise unterschiedliche

Ausprägungen des Merkmals„Haarfarbe“ bei erkannten Fußgängern möglich. Je nachdem, welche Ausprägung dieses Merkmal hat, werden die Eingangsbilder in zwei Mengen unterteilt, also I_A = { hat die Ausprägung "A") und I_B =

{ hat die Ausprägung "B"). Vorteilhafterweise werden diese Mengen noch dahingehend homogenisiert, dass für eine vorgebbare Menge anderer Merkmale, vorzugsweise aller anderen Merkmale, die Eingangsbilder

die gleiche Ausprägung X haben, also

Mittels des Kodierers ENC werden für jedes der Eingangsbilder die

zugehörigen latenten Variablen ermittelt.

Dann werden Mittelwerte der latenten Variablen über den Mengen ermittelt, also

Anschließend werden die Differenzen der Mittelwerte gebildet, also

Nun werden zu Bildern aus der Menge I_A neue latente Variablen mit einem vorgebbaren Skalenfaktor a gebildet, der beispielsweise Werte zwischen 0 und 1 annehmen kann, also

Entsprechend können zu Bildern aus der Menge I_B neue latente Variablen gebildet werden als

Hieraus können neue Bilder

erzeugt werden mittels

Selbstverständlich müssen nicht ganze Bilder klassifiziert werden. Es ist möglich, dass mit einem Detektionsalgorithmus z.B. Bildausschnitte als Objekte klassifiziert werden, dass diese Bildausschnitte dann ausgeschnitten werden, ggf. ein neuer Bildausschnitt (entsprechend dem neuen Bild ) erzeugt wird

und an Stelle des ausgeschnittenen Bildausschnitts in das zugehörige Bild eingesetzt wird. Auf diese Weise ist es beispielsweise möglich, in einem Bild mit einem detektierten Fußgänger selektiv die Haarfarbe dieses Fußgängers anzupassen.

Mit Ausnahme der Klassifikation des so zwischen Ausprägung„A“ und „B“ variierten Merkmals kann die zugehörige Soll-Ausgangsgröße ys unverändert übernommen werden. So kann der augmentierte Datensatz erzeugt und damit das neuronale Netz 60 trainiert werden. Damit endet das Verfahren.

Der Begriff„Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus

Software und Hardware.

Claims

Ansprüche

1. Verfahren zum Trainieren eines maschinellen Lernsystems (60), umfassend Schritte zum Erzeugen eines augmentierten Datensatzes umfassend Eingangsbilder

zum Trainieren des maschinellen Lernsystem (60), welches eingerichtet ist zur Klassifikation und/oder semantischen

Segmentierung von Eingangsbildern (x), mit einem ersten maschinellen Lernsystem (GEN), welches als Decoder (GEN) eines Autoencoders (ENC- GEN) ausgebildet ist, insbesondere einem ersten neuronalen Netzwerk, und einem zweiten maschinellen Lernsystem (ENC), insbesondere einem zweiten neuronalen Netzwerk, welches als Kodierer (ENC) des

Autoencoders (ENC-GEN) ausgebildet ist, wobei mittels des Kodierers (ENC) jeweils latente Variablen

aus den Eingangsbildern

ermittelt werden, wobei die Eingangsbilder

abhängig von ermittelten Merkmalsausprägungen ihrer Bilddaten klassifiziert werden, und wobei ein augmentiertes Eingangsbild

des augmentierten Datensatzes aus wenigstens einem der Eingangsbilder

abhängig von durchschnittlichen Werten

der ermittelten latenten Variablen

in wenigstens zwei der Klassen ermittelt wird, wobei die Bildklassen derart gewählt werden, dass die darin einklassifizierten Eingangsbilder

bezüglich ihrer Ausprägungen in einer vorgebbaren Menge anderer Merkmale

übereinstimmen.

2. Verfahren nach Anspruch 1, wobei das augmentierte Eingangsbild

mittels des Decoders (GEN) abhängig von einer ermittelten augmentierten latenten Variable ermittelt wird.

3. Verfahren nach Anspruch 2, wobei die augmentierte latente Variable

aus einer vorgebbaren der ermittelten latenten Variablen

und einer Differenz ( v_A-B ) der durchschnittlichen Werte ermittelt wird.

4. Verfahren nach Anspruch 3, wobei die Differenz (v_A-B) mit einem

vorgebbaren Gewichtsfaktor ( a ) gewichtet wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei mittels des erzeugten augmentierten Datensatzes überprüft wird, ob das maschinelle Lernsystem (60) robust ist, und abhängig davon, und wobei das Training dann fortgesetzt wird, wenn die Überprüfung ergeben hat, dass das maschinelle Lernsystem (60) nicht robust ist.

6. Verfahren nach einem der Ansprüche 1 bis 4, wobei das maschinelle

Lernsystem (60) dann mit dem erzeugten augmentierten Datensatz trainiert wird, wenn eine Überwachung ergeben hat, dass das maschinelle

Lernsystem (60) nicht robust ist.

7. Verfahren nach Anspruch 6, wobei eine Überwachung des maschinellen Lernsystems (60), mittels einer Überwachungseinheit (61) durchgeführt wird, welche das erste maschinelle Lernsystem (GEN) und das zweite

maschinelle Lernsystem (ENC) umfasst, wobei das Eingangsbild (x) dem zweiten maschinellen Lernsystem (ENC) zugeführt wird, das hieraus eine niederdimensionale latente Variable (z) ermittelt, aus der das erste maschinelle Lernsystem (GEN) eine Rekonstruktion des Eingangsbilds (x) ermittelt, wobei abhängig von Eingangsbild (x) und rekonstruiertem

Eingangsbild (x) entschieden wird, ob das maschinelle Lernsystem (60) robust ist, oder nicht.

8. Verfahren nach Anspruch 7, wobei die Überwachungseinheit (61) auch ein drittes maschinelles Lernsystem (DIS) eines neuronalen Netzwerksystems umfasst,

wobei das neuronale Netzwerksystem, das erste maschinelle Lernsystem (GEN), das zweite maschinelle Lernsystem (ENC) und ein drittes

maschinelles Lernsystem, insbesondere ein drittes neuronales Netzwerk (DIS), umfasst, wobei das erste maschinelle Lernsystem (GEN) ausgebildet ist, aus einem vorgebbaren niederdimensionalen latenten Variable (z) ein höherdimensionales konstruiertes Bild (x) zu ermitteln, wobei das zweite maschinelle Lernsystem (ENC) ausgebildet ist, aus dem höherdimensionalen konstruierten Bild (x) wieder die latente Variable (z) zu ermitteln, und wobei das dritte maschinelle Lernsystem (DIS) ausgebildet ist, zu unterscheiden, ob ein ihm zugeführtes Bild ein reales Bild (x) ist, oder nicht,

wobei abhängig davon entschieden wird, ob das maschinelle Lernsystem (60) robust ist, oder nicht, welchen Wert (DIS_l(x)) die eine Aktivierung ( DIS_l ) in der vorgebbaren Merkmalskarte des dritten maschinellen Lernsystems (DIS) annimmt, wenn ihm das Eingangsbild (x) zugeführt wird und welchen Wert die die Aktivierung ( DIS_l ) in der vorgebbaren Merkmalskarte

des dritten maschinellen Lernsystems (DIS) annimmt, wenn ihm das rekonstruierte Eingangsbild (x) zugeführt wird.

9. Verfahren nach Anspruch 8, wobei das erste maschinelle Lernsystem (GEN) dahingehend trainiert wird, dass eine Aktivierung (DIS_l) in einer vorgebbaren Merkmalskarte der Merkmalskarten des dritten maschinellen Lernsystems (DIS) möglichst den gleichen Wert annimmt, wenn ihm ein reales Bild (x) bzw. ein von einer Hintereinanderschaltung aus zweitem maschinellem Lernsystem (ENC) und erstem maschinellem Lernsystem (GEN)

rekonstruiertes Bild

des realen Bildes (x) zugeführt wird.

10. Verfahren nach Anspruch 9, wobei das erste maschinelle Lernsystem (GEN) auch dahingehend trainiert wird, dass das dritte maschinelle Lernsystem (DIS) möglichst nicht erkennt, dass ein ihm zugeführtes vom ersten maschinellen Lernsystem (GEN) generiertes Bild (x) kein reales Bild ist.

11. Verfahren nach Anspruch 9 oder 10, wobei das zweite maschinelle

Lernsystem (ENC) dahingehend trainiert wird, dass eine von einer

Hintereinanderschaltung aus erstem maschinellem Lernsystem (GEN) und zweitem maschinellen Lernsystem (ENC) ermittelte Rekonstruktion

der latenten Variable (z) möglichst der latenten Variable (z) gleicht.

12. Verfahren nach einem der Ansprüche 9 bis 11, wobei das dritte maschinelle Lernsystem (DIS) dahingehend trainiert wird, dass es möglichst erkennt, dass ein ihm zugeführtes vom ersten maschinellen Lernsystem (GEN) generiertes Bild

kein reales Bild ist.

13. Verfahren nach Anspruch 12, wobei das dritte maschinelle Lernsystem (DIS) auch dahingehend trainiert wird, dass es möglichst erkennt, dass ein ihm zugeführtes reales Bild (x) ein reales Bild ist.

14. Verfahren nach Anspruch 12 oder 13, wobei das maschinelle Lernsystem (60) und das neuronale Netzwerksystem mit Datensätzen, die die gleichen Eingangsbilder (x) umfassen, trainiert wurden

15. Trainingsvorrichtung (140,141), die eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 14 auszuführen.

16. Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 14 auszuführen.

17. Maschinenlesbares Speichermedium (146, 148), auf dem das

Computerprogramm nach Anspruch 16 gespeichert ist.