WO2023006597A1

WO2023006597A1 - Verfahren und vorrichtung zum erstellen eines maschinellen lernsystems

Info

Publication number: WO2023006597A1
Application number: PCT/EP2022/070591
Authority: WO
Inventors: Benedikt Sebastian Staffler; Jan Hendrik Metzen
Original assignee: Robert Bosch Gmbh
Priority date: 2021-07-29
Filing date: 2022-07-22
Publication date: 2023-02-02
Also published as: DE102021208197A1; CN117836781A; US20240169225A1

Abstract

Verfahren zum Erstellen eines maschinellen Lernsystems, umfassend folgende Schritte: Bereitstellen eines gerichteten Graphen mit einem Eingangs- und Ausgangsknoten, wobei jeder Kante jeweils eine Wahrscheinlichkeit zugeordnet ist, welche charakterisiert mit welcher Wahrscheinlichkeit eine Kante gezogen wird. Die Wahrscheinlichkeiten werden abhängig von einer Kodierung der aktuell gezogenen Kanten ermittelt.

Description

Beschreibung

Titel

Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems

Die Erfindung betrifft ein Verfahren zum Erstellen eines maschinellen Lernsys- tems unter Verwendung eines Graphen, der eine Vielzahl von möglichen Archi- tekturen des maschinellen Lernsystems beschreibt, ein Computerprogramm und ein maschinenlesbares Speichermedium.

Stand der Technik

Das Ziel einer Architektursuche insbesondere für neuronale Netzwerke ist, eine möglichst gute Netzwerkarchitektur im Sinne einer Leistungskennzahl/Metrik für einen vorgegebenen Datensatz vollautomatisch zu finden.

Um die automatische Architektursuche recheneffizient zu gestalten, können sich verschiedene Architekturen in dem Suchraum die Gewichte ihrer Operationen tei- len, wie z.B. bei einem One-Shot NAS Modell, gezeigt durch Pham, H., Guan, M. Y., Zoph, B., Le, Q. V., & Dean, J. (2018). Efficient neural architecture search via Parameter sharing. arXiv preprint arXiv:1802.03268.

Das One-Shot Modell wird dabei typischerweise als gerichteter Graph konstru- iert, bei dem die Knoten Daten darstellen und die Kanten Operationen, welche eine Berechnungsvorschrift darstellen, die Daten des Eingangsknoten in Daten des Ausgangsknoten überführen. Der Suchraum besteht dabei aus Subgraphen (z.B. Pfade) in dem One-Shot Modell. Da das One-Shot Modell sehr groß sein kann, können einzelne Architekturen aus dem One-Shot Modell für das Training gezogen werden, wie z. B. gezeigt durch Cai, H., Zhu, L., & Han, S. (2018). ProxylessNAS: Direct neural architecture search on targettask and hardware. arXiv preprint arXiv:1812.00332. Dies geschieht typischerweise in dem ein ein- zelner Pfad von einem festgelegten Eingangsknoten zu einem Ausgangsknoten des Netzwerkes gezogen wird, wie z.B. gezeigt durch Guo, Z., Zhang, X., Mu, H., Heng, W., Liu, Z., Wei, Y., & Sun, J. (2019). Single path one-shot neural architec- ture search with uniform sampling. arXiv preprint arXiv:1904.00420.

Die Autoren Cai et al. offenbaren in ihrer Veröffentlichung ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware, online abrufbar: https://arxiv.org/abs/1812.00332, eine Architektursuche, welche Hardwareeigen- schaften berücksichtigt.

Vorteile der Erfindung

Wie oben beschrieben, werden aus einem One-Shot Modell Pfade zwischen Ein- gangs- und Ausgangsknoten gezogen. Dazu wird für jeden Knoten eine Wahr- scheinlichkeitsverteilung über die ausgehenden Kanten definiert. Die Erfinder schlagen eine neuartige Parametrierung der Wahrscheinlichkeitsverteilung vor, die hinsichtlich Abhängigkeiten zwischen bereits gezogenen Kanten aussage- kräftiger ist als die bisherig verwendeten Wahrscheinlichkeitsverteilungen. Der Zweck dieser neuartigen Parametrisierung ist es, Abhängigkeiten zwischen ver- schiedenen Entscheidungspunkten im Suchraum in die Wahrscheinlichkeitsver- teilungen einfließen zu lassen. Eine solche Entscheidung kann beispielsweise die Auswahl eines neuronalen Netzbetriebes sein (wie Entscheidungen zwischen Faltungs- und Pooling-Operationen). Damit können zum Beispiel allgemeine Muster wie "zwei Faltungsschichten sollten von einer Pooling-Operation gefolgt werden" erlernt werden. Die bisherigen Wahrscheinlichkeitsverteilungen konnten nur einfache Entscheidungsregeln erlernen, wie "eine bestimmte Faltung sollte an einem bestimmten Entscheidungspunkt gewählt werden", da sie eine voll fak- torisierte Parametrisierung der Architekturverteilung verwendeten.

Zusammenfassend kann also gesagt werden, dass die Erfindung den Vorteil hat, dass über die vorgeschlagene Parametrisierung der Wahrscheinlichkeitsvertei- lungen bessere Architekturen für eine gegebene Aufgabe aufgefunden werden können. Offenbarung der Erfindung

In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Ver- fahren zum Erstellen eines maschinellen Lernsystems, welches vorzugsweise für eine Bildverarbeitung verwendet wird.

Das Verfahren umfasst zumindest folgende Schritte: Bereitstellen eines gerichte- ten Graphen mit mindestens einem Eingangs- und Ausgangsknoten, die über eine Mehrzahl von Kanten und Knoten verbunden sind. Der Graph, insbesondere das One-Shot Modell, beschreibt ein Supermodel umfassend eine Vielzahl von möglichen Architekturen des maschinellen Lernsystems.

Daraufhin folgt ein zufälliges Ziehen einer Mehrzahl von Pfaden durch den ge- richteten Graphen, insbesondere von Subgraphen des gerichteten Graphen, wo- bei den Kanten jeweils eine Wahrscheinlichkeit zugeordnet ist, welche charakteri- siert mit welcher Wahrscheinlichkeit die jeweilige Kante gezogen wird. Die Be- sonderheit hierbei ist, dass die Wahrscheinlichkeiten abhängig von einer Reihen- folge bisherig gezogener Kanten des jeweiligen Pfades ermittelt werden. Die Wahrscheinlichkeiten der möglichen nachfolgenden zu ziehenden Kanten wer- den also abhängig von einem bis dahin gezogenen Abschnitt des Pfads durch den gerichteten Graphen ermittelt. Der bisher gezogene Abschnitt kann als Teil- pfad bezeichnet werden und kann die bisherig gezogenen Kanten aufweisen, wo- bei iterativ nachfolgend gezogene Kanten hinzugefügt werden können, bis der Eingangsknoten mit dem Ausgangsknoten verbunden ist, also dann der gezo- gene Pfad vorliegt. Vorzugsweise werden die Wahrscheinlichkeiten auch abhän- gig von den Operationen, die den jeweiligen Kanten zugeordnet sind, ermittelt.

Es sei angemerkt, dass das Ziehen des Pfades iterativ erfolgen kann. Also ein schrittweises Erstellen des Pfades durch ein nacheinander folgendes Ziehen der Kanten erfolgt, wobei an jedem erreichten Knoten des Pfades die nachfolgende Kante zufällig aus den möglichen nachfolgenden Kanten, die mit diesem Knoten verbunden sind, abhängig von deren zugeordneten Wahrscheinlichkeiten ausge- wählt werden können. Ferner sei angemerkt, dass ein Pfad als ein Subgraph des gerichteten Graphen verstanden kann werden, welcher eine Untermenge der Kanten und Knoten des gerichteten Graphen aufweist, und wobei dieser Subgraph den Eingangsknoten mit dem Ausgangsknoten des gerichteten Graphen verbindet.

Anschließend folg ein Anlernen der den gezogenen Pfaden korrespondierenden maschinellen Lernsysteme, wobei beim Anlernen Parameter des maschinellen Lernsystems und insbesondere die Wahrscheinlichkeiten der Kanten des Pfades angepasst werden, sodass eine Kostenfunktion optimiert wird.

Daraufhin folg ein letztes Ziehen eines Pfades abhängig von den angepassten Wahrscheinlichkeiten und Erstellen des diesem Pfad korrespondierenden ma- schinellen Lernsystems. Das letzte Ziehen des Pfades in dem letzten Schritt kann zufällig erfolgen oder es werden gezielt die Kanten mit den höchsten Wahr- scheinlichkeiten gezogen.

Es wird vorgeschlagen, dass eine Funktion die Wahrscheinlichkeiten der Kanten abhängig von der Reihenfolge der bisherigen gezogenen Kanten ermittelt, wobei die Funktion parametrisiert ist und die Parametrisierung der Funktion beim Anler- nen abhängig von der Kostenfunktion optimiert wird. Vorzugsweise ist einer je- den Kante eine eigene Funktion zugeordnet, welche abhängig von der Reihen- folge der bisherig gezogenen Kanten des Teilpfades eine Wahrscheinlichkeit er- mittelt.

Ferner wird vorgeschlagen, dass den bisherig gezogenen Kanten und/oder Kno- ten eine eindeutige Kodierung zugeordnet wird und die Funktion abhängig von dieser Kodierung die Wahrscheinlichkeit ermittelt. Vorzugsweise wird hierfür je- der Kante ein eindeutiger Index zugeordnet.

Ferner wird vorgeschlagen, dass die Funktion eine Wahrscheinlichkeitsverteilung über die möglichen Kanten, aus einer Menge von Kanten, die als nächstes gezo- gen werden können, ermittelt. Besonders bevorzugt ist jedem Knoten eine ei- gene Funktion zugeordnet, wobei die Funktionen für alle Kanten, die den jeweili- gen Knoten mit unmittelbaren nachfolgende Nachbarknoten des Graphen verbin- den, die Wahrscheinlichkeitsverteilung über diese Kanten ermittelt. Ferner wird vorgeschlagen, dass die Funktion eine affine Transformation oder ein neuronales Netz (wie z.B. ein Transformer) ist.

Ferner wird vorgeschlagen, dass die Parametrisierung der affinen Transformation eine lineare Transformation und eine Verschiebung der eindeutigen Kodierung beschreibt. Um die lineare Transformation parametereffizienter zu gestalten, kann die lineare Transformation eine sog. Low-Rank Approximierung der linearen Transformation sein.

Ferner wird vorgeschlagen, dass jedem Knoten ein neuronales Netz zum Ermit- teln der Wahrscheinlichkeiten zugeordnet ist und eine Parametrisierung der ers- ten Schichten der neuronalen Netze zwischen allen neuronalen Netzen geteilt werden kann. Besonders bevorzugt teilen sich die neuronalen Netze alle Para- meter bis auf die Parameter der letzten Schicht.

Ferner wird vorgeschlagen, dass die Kostenfunktion eine erste Funktion aufweist, die eine Leistungsfähigkeit des maschinellen Lernsystems hinsichtlich dessen Performance bewertet, bspw. eine Genauigkeit einer Segmentierung, Objekter- kennung oder ähnliches und optional eine zweite Funktion aufweist, welche ab- hängig von einer Länge des Pfades und den Operationen der Kanten eine La- tenzzeit des maschinellen Lernsystems schätzt. Alternativ oder zusätzlich kann die zweite Funktion auch einen Computerressourcenverbrauch des Pfades schätzen.

Vorzugsweise ist das erstellte maschinelle Lernsystem ein künstliches neurona- les Netz, welches zur Segmentierung und Objektdetektion in Bildern eingerichtet sein kann.

Weiterhin wird vorgeschlagen, dass abhängig von einer Ausgabe des maschinel- len Lernsystem ein technisches System angesteuert wird. Beispiele für das tech- nische System sind in der nachfolgenden Figurenbeschreibung aufgezeigt.

In weiteren Aspekten betrifft die Erfindung ein Computerprogramm, das einge- richtet ist, die obigen Verfahren auszuführen und ein maschinenlesbares Spei- chermedium, auf dem dieses Computerprogramm gespeichert ist. Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

Figur 1 schematische Darstellung eines Flussdiagramms einer Ausführungs- form der Erfindung;

Figur 2 schematische Darstellung eines Aktor-Steuerungssystems;

Figur 3 ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautono- men Roboters;

Figur 4 schematisch ein Ausführungsbeispiel zur Steuerung eines Ferti- gungssystems;

Figur 5 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangs- systems;

Figur 6 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwa- chungssystems;

Figur 7 schematisch ein Ausführungsbeispiel zur Steuerung eines persönli- chen Assistenten;

Figur 8 schematisch ein Ausführungsbeispiel zur Steuerung eines medizi- nisch bildgebenden Systems;

Figur 9 einen möglichen Aufbau einer Trainingsvorrichtung;

Um gute Architekturen von tiefen neuronalen Netzwerke für einen vorgegebenen Datensatz zu finden, können automatische Methoden zur Architektursuche ange- wandt werden, sogenannte Neural Architecture Search-Methoden. Dazu wird ein Suchraum von möglichen Architekturen neuronaler Netzwerke explizit oder impli- zit definiert.

Im Folgenden soll zur Beschreibung eines Suchraums ein Berechnungsgraph (das sogenannte One-Shot Modell) definiert werden, welcher eine Vielzahl von möglichen Architekturen in dem Suchraum als Subgraphen enthält. Da das One- Shot Modell sehr groß sein kann, können einzelne Architekturen aus dem One- Shot Modell für das Training gezogen werden. Dies geschieht typischerweise in dem einzelne Pfade von einem festgelegten Eingangsknoten zu einem festgeleg- ten Ausgangsknoten des Netzwerkes gezogen werden. Im einfachsten Fall, wenn der Berechnungsgraph aus einer Kette von Knoten be- steht, die jeweils über verschiedene Operationen verbunden sein können, genügt es, für jeweils zwei aufeinanderfolgende Knoten die Operation zu ziehen welche sie verbindet.

Falls das One-Shot Modell allgemeiner ein gerichteter Graph ist, kann ein Pfad iterativ gezogen werden, in dem bei dem Input begonnen wird, dann der nächste Knoten und die verbindende Kante gezogen wird, wobei dieses Vorgehen iterativ bis zum Zielknoten fortgesetzt wird.

Das One-Shot Modell mit Ziehen kann dann trainiert werden, indem für jeden Mini-Batch eine Architektur gezogen wird und die Gewichte der Operationen in der gezogenen Architektur mittels eines Standard-Gradientenschrittverfahrens angepasst werden. Das Finden der besten Architektur kann entweder als separa- ter Schritt nach dem Training der Gewichte stattfinden, oder abwechselnd mit dem Training der Gewichte durchgeführt werden.

Formalistisch kann das One-Shot Modell als ein sogenannter Supergraph S =

( V_S,E_S ) bezeichnet werden. Hierbei kann jeder Kante E dieses Supergraphen S einer Netzwerkoperation, wie einer Faltung, und jedem Knoten V ein Datenten- sor, der Ein- und Ausgängen von Operationen darstellt, zugewiesen sein. Denk- bar ist auch, dass die Knoten des Supergraphen einer bestimmten neuronalen Netzoperation wie einer Faltung und jede Kante einem Datentensor entsprechen. Das Ziel der Architektursuche ist es, einige Pfade G = (V_G,E_G) < S zu identifizie- ren, die ein oder mehrere Leistungskriterien wie Genauigkeit auf einem Testset und/oder Latenz auf einem Zielgerät optimieren.

Das oben erläuterte Ziehen des Pfades kann formalistisch wie folgt definiert wer- den. Es werden iterativ Knoten v ∈ V_i ≤ V_s und/oder Kanten e ∈ E_j ≤ E_s gezo- gen, die zusammen den Pfad G ergeben.

Das Ziehen der Knoten/Kanten kann abhängig von Wahrscheinlichkeitsverteilun- gen, insbesondere kategorischen Verteilungen, durchgeführt werden. Dabei kann die Wahrscheinlichkeitsverteilung

und/oder von einem op-

timierbaren Parameter a abhängen, wobei die Wahrscheinlichkeitsverteilungen die gleiche Kardinalität wie V_i oder E_j aufweisen.

Dieses iterative Ziehen der Kanten/Knoten resultiert in einer Sequenz von Teil- pfaden G₀, G₁, ..., G_k ..., G_T, wobei G_T der 'finale' Pfad ist, welcher den Eingang mit dem Ausgang des Graphen verbindet.

Eine wesentliche Einschränkung der Definition der Wahrscheinlichkeitsverteilung durch kategorische Verteilungen ist, dass diese Wahrscheinlichkeitsverteilungen und unabhängig vom aktuellen gezogenen Pfad G_k sind.

Dies ermöglicht es nicht, insbesondere komplexere, Abhängigkeiten zwischen verschiedenen Knoten und Kanten zu erlernen. Es wird daher vorgeschlagen, die Wahrscheinlichkeitsverteilungen abhängig von den bisher gezogenen Pfad G_k zu formulieren: und .

Genauer gesagt, wird eine eindeutige Kodierung der bisherig gezogenen Teil- pfade G_k vorgeschlagen. Vorzugsweise wird hierfür jedem v e V_s und jeder e ∈ E_s ein eindeutiger Index zugewiesen, der im Folgenden als n(v) und n(e) be- zeichnet wird. Die eindeutige Kodierung von G_k ist dann h = H( G_k) mit h_i = ∃ e ∈ E_K n(e) = i or ∃ v ∈ V_K n(v) = i gegeben.

Gegeben dieser eindeutigen Kodierung, (und entsprechend

können dann durch eine Funktion f die Wahrscheinlichkeiten

ermittelt werden: . Die Ausgänge dieser Funktion

werden weiterhin als Wahrscheinlichkeiten für z.B. eine kategorische Verteilung verwendet, aus der der Knoten/Kanten abgetastet wird. Die Wahrscheinlichkeiten hängen jedoch nun von G_k ab.

Folgende Ausführungsformen der Funktion sind denkbar:

Im einfachsten Fall ist die Funktion eine affine Transformation, z.B.

. In diesem Fall entspricht α_j. den Parametern W_j und b_j der affinen

Transformation. Eine lineare Parametrierung mit weniger Parametern kann durch eine Low-Rank-Approximation W_j = W_j'W_j" erreicht werden. Darüber hinaus kann W_j' über alle j geteilt werden und somit als niederdimensionale (nicht-ein- deutige) Kodierung basierend auf der eindeutigen Kodierung h fungieren.

Eine ausdrucksmächtigere Wahl ist eine Implementierung der Funktion durch

ein mehrschichtiges Perzeptron (engl, a multi-layer perceptron, MLP), wobei α_j Parameter des MLP darstellt. Auch hier können die Parameter des MLP bis auf die letzte Schicht optional über j geteilt werden.

Auch eine Transformer-basierte Implementierung der Funktion kann verwen-

det werden, bestehend aus einer Mehrzahl von Schichten mit ,multi-headed self- attention' und einer finalen linearen Schicht. Parameter von allen außer der letz- ten Schicht können optional über alle j geteilt werden.

Die Optimierung der Parameter der Funktion kann über ein Gradientenabstiegs- verfahren erfolgen. Alternativ können die Gradienten hierfür über einen Black- Box Optimierer geschätzt werden, z.B. unter Verwendung des REINFORCE- Tricks (siehe hierzu zum Beispiel die oben zitierte Literatur „ProxylessNAS“). D.h. die Optimierung der Architektur kann auf die gleiche Weise durchgeführt werden wie bei der Verwendung bekannter kategorischer Wahrscheinlichkeitsverteilun- gen.

Figur 1 zeigt schematisch zeigt schematisch ein Flussdiagramm (20) des verbes- serten Verfahrens zur Architektursuche mit einem One-Shot Modell.

Die automatische Architektursuche kann wie folgt durchgeführt werden. Die auto- matische Architektursuche benötigt zuerst ein Bereitstellen eines Suchraums (S21), welcher hier in der Form eines One-Shot Modells gegeben sein kann.

Anschließend kann jede Form der Architektursuche verwendet werden, welche Pfade aus einem One-Shot Modell zieht (S22). Die hierbei gezogenen Pfade werden abhängig von einem Ergebnis der Funktion und/oder

gezogen.

Im nachfolgenden Schritt (S23) werden dann die gezogenen maschinellen Lern- systeme, die den Pfaden entsprechen, angelernt und auch die Parameter a_; der Funktion werden beim Anlernen angepasst.

Es sei angemerkt, dass eine Optimierung der Parameter beim Anlernen nicht nur bezüglich der Genauigkeit, sondern auch für spezielle Hardware (z.B. Hardware- beschleuniger) geschehen kann. Bspw. indem beim Training die Kostenfunktion einen weiteren Term enthält, der die Kosten zum Ausführen des maschinellen Lernsystems mit seiner Konfiguration auf der Hardware charakterisiert.

Die Schritte S22 bis S23 können mehrmals hintereinander wiederholt werden. Anschließend kann basierend auf dem Supergraph ein finaler Pfad gezogen wer- den (S24) und ein korrespondierendes maschinelles Lernsystem gemäß diesem Pfad initialisiert werden.

Vorzugsweise ist das erstelle maschinelle Lernsystem nach Schritt S24 ein künstliches neuronales Netz 60 (abgebildet in Figur 2) und wird verwendet wie im nachfolgenden erläutert.

Figur 2 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung 20 in einem Sensor 30, insbesondere einem bildgebenden Sen- sor wie einem Videosensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Auch andere bildge- bende Sensoren sind denkbar, wie beispielsweise Radar, Ultraschall oder Lidar. Auch eine Wärmebildkamera ist denkbar. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steue- rungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteu- ersignale A, welche an den Aktor 10 übertragen werden.

Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sen- sors 30 in einer optionalen Empfangseinheit 50, die die Folge von Sensorsigna- len S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch un- mittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x umfasst einzelne Frames einer Vi- deoaufzeichnung. Mit anderen Worten wird Eingangsbild x abhängig von Sensor- signal S ermittelt. Die Folge von Eingangsbildern x wird einem maschinellen Lernsystem, im Ausführungsbeispiel einem künstlichen neuronalen Netz 60, zu- geführt.

Das künstliche neuronale Netz 60 wird vorzugsweise parametriert durch Parame- ter f, die in einem Parameterspeicher P hinterlegt sind und von diesem bereitge- stellt werden.

Das künstliche neuronale Netz 60 ermittelt aus den Eingangsbildern x Ausgangs- größen y. Diese Ausgangsgrößen y können insbesondere eine Klassifikation und semantische Segmentierung der Eingangsbilder x umfassen. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersig- nale A ermittelt, welche dem Aktor 10 zugeführt werden, um den Aktor 10 ent- sprechend anzusteuern. Ausgangsgröße y umfasst Informationen über Objekte, die der Sensor 30 erfasst hat.

Der Aktor 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor 10 angesteuert wird.

In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 al- ternativ oder zusätzlich auch den Aktor 10.

In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenles- bares Speichermedium 46, auf den Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen. In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor 10 eine Anzeigeeinheit 10a vorgesehen.

Figur 3 zeigt, wie das Steuerungssystem 40 zur Steuerung eines wenigstens teil- autonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann.

Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraft- fahrzeug 100 angeordneten Videosensor handeln.

Das künstliche neuronale Netz 60 ist eingerichtet, aus den Eingangsbildern x Ob- jekte sicher zu identifizieren.

Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahr- zeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahr- zeug 100 beispielsweise eine Kollision mit den vom künstlichen neuronalen Netz 60 sicher identifizierten Objekte verhindert, insbesondere, wenn es sich um Ob- jekte bestimmter Klassen, z.B. um Fußgänger, handelt.

Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um ei- nen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um ei- nen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fort- bewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart er- mittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart an- gesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom künstlichen neuronalen Netz 60 identifizierten Objekten verhindert.

Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche darge- stellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuer- signal A derart angesteuert wird, dass sie ein optisches oder akustisches Warn- signal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, mit einem der sicher identifizierten Objekte zu kollidieren.

Figur 4 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur An- steuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Ma- schine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.

Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst.

Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbei- tungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Ferti- gungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbei- tung eines nachfolgenden Fertigungserzeugnisses anpasst.

Figur 5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des Objekti- dentifikationssystem 60 kann dieses erfasste Bild interpretiert werden. Sind meh- rere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen beson- ders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewe- gungen. Der Aktor 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektidentifikationssystem 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.

Figur 6 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in Figur 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom künstli- chen neuronalen Netz 60 zuverlässig eine Identität der vom Videosensor 30 auf- genommenen Gegenstände ermittelt werden, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart ge- wählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich her- vorgehoben dargestellt wird.

Figur 7 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines persönlichen Assistenten 250 eingesetzt wird. Der Sensor 30 ist bevorzugt ein optischer Sensor, der Bilder einer Geste eines Nutzers 249 emp- fängt.

Abhängig von den Signalen des Sensors 30 ermittelt das Steuerungssystem 40 ein Ansteuersignal A des persönlichen Assistenten 250, beispielsweise, indem das neuronale Netz eine Gestenerkennung durchführt. Dem persönlichen Assis- tenten 250 wird dann dieses ermittelte Ansteuersignal A übermittelt und er somit entsprechend angesteuert. Dieses ermittelte Ansteuersignal A ist kann insbeson- dere derart gewählt werden, dass es einer vermuteten gewünschten Ansteue- rung durch den Nutzer 249 entspricht. Diese vermutete gewünschte Ansteuerung kann abhängig von der vom künstlichen neuronalen Netz 60 erkannten Geste er- mittelt werden. Das Steuerungssystem 40 kann dann abhängig von der vermute- ten gewünschten Ansteuerung das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten 250 wählen und/oder das Ansteuersignal A zur Über- mittlung an den persönlichen Assistenten entsprechend der vermuteten ge- wünschten Ansteuerung 250 wählen. Diese entsprechende Ansteuerung kann beispielsweise beinhalten, dass der per- sönliche Assistent 250 Informationen aus einer Datenbank abruft und sie für den Nutzer 249 rezipierbar wiedergibt.

Anstelle des persönlichen Assistenten 250 kann auch ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Spülmaschine vorgesehen sein, um entsprechend ange- steuert zu werden.

Figur 8 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines medizinischen bildgebenden System 500, beispielsweise eines MRT-, Röntgen- oder Ultraschallgeräts, verwendet wird. Der Sensor 30 kann bei- spielsweise durch einen bildgebenden Sensor gegeben sein, durch das Steue- rungssystem 40 wird die Anzeigeeinheit 10a angesteuert. Beispielsweise kann vom neuronalen Netz 60 ermittelt werden, ob ein vom bildgebenden Sensor auf- genommener Bereich auffällig ist, und das Ansteuersignal A dann derart gewählt werden, dass dieser Bereich von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.

Figur 9 zeigt eine beispielhafte Trainingsvorrichtung 140 zum Trainieren eines der gezogenen maschinellen Lernsystems aus dem Multigraphen, insbesondere des neuronalen Netzes 60. Trainingsvorrichtung 140 umfasst einen Bereitsteller 71, der Eingangsgrößen x, wie z.B. Eingangsbilder, und Soll-Ausgangsgrößen ys, beispielsweise Soll-Klassifikationen, bereitstellt. Die Eingangsgröße x wird dem zu trainierenden künstlichen neuronalen Netz 60 zugeführt, das hieraus Ausgangsgrößen y ermittelt. Ausgangsgrößen y und Soll-Ausgangsgrößen ys werden einem Vergleicher 75 zugeführt, der hieraus abhängig von einer Überein- stimmung den jeweiligen Ausgangsgrößen y und Soll-Ausgangsgrößen ys neue Parameter f' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter f ersetzen.

Die vom Trainingssystem 140 ausgeführten Verfahren können als Computerpro- gramm implementiert auf einem maschinenlesbaren Speichermedium 147 hinter- legt sein und von einem Prozessor 148 ausgeführt werden. Selbstverständlich müssen nicht ganze Bilder klassifiziert werden. Es ist möglich, dass mit einem Detektionsalgorithmus z.B. Bildausschnitte als Objekte klassifi- ziert werden, dass diese Bildausschnitte dann ausgeschnitten werden, ggf. ein neuer Bildausschnitt erzeugt wird und an Stelle des ausgeschnittenen Bildaus- Schnitts in das zugehörige Bild eingesetzt wird.

Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vor- liegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.

Claims

Ansprüche

1. Computerimplementiertes Verfahren (20) zum Erstellen eines maschinellen Lernsystems, umfassend folgende Schritte:

Bereitstellen (S21) eines gerichteten Graphen mit einem Eingangs- und Aus- gangsknoten, die über eine Mehrzahl von Kanten und Knoten verbunden sind,

Zufälliges Ziehen (S22) einer Mehrzahl von Pfaden durch den gerichteten Graphen, wobei den Kanten jeweils eine Wahrscheinlichkeit zugeordnet ist, welche charakterisiert mit welcher Wahrscheinlichkeit die jeweilige Kante gezogen wird, wobei die Wahrscheinlichkeiten abhängig von einer Reihenfolge bisherig ge- zogener Kanten des jeweiligen Pfades ermittelt werden;

Anlernen der den gezogenen Pfaden korrespondierenden maschinellen Lernsysteme (S23), wobei beim Anlernen Parameter des maschinellen Lernsystems angepasst werden, sodass eine Kostenfunktion optimiert wird; und Ziehen (S24) eines Pfades abhängig von den angepassten Wahrscheinlich- keiten und Erstellen des diesem Pfad korrespondierenden maschinellen Lernsystems.

2. Verfahren nach Anspruch 1, wobei eine parametrisierte Funktion die Wahr- scheinlichkeiten der Kanten abhängig von der Reihenfolge der bisherig ge- zogener Kanten des Pfades ermittelt, wobei die Parametrisierung ( a ) der Funktion beim Anlernen hinsichtlich der Kostenfunktion angepasst wird.

3. Verfahren nach Anspruch 2, wobei den bisherig gezogenen Kanten und/oder Knoten eine eindeutige Kodierung deren Reihenfolge zugeordnet wird und die Funktion abhängig von dieser Kodierung die Wahrscheinlichkeiten ermit- telt.

4. Verfahren nach Anspruch 2, oder 3 wobei die Funktion eine Wahrscheinlich- keitsverteilung über die möglichen Kanten, aus einer Menge von Kanten, die als nächstes gezogen werden können, ermittelt.

5. Verfahren nach Anspruch 2 bis 4, wobei die Funktion eine affine Transforma- tion oder ein neuronales Netz ist.

6. Verfahren nach Anspruch 5 und Anspruch 3, wobei die Parametrisierung der affinen Transformation eine lineare Transformation und eine Verschiebung der eindeutigen Kodierung beschreibt, und insbesondere sich die Skalierung aus einer Low-Rank Approximierung und einer Skalierung abhängig von der Anzahl der Kanten zusammensetzt.

7. Verfahren nach Anspruch 5, wobei eine Mehrzahl von Funktionen verwendet werden und die Funktionen jeweils durch ein neuronales Netz gegeben sind, wobei eine Parametrisierung von einer Mehrzahl von Schichten der neurona- len Netze zwischen allen neuronalen Netzen geteilt werden.

8. Computerprogramm, welches Befehle umfasst, welche eingerichtet sind, wenn diese auf einem Computer ausgeführt werden, den Computer veran- lassen, das Verfahren nach einem der vorhergehenden Ansprüche auszu- führen.

9. Maschinenlesbares Speicherelement auf welchem das Computerprogramm nach Anspruch 8 hinterlegt ist.

10. Vorrichtung, welche eingerichtet ist, das Verfahren nach einem der Ansprü- che 1 bis 7 auszuführen.