WO2022129203A1

WO2022129203A1 - Verfahren zum trainieren eines ml-systems, ml-system, computerprogramm, maschinenlesbares speichermedium und vorrichtung

Info

Publication number: WO2022129203A1
Application number: PCT/EP2021/085951
Authority: WO
Inventors: Rolf Michael KOEHLER; Pia PETRIZIO
Original assignee: Robert Bosch Gmbh
Priority date: 2020-12-15
Filing date: 2021-12-15
Publication date: 2022-06-23
Also published as: CN116615732A; DE102020215945A1; US20240028891A1

Abstract

Verfahren zum Trainieren (100) eines ML-Systems (3), insbesondere eines künstlichen neuronalen Netzwerks, insbesondere zur Klassifikation von Sensordaten, in Abhängigkeit von einer ersten Verlustfunktion (Lce) und von einer zweiten Verlustfunktion (Ladd), wobei die erste Verlustfunktion (Lce) in Abhängigkeit von der Ausgabe (35) des künstlichen neuronalen Netzwerks (3) berechnet wird, dadurch gekennzeichnet, dass die zweite Verlustfunktion (Ladd) derart gestaltet ist, dass die Ausgabe (35 35', 35'') des künstlichen neuronalen Netzes (3) im Wesentlichen normalisiert wird.

Description

Beschreibung

Titel

Verfahren zum Trainieren eines ML-Systems, ML-System, Computerprogramm, maschinenlesbares Speichermedium und Vorrichtung

Die vorliegende Erfindung betrifft ein Verfahren zum Trainieren eines Systems des maschinellen Lernens (ML-System), insbesondere eines künstlichen neuronalen Netzes, insbesondere zur Klassifikation von Sensordaten.

Ferner betrifft die vorliegende Erfindung ein entsprechendes ML-System, Computerprogramm, maschinenlesbares Speichermedium und eine entsprechende Vorrichtung.

Stand der Technik

Beim Training eines künstlichen neuronalen Netzes ist eine gängige Verlustfunktion (z. B. für eine Klassifizierungsaufgabe) die Cross- Entropy- Verlustfunktion. Üblicherweise wird dieser Verlustfunktion eine Softmax- Funktion bzw. -Schicht vorangestellt, die die eingehenden Daten normalisiert, indem sie folgende Funktion verwendet:

Die Softmax- Funktion sorgt dafür, dass jeder Wert der Ausgabedaten bzw. des Ausgabevektors zwischen [0,1] liegt und dass die Summe aller Ausgangsvektorwerte 1 ist. Diese Softmax- Funktion ist oft teuer oder unmöglich auf der Inferenzhardware zu berechnen, da sie Exponentialterme aufweist.

Beim Ausführen des trainierten neuronalen Netzes auf der Inferenzhardware, insbesondere beim Ausführen des Vorwärtspasses auf der Inferenzhardware, wird die Berechnung der Verlustfunktion nicht mehr benötigt. Die Softmax- Funktion könnte auch weggelassen werden, dies führt jedoch zu unterschiedlichen Ausgabebereichen.

Insbesondere bei einer Klassifikationsaufgabe (z. B. pixelweise Klassifikation bei der semantischen Segmentierung; der Objektklassifikation von Objekten in Bounding-Boxen), wird die normalisierte Ausgabe benötigt. So wird bspw. bei der pixelweisen Klassifikation jeder Pixel einzeln normalisiert. Nach dieser Normalisierung können die Klassenwerte zwischen den Pixeln verglichen werden. Wenn ein semantisches Segmentierungsnetz 5 Klassen ausgibt, wird es für jede dieser 5 Klassen einen Klassenscore geben. Wenn diese Pixelwerte nicht normalisiert werden, ist es schwierig, diese zwischen den Pixeln zu vergleichen, da nicht gewährleistet ist, dass die Scores für jeden Pixel in demselben Bereich liegen. Für die Klassifizierung von Bounding-Box Objekten ist es wichtig, dass die Scores auch normalisiert werden, da es normalerweise einen Schwellenwert gibt, der Boxen ausschließt, in denen es keine einzige Objektklasse gibt, deren Punktzahl einen bestimmten Schwellenwert überschreitet.

Offenbarung der Erfindung

Vor diesem Hintergrund schafft die vorliegende Erfindung ein Verfahren zum Trainieren eines ML-Systems in Abhängigkeit von einer ersten Verlustfunktion und von einer zweiten Verlustfunktion, wobei die erste Verlustfunktion in Abhängigkeit von der Ausgabe des künstlichen neuronalen Netzwerks berechnet wird. Das Verfahren zeichnet sich dadurch aus, dass die zweite Verlustfunktion derart gestaltet ist, dass die Ausgabe des künstlichen neuronalen Netzes im Wesentlichen normalisiert wird.

Unter einem System des maschinellen Lernens (ML-System) kann vorliegend ein System zur künstlichen Schaffung von Wissen aus Informationen, bspw.

Trainingsdaten verstanden werden. Ein solches System „lernt“ aus dem Abgleich von Eingangsdaten und den zu diesen Eingangsdaten erwarteten Ausgangsdaten.

So kann bspw. eine künstliche Intelligenz zu den Systemen des maschinellen Lernens gezählt werden. Insbesondere zählen künstliche neuronale Netze zu den Systemen des maschinellen Lernens (ML-Systeme).

Unter einem künstlichen neuronalen Netz kann vorliegend ein Netz aus künstlichen Neuronen zur Informationsverarbeitung verstanden werden. Künstliche neuronale Netze durchleben im Wesentlichen drei Phasen. In einer initialen Phase wird eine Basistopologie, meist abhängig von der Aufgabenstellung, vorgegeben. Danach folgt eine Trainingsphase, in der die Basistopologie zur effizienten Lösung der Aufgabenstellung mittels Trainingsdaten angelernt wird. Innerhalb der Trainingsphase kann auch die Topologie des Netzes angepasst werden. Die Ausgabedaten des angelernten Netzes stellen dann gemäß der Aufgabestellung gesuchten Ausgabedaten dar.

Die ML-System der vorliegenden Erfindung, insbesondere die künstlichen neuronalen Netze eignen sich zur Klassifikation von Sensordaten.

Bei den Sensordaten kann es sich vorliegend um Daten von Sensoren aus dem Automobilbereich handeln. Darunter fallen bspw. Video-, Radar-, Lidar-, Ultraschall-, Infrarot-Sensoren wie auch Wärmebildkameras.

Das Verfahren der vorliegenden Erfindung löst dabei die Aufgabe, sicherzustellen, dass bereits durch das Training des ML-Systems die Ausgabe des ML-Systems normalisiert ist. D. h. bspw., dass die Summe der Ausgabewerte entlang einer Dimension (im Falle einer durch das ML-System zu lösenden Klassifikationsaufgabe bzw. semantischen Segmentierung) 1 beträgt bzw. dem Wert 1 nahekommt.

Dies wird insbesondere durch die Einführung der zweiten Verlustfunktion erreicht.

Nach einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung wird zur Berechnung der zweiten Verlustfunktion auf die Ausgabe des künstlichen neuronalen Netzes ein künstliches neuronales Netz zur Annäherung einer Softmax- Funktion angewendet.

Diese Ausführungsform birgt den Vorteil, dass bei einem Netz zur Annäherung einer Softmax- Funktion auf die Exponentialterme verzichtet werden kann.

Nach einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung wird zur Berechnung der zweiten Verlustfunktion die Ausgabe des künstlichen neuronalen Netzes entlang mindestens einer Dimension aufsummiert.

Nach einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung ist die zweite Verlustfunktion derart gestaltet, dass sich die Ausgabe des künstlichen neuronalen Netzes zu 1 aufsummiert.

Nach einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung wird zur Berechnung der ersten Verlustfunktion auf die Ausgabe des künstlichen neuronalen Netzes ein künstliches neuronales Netz zur Annäherung einer Softmax- Funktion angewendet.

Nach einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung wird zur Berechnung der zweiten Verlustfunktion auf die Ausgabe des künstlichen neuronalen Netzes eine Softmax- Funktion angewendet.

Diese Ausführungsform zeichnet sich dadurch aus, dass die zweite Verlustfunktion derart gestaltet ist, dass sich die Ausgabe des künstlichen neuronalen Netzes der Ausgabe der Softmax- Funktion annähert. Ein weiterer Aspekt der vorliegenden Erfindung ist ein ML-System trainiert nach dem Verfahren gemäß der vorliegenden Erfindung.

Trainingsdaten verstanden werden. Ein solches System „lernt“ aus dem Abgleich von Eingangsdaten und erwarteten Ausgangsdaten.

Die Ausgabe des ML-Systems gemäß der vorliegenden Erfindung kann verwendet werden, um einen Aktuator zu steuern bzw. ein Steuersignal zum Steuern eines Aktors zu erzeugen.

Unter einem Aktuator kann vorliegend ein Roboter verstanden werden. Bei einem solchen Roboter kann es sich vorliegend um ein zumindest teilweise automatisiertes Fahrzeug bzw. um einen Teil eines solchen Fahrzeugs, wie bspw. einen Längs- oder Quersteuerungssystem handeln.

Zur Klarstellung, das Verfahren zum Training eines ML-Systems gemäß der vorliegenden Erfindung kann Teil eines Verfahrens sein, welches in einem ersten Schritt das Training eines ML-Systems und in einem zweiten Schritt die Steuerung eines Aktuators bzw. Roboters in Abhängigkeit von der Ausgabe des ML-Systems umfasst.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist, das Verfahren gemäß der vorliegenden Erfindung auszuführen. Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß der vorliegenden Erfindung gespeichert ist.

Ein weiterer Aspekt der vorliegenden Erfindung ist eine Vorrichtung, welche eingerichtet ist, das Verfahren gemäß der vorliegenden Erfindung auszuführen.

Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

Fig. 1 ein Ablaufdiagramm einer Ausführungsform des Trainingsverfahrens gemäß der vorliegenden Erfindung;

Fig. 2 ein Ablaufdiagramm einer Ausführungsform des Herstellungsverfahrens gemäß der vorliegenden Erfindung;

Fig. 3 ein Blockdiagramm einer ersten Ausführungsform der vorliegenden Erfindung;

Fig. 4 ein Blockdiagramm zweiten Ausführungsform der vorliegenden Erfindung;

Fig. 5 ein Blockdiagramm dritten Ausführungsform der vorliegenden Erfindung.

Figur 1 zeigt ein Ablaufdiagramm einer Ausführungsform des Trainingsverfahrens (100) gemäß der vorliegenden Erfindung. Dieses Ablaufdiagramm beschreibt eine Möglichkeit eine zweite Verlustfunktion gemäß der vorliegenden Erfindung in das Training eines ML-Systems einzuführen, um die Aufgabe der vorliegenden Erfindung zu lösen. In Schritt 101 wird die übliche Verlustfunktion zum Training eines ML-Systems für eine Klassifikationsaufgabe berechnet. Bei dieser üblichen Verlustfunktion kann es sich bspw. um die Cross- Entropy- Verlustfunktion handeln.

In Schritt 102 werden die Ausgabedaten des zu trainierend Netzes vor Anwendung einer Softmax- Funktion aufgenommen. Dies Ausgabedaten können dabei in einem Tensor mit den Dimensionen H x W x C vorliegend.

In Schritt 103 wird eine l x l Operation mit einem Filter mit den Dimensionen 1 x 1 x C auf die in Schritt 102 entnommenen Ausgabedaten angewendet. Die Koeffizienten des Filters können dabei jeweils 1 sein. Dieser Schritt für zu einem Aufsummieren der Ausgabedaten entlang der Dimension C. Die dabei entstehende Featuremap weist die Dimension H x W auf.

In Schritt 104 wird von der entstandenen Featuremap ein Filter mit den Dimensionen H x W subtrahiert. Dabei haben die Koeffizienten des Filters jeweils den Wert 1, mithin handelt es sich bei dem Filter um eine Einheitsmatrix mit den Dimensionen H x W.

In Schritt 105 wird auf das Ergebnis der Subtraktion des Schrittes 104 eine Norm, bspw. die L2-Norm angewendet.

In Schritt 106 wird das zu trainierende Netz in Abhängigkeit von einer Gesamtverlustfunktion trainiert, die sich zusammensetzt aus der üblichen Verlustfunktion gemäß Schritt 101 und dem Ergebnis nach Anwendung der Norm gemäß Schritt 105. Ferner kann durch ein entsprechen gewählter Gewichtsfaktor w das Ergebnis der Norm gemäß Schritt 105 bei der Zusammensetzung der Gesamtverlustfunktionen entsprechend berücksichtigt werden.

Denkbar ist, dass der Gewichtsfaktor über das Training hinweg konstant bleibt. Ebenso ist denkbar, dass der Gewichtsfaktor über das Training hinweg zunimmt. Ferner ist denkbar, dass der Gewichtsfaktor über das Training hinweg derart angepasst wird, dass der Einfluss des Ergebnisses der Norm gemäß Schritt 105 in den letzten Trainingsepochen stärker ist. Figur 2 zeigt ein Ablaufdiagramm eines Verfahrens gemäß der vorliegenden Erfindung.

In Schritt 201 wird das ML-System, bspw. ein künstliches neuronales Netz gemäß dem Trainingsverfahren der vorliegenden Erfindung trainiert.

In Schritt 202 wird die Ausgabe des trainierten ML-Systems genutzt, um einen Aktuator zu steuern.

Unter einem Aktuator kann dabei ein Roboter verstanden werden. Bei einem solchen Roboter kann es sich vorliegend um ein zumindest teilweise automatisiertes Fahrzeug bzw. um einen Teil eines solchen Fahrzeugs, wie bspw. einen Längs- oder Quersteuerungssystem handeln.

Figur 3 zeigt ein Blockdiagramm einer ersten Ausführungsform der vorliegenden Erfindung.

Dem zu trainierende künstlichen neuronalen Netz 3 werden Eingangsdaten 30 zugeführt. Von dem Netz 3 werden die Eingangsdaten 30 in Ausgabedaten 35 überführt. In der Darstellung sind die Ausgabedaten 35 als Tensor mit den Dimension H x W x C dargestellt.

Wird das Netz 3 bspw. für die Klassifikation von Bilddaten trainiert. So können in der Dimension C die möglichen Klassen aufgetragen sein. In den Dimensionen H x W können für jeden Pixel der Eingangsdaten eine Wahrscheinlichkeit der Zugehörigkeit zu der jeweiligen Klasse eingetragen sein.

Um die Ausgabedaten 35 einer ersten Verlustfunktion L_ce zuzuführen, wird auf den Ausgabedaten 35 eine Softmax- Funktion ausgeführt, um normalisierte Ausgabedaten 35‘ zu erhalten. Die normalisierten Ausgabedaten werden einer ersten Verlustfunktion L_ce zugeführt. Hierfür kann als erste Verlustfunktion L_ce eine übliche Verlustfunktion, wie bspw. die Cross-Entropy-Verlustfunktion verwendet werden.

Die Ausführungsform der vorliegenden Erfindung basiert auf der Erkenntnis, dass für die spätere Inferenz des trainierten Netzes 3 auf die Anwendung der Softmax- Funktion verzichtet werden kann, wenn im Rahmen des Trainings eine zweite Verlustfunktion L_add vorgesehen wird, die derart gestaltet ist, dass die sich die Werte der Ausgabedaten 35 entlang der Dimension C zu 1 summieren.

Dies wird dadurch erreicht, dass wie in dem Blockdiagramm der Figur 3 dargestellt, die Ausgabedaten 35 ohne Anwendung einer Softmax- Funktion einer zweiten Verlustfunktion L_add zugeführt werden.

Bei der zweiten Verlustfunktion L_add handelt es sich gemäß der Darstellung um eine L2-Norm, dargestellt durch die Doppelbalken, die den Abstand zu einer Einheitsmatrix 36 mit den Dimensionen H x W zurückgibt.

Dazu wird auf die Ausgabedaten 35 ein Filter 37 mit den Dimension 1 x 1 x C angewendet. Der Filter ist derart gestaltet, dass die Ausgabedaten 35 entlang der Dimension C aufsummiert werden. Dazu können die Koeffizienten des Filters 1 betragen. Denkbar ist zudem, dass die Koeffizienten des Filters mittrainiert werden. Dazu bietet sich an die Koeffizienten zunächst mit dem Wert 1 zu initialisieren.

Die Einführung der zweiten Verlustfunktion L_add führt dazu, dass die Ausgabedaten 35 des trainierten Netzes 3 normalisiert werden.

Für die Inferenz wird nach dieser Ausführungsform das trainierte Netz 3 auf die Inferenzhardware übertragen.

Figur 4 zeigt ein Blockdiagramm einer zweiten Ausführungsform der vorliegenden Erfindung. In der dargestellten zweiten Ausführungsform wird im Rahmen des Trainings des künstlichen neuronalen Netzes 3 auf die Anwendung der Softmax- Funktion verzichtet.

Zur Normalisierung der Ausgabedaten 35 werden diese einem weiteren künstlichen neuronalen Netz 4 zugeführt, welches derart trainiert ist, dass es eine Annährung der Softmax- Funktion ausgibt.

Die angenäherten Ausgabedaten 35“ werden sowohl einer ersten Verlustfunktion L_ce als auch einer zweiten Verlustfunktion L_add zugeführt. Bei der ersten Verlustfunktion L_ce kann es sich um eine übliche Verlustfunktion handeln, bspw. um eine Cross-Entropy-Verlustfunktion verwendet werden

Dazu wird auf die angenäherten Ausgabedaten 35“ ein Filter 37 mit den Dimension 1 x 1 x C angewendet. Der Filter ist derart gestaltet, dass die angenäherten Ausgabedaten 35“ entlang der Dimension C aufsummiert werden. Dazu können die Koeffizienten des Filters 1 betragen. Denkbar ist zudem, dass die Koeffizienten des Filters mittrainiert werden. Dazu bietet sich an die Koeffizienten zunächst mit dem Wert 1 zu initialisieren.

Die Einführung der zweiten Verlustfunktion L_add führt dazu, dass die angenäherten Ausgabedaten 35“ des trainierten Netzes 3 normalisiert werden.

Nach dieser Ausführungsform wird das trainierte Netz 3 sowie das künstliche neuronale Netz zur Annäherung einer Softmax- Funktion 4 auf die Inferenzhardware übertragen. Figur 5 zeigt ein Blockdiagramm einer dritten Ausführungsform der vorliegenden Erfindung.

Auf Ausgabedaten 35 des zu trainierenden Netzes 3 werde nach dieser Ausführungsform für die Zuführung zu ersten Verlustfunktion eine Softmax- Funktion angewendet, um normalisierte Ausgabedaten 35‘ zu erhalten.

Hierfür kann als erste Verlustfunktion L_ce eine übliche Verlustfunktion, wie bspw. die Cross-Entropy-Verlustfunktion verwendet werden.

Für die Zuführung zu einer zweiten Verlustfunktion L_add werden die Ausgabedaten 35 einem weiteren künstlichen neuronalen Netz 4 zugeführt, welches derart trainiert ist, dass es eine Annährung der Softmax- Funktion ausgibt.

Nach der dargestellten Ausführungsform wird neben den so angenäherten Ausgabedaten 35“ auch die normalisierten Ausgabedaten 35‘, die auch der ersten Verlustfunktion L_ce zugeführt werden, der zweiten Verlustfunktion L_add zugeführt. Bei der zweiten Verlustfunktion L_add kann es sich wie in den vorherig beschriebenen Ausführungsformen um die L2-Norm handeln. Vorliegend wird diese dazu eingesetzt, dass die angenäherten Ausgabedaten 35“ sich den normalisierten Ausgabedaten 35‘ annähern.

Nach dieser Ausführungsform wird das trainierte Netz 3 sowie das künstliche neuronale Netz zur Annäherung einer Softmax- Funktion 4 auf die Inferenzhardware übertragen.

Claims

Ansprüche

1. Verfahren zum Trainieren (100) eines ML-Systems (3), insbesondere eines künstlichen neuronalen Netzwerks, insbesondere zur Klassifikation von Sensordaten, in Abhängigkeit von einer ersten Verlustfunktion (L_ce) und von einer zweiten Verlustfunktion (L_add), wobei die erste Verlustfunktion (L_ce) in Abhängigkeit von der Ausgabe (35) des künstlichen neuronalen Netzwerks (3) berechnet wird, dadurch gekennzeichnet, dass die zweite Verlustfunktion (L_add) derart gestaltet ist, dass die Ausgabe (35 35‘, 35“) des künstlichen neuronalen Netzes (3) im Wesentlichen normalisiert wird.

2. Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass zur Berechnung der zweiten Verlustfunktion (L_add) auf die Ausgabe (35, 35‘, 35“) des künstlichen neuronalen Netzes (3) ein künstliches neuronales Netz (4) zur Annäherung einer Softmax- Funktion angewendet wird.

3. Verfahren (100) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Berechnung der zweiten Verlustfunktion (L_add) die Ausgabe (35, 35“, 35‘) des künstlichen neuronalen Netzes (3, 4) entlang mindestens einer Dimension aufsummiert wird.

4. Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die zweite Verlustfunktion (L_add) derart gestaltet ist, dass sich die Ausgabe des künstlichen neuronalen Netzes (35, 35‘, 35“) zu 1 aufsummiert.

5. Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Berechnung der ersten Verlustfunktion (L_ce) auf die Ausgabe (35, 35‘, 35“) des künstlichen neuronalen Netzes (3) ein künstliches neuronales Netz (4) zur Annäherung einer Softmax- Funktion angewendet wird.

6. Verfahren (100) nach Anspruch 2, wobei zur Berechnung der ersten Verlustfunktion (L_ce) auf die Ausgabe (35, 35‘, 35“) des künstlichen neuronalen Netzes (3) eine Softmax- Funktion angewendet wird, dadurch gekennzeichnet, dass die zweite Verlustfunktion (L_add) derart gestaltet ist, dass sich die Ausgabe des künstlichen neuronalen Netzes (35, 35‘, 35“) der Ausgabe der Softmax- Funktion annähert.

7. ML-System (3), insbesondere künstliches neuronales Netz, insbesondere zur Klassifikation von Sensordaten, trainiert gemäß dem Verfahren (100) nach einem der vorhergehenden Ansprüche.

8. Computerprogramm, welches eingerichtet ist, das Verfahren (100) gemäß einem der Ansprüche 1 bis 6 auszuführen.

9. Maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß Anspruch 8 gespeichert ist.

10. Vorrichtung, welche eingerichtet ist, das Verfahren (100) gemäß einem der Ansprüche 1 bis 6 auszuführen.