WO2020126339A1

WO2020126339A1 - Verfahren und vorrichtung zum betreiben eines maschinenlernmodells

Info

Publication number: WO2020126339A1
Application number: PCT/EP2019/082486
Authority: WO
Inventors: Fabian HÜGER; Peter Schlicht
Original assignee: Volkswagen Aktiengesellschaft
Priority date: 2018-12-18
Filing date: 2019-11-25
Publication date: 2020-06-25
Also published as: US20220044118A1; DE102018222202A1; EP3899798A1

Abstract

Verfahren und Vorrichtung zum Betreiben eines Maschinenlernmodells Die Erfindung betrifft ein Verfahren zum Betreiben eines Maschinenlernmodells (6, 6a), umfassend die folgenden Schritte während einer Trainingsphase (200): - Empfangen von markierten mehrdimensionalen Trainingsdaten (10), Auswählen von Teilmengen (11) aus den empfangenen Trainingsdaten (10), Erzeugen eines Trainingsdatensatzes (12), wobei der Trainingsdatensatz (12) Datensatzelemente (13) umfasst, welche auf Grundlage der ausgewählten Teilmengen (11) erzeugt werden, Trainieren des Maschinenlernmodells (6) mittels des Trainingsdatensatzes (12); und/oder die folgenden Schritte während einer Inferenzphase (300): Empfangen von Sensordaten (20) mindestens eines Sensors, Auswählen von Teilmengen (21) aus den empfangenen Sensordaten (20), Erzeugen eines Datenstapels (22), wobei der Datenstapel (22) als Stapelelemente (23) jeweils die ausgewählten Teilmengen (21) umfasst, Anwenden des oder eines gemäß den Schritten der Trainingsphase (200) trainierten Maschinenlernmodells (6a) auf jedes Stapelelement (23) des Datenstapels (22), wobei das Anwenden zeitgleich erfolgt, und Ableiten eines Inferenzergebnisses (24), - Ausgeben des Inferenzergebnisses (24). Ferner betrifft die Erfindung einer Vorrichtung (1).

Description

Beschreibung

Verfahren und Vorrichtung zum Betreiben eines Maschinenlernmodells

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Betreiben eines

Maschinenlernmodells.

Maschinenlernen und tiefe Neuronale Netze (engl. Deep Neural Networks) kommen vermehrt auch in Fahrzeugen zum Einsatz, beispielsweise in Infotainmentsystemen,

Fahrerassistenzsystemen, Sicherheitssystemen, bei Komfortfunktionen oder beim

teilautomatisierten oder automatisierten Fahren. Hierbei kommen insbesondere auch

Funktionen des tiefen Lernens zum Einsatz, bei denen aus mittels eines Sensors erfassten Sensordaten (z.B. Umfeldsensorik, Innenraumüberwachung, Sensoren in oder am Fahrzeug etc.) höherwertige Daten, beispielsweise in Form eines Umfeldmodells, einer Objekterkennung, einer Regelung oder eines Fahrermodells, erzeugt werden.

Maschinenlernmodelle und insbesondere tiefe Neuronale Netze sind während des Anwendens, d.h. während einer Inferenzphase beim Ausführen im Fahrzeug, sehr rechenintensiv.

Insbesondere im Hinblick auf eine Anwendung im Bereich des automatisierten Fahrens mit hohen Anforderungen an eine Redundanz einer verwendeten Soft- und Hardware gilt es, die für eine Funktion benötigte Rechenleistung zu verringern.

Der Erfindung liegt die Aufgabe zu Grunde, ein Verfahren und eine Vorrichtung zum Betreiben eines Maschinenlernmodells zu schaffen, bei denen das Maschinenlernmodell mit weniger Aufwand, insbesondere im Hinblick auf eine während einer Inferenzphase benötigte

Rechenleistung, betrieben werden kann.

Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des

Patentanspruchs 1 und eine Vorrichtung mit den Merkmalen des Patentanspruchs 9 gelöst. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.

Insbesondere wird ein Verfahren zum Betreiben eines Maschinenlernmodells zur Verfügung gestellt, umfassend die folgenden Schritte während einer Trainingsphase:

- Empfangen von markierten mehrdimensionalen Trainingsdaten,

- Auswählen von Teilmengen aus den empfangenen Trainingsdaten, - Erzeugen eines Trainingsdatensatzes, wobei der Trainingsdatensatz Datensatzelemente umfasst, welche auf Grundlage der ausgewählten Teilmengen erzeugt werden,

- Trainieren des Maschinenlernmodells mittels des Trainingsdatensatzes;

und/oder die folgenden Schritte während einer Inferenzphase:

- Empfangen von Sensordaten mindestens eines Sensors,

- Auswählen von Teilmengen aus den empfangenen Sensordaten,

- Erzeugen eines Datenstapels, wobei der Datenstapel als Stapelelemente jeweils die ausgewählten Teilmengen umfasst,

- Anwenden des oder eines gemäß den Schritten der Trainingsphase trainierten

Maschinenlernmodells auf jedes Stapelelement des Datenstapels, wobei das Anwenden zeitgleich erfolgt, und Ableiten eines Inferenzergebnisses,

- Ausgeben des Inferenzergebnisses.

Ferner wird eine Vorrichtung zum Betreiben eines Maschinenlernmodells geschaffen, umfassend eine Recheneinrichtung mit einem Speicher, in dem das Maschinenlernmodell ausgebildet ist, wobei die Recheneinrichtung dazu eingerichtet ist, die folgenden Schritte während einer Trainingsphase durchzuführen:

- Empfangen von markierten mehrdimensionalen Trainingsdaten,

- Auswählen von Teilmengen aus den Trainingsdaten,

- Erzeugen eines Trainingsdatensatzes, wobei der Trainingsdatensatz Datensatzelemente umfasst, welche auf Grundlage der ausgewählten Teilmengen erzeugt werden,

- Trainieren des Maschinenlernmodells mittels des Trainingsdatensatzes;

und/oder die folgenden Schritte während einer Inferenzphase durchzuführen:

- Empfangen von Sensordaten mindestens eines Sensors,

- Auswählen von Teilmengen aus den empfangenen Sensordaten,

- Anwenden des oder eines gemäß den Schritten der Trainingsphase trainierten

- Ausgeben des Inferenzergebnisses.

Es ist einer der Grundgedanken der Erfindung, Eingangsdaten eines Maschinenlernmodells sowohl beim Trainieren als auch in der Inferenzphase beim Anwenden des

Maschinenlernmodells in kleinere Teilmengen zu zerlegen. Handelt es sich beispielsweise bei den als Eingangsdaten verwendeten Trainingsdaten und den Sensordaten um Bilddaten einer Kamera, so können die Teilmengen Bildausschnitte einer von der Kamera erfassten Abbildung sein. Die Bildausschnitte weisen weniger Pixel als die ursprüngliche Abbildung auf, sodass sowohl beim Trainieren als auch beim Anwenden weniger Eingangsdaten von dem

Maschinenlernmodell verarbeitet werden müssen. Daher werden aus markierten (gelabelten) mehrdimensionalen Trainingsdaten Teilmengen ausgewählt. Aus den ausgewählten

Teilmengen wird ein Trainingsdatensatz erzeugt, wobei einzelne Datensatzelemente des Trainingsdatensatzes jeweils auf Grundlage einer der ausgewählten Teilmengen erzeugt werden. Sind beispielsweise im vorgenannten Beispiel fünf Fußgänger in einer Abbildung der Kamera abgebildet, so können diese jeweils als Bildausschnitt bzw. Teilmenge aus der Abbildung ausgeschnitten und jeweils als Datensatzelement in den Trainingsdatensatz aufgenommen werden. Anschließend wird das Maschinenlernmodell mittels des bereitgestellten Trainingsdatensatzes trainiert. Da die Teilmengen jede für sich genommen weniger

umfangreich ausgebildet sind, kann das Maschinenlernmodell hinsichtlich seiner

Eingangsdimensionen kleiner ausgebildet werden, das heißt es wird komprimiert. Hierdurch kann eine zum Anwenden des Maschinenlernmodells während einer Inferenzphase benötigte Rechenleistung reduziert werden. In der Inferenzphase werden von mindestens einem Sensor Sensordaten empfangen. Aus diesen Sensordaten werden ebenfalls Teilmengen ausgewählt.

Im beschriebenen Beispiel können dies wieder Bildausschnitte einer mittels einer Kamera erfassten Abbildung sein. Nach dem Auswählen wird ein Datenstapel erzeugt, wobei der Datenstapel als Stapelelemente jeweils die ausgewählten Teilmengen, beispielsweise jeweils die bereits beschriebenen Bildausschnitte, umfasst. Ein gemäß den Schritten der

Trainingsphase des Verfahrens trainiertes Maschinenlernmodell wird anschließend auf jedes Stapelelement des Datenstapels angewendet. Dies erfolgt parallel bzw. zeitgleich, sodass das trainierte Maschinenlernmodell jeweils auf ein Stapelelement des Datenstapels angewendet wird. Hierzu wird das trainierte Maschinenlernmodell insbesondere mehrmals instanziert bzw. erzeugt. Durch das parallele Anwenden stehen jeweils inferierte Ergebnisse für alle

Stapelelemente gleichzeitig zur Verfügung. Nach dem Anwenden des Maschinenlernmodells wird das sich aus den inferierten Ergebnissen zusammensetzende Inferenzergebnis ausgegeben. Da das trainierte Maschinenlernmodell hinsichtlich einer Eingangsdimension weniger komplex ausgebildet ist, reduziert sich die benötigte Rechenleistung in der

Inferenzphase, selbst wenn das Maschinenlernmodell zeitgleich auf alle Stapelelemente angewendet wird. Im Ergebnis kann daher eine benötigte Rechenleistung sowohl in der Trainingsphase als auch in der Inferenzphase reduziert werden.

Das Verfahren und die Vorrichtung können insbesondere im Rahmen einer Umfelderkennung auf Grundlage von erfassten Sensordaten bzw. Bilddaten des Umfelds angewendet werden. Insbesondere können das Verfahren und die Vorrichtung in einem Fahrzeug eingesetzt werden, beispielsweise zum Unterstützen eines Assistenzsystems beim automatisierten Fahren.

Ein Fahrzeug ist insbesondere ein Kraftfahrzeug, insbesondere ein teilautomatisiert oder automatisiert gefahrenes Kraftfahrzeug. Das Fahrzeug kann prinzipiell aber auch ein anderes Land-, Luft- oder Wasserfahrzeug sein.

Das Verfahren ist unterteilt in eine Trainingsphase, in der das Maschinenlernmodell trainiert wird, und eine Inferenzphase, in der ein trainiertes Maschinenlernmodell auf Sensordaten angewandt wird. Es kann insbesondere vorgesehen sein, dass die Trainingsphase und die Inferenzphase nicht mittels derselben Vorrichtung durchgeführt werden. Beispielsweise kann ein Maschinenlernmodell bei einem Hersteller eines Fahrzeugs auf einer Vorrichtung trainiert werden. Das bereits trainierte Maschinenlernmodell wird anschließend in einer weiteren Vorrichtung zum Bereitstellen einer Wahrnehmungsfunktion in einem Assistenzsystem des Fahrzeugs verbaut. Dort kommt das trainierte Maschinenlernmodell zur Anwendung, um beispielsweise Objekte in erfassten Sensordaten in einem Umfeld des Fahrzeugs zu erkennen. Hierzu wird lediglich die Inferenzphase in der Vorrichtung ausgeführt.

Es kann jedoch alternativ oder zusätzlich auch vorgesehen sein, dass beide Teile des

Verfahrens auf einer einzigen Vorrichtung ausgeführt werden, beispielsweise in einem

Fahrzeug.

Das Verfahren wird insbesondere mittels einer Recheneinrichtung mit einem Speicher ausgeführt. Hierbei ist das Maschinenlernmodell insbesondere in dem Speicher ausgebildet und die Recheneinrichtung ist dazu eingerichtet, beim Trainieren die Gewichte bzw. Parameter etc. des Maschinenlernmodells in Abhängigkeit eines inferierten Ergebnisses und mindestens einer Zielfunktion anzupassen.

Die Eingangsdaten des Maschinenlernmodells, das heißt die Trainingsdaten und die

Sensordaten können beispielsweise mittels einer Kamera erfasste Abbildungen sein, beispielsweise einzelne Videobilder. Eingangsdaten können jedoch auch mittels anderer Sensoren erfasst werden, beispielsweise mittels eines Radar-, Light Detection and Ranging (Lidar)- oder Ultraschallsensors.

Das Maschinenlernmodell verarbeitet die Eingangsdaten, das heißt Trainingsdaten und

Sensordaten, insbesondere Bilddaten, in einer geringeren Auflösung als diese von einem Sensor bereitgestellt werden. Insbesondere ist vorgesehen, dass eine Reduktion der Auflösung vorgenommen wird. Je nach Art des verwendeten Maschinenlernmodells kann eine variable Auflösung der Eingangsdaten oder eine feste Auflösung vorgesehen sein. Bei tiefen

Neuronalen Netzen ist eine Auflösung der Eingangsdaten bei sogenannten vollen

Faltungsnetzen (engl fully convolutional networks) beispielsweise variabel. Andere Topologien von tiefen Neuronalen Netzen erfordern hingegen eine fest Auflösung der Eingangsdaten. Die reduzierten Eingangsdaten stellen jeweils die Teilmengen im Verfahren dar.

Beim Trainieren und beim Anwenden des Maschinenlernmodells können die von dem mindestens einen Sensor bereitgestellten Trainingsdaten oder Sensordaten auf verschiedene Weise auf eine von dem Maschinenlernmodell in den Eingangsdaten verarbeitete Auflösung reduziert werden.

Beispielsweise kann mittels Downsamplings eine Reduktion sowohl einer Auslösung, z.B. einer Pixelanzahl, als auch einer Anzahl von Markierungen (Label) in den Trainingsdaten erreicht werden.

Ferner können Segmente mit einer entsprechenden Auflösung aus den Trainingsdaten oder den Sensordaten ausgeschnitten werden. Handelt es sich beispielsweise um Bilddaten, so können Segmente mit der entsprechenden Auflösung, Größe bzw. Pixelanzahl aus den Bilddaten ausgeschnitten werden. Hierbei kann vorgesehen sein, die Segmente aus einem Bildzentrum und/oder entlang eines Horizonts auszuschneiden.

Es ist insbesondere vorgesehen, dass die einzelnen als Stapel ausgegebenen inferierten Ergebnisse der Stapelelemente anschließend zu einem einzigen Ergebnis zusammengefasst bzw. zusammengeführt werden. Im Beispiel, in dem die Teilmengen Bildausschnitte einer mittels einer Kamera erfassten Abbildung darstellen, kann im Anschluss daher zumindest der Teil der Abbildung, welcher durch Auswahl der jeweiligen Teilmengen berücksichtigt wurde, wieder zusammengesetzt und als Gesamtergebnis, das heißt insbesondere als eine einzige Modellvorhersage, bereitgestellt werden. Das Zusammenfassen kann beispielsweise mittels entsprechender Masken erfolgen, sodass die Teilmengen an die jeweils ursprüngliche Position der Sensordaten bzw. der Abbildung eingefügt werden können. Hierbei kann vorgesehen sein, dass die Teilmengen hinsichtlich einer Position verschoben und/oder hinsichtlich einer

Auflösung skaliert werden, um wieder an eine ursprüngliche Position verschoben und/oder auf eine ursprünglich Auflösung gebracht zu werden. Es kann beim Anwenden des Maschinenlernmodells auf den Datenstapel Vorkommen, dass einzelne Stapelelemente in Bezug auf die darin enthaltenen Teilmengen miteinander überlappen, das heißt dass die jeweiligen Teilmengen eine gemeinsame Schnittmenge aufweisen. Im Beispiel der als Teilmengen verwendeten Bilddaten können beispielsweise Bildausschnitte in einer Abbildung miteinander überlappen. Die jeweils für die einzelnen Teilmengen gelieferten inferierten Ergebnisse können für überlappende Bereiche zu einem Ergebnis zusammengefasst, insbesondere miteinander fusioniert werden. Dies kann auf verschiedene Weise erfolgen. Es kann vorgesehen sein, die überlappenden Bereiche miteinander zu verrechnen, beispielsweise indem ein Durchschnitt, ein gewichteter Durchschnitt oder lokal gewichtete Durchschnitte gebildet werden. Es kann auch vorgesehen sein,

Entscheidungsverfahren anzuwenden, um eine geeignete Maske zum Zusammenfassen zu verwenden, beispielsweise die kleinste, größte oder eine objektspezifische Maske. Ferner kann auch eine Entscheidung auf Grundlage eines für die jeweils beteiligte Teilmenge ermittelten Konfidenzmaßes oder eines Vorhersageergebnisses erfolgen. Z.B. kann die konfidenteste oder die häufigste Vorhersage verwendet werden. Weiter kann auch eine Entfernung zu einer Masken- bzw. Bildmitte und/oder einem Masken- oder Bildrand verwendet werden. Auch mittels Maschinenlernen angelernte Fusionsverfahren können verwendet werden, beispielsweise Verfahren, die auf Grundlage eines Kontextes, einer Semantik oder einer Trainingserfahrung eine Fusion der Ergebnisse vornehmen.

Es kann ferner vorgesehen sein, gleichermaßen vom Maschinenlernmodell inferierte

Metadaten, wie beispielsweise ein zugehöriges Konfidenzmaß und/oder eine zugehörige Robustheit miteinander zu fusionieren.

Das Maschinenlernmodell kann prinzipiell jedes geeignete mittels maschinellen Lernens erstellte Modell sein, das in einer Trainingsphase auf Grundlage von markierten Trainingsdaten trainiert werden und anschließend in einer Inferenzphase auf Sensordaten angewendet werden kann. Beispiele für geeignete Maschinenlernmodelle sind Support Vector Machines, Neuronale Netze oder probabilistische Modelle, beispielsweise auf Grundlage von Bayesschen Netzen.

In einer bevorzugten Ausführungsform ist vorgesehen, dass das Maschinenlernmodell ein tiefes Neuronales Netz ist.

In einer Ausführungsform ist vorgesehen, dass das Auswahlen der Teilmengen während der Trainingsphase und/oder während der Inferenzphase auf Grundlage einer Relevanz der jeweiligen Teilmengen erfolgt. Handelt es sich bei den Trainingsdaten und den Sensordaten beispielsweise um Bilddaten einer Kamera, so können lediglich relevante Bereiche in diesen Bilddaten berücksichtigt werden. Es kann hierdurch eine Fokussierung der Aufmerksamkeit in den vom Maschinenlernmodell verarbeiteten Eingangsdaten erfolgen. Eine Relevanz ergibt sich beispielsweise durch Berücksichtigung von Kriterien wie einer Sicherheit (z.B. schwache Verkehrsteilnehmer in den Trainingsdaten und/oder in den Sensordaten) oder besonders kontrastreicher oder kontrastarmer Bildbereiche.

Es kann ferner vorgesehen sein, dass eine Relevanz von Teilmengen anhand einer zeitlich vorgelagerten Auswertung ermittelt wird. Werden beispielsweise regelmäßig Sensordaten erfasst, beispielsweise Abbildungen eines Umfelds mittels einer Kamera, so kann vorgesehen sein, dass eine Relevanz von Teilmengen, im Beispiel eine Relevanz einzelner Bildausschnitte, auf Grundlage einer in einem vorherigen Zeitschnitt erfassten und ausgewerteten Abbildung erfolgt. Wurde in einer zeitlich vorgelagerten Abbildung beispielsweise ein schwacher

Verkehrsteilnehmer erkannt, so kann der entsprechende Bildausschnitt mit einer hohen

Relevanz markiert werden und in einem aktuellen Zeitschritt aufgrund dieser Markierung als Teilmenge ausgewählt werden.

Es kann auch vorgesehen sein, dass zu Trainingsdaten und Sensordaten eine Liste mit relevanten Teilmengen, beispielsweise Bildausschnitten, erstellt wird und das Auswählen anschließend auf Grundlage der erstellten Liste erfolgt, beispielsweise indem lediglich die relevantesten 5, 10, 20,... Teilmengen ausgewählt werden.

In einer weiteren Ausführungsform ist vorgesehen, dass das Auswählen der Teilmengen aus den Trainingsdaten und/oder den empfangenen Sensordaten zusätzlich oder alternativ auf Grundlage eines situationsabhängigen Kontextes erfolgt. Handelt es sich beispielsweise bei den Trainingsdaten und den Sensordaten um Bilddaten einer Kamera, so kann vorgesehen sein, dass in Abhängigkeit eines situationsabhängigen Kontextes unterschiedliche

Bildausschnitte als Teilmengen ausgewählt werden. So können die ausgewählten Teilmengen beispielsweise bei einer Autobahnfahrt anders gewählt werden als bei einer Stadtfahrt. Auf einer dreispurigen Autobahn sind beispielsweise links und rechts von einem Fahrzeug verlaufende Fahrspuren von erhöhten Interesse, da diese potentielle Ausweichmöglichkeiten für das Fahrzeug bereitstellen. Hingegen kann bei einer Stadtfahrt beispielsweise eine Fahrradspur von erhöhten Interesse sein, da sich auf dieser ein schwächerer Verkehrsteilnehmer befinden kann. Entsprechend erfolgt eine Auswahl der Teilmengen situationsabhängig. Auch als kritisch identifizierte Situationen können hierdurch verbessert berücksichtigt werden. Beispielsweise kann ein Zebrastreifen oder ein auf einer vorausliegenden Fahrbahn spielendes Kind verbessert berücksichtigt werden, indem diese Bildausschnitte als Teilmengen ausgewählt werden.

Es kann ferner vorgesehen sein, dass eine geplante Route als Kontext ausgewertet wird bzw. dazu verwendet wird, einen situationsabhängigen Kontext für zumindest einen aktuellen Zeitpunkt zu bestimmen. Die Route kann beispielsweise von einer Navigationseinrichtung eines Fahrzeugs abgefragt werden. Je nach konkreter Ausgestaltung einzelner, zumindest für einen aktuellen Zeitpunkt relevanter Teilrouten, können anschließend die jeweiligen Teilmengen ausgewählt werden. Hierbei können neben der Route auch weitere Informationen berücksichtigt werden, wie beispielsweise eine Straßenbeschaffenheit, ein aktuelles oder zukünftiges Wetter, eine Witterung, Staumeldungen etc.

Es kann weiter vorgesehen sein, dass das Auswählen der Teilmengen bzw. das Erzeugen des Datenstapels von Ergebnissen der Inferenzphase eines zu einem früheren Zeitpunkt durchgeführten Verfahrens abhängig gemacht wird. Hierbei können insbesondere erwartete bzw. vorhergesagte Verschiebungen von relevanten Teilmengen in den Sensordaten berücksichtigt werden. Beispielsweise können Bewegungen und/oder perspektivische

Änderungen von Bildausschnitten in zu unterschiedlichen Zeitpunkten erfassten Abbildungen einer Kamera berücksichtigt werden. Auch eine Anwendung von Salienzverfahren ist hierbei möglich (z.B. Optical Flow, trainierte Salienzverfahren, Heatmapping für einen vorhergehenden Zeitpunkt).

In einer weiteren Ausführungsform ist vorgesehen, dass für das Maschinenlernmodell mindestens ein Konfidenzmaß ermittelt und/oder ausgegeben wird, wobei das mindestens eine Konfidenzmaß für mindestens zwei ausgewählte Teilmengen und/oder Stapelelemente separat ermittelt und/oder ausgeben wird. Auf diese Weise kann für jede der Teilmengen bzw. jedes der Stapelelemente separat ein Konfidenzmaß angegeben werden. Dies ermöglicht beispielsweise das Erstellen von ortsaufgelösten Konfidenzangaben. Auf Grundlage dieser ortsaufgelösten Konfidenzangaben kann beispielsweise entschieden werden, ob bestimmte Bereiche im Umfeld oder bestimmte Teile in den Sensordaten erneut oder in zukünftigen Durchläufen des

Verfahrens genauer erfasst und/oder ausgewertet werden müssen. Das Konfidenzmaß ist insbesondere ein Konfidenzwert im Hinblick auf das jeweilige Inferenzergebnis, z.B. eine Objektklasse oder eine Objektgröße etc. Insbesondere ist ein solcher Konfidenzwert eine Angabe darüber, mit welcher Wahrscheinlichkeit das trainierte Maschinenlernmodell ein jeweils betrachtetes Objekt oder die entsprechende Größe bestimmen kann. Das Konfidenzmaß definiert also die Richtigkeit einer Wahrnehmung bzw. eines inferierten Ergebnisses des trainierten Maschinenlernmodells. Handelt es sich bei einer Objektklasse beispielsweise um Fußgänger, so gibt der Konfidenzwert beim Erkennen eines Fußgängers an, dass das trainierte Maschinenlernmodell das Objekt„Fußgänger“ mit einer Wahrscheinlichkeit von z.B. 99 % erkennen kann. Ist das Maschinenlernmodell ein tiefes Neuronales Netz, so kann das

Konfidenzmaß beispielsweise durch statistisches Auswerten von Inferenzergebnissen bei wiederholtem Anwenden des trainierten tiefen Neuronalen Netzes auf die gleichen oder auf gleichartige Eingangsdaten bestimmt werden. Wird bei dem tiefen Neuronalen Netz

beispielsweise ein Monte-Carlo-Drop-Out-Verfahren umgesetzt, bei dem mit jeder Anwendung einzelne Neuronen zufällig abgeschaltet werden, dann lässt sich eine Konfidenz für das inferierte Ergebnis durch Multiinferenz, das heißt durch das mehrmalige Anwenden des tiefen Neuronalen Netzes auf die gleichen Eingangsdaten, ermitteln. Die mehrfach inferierten Ergebnisse werden hierbei mittels statistischer Methoden ausgewertet und hieraus ein

Konfidenzwert abgeleitet.

Es kann ferner vorgesehen sein, dass das Auswählen der Teilmengen bzw. das Erzeugen des Datenstapels in Abhängigkeit eines für einen früheren Zeitpunkt ermittelten Konfidenzmaßes einzelner Teilmengen erfolgt. Beispielsweise können Bildausschnitte einer zu einem früheren Zeitpunkt erfassten Abbildung, zu denen eine geringe Konfidenz beim inferierten Ergebnis ermittelt wurde, durch Auswählen entsprechender Bildausschnitte in einer zu einem späteren Zeitpunkt erfassten Abbildung berücksichtigt werden.

In einer Ausführungsform ist vorgesehen, dass zum Trainieren des Maschinenlernmodells die Datensatzelemente im Trainingsdatensatz zu einer Matrix zusammengefasst werden, wobei die zum Trainieren notwendigen Rechenoperationen auf der Matrix ausgeführt werden und/oder dass zum Anwenden des trainierten Maschinenlernmodells die Stapelelemente im Datenstapel zu einer Matrix zusammengefasst werden, wobei die zum Inferieren notwendigen

Rechenoperationen auf der Matrix ausgeführt werden. Der Begriff Matrix soll hierbei insbesondere eine Hypermatrix, das heißt eine Matrix mit mehr als zwei Indices, bezeichnen. Handelt es sich bei den Trainingsdaten und den Sensordaten beispielsweise um

zweidimensionale Daten, beispielsweise Bilddaten einer Abbildung einer Kamera, so sind die jeweils ausgewählten Teilmengen ebenfalls zweidimensional. Die zweidimensionalen

Teilmengen werden dann zu einer dreidimensionalen Matrix zusammengefasst. Das Trainieren und das Anwenden werden dann jeweils auf der dreidimensionalen Matrix durchgeführt.

Hierdurch kann eine benötigte Rechenleistung weiter reduziert werden. ln einer weiteren Ausführungsform ist vorgesehen, dass eine Datenauflösung am Eingang des Maschinenlernmodells und/oder eine Anzahl von Stapelelementen des Datenstapels in Abhängigkeit einer beim Anwenden des trainierten Maschinenlernmodells zur Verfügung stehenden Rechenleistung und/oder einer maximal möglichen Latenzzeit festgelegt wird. Auf diese Weise kann ein Maschinenlernmodell für ein Anwendungsszenario maßgeschneidert werden. Ist beispielsweise für eine Wahrnehmungsfunktion in einem Fahrzeug eine maximale Latenzzeit von 30 Millisekunden vorgesehen, da anschließend auf Grundlage eines

Inferenzergebnisses eine Entscheidung eines Assistenzsystems getroffen werden muss, so wird das Maschinenlernmodell derart ausgebildet, dass die 30 Millisekunden beim Anwenden während der Inferenzphase stets unterschritten werden. Um dies zu erreichen kann eine Datenauflösung, beispielsweise eine Anzahl von Pixeln in Bilddaten, und/oder eine Anzahl von Stapelelementen des Datenstapels verändert werden. Insbesondere wird hierbei ein

Kompromiss zwischen Rechenleistung bzw. Rechendauer und einer Menge an verarbeiteten Eingangsdaten angestrebt.

In einer Ausführungsform ist vorgesehen, dass beim Trainieren des Maschinenlernmodells eine Zielfunktion für mindestens eine der Teilmengen separat gewählt oder vorgegeben wird.

Hierdurch kann das Maschinenlernmodell gezielt auf bestimmte Eigenschaften der Teilmenge trainiert werden. Bei einem als Maschinenlernmodell verwendeten tiefen Neuronalen Netz können beispielsweise bildausschnittabhängige Löss- bzw. Kostenfunktionen verwendet werden. Der Vorteil ist, dass die Trainingsphase hierdurch beschleunigt werden kann.

Es wird ferner insbesondere ein Fahrzeug geschaffen, umfassend mindestens eine Vorrichtung gemäß einer der beschriebenen Ausführungsformen.

Weiter wird insbesondere ein Computerprogramm mit Programmcode-Mitteln geschaffen, um alle Schritte des Verfahrens in einer der beschriebenen Ausführungsformen durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.

Ferner wird insbesondere ein Computerprogrammprodukt mit Programmcode-Mitteln geschaffen, die auf einem computerlesbaren Datenträger gespeichert sind, um das Verfahren nach einer der beschriebenen Ausführungsformen durchzuführen, wenn das Programmprodukt auf einem Computer ausgeführt wird.

Nachfolgend wird die Erfindung anhand bevorzugter Ausführungsbeispiele unter Bezugnahme auf die Figuren näher erläutert. Hierbei zeigen: Fig. 1 eine schematische Darstellung einer Ausführungsform der Vorrichtung zum

Betreiben eines Maschinenlernmodells (Trainingsphase);

Fig. 2 eine schematische Darstellung einer Ausführungsform der Vorrichtung zum

Betreiben eines Maschinenlernmodells (Inferenzphase);

Fig. 3 ein schematisches Ablaufdiagramm einer Ausführungsform des Verfahrens zum

Betreiben eines Maschinenlernmodells.

In Fig. 1 ist eine schematische Darstellung einer Ausführungsform der Vorrichtung 1 zum Betreiben eines Maschinenlernmodells 6 während einer Trainingsphase gezeigt. Das

Maschinenlernmodell 6 ist im gezeigten Ausführungsbeispiel ein tiefes Neuronalen Netz 4. Die Vorrichtung 1 umfasst eine Recheneinrichtung 2 mit einem Speicher 3. In dem Speicher 3 ist das tiefe Neuronale Netz 4 ausgebildet, d.h. dessen strukturelle Merkmale sowie zugehörige Gewichtungen sind dort hinterlegt.

Während der Trainingsphase des tiefen Neuronalen Netzes 4 empfängt die

Recheneinrichtung 2 markierte mehrdimensionale Trainingsdaten 10. Anschließend wählt die Recheneinrichtung 2 aus den Trainingsdaten 10 Teilmengen 11 aus. Hierzu umfasst die Recheneinrichtung 2 eine Auswahleinrichtung 5.

Es kann hierbei vorgesehen sein, dass die Auswahleinrichtung 5 die Teilmengen 11 auf Grundlage einer Relevanz 14 der jeweiligen Teilmenge 11 auswählt. Vorgaben für die

Relevanz 14 können der Auswahleinrichtung 5 beispielsweise von außen bereitgestellt werden.

Es kann ferner vorgesehen sein, dass die Auswahleinrichtung 5 die Teilmengen 1 1 zusätzlich oder alternativ auf Grundlage eines situationsabhängigen Kontextes 15 auswählt. Ein aktueller Kontext 15 kann der Auswahleinrichtung 5 beispielsweise von außen bereitgestellt werden.

Die Auswahleinrichtung 5 stellt anschließend einen Trainingsdatensatz 12 bereit, wobei der Trainingsdatensatz 12 aus Datensatzelementen 13 zusammengestellt wird, welche jeweils auf Grundlage der ausgewählten Teilmengen 11 von der Auswahleinrichtung 5 erzeugt wurden.

Mit dem auf diese Weise zusammengestellten Trainingsdatensatz 12 wird das tiefe Neuronale Netz 4 anschließend trainiert. Das Trainieren wird von der Recheneinrichtung 2 durchgeführt. Es kann vorgesehen sein, dass für das tiefe Neuronale Netz 4 nach dem Trainieren mindestens ein Konfidenzmaß ermittelt und/oder ausgegeben wird. Das Konfidenzmaß gibt insbesondere an, mit welcher Wahrscheinlichkeit das tiefe Neuronale Netz 4 nach dem Trainieren ein bestimmtes Ergebnis richtig erkennen kann, beispielsweise dass das Neuronale Netz 4 nach dem Trainieren das Objekt„Fußgänger“ mit einer Wahrscheinlichkeit von 98 % richtig erkennen kann.

In Fig. 2 ist eine schematische Darstellung einer Ausführungsform der Vorrichtung 1 zum Betreiben eines trainierten Maschinenlernmodells 6a während einer Inferenzphase gezeigt, wobei das trainierte Maschinenlernmodell 6a ein trainiertes tiefes Neuronales Netz 4a ist. Die Vorrichtung 1 kann zum Ausführen der Inferenzphase bzw. Anwenden des trainierten tiefen Neuronalen Netzes 4a insbesondere in einem Fahrzeug 50 ausgebildet sein.

Die Vorrichtung 1 umfasst eine Recheneinrichtung 2 mit einem Speicher 3. In dem Speicher 3 ist das trainierte tiefe Neuronale Netz 4a ausgebildet, d.h. dessen strukturelle Merkmale sowie die während der Trainingsphase (vgl. Figuren 1 und 3) festgelegten Gewichtungen sind dort hinterlegt.

Während der Inferenzphase des trainierten tiefen Neuronalen Netzes 4a empfängt die

Recheneinrichtung 2 mehrdimensionale Sensordaten 20 eines Sensors 52. Der Sensor 52 ist beispielsweise eine Top-View-Kamera des Fahrzeugs 50, welche Bilddaten in Form von erfassten Abbildungen eines Umfelds des Fahrzeugs 50 als Sensordaten 20 bereitstellt.

Anschließend wählt die Recheneinrichtung 2 aus den empfangenen Sensordaten 20

Teilmengen 21 aus. Hierzu umfasst die Recheneinrichtung 2 eine Auswahleinrichtung 5.

Es kann hierbei vorgesehen sein, dass die Auswahleinrichtung 5 die Teilmengen 21 auf Grundlage einer Relevanz 14 der jeweiligen Teilmenge 21 auswählt. Vorgaben für die

Es kann ferner vorgesehen sein, dass die Auswahleinrichtung 5 die Teilmengen 21 zusätzlich oder alternativ auf Grundlage eines situationsabhängigen Kontextes 15 auswählt. Ein aktueller Kontext 15 kann der Auswahleinrichtung 5 beispielsweise von außen bereitgestellt werden.

Es ist hierbei insbesondere vorgesehen, dass die Vorgaben für die Relevanz 14 und/oder für den situationsabhängigen Kontext 15 während der Inferenzphase den Vorgaben während der Trainingsphase entsprechen. Die Auswahleinrichtung 5 erzeugt aus den ausgewählten Teilmengen 21 einen Datenstapel 22, wobei der Datenstapel 22 als Stapelelemente 23 jeweils die ausgewählten Teilmengen 21 umfasst. Der Datenstapel 22 wird dem trainierten tiefe Neuronalen Netz 4a zugeführt.

Das trainierte tiefe Neuronale Netz 4a wird anschließend auf den Datenstapel 22 angewendet. Hierzu werden von der Recheneinrichtung 2 mehrere Instanzen des trainierten tiefen

Neuronalen Netzes 4a gleichzeitig erzeugt, wobei eine Anzahl einer Anzahl von

Stapelelementen 23 in dem Datenstapel 22 entspricht. Anschließend führt die

Recheneinrichtung 2 den einzelnen Instanzen des trainierten tiefen Neuronalen Netzes 4a zeitgleich jeweils eines der Stapelelemente 23 zu. Die Instanzen des trainierten tiefen

Neuronalen Netzes liefern jeweils ein inferiertes Ergebnis. Die inferierten Ergebnisse werden ebenfalls als Stapel oder in zusammengefasster Form als Inferenzergebnis 24 bereitgestellt.

Das Inferenzergebnis 24 wird anschließend ausgegeben, beispielsweise als digitales

Datenpaket. Das Ausgeben erfolgt beispielsweise mittels einer hierfür vorgesehenen

Schnittstelle (nicht gezeigt). Das ausgegebene Inferenzergebnis 24 kann anschließend weiterverarbeitet werden, beispielsweise von einem Assistenzsystem 52 des Fahrzeug 50 im Rahmen einer Umfeldinterpretation oderzum Planen einer Trajektorie des Fahrzeugs 50.

Es kann vorgesehen sein, dass für das trainierte tiefe Neuronale Netz 4a mindestens ein Konfidenzmaß 16 ermittelt und/oder ausgegeben wird. Hierbei ist vorgesehen, dass das mindestens eine Konfidenzmaß 16 für mindestens zwei Stapelelemente 23 separat ermittelt und/oder ausgeben wird. Einfach ausgedrückt kann zu jedem für ein Stapelelement 23 inferierten Ergebnis ein Konfidenzwert 16 angegeben werden, das heißt insbesondere eine Angabe darüber, mit welcher Wahrscheinlichkeit das trainierte tiefe Neuronale Netz 4a das jeweils inferierte Ergebnis richtig erkennt, das heißt ein Maß für die Richtigkeit bzw.

Zuverlässigkeit des jeweils inferierten Ergebnisses.

In Fig. 3 ist ein schematisches Ablaufdiagramm einer Ausführungsform des Verfahrens zum Betreiben eines Maschinenlernmodells gezeigt. Das Maschinenlernmodell ist in der gezeigten Ausführungsform ein tiefes Neuronales Netz. Im Verfahren lassen sich zwei Teile

unterscheiden, eine Trainingsphase 200 und eine Inferenzphase 300. Diese können sowohl einzeln als auch zusammengefasst ausgeführt werden.

Nach einem Starten 100 des Verfahrens werden in der Trainingsphase 200 die

Verfahrensschritte 201 bis 204 durchgeführt. ln einem Verfahrensschritt 201 werden markierte mehrdimensionale Trainingsdaten empfangen. Dies können beispielsweise mittels einer Kamera erfasste Abbildungen eines Umfeldes sein, beispielsweise eines Umfelds eines Fahrzeugs. Die Abbildungen sind hierbei markiert

(gelabelt), das heißt den Abbildungen sind Informationen über die in den Abbildungen vorhandenen Objekte und/oder deren Größe, Eigenschaften usw. zugeordnet.

In einem Verfahrensschritt 202 werden Teilmengen aus den Trainingsdaten ausgewählt. Im Beispiel sind dies Bildausschnitte aus den Abbildungen. Handelt es sich beispielsweise um eine Abbildung einer Straßenszene, so können Bildausschnitte mit Fußgängern als Teilmengen ausgewählt werden. Die Teilmengen bzw. Bildausschnitte können anschließend weiter bearbeitet werden, insbesondere kann eine Auflösung bzw. Pixelanzahl angepasst werden auf eine Eingangsdimension des tiefen Neuronalen Netzes.

Es kann vorgesehen sein, dass das Auswählen der Teilmengen während der Trainingsphase auf Grundlage einer Relevanz der jeweiligen Teilmengen erfolgt. Beispielsweise können die Teilmengen bzw. Bildausschnitte in Abhängigkeit einer sicherheitsrelevanten Eigenschaft des abgebildeten Objektes ausgewählt werden. Auf diese Weise können beispielsweise schwache Verkehrsteilnehmer wie z.B. Fußgänger mit einer hohen Relevanz bewertet und daher bevorzugt beim Auswählen der Teilmengen bzw. Bildausschnitte berücksichtigt werden. Auch können Eigenschaften einer Abbildung selbst zum Ableiten einer Relevanz verwendet werden. Beispielsweise können kontrastschwache und daher schwer einsehbare Bildausschnitte mit einer hohen Relevanz versehen werden, sodass diese als Teilmengen ausgewählt werden.

Zusätzlich oder alternativ kann vorgesehen sein, dass das Auswählen der Teilmengen aus den Trainingsdaten auf Grundlage eines situationsabhängigen Kontextes erfolgt. Beispielsweise können je nach aktueller Situation andere Teilmengen bzw. Bildausschnitte beim Auswählen berücksichtigt werden. Auf einer Autobahn sind insbesondere Bereiche auf Fahrspuren der Autobahn relevant, Lichtsignalanlagen und Fußgänger sind in der Regel dort nicht anzutreffen. Im Stadtverkehr sollten hingegen auch Lichtsignalanlagen, Fußgänger und weitere Objekte, insbesondere schwächere Verkehrsteilnehmer, beim Auswählen bevorzugt berücksichtigt werden.

Es kann vorgesehen sein, dass eine Datenauflösung am Eingang des tiefen Neuronalen Netzes in Abhängigkeit einer beim Anwenden des trainierten tiefen Neuronalen Netzes zur Verfügung stehenden Rechenleistung und/oder einer maximal möglichen Latenzzeit festgelegt wird. Die zur Verfügung stehende Rechenleistung und/oder die maximal mögliche Latenzzeit sind beispielsweise durch eine Hardware eines Fahrzeug vorgegeben. Die Datenauflösung wird dann derart gewählt, dass die vorhandene Rechenleistung und/oder die maximal mögliche Latenzzeit zu keinem Zeitpunkt voll ausgeschöpft werden.

In einem Verfahrensschritt 203 wird ein Trainingsdatensatz bereitgestellt. Der

Trainingsdatensatz umfasst Datensatzelemente, welche jeweils aus den ausgewählten

Teilmengen erzeugt werden. Da eine Auswahl stattgefunden hat, muss nicht mehr eine komplette (insbesondere hochaufgelöste) Abbildung zum Trainieren des tiefen Neuronalen Netzes verwendet werden. Das Trainieren findet lediglich mit Hilfe der einzelnen

(niedrigaufgelösten) Teilmengen statt, welche als Datensatzelemente im Datensatz

zusammengefasst wurden. Hierdurch wird einerseits eine Kompression des tiefen Neuronalen Netzes erreicht. Eine Dimension der Eingangsdaten des tiefen Neuronalen Netzes kann reduziert werden, wodurch sich Rechenleistung und Rechenzeit einsparen lassen. Andererseits kann hierdurch auch eine Fokussierung einer Aufmerksamkeit erfolgen, da zum Trainieren beispielsweise nur als relevant erachtete Teilmengen bzw. Bildausschnitte berücksichtigt werden können.

In einem Verfahrensschritt 204 wird das tiefe Neuronale Netz mittels des Trainingsdatensatzes trainiert. Hierbei können an sich bekannte Verfahren des Maschinenlernens verwendet werden.

Es kann vorgesehen sein, dass beim Trainieren des tiefen Neuronalen Netzes eine Zielfunktion für mindestens eine der Teilmengen separat gewählt oder vorgegeben wird. Beispielsweise kann eine Zielfunktion speziell für bestimmte Teilmengen bzw. Bildausschnitte verwendet werden. Hierdurch lässt sich eine Trainingsphase beschleunigen.

Es kann ferner vorgesehen sein, dass zum Trainieren des tiefen Neuronalen Netzes die Datensatzelemente im Trainingsdatensatz zu einer Matrix zusammengefasst werden, wobei die zum Trainieren notwendigen Rechenoperationen auf der Matrix ausgeführt werden. Hierdurch lässt sich das Verarbeiten des Trainingsdatensatzes zum Trainieren des tiefen Neuronalen Netzes beschleunigen.

Mit Abschluss der Trainingsphase 200 steht ein trainiertes tiefes Neuronales Netz zur

Verfügung, welches in einer nachfolgenden Inferenzphase verwendet werden kann.

Die Inferenzphase 300 kann unabhängig von der Trainingsphase 200 durchgeführt werden. Es kann beispielsweise vorgesehen sein, dass die Inferenzphase 300 in einem Fahrzeug zum Bereitstellen einer Assistenzfunktion durch geführt wird. Hierzu wird ein gemäß der Trainingsphase 200 trainiertes tiefes Neuronales Netz verwendet. Das trainierte tiefe Neuronale Netz wird beispielsweise von einem Hersteller des Fahrzeugs in dem Speicher einer

Vorrichtung, wie sie in der Fig. 2 beschrieben ist, hinterlegt und kann dann bei Auslieferung des Fahrzeugs an einen Kunden in einer nachfolgenden Inferenzphase 300 verwendet werden.

Die Inferenzphase 300 umfasst die Verfahrensschritte 301 bis 305.

In einem Verfahrensschritt 301 werden Sensordaten von mindestens einem Sensor empfangen. In dem bereits beschriebenen Beispiel sind die Sensordaten beispielsweise eine mittels einer Kamera erfasste Abbildung eines Umfelds des Fahrzeugs.

In einem Verfahrensschritt 302 werden Teilmengen aus den empfangenen Sensordaten ausgewählt. Die Teilmengen sind in dem beschriebenen Beispiel Bildausschnitte der Abbildung.

Es kann vorgesehen sein, dass das Auswählen der Teilmengen während der Inferenzphase auf Grundlage einer Relevanz der jeweiligen Teilmengen erfolgt. Beispielsweise können die Teilmengen bzw. Bildausschnitte in Abhängigkeit einer sicherheitsrelevanten Eigenschaft eines darin abgebildeten Objektes ausgewählt werden. Beispielsweise können schwache

Verkehrsteilnehmer, wie z.B. Fußgänger, mit einer hohen Relevanz bewertet und daher bevorzugt beim Auswählen der Teilmengen bzw. Bildausschnitte berücksichtigt werden. Auch können Eigenschaften einer Abbildung selbst zum Ableiten einer Relevanz verwendet werden. Beispielsweise können kontrastschwache und daher schwer einsehbare Bildausschnitte mit einer hohen Relevanz versehen werden, sodass diese als Teilmengen ausgewählt werden.

Zusätzlich oder alternativ kann vorgesehen sein, dass das Auswählen der Teilmengen aus den Sensordaten auf Grundlage eines situationsabhängigen Kontextes erfolgt. Beispielsweise können je nach aktueller Situation andere Teilmengen bzw. Bildausschnitte beim Auswählen berücksichtigt werden. Auf einer Autobahn sind insbesondere Bereiche auf Fahrspuren der Autobahn relevant, Lichtsignalanlagen und Fußgänger sind in der Regel dort nicht anzutreffen. Im Stadtverkehr sollten hingegen auch Lichtsignalanlagen, Fußgänger und weitere Objekte, insbesondere schwächere Verkehrsteilnehmer, beim Auswählen bevorzugt berücksichtigt werden.

Es kann ferner vorgesehen sein, dass das Auswählen der Teilmengen zusätzlich oder alternativ auf Grundlage einer Auswahl einer zu einem früheren Zeitpunkt bzw. Zeitschritt ausgewählten Teilmenge erfolgt. So kann beispielsweise beim wiederholten Durchführen der Inferenzphase vorgesehen sein, das als relevant erachtete Bildausschnitte einer zu einem früheren Zeitpunkt erfassten Abbildung oder auch ein Inferenzergebnis eines früheren Durchlaufs der

Inferenzphase als Ausgangspunkt für das Auswahlen dienen. Ergibt ein Inferenzergebnis beispielsweise, dass ein Fußgänger in einer Abbildung zu sehen ist, so kann der zugehörige Bildausschnitt in einer zu einem späteren Zeitpunkt erfassten Abbildung ebenfalls ausgewählt werden. Es kann hierbei vorgesehen sein, dass das Auswählen der Teilmengen bzw.

Bildausschnitte auf Grundlage von Salienzverfahren erfolgt (Human Salience oder Machine Salience, z.B. Optical Flow, trainierte Salienzverfahren, Heatmappingverfahren bei einem vorherigen Zeitschritt usw.).

In einem Verfahrensschritt 303 wird ein Datenstapel erzeugt. Der Datenstapel umfasst Stapelelemente, die jeweils aus den ausgewählten Teilmengen erzeugt werden.

Es kann in den Verfahrensschritten 302 bzw. 303 vorgesehen sein, dass eine Anzahl von Stapelelementen des Datenstapels in Abhängigkeit einer beim Anwenden des trainierten tiefen Neuronalen Netzes zur Verfügung stehenden Rechenleistung und/oder einer maximal möglichen Latenzzeit festgelegt wird. Die zur Verfügung stehende Rechenleistung und/oder die maximal mögliche Latenzzeit sind beispielsweise durch eine Hardware eines Fahrzeugs vorgegeben. Die Anzahl der Stapelelemente wird dann derart gewählt, dass die vorhandene Rechenleistung und/oder die maximal mögliche Latenzzeit zu keinem Zeitpunkt voll ausgeschöpft werden.

In einem Verfahrensschritt 304 wird das trainierte tiefe Neuronale Netz auf den Datenstapel angewendet. Hierzu wird für jedes Stapelelement eine Instanz des trainierten tiefen Neuronalen Netzes erzeugt und jeder Instanz dann eines der Stapelelemente zugeführt. Die einzelnen Instanzen liefern dann zu jedem Stapelelement, das heißt zu jeder Teilmenge bzw. jedem Bildausschnitt, ein inferiertes Ergebnis. Die inferierten Ergebnisse werden zu einem

Inferenzergebnis zusammengefasst. Das Zusammenfassen kann hierbei beispielsweise auch ein maskenbasiertes Erzeugen einer einzigen Abbildung aus den Teilmengen bzw. den einzelnen inferierten Ergebnissen umfassen, sodass eine einzige Abbildung mit den zugehörigen inferierten Ergebnissen bereitgestellt werden kann. Beispielsweise kann auf diese Weise eine Abbildung mit darin klassifizierten Objekten und zugehörigen Objektpositionen bereitgestellt werden. ln einem Verfahrensschritt 305 wird das Inferenzergebnis ausgegeben, beispielsweise als digitales Datenpaket. Das Inferenzergebnis bzw. das digitale Datenpaket können anschließend einem Assistenzsystem eines Fahrzeugs bereitgestellt werden.

Anschließend ist das Verfahren beendet 400.

Es kann vorgesehen sein, dass die Inferenzphase des Verfahrens anschließend wiederholt wird, wobei zu einem späteren Zeitpunkt erfasste Sensordaten ausgewertet werden.

In den in den Figuren 1 bis 3 gezeigten Ausführungsformen ist das Maschinenlernmodell 6, 6a ein tiefes Neuronales Netz 4, 4a. Prinzipiell kann das Maschinenlernmodell 6 jedoch auch anders ausgebildet sein, beispielsweise in Form einer Support Vector Machine oder in Form eines probabilistischen Modells. Die Trainingsphase und die Inferenzphase werden dann analog für diese Maschinenlernmodelle 6, 6a durchgeführt.

Bezugszeichenliste

Vorrichtung

Recheneinrichtung

Speicher

tiefes Neuronales Netz

a trainiertes tiefes Neuronales Netz

Auswahleinrichtung

Maschinenlernmodell

a trainiertes Maschinenlernmodell

0 Trainingsdaten

1 Teilmenge

2 Trainingsdatensatz

3 Datensatzelement

4 Relevanz

5 situationsabhängiger Kontext

6 Konfidenzmaß

0 Sensordaten

1 Teilmenge

2 Datenstapel

3 Stapelelement

4 Inferenzergebnis

0 Fahrzeug

1 Sensor

2 Assistenzsystem

00 Verfahrensschritt

00 Trainingsphase

01-204 Verfahrensschritte

01-305 Verfahrensschritte

00 Inferenzphase

00 Verfahrensschritt

Claims

Patentansprüche

1. Verfahren zum Betreiben eines Maschinenlernmodells (6), umfassend die folgenden Schritte während einer Trainingsphase (200):

- Empfangen von markierten mehrdimensionalen Trainingsdaten (10),

- Auswahlen von Teilmengen (11 ) aus den empfangenen Trainingsdaten (10),

- Erzeugen eines Trainingsdatensatzes (12), wobei der Trainingsdatensatz (12)

Datensatzelemente (13) umfasst, welche auf Grundlage der ausgewählten Teilmengen (11 ) erzeugt werden,

- Trainieren des Maschinenlernmodells (6) mittels des Trainingsdatensatzes (12); und/oder die folgenden Schritte während einer Inferenzphase (300):

- Empfangen von Sensordaten (20) mindestens eines Sensors,

- Auswählen von Teilmengen (21 ) aus den empfangenen Sensordaten (20),

- Erzeugen eines Datenstapels (22), wobei der Datenstapel (22) als

Stapelelemente (23) jeweils die ausgewählten Teilmengen (21 ) umfasst,

- Anwenden des oder eines gemäß den Schritten der Trainingsphase (200) trainierten Maschinenlernmodells (6a) auf jedes Stapelelement (23) des Datenstapels (22), wobei das Anwenden zeitgleich erfolgt, und Ableiten eines Inferenzergebnisses (24),

- Ausgeben des Inferenzergebnisses (24).

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass das Maschinenlernmodell (6, 6a) ein tiefes Neuronales Netz (4, 4a) ist.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das Auswählen der Teilmengen (1 1 , 21 ) während der Trainingsphase (200) und/oder während der

Inferenzphase (300) auf Grundlage einer Relevanz (14) der jeweiligen Teilmengen (11 , 21 ) erfolgt.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das

Auswählen der Teilmengen (1 1 , 21 ) aus den Trainingsdaten (10) und/oder den empfangenen Sensordaten (20) zusätzlich oder alternativ auf Grundlage eines situationsabhängigen Kontextes (15) erfolgt.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass für das Maschinenlernmodell (6, 6a) mindestens ein Konfidenzmaß (16) ermittelt und/oder ausgegeben wird, wobei das mindestens eine Konfidenzmaß für mindestens zwei ausgewählte Teilmengen (11 , 21 ) und/oder Stapelelemente (23) separat ermittelt und/oder ausgeben wird.

6. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass zum Trainieren des Maschinenlernmodells (6) die Datensatzelemente (13) im

Trainingsdatensatz (12) zu einer Matrix zusammengefasst werden, wobei die zum Trainieren notwendigen Rechenoperationen auf der Matrix ausgeführt werden und/oder

dass zum Anwenden des trainierten Maschinenlernmodells (6a) die Stapelelemente (23) im Datenstapel (22) zu einer Matrix zusammengefasst werden, wobei die zum Inferieren notwendigen Rechenoperationen auf der Matrix ausgeführt werden.

7. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass eine Datenauflösung am Eingang des Maschinenlernmodells (6) und/oder eine Anzahl von Stapelelementen (23) des Datenstapels (22) in Abhängigkeit einer beim Anwenden des trainierten Maschinenlernmodells (6a) zur Verfügung stehenden Rechenleistung und/oder einer maximal möglichen Latenzzeit festgelegt wird.

8. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass beim Trainieren des Maschinenlernmodells (6) eine Zielfunktion für mindestens eine der Teilmengen (1 1 ) separat gewählt oder vorgegeben wird.

9. Vorrichtung (1 ) zum Betreiben eines Maschinenlernmodells (4, 4a), umfassend:

eine Recheneinrichtung (2) mit einem Speicher (3), in dem das Maschinenlernmodell (6, 6a) ausgebildet ist,

wobei die Recheneinrichtung (2) dazu eingerichtet ist, die folgenden Schritte während einer Trainingsphase (200) durchzuführen:

- Empfangen von markierten mehrdimensionalen Trainingsdaten (10),

- Auswählen von Teilmengen (11 ) aus den Trainingsdaten (10),

- Erzeugen eines Trainingsdatensatzes (1 1 ), wobei der Trainingsdatensatz (1 1 )

- Trainieren des Maschinenlernmodells (6) mittels des Trainingsdatensatzes (1 1 ); und/oder die folgenden Schritte während einer Inferenzphase (300) durchzuführen:

- Empfangen von Sensordaten (20) mindestens eines Sensors (51 ),

- Auswahlen von Teilmengen (21 ) aus den empfangenen Sensordaten (20),

- Erzeugen eines Datenstapels (22), wobei der Datenstapel (22) als

Stapelelemente (23) jeweils die ausgewählten Teilmengen (21 ) umfasst,

- Ausgeben des Inferenzergebnisses (24).

10. Vorrichtung (1 ) nach Anspruch 9, dadurch gekennzeichnet, dass das

Maschinenlernmodell (6, 6a) ein tiefes Neuronales Netz (4, 4a) ist.

11. Fahrzeug (50), umfassend mindestens eine Vorrichtung (1 ) gemäß Anspruch 9 oder 10.

12. Computerprogramm mit Programmcode-Mitteln, um alle Schritte von jedem beliebigen der Ansprüche 1 bis 8 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.

13. Computerprogrammprodukt mit Programmcode-Mitteln, die auf einem computerlesbaren Datenträger gespeichert sind, um das Verfahren nach jedem beliebigen der Ansprüche 1 bis 8 durchzuführen, wenn das Programmprodukt auf einem Computer ausgeführt wird.