WO2022214414A1

WO2022214414A1 - Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien

Info

Publication number: WO2022214414A1
Application number: PCT/EP2022/058831
Authority: WO
Inventors: Georg Schneider; Nils MURZYN; Vijay PARSI; Firas MUALLA
Original assignee: Zf Friedrichshafen Ag
Priority date: 2021-04-07
Filing date: 2022-04-04
Publication date: 2022-10-13
Also published as: DE102021203440A1; EP4320408A1

Abstract

Computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajektorien umfassend die Schritte: Prozessieren eines ersten Maschinenlernmodells (IntCNN) (V3), das als Eingabe die hybride Szenen-Repräsentation (HSRV) erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den statischen (stat) und dynamischen(dyn) Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells (IntCNN) auf die erste Schicht (A,B, C), die zweite Schicht (D, E) und die dritte Schicht (F, G, H) angewendet wird und eine Einbettung (M) der starren statischen Umfeldmerkmale (stat_1), der zustandswechselnden statischen Umfeldmerkmale (stat_2) und der dynamischen Umfeldmerkmale (dyn) erzeugt wird und die Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben wird.

Description

Computerimplementiertes Verfahren, Computerproqramm und Anordnung zum

Vorhersagen und Planen von Trajektorien

Die Erfindung betrifft ein computerimplementiertes Verfahren, ein Computerpro gramm und eine Anordnung zum Vorhersagen und Planen von Trajektorien.

Im Rahmen von AD/ADAS-Anwendungen, aber auch im Umfeld von Industrie 4.0 und kollaborativer Mensch -Roboter-Interaktion, reicht eine reine sensorielle Erfas sung der Umwelt nicht aus. Vielmehr wird die zeitliche Vorhersage der Weiterent wicklung der dynamischen Szene mit all ihren eigenständigen Interakteuren, zum Beispiel Personen, Fahrzeuge, Radfahrer, immer wichtiger, um intelligente Entschei dungen für beispielsweise automatisierte Fahrzeuge treffen zu können. H ierbei ist nicht nur die Interaktion aller Interakteure, beispielsweise Verkehrsteilnehmer, unter einander wichtig, sondern auch die Interaktion dieser mit ihrer direkten Umwelt, zum Beispiel dem Verkehrsraum und/oder der Infrastruktur.

Um eine verlässliche und leistungsstarke Szenen-Vorhersage gewährleisten zu kön nen, müssen alle diese expliziten, impliziten, regional geprägten und ereignisgepräg ten Regeln/Informationen in Betracht gezogen werden und zur zeitlichen Vorhersage herangezogen werden. Die deutsche Patentanmeldung mit dem Aktenzeichen 10 2020210 379.8 offenbart eine hybride Szenen-Repräsentation, die Interaktionen zwi schen statischen und dynamischen Objekten und/oder Informationen modelliert.

Weiterer Stand der Technik ist in

• Yibiao Zhao, Yizhou Wang, and Ying Nian Wu: Multi-agent tensor fusion for contextual trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019 und

• Nachiket Deo and Mohan M. Trivedi: Convolutional social pooling for vehicle trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2018 offenbart. Der Erfindung lag die Aufgabe zugrunde, wie eine auf die hybride Szenen-Repräsen- tation aufbauende Verarbeitung verbessert werden kann, um eine verbesserte Bewe gungsplanung für Verkehrsteilnehmer, beispielsweise automatisierte Fahrsysteme, zu ermöglichen, beispielsweise eine zeitliche Vorhersage von allen Verkehrsteilneh mern über mehrere Zeitschritte in die Zukunft.

Die Gegenstände der Ansprüche 1 , 13 und 14 lösen jeweils diese Aufgabe dadurch, dass die Interaktions-Modellierung von Verkehrsteilnehmern umfassend automati sierte Fahrsysteme über den gesamten Verkehrsraum und über eine vorgegebene Zeit in der Vergangenheit mit der Fusionierung der Historie der Verkehrsteilnehmer mit allen statischen und dynamischen Teilen der Szene die Vorhersage von allen Verkehrsteilnehmern für eine bestimmte Zeit in die Zukunft ermöglicht.

Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Vorher sagen und Planen von Trajektorien. Das Verfahren umfasst die Schritte

• räumliches Zusammenführen von bereitgestellten kodierten statischen und dy namischen Umfeldmerkmalen und Erhalten einer hybriden Szenen-Repräsen- tation umfassend wenigstens eine erste Schicht umfassend starre statische Umfeldmerkmale, eine zweite Schicht umfassend zustandswechselnde stati sche Umfeldmerkmale und eine dritte Schicht umfassend die dynamischen Umfeldmerkmale umfassend Trajektorienhistorien von Verkehrseilnehmern umfassend jeweils wenigstens Positionen der Verkehrsteilnehmer in Abhän gigkeit der Zeit;

• Prozessieren eines ersten Maschinenlernmodells, das als Eingabe die hybride Szenen-Repräsentation erhält und trainiert ist oder mittels Referenz-Vorhersa gen trainiert wird, Interaktionen zwischen den statischen und dynamischen Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinen lernmodells auf die erste Schicht, die zweite Schicht und die dritte Schicht an gewendet wird und eine Einbettung der starren statischen Umfeldmerkmale, der zustandswechselnden statischen Umfeldmerkmale und der dynamischen Umfeldmerkmale erzeugt wird und die Einbettung von dem Maschinenlernmo dell ausgegeben wird; • Bestimmen von Verkehrsteilnehmer-spezifischen Interaktionen aus der ge meinsamen Einbettung und Fusionieren dieser mit den Verkehrsteilnehmer spezifischen dynamischen Umfeldmerkmalen für jeden der Verkehrsteilneh mer und Erhalten einer Verkehrsteilnehmer-spezifischen Einbettung für jeden der Verkehrsteilnehmer;

• Dekodieren der Verkehrsteilnehmer-spezifischen Einbettungen und Erhalten von vorhergesagten Trajektorien für jeden der Verkehrsteilnehmer, wobei ein zelne der Trajektorienhistorien jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.

Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm zum Vorhersagen und Planen von Trajektorien. Das Computerprogramm umfasst Befehle, die bewir ken, dass ein Computer, umfassend einen Computer eines Steuergeräts eines Fahr systems für automatisierte Fahrfunktionen, die Schritte des erfindungsgemäßen Ver fahrens ausführt, wenn das Computerprogramm auf dem Computer läuft.

Ein weiterer Aspekt der Erfindung betrifft eine Anordnung zum Vorhersagen und Pla nen von Trajektorien. Die Anordnung umfasst

• einen RNN-Kodierer, der dynamische Umfeldmerkmale umfassend Trajektori enhistorien von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Daten kodiert;

• einen CNN-Kodierer, der Szenen-Informationen umfassend starre statische Umfeldmerkmale und zustandswechselnde statische Umfeldmerkmale kodiert;

• ein Interaktions-Tensor-Pooling-Modul, das die Kodierungen des RNN- und CNN-Kodierers zusammenführt und eine hybride Szenen-Repräsentation um fassend wenigstens eine erste Schicht umfassend die starren statische Um feldmerkmale, eine zweite Schicht umfassend die zustandswechselnden stati sche Umfeldmerkmale und eine dritte Schicht umfassend dynamische Umfeld merkmale umfassend die Trajektorienhistorien erzeugt;

• ein CNN-Interaktionsnetzwerk, das basierend auf der hybriden Szenen-Reprä sentation Interaktionen zwischen den statischen, dynamischen und zwischen den statischen und dynamischen Umfeldmerkmalen bestimmt, wobei das CNN-Interaktionsnetzwerk eine erste Tensor-Einbettung der starren statischen Umfeldmerkmale, eine zweite Tensor-Einbettung der zustandswechselnden statischen Umfeldmerkmale und eine dritte Tensor-Einbettung der dynami schen Umfeldmerkmale erzeugt und die erste, zweite und dritte Tensor-Ein bettung in einen Multi-Agenten-Szenen-Tensor zusammengeführt;

• ein Interaktions-Vektor-Extraktions-Modul, das pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extrahiert, mit der dritten Tensor- Einbettung des Verkehrsteilnehmers fusioniert und pro Verkehrsteilnehmer und pro Szene eine Multi-Agenten-Szenen-Einbettung erzeugt;

• einen RNN-Trajektorien-Dekodierer, der die Multi-Agenten-Szenen-Einbettung dekodiert und pro Verkehrsteilnehmer Trajektorien vorhersagt und ausgibt;

• einen RNN- Wahrscheinlichkeits-Dekodierer, der die Multi-Agenten-Szenen- Einbettung dekodiert und pro Verkehrsteilnehmer Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechen den Wert ausgibt.

Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausfüh rungsbeispiele.

Verkehrsteilnehmer umfassen Interakteure in Szenen einer Umwelt, beispielsweise in Szenen eines Verkehrsraus. Verkehrsteilnehmer sind beispielsweise Personen, wie etwa Fußgänger, Fahrzeuge, Fahrsysteme, und Fahrradfahrer. Fahrsysteme umfas sen automatisierte Fahrsysteme von automatisierte bis autonome Fahrzeuge, Stra ßenfahrzeuge, People Mover, Shuttles, Roboter und Drohnen. Zu Verkehrsteilneh mern zählen auch intelligente Agenten, beispielsweise selbstfahrende Fahrzeuge o- der Roboter.

Räumliches Zusammenführen bedeutet beispielsweise, dass räumliche Koordinaten der Verkehrsteilnehmer und/oder der Umfeldmerkmale in Pixeln der hybriden Sze- nen-Repräsentation dargestellt werden, wobei ein Pixel in jeder der Schichten der hybriden Szenen-Repräsentation einer gleichen Streckenlänge entspricht. Nach ei nem weiteren Aspekt der Erfindung werden die Umfeldmerkmale in Pixeln der Schichten und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten oder relativ zu einem Referenzpunkt dargestellt. Die Merkmalsvektoren haben einen vorgegebe nen räumlichen Ankerpunkt. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale als Pixelwerte interpretiert. Nach einem weiteren Aspekt der Erfin dung wird in jeder Schicht eine räumliche Lage der Umfeldmerkmale über eine kor respondierende Position in einer Karte erfasst. Dies ist vorteilhaft für eine räumlich korrespondierende Anordnung der Umfeldmerkmale.

Umfeldmerkmale umfassen Häuser, Straßen, insbesondere Straßengeometrie und/o der -zustand, Schilder, Spurmarkierungen, Vegetation, bewegliche Verkehrsteilneh mer, Fahrzeuge, Fußgänger, Fahrradfahrer.

Statische Umfeldmerkmale werden in zwei weitere Kategorien unterteilt. Elemente, die sich quasi nicht oder nur nach längeren Zeiträumen ändern, wechseln ihren Zu stand kurzfristig nicht und werden als starr bezeichnet. Die starren statischen Um feldmerkmale werden in der ersten Schicht angeordnet. Im Gegensatz dazu stehen Elemente, die den Zustand häufig wechseln können und somit zustandswechselnd sind. In die letztere Kategorie werden zum Beispiel Ampeln oder Wechselverkehrs zeichen eingeordnet. Die zustandswechselnden starren Umfeldmerkmale werden in der zweiten Schicht angeordnet.

Dynamische Umfeldmerkmale betreffen die beweglichen Verkehrsteilnehmer einer Szene. Hierbei werden die Koordinaten der Verkehrsteilnehmer umfassend Positio nen und/oder Orientierungen über einen bestimmten Zeitraum genutzt, um Trajektori- enhistorien zu generieren. Nach einem Aspekt der Erfindung werden hier Parameter eines Fahrdynamik- oder Bewegungsdynamikmodells verwendet, beispielsweise mit tels Kalman-Filter. Die Verkehrsteilnehmer werden basierend auf der letzten Koordi nate räumlich angeordnet und bilden die dritte Schicht der dynamischen Umfeldmerk male.

Die hybride Szenen-Repräsentation schichtet ein Szenario in mehrere Schichten. Ein reales Szenario wird als Hybrid von statischen und dynamischen Informationen dar gestellt. In diesem Zusammenhang wird die erfindungsgemäße Umfeldszenen- Repräsentation auch hybride Szenen-Repräsentation zur Vorhersage, abgekürzt HSRV, genannt. Das Szenario ist beispielsweise ein Bild mit i Pixeln in x-Richtung und j Pixeln in y-Richtung, in dem die räumlichen Koordinaten der Verkehrsteilneh mer in Pixeln dargestellt werden. Die einzelnen Schichten können ebenfalls als Bilder dargestellt werden und sind deckungsgleich zueinander angeordnet, beispielsweise liegen die Schichten deckungsgleich räumlich übereinander. Die erfindungsgemäße hybride Szenen-Repräsentation ist als ein Stapel übereinander liegender digitaler Fo tos, beispielsweise von einer Kreuzungssituation aufgenommen aus der Vogelper spektive, vorstellbar. Andererseits wird dieser Stapel mit Bildern kombiniert mit weite ren Schichten von zum Teil rein semantischen Informationen, die zum Beispiel als reine Merkmalsvektoren repräsentiert sind.

Der Vorteil der erfindungsgemäßen hybriden Szenen-Repräsentation besteht darin, dass eine sehr große und sehr flexible Menge an Informationen bereitgestellt wird, auf die das erste Maschinenlernmodell zugreifen kann. Innerhalb der Trainingsphase, in der die variablen Parameter/Gewichte des ersten Maschinenlernmodells eingestellt werden, bildet sich dann die Verwendung der speziellen Informationen heraus, die am besten dazu geeignet ist, die Aufgabe der Vorhersage zu lösen.

Nach einem Aspekt der Erfindung umfasst die hybride Szenen-Repräsentation eine erste Schicht umfassend die regionalen Informationen zum Verhalten der Verkehrs teilnehmer und/oder Wetterinformationen, eine zweite Schicht umfassend Kartenin formationen zur Bestimmung der Positionen der Verkehrsteilnehmer, eine dritte Schicht umfassend Verkehrsregelinformationen, eine vierte Schicht umfassend die Verkehrsweiser, eine fünfte Schicht umfassend Ankertrajektorien, eine sechste Schicht umfassend semantisch-explizite Informationen, eine siebte Schicht umfas send semantisch-latente Informationen und eine achte Schicht umfassend die Bewe gungsinformationen. Damit werden unter anderem explizite, implizite, regional ge prägte und Ereignis geprägte Informationen berücksichtigt und damit die Vorhersage und weitere Planung von Trajektorien verbessert, wie beispielsweise in den folgen den drei Absätzen detailliert beschrieben ist. Die erste bis dritte Schicht umfassen die starren statischen Umfeldmerkmale. Regio nale Informationen und/oder Wetterinformationen verbessern die Vorhersagegüte. Je nach der Region unterscheidet sich beispielsweise das Verhalten der Verkehrsteil nehmer. Beispielsweise werden in Deutschland Verkehrsregeln relativ stark eingehal ten, in Italien eher mild, in Großbritannien wird von rechts überholt, usw. Positionsda ten des Verkehrsteilnehmer und/oder der Umfeldmerkmale werden über Karteninfor mationen erfasst. Ein Kartenausschnitt wird gebildet, indem jedem Pixel der Kartenin formation entsprechenden Schicht der Umfeldszenen-Repräsentation ein Wert zuge ordnet wird. Die Werte basieren auf diskreten Labein der Karte, beispielsweise Zah lencodes für Straße, Fußgängerweg, unterbrochene Linie, Doppellinie, usw. Neben der Karte werden die Vorfahrtsregeln über die Verkehrsregelinformationen abgebil det. Hierzu wird in der Mitte einer jeden Fahrbahn eine Linie gezogen. An Kreuzun gen werden zusätzlich Linien gezogen, die alle zulässigen Manöver darstellen. Nach einem Aspekt der Erfindung werden implizit geregelte Information wie beispielsweise “Rechts vor Links” mit der Beschilderung überlagert. Gegebenenfalls widersprüchli che Regelinformationen werden in dieser Schicht zu einer konsistenten Regel aggre giert, so dass die dann geltenden Regeln als vorrangig behandelt werden.

Die vierte bis fünfte Schicht umfassen die zustandswechselnden statischen Umfeld merkmale. Verkehrsweiser umfassen zustandswechselnde und zustandsbehaftende Verkehrsweiser. Mit zustandswechselnden Verkehrsweisern werden meist optisch an den Fahrer übergebene Signale, die ihren Zustand im Laufe eines Tages mehrmals wechseln können, zusammengefasst. Beispiele dieser Kategorie sind Ampeln, Wech selverkehrszeichen auf Autobahnen und Einfahrtsanzeigen an Mautstellen. Diese Verkehrsweiser werden als den aktuellen Zustand repräsentierender Pixelwert in dem räumlichen Kontext der Umfeldszenen-Repräsentation dargestellt. Aus Gründen der Redundanz werden solche Pixelregionen in der Regel nicht auf ein Pixel be schränkt, sondern auf eine größere Anzahl von Pixel abgebildet. Die genaue Größe der Ausdehnung wird zumeist auch aus Daten auf ein Optimum angelernt. Die Anker- trajektorien kombinieren Information aus den Vorfahrtsregeln und aus den zustands wechselnden Verkehrsweisern. Die so ermittelten Ankertrajektorien werden nach ei nem Aspekt der Erfindung mit den Regeln der zustandswechselnden Verkehrsweiser in Einklang gebracht und entsprechend priorisiert. Die Schicht der Ankertrajektorien kann nach einem Aspekt der Erfindung je nach zeitlicher Anforderung an den Ver kehrsteilnehmer, beispielsweise an das Fahrsystem, die Schichten der Verkehrswei ser und/oder der Verkehrsregelinformationen ergänzen oder ersetzen.

Die sechste bis achte Schicht umfassen die dynamischen Umfeldmerkmale. Seman tisch-explizite Informationen umfassen Fahrzeugklasse, beispielsweise LKW, PKW, Motorrad, Bus, Shuttle, Fahrrad, Fußgänger, Höhe und/oder Breite der Objekte und/oder Zustände der Blinklichter. Semantisch-latente Informationen sind vom Men schen nicht direkt interpretierbar, sondern in gewisser Weise implizit in den Daten enthalten. Die latenten Informationen sind beispielsweise kontinuierliche Zahlen, mit denen die Robustheit gegenüber Rauschsignalen diskreter Klassen erhöht wird, bei spielsweise wenn eine diskrete Klassifizierung zwischen LKW und PKW schwankt. Die Bewegungsinformationen der achten Schicht umfassen die Trajektorienhistorien.

Das Bestimmen der Interaktionen umfasst ein Vorhersagen von möglichen zukünfti gen Interaktionen, nach einem Aspekt der Erfindung basierend auf den acht Schich ten der hybriden Szenen-Repräsentation. Interaktionen betreffen jegliche Wechsel wirkungen zwischen statischen und statischen, statischen und dynamischen und dy namischen und dynamischen Umfeldmerkmalen. In einem beispielhaften Szenario mit Interaktionen befindet sich ein PKW an einer Einmündung. An der Einmündung befindet sich ein Fußgänger. Die Vorfahrt wird über eine Ampel geregelt. Eine Inter aktion ist die Ampelschaltung. Zeigt die Ampelschaltung beispielsweise dem PKW die grüne Ampelphase an und dem Fußgänger die rote Ampelphase, dann sind die weiteren, gelernten oder in den Trajektorienhistorien vorhandenen, Interaktionen, dass der Fußgänger stehen bleibt und der PKW in die Einmündung einfährt.

Das erste Maschinenlernmodell wird beispielsweise mit Datenpaaren der Form

(HSRV_1 , GT_1 ), (HSRV_2, GT_2) . (HSRV_T, GT_T) trainiert. T gibt die Anzahl der Trainingsdatenpaare an. HSRV ist die jeweilige hybride Szenen-Repräsentation, auf deren Basis die Interaktionen und damit die Trajektorien vorhergesagt werden.

GT ist die jeweilige Referenz-Vorhersage, auch ground truth genannt, das heißt die Soll-Vorhersage. Die optimalen Parameter für das erste Maschinenlernmodell umfas send Werte für Gewichte werden dann durch ein Optimierungsverfahren, beispielsweise Gradient Descent, bestimmt. Die Parameter sind optimal, wenn die Abweichung der Ist-Vorhersagen, ausgegeben von dem ersten Maschinenlernmo dell, von den Soll-Vorhersagen minimiert ist.

Der Vorteil des erfindungsgemäßen Prozessierens der hybriden Szenen-Repräsenta- tion besteht darin, dass sich Informationen in der zweiten Schicht häufiger ändern als in der ersten Schicht. Durch die Erzeugung der ersten und zweiten Einbettung, wobei die erste und zweite Funktion unterschiedliche Aktualisierungsraten zur Laufzeit ha ben, wird die Inferenzzeit des ersten Maschinenlernmodells reduziert. Damit wird die gemeinsame Einbettung, das heißt eine Art endgültige Szenen Einbettung, schneller erzeugt.

Die Einbettung ist beispielsweise eine Einbettung in einen Merkmalsraum, in dem je der der Verkehrsteilnehmer über Koordinaten identifizierbar ist. Da die Einbettung hinsichtlich der räumlichen Auflösung die gleiche Dimensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrsteilnehmer die zur Einordnung in die hybride Szenen-Repräsentation verwendeten Koordinaten genutzt werden, um die für den Verkehrsteilnehmer relevanten Informationen aus der gemeinsamen Ein bettung zu erhalten. Die Verkehrsteilnehmer-spezifischen Interaktionen werden aus der Einbettung beispielsweise dadurch bestimmt, dass für jeden der Verkehrsteilneh mer Merkmale, auch features genannt, der gemeinsamen Einbettung an der den Ko ordinaten des jeweiligen Verkehrsteilnehmers entsprechenden Stelle extrahiert wer den. Diese Merkmale umfassen alle für den jeweiligen Verkehrsteilnehmer relevan ten Interaktionen. Durch Fusionieren dieser Merkmale mit den jeweiligen Verkehrs teilnehmer-spezifischen dynamischen Merkmale wird die Vorhersage von Trajekto- rien für den jeweiligen Verkehrsteilnehmer basierend auf allen Interaktionen der ge meinsamen Einbettung berechnet.

Dadurch, dass einzelne, nach einem Aspekt der Erfindung jede, der Trajektorienhis- torien auf mehrere mögliche vorhergesagte Trajektorien dekodiert werden, wird eine Vielzahl von möglichen Zukunftsmodi berechnet, das heißt es entsteht ein one-to- many-mapping. Das erste Maschinenlernmodell lernt Wahrscheinlichkeitsdichtefunk tionen der unterschiedlichen Modi. Damit wird das one-to-many-mapping explizit durch Lernen von mehreren Modi abgeschätzt im Gegensatz zu einer impliziten Ab schätzung mittels generativen adversariellen Netzwerken. Das ist vorteilhaft für ein Trainingsverfahren des ersten Maschinenlernmodells, da sonst das Mode-Collapse- Problem das Training beeinträchtigen würde.

Die Befehle des erfindungsgemäßen Computerprogramms umfassen Maschinenbe fehle, Quelltext oder Objektcode geschrieben in Assemblersprache, einer objektori entierten Programmiersprache, beispielsweise C++, oder in einer prozeduralen Pro grammiersprache, beispielsweise C. Das Computerprogramm ist nach einem Aspekt der Erfindung ein Hardware unabhängiges Anwendungsprogramm, das beispiels weise über einen Datenträger oder ein Datenträgersignal mittels Software Over The Air Technologie bereitgestellt wird.

Das Interaktions-Tensor-Pooling-Modul und das Interaktions-Vektor-Extraktions-Mo- dul umfassen Software- und/oder Hardwarekomponenten. Nach einem Aspekt der Erfindung bezieht sich die Anordnung auf Recheneinheiten, die die einzelnen Kodie rer, Dekodierer, Netzwerke und Module ausführen. Nach einem weiteren Aspekt der Erfindung umfassen die Dekodierer der Anordnung einen Aufmerksamkeitsmecha nismus. Nach einem weiteren Aspekt der Erfindung führt die Anordnung das erfin dungsgemäße Verfahren oder das erfindungsgemäße Computerprogramm aus.

Nach einem weiteren Aspekt der Erfindung wird eine erste Funktion des ersten Ma schinenlernmodells auf die erste Schicht angewendet und eine erste Einbettung der starren statischen Umfeldmerkmale wird erzeugt. Eine zweite Funktion wird auf die zweite Schicht angewendet und eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale wird erzeugt. Eine dritte Funktion wird auf die dritte Schicht angewendet wird und eine dritte Einbettung der dynamischen Umfeldmerk male wird erzeugt. Die erste, zweite und dritte Einbettung werden zusammengeführt werden und als eine gemeinsame Einbettung von dem Maschinenlernmodell ausge geben. Der Begriff Einbettung bezieht sich sowohl auf die Einbettung, die mit der Funktion erzeugt wird, die auf alle Schichten gemeinsam angewendet wird, als auch auf die gemeinsame Einbettung. Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeld merkmale durch Schichten eines ersten künstlichen neuronalen Netzwerks prozes siert und in einen ersten Tensor eingebettet werden. Die zustandswechselnden stati schen Umfeldmerkmale werden durch Schichten eines zweiten künstlichen neurona len Netzwerks prozessiert und in einen zweiten Tensor eingebettet. Die dynamischen Umfeldmerkmale werden durch Schichten eines dritten künstlichen neuronalen Netz werks prozessiert und in einen dritten Tensor eingebettet. Die gemeinsame Einbet tung ist ein vierter Tensor erhalten aus einer räumlichen Konkatenation des ersten, zweiten und dritten Tensors.

Das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neurona len Netzwerks ist eine Ausführungsform der ersten, zweiten und dritten Funktion. Ak tivierungsfunktionen von Neuronenverbindungen sind beispielsweise nicht-lineare Funktionen. Damit stellen das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neuronalen Netzwerks nicht-lineare Funktionen dar.

Tensoren umfassen beispielsweise Skalare, Vektoren, Kovektoren und Matrizen. Nach einem Aspekt der Erfindung unterscheiden sich der erste, zweite und dritte Tensor in einer semantischen Tiefe. Der vierte Tensor stellt einen Multi-Agenten-Sze- nen-Tensor dar, wobei die Agenten den Verkehrsteilnehmern entsprechen und die Fahrsysteme umfassen. Der Multi-Agenten-Szenen-Tensor wird also basierend auf der hybriden Szenen-Repräsentation mit dem ersten Maschinenlernmodell berechnet und modelliert die gesamten Interaktionen eines Szenarios. In diesem Zusammen hang wir das erste Maschinenlernmodell auch Interaktionsnetzwerk genannt. Da der Multi-Agenten-Szenen-Tensor hinsichtlich der räumlichen Auflösung die gleiche Di- mensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrs teilnehmer die zur Einordnung der jeweiligen Tensoren in die hybride Szenen-Reprä sentation verwendeten Koordinaten genutzt werden, um die für die Verkehrsteilneh mer relevanten Informationen aus der gemeinsamen Einbettung zu erhalten. Flierzu werden die Merkmale oder features des Multi-Agenten-Szenen-Tensors an eben der diesen Koordinaten entsprechenden Stelle genutzt und bilden so pro Verkehrsteil nehmer eine Multi-Agenten-Szenen-Einbettung. Da für jeden Verkehrsteilnehmer alle für den jeweiligen Verkehrsteilnehmer relevanten Interaktionen mittels des Multi- Agenten-Szenen-Tensors betrachtet werden, wird die Multi-Agenten-Szenen-Einbet- tung auch joint multi agent scene embedding genannt, abgekürzt JoMASE.

Erfindungsgemäß wird der Multi-Agenten-Szenen-Tensor genutzt, um pro Verkehrs teilnehmer einer Szene eine Multi-Agenten-Szenen-Einbettung zu generieren. Hier bei werden pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Ten- sors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extra hiert und mit der dritten Einbettung des Verkehrsteilnehmers fusioniert. Nach einem Aspekt der Erfindung kann die Fusion früher stattfinden. Dieses Extrahieren wird auch Interaktions-Vektor-Extraktion genannt. Jeder Verkehrsteilnehmer, insbeson dere jedes Fahrsystem, entspricht einem Vektor in dem Multi-Agenten-Szenen-Ten- sor. Damit werden die Verkehrsteilnehmer-, insbesondere die Fahrsystem-spezifi schen Einbettungen erhalten.

Nach einem Aspekt der Erfindung werden die kodierten dynamischen Umfeldmerk male aus der Vogelperspektive in einem räumlichen Tensor platziert, der mit 0 initiali siert ist und die gleiche Form, beispielsweise Breite und Höhe, hat wie das Bild der kodierten statischen Umfeldmerkmale. Dabei werden die kodierten dynamischen Um feldmerkmale umfassend die Trajektorienhistorien in den räumlichen Tensor in Be zug auf ihre Positionen im letzten Zeitschritt ihrer vergangenen Trajektorien platziert. Dieser Tensor wird dann mit dem Bild der kodierten statischen Umfeldmerkmale kon- kateniert und die hybride Szenen-Repräsentation wird als ein kombinierter Tensor er halten. Diese Informationskombination ist ein Tensor-Pooling-Verfahren und wird In- teraktions-Tensor-Pooling genannt. Dieser kombinierte Tensor wird von dem ersten Maschinenlernmodell prozessiert, das die Interaktionen zwischen den Verkehrsteil nehmern und zwischen den Verkehrsteilnehmern und den statischen Umfeldmerkma len erfindungsgemäß unter Beibehaltung der Lokalität bestimmt und den Multi-Agen- ten-Szenen-Tensor ausgibt.

Nach einem weiteren Aspekt der Erfindung umfasst das erste Maschinenlernmodell Sprungverbindungen, durch die Schichten beim Prozessieren des Maschinenlernmo dells übersprungen werden, beispielsweise zwei- oder dreifacher Schichtensprung. Die Sprungverbindungen werden auch skip-connections genannt. Die Sprungverbindungen machen vorteilhafterweise high-level features der Interaktion zugänglich. Nach einem Aspekt der Erfindung umfassen die Sprungverbindungen re siduale Verbindungen, die eine Restfunktion in Bezug auf die Schichteingänge lernt, wie beispielsweise in residualen neuronalen Netzwerken verwendet. Nach einem weiteren Aspekt der Erfindung umfassen die Sprungverbindungen verkettete Sprung verbindung. Eine verkettete Sprungverbindung versucht, Merkmale wiederzuverwen den, indem sie zu neuen Schichten verkettet werden, so dass mehr Informationen aus vorherigen Schichten des Netzwerks erhalten bleiben. Dies steht im Gegensatz zu beispielsweise den residualen Verbindungen, bei denen stattdessen eine ele mentweise Summierung verwendet wird, um Informationen aus früheren Schichten zu übernehmen.

Nach einem weiteren Aspekt der Erfindung wird der vierte Tensor durch Schichten eines vierten künstlichen neuronalen Netzwerks prozessiert. Das vierte künstliche neuronale Netzwerk gibt ein Ausgabevolumen aus, dessen Größe gleich der hybri den Szenen-Repräsentation ist. In dem Ausgabevolumen sind die Verkehrsteilneh mer basierend auf ihrer realen räumlichen Anordnung positioniert. Durch das vierte künstliche neuronale Netzwerk werden die in dem vierten Tensor, beispielsweise in dem Multi-Agenten-Szenen-Tensor, enthaltenen Informationen fusioniert.

Nach einem weiteren Aspekt der Erfindung werden die Einbettungen mit Faltungs netzwerken erzeugt. Nach einem weiteren Aspekt der Erfindung ist das erste Maschi nenlernmodell ein Faltungsnetzwerk. Nach einem weiteren Aspekt der Erfindung sind das erste, zweite, dritte und vierte künstliche neuronale Netzwerk separate Faltungs netzwerke oder einzelne Funktionsblöcke in dem als Faltungsnetzwerk realisiertem ersten Maschinenlernmodell. Faltungsnetzwerke, auch convolutional neural networks genannt, abgekürzt CNN, sind besonders vorteilhaft zum Verarbeiten von großen Da tenmengen und von als Bilder darstellbaren Daten.

Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen von vergangen Zeitschritten der Trajektorienhistorien der Verkehrsteilnehmer in einzelnen Zeitschritten des Dekodierens unterschiedlich gewichtet. Damit wird ein Aufmerksamkeitsmechanis mus angewendet.

Ein Aspekt der Erfindung sieht ein Aufmerksamkeitsmodul oder attention layer vor, in dem Ausgaben des Enkoders akkumuliert werden. Das Aufmerksamkeitsmodul führt einen Aufmerksamkeitsalgorithmus aus, durch den während der Dekodierung der Einfluss jedes vergangenen Zeitschrittes der Trajektorienhistorien auf die aktuellen oder zukünftigen Trajektorien bewertet wird und dem Dekoder die relevantesten der vergangenen Zeitschritte der Trajektorienhistorien bereitgestellt werden.

Ein weiterer Aspekt der Erfindung sieht eine Transformer-Architektur mit self-at- tention vor, die auf sequentiellen Enkoder- und Dekoder-Blöcken mit einer ähnlichen Architektur basiert. Jeder der Enkoder-Blöcke umfasst beispielsweise eine self-at- tention Schicht und eine feed forward Schicht. Jeder der Dekoder-Blöcke umfasst beispielsweise eine self-attention Schicht, eine feed forward Schicht und eine dazwi schen angeordnete Enkoder-Dekoder-self-attention Schicht. Der self-attention Algo rithmus ist beispielsweise in D. Gizlyk, Neuronale Netze leicht gemacht (Teil 8): At tention Mechanismen, 8. Februar 2021 , https://www.mql5.com/de/artic- Ies/8765#para2, beschrieben. Transformer Architekturen basieren beispielsweise auf Bidirectional Encoder Representations from Transformers, abgekürzt BERT, oder auf Generative Pre-trained Transformer, abgekürzt GPT.

Die Aufmerksamkeitsmechanismen verbessern die Vorhersagen, insbesondere lang fristige Vorhersagen, und löst das Problem des Information morphing. Ein Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Langzeitvorher sage. Ein weiterer Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Erklärbarkeit, da es ermöglicht wird, zu jedem Zeitschritt der Dekodier- Zeit herauszufinden, welche Zeitschritte in der Vergangenheit für die Vorhersage ein flussreicher waren.

Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen in einen ersten Datenstrom, der verschiedene plausible Trajektorien vorhersagt, und in einen zweiten Datenstrom, der Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt, dekodiert. Die Wahrscheinlichkeiten basie ren auf den Trajektorienhistorien und den berechneten Interaktionen.

Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeld merkmale umfassend Karteninformationen und die zustandswechselnden statischen Umfeldmerkmale umfassend Verkehrsweiser und/oder Ankertrajektorien aus realen Daten von Umfelderkennungssensoren und/oder von Karten und/oder aus virtuellen Daten mit einem zweiten Maschinenlernmodell umfassend Schichten eines Faltungs netzwerks kodiert. Damit wird eine umfangreiche Datenbasis bereitgestellt, die ein Training der Maschinenlernmodelle verbessert. Das zweite Maschinenlernmodell ko diert die genannten statischen Umfeldmerkmale beispielsweise in eine semantische Merkmalskarte, auch feature map, genannt, in der die einzelnen Merkmale entspre chend dem Schichtaufbau der hybriden Szenen-Repräsentation, gestapelt angeord net sind. Das zweite Maschinenlernmodell ist damit ein Szenen-Informations-Kodie- rer, insbesondere ein CNN-Kodierer. Hierfür eignen sich Faltungsnetzwerke beson ders gut.

Daten von Umfelderkennungssensoren umfassen Roh- und/oder beispielsweise mit Filtern, Verstärkern, Serializern, Komprim ierungs- und/oder Konvertierungseinheiten vorverarbeitete Daten von an dem Fahrsystem angeordneten Kameras, Radarsenso ren, Lidarsensoren, Ultraschallsensoren, Akustiksensoren, Car2X-Einheiten und/oder Echtzeit-/Offlinekarten. Die virtuellen Daten werden beispielsweise mittels Software-, Hardware-, Model- und/oder Vehicle-in-the-Loop Verfahren erzeugt. Nach einem wei teren Aspekt der Erfindung werden die realen Daten virtuell augmentiert und/oder va riiert.

Nach einem weiteren Aspekt der Erfindung werden die dynamischen Umfeldmerk male umfassend die Trajektorienhistorien der Verkehrsteilnehmer, basierend auf rea len Fahrdaten und/oder auf virtuellen Daten, mit einem dritten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks kodiert. Rekurrente Netzwerke, auch recurrent neural networks genannt, abgekürzt RNN, erkennen die zeitlich ko dierten Daten in den Trajektorienhistorien. Nach einem Aspekt der Erfindung ist das rekurrente Netzwerk als ein long short-term memory Netzwerk, abgekürzt LSTM, o- der als ein gated recurrent unit Netzwerk umgesetzt. Das dritte Maschinenlernmodell ist damit ein RNN-Kodierer. Nach einem Aspekt der Erfindung wird die Kodierung des dritten Maschinenlernmodells mit der semantischen Merkmalskarte des zweiten Maschinenlernmodells überlagert.

Nach einem weiteren Aspekt der Erfindung werden die Verkehrsteilnehmer-spezifi schen Einbettungen von einem vierten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks dekodiert. Das vierte Maschinenlernmodell ist damit ein RNN-Dekodierer. Nach einem Aspekt der Erfindung wird der erste Datenstrom, der verschiedene plausible Trajektorien vorhersagt, von einem ersten RNN-Dekodierer dekodiert. Der erste RNN-Dekodierer wird Wahrscheinlichkeits-Dekodierer genannt. Der zweite Datenstrom, der die Wahrscheinlichkeiten der vorhergesagten Trajekto rien gegeneinander bewertet und einen entsprechenden Wert ausgibt, wird von ei nem zweiten RNN-Dekodierer dekodiert. Der zweite RNN-Dekodierer wird Trajekto- rien-Dekodierer genannt.

Nach einem weiteren Aspekt der Erfindung bestimmt ein Steuergerät eines der Fahr systeme für automatisierte Fahrfunktionen Regel- und/oder Steuersignale basierend auf den vorhergesagten Trajektorien und stellt diese Signale Aktuatoren für Längs und/oder Querführung des Fahrsystems bereit.

Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:

Fig. 1 eine Darstellung einer erfindungsgemäßen hybriden Szenen-Repräsentation,

Fig. 2 eine Darstellung des erfindungsgemäßen Verfahrens,

Fig. 3 eine Darstellung der erfindungsgemäßen Netzwerkarchitektur,

Fig. 4 eine Darstellung von erfindungsgemäßen Verkehrsteilnehmer-spezifischen Einbettungen und Fig. 5 eine Flussdiagramm des erfindungsgemäßen Verfahrens.

In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils rele vanten Bezugsteile hervorgehoben.

Fig. 1 zeigt beispielhaft eine erfindungsgemäße hybride Szenen-Repräsentation HSRV. In der dargestellten Umfeldszene U befindet sich ein PKW als Beispiel eines Verkehrsteilnehmers R an einer Einmündung. Der PKW ist beispielsweise das Ego- Fahrsystem. An der Einmündung befindet sich ein Fußgänger W. Die Vorfahrt wird über eine Ampel L geregelt. Die Ampelschaltung L zeigt dem PKW R die grüne Ampelphase an und dem Fußgänger W die rote. Über der Darstellung dieser Situation aus der Vogelperspektive werden die verschiedenen Schichten, die für die Vorhersage der T rajektorien der Verkehrsteilnehmer wesentlich sind, abgebildet.

In Schicht A wird die regionale Information dargestellt. Schicht B bedient sich der Karteninformation, Schicht C der Verkehrsregelinformation. Die zustandsbehafteten Verkehrsweiser und die Ankertrajektorien sind in Schicht D und Schicht E enthalten. In Schicht F werden semantische Merkmale der einzelnen Verkehrsteilnehmer beschrieben. Schicht G und Schicht H enthalten latente Information, wobei diese Information in Schicht G auf Eigenschaften, die den Verkehrsteilnehmer beschrieben, und in Schicht H auf dem dynamischen Bewegungsverhalten basiert.

Die Schichten A bis E sind statische Schichten und beschreiben statische Umfeldmerkmale stat der Umfeldszene U. Dabei beschreiben die Schichten A bis C starre statische Umfeldmerkmale stat_1 und die Schichten D und E zustandswechselnde statische Umfeldmerkmale stat_2.

Die Schichten F bis H sind dynamische Schichten und beschreiben dynamische Umfeldmerkmale dyn der Umfeldszene U.

Fig. 2 zeigt eine Darstellung des erfindungsgemäßen Verfahrens. Die statischen Umfeldmerkmale stat und die dynamischen Umfeldmerkmale dyn wurden in die hybride Szenen-Repräsentation HSRV zusammengeführt. Die erfindungsgemäßen Maschinenlernmodelle erhalten diese hybride Szenen-Repräsentation HSRV als Eingabe und berechnen für jeden Verkehrsteilnehmer R eine spezifische Einbettung JoMASE. Aus den Verkehrsteilnehmer-spezifischen Einbettungen JoMASE werden zukünftige Trajektorien mit zugehörigen Wahrscheinlichkeiten dekodiert.

Fig. 3 zeigt eine Anordnung einer erfindungsgemäßen Netzwerkarchitektur.

Fig. 4 zeigt eine Darstellung der erfindungsgemäßen Verkehrsteilnehmer-spezifi schen Einbettungen JoMASE.

Ein drittes Maschinenlernmodell RNN-Kodierer kodiert die Trajektorienhistorien TH von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Da ten. Ein zweites Maschinenlernmodell CNN-Kodierer kodiert Szenen-Informationen umfassend die starren statischen Umfeldmerkmale stat_1 und die zustandswech selnden statischen Umfeldmerkmale stat_2. Ein Interaktions-Tensor-Pooling-Modul ITPM führt die Kodierungen des RNN- und CNN-Kodierers zusammen und erzeugt daraus die hybride Szenen-Repräsentation HSRV wie in Fig. 1 gezeigt.

Ein erstes Maschinenlernmodell IntCNN in Form eines Faltungsnetzwerks CNN be stimmt basierend auf der hybriden Szenen-Repräsentation HSRV die Interaktionen zwischen den statischen stat, dynamischen dyn und zwischen den statischen stat und dynamischen Umfeldmerkmalen dyn und fusioniert diese Interaktionen. Dabei er zeugt das erste Maschinenlernmodell IntCNN eine erste Einbettung der starren stati schen Umfeldmerkmale stat_1 in Form einer ersten Tensor-Einbettung, eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale stat_2 in Form ei ner zweiten Tensor-Einbettung und eine dritte Einbettung der dynamischen Umfeld merkmale dyn in Form einer dritten Tensor-Einbettung. Die erste, zweite und dritte Einbettung werden in eine gemeinsame Einbettung M in Form eines Multi-Agenten- Szenen-Tensors zusammengeführt.

Ein Interaktions-Vektor-Extraktions-Modul IVEM extrahiert pro Verkehrsteilnehmer R die Merkmale des Multi-Agenten-Szenen-Tensors M an der den Koordinaten des Verkehrsteilnehmers R entsprechenden Stelle und fusioniert diese mit der dritten Tensor-Einbettung des Verkehrsteilnehmers R. Pro Verkehrsteilnehmer R und pro Szene wird die Multi-Agenten-Szenen-Einbettung JoMASE erzeugt.

Ein viertes Maschinenlernmodell RNN-Trajektorien-Dekodierer dekodiert in einem ersten Strang die Multi-Agenten-Szenen-Einbettung JoMASE und gibt pro Verkehrs teilnehmer R vorhergesagte Trajektorien aus. Ein RNN- Wahrscheinlichkeits-Deko dierer des vierten Maschinenlernmodells dekodiert in einem zweiten Strang die Multi- Agenten-Szenen-Einbettung JoMASE und bewertet pro Verkehrsteilnehmer R Wahr scheinlichkeiten der vorhergesagten Trajektorien gegeneinander und gibt jeweils ei nen entsprechenden Wert aus. Die Dekodierer des vierten Maschinenlernmodells umfassen beispielsweise rekurrente Netzwerke RNN.

Fig. 5 zeigt das erfindungsgemäße Verfahren als Flussdiagramm.

In einem Verfahrensschritt V1 werden die bereitgestellten kodierten statischen stat und dynamischen Umfeldmerkmalen dyn von dem Interaktions-Tensor-Pooling-Mo- dul ITPM räumlich zusammengeführt.

In einem Verfahrensschritt V2 wird die mittels des Interaktions-Tensor-Pooling-Modul ITPM die hybriden Szenen-Repräsentation FISRV erhalten.

In einem Verfahrensschritt V3 wird die hybride Szenen-Repräsentation FISRV von dem ersten Maschinenlernmodell IntCNN prozessiert. Das erste Maschinenlernmo dell IntCNN bestimmt dabei die erste Einbettung der starren statischen Umfeldmerk male stat_1 , die zweite Einbettung der zustandswechselnden statischen Umfeld merkmale stat_2 und die dritte Einbettung der dynamischen Umfeldmerkmale dyn. Die erste, zweite und dritte Einbettung werden zusammengeführt und als eine ge meinsame Einbettung M von dem ersten Maschinenlernmodell IntCNN ausgegeben.

In einem Verfahrensschritt V4 werden aus der gemeinsamen Einbettung M die Ver kehrsteilnehmer R spezifischen Interaktionen bestimmt und mit den Verkehrsteilneh mer R spezifischen dynamischen Umfeldmerkmalen dyn für jeden der Verkehrsteilnehmer R fusioniert. Aus der Fusion wird die Verkehrsteilnehmer R spe zifische Einbettung JoMASE für jeden der Verkehrsteilnehmer R erzeugt.

In einem Verfahrensschritt V5 werden die Verkehrsteilnehmer R spezifischen Einbet tungen JoMASE dekodiert und die vorhergesagten Trajektorien für jeden der Ver kehrsteilnehmer R erhalten, wobei einzelne der Trajektorienhistorien TH jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.

Bezuqszeichen

R Verkehrsteilnehmer

L Ampel

W Fußgänger

U Umfeldszene

TH Trajektorienhistorie dyn dynamische Umfeldmerkmale stat statische Umfeldmerkmale stat_1 starre statische Umfeldmerkmale stat_2 zustandswechselnde statische Umfeldmerkmale

Map Karteninformation

HSRV hybriden Szenen-Repräsentation

A-H Schichten der HSRV

IntCNN erstes Maschinenlernmodell

CNN Faltungsnetzwerk

M gemeinsame Einbettung

JoMASE Verkehrsteilnehmer-spezifische Einbettung CNN-Kodierer zweites Maschinenlernmodell

RNN-Kodierer drittes Maschinenlernmodell

RNN rekurrentes Netzwerk

RNN-Trajektorien-Dekodierer viertes Maschinenlernmodell RNN- Wahrscheinlichkeits-Dekodierer viertes Maschinenlernmodell ITPM Interaktions-Tensor-Pooling-Modul IVEM Interaktions-Vektor-Extraktions-Modul V1 -V5 Verfahrensschritte

Claims

Patentansprüche

1. Computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajekto- rien umfassend die Schritte

• räumliches Zusammenführen von bereitgestellten kodierten statischen (stat) und dynamischen (dyn) Umfeldmerkmalen (V1) und Erhalten einer hybriden Szenen-Repräsentation (HSRV) umfassend wenigstens eine erste Schicht (A, B, C) umfassend starre statische Umfeldmerkmale (stat_1), eine zweite (D, E) Schicht umfassend zustandswechselnde statische Umfeldmerkmale (stat_2) und eine dritte Schicht (F, G, H) umfassend die dynamischen Umfeldmerk male (dyn) umfassend Trajektorienhistorien (TH) von Verkehrsteilnehmern (R) umfassend jeweils wenigstens Positionen des Verkehrsteilnehmers (R) in Ab hängigkeit der Zeit (V2);

• Prozessieren eines ersten Maschinenlernmodells (IntCNN) (V3), das als Ein gabe die hybride Szenen-Repräsentation (HSRV) erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den stati schen (stat) und dynamischen(dyn) Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells (IntCNN) auf die erste Schicht (A,B, C), die zweite Schicht (D, E) und die dritte Schicht (F, G, H) angewendet wird und eine Einbettung (M) der starren statischen Umfeldmerkmale (stat_1), der zustandswechselnden statischen Umfeldmerkmale (stat_2) und der dyna mischen Umfeldmerkmale (dyn) erzeugt wird und die Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben wird;

• Bestimmen von Verkehrsteilnehmer (R) spezifischen Interaktionen aus der ge meinsamen Einbettung (M) und Fusionieren dieser mit den Verkehrsteilneh mer (R) spezifischen dynamischen Umfeldmerkmalen (dyn) für jeden der Ver kehrsteilnehmer (R) und Erhalten einer Verkehrsteilnehmer (R) spezifischen Einbettung (JoMASE) für jeden der Verkehrsteilnehmer (R) (V4);

• Dekodieren der Verkehrsteilnehmer (R) spezifischen Einbettungen (JoMASE) und Erhalten von vorhergesagten Trajektorien für jeden der Verkehrsteilneh mer (R), wobei einzelne der Trajektorienhistorien (TH) jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden (V5).

2. Verfahren nach Anspruch 1 , wobei eine erste Funktion des ersten Maschinenlern modells (IntCNN) auf die erste Schicht (A,B, C) angewendet wird und eine erste Ein bettung der starren statischen Umfeldmerkmale (stat_1 ) erzeugt, eine zweite Funk tion auf die zweite Schicht (D, E) angewendet wird und eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale (stat_2) erzeugt, eine dritte Funk tion auf die dritte Schicht (F, G, Fl) angewendet wird und eine dritte Einbettung der dynamischen Umfeldmerkmale (dyn) erzeugt und die erste, zweite und dritte Einbet tung zusammengeführt werden und als eine gemeinsame Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben werden.

3. Verfahren nach einem der vorangehenden Ansprüche, wobei die starren stati schen Umfeldmerkmale (stat_1 ) durch Schichten eines ersten künstlichen neurona len Netzwerks prozessiert und in einen ersten Tensor eingebettet werden, die zu standswechselnden statischen Umfeldmerkmale (stat_2) durch Schichten eines zwei ten künstlichen neuronalen Netzwerks prozessiert und in einen zweiten Tensor ein gebettet werden, die dynamischen Umfeldmerkmale (dyn) durch Schichten eines drit ten künstlichen neuronalen Netzwerks prozessiert und in einen dritten Tensor einge bettet werden, und die gemeinsame Einbettung ein vierter Tensor ist erhalten aus ei ner räumlichen Konkatenation des ersten, zweiten und dritten Tensors.

4. Verfahren nach einem der vorangehenden Ansprüche, wobei das erste Maschi nenlernmodell (IntCNN) Sprungverbindungen umfasst, durch die Schichten beim Pro zessieren des Maschinenlernmodells (IntCNN) übersprungen werden.

5. Verfahren nach einem der vorangehenden Ansprüche, wobei der vierte Tensor durch Schichten eines vierten künstlichen neuronalen Netzwerks prozessiert wird und das vierte künstliche neuronale Netzwerk ein Ausgabevolumen, dessen Größe gleich der hybriden Szenen-Repräsentation (FISRV) ist, ausgibt, und in dem Ausga bevolumen die Verkehrsteilnehmer (R) basierend auf ihrer realen räumlichen Anord nung positioniert sind.

6. Verfahren nach einem der vorangehenden Ansprüche, wobei die Einbettungen (M, JoMASE) mit Faltungsnetzwerken (CNN) erzeugt werden.

7. Verfahren nach einem der vorangehenden Ansprüche, wobei für jeden der Ver kehrsteilnehmer (R) die Verkehrsteilnehmer (R) spezifischen Einbettungen von ver gangen Zeitschritten der Trajektorienhistorien (TH) der Verkehrsteilnehmer (R) in ein zelnen Zeitschritten des Dekodierens unterschiedlich gewichtet werden.

8. Verfahren nach einem der vorangehenden Ansprüche, wobei für jeden der Ver kehrsteilnehmer (R) die Verkehrsteilnehmer (R) spezifischen Einbettungen in einen ersten Datenstrom, der verschiedene plausible Trajektorien vorhersagt, und in einen zweiten Datenstrom, der Wahrscheinlichkeiten der Trajektorien gegeneinander be wertet und einen entsprechenden Wert ausgibt, dekodiert werden.

9. Verfahren nach einem der vorangehenden Ansprüche, wobei die starren stati schen Umfeldmerkmale (stat_1 ) umfassend Karteninformationen (Map) und die zu standswechselnden statischen Umfeldmerkmale (stat_2) umfassend Verkehrsweiser und/oder Ankertrajektorien aus realen Daten von Umfelderkennungssensoren und/o der von Karten und/oder aus virtuellen Daten mit einem zweiten Maschinenlernmo dell (CNN-Kodierer) umfassend Schichten eines Faltungsnetzwerks (CNN) kodiert werden.

10. Verfahren nach einem der vorangehenden Ansprüche, wobei die dynamischen Umfeldmerkmale (dyn) umfassend die Trajektorienhistorien (TH) der Verkehrsteilneh mer (R), basierend auf realen Fahrdaten und/oder auf virtuellen Daten, mit einem dritten Maschinenlernmodell (RNN-Kodierer) umfassend Schichten eines rekurrenten Netzwerks (RNN) kodiert werden.

11 . Verfahren nach einem der vorangehenden Ansprüche, wobei die Verkehrsteil nehmer (R) spezifischen Einbettungen von einem vierten Maschinenlernmodell (RNN-Trajektorien-Dekodierer, RNN- Wahrscheinlichkeits-Dekodierer) umfassend Schichten eines rekurrenten Netzwerks (RNN) dekodiert werden.

12. Verfahren nach einem der vorangehenden Ansprüche, wobei ein Steuergerät ei nes der Fahrsysteme (R) für automatisierte Fahrfunktionen basierend auf den vorhergesagten Trajektorien Regel- und/oder Steuersignale bestimmt und diese Ak tuatoren für Längs- und/oder Querführung des Fahrsystems bereitstellt.

13. Computerprogramm zum Vorhersagen und Planen von Trajektorien umfassend Befehle, die bewirken, dass ein Computer, umfassend einen Computer eines Steuer geräts eines Fahrsystems für automatisierte Fahrfunktionen, die Schritte eines Ver fahrens nach einem der vorangehenden Ansprüche ausführt, wenn das Computer programm auf dem Computer läuft.

14. Anordnung zum Vorhersagen und Planen von Trajektorien umfassend

• einen RNN-Kodierer, der dynamische Umfeldmerkmale (dyn) umfassend Trajektorienhistorien (TH) von Verkehrsteilnehmer (R) basierend auf realen Fahrdaten und/oder auf virtuellen Daten kodiert;

• einen CNN-Kodierer, der Szenen-Informationen umfassend starre statische Umfeldmerkmale (stat_1) und zustandswechselnde statische Umfeldmerkmale (stat_2) kodiert;

• ein Interaktions-Tensor-Pooling-Modul (ITPM), das die Kodierungen des RNN- und CNN-Kodierers zusammenführt und eine hybride Szenen-Repräsentation (HSRV) umfassend wenigstens eine erste Schicht (A, B, C) umfassend die starren statische Umfeldmerkmale (stat_1), eine zweite Schicht (D, E) umfas send die zustandswechselnden statische Umfeldmerkmale (stat_2) und eine dritte Schicht (F, G, H) umfassend dynamische Umfeldmerkmale (dyn) umfas send die Trajektorienhistorien (TH) erzeugt;

• ein CNN-Interaktionsnetzwerk (IntCNN), das basierend auf der hybriden Sze nen-Repräsentation (HSRV) Interaktionen zwischen den statischen (stat), dy namischen (dyn) und zwischen den statischen (stat) und dynamischen Um feldmerkmalen (dyn) bestimmt, wobei das CNN-Interaktionsnetzwerk (IntCNN) eine erste Tensor-Einbettung der starren statischen Umfeldmerkmale (stat_1 ), eine zweite Tensor-Einbettung der zustandswechselnden statischen Umfeld merkmale (stat_2) und eine dritte Tensor-Einbettung der dynamischen Um feldmerkmale (dyn) erzeugt und die erste, zweite und dritte Tensor-Einbettung in einen Multi-Agenten-Szenen-Tensor zusammengeführt; • ein Interaktions-Vektor-Extraktions-Modul (IVEM), das pro Verkehrsteilnehmer (R) die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers (R) entsprechenden Stelle extrahiert, mit der dritten Tensor-Einbettung des Verkehrsteilnehmers (R) fusioniert und pro Verkehrs teilnehmer (R) und pro Szene eine Multi-Agenten-Szenen-Einbettung (JoMASE) erzeugt;

• einen RNN-Trajektorien-Dekodierer, der die Multi-Agenten-Szenen-Einbettung (JoMASE) dekodiert und pro Verkehrsteilnehmer (R) Trajektorien vorhersagt und ausgibt;

• einen RNN- Wahrscheinlichkeits-Dekodierer, der die Multi-Agenten-Szenen- Einbettung (JoMASE) dekodiert und pro Verkehrsteilnehmer (R) Wahrschein lichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt.