WO2021089499A1

WO2021089499A1 - Verfahren und system zum prüfen einer automatisierten fahrfunktion durch reinforcement-learning

Info

Publication number: WO2021089499A1
Application number: PCT/EP2020/080740
Authority: WO
Inventors: Vladislav Nenchev; Andrea Favrin
Original assignee: Bayerische Motoren Werke Aktiengesellschaft
Priority date: 2019-11-07
Filing date: 2020-11-03
Publication date: 2021-05-14
Also published as: DE102019130040A1; US20220396280A1; CN114616157A

Abstract

Die vorliegende Offenbarung betrifft ein Verfahren zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning. Das Verfahren umfasst ein Bereitstellen wenigstens einer Spezifikation einer automatisierten Fahrfunktion; ein Erzeugen eines Szenarios, wobei das Szenario durch einen ersten Parametersatz a_t angegeben ist; und ein Ermitteln einer Belohnungsfunktion derart, dass die Belohnung R_nn in einem Fall höher ist, in dem das Szenario in einer Simulation die wenigstens eine Spezifikation nicht erfüllt, als in einem Fall, in dem das Szenario in der Simulation die wenigstens eine Spezifikation erfüllt.

Description

Verfahren und System zum Prüfen einer automatisierten Fahrfunktion durch

Reinforcement-Learning

Die vorliegende Offenbarung betrifft ein Verfahren und ein System zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning. Die vorliegende Offenbarung betrifft insbesondere die Erzeugung von Szenarien, die eine Spezifikation einer automatisierten Fahrfunktion verletzen. Stand der Technik

Fahrassistenzsysteme zum automatisierten Fahren gewinnen stetig an Bedeutung. Das automatisierte Fahren kann mit verschiedenen Automatisierungsgraden erfolgen. Beispielhafte Automatisierungsgrade sind ein assistiertes, teilautomatisiertes, hochautomatisiertes oder vollautomatisiertes Fahren. Diese Automatisierungsgrade wurden von der Bundesanstalt für Straßenwesen (BASt) definiert (siehe BASt-Publikation „Forschung kompakt“, Ausgabe 11/2012). Beispielsweise sind die Fahrzeuge mit Level 4 vollautonom im Stadtbetrieb unterwegs.

Eine große Herausforderung für die Entwicklung autonomer Fahrfunktionen ist die strenge Verifizierung und Validierung zur Erreichung der Einhaltung der Sicherheitsrichtlinien sowie eines ausreichenden Kundenvertrauensniveaus. Klassische Testansätze skalieren für autonomes Fahren nur unzureichend, da sie für jede Freigabe große Mengen an realen Fahrten erfordern.

Ein möglicher Ansatz zur Verifikation und Bewertung von selbstfahrenden Fahrzeugen, die eine Vielzahl von möglichen Verkehrssituationen meistern müssen, liegt in einer virtuellen Simulationsumgebung. Um eine aussagekräftige Bewertung einer autonomen Fahrfunktion aus der Simulation zu erhalten, muss die simulierte Umgebung ausreichend realistisch sein. Zudem muss das zulässige Verhalten (Spezifikation) des autonomen Fahrzeugs automatisch überprüfbar sein, und die ausgeführten Testszenarien müssen alle typischen Fälle sowie seltene, aber realistische Fahr Situationen ab decken.

Während es einige Ansätze zur Erfüllung der ersten beiden Anforderungen gibt, ist die Erfüllung dieser Anforderungen aufgrund der hohen Dimensionalität und Nichtkonvexität des relevanten Parameterraums keine leichte Aufgabe. Datengesteuerte Ansätze bieten bis zu einem gewissen Grad Abhilfe, aber die Analyse großer Mengen an realen Daten kann nicht garantieren, dass alle relevanten Szenen einbezogen und getestet wurden. So basieren die meisten bestehenden Ansätze auf einer geeigneten stichprobenbasierten Prüfung, die möglicherweise analytische Modelle verwendet. Diese Verfahren sind jedoch nicht für die gesamte End-to-End-Fahrfunktion von der Sensordatenverarbeitung bis zum erzeugten Aktuatorsignal durchführbar und müssen bei einer Systemänderung komplett neu ausgeführt werden. Offenbarung der Erfindung

Es ist eine Aufgabe der vorliegenden Offenbarung, ein Verfahren zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Leaming, ein Speichermedium zum Ausfuhren des Verfahrens und ein System zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning anzugeben, die eine schnelle und effiziente Prüfung der automatisierten Fahrfunktion erlauben. Zudem ist es eine Aufgabe der vorliegenden Offenbarung, die automatisierte Fahrfunktion effizient zu falsifizieren, um Schwachstellen in der automatisierten Fahrfunktion aufzudecken.

Diese Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.

Gemäß einem unabhängigen Aspekt der vorliegenden Offenbarung ist ein Verfahren zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Leaming angegeben. Das Verfahren umfasst ein Bereitstellen wenigstens einer Spezifikation einer automatisierten Fahrfunktion; ein Erzeugen eines Szenarios, wobei das Szenario durch einen ersten Parametersatz angegeben ist; und ein Ermitteln einer Belohnungsfunktion derart, dass die Belohnung in einem Fall höher ist, in dem das Szenario in einer Simulation die wenigstens eine Spezifikation nicht erfüllt, als in einem Fall, in dem das Szenario in der Simulation die wenigstens eine Spezifikation erfüllt. Die Belohnungsfunktion kann zum Beispiel unter Verwendung eines regelbasierten Modells ermittelt werden.

Erfindungsgemäß wird die Belohnungsfunktion, die von den Trajektorien aller Objekte im Szenario abhängt, ermittelt. Insbesondere lernt der RL- Agent, Szenarien zu generieren, die eine Belohnung maximieren und eine Verletzung der Spezifikation der Fahrfunktion widerspiegeln. Das Lernen kann also dadurch beschleunigt werden, indem vorhandenes Vorwissen in den Trainingsprozess einbezogen wird. Hierdurch kann die automatisierte Fahrfunktion effizient falsifiziert werden, um Schwachstellen in der automatisierten Fahrfunktion aufzudecken.

Vorzugsweise beschreibt das regelbasierte Modell einen Regler des Fahrzeugs für die automatisierte Fahrfunktion. Der Regler ist dabei ein (vereinfachtes) Modell des Verhaltens des mit der automatisierten Fahrfunktionen fahrenden Fahrzeugs. Vorzugsweise umfasst das Verfahren weiter ein Erzeugen eines zweiten Parametersatzes, der eine Modifikation des ersten Parametersatzes angibt. Dies kann durch einen Adversarial Agent erfolgen.

Vorzugsweise umfasst das Verfahren weiter:

Ermitteln einer Schätzung R_est des Wertes der Belohnungsfunktion für ein konkretes Szenario unter Verwendung eines regelbasierten Modells in einer Simulation;

Erzeugen eines weiteren Szenarios entsprechend einem dritten Parametersatz a_t+i, wobei der dritte Parametersatz a_t+i basierend auf dem zweiten Parametersatz a_wl und dem Parametersatz a_est„ der die Schätzung R_est basierend auf dem regelbasierten Modell maximiert, bestimmt wird; und

Ermitteln der Belohnungsfunktion derart, dass die Belohnung R in einem Fall höher ist, in dem für ein Szenario in einer Simulation die Schätzung R_est des Wertes der Belohnungsfunktion niedriger ist als der tatsächliche Wert R der Belohnungsfunktion.

Vorzugsweise erfolgt das Erzeugen des weiteren Szenarios entsprechend dem dritten Parametersatz unter Verwendung einer Ungleichungsbeschränkung, die bestimmte Szenarien ausschließt. Die Ungleichungsbeschränkung kann wie folgt definiert sein:

\cinn Ctest\ ^ ClSchwelle

Vorzugsweise erfolgt das Erzeugen des weiteren Szenarios entsprechend dem dritten Parametersatz unter Verwendung einer Projektion des Parametersatzes auf eine Menge von bestimmten Szenarien.

Gemäß einem weiteren Aspekt der vorliegenden Offenbarung ist ein System zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning angegeben. Das System umfasst eine Prozessoreinheit, konfiguriert ist, um das Verfahren zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning gemäß den in diesem Dokument beschriebenen Ausführungsformen auszuführen.

Das System ist insbesondere eingerichtet, das in diesem Dokument beschriebene Verfahren auszuführen. Das Verfahren kann die Aspekte des in diesem Dokument beschriebenen Systems implementieren. Das erfindungsgemäße Verfahren kann auch in einer HIL (Hardware in the Loop) Umgebung simuliert werden.

Gemäß einem weiteren unabhängigen Aspekt ist ein Software (SW) Programm angegeben. Das SW Programm kann eingerichtet werden, um auf einem oder mehreren Prozessoren Prozessor ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.

Gemäß einem weiteren unabhängigen Aspekt ist ein Speichermedium angegeben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.

Unter dem Begriff „automatisiertes Fahren“ kann im Rahmen des Dokuments ein Fahren mit automatisierter Längs- oder Querführung oder ein autonomes Fahren mit automatisierter Längs- und Querführung verstanden werden. Bei dem automatisierten Fahren kann es sich beispielsweise um ein zeitlich längeres Fahren auf der Autobahn oder um ein zeitlich begrenztes Fahren im Rahmen des Einparkens oder Rangierens handeln. Der Begriff „automatisiertes Fahren“ umfasst ein automatisiertes Fahren mit einem beliebigen Automatisierungsgrad. Beispielhafte Automatisierungsgrade sind ein assistiertes, teilautomatisiertes, hochautomatisiertes oder vollautomatisiertes Fahren. Diese Automatisierungsgrade wurden von der Bundesanstalt für Straßenwesen (BASt) definiert (siehe BASt-Publikation „Forschung kompakt“, Ausgabe 11/2012).

Beim assistierten Fahren führt der Fahrer dauerhaft die Längs- oder Querführung aus, während das System die jeweils andere Funktion in gewissen Grenzen übernimmt. Beim teilautomatisierten Fahren (TAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum und/oder in spezifischen Situationen, wobei der Fahrer das System wie beim assistierten Fahren dauerhaft überwachen muss. Beim hochautomatisierten Fahren (HAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum, ohne dass der Fahrer das System dauerhaft überwachen muss; der Fahrer muss aber in einer gewissen Zeit in der Lage sein, die Fahrzeugführung zu übernehmen. Beim vollautomatisierten Fahren (VAF) kann das System für einen spezifischen Anwendungsfall das Fahren in allen Situationen automatisch bewältigen; für diesen Anwendungsfall ist kein Fahrer mehr erforderlich. Die vorstehend genannten vier Automatisierungsgrade entsprechen den SAE-Level 1 bis 4 der Norm SAE J3016 (SAE - Society of Automotive Engineering). Beispielsweise entspricht das hochautomatisierte Fahren (HAF) Level 3 der Norm SAE J3016. Ferner ist in der SAE J3016 noch der SAE-Level 5 als höchster Automatisierungsgrad vorgesehen, der in der Definition der BASt nicht enthalten ist. Der SAE-Level 5 entspricht einem fahrerlosen Fahren, bei dem das System während der ganzen Fahrt alle Situationen wie ein menschlicher Fahrer automatisch bewältigen kann; ein Fahrer ist generell nicht mehr erforderlich.

Kurze Beschreibung der Zeichnungen

Ausführungsbeispiele der Offenbarung sind in den Figuren dargestellt und werden im Folgenden näher beschrieben. Es zeigen:

Figur 1 schematisch ein Fahrassistenzsystem zum automatisierten Fahren gemäß Ausführungsformen der vorliegenden Offenbarung,

Figur 2 ein allgemeines Schema eines Reinforcement-Leaming Ansatzes;

Figur 3 ein Flussdiagram eines Verfahrens zum Prüfen einer automatisierten Fahrfunktion gemäß Ausführungsformen der vorliegenden Offenbarung;

Figur 4 ein Schema zum Prüfen einer automatisierten Fahrfunktion gemäß Ausführungsformen der vorliegenden Offenbarung; und

Figur 5 ein Schema zum Prüfen einer automatisierten Fahrfunktion gemäß weiteren Ausführungsformen der vorliegenden Offenbarung.

Ausführungsformen der Offenbarung

Im Folgenden werden, sofern nicht anders vermerkt, für gleiche und gleichwirkende Elemente gleiche Bezugszeichen verwendet.

Figur 1 zeigt schematisch ein Fahrassistenzsystem zum automatisierten Fahren gemäß Ausführungsformen der vorliegenden Offenbarung. Das Fahrzeug 100 umfasst das Fahrassistenzsystem 110 zum automatisierten Fahren. Beim automatisierten Fahren erfolgt die Längs- und Querführung des Fahrzeugs 100 automatisch. Das Fahrassistenzsystem 110 übernimmt also die Fahrzeugführung. Hierzu steuert das Fahrassistenzsystem 110 den Antrieb 20, das Getriebe 22, die hydraulische Betriebsbremse 24 und die Lenkung 26 über nicht dargestellte Zwischeneinheiten.

Zur Planung und Durchführung des automatisierten Fahrens werden Umfeldinformationen einer Umfeldsensorik, die das Fahrzeugumfeld beobachtet, vom Fahrerassi stenz System 110 entgegengenommen. Insbesondere kann das Fahrzeug wenigstens einen Umgebungssensor 12 umfassen, der zur Aufnahme von Umgebungsdaten, die das Fahrzeugumfeld angeben, eingerichtet ist. Der wenigstens eine Umgebungssensor 12 kann beispielsweise ein LiDAR- System, ein oder mehrere Radar-Systeme und/oder eine oder mehrere Kameras umfassen.

Es ist ein Ziel der vorliegenden Offenbarung, anhand einer automatisch verifizierbaren Spezifikation und einer durchgängigen virtuellen Simulationsumgebung für eine autonome oder automatisierte Fahrfunktion zu lernen, wie effizient Szenarien, die die Funktion verfälschen, generiert werden können.

In einem Beispiel wird eine ACC (Adaptive Cruise Control)-Funktion betrachtet. Die ACC- Funktion ist eingerichtet, um einen Sicherheitsabstand zu einem vorausfahrenden Fahrzeug einzuhalten. Mittels einer Zeitlücke th, definiert als th = h/v, können die ACC-Anforderungen wie folgt formalisiert werden:

- Zwei mögliche Modi: Sollgeschwindigkeits-Modus und Zeitabstand-Modus;

Im Sollgeschwindigkeits-Modus soll eine vom Fahrer vorgegebene bzw. gewünschte Geschwindigkeit V_d, d.h. v_d E \v_{d rnin},· v_{d max} , beibehalten werden.

Im Zeitabstand-Modus soll ein Zeitvorsprung t_h, d.h. t_h E

t_{h Tnax}\, zu einem vorausfahrenden Fahrzeug beibehalten werden.

Das System befindet sich im Sollgeschwindigkeits-Modus, wenn V_d <h/t_d gilt, ansonsten ist das System im Zeitabstand-Modus. Zudem muss die Beschleunigung des Fahrzeugs jederzeit a_c E

\o-c,min'^{' <}-t-c,max\ erfüllen.

Gemäß den Ausführungsformen der vorliegenden Offenbarung wird Reinforcement-Leaming (RL) verwendet, und insbesondere ein Reinforcement-Learning basierter Adversarial Agent (in den Figuren mit Agent bezeichnet). Der RL-Agent lernt, Szenarien zu generieren, die eine bestimmte Belohnung maximieren. Da das Ziel des Agenten darin besteht, die Fahrfunktion zu falsifizieren, ist die Belohnungsfunktion derart gestaltet, dass der Agent eine hohe Belohnung erhält, wenn das Szenario zu einer Verletzung der Spezifikation führt, und eine niedrige Belohnung, wenn die autonome Fahrfunktion gemäß der Spezifikation arbeitet.

Der Agent beobachtet wiederholt den Zustand des Systems 5, der alle relevanten Variablen für die gegebene Spezifikation umfasst. Basierend auf dem Zustand führt der Agent eine Aktion a gemäß seiner erlernten Richtlinie durch und erhält eine entsprechende Belohnung R(s,a). Die Aktion besteht aus einem endlichen Satz von Szenarioparametern. Im Laufe der Zeit ändert der Agent seine Richtlinie, um seine Belohnung zu maximieren.

Die Ausgabe des RL-Agenten ist ein Szenarioparametersatz a, der z.B. eine anfängliche Fahrzeuggeschwindigkeit, das gewünschte Fahrzeug, die anfängliche Zeitlücke und ein Geschwindigkeitsprofil des Fahrzeugs umfasst, das durch eine endliche Zeitreihe von Geschwindigkeitssegmenten Vf kodiert ist, wobei t_t e t₀, t₁ . . t_n. Es wird mit einem anfänglichen Parametersatz ao begonnen und ein entsprechender anfänglicher Umgebungszustand so berechnet. Der Zustand s_t enthält alle für die Überprüfung der Einhaltung der Spezifikationen relevanten Variablen, z.B. minimale und maximale Beschleunigung, minimaler und maximaler Abstand zum Vorderfahrzeug oder minimaler und maximaler Zeitfortschritt, minimale und maximale Geschwindigkeit usw. Dann können alle obigen Spezifikationsanweisungen entweder direkt erfasst oder numerisch durch eine Ungleichung der Form A[s; a] - b < 0 approximiert werden.

Der Eingang des RL-basierten Agenten ist der Umgebungszustand s_t zum Zeitpunkt t und die Ausgänge sind die modifizierten Szenarioparameter a_t+i für den nächsten Durchlauf. Die Belohnungsfunktion ist ausgewählt, z.B. so dass R(s, a ) = £ max(0, (exp(x) — 1)), wobei x der Wert einer beliebigen Zeile der linken Seite der Ungleichung A[s; a] - b < 0 für die Spezifikation bezeichnet. Dies garantiert, dass die Belohnung nur dann groß ist, wenn der Agent ein Szenario gefunden hat, das gegen die Spezifikation verstößt. Figur 2 zeigt ein allgemeines Schema für diesen Fall.

Allgemeine RL- Ansätze gehen zu Lasten langsamer, hoher Varianz, das Erlernen komplexer Aufgaben kann Millionen von Iterationen in Anspruch nehmen, und jede Iteration könnte kostenintensiv sein. Noch wichtiger ist, dass die Variation zwischen den Lerndurchläufen sehr hoch sein kann, was bedeutet, dass einige Durchläufe eines RL-Algorithmus erfolgreich sind, während andere aufgrund von Zufälligkeiten bei der Initialisierung und Abtastung scheitern. Diese hohe Variabilität des Lernens kann eine signifikante Hürde für die Anwendung von RL sein. Das Problem wird in großen Parameterräumen noch größer.

Die oben genannten Probleme können gelindert werden, indem Vorkenntnisse über den Vorgang eingebracht werden, die durch eine Ungleichung g(s_t, a ) < 0 , die Szenarien, die die Spezifikation auf triviale Art verletzen, ausschließt, angemessen modelliert werden können, d.h. es stellt z.B. sicher, dass das Fahrzeug in einem nicht-verletzenden (sicheren) Zustand startet. Diese Ungleichung wird entweder als Regularisierungsausdruck in der Belohnungsfunktion oder als Ausgabebeschränkung für das neuronale Netz zur Fokussierung des Lernfortschritts in den Lernprozess integriert. Jede kontinuierliche variablenfähige RL- Methode, z.B. Policy-Gradient-Methoden oder aktorkritische Methoden, können für den RL- Agenten verwendet werden.

Auch wenn mit der oben beschriebenen Methode viele Parametrierungen, die trivial gegen die Spezifikation verstoßen, ausgeschlossen werden können, dauert es immer noch eine beträchtliche Anzahl von Durchläufen, die bis zu mehreren Tagen dauern können, bis interessante Szenarien durch den RL-Agenten generiert werden. Deshalb können noch mehr Vorkenntnisse integriert werden, um den Lernprozess zu beschleunigen.

Figur 3 zeigt ein Flussdiagramm eines Verfahrens 300 zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning gemäß Ausführungsformen der vorliegenden Offenbarung.

Das Verfahren 300 umfasst im Block 310 ein Bereitstellen wenigstens einer Spezifikation einer automatisierten Fahrfunktion; im Block 320 ein Erzeugen eines Szenarios, wobei das Szenario durch einen ersten Parametersatz angegeben ist; und im Block 330 ein Ermitteln einer Belohnungsfunktion derart, dass die Belohnung in einem Fall höher ist, in dem das Szenario in einer Simulation die wenigstens eine Spezifikation nicht erfüllt, als in einem Fall, in dem das Szenario in der Simulation die wenigstens eine Spezifikation erfüllt, wobei die Belohnungsfunktion unter Verwendung eines regelbasierten Modells ermittelt wird.

Unabhängig vom tatsächlich verwendeten Algorithmus im autonomen oder automatisierten Fahrzeug wird davon ausgegangen, dass das Fahrzeug von einem traditionellen (regelbasierten) Steuerungssystem gesteuert wird und die Fahrdynamik durch ein einfaches analytisches Modell beschrieben wird, alle erfassbar durch die Differenzengleichung Xk+i = fä k, s_t, a_t), wobei Xk den Zustand des Fahrzeugs über die Ausführungszeit bezeichnet. Darauf aufbauend kann für den aktuellen Umgebungszustand s_t das folgende Optimierungsproblem formuliert werden: ma xR_est(a_est,s_t) a_est

Xk+1 ⁼ fk(Xk, dest, St) zum Bestimmen eines neuen Parametersatzes a_est für eine Schätzung der maximalen Belohnung Rest, max liefert. Wenn das Optimierungsproblem nicht konvex ist (was oft der Fall ist) kann auf eine konvexe Relaxation oder andere Annäherungsverfahren zurückgegriffen werden.

Dann erhält ein RL- Agent parallel den Zustand s_t und die RL-Agent-Belohnung

Rnn \R(s_t, ü_t) Restlru l E {1,2} und erzeugt einen neuen Parametersatz a_nn. Auf diese Weise kann der RL-Agent nur den Unterschied zwischen dem regelbasierten Steuerungsverhalten und dem eigentlichen System und nicht dem Gesamtsystem erlernen und eine entsprechende Modifikation a_nn erzeugen. Schließlich wird der neue Parametersatz für die nächste Ausführung auf a_s+t = a_est + a_nn festgelegt. Um eine Initialisierung in einem unsicheren Zustand zu vermeiden, kann die zuvor beschriebene Methode verwendet werden, um Vorkenntnisse durch eine Ungleichung g(s_t, a_est) < 0 zu approximieren.

Figuren 4 und 5 zeigen zwei mögliche Schemata gemäß Ausführungsformen der vorliegenden Offenbarung, die dies implementieren.

Das Verfahren umfasst ein Erzeugen eines zweiten Parametersatzes, der eine Modifikation des ersten Parametersatzes angibt, und ein Erzeugen eines weiteren Szenarios entsprechend einem dritten Parametersatz, wobei der dritte Parametersatz basierend auf dem zweiten Parametersatz und unter Verwendung des regelbasierten Modells bestimmt wird.

In einigen Ausführungsformen erfolgt das Erzeugen des weiteren Szenarios entsprechend dem dritten Parametersatz unter Verwendung einer Ungleichungsbeschränkung, die bestimmte Szenarien ausschließt. Dies ist in Figur 5 dargestellt. Insbesondere stellt der Block G in Figur 5 eine beispielhafte Ungleichheitsbegrenzung des folgenden Typs dar: \cinn Ctest\ ^ ClSchwelle

Die vorliegende Offenbarung ist jedoch nicht auf die Ungleichheitsbegrenzung beschränkt und es kann ein verallgemeinertes Optimierungsproblem verwendet werden, das wie folgt beschrieben werden kann: cik = arg m aEA

Hier wird ein geeigneter Kontrolleingang ü_t entsprechend einer bestimmten Szenarioklasse ausgewählt. Um beispielsweise eine Kollision mit einem vorausfahrenden Fahrzeug zu verhindern.

Erfindungsgemäß wird die Belohnungsfunktion zum Beispiel unter Verwendung des regelbasierten Modells ermittelt. Insbesondere lernt der RL- Agent, Szenarien zu generieren, die eine Belohnung maximieren und eine Verletzung der Spezifikation der Fahrfunktion widerspiegeln. Das Lernen kann also dadurch beschleunigt werden, indem vorhandenes Vorwissen in den Trainingsprozess einbezogen wird. Hierdurch kann die automatisierte Fahrfunktion effizient falsifiziert werden, um Schwachstellen in der automatisierten F ahrfunktion aufzudecken .

Claims

Patentansprüche

1. Verfahren (300) zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement- Learning, umfassend: Bereitstellen (310) wenigstens einer Spezifikation einer automatisierten Fahrfunktion;

Erzeugen (320) eines Szenarios, wobei das Szenario durch einen ersten Parametersatz a_t angegeben ist; und

Ermitteln (330) einer Belohnungsfunktion derart, dass die Belohnung R in einem Fall höher ist, in dem das Szenario in einer Simulation die wenigstens eine Spezifikation nicht erfüllt, als in einem Fall, in dem das Szenario in der Simulation die wenigstens eine Spezifikation erfüllt.

2. Das Verfahren (300) nach Anspruch 1, wobei die Belohnungsfunktion unter Verwendung eines regelbasierten Modells (RBM) ermittelt wird.

3. Das Verfahren (300) nach Anspruch 1 oder 2, wobei das regelbasierte Modell (RBM) einen Regler des Fahrzeugs für die automatisierte Fahrfunktion beschreibt, wobei der Regler ein Modell des mit der automatisierten Fahrfunktion gesteuerten Fahrzeugs ist.

4. Das Verfahren (300) nach einem der Ansprüche 1 bis 3, weiter umfassend:

Erzeugen eines zweiten Parametersatzes a_nn, der eine Modifikation des ersten Parametersatzes a_t angibt.

5. Das Verfahren (300) nach Anspruch 4, weiter umfassend: Ermitteln einer Schätzung R_est des Wertes der Belohnungsfunktion für ein konkretes Szenario unter Verwendung eines regelbasierten Modells (RBM) in einer Simulation;

Erzeugen eines weiteren Szenarios entsprechend einem dritten Parametersatz a_t+i, wobei der dritte Parametersatz a_t+i basierend auf dem zweiten Parametersatz a_wl und dem Parametersatz a_est„ der die Schätzung R_est basierend auf dem regelbasierten Modell (RBM) maximiert, bestimmt wird; und

6. Das Verfahren (300) nach Anspruch 5, wobei das Erzeugen des weiteren Szenarios entsprechend dem dritten Parametersatz a_t+i unter Verwendung einer Ungleichungsbeschränkung G, die bestimmte Szenarien ausschließt, oder einer Projektion des Parametersatzes auf eine Menge von bestimmten Szenarien erfolgt.

7. Speichermedium, umfassend ein Software-Programm, das eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das Verfahren (300) gemäß einem der Ansprüche 1 bis 6 auszuführen.

8. System zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning, umfassend eine Prozessoreinheit, konfiguriert ist, um das Verfahren zum Prüfen einer automatisierten Fahrfunktion durch Reinforcement-Learning gemäß einem der Ansprüche (300) 1 bis 6 auszuführen.