WO2022002652A1

WO2022002652A1 - Verfahren zur regelung eines regelsystems, trainingsverfahren, computerprogramm, speichermedium und steuereinheit

Info

Publication number: WO2022002652A1
Application number: PCT/EP2021/066740
Authority: WO
Inventors: Achim Romer
Original assignee: Robert Bosch Gmbh
Priority date: 2020-07-03
Filing date: 2021-06-21
Publication date: 2022-01-06
Also published as: DE102020208358A1

Abstract

Verfahren (100) zur Regelung eines Regelsystems (3) aufweisend mindestens einen Regler (31) und mindestens eine Regelstrecke (32), mit den Schritten: Ermitteln (101) einer Stellgröße (u) mittels des Reglers (31), in Abhängigkeit von einem aktuellen Soll-Wert (xt); Korrigieren (102) der ermittelten Stellgröße (u) mittels eines Machine Learning Modules (ML-Modul) (33), insbesondere mittels eines künstlichen neuronalen Netzwerkes, in Abhängigkeit des aktuellen Soll-Werts (xt) und eines Ist-Werts, um eine korrigierte Stellgröße (u') zu erhalten; Regeln (103) der Regelstrecke (32) in Abhängigkeit der korrigierten Stellgröße (u').

Description

Beschreibung

Titel

Verfahren zur Regelung eines Regelsystems, Trainingsverfahren,

Computerprogramm, Speichermedium und Steuereinheit.

Die vorliegende Erfindung betrifft ein Verfahren zur Regelung eines Regelsystems umfassend mindestens einen Regler, mindestens eine Regelstrecke und mindestens ein Machine Learning Module (ML-Modul) zur Ermittlung einer Stellgröße für das Regelsystem.

Ferner betrifft die vorliegende Erfindung ein Trainingsverfahren für ein ML-Modul zur Verwendung in einem Regelverfahren gemäß der vorliegenden Erfindung.

Die vorliegende Erfindung betrifft darüber hinaus ein entsprechendes Computerprogramm, maschinenlesbares Speichermedium und elektronische Steuereinheit.

Stand der Technik

Regelungsaufgaben mit bestärkendem Lernen (engl, reinforcement learning) zu lösen entspricht dem aktuellen Stand der Technik. Hierbei wird auf Basis von Zustandsdaten (z.B. aktuelle Position, Temperatur, Soll-Wert etc.) aus einer endlichen Menge von verfügbaren Aktionen gewählt. Zum Erlernen der Strategie gibt es verschiedene Algorithmen (z. B. Monte-Carlo oder Temporal Difference Learning). Diese haben nach heutigem technischen Stand alle gemein, dass für die Entscheidung, welches die beste Aktion ist, alle möglichen Aktionen bewertet werden müssen. Um diese Bewertung vornehmen zu können, muss also das System mindestens in der Lernphase auch in alle „nicht-optimalen“ Zustände versetzt werden. Dieses Vorgehen führt dazu, dass Regler auf Basis von bestärkendem Lernen dazu neigen in lokalen Optima zu verfallen und dementsprechend sehr viele Lernzyklen benötigen.

Offenbarung der Erfindung

Vor diesem Hintergrund schafft die vorliegende Erfindung schafft ein Verfahren zur Verfahren zur Regelung eines Regelsystems durch eine Kombination von Methoden des maschinellen Lernens (engl, machine learning) und Methoden der klassischen Regelungstechnik. Ferner schafft die vorliegende Erfindung ein Verfahren zum Trainieren eines Machine Learning Modules (ML-Moduls), das dazu geeignet ist einem Regelungsverfahren gemäß der vorliegenden Erfindung eingesetzt zu werden. Weitere Aspekte der vorliegenden Erfindung sind ein Computerprogramm, ein maschinenlesbares Speichermedium sowie eine elektronische Steuereinheit.

Vorteile der Erfindung

Ein Aspekt der vorliegenden Erfindung ist ein Verfahren zur Regelung eines Regelsystems. Das Regelsystem weist dabei mindestens einen Regler und mindestens eine Regelstrecke auf.

Bei dem Regler kann es sich vorliegend um eine P-, PI- oder PID-Regler handeln. Die Wahl des geeigneten Reglerart (bspw. P-, PI-, PID-Regler) trifft der Fachmann dabei auf Basis seines Fachwissens. Geleitet wird er dabei von dem Ziel Regelabweichungen minimal zu halten.

Das Verfahren umfasst die nachfolgenden Schritte.

Ermitteln einer Stellgröße (für die Regelstrecke) mittels des Reglers des Regelungssystems in Abhängigkeit von einem aktuellen Soll-Wert (des Regelsystems).

Korrigieren der ermittelten Stellgröße mittels eines Machine Learning Modules (ML-Modul) in Abhängigkeit von dem aktuellen Soll-Wert und eines Ist-Werts (des Regelsystems), um eine korrigierte Stellgröße (für die Regelstrecke) zu erhalten.

Regeln der Regelstrecke in Abhängigkeit der korrigierten Stellgröße.

Die Erfindung weist den Vorteil auf, dass durch die Korrektur der Stellgröße des Reglers mittels des ML-Moduls einerseits ungünstige und im technischen Sinne sogar gefährliche Zustände vermieden werden können und andererseits eine korrigierte Stellgröße mittels des ML-Moduls ermittelt werden kann, ohne dass wie derzeit im Stand der Technik viele nur lokal optimale Zustände bewertet werden müssen.

Bei dem Soll-Wert kann es sich vorliegend um den Soll-Wert des Regelsystems handeln.

Bei dem Ist-Wert kann es sich vorliegend um den Ist-Wert des Regelsystems handeln.

Bei der Stellgröße kann es sich vorliegend um eine Stellgröße zur Verwendung in dem Regelsystem, insbesondere für die Regelstrecke, handeln.

Unter einem Machine Learning Module (ML-Modul) kann vorliegend ein künstliches Modul verstanden werden, das dazu geeignet ist, aus Erfahrung Wissen zu generieren. Die Erfahrung wird dem künstlichen Modul dabei in Form von Trainingsdaten zugeführt. Aus diesen baut das Modul ein Modell auf, um nicht nur Beispiele auswendig zu lernen, sondern Muster und Gesetzmäßigkeiten aus den Trainingsdaten abzuleiten und auf neue (ggf. unbekannte)

Eingangsdaten anzuwenden, um diese zu beurteilen.

Bevorzugt ist das ML-Modul als künstliches neuronales Netzwerk ausgestaltet.

Unter einem künstlichen neuronalen Netz ist vorliegend ein Netz aus künstlichen Neuronen zur Informationsverarbeitung zu verstehen. Künstliche neuronale Netze durchleben im Wesentlichen drei Phasen. In einer initialen Phase wird eine Basistopologie, meist abhängig von der Aufgabenstellung, vorgegeben. Danach folgt eine Trainingsphase, in der die Basistopologie zur effizienten Lösung der Aufgabenstellung mittels Trainingsdaten angelernt wird. Innerhalb der Trainingsphase kann auch die Topologie des Netzes angepasst werden. Trainingsdaten zeichnen sich dadurch aus, dass typischerweise zu den Eingabedaten die gewünschten Ausgabedaten vorliegen. Schließlich folgt eine Anwendungsphase, in der das angelernte Netz auf Eingabedaten angesetzt wird, zu denen es keine gewünschten Ausgabedaten gibt. Die Ausgabedaten des angelernten Netzes stellen dann gemäß der Aufgabestellung gesuchten Ausgabedaten dar.

Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird im Schritt des Ermittelns die Stellgröße in Abhängigkeit von weiteren Soll- Werten, die in Bezug auf den aktuellen Soll-Werte vorherige bzw. nachherige Soll-Werte des Regelsystems repräsentieren, ermittelt.

Diese Ausführungsform basiert auf der Annahme, dass die Regelung des Regelsystems in aufeinanderfolgenden Regelschritten so bis s_n erfolgt. Die Regelschritte können dabei zeitlich aufeinanderfolgend, d.h. zu den Zeitpunkten to bis t_n, erfolgen. Der aktuelle Soll-Wert ist dabei der Soll-Wert für den Regelschritt si bzw. zum Zeitpunkt t,. Ein vorheriger Soll-Wert ist dementsprechend ein Soll-Wert für den Regelschritt Si-_X, x aus [1 ... i-1] bzw. zum Zeitpunkt ti-c, x aus [l.J-1]. Ein nachheriger Soll-Wert ist dementsprechend ein Soll-Wert für den Regelschritt Si_+y, y aus [1 ... n-i] bzw. zum Zeitpunkt ti_+y, y aus [1 ... n-i].

Diese Ausführungsform weist den Vorteil auf, dass durch die Berücksichtigung weiterer Soll-Werte, insbesondere vorheriger und nachfolgender Soll-Werte die Genauigkeit der Ermittlung der Stellgröße durch das ML-Modul verbessern lässt.

Es versteht sich von selbst, dass zur Berücksichtigung nachfolgender Soll-Werte diese nachfolgenden Soll-Werte bekannt sein müssen. Ob diese Werte bekannt sind hängt dabei maßgeblich von dem Regelsystem ab. Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird im Schritt des Ermittelns die Stellgröße in Abhängigkeit von weiteren Größen ermittelt.

Diese weiteren Größen repräsentieren bevorzugt Eigenschaften des Regelsystems bzw. des Reglers bzw. der Regelstrecke.

Dies können u. a. Randbedingung, Temperaturen, Drücken, Drehzahlen bzw. Geschwindigkeiten sein.

Vorteilhaft an dieser Ausführungsform ist, dass sich durch die Hinzunahme weiterer Größen die Genauigkeit der Ermittlung der Stellgröße durch das ML- Modul verbessern lässt.

Das Regelungsverfahren und das Trainingsverfahren gemäß der vorliegenden Erfindung sind voneinander unterschiedlich stark abhängig.

Das ML-Modul könnte bspw. initial angelernt werden und dann nur noch im Regelungsverfahren angewendet werden.

Denkbar ist ebenso, dass nach dem initialen Anlernen das ML-Modul parallel zur Anwendung im Regelungsverfahren kontinuierlich weitertrainiert wird.

Dies könnte bspw. abwechselnd umgesetzt werden. D. h. auf jeden Lernschritt erfolgt ein Regelungsschritt und umgekehrt.

Denkbar wäre ebenso, dass nach einer vorgegebenen Anzahl an Regelungsschritten ein Lernschritt erfolgt.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein Verfahren zum Trainieren eines Machine Learning Modules (ML-Modul) für die Verwendung in einem Verfahren gemäß dem vorhergehenden Aspekt der vorliegenden Erfindung.

Das Trainingsverfahren umfasst dabei den Schritt des Anpassens mindestens eines Parameters des ML-Moduls in Abhängigkeit von mindestens einem Eingangsdatum des ML-Moduls und einer zu dem mindestens einen Eingangsdatum korrespondierenden korrigierten Stellgröße des Regelsystems.

Gemäß einer Ausführungsform kann die korrespondierende korrigierte Stellgröße die korrigierte Stellgröße des aktuellen Regelschritts des mindestens einem Eingangsdatum sein.

Gemäß einer Ausführungsform kann die korrespondierende korrigierte Stellgröße die korrigierte Stellegröße des nachfolgenden Regelschrittes des mindestens einem Eingangsdatum sein.

Gemäß einer Ausführungsform kann die Lernrate des Trainingsverfahrens kontinuierlich reduziert werden. Durch die kontinuierliche Reduktion wird erreicht, dass seltene Einzelereignisse weniger Einfluss auf das Training des ML- Moduls haben. Damit kann erreicht werden, dass das System robuster wird.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist, alle Schritte eines der Verfahren gemäß der vorliegenden Erfindung auszuführen

Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß der vorliegenden Erfindung gespeichert ist.

Ein weiterer Aspekt der vorliegenden Erfindung ist eine elektronische Steuereinheit, die eingerichtet ist, alle Schritte eines der Verfahren gemäß der vorliegenden Erfindung auszuführen.

Die vorliegende Erfindung ist auf ein Regelsystem gerichtet. Der grundsätzliche Ansatz der Erfindung lässt sich ebenso auf ein Steuersystem abbilden.

Zeichnungen

Weitere Merkmale und Vorteile der Aspekte der vorliegenden Erfindung werden nachfolgend anhand von Ausführungsformen mit Bezug auf die Figuren erläutert. Es zeigen:

Fig. 1 ein Ablaufdiagramm des Verfahrens gemäß dem ersten Aspekt der vorliegenden Erfindung;

Fig. 2 ein Ablaufdiagramm des Verfahrens gemäß dem zweiten Aspekt der vorliegenden Erfindung;

Fig. 3 eine schematische Darstellung eines Regelsystems während eines Regelschrittes gemäß der vorliegenden Erfindung;

Fig. 4 eine schematische Darstellung eines Regelsystems während eines Trainingsschrittes gemäß der vorliegenden Erfindung.

Figur 1 zeigt ein Ablaufdiagramm des Verfahrens 100 zur Regelung gemäß dem ersten Aspekt der vorliegenden Erfindung.

In Schritt 101 wird eine Stellgröße u mittels eines Reglers 31 in Abhängigkeit von einem aktuellen Soll-Wert xt, d. h. einem Soll-Werts x_t für den aktuellen Regelschritt st, ermittelt.

In Schritt 102 wird die ermittelte Stellgröße u mittels eines Machine Learning Modules (ML-Modul) 33 in Abhängigkeit von dem aktuellen Soll-Wert xt und von einem Ist-Wert korrigiert, um eine korrigierte Stellgröße u‘ zu erhalten.

Die Korrektur mittels des ML-Moduls 33 kann dabei wie nachstehende beschrieben erfolgen.

Zunächst erfolgt die Bestimmung einer Korrekturgröße durch das ML-Modul. Diese Korrekurgröß kann eine Prognose der Regelabweichung für den aktuellen Regelschritt auf Basis des Soll-Werts x_t und der ermittelten Stellgröße u sein. Gemäß weiterer Ausführungsformen können dem ML-Modul zur Prognose weitere Größen zugeführt werden. Diese weiteren Größen repräsentieren bevorzugt Eigenschaften des Regelsystems bzw. des Reglers bzw. der Regelstrecke.

Dann erfolgt eine Beaufschlagung der ermittelten Stellgröße des Reglers u mit einem von der prognostizierten Regelabweichung abhängigen Wert, um eine korrigierte Stellgröße u‘ zu erhalten. Der für die Beaufschlagung vorgesehenen Wert kann bspw. ein Vielfaches der prognostizierten Regelabweichung sein.

In Schritt 103 wird die Regelstrecke 32 in Abhängigkeit der korrigierten Stellgröße u‘ geregelt.

Figur 2 zeigt ein Ablaufdiagramm des Verfahrens 200 zum Training eines ML- Moduls gemäß dem zweiten Aspekt der vorliegenden Erfindung.

In Schritt 201 wird mindestens ein Parameter des ML-Moduls 33 in Abhängigkeit von mindestens einem Eingangsdatum x_t, v des ML-Moduls 33 und einer zu dem mindestens einem Eingangsdatum x_t, v korrespondierenden korrigierten Stellgröße u‘ des Regelsystems 3 angepasst.

Figur 3 zeigt eine schematische Darstellung eines Regelsystems 3 während eines Regelschrittes 103 gemäß der vorliegenden Erfindung.

Dabei wird ein aktueller Soll-Wert x_t in das Regelsystem 3 eingeführt. Im Knoten e wird ein Soll-Ist-Vergleich zwischen dem aktuellen Soll-Wert x_t und dem korrespondierenden Ist-Wert des Regelschritts 103 durchgeführt. Das Ergebnis wird dem Regler 31 zugeführt.

Bei dem Regler kann es sich bevorzugt um einen P-, PI- oder PID-Regler handeln. Parallel zur Zuführung zu dem Regler 31 wird der aktuelle Soll-Wert xt dem ML- Modul 33 zugeführt. In der Figur 3 ist das ML-Modul 33 als künstliches neuronales Netz mit Knoten und Transitionen zwischen den Knoten dargestellt.

Das ML-Modul 33 ist auf die Ausgabe einer Korrekturgröße für die Stellgröße u des Regelsystems 3 ausgelegt. Mittels der Korrekturgröße kann die durch den Regler 31 des Regelsystems 3 ermittelten Stellgröße zu einer korrigierten Stellgröße u‘ korrigiert werden.

Die korrigierte Stellgrößte u‘ wird auf die Regelstrecke 32 gegeben. Aus der Regelstrecke 32 wird der Ist-Wert des nachfolgenden Regelschritts an den Knoten e zugeführt.

Neben dem aktuellen Soll-Wert x_t können dem ML-Modul 33 weitere Eingangsdaten v zugeführt werden, die dazu genutzt werden eine Korrekturgröße für das Regelsystem 3 auszugeben. Diese weiteren Eingangsdaten v sind optional und daher in der Figur gestrichelt dargestellt.

Diese weiteren Eingangsdaten v können Eigenschaften des Regelsystems bzw. des Reglers bzw. der Regelstrecke repräsentieren.

Figur 4 zeigt eine schematische Darstellung eines Regelsystems während eines Trainingsschrittes 201 gemäß der vorliegenden Erfindung.

Die Darstellung entspricht im Wesentlichen der Darstellung gemäß Figur 3. In der Figur 4 wird deutlich gemacht, dass das Training 200 des ML-Moduls 33 in Abhängigkeit, d. h. die Anpassung mindestens eines Parameters des ML-Moduls 33 in Abhängigkeit von mindestens einem Eingangsdatum x_t, optional v des ML- Moduls 33 und einer zu dem mindestens einem Eingangsdatum x_t, optional v korrespondierenden korrigierten Stellgröße u‘ des Regelsystems 3 erfolgt.

Claims

Ansprüche

1. Verfahren (100) zur Regelung eines Regelsystems (3) aufweisend mindestens einen Regler (31) und mindestens eine Regelstrecke (32), mit den Schritten:

Ermitteln (101) einer Stellgröße (u) mittels des Reglers (31) eines Machine Learning Modules (ML-Modul) (33), insbesondere mittels eines künstlichen neuronalen Netzwerkes, in Abhängigkeit von einem aktuellen Soll-Wert (xt);

Korrigieren (102) der ermittelten Stellgröße (u) mittels eines Machine Learning Modules (ML-Modul) (33), insbesondere mittels eines künstlichen neuronalen Netzwerkes, in Abhängigkeit des aktuellen Soll- Werts (xt) und eines Ist-Werts, um eine korrigierte Stellgröße (u‘) zu erhalten;

Regeln (103) der Regelstrecke (32) in Abhängigkeit der korrigierten Stellgröße (u‘).

2. Verfahren (100) nach Anspruch 1, wobei im Schritt des Ermittelns (101) die Stellgröße (u) Korrekturgröße in Abhängigkeit von weiteren Soll- Werten (xt-i, xt+i), die in Bezug auf den aktuellen Soll-Werte (xt) vorherige, insbesondere zeitlich vorherige, und/oder nachherige, insbesondre zeitlich nachherige, Soll-Werte (xt-i, xt, xt+1) des Regelsystems (3) repräsentieren, ermittelt wird.

3. Verfahren (100) nach Anspruch 1 oder 2, wobei im Schritt des Ermittelns (101) die Stellgröße (u) Korrekturgröße in Abhängigkeit von weiteren Größen (v), welche insbesondere Eigenschaften des Regelsystems (3) und/oder des Reglers (31) und/oder der Regelstrecke (31) repräsentieren, insbesondere Randbedingung, Temperaturen, Drücken, Drehzahlen und/oder Geschwindigkeiten, ermittelt wird.

4. Verfahren (200) zum Trainieren eines Machine Learning Modules (ML- Modul) (33), insbesondere eines künstlichen neuronalen Netzwerkes, für die Verwendung in einem Verfahren (100) nach einem der vorhergehenden Ansprüche mit dem Schritt:

Anpassen (201) mindestens eines Parameters des ML-Moduls (33) in Abhängigkeit von mindestens einem Eingangsdatum (xt, v) des ML- Moduls (33) und einer zu dem mindestens einem Eingangsdatum (xt, v) korrespondierenden korrigierten Stellgröße (u‘) des Regelsystems (3).

5. Verfahren (200) nach Anspruch 4, wobei die korrespondierende korrigierte Stellgröße die korrigierte Stellgröße (u‘t) des Regelschritts des mindestens einem Eingangsdatum (xt, v) ist.

6. Verfahren (200) nach Anspruch 4, wobei die korrespondierende korrigierte Stellgröße die korrigierte Stellegröße (u’t+1) des nachfolgenden Regelschrittes des mindestens einem Eingangsdatum (xt, v) ist.

7. Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens (100, 200) nach einem der vorhergehenden Ansprüche auszuführen

8. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 7 gespeichert ist

9. Elektronische Steuereinheit, die eingerichtet ist, alle Schritte des Verfahren (100, 200) nach einem der Ansprüche 1 bis 5 auszuführen.