WO2001086359A2

WO2001086359A2 - Fuzzy-steuerung mit reinforcement-lernverfahren

Info

Publication number: WO2001086359A2
Application number: PCT/DE2001/001653
Authority: WO
Inventors: Martin Appl
Original assignee: Siemens Aktiengesellschaft
Priority date: 2000-05-05
Filing date: 2001-05-02
Publication date: 2001-11-15
Also published as: WO2001086359A3; DE10021929A1

Abstract

Zum Ermitteln einer Steuerungsstrategie eines technischen Systems werden die Systembeschreibung mittels Fuzzy-Partitionen und entsprechend mit Fuzzy-Zugehörigkeitsfunktionen diskretisiert und in dem diskretisierten Modell wird unter Verwenden von Reinforcement-Lernens die Steuerungsstrategie zum Steuern des technischen Systems ermittelt.

Description

Beschreibung

Verfahren und Fuzzy-Steuervorrichtung zum rechnergestützten Ermitteln einer SteuerungsStrategie für ein technisches System, Computerlesbares Speichermedium und Computerprogramm- Element

Die Erfindung betrifft ein Verfahren und eine Fuzzy- Steuervorrichtung zum Ermitteln einer Steuerungsstrategie für ein technisches System sowie ein Computerlesbares Speichermedium und ein Computerprogramm-Element.

Ein solches Verfahren und eine solche Fuzzy-Steuervorrichtung sind aus [1] und [3] bekannt.

Bei dem aus [3] bekannten Verfahren wird ein zu beschreibendes und zu steuerndes technisches System, welches ursprünglich mit einem kontinuierlichen Zustandsraum und einem kontinuierlichen Aktionsrau beschrieben wird, diskretisiert.

Auf der Basis des diskretisierten Zustandsraums und des diskretisierten Aktionsraums wird das Reinforcement- Lernverfahren gemäß dem Prinzip des sogenannten „Prioritized Sweeping durchgeführt.

Diese bekannte Vorgehensweise hat insbesondere den Nachteil, dass entweder eine sehr feine Partitionierung des kontinuierlichen Raums erforderlich ist, woraus sich eine große Komplexität des zu lösenden diskreten Problems mit dem daraus resultierenden sehr großen Rechenzeitbedarf und dem damit ferner verbundenen erheblichen Speicherplatzbedarf im Rahmen der Steuerung eines technischen Systems -ergibt.

Ist die Partitionierung jedoch gröber, so wird die

Approximation des zu steuernden technischen Systems sehr ungenau. Dies führt zu einer suboptimalen, das heißt zu einer relativ schlechten Steuerstrategie, die gemäß dem Reinforce ent-Lernen ermittelt wird.

Um die erreichbare Approximationsgenauigkeit zu verbessern, ist es aus [4] bekannt, eine Interpolationsstrategie zu verwenden, was grundsätzlich dem Einsatz eines sogenannten, in [1] beschriebenen Takagi-Sugeno-Systems mit konstanten Konsequenzen in den Regeln entspricht.

Bei dem aus [4] bekannten Verfahren wird jedoch zum Training der Werte in den Zentren des Interpolationsschemas eine harte Partitionierung des Zustandsraums und des Aktionsraums durchgeführt, weshalb sich wieder die oben zuvor dargestellten Nachteile ergeben.

Weiterhin ist es aus [2] bekannt, Fuzzy-Partitionen mittels eines Fuzzy-C-Means-Clustering-Verfahrens bekannt.

Somit liegt der Erfindung das Problem zugrunde, eine Steuerungsstrategie für ein technisches System unter

Verwendung eines Reinforce ent-Lernverfahrens anzugeben, bei dem gegenüber dem aus [3] bekannten Verfahren eine verbesserte Steuerungsstrategie ermittelt wird.

Das Problem wird durch das Verfahren, die Fuzzy-

Steuerungsvorrichtung zum rechnergestützten Ermitteln einer Steuerungsstrategie für ein technisches System, durch das Computerlesbare Speichermedium und durch ein Computerprogramm-Element mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.

Bei einem Verfahren zum rechnergestützten Verfahren Ermitteln einer Steuerungsstrategie für ein technisches System wird das technische System mit einem kontinuierlichen Zustandsraum und einem kontinuierlichen oder diskretisierten Aktionsraum beschrieben. Der Zustandsraum weist Zustände auf, die das technische System grundsätzlich annehmen kann. Ferner weist der Aktionsraum Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen. Mit Trainingsdaten, die das technische System beschreiben, wird ein Modell des technischen Systems ermittelt und in Fuzzy- Partitionen gruppiert, indem Fuzzy-Zugehörigkeitsfunktionen zu den Fuzzy-Partitionen gebildet werden, mit denen zumindest der Zustandsraum beschrieben wird.

Es erfolgt eine Bewertung des Zustandsübergangs derart, dass eine Optimierung hinsichtlich der Bewertungen zu einer optimalen Steuerungsstrategie führt.

Unter Verwendung der Fuzzy-Zugehörigkeitsfunktionen wird ein Reinforcement-Lernverfahren zumindest für den Zustandsraum durchgeführt, wodurch jeweils eine Steuerungsstrategie, d.h. jeweils eine Aktion pro Zustand, ermittelt wird für jeden Zustand des Zustandsraums und eine Bewertung aller Zustands- Aktions-Paare durchgeführt wird. Das technische System wird unter Berücksichtigung der Steuerungsstrategie mittels Steuergrößen, die beispielsweise abhängig von der Steuerungsstrategie ausgewählt bzw. gebildet werden, gesteuert.

Die einzelnen Partitionen werden im weiteren auch als Cluster bezeichnet.

Durch die Erfindung wird insbesondere erreicht, dass die Approximationsgenauigkeit und damit das Ermitteln der Steuerungsgrößen erheblich beschleunigt, das heißt mit verringertem Rechenzeitbedarf durchführbar wird.

Ferner wird die ermittelte Steuerungsstrategie hinsichtlich des Gewinns als Optimierungsgroße innerhalb des Reinforcement-Lernverfahrens erheblich gegenüber dem Stand der Technik verbessert. Auch werden die Anzahl der zur Approximation des technischen Systems erforderlichen Partitionen, insbesondere die zur Beschreibung der Partitionen verwendeten Zentren einer Partition erheblich verringert.

Aufgrund der Verringerung der benötigten Anzahl an Partitions-Zentren wird eine schnellere Berechnung der Q- Funktion im Rahmen des Reinforcement-Lernverfahrens bei höherer Genauigkeit ermöglicht.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Für jeden Zustand des Zustandsraums und die entsprechenden Aktionen des Aktionsraums kann jeweils ein Q-Wert als

Steuerungssträtegie, d.h. der Bewertung der Ausführung der Aktion in dem Zustand ermittelt wird.

Ferner können in den Konklusionen der Fuzzy-Regeln des Fuzzy- Systems, welches gemäß dem Reinforcement-Lernverfahrens gebildet wird, welches die Q-Funktion approximiert, lineare Terme verwendet werden.

Auf diese' Weise wird ein schnell und dennoch exaktes Ermitteln der Steuerungsstrategie möglich, das das Modell sehr genau wiedergibt.

Gemäß einer weiteren Ausgestaltung der Erfindung wird das Reinforcement-Lernverfahren durchgeführt, indem insbesondere solche Aktionen, d.h. solche Experimente ausgeführt werden, die ein vorgegebenes Kriterium erfüllen.

Auf diese Weise wird eine optimierte Auswahl von Aktionen, d.h. Experimenten möglich, wodurch die benötigte Anzahl von Experimenten minimiert wird und somit das Lernen beschleunigt ' wird. Das Kriterium kann ein zu erwartender Informationsgewinn über die bedingten Zustandsübergangs-Wahrscheinlichkeiten innerhalb des Reinforcement-Lernverfahrens sein.

Aus einem Informationsgewinn kann jeweils ein zukünftiger Gewinn geschätzt werden. Es können insbesondere nur oder im wesentlichen nur die Aktionen ausgewählt und durchgeführt, die hinsichtlich des unmittelbar oder mittelbar zu erwartenden Informationsgewinn besser sind als ein vorgebbarer Mindest-Informationsgewinn.

Die Erfindung kann vorteilhaft eingesetzt werden allgemein zur Steuerung eines Verkehrssystems als technisches System, insbesondere zur Steuerung, d.h. zur Auswahl eines Rahmensignalplans zur Steuerung von Ampeln innerhalb eines Verkehrsnetzes. Somit kann beispielsweise aufgrund der Steuerungsstrategie ein Rahmensignalplan ausgewählt werden und aufgrund des ausgewählten Rahmensignalplans können entsprechende Steuersignale an Ampeln eines Verkehrsnetzes übermittelt werden, die die Ampeln gemäß dem ausgewählten

Rahmensignalplan ansteuern.

Für jede Fuzzy-Partition im Zustandsraum und in dem Aktionsraum kann ein Informationsgewinn ermittelt werden, der aus früheren Ausführungen von zu dieser entsprechenden Fuzzy- Partition gehörenden Aktionen in die entsprechenden Zustände resultierte.

Gemäß einer weiteren Ausgestaltung der Erfindung sind Zähler vorgesehen, mit denen die Anzahl von Ausführungen von

Aktionen in einem Zustand des technischen Systems und die Anzahl von Zustandsübergängen von einem Anfangszustand, d.h. einen Vorgängerzustand in einen Nachfolgezustand aufgrund der Aktion bis zu der Iteration angegeben wird. Die den Zählern zugeordneten Werte werden bei Ermitteln eines neuen

Zustandsübergangs abhängig von dem Grad der Zugehörigkeit der Zustände bzw. der Zustandsübergänge zu den jeweiligen Fuzzy- Clustern aktualisiert.

Die Zustandsübergangs-Wahrscheinlichkeiten können im Rahmen des Reinforcement-Lernverfahrens abhängig von den Zählern ermittelt werden.

Ferner werden gemäß einer weiteren Weiterbildung der Erfindung zu Beginn des Verfahrens Fuzzy-Partitionen gebildet, indem in einem iterativen Verfahren ausgehend von einer vorgegebenen Menge von Ausgangs-Partitions-Untermengen diese aufgeteilt werden in mehrere Fuzzy-Partitions- Untermengen oder zusammengeführt werden aus mehreren Fuzzy- Partitions-Untermengen in eine Fuzzy-Partitions-Untermenge, abhängig von den ermittelten Trainingsdaten.

Zu Beginn des Verfahrens können alternativ die Fuzzy- Partitionen gemäß dem Fuzzy-C-Means-Clustering-Verfahren gebildet werden.

Anschaulich kann die Erfindung darin gesehen werden, dass zur Steuerung eines technischen Systems die Systembeschreibung mittels Fuzzy-Partitionen und entsprechend mit Fuzzy- Zugehörigkeitsfunktionen diskretisiert werden und in dem diskretisierten Modell unter Verwenden von Reinforcement-

Lernens eine Steuerungsstrategie zum Steuern des technischen Systems ermittelt wird.

Eine Fuzzy-Steuervorrichtung weist einen Prozessor auf, der derart eingerichtet ist, dass die oben beschriebenen Verfahrensschritte durchführbar sind.

In einem Computerlesbaren Speichermedium ist ein Programm gespeichert, das bei dessen Ausführung die Verfahrensschritte des oben beschriebenen Verfahrens aufweist. Ferner weist ein Computerprogramm-Element bei dessen Ausführung durch einen Prozessor ebenfalls die Verfahrensschritte des oben beschriebenen Verfahrens auf.

Die Erfindung kann sowohl als Computerprogramm, also in Software, als auch mittels einer speziellen elektronischen Schaltung, also in Hardware, realisiert werden.

Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im weiteren näher erläutert.

Es zeigen

Figur 1 ein Ablaufdiagramm, in dem die einzelnen

Verfahrensschritte des Verfahrens gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;

Figur 2 eine Skizze eines Verkehrsnetzes, anhand dem ein

Ausführungsbeispiel der Erfindung dargestellt wird;

Figur 3 eine Skizze eines zentralen Steuerrechners, der mit einzelnen Sensoren in dem Verkehrsnetz gekoppelt ist;

Figuren 4a bis 4d eine Vielzahl von Signalbildern gemäß unterschiedlichen Rahmensignalplänen für verschiedene Kreuzungen des Verkehrsnetzes aus Figur 2;

Figur 5 eine Skizze eines Rahmensignals;

Figur 6 eine Darstellung von Fuzzy-Partitionen und deren Zugehörigkeitsfunktionen;

Figuren 7a und 7b Darstellungen von unterschiedlichen Clustern.

Fig.2 zeigt ein Verkehrsnetz 200, anhand dessen im folgenden das Training und die Auswahl einer verkehrsabhängigen Auswahl eines Rahmensignalplans aus einer Vielzahl gespeicherter Rahmensignalpläne erläutert wird.

Das Verkehrsnetz 200 weist eine erste Straße 201 auf, die von einem Wohngebiet 202 zu einem Gewerbegebiet 203 führt. Das Wohngebiet 202 befindet sich im Westen einer Stadt 204 und das Gewerbegebiet 203 liegt im Osten der Stadt 204.

Eine zweite Straße 205 führt von einem sich im Norden der Stadt 204 befindenden ersten Einkaufsgebiet 206 zu einem zweiten Einkaufsgebiet 207 mit Freizeitzentrum, welches im Süden der Stadt 204 liegt.

Die erste Straße 201 und die zweite Straße 205 kreuzen einander an einer ersten Kreuzung 208.

Weiterhin weist das Verkehrsnetz 200 eine dritte Straße 209 auf, die sich von der ersten Straße 201 aus von einer zweiten Kreuzung 210 bis zu einer dritten Kreuzung 211, die sich an der zweiten Straße 205 befindet, erstreckt. Anschaulich stellt somit die dritte Straße 209 eine Diagonalverbindung von der ersten Straße 201 zu der zweiten Straße 205 dar, wobei die zweite Kreuzung 210 westlich von der ersten Kreuzung 208 liegt, das heißt die zweite Kreuzung 210 liegt näher an dem Wohngebiet 202 als an dem Gewerbegebiet 203.

Weiterhin führt eine vierte Straße 212 von der dritten Kreuzung 211 zu einer vierten Kreuzung 213, wobei die vierte Kreuzung 213 auf der ersten Straße 201 östlich von der ersten Kreuzung 208 liegt, das heißt näher an dem Gewerbegebiet 203 als an dem Wohngebiet 202.

An jeder Kreuzung sind für jede Richtung, die ein Fahrzeug auf der Straße fahren kann, Ampeln vorgesehen, die den Verkehrsfluss an der jeweiligen Kreuzung 208, 210, 211, 213, steuern. Die Ampeln werden von einer im Weiteren beschriebenen zentralen Steuereinheit gesteuert.

Ferner sind auf den Straßen Sensoren 215 vorgesehen, mit dem die Anzahl der an dem Sensor vorbeifahrenden oder über den Sensor fahrenden Fahrzeuge erfasst werden können.

Ein solcher Sensor 215 kann beispielsweise eine Leiterschleife sein, die in die jeweilige Straße eingebracht ist oder auch eine Lichtschranke oder ein Ultraschallsensor, mit denen jeweils das Vorbeifahren eines Fahrzeugs an dem jeweiligen Sensor in einer vorgegebenen Richtung, für die der Sensor 215 vorgesehen ist, sein.

Jedes Mal, wenn ein Fahrzeug den Sensor 215 passiert, wird von dem Sensor 215 ein Erfassungssignal an einen im weiteren beschriebenen zentralen Rechner 301 übertragen.

Alternativ kann in dem Sensor 215 auch ein Zähler vorgesehen sein, der für eine vorgegebene Zeitdauer für jedes den Sensor 215 passierende Fahrzeug den Zähler inkrementiert wird und nach Ablauf der vorgegebenen Zeitdauer wird der Zählerstand an den zentralen Steuerrechner 301 übermittelt und anschließend wird der Zähler auf einen vorgegebenen Zählerstand zurückgesetzt.

In der Stadt 204 ergeben sich zu unterschiedlichen Tageszeiten unterschiedliche Anforderungen an die Schaltung, d.h. die Steuerung der Ampeln 214, da unterschiedliche Arten von Verkehrsströmen und unterschiedliche Hauptbelastungen zu unterschiedlichen Tageszeiten innerhalb des Verkehrsnetzes 200 auftreten.

So kommt es an einem Morgen eines Tages, das heißt im wesentlichen in einer Zeit von 6.00 Uhr bis 9.30 Uhr, vornehmlich zu Berufsverkehr, der vom Wohngebiet 202 in das Gewerbegebiet 203, das erste Einkaufsgebiet 206 und das zweite Einkaufsgebiet 207 führt.

Vormittags, das heißt im wesentlichen in einer Zeit von 9.30 Uhr bis 12.00 Uhr eines Tages kommt es zu einer Hauptverkehrsrichtung gerichtet von dem Wohngebiet 202 zu dem ersten Einkaufsgebiet 206 und dem zweiten Einkaufsgebiet 207, wobei der Verkehrsfluss einem Einkaufsverkehr der Bewohner der Stadt 204 entspricht.

Nachmittags, das heißt im wesentlichen in einer Zeit von 12.00 Uhr bis 16.00 Uhr, kommt es neben dem Einkaufsverkehr wiederum zu Berufsverkehr, hauptsächlich von dem Gewerbegebiet 203 gerichtet zu dem Wohngebiet 202.

Abends, das heißt im wesentlichen in einer Zeit von 16.00 Uhr bis 21.00 Uhr, ist der hauptsächliche Verkehr zwischen dem Wohngebiet 202 und dem Freizeitzentrum in dem zweiten Einkaufsgebiet 207 zu verzeichnen.

Gemäß diesem Ausführungsbeispiel wird von den Sensoren 215 die Sensorbelegung B, die definiert ist als Zeit, in der der Sensor 215 belegt ist im Verhältnis zu der Zeitdauer, während der die Belegung erfasst wird, erfasst. Die Sensorbelegung B kann beispielsweise mittels einer Induktionsschleife als

Sensor 215 ermittelt werden. Alternativ, beispielsweise bei einem Erfassen einer Verkehrskenngröße mittels eines visuellen Sensors, kann die Verkehrsdichte p gemessen werden. Die Belegung B, die zumeist ähnlich ist der Verkehrsdichte p ergibt sich somit jeweils an einem Sensor 215 gemäß folgender Vorschrift:

_B = _t_h_ « _p = Anzahl Fahrzeug.-_e, ₍₁₎ t Streckenlänge

wobei mit • tb die Zeit bezeichnet wird, während der der Sensor belegt ist, d.h. während der sich ein Fahrzeug über dem Sensor befindet, und

• t die Zeitdauer bezeichnet wird, während der die Anzahl m der Fahrzeuge ermittelt wird.

Gemäß diesem Ausführungsbeispiel wird jeweils an jedem Sensor 215 für eine Zeitdauer t von 15 Minuten die mittlere Belegung B des Sensors 215 ermittelt und anschließend wird die gemäß Vorschrift (1) ermittelte mittlere Belegung B an den im weiteren beschriebenen zentralen Steuerrechner 301 übermittelt.

Fig.3 zeigt den zentralen Steuerrechner 301, der mit den Sensoren 215 beispielsweise über eine Funkverbindung oder eine leitungsgebundene Verbindung 302 gekoppelt ist.

Der Steuerrechner 301 weist eine Eingangs-/Ausgangs- Schnittstelle 303 sowie eine zentrale Prozessoreinheit 304 und einen Speicher 305 auf, die jeweils über einen Computerbus 306 miteinander gekoppelt sind.

Ferner ist über die Eingangs-/Ausgangs-Schnittstelle 303 über eine erste Verbindung 307, z.B. über ein Kabel oder eine Infrarot-Funkverbindung eine Computermaus 308 mit dem Steuerrechner 301 gekoppelt.

Über eine zweite Verbindung 309 ist ein Bildschirm 310 mit der Eingangs-/Ausgangs-Schnittstelle 303 gekoppelt.

Ferner ist mit der Eingangs-/Ausgangs-Schnittstelle 303 eine Tastatur 312 über eine dritte Verbindung 311 gekoppelt.

Gemäß diesem Ausführungsbeispiel ist in dem Speicher 305 des Steuerrechners 301 eine Vielzahl von Rahmensignalplänen 313 gespeichert. Die Vielzahl der Rahmensignalpläne 313 ist in der folgenden Tabelle dargestellt, wobei mit AI, A2, Bl, B2, B3, Cl, C2, Dl, D2, D3 jeweils Signalbilder für die erste Kreuzung 208 (Bl, B2, B3), die zweite Kreuzung 210 (AI, A2) , die dritte Kreuzung 211 (Dl, D2, D3) sowie die vierte Kreuzung 213 (Cl, C2) , wie sie in Fig. dargestellt sind, bezeichnet werden.

Gemäß dem Ausführungsbeispiel sind drei Rahmensignalpläne RSP1, RSP2, RSP3 in dem Speicher 305 gespeichert, wie in der folgenden Tabelle dargestellt:

Ein Rahmensignalplan weist eine Menge sogenannter

Rahmensignale auf, die jeweils einen Verkehrsstrom bestimmen, in welchen zeitlichen Beschränkungen welche Zustände der auf diesen Verkehrsstrom wirkenden Lichtsignale an den Ampeln 214 erlaubt sind.

Ein Beispiel-Rahmensignal ist in Fig.5 dargestellt. Eine Periode eines Lichtsignals 501 des Rahmensignals 500 weist einen Anforderungsbereich 502 und einen Verlängerungsbereich 503 auf.

Innerhalb dieses zeitlichen Rahmens kann eine lokale Optimierung hinsichtlich der im weiteren genannten Ziele, insbesondere einer Optimierung des VerkehrsStroms, durchgeführt werden, beispielsweise durch Ausdehnung von Grünphasen oder eine Bevorrechtigung des öffentlichen Nahverkehrs . Innerhalb des Anforderungsbereichs 502 können insbesondere bei anstehendem Verkehr, das heißt bei an der Ampel 214 stehenden oder sich einer jeweiligen Ampel 214 nähernden Fahrzeugen, Grünphasen der Ampel 214 eingeleitet werden, die innerhalb des Verlängerungsbereichs 504 beendet werden müssen.

In den Fig. a bis Fig.4d sind durch die Pfeile jeweils die während der Dauer, das heißt der Gültigkeit des jeweiligen Signalbildes zulässigen Fahrrichtungen der Fahrzeuge an der jeweiligen Kreuzung dargestellt.

Die Zahlen in der oben dargestellten Tabelle zu einem jeweiligen Signalbild, wie es in den Fig.4a bis Fig.4d dargestellt ist, entsprechen der Dauer der Gültigkeit des jeweiligen Signalbildes pro Periode des jeweiligen Rahmensignalplans .

So gibt beispielsweise der erste Rahmensignalplan RSP1 an, dass ein in Fig. a dargestelltes erstes Signalbild 401 aufgrund der Zahl 60 verglichen mit dem zweiten Signalbild 402 (zugeordnete Wertezahl 30) eine doppelt so lange Gültigkeitsdauer aufweist.

Gemäß dem zweiten Rahmensignalplan RSP2 und dem dritten

Rahmensignalplan RSP3, haben das erste Signalbild 401 und das zweite Signalbild 402 jeweils die gleiche Gültigkeitsdauer (jeweils beiden Signalbildern 401, 402 ist die gleiche Wertezahl 45 zugeordnet) .

Anschaulich bedeutet dies, dass an der zweiten Kreuzung 205 aufgrund der Ampelschaltung die Ampeln 214 derart geschaltet sind, dass der in dem ersten Signalbild 401 bzw.- dem zweiten Signalbild 402 dargestellte Verkehrsstrom jeweils in gleicher Gewichtung möglich ist. Der erste Rahmensignalplan RSP1 gibt für die erste Kreuzung 208 in einem in Fig. b dargestellten dritten Signalbild 403, vierten Signalbild 404 und fünften Signalbild 405 vor, dass das dritte Signalbild 403 doppelt so lange Gültigkeit pro Periode hat wie das vierte Signalbild 404 und dass das fünfte Signalbild 405 aufgrund der Ampelschaltung der Ampel 214 an der ersten Kreuzung 208 gar nicht gebildet wird (Wertezahl drittes Signalbild 403: 60, Wertezahl viertes Signalbild 404: 30, Wertezahl fünftes Signalbild 405: 0) .

Gemäß dem zweiten Rahmensignalplan RSP2 sind das dritte Signalbild 403 und das vierte Signalbild 404 gleich gewichtet und das fünfte Signalbild 405 wird aufgrund der Ampelsteuerung nicht gebildet (Wertezahl drittes Signalbild 403: 45, Wertezahl viertes Signalbild 404: 45, Wertezahl fünftes Signalbild 405: 0) .

Gemäß dem dritten Rahmensignalplan RSP3 ist das fünfte Signalbild 405 durch die AmpelSchaltung der Ampeln 214 an der ersten Kreuzung 208 erheblich stärker gewichtet als das dritte Signalbild 403 und das vierte Signalbild 404 (Wertezahl drittes Signalbild 403: 20, Wertezahl viertes Signalbild 404: 20, Wertezahl fünftes Signalbild 405: 50).

An der dritten Kreuzung 211 erfolgt gemäß dem ersten

Rahmensignalplan RSP1 die Ampelschaltung der Ampeln 214 derart, dass das in Fig.4c dargestellte sechste Signalbild 406 halb so stark gewichtet wird, das heißt eine verglichen mit dem achten Signalbild 408 nur eine halbe Gültigkeitsdauer aufweist. Das siebte Signalbild 407 wird gemäß dem ersten Rahmensignalplan RSP1 überhaupt nicht erzeugt (Wertezahl sechstes Signalbild 406: 30, Wertezahl siebtes Signalbild 407: 0, Wertezahl achtes Signalbild 408: 60).

Gemäß dem zweiten Rahmensignalplan RSP2 sind das sechste

Signalbild 406 und das achte Signalbild 408 gleich gewichtet (Wertezahl sechstes Signalbild 406: 45, Wertezahl siebtes Signalbild 407: 0, Wertezahl achtes Signalbild 408: 45) und gemäß dem dritten Rahmensignalplan RSP3 ist das siebte Signalbild 407 erheblich stärker gewichtet als das sechste Signalbild 406 und das achte Signalbild 408 (Wertezahl sechstes Signalbild 406: 15, Wertezahl siebtes Signalbild 407: 65, Wertezahl achtes Signalbild 408: 10).

An der vierten Kreuzung 213 wird gemäß dem ersten Rahmensignalplan RSP1 das in Fig.4d dargestellte neunte Signalbild 409 doppelt so stark gewichtet, das heißt es weist eine doppelt so lange Gültigkeitsdauer auf, als das zehnte Signalbild 410 (Wertezahl neuntes Signalbild 409: 60, Wertezahl zehntes Signalbild 410: 30).

Gemäß dem zweiten Rahmensignalplan RSP2 und dem dritten

Rahmensignalplan RSP3 weisen die beiden Signalbilder 409, 410 jeweils eine gleiche Gültigkeitsdauer pro Periode auf (Wertezahl neuntes Signalbild 409: 45, Wertezahl zehntes Signalbild 410: 45) .

Wie aus der oben dargestellten Tabelle ersichtlich ist, stellt der erste Rahmensignalplan RSP1 eine hinsichtlich des Berufsverkehrs optimierte Ampelschaltung der Ampeln 214 in dem Verkehrsnetz 200 dar.

Der zweite Rahmensignalplan RSP2 gewichtet alle Verbindungen in dem Verkehrsnetz weitgehend gleichmäßig, so dass auch zwischen dem ersten Einkaufsgebiet und dem zweiten Einkaufsgebiet 207 eine gute Verbindung, das heißt ein guter Verkehrsfluss hinsichtlich der jeweiligen Anforderungen möglich ist.

Der dritte Rahmensignalplan RSP3 ist hinsichtlich des Verkehrs zwischen dem Wohngebiet 202 und dem südlich gelegenen zweiten Einkaufsgebiet 207 optimiert, das heißt es bevorzugt den Verkehrsfluss zwischen dem Wohngebiet 202 und dem zweiten Einkaufsgebiet 207. Von dem zentralen Steuerrechner 301 wird gemäß dem im weiteren beschriebenen Reinforcement-Lernverfahren unter Verwendung von Fuzzy-Zugehörigkeitsfunktionen und Fuzzy- Partitionen eine optimierte Auswahl der Rahmensignalpläne zum Gewährleisten eines maximalen Gewinns, der gemäß diesem Ausführungsbeispiel als Summe der quadrierten mittleren relativen Verkehrsdichten pro Strecke 1, beispielsweise vor einer Kreuzung, verwendet wird, das heißt der Gewinn g des im weiteren beschriebenen Reinforcement-Lernverfahrens zur Ermittlung der optimierten Kontrollstrategie, das heißt Steuerungsstrategie, die gebildet wird durch die entsprechende Auswahl des für die ermittelten Verkehrsdichten p, die mit den mittleren Belegungen B angenähert werden, im Zusammenhang mit dem Reinforcement-Lernverfahren optimierte Auswahl des Rahmensignalplans RSP1, RSP2, RSP3 gemäß folgender Vorschrift:

wobei mit

• Pl,max die maximal mögliche Verkehrsdichte und mit

• p-_j_ die mittlere Verkehrsdichte an der Strecke 1 am Ende einer Periode von 15 Minuten

bezeichnet wird.

Anschaulich hat der Steuerrechner 301 somit eine Strategie zu lernen, die die Summe der Gewinne g minimiert.

Die Grundidee der Vorschrift (2) kann darin gesehen werden, dass durch die Auswahl der Rahmensignalpläne die mittlere Verkehrsdichte in dem Verkehrsnetz 200 minimiert werden soll, wobei durch die Quadratur der Terme bezüglich der einzelnen Strecken 1 ein homogener Netzzustand mit mittleren Verkehrsdichten an allen Strecken 1 besser bewertet wird, als ein Zustand mit sehr geringen Verkehrsdichten an einigen Strecken 1 bei gleichzeitigen Staus an anderen Strecken 1.

Bei den im weiteren beschriebenen Ausführungsbeispielen sind für alle Lernverfahren, die über einen Zeitraum von jeweils 90 Sekunden gemittelten relativen Fahrzeugdichten, die gemäß folgender Vorschrift gebildet werden an den Stellen des Verkehrsnetzes, an denen Sensoren 215 vorhanden sind, ermittelt:

Prel ^{= • (3)}

Pmax

In Fig.2 ist dies jeweils durch Darstellungen von einzelnen Verkehrsdichtenverläufen 216, 217, 218 symbolisch dargestellt.

Die relativen Verkehrsdichten werden nichtlinear gemäß folgender Vorschrift:

Prel

verzerrt, so dass sich im Bereich kleiner Verkehrsdichten grundsätzlich eine höhere Auflösung ergibt als im Bereich hoher Verkehrsdichten.

Im weiteren wird eine Modell-Beschreibung des Verkehrsnetzes 200 und dessen Steuerung als technisches System in allgemeiner Form als endlicher Zustandsautomat mit einer Menge kontinuierlicher Zustände und kontinuierlicher Aktionen, aufgrund derer ein Zustandsübergang von einem Vorgängerzustand in einen Nachfolgezustand ausgelöst wird, beschrieben. Der Aktionsraum kann sowohl kontinuierlich als auch diskret sein.

Allgemein wird das zu steuernde technische System erfindungsgemäß unter Verwendung folgender Komponenten beschrieben:

Das technische System weist einen kontinuierlichen

Zustandsraum X der Dimension d auf.

Ferner weist das technische System einen kontinuierlichen Aktionsraum A der Dimension d auf oder einen diskreten Raum U.

Mit bedingten Wahrscheinlichkeitsdichtefunktionen p(y, x, a) wird die Wahrscheinlichkeit für einen Übergang von einem Zustand x in einen Zustand y bei Ausführung der Aktion a beschrieben.

Mit einem Gewinn g(x, a, y) im Sinne eines Reinforcement- Lernens wird ein Gewinn g(x, a, y) beschrieben bei Ausführung einer Aktion a in dem Vorgängerzustand x, wenn das technische System aufgrund der Steuerung in einen Nachfolgezustand y aufgrund der Aktion a übergeht.

Der Zustandsraum ist in Fuzzy-Partitionen mit Fuzzy- Zugehörigkeitsfunktionen jμ. Y _ w gruppiert, für die gilt:

Die Fuzzy-Partitionen werden mit

{^Xi)i=l,...,N ⁽6⁾ bezeichnet und weisen jeweils ein Fuzzy-Zentrum auf, das mit

bezeichnet wird.

Ferner ist auch der Aktionsraum A in Fuzzy-Partitionen mit Zugehörigkeitsfunktionen

für die gilt:

u=l

Die Fuzzy-Partitionen des^' Aktionsraums A werden mit

{^Au}_u=l,...,N^{Ä '} ^

bezeichnet und weisen jeweils Fuzzy-Zentren

feuLi,...,N^A <¹⁰⁾

auf.

Erfindungsgemäß sind unterschiedliche Möglichkeiten zum Bilden der Fuzzy-Partitionen des Zustandsraums vorgesehen.

Es werden somit Fuzzy-Partitionen

e c (11)

gebildet.

Gemäß einer Alternative kann zur Bildung der Fuzzy- Partitionen des Zustandsraums X ein Fuzzy-C-Means- Clustering, wie es in [2] beschrieben ist, durchgeführt werden.

Gemäß einer weiteren Alternative ist es vorgesehen, die Fuzzy-Partitionen auf eine Weise zu bilden, wie sie in Fig.6 dargestellt ist.

Die relative Verkehrsdichte ist in einem Intervall von „0' bis „l" in vier Partitionen 601, 602, 603, 604 gruppiert, denen jeweils über einen vorgegebenen Intervall

Zugehörigkeitsfunktionen 605, 606, 607, 608 zugeordnet sind.

Eine erste Fuzzy-Zugehörigkeitsfunktion 605 beschreibt eine sehr geringe Verkehrsdichte "very small", eine zweite Fuzzy- Zugehörigkeitsfunktion 606 eine geringe Verkehrsdichte

"small", eine dritte Fuzzy-Zugehörigkeitsfunktion 607 eine hohe Verkehrsdichte "high" und eine vierte Fuzzy- Zugehörigkeitsfunktion 608 eine sehr hohe Verkehrsdichte "very high" .

Die in Fig.6 dargestellten Fuzzy-Zentren und Grenzen der einzelnen Fuzzy-Zugehörigkeitsfunktionen und Fuzzy- Partitionen können alternativ gemäß folgender Vorgehensweise bestimmt werden.

Zustandsübergänge des oben dargestellten technischen Systems (x_k, Ufc, X]_₊ir g ) können durch Vektoren (x^, X_jζ+i ςf ) i-ⁿ einem Zustandsübergangs-Raum T := ' x K' x 31 beschrieben werden, wobei ' und tt" den gleichen Zustandsraum X bezeichnen.

Im weiteren wird ein Clustering der Fuzzy-Cluster durchgeführt in dem Zustandsübergangs-Raum T aufgrund der beobachteten Zustandsübergänge während einer Lernphase unter Verwendung von Trainingsdaten, die aus einem technischen System ermittelt werden, beispielsweise durch Messung oder auch durch Simulation des technischen Systems, gemäß diesem Ausführungsbeispiel mit den ermittelten Verkehrsdichten als Trainingsdaten.

Für jede Aktion u e U werden separate Cluster, das heißt Fuzzy-Partitionen, verwendet.

Ferner wird ein Clustering in dem Zustandsraum X durchgeführt unter Verwendung der beobachteten Zustände während der oben beschriebenen Lernphase.

Es ist anzumerken, dass gemäß dem im weiteren beschriebenen Verfahren das Clustern der Zustände und der Zustandsübergänge inkrementell durchgeführt wird, so dass keine Zustandsübergänge explizit gespeichert werden müssen,, wie dies gemäß dem Fuzzy-C-Means-Clustering, das jedoch ohne weiteres gemäß einer weiteren Alternative durchgeführt werden kann, erforderlich wäre.

Ergebnis des Fuzzy-Clusterings, das heißt des Bildens der Fuzzy-Partitionen mit den zugehörigen Fuzzy- Zugehörigkeitsfunktionen sind unmittelbar die Fuzzy- Partitionen des Zustandsraums , die in dem im weiteren beschriebenen Reinforcement-Lernverfahrens und der sich daraus ergebenden Steuerungsstrategie verwendet werden.

Die Cluster in dem Zustandsübergangs-Raum dienen als kompakte Beschreibung der beobachteten Zustandsübergänge, aus dem das Modell,. das heißt die bedingten Zustandsübergangswahrscheinlichkeiten, wie sie oben beschrieben worden sind, und die Gewinne g, wie im weiteren beschrieben, ermittelt werden können.

Außerdem werden die Cluster in dem Zustandsübergangs-Raum verwendet zum Bestimmen von im weiteren beschriebenen optional vorgesehenem Aufspalten und Vereinigen von Clustern während des Bildens der Fuzzy-Partitionen im Rahmen des inkrementellen Verfahrens . Das Aufspalten bzw. Vereinigen von einem Fuzzy-Cluster wird anhand der Fig.7a und Fig.7b beschrieben.

Gemäß der in Fig.7a beschriebenen Situation wird angenommen, dass ein Zustandsübergang von einem Zustand

xj = 4.3 (12)

in einen Zustand

~T ϊl 2.8. (13)

und von ferner von einem Zustand

x = 5.8 (14)

in einen Zustand

f₂ - ι (15)

mit einem identischen Gewinn von

beobachtet wird.

Das mittlere Cluster 701 der drei in Fig.7a dargestellten Cluster 701, 702, 703 würde es bei dessen Aufspalten ermöglichen, im Rahmen des Lernens zwischen diesen zwei

Klassen von Zustandsübergängen in dem diskretisierten Modell zu unterscheiden. In dem in Fig.7b dargestellten Beispiel, bei dem alle Zustandsübergänge in einem Bereich des mittleren Clusters 701 beginnen und in einem ähnlichen Endzustand

g * y » 5.2 (17)

enden, wobei jedoch zwei unterschiedliche Klassen von Gewinnen

und

^L2 = 0.5 (19)

in der Trainingsphase beobachtet werden, würde eine Aufspaltung des mittleren Clusters 701 eine verbesserte Unterscheidung dieser Klassen in den Zustandsübergängen ermöglichen.

Somit ist ersichtlich, dass in den in Fig.7a und in Fig.7b dargestellten Fällen jedes Mal ein Aufspalten des mittleren Clusters 701 eine Verbesserung des Lernverfahrens und des durch das Lernverfahren gebildeten Fuzzy-Sets von Fuzzy- Partitionen erzielen würde.

Eine entsprechende Vorgehensweise kann gemäß einer optionalen Erweiterung der Vorgehensweise durch Vereinigen von einzelnen Fuzzy-Partitionen, das heißt von Clustern, erreicht werden, wobei beim Vereinigen grundsätzlich eine analoge

Vorgehensweise gewählt wird verglichen mit dem Aufteilen der Partitionen.

Im weiteren werden die einzelnen Abschnitte des Verfahrens zum Bilden der Fuzzy-Partitionen, das heißt das Clustering des Zustandsraums X und in dem Zustandsübergangs-Raum T, das Erhöhen der Genauigkeit der Cluster in dem Zustandsraum aufgrund der Cluster in T und schließlich das Ableiten des diskretisierten Modells aus den geclusterten Zustandsübergängen beschrieben.

Das Clustern des Zustandsraums X in Fuzzy-Partitionen wird verwendet zum Beschreiben einer im weiteren beschriebenen Q- Funktion im Zusammenhang mit einem Reinforcement- Lernverfahren.

Die Cluster werden auf inkrementelle Weise erzeugt.

Jedes Cluster c. wird zu der jeweiligen Iteration k gekennzeichnet durch das jeweilige Cluster-Zentrum ,

einen Zählerwert zum Zählen der Anzahl der Zustände,

die dem Cluster c^ aufgrund der vorangegangenen

Verfahrensschritte, das heißt Iterationen, zugeordnet worden sind und einer Diagonalmatrix , die im weiteren auch als

Skalierungsmatrix bezeichnet wird, durch die die Größe des jeweiligen Clusters bestimmt wird.

Im weiteren wird die Gesamtheit aller Cluster in dem Zustandsraum zu einer Iteration k bezeichnet mit Cj .

Ein Abstand dist^l , c^ j \ eines Zustands x e tt zu einem

Cluster c K- ist gegeben durch folgende Vorschrift:

Aufgrund der gemäß diesem Ausführungsbeispiel, allgemein nicht erforderlichen, vorgesehenen Diagonalform der Skalierungsmatrix A _k sind alle Cluster in allen Dimensionen symmetrisch. Jedoch kann die Skalierung der Dimensionen variiert werden.

Zu Beginn des Verfahrens werden alle Cluster mit der gleichen Skalierungsmatrix A -K initialisiert.

Wie im weiteren noch näher erläutert wird, wird aufgrund eines Aufteilens eines Clusters in zwei Cluster hinsichtlich einer Dimension d eine Reduzierung der Größe des jeweiligen Clusters in der jeweiligen Dimension d erreicht.

Wird während der Lernphase ein neuer Zustand x^ ermittelt, so wird der Abstand des neu ermittelten Zustands x^ zu allen existierenden Clustern bestimmt.

Wenn kein Cluster c- existiert, zu dem der Abstand distj , c- I des neuen Zustands x_k kleiner ist als ein vorgegebener maximaler Abstand d_maχ so wird ein neues Cluster c , mit einem neuen Zentrum

und einem auf den Wert „0* initialisierten neuen Zähler

M^_k := 0 (22!

und einer neuen Skalierungsmatrix

i',k ^:= ^ ⁽²³⁾

erzeugt.

Der maximale Abstand d_max kann von dem Benutzer vorgegeben werden und hängt üblicherweise ab von der Initialisierungs- Diagonalmatrix A.K

1I,,,K_ und der gewünschten Größe der initialisierten Cluster.

Das Cluster cV^ ^{e c u} dem der neue Zustand x^ den

^'iθ geringsten Abstand aufweist, wird in einem weiteren Schritt in Richtung des neu ermittelten Zustands X]_ innerhalb des Zustandsraums X verschoben.

Die Schrittgröße des jeweiligen Verschiebeschritts wird bestimmt durch die Fuzzy-Zugehörigkeitsfunktion gemäß folgender Vorschrift:

des neuen Zustands xv in dem Cluster c. und der Anzahl von

-^κ 10

Zuständen, die zuvor dem Cluster c. zugeordnet worden sind,

¹0 w bezeichnet mit M. , , womit sich ein neuer Zählerwert iQ' und ein neues , aktualisiertes Zentrum des

jeweils ausgewählten Clusters c .«. ergeben gemäß folgenden Vorschriften:

Diese alternative Vorgehensweise kann anschaulich als eine inkrementelle Variante des in [2] beschriebenen Fuzzy-C- Means-Clustering-Verfahrens angesehen werden.

Gemäß diesem Ausführungsbeispiel wird ein Fuzzifizierungswert m in Vorschrift (24) mit dem Wert 2 verwendet.

In einer alternativen Vorgehensweise ist es möglich, an

Stelle lediglich des ausgewählten Zentrums x ~X. , . die Zentren aller Cluster in Richtung des neu ermittelten Zustands k ^zu verschieben.

Ziel des im weiteren beschriebenen Clusterings des Zustandsübergangs-Raums T ist es, eine kompakte Beschreibung der beobachteten Zustandsübergänge während der Lernphase zu erzeugen.

Wie im weiteren beschrieben wird, wird diese Beschreibung eingesetzt, um sinnvolle Aufteilungen von Clustern in dem Zustandsraum X und zum Abschätzen der durchschnittlichen

Zustandsübergangs-Wahrscheinlichkeiten, die oben beschrieben worden sind, abzuschätzen sowie zum Abschätzen der Gewinne g verwendet .

Ein Cluster c T.'u in dem Zustandsübergangs-Raum T ist gekennzeichnet durch seine Cluster-Zentren z.'^, die sich gemäß folgender Vorschrift ergeben:

Mit M.'^ wird ein Zähler bezeichnet, mit dem die Anzahl der

Zustandsübergänge angegeben werden, die diesem jeweiligen Cluster zugeordnet sind. Mit einer Skalierungsmatrix AT u und mit einem Index u für die jeweilige Aktion, die den jeweiligen Zustandsübergang erzeugt hat, welcher Zustandsübergang dem jeweiligen Cluster zugeordnet ist.

Die Gesamtheit der Cluster der Zustandsübergänge zu einer Aktion u e U wird mit C- T,/u bezeichnet.

Die Skalierungsmatrix A TΛu weist drei voneinander unabhängige Diagonalmatrizen auf, wobei

eine erste Diagonalmatrix B TΛu den jeweiligen Vorgängerzustand, eine zweite Diagonalmatrix C TΛu einen

Nachfolgezustand und eine dritte Diagonalmatrix den

Gewinn, der durch den Zustandsübergang erzeugt wird, beschreiben.

Es ergibt sich somit für die Skalierungsmatrix ATV¹ folgende

Vorschrift:

Um zu ermitteln, ob ein Aufteilen eines Clusters in zwei Cluster entlang einer Dimension d in dem Zustandsraum X sinnvoll ist, sollte die Auflösung der Clusterung in dem Zustandsübergangs-Raum T in Abhängigkeit der Auflösung der Clusterung in dem Zustandsraum K gewählt werden. Es wird angenommen, dass cX, ein Cluster m dem Zustandsraum

X ist, welches Cluster der Komponente x TΛu des Cluster- ^κ

Zentrums des Clusters c T-'u am nächsten ist und das mit cX. »

3 0 das Cluster bezeichnet wird, welches der Komponente

nächsten liegt.

Gemäß der heuristischen Vorgehensweise in diesem

Ausführungsbeispiel hat es sich als vorteilhaft herausgestellt, die Größe des Clusters c T- 'u m der Richtung X' halb so groß zu machen wie die Größe des Clusters c X, und

¹0 die Größe des Clusters c -^f in Richtung X" so groß zu wählen wie die Größe des Clusters c X, .

¹0

Auf diese Weise ergeben sich die erste Diagonalmatrix

und die zweite Diagonalmatrix C TΛu des Clusters cT-'u gemäß

3r ^κ J folgenden Vorschriften:

wobei mit A-i. ,θ, und A-ι.„₀,,k die Skalierungsmatrizen des Clusters c X, bzw. cX. „ bezeichnet werden.

^!0 ¹0

Die Skalierungsmatrizen Av, , Av_ff , hängen von der Anzahl

¹0^ 0'-^ der Aufteilungen der Cluster c X, und cX.„ bis zu der 0 10

Iteration k ab. Die dritte Diagonalmatrix b - ^r_^ wird konstant gewählt, beispielsweise gemäß folgender Vorschrift:

wenn Gewinne mit einem Abstand b unterschieden werden sollen.

Auf der Basis der oben dargestellten Skalierungsmatrizen Ai'ι7 wird ein Abstandsmaß dist [ z, et' ] ermittelt gemäß folgender Vorschrift:

.T dist^z, <%") - \{, - %_ ) '_k ^U(z - ij^») . ,32,

Wird ein neuer Zustandsübergang (x^, Uk_> ≥k+l' 9k) ermittelt, so wird geprüft, ob zumindest ein Cluster

T,uv --,T,uv , „__v ^cj ^{e c (33)}

existiert, zu dem der Vektor

einen Abstand aufweist, der kleiner ist als ein vorgegebener

T maximaler Zustandsübergangs-Abstand d_max .

Ist dies nicht der Fall, so wird ein neues Cluster c .,'^k^k _mj_t einem Cluster-Zentrum

^',k^{k :=} -k' <³⁵)

einem mit dem Wert „0^λ initialisierten neuen Zähler M^/ := 0, (36)

und einer neuen Skalierungsmatrix A. k j__n der Gesamtheit

3 aller Cluster gebildet.

Der maximale Zustandsübergangs-Abstand d T_maχ kann, muss jedoch nicht, den gleichen Wert aufweisen wie der maximale Abstand d X_maχ hinsichtlich des Zustandsraums X .

Je kleiner der maximale Zustandsübergangs-Abstand d T_maχ gewählt wird, um so feiner wird der Zustandsübergangs-Raum T geclustert.

Für

max → 0 (37)

wird jeder Zustandsübergang in dem Zustandsübergangs-Raum T explizit in dem Speicher des Steuerrechners 301 gespeichert.

T ill T ill

In einem weiteren Schritt werden alle Cluster c - ' ^k _e c ' k

J ^κ in Richtung des Vektors _z_k gemäß ihrer jeweiligen Zugehörigkeit, die sich gemäß folgender Vorschrift ergibt:

verschoben und der Zähler des jeweiligen Clusters wird erhöht, so dass sich aktualisierte Werte des Zählers und des jeweiligen Cluster-Zentrums z gemäß folgenden

Vorschriften ergeben:

^τ'^uk(

,T,u_k , „T,u_k , ^μj,k W (_ ~T,u_k k+l *^" %k ⁺ _T,u_k (,-k ²j,k J- ^(4Ü} ^Mj,k+1

Anschaulich ist das Aufteilen eines Clusters c X. e CX_k m

Dimension d in dem Zustandsraum X sinnvoll, wenn es eine detailliertere Modellierung der Zustandsübergangs- Wahrscheinlichkeiten oder der Gewinne ermöglicht.

Dies ist der Fall, wenn zwei Cluster c T.'u und cTΛu m_' dem

Zustandsübergangs-Raum T existieren, die beide einen hohen Zugehörigkeitswert zu dem Cluster, das aufgeteilt

werden soll, aufweist und deren Zentren einen deutlichen Abstand zueinander hinsichtlich der Richtung X"xSR aufweisen.

Somit wird ein Cluster c X- e CX_k in Richtung der Dimension d während einer Iteration k aufgeteilt, wenn der Wert ^vd i 1 kl^ci _/' ^der 9^emäß folgender Vorschrift gebildet wird:

u _c .₌ ^d,j,l,kl^{ci /} - _diff "x9ϊ _c ,u _cT,u

^cllttk l^cj '^Cl

(41)

einen vorgebbaren Schwellenwert v^mln für mindestens ein Paar vvoonn CClluusstteerrnn ccj-j'''^uu,,

ee CC^TT''^UU uunndd eeiine Aktion u e U überschreitet, das heißt, dass gilt:

In der Vorschrift ( 41 ) zeigt die Sigmoid-Funktion

d ^de^er^cKd,'⁺kfi x≥l^T,'k^u' c ^cKi l J - ^•- (43)

an, ob (x '_k) größer ist als

Entsprechend zeigt die Vorschrift

an, ob I

Mit der Funktion

diff, X"x<Kf _rT,u ,T,u ,45)

wird angezeigt, ob die Cluster c?'^u und c?'^u einen deutlichen Abstand zueinander in Richtung der Dimension X"x9? aufweisen, wobei der Abstand dist [c;r^/U,c?'^u] gegeben ist gemäß folgender Vorschrift: dist X"x9t T,u T,u

.^ci ^,ci := dist X"( ,T,u ,T,u '1 + dist 5Hf c T.,U ,c T_λ,U

(46)

Mit dem Abstand

dist X^ff ,u τ,u

(47)

in dem Zustandsraum und dem Abstand distjV I c_j'^u,cj'^u j

in dem Raum der Gewinne, die durch die Zustandsübergänge generiert werden.

Gemäß dem Ausführungsbeispiel hat es sich als vorteilhaft herausgestellt, die einzelnen Parameter gemäß folgender Vorschriften zu wählen:

γ^dec = 0.125 • d£_ax, (49)

_σdec _{= 0ι025}. _d X ma ' (50)

diff _ _dτ Y ^{~ α}max ' (51)

„σdiff _= _n0.2 r, • d,T_max (52) Ist das Kriterium gemäß (41) durch das Cluster c-. und der

X Dimension dn erfüllt, so wird das Cluster c. durch zwei

^U 10 neue Cluster C X, und

ersetzt.

Die Dimension dn der Cluster-Zentren der Cluster c X, und cX

werden jeweils in entgegengesetzte Richtungen bezüglich der Dimension dg um den halben Radius

imax

θ k dodo

X des Clusters c. verschoben, wobei die anderen Dimensionen 0

X des ursprünglichen Clusters c. auch bei den neuen Clustern

¹0 c X, und cXΛ unverändert erhalten bleiben.

Es ergeben sich somit für die neuen Cluster C X, und cX.„

1 1 folgende Aktualisierungsvorschriften :

Vd = 1, ... , d^K, d ≠ d₀ , ( 55)

kj_d ^<" Vd = 1, ... , d , d ≠ d_{0 /} ( 57 )

Die Größe der neuen Cluster cXΛ und cXΛ m Richtung der

Dimension do wird halbiert, das heißt es ergeben sich hinsichtlich der Größe, das heißt der Skalierungsmatrix der neuen Cluster c X und cX. _* folgende

Aktualisierungsvorschriften:

Vd = 1, ..,d^K, d ≠ d₀, (59]

Die Zähler der neuen Cluster

werden auf den gleichen Wert gesetzt, den der Zähler des ursprünglichen

Clusters c X. aufgewiesen hat.

¹0

Es ergeben sich somit folgende Aktualisierungsvorschriften für die Zähler der neuen Cluster c X, und cX :

^Mi',k ^ ^Miθ,k^< <⁶ >

so dass die neuen Cluster sich an neu ermittelte Zustände x_k in gleicher Geschwindigkeit anpassen wie es das ursprüngliche Cluster c X. getan hätte. Aufgrund der Anpassung der Größe der einzelnen Cluster in dem Zustandsübergangs-Raum T an die Größe der benachbarten Cluster in dem Zustandsraum X führt ein Aufteilen der Cluster in dem Zustandsraum X auch zu einer höheren Auflösung der Clusterung in dem Zustandsübergangs-Raum T.

Dies kann zu weiteren Aufteilungen der Cluster führen.

Somit kann die Fuzzy-Partitionierung des Zustandsraums X grundsätzlich beliebig genau gewählt werden, wenn jede Aufteilung eines Clusters zu einer genaueren internen Modellbeschreibung führt.

Jedoch kann das Erzeugen von Clustern auf zwei Wegen beschränkt werden.

Zum einen kann eine maximale Anzahl von Aufteilungen, die auf ein Cluster angewendet werden darf, vorgegeben werden.

Weiterhin kann der Schwellenwert v , mit dem das Aufteilen der Cluster gesteuert wird, entsprechend der Anzahl existierender Cluster erhöht werden.

Wie im weiteren noch detailliert erläutert wird, kann auf der Grundlage der ermittelten Cluster c?'^u e C_k'^u und der dem jeweiligen Cluster c-_]_'^u zugeordneten Zähler M^'_k, mit dem die Anzahl der Zustandsübergänge, die diesem jeweiligen Cluster zugeordnet sind, ermittelt werden.

Mit

kann abgeschätzt werden, wie oft die Aktion a durchgeführt worden ist in dem Zustand und wie oft der Zustandsübergang beobachtet worden ist, der durch das Cluster c|'^u beschrieben wird.

Somit wird durch den Quotienten qi,l,k(^u)/ der gemäß folgender Vorschrift gebildet wird:

die Wahrscheinlichkeit abgeschätzt, dass das Ausführen der Aktion u m dem Zustand c X. in einem Zustandsübergang, der durch das Cluster c T u beschrieben wird, resultiert.

Deshalb kann die durchschnittliche Wahrscheinlichkeit Pi,j,k(^u) eines Zustandsübergangs von einem Vorgängerzustand c X. in einen Nachfolgezustand cX_. durch eine angenäherte

Wahrscheinlichkeit Pi,j,k(^u)/ gebildet gemäß folgender Vorschrift:

,U

Pi,j,k(^u) ^:= qi,l,k(^u) - -1_/k. (66)

T,u _rT,u ^cl ^€Ck

abgeschätzt werden.

Entsprechend kann der durchschnittliche Gewinn für das Ausführen der Aktion u m dem Zustand c X und einem Zustandsübergang zu dem Zustand cN X angenähert werden gemäß folgender Vorschrift:

Es ist in diesem Zusammenhang anzumerken, dass das oben beschriebene Verfahren zum Bilden von Fuzzy-Clustern auch unabhängig von dem im weiteren beschriebenen Reinforcement- Lernverfahren im Zusammenhang mit der Auswahl von Rahmensignalplänen, allgemein im Zusammenhang mit der Steuerung eines technischen Systems, eingesetzt werden kann.

Anschaulich kann das oben beschriebene Vorgehen darin gesehen werden, dass ein Cluster eines Zustandsraums oder eines Zustandsübergangs-Raums in mindestens zwei oder mehr Cluster aufgeteilt wird, wenn aus den geclusterten Zustandsübergängen ersichtlich ist, dass durch das Aufteilen verschiedener Gruppen von Zustandsübergängen, beispielsweise unterschiedliche Nachfolgezustände und/oder unterschiedliche Gewinne erzeugt werden, die voneinander unterschieden werden können.

Anschaulich kann diese Vorgehensweise somit als eine Art Mittelweg zwischen einer expliziten Speicherung aller Zustandsübergänge und dem bloßen Zählen von Zustandsübergänge zwischen gegebenen Partitionen des Zustandsraums angesehen werden.

Auf diese Weise werden die Vorteile einer expliziten Speicherung, nämlich eine sehr gute Partitionierung des Zustandsraums und dem Zählen von Zustandsübergängen, das heißt eine sehr kompakte Repräsentation eines Modells des technischen Systems, gemäß der oben beschriebenen Vorgehensweise vereint werden.

Es ist darauf hinzuweisen, dass die auf die oben beschriebene Weise ermittelte Partitionierung gegenüber einer ebenfalls alternativ möglichen festgelegten, d.h. manuellen Partitionierung der Fuzzy-Partitionen das Reinforcement- Lernen, wie es im weiteren beschrieben wird, erheblich beschleunigt.

Unter Verwendung von ermittelten Trainingsdaten sowie der auf die oben beschriebene Weise ermittelten Fuzzy-Partitionen, das heißt den Fuzzy-Clustern, wird ein im weiteren beschriebenes Reinforcement-Lernverfahren durchgeführt.

Zur Erleichterung des Verständnisses wird im weiteren ein kurzer Überblick über Grundlagen des Reinforcement-Lernens gegeben.

Die Grundidee des modellbasierten Reinforcement-Lernens ist es, zu Beginn des Lernverfahrens eine Maximum-Likelihood- Schätzung des Modells des zu steuernden Systems durchzuführen und die optimierte Kontrollstrategie, das heißt das optimierte Steuern durch Auswahl von Steuergrößen (indirekt) basierend auf der zuvor ermittelten Modellbeschreibung zu trainieren.

Diese zwei Phasen können einander überlappen, das heißt zuvor trainierte Strategien können von der zu Beginn ermittelten Modellbeschreibung abgeleitet werden, basierend auf beobachteten Zustandsübergängen während einer Lernphase und die Information für eine zukünftige Ableitung der Steuerstrategie, das heißt der Auswahl der Steuergrößen kann mittels dieser Kontrollstrategien gewonnen werden.

Bei einem diskreten indirekten Reinforcement-Lernverfahrens erfolgt eine Maximum-Likelihood-Schätzung des Modells des technischen Systems auf der Grundlage von diskreten Zählern, mit denen die Anzahl ausgeführter Aktionen und der sich daraus ergebenden Zustandsübergänge und auf der Grundlage von Variablen für die beobachteten Gewinne. Die Zähler und Variablen werden im weiteren näher erläutert.

^{Mit N}?,u,k ^und <u,j,k' i = 1/-/ ^X, u = 1,...,N^A, j = 1, ... , N X , k e N, werden Zähler bezeichnet, mit denen die Anzahl durchgeführter Fuzzy-Aktionen A_u in einem Fuzzy-

Zustand Xj_ und die Anzahl von Zustandsübergängen von einem

Zustand Xj_ in einen Nachfolgezustand Xj aufgrund der Aktion

A_u bis zu einer Iteration k bezeichnet.

Wird ein Zustandsübergang (x , a_k, ≥k+l' 9k) beobachtet, x_k e , x _+]_ G X, a_k e A, g e SR, werden die Zähler N _k und MV1/u,j•,.K gemäß dem Grad der Zugehörigkeit zu den entsprechenden Cluster-Zentren gemäß folgender Vorschriften erhöht:

^N?,u,k ₊ 1 <- ^N?,u,k ⁽68⁾

^Mι,uj,k+1 <^{" M}i,uj,k ⁺

⁽69⁾

Anschließend werden die Zähler NV 1,U,,K und M1,U, .,,K verwendet, um darauf basierend die durchschnittlichen bedingten Wahrscheinlichkeiten

für einen Zustandsübergang von einem Zustand Xi in einen

Nachfolgezustand Xj aufgrund der Aktion A_u geschätzt gemäß folgender Vorschrift:

Im weiteren wird mit r- . der durchschnittliche Gewinn bezeichnet, den man erhält, wenn in dem Vorgängerzustand Xj_ aufgrund des Ausführens der Aktion A_u der Nachfolgezustand Xj in dem Zustandsraum X eingenommen wird.

Der Gewinn r -i-- LA J• ergibt sich somit gemäß folgender Vorschrift:

Eine Schätzung des jeweiligen Gewinns rV . , das heißt ein geschätzter Gewinn f. ■ , wird gemäß folgender Aktualisierungsvorschrift ermittelt :

ri.uj,k+l r- ri°uj,k + ^μi f^xk^Sik jH k+i)

Mit

i = 1, N •X u = 1, , N^A , j = 1, N X ( 74 )

bei Beobachten eines Zustandsübergangs (x_k, a_k, x_.k+1' 9k)_/ x e X , x_k+1 e X , a_k e A , g e 9? .

Für dieses diskrete Modell

^ιj,k+l(^u)' *iu,k+l) (75)

kann eine optimale Steuerungsstrategie gemäß dem Reinforcement-Lernverfahren ermittelt werden. Mit Q(x, a) wird der wahre, kontinuierliche Q-Wert im Rahmen des Reinforcement-Lernverfahrens bezeichnet, der gebildet wird gemäß folgender Vorschrift:

Q(x, a) = (76)

Auf der Grundlage des wahren, kontinuierlichen Q-Werts Q(x, a) ergibt sich ein geschätzter Q-Wert Q^ der durchschnittlichen Q-Werte gemäß folgender Vorschrift:

1 „μ«Ji(x)μ .Au(a)Q(x,a)dadx x e Xa e A

-xu (77)

I J „μ«Λ{x)μiAu(§)dadx x e Xa e A

der sich ergibt aus der Fixpunkt-Lösung des folgenden Gleichungssystems :

δ^υ°iu,k+l ^Qjv,k+i)

(78)

Die kontinuierlichen Q-Werte Q(X, a) werden gemäß diesem Ausführungsbeispiel durch ein sogenanntes Takagi-Sugeno- Fuzzy-System, wie es in [3] beschrieben ist, mit linearen Termen in den Konsequenzen der Fuzzy-Regeln angenähert gemäß folgender Vorschrift:

if x is Xj_ and a is A_u

then Q(x, a) = QV1U + ^Qii(ai kι,l)

(79)

wobei gilt:

und

Aufgrund der Orthogonalität der Fuzzy- Zugehörigkeitsfunktionen kann Vorschrift (79) geschrieben werden als folgende Vorschrift:

N^ N^A ,X Q(x, a) = ,X, Λι Q°ιu + ∑^Qii(ι - ^χι,ι) (83; i=lu=l 1=1

Die Terme Q. können durch Ermitteln der Fixpunkt-Lösung der

Gleichungssysteme (78) mit den Abschätzungen p . der durchschnittlichen bedingten Zustandsübergangswahrscheinlichkeiten gemäß Vorschrift (70) und Schätzwerten f J._ LtJ. der durchschnittlichen Gewinne gemäß

Vorschrift (72) ermittelt werden.

Für den diskreten Fall ist in [3] eine spezielle Implementierung der oben beschriebenen Vorgehensweise zur rekursiven Lösung der sogenannten Bellmann-Gleichung (78) beschrieben. Die Grundidee des aus [3] bekannten Ansatzes ist es, das rekursive Aktualisieren der Q-Werte entsprechend der Änderung der Q-Werte zu priorisieren, wie sie aus der Aktualisierung resultieren.

Aufgrund dieser Vorgehensweise wird die Geschwindigkeit der Konvergenz der Fixpunkt-Lösung deutlich erhöht verglichen mit einer Aktualisierung gemäß einer festen Reihenfolge.

Da außerdem die Interpretation der Variablen p..(u) und J f ■ _k+1 der Bellmann-Gleichung (78) in dem diskreten Fall gleich ist, kann dieser vorteilhafte

Aktualisierungsmechanismus auch für den gemäß diesem Ausführungsbeispiel der Erfindung vorgesehenen Ansatz unter Verwendung von Fuzzy-Partitionen im Rahmen des Reinforcement- Lernverfahrens eingesetzt werden.

Die konstante Terme Q 1.U werden durch Lösen der Bellmann-

Gleichung (78) ermittelt.

Die zugehörigen partiellen Ableitungen Q.1 und Q.^ können durch Bilden von Durchschnittswerten und partiellen Ableitungen der Gewinnfunktion und der bedingten Zustandsübergangs-Wahrscheinlichkeiten ermittelt werden.

Die partiellen Ableitungen Q^ werden gemäß folgender Vorschrift gebildet:

+

( 85 )

mit den Abkürzungen :

die in dem vorangegangenen Schritt verwendet worden sind.

Das Ersetzen des Integrals durch die Summe lokaler Integrale gemäß den Vorschriften (86) und (87) und den Durchschnittswerten (88), (89) ist in dem Sinne konsistent, dass mit Erhöhen der Genauigkeit der Partitionierung des Zustandsraums diese immer besser werden.

In analoger Weise kann gezeigt werden, dass gilt:

(90)

mit

2 )

Der durchschnittliche lokale Gewinn r. ,L.J; und die

durchschnittlichen lokalen Ableitungen r• ~ ■ und r. -j-. der Gewinnfunktion g kann durch Anpassen der Parameter fV . ,

Λ. U.J f• -}^■ . , f• 1. und fr1. der folgenden linearen Funktion abgeschätzt werden abhängig von den Gewinnen in der näheren Umgebung der Cluster-Zentren (XJ_, a_u, x- , gemäß folgender

Vorschrift:

f(x, a, y) :=

*°uj ^{+ " X}j,l)

( 93 ) Diese Anpassung kann erfolgen mittels eines bekannten Gradientenabstiegs unter Berücksichtigung einer Fehlerfunktion E, die sich ergibt gemäß folgender Vorschrift:

E := - (g_k - f(x_k, a_k, κ_k+1ψ (94)

bei Beobachten eines Zustandsüberganges (x_k, a_k, x_.k+1' 9k) •

Somit ergeben sich gemäß diesem Ausführungsbeispiel folgende Aktualisierungsvorschriften:

^fiuj,k + l <" ^£iuj,k ⁺

- r( _k, a_k, _{k + 1})), ⁽95⁾

^f*uj,k+l <^{~ f}3j,k ⁺ ^iuj, (xk,l - ^Xi,l ? - r(x_k, a_k,x_k+1)), (96)

*iuj,k+l *^"

- ä_U/ι g - r(x_k, a_k, x_k+1)),

(97)

f iXu¹j.,k+l <^~

- xj,lfck - r(x_k' a_k ^Xk+l))'

(98)

wobei eine mögliche Wahl für die Schrittgröße ηι_uj k innerhalb der Aktualisierung gegeben sein kann gemäß folgender Vorschrift:

ι( k)μu( k) j (^χk+ι) riiuj,k = Λ ' ⁽⁹⁹⁾

M ^iyιiuj,k+l

so dass die Schrittgröße ηj__uj,k jeweils abhängig von dem Grad der Zugehörigkeit eines beobachteten Zustandsübergangs zu einem Cluster-Zentrum gewählt wird und mit fortlaufender Zeit verringert wird. Die durchschnittlichen bedingten Wahrscheinlichkeiten _j__j(u) können gemäß Vorschrift (71) geschätzt werden.

Die durchschnittlichen partiellen Ableitungen

können gemäß folgenden Vorschriften approximiert werden:

iuj

( 100 )

>^a iuιj. «

( 101 )

wobei mit e? ein Vektor der Dimension d mit Vektorkomponenten e? X_/ X ■ = δj_χbezeichnet wird .

Mit N 1.U' wird ein Zähler bezeichnet, mit dem die Anzahl von

Ausführungen einer Aktion A_u in einem Fuzzy-Zustand gezählt wird, der entsteht, indem Zustand Xj_ entlang der Dimension 1 um einen vorgebbaren Wert ε verschoben wird.

Mit -^ wird ein weiterer Zähler bezeichnet, mit dem die Anzahl von Zustandsübergängen von dem um ε entlang der Dimension 1 verschobenen Zustand Xj_ zu einem Nachfolgezustand Xj aufgrund der Aktion A_u gezählt wird.

Zusätzlich wird mit N^' ein Zähler bezeichnet, mit dem die

Anzahl durchgeführter Aktionen A_u in dem Zustand angegeben wird, der durch Verschieben von dem Zustand X_j_ entlang der

Dimension 1 um einen negativen Wert -ε entsteht und mit M. ' wird ein weiterer Zähler bezeichnet, mit dem die Anzahl von Zustandsübergängen in den Zustand Xj von diesem Zustand aufgrund der Aktion A_u angegeben wird.

Bei Ermitteln eines Zustandsübergangs (x_k, a_k, x_k4.^, g_k) werden

X 1 — die einzelnen Zähler N^X3-'⁺ , M^X1- ^" , N^X]-'^~ ' ^Miuj ^emäß folgenden Aktualisierungsvorschriften aktualisiert ;

fek) ' ( 102 )

I^μSfek i fek+i)' ( 103 )

N ^wXiu,'^"k+l <-

^Mϊu,'k ₊ 1 ^{<" M}S,'k ^{+ μ}? ^xk ( 105 )

Entsp ^crechend werden Zähler N1.U^/ * • ^Nii'^" - ^{md M}Sj^" für den Aktionsraum gemäß folgenden

Aktualisierungsvorschriften aktualisiert :

( 106)

μ

?fe.₊l). ( 107 )

^Niu,'k+1 ^<~ N ι^au^ι,k + ( 108 )

A X

«?iiuj,kk₊+ι1 <- ^M-iiuϊj7,k ⁺ »± fa. £ a_k+εe μ J.fa+l) (109]

Anschließend werden die lokalen partiellen Ableitungen

Piui k+1 ^und Piui k+1 ermittelt gemäß folgenden Vorschriften:

Mit den geschätzten Wahrscheinlichkeiten pN ■ . ,, , p ~._] ^x_. , ,_n

und und

P ,i^aülj ^{und der} Schätzungen f _Äi0_uj,_k+1,

für die Gewinne ri.uj. , ri.u■ und ri.uj . kann nunmehr die jeweilig ^e lokale partielle Ableitung Q^ und Q^a^ gemäß den

Vorschriften (85) und (90) ermittelt werden.

Zusammenfassend kann das Reinforcement-Lernverfahren in Form eines Pseudo-Codes beschrieben werden wie folgt:

1. Initialisierung:

for i = 1, ...,N , u =.1, ...,N^A do (a) NV_U «- 0 xi, +

(b) N: <- 0, N xi /

1U iu <- 0, 1 = 1, ... , d X aι,+ A

(c) N: iu <- 0/ N I^aU <- 0, 1 = 1/ ... , d

(e) M^X IU^χJ'⁺ <- °' ^MSj^" <- 0, j = 1/ A = 1, ..., d X

xι,+

(h) r- . iuj ^ °'*iu <- o, j = 1/ A = 1, ..., d X

..., d A

<- o, j = 1/

..,Λι = 1,

(j) PQueue - empty (k) Beobachte Ausgangszustand XQ od

2. Hauptprogramm:

for k = 0, 1, 2, ... do

(a) Wähle Fuzzy-Aktion U in dem aktuellen Zustand Xk entsprechend der Explorationsstrategie aus (z.B. Boltzmann-Exploration/F-ISE-Exploration) . Wähle kontinuierliche Aktion a_k aus der Menge der Zustände, die zu A_u, Zugehörigkeit ≠ 0 haben.

(b) Führe Aktion a_k aus und beobachte Nachfolgezustand Xk+_l und g_k = g(x_k, a_k, x_k+ι)

(c) for i = 1, ... , N _TX , j = 1, ... , N _TX do (i) Zählen der Zustandsübergänge

(B) N j^XV^χ;'^{+ '} <- N _j ^*l;/+ ιu_k ιu_k μJ_k(a_k)/Vl = l,...,d X

(D) N VI = 1, A

VI = 1, ..., d X

(I)

VI = ι, ... , d A

VI = 1, ... , d _A'

(ii) Schätzen der Zustandsübergangs-Wahrscheinlichkeiten

(iii) Schätzen der partiellen Ableitungen der Zustandsübergangs-Wahrscheinlichkeiten

(iv) Berechnen der Abweichung von dem erwarteten lokalen Gewinn l -^χj,l)

(v) Aktualisieren der Schätzungen für den durchschnittlichen Gewinn und die durchschnittlichen

Abweichungen

VI = 1, ...,d

VI = 1, A

VI = 1, ...,d X od

(d) for i = 1, ... , N _TX do

(i) Berechnen der Priorität des Sicherns für (i, u_k) :

(ii) if P > Φ_k then füge (i, u_k) zu PQueue mit Priorität P hinzu fi od (e) while PQueue ≠ e pty do (i) (i, u) <- first(PQueue)

N*

⁽ü^{) Q}iu <^" ∑ P°j(^u *iuj ^{+ α max} _v=ι _NA ^Qjv ] j=l "^'" ^y

( iii ) for alle Vorgänger ( 1, w) von i , d. h . alle Paare

( 1, w) mit M°_wi > 0 do

(B) if P > Φ_k then füge (1, w) zu PQueue mit Priorität P hinzu fi od (e) Schätzen der Ableitungen der Q-Werte

(i ) Q^X1

⁽ü^{) Q}?J

Die optimale Steuerungsstrategie, das heißt die optimale Auswahl eines Rahmensignalplans aufgrund der ermittelten, gemessenen relativen Verkehrsdichte an den jeweiligen Sensoren 215, allgemein formuliert als optimale Kontrollstrategie μ : X - A, wird dadurch erreicht, dass in dem jeweiligen Zustand x die Aktion a ausgewählt wird, das heißt beispielsweise gemäß dem Ausführungsbeispiel derjenige Rahmensignalplan ausgewählt wird, der einen Gewinn gemäß Vorschrift (79) verspricht, der maximal ist, das heißt bei dem gilt:

arg max Q(X, a) . (112) aeA

Das oben beschriebene Verfahren kann weiterhin gemäß der im weiteren beschriebenen Ausgestaltung der Erfindung weiter verbessert werden. Um die Anzahl der benötigten Trainingsschritte im Rahmen des Reinforcement-Lernverfahrens zu verringern ist es nützlich, gezielt den erwarteten Gewinn im Sinne eines Informationsgehalts der Trainingsdaten über das technische System zu nutzen, das heißt in anderen Worten, in jedem Zustand diejenige Aktion auszuführen, durch entweder ein großer unmittelbarer, das heißt sofortiger Gewinn an Information erwartet werden kann oder durch die ein Bereich in dem Zustandsraum erreicht wird, in dem hohe Gewinne an Information erwartet werden können.

Gemäß diesem Ausführungsbeispiel wird eine modellbasierte Explorationsstrategie vorgesehen.

Die im weiteren beschriebenen Vorgehensweise basiert auf A-

Werten Aj__u, i = 1, ... , N X , u = 1, ... , NA , mit denen die

"Attraktivität" des Ausführens der jeweiligen Fuzzy-Aktion A_u in dem Zustand Xj_ bezeichnet wird.

Das Ausführen einer Aktion in einem Zustand des Zustandsraums X führt dann mit einer großen Wahrscheinlichkeit zu einem hohen Informationsgewinn, wenn ein großer sofortiger Gewinn an Information erwartet werden kann aufgrund der Ausführung der Aktion A_u, oder dann, wenn das zu steuernde technische

System aufgrund der Aktion in Zustände übergeht, in denen ein großer Informationsgewinn erwartet werden kann.

Somit ist die Relation zwischen den A-Werten Aj__u sehr ähnlich der der Q-Werte im Zusammenhang mit dem Q-Lernverfahren.

Im folgenden wird mit äj__u der sofortige Informationsgewinn bezeichnet, der aus einer einzigen Ausführung der Aktion A_u in dem Zustand Xj_ resultiert.

Anschließend wird ein geschätzter A-Wert Ä__u abgeleitet, mit dem der erwartete sofortige Informationsgewinn bezeichnet wird, der resultiert aus zukünftigen Ausführungen der Aktion A_u in dem Zustand X__ .

Schließlich wird eine Gesamt-Attraktivität A__u auf der Grundlage der Ä__u in rekursiver Weise ermittelt.

Der sofortige Informationsgewinn kann durch die Menge an Wissen gemessen werden, die das lernende System über die Zustandsübergangs-Wahrscheinlichkeiten zwischen den Fuzzy- Partitionen aufgrund einer Beobachtung eines Zustandsübergangs erhält.

Eine maximale Änderung

|ρ°j,_k+1(u) - pV_/k(u)j (113)

in den Zustandsübergangs-Wahrscheinlichkeiten von einem Zustand X und einer Aktion A_u, die aufgrund eines beobachteten Zustandsübergangs (x_k, a_k, x_k+l' 9k) resultieren, ist gegeben durch die Zugehörigkeit von (x_k, a_k) zu den einzelnen Fuzzy-Partitionen, bezeichnet durch:

^μifek Sfek)- (114)

Auf diese Weise wird die Änderung der Wahrscheinlichkeiten mit einer oberen Grenze, die gebildet wird gemäß μ^(x_k)μ^A(a_k) skaliert, um das Maß des sofortigen Informationsgewinns unabhängig zu machen von der Position von (x_k, a_k) innerhalb der jeweiligen Fuzzy-Partition.

Somit ergibt sich für die Aktualisierung des sofortigen Informationsgewinns von einer Iteration k zu der nächsten Iteration k+1:

(115)

Aus den gemäß Vorschrift (115) ermittelten sofortigen Informationsgewinnen aufgrund Durchführen der Aktion A_u in dem Zustand X_j_ ist es möglich, Schlussfolgerungen hinsichtlich zu erwartender zukünftiger Informationsgewinne zu ziehen.

Es hat sich als vorteilhaft herausgestellt, eine gewichtete Summe aller vorangegangenen ermittelten sofortigen Informationsgewinne zu berechnen.

Der Einfluss eines Informationsgewinns für einen Zustand Xj und einer Aktion A_u auf die sofortige "Attraktivität" sollte durch die Zugehörigkeit des entsprechenden Zustandsübergangs in die jeweilige Fuzzy-Partitionen beschränkt werden.

Dies kann dadurch erreicht werden, dass vorangegangene Informationsgewinne entsprechend der Summe der Grade der

Zugehörigkeiten nachfolgender Beobachtungen gewichtet werden:

n=0

Im folgenden Algorithmus wird die sofortige Attraktivität beschrieben als ein Quotient der gewichteten Summe der sofortigen Informationsgewinne und der Summe der Gewichte, das heißt die sofortige Attraktivität Ä ergibt sich gemäß folgender Vorschrift:

Ä?

Ä = -=^. (117)

^Aiu

Eine totale Attraktivität Äj__u eines Zustand-Aktions-Paars (X_j_, A_u) wird auf rekursive Weise gemäß folgender Vorschrift ermittelt:

Ä_{iu# +}ι := Ä_iU/k+1 + ∑ Pi^k+l^^J_/ +l ' (¹¹⁸)

X

mit dem räumlichen Dämpfungsfaktor λ e [0;1] und der Attraktivität Äj der Partitions-Untermenge Xj , gegeben gemäß folgender Vorschrift:

Zusammenfassend kann die Explorationsstrategie durch folgende, in einem Pseudo-Code dargestellte Vorgehensweise beschrieben werden:

1. Initialisierung:

(a) NV_U <- 0, i = 1, ...,N^X,u = 1, ...,N^A (b) M9_uj <- 0, i = 1, ... , N , u = 1, ... , N^A, j = 1, ... , N

(c) Initialisiere die Komponenten der unmittelbaren

Attraktivität derart, als ob in jeder vorangegangenen Iteration der maximale unmittelbare Informationsgewinn mit maximalem Zugehörigkeitsgrad erreicht worden wäre: (i) AiS? - --__ , i,- =- !1, ..., NX^l\ „u _= 11, ..., ,NτA

IU <

1 -η (ii) Äiu < -_ _—_η ,i = 1, ...,N^K, u = 1, ...,N^A

Somit ist jedes Zustands-Aktions-Paar (X , A_u) mit der maximalen unmittelbaren Attraktivität Äj__u = 1 initialisiert.

(d) Initialisiere totale Attraktivität

(e) Bestimme Ausgangszustand XQ

2. Hauptprogramm

for k = 0, 1, 2, ... do

(a) Sei A_Uk die Partitions-Untermenge (Fuzzy-Aktion) des

Aktionsraums, bei der die Attraktivität Ä_u(x ) im aktuellen Zustand x_k maximiert ist, wobei die Attraktivität Ä_u(x_k) gegeben sei durch if x is X_j_ then Ä_u(x) = Ä__u

D.h. es gilt: u := arg max^^ _NA Ä_u(x_k)

Zufälliges Auswählen einer Aktion a_k, aus |a|a e A Λ μ _k(a}θ} aus A_U]c

(b) Ausführen Aktion ak und Beobachten des Nachfolgezustands x_k+l und des Gewinns g(x_k, a_k, x_k4._]_)

(c) Ausführen einer Iteration eines beliebigen Reinforcement- Lernverfahrens, beispielsweise des oben beschriebenen F- PS-Lernverfahrens oder des F-Q-Lernverfahrens

(d) for i = 1, ... , N^ do

(i) Zählen der Zustandsübergänge:

Vj = 1, ... , N (ii) Berechnen des unmittelbaren Informationsgewinns resultierend aus dem Zustandsübergang:

(iii Erneutes Berechnen der unmittelbaren Attraktivität

μ xx

(B) A w 1 + η rfa : A ^u) ω A. w u_k ιu_k

! iv) Erneutes Schätzen der Zustandsubergangs- Wahrschemlichkeiten :

M .0"

-0 ^!UkD

PΪl(uk) <^" V = I, ...,Nx^!

^lu od

(e) for i = 1, ... , N ,χ" do

( ) Berechnen der Priorität des Sicherns für (Xi, A_Uk j:

(ii) if P > Φ then fuge (l, u_k) zu PQueue mit Priorität P hinzu fi [f) hile PQueue ≠ empty do (i) ( ,u) - first (PQueue)

(n)Ä_iu 4- Ä_iu + Ä-_jv -Ä^lι_nu_k

(in) for alle Vorganger (1, w) von i, d.h. alle (1, w)

(B) if P > Φ_k then füge (1, w) zu PQueue mit Priorität P hinzu fi od od od

Zusammenfassend wird das oben beschriebene Verfahren noch einmal anhand Fig.l erläutert.

In einem ersten Schritt werden Daten über das technische System, bei einem Verkehrsnetz 200 die jeweilige Verkehrsdichte an einem Sensorpunkt mittels eines Sensors, ermittelt (Schritt 101) .

In einem weiteren Schritt werden Fuzzy-Partitionen des Zustandsraums und/oder des Aktionsraums ermittelt (Schritt 102) .

In einem weiteren Schritt wird ein Reinforcement- Lernverfahren durchgeführt unter Verwendung der ermittelten Daten über das technische System sowie unter Verwendung der ermittelten Fuzzy-Partitionen (Schritt 103) .

In einem weiteren Schritt (Schritt 104) wird auf die oben beschriebene Weise gemäß dem Reinforcement-Lernverfahren eine optimale Steuerungsstrategie ermittelt,_^ das heißt es wird ein optimaler Ausgangswert ermittelt, mit dem angegeben wird, welcher Rahmensignalwert für die jeweilige Iteration auszuwählen ist (Schritt 104) .

Wie in Fig.l weiter dargestellt ist, wird in einem weiteren Schritt (Schritt 105) der gemäß dem Reinforcement- Lernverfahren ermittelte optimale Rahmensignalplan ausgewählt, ausgelesen und abhängig von dem Rahmensignalplan werden die Ampeln 214 an den jeweiligen Kreuzungen, das heißt allgemein das technische System, das gesteuert werden soll, unter Berücksichtigung der ausgewählten optimierten Steuerungsstrategie und dem ausgewählten Rahmensignalplan, gesteuert (Schritt 106) .

Es ist darauf hinzuweisen, dass die oben beschriebene Erfindung nicht auf die Steuerung von Ampeln in einem Verkehrsnetz beschränkt ist, sondern dass sich die Fuzzy- Partitionierung eines kontinuierlichen Zustandsraums und/oder eines kontinuierlichen Aktionsraums für ein beliebiges technisches System eignet, das mit einem kontinuierlichen Zustandsraum und/oder kontinuierlichen Aktionsraum beschrieben wird und mittels eines Reinforcement- Lernverfahrens gesteuert werden soll.

In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] H. Takagi und M. Sugeno, Fuzzy Identification of Systems and its Application to Modelling and Control, IEEE Transactions on Systems, Man and Cybernetics, Vol. 15, S. 116 - 132, 1985

[2] J. C. Bezdek, Pattern Recognition with Fuzzy Objective

Function Algorithms, Plenum Press, New York, ISBN 0-306- 40671-3, 1981

[3] A. Moore und C. Atkeson, Efficient Memory Based

Reinforcement-Learning: Efficient Computation with Prioritized Sweaping, Information Processing, Vol. 5, S. 263 - 270, 1992

[4] S. Davies, Multi Dimensional Triangulation and

Interpolation for Reinforcement-Learning, Advances in Neural Information Processing Systems, NIPS'9, S. 1005 - 1011, 1996

Claims

Patentansprüche

1. Verfahren zum rechnergestützten Ermitteln einer Steuerungsstrategie für ein technisches System, • bei dem das technische System mit einem kontinuierlichen Zustandsraum und einem Aktionsraum beschrieben wird,

• bei dem der Zustandsraum Zustände aufweist, die das technische System annehmen kann,

• bei dem der Aktionsraum Aktionen aufweist, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,

• bei dem eine Bewertung des Zustandsübergangs erfolgt,

• bei dem mit Trainingsdaten, die das technische System beschreiben, ein Modell des technischen Systems ermittelt wird, indem Fuzzy-Zugehörigkeitsfunktionen gebildet werden, mit denen zumindest der Zustandsraum beschrieben wird und

• bei dem unter Verwenden der Fuzzy- Zugehörigkeitsfunktionen ein Reinforcement-Lernverfahren durchgeführt wird, wodurch für jeden Zustand des Zustandsraums eine Steuerungsstrategie ermittelt wird, wodurch die jeweils optimalen Aktionen des Aktionsraums gelernt werden.

2. Verfahren nach Anspruch 1, bei dem für jeden Zustand des Zustandsraums und die entsprechenden Aktionen des Aktionsraums jeweils ein Q-Wert als Steuerungsstrategie ermittelt wird.

3. Verfahren nach Anspruch 1 oder 2, bei dem in den Konklusionen der Fuzzy-Regeln des Fuzzy- Systems, welches gemäß dem Reinforcement-Lernverfahrens gebildet wird, lineare Terme eingesetzt werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem das Reinforcement-Lernverfahren durchgeführt wird, indem während des Trainings solche Aktionen ausgewählt werden, die ein vorgegebenes Kriterium erfüllen.

5. Verfahren nach Anspruch 4, bei dem das Kriterium ein Informationsgewinn über die bedingten Zustandsübergangs-Wahrscheinlichkeiten innerhalb des Reinforcement-Lernverfahrens ist.

6. Verfahren nach einem der Ansprüche 1 bis 5,

• bei dem aufgrund der Steuerungsstrategie ein Rahmensignalplan ausgewählt wird, und

• bei dem aufgrund des ausgewählten Rahmensignalplans Steuersignale an Ampeln eines Verkehrsnetzes übermittelt werden.

7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem für jede Fuzzy-Partition im Zustandsraum und Aktionsraum ein Informationsgewinn ermittelt wird, der aus früheren Ausführungen von zu dieser entsprechenden Fuzzy- Partition gehörenden Aktionen in die entsprechenden Zustände resultiert hat.

8. Verfahren nach Anspruch 7, bei dem aus einem Informationsgewinn jeweils ein zukünftiger Gewinn geschätzt wird.

9. Verfahren nach einem der Ansprüchen 1 bis 8,

• bei dem Zähler vorgesehen sind, mit denen die Anzahl von Ausführungen von Aktionen in einem Zustand des technischen Systems und die Anzahl von Zustandsübergängen von einem Anfangszustand in einen Nachfolgezustand aufgrund der Aktion bis zu der aktuellen Iteration angegeben wird, vorgesehen sind, • bei dem die den Zählern zugeordneten Werte bei Ermitteln eines neuen Zustandsübergangs abhängig von dem Grad der Zugehörigkeit der Zustände bzw. der Zustandsübergänge zu den jeweiligen Fuzzy-Clustern aktualisiert werden.

10. Verfahren nach Anspruch 9, bei dem die Zustandsübergangs-Wahrscheinlichkeiten innerhalb des Reinforcement-Lernverfahrens abhängig von den Zählern ermittelt werden.

11. Verfahren nach einem der Ansprüche 1 bis 10, bei dem zu Beginn des Verfahrens Fuzzy-Partitionen gebildet werden, indem in einem iterativen Verfahren ausgehend von einer vorgegebenen Menge von Ausgangs-Partitions-Untermengen diese aufgeteilt werden in mehrere Fuzzy-Partitions- Untermengen oder zusammengeführt werden aus mehreren Fuzzy- Partitions-Untermengen in eine Fuzzy-Partition, abhängig von den ermittelten Trainingsdaten.

12. Verfahren nach einem der Ansprüche 1 bis 10, bei dem zu Beginn des Verfahrens die Fuzzy-Partitionen gemäß dem Fuzzy-C-Means-Clustering-Verfahren gebildet werden.

13. Fuzzy-Steuervorrichtung zum Ermitteln einer Steuerungsstrategie für ein technisches System, mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:

• das technische System wird mit einem kontinuierlichen Zustandsraum und einem Aktionsraum beschrieben,

• der Zustandsraum weist Zustände auf, die das technische System annehmen kann, • der Aktionsraum weist Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,

• es erfolgt eine Bewertung des Zustandsübergangs, • mit Trainingsdaten, die das technische System beschreiben, wird ein Modell des technischen Systems ermittelt, indem Fuzzy-Zugehörigkeitsfunktionen gebildet werden, mit denen zumindest der Zustandsraum beschrieben wird und

• unter Verwenden der Fuzzy-Zugehörigkeitsfunktionen wird ein Reinforcement-Lernverfahren durchgeführt, wodurch für jeden Zustand des Zustandsraums eine

Steuerungsstrategie ermittelt wird, wodurch die jeweils optimalen Aktionen des Aktionsraums gelernt werden.

14. Computerlesbares Speichermedium, in dem ein Computerprogramm zum Ermitteln einer Steuerungsstrategie für ein technisches System, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:

• das technische System wird mit einem kontinuierlichen Zustandsraum und einem Aktionsraum beschrieben, • der Zustandsraum weist Zustände auf, die das technische System annehmen kann,

• der Aktionsraum weist Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,

• es erfolgt eine Bewertung des Zustandsübergangs,

• mit Trainingsdaten, die das technische System beschreiben, wird ein Modell des technischen Systems ermittelt, indem Fuzzy-Zugehörigkeitsfunktionen gebildet werden, mit denen zumindest der Zustandsraum beschrieben wird und

• unter Verwenden der Fuzzy-Zugehörigkeitsfunktionen wird ein Reinforcement-Lernverfahren durchgeführt, wodurch für jeden Zustand des Zustandsraums eine Steuerungsstrategie ermittelt wird, wodurch die jeweils optimalen Aktionen des Aktionsraums gelernt werden.

^' 15. Computerprogramm-Element zum Ermitteln einer Steuerungsstrategie für ein technisches System, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist: • das technische System wird mit einem kontinuierlichen Zustandsraum und einem Aktionsraum beschrieben,

• es erfolgt eine Bewertung des Zustandsübergangs, • mit Trainingsdaten, die das technische System beschreiben, wird ein Modell des technischen Systems ermittelt, indem Fuzzy-Zugehörigkeitsfunktionen gebildet werden, mit denen zumindest der Zustandsraum beschrieben wird und • unter Verwenden der Fuzzy-Zugehörigkeitsfunktionen wird ein Reinforcement-Lernverfahren durchgeführt, wodurch für jeden Zustand des Zustandsraums eine Steuerungsstrategie ermittelt wird, wodurch die jeweils optimalen Aktionen des Aktionsraums gelernt werden.