WO2001018767A1

WO2001018767A1 - Steuerungsvorrichtung für eine verkehrsampelkreuzung

Info

Publication number: WO2001018767A1
Application number: PCT/DE2000/002978
Authority: WO
Inventors: Martin Appl; Rainer Palm
Original assignee: Siemens Aktiengesellschaft
Priority date: 1999-09-02
Filing date: 2000-08-31
Publication date: 2001-03-15
Also published as: DE19941854A1

Abstract

Eine Steuerungsvorrichtung zur Steuerung einer Verkehrsampelkreuzung (4) hat eine Steuerungseinheit (2), die so ausgebildet ist, dass Prozesszustände der Verkehrsampelkreuzung (4) teilweise anhand von Sensorsignalen eines Sensors (3) abtastbar sind. Die Steuerungseinheit (2) bestimmt, welche Charakteristik die Verkehrsampelkreuzung (4) momentan aufweist, und betätigt eine Verkehrsampel (3) unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorparametern. Dabei ist zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern in der Steuerungseinheit (2) abspeicherbar.

Description

Beschreibung

Steuerungsvorrichtung für eine Verkehrsampelkreuzung

Die Erfindung betrifft eine Steuerungsvorrichtung zur Steuerung eines durch Aktuatoren beeinflußbaren technischen Prozesses, insbesondere einer Verkehrsampelkreuzung. Die Erfindung betrifft weiterhin ein Verfahren zur Steuerung eines solchen technischen Prozesses.

Technische Prozesse zeichnen sich dadurch aus, daß deren Verlauf und deren Prozeßzustande durch Aktuatoren beeinflußt werden können. In der Regelungstechnik wird versucht, technische Prozesse derart durch Aktuatoren zu beeinflussen, daß deren Verlauf und Prozeßzustande mit einem gewünschten vorgegebenen Ergebnis übereinstimmen. Hierfür wird zunächst versucht, ein explizites mathematisches Modell des zu steuernden technischen Prozesses aufzustellen, um mit regelungstechnischen Maßnahmen einen geeigneten Regler bzw. eine geeignete Steuerungseinheit auszubilden.

Es können auch Prozesse gesteuert werden, von denen kein explizites mathematisches Modell gegeben ist oder deren Komplexität zwar eine Simulation jedoch keine analytische Be- handlung erlaubt. Eine solche Steuerung basiert auf dem Einsatz von Lernstrategien wie beispielsweise das sogenannte Remforcement-Lernen. Dabei liegt eine Voraussetzung für das erfolgreiche Anwenden einer Lernstrategie zur Steuerung eines technischen Prozesses darin, daß das Verhalten des Prozesses oder seiner Simulation bei der Anwendung von ausgewählten

Steuersequenzen beobachtet werden kann, damit aus diesem Verhalten die Gute der Steuersequenzen abgeleitet werden kann. Besonders schwierig ist die Steuerung von technischen Prozessen, deren Eigenschaften sich mit der Zeit verandern. Dabei unterscheidet man kontinuierliche Änderungen, die beispielsweise aufgrund von Verschleiß von Systemkomponenten auftreten können, von diskreten Änderungen, die beispielsweise durch den Ausfall von Komponenten des technischen Prozesses auftreten. Eine solche Veränderung im Prozeß kann zur Folge haben, daß die gelernte Strategie zum Steuern des technischen Prozesses nicht mehr für eine Steuerung geeignet ist. Wenn Ver- anderungen des technischen Prozesses bei einem Lernvorgang zur Anpassung der Steuerung auftreten, kann sogar die Konvergenz des Lernverfahrens beeinträchtigt werden.

Im Stand der Technik sind Verfahren zum Lernen von Steue- rungsstrategien bekannt, die Veränderungen des zu steuernden technisches Prozesses berücksichtigen.

So sind Verfahren bekannt, die Veränderungen des technischen Prozesses detektieren können und im Falle einer Veränderung des technischen Prozesses das gelernte Wissen verwerfen und mittels einer heuristischen Strategie eine neue Steuerung lernen. In permanent veränderlichen Umgebungen ist der Lernprozeß praktisch nie beendet. Bei diesem Verfahren ist von Nachteil, daß eine Steuerstrategie nicht anhand einer Simula- tion des technischen Prozesses gelernt werden kann, so daß diese anschließend unmittelbar auf einen vorhandenen technischen Prozeß anwendbar ist. Außerdem wird durch das permanente Verwerfen von Wissen und das anschließend notwendige Neulernen die Steuerung nach einer Veränderung des Prozesses oft erst nach einer großen Verzögerung brauchbar. Ein solches

Verfahren zur Steuerung eines technisches Prozesses ist in "A Two-Level Approach to Learning in Nonstationary Environments", La , W.; Mukhopadhyay, S., Advances m Artificial In- telligence, Proceedings of the Eleventh Biennial Conference of the Canadian Society for Computational Studies of Intelli- gence, pp. 271-283, beschrieben.

Außerdem sind Verfahren bekannt, die die Dynamik der Veränderungen eines technischen Prozesses auf versteckte bzw. nicht beobachtbare Prozeßzustande des Prozesses zur ckfuhren. Diese Verfahren setzen voraus, daß bekannt ist, welche versteckten Zustande es gibt. Daher müssen alle Quellen für mögliche Ver- anderungen eines technischen Prozesses bekannt sein. Weiterhin muß ein explizites mathematisches Modell angegeben werden können, das die Abbildung des tatsächlichen Prozeßzustandes auf den von der Steuerung beobachteten Zustand beschreibt. Dieses Wissen ist m vielen praktischen Anwendungen nicht verfugbar. So können beispielsweise nicht alle Möglichkeiten des Ausfalls einer Systemkomponente vorhergesehen werden oder es ist nicht genau bekannt, welchen Einfluß ein solcher Ausfall auf die Prozeßzustande des Prozesses hat. Ein Beispiel für diese Klasse von Steuerungen ist in "Plannmg and Acting m Partially Observable Stochastic Domains", Kaelblmg, L.P.; Littman, M.L.; Cassandra, A.R., 1998, Artificial Intelli- gence, Vol. 101, pp. 8-12, beschrieben.

Es ist Aufgabe der Erfindung, eine Steuerungsvorrichtung und ein Verfahren zur Steuerung eines durch Aktuatoren beeinflußbaren technischen Prozesses bereitzustellen, die eine optimierte Steuerung auch für Prozesse erlauben, die sich über die Zeit verandern.

Diese Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost. Vorteilhafte Weiterbildungen ergeben sich aus den jeweiligen Unteranspruchen. Ein der Erfindung zugrundeliegender Gedanke besteht darin, daß die Steuerung eines nicht-stationaren Prozesses, der sich über die Zeit verändert, auf zwei gedanklichen Ebenen besonders vorteilhaft erfolgen kann. Dabei wird auf einer oberen Ebene eine aktuelle Charakteristik des zu steuernden technischen Prozesses analysiert. Mit der "Charakteristik" des technischen Prozesses ist dabei seine Dynamik gemeint, die sich beispielsweise in den Übergangswahrschemlichkeiten zwischen seinen Prozeßzustanden äußert. Dabei können Übergangs- Wahrscheinlichkeiten auf einfache Weise geschätzt werden, und zwar als Wahrscheinlichkeit der Veränderung eines Signals eines Sensors am Prozeß um wenigstens einen vorbestimmten Wert innerhalb eines vorbestimmten Zeitraums nach einer vorbestimmten Beeinflussung des Prozesses durch einen Aktuator um einen vorbestimmten Wert. Kon ret am Beispiel einer Ampelsteuerung konnte eine Übergangswahrschemlichkeit daher durch das Schätzen einer Wahrscheinlichkeit bestimmt werden, daß innerhalb eines bestimmten Zeitraums nach dem Übergang des Signalbilds einer Ampel von "rot" nach "grün" die gemessene Verkehrsdichte an einem Verkenrsdichtesensor um wenigstens einen bestimmten Wert abnimmt. Zur Schätzung werden dabei zumindest eine begrenzte Anzahl von Schaltvorgangen der Ampel herangezogen.

Auf der unteren Ebene des erfmdungsgemaßen Steuerungsverfahrens wird gemäß einem Grundgedanken der Erfindung bei jeder festgestellten Charakteristik ein Satz von Aktuatorparametern zur Betätigung der Aktuatoren angewendet, der sich für den in der momentanen Charakteristik befindlichen Prozeß als vor- teilhaft erwiesen hat bzw. erweist.

Mit der erfmdungsgemaßen Steuerungsvorrichtung lassen sich besonders nicht-stationare Prozesse vorteilhaft steuern. Da- bei weist der zu steuernde technische Prozeß die folgenden Merkmale auf:

der Prozeß weist wenigstens zwei Charakteristiken innerhalb eines charakteristischen Prozeßraums auf, der Prozeß weist bei wenigstens einer Charakteristik wenigstens zwei unterschiedliche Prozeßzustände auf, zwischen denen der Prozeß diskret oder kontinuierlich hin- und herwechseln kann.

Dabei können verschiedene Prozeßzustande nicht nur durch den Prozeß selbst sondern auch durch Aktuatoren und/oder durch äußere Einflüsse erzeugt werden. Im Fall von durch äußere Einflüsse erzeugten Prozeßzuständen spricht man auch von i - pliziten oder von versteckten Prozeßzuständen.

Die Steuerungseinheit gemäß der Erfindung weist die folgenden Merkmale auf: die Steuerungseinheit ist so ausgebildet, daß Prozeßzu- stände wenigstens teilweise anhand von Sensorsignalen von Sensoren der Steuerungsvorrichtung abtastbar sind, die Steuerungseinheit ist so ausgebildet, daß bestimmbar ist, welche Charakteristik der Prozeß momentan aufweist, die Steuerungseinheit ist so ausgebildet, daß der Aktuator bzw. die Aktuatoren unter Anwendung von in der Steuerungseinheit gespeicherten Aktuatorparametern betatigbar sind, die Steuerungseinheit ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern abspeicherbar ist.

Das erfindungsgemäße Verfahren zur Steuerung eines solchen technischen Prozesses beinhaltet das schleifenartige Wiederholen der folgenden Schritte a) bis c) : a) Abtasten des momentanen Prozeßzustandes mit Sensorsignalen wenigstens eines Sensors, b) Bestimmen, welche Charakteristik der Prozeß momentan aufweist, anhand der abgetasteten Sensorsignale, c) Betatigen der Aktuatoren gemäß dem bestimmten Prozeßzustand unter Anwendung von Aktuatorparametern gemäß der anhand der abgetasteten Sensorsignale bestimmten Charakteristik.

Vor dem Wiederholen der Schritte a) bis c) kann der Schritt des Abspeicherns je wenigstens eines Satzes von Aktuatorparametern zu wenigstens einer vorbestimmten Charakteristik vorgesehen sein.

Das erfmdungsgemaße Verfahren kann m einem sehr einfachen Fall so ausgebildet sein, daß zu den bekannten Charakteristiken eines Prozesses jeweils ein Satz von optimierten Aktuatorparametern zur Betätigung der Sensoren in der Steuerungseinheit abgespeichert werden. Geeignete Aktuatorparameter können beispielsweise durch Versuche vor dem Einsatz der er- fmdungsgemaßen Steuerungsvorrichtung ermittelt werden. Für den Fall des Detektierens einer unbekannten Charakteristik kann auch wenigstens ein Satz von Aktuatorparametern vorgesehen sein, die einen Notbetrieb der Steuerungsvorrichtung vor- sehen, wobei zusätzlich die Ausgabe eines Warnsignals vorgesehen sein kann. Auf das Erkennen eines solchen Warnsignals kann Bedienpersonal der Steuerungsvorrichtung auf die Notwendigkeit des Ermitteins und Abspeicherns eines neuen Satzes von optimierten Aktuatorparametern hingewiesen werden.

In Weiterbildung der Erfindung ist die Steuerungseinheit so ausgebildet, daß für den Fall, daß eine der Steuerungseinheit unbekannte Charakteristik vorliegt, anhand der abgetasteten Prozeßzustande zu der unbekannten Charakteristik wenigstens ein Satz von neuen optimierten Aktuatorparametern ermittelbar und abspeicherbar ist. Dabei kann für das Ermitteln gerade von optimierten Aktuatorparametern auch ein insbesondere heu- ristisches Lernverfahren verwendet werden. Der Einsatz eines solchen Lernverfahren zum Ermitteln von neuen Aktuatorparametern ermöglicht es dabei nicht nur, auf als neu erkannte Charakteristiken des zu steuernden technischen Prozesses zu reagieren. Vielmehr können aus Ruckmeldungssignalen, die bei der Anwendung eines Lernverfahrens entstehen, auch Informationen über die momentan vorliegende Charakteristik des technischen Prozesses gewonnen werden. Geeignete Ruckmeldungssignale werden auch als Remforcement-Signale bezeichnet, die Auskunft über die Qualität der aktuellen Steuerung geben. Beim Vorlie- gen von solchen Ruckmeldungssignalen kann vorteilhafterweise sogar auf das besondere Feststellen der momentanen Charakteristik des zu steuernden Prozesses anhand anderer Informationen verzichtet werden. Dies ist dort vorteilhaft, wo das Bestimmen von Ubergangswahrschemlichkeiten zwischen Prozeßzu- standen zu aufwendig ist.

Mit dieser erfmdungsgemaßen Ausbildung können Prozesse gesteuert werden, die sich kontinuierlich oder diskret verandern. Außerdem brauchen nur wenige Annahmen über die Dynamik der Veränderungen des technischen Prozesses gemacht werden, was besonders vorteilhaft ist, da dieses Wissen m praktischen Anwendungen häufig nicht vorhanden ist.

Bei der Erfindung ist dabei besonders vorteilhaft, daß der jeweilige Lernprozeß zu einem Satz von Aktuatorparametern auch m permanent veränderlichen Umgebungen praktisch in endlicher Zeit beendet st. Sobald nämlich an dem zu steuernden technischen Prozeß eine Änderung der Charakteristik festge- stellt wird, wird zunächst überprüft, ob die neu festgestellte Charakteristik mit einer Charakteristik übereinstimmt, zu der bereits ein Satz von optimierten Aktuatorparametern besteht. Falls dies der Fall ist, werden diese Aktuatorparameter eingesetzt und das erfmdungsgemaße Lernverfahren wird ausgehend von den bekannten Aktuatorparametern weiter optimiert. Auf diese Weise wird sichergestellt, daß bereits gelerntes Wissen stets als Basis für weitere Optimierungen zur Verfugung steht und nicht verworfen wird.

Die Erfindung stellt somit ein Lernen m einer veränderlichen Umgebung sicher, wobei sich eine Fuzzy-Gewichtung durch paralleles Lernen erreichen laßt.

Gemäß der Erfindung kann beim Detektieren einer unbekannten Charakteristik als Ausgangspunkt für das Lernverfahren zum Ermitteln von neuen Aktuatorparametern ein Satz von Aktuatorparametern einer bekannten Charakteristik verwendet werden. Dabei werden die neuen Aktuatorparameter durch Gewichtung der Aktuatorparameter der zugrunde gelegten bekannten Charakteristik ermittelt, wooei die für die Gewichtungen verwendeten Gewichte entsprechend der Ähnlichkeit der als neu ermittelten Charakteristik zu der bekannten Charakteristik gewählt werden. Durch diese Vorgehensweise kann auch für unbekannte Cha- rakteristiken des zu steuernden technischen Prozesses eine heuristisch gute Steuerung angegeben werden, die bereits in einem Anfangszustand zufriedenstellende Werte liefert. Das anschließende Verfeinern und Anpassen der Aktuatorparameter zu der neuen Charakteristik kann dann m schnellerer Zeit er- folgen, als dies bei herkömmlichen Lernverfahren der Fall ist. Die Schrittweiten für den neuen Lernprozeß können dabei um so kleiner gewählt werden, je großer die Ähnlichkeit der als neu erkannten Charakteristik zu der als Ausgangspunkt gewählten bekannten Charakteristik ist.

Das erfmαungsge aße Lernverfahren kann somit vorteilhaft un- ter Anwendung von Iterationsschritten durchgeführt werden, wobei beim Vorliegen einer großen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik das Lernverfahren mit kleineren Iterationsschritten begonnen wird als beim Vorliegen einer kleinen Ahn- lichkeit zwischen der als unbekannt bestimmten Charakteristik und der nanekommenden Charakteristik.

Dabei ist es auch möglich, als Ausgangspunkt für das Lernverfahren einen Satz von Aktuatorparametern zu verwenden, der sich als gewichtetes Mittel der Aktuatorparameter mehrerer oder aller bekannten Charakteristiken ergibt. Dies entspricht dem Wahlen einer der unbekannten Charakteristik nahekommenden Charakteristik als Ausgangspunkt für aas Lernverfahren. Danach ist es jedoch möglich, die Aktuatorparameter über das Trainieren der hierbei verwendeten Gewichte zu optimieren.

Dadurch können mehrere Satze von Aktuatorparametern auf einmal trainiert werden, wenn die als Basis verwendeten Aktuatorparameter für ähnliche Prozeßcharakteristika selbst opti- miert werden.

Vorteilhafterweise wird ein heuristisches Lernverfahren angewendet, bei dem der zu steuernde technische Prozeß zunächst willkurlicn angesteuert und danach die Gute der Steuerung be- obachtet wird. Aus der Beobachtung der Gute der Steuerung wird anschließend versucht, Schlüsse zu ziehen, wie die Steuerung verbessert werden kann. Zumindest muß dann die Möglichkeit gegeben sein, den realen Prozeß zu Verfugung zu ha- ben. Alternativ dazu kann auch ein gutes Modell bzw. eine Simulation des zu steuernden Prozesses ausreichen, wobei das vorhandene Modell steuerbar sein muß und wobei der Zustand des Modells beobachtbar sein muß. Hierzu sind m der Regel Sensoren vorgesehen. Das Ziel eines solchen heuristischen Lernverfahrens besteht darin, eine zufriedenstellende Steuerung zu erreichen, ohne daß von vornherein bekannt ist, welche Aktion ausgeführt werden muß, um eine solche Steuerung zu bewerkstelligen. Gemäß der Erfindung kann insbesondere ein als "Q-Learnmg" bekanntes Lernverfahren eingesetzt werden, wobei dann jedem Satz von Aktuatorparametern ein Satz von Q- Faktoren zugeordnet ist, der Auskunft über die Qualltat der möglichen Steueraktionen den verschiedenen Zustanden des Prozesses der jeweiligen Charakteristik gibt.

Falls gemäß der Erfindung beim Ermitteln eines neuen Satzes von Aktuatorparametern zu einer bisher unbekannten Charakteristik von Aktuatorparametern von bekannten Charakteristiken ausgegangen wird, indem diese gewichtet als Ausgangspunkt für den neuen Satz von Aktuatorparametern verwendet werden, können beim spateren Optimieren der neuen Aktuatorparameter vorteilhafterweise die bekannten, als Ausgangspunkt verwendeten Aktuatorparameter mit optimiert werden. Der Lernprozeß auf der unteren Ebene des Erfmdungsgemaßen Verfahrens entspricht somit einem sogenannten "Fuzzy-Lernverfahren" . Dies ist besonders vorteilhaft, wenn aufgrund einer Detektierung von kontinuierlichen Veränderungen des zu steuernden technischen Prozesses partielle Zugehörigkeiten zu mehreren Sätzen von optimierten Aktuatorparametern ermöglicht werden. Daraus laßt sich auch eine Aussage über die Starke der Zugehörigkeit der aktuellen Charakteristik des technischen Prozesses zu den bekannten Charakteristiken angeben, die bei einer sogenannten "Fuzzy-Annaherung" verwendet werden. Gemäß den erfmdungsgemaßen Verfahrensschπtten wird in hierarchisch organisierten Ebenen gearbeitet. Auf der oberen Ebene des erfmdungsgemaßen Verfahrens wird jeweils die aktuelle Charakteristik des Prozesses analysiert. Als Ruckmeldung vom Prozeß stehen dabei entweder die Remforcement-Signale, die Auskunft über die Gute der aktuellen Steuerung geben, und/oder das Übergangsverhalten des Prozesses zwischen seinen möglichen Zustanden zur Verfugung. Die somit bestimmte Cha- rakteristik dient dazu, Veränderungen im Prozeß zu analysieren und insbesondere das spatere Zurückkehren des Prozesses zu einer bereits bekannten Charakteristik zu erkennen. Die Charakteristika werden gespeichert, wobei jeweils dann ein neuer Datensatz für Aktuatorparameter eröffnet wird, wenn sich der technische Prozeß signifikant verändert hat und die nach der Veränderung analysierten Charakteristika noch nicht bekannt sind. Eine signifikante Veränderung trifft zunächst bei jeder erkannten diskreten Veränderung des Prozesses zu. Die Erfindung laßt sich jedoch auch auf technische Prozesse anwenden, die einer kontinuierlichen Veränderung unterliegen.

In einer Weiterbildung der Erfindung kann die Steuerungsem- heit so ausgebildet sein, daß die der Steuerungseinheit gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Erhaltung von redundanten Daten reorganisierbar sind. Hierzu können die Datensatze, die die Aktuatorparameter enthalten, hierarchisch gegliedert werden, was auch mit dem Begriff "hierarchisches Clustermg" bezeichnet wird. Hierdurcn wird das in den Datensätzen der Aktuatorpara- meter gespeicherte Wissen komprimiert und somit der für die Steuerung notwendige Speicherbedarf reduziert. Vornehmlich werden dabei solche Datensatze zusammengefaßt, die ahnliche Charakteristiken des technischen Prozesses betreffen. Für ahnliche Charakteristiken kann es dabei vorkommen, daß nicht notwendigerweise die gleichen Steuerungsstrategien optimal sind, so daß für das hierarchische Organisieren wenigstens eine Nebenbedingung eingeführt werden kann, die die Zusam en- fassung von Datensätzen mit Aktuatorparametern für ähnliche Charakteristiken verhindert, wenn die in den Datensätzen gespeicherten Aktuatorparameter verschiedene Steuerstrategien betreffen.

Die erfmdungsgemaße Vorrichtung und das erfindungsgemaße Verfahren können für das Trainieren einer adaptiven Ampelsteuerung zur Regelung des Verjehrs eines Fahrstraßenstucks verwendet werden, das durch Fahrzeuge und/oder Fußganger benutzt wird. Dabei können die Aktuatoren als Verkehrsampeln ausgebildet sein. Die Sensoren können dabei als Verkehrsdich- tesensoren ausgebildet sein, d e das Vorhandensein einer Anzahl von Fahrzeugen in einer bestimmten Lange des Fahrstra- ßenstucks anzeigen. Der implizite Drift des zu steuernden Prozesses, nämlich des Fahrstraßenverkehrs liegt dabei in der zeitlichen Veränderung von Verkehrsparametern wie der Verkehrsmenge oder wie von Abbiegenaufigkeiten. Diskrete Sprunge des Prozesses werden beispielsweise durch Unfälle oder durch die Sperrung von Spuren für Baustellen verursacht. Diese Großen werden der Steuerungseinrichtung für die Verkehrsampeln nicht explizit zur Verfugung gestellt. Eine Veränderung in diesen Großen kann mit dem erfmdungsgemaßen Verfahren mit der erfindungsgemaßen Steuerungseinrichtung aufgrund von Veränderungen der Charakteristik des Verkehrs trotzdem erkannt werden, so daß geeignete optimierte Strategien für die jewei- ligen Charakteristiken gelernt werden können.

Im Ergebnis stellt die Erfindung ein Black-Box-Verfahren zur Verfugung, das das Erlernen einer optimierten Steuerstrategie für technische Prozesse mit zeitlich veränderten Charakteristika ermöglicht. Dabei ermöglicht das erfindungsgemaße Verfahren grundsätzlich auch eine verbesserte Steuerung des betreffenden technischen Prozesses. Hierzu werden Informationen aus der Beobachtung von Prozeßcharakteristiken verwendet, um den technischen Prozeß zu klassifizieren und um für jede klassifizierte Charakteristik getrennt die Eingabe bzw. das Speichern von optimierten Aktuatorparametern zu ermöglichen. Hierbei werden die Schrittweiten für das Training der einzel- nen Charakteristiken in jedem Schritt entsprechend der Ähnlichkeit zu den bereits gespeicherten Aktuatorparametern zu bekannten Charakteristika gewählt. Durch das Zulassen von partiellen Zugehörigkeiten zu mehreren Charakteristiken wird implizit ein Fuzzy-Q-Learning über den Raum der Prozeßcharak- teristiken ausgeführt. Durch das Ableiten von initialem Wissen über die optimierte Steuerung des technischen Prozesses für eine unbekannte Charakteristik wird durch weiteres Training mit verringerter Schrittweite eine Verfeinerung durchgeführt. Schließlich kann das gelernte Wissen über den Prozeß durch die Zuordnung zu Charakteristika des Prozesses gezielt zusammenge aßt werden, wobei die zugehörigen optimierten Steuerstrategien mit abgespeichert werden. Dabei wird ein Maß für den durch die Zusammenfassung mehrerer Sätze von Aktuatorparametern entstehenden Informationsverlust entwickelt, das als Nebenbedingung in ein sogenanntes "hierarchisches Clustering" eingeführt wird.

Die Erfindung ist in der Zeichnung anhand von Ausführungsbei- spielen veranschaulicht.

Figur 1 zeigt eine schematische Darstellung einer erfin- dungsgemaßen Steuerungsvorrichtung zur Steuerung eines technischen Prozesses, Figur 2 zeigt eine schematische Darstellung einer ersten

Ampelkreuzung, die durch die Steuerungsvorrichtung aus Figur 1 gesteuert wird, Figur 3 em Fuzzy-Partitionierungsdiagramm von Verkehrs- dichtesensoren der Ampelkreuzung aus Figur 2,

Figur 4 zeigt em Pseudocode-Diagramm, daß die Betriebsweise der m Figur 1 gezeigten Steuerungsvorrichtung veranschaulicht, Figur 5 zeigt em Diagramm, das den Lernfortschritt der Steuerungsvorrichtung aus Figur 1 in einer ersten

Betriebsweise an der Ampelkreuzung aus Figur 2 veranschaulicht, Figur 6 zeigt eine gemittelte Darstellung des Lernfortschritts des in Figur 5 gezeigten Diagramms. Figur 7 zeigt em Diagramm, das den Lernfortschritt der

Steuerungsvorrichtung aus Figur 1 an der Ampelkreuzung aus Figur 2 in der ersten Betriebsweise veranschaulicht, und zwar wahrend des Auftretens eines Unfalls an der Ampelkreuzung, Figur 8 zeigt eine gemittelte Darstellung des Lernfortschritts aus Figur 7, Figur 9 zeigt em Diagramm, das den Lernfortschritt der

Steuerungsvorrichtung aus Figur 1 an der Ampelkreuzung aus Figur 2 bei erf dungsgemaßer Betπebswei- se veranschaulicht, und zwar wahrend des Auftretens eines Unfalls an der Ampelkreuzung, Figur 10 zeigt eine gemittelte Darstellung des Lernforschritts aus Figur 9, Figur 11 zeigt eine schematische Darstellung einer weiteren Ampelkreuzung, die durch die Steuerungsvorrichtung aus Figur 1 gesteuert wird, Figur 12 zeigt em Diagramm, daß den Lernfortschritt der

Steuerungsvorrichtung aus Figur 1 bei einer ersten Betriebsweise veranschaulicht, wenn sich an der Ampelkreuzung aus Figur 7 das Abbiegeverhalten ändert, Figur 13 zeigt em Diagramm, daß den Lernfortschritt der

Steuerungsvorrichtung aus Figur 1 an der Ampelkreuzung aus Figur 7 veranschaulicht, wenn die Steuerungsvorrichtung erfmdungsgemaß betrieben wird, und zwar bei mehreren Wechseln des Abbiegeverhal- tens an der Ampelkreuzung aus Figur 7.

Figur 1 zeigt eine schematische Darstellung einer erfmdungs- gemaßen Steuerungsvorrichtung 1.

Die Steuerungsvorrichtung 1 gliedert sich in eine Steuerungs- emheit 2, in einen Aktuator 3, der auf einen technischen

Prozeß 4 einwirkt und diesen beeinflußt, sowie m einen Sensor 5, der vom technischen Prozeß 4 Prozeßzustande abtastet und an die Steuerungseinheit 2 zurückfuhrt.

Die Steuerungseinheit 2 hat eine abschaltbare Datenbank 6 zur Speicherung von Charakteristiken des technischen Prozesses 4 sowie zur Speicherung von Sätzen von Aktuatorparametern zur Betätigung des Aktuators 3. Die Satze von Aktuatorparametern werden auch als "Q-Faktoren" bezeichnet.

Innerhalb der Steuerungseinheit 2 laufen em abschaltbarer Klassifikationsprozeß 7, em abschaltbarer Lernprozeß 8 und em abschaltbarer Gruppierungsprozeß 9 ab, die als hier nicht naher veranschaulichte EDV-Programme ausgebildet sein können.

Der Klassifikationsprozeß 7 empfangt vom Sensor 5 Ruckmel- dungssignale über Prozeßzustande des technischen Prozesses 4. Der Klassifikationsprozeß 7 überprüft anhand der Ruckmeldun- gen des Sensors 5 durch Vergleich mit Datensätzen m der Datenbank 6, ob der technische Prozeß 4 momentan einer bekannten oder einer unbekannten Charakteristik folgt. Falls der technische Prozeß 4 einer bekannten Charakteristik folgt, entnimmt der Klassifikationsprozeß 7 der Datenbank 6 einen zugehörigen Satz von abgespeicherten Aktuatorparametern und übermittelt diesen Satz von Aktuatorparametern an den Lernprozeß 8. Falls der Klassifikationsprozeß 7 das Vorliegen einer noch nicht bekannten Charakteristik ermittelt, wählt der Klassifikationsprozeß 7 einen oder mehrere ähnliche Charakteristika aus der Datenoank 6 aus und übermittelt diese inklusive der jeweils dazugehörigen Satze von Aktuatorparametern an den Lernprozeß 8. Der Lernprozeß 8 steuert auf der Basis der vom Klassifikationsprozeß 7 aus der Datenbank 6 ausge- wählten Satze von Aktuatorparametern den Aktuator 3 an, der wiederum Einfluß auf den technischen Prozeß 4 nimmt. Der Lernprozeß 8 fuhrt dabei em heuristisches Lernverfahren aus, das den momentan verwendeten Satz von Aktuatorparametern im Hinblick auf die ihm vom Sensor 5 übermittelten Ruckmeldungen vom technischen Prozeß 4 optimiert.

Der Lernprozeß 8 speichert die als optimiert erkannten Aktuatorparametern zu einer erkannten Charakteristik des technischen Prozesses 4 m der Datenbank 6 ab, bevor nach Erkennen einer neuen Charakteristik des technischen Prozesses 4 mit dem Lernen und Ausfuhren auf der Basis von neuen Aktuatorparametern begonnen wird.

Der Gruppierungsprozeß 9 überprüft m regelmäßigen Abstanden die Datenbank 6 auf das Vorhandensein von Datensätzen, die zur Vermeidung von Redundanz innerhalb der Datenbank 6 zusammenfaßbar sind. Figur 2 zeigt eine schematische Darstellung einer Straßenkreuzung 10, an der sich eine vertikale Straße 11 mit einer horizontalen Straße 12 schneidet. Der Schnittpunkt der vertikalen Straße 11 und der horizontalen Straße 12 bildet dabei einen Kreuzungsraum 13. Die Straßenkreuzung 10 wird durch die hier nicht dargestellte Steuerungsvorrichtung 1 aus Figur 1 gesteuert, wobei der zu steuernde technische Prozeß 4 im vorliegenden Fall mit der Straßenkreuzung 10 übereinstimmt.

Auf der vertikalen Straße 11 findet nur Verkehr aufgrund von Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf der horizontalen Straße 12 findet nur Verkehr durch Fahrzeuge einer X-Richtung von links nach rechts statt.

Weiterhin wird angenommen, daß diejenigen Fahrzeuge, die die vertikale Straße 11 befahren, nicht in die horizontale Straße 12 abbiegen und umgekehrt. Vielmehr bleiben alle die Straßenkreuzung 10 passierenden Fahrzeuge auf derjenigen Straße, auf der sie fahren.

In der Richtung des Verkehrs der vertikalen Straße 11 sind vor dem Kreuzungsraum 13 e erster Verκenrsdιchtesensor 14 und em zweiter Verkehrsdichtesensor 15 angeordnet. In der Richtung des Verkehrs auf der vertikalen Straße 11 nach dem Kreuzungsraum 13 ist em dritter Verkehrsdichtesensor 16 angeordnet.

In der Richtung des Verkehrs auf der horizontalen Straße 12 sind vor dem Kreuzungsraum 13 em vierter Verkehrsdichtesen- sor 17 und e fünfter Verkehrsdichtesensor 18 angeordnet. In der Richtung des Verkehrs auf der horizontalen Straße 12 ist schließlich nach dem Kreuzungsraum 13 em sechster Verkehrsdichtesensor 19 vorgesehen. Schließlich ist auf der horizontalen Straße 12 im Bereich vor dem Kreuzungsraum 13 und dem Bereich nach dem fünften Verkehrsdichtesensor 18 em typischer Unfallort 20 durch em Symbol "X" eingezeichnet, an dem em Verkehrsunfall auftreten kann, der zur Verminderung der Verkehrsleitfahigkeit der horizontalen Straße 12 fuhrt.

Weiterhin sind m dieser Ansicht nicht gezeigte Verkehrsam- peln vorgesehen, d e als durch die Steuerungseinheit 2 beta- tigbare Aktuatoren ausgebildet sind. Die Verkehrsampeln können zwischen den Signalbildern "rot", "rot-gelb", "grün" und "gelb" hm- und herschalten. Die Verkehrsampeln sind so angeordnet, daß der auf der vertikalen Straße 11 bzw. auf der ho- rizontalen Straße 12 ablaufende Straßenverkehr die Verkehrsampeln wahrnehmen kann.

Die Verkehrsdichtesensoren 14 bis 19 liefern jeweils em Sensorsignal p als Verkehrsdichten, wobei es Zustande innerhalb eines Intervalls [0; p_maχ] einnehmen kann. Dabei mißt der jeweilige Verkenrsdichtesensor 14 bis 19 die räumliche Dichte innerhalb einer vorgegebenen Meßstrecke, die auch in der Einheit "Kraftfahrzeuge pro Meter" angebbar ist.

Figur 3 zeigt em Diagramm, das die Diskretisierung der Signale der Verkehrsdichtesensoren 14 bis 19 veranschaulicht. Eine solche Diskretisierung wird zur Anwendung bei heuristischen Lernverfahren gebraucht, die insbesondere mit digitalen Rechnern durchgeführt werden.

Auf der horizontalen Achse ist die normierte Verkehrsdichte p/Pmax angegeben, die der betreffende Verkehrsdichtesensor mißt. Die normierte bzw. relative Verkehrsdichte p/p_maχ bewegt sich dabei im Intervall [0; 1] . In Richtung der vertikalen Achse sind insgesamt fünf Ausgabekurven von normierten Ausgangswerten angegeben, die eine "Fuzzy-Partitionierung" bilden, aus der sich die Ruckmeldungen an den Lernprozeß 8 erge- ben.

Dabei gibt es eine erste Ausgabekurve vs, die für relative Verkehrsdichten p/p_maχ im Intervall [0; 0,1] einen konstanten Wert von "1" liefert. Für relative Verkehrsdichten p/p_maχ i Intervall [0,1; 0,2] liefert die Ausgabekurve vs einen Ausgabewert im Intervall [1; 0] . Für relative Verkehrsdichten p/P_max großer als 0,2 liefert die Ausgabekurve vs einen konstanten Wert "0". Die Ausgabekurve vs steht für sehr geringe relative Verkehrsdichten "very small".

Die m dem Diagramm von Figur 3 gezeigte Ausgabekurve s liefert für relative Verkehrsdichten p/p_ma_X im Intervall [0; 0,1] einen konstanten Ausgabewert von "0". Für relative Verkehrsdichten p/p_maχ m Intervall [0,1; 0,2] liefert die Ausgabekur- ve s Ausgabewerte im Intervall [0; 1] . Für relative Verkehrsdichten p/p_maχ im Intervall [0,2; 0,3] liefert die Ausgabekur- ve s Ausgabewerte im Intervall [1; 0]. Für relative Verkehrsdichten p/p_max großer als 0,3 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve s steht für geringe relative Verkehrsdichten "small".

Die m dem Diagramm von Figur 3 gezeigte Ausgabekurve liefert für relative Verkehrsdichten p/p_max im Intervall [0; 0,2] einen konstanten Ausgabewert von "0". Für relative Verkehrs- dichten im Intervall [0,2; 0,3] liefert die Ausgabekurve m Ausgabewerte im Intervall [0; 1]. Für relative Verkehrsdichten p/pmax im Intervall [0,3; 0,4] liefert die Ausgabekurve Ausgabewerte im Intervall [1; 0] . Für relative Verkehrsdichten p/p_max größer als 0,4 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve m steht für mittlere relative Verkehrsdichten "mediu " .

Die in dem Diagramm von Figur 3 gezeigte Ausgabekurve h liefert für relative Verkehrsdichten p/p_maχ im Intervall [0; 0,3] einen konstanten Ausgabewert von "0". Für relative Verkehrsdichten p/p_max im Intervall [0,3; 0,4] liefert die Ausgabekur- ve h Ausgabewerte im Intervall [0; 1] . Für relative Verkehrsdichten p/p_max im Intervall [0,4; 0,5] liefert die Ausgabekurve h Ausgabewerte im Intervall [1; 0] . Für relative Verkehrsdichten p/p_max größer als 0,5 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve h steht für hohe relative Verkehrsdichten "high".

Schließlich gibt es eine Ausgabekurve vh, die für relative Verkehrsdichten p/p_max im Intervall [0; 0,4] einen konstanten Wert von "0" liefert. Für relative Verkehrsdichten p/p_max im Intervall [0,4; 0,5] steigt der Wert von "0" auf "1" an. Für relative Verkehrsdichten p/p_maχ größer als 0,5 liefert die Ausgabekurve vh einen konstanten Wert "1". Die Ausgabekurve vh steht für sehr große relative Verkehrsdichten "very high" .

Im nachfolgenden wird beschrieben, wie die in Figur 2 gezeigte Straßenkreuzung 10 mit Hilfe der Steuerungsvorrichtung 1 auf den auftretenden Straßenverkehr hin angepaßt und optimiert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR- Algorithmus angewendet.

Für das durch den CCR-Algorithmus ("CCR" = "Characterizing and Clustering of Reinforcement Signals") zu lösende Optimie- rungsproblem wird angenommen, daß die Straßenkreuzung 10, an der eine Steuerung der Verkehrsampeln durchgeführt werden soll, fest vorgegeben ist. Die Verkehrsnachfrage sei in Form einer Menge von Verkehrsströmen auf der vertikalen Straße 11 und auf der horizontalen Straße 12 vorgegeben, die jeweils durch das Verkehrsaufkommen in Form der Anzahl der fahrenden Fahrzeuge und deren zeitliche Verteilung gegeben ist. Weiterhin sei für die Straßenkreuzung 10 eine Menge zulässiger Signalbilder der Verkehrsampeln gegeben, wobei eine Menge von zeitlichen Nebenbedingungen an die zulässigen Signalbilder der Verkehrsampeln existiert. Zeitliche Nebenbedingungen sind zum Beispiel durch die Bedingungen an die Reihenfolge der zulässigen Signalbilder der Verkehrsampeln vorgegeben. So muß beispielsweise auf ein Signal "rot" ein Signal "rot-gelb" folgen. Weiterhin sind Einschränkungen bezüglich der Dauer der jeweiligen Signalbilder gegeben. Zwischen dem Umschalten zwischen zwei Signalbildern der Verkehrsampeln sollen vorbestimmte Minimalzeiten vergehen. Außerdem darf weder die vertikale Straße 11 noch die horizontale Straße 12 beliebig lan- ge gesperrt werden. Schließlich ist zur Beschreibung der

Straßenkreuzung 10 eine endliche Anzahl aquidistanter Zeitpunkte vorgegeben, zu denen eine Entscheidung über die jeweils an den Verkehrsampeln anzuzeigenden Signalbildern zu treffen ist. Dadurch wird das Optimierungsproblem zeitlich diskretisiert .

Bei dem Problem der Optimierung der Straßenkreuzung 10 handelt es sich um ein Problem, bei dem die nacheinander zu treffenden Entscheidungen über die anzuzeigenden Signalbilder der Verkehrsampeln voneinander abhängein. So sind die voll- standig beschriebenen zeitlichen Nebenbedingungen zu berücksichtigen. Darüber hinaus können ungünstige Entscheidungen zu einem früheren Zeitpunkt einen starken Einfluß auf die später erreichbare Storungsqualitat des durch die Straßenkreuzung 10 dargestellten technischen Prozesses haben. Werden zum Beispiel viele Fahrzeuge so m den Kreuzungspunkt von vertikaler Straße 11 und horizontaler Straße 12 eingelassen, daß sie gleichzeitig im Kreuzungsraum 13 ankommen, kann dort zu einem spateren Zeitpunkt em Aufstauen der Fahrzeuge auch bei einer optimalen Steuerung der Verkehrsampeln nicht mehr verhindert werden.

Das Problem der optimierten Steuerung der Straßenkreuzung 10 ist aufgrund seiner hohen Dimensionalitat schwierig zu losen. Weiterhin kann eine größere Stadt nicht als em einziger technischer Prozeß sondern nur als eine Menge von technischen Prozessen, die miteinander em Gesamtsystem bilden, beschrie- ben werden. In diesem System hangen die Steuerungsentscheidungen der einzelnen Straßenkreuzungen voneinander ab. In einem solchen Fall wird zur Optimierung vorteilhafterweise em hierarchischer Ansatz genutzt. In den folgenden Ausfuhrungen wird speziell das Modell und die Optimierung der Steuerung der Straßenkreuzung 10 aus Figur 2 betrachtet. Die Strategie zur optimierten Steuerung der Straßenkreuzung 10 wird dabei besonders vorteilhaft durch sogenanntes Remforcement-Lernen trainiert. Eine direkte Ableitung eines mathematischen Modells für den Verkehrsfluß im Bereich der Straßenkreuzung 10, insbesondere der Übergangswahrschemlichke ten zwischen einzelnen Prozeßzustanden und der Ruckmeldungen aus der Steuerung der Straßenkreuzung 10, gestaltet sich nämlich schwierig.

Der Zustand der Straßenkreuzung 10 wird im wesentlichen durch die Signale der Verkehrsdichtesensoren, durch das momentan aktive Signalbild der Verkehrsampeln und durch die Zeitdauer bestimmt, wahrend der an der Straßenkreuzung 10 bereits das momentane Signalbild der Verkehrsampeln gezeigt wird.

D e Gute der Steuerung der Straßenkreuzung 10, die als Ruckmeldung an den im Lernprozeß 8 verwendeten Lernalgorithmus verwendet wird, wird als Differenz derjenigen Anzahl der Fahrzeuge, die die Straßenkreuzung 10 bis zum nächsten Ent- scheidungszeitpunkt passieren können, und derjenigen Anzahl von Fahrzeugen gebildet, die vor der Straßenkreuzung 10 warten. Dementsprechend kann auch em negatives Gutesignal ent- stehen, wenn die Anzahl der vor αer Straßenkreuzung 10 wartenden Fahrzeuge großer ist als diejenige Anzahl der Fahrzeuge, die die Kreuzung durchfanren.

Em Ziel der erfmdungsgemaßen Steuerungsvorrichtung und des darin angewendeten Verfahrens besteht darin, für die Straßenkreuzung 10 eine Steuerung zu finden, bei der die Summe der Ruckmeldungen über die Zeit maximiert wird, so daß eine maximale Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren kann.

Figur 4 zeigt einen Pseudocode, der den zur Steuerung der Steuerungsvorrichtung 1 verwendeten Algorithmus veranschaulicht.

Die m dem Algorithmus verwendeten Variablen und Begriffe werden nachfolgend erläutert.

Obere Indizes e: Wahrend αes Trainings werden für jede

Charakteristik, die am zu steuernden Prozeß beobachtet wird, eigene Datenstrukturen Q^e ,u), i e Z, u e U( ι ) und R^eU,u), l e Z, u e U{ ι ) der Datenbank G angelegt. Die einzelnen Datenstrukturen werden durch den oberen Index e unterschieden. Untere Indizes k : Iterationszahler ε: Menge der Charakteristiken ε, d e am zu steuernden Prozeß bereits beobachtet wurden. ι_k: Beobachteter Prozeßzustand des Prozesses in Iteration _ k . u_k: Ausgeführte Steuer-Aktion in Iteration k .

Z: Menge der Prozeßzustande, die am Prozeß beobachtet werden können.

UU) : Menge der im Zustand l ausfuhrbaren Steuer- Aktionen. g (ι_k , u_{< r} ι_k+ι ) : Beobachtete Gute des Prozesses m Iteration k (Remforcement Signal) . Die Gute kann vom Prozeßzustand und der Aktion in Iteration k und dem resultierenden Fol- geprozeßzustand abhangen. Q-Values Q^e: Q^e ( ι , u) gibt die erwartete Summe der zukunftigen Ruckmeldungen über die Gute des zu steuernden Prozesses an, wenn im Zustand I die Aktion u ausgeführt wird, und die Steuerung anschließend optimiert ist. Diese Q-Values werden wahrend des Lernvorgangs trainiert. Aus den Q-Values kann die optimale Steuerung abgeleitet werden, indem im Zustand i diejenige Aktion u ausgeführt wird, für die Q^e(ι,u) maximal wird. Q-Values werden im Q- Learnmg verwendet.

R_k ^e : R_k ^e ( ι , u) gibt die erwartete Gute der Ausfuhrung von Aktion u im Zustand l an, wenn sich der Prozeß m der

Charakteristik e befindet. Diese Werte werden wahrend des Trainings in der oberen Ebene gelernt und ermöglichen, Veränderungen des Prozesses zu erkennen. Wenn Veränderungen des Prozesses nicht im Verlauf der Gute der Steuerung sichtbar werden, können auch Übergangswahrschemlichkei- ten zwischen den einzelnen Zustanden gelernt und zur Erkennung von Veränderungen genutzt werden. d^e _k : Distanz der Charakteristik, die für den Datensatz e gelernt wurde zur Charakteristik des zu trainierenden Prozesses in Iteration J. μ_k ^e : Zugehörigkeit des Prozesses in Iteration k zur ge^¬ lernten Charakteristik e. Die Zugehörigkeit nimmt mit zunehmender Distanz d_k ^e ab.

Der Figur 4 dargestellte Pseudocode weist insgesamt sieben Blocke auf, die nachfolgend erläutert werden.

1) Initialisierung (Zeilen 1.-7.) : Anfänglich existiert nur em einziger Datensatz Q^e in der unteren bzw. R^e m der oberen Ebene. In der oberen Ebene werden somit am Anfang die Charakteristika des Prozesses den ersten Iterati- onen gelernt. Wenn sich die Charakteristika des Prozesses spater verandern, werden dynamisch weitere Datensatze angelegt. Der initiale Prozeßzustand io wird bestimmt.

2) Exploration (Zeilen 11.-12.): Die Aktionen u_k e O { i_k) kon- nen wahrend des Trainings zufällig ausgewählt werden. Der

Folgezustand x_k+ι des Prozesses und die Gute der Steuerung g { i_k , _k , i_k+ι ) können anschließend beobachtet werden.

3) Einordnung des Prozesses (Zeilen 14.-17.): Die Ahnlich- keit der aktuellen Charakteristik des Prozesses zu den bereits gelernten kann anhand der für die einzelnen Charakteristiken trainierten erwarteten Guten R^e _k bestimmt werden, indem der Abstand der beobachteten Guten zu diesen bestimmt wird:

Aus diesen Distanzen können folgendermaßen Zugehoπgkei- ten abgeleitet werden:

so daß die Zugehörigkeit mit zunehmender Distanz abnimmt und die Summe aller Zugehörigkeiten Eins ist. Die Wahl des Fuzzyfier m hangt dabei von der Problemstellung ab:

Ver ndert sich die Umgebung kontinuierlich, so daß zu jedem Zeitpunkt Zugehörigkeiten zu mehreren Umgebungen möglich sind, können die Zugehörigkeiten echt fuzzy gewählt werden (z.B. m=2 ) , geht man dagegen von einer diskreten Änderung der Umgebung aus, ist eine scharfe Trennung der Umgebungen sinnvoll (m — > 1) .

4) Neue Charakteristik (Zeilen 19.-22.): Wenn die aktuelle Charakteristik des Prozesses keine Ähnlichkeit zu einer der gelernten Charakteristiken aufweist (alle Distanzen d^e _k großer als ein Schwellwert) , wird ein neuer Datensatz für diese neue Charakteristik e' angelegt.

5) Speicherung der Charakteristika des Prozesses: Die erwar- teten Guten R^e(i ,u_y) werden für alle e e ε entsprechend der neuen beobachteten Gute q{i_k, uk, i ₊ ) adaptiert:

*_+I(z_t,κ = Λ (ι_t,ι + μ_k'₊ — ,κ_t,'_t+,) - R_k'(ι_k,u_k)) ^τ k,,_k.u_t

*;₊₁(ι,κ) = R₊₁ (ι,κ), V(/,M) ≠ (ι_k,u_k), JG Z , ueU(t)

Die Schrittweite a' der Adaption wird dabei von

der Zugehörigkeit μ_k ^e _+] der aktuellen Charakteristik des Prozesses zu den bereits gelernten Charakteristiken R^e und der Anzahl τf „ bereits zuvor ausgeführter Adaptionen auf den Feldern R^e jc, u_k) bestimmt. Da einerseits die Zugehörigkeiten μ^e von den erwarteten Guten R^e abhangen, an- dererseits aber die R^e m Abhängigkeit der Zugehorιg eιten bestimmt werden, muß für die Konvergenz des gesamten Verfahrens vorausgesetzt werden, daß sich die Charakteristik des Prozesses so langsam ändert, daß zwischen der Änderung die R^e gelernt werden können. Diese Forderung ist sinnvoll, da em beliebig schnell veränderlicher Prozeß prinzipiell nicht sinnvoll gesteuert werden kann.

6) Q-Learnmg: Hierfür wird em Remforcement-Lernverfahren eingesetzt. Hier wird jedoch die Schrittweite der Adapti- on der Q-Values Q^e zusätzlich durch die Zugehörigkeiten μ^e _k bestimmt, so daß vorzugsweise nur e Training auf denjenigen Q-Values ausgeführt wird, zu denen die aktuelle Charakteristik des Prozesses paßt. Die Adaption der Q- Values im Q-Learnmg wird folgendermaßen ausgeführt:

Q^e(ι, u) = ,

wenn Steueraktion u im Zustand I ausgeführt wurde, daraufhin em Übergang in den Zustand j stattgefunden hat, und das Remforcement Signal g (i, u, j) geliefert wurde. 0 < α < 1 ist eine vom Anwender vorgegebene Konstante, γ eine Lernrate, die wahrend des Lernprozesses von 1 auf 0 gesenkt wird, und μ^e ist die Zugehörigkeit des Prozesses zur Charakteristik e, zu der die Q-Values Q^e gehören. Da der Prozeß zu mehreren Charakteristiken partiell gehören kann, können also die Q-Values mehrerer Charakteristiken parallel (mit entsprechend der Zugehörigkeit verminderter Lernrate) trainiert werden. Wird nun em neuer Datensatz angelegt, weil der Prozeß zu keiner bekannten Charakteristik eine Ähnlichkeit aufweist, so wird offensichtlich zunächst nur der neue Datensatz trainiert. Im Laufe der Zeit kann der Prozeß jedoch wieder zu anderen Charakteri- stiken Ähnlichkeit bekommen, so daß dann gegebenenfalls mehrere Datensatze parallel trainiert werden.

In den Figuren 5 bis 10 wird der Verlauf der Güte der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 über die Zeit dargestellt. Dabei stellen die Angaben auf der X-Achse jeweils die laufende Nummer der Zeitpunkte dar, zu denen eine Entscheidung über das nächste anzulegende Signalbild zu treffen ist.

Die auf der Y-Achse angegebene Gute der Steuerung entspricht der Differenz aus der Anzahl derjenigen Fahrzeuge, die die Straßenkreuzung 10 bis zum nächsten Entscheidungszeitpunkt passieren können und der Anzahl derjenigen Fahrzeuge, die vor der Straßenkreuzung 10 warten. Wie man aus den Figuren 5 bis 10 sieht, bewegt sich der Gütewert in einem Intervall zwischen ca. -15 und ca. +19.

In Figur 5, in Figur 7 und in Figur 9 ist jeweils der genaue Verlauf der Güte über die Zeit dargestellt, der Schwankungen von ca. +/-3 Fahrzeugen aufweist. Dies ist darauf zurückzuführen, daß bei einer gegebenen Güte der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 nicht bei jedem Entscheidungszeitpunkt dieselbe Regelungsqualität erreicht werden kann.

Die Schwankungen im Verlauf der Güte der Steuerung in Figur 5, in Figur 7 und in Figur 9 sind in den in Figur 6, Figur i und Figur 10 gezeigten gemittelten Verlaufen der Gute der Steuerung der Straßenkreuzung 10 herausgefiltert.

In Figur 5 und in Figur 6 ist der Verlauf der Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 dargestellt, bei der ausschließlich der Lernprozeß 8 aktiv ist. Der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 sind dabei ausgeschaltet. Wie man an dem Verlauf der Gute ab dem Entscheidungszeitpunkt 10000 sieht, können in einem optimierten Zustand der Steuerungsvorrichtung 1 immer ca. 13 Fahrzeuge mehr die Straßenkreuzung 10 bis zum nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor der Straßenkreuzung 10 warten müssen. Dabei ergeben sich deutliche Verbesserungen aus dem Lernverhalten des Lernprozesses 8 ab dem Entscheidungszeitpunkt 3000 bzw. 10000, wie am besten m Figur 6 zu sehen ist.

Figur 7 und Figur 8 zeigen eine weitere Entwicklung der Gute der Steuerung durch die Steuerungsvorrichtung 1 der Straßenkreuzung 10 bei einem Lernen des Lernprozesses 8, wobei der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 ausgescnaltet sind.

Zum Entscheidungszeitpunkt 5000 wird die horizontale Straße 12 am Unfallort 20 durch einen Unfall verengt, worauf in der Folge die Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 von einem Wert von ca. 12 auf einen Wert von ca. 3 einbricht und durch fortwahrendes Lernen wieder auf einen Wert von ca. 5 ansteigt.

Zum Entscheidungszeitpunkt 10000 wird die horizontale Straße 12 am Unfallort 20 freigegeben, so daß wieder deren ursprüngliche Kapazität vorliegt. Wie man am besten in Figur 8 sieht, steigt die Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 wieder auf den ursprunglichen Wert von ca. 11 an, bis zum Zeitpunkt 21000 eine Gute von 13 erreicht wird, die der maximalen Gute der Steuerung gemäß Figur 5 und Figur 6 entspricht. Durch das Auftreten des Unfalls wahrend des Lernens des Lernprozesses 8 in der Steuerungsem- heit 2 wird also das Erreichen einer optimierten Gute der Steuerung der Steuerungsvorrichtung 1 um 11000 Entscheidungszeitpunkte verzögert. Dies wird darauf zurückgeführt, daß d e lernende Steuerungsvorrichtung 1 wahrend des Auftretens des Unfalls in den Entscheidungszeitpunkten 5000 bis 10000 em Steuerungsverhalten lernt, das nach dem Freigeben der horizontalen Straße 12 nicht mehr korrekt ist.

Wie man am besten m Figur 7 sieht, sind die Ausschlage der Gute der Steuerung der Straßenkreuzung 10 zwischen den Entscheidungszeitpunkten 10000 und 21000, also unmittelbar nach dem Freigeben des Unfallorts 20, großer als beim Erreichen des optimierten Zustandes auf dem Entscheidungszeitpunkt 21000.

Figur 9 und Figur 10 veranschaulichen einen Lernvorgang der Steuerungsvorrichtung 1 bei der Steuerung der Straßenkreuzung 10, wobei die Datenbank 6, der Klassifikationsprozeß 7, der Lernprozeß 8 und der Gruppierungsprozeß 9 aktiv sind und das erfmdungsgemaße Verfahren ausfuhren.

Zwischen den Entscheidungszeitpunkten 5000 und 10000 ist die horizontale Straße 12 durch einen Unfall am Unfallort 20 verengt, so daß die Kapazität der horizontalen Straße 12 einge- schrankt ist. Wie man am besten in Figur 10 sieht, hat die Gute der Steuerung der Straßenkreuzung 10 zum Entscheidungszeitpunkt 5000 einen Wert von ca. 11 erreicht, der wahrend der Zeitdauer des Unfalls auf einen Wert von ca. 5 absinkt. Insofern stimmen die Darstellungen von Figur 10 und Figur 8 qualitativ uberem. Beim Auftreten des Unfalls zum Entscheidungszeitpunkt 5000 bemerkt die Steuerungseinheit 2, daß der zu steuernde technische Prozeß, nämlich die Straßenkreuzung 10, eine andere Charakteristik aufweist. Dies kann beispielsweise durch den Einbruch der Gute der Steuerung bemerkt werden, der von dem Klassifikationsprozeß 7 abgetastet wird. Eine andere Möglichkeit, eine Änderung der Charakteristik der Straßenkreuzung 10 zu detektieren, besteht in der Beobachtung der Wahrscheinlichkeit, daß innerhalb eines bestimmten Zeitraums nach dem Übergang der betreffenden Verkehrsampel vom Signalbild "rot-orange" zum Signalbild "grün" die gemessene Fahrzeugdichte am vierten Verkehrsdichtesensor 17 und am fünften Verkenrsdichtesensor 18 nicht um wenigstens m dem Maße abnimmt, wie es bei Übergängen zwischen denselben Si- gnalbildern zu einem Entscheidungszeitpunkt vor dem Auftreten des Unfalls der Fall war.

Zum Entscheidungszeitpunkt 5000 legt der Lernprozeß 8 Übereinstimmung mit dem Klassifikationsprozeß 7 einen neuen Satz von Aktuatorparametern für die Verkehrsampeln an und beginnt den neuen Satz von Aktuatorparametern zu trainieren. Der ursprüngliche Satz von Aktuatorparametern wird in der Datenbank 6 abgespeichert, und zwar unter einem Merkmal, das die betreffende Charakteristik der Straßenkreuzung 10 kennzeichnet. W e man am besten m Figur 10 sieht, nimmt die Gute aufgrund des Lernvorgangs der Steuerungsvorrichtung 1 bis auf einen Wert von ca. 10 zu, also auf einen höheren Wert als der in der Figur 8 angegebene entsprechende maximale Wert. Beim Auftreten eines Unfalls wird mit der erf dungsgemaßen Steuerung daher schneller eine höhere Gute der Steuerung der Straßenkreuzung 10 erreicht als dies bei abgeschaltetem Klassifikationsprozeß 7 möglich ist. Nach dem Freigeben des Unfallorts 20 steigt die Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 sehr schnell auf den Endwert 13 an, der n Figur 8 erst zum Entscheidungszeitpunkt 21000 erreicht wurde. Dies wird damit begründet, daß die in der Datenbank 6 abgespeicherten Parameter zu der Charakteristik der Straßenkreuzung 10 vor dem Auftreten des Unfalls zum Entscheidungszeitpunkt 5000 wahrend des Trainings der Aktuatorparameter für die Cha- rakteπstik der Straßenkreuzung 10 wahrend des Unfalls zwischen den Entscheidungszeitpunkten 5000 und 10000 mittrai- niert werden. Damit zeigt das durch die Steuerungsvorrichtung 1 gesteuerte technische System der Straßenkreuzung 10 unmittelbar nach Beendigung des Unfalls em optimiertes Verhalten, so daß gegenüber der Gute der Steuerung der Straßenkreuzung

10 unmittelbar vor dem Unfall jedenfalls keine Verzögerung im weiteren Lernverhalten entsteht.

Figur 11 zeigt eine schematische Darstellung einer Straßen- kreuzung 30, an der sich eine vertikale Straße 31 mit einer horizontalen Straße 32 schneidet, die m eine erste Abbiegestraße 33 und in eine zweite Abbiegestraße 34 mundet. Die Straßenkreuzung 30 wird durch die hier nicht dargestellte Steuerungsvorrichtung 1 aus Figur 1 gesteuert, wobei der zu steuernde technische Prozeß 4 im vorliegenden Fall mit der Straßenkreuzung 30 übereinstimmt.

Auf der vertikalen Straße 31 findet nur Verkehr aufgrund von Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf der horizontalen Straße 32 findet nur Verkehr durch Fahrzeuge in einer X-Richtung von links nach rechts statt. Ebenso findet auf der ersten Abbiegestraße 33 und auf der zweiten Abbiegestraße 34 nur Verkehr durch Fahrzeuge in einer X- Richtung von links nach rechts statt. Weiterhin wird angenommen, daß diejenigen Fahrzeuge, die die vertikale Straße 31 befahren, nicht in die horizontalen Straße 32, in die erste Abbiegestraße 33 bzw. in die zweite Abbiegestraße 34 abbiegen und umgekehrt. Vielmehr bleiben alle die Straßenkreuzung 30 passierenden Fahrzeuge auf derjenigen Straße, auf der sie fahren.

Der Schnittpunkt der vertikalen Straße 31, der horizontalen Straße 32, der ersten Abbiegestraße 33 und der zweiten Abbiegestraße 34 bildet einen Kreuzungsraum 35. In der Richtung des Verkehrs der vertikalen Straße 31 sind vor dem Kreuzungsraum 35 ein erster Verkehrsdichtesensor 36 und ein zweiter Verkenrsdichtesensor 37 angeordnet. In der Richtung des Ver- kehrs auf der vertikalen Straße 31 nach dem Kreuzungsraum 35 ist ein dritter Verkehrsdichtesensor 38 angeordnet.

In der Richtung des Verkehrs auf der horizontalen Straße 32 sind vor dem Kreuzungsraum 35 ein vierter Verkehrsdichtesen- sor 39 und ein fünfter Verkehrsdichtesensor 40 angeordnet. In der Richtung des Verkehrs auf der ersten Abbiegestraße 33 ist nach dem Kreuzungsraum 35 ein sechster Verkehrsdichtesensor 41 vorgesehen. In der Richtung des Verkehrs auf der zweiten Abbiegestraße 34 ist schließlich nach dem Kreuzungsraum 35 ein siebter Verkehrsdichtesensor 42 vorgesehen.

Schließlich ist auf der ersten Abbiegestraße 33 im Bereich nach dem Kreuzungsraum 35 und nach dem sechsten Verkehrsdichtesensor 41 eine Baustelle 43 als Ventilsymbol eingezeichnet, an der die erste Abbiegestraße 33 verengbar ist, was zur Verminderung der Verkehrsleitfähigkeit der ersten Abbiegestraße 33 führt. Gleichzeitig wird angenommen, daß der Verkehr auf der horizontalen Straße 32 sein Abbiegeverhalten mit der Zeit ändert, zum Beispiel beim Übergang vom Berufsverkehr zum Einkaufsverkehr . Diese Informationen werden der Steuerungsvorrichtung 1 ausdrücklich nicht mitgeteilt.

Außerdem sind in dieser Ansicht nicht gezeigte Verkehrsampeln vorgesehen, die als durch die Steuerungseinheit 2 betätigbare Aktuatoren ausgebildet sind. Die Verkehrsampeln und die Verkehrsdichtesensoren 36 bis 42 entsprechen dabei den Verkehrsampeln und den Verkehrsdichtesensoren 14 bis 19 aus Figur 2 und Figur 3.

Im Nachfolgenden wird beschrieben, wie die in Figur 11 gezeigte Straßenkreuzung 30 mit Hilfe der Steuerungsvorrichtung 1 auf den auftretenden Straßenverkehr hin angepaßt und opti- miert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR- Algorithmus angewendet.

Die Randbedingungen für das durch den CCR-Algorithmus zu lösende Optimierungsproblem entsprechen im wesentlichen denje- nigen, die für die Straßenkreuzung 10 gelten.

Ein Ziel der erfindungsgemäßen Steuerungsvorrichtung und des darin angewendeten Verfahrens besteht darin, für die Straßenkreuzung 30 eine Steuerung zu finden, bei der die Summe der Rückmeldungen über die Zeit maximiert wird, so daß eine maximale Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren kann.

In Figur 12 und in Figur 13 wird der Verlauf der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1 über die Zeit dargestellt. Die Art und Weise der Darstellung des Verlaufs der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1 entspricht dabei im wesentlichen derjenigen in den Figuren 5 bis 10.

Der von Ql kommende Verkehr auf der horizontalen Straße 32 hat zwei Möglichkeiten, aus dem Kreuzungsraum 35 auszufahren, nämlich entweder nach ZI auf der ersten Abbiegestraße 33 oder nach Z2 auf der zweiten Abbiegestraße 34. In Richtung des Ziels ZI ist die Kapazität der ersten Abbiegestraße 33 reduziert, beispielsweise durch die Baustelle 43 oder durch einen Unfall. In der Richtung Z2 soll dagegen freier Verkehr auf der zweiten Abbiegestraße 34 herrschen.

In dem vorliegenden Beispiel kann der Verkehr auf der Straßenkreuzung 30 in zwei typische Charakteristiken eingeteilt werden, die durch zwei Abbiegeraten OD-A und OD-B vorgegeben sind.

Bei der Abbiegerate OD-A biegen 90% der Fahrzeuge auf der horizontalen Straße 32 in die Richtung Z2 auf die zweite Abbiegestraße 34 ab, während 10% der Fahrzeuge auf der horizonta- len Straße 32 in die Richtung ZI auf die erste Abbiegestraße 33 abbiegen.

Bei der Charakteristik mit der Abbiegebeziehung OD-B biegen 90% der Fahrzeuge der horizontalen Straße 32 in auf die erste Abbiegestraße 33 zum Ziel ZI ab, während 10% des Verkehrs auf der horizontalen Straße 32 in die zweite Abbiegestraße 34 zum Ziel Z2 abbiegen.

Bei der Abbiegerate OD-B wird sich der Verkehr auf der hori- zontalen Straße 32 stark zurückstauen, so daß der Anteil der Zeit, in der eine horizontale Verbindung des Kreuzungsraums 35 existiert, drastisch reduziert werden muß. Die Abbiegerate ist kein expliziter Eingabeparameter für die Steuerungsvor- πchtung 1. Die Abbiegerate muß daher als versteckter Parameter angesehen werden, der im Laufe der Zeit den zu steuernden Prozeß, nämlich die Straßenkreuzung 30, verändert.

In Figur 12 ist der Verlauf der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1 dargestellt, bei der ausschließlich der Lernprozeß 8 aktiv ist. Der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 sind dabei ausgeschaltet. Ab dem Entscheidungszeitpunkt 5000 herrscht die Abbiegerate OD-B. Vom Entscheidungszeitpunkt 0 bis zum Entscheidungszeitpunkt 5000 herrscht die Abbiegerate OD-A.

Wie man an dem Verlauf der Gute der Steuerung durch die Steuerungsvorrichtung 1 in Figur 12 sieht, können in einem optimierten Zustand die Steuerungsvorrichtung 1 immer zwischen 20 und 29 Fahrzeuge mehr die Straßenkreuzung 30 bis zum nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor der Straßenkreuzung 30 warten müssen.

Zwischen dem Entscheidungszeitpunkt 5000 und dem Entscheidungszeitpunkt 6000, also kurz nachdem sich die Abbiegerate drastisch geändert hat, bricht die Gute der Steuerungsvorrichtung 1 auf einen Wert von ca. 10 em, so daß nur noch zehn Fahrzeuge mehr die Straßenkreuzung 30 bis zum nächsten Entscheidungszeitpunkt passieren können, als Fahrzeuge vor der Straßenkreuzung 30 warten müssen.

Es konnte beobachtet werden, daß die Verkehrsampel der hori- zontalen Straße 32 nach dem Wechsel der Abbiegebeziehung von OD-A nach OD-B auf das konstante Signalbild "grün" schaltet. Dies ist darauf zurückzuführen, daß die Steuerungsvorrichtung 1 den Wechsel der Charakteristik des Verkehrs nicht bemerkt und nach wie vor die gelernten Aktuatorparameter bei der alten Abbiegebeziehung OD-A verwendet. Die Aufstauung des Verkehrs vor dem Ziel ZI in den Kreuzungsraum 30 hinein bewirkt schließlich, daß von dem vierten Verkehrsdichtesensor 39 und von dem fünften Verkehrsdichtesensor 40 em "starker Verkehr" auf der horizontalen Straße 32 gemeldet wird, den die Steuerungsvorrichtung 1 durch Durchlassen des Verkehrs der horizontalen Straße 32 durch den Kreuzungsraum 35 abzubauen versucht, indem die zugehörigen Verkehrsampeln das Signalbild "grün" annehmen. Diese Reaktion ist falsch, weil die Verkehrsstauung nicht durch die Straßenkreuzung 30 selbst, sondern durch den Engpaß an der Baustelle 43 hinter dem Kreu- zungsraum 35 verursacht wird. Die zeitliche Verzögerung des Einbruchs der Gute der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1, die m Figur 12 dargestellt wird, stellt gerade diejenige Zeit dar, die die Fahrzeuge bei der neuen Abbiegerate OD-B benotigen, um in das durch die Straßenkreuzung 30 dargestellte Szenario einzufahren, und die vergeht, bis der Stau vor der Baustelle 43 bis in den Kreu- zungsraum 35 hineinreicht. Das starke Schwanken der Gute der Steuerungsvorrichtung 1 vor dem Wechsel der Abbiegerate ist darauf zurückzuführen, daß auch bei optimaler Steuerung nicht in jedem Zustand der Straßenkreuzung 30 die gleiche Gute der Steuerung erreicht werden kann. So können wahrend des Signal- bilds "gelb" keine Fahrzeuge den Kreuzungsraum 30 passieren.

Figur 13 zeigt eine weitere Entwicklung der Gute der Steuerung durch die Steuerungsvorrichtung 1 der Straßenkreuzung 30 bei einem Lernen des Lernprozesses 8, wobei der Klassiflkati- onsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 aktiv sind und das erfmdungsgemaße Verfahren ausfuhren.

Jeweils zwischen den Entscheidungszeitpunkten 1000 und 2000 bzw. 3000 und 4000 ist die Baustelle 43 verengt, so daß die Kapazität der ersten Abbiegestraße 33 eingeschränkt ist. Die Gute der Steuerung der Straßenkreuzung 30 erreicht bei der Abbiegerate OD-A einen gemittelten Wert von ca. 24, wahrend die Gute der Steuerung der Straßenkreuzung 30 bei der Abbiegerate OD-B einen gemittelten Wert von ca. 18 erreicht.

Kurz nach dem Wechseln der Abbiegerate an der Straßenkreuzung 30 bemerkt die Steuerungseinheit 2, daß der zu steuernde technische Prozeß, nämlich die Straßenkreuzung 30, eine andere Charakteristik aufweist. Dies kann beispielsweise durch den Einbruch der Gute der Steuerung bemerkt werden, der jeweils von dem Klassifikationsprozeß 7 abgetastet wird. Eine andere Möglichkeit, eine Änderung der Charakteristik der Straßenkreuzung 30 bei der Änderung der Abbiegewahrscheinlichkeit zu detektieren, besteht m der Wahrscheinlichkeit, daß innerhalb eines bestimmten Zeitraums nach dem Übergang der betreffenden Verkehrsampel vom Signalbild "rot-gelb" zum Signalbild "grün" die gemessene Verkehrsdichte am vierten Verkehrsdichtesensor 39 und am fünften Verkehrsdichtesensor 40 nicht um wenigstens m dem Maße abnimmt, wie es bei Übergängen zwischen denselben Signalbildern zu einem Entscheidungszeitpunkt vor dem Auftreten der Änderung der Abbiegerate der Fall war.

Jeweils beim Detektieren einer bisher unbekannten Änderung der Charakteristik der Straßenkreuzung 30 legt der Lernprozeß 8 in Übereinstimmung mit dem Klassifikationsprozeß 7 einen neuen Satz von Aktuatorparametern für die Verkehrsampeln an und beginnt, den neuen Satz von Aktuatorparametern zu trainieren. Der jeweils andere Satz von Aktuatorparametern wird in der Datenbank 6 abgespeichert, und zwar unter einem Merkmal, das die betreffende Charakteristik der Straßenkreuzung 30 kennzeichnet. Somit können zu einem spateren Zeitpunkt bekannte Charakteristiken weitertrainiert werden.

In Figur 10 wechseln die Abbiegeraten sogar mehrfach. Man kann beobachten, daß der Wechsel der Gute der Steuerung erkannt wird und die Steuerungsvorrichtung lernt, sich in der veränderten Umgebung korrekt zu verhalten. Der auch hier noch vorhandene kleine Einbruch der Gute bei der Abbiegerate OD-B von "24" auf "18" ist darauf zurückzuführen, daß auch bei ei- ner optimierten Steuerung der Steuerungsvorrichtung 1 aufgrund des Engpasses vor dem Ziel ZI insgesamt weniger Fahrzeuge die Straßenkreuzung 30 passieren können, als bei der Abbiegerate OD-A.

Bei jedem detektierten Wechsel der momentanen Charakteristik der Straßenkreuzung 30 wird em betreffender neuer bzw. bekannter anderer Satz von Aktuatorparametern für die Steuerung der Steuerungseinheit 2 verwendet. Der jeweils andere, optimierte Satz von Aktuatorparametern wird in der Datenbank 6 gespeichert. Dadurch ist gewährleistet, daß die Aktuatorparameter immer für diejenige Abbiegebeziehung bzw. Charakteristik der Straßenkreuzung 30 optimiert werden, die jeweils vorhanden ist. Eine fehlerhafte Optimierung wird dadurch vermieden.

Claims

Patentansprüche

1. Steuerungsvorrichtung zur Steuerung eines durch Aktuatoren beinflußbaren technischen Prozesses (4; 10; 30) mit einer Steuerungseinheit (2), mit wenigstens einem Aktuator (3) und mit wenigstens einem Sensor (5; 14-19; 36- 42), wobei der Prozeß die folgenden Merkmale aufweist: der Prozeß (4; 10; 30) weist wenigstens zwei Charakte- ristiken innerhalb eines charakteristischen Prozeßraums auf, der Prozeß (4; 10; 30) weist bei wenigstens einer Charakteristik wenigstens zwei unterschiedliche Prozeßzustände auf, wobei die Steuerungseinheit (2) die folgenden Merkmale aufweist : die Steuerungseinheit (2) ist so ausgebildet, daß Prozeßzustände wenigstens teilweise anhand von Sensorsi- gnalen des Sensors (3) bzw. der Sensoren (14-19; 36- 42) abtastbar sind, die Steuerungseinheit (2) ist so ausgebildet, daß bestimmbar ist, welche Charakteristik der Prozeß (4; 10; 30) momentan aufweist, die Steuerungseinheit (2) ist so ausgebildet, daß der Aktuator (3) bzw. die Aktuatoren unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorparametern betätigbar ist bzw. sind, die Steuerungseinheit (2) ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktua- torparametern abspeicherbar ist.

2. Steuerungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Steuerungseinheit (2) so ausgebildet ist, daß für den Fall, daß eine der Steuerungseinheit (2) unbekannte Charakteristik vorliegt, anhand der abgetasteten Prozeßzustände zu der unbekannten Charakteristik wenigstens ein Satz von neuen Aktuatorparametern ermittelbar und/oder abspeicherbar ist.

3. Steuerungsvorrichtung nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß die Steuerungseinheit (2) so ausgebildet ist, daß die in der Steuerungseinheit (2) gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Haltung von redundanten Daten reorganisierbar sind.

4. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der technische Prozeß als durch wenigstens eine Verkehrsampel gesteuertes, durch Fahrzeuge und/oder Fußgänger benutztes Fahrstraßenstück (10; 30) ausgebildet ist, wobei die Aktuatoren als Verkehrsampeln ausgebildet sind und/oder wobei die Sensoren als Verkehrsdichtesensoren (14-19; 36-42) ausgebildet sind.

5. Verfahren zur Steuerung eines durch Aktuatoren beinfluß- baren technischen Prozesses (4; 10; 30), wobei der Prozeß (4; 10; 30) die folgenden Merkmale aufweist: der Prozeß (4; 10; 30) weist wenigstens zwei Charakteristiken innerhalb eines charakteristischen Prozeß- raums auf, der Prozeß (4; 10; 30) weist bei wenigstens einer Charakteristik wenigstens zwei unterschiedliche Prozeßzustände auf, wobei das Verfahren das schleifenartige Wiederholen der folgenden Schritte a) bis c) aufweist: a) Abtasten des momentanen Prozeßzustands mit Sensorsignalen wenigstens eines Sensors (3; 14-19; 36-42) , b) Bestimmen, welche Charakteristik der Prozeß (4; 10;

30) momentan aufweist, und zwar anhand der abgetasteten Sensorsignale, c) Betätigen des Aktuators (3) bzw. der Aktuatoren gemäß dem bestimmten Prozeßzustand unter Anwendung von Ak- tuatorparametern gemäß der anhand der abgetasteten Sensorsignale bestimmten Charakteristik, wobei vor dem Wiederholen der Schritte a) bis c) der Schritt des Abspeicherns je wenigstens eines Satzes von Aktuatorparametern zu wenigstens einer vorbestimmten Cha- rakteristik vorgesehen ist.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß für den Fall, daß zu einer anhand der abgetasteten Sen- sorsignale bestimmten Charakteristik keine Aktuatorparameter vorhanden sind, anhand der abgetasteten Prozeßzustände zu dieser als unbekannt bestimmten Charakteristik wenigstens ein Satz von neuen Aktuatorparametern ermittelt wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Satz von neuen Aktuatorparametern abgespeichert wird.

8. Verfahren nach Anspruch 6 oder Anspruch 7, dadurch gekennzeichnet, daß bei dem Ermitteln eines Satzes von neuen Aktuatorparametern ein insbesondere heuristisches Lernverfahren verwendet wird.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß als Ausgangspunkt für das Lernverfahren ein Satz von Aktuatorparametern einer bekannten Charakteristik verwendet wird.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß als Ausgangspunkt für das Lernverfahren ein Satz von Aktuatorparametern einer der als unbekannt bestimmten Cha- rakteristik nahekommenden Charakteristik verwendet wird.

11.Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das Lernverfahren unter Anwendung von Iterationsschritten durchgeführt wird, wobei beim Vorliegen einer großen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik das Lernverfahren mit kleineren Iterationsschritten begonnen wird als beim Vorliegen einer kleinen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik.

12. Verfahren nach einem der Ansprüche 6 bis 11, dadurch gekennzeichnet, daß der Schritt des Reorganisierens der in der Steuerungseinheit (2) gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Haltung von redundanten Daten vorgesehen ist.

3. Verfahren nach einem der Ansprüche 5 bis 12, dadurch gekennzeichnet, daß das Verfahren an einem technischen Prozeß ausgeführt wird, der als durch wenigstens eine Verkehrsampel gesteuertes, durch Fahrzeuge oder Fußgänger benutztes Fahrstraßenstück (10; 30) ausgebildet ist, wobei die Aktuatoren als Verkehrsampeln ausgebildet sind und/oder wobei die Sensoren als Verkehrsdichtesensoren (14-19; 36-42) ausge- bildet sind.