WO2001018767A1 - Steuerungsvorrichtung für eine verkehrsampelkreuzung - Google Patents

Steuerungsvorrichtung für eine verkehrsampelkreuzung Download PDF

Info

Publication number
WO2001018767A1
WO2001018767A1 PCT/DE2000/002978 DE0002978W WO0118767A1 WO 2001018767 A1 WO2001018767 A1 WO 2001018767A1 DE 0002978 W DE0002978 W DE 0002978W WO 0118767 A1 WO0118767 A1 WO 0118767A1
Authority
WO
WIPO (PCT)
Prior art keywords
characteristic
traffic
intersection
control unit
actuator parameters
Prior art date
Application number
PCT/DE2000/002978
Other languages
English (en)
French (fr)
Inventor
Martin Appl
Rainer Palm
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2001018767A1 publication Critical patent/WO2001018767A1/de

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Definitions

  • the invention relates to a control device for controlling a technical process that can be influenced by actuators, in particular a traffic light intersection.
  • the invention further relates to a method for controlling such a technical process.
  • Processes can also be controlled, of which there is no explicit mathematical model or the complexity of which allows simulation but no analytical treatment. Such control is based on the use of learning strategies such as so-called reinforcement learning.
  • learning strategies such as so-called reinforcement learning.
  • a prerequisite for the successful application of a learning strategy for controlling a technical process is that the behavior of the process or its simulation when using selected ones
  • Control sequences can be observed so that the goodness of the control sequences can be derived from this behavior. It is particularly difficult to control technical processes, the properties of which change over time. A distinction is made between continuous changes, which may occur, for example, due to wear of system components, and discrete changes, which occur, for example, due to the failure of components in the technical process. Such a change in the process can mean that the learned strategy for controlling the technical process is no longer suitable for control. If changes in the technical process occur in a learning process for adapting the control, even the convergence of the learning process can be impaired.
  • One idea on which the invention is based is that the control of a non-stationary process which changes over time can be carried out particularly advantageously on two levels of thought.
  • a current characteristic of the technical process to be controlled is analyzed on an upper level.
  • the "characteristic" of the technical process means its dynamics, which is expressed, for example, in the transition probabilities between its process states.
  • transition probabilities can be estimated in a simple manner, specifically as the probability of a signal of a sensor in the process changing by at least a predetermined value within a predetermined period of time after a predetermined influencing of the process by an actuator by a predetermined value.
  • a transition probability could therefore be determined by estimating a probability that within a certain period of time after the signal image of a traffic light changed from "red” to "green", the measured traffic density at a traffic density sensor would decrease by at least a certain value , At least a limited number of switching operations of the traffic light are used for the estimation.
  • a set of actuator parameters for actuating the actuators is used for each characteristic that has been found to be advantageous for the process in the current characteristic.
  • control device With the control device according to the invention, particularly non-stationary processes can be advantageously controlled.
  • the technical process to be controlled has the following characteristics:
  • the process has at least two characteristics within a characteristic process space, the process has at least one characteristic at least two different process states between which the process can switch discretely or continuously.
  • process states can be generated not only by the process itself but also by actuators and / or by external influences.
  • process states generated by external influences one also speaks of implicit or hidden process states.
  • control unit has the following features: the control unit is designed such that process states can be scanned at least in part on the basis of sensor signals from sensors of the control device, the control unit is designed such that it is possible to determine which characteristic the process currently has, the control unit is designed so that the actuator or actuators can be actuated using actuator parameters stored in the control unit, the control unit is designed such that at least one set of actuator parameters can be stored for each characteristic.
  • the method according to the invention for controlling such a technical process includes the loop-like repetition of the following steps a) to c): a) scanning the current process state with sensor signals of at least one sensor, b) determining which characteristic the process currently has, based on the sensed sensor signals, c) actuating the actuators in accordance with the specific process state using actuator parameters in accordance with the characteristic determined on the basis of the sensed sensor signals.
  • the step of storing at least one set of actuator parameters for at least one predetermined characteristic can be provided.
  • the method according to the invention can be designed such that a set of optimized actuator parameters for actuating the sensors is stored in the control unit for each of the known characteristics of a process. Suitable actuator parameters can be determined, for example, by tests before using the control device according to the invention. In the event that an unknown characteristic is detected, at least one set of actuator parameters can also be provided which provide emergency operation of the control device, it also being possible to provide a warning signal. Upon detection of such a warning signal, operating personnel of the control device can be advised of the need to ascertain and save a new set of optimized actuator parameters.
  • control unit is designed such that, in the event that a characteristic unknown to the control unit is present, on the basis of the scanned Process states for the unknown characteristic at least one set of new optimized actuator parameters can be determined and saved.
  • a particularly heuristic learning method can be used to determine optimized actuator parameters. The use of such a learning method for determining new actuator parameters not only makes it possible to react to characteristics of the technical process to be controlled that are recognized as new. Rather, feedback signals that arise when a learning method is used can also be used to obtain information about the current characteristics of the technical process. Suitable feedback signals are also referred to as enforcement signals, which provide information about the quality of the current control. In the presence of such feedback signals, it is even advantageously possible to dispense with the special determination of the instantaneous characteristic of the process to be controlled on the basis of other information. This is advantageous where the determination of transition probabilities between process states is too complex.
  • the respective learning process for a set of actuator parameters also ends in permanently changing environments practically in finite time.
  • a change in the characteristics of the technical process to be controlled is determined is first checked whether the newly determined characteristic matches a characteristic for which a set of optimized actuator parameters already exists. If this is the case, these actuator parameters are used and the learning method according to the invention is further optimized on the basis of the known actuator parameters. This ensures that knowledge that has already been learned is always available as a basis for further optimization and is not rejected.
  • the invention thus ensures learning in a variable environment, fuzzy weighting being achieved by parallel learning.
  • the learning method according to the invention can thus advantageously be carried out using iteration steps, wherein if there is a great similarity between the characteristic determined to be unknown and the approaching characteristic, the learning method is started with smaller iteration steps than if there is a small similarity between the unknown determined characteristic and the nano-coming characteristic.
  • actuator parameters as the starting point for the learning process, which set results as a weighted average of the actuator parameters of several or all known characteristics. This corresponds to choosing a characteristic that comes close to the unknown characteristic as the starting point for a learning process. After that, however, it is possible to optimize the actuator parameters by training the weights used here.
  • a heuristic learning method is advantageously used, in which the technical process to be controlled is first controlled randomly and then the goodness of the control is observed. From the observation of the goodness of the control, an attempt is subsequently made to draw conclusions as to how the control can be improved. At least then there must be the possibility of having the real process available. ben.
  • a good model or a simulation of the process to be controlled may be sufficient, the existing model having to be controllable and the state of the model having to be observable.
  • sensors are usually provided. The goal of such a heuristic learning process is to achieve satisfactory control without knowing in advance what action must be taken to achieve such control.
  • each set of actuator parameters is assigned a set of Q-factors which provide information about the quality of the possible control actions to the different states of the process of the respective characteristic.
  • the current characteristic of the process is analyzed at the upper level of the method according to the invention.
  • the enforcement signals which provide information about the goodness of the current control, and / or the transition behavior of the process between its possible states are available.
  • the characteristic thus determined serves to analyze changes in the process and, in particular, to recognize the later return of the process to an already known characteristic.
  • the characteristics are stored, a new data set for actuator parameters being opened whenever the technical process has changed significantly and the characteristics analyzed after the change are not yet known. A significant change initially applies to every discreet change in the process that is detected.
  • the invention can also be applied to technical processes which are subject to continuous change.
  • control unit can be designed in such a way that the actuator parameters stored in the control unit can be reorganized into several characteristics to reduce the maintenance of redundant data.
  • the data records which contain the actuator parameters can be structured hierarchically, which is also referred to as "hierarchical clustering". This compresses the knowledge stored in the data sets of the actuator parameters and thus reduces the memory required for the control. Data sets that relate to similar characteristics of the technical process are primarily combined. For Similar characteristics can occur that the same control strategies are not necessarily optimal, so that at least one constraint can be introduced for the hierarchical organization, which prevents the combination of data sets with actuator parameters for similar characteristics if the data stored in the data sets Actuator parameters relate to different control strategies.
  • the device according to the invention and the method according to the invention can be used for training an adaptive traffic light control for regulating the traffic of a route piece used by vehicles and / or pedestrians.
  • the actuators can be designed as traffic lights.
  • the sensors can be designed as traffic density sensors, which indicate the presence of a number of vehicles in a certain length of the route section.
  • the implicit drift of the process to be controlled, namely the route traffic lies in the temporal change in traffic parameters such as the amount of traffic or the number of turns. Discrete steps in the process are caused, for example, by accidents or by blocking tracks for construction sites. These sizes are not explicitly made available to the traffic light control device. A change in these quantities can nevertheless be recognized with the inventive method with the control device according to the invention due to changes in the characteristics of the traffic, so that suitable optimized strategies for the respective characteristics can be learned.
  • the invention provides a black box method that enables the learning of an optimized control strategy for technical processes with characteristics that change over time.
  • the method according to the invention also enables improved control of the technical process in question.
  • information from the observation of process characteristics is used to classify the technical process and to enable the input or storage of optimized actuator parameters separately for each classified characteristic.
  • the step sizes for training the individual characteristics in each step are selected in accordance with the similarity to the actuator parameters already stored for known characteristics.
  • fuzzy Q learning is implicitly carried out over the space of the process characteristics.
  • the knowledge acquired about the process can be specifically combined by assigning it to the characteristics of the process, with the associated optimized control strategies also being stored.
  • a measure for the loss of information resulting from the combination of several sets of actuator parameters is developed, which is introduced as a secondary condition in a so-called “hierarchical clustering".
  • FIG. 1 shows a schematic illustration of a control device according to the invention for controlling a technical process
  • Figure 2 shows a schematic representation of a first
  • FIG. 3 shows a fuzzy partitioning diagram of traffic density sensors of the traffic light crossing from FIG. 2,
  • FIG. 4 shows a pseudocode diagram that illustrates the mode of operation of the control device shown in FIG. 1;
  • FIG. 5 shows a diagram that shows the learning progress of the control device from FIG. 1 in a first
  • Figure 6 shows an average representation of the learning progress of the diagram shown in Figure 5.
  • Figure 7 shows a diagram showing the learning progress of
  • Control device from Figure 1 at the traffic light intersection from Figure 2 illustrates in the first mode of operation, and that during the occurrence of an accident at the traffic light intersection,
  • Figure 8 shows an average representation of the learning progress from Figure 7
  • Figure 9 shows a diagram showing the learning progress of
  • FIG. 10 shows an average representation of the learning progress from FIG. 9
  • FIG. 11 shows a schematic illustration of a further traffic light intersection , which is controlled by the control device from FIG. 1
  • FIG. 12 shows a diagram that the learning progress of the
  • Control device of Figure 1 in a first Operating mode illustrates when the turning behavior changes at the traffic light intersection from FIG. 7,
  • FIG. 13 shows a diagram that the learning progress of the
  • Control device from FIG. 1 at the traffic light intersection from FIG. 7 illustrates when the control device is operated according to the invention, specifically when the turning behavior at the traffic light intersection from FIG. 7 is changed several times.
  • FIG. 1 shows a schematic illustration of a control device 1 according to the invention.
  • the control device 1 is divided into a control unit 2, into an actuator 3, which is based on a technical
  • Process 4 acts and influences this, and m a sensor 5, which scans 4 process states from the technical process and returns them to the control unit 2.
  • the control unit 2 has a database 6 which can be switched off for storing characteristics of the technical process 4 and for storing sets of actuator parameters for actuating the actuator 3.
  • the sets of actuator parameters are also referred to as “Q factors”.
  • a classification process 7 which can be switched off
  • a learning process 8 which can be switched off
  • a grouping process 9 which can be switched off run, which can be designed as EDP programs which are not illustrated in more detail here.
  • the classification process 7 receives feedback signals from the sensor 5 about process states of the technical process 4.
  • the classification process 7 checks on the basis of the feedback conditions of the sensor 5 by comparison with data records m in the database 6, whether the technical process 4 currently follows a known or an unknown characteristic. If the technical process 4 follows a known characteristic, the classification process 7 takes an associated set of stored actuator parameters from the database 6 and transmits this set of actuator parameters to the learning process 8. If the classification process 7 determines the existence of a characteristic that is not yet known, the classification process selects 7 selects one or more similar characteristics from the data bank 6 and transmits them, including the associated sets of actuator parameters, to the learning process 8.
  • the learning process 8 controls the actuator 3 on the basis of the sets of actuator parameters selected by the classification process 7 from the database 6 which in turn influences technical process 4.
  • the learning process 8 executes an heuristic learning process that optimizes the set of actuator parameters currently used with regard to the feedback from the technical process 4 transmitted to it by the sensor 5.
  • the learning process 8 stores the actuator parameters identified as optimized for a recognized characteristic of the technical process 4 m in the database 6, before learning and executing on the basis of new actuator parameters is started after recognizing a new characteristic of the technical process 4.
  • FIG. 2 shows a schematic illustration of an intersection 10 at which a vertical street 11 intersects with a horizontal street 12.
  • the intersection of the vertical road 11 and the horizontal road 12 forms an intersection 13.
  • the intersection 10 is controlled by the control device 1 from FIG. 1, not shown here, the technical process 4 to be controlled in the present case corresponding to the intersection 10.
  • a first traffic sensor 14 and a second traffic density sensor 15 are arranged in front of the intersection 13.
  • a third traffic density sensor 16 is arranged in the direction of traffic on the vertical road 11 after the intersection 13.
  • a fourth traffic density sensor 17 and a fifth traffic density sensor 18 are arranged in front of the intersection 13 in the direction of traffic on the horizontal road 12. Finally, in the direction of traffic on the horizontal road 12, a sixth traffic density sensor 19 is provided after the intersection 13. Finally, on the horizontal road 12 in the area in front of the intersection 13 and the area after the fifth traffic density sensor 18, a typical accident location 20 is shown by a symbol “X”, at which a traffic accident can occur, which leads to a reduction in the traffic conductivity of the horizontal road 12 ,
  • traffic lights (not shown in this view) are provided, which are designed as actuators that can be actuated by the control unit 2.
  • the traffic lights can switch between the signal images “red”, “red-yellow”, “green” and “yellow”.
  • the traffic lights are arranged so that the traffic on the vertical road 11 or on the horizontal road 12 can see the traffic lights.
  • the traffic density sensors 14 to 19 each deliver em sensor signal p as traffic densities, with states within an interval [0; p ma ⁇ ] can take.
  • the respective verkenrsensensensor 14 to 19 measures the spatial density within a predetermined measuring distance, which can also be specified in the unit "motor vehicles per meter".
  • the normalized traffic density p / Pmax which the traffic density sensor in question measures, is indicated on the horizontal axis.
  • the normalized or relative traffic density p / p ma ⁇ moves change in the interval [0; 1] .
  • a total of five output curves of standardized output values are specified in the direction of the vertical axis, which form a "fuzzy partitioning", from which the feedback to the learning process 8 results.
  • the output curve s shown in the diagram in FIG. 3 provides for relative traffic densities p / p m a X in the interval [0; 0.1] has a constant output value of "0".
  • For relative traffic densities p / p m a ⁇ m interval [0.1; 0.2] provides the output curve s output values in the interval [0; 1] .
  • For relative traffic densities p / p ma ⁇ in the interval [0.2; 0.3] provides the output curve s output values in the interval [1; 0].
  • For relative traffic densities p / p m ax greater than 0.3 provides the output curve s an output value of constant "0".
  • the output curve s stands for low relative traffic densities "small”.
  • the output curve shown in the diagram in FIG. 3 provides p / p max in the interval [0; 0.2] has a constant output value of "0".
  • For relative traffic densities in the interval [0.2; 0.3] gives the output curve m output values in the interval [0; 1].
  • For relative traffic densities p / pmax in the interval [0.3; 0.4] provides the output curve Output values in the interval [1; 0].
  • the output curve s provides an output value of constant "0”.
  • the output curve m stands for mean relative traffic densities "mediu”.
  • the output curve h shown in the diagram in FIG. 3 provides for relative traffic densities p / p ma ⁇ in the interval [0; 0.3] has a constant output value of "0".
  • For relative traffic densities p / p max in the interval [0.3; 0.4] returns the output curve h output values in the interval [0; 1] .
  • For relative traffic densities p / p max in the interval [0.4; 0.5] gives the output curve h output values in the interval [1; 0].
  • the output curve s provides an output value of constant "0".
  • the output curve h stands for high relative traffic densities "high”.
  • CCR Charge and Clustering of Reinforcement Signals
  • a signal “red” must be followed by a signal “red-yellow”.
  • duration of the respective signal images Predefined minimum times should elapse between the switching between two signal images of the traffic lights.
  • neither vertical road 11 nor horizontal road 12 may be blocked for any length.
  • Street intersection 10 predefines a finite number of time points at which a decision is to be made about the signal images to be displayed at the traffic lights. This discretizes the optimization problem in terms of time.
  • the problem of optimized control of the intersection 10 is difficult to solve due to its high dimensionality. Furthermore, a larger city cannot be described as a single technical process, but only as a set of technical processes that together form an overall system. In this system, the control decisions of the individual intersections depend on one another. In such a case, a hierarchical approach is advantageously used for optimization. In the following explanations, the model and the optimization of the control of the intersection 10 from FIG. 2 are specifically considered. The strategy for the optimized control of the intersection 10 is trained particularly advantageously by so-called reinforcement learning. A direct derivation of a mathematical model for the flow of traffic in the area of the intersection 10, in particular the transition probability between individual process states and the feedback from the control of the intersection 10, is difficult.
  • the state of the intersection 10 is essentially determined by the signals from the traffic density sensors, by the currently active signal image of the traffic lights and by the period of time during which the at the intersection 10 already current signal image of the traffic lights is shown.
  • the good of the control of the intersection 10, which is used as feedback to the learning algorithm used in the learning process 8, is formed as the difference between the number of vehicles that can cross the intersection 10 until the next decision and the number of vehicles, who are waiting in front of the intersection 10. Accordingly, a negative good signal can also arise if the number of vehicles waiting in front of the intersection 10 is greater than the number of vehicles that pass through the intersection.
  • the aim of the control device according to the invention and the method used therein is to find a control for the intersection 10 in which the sum of the feedback messages is maximized over time, so that a maximum number of vehicles can pass the intersection 10.
  • FIG. 4 shows a pseudocode which illustrates the algorithm used to control the control device 1.
  • Z Amount of process states that can be observed in the process.
  • Characteristic e is located. These values are learned during the training at the upper level and make it possible to recognize changes in the process. If changes in the process are not visible in the course of the control process, transition probabilities between the individual states can also be learned and used to detect changes.
  • d e k distance of the characteristic which has been learned for the data e to k characteristic of the process to be trained in iteration J.
  • ⁇ e affiliation of the process in the iteration k ge ⁇ learned characteristic e. The membership decreases with increasing distance d k e .
  • the pseudocode shown in FIG. 4 has a total of seven blocks, which are explained below.
  • the environments are sharply separated reasonable (m -> 1).
  • New characteristic (lines 19-22.): If the current characteristic of the process is not similar to one of the learned characteristics (all distances d e k greater than a threshold value), a new data record is created for this new characteristic e ' ,
  • +1 ( ⁇ , ⁇ ) R +1 ( ⁇ , ⁇ ), V (/, M) ⁇ ( ⁇ k , u k ), JG Z, ueU (t)
  • the step size a 'of the adaptation is determined by
  • the membership ⁇ k e +] the current characteristic of the Process for the already learned characteristics R e and the number ⁇ f “previously performed adaptations in the fields R e jc, u k ) are determined. Since on the one hand the affiliations ⁇ e depend on the expected good R e , but on the other hand the R e m dependence of the affiliations are determined, it must be assumed for the convergence of the entire process that the characteristics of the process change so slowly that R e can be learned from the change. This requirement makes sense, since a process that can be changed at will is in principle not sensibly controlled.
  • Q-Learnmg For this, a reinforcement learning process is used. Here, however, the step size of the adaptation of the Q values Q e is additionally determined by the affiliations ⁇ e k , so that preferably only e training is carried out on those Q values to which the current characteristic of the process matches.
  • the adaptation of the Q-values in Q-Learnmg is carried out as follows:
  • FIGS. 5 to 10 show the course of the quality of the control of the intersection 10 by the control device 1 over time.
  • the information on the X axis represents the sequential number of times at which a decision about the next signal image to be created is to be made.
  • the quality of the control indicated on the Y axis corresponds to the difference between the number of vehicles that can cross the intersection 10 until the next decision time and the number of vehicles that wait in front of the intersection 10. As can be seen from FIGS. 5 to 10, the quality value ranges between approximately -15 and approximately +19.
  • FIG. 7 and FIG. 8 show a further development of the good of the control by the control device 1 of the intersection 10 during a learning of the learning process 8, the classification process 7, the database 6 and the grouping process 9 being switched off.
  • the horizontal road 12 at the accident location 20 is narrowed by an accident, whereupon the goodness of the control of the road intersection 10 by the control device 1 drops from a value of approximately 12 to a value of approximately 3 and through continuous learning again increases to a value of approx. 5.
  • the horizontal road 12 at the accident site 20 is released so that its original capacity is available again.
  • the control of the intersection 10 increases the control device 1 again to the original value of approx. 11 until a good of 13 is reached by the time 21000, which corresponds to the maximum good of the control according to FIG. 5 and FIG. 6.
  • the occurrence of the accident during the learning of the learning process 8 in the control unit 2 thus delays the achievement of an optimized good of the control of the control device 1 by 11000 decision-making times. This is attributed to the fact that the learning control device 1 learns control behavior during the occurrence of the accident in the decision times 5000 to 10000 em, which is no longer correct after the horizontal road 12 has been released.
  • the deflections in the goodness of the control of the intersection 10 between the decision times 10000 and 21000, that is to say immediately after the accident location 20 is released, are greater than when the optimized state is reached at the decision time 21000.
  • FIG. 9 and FIG. 10 illustrate a learning process of the control device 1 when controlling the street intersection 10, the database 6, the classification process 7, the learning process 8 and the grouping process 9 being active and executing the method according to the invention.
  • the horizontal road 12 is narrowed by an accident at the accident site 20, so that the capacity of the horizontal road 12 is restricted.
  • the goodness of the control of the intersection 10 at the decision time 5000 has reached a value of approximately 11, which drops to a value of approximately 5 during the duration of the accident.
  • the representations of FIG. 10 and FIG. 8 are of higher quality.
  • control unit 2 notices that the technical process to be controlled, namely intersection 10, has a different characteristic. This can be noticed, for example, by the drop in the quality of the control, which is scanned by the classification process 7.
  • Another possibility of detecting a change in the characteristics of the intersection 10 is to observe the probability that the measured vehicle density at the fourth traffic density sensor within a certain period of time after the traffic light concerned has changed from the "red-orange” signal image to the "green” signal image 17 and on the fifth Verkenrsensensensensor 18 does not decrease by at least m to the extent that was the case with transitions between the same signal images at a decision time before the occurrence of the accident.
  • the learning process 8 in accordance with the classification process 7, creates a new set of actuator parameters for the traffic lights and begins to train the new set of actuator parameters.
  • the original set of actuator parameters is stored in the database 6, specifically under a feature that characterizes the relevant characteristic of the intersection 10.
  • the good increases due to the learning process of control device 1 to a value of approximately 10, that is to say a value higher than the corresponding maximum value indicated in FIG. 8. If an accident occurs, the controller according to the invention therefore achieves a higher level of control of the intersection 10 more quickly than is possible when the classification process 7 is switched off.
  • the quality of the control of the intersection 10 by the control device 1 increases very quickly to the final value 13, which was only reached in FIG. 8 at the decision time 21000. This is justified by the fact that the parameters stored in the database 6 relating to the characteristics of the intersection 10 prior to the occurrence of the accident at the decision time 5000 during training of the actuator parameters for the characteristics of the intersection 10 during the accident occurred between the decision times 5000 and 10,000 - be kidneyed.
  • the technical system of the intersection 10 controlled by the control device 1 shows optimized behavior immediately after the end of the accident, so that the control of the intersection is good
  • FIG. 11 shows a schematic illustration of a road intersection 30, at which a vertical road 31 intersects with a horizontal road 32, which m merges into a first turning road 33 and into a second turning road 34.
  • the intersection 30 is controlled by the control device 1 (not shown here) from FIG. 1, the technical process 4 to be controlled in the present case corresponding to the intersection 30.
  • intersection of the vertical road 31, the horizontal road 32, the first turning road 33 and the second turning road 34 forms an intersection space 35.
  • a first traffic density sensor 36 and a second traffic density sensor 37 are arranged in front of the intersection space 35
  • a third traffic density sensor 38 is arranged in the direction of traffic on the vertical road 31 after the intersection area 35.
  • a fourth traffic density sensor 39 and a fifth traffic density sensor 40 are arranged in front of the intersection area 35.
  • a sixth traffic density sensor 41 is provided in the direction of traffic on the first turning road 33 after the intersection area 35.
  • a seventh traffic density sensor 42 is finally provided in the direction of traffic on the second turning road 34 after the intersection area 35.
  • a construction site 43 is shown as a valve symbol at which the first turning street 33 can be narrowed, which leads to a reduction in the traffic conductivity of the first turning street 33.
  • the traffic on the horizontal road 32 changes its turn over time changes, for example during the transition from rush hour traffic to shopping traffic. This information is expressly not communicated to the control device 1.
  • traffic lights are provided in this view, which are designed as actuators that can be actuated by the control unit 2.
  • the traffic lights and the traffic density sensors 36 to 42 correspond to the traffic lights and the traffic density sensors 14 to 19 from FIGS. 2 and 3.
  • boundary conditions for the optimization problem to be solved by the CCR algorithm essentially correspond to those that apply to the intersection 10.
  • An aim of the control device according to the invention and the method used therein is to find a control for the intersection 30 in which the sum of the feedback is maximized over time, so that a maximum number of vehicles can pass the intersection 10.
  • FIG. 12 and FIG. 13 show the course of the quality of the control of the intersection 30 by the control device 1 over time.
  • the manner in which the course of the quality of the control of the street intersection 30 is represented by the control device 1 corresponds to FIG essentially those in FIGS. 5 to 10.
  • the traffic coming from Q1 on the horizontal road 32 has two options for leaving the intersection 35, namely either to ZI on the first turning road 33 or to Z2 on the second turning road 34.
  • Towards the destination ZI is the capacity of the first turning road 33 reduced, for example by construction site 43 or by an accident. In the Z2 direction, however, there should be free traffic on the second turn 34.
  • the traffic at the intersection 30 can be divided into two typical characteristics, which are predetermined by two turning rates OD-A and OD-B.
  • the turn rate OD-B the traffic on the horizontal road 32 will be heavily backed up, so that the proportion of the time in which a horizontal connection of the intersection area 35 exists must be drastically reduced.
  • the turn rate is not an explicit input parameter for the control ⁇ chtung 1.
  • the turn rate must therefore be viewed as a hidden parameter that changes the process to be controlled, namely the intersection 30, over time.
  • FIG. 12 shows the course of the quality of the control of the intersection 30 by the control device 1, in which only the learning process 8 is active.
  • the classification process 7, the database 6 and the grouping process 9 are switched off.
  • the turn rate OD-B prevails from decision time 5000.
  • the turn rate OD-A prevails from decision time 0 to decision time 5000.
  • control device 1 in an optimized state the control device 1 can always pass between 20 and 29 vehicles more through the intersection 30 until the next decision time than vehicles have to wait in front of the intersection 30 ,
  • the quality of the control device 1 breaks down to a value of approx. 10 em, so that only ten more vehicles can pass the intersection 30 until the next decision time , when vehicles have to wait in front of the intersection 30.
  • the traffic light on the horizontal road 32 changes to "green” after the change in the turning relationship from OD-A to OD-B. This is due to the fact that the control device 1 does not notice the change in the characteristic of the traffic and still uses the learned actuator parameters with the old turning relationship OD-A.
  • the congestion of the traffic in front of the destination ZI into the intersection area 30 finally causes the fourth traffic density sensor 39 and the fifth traffic density sensor 40 to report "heavy traffic" on the horizontal road 32, which the control device 1 transmits through the traffic tried to dismantle horizontal road 32 through the intersection area 35 by the associated traffic lights assuming the signal image "green". This reaction is incorrect because the traffic jam is not caused by the intersection 30 itself, but by the bottleneck at the construction site 43 behind the intersection area 35.
  • the time delay of the drop in the quality of the control of the intersection 30 by the control device 1, which is shown in FIG. 12, represents precisely the time that the vehicles need at the new turning rate OD-B to move into that represented by the intersection 30 Drive in the scenario, and it goes by until the traffic jam in front of the construction site 43 reaches into the intersection area 35.
  • the large fluctuation in the quality of the control device 1 before the change in the turning rate is due to the fact that even with optimal control, the same quality of the control cannot be achieved in every state of the intersection 30. In this way, no vehicles can pass through the intersection area 30 during the “yellow” signal image.
  • FIG. 13 shows a further development of the good of the control by the control device 1 of the intersection 30 during a learning of the learning process 8, the classification process 7, the database 6 and the grouping process 9 being active and carrying out the method according to the invention.
  • the site 43 is narrowed, so that the capacity of the first turn 33 is limited.
  • the goodness of the control of the intersection 30 at the turn rate OD-A reaches an average value of approx. 24, while the good of the control of the street intersection 30 at the turn rate OD-B reaches an average value of approx. 18.
  • the control unit 2 Shortly after changing the turning rate at the intersection 30, the control unit 2 notices that the technical process to be controlled, namely the intersection 30, has a different characteristic. This can be noticed, for example, by the drop in the quality of the control, which is scanned by the classification process 7.
  • Another possibility of detecting a change in the characteristics of the intersection 30 when the probability of turning changes is the probability that the measured traffic density within a certain period of time after the traffic lights in question have changed from the "red-yellow" signal image to the "green” signal image at the fourth traffic density sensor 39 and at the fifth traffic density sensor 40 does not decrease by at least m to the extent that was the case with transitions between the same signal images at a decision point in time before the change in the turn rate occurred.
  • the learning process 8 creates a new set of actuator parameters for the traffic lights in accordance with the classification process 7 and begins to train the new set of actuator parameters.
  • the respective other set of actuator parameters is stored in the database 6, namely under a feature that has the relevant characteristic of the intersection 30 marks. Known characteristics can thus be trained at a later point in time.
  • a new or known different set of actuator parameters is used to control the control unit 2.
  • the respective other, optimized set of actuator parameters is stored in the database 6. This ensures that the actuator parameters are always optimized for the turning relationship or characteristic of the intersection 30 that is present in each case. This avoids incorrect optimization.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

Eine Steuerungsvorrichtung zur Steuerung einer Verkehrsampelkreuzung (4) hat eine Steuerungseinheit (2), die so ausgebildet ist, dass Prozesszustände der Verkehrsampelkreuzung (4) teilweise anhand von Sensorsignalen eines Sensors (3) abtastbar sind. Die Steuerungseinheit (2) bestimmt, welche Charakteristik die Verkehrsampelkreuzung (4) momentan aufweist, und betätigt eine Verkehrsampel (3) unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorparametern. Dabei ist zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern in der Steuerungseinheit (2) abspeicherbar.

Description

Beschreibung
Steuerungsvorrichtung für eine Verkehrsampelkreuzung
Die Erfindung betrifft eine Steuerungsvorrichtung zur Steuerung eines durch Aktuatoren beeinflußbaren technischen Prozesses, insbesondere einer Verkehrsampelkreuzung. Die Erfindung betrifft weiterhin ein Verfahren zur Steuerung eines solchen technischen Prozesses.
Technische Prozesse zeichnen sich dadurch aus, daß deren Verlauf und deren Prozeßzustande durch Aktuatoren beeinflußt werden können. In der Regelungstechnik wird versucht, technische Prozesse derart durch Aktuatoren zu beeinflussen, daß deren Verlauf und Prozeßzustande mit einem gewünschten vorgegebenen Ergebnis übereinstimmen. Hierfür wird zunächst versucht, ein explizites mathematisches Modell des zu steuernden technischen Prozesses aufzustellen, um mit regelungstechnischen Maßnahmen einen geeigneten Regler bzw. eine geeignete Steuerungseinheit auszubilden.
Es können auch Prozesse gesteuert werden, von denen kein explizites mathematisches Modell gegeben ist oder deren Komplexität zwar eine Simulation jedoch keine analytische Be- handlung erlaubt. Eine solche Steuerung basiert auf dem Einsatz von Lernstrategien wie beispielsweise das sogenannte Remforcement-Lernen. Dabei liegt eine Voraussetzung für das erfolgreiche Anwenden einer Lernstrategie zur Steuerung eines technischen Prozesses darin, daß das Verhalten des Prozesses oder seiner Simulation bei der Anwendung von ausgewählten
Steuersequenzen beobachtet werden kann, damit aus diesem Verhalten die Gute der Steuersequenzen abgeleitet werden kann. Besonders schwierig ist die Steuerung von technischen Prozessen, deren Eigenschaften sich mit der Zeit verandern. Dabei unterscheidet man kontinuierliche Änderungen, die beispielsweise aufgrund von Verschleiß von Systemkomponenten auftreten können, von diskreten Änderungen, die beispielsweise durch den Ausfall von Komponenten des technischen Prozesses auftreten. Eine solche Veränderung im Prozeß kann zur Folge haben, daß die gelernte Strategie zum Steuern des technischen Prozesses nicht mehr für eine Steuerung geeignet ist. Wenn Ver- anderungen des technischen Prozesses bei einem Lernvorgang zur Anpassung der Steuerung auftreten, kann sogar die Konvergenz des Lernverfahrens beeinträchtigt werden.
Im Stand der Technik sind Verfahren zum Lernen von Steue- rungsstrategien bekannt, die Veränderungen des zu steuernden technisches Prozesses berücksichtigen.
So sind Verfahren bekannt, die Veränderungen des technischen Prozesses detektieren können und im Falle einer Veränderung des technischen Prozesses das gelernte Wissen verwerfen und mittels einer heuristischen Strategie eine neue Steuerung lernen. In permanent veränderlichen Umgebungen ist der Lernprozeß praktisch nie beendet. Bei diesem Verfahren ist von Nachteil, daß eine Steuerstrategie nicht anhand einer Simula- tion des technischen Prozesses gelernt werden kann, so daß diese anschließend unmittelbar auf einen vorhandenen technischen Prozeß anwendbar ist. Außerdem wird durch das permanente Verwerfen von Wissen und das anschließend notwendige Neulernen die Steuerung nach einer Veränderung des Prozesses oft erst nach einer großen Verzögerung brauchbar. Ein solches
Verfahren zur Steuerung eines technisches Prozesses ist in "A Two-Level Approach to Learning in Nonstationary Environments", La , W.; Mukhopadhyay, S., Advances m Artificial In- telligence, Proceedings of the Eleventh Biennial Conference of the Canadian Society for Computational Studies of Intelli- gence, pp. 271-283, beschrieben.
Außerdem sind Verfahren bekannt, die die Dynamik der Veränderungen eines technischen Prozesses auf versteckte bzw. nicht beobachtbare Prozeßzustande des Prozesses zur ckfuhren. Diese Verfahren setzen voraus, daß bekannt ist, welche versteckten Zustande es gibt. Daher müssen alle Quellen für mögliche Ver- anderungen eines technischen Prozesses bekannt sein. Weiterhin muß ein explizites mathematisches Modell angegeben werden können, das die Abbildung des tatsächlichen Prozeßzustandes auf den von der Steuerung beobachteten Zustand beschreibt. Dieses Wissen ist m vielen praktischen Anwendungen nicht verfugbar. So können beispielsweise nicht alle Möglichkeiten des Ausfalls einer Systemkomponente vorhergesehen werden oder es ist nicht genau bekannt, welchen Einfluß ein solcher Ausfall auf die Prozeßzustande des Prozesses hat. Ein Beispiel für diese Klasse von Steuerungen ist in "Plannmg and Acting m Partially Observable Stochastic Domains", Kaelblmg, L.P.; Littman, M.L.; Cassandra, A.R., 1998, Artificial Intelli- gence, Vol. 101, pp. 8-12, beschrieben.
Es ist Aufgabe der Erfindung, eine Steuerungsvorrichtung und ein Verfahren zur Steuerung eines durch Aktuatoren beeinflußbaren technischen Prozesses bereitzustellen, die eine optimierte Steuerung auch für Prozesse erlauben, die sich über die Zeit verandern.
Diese Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost. Vorteilhafte Weiterbildungen ergeben sich aus den jeweiligen Unteranspruchen. Ein der Erfindung zugrundeliegender Gedanke besteht darin, daß die Steuerung eines nicht-stationaren Prozesses, der sich über die Zeit verändert, auf zwei gedanklichen Ebenen besonders vorteilhaft erfolgen kann. Dabei wird auf einer oberen Ebene eine aktuelle Charakteristik des zu steuernden technischen Prozesses analysiert. Mit der "Charakteristik" des technischen Prozesses ist dabei seine Dynamik gemeint, die sich beispielsweise in den Übergangswahrschemlichkeiten zwischen seinen Prozeßzustanden äußert. Dabei können Übergangs- Wahrscheinlichkeiten auf einfache Weise geschätzt werden, und zwar als Wahrscheinlichkeit der Veränderung eines Signals eines Sensors am Prozeß um wenigstens einen vorbestimmten Wert innerhalb eines vorbestimmten Zeitraums nach einer vorbestimmten Beeinflussung des Prozesses durch einen Aktuator um einen vorbestimmten Wert. Kon ret am Beispiel einer Ampelsteuerung konnte eine Übergangswahrschemlichkeit daher durch das Schätzen einer Wahrscheinlichkeit bestimmt werden, daß innerhalb eines bestimmten Zeitraums nach dem Übergang des Signalbilds einer Ampel von "rot" nach "grün" die gemessene Verkehrsdichte an einem Verkenrsdichtesensor um wenigstens einen bestimmten Wert abnimmt. Zur Schätzung werden dabei zumindest eine begrenzte Anzahl von Schaltvorgangen der Ampel herangezogen.
Auf der unteren Ebene des erfmdungsgemaßen Steuerungsverfahrens wird gemäß einem Grundgedanken der Erfindung bei jeder festgestellten Charakteristik ein Satz von Aktuatorparametern zur Betätigung der Aktuatoren angewendet, der sich für den in der momentanen Charakteristik befindlichen Prozeß als vor- teilhaft erwiesen hat bzw. erweist.
Mit der erfmdungsgemaßen Steuerungsvorrichtung lassen sich besonders nicht-stationare Prozesse vorteilhaft steuern. Da- bei weist der zu steuernde technische Prozeß die folgenden Merkmale auf:
der Prozeß weist wenigstens zwei Charakteristiken innerhalb eines charakteristischen Prozeßraums auf, der Prozeß weist bei wenigstens einer Charakteristik wenigstens zwei unterschiedliche Prozeßzustände auf, zwischen denen der Prozeß diskret oder kontinuierlich hin- und herwechseln kann.
Dabei können verschiedene Prozeßzustande nicht nur durch den Prozeß selbst sondern auch durch Aktuatoren und/oder durch äußere Einflüsse erzeugt werden. Im Fall von durch äußere Einflüsse erzeugten Prozeßzuständen spricht man auch von i - pliziten oder von versteckten Prozeßzuständen.
Die Steuerungseinheit gemäß der Erfindung weist die folgenden Merkmale auf: die Steuerungseinheit ist so ausgebildet, daß Prozeßzu- stände wenigstens teilweise anhand von Sensorsignalen von Sensoren der Steuerungsvorrichtung abtastbar sind, die Steuerungseinheit ist so ausgebildet, daß bestimmbar ist, welche Charakteristik der Prozeß momentan aufweist, die Steuerungseinheit ist so ausgebildet, daß der Aktuator bzw. die Aktuatoren unter Anwendung von in der Steuerungseinheit gespeicherten Aktuatorparametern betatigbar sind, die Steuerungseinheit ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern abspeicherbar ist.
Das erfindungsgemäße Verfahren zur Steuerung eines solchen technischen Prozesses beinhaltet das schleifenartige Wiederholen der folgenden Schritte a) bis c) : a) Abtasten des momentanen Prozeßzustandes mit Sensorsignalen wenigstens eines Sensors, b) Bestimmen, welche Charakteristik der Prozeß momentan aufweist, anhand der abgetasteten Sensorsignale, c) Betatigen der Aktuatoren gemäß dem bestimmten Prozeßzustand unter Anwendung von Aktuatorparametern gemäß der anhand der abgetasteten Sensorsignale bestimmten Charakteristik.
Vor dem Wiederholen der Schritte a) bis c) kann der Schritt des Abspeicherns je wenigstens eines Satzes von Aktuatorparametern zu wenigstens einer vorbestimmten Charakteristik vorgesehen sein.
Das erfmdungsgemaße Verfahren kann m einem sehr einfachen Fall so ausgebildet sein, daß zu den bekannten Charakteristiken eines Prozesses jeweils ein Satz von optimierten Aktuatorparametern zur Betätigung der Sensoren in der Steuerungseinheit abgespeichert werden. Geeignete Aktuatorparameter können beispielsweise durch Versuche vor dem Einsatz der er- fmdungsgemaßen Steuerungsvorrichtung ermittelt werden. Für den Fall des Detektierens einer unbekannten Charakteristik kann auch wenigstens ein Satz von Aktuatorparametern vorgesehen sein, die einen Notbetrieb der Steuerungsvorrichtung vor- sehen, wobei zusätzlich die Ausgabe eines Warnsignals vorgesehen sein kann. Auf das Erkennen eines solchen Warnsignals kann Bedienpersonal der Steuerungsvorrichtung auf die Notwendigkeit des Ermitteins und Abspeicherns eines neuen Satzes von optimierten Aktuatorparametern hingewiesen werden.
In Weiterbildung der Erfindung ist die Steuerungseinheit so ausgebildet, daß für den Fall, daß eine der Steuerungseinheit unbekannte Charakteristik vorliegt, anhand der abgetasteten Prozeßzustande zu der unbekannten Charakteristik wenigstens ein Satz von neuen optimierten Aktuatorparametern ermittelbar und abspeicherbar ist. Dabei kann für das Ermitteln gerade von optimierten Aktuatorparametern auch ein insbesondere heu- ristisches Lernverfahren verwendet werden. Der Einsatz eines solchen Lernverfahren zum Ermitteln von neuen Aktuatorparametern ermöglicht es dabei nicht nur, auf als neu erkannte Charakteristiken des zu steuernden technischen Prozesses zu reagieren. Vielmehr können aus Ruckmeldungssignalen, die bei der Anwendung eines Lernverfahrens entstehen, auch Informationen über die momentan vorliegende Charakteristik des technischen Prozesses gewonnen werden. Geeignete Ruckmeldungssignale werden auch als Remforcement-Signale bezeichnet, die Auskunft über die Qualität der aktuellen Steuerung geben. Beim Vorlie- gen von solchen Ruckmeldungssignalen kann vorteilhafterweise sogar auf das besondere Feststellen der momentanen Charakteristik des zu steuernden Prozesses anhand anderer Informationen verzichtet werden. Dies ist dort vorteilhaft, wo das Bestimmen von Ubergangswahrschemlichkeiten zwischen Prozeßzu- standen zu aufwendig ist.
Mit dieser erfmdungsgemaßen Ausbildung können Prozesse gesteuert werden, die sich kontinuierlich oder diskret verandern. Außerdem brauchen nur wenige Annahmen über die Dynamik der Veränderungen des technischen Prozesses gemacht werden, was besonders vorteilhaft ist, da dieses Wissen m praktischen Anwendungen häufig nicht vorhanden ist.
Bei der Erfindung ist dabei besonders vorteilhaft, daß der jeweilige Lernprozeß zu einem Satz von Aktuatorparametern auch m permanent veränderlichen Umgebungen praktisch in endlicher Zeit beendet st. Sobald nämlich an dem zu steuernden technischen Prozeß eine Änderung der Charakteristik festge- stellt wird, wird zunächst überprüft, ob die neu festgestellte Charakteristik mit einer Charakteristik übereinstimmt, zu der bereits ein Satz von optimierten Aktuatorparametern besteht. Falls dies der Fall ist, werden diese Aktuatorparameter eingesetzt und das erfmdungsgemaße Lernverfahren wird ausgehend von den bekannten Aktuatorparametern weiter optimiert. Auf diese Weise wird sichergestellt, daß bereits gelerntes Wissen stets als Basis für weitere Optimierungen zur Verfugung steht und nicht verworfen wird.
Die Erfindung stellt somit ein Lernen m einer veränderlichen Umgebung sicher, wobei sich eine Fuzzy-Gewichtung durch paralleles Lernen erreichen laßt.
Gemäß der Erfindung kann beim Detektieren einer unbekannten Charakteristik als Ausgangspunkt für das Lernverfahren zum Ermitteln von neuen Aktuatorparametern ein Satz von Aktuatorparametern einer bekannten Charakteristik verwendet werden. Dabei werden die neuen Aktuatorparameter durch Gewichtung der Aktuatorparameter der zugrunde gelegten bekannten Charakteristik ermittelt, wooei die für die Gewichtungen verwendeten Gewichte entsprechend der Ähnlichkeit der als neu ermittelten Charakteristik zu der bekannten Charakteristik gewählt werden. Durch diese Vorgehensweise kann auch für unbekannte Cha- rakteristiken des zu steuernden technischen Prozesses eine heuristisch gute Steuerung angegeben werden, die bereits in einem Anfangszustand zufriedenstellende Werte liefert. Das anschließende Verfeinern und Anpassen der Aktuatorparameter zu der neuen Charakteristik kann dann m schnellerer Zeit er- folgen, als dies bei herkömmlichen Lernverfahren der Fall ist. Die Schrittweiten für den neuen Lernprozeß können dabei um so kleiner gewählt werden, je großer die Ähnlichkeit der als neu erkannten Charakteristik zu der als Ausgangspunkt gewählten bekannten Charakteristik ist.
Das erfmαungsge aße Lernverfahren kann somit vorteilhaft un- ter Anwendung von Iterationsschritten durchgeführt werden, wobei beim Vorliegen einer großen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik das Lernverfahren mit kleineren Iterationsschritten begonnen wird als beim Vorliegen einer kleinen Ahn- lichkeit zwischen der als unbekannt bestimmten Charakteristik und der nanekommenden Charakteristik.
Dabei ist es auch möglich, als Ausgangspunkt für das Lernverfahren einen Satz von Aktuatorparametern zu verwenden, der sich als gewichtetes Mittel der Aktuatorparameter mehrerer oder aller bekannten Charakteristiken ergibt. Dies entspricht dem Wahlen einer der unbekannten Charakteristik nahekommenden Charakteristik als Ausgangspunkt für aas Lernverfahren. Danach ist es jedoch möglich, die Aktuatorparameter über das Trainieren der hierbei verwendeten Gewichte zu optimieren.
Dadurch können mehrere Satze von Aktuatorparametern auf einmal trainiert werden, wenn die als Basis verwendeten Aktuatorparameter für ähnliche Prozeßcharakteristika selbst opti- miert werden.
Vorteilhafterweise wird ein heuristisches Lernverfahren angewendet, bei dem der zu steuernde technische Prozeß zunächst willkurlicn angesteuert und danach die Gute der Steuerung be- obachtet wird. Aus der Beobachtung der Gute der Steuerung wird anschließend versucht, Schlüsse zu ziehen, wie die Steuerung verbessert werden kann. Zumindest muß dann die Möglichkeit gegeben sein, den realen Prozeß zu Verfugung zu ha- ben. Alternativ dazu kann auch ein gutes Modell bzw. eine Simulation des zu steuernden Prozesses ausreichen, wobei das vorhandene Modell steuerbar sein muß und wobei der Zustand des Modells beobachtbar sein muß. Hierzu sind m der Regel Sensoren vorgesehen. Das Ziel eines solchen heuristischen Lernverfahrens besteht darin, eine zufriedenstellende Steuerung zu erreichen, ohne daß von vornherein bekannt ist, welche Aktion ausgeführt werden muß, um eine solche Steuerung zu bewerkstelligen. Gemäß der Erfindung kann insbesondere ein als "Q-Learnmg" bekanntes Lernverfahren eingesetzt werden, wobei dann jedem Satz von Aktuatorparametern ein Satz von Q- Faktoren zugeordnet ist, der Auskunft über die Qualltat der möglichen Steueraktionen den verschiedenen Zustanden des Prozesses der jeweiligen Charakteristik gibt.
Falls gemäß der Erfindung beim Ermitteln eines neuen Satzes von Aktuatorparametern zu einer bisher unbekannten Charakteristik von Aktuatorparametern von bekannten Charakteristiken ausgegangen wird, indem diese gewichtet als Ausgangspunkt für den neuen Satz von Aktuatorparametern verwendet werden, können beim spateren Optimieren der neuen Aktuatorparameter vorteilhafterweise die bekannten, als Ausgangspunkt verwendeten Aktuatorparameter mit optimiert werden. Der Lernprozeß auf der unteren Ebene des Erfmdungsgemaßen Verfahrens entspricht somit einem sogenannten "Fuzzy-Lernverfahren" . Dies ist besonders vorteilhaft, wenn aufgrund einer Detektierung von kontinuierlichen Veränderungen des zu steuernden technischen Prozesses partielle Zugehörigkeiten zu mehreren Sätzen von optimierten Aktuatorparametern ermöglicht werden. Daraus laßt sich auch eine Aussage über die Starke der Zugehörigkeit der aktuellen Charakteristik des technischen Prozesses zu den bekannten Charakteristiken angeben, die bei einer sogenannten "Fuzzy-Annaherung" verwendet werden. Gemäß den erfmdungsgemaßen Verfahrensschπtten wird in hierarchisch organisierten Ebenen gearbeitet. Auf der oberen Ebene des erfmdungsgemaßen Verfahrens wird jeweils die aktuelle Charakteristik des Prozesses analysiert. Als Ruckmeldung vom Prozeß stehen dabei entweder die Remforcement-Signale, die Auskunft über die Gute der aktuellen Steuerung geben, und/oder das Übergangsverhalten des Prozesses zwischen seinen möglichen Zustanden zur Verfugung. Die somit bestimmte Cha- rakteristik dient dazu, Veränderungen im Prozeß zu analysieren und insbesondere das spatere Zurückkehren des Prozesses zu einer bereits bekannten Charakteristik zu erkennen. Die Charakteristika werden gespeichert, wobei jeweils dann ein neuer Datensatz für Aktuatorparameter eröffnet wird, wenn sich der technische Prozeß signifikant verändert hat und die nach der Veränderung analysierten Charakteristika noch nicht bekannt sind. Eine signifikante Veränderung trifft zunächst bei jeder erkannten diskreten Veränderung des Prozesses zu. Die Erfindung laßt sich jedoch auch auf technische Prozesse anwenden, die einer kontinuierlichen Veränderung unterliegen.
In einer Weiterbildung der Erfindung kann die Steuerungsem- heit so ausgebildet sein, daß die der Steuerungseinheit gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Erhaltung von redundanten Daten reorganisierbar sind. Hierzu können die Datensatze, die die Aktuatorparameter enthalten, hierarchisch gegliedert werden, was auch mit dem Begriff "hierarchisches Clustermg" bezeichnet wird. Hierdurcn wird das in den Datensätzen der Aktuatorpara- meter gespeicherte Wissen komprimiert und somit der für die Steuerung notwendige Speicherbedarf reduziert. Vornehmlich werden dabei solche Datensatze zusammengefaßt, die ahnliche Charakteristiken des technischen Prozesses betreffen. Für ahnliche Charakteristiken kann es dabei vorkommen, daß nicht notwendigerweise die gleichen Steuerungsstrategien optimal sind, so daß für das hierarchische Organisieren wenigstens eine Nebenbedingung eingeführt werden kann, die die Zusam en- fassung von Datensätzen mit Aktuatorparametern für ähnliche Charakteristiken verhindert, wenn die in den Datensätzen gespeicherten Aktuatorparameter verschiedene Steuerstrategien betreffen.
Die erfmdungsgemaße Vorrichtung und das erfindungsgemaße Verfahren können für das Trainieren einer adaptiven Ampelsteuerung zur Regelung des Verjehrs eines Fahrstraßenstucks verwendet werden, das durch Fahrzeuge und/oder Fußganger benutzt wird. Dabei können die Aktuatoren als Verkehrsampeln ausgebildet sein. Die Sensoren können dabei als Verkehrsdich- tesensoren ausgebildet sein, d e das Vorhandensein einer Anzahl von Fahrzeugen in einer bestimmten Lange des Fahrstra- ßenstucks anzeigen. Der implizite Drift des zu steuernden Prozesses, nämlich des Fahrstraßenverkehrs liegt dabei in der zeitlichen Veränderung von Verkehrsparametern wie der Verkehrsmenge oder wie von Abbiegenaufigkeiten. Diskrete Sprunge des Prozesses werden beispielsweise durch Unfälle oder durch die Sperrung von Spuren für Baustellen verursacht. Diese Großen werden der Steuerungseinrichtung für die Verkehrsampeln nicht explizit zur Verfugung gestellt. Eine Veränderung in diesen Großen kann mit dem erfmdungsgemaßen Verfahren mit der erfindungsgemaßen Steuerungseinrichtung aufgrund von Veränderungen der Charakteristik des Verkehrs trotzdem erkannt werden, so daß geeignete optimierte Strategien für die jewei- ligen Charakteristiken gelernt werden können.
Im Ergebnis stellt die Erfindung ein Black-Box-Verfahren zur Verfugung, das das Erlernen einer optimierten Steuerstrategie für technische Prozesse mit zeitlich veränderten Charakteristika ermöglicht. Dabei ermöglicht das erfindungsgemaße Verfahren grundsätzlich auch eine verbesserte Steuerung des betreffenden technischen Prozesses. Hierzu werden Informationen aus der Beobachtung von Prozeßcharakteristiken verwendet, um den technischen Prozeß zu klassifizieren und um für jede klassifizierte Charakteristik getrennt die Eingabe bzw. das Speichern von optimierten Aktuatorparametern zu ermöglichen. Hierbei werden die Schrittweiten für das Training der einzel- nen Charakteristiken in jedem Schritt entsprechend der Ähnlichkeit zu den bereits gespeicherten Aktuatorparametern zu bekannten Charakteristika gewählt. Durch das Zulassen von partiellen Zugehörigkeiten zu mehreren Charakteristiken wird implizit ein Fuzzy-Q-Learning über den Raum der Prozeßcharak- teristiken ausgeführt. Durch das Ableiten von initialem Wissen über die optimierte Steuerung des technischen Prozesses für eine unbekannte Charakteristik wird durch weiteres Training mit verringerter Schrittweite eine Verfeinerung durchgeführt. Schließlich kann das gelernte Wissen über den Prozeß durch die Zuordnung zu Charakteristika des Prozesses gezielt zusammenge aßt werden, wobei die zugehörigen optimierten Steuerstrategien mit abgespeichert werden. Dabei wird ein Maß für den durch die Zusammenfassung mehrerer Sätze von Aktuatorparametern entstehenden Informationsverlust entwickelt, das als Nebenbedingung in ein sogenanntes "hierarchisches Clustering" eingeführt wird.
Die Erfindung ist in der Zeichnung anhand von Ausführungsbei- spielen veranschaulicht.
Figur 1 zeigt eine schematische Darstellung einer erfin- dungsgemaßen Steuerungsvorrichtung zur Steuerung eines technischen Prozesses, Figur 2 zeigt eine schematische Darstellung einer ersten
Ampelkreuzung, die durch die Steuerungsvorrichtung aus Figur 1 gesteuert wird, Figur 3 em Fuzzy-Partitionierungsdiagramm von Verkehrs- dichtesensoren der Ampelkreuzung aus Figur 2,
Figur 4 zeigt em Pseudocode-Diagramm, daß die Betriebsweise der m Figur 1 gezeigten Steuerungsvorrichtung veranschaulicht, Figur 5 zeigt em Diagramm, das den Lernfortschritt der Steuerungsvorrichtung aus Figur 1 in einer ersten
Betriebsweise an der Ampelkreuzung aus Figur 2 veranschaulicht, Figur 6 zeigt eine gemittelte Darstellung des Lernfortschritts des in Figur 5 gezeigten Diagramms. Figur 7 zeigt em Diagramm, das den Lernfortschritt der
Steuerungsvorrichtung aus Figur 1 an der Ampelkreuzung aus Figur 2 in der ersten Betriebsweise veranschaulicht, und zwar wahrend des Auftretens eines Unfalls an der Ampelkreuzung, Figur 8 zeigt eine gemittelte Darstellung des Lernfortschritts aus Figur 7, Figur 9 zeigt em Diagramm, das den Lernfortschritt der
Steuerungsvorrichtung aus Figur 1 an der Ampelkreuzung aus Figur 2 bei erf dungsgemaßer Betπebswei- se veranschaulicht, und zwar wahrend des Auftretens eines Unfalls an der Ampelkreuzung, Figur 10 zeigt eine gemittelte Darstellung des Lernforschritts aus Figur 9, Figur 11 zeigt eine schematische Darstellung einer weiteren Ampelkreuzung, die durch die Steuerungsvorrichtung aus Figur 1 gesteuert wird, Figur 12 zeigt em Diagramm, daß den Lernfortschritt der
Steuerungsvorrichtung aus Figur 1 bei einer ersten Betriebsweise veranschaulicht, wenn sich an der Ampelkreuzung aus Figur 7 das Abbiegeverhalten ändert, Figur 13 zeigt em Diagramm, daß den Lernfortschritt der
Steuerungsvorrichtung aus Figur 1 an der Ampelkreuzung aus Figur 7 veranschaulicht, wenn die Steuerungsvorrichtung erfmdungsgemaß betrieben wird, und zwar bei mehreren Wechseln des Abbiegeverhal- tens an der Ampelkreuzung aus Figur 7.
Figur 1 zeigt eine schematische Darstellung einer erfmdungs- gemaßen Steuerungsvorrichtung 1.
Die Steuerungsvorrichtung 1 gliedert sich in eine Steuerungs- emheit 2, in einen Aktuator 3, der auf einen technischen
Prozeß 4 einwirkt und diesen beeinflußt, sowie m einen Sensor 5, der vom technischen Prozeß 4 Prozeßzustande abtastet und an die Steuerungseinheit 2 zurückfuhrt.
Die Steuerungseinheit 2 hat eine abschaltbare Datenbank 6 zur Speicherung von Charakteristiken des technischen Prozesses 4 sowie zur Speicherung von Sätzen von Aktuatorparametern zur Betätigung des Aktuators 3. Die Satze von Aktuatorparametern werden auch als "Q-Faktoren" bezeichnet.
Innerhalb der Steuerungseinheit 2 laufen em abschaltbarer Klassifikationsprozeß 7, em abschaltbarer Lernprozeß 8 und em abschaltbarer Gruppierungsprozeß 9 ab, die als hier nicht naher veranschaulichte EDV-Programme ausgebildet sein können.
Der Klassifikationsprozeß 7 empfangt vom Sensor 5 Ruckmel- dungssignale über Prozeßzustande des technischen Prozesses 4. Der Klassifikationsprozeß 7 überprüft anhand der Ruckmeldun- gen des Sensors 5 durch Vergleich mit Datensätzen m der Datenbank 6, ob der technische Prozeß 4 momentan einer bekannten oder einer unbekannten Charakteristik folgt. Falls der technische Prozeß 4 einer bekannten Charakteristik folgt, entnimmt der Klassifikationsprozeß 7 der Datenbank 6 einen zugehörigen Satz von abgespeicherten Aktuatorparametern und übermittelt diesen Satz von Aktuatorparametern an den Lernprozeß 8. Falls der Klassifikationsprozeß 7 das Vorliegen einer noch nicht bekannten Charakteristik ermittelt, wählt der Klassifikationsprozeß 7 einen oder mehrere ähnliche Charakteristika aus der Datenoank 6 aus und übermittelt diese inklusive der jeweils dazugehörigen Satze von Aktuatorparametern an den Lernprozeß 8. Der Lernprozeß 8 steuert auf der Basis der vom Klassifikationsprozeß 7 aus der Datenbank 6 ausge- wählten Satze von Aktuatorparametern den Aktuator 3 an, der wiederum Einfluß auf den technischen Prozeß 4 nimmt. Der Lernprozeß 8 fuhrt dabei em heuristisches Lernverfahren aus, das den momentan verwendeten Satz von Aktuatorparametern im Hinblick auf die ihm vom Sensor 5 übermittelten Ruckmeldungen vom technischen Prozeß 4 optimiert.
Der Lernprozeß 8 speichert die als optimiert erkannten Aktuatorparametern zu einer erkannten Charakteristik des technischen Prozesses 4 m der Datenbank 6 ab, bevor nach Erkennen einer neuen Charakteristik des technischen Prozesses 4 mit dem Lernen und Ausfuhren auf der Basis von neuen Aktuatorparametern begonnen wird.
Der Gruppierungsprozeß 9 überprüft m regelmäßigen Abstanden die Datenbank 6 auf das Vorhandensein von Datensätzen, die zur Vermeidung von Redundanz innerhalb der Datenbank 6 zusammenfaßbar sind. Figur 2 zeigt eine schematische Darstellung einer Straßenkreuzung 10, an der sich eine vertikale Straße 11 mit einer horizontalen Straße 12 schneidet. Der Schnittpunkt der vertikalen Straße 11 und der horizontalen Straße 12 bildet dabei einen Kreuzungsraum 13. Die Straßenkreuzung 10 wird durch die hier nicht dargestellte Steuerungsvorrichtung 1 aus Figur 1 gesteuert, wobei der zu steuernde technische Prozeß 4 im vorliegenden Fall mit der Straßenkreuzung 10 übereinstimmt.
Auf der vertikalen Straße 11 findet nur Verkehr aufgrund von Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf der horizontalen Straße 12 findet nur Verkehr durch Fahrzeuge einer X-Richtung von links nach rechts statt.
Weiterhin wird angenommen, daß diejenigen Fahrzeuge, die die vertikale Straße 11 befahren, nicht in die horizontale Straße 12 abbiegen und umgekehrt. Vielmehr bleiben alle die Straßenkreuzung 10 passierenden Fahrzeuge auf derjenigen Straße, auf der sie fahren.
In der Richtung des Verkehrs der vertikalen Straße 11 sind vor dem Kreuzungsraum 13 e erster Verκenrsdιchtesensor 14 und em zweiter Verkehrsdichtesensor 15 angeordnet. In der Richtung des Verkehrs auf der vertikalen Straße 11 nach dem Kreuzungsraum 13 ist em dritter Verkehrsdichtesensor 16 angeordnet.
In der Richtung des Verkehrs auf der horizontalen Straße 12 sind vor dem Kreuzungsraum 13 em vierter Verkehrsdichtesen- sor 17 und e fünfter Verkehrsdichtesensor 18 angeordnet. In der Richtung des Verkehrs auf der horizontalen Straße 12 ist schließlich nach dem Kreuzungsraum 13 em sechster Verkehrsdichtesensor 19 vorgesehen. Schließlich ist auf der horizontalen Straße 12 im Bereich vor dem Kreuzungsraum 13 und dem Bereich nach dem fünften Verkehrsdichtesensor 18 em typischer Unfallort 20 durch em Symbol "X" eingezeichnet, an dem em Verkehrsunfall auftreten kann, der zur Verminderung der Verkehrsleitfahigkeit der horizontalen Straße 12 fuhrt.
Weiterhin sind m dieser Ansicht nicht gezeigte Verkehrsam- peln vorgesehen, d e als durch die Steuerungseinheit 2 beta- tigbare Aktuatoren ausgebildet sind. Die Verkehrsampeln können zwischen den Signalbildern "rot", "rot-gelb", "grün" und "gelb" hm- und herschalten. Die Verkehrsampeln sind so angeordnet, daß der auf der vertikalen Straße 11 bzw. auf der ho- rizontalen Straße 12 ablaufende Straßenverkehr die Verkehrsampeln wahrnehmen kann.
Die Verkehrsdichtesensoren 14 bis 19 liefern jeweils em Sensorsignal p als Verkehrsdichten, wobei es Zustande innerhalb eines Intervalls [0; pmaχ] einnehmen kann. Dabei mißt der jeweilige Verkenrsdichtesensor 14 bis 19 die räumliche Dichte innerhalb einer vorgegebenen Meßstrecke, die auch in der Einheit "Kraftfahrzeuge pro Meter" angebbar ist.
Figur 3 zeigt em Diagramm, das die Diskretisierung der Signale der Verkehrsdichtesensoren 14 bis 19 veranschaulicht. Eine solche Diskretisierung wird zur Anwendung bei heuristischen Lernverfahren gebraucht, die insbesondere mit digitalen Rechnern durchgeführt werden.
Auf der horizontalen Achse ist die normierte Verkehrsdichte p/Pmax angegeben, die der betreffende Verkehrsdichtesensor mißt. Die normierte bzw. relative Verkehrsdichte p/pmaχ bewegt sich dabei im Intervall [0; 1] . In Richtung der vertikalen Achse sind insgesamt fünf Ausgabekurven von normierten Ausgangswerten angegeben, die eine "Fuzzy-Partitionierung" bilden, aus der sich die Ruckmeldungen an den Lernprozeß 8 erge- ben.
Dabei gibt es eine erste Ausgabekurve vs, die für relative Verkehrsdichten p/pmaχ im Intervall [0; 0,1] einen konstanten Wert von "1" liefert. Für relative Verkehrsdichten p/pmaχ i Intervall [0,1; 0,2] liefert die Ausgabekurve vs einen Ausgabewert im Intervall [1; 0] . Für relative Verkehrsdichten p/Pmax großer als 0,2 liefert die Ausgabekurve vs einen konstanten Wert "0". Die Ausgabekurve vs steht für sehr geringe relative Verkehrsdichten "very small".
Die m dem Diagramm von Figur 3 gezeigte Ausgabekurve s liefert für relative Verkehrsdichten p/pmaX im Intervall [0; 0,1] einen konstanten Ausgabewert von "0". Für relative Verkehrsdichten p/pmaχ m Intervall [0,1; 0,2] liefert die Ausgabekur- ve s Ausgabewerte im Intervall [0; 1] . Für relative Verkehrsdichten p/pmaχ im Intervall [0,2; 0,3] liefert die Ausgabekur- ve s Ausgabewerte im Intervall [1; 0]. Für relative Verkehrsdichten p/pmax großer als 0,3 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve s steht für geringe relative Verkehrsdichten "small".
Die m dem Diagramm von Figur 3 gezeigte Ausgabekurve liefert für relative Verkehrsdichten p/pmax im Intervall [0; 0,2] einen konstanten Ausgabewert von "0". Für relative Verkehrs- dichten im Intervall [0,2; 0,3] liefert die Ausgabekurve m Ausgabewerte im Intervall [0; 1]. Für relative Verkehrsdichten p/pmax im Intervall [0,3; 0,4] liefert die Ausgabekurve Ausgabewerte im Intervall [1; 0] . Für relative Verkehrsdichten p/pmax größer als 0,4 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve m steht für mittlere relative Verkehrsdichten "mediu " .
Die in dem Diagramm von Figur 3 gezeigte Ausgabekurve h liefert für relative Verkehrsdichten p/pmaχ im Intervall [0; 0,3] einen konstanten Ausgabewert von "0". Für relative Verkehrsdichten p/pmax im Intervall [0,3; 0,4] liefert die Ausgabekur- ve h Ausgabewerte im Intervall [0; 1] . Für relative Verkehrsdichten p/pmax im Intervall [0,4; 0,5] liefert die Ausgabekurve h Ausgabewerte im Intervall [1; 0] . Für relative Verkehrsdichten p/pmax größer als 0,5 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve h steht für hohe relative Verkehrsdichten "high".
Schließlich gibt es eine Ausgabekurve vh, die für relative Verkehrsdichten p/pmax im Intervall [0; 0,4] einen konstanten Wert von "0" liefert. Für relative Verkehrsdichten p/pmax im Intervall [0,4; 0,5] steigt der Wert von "0" auf "1" an. Für relative Verkehrsdichten p/pmaχ größer als 0,5 liefert die Ausgabekurve vh einen konstanten Wert "1". Die Ausgabekurve vh steht für sehr große relative Verkehrsdichten "very high" .
Im nachfolgenden wird beschrieben, wie die in Figur 2 gezeigte Straßenkreuzung 10 mit Hilfe der Steuerungsvorrichtung 1 auf den auftretenden Straßenverkehr hin angepaßt und optimiert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR- Algorithmus angewendet.
Für das durch den CCR-Algorithmus ("CCR" = "Characterizing and Clustering of Reinforcement Signals") zu lösende Optimie- rungsproblem wird angenommen, daß die Straßenkreuzung 10, an der eine Steuerung der Verkehrsampeln durchgeführt werden soll, fest vorgegeben ist. Die Verkehrsnachfrage sei in Form einer Menge von Verkehrsströmen auf der vertikalen Straße 11 und auf der horizontalen Straße 12 vorgegeben, die jeweils durch das Verkehrsaufkommen in Form der Anzahl der fahrenden Fahrzeuge und deren zeitliche Verteilung gegeben ist. Weiterhin sei für die Straßenkreuzung 10 eine Menge zulässiger Signalbilder der Verkehrsampeln gegeben, wobei eine Menge von zeitlichen Nebenbedingungen an die zulässigen Signalbilder der Verkehrsampeln existiert. Zeitliche Nebenbedingungen sind zum Beispiel durch die Bedingungen an die Reihenfolge der zulässigen Signalbilder der Verkehrsampeln vorgegeben. So muß beispielsweise auf ein Signal "rot" ein Signal "rot-gelb" folgen. Weiterhin sind Einschränkungen bezüglich der Dauer der jeweiligen Signalbilder gegeben. Zwischen dem Umschalten zwischen zwei Signalbildern der Verkehrsampeln sollen vorbestimmte Minimalzeiten vergehen. Außerdem darf weder die vertikale Straße 11 noch die horizontale Straße 12 beliebig lan- ge gesperrt werden. Schließlich ist zur Beschreibung der
Straßenkreuzung 10 eine endliche Anzahl aquidistanter Zeitpunkte vorgegeben, zu denen eine Entscheidung über die jeweils an den Verkehrsampeln anzuzeigenden Signalbildern zu treffen ist. Dadurch wird das Optimierungsproblem zeitlich diskretisiert .
Bei dem Problem der Optimierung der Straßenkreuzung 10 handelt es sich um ein Problem, bei dem die nacheinander zu treffenden Entscheidungen über die anzuzeigenden Signalbilder der Verkehrsampeln voneinander abhängein. So sind die voll- standig beschriebenen zeitlichen Nebenbedingungen zu berücksichtigen. Darüber hinaus können ungünstige Entscheidungen zu einem früheren Zeitpunkt einen starken Einfluß auf die später erreichbare Storungsqualitat des durch die Straßenkreuzung 10 dargestellten technischen Prozesses haben. Werden zum Beispiel viele Fahrzeuge so m den Kreuzungspunkt von vertikaler Straße 11 und horizontaler Straße 12 eingelassen, daß sie gleichzeitig im Kreuzungsraum 13 ankommen, kann dort zu einem spateren Zeitpunkt em Aufstauen der Fahrzeuge auch bei einer optimalen Steuerung der Verkehrsampeln nicht mehr verhindert werden.
Das Problem der optimierten Steuerung der Straßenkreuzung 10 ist aufgrund seiner hohen Dimensionalitat schwierig zu losen. Weiterhin kann eine größere Stadt nicht als em einziger technischer Prozeß sondern nur als eine Menge von technischen Prozessen, die miteinander em Gesamtsystem bilden, beschrie- ben werden. In diesem System hangen die Steuerungsentscheidungen der einzelnen Straßenkreuzungen voneinander ab. In einem solchen Fall wird zur Optimierung vorteilhafterweise em hierarchischer Ansatz genutzt. In den folgenden Ausfuhrungen wird speziell das Modell und die Optimierung der Steuerung der Straßenkreuzung 10 aus Figur 2 betrachtet. Die Strategie zur optimierten Steuerung der Straßenkreuzung 10 wird dabei besonders vorteilhaft durch sogenanntes Remforcement-Lernen trainiert. Eine direkte Ableitung eines mathematischen Modells für den Verkehrsfluß im Bereich der Straßenkreuzung 10, insbesondere der Übergangswahrschemlichke ten zwischen einzelnen Prozeßzustanden und der Ruckmeldungen aus der Steuerung der Straßenkreuzung 10, gestaltet sich nämlich schwierig.
Der Zustand der Straßenkreuzung 10 wird im wesentlichen durch die Signale der Verkehrsdichtesensoren, durch das momentan aktive Signalbild der Verkehrsampeln und durch die Zeitdauer bestimmt, wahrend der an der Straßenkreuzung 10 bereits das momentane Signalbild der Verkehrsampeln gezeigt wird.
D e Gute der Steuerung der Straßenkreuzung 10, die als Ruckmeldung an den im Lernprozeß 8 verwendeten Lernalgorithmus verwendet wird, wird als Differenz derjenigen Anzahl der Fahrzeuge, die die Straßenkreuzung 10 bis zum nächsten Ent- scheidungszeitpunkt passieren können, und derjenigen Anzahl von Fahrzeugen gebildet, die vor der Straßenkreuzung 10 warten. Dementsprechend kann auch em negatives Gutesignal ent- stehen, wenn die Anzahl der vor αer Straßenkreuzung 10 wartenden Fahrzeuge großer ist als diejenige Anzahl der Fahrzeuge, die die Kreuzung durchfanren.
Em Ziel der erfmdungsgemaßen Steuerungsvorrichtung und des darin angewendeten Verfahrens besteht darin, für die Straßenkreuzung 10 eine Steuerung zu finden, bei der die Summe der Ruckmeldungen über die Zeit maximiert wird, so daß eine maximale Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren kann.
Figur 4 zeigt einen Pseudocode, der den zur Steuerung der Steuerungsvorrichtung 1 verwendeten Algorithmus veranschaulicht.
Die m dem Algorithmus verwendeten Variablen und Begriffe werden nachfolgend erläutert.
Obere Indizes e: Wahrend αes Trainings werden für jede
Charakteristik, die am zu steuernden Prozeß beobachtet wird, eigene Datenstrukturen Qe ,u), i e Z, u e U( ι ) und ReU,u), l e Z, u e U{ ι ) der Datenbank G angelegt. Die einzelnen Datenstrukturen werden durch den oberen Index e unterschieden. Untere Indizes k : Iterationszahler ε: Menge der Charakteristiken ε, d e am zu steuernden Prozeß bereits beobachtet wurden. ιk: Beobachteter Prozeßzustand des Prozesses in Iteration _ k . uk: Ausgeführte Steuer-Aktion in Iteration k .
Z: Menge der Prozeßzustande, die am Prozeß beobachtet werden können.
UU) : Menge der im Zustand l ausfuhrbaren Steuer- Aktionen. g (ιk , u< r ιk+ι ) : Beobachtete Gute des Prozesses m Iteration k (Remforcement Signal) . Die Gute kann vom Prozeßzustand und der Aktion in Iteration k und dem resultierenden Fol- geprozeßzustand abhangen. Q-Values Qe: Qe ( ι , u) gibt die erwartete Summe der zukunftigen Ruckmeldungen über die Gute des zu steuernden Prozesses an, wenn im Zustand I die Aktion u ausgeführt wird, und die Steuerung anschließend optimiert ist. Diese Q-Values werden wahrend des Lernvorgangs trainiert. Aus den Q-Values kann die optimale Steuerung abgeleitet werden, indem im Zustand i diejenige Aktion u ausgeführt wird, für die Qe(ι,u) maximal wird. Q-Values werden im Q- Learnmg verwendet.
Rk e : Rk e ( ι , u) gibt die erwartete Gute der Ausfuhrung von Aktion u im Zustand l an, wenn sich der Prozeß m der
Charakteristik e befindet. Diese Werte werden wahrend des Trainings in der oberen Ebene gelernt und ermöglichen, Veränderungen des Prozesses zu erkennen. Wenn Veränderungen des Prozesses nicht im Verlauf der Gute der Steuerung sichtbar werden, können auch Übergangswahrschemlichkei- ten zwischen den einzelnen Zustanden gelernt und zur Erkennung von Veränderungen genutzt werden. de k : Distanz der Charakteristik, die für den Datensatz e gelernt wurde zur Charakteristik des zu trainierenden Prozesses in Iteration J. μk e : Zugehörigkeit des Prozesses in Iteration k zur ge¬ lernten Charakteristik e. Die Zugehörigkeit nimmt mit zunehmender Distanz dk e ab.
Der Figur 4 dargestellte Pseudocode weist insgesamt sieben Blocke auf, die nachfolgend erläutert werden.
1) Initialisierung (Zeilen 1.-7.) : Anfänglich existiert nur em einziger Datensatz Qe in der unteren bzw. Re m der oberen Ebene. In der oberen Ebene werden somit am Anfang die Charakteristika des Prozesses den ersten Iterati- onen gelernt. Wenn sich die Charakteristika des Prozesses spater verandern, werden dynamisch weitere Datensatze angelegt. Der initiale Prozeßzustand io wird bestimmt.
2) Exploration (Zeilen 11.-12.): Die Aktionen uk e O { ik) kon- nen wahrend des Trainings zufällig ausgewählt werden. Der
Folgezustand xk+ι des Prozesses und die Gute der Steuerung g { ik , k , ik+ι ) können anschließend beobachtet werden.
3) Einordnung des Prozesses (Zeilen 14.-17.): Die Ahnlich- keit der aktuellen Charakteristik des Prozesses zu den bereits gelernten kann anhand der für die einzelnen Charakteristiken trainierten erwarteten Guten Re k bestimmt werden, indem der Abstand der beobachteten Guten zu diesen bestimmt wird:
Figure imgf000027_0001
Aus diesen Distanzen können folgendermaßen Zugehoπgkei- ten abgeleitet werden:
Figure imgf000028_0001
so daß die Zugehörigkeit mit zunehmender Distanz abnimmt und die Summe aller Zugehörigkeiten Eins ist. Die Wahl des Fuzzyfier m hangt dabei von der Problemstellung ab:
Ver ndert sich die Umgebung kontinuierlich, so daß zu jedem Zeitpunkt Zugehörigkeiten zu mehreren Umgebungen möglich sind, können die Zugehörigkeiten echt fuzzy gewählt werden (z.B. m=2 ) , geht man dagegen von einer diskreten Änderung der Umgebung aus, ist eine scharfe Trennung der Umgebungen sinnvoll (m — > 1) .
4) Neue Charakteristik (Zeilen 19.-22.): Wenn die aktuelle Charakteristik des Prozesses keine Ähnlichkeit zu einer der gelernten Charakteristiken aufweist (alle Distanzen de k großer als ein Schwellwert) , wird ein neuer Datensatz für diese neue Charakteristik e' angelegt.
5) Speicherung der Charakteristika des Prozesses: Die erwar- teten Guten Re(i ,uy) werden für alle e e ε entsprechend der neuen beobachteten Gute q{ik, uk, i + ) adaptiert:
*+I(zt,κ = Λ (ιt,ι + μk'+ — ,κt,'t+,) - Rk'(ιk,uk)) τ k,,k.ut
*;+1(ι,κ) = R+1 (ι,κ), V(/,M) ≠ (ιk,uk), JG Z , ueU(t)
Die Schrittweite a' der Adaption wird dabei von
der Zugehörigkeit μk e +] der aktuellen Charakteristik des Prozesses zu den bereits gelernten Charakteristiken Re und der Anzahl τf „ bereits zuvor ausgeführter Adaptionen auf den Feldern Re jc, uk) bestimmt. Da einerseits die Zugehörigkeiten μe von den erwarteten Guten Re abhangen, an- dererseits aber die Re m Abhängigkeit der Zugehorιg eιten bestimmt werden, muß für die Konvergenz des gesamten Verfahrens vorausgesetzt werden, daß sich die Charakteristik des Prozesses so langsam ändert, daß zwischen der Änderung die Re gelernt werden können. Diese Forderung ist sinnvoll, da em beliebig schnell veränderlicher Prozeß prinzipiell nicht sinnvoll gesteuert werden kann.
6) Q-Learnmg: Hierfür wird em Remforcement-Lernverfahren eingesetzt. Hier wird jedoch die Schrittweite der Adapti- on der Q-Values Qe zusätzlich durch die Zugehörigkeiten μe k bestimmt, so daß vorzugsweise nur e Training auf denjenigen Q-Values ausgeführt wird, zu denen die aktuelle Charakteristik des Prozesses paßt. Die Adaption der Q- Values im Q-Learnmg wird folgendermaßen ausgeführt:
Qe(ι, u) = ,
Figure imgf000029_0001
wenn Steueraktion u im Zustand I ausgeführt wurde, daraufhin em Übergang in den Zustand j stattgefunden hat, und das Remforcement Signal g (i, u, j) geliefert wurde. 0 < α < 1 ist eine vom Anwender vorgegebene Konstante, γ eine Lernrate, die wahrend des Lernprozesses von 1 auf 0 gesenkt wird, und μe ist die Zugehörigkeit des Prozesses zur Charakteristik e, zu der die Q-Values Qe gehören. Da der Prozeß zu mehreren Charakteristiken partiell gehören kann, können also die Q-Values mehrerer Charakteristiken parallel (mit entsprechend der Zugehörigkeit verminderter Lernrate) trainiert werden. Wird nun em neuer Datensatz angelegt, weil der Prozeß zu keiner bekannten Charakteristik eine Ähnlichkeit aufweist, so wird offensichtlich zunächst nur der neue Datensatz trainiert. Im Laufe der Zeit kann der Prozeß jedoch wieder zu anderen Charakteri- stiken Ähnlichkeit bekommen, so daß dann gegebenenfalls mehrere Datensatze parallel trainiert werden.
In den Figuren 5 bis 10 wird der Verlauf der Güte der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 über die Zeit dargestellt. Dabei stellen die Angaben auf der X-Achse jeweils die laufende Nummer der Zeitpunkte dar, zu denen eine Entscheidung über das nächste anzulegende Signalbild zu treffen ist.
Die auf der Y-Achse angegebene Gute der Steuerung entspricht der Differenz aus der Anzahl derjenigen Fahrzeuge, die die Straßenkreuzung 10 bis zum nächsten Entscheidungszeitpunkt passieren können und der Anzahl derjenigen Fahrzeuge, die vor der Straßenkreuzung 10 warten. Wie man aus den Figuren 5 bis 10 sieht, bewegt sich der Gütewert in einem Intervall zwischen ca. -15 und ca. +19.
In Figur 5, in Figur 7 und in Figur 9 ist jeweils der genaue Verlauf der Güte über die Zeit dargestellt, der Schwankungen von ca. +/-3 Fahrzeugen aufweist. Dies ist darauf zurückzuführen, daß bei einer gegebenen Güte der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 nicht bei jedem Entscheidungszeitpunkt dieselbe Regelungsqualität erreicht werden kann.
Die Schwankungen im Verlauf der Güte der Steuerung in Figur 5, in Figur 7 und in Figur 9 sind in den in Figur 6, Figur i und Figur 10 gezeigten gemittelten Verlaufen der Gute der Steuerung der Straßenkreuzung 10 herausgefiltert.
In Figur 5 und in Figur 6 ist der Verlauf der Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 dargestellt, bei der ausschließlich der Lernprozeß 8 aktiv ist. Der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 sind dabei ausgeschaltet. Wie man an dem Verlauf der Gute ab dem Entscheidungszeitpunkt 10000 sieht, können in einem optimierten Zustand der Steuerungsvorrichtung 1 immer ca. 13 Fahrzeuge mehr die Straßenkreuzung 10 bis zum nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor der Straßenkreuzung 10 warten müssen. Dabei ergeben sich deutliche Verbesserungen aus dem Lernverhalten des Lernprozesses 8 ab dem Entscheidungszeitpunkt 3000 bzw. 10000, wie am besten m Figur 6 zu sehen ist.
Figur 7 und Figur 8 zeigen eine weitere Entwicklung der Gute der Steuerung durch die Steuerungsvorrichtung 1 der Straßenkreuzung 10 bei einem Lernen des Lernprozesses 8, wobei der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 ausgescnaltet sind.
Zum Entscheidungszeitpunkt 5000 wird die horizontale Straße 12 am Unfallort 20 durch einen Unfall verengt, worauf in der Folge die Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 von einem Wert von ca. 12 auf einen Wert von ca. 3 einbricht und durch fortwahrendes Lernen wieder auf einen Wert von ca. 5 ansteigt.
Zum Entscheidungszeitpunkt 10000 wird die horizontale Straße 12 am Unfallort 20 freigegeben, so daß wieder deren ursprüngliche Kapazität vorliegt. Wie man am besten in Figur 8 sieht, steigt die Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 wieder auf den ursprunglichen Wert von ca. 11 an, bis zum Zeitpunkt 21000 eine Gute von 13 erreicht wird, die der maximalen Gute der Steuerung gemäß Figur 5 und Figur 6 entspricht. Durch das Auftreten des Unfalls wahrend des Lernens des Lernprozesses 8 in der Steuerungsem- heit 2 wird also das Erreichen einer optimierten Gute der Steuerung der Steuerungsvorrichtung 1 um 11000 Entscheidungszeitpunkte verzögert. Dies wird darauf zurückgeführt, daß d e lernende Steuerungsvorrichtung 1 wahrend des Auftretens des Unfalls in den Entscheidungszeitpunkten 5000 bis 10000 em Steuerungsverhalten lernt, das nach dem Freigeben der horizontalen Straße 12 nicht mehr korrekt ist.
Wie man am besten m Figur 7 sieht, sind die Ausschlage der Gute der Steuerung der Straßenkreuzung 10 zwischen den Entscheidungszeitpunkten 10000 und 21000, also unmittelbar nach dem Freigeben des Unfallorts 20, großer als beim Erreichen des optimierten Zustandes auf dem Entscheidungszeitpunkt 21000.
Figur 9 und Figur 10 veranschaulichen einen Lernvorgang der Steuerungsvorrichtung 1 bei der Steuerung der Straßenkreuzung 10, wobei die Datenbank 6, der Klassifikationsprozeß 7, der Lernprozeß 8 und der Gruppierungsprozeß 9 aktiv sind und das erfmdungsgemaße Verfahren ausfuhren.
Zwischen den Entscheidungszeitpunkten 5000 und 10000 ist die horizontale Straße 12 durch einen Unfall am Unfallort 20 verengt, so daß die Kapazität der horizontalen Straße 12 einge- schrankt ist. Wie man am besten in Figur 10 sieht, hat die Gute der Steuerung der Straßenkreuzung 10 zum Entscheidungszeitpunkt 5000 einen Wert von ca. 11 erreicht, der wahrend der Zeitdauer des Unfalls auf einen Wert von ca. 5 absinkt. Insofern stimmen die Darstellungen von Figur 10 und Figur 8 qualitativ uberem. Beim Auftreten des Unfalls zum Entscheidungszeitpunkt 5000 bemerkt die Steuerungseinheit 2, daß der zu steuernde technische Prozeß, nämlich die Straßenkreuzung 10, eine andere Charakteristik aufweist. Dies kann beispielsweise durch den Einbruch der Gute der Steuerung bemerkt werden, der von dem Klassifikationsprozeß 7 abgetastet wird. Eine andere Möglichkeit, eine Änderung der Charakteristik der Straßenkreuzung 10 zu detektieren, besteht in der Beobachtung der Wahrscheinlichkeit, daß innerhalb eines bestimmten Zeitraums nach dem Übergang der betreffenden Verkehrsampel vom Signalbild "rot-orange" zum Signalbild "grün" die gemessene Fahrzeugdichte am vierten Verkehrsdichtesensor 17 und am fünften Verkenrsdichtesensor 18 nicht um wenigstens m dem Maße abnimmt, wie es bei Übergängen zwischen denselben Si- gnalbildern zu einem Entscheidungszeitpunkt vor dem Auftreten des Unfalls der Fall war.
Zum Entscheidungszeitpunkt 5000 legt der Lernprozeß 8 Übereinstimmung mit dem Klassifikationsprozeß 7 einen neuen Satz von Aktuatorparametern für die Verkehrsampeln an und beginnt den neuen Satz von Aktuatorparametern zu trainieren. Der ursprüngliche Satz von Aktuatorparametern wird in der Datenbank 6 abgespeichert, und zwar unter einem Merkmal, das die betreffende Charakteristik der Straßenkreuzung 10 kennzeichnet. W e man am besten m Figur 10 sieht, nimmt die Gute aufgrund des Lernvorgangs der Steuerungsvorrichtung 1 bis auf einen Wert von ca. 10 zu, also auf einen höheren Wert als der in der Figur 8 angegebene entsprechende maximale Wert. Beim Auftreten eines Unfalls wird mit der erf dungsgemaßen Steuerung daher schneller eine höhere Gute der Steuerung der Straßenkreuzung 10 erreicht als dies bei abgeschaltetem Klassifikationsprozeß 7 möglich ist. Nach dem Freigeben des Unfallorts 20 steigt die Gute der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 sehr schnell auf den Endwert 13 an, der n Figur 8 erst zum Entscheidungszeitpunkt 21000 erreicht wurde. Dies wird damit begründet, daß die in der Datenbank 6 abgespeicherten Parameter zu der Charakteristik der Straßenkreuzung 10 vor dem Auftreten des Unfalls zum Entscheidungszeitpunkt 5000 wahrend des Trainings der Aktuatorparameter für die Cha- rakteπstik der Straßenkreuzung 10 wahrend des Unfalls zwischen den Entscheidungszeitpunkten 5000 und 10000 mittrai- niert werden. Damit zeigt das durch die Steuerungsvorrichtung 1 gesteuerte technische System der Straßenkreuzung 10 unmittelbar nach Beendigung des Unfalls em optimiertes Verhalten, so daß gegenüber der Gute der Steuerung der Straßenkreuzung
10 unmittelbar vor dem Unfall jedenfalls keine Verzögerung im weiteren Lernverhalten entsteht.
Figur 11 zeigt eine schematische Darstellung einer Straßen- kreuzung 30, an der sich eine vertikale Straße 31 mit einer horizontalen Straße 32 schneidet, die m eine erste Abbiegestraße 33 und in eine zweite Abbiegestraße 34 mundet. Die Straßenkreuzung 30 wird durch die hier nicht dargestellte Steuerungsvorrichtung 1 aus Figur 1 gesteuert, wobei der zu steuernde technische Prozeß 4 im vorliegenden Fall mit der Straßenkreuzung 30 übereinstimmt.
Auf der vertikalen Straße 31 findet nur Verkehr aufgrund von Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf der horizontalen Straße 32 findet nur Verkehr durch Fahrzeuge in einer X-Richtung von links nach rechts statt. Ebenso findet auf der ersten Abbiegestraße 33 und auf der zweiten Abbiegestraße 34 nur Verkehr durch Fahrzeuge in einer X- Richtung von links nach rechts statt. Weiterhin wird angenommen, daß diejenigen Fahrzeuge, die die vertikale Straße 31 befahren, nicht in die horizontalen Straße 32, in die erste Abbiegestraße 33 bzw. in die zweite Abbiegestraße 34 abbiegen und umgekehrt. Vielmehr bleiben alle die Straßenkreuzung 30 passierenden Fahrzeuge auf derjenigen Straße, auf der sie fahren.
Der Schnittpunkt der vertikalen Straße 31, der horizontalen Straße 32, der ersten Abbiegestraße 33 und der zweiten Abbiegestraße 34 bildet einen Kreuzungsraum 35. In der Richtung des Verkehrs der vertikalen Straße 31 sind vor dem Kreuzungsraum 35 ein erster Verkehrsdichtesensor 36 und ein zweiter Verkenrsdichtesensor 37 angeordnet. In der Richtung des Ver- kehrs auf der vertikalen Straße 31 nach dem Kreuzungsraum 35 ist ein dritter Verkehrsdichtesensor 38 angeordnet.
In der Richtung des Verkehrs auf der horizontalen Straße 32 sind vor dem Kreuzungsraum 35 ein vierter Verkehrsdichtesen- sor 39 und ein fünfter Verkehrsdichtesensor 40 angeordnet. In der Richtung des Verkehrs auf der ersten Abbiegestraße 33 ist nach dem Kreuzungsraum 35 ein sechster Verkehrsdichtesensor 41 vorgesehen. In der Richtung des Verkehrs auf der zweiten Abbiegestraße 34 ist schließlich nach dem Kreuzungsraum 35 ein siebter Verkehrsdichtesensor 42 vorgesehen.
Schließlich ist auf der ersten Abbiegestraße 33 im Bereich nach dem Kreuzungsraum 35 und nach dem sechsten Verkehrsdichtesensor 41 eine Baustelle 43 als Ventilsymbol eingezeichnet, an der die erste Abbiegestraße 33 verengbar ist, was zur Verminderung der Verkehrsleitfähigkeit der ersten Abbiegestraße 33 führt. Gleichzeitig wird angenommen, daß der Verkehr auf der horizontalen Straße 32 sein Abbiegeverhalten mit der Zeit ändert, zum Beispiel beim Übergang vom Berufsverkehr zum Einkaufsverkehr . Diese Informationen werden der Steuerungsvorrichtung 1 ausdrücklich nicht mitgeteilt.
Außerdem sind in dieser Ansicht nicht gezeigte Verkehrsampeln vorgesehen, die als durch die Steuerungseinheit 2 betätigbare Aktuatoren ausgebildet sind. Die Verkehrsampeln und die Verkehrsdichtesensoren 36 bis 42 entsprechen dabei den Verkehrsampeln und den Verkehrsdichtesensoren 14 bis 19 aus Figur 2 und Figur 3.
Im Nachfolgenden wird beschrieben, wie die in Figur 11 gezeigte Straßenkreuzung 30 mit Hilfe der Steuerungsvorrichtung 1 auf den auftretenden Straßenverkehr hin angepaßt und opti- miert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR- Algorithmus angewendet.
Die Randbedingungen für das durch den CCR-Algorithmus zu lösende Optimierungsproblem entsprechen im wesentlichen denje- nigen, die für die Straßenkreuzung 10 gelten.
Ein Ziel der erfindungsgemäßen Steuerungsvorrichtung und des darin angewendeten Verfahrens besteht darin, für die Straßenkreuzung 30 eine Steuerung zu finden, bei der die Summe der Rückmeldungen über die Zeit maximiert wird, so daß eine maximale Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren kann.
In Figur 12 und in Figur 13 wird der Verlauf der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1 über die Zeit dargestellt. Die Art und Weise der Darstellung des Verlaufs der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1 entspricht dabei im wesentlichen derjenigen in den Figuren 5 bis 10.
Der von Ql kommende Verkehr auf der horizontalen Straße 32 hat zwei Möglichkeiten, aus dem Kreuzungsraum 35 auszufahren, nämlich entweder nach ZI auf der ersten Abbiegestraße 33 oder nach Z2 auf der zweiten Abbiegestraße 34. In Richtung des Ziels ZI ist die Kapazität der ersten Abbiegestraße 33 reduziert, beispielsweise durch die Baustelle 43 oder durch einen Unfall. In der Richtung Z2 soll dagegen freier Verkehr auf der zweiten Abbiegestraße 34 herrschen.
In dem vorliegenden Beispiel kann der Verkehr auf der Straßenkreuzung 30 in zwei typische Charakteristiken eingeteilt werden, die durch zwei Abbiegeraten OD-A und OD-B vorgegeben sind.
Bei der Abbiegerate OD-A biegen 90% der Fahrzeuge auf der horizontalen Straße 32 in die Richtung Z2 auf die zweite Abbiegestraße 34 ab, während 10% der Fahrzeuge auf der horizonta- len Straße 32 in die Richtung ZI auf die erste Abbiegestraße 33 abbiegen.
Bei der Charakteristik mit der Abbiegebeziehung OD-B biegen 90% der Fahrzeuge der horizontalen Straße 32 in auf die erste Abbiegestraße 33 zum Ziel ZI ab, während 10% des Verkehrs auf der horizontalen Straße 32 in die zweite Abbiegestraße 34 zum Ziel Z2 abbiegen.
Bei der Abbiegerate OD-B wird sich der Verkehr auf der hori- zontalen Straße 32 stark zurückstauen, so daß der Anteil der Zeit, in der eine horizontale Verbindung des Kreuzungsraums 35 existiert, drastisch reduziert werden muß. Die Abbiegerate ist kein expliziter Eingabeparameter für die Steuerungsvor- πchtung 1. Die Abbiegerate muß daher als versteckter Parameter angesehen werden, der im Laufe der Zeit den zu steuernden Prozeß, nämlich die Straßenkreuzung 30, verändert.
In Figur 12 ist der Verlauf der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1 dargestellt, bei der ausschließlich der Lernprozeß 8 aktiv ist. Der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 sind dabei ausgeschaltet. Ab dem Entscheidungszeitpunkt 5000 herrscht die Abbiegerate OD-B. Vom Entscheidungszeitpunkt 0 bis zum Entscheidungszeitpunkt 5000 herrscht die Abbiegerate OD-A.
Wie man an dem Verlauf der Gute der Steuerung durch die Steuerungsvorrichtung 1 in Figur 12 sieht, können in einem optimierten Zustand die Steuerungsvorrichtung 1 immer zwischen 20 und 29 Fahrzeuge mehr die Straßenkreuzung 30 bis zum nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor der Straßenkreuzung 30 warten müssen.
Zwischen dem Entscheidungszeitpunkt 5000 und dem Entscheidungszeitpunkt 6000, also kurz nachdem sich die Abbiegerate drastisch geändert hat, bricht die Gute der Steuerungsvorrichtung 1 auf einen Wert von ca. 10 em, so daß nur noch zehn Fahrzeuge mehr die Straßenkreuzung 30 bis zum nächsten Entscheidungszeitpunkt passieren können, als Fahrzeuge vor der Straßenkreuzung 30 warten müssen.
Es konnte beobachtet werden, daß die Verkehrsampel der hori- zontalen Straße 32 nach dem Wechsel der Abbiegebeziehung von OD-A nach OD-B auf das konstante Signalbild "grün" schaltet. Dies ist darauf zurückzuführen, daß die Steuerungsvorrichtung 1 den Wechsel der Charakteristik des Verkehrs nicht bemerkt und nach wie vor die gelernten Aktuatorparameter bei der alten Abbiegebeziehung OD-A verwendet. Die Aufstauung des Verkehrs vor dem Ziel ZI in den Kreuzungsraum 30 hinein bewirkt schließlich, daß von dem vierten Verkehrsdichtesensor 39 und von dem fünften Verkehrsdichtesensor 40 em "starker Verkehr" auf der horizontalen Straße 32 gemeldet wird, den die Steuerungsvorrichtung 1 durch Durchlassen des Verkehrs der horizontalen Straße 32 durch den Kreuzungsraum 35 abzubauen versucht, indem die zugehörigen Verkehrsampeln das Signalbild "grün" annehmen. Diese Reaktion ist falsch, weil die Verkehrsstauung nicht durch die Straßenkreuzung 30 selbst, sondern durch den Engpaß an der Baustelle 43 hinter dem Kreu- zungsraum 35 verursacht wird. Die zeitliche Verzögerung des Einbruchs der Gute der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1, die m Figur 12 dargestellt wird, stellt gerade diejenige Zeit dar, die die Fahrzeuge bei der neuen Abbiegerate OD-B benotigen, um in das durch die Straßenkreuzung 30 dargestellte Szenario einzufahren, und die vergeht, bis der Stau vor der Baustelle 43 bis in den Kreu- zungsraum 35 hineinreicht. Das starke Schwanken der Gute der Steuerungsvorrichtung 1 vor dem Wechsel der Abbiegerate ist darauf zurückzuführen, daß auch bei optimaler Steuerung nicht in jedem Zustand der Straßenkreuzung 30 die gleiche Gute der Steuerung erreicht werden kann. So können wahrend des Signal- bilds "gelb" keine Fahrzeuge den Kreuzungsraum 30 passieren.
Figur 13 zeigt eine weitere Entwicklung der Gute der Steuerung durch die Steuerungsvorrichtung 1 der Straßenkreuzung 30 bei einem Lernen des Lernprozesses 8, wobei der Klassiflkati- onsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 aktiv sind und das erfmdungsgemaße Verfahren ausfuhren.
Jeweils zwischen den Entscheidungszeitpunkten 1000 und 2000 bzw. 3000 und 4000 ist die Baustelle 43 verengt, so daß die Kapazität der ersten Abbiegestraße 33 eingeschränkt ist. Die Gute der Steuerung der Straßenkreuzung 30 erreicht bei der Abbiegerate OD-A einen gemittelten Wert von ca. 24, wahrend die Gute der Steuerung der Straßenkreuzung 30 bei der Abbiegerate OD-B einen gemittelten Wert von ca. 18 erreicht.
Kurz nach dem Wechseln der Abbiegerate an der Straßenkreuzung 30 bemerkt die Steuerungseinheit 2, daß der zu steuernde technische Prozeß, nämlich die Straßenkreuzung 30, eine andere Charakteristik aufweist. Dies kann beispielsweise durch den Einbruch der Gute der Steuerung bemerkt werden, der jeweils von dem Klassifikationsprozeß 7 abgetastet wird. Eine andere Möglichkeit, eine Änderung der Charakteristik der Straßenkreuzung 30 bei der Änderung der Abbiegewahrscheinlichkeit zu detektieren, besteht m der Wahrscheinlichkeit, daß innerhalb eines bestimmten Zeitraums nach dem Übergang der betreffenden Verkehrsampel vom Signalbild "rot-gelb" zum Signalbild "grün" die gemessene Verkehrsdichte am vierten Verkehrsdichtesensor 39 und am fünften Verkehrsdichtesensor 40 nicht um wenigstens m dem Maße abnimmt, wie es bei Übergängen zwischen denselben Signalbildern zu einem Entscheidungszeitpunkt vor dem Auftreten der Änderung der Abbiegerate der Fall war.
Jeweils beim Detektieren einer bisher unbekannten Änderung der Charakteristik der Straßenkreuzung 30 legt der Lernprozeß 8 in Übereinstimmung mit dem Klassifikationsprozeß 7 einen neuen Satz von Aktuatorparametern für die Verkehrsampeln an und beginnt, den neuen Satz von Aktuatorparametern zu trainieren. Der jeweils andere Satz von Aktuatorparametern wird in der Datenbank 6 abgespeichert, und zwar unter einem Merkmal, das die betreffende Charakteristik der Straßenkreuzung 30 kennzeichnet. Somit können zu einem spateren Zeitpunkt bekannte Charakteristiken weitertrainiert werden.
In Figur 10 wechseln die Abbiegeraten sogar mehrfach. Man kann beobachten, daß der Wechsel der Gute der Steuerung erkannt wird und die Steuerungsvorrichtung lernt, sich in der veränderten Umgebung korrekt zu verhalten. Der auch hier noch vorhandene kleine Einbruch der Gute bei der Abbiegerate OD-B von "24" auf "18" ist darauf zurückzuführen, daß auch bei ei- ner optimierten Steuerung der Steuerungsvorrichtung 1 aufgrund des Engpasses vor dem Ziel ZI insgesamt weniger Fahrzeuge die Straßenkreuzung 30 passieren können, als bei der Abbiegerate OD-A.
Bei jedem detektierten Wechsel der momentanen Charakteristik der Straßenkreuzung 30 wird em betreffender neuer bzw. bekannter anderer Satz von Aktuatorparametern für die Steuerung der Steuerungseinheit 2 verwendet. Der jeweils andere, optimierte Satz von Aktuatorparametern wird in der Datenbank 6 gespeichert. Dadurch ist gewährleistet, daß die Aktuatorparameter immer für diejenige Abbiegebeziehung bzw. Charakteristik der Straßenkreuzung 30 optimiert werden, die jeweils vorhanden ist. Eine fehlerhafte Optimierung wird dadurch vermieden.

Claims

Patentansprüche
1. Steuerungsvorrichtung zur Steuerung eines durch Aktuatoren beinflußbaren technischen Prozesses (4; 10; 30) mit einer Steuerungseinheit (2), mit wenigstens einem Aktuator (3) und mit wenigstens einem Sensor (5; 14-19; 36- 42), wobei der Prozeß die folgenden Merkmale aufweist: der Prozeß (4; 10; 30) weist wenigstens zwei Charakte- ristiken innerhalb eines charakteristischen Prozeßraums auf, der Prozeß (4; 10; 30) weist bei wenigstens einer Charakteristik wenigstens zwei unterschiedliche Prozeßzustände auf, wobei die Steuerungseinheit (2) die folgenden Merkmale aufweist : die Steuerungseinheit (2) ist so ausgebildet, daß Prozeßzustände wenigstens teilweise anhand von Sensorsi- gnalen des Sensors (3) bzw. der Sensoren (14-19; 36- 42) abtastbar sind, die Steuerungseinheit (2) ist so ausgebildet, daß bestimmbar ist, welche Charakteristik der Prozeß (4; 10; 30) momentan aufweist, die Steuerungseinheit (2) ist so ausgebildet, daß der Aktuator (3) bzw. die Aktuatoren unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorparametern betätigbar ist bzw. sind, die Steuerungseinheit (2) ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktua- torparametern abspeicherbar ist.
2. Steuerungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Steuerungseinheit (2) so ausgebildet ist, daß für den Fall, daß eine der Steuerungseinheit (2) unbekannte Charakteristik vorliegt, anhand der abgetasteten Prozeßzustände zu der unbekannten Charakteristik wenigstens ein Satz von neuen Aktuatorparametern ermittelbar und/oder abspeicherbar ist.
3. Steuerungsvorrichtung nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß die Steuerungseinheit (2) so ausgebildet ist, daß die in der Steuerungseinheit (2) gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Haltung von redundanten Daten reorganisierbar sind.
4. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der technische Prozeß als durch wenigstens eine Verkehrsampel gesteuertes, durch Fahrzeuge und/oder Fußgänger benutztes Fahrstraßenstück (10; 30) ausgebildet ist, wobei die Aktuatoren als Verkehrsampeln ausgebildet sind und/oder wobei die Sensoren als Verkehrsdichtesensoren (14-19; 36-42) ausgebildet sind.
5. Verfahren zur Steuerung eines durch Aktuatoren beinfluß- baren technischen Prozesses (4; 10; 30), wobei der Prozeß (4; 10; 30) die folgenden Merkmale aufweist: der Prozeß (4; 10; 30) weist wenigstens zwei Charakteristiken innerhalb eines charakteristischen Prozeß- raums auf, der Prozeß (4; 10; 30) weist bei wenigstens einer Charakteristik wenigstens zwei unterschiedliche Prozeßzustände auf, wobei das Verfahren das schleifenartige Wiederholen der folgenden Schritte a) bis c) aufweist: a) Abtasten des momentanen Prozeßzustands mit Sensorsignalen wenigstens eines Sensors (3; 14-19; 36-42) , b) Bestimmen, welche Charakteristik der Prozeß (4; 10;
30) momentan aufweist, und zwar anhand der abgetasteten Sensorsignale, c) Betätigen des Aktuators (3) bzw. der Aktuatoren gemäß dem bestimmten Prozeßzustand unter Anwendung von Ak- tuatorparametern gemäß der anhand der abgetasteten Sensorsignale bestimmten Charakteristik, wobei vor dem Wiederholen der Schritte a) bis c) der Schritt des Abspeicherns je wenigstens eines Satzes von Aktuatorparametern zu wenigstens einer vorbestimmten Cha- rakteristik vorgesehen ist.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß für den Fall, daß zu einer anhand der abgetasteten Sen- sorsignale bestimmten Charakteristik keine Aktuatorparameter vorhanden sind, anhand der abgetasteten Prozeßzustände zu dieser als unbekannt bestimmten Charakteristik wenigstens ein Satz von neuen Aktuatorparametern ermittelt wird.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Satz von neuen Aktuatorparametern abgespeichert wird.
8. Verfahren nach Anspruch 6 oder Anspruch 7, dadurch gekennzeichnet, daß bei dem Ermitteln eines Satzes von neuen Aktuatorparametern ein insbesondere heuristisches Lernverfahren verwendet wird.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß als Ausgangspunkt für das Lernverfahren ein Satz von Aktuatorparametern einer bekannten Charakteristik verwendet wird.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß als Ausgangspunkt für das Lernverfahren ein Satz von Aktuatorparametern einer der als unbekannt bestimmten Cha- rakteristik nahekommenden Charakteristik verwendet wird.
11.Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das Lernverfahren unter Anwendung von Iterationsschritten durchgeführt wird, wobei beim Vorliegen einer großen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik das Lernverfahren mit kleineren Iterationsschritten begonnen wird als beim Vorliegen einer kleinen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik.
12. Verfahren nach einem der Ansprüche 6 bis 11, dadurch gekennzeichnet, daß der Schritt des Reorganisierens der in der Steuerungseinheit (2) gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Haltung von redundanten Daten vorgesehen ist.
3. Verfahren nach einem der Ansprüche 5 bis 12, dadurch gekennzeichnet, daß das Verfahren an einem technischen Prozeß ausgeführt wird, der als durch wenigstens eine Verkehrsampel gesteuertes, durch Fahrzeuge oder Fußgänger benutztes Fahrstraßenstück (10; 30) ausgebildet ist, wobei die Aktuatoren als Verkehrsampeln ausgebildet sind und/oder wobei die Sensoren als Verkehrsdichtesensoren (14-19; 36-42) ausge- bildet sind.
PCT/DE2000/002978 1999-09-02 2000-08-31 Steuerungsvorrichtung für eine verkehrsampelkreuzung WO2001018767A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19941854.3 1999-09-02
DE1999141854 DE19941854A1 (de) 1999-09-02 1999-09-02 Steuerungsvorrichtung für eine Verkehrsampelkreuzung

Publications (1)

Publication Number Publication Date
WO2001018767A1 true WO2001018767A1 (de) 2001-03-15

Family

ID=7920570

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2000/002978 WO2001018767A1 (de) 1999-09-02 2000-08-31 Steuerungsvorrichtung für eine verkehrsampelkreuzung

Country Status (2)

Country Link
DE (1) DE19941854A1 (de)
WO (1) WO2001018767A1 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086359A2 (de) * 2000-05-05 2001-11-15 Siemens Aktiengesellschaft Fuzzy-steuerung mit reinforcement-lernverfahren
WO2009083316A1 (de) * 2007-12-27 2009-07-09 Siemens Aktiengesellschaft Verfahren und prüfeinrichtung zum prüfen eines verkehrssteuerungssystems
US8050853B2 (en) 2005-05-18 2011-11-01 Lg Electronics Inc. Providing traffic information including sub-links of links
AT510247A1 (de) * 2010-07-29 2012-02-15 Andreas Dr Kuhn Verfahren zur regelung einer signalanlge
US8332131B2 (en) 2005-05-18 2012-12-11 Lg Electronics Inc. Method and apparatus for providing transportation status information and using it
CN105118308A (zh) * 2015-10-12 2015-12-02 青岛大学 基于聚类强化学习的城市道路交叉口交通信号优化方法
CN110164147A (zh) * 2019-05-24 2019-08-23 南京邮电大学 一种基于改进遗传算法的智能交通信号灯调控方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002530B1 (en) 2017-03-08 2018-06-19 Fujitsu Limited Traffic signal control using multiple Q-learning categories
EP3425608B1 (de) * 2017-07-03 2020-03-25 Fujitsu Limited Verkehrssignalsteuerung mithilfe mehrerer q-learning-kategorien

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4436339A1 (de) * 1994-10-11 1996-04-18 Ifu Gmbh Verfahren zur verkehrsadaptiven Steuerung einer Verkehrsampelanlage
US5544059A (en) * 1993-07-27 1996-08-06 Mitsubishi Denki Kabushiki Kaisha Traffic means controlling apparatus
DE19521927A1 (de) * 1995-06-09 1996-12-12 Inst Automation Und Kommunikat Verfahren und Vorrichtung zur verkehrsabhängigen Grünzeitanpassung in einer Verkehrssignalanlage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544059A (en) * 1993-07-27 1996-08-06 Mitsubishi Denki Kabushiki Kaisha Traffic means controlling apparatus
DE4436339A1 (de) * 1994-10-11 1996-04-18 Ifu Gmbh Verfahren zur verkehrsadaptiven Steuerung einer Verkehrsampelanlage
DE19521927A1 (de) * 1995-06-09 1996-12-12 Inst Automation Und Kommunikat Verfahren und Vorrichtung zur verkehrsabhängigen Grünzeitanpassung in einer Verkehrssignalanlage

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI-XIN WANG: "STABLE ADAPTIVE FUZZY CONTROL OF NONLINEAR SYSTEMS", IEEE TRANSACTIONS ON FUZZY SYSTEMS,US,IEEE INC. NEW YORK, vol. 1, no. 2, 1 May 1993 (1993-05-01), pages 146 - 155, XP000361623, ISSN: 1063-6706 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086359A2 (de) * 2000-05-05 2001-11-15 Siemens Aktiengesellschaft Fuzzy-steuerung mit reinforcement-lernverfahren
WO2001086359A3 (de) * 2000-05-05 2002-06-06 Siemens Ag Fuzzy-steuerung mit reinforcement-lernverfahren
US8050853B2 (en) 2005-05-18 2011-11-01 Lg Electronics Inc. Providing traffic information including sub-links of links
US8332131B2 (en) 2005-05-18 2012-12-11 Lg Electronics Inc. Method and apparatus for providing transportation status information and using it
USRE47239E1 (en) 2005-05-18 2019-02-12 Lg Electronics Inc. Method and apparatus for providing transportation status information and using it
WO2009083316A1 (de) * 2007-12-27 2009-07-09 Siemens Aktiengesellschaft Verfahren und prüfeinrichtung zum prüfen eines verkehrssteuerungssystems
AT510247A1 (de) * 2010-07-29 2012-02-15 Andreas Dr Kuhn Verfahren zur regelung einer signalanlge
EP2418632B1 (de) * 2010-07-29 2016-07-20 Andreas Kuhn Verfahren zur Regelung einer Signalanlage
AT510247B1 (de) * 2010-07-29 2023-01-15 Dr Kuhn Andreas Verfahren zur regelung einer signalanlage
CN105118308A (zh) * 2015-10-12 2015-12-02 青岛大学 基于聚类强化学习的城市道路交叉口交通信号优化方法
CN110164147A (zh) * 2019-05-24 2019-08-23 南京邮电大学 一种基于改进遗传算法的智能交通信号灯调控方法

Also Published As

Publication number Publication date
DE19941854A1 (de) 2001-04-05

Similar Documents

Publication Publication Date Title
EP1920268B1 (de) Verfahren für die erfassung eines verkehrsraums
DE3820589C2 (de) Verfahren und Steuervorrichtung zum selbsttätigen Steuern eines Landfahrzeuges
DE10354322A1 (de) Verfahren und System zur Ermittlung der Fahrsituation
DE102010020047A1 (de) Verfahren zur Anpassung eines für ein Abstandsregelsystem eines Fahrzeugs vorgegebenen Soll-Abstandes an eine momentane Verkehrssituation
DE102005052510A1 (de) Fahrzeug-Steuer-/Regelobjekt-Bestimmungssystem
DE102016106983A1 (de) Verfahren zum Erkennen eines möglichen Spurwechselmanövers eines Zielfahrzeugs, Steuereinrichtung, Fahrerassistenzsystem sowie Kraftfahrzeug
DE102014003343A1 (de) Verfahren zum Ermitteln eines Spurwechselbedarfs eines Systemfahrzeugs
DE102014009415A1 (de) Querführungssystem zur adaptiven automatisierten Querführung eines Fahrzeugs
WO2001018767A1 (de) Steuerungsvorrichtung für eine verkehrsampelkreuzung
DE102018212033A1 (de) Verfahren und Steuergerät zum Bestimmen einer Fahrttrajektorie für ein querdynamisches Fahrmanöver für ein Fahrzeug
EP1803622A1 (de) Verfahren für die Steuerung eines Fahrerassistenzsystems
EP3279049B1 (de) Steuerungs-system und steuerungs-verfahren zum bestimmen einer fahrbahn
AT519547B1 (de) Vorrichtung und Verfahren zur prädiktiven Steuerung der Geschwindigkeit eines Fahrzeugs
EP3770879A1 (de) Verfahren, vorrichtung und computerprogramm zum aufbereiten von daten über eine ampelanlage
DE4204047C2 (de) Verfahren und Vorrichtung zur Positionierung eines Stellers in einem Kraftfahrzeug
DE102016203522B4 (de) Verfahren und Vorrichtung zum Vorhersagen von Trajektorien eines Kraftfahrzeugs
DE102021201677B3 (de) Verfahren und Fahrerassistenzsystem zum Unterstützen eines Kraftfahrzeugs beim Durchführen einer Kurvenfahrt
EP3947075B1 (de) Fahrsystem und verfahren zum auswählen einer handlungsoption für ein automatisiertes kraftfahrzeug
WO2021023549A1 (de) Verfahren zum automatisierten einfädeln eines fahrzeugs
EP3802257B1 (de) Steuerung eines kraftfahrzeugs
EP2254104B1 (de) Verfahren zum automatischen Erkennen einer Situationsänderung
DE19601831C5 (de) Verfahren zur Erkennung von relevanten Objekten
WO2001086359A2 (de) Fuzzy-steuerung mit reinforcement-lernverfahren
DE10025039C2 (de) Verfahren zur Ermittlung von Verkehrsregelungsphasendauern
EP0813986B1 (de) Verfahren zur Abstandsregelung für ein Fahrzeug

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP