WO2001086610A1 - Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem - Google Patents

Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem Download PDF

Info

Publication number
WO2001086610A1
WO2001086610A1 PCT/DE2001/000075 DE0100075W WO0186610A1 WO 2001086610 A1 WO2001086610 A1 WO 2001086610A1 DE 0100075 W DE0100075 W DE 0100075W WO 0186610 A1 WO0186610 A1 WO 0186610A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
space
frame signal
action
fuzzy
Prior art date
Application number
PCT/DE2001/000075
Other languages
English (en)
French (fr)
Inventor
Martin Appl
Rudolf Sollacher
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2001086610A1 publication Critical patent/WO2001086610A1/de

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/0275Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using fuzzy logic only
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Definitions

  • the invention relates to a method, a device for determining an optimized selection of a frame signal plan from a set of several frame signal plans for a traffic system, and a control device.
  • a control device is known from [5] in which the traffic lights present in the traffic system are controlled as a function of the determined states of a traffic system.
  • a traffic system in which traffic parameters, for example the occupancy of the traffic system, are recorded by sensors, is controlled by means of a central control computer by controlling traffic lights of the traffic system.
  • control variables i.e. The activation of the green phase, the yellow phase and the red phase takes place directly as a function of a control strategy which is determined by means of a reinforcement learning process as a function of the determined traffic parameters.
  • a particular disadvantage of this procedure is that control with a known reinforcement learning method can only be learned for a very simple traffic system, ie a very simple traffic network. In a more complex traffic system, a common reinforcement learning process does not converge. If a more complex traffic system is to be controlled, this is not possible because of the complexity of the problem, which can no longer be simulated, in particular with the method known from [5].
  • a fuzzy control device is also known from [1].
  • the reinforcement learning process is carried out according to the principle of so-called "prioritized sweeping *, which is also described in [3].
  • Partitioning of the continuous space is required, which results in a great complexity of the discrete problem to be solved, with the resulting very large computing time requirement and the associated considerable storage space requirement in the context of the control of a technical system.
  • the invention is therefore based on the problem of being able to control a more complex traffic system using a reinforcement learning method than is possible with the known method.
  • the traffic system In a method for computer-aided determination of an optimized selection of a frame signal plan from a set of several frame signal plans for a traffic system, the traffic system is described with a status area and an action area.
  • the state space has states that the traffic system can assume and the action space has actions that are carried out in order to produce a state transition from a previous state of the state space to a subsequent state of the state space.
  • a state of the state space is one or more measured values in the traffic system, ie one or more traffic parameters, for example one or more traffic densities, which are detected by sensors or also simulated.
  • a reinforcement learning process is carried out taking into account, that is to say using the action space and the state space, whereby a selection variable is determined in each case, which is used for a state of the state space and / or for an action of the action space to indicate which frame signal plan with regard to the reinforcement learning process is to be selected as the optimal framework signal plan.
  • the optimal frame signal plan can be selected and depending on the frame signal plan selected that can
  • Traffic system can be controlled, for example by controlling traffic lights of the traffic system with control signals from the control device depending on the selected frame signal plan.
  • a mapping is learned from the state space into the action space using the reinforcement learning process, i.e. he will learn a traffic-dependent selection of frame signal plans.
  • a traffic system can be controlled using a reinforcement learning method during a training phase, by means of which the behavior of the traffic system is modeled during the training phase, the control taking place on the abstraction level of the frame signal plans and not directly on that Basis for the direct control of the individual traffic lights without clear global framework conditions, such as frame signal plans, as in the state of the art.
  • a reinforcement learning method during a training phase, by means of which the behavior of the traffic system is modeled during the training phase, the control taking place on the abstraction level of the frame signal plans and not directly on that Basis for the direct control of the individual traffic lights without clear global framework conditions, such as frame signal plans, as in the state of the art.
  • the mapping determined by the reinforcement learning process from the state space into the action space Determining the optimal action is used in the application phase to control the traffic system.
  • the level of the frame signal plans is very well suited for controlling even a more complex traffic system with basically any number of streets, intersections, traffic lights, etc.
  • any known reinforcement learning method can be used in the context of the invention to determine the mapping from the state space into the action space, by means of which the optimal selection of a frame signal plan depending on the respectively recorded traffic state, i.e. the recorded traffic parameters, for example the traffic densities, is determined.
  • the technical system is described with a continuous state space and a continuous or discretized action space.
  • the state space has states that the technical system can basically assume.
  • the action space has actions that are carried out in order to generate a state transition from a previous state of the state space to a subsequent state of the state space.
  • a model of the technical system is determined and grouped into fuzzy partitions by forming fuzzy membership functions to the fuzzy partitions with which at least the state space is described.
  • the training data thus clearly describe the observed state transitions of the traffic system and the associated profits.
  • the action space is, for example, a predetermined set of frame signal plans, one of which can be selected on the basis of an action.
  • a reinforcement learning process is carried out using the fuzzy membership functions, whereby a control strategy is determined for each state of the state space and the respective actions of the action space, i. E. H . an optimal action per state is determined.
  • the technical system is selected using control variables that are selected or, for example, dependent on the control strategy. be formed, controlled.
  • the individual partitions are also referred to below as clusters.
  • a model of the traffic system is determined using training data that describe the traffic system.
  • the reinforcement learning process is carried out taking the model into account.
  • a Q value can be determined for each state of the state space and the corresponding actions of the action space.
  • An optimal control strategy is derived from the determined Q values.
  • control strategy can be determined quickly and precisely, which reflects the model very precisely.
  • the reinforcement learning method is carried out by selecting from the training data those training data which meet a predetermined criterion.
  • the criterion can be an expected information gain about the conditional state transition probabilities within the reinforcement learning process.
  • the invention can advantageously be used in general for controlling a traffic system as a technical system, in particular for controlling, i.e. to select a frame signal plan for controlling traffic lights within a transport network.
  • a frame signal plan can be selected on the basis of the control strategy and, based on the selected frame signal plan, corresponding control signals can be transmitted to traffic lights of a traffic network which control the traffic lights according to the selected frame signal plan.
  • counters are provided with which the number of executions of actions in a state of the technical system and the number of state transitions from an initial state, i. H . a previous state is specified in a successor state based on the action up to the iteration.
  • the values assigned to the counters are dependent on the degree of belonging to the states or. the state transitions to the respective fuzzy clusters have been updated.
  • the state transition probabilities can be determined as part of the reinforcement learning process depending on the counters.
  • fuzzy partitions are formed at the beginning of the method, in that in an iterative method, starting from a predetermined number of output partitions, these are divided into several fuzzy partitions or merged from several fuzzy partitions into one fuzzy Partition, depending on the determined training data.
  • the fuzzy partitions can be formed in accordance with the fuzzy C means clustering method.
  • the invention can clearly be seen in that, for controlling a technical system, the system description is discretized by means of fuzzy partitions and, accordingly, with fuzzy membership functions, and a control strategy for controlling the technical system is determined in the discretized model using reinforcement learning.
  • a control device has a processor which is set up in such a way that the method steps described above can be carried out.
  • a program is stored in a computer-readable storage medium and, when executed, has the method steps of the method described above. Furthermore, a computer program element, when executed by a processor, likewise has the method steps of the method described above.
  • the invention can be implemented both as a computer program, ie in software, and by means of a special electronic circuit, ie in hardware.
  • Figure 1 is a flowchart in which the individual Ner procedural steps of the method according to a
  • Figure 2 is a sketch of a transport network, based on the
  • FIG. 3 shows a sketch of a central control computer which is coupled to individual sensors in the traffic network
  • Figures 4a to 4d a variety of signal images according to different frame signal plans for different
  • Figure 5 is a sketch of a frame signal
  • FIG. 6 shows fuzzy partitions and their membership functions
  • FIGS 7a and 7b representations of different clusters.
  • FIG. 2 shows a traffic network 200, on the basis of which the training and the selection of a traffic-dependent selection of a frame signal plan from a plurality of stored frame signal plans is explained below.
  • the traffic network 200 has a first road 201 that leads from a residential area 202 to a commercial area 203.
  • the residential area 202 is located in the west of a city 204 and the commercial area 203 is in the east of the city 204.
  • a second street 205 leads from a first shopping area 206 located in the north of the city 204 to one second shopping area 207 with a leisure center, which is located in the south of the city 204.
  • the first street 201 and the second street 205 cross each other at a first intersection 208.
  • the traffic network 200 has a third road 209, which extends from the first road 201 from a second intersection 210 to a third intersection 211, which is located on the second road 205.
  • the third street 209 therefore represents a diagonal connection from the first street 201 to the second street 205, the second intersection 210 being west of the first intersection 208, that is to say the second intersection 210 is closer to the residential area 202 than to the commercial area 203rd
  • a fourth street 212 leads from the third
  • Junction 213 is located on the first street 201 east of the first intersection 208, that is closer to the commercial area 203 than to the residential area 202.
  • traffic lights are provided for each direction that a vehicle can travel on the road, which control the flow of traffic at the respective intersection 208, 210, 211, 213.
  • the traffic lights are controlled by a central control unit described below.
  • sensors 215 are provided on the streets, with which the number of vehicles passing the sensor or traveling over the sensor can be detected.
  • Such a sensor 215 can be, for example
  • sensor 215 Every time a vehicle passes sensor 215, sensor 215 transmits a detection signal to a central computer 301 described below.
  • a counter can also be provided in the sensor 215, the counter being incremented for a predetermined period of time for each vehicle passing the sensor 215, and after the predetermined period of time has elapsed, the counter reading is transmitted to the central control computer 301 and the counter is then changed to preset counter status reset.
  • a main traffic direction occurs from the residential area 202 to the first shopping area 206 and the second shopping area 207, the flow of traffic corresponding to a shopping traffic of the residents of the city 204.
  • the afternoons i.e. essentially between 12:00 p.m. and 4:00 p.m.
  • rush-hour traffic mainly directed from commercial area 203 to residential area 202.
  • the main traffic between the residential area 202 and the leisure center is recorded in the second shopping area 207.
  • sensors 215 detect sensor occupancy B, which is defined as the time in which sensor 215 is occupied in relation to the time period during which occupancy is detected.
  • the sensor assignment B can be, for example, by means of an induction loop
  • Sensor 215 can be determined.
  • the traffic density p can be measured.
  • the occupancy B which is usually similar to the traffic density p, is thus obtained on a sensor 215 in accordance with the following regulation:
  • Tfc the time during which the sensor is occupied, i.e. during which a vehicle is above the sensor
  • T is the time period during which the number m of vehicles is determined.
  • the average occupancy B of the sensor 215 is determined on each sensor 215 for a time period t of 15 minutes and then the average occupancy B determined according to regulation (1) is applied to the further described central control computer 301 transmitted.
  • FIG. 3 shows the central control computer 301, which is coupled to the sensors 215, for example via a radio connection or a wired connection 302.
  • the control computer 301 has an input / output interface 303 as well as a central processor unit 304 and a memory 305, which are each coupled to one another via a computer bus 306.
  • a computer mouse 308 is coupled to the control computer 301 via a cable or an infrared radio link.
  • a screen 310 is coupled to the input / output interface 303 via a second connection 309.
  • a keyboard 312 is coupled to the input / output interface 303 via a third connection 311.
  • a plurality of frame signal plans 313 are stored in the memory 305 of the control computer 301.
  • the plurality of frame signal plans 313 is shown in the following table, with AI, A2, B1, B2, B3, Cl, C2, D1, D2, D3 signal images for the first intersection 208 (B1, B2, B3), the second Intersection 210 (AI, A2), the third intersection 211 (Dl, D2, D3) and the fourth intersection 213 (Cl, C2), as shown in FIG.
  • RSP1, RSP2, RSP3 stored in memory 305 as shown in the following table:
  • a frame signal plan has a set of so-called frame signals, each of which determines a traffic flow, in which time restrictions which states of the light signals acting on this traffic flow are permitted at the traffic lights 214.
  • a period of a light signal 501 of the frame signal 500 has a request area 502 and an extension area 503.
  • local optimization can be carried out with regard to the objectives mentioned below, in particular an optimization of the traffic flow, for example by extending green phases or giving priority to local public transport.
  • the arrows indicate those during the duration, that is, the validity of the respective one Permitted directions of travel of the vehicles shown at the respective intersection.
  • the first frame signal plan RSP1 indicates that a first signal image 401 shown in FIG. 4 a has twice as long a validity period due to the number 60 compared to the second signal image 402 (assigned value number 30).
  • the first signal image 401 and the second signal image 402 each have the same validity period (the same value number 45 is assigned to both signal images 401, 402).
  • the first frame signal plan RSP1 specifies for the first intersection 208 in a third signal image 403, fourth signal image 404 and fifth signal image 405 shown in FIG. B that the third signal image 403 has twice as long validity per period as the fourth signal image 404 and that fifth signal image 405 is not formed at all because of the traffic light switching of traffic light 214 at the first intersection 208 (value number third signal image 403: 60, value number fourth signal image 404: 30, value number fifth signal image 405: 0).
  • the third signal image 403 and the fourth signal image 404 are weighted equally and the fifth signal image 405 is not formed due to the traffic light control (value number third signal image 403: 45, value number fourth signal image 404: 45, value number fifth signal image 405: 0) ,
  • the fifth signal image 405 is weighted considerably more than the third signal image 403 and the fourth signal image 404 (number of values third signal image 403: 20, number of values fourth signal image 404: 20, number of values) due to the traffic lights 214 at the first intersection 208 fifth signal pattern 405: 50).
  • Frame signal plan RSP1 the traffic light circuit of the traffic lights 214 in such a way that the sixth signal image 406 shown in FIG. 4c is weighted half as much, that is to say that it is only half the validity period compared to the eighth signal image 408.
  • the seventh signal image 407 is not generated at all in accordance with the first frame signal plan RSP1 (value number sixth signal image 406: 30, value number seventh signal image 407: 0, value number eighth signal image 408: 60).
  • Signal image 406 and the eighth signal image 408 weighted equally (number of values sixth signal image 406: 45, number of values seventh signal image 407: 0, number of values eighth signal image 408: 45) and according to the third frame signal plan RSP3, the seventh signal image 407 is weighted considerably more than the sixth signal image 406 and the eighth signal image 408 (value number sixth signal image 406: 15, value number seventh signal image 407: 65, value number eighth signal image 408: 10).
  • Frame signal plan RSP1 weights the ninth signal image 409 shown in FIG. 4d twice as strongly, that is, it points the validity period is twice as long as the tenth signal image 410 (number of values ninth signal image 409: 60, number of values tenth signal image 410: 30).
  • the two signal images 409, 410 each have the same period of validity per period (number of values ninth signal image 409: 45, number of values tenth signal image 410: 45).
  • the first frame signal plan RSP1 represents a traffic light switching of the traffic lights 214 in the traffic network 200 which is optimized with respect to rush hour traffic.
  • the second frame signal plan RSP2 weights all connections in the traffic network largely uniformly, so that a good connection, that is to say a good traffic flow, is also possible between the first shopping area and the second shopping area 207 with regard to the respective requirements.
  • the third frame signal plan RSP3 is optimized with regard to the traffic between the residential area 202 and the second shopping area 207 located to the south, that is to say it preferably favors the flow of traffic between the residential area 202 and the second shopping area 207.
  • an optimized selection of the frame signal plans to ensure a maximum gain which according to this exemplary embodiment is used as the sum of the squared mean relative traffic densities per route 1, for example before an intersection, that is to say the gain g of the im further reinforcement learning processes described for Determination of the optimized control strategy, i.e. control strategy, which is formed by the appropriate selection of the frame signal plan RSP1, RSP2, RSP3 in accordance with the reinforcement learning process, which is approximated for the determined traffic densities p, which are approximated with the middle occupancies B. following regulation:
  • the control computer 301 thus clearly has to learn a strategy that minimizes the sum of the profits g.
  • the basic idea of regulation (2) can be seen in the fact that the average traffic density in the traffic network 200 is to be minimized by the selection of the frame signal plans, the quadrature of the terms relating to the individual routes 1 resulting in a homogeneous network state with average traffic densities on all routes 1 is rated better than a situation with very low traffic densities on some routes 1 with congestion on other routes 1 at the same time.
  • this is symbolically represented by representations of individual traffic density profiles 216, 217, 218.
  • the action space can be both continuous and discreet.
  • the technical system has a continuous state space of dimension d. Furthermore, the technical system has a continuous action space A of dimension d or a discrete space U.
  • Conditional probability density functions p (y, x, a) describe the probability of a transition from a state x to a state y when action a is carried out.
  • a gain g (x, a, y) is described when an action a is carried out in the previous state x, if the technical system is in a successor state due to the control y passes due to action a.
  • the state space X is ⁇ in fuzzy partitions with fuzzy membership functions. j. _ w grouped, for which the following applies:
  • the fuzzy partitions are with
  • Action space A is also grouped into fuzzy partitions with membership functions ( U u ] u _ 1 N , for which the following applies:
  • fuzzy C means clustering, as described in [2], can be carried out to form the fuzzy partitions of state space X.
  • the relative traffic density is grouped in an interval from "0 * to" l into four partitions 601, 602, 603, 604, to which membership functions 605, 606, 607, 608 are assigned over a predetermined interval.
  • a first fuzzy membership function 605 describes a very low traffic density "very small”
  • a second fuzzy membership function 606 describes a low traffic density "small”
  • a third fuzzy membership function 607 describes a high traffic density "high”
  • a fourth fuzzy membership function 608 a very high traffic density "very high”.
  • the fuzzy centers and limits of the individual fuzzy membership functions and fuzzy partitions shown in FIG. 6 can alternatively be determined according to the following procedure.
  • the fuzzy clusters are clustered in the state transition space T on the basis of the observed state transitions during a learning phase using training data which are determined from a technical system, for example by measurement or also by simulation of the technical system, in accordance with this exemplary embodiment with the determined traffic densities as training data.
  • Clustering is also performed in the state space using the observed states during the learning phase described above.
  • fuzzy clustering that is to say the formation of the fuzzy partitions with the associated fuzzy membership functions, is immediately the fuzzy partitions of the state space X, which are used in the reinforcement learning method described below and the control strategy resulting therefrom.
  • the clusters in the state transition space serve as a compact description of the observed state transitions from which the model, that is, the conditional ones
  • clusters in the state transition space are used to determine optionally described splitting and clustering described below during the formation of the fuzzy partitions as part of the incremental method.
  • the middle cluster 701 of the three clusters 701, 702, 703 shown in FIG. 7 a would make it possible, when it was split up, to distinguish between these two classes of state transitions in the discretized model in the course of learning.
  • splitting the middle cluster 701 would enable an improved differentiation of these classes in the state transitions.
  • splitting the middle cluster 701 each time would improve the learning process and the fuzzy set of fuzzy partitions formed by the learning process.
  • a corresponding procedure can be achieved according to an optional extension of the procedure by merging individual fuzzy partitions, that is to say clusters, an essentially analogous procedure being selected for merging compared to dividing the partitions.
  • the individual sections of the method for forming the fuzzy partitions that is to say the clustering of the state space X and in the state transition space T, the increase in the accuracy of the clusters in the state space X on account of the clusters in T and finally the derivation of the described discretized model from the clustered state transitions.
  • the clustering of the state space X in fuzzy partitions is used to describe a Q- described below. Function in connection with a reinforcement learning process.
  • the clusters are created in an incremental manner.
  • Each cluster c- is characterized for the respective iteration k by the respective cluster center 1,, K, a counter value M for counting the number of states which have been assigned to the cluster c- on the basis of the preceding method steps, that is to say iterations, and a diagonal matrix ⁇ 1y,, K, which is also referred to below as
  • Scaling matrix is called, by which the size of the respective cluster is determined.
  • a distance dist ⁇ ⁇ x, c • I of a state x e to a cluster c- is given by the following rule:
  • a dimension d achieves a reduction in the size of the respective cluster in the respective dimension d.
  • the maximum distance d ⁇ ax can be specified by the user and usually depends on the initialization diagonal matrix A ⁇ k and the desired size of the initialized clusters.
  • the cluster c ⁇ . 0 s Ck ⁇ , to which the new state _x has the smallest distance, is shifted in a further step in the direction of the newly determined state x ⁇ within the state space X.
  • the step size of the respective shift step is determined by the fuzzy membership function according to the following rule:
  • Mi.Q / , k +, -1 and a new, updated center xi.Q, .k +, .l, of the selected cluster c. result according to the following regulations:
  • a fuzzification value in regulation (24) with the value 2 is used.
  • the aim of the clustering of the state transition space T described below is to generate a compact description of the observed state transitions during the learning phase.
  • this description is used to estimate useful clusters of clusters in state space X and to estimate the average state transition probabilities described above and to estimate the gains g.
  • a cluster c T.'u in the state transition space T is characterized by its cluster centers ⁇ zT u, which result from the following rule:
  • the entirety of the clusters of the state transitions to an action ue U is referred to as C k ' u .
  • the scaling matrix A ' ⁇ has three mutually independent diagonal matrices B T.' k u, k u CTJ, b_ to u, wherein a first diagonal matrix B Tu the jewei • li • ⁇ gene predecessor state, a second diagonal matrix T u
  • the resolution of the clustering in the state transition space T should be selected depending on the resolution of the clustering in the state space X.
  • the size of the cluster cT ' u in the direction X ' it has proven to be advantageous for the size of the cluster cT ' u in the direction X 'to be half the size of the cluster c, and
  • the scaling matrices A. ',. , A. ". depend on the number IQK i ⁇ / the division of the clusters c, and c. "up to the 0 1 0
  • the third diagonal matrix is chosen constant, for example according to the following rule:
  • the maximum state transition distance d m T ax can, but need not, have the same value as the maximum distance with regard to state space X.
  • each state transition in state transition space T is explicitly stored in the memory of control computer 301.
  • State transition space T exist, both of which have a high membership value vj. - to the cluster that is to be divided and the centers of which are clearly spaced from one another with respect to the direction X "x5R.
  • a cluster c X. € CX m is divided in the direction of dimension d during an iteration k if the value v d i 1 kl c i) ' cer 9 "is formed according to the following rule:
  • v dk (c ⁇ ): ax max vg. ⁇ A &)> v in . (42) ; usü, u r T, u pr T, u ü , j , i , k ⁇ ⁇ ; c j ' c l eL k
  • Vd 1, ..., d ⁇ d 0 ,: 57
  • Dimension dg is halved, which means that in terms of size, that is, the scaling matrix of the new clusters c X and cX. » the following
  • fuzzy partitioning of state space X can in principle be chosen as precisely as desired, if each Splitting a cluster leads to a more precise internal model description.
  • creating clusters can be limited in two ways.
  • a maximum number of divisions that can be applied to a cluster can be specified.
  • the threshold v with which the division of the clusters is controlled can be increased in accordance with the number of existing clusters .XI.
  • Action u in state c X results in a state transition that is described by cluster c T-Xu.
  • the average probability Pi, j, k ( u ) of a state transition from a previous state c X! J to a successor state cX can be formed by an approximate J probability Pi, j, k ( u ) 'according to the following rule:
  • State transition space is divided into at least two or more clusters if it can be seen from the clustered state transitions that by dividing different groups of state transitions, for example, different successor states and / or different profits are generated which can be distinguished from one another.
  • Storage namely a very good partitioning of the state space and the counting of state transitions, that is to say a very compact representation of a model of the technical system, can be combined according to the procedure described above.
  • a reinforcement learning process described below is carried out using determined training data and the fuzzy partitions determined in the manner described above, that is to say the fuzzy clusters.
  • the fuzzy partitions determined in the manner described above, that is to say the fuzzy clusters.
  • model-based reinforcement learning is to carry out a maximum likelihood estimate of the model of the system to be controlled at the beginning of the learning process and the optimized control strategy, i.e. the optimized control by selecting control variables (indirectly) based on the previously determined model description to train.
  • a maximum likelihood estimate of the model of the technical system is made on the basis of discrete counters with which the number of actions carried out and the resulting state transitions and on the basis of variables for the observed gains.
  • r ⁇ ⁇ denotes the average profit that is obtained if, in the previous state X j _, the successor state Xj is assumed in the state space X due to the execution of the action A u .
  • the profit r? is the result of the following rule:
  • An estimate of the respective profit r. •, that is an estimated profit f. •, is determined according to the following update rule:
  • an optimal control strategy can be determined according to the reinforcement learning process.
  • Q (X, a) denotes the true, continuous Q value in the context of the reinforcement learning process, which is formed according to the following rule:
  • the continuous Q values Q (X, a) are linearized by a so-called Takagi-Sugeno-Fuzzy system, as described in [3]
  • rule (79) can be written as the following rule:
  • Q- can be determined by determining the fixed point solution of the systems of equations (78) with the estimates p .. of the average conditional ones
  • Update mechanism can also be used for the approach provided in accordance with this exemplary embodiment of the invention using fuzzy partitions as part of the reinforcement learning method.
  • the constant terms Q are determined by solving the Bellmann equation (78).
  • the associated partial derivatives Q- ⁇ and Q.l can be determined by averaging and partial derivatives of the gain function and the conditional state transition probabilities.
  • the partial derivatives Q are formed according to the following rule:
  • Gain function g can be adjusted by adjusting the parameters r. 0 iuj 'f. I., f.1. and r.
  • the following linear function can be estimated depending on the profits in the vicinity of the cluster centers J_, a u , X j ), according to the following
  • step size ⁇ u j, k ' is selected depending on the degree of belonging of an observed state transition to a cluster center and is reduced over time.
  • the average conditional probabilities p. (U) can be estimated according to regulation (71).
  • the average partial derivatives P j _ ⁇ and P j _ ⁇ can be approximated according to the following rules:
  • N. -y denotes a counter with which the number of
  • Execution of an action A u is counted in a fuzzy state that arises when state Xj_ is shifted along dimension 1 by a predeterminable value ⁇ .
  • VI 1,, d A (F) M °. ⁇ - M °. + ⁇ ⁇ (x k ) ⁇ A (a k ), ⁇ ⁇ (x k + 1 ) ⁇ u k ⁇ l u U k kjD 'i - ; u U k ⁇ -k X V -K +
  • the optimal control strategy that is to say the optimal selection of a frame signal plan based on the determined, measured relative traffic density at the respective sensors 215, generally formulated as an optimal control strategy ⁇ : X-A, is achieved in that the action a is selected in the respective state x , that is, for example, according to the exemplary embodiment that frame signal plan is selected that promises a profit according to regulation (79) that is maximum, that is to say the following applies:
  • a model-based exploration strategy is provided.
  • Executing an action in a state of state space X is very likely to result in a high information gain if a large immediate gain of information can be expected due to the execution of the action A u , or if the technical system to be controlled is based on the Action passes into states in which a large amount of information can be expected.
  • An estimated A value ⁇ _ u is then derived, with which the expected immediate information gain is designated, which results from future executions of the action A u in the state Xi. Finally, an overall attractiveness A ⁇ u is determined recursively on the basis of the _ u .
  • Immediate information gain can be measured by the amount of knowledge the learning system obtains about the state transition probabilities between the fuzzy partitions based on observing a state transition.
  • the change in the probabilities is scaled with an upper limit, which is formed according to ⁇ ⁇ (x k ) ⁇ A (a k ), in order to make the measure of the immediate information gain independent of the position of (x, a k ) within the respective fuzzy partition.
  • the immediate attractiveness is described as a quotient of the weighted sum of the immediate information gains and the sum of the weights, that is, the immediate attractiveness ⁇ results according to the following rule:
  • Vj 1, ..., N (ii) Calculate the immediate information gain resulting from the state transition:
  • a first step data about the technical system, in the case of a traffic network 200, the respective traffic density at a sensor point is determined by means of a sensor (step 101).
  • fuzzy partitions of the state space and / or the action space are determined (step 102).
  • a reinforcement learning process is carried out using the determined data on the technical system and using the determined fuzzy partitions (step 103).
  • step 104 an optimal control strategy is ascertained in the manner described above in accordance with the reinforcement learning method, that is to say an optimal starting value is ascertained, with which frame signal value is to be selected for the respective iteration (step 104) ,
  • step 105 the optimal frame signal plan determined according to the reinforcement learning method is selected, read out and dependent on the frame signal plan the traffic lights 214 are controlled at the respective intersections, i.e. generally the technical system to be controlled, taking into account the selected optimized control strategy and the selected frame signal plan (step 106).

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

Ein Verkehrssystem wird unter Verwendung eines Reinforcement-Lernverfahrens gesteuert, wobei die Steuerung auf der Abstraktionsebene der Rahmensignalpläne erfolgt.

Description

VERFAHREN UND VORRICHTUNG ZUM ERMITTELN EINER OPTIMIERTEN AUSWAHL EINES RAHMENSIGNALPLANS AUS EINER MENGE MEHRERER RAHMENSIGNALPLÄNE FÜR EIN VERKEHRSSYSTEM
Die Erfindung betrifft ein Verfahren, eine Vorrichtung zum Ermitteln einer optimierten Auswahl eines Rahmensignalplans aus einer Menge mehrerer Rahmensignalpläne für ein Verkehrssystem, sowie eine Steuervorrichtung.
Aus [5] ist eine Steuervorrichtung bekannt, bei der in Abhängigkeit von den ermittelten Zuständen eines Verkehrssystems die in dem Verkehrssystems vorhandenen Ampeln gesteuert werden.
Bei dieser Vorgehensweise wird ein Verkehrssystem, bei dem mittels Sensoren Verkehrskenngrößen, beispielsweise die Belegung des Verkehrssystem, erfasst werden, mittels eines zentralen Steuerrechners gesteuert, indem Ampeln des Verkehrssystems gesteuert werden.
Die Steuergrößen, d.h. die Ansteuerung der Grünphase, der Gelbphase sowie der Rotphase erfolgt unmittelbar abhängig von einer Steuerungsstrategie, die mittels eines Reinforcement- Lernverfahrens abhängig von den ermittelten Verkehrskenngrößen ermittelt wird.
Nachteilig an dieser Vorgehensweise ist insbesondere, dass eine Steuerung mit einem bekannten Reinforcement- Lernverfahren nur für ein sehr einfaches Verkehrssystem, d.h. ein sehr einfaches Verkehrsnetz gelernt werden kann. Bei einem komplexeren Verkehrssystem konvergiert ein übliches Reinforcement-Lernverfahren nicht. Soll ein komplexeres Verkehrssystem gesteuert werden, so ist dies somit aufgrund der nicht mehr simulierbaren Komplexität des Problems insbesondere mit dem aus [5] bekannten Verfahren nicht möglich.
Ferner ist eine Fuzzy-Steuervorrichtung aus [1] bekannt.
Bei der aus [1] bekannten Fuzzy-Steuervorrichtung wird ein zu beschreibendes und zu steuerndes technisches System als Fuzzy-System und mit Fuzzy-Partitionen beschrieben.
Aus [4] ist es ferner bekannt, ein zu beschreibendes und zu steuerndes technisches System , welches ursprünglich mit einem kontinuierlichen Zustandsraum und einem kontinuierlichen Aktionsraum beschrieben wird, diskretisiert und mittels eines Reinforcement-Lernverfahrens gesteuert.
Auf der Basis des diskretisierten Zustandsraums und des diskretisierten Aktionsraums wird das Reinforcement- Lernverfahren gemäß dem Prinzip des sogenannten „Prioritized Sweeping*, welches ferner in [3] beschrieben ist, durchgeführt.
Die aus [3] oder [4] bekannten Vorgehensweise hat insbesondere den Nachteil, dass entweder eine sehr feine
Partitionierung des kontinuierlichen Raums erforderlich ist, woraus sich eine große Komplexität des zu lösenden diskreten Problems mit dem daraus resultierenden sehr großen Rechenzeitbedarf und dem damit ferner verbundenen erheblichen Speicherplatzbedarf im Rahmen der Steuerung eines technischen Systems ergibt.
Ist die Partitionierung jedoch gröber, so wird die Approximation des zu steuernden technischen Systems sehr ungenau. Dies führt zu einer suboptimalen, das heißt zu einer relativ schlechten Steuerstrategie, die gemäß dem Reinforcement-Lernen ermittelt wird. Um die erreichbare Approximationsgenauigkeit zu verbessern, ist es aus [4] bekannt, eine Interpolationsstrategie zu verwenden, was grundsätzlich dem Einsatz eines sogenannten, in [1] beschriebenen Takagi-Sugeno-Systems mit konstanten Konsequenzen in den Regeln entspricht.
Bei dem aus [4] bekannten Verfahren wird jedoch zum Training der Werte in den Zentren des Interpolationsschemas eine harte Partitionierung des Zustandsraums und des Aktionsraums durchgeführt, weshalb sich wieder die oben zuvor dargestellten Nachteile ergeben.
Weiterhin ist es aus [2] bekannt, Fuzzy-Partitionen mittels eines Fuzzy-C-Means-Clustering-Verfahrens zu bestimmen.
Somit liegt der Erfindung das Problem zugrunde, ein komplexeres Verkehrssystem unter Einsatz eines Reinforcement- Lernverfahrens steuern zu können, als dies mit dem bekannten Verfahren möglich ist.
Bei einem Verfahren zum rechnergestützten Ermitteln einer optimierten Auswahl eines Rahmensignalplans aus einer Menge mehrerer Rahmensignalpläne für ein Verkehrssystem wird das Verkehrssystem mit einem Zustandsraum und einem Aktionsraum beschrieben. Der Zustandsraum weist Zustände auf, die das Verkehrssystem annehmen kann und der Aktionsraum weist Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen.
Eine Aktion des Aktionsraums ist beispielsweise die Auswahl eines Rahmensignalplans zu sehen. Ferner ist ein Zustand des Zustandsraums ein oder mehrere Messwerte in dem Verkehrssystem, d.h. eine oder mehrere Verkehrskenngrößen, beispielsweise eine oder mehrere Verkehrsdichten, die von Sensoren erfasst werden oder auch simuliert werden. Ein Reinforcement-Lernverfahren wird unter Berücksichtigung, d.h. unter Verwendung des Aktionsraums und des Zustandsraums durchgeführt, wodurch jeweils eine Auswahlgröße ermittelt wird, mit der für einen Zustand des Zustandsraums und/oder für eine Aktion des Aktionsraums angegeben wird, welcher Rahmensignalplan hinsichtlich des Reinforcement- Lernverfahrens als optimaler Rahmensignalplan auszuwählen ist. Der optimale Rahmensignalplan kann ausgewählt werden und abhängig von dem ausgewählten Rahmensignalplan kann das
Verkehrssystem gesteuert werden, beispielsweise indem Ampeln des Verkehrssystems mit Steuersignalen von der Steuervorrichtung gesteuert wird abhängig von dem ausgewählten Rahmensignalplan.
In anderen Worten ausgedrückt wird mittels des Reinforcement- Lernverfahrens eine Abbildung aus dem Zustandsraum in den Aktionsraum gelernt, d.h. er wird eine verkehrsabhängige Auswahl von Rah ensignalplänen gelernt.
Anschaulich kann die Erfindung darin gesehen werden, dass ein Verkehrssystem gesteuert werden kann unter Verwendung eines Reinforcement-Lernverfahrens während einer Trainingsphase, mittels dem das Verhalten des Verkehrssystems während der Trainingsphase modelliert wird, wobei die Steuerung auf der Abstraktionsebene der Rahmensignalpläne erfolgt und nicht unmittelbar auf der Basis der direkten Steuerung der einzelnen Ampeln ohne anschaulich globale Rahmenbedingungen, wie durch Rahmensignalpläne, wie gemäß dem Stand der Technik. Es ist in diesem Zusammenhang anzumerken, dass selbstverständlich auch in der Anwendungsphase, d.h. beim tatsächlichen Steuern des Verkehrssystems, weiter online trainiert wird mittels eines Reinforcement-Lernverfahrens.
Die durch das Reinforcement-Lernverfahren ermittelte Abbildung aus dem Zustandsraum in den Aktionsraum zum Ermitteln der optimalen Aktion wird in der Anwendungsphase eingesetzt zum Steuern des Verkehrssystems.
Es wurde erfindungsgemäß erkannt, dass die Ebene der Rahmensignalpläne sich sehr gut eignet, um selbst ein komplexeres Verkehrssystem mit grundsätzlich einer beliebigen Anzahl von Straßen, Kreuzungen, Ampeln, etc. zu steuern.
Allgemein kann jedes bekannte Reinforcement-Lernverfahren im Rahmen der Erfindung eingesetzt werden zum Ermitteln der Abbildung aus dem Zustandsraum in den Aktionsraum, mittels der in der Anwendungsphase die optimale Auswahl eines Rahmensignalplans abhängig von dem jeweils erfassten Verkehrszustand, d.h. den erfassten Verkehrskenngrößen, beispielsweise den Verkehrsdichten, ermittelt wird.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Bei einem Verfahren zum rechnergestützten Verfahren Ermitteln einer Steuerungsstrategie für ein technisches System wird das technische System mit einem kontinuierlichen Zustandsraum und einem kontinuierlichen oder diskretisierten Aktionsraum beschrieben. Der Zustandsraum weist Zustände auf, die das technische System grundsätzlich annehmen kann. Ferner weist der Aktionsraum Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen. Mit Trainingsdaten, die das technische System beschreiben, wird ein Modell des technischen Systems ermittelt und in Fuzzy- Partitionen gruppiert, indem Fuzzy-Zugehörigkeitsfunktionen zu den Fuzzy-Partitionen gebildet werden, mit denen zumindest der Zustandsraum beschrieben wird.
Die Trainingsdaten beschreiben somit anschaulich die beobachteten Zustandsübergänge des Verkehrssystems und die zugehörigen Gewinne. Der Aktionsraum ist beispielsweise eine vorgegebene Menge von Rahmensignalpläne, von denen j eweils einer aufgrund einer Aktion ausgewählt werden kann .
Unter Verwendung der Fuzzy-Zugehörigkeitsfunktionen wird ein Reinforcement-Lernverfahren durchgeführt , wodurch j eweils eine Steuerungsstrategie ermittelt wird für j eden Zustand des Zustandsraums und die j eweiligen Aktionen des Aktionsraums , d. h . es wird eine optimale Aktion pro Zustand ermittelt . Das technische System wird unter Berücksichtigung der Steuerungsstrategie mittels Steuergrößen, die beispielsweise abhängig von der Steuerungsstrategie ausgewählt bzw . gebildet werden, gesteuert .
Die einzelnen Partitionen werden im weiteren auch als Cluster bezeichnet .
Durch die Erfindung wird insbesondere erreicht, dass die Approximationsgenauigkeit und damit das Ermitteln der Steuerungsgrößen erheblich beschleunigt, das heißt mit verringertem Rechenzeitbedarf durchführbar wird.
Ferner wird die ermittelte Steuerungsstrategie hinsichtlich des Gewinns als Optimierungsgröße innerhalb des
Reinforcement-Lernverfahrens erheblich gegenüber dem Stand der Technik verbessert.
Auch werden die Anzahl der zur Approximation des technischen Systems erforderlichen Partitionen, insbesondere die zur Beschreibung der Partitionen verwendeten Zentren einer Partition erheblich verringert.
Aufgrund der Verringerung der benötigten Anzahl an Partitions-Zentren wird eine schnellere Berechnung der Q- Funktion im Rahmen des Reinforcement-Lernverfahrens bei höherer Genauigkeit ermöglicht. Ferner wird gemäß einer weiteren Ausgestaltung der Erfindung mit Trainingsdaten, die das Verkehrssystem beschreiben, ein Modell des Verkehrssystems ermittelt. Das Reinforcement- Lernverfahren wird unter Berücksichtigung des Modells durchgeführt.
Für jeden Zustand des Zustandsraums und die entsprechenden Aktionen des Aktionsraums kann jeweils ein Q-Wert ermittelt wird. Aus den ermittelten Q-Werten wird eine optimale Steuerungsstrategie abgeleitet.
Ferner können in den Konklusionen der Fuzzy-Regeln des Fuzzy- Syste s, welches gemäß dem Reinforcement-Lernverfahrens gebildet wird, lineare Terme verwendet werden. Damit beschreibt dieses System die Q-Funktion.
Auf diese Weise wird ein schnell und dennoch exaktes Ermitteln der Steuerungsstrategie möglich, das das Modell sehr genau wiedergibt.
Gemäß einer weiteren Ausgestaltung der Erfindung wird das Reinforcement-Lernverfahren durchgeführt, indem aus den Trainingsdaten diejenigen Trainingsdaten ausgewählt werden, die ein vorgegebenes Kriterium erfüllen.
Anschaulich kann diese Vorgehensweise darin gesehen werden, dass zwar alle Trainingsdaten verwendet werden. Der Zustandsraum wird partitioniert und es werden solche Experimente, d.h. Aktionen, ausgeführt, die das vorgegebene Kriterium erfüllen, d.h. von denen man sich beispielsweise einen Gewinn an Information erwartet.
Auf diese Weise wird eine optimierte Auswahl von Trainingsdaten möglich, wodurch die benötigte Anzahl von Clustern und Cluster-Zentren erreicht. Das Kriterium kann ein zu erwartender Informationsgewinn über die bedingten Zustandsübergangs-Wahrscheinlichkeiten innerhalb des Reinforcement-Lernverfahrens sein.
• Die Erfindung kann vorteilhaft eingesetzt werden allgemein zur Steuerung eines Verkehrssystems als technisches System, insbesondere zur Steuerung, d.h. zur Auswahl eines Rahmensignalplans zur Steuerung von Ampeln innerhalb eines Verkehrsnetzes. Somit kann beispielsweise aufgrund der Steuerungsstrategie ein Rahmensignalplan ausgewählt werden und aufgrund des ausgewählten Rahmensignalplans können entsprechende Steuersignale an Ampeln eines Verkehrsnetzes übermittelt werden, die die Ampeln gemäß dem ausgewählten Rahmensignalplan ansteuern.
Für j ede Fuzzy-Partition im Zustandsraum und/oder in dem Aktionsraum kann ein Informationsgewinn ermittelt werden, der aus früheren Ausführungen von zu dieser entsprechenden Fuzzy- Partition gehörenden Aktionen in die entsprechenden Zustände resultierte .
Gemäß einer weiteren Ausgestaltung der Erfindung sind Zähler vorgesehen, mit denen die Anzahl von Ausführungen von Aktionen in einem Zustand des technischen Systems und die Anzahl von Zustandsübergängen von einem Anfangs zustand, d . h . einen Vorgängerzustand in einen Nachfolgezustand aufgrund der Aktion bis zu der Iteration angegeben wird. Die den Zählern zugeordneten Werte werden bei Ermitteln eines neuen Zustandsübergangs abhängig von dem Grad der Zugehörigkeit der Zustände bzw . der Zustandsübergänge zu den j eweiligen Fuzzy- Clustern aktualisiert .
Die Zustandsübergangs-Wahrscheinlichkeiten können im Rahmen des Reinforcement-Lernverfahrens abhängig von den Zählern ermittelt werden. Ferner werden gemäß einer weiteren Weiterbildung der Erfindung zu Beginn des Verfahrens Fuzzy-Partitionen gebildet, indem in einem iterativen Verfahren ausgehend von einer vorgegebenen Menge von Ausgangs-Partitionen diese aufgeteilt werden in mehrere Fuzzy-Partitionen oder zusammengeführt werden aus mehreren Fuzzy-Partitionen in eine Fuzzy-Partition, abhängig von den ermittelten Trainingsdaten.
Zu Beginn des Verfahrens können alternativ die Fuzzy- Partitionen gemäß dem Fuzzy-C-Means-Clustering-Verfahren gebildet werden.
Anschaulich kann die Erfindung darin gesehen werden, dass zur Steuerung eines technischen Systems die Systembeschreibung mittels Fuzzy-Partitionen und entsprechend mit Fuzzy- Zugehörigkeitsfunktionen diskretisiert werden und in dem diskretisierten Modell unter Verwenden von Reinforcement- Lernens eine Steuerungsstrategie zum Steuern des technischen Systems ermittelt wird.
Eine Steuervorrichtung weist einen Prozessor auf, der derart eingerichtet ist, dass die oben beschriebenen Verfahrensschritte durchführbar sind.
In einem Computerlesbaren Speichermedium ist ein Programm gespeichert, das bei dessen Ausführung die Verfahrensschritte des oben beschriebenen Verfahrens aufweist. Ferner weist ein Computerprogramm-Element bei dessen Ausführung durch einen Prozessor ebenfalls die Verfahrensschritte des oben beschriebenen Verfahrens auf.
Die Erfindung kann sowohl als Computerprogramm, also in Software, als auch mittels einer speziellen elektronischen Schaltung, also in Hardware, realisiert werden.
Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im weiteren näher erläutert. Es zeigen
Figur 1 ein Ablaufdiagramm, in dem die einzelnen Nerfahrensschritte des Verfahrens gemäß einem
Ausführungsbeispiel der Erfindung dargestellt sind;
Figur 2 eine Skizze eines Verkehrsnetzes, anhand dem ein
Ausführungsbeispiel der Erfindung dargestellt wird;
Figur 3 eine Skizze eines zentralen Steuerrechners, der mit einzelnen Sensoren in dem Verkehrsnetz gekoppelt ist;
Figuren 4a bis 4d eine Vielzahl von Signalbildern gemäß unterschiedlichen Rahmensignalplänen für verschiedene
Kreuzungen des Verkehrsnetzes aus Figur 2;
Figur 5 eine Skizze eines Rahmensignals;
Figur 6 eine Darstellung von Fuzzy-Partitionen und deren Zugehörigkeitsfunktionen;
Figuren 7a und 7b Darstellungen von unterschiedlichen Clustern.
Fig.2 zeigt ein Verkehrsnetz 200, anhand dessen im folgenden das Training und die Auswahl einer verkehrsabhängigen Auswahl eines Rahmensignalplans aus einer Vielzahl gespeicherter Rahmensignalpläne erläutert wird.
Das Verkehrsnetz 200 weist eine erste Straße 201 auf, die von einem Wohngebiet 202 zu einem Gewerbegebiet 203 führt. Das Wohngebiet 202 befindet sich im Westen einer Stadt 204 und das Gewerbegebiet 203 liegt im Osten der Stadt 204.
Eine zweite Straße 205 führt von einem sich im Norden der Stadt 204 befindenden ersten Einkaufsgebiet 206 zu einem zweiten Einkaufsgebiet 207 mit Freizeitzentrum, welches im Süden der Stadt 204 liegt.
Die erste Straße 201 und die zweite Straße 205 kreuzen einander an einer ersten Kreuzung 208.
Weiterhin weist das Verkehrsnetz 200 eine dritte Straße 209 auf, die sich von der ersten Straße 201 aus von einer zweiten Kreuzung 210 bis zu einer dritten Kreuzung 211, die sich an der zweiten Straße 205 befindet, erstreckt. Anschaulich stellt somit die dritte Straße 209 eine Diagonalverbindung von der ersten Straße 201 zu der zweiten Straße 205 dar, wobei die zweite Kreuzung 210 westlich von der ersten Kreuzung 208 liegt, das heißt die zweite Kreuzung 210 liegt näher an dem Wohngebiet 202 als an dem Gewerbegebiet 203.
Weiterhin führt eine vierte Straße 212 von der dritten
Kreuzung 211 zu einer vierten Kreuzung 213, wobei die vierte
Kreuzung 213 auf der ersten Straße 201 östlich von der ersten Kreuzung 208 liegt, das heißt näher an dem Gewerbegebiet 203 als an dem Wohngebiet 202.
An jeder Kreuzung sind für jede Richtung, die ein Fahrzeug auf der Straße fahren kann, Ampeln vorgesehen, die den Verkehrsfluss an der jeweiligen Kreuzung 208, 210, 211, 213, steuern.
Die Ampeln werden von einer im Weiteren beschriebenen zentralen Steuereinheit gesteuert.
Ferner sind auf den Straßen Sensoren 215 vorgesehen, mit dem die Anzahl der an dem Sensor vorbeifahrenden oder über den Sensor fahrenden Fahrzeuge erfasst werden können.
Ein solcher Sensor 215 kann beispielsweise eine
Leiterschleife sein, die in die jeweilige Straße eingebracht ist oder auch eine Lichtschranke oder ein Ultraschallsensor, mit denen jeweils das Vorbeifahren eines Fahrzeugs an dem jeweiligen Sensor in einer vorgegebenen Richtung, für die der Sensor 215 vorgesehen ist, sein.
Jedes Mal, wenn ein Fahrzeug den Sensor 215 passiert, wird von dem Sensor 215 ein Erfassungssignal an einen im weiteren beschriebenen zentralen Rechner 301 übertragen.
Alternativ kann in dem Sensor 215 auch ein Zähler vorgesehen sein, der für eine vorgegebene Zeitdauer für jedes den Sensor 215 passierende Fahrzeug den Zähler inkrementiert wird und nach Ablauf der vorgegebenen Zeitdauer wird der Zählerstand an den zentralen Steuerrechner 301 übermittelt und anschließend wird der Zähler auf einen vorgegebenen Zählerstand zurückgesetzt.
In der Stadt 204 ergeben sich zu unterschiedlichen Tageszeiten unterschiedliche Anforderungen an die Schaltung, d.h. die Steuerung der Ampeln 214, da unterschiedliche Arten von Verkehrsströmen und unterschiedliche Hauptbelastungen zu unterschiedlichen Tageszeiten innerhalb des Verkehrsnetzes 200 auftreten.
So kommt es an einem Morgen eines Tages, das heißt im wesentlichen in einer Zeit von 6.00 Uhr bis 9.30 Uhr, vornehmlich zu Berufsverkehr, der vom Wohngebiet 202 in das Gewerbegebiet 203, das erste Einkaufsgebiet 206 und das zweite Einkaufsgebiet 207 führt.
Vormittags, das heißt im wesentlichen in einer Zeit von 9.30 Uhr bis 12.00 Uhr eines Tages kommt es zu einer Hauptverkehrsrichtung gerichtet von dem Wohngebiet 202 zu dem ersten Einkaufsgebiet 206 und dem zweiten Einkaufsgebiet 207, wobei der Verkehrsfluss einem Einkaufsverkehr der Bewohner der Stadt 204 entspricht. Nachmittags, das heißt im wesentlichen in einer Zeit von 12.00 Uhr bis 16.00 Uhr, kommt es neben dem Einkaufsverkehr wiederum zu Berufsverkehr, hauptsächlich von dem Gewerbegebiet 203 gerichtet zu dem Wohngebiet 202.
Abends, das heißt im wesentlichen in einer Zeit von 16.00 Uhr bis 21.00 Uhr, ist der hauptsächliche Verkehr zwischen dem Wohngebiet 202 und dem Freizeitzentrum in dem zweiten Einkaufsgebiet 207 zu verzeichnen.
Gemäß diesem Ausführungsbeispiel wird von den Sensoren 215 die Sensorbelegung B, die definiert ist als Zeit, in der der Sensor 215 belegt ist im Verhältnis zu der Zeitdauer, während der die Belegung erfasst wird, erfasst. Die Sensorbelegung B kann beispielsweise mittels einer Induktionsschleife als
Sensor 215 ermittelt werden. Alternativ, beispielsweise bei einem Erfassen einer Verkehrskenngröße mittels eines visuellen Sensors, kann die Verkehrsdichte p gemessen werden. Die Belegung B, die zumeist ähnlich ist der Verkehrsdichte p ergibt sich somit jeweils an einem Sensor 215 gemäß folgender Vorschrift:
th Anzahl Fahrzeuge B = X2- « p = X- r (1) t Streckenlänge
wobei mit
• tfc, die Zeit bezeichnet wird, während der der Sensor belegt ist, d.h. während der sich ein Fahrzeug über dem Sensor befindet, und
• t die Zeitdauer bezeichnet wird, während der die Anzahl m der Fahrzeuge ermittelt wird.
Gemäß diesem Ausführungsbeispiel wird jeweils an jedem Sensor 215 für eine Zeitdauer t von 15 Minuten die mittlere Belegung B des Sensors 215 ermittelt und anschließend wird die gemäß Vorschrift (1) ermittelte mittlere Belegung B an den im • weiteren beschriebenen zentralen Steuerrechner 301 übermittelt.
Fig.3 zeigt den zentralen Steuerrechner 301, der mit den Sensoren 215 beispielsweise über eine Funkverbindung oder eine leitungsgebundene Verbindung 302 gekoppelt ist.
Der Steuerrechner 301 weist eine Eingangs-/Ausgangs- Schnittstelle 303 sowie eine zentrale Prozessoreinheit 304 und einen Speicher 305 auf, die jeweils über einen Computerbus 306 miteinander gekoppelt sind.
Ferner ist über die Eingangs-/Ausgangs-Schnittstelle 303 über eine erste Verbindung 307, z.B. über ein Kabel oder eine Infrarot-Funkverbindung eine Computermaus 308 mit dem Steuerrechner 301 gekoppelt.
Über eine zweite Verbindung 309 ist ein Bildschirm 310 mit der Eingangs-/Ausgangs-Schnittstelle 303 gekoppelt.
Ferner ist mit der Eingangs-/Ausgangs-Schnittstelle 303 eine Tastatur 312 über eine dritte Verbindung 311 gekoppelt.
Gemäß diesem Ausführungsbeispiel ist in dem Speicher 305 des Steuerrechners 301 eine Vielzahl von Rahmensignalplänen 313 gespeichert.
Die Vielzahl der Rahmensignalpläne 313 ist in der folgenden Tabelle dargestellt, wobei mit AI, A2, Bl, B2, B3, Cl, C2, Dl, D2, D3 jeweils Signalbilder für die erste Kreuzung 208 (Bl, B2, B3), die zweite Kreuzung 210 (AI, A2), die dritte Kreuzung 211 (Dl, D2, D3) sowie die vierte Kreuzung 213 (Cl, C2), wie sie in Fig. dargestellt sind, bezeichnet werden.
Gemäß dem Ausführungsbeispiel sind drei Rahmensignalpläne
RSP1, RSP2, RSP3 in dem Speicher 305 gespeichert, wie in der folgenden Tabelle dargestellt:
Figure imgf000016_0001
Ein Rahmensignalplan weist eine Menge sogenannter Rahmensignale auf, die jeweils einen Verkehrsstrom bestimmen, in welchen zeitlichen Beschränkungen welche Zustände der auf diesen Verkehrsstrom wirkenden Lichtsignale an den Ampeln 214 erlaubt sind.
Ein Beispiel-Rahmensignal ist in Fig.5 dargestellt. Eine Periode eines Lichtsignals 501 des Rahmensignals 500 weist einen Anforderungsbereich 502 und einen Verlängerungsbereich 503 auf.
Innerhalb dieses zeitlichen Rahmens kann eine lokale Optimierung hinsichtlich der im weiteren genannten Ziele, insbesondere einer Optimierung des Verkehrsstroms, durchgeführt werden, beispielsweise durch Ausdehnung von Grünphasen oder eine Bevorrechtigung des öffentlichen Nahverkehrs .
Innerhalb des Anforderungsbereichs 502 können insbesondere bei anstehendem Verkehr, das heißt bei an der Ampel 214 stehenden oder sich einer jeweiligen Ampel 214 nähernden
Fahrzeugen, Grünphasen der Ampel 214 eingeleitet werden, die innerhalb des Verlängerungsbereichs 504 beendet werden müssen.
In den Fig. a bis Fig.4d sind durch die Pfeile jeweils die während der Dauer, das heißt der Gültigkeit des jeweiligen Signalbildes zulässigen Fahrrichtungen der Fahrzeuge an der jeweiligen Kreuzung dargestellt.
Die Zahlen in der oben dargestellten Tabelle zu einem jeweiligen Signalbild, wie es in den Fig.4a bis Fig.4d dargestellt ist, entsprechen der Dauer der Gültigkeit des jeweiligen Signalbildes pro Periode des jeweiligen Rahmensignalplans .
So gibt beispielsweise der erste Rahmensignalplan RSP1 an, dass ein in Fig.4a dargestelltes erstes Signalbild 401 aufgrund der Zahl 60 verglichen mit dem zweiten Signalbild 402 (zugeordnete Wertezahl 30) eine doppelt so lange Gültigkeitsdauer aufweist.
Gemäß dem zweiten Rahmensignalplan RSP2 und dem dritten Rahmensignalplan RSP3, haben das erste Signalbild 401 und das zweite Signalbild 402 jeweils die gleiche Gültigkeitsdauer (jeweils beiden Signalbildern 401, 402 ist die gleiche Wertezahl 45 zugeordnet) .
Anschaulich bedeutet dies, dass an der zweiten Kreuzung 205 aufgrund der Ampelschaltung die Ampeln 214 derart geschaltet sind, dass der in dem ersten Signalbild 401 bzw. dem zweiten Signalbild 402 dargestellte Verkehrsstrom jeweils in gleicher Gewichtung möglich ist.
Der erste Rahmensignalplan RSP1 gibt für die erste Kreuzung 208 in einem in Fig. b dargestellten dritten Signalbild 403, vierten Signalbild 404 und fünften Signalbild 405 vor, dass das dritte Signalbild 403 doppelt so lange Gültigkeit pro Periode hat wie das vierte Signalbild 404 und dass das fünfte Signalbild 405 aufgrund der Ampelschaltung der Ampel 214 an der ersten Kreuzung 208 gar nicht gebildet wird (Wertezahl drittes Signalbild 403: 60, Wertezahl viertes Signalbild 404: 30, Wertezahl fünftes Signalbild 405: 0) . Gemäß dem zweiten Rahmensignalplan RSP2 sind das dritte Signalbild 403 und das vierte Signalbild 404 gleich gewichtet und das fünfte Signalbild 405 wird aufgrund der Ampelsteuerung nicht gebildet (Wertezahl drittes Signalbild 403: 45, Wertezahl viertes Signalbild 404: 45, Wertezahl fünftes Signalbild 405: 0) .
Gemäß dem dritten Rahmensignalplan RSP3 ist das fünfte Signalbild 405 durch die Ampelschaltung der Ampeln 214 an der ersten Kreuzung 208 erheblich stärker gewichtet als das dritte Signalbild 403 und das vierte Signalbild 404 (Wertezahl drittes Signalbild 403: 20, Wertezahl viertes Signalbild 404: 20, Wertezahl fünftes Signalbild 405: 50).
An der dritten Kreuzung 211 erfolgt gemäß dem ersten
Rahmensignalplan RSP1 die Ampelschaltung der Ampeln 214 derart, dass das in Fig.4c dargestellte sechste Signalbild 406 halb so stark gewichtet wird, das heißt eine verglichen mit dem achten Signalbild 408 nur eine halbe Gültigkeitsdauer aufweist. Das siebte Signalbild 407 wird gemäß dem ersten Rahmensignalplan RSP1 überhaupt nicht erzeugt (Wertezahl sechstes Signalbild 406: 30, Wertezahl siebtes Signalbild 407: 0, Wertezahl achtes Signalbild 408: 60).
Gemäß dem zweiten Rahmensignalplan RSP2 sind das sechste
Signalbild 406 und das achte Signalbild 408 gleich gewichtet (Wertezahl sechstes Signalbild 406: 45, Wertezahl siebtes Signalbild 407: 0, Wertezahl achtes Signalbild 408: 45) und gemäß dem dritten Rahmensignalplan RSP3 ist das siebte Signalbild 407 erheblich stärker gewichtet als das sechste Signalbild 406 und das achte Signalbild 408 (Wertezahl sechstes Signalbild 406: 15, Wertezahl siebtes Signalbild 407: 65, Wertezahl achtes Signalbild 408: 10).
An der vierten Kreuzung 213 wird gemäß dem ersten
Rahmensignalplan RSP1 das in Fig.4d dargestellte neunte Signalbild 409 doppelt so stark gewichtet, das heißt es weist eine doppelt so lange Gültigkeitsdauer auf, als das zehnte Signalbild 410 (Wertezahl neuntes Signalbild 409: 60, Wertezahl zehntes Signalbild 410: 30).
Gemäß dem zweiten Rahmensignalplan RSP2 und dem dritten Rahmensignalplan RSP3 weisen die beiden Signalbilder 409, 410 jeweils eine gleiche Gültigkeitsdauer pro Periode auf (Wertezahl neuntes Signalbild 409: 45, Wertezahl zehntes Signalbild 410: 45) .
Wie aus der oben dargestellten Tabelle ersichtlich ist, stellt der erste Rahmensignalplan RSP1 eine hinsichtlich des Berufsverkehrs optimierte Ampelschaltung der Ampeln 214 in dem Verkehrsnetz 200 dar.
Der zweite Rahmensignalplan RSP2 gewichtet alle Verbindungen in dem Verkehrsnetz weitgehend gleichmäßig, so dass auch zwischen dem ersten Einkaufsgebiet und dem zweiten Einkaufsgebiet 207 eine gute Verbindung, das heißt ein guter Verkehrsfluss hinsichtlich der jeweiligen Anforderungen möglich ist.
Der dritte Rahmensignalplan RSP3 ist hinsichtlich des Verkehrs zwischen dem Wohngebiet 202 und dem südlich gelegenen zweiten Einkau sgebiet 207 optimiert, das heißt es bevorzugt den Verkehrsfluss zwischen dem Wohngebiet 202 und dem zweiten Einkaufsgebiet 207.
Von dem zentralen Steuerrechner 301 wird gemäß dem im weiteren beschriebenen Reinforcement-Lernverfahren unter
Verwendung von Fuzzy-Zugehörigkeitsfunktionen und Fuzzy- Partitionen eine optimierte Auswahl der Rahmensignalpläne zum Gewährleisten eines maximalen Gewinns, der gemäß diesem Ausführungsbeispiel als Summe der quadrierten mittleren relativen Verkehrsdichten pro Strecke 1, beispielsweise vor einer Kreuzung, verwendet wird, das heißt der Gewinn g des im weiteren beschriebenen Reinforcement-Lernverfahrens zur Ermittlung der optimierten Kontrollst ategie, das heißt Steuerungsstrategie, die gebildet wird durch die entsprechende Auswahl des für die ermittelten Verkehrsdichten p, die mit den mittleren Belegungen B angenähert werden, im Zusammenhang mit dem Reinforcement-Lernverfahren optimierte Auswahl des Rahmensignalplans RSP1, RSP2, RSP3 gemäß folgender Vorschrift:
Figure imgf000020_0001
wobei mit
• Pl max die maximal mögliche Verkehrsdichte und mit
• p-|_ die mittlere Verkehrsdichte an der Strecke 1 am Ende einer Periode von 15 Minuten
bezeichnet wird.
Anschaulich hat der Steuerrechner 301 somit eine Strategie zu lernen, die die Summe der Gewinne g minimiert.
Die Grundidee der Vorschrift (2) kann darin gesehen werden, dass durch die Auswahl der Rahmensignalpläne die mittlere Verkehrsdichte in dem Verkehrsnetz 200 minimiert werden soll, wobei durch die Quadratur der Terme bezüglich der einzelnen Strecken 1 ein homogener Netzzustand mit mittleren Verkehrsdichten an allen Strecken 1 besser bewertet wird, als ein Zustand mit sehr geringen Verkehrsdichten an einigen Strecken 1 bei gleichzeitigen Staus an anderen Strecken 1.
Bei den im weiteren beschriebenen Ausführungsbeispielen sind für alle Lernverfahren, die über einen Zeitraum von jeweils 90 Sekunden gemittelten relativen Fahrzeugdichten, die gemäß folgender Vorschrift gebildet werden an den Stellen des Verkehrsnetzes, an denen Sensoren 215 vorhanden sind, ermittelt:
Prel = • (3'
Pmax
In Fig.2 ist dies jeweils durch Darstellungen von einzelnen Verkehrsdichtenverläufen 216, 217, 218 symbolisch dargestellt.
Die relativen Verkehrsdichten werden nichtlinear gemäß folgender Vorschrift:
Prel
Figure imgf000021_0001
verzerrt, so dass sich im Bereich kleiner Verkehrsdichten grundsätzlich eine höhere Auflösung ergibt als im Bereich hoher Verkehrsdichten.
Im weiteren wird eine Modell-Beschreibung des Verkehrsnetzes 200 und dessen Steuerung als technisches System in allgemeiner Form als endlicher Zustandsautomat mit einer Menge kontinuierlicher Zustände und kontinuierlicher Aktionen, aufgrund derer ein Zustandsübergang von einem Vorgängerzustand in einen Nachfolgezustand ausgelöst wird, beschrieben.
Der Aktionsraum kann sowohl kontinuierlich als auch diskret sein.
Allgemein wird das zu steuernde technische System erfindungsgemäß unter Verwendung folgender Komponenten beschrieben:
Das technische System weist einen kontinuierlichen Zustandsraum der Dimension d auf. Ferner weist das technische System einen kontinuierlichen Aktionsraum A der Dimension d auf oder einen diskreten Raum U.
Mit bedingten Wahrscheinlichkeitsdichtefunktionen p(y, x, a) wird die Wahrscheinlichkeit für einen Übergang von einem Zustand x in einen Zustand y bei Ausführung der Aktion a beschrieben.
Mit einem Gewinn g(x, a, y) im Sinne eines Reinforce ent- Lernens wird ein Gewinn g(x, a, y) beschrieben bei Ausführung einer Aktion a in dem Vorgängerzustand x, wenn das technische System aufgrund der Steuerung in einen Nachfolgezustand y aufgrund der Aktion a übergeht.
Der Zustandsraum X ist in Fuzzy-Partitionen mit Fuzzy- Zugehörigkeitsfunktionen μ. j. _ w gruppiert, für die gilt:
UiO = V x e . (5) i=l
Die Fuzzy-Partitionen werden mit
{Xi}i=l,...,N (6)
bezeichnet und weisen jeweils ein Fuzzy-Zentrum auf, das mit
Figure imgf000022_0001
bezeichnet wird. Ferner ist auch der Aktionsraum A in Fuzzy-Partitionen mit Zugehörigkeitsfunktionen (Uu]u_1 N gruppiert, für die gilt:
NA
∑μj(a) = 1, V a e A. (8) u=l
Die Fuzzy-Partitionen des Aktionsraums A werden mit
{Au}u=l,...,NA <9>
bezeichnet und weisen jeweils Fuzzy-Zentren
feuLl,...,NA (10)
auf.
Erfindungsgemäß sind unterschiedliche Möglichkeiten zum Bilden der Fuzzy-Partitionen des Zustandsraums X vorgesehen.
Es werden somit Fuzzy-Partitionen
Figure imgf000023_0001
gebildet.
Gemäß einer Alternative kann zur Bildung der Fuzzy- Partitionen des Zustandsraums X ein Fuzzy-C-Means- Clustering, wie es in [2] beschrieben ist, durchgeführt werden.
Gemäß einer weiteren Alternative ist es vorgesehen, die Fuzzy-Partitionen auf eine Weise zu bilden, wie sie in Fig.6 dargestellt ist. Die relative Verkehrsdichte ist in einem Intervall von „0* bis „l in vier Partitionen 601, 602, 603, 604 gruppiert, denen jeweils über einen vorgegebenen Intervall Zugehörigkeitsfunktionen 605, 606, 607, 608 zugeordnet sind.
Eine erste Fuzzy-Zugehörigkeitsfunktion 605 beschreibt eine sehr geringe Verkehrsdichte "very small", eine zweite Fuzzy- Zugehörigkeitsfunktion 606 eine geringe Verkehrsdichte "small", eine dritte Fuzzy-Zugehörigkeitsfunktion 607 eine hohe Verkehrsdichte "high" und eine vierte Fuzzy- Zugehörigkeitsfunktion 608 eine sehr hohe Verkehrsdichte "very high" .
Die in Fig.6 dargestellten Fuzzy-Zentren und Grenzen der einzelnen Fuzzy-Zugehörigkeitsfunktionen und Fuzzy- Partitionen können alternativ gemäß folgender Vorgehensweise bestimmt werden.
Zustandsübergänge des oben dargestellten technischen Systems (x^, jζ, ]ζ_+±r <Jk) können durch Vektoren (xj-, .k+1' §k) in einem Zustandsübergangs-Raum T := ' x K" x 9ϊ beschrieben werden, wobei s' und tt" den gleichen Zustandsraum bezeichnen.
Im weiteren wird ein Clustering der Fuzzy-Cluster durchgeführt in dem Zustandsübergangs-Raum T aufgrund der beobachteten Zustandsübergänge während einer Lernphase unter Verwendung von Trainingsdaten, die aus einem technischen System ermittelt werden, beispielsweise durch Messung oder auch durch Simulation des technischen Systems, gemäß diesem Ausführungsbeispiel mit den ermittelten Verkehrsdichten als Trainingsdaten.
Für jede Aktion u e U werden separate Cluster, das heißt Fuzzy-Partitionen, verwendet. Ferner wird ein Clustering in dem Zustandsraum durchgeführt unter Verwendung der beobachteten Zustände während der oben beschriebenen Lernphase.
Es ist anzumerken, dass gemäß dem im weiteren beschriebenen Verfahren das Clustern der Zustände und der Zustandsübergänge inkrementell durchgeführt wird, so dass keine Zustandsübergänge explizit gespeichert werden müssen, wie dies gemäß dem Fuzzy-C-Means-Clustering, das jedoch ohne weiteres gemäß einer weiteren Alternative durchgeführt werden kann, erforderlich wäre.
Ergebnis des Fuzzy-Clusterings, das heißt des Bildens der Fuzzy-Partitionen mit den zugehörigen Fuzzy- Zugehörigkeitsfunktionen sind unmittelbar die Fuzzy- Partitionen des Zustandsraums X , die in dem im weiteren beschriebenen Reinforcement-Lernverfahrens und der sich daraus ergebenden Steuerungsstrategie verwendet werden.
Die Cluster in dem Zustandsübergangs-Raum dienen als kompakte Beschreibung der beobachteten Zustandsübergänge, aus dem das Modell, das heißt die bedingten
Zustandsübergangswahrscheinlichkeiten, wie sie oben beschrieben worden sind, und die Gewinne g, wie im weiteren beschrieben, ermittelt werden können.
Außerdem werden die Cluster in dem Zustandsübergangs-Raum verwendet zum Bestimmen von im weiteren beschriebenen optional vorgesehenem Aufspalten und Vereinigen von Clustern während des Bildens der Fuzzy-Partitionen im Rahmen des inkrementellen Verfahrens.
Das Aufspalten bzw. Vereinigen von einem Fuzzy-Cluster wird anhand der Fig.7a und Fig.7b beschrieben.
Gemäß der in Fig . 7a beschriebenen Situation wird angenommen, dass ein Zustandsübergang von einem Zustand 4.3 (12)
Sl
in einen Zustand
-,T _ y = 2 (13)
und von ferner von einem Zustand
*2 5.8 (14;
in einen Zustand
l = 7.9 (15)
mit einem identischen Gewinn von
Figure imgf000026_0001
beobachtet wird.
Das mittlere Cluster 701 der drei in Fig.7a dargestellten Cluster 701, 702, 703 würde es bei dessen Aufspalten ermöglichen, im Rahmen des Lernens zwischen diesen zwei Klassen von Zustandsübergängen in dem diskretisierten Modell zu unterscheiden.
In dem in Fig.7b dargestellten Beispiel, bei dem alle Zustandsübergänge in einem Bereich des mittleren Clusters 701 beginnen und in einem ähnlichen Endzustand
g * * 5.2 (17)
enden, wobei jedoch zwei unterschiedliche Klassen von Gewinnen r^ = 0 . 5 ( 18 )
und
Figure imgf000027_0001
in der Trainingsphase beobachtet werden, würde eine Aufspaltung des mittleren Clusters 701 eine verbesserte Unterscheidung dieser Klassen in den Zustandsübergängen ermöglichen.
Somit ist ersichtlich, dass in den in Fig.7a und in Fig.7b dargestellten Fällen jedes Mal ein Aufspalten des mittleren Clusters 701 eine Verbesserung des Lernverfahrens und des durch das Lernverfahren gebildeten Fuzzy-Sets von Fuzzy- Partitionen erzielen würde.
Eine entsprechende Vorgehensweise kann gemäß einer optionalen Erweiterung der Vorgehensweise durch Vereinigen von einzelnen Fuzzy-Partitionen, das heißt von Clustern, erreicht werden, wobei beim Vereinigen grundsätzlich eine analoge Vorgehensweise gewählt wird verglichen mit dem Aufteilen der Partitionen.
Im weiteren werden die einzelnen Abschnitte des Verfahrens zum Bilden der Fuzzy-Partitionen, das heißt das Clustering des Zustandsraums X und in dem Zustandsübergangs-Raum T, das Erhöhen der Genauigkeit der Cluster in dem Zustandsraum X aufgrund der Cluster in T und schließlich das Ableiten des diskretisierten Modells aus den geclusterten Zustandsübergängen beschrieben.
Das Clustern des Zustandsraums X in Fuzzy-Partitionen wird verwendet zum Beschreiben einer im weiteren beschriebenen Q- Funktion im Zusammenhang mit einem Reinforcement- Lernverfahren.
Die Cluster werden auf inkrementelle Weise erzeugt.
Jedes Cluster c- wird zu der jeweiligen Iteration k gekennzeichnet durch das jeweilige Cluster-Zentrum 1,,K , einen Zählerwert M zum Zählen der Anzahl der Zustände, die dem Cluster c- aufgrund der vorangegangenen Verfahrensschritte, das heißt Iterationen, zugeordnet worden sind und einer Diagonalmatrix Α 1y, ,K , die im weiteren auch als
Skalierungsmatrix bezeichnet wird, durch die die Größe des jeweiligen Clusters bestimmt wird.
Im weiteren wird die Gesamtheit aller Cluster in dem
Zustandsraum zu einer Iteration k bezeichnet mit Cj .
Ein Abstand dist^ \x, c• I eines Zustands x e zu einem Cluster c- ist gegeben durch folgende Vorschrift:
Figure imgf000028_0001
Aufgrund der gemäß diesem Ausführungsbeispiel, allgemein nicht erforderlichen, vorgesehenen Diagonalform der Skalierungsmatrix A , sind alle Cluster in allen
Dimensionen symmetrisch. Jedoch kann die Skalierung der Dimensionen variiert werden.
Zu Beginn des Verfahrens werden alle Cluster mit der gleichen Skalierungsmatrix A initialisiert.
Wie im weiteren noch näher erläutert wird, wird aufgrund eines Aufteilens eines Clusters in zwei Cluster hinsichtlich einer Dimension d eine Reduzierung der Größe des jeweiligen Clusters in der jeweiligen Dimension d erreicht.
Wird während der Lernphase ein neuer Zustand ^ ermittelt, so wird der Abstand des neu ermittelten Zustands x^ zu allen existierenden Clustern bestimmt.
Wenn kein Cluster c- existiert, zu dem der Abstand distj:(x,
Figure imgf000029_0001
des neuen Zustands Xk kleiner ist als ein vorgegebener maximaler Abstand dmax , so wird ein neues Cluster c, mit einem neuen Zentrum
x^k := xk (21)
und einem auf den Wert „0* initialisierten neuen Zähler
Figure imgf000029_0002
und einer neuen Skalierungsmatrix
-i',k := ^ (23)
erzeugt.
Der maximale Abstand d^ax kann von dem Benutzer vorgegeben werden und hängt üblicherweise ab von der Initialisierungs- Diagonalmatrix A^ k und der gewünschten Größe der initialisierten Cluster.
Das Cluster cι.0 s CkΪ, , zu dem der neue Zustand _x den geringsten Abstand aufweist, wird in einem weiteren Schritt in Richtung des neu ermittelten Zustands x^ innerhalb des Zustandsraums X verschoben. Die Schrittgröße des j eweiligen Verschiebeschritts wird bestimmt durch die Fuzzy-Zugehörigkeitsfunktion gemäß folgender Vorschrift :
Figure imgf000030_0001
des neuen Zustands xv in dem Cluster c . und der Anzahl von
-κ 10 Zuständen, die zuvor dem Cluster c. zugeordnet worden sind,
10 bezeichnet mit M. . , womit sich ein neuer Zählerwert
Mi.Q/,k+, -1 und ein neues, aktualisiertes Zentrum x-i.Q,.k+, .l, des jeweils ausgewählten Clusters c. ergeben gemäß folgenden Vorschriften:
Figure imgf000030_0002
- -**lo kj . (26)
Figure imgf000030_0003
Diese alternative Vorgehensweise kann anschaulich als eine inkrementelle Variante des in [2] beschriebenen Fuzzy-C- Means-Clustering-Verfahrens angesehen werden.
Gemäß diesem Ausführungsbeispiel wird ein Fuzzifizierungswert in Vorschrift (24) mit dem Wert 2 verwendet.
In einer alternativen Vorgehensweise ist es möglich, an
Stelle lediglich des ausgewählten Zentrums die
Figure imgf000030_0004
Zentren aller Cluster in Richtung des neu ermittelten Zustands xk zu verschieben.
Ziel des im weiteren beschriebenen Clusterings des Zustandsübergangs-Raums T ist es, eine kompakte Beschreibung der beobachteten Zustandsübergänge während der Lernphase zu erzeugen.
Wie im weiteren beschrieben wird, wird diese Beschreibung eingesetzt, um sinnvolle Aufteilungen von Clustern in dem Zustandsraum X und zum Abschätzen der durchschnittlichen Zustandsübergangs-Wahrscheinlichkeiten, die oben beschrieben worden sind, abzuschätzen sowie zum Abschätzen der Gewinne g verwendet.
Ein Cluster c T.'u in dem Zustandsübergangs-Raum T ist gekennzeichnet durch seine Cluster-Zentren ~zT u , die sich gemäß folgender Vorschrift ergeben:
Figure imgf000031_0001
Mit wird ein Zähler bezeichnet, mit dem die Anzahl der
Figure imgf000031_0002
Zustandsübergänge angegeben werden, die diesem jeweiligen
Cluster zugeordnet sind.
Mit einer Skalierungsmatrix und mit einem Index u für
Figure imgf000031_0003
die jeweilige Aktion, die den jeweiligen Zustandsübergang erzeugt hat, welcher Zustandsübergang dem jeweiligen Cluster zugeordnet ist.
Die Gesamtheit der Cluster der Zustandsübergänge zu einer Aktion u e U wird mit Ck'u bezeichnet. Die Skalierungsmatrix A '^ weist drei voneinander unabhängige Diagonalmatrizen B T.'ku , CTJku , b_ u auf, wobei eine erste Diagonalmatrix B Tu den jewei•li•gen κ Vorgängerzustand, eine zweite Diagonalmatrix T u
— Cj-,V einen Nachfolgezustand und eine dritte Diagonalmatrix b T-Vu den
Gewinn, der durch den Zustandsübergang erzeugt wird, beschreiben.
Es ergibt sich somit für die Skalierungsmatrix folgende
Figure imgf000032_0001
Vorschrift:
Figure imgf000032_0002
Um zu ermitteln, ob ein Aufteilen eines Clusters in zwei Cluster entlang einer Dimension d in dem Zustandsraum X sinnvoll ist, sollte die Auflösung der Clusterung in dem Zustandsübergangs-Raum T in Abhängigkeit der Auflösung der Clusterung in dem Zustandsraum X gewählt werden.
Es wird angenommen, dass c . , ein Cluster in dem Zustandsraum
X ist, welches Cluster der Komponente des Cluster-
Figure imgf000032_0003
u S£
Zentrums des Clusters c J am nächsten ist und das mit c.„
3 ι0 das Cluster bezeichnet wird, welches der Komponente am
Figure imgf000032_0004
nächsten liegt.
Gemäß der heuristischen Vorgehensweise in diesem Ausführungsbeispiel hat es sich als vorteilhaft herausgestellt, die Größe des Clusters cT'u in der Richtung X' halb so groß zu machen wie die Größe des Clusters c, und
!0 die Größe des Clusters c~:r in Richtung X" so groß zu wählen wie die Größe des Clusters c, .
10
Auf diese Weise ergeben sich die erste Diagonalmatrix B TΛu
und die zweite Diagonalmatrix C TΛu des Clusters cT.'u gemäß
Figure imgf000033_0001
folgenden Vorschriften:
Figure imgf000033_0002
wobei mit A. , . und A.\ , die Skalierungsmatrizen des -ι0k -ι0, k y
Clusters c, bzw. c . „ bezeichnet werden. 10 0
Die Skalierungsmatrizen A . ', . , A . „ . hängen von der Anzahl lQK iθ/ der Aufteilungen der Cluster c, und c.„ bis zu der 0 10
Iteration k ab.
Die dritte Diagonalmatrix wird konstant gewählt,
Figure imgf000033_0003
beispielsweise gemäß folgender Vorschrift:
Figure imgf000033_0004
wenn Gewinne mit einem Abstand b unterschieden werden sollen. Auf der Basis der oben dargestellten Skalierungsmatrizen
—'k wird ein Abstandsmaß distHz, cT'u ] ermittelt gemäß folgender Vorschrift:
Figure imgf000034_0001
Wird ein neuer Zustandsübergang (x , u , ≥ +]_/ g ) ermittelt, so wird geprüft, ob zumindest ein Cluster
cD T'Uk e- C*'U* (33)
existiert, zu dem der Vektor
Figure imgf000034_0002
einen Abstand aufweist, der kleiner ist als ein vorgegebener maximaler Zustandsübergangs-Abstand d Tmax .
Ist dies nicht der Fall, so wird ein neues Cluster c .,'Uk mj_-j- einem Cluster-Zentrum
T,uk -j',k ≤k (35)
einem mit dem Wert „0X initialisierten neuen Zähler
Figure imgf000034_0003
und einer neuen Skalierungsmatrix A.,'V;k in der Gesamtheit aller Cluster gebildet. Der maximale Zustandsübergangs-Abstand dmTax kann, muss jedoch nicht, den gleichen Wert aufweisen wie der maximale Abstand
Figure imgf000035_0001
hinsichtlich des Zustandsraums X .
Je kleiner der maximale Zustandsübergangs-Abstand d Tmax gewählt wird, um so feiner wird der Zustandsübergangs-Raum T geclustert .
Für
dmax → 0 (37)
wird jeder Zustandsübergang in dem Zustandsübergangs-Raum T explizit in dem Speicher des Steuerrechners 301 gespeichert.
In einem weiteren Schritt werden alle Cluster c -' k e Ck' k in Richtung des Vektors _z gemäß ihrer jeweiligen Zugehörigkeit, die sich gemäß folgender Vorschrift ergibt:
μ^ fek) - λ- - ( 38 )
Figure imgf000035_0002
verschoben und der Zähler des j eweiligen Clusters wird erhöht, so dass sich aktualisierte Werte des Zählers
Figure imgf000035_0003
und des j eweiligen Cluster-Zentrums gemäß folgenden
Figure imgf000035_0004
Vorschriften ergeben:
Figure imgf000035_0005
- ( 40 )
Figure imgf000036_0001
Anschaulich ist das Aufteilen eines Clusters Cj X_ e CXk in
Dimension d in dem Zustandsraum X sinnvoll, wenn es eine detailliertere Modellierung der Zustandsübergangs- Wahrscheinlichkeiten oder der Gewinne ermöglicht.
Dies ist der Fall, wenn zwei Cluster c T.'u und c-/u in dem
Zustandsübergangs-Raum T existieren, die beide einen hohen Zugehörigkeitswert vj . -,
Figure imgf000036_0002
zu dem Cluster, das aufgeteilt werden soll, aufweist und deren Zentren einen deutlichen Abstand zueinander hinsichtlich der Richtung X"x5R aufweisen.
Somit wird ein Cluster c X. € CX m Richtung der Dimension d während einer Iteration k aufgeteilt, wenn der Wert v d i 1 klci ) ' cer 9"emä^ folgender Vorschrift gebildet wird:
Figure imgf000036_0003
vd,j,l,klci
Figure imgf000036_0004
(4i;
einen vorgebbaren Schwellenwert vm n für mindestens ein Paar von Clustern c^'u, c 'u e CT'U und eine Aktion u e U überschreitet, das heißt, dass gilt:
vdk(c^) := ax max vg . χ A&) > v in . (42) ; usü ,urT,uprT,u ü,j,i,k\ι; cj 'cl eLk
In der Vorschrift (41) zeigt die Sigmoid-Funktion
Figure imgf000037_0001
an ob ( 'k)d ^rößer ist als fei,k)c
Entsprechend zeigt die Vorschrift
ddeeccNd,'-kfl≥xjT,'ku' cCi' (44) x **'d (Eϊ Jd)' i' kL γde°
Figure imgf000037_0002
an, ob (X .-T;,'ku | kleiner ist als k
Mit der Funktion
dif£ X"x9ϊ( (45)
Figure imgf000037_0003
wird angezeigt, ob die Cluster c T.'u und
Figure imgf000037_0004
einen deutlichen Abstand zueinander in Richtung der Dimension X"x9? aufweisen, wobei der Abstand dist -k | lc°j.' ,'c°1-|' j gegeben ist gemäß folgender Vorschrift:
distf
Figure imgf000037_0005
; 46)
Mit dem Abstand distj ϊc_ 'u,cf ul
Figure imgf000038_0001
( 47 )
in dem Zustandsraum und dem -Abstand distk c^' u, c^' u j
Figure imgf000038_0002
in dem Raum der Gewinne, die durch die Zustandsübergänge generiert werden.
Gemäß dem Ausführungsbeispiel hat es sich als vorteilhaft herausgestellt, die einzelnen Parameter gemäß folgender Vorschriften zu wählen:
γdec = 0.125- d ax, (49)
σdec = 0.025- d^ax, (50)
Ydlff = d x, (51)
σdiff = 0.2 dmaχ- (52)
Ist das Kriterium gemäß (41) durch das Cluster c und der
10 Dimension dn erfüllt, so wird das Cluster c X. durch zwei
10 neue Cluster c X, und cX, ersetzt.
1 1
Die Dimension dg der Cluster-Zentren der Cluster c., und c^„ werden jeweils in entgegengesetzte Richtungen bezüglich der Dimension dg um den halben Radius
Figure imgf000039_0001
des Clusters c X. verschoben, wobei die anderen Dimensionen
10 des ursprünglichen Clusters c X. auch bei den neuen Clustern
10 c X, und cX.ff unverändert erhalten bleiben.
Es ergeben sich somit für die neuen Cluster c X, und cX. „ folgende Aktualisierungsvorschriften:
Figure imgf000039_0002
Figure imgf000039_0003
Vd = 1, ...,
Figure imgf000039_0004
d ≠ d0, :57)
Figure imgf000039_0005
Die Größe der neuen Cluster C X, und cX in Richtung der
Dimension dg wird halbiert, das heißt es ergeben sich hinsichtlich der Größe, das heißt der Skalierungsmatrix der neuen Cluster c X, und cX.» folgende
Aktualisierungsvorschriften:
Figure imgf000039_0006
d ≠ d0, : 59 i
Figure imgf000040_0001
Figure imgf000040_0002
) <r- Vd = 1, ...,d , d ≠ d0, (6i;
Figure imgf000040_0003
Die Zähler der neuen Cluster c X, und cX. „ werden auf den gleichen Wert gesetzt, den der Zähler des ursprünglichen Clusters c X. aufgewiesen hat. 0
Es ergeben sich somit folgende Aktualisierungsvorschriften für die Zähler der neuen Cluster c X, und cX.„:
Figure imgf000040_0004
Mi^k -M?0,k' (63)
so dass die neuen Cluster sich an neu ermittelte Zust nde x in gleicher Geschwindigkeit anpassen wie es das ursprüngliche Cluster c X. getan hätte.
10
Aufgrund der Anpassung der Größe der einzelnen Cluster in dem Zustandsübergangs-Raum T an die Größe der benachbarten Cluster in dem Zustandsraum X führt ein Aufteilen der Cluster in dem Zustandsraum X auch zu einer höheren
Auflösung der Clusterung in dem Zustandsübergangs-Raum T.
Dies kann zu weiteren Aufteilungen der Cluster führen.
Somit kann die Fuzzy-Partitionierung des Zustandsraums X grundsätzlich beliebig genau gewählt werden, wenn jede Aufteilung eines Clusters zu einer genaueren internen Modellbeschreibung führt.
Jedoch kann das Erzeugen von Clustern auf zwei Wegen beschränkt werden.
Zum einen kann eine maximale Anzahl von Aufteilungen, die auf ein Cluster angewendet werden darf, vorgegeben werden.
Weiterhin kann der Schwellenwert v , mit dem das Aufteilen der Cluster gesteuert wird, entsprechend der Anzahl existierender Cluster .XI erhöht werden.
Wie im weiteren noch detailliert erläutert wird, kann auf der Grundlage der ermittelten Cluster c Tu s
Figure imgf000041_0001
und der dem jeweiligen Cluster
Figure imgf000041_0002
zugeordneten Zähler MT- ki] , mit dem die Anzahl der Zustandsübergänge, die diesem jeweiligen Cluster zugeordnet sind, ermittelt werden.
Mit
Figure imgf000041_0003
kann abgeschätzt werden, wie oft die Aktion a durchgeführt worden ist m dem Zustand c X* und wie oft der
Zustandsübergang beobachtet worden ist, der durch das Cluster c- u beschrieben wird.
Somit wird durch den Quotienten qi,ι, (u)> der gemäß folgender Vorschrift gebildet wird:
Figure imgf000042_0001
die Wahrscheinlichkeit abgeschätzt, dass das Ausführen der
Aktion u in dem Zustand c X. in einem Zustandsübergang, der durch das Cluster c T-Xu beschrieben wird, resultiert.
Deshalb kann die durchschnittliche Wahrscheinlichkeit Pi,j,k(u) eines Zustandsübergangs von einem Vorgängerzustand c X!j in einen Nachfolgezustand cX durch eine angenäherte J Wahrscheinlichkeit Pi,j,k(u)' gebildet gemäß folgender Vorschrift :
Figure imgf000042_0002
abgeschätzt werden.
Entsprechend kann der durchschnittliche Gewinn für das Ausführen der Aktion u in dem Zustand c X und einem
Zustandsübergang zu dem Zustand c X- angenähert werden gemäß folgender Vorschrift:
Figure imgf000042_0003
Es ist in diesem Zusammenhang anzumerken, dass das oben beschriebene Verfahren zum Bilden von Fuzzy-Clustern auch unabhängig von dem im weiteren beschriebenen Reinforcement- Lernverfahren im Zusammenhang mit der Auswahl von Rahmensignalplänen, allgemein im Zusammenhang mit der Steuerung eines technischen Systems, eingesetzt werden kann.
Anschaulich kann das oben beschriebene Vorgehen darin gesehen werden, dass ein Cluster eines Zustandsraums oder eines
Zustandsübergangs-Raums in mindestens zwei oder mehr Cluster aufgeteilt wird, wenn aus den geclusterten Zustandsübergängen ersichtlich ist, dass durch das Aufteilen verschiedener Gruppen von Zustandsübergängen, beispielsweise unterschiedliche Nachfolgezustände und/oder unterschiedliche Gewinne erzeugt werden, die voneinander unterschieden werden können .
Anschaulich kann diese Vorgehensweise somit als eine Art Mittelweg zwischen einer expliziten Speicherung aller
Zustandsübergänge und dem bloßen Zählen von Zustandsübergänge zwischen gegebenen Partitionen des Zustandsraums angesehen werden.
Auf diese Weise werden die Vorteile einer expliziten
Speicherung, nämlich eine sehr gute Partitionierung des Zustandsraums und dem Zählen von Zustandsübergängen, das heißt eine sehr kompakte Repräsentation eines Modells des technischen Systems, gemäß der oben beschriebenen Vorgehensweise vereint werden.
Es ist darauf hinzuweisen, dass die auf die oben beschriebene Weise ermittelte Partitionierung gegenüber einer ebenfalls alternativ möglichen festgelegten, d.h. manuellen Partitionierung der Fuzzy-Partitionen das Reinforcement- Lernen, wie es im weiteren beschrieben wird, erheblich beschleunigt.
Unter Verwendung von ermittelten Trainingsdaten sowie der auf die oben beschriebene Weise ermittelten Fuzzy-Partitionen, das heißt den Fuzzy-Clustern, wird ein im weiteren beschriebenes Reinforcement-Lernverfahren durchgeführt. Zur Erleichterung des Verständnisses wird im weiteren ein kurzer Überblick über Grundlagen des Reinforcement-Lernens gegeben.
Die Grundidee des modellbasierten Reinforcement-Lernens ist es, zu Beginn des Lernverfahrens eine Maximum-Likelihood- Schätzung des Modells des zu steuernden Systems durchzuführen und die optimierte Kontrollstrategie, das heißt das optimierte Steuern durch Auswahl von Steuergrößen (indirekt) basierend auf der zuvor ermittelten Modellbeschreibung zu trainieren.
Diese zwei Phasen können einander überlappen, das heißt zuvor trainierte Strategien können von der zu Beginn ermittelten Modellbeschreibung abgeleitet werden, basierend auf beobachteten Zustandsübergängen während einer Lernphase und die Information für eine zukünftige Ableitung der Steuerstrategie, das heißt der Auswahl der Steuergrößen kann mittels dieser Kontrollstrategien gewonnen werden.
Bei einem diskreten indirekten Reinforcement-Lernverfahrens erfolgt eine Maximum-Likelihood-Schätzung des Modells des technischen Systems auf der Grundlage von diskreten Zählern, mit denen die Anzahl ausgeführter Aktionen und der sich daraus ergebenden Zustandsübergänge und auf der Grundlage von Variablen für die beobachteten Gewinne.
Die Zähler und Variablen werden im weiteren näher erläutert.
Mit Ni,u, k und Mι,u,j,k ' i = 1— N« , u = 1 NA , j = 1, ... , N X , k e N , werden Zähler bezeichnet, mit denen die
Anzahl durchgeführter Fuzzy-Aktionen Au in einem Fuzzy- Zustand Xj_ und die Anzahl von Zustandsübergängen von einem Zustand Xj_ in einen Nachfolgezustand Xj aufgrund der Aktion Au bis zu einer Iteration k bezeichnet . Wird ein Zustandsübergang (xk, ak, X]-ι-i/ <3k) beobachtet, xk € X , +ι / a^ . A, g e SR , werden die Zähler N^ u k und M 1?/u,J■, K. gemäß dem Grad der Zugehörigkeit zu den entsprechenden Cluster-Zentren gemäß folgender Vorschriften erhöht:
N?,u,k + 1 <" Nι,u,k (68)
Mι,uj,k+1 <" Mι,uj,k +
Figure imgf000045_0001
(69)
Anschließend werden die Zähler Nι.,„u,,K und MI.,,u,,j•, K verwendet, um darauf basierend die durchschnittlichen bedingten Wahrscheinlichkeiten
Figure imgf000045_0002
für einen Zustandsübergang von einem Zustand X_ in einen Nachfolgezustand Xj aufgrund der Aktion Au geschätzt gemäß folgender Vorschrift:
Figure imgf000045_0003
Im weiteren wird mit r^ ■ der durchschnittliche Gewinn bezeichnet, den man erhält, wenn in dem Vorgängerzustand Xj_ aufgrund des Ausführens der Aktion Au der Nachfolgezustand Xj in dem Zustandsraum X eingenommen wird.
Der Gewinn r? . ergibt sich somit gemäß folgender Vorschrift:
Figure imgf000046_0001
Eine Schätzung des jeweiligen Gewinns r. • , das heißt ein geschätzter Gewinn f. • , wird gemäß folgender Aktualisierungsvorschrift ermittelt :
riuj,k+l ^ r μi (x ιPuj.,k + k StkV?ik+l)
Pk - r
M° • ι°uj. 173) ,k
Mit
i = 1, N X u 1, NA, j = 1 N X ;74)
bei Beobachten eines Zustandsübergangs (xk, ak, k+1' 9k)/ xk e X , xk+]_ e X, ak e A, gk e 9? .
Für dieses diskrete Modell
(Pij,k+l(u ^iuj,k+l) 175)
kann eine optimale Steuerungsstrategie gemäß dem Reinforcement-Lernverfahren ermittelt werden.
Mit Q(X, a) wird der wahre, kontinuierliche Q-Wert im Rahmen des Reinforcement-Lernverfahrens bezeichnet, der gebildet wird gemäß folgender Vorschrift:
Q(x, a) = f p(y z, gfc ä, y) + « max Q(Y, b) Idy ,'76) ysX Auf der Grundlage des wahren, kontinuierlichen Q-Werts Q(X, a) ergibt sich ein geschätzter Q-Wert Q. der durchschnittlichen Q-Werte gemäß folgender Vorschrift:
Figure imgf000047_0001
der sich ergibt aus der Fixpunkt-Lösung des folgenden Gleichungssystems :
Qϊu,k+ι =
Figure imgf000047_0002
(78)
Die kontinuierlichen Q-Werte Q(X, a) werden gemäß diesem Ausführungsbeispiel durch ein sogenanntes Takagi-Sugeno- Fuzzy-System, wie es in [3] beschrieben ist, mit linearen
Termen in den Konsequenzen der Fuzzy-Regeln angenähert gemäß folgender Vorschrift:
if x is Xi and a is Au
then Q(x, a) = Q° + - au,l)
Figure imgf000047_0003
(79)
mit i = 1, ... N , u = 1, ...,NÄ, wobei gilt:
Figure imgf000047_0004
und
Figure imgf000048_0001
Aufgrund der Orthogonalität der Fuzzy- Zugehörigkeitsfunktionen kann Vorschrift (79) geschrieben werden als folgende Vorschrift:
Qfc a) = ( 83 ;
Figure imgf000048_0002
Die Terme Q- können durch Ermitteln der Fixpunkt-Lösung der Gleichungssysteme (78) mit den Abschätzungen p .. der durchschnittlichen bedingten
Zustandsübergangswahrscheinlichkeiten gemäß Vorschrift (70) und Schätzwerten r. . der durchschnittlichen Gewinne gemäß
Vorschrift (72) ermittelt werden.
Für den diskreten Fall ist in [3] eine spezielle Implementierung der oben beschriebenen Vorgehensweise zur rekursiven Lösung der sogenannten Bellmann-Gleichung (78) beschrieben.
Die Grundidee des aus [3] bekannten Ansatzes ist es, das rekursive Aktualisieren der Q-Werte entsprechend der Änderung der Q-Werte zu priorisieren, wie sie aus der Aktualisierung resultieren. Aufgrund dieser Vorgehensweise wird die Geschwindigkeit der Konvergenz der Fixpunkt-Lösung deutlich erhöht verglichen mit einer Aktualisierung gemäß einer festen Reihenfolge.
Da außerdem die Interpretation der Variablen p -0..(u) und f-i-,-,-; ι.j.1 der Bellmann-Gleichung (78) in dem diskreten Fall gleich ist, kann dieser vorteilhafte
Aktualisierungsmechanismus auch für den gemäß diesem Ausführungsbeispiel der Erfindung vorgesehenen Ansatz unter Verwendung von Fuzzy-Partitionen im Rahmen des Reinforcement- Lernverfahrens eingesetzt werden.
Die konstante Terme Q werden durch Lösen der Bellmann- Gleichung (78) ermittelt.
Die zugehörigen partiellen Ableitungen Q- ^ und Q.l können durch Bilden von Durchschnittswerten und partiellen Ableitungen der Gewinnfunktion und der bedingten Zustandsübergangs-Wahrscheinlichkeiten ermittelt werden.
Die partiellen Ableitungen Q werden gemäß folgender Vorschrift gebildet:
+
Figure imgf000049_0001
Figure imgf000050_0001
; 85 )
mit den Abkürzungen :
Figure imgf000050_0002
die in dem vorangegangenen Schritt verwendet worden sind.
Das Ersetzen des Integrals durch die Summe lokaler Integrale gemäß den Vorschriften (86) und (87) und den Durchschnittswerten (88), (89) ist in dem Sinne konsistent, dass mit Erhöhen der Genauigkeit der Partitionierung des Zustandsraums diese immer besser werden.
In analoger Weise kann gezeigt werden, dass gilt: v + P1.UJ. • r1aUlJ.
Figure imgf000051_0001
(90)
mit
Figure imgf000051_0002
Der durchschnittliche lokale Gewinn r. • und die durchschnittlichen lokalen Ableitungen r■ j. und r. j • der
Gewinnfunktion g kann durch Anpassen der Parameter r. 0 iuj ' f. I. , f.1. und r . der folgenden linearen Funktion abgeschätzt werden abhängig von den Gewinnen in der näheren Umgebung der Cluster-Zentren | J_, au, Xj), gemäß folgender
Vorschrift:
:(x, a, y)
3X A d d
"iuj + 2, "IUJlχι xi, *iuj(al - äu,l) + Y ^ rri--uji(yι j ,ι)'
1=1 1=1 1=1
93)
Diese Anpassung kann erfolgen mittels eines bekannten Gradientenabstiegs unter Berücksichtigung einer Fehlerfunktion E, die sich ergibt gemäß folgender Vorschrift: E := {?k - r(xk, ak, xk + 1))2 ( 94 )
bei Beobachten eines Zustandsüberganges (xk, a , Xk+1' 9k) •
Somit ergeben sich gemäß diesem Ausführungsbeispiel folgende Aktualisierungsvorschriften:
fiuj,k+l <~ £iuj,k +
Figure imgf000052_0001
- r(xk, ak, xk + 1)), (95)
fiXuj,k+l <~ ij,k + rüuj,k(xk,l - ,l gk - r(xk, ak, xk+1)),
(96)
iuj,k+l <~ i k +
Figure imgf000052_0002
~ äu,ιXg - f(xk, ak, x +1)),
( 97 )
Figure imgf000052_0003
( 9ϊ
wobei eine mögliche Wahl für die Schrittgröße ηiuj,k innerhalb der Aktualisierung gegeben sein kann gemäß folgender Vorschrift:
μ (xk)uA(ak)u (xk+1) niu^k = Q > (99)
Miuj,k+1
so dass die Schrittgröße ηιuj,k jeweils' abhängig von dem Grad der Zugehörigkeit eines beobachteten Zustandsübergangs zu einem Cluster-Zentrum gewählt wird und mit fortlaufender Zeit verringert wird.
Die durchschnittlichen bedingten Wahrscheinlichkeiten p .(u) können gemäß Vorschrift (71) geschätzt werden. Die durchschnittlichen partiellen Ableitungen Pj_^ und Pj_^ können gemäß folgenden Vorschriften approximiert werden:
iuj
Figure imgf000053_0001
(100]
>iaulj.
Figure imgf000053_0002
wobei mit e? ein Vektor der Dimension d mit Vektorkomponenten e d-, • = δnbezeichnet wird.
Mit N. -y wird ein Zähler bezeichnet, mit dem die Anzahl von
Ausführungen einer Aktion Au in einem Fuzzy-Zustand gezählt wird, der entsteht, indem Zustand Xj_ entlang der Dimension 1 um einen vorgebbaren Wert ε verschoben wird.
wird ein weiterer Zähler bezeichnet, mit dem die
Figure imgf000053_0003
Anzahl von Zustandsübergängen von dem um ε entlang der Dimension 1 verschobenen Zustand Xi zu einem Nachfolgezustand Xj aufgrund der Aktion Au gezählt wird. Zusätzlich wird mit .{τ' ein Zähler bezeichnet, mit dem die
Anzahl durchgeführter Aktionen Au in dem Zustand angegeben wird, der durch Verschieben von dem Zustand Xj entlang der
Dimension 1 um einen negativen Wer/t -ε entsteht und mit M. -^ wird ein weiterer Zähler bezeichnet, mit dem die Anzahl von Zustandsübergängen in den Zustand Xj von diesem Zustand aufgrund der Aktion Au angegeben wird.
Bei Ermitteln eines Zustandsübergangs (xk, ak, k+1' 9k) werden die einzelnen Zähler N T?xl''+ χι -
1U ' , , N
Figure imgf000054_0001
1. U ' M "IUJ gemäß folgenden Aktualisierungsvorschriften aktualisiert
Figure imgf000054_0002
Uu fek) , ( 104 )
Figure imgf000054_0003
+i) ( 105 )
Figure imgf000054_0004
Entsprechend werden Zähler Naj-'+ , Ma-^+ , Naj:' , und M ι'. für den Aktionsraum gemäß folgenden Aktualisierungsvorschriften aktualisiert :
Figure imgf000054_0005
Figure imgf000055_0001
Miuj,k+1 <- ιuj,k +
Figure imgf000055_0002
Anschließend werden die lokalen partiellen Ableitungen
P ; J_I
1i1J.J/ Λ~Γ-iL und 7 1 llj/ i τl ermittelt gemäß folgenden Vorschriften:
Figure imgf000055_0003
Mit den geschätzten W xi 3 ahrscheinlichkeiten px ι.uj.,,,+,,ι, pA ι.u λj.,,k+..i und und
Figure imgf000055_0004
Piuj und der Schätzungen r?uj^+1, ^k+1 und ralj/k+1 für die Gewinne ij . , r^. und r^-j-. kann nunmehr die jeweilige lokale partielle Ableitung Q. ^ und Q.-^ gemäß den Vorschriften (85) und (90) ermittelt werden.
Zusammenfassend kann das Reinforcement-Lernverfahren in Form eines Pseudo-Codes beschrieben werden wie folgt:
1. Initialisierung:
for i = 1, ... , N^ , u = 1, ... , NA do (a) Nu <- 0
(b) X1'+ <- 0, 1'~ <- 0, 1 = 1, ... ,d X - 0, ι = ι, ... , dJ
Figure imgf000056_0001
(d) M° j = 1, ... , N! X
IUJ. <- 0,
Figure imgf000056_0002
(f) M al'+ <- 0, Mai. <- 0,
IUJ ' IUJ ' j = 1, ... , N , 1
Figure imgf000056_0003
Figure imgf000056_0004
(h) j = 1,...,
Figure imgf000056_0005
l = 1,..., d X
Figure imgf000056_0006
Figure imgf000056_0007
(j) PQueue «- empty (k) Beobachte Ausgangszustand XQ od
2. Hauptprogramm:
for k = 0, 1, 2, ... do (a) Wähle Fuzzy-Aktion uk in dem aktuellen Zustand x entsprechend der Explorationsstrategie aus (z.B. Boltzmann-Exploration/F-ISE-Exploration) . Wähle kontinuierliche Aktion ak aus der Menge der Zustände, die zu Au, Zugehörigkeit ≠ 0 haben. (b) Führe Aktion ak aus und beobachte Nachfolgezustand Xk+1 und g = g(xk, ak, xk+1)
!c) for i = 1, ... , N TX , j = 1, ... , N TX" do (i) Zählen der Zustandsübergänge
fe ) ι = 1, , d X
Figure imgf000056_0008
Figure imgf000056_0009
VI = 1, ,d A
Figure imgf000056_0010
(F) M° . <- M° . + μ^(xkA (ak), μ^(xk + 1) ιuk ιluU kkjD ' i - ; u Uk ^-k X V-K+
(G)
Figure imgf000057_0001
VI = 1, .. X
(H)
Figure imgf000057_0002
VI = 1, .. ,x
Figure imgf000057_0003
VI = 1, .. -A
Figure imgf000057_0004
(ii) Schätzen der Zustandsübergangs-Wahrscheinlichkeiten
Figure imgf000057_0005
(iii) Schätzen der partiellen Ableitungen der Zust
Figure imgf000057_0006
(iv) Berechnen der Abweichung von dem erwarteten lokalen Gewinn
Figure imgf000057_0007
(v) Aktualisieren der Schätzungen für den durchschnittlichen Gewinn und die durchschnittlichen Abweichungen
(xk,l ~ i,l
I = 1, ..., d
I = 1, d*
Figure imgf000058_0001
VI = 1, ... , d X od
(d) for i = 1, ... , N TX do
(i) Berechnen der Priorität des Sicherns für (i, uk) :
Figure imgf000058_0002
(ii) if P > Φk then füge (i, uk) zu PQueue mit Priorität P hinzu fi od (e) while PQueue ≠ e pty do
(i) (i, u) - first(PQueue)
Figure imgf000058_0003
(iii) for alle Vorgänger (1, w) von i, d.h. alle Paare
( 1 , w) mditt M^wj_ > 0 do
Figure imgf000059_0001
(B) if P > Φk then füge (1, w) zu PQueue mit Priorität P hinzu fi od
(e) Schätzen der Ableitungen der Q-Werte
Figure imgf000059_0002
Die optimale Steuerungsstrategie, das heißt die optimale Auswahl eines Rahmensignalplans aufgrund der ermittelten, gemessenen relativen Verkehrsdichte an den jeweiligen Sensoren 215, allgemein formuliert als optimale Kontrollstrategie μ : X - A, wird dadurch erreicht, dass in dem jeweiligen Zustand x die Aktion a ausgewählt wird, das heißt beispielsweise gemäß dem Ausführungsbeispiel derjenige Rahmensignalplan ausgewählt wird, der einen Gewinn gemäß Vorschrift (79) verspricht, der maximal ist, das heißt bei dem gilt:
arg max Q(x, a) . (112) aeA
Das oben beschriebene Verfahren kann weiterhin gemäß der im weiteren beschriebenen Ausgestaltung der Erfindung weiter verbessert werden .
Um die Anzahl der benötigten Trainingsschritte im Rahmen des Reinforcement-Lernverfahrens zu verringern ist es nützlich, gezielt den erwarteten Gewinn im Sinne eines Informationsgehalts der Trainingsdaten über das technische System zu nutzen, das heißt in anderen Worten, in jedem Zustand diejenige Aktion auszuführen, durch entweder ein großer unmittelbarer, das heißt sofortiger Gewinn an Information erwartet werden kann oder durch die ein Bereich in dem Zustandsraum erreicht wird, in dem hohe Gewinne an Information erwartet werden können.
Gemäß diesem Ausführungsbeispiel wird eine modellbasierte Explorationsstrategie vorgesehen.
Die im weiteren beschriebenen Vorgehensweise basiert auf A-
Werten A_u, i = 1, ... , N X , u = 1, ... , NA, mit denen die
"Attraktivität" des Ausführens der jeweiligen Fuzzy-Aktion Au in dem Zustand Xi bezeichnet wird.
Das Ausführen einer Aktion in einem Zustand des Zustandsraums X führt dann mit einer großen Wahrscheinlichkeit zu einem hohen Informationsgewinn, wenn ein großer sofortiger Gewinn an Information erwartet werden kann aufgrund der Ausführung der Aktion Au, oder dann, wenn das zu steuernde technische System aufgrund der Aktion in Zustände übergeht, in denen ein großer Informationsgewinn erwartet werden kann.
Somit ist die Relation zwischen den A-Werten A_u sehr ähnlich der der Q-Werte im Zusammenhang mit dem Q-Lernverfahren.
Im folgenden wird mit äj_u der sofortige Informationsgewinn bezeichnet, der aus einer einzigen Ausführung der Aktion Au in dem Zustand Xi resultiert.
Anschließend wird ein geschätzter A-Wert Ä_u abgeleitet, mit dem der erwartete sofortige Informationsgewinn bezeichnet wird, der resultiert aus zukünftigen Ausführungen der Aktion Au in dem Zustand Xi . Schließlich wird eine Gesamt-Attraktivität Aιu auf der Grundlage der _u in rekursiver Weise ermittelt.
Der sofortige Informationsgewinn kann durch die Menge an Wissen gemessen werden, die das lernende System über die Zustandsübergangs-Wahrscheinlichkeiten zwischen den Fuzzy- Partitionen aufgrund einer Beobachtung eines Zustandsübergangs erhält.
Eine maximale Änderung
Figure imgf000061_0001
in den Zustandsübergangs-Wahrscheinlichkeiten von einem Zustand X^ und einer Aktion Au, die aufgrund eines beobachteten Zustandsübergangs (xk, ak, x +] gk) resultieren, ist gegeben durch die Zugehörigkeit von (xk, akj zu den einzelnen Fuzzy-Partitionen, bezeichnet durch:
μ^(xkA(ak). (114)
Auf diese Weise wird die Änderung der Wahrscheinlichkeiten mit einer oberen Grenze, die gebildet wird gemäß μ^(xkA(ak) skaliert, um das Maß des sofortigen Informationsgewinns unabhängig zu machen von der Position von (x , ak) innerhalb der jeweiligen Fuzzy-Partition.
Somit ergibt sich für die Aktualisierung des sofortigen Informationsgewinns von einer Iteration k zu der nächsten Iteration k+1:
Figure imgf000062_0001
(115;
Aus den gemäß Vorschrift (115) ermittelten sofortigen Informationsgewinnen aufgrund Durchführen der Aktion Au in dem Zustand Xi ist es möglich, Schlussfolgerungen hinsichtlich zu erwartender zukünftiger Informationsgewinne zu ziehen.
Es hat sich als vorteilhaft herausgestellt, eine gewichtete Summe aller vorangegangenen ermittelten sofortigen Informationsgewinne zu berechnen.
Der Einfluss eines Informationsgewinns für einen Zustand Xj_ und einer Aktion Au auf die sofortige "Attraktivität" sollte durch die Zugehörigkeit des entsprechenden Zustandsübergangs in die jeweilige Fuzzy-Partitionen beschränkt werden.
Dies kann dadurch erreicht werden, dass vorangegangene Informationsgewinne entsprechend der Summe der Grade der
Zugehörigkeiten nachfolgender Beobachtungen gewichtet werden:
Figure imgf000062_0002
n=0
Im folgenden Algorithmus wird die sofortige Attraktivität beschrieben als ein Quotient der gewichteten Summe der sofortigen Informationsgewinne und der Summe der Gewichte, das heißt die sofortige Attraktivität Ä ergibt sich gemäß folgender Vorschrift:
Ä? Ä = ^u-. (117) A Äwiu
Eine totale Attraktivität Äj_u eines Zustand-Aktions-Paars
(X , Au) wird auf rekursive Weise gemäß folgender Vorschrift ermittelt:
ÄiU/k+ι := ÄiU/k+ι + P . k+1(u)λAj/ +1, (118)
Figure imgf000063_0001
mit dem räumlichen Dämpfungsfaktor λ s [0;1] und der Attraktivität Äj der Partitions-Untermenge Xj , gegeben gemäß folgender Vorschrift:
A-j,k+l k+l • ;il9)
Figure imgf000063_0002
Zusammenfassend kann die Explorationsstrategie durch folgende, in einem Pseudo-Code dargestellte Vorgehensweise beschrieben werden:
1. Initialisierung:
(a) N U <- 0, i = 1, ..., N ,u = 1, ...,NA (b) M U_. - 0, i = 1, ... , N**, u = 1, ... , NA, j = 1, ... , N
(c) Initialisiere die Komponenten der unmittelbaren
Attraktivität derart, als ob in jeder vorangegangenen Iteration der maximale unmittelbare Informationsgewinn mit maximalem Zugehörigkeitsgrad erreicht worden wäre: (i) Ä? — , i = 1, ... , N , u = 1, ... , NA 1U 1 - η ( ii ) Ä < — , i = 1, ... , NK, u = 1, ... , NA ιu 1 - η
Somit ist jedes Zustands-Aktions-Paar (Xj_, Au) mit der maximalen unmittelbaren Attraktivität Äj_u = 1 initialisiert. (d) Initialisiere totale Attraktivität
1
A.. <
1U 1 - λ
(e) Bestimme Ausgangszustand xo
2. Hauptprogramm
for k = 0, 1, 2, ... do
(a) Sei Au, die Partitions-Untermenge (Fuzzy-Aktion) des
Aktionsraums, bei der die Attraktivität Äu(xk) im aktuellen Zustand xk maximiert ist, wobei die Attraktivität Äu(x ) gegeben sei durch if x is X_ then Äu(x) = Äιu
D.h. es gilt: u := arg max^=ι NA Äu(xk)
Zufälliges Auswählen einer Aktion a , aus |a|a e A Λ μ (a)>θl aus AU]
(b) Ausführen Aktion ak und Beobachten des Nachfolgezustands -k+1 un es Gewinns g( k, k, +ι)
(c) Ausführen einer Iteration eines beliebigen Reinforcement- Lernverfahrens, beispielsweise des oben beschriebenen F- PS-Lernverfahrens oder des F-Q-Lernverfahrens
(d) for i = 1, ... , do
(i) Zählen der Zustandsübergänge:
<A> nluk <- Niuk + μϊ<s k<äk)
(B) »» ^ * ki + ^ K,kX«k,X,
Vj = 1, ...,N (ii) Berechnen des unmittelbaren Informationsgewinns resultierend aus dem Zustandsübergang:
Figure imgf000065_0001
;iii) Erneutes Berechnen der unmittelbaren Attraktivität für (Xi,Au J:
Figure imgf000065_0002
[iv) Erneutes Schätzen der Zustandsübergangs- Wahrscheinlichkeiten:
Figure imgf000065_0003
(i) Berechnen der Priorität des Sicherns für (Xj_, Au, J:
Figure imgf000065_0004
(ii) if P > Φ then füge (i, uk) zu PQueue mit Priorität P hinzu fi (f) while PQueue ≠ empty do (i) (i,u) <- first (PQueue)
(ii) Äiu <- Äiu + λ Äjv - Äiu
Figure imgf000065_0005
(iii) for alle Vorgänger (1, w) von i, d.h. alle (1, w) mit Mlwi > ° do
Figure imgf000066_0001
(B) if P > Φk then füge (1, w) zu PQueue mit Priorität P hinzu fi od od od
Zusammenfassend wird das oben beschriebene Verfahren noch einmal anhand Fig.l erläutert.
In einem ersten Schritt werden Daten über das technische System, bei einem Verkehrsnetz 200 die jeweilige Verkehrsdichte an einem Sensorpunkt mittels eines Sensors, ermittelt (Schritt 101) .
In einem weiteren Schritt werden Fuzzy-Partitionen des Zustandsraums und/oder des Aktionsraums ermittelt (Schritt 102) .
In einem weiteren Schritt wird ein Reinforcement- Lernverfahren durchgeführt unter Verwendung der ermittelten Daten über das technische System sowie unter Verwendung der ermittelten Fuzzy-Partitionen (Schritt 103) .
In einem weiteren Schritt (Schritt 104) wird auf die oben beschriebene Weise gemäß dem Reinforcement-Lernverfahren eine optimale Steuerungsstrategie ermittelt, das heißt es wird ein optimaler Ausgangswert ermittelt, mit dem angegeben wird, welcher Rahmensignalwert für die jeweilige Iteration auszuwählen ist (Schritt 104) .
Wie in Fig.l weiter dargestellt ist, wird in einem weiteren Schritt (Schritt 105) der gemäß dem Reinforcement- Lernverfahren ermittelte optimale Rahmensignalplan ausgewählt, ausgelesen und abhängig von dem Rahmensignalplan werden die Ampeln 214 an den jeweiligen Kreuzungen, das heißt allgemein das technische System, das gesteuert werden soll, unter Berücksichtigung der ausgewählten optimierten Steuerungsstrategie und dem ausgewählten Rahmensignalplan, gesteuert (Schritt 106) .
Es ist darauf hinzuweisen, dass die oben beschriebene Erfindung nicht auf die Steuerung von Ampeln in einem Verkehrsnetz beschränkt ist, sondern dass sich die Fuzzy- Partitionierung eines kontinuierlichen Zustandsraums und/oder eines kontinuierlichen Aktionsraums für ein beliebiges technisches System eignet, das mit einem kontinuierlichen Zustandsraum und/oder kontinuierlichen Aktionsraum beschrieben wird und mittels eines Reinforcement- Lernverfahrens gesteuert werden soll.
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] H. Takagi und M. Sugeno, Fuzzy Identification of Systems and its Application to Modelling and Control, IEEE Transactions on Systems, Man and Cybernetics, Vol. 15, S. 116 - 132, 1985
[2] J. C._ Bezdek, Pattern Recognition with Fuzzy Objective
Function Algorithms, Plenum Press, New York, ISBN 0-306- 40671-3, 1981
[3] A. Moore und C. Atkeson, Efficient Memory Based
Reinforcement-Learning: Efficient Computation with Prioritized Sweaping, Information Processing, Vol. 5, S. 263 - 270, 1992
[4] S. Davies, Multi Dimensional Triangulation and
Interpolation for Reinforcement-Learning, Advances in Neural Information Processing Systems, NIPS'9, S. 1005 - 1011, 1996
[5] H. Appl und R. Palm, Fuzzy Q-learning in nonstationary environments, Proceedings of the 7 European Congress on Intelligent Techniques and Soft Computing, 1999

Claims

Patentansprüche
1. Verfahren zum rechnergestützten Ermitteln einer optimierten Auswahl eines Rahmensignalplans aus einer Menge mehrerer Rahmensignalpläne für ein Verkehrssystem,
• bei dem das Verkehrssystem mit einem Zustandsraum und einem Aktionsraum beschrieben wird,
• bei dem der Zustandsraum Zustände aufweist, die das Verkehrssystem annehmen kann, • bei dem der Aktionsraum Aktionen aufweist, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,
• bei dem eine Bewertung des Zustandsübergangs erfolgt, • bei dem ein Reinforcement-Lernverfahren unter Verwenden des Aktionsraums, des Zustandsraums und der Bewertungen durchgeführt wird, wodurch jeweils eine Auswahlgröße ermittelt wird, mit der angegeben wird für einen Zustand des Zustandsraums, welcher Rahmensignalplan hinsichtlich des Reinforcement-Lernverfahrens als optimaler Rahmensignalplan auszuwählen ist.
2. Verfahren nach Anspruch 1,
• bei dem mit Trainingsdaten, die das Verkehrssystem beschreiben, ein Modell des Verkehrssystems ermittelt wird, und
• bei dem das Reinforcement-Lernverfahren unter Berücksichtigung des Modells durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2,
• bei dem das Modell basierend auf Fuzzy-Partitionen gruppiert wird, und
• bei dem jeder Fuzzy-Partitions-Untermenge eine Zugehörigkeitsfunktion zugeordnet wird, wodurch ein Fuzzy-Modell des Vekehrssystems gebildet wird.
4. Verfahren nach Anspruch 3, bei dem in den Konklusionen von Fuzzy-Regeln des Fuzzy- Modells, welches gemäß dem Reinforcement-Lernverfahrens gebildet wird, lineare Terme eingesetzt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem das Reinforcement-Lernverfahren durchgeführt wird, indem während des Trainings solche Aktionen durchgeführt werden, die ein vorgegebenes Kriterium erfüllen.
6. Verfahren nach Anspruch 5, bei dem das Kriterium ein Informationsgewinn über die bedingten Zustandsübergangs-Wahrscheinlichkeiten innerhalb des Reinforcement-Lernverfahrens ist.
7. Verfahren nach einem der Ansprüche 1 bis 6,
• bei dem der ermittelte optimale Rahmensignalplan ausgewählt wird, und
• bei dem aufgrund des ausgewählten Rahmensignalplans Steuersignale an Ampeln eines Verkehrsnetzes übermittelt werden.
8. Verfahren nach einem der Ansprüche 1 bis 7,
• bei dem Zähler vorgesehen sind, mit denen die Anzahl von Ausführungen von Aktionen in einem Zustand des technischen Systems und die Anzahl von
Zustandsübergängen von einem Anfangszustand in einen Nachfolgezustand aufgrund der Aktion bis zu der aktuellen Iteration angegeben wird, vorgesehen sind,
• bei dem die den Zählern zugeordneten Werte bei Ermitteln eines neuen Zustandsübergangs abhängig von dem Grad der
Zugehörigkeit der Zustände bzw. der Zustandsübergänge zu den jeweiligen Fuzzy-Clustern aktualisiert werden.
9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem während des Verfahrens Fuzzy-Partitionen optimiert werden, indem in einem iterativen Verfahren ausgehend von einer vorgegebenen Menge von Ausgangs-Partitions-Untermengen diese aufgeteilt werden in mehrere Fuzzy-Partitions- Untermengen oder zusammengeführt werden aus mehreren Fuzzy- Partitions-Untermengen in eine Fuzzy-Partitions-Untermenge, abhängig von den ermittelten Trainingsdaten.
10. Vorrichtung zum rechnergestützten Ermitteln einer optimierten Auswahl eines Rahmensignalplans aus einer Menge mehrerer Rahmensignalpläne für ein Verkehrssystem, mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
• das Verkehrssystem wird mit einem Zustandsraum und einem Aktionsraum beschrieben,
• der Zustandsraum weist Zustände auf, die das Verkehrssystem annehmen kann, • der Aktionsraum weist Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,
• es erfolgt eine Bewertung des Zustandsübergangs, • ein Reinforcement-Lernverfahren wird unter Verwenden des Aktionsraums, des Zustandsraums und der Bewertungen durchgeführt, wodurch jeweils eine Auswahlgröße ermittelt wird, mit der angegeben wird für einen Zustand des Zustandsraums, welcher Rahmensignalplan hinsichtlich des Reinforcement-Lernverfahrens als optimaler Rahmensignalplan auszuwählen ist.
11. Steuervorrichtung zum Steuern eines Verkehrssystems, mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
• das Verkehrssystem wird mit einem Zustandsraum und einem Aktionsraum beschrieben,
• der Zustandsraum weist Zustände auf, die das Verkehrssystem annehmen kann, • der Aktionsraum weist Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,
• es erfolgt eine Bewertung des Zustandsübergangs,
• ein Reinforcement-Lernverfahren wird unter Verwenden des Aktionsraums, des Zustandsraums und der Bewertungen durchgeführt, wodurch jeweils eine Auswahlgröße ermittelt wird, mit der angegeben wird für einen Zustand des Zustandsraums, welcher Rahmensignalplan hinsichtlich des Reinforcement-Lernverfahrens als optimaler Rahmensignalplan auszuwählen ist,
• der optimale Rahmensignalplan wird ausgewählt, mit einer Steuereinheit, mit der das Verkehrssystem abhängig von dem ausgewählten Rahmensignalplan steuerbar ist.
12. Computerlesbares Speichermedium, in dem ein
Computerprogramm zum Ermitteln einer optimierten Auswahl eines Rahmensignalplans aus einer Menge mehrerer Rahmensignalpläne für ein Verkehrssystem, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
• das Verkehrssystem wird mit einem Zustandsraum und einem Aktionsraum beschrieben,
• der Zustandsraum weist Zustände auf, die das Verkehrssystem annehmen kann, • der Aktionsraum weist Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,
• es erfolgt eine Bewertung des Zustandsübergangs, • ein Reinforcement-Lernverfahren wird unter Verwenden des Aktionsraums, des Zustandsraums und der Bewertungen durchgeführt, wodurch jeweils eine Auswahlgröße ermittelt wird, mit der angegeben wird für einen Zustand des Zustandsraums, welcher Rahmensignalplan hinsichtlich des Reinforcement-Lernverfahrens als optimaler Rahmensignalplan auszuwählen ist.
13. Computerprogramm-Element zum Ermitteln einer optimierten Auswahl eines Rahmensignalplans aus einer Menge mehrerer Rahmensignalpläne für ein Verkehrssystem, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
• das Verkehrssystem wird mit einem Zustandsraum und einem Aktionsraum beschrieben,
• der Zustandsraum weist Zustände auf, die das Verkehrssystem annehmen kann, • der Aktionsraum weist Aktionen auf, die ausgeführt werden, um einen Zustandsübergang von einem Vorgängerzustand des Zustandsraum in einen Nachfolgezustand des Zustandsraums zu erzeugen,
• es erfolgt eine Bewertung des Zustandsübergangs, • ein Reinforcement-Lernverfahren wird unter Verwenden des Aktionsraums, des Zustandsraums und der Bewertungen durchgeführt, wodurch jeweils eine Auswahlgröße ermittelt wird, mit der angegeben wird für einen Zustand des Zustandsraums, welcher Rahmensignalplan hinsichtlich des Reinforcement-Lernverfahrens als optimaler Rahmensignalplan auszuwählen ist.
PCT/DE2001/000075 2000-05-05 2001-01-10 Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem WO2001086610A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10021857 2000-05-05
DE10021857.1 2000-05-05

Publications (1)

Publication Number Publication Date
WO2001086610A1 true WO2001086610A1 (de) 2001-11-15

Family

ID=7640856

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2001/000075 WO2001086610A1 (de) 2000-05-05 2001-01-10 Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem

Country Status (1)

Country Link
WO (1) WO2001086610A1 (de)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599219A (zh) * 2008-06-04 2009-12-09 新南威尔士州道路交通管理局 交通信号控制系统
WO2011157745A1 (en) 2010-06-15 2011-12-22 The Provost, Fellows And Scholars Of The College Of The Holy And Undivided Trinity Of Queen Elizabeth, Near Dublin Decentralised autonomic system and method for use in an urban traffic control environment
US9256371B2 (en) 2013-05-28 2016-02-09 Globalfoundries Inc. Implementing reinforcement learning based flash control
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
CN111368897A (zh) * 2020-02-28 2020-07-03 中南大学 基于状态转移算法的除铜过程的犹豫模糊c均值聚类方法
CN111489568A (zh) * 2019-01-25 2020-08-04 阿里巴巴集团控股有限公司 交通信号灯的调控方法、装置及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5357436A (en) * 1992-10-21 1994-10-18 Rockwell International Corporation Fuzzy logic traffic signal control system
DE4436339A1 (de) * 1994-10-11 1996-04-18 Ifu Gmbh Verfahren zur verkehrsadaptiven Steuerung einer Verkehrsampelanlage
DE19521927A1 (de) * 1995-06-09 1996-12-12 Inst Automation Und Kommunikat Verfahren und Vorrichtung zur verkehrsabhängigen Grünzeitanpassung in einer Verkehrssignalanlage
US5668717A (en) * 1993-06-04 1997-09-16 The Johns Hopkins University Method and apparatus for model-free optimal signal timing for system-wide traffic control
WO1997034274A1 (de) * 1996-03-12 1997-09-18 Siemens Aktiengesellschaft Verkehrsabhängige steuerung von verkehrs-lichtsignalanlagen mit hilfe von fuzzy-logik
JP2000035956A (ja) * 1998-07-17 2000-02-02 Japan Science & Technology Corp エージェント学習装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5357436A (en) * 1992-10-21 1994-10-18 Rockwell International Corporation Fuzzy logic traffic signal control system
US5668717A (en) * 1993-06-04 1997-09-16 The Johns Hopkins University Method and apparatus for model-free optimal signal timing for system-wide traffic control
DE4436339A1 (de) * 1994-10-11 1996-04-18 Ifu Gmbh Verfahren zur verkehrsadaptiven Steuerung einer Verkehrsampelanlage
DE19521927A1 (de) * 1995-06-09 1996-12-12 Inst Automation Und Kommunikat Verfahren und Vorrichtung zur verkehrsabhängigen Grünzeitanpassung in einer Verkehrssignalanlage
WO1997034274A1 (de) * 1996-03-12 1997-09-18 Siemens Aktiengesellschaft Verkehrsabhängige steuerung von verkehrs-lichtsignalanlagen mit hilfe von fuzzy-logik
JP2000035956A (ja) * 1998-07-17 2000-02-02 Japan Science & Technology Corp エージェント学習装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAVILLA J ET AL: "FUZZY TRAFFIC CONTROL: ADAPTIVE STRATEGIES", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS,US,NEW YORK, IEEE, vol. CONF. 2, 28 March 1993 (1993-03-28), pages 506 - 511, XP000371467, ISBN: 0-7803-0614-7 *
HOYER R ET AL: "FUZZY CONTROL OF TRAFFIC LIGHTS", PROCEEDINGS OF THE CONFERENCE ON FUZZY SYSTEMS,US,NEW YORK, IEEE, vol. CONF. 3, 26 June 1994 (1994-06-26), pages 1526 - 1531, XP000526905, ISBN: 0-7803-1897-8 *
PATENT ABSTRACTS OF JAPAN vol. 2000, no. 05 14 September 2000 (2000-09-14) *
SAYERS T ET AL: "TRAFFIC RESPONSIVE SIGNAL CONTROL USING FUZZY LOGIC - A PRACTICAL MODULAR APPROACH", COLLOQUIUM ON FUZZY LOGIC CONTROLLERS IN PRACTICE,GB,LONDON, 15 November 1996 (1996-11-15), pages 5 - 1-5-04, XP002035546 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599219A (zh) * 2008-06-04 2009-12-09 新南威尔士州道路交通管理局 交通信号控制系统
EP2187369A3 (de) * 2008-06-04 2012-03-28 Roads and Traffic Authority of New South Wales System zur Verkehrssignalregelung
AU2009202225B2 (en) * 2008-06-04 2013-11-21 Transport For Nsw Traffic Signals Control System
WO2011157745A1 (en) 2010-06-15 2011-12-22 The Provost, Fellows And Scholars Of The College Of The Holy And Undivided Trinity Of Queen Elizabeth, Near Dublin Decentralised autonomic system and method for use in an urban traffic control environment
US9256371B2 (en) 2013-05-28 2016-02-09 Globalfoundries Inc. Implementing reinforcement learning based flash control
CN111489568A (zh) * 2019-01-25 2020-08-04 阿里巴巴集团控股有限公司 交通信号灯的调控方法、装置及计算机可读存储介质
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
CN111368897A (zh) * 2020-02-28 2020-07-03 中南大学 基于状态转移算法的除铜过程的犹豫模糊c均值聚类方法
CN111368897B (zh) * 2020-02-28 2023-06-20 中南大学 基于状态转移算法的除铜过程的犹豫模糊c均值聚类方法

Similar Documents

Publication Publication Date Title
EP3611710B1 (de) Verkehrsflusssimulator
DE69302745T2 (de) Verkehrsmodellierungs- und Vorhersagesystem mit künstlicher Intelligenz
DE69132003T2 (de) Fuzzy-Inferenz-basiertes System und darin enthaltenes neuronales Netzwerk
DE69124414T2 (de) Verfahren und Vorrichtung zum Messen des Verkehrsflusses
DE3689049T2 (de) Selbstanpassender Prozessor.
Wilson et al. Calibration and testing of the SELNEC transport model
EP1298620B1 (de) System zum Steuern von Lichtsignalgebern an Kreuzungen
DE102007001025A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP2849151A1 (de) Verfahren zur Analyse von freien Warteschlangen
WO2019206775A1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neurona-len netzes
DE112013005457T5 (de) Verfahren zum Vorhersagen der künftigen Fahrzeit auf einer Strecke
DE19858477B4 (de) Verfahren zum Ermitteln von Verkehrsinformationen
EP3785169A1 (de) Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne
DE102018008685A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes, künstliches neuronales Netz, Verwendung eines künstlichen neuronalen Netzes sowie entsprechendes Computerprogramm maschinenlesbares Speichermedium und entsprechende Vorrichtung
DE102020120479A1 (de) Fusion von Strassenkarten
WO2001086359A2 (de) Fuzzy-steuerung mit reinforcement-lernverfahren
WO2001086610A1 (de) Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem
EP3937151A1 (de) Vorrichtung und verfahren zur steuerung eines verkehrsflusses in einem verkehrsnetz durch einen optimalen signalphasenplan
DE102019201930A1 (de) Verfahren zum Erzeugen eines Umfeldmodells
WO2001018767A1 (de) Steuerungsvorrichtung für eine verkehrsampelkreuzung
DE19752605A1 (de) Verfahren und Anordnung zur rechnergestützten Ermittlung einer in Meßdaten enthaltenen Struktur unter Verwendung von Fuzzy Clustering
DE19944888A1 (de) Verkehrslageerfassung mit Fuzzy-Klassifikation und mehrdimensionaler morphologischer Datenfilterung und dynamischer Domänenbildung
DE102021133977A1 (de) Verfahren und System zur Klassifikation von Szenarien eines virtuellen Tests sowie Trainingsverfahren
EP2466531A1 (de) Verfahren zum Erstellen von Navigationsfeldern und Verfahren und Vorrichtung zur dynamischen Wegeplanung
DE102019128223A1 (de) Verfahren, Vorrichtungen und Computerprogramme

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP