WO2020207789A1 - Verfahren und vorrichtung zum ansteuern einer technischen einrichtung - Google Patents

Verfahren und vorrichtung zum ansteuern einer technischen einrichtung Download PDF

Info

Publication number
WO2020207789A1
WO2020207789A1 PCT/EP2020/058206 EP2020058206W WO2020207789A1 WO 2020207789 A1 WO2020207789 A1 WO 2020207789A1 EP 2020058206 W EP2020058206 W EP 2020058206W WO 2020207789 A1 WO2020207789 A1 WO 2020207789A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
strategy
determined
target
states
Prior art date
Application number
PCT/EP2020/058206
Other languages
English (en)
French (fr)
Inventor
Felix Schmitt
Jan Guenter WOEHLKE
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Priority to CN202080027845.3A priority Critical patent/CN113711139A/zh
Priority to US17/601,366 priority patent/US20220197227A1/en
Publication of WO2020207789A1 publication Critical patent/WO2020207789A1/de

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Definitions

  • Monte Carlo Tree Search and Reinforcement Learning are approaches with which strategies for controlling technical facilities can be found or learned. Strategies that have been found or learned can then be used to control technical equipment.
  • the computer-implemented method for controlling a technical device provides that the technical device is a robot, an at least partially autonomous vehicle, a house control
  • Household appliance a do-it-yourself device, in particular a power tool, a production machine, a personal assistance device, a monitoring system or an access control system, with a state of at least part of the technical device or a
  • the technical device is determined and the technical device is controlled to carry out the at least one action, the strategy, in particular represented by an artificial neural network, with a Reinforcement learning algorithm in interaction with the technical
  • the at least one feedback signal being determined as a function of a target specification, with at least one start state and / or at least one target state for an interaction episode proportional to a value of a continuous one Function is determined, the value by applying the continuous function to a performance measure previously determined for the strategy, by applying the continuous function to a derivative of a determined for the strategy
  • Performance measure by applying the continuous function to the strategy or by a combination of these applications.
  • Target specification includes, for example, reaching a target state g.
  • Any reinforcement learning training algorithm trains a strategy p (a
  • the target specification includes the achievement of target states g, but can, more generally, additionally or instead make specifications with regard to a reward r received.
  • a distinction is made between an actual target for a problem and a temporary target for an episode.
  • the actual objective of the problem is z. B. to reach a goal from every possible starting state or to achieve all possible goals from a starting state.
  • the temporary target of an episode is e.g. B. with goal-based
  • the start and target states of the episodes can in principle be freely selected, if the technical equipment and the environment permit, regardless of the actual target
  • start states s 0 are required for the episodes. If, on the other hand, start states s 0 are permanently specified, then in the case of target-based Reinforcement learning target states g required. In principle, both can be selected.
  • the choice of start / target states during training influences the training behavior of strategy p with regard to achieving the actual objective of the problem. Particularly in scenarios in which the environment only provides sparse rewards r, which rarely means r not equal to 0, the training is very difficult or even impossible and a clever choice of start / target states during the training can make the training progress dramatically with regard to the actual objective of the problem improve or even enable it in the first place.
  • a curriculum of start / finish states is generated over the course of the training.
  • start / finish states for the episodes according to a probability distribution, a meta strategy or p g , which is recalculated from time to time over the course of the training.
  • p g a meta strategy
  • This condition-dependent performance measure is based on
  • the performance measure for example, represents a
  • Target achievement probability with which the achievement of the target specification is estimated for each state as a possible start or target state.
  • Start / target states are, for example, according to a
  • Probability distribution chosen For example, it is known
  • the probability distribution generated by this application represents a meta-strategy for the selection of start / finish states. Certain explicit designs of the meta-strategy empirically show an improved training progress compared to a conventional one
  • Reinforcement learning algorithm with or without a curriculum of start / finish states.
  • fewer or no hyperparameters i.e. Setting parameters for determining the curriculum.
  • the meta-strategies can be successfully applied to many different environments, since, for example, no assumptions have to be made about the environment dynamics or the target state g does not have to be known from the outset in the case of a fixed target state.
  • unlike conventional demonstration-based algorithms there are no demonstrations of a
  • the start states and / or target states are according to a
  • start states s 0 are sampled.
  • target states g are sampled. Both states can also be sampled.
  • a performance measure is used for target states g. Additionally or
  • a derivation of the respective performance measure for example the gradient, or the, in particular, temporal
  • the meta-strategy defines either the start states s 0 or the target states g of the interaction episodes with the environment or both.
  • the meta-strategy for the choice of starting states s 0 is through the
  • Performance measure a derivation of the performance measure, for example the gradient, the change in particular over time
  • Meta strategy p 9 for the choice of target states g is through the
  • Performance measure a derivation of the performance measure, for example the gradient which in particular defines the change in the performance measure over time and / or the strategy p (a
  • This procedure is very general and can be used depending on the selection the performance measure, the mathematical operations potentially applied thereon, ie derivation or, in particular, temporal change, and the continuous function G for determining the state distribution assume many different concrete forms. There have to be less or none
  • Hyperparameters are set that determine the success or failure of the
  • Sensible start states that accelerate the training process, or even make it possible in difficult environments, can be selected, for example, when selecting start states proportional to a continuous function G applied to the derivative or the gradient of the performance measure with regard to the state exactly at a limit , at the states with high
  • Target achievement probability or performance are next to those with lower.
  • the derivative or the gradient provides information about the change in the performance measure.
  • a local improvement of the strategy is sufficient to improve the probability of target achievement or the performance of the states with a previously low probability of target achievement or
  • start states are applied in a directed manner in accordance with a criterion and can be prioritized for a performance measure. The same applies to a spread of the target states if these are chosen.
  • the performance measure is estimated.
  • the estimated measure of performance represents a good approximation of the performance measure.
  • the estimated performance measure is defined by a state-dependent target achievement probability, which is determined for possible states or a subset of possible states, with the strategy starting from the starting state at least one action and at least one from an execution of the at least one action the technical device is determined to be expected or resulting state, the target achievement probability is determined depending on the target specification, for example a target state, and depending on the at least one expected or resulting state.
  • the probability of target achievement is determined, for example, for all states of the state space or a subset of these states, in that one or more episodes of interaction with the environment, i.e.
  • rollouts are carried out with the strategy based on the selected states as starting states or with the target states of the selected states as target states , with the strategy in each episode starting from the start state at least one action and at least one state to be expected or resulting from an execution of the at least one action by the technical device being determined, the
  • Target achievement probability is determined as a function of the target specification and as a function of at least one expected or resulting state.
  • the target achievement probability indicates, for example, the probability with which a target state g will be reached from the starting state s 0 within a certain number of interaction steps.
  • the rollouts are part of the reinforcement learning training or are carried out in addition.
  • the estimated performance measure is defined by a value function or an advantage function which is determined as a function of at least one state and / or at least one action and / or the starting state and / or the target state.
  • a value function or advantage function can also be used separately from the actual reinforcement learning algorithm, e.g. can be learned by means of monitored learning from the states, rewards, actions and / or target states observed or executed in the interaction with the environment from the reinforcement learning training.
  • the estimated performance measure is defined by a parametric model, the model being learned as a function of at least one state and / or at least one action and / or the starting state and / or the target state.
  • the model can be used by the reinforcement learning algorithm itself or separately from the actual reinforcement learning algorithm, for example by means of monitored learning from the reinforcement learning training in interaction with the environment observed or executed states, rewards, actions and / or target states can be learned.
  • the strategy is trained through interaction with the technical device and / or the environment, with at least one start state being determined as a function of a start state distribution and / or with at least one target state depending on a
  • Target state distribution is determined. This enables a particularly effective learning of the strategy.
  • a state distribution is defined as a function of the continuous function, the state distribution either defining a probability distribution over start states for a given target state, or one for a given start state
  • the state distribution represents a meta-strategy. As already explained in the previous sections, this improves or even enables the learning behavior of the strategy by means of reinforcement learning, in the case of sparse feedback from the environment. The result is a better strategy, the better
  • Interaction episode is determined, the state, in particular in the case of a discrete, finite state space, being determined by a sampling method depending on the state distribution, with a finite set of possible states in particular for a continuous or infinite state space, in particular by means of a coarse grid approximation of the
  • State space is determined. For example, the state distribution is sampled using a standard sampling method.
  • the start and / or target states are accordingly, for example, according to
  • the input data are defined by data from a sensor, in particular a video, radar, LiDAR, ultrasound, movement, temperature or vibration sensor.
  • a sensor in particular a video, radar, LiDAR, ultrasound, movement, temperature or vibration sensor.
  • the method can be used particularly efficiently with these sensors in particular.
  • the device for controlling the technical device comprises an input for input data from at least one sensor, an output for controlling the technical device and a computing device which is designed to control the technical device depending on the input data according to this method.
  • Fig. 1 is a schematic representation of parts of a device for
  • FIG. 2 shows a first flow chart for parts of a first method for
  • FIG. 3 shows a second flow diagram for parts of a second method for controlling the technical device
  • FIG. 1 A device 100 for controlling a technical device 102 is shown in FIG.
  • the technical device 102 can be a robot, an at least partially autonomous vehicle, a house control, a household appliance
  • Do-it-yourself device in particular a power tool, a manufacturing machine personal assistance device, a surveillance system or a
  • the device 100 comprises an input 104 for input data 106 from a sensor 108 and an output 110 for controlling the technical device 102 with at least one control signal 112 and one
  • a data connection 116 for example a
  • Data bus connects the computing device 114 to the input 104 and the output 110.
  • the sensor 108 detects, for example, information 118 about a state of the technical device 102 or the environment of the technical device 102.
  • the input data 106 are defined in the example by data from the sensor 108.
  • the sensor 108 is, for example, a video, radar, LiDAR, ultrasound, movement, temperature or vibration sensor.
  • the input data 106 are, for example, raw data from the sensor 108 or data that has already been processed. Several, in particular different, sensors can be provided which provide different input data 106.
  • the computing device 114 is designed to determine a state s of the technical device 102 as a function of the input data 106.
  • output 110 is designed to control technical device 102 as a function of an action a, which is determined by computing device 114 as a function of a strategy p.
  • the device 100 is designed to control the technical device 102 as a function of the input data 106 according to a method described below as a function of the strategy p.
  • the technical device comprises a vehicle.
  • Input variables define, for example, a state s of the vehicle.
  • the input variables are, for example, possibly preprocessed positions of other road users, lane markings, traffic signs and / or other sensor data, for example images, videos, radar data, LiDAR data, ultrasound data.
  • the input variables are, for example, from sensors of the vehicle or from other vehicles or data obtained from an infrastructure.
  • An action a defines, for example, output variables for controlling a vehicle.
  • the output variables relate, for example, to action decisions, for example lane changes, increasing or reducing the speed of the vehicle.
  • the strategy p defines the action a to be carried out in a state s.
  • the strategy p can be implemented, for example, as a predetermined set of rules or can be dynamically regenerated on an ongoing basis using Monte Carlo Tree Search.
  • Monte Carlo Tree Search is a heuristic search algorithm that enables a strategy p to be found for some decision processes. Since a fixed set of rules is not well generalized and Monte Carlo Tree Search is very expensive with regard to the required ones
  • Reinforcement learning trains a strategy p (a
  • s) interacts with an environment and receives a reward r.
  • the Environment can include the technical facility in whole or in part.
  • the environment can include the environment of the technical facility in whole or in part.
  • the environment can also include a simulation environment that completely or partially simulates the technical facility and / or the environment of the technical facility.
  • s) is adapted on the basis of this reward r.
  • s) is randomly initialized, for example, before training begins.
  • the training is episodic. An episode i.e. a rollout that defines the
  • the strategy repeatedly controls the technical device with actions a, which results in new states.
  • the episode ends when a target specification, for example including a target state g, or the time horizon T is reached.
  • the following steps are carried out: determining the action a with the strategy p (a
  • an episode is discrete
  • the episodes end, for example, when the number of interaction steps reaches a limit corresponding to the time horizon T or when the target specification, for example a target state g, has been reached.
  • the interaction steps can represent time steps. In this case, the episodes end, for example, when a time limit or the target, for example a target state g, is reached.
  • the starting state s 0 must be determined for such an episode. This can be from a state space S, for example a set of possible states of the technical device and / or its environment or
  • the start states s 0 for the various episodes can be taken from the
  • State space S fixed or uniformly sampled, i.e. uniform to be selected at random.
  • the reward r is potentially only granted very sparsely in at least partially autonomous or automated driving.
  • a positive reward r is used, for example, as feedback for reaching a target position, e.g. a motorway exit, definitely.
  • a negative reward r is used, for example, as feedback for causing a collision or for leaving a
  • Lane determined If, for example, the reward r in at least partially autonomous or automated driving is determined exclusively for achieving a goal, ie reaching a desired target state g, and are the fixed starting states s 0 very far away from target state g or is
  • a curriculum of start states s 0 can be generated, which selects start states s 0 in such a way that often enough rewards r are received from the environment to ensure training progress, whereby the strategy p (a
  • s) is defined, for example, in such a way that any state in the state space S can be reached.
  • a target state g that is very far from the starting state s 0 of a rollout also means that there are only a few rewards r from the environment and the learning process is inhibited or impossible as a result.
  • a curriculum of target states g can be generated in this case, which selects target states g with a given starting state s 0 in such a way that often enough rewards r are received from the environment to ensure training progress, whereby the strategy p ( a
  • s) is defined, for example, such that, for example, any
  • State in the state space S can be reached.
  • a stochastic meta-strategy can be based on the strategy p (a
  • the stochastic meta strategy is in this example dependent on a performance measure, on a derivation of the performance measure, for
  • Example the gradient defined by a change in the measure of performance and the actual strategy p (a
  • Performance measure for example the gradient , the change in the performance measure and / or the strategy p (a
  • Start states s 0 can thus be selected depending on the meta strategy.
  • a stochastic meta-strategy can be based on the strategy p (a
  • the stochastic meta-strategy is dependent on a performance measure , from a derivation of the performance measure, for example the gradient , defined by a change in the measure of performance and the actual strategy p (a
  • the change is
  • Performance measure for example the gradient , the change in the performance measure and / or the strategy p (a
  • the meta-strategy defines a probability distribution
  • Target states g are therefore dependent on the meta strategy
  • any combination thereof is used to determine the starting states s 0 of one or more episodes of interaction with the environment. For example,
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization. For example, the following is sampled:
  • S N (s) represents the set of all neighboring states of s, ie all states S N that can be reached by s by any action a in one time step.
  • Start states s 0 can be sampled with proportional to the value of the continuous function G applied to the gradient
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization. For example, the following is sampled:
  • Start states s 0 can be sampled proportionally to the value of the continuous function G applied to the change
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization. For example, the following is sampled:
  • Start states s 0 can be sampled proportionally to the value of the continuous function G applied to the performance measure and the strategy
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization.
  • sampling is carried out with: where in this case the value function with
  • State space S or a subset of these states proportional to the value of a continuous function G can be determined as the target state g.
  • the function G is based on the performance measure , to a derivative, for example the
  • any combination thereof is used to determine the target states g of one or more episodes of interaction with the environment. For example,
  • Target states g for discrete, finite state spaces are, for example, dependent on the performance measure] p . proportional to the value of the continuous function
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization. For example, the following is sampled:
  • Target states g can be sampled with proportional to the value of the continuous function G applied to the gradient
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization. For example, the following is sampled:
  • Target states g can be sampled with proportional to the value of the continuous function G applied to the change
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization. For example, the following is sampled:
  • Target states g can be applied proportionally to the value of the continuous function G to the performance measure] p. and the strategy ni (a ⁇ s, g) sampled with
  • exemplary continuous functions G are specified in the numerator, which fulfill this relationship in particular as a function of a denominator serving for normalization.
  • the following is used for sampling: where in this case the value function (with
  • finite state spaces S can also be applied to continuous state spaces through modification.
  • the estimate of the performance measure is equivalent.
  • the derivatives can also be calculated for the performance measure, particularly in the case of a parametric model. For the sampling of the start states or target states from a continuous state space or a discrete state space with an infinite number of states, for example, a grid approximation of the state space is carried out or a number of states is pre-sampled in order to determine a finite number of states.
  • the derivative dependent determination i.e. the gradient-based criterion described in this way, as well as the criteria that apply the continuous function to the performance measure and strategy, are particularly advantageous with regard to the training progress and thus the performance.
  • FIG. 2 shows a first flow chart for parts of a first method for controlling the technical device 102.
  • s) for a given target state g is shown schematically.
  • FIG. 2 shows in more detail how a start state selection with the meta strategy , the strategy p (a
  • a step 202 one or more start states s 0 are determined.
  • the meta strategy generates start states s 0 on the basis of the performance measure, possibly certain ones
  • a step 204 the start states s 0 from
  • the algorithm for reinforcement learning collects in episodic
  • episodes of the interaction between strategy and environment, rollouts are carried out repeatedly.
  • steps 206 to 212 are carried out iteratively in an episode or a rollout, for example until a maximum number of interaction steps is reached, or the
  • Target for example target state g
  • s) selects an action a in step 206, which is carried out in the environment in step 208, whereupon in step 210 a new state s 'corresponds to the dynamics p (s' ⁇ s, a) and a reward r (can be 0) corresponding to r (s, a) is determined, which is transferred to the reinforcement learning algorithm in step 212.
  • FIG. 3 shows a second flow chart for parts of a second method for controlling the technical device 102.
  • the learning of the strategy p (a ⁇ s, g) for a predetermined starting state s 0 is shown schematically.
  • Figure 3 shows in more detail how a target state selection with the meta strategy, the strategy p (a
  • a value function for example, the function V (s, g) or Q (s, a, g) or a benefit function, i.e.
  • one or more target states g are determined.
  • the meta strategy generates target states g on the basis of the performance measure, possibly certain ones
  • the algorithm for reinforcement learning collects in episodic
  • episodes of the interaction between strategy and environment, rollouts are carried out repeatedly.
  • steps 306 to 312 are carried out iteratively in an episode / rollout, for example until a maximum number of interaction steps is reached or the target specification, for example the target state g selected for this episode, is reached.
  • s, g) selects an action a in step 306, which is carried out in the environment in step 308, whereupon in step 310 a new state corresponds to the dynamics p (s' ⁇ s, a) s' and correspondingly r (s, a) a reward r (can be 0) can be determined, which are transferred to the reinforcement learning algorithm in step 312.
  • a new episode then begins with a new target state g. Tuples (s, a, s', r, g) generated during an episode result in a
  • Trajectory t ⁇ (s, a, s', r, g) ⁇ .
  • the result is the updated strategy p i + 1 (a ⁇ s, g) which in subsequent episodes selects the actions a on the basis of the state s and the current target g for the episode.
  • FIG. 4 shows a third flow chart for parts of the first method for controlling the technical device 102.
  • FIG. 4 shows a cycle of the start state selection.
  • Several starting states can be determined for the episodes of one or more iterations of the strategy p (a
  • the performance measure certainly. In the example, the performance measure determined by the fact that it is valued: .
  • the target achievement probability for each state is calculated from the rollout data t of previous training episodes
  • step 404 the gradient, a derivative or the change over time of the performance measure or the estimated
  • a step 406 the starting state distribution is determined.
  • values of the continuous function G are determined in the example by applying the function G to the performance measure on a derivative or the gradient of the performance measure, the change in the
  • a state s is determined proportionally to the associated value of the continuous function G as the starting state s 0 .
  • the meta-strategy defined as a function of the continuous function G provides a probability distribution over the
  • Start states s 0 represent a predetermined target state g, ie the probability with which a state s is selected as the start state s 0 .
  • the probability distribution may only be determined for a finite set of previously determined states.
  • a rough lattice approximation of the state space can be used for this.
  • start states s 0 are determined using the probability distribution defined as a function of the continuous function G with one of the following options:
  • the start states s 0 are determined by means of rejection sampling
  • Start states s 0 are determined by means of a Markov Chain Monte Carlo sampling of the probability distribution
  • Start states s 0 are determined by a generator that is trained to generate start states according to the start state distribution.
  • start states it is possible, in addition to or instead of these start states, to determine additional start states in the vicinity of these start states with an additional heuristic.
  • the heuristic can include random actions or Brownian motion, for example. This aspect increases the performance or robustness.
  • s) is trained with a reinforcement learning algorithm for one or more training iterations in interaction with the environment.
  • s) is trained through an interaction with the technical device 102 and / or its environment in a large number of training iterations.
  • s) are determined as a function of the start state distribution for this training iteration.
  • the starting states s 0 for different iterations are determined in step 406 corresponding to those for the respective iteration or iterations
  • Interaction with the technical device 102 in this example means a control of the technical device 102 with an action a.
  • step 402 is carried out.
  • Steps 402 to 408 are repeated in the example until the strategy p (a
  • the technical device 102 is then further activated with the strategy p (a
  • FIG. 5 shows a fourth flowchart for parts of the second method for controlling the technical device 102.
  • FIG. 5 shows a cycle of the target state selection.
  • Several target states can be determined for the episodes of one or more iterations of the strategy p (a
  • the performance measure certainly.
  • the performance measure is estimated:.
  • Target achievement probability is calculated, - the target achievement probability for each state is calculated from the rollout data t of previous training episodes,
  • step 504 the gradient, a derivative or the change over time of the performance measure or the estimated
  • the target state distribution is determined.
  • values of the continuous function G are determined in the example by assigning the function G to the performance measure, to a derivative or to the gradient of the
  • Performance measure the change in the performance measure over time
  • a state s is determined as the target state g in proportion to the associated value of the continuous function G.
  • the meta-strategy p 9 defined as a function of the continuous function G represents a probability distribution over the target states g for a given starting state s 0 , ie with which
  • Probability a state s is chosen as the target state g.
  • target states g are determined using the probability distribution defined as a function of the continuous function G with one of the following options:
  • Target states g are in particular for a discrete, finite one
  • State space S determined according to the probability distribution over the target states g, i.e. sampled directly
  • Target states g are determined by means of a Markov Chain Monte Carlo sampling of the probability distribution
  • Target states g are determined by a generator which is trained to generate target states according to the target state distribution.
  • the heuristic can include random actions or Brownian motion, for example. This aspect increases the performance or robustness.
  • s, g) is trained with a reinforcement learning algorithm for one or more training iterations in interactions with the environment.
  • s, g) are determined as a function of the target state distribution for these training iterations.
  • the target states g for different iterations are determined in step 506 corresponding to those for the respective iteration or iterations
  • Interaction with the technical device 102 in this example means a control of the technical device 102 with an action a.
  • Steps 502 to 508 are repeated in the example until the strategy p (a
  • the technical device 102 is then further activated with the strategy p (a
  • the start and / or the target state selection algorithm receives from the reinforcement learning algorithm the current strategy, data collected during the interaction episodes of previous training iterations and / or a value or benefit function. On the basis of these components, the start and / or target state selection algorithm first estimates the performance measure. If necessary, the derivation, or in particular the change over time, of this performance measure is determined. The start and / or
  • Target state distribution the meta strategy, determined by applying the continuous function. If necessary, the derivation or, in particular, the change in the performance measure over time and / or the strategy is used. Finally, the start and / or the
  • Target state selection algorithm the reinforcement learning algorithm the specific start and / or the specific target state distribution that
  • the reinforcement learning algorithm trains the strategy for the corresponding number of training iterations, with the start and / or target states of the one or more interaction episodes within the
  • Training iterations are determined in accordance with the meta strategy of the start and / or target state selection algorithm. Then the process starts from the beginning until the strategy reaches a quality criterion or a maximum number of training iterations has been carried out.
  • the strategies described are implemented, for example, as artificial neural networks, the parameters of which are updated in iterations.
  • the meta strategies described are probability distributions that are calculated from data. In one aspect, these meta strategies access neural networks, the parameters of which are updated in iterations.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

Computerimplementiertes Verfahren und Vorrichtung (100) zum Ansteuern einer technischen Einrichtung (102), wobei die technischen Einrichtung (102) ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein Haushaltsgerät, ein Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein Überwachungssystem oder ein Zutrittskontrollsystem ist, wobei die Vorrichtung (100) einen Eingang (104) für Eingangsdaten (106) von wenigstens einem Sensor (108), einen Ausgang (110) zum Ansteuern der technischen Einrichtung (102) mittels eines Ansteuersignals (112) und eine Recheneinrichtung (114) umfasst, die ausgebildet ist, die technische Einrichtung (102) abhängig von den Eingangsdaten (106) anzusteuern, wobei abhängig von Eingangsdaten (106) ein Zustand wenigstens eines Teils der technischen Einrichtung (102) oder einer Umgebung der technischen Einrichtung (102) bestimmt wird, wobei wenigstens eine Aktion abhängig vom Zustand und von einer Strategie für die technische Einrichtung (102) bestimmt wird und wobei die technische Einrichtung (102) dazu angesteuert wird, die wenigstens eine Aktion auszuführen, wobei die Strategie, insbesondere repräsentiert durch ein künstliches neuronales Netz, mit einem Reinforcement Learning Algorithmus in Interaktion mit der technischen Einrichtung (102) oder einer Umgebung der technischen Einrichtung (102) abhängig von wenigstens einem Feedback-Signal erlernt wird, wobei das wenigstens eine Feedback-Signal abhängig von einer Zielvorgabe bestimmt wird, wobei wenigstens ein Startzustand und/oder wenigstens ein Zielzustand für eine Interaktionsepisode proportional zu einem Wert einer stetigen Funktion bestimmt wird, wobei der Wert durch Anwendung der stetigen Funktion auf ein zuvor für die Strategie bestimmtes Performancemaß, durch Anwendung der stetigen Funktion auf eine Ableitung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf eine insbesondere zeitliche Änderung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf die Strategie oder durch eine Kombination dieser Anwendungen bestimmt wird.

Description

Beschreibung
Titel
Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung
Stand der Technik
Monte Carlo Tree Search und Reinforcement Learning sind Ansätze, mit denen Strategien zum Ansteuern technischer Einrichtungen auffindbar oder erlernbar sind. Einmal aufgefundene oder erlernte Strategien sind dann zur Ansteuerung technischer Einrichtungen ersetzbar.
Wünschenswert ist es, das Auffinden oder Erlernen einer Strategie zu beschleunigen oder erst zu ermöglichen.
Offenbarung der Erfindung
Dies wird durch das computerimplementierte Verfahren und die Vorrichtung nach den unabhängigen Ansprüchen erreicht.
Das computerimplementierte Verfahren zum Ansteuern einer technischen Einrichtung sieht vor, dass die technischen Einrichtung ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein
Haushaltsgerät, ein Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein Überwachungssystem oder ein Zutrittskontrollsystem ist, wobei abhängig von Eingangsdaten ein Zustand wenigstens eines Teils der technischen Einrichtung oder einer
Umgebung der technischen Einrichtung bestimmt wird, wobei wenigstens eine Aktion abhängig vom Zustand und von einer Strategie für die technische
Einrichtung bestimmt wird und wobei die technische Einrichtung dazu angesteuert wird, die wenigstens eine Aktion auszuführen, wobei die Strategie, insbesondere repräsentiert durch ein künstliches neuronales Netz, mit einem Reinforcement Learning Algorithmus in Interaktion mit der technischen
Einrichtung oder der Umgebung der technischen Einrichtung abhängig von wenigstens einem Feedback-Signal erlernt wird, wobei das wenigstens eine Feedback-Signal abhängig von einer Zielvorgabe bestimmt wird, wobei wenigstens ein Startzustand und/oder wenigstens ein Zielzustand für eine Interaktionsepisode proportional zu einem Wert einer stetigen Funktion bestimmt wird, wobei der Wert durch Anwendung der stetigen Funktion auf ein zuvor für die Strategie bestimmtes Performancemaß, durch Anwendung der stetigen Funktion auf eine Ableitung eines für die Strategie bestimmten
Performancemaßes, durch Anwendung der stetigen Funktion auf eine
insbesondere zeitliche Änderung eines für die Strategie bestimmten
Performancemaßes, durch Anwendung der stetigen Funktion auf die Strategie oder durch eine Kombination dieser Anwendungen bestimmt wird. Die
Zielvorgabe umfasst beispielweise das Erreichen eines Zielzustands g. Ein beliebiger Reinforcement Learning Trainingsalgorithmus trainiert in Interaktion mit einer Umgebung über mehrere Iterationen hinweg eine Strategie p (a|s) oderp (a|s, g). Die Interaktion mit der Umgebung findet in Interaktionsepisoden, d.h. Episoden oder Rollouts, statt, die in einem Startzustand s0 beginnen und durch Erreichen einer Zielvorgabe oder eines maximalen Zeithorizontes T enden. Die Zielvorgabe beinhaltet im Falle von zielbasiertem Reinforcement Learning das Erreichen von Zielzuständen g, kann allgemeiner aber zusätzlich oder stattdessen Vorgaben bezüglich einer erhaltenen Belohnung r machen. Im Folgenden wird zwischen einer eigentlichen Zielvorgabe einer Problemstellung und einer temporären Zielvorgabe einer Episode unterschieden. Die eigentliche Zielvorgabe der Problemstellung ist z. B. von jedem möglichen Startzustand ein Ziel zu erreichen oder von einem Startzustand alle möglichen Ziele zu erreichen. Die temporäre Zielvorgabe einer Episode ist z. B. bei zielbasiertem
Reinforcement Learning das Erreichen eines bestimmten Ziels vom Startzustand der Episode aus.
Während eines Trainings können die Start- und Zielzustände der Episoden prinzipiell, wenn die technische Einrichtung und die Umgebung das zulassen, frei gewählt werden, unabhängig von der Zielvorgabe der eigentlichen
Problemstellung. Ist ein Zielzustand g oder sind mehrere Zielzustände fest vorgegeben, so werden Startzustände s0 für die Episoden benötigt. Sind dagegen Startzustände s0 fest vorgegeben so werden im Falle von zielbasiertem Reinforcement Learning Zielzustände g benötigt. Es kann prinzipiell auch beides gewählt werden.
Die Wahl von Start- / Zielzuständen während des Trainings beeinflusst das Trainingsverhalten der Strategie p im Hinblick auf das Erreichen der eigentlichen Zielvorgabe der Problemstellung. Insbesondere in Szenarien in denen die Umgebung nur spärlich Belohnungen r, das bedeutet selten r ungleich 0, gewährt, ist das Training sehr schwierig bis unmöglich und eine geschickte Wahl von Start- / Zielzuständen während des Trainings kann den Trainingsfortschritt bezüglich der eigentlichen Zielvorgabe der Problemstellung immens verbessern oder gar erst ermöglichen.
In dem Verfahren wird über den Verlauf des Trainings ein Curriculum von Start- / Zielzuständen generiert. Dies bedeutet, dass Start- / Zielzustände für die Episoden entsprechend einer Wahrscheinlichkeitsverteilung, einer Meta- Strategie
Figure imgf000005_0001
bzw. pg , gewählt werden, die über den Trainingsverlauf hinweg, von Zeit zu Zeit, neu berechnet wird. Dies geschieht, indem eine stetige Funktion G auf ein geschätztes, zustandsabhängiges Performancemaß angewandt
Figure imgf000005_0002
wird. Dieses zustandsabhängige Performancemaß wird auf Grundlage von
Figure imgf000005_0003
aus der Interaktion der Strategie p mit der Umgebung gesammelten Daten, d.h. Zuständen s, Aktionen a, Belohnungen r und / oder zusätzlich gesammelten Daten geschätzt. Das Performancemaß stellt beispielsweiße eine
Figure imgf000005_0004
Zielerreichungswahrscheinlichkeit dar, mit der das Erreichen der Zielvorgabe für jeden Zustand als möglichen Start- bzw. Zielzustand abgeschätzt wird.
Start- / Zielzustände werden beispielsweise entsprechend einer
Wahrscheinlichkeitsverteilung gewählt. Beispielsweise ist es bekannt,
Startzustände entsprechend einer uniformen Verteilung über alle möglichen Zustände zu wählen. Durch Verwendung einer Wahrscheinlichkeitsverteilung, die durch Anwendung einer stetigen Funktion auf das Performancemaß , auf eine
Figure imgf000005_0005
Ableitung des Performancemaßes, auf eine insbesondere zeitliche Änderung des Performancemaßes, auf die Strategie p oder eine Kombination dieser
Anwendungen bestimmt wird, verbessert sich der Trainingsfortschritt signifikant. Die durch diese Anwendung generierte Wahrscheinlichkeitsverteilung stellt eine Meta-Strategie zur Auswahl von Start- / Zielzuständen dar. Bestimmte explizite Ausgestaltungen der Meta-Strategie zeigen empirisch einen verbesserten Trainingsfortschritt im Vergleich zu einem herkömmlichen
Reinforcement Learning Algorithmus mit oder ohne Curriculum von Start- / Zielzuständen. Im Gegensatz zu bestehenden Curriculums Ansätzen müssen weniger oder keine Hyperparameter, d.h. Einstellgrößen für die Bestimmung des Curriculums, bestimmt werden. Darüber hinaus sind die Meta-Strategien auf viele verschiedenen Umgebungen erfolgreich anwendbar, da beispielsweise keine Annahmen über die Umgebungsdynamik getroffen werden müssen oder der Zielzustand g im Falle eines fest vorgegebenen Zielzustandes nicht von vornherein bekannt sein muss. Zudem werden im Gegensatz zu herkömmlichen demonstrationsbasierten Algorithmen keine Demonstrationen einer
Referenzstrategie benötigt.
Die Startzustände und/oder Zielzustände werden entsprechend einer
Zustandsverteilung bestimmt. Diese können gesampelt werden, d.h. sie sind mittels der abhängig von der stetigen Funktion G bestimmten Metastrategie bzw. p9 auffindbar. Bei vorgegebenem Zielzustand g werden Startzustände s0 gesampelt. Bei vorgegebenem Startzustand s0 werden Zielzustände g gesampelt. Es können auch beide Zustände gesampelt werden. Für
Startzustände s0 wird ein Performancemaß verwendet. Für
Figure imgf000006_0001
Zielzustände g wird ein Performancemaß verwendet. Zusätzlich oder
Figure imgf000006_0002
alternativ wird eine Ableitung des jeweiligen Performancemaßes, zum Beispiel der Gradient , oder die insbesondere zeitliche
Figure imgf000006_0003
Änderung des jeweiligen Performancemaßes
Figure imgf000006_0004
, oder die Strategie p (a|s) bzw. p (a|s, g), verwendet. In einer Iteration i des Trainings der Strategie definiert die Metastrategie entweder die Startzustände s0 oder die Zielzustände g der Interaktionsepisoden mit der Umgebung oder beides. Die Metastrategie für die Wahl von Startzuständen s0 ist durch das
Performancemaß
Figure imgf000006_0005
, eine Ableitung des Performancemaßes, zum Beispiel den Gradienten , die insbesondere zeitliche Änderung des
Figure imgf000006_0006
Performancemaßes und/oder die Strategie p (a|s) definiert. Die
Figure imgf000006_0007
Metastrategie p9 für die Wahl von Zielzuständen g ist durch das
Performancemaß
Figure imgf000006_0008
, eine Ableitung des Performancemaßes, zum Beispiel den Gradienten
Figure imgf000006_0009
, die insbesondere zeitliche Änderung des Performancemaßes und/oder die Strategie p (a|s, g) definiert.
Figure imgf000006_0010
Diese Vorgehensweise ist sehr allgemein anwendbar und kann je nach Auswahl des Performancemaßes, der darauf potentiell angewendeten mathematischen Operationen, d.h. Ableitung oder insbesondere zeitliche Änderung, und der stetigen Funktion G zur Bestimmung der Zustandsverteilung viele verschiedene konkrete Ausprägungen annehmen. Es müssen weniger bzw. keine
Hyperparameter festgelegt werden, die über Erfolg oder Misserfolg des
Vorgehens entscheiden können. Es werden keine Demonstrationen für die Erfassung einer Referenzstrategie benötigt. Sinnvolle Startzustände, die den Trainingsprozess beschleunigen, bzw. in schwierigen Umgebungen überhaupt erst ermöglichen, sind unter anderem, beispielweise bei der Auswahl von Startzuständen proportional zu einer stetigen Funktion G angewendet auf die Ableitung oder den Gradienten des Performancemaßes bezüglich des Zustands genau an einer Grenze auswählbar, an der Zustände mit hoher
Zielerreichungswahrscheinlichkeit oder Performance neben solchen mit niedriger liegen. Die Ableitung oder der Gradient liefert hierbei Information über die Änderung des Performancemaßes. Eine lokale Verbesserung der Strategie ist ausreichend, um die Zielerreichungswahrscheinlichkeit oder Performance der Zustände mit vormals niedriger Zielerreichungswahrscheinlichkeit oder
Performance zu erhöhen. Im Gegensatz zu einer ungerichteten Ausbreitung der Startzustände werden Startzustände gerichtet entsprechend einem Kriterium angewendet auf ein Performancemaß priorisierbar. Dasselbe gilt für eine Ausbreitung der Zielzustände, wenn diese gewählt werden.
Vorzugsweise ist vorgesehen, dass das Performancemaß geschätzt wird. Das geschätzte Performancemaß
Figure imgf000007_0001
stellt eine gute Näherung für das Performancemaß dar. Das geschätzte Performancemaß
Figure imgf000007_0004
Figure imgf000007_0002
stellt eine gute Näherung für das Performancemaß dar.
Figure imgf000007_0003
Vorzugsweise ist vorgesehen, dass das geschätzte Performancemaß durch eine zustandsabhängige Zielerreichungswahrscheinlichkeit definiert ist, die für mögliche Zustände oder eine Untermenge von möglichen Zuständen bestimmt wird, wobei mit der Strategie ausgehend vom Startzustand wenigstens eine Aktion und wenigstens ein, aus einer Ausführung der wenigstens einen Aktion durch die technische Einrichtung zu erwartender oder resultierender Zustand bestimmt wird, wobei die Zielerreichungswahrscheinlichkeit abhängig von der Zielvorgabe, beispielsweise einem Zielzustand, und abhängig vom wenigstens einen zu erwartenden oder resultierenden Zustand bestimmt wird. Die Zielerreichungswahrscheinlichkeit wird beispielsweise für alle Zustände des Zustandsraumes oder eine Untermenge dieser Zustände bestimmt, indem ausgehend von den gewählten Zuständen als Startzuständen beziehungsweise mit Zielvorgabe der gewählten Zustände als Zielzustände jeweils ein oder mehrere Episoden der Interkation mit der Umgebung, d.h. Rollouts, mit der Strategie durchgeführt werden, wobei mit der Strategie in jeder Episode ausgehend vom Startzustand wenigstens eine Aktion und wenigstens ein, aus einer Ausführung der wenigstens einen Aktion durch die technische Einrichtung zu erwartender oder resultierender Zustand bestimmt wird, wobei die
Zielerreichungswahrscheinlichkeit abhängig von der Zielvorgabe und abhängig vom wenigstens einen zu erwartenden oder resultierenden Zustand bestimmt wird. Die Zielerreichungswahrscheinlichkeit gibt beispielsweise an, mit welcher Wahrscheinlichkeit ein Zielzustand g vom Startzustand s0 innerhalb einer gewissen Anzahl Interaktionsschritte erreicht wird. Die Rollouts sind etwas Teil des Reinforcement Learning Trainings oder werden zusätzlich durchgeführt.
Vorzugsweise ist vorgesehen, dass das geschätzte Performancemaß durch eine Wertefunktion oder eine Vorteilsfunktion definiert ist, die abhängig von wenigstens einem Zustand und/oder wenigstens einer Aktion und/oder vom Startzustand und/oder vom Zielzustand bestimmt wird. Die Wertefunktion ist beispielsweise die value function V(s), Q(s, a), V{s, g), Q(s, a, g ) oder eine daraus resultierende advantage function A(s, a) = Q(s, a ) - V(s) oder A(s, a, g) = Q(s, a, g) - V(s, g) die von manchen Reinforcement Learning Algorithmen ohnehin bestimmt wird. Eine value function oder advantage function kann auch separat zum eigentlichen Reinforcement Learning Algorithmus z.B. mittels überwachten Lernens aus den aus dem Reinforcement Learning Training in der Interaktion mit der Umgebung beobachteten oder ausgeführten Zuständen, Belohnungen, Aktionen und/oder Zielzuständen gelernt werden.
Vorzugsweise ist vorgesehen, dass das geschätzte Performancemaß durch ein parametrisches Modell definiert ist, wobei das Modell abhängig von wenigstens einem Zustand und/oder wenigstens einer Aktion und/oder vom Startzustand und/oder vom Zielzustand gelernt wird. Das Modell kann vom Reinforcement Learning Algorithmus selbst oder separat zum eigentlichen Reinforcement Learning Algorithmus z.B. mittels überwachten Lernens aus den aus dem Reinforcement Learning Training in der Interaktion mit der Umgebung beobachteten oder ausgeführten Zuständen, Belohnungen, Aktionen und/oder Zielzuständen gelernt werden.
Vorzugsweise ist vorgesehen, dass die Strategie durch Interaktion mit der technischen Einrichtung und/oder der Umgebung trainiert wird, wobei wenigstens ein Startzustand abhängig von einer Startzustandsverteilung bestimmt wird und/oder wobei wenigstens ein Zielzustand abhängig von einer
Zielzustandsverteilung bestimmt wird. Dies ermöglicht ein besonders effektives Erlernen der Strategie.
Vorzugsweise ist vorgesehen, dass abhängig von der stetigen Funktion eine Zustandsverteilung definiert wird, wobei die Zustandsverteilung entweder für einen vorgegebenen Zielzustand eine Wahrscheinlichkeitsverteilung über Startzustände definiert, oder für einen vorgegebenen Startzustand eine
Wahrscheinlichkeitsverteilung über Zielzustände definiert. Die Zustandsverteilung stellt eine Metastrategie dar. Wie bereits in den vorangegangenen Abschnitten erläutert, wird dadurch das Lernverhalten der Strategie mittels Reinforcement Learning, im Falle von spärlichem Feedback der Umgebung, verbessert oder erst ermöglicht. Daraus resultiert eine bessere Strategie, die bessere
Handlungsentscheidungen trifft, und diese als Ausgangsgröße ausgibt.
Vorzugsweise ist vorgesehen, dass für einen vorgegebenen Zielzustand ein Zustand als der Startzustand einer Interaktionsepisode oder für einen
vorgegebenen Startzustand ein Zustand als der Zielzustand einer
Interaktionsepisode bestimmt wird, wobei der Zustand insbesondere im Falle eines diskreten, endlichen Zustandsraumes abhängig von der Zustandsverteilung durch ein Samplingverfahren bestimmt wird, wobei insbesondere für einen kontinuierlichen oder unendlichen Zustandsraum eine endliche Menge möglicher Zustände, insbesondere mittels einer groben Gitter-Approximation des
Zustandsraumes, bestimmt wird. Beispielsweise wird die Zustandsverteilung mittels eines Standardsamplingverfahrens gesampelt. Die Start- und/oder Zielzustände werden dementsprechend beispielweise entsprechend der
Zustandsverteilung mittels direkten Sampling, Rejection Sampling oder Markov Chain Monte Carlo Sampling gesampelt. Es kann das Training eines Generators vorgesehen sein, der Start- und/oder Zielzustände entsprechend der
Zustandsverteilung generiert. In einem kontinuierlichen Zustandsraum oder in einem diskreten Zustandsraum mit unendlich vielen Zuständen wird zuvor beispielsweise eine endliche Menge an Zuständen gesampelt. Dazu kann eine grobe Gitterapproximation des Zustandsraumes verwendet werden.
Vorzugsweise ist vorgesehen, dass die Eingangsdaten durch Daten von einem Sensor, insbesondere einem Video-, Radar-, LiDAR-, Ultraschall-, Bewegungs-, Temperatur- oder Vibrationssensor definiert sind. Insbesondere bei diesen Sensoren ist das Verfahren besonders effizient anwendbar.
Die Vorrichtung zum Ansteuern der technischen Einrichtung umfasst einen Eingang für Eingangsdaten von wenigstens einem Sensor, einen Ausgang zum Ansteuern der technischen Einrichtung und eine Recheneinrichtung, die ausgebildet ist, die technische Einrichtung abhängig von den Eingangsdaten gemäß diesem Verfahren anzusteuern.
Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden
Beschreibung und der Zeichnung. In der Zeichnung zeigt
Fig. 1 eine schematische Darstellung von Teilen einer Vorrichtung zum
Ansteuern einer technischen Einrichtung,
Fig. 2 ein erstes Ablaufdiagramm für Teile eines ersten Verfahrens zum
Ansteuern der technischen Einrichtung,
Fig. 3 ein zweites Ablaufdiagramm für Teile eines zweiten Verfahrens zum Ansteuern der technischen Einrichtung,
Fig. 4 ein drittes Ablaufdiagramm für Teile des ersten Verfahrens zum
Ansteuern der technischen Einrichtung,
Fig. 5 ein viertes Ablaufdiagramm für Teile des zweiten Verfahrens zum
Ansteuern der technischen Einrichtung.
In Figur 1 ist eine Vorrichtung 100 zum Ansteuern einer technischen Einrichtung 102 dargestellt.
Die technische Einrichtung 102 kann ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein Haushaltsgerät, ein
Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein Überwachungssystem oder ein
Zutrittskontrollsystem sein.
Die Vorrichtung 100 umfasst einen Eingang 104 für Eingangsdaten 106 von einem Sensor 108 und einen Ausgang 110 zum Ansteuern der technischen Einrichtung 102 mit wenigstens einem Ansteuersignal 112 und eine
Recheneinrichtung 114. Eine Datenverbindung 116, beispielsweise ein
Datenbus, verbindet die Recheneinrichtung 114 mit dem Eingang 104 und dem Ausgang 110. Der Sensor 108 erfasst beispielsweise Information 118 über einen Zustand der technischen Einrichtung 102 oder der Umgebung der technischen Einrichtung 102.
Die Eingangsdaten 106 sind im Beispiel durch Daten vom Sensor 108 definiert. Der Sensor 108 ist beispielsweise ein Video-, Radar-, LiDAR-, Ultraschall-, Bewegungs-, Temperatur-, oder Vibrationssensor. Die Eingangsdaten 106 sind beispielsweise Rohdaten vom Sensor 108 oder bereits aufbereitete Daten. Es können mehrere insbesondere verschiedene Sensoren vorgesehen sein, die unterschiedliche Eingangsdaten 106 bereitstellen.
Die Recheneinrichtung 114 ist ausgebildet, abhängig von den Eingangsdaten 106 einen Zustand s der technischen Einrichtung 102 zu bestimmen. Der Ausgang 110 ist im Beispiel zum Ansteuern der technischen Einrichtung 102 abhängig von einer Aktion a ausgebildet, die von der Recheneinrichtung 114 abhängig von einer Strategie p bestimmt wird.
Die Vorrichtung 100 ist ausgebildet, die technische Einrichtung 102 abhängig von den Eingangsdaten 106 gemäß einem im Folgenden beschriebenen Verfahren abhängig von der Strategie p anzusteuern.
Im zumindest teilweise autonomen oder automatisierten Fahren umfasst die technische Einrichtung ein Fahrzeug. Eingangsgrößen definieren beispielsweise einen Zustand s des Fahrzeugs. Die Eingangsgrößen sind beispielweise ggf. vorverarbeitete Positionen anderer Verkehrsteilnehmer, Fahrbahnmarkierungen, Verkehrsschilder und/oder anderen Sensordaten, beispielweise Bilder, Videos, Radardaten, LiDAR-Daten, Ultraschalldaten. Die Eingangsgrößen sind beispielsweise von Sensoren des Fahrzeugs oder von anderen Fahrzeugen oder einer Infrastruktur erhaltene Daten. Eine Aktion a definiert beispielsweise Ausgangsgrößen zur Ansteuerung eines Fahrzeugs. Die Ausgangsgrößen betreffen beispielweise Handlungsentscheidungen, beispielsweise Spurwechsel, Geschwindigkeit des Fahrzeugs erhöhen oder erniedrigen. Die Strategie p definiert in diesem Beispiel die Aktion a, die in einem Zustand s auszuführen ist.
Die Strategie p kann beispielsweise als eine vorgegebene Menge Regeln implementiert sein oder unter Verwendung von Monte Carlo Tree Search laufend dynamisch neu generiert werden. Monte Carlo Tree Search ist ein heuristischer Suchalgorithmus, der für manche Entscheidungsprozesse das Auffinden einer Strategie p ermöglicht. Da ein fixes Set an Regeln nicht gut generalisiert und Monte Carlo Tree Search sehr kostspielig bezüglich der benötigten
Rechnerkapazitäten ist, ist der Einsatz von Reinforcement Learning zum Lernen der Strategie p aus Interaktion mit einer Umgebung eine Alternative.
Reinforcement Learning trainiert eine Strategie p(a|s), die beispielsweise durch ein neuronales Netzwerk dargestellt wird, und Zustände s als Eingangsgröße auf Aktionen a als Ausgangsgröße abbildet. Während des Trainings interagiert die Strategie p(a|s) mit einer Umgebung und erhält eine Belohnung r. Die
Umgebung kann die technische Einrichtung ganz oder teilweise umfassen. Die Umgebung kann die Umgebung der technischen Einrichtung ganz oder teilweise umfassen. Die Umgebung kann auch eine Simulationsumgebung umfassen, die die technische Einrichtung und/oder die Umgebung der technischen Einrichtung ganz oder teilweise simuliert.
Auf Grundlage dieser Belohnung r wird die Strategie p(a|s) angepasst. Die Strategie p(a|s) wird beispielsweise vor Beginn des Trainings zufällig initialisiert. Das Training ist episodisch. Eine Episode, d.h. ein Rollout, definiert die
Interaktion der Strategie p(a|s) mit der Umgebung oder der
Simulationsumgebung über einen maximalen Zeithorizont T. Ausgehend von einem Startzustand s0 steuert die Strategie mit Aktionen a wiederholt die technische Einrichtung an, wodurch sich neue Zustände ergeben. Die Episode endet, wenn eine Zielvorgabe, beispielweise einen Zielzustand g umfassend, oder der Zeithorizont T erreicht ist. Während der Episode werden die folgenden Schritte ausgeführt: Bestimmen der Aktion a mit der Strategie p(a|s) im Zustand s; Ausführen der Aktion a im Zustand s; Bestimmen eines daraus resultierenden neuen Zustands s'; Wiederholen der Schritte wobei der neue Zustand s' als Zustand s verwendet wird. Eine Episode wird beispielsweise in diskreten
Interaktionsschritten ausgeführt. Die Episoden enden beispielsweise, wenn die Anzahl der Interaktionsschritte ein Limit entsprechend dem Zeithorizont T erreicht oder wenn die Zielvorgabe, zum Beispiel ein Zielzustand g, erreicht wurde. Die Interaktionsschritte können Zeitschritte darstellen. In diesem Fall enden die Episoden beispielsweise, wenn ein Zeitlimit oder die Zielvorgabe zum Beispiel ein Zielzustand g, erreicht ist.
Für eine derartige Episode muss der Startzustand s0 bestimmt werden. Dieser kann aus einem Zustandsraum S, beispielsweise einer Menge von möglichen Zuständen der technischen Einrichtung und/oder ihrer Umgebung oder
Simulationsumgebung, ausgewählt werden.
Die Startzustände s0 für die verschiedenen Episoden können aus dem
Zustandsraum S festgelegt oder uniform gesampelt, d.h. uniform zufällig ausgewählt werden.
Diese Formen der Auswahl der Startzustände s0 können ein Erlernen der Strategie p(a|s) insbesondere in Szenarien in denen es sehr wenige
Belohnungen r von der Umgebung gibt, verlangsamen oder in hinreichend schwierigen Umgebungen komplett unterbinden. Das liegt daran, dass die Strategie p(a|s) vor Beginn des Trainings zufällig initialisiert wird.
Die Belohnung r wird im zumindest teilweise autonomen oder automatisierten Fahren potentiell nur sehr spärlich gewährt. Eine positive Belohnung r wird beispielsweise als Feedback für das Erreichen einer Zielposition, z.B. einer Autobahnausfahrt, bestimmt. Eine negative Belohnung r wird beispielsweise als Feedback für das Verursachen einer Kollision oder das Verlassen einer
Fahrbahn bestimmt. Wird zum Beispiel die Belohnung r im zumindest teilweise autonomen oder automatisierten Fahren ausschließlich für eine Zielerreichung, d.h. das Erreichen eines gewünschten Zielzustands g, bestimmt, und liegen die fixen Startzustände s0 sehr weit vom Zielzustand g entfernt oder ist der
Zustandsraum S bei uniformem Sampling von Startzuständen s0 sehr groß oder erschweren Hindernisse in der Umgebung zusätzlich das vorankommen, führt das dazu, dass nur sehr selten oder im schlimmsten Fall keine Belohnungen r von der Umgebung erhalten wird, da der Zielzustand g selten bis zum Erreichen der maximalen Anzahl Interaktionsschritte überhaupt erreicht wird, oder erst nach vielen Interaktionsschritten erreicht wird. Dies behindert den Trainingsfortschritt beim Erlernen der Strategie p(a|s) oder macht das Erlernen unmöglich.
Insbesondere im zumindest teilweise autonomen oder automatisierten Fahren ist es sehr schwierig die Belohnung r so zu designen, dass gewünschtes
Fahrverhalten gefördert wird ohne unerwünschte Nebeneffekte zu verursachen.
Als Lösungsmöglichkeit für eine bestimmte Problemstellung kann in diesem Fall ein Curriculum von Startzuständen s0 generiert werden, das Startzustände s0 so wählt, dass oft genug Belohnungen r von der Umgebung erhalten werden, um den Trainingsfortschritt zu gewährleisten wobei die Strategie p(a|s) so definiert ist, dass der Zielzustand g irgendwann aus allen von der Problemstellung vorgesehenen Startzuständen s0 erreicht werden kann. Die Strategie p(a|s) ist beispielsweise so definiert, dass jeder beliebige Zustand im Zustandsraum S erreichbar ist.
Äquivalent dazu ist das Problem einer Zielzustandsauswahl bei vorgegebenem Startzustand s0. Ein Zielzustand g der sehr weit vom Startzustand s0 eines Rollouts entfernt ist, führt ebenfalls dazu, dass es nur wenige Belohnungen r von der Umgebung gibt und dadurch der Lernprozess gehemmt oder unmöglich wird.
Als Lösungsmöglichkeit für eine bestimmte Problemstellung kann in diesem Fall ein Curriculum von Zielzuständen g generiert werden, das Zielzustände g bei vorgegebenem Startzustand s0 so wählt, dass oft genug Belohnungen r von der Umgebung erhalten werden, um den Trainingsfortschritt zu gewährleisten wobei die Strategie p(a|s) so definiert ist, dass sie irgendwann alle von der
Problemstellung vorgesehenen Zielzustände g erreichen kann. Die Strategie p(a|s) ist beispielsweise so definiert, dass beispielsweise jeder beliebige
Zustand im Zustandsraum S erreichbar ist.
Eine derartige Vorgehensweise für ein Curriculum für Startzustände ist beispielsweise offenbart in Florensa et al. , Reverse Curriculum Generation for Reinforcement Learning: https : / /arxiv. org/pdf/1707.05300. pdf. Eine derartige Vorgehensweise für ein Curriculum für Zielzustände ist
beispielsweise offenbart in Held et al. , Automatic Goal Generation for
Reinforcement Learning Agents:
https : //arxiv. org/pdf/1705.06366. pdf.
Für kontinuierliche und diskrete Zustandsräume S kann auf Grundlage der Strategie p (a|s) der Trainingsiteration i eine stochastische Metastrategie
Figure imgf000015_0004
zur Auswahl von Startzuständen s0 für die Episoden einer oder mehrerer nachfolgender Trainingsiterationen des Algorithmus zum Reinforcement Learning definiert werden.
Die stochastische Metastrategie
Figure imgf000015_0005
ist in diesem Beispiel abhängig von einem Performancemaß , von einer Ableitung des Performancemaßes, zum
Figure imgf000015_0006
Beispiel dem Gradienten
Figure imgf000015_0008
, von einer Änderung des Performancemaßes sowie der eigentlichen Strategie p (a|s) definiert. Die Änderung ist im
Figure imgf000015_0007
Beispiel eine zeitliche Änderung.
Wird in einer Iteration i das Performancemaß , eine Ableitung des
Figure imgf000015_0009
Performancemaßes, zum Beispiel der Gradient
Figure imgf000015_0010
, die Änderung des Performancemaßes und/oder die Strategie p (a|s) vorgegeben, definiert
Figure imgf000015_0011
die Metastrategie eine Wahrscheinlichkeitsverteilung über Startzustände s0. Startzustände s0 sind damit abhängig von der Metastrategie auswählbar.
Für kontinuierliche und diskrete Zustandsräume S kann auf Grundlage der Strategie p (a|s, g) der Trainingsiteration i eine stochastische Metastrategie
zur Auswahl von Zielzuständen g für
Figure imgf000015_0012
die Episoden einer oder mehrerer nachfolgender Trainingsiterationen des Algorithmus zum Reinforcement Learning definiert werden.
Die stochastische Metastrategie ist in diesem Beispiel abhängig von einem Performancemaß
Figure imgf000015_0001
, von einer Ableitung des Performancemaßes, zum Beispiel dem Gradienten
Figure imgf000015_0003
, von einer Änderung des Performancemaßes sowie von der eigentlichen Strategie p (a|s, g) definiert. Die Änderung ist
Figure imgf000015_0002
im Beispiel eine zeitliche Änderung. Wird in einer Iteration i das Performancemaß ,
Figure imgf000016_0001
eine Ableitung des
Performancemaßes, zum Beispiel der Gradient
Figure imgf000016_0002
, die Änderung des Performancemaßes und/oder die Strategie p (a|s, g) vorgegeben,
Figure imgf000016_0003
definiert die Metastrategie eine Wahrscheinlichkeitsverteilung über
Zielzustände g. Zielzustände g sind damit abhängig von der Metastrategie
auswählbar.
Es kann vorgesehen sein, entweder den Startzustand s0 oder den Zielzustand g oder beide auszuwählen. Im Folgenden wird zwischen zwei Verfahren, einem für die Auswahl des Startzustands s0 und einem für die Auswahl des Zielzustands g unterschieden. Diese können unabhängig voneinander oder gemeinsam ausgeführt werden, um entweder nur einen der Zustände oder beide Zustände gemeinsam auszuwählen.
Für die Bestimmung von Startzuständen s0 wird die Metastrategie
Figure imgf000016_0004
so gewählt, dass Zustände s aus dem Zustandsraum S oder einer Untermenge dieser Zustände proportional zum Wert einer stetigen Funktion G als Startzustand s0 bestimmt werden. Die Funktion G wird auf das Performancemaß ,
Figure imgf000016_0005
eine Ableitung, zum Beispiel den
Gradienten , auf die Änderung , die Strategie p (a|s) oder auf
Figure imgf000016_0006
Figure imgf000016_0007
eine beliebige Kombination daraus angewendet, um die Startzustände s0 ein oder mehrerer Episoden der Interaktion mit der Umgebung zu bestimmen. Dazu wird beispielsweise
Figure imgf000016_0008
bestimmt.
Startzustände s0 für diskrete, endliche Zustandsräume werden beispielsweise abhängig vom Performancemaß proportional zum Wert der stetigen Funktion
Figure imgf000016_0010
G gesampelt mit
Figure imgf000016_0009
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:
Figure imgf000017_0001
wobei SN(s) die Menge aller Nachbarzustände von s darstellt, d.h. alle Zustände SN, die von s durch eine beliebige Aktion a in einem Zeitschritt erreichbar sind.
Startzustände s0 können proportional zum Wert der stetigen Funktion G angewendet auf den Gradienten gesampelt werden mit
Figure imgf000017_0004
Figure imgf000017_0002
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:
Figure imgf000017_0003
oder
Figure imgf000018_0001
Startzustände s0 können proportional zum Wert der stetigen Funktion G angewendet auf die Änderung gesampelt werden mit
Figure imgf000018_0007
Figure imgf000018_0002
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:
Figure imgf000018_0003
wobei
Figure imgf000018_0004
beispielsweise mit
Figure imgf000018_0005
.
Startzustände s0 können proportional zum Wert der stetigen Funktion G angewendet auf das Performancemaß und die Strategie gesampelt
Figure imgf000018_0006
Figure imgf000018_0008
mit
Figure imgf000019_0001
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit: wobei in diesem Fall die value function mit
Figure imgf000019_0003
Figure imgf000019_0004
Figure imgf000019_0002
s = s0 oder die advantage function mit s = s0 ist und die
Figure imgf000019_0005
Figure imgf000019_0006
Standardabweichung bezüglich der Aktionen a ist, welche entweder aus dem Aktionsraum A oder entsprechend der Strategie p (a|s) gewählt werden,
wobei in diesem Fall die advantage function
Figure imgf000019_0008
Figure imgf000019_0007
ist,
Figure imgf000019_0009
oder wobei in diesem Fall die advantage function
Figure imgf000019_0010
Figure imgf000019_0011
ist.
Figure imgf000019_0012
Für die Bestimmung eines Zielzustands g wird die Metastrategie
Figure imgf000019_0013
so gewählt, dass Zustände s aus dem
Zustandsraum S oder einer Untermenge dieser Zustände proportional zum Wert einer stetigen Funktion G als Zielzustand g bestimmt werden. Die Funktion G wird auf das Performancemaß
Figure imgf000019_0014
, auf eine Ableitung, zum Beispiel den
Gradienten , auf die Änderung , die Strategie p (a|s, g) oder auf
Figure imgf000019_0015
Figure imgf000019_0016
eine beliebige Kombination daraus angewendet, um die Zielzustände g ein oder mehrerer Episoden der Interaktion mit der Umgebung zu bestimmen . Dazu wird beispielsweise
Figure imgf000019_0017
bestimmt. Zielzustände g für diskrete, endliche Zustandsräume werden beispielsweise abhängig vom Performancemaß ]p. proportional zum Wert der stetigen Funktion
G gesampelt mit
Figure imgf000020_0001
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:
Figure imgf000020_0002
oder
Figure imgf000020_0003
wobei die Menge aller Nachbarzustände von s darstellt, d.h. alle Zustände SN, die von s durch eine beliebige Aktion a in einem Zeitschritt erreichbar sind.
Zielzustände g können proportional zum Wert der stetigen Funktion G angewendet auf den Gradienten gesampelt werden mit
Figure imgf000020_0004
Figure imgf000020_0005
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:
Figure imgf000020_0006
Figure imgf000021_0001
Zielzustände g können proportional zum Wert der stetigen Funktion G angewendet auf die Änderung gesampelt werden mit
Figure imgf000021_0004
Figure imgf000021_0002
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:
Figure imgf000021_0003
wobei beispielsweise mit k Î
Figure imgf000022_0001
Figure imgf000022_0002
.
Zielzustände g können proportional zum Wert der stetigen Funktion G angewendet auf das Performancemaß ]p. und die Strategie ni(a\s, g) gesampelt mit
Figure imgf000022_0003
Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit: wobei in diesem Fall die value function (mit
Figure imgf000022_0004
Figure imgf000022_0005
Figure imgf000022_0006
s = s0 dem fix gegebenen Startzustand) oder die advantage function
Figure imgf000022_0007
(mit s = s0 dem fix gegebenen Startzustand) ist und
Figure imgf000022_0014
die
Standardabweichung bezüglich der Aktionen a ist, welche entweder aus dem Aktionsraum A oder entsprechend der Strategie p (a|s, g) (mit s = s0 dem fix gegebenen Startzustand) gewählt werden,
wobei J in diesem Fall die advantage
Figure imgf000022_0009
Figure imgf000022_0008
function (mit s = s0 dem fix gegebenen Startzustand) ist,
Figure imgf000022_0010
oder wobei in diesem Fall die advantage
Figure imgf000022_0013
Figure imgf000022_0011
function (mit s = s0 dem fix gegebenen Startzustand) ist.
Figure imgf000022_0012
Die hier explizit für den Fall diskreter, endlicher Zustandsräume S aufgeführten Kriterien lassen sich durch Modifikation auch auf kontinuierliche Zustandsräume anwenden. Die Schätzung des Performancemaßes geschieht äquivalent. Die Ableitungen können insbesondere im Falle eines parametrischen Modells für das Performancemaß ebenfalls berechnet werden. Für das Sampling der Startzustände oder Zielzustände aus einem kontinuierlichen Zustandsraum oder einem diskreten Zustandsraum mit einer unendlichen Anzahl Zustände erfolgt beispielsweise eine Gitterapproximation des Zustandsraumes oder es wird eine Anzahl von Zuständen vorgesampelt, um eine endliche Anzahl an Zuständen zu bestimmen.
Die von der Ableitung abhängige Bestimmung, d.h. das damit beschriebene Gradienten basierte Kriterium, sowie die Kriterien die eine Anwendung der stetigen Funktion auf Performancemaß sowie Strategie anwenden sind besonders vorteilhaft hinsichtlich des Trainingsfortschrittes und damit der Performance.
Figur 2 stellt ein erstes Ablaufdiagramm für Teile eines ersten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 2 wird das Erlernen der Strategie p(a|s) für einen vorgegebenen Zielzustand g schematisch dargestellt. Genauer stellt Figur 2 dar, wie eine Startzustandsauswahl mit der Metastrategie
Figure imgf000023_0001
, die Strategie p (a|s) und die
Umgebung mit der Dynamik und der Belohnungsfunktion r(s, a)
Figure imgf000023_0002
miteinander interagieren. Die Interaktion zwischen diesen ist nicht an die im Folgenden beschriebene Reihenfolge gebunden. In einer Implementierung laufen Daten sammeln durch Interaktion von Strategie und Umgebung, Aktualisierung der Strategie und Aktualisierung der Metastrategie beispielsweise als drei unterschiedliche Prozesse auf unterschiedlichen Zeitskalen nebeneinander ab welche von Zeit zu Zeit Informationen miteinander austauschen.
In einem Schritt 200 werden eine Strategie p (a|s) und/oder Trajektorien t =
{(s, a, s', r)} der Episoden einer oder mehrerer vorangegangener
Trainingsiterationen der Strategie an einen Startzustandsauswahlalgorithmus übergeben, der Startzustände s0 für die Episoden einer oder mehrerer nachfolgender Trainingsiterationen bestimmt.
Es kann vorgesehen sein, dass eine Wertefunktion beispielsweise die Funktion V(s) oder Q(s, a ) oder eine Vorteilsfunktion, d.h. beispielsweise die advantage function A(s, a) = Q(s, a ) - V(s) zusätzlich übergeben wird. In einem Schritt 202 werden ein oder mehrere Startzustände s0 bestimmt. Die Metastrategie
Figure imgf000024_0001
erzeugt Startzustände s0 auf Grundlage des Performancemaßes , eventuell bestimmten
Figure imgf000024_0002
Ableitungen oder insbesondere zeitlichen Änderungen dessen und/oder der Strategie p (a|s). Dies erfolgt einzeln vor jeder Episode oder für mehrere Episoden, z.B. für so viele Episoden, wie für eine Aktualisierung der
momentanen Strategie p (a|s) benötigt werden, oder für die Episoden mehrerer Strategie-Aktualisierungen der Strategie p(a|s).
In einem Schritt 204 werden die Startzustände s0 vom
Startzustandsauswahlalgorithmus an den Algorithmus zum Reinforcement Learning übergeben.
Der Algorithmus zum Reinforcement Learning sammelt in episodischer
Interaktion mit der Umgebung Daten und aktualisiert auf Grundlage der zumindest eines Teils der Daten von Zeit zu Zeit die Strategie.
Zum Sammeln der Daten werden wiederholt Episoden der Interaktion von Strategie und Umgebung, Rollouts, durchgeführt. Dazu werden in einer Episode oder einem Rollout die Schritte 206 bis 212, iterativ ausgeführt, beispielsweise bis eine maximale Anzahl von Interaktionsschritten erreicht ist, oder die
Zielvorgabe, beispielsweise der Zielzustand g, erreicht ist. Eine neue Episode startet in einem Startzustand s = s0. Eine gerade aktuelle Strategie p (a|s) wählt in Schritt 206 eine Aktion a aus, die in Schritt 208 in der Umgebung ausgeführt wird, woraufhin in Schritt 210 entsprechend der Dynamik p(s' \s, a) ein neuer Zustand s' und entsprechend r(s, a) eine Belohnung r (kann 0 sein) bestimmt werden, welche in Schritt 212 dem Reinforcement Learning Algorithmus übergeben werden. Die Belohnung ist beispielweise 1 , wenn s = g und sonst 0. Eine Episode endet zum Beispiel mit der Zielerreichung s = g oder nach einer maximalen Anzahl Iterationsschritte T. Danach beginnt eine neue Episode mit einem neuen Startzustand s0. Tupel (s, a, s' , r), die während einer Episode generiert werden, ergeben eine T rajektorie t = {(s, a, s' , r)}.
Von Zeit zu Zeit wird die Strategie p (a|s) in Schritt 206 auf Grundlage von gesammelten Daten t = {(s, a, s', r)} aktualisiert. Es ergibt sich die aktualisierte Strategie pi+1(a\s) welche in nachfolgenden Episoden die Aktionen a auf Grundlage des Zustands s auswählt.
Figur 3 stellt ein zweites Ablaufdiagramm für Teile eines zweiten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 3 wird das Erlernen der Strategie p(a\s, g ) für einen vorgegebenen Startzustand s0 schematisch dargestellt. Genauer stellt Figur 3 dar, wie eine Zielzustandsauswahl mit der Metastrategie , die Strategie p (a|s, g)
Figure imgf000025_0001
und die Umgebung mit der Dynamik p(s’\s, a) und der Belohnungsfunktion r(s, a) miteinander interagieren. Die Interaktion zwischen diesen ist nicht an die im Folgenden beschriebene Reihenfolge gebunden. In einer Implementierung laufen Daten sammeln durch Interaktion von Strategie und Umgebung, Aktualisierung der Strategie und Aktualisierung der Metastrategie beispielsweise als drei unterschiedliche Prozesse auf unterschiedlichen Zeitskalen nebeneinander ab welche von Zeit zu Zeit Informationen miteinander austauschen.
In einem Schritt 300 werden eine Strategie ^(a\s, g) und/oder Trajektorien t = {(s, a, s' , r, g)} der Episoden einer oder mehrerer vorangegangener
Trainingsiterationen der Strategie an einen Zielzustandsauswahlalgorithmus übergeben, der Zielzustände g für die Episoden einer oder mehrerer
nachfolgender Trainingsiterationen bestimmt.
Es kann vorgesehen sein, dass eine Wertefunktion beispielsweise die Funktion V(s, g) oder Q(s, a, g) oder eine Vorteilsfunktion, d.h. beispielsweise die advantage function A(s, a, g) = Q(s, a, g) - V(s, g) zusätzlich übergeben wird.
In einem Schritt 302 werden ein oder mehrere Zielzustände g bestimmt. Die Metastrategie
Figure imgf000025_0002
) erzeugt Zielzustände g auf Grundlage des Performancemaßes , eventuell bestimmten
Figure imgf000025_0003
Ableitungen oder insbesondere zeitlichen Änderungen dessen und/oder der Strategie p (a|s, g). Dies erfolgt einzeln vor jeder Episode oder für mehrere Episoden, z.B. für so viele Episoden, wie für eine Aktualisierung der
momentanen Strategie p (a|s, g) benötigt werden, oder für die Episoden mehrerer Strategie-Aktualisierungen der Strategie p (a|s, g). In einem Schritt 304 werden die Zielzustände g vom
Zielzustandsauswahlalgorithmus an den Algorithmus zum Reinforcement Learning übergeben.
Der Algorithmus zum Reinforcement Learning sammelt in episodischer
Interaktion mit der Umgebung Daten und aktualisiert auf Grundlage der zumindest eines Teils der Daten von Zeit zu Zeit die Strategie.
Zum Sammeln der Daten werden wiederholt Episoden der Interaktion von Strategie und Umgebung, Rollouts, durchgeführt. Dazu werden in einer Episode/ einem Rollout die Schritte 306 bis 312, iterativ ausgeführt, beispielsweise bis eine maximale Anzahl von Interaktionsschritten erreicht ist, oder die Zielvorgabe, beispielsweise der für diese Episode ausgewählte Zielzustand g, erreicht ist.
Eine neue Episode startet in einem vorgegebenen Startzustand s = s0. Eine gerade aktuelle Strategie p (a|s, g) wählt in Schritt 306 eine Aktion a aus, die in Schritt 308 in der Umgebung ausgeführt wird, woraufhin in Schritt 310 entsprechend der Dynamik p(s' \s, a) ein neuer Zustand s' und entsprechend r(s, a) eine Belohnung r (kann 0 sein) bestimmt werden, welche in Schritt 312 dem Reinforcement Learning Algorithmus übergeben werden. Die Belohnung ist beispielweise 1 , wenn s = g und sonst 0. Eine Episode endet zum Beispiel mit der Zielerreichung s = g oder nach einer maximalen Anzahl Iterationsschritte T. Danach beginnt eine neue Episode mit einem neuen Zielzustand g. Tupel (s, a, s' , r, g), die während einer Episode generiert werden, ergeben eine
T rajektorie t = {(s, a, s' , r, g)}.
Von Zeit zu Zeit wird die Strategie p (a|s, g) in Schritt 306 auf Grundlage von gesammelten Daten t = {{s, a, s' , r, g)} aktualisiert. Es ergibt sich die aktualisierte Strategie pi+ 1(a\s, g) welche in nachfolgenden Episoden die Aktionen a auf Grundlage des Zustands s und des gerade für die Episode aktuellen Ziels g auswählt.
Figur 4 stellt ein drittes Ablaufdiagramm für Teile des ersten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 4 zeigt einen Zyklus der Startzustandsauswahl. Mehrere Startzustände können für die Episoden einer oder mehrerer Iterationen der Strategie p (a|s) bestimmt werden. In einem Schritt 402 wird das Performancemaß
Figure imgf000027_0001
bestimmt. Im Beispiel wird das Performancemaß
Figure imgf000027_0002
dadurch bestimmt, dass es geschätzt wird:
Figure imgf000027_0003
.
Dies kann beispielsweise geschehen, indem:
- mit der aktuellen Strategie p (a|s) über mehrere Episoden Interaktionen mit der Umgebung durchgeführt werden und daraus für jeden Zustand die
Zielerreichungswahrscheinlichkeit berechnet wird,
- die Zielerreichungswahrscheinlichkeit für jeden Zustand aus den Rolloutdaten t vorangegangener T rainingsepisoden berechnet wird,
- die Wertefunktion V(s), die Wertefunktion Q(s, a ) oder die advantage function A(s, a ) verwendet wird, falls diese verfügbar ist, und/oder
- ein insbesondere para metrisch es Modell oder ein Ensemble parametrischer Modelle mitgelernt wird.
In einem optionalen Schritt 404 wird der Gradient, eine Ableitung oder die zeitliche Änderung des Performancemaßes oder des geschätzten
Figure imgf000027_0004
Performancemaßes berechnet.
Figure imgf000027_0005
In einem Schritt 406 wird die Startzustandsverteilung bestimmt. Dazu werden im Beispiel Werte der stetigen Funktion G bestimmt, indem die Funktion G auf das das Performancemaß
Figure imgf000027_0006
auf eine Ableitung oder den Gradienten des Performancemaßes , die zeitliche Änderung des
Figure imgf000027_0007
Performancemaßes und/oder die Strategie p (a|s) angewendet
Figure imgf000027_0008
wird.
Ein Zustand s wird proportional zum zugehörigen Wert der stetigen Funktion G als Startzustand s0 bestimmt. Die abhängig von der stetigen Funktion G definierte Metastrategie stellt eine Wahrscheinlichkeitsverteilung über die
Figure imgf000027_0009
Startzustände s0 für einen vorgegebenen Zielzustand g dar, d.h. mit welcher Wahrscheinlichkeit ein Zustand s als Startzustand s0 gewählt wird.
In einem kontinuierlichen Zustandsraum oder in einem diskreten Zustandsraum mit unendlich vielen Zuständen wird die Wahrscheinlichkeitsverteilung eventuell nur für eine endliche Menge zuvor bestimmter Zustände bestimmt. Dazu kann eine grobe Gitterapproximation des Zustandsraumes verwendet werden.
Im Beispiel werden Startzustände s0 unter Verwendung der abhängig von der stetigen Funktion G definierten Wahrscheinlichkeitsverteilung mit einer der folgenden Möglichkeiten bestimmt:
- Startzustände s0 werden insbesondere im Falle diskreter, endlicher
Zustandsräume S gemäß der Wahrscheinlichkeitsverteilung über die
Startzustände s0 bestimmt, d.h. direkt gesampelt,
- Startzustände s0 werden mittels Rejection Sampling der
Wahrscheinlichkeitsverteilung bestimmt,
- Startzustände s0 werden mittels eines Markov Chain Monte Carlo Samplings der Wahrscheinlichkeitsverteilung bestimmt,
- Startzustände s0 werden von einem Generator bestimmt, der trainiert ist, Startzustände gemäß der Startzustandsverteilung zu generieren.
In einem Aspekt ist es möglich, zusätzlich oder anstelle dieser Startzustände mit einer zusätzlichen Heuristik zusätzliche Startzustände in der Nähe dieser Startzustände zu bestimmen. Die Heuristik kann beispielsweise zufällige Aktionen oder Brownian Motion umfassen. Durch diesen Aspekt wird die Performance oder Robustheit erhöht.
In einem Schritt 408 wird die Strategie p(a|s) mit einem Reinforcement Learning Algorithmus für eine oder mehrere Trainingsiterationen in Interaktion mit der Umgebung trainiert. Im Beispiel wird die Strategie p(a|s) durch eine Interaktion mit der technischen Einrichtung 102 und/oder deren Umgebung in einer Vielzahl Trainingsiterationen trainiert.
In einem Aspekt werden die Startzustände s0 für die Episoden oder Rollouts der Strategie p(a|s) in der Umgebung zum Training der Strategie p(a|s) abhängig von der Startzustandsverteilung für diese Trainingsiteration bestimmt.
Die Startzustände s0 für unterschiedliche Iterationen werden entsprechend der für die jeweilige Iteration oder Iterationen in Schritt 406 bestimmten
Startzustandsverteilung bestimmt.
Interaktion mit der technischen Einrichtung 102 bedeutet in diesem Beispiel eine Ansteuerung der technischen Einrichtung 102 mit einer Aktion a.
Nach Schritt 408 wird der Schritt 402 ausgeführt.
Die Schritte 402 bis 408 werden im Beispiel wiederholt bis die Strategie p(a|s) ein Gütemaß erreicht, oder bis eine maximale Anzahl Iterationen erfolgt ist.
In einem Aspekt wird die technische Einrichtung 102 anschließend weiter mit der in der letzten Iteration bestimmten Strategie p(a|s) angesteuert.
Figur 5 stellt ein viertes Ablaufdiagramm für Teile des zweiten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 5 zeigt einen Zyklus der Zielzustandsauswahl. Mehrere Zielzustände können für die Episoden einer oder mehrerer Iterationen der Strategie p (a|s, g) bestimmt werden.
In einem Schritt 502 wird das Performancemaß
Figure imgf000029_0001
bestimmt. Im Beispiel wird das Performancemaß geschätzt: .
Figure imgf000029_0002
Figure imgf000029_0003
Dies kann beispielsweise geschehen, indem:
- mit der aktuellen Strategie p (a|s, g) über mehrere Episoden Interaktionen mit der Umgebung durchgeführt werden und daraus für jeden Zustand die
Zielerreichungswahrscheinlichkeit berechnet wird, - die Zielerreichungswahrscheinlichkeit für jeden Zustand aus den Rolloutdaten t vorangegangener T rainingsepisoden berechnet wird,
- die Wertefunktion V(s, g), die Wertefunktion Q(s, a, g ) oder die advantage function A(s, a, g) des Algorithmus zum Reinforcement Learning verwendet wird, falls diese verfügbar ist, und/oder
- ein insbesondere parametrisches Modell oder ein Ensemble parametrischer Modelle mitgelernt wird.
In einem optionalen Schritt 504 wird der Gradient, eine Ableitung oder die zeitliche Änderung des Performancemaßes oder des geschätzten
Figure imgf000030_0001
Performancemaßes berechnet.
Figure imgf000030_0002
In einem Schritt 506 wird die Zielzustandsverteilung bestimmt. Dazu werden im Beispiel Werte der stetigen Funktion G bestimmt, indem die Funktion G auf das das Performancemaß , auf eine Ableitung oder den Gradienten des
Figure imgf000030_0003
Performancemaßes , die zeitliche Änderung des Performancemaßes
Figure imgf000030_0004
,
Figure imgf000030_0005
oder die Strategie p (a|s, g) angewendet wird.
Ein Zustand s wird proportional zum zugehörigen Wert der stetigen Funktion G als Zielzustand g bestimmt. Die abhängig von der stetigen Funktion G definierte Metastrategie p9 stellt eine Wahrscheinlichkeitsverteilung über die Zielzustände g für einen vorgegebenen Startzustand s0 dar, d.h. mit welcher
Wahrscheinlichkeit ein Zustand s als Zielzustand g gewählt wird.
In einem kontinuierlichen Zustandsraum oder in einem diskreten Zustandsraum mit unendlich vielen Zuständen wird die Wahrscheinlichkeitsverteilung eventuell nur für eine endliche Menge zuvor bestimmter Zustände bestimmt. Dazu kann eine grobe Gitterapproximation des Zustandsraumes verwendet werden. Im Beispiel werden Zielzustände g unter Verwendung der abhängig von der stetigen Funktion G definierten Wahrscheinlichkeitsverteilung mit einer der folgenden Möglichkeiten bestimmt:
- Zielzustände g werden insbesondere für einen diskreten, endlichen
Zustandsraum S gemäß der Wahrscheinlichkeitsverteilung über die Zielzustände g bestimmt, d.h. direkt gesampelt,
- Zielzustände g werden mittels Rejection Sampling der
Wahrscheinlichkeitsverteilung bestimmt,
- Zielzustände g werden mittels eines Markov Chain Monte Carlo Samplings der Wahrscheinlichkeitsverteilung bestimmt,
- Zielzustände g werden von einem Generator bestimmt, der trainiert ist, Zielzustände gemäß der Zielzustandsverteilung zu generieren.
In einem Aspekt ist es möglich, zusätzlich oder anstelle dieser Zielzustände mit einer zusätzlichen Heuristik zusätzliche Zielzustände in der Nähe dieser
Zielzustände zu bestimmen. Die Heuristik kann beispielsweise zufällige Aktionen oder Brownian Motion umfassen. Durch diesen Aspekt wird die Performance oder Robustheit erhöht.
In einem Schritt 508 wird die Strategie p (a|s, g) mit einem Reinforcement Learning Algorithmus für eine oder mehrere Trainingsiterationen in Interaktionen mit der Umgebung trainiert.
Im Beispiel wird die Strategie p (a|s, g) durch eine Interaktion mit der
technischen Einrichtung 102 und/oder deren Umgebung in einer Vielzahl Trainingsiterationen trainiert.
In einem Aspekt werden die Zielzustände g für die Episoden oder Rollouts der Strategie p (a|s, g) in der Umgebung zum Training der Strategie p (a|s, g) abhängig von der Zielzustandsverteilung für diese Trainingsiterationen bestimmt. Die Zielzustände g für unterschiedliche Iterationen werden entsprechend der für die jeweilige Iteration oder Iterationen in Schritt 506 bestimmten
Zielzustandsverteilung bestimmt.
Interaktion mit der technischen Einrichtung 102 bedeutet in diesem Beispiel eine Ansteuerung der technischen Einrichtung 102 mit einer Aktion a.
Die Schritte 502 bis 508 werden im Beispiel wiederholt bis die Strategie p (a|s, g) ein Gütemaß erreicht, oder bis eine maximale Anzahl Iterationen erfolgt ist.
In einem Aspekt wird die technische Einrichtung 102 anschließend weiter mit der in der letzten Iteration bestimmten Strategie p (a|s, g) angesteuert.
In einem Aspekt erhält der Start- und/oder der Zielzustandsauswahlalgorithmus vom Reinforcement Learning Algorithmus die aktuelle Strategie, während der Interaktionsepisoden vorangegangener Trainingsiterationen gesammelte Daten und / oder eine Werte- oder Vorteilsfunktion. Auf Grundlage dieser Komponenten schätzt der Start- und/oder der Zielzustandsauswahlalgorithmus zunächst das Performancemaß. Gegebenenfalls wird die Ableitung oder insbesondere die zeitliche Änderung dieses Performancemaßes bestimmt. Daraufhin wird auf Grundlage des geschätzten Performancemaßes die Start- und/oder
Zielzustandsverteilung, die Metastrategie, durch Anwendung der stetigen Funktion bestimmt. Gegebenenfalls wird auch die Ableitung, oder insbesondere die zeitliche Änderung des Performancemaßes und/oder die Strategie verwendet. Schließlich stellt der Start- und/oder der
Zielzustandsauswahlalgorithmus dem Reinforcement Learning Algorithmus die bestimmte Start- und/oder die bestimmte Zielzustandsverteilung, die
Metastrategie, für ein oder mehrere Trainingsiterationen zur Verfügung. Der Reinforcement Learning Algorithmus trainiert dann die Strategie für die entsprechende Anzahl an Trainingsiterationen, wobei die Start- und/oder Zielzustände der ein oder mehreren Interaktionsepisoden innerhalb der
Trainingsiterationen entsprechend der Metastrategie des Start- und/oder Zielzustandsauswahlalgorithmus bestimmt werden. Danach beginnt der Ablauf von vorne, bis die Strategie ein Gütekriterium erreicht oder eine Maximalzahl Trainingsiterationen durchgeführt wurde. Die beschriebenen Strategien sind beispielsweise als künstliche neuronale Netze implementiert, deren Parameter in Iterationen aktualisiert werden. Die beschriebenen Metastrategien sind Wahrscheinlichkeitsverteilungen, die aus Daten berechnet werden. In einem Aspekt greifen diese Metastrategien auf neuronale Netze zu, deren Parameter in Iterationen aktualisiert werden.

Claims

Ansprüche
1. Computerimplementiertes Verfahren zum Ansteuern einer technischen
Einrichtung (102), wobei die technischen Einrichtung (102) ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein
Haushaltsgerät, ein Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein
Überwachungssystem oder ein Zutrittskontrollsystem ist, wobei abhängig von Eingangsdaten ein Zustand wenigstens eines Teils der technischen Einrichtung (102) oder einer Umgebung der technischen Einrichtung (102) bestimmt wird, wobei wenigstens eine Aktion abhängig vom Zustand und von einer Strategie für die technische Einrichtung (102) bestimmt wird und wobei die technische Einrichtung (102) dazu angesteuert wird, die wenigstens eine Aktion auszuführen, dadurch gekennzeichnet, dass die Strategie, insbesondere repräsentiert durch ein künstliches neuronales Netz, mit einem Reinforcement Learning Algorithmus in Interaktion mit der technischen Einrichtung (102) oder der Umgebung der technischen
Einrichtung (102) abhängig von wenigstens einem Feedback-Signal erlernt wird, wobei das wenigstens eine Feedback-Signal abhängig von einer Zielvorgabe bestimmt wird, wobei wenigstens ein Startzustand und/oder wenigstens ein Zielzustand für eine Interaktionsepisode proportional zu einem Wert einer stetigen Funktion bestimmt wird, wobei der Wert durch Anwendung der stetigen Funktion auf ein zuvor für die Strategie bestimmtes Performancemaß, durch Anwendung der stetigen Funktion auf eine
Ableitung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf eine insbesondere zeitliche Änderung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf die Strategie oder durch eine Kombination dieser Anwendungen bestimmt wird.
2. Computerimplementiertes Verfahren nach Anspruch 1 , dadurch
gekennzeichnet, dass das Performancemaß geschätzt wird.
3. Computerimplementiertes Verfahren nach Anspruch 2, dadurch
gekennzeichnet, dass das geschätzte Performancemaß durch eine zustandsabhängige Zielerreichungswahrscheinlichkeit definiert ist, die für mögliche Zustände oder eine Untermenge von möglichen Zuständen bestimmt wird, wobei mit der Strategie ausgehend vom Startzustand wenigstens eine Aktion und wenigstens ein, aus einer Ausführung der wenigstens einen Aktion durch die technische Einrichtung zu erwartender oder resultierender Zustand bestimmt wird, wobei die
Zielerreichungswahrscheinlichkeit abhängig von der Zielvorgabe, beispielsweise einem Zielzustand, und abhängig vom wenigstens einen zu erwartenden oder resultierenden Zustand bestimmt wird.
4. Computerimplementiertes Verfahren nach Anspruch 2 oder 3, dadurch
gekennzeichnet, dass das geschätzte Performancemaß durch eine
Wertefunktion oder Vorteilsfunktion definiert ist, die abhängig von
wenigstens einem Zustand ( s ) und/oder wenigstens einer Aktion ( a ) und/oder vom Startzustand (s0) und/oder vom Zielzustand ( g ) bestimmt wird.
5. Computerimplementiertes Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass das geschätzte Performancemaß durch ein parametrisches Modell definiert ist, wobei das Modell abhängig von wenigstens einem Zustand und/oder wenigstens einer Aktion und/oder vom Startzustand und/oder vom Zielzustand gelernt wird.
6. Computerimplementiertes Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Strategie durch Interaktion mit der technischen Einrichtung (102) und/oder der Umgebung trainiert wird, wobei wenigstens ein Startzustand abhängig von einer Startzustandsverteilung bestimmt wird und/oder wobei wenigstens ein Zielzustand abhängig von einer Zielzustandsverteilung bestimmt wird.
7. Computerimplementiertes Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass abhängig von der stetigen Funktion eine Zustandsverteilung definiert wird, wobei die Zustandsverteilung entweder für einen vorgegebenen Zielzustand eine Wahrscheinlichkeitsverteilung über Startzustände definiert, oder für einen vorgegebenen Startzustand eine Wahrscheinlichkeitsverteilung über Zielzustände definiert.
8. Computerimplementiertes Verfahren nach Anspruch 7, dadurch
gekennzeichnet, dass für einen vorgegebenen Zielzustand ein Zustand als der Startzustand einer Episode oder für einen vorgegebenen Startzustand ein Zustand als der Zielzustand einer Episode bestimmt wird, wobei der Zustand insbesondere im Falle eines diskreten, endlichen Zustandsraumes abhängig von der Zustandsverteilung, durch ein Samplingverfahren, bestimmt wird, wobei insbesondere für einen kontinuierlichen oder unendlichen Zustandsraumeine endliche Menge möglicher Zustände, insbesondere mittels einer groben Gitter-Approximation des
Zustandsraumes, bestimmt wird.
9. Computerimplementiertes Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Eingangsdaten durch Daten von einem Sensor, insbesondere einem Video-, Radar-, LiDAR-, Ultraschall-,
Bewegungs-, Temperatur- oder Vibrationssensor definiert sind.
10. Computerprogramm, dadurch gekennzeichnet, dass das
Computerprogramm Instruktionen umfasst, bei deren Ausführung durch einen Computer das Verfahren nach einem der Ansprüche 1 bis 9 abläuft.
11. Computerprogrammprodukt, dadurch gekennzeichnet, dass das
Computerprogrammprodukt einen computerlesbaren Speicher umfasst, auf dem das Computerprogramm nach Anspruch 10 gespeichert ist.
12. Vorrichtung (100) zum Ansteuern einer technischen Einrichtung (102), wobei die technischen Einrichtung (102) ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein Haushaltsgerät, ein
Heimwerkgerät insbesondere ein Elektrowerkzeug, eine
Fertigungsmaschine, ein persönliches Assistenzgerät, ein
Überwachungssystem oder ein Zutrittskontrollsystem ist, dadurch
gekennzeichnet, dass die Vorrichtung (100) einen Eingang (104) für
Eingangsdaten (106) von wenigstens einem Sensor (108), insbesondere einem Video-, Radar-, LiDAR-, Ultraschall-, Bewegungs-, Temperatur- oder Vibrationssensor, einen Ausgang (110) zum Ansteuern der technischen Einrichtung (102) mittels eines Ansteuersignals (112) und eine
Recheneinrichtung (114) umfasst, die ausgebildet ist, die technische Einrichtung (102) abhängig von den Eingangsdaten (106) gemäß einem Verfahren nach einem der Ansprüche 1 bis 9 anzusteuern.
PCT/EP2020/058206 2019-04-12 2020-03-24 Verfahren und vorrichtung zum ansteuern einer technischen einrichtung WO2020207789A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080027845.3A CN113711139A (zh) 2019-04-12 2020-03-24 用于操控技术装置的方法和设备
US17/601,366 US20220197227A1 (en) 2019-04-12 2020-03-24 Method and device for activating a technical unit

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102019205359.9A DE102019205359B4 (de) 2019-04-12 2019-04-12 Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung
DE102019205359.9 2019-04-12

Publications (1)

Publication Number Publication Date
WO2020207789A1 true WO2020207789A1 (de) 2020-10-15

Family

ID=70008510

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/058206 WO2020207789A1 (de) 2019-04-12 2020-03-24 Verfahren und vorrichtung zum ansteuern einer technischen einrichtung

Country Status (4)

Country Link
US (1) US20220197227A1 (de)
CN (1) CN113711139A (de)
DE (1) DE102019205359B4 (de)
WO (1) WO2020207789A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113050433A (zh) * 2021-05-31 2021-06-29 中国科学院自动化研究所 机器人控制策略迁移方法、装置及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650394B (zh) * 2020-12-24 2023-04-25 深圳前海微众银行股份有限公司 智能设备控制方法、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6669897B2 (ja) * 2016-02-09 2020-03-18 グーグル エルエルシー 優位推定を使用する強化学習
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CARLOS FLORENSA ET AL: "Automatic Goal Generation for Reinforcement Learning Agents", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 18 May 2017 (2017-05-18), XP081409284 *
CARLOS FLORENSA ET AL: "Reverse Curriculum Generation for Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 17 July 2017 (2017-07-17), XP081326902 *
FLORENSA ET AL., REVERSE CURRICULUM GENERATION FOR REINFORCEMENT LEARNING, Retrieved from the Internet <URL:https://arxiv.org/pdf/1707.05300.pdf>
HELD ET AL., AUTOMATIC GOAL GENERATION FOR REINFORCEMENT LEARNING AGENTS, Retrieved from the Internet <URL:https://arxiv.org/pdf/1705.06366.pdf>

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113050433A (zh) * 2021-05-31 2021-06-29 中国科学院自动化研究所 机器人控制策略迁移方法、装置及系统

Also Published As

Publication number Publication date
CN113711139A (zh) 2021-11-26
DE102019205359B4 (de) 2022-05-05
US20220197227A1 (en) 2022-06-23
DE102019205359A1 (de) 2020-10-15

Similar Documents

Publication Publication Date Title
EP3132317B1 (de) Verfahren zur rechnergestützten anlagensteuerungsoptimierung mittels einem simulationsmodul
EP2999998B1 (de) Methode zur ermittlung eines modells einer ausgangsgrösse eines technischen systems
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
DE102019124018A1 (de) Verfahren zum Optimieren von Tests von Regelsystemen für automatisierte Fahrdynamiksysteme
WO2020207789A1 (de) Verfahren und vorrichtung zum ansteuern einer technischen einrichtung
DE102019216232A1 (de) Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs
WO2019081241A1 (de) Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes
WO2021008836A1 (de) Vorrichtung und computerimplementiertes verfahren für die verarbeitung digitaler sensordaten und trainingsverfahren dafür
DE102018103113A1 (de) Verfahren zum Betreiben eines Hybridsystems für ein Fahrzeug
WO2021259980A1 (de) Training eines künstlichen neuronalen netzwerkes, künstliches neuronales netzwerk, verwendung, computerprogramm, speichermedium und vorrichtung
EP3748551A1 (de) Verfahren, vorrichtung und computerprogramm zum einstellen eines hyperparameters
DE102013212889A1 (de) Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
WO2016198046A1 (de) Verfahren für die auswahl eines simulationsmodells zur abbildung wenigstens eines funktionalen prozesses einer antriebsstrangkomponente aus einer optimierten modellmenge
DE102019210372A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Erstellen einer Strategie für einen Roboter
EP3650964B1 (de) Verfahren zum steuern oder regeln eines technischen systems
EP3356834B1 (de) Verfahren zum rechnergestützten ermitteln von parametern eines elektrochemischen energiespeichers
DE202019103924U1 (de) Vorrichtung für die Verarbeitung digitaler Sensordaten
DE102021208472B3 (de) Computerimplementiertes Verfahren zum Trainieren eines Machine-Learning-Modells für ein Fahrzeug oder einen Roboter
EP3738007B1 (de) Automatisches konfigurationssystem für ein wahrnehmungssystem, verfahren zum betreiben eines automatischen konfigurationssystems, autonomes system mit einem wahrnehmungssystem sowie computerprogrammprodukt
DE202021103700U1 (de) Vorrichtung zum Erzeugen eines künstlichen neuronalen Netzes
DE102017123953B4 (de) Verfahren und Vorrichtung zur Ermittlung einer Übertragungsfunktion einer Antriebsstrangkomponente
WO2022233759A1 (de) Fahrzeugsystem und verfahren zum betreiben einer zum zumindest teilweise automatisierten fahren oder parken ausgebildeten funktionalität in einem fahrzeug
DE102021207275A1 (de) Verfahren zum Erzeugen eines künstlichen neuronalen Netzes
EP4028890A2 (de) Computerimplementiertes verfahren zur terminierung eines szenario-basierten testprozesses eines fahrassistenzsystems
WO2024121024A1 (de) System und verfahren zu testfallbestimmung anhand einer erkannten häufigkeit von gleichen oder ähnlichen szenarien

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20714544

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20714544

Country of ref document: EP

Kind code of ref document: A1