WO2020178232A1 - Autonomes selbstlernendes system - Google Patents

Autonomes selbstlernendes system Download PDF

Info

Publication number
WO2020178232A1
WO2020178232A1 PCT/EP2020/055427 EP2020055427W WO2020178232A1 WO 2020178232 A1 WO2020178232 A1 WO 2020178232A1 EP 2020055427 W EP2020055427 W EP 2020055427W WO 2020178232 A1 WO2020178232 A1 WO 2020178232A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
output vector
vector
new state
state
Prior art date
Application number
PCT/EP2020/055427
Other languages
English (en)
French (fr)
Inventor
Andreas Maier
Original Assignee
Friedrich-Alexander-Universität Erlangen-Nürnberg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Friedrich-Alexander-Universität Erlangen-Nürnberg filed Critical Friedrich-Alexander-Universität Erlangen-Nürnberg
Priority to CN202080027691.8A priority Critical patent/CN113678146A/zh
Priority to EP20709525.8A priority patent/EP3931761A1/de
Publication of WO2020178232A1 publication Critical patent/WO2020178232A1/de
Priority to US17/462,632 priority patent/US20210397143A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Definitions

  • the invention lies in the field of automatic autonomous systems.
  • the invention relates to a method for controlling a technical system with an agent that implemen benefits an artificial neural network.
  • recurrent neural networks feedback neural networks
  • reinforcement learning reinforcing learning or reinforcing learning
  • Recurrent neural networks are a technology that makes it possible to represent general automata as learnable systems. Examples of this are shown in FIG. 1 and in FIG. 2 as simplified block diagrams.
  • FIG. 1 shows a recurrent neural network known from the prior art. It has an input x, a state h t , and an output y.
  • the input x and the current state h t are jointly changed to a new state h t + i transferred, ie the new state h t + i of the neural network is generated from the input x and the current state h t .
  • the output y is then generated from this new state h t + i .
  • Each arrow is a universal function approximator.
  • the function approximators can be formed by a fully connected network with a hidden layer. Deeper so-called feed-forward models can also be used. To do this, it is necessary to train the network.
  • pairs comprising an input vector x and a reference vector y * are known.
  • monitored training can be carried out, for which various optimization or training methods can be used, for example the so-called gradient descent method or so-called simulated annealing. Other optimization or training methods can also be used.
  • FIG. 2 An alternative known from the prior art for a recurrent neural network is shown in FIG. 2, namely a so-called long-short-term memory network (LSTM). These long-short-term memory networks also have an internal memory c t . The provision of such an internal memory c t also makes it possible to model long time dependencies.
  • LSTM long-short-term memory network
  • More complex memory accesses can also be implemented using artificial neural networks.
  • artificial neural networks One example of this are the so-called memory-augmented neural networks or neural turing machines.
  • Reinforcement learning makes it possible to train self-acting systems that try to achieve a maximum future reward. These systems try to solve a given problem in the best possible way.
  • the disadvantage of the artificial neural networks known from the prior art is that, regardless of the training method used, an essential prerequisite for training the neural network is that the problem must be precisely formulated and the target, i.e. the reward must be specified exactly. In this way, for example, games such as chess or go can be solved in which the problem can be precisely formulated and the target size can be precisely specified.
  • An essential problem of the methods known from the prior art is that either a reference y * is necessary for training, or the entire world, including the complete rules of the game and axioms, has to be modeled for training.
  • General problem-lessers based on artificial neural networks, who learn the rules, ie the problem definition and the solution themselves and can thus solve new, unknown problems, are not known in the prior art.
  • the object of the present invention is therefore to provide solutions with which a technical system can be controlled without the environment of the technical system having to be modeled.
  • a method for controlling a technical system with a first agent, wherein the first agent implements a first artificial neural network, a first input vector of the first neural network and a current state of the first neural network together in a new state of the first neural network Network are transferred, with a first output vector of the first neural network is generated from the new state of the first neural network, and where
  • a second input vector, the first input vector and the current state of the first neural network are jointly transferred to the new state of the first neural network, the second input vector of the first neural network representing an emotion, and
  • a second output vector of the first neural network is generated, the second output vector of the first neural network representing an expected emotion of the new state of the first neural network.
  • emotions can also be drawn in to train the first neural network, such as pain (comparable to a collision), hunger (comparable to the charge level of a battery), or joy (comparable to achieving a goal, e.g. solving a certain problem).
  • the technical system that can be controlled with the first agent can be, for example, a robot or an autonomously driving vehicle. It is advantageous if the second output vector of the first neural network is compared with a second reference for the purpose of training the first neural network, the comparison of the second output vector of the first neural network with the second reference calculating a distance function, preferably a Euclidean distance , and wherein the second reference represents an ideal state of the second output vector of the first neural network and thus an ideal state of the expected emotion of the new state of the first neural network.
  • the second output vector of the first neural network is compared with the second input vector of the first neural network, and / or
  • the second output vector of the first neural network is generated from the new state of the first neural network and from the first output vector of the first neural network.
  • the first output vector of the first neural network is compared with a first reference for the purpose of training the first neural network, the comparing of the first output vector of the first neural network with the first reference a calculation of a distance function, preferably a Euclidean distance, and wherein the first reference represents an ideal state of the first output vector of the first neural network.
  • the first output vector of the first neural network is fed to a second artificial neural network as the first input vector of the second neural network, the second neural network being implemented by a second agent, - the first input vector of the second neural network and a current state of the second neural network are jointly transferred to a new state of the second neural network,
  • a first output vector of the second neural network is generated from the new state of the second neural network, the first output vector of the second neural network representing an expected reaction of the second neural network to the first input vector of the second neural network, and
  • the first output vector of the second neural network is compared with the first input vector of the first neural network in order to train the first neural network.
  • a second output vector of the second neural network can be generated from the new state of the second neural network, the second output vector of the second neural network representing an expected emotion of the new state of the second neural network, and
  • the second output vector of the second neural network is compared with the second input vector of the first neural network in order to train the first neural network.
  • the second agent can implement a third artificial neural network where at
  • the second output vector of the second neural network is fed to the third neural network as the second input vector of the third neural network, - the first input vector, the second input vector and a current state of the third neural network are jointly transferred to a new state of the third neural network,
  • a second output vector of the third neural network is generated from the new state of the third neural network, the second output vector of the third neural network representing an expected emotion of the new state of the third neural network, and
  • a first output vector of the third neural network is generated from the new state of the third neural network, which is fed to the second neural network as a further input vector of the second neural network.
  • the second output vector of the third neural network is compared with a third reference for the purpose of training the third neural network, the comparison of the second output vector of the third neural network with the third reference calculating a distance function, preferably a Euclidean distance , and wherein the third reference represents an ideal state of the second output vector of the third neural network and thus an ideal state of the expected emotion of the new state of the third neural network.
  • first neural network and the third neural network are coupled to one another, in particular the new state of the first neural network and the current state of the third neural network are coupled to one another in order to be based on the first neural network to train the third neural network or to train the first neural network based on the third neural network.
  • FIG. 1 shows an artificial neural network known from the prior art as a recurrent neural network
  • FIG. 2 shows a further artificial neural network known from the prior art as a long-short-term memory network
  • FIG. 3 shows a system according to the invention as an extension of the artificial neural network shown in FIG. 1;
  • FIG. 4 shows a system according to the invention as an extension of the artificial neural network shown in FIG. 2;
  • FIG. 5 shows a system according to the invention as an extension of the artificial neural network shown in FIG. 1; 6 shows an expansion according to the invention of the system shown in FIG. 5; 7 shows an expansion according to the invention of the system shown in FIG. 6; FIG. 8 shows an expansion according to the invention of the system shown in FIG. 7; and FIG. 9 shows an expansion according to the invention of the system shown in FIG.
  • the neural networks described below are each artificial neural networks.
  • autonomously self-learning agents can be provided with which a technical system can be controlled.
  • the agents and thus also the respective controlled technical systems can not only work autonomously. They can also adapt adaptively and autonomously to new environments.
  • Applications are, for example, robotics, autonomous driving, space travel or medical applications.
  • a robot can be used in different environments, the robot being able to learn the new environment autonomously after a change in environment and thus adapt its behavior to the new environment.
  • the first extension relates to the introduction of an intrinsic reference of the neural network (hereinafter first neural network NN1), that is, a self-image of the first neural network NN1.
  • the intrinsic reference is referred to below as emotion.
  • the second extension concerns the learning of a world model as part of the overall system using a further neural network (hereinafter the second neural network NN2).
  • the world model is also called the worldview below.
  • FIG. 3 shows an expansion according to the invention of the recurrent neural network NN1 shown in FIG. 1 on the basis of an emotion.
  • the neural network NN1 (first neural network) is implemented by a first agent S.
  • the agent S is also referred to below as self.
  • a first input vector x of the first neural network NN1 and a current state h t of the first neural network NN1 are jointly transferred into a new state h t + i of the first neural network NN1.
  • a first output vector y of the first neural network NN1 is then generated from the new state h t + i of the first neural network NN1.
  • the first output vector y can then be used for training the first neural network NN1 compared with a first reference y * or with a first reference vector, for example using a distance function, preferably a Euclidean distance function.
  • a second input vector e is fed to the first neural network NN1.
  • the second input vector e of the first neural network NN1 represents an emotion of the self or of the first neural network NN1 or of the first agent S.
  • any number of scalar inputs and emotions can be modeled with both input evectors x, e.
  • the current emotion of the system can therefore contain several variables, such as pain (for example, if a robot causes a collision), hunger (for example when a battery is low) or joy (for example a reward if the technical system to be controlled has a Solved the task).
  • a second output vector e ' is generated.
  • the second output vector e 're presents the expected emotion of the next state h t + i of the self or of the first neural network NN1 or of the first agent S.
  • the second output vector e ' is generated according to the invention by transferring the second input vector e, the first input vector x and the current state h t of the first neural network NN1 together into the new state h t + i of the first neural network NN1.
  • the first output vector y is generated from the new state h t + i generated in this way, that is, taking into account the second input vector e.
  • the second output vector e 'of the first neural network NN1 is also generated from the new state h t + i thus generated
  • the expected emotion or the second output vector e 'can then be compared with a second reference e * or with a second reference vector for the purpose of training the first neural network NN1, for example using a distance function, preferably a Euclidean distance function.
  • the second reference e * represents an ideal state of the second output vector e 'of the first neural network NN1 and thus an ideal state of the expected emotion of the new state h t + i of the first neural network NN1.
  • Any suitable distance functions can be used for the comparison between e 'and e * or between y and y *.
  • the ideal state of the expected emotion can be, for example, 0 (for nonexistent) or 1 (for existing), whereby values between 0 and 1 are also possible.
  • the system is able to train all learnable parameters that lead to the second output vector e 'by means of the dashed arrows.
  • methods can also be used that not only optimize the current emotion, but also take into account the anticipated emotion in the future, comparable to so-called reinforcement learning.
  • the dashed arrow to the output vector y cannot be trained with emotions alone, so that the first reference y * or the first reference vector must be used for this training.
  • FIG. 4 shows an expansion according to the invention of the long-short-term memory network shown in FIG. 2 on the basis of an emotion. Except for the underlying neural network, the embodiment shown in FIG. 4 corresponds to the embodiment shown in FIG. 3.
  • the expansion shown in FIGS. 3 and 4 can, however, also be used for other types of neural networks.
  • the second output vector e '(output emotion) is compared not only with the second reference e *, but also with the second input vector e. In this way it can be ensured that the second output vector e 'actually matches the second input vector e, i.e. fits the input emotion.
  • the second output vector e '(output emotion) is not only derived from the new state h t + i of the first neural network NN1, but also taking into account the first output vector y, ie the second output vector e' is derived from the new state h t + i and derived from the first output vector y. This makes it possible to train all parameters in the network purely through emotions.
  • FIG. 5 shows a system according to the invention as an extension of the artificial neural network shown in FIG. 1;
  • a second neural network NN2 is provided in addition to the first neural network NN1.
  • the first neural network NN1 is coupled to the second neural network NN2, the first output vector y of the first neural network NN1 being fed to the second neural network NN2 as the first input vector y of the second neural network NN2.
  • the second neural network NN2 is hereby implemented by a second agent W.
  • the second agent W is also called the world view below, since a world model can be learned as part of the overall system with the second neural network NN2.
  • the behavior of the world for example an environment in which a robot is located, is modeled with the second neural network NN2.
  • the second neural network NN2 can be, for example, a recurrent neural network, any other type of neural network also being able to be used.
  • the first input vector y of the second neural network NN2 and a current state w t of the second neural network NN2 are jointly transferred to a new state w t + i of the second neural network NN2.
  • the first output vector x 'of the second neural network NN2 is then generated from the new state w t + i of the second neural network NN2,
  • the first output vector x 'of the second neural network NN2 is compared with the first input vector x of the first neural network NN1 in order to train the first neural network NN1.
  • the first neural network NN1 is thus trained as a function of the behavior of the second neural network NN2 or as a function of the first output vector x 'of the second neural network NN2.
  • the overall system shown in FIG. 5 can be fully trained, so that all learnable parameters can be estimated.
  • FIG. 6 shows an expansion according to the invention of the system shown in FIG. 5, the system shown in FIG. 6 being a combination of the systems shown in FIGS. 3 and 5.
  • the actual control system i.e. the agent S, with which a technical system, something a robot, is controlled, can be controlled or trained here on the one hand via the emotions (second input vector e of the first neural network NN1 or second output vector e 'of the first neural network NN1) become. This ensures that the first neural network NN1 or the first agent S follows a state that is as desirable as possible.
  • the output of the first neural network NN1 (ie the first output vector y of the first neural network NN1) via the worldview (ie via the second neural network NN2 or via the second agent W) with the input of the first neural network NN1 ( ie compared with the first input vector x of the first neural network NN1), since the world view can produce an expected input (ie a first output vector x 'of the second neural network NN2), with the first output vector x' of the second neural network NN2 being the first Input vector x of the first neural network NN1 is trained.
  • This enables training to be carried out without reference.
  • the system or the first agent S can therefore be trained completely without annotated data and only needs incentives that identify states as desirable or not worth striving for.
  • incentives can be coded using sparse annotation, such as extreme events, such as a collision, or parameters that are easily ascertainable, such as falling energy levels.
  • the two aforementioned variants for emotional training can also be used in the system shown in FIG. 6.
  • FIG. 7 shows an expansion of the system shown in FIG. 6 according to the invention.
  • a second output vector e "of the second neural network NN2 is generated.
  • the second output vector e" of the second neural network NN2 is derived from the new state w t + i of the second derived from the neural network NN2.
  • the second output vector e ′′ of the second neural network NN2 represents an expected emotion of the new state w t + i of the second neural network NN2.
  • the expected emotion could, for example, result from the actions of another participant in the world, i.e. a counterpart. For example, if someone makes someone laugh, a positive reaction can be expected, or if, for example, a robot collides with another robot, an alarm signal from the other robot can be expected.
  • These expected emotions or the second output vector e ′′ of the second neural network NN2 can also be compared with the second input vector e of the first neural network NN1, which also enables the first neural network NN1 to be trained.
  • the training of the first neural network NN 1 by means of the second output vector e ′′ of the second neural network NN2 can contribute to stabilizing the overall training of the first neural network NN1 in the sense of so-called multi-task learning abstract effects can be modeled via the second agent W or via the second neural network NN2, such as the effects of an output y of the first neural network NN1 on the worldview, the resulting change in the state of the worldview and, as a result, the emotional feedback on the Even or on the first neural network NN1.
  • FIG. 8 shows an expansion of the system shown in FIG. 7 according to the invention.
  • the second agent W implements a third neural network NN3, so that not only the state of the worldview can be coded with the second agent W or with the second neural network NN2, but also a model of the Self-image of the worldview can be valued.
  • the first output vector x 'of the second neural network NN2 is fed to the third neural network NN3 as the first input vector x' of the third neural network NN3.
  • a second output vector e ′′ of the second neural network NN2 is fed to the third neural network NN3 as a second input vector e ′′ of the third neural network NN3.
  • the second output vector e ′′ of the second neural network NN2 represents, as already explained above, an anticipated emotion of the new state w t + i of the second neural network NN2.
  • the second output vector e ′′ of the second neural network NN2 is derived from the new state w t + i of the second neural network NN2 generated.
  • the first input vector x ', the second input vector e "and the current state h' t of the third neural network NN3 are used together in order to transfer the third neural network NN3 to a new state h ' t + i .
  • a first output vector y 'of the third neural network NN3 is generated from the new state h' t + i of the third neural network NN3, which is fed to the second neural network NN2 as a further input vector of the second neural network NN2.
  • the worldview and the self-image of the second agent W are coupled. This makes it possible for the two neural networks NN3 and NN2 to be able to simulate interactions even without the first neural network NN1.
  • a second output vector e '"of the third neural network NN3 is generated from the new state h' t + i of the third neural network NN3.
  • the second output vector e '" of the third neural network NN3 represents an expected emotion of the new state h ' t + i of the third neural network NN3.
  • the second output vector e '"of the third neural network NN3 is compared with a third reference e ** for the purpose of training the third neural network NN3.
  • the comparison of the second output vector e'" of the third neural network NN3 with the third reference e ** may also include calculating a distance function, for example one of the above-mentioned distance functions.
  • the third reference e ** represents an ideal state of the second output vector e ′ ′′ of the third neural network NN3 and thus an ideal state of the expected emotion of the new state h ′ t + i of the third neural network NN3.
  • first neural network NN1 and the third neural network NN3 can be coupled to one another, for example by coupling the new state h t + i of the first neural network NN1 and the current state h ' t of the third neural network NN3 to one another.
  • This coupling is through in Fig. 8 (and in Fig. 9) marked by the arrow P.
  • the self-image or the third neural network NN3 does not generate any outputs or output vectors that are available as outputs or output vectors of the second agent W.
  • the self-image or the third neural network NN3 can be used to research changes in the worldview based on changes in the self-image based on the first output vector y 'of the third neural network NN3 (which is not made available outside the second agent W).
  • the coupling P it is also possible to operate the overall system in two different states, which are referred to here as the waking phase and the dream sleep phase.
  • the first agent S or the first neural network NN1 is coupled to the second agent W or to the third neural network NN3 (arrow P).
  • the self-image or the third neural network NN3 learns from every action of the first neural network NN1 how the action changes its own state and the state of the worldview or of the second agent W.
  • the first agent S or the first neural network NN1 is decoupled from the second agent W or from the third neural network NN3 (no arrow P).
  • the first output vector y of the first neural network NN1 is not fed to the second neural network NN2.
  • the self-image or the third neural network NN3 can act freely within the second agent W.
  • the worldview or the second neural network NN2 can generate both expected inputs (first input vector x 'of the third neural network NN3) and expected emotions (second input vector e ′′ of the third neural network NN3) and the third neural network NN3 the other Input (further input vector y 'of the second neural network NN2) can generate, the world view or the second neural network NN2 and self-image or the third neural network NN3 can act completely freely in alternation.
  • Training is still possible for the first agent S or the first neural network NN1, since the new state h t + i of the self or of the first neural network NN1 still includes the second output vector e 'of the first neural network NN1 generated, which can be compared with the second (ideal) reference e *.
  • Dreaming can therefore be used to generate improved interaction of the self-image or the third neural network NN3 with the expected worldview.
  • FIG. 9 shows an expansion of the system shown in FIG. 8 according to the invention. According to the extension shown in FIG. 9, the overall system shown in FIG.
  • extended functions could, for example, be an extended memory (designed as a storage device) that can store and load the state of the second neural network NN2 and / or the state of the third neural network NN3. Further extensions, only listed as examples, can be:
  • a language processor which can convert the state of the second neural network NN2 and / or the state of the third neural network NN3 into symbol sequences of words and letters;
  • any further modules can be provided that can interact with the state of the second neural network NN1 and the state of the third neural network NN3.
  • the second input vector e of the first neural network NN1 can represent, for example, vital parameters (charge level of the accumulator, functionality of the axes, etc., whereby these parameters can be provided by suitable sensors).
  • the second input vector e of the first neural network NN1 can also represent or describe goals, for example the urge to explore one's Elmwelt (curiosity) or the processing of tasks (loyalty), using the extended functions shown in FIG. 9 for this purpose can be.
  • the extended functions can bring about changes to the state of the second agent W directly in the self-image or in the third neural network NN3. If, for example, the list of work has not yet been completed, the state of the second agent W changes in such a way that it causes an emotion e '(represented by the second output vector of the first neural network NN1), which in turn arouses the desire in the first agent S. to work through the list. Additional extended functions may be required for this. For example, a task planner can be provided as an extended function which enables the first agent S to process a sequence of actions.
  • an extended function for mapping for example using Simultaneous Localization and Mapping (SLAM), in which a map and the position of the Mars rover are estimated at the same time
  • SLAM Simultaneous Localization and Mapping
  • the relevant information can be provided by suitable sensors, such as ultrasonic sensors or lidar.
  • Another module can examine the card for gaps and errors. If such gaps or errors are found, the state of the self-image or the third neuronal Network NN3 are changed so that a corresponding emotion e '(represented by the second output vector of the first neural network NN1) is generated. As a result, the system or the first agent S tries to quit this state and to correct the errors and / or gaps in the map. This can then also be done using a task planner.
  • pre-trained neural networks or even direct algorithms can be used if they are implemented on the basis of differentiable programming. This makes it possible in an advantageous manner to mix neural networks and programming, whereby the development and training of the neural networks are considerably accelerated.
  • an overall solution is provided for the first time that can be trained in a manner comparable to the human perception process through emotions and interaction with the world. To do this, it is not necessary to provide a fixed view of the world, as is required in the prior art.
  • the worldview is learned autonomously. Actions worth striving for are learned purely through emotions through weak labeling. According to the method according to the invention, the agent S can therefore act completely autonomously and in a self-learning manner. According to the further development shown in FIG. 8, even a self-image in the world or the worldview is modeled with which the worldview can be trained. The system according to FIG. 8 can learn itself in the waking and sleeping phases without interaction with the real world being necessary.
  • Switching off the self or the first agent S would put the overall system in a state in which it can only interact with itself. This condition is described as locked-in syndrome in neuropathology. - The entire consciousness could be switched off completely. This could be achieved by removing the worldview. The overall system could still act, but it would no longer be able to create complex plans, as the worldview is required for this. This corresponds to the so-called automatisms observed in neuropathology. The state of sleepwalking also produces similar phenomena.
  • a removal of the block e '(second output vector of the first neural network NN1) is comparable to a restriction of the amygdala of the brain. Here the entire system can no longer process the emotions correctly. Similar limitations can also exist in autistic disorders.
  • Restriction of the extended functions shown in FIG. 9 can also be mapped to corresponding neuropathological phenomena. These include, for example, amnesia, cortical deafness or cortical blindness.
  • the first agent S is able to adapt to completely new environments, since both the image of the World as well as the image of oneself can be completely relearned and adapted.
  • the system is thus able to learn and adjust to change in the world as well as to observe and take into account changes in the self. No training data is required to use the system. Merely your own feedback based on the emotion is sufficient to adjust to complex new situations.
  • W second agent also called "Weltchan"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

Bereitgestellt wird durch die Erfindung ein Verfahren zum Steuern eines technischen Systems mit einem ersten Agenten (S),wobei der erste Agent(S) ein erstes künstliches neuronales Netz (NN1) implementiert, wobei ein erster Eingabevektor(x) des ersten neuronalen Netzes (NN1) und ein aktueller Zustand (ht) des ersten neuronalen Netzes (NN1) gemeinsam in einen neuen Zustand (ht+1) des ersten neuronalen Netzes (NN1) überführt werden, wobei aus dem neuen Zustand (ht+1) des ersten neuronalen Netzes (NN1) ein erster Ausgabevektor(y) des ersten neuronalen Netzes (NN1) generiert wird,wobei dem ersten Agenten zusätzlich ein zweiter Eingabevektor (e) zugeführt wird, der eine Emotion repräsentiert und der bei der Überführung des neuronalen Netzes in den neuen Zustand mit berücksichtigt wird, und wobei ein zweiter Ausgabevektor(e'), der eine erwartete Emotion des neuen Zustandes (ht+1) des ersten neuronalen Netzes(NN1) repräsentiert.

Description

Autonomes selbstlernendes System
Gegenstand der Erfindung
Die Erfindung liegt auf dem Gebiet der automatischen autonom arbeitenden Sys teme. Insbesondere betrifft die Erfindung ein Verfahren zum Steuern eines techni schen Systems mit einem Agenten, der ein künstliches neuronales Netz implemen tiert.
Hintergrund der Erfindung
Aus dem Stand der Technik sind sogenannte tiefe neuronale Netze bekannt.
Die für die vorliegende Erfindung wesentlichen Technologien aus dem Gebiet der künstlichen neuronalen Netze sind hierbei die sogenannten rekurrenten neuronalen Netze (rückgekoppelte neuronale Netze) und das sogenannte Reinforcement Lear- ning (bestärkendes Lernen oder verstärkendes Lernen). Beide sind zur Modellie rung eines Agenten, mit dem ein technisches System gesteuert werden kann, geeig net.
Rekurrente neuronale Netze sind eine Technologie, die es ermöglicht, allgemeine Automaten als lernbare Systeme darzustellen. Beispiele hierfür sind in Fig. 1 und in Fig. 2 als vereinfachte Blockdiagramme gezeigt.
Fig. 1 zeigt ein aus dem Stand der Technik bekanntes rekurrentes neuronales Netz. Es verfügt über eine Eingabe x, einen Zustand ht, und eine Ausgabe y. Die Ein gabe x und der aktuelle Zustand ht werden gemeinsam in einen neuen Zustand ht+i überfuhrt, d.h. aus der Eingabe x und dem aktuellen Zustand ht wird der neue Zu stand ht+i des neuronalen Netzes erzeugt. Aus diesem neuen Zustand ht+i wird dann die Ausgabe y generiert.
Die Übergänge, die in Fig. 1 und Fig. 2 durch gestrichelte Pfeile dargestellt sind, sind lernbar. Dabei handelt es sich bei jedem Pfeil um universelle Funktionsappro- ximatoren. Im einfachsten Fall können die Funktionsapproximatoren durch ein vollverbundenes Netz mit einer versteckten Schicht gebildet werden. Tiefere sog. Feed-Forward-Modelle können ebenfalls angewandt werden. Dazu ist es notwen dig, das Netz zu trainieren.
Für das Training ist es zwingend notwendig, dass Paare umfassend einen Eingabe vektor x und einen Referenzvektor y* bekannt sind. Damit kann ein so genanntes überwachtes Training durchgeführt werden, wofür verschiedene Optimierungs- bzw. Trainingsverfahren angewandt werden können, etwa das sogenannte Gradien tenabstiegsverfahren oder das sogenannte Simulated Annealing. Andere Optimie- rungs- bzw. Trainingsverfahren können ebenso verwendet werden.
Eine aus dem Stand der Technik bekannte Alternative für ein rekurrentes neurona les Netz ist in Fig. 2 gezeigt, nämlich ein sogenanntes Long-Short-Term-Memory Netzwerk (LSTM). Diese Long-Short-Term-Memory Netzwerke verfügen zusätz lich über einen internen Speicher ct. Das Vorsehen eines solchen internen Speichers ct ermöglicht es auch lange zeitliche Abhängigkeiten zu modellieren.
Komplexere Speicherzugriffe lassen sich ebenfalls mittels künstlicher neuronaler Netze realisieren. Ein Beispiel dafür sind die sogenannten Memory-Augmented Neural Networks oder Neural Turing Machines.
Das Reinforcement Learning ermöglicht es, selbst handelnde Systeme zu trainieren, die versuchen eine maximale zukünftige Belohnung zu erreichen. Diese Systeme versuchen also ein gegebenes Problem bestmöglich zu lösen. Nachteilig bei den aus dem Stand der Technik bekannten künstlichen neuronalen Netzen ist es, dass es unabhängig von der verwendeten Trainingsmethode eine We sentliche Voraussetzung für das Training des neuronalen Netzes ist, dass die Prob- lemstellung exakt formuliert werden muss und die Zielgröße, also die Belohnung, exakt vorgegeben werden muss. Damit können beispielsweise Spiele wie Schach oder Go gelöst werden, bei denen die Problemstellung exakt formuliert und die Zielgröße exakt vorgegeben werden können. Ein wesentliches Problem der aus dem Stand der Technik bekannten Verfahren ist zudem, dass entweder eine Referenz y* zum Training notwendig ist, oder die kom plette Welt inklusive der kompletten Spielregeln und Axiome für das Training mo delliert werden muss. Allgemeine, auf künstlichen neuronalen Netzen basierende Problemloser, die die Regeln, d.h. die Problemstellung und die Lösung selbst erlernen und damit neue unbekannte Probleme lösen können, sind im Stand der Technik nicht bekannt.
Aufgabe der Erfindung
Aufgabe der vorliegenden Erfindung ist es daher, Lösungen bereit zu stellen, mit denen ein technisches System gesteuert werden kann, ohne dass die Umgebung des technischen Systems modelliert werden muss.
Erfmdungsgemäße Lösung Diese Aufgabe wird erfindungsgemäß durch ein Verfahren zum Steuern eines tech nischen Systems mit einem ersten Agenten nach dem unabhängigen Anspruch ge löst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
Bereitgestellt wird demnach ein Verfahren zum Steuern eines technischen Systems mit einem ersten Agenten, wobei der erste Agent ein erstes künstliches neuronales Netz implementiert, wobei ein erster Eingabevektor des ersten neuronalen Netzes und ein aktueller Zustand des ersten neuronalen Netzes gemeinsam in einen neuen Zustand des ersten neuronalen Netzes überführt werden, wobei aus dem neuen Zu stand des ersten neuronalen Netzes ein erster Ausgabevektor des ersten neuronalen Netzes generiert wird, und wobei
- ein zweiter Eingabevektor, der erste Eingabevektor und der aktuelle Zustand des ersten neuronalen Netzes gemeinsam in den neuen Zustand des ersten neurona len Netzes überführt werden, wobei der zweite Eingabevektor des ersten neuro nalen Netzes eine Emotion repräsentiert, und
- aus dem neuen Zustand des ersten neuronalen Netzes zusätzlich zum ersten Aus gabevektor des ersten neuronalen Netzes ein zweiter Ausgabevektor des ersten neuronalen Netzes generiert wird, wobei der zweite Ausgabevektor des ersten neuronalen Netzes eine erwartete Emotion des neuen Zustandes des ersten neu ronalen Netzes repräsentiert.
Damit können zum Trainieren des ersten neuronalen Netzes auch Emotionen her angezogen werden, etwa Schmerz (vergleichbar mit einer Kollision), Hunger (ver gleichbar mit einem Ladezustand eines Akkumulators), oder Freude (vergleichbar mit einer Zielerreichung, z.B. ein Lösen eines bestimmten Problems).
Bei dem technischen System, das mit dem ersten Agenten gesteuert werden kann, kann es sich beispielsweise um einen Roboter oder um ein autonom fahrendes Fahr- zeug. Vorteilhaft ist es, wenn der zweite Ausgabevektor des ersten neuronalen Netzes zum Zwecke des Trainings des ersten neuronalen Netzes mit einer zweiten Referenz verglichen wird, wobei das Vergleichen des zweiten Ausgabevektors des ersten neuronalen Netzes mit der zweiten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die zweite Refe renz einen Idealzustand des zweiten Ausgabevektors des ersten neuronalen Netzes und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes des ers ten neuronalen Netzes repräsentiert.
Des Weiteren kann es vorteilhaft sein, wenn
- der zweite Ausgabevektor des ersten neuronalen Netzes mit dem zweiten Einga bevektor des ersten neuronalen Netzes verglichen wird, und/oder
- der zweite Ausgabevektor des ersten neuronalen Netzes aus dem neuen Zustand des ersten neuronalen Netzes und aus dem ersten Ausgabevektor des ersten neu ronalen Netzes generiert wird.
Es hat sich als vorteilhaft herausgestellt, wenn der erste Ausgabevektor des ersten neuronalen Netzes zum Zwecke des Trainings des ersten neuronalen Netzes mit einer ersten Referenz verglichen wird, wobei das Vergleichen des ersten Ausgabe vektors des ersten neuronalen Netzes mit der ersten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die erste Referenz einen Idealzustand des ersten Ausgabevektors des ersten neuro nalen Netzes repräsentiert.
Ferner kann es vorteilhaft sein, wenn
- der erste Ausgabevektor des ersten neuronalen Netzes einem zweiten künstli chen neuronalen Netz als erster Eingabevektor des zweiten neuronalen Netzes zugeführt wird, wobei das zweite neuronale Netz von einem zweiten Agenten implementiert wird, - der erste Eingabevektor des zweiten neuronalen Netzes und ein aktueller Zu stand des zweiten neuronalen Netzes gemeinsam in einen neuen Zustand des zweiten neuronalen Netzes überführt werden,
- aus dem neuen Zustand des zweiten neuronalen Netzes ein erster Ausgabevektor des zweiten neuronalen Netzes generiert wird, wobei der erste Ausgabevektor des zweiten neuronalen Netzes eine erwartete Reaktion des zweiten neuronalen Netzes auf den ersten Eingabevektor des zweiten neuronalen Netzes repräsen tiert, und
- der erste Ausgabevektor des zweiten neuronalen Netzes mit dem ersten Einga bevektor des ersten neuronalen Netzes verglichen wird, um das erste neuronale Netz zu trainieren.
Damit kann das Gesamtsystem vollständig autonom seine Umgebung lernen. Zu dem
In einer Ausgestaltung der Erfindung kann
- aus dem neuen Zustand des zweiten neuronalen Netzes ein zweiter Ausgabevek tor des zweiten neuronalen Netzes generiert werden, wobei der zweite Ausgabe vektor des zweiten neuronalen Netzes eine erwartete Emotion des neuen Zustan des des zweiten neuronalen Netzes repräsentiert, und
- der zweite Ausgabevektor des zweiten neuronalen Netzes mit dem zweiten Ein gabevektor des ersten neuronalen Netzes verglichen werden, um das erste neu ronale Netz zu trainieren.
Der zweite Agent kann ein drittes künstliches neuronales Netz implementiert, wo bei
- dem dritten neuronalen Netz der erste Ausgabevektor des zweiten neuronalen Netzes als erster Eingabevektor des dritten neuronalen Netzes zugeführt wird,
- dem dritten neuronalen Netz der zweite Ausgabevektor des zweiten neuronalen Netzes als zweiter Eingabevektor des dritten neuronalen Netzes zugeführt wird, - der erste Eingabevektor, der zweite Eingabevektor und ein aktueller Zustand des dritten neuronalen Netzes gemeinsam in einen neuen Zustand des dritten neuro nalen Netzes überführt werden,
- aus dem neuen Zustand des dritten neuronalen Netzes ein zweiter Ausgabevektor des dritten neuronalen Netzes generiert wird, wobei der zweite Ausgabevektor des dritten neuronalen Netzes eine erwartete Emotion des neuen Zustandes des dritten neuronalen Netzes repräsentiert, und
- aus dem neuen Zustand des dritten neuronalen Netzes ein erster Ausgabevektor des dritten neuronalen Netzes generiert wird, der dem zweiten neuronalen Netz als weiterer Eingabevektor des zweiten neuronalen Netzes zugeführt wird.
Vorteilhaft ist es, wenn der zweite Ausgabevektor des dritten neuronalen Netzes zum Zwecke des Trainings des dritten neuronalen Netzes mit einer dritten Referenz verglichen wird, wobei das Vergleichen des zweiten Ausgabevektors des dritten neuronalen Netzes mit der dritten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die dritte Referenz einen Idealzustand des zweiten Ausgabevektors des dritten neuronalen Netzes und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes des dritten neuronalen Netzes repräsentiert.
Ferner kann es vorteilhaft sein, wenn das erste neuronale Netz und das dritte neu ronale Netz miteinander gekoppelt werden, insbesondere der neue Zustand des ers ten neuronalen Netzes und der aktuelle Zustand des dritten neuronalen Netzes mit einander gekoppelt werden, um basierend auf dem ersten neuronalen Netz das dritte neuronale Netz zu trainieren oder basierend auf dem dritten neuronalen Netz das erste neuronale Netz zu trainieren.
Kurzbeschreibung der Figuren Einzelheiten und Merkmale der Erfindung sowie konkrete, insbesondere vorteil hafte Ausführungsbeispiele der Erfindung ergeben sich aus der nachfolgenden Be schreibung in Verbindung mit der Zeichnung. Es zeigt: Fig. 1 ein aus dem Stand der Technik bekanntes künstliches neuronales Netz als rekurrentes neuronales Netz;
Fig. 2 ein weiteres aus dem Stand der Technik bekanntes künstliches neurona les Netz als Long-Short-Term-Memory Netz;
Fig. 3 ein erfindungsgemäßes System als Erweiterung des in Fig. 1 gezeigten künstlichen neuronalen Netzes;
Fig. 4 ein erfindungsgemäßes System als Erweiterung des in Fig. 2 gezeigten künstlichen neuronalen Netzes;
Fig. 5 ein erfindungsgemäßes System als Erweiterung des in Fig. 1 gezeigten künstlichen neuronalen Netzes; Fig. 6 eine erfindungsgemäße Erweiterung des in Fig. 5 gezeigten Systems; Fig. 7 eine erfindungsgemäße Erweiterung des in Fig. 6 gezeigten Systems; Fig. 8 eine erfindungsgemäße Erweiterung des in Fig. 7 gezeigten Systems; und Fig. 9 eine erfindungsgemäße Erweiterung des in Fig. 8 gezeigten Systems.
Detaillierte Beschreibung der Erfindung
Bei den nachfolgend beschriebenen neuronalen Netzen handelt es sich jeweils um künstliche neuronale Netze.
Mit der Erfindung können autonom selbstlernende Agenten bereitgestellt werden, mit denen ein technisches System gesteuert werden kann. Die Agenten und damit auch die jeweils gesteuerten technischen Systeme können nicht nur autonom arbei- ten, sondern sie können sich auch adaptiv und autonom an neue Umgebungen an passen. Anwendungen sind beispielsweise Robotik, autonomes Fahren, Raumfahrt oder medizinische Anwendungen. So kann beispielsweise ein Roboter in unter schiedlichen Umgebungen eingesetzt werden, wobei der Roboter nach einem Wechsel der Umgebung die neue Umgebung autonom lernen kann und damit sein Verhalten an die neue Umgebung anpassen kann.
Zur Lösung der vorstehend genannten Aufgabe werden erfindungsgemäß zwei we sentliche Erweiterungen zum Stand der Technik vorgeschlagen.
- Die erste Erweiterung betrifft die Einführung einer intrinsischen Referenz des neuronalen Netzes (nachfolgend erstes neuronales Netz NN1), also ein Selbst bild des ersten neuronalen Netzes NN1. Die intrinsische Referenz wird nachfol gend Emotion genannt.
- Die zweite Erweiterung betrifft das Lernen eines Weltmodells als Teil des Ge samtsystems unter Verwendung eines weiteren neuronalen Netzes (nachfolgend zweites neuronales Netz NN2). Das Weltmodell wird nachfolgend auch Weltbild genannt.
Beide Erweiterungen können miteinander kombiniert werden.
Fig. 3 zeigt eine erfindungsgemäße Erweiterung des in Fig. 1 gezeigten rekurrenten neuronalen Netzes NN1 anhand einer Emotion. Das neuronale Netz NN1 (erste neuronale Netz) wird von einem ersten Agenten S implementiert. Der Agent S wird nachfolgend auch Selbst genannt.
Im Stand der Technik werden ein erster Eingabevektor x des ersten neuronalen Net zes NN1 und ein aktueller Zustand ht des ersten neuronalen Netzes NN1 gemein sam in einen neuen Zustand ht+i des ersten neuronalen Netzes NN1 überführt. Aus dem neuen Zustand ht+i des ersten neuronalen Netzes NN1 wird dann ein erster Ausgabevektor y des ersten neuronalen Netzes NN1 generiert. Der erste Ausgabe vektor y kann dann zum Zwecke des Trainings des ersten neuronalen Netzes NN1 mit einer ersten Referenz y* bzw. mit einem ersten Referenzvektor verglichen wer den, beispielsweise unter Verwendung einer Abstandfunktion, vorzugsweise einer euklidischen Abstandsfunktion.
Zusätzlich zu dem aus dem Stand der Technik bekannten ersten Eingabevektor x wird dem ersten neuronalen Netz NN1 ein zweiter Eingabevektor e zugeführt. Der zweite Eingabevektor e des ersten neuronalen Netzes NN1 repräsentiert hierbei eine Emotion des Selbst bzw. des ersten neuronalen Netzes NN1 bzw. des ersten Agenten S.
Da sowohl x als auch e vektoriell sind, können mit beiden Eingab evektoren x, e beliebig viele skalare Eingaben und Emotionen modelliert werden. Die aktuelle Emotion des Systems kann also mehrere Größen enthalten, wie zum Beispiel Schmerz (wenn ein Roboter beispielsweise eine Kollision verursacht), Hunger (bei spielsweise bei einem geringen Ladestand eines Akkumulators) oder Freude (etwa eine Belohnung, wenn das zu steuernde technische System eine Aufgabe gelöst hat).
Ferner wird zusätzlich zu dem aus dem Stand der Technik bekannten ersten Ausga bevektor y ein zweiter Ausgabevektor e' erzeugt. Der zweite Ausgabevektor e' re präsentiert die erwartete Emotion des nächsten Zustands ht+i des Selbst bzw. des ersten neuronalen Netzes NN1 bzw. des ersten Agenten S.
Der zweite Ausgabevektor e' wird erfindungsgemäß erzeugt, indem der zweite Ein gabevektor e, der erste Eingabevektor x und der aktuelle Zustand ht des ersten neu ronalen Netzes NN1 gemeinsam in den neuen Zustand ht+i des ersten neuronalen Netzes NN1 überführt werden. Im Unterschied zu dem aus dem Stand der Technik bekannten neuronalen Netzen wird aus dem so erzeugten neuen Zustand ht+i der erste Ausgabevektor y erzeugt, also unter Berücksichtigung des zweiten Eingabe vektors e. Der zweite Ausgabevektor e' des ersten neuronalen Netzes NN1 wird ebenfalls aus dem so erzeugten neuen Zustand ht+i generiert Die erwartete Emotion bzw. der zweite Ausgabevektor e' kann dann zum Zwecke des Trainings des ersten neuronalen Netzes NN1 mit einer zweiten Referenz e* bzw. mit einem zweiten Referenzvektor verglichen werden, beispielsweise unter Verwendung einer Abstandfunktion, vorzugsweise einer euklidischen Abstands funktion. Die zweite Referenz e* repräsentiert hierbei einen Idealzustand des zwei ten Ausgabevektors e' des ersten neuronalen Netzes NN1 und damit einen Idealzu stand der erwarteten Emotion des neuen Zustandes ht+i des ersten neuronalen Net zes NN1.
Für den Vergleich zwischen e' und e* bzw. zwischen y und y* können beliebige, geeignete Abstandsfunktionen verwendet werden.
Der Idealzustand der erwarteten Emotion kann beispielsweise 0 (für nicht vorhan den) oder 1 (für vorhanden) sein, wobei auch Werte zwischen 0 und 1 möglich sind.
Anhand der in Fig. 3 gezeigten erfindungsgemäßen Erweiterung ist das System in der Lage, alle lernbaren Parameter, die mittels der gestrichelten Pfeile zum zweiten Ausgabevektor e' führen, zu trainieren. Für das Training selbst können auch Ver fahren eingesetzt werden, die nicht nur die aktuelle Emotion optimieren, sondern auch vergleichbar zum so genannten Reinforcement Learning die erwartete Emo tion in der Zukunft berücksichtigen.
Der gestrichelte Pfeil zum Ausgabevektor y ist allerdings mit Emotionen alleine nicht trainierbar, sodass die erste Referenz y* bzw. der erste Referenzvektor für dieses Training verwendet werden muss.
Fig. 4 zeigt eine erfindungsgemäße Erweiterung des in Fig. 2 gezeigten Long- Short-Term-Memory Netz anhand einer Emotion. Bis auf das zugrundeliegende neuronale Netz entspricht die in Fig. 4 gezeigte Ausführungsform der in Fig. 3 ge zeigten Ausführungsform. Die in Fig. 3 und Fig. 4 gezeigte Erweiterung kann aber auch für andere Arten von neuronalen Netzwerken angewandt werden.
Für das emotionale Training, d.h. für das Training der vom neuen Zustand ht+i zum zweiten Ausgabevektor e' geführten Verbindung sind bei den in Fig. 3 und Fig. 4 gezeigten Erweiterungen zwei weitere Alternativen möglich, die aber auch zusam men mit dem Training basierend auf der zweiten Referenz e* verwendet werden können:
1) Der zweite Ausgabevektor e' (Ausgabeemotion) wird nicht nur mit der zweiten Referenz e* verglichen, sondern auch mit dem zweiten Eingabevektor e. Dadurch kann sichergestellt werden, dass der zweite Ausgabevektor e' auch tatsächlich zum zweiten Eingabevektor e passt, d.h. zur Eingabeemotion passt.
2) Der zweite Ausgabevektor e' (Ausgabeemotion) wird nicht nur aus dem neuen Zustand ht+i des ersten neuronalen Netzes NN1 abgeleitet, sondern auch unter Berücksichtigung des ersten Ausgabevektors y, d.h. der zweite Ausgabevek tor e' wird aus dem neuen Zustand ht+i und aus dem ersten Ausgabevektor y abgeleitet. Dadurch wird es möglich, alle Parameter im Netzwerk rein durch Emotionen zu trainieren.
Diese beiden Alternativen können auch kombiniert werden.
Ferner können diese beiden Alternativen auf für die in Fig. 6 bis Fig. 9 gezeigten erfindungsgemäßen Erweiterungen eines neuronalen Netzes angewandt werden.
Fig. 5 zeigt ein erfindungsgemäßes System als Erweiterung des in Fig. 1 gezeigten künstlichen neuronalen Netzes;
Mit der in Fig. 5 gezeigten Erweiterung wird es möglich, auf die ideale Referenz, d.h. auf die erste Referenz y*, die zum Trainieren des ersten Ausgabevektors y ver wendet wird, zu verzichten. Während im Stand der Technik eine exakt vorgegebene Zielgröße für das Training des neuronalen Netzes NN1 unbedingt notwendig ist, ist eine solche Zielgröße bei der in Fig. 5 gezeigten Erweiterung nicht mehr notwendig.
Bei der in Fig. 5 gezeigten Erweiterung ist neben dem ersten neuronalen Netz NN1 ein zweites neuronales Netz NN2 vorgesehen. Das erste neuronale Netz NN1 wird mit dem zweiten neuronalen Netz NN2 gekoppelt, wobei der der erste Ausgabevek tor y des ersten neuronalen Netzes NN1 dem zweiten neuronalen Netz NN2 als erster Eingabevektor y des zweiten neuronalen Netzes NN2 zugeführt wird.
Das zweite neuronale Netz NN2 wird hierbei von einem zweiten Agenten W im plementiert. Der zweite Agent W wird nachfolgend auch Weltbild genannt, da mit zweiten neuronalen Netz NN2 ein Weltmodell als Teil des Gesamtsystems gelernt werden kann. Mit dem zweiten neuronalen Netz NN2 wird also das Verhalten der Welt modelliert, beispielsweise eine Umgebung, in der sich ein Roboter befindet. Bei dem zweiten neuronalen Netz NN2 kann es sich beispielsweise um ein rekur rentes neuronale Netz handeln, wobei auch jede andere Art eines neuronalen Netzes verwendet werden kann.
Das zweite neuronale Netz NN2 generiert anhand des ersten Eingabevektors y (= erster Ausgabevektor y des ersten neuronalen Netzes NN1) eine erwartete Reak tion des zweiten Agenten W bzw. des Weltbildes auf den ersten Eingabevektor y des zweiten neuronalen Netzes NN2. Diese erwartete Reaktion wird als erster Aus gabevektor x' des zweiten neuronalen Netzes NN2 zur Verfügung gestellt. Zum Ge nerieren des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 werden der erste Eingabevektor y des zweiten neuronalen Netzes NN2 und ein aktueller Zustand wt des zweiten neuronalen Netzes NN2 gemeinsam in einen neuen Zustand wt+i des zweiten neuronalen Netzes NN2 überführt. Aus dem neuen Zustand wt+i des zweiten neuronalen Netzes NN2 wird dann der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 generiert, Der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 wird mit dem ers ten Eingabevektor x des ersten neuronalen Netzes NN1 verglichen, um das erste neuronale Netz NN1 zu trainieren. Das erste neuronale Netz NN1 wird also in Abhängigkeit vom Verhalten des zweiten neuronalen Netzes NN2 bzw. in Abhän gigkeit des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 trainiert.
Anhand der tatsächlichen Ausgaben und der generierten Erwartung bzw. des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 kann das in Fig. 5 gezeigte Gesamtsystem vollständig trainiert werden, sodass alle lernbaren Parameter ge schätzt werden können.
Fig. 6 zeigt eine erfindungsgemäße Erweiterung des in Fig. 5 gezeigten Systems, wobei das in Fig. 6 gezeigte System eine Kombination der in Fig. 3 und Fig. 5 gezeigten Systeme ist.
Das eigentliche Steuerungssystem, d.h. der Agent S, mit dem ein technisches Sys tem, etwas ein Roboter gesteuert wird, kann hier zum einen über die Emotionen (zweiter Eingabevektor e des ersten neuronalen Netzes NN1 bzw. zweiter Ausga bevektor e' des ersten neuronalen Netzes NN1) gesteuert bzw. trainiert werden. Hierdurch wird erreicht, dass das erste neuronale Netz NN1 bzw. der erste Agent S einen möglichst erstrebenswerten Zustand verfolgt.
Zum anderen wird die Ausgabe des ersten neuronalen Netzes NN1 (d.h. der erste Ausgabevektor y des ersten neuronalen Netzes NN1) über das Weltbild (d.h. über das zweite neuronale Netz NN2 bzw. über den zweiten Agenten W) mit der Eingabe des ersten neuronalen Netzes NN1 (d.h. mit dem ersten Eingabevektor x des ersten neuronalen Netzes NN1) verglichen, da das Weltbild eine erwartete Eingabe (d.h. einen ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2) produzieren kann, wobei mit dem ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2 der erste Eingabevektor x des ersten neuronalen Netzes NN1 trainiert wird. Dies ermöglicht es, ein Training ohne Referenz durchzuführen. Das System bzw. der erste Agent S ist also vollständig ohne annotierte Daten trai nierbar und benötigt lediglich Anreize, die Zustände als erstrebenswert oder nicht erstrebenswert kennzeichnen. Diese Anreize können durch spärliche Annotation codiert werden, wie zum Beispiel extreme Ereignisse, etwa eine Kollision oder Pa rameter, die leicht erfassbar sind, wie sinkende Energiepegel.
Die beiden vorstehend genannten Varianten für das emotionale Training können auch bei dem in Fig. 6 gezeigten System angewandt werden.
Fig. 7 zeigt eine erfindungsgemäße Erweiterung des in Fig. 6 gezeigten Systems.
Hierbei wird zusätzlich zu dem ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2 ein zweiter Ausgabevektor e" des zweiten neuronalen Netzes NN2 ge- neriert. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 wird hierbei aus dem neuen Zustand wt+i des zweiten neuronalen Netzes NN2 abgeleitet. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 repräsentiert hierbei eine erwartete Emotion des neuen Zustandes wt+i des zweiten neuronalen Netzes NN2.
Die erwartete Emotion könnte beispielsweise aus den Aktionen eines anderen Teil nehmers der Welt, also einem Gegenüber resultieren. Wird beispielsweise ein Ge genüber zum Lachen gebracht, kann auch eine positive Reaktion erwartet werden, oder kollidiert beispielsweise ein Roboter mit einem anderen Roboter kann ein Alarmsignal des anderen Roboters erwartet werden. Diese erwarteten Emotionen bzw. der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 können ebenfalls mit dem zweiten Eingabevektor e des ersten neuronalen Netzes NN1 ver glichen werden, was ebenfalls ein Training des ersten neuronalen Netzes NN1 er möglicht. Das Training des ersten neuronalen Netzes NN 1 mittels des zweiten Ausgabevek tors e" des zweiten neuronalen Netzes NN2 kann im Sinne des so genannten Multi Task Learning zu einer Stabilisierung des Gesamttrainings des ersten neuronalen Netzes NN1 beitragen. Anhand der Verbindung des ersten neuronalen Netzes NN1 über den zweiten Agenten W bzw. über das zweite neuronale Netz NN2 können abstrakte Auswirkungen modelliert werden, wie zum Beispiel die Auswirkungen einer Ausgabe y des ersten neuronalen Netzes NN1 auf das Weltbild, die resultie rende Zustandsänderung des Weltbildes und daraus folgend das emotionale Feed back auf das Selbst bzw. auf das erste neuronale Netz NN1.
Fig. 8 zeigt eine erfindungsgemäße Erweiterung des in Fig. 7 gezeigten Systems.
Gemäß der in Fig. 8 gezeigten Erweiterung, implementiert der zweite Agent W ein drittes neuronalen Netzes NN3, sodass mit dem zweiten Agenten W bzw. mit dem zweiten neuronalen Netzes NN2 nicht nur der Zustand des Weltbildes kodiert wer den kann, sondern auch ein Modell des Selbstbildes des Weltbildes geschätzt wer den kann.
Dem dritten neuronalen Netz NN3 wird der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 als erster Eingabevektor x' des dritten neuronalen Net zes NN3 zugeführt wird. Zudem wird dem dritten neuronalen Netz NN3 ein zweiter Ausgabevektor e" des zweiten neuronalen Netzes NN2 als zweiter Eingabevektor e" des dritten neuronalen Netzes NN3 zugeführt. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 repräsentiert, wie oben bereits erläutert, eine er wartete Emotion des neuen Zustandes wt+i des zweiten neuronalen Netzes NN2. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 wird hierbei aus dem neuen Zustand wt+i des zweiten neuronalen Netzes NN2 generiert.
Der erste Eingabevektor x', der zweite Eingabevektor e" und der aktuelle Zustand h't des dritten neuronalen Netzes NN3 werden gemeinsam verwendet, um das dritte neuronale Netz NN3 in einen neuen Zustand h't+i zu überführen. Aus dem neuen Zustand h't+i des dritten neuronalen Netzes NN3 wird ein erster Ausgabevektor y' des dritten neuronalen Netzes NN3 generiert, der dem zweiten neuronalen Netz NN2 als weiterer Eingabevektor des zweiten neuronalen Net zes NN2 zugeführt wird. Durch diese Verbindung der beiden neuronalen Netze NN3 und NN2 über den ersten Ausgabevektor y' des dritten neuronalen Netzes NN3 werden das Weltbild und das Selbstbild des zweiten Agenten W gekoppelt. Dadurch wird es möglich, dass die beiden neuronalen Netze NN3 und NN2 auch ohne dem ersten neuronalen Netzes NN1 Interaktionen simulieren können.
Zudem wird aus dem neuen Zustand h't+i des dritten neuronalen Netzes NN3 ein zweiter Ausgabevektor e'" des dritten neuronalen Netzes NN3 generiert wird. Der zweite Ausgabevektor e'" des dritten neuronalen Netzes NN3 repräsentiert hierbei eine erwartete Emotion des neuen Zustandes h't+i des dritten neuronalen Net zes NN3.
Der zweite Ausgabevektor e'" des dritten neuronalen Netzes NN3 wird zum Zwecke des Trainings des dritten neuronalen Netzes NN3 mit einer dritten Referenz e** verglichen. Das Vergleichen des zweiten Ausgabevektors e'" des dritten neuronalen Netzes NN3 mit der dritten Referenz e** kann auch hier ein Berechnen einer Ab standfunktion umfassen, beispielsweise eine der oben genannten Abstandsfunktio nen. Die dritte Referenz e** repräsentiert hierbei einen Idealzustand des zweiten Ausgabevektors e'" des dritten neuronalen Netzes NN3 und damit einen Idealzu stand der erwarteten Emotion des neuen Zustandes h't+i des dritten neuronalen Net zes NN3.
Ferner können das erste neuronale Netz NN1 und das dritte neuronale Netz NN3 miteinander gekoppelt werden, etwa indem der neue Zustand ht+i des ersten neuro nalen Netzes NN1 und der aktuelle Zustand h't des dritten neuronalen Netzes NN3 miteinander gekoppelt werden. Diese Kopplung ist in Fig. 8 (und in Fig. 9) durch den Pfeil P gekennzeichnet. Damit wird es in vorteilhafter Weise möglich, basie rend auf dem ersten neuronalen Netz NN1 das dritte neuronale Netz NN3 zu trai nieren oder basierend auf dem dritten neuronalen Netz NN3 das erste neuronale Netz NN1 zu trainieren.
Das Selbstbild bzw. das dritte neuronale Netz NN3 generiert keine Ausgaben bzw. Ausgabevektoren, die als Ausgaben bzw. Ausgabevektoren des zweiten Agenten W verfügbar sind. Allerdings kann das Selbstbild bzw. das dritte neuronale Netz NN3 genutzt werden, um anhand des ersten Ausgabevektors y' des dritten neuronalen Netzes NN3 (der außerhalb des zweiten Agenten W nicht verfügbar gemacht wird) Änderungen des Weltbildes basierend auf Änderungen des Selbstbildes zu erfor schen.
Mit Hilfe der Kopplung P ist es ferner möglich, dass Gesamtsystem in zwei unter schiedlichen Zuständen zu betreiben, die hier als Wachphase und als Traumschlaf phase bezeichnet werden.
In der Wachphase ist der erste Agent S bzw. das erste neuronale Netz NN1 mit dem zweiten Agenten W bzw. mit dem dritten neuronalen Netz NN3 gekoppelt (Pfeil P). Das Selbstbild bzw. das dritte neuronale Netz NN3 lernt aus jeder Aktion des ersten neuronalen Netzes NN1, wie die Aktion den eigenen Zustand und den Zustand des Weltbildes bzw. des zweiten Agenten W verändern.
In der Traumschlafphase ist der erste Agent S bzw. das erste neuronale Netz NN1 von dem zweiten Agenten W bzw. von dem dritten neuronalen Netz NN3 entkop pelt (kein Pfeil P). In dem entkoppelten Zustand wird der erste Ausgabevektor y des ersten neuronalen Netzes NN1 nicht dem zweiten neuronalen Netzes NN2 zu geführt. In diesem Zustand kann das Selbstbild bzw. das dritte neuronale Netz NN3 innerhalb des zweiten Agenten W frei agieren. Da das Weltbild bzw. das zweite neuronale Netz NN2 sowohl erwartete Eingaben (erster Eingabevektor x' des dritten neuronalen Netzes NN3) als auch erwartete Emotionen (zweiter Eingabevektor e" des dritten neuronalen Netzes NN3) generie ren kann und das dritte neuronale Netz NN3 die weitere Eingabe (weiterer Einga bevektor y' des zweiten neuronalen Netzes NN2) generieren kann, können das Weltbild bzw. das zweite neuronale Netz NN2 und Selbstbild bzw. das dritte neu ronale Netz NN3 im Wechsel völlig frei agieren.
Ein Training ist des ersten Agenten S bzw. des ersten neuronalen Netzes NN1 ist trotzdem immer noch möglich, da der neue Zustand ht+i des Selbst bzw. des ersten neuronalen Netzes NN1 immer noch den zweiten Ausgabevektor e' des ersten neu ronalen Netzes NN1 generiert, der mit der zweiten (idealen) Referenz e* verglichen werden kann.
Das Träumen kann also genutzt werden, um verbesserte Interaktion des Selbstbil des bzw. des dritten neuronalen Netzes NN3 mit dem erwarteten Weltbild zu gene rieren.
In einer alternativen Variante sind die internen Zustände nicht gekoppelt, sondern die gelernten Verbindungen (Pfeile) im ersten neuronalen Netzes NN1 und dritten neuronalen Netzes NN3 sind gekoppelt. Dadurch entsteht eine Konfiguration, in der ein Training des Selbstbildes (des dritten neuronalen Netzes NN3) auch eine Verbesserung des eigentlichen Selbst (des ersten neuronalen Netzes NN1) verur sacht. Alternativ können Selbst und Selbstbild die Rollen tauschen, wenn Selbst von der Ein- und Ausgabe entkoppelt wird. Das bedeutet, dass statt beide Netze lose über Abstandsfunktionen zu trainieren, beide Netze den gleichen Speicher für die Gewichte verwenden können. Beide nehmen also immer den gleichen Wert für die Parameter des ersten neuronalen Netzes NN1 und des dritten neuronalen Net zes NN3 an. Fig. 9 zeigt eine erfindungsgemäße Erweiterung des in Fig. 8 gezeigten Systems. Gemäß der in Fig. 9 gezeigten Erweiterung kann das in Fig. 8 gezeigte Gesamtsys tem mit erweiterten Funktionen gekoppelt werden. Diese erweiterten Funktionen könnten zum Beispiel ein erweitertes Gedächtnis (ausgestaltet als Speichereinrich tung) sein, dass den Zustand des zweiten neuronalen Netzes NN2 und/oder den Zu stand des dritten neuronalen Netzes NN3 speichern und laden kann. Weitere, ledig lich beispielhaft aufgeführte Erweiterungen können sein:
- ein Sprachprozessor, der den Zustand des zweiten neuronalen Netzes NN2 und/oder den Zustand des dritten neuronalen Netzes NN3 in Symbolfolgen von Wörtern und Buchstaben umsetzen kann;
- erweiterte Eingabefunktionen, wie zum Beispiel der visuelle und auditive Kor tex;
- ein Sprachsynthesemodul, das menschliche Sprache erzeugen kann;
- taktile und Bewegungsplanungsmodule, die komplexe motorische Pläne model lieren und ausführen können;
- Module zum Laden und Speichern von Graphen, die es ermöglichen, verschie dene Zustände der Welt und des Selbstbildes miteinander zu verketten, zu ver arbeiten, zu speichern und zu laden (assoziatives Gedächtnis);
- Module zum Verarbeiten und Auswerten von Aussagenlogik und Arithmetik;
- Erweiterte Gefühlsfunktionen, die es ermöglichen komplexe soziale Handlungen zu erkennen und auf Gefühle abzubilden;
Darüber hinaus können beliebige weitere Module vorgesehen sein, die mit dem Zu stand des zweiten neuronalen Netzes NN1 und dem Zustand des dritten neuronalen Netzes NN3 interagieren können.
Ein Beispiel eines technischen Systems, das mit der vorliegenden Erfindung ge steuert werden kann, ist ein Mars-Rover, der selbstständig Aufgaben erfüllt und nach und nach seine Umgebung erkundet. Der zweite Eingabevektor e des ersten neuronalen Netzes NN1 kann hierbei bei spielsweise Vitalparameter (Ladestand des Akkumulators, Funktionsfähigkeit der Achsen, etc., wobei diese Parameter von geeigneten Sensoren bereitgestellt werden können) repräsentieren. Der zweite Eingabevektor e des ersten neuronalen Net zes NN1 kann aber auch Ziele repräsentieren bzw. beschreiben, etwa den Drang seine Elmwelt zu erkunden (Neugier) oder das Abarbeiten von gestellten Aufgaben (Loyalität), wobei hierfür die in Fig. 9 gezeigten erweiterten Funktionen verwendet werden können.
Die erweiterten Funktionen können direkt im Selbstbild bzw. im dritten neuronalen Netzes NN3 Änderungen am Zustand des zweiten Agenten W bewirken. Ist bei spielsweise die Liste an Arbeiten noch nicht erledigt, ändert sich der Zustand des zweiten Agenten W so, dass dieser eine Emotion e' (repräsentiert durch den zweiten Ausgabevektor des ersten neuronalen Netzes NN1) bewirkt, die wiederum beim ersten Agenten S den Wunsch weckt, die Liste abzuarbeiten. Hierzu können weitere erweiterte Funktionen notwendig sein. Beispielsweise kann ein Aufgabenplaner als erweiterte Funktion vorgesehen sein, der es dem ersten Agenten S ermöglicht, eine Sequenz von Aktionen abzuarbeiten.
Das Vorsehen von erweiterten Funktionen ermöglicht es, den Funktionsumfang des ersten Agenten S modular zu erweitern. Insbesondere können auch freie Funktionen vorgesehen werden, die erst im Bedarfsfall angelernt werden.
Die Erkundung der Umgebung des Mars-Rovers, also das Lernen des Weltbildes erfolgt analog. Hierbei kann eine erweiterte Funktion für das Kartographieren (bei spielsweise mittels Simultaneous Localization and Mapping (SLAM), bei dem eine Karte und die Position des Mars-Rovers gleichzeitig geschätzt werden) bereitge stellt werden. Die hierzu relevanten Informationen können von geeigneten Senso ren bereitgestellt werden, etwa Ultraschall sensoren oder Lidar. Ein weiteres Modul kann die Karte auf Lücken und Fehler untersuchen. Werden solche Lücken oder Fehler gefünden, kann der Zustand des Selbstbildes bzw. des dritten neuronalen Netzes NN3 so verändert werden, dass eine entsprechende Emotion e' (repräsentiert durch den zweiten Ausgabevektor des ersten neuronalen Netzes NN1) erzeugt wird. Als Resultat versucht das System bzw. der erste Agent S diesen Zustand zu verlas sen und die Fehler und/oder Lücken in der Karte zu beheben. Dies kann dann eben falls über einen Aufgabenplaner erledigt werden.
Für die erweiterten Funktionen können vortrainierte neuronale Netze oder auch di rekt Algorithmen verwenden, wenn diese auf Basis der differenzierbaren Program mierung implementiert sind. Damit wird es in vorteilhafter Weise möglich, neuro nale Netze und Programmierung zu mischen, wodurch die Entwicklung und das Training der neuronalen Netze erheblich beschleunigt werden.
Mit dem erfindungsgemäß Verfahren wird erstmals eine Gesamtlösung bereitge stellt, die vergleichbar zum menschlichen Wahmehmungsprozess durch Emotionen und Interaktion mit der Welt trainiert werden kann. Dazu ist es nicht notwendig, ein festes Weltbild vorzugeben, wie es im Stand der Technik erforderlich ist.
Das Weltbild wird vielmehr autonom selbst gelernt. Erstrebenswerte Handlungen werden rein durch Emotionen durch schwache Kennzeichnung gelernt. Gemäß dem erfindungsgemäßen Verfahren kann der Agent S also vollständig autonom und selbstlernend agieren. Gemäß der in Fig. 8 gezeigten Weiterbildung wird sogar ein Selbstbild in der Welt bzw. des Weltbildes modelliert wird, mit dem das Weltbild trainiert werden kann. Das System gemäß Fig. 8 kann in Wach- und Schlafphasen selbst lernen, ohne dass eine Interaktion mit der echten Welt notwendig ist.
Darüber hinaus lassen sich bei dem System gemäß Fig. 8 beispielsweise viele neu- roanatomische und neuropathologische Beobachtung wiederfinden:
- Das Ausschalten des Selbst bzw. des ersten Agenten S würde das Gesamtsystem in einen Zustand versetzen, in dem es nur noch mit sich selbst in Interaktion treten kann. Dieser Zustand wird in der Neuropathologie als Locked-In Syndrom beschrieben. - Das komplette Bewusstsein könnte vollständig ausgeschalten werden. Dies könnte durch eine Entfernung des Weltbildes realisiert werden. Das Gesamtsys tem könnte immer noch agieren, jedoch wäre es nicht mehr in der Lage, kom plexe Pläne zu erstellen, da dazu das Weltbild benötigt wird. Dies entspricht den in der Neuropathologie beobachteten so genannten Automatismen. Auch der Zu stand des Schlafwandelns ruft ähnliche Erscheinungen vor.
- Eine Entfernung des Blocks e' (zweiter Ausgabevektor des ersten neuronalen Netzes NN1) ist vergleichbar mit einer Einschränkung der Amygdala des Ge hirns. Hier kann das komplette System die Emotionen nicht mehr korrekt verar beiten. Ähnliche Einschränkungen können auch bei autistischen Störungen vor liegen.
- Einschränkung der erweiterten Funktionen, die in Fig. 9 dargestellt sind, können ebenfalls auf entsprechende neuropathologische Phänomene abgebildet werden. Dazu gehören zum Beispiel Amnesie, kortikale Taubheit oder kortikale Blind heit.
- Multiple Persönlichkeiten können durch das fehlerhafte Anlegen von mehreren Selbstbildern generiert werden.
- Schwer erklärbare normale neurologische Prozesse, wie die Interaktion von Selbst und Selbstbild, die vermutlich zum Gefühl des Bewusstseins führen, sind dadurch nachvollziehbar: Erlebt das Selbst tatsächlich eine Situation, die das Selbstbild bereits im Traum erlebt hat, entsteht ein deja-vu.
- Das System ist auch nützlich, um das Qualia-Problem nachzuvollziehen.
Jedes System hat potentiell ein anderes Selbst- und Weltbild. Daher sind gleiche Bilder (z.B. Empfindung der Farbe Rot) zwar wahrscheinlich, exakte Gleichheit aber extrem unwahrscheinlich. Die Erfindung kann also auch zur objektiven Erfor schung solcher Phänomene dienen.
Zusammenfassend ist es mit der Erfindung möglich, das menschliche Bewusstsein in einem bisher unbekannten Detailgrad abzubilden. Zudem ist der erste Agent S in der Lage, sich an völlig neue Umgebungen anzupassen, da sowohl das Bild der Welt als auch das Bild von sich selbst vollständig neu gelernt und angepasst werden kann. Damit ist das System also in der Lage sowohl Veränderung in der Welt zu lernen und sich darauf einzustellen, als auch Veränderungen am Selbst zu beobach ten und zu berücksichtigen. Zum Einsatz des Systems sind keinerlei Trainingsdaten notwendig. Lediglich das eigene Feedback anhand der Emotion ist ausreichend, um sich auf komplexe neue Situation einzustellen.
Bezugszeichen: e zweiter Eingabevektor des ersten neuronalen Netzes NN1
e' zweiter Ausgabevektor des ersten neuronalen Netzes NN1
e" zweiter Ausgabevektor des zweiten neuronalen Netzes NN2 bzw. zweiter
Eingabevektor des dritten neuronalen Netzes NN3
zweiter Ausgabevektor des dritten neuronalen Netzes NN3
zweite Referenz
^ ^ dritte Referenz
ht aktueller Zustand des ersten neuronalen Netzes NN1
h', aktueller Zustand des dritten neuronalen Netzes NN3
ht+i neuer Zustand des ersten neuronalen Netzes NN1
h',+i neuer Zustand des ersten neuronalen Netzes NN3
NN1 erstes künstliches neuronales Netz
NN2 zweites künstliches neuronales Netz
NN3 drittes künstliches neuronales Netz
P Koppelung / Pfeil
s erster Agent (auch "Selbst" genannt)
T Training
W zweiter Agent (auch "Weltbild" genannt)
Wt aktueller Zustand des zweiten neuronalen Netzes NN2
Wt+i neuer Zustand des zweiten neuronalen Netzes NN2
X erster Eingabevektor des ersten neuronalen Netzes NN1
x' erster Ausgabevektor des zweiten neuronalen Netzes NN2 bzw. erster Ein gabevektor des dritten neuronalen Netzes NN3
y erster Ausgabevektor des ersten neuronalen Netzes NN1
y' erster Ausgabevektor des dritten neuronalen Netzes NN3 bzw. weiterer Eingabevektor des zweiten neuronalen Netzes NN2
y* erste Referenz

Claims

Ansprüche
1. Verfahren zum Steuern eines technischen Systems mit einem ersten Agen ten (S), wobei der erste Agent (S) ein erstes künstliches neuronales Netz (NN 1) implementiert, wobei ein erster Eingabevektor (x) des ersten neuronalen Netzes (NN1) und ein aktueller Zustand (ht) des ersten neurona- len Netzes (NN1) gemeinsam in einen neuen Zustand (ht+i) des ersten neu ronalen Netzes (NN1) überführt werden und wobei aus dem neuen Zu stand (ht+i) des ersten neuronalen Netzes (NN1) ein erster Ausgabevek tor (y) des ersten neuronalen Netzes (NN1) generiert wird,
dadurch gekennzeichnet, dass
- ein zweiter Eingabevektor (e), der erste Eingabevektor (x) und der aktu elle Zustand (ht) des ersten neuronalen Netzes (NN1) gemeinsam in den neuen Zustand (ht+i) des ersten neuronalen Netzes (NN1) überführt wer den, wobei der zweite Eingabevektor (e) des ersten neuronalen Net zes (NN1) eine Emotion repräsentiert, und
- aus dem neuen Zustand (ht+i) des ersten neuronalen Netzes (NN1) zu sätzlich zum ersten Ausgabevektor (y) des ersten neuronalen Net zes (NN1) ein zweiter Ausgabevektor (e1) des ersten neuronalen Net zes (NN1) generiert wird, wobei der zweite Ausgabevektor (e1) des ers ten neuronalen Netzes (NN1) eine erwartete Emotion des neuen Zustan- des (ht+i) des ersten neuronalen Netzes (NN1) repräsentiert, sodass sich der erste Agent autonom und selbstlernend an neue Elmgebun gen des technischen Systems anpasst.
2. Verfahren nach dem vorhergehenden Anspruch, wobei der zweite Ausgabe- vektor (e1) des ersten neuronalen Netzes (NN1) zum Zwecke des Trainings des ersten neuronalen Netzes (NN1) mit einer zweiten Referenz (e*) vergli chen wird, wobei das Vergleichen des zweiten Ausgabevektors (e1) des ers ten neuronalen Netzes (NN1) mit der zweiten Referenz (e*) ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, um fasst, und wobei die zweite Referenz (e*) einen Idealzustand des zweiten Ausgabevektors (e1) des ersten neuronalen Netzes (NN1) und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes (ht+i) des ersten neuronalen Netzes (NN1) repräsentiert.
3. Verfahren nach dem vorhergehenden Anspruch, wobei
der zweite Ausgabevektor (e1) des ersten neuronalen Netzes (NN1) mit dem zweiten Eingabevektor (e) des ersten neuronalen Netzes (NN1) verglichen wird, und/oder
der zweite Ausgabevektor (e1) des ersten neuronalen Netzes (NN1) aus dem neuen Zustand (ht+i) des ersten neuronalen Netzes (NN1) und aus dem ersten Ausgabevektor (y) des ersten neuronalen Netzes (NN1) ge neriert wird.
4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der erste Aus gabevektor (y) des ersten neuronalen Netzes (NN1) zum Zwecke des Trai nings des ersten neuronalen Netzes (NN1) mit einer ersten Referenz (y*) verglichen wird, wobei das Vergleichen des ersten Ausgabevektors (y) des ersten neuronalen Netzes (NN1) mit der ersten Referenz (y*) ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, um fasst, und wobei die erste Referenz (y*) einen Idealzustand des ersten Aus gabevektors (y) des ersten neuronalen Netzes (NN1) repräsentiert.
5. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 3, wobei
der erste Ausgabevektor (y) des ersten neuronalen Netzes (NN1) einem zweiten künstlichen neuronalen Netz (NN2) als erster Eingabevektor (y) des zweiten neuronalen Netzes (NN2) zugeführt wird, wobei das zweite neuronale Netz (NN2) von einem zweiten Agenten (W) implementiert wird,
der erste Eingabevektor (y) des zweiten neuronalen Netzes (NN2) und ein aktueller Zustand (wt) des zweiten neuronalen Netzes (NN2) ge meinsam in einen neuen Zustand (wt+i) des zweiten neuronalen Net zes (NN2) überführt werden,
aus dem neuen Zustand (wt+i) des zweiten neuronalen Netzes (NN2) ein erster Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) gene riert wird, wobei der erste Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) eine erwartete Reaktion des zweiten neuronalen Net zes (NN2) auf den ersten Eingabevektor (y) des zweiten neuronalen Netzes (NN2) repräsentiert, und
der erste Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) mit dem ersten Eingabevektor (x) des ersten neuronalen Netzes (NN) ver glichen wird, um das erste neuronale Netz (NN1) zu trainieren.
Verfahren nach dem vorhergehenden Anspruch, wobei
aus dem neuen Zustand (wt+i) des zweiten neuronalen Netzes (NN2) ein zweiter Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) gene riert wird, wobei der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) eine erwartete Emotion des neuen Zustandes (wt+i) des zweiten neuronalen Netzes (NN2) repräsentiert, und
der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) mit dem zweiten Eingabevektor (e) des ersten neuronalen Netzes (NN1) verglichen wird, um das erste neuronale Netz (NN1) zu trainieren.
Verfahren nach dem vorhergehenden Anspruch, wobei der zweite
Agent (W) ein drittes künstliches neuronales Netz (NN3) implementiert, wobei dem dritten neuronalen Netz (NN3) der erste Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) als erster Eingabevektor (c') des drit ten neuronalen Netzes (NN3) zugeführt wird,
dem dritten neuronalen Netz (NN3) der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) als zweiter Eingabevektor (e") des dritten neuronalen Netzes (NN3) zugeführt wird,
der erste Eingabevektor (c'), der zweite Eingabevektor (e") und ein ak tueller Zustand (h't) des dritten neuronalen Netzes (NN3) gemeinsam in einen neuen Zustand (h't+i) des dritten neuronalen Netzes (NN3) über führt werden,
aus dem neuen Zustand (h't+i) des dritten neuronalen Netzes (NN3) ein zweiter Ausgabevektor (e'") des dritten neuronalen Netzes (NN3) gene riert wird, wobei der zweite Ausgabevektor (e'") des dritten neuronalen Netzes (NN3) eine erwartete Emotion des neuen Zustandes (h't+i) des dritten neuronalen Netzes (NN3) repräsentiert, und
aus dem neuen Zustand (h't+i) des dritten neuronalen Netzes (NN3) ein erster Ausgabevektor (y1) des dritten neuronalen Netzes (NN3) generiert wird, der dem zweiten neuronalen Netz (NN2) als weiterer Eingabevek tor (y1) des zweiten neuronalen Netzes (NN2) zugeführt wird.
Verfahren nach dem vorhergehenden Anspruch, wobei der zweite Ausgabe vektor (e'") des dritten neuronalen Netzes (NN3) zum Zwecke des Trainings des dritten neuronalen Netzes (NN3) mit einer dritten Referenz (e**) ver glichen wird, wobei das Vergleichen des zweiten Ausgabevektors (e'") des dritten neuronalen Netzes (NN3) mit der dritten Referenz (e**) ein Berech nen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die dritte Referenz (e**) einen Idealzustand des zweiten Ausgabevektors (e'") des dritten neuronalen Netzes (NN3) und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes (h't+i) des dritten neuronalen Netzes (NN3) repräsentiert. 9. Verfahren nach einem der beiden vorhergehenden Ansprüche, wobei das erste neuronale Netz (NN1) und das dritte neuronale Netz (NN3) miteinan der gekoppelt werden, insbesondere der neue Zustand (ht+i) des ersten neu ronalen Netzes (NN1) und der aktuelle Zustand (h't) des dritten neuronalen Netzes (NN3) miteinander gekoppelt werden, um basierend auf dem ersten neuronalen Netz (NN1) das dritte neuronale Netz (NN3) zu trainieren oder basierend auf dem dritten neuronalen Netz (NN3) das erste neuronale Netz (NN1) zu trainieren.
PCT/EP2020/055427 2019-03-01 2020-03-02 Autonomes selbstlernendes system WO2020178232A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202080027691.8A CN113678146A (zh) 2019-03-01 2020-03-02 自主自学习系统
EP20709525.8A EP3931761A1 (de) 2019-03-01 2020-03-02 Autonomes selbstlernendes system
US17/462,632 US20210397143A1 (en) 2019-03-01 2021-08-31 Autonomous self-learning system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102019105281.5 2019-03-01
DE102019105281.5A DE102019105281A1 (de) 2019-03-01 2019-03-01 Autonomes selbstlernendes System

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/462,632 Continuation US20210397143A1 (en) 2019-03-01 2021-08-31 Autonomous self-learning system

Publications (1)

Publication Number Publication Date
WO2020178232A1 true WO2020178232A1 (de) 2020-09-10

Family

ID=69770879

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/055427 WO2020178232A1 (de) 2019-03-01 2020-03-02 Autonomes selbstlernendes system

Country Status (5)

Country Link
US (1) US20210397143A1 (de)
EP (1) EP3931761A1 (de)
CN (1) CN113678146A (de)
DE (1) DE102019105281A1 (de)
WO (1) WO2020178232A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018164716A1 (en) * 2017-03-09 2018-09-13 Alphaics Corporation Processor for implementing reinforcement learning operations
WO2018211142A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Imagination-based agent neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018164716A1 (en) * 2017-03-09 2018-09-13 Alphaics Corporation Processor for implementing reinforcement learning operations
WO2018211142A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Imagination-based agent neural networks

Also Published As

Publication number Publication date
CN113678146A (zh) 2021-11-19
EP3931761A1 (de) 2022-01-05
US20210397143A1 (en) 2021-12-23
DE102019105281A1 (de) 2020-09-03

Similar Documents

Publication Publication Date Title
DE102010045529B4 (de) Interaktives Robotersteuerungssystem und Verwendungsverfahren
Samsonovich Toward a unified catalog of implemented cognitive architectures
DE69030592T2 (de) Generierungsverfahren für Bewegungstrajektoren in einem dynamischen System
Voss Essentials of general intelligence: The direct path to artificial general intelligence
EP1183619A2 (de) Situationsabhängig operierendes semantisches netz n-ter ordnung
DE102020209685B4 (de) Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
WO2021069129A1 (de) Vorrichtung und verfahren zum steuern einer robotervorrichtung
DE102019131385A1 (de) Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern
DE102020212658A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
WO2020182541A1 (de) Verfahren zum betreiben eines roboters in einem multiagentensystem, roboter und multiagentensystem
DE102021212276A1 (de) Wissensgetriebenes und selbstüberwachtes system zur fragenbeantwortung
DE102020214177A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen
DE102006062555A1 (de) Verfahren zur Beobachtung eines Steuergeräts
EP0388401B1 (de) Selbstentwickelndes computersystem
DE102020200165B4 (de) Robotersteuereinrichtung und Verfahren zum Steuern eines Roboters
WO2020178232A1 (de) Autonomes selbstlernendes system
EP3931754A1 (de) Autonomes selbstlernendes system
DE102022201116B4 (de) Verfahren zum Steuern einer Robotervorrichtung
DE102021114768A1 (de) Fahrzeugsteuerung unter Verwendung eines Controllers eines neuronalen Netzes in Kombination mit einem modellbasierten Controller
DE102014000086A1 (de) Arbeitsverfahren für Behandlung von abstrakten Objekten (Gedanke-Substanzen) von einem Computersystem von Künstlicher Intelligenz von einem Cyborg oder einem Android.
DE102020210823A1 (de) Maschinen-Steueranordnung
Pozna et al. A new pattern of knowledge based on experimenting the causality relation
DE102022208082B3 (de) Verfahren zum Steuern eines technischen Systems
DE102020105485A1 (de) Trainieren lokaler künstlicher neuronaler Netzwerke
DE102017205048A1 (de) Vorrichtung und verfahren zur bestimmung eines zustands eines arbeitsablaufs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20709525

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2020709525

Country of ref document: EP