WO2020178232A1

WO2020178232A1 - Autonomes selbstlernendes system

Info

Publication number: WO2020178232A1
Application number: PCT/EP2020/055427
Authority: WO
Inventors: Andreas Maier
Original assignee: Friedrich-Alexander-Universität Erlangen-Nürnberg
Priority date: 2019-03-01
Filing date: 2020-03-02
Publication date: 2020-09-10
Also published as: CN113678146A; EP3931761A1; US20210397143A1; DE102019105281A1

Abstract

Bereitgestellt wird durch die Erfindung ein Verfahren zum Steuern eines technischen Systems mit einem ersten Agenten (S),wobei der erste Agent(S) ein erstes künstliches neuronales Netz (NN1) implementiert, wobei ein erster Eingabevektor(x) des ersten neuronalen Netzes (NN1) und ein aktueller Zustand (h_t) des ersten neuronalen Netzes (NN1) gemeinsam in einen neuen Zustand (h_t+1) des ersten neuronalen Netzes (NN1) überführt werden, wobei aus dem neuen Zustand (h_t+1) des ersten neuronalen Netzes (NN1) ein erster Ausgabevektor(y) des ersten neuronalen Netzes (NN1) generiert wird,wobei dem ersten Agenten zusätzlich ein zweiter Eingabevektor (e) zugeführt wird, der eine Emotion repräsentiert und der bei der Überführung des neuronalen Netzes in den neuen Zustand mit berücksichtigt wird, und wobei ein zweiter Ausgabevektor(e'), der eine erwartete Emotion des neuen Zustandes (h_t+1) des ersten neuronalen Netzes(NN1) repräsentiert.

Description

Autonomes selbstlernendes System

Gegenstand der Erfindung

Die Erfindung liegt auf dem Gebiet der automatischen autonom arbeitenden Sys teme. Insbesondere betrifft die Erfindung ein Verfahren zum Steuern eines techni schen Systems mit einem Agenten, der ein künstliches neuronales Netz implemen tiert.

Hintergrund der Erfindung

Aus dem Stand der Technik sind sogenannte tiefe neuronale Netze bekannt.

Die für die vorliegende Erfindung wesentlichen Technologien aus dem Gebiet der künstlichen neuronalen Netze sind hierbei die sogenannten rekurrenten neuronalen Netze (rückgekoppelte neuronale Netze) und das sogenannte Reinforcement Lear- ning (bestärkendes Lernen oder verstärkendes Lernen). Beide sind zur Modellie rung eines Agenten, mit dem ein technisches System gesteuert werden kann, geeig net.

Rekurrente neuronale Netze sind eine Technologie, die es ermöglicht, allgemeine Automaten als lernbare Systeme darzustellen. Beispiele hierfür sind in Fig. 1 und in Fig. 2 als vereinfachte Blockdiagramme gezeigt.

Fig. 1 zeigt ein aus dem Stand der Technik bekanntes rekurrentes neuronales Netz. Es verfügt über eine Eingabe x, einen Zustand h_t, und eine Ausgabe y. Die Ein gabe x und der aktuelle Zustand h_t werden gemeinsam in einen neuen Zustand h_t+i überfuhrt, d.h. aus der Eingabe x und dem aktuellen Zustand h_t wird der neue Zu stand h_t+i des neuronalen Netzes erzeugt. Aus diesem neuen Zustand h_t+i wird dann die Ausgabe y generiert.

Die Übergänge, die in Fig. 1 und Fig. 2 durch gestrichelte Pfeile dargestellt sind, sind lernbar. Dabei handelt es sich bei jedem Pfeil um universelle Funktionsappro- ximatoren. Im einfachsten Fall können die Funktionsapproximatoren durch ein vollverbundenes Netz mit einer versteckten Schicht gebildet werden. Tiefere sog. Feed-Forward-Modelle können ebenfalls angewandt werden. Dazu ist es notwen dig, das Netz zu trainieren.

Für das Training ist es zwingend notwendig, dass Paare umfassend einen Eingabe vektor x und einen Referenzvektor y* bekannt sind. Damit kann ein so genanntes überwachtes Training durchgeführt werden, wofür verschiedene Optimierungs- bzw. Trainingsverfahren angewandt werden können, etwa das sogenannte Gradien tenabstiegsverfahren oder das sogenannte Simulated Annealing. Andere Optimie- rungs- bzw. Trainingsverfahren können ebenso verwendet werden.

Eine aus dem Stand der Technik bekannte Alternative für ein rekurrentes neurona les Netz ist in Fig. 2 gezeigt, nämlich ein sogenanntes Long-Short-Term-Memory Netzwerk (LSTM). Diese Long-Short-Term-Memory Netzwerke verfügen zusätz lich über einen internen Speicher c_t. Das Vorsehen eines solchen internen Speichers c_t ermöglicht es auch lange zeitliche Abhängigkeiten zu modellieren.

Komplexere Speicherzugriffe lassen sich ebenfalls mittels künstlicher neuronaler Netze realisieren. Ein Beispiel dafür sind die sogenannten Memory-Augmented Neural Networks oder Neural Turing Machines.

Das Reinforcement Learning ermöglicht es, selbst handelnde Systeme zu trainieren, die versuchen eine maximale zukünftige Belohnung zu erreichen. Diese Systeme versuchen also ein gegebenes Problem bestmöglich zu lösen. Nachteilig bei den aus dem Stand der Technik bekannten künstlichen neuronalen Netzen ist es, dass es unabhängig von der verwendeten Trainingsmethode eine We sentliche Voraussetzung für das Training des neuronalen Netzes ist, dass die Prob- lemstellung exakt formuliert werden muss und die Zielgröße, also die Belohnung, exakt vorgegeben werden muss. Damit können beispielsweise Spiele wie Schach oder Go gelöst werden, bei denen die Problemstellung exakt formuliert und die Zielgröße exakt vorgegeben werden können. Ein wesentliches Problem der aus dem Stand der Technik bekannten Verfahren ist zudem, dass entweder eine Referenz y* zum Training notwendig ist, oder die kom plette Welt inklusive der kompletten Spielregeln und Axiome für das Training mo delliert werden muss. Allgemeine, auf künstlichen neuronalen Netzen basierende Problemloser, die die Regeln, d.h. die Problemstellung und die Lösung selbst erlernen und damit neue unbekannte Probleme lösen können, sind im Stand der Technik nicht bekannt.

Aufgabe der Erfindung

Aufgabe der vorliegenden Erfindung ist es daher, Lösungen bereit zu stellen, mit denen ein technisches System gesteuert werden kann, ohne dass die Umgebung des technischen Systems modelliert werden muss.

Erfmdungsgemäße Lösung Diese Aufgabe wird erfindungsgemäß durch ein Verfahren zum Steuern eines tech nischen Systems mit einem ersten Agenten nach dem unabhängigen Anspruch ge löst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben.

Bereitgestellt wird demnach ein Verfahren zum Steuern eines technischen Systems mit einem ersten Agenten, wobei der erste Agent ein erstes künstliches neuronales Netz implementiert, wobei ein erster Eingabevektor des ersten neuronalen Netzes und ein aktueller Zustand des ersten neuronalen Netzes gemeinsam in einen neuen Zustand des ersten neuronalen Netzes überführt werden, wobei aus dem neuen Zu stand des ersten neuronalen Netzes ein erster Ausgabevektor des ersten neuronalen Netzes generiert wird, und wobei

- ein zweiter Eingabevektor, der erste Eingabevektor und der aktuelle Zustand des ersten neuronalen Netzes gemeinsam in den neuen Zustand des ersten neurona len Netzes überführt werden, wobei der zweite Eingabevektor des ersten neuro nalen Netzes eine Emotion repräsentiert, und

- aus dem neuen Zustand des ersten neuronalen Netzes zusätzlich zum ersten Aus gabevektor des ersten neuronalen Netzes ein zweiter Ausgabevektor des ersten neuronalen Netzes generiert wird, wobei der zweite Ausgabevektor des ersten neuronalen Netzes eine erwartete Emotion des neuen Zustandes des ersten neu ronalen Netzes repräsentiert.

Damit können zum Trainieren des ersten neuronalen Netzes auch Emotionen her angezogen werden, etwa Schmerz (vergleichbar mit einer Kollision), Hunger (ver gleichbar mit einem Ladezustand eines Akkumulators), oder Freude (vergleichbar mit einer Zielerreichung, z.B. ein Lösen eines bestimmten Problems).

Bei dem technischen System, das mit dem ersten Agenten gesteuert werden kann, kann es sich beispielsweise um einen Roboter oder um ein autonom fahrendes Fahr- zeug. Vorteilhaft ist es, wenn der zweite Ausgabevektor des ersten neuronalen Netzes zum Zwecke des Trainings des ersten neuronalen Netzes mit einer zweiten Referenz verglichen wird, wobei das Vergleichen des zweiten Ausgabevektors des ersten neuronalen Netzes mit der zweiten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die zweite Refe renz einen Idealzustand des zweiten Ausgabevektors des ersten neuronalen Netzes und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes des ers ten neuronalen Netzes repräsentiert.

Des Weiteren kann es vorteilhaft sein, wenn

- der zweite Ausgabevektor des ersten neuronalen Netzes mit dem zweiten Einga bevektor des ersten neuronalen Netzes verglichen wird, und/oder

- der zweite Ausgabevektor des ersten neuronalen Netzes aus dem neuen Zustand des ersten neuronalen Netzes und aus dem ersten Ausgabevektor des ersten neu ronalen Netzes generiert wird.

Es hat sich als vorteilhaft herausgestellt, wenn der erste Ausgabevektor des ersten neuronalen Netzes zum Zwecke des Trainings des ersten neuronalen Netzes mit einer ersten Referenz verglichen wird, wobei das Vergleichen des ersten Ausgabe vektors des ersten neuronalen Netzes mit der ersten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die erste Referenz einen Idealzustand des ersten Ausgabevektors des ersten neuro nalen Netzes repräsentiert.

Ferner kann es vorteilhaft sein, wenn

- der erste Ausgabevektor des ersten neuronalen Netzes einem zweiten künstli chen neuronalen Netz als erster Eingabevektor des zweiten neuronalen Netzes zugeführt wird, wobei das zweite neuronale Netz von einem zweiten Agenten implementiert wird, - der erste Eingabevektor des zweiten neuronalen Netzes und ein aktueller Zu stand des zweiten neuronalen Netzes gemeinsam in einen neuen Zustand des zweiten neuronalen Netzes überführt werden,

- aus dem neuen Zustand des zweiten neuronalen Netzes ein erster Ausgabevektor des zweiten neuronalen Netzes generiert wird, wobei der erste Ausgabevektor des zweiten neuronalen Netzes eine erwartete Reaktion des zweiten neuronalen Netzes auf den ersten Eingabevektor des zweiten neuronalen Netzes repräsen tiert, und

- der erste Ausgabevektor des zweiten neuronalen Netzes mit dem ersten Einga bevektor des ersten neuronalen Netzes verglichen wird, um das erste neuronale Netz zu trainieren.

Damit kann das Gesamtsystem vollständig autonom seine Umgebung lernen. Zu dem

In einer Ausgestaltung der Erfindung kann

- aus dem neuen Zustand des zweiten neuronalen Netzes ein zweiter Ausgabevek tor des zweiten neuronalen Netzes generiert werden, wobei der zweite Ausgabe vektor des zweiten neuronalen Netzes eine erwartete Emotion des neuen Zustan des des zweiten neuronalen Netzes repräsentiert, und

- der zweite Ausgabevektor des zweiten neuronalen Netzes mit dem zweiten Ein gabevektor des ersten neuronalen Netzes verglichen werden, um das erste neu ronale Netz zu trainieren.

Der zweite Agent kann ein drittes künstliches neuronales Netz implementiert, wo bei

- dem dritten neuronalen Netz der erste Ausgabevektor des zweiten neuronalen Netzes als erster Eingabevektor des dritten neuronalen Netzes zugeführt wird,

- dem dritten neuronalen Netz der zweite Ausgabevektor des zweiten neuronalen Netzes als zweiter Eingabevektor des dritten neuronalen Netzes zugeführt wird, - der erste Eingabevektor, der zweite Eingabevektor und ein aktueller Zustand des dritten neuronalen Netzes gemeinsam in einen neuen Zustand des dritten neuro nalen Netzes überführt werden,

- aus dem neuen Zustand des dritten neuronalen Netzes ein zweiter Ausgabevektor des dritten neuronalen Netzes generiert wird, wobei der zweite Ausgabevektor des dritten neuronalen Netzes eine erwartete Emotion des neuen Zustandes des dritten neuronalen Netzes repräsentiert, und

- aus dem neuen Zustand des dritten neuronalen Netzes ein erster Ausgabevektor des dritten neuronalen Netzes generiert wird, der dem zweiten neuronalen Netz als weiterer Eingabevektor des zweiten neuronalen Netzes zugeführt wird.

Vorteilhaft ist es, wenn der zweite Ausgabevektor des dritten neuronalen Netzes zum Zwecke des Trainings des dritten neuronalen Netzes mit einer dritten Referenz verglichen wird, wobei das Vergleichen des zweiten Ausgabevektors des dritten neuronalen Netzes mit der dritten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die dritte Referenz einen Idealzustand des zweiten Ausgabevektors des dritten neuronalen Netzes und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes des dritten neuronalen Netzes repräsentiert.

Ferner kann es vorteilhaft sein, wenn das erste neuronale Netz und das dritte neu ronale Netz miteinander gekoppelt werden, insbesondere der neue Zustand des ers ten neuronalen Netzes und der aktuelle Zustand des dritten neuronalen Netzes mit einander gekoppelt werden, um basierend auf dem ersten neuronalen Netz das dritte neuronale Netz zu trainieren oder basierend auf dem dritten neuronalen Netz das erste neuronale Netz zu trainieren.

Kurzbeschreibung der Figuren Einzelheiten und Merkmale der Erfindung sowie konkrete, insbesondere vorteil hafte Ausführungsbeispiele der Erfindung ergeben sich aus der nachfolgenden Be schreibung in Verbindung mit der Zeichnung. Es zeigt: Fig. 1 ein aus dem Stand der Technik bekanntes künstliches neuronales Netz als rekurrentes neuronales Netz;

Fig. 2 ein weiteres aus dem Stand der Technik bekanntes künstliches neurona les Netz als Long-Short-Term-Memory Netz;

Fig. 3 ein erfindungsgemäßes System als Erweiterung des in Fig. 1 gezeigten künstlichen neuronalen Netzes;

Fig. 4 ein erfindungsgemäßes System als Erweiterung des in Fig. 2 gezeigten künstlichen neuronalen Netzes;

Fig. 5 ein erfindungsgemäßes System als Erweiterung des in Fig. 1 gezeigten künstlichen neuronalen Netzes; Fig. 6 eine erfindungsgemäße Erweiterung des in Fig. 5 gezeigten Systems; Fig. 7 eine erfindungsgemäße Erweiterung des in Fig. 6 gezeigten Systems; Fig. 8 eine erfindungsgemäße Erweiterung des in Fig. 7 gezeigten Systems; und Fig. 9 eine erfindungsgemäße Erweiterung des in Fig. 8 gezeigten Systems.

Detaillierte Beschreibung der Erfindung

Bei den nachfolgend beschriebenen neuronalen Netzen handelt es sich jeweils um künstliche neuronale Netze.

Mit der Erfindung können autonom selbstlernende Agenten bereitgestellt werden, mit denen ein technisches System gesteuert werden kann. Die Agenten und damit auch die jeweils gesteuerten technischen Systeme können nicht nur autonom arbei- ten, sondern sie können sich auch adaptiv und autonom an neue Umgebungen an passen. Anwendungen sind beispielsweise Robotik, autonomes Fahren, Raumfahrt oder medizinische Anwendungen. So kann beispielsweise ein Roboter in unter schiedlichen Umgebungen eingesetzt werden, wobei der Roboter nach einem Wechsel der Umgebung die neue Umgebung autonom lernen kann und damit sein Verhalten an die neue Umgebung anpassen kann.

Zur Lösung der vorstehend genannten Aufgabe werden erfindungsgemäß zwei we sentliche Erweiterungen zum Stand der Technik vorgeschlagen.

- Die erste Erweiterung betrifft die Einführung einer intrinsischen Referenz des neuronalen Netzes (nachfolgend erstes neuronales Netz NN1), also ein Selbst bild des ersten neuronalen Netzes NN1. Die intrinsische Referenz wird nachfol gend Emotion genannt.

- Die zweite Erweiterung betrifft das Lernen eines Weltmodells als Teil des Ge samtsystems unter Verwendung eines weiteren neuronalen Netzes (nachfolgend zweites neuronales Netz NN2). Das Weltmodell wird nachfolgend auch Weltbild genannt.

Beide Erweiterungen können miteinander kombiniert werden.

Fig. 3 zeigt eine erfindungsgemäße Erweiterung des in Fig. 1 gezeigten rekurrenten neuronalen Netzes NN1 anhand einer Emotion. Das neuronale Netz NN1 (erste neuronale Netz) wird von einem ersten Agenten S implementiert. Der Agent S wird nachfolgend auch Selbst genannt.

Im Stand der Technik werden ein erster Eingabevektor x des ersten neuronalen Net zes NN1 und ein aktueller Zustand h_t des ersten neuronalen Netzes NN1 gemein sam in einen neuen Zustand h_t+i des ersten neuronalen Netzes NN1 überführt. Aus dem neuen Zustand h_t+i des ersten neuronalen Netzes NN1 wird dann ein erster Ausgabevektor y des ersten neuronalen Netzes NN1 generiert. Der erste Ausgabe vektor y kann dann zum Zwecke des Trainings des ersten neuronalen Netzes NN1 mit einer ersten Referenz y* bzw. mit einem ersten Referenzvektor verglichen wer den, beispielsweise unter Verwendung einer Abstandfunktion, vorzugsweise einer euklidischen Abstandsfunktion.

Zusätzlich zu dem aus dem Stand der Technik bekannten ersten Eingabevektor x wird dem ersten neuronalen Netz NN1 ein zweiter Eingabevektor e zugeführt. Der zweite Eingabevektor e des ersten neuronalen Netzes NN1 repräsentiert hierbei eine Emotion des Selbst bzw. des ersten neuronalen Netzes NN1 bzw. des ersten Agenten S.

Da sowohl x als auch e vektoriell sind, können mit beiden Eingab evektoren x, e beliebig viele skalare Eingaben und Emotionen modelliert werden. Die aktuelle Emotion des Systems kann also mehrere Größen enthalten, wie zum Beispiel Schmerz (wenn ein Roboter beispielsweise eine Kollision verursacht), Hunger (bei spielsweise bei einem geringen Ladestand eines Akkumulators) oder Freude (etwa eine Belohnung, wenn das zu steuernde technische System eine Aufgabe gelöst hat).

Ferner wird zusätzlich zu dem aus dem Stand der Technik bekannten ersten Ausga bevektor y ein zweiter Ausgabevektor e' erzeugt. Der zweite Ausgabevektor e' re präsentiert die erwartete Emotion des nächsten Zustands h_t+i des Selbst bzw. des ersten neuronalen Netzes NN1 bzw. des ersten Agenten S.

Der zweite Ausgabevektor e' wird erfindungsgemäß erzeugt, indem der zweite Ein gabevektor e, der erste Eingabevektor x und der aktuelle Zustand h_t des ersten neu ronalen Netzes NN1 gemeinsam in den neuen Zustand h_t+i des ersten neuronalen Netzes NN1 überführt werden. Im Unterschied zu dem aus dem Stand der Technik bekannten neuronalen Netzen wird aus dem so erzeugten neuen Zustand h_t+i der erste Ausgabevektor y erzeugt, also unter Berücksichtigung des zweiten Eingabe vektors e. Der zweite Ausgabevektor e' des ersten neuronalen Netzes NN1 wird ebenfalls aus dem so erzeugten neuen Zustand h_t+i generiert Die erwartete Emotion bzw. der zweite Ausgabevektor e' kann dann zum Zwecke des Trainings des ersten neuronalen Netzes NN1 mit einer zweiten Referenz e* bzw. mit einem zweiten Referenzvektor verglichen werden, beispielsweise unter Verwendung einer Abstandfunktion, vorzugsweise einer euklidischen Abstands funktion. Die zweite Referenz e* repräsentiert hierbei einen Idealzustand des zwei ten Ausgabevektors e' des ersten neuronalen Netzes NN1 und damit einen Idealzu stand der erwarteten Emotion des neuen Zustandes h_t+i des ersten neuronalen Net zes NN1.

Für den Vergleich zwischen e' und e* bzw. zwischen y und y* können beliebige, geeignete Abstandsfunktionen verwendet werden.

Der Idealzustand der erwarteten Emotion kann beispielsweise 0 (für nicht vorhan den) oder 1 (für vorhanden) sein, wobei auch Werte zwischen 0 und 1 möglich sind.

Anhand der in Fig. 3 gezeigten erfindungsgemäßen Erweiterung ist das System in der Lage, alle lernbaren Parameter, die mittels der gestrichelten Pfeile zum zweiten Ausgabevektor e' führen, zu trainieren. Für das Training selbst können auch Ver fahren eingesetzt werden, die nicht nur die aktuelle Emotion optimieren, sondern auch vergleichbar zum so genannten Reinforcement Learning die erwartete Emo tion in der Zukunft berücksichtigen.

Der gestrichelte Pfeil zum Ausgabevektor y ist allerdings mit Emotionen alleine nicht trainierbar, sodass die erste Referenz y* bzw. der erste Referenzvektor für dieses Training verwendet werden muss.

Fig. 4 zeigt eine erfindungsgemäße Erweiterung des in Fig. 2 gezeigten Long- Short-Term-Memory Netz anhand einer Emotion. Bis auf das zugrundeliegende neuronale Netz entspricht die in Fig. 4 gezeigte Ausführungsform der in Fig. 3 ge zeigten Ausführungsform. Die in Fig. 3 und Fig. 4 gezeigte Erweiterung kann aber auch für andere Arten von neuronalen Netzwerken angewandt werden.

Für das emotionale Training, d.h. für das Training der vom neuen Zustand h_t+i zum zweiten Ausgabevektor e' geführten Verbindung sind bei den in Fig. 3 und Fig. 4 gezeigten Erweiterungen zwei weitere Alternativen möglich, die aber auch zusam men mit dem Training basierend auf der zweiten Referenz e* verwendet werden können:

1) Der zweite Ausgabevektor e' (Ausgabeemotion) wird nicht nur mit der zweiten Referenz e* verglichen, sondern auch mit dem zweiten Eingabevektor e. Dadurch kann sichergestellt werden, dass der zweite Ausgabevektor e' auch tatsächlich zum zweiten Eingabevektor e passt, d.h. zur Eingabeemotion passt.

2) Der zweite Ausgabevektor e' (Ausgabeemotion) wird nicht nur aus dem neuen Zustand h_t+i des ersten neuronalen Netzes NN1 abgeleitet, sondern auch unter Berücksichtigung des ersten Ausgabevektors y, d.h. der zweite Ausgabevek tor e' wird aus dem neuen Zustand h_t+i und aus dem ersten Ausgabevektor y abgeleitet. Dadurch wird es möglich, alle Parameter im Netzwerk rein durch Emotionen zu trainieren.

Diese beiden Alternativen können auch kombiniert werden.

Ferner können diese beiden Alternativen auf für die in Fig. 6 bis Fig. 9 gezeigten erfindungsgemäßen Erweiterungen eines neuronalen Netzes angewandt werden.

Fig. 5 zeigt ein erfindungsgemäßes System als Erweiterung des in Fig. 1 gezeigten künstlichen neuronalen Netzes;

Mit der in Fig. 5 gezeigten Erweiterung wird es möglich, auf die ideale Referenz, d.h. auf die erste Referenz y*, die zum Trainieren des ersten Ausgabevektors y ver wendet wird, zu verzichten. Während im Stand der Technik eine exakt vorgegebene Zielgröße für das Training des neuronalen Netzes NN1 unbedingt notwendig ist, ist eine solche Zielgröße bei der in Fig. 5 gezeigten Erweiterung nicht mehr notwendig.

Bei der in Fig. 5 gezeigten Erweiterung ist neben dem ersten neuronalen Netz NN1 ein zweites neuronales Netz NN2 vorgesehen. Das erste neuronale Netz NN1 wird mit dem zweiten neuronalen Netz NN2 gekoppelt, wobei der der erste Ausgabevek tor y des ersten neuronalen Netzes NN1 dem zweiten neuronalen Netz NN2 als erster Eingabevektor y des zweiten neuronalen Netzes NN2 zugeführt wird.

Das zweite neuronale Netz NN2 wird hierbei von einem zweiten Agenten W im plementiert. Der zweite Agent W wird nachfolgend auch Weltbild genannt, da mit zweiten neuronalen Netz NN2 ein Weltmodell als Teil des Gesamtsystems gelernt werden kann. Mit dem zweiten neuronalen Netz NN2 wird also das Verhalten der Welt modelliert, beispielsweise eine Umgebung, in der sich ein Roboter befindet. Bei dem zweiten neuronalen Netz NN2 kann es sich beispielsweise um ein rekur rentes neuronale Netz handeln, wobei auch jede andere Art eines neuronalen Netzes verwendet werden kann.

Das zweite neuronale Netz NN2 generiert anhand des ersten Eingabevektors y (= erster Ausgabevektor y des ersten neuronalen Netzes NN1) eine erwartete Reak tion des zweiten Agenten W bzw. des Weltbildes auf den ersten Eingabevektor y des zweiten neuronalen Netzes NN2. Diese erwartete Reaktion wird als erster Aus gabevektor x' des zweiten neuronalen Netzes NN2 zur Verfügung gestellt. Zum Ge nerieren des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 werden der erste Eingabevektor y des zweiten neuronalen Netzes NN2 und ein aktueller Zustand w_t des zweiten neuronalen Netzes NN2 gemeinsam in einen neuen Zustand w_t+i des zweiten neuronalen Netzes NN2 überführt. Aus dem neuen Zustand w_t+i des zweiten neuronalen Netzes NN2 wird dann der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 generiert, Der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 wird mit dem ers ten Eingabevektor x des ersten neuronalen Netzes NN1 verglichen, um das erste neuronale Netz NN1 zu trainieren. Das erste neuronale Netz NN1 wird also in Abhängigkeit vom Verhalten des zweiten neuronalen Netzes NN2 bzw. in Abhän gigkeit des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 trainiert.

Anhand der tatsächlichen Ausgaben und der generierten Erwartung bzw. des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 kann das in Fig. 5 gezeigte Gesamtsystem vollständig trainiert werden, sodass alle lernbaren Parameter ge schätzt werden können.

Fig. 6 zeigt eine erfindungsgemäße Erweiterung des in Fig. 5 gezeigten Systems, wobei das in Fig. 6 gezeigte System eine Kombination der in Fig. 3 und Fig. 5 gezeigten Systeme ist.

Das eigentliche Steuerungssystem, d.h. der Agent S, mit dem ein technisches Sys tem, etwas ein Roboter gesteuert wird, kann hier zum einen über die Emotionen (zweiter Eingabevektor e des ersten neuronalen Netzes NN1 bzw. zweiter Ausga bevektor e' des ersten neuronalen Netzes NN1) gesteuert bzw. trainiert werden. Hierdurch wird erreicht, dass das erste neuronale Netz NN1 bzw. der erste Agent S einen möglichst erstrebenswerten Zustand verfolgt.

Zum anderen wird die Ausgabe des ersten neuronalen Netzes NN1 (d.h. der erste Ausgabevektor y des ersten neuronalen Netzes NN1) über das Weltbild (d.h. über das zweite neuronale Netz NN2 bzw. über den zweiten Agenten W) mit der Eingabe des ersten neuronalen Netzes NN1 (d.h. mit dem ersten Eingabevektor x des ersten neuronalen Netzes NN1) verglichen, da das Weltbild eine erwartete Eingabe (d.h. einen ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2) produzieren kann, wobei mit dem ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2 der erste Eingabevektor x des ersten neuronalen Netzes NN1 trainiert wird. Dies ermöglicht es, ein Training ohne Referenz durchzuführen. Das System bzw. der erste Agent S ist also vollständig ohne annotierte Daten trai nierbar und benötigt lediglich Anreize, die Zustände als erstrebenswert oder nicht erstrebenswert kennzeichnen. Diese Anreize können durch spärliche Annotation codiert werden, wie zum Beispiel extreme Ereignisse, etwa eine Kollision oder Pa rameter, die leicht erfassbar sind, wie sinkende Energiepegel.

Die beiden vorstehend genannten Varianten für das emotionale Training können auch bei dem in Fig. 6 gezeigten System angewandt werden.

Fig. 7 zeigt eine erfindungsgemäße Erweiterung des in Fig. 6 gezeigten Systems.

Hierbei wird zusätzlich zu dem ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2 ein zweiter Ausgabevektor e" des zweiten neuronalen Netzes NN2 ge- neriert. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 wird hierbei aus dem neuen Zustand w_t+i des zweiten neuronalen Netzes NN2 abgeleitet. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 repräsentiert hierbei eine erwartete Emotion des neuen Zustandes w_t+i des zweiten neuronalen Netzes NN2.

Die erwartete Emotion könnte beispielsweise aus den Aktionen eines anderen Teil nehmers der Welt, also einem Gegenüber resultieren. Wird beispielsweise ein Ge genüber zum Lachen gebracht, kann auch eine positive Reaktion erwartet werden, oder kollidiert beispielsweise ein Roboter mit einem anderen Roboter kann ein Alarmsignal des anderen Roboters erwartet werden. Diese erwarteten Emotionen bzw. der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 können ebenfalls mit dem zweiten Eingabevektor e des ersten neuronalen Netzes NN1 ver glichen werden, was ebenfalls ein Training des ersten neuronalen Netzes NN1 er möglicht. Das Training des ersten neuronalen Netzes NN 1 mittels des zweiten Ausgabevek tors e" des zweiten neuronalen Netzes NN2 kann im Sinne des so genannten Multi Task Learning zu einer Stabilisierung des Gesamttrainings des ersten neuronalen Netzes NN1 beitragen. Anhand der Verbindung des ersten neuronalen Netzes NN1 über den zweiten Agenten W bzw. über das zweite neuronale Netz NN2 können abstrakte Auswirkungen modelliert werden, wie zum Beispiel die Auswirkungen einer Ausgabe y des ersten neuronalen Netzes NN1 auf das Weltbild, die resultie rende Zustandsänderung des Weltbildes und daraus folgend das emotionale Feed back auf das Selbst bzw. auf das erste neuronale Netz NN1.

Fig. 8 zeigt eine erfindungsgemäße Erweiterung des in Fig. 7 gezeigten Systems.

Gemäß der in Fig. 8 gezeigten Erweiterung, implementiert der zweite Agent W ein drittes neuronalen Netzes NN3, sodass mit dem zweiten Agenten W bzw. mit dem zweiten neuronalen Netzes NN2 nicht nur der Zustand des Weltbildes kodiert wer den kann, sondern auch ein Modell des Selbstbildes des Weltbildes geschätzt wer den kann.

Dem dritten neuronalen Netz NN3 wird der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 als erster Eingabevektor x' des dritten neuronalen Net zes NN3 zugeführt wird. Zudem wird dem dritten neuronalen Netz NN3 ein zweiter Ausgabevektor e" des zweiten neuronalen Netzes NN2 als zweiter Eingabevektor e" des dritten neuronalen Netzes NN3 zugeführt. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 repräsentiert, wie oben bereits erläutert, eine er wartete Emotion des neuen Zustandes w_t+i des zweiten neuronalen Netzes NN2. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 wird hierbei aus dem neuen Zustand w_t+i des zweiten neuronalen Netzes NN2 generiert.

Der erste Eingabevektor x', der zweite Eingabevektor e" und der aktuelle Zustand h'_t des dritten neuronalen Netzes NN3 werden gemeinsam verwendet, um das dritte neuronale Netz NN3 in einen neuen Zustand h'_t+i zu überführen. Aus dem neuen Zustand h'_t+i des dritten neuronalen Netzes NN3 wird ein erster Ausgabevektor y' des dritten neuronalen Netzes NN3 generiert, der dem zweiten neuronalen Netz NN2 als weiterer Eingabevektor des zweiten neuronalen Net zes NN2 zugeführt wird. Durch diese Verbindung der beiden neuronalen Netze NN3 und NN2 über den ersten Ausgabevektor y' des dritten neuronalen Netzes NN3 werden das Weltbild und das Selbstbild des zweiten Agenten W gekoppelt. Dadurch wird es möglich, dass die beiden neuronalen Netze NN3 und NN2 auch ohne dem ersten neuronalen Netzes NN1 Interaktionen simulieren können.

Zudem wird aus dem neuen Zustand h'_t+i des dritten neuronalen Netzes NN3 ein zweiter Ausgabevektor e'" des dritten neuronalen Netzes NN3 generiert wird. Der zweite Ausgabevektor e'" des dritten neuronalen Netzes NN3 repräsentiert hierbei eine erwartete Emotion des neuen Zustandes h'_t+i des dritten neuronalen Net zes NN3.

Der zweite Ausgabevektor e'" des dritten neuronalen Netzes NN3 wird zum Zwecke des Trainings des dritten neuronalen Netzes NN3 mit einer dritten Referenz e** verglichen. Das Vergleichen des zweiten Ausgabevektors e'" des dritten neuronalen Netzes NN3 mit der dritten Referenz e** kann auch hier ein Berechnen einer Ab standfunktion umfassen, beispielsweise eine der oben genannten Abstandsfunktio nen. Die dritte Referenz e** repräsentiert hierbei einen Idealzustand des zweiten Ausgabevektors e'" des dritten neuronalen Netzes NN3 und damit einen Idealzu stand der erwarteten Emotion des neuen Zustandes h'_t+i des dritten neuronalen Net zes NN3.

Ferner können das erste neuronale Netz NN1 und das dritte neuronale Netz NN3 miteinander gekoppelt werden, etwa indem der neue Zustand h_t+i des ersten neuro nalen Netzes NN1 und der aktuelle Zustand h'_t des dritten neuronalen Netzes NN3 miteinander gekoppelt werden. Diese Kopplung ist in Fig. 8 (und in Fig. 9) durch den Pfeil P gekennzeichnet. Damit wird es in vorteilhafter Weise möglich, basie rend auf dem ersten neuronalen Netz NN1 das dritte neuronale Netz NN3 zu trai nieren oder basierend auf dem dritten neuronalen Netz NN3 das erste neuronale Netz NN1 zu trainieren.

Das Selbstbild bzw. das dritte neuronale Netz NN3 generiert keine Ausgaben bzw. Ausgabevektoren, die als Ausgaben bzw. Ausgabevektoren des zweiten Agenten W verfügbar sind. Allerdings kann das Selbstbild bzw. das dritte neuronale Netz NN3 genutzt werden, um anhand des ersten Ausgabevektors y' des dritten neuronalen Netzes NN3 (der außerhalb des zweiten Agenten W nicht verfügbar gemacht wird) Änderungen des Weltbildes basierend auf Änderungen des Selbstbildes zu erfor schen.

Mit Hilfe der Kopplung P ist es ferner möglich, dass Gesamtsystem in zwei unter schiedlichen Zuständen zu betreiben, die hier als Wachphase und als Traumschlaf phase bezeichnet werden.

In der Wachphase ist der erste Agent S bzw. das erste neuronale Netz NN1 mit dem zweiten Agenten W bzw. mit dem dritten neuronalen Netz NN3 gekoppelt (Pfeil P). Das Selbstbild bzw. das dritte neuronale Netz NN3 lernt aus jeder Aktion des ersten neuronalen Netzes NN1, wie die Aktion den eigenen Zustand und den Zustand des Weltbildes bzw. des zweiten Agenten W verändern.

In der Traumschlafphase ist der erste Agent S bzw. das erste neuronale Netz NN1 von dem zweiten Agenten W bzw. von dem dritten neuronalen Netz NN3 entkop pelt (kein Pfeil P). In dem entkoppelten Zustand wird der erste Ausgabevektor y des ersten neuronalen Netzes NN1 nicht dem zweiten neuronalen Netzes NN2 zu geführt. In diesem Zustand kann das Selbstbild bzw. das dritte neuronale Netz NN3 innerhalb des zweiten Agenten W frei agieren. Da das Weltbild bzw. das zweite neuronale Netz NN2 sowohl erwartete Eingaben (erster Eingabevektor x' des dritten neuronalen Netzes NN3) als auch erwartete Emotionen (zweiter Eingabevektor e" des dritten neuronalen Netzes NN3) generie ren kann und das dritte neuronale Netz NN3 die weitere Eingabe (weiterer Einga bevektor y' des zweiten neuronalen Netzes NN2) generieren kann, können das Weltbild bzw. das zweite neuronale Netz NN2 und Selbstbild bzw. das dritte neu ronale Netz NN3 im Wechsel völlig frei agieren.

Ein Training ist des ersten Agenten S bzw. des ersten neuronalen Netzes NN1 ist trotzdem immer noch möglich, da der neue Zustand h_t+i des Selbst bzw. des ersten neuronalen Netzes NN1 immer noch den zweiten Ausgabevektor e' des ersten neu ronalen Netzes NN1 generiert, der mit der zweiten (idealen) Referenz e* verglichen werden kann.

Das Träumen kann also genutzt werden, um verbesserte Interaktion des Selbstbil des bzw. des dritten neuronalen Netzes NN3 mit dem erwarteten Weltbild zu gene rieren.

In einer alternativen Variante sind die internen Zustände nicht gekoppelt, sondern die gelernten Verbindungen (Pfeile) im ersten neuronalen Netzes NN1 und dritten neuronalen Netzes NN3 sind gekoppelt. Dadurch entsteht eine Konfiguration, in der ein Training des Selbstbildes (des dritten neuronalen Netzes NN3) auch eine Verbesserung des eigentlichen Selbst (des ersten neuronalen Netzes NN1) verur sacht. Alternativ können Selbst und Selbstbild die Rollen tauschen, wenn Selbst von der Ein- und Ausgabe entkoppelt wird. Das bedeutet, dass statt beide Netze lose über Abstandsfunktionen zu trainieren, beide Netze den gleichen Speicher für die Gewichte verwenden können. Beide nehmen also immer den gleichen Wert für die Parameter des ersten neuronalen Netzes NN1 und des dritten neuronalen Net zes NN3 an. Fig. 9 zeigt eine erfindungsgemäße Erweiterung des in Fig. 8 gezeigten Systems. Gemäß der in Fig. 9 gezeigten Erweiterung kann das in Fig. 8 gezeigte Gesamtsys tem mit erweiterten Funktionen gekoppelt werden. Diese erweiterten Funktionen könnten zum Beispiel ein erweitertes Gedächtnis (ausgestaltet als Speichereinrich tung) sein, dass den Zustand des zweiten neuronalen Netzes NN2 und/oder den Zu stand des dritten neuronalen Netzes NN3 speichern und laden kann. Weitere, ledig lich beispielhaft aufgeführte Erweiterungen können sein:

- ein Sprachprozessor, der den Zustand des zweiten neuronalen Netzes NN2 und/oder den Zustand des dritten neuronalen Netzes NN3 in Symbolfolgen von Wörtern und Buchstaben umsetzen kann;

- erweiterte Eingabefunktionen, wie zum Beispiel der visuelle und auditive Kor tex;

- ein Sprachsynthesemodul, das menschliche Sprache erzeugen kann;

- taktile und Bewegungsplanungsmodule, die komplexe motorische Pläne model lieren und ausführen können;

- Module zum Laden und Speichern von Graphen, die es ermöglichen, verschie dene Zustände der Welt und des Selbstbildes miteinander zu verketten, zu ver arbeiten, zu speichern und zu laden (assoziatives Gedächtnis);

- Module zum Verarbeiten und Auswerten von Aussagenlogik und Arithmetik;

- Erweiterte Gefühlsfunktionen, die es ermöglichen komplexe soziale Handlungen zu erkennen und auf Gefühle abzubilden;

Darüber hinaus können beliebige weitere Module vorgesehen sein, die mit dem Zu stand des zweiten neuronalen Netzes NN1 und dem Zustand des dritten neuronalen Netzes NN3 interagieren können.

Ein Beispiel eines technischen Systems, das mit der vorliegenden Erfindung ge steuert werden kann, ist ein Mars-Rover, der selbstständig Aufgaben erfüllt und nach und nach seine Umgebung erkundet. Der zweite Eingabevektor e des ersten neuronalen Netzes NN1 kann hierbei bei spielsweise Vitalparameter (Ladestand des Akkumulators, Funktionsfähigkeit der Achsen, etc., wobei diese Parameter von geeigneten Sensoren bereitgestellt werden können) repräsentieren. Der zweite Eingabevektor e des ersten neuronalen Net zes NN1 kann aber auch Ziele repräsentieren bzw. beschreiben, etwa den Drang seine Elmwelt zu erkunden (Neugier) oder das Abarbeiten von gestellten Aufgaben (Loyalität), wobei hierfür die in Fig. 9 gezeigten erweiterten Funktionen verwendet werden können.

Die erweiterten Funktionen können direkt im Selbstbild bzw. im dritten neuronalen Netzes NN3 Änderungen am Zustand des zweiten Agenten W bewirken. Ist bei spielsweise die Liste an Arbeiten noch nicht erledigt, ändert sich der Zustand des zweiten Agenten W so, dass dieser eine Emotion e' (repräsentiert durch den zweiten Ausgabevektor des ersten neuronalen Netzes NN1) bewirkt, die wiederum beim ersten Agenten S den Wunsch weckt, die Liste abzuarbeiten. Hierzu können weitere erweiterte Funktionen notwendig sein. Beispielsweise kann ein Aufgabenplaner als erweiterte Funktion vorgesehen sein, der es dem ersten Agenten S ermöglicht, eine Sequenz von Aktionen abzuarbeiten.

Das Vorsehen von erweiterten Funktionen ermöglicht es, den Funktionsumfang des ersten Agenten S modular zu erweitern. Insbesondere können auch freie Funktionen vorgesehen werden, die erst im Bedarfsfall angelernt werden.

Die Erkundung der Umgebung des Mars-Rovers, also das Lernen des Weltbildes erfolgt analog. Hierbei kann eine erweiterte Funktion für das Kartographieren (bei spielsweise mittels Simultaneous Localization and Mapping (SLAM), bei dem eine Karte und die Position des Mars-Rovers gleichzeitig geschätzt werden) bereitge stellt werden. Die hierzu relevanten Informationen können von geeigneten Senso ren bereitgestellt werden, etwa Ultraschall sensoren oder Lidar. Ein weiteres Modul kann die Karte auf Lücken und Fehler untersuchen. Werden solche Lücken oder Fehler gefünden, kann der Zustand des Selbstbildes bzw. des dritten neuronalen Netzes NN3 so verändert werden, dass eine entsprechende Emotion e' (repräsentiert durch den zweiten Ausgabevektor des ersten neuronalen Netzes NN1) erzeugt wird. Als Resultat versucht das System bzw. der erste Agent S diesen Zustand zu verlas sen und die Fehler und/oder Lücken in der Karte zu beheben. Dies kann dann eben falls über einen Aufgabenplaner erledigt werden.

Für die erweiterten Funktionen können vortrainierte neuronale Netze oder auch di rekt Algorithmen verwenden, wenn diese auf Basis der differenzierbaren Program mierung implementiert sind. Damit wird es in vorteilhafter Weise möglich, neuro nale Netze und Programmierung zu mischen, wodurch die Entwicklung und das Training der neuronalen Netze erheblich beschleunigt werden.

Mit dem erfindungsgemäß Verfahren wird erstmals eine Gesamtlösung bereitge stellt, die vergleichbar zum menschlichen Wahmehmungsprozess durch Emotionen und Interaktion mit der Welt trainiert werden kann. Dazu ist es nicht notwendig, ein festes Weltbild vorzugeben, wie es im Stand der Technik erforderlich ist.

Das Weltbild wird vielmehr autonom selbst gelernt. Erstrebenswerte Handlungen werden rein durch Emotionen durch schwache Kennzeichnung gelernt. Gemäß dem erfindungsgemäßen Verfahren kann der Agent S also vollständig autonom und selbstlernend agieren. Gemäß der in Fig. 8 gezeigten Weiterbildung wird sogar ein Selbstbild in der Welt bzw. des Weltbildes modelliert wird, mit dem das Weltbild trainiert werden kann. Das System gemäß Fig. 8 kann in Wach- und Schlafphasen selbst lernen, ohne dass eine Interaktion mit der echten Welt notwendig ist.

Darüber hinaus lassen sich bei dem System gemäß Fig. 8 beispielsweise viele neu- roanatomische und neuropathologische Beobachtung wiederfinden:

- Das Ausschalten des Selbst bzw. des ersten Agenten S würde das Gesamtsystem in einen Zustand versetzen, in dem es nur noch mit sich selbst in Interaktion treten kann. Dieser Zustand wird in der Neuropathologie als Locked-In Syndrom beschrieben. - Das komplette Bewusstsein könnte vollständig ausgeschalten werden. Dies könnte durch eine Entfernung des Weltbildes realisiert werden. Das Gesamtsys tem könnte immer noch agieren, jedoch wäre es nicht mehr in der Lage, kom plexe Pläne zu erstellen, da dazu das Weltbild benötigt wird. Dies entspricht den in der Neuropathologie beobachteten so genannten Automatismen. Auch der Zu stand des Schlafwandelns ruft ähnliche Erscheinungen vor.

- Eine Entfernung des Blocks e' (zweiter Ausgabevektor des ersten neuronalen Netzes NN1) ist vergleichbar mit einer Einschränkung der Amygdala des Ge hirns. Hier kann das komplette System die Emotionen nicht mehr korrekt verar beiten. Ähnliche Einschränkungen können auch bei autistischen Störungen vor liegen.

- Einschränkung der erweiterten Funktionen, die in Fig. 9 dargestellt sind, können ebenfalls auf entsprechende neuropathologische Phänomene abgebildet werden. Dazu gehören zum Beispiel Amnesie, kortikale Taubheit oder kortikale Blind heit.

- Multiple Persönlichkeiten können durch das fehlerhafte Anlegen von mehreren Selbstbildern generiert werden.

- Schwer erklärbare normale neurologische Prozesse, wie die Interaktion von Selbst und Selbstbild, die vermutlich zum Gefühl des Bewusstseins führen, sind dadurch nachvollziehbar: Erlebt das Selbst tatsächlich eine Situation, die das Selbstbild bereits im Traum erlebt hat, entsteht ein deja-vu.

- Das System ist auch nützlich, um das Qualia-Problem nachzuvollziehen.

Jedes System hat potentiell ein anderes Selbst- und Weltbild. Daher sind gleiche Bilder (z.B. Empfindung der Farbe Rot) zwar wahrscheinlich, exakte Gleichheit aber extrem unwahrscheinlich. Die Erfindung kann also auch zur objektiven Erfor schung solcher Phänomene dienen.

Zusammenfassend ist es mit der Erfindung möglich, das menschliche Bewusstsein in einem bisher unbekannten Detailgrad abzubilden. Zudem ist der erste Agent S in der Lage, sich an völlig neue Umgebungen anzupassen, da sowohl das Bild der Welt als auch das Bild von sich selbst vollständig neu gelernt und angepasst werden kann. Damit ist das System also in der Lage sowohl Veränderung in der Welt zu lernen und sich darauf einzustellen, als auch Veränderungen am Selbst zu beobach ten und zu berücksichtigen. Zum Einsatz des Systems sind keinerlei Trainingsdaten notwendig. Lediglich das eigene Feedback anhand der Emotion ist ausreichend, um sich auf komplexe neue Situation einzustellen.

Bezugszeichen: e zweiter Eingabevektor des ersten neuronalen Netzes NN1

e' zweiter Ausgabevektor des ersten neuronalen Netzes NN1

e" zweiter Ausgabevektor des zweiten neuronalen Netzes NN2 bzw. zweiter

Eingabevektor des dritten neuronalen Netzes NN3

zweiter Ausgabevektor des dritten neuronalen Netzes NN3

zweite Referenz

^ ^ dritte Referenz

h_t aktueller Zustand des ersten neuronalen Netzes NN1

h', aktueller Zustand des dritten neuronalen Netzes NN3

h_t+i neuer Zustand des ersten neuronalen Netzes NN1

h',+i neuer Zustand des ersten neuronalen Netzes NN3

NN1 erstes künstliches neuronales Netz

NN2 zweites künstliches neuronales Netz

NN3 drittes künstliches neuronales Netz

P Koppelung / Pfeil

s erster Agent (auch "Selbst" genannt)

T Training

W zweiter Agent (auch "Weltbild" genannt)

Wt aktueller Zustand des zweiten neuronalen Netzes NN2

Wt+i neuer Zustand des zweiten neuronalen Netzes NN2

X erster Eingabevektor des ersten neuronalen Netzes NN1

x' erster Ausgabevektor des zweiten neuronalen Netzes NN2 bzw. erster Ein gabevektor des dritten neuronalen Netzes NN3

y erster Ausgabevektor des ersten neuronalen Netzes NN1

y' erster Ausgabevektor des dritten neuronalen Netzes NN3 bzw. weiterer Eingabevektor des zweiten neuronalen Netzes NN2

y* erste Referenz

Claims

Ansprüche

1. Verfahren zum Steuern eines technischen Systems mit einem ersten Agen ten (S), wobei der erste Agent (S) ein erstes künstliches neuronales Netz (NN 1) implementiert, wobei ein erster Eingabevektor (x) des ersten neuronalen Netzes (NN1) und ein aktueller Zustand (h_t) des ersten neurona- len Netzes (NN1) gemeinsam in einen neuen Zustand (h_t+i) des ersten neu ronalen Netzes (NN1) überführt werden und wobei aus dem neuen Zu stand (h_t+i) des ersten neuronalen Netzes (NN1) ein erster Ausgabevek tor (y) des ersten neuronalen Netzes (NN1) generiert wird,

dadurch gekennzeichnet, dass

- ein zweiter Eingabevektor (e), der erste Eingabevektor (x) und der aktu elle Zustand (h_t) des ersten neuronalen Netzes (NN1) gemeinsam in den neuen Zustand (h_t+i) des ersten neuronalen Netzes (NN1) überführt wer den, wobei der zweite Eingabevektor (e) des ersten neuronalen Net zes (NN1) eine Emotion repräsentiert, und

- aus dem neuen Zustand (h_t+i) des ersten neuronalen Netzes (NN1) zu sätzlich zum ersten Ausgabevektor (y) des ersten neuronalen Net zes (NN1) ein zweiter Ausgabevektor (e¹) des ersten neuronalen Net zes (NN1) generiert wird, wobei der zweite Ausgabevektor (e¹) des ers ten neuronalen Netzes (NN1) eine erwartete Emotion des neuen Zustan- des (h_t+i) des ersten neuronalen Netzes (NN1) repräsentiert, sodass sich der erste Agent autonom und selbstlernend an neue Elmgebun gen des technischen Systems anpasst.

2. Verfahren nach dem vorhergehenden Anspruch, wobei der zweite Ausgabe- vektor (e¹) des ersten neuronalen Netzes (NN1) zum Zwecke des Trainings des ersten neuronalen Netzes (NN1) mit einer zweiten Referenz (e*) vergli chen wird, wobei das Vergleichen des zweiten Ausgabevektors (e¹) des ers ten neuronalen Netzes (NN1) mit der zweiten Referenz (e*) ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, um fasst, und wobei die zweite Referenz (e*) einen Idealzustand des zweiten Ausgabevektors (e¹) des ersten neuronalen Netzes (NN1) und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes (h_t+i) des ersten neuronalen Netzes (NN1) repräsentiert.

3. Verfahren nach dem vorhergehenden Anspruch, wobei

der zweite Ausgabevektor (e¹) des ersten neuronalen Netzes (NN1) mit dem zweiten Eingabevektor (e) des ersten neuronalen Netzes (NN1) verglichen wird, und/oder

der zweite Ausgabevektor (e¹) des ersten neuronalen Netzes (NN1) aus dem neuen Zustand (h_t+i) des ersten neuronalen Netzes (NN1) und aus dem ersten Ausgabevektor (y) des ersten neuronalen Netzes (NN1) ge neriert wird.

4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der erste Aus gabevektor (y) des ersten neuronalen Netzes (NN1) zum Zwecke des Trai nings des ersten neuronalen Netzes (NN1) mit einer ersten Referenz (y*) verglichen wird, wobei das Vergleichen des ersten Ausgabevektors (y) des ersten neuronalen Netzes (NN1) mit der ersten Referenz (y*) ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, um fasst, und wobei die erste Referenz (y*) einen Idealzustand des ersten Aus gabevektors (y) des ersten neuronalen Netzes (NN1) repräsentiert.

5. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 3, wobei

der erste Ausgabevektor (y) des ersten neuronalen Netzes (NN1) einem zweiten künstlichen neuronalen Netz (NN2) als erster Eingabevektor (y) des zweiten neuronalen Netzes (NN2) zugeführt wird, wobei das zweite neuronale Netz (NN2) von einem zweiten Agenten (W) implementiert wird,

der erste Eingabevektor (y) des zweiten neuronalen Netzes (NN2) und ein aktueller Zustand (w_t) des zweiten neuronalen Netzes (NN2) ge meinsam in einen neuen Zustand (w_t+i) des zweiten neuronalen Net zes (NN2) überführt werden,

aus dem neuen Zustand (w_t+i) des zweiten neuronalen Netzes (NN2) ein erster Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) gene riert wird, wobei der erste Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) eine erwartete Reaktion des zweiten neuronalen Net zes (NN2) auf den ersten Eingabevektor (y) des zweiten neuronalen Netzes (NN2) repräsentiert, und

der erste Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) mit dem ersten Eingabevektor (x) des ersten neuronalen Netzes (NN) ver glichen wird, um das erste neuronale Netz (NN1) zu trainieren.

Verfahren nach dem vorhergehenden Anspruch, wobei

aus dem neuen Zustand (w_t+i) des zweiten neuronalen Netzes (NN2) ein zweiter Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) gene riert wird, wobei der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) eine erwartete Emotion des neuen Zustandes (w_t+i) des zweiten neuronalen Netzes (NN2) repräsentiert, und

der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) mit dem zweiten Eingabevektor (e) des ersten neuronalen Netzes (NN1) verglichen wird, um das erste neuronale Netz (NN1) zu trainieren.

Verfahren nach dem vorhergehenden Anspruch, wobei der zweite

Agent (W) ein drittes künstliches neuronales Netz (NN3) implementiert, wobei dem dritten neuronalen Netz (NN3) der erste Ausgabevektor (c') des zweiten neuronalen Netzes (NN2) als erster Eingabevektor (c') des drit ten neuronalen Netzes (NN3) zugeführt wird,

dem dritten neuronalen Netz (NN3) der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) als zweiter Eingabevektor (e") des dritten neuronalen Netzes (NN3) zugeführt wird,

der erste Eingabevektor (c'), der zweite Eingabevektor (e") und ein ak tueller Zustand (h'_t) des dritten neuronalen Netzes (NN3) gemeinsam in einen neuen Zustand (h'_t+i) des dritten neuronalen Netzes (NN3) über führt werden,

aus dem neuen Zustand (h'_t+i) des dritten neuronalen Netzes (NN3) ein zweiter Ausgabevektor (e'") des dritten neuronalen Netzes (NN3) gene riert wird, wobei der zweite Ausgabevektor (e'") des dritten neuronalen Netzes (NN3) eine erwartete Emotion des neuen Zustandes (h'_t+i) des dritten neuronalen Netzes (NN3) repräsentiert, und

aus dem neuen Zustand (h'_t+i) des dritten neuronalen Netzes (NN3) ein erster Ausgabevektor (y¹) des dritten neuronalen Netzes (NN3) generiert wird, der dem zweiten neuronalen Netz (NN2) als weiterer Eingabevek tor (y¹) des zweiten neuronalen Netzes (NN2) zugeführt wird.

Verfahren nach dem vorhergehenden Anspruch, wobei der zweite Ausgabe vektor (e'") des dritten neuronalen Netzes (NN3) zum Zwecke des Trainings des dritten neuronalen Netzes (NN3) mit einer dritten Referenz (e**) ver glichen wird, wobei das Vergleichen des zweiten Ausgabevektors (e'") des dritten neuronalen Netzes (NN3) mit der dritten Referenz (e**) ein Berech nen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die dritte Referenz (e**) einen Idealzustand des zweiten Ausgabevektors (e'") des dritten neuronalen Netzes (NN3) und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes (h'_t+i) des dritten neuronalen Netzes (NN3) repräsentiert. 9. Verfahren nach einem der beiden vorhergehenden Ansprüche, wobei das erste neuronale Netz (NN1) und das dritte neuronale Netz (NN3) miteinan der gekoppelt werden, insbesondere der neue Zustand (h_t+i) des ersten neu ronalen Netzes (NN1) und der aktuelle Zustand (h'_t) des dritten neuronalen Netzes (NN3) miteinander gekoppelt werden, um basierend auf dem ersten neuronalen Netz (NN1) das dritte neuronale Netz (NN3) zu trainieren oder basierend auf dem dritten neuronalen Netz (NN3) das erste neuronale Netz (NN1) zu trainieren.