Beschreibung
Verfahren und Anordnung sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung ei- nes zukünftigen Systemzustandes eines dynamischen Systems
Die Erfindung betrifft eine neuronale Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, welche für eine Prognose eines Zustandes eines dynamischen Systems ge- eignet ist, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt und geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.
Aus [1] ist es bekannt, zur Beschreibung und Modellierung ei- nes dynamischen Systems bzw. eines dynamischen Prozesses und dessen Prozessverhaltens eine neuronale Struktur, beispiels¬ weise ein neuronales Netz, einzusetzen.
Allgemein wird ein dynamisches System bzw. ein dynamischer Prozess durch eine Zustandsübergangsbeschreibung, die für einen Beobachter des dynamischen Prozesses nicht sichtbar ist, und eine Ausgangsgleichung, die beobachtbare Größen des technischen dynamischen Prozesses beschreibt, beschrieben.
Ein solches Prozessverhalten eines dynamischen Prozesses ist in Fig.8 dargestellt.
Der dynamische Prozess 800 bzw. ein dynamisches System 800, in dem der dynamische Prozess abläuft, unterliegt dem Ein- fluss einer externen Eingangsgröße u vorgebbarer Dimension, wobei eine Eingangsgröße ut zu einem Zeitpunkt t mit ut be¬ zeichnet wird:
ut e M1 ,
wobei mit 1 eine natürliche Zahl bezeichnet wird.
Die Eingangsgröße u-^ zu einem Zeitpunkt t verursacht eine Veränderung des dynamischen Prozesses.
Ein innerer Zustand s-^ ( s-^ e 9ϊm ) vorgebbarer Dimension m zu einem Zeitpunkt t ist für einen Beobachter des dynamischen Systems 800 nicht beobachtbar.
In Abhängigkeit vom inneren Zustand s-^ und der Eingangsgröße u-£ wird ein Zustandsübergang des inneren Zustandes St des dy- namischen Prozesses verursacht und der Zustand des dynami¬ schen Prozesses geht über in einen Folgezustand s-|-+i zu einem folgenden Zeitpunkt t+1.
Dabei gilt :
st+l = f(st' ut) • (!)
wobei mit f ( . ) eine allgemeine Abbildungsvorschrift bezeich¬ net wird.
Eine von einem Beobachter des dynamischen Systems 800 beobachtbare Ausgangsgröße y-(- zu einem Zeitpunkt t hängt ab von der Eingangsgröße u-^ sowie dem inneren Zustand s-^ .
Die Ausgangsgröße y-|- ( y^ <= 9ϊn ) ist vorgebbarer Dimension n.
Die Abhängigkeit der Ausgangsgröße y-|- von der Eingangsgröße u-|- und dem inneren Zustand s-^ des dynamischen Prozesses ist durch folgende allgemeine Vorschrift gegeben:
vt = g(st)' (2)
wobei mit g ( . ) eine allgemeine Abbildungsvorschrift bezeich¬ net wird.
Zur Beschreibung des dynamischen Systems 800 wird in [1] eine neuronale Struktur aus miteinander verbundenen Rechenelemente
in Form eines neuronalen Netzes miteinander verbundener Neuronen eingesetzt. Die Verbindungen zwischen den Neuronen des neuronalen Netzes sind gewichtet . Die Gewichte des neuronalen Netzes sind in einem Parametervektor v zusammengefasst .
Somit hängt ein innerer Zustand eines dynamischen Systems, welches einem dynamischen Prozess unterliegt, gemäß folgender Vorschrift von der Eingangsgröße u-^ und dem inneren Zustand des vorangegangenen Zeitpunktes s-^ und dem Parametervektor v ab:
st+i = NN(V, st,ut), (3)
wobei mit NN ( . ) eine durch das neuronale Netz vorgegebene Ab- bildungsvorschrift bezeichnet wird.
Diese Beschreibung des dynamischen Systems 800 gemäß Bezie¬ hung (3) wird auch als "Forward Approach" bezeichnet.
Alternativ dazu lässt sich das dynamische System auch durch:
mit
st = NN(v, st_!, ut) (3Λ)
beschreiben, was als "Backward Approach" bezeichnet wird.
"Forward Approach" und "Backward Approach" führen zu geringfügigen strukturellen Unterschieden in den jeweiligen Netzstrukturen, sind aber gleichwertige, alternativ verwendbare Beschreibungsformen für dynamische Systeme.
Aus [2] ist eine neuronale Struktur zur Beschreibung des dy¬ namischen Systems 800 bekannt, welche als Time Delay Recur- rent Neural Network (TDRNN/RNN) bezeichnet wird.
Das bekannte TDRNN ist in Fig.5 als ein über eine endliche Anzahl von Zeitpunkten (dargestellt 5 Zeitpunkte: t-4, t-3, t-2, t-1, t) entfaltetes neuronales Netz 500 dargestellt.
Das in Fig.5 dargestellte neuronale Netz 500 weist eine Ein¬ gangsschicht 501 mit fünf Teileingangsschichten 521, 522, 523, 524 und 525 auf, die jeweils eine vorgebbare Anzahl Ein- gangs-Rechenelemente enthalten, denen Eingangsgrößen u-^-4? ut-3, ut-2r ut-l unc* Ut zu vorgebbaren Zeitpunkten t-4, t-3, t-2, t-1 und t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.
Eingangs-Rechenelemente bzw. Eingangsneuronen oder Eingabere¬ chenelemente, sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten 505 (dargestellt 5 verdeckte Schichten) verbunden.
Dabei sind Neuronen einer ersten 531, einer zweiten 532, einer dritten 533, einer vierten 534 und einer fünften 535 ver- steckten Schicht jeweils mit Neuronen der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht verbunden.
Die Verbindungen zwischen der ersten 531, der zweiten 532, der dritten 533, der vierten 534 und der fünften 535 versteckten Schicht mit jeweils der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht sind jeweils gleich. Die Gewichte aller Verbin¬ dungen sind jeweils in einer ersten Verbindungsmatrix B]_ ent- halten.
Ferner sind die Neuronen der ersten versteckten Schicht 531 mit ihren Ausgängen mit Eingängen von Neuronen der zweiten versteckten Schicht 532 gemäß einer durch eine zweite Verbin- dungsmatrix A]_ gegebene Struktur verbunden. Die Neuronen der zweiten versteckten Schicht 532 sind mit ihren Ausgängen mit Eingängen von Neuronen der dritten versteckten Schicht 533
gemäß einer durch die zweite Verbindungsmatrix A]_ gegebene Struktur verbunden. Die Neuronen der dritten versteckten Schicht 533 sind mit ihren Ausgängen mit Eingängen von Neuro¬ nen der vierten versteckten Schicht 534 gemäß einer durch die zweite Verbindungsmatrix A]_ gegebene Struktur verbunden. Die Neuronen der vierten versteckten Schicht 534 sind mit ihren Ausgängen mit Eingängen von Neuronen der fünften versteckten Schicht 535 gemäß einer durch die zweite Verbindungsmatrix A]_ gegebene Struktur verbunden.
In den versteckten Schichten, der ersten versteckten Schicht 531, der zweiten versteckten Schicht 532, der dritten versteckten Schicht 533, der vierten versteckten Schicht 534 und der fünften versteckten Schicht 535 werden jeweils "innere" Zustände oder "innere" Systemzustände st-4, st-3' st-2' st-l' und S^ eines durch das TDRNN beschriebenen dynamischen Prozesses an fünf aufeinander folgenden Zeitpunkten t-4, t-3, t-2, t-1 und t repräsentiert.
Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t-4, t-3, t-2, t-1 und t an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw. zuführbaren Signale beziehen (u-|-_4, u-|-_3, ut-2' ut-l' ut) •
Eine Ausgangsschicht 520 weist fünf Teilausgangsschichten o- der Ausgaberechenelemente, eine erste Teilausgangsschicht 541, eine zweite Teilausgangsschicht 542, eine dritte Teil¬ ausgangsschicht 543, eine vierte Teilausgangsschicht 544 so- wie eine fünfte Teilausgangsschicht 545 auf. Neuronen der ersten Teilausgangsschicht 541 sind gemäß einer durch eine Ausgangs-Verbindungsmatrix C-\_ gegebenen Struktur mit Neuronen der ersten versteckten Schicht 531 verbunden. Neuronen der zweiten Teilausgangsschicht 542 sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C]_ gegebenen Struktur mit Neuronen der zweiten versteckten Schicht 532 verbunden. Neuronen der dritten Teilausgangsschicht 543 sind gemäß der
Ausgangs-Verbindungsmatrix C]_ mit Neuronen der dritten versteckten Schicht 533 verbunden. Neuronen der vierten Teilausgangsschicht 544 sind gemäß der Ausgangs-Verbindungsmatrix C]_ mit Neuronen der vierten versteckten Schicht 534 verbunden. Neuronen der fünften Teilausgangsschicht 545 sind gemäß der Ausgangs-Verbindungsmatrix C-\_ mit Neuronen der fünften versteckten Schicht 535 verbunden. An den Neuronen der Teilausgangsschichten 541, 542, 543, 544 und 545 sind die Ausgangs¬ größen für jeweils einen Zeitpunkt t-4, t-3, t-2, t-1, t abgreifbar (yt-4' Yt-3' Yt-2' Yt-I' Yt) -
Der Grundsatz, dass äquivalente Verbindungsmatrizen, in Fig. 5 sind dies die Matrizen Ai, Bi und Ci, in einem neurona¬ len Netz zu einem jeweiligen Zeitpunkt die gleichen Werte aufweisen, wird als Prinzip der so genannten geteilten Gewichtswerte (Shared Weights) bezeichnet.
Die aus [2] bekannte und als Time Delay Recurrent Neural Net¬ work (TDRNN) bezeichnete Anordnung wird in einer Trainings- phase derart trainiert, dass zu einer Eingangsgröße ut je¬ weils eine Zielgröße y^ an einem realen dynamischen System ermittelt wird. Das Tupel (Eingangsgröße, ermittelte Zielgrö¬ ße) wird als Trainingsdatum bezeichnet. Eine Vielzahl solcher Trainingsdaten bilden einen Trainingsdatensatz.
Dabei weisen zeitlich aufeinander folgende Tupel (u-^-4
'yf_4 ) (ut-3 >yf_3 )> (ut-2 '^f-2 ) der Zeitpunkte (t-4, t-3, t-3, ...) des Trainingsdatensatzes jeweils einen vorgegeben Zeitschritt auf.
Mit dem Trainingsdatensatz wird das TDRNN trainiert. Eine Ü- bersicht über verschiedene Trainingsverfahren ist ebenfalls in [1] und [4] zu finden.
Es ist an dieser Stelle zu betonen, dass lediglich die Aus¬ gangsgrößen yt-4 iYt-3 ' ..., yt zu Zeitpunkten t-4, t-3, ..., t des dynamischen Systems 800 erkennbar sind. Die "inne-
ren" Systemzustände s^-4, s^-3, ..., s-^ sind nicht beobacht¬ bar.
In der Trainingsphase wird üblicherweise folgende Kostenfunk- tion E minimiert :
wobei mit T eine Anzahl berücksichtigter Zeitpunkte bezeich- net wird.
Aus [5] und [6] sind Weiterentwicklungen der aus [2] bekannten und als Time Delay Recurrent Neural Network (TDRNN) be¬ zeichneten neuronalen Struktur bekannt.
Die Weiterentwicklungen aus [5] sind insbesondere geeignet zur Ermittlung zukünftiger Zustände eines dynamischen Prozesses, was als "overshooting" bezeichnet wird.
Fig. Ia aus [5] zeigt eine Grundstruktur, die den aus [5] be¬ kannten Weiterentwicklungen zugrunde liegt .
Die Grundstruktur ist ein über drei Zeitpunkte t, t+1, t+2 entfaltetes neuronales Netz.
Sie weist eine Eingangsschicht auf, die eine vorgebbare An¬ zahl von Eingangsneuronen enthält, denen Eingangsgrößen ut zu vorgebbaren Zeitpunkten t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.
Die Eingangsneuronen sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten (dargestellt 5 verdeckte Schichten) verbunden.
Dabei sind insbesondere Neuronen einer ersten versteckten Schicht, welche den Systemzustand zum Zeitpunkt t+1 be¬ schreibt oder repräsentiert, mit Neuronen der ersten Ein¬ gangsschicht verbunden.
Die Verbindung zwischen der ersten versteckten Schicht mit der ersten Eingangsschicht weist Gewichte auf, die in einer ersten Verbindungsmatrix B enthalten sind.
Ferner sind die Neuronen der ersten versteckten Schicht mit ihren Ausgängen mit Eingängen von Neuronen einer zweiten versteckten Schicht, welche den Systemzustand zum Zeitpunkt t+2 beschreibt oder repräsentiert, gemäß einer durch eine zweite Verbindungsmatrix A gegebene Struktur verbunden.
In den versteckten Schichten, der ersten versteckten Schicht und der zweiten versteckten Schicht werden jeweils "innere" Zustände oder "innere" Systemzustände St+i und St+2 des be¬ schriebenen dynamischen Prozesses an zwei aufeinander folgen- den Zeitpunkten t+1 und t+2 repräsentiert.
Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t, t+1, t+2 an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw, zuführbaren Signale (u-^) beziehen.
Eine Ausgangsschicht weist zwei Teilausgangsschichten, eine erste Teilausgangsschicht für den Zeitpunkt t+1 und eine zweite Teilausgangsschicht für den Zeitpunkt t+2, auf. Neuro- nen der ersten Teilausgangsschicht sind gemäß einer durch ei¬ ne Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neuronen der ersten versteckten Schicht verbunden. Neuronen der zweiten Teilausgangsschicht sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neu- ronen der zweiten versteckten Schicht verbunden.
An den Neuronen der Teilausgangsschichten sind die Ausgangsgrößen für jeweils einen Zeitpunkt t+1, t+2 abgreifbar (Yt+lr Yt+2) •
Eine weitere Weiterentwicklung dieser Grundstruktur aus [5] ist in Fig.6 dargestellt.
Weiterentwicklungen der TDRNN-Struktur aus [6], so genannte Error-Correction-Recurrent-Neural-Networks ECRNN) , betreffen einen strukturell bedingten Fehler-Korrektur-Mechanismus, welcher als struktureller Bestandteil in eine neuronale Struktur integriert ist. Fig.7 zeigt eine grundlegende Struk¬ tur mit entsprechenden funktionalen Beziehungen eines ECRNN.
In [3] ist ferner ein Überblick über Grundlagen neuronaler
Netze und die Anwendungsmöglichkeiten neuronaler Netze im Bereich der Ökonomie zu finden.
Die bekannten Anordnungen und Verfahren, insbesondere die im obigen beschriebenen TDRNN (kurz RNN) und ECRNN, weisen verschiedene Nachteile auf.
So neigen insbesondere große Netze obiger rekurrenter Strukturen zu den bekannten Problemen eines "Overfitting" und ei- ner "Überparametrisierung", was sich wiederum negativ auf eine Prognosefähigkeit solcher Strukturen bzw. Netze auswirkt.
Somit liegt der Erfindung die Aufgabe zugrunde eine, insbe¬ sondere neuronale, Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt, anzugeben, welche insbesondere bei großen Netzen bzw. bei Sys¬ temen mit einer Vielzahl von freien Parametern geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.
Diese Aufgabe wird durch die Anordnung, das Verfahren sowie durch das Computerprogramm mit Programmcode-Mitteln und das
Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustands eines dynamischen Systems mit den Merkmalen gemäß den unabhängigen Patentansprüchen 1, 12, 16 und 18 gelöst .
Die Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems basiert auf einer Grundstruktur miteinander verknüpfter Rechenelemente eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren.
Die Anordnung weist wenigstens ein erstes Eingaberechenele- ment, welchem Zustandsgrößen des Systems zu einem ersten
Zeitpunkt in einem Zustandsraum zuführbar sind und wenigstens ein zweites Eingaberechenelement, welchem Zustandsgrößen des Systems zu einem früheren Zeitpunkt in einem Zustandsraum zuführbar sind, wobei der frühere Zeitpunkt vor dem ersten Zeitpunkt liegt. Die Eingaberechenelemente bilden, im Falle der Realisierung in Form eines neuronalen Netzes, die Eingangsschicht oder Eingabeneuronenschicht mit Eingangsneuronen des neuronalen Netzes.
Ferner weist die Anordnung wenigstens ein erstes Zustandsre- chenelement, welches den Systemzustand zum ersten Zeitpunkt in einem Transformationsraum repräsentiert, wenigstens ein zweites Zustandsrechenelement, welches den Systemzustand zum früheren Zeitpunkt im Transformationsraum repräsentiert und wenigstens ein drittes Zustandsrechenelement, welches den Systemzustand zu einem auf den ersten Zeitpunkt folgenden späteren Zeitpunkt im Transformationsraum repräsentiert. Somit sind das erste Zustandsrechenelement und das erste Einga¬ berechenelement dem ersten Zeitpunkt zugeordnet und das zwei- te Zustandsrechenelement und das zweite Eingaberechenelement dem früheren Zeitpunkt .
Zwischen Zustandsrechenelementen, welche Systemzustände zu aufeinander folgenden Zeitpunkten repräsentieren, ist eine Zeittransformation von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar. Im Falle der Realisierung der Anordnung durch ein neuronales Netz entspricht die Zeit¬ transformation einer Verbindungsmatrix A, wobei geteilte bzw. gemeinsame Gewichtswerte (shared weights) verwendet werden.
Die Anordnung weist ferner wenigstens ein Ausgaberechenele- ment auf, an welchem Zustandsgrößen des Systems zum späteren Zeitpunkt im Zustandsraum abgreifbar sind. An den Ausgaberechenelementen werden Erwartungswerten (expectations) entsprechenden Werte ausgegeben.
Im Falle der Realisierung der Anordnung durch ein neuronales Netz ist an einem Zustandsrechenelement ein Zustandsvektor abgreifbar bzw. von diesem ausgebbar, bei welchem die oberen Elemente bzw. Werte des Vektors gleich den Erwartungswerten sind. Der mittlere Bereich des Zustandsvektors wird durch versteckte Zustandswerte gebildet, welche versteckte Zustände (hidden states) zum jeweiligen Zeitpunkt repräsentieren. Im unteren Bereich des Zustandsvektors stehen Beobachtungswerte oder Erwartungswerte, in Abhängigkeit des Zeitpunktes des je¬ weiligen Zustandsvektors. Für den Zustandsvektor zum ersten Zeitpunkt und zum früheren Zeitpunkt gilt, dass im unteren Teil des Zustandsvektors Beobachtungswerte (Observations) stehen. Für den Zustandsvektor des späteren Zeitpunkts gilt, dass im unteren Bereich des Zustandsvektors Erwartungswerte (Expectations) stehen. Somit ergibt sich der Zustandsvektor st wie folgt:
Erwartungswerte bzw. Expectations s
t versteckteZustandswerte bzw. HiddenStates : 5 ) [Beobachtungswerte bzw. Observations/ < 0 [Erwartungswerte bzw. Expectations/ > 0
} y
In einer anderen Ausführungsform wird der untere Teil des Zu- standsvektors durch Fehlerkorrekturwerte oder Null gebildet. Der Zustandsvektor s
t ergibt sich somit wie folgt:
Bei der Anordnung ist das erste Eingaberechenelement mit dem ersten Zustandsrechenelement und das zweite Eingaberechenele¬ ment mit dem zweiten Zustandsrechenelement verknüpft, wobei durch die Verknüpfungen jeweils eine Raumtransformation aus dem Zustandsraum in den Transformationsraum durchführbar ist.
Ferner ist das Ausgaberechenelement mit dem dritten Zustands¬ rechenelement verknüpft, wobei durch die Verknüpfung eine Raumtransformation aus dem Transformationsraum in den Zustandsraum durchführbar ist.
Die der Anordnung im Zustandsraum zuführbaren und abgreifbaren Zustandsgrößen weisen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste
Zielgröße des dynamischen Systems auf. Dies ist ein wesentli¬ cher Unterschied zum oben beschriebenen Stand der Technik, da dem System an den Eingaberechenelemente somit Einflussgrößen, welche im Zusammenhang mit der Beschreibung des Standes der Technik beispielsweise mit ut bezeichnet wurden, und Zielgrö¬ ßen bzw. Targets, welche oben im Zusammenhang mit dem Stand der Technik als yt gekennzeichnet wurden, zugeführt werden. Bei der Erfindung wird also bei der Modellbildung nicht zwischen Einflussgrößen und Zielgrößen unterschieden, sondern nur noch zwischen beobachtbaren Werten bzw. Variablen und nicht-beobachtbaren Werten bzw. Variablen. Die beobachtbaren Werte (Observables) enthalten dabei die im Zusammenhang mit dem Stand der Technik beschriebenen Einflussgrößen ut und
Zielgrößen yt. Die beobachtbaren Werte werden in der folgenden Beschreibung mit yt gekennzeichnet. Dabei ist zu beach¬ ten, dass sich yt somit wesentlich vom yt, welches in der Be¬ schreibung des Standes der Technik verwendet wurde, unter- scheidet.
Eine solche Modellierung bei der der Anordnung sowohl Einflussgrößen als auch Zielgrößen zuführbar sind, ist aus [7] bekannt .
Die Transformationsparameter zur Durchführung der Zeittransformation sind variabel, wobei im Fall der Realisierung durch ein neuronales Netz geteilte Gewichtswerte für die Transfor¬ mationsparameter verwendet werden.
Die Verknüpfung zwischen zwei Zustandsrechenelementen ist eine mittelbare Verknüpfung, welche wenigstens eine Konsistenz¬ transformation und die Zeittransformation umfasst. Im Falle der Realisierung durch ein neuronales Netz bedeutet dies, dass die durch die Gewichtsmatrix A mit geteilten Gewichtswerten gebildete Zeittransformation zwischen zwei Zustandsrechenelementen eine weitere versteckte Schicht mit einer Nichtlinearität und einem Bias aufweist, wobei die Ausgabe¬ werte dieser weiteren versteckten Schicht der Konsistenz- transformation unterzogen werden.
Die mittelbare Verknüpfung zwischen dem zweiten Zustandsre- chenelement und dem ersten Zustandsrechenelement und die mit¬ telbare Verknüpfung zwischen dem ersten Zustandsrechenelement und dem dritten Zustandsrechenelement sind dabei unterschied¬ lich. Durch die unterschiedliche Wahl der mittelbaren Verknüpfung ergibt sich der unterschiedliche untere Bereich des Zustandsvektors st in Gleichungen (5) und (6) . Das heißt, je nach Wahl der mittelbaren Verknüpfung enthält der untere Be- reich in Gleichung (5) entweder die Beobachtungswerte oder die Erwartungswerte. In Gleichung (6) enthält der Zustands-
vektor st je nach Wahl der mittelbaren Verknüpfung die Fehlerkorrekturwerte oder Null.
Die Transformation der Zustandsgrößen vom früheren auf den ersten Zeitpunkt wird dabei durch eine Multiplikation von Matrizen C • A • C< durchgeführt, und die Transformation der Zustandsgrößen vom ersten auf den späteren Zeitpunkt durch eine Multiplikation von Matrizen C • A • C>. Dabei ist A die Zeittransformation und es gilt:
wobei Id eine Identitätsmatrix ist.
Vorteilhaft sind zumindest ein Teil der Rechenelemente künst¬ liche Neuronen. Das heißt, die Anordnung ist vorteilhaft mit einem neuronalen Netz realisierbar, wobei den Eingaberechenelementen Eingangsneuronen oder -schichten, den Zustandsre- chenelementen versteckte bzw. Hidden Neuronen oder Schichten und den Ausgaberechenelementen Ausgangsneuronen oder -schichten entsprechen.
In den Figuren zur Beschreibung von Ausführungsformen der Er- findung entspricht die mittelbare Verknüpfung beispielsweise der Transformation durch die Matrizen A und C< für die mittelbare Verknüpfung zwischen dem zweiten Zustandsrechenele- ment und dem ersten Zustandsrechenelement . Die mittelbare Verknüpfung zwischen dem ersten Zustandsrechenelement und dem dritten Zustandsrechenelement entspricht beispielsweise der Verknüpfung durch die Matrizen A und C>. Die mittelbare Verknüpfung kann jedoch auch durch drei Rechenschritte gebildet werden, beispielsweise durch eine Transformation mit drei
Matrizen C, A, C< bzw. C, A, C> oder durch die Matrizenkombi¬ nation C, A, CE (siehe Beschreibung der Figuren) .
In einer vorteilhaften Weiterbildung der Erfindung weist die Anordnung weitere Eingaberechenelemente, weitere Zustandsre- chenelemente und weitere Ausgaberechenelemente auf, die je¬ weils einem bestimmten Zeitpunkt zugeordnet sind, wobei je¬ weils ein Eingaberechenelement mit einem Zustandsrechenele- ment und ein Zustandsrechenelement mit einem Ausgaberechen- element verknüpft sind und dadurch jeweils eine Raumtransfor¬ mation durchführbar ist, wobei ein Zustandsrechenelement mit dem Zustandsrechenelement des vorangehenden Zeitpunktes und mit dem Zustandsrechenelement des folgenden Zeitpunktes ver¬ knüpft ist und dadurch jeweils eine Zeittransformation durch- führbar ist.
In einer vorteilhaften Weiterbildung verbindet die mittelbare Verknüpfung zwischen dem zweiten Zustandsrechenelement und dem ersten Zustandsrechenelement die Zeittransformation und eine erste Konsistenztransformation. Ferner verbindet die mittelbare Verknüpfung zwischen dem ersten Zustandsrechenele¬ ment und dem dritten Zustandsrechenelement die Zeittransfor¬ mation und eine zweite Konsistenztransformation. Dabei sind die erste Konsistenztransformation und die zweite Konsistenz- transformation unterschiedlich.
Im Falle der Realisierung durch ein neuronales Netz (siehe auch Figurenbeschreibung) entspricht die erste Konsistenztransformation beispielsweise der Transformation mit der Mat- rix C< und die zweite Konsistenztransformation der Transformation durch die Matrix C>. In einer anderen Ausführungsform entspricht die erste Konsistenztransformation der durch die Matrizen C und C< gebildeten Transformation und die zweite Konsistenztransformation der durch die Matrizen C und C> ge- bildeten Transformation.
Es kann also vorteilhaft sein, wenn die erste Konsistenz¬ transformation und die zweite Konsistenztransformation je eine erste Konsistenztransformationskomponente, beispielsweise gebildet durch die Matrix C, und eine zweite Konsistenztrans- formationskomponente, gebildet beispielsweise durch die Mat¬ rix C< bzw. C>, aufweisen, wobei die erste Konsistenztrans¬ formationskomponente der ersten Konsistenztransformation und die erste Konsistenztransformationskomponente der zweiten Konsistenztransformation, beispielsweise gebildet durch die Matrix C, identisch und/oder unveränderlich sind. Dabei sind die zweite Konsistenztransformationskomponente der ersten Konsistenztransformation, beispielsweise gebildet durch die Matrix C≤, und die zweite Konsistenztransformationskomponente der zweiten Konsistenztransformation, beispielsweise gebildet durch die Matrix C>, unterschiedlich.
Im Falle der Realisierung durch ein neuronales Netz lässt sich der Zustandsvektor st somit wie oben angegeben, in Abhängigkeit der Matrizen C< (zweite Konsistenztransformations- komponente der ersten Konsistenztransformation) und der Matrix C> (zweite Konsistenztransformationskomponente der zwei¬ ten Konsistenztransformation) verändern.
In einer weiteren besonders vorteilhaften Weiterbildung der Erfindung ist die zweite Konsistenztransformationskomponente der ersten Konsistenztransformation in Abhängigkeit der dem System zum früheren Zeitpunkt zugeführten Zustandsgrößen veränderbar, und die zweite Konsistenztransformationskomponente der zweiten Konsistenztransformation ist in Abhängigkeit der dem System zum ersten Zeitpunkt zugeführten Zustandsgrößen veränderbar.
Im Falle der Realisierung durch ein neuronales Netz entspricht der zweiten Konsistenztransformationskomponente der ersten Konsistenztransformation beispielsweise die Matrix CE. Auch der zweiten Konsistenztransformationskomponente der zweiten Konsistenztransformation entspricht die Matrix CE.
Dabei wird die Matrix CE in Abhängigkeit der Eingabewerte zum jeweiligen Zeitpunkt verändert.
Vorteilhaft ist es, wenn zumindest ein Teil der Transformati- onsparameter zur Durchführung der Raumtransformation und/oder ein Teil der Konsistenzparameter zur Durchführung der Konsistenztransformation derart festgelegt sind, dass eine Identi¬ tätsabbildung durchführbar ist.
Eine derartige Identitätsabbildung angewendet auf Zustands- vektoren bewirkt, dass nur bestimmte Vektoreinträge gleichsam aus dem Vektor herausgeschnitten werden, wobei gleichzeitig der Vektor in seiner Dimension angepasst werden kann.
Im Falle der Realisierung durch ein neuronales Netz wird die Transformation zur Durchführung der Raumtransformation von einem Eingaberechenelement auf ein Zustandsrechenelement be¬ vorzugt wie folgt definiert:
o y; →St o J)
Id
Die Raumtransformation zur Transformation der Ausgabewerte (Zustandsvektor) der Zustandsrechenelemente auf Ausgabere¬ chenelemente wird vorteilhaft wie folgt definiert:
Id s,→y, 0 (8) 0
Vorteilhaft ist es weiterhin, wenn zumindest ein Teil der Ausgaberechenelemente derart verknüpft sind, dass zukünftige Zustände akkumulierbar sind.
Außerdem ist es vorteilhaft, wenn dasjenige Zustandsrechenelement, welches den zeitlich frühesten Zustand repräsen-
tiert, mit einem Startzustand initialisierbar ist, wobei der Startzustand unter Verwendung von Rauschen (noise) ermittel¬ bar ist. Durch Verwendung von Rauschen werden über der Zeit Trajektorien in Form von Röhren gebildet. Die Zeittransforma- tion, im Falle eines neuronalen Netzes gebildet durch die
Matrix A wird so trainiert, dass die Unsicherheit des Start¬ zustands bzw. Initialzustands über der Zeit herausgefiltert wird. Endliche Volumentrajektorien (finit volume trajecto- ries) wirken als eine Regularisierung und Stabilisierung der Dynamik.
Vorteilhaft ist dem System auch zum späteren Zeitpunkt Rau¬ schen zuführbar. Dies ist aus folgenden Gründen vorteilhaft: in der Vergangenheit ist der Einfluss von unbekannten exter- nen Größen durch die Fehlerkorrekturwerte modelliert bzw. wird durch diese wiedergegeben. In der Zukunft wird das dyna¬ mische System gegenüber der Unsicherheit der Umwelt stabili¬ siert. Für eine deterministische Vorhersage (forecast) wird die Anwendung bzw. Eingabe von Rauschen im Anwendungsfall des trainierten neuronalen Netzes bzw. der trainierten Anordnung für zukünftige Zustandsrechelemente ausgelassen. Es kann also vorteilhaft sein, beim Training der Anordnung oder des neuronalen Netzes den Zustandsrechenelementen der Zukunft, beispielsweise dem drittem Zustandsrechenelement, im Training Rauschen hinzuzufügen. Das System wird dadurch "steif" gegenüber den Eingangs- bzw. Eingabewerten. Bei der Anwendung der trainierten Anordnung bzw. des trainierten neuronalen Netzes wird den Zustandsrechenelementen der Zukunft, d.h. Zustandsrechenelementen, für welche gilt t>0, kein Rauschen zuge- führt. Somit wird eine deterministische Mittelwertlösung be¬ rechnet .
Die Anordnung umfasst ferner vorteilhaft eine Messanordnung zur Erfassung physikalischer Signale, mit denen Zustände des dynamischen Systems beschrieben werden können.
Bei dem Verfahren zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit Hilfe eines neuronalen Netzes werden Zustandsgrößen des Systems zu einem ersten Zeitpunkt und zu einem vor dem ersten Zeitpunkt liegenden früheren Zeitpunkt einer Raumtransformation unterzogen werden, welche die Zustandsgrößen von einem Zustandsraum in einen Transformationsraum transformiert, die in den Transforma¬ tionsraum transformierten Zustandsgrößen des früheren Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem früheren Zeitpunkt auf den ersten Zeitpunkt transformiert, die in den Transformationsraum transformierten Zustandsgrößen des ersten Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem ersten Zeitpunkt auf einen auf den ersten Zeitpunkt folgenden späteren Zeitpunkt transformiert, und es werden die auf den späteren Zeitpunkt transformierten Zustandsgrößen einer Raumtransformation unterzogen werden, welche die auf den späteren Zeitpunkt trans- formierten Zustandsgrößen von dem Transformationsraum in den Zustandsraum transformiert, wobei die Transformationen unter Verwendung von Transformationsparametern durchgeführt werden, die von dem Zustandraum in den Transformationsraum transformierten Zustandsgrößen als auch die von dem Transformations- räum in den Zustandsraum transformierten Zustandsgrößen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen, die Transformationsparameter zur Durchführung der Raumtransformationen fest sind, und wobei die Trans- formationsparameter zur Durchführung der Zeittransformation variabel sind. Bei der Transformation der Zustandsgrößen wird dabei vom früheren auf den ersten Zeitpunkt eine erste Kon¬ sistenztransformation und die Zeittransformation durchgeführt, und bei der Transformation der Zustandsgrößen vom ers- ten auf den späteren Zeitpunkt wird eine zweite Konsistenz¬ transformation und die Zeittransformation durchgeführt. Dabei
sind die erste Konsistenztransformation und die zweite Konsistenztransformation unterschiedlich.
Vorteilhaft ist es, wenn bei der ersten und zweiten Konsis- tenztransformation je ein erster Konsistenztransformations¬ schritt und ein zweiter Konsistenztransformationsschritt durchgeführt wird, wobei der erste Konsistenztransformations¬ schritt der ersten Konsistenztransformation und der erste Konsistenztransformationsschritt der zweiten Konsistenztrans- formation identisch sind, und dass der zweite Konsistenztransformationsschritt der ersten Konsistenztransformation und der zweite Konsistenztransformationsschritt der zweiten Konsistenztransformation unterschiedlich sind.
Im Falle der Realisierung durch ein neuronales Netz wird der erste Konsistenztransformationsschritt jeweils durch die Mat¬ rix C gebildet. Der zweite Konsistenztransformationsschritt der ersten Konsistenztransformation wird gebildet durch die Matrix C≤, und der zweite Konsistenztransformationsschritt der zweiten Konsistenztransformation wird gebildet durch die Matrix C>.
Das Verfahren wird vorteilhaft eingesetzt zu einer Prognose eines zukünftigen Systemverhaltens des dynamischen Systems derart, dass das ermittelte zukünftige Systemverhalten als die Prognose verwendet wird.
Ferner wird das Verfahren vorteilhaft eingesetzt zu einer Prognose eines Energieverbrauchs, insbesondere eines Verbrauchs von einer Gasmenge, oder eines Energiepreises, insbesondere eines Strompreises, oder einer makro- oder mik¬ roökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems.
Andere Einsatzszenarien sind vorstellbar, wie bei ökonomischen Systemen (Finanzdienstleistungen, Banken, Versicherungen) oder Industriesystemen (Produktionssysteme, Industriean-
lagen, Logistiksysteme) , beispielsweise zu einer Prognose ei¬ ner makro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems, im speziellen zu einer Prognose eines Wechselkursverlaufes oder eines Bargeld- Aus- oder Einzahlungsverhaltens/-entwicklung.
Das Computerprogramm weist Programmcode-Mittel auf, um alle Schritte und/oder Teilschnitte gemäß des oben definierten Verfahrens durchzuführen, wenn das Programm auf einem Compu- ter oder Teile des Programms auf mehreren Computern ausge¬ führt wird bzw. werden.
Das Computerprogramm weist die oben definierten Programmcodemittel auf, welche auf einem oder mehreren computerlesbaren Datenträgern gespeichert sind.
Das Computerprogrammprodukt weist auf einem maschinenlesbaren Träger gespeicherte Programmcodemittel auf, um alle Schritte und/oder Teilschritte des oben definierten Verfahrens durch- zuführen, wenn das Programm auf einem Computer ausgeführt wird.
In Anwendungen im industriellen Umfeld können Messanordnungen vorgesehen werden zur Erfassung physikalischer Signale. Mit diesen können Zustände des dynamischen System beschrieben werden. Diese werden dann - gegebenenfalls nach einer Vorverarbeitung - der Anordnung und dem Verfahren als Input zugeführt .
Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
Es zeigen
Fig. Ia, Ib und Ic Skizzen, die die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik beschreiben (Ia: zwei Alternativen des bekannten RNN; Ib: LRNN mit der alleinigen anpassbaren Ver- bindungsmatrix A; Ic: DCRNN);
Fig. 2a, 2b und 2c Skizzen, die die Entwicklung eines
DCECRNN aus einem ECRNN gemäß dem Stand der Technik beschreiben (Ia: zwei Alternativen des be- kannten ECRNN; Ib: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; Ic: DCECRNN);
Fig. 3a und 3b Skizzen eines DCRNN (Fig.3a) und eines
DCECRNN (Fig.3b) mit jeweils einer gekennzeichne- ten erfindungsgemäßen Grundstruktur;
Fig. 4 Skizze eines DCNN, welches aus dem DCRNN und dem DCECRNN weiterentwickelt ist;
Fig. 5 eine Skizze einer Anordnung eines TDRNN, welche mit endlich vielen Zuständen über die Zeit entfaltet ist, gemäß dem Stand der Technik;
Fig. 6 eine Skizze einer zum "overshooting" geeigneten Weiterbildung eines TDRNN gemäß dem Stand der
Technik;
Fig. 7 eine Skizze eines ECRNN mit grundlegenden funkti¬ onalen Beziehungen gemäß dem Stand der Technik;
Fig. 8 eine Skizze einer allgemeinen Beschreibung eines dynamischen Systems;
Fig. 9 Skizze eines modifizierten DCNN mit einer modifi- zierten "Consistency Matrix", bei welchem bekannte zukünftige Informationen berücksichtigbar sind;
Fig. 10 Skizze eines modifizierten DCNN mit akkumulierten Ausgangsneuronen;
Fig. IIa und IIb zeigen die Herleitung eines neuronalen
Netzes zur Modellierung der Dynamik von beobachtbaren Größen bzw. Beobachtbaren;
Fig. 12 zeigt ein dynamisch konsistentes rekurrentes neu- ronales Netzwerk (DCRNN) mit unterschiedlichen
Konsistenztransformationen;
Fig. 13 zeigt ein dynamisch konsistentes fehlerkorrigie¬ rendes neuronales Netzwerk (DCECNN) mit unter- schiedlichen Konsistenztransformationen;
Fig. 14 zeigt ein dynamisch konsistentes rekurrentes feh¬ lerkorrigierendes neuronales Netzwerk (DRECNN) gemäß einem ersten Realisierungsbeispiel;
Fig. 15 zeigt ein dynamisch konsistentes rekurrentes feh¬ lerkorrigierendes neuronales Netzwerk (DCRECNN) gemäß einem zweiten Realisierungsbeispiel;
Fig. 16 zeigt eine allgemeine Struktur eines dynamisch konsistenten neuronalen Netzwerks in Übereinstimmung mit dem ersten Realisierungsbeispiel;
Fig. 17 zeigt ein dynamisch konsistentes neuronales Netz- werk mit teilweise bekannten beobachtbaren Größen;
Fig. 18 zeigt ein dynamisch konsistentes neuronales Netz¬ werk mit einem initialisierten Startzustand;
Fig. 19A zeigt die Initialisierung mit Rauschen und
Fig. 19B zeigt eine röhrenförmige Trajektorie, welche sich auf Grund der Initialisierung in Fig. 19A ergibt;
Fig. 20 zeigt ein dynamisch konsistentes neuronales Netz- werk, bei dem zukünftigen Zustandsrechenelementen bzw. Zuständen Rauschen hinzugefügt wird;
Fig. 21 verdeutlicht, wie die Dimension der Zustandsre- chenelemente bzw. Zustandsvektoren dimensionier- bar ist;
Fig. 22 zeigt Simulationsergebnisse zur Dimensionierung des Zustandsvektors gemäß Fig. 21;
Fig. 23a, 23b und 23c zeigen Skizzen, welche Beispiele von
DCNN für eine Prognose eines US-Dollar/Brit . Pfund - Wechselkursverlaufes (Fig. 23a), einer Bargeld-Zu- bzw. Abflussentwicklung (Fig. 23b), einer Stromlastentwicklung (Fig. 23c) zeigen.
Bei den im folgenden beschriebenen Figuren sowie den im folgenden anhand der Figuren beschriebenen Ausführungsbeispielen werden allgemein übliche und für den Fachmann verständliche Bezeichnungen und Symbole aus dem Gebiet der Neuroinformatik und Neurostatistik verwendet. Weitere Bezeichnungen ergeben sich aus dem im obigen beschriebenen Standes der Technik.
Wie bereits oben erwähnt, handelt es sich bei der Erfindung um eine Weiterentwicklung bzw. Veränderung von aus [7] be- kannten Strukturausführungsbeispielen oder Architekturen neuronaler Netze. Die Fig. Ia bis 10 entsprechen den Figuren gleicher Nummerierung aus [7] . Es werden nun zunächst die aus [7] bekannten Strukturen und Ausführungsbeispiele beschrieben und im Anschluss daran die Fig. 11 bis 23.
Struktur-Ausführungsbeispiele: "Dynamical Consistent Recur- rent Neural Networks" (Fig.l, Fig.3a), "Dynamical Consistent
Error Correction (Recurrent) Neural Networks" (Fig.2,
Fig.3b), "Dynamical Consistent Neural Networks (DCNN) (Fig.4)
In den Figuren Ia, Ib und Ic ist die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik dargestellt (Ia: zwei Alternativen des bekannten RNN; Ib: LRNN mit der alleinigen anpassbaren Verbindungsmatrix A; Ic: DCRNN) .
Figur Ia, Alternative 1 (Forward Approach/Forward Formulati- on) und Alternative 2 (Backward Approach/Backward Formulati- on) zeigt zwei bekannte, alternative neuronale Strukturen ge¬ mäß einem über 5 Zeitpunkte t-2, t-1, t, t+1, t+2 entfalteten TDRNN bzw. RNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt: st+ι = f(st , yf , ut ά ) und yt = g(st )
Für Alternative 2 gilt : st = f(st-ι>u? ) und yt = 8(s, )
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
Figur Ib zeigt eine verbesserte Struktur, ein so genanntes "Large Recurrent Neural Network" (LRNN) , welches aus den al¬ ternativen Strukturen aus Figur Ia entwickelbar ist.
So werden im Übergang der Strukturen aus Figur Ia zu der Struktur aus Figur Ib die ursprünglichen drei anpassbaren Verbindungsmatrizen A, B, und C durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s. Diese weist alleinig anpassbare Parame- ter auf, die im Training der Struktur einstellbar sind.
Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und
C sind in Figur Ib angegeben. Die sich dabei ergebenden neuen
T
Verbindungsmatrizen [Id, 0] bzw. [Id, 0] weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in Figur Ib gezeigte Struktur gilt:
Indem die Matrix B durch [θ, IdJ e 9ϊ(dim(s)xdim(u)) erset zt wird, wird die Verarbeitung der Eingabegröße auf die Matrix A über¬ tragen . Für lineare Systeme st = Ast_\ + But kann durch eine Zu- standsraum-Trans f ormation [Tst ) = TAT~ \Tst_ι )+ TBut die Matrix B mit B = \Br , B J in [θ, /rf] umgewandelt werden . Unter der Annah- me , das s für die Matrix B dim(,s) > dim(«) gegeben ist , kann T so gewählt werden , das s :
Indem die Matrix C durch [/d,θ]e9?(dim(;y)xdini(,s')) ersetzt wird, werden die Ausgabegrößen mit den versteckten Schichten s für die ersten Zeitpunkte identifiziert. Wenn dim(,y)>dim(w)+dim(;y) gilt, so beeinflussen die externen Eingabegrößen u die Ausgabegrößen y nur indirekt an dem nächsten Zeitpunkt S . Wenn sτ e(-1,+I) gilt, so kann es nötig sein C=[c-/<i,θ] zu verwenden, um die Aufgabegrößen zu skalieren. Adaptive Parameter sind nur in der Matrix A enthalten, welche als schwach besetzte Matrix gewählt werden kann. Analoge Überlegungen lassen sich zu den Ausführungsformen in den Fig. 11 bis 22 anstellen.
Figur Ic zeigt die aus Figur Ib entwickelte weiter verbesser¬ te Struktur, ein so genanntes "Dynamical Consistent Recurrent Neural Network" (DCRNN) .
Das dargestellte DCRNN ist entsprechend vorheriger Strukturen ein über die 5 Zeitpunkte t-2, t-1, t, t+1 und t+2 entwickel¬ tes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Ein¬ gangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Mat-
T rizen [Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte ent- falteten versteckten Schichten St-2? st-l' st' st+l unc* st+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Ferner weist das DCRNN zwei Rechenschichten "tanh" auf, welche in dargestellter Weise mit jeweils zwei aufeinander fol¬ genden versteckten Schichten, in diesem Fall st und st+i bzw.
Sj+1 und st+2, verbunden sind.
Der für die Vergangenheit zuständige Teil des Netzes wird durch alle Eingabegrößen angeregt. Durch die Ausgestaltung der Ausgabe liegen Prognosen für alle Eingabegrößen vor, wodurch es möglich wird, diese Prognosen dem Netz als zukünfti- ge Eingabegrößen zuzuführen. Da es sich um mehrere Prognosen handelt, ist dieses Vorgehen nur in großen Netzen möglich. In
dieser Ausgestaltung erfüllt die Matrix A immer den gleichen Zweck: sie moduliert die Dynamik.
In den Figuren 2a, 2b und 2c ist - entsprechend zum DCRNN bzw. RNN und den Figuren Ia, b und Ic - die Entwicklung eines DCECRNN aus einem ECRNN gemäß dem Stand der Technik dargestellt (Ia: zwei Alternativen des bekannten ECRNN; Ib: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; Ic: DCECRNN) .
Figur 2a, Alternative 1 (Forward Formulation) und Alternative 2 (Backward Formulation) zeigt zwei bekannte, alternative neuronale Strukturen gemäß einem über 4 Zeitpunkte t-1, t, t+1, t+2 entfalteten ECRNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt:
t) . Für Alternative 2 gilt: s
t =
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
Figur 2b zeigt eine verbesserte Struktur, ein so genanntes "Large Error Correction Recurrent Neural Network" (LECRNN) , welches aus den alternativen Strukturen aus Figur 2a entwickelbar ist.
So werden im Übergang der Strukturen aus Figur 2a zu der Struktur aus Figur 2b die ursprünglichen vier anpassbaren Verbindungsmatrizen A, B, C und D durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s in unmittelbarer Weise wie auch im Fall der Zeitpunkte t und t+1 in mittelbarer Weise. Hierbei ist nach Durchführung der Zeittransformation von t auf t+1 ein innerer Zustand Id (t+1) zwischengeschaltet, welcher nachfol-
gend durch eine Matrix, einer Konsistenzmatrix, welche eine Identitätsmatrix Id beinhaltet, auf den Zustand s (t+1) trans¬ formiert wird. Die Zeittransformation allerdings wurde aber bereits mit der Transformation durch die Matrix A im ersten Schritt durchgeführt, so dass der Zustand Id (t+1) schon dem nächsten Zeitschritt t+1 gegenüber t zugehörig ist.
Die Zeittransformationsmatrix A weist alleinig anpassbare Parameter auf, die im Training der Struktur einstellbar sind.
Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und
D sind in Figur 2b angegeben. Die sich dabei ergebenden neuen
T
Verbindungsmatrizen [Id, 0] bzw. [-Id, 0] weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in Figur 2b gezeigte Struktur gilt st = f\st_ι,ut ,yt —yt J und yt = [ld,θ]st . Durch Wahl der Matrix C mit
C=
werden die Ausgabegrößen mit den Ver
¬ steckten Schichten s für die ersten Zeitpunkte identifiziert. Im Gegensatz zum RNN wird hier die Anpassung zur Skalierung der Ausgabe intern vorgenommen. Durch Wahl der Matrix B mit
e9ϊ(dim(s)xdim(u)-l-dim(_y)) wird die Verarbeitung der Eingabe zu einem Teil der Matrix A. Eine Fehlerkorrektur ist implizit in dieser Struktur realisiert durch die Interaktion der spezialisierten Matrixen A, B und C sowie durch das Training der Zero-Neuronen mit dem Ziel z
t —>0. Für die Zukunft ist keine Fehlerkorrektur verfügbar, weshalb die Fehlerkorrektur gefiltert wird. Der zwischengeschaltete Filter setzt die Annahme um, dass die Prognosen richtig sind (Fehler = 0) .
Figur 2c zeigt die aus Figur 2b entwickelte, weiter verbes¬ serte Struktur, ein so genanntes "Dynamical Consistent Error Correction Recurrent Neural Network" (DCECRNN) .
Das dargestellte DCECRNN ist entsprechend vorheriger Struktu¬ ren ein über die 4 Zeitpunkte t-1, t, t+1 und t+2 entwickel¬ tes RNN. Es weist eine Eingangschicht mit drei Eingangsteil-
schichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Mat-
T rizen [-Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte ent- falteten versteckten Schichten St-2? st-l' st' st+l unc* st+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z-^-i und Z^ mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)t+l? (y, u)t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwi¬ schenschichten Idt+i und Idt+2 •
Für die in Figur 2c gezeigte Struktur gilt st =f\st-\,ut —uf,yt -yfJ und (^J= [W,θ]sr . In dieser Struktur fin¬ det eine Erweiterung gemäß dim(z)=dim(;y)-l-dim(w) statt. Die Konsistenzmatrix hat die gleiche Anzahl an Nullen in der ersten Hälfte ihrer Diagonale. Dadurch wird eine dynamisch konsi¬ stente Modellierung aller Eingabevariablen erreicht . In die- ser Ausführung erfüllt die Matrix A immer den gleichen Zweck: sie modelliert die Dynamik. Eine Besonderheit dieser Struktur besteht darin, dass das Netz intern von den vorgegebenen Eingabegrößen abweichen kann - dies ist eine rekurrente Umset¬ zung des "Cleaning"-Prinzips .
In den Figuren 3a und 3b sind das DCRNN (Fig.3a) und das DCECRNN (Fig.3b) mit jeweils einer gekennzeichneten erfindungsgemäßen Grundstruktur dargestellt.
Die Grundstruktur umfasst in beiden Fällen die Eingangschicht (y, u) t i welche mit der versteckten Schicht St verbunden ist, sowie die Ausgangsschicht (y, u)t+i? welche mit der ver¬ steckten Schicht s-£ bzw. versteckten Zwischenschicht Id-^+i verbunden ist.
Die beiden versteckten Schichten sind über die Verbindungsmatrix A, welche insbesondere geeignet ist die innere Dynamik des modellierten Systems zu beschreiben und welche die Zeit¬ transformation vom Zeitpunkt t auf den Zeitpunkt t+1 aus- führt, verbunden.
RNNs beschreiben die fragliche Dynamik auf Grundlage der be¬ obachtbaren Variablen und eignen sich somit besonders gut für eine Dynamik mit glattem Verlauf.
ECNNs beschreiben eine Dynamik durch eine interne Erwartung und die Abweichung zu den beobachtbaren Variablen. Sie eignen sich besonders gut für Dynamiken für einen unruhigen Verlauf. Beide Ansätze sind dynamisch konsistent. Es stellt sich die Aufgabe, eine Struktur zu finden, welche beide Aspekte ver¬ eint .
In Figur 4 ist eine Weiterentwicklung des DCRNN und des DCECRNN, ein so genanntes "Dynamical Consistent Neural Net- work" (DCNN), dargestellt.
Das dargestellte DCNN ist ein über die 5 Zeitpunkte t-2, t- l,t, t+1 und t+2 entwickeltes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Ein-
gangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
T Diese Eingangsteilschichten sind über Matrizen [-Id, 0, Id] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte ent¬ falteten versteckten Schichten St-2? st-l' st' I(^t+1' st+l und Idt+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z^-i und z-£ mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)t+l? (Yr u)t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwi¬ schenschichten Idt+i und Idt+2 •
Die Verbindungen zwischen den versteckten Schichten entsprechen im wesentlichen denen aus Figur 3b. Allerdings ist die Konsistenzmatrix zwischen den versteckten Schichten Idt+i und st+2 wie in Figur 4 angegeben verändert .
Die in Figur 4 gezeigte Struktur vereint die beiden Arten der Prognose, die den Figuren 3a und 3b zugrunde liegen und die entsprechend für RNNs und ECNNs angesprochen wurden. Die Ein¬ gabegrößen werden den versteckten Schichten s mit den ersten Zeitpunkten zur Durchführung der Fehlerkorrektur zugeführt. Sie werden ebenfalls den versteckten Schichten s mit den letzten Zeitpunkten zugeführt, um die Rolle regulärer Einga- begrößen zu übernehmen, wie dies in einem RNN stattfindet. Die Konsistenzmatrix garantiert dynamische Konsistenz für
beide Strukturen. Die den versteckten Schichten s (in der Zukunft der versteckten Zwischenschicht Id) vorgeschalteten, durch einen Pfeil angezeigten Verbindungen regeln alle Offsets .
Weiterführende Struktur-Ausführungsbeispiele: "DCNN mit modi¬ fizierter Consistency Matrix" (Fig.9), "DCNN mit akkumulierten Ausgangsneuronen" (Fig.10)
In Figur 9 ist ein modifiziertes DCNN dargestellt, bei wel¬ chem verfügbare zukünftige Information, hier u t+1 und u t+2r beispielsweise bekannte Kalenderinformation, berücksichtigbar ist .
Diese modifizierte Struktur weist Änderungen (gegenüber dem DCNN) bei der Konsistenzmatrix auf.
Weiter weist die modifizierte Struktur zwei weitere Teilein¬ gangsschichten auf, (0,u t+l)und (0,u t+2) r welche mit den versteckten Zwischenschichten Id-^+i und Id-^+2 i-n obiger be¬ schriebener Weise verbunden sind.
Die zukünftigen Eingabevektoren enthalten Elemente mit der verfügbaren Information. Alle unbekannten Komponenten werden auf 0 gesetzt. Die Matrizen, welche die Eingangsteilschichten mit den jeweils zeitpunktgleichen versteckten Schichten s verbinden, sind unveränderlich und für alle Zeitpunkte gleich.
Aus Figur 9 geht hervor, dass die geänderte Konsistenzmatrix Teilmatrixen D aufweist. Für diese Diagonalen Teilmatrixen
In Figur 10 ist ein weiteres modifiziertes DCNN dargestellt, bei welchem die Ausgangsschichten miteinander verbunden sind, wodurch die Ausgangsgrößen akkumulierbar sind.
Um längerfristige Prognosen durchführen zu können ist das in Figur 10 dargestellte modifizierte DCNN über die Zeitpunkt t- 1 bis t+4 entfaltet.
Diese modifizierte Struktur weist insgesamt vier Ausgang¬ schichten auf, die über die Identitätsmatrix Id miteinander wie dargestellt verbunden sind.
An den Ausgangsschichten, die wie obig beschrieben über die Verbindungsmatrizen [Id, 0] mit den zugehörigen versteckten Schichten verbunden sind, sind Zustände In (y^+i/yt) ^ ln (Yt+2/Yt)' ln (Yt+3/Yt) und ln (Yt+4/Yt) abgreifbar.
Ferner weist diese Struktur zwei Eingangsschichten auf, an welchen die Zustände (u t-l?ln(Y t-l/Y t-2)) unc* (u t,ln(y t/y t-l) ) anlegbar sind.
Die in Figur 10 gezeigte Struktur verzichtet darauf, Lang- zeitprognosen durch wiederholte Bündel von Verbindungen zu unterstützen. Statt dessen wurde eine unveränderliche Identi¬ tät zwischen den unterschiedlichen Prognose-Horizonten hinzugefügt .
Im Folgenden wird die Weiterentwicklung der oben beschriebenen dynamisch konsistenten rekurrenten neuronalen Netze anhand der Fig. 11 bis 23 beschrieben. Es sei an dieser Stelle darauf hingewiesen, dass Prinzipien oder Elemente einzelner Ausführungsformen, welche oben beschrieben wurden, mit EIe- menten oder Ausführungsformen, wie sie im Folgenden beschrieben werden, kombinierbar sind. Ebenso sind Elemente einzelner im Folgenden beschriebenen Ausführungsformen miteinander kombinierbar. Insbesondere lassen sich auch oben genannte Vorteile in analoger Art auf die folgenden Ausführungsformen ü- bertragen.
Fig. IIa zeigt eine ähnliche Weiterbildung wie Fig. Ib von der neuronalen Struktur aus Fig. Ia. Dabei sind jedoch die Raumtransformationen von Eingaberechenelementen zu der Eingangsschicht zu Zustandsrechenelementen der versteckten Schicht gemäß oben definierter Gleichung (7) festgelegt. Ferner ist die Raumtransformation von Zustandsrechenelementen der versteckten Schicht zu Ausgaberechenelementen der Ausgabeschicht gemäß der oben definierten Gleichung (8) festgelegt. Dadurch werden die Ausgänge des neuronalen Netzes je- weils mit den ersten Zustandsvariablen des Zustandsvektors st identifiziert. Somit werden alle Parameter bei dem Back Pro- pagation (Lernalgorithmus zum Training des neuronalen Netzes) gleich behandelt. Die oberen oder ersten Elemente des Zu¬ standsvektors st entsprechen jeweils den Ausgabewerten, die von den Ausgaberechenelementen yt ausgegeben werden.
In Gleichung (7) und (8) bezeichnet "Id" eine Identitätsab¬ bildung bzw. Identitätsmatrix. Die Dimension der Identitätsmatrix in Gleichung (7) entspricht dabei der Dimension des Eingangsvektors ut. Die Dimension der Identitätsmatrix in Gleichung (8) entspricht der Dimension des Ausgabevektors bzw. Ausgangsvektors bzw. der Dimension der Ausgaberechenele¬ mente yt.
Mit ut werden in Fig. IIa Einflussgrößen gekennzeichnet und mit yt Zielgrößen. yt kennzeichnet beobachtbare Werte bzw.
"Beobachtbare" (observables) . In Fig. IIb sind in y|* die be¬ obachtbaren Größen zusammengefasst, das heißt die bekannten Einflussgrößen und die bekannten Zielgrößen (Trainingswerte) . An den Ausgangsneuronen bzw. Ausgaberechenelementen yt werden die Erwartungswerte bzw. Vorhersagen für die Zielgrößen und/oder Einflussgrößen ausgegeben.
Die folgenden Gleichungen (9) bis (11) beschreiben die Netz- werkarchitektur aus Fig. IIa:
t > 0 : s t = tanh( As t_x + c) :io)
yt=[ld 0 θ]st,min∑(yt-y?) :ii)
Das folgende Gleichungssystem (12) bis (14) beschreibt die Netzwerkarchitektur aus Fig. IIb:
t<0: s
f =tanh As
1-1 + c :i2)
vld
/
t > 0 : s t = tanh( As t_λ + c) :i3)
yt=[ld 0 θ]st,m Ai,cn∑(yt-y?) :i4)
Fig. 12 zeigt eine erste Eingabeneuronenschicht El als erstes Eingaberechenelement, eine zweite Eingabeneuronenschicht E2 als zweites Eingaberechenelement, eine erste Zustandsneuro- nenschicht Zl als erstes Zustandsrechenelement, eine zweite
Zustandsneuronenschicht Z2 als zweites Zustandsrechenelement, eine dritte Zustandsneuronenschicht Z3 als drittes Zustands¬ rechenelement und erste bis dritte Ausgabeneuronenschichten Al, A2 bzw. A3. Dabei bildet die dritte Ausgabeneuronen- schicht A3 das dritte Zustandsrechenelement im Sinne obiger Definition.
Dabei ist die zweite Zustandsneuronenschicht Z2 mit der ers¬ ten Zustandsneuronenschicht Zl über eine erste mittelbare Verbindung Z2-Z1 verbunden. Die erste Zustandsneuronenschicht Zl ist mit der dritten Zustandsneuronenschicht Z3 über eine zweite mittelbare Verbindung Z1-Z3 verbunden.
Dabei wird die erste mittelbare Verbindung Z2-Z1 durch eine Zeittransformation mittels der Matrix A und eine erste Konsistenztransformation C< gebildet. Die zweite mittelbare Ver¬ bindung Z1-Z3 wird durch die Zeittransformation mittels der Matrix A, im Folgenden bezeichnet als Zeittransformation A, und eine zweite Konsistenztransformation C> gebildet.
Bei der in Fig. 12 gezeigten Ausführungsform gilt:
Die erste mittelbare Verbindung Z2-Z1 für t<0 ist somit un¬ terschiedlich zu der zweiten mittelbaren Verbindung Z1-Z3 für t>0. Durch die Wahl der Matrizen C< und C> wie in den Glei¬ chungen (15) und (16) angegeben, wird sichergestellt, dass die Rekursion in der Vergangenheit für t<0 und in der Zukunft für t>0 im gleichen Bereich bzw. der gleichen Partition des Zustandsvektors wirkt. Durch die unterschiedliche Wahl der Matrizen C< und C> ergibt sich insbesondere eine Vereinfa¬ chung der in Fig. Ic gezeigten Architektur. Wie man bei einem Vergleich der Fig. 12 und Ic erkennen kann, entfallen für t>0 zusätzliche Neuronenschichten (in Fig. Ic mit "tanh" ge¬ zeichnet) .
Der Zustandsvektor st ist gegeben durch Gleichung (5) .
Die Netzwerkarchitektur aus Fig. 12 kann durch das folgende Gleichungssystem beschrieben werden:
Id 0 θ\ t >0: s = 0 Id 0 IaIUi(As
1-1-I- c) :i8)
Id 0 0)
yt=[ld 0 0]st, min∑(yt-yt d) :i9)
Fig. 13 zeigt eine weitere Ausführungsform der Erfindung, bei der gegenüber der Ausführungsform in Fig. 12 eine Fehlerkorrektur gemäß dem Prinzip der fehlerkorrigierenden neuronalen Netze möglich ist. Dabei ist die erste Konsistenztransforma¬ tion C< wie folgt definiert:
Die zweite Konsistenztransformation C> ist wie folgt defi¬ niert :
Der Zustandsvektor st ist gegeben durch Gleichung (6) .
Die Netzwerkarchitektur gemäß der Ausführungsform von Fig. 13 kann durch folgendes Gleichungssystem beschrieben werden:
yt=[ld 0 0]st, min∑(yt-yt d) (24)
Bei der Ausführungsform aus Fig. 13 ist sichergestellt, dass die gebildete Rekursion sowohl in der Vergangenheit, das heißt für t<0, als auch in der Zukunft, das heißt für t>0 auf dem gleichen Bereich des Zustandsvektors st wirkt.
Die Fehlerkorrektur wird in Fig. 13 sichergestellt durch das untere linke Element in der Matrix C< "-Id" . Da im Zustands- vektor im unteren Bereich jeweils die Eingangswerte zum je- weiligen Zeitpunkt liegen, werden diese mit "-1" auf Grund der Matrix "-Id" (unteres linkes Element der Matrix C< mul¬ tipliziert. Wie Gleichung (22) zeigt, wird auf den unteren Bereich des Zustandsvektors st für t< die Eingangsgröße yt d addiert. Somit ergibt sich das Prinzip der Fehlerkorrektur.
Fig. 14 zeigt eine weitere Ausführungsform der Erfindung gemäß einem ersten Realisierungsbeispiel. Dabei ist ein dyna¬ misch konsistentes rekurrentes fehlerkorrigierendes neurona¬ les Netz gezeigt, das mit folgendem Gleichungssystem be- schrieben werden kann:
yt = [ld 0 0]st, min∑(yt -y?) ( 27 )
Die erste Konsistenztransformation C< ist gegeben durch Gleichung (15) und die zweite Konsistenztransformation C> ist ge- geben durch Gleichung (16) .
Bei der in Fig. 14 gezeigten Ausführungsform ist der Zu- standsvektor st gegeben durch Gleichung (5) .
Fig. 15 zeigt eine weitere Ausführungsform der Erfindung gemäß einem zweiten Realisierungsbeispiel. Bei dem zweiten Rea¬ lisierungsbeispiel handelt es sich um eine alternative Archi¬ tektur zu der Architektur des ersten Realisierungsbeispiels aus Fig. 14.
Die Architektur aus Fig. 15 kann beschrieben werden durch folgendes Gleichungssystem:
yt = [ld 0 θ]st, min∑(yt -y?) : 30 )
Der Zustandsvektor st ist bei der in Fig. 15 gezeigten Ausführungsform gegeben durch Gleichung (6) . Die erste Konsistenztransformation C< ist gegeben durch Gleichung (20) und die zweite Konsistenztransformation C> ist gegeben durch Gleichung (21) .
Bei den jeweils gezeigten Architekturen ist zu beachten, dass die Berechnung eines Folgezustandes des Systems jeweils von den durch den Zustandsvektor st gegebenen Größen abhängt. Dabei ist die Abhängigkeit für Zeitpunkte für die t<0 gilt un¬ terschiedlich als für Zeitpunkte für die t>0 gilt. Dies er¬ gibt sich auch anhand der Gleichungen (5) und (6) . Für t<0 werden im unteren Bereich des Zustandsvektors st gemäß Glei- chung (5) Beobachtungswerte bzw. Observations und gemäß Glei¬ chung (6) Fehlerkorrekturwerte bzw. Error Correction Werte verwendet. Für t>0 werden in Gleichung (5) im unteren Bereich Erwartungswerte bzw. Expectations verwendet und gemäß Glei-
chung (6) Null bzw. Zero (vgl. geschweifte Klammer in Glei¬ chungen (5) und (6)) .
Fig. 16 zeigt eine allgemeine Struktur gemäß der vorliegenden Erfindung. Die gezeigte Struktur in Fig. 16 kann mit folgenden Gleichungssystem beschrieben werden:
Bei der Struktur bzw. Architektur in Fig. 16 ist die erste Konsistenztransformation C< gegeben durch Gleichung (15) und die zweite Konsistenztransformation C> durch Gleichung (16) .
Bei den Ausführungsformen der Fig. 14, 15 und 16 wird die erste Konsistenztransformation und zweite Konsistenztransfor¬ mation durch je zwei Konsistenztransformationskomponenten ge¬ bildet.
Die erste mittelbare Verbindung Z2-Z1 und die zweite mittel¬ bare Verbindung Z1-Z3 bestehen somit jeweils aus drei Trans- formationen. Zunächst erfolgt jeweils eine Transformation mit einer Matrix C und anschließend die Zeittransformation mit der Matrix A. Darauf folgt für t<0 eine Transformation mit der Matrix C< und für t>0 eine Transformation mit der Matrix C> . Die Matrix C< und die Matrix C> sind dabei unterschiedlich und je nach Ausführungsform wie oben angegeben definiert.
Je nach Ausführungsform verändert sich die Matrix C. Für die Ausführungsformen in den Fig. 14 und 16 ist die Matrix C gegeben durch:
Für die Ausführungsform aus Fig. 15 ist die Matrix C gegeben durch:
Bei der Matrix C handelt es sich um die erste Konsistenz¬ transformationskomponente im Sinne der Erfindung und C< bzw. C> bildet jeweils die zweite Konsistenztransformationskompo- nente. Bei dem erfindungsgemäßen Verfahren ist mittels der Matrix C der erste Konsistenztransformationsschritt durch¬ führbar und mittels der Matrix C< bzw. C> jeweils der zweite Konsistenztransformationsschritt .
Fig. 17 zeigt eine weitere Ausführungsform der Erfindung, bei der die erste und zweite Konsistenztransformation jeweils ge¬ bildet wird durch eine Matrix CE. Die Matrix CE ist gegeben durch folgende Gleichung:
Die Architektur aus Fig. 17 lässt sich somit mittels folgen
¬ dem Gleichungssystem beschreiben:
yt = [ld 0 θ]st, min^(yt - y?)2 , wobei gilt : 38 )
In Fig. 17 wird somit zwischen der Vergangenheit (t≤O) und der Zukunft (t>0) nicht mehr unterschieden. Statt dessen wird modelliert, ob ein Eingang bzw. Eingangswert vorhanden ist oder nicht. Die Transformation mit der Matrix C in Fig. 17 ist definiert durch Gleichung (35) . Das heißt, der erste Teil der Konsistenztransformation, gebildet durch die erste Konsistenztransformationskomponente C ist unabhängig von dem Vorhandensein bzw. Vorliegen eines Eingangs. Dagegen ist die zweite Konsistenztransformationskomponente, im Falle der Aus¬ führungsform von Fig. 17 gegeben durch die Matrix CE, abhängig vom Vorliegen eines Eingangswerts und damit im Allgemei¬ nen für jeden Zeitpunkt unterschiedlich.
Fig. 18 zeigt eine Ausführungsform der Erfindung, mit einem Startzustand S die Initialisierung des Startzustands S er¬ folgt dabei so, dass die Interpretation der Zustandsrekursion über der Zeit konsistent ist. Das Prinzip des Zustandsinitia- lisierungsverfahrens ist für alle Typen bzw. Arten von dyna- misch konsistenten neuronalen Netzwerken identisch.
Die Architektur in Fig. 18 kann beschrieben werden durch folgendes Gleichungssystem:
yt = [ld 0 θ]st, min∑(yt - y?) : 4 i )
Fig. 19a zeigt eine Ausführungsform, bei der der Startzustand S unter Verwendung von Rauschen erzeugt wird. Durch das Rauschen werden die in Fig. 19b gezeigten Trajektorien in Form von Röhren erzeugt. Die Matrix A wird dabei so trainiert, dass die Unsicherheit des Start- bzw. Initialzustands über die Zeit herausgefiltert wird. Endliche Volumentrajektorien wirken als eine Regularisierung und Stabilisierung der Dynamik des Systems.
Fig. 20 zeigt ein Ausführungsbeispiel der Erfindung, bei wel¬ chem dem System Rauschen in Zustandsneuronenschichten bzw. Zustandsrechenelementen zugefügt wird, welche Zeitpunkte rep¬ räsentieren, für die t>0 gilt. Die Architektur in Fig. 20 ist vorteilhaft, da für die Vergangenheit, das heißt für t<0, der Einfluss von unbekannten externen Größen durch den Fehlerkorrekturmechanismus modelliert wird. In der Zukunft wird die Dynamik des Systems gegenüber der Unsicherheit der Umwelt durch das hinzugefügte Rauschen stabilisiert. Für eine deter- ministische Vorhersage wird die Anwendung von Rauschen ausge¬ lassen.
Fig. 21 zeigt ein Beispiel zur Bestimmung der Dimension des Zustandsvektors st. In dem Beispiel von Fig. 21 sind drei Zu- standsneuronenschichten vorhanden, so dass sich eine Gedächtnislänge μ von 3 ergibt, das heißt es gilt μ=3. Allgemein ist die Gedächtnislänge μ bestimmt durch die Fehler entlang des Entfaltens (unfolding) .
Eine maximale Konnektivität con ist gegeben durch die Dimen¬ sion des Zustandsvektors st einer vollständig vernetzten Mat¬ rix A.
Es gilt somit con=dim(s) , wobei die Dimension dim(s) von st als Schätzung bestimmt wird. Sie kann auch während des Trai¬ nings oder Prunings (Ausdünnen) des Netzes gemessen werden.
Anstatt der Optimierung des Spärlichkeitsniveaus bzw. Sparse- Niveaus der Matrix A wird das dynamische System neu festge¬ legt durch Vergrößern der Dimensionalität . Die neue Dimension für die Zustandsvektoren ergibt sich mittels folgender Glei- chung:
dim(snew) =μ-con (42)
Dabei wird die neue Matrix Aneu mittels folgender Gleichung initialisiert:
Das Vergrößern der Dimension überwindet das Dilemma zwischen Gedächtnis und Rechenleistung, da das resultierende große Netz beide Merkmale kombinieren kann.
Die Fig. 22a bis 22c zeigen Simulationsergebnisse hinsicht¬ lich der Optimierung der Dimension der Zustandsvektoren. Da- bei gelten folgende Test- bzw. Trainingsbedingungen:
st =tanh(A-st_μ)+εt (44)
mit : dim(s) = con = 5, μ = 3, εt = noise 20 % ( 45 )
Anwendungs-Ausführungsbeispiele: "Prognose eines Wechselkurs¬ verlaufes (US-$/Brit. Pfund)" (Fig. 23a), "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/-entwicklung" (Fig. 23b), "Prognose einer Stromlastentwicklung" (Fig. 23c)
In den Figuren 23a, 23b und 23c sind Beispiele für die Anwen¬ dung der erfindungsgemäßen neuronalen Strukturen und deren Ergebnisse angegeben. Es ist darauf hinzuweisen, dass die an¬ gegebene Beispiele nicht einschränkend zu verstehen sind. Die Erfindung kann unbeschränkt dort eingesetzt werden, wo dyna¬ mische System beschrieben werden sollen, beispielsweise zu einer Prognose.
Die Beispiele wurden mit dem Programm SENN, Version 2.3 durchgeführt .
Figur 23a zeigt ein DCNN mit akkumulierten Ausgängen (s. Struktur Figur 23) für eine "Prognose eines Wechselkursverlaufes (US-$/Brit. Pfund) . Figur 23b zeigt ein DCNN für eine "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/- entwicklung" . Figur 23c zeigt ein DCNN für eine "Prognose einer Stromlastentwicklung" .
Dargestellt sind in den Figuren 23a, 23b und 23c jeweils die verwendete neuronale Struktur sowie Zeitverläufe der jeweili¬ gen Prognosegröße.
Es sei noch angemerkt, dass sämtliche beschriebenen Ausfüh¬ rungsformen sowohl gemäß dem oben beschriebenen Forward- als auch gemäß dem Backward-Approach realisierbar sind.
Im folgenden werden Aspekte und Vorteile der Erfindung noch einmal zusammengefasst :
Konventionelle Prognoseverfahren gehen davon aus, dass die Umweltbedingungen des zu beschreibenden Systems in der Zu- kunft konstant bleiben. Diese Prämisse ist gerade in der heu¬ tigen Zeit durch Fortschritte im Bereich der Informations¬ und Kommunikationstechnologie bei der Modellierung von offe¬ nen technischen oder ökonomischen dynamischen Systemen immer fragwürdiger und führt zu schlechten Prognosen. Eine Model- lierung die dieser Tatsache Rechnung trägt führt zu großen rekurrenten neuronalen Netzwerken. Um Instabilitäten in der Modellierung zu vermeiden, ist auf räumliche und zeitliche Konsistenz zu achten, d. h., die einzelnen beschreibenden Variablen müssen in Vergangenheit, Gegenwart und Zukunft stets die gleiche Bedeutung haben.
Bisher wurde in der Zeitreihenanalyse bei der Prognose die Annahme einer konstanten Umwelt unterstellt.
In obiger Beschreibung wurden mehrere Architekturen von neu- ronalen Netzen vorgestellt, die die oben genannten Kriterien erfüllen. Der konsistente Informationsfluss wird durch die so genannten Konsistenzmatrizen erreicht.
Die großen rekurrenten neuronal Netze (Netze mit periodischem Aufbau zu verschiedenen Zeitschritten) erlauben es, technische und ökonomische Zusammenhänge mit 400 Zustandsvariablen oder mehr zu beschreiben. So können nicht nur präzisere Analysen dynamischer Systeme durchgeführt werden, sondern es wird auch die Prognose der weiteren Systementwicklung verbes- sert .
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] S. Haykin, Neural Networks: A Comprehensive Foundation,
Prentice Hall, Second Edition, ISBN 0-13-273350-1, S. 732-789, 1999.
[2] David E. Rumelhart et al. , Parallel Distributed Process¬ ing, Explorations in the Microstructure of Cognition, Vol. 1: Foundations, A Bradford Book, The MIT Press, Cambridge, Massachusetts, London, England, 1987
[3] H. Rehkugler und H. G. Zimmermann, Neuronale Netze in der Ökonomie, Grundlagen und finanzwirtschaftliche Anwendungen, Verlag Franz Vahlen München, ISBN 3-8006-1871-0, S. 3-90, 1994.
[4] WO00/08599.
[5] WO00/55809 und WO02/27654.
[6] Zimmermann H.G., Neuneier R., Grothmann R., Modelling of Dynamic Systems by Error-Correction-Neural-Networks, in Soofe and Cao (Eds.), Forecasting Financial Data, Kluwer Verlag, ISBN 0792376803, 2002.
[7] DE 10356655.4