WO2006061320A2 - Verfahren und anordnung sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur ermittlung eines zukünftigen systemzustandes eines dynamischen systems - Google Patents

Verfahren und anordnung sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur ermittlung eines zukünftigen systemzustandes eines dynamischen systems Download PDF

Info

Publication number
WO2006061320A2
WO2006061320A2 PCT/EP2005/056132 EP2005056132W WO2006061320A2 WO 2006061320 A2 WO2006061320 A2 WO 2006061320A2 EP 2005056132 W EP2005056132 W EP 2005056132W WO 2006061320 A2 WO2006061320 A2 WO 2006061320A2
Authority
WO
WIPO (PCT)
Prior art keywords
state
transformation
time
space
variables
Prior art date
Application number
PCT/EP2005/056132
Other languages
English (en)
French (fr)
Other versions
WO2006061320A3 (de
Inventor
Hans-Georg Zimmermann
Ralph Grothmann
Christoph Tietz
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2006061320A2 publication Critical patent/WO2006061320A2/de
Publication of WO2006061320A3 publication Critical patent/WO2006061320A3/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Definitions

  • the invention relates to a neural arrangement, i. a network structure of a recurrent neural network, which is suitable for a prognosis of a state of a dynamic system, and a map which describes a system behavior of a dynamic system and is suitable for predicting a state of the dynamic system.
  • a neural structure for example a neural network, for the description and modeling of a dynamic system or a dynamic process and its process behavior .
  • a dynamic system or process is described by a state transition description not visible to an observer of the dynamic process and an output equation describing observable quantities of the engineering dynamic process.
  • the dynamic process 800 and a dynamic system 800, in which the dynamic process takes place, is subject to flow of an external input u predeterminable dimension to the input, wherein an input ut at time t with ut be ⁇ is characterized:
  • f (.) is a general mapping rule referred ⁇ net.
  • An output variable y- ( - observable by an observer of the dynamic system 800 depends on the input u and the internal state s ⁇ at a time t.
  • a neural structure of interconnected computing elements used in the form of a neural network of interconnected neurons.
  • the connections between the neurons of the neural network are weighted.
  • the weights of the neural network are summarized in a parameter vector v.
  • an internal state of a dynamic system which is subject to a dynamic process depends on the input u and the internal state of the preceding point in time s and the parameter vector v according to the following rule:
  • NN denotes an imaging specification given by the neural network.
  • the dynamic system can also be:
  • TDRNN Time Delay Neural Network RECUR rent
  • the known TDRNN is shown in FIG. 5 as a neural network 500 deployed over a finite number of times (represented 5 times: t-4, t-3, t-2, t-1, t).
  • the illustrated in Figure 5 neural network 500 has a one ⁇ junction layer 501 with five partial input layers 521, 522, 523, 524 and 525, each containing a predetermined number of inputs gangs computing elements to which input variables u - ⁇ - 4? ut-3, ut-2r u tl unc * Ut at predeterminable times t-4, t-3, t-2, t-1 and t, ie in the further described time series values with predetermined time steps, can be applied.
  • neurons of a first 531, a second 532, a third 533, a fourth 534 and a fifth 535 hidden layer are respectively connected to neurons of the first 521, the second 522, the third 523, the fourth 524 and the fifth 525 parts input layer ,
  • the connections between the first 531, the second 532, the third 533, the fourth 534, and the fifth 535 hidden layer each having the first 521, the second 522, the third 523, the fourth 524, and the fifth 525 part input layers are the same.
  • the weights of all Verbin ⁇ are compounds each hold in a first connection matrix B] _ corresponds.
  • the neurons of the first hidden layer 531 are connected with their outputs to inputs of neurons of the second hidden layer 532 according to a structure given by a second connection matrix A ] _.
  • the neurons of the second hidden layer 532 are with their outputs with inputs of neurons of the third hidden layer 533 according to a structure given by the second connection matrix A ] _.
  • the neurons of the third hidden layer 533 with their outputs to inputs of neuro ⁇ NEN the fourth hidden layer 534 according to a given through the second connection matrix A] _ structure connected.
  • the neurons of the fourth hidden layer 534 are connected at their outputs to inputs of neurons of the fifth hidden layer 535 according to a structure given by the second connection matrix A ] _.
  • the first hidden layer 531, the second hidden layer 532, the third hidden layer 533, the fourth hidden layer 534, and the fifth hidden layer 535 "inner” states or "inner” system states st-4, s t-3 ' s t-2' s tl 'and S ⁇ of a dynamic process described by TDRNN at five consecutive times t-4, t-3, t-2, t-1 and t.
  • the indications in the indices in the respective layers indicate in each case the time t-4, t-3, t-2, t-1 and t, to which in each case the signals which can be tapped or supplied at the outputs of the respective layer relate ( u-
  • An output layer 520 has five sub-output layers or output rake elements, a first sub-output layer 541, a second sub-output layer 542, a third sub- output layer 543, a fourth sub-output layer 544 and a fifth sub-output layer 545.
  • Neurons of the first sub-output layer 541 are connected to neurons of the first hidden layer 531 according to a structure given by an output connection matrix C - ⁇ _.
  • Neurons of the second sub-output layer 542 are also connected to neurons of the second hidden layer 532 according to the structure given by the output connection matrix C ] _.
  • Neurons of the third sub-output layer 543 are according to the Output connection matrix C ] _ connected to neurons of the third hidden layer 533.
  • Neurons of the fourth sub-output layer 544 are connected to neurons of the fourth hidden layer 534 according to the output connection matrix C ] _.
  • Neurons of the fifth sub-output layer 545 are connected to neurons of the fifth hidden layer 535 according to the output connection matrix C - ⁇ _.
  • the output variables can be tapped for a respective instant t-4, t-3, t-2, t-1, t ( y t -4 'Yt-3 'Yt-2' Yt-I 'Yt ) -
  • Time Delay Recurrent Neural Net ⁇ work (TDRNN) arrangement is phase in a training exercises such that an input variable ut per ⁇ wells a target value y ⁇ at a real dynamic system is determined.
  • the tuple input variable, determined Zielgrö ⁇ SSE
  • a variety of such training data form a training record.
  • the training data set is used to train the TDRNN.
  • An overview of various training methods can also be found in [1] and [4].
  • T is a number of considered times.
  • TDRNN Time Delay Recurrent Neural Network
  • Fig. Ia shows a basic structure which is the known [5] be ⁇ further developments based.
  • the basic structure is a neural network deployed over three times t, t + 1, t + 2.
  • It comprises an input layer, which contains a predeterminable An ⁇ plurality of input neurons to which input variables ut at predeterminable points in time t, that is, in the further described time series values with predetermined time steps can be applied.
  • the input neurons are connected via variable connections to neurons of a predefined number of hidden layers (represented by 5 hidden layers).
  • neurons of a first hidden layer which the system state at time t + 1 writes be ⁇ or represents, with neurons of the first ⁇ A transition layer connected.
  • connection between the first hidden layer and the first input layer has weights contained in a first connection matrix B.
  • the neurons of the first hidden layer are connected with their outputs to inputs of neurons of a second hidden layer, which describes or represents the system state at time t + 2, according to a structure given by a second connection matrix A.
  • the indications in the indices in the respective layers indicate in each case the time t, t + 1, t + 2, to which in each case the signals which can be picked off or supplied at the outputs of the respective layer (u-) refer.
  • An output layer has two sub-output layers, a first sub-output layer for the time t + 1 and a second sub-output layer for the time t + 2.
  • Neurons of the first partial output layer are connected to neurons of the first hidden layer according to a structure given by an output connection matrix C.
  • Neurons of the second sub-output layer are also connected to neurons of the second hidden layer according to the structure given by the output connection matrix C.
  • the output variables can be tapped for a respective time t + 1, t + 2 (Yt + Ir Yt + 2 ).
  • ECRNN Error Correction Recurrent Neural Networks
  • TDRNN short RNN
  • ECRNN long RNN
  • the invention has for its object a, in particular ⁇ sondere neuronal, arrangement, ie, a network structure of a recurrent neural network, and a map which describes a system behavior of a dynamical system to indicate which temen especially in large networks or in Sys ⁇ with a variety of free parameters is suitable to predict a state of the dynamic system.
  • the arrangement for determining a future system state of a dynamic system is based on a basic structure of interconnected computational elements of a neural network, which computational elements each represent a state of the system and which links each represent a transformation that can be performed using transformation parameters between two states of the system.
  • the arrangement has at least one first input computation element, which state variables of the system become a first input computation element
  • Time can be supplied in a state space and at least a second input arithmetic element, which state variables of the system can be supplied to an earlier time in a state space, the earlier time is before the first time.
  • the input computation elements in the case of implementation in the form of a neural network, form the input layer or input neuron layer with input neurons of the neural network.
  • the arrangement has at least one first state computing element, which represents the system state at the first time in a transformation space, at least one second state computing element, which represents the system state at the earlier time in the transformation space and at least one third state computing element, which changes the system state to one at the first Timing the following later time represented in the transformation room.
  • first state and the first computing element entranc ⁇ berechenelement the first time and the second state associated with the computer element and the second input computing element the earlier timing.
  • a time transformation from a previous to a subsequent point in time is feasible.
  • a connection matrix A where split or combined weight values (shared weights) are used.
  • the arrangement further has at least one output computation element at which state variables of the system can be tapped in the state space at a later point in time. At the output computation elements, expectation values corresponding to values are output.
  • a state vector can be tapped or output from a state calculation element in which the upper elements or values of the vector are equal to the expected values.
  • the middle region of the state vector is formed by hidden state values, which represent hidden states at the respective time.
  • In the lower part of the state vector are observed values or expected values, as a function of the time of each ⁇ irri state vector.
  • For the state vector at the first point in time and at the earlier point in time there are observational values in the lower part of the state vector.
  • expectation values (expectations) are in the lower part of the state vector.
  • the lower part of the state vector is formed by error correction values or zero.
  • the first input rake element is linked to the first state rake element and the second input rake element is linked to the second state rake element , wherein a spatial transformation from the state space into the transformation space can be carried out by the links.
  • the output rake element is linked to the third state ⁇ computing element, wherein the linkage, a space transformation from the transformation space in the state space is feasible.
  • the state variables which can be supplied and tapped off from the arrangement in the state space each have both influencing variables and at least one influence influenced by the influencing variables
  • Target size of the dynamic system This is a wesentli ⁇ cher contrast to the above-described prior art, since the system to the input computing elements thus influencing variables, which were, for example, referred to in connection with the description of the prior art with U t, and Zielgrö ⁇ SEN or targets which above in connection with the prior art as y t have been supplied.
  • modeling does not differentiate between influencing variables and target variables, but only between observable values or variables and unobservable values or variables.
  • the observable values contain the influencing quantities u t and u, described in connection with the prior art Target values y t .
  • the observable values are identified by y t in the following description. It is ten to beach ⁇ , is that y t y t thus significantly from that of the write-in ⁇ Be of the prior art was used, separates lower.
  • the transformation parameters for performing the time transformation are variable, wherein in the case of realizing divided by a neural network weight values are used for the transfor ⁇ mationsparameter.
  • the link between two state calculation elements is an indirect link, which comprises at least one consistency transformation and the time transformation.
  • the indirect link between the computing element and the second state to the first state and the computing element nent with ⁇ link between the first state computing element and the third computing element state are different ⁇ Lich. Due to the different choice of indirect link, the different lower range of the state vector s t results in equations (5) and (6). That is, depending on the choice of indirect linkage, the lower region in equation (5) contains either the observation values or the expected values. In equation (6), the state vector s of indirect linking t depending on the choice, the error correction values or zero.
  • Id is an identity matrix
  • a portion of the compute elements are advantageously at least artificially ⁇ Liche neurons. That is, the arrangement can be implemented advantageously with a neural network, the input ruler elements corresponding to input neurons or layers, the state raster elements to hidden neurons or layers, and the output rake elements to output neurons or layers.
  • the indirect link corresponds, for example, to the transformation by the matrices A and C ⁇ for the indirect link between the second state computing element and the first state computing element.
  • the indirect link between the first state computing element and the third state computing element corresponds, for example, to the link through the matrices A and C > .
  • the indirect link can also be formed by three calculation steps, for example by a transformation with three Matrices C, A, C ⁇ or C, A, C > or by the Matrizenkombi ⁇ nation C, A, C E (see description of the figures).
  • the arrangement further input computing elements, moreWatchsre- chenimplantation and further output computing elements which wells each associated with ⁇ a given time, wherein each ⁇ wells an input computing element with a condition computing element and a condition computing element with a Ausgaberechen- element and in each case a Jardintransfor ⁇ mation is feasible, wherein a state computing element with the state computing element of the previous time and with the state computing element of the following time is ver ⁇ knopped and thereby each time transformation is feasible.
  • the indirect link between the second state computing element and the first state computing element connects the time transformation and a first consistency transformation. Further, the indirect linkage between the first state calculation Enele ⁇ connecting element and the third computing element the state Zeittransfor ⁇ mation and a second consistency transformation. The first consistency transformation and the second consistency transformation are different.
  • the first consistency transformation corresponds, for example, to the transformation with the matrix C ⁇ and the second consistency transformation corresponds to the transformation through the matrix C > .
  • the first consistency transformation corresponds to the transformation formed by the matrices C and C ⁇ and the second consistency transformation corresponds to the transformation formed by the matrices C and C > .
  • first consistency ⁇ transformation and having the second consistency transform a respective first consistency transform component, for example, formed by the matrix C, and a second consistency transform component, formed for example by the Mat ⁇ rix C ⁇ or C>, wherein the first consistency transformation component of the first texture transformation and the first texture transformation component of the second texture transformation, for example formed by the matrix C, are identical and / or invariable.
  • the second consistency transformation component of the first texture transformation for example formed by the matrix C ⁇
  • the second texture transformation component of the second texture transformation for example formed by the matrix C >
  • the state vector s t can thus be varied as indicated above, depending on the matrices C ⁇ (second consistency transformation component of the first texture transformation) and the matrix C > (second texture transformation component of the second texture transformation ).
  • the second consistency transformation component of the first consistency transformation can be changed as a function of the state variables supplied to the system at an earlier point in time, and the second consistency transformation component of the second consistency transformation can be changed as a function of the state variables supplied to the system at the first time.
  • the second consistency transformation component of the first consistency transformation corresponds, for example, to the matrix C E.
  • the second consistency transformation component of the second consistency transformation also corresponds to the matrix C E.
  • the matrix C E is changed as a function of the input values at the respective time.
  • Such an identity mapping applied to state vectors causes only certain vector entries to be cut out of the vector as it were, and at the same time the vector can be adapted in its dimension.
  • the state computing element which represents the earliest time state can be initialized with a start state, wherein the start state using noise (noise) is bar ⁇ determined.
  • the start state using noise is bar ⁇ determined.
  • a matrix is trained, that the uncertainty of the start ⁇ state or initial state is filtered out over time.
  • Finite volume trajectories act as a regularization and stabilization of dynamics.
  • the system is also advantageous for later Rau ⁇ rule supplied. This is advantageous for the following reasons: in the past, the influence of unknown external variables is modeled or reproduced by the error correction values. In the future, the dyna ⁇ mix system is Siert against the uncertainty of the environment stabili ⁇ . For a deterministic prediction (forecast), the application or input of noise in the case of use of the trained neural network or the trained arrangement for future state-related elements is omitted. It may thus be advantageous to add noise during training of the device or the neural network to the state computing elements of the future, for example the third state computing element. The system thereby becomes "stiff" with respect to the input values. When applying the trained arrangement or the trained neural network, no noise is supplied to the state calculation elements of the future, ie state calculation elements for which t> 0 applies. Thus, a deterministic mean solution is calculated.
  • the arrangement also advantageously comprises a measuring arrangement for detecting physical signals with which states of the dynamic system can be described.
  • state variables of the system are subjected to a spatial transformation at a first time and at an earlier point in time which transforms the state variables from a state space into a transformation space, transformed into the transformers ⁇ tion space state variables of the earlier time point are subjected to a time transformation, which in the transform space transformed state variables from the previous time to the first time transformed, the transformed in the transform space state variables of the first point in time are subjected to a time transformation, which in transforming the transformation space transformed state variables from the first time to a subsequent to the first time later time, and it will be on the state variables transformed later on are subjected to a spatial transformation which transforms the state variables transformed to the later time from the transformation space into the state space, wherein the transformations are carried out using transformation parameters, the state variables transformed from the state space into the transformation space as well as
  • a first con ⁇ sistenztransformation and performed the time transformation and in the transformation of the state variables from the first to the later time, a second consistency ⁇ is transformation and implemented the time transformation.
  • first consistency transformation and the second consistency transformation are different.
  • first consistency transform ⁇ step in the first and second consistency transformation and a second consistency transformation step is performed, wherein the first consistency transform ⁇ step of the first consistency transformation and the first consistency transformation step of the second consistency transformation are identical, and that the second consistency transformation step of the first texture transformation and the second texture transformation step of the second texture transformation are different.
  • the first consistency transformation step is formed in each case by the mat rix ⁇ C.
  • the second texture transformation step of the first texture transformation is formed by the matrix C ⁇
  • the second texture transformation step of the second texture transformation is formed by the matrix C > .
  • the method is advantageously used to predict a future system behavior of the dynamic system such that the determined future system behavior is used as the prognosis.
  • the method in particular of a consumption of an amount of gas, or a price of energy, in particular a current price, or a macro- or mik ⁇ roökonomischen code or a control amount for control of the dynamic system is advantageously used for a prediction of power consumption.
  • the computer program comprises program code means for carrying out all steps and / or sub-sections carried out according to the method defined above when the program on a computer-ter or parts of the program on multiple computers out ⁇ leads is or are.
  • the computer program comprises the above-defined program code means which are stored on one or more computer-readable data carriers.
  • the computer program product has program code means stored on a machine-readable carrier in order to carry out all the steps and / or substeps of the method defined above when the program is executed on a computer.
  • measurement arrangements can be provided for the detection of physical signals. With these states of the dynamic system can be described. These are then - optionally after preprocessing - the arrangement and the method supplied as input.
  • Show it 1a, 1b and 1c are sketches describing the development of a DCRNN from an RNN according to the prior art (Ia: two alternatives of the known RNN; Ib: LRNN with the sole adaptable connection matrix A; Ic: DCRNN);
  • 3a and 3b are sketches of a DCRNN (Fig.3a) and a
  • Fig. 5 is a sketch of an arrangement of a TDRNN deployed with finitely many states over time according to the prior art
  • Fig. 7 is a sketch of a ECRNN with basic func tional relationships ⁇ according to the prior art
  • Fig. 8 is a sketch of a general description of a dynamic system
  • 9 shows a sketch of a modified DCNN with a modified "consistency matrix", in which known future information can be taken into account; 10 shows a sketch of a modified DCNN with accumulated output neurons;
  • Fig. IIa and IIb show the derivation of a neuronal
  • Fig. 12 shows a dynamically consistent recurrent neural network (DCRNN) with different ones
  • Fig. 13 shows a dynamic consistent réellekorrigie ⁇ rendes neural network (DCECNN) with different consistency transformations
  • Fig. 14 shows a dynamic consistent recurrent FEH ⁇ lerkorrigierendes neural network (DRECNN) according to a first implementation example
  • Fig. 15 shows a dynamic consistent recurrent FEH ⁇ lerkorrigierendes neural network (DCRECNN) according to a second implementation example
  • Fig. 16 shows a general structure of a dynamically-consistent neural network in accordance with the first implementation example
  • Fig. 17 shows a dynamically consistent neural network with partially known observable quantities
  • Fig. 18 shows a dynamic consistent neural network ⁇ factory with an initialized starting state
  • Fig. 19A shows the initialization with noise and Fig. 19B shows a tubular trajectory resulting from the initialization in Fig. 19A;
  • Fig. 20 shows a dynamically-consistent neural network in which noise is added to future state calculators
  • FIG. 21 illustrates how the dimension of the state calculation elements or state vectors can be dimensioned
  • Fig. 22 shows simulation results for dimensioning the state vector of Fig. 21;
  • Figs. 23a, 23b and 23c show sketches showing examples of
  • FIGS. 1a to 10 correspond to the figures of the same numbering from [7].
  • the structures and exemplary embodiments known from [7] will now be described first, followed by FIGS. 11 to 23.
  • FIG. 3 b "Dynamic Consistent Neural Networks (DCNN) (FIG.
  • FIGS. 1a, 1b and 1c The development of a DCRNN from an RNN according to the prior art is shown in FIGS. 1a, 1b and 1c (Ia: two alternatives of the known RNN, Ib: LRNN with the solely adaptable connection matrix A, Ic: DCRNN).
  • Figure Ia Alternative 1 (Forward Approach / Forward Formulati- on) and Alternative 2 (Backward Approach / Backward Formulati- on) shows two known alternative neural structures ge ⁇ Frankfurtss over 5 time points t-2, t-1, t, t + 1, t + 2 unfolded TDRNN and RNN, respectively, according to the prior art described above.
  • Figure Ib shows an improved structure, a so-called “Large Recurrent Neural Network” (LRNN) which is developable from the al ⁇ ternatives structures of Figure Ia.
  • LRNN Large Recurrent Neural Network
  • connection matrix A connects the inner layers or neurons s. This has only customizable parameters which can be set during training of the structure.
  • Connection matrices [Id, 0] or [Id, 0] have "non-customizable or not changeable in training" parameters.
  • Figure Ic shows the further Improvement ⁇ te structure developed from Figure Ib, a so-called “Dynamical Consistent Recurrent Neural Network” (DCRNN).
  • the DCRNN shown is in accordance with previous structures on the 5 time points t-2, t-1, t, t + 1 and t + 2 Evolving ⁇ tes RNN.
  • It comprises an input layer having three input sub-layers for the time points t-2, t-1 and t on to which the gear sizes A ⁇ y and u can be applied for the respective time points.
  • T rizen [Id, 0] connected to the respective same time hidden layers s.
  • the structure shows the hidden layers St-2 unfolded over the 5 times. s tl ' s t' s t + l unc * s t +2.
  • the DCRNN has two layers computing "tanh" which in constricting manner shown with two successive fol ⁇ hidden layers, in this case, s and t s t + i and
  • the matrix A always fulfills the same purpose: it modulates the dynamics.
  • FIGS. 2a, 2b and 2c show the development of a DCECRNN from an ECRNN according to the prior art (corresponding to the DCRNN or RNN and FIGS. 1a, b and 1c, respectively) (Ia: two alternatives of the known ECRNN, Ib: LECRNN) with the sole adaptable connection matrix A; Ic: DCECRNN).
  • Figure 2a Alternative 1 (Forward Formulation) and Alternative 2 (Backward Formulation) shows two known alternative neural structures according to an ECRNN deployed over 4 times t-1, t, t + 1, t + 2 according to the prior art described above.
  • FIG. 2b shows an improved structure, a so-called Large Error Correction Recurrent Neural Network (LECRNN), which can be developed from the alternative structures of FIG. 2a.
  • LCRNN Large Error Correction Recurrent Neural Network
  • This new connection matrix A indirectly connects the inner layers or neurons s in the same way as in the case of the times t and t + 1.
  • an internal state Id (t + 1) is interposed which succeeds through a matrix, a consistency matrix, which contains an identity matrix Id, on the state s (t + 1) is trans ⁇ formed.
  • the time transformation has already been carried out with the transformation by the matrix A in the first step, so that the state Id (t + 1) already belongs to the next time step t + 1 in relation to t.
  • the time transformation matrix A has only customizable parameters which can be set during training of the structure.
  • Connection matrices [Id, 0] or [-Id, 0] have "non-customizable or not changeable in training" parameters.
  • Figure 2c shows the developed from Figure 2b, further verbes ⁇ serte structure, a so-called “Dynamical Consistent Error Correction Recurrent Neural Network” (DCECRNN).
  • DCECRNN Dynamic Consistent Error Correction Recurrent Neural Network
  • the DCECRNN shown is in accordance with previous struc ⁇ ren a via the 4 time points t-1, t, t + 1 and t + 2 Evolving ⁇ tes RNN. It has an input layer with three input parts layers for the times t-2, t-1 and t, at which the input quantities y and u can be applied for the respective times.
  • T rizen [-Id, 0] associated with the respective same-time hidden layers s.
  • the structure shows the hidden layers St-2 unfolded over the 5 times. s tl ' s t' s t + l unc * s t + 2.
  • output partial layers are connected to the respective concurrent hidden layers s via the above-described matrices [Id, 0] in the case of the output partial layers z - ⁇ - i and Z ⁇ , in the case of the output partial layers (y, u) t + l ? (y, u) t + 2 w ith the respective point in time the same hidden Zvi ⁇ rule layers Idt + i and Idt + 2 •
  • FIGS. 3 a and 3 b the DCRNN (FIG. 3 a) and the DCECRNN (FIG. 3 b) are each shown with a marked basic structure according to the invention.
  • the basic structure in both cases includes the input layer (y, u) ti which is connected to the hidden layer St, as well as the output layer (y, u) t + i? which with the ver ⁇ inserted layer £ s- or hidden intermediate layer Id - ⁇ + i is connected.
  • connection matrix A which is particularly suitable to describe the internal dynamics of the modeled system, and what the time ⁇ transformation from time t + 1 to the time off leads connected.
  • RNNs describe the dynamics in question on the basis of observable variables be ⁇ and thus are particularly well suited for a dynamic with a smooth curve.
  • ECNNs describe dynamics through an internal expectation and deviation from observable variables. They are particularly well suited to dynamics for a restless course. Both approaches are dynamically consistent. This raises the problem of finding a structure that one both aspects ver ⁇ .
  • FIG. 4 shows a further development of the DCRNN and the DCECRNN, a so-called “Dynamic Consistent Neural Network” (DCNN).
  • DCNN Dynamic Consistent Neural Network
  • the illustrated DCNN is an RNN developed over the 5 times t-2, t-1, t, t + 1, and t + 2.
  • It has an input layer with three input sub-layers for the times t-2, t-1 and t, at which the inputs gangs y and u can be applied for the respective time points.
  • the structure exhibits the hidden layers St - 2 unfolded over the 5 times. s tl ' s t' I ( ⁇ t + 1 ' s t + l and Idt + 2).
  • the connections between the hidden layers essentially correspond to those of FIG. 3b. However, the consistency matrix between the hidden layers Idt + i and s t + 2 is changed as indicated in FIG.
  • the structure shown in Figure 4 combines the two types of prediction underlying Figures 3a and 3b, which were addressed respectively for RNNs and ECNNs.
  • the ⁇ A display sizes are hidden layers s supplied to the first points of time to perform the error correction. They are also fed to the hidden layers s with the last times to take on the role of regular input quantities, as happens in an RNN.
  • the consistency matrix guarantees dynamic consistency for both structures.
  • the connections preceding the hidden layers s (in the future the hidden intermediate layer Id), indicated by an arrow, control all offsets.
  • This modified structure has changes (compared to the DCNN) in the consistency matrix.
  • the future input vectors contain elements with the available information. All unknown components are set to 0.
  • the matrices which connect the input sublayers to the respective coincidental hidden slices s are immutable and the same for all times.
  • FIG. 9 shows that the modified consistency matrix has partial matrices D. For these diagonal sub-matrixes
  • FIG. 10 shows another modified DCNN in which the output layers are connected to each other, whereby the output quantities can be accumulated.
  • the modified DCNN shown in FIG. 10 is deployed over times t-1 to t + 4.
  • This modified structure has a total of four output ⁇ layers, which are connected to each other via the identity matrix Id as shown.
  • this structure has two input layers to which the states (u tl? L n (Y tl / Y t-2)) unc * (ut, ln (yt / y tl)) can be applied.
  • the structure shown in FIG. 10 omits to support long-term predictions by repeated bundles of connections. Instead, it was a steady identi ⁇ ty between the different forecasting horizons added.
  • FIGS. 11 to 23 the further development of the dynamic-consistent recurrent neural networks described above will be described with reference to FIGS. 11 to 23. It should be noted at this point that principles or elements of individual embodiments described above can be combined with elements or embodiments as described below. Likewise, elements of individual embodiments described below can be combined with one another. In particular, the abovementioned advantages can likewise be transferred analogously to the following embodiments.
  • Fig. IIa shows a similar development as Fig. Ib of the neural structure of Fig. Ia. However, the spatial transformations of input computation elements to the input layer to state computation elements of the hidden layer are defined according to equation (7) defined above.
  • the space transformation of state elements of the hidden layer to output rake elements of the output layer is determined according to the above-defined equation (8).
  • the outputs of the neural network are respectively identified with the first state variables of the state vector s t .
  • all parameters are treated equally in the back propagation (learning algorithm for training the neural network).
  • the upper or first elements of the state vector s to ⁇ t correspond to the output values y of the output computing elements t outputted.
  • equation (7) and (8) designates a Identticiansab ⁇ formation or identity matrix.
  • the dimension of the identity matrix in equation (7) corresponds to the dimension of the input vector u t .
  • the dimension of the identity matrix in equation (8) corresponds to the dimension of the output vector or output vector or the dimension of the output element elements y t .
  • y t denotes observable values
  • Observables In Fig. IIb are y
  • FIG. 12 shows a first input neuron layer E1 as a first input rake element, a second input neuron layer E2 as a second input rake element, a first state neuron layer Z1 as a first state rake element, a second one
  • State neuron layer Z2 as a second state computing element
  • a third state neuron layer Z3 as a third state ⁇ computing element and first to third output neuron layers Al, A2 and A3.
  • the third output neuron layer A3 forms the third state computing element in the sense of the above definition.
  • the second state neuron layer Z2 is connected to the th ers ⁇ state neuron layer Zl of a first indirect connection Z2-Z1.
  • the first state neuron layer Z1 is connected to the third state neuron layer Z3 via a second indirect connection Z1-Z3.
  • the first indirect connection Z2-Z1 is formed by a time transformation by means of the matrix A and a first consistency transformation C ⁇ .
  • the second indirect Ver ⁇ bond Z1-Z3 is formed by the time transforming means of the matrix A, hereinafter referred to as time transformation A, and a second transformation consistency C>.
  • the first indirect connection Z2 Z1 ⁇ 0 is thus un ⁇ differently to the second indirect connection Z1-Z3 for t> t for 0th
  • the matrices C 'and C> as deviations in the sliding ⁇ (15) and (16) indicated, ensures that the recursion in the past for t ⁇ 0 and in the future for t> 0 in the same area or The same partition of the state vector acts.
  • By selecting different matrices C 'and C> appears particularly a riverfa ⁇ chung of the architecture shown in Fig. Ic.
  • FIGS. 12 and Ic Ic in Fig. With "tanh" ge ⁇ features) accounts for t> 0 additional layers of neurons.
  • FIG. 13 shows a further embodiment of the invention in which, compared to the embodiment in FIG. 12, an error correction according to the principle of the error-correcting neural networks is possible.
  • the first consistency Transforma ⁇ tion C ⁇ is defined as follows:
  • the second consistency transformation C> is as defi ned ⁇ follows:
  • Fig. 14 shows another embodiment of the invention according to a first implementation example.
  • a dyna ⁇ mixing consistent recurrent error correcting neurona ⁇ les network is shown, which can be attributed Working with the following equations:
  • the first texture transformation C ⁇ is given by equation (15) and the second texture transformation C > is given by equation (16).
  • Fig. 15 shows another embodiment of the invention according to a second implementation example.
  • Rea ⁇ l Deutschensbeispiel is an alternative Archi ⁇ ture to the architecture of the first realization example of Fig. 14.
  • the state vector s t in the embodiment shown in FIG. 15 is given by equation (6).
  • the first texture transformation C ⁇ is given by equation (20) and the second texture transformation C > is given by equation (21).
  • Fig. 16 shows a general structure according to the present invention.
  • the structure shown in FIG. 16 can be described with the following equation system:
  • the first consistency transformation and second Konsistenztransfor ⁇ mation by two consistency transformation component ge ⁇ is formed.
  • the first indirect connection Z2-Z1 and the second medium ⁇ bare compound Z1-Z3 thus consist of three transport formations respectively.
  • a transformation takes place in each case with a matrix C and then the time transformation with the matrix A. This is followed for t ⁇ 0 a transformation with the matrix C ⁇ and t> 0, a transformation with the matrix C>.
  • the matrix C ⁇ and the matrix C > are different and depending on the embodiment as defined above. Depending on the embodiment, the matrix C changes. For the embodiments in FIGS. 14 and 16, the matrix C is given by:
  • the matrix C is given by:
  • the matrix C is the first consistency transformation component in the sense of the invention and C ⁇ or C > forms the second consistency transformation component in each case.
  • the first transformation step by consistency ⁇ is feasible by means of the matrix C and by means of the matrix C ⁇ or C> each of the second consistency transformation step.
  • Fig. 17 shows a further embodiment of the invention, wherein the first and second consistency transform each ge ⁇ forms is represented by a matrix C E.
  • the matrix C E is given by the following equation:
  • Fig. 17 therefore, no distinction is made between the past (t ⁇ O) and the future (t> 0). Instead, it is modeled whether an input or input value is present or not.
  • the transformation with the matrix C in Fig. 17 is defined by equation (35). That is, the first part of the texture transformation formed by the first texture transformation component C is independent of the presence of an input.
  • the second consistency transform component in the case of the off ⁇ guide die of Fig. 17 given by the matrix C E, depending on the presence of an input value and thus nen in ERAL ⁇ different for each time point.
  • Fig. 18 shows an embodiment of the invention, with a starting state S to initialize the starting state S it follows ⁇ out such that the interpretation of the Computing device's voice.
  • the principle of the state initialization method is identical for all types or types of dynamically consistent neural networks.
  • Fig. 19a shows an embodiment in which the start state S is generated by using noises.
  • the noise generates the trajectories shown in FIG. 19b in the form of tubes.
  • the matrix A is trained so that the uncertainty of the start or initial state is filtered out over time. Finite volume trajectories act as a regularization and stabilization of the dynamics of the system.
  • Is Fig. 20 shows an embodiment of the invention in wel ⁇ chem system noise in state neurons layers or condition computing elements added which points in time rep ⁇ räsentieren, applies for the t> 0,.
  • the architecture in Fig. 20 is advantageous because for the past, that is, for t ⁇ 0, the influence of unknown external quantities is modeled by the error correction mechanism. In the future, the dynamics of the system will be stabilized against the uncertainty of the environment by the added noise. For deterministic forecasts, the application will make noise out ⁇ .
  • Fig. 21 shows an example for determining the dimension of the state vector s t .
  • the memory length ⁇ is determined by the errors along the unfolding.
  • a maximum connectivity is con given by the dimen sion ⁇ t of the state vector s a fully crosslinked Mat ⁇ rix A.
  • the new matrix A is newly initialized using the equation:
  • FIGS. 22a to 22c show simulation results respect ⁇ Lich optimizing the dimension of the state vectors. The following test or training conditions apply:
  • Figure 23a shows a DCNN with accumulated outputs (see structure Figure 23) for a "Forecast of Exchange Rate (US $ / pound)."
  • Figure 23b shows a DCNN for a "Forecasting Cash Out or Pay-In Behavior / Development
  • FIG. 23c shows a DCNN for a "power load development forecast”.
  • the large recurrent neural networks allow to describe technical and economic relationships with 400 state variables or more. Not only can more precise analyzes of dynamic systems be carried out, but also the prognosis of further system development can be improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit miteinander verknüpften Rechenelementen eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren, bei welcher Anordnung die Verknüpfung zwischen zwei Zustandsrechenelementen eine mittelbare Verknüpfung (Z2-Z1, Z1-Z3) ist, welche wenigstens eine Konsistenztransformation (C≤, C>, C) und die Zeittransformation (A) umfasst, und bei welcher die mittelbare Verknüpfung (Z2-Z1) zwischen dem zweiten Zustandsrechenelement (Z2) und dem ersten Zustandsrechenelement (Z1), und die mittelbare Verknüpfung (Z1-Z3) zwischen dem ersten Zustandsrechenelement (Z1) und dem dritten Zustandsrechenelement (Z3) unterschiedlich sind.

Description

Beschreibung
Verfahren und Anordnung sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung ei- nes zukünftigen Systemzustandes eines dynamischen Systems
Die Erfindung betrifft eine neuronale Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, welche für eine Prognose eines Zustandes eines dynamischen Systems ge- eignet ist, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt und geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.
Aus [1] ist es bekannt, zur Beschreibung und Modellierung ei- nes dynamischen Systems bzw. eines dynamischen Prozesses und dessen Prozessverhaltens eine neuronale Struktur, beispiels¬ weise ein neuronales Netz, einzusetzen.
Allgemein wird ein dynamisches System bzw. ein dynamischer Prozess durch eine Zustandsübergangsbeschreibung, die für einen Beobachter des dynamischen Prozesses nicht sichtbar ist, und eine Ausgangsgleichung, die beobachtbare Größen des technischen dynamischen Prozesses beschreibt, beschrieben.
Ein solches Prozessverhalten eines dynamischen Prozesses ist in Fig.8 dargestellt.
Der dynamische Prozess 800 bzw. ein dynamisches System 800, in dem der dynamische Prozess abläuft, unterliegt dem Ein- fluss einer externen Eingangsgröße u vorgebbarer Dimension, wobei eine Eingangsgröße ut zu einem Zeitpunkt t mit ut be¬ zeichnet wird:
ut e M1 ,
wobei mit 1 eine natürliche Zahl bezeichnet wird. Die Eingangsgröße u-^ zu einem Zeitpunkt t verursacht eine Veränderung des dynamischen Prozesses.
Ein innerer Zustand s-^ ( s-^ e 9ϊm ) vorgebbarer Dimension m zu einem Zeitpunkt t ist für einen Beobachter des dynamischen Systems 800 nicht beobachtbar.
In Abhängigkeit vom inneren Zustand s-^ und der Eingangsgröße u-£ wird ein Zustandsübergang des inneren Zustandes St des dy- namischen Prozesses verursacht und der Zustand des dynami¬ schen Prozesses geht über in einen Folgezustand s-|-+i zu einem folgenden Zeitpunkt t+1.
Dabei gilt :
st+l = f(st' ut) • (!)
wobei mit f ( . ) eine allgemeine Abbildungsvorschrift bezeich¬ net wird.
Eine von einem Beobachter des dynamischen Systems 800 beobachtbare Ausgangsgröße y-(- zu einem Zeitpunkt t hängt ab von der Eingangsgröße u-^ sowie dem inneren Zustand s-^ .
Die Ausgangsgröße y-|- ( y^ <= 9ϊn ) ist vorgebbarer Dimension n.
Die Abhängigkeit der Ausgangsgröße y-|- von der Eingangsgröße u-|- und dem inneren Zustand s-^ des dynamischen Prozesses ist durch folgende allgemeine Vorschrift gegeben:
vt = g(st)' (2)
wobei mit g ( . ) eine allgemeine Abbildungsvorschrift bezeich¬ net wird.
Zur Beschreibung des dynamischen Systems 800 wird in [1] eine neuronale Struktur aus miteinander verbundenen Rechenelemente in Form eines neuronalen Netzes miteinander verbundener Neuronen eingesetzt. Die Verbindungen zwischen den Neuronen des neuronalen Netzes sind gewichtet . Die Gewichte des neuronalen Netzes sind in einem Parametervektor v zusammengefasst .
Somit hängt ein innerer Zustand eines dynamischen Systems, welches einem dynamischen Prozess unterliegt, gemäß folgender Vorschrift von der Eingangsgröße u-^ und dem inneren Zustand des vorangegangenen Zeitpunktes s-^ und dem Parametervektor v ab:
st+i = NN(V, st,ut), (3)
wobei mit NN ( . ) eine durch das neuronale Netz vorgegebene Ab- bildungsvorschrift bezeichnet wird.
Diese Beschreibung des dynamischen Systems 800 gemäß Bezie¬ hung (3) wird auch als "Forward Approach" bezeichnet.
Alternativ dazu lässt sich das dynamische System auch durch:
Figure imgf000005_0001
mit
st = NN(v, st_!, ut) (3Λ)
beschreiben, was als "Backward Approach" bezeichnet wird.
"Forward Approach" und "Backward Approach" führen zu geringfügigen strukturellen Unterschieden in den jeweiligen Netzstrukturen, sind aber gleichwertige, alternativ verwendbare Beschreibungsformen für dynamische Systeme.
Aus [2] ist eine neuronale Struktur zur Beschreibung des dy¬ namischen Systems 800 bekannt, welche als Time Delay Recur- rent Neural Network (TDRNN/RNN) bezeichnet wird. Das bekannte TDRNN ist in Fig.5 als ein über eine endliche Anzahl von Zeitpunkten (dargestellt 5 Zeitpunkte: t-4, t-3, t-2, t-1, t) entfaltetes neuronales Netz 500 dargestellt.
Das in Fig.5 dargestellte neuronale Netz 500 weist eine Ein¬ gangsschicht 501 mit fünf Teileingangsschichten 521, 522, 523, 524 und 525 auf, die jeweils eine vorgebbare Anzahl Ein- gangs-Rechenelemente enthalten, denen Eingangsgrößen u-^-4? ut-3, ut-2r ut-l unc* Ut zu vorgebbaren Zeitpunkten t-4, t-3, t-2, t-1 und t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.
Eingangs-Rechenelemente bzw. Eingangsneuronen oder Eingabere¬ chenelemente, sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten 505 (dargestellt 5 verdeckte Schichten) verbunden.
Dabei sind Neuronen einer ersten 531, einer zweiten 532, einer dritten 533, einer vierten 534 und einer fünften 535 ver- steckten Schicht jeweils mit Neuronen der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht verbunden.
Die Verbindungen zwischen der ersten 531, der zweiten 532, der dritten 533, der vierten 534 und der fünften 535 versteckten Schicht mit jeweils der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht sind jeweils gleich. Die Gewichte aller Verbin¬ dungen sind jeweils in einer ersten Verbindungsmatrix B]_ ent- halten.
Ferner sind die Neuronen der ersten versteckten Schicht 531 mit ihren Ausgängen mit Eingängen von Neuronen der zweiten versteckten Schicht 532 gemäß einer durch eine zweite Verbin- dungsmatrix A]_ gegebene Struktur verbunden. Die Neuronen der zweiten versteckten Schicht 532 sind mit ihren Ausgängen mit Eingängen von Neuronen der dritten versteckten Schicht 533 gemäß einer durch die zweite Verbindungsmatrix A]_ gegebene Struktur verbunden. Die Neuronen der dritten versteckten Schicht 533 sind mit ihren Ausgängen mit Eingängen von Neuro¬ nen der vierten versteckten Schicht 534 gemäß einer durch die zweite Verbindungsmatrix A]_ gegebene Struktur verbunden. Die Neuronen der vierten versteckten Schicht 534 sind mit ihren Ausgängen mit Eingängen von Neuronen der fünften versteckten Schicht 535 gemäß einer durch die zweite Verbindungsmatrix A]_ gegebene Struktur verbunden.
In den versteckten Schichten, der ersten versteckten Schicht 531, der zweiten versteckten Schicht 532, der dritten versteckten Schicht 533, der vierten versteckten Schicht 534 und der fünften versteckten Schicht 535 werden jeweils "innere" Zustände oder "innere" Systemzustände st-4, st-3' st-2' st-l' und S^ eines durch das TDRNN beschriebenen dynamischen Prozesses an fünf aufeinander folgenden Zeitpunkten t-4, t-3, t-2, t-1 und t repräsentiert.
Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t-4, t-3, t-2, t-1 und t an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw. zuführbaren Signale beziehen (u-|-_4, u-|-_3, ut-2' ut-l' ut) •
Eine Ausgangsschicht 520 weist fünf Teilausgangsschichten o- der Ausgaberechenelemente, eine erste Teilausgangsschicht 541, eine zweite Teilausgangsschicht 542, eine dritte Teil¬ ausgangsschicht 543, eine vierte Teilausgangsschicht 544 so- wie eine fünfte Teilausgangsschicht 545 auf. Neuronen der ersten Teilausgangsschicht 541 sind gemäß einer durch eine Ausgangs-Verbindungsmatrix C-\_ gegebenen Struktur mit Neuronen der ersten versteckten Schicht 531 verbunden. Neuronen der zweiten Teilausgangsschicht 542 sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C]_ gegebenen Struktur mit Neuronen der zweiten versteckten Schicht 532 verbunden. Neuronen der dritten Teilausgangsschicht 543 sind gemäß der Ausgangs-Verbindungsmatrix C]_ mit Neuronen der dritten versteckten Schicht 533 verbunden. Neuronen der vierten Teilausgangsschicht 544 sind gemäß der Ausgangs-Verbindungsmatrix C]_ mit Neuronen der vierten versteckten Schicht 534 verbunden. Neuronen der fünften Teilausgangsschicht 545 sind gemäß der Ausgangs-Verbindungsmatrix C-\_ mit Neuronen der fünften versteckten Schicht 535 verbunden. An den Neuronen der Teilausgangsschichten 541, 542, 543, 544 und 545 sind die Ausgangs¬ größen für jeweils einen Zeitpunkt t-4, t-3, t-2, t-1, t abgreifbar (yt-4' Yt-3' Yt-2' Yt-I' Yt) -
Der Grundsatz, dass äquivalente Verbindungsmatrizen, in Fig. 5 sind dies die Matrizen Ai, Bi und Ci, in einem neurona¬ len Netz zu einem jeweiligen Zeitpunkt die gleichen Werte aufweisen, wird als Prinzip der so genannten geteilten Gewichtswerte (Shared Weights) bezeichnet.
Die aus [2] bekannte und als Time Delay Recurrent Neural Net¬ work (TDRNN) bezeichnete Anordnung wird in einer Trainings- phase derart trainiert, dass zu einer Eingangsgröße ut je¬ weils eine Zielgröße y^ an einem realen dynamischen System ermittelt wird. Das Tupel (Eingangsgröße, ermittelte Zielgrö¬ ße) wird als Trainingsdatum bezeichnet. Eine Vielzahl solcher Trainingsdaten bilden einen Trainingsdatensatz.
Dabei weisen zeitlich aufeinander folgende Tupel (u-^-4
'yf_4 ) (ut-3 >yf_3 )> (ut-2 '^f-2 ) der Zeitpunkte (t-4, t-3, t-3, ...) des Trainingsdatensatzes jeweils einen vorgegeben Zeitschritt auf.
Mit dem Trainingsdatensatz wird das TDRNN trainiert. Eine Ü- bersicht über verschiedene Trainingsverfahren ist ebenfalls in [1] und [4] zu finden.
Es ist an dieser Stelle zu betonen, dass lediglich die Aus¬ gangsgrößen yt-4 iYt-3 ' ..., yt zu Zeitpunkten t-4, t-3, ..., t des dynamischen Systems 800 erkennbar sind. Die "inne- ren" Systemzustände s^-4, s^-3, ..., s-^ sind nicht beobacht¬ bar.
In der Trainingsphase wird üblicherweise folgende Kostenfunk- tion E minimiert :
Figure imgf000009_0001
wobei mit T eine Anzahl berücksichtigter Zeitpunkte bezeich- net wird.
Aus [5] und [6] sind Weiterentwicklungen der aus [2] bekannten und als Time Delay Recurrent Neural Network (TDRNN) be¬ zeichneten neuronalen Struktur bekannt.
Die Weiterentwicklungen aus [5] sind insbesondere geeignet zur Ermittlung zukünftiger Zustände eines dynamischen Prozesses, was als "overshooting" bezeichnet wird.
Fig. Ia aus [5] zeigt eine Grundstruktur, die den aus [5] be¬ kannten Weiterentwicklungen zugrunde liegt .
Die Grundstruktur ist ein über drei Zeitpunkte t, t+1, t+2 entfaltetes neuronales Netz.
Sie weist eine Eingangsschicht auf, die eine vorgebbare An¬ zahl von Eingangsneuronen enthält, denen Eingangsgrößen ut zu vorgebbaren Zeitpunkten t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.
Die Eingangsneuronen sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten (dargestellt 5 verdeckte Schichten) verbunden. Dabei sind insbesondere Neuronen einer ersten versteckten Schicht, welche den Systemzustand zum Zeitpunkt t+1 be¬ schreibt oder repräsentiert, mit Neuronen der ersten Ein¬ gangsschicht verbunden.
Die Verbindung zwischen der ersten versteckten Schicht mit der ersten Eingangsschicht weist Gewichte auf, die in einer ersten Verbindungsmatrix B enthalten sind.
Ferner sind die Neuronen der ersten versteckten Schicht mit ihren Ausgängen mit Eingängen von Neuronen einer zweiten versteckten Schicht, welche den Systemzustand zum Zeitpunkt t+2 beschreibt oder repräsentiert, gemäß einer durch eine zweite Verbindungsmatrix A gegebene Struktur verbunden.
In den versteckten Schichten, der ersten versteckten Schicht und der zweiten versteckten Schicht werden jeweils "innere" Zustände oder "innere" Systemzustände St+i und St+2 des be¬ schriebenen dynamischen Prozesses an zwei aufeinander folgen- den Zeitpunkten t+1 und t+2 repräsentiert.
Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t, t+1, t+2 an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw, zuführbaren Signale (u-^) beziehen.
Eine Ausgangsschicht weist zwei Teilausgangsschichten, eine erste Teilausgangsschicht für den Zeitpunkt t+1 und eine zweite Teilausgangsschicht für den Zeitpunkt t+2, auf. Neuro- nen der ersten Teilausgangsschicht sind gemäß einer durch ei¬ ne Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neuronen der ersten versteckten Schicht verbunden. Neuronen der zweiten Teilausgangsschicht sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neu- ronen der zweiten versteckten Schicht verbunden. An den Neuronen der Teilausgangsschichten sind die Ausgangsgrößen für jeweils einen Zeitpunkt t+1, t+2 abgreifbar (Yt+lr Yt+2)
Eine weitere Weiterentwicklung dieser Grundstruktur aus [5] ist in Fig.6 dargestellt.
Weiterentwicklungen der TDRNN-Struktur aus [6], so genannte Error-Correction-Recurrent-Neural-Networks ECRNN) , betreffen einen strukturell bedingten Fehler-Korrektur-Mechanismus, welcher als struktureller Bestandteil in eine neuronale Struktur integriert ist. Fig.7 zeigt eine grundlegende Struk¬ tur mit entsprechenden funktionalen Beziehungen eines ECRNN.
In [3] ist ferner ein Überblick über Grundlagen neuronaler
Netze und die Anwendungsmöglichkeiten neuronaler Netze im Bereich der Ökonomie zu finden.
Die bekannten Anordnungen und Verfahren, insbesondere die im obigen beschriebenen TDRNN (kurz RNN) und ECRNN, weisen verschiedene Nachteile auf.
So neigen insbesondere große Netze obiger rekurrenter Strukturen zu den bekannten Problemen eines "Overfitting" und ei- ner "Überparametrisierung", was sich wiederum negativ auf eine Prognosefähigkeit solcher Strukturen bzw. Netze auswirkt.
Somit liegt der Erfindung die Aufgabe zugrunde eine, insbe¬ sondere neuronale, Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt, anzugeben, welche insbesondere bei großen Netzen bzw. bei Sys¬ temen mit einer Vielzahl von freien Parametern geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.
Diese Aufgabe wird durch die Anordnung, das Verfahren sowie durch das Computerprogramm mit Programmcode-Mitteln und das Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustands eines dynamischen Systems mit den Merkmalen gemäß den unabhängigen Patentansprüchen 1, 12, 16 und 18 gelöst .
Die Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems basiert auf einer Grundstruktur miteinander verknüpfter Rechenelemente eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren.
Die Anordnung weist wenigstens ein erstes Eingaberechenele- ment, welchem Zustandsgrößen des Systems zu einem ersten
Zeitpunkt in einem Zustandsraum zuführbar sind und wenigstens ein zweites Eingaberechenelement, welchem Zustandsgrößen des Systems zu einem früheren Zeitpunkt in einem Zustandsraum zuführbar sind, wobei der frühere Zeitpunkt vor dem ersten Zeitpunkt liegt. Die Eingaberechenelemente bilden, im Falle der Realisierung in Form eines neuronalen Netzes, die Eingangsschicht oder Eingabeneuronenschicht mit Eingangsneuronen des neuronalen Netzes.
Ferner weist die Anordnung wenigstens ein erstes Zustandsre- chenelement, welches den Systemzustand zum ersten Zeitpunkt in einem Transformationsraum repräsentiert, wenigstens ein zweites Zustandsrechenelement, welches den Systemzustand zum früheren Zeitpunkt im Transformationsraum repräsentiert und wenigstens ein drittes Zustandsrechenelement, welches den Systemzustand zu einem auf den ersten Zeitpunkt folgenden späteren Zeitpunkt im Transformationsraum repräsentiert. Somit sind das erste Zustandsrechenelement und das erste Einga¬ berechenelement dem ersten Zeitpunkt zugeordnet und das zwei- te Zustandsrechenelement und das zweite Eingaberechenelement dem früheren Zeitpunkt . Zwischen Zustandsrechenelementen, welche Systemzustände zu aufeinander folgenden Zeitpunkten repräsentieren, ist eine Zeittransformation von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar. Im Falle der Realisierung der Anordnung durch ein neuronales Netz entspricht die Zeit¬ transformation einer Verbindungsmatrix A, wobei geteilte bzw. gemeinsame Gewichtswerte (shared weights) verwendet werden.
Die Anordnung weist ferner wenigstens ein Ausgaberechenele- ment auf, an welchem Zustandsgrößen des Systems zum späteren Zeitpunkt im Zustandsraum abgreifbar sind. An den Ausgaberechenelementen werden Erwartungswerten (expectations) entsprechenden Werte ausgegeben.
Im Falle der Realisierung der Anordnung durch ein neuronales Netz ist an einem Zustandsrechenelement ein Zustandsvektor abgreifbar bzw. von diesem ausgebbar, bei welchem die oberen Elemente bzw. Werte des Vektors gleich den Erwartungswerten sind. Der mittlere Bereich des Zustandsvektors wird durch versteckte Zustandswerte gebildet, welche versteckte Zustände (hidden states) zum jeweiligen Zeitpunkt repräsentieren. Im unteren Bereich des Zustandsvektors stehen Beobachtungswerte oder Erwartungswerte, in Abhängigkeit des Zeitpunktes des je¬ weiligen Zustandsvektors. Für den Zustandsvektor zum ersten Zeitpunkt und zum früheren Zeitpunkt gilt, dass im unteren Teil des Zustandsvektors Beobachtungswerte (Observations) stehen. Für den Zustandsvektor des späteren Zeitpunkts gilt, dass im unteren Bereich des Zustandsvektors Erwartungswerte (Expectations) stehen. Somit ergibt sich der Zustandsvektor st wie folgt:
Erwartungswerte bzw. Expectations st versteckteZustandswerte bzw. HiddenStates : 5 ) [Beobachtungswerte bzw. Observations/ < 0 [Erwartungswerte bzw. Expectations/ > 0 } y
Figure imgf000013_0001
In einer anderen Ausführungsform wird der untere Teil des Zu- standsvektors durch Fehlerkorrekturwerte oder Null gebildet. Der Zustandsvektor st ergibt sich somit wie folgt:
Figure imgf000014_0001
Bei der Anordnung ist das erste Eingaberechenelement mit dem ersten Zustandsrechenelement und das zweite Eingaberechenele¬ ment mit dem zweiten Zustandsrechenelement verknüpft, wobei durch die Verknüpfungen jeweils eine Raumtransformation aus dem Zustandsraum in den Transformationsraum durchführbar ist.
Ferner ist das Ausgaberechenelement mit dem dritten Zustands¬ rechenelement verknüpft, wobei durch die Verknüpfung eine Raumtransformation aus dem Transformationsraum in den Zustandsraum durchführbar ist.
Die der Anordnung im Zustandsraum zuführbaren und abgreifbaren Zustandsgrößen weisen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste
Zielgröße des dynamischen Systems auf. Dies ist ein wesentli¬ cher Unterschied zum oben beschriebenen Stand der Technik, da dem System an den Eingaberechenelemente somit Einflussgrößen, welche im Zusammenhang mit der Beschreibung des Standes der Technik beispielsweise mit ut bezeichnet wurden, und Zielgrö¬ ßen bzw. Targets, welche oben im Zusammenhang mit dem Stand der Technik als yt gekennzeichnet wurden, zugeführt werden. Bei der Erfindung wird also bei der Modellbildung nicht zwischen Einflussgrößen und Zielgrößen unterschieden, sondern nur noch zwischen beobachtbaren Werten bzw. Variablen und nicht-beobachtbaren Werten bzw. Variablen. Die beobachtbaren Werte (Observables) enthalten dabei die im Zusammenhang mit dem Stand der Technik beschriebenen Einflussgrößen ut und Zielgrößen yt. Die beobachtbaren Werte werden in der folgenden Beschreibung mit yt gekennzeichnet. Dabei ist zu beach¬ ten, dass sich yt somit wesentlich vom yt, welches in der Be¬ schreibung des Standes der Technik verwendet wurde, unter- scheidet.
Eine solche Modellierung bei der der Anordnung sowohl Einflussgrößen als auch Zielgrößen zuführbar sind, ist aus [7] bekannt .
Die Transformationsparameter zur Durchführung der Zeittransformation sind variabel, wobei im Fall der Realisierung durch ein neuronales Netz geteilte Gewichtswerte für die Transfor¬ mationsparameter verwendet werden.
Die Verknüpfung zwischen zwei Zustandsrechenelementen ist eine mittelbare Verknüpfung, welche wenigstens eine Konsistenz¬ transformation und die Zeittransformation umfasst. Im Falle der Realisierung durch ein neuronales Netz bedeutet dies, dass die durch die Gewichtsmatrix A mit geteilten Gewichtswerten gebildete Zeittransformation zwischen zwei Zustandsrechenelementen eine weitere versteckte Schicht mit einer Nichtlinearität und einem Bias aufweist, wobei die Ausgabe¬ werte dieser weiteren versteckten Schicht der Konsistenz- transformation unterzogen werden.
Die mittelbare Verknüpfung zwischen dem zweiten Zustandsre- chenelement und dem ersten Zustandsrechenelement und die mit¬ telbare Verknüpfung zwischen dem ersten Zustandsrechenelement und dem dritten Zustandsrechenelement sind dabei unterschied¬ lich. Durch die unterschiedliche Wahl der mittelbaren Verknüpfung ergibt sich der unterschiedliche untere Bereich des Zustandsvektors st in Gleichungen (5) und (6) . Das heißt, je nach Wahl der mittelbaren Verknüpfung enthält der untere Be- reich in Gleichung (5) entweder die Beobachtungswerte oder die Erwartungswerte. In Gleichung (6) enthält der Zustands- vektor st je nach Wahl der mittelbaren Verknüpfung die Fehlerkorrekturwerte oder Null.
Die Transformation der Zustandsgrößen vom früheren auf den ersten Zeitpunkt wird dabei durch eine Multiplikation von Matrizen C • A • C< durchgeführt, und die Transformation der Zustandsgrößen vom ersten auf den späteren Zeitpunkt durch eine Multiplikation von Matrizen C • A • C>. Dabei ist A die Zeittransformation und es gilt:
Figure imgf000016_0001
oder
Figure imgf000016_0002
wobei Id eine Identitätsmatrix ist.
Vorteilhaft sind zumindest ein Teil der Rechenelemente künst¬ liche Neuronen. Das heißt, die Anordnung ist vorteilhaft mit einem neuronalen Netz realisierbar, wobei den Eingaberechenelementen Eingangsneuronen oder -schichten, den Zustandsre- chenelementen versteckte bzw. Hidden Neuronen oder Schichten und den Ausgaberechenelementen Ausgangsneuronen oder -schichten entsprechen.
In den Figuren zur Beschreibung von Ausführungsformen der Er- findung entspricht die mittelbare Verknüpfung beispielsweise der Transformation durch die Matrizen A und C< für die mittelbare Verknüpfung zwischen dem zweiten Zustandsrechenele- ment und dem ersten Zustandsrechenelement . Die mittelbare Verknüpfung zwischen dem ersten Zustandsrechenelement und dem dritten Zustandsrechenelement entspricht beispielsweise der Verknüpfung durch die Matrizen A und C>. Die mittelbare Verknüpfung kann jedoch auch durch drei Rechenschritte gebildet werden, beispielsweise durch eine Transformation mit drei Matrizen C, A, C< bzw. C, A, C> oder durch die Matrizenkombi¬ nation C, A, CE (siehe Beschreibung der Figuren) .
In einer vorteilhaften Weiterbildung der Erfindung weist die Anordnung weitere Eingaberechenelemente, weitere Zustandsre- chenelemente und weitere Ausgaberechenelemente auf, die je¬ weils einem bestimmten Zeitpunkt zugeordnet sind, wobei je¬ weils ein Eingaberechenelement mit einem Zustandsrechenele- ment und ein Zustandsrechenelement mit einem Ausgaberechen- element verknüpft sind und dadurch jeweils eine Raumtransfor¬ mation durchführbar ist, wobei ein Zustandsrechenelement mit dem Zustandsrechenelement des vorangehenden Zeitpunktes und mit dem Zustandsrechenelement des folgenden Zeitpunktes ver¬ knüpft ist und dadurch jeweils eine Zeittransformation durch- führbar ist.
In einer vorteilhaften Weiterbildung verbindet die mittelbare Verknüpfung zwischen dem zweiten Zustandsrechenelement und dem ersten Zustandsrechenelement die Zeittransformation und eine erste Konsistenztransformation. Ferner verbindet die mittelbare Verknüpfung zwischen dem ersten Zustandsrechenele¬ ment und dem dritten Zustandsrechenelement die Zeittransfor¬ mation und eine zweite Konsistenztransformation. Dabei sind die erste Konsistenztransformation und die zweite Konsistenz- transformation unterschiedlich.
Im Falle der Realisierung durch ein neuronales Netz (siehe auch Figurenbeschreibung) entspricht die erste Konsistenztransformation beispielsweise der Transformation mit der Mat- rix C< und die zweite Konsistenztransformation der Transformation durch die Matrix C>. In einer anderen Ausführungsform entspricht die erste Konsistenztransformation der durch die Matrizen C und C< gebildeten Transformation und die zweite Konsistenztransformation der durch die Matrizen C und C> ge- bildeten Transformation. Es kann also vorteilhaft sein, wenn die erste Konsistenz¬ transformation und die zweite Konsistenztransformation je eine erste Konsistenztransformationskomponente, beispielsweise gebildet durch die Matrix C, und eine zweite Konsistenztrans- formationskomponente, gebildet beispielsweise durch die Mat¬ rix C< bzw. C>, aufweisen, wobei die erste Konsistenztrans¬ formationskomponente der ersten Konsistenztransformation und die erste Konsistenztransformationskomponente der zweiten Konsistenztransformation, beispielsweise gebildet durch die Matrix C, identisch und/oder unveränderlich sind. Dabei sind die zweite Konsistenztransformationskomponente der ersten Konsistenztransformation, beispielsweise gebildet durch die Matrix C, und die zweite Konsistenztransformationskomponente der zweiten Konsistenztransformation, beispielsweise gebildet durch die Matrix C>, unterschiedlich.
Im Falle der Realisierung durch ein neuronales Netz lässt sich der Zustandsvektor st somit wie oben angegeben, in Abhängigkeit der Matrizen C< (zweite Konsistenztransformations- komponente der ersten Konsistenztransformation) und der Matrix C> (zweite Konsistenztransformationskomponente der zwei¬ ten Konsistenztransformation) verändern.
In einer weiteren besonders vorteilhaften Weiterbildung der Erfindung ist die zweite Konsistenztransformationskomponente der ersten Konsistenztransformation in Abhängigkeit der dem System zum früheren Zeitpunkt zugeführten Zustandsgrößen veränderbar, und die zweite Konsistenztransformationskomponente der zweiten Konsistenztransformation ist in Abhängigkeit der dem System zum ersten Zeitpunkt zugeführten Zustandsgrößen veränderbar.
Im Falle der Realisierung durch ein neuronales Netz entspricht der zweiten Konsistenztransformationskomponente der ersten Konsistenztransformation beispielsweise die Matrix CE. Auch der zweiten Konsistenztransformationskomponente der zweiten Konsistenztransformation entspricht die Matrix CE. Dabei wird die Matrix CE in Abhängigkeit der Eingabewerte zum jeweiligen Zeitpunkt verändert.
Vorteilhaft ist es, wenn zumindest ein Teil der Transformati- onsparameter zur Durchführung der Raumtransformation und/oder ein Teil der Konsistenzparameter zur Durchführung der Konsistenztransformation derart festgelegt sind, dass eine Identi¬ tätsabbildung durchführbar ist.
Eine derartige Identitätsabbildung angewendet auf Zustands- vektoren bewirkt, dass nur bestimmte Vektoreinträge gleichsam aus dem Vektor herausgeschnitten werden, wobei gleichzeitig der Vektor in seiner Dimension angepasst werden kann.
Im Falle der Realisierung durch ein neuronales Netz wird die Transformation zur Durchführung der Raumtransformation von einem Eingaberechenelement auf ein Zustandsrechenelement be¬ vorzugt wie folgt definiert:
o y; →St o J)
Id
Die Raumtransformation zur Transformation der Ausgabewerte (Zustandsvektor) der Zustandsrechenelemente auf Ausgabere¬ chenelemente wird vorteilhaft wie folgt definiert:
Id s,→y, 0 (8) 0
Vorteilhaft ist es weiterhin, wenn zumindest ein Teil der Ausgaberechenelemente derart verknüpft sind, dass zukünftige Zustände akkumulierbar sind.
Außerdem ist es vorteilhaft, wenn dasjenige Zustandsrechenelement, welches den zeitlich frühesten Zustand repräsen- tiert, mit einem Startzustand initialisierbar ist, wobei der Startzustand unter Verwendung von Rauschen (noise) ermittel¬ bar ist. Durch Verwendung von Rauschen werden über der Zeit Trajektorien in Form von Röhren gebildet. Die Zeittransforma- tion, im Falle eines neuronalen Netzes gebildet durch die
Matrix A wird so trainiert, dass die Unsicherheit des Start¬ zustands bzw. Initialzustands über der Zeit herausgefiltert wird. Endliche Volumentrajektorien (finit volume trajecto- ries) wirken als eine Regularisierung und Stabilisierung der Dynamik.
Vorteilhaft ist dem System auch zum späteren Zeitpunkt Rau¬ schen zuführbar. Dies ist aus folgenden Gründen vorteilhaft: in der Vergangenheit ist der Einfluss von unbekannten exter- nen Größen durch die Fehlerkorrekturwerte modelliert bzw. wird durch diese wiedergegeben. In der Zukunft wird das dyna¬ mische System gegenüber der Unsicherheit der Umwelt stabili¬ siert. Für eine deterministische Vorhersage (forecast) wird die Anwendung bzw. Eingabe von Rauschen im Anwendungsfall des trainierten neuronalen Netzes bzw. der trainierten Anordnung für zukünftige Zustandsrechelemente ausgelassen. Es kann also vorteilhaft sein, beim Training der Anordnung oder des neuronalen Netzes den Zustandsrechenelementen der Zukunft, beispielsweise dem drittem Zustandsrechenelement, im Training Rauschen hinzuzufügen. Das System wird dadurch "steif" gegenüber den Eingangs- bzw. Eingabewerten. Bei der Anwendung der trainierten Anordnung bzw. des trainierten neuronalen Netzes wird den Zustandsrechenelementen der Zukunft, d.h. Zustandsrechenelementen, für welche gilt t>0, kein Rauschen zuge- führt. Somit wird eine deterministische Mittelwertlösung be¬ rechnet .
Die Anordnung umfasst ferner vorteilhaft eine Messanordnung zur Erfassung physikalischer Signale, mit denen Zustände des dynamischen Systems beschrieben werden können. Bei dem Verfahren zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit Hilfe eines neuronalen Netzes werden Zustandsgrößen des Systems zu einem ersten Zeitpunkt und zu einem vor dem ersten Zeitpunkt liegenden früheren Zeitpunkt einer Raumtransformation unterzogen werden, welche die Zustandsgrößen von einem Zustandsraum in einen Transformationsraum transformiert, die in den Transforma¬ tionsraum transformierten Zustandsgrößen des früheren Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem früheren Zeitpunkt auf den ersten Zeitpunkt transformiert, die in den Transformationsraum transformierten Zustandsgrößen des ersten Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem ersten Zeitpunkt auf einen auf den ersten Zeitpunkt folgenden späteren Zeitpunkt transformiert, und es werden die auf den späteren Zeitpunkt transformierten Zustandsgrößen einer Raumtransformation unterzogen werden, welche die auf den späteren Zeitpunkt trans- formierten Zustandsgrößen von dem Transformationsraum in den Zustandsraum transformiert, wobei die Transformationen unter Verwendung von Transformationsparametern durchgeführt werden, die von dem Zustandraum in den Transformationsraum transformierten Zustandsgrößen als auch die von dem Transformations- räum in den Zustandsraum transformierten Zustandsgrößen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen, die Transformationsparameter zur Durchführung der Raumtransformationen fest sind, und wobei die Trans- formationsparameter zur Durchführung der Zeittransformation variabel sind. Bei der Transformation der Zustandsgrößen wird dabei vom früheren auf den ersten Zeitpunkt eine erste Kon¬ sistenztransformation und die Zeittransformation durchgeführt, und bei der Transformation der Zustandsgrößen vom ers- ten auf den späteren Zeitpunkt wird eine zweite Konsistenz¬ transformation und die Zeittransformation durchgeführt. Dabei sind die erste Konsistenztransformation und die zweite Konsistenztransformation unterschiedlich.
Vorteilhaft ist es, wenn bei der ersten und zweiten Konsis- tenztransformation je ein erster Konsistenztransformations¬ schritt und ein zweiter Konsistenztransformationsschritt durchgeführt wird, wobei der erste Konsistenztransformations¬ schritt der ersten Konsistenztransformation und der erste Konsistenztransformationsschritt der zweiten Konsistenztrans- formation identisch sind, und dass der zweite Konsistenztransformationsschritt der ersten Konsistenztransformation und der zweite Konsistenztransformationsschritt der zweiten Konsistenztransformation unterschiedlich sind.
Im Falle der Realisierung durch ein neuronales Netz wird der erste Konsistenztransformationsschritt jeweils durch die Mat¬ rix C gebildet. Der zweite Konsistenztransformationsschritt der ersten Konsistenztransformation wird gebildet durch die Matrix C, und der zweite Konsistenztransformationsschritt der zweiten Konsistenztransformation wird gebildet durch die Matrix C>.
Das Verfahren wird vorteilhaft eingesetzt zu einer Prognose eines zukünftigen Systemverhaltens des dynamischen Systems derart, dass das ermittelte zukünftige Systemverhalten als die Prognose verwendet wird.
Ferner wird das Verfahren vorteilhaft eingesetzt zu einer Prognose eines Energieverbrauchs, insbesondere eines Verbrauchs von einer Gasmenge, oder eines Energiepreises, insbesondere eines Strompreises, oder einer makro- oder mik¬ roökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems.
Andere Einsatzszenarien sind vorstellbar, wie bei ökonomischen Systemen (Finanzdienstleistungen, Banken, Versicherungen) oder Industriesystemen (Produktionssysteme, Industriean- lagen, Logistiksysteme) , beispielsweise zu einer Prognose ei¬ ner makro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems, im speziellen zu einer Prognose eines Wechselkursverlaufes oder eines Bargeld- Aus- oder Einzahlungsverhaltens/-entwicklung.
Das Computerprogramm weist Programmcode-Mittel auf, um alle Schritte und/oder Teilschnitte gemäß des oben definierten Verfahrens durchzuführen, wenn das Programm auf einem Compu- ter oder Teile des Programms auf mehreren Computern ausge¬ führt wird bzw. werden.
Das Computerprogramm weist die oben definierten Programmcodemittel auf, welche auf einem oder mehreren computerlesbaren Datenträgern gespeichert sind.
Das Computerprogrammprodukt weist auf einem maschinenlesbaren Träger gespeicherte Programmcodemittel auf, um alle Schritte und/oder Teilschritte des oben definierten Verfahrens durch- zuführen, wenn das Programm auf einem Computer ausgeführt wird.
In Anwendungen im industriellen Umfeld können Messanordnungen vorgesehen werden zur Erfassung physikalischer Signale. Mit diesen können Zustände des dynamischen System beschrieben werden. Diese werden dann - gegebenenfalls nach einer Vorverarbeitung - der Anordnung und dem Verfahren als Input zugeführt .
Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
Es zeigen Fig. Ia, Ib und Ic Skizzen, die die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik beschreiben (Ia: zwei Alternativen des bekannten RNN; Ib: LRNN mit der alleinigen anpassbaren Ver- bindungsmatrix A; Ic: DCRNN);
Fig. 2a, 2b und 2c Skizzen, die die Entwicklung eines
DCECRNN aus einem ECRNN gemäß dem Stand der Technik beschreiben (Ia: zwei Alternativen des be- kannten ECRNN; Ib: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; Ic: DCECRNN);
Fig. 3a und 3b Skizzen eines DCRNN (Fig.3a) und eines
DCECRNN (Fig.3b) mit jeweils einer gekennzeichne- ten erfindungsgemäßen Grundstruktur;
Fig. 4 Skizze eines DCNN, welches aus dem DCRNN und dem DCECRNN weiterentwickelt ist;
Fig. 5 eine Skizze einer Anordnung eines TDRNN, welche mit endlich vielen Zuständen über die Zeit entfaltet ist, gemäß dem Stand der Technik;
Fig. 6 eine Skizze einer zum "overshooting" geeigneten Weiterbildung eines TDRNN gemäß dem Stand der
Technik;
Fig. 7 eine Skizze eines ECRNN mit grundlegenden funkti¬ onalen Beziehungen gemäß dem Stand der Technik;
Fig. 8 eine Skizze einer allgemeinen Beschreibung eines dynamischen Systems;
Fig. 9 Skizze eines modifizierten DCNN mit einer modifi- zierten "Consistency Matrix", bei welchem bekannte zukünftige Informationen berücksichtigbar sind; Fig. 10 Skizze eines modifizierten DCNN mit akkumulierten Ausgangsneuronen;
Fig. IIa und IIb zeigen die Herleitung eines neuronalen
Netzes zur Modellierung der Dynamik von beobachtbaren Größen bzw. Beobachtbaren;
Fig. 12 zeigt ein dynamisch konsistentes rekurrentes neu- ronales Netzwerk (DCRNN) mit unterschiedlichen
Konsistenztransformationen;
Fig. 13 zeigt ein dynamisch konsistentes fehlerkorrigie¬ rendes neuronales Netzwerk (DCECNN) mit unter- schiedlichen Konsistenztransformationen;
Fig. 14 zeigt ein dynamisch konsistentes rekurrentes feh¬ lerkorrigierendes neuronales Netzwerk (DRECNN) gemäß einem ersten Realisierungsbeispiel;
Fig. 15 zeigt ein dynamisch konsistentes rekurrentes feh¬ lerkorrigierendes neuronales Netzwerk (DCRECNN) gemäß einem zweiten Realisierungsbeispiel;
Fig. 16 zeigt eine allgemeine Struktur eines dynamisch konsistenten neuronalen Netzwerks in Übereinstimmung mit dem ersten Realisierungsbeispiel;
Fig. 17 zeigt ein dynamisch konsistentes neuronales Netz- werk mit teilweise bekannten beobachtbaren Größen;
Fig. 18 zeigt ein dynamisch konsistentes neuronales Netz¬ werk mit einem initialisierten Startzustand;
Fig. 19A zeigt die Initialisierung mit Rauschen und Fig. 19B zeigt eine röhrenförmige Trajektorie, welche sich auf Grund der Initialisierung in Fig. 19A ergibt;
Fig. 20 zeigt ein dynamisch konsistentes neuronales Netz- werk, bei dem zukünftigen Zustandsrechenelementen bzw. Zuständen Rauschen hinzugefügt wird;
Fig. 21 verdeutlicht, wie die Dimension der Zustandsre- chenelemente bzw. Zustandsvektoren dimensionier- bar ist;
Fig. 22 zeigt Simulationsergebnisse zur Dimensionierung des Zustandsvektors gemäß Fig. 21;
Fig. 23a, 23b und 23c zeigen Skizzen, welche Beispiele von
DCNN für eine Prognose eines US-Dollar/Brit . Pfund - Wechselkursverlaufes (Fig. 23a), einer Bargeld-Zu- bzw. Abflussentwicklung (Fig. 23b), einer Stromlastentwicklung (Fig. 23c) zeigen.
Bei den im folgenden beschriebenen Figuren sowie den im folgenden anhand der Figuren beschriebenen Ausführungsbeispielen werden allgemein übliche und für den Fachmann verständliche Bezeichnungen und Symbole aus dem Gebiet der Neuroinformatik und Neurostatistik verwendet. Weitere Bezeichnungen ergeben sich aus dem im obigen beschriebenen Standes der Technik.
Wie bereits oben erwähnt, handelt es sich bei der Erfindung um eine Weiterentwicklung bzw. Veränderung von aus [7] be- kannten Strukturausführungsbeispielen oder Architekturen neuronaler Netze. Die Fig. Ia bis 10 entsprechen den Figuren gleicher Nummerierung aus [7] . Es werden nun zunächst die aus [7] bekannten Strukturen und Ausführungsbeispiele beschrieben und im Anschluss daran die Fig. 11 bis 23.
Struktur-Ausführungsbeispiele: "Dynamical Consistent Recur- rent Neural Networks" (Fig.l, Fig.3a), "Dynamical Consistent Error Correction (Recurrent) Neural Networks" (Fig.2,
Fig.3b), "Dynamical Consistent Neural Networks (DCNN) (Fig.4)
In den Figuren Ia, Ib und Ic ist die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik dargestellt (Ia: zwei Alternativen des bekannten RNN; Ib: LRNN mit der alleinigen anpassbaren Verbindungsmatrix A; Ic: DCRNN) .
Figur Ia, Alternative 1 (Forward Approach/Forward Formulati- on) und Alternative 2 (Backward Approach/Backward Formulati- on) zeigt zwei bekannte, alternative neuronale Strukturen ge¬ mäß einem über 5 Zeitpunkte t-2, t-1, t, t+1, t+2 entfalteten TDRNN bzw. RNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt: st+ι = f(st , yf , ut ά ) und yt = g(st )
Für Alternative 2 gilt : st = f(st-ι>u? ) und yt = 8(s, )
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
Figur Ib zeigt eine verbesserte Struktur, ein so genanntes "Large Recurrent Neural Network" (LRNN) , welches aus den al¬ ternativen Strukturen aus Figur Ia entwickelbar ist.
So werden im Übergang der Strukturen aus Figur Ia zu der Struktur aus Figur Ib die ursprünglichen drei anpassbaren Verbindungsmatrizen A, B, und C durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s. Diese weist alleinig anpassbare Parame- ter auf, die im Training der Struktur einstellbar sind. Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und
C sind in Figur Ib angegeben. Die sich dabei ergebenden neuen
T
Verbindungsmatrizen [Id, 0] bzw. [Id, 0] weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in Figur Ib gezeigte Struktur gilt:
Figure imgf000028_0001
Indem die Matrix B durch [θ, IdJ e 9ϊ(dim(s)xdim(u)) erset zt wird, wird die Verarbeitung der Eingabegröße auf die Matrix A über¬ tragen . Für lineare Systeme st = Ast_\ + But kann durch eine Zu- standsraum-Trans f ormation [Tst ) = TAT~ \Tst_ι )+ TBut die Matrix B mit B = \Br , B J in [θ, /rf] umgewandelt werden . Unter der Annah- me , das s für die Matrix B dim(,s) > dim(«) gegeben ist , kann T so gewählt werden , das s :
Figure imgf000028_0002
Indem die Matrix C durch [/d,θ]e9?(dim(;y)xdini(,s')) ersetzt wird, werden die Ausgabegrößen mit den versteckten Schichten s für die ersten Zeitpunkte identifiziert. Wenn dim(,y)>dim(w)+dim(;y) gilt, so beeinflussen die externen Eingabegrößen u die Ausgabegrößen y nur indirekt an dem nächsten Zeitpunkt S . Wenn sτ e(-1,+I) gilt, so kann es nötig sein C=[c-/<i,θ] zu verwenden, um die Aufgabegrößen zu skalieren. Adaptive Parameter sind nur in der Matrix A enthalten, welche als schwach besetzte Matrix gewählt werden kann. Analoge Überlegungen lassen sich zu den Ausführungsformen in den Fig. 11 bis 22 anstellen.
Figur Ic zeigt die aus Figur Ib entwickelte weiter verbesser¬ te Struktur, ein so genanntes "Dynamical Consistent Recurrent Neural Network" (DCRNN) . Das dargestellte DCRNN ist entsprechend vorheriger Strukturen ein über die 5 Zeitpunkte t-2, t-1, t, t+1 und t+2 entwickel¬ tes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Ein¬ gangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Mat-
T rizen [Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte ent- falteten versteckten Schichten St-2? st-l' st' st+l unc* st+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Ferner weist das DCRNN zwei Rechenschichten "tanh" auf, welche in dargestellter Weise mit jeweils zwei aufeinander fol¬ genden versteckten Schichten, in diesem Fall st und st+i bzw.
Sj+1 und st+2, verbunden sind.
Der für die Vergangenheit zuständige Teil des Netzes wird durch alle Eingabegrößen angeregt. Durch die Ausgestaltung der Ausgabe liegen Prognosen für alle Eingabegrößen vor, wodurch es möglich wird, diese Prognosen dem Netz als zukünfti- ge Eingabegrößen zuzuführen. Da es sich um mehrere Prognosen handelt, ist dieses Vorgehen nur in großen Netzen möglich. In dieser Ausgestaltung erfüllt die Matrix A immer den gleichen Zweck: sie moduliert die Dynamik.
In den Figuren 2a, 2b und 2c ist - entsprechend zum DCRNN bzw. RNN und den Figuren Ia, b und Ic - die Entwicklung eines DCECRNN aus einem ECRNN gemäß dem Stand der Technik dargestellt (Ia: zwei Alternativen des bekannten ECRNN; Ib: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; Ic: DCECRNN) .
Figur 2a, Alternative 1 (Forward Formulation) und Alternative 2 (Backward Formulation) zeigt zwei bekannte, alternative neuronale Strukturen gemäß einem über 4 Zeitpunkte t-1, t, t+1, t+2 entfalteten ECRNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt: t) . Für Alternative 2 gilt: st =
Figure imgf000030_0001
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
Figur 2b zeigt eine verbesserte Struktur, ein so genanntes "Large Error Correction Recurrent Neural Network" (LECRNN) , welches aus den alternativen Strukturen aus Figur 2a entwickelbar ist.
So werden im Übergang der Strukturen aus Figur 2a zu der Struktur aus Figur 2b die ursprünglichen vier anpassbaren Verbindungsmatrizen A, B, C und D durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s in unmittelbarer Weise wie auch im Fall der Zeitpunkte t und t+1 in mittelbarer Weise. Hierbei ist nach Durchführung der Zeittransformation von t auf t+1 ein innerer Zustand Id (t+1) zwischengeschaltet, welcher nachfol- gend durch eine Matrix, einer Konsistenzmatrix, welche eine Identitätsmatrix Id beinhaltet, auf den Zustand s (t+1) trans¬ formiert wird. Die Zeittransformation allerdings wurde aber bereits mit der Transformation durch die Matrix A im ersten Schritt durchgeführt, so dass der Zustand Id (t+1) schon dem nächsten Zeitschritt t+1 gegenüber t zugehörig ist.
Die Zeittransformationsmatrix A weist alleinig anpassbare Parameter auf, die im Training der Struktur einstellbar sind.
Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und
D sind in Figur 2b angegeben. Die sich dabei ergebenden neuen
T
Verbindungsmatrizen [Id, 0] bzw. [-Id, 0] weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in Figur 2b gezeigte Struktur gilt st = f\st_ι,ut ,yt —yt J und yt = [ld,θ]st . Durch Wahl der Matrix C mit
C=
Figure imgf000031_0001
werden die Ausgabegrößen mit den Ver¬ steckten Schichten s für die ersten Zeitpunkte identifiziert. Im Gegensatz zum RNN wird hier die Anpassung zur Skalierung der Ausgabe intern vorgenommen. Durch Wahl der Matrix B mit
Figure imgf000031_0002
e9ϊ(dim(s)xdim(u)-l-dim(_y)) wird die Verarbeitung der Eingabe zu einem Teil der Matrix A. Eine Fehlerkorrektur ist implizit in dieser Struktur realisiert durch die Interaktion der spezialisierten Matrixen A, B und C sowie durch das Training der Zero-Neuronen mit dem Ziel zt —>0. Für die Zukunft ist keine Fehlerkorrektur verfügbar, weshalb die Fehlerkorrektur gefiltert wird. Der zwischengeschaltete Filter setzt die Annahme um, dass die Prognosen richtig sind (Fehler = 0) .
Figur 2c zeigt die aus Figur 2b entwickelte, weiter verbes¬ serte Struktur, ein so genanntes "Dynamical Consistent Error Correction Recurrent Neural Network" (DCECRNN) .
Das dargestellte DCECRNN ist entsprechend vorheriger Struktu¬ ren ein über die 4 Zeitpunkte t-1, t, t+1 und t+2 entwickel¬ tes RNN. Es weist eine Eingangschicht mit drei Eingangsteil- schichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Mat-
T rizen [-Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte ent- falteten versteckten Schichten St-2? st-l' st' st+l unc* st+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z-^-i und Z^ mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)t+l? (y, u)t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwi¬ schenschichten Idt+i und Idt+2 •
Für die in Figur 2c gezeigte Struktur gilt st =f\st-\,ut —uf,yt -yfJ und (^J= [W,θ]sr . In dieser Struktur fin¬ det eine Erweiterung gemäß dim(z)=dim(;y)-l-dim(w) statt. Die Konsistenzmatrix hat die gleiche Anzahl an Nullen in der ersten Hälfte ihrer Diagonale. Dadurch wird eine dynamisch konsi¬ stente Modellierung aller Eingabevariablen erreicht . In die- ser Ausführung erfüllt die Matrix A immer den gleichen Zweck: sie modelliert die Dynamik. Eine Besonderheit dieser Struktur besteht darin, dass das Netz intern von den vorgegebenen Eingabegrößen abweichen kann - dies ist eine rekurrente Umset¬ zung des "Cleaning"-Prinzips . In den Figuren 3a und 3b sind das DCRNN (Fig.3a) und das DCECRNN (Fig.3b) mit jeweils einer gekennzeichneten erfindungsgemäßen Grundstruktur dargestellt.
Die Grundstruktur umfasst in beiden Fällen die Eingangschicht (y, u) t i welche mit der versteckten Schicht St verbunden ist, sowie die Ausgangsschicht (y, u)t+i? welche mit der ver¬ steckten Schicht s-£ bzw. versteckten Zwischenschicht Id-^+i verbunden ist.
Die beiden versteckten Schichten sind über die Verbindungsmatrix A, welche insbesondere geeignet ist die innere Dynamik des modellierten Systems zu beschreiben und welche die Zeit¬ transformation vom Zeitpunkt t auf den Zeitpunkt t+1 aus- führt, verbunden.
RNNs beschreiben die fragliche Dynamik auf Grundlage der be¬ obachtbaren Variablen und eignen sich somit besonders gut für eine Dynamik mit glattem Verlauf.
ECNNs beschreiben eine Dynamik durch eine interne Erwartung und die Abweichung zu den beobachtbaren Variablen. Sie eignen sich besonders gut für Dynamiken für einen unruhigen Verlauf. Beide Ansätze sind dynamisch konsistent. Es stellt sich die Aufgabe, eine Struktur zu finden, welche beide Aspekte ver¬ eint .
In Figur 4 ist eine Weiterentwicklung des DCRNN und des DCECRNN, ein so genanntes "Dynamical Consistent Neural Net- work" (DCNN), dargestellt.
Das dargestellte DCNN ist ein über die 5 Zeitpunkte t-2, t- l,t, t+1 und t+2 entwickeltes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Ein- gangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
T Diese Eingangsteilschichten sind über Matrizen [-Id, 0, Id] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte ent¬ falteten versteckten Schichten St-2? st-l' st' I(^t+1' st+l und Idt+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z^-i und z-£ mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)t+l? (Yr u)t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwi¬ schenschichten Idt+i und Idt+2 •
Die Verbindungen zwischen den versteckten Schichten entsprechen im wesentlichen denen aus Figur 3b. Allerdings ist die Konsistenzmatrix zwischen den versteckten Schichten Idt+i und st+2 wie in Figur 4 angegeben verändert .
Die in Figur 4 gezeigte Struktur vereint die beiden Arten der Prognose, die den Figuren 3a und 3b zugrunde liegen und die entsprechend für RNNs und ECNNs angesprochen wurden. Die Ein¬ gabegrößen werden den versteckten Schichten s mit den ersten Zeitpunkten zur Durchführung der Fehlerkorrektur zugeführt. Sie werden ebenfalls den versteckten Schichten s mit den letzten Zeitpunkten zugeführt, um die Rolle regulärer Einga- begrößen zu übernehmen, wie dies in einem RNN stattfindet. Die Konsistenzmatrix garantiert dynamische Konsistenz für beide Strukturen. Die den versteckten Schichten s (in der Zukunft der versteckten Zwischenschicht Id) vorgeschalteten, durch einen Pfeil angezeigten Verbindungen regeln alle Offsets .
Weiterführende Struktur-Ausführungsbeispiele: "DCNN mit modi¬ fizierter Consistency Matrix" (Fig.9), "DCNN mit akkumulierten Ausgangsneuronen" (Fig.10)
In Figur 9 ist ein modifiziertes DCNN dargestellt, bei wel¬ chem verfügbare zukünftige Information, hier u t+1 und u t+2r beispielsweise bekannte Kalenderinformation, berücksichtigbar ist .
Diese modifizierte Struktur weist Änderungen (gegenüber dem DCNN) bei der Konsistenzmatrix auf.
Weiter weist die modifizierte Struktur zwei weitere Teilein¬ gangsschichten auf, (0,u t+l)und (0,u t+2) r welche mit den versteckten Zwischenschichten Id-^+i und Id-^+2 i-n obiger be¬ schriebener Weise verbunden sind.
Die zukünftigen Eingabevektoren enthalten Elemente mit der verfügbaren Information. Alle unbekannten Komponenten werden auf 0 gesetzt. Die Matrizen, welche die Eingangsteilschichten mit den jeweils zeitpunktgleichen versteckten Schichten s verbinden, sind unveränderlich und für alle Zeitpunkte gleich.
Aus Figur 9 geht hervor, dass die geänderte Konsistenzmatrix Teilmatrixen D aufweist. Für diese Diagonalen Teilmatrixen
Figure imgf000035_0001
In Figur 10 ist ein weiteres modifiziertes DCNN dargestellt, bei welchem die Ausgangsschichten miteinander verbunden sind, wodurch die Ausgangsgrößen akkumulierbar sind. Um längerfristige Prognosen durchführen zu können ist das in Figur 10 dargestellte modifizierte DCNN über die Zeitpunkt t- 1 bis t+4 entfaltet.
Diese modifizierte Struktur weist insgesamt vier Ausgang¬ schichten auf, die über die Identitätsmatrix Id miteinander wie dargestellt verbunden sind.
An den Ausgangsschichten, die wie obig beschrieben über die Verbindungsmatrizen [Id, 0] mit den zugehörigen versteckten Schichten verbunden sind, sind Zustände In (y^+i/yt) ^ ln (Yt+2/Yt)' ln (Yt+3/Yt) und ln (Yt+4/Yt) abgreifbar.
Ferner weist diese Struktur zwei Eingangsschichten auf, an welchen die Zustände (u t-l?ln(Y t-l/Y t-2)) unc* (u t,ln(y t/y t-l) ) anlegbar sind.
Die in Figur 10 gezeigte Struktur verzichtet darauf, Lang- zeitprognosen durch wiederholte Bündel von Verbindungen zu unterstützen. Statt dessen wurde eine unveränderliche Identi¬ tät zwischen den unterschiedlichen Prognose-Horizonten hinzugefügt .
Im Folgenden wird die Weiterentwicklung der oben beschriebenen dynamisch konsistenten rekurrenten neuronalen Netze anhand der Fig. 11 bis 23 beschrieben. Es sei an dieser Stelle darauf hingewiesen, dass Prinzipien oder Elemente einzelner Ausführungsformen, welche oben beschrieben wurden, mit EIe- menten oder Ausführungsformen, wie sie im Folgenden beschrieben werden, kombinierbar sind. Ebenso sind Elemente einzelner im Folgenden beschriebenen Ausführungsformen miteinander kombinierbar. Insbesondere lassen sich auch oben genannte Vorteile in analoger Art auf die folgenden Ausführungsformen ü- bertragen. Fig. IIa zeigt eine ähnliche Weiterbildung wie Fig. Ib von der neuronalen Struktur aus Fig. Ia. Dabei sind jedoch die Raumtransformationen von Eingaberechenelementen zu der Eingangsschicht zu Zustandsrechenelementen der versteckten Schicht gemäß oben definierter Gleichung (7) festgelegt. Ferner ist die Raumtransformation von Zustandsrechenelementen der versteckten Schicht zu Ausgaberechenelementen der Ausgabeschicht gemäß der oben definierten Gleichung (8) festgelegt. Dadurch werden die Ausgänge des neuronalen Netzes je- weils mit den ersten Zustandsvariablen des Zustandsvektors st identifiziert. Somit werden alle Parameter bei dem Back Pro- pagation (Lernalgorithmus zum Training des neuronalen Netzes) gleich behandelt. Die oberen oder ersten Elemente des Zu¬ standsvektors st entsprechen jeweils den Ausgabewerten, die von den Ausgaberechenelementen yt ausgegeben werden.
In Gleichung (7) und (8) bezeichnet "Id" eine Identitätsab¬ bildung bzw. Identitätsmatrix. Die Dimension der Identitätsmatrix in Gleichung (7) entspricht dabei der Dimension des Eingangsvektors ut. Die Dimension der Identitätsmatrix in Gleichung (8) entspricht der Dimension des Ausgabevektors bzw. Ausgangsvektors bzw. der Dimension der Ausgaberechenele¬ mente yt.
Mit ut werden in Fig. IIa Einflussgrößen gekennzeichnet und mit yt Zielgrößen. yt kennzeichnet beobachtbare Werte bzw.
"Beobachtbare" (observables) . In Fig. IIb sind in y|* die be¬ obachtbaren Größen zusammengefasst, das heißt die bekannten Einflussgrößen und die bekannten Zielgrößen (Trainingswerte) . An den Ausgangsneuronen bzw. Ausgaberechenelementen yt werden die Erwartungswerte bzw. Vorhersagen für die Zielgrößen und/oder Einflussgrößen ausgegeben.
Die folgenden Gleichungen (9) bis (11) beschreiben die Netz- werkarchitektur aus Fig. IIa:
Figure imgf000038_0001
t > 0 : s t = tanh( As t_x + c) :io)
yt=[ld 0 θ]st,min∑(yt-y?) :ii)
Das folgende Gleichungssystem (12) bis (14) beschreibt die Netzwerkarchitektur aus Fig. IIb:
t<0: sf =tanh As1-1 + c :i2)
Figure imgf000038_0002
vld/
t > 0 : s t = tanh( As t_λ + c) :i3)
yt=[ld 0 θ]st,m Ai,cn∑(yt-y?) :i4)
Fig. 12 zeigt eine erste Eingabeneuronenschicht El als erstes Eingaberechenelement, eine zweite Eingabeneuronenschicht E2 als zweites Eingaberechenelement, eine erste Zustandsneuro- nenschicht Zl als erstes Zustandsrechenelement, eine zweite
Zustandsneuronenschicht Z2 als zweites Zustandsrechenelement, eine dritte Zustandsneuronenschicht Z3 als drittes Zustands¬ rechenelement und erste bis dritte Ausgabeneuronenschichten Al, A2 bzw. A3. Dabei bildet die dritte Ausgabeneuronen- schicht A3 das dritte Zustandsrechenelement im Sinne obiger Definition.
Dabei ist die zweite Zustandsneuronenschicht Z2 mit der ers¬ ten Zustandsneuronenschicht Zl über eine erste mittelbare Verbindung Z2-Z1 verbunden. Die erste Zustandsneuronenschicht Zl ist mit der dritten Zustandsneuronenschicht Z3 über eine zweite mittelbare Verbindung Z1-Z3 verbunden. Dabei wird die erste mittelbare Verbindung Z2-Z1 durch eine Zeittransformation mittels der Matrix A und eine erste Konsistenztransformation C< gebildet. Die zweite mittelbare Ver¬ bindung Z1-Z3 wird durch die Zeittransformation mittels der Matrix A, im Folgenden bezeichnet als Zeittransformation A, und eine zweite Konsistenztransformation C> gebildet.
Bei der in Fig. 12 gezeigten Ausführungsform gilt:
Figure imgf000039_0001
Die erste mittelbare Verbindung Z2-Z1 für t<0 ist somit un¬ terschiedlich zu der zweiten mittelbaren Verbindung Z1-Z3 für t>0. Durch die Wahl der Matrizen C< und C> wie in den Glei¬ chungen (15) und (16) angegeben, wird sichergestellt, dass die Rekursion in der Vergangenheit für t<0 und in der Zukunft für t>0 im gleichen Bereich bzw. der gleichen Partition des Zustandsvektors wirkt. Durch die unterschiedliche Wahl der Matrizen C< und C> ergibt sich insbesondere eine Vereinfa¬ chung der in Fig. Ic gezeigten Architektur. Wie man bei einem Vergleich der Fig. 12 und Ic erkennen kann, entfallen für t>0 zusätzliche Neuronenschichten (in Fig. Ic mit "tanh" ge¬ zeichnet) .
Der Zustandsvektor st ist gegeben durch Gleichung (5) .
Die Netzwerkarchitektur aus Fig. 12 kann durch das folgende Gleichungssystem beschrieben werden:
Figure imgf000039_0002
Id 0 θ\ t >0: s = 0 Id 0 IaIUi(As1-1-I- c) :i8)
Id 0 0)
yt=[ld 0 0]st, min∑(yt-yt d) :i9)
Fig. 13 zeigt eine weitere Ausführungsform der Erfindung, bei der gegenüber der Ausführungsform in Fig. 12 eine Fehlerkorrektur gemäß dem Prinzip der fehlerkorrigierenden neuronalen Netze möglich ist. Dabei ist die erste Konsistenztransforma¬ tion C< wie folgt definiert:
Figure imgf000040_0001
Die zweite Konsistenztransformation C> ist wie folgt defi¬ niert :
Figure imgf000040_0002
Der Zustandsvektor st ist gegeben durch Gleichung (6) .
Die Netzwerkarchitektur gemäß der Ausführungsform von Fig. 13 kann durch folgendes Gleichungssystem beschrieben werden:
Figure imgf000040_0003
t>0: s, +c) (23)
Figure imgf000040_0004
yt=[ld 0 0]st, min∑(yt-yt d) (24) Bei der Ausführungsform aus Fig. 13 ist sichergestellt, dass die gebildete Rekursion sowohl in der Vergangenheit, das heißt für t<0, als auch in der Zukunft, das heißt für t>0 auf dem gleichen Bereich des Zustandsvektors st wirkt.
Die Fehlerkorrektur wird in Fig. 13 sichergestellt durch das untere linke Element in der Matrix C< "-Id" . Da im Zustands- vektor im unteren Bereich jeweils die Eingangswerte zum je- weiligen Zeitpunkt liegen, werden diese mit "-1" auf Grund der Matrix "-Id" (unteres linkes Element der Matrix C< mul¬ tipliziert. Wie Gleichung (22) zeigt, wird auf den unteren Bereich des Zustandsvektors st für t< die Eingangsgröße yt d addiert. Somit ergibt sich das Prinzip der Fehlerkorrektur.
Fig. 14 zeigt eine weitere Ausführungsform der Erfindung gemäß einem ersten Realisierungsbeispiel. Dabei ist ein dyna¬ misch konsistentes rekurrentes fehlerkorrigierendes neurona¬ les Netz gezeigt, das mit folgendem Gleichungssystem be- schrieben werden kann:
Figure imgf000041_0001
yt = [ld 0 0]st, min∑(yt -y?) ( 27 )
Die erste Konsistenztransformation C< ist gegeben durch Gleichung (15) und die zweite Konsistenztransformation C> ist ge- geben durch Gleichung (16) .
Bei der in Fig. 14 gezeigten Ausführungsform ist der Zu- standsvektor st gegeben durch Gleichung (5) . Fig. 15 zeigt eine weitere Ausführungsform der Erfindung gemäß einem zweiten Realisierungsbeispiel. Bei dem zweiten Rea¬ lisierungsbeispiel handelt es sich um eine alternative Archi¬ tektur zu der Architektur des ersten Realisierungsbeispiels aus Fig. 14.
Die Architektur aus Fig. 15 kann beschrieben werden durch folgendes Gleichungssystem:
t < 0 : s = ( 28 )
Figure imgf000042_0001
't-l + c ( 2 9 )
Figure imgf000042_0002
yt = [ld 0 θ]st, min∑(yt -y?) : 30 )
Der Zustandsvektor st ist bei der in Fig. 15 gezeigten Ausführungsform gegeben durch Gleichung (6) . Die erste Konsistenztransformation C< ist gegeben durch Gleichung (20) und die zweite Konsistenztransformation C> ist gegeben durch Gleichung (21) .
Bei den jeweils gezeigten Architekturen ist zu beachten, dass die Berechnung eines Folgezustandes des Systems jeweils von den durch den Zustandsvektor st gegebenen Größen abhängt. Dabei ist die Abhängigkeit für Zeitpunkte für die t<0 gilt un¬ terschiedlich als für Zeitpunkte für die t>0 gilt. Dies er¬ gibt sich auch anhand der Gleichungen (5) und (6) . Für t<0 werden im unteren Bereich des Zustandsvektors st gemäß Glei- chung (5) Beobachtungswerte bzw. Observations und gemäß Glei¬ chung (6) Fehlerkorrekturwerte bzw. Error Correction Werte verwendet. Für t>0 werden in Gleichung (5) im unteren Bereich Erwartungswerte bzw. Expectations verwendet und gemäß Glei- chung (6) Null bzw. Zero (vgl. geschweifte Klammer in Glei¬ chungen (5) und (6)) .
Fig. 16 zeigt eine allgemeine Struktur gemäß der vorliegenden Erfindung. Die gezeigte Struktur in Fig. 16 kann mit folgenden Gleichungssystem beschrieben werden:
Figure imgf000043_0001
Bei der Struktur bzw. Architektur in Fig. 16 ist die erste Konsistenztransformation C< gegeben durch Gleichung (15) und die zweite Konsistenztransformation C> durch Gleichung (16) .
Bei den Ausführungsformen der Fig. 14, 15 und 16 wird die erste Konsistenztransformation und zweite Konsistenztransfor¬ mation durch je zwei Konsistenztransformationskomponenten ge¬ bildet.
Die erste mittelbare Verbindung Z2-Z1 und die zweite mittel¬ bare Verbindung Z1-Z3 bestehen somit jeweils aus drei Trans- formationen. Zunächst erfolgt jeweils eine Transformation mit einer Matrix C und anschließend die Zeittransformation mit der Matrix A. Darauf folgt für t<0 eine Transformation mit der Matrix C< und für t>0 eine Transformation mit der Matrix C> . Die Matrix C< und die Matrix C> sind dabei unterschiedlich und je nach Ausführungsform wie oben angegeben definiert. Je nach Ausführungsform verändert sich die Matrix C. Für die Ausführungsformen in den Fig. 14 und 16 ist die Matrix C gegeben durch:
Figure imgf000044_0001
Für die Ausführungsform aus Fig. 15 ist die Matrix C gegeben durch:
Figure imgf000044_0002
Bei der Matrix C handelt es sich um die erste Konsistenz¬ transformationskomponente im Sinne der Erfindung und C< bzw. C> bildet jeweils die zweite Konsistenztransformationskompo- nente. Bei dem erfindungsgemäßen Verfahren ist mittels der Matrix C der erste Konsistenztransformationsschritt durch¬ führbar und mittels der Matrix C< bzw. C> jeweils der zweite Konsistenztransformationsschritt .
Fig. 17 zeigt eine weitere Ausführungsform der Erfindung, bei der die erste und zweite Konsistenztransformation jeweils ge¬ bildet wird durch eine Matrix CE. Die Matrix CE ist gegeben durch folgende Gleichung:
Figure imgf000044_0003
Die Architektur aus Fig. 17 lässt sich somit mittels folgen¬ dem Gleichungssystem beschreiben:
Figure imgf000045_0001
yt = [ld 0 θ]st, min^(yt - y?)2 , wobei gilt : 38 )
)
Figure imgf000045_0002
In Fig. 17 wird somit zwischen der Vergangenheit (t≤O) und der Zukunft (t>0) nicht mehr unterschieden. Statt dessen wird modelliert, ob ein Eingang bzw. Eingangswert vorhanden ist oder nicht. Die Transformation mit der Matrix C in Fig. 17 ist definiert durch Gleichung (35) . Das heißt, der erste Teil der Konsistenztransformation, gebildet durch die erste Konsistenztransformationskomponente C ist unabhängig von dem Vorhandensein bzw. Vorliegen eines Eingangs. Dagegen ist die zweite Konsistenztransformationskomponente, im Falle der Aus¬ führungsform von Fig. 17 gegeben durch die Matrix CE, abhängig vom Vorliegen eines Eingangswerts und damit im Allgemei¬ nen für jeden Zeitpunkt unterschiedlich.
Fig. 18 zeigt eine Ausführungsform der Erfindung, mit einem Startzustand S die Initialisierung des Startzustands S er¬ folgt dabei so, dass die Interpretation der Zustandsrekursion über der Zeit konsistent ist. Das Prinzip des Zustandsinitia- lisierungsverfahrens ist für alle Typen bzw. Arten von dyna- misch konsistenten neuronalen Netzwerken identisch.
Die Architektur in Fig. 18 kann beschrieben werden durch folgendes Gleichungssystem:
)
Figure imgf000045_0003
yt = [ld 0 θ]st, min∑(yt - y?) : 4 i ) Fig. 19a zeigt eine Ausführungsform, bei der der Startzustand S unter Verwendung von Rauschen erzeugt wird. Durch das Rauschen werden die in Fig. 19b gezeigten Trajektorien in Form von Röhren erzeugt. Die Matrix A wird dabei so trainiert, dass die Unsicherheit des Start- bzw. Initialzustands über die Zeit herausgefiltert wird. Endliche Volumentrajektorien wirken als eine Regularisierung und Stabilisierung der Dynamik des Systems.
Fig. 20 zeigt ein Ausführungsbeispiel der Erfindung, bei wel¬ chem dem System Rauschen in Zustandsneuronenschichten bzw. Zustandsrechenelementen zugefügt wird, welche Zeitpunkte rep¬ räsentieren, für die t>0 gilt. Die Architektur in Fig. 20 ist vorteilhaft, da für die Vergangenheit, das heißt für t<0, der Einfluss von unbekannten externen Größen durch den Fehlerkorrekturmechanismus modelliert wird. In der Zukunft wird die Dynamik des Systems gegenüber der Unsicherheit der Umwelt durch das hinzugefügte Rauschen stabilisiert. Für eine deter- ministische Vorhersage wird die Anwendung von Rauschen ausge¬ lassen.
Fig. 21 zeigt ein Beispiel zur Bestimmung der Dimension des Zustandsvektors st. In dem Beispiel von Fig. 21 sind drei Zu- standsneuronenschichten vorhanden, so dass sich eine Gedächtnislänge μ von 3 ergibt, das heißt es gilt μ=3. Allgemein ist die Gedächtnislänge μ bestimmt durch die Fehler entlang des Entfaltens (unfolding) .
Eine maximale Konnektivität con ist gegeben durch die Dimen¬ sion des Zustandsvektors st einer vollständig vernetzten Mat¬ rix A.
Es gilt somit con=dim(s) , wobei die Dimension dim(s) von st als Schätzung bestimmt wird. Sie kann auch während des Trai¬ nings oder Prunings (Ausdünnen) des Netzes gemessen werden. Anstatt der Optimierung des Spärlichkeitsniveaus bzw. Sparse- Niveaus der Matrix A wird das dynamische System neu festge¬ legt durch Vergrößern der Dimensionalität . Die neue Dimension für die Zustandsvektoren ergibt sich mittels folgender Glei- chung:
dim(snew) =μ-con (42)
Dabei wird die neue Matrix Aneu mittels folgender Gleichung initialisiert:
Figure imgf000047_0001
Das Vergrößern der Dimension überwindet das Dilemma zwischen Gedächtnis und Rechenleistung, da das resultierende große Netz beide Merkmale kombinieren kann.
Die Fig. 22a bis 22c zeigen Simulationsergebnisse hinsicht¬ lich der Optimierung der Dimension der Zustandsvektoren. Da- bei gelten folgende Test- bzw. Trainingsbedingungen:
st =tanh(A-st_μ)+εt (44)
mit : dim(s) = con = 5, μ = 3, εt = noise 20 % ( 45 )
Anwendungs-Ausführungsbeispiele: "Prognose eines Wechselkurs¬ verlaufes (US-$/Brit. Pfund)" (Fig. 23a), "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/-entwicklung" (Fig. 23b), "Prognose einer Stromlastentwicklung" (Fig. 23c)
In den Figuren 23a, 23b und 23c sind Beispiele für die Anwen¬ dung der erfindungsgemäßen neuronalen Strukturen und deren Ergebnisse angegeben. Es ist darauf hinzuweisen, dass die an¬ gegebene Beispiele nicht einschränkend zu verstehen sind. Die Erfindung kann unbeschränkt dort eingesetzt werden, wo dyna¬ mische System beschrieben werden sollen, beispielsweise zu einer Prognose. Die Beispiele wurden mit dem Programm SENN, Version 2.3 durchgeführt .
Figur 23a zeigt ein DCNN mit akkumulierten Ausgängen (s. Struktur Figur 23) für eine "Prognose eines Wechselkursverlaufes (US-$/Brit. Pfund) . Figur 23b zeigt ein DCNN für eine "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/- entwicklung" . Figur 23c zeigt ein DCNN für eine "Prognose einer Stromlastentwicklung" .
Dargestellt sind in den Figuren 23a, 23b und 23c jeweils die verwendete neuronale Struktur sowie Zeitverläufe der jeweili¬ gen Prognosegröße.
Es sei noch angemerkt, dass sämtliche beschriebenen Ausfüh¬ rungsformen sowohl gemäß dem oben beschriebenen Forward- als auch gemäß dem Backward-Approach realisierbar sind.
Im folgenden werden Aspekte und Vorteile der Erfindung noch einmal zusammengefasst :
Konventionelle Prognoseverfahren gehen davon aus, dass die Umweltbedingungen des zu beschreibenden Systems in der Zu- kunft konstant bleiben. Diese Prämisse ist gerade in der heu¬ tigen Zeit durch Fortschritte im Bereich der Informations¬ und Kommunikationstechnologie bei der Modellierung von offe¬ nen technischen oder ökonomischen dynamischen Systemen immer fragwürdiger und führt zu schlechten Prognosen. Eine Model- lierung die dieser Tatsache Rechnung trägt führt zu großen rekurrenten neuronalen Netzwerken. Um Instabilitäten in der Modellierung zu vermeiden, ist auf räumliche und zeitliche Konsistenz zu achten, d. h., die einzelnen beschreibenden Variablen müssen in Vergangenheit, Gegenwart und Zukunft stets die gleiche Bedeutung haben. Bisher wurde in der Zeitreihenanalyse bei der Prognose die Annahme einer konstanten Umwelt unterstellt.
In obiger Beschreibung wurden mehrere Architekturen von neu- ronalen Netzen vorgestellt, die die oben genannten Kriterien erfüllen. Der konsistente Informationsfluss wird durch die so genannten Konsistenzmatrizen erreicht.
Die großen rekurrenten neuronal Netze (Netze mit periodischem Aufbau zu verschiedenen Zeitschritten) erlauben es, technische und ökonomische Zusammenhänge mit 400 Zustandsvariablen oder mehr zu beschreiben. So können nicht nur präzisere Analysen dynamischer Systeme durchgeführt werden, sondern es wird auch die Prognose der weiteren Systementwicklung verbes- sert .
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] S. Haykin, Neural Networks: A Comprehensive Foundation,
Prentice Hall, Second Edition, ISBN 0-13-273350-1, S. 732-789, 1999.
[2] David E. Rumelhart et al. , Parallel Distributed Process¬ ing, Explorations in the Microstructure of Cognition, Vol. 1: Foundations, A Bradford Book, The MIT Press, Cambridge, Massachusetts, London, England, 1987
[3] H. Rehkugler und H. G. Zimmermann, Neuronale Netze in der Ökonomie, Grundlagen und finanzwirtschaftliche Anwendungen, Verlag Franz Vahlen München, ISBN 3-8006-1871-0, S. 3-90, 1994.
[4] WO00/08599.
[5] WO00/55809 und WO02/27654.
[6] Zimmermann H.G., Neuneier R., Grothmann R., Modelling of Dynamic Systems by Error-Correction-Neural-Networks, in Soofe and Cao (Eds.), Forecasting Financial Data, Kluwer Verlag, ISBN 0792376803, 2002.
[7] DE 10356655.4

Claims

Patentansprüche
1. Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit miteinander verknüpften Rechen- elementen eines neuronalen Netzes, welche Rechenelemente je¬ weils einen Zustand des Systems und welche Verknüpfungen je¬ weils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren, mit: - wenigstens einem ersten Eingaberechenelement (El) , welchem Zustandsgrößen ( y'f ) des Systems zu einem ersten Zeitpunkt
(t) in einem Zustandsraum zuführbar sind, wenigstens einem zweiten Eingaberechenelement (E2), wel¬ chem Zustandsgrößen ( yd t ) des Systems zu einem früheren Zeitpunkt (t-1) in einem Zustandsraum zuführbar sind, wobei der frühere Zeitpunkt (t-1) vor dem ersten Zeitpunkt (t) liegt, wenigstens einem ersten Zustandsrechenelement (Zl), wel¬ ches den Systemzustand zum ersten Zeitpunkt (t) in einem Transformationsraum repräsentiert, wenigstens einem zweiten Zustandsrechenelement (Z2), wel¬ ches den Systemzustand zum früheren Zeitpunkt (t-1) im Transformationsräum repräsentiert, wenigstens einem dritten Zustandsrechenelement (Z3) , wel- ches den Systemzustand zu einem auf den ersten Zeitpunkt
(t) folgenden späteren Zeitpunkt (t+1) im Transformations¬ raum repräsentiert, wobei zwischen Zustandsrechenelementen, welche Systemzustände zu aufeinander folgenden Zeitpunkten repräsentieren, eine Zeittransformation (A) von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar ist, und mit wenigstens einem Ausgaberechenelement (A3), an welchem Zustandsgrößen ( yt ) des Systems zum späteren Zeitpunkt im Zustandsraum abgreifbar sind, wobei das erste Eingaberechenelement (El) mit dem ersten Zu¬ standsrechenelement (Zl) und das zweite Eingaberechenele- ment (E2) mit dem zweiten Zustandsrechenelement (Z2) ver¬ knüpft sind, wobei durch die Verknüpfungen jeweils eine Raumtransformation aus dem Zustandsraum in den Transformationsraum durchführbar ist, - das Ausgaberechenelement (A3) mit dem dritten Zustandsre¬ chenelement (Z3) verknüpft ist, wobei durch die Verknüpfung eine Raumtransformation aus dem Transformationsraum in den Zustandsraum durchführbar ist, die der Anordnung im Zustandsraum zuführbaren und abgreif- baren Zustandsgrößen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Ziel¬ größe des dynamischen Systems aufweisen, die Transformationsparameter zur Durchführung der Raumtransformationen fest sind, und wobei - die Transformationsparameter zur Durchführung der Zeittransformation variabel sind, d a d u r c h g e k e n n z e i c h n e t , dass die Verknüpfung zwischen zwei Zustandsrechenelementen eine mittelbare Verknüpfung (Z2-Z1, Z1-Z3) ist, welche wenigs- tens eine Konsistenztransformation (C<, C>, C) und die Zeittransformation (A) umfasst, und dass die mittelbare Verknüpfung (Z2-Z1) zwischen dem zweiten Zustandsrechenelement (Z2) und dem ersten Zustandsrechenelement (Zl) , und die mittelbare Verknüpfung (Z1-Z3) zwi- sehen dem ersten Zustandsrechenelement (Zl) und dem dritten
Zustandsrechenelement (Z3) unterschiedlich sind, wobei die Zeittransformation durch eine Matrix A, die mittelbare Verknüpfung (Z2-Z1) zwischen dem zweiten Zustandsrechenelement (Z2) und dem ersten Zustandsrechenelement (Zl) als Produkt von Matrizen C • A • C< , und die mittelbare Verknüpfung (Z1-Z3) zwischen dem ersten Zustandsrechenelement (Zl) und dem dritten Zustandsrechenele¬ ment (Z3) als Produkt von Matrizen C • A • C> gebildet wer- den, mit :
Figure imgf000053_0001
oder
wobei Id eine Identitätsmatrix ist.
2. Anordnung nach dem vorangehenden Anspruch, d a d u r c h g e k e n n z e i c h n e t , dass zumindest ein Teil der Rechenelemente künstliche Neuronen sind.
3. Anordnung nach einem der vorangehenden Ansprüche, g e k e n n z e i c h n e t durch weitere Eingaberechenelemente, weitere Zustandsrechenele- mente und weitere Ausgaberechenelemente, die jeweils einem bestimmten Zeitpunkt zugeordnet sind, wobei jeweils ein Eingaberechenelement mit einem Zustands- rechenelement und ein Zustandsrechenelement mit einem Aus¬ gaberechenelement verknüpft sind und dadurch jeweils eine Raumtransformation durchführbar ist, und wobei ein Zustandsrechenelement mit dem Zustandsrechenelement des vorangehenden Zeitpunktes und mit dem Zustandsrechenelement des folgenden Zeitpunktes verknüpft ist und dadurch jeweils eine Zeittransformation durchführbar ist.
4. Anordnung nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Matrix C< in Abhängigkeit der dem System zum früheren Zeitpunkt zugeführten Zustandsgrößen veränderbar ist, und dass - die Matrix C> in Abhängigkeit der dem System zum ersten Zeitpunkt zugeführten Zustandsgrößen veränderbar ist.
5. Anordnung nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass zumindest ein Teil der Ausgaberechenelemente derart verknüpft sind, dass zukünftige Zustände akkumulierbar sind.
6. Anordnung nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass dasjenige Zustandsrechenelement, welches den zeitlich frühes¬ ten Zustand repräsentiert, mit einem Startzustand (S) initia¬ lisierbar ist, wobei der Startzustand unter Verwendung von Rauschen (Noise) ermittelbar ist.
7. Anordnung nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass dem System zum späteren Zeitpunkt Rauschen (ε) zuführbar ist.
8. Anordnung nach einem der vorangehenden Ansprüche, g e k e n n z e i c h n e t durch eine Messanordnung zur Erfassung physikalischer Signale, mit denen Zustände des dynamischen System beschrieben werden.
9. Verfahren zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit Hilfe eines neuronalen Netzes, bei dem
Zustandsgrößen des Systems zu einem ersten Zeitpunkt und zu einem vor dem ersten Zeitpunkt liegenden früheren Zeitpunkt einer Raumtransformation unterzogen werden, welche die Zustandsgrößen von einem Zustandsraum in einen Transformationsraum transformiert, die in den Transformationsraum transformierten Zustands- großen des früheren Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem früheren Zeitpunkt auf den ersten Zeitpunkt transformiert, die in den Transformationsraum transformierten Zustands- großen des ersten Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem ersten Zeitpunkt auf einen auf den ersten Zeitpunkt folgenden späteren Zeitpunkt transformiert, und bei dem die auf den späteren Zeitpunkt transformierten Zustands- größen einer Raumtransformation unterzogen werden, welche die auf den späteren Zeitpunkt transformierten Zustandsgrö- ßen von dem Transformationsraum in den Zustandsraum transformiert, wobei die Transformationen unter Verwendung von Transformations- parametern durchgeführt werden, die von dem Zustandraum in den Transformationsraum transformierten Zustandsgrößen als auch die von dem Transformationsraum in den Zustandsraum transformierten Zustandsgrößen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Zielgröße des dynami¬ schen Systems aufweisen, die Transformationsparameter zur Durchführung der Raumtransformationen fest sind, und wobei die Transformationsparameter zur Durchführung der Zeit- transformation variabel sind, d a d u r c h g e k e n n z e i c h n e t , dass die Transformation der Zustandsgrößen vom früheren auf den ersten Zeitpunkt durch eine Multiplikation von Matrizen C • A • C< durchgeführt wird, und dass - die Transformation der Zustandsgrößen vom ersten auf den späteren Zeitpunkt durch eine Multiplikation von Matrizen C • A • C> durchgeführt wird, wobei
A die Zeittransformation ist, und
Figure imgf000055_0001
oder
gilt,
Figure imgf000055_0002
wobei Id eine Identitätsmatrix ist.
10. Verfahren nach Anspruch 9, eingesetzt zu einer Prognose eines zukünftigen Systemverhal¬ tens des dynamischen Systems derart, dass das ermittelte zu- künftige Systemverhalten als die Prognose verwendet wird.
11. Verfahren nach einem Ansprüche 9 bis 10, eingesetzt zu einer Prognose eines Energieverbrauchs, insbe¬ sondere eines Verbrauchs von einer Gasmenge, oder eines Ener- giepreises, insbesondere eines Strompreises, oder einer mak- ro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems.
12. Computerprogramm mit Programmcode-Mitteln, um alle und/oder Teile der Schritte gemäß einem der Ansprüche 9 bis 11 durchzuführen, wenn das Programm auf einem Computer oder Teile des Programms auf mehreren Computern ausgeführt wird bzw. werden.
13. Computerprogramm mit Programmcode-Mitteln gemäß Anspruch 12, die auf einem oder mehreren computerlesbaren Datenträger gespeichert sind.
14. Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, um alle und/oder Teile der Schritte gemäß einem der Ansprüche 9 bis 11 durch¬ zuführen, wenn das Programm auf einem Computer ausgeführt wird.
PCT/EP2005/056132 2004-12-10 2005-11-22 Verfahren und anordnung sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur ermittlung eines zukünftigen systemzustandes eines dynamischen systems WO2006061320A2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004059684.0 2004-12-10
DE102004059684A DE102004059684B3 (de) 2004-12-10 2004-12-10 Verfahren und Anordnung sowie Computerprogramm mit Programmmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems

Publications (2)

Publication Number Publication Date
WO2006061320A2 true WO2006061320A2 (de) 2006-06-15
WO2006061320A3 WO2006061320A3 (de) 2007-04-19

Family

ID=35613059

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2005/056132 WO2006061320A2 (de) 2004-12-10 2005-11-22 Verfahren und anordnung sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur ermittlung eines zukünftigen systemzustandes eines dynamischen systems

Country Status (2)

Country Link
DE (1) DE102004059684B3 (de)
WO (1) WO2006061320A2 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008014126B4 (de) 2008-03-13 2010-08-12 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761386A (en) * 1996-04-05 1998-06-02 Nec Research Institute, Inc. Method and apparatus for foreign exchange rate time series prediction and classification
WO2000008599A2 (de) * 1998-08-07 2000-02-17 Siemens Aktiengesellschaft Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
WO2003025851A2 (de) * 2001-09-19 2003-03-27 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung eines aktuellen ertsten zustands einer ersten zeitlichen abfolge von jeweils ersten zuständen eines dynamisch veränderlichen systems

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002027654A2 (de) * 2000-09-29 2002-04-04 Siemens Aktiengesellschaft Verfahren und anordnung zur rechnergestützten abbildung mehrerer zeitlich veränderlicher zustandsbeschreibungen und verfahren zum training einer solchen anordnung

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761386A (en) * 1996-04-05 1998-06-02 Nec Research Institute, Inc. Method and apparatus for foreign exchange rate time series prediction and classification
WO2000008599A2 (de) * 1998-08-07 2000-02-17 Siemens Aktiengesellschaft Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
WO2003025851A2 (de) * 2001-09-19 2003-03-27 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung eines aktuellen ertsten zustands einer ersten zeitlichen abfolge von jeweils ersten zuständen eines dynamisch veränderlichen systems

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN C L ET AL: "RAPID LEARNING AND DYNAMIC STEPWISE UPDATING FOR FORECASTING TIME SERIES USING A FLAT NEURAL NETWORK" 1996 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS). CIRCUITS AND SYSTEMS CONNECTING THE WORLD. ATLANTA, MAY 12 - 15, 1996, IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), NEW YORK, IEEE, US, Bd. VOL. 1, 12. Mai 1996 (1996-05-12), Seiten S18-S21, XP000825674 ISBN: 0-7803-3074-9 *
HAYKIN S: "Neural Networks: A Comprehensive Foundation, PASSAGE" NEURAL NETWORKS. A COMPREHENSIVE FOUNDATION, XX, XX, 1999, Seiten 732-789, XP002344426 in der Anmeldung erwähnt *
YAN L ET AL: "TIME SERIES PREDICTION VIA NEURAL NETWORK INVERSION" 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PHOENIX, AZ, MARCH 15 - 19, 1999, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY : IEEE, US, Bd. VOL. 2, 15. März 1999 (1999-03-15), Seiten 1049-1052, XP000900304 ISBN: 0-7803-5042-1 *

Also Published As

Publication number Publication date
WO2006061320A3 (de) 2007-04-19
DE102004059684B3 (de) 2006-02-09

Similar Documents

Publication Publication Date Title
EP2112568B1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP2106576B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
DE19531967C2 (de) Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems
WO2005024717A1 (de) System und verfahren zur automatisierten erfahrungstarifierung und/oder schadensreservierung
WO2013170843A1 (de) Verfahren zum trainieren eines künstlichen neuronalen netzes
DE102021200012A1 (de) Optimierte quantisierung für neuronale netze mit verringerter auflösung
DE112020003050T5 (de) Fehlerkompensation in analogen neuronalen netzen
Lum et al. Industrial electrical energy consumption forecasting by using temporal convolutional neural networks
EP1252566B1 (de) Anordnung miteinander verbundener rechenelemente und verfahren zur rechnergestützten ermittlung eines zweiten zustands eines systems in einem ersten zustandsraum aus einem ersten zustand des systems in dem ersten zustandsraum
DE10324045B3 (de) Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemverhaltens eines dynamischen Systems
WO2006061320A2 (de) Verfahren und anordnung sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur ermittlung eines zukünftigen systemzustandes eines dynamischen systems
DE69328596T2 (de) Optimierung eines Neuralnetzwerks mit Vorwärtskopplung
DE4417932A1 (de) Paralleldatenverarbeitungssystem
DE102018109851A1 (de) Verfahren und Vorrichtung zum Ermitteln einer Netzkonfiguration eines neuronalen Netzes
DE112021002742T5 (de) Training oszillatorischer neuronaler netze
WO2012113635A1 (de) Verfahren zum rechnergestützten lernen eines rekurrenten neuronalen netzes zur modellierung eines dynamischen systems
DE102020123155A1 (de) Quantisierungsverfahren eines künstlichen neuronalen Netzwerks und Operationsverfahren unter Verwendung eines künstlichen neuronalen Netzwerks
DE10356655B4 (de) Verfahren und Anordnung sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems
EP1145190B1 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
DE102008014126A1 (de) Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes
DE102006042975A1 (de) Verfahren zum Betrieb eines Kommunikationsnetzes
Betz et al. The Best of Both Worlds? Augmenting the Har Model by Convolutional Neural Net-Based Volatility Predictors
WO2020089287A1 (de) Datenverarbeitungsvorrichtung mit einem künstlichen neuronalen netzwerk und verfahren zur datenverarbeitung
Zimmermann et al. A New View on Economics with Recurrent Neural Networks
WO2023174783A1 (de) Verfahren zum betreiben eines quantenregisters

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KN KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase

Ref document number: 05811098

Country of ref document: EP

Kind code of ref document: A2

WWW Wipo information: withdrawn in national office

Ref document number: 5811098

Country of ref document: EP