WO2013182176A1 - Method for training an artificial neural network, and computer program products - Google Patents

Method for training an artificial neural network, and computer program products Download PDF

Info

Publication number
WO2013182176A1
WO2013182176A1 PCT/DE2013/000205 DE2013000205W WO2013182176A1 WO 2013182176 A1 WO2013182176 A1 WO 2013182176A1 DE 2013000205 W DE2013000205 W DE 2013000205W WO 2013182176 A1 WO2013182176 A1 WO 2013182176A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
neurons
values
training
output neurons
Prior art date
Application number
PCT/DE2013/000205
Other languages
German (de)
French (fr)
Inventor
Gerhard DÖDING
László GERMÁN
Klaus Kemper
Original Assignee
Kisters Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kisters Ag filed Critical Kisters Ag
Publication of WO2013182176A1 publication Critical patent/WO2013182176A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the invention relates to a method for training an artificial neural network and computer program products.
  • the method relates to training an artificial neural network having at least one hidden layer with tributary neurons and an output layer with output neurons.
  • the networks used are massively parallel structures for modeling arbitrary functional relationships. For this they are offered training data that represent the relationships to be modeled using examples. During training, the internal parameters of the neural networks, such as their synaptic weights, are adjusted by training processes to produce the desired response to the input data. This training is called supervised learning.
  • CONFIRMATION COPY For this purpose, the errors of the output neurons are propagated backwards into the network (backpropagation). Using various processes (gradient descent, heuristic methods such as particle swarm optimization or evolution method), the synaptic weights of all neurons in the network are then changed so that the neural network approximates the desired functionality as precisely as possible.
  • topology refers to the structure of the network. Neurons can be arranged in consecutive layers. For example, in a network with a single trainable neuron layer, one speaks of a single-layer network. The last layer of the network, whose neuron output is usually the only one visible outside the network, is called the output layer. Layers in front of it are accordingly called hidden layers.
  • the inventive method is suitable for neural feed forward networks of any topology having at least one layer with feeder neurons and an output layer with output neurons.
  • the described learning methods serve to cause a neural network to generate associated output patterns for particular input patterns. For this purpose, the network is trained or adapted.
  • the training of artificial neural networks, that is estimating the parameters contained in the model usually leads to high-dimensional nonlinear optimization problems.
  • the object of the invention is to further develop a method for training an artificial neural network in such a way that response values with minimal deviation from the desired output values are provided at predefined input values in the shortest possible time.
  • the upstream neurons generate multilevel nonlinear computations of the input values and the intermediate values of other neurons.
  • the task of the tributary neurons is to create a suitable internal representation of the functionality to be learned in a high-dimensional space.
  • the task of the output neurons is to examine the offer of the feeder neuron and to determine the most suitable selection of non-linear allocation results. [17] Therefore, these two classes of neurons can be adapted differently and it has surprisingly been found that the time required for training an artificial neural network can be significantly reduced if only the output neurons are adapted.
  • the method is based on a new interpretation of the mode of action of feed-forward networks and is essentially based on two process steps: a) Create suitable internal representations of the functionality to be trained. b) Choose an optimal selection from the offer of pre-calculated outputs of the feeder neurons.
  • a feed-forward network is interpreted as a series connection of two subnetworks.
  • the first part contains all the neurons except the output neurons. These neurons are initialized with random synaptic weights, random transfer functions, and random network topology, and are not altered at any stage of the adaptation. Therefore, they also generate only random nonlinear billing of the offered input information.
  • the second part contains only the output neurons. These are connected according to the predetermined network topology with the first part of the network synaptic weights.
  • weights are adapted to the task.
  • This is preferably done with a tichonov-regularized regression between the random allocations (the intermediate result offer of the first subnet) and the necessary activation of the output neurons.
  • the synaptic weights of the output neurons therefore select, according to the invention, from the random offer of the first subnetwork preferably in only one computation step, ie not iteratively and not with methods of gradient descent, the optimal synaptic weights of the output layer.
  • a network can learn by: developing new connections, deleting existing connections, changing the weighting, adjusting the thresholds of the neurons, adding or deleting neurons.
  • the learning behavior changes as the activation function of the neurons changes or the learning rate of the network changes.
  • the synaptic weights of the output neurons be determined to adapt the output neurons.
  • a commonly performed adaptation of the feeder neurons, preferably by adaptation of their synaptic weights, is not necessary according to the invention.
  • the synaptic weights of the output neurons will be determined based on the values of those tributary neurons that are directly connected to the output neurons and the default output values.
  • An advantageous method provides that the output neurons are adapted with fewer than five adaptation steps, preferably only one step.
  • the invention relates to a method for controlling a system in which the future behavior of observable quantities forms the basis for the control function and artificial neural network is trained as described above.
  • a compute rogramm with compute rogrammcodeschn to carry out the described method makes it possible to execute the process as a program on a computer.
  • Such a computer program product can also be stored on a computer-readable data memory.
  • FIG. 1 shows a highly abstracted scheme of an artificial neural network with several levels and feed-forward property
  • Figure 2 is a diagram of an artificial neuron.
  • the artificial neural network (1) shown in Figure 1 consists of 5 neurons (2, 3, 4, 5 and 6), of which the neurons (2, 3, 4) are arranged as a hidden layer and represent feeder neurons, while the neurons (5, 6) represent output neurons as the output layer.
  • the input values (7, 8, 9) are assigned to the feeder neurons (2, 3, 4) and the output neurons (5, 6) are assigned output values (10, 11).
  • the difference between the response (12) of the output neuron (5) and the output value (10), as well as the difference between the response (13) of the output neuron (6) and the output value (11), is referred to as an output error.
  • the artificial neuron scheme shown in Figure 2 shows how inputs (14, 15, 16, 17) result in a response (18).
  • the inputs (xj, x 2 , x 3, x n) are evaluated via weights (19) and a corresponding transfer function (20) leads to an activation (21).
  • An activation function (22) with a threshold value (23) leads to an initial value and thus to a response (18), [45] Since the weighting (19) has the strongest influence on the response (18) of the neurons (2 to 6), the training process will be described below exclusively with regard to an adaptation of the weights of the network (1).
  • the synaptic weights of all output neurons are determined by a ticho- nov regularized regression process between inverted predefined output values (10, 1 1) and those pre-calculation values of the tributary neurons (2, 3, 4) directly connected to the output neurons (5, 6) ) are connected. [49] If the desired approximation target is reached, ie if the output error is smaller than a set upper limit, the method ends here.
  • the method according to the invention allows training within a few seconds or minutes.
  • the method described thus makes it possible to greatly reduce the time required for a given artificial neural network.
  • the network can be chosen large enough to achieve the desired quality of the results.
  • the short training period opens up the use of artificial neural networks in less powerful computers, especially smartphones.
  • Smartphones can thus be continuously trained during their use, after a training phase to provide the user information itself, which he retrieves regularly. If, for example, the user can display special stock market data daily via an application, these stock market data can be automatically displayed to the user during any use of the smartphone without the user first activating the application and retrieving his data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The invention relates to a method for training an artificial neural network comprising at least one layer of input neurons and an output layer of output neurons, wherein only the output neurons are adapted.

Description

Verfahren zum Trainieren eines künstlichen neuronalen Netzes und Computerpro- grammprodukte  Method of training an artificial neural network and computer program products
[01] Die Erfindung betrifft ein Verfahren zum Trainieren eines künstlichen neuronalen Netzes und Computerprogrammprodukte. [02] Insbesondere betrifft das Verfahren das Trainieren eines künstlichen neuronalen Netzes, das mindestens eine verdeckte Schicht mit Zubringerneuronen und eine Ausgabeschicht mit Ausgabeneuronen aufweist. [01] The invention relates to a method for training an artificial neural network and computer program products. [02] In particular, the method relates to training an artificial neural network having at least one hidden layer with tributary neurons and an output layer with output neurons.
[03] Künstliche neuronale Netze sind in der Lage, komplizierte nichtlineare Funktionen über einen Lernalgorithmus, der durch iterative oder rekursive Vorgehensweise aus vorhandenen Eingangs- und gewünschten Ausgangswerten alle Parameter der Funktion zu bestimmen versucht, zu erlernen. [03] Artificial neural networks are able to learn complicated nonlinear functions by means of a learning algorithm, which tries to determine all parameters of the function by iterative or recursive procedure from existing input and desired output values.
[04] Die verwendeten Netze sind massiv parallele Strukturen zur Modellierung beliebiger funktionaler Zusammenhänge. Hierzu werden ihnen Trainingsdaten angeboten, die die zu modellierenden Zusammenhänge anhand von Beispielen repräsentieren. Wäh- rend des Trainings werden die inneren Parameter der neuronalen Netze, wie beispielsweise ihre synaptischen Gewichte, durch Trainingsprozesse so angepasst, dass der gewünschte Response auf die Eingangsdaten erzeugt wird. Dieses Training wird supervi- sed learning genannt. [04] The networks used are massively parallel structures for modeling arbitrary functional relationships. For this they are offered training data that represent the relationships to be modeled using examples. During training, the internal parameters of the neural networks, such as their synaptic weights, are adjusted by training processes to produce the desired response to the input data. This training is called supervised learning.
[05] Bisherige Trainingsprozesse laufen so ab, dass in Epochen, das sind Zyklen, in denen dem Netz die Daten angeboten werden, der Response-Fehler am Ausgang des Netzes iterativ verringert wird. [05] Previous training processes run in such a way that in epochs, ie cycles in which the data is offered to the network, the response error at the output of the network is iteratively reduced.
BESTÄTIGUNGSKOPIE [06] Dazu werden die Fehler der Ausgabeneuronen rückwärts in das Netz propagiert (backpropagation). Mithilfe verschiedener Prozesse (Gradientenabstieg, heuristische Verfahren wie z.B. particle swarm optimization oder Evolutionsverfahren) werden dann die synaptischen Gewichte aller Neuronen des Netzes so verändert, dass das neuronale Netz die gewünschte Funktionalität beliebig genau approximiert. CONFIRMATION COPY [06] For this purpose, the errors of the output neurons are propagated backwards into the network (backpropagation). Using various processes (gradient descent, heuristic methods such as particle swarm optimization or evolution method), the synaptic weights of all neurons in the network are then changed so that the neural network approximates the desired functionality as precisely as possible.
[07] In künstlichen neuronalen Netzen bezeichnet die Topologie die Struktur des Netzes. Dabei können Neuronen in hintereinander liegenden Schichten angeordnet werden. Man spricht zum Beispiel bei einem Netz mit einer einzigen trainierbaren Neuronen- schicht von einem einschichtigen Netz. Die hinterste Schicht des Netzes, deren Neuro- nenausgaben meist als einzige außerhalb des Netzes sichtbar sind, wird Ausgabeschicht genannt. Davor liegende Schichten werden dementsprechend als verdeckte Schichten bezeichnet. Das erfindungsgemäße Verfahren ist für neuronale feed forward Netze beliebiger Topologie geeignet, die mindestens eine Schicht mit Zubringerneuronen und eine Ausgabeschicht mit Ausgabeneuronen aufweisen. [08] Die beschriebenen Lernverfahren dienen dazu, ein neuronales Netz dazu zu bringen, für bestimmte Eingangsmuster zugehörige Ausgabemuster zu erzeugen. Hierzu wird das Netz trainiert oder adaptiert. Das Trainieren von künstlichen neuronalen Netzen, das heißt das Schätzen der im Modell enthaltenen Parameter, führt in der Regel zu hochdimensionalen nichtlinearen Optimierungsproblemen. Die prinzipielle Schwierig- keit bei der Lösung dieser Probleme besteht in der Praxis häufig darin, dass man nicht sicher sein kann, ob man das globale Optimum gefunden hat oder nur ein lokales. Eine Annäherung an die globale Lösung benötigt in der Regel eine zeitaufwendige vielfache Wiederholung der Optimierung mit immer neuen Startwerten für die inneren Parameter und den vorgegebenen Eingangs- und Ausgangswerten. [09] Die bisherigen Trainingsverfahren sind sehr rechenintensiv und erfordern daher lange Rechenzeiten, die sehr stark mit der Anzahl verbundener Neuronen und Schichten ansteigen. Daher sind sehr komplexe neuronale Netze, die zur Approximation kompli- zierter funktionaler Zusammenhänge nötig sind, nur sehr langsam so zu trainieren, dass ein akzeptabler Restfehler erreicht wird. [07] In artificial neural networks topology refers to the structure of the network. Neurons can be arranged in consecutive layers. For example, in a network with a single trainable neuron layer, one speaks of a single-layer network. The last layer of the network, whose neuron output is usually the only one visible outside the network, is called the output layer. Layers in front of it are accordingly called hidden layers. The inventive method is suitable for neural feed forward networks of any topology having at least one layer with feeder neurons and an output layer with output neurons. [08] The described learning methods serve to cause a neural network to generate associated output patterns for particular input patterns. For this purpose, the network is trained or adapted. The training of artificial neural networks, that is estimating the parameters contained in the model, usually leads to high-dimensional nonlinear optimization problems. The principal difficulty in solving these problems in practice is often that one can not be sure whether one has found the global optimum or only a local one. An approach to the global solution usually requires a time-consuming multiple repetition of the optimization with always new starting values for the inner parameters and the given input and output values. [09] The previous training methods are very compute-intensive and therefore require long computation times, which increase very strongly with the number of connected neurons and layers. Therefore, very complex neural networks are necessary for the approximation. zierter functional relationships are required to train only very slowly so that an acceptable residual error is achieved.
[ 10] Außerdem leiden solchermaßen trainierte Netze an dem Risiko, suboptimal trainiert zu sein, da die angewandten Trainingsmethoden meistens nur lokale Informationen über die Fehlerpropagation ausnutzen und deshalb fast immer in lokalen Fehlerminima hängen bleiben. [10] In addition, networks trained in such a way suffer from the risk of being suboptimal trained, since the training methods used mostly exploit only local information about the error propagation and therefore almost always get caught up in local flaws.
[ 1 1] Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Trainieren eines künstlichen neuronalen Netzes derart weiterzuentwickeln, dass zu vorgegebenen Eingangswerten in möglichst kurzer Zeit Responsewerte mit minimaler Abweichung zu den gewünschten Ausgangswerten bereitgestellt werden. The object of the invention is to further develop a method for training an artificial neural network in such a way that response values with minimal deviation from the desired output values are provided at predefined input values in the shortest possible time.
[ 12] Diese Aufgabe wird mit einem gattungsgemäßen Verfahren gelöst, bei dem nur die Ausgabeneuronen adaptiert werden. [12] This object is achieved by a generic method in which only the output neurons are adapted.
[ 13] Mit anderen Worten werden für eine zu trainierende Funktionalität und ein vorgegebenes Netz Eingangswerte und Ausgangswerte vorgegeben und nur die Ausgabeneuronen werden so adaptiert, dass der Ausgabefehler minimiert wird. In other words, for a functionality to be trained and a given network, input values and output values are given, and only the output neurons are adapted to minimize the output error.
[14] Dabei können verschiedene zufällig generierte Zubringer-Teilnetze alternativ mit derselben Ausgabeschicht verbunden werden. [14] Different randomly generated tributary subnets can alternatively be connected to the same output layer.
[ 15] Mit Ausnahme der Neuronen, die Ergebnisse repräsentieren (Ausgabeneuronen), erzeugen die vorgelagerten Neuronen (Zubringerneuronen) mehrstufig nichtlineare Verrechnungen der Eingangswerte und der Zwischenwerte anderer Neuronen. [15] With the exception of the neurons, which represent results (output neurons), the upstream neurons (feeder neurons) generate multilevel nonlinear computations of the input values and the intermediate values of other neurons.
[ 16] Aufgabe der Zubringerneuronen ist es, eine geeignete interne Repräsentation der zu lernenden Funktionalität in einem hochdimensionalen Raum zu erzeugen. Aufgabe der Ausgabeneuronen ist es, das Angebot der Zubringerneuronen zu untersuchen und die am besten geeignete Auswahl an nichtlinearen Verrechnungsergebnissen zu bestimmen. [ 17] Daher können diese beiden Neuronenklassen unterschiedlich adaptiert werden und es hat sich überraschenderweise herausgestellt, dass die Zeit, die für das Trainieren eines künstlichen neuronalen Netzes benötigt wird, deutlich verringert werden kann, wenn nur die Ausgabeneuronen adaptiert werden. [16] The task of the tributary neurons is to create a suitable internal representation of the functionality to be learned in a high-dimensional space. The task of the output neurons is to examine the offer of the feeder neuron and to determine the most suitable selection of non-linear allocation results. [17] Therefore, these two classes of neurons can be adapted differently and it has surprisingly been found that the time required for training an artificial neural network can be significantly reduced if only the output neurons are adapted.
[ 18] Das Verfahren beruht auf einer Neuinterpretation der Wirkungsweise von feed forward Netzen und ihm liegen im Wesentlichen zwei Verfahrensschritte zugrunde: a) Erzeuge geeignete interne Repräsentationen der zu trainierenden Funktionalität. b) Wähle eine optimale Auswahl aus dem Angebot vorverrechneter Outputs der Zubringerneuronen . [18] The method is based on a new interpretation of the mode of action of feed-forward networks and is essentially based on two process steps: a) Create suitable internal representations of the functionality to be trained. b) Choose an optimal selection from the offer of pre-calculated outputs of the feeder neurons.
[ 19] Die hier vorgestellte Erfindung beruht somit auf einem gänzlich anderen Paradigma zur Beschreibung der Funktion neuronaler feed forward Netze. [19] The invention presented here thus relies on a completely different paradigm for describing the function of neural feed-forward networks.
[20] Ein feed forward Netz wird als eine Hintereinanderschaltung zweier Teilnetze interpretiert. [20] A feed-forward network is interpreted as a series connection of two subnetworks.
[21 ] Der erste Teil enthält alle Neuronen außer den Ausgabeneuronen. Diese Neuronen sind mit zufälligen synaptischen Gewichten, zufälligen Transferfunktionen und zufälliger Netztopologie initialisiert und werden in keiner Phase der Adaption verändert. Daher erzeugen sie auch nur zufällige nichtlineare Verrechnungen der angebotenen Eingangsinformationen. [21] The first part contains all the neurons except the output neurons. These neurons are initialized with random synaptic weights, random transfer functions, and random network topology, and are not altered at any stage of the adaptation. Therefore, they also generate only random nonlinear billing of the offered input information.
[22] Der zweite Teil enthält nur die Ausgabeneuronen. Diese sind gemäß der vorgegebenen Netztopologie mit dem ersten Teil des Netzes über synaptische Gewichte verbunden. [22] The second part contains only the output neurons. These are connected according to the predetermined network topology with the first part of the network synaptic weights.
[23] Nur diese Gewichte werden erfindungsgemäß an die Aufgabenstellung ange- passt. [24] Dies geschieht vorzugsweise mit einer tichonov-regularisierten Regression zwischen den zufälligen Verrechnungen (das Zwischenergebnis-Angebot des ersten Teilnetzes) und der notwendigen Aktivierung der Ausgabeneuronen. Die synaptischen Gewichte der Ausgabeneuronen wählen daher erfindungsgemäß aus dem zufälligen Ange- bot des ersten Teilnetzes vorzugsweise in nur einem Rechenschritt, also nicht iterativ und nicht mit Methoden des Gradientenabstiegs, die optimalen synaptischen Gewichte der Ausgabeschicht aus. [23] According to the invention, only these weights are adapted to the task. [24] This is preferably done with a tichonov-regularized regression between the random allocations (the intermediate result offer of the first subnet) and the necessary activation of the output neurons. The synaptic weights of the output neurons therefore select, according to the invention, from the random offer of the first subnetwork preferably in only one computation step, ie not iteratively and not with methods of gradient descent, the optimal synaptic weights of the output layer.
[25] Bei genügend großer Anzahl der Neuronen in dem ersten Teilnetz ergeben sich immer ausreichend viele nichtlineare Verrechnungsergebnisse, so dass sich die nachfol- gende Ausgabeschicht sehr gut an die Aufgabe anpassen kann. [25] If the number of neurons in the first subnetwork is large enough, there will always be enough non-linear computation results so that the subsequent output layer can adapt very well to the task.
[26] Aus dem Zufall erwachsen also gleichsam die Vorverrechnungen zur Lösung des Approximationsproblems. Dies wird als zufallsinduzierte Emergenz bezeichnet. [26] From chance, therefore, the pre-computations arise to solve the problem of approximation. This is called random induced emergence.
[27] Die Erfindung bietet daher folgende Vorteile: [27] The invention therefore offers the following advantages:
[28] Es ist nur ein Rechenschritt zur vollständigen Adaption des Netzes an die ge- stellte Aufgabe nötig. [28] Only one calculation step is necessary for the complete adaptation of the network to the given task.
[29] Daher ist die Adaption sehr schnell, da übliche Regressionsmethoden verwendet werden können (z.B. Cholesky-Faktorisierung, Singulärwertzerlegung, LU-Zerlegung etc.). [29] Therefore, the adaptation is very fast because standard regression methods can be used (e.g., Cholesky factorization, singular value decomposition, LU decomposition, etc.).
[30] Es ist kein Hängenbleiben in einem lokalen Optimum möglich, da kein Gradien- tenabstieg und keine Fehler-B ackpropagation durchgeführt werden. [30] It is not possible to get stuck in a local optimum, since no gradient descent and no fault backing propagation are performed.
[31 ] Wegen der starken Tichonov-Regularisierung ist ein Auswendiglernen (Übertrainieren) ausgeschlossen. [32] Die Benutzung sehr großer neuronaler Netze ist einfach möglich. Dies ist sogar vorteilhaft, da durch Vergrößerung des nichtlinearen Zufallsangebots die Chance einer verbesserten Approximationsgüte gesteigert wird. Because of the strong Tichonov regularization memorization (overtraining) is excluded. [32] The use of very large neural networks is easily possible. This is even advantageous because increasing the non-linear randomization increases the chance of improved approximation quality.
[33] Theoretisch kann ein Netz durch folgende Methoden lernen: Entwicklung neuer Verbindungen, Löschen bestehender Verbindungen, Ändern der Gewichtung, Anpassen der Schwellenwerte der Neuronen, Hinzufügen oder Löschen von Neuronen. Außerdem verändert sich das Lernverhalten bei Veränderung der Aktivierungsfunktion der Neuronen oder der Lernrate des Netzes. [33] Theoretically, a network can learn by: developing new connections, deleting existing connections, changing the weighting, adjusting the thresholds of the neurons, adding or deleting neurons. In addition, the learning behavior changes as the activation function of the neurons changes or the learning rate of the network changes.
[34] Da ein künstliches neuronales Netz hauptsächlich durch Modifikation der Gewichte der Neuronen lernt, wird vorgeschlagen, dass zum Adaptieren der Ausgabeneuronen die synaptischen Gewichte der Ausgabeneuronen bestimmt werden. Eine üblicherweise durchgeführte Adaption der Zubringerneuronen, vorzugsweise durch Anpassung ihrer synaptischen Gewichte, ist erfindungsgemäß nicht notwendig. [34] Since an artificial neural network learns mainly by modifying the weights of the neurons, it is proposed that the synaptic weights of the output neurons be determined to adapt the output neurons. A commonly performed adaptation of the feeder neurons, preferably by adaptation of their synaptic weights, is not necessary according to the invention.
[35] Dabei ist vorgesehen, dass die synaptischen Gewichte der Ausgabeneuronen auf der Basis der Werte derjenigen Zubringerneuronen, die direkt mit den Ausgabeneuronen verbunden sind, und der vorgegebenen Ausgangswerte bestimmt werden. [35] It is envisaged that the synaptic weights of the output neurons will be determined based on the values of those tributary neurons that are directly connected to the output neurons and the default output values.
[36] Ein vorteilhaftes Verfahren sieht vor, dass die Ausgabeneuronen mit weniger als fünf Adaptionsschritten, vorzugsweise nur einem Schritt, adaptiert werden. [36] An advantageous method provides that the output neurons are adapted with fewer than five adaptation steps, preferably only one step.
[37] Bei der Adaption bzw. dem Training ist es vorteilhaft, wenn vorgegebene Ausgangswerte mit den inversen Transferfunktionen zurückgerechnet werden. [37] In adaptation or training, it is advantageous if predefined initial values are back-calculated with the inverse transfer functions.
[38] Weiterhin betrifft die Erfindung ein Verfahren zur Steuerung einer Anlage, bei dem das zukünftige Verhalten beobachtbarer Größen die Grundlage für die Steuerungsfunktion bildet und künstliches neuronales Netzwerk wie oben beschrieben trainiert wird. [39] Ein Compute rogrammprodukt mit Compute rogrammcodemitteln zur Durchführung des beschriebenen Verfahrens ermöglicht es, das Verfahren als Programm auf einem Computer auszuführen. [38] Furthermore, the invention relates to a method for controlling a system in which the future behavior of observable quantities forms the basis for the control function and artificial neural network is trained as described above. [39] A compute rogrammprodukt with compute rogrammcodemitteln to carry out the described method makes it possible to execute the process as a program on a computer.
[40] Ein derartiges Computerprogrammprodukt kann auch auf einem computerlesba- ren Datenspeicher gespeichert sein. [40] Such a computer program product can also be stored on a computer-readable data memory.
[41 ] Ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens wird anhand der Figuren 1 und 2 näher beschrieben. [41] An embodiment of the method according to the invention will be described in more detail with reference to Figures 1 and 2.
[42] Es zeigt: [42] It shows:
Figur 1 ein stark abstrahiertes Schema eines künstlichen neuronalen Netzes mit mehreren Ebenen und feed forward Eigenschaft und FIG. 1 shows a highly abstracted scheme of an artificial neural network with several levels and feed-forward property and
Figur 2 ein Schema eines künstlichen Neurons. Figure 2 is a diagram of an artificial neuron.
[43] Das in Figur 1 gezeigte künstliche neuronale Netz (1) besteht aus 5 Neuronen (2, 3, 4, 5 und 6), von denen die Neuronen (2, 3, 4) als verdeckte Schicht angeordnet sind und Zubringerneuronen darstellen, während die Neuronen (5, 6) als Ausgabeschicht Ausgabeneuronen darstellen. Die Eingangswerte (7, 8, 9) sind den Zubringerneuronen (2, 3, 4) zugeordnet und den Ausgabeneuronen (5, 6) sind Ausgangswerte ( 10, 1 1) zugeordnet. Die Differenz zwischen dem Response (12) des Ausgabeneurons (5) und dem Ausgangswert ( 10) wird ebenso wie die Differenz zwischen dem Response (13) des Ausgabeneurons (6) und dem Ausgangswert (1 1 ) als Ausgabefehler bezeichnet. [44] Das in Figur 2 gezeigte Schema eines künstlichen Neurons zeigt, wie Eingaben (14, 15, 16, 17) zu einem Response (18) führen. Dabei werden die Eingaben (xj, x2, x3, xn) über Gewichtungen (19) bewertet und eine entsprechende Übertragungsfunktion (20) führt zu einer Aktivierung (21 ). Eine Aktivierungsfunktion (22) mit einem Schwellenwert (23) führt zu einem Ausgangswert und damit zu einem Response (18), [45] Da die Gewichtung (19) den stärksten Einfluss auf den Response (18) der Neuronen (2 bis 6) hat, wird im Folgenden der Trainingsprozess ausschließlich im Hinblick auf eine Adaption der Gewichte des Netzes (1 ) beschrieben. The artificial neural network (1) shown in Figure 1 consists of 5 neurons (2, 3, 4, 5 and 6), of which the neurons (2, 3, 4) are arranged as a hidden layer and represent feeder neurons, while the neurons (5, 6) represent output neurons as the output layer. The input values (7, 8, 9) are assigned to the feeder neurons (2, 3, 4) and the output neurons (5, 6) are assigned output values (10, 11). The difference between the response (12) of the output neuron (5) and the output value (10), as well as the difference between the response (13) of the output neuron (6) and the output value (11), is referred to as an output error. [44] The artificial neuron scheme shown in Figure 2 shows how inputs (14, 15, 16, 17) result in a response (18). In this case, the inputs (xj, x 2 , x 3, x n) are evaluated via weights (19) and a corresponding transfer function (20) leads to an activation (21). An activation function (22) with a threshold value (23) leads to an initial value and thus to a response (18), [45] Since the weighting (19) has the strongest influence on the response (18) of the neurons (2 to 6), the training process will be described below exclusively with regard to an adaptation of the weights of the network (1).
[46] Im Ausführungsbeispiel werden in einem ersten Schritt des Trainingsprozesses alle Gewichte (19) des Netzes (1 ) mit Zufallswerten im Intervall [- 1 , 1 ] initialisiert. Danach wird für jeden Trainingsdatensatz der Response (12, 13, 24, 25, 26, 27, 28, 29) jedes Neurons (2 bis 6) berechnet. [46] In the exemplary embodiment, in a first step of the training process, all weights (19) of the network (1) are initialized with random values in the interval [-1, 1]. Thereafter, the response (12, 13, 24, 25, 26, 27, 28, 29) of each neuron (2 to 6) is calculated for each training data set.
[47] Die gewünschten vorgegebenen Ausgangswerte (10, 1 1) aller Ausgabeneuronen (5, 6) werden mit Hilfe der inversen Transferfunktion des jeweiligen Ausgabeneurons (5, 6) zurückgerechnet auf ihre dazu notwendigen Aktivierungen. [47] The desired given initial values (10, 1 1) of all output neurons (5, 6) are calculated back to their necessary activations by means of the inverse transfer function of the respective output neuron (5, 6).
[48] Die synaptischen Gewichte aller Ausgabeneuronen werden durch einen ticho- nov-regularisierten Regressionsprozess zwischen invertierten vorgegebenen Ausgangswerten (10, 1 1) und denjenigen Vorverrechnungswerten der Zubringerneuronen (2, 3, 4) bestimmt, die direkt mit den Ausgabeneuronen (5, 6) verbunden sind. [49] Ist das gewünschte Approximationsziel erreicht, ist also der Ausgabefehler kleiner als eine gesetzte Obergrenze, endet das Verfahren hier. [48] The synaptic weights of all output neurons are determined by a ticho- nov regularized regression process between inverted predefined output values (10, 1 1) and those pre-calculation values of the tributary neurons (2, 3, 4) directly connected to the output neurons (5, 6) ) are connected. [49] If the desired approximation target is reached, ie if the output error is smaller than a set upper limit, the method ends here.
[50] Ansonsten wiederholt man das Verfahren mit einer anderen zufälligen Initialisierung der Gewichte oder einer größeren Anzahl der Zubringerneuronen. [50] Otherwise, repeat the procedure with another random initialization of the weights or a larger number of tributary neurons.
[51 ] Dies ermöglicht es beispielsweise, als Eingangswerte (7, 8, 9) historische Wet- terdaten wie Sonnenintensität, Windgeschwindigkeit und Niederschlagsmenge einzugeben, während als Ausgangswert der Stromverbrauch zu bestimmten Tageszeiten angesetzt wird. Durch ein entsprechendes Trainieren des Netzes (1) wird der Response ( 12, 13) so optimiert, dass der Ausgabefehler genügend klein wird. Danach kann das Netz für Prognosen verwendet werden, indem prognostizierte Wetterdaten eingegeben wer- den und mit dem künstlichen neuronalen Netz ( 1) zu erwartende Stromverbrauchswerte ermittelt werden. [51] This makes it possible, for example, to enter historical weather data such as sun intensity, wind speed and precipitation as input values (7, 8, 9), while the output value is the power consumption at certain times of the day. By appropriately training the network (1), the response (12, 13) is optimized so that the output error becomes sufficiently small. After that, the grid can be used for forecasts by entering predicted weather data. the expected and with the artificial neural network (1) expected power consumption values.
[52] Dies ermöglicht es, auch eine Anlage mit den berechneten Werten zu steuern, um viele Eingangswerte besonders schnell zu verarbeiten und in Steuerfunktionen um- zusetzen. [52] This makes it possible to control a plant with the calculated values in order to process many input values very quickly and to convert them into control functions.
[53] Während für derartige Berechnungen mit einem herkömmlichen Trainingspro- zess im praktischen Einsatz viele Stunden zum Trainieren des neuronalen Netzwerks notwendig waren, erlaubt das erfindungsgemäße Verfahren ein Trainieren innerhalb weniger Sekunden oder Minuten. [54] Das beschriebene Verfahren ermöglicht somit eine starke Reduktion der benötigten Zeit bei einem vorgegebenen künstlichen neuronalen Netz. Damit kann auch das Netz groß genug gewählt werden, um die gewünschte Qualität der Ergebnisse zu erreichen. Die kurze Trainingszeit eröffnet die Verwendung künstlicher neuronaler Netze in leistungsschwächeren Computern wie insbesondere auch Smartphones. [55] Smartphones können somit während ihrer Verwendung kontinuierlich trainiert werden, um nach einer Trainingsphase dem Nutzer von sich aus Informationen zur Verfügung zu stellen, die er regelmäßig abruft. Wenn der Nutzer beispielsweise täglich über eine Applikation sich spezielle Börsendaten anzeigen lässt, können diese Börsendaten dem Nutzer bei einer beliebigen Verwendung des Smartphones automatisch angezeigt werden, ohne dass der Nutzer zunächst die Applikation aktiviert und seine Daten abruft. [53] Whereas for such calculations with a conventional training process in practical use many hours were necessary for training the neural network, the method according to the invention allows training within a few seconds or minutes. [54] The method described thus makes it possible to greatly reduce the time required for a given artificial neural network. Thus, the network can be chosen large enough to achieve the desired quality of the results. The short training period opens up the use of artificial neural networks in less powerful computers, especially smartphones. [55] Smartphones can thus be continuously trained during their use, after a training phase to provide the user information itself, which he retrieves regularly. If, for example, the user can display special stock market data daily via an application, these stock market data can be automatically displayed to the user during any use of the smartphone without the user first activating the application and retrieving his data.

Claims

Verfahren zum Trainieren eines künstlichen neuronalen Netzes ( 1), das mindestens eine verdeckte Schicht mit Zubringerneuronen (2, 3, 4) und eine Ausgabeschicht mit Ausgabeneuronen (5, 6) aufweist, dadurch gekennzeichnet, dass nur die Ausgabeneuronen (5, 6) adaptiert werden. Method for training an artificial neural network (1) comprising at least one hidden layer with feeder neurons (2, 3, 4) and one output layer with output neurons (5, 6), characterized in that only the output neurons (5, 6) adapt become.
Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass für eine zu trainierende Funktionalität und ein vorgegebenes Netz (1) Eingangs werte (7, 8, 9) und Ausgangs werte (10, 1 1) vorgegeben werden und nur die Ausgabeneuronen (5, 6) so adaptiert werden, dass der Ausgabefehler minimiert wird. Method according to Claim 1, characterized in that input values (7, 8, 9) and output values (10, 11) are specified for a functionality to be trained and a given network (1), and only the output neurons (5, 6) be adapted so that the output error is minimized.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass verschiedene zufällig generierte Zubringer-Teilnetze alternativ mit derselben Ausgabeschicht verbunden werden. Method according to one of the preceding claims, characterized in that different randomly generated feeder subnets are alternatively connected to the same output layer.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zum Adaptieren der Ausgabeneuronen (5, 6) die synaptischen Gewichte der Ausgabeneuronen (5, 6) bestimmt werden. Method according to one of the preceding claims, characterized in that for adapting the output neurons (5, 6), the synaptic weights of the output neurons (5, 6) are determined.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die synaptischen Gewichte der Ausgabeneuronen (5, 6) auf der Basis der Werte derjenigen Zubringerneuronen (2, 3, 4), die direkt mit den Ausgabeneuronen (5, 6) verbunden sind, und der vorgegebenen Ausgangswerte ( 10, 1 1) bestimmt werden. Method according to claim 4, characterized in that the synaptic weights of the output neurons (5, 6) are determined on the basis of the values of those tributary neurons (2, 3, 4) directly connected to the output neurons (5, 6) and the predetermined ones Output values (10, 1 1) can be determined.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Ausgabeneuronen (5, 6) mit weniger als fünf Adaptionsschritten und vorzugsweise nur einem Schritt adaptiert werden. Method according to one of the preceding claims, characterized in that the output neurons (5, 6) are adapted with less than five adaptation steps and preferably only one step.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass vorgegebene Ausgangswerte ( 10, 1 1) mit den inversen Transferfunktionen zurückgerechnet werden. 7. The method according to any one of the preceding claims, characterized in that predetermined output values (10, 1 1) are back-calculated with the inverse transfer functions.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Ausgabeneuronen (5, 6) mit tichonov-regularisierter Regression adaptiert werden. 8. The method according to any one of the preceding claims, characterized in that the output neurons (5, 6) are adapted with tichonov-regularized regression.
9. Verfahren zur Steuerung einer Anlage, bei dem das zukünftige Verhalten beobachtbarer Größen die Grundlage für die Steuerungsfunktion bildet und ein künstliches neuronales Netzwerk nach einem der vorhergehenden Ansprüche trainiert wird. 9. A method for controlling a plant, wherein the future behavior of observable quantities forms the basis for the control function and an artificial neural network is trained according to one of the preceding claims.
10. Computerprogrammprodukt mit Programmcodemitteln zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Computer ausgeführt wird. Computer program product with program code means for carrying out a method according to one of the preceding claims, when the program is executed on a computer.
1 1. Computerprogrammprodukt mit Programmcodemitteln nach Anspruch 10, die auf einem computerlesbaren Datenspeicher gespeichert sind. 1 1. Computer program product with program code means according to claim 10, which are stored on a computer-readable data memory.
PCT/DE2013/000205 2012-06-06 2013-04-18 Method for training an artificial neural network, and computer program products WO2013182176A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261689457P 2012-06-06 2012-06-06
DE102012011194.0 2012-06-06
DE102012011194A DE102012011194A1 (en) 2012-06-06 2012-06-06 Method for training an artificial neural network
US61/689,457 2012-06-06

Publications (1)

Publication Number Publication Date
WO2013182176A1 true WO2013182176A1 (en) 2013-12-12

Family

ID=49625670

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2013/000205 WO2013182176A1 (en) 2012-06-06 2013-04-18 Method for training an artificial neural network, and computer program products

Country Status (2)

Country Link
DE (1) DE102012011194A1 (en)
WO (1) WO2013182176A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019096881A1 (en) * 2017-11-15 2019-05-23 Gottfried Wilhelm Leibniz Universität Hannover Artificial neuronal network and associated method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807046A (en) * 2010-03-08 2010-08-18 清华大学 Online modeling method based on extreme learning machine with adjustable structure

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807046A (en) * 2010-03-08 2010-08-18 清华大学 Online modeling method based on extreme learning machine with adjustable structure

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
G.-B. HUANG ET AL: "Universal Approximation Using Incremental Constructive Feedforward Networks With Random Hidden Nodes", IEEE TRANSACTIONS ON NEURAL NETWORKS, vol. 17, no. 4, 1 July 2006 (2006-07-01), pages 879 - 892, XP055083863, ISSN: 1045-9227, DOI: 10.1109/TNN.2006.875977 *
GUANG-BIN HUANG ET AL: "Extreme learning machines: a survey", INTERNATIONAL JOURNAL OF MACHINE LEARNING AND CYBERNETICS, vol. 2, no. 2, 25 May 2011 (2011-05-25), pages 107 - 122, XP055083871, ISSN: 1868-8071, DOI: 10.1007/s13042-011-0019-y *
HUANG G B ET AL: "Enhanced random search based incremental extreme learning machine", NEUROCOMPUTING, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 71, no. 16-18, 1 October 2008 (2008-10-01), pages 3460 - 3468, XP025680861, ISSN: 0925-2312, [retrieved on 20071121], DOI: 10.1016/J.NEUCOM.2007.10.008 *
QIN-YU ZHU ET AL: "A fast modular implementation for neural networks", CONTROL, AUTOMATION, ROBOTICS AND VISION CONFERENCE, 2004. ICARCV 2004 8TH KUNMING, CHINA 6-9 DEC. 2004, PISCATAWAY, NJ, USA,IEEE, US, vol. 3, 6 December 2004 (2004-12-06), pages 2270 - 2273, XP010818377, ISBN: 978-0-7803-8653-2, DOI: 10.1109/ICARCV.2004.1469785 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019096881A1 (en) * 2017-11-15 2019-05-23 Gottfried Wilhelm Leibniz Universität Hannover Artificial neuronal network and associated method

Also Published As

Publication number Publication date
DE102012011194A1 (en) 2013-12-12

Similar Documents

Publication Publication Date Title
WO2013170843A1 (en) Method for training an artificial neural network
EP2135140B1 (en) Method for computer-supported control and/or regulation of a technical system
EP2112568B1 (en) Method for computer-supported control and/or regulation of a technical system
WO2014121863A1 (en) Method and device for controlling an energy-generating system which can be operated with a renewable energy source
DE112016003245T5 (en) Resistive processing unit
DE112020002186T5 (en) DNN TRAINING WITH ASYMMETRIC RPU UNITS
WO2020187591A1 (en) Method and device for controlling a robot
EP3940596A1 (en) Method for configuring a control agent for a technical system and control device
DE60125536T2 (en) ARRANGEMENT FOR GENERATING ELEMENT SEQUENCES
EP4000010A1 (en) Device and computer-implemented method for the processing of digital sensor data and training method for same
WO2021259980A1 (en) Training an artificial neural network, artificial neural network, use, computer program, storage medium, and device
DE112020005613T5 (en) Neuromorphic unit with crossbar array structure
WO2020207789A1 (en) Method and device for controlling a technical apparatus
DE202019103862U1 (en) Device for creating a strategy for a robot
WO2013182176A1 (en) Method for training an artificial neural network, and computer program products
DE102019210372A1 (en) Method, device and computer program for creating a strategy for a robot
EP3785178A1 (en) Method and device for determining a network configuration of a neural network
WO2023072528A1 (en) Method and control device for controlling a technical system
EP3650964B1 (en) Method for controlling or regulating a technical system
WO2020193481A1 (en) Method and device for training and producing an artificial neural network
DE202019103924U1 (en) Device for processing digital sensor data
DE102022112606B3 (en) Computer-implemented method for calibrating a technical system
WO2024110126A1 (en) Method and machine controller for controlling a machine
DE102021115425A1 (en) Method for transferring a network behavior of a trained start network to a target network without using an original data set
WO2014015844A1 (en) Method for controlling an installation, in which the orders p, q, r of the individual components of an n-ar(p)ma(q)x(r) process are determined

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13730460

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 1120130028298

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13730460

Country of ref document: EP

Kind code of ref document: A1