RU2755339C1 - Modified intelligent controller with adaptive critical element - Google Patents
Modified intelligent controller with adaptive critical element Download PDFInfo
- Publication number
- RU2755339C1 RU2755339C1 RU2020141730A RU2020141730A RU2755339C1 RU 2755339 C1 RU2755339 C1 RU 2755339C1 RU 2020141730 A RU2020141730 A RU 2020141730A RU 2020141730 A RU2020141730 A RU 2020141730A RU 2755339 C1 RU2755339 C1 RU 2755339C1
- Authority
- RU
- Russia
- Prior art keywords
- block
- input
- output
- neural network
- action
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
Abstract
Description
Изобретение относится к интеллектуальным контроллерам, использующим принцип обучения с подкреплением, искусственные нейронные сети и может использоваться для управления сложными системами в недетерминированной среде.The invention relates to intelligent controllers using the principle of reinforcement learning, artificial neural networks and can be used to control complex systems in a non-deterministic environment.
Известен патент МПК G06F 15/18 2523218 «Модифицированный интеллектуальный контроллер с адаптивным критиком». Данное устройство состоит из блока расчета подкрепления, блока расчета временной разности, блока обучения критика, блока критика, решающей нейронной сети, блока выбора действия, блока отбора действия, блока действий, блока занесения действий, объекта управления. При этом первый и второй входы объекта управления связаны с первым и вторым входами решающей нейронной сети, первым и вторым входами блока расчета временной разности, первым и вторым входами блока расчета подкрепления, выход решающей нейронной сети соединен с первым входом блока критика, выход блока критика связан с входом блока выбора действия, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока выбора действия соединен с входом объекта управления, первый и второй выходы объекта управления также соединены с первым и вторым входами блока отбора действий, первый выход блока отбора действий соединен с первым входом блока действий, второй выход блока отбора действий соединен со вторым входом блока критика, третий выход блока отбора действий соединен с третьим входом решающей нейронной сети, четвертый выход блока отбора действий соединен со вторым входом блока выбора действия, выход блока действий соединен с третьим входом блока отбора действий, выход блока расчета подкрепления соединен также со вторым входом блока занесения действий, выход блока расчета временной разности соединен с первым входом обучения критика, первый и второй выходы блока обучения критика соединены соответственно с первым и вторым входами блока критика, третий выход блока обучения критика соединен с четвертым входом блока расчета временной разности, выход блока критика также соединен со вторым входом блока обучения критика, выход блока выбора действия также соединен с первым входом блока занесения действий, выход блока занесения действий соединен со вторым входом блока действий.Known patent IPC G06F 15/18 2523218 "Modified intelligent controller with adaptive critic". This device consists of a reinforcement calculation unit, a time difference calculation unit, a critic training unit, a critic's unit, a decisive neural network, an action selection unit, an action selection unit, an action unit, an action recording unit, and a control object. In this case, the first and second inputs of the control object are connected to the first and second inputs of the decision neural network, the first and second inputs of the time difference calculation block, the first and second inputs of the reinforcement calculation block, the output of the decision neural network is connected to the first input of the critic block, the output of the critic block is connected with the input of the action selection block, the output of the reinforcement calculation block is connected to the third input of the time difference calculation block, the output of the action selection block is connected to the input of the control object, the first and second outputs of the control object are also connected to the first and second inputs of the action selection block, the first output of the selection block actions is connected to the first input of the action block, the second output of the action selection block is connected to the second input of the critic block, the third output of the action selection block is connected to the third input of the decisive neural network, the fourth output of the action selection block is connected to the second input of the action selection block, the output of the action block is connected with the third input of the selection block dey the output of the block for calculating the reinforcement is also connected to the second input of the block for recording actions, the output of the block for calculating the time difference is connected to the first input of the critic's training, the first and second outputs of the critic's training unit are connected respectively to the first and second inputs of the critic's block, the third output of the critic's training block is connected with the fourth input of the block for calculating the time difference, the output of the critic block is also connected to the second input of the critic training block, the output of the action selection block is also connected to the first input of the block of recording actions, the output of the block of recording actions is connected to the second input of the block of actions.
Принцип работы устройства по патенту МПК G06F 15/18 2523218 следующий - объект управления выполняет действие и на выходах выдает сигналы состояния объекта управления и внешней среды, по которым блок отбора действий запрашивает и получает от блока действий возможные действия для данной ситуации. Решающая нейронная сеть, получив новые данные, прогнозирует значение рабочего параметра на следующую временную итерацию. Блок отбора действий, получив возможные действия, синхронно с решающей нейронной сетью начинает подавать возможные действия и прогноз рабочего параметра на блок критика, который в свою очередь последовательно вычисляет возможное будущее подкрепление для каждого возможного действия. Далее возможные будущие подкрепления подаются на блок выбора действия, который по заданному алгоритму выбирает действие объекта управления на следующую временную итерацию и подает выбранное действие на объект управления. Блок расчета подкрепления, получив значения текущего состояния внешней среды и объекта управления, вычисляет значение полученного подкрепления за последнюю отработанную итерацию управления. Полученное значение подкрепления передается в блок расчета временной разности, который рассчитывает временную разность и формирует обучающую выборку для нейронной сети блока критика. Если значение полученной временной разности и если ошибка существенная, то блок расчета временной разности останавливает работу критика и переобучает его на новых данных.The principle of operation of the device under the patent IPC G06F 15/18 2523218 is as follows - the control object performs an action and outputs state signals of the control object and the external environment at the outputs, according to which the action selection unit requests and receives from the action unit possible actions for this situation. The decisive neural network, having received new data, predicts the value of the working parameter for the next time iteration. The action selection unit, having received possible actions, synchronously with the decisive neural network, begins to submit possible actions and a forecast of the operating parameter to the critic's block, which in turn sequentially calculates the possible future reinforcement for each possible action. Further, possible future reinforcements are fed to the action selection unit, which, according to a given algorithm, selects the action of the control object for the next time iteration and submits the selected action to the control object. The block for calculating the reinforcement, having received the values of the current state of the external environment and the control object, calculates the value of the received reinforcement for the last worked iteration of the control. The received value of the reinforcement is transmitted to the block for calculating the time difference, which calculates the time difference and forms a training sample for the neural network of the critic's block. If the value of the obtained time difference and if the error is significant, then the block for calculating the time difference stops the critic's work and retrains him on the new data.
Недостатками данного устройства являются невозможность переобучения решающей нейронной сети, недостаточная скорость работы за счет взаимодействия блока выбора действия, блока отбора действия, блока действий, блока занесения действий.The disadvantages of this device are the impossibility of retraining the decisive neural network, insufficient speed of work due to the interaction of the action selection block, the action selection block, the action block, the action entry block.
Наиболее близким техническим решением является патент РФ МПК G06F 15/00 №2450336 «Модифицированный интеллектуальный контроллер с адаптивным критиком». Данное устройство состоит из блока расчета подкрепления, блока расчета временной разности, блока обучения критика, блока критика, решающей нейронной сети, блока выбора действия, блока отбора действий, блока действий, блока занесения действий, объекта управления. При этом первый и второй выходы объекта управления связаны с первым и вторым входами решающей нейронной сети, первым и вторым входами блока расчета временной разности, первым и вторым входом блока расчета подкрепления, выход решающей нейронной сети соединен с первым входом блока критика, выход блока критика связан с входом блока выбора действия, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока выбора действия соединен с входом объекта управления, первый и второй выходы объекта управления также соединены с первым и вторым входами блока отбора действий, первый выход блока отбора действий соединен с первым входом блока действий, второй выход блока отбора действий соединен со вторым входом блока критика, третий выход блока отбора действий соединен с третьим входом решающей нейронной сети, четвертый выход блока отбора действий соединен со вторым входом блока выбора действия, выход блока действий соединен с третьим входом блока отбора действий, выход блока расчета подкрепления соединен также со вторым входом блока занесения действий, выход блока расчета временной разности соединен с первым входом блока обучения критика, первый и второй выходы блока обучения критика соединены соответственно с первым и вторым входами блока критика, третий выход блока обучения критика соединен с четвертым входом блока расчета временной разности, выход блока критика также соединен со вторым входом блока обучения критика, выход блока выбора действия также соединен с первым входом блока занесения действий, выход блока занесения действий соединен со вторым входом блока действий. Принцип работы устройства по патенту РФ МПК G06F 15/00 №2450336 «Модифицированный интеллектуальный контроллер с адаптивным критиком» следующий - объект управления выдает сигналы состояния и действия, по которым блок действий выбирает возможные действия в данной ситуации и подает их на блок критика параллельно с прогнозным значением рабочего параметра, который рассчитывает блок прогнозирования параметра. Критик, получая данные, последовательно оценивает последствия возможных действий и выдает их на блок выбора действия, который с помощью «жадного» - правила выбирает действие и подает его на исполнение в объект управления. Параллельно этому процессу, блок расчета подкрепления рассчитывает полученное подкрепление и подает его на блок расчета временной разности, который рассчитывает ошибку временной разности и если ошибка существенная, то блок расчета временной разности останавливает работу критика и переобучает его на новых данных.The closest technical solution is the RF patent IPC G06F 15/00 No. 2450336 "Modified intelligent controller with adaptive critic". This device consists of a reinforcement calculation unit, a time difference calculation unit, a critic's training unit, a critic's unit, a decisive neural network, an action selection unit, an action selection unit, an action unit, an action recording unit, and a control object. In this case, the first and second outputs of the control object are connected to the first and second inputs of the decision neural network, the first and second inputs of the time difference calculation block, the first and second inputs of the reinforcement calculation block, the output of the decision neural network is connected to the first input of the critic block, the output of the critic block is connected with the input of the action selection block, the output of the reinforcement calculation block is connected to the third input of the time difference calculation block, the output of the action selection block is connected to the input of the control object, the first and second outputs of the control object are also connected to the first and second inputs of the action selection block, the first output of the selection block actions is connected to the first input of the action block, the second output of the action selection block is connected to the second input of the critic block, the third output of the action selection block is connected to the third input of the decisive neural network, the fourth output of the action selection block is connected to the second input of the action selection block, the output of the action block is connected with the third input of the selection block dey the output of the block for calculating the reinforcement is also connected to the second input of the block for recording actions, the output of the block for calculating the time difference is connected to the first input of the critic training block, the first and second outputs of the critic training block are connected respectively to the first and second inputs of the critic block, the third output of the critic training block is connected to the fourth input of the block for calculating the time difference, the output of the critic block is also connected to the second input of the critic training block, the output of the action selection block is also connected to the first input of the block of recording actions, the output of the block of recording actions is connected to the second input of the block of actions. The principle of operation of the device under the patent of the Russian Federation IPC G06F 15/00 No. 2450336 "Modified intelligent controller with adaptive critic" is as follows - the control object issues state and action signals, according to which the action block selects possible actions in this situation and sends them to the critic block in parallel with the predicted one. the value of the operating parameter, which is calculated by the parameter prediction block. The critic, receiving the data, sequentially evaluates the consequences of possible actions and issues them to the action selection block, which, using the “greedy” rule, selects the action and submits it for execution to the control object. In parallel to this process, the reinforcement calculation unit calculates the received reinforcement and feeds it to the time difference calculation unit, which calculates the time difference error, and if the error is significant, the time difference calculation unit stops the critic's work and retrains him with new data.
Недостатками данного контроллера являются - недостаточные адаптационные свойства, сложность обучения нейронной сети блока критика и решающей нейронной сети, ограниченные возможности работы блока выбора действия.The disadvantages of this controller are insufficient adaptive properties, the complexity of training the neural network of the critic's block and the decisive neural network, the limited capabilities of the action selection block.
Общий недостаток устройств на основе сетей адаптивных критиков состоит в том, что базовый подход не является обобщенным и достаточным для построения универсальной адаптивной системы управления объектом, действующим в недетерминированной среде. Система управления не может радикально менять свое поведение и вырабатывать новые реакции при абсолютно новых, неизвестных данных о состоянии окружающей среды и объекта управления (D. Prokhorov, D. Wanch. Adaptive critic designs. IEEE transactions on Neural Networks, September 1997. pp. 997-1007). Ввиду того, что система должна управляться в режиме реального времени, ее недостатками являются большое количество вычислений и сложность дообучения нейронных сетей.A common disadvantage of devices based on networks of adaptive critics is that the basic approach is not generalized and sufficient for building a universal adaptive control system for an object operating in a non-deterministic environment. The control system cannot radically change its behavior and develop new reactions with completely new, unknown data about the state of the environment and the control object (D. Prokhorov, D. Wanch. Adaptive critic designs. IEEE transactions on Neural Networks, September 1997. pp. 997 -1007). Due to the fact that the system must be controlled in real time, its disadvantages are a large number of calculations and the complexity of additional training of neural networks.
Задача - усовершенствование модифицированного интеллектуального контроллера с адаптивным критиком и расширение функциональных возможностей.The task is to improve the modified intelligent controller with adaptive criticism and expand the functionality.
Техническим результатом предлагаемого устройства является повышение адаптационных свойств системы управления на базе интеллектуального контроллера, повышение его скоростных характеристик и упрощение конечной реализации для разработчика.The technical result of the proposed device is to improve the adaptive properties of the control system based on the intelligent controller, increase its speed characteristics and simplify the final implementation for the developer.
Технический результат достигается тем, что в модифицированном интеллектуальном контроллере с адаптивным критиком содержащем блок расчета подкрепления, блок расчета временной разности, блок критика, решающую нейронную сеть, блок отбора действий, блок действий, блок выбора действий, объект управления, первый и второй выходы объекта управления связаны с первым и вторым входами решающей нейронной сети, первым и вторым входами блока расчета временной разности, первым и вторым входами блока отбора действий, а также с первым и вторым входами блока расчета подкрепления, первый выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, первый выход блока выбора действий связан с первым входом объекта управления, второй выход блока критика связан с первым входом блока выбора действий, первый выход решающей нейронной сети связан с первым входом блока критика, второй выход блока действий связан с пятым входом блока отбора действий, третий выход блока отбора действий связан с первым входом блока действий, первый выход блока отбора действий связан с третьим входом решающей нейронной сети, второй выход блока отбора действий связан со вторым входом блока критика, введены блок обучения нейронных сетей, первый выход блока расчета подкрепления также связан с пятым входом блока действий, первый выход блока расчета временной разности связан с четвертым входом блока действий и первым входом блока обучения нейронных сетей, второй выход блока расчета временной разности связан с третьим входом блока критика, первый выход блока критика связан с четвертым входом блока расчета временной разности, второй выход блока критика также связан со вторым входом блока обучения нейронных сетей, третий выход блока критика связан с третьим входом блока отбора действий, первый выход блока обучения нейронных сетей связан с первым входом блока критика и вторым входом решающей нейронной сети, второй выход блока обучения нейронных сетей связан со вторым входом блока критика и первым входом решающей нейронной сети, третий выход блока обучения нейронных сетей связан с третьим входом блока действий, четвертый выход блока обучения нейронных сетей связан с четвертым входом блока отбора действий, первый выход решающей нейронной сети связан также с четвертым входом блока обучения нейронных сетей, второй выход блока отбора действий связан также со вторым входом блока выбора действий, первый выход блока действий связан с пятым входом блока расчета временной разности, третий выход блока действий связан с третьим входом блока обучения нейронных сетей, первый выход блока выбора действий также связан со вторым входом блока действий.The technical result is achieved by the fact that in a modified intelligent controller with an adaptive critic containing a reinforcement calculation block, a time difference calculation block, a critic block, a solving neural network, an action selection block, an action block, an action selection block, a control object, the first and second outputs of the control object connected with the first and second inputs of the decision neural network, the first and second inputs of the time difference calculation block, the first and second inputs of the action selection block, as well as with the first and second inputs of the reinforcement calculation block, the first output of the reinforcement calculation block is connected with the third input of the time difference calculation block difference, the first output of the action selection block is connected to the first input of the control object, the second output of the critic block is connected to the first input of the action selection block, the first output of the decision neural network is connected to the first input of the critic block, the second output of the action block is connected to the fifth input of the action selection block, the third output of the action selection block is connected to the first input of the action block, the first output of the action selection block is connected to the third input of the decisive neural network, the second output of the action selection block is connected to the second input of the critic block, a neural network training block is introduced, the first output of the reinforcement calculation block is also connected to the fifth input of the action block , the first output of the block for calculating the time difference is connected with the fourth input of the action block and the first input of the block for training neural networks, the second output of the block for calculating the time difference is connected with the third input of the critic block, the first output of the critic block is connected with the fourth input of the block for calculating the time difference, the second output of the block criticism is also associated with the second input of the neural network training block, the third output of the criticism block is associated with the third input of the action selection block, the first output of the neural network training block is associated with the first input of the critic block and the second input of the decisive neural network, the second output of the neural network training block is associated with the second entrance of the critic and lane block the input of the decision neural network, the third output of the neural network training unit is connected to the third input of the action block, the fourth output of the neural network training block is connected to the fourth input of the action selection block, the first output of the decision neural network is also connected to the fourth input of the neural network training block, the second output the action selection block is also connected to the second input of the action selection block, the first output of the action block is connected to the fifth input of the time difference calculation block, the third output of the action block is connected to the third input of the neural network training block, the first output of the action selection block is also connected to the second input of the action block ...
Повышение адаптационных свойств системы управления на базе интеллектуального контроллера, достигается за счет выделения процесса обучения нейронной сети блока критика и решающей нейронной сети в блок обучения нейронных сетей, при этом данный блок обучает и нейронную сеть блока критика и решающую нейронную сеть. Другим важным моментом является то, что работа с блоком действий строится по новому принципу с использованием блока отбора действий, блока выбора действий, блока обучения нейронных сетей, блока расчета временной разности и блока расчета подкрепления. Скоростные характеристики работы системы повышаются за счет блока отбора действий, который ограничивает возможные действия не подходящие по минимально заданному подкреплению, а также прямым обращением к блоку действий блока отбора действий, блока критика, блока расчета подкрепления и блока расчета временной разности. Упрощение реализации для разработчика заключается в модернизации взаимодействия блоков расчета подкрепления, блока расчета временной разности и блока выбора действий с блоком действий, а также выделение процесса обучения нейронной сети блока критика и решающей нейронной сети в отдельный блок.An increase in the adaptive properties of a control system based on an intelligent controller is achieved by separating the learning process of the neural network of the critic's block and the decisive neural network into the training block of neural networks, while this block trains both the neural network of the critic's block and the decisive neural network. Another important point is that work with an action block is built according to a new principle using an action selection block, an action selection block, a neural network training block, a time difference calculation block and a reinforcement calculation block. The speed characteristics of the system operation are increased due to the action selection block, which limits possible actions that are not suitable for the minimum specified reinforcement, as well as by direct reference to the action block of the action selection block, critic block, reinforcement calculation block and time difference calculation block. Simplifying the implementation for the developer consists in modernizing the interaction of the blocks for calculating the reinforcement, the block for calculating the time difference and the block for choosing actions with the block of actions, as well as separating the learning process of the neural network of the critic's block and the decisive neural network into a separate block.
Таким образом, совокупность существенных признаков, изложенных в формуле изобретения, позволяет достигнуть желаемый результат.Thus, the totality of the essential features set forth in the claims makes it possible to achieve the desired result.
На фиг. 1 изображена схема модифицированного интеллектуального контроллера с адаптивным критиком, который состоит из нескольких структурных компонент: блока расчета подкрепления 1, блока расчета временной разности 2, блока критика 3, блока выбора действия 4, блока обучения нейронных сетей 5, решающей нейронной сети 6, блока отбора действий 7, блока действий 8, объекта управления 9.FIG. 1 shows a diagram of a modified intelligent controller with an adaptive critic, which consists of several structural components: a
Также в системе присутствуют следующие связи - от объекта управления 9 к блоку расчета подкрепления 1 идут связи 10.1 и 11.1, от объекта управления 9 на блок расчета временной разности 2 идут сигналы по связям 10.2 и 11.2, от объекта управления 9 на решающую нейронную сеть 6 идут сигналы по связям 10.3 и 11.3, от объекта управления 9 на блок отбора действий 7 идут сигналы по связям 10.4 и 11.4, от блока расчета подкрепления 1 на блок расчета временной разности 2 идет сигнал по связи 12.1, блок расчета подкрепления 1 и блок действий 8 связаны по сигналу 12.2, от блока действий 8 идет связь 13 на блок расчета временной разности 2, от блока критика 3 идет связь 14 на блок расчета временной разности 2, от блока расчета временной разности 2 идет сигнал на блок критика 3 по связи 15, от блока расчета временной разности 2 идет связь 16.1 на блок обучения нейронных сетей 5 и связь 16.2 на блок действий 8, от блока критика 3 идет связь 17.1 на блок выбора действий 4 и связь 17.2 на блок обучения нейронных сетей 5, от блока отбора действий 7 идет связь 18.1 на блок критика 3 и связь 18.2 на блок выбора действий 4, от решающей нейронной сети 6 идет связь 19.1 на блок критика 3 и связь 19.2 на блок обучения нейронных сетей 5, от блока обучения нейронных сетей 5 идет связь 20.1 на блок критика 3 и связь 20.2 на решающую нейронную сеть 6, от блока действий 8 идет сигнал по связи 21 на блок обучения нейронных сетей 5, от блока обучения нейронных сетей 5 идет связь 22 на блок действий 8, от решающей нейронной сети 6 идет сигнал на блок отбора действий 7 по связи 26, от блока обучения нейронных сетей 5 идут сигналы по связи 24.1 на блок критика 3 и по связи 24.2 на решающую нейронную сеть 6, блок критика 3 и блок отбора действий 7 соединены по связи 25, блок отбора действий 7 и решающая нейронная сеть 6 соединены по связи 26, от блока действий 8 на блок отбора действий 7 идет сигнал по связи 27, от блока отбора действий 7 идет сигнал 28 на блок действий 8, блок выбора действий 4 по связи 29.1 соединен с блоком действий 8 и по связи 29.2 соединен с объектом управления 9.The system also contains the following connections - from the
Блок расчета подкрепления 1 предназначен для расчета подкрепления работы интеллектуального контроллера. Формула расчета подкрепления задается разработчиком.
Блок расчета временной разности 2 предназначен для расчета временной разности (Саттон Р., Барто А. «Обучение с подкреплением». БИНОМ: Лаборатория знаний. 2012. 399 с.).The block for calculating the
Блок критика 3 предназначен для расчета прогнозного значения качества ситуации последующей при выборе определенного действия. Для расчета качества ситуации используется послойно - полносвязная нейронная сеть прямого распространения сигнала (многослойный персептрон).
Блок выбора действия 4 предназначен для выбора конкретного действия из всех возможных в данной ситуации. При выборе используется так называемое «жадное правило» (Саттон Р., Барто А. «Обучение с подкреплением». БИНОМ: Лаборатория знаний. 2012. 399 с, которое можно записать как «с вероятностью ε (0<ε≤1) выбирается то действие, которому соответствует максимальное значение качества ситуации».
Блок обучения нейронных сетей 5 предназначен для обучения нейронных сетей критика и решающей нейронной сети.The neural
Решающая нейронная сеть 6, предназначена для прогнозирования следующего значения рабочего параметра системы (рабочих параметров может быть несколько). Под рабочим параметром понимается тот параметр системы, оценивая который, система может определить, как она работает, либо это параметр, который служит ориентиром для работы системы.The decisive
Блок отбора действий 7 предназначен для отбора всех возможных действий в данной ситуации с учетом минимального накопленного подкрепления для каждого возможного действия.
Блок действий 8 предназначен для хранения таблицы возможных действий во всех возможных ситуациях, истории работы объекта управления (ситуация -> действие) и накопленного подкрепления при совершении определенного действия в определенной ситуации.The block of
Заявленное устройство работает следующим образом.The claimed device operates as follows.
1. Объект управления 9 выполняет действие и на выходах формируются сигналы состояния объекта управления 10 и внешней среды 11, которые поступают в блок отбора действий 7 по связям 10.4 и 11.4 соответственно, на решающую нейронную сеть 6 по связям 10.3 и 11.3, на блок расчета подкрепления 1 по связям 10.1 и 11.1 и блок расчета временной разности 2 по связям 10.2 и 11.2.1. The
2. При поступлении новых данных от объекта управления 9 по сигналам состояния объекта 10.4 и внешней среды 11.4, блок отбора действий 7 запрашивает по связи 28 у блока действий 8 возможные действия в данной ситуации и по связи 27 получает их. Получив возможные действия, блок отбора действий 7 синхронно с решающей нейронной сетью 6 начинает подавать попарно значения {возможное действие; прогноз рабочего параметра) на блок критика 3 по связям: 18.1 - возможное действие от блока отбора действий 7 и 19.1 - прогноз рабочего параметра от решающей нейронной сети 6. При этом блок отбора действий 7 подает поочередно различные действия, а решающая нейронная сеть 6 только одно вычисленное прогнозное значение рабочего параметра. Синхронизация блока отбора действий 7 с решающей нейронной сетью 6 идет по связи 26, при этом блок отбора действий 7 ждет момента, когда решающая нейронная сеть 6 выдаст прогноз рабочего параметра.2. When new data is received from the
3. Решающая нейронная сеть 6, получив новые значения состояния объекта управления и внешней среды по связям 10.3 и 11.3 соответственно, вычисляет прогнозное значение рабочего параметра на следующую временную итерацию. Решающая нейронная сеть 6 после вычисления прогнозного значения рабочего параметра подает синхронизирующий сигнал по связи 26 на блок отбора действий 7 и подает вычисленное значение на блок критика 3 по связи 19.1 совместно с сигналом по связи 18.1 от блока отбора действий 7, который содержит возможное действие.3. The decision
4. Блок критика 3, получая сигналы {возможное_действие; прогноз_рабочего параметра) по связям 18.1 и 19.1 от блока отбора действий 7 и блока решающей нейронной сети 6 вычисляет возможное будущее подкрепление для поданного действия. При этом блок отбора действий 7 подает на блок критика 3 по связи 18.1 последовательно столько действий сколько их возможно в данной ситуации. Соответственно блок критика 3, вычисляет столько значений возможных будущих подкреплений, сколько вариантов действий предоставил блок отбора действий 7. После вычисления каждого значения возможного подкрепления, блок критика 3 посылает синхронизирующий сигнал по связи 25 на блок отбора действий 7 о возможности приема новых данных и параллельно посылает рассчитанное значение по связи 17.1 на блок выбора действий 4.4.
5. Блок выбора действий 4 запоминает все пришедшие к нему значения {возможное действие; качество действия} и, основываясь на ε - жадном правиле, выбирает текущее действие и посылает его по связи 29.2 на объект управления 9. Выбранное действие также посылается на блок действий 8 по связи 29.1.5. Block of choice of
6. Блок расчета подкрепления 1, получая значения текущего состояния среды и объекта управления по связям 10.1 и 11.1 соответственно, вычисляет по заданной формуле значение полученного подкрепления за последнюю отработанную итерацию управления. Полученное значение рассчитанного подкрепления по связи 12.1 подается в блок расчета временной разности 2, который рассчитывает значение текущей временной разности. Если значение ошибки временной разности выше заданного разработчиком порога (т.е. большая ошибка) и получаемое подкрепление снижается, то блок расчета временной разности 2 посылает сигнал по связи 16.1 на блок обучения нейронных сетей 5 о начале дообучения блока критика 3. Также блок расчета временной разности 2 записывает данные о текущей временной разности в блок действий 8 по связи 16.2.6. The block for calculating the
7. Блок обучения нейронных сетей 5, получив сигнал по связи 16.1 от блока расчета временной разности 2 о начале переобучения блока критика 3 посылает сигнал 23 на блок отбора действий 7 о приостановлении работы по выбору действий, то есть отключается блок решающей нейронной сети 6 и блок критика 3. При этом объект управления 9, блок расчета подкрепления 1 и блок действий 8 работают в обычном режиме, но объект управления 9 не предпринимает никаких действий или отрабатывает последнюю команду от блока выбора действий 4 (в зависимости от реализуемой задачи).7. The learning unit of
8. Блок обучения нейронных сетей 5, получив сигнал по связи 16.1 от блока расчета временной разности 2, в случае большой ошибки прогноза рабочего параметра, формирует наборы {входы; выходы}, запрашивая данные у блока действий 8 по связи 22 и принимая их по связи 21 начинает обучение нейронной сети блока критика 3. При этом в процессе обучения блок обучения нейронных сетей 5 подает на входы блока критика 3 по связям 20.1 и 24.1 значения, полученные от блока действий 8 и решающей нейронной сети 6, снимает данные с выхода блока критика 3 по связи 17.2. Обучение происходит по методу обратного распространения ошибки. Корректировка синаптических связей нейронной сети критика 3 происходит по сигналу 20.1. В случае если ошибка обучения нейронной сети блока критика 3 меньше заданной разработчиком, то блок обучения нейронных сетей 5 останавливает обучение нейронной сети блока критика 3 и посылает сигнал по связи 23 на блок отбора действий 7 о продолжении работы устройства в рабочем режиме.8. The unit for training
9. Блок обучения нейронных сетей 5 получив сигнал 16.1 от блока расчета временной разности 2, также начинает переобучение решающей нейронной сети 6. Вначале блок обучения нейронных сетей 5 посылает сигнал 23 на блок отбора действий 7 о приостановлении работы по выбору действий, то есть отключаются блок решающей нейронной сети 6 и блок критика 3. При этом объект управления 9, блок расчета подкрепления 1 и блок действий 8 работают в обычном режиме, но объект управления 9 не предпринимает никаких действий или отрабатывает последнюю команду от блока выбора действий 4 (в зависимости от реализуемой задачи). Далее, блок обучения нейронных сетей 5 по сигналу 22 запрашивает обучающую выборку для решающей нейронной сети 6 у блока действий 8 и получает данные по сигналу 21. Получив обучающую выборку, блок обучения нейронных сетей 5 начинает обучение решающей нейронной сети 6 по алгоритму обратного распространения ошибки. По сигналам 20.2 и 24.2 подаются данные на входы решающей нейронной сети 6, а по сигналу 19.2 снимаются данные с выхода решающей нейронной сети 6. Корректировка синаптических связей решающей нейронной сети происходит по сигналу 20.2. В случае если ошибка обучения решающей нейронной сети 6 меньше заданной разработчиком, то блок обучения нейронных сетей 5 останавливает обучение решающей нейронной сети 6 и посылает сигнал на блок отбора действий 7 по сигналу 26 о продолжении рабочего режима работы.9. The learning unit of
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020141730A RU2755339C1 (en) | 2020-12-16 | 2020-12-16 | Modified intelligent controller with adaptive critical element |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020141730A RU2755339C1 (en) | 2020-12-16 | 2020-12-16 | Modified intelligent controller with adaptive critical element |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2755339C1 true RU2755339C1 (en) | 2021-09-15 |
Family
ID=77745838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020141730A RU2755339C1 (en) | 2020-12-16 | 2020-12-16 | Modified intelligent controller with adaptive critical element |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2755339C1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2450336C1 (en) * | 2011-01-11 | 2012-05-10 | Государственное образовательное учреждение высшего профессионального образования "Кубанский государственный технологический университет" (ГОУ ВПО "КубГТУ") | Modified intelligent controller with adaptive critic |
RU2523218C1 (en) * | 2013-02-22 | 2014-07-20 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Кубанский государственный технологический университет" (ФГБОУ ВПО "КубГТУ") | Modified intelligent controller with adaptive critic |
US9156165B2 (en) * | 2011-09-21 | 2015-10-13 | Brain Corporation | Adaptive critic apparatus and methods |
US9367798B2 (en) * | 2012-09-20 | 2016-06-14 | Brain Corporation | Spiking neuron network adaptive control apparatus and methods |
US20170024643A1 (en) * | 2015-07-24 | 2017-01-26 | Google Inc. | Continuous control with deep reinforcement learning |
-
2020
- 2020-12-16 RU RU2020141730A patent/RU2755339C1/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2450336C1 (en) * | 2011-01-11 | 2012-05-10 | Государственное образовательное учреждение высшего профессионального образования "Кубанский государственный технологический университет" (ГОУ ВПО "КубГТУ") | Modified intelligent controller with adaptive critic |
US9156165B2 (en) * | 2011-09-21 | 2015-10-13 | Brain Corporation | Adaptive critic apparatus and methods |
US9367798B2 (en) * | 2012-09-20 | 2016-06-14 | Brain Corporation | Spiking neuron network adaptive control apparatus and methods |
RU2523218C1 (en) * | 2013-02-22 | 2014-07-20 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Кубанский государственный технологический университет" (ФГБОУ ВПО "КубГТУ") | Modified intelligent controller with adaptive critic |
US20170024643A1 (en) * | 2015-07-24 | 2017-01-26 | Google Inc. | Continuous control with deep reinforcement learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220146993A1 (en) | Machine learning method and machine learning device for learning fault conditions, and fault prediction device and fault prediction system including the machine learning device | |
US11511420B2 (en) | Machine learning device, robot system, and machine learning method for learning operation program of robot | |
US10518357B2 (en) | Machine learning device and robot system to learn processing order of laser processing robot and machine learning method thereof | |
US11676026B2 (en) | Using back propagation computation as data | |
EP3593288A1 (en) | Training action selection neural networks using look-ahead search | |
US10727930B2 (en) | Radio repeater selection apparatus and machine learning device | |
RU2602973C1 (en) | Neural network training controller with genetic algorithm | |
CN112001496B (en) | Neural network structure searching method and system, electronic device and storage medium | |
CN113837356A (en) | Intelligent sewage treatment prediction method based on fusion neural network | |
JP6457382B2 (en) | Machine learning device, industrial machine system, manufacturing system, machine learning method and machine learning program for learning cash lock | |
JP2023517262A (en) | AUTOMATIC LEARNING BASED TIME SERIES DATA PREDICTION AND CONTROL METHOD AND APPARATUS | |
CN114175052A (en) | Residual semi-cyclic neural network | |
Anochi et al. | Self-configuring two types of neural networks by mpca | |
RU2755339C1 (en) | Modified intelligent controller with adaptive critical element | |
WO2022098601A1 (en) | Autonomous fluid management using fluid digital twins | |
Naumov | Feedforward and recurrent neural networks backward propagation and hessian in matrix form | |
RU2523218C1 (en) | Modified intelligent controller with adaptive critic | |
CN112801558B (en) | Optimization method and device of process parameter adjustment action decision model | |
RU2447494C1 (en) | Intelligent controller with self-modification rules of educational and control neural networks | |
Demin et al. | Adaptive control of multiped robot | |
RU2450336C1 (en) | Modified intelligent controller with adaptive critic | |
RU2774625C1 (en) | Modified intelligent controller with fuzzy rules and neural network training unit | |
Buttar | Applying machine learning to reduce the adaptation space in self-adaptive systems: an exploratory work | |
KR102090109B1 (en) | Learning and inference apparatus and method | |
US20220301293A1 (en) | Model generation apparatus, model generation method, and recording medium |