Claims (12)
1. Компьютерно реализуемый способ машинного обучения целенаправленному поведению, содержащий следующие этапы: 1. A computer-implemented method of machine learning purposeful behavior, containing the following stages:
получают из внешней среды сенсорную информацию, в том числе подкрепляющие сигналы, и receive sensory information from the external environment, including reinforcing signals, and
генерируют управляющие сигналы с целью максимизации суммы ожидаемых в будущем подкрепляющих сигналов, при этом управляющие сигналы генерируют в соответствии с иерархией согласованных вложенных друг в друга планов, которые автоматически создают в процессе обучения и постоянно адаптируют к изменяющимся внешним обстоятельствам.generate control signals in order to maximize the sum of reinforcing signals expected in the future, while the control signals are generated in accordance with the hierarchy of coordinated nested plans, which are automatically created in the learning process and constantly adapted to changing external circumstances.
2. Способ по п. 1, отличающийся тем, что внешние подкрепляющие сигналы дополняют внутренними подкреплениями в случаях осуществления прогнозируемого системой хода развития событий.2. The method according to claim. 1, characterized in that external reinforcing signals are supplemented with internal reinforcements in cases of implementation of the course of events predicted by the system.
3.Способ по любому из пп. 1, 2, отличающийся тем, что количество уровней иерархии увеличивают постепенно по мере накопления информации о взаимодействии с внешней средой.3. The method according to any one of paragraphs. 1, 2, characterized in that the number of levels of the hierarchy increases gradually as information about interaction with the external environment accumulates.
4. Способ по любому из пп. 1-3, отличающийся тем, что управляющие сигналы на каждом уровне иерархии представляют собой цепочки элементарных дискретных действий – паттерны поведения данного уровня, которые характеризуются наибольшим ожидаемым суммарным подкреплением с учетом статистической неопределенности определяемой при помощи Томпсоновского сэмплирования данных из памяти данного уровня.4. A method according to any one of claims. 1-3, characterized in that the control signals at each level of the hierarchy are chains of elementary discrete actions - patterns of behavior of a given level, which are characterized by the greatest expected total reinforcement, taking into account the statistical uncertainty determined using Thompson's sampling of data from the memory of this level.
5. Способ по любому из пп. 1-4, отличающийся тем, что на каждом уровне иерархии новые паттерны поведения создают путем добавления в память наиболее выгодных комбинаций из уже известных паттернов.5. The method according to any one of claims. 1-4, characterized in that at each level of the hierarchy, new patterns of behavior are created by adding to the memory the most advantageous combinations of already known patterns.
6. Система для обучения иерархическому целесообразному поведению, содержащая по меньшей мере один процессор, компьютерную память, сетевую инфраструктуру, средства хранения информации, выполненные с возможностью осуществления иерархической послойной обработки входной сенсорной информации из более низкого уровня, включая внешнюю среду, как нулевой уровень, и управляющих сигналов с более высокого уровня, кроме верхнего уровня иерархии и выработки управляющих сигналов более низкому уровню, а также накопления опыта взаимодействия с внешней средой.6. A system for teaching hierarchical expedient behavior, containing at least one processor, computer memory, network infrastructure, information storage facilities capable of performing hierarchical layer-by-layer processing of input sensory information from a lower level, including the external environment, as a zero level, and control signals from a higher level, in addition to the upper level of the hierarchy and the generation of control signals to a lower level, as well as the accumulation of experience in interacting with the external environment.
7. Система по п. 6, отличающаяся тем, что количество уровней иерархии обработки информации увеличивается постепенно по мере накопления опыта взаимодействия с внешней средой.7. The system according to claim 6, characterized in that the number of levels of the information processing hierarchy increases gradually as the experience of interaction with the external environment accumulates.
8. Система по п. 6 и/или 7, отличающаяся тем, что обработка информации на каждом иерархическом уровне производится набором программно-аппаратных модулей, работающих параллельно и независимо друг от друга.8. The system according to claim 6 and / or 7, characterized in that the information processing at each hierarchical level is performed by a set of software and hardware modules operating in parallel and independently of each other.
9. Система по любому из пп. 6-8, отличающаяся тем, что система или ее отдельные компоненты реализованы аппаратно в виде специализированных микросхем соответствующей архитектуры.9. System according to any one of paragraphs. 6-8, characterized in that the system or its individual components are implemented in hardware in the form of specialized microcircuits of the corresponding architecture.
10. Система по любому из пп. 6-9, отличающаяся тем, что система реализована в клиент-серверной архитектуре и все блоки соединены между собой стандартизированными каналами связи.10. System according to any one of paragraphs. 6-9, characterized in that the system is implemented in a client-server architecture and all units are interconnected by standardized communication channels.