WO2020256593A1 - Способ и система машинного обучения иерархически организованному целенаправленному поведению - Google Patents

Способ и система машинного обучения иерархически организованному целенаправленному поведению Download PDF

Info

Publication number
WO2020256593A1
WO2020256593A1 PCT/RU2020/050123 RU2020050123W WO2020256593A1 WO 2020256593 A1 WO2020256593 A1 WO 2020256593A1 RU 2020050123 W RU2020050123 W RU 2020050123W WO 2020256593 A1 WO2020256593 A1 WO 2020256593A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
level
learning
memory
information
Prior art date
Application number
PCT/RU2020/050123
Other languages
English (en)
French (fr)
Inventor
Сергей Александрович ШУМСКИЙ
Original Assignee
Сергей Александрович ШУМСКИЙ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сергей Александрович ШУМСКИЙ filed Critical Сергей Александрович ШУМСКИЙ
Publication of WO2020256593A1 publication Critical patent/WO2020256593A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models

Definitions

  • the invention relates to the field of machine intelligence, in particular - machine learning of robots and software agents for purposeful behavior, more specifically - to the so-called. deep reinforcement learning, with the automatic construction of a hierarchy of increasingly abstract features.
  • Machine learning or automatic generation of "intelligent" algorithms in the process of training on large amounts of data.
  • the complexity of such algorithms is no longer limited by the amount of accumulated knowledge, but by the amount of available data and the availability of computing resources.
  • the result of training is a distributed system with many tuning parameters (for example, an artificial neural network), and not a set of logical rules.
  • This type of machine intelligence is also called distributed intelligence.
  • Deep learning is at the heart of the best modern speech recognition systems, machine vision, machine translation and many other practical applications of applied (narrow) artificial intelligence [1].
  • Major advances have been made in supervised learning, where patterns of correct behavior are given to the learning system, such as the correct classification of a learning set of sensory images.
  • the behavior of robots in all conceivable situations cannot be programmed, and they will have to independently develop algorithms for their behavior, focusing only on rare reinforcing signals from the outside - rewards for solving certain problems [2].
  • AlphaGo Zero combines logical and distributed intelligence: a deep neural network learns to evaluate a position and predict promising moves, and a logical component calculates and selects options according to a given algorithm (but does not learn).
  • This invention also combines the strengths of the logical and distributed approaches, only in the form of a hierarchical system, where at each level of the hierarchy there are two types of learning - symbolic and distributed.
  • This learning method turns out to be faster and more economical in terms of computational costs than traditional deep learning, which makes it possible to plan the behavior of robots with a long planning horizon without prohibitive growth in computing power.
  • the difficulty of reinforcement learning is primarily due to the fact that rewards depend not on individual actions, but on their sequences, and can be far behind in time from specific actions. Receiving a reward is not explicitly attributed to a particular action, which makes it difficult to evaluate individual actions and, accordingly, training. For example, in the case of a game of Go, the reward (win) becomes known only in the very end of the game, without indicating which moves were most useful for obtaining it.
  • This invention proposes a method of teaching not individual actions, but their most useful combinations, i.e. elements of discrete symbolic learning are used, which are absent in traditional deep neural networks. Such training is limited to relatively short sequences of actions, since their diversity increases exponentially with their length.
  • the present invention circumvents this problem by hierarchically scheduling behaviors simultaneously over multiple time scales.
  • the system proposed in this invention is represented by a hierarchy of learning computational layers (computation levels). Higher levels operate on longer time scales, which allows the upper levels to "reach" arbitrarily distant rewards in time and find a rough plan for achieving them, and lower levels - to find the best ways to implement this plan.
  • the technical result of the claimed invention is to expand the arsenal of technical means.
  • This invention proposes to use a combination of discrete and analog learning.
  • Analog or gradient neural network training is used to encode and decode actions at different planning levels. Coding maps multiple chains of actions at a lower level of the hierarchy that occur in similar contexts into one discrete action at a higher level. Decoding reverses the action of the higher layer into multiple ways of its implementation at the lower layer. • Discrete or symbolic learning is used to select the most promising combinations of discrete actions - patterns of behavior with the maximum expected reinforcement at each level of the hierarchy.
  • the increase in the complexity of the learning hierarchical system (for example, the number of parameters of the artificial brain of the robot) during training occurs gradually, in proportion to the amount of data processed by the system.
  • the computational complexity of training turns out to be orders of magnitude lower than the complexity of training deep neural networks with a predetermined number of parameters [6, 7], which opens up wide opportunities for practical applications of the invention, especially in robotics and mobile devices, where the capabilities of on-board computing systems are obviously limited. ...
  • the proposed invention proposes a more economical method of Thompson sampling - when retrieving data from the system memory.
  • the savings are due to the fact that memory stores the learning outcomes, i.e. very compact concise representation of the original data.
  • a computer-implemented method of machine learning of purposeful behavior was developed and contains the following stages: they receive sensory information from the external environment, including reinforcing signals, and generate control signals in order to maximize the amount of reinforcing signals expected in the future, while control signals are generated in accordance with with a hierarchy of coordinated nested plans that are automatically created in the learning process and constantly adapt to changing external circumstances. External reinforcing signals can be supplemented with internal reinforcements in cases of implementation of the course of events predicted by the system. Control signals at each level of the hierarchy can represent chains of elementary discrete actions - patterns of behavior of a given level, which are characterized by the greatest expected total reinforcement, taking into account statistical uncertainty determined, for example, using Thompson's sampling of data from the Memory of a given level.
  • new patterns of behavior can be created by adding the most advantageous combinations of already known patterns to memory.
  • a computer system for teaching hierarchical expedient behavior (for example, on-board robot equipment), containing at least one processor, computer memory, network infrastructure, information storage facilities, made with the possibility of performing hierarchical layer-by-layer processing of input sensory information from a lower level, including the external environment, as a zero level, and control signals from a higher level, in addition to the upper level of the hierarchy and the generation of control signals to a lower level, as well as the accumulation of experience of interaction with the external environment.
  • hierarchical expedient behavior for example, on-board robot equipment
  • the number of levels of the information processing hierarchy can increase gradually as the experience of interaction with the external environment is accumulated.
  • Information processing at each hierarchical level can be performed by a set of software and hardware modules operating in parallel and independently of each other.
  • the system can be implemented in a client-server architecture and all units are interconnected by standardized communication channels.
  • Figure 1 illustrates the difference between the hierarchical planning scheme proposed in this invention and the AlphaGo Zero system.
  • Deep neural network AlphaGo Zero is able to generate variants of its moves only one step ahead. For selection the best variant, at each step, a very voluminous tree of variants is calculated for dozens of moves ahead [11].
  • This invention proposes a much more cost-effective approach to planning behavior, from large-scale goal achievement plans to increasingly detailed plans for achieving it. However, the variety of choices at each level is relatively small.
  • the system proposed in this invention consists of a set of computational layers that schedule behavior at different time scales. The higher the layer, the larger the time scale it operates.
  • Each layer encodes the current state of the system's interaction with the outside world with a certain set of its discrete symbols - states. Each such symbol encodes sensorimotor information at its own level of abstraction - both incoming (observations) and outgoing (actions). Those. any course of action is accompanied by corresponding predictions of observation that are constantly compared with reality, providing material for training the system even in the absence of reinforcement signals, which distinguishes this invention from conventional reinforcement learning.
  • each layer develops its own action plan (the final sequence of the following states), which implements a more general plan received from a higher layer. He passes the next action from his plan to the underlying layer, and his current context to the overlying layer.
  • the underlying layer decodes the instruction received from above into its plan of action, calculates its next state in accordance with this plan and transfers it to the layer below. This creates a downward flow of commands that determine the behavior of the system.
  • the direct interaction of the system with the external environment occurs through the lowest, first level of the hierarchy, which receives input sensory signals from the outside - observations and issues control signals - actions to the actuators.
  • Some selected class of input signals, so-called. reinforcing signals or reinforcements carry information about the external rewards received by the system, depending on the actions taken by it in the past.
  • the system generates its own internal reinforcements if it successfully predicts external events.
  • the goal of the system is to plan behavior with the maximum expected total reinforcement (external and internal) in the future.
  • the balance between the ability of the system to plan its behavior and its desire to maximize external reinforcements can vary depending on the tasks solved by the system.
  • the learning computer system (see Fig. 2) consists of a finite number of computational layers, the number of which can increase when the system accumulates a sufficient amount of empirical data. Each layer contains the same set of standard components: Encoder (200), Decoder (201), Parser (211), and Memory (210).
  • the encoder represents the data coming from the previous layer in the form of a stream of discrete symbols of its internal alphabet - the possible states of this layer.
  • a specific state of this layer corresponds to a set of state chains of a lower layer.
  • the decoder performs the opposite operation - it transforms the output stream of the planned states of this layer into the stream of instructions for the underlying layer.
  • Each such instruction is a ranged set of possible ways for the underlying layer to implement the current plan step.
  • the parser groups the characters coming from the Coder into larger tokens - morphemes, the most useful from the point of view of the total reinforcement of the sequences of characters that make up the vocabulary of a given layer.
  • the Parser uses the statistics of awards accumulated in Memory, received from the previously observed combinations of various morphemes. Using this statistics, the Parser selects the following morphemes that are most promising in this context, which implement instructions received from a higher layer, i.e. forms the optimal plan of action for this layer, as part of a more general plan.
  • the proposed hierarchical system is capable of learning multilevel planning and demonstrating purposeful behavior at ever larger time intervals. Each layer of the system learns to compile its plans, accumulating in its Memory the most useful sequences of symbols with the maximum total rewards. Namely:
  • the memory stores the total awards R Wmwn , received by the observed combinations of morphemes known to it in the past. If this value exceeds a certain specified limit, i.e. the combination of morphemes w m w n proves its usefulness, this combination is remembered in Memory as a new morpheme in the dictionary of this layer: W new w m w n ⁇ Thus, the amount of Memory increases with the number of data processed by the system.
  • the L-th level plan is determined by the current context w m, as the next morpheme w m + 1 with the maximum predicted reward, taking into account the correspondence of this morpheme to the higher level plan (see Fig. 2).
  • Each layer of the L system receives signals from levels (L + /) and (L- i), where the external environment is considered to be a zero level.
  • the L + 1 layer determines the current state of the executable plan of the (E +) -level - S m + 1 in Fig. 2.
  • the decoder of the (L + i) -ro layer translates this symbol into a ranged set of L-ro level morphemes - possible realizations at the L-level of step S m + 1 .
  • the L-ro layer encoder translates the current (L- /) -layer context into a discrete input 5 P symbol . If it does not match the prediction, the current L-ro layer plan is adjusted. Namely, from the ranked list of candidate morphemes, the one that corresponds to the current observation is selected. If there is no one in the list, the L-ro level action plan is selected from the full arsenal of morphemes accumulated in the L-level memory without regard to the top-level plan. The latter will be adjusted by the (L + 1) - level in its next step.
  • the next scheduled state s n + 1 is transmitted to the Decoder for broadcast to the L-1 layer.
  • each layer is replenished in the process of parsing (parsing) information coming from outside, i.e. the system is constantly learning online.
  • the system periodically retrains offline under the control of a special module - the Manager of offline training (30 in Fig. 3). Namely, at certain points in time, the system (or its copy, if the original is occupied by the current behavior management) temporarily switches to a special "sleep" mode for offline learning, during which:
  • the next layer can be added to the system if the current top-level layer has accumulated enough data to create a new alphabet of symbols for the next layer.
  • the Offline Learning Manager provides a 0-level memory, which stores the history of the system's interaction with the external environment - the flow of sensory observations about n , and the flow of control actions of the system a p .
  • the system proposed in the present invention performs simultaneous coordinated planning of behavior on many scales of time.
  • Each step of level L + 1 corresponds to a sequence of steps of level L.
  • plans of lower levels fit into plans of higher ones. Correction of plans occurs there and then when their predictions cease to correspond to reality.
  • the system learns adaptive goal-directed behavior on increasingly long time scales.
  • An important particular case of this invention is the modular design of the System, when each of its layers consists of a finite number of modules (40 in Fig. 4), which are trained and work independently of other modules of the same layer.
  • the modular design allows for efficient parallelization of computations and generalizes the traditional layered architecture of deep neural networks, in which neurons within each layer do not interact with each other. Further in the text, if modules are mentioned, we are talking about a special case of modular design. DEFINITION OF BASIC TERMS AND DESCRIPTION OF ELEMENTS
  • the System training begins with the initial accumulation of 0-level memory under the control of the Offline Training Manager. For example, the latter generates random actions of the actuators of the System a n and perceives the results of these actions o n from its receptors.
  • the Offline Learning Manager starts the algorithm for creating a pair of Coder-Decoder of the next layer of the System (starting from the first).
  • the encoder represents the rows of the accumulated reinforcement table R wi wi stored in the Memory with much more compact sets of discrete symbols (from the alphabets of the modules of the corresponding layer) so that close vectors have the same or close codes - so that discrete symbols adequately reflect reality.
  • This type of encoding is known as "locality sensitive hashing" or "learning to hash”.
  • the Encoder approximates analog data with an infinite variety - discrete data with a finite number of states.
  • the System has the ability to memorize combinations of actions, i.e. plan behavior.
  • the task of the Encoder is to carry out such discrete coding with minimal losses, so that the corresponding Decoder can recover the original vectors from this code with minimal loss of accuracy.
  • the Coder is implemented by N modules, each of which implements its own version of data clustering ⁇ x n ⁇ , using different subspaces or different training data subsets.
  • the original vector restored by the Decoder in this case can be represented, for example, by the averaged coordinates of the centroids of all clusters corresponding to its code.
  • w n (W n , w)
  • - morphemes from the Dictionary of the i-th module of this layer Those. the dimension of the vector x n is equal to the total size of the Dictionary of all N modules of this layer.
  • Morphemes represent the most useful sequences of symbols from the point of view of total reinforcement and serve as keys to the Memory storing statistics of awards R wi w; obtained by the System in the previously observed mergers of known morphemes (see below).
  • the set of morphemes in the Module Dictionaries is constantly updated, as will be described below.
  • a parser is a finite state machine that transforms an input sequence of characters ... s t into a shorter sequence of morphemes he recognized ... w T.
  • Various options for parsing algorithms are possible, i.e. finding local optima of a complex combinatorial problem - constructing an optimal data structure [13].
  • Fig. 5 illustrates the algorithm of operation of the 2nd order Parser, at each step of which two variants of the parse tree are compared (500 and 510). In the selected option with the highest reinforcement, either the incoming symbols (501) are merged or the context w T (511) is expanded.
  • the operation max is performed in each module independently, and the values R w ⁇ wi ⁇ are obtained from the values R wi wi stored in the Memory of the modules using the Thompson sampling procedure - choosing a random variable, for example
  • Each parsing step (with or without the formation of a new morpheme) is accompanied by the correction of the Memory parameters, for example:
  • r W ( , r Wr are the reinforcements received by the morphemes w f , w r before their merger
  • ar W (AWr is the reinforcement immediately at the moment of their merger.
  • the volume of the Dictionary also increases during training. Namely, the list of morphemes is replenished with combinations of already known morphemes that have overcome a given threshold of reinforcements accumulated during their mergers: w lr ⁇ - WiAw r if: R WlWr > R * Subsequently, mergers of such morphemes give rise to a new morpheme - their concatenation.
  • Behavior planning happens top-down, starting from the top layer.
  • the top layer parser makes a plan of action by predicting the optimal morpheme following the last morpheme it recognizes, representing the current context.
  • the top layer takes into account the broadest context and forms a long-term plan corresponding to it.
  • the rest of the layers strive to implement it, adapting to a constantly changing environment.
  • Behavior planning in the remaining layers of the System occurs by coordinating the plan sent from above and the operational information received from below.
  • the overlying layer transfers the next step S m + 1 of its current plan to the underlying one through its Decoder.
  • the latter decodes this step into possible variants of its realization ⁇ w m + 1 ⁇ at the level L (220 in Fig. 2), ranked according to the degree of their correspondence to the plan lowered from the top. For example, when encoding is performed with N modules, the implementations are ranked by the number of modules "voting" for each of them, i. E. the number of common components of S m + 1 and S (w m + 1 ).
  • Planning in the simplest case boils down to choosing the first from the ranked list of the set of morphemes ⁇ w m + 1 ⁇ of level L, which becomes the current plan of level L, which is broadcast symbol by character (s n + 1 ) to the lower level L— 1 (221 in Fig. 2) ...
  • More complex algorithms for coordinating plans that are not based on ranking the list, and on assigning them different weights, based on the probabilistic approach.
  • each layer of the System strives to achieve long-term plans, lowered from the top, taking into account the actual information received from below.
  • the system (or its copy, while the original is busy with the current behavior management) temporarily goes into a special "sleep" mode for offline learning under the control of the Manager offline learning.
  • the tuning parameters of the Encoders and Decoders of layers are adjusted, i.e. the discrete symbol values are adjusted in accordance with the updated content of the Layer Memory.
  • the present invention is a universal learning controller capable of controlling objects of various kinds. Specifically, Google used augmented learning algorithms from its subsidiary DeepMind to control the cooling system of its data centers, thereby achieving 40% energy savings [15].
  • control system is a very complex object, consisting of many thousands of coolers, heat exchangers, pumps and cooling towers, which is very difficult to describe using equations and even more difficult to calculate the optimal plan for such a model.
  • the combination of its controls and sensors is usually unique [16].
  • the System proposed in this invention can be used to optimize the energy consumption of a data center as follows:
  • the System is trained to copy the existing data center control algorithm. At this stage, the System does not really control anything and ignores the readings of electricity consumption, receiving reinforcements only in the case of successfully predicted next actions of the actuators a n + 1 and the readings of the receptors o n + 1. After the System learns to copy the existing control system, it can be admitted to real control without significant risk.
  • the System receives negative reinforcements in proportion to the real level of energy consumption of the data center and gradually adjusts its control in such a way as to minimize it.
  • it forms a hierarchical management model based on long-term planning, for example, taking into account forecasting daily, weekly and annual fluctuations in external temperature and the level of loads of a given data center.
  • any arbitrarily complex data center with the help of the proposed invention will be able to learn to select the optimal power consumption mode for itself.
  • EXAMPLE 2 The proposed invention can work with both analog data (as in Example 1) and character information. For example, both components of information exchange with the external environment (o p a p ⁇ can be symbols that receive and transmit text information. In this case, the proposed invention describes a device and method for constructing a so-called language model, capable of learning to understand and generate messages in natural languages [18].
  • Language models are widely used in practice in automatic text and speech processing systems, for example, in machine translation [19].
  • the development of deep learning methods in recent years has contributed to the improvement in the quality of language models. [twenty].
  • the best language models today are capable of generating texts that are difficult to distinguish from those created by man [21].
  • the proposed invention can be used as an interactive human-machine interface in natural language for various information services. For example, as follows:
  • the System independently learns to reproduce the input stream of symbols with minimal errors, i.e. learns to generate natural language texts, learning from large amounts of textual information.
  • a hierarchy of linguistic concepts is formed in the System, helping it to correctly reproduce known words, to understand their meaning, to compose grammatically correct phrases and sentences from them and to combine individual sentences into coherent texts.
  • the System learns to generate coherent texts based on information from the training sample, it can be trained to issue this information in the process of dialogue with the user.
  • the previously trained System is retrained in the dialogue mode, receiving reinforcements whenever it generates correct replicas, for example, answers to questions asked by the user.
  • patterns are formed and strengthened in the System that correspond to the culture of conducting dialogues (when you can start answering the question, how short the answers should be, how to ask clarifying questions, etc.).
  • the System trained in this way can be used as intelligent agents for serving users in natural language in information and reference systems and voice interfaces on mobile devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Computer And Data Communications (AREA)

Abstract

Изобретение относится к способу и системе машинного обучения с подкреплением, т.е. формирования алгоритма целенаправленного поведения системы с максимальным ожидаемым долговременным выигрышем на основании внешних подкрепляющих сигналов. Предложен метод поэтапного обучения все более сложным и протяженным во времени поведенческим навыкам и использования их для составления и коррекции долговременных планов. Целенаправленное поведение формируется иерархической обучающейся системой, в которой каждый иерархический уровень ответственен за свой временной масштаб поведения.

Description

СПОСОБ И СИСТЕМА МАШИННОГО ОБУЧЕНИЯ ИЕРАРХИЧЕСКИ
ОРГАНИЗОВАННОМУ ЦЕЛЕНАПРАВЛЕННОМУ ПОВЕДЕНИЮ
ОБЛАСТЬ ТЕХНИКИ
Изобретение относится к области машинного интеллекта, в частности - машинного обучения роботов и программных агентов целенаправленному поведению, более конкретно - к т.н. глубокому обучению с подкреплением (deep reinforcement learning), с автоматическим построением иерархии все более абстрактных признаков.
УРОВЕНЬ ТЕХНИКИ
Можно выделить два базовых подхода к созданию систем искусственного интеллекта, наделенных когнитивными способностями, сопоставимыми с человеческими. Это:
•Логический (символьный) интеллект , задачей которого является разработка «интеллектуальных» алгоритмов, способных решать те или иные типы «творческих» задач. Например, выдача обоснованных рекомендаций экспертными системами, с использованием баз экспертных знаний и формальных правил выводов.
•Машинное обучение , или автоматическое порождение «интеллектуальных» алгоритмов в процессе обучения на больших объемах данных. Сложность таких алгоритмов лимитируется уже не объемом накопленных знаний, а объемами доступных данных и наличием вычислительных ресурсов. Как правило, результатом обучения является распределенная система со множеством настроечных параметров (например, искусственная нейросеть), а не свод логических правил. Такой вид машинного интеллекта называют еще распределенным интеллектом.
В последние годы прогресс в машинном обучении был связан в основном с т.н. глубоким обучением нейросетей с большим числом слоев, в которых каждый следующий слой обучается распознавать все более сложные признаки. Глубокое обучение лежит в основе лучших современных систем распознавания речи, машинного зрения, машинного перевода и многих других практических применений прикладного (узкого) искусственного интеллекта [1]. Основные успехи были достигнуты при обучении с учителем , когда обучающейся системе даются образцы правильного поведения, например, правильная классификация обучающего набора сенсорных образов.
Более сложная постановка задачи, характерная для обучения роботов и программных агентов - обучение с подкреплением , где образцы правильного поведения отсутствуют. Поведение роботов во всех мыслимых ситуациях нельзя запрограммировать, и они должны будут самостоятельно вырабатывать алгоритмы своего поведения, ориентируясь лишь на редкие подкрепляющие сигналы извне - награды за решение тех или иных задач [2] .
Примером подобной системы является программа AlphaGo Zero, самостоятельно научившаяся игре в Го лучше профессиональных чемпионов - людей [3]. Однако для ее обучения потребовались очень серьезные вычислительные ресурсы (5 миллионов GFLOPS- лет). Подобная дороговизна обучения с подкреплением сдерживает развитие практических применений, в частности - в робототехнике.
AlphaGo Zero сочетает в себе логический и распределенный интеллект: глубокая нейросеть обучается оценивать позицию и предсказывать перспективные ходы, а логическая компонента производит просчет и отбор вариантов по заданному алгоритму (но не учится).
Данное изобретение также объединяет сильные стороны логического и распределенного подходов, только в виде иерархической системы, где на каждом уровне иерархии присутствуют два типа обучения - символьное и распределенное. Такой способ обучения оказывается более быстрым и экономным с точки зрения вычислительных затрат, чем традиционное глубокое обучение, что позволяет планировать поведение роботов с большим горизонтом планирования без запретительного роста вычислительных мощностей.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Сложность обучения с подкреплением обусловлена прежде всего тем, что награды зависят не от отдельных действий, а от их последовательностей , и могут отстоять далеко по времени от конкретных действий. Получение награды не атрибутируется явно к тому или иному действию, что затрудняет оценки отдельных действий и, соответственно, обучение. Например, в случае игры в Го, награда (выигрыш) становится известна лишь в самом конце партии, без указания на то, какие именно ходы были наиболее полезны для ее получения.
В данном изобретении предложен метод обучения не отдельным действиям, а их наиболее полезным комбинациям , т.е. используются элементы дискретного символьного обучения , отсутствующего в традиционных глубоких нейронных сетях. Такое обучение ограничено относительно короткими последовательностями действий, т.к. их разнообразие экспоненциально возрастает с ростом их длины. Данное изобретение обходит эту проблему за счет иерархического планирования поведения одновременно на многих временных масштабах.
А именно, предложенная в данном изобретении система представлена иерархией обучающихся вычислительных слоев (уровней вычислений). Более высокие уровни работают на больших временных масштабах, что позволяет верхним уровням «дотянуться» до произвольно удаленных по времени наград и нащупать грубый план их достижения, а более низким уровням - найти оптимальные способы реализации этого плана.
Техническим результатом заявленного изобретения является расширение арсенала технических средств.
Идея иерархической обработки информации не нова (см. например [4]). На ней, в частности, основаны многие современные системы машинного перевода, в которых последовательные слои рекуррентных нейросетей анализируют иерархию контекстов, раскрывающих смыслы слов и фраз в переводимых текстах [5]. Однако алгоритмы градиентного обучения таких глубоких нейросетей, как мы уже отмечали, очень затраты.
В данном изобретении предлагается использовать комбинацию дискретного и аналогового обучения.
•Аналоговое или градиентное обучение нейросетей используется для кодирования и декодирования действий на разных уровнях планирования. Кодирование отображает множество цепочек действий на более низком уровне иерархии, встречающихся в сходных контекстах, в одно дискретное действие на более высоком уровне. Декодирование производит обратное преобразование действия более высокого уровня во множество способов его реализации на более низком уровне. •Дискретное или символьное обучение используется для отбора наиболее перспективных комбинаций дискретных действий - паттернов поведения с максимальными ожидаемыми подкреплениями на каждом уровне иерархии.
В предлагаемом подходе рост сложности обучающейся иерархической системы (например, число параметров искусственного мозга робота) в ходе обучения происходит постепенно, пропорционально количеству обработанных системой данных. В итоге вычислительная сложность обучения оказывается на порядки ниже, чем сложность обучения глубоких нейросетей с фиксированным заранее числом параметров [6, 7], что открывает широкие возможности практических применений изобретения, особенно в робототехнике и в мобильных устройствах, где возможности бортовых вычислительных систем очевидным образом ограничены.
Дополнительная сложность обучения с подкреплением связана с тем, что у системы отсутствуют образцы правильного поведения и она вынуждена генерировать их сама. При этом возникает известная дилемма между использованием уже известных навыков поведения и генерацией новых (exploration-exploitation tradeoff) [8]. Одним из решений является применение т.н. Томпсоновского сэмплирования из соответствующих вероятностных распределений (Thompson sampling) [9]. В частности, в контексте обучения с подкреплением этот метод используется для дополнения реальных примеров взаимодействия с внешним миром искусственно сгенерированными примерами [10].
В предложенном изобретении предлагается более экономный метод Томпсоновского сэмплирования - при извлечении данных из памяти системы. Экономия связана с тем, что память хранит результаты обучения, т.е. очень компактное сжатое представление исходных данных.
Для этого был разработан компьютерно реализуемый способ машинного обучения целенаправленному поведению и содержащий следующие этапы: получают из внешней среды сенсорную информацию, в том числе подкрепляющие сигналы, и генерируют управляющие сигналы с целью максимизации суммы ожидаемых в будущем подкрепляющих сигналов, при этом управляющие сигналы генерируют в соответствии с иерархией согласованных вложенных друг в друга планов, которые автоматически создают в процессе обучения и постоянно адаптируют к изменяющимся внешним обстоятельствам. Внешние подкрепляющие сигналы могут быть дополнены внутренними подкреплениями в случаях осуществления прогнозируемого системой хода развития событий. Управляющие сигналы на каждом уровне иерархии могут представлять собой цепочки элементарных дискретных действий - паттерны поведения данного уровня, которые характеризуются наибольшим ожидаемым суммарным подкреплением с учетом статистической неопределенности определяемой, например, при помощи Томпсоновского сэмплирования данных из Памяти данного уровня.
На каждом уровне иерархии новые паттерны поведения могут создаваться путем добавления в память наиболее выгодных комбинаций из уже известных паттернов.
Также для реализации предложенного способа была разработана компьютерная система для обучения иерархическому целесообразному поведению (например, бортовая аппаратура робота), содержащая по меньшей мере один процессор, компьютерную память, сетевую инфраструктуру, средства хранения информации, выполненные с возможностью осуществления иерархической послойной обработки входной сенсорной информации из более низкого уровня, включая внешнюю среду, как нулевой уровень, и управляющих сигналов с более высокого уровня, кроме верхнего уровня иерархии и выработки управляющих сигналов более низкому уровню, а также накопления опыта взаимодействия с внешней средой.
Количество уровней иерархии обработки информации может увеличиваться постепенно по мере накопления опыта взаимодействия с внешней средой.
Обработка информации на каждом иерархическом уровне может производится набором программно-аппаратных модулей, работающих параллельно и независимо друг от друга.
Вся система или ее отдельные компоненты могут быть реализованы аппаратно в виде специализированных микросхем соответствующей архитектуры.
Система может быть реализована в клиент-серверной архитектуре и все блоки соединены между собой стандартизированными каналами связи.
ПОЯСНЕНИЯ К РИСУНКАМ
Рис.1 иллюстрирует отличие предложенной в данном изобретении схемы иерархического планирования от системы AlphaGo Zero. Глубокая нейросеть AlphaGo Zero способна генерировать варианты своих ходов лишь на один шаг вперед. Для выбора лучшего варианта на каждом шаге производится просчет очень объемного дерева вариантов на десятки ходов вперед [ 11 ] . В данном изобретении предлагается гораздо более экономный подход к планированию поведения: от крупномасштабного замысла достижения цели - ко все более подробным планам его достижения. При этом разнообразие вариантов выбора на каждом уровне относительно невелико.
Предложенная в данном изобретении система состоит из набора вычислительных слоев, планирующих поведение на разных временных масштабах. Чем выше слой - тем большим временным масштабом он оперирует. Каждый слой кодирует текущее состояние взаимодействия системы с внешним миром определенным набором своих дискретных символов - состояний. Каждый такой символ кодирует на своем уровне абстракции сенсомоторную информацию - как входящую ( наблюдения ), так и исходящую {действия). Т.е. любой план действий сопровождается соответствующими предсказаниями наблюдений, которые постоянно сравниваются с реальностью, поставляя материал для обучения системы даже в отсутствие подкрепляющих сигналов, что выгодно отличает данное изобретение от обычного обучения с подкреплением.
Анализируя конечную последовательность своих последних состояний (текущий контекст) каждый слой вырабатывает свой план действий (конечную последовательность следующих состояний), реализующий более общий план, полученный от более высокого слоя. Следующее действие из своего плана он передает нижележащему слою, а свой текущий контекст - вышележащему слою.
Нижележащий слой декодирует полученное свыше указание в свой план действий, вычисляет свое следующее состояние в соответствии с этим планом и передает его на слой ниже. Так формируется нисходящий поток команд, определяющих поведение системы.
Восходящий поток сигналов от внешней среды - текущие контексты разных уровней, сравнивается с нисходящим потоком предсказаний сверху, и там, где они расходятся между собой, происходит коррекция планов поведения.
Непосредственное взаимодействие системы с внешней средой происходит через самый низкий, первый уровень иерархии, который получает извне входные сенсорные сигналы - наблюдения и выдает на исполнение актуаторам управляющие сигналы - действия. Некоторый выделенный класс входных сигналов т.н. подкрепляющие сигналы или подкрепления несут информацию о полученных системой внешних наградах, зависящих от предпринятых ею в прошлом действий. В дополнение к внешним подкреплениям система генерирует свои внутренние подкрепления в случае удачного предсказания ею внешних событий. Тем самым, система постоянно обучается предсказывать результаты своих собственных действий. Целью системы является планирование поведения с максимальным ожидаемым в будущем суммарным подкреплением (внешним и внутренним). Баланс между способностью системы планировать свое поведение и ее стремлением максимизировать внешние подкрепления может варьироваться в зависимости от решаемых системой задач.
Обучающаяся компьютерная система (см. Рис 2) состоит из конечного числа вычислительных слоев, количество которых может возрастать при накоплении системой достаточного объема эмпирических данных. Каждый слой содержит один и тот же набор стандартных компонент: Кодер (200), Декодер (201), Парсер (211) и Память (210).
•Кодер представляет поступающие с предыдущего слоя данные в виде потока дискретных символов своего внутреннего алфавита - возможных состояний данного слоя. При этом конкретному состоянию данного слоя соответствует множество цепочек состояний более низкого слоя.
•Декодер производит обратную операцию - переводит выходной поток планируемых состояний данного слоя в поток инструкций для нижележащего слоя. Каждая такая инструкция представляет собой ранжированный набор возможных способов реализации нижележащим слоем текущего шага плана.
•Парсер группирует поступающие от Кодера символы в более крупные токены - морфемы , наиболее полезные с точки зрения суммарного подкрепления последовательности символов, составляющие словарь данного слоя. При этом Парсер использует накопленную в Памяти статистику наград, полученных при наблюдавшихся ранее сочетаниях различных морфем. Пользуясь этой статистикой, Парсер выбирает наиболее перспективные в данном контексте следующие морфемы, реализующие полученные с более высокого слоя инструкции, т.е. формирует оптимальный план действий данного слоя, как часть более общего плана. Предложенная иерархическая система способна обучаться многоуровневому планированию и демонстрировать целенаправленное поведение на все больших временных интервалах. Каждый слой системы учится компилировать свои планы, накапливая в своей Памяти наиболее полезные последовательности символов с максимальными суммарными наградами. А именно:
•Память хранит суммарные награды RWmwn , полученные наблюдавшимися в прошлом сочетаниями известных ей морфем. Если эта величина превосходит некий заданный предел, т.е. комбинация морфем wmwn доказывает свою полезность, эта комбинация запоминается в Памяти как новая морфема в словаре данного слоя: Wnew w m w Таким образом, объем Памяти возрастает с ростом числа обработанных системой данных.
План L-т о уровня, определяется по текущему контексту wm, как следующая морфема wm+1 с максимальной предсказанной наградой, с учетом соответствия этой морфемы плану более высокого уровня (см. Рис. 2).
Каждый слой системы L (кроме последнего) получает сигналы от уровней (L+ / ) и (L- i), где внешняя среда считается нулевыми уровнем.
Слой L+1 определяет текущее состояние исполняемого плана (Е+ )-уровня - Sm+1 на Рис. 2. Декодер (L+i)-ro слоя переводит этот символ в ранжированный набор морфем L-ro уровня - возможных реализаций на L-ом уровне шага Sm+1.
Кодер L-ro слоя переводит текущий контекст (L- / )-уровня в дискретный входной символ 5П. Если он не соответствует предсказанию, текущий план L-ro уровня корректируется. А именно, из ранжированного списка морфем-кандидатов выбирается та, которая соответствует текущему наблюдению. Если таковая в списке отсутствует, план действий L-ro уровня выбирается из полного арсенала морфем, накопленных в Памяти L- го уровня без оглядки на план верхнего уровня. Последний будет скорректирован ( L+1 )- уровнем на его следующем шаге.
Следующее планируемое состояние sn+1 передается Декодеру для трансляции на уровень L-1.
Память каждого слоя пополняется в процессе парсинга (разбора) поступающей извне информации, т.е. система постоянно обучается в режиме онлайн.
Кроме онлайн обучения, система периодически до-обучается в режиме офлайн под управлением специального модуля - Менеджера офлайн обучения (30 на Рис. 3). А именно, в определенные моменты времени система (или ее копия, если оригинал занят текущим управлением поведением) на время переходит в специальный режим «сна» для офлайн обучения, в процессе которого:
• Кодеры и Декодеры корректируют свои настроечные параметры, используя актуальные данные Памяти предыдущего слоя.
• К системе может быть добавлен очередной слой, если текущий слой верхнего уровня накопил достаточное количество данных для создания нового алфавита символов следующего слоя.
Для создания первого слоя и его периодического до-обучения в Менеджере офлайн обучения предусмотрена Память 0-го уровня, в которой хранится история взаимодействия системы с внешней средой - поток сенсорных наблюдений оп, и поток управляющих действий системы ап.
Резюмируя, предложенная в данном изобретении система осуществляет одновременное согласованное планирование поведения на многих масштабах времени. Каждый шаг уровня L+1 соответствует последовательности шагов уровня L. Причем планы более низких уровней вписываются в планы более высоких. Коррекция планов происходит там и тогда, когда их предсказания перестают соответствовать реальности. В целом, по мере накопления опыта и роста числа слоев, система обучается адаптивному целенаправленному поведению на все более долгих временных масштабах.
Важным частным случаем данного изобретения является модульный дизайн Системы, когда каждый ее слой состоит из конечного числа модулей (40 на Рис. 4), которые обучаются и работают независимо от других модулей того же слоя. Модульный дизайн позволяет эффективно распараллеливать вычисления и обобщает традиционную слоистую архитектуру глубоких нейронных сетей, в которых нейроны внутри каждого слоя не взаимодействуют друг с другом. Далее по тексту в том случае, если упоминаются модули, речь идет о частном случае модульного дизайна. ОПРЕДЕЛЕНИЕ ОСНОВНЫХ ТЕРМИНОВ И ОПИСАНИЕ ЭЛЕМЕНТОВ
СИСТЕМЫ
Figure imgf000011_0001
Figure imgf000012_0001
Figure imgf000013_0001
Figure imgf000014_0001
ДЕТАЛЬНОЕ ОПИСАНИЕ ЗАЯВЛЕННОГО ИЗОБРЕТЕНИЯ
Накопление Памяти 0-го уровня
Обучение Системы начинается с первичного накопления памяти 0-го уровня под управлением Менеджера офлайн обучения. Например, последний порождает случайные действия актуаторов Системы ап и воспринимает результаты этих действий оп от ее рецепторов. Память 0-го уровня накапливает историю взаимодействий со средой в виде множества многомерных векторов {хп} = (ah оп}.
Смысл этого этапа - накопление данных о причинно-следственных связях между действиями Системы и их влиянием на внешний мир. В отсутствие у Системы априорных знаний ее действия могут быть случайными, когда все доступные состояния актуаторов равновероятны.
Создание Кодера и Декодера первого и последующих слоев
Когда память предыдущего уровня (начиная с нулевого) наполняется до уровня, удовлетворяющего некоторому критерию (например, число записей больше заданного предела), Менеджер офлайн обучения запускает алгоритм создания пары Кодер-Декодер следующего слоя Системы (начиная с первого).
Кодер представляет хранящиеся в Памяти строки таблицы накопленных подкреплений Rwi wi гораздо более компактными наборами дискретных символов (из алфавитов модулей соответствующего слоя) так, чтобы близкие вектора имели одинаковые или близкие коды - чтобы дискретные символы адекватно отражали реальность. Такой тип кодирования известен, как «locality sensitive hashing» или «learning to hash». Таким образом, Кодер приближает аналоговые данные с бесконечным разнообразием - дискретными данными с конечным числом состояний. Тем самым, у Системы появляется возможность запоминать комбинации действий , т.е. планировать поведение.
Задача Кодера - осуществить подобное дискретное кодирование с минимальными потерями, чтобы соответствующий Декодер мог по этому коду восстановить исходные вектора с минимальной потерей точности.
Для обучения пары Кодер-Декодер можно использовать любой из известных алгоритмов разреженного дискретного кодирования [12]. Например, в случае модульного дизайна Кодер реализуется N модулями, каждый из которых осуществляет свой вариант кластеризации данных { хп }, использующих разные подпространства или разные обучающие подмножества данных. Кодом вектора хп в этом случае является указание номера его кластера в каждом из N модулей: хп -> sn = (s^, ... , s^). Восстановленный Декодером исходный вектор в этом случае может быть представлен, например, усредненными координатами центроидов всех кластеров, соответствующих его коду.
При формировании 1-го слоя кодируются вектора, представляющие историю взаимодействия Системы со средой: {хп} = (ah оп).
При формировании 2-го и последующих слоев многомерные вектора хп соответствуют контекстам wn предыдущего слоя, например, представляют собой хранящиеся в Памяти предыдущего слоя суммарные накопленные подкрепления, соответствующие всем известным вариантам продолжения данного контекста wn = (Wn, w ), а именно: ch i = Rwni Wmi (i = 1 ... N). Здесь
Figure imgf000016_0001
- морфемы из Словаря i-го модуля данного слоя. Т.е. размерность вектора хп равна суммарному размеру Словаря всех N модулей данного слоя.
Парсинг потока символов в слое
Данные с предыдущего слоя, поступающие в данный слой через его Кодер, представляют собой поток дискретных символов sn = (s^, ... , s^), где п маркирует дискретные моменты времени данного слоя, a N - размерность кода (число модулей) этого слоя.
Парсер группирует поступающие от Кодера наборы символов в более крупные токены -морфемы wm = (w^, ... , w^), где
Figure imgf000016_0002
= s{ ... sk l - морфема длины k из Словаря i- го модуля данного слоя. Морфемы представляют собой наиболее полезные с точки зрения суммарного подкрепления последовательности символов и служат ключами к Памяти, хранящей статистику наград Rwi w; , полученных Системой при наблюдавшихся ранее слияниях известных морфем (см. ниже). Каждая известная морфема данного модуля образуется конкатенацией двух его более коротких морфем, wir =
Figure imgf000016_0003
Л wr, т.е. представляет собой бинарное дерево с символами Алфавита данного модуля в качестве своих листьев. Набор морфем в Словарях модулей постоянно пополняется, как это будет описано ниже.
Парсер представляет собой конечный автомат, преобразующий входную последовательность символов
Figure imgf000016_0004
... st в более короткую последовательность распознанных им морфем ... wT . Возможны различные варианты алгоритмов парсинга, т.е. нахождения локальных оптимумов сложной комбинаторной задачи - построения оптимальной структуры данных [13].
В качестве примера приведем алгоритм Парсера к- го порядка, который работает с последней распознанной морфемой (текущим контекстом) и к следующими символами, поступающими из входящего потока. На каждом следующем шаге Парсер находит наилучший вариант разбора последовательности длиной к + 1, дающий максимальную ожидаемую награду Rmax - бинарное дерево с максимальной суммой ожидаемых наград всех его ветвлений, согласно эмпирическим оценкам наград из Памяти данного слоя. Например, Рис. 5 иллюстрирует алгоритм работы Парсера 2-го порядка, на каждом шаге которого происходит сравнение двух вариантов дерева разбора (500 и 510). В выбранном варианте с наибольшим подкреплением происходит либо слияние поступающих символов (501), либо расширение контекста wT (511). Если слияние невозможно (соответствующие морфемы отсутствуют в Словаре), прежний контекст wT считается распознанным и передается на более высокий уровень, и начинается формирование нового текущего контекста w +1 = st+1 (502 или 512). Из них выбирается тот, которому соответствует максимальная оценка суммарной награды:
Figure imgf000017_0001
Здесь операция max производится в каждом модуле независимо, а значения Rw^wi^ получаются из хранимых в Памяти модулей значений Rwi wi с помощью процедуры Томпсоновского сэмплирования - выбора случайной величины, например
Rw тi w пi ~ Rw тi w пi ± - ! Rw тi w пi , отражающей разброс оценок ожидаемых наград при конечном размере выборки.
Каждый шаг парсинга (с образованием новой морфемы или без него) сопровождается коррекцией параметров Памяти, например:
Figure imgf000017_0002
Где rW(Wr - суммарное подкрепление, полученное в данном эпизоде парой морфем wfwr:
Т W;Wr Άni Ί- Άnn Ί- rW,AWr
Здесь rW(, rWr - подкрепления, полученные морфемами wf, wr до их слияния, a rW(AWr- подкрепление непосредственно в момент их слияния.
Кроме коррекции значений параметров Памяти, в ходе обучения увеличивается и объем Словаря. А именно, список морфем пополняется комбинациями уже известных морфем, которые преодолели заданный порог накопленных при их слияниях подкреплений: wlr <- WiAwr if: RWlWr > R * Впоследствии слияния таких морфем порождают новую морфему - их конкатенацию.
Формирование долговременного плана поведения в верхнем слое
Планирование поведения происходит сверху-вниз, начиная с верхнего слоя. Парсер верхнего слоя составляет план действий, предсказывая оптимальную морфему, следующую за последней распознанной им морфемой, представляющей актуальный контекст.
В момент, когда очередная морфема распознана, т.е. сформирован новый контекст wT, Парсер делает предсказание о следующей возможной морфеме. Для этого он запрашивает у Памяти ранжированный список оценок RWrWj ожидаемого подкрепления для морфем-кандидатов Wj и выбирает из них те, для которых ожидаемая награда максимальна. Соответствующая морфема становится его текущим планом действий, посимвольно транслируемым нижележащему слою: wT+1 = argmax RWtW
Wj
Верхний слой учитывает наиболее широкий контекст и формирует соответствующий ему долговременный план. Остальные слои стремятся его осуществить, адаптируясь к постоянно меняющейся обстановке.
Согласование планов между слоями Системы
Планирование поведения в остальных слоях Системы происходит путем согласования плана, спущенного сверху, и оперативной информации, полученной снизу.
Вышележащий слой передает нижележащему на исполнение очередной шаг Sm+1 своего текущего плана через свой Декодер. Последний декодирует этот шаг в возможные варианты его реализации {wm+1} на уровне L (220 на Рис. 2), ранжированные по степени их соответствия спущенному сверху плану. Например, когда кодирование осуществляется с помощью N модулей, варианты реализации ранжируются по числу модулей, «голосующих» за каждый из них, т.е. количество общих компонент у Sm+1 и S(wm+1).
Планирование в простейшем случае сводится к выбору первого из ранжированного списка набора морфем {wm+1} уровня L, который и становится текущим планом уровня L, транслируемым посимвольно (sn+1) нижележащему уровню L— 1 (221 на Рис. 2).
Возможны и более сложные алгоритмы согласования планов, основанные не на ранжировании списка, а на присвоении им различных весов, исходя из вероятностного подхода.
Навстречу с уровня L— 1 через Кодер уровня L поступает оперативная информация 5п+1 из внешнего мира. Если sn+1 = sn+1, текущий план остается неизменным. В противном случае sn+1 А sn+1 он корректируется. А именно, из ранжированного списка {wm+1} выбирается первый член, соответствующий текущим наблюдениям
Figure imgf000019_0001
... sn+1. Если таковой отсутствует, оптимальный план уровня L формируется им самостоятельно, как в случае верхнего уровня:
Wm+i = argmax RWmW.
Wj
Декодер 1-го слоя декодирует очередной шаг своего плана sn+1 в сенсомоторный вектор хп+1 = (ah+1, оп+1), соответствующий следующим действиям ап+1 актуаторов и предсказанию следующих наблюдений сенсоров оп+1.
Таким образом, каждый слой Системы стремится к достижению долговременных планов, спущенных сверху, с учетом актуальной информации, полученной снизу.
Дообучение Системы в режиме офлайн
В определенные моменты времени, по расписанию или в соответствии с заданными критериями (например, количеству обновлений содержания Памяти), система (или ее копия, пока оригинал занят текущим управлением поведением) на время переходит в специальный режим «сна» для офлайн обучения под управлением Менеджера офлайн обучения. В этом режиме корректируются настроечные параметры Кодеров и Декодеров слоев (всех или выборочно), т.е. корректируются значения дискретных символов в соответствии с обновленным содержанием Памяти слоев.
Например, в описанном выше случае, когда кодирование сводится к кластеризации векторов, соответствующих строкам Памяти, корректируются координаты центроидов соответствующих кластеров. Например, проводится одна или несколько итераций алгоритма K-means [14], начиная с текущих положений центроидов кластеров. ПРИМЕРЫ РЕАЛИЗАЦИИ ПРЕДЛОЖЕННОГО ИЗОБРЕТЕНИЯ
ПРИМЕР 1. Предлагаемое изобретение представляет собой универсальный обучающийся контроллер, способный управлять объектами самого разного рода. В частности, компания Google использовала алгоритмы обучения с подкреплением своей дочерней компании DeepMind для управления системой охлаждения своих дата центров, добившись за счет этого 40% экономии электроэнергии [15].
Рассмотрим на этом примере применение предлагаемого изобретения в сравнении с традиционным подходом теории управления. Последний характеризуются:
• Наличием упрощенной модели управляемого объекта (как правило, линейной)
• Заранее рассчитанным по этой модели «оптимальным» планом управления (как следствие, являющимся лишь приближением оптимального)
• Петлей обратной связи, минимизирующей отклонение реальной ситуации от запланированной
Использование предложенного в данном изобретении способа управления с упреждением с помощью обучающегося контроллера позволяет:
• Обойтись без предварительного создания упрощенной модели управляемого объекта (Система сама создаст соответствующую сложную нелинейную модель в своем внутреннем представлении в ходе взаимодействия с объектом управления)
• Обойтись без приближенного решения задачи оптимизации (Система сама найдет оптимальный по заданному критерию способ управления объектом без упрощающих предположений)
• Осуществлять управление не реактивно (после обнаружения отклонений), а проактивно (прогнозируя возможные сценарии развития событий).
В данном примере система управления представляет собой очень сложный объект, состоящий из многих тысяч кулеров, теплообменников, насосов и градирен, который очень сложно описать с помощью уравнений и еще сложнее рассчитать для такой модели оптимальный план. К тому же, для каждого дата центра комбинация его элементов управления и сенсоров, как правило, уникальна [16]. Предлагаемая в данном изобретении Система может быть использована для оптимизации энергопотребления дата центром следующим образом:
• На стадии предварительного обучения Система обучается копировать существующий алгоритм управления дата центром. На этом этапе Система ничем реально не управляет и игнорирует показания потребления электроэнергии, получая подкрепления лишь в случае удачно предсказанных следующих действий актуаторов ап+1 и показаний рецепторов оп+1. После того, как Система обучится копировать существующую управляющую систему, ее можно без существенного риска допустить до реального управления.
• На стадии оптимизации Система получает отрицательные подкрепления пропорционально реальному уровню энергопотребления дата центра и постепенно корректирует свое управление таким образом, чтобы его минимизировать. При этом, у нее формируется иерархическая модель управления, основанная на долгосрочном планировании, например, с учетом прогнозирования дневных, недельных и годовых колебаний внешней температуры и уровня нагрузок данного дата центра.
В итоге любой сколь угодно сложно устроенный дата центр с помощью предлагаемого изобретения сможет обучаться подбирать оптимальный для себя режим энергопотребления.
Аналогичные применения могут относиться и к управлению другими сложными системами, например к оптимизации сложных многостадийных процессов нефтепереработки для достижения более глубоких стадий переработки нефтей [17].
ПРИМЕР 2. Предлагаемое изобретение может работать как с аналоговыми данными (как в Примере 1), так и с символьной информацией. Например, обе компоненты информационного обмена с внешней средой (оп ап } могут быть символами, осуществляющими прием и передачу текстовой информации. В этом случае предлагаемое изобретение описывает устройство и метод построения т.н. языковой модели (language model), способной обучаться понимать и генерировать сообщения на естественных языках [18].
Языковые модели широко применяются на практике в системах автоматической обработки текстов и речи, например, в машинном переводе [19]. Повышению качества языковых моделей способствовало развитие в последние годы методов глубокого обучения [20]. Лучшие языковые модели сегодня способны генерировать тексты, которые трудно отличить от созданных человеком [21].
В качестве языковой модели предлагаемое изобретение можно использовать, как диалоговый человеко-машинный интерфейс на естественном языке для различных информационных сервисов. Например, следующим образом:
• На стадии предварительного обучения Система самостоятельно обучается воспроизводить входной поток символов с минимальными ошибками, т.е. учится генерировать тексты на естественном языке, обучаясь на больших объемах текстовой информации. На этом этапе в Системе формируется иерархия языковых понятий, помогающих ей правильно воспроизводить известные слова, понимать их смысл, составлять из них грамматически правильные фразы и предложения и сопрягать отдельные предложения в связные тексты. После того, как Система обучится генерировать связные тексты, основанные на информации из обучающей выборки, ее можно обучить выдавать эту информацию в процессе диалога с пользователем.
• Для этого предварительно обученная Система дообучается в режиме диалога, получая подкрепления всякий раз, когда она генерирует правильные реплики, например, ответы на заданные пользователем вопросы. Для обучения можно использовать как накопленные записи диалогов, так и реальные диалоги с пользователями. На этом этапе в Системе формируются и усиливаются паттерны, соответствующие культуре ведения диалогов (когда можно начинать отвечать на вопрос, насколько краткими должны быть ответы, как задавать уточняющие вопросы и т.д.).
Обученную таким образом Систему можно использовать в качестве интеллектуальных агентов для обслуживания пользователей на естественном языке в информационно-справочных системах и голосовых интерфейсах на мобильных устройствах.
Источники информации
1. Schmidhuber J. Deep learning in neural networks: An overview //Neural networks. - 2015. - T. 61. - C. 85-117.
2. Mousavi S. S., Schukat M., Howley E. Deep reinforcement learning: an overview //Proceedings of SAI Intelligent Systems Conference. - Springer, Cham, 2016. - C. 426-440.
3. Silver D. et al. Mastering the game of Go without human knowledge //Nature. - 2017. - T. 550. - No. 7676. - C. 354. 4. Commons, M. L., and White, M. S. 2006. Intelligent control with hierarchical stacked neural networks. U.S. Pat. No. 7,152,051, filed Sep. 30, 2002, and issued Dec. 19, 2006
5. Wu Y. et al. Google's neural machine translation system: Bridging the gap between human and machine translation //arXiv preprint arXiv: 1609.08144. - 2016.
6. Shumsky, S.A. Scalable Natural Language Understanding: From Scratch, On the Fly. The Proceedings of the 2018 International Conference on Artificial Intelligence Applications and Innovations, 30 Oct - 2 Nov 2018, Nicosia, Cyprus. ISBN: 978-1-7281-0412-6
7. Шумский C.A. Машинный интеллект. Очерки по теории машинного обучения и искусственного интеллекта - М.:РИОР, 2019. 340 с. - ISBN 978-5-369-02011-1
8. Ghavamzadeh, М. et al. Bayesian reinforcement learning: A survey. Foundations and Trends® in Machine Learning 8.5-6 (2015): 359-483.
9. Agrawal S., Goyal N. Further optimal regret bounds for Thompson sampling //Artificial Intelligence and Statistics. - 2013. - C. 99-107.
10. Osband, I.D.M., Van Roy, B. Systems and Methods for Providing Reinforcement Learning in a Deep Learning System, 2016. US20170032245A1.
11. Graepel T. K. H., et al. Selecting actions to be performed by a reinforcement learning agent using tree search, 2016. US20180032864A1
12. Wang J. et al. A survey on learning to hash //IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2018. - T. 40. - Ж. 4. - C. 769-790.
13. Gonzalez R. C., Thomason M. G. Syntactic pattern recognition: An introduction. - 1978.
14. Kanungo T. et al. An efficient k-means clustering algorithm: Analysis and implementation //IEEE Transactions on Pattern Analysis & Machine Intelligence. - 2002. - JV°. 7. - C. 881-892.
15. Evans R. and Gao J. DeepMind Al Reduces Google Data Centre Cooling Bill by 40%// DeepMind. - 2016 https://deepmind.com/blog/deepmind-ai-reduces-google-data-centre-cooling- bill-40/
16. Dayarathna M., Wen Y., Fan R. Data center energy consumption modeling: A survey //IEEE Communications Surveys & Tutorials. - 2015. - T. 18. - N° 1. - C. 732-794.
17. Галиев P. Г., Хавкин В. А., Данилов A. M. О задачах российской нефтепереработки //Мир нефтепродуктов. Вестник нефтяных компаний. - 2009. - N°. 2. - С. 3-7.
18. Шумский, С. А. Язык и мозг: как человек понимает речь // Сборник научных трудов XV Всероссийской научной конференции «Нейроинформатика-2013». Лекции по нейроинформатике. - 2013. - С. 72-105. 19. Brants T. et al. Large language models in machine translation //Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). - 2007. - C. 858-867.
20. Jozefowicz R. et al. Exploring the limits of language modeling //arXiv preprint arXiv: 1602.02410. - 2016.
21. Radford A. et al. Language models are unsupervised multitask learners //OpenAI Blog.
2019. - T. l. - C. 8.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Компьютерно-реализуемый способ машинного обучения обучающейся системы, содержащей по меньшей мере один процессор и средства хранения информации, управляющей поведением управляемой системы на основе входной информации от сенсоров управляемой системы, включая подкрепляющие сигналы о значимых для достижения заданной цели результатах поведения, генерируя управляющие сигналы актуаторам управляемой системы, определяющим ее поведение, где обучающаяся система состоит из конечного числа вычислительных слоев, каждый из которых содержит:
- Кодер (200), кодирующий поступающую с нижележащего слоя входную информацию одним из входных состояний данного слоя;
- Память (210), хранящую статистику типовых цепочек состояний данного слоя;
- Парсер (211), разбивающий поток входных состояний на типовые цепочки состояний, хранимые в Памяти, передающий информацию о них вышележащему слою, принимающий от вышележащего слоя (если таковой существует) набор рекомендованных цепочек выходных состояний (220), и, сопоставляя его с входной информацией, выбирающий выходное состояние данного слоя (221);
- Декодер (201), переводящий выходное состояние данного слоя в управляющий сигнал для нижележащего слоя, представляющий собой набор рекомендованных цепочек выходных состояний нижележащего слоя;
отличается тем, что реализует иерархию автоматически генерируемых вложенных друг в друга разномасштабных планов достижения цели (11), адаптирующихся к изменяющимся внешним обстоятельствам путем коррекции управляющих сигналов вышележащих вычислительных слоев с учетом входной информации от нижележащих и постепенно увеличивают количество уровней иерархии по мере накопления информации о взаимодействии с внешней средой.
2. Способ по п.1, отличающийся тем, что управляющая система наряду с управляющими сигналами генерирует прогноз входных сенсорных сигналов на следующем шаге, и в случаях осуществления прогнозируемого хода развития событий внешние подкрепляющие сигналы дополняют внутренними подкреплениями.
3. Способ по любому из и.1-3, отличающийся тем, что управляющие сигналы на каждом уровне иерархии генерируются с учетом статистической неопределенности содержания Памяти при помощи Томпсоновского сэмплирования данных из Памяти каждого уровня.
4. Способ по любому из п.1-2, отличающийся тем, что на каждом уровне иерархии новые типовые цепочки символов создают путем добавления в Память комбинаций из уже известных цепочек символов с наибольшей суммой подкреплений.
5. Система для обучения иерархическому целесообразному поведению, содержащая по меньшей мере один процессор, компьютерную память, сетевую инфраструктуру, средства хранения информации, выполненные с возможностью осуществления иерархической послойной обработки входной сенсорной информации из более низкого уровня, включая внешнюю среду, как нулевой уровень, и управляющих сигналов с более высокого уровня и выработки управляющих сигналов более низкому уровню, а также накопления опыта взаимодействия с внешней средой, реализующая компьютерно-реализуемый способ машинного обучения обучающейся системы по п.1 формулы.
6. Система по любому из п.6-7, отличающаяся тем, что обработка информации на каждом иерархическом уровне производится набором программно-аппаратных модулей, работающих параллельно и независимо друг от друга.
7. Система по любому из п.6-8, отличающаяся тем, что система или ее отдельные компоненты реализованы аппаратно в виде специализированных микросхем соответствующей архитектуры.
8. Система по любому из п.6-9, отличающаяся тем, что система реализована в клиент-серверной архитектуре и все блоки соединены между собой стандартизированными каналами связи.
PCT/RU2020/050123 2019-06-20 2020-06-16 Способ и система машинного обучения иерархически организованному целенаправленному поведению WO2020256593A1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2019119314 2019-06-20
RU2019119314A RU2755935C2 (ru) 2019-06-20 2019-06-20 Способ и система машинного обучения иерархически организованному целенаправленному поведению

Publications (1)

Publication Number Publication Date
WO2020256593A1 true WO2020256593A1 (ru) 2020-12-24

Family

ID=74040629

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2020/050123 WO2020256593A1 (ru) 2019-06-20 2020-06-16 Способ и система машинного обучения иерархически организованному целенаправленному поведению

Country Status (2)

Country Link
RU (1) RU2755935C2 (ru)
WO (1) WO2020256593A1 (ru)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040062208A1 (en) * 2002-09-30 2004-04-01 Mosaid Technologies Inc. Dense mode coding scheme
US8856138B1 (en) * 2012-08-09 2014-10-07 Google Inc. Faster substring searching using hybrid range query data structures
US20170103413A1 (en) * 2015-10-08 2017-04-13 Samsung Sds America, Inc. Device, method, and computer readable medium of generating recommendations via ensemble multi-arm bandit with an lpboost
WO2017136081A1 (en) * 2016-02-05 2017-08-10 Google Inc. Augmenting neural networks with hierarchical external memory

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2670781C9 (ru) * 2017-03-23 2018-11-23 Илья Николаевич Логинов Система и способ для хранения и обработки данных
US10387298B2 (en) * 2017-04-04 2019-08-20 Hailo Technologies Ltd Artificial neural network incorporating emphasis and focus techniques
WO2020013726A1 (ru) * 2018-07-13 2020-01-16 Публичное Акционерное Общество "Сбербанк России" Способ интерпретации искусственных нейронных сетей

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040062208A1 (en) * 2002-09-30 2004-04-01 Mosaid Technologies Inc. Dense mode coding scheme
US8856138B1 (en) * 2012-08-09 2014-10-07 Google Inc. Faster substring searching using hybrid range query data structures
US20170103413A1 (en) * 2015-10-08 2017-04-13 Samsung Sds America, Inc. Device, method, and computer readable medium of generating recommendations via ensemble multi-arm bandit with an lpboost
WO2017136081A1 (en) * 2016-02-05 2017-08-10 Google Inc. Augmenting neural networks with hierarchical external memory

Also Published As

Publication number Publication date
RU2755935C2 (ru) 2021-09-23
RU2019119314A (ru) 2020-12-21
RU2019119314A3 (ru) 2020-12-21

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN110334354B (zh) 一种中文关系抽取方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN110506279A (zh) 采用隐树注意力的神经机器翻译
CN116932708A (zh) 大语言模型驱动的开放域自然语言推理问答系统及方法
CN109858046B (zh) 利用辅助损失来学习神经网络中的长期依赖性
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN114168749A (zh) 一种基于知识图谱和疑问词驱动的问题生成系统
US20190228297A1 (en) Artificial Intelligence Modelling Engine
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN116150338A (zh) 一种基于多轮对话的智能客服方法及系统
WO2023231513A1 (zh) 对话内容的生成方法及装置、存储介质、终端
Moriya et al. Evolution-strategy-based automation of system development for high-performance speech recognition
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
Dong et al. Lambo: Large language model empowered edge intelligence
CN117457226A (zh) 用于生物医学数据挖掘的自主智能计算方法、系统及介质
CN117131858A (zh) 一种基于字典的轨迹预测系统及方法
RU2755935C2 (ru) Способ и система машинного обучения иерархически организованному целенаправленному поведению
CN111522923A (zh) 一种多轮任务式对话状态追踪方法
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
Zhang et al. Reinforcement Learning from Demonstrations by Novel Interactive Expert and Application to Automatic Berthing Control Systems for Unmanned Surface Vessel
Sumathy et al. Next word prediction while typing using lstm
Shumsky et al. ADAM: a prototype of hierarchical neuro-symbolic AGI
CN115471142B (zh) 一种基于人机协同的港口拖轮作业智能调度方法
Vadiraja et al. A Survey on Knowledge integration techniques with Artificial Neural Networks for seq-2-seq/time series models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20826630

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20826630

Country of ref document: EP

Kind code of ref document: A1