WO2022080582A1 - 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치 - Google Patents

목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치 Download PDF

Info

Publication number
WO2022080582A1
WO2022080582A1 PCT/KR2020/017859 KR2020017859W WO2022080582A1 WO 2022080582 A1 WO2022080582 A1 WO 2022080582A1 KR 2020017859 W KR2020017859 W KR 2020017859W WO 2022080582 A1 WO2022080582 A1 WO 2022080582A1
Authority
WO
WIPO (PCT)
Prior art keywords
reinforcement learning
target
target data
data
learning
Prior art date
Application number
PCT/KR2020/017859
Other languages
English (en)
French (fr)
Inventor
장병탁
김기범
이민수
이민후
김윤성
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Priority to JP2021546353A priority Critical patent/JP7348296B2/ja
Priority to US17/427,957 priority patent/US20220398830A1/en
Publication of WO2022080582A1 publication Critical patent/WO2022080582A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • Embodiments disclosed herein relate to a goal-oriented reinforcement learning method for performing learning on a target together to increase the efficiency of reinforcement learning, and an apparatus for performing the same.
  • Reinforcement learning is a learning method for selecting an optimal action in a given state.
  • the configuration that becomes the subject of learning is called an agent, and the agent establishes a policy for selecting an action in the direction of maximizing a reward through learning.
  • the agent repeats the process of learning what the optimal behavior is through exploration in the state that it does not have information about the target.
  • the agent undergoes a lot of trial and error by performing a myriad of actions, checking in which cases a reward is obtained and in some cases not obtaining a reward, and judging which action is optimal according to the result.
  • Learning has the problem of low efficiency.
  • the situation in which a reward is obtained itself rarely occurs so the effectiveness of reinforcement learning may be reduced.
  • Embodiments disclosed in this specification are intended to provide a method and apparatus for increasing learning efficiency by also performing learning on a target through target data that can be easily obtained in the process of performing reinforcement learning.
  • learning about the target of reinforcement learning is performed using data collected in the process of performing reinforcement learning, and reinforcement learning is performed by reflecting the learning result carry out
  • any one of the above-mentioned problem solving means by performing learning on the target data while performing reinforcement learning, it can be expected to help fast and efficient learning, and to increase the effectiveness and efficiency of reinforcement learning.
  • any one of the above-mentioned task solving means the advantage of efficiently increasing the effect of reinforcement learning by performing learning through target data that can be easily obtained in the process of performing a general reinforcement learning model and acquiring information about the target is there is.
  • 1 is a diagram illustrating a model for performing goal-oriented reinforcement learning according to an embodiment.
  • FIG. 2 is a diagram illustrating a configuration of a computing device for performing goal-oriented reinforcement learning according to an embodiment.
  • 3 to 5 are flowcharts for explaining goal-oriented reinforcement learning according to embodiments.
  • the goal-oriented reinforcement learning method includes collecting data related to the goal of reinforcement learning as target data in the process of performing reinforcement learning, the reinforcement learning It may include the step of learning the collected target data as auxiliary learning for , and reflecting a result of learning the target data when performing the reinforcement learning.
  • a computer program for performing a goal-oriented reinforcement learning method comprising: collecting data related to the target of reinforcement learning as target data in the process of performing reinforcement learning; As auxiliary learning for reinforcement learning, it may include learning the collected target data and reflecting a result of learning the target data when performing the reinforcement learning.
  • the goal-oriented reinforcement learning method includes data related to the goal of reinforcement learning in the process of performing reinforcement learning. It may include collecting as target data, learning the collected target data as auxiliary learning for the reinforcement learning, and reflecting a result of learning the target data when performing the reinforcement learning.
  • a computing device for performing goal-oriented reinforcement learning includes an input/output unit for receiving data and outputting a result of arithmetic processing, a program for performing reinforcement learning, and a method for performing the reinforcement learning
  • the goal-oriented reinforcement learning model implemented by executing learning, and a result of learning the target data may be reflected when the reinforcement learning is performed.
  • 'Target task' means a task that is rewarded when the agent achieves this
  • 'target data' means data related to the target obtained in the process of the agent performing reinforcement learning. .
  • a target image is used as target data, and specific examples of the target data and the target image and a specific method for collecting the target data and the target image will be described in detail below.
  • 'Target oriented reinforcement learning' is a new reinforcement learning method presented in this specification, which allows the agent to acquire information about the target by performing learning on target data together with general reinforcement learning. means learning methods.
  • 'Auxiliary learning' or 'auxiliary task' refers to a process of learning together with the main task by making the information directly or indirectly obtained in the process of performing the main task to be learned in one deep learning model as an output.
  • Assisted learning can help learn the deep layers of the model by acquiring additional gradients, or learn the main task by learning additional information.
  • FIG. 1 is a diagram illustrating a model for performing goal-oriented reinforcement learning according to an embodiment
  • FIG. 2 is a diagram illustrating a configuration of a computing device for performing goal-oriented reinforcement learning according to an embodiment.
  • the model shown in FIG. 1 may be implemented when the controller 220 of the computing device 200 of FIG. 2 executes a program stored in the storage 230 .
  • components included in the computing device 200 will be briefly described, and then, a method of performing goal-oriented reinforcement learning through the reinforcement learning model shown in FIG. 1 will be described in detail.
  • the computing device 200 may include an input/output unit 210 , a control unit 220 , and a storage unit 230 .
  • the input/output unit 210 is configured to receive a command or data from a user related to reinforcement learning and output a result of performing reinforcement learning.
  • the input/output unit 210 may include various types of input devices (e.g. keyboard, touch screen, etc.) for receiving input from the user, and also a connection port for transmitting and receiving data used for reinforcement learning and reinforcement learning result data. It may also include a communication module.
  • the control unit 220 is a configuration including at least one processor such as a CPU, and by executing a program stored in the storage unit 230, performs reinforcement learning according to a process presented below.
  • the target-oriented reinforcement learning model 100 shown in FIG. 1 is implemented by the control unit 220 executing the program stored in the storage unit 230 , and the control unit 220 is the target-oriented reinforcement learning model 100 . through reinforcement learning.
  • a method in which the controller 220 performs reinforcement learning using the goal-oriented reinforcement learning model 100 will be described in detail with reference to FIG. 1 below.
  • the storage unit 230 is a configuration in which files and programs can be stored, and can be configured through various types of memories.
  • the storage unit 230 may store data and a program enabling the control unit 220 to perform an operation for goal-oriented reinforcement learning according to a process presented below.
  • the target image collected in the process of performing reinforcement learning is labeled and stored in the storage unit 230 , and may be used for learning.
  • control unit 220 executes a program stored in the storage unit 230 to perform goal-oriented reinforcement learning according to an embodiment will be described in detail with reference to FIG. 1 .
  • the goal-oriented reinforcement learning model 100 is implemented by the control unit 220 executing a program stored in the storage unit 230, so that the goal-oriented reinforcement learning model 100 performs in subsequent embodiments.
  • the described operation or process can be seen as being actually performed by the controller 220 .
  • detailed components included in the goal-oriented reinforcement learning model 100 can be viewed as software units that play a specific function or role in the overall program for performing goal-oriented reinforcement learning.
  • a goal-oriented reinforcement learning model 100 may include a feature extraction unit 110 , a behavior module 120 , and a classification module 130 .
  • the feature extraction unit 110 is configured to extract features from the state data indicating the state and the target data.
  • the feature extracted from the state data by the feature extraction unit 110 is transferred to the behavior module 120 , and the feature extracted from the target data is transferred to the classification module 130 .
  • the action module 120 may output actions and values according to the policy based on the features extracted from the state data.
  • the classification module 130 may classify the target data based on features extracted from the target data. Specific operations performed by the feature extraction unit 110 , the action module 120 , and the classification module 130 will be described below with reference to Equations.
  • the goal-oriented reinforcement learning model 100 has a policy after the feature extraction unit 110 .
  • value function A classification module 130 composed of a multilayer perceptron may be additionally included in the general reinforcement learning model structure leading to the behavior module 120 that outputs .
  • the feature extractor 110 and the action module 120 may be used when reinforcement learning is performed, and the feature extractor 110 and the classification model 130 may be used when performing an auxiliary task of learning a target image.
  • the loss function for performing the main task may be executed by the action module 120
  • the auxiliary loss function for determining the target image may be executed by the classification module 130 .
  • the feature extraction unit 110 states according to Equation 1 below. to encode data convert to
  • a function of the action module 120 and the resulting loss function may vary depending on the selected reinforcement learning algorithm. For example, if an Asynchronous Advantage Actor-Critic (A3C) algorithm is selected, a loss function may be defined according to Equations 3 to 5 below.
  • A3C Asynchronous Advantage Actor-Critic
  • the goal-oriented reinforcement learning model 100 collects a target image in the process of performing reinforcement learning according to the algorithm described above, labels the collected target image, and stores it in the target storage unit 10 .
  • the target storage unit 10 may have a configuration included in the storage unit 230 of FIG. 2 .
  • a process in which the goal-oriented reinforcement learning model 100 collects a target image will be described in detail as follows. First, a method of collecting target data, which is a higher concept of the target image, will be described, and a specific example of collecting the target image will be described.
  • the goal-oriented reinforcement learning model 100 collects data related to the goal of reinforcement learning as target data in the process of performing reinforcement learning, and according to an embodiment, when the agent performing reinforcement learning succeeds in achieving the goal, the target An image including a visual representation may be collected as target data (target image), and the collected target data may be stored by labeling it corresponding to the target.
  • the goal-oriented reinforcement learning model 100 collects data related to the event as target data when an event (e.g., reaching a target state) such as reward acquisition or success or failure of performing a specific task occurs. do. Next, the goal-oriented reinforcement learning model 100 labels the collected target data to indicate an event related to the target data, and then stores it in the target storage unit 10 .
  • an event e.g., reaching a target state
  • the goal-oriented reinforcement learning model 100 labels the collected target data to indicate an event related to the target data, and then stores it in the target storage unit 10 .
  • the goal-oriented reinforcement learning model 100 performs a mission before a specific event occurs in the game (e.g., the agent obtains a specific item or performs a mission) Before) a certain number of game screen frames (e.g. 60 to 70 frames before the time of obtaining the item) are collected as target images, and after labeling to indicate an event corresponding to the collected target images, the target storage unit (10) can be stored. That is, the collected target images may include a visual representation of the target.
  • the goal-oriented reinforcement learning model 100 provides a predetermined number of game screen frames before the event occurs when an event in which the agent achieves a goal and receives a reward occurs in the game, that is, when the target task is successfully performed. are stored as a target image, and the stored target image may be labeled, meaning that it corresponds to a 'target'.
  • the feature extraction unit 110 and the classification module 130 learn the visual representation of the target through the stored target images. The performance and efficiency of reinforcement learning can be improved by effectively extracting features for identifying
  • a user may set in advance which event the goal-oriented reinforcement learning model 100 will collect target data for. That is, the target data can be viewed as a hyper parameter designated by the user.
  • the goal-oriented reinforcement learning model 100 may collect a plurality of target images in a trial and error process experienced while performing reinforcement learning.
  • the batch data of the target image at index i is called the label of the data.
  • the function of the classification module 130 say, is called a predicted value of the classification module 130 . While passing the target image through the feature extraction unit 110 and the classification module 130, according to Equations 6 to 8 below, the loss for the auxiliary operation can get loss of secondary work is used only for learning.
  • the goal-oriented reinforcement learning model 100 is a loss for the main task according to the process described above. and loss on auxiliary work
  • the loss on the secondary task weight less than 1 for By multiplying by the premise loss function as in the following Equation 9 to save can be set to a value between 0.3 and 0.5 depending on the type of main task.
  • the goal-oriented reinforcement learning model 100 may learn a visual expression for the target image. That is, the goal-oriented reinforcement learning model 100 can learn how to determine which image represents the target or which image contains the target through the classification model 130 , and the feature extractor 110 learns status by using the results It is possible to extract features related to the target from the received image as That is, when the agent performs an action, learning performance and efficiency can be improved by using information about the target.
  • the goal-oriented reinforcement learning model 100 learns the target data together through the classification module 130 while learning the policy, so that the feature extractor 110 can better classify the target. That is, it can be seen that the feature extraction unit 110 learns the visual expression of the target data through the auxiliary operation.
  • the target images to be learned are collected in the previous trial and error process, they are not used for action output through policy. In other words, learning of the target image using the feature extraction unit 110 and the classification module 130 is performed only during training.
  • 3 to 5 are flowcharts illustrating a goal-oriented reinforcement learning method according to an embodiment.
  • the goal-oriented reinforcement learning method according to the embodiments shown in FIGS. 3 to 5 includes steps that are time-series processed by the computing device 200 shown in FIG. 2 . Accordingly, even if omitted below, the contents described above with respect to the computing device 200 of FIG. 2 may also be applied to the goal-oriented reinforcement learning method according to the embodiments shown in FIGS. 3 to 5 .
  • the goal-oriented reinforcement learning model 100 collects data related to the target of reinforcement learning as target data in the process of performing reinforcement learning.
  • step 401 the goal-oriented reinforcement learning model 100 collects an image including a visual representation of the target as target data when the agent performing reinforcement learning succeeds in achieving the target.
  • step 402 the goal-oriented reinforcement learning model 100 performs labeling, which means that the target data corresponds to the target.
  • step 302 the goal-oriented reinforcement learning model 100 learns the target data as auxiliary learning for reinforcement learning.
  • step 501 the feature extraction unit 110 of the goal-oriented reinforcement learning model 100 extracts features from batch data of target data.
  • the classification module 130 of the target-oriented reinforcement learning model 100 extracts a predicted value according to the features extracted from the batch data of the target data.
  • the goal-oriented reinforcement learning model 100 calculates a loss for assisted learning using the predicted value and the label of the batch data.
  • step 504 the goal-oriented reinforcement learning model 100 learns a visual representation of the target data by using the loss for assisted learning.
  • a specific method for the goal-oriented reinforcement learning model 100 to learn target data as auxiliary learning for reinforcement learning is as described above with reference to Equations 6 to 8.
  • ' ⁇ unit' used in the above embodiments means software or hardware components such as field programmable gate array (FPGA) or ASIC, and ' ⁇ unit' performs certain roles.
  • '-part' is not limited to software or hardware.
  • ' ⁇ ' may be configured to reside on an addressable storage medium or may be configured to refresh one or more processors. Accordingly, as an example, ' ⁇ ' indicates components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, and procedures. , subroutines, segments of program patent code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables.
  • the functions provided in the components and ' ⁇ units' may be combined into a smaller number of elements and ' ⁇ units' or separated from additional components and ' ⁇ units'.
  • components and ' ⁇ units' may be implemented to play one or more CPUs in a device or secure multimedia card.
  • the goal-oriented reinforcement learning method according to the embodiments described with reference to FIGS. 3 to 5 may also be implemented in the form of a computer-readable medium for storing computer-executable instructions and data.
  • the instructions and data may be stored in the form of program codes, and when executed by the processor, a predetermined program module may be generated to perform a predetermined operation.
  • computer-readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media.
  • the computer-readable medium may be a computer recording medium, which is a volatile and non-volatile and non-volatile storage medium implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, or other data. It may include both volatile, removable and non-removable media.
  • the computer recording medium may be a magnetic storage medium such as HDD and SSD, an optical recording medium such as CD, DVD, and Blu-ray disc, or a memory included in a server accessible through a network.
  • the goal-oriented reinforcement learning method according to the embodiments described with reference to FIGS. 3 to 5 may be implemented as a computer program (or computer program product) including instructions executable by a computer.
  • the computer program includes programmable machine instructions processed by a processor, and may be implemented in a high-level programming language, an object-oriented programming language, an assembly language, or a machine language.
  • the computer program may be recorded in a tangible computer-readable recording medium (eg, a memory, a hard disk, a magnetic/optical medium, or a solid-state drive (SSD), etc.).
  • the goal-oriented reinforcement learning method according to the embodiments described with reference to FIGS. 3 to 5 may be implemented by executing the above-described computer program by a computing device.
  • the computing device may include at least a portion of a processor, a memory, a storage device, a high-speed interface connected to the memory and the high-speed expansion port, and a low-speed interface connected to the low-speed bus and the storage device.
  • Each of these components is connected to each other using various buses, and may be mounted on a common motherboard or in any other suitable manner.
  • the processor may process a command within the computing device, such as, for example, to display graphic information for providing a graphic user interface (GUI) on an external input or output device, such as a display connected to a high-speed interface.
  • GUI graphic user interface
  • Examples are instructions stored in memory or a storage device.
  • multiple processors and/or multiple buses may be used with multiple memories and types of memory as appropriate.
  • the processor may be implemented as a chipset formed by chips including a plurality of independent analog and/or digital processors.
  • Memory also stores information within the computing device.
  • the memory may be configured as a volatile memory unit or a set thereof.
  • the memory may be configured as a non-volatile memory unit or a set thereof.
  • the memory may also be another form of computer readable medium, such as, for example, a magnetic or optical disk.
  • a storage device may provide a large-capacity storage space to the computing device.
  • a storage device may be a computer-readable medium or a component comprising such a medium, and may include, for example, devices or other components within a storage area network (SAN), a floppy disk device, a hard disk device, an optical disk device, or a tape device, a flash memory, or other semiconductor memory device or device array similar thereto.
  • SAN storage area network
  • floppy disk device a hard disk device
  • an optical disk device or a tape device
  • flash memory or other semiconductor memory device or device array similar thereto.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

일 실시예에 따른 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함한다.

Description

목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치
본 명세서에서 개시되는 실시예들은 강화학습의 효율성을 높이기 위해 목표에 대한 학습을 함께 수행하는 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치에 관한 것이다.
본 연구는 과학기술정보통신부와 정보통신기획평가원의 ICT융합산업원천기술개발 사업의 연구결과로 수행되었음(IITP-2018-0-00622-003).
본 연구는 산업통상자원부와 한국산업기술진흥원의 산업기술국제협력 사업의 연구결과로 수행되었음(KIAT-P0006720).
본 연구는 과학기술정보통신부와 정보통신기획평가원의 SW컴퓨팅산업원천기술개발 사업의 연구결과로 수행되었음(IITP-2015-0-00310-006).
본 연구는 교육부와 한국연구재단의 개인기초연구 사업의 연구결과로 수행되었음(NRF-2018R1D1A1B07049923).
강화학습(reinforcement learning)이란 주어진 상태(state)에서 최적의 행동(action)을 선택하기 위한 학습 방법이다. 이때, 학습의 주체가 되는 구성을 에이전트(agent)라고 하며, 에이전트는 학습을 통해 보상(reward)을 최대화하는 방향으로 행동을 선택하기 위한 정책(policy)을 수립한다.
일반적인 강화학습에 따르면, 에이전트는 목표(target)에 대한 정보를 가지고 있지 않은 상태에서 탐색(exploration)을 통해 최적의 행동이 무엇인지 학습하는 과정을 반복한다. 다시 말해, 에이전트는 무수히 많은 행동을 수행하면서 어떤 경우에 보상을 얻고 어떤 경우에는 보상을 얻지 못하는지를 확인하고, 그 결과에 따라 어떤 행동이 최적인지를 판단하므로 많은 시행착오를 겪게 되는데, 그로 인해 강화학습은 효율성이 낮은 문제를 가지고 있다. 또한, 희소 보상 상황에서는 보상을 획득하게 되는 상황 자체가 드물게 일어나므로 강화학습의 효과가 떨어질 수 있다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 명세서에서 개시되는 실시예들은, 강화학습을 수행하는 과정에서 쉽게 얻을 수 있는 목표 데이터(target data)를 통해 목표에 대한 학습도 함께 수행함으로써 학습 효율을 높이기 위한 방법 및 장치를 제공하고자 한다.
위와 같은 기술적 과제를 해결하기 위해 본 명세서에서 개시되는 실시예들에서는, 강화학습을 수행하는 과정에서 수집되는 데이터들을 이용하여 강화학습의 목표에 대한 학습을 수행하고, 학습 결과를 반영하여 강화학습을 수행한다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 강화학습을 수행하면서 목표 데이터에 대한 학습도 함께 수행함으로써 빠르고 효율적인 학습을 돕고, 강화학습의 효과 및 효율성을 높이는 효과를 기대할 수 있다.
또한 전술한 과제 해결 수단 중 어느 하나에 의하면, 일반적인 강화학습 모델을 수행하는 과정에서 쉽게 얻을 수 있는 목표 데이터들을 통해 학습을 수행하여 목표에 대한 정보를 획득함으로써 효율적으로 강화학습의 효과를 높이는 장점이 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 모델을 도시한 도면이다.
도 2는 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다.
도 3 내지 도 5는 실시예들에 따른 목표 지향적 강화학습을 설명하기 위한 순서도들이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 목표 지향적 강화학습 방법을 수행하기 위한 컴퓨터 프로그램으로서, 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 목표 지향적 강화학습 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치는, 데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부, 강화학습을 수행하기 위한 프로그램 및 상기 강화학습을 수행하는 과정에서 수집되는 목표 데이터가 저장되는 저장부 및 적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 입출력부를 통해 수신된 데이터를 이용하여 강화학습을 수행하는 제어부를 포함하며, 상기 제어부가 상기 프로그램을 실행함으로써 구현되는 목표 지향적 강화학습 모델은, 상기 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 상기 목표 데이터로서 수집하고, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하고, 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영할 수 있다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
먼저 본 명세서에서 자주 사용되는 용어들의 의미를 정의한다.
'목표 작업(target task)'이란 에이전트가 이를 달성할 경우 보상이 주어지는 작업을 의미하고, '목표 데이터(target data)'란 에이전트가 강화학습을 수행하는 과정에서 획득되는 목표와 관련된 데이터를 의미한다. 본 명세서에서 설명되는 실시예들에서는 목표 이미지(target image)가 목표 데이터로서 사용된다고 가정하고, 목표 데이터 및 목표 이미지의 구체적인 예나 이를 수집하는 구체적인 방법에 대해서는 아래에서 자세히 설명한다.
'목표 지향적 강화학습(target oriented reinforcement learning)'이란 본 명세서에서 제시되는 새로운 강화학습 방법으로서, 일반적인 강화학습과 함께 목표 데이터에 대한 학습을 수행함으로써, 목표에 대한 정보를 에이전트가 획득할 수 있도록 하는 학습 방법을 의미한다.
'보조 학습(auxiliary learning)' 또는 '보조 작업(auxiliary task)'이란 하나의 딥러닝 모델에서 학습하고자 하는 메인 작업을 수행하는 과정에서 직간접적으로 얻게 되는 정보들을 출력으로 만들어 메인 작업과 함께 학습하는 것을 의미한다. 보조 학습을 이용하면 그래디언트를 추가로 확보함으로써 모델의 깊은 층을 학습하거나, 추가적인 정보를 학습함으로써 메인 작업을 학습하는데 도움을 줄 수 있다.
위에서 정의되지 않은 용어들은 이하에서 필요할 때마다 정의한다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 모델을 도시한 도면이고, 도 2는 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다. 도 1에 도시된 모델은 도 2의 컴퓨팅 장치(200)의 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 구현될 수 있다. 이하에서는 컴퓨팅 장치(200)에 포함된 구성들에 대해서 먼저 간단히 설명한 후, 도 1에 도시된 강화학습 모델을 통해 목표 지향적 강화학습을 수행하는 방법에 대해서 자세히 설명한다.
도 2를 참조하면, 일 실시예에 따른 컴퓨팅 장치(200)는 입출력부(210), 제어부(220) 및 저장부(230)를 포함할 수 있다.
입출력부(210)는 강화학습과 관련된 사용자의 명령이나 데이터를 수신하고, 강화학습을 수행한 결과를 출력하기 위한 구성이다. 입출력부(210)는 사용자로부터 입력을 수신하기 위한 다양한 종류의 입력장치(e.g. 키보드, 터치스크린 등)를 포함할 수 있으며, 또한 강화학습에 사용되는 데이터 및 강화학습 결과 데이터를 송수신하기 위한 연결 포트나 통신 모듈을 포함할 수도 있다.
제어부(220)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 저장부(230)에 저장된 프로그램을 실행함으로써 이하에서 제시되는 프로세스에 따라 강화학습을 수행한다. 다시 말해, 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 도 1에 도시된 목표 지향적 강화학습 모델(100)이 구현되고, 제어부(220)는 목표 지향적 강화학습 모델(100)을 통해 강화학습을 수행한다. 제어부(220)가 목표 지향적 강화학습 모델(100)을 이용하여 강화학습을 수행하는 방법에 대해서는 아래에서 도 1을 참조하여 자세히 설명한다.
저장부(230)는 파일 및 프로그램이 저장될 수 있는 구성으로서 다양한 종류의 메모리를 통해 구성될 수 있다. 특히, 저장부(230)에는 제어부(220)가 이하에서 제시되는 프로세스에 따라 목표 지향적 강화학습을 위한 연산을 수행할 수 있도록 하는 데이터 및 프로그램이 저장될 수 있다. 또한, 저장부(230)에는 강화학습을 수행하는 과정에서 수집된 목표 이미지가 라벨링(labeling)되어 저장되어, 학습에 사용될 수 있다.
이하에서는 제어부(220)가 저장부(230)에 저장된 프로그램을 실행시킴으로써 일 실시예에 따른 목표 지향적 강화학습을 수행하는 과정에 대해서, 도 1을 참조하여 자세히 설명한다.
앞서 설명한 바와 같이 목표 지향적 강화학습 모델(100)은 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 구현되는 것이므로, 이후의 실시예들에서 목표 지향적 강화학습 모델(100)이 수행한다고 설명되는 동작이나 프로세스는, 실제로는 제어부(220)가 수행하는 것으로 볼 수 있다. 또한, 목표 지향적 강화학습 모델(100)에 포함되는 세부 구성들은 목표 지향적 강화학습을 수행하는 전체적인 프로그램에서 특정 기능이나 역할을 담당하는 소프트웨어 단위로 볼 수 있다.
도 1을 참조하면, 일 실시예에 따른 목표 지향적 강화학습 모델(100)은 특징 추출부(110), 행동 모듈(120) 및 분류 모듈(130)을 포함할 수 있다.
특징 추출부(110)는 상태를 나타내는 상태 데이터 및 목표 데이터로부터 특징을 추출하기 위한 구성이다. 특징 추출부(110)가 상태 데이터로부터 추출한 특징은 행동 모듈(120)에 전달되고, 목표 데이터로부터 추출한 특징은 분류 모듈(130)에 전달된다. 행동 모듈(120)는 상태 데이터로부터 추출된 특징에 기초하여, 정책에 따른 행동 및 가치를 출력할 수 있다. 분류 모듈(130)은 목표 데이터로부터 추출된 특징에 기초하여 목표 데이터를 분류할 수 있다. 특징 추출부(110), 행동 모듈(120) 및 분류 모듈(130)이 수행하는 구체적인 동작은 아래에서 수식들을 참조하여 설명한다.
일 실시예에 따른 목표 지향적 강화학습 모델(100)은 특징 추출부(110) 이후 정책
Figure PCTKR2020017859-appb-img-000001
및 가치함수
Figure PCTKR2020017859-appb-img-000002
를 출력하는 행동 모듈(120)로 이어지는 일반적인 강화학습 모델 구조에, 다층 퍼셉트론(multilayer perceptron)으로 구성된 분류 모듈(130)을 추가적으로 포함할 수 있다.
따라서, 특징 추출부(110) 및 행동 모듈(120)은 강화학습 수행 시 이용되고, 특징 추출부(110) 및 분류 모델(130)은 목표 이미지를 학습하는 보조 작업 수행 시 이용될 수 있다. 다시 말해, 메인 작업 수행을 위한 손실함수는 행동 모듈(120)에 의해 실행되고, 목표 이미지 판별을 위한 보조 손실함수는 분류 모듈(130)에 의해 실행될 수 있다.
도 1을 참조하면, 에이전트가 “Get the Amor”라는 지시(1)를 받으면, t 시점에서의 상태
Figure PCTKR2020017859-appb-img-000003
를 나타내는 이미지(2)가 특징 추출부(110)에 대한 입력으로 인가된다.
특징 추출부(110)는 아래의 수학식 1에 따라 상태
Figure PCTKR2020017859-appb-img-000004
를 인코딩 데이터
Figure PCTKR2020017859-appb-img-000005
로 변환한다.
[수학식 1]
Figure PCTKR2020017859-appb-img-000006
이어서 행동 모듈(120)은 아래의 수학식 2에 따라
Figure PCTKR2020017859-appb-img-000007
로부터 정책
Figure PCTKR2020017859-appb-img-000008
와 가치함수
Figure PCTKR2020017859-appb-img-000009
를 출력한다.
[수학식 2]
Figure PCTKR2020017859-appb-img-000010
이때,
Figure PCTKR2020017859-appb-img-000011
는 t 시점에서 에이전트가 수행하는 행동을 의미한다.
또한 이때, 행동 모듈(120)의 함수
Figure PCTKR2020017859-appb-img-000012
와 그 결과 얻게 되는 손실함수
Figure PCTKR2020017859-appb-img-000013
는 선택된 강화학습 알고리즘에 따라 달라질 수 있는데, 예를 들어 A3C(Asynchronous Advantage Actor-Critic) 알고리즘이 선택되었다면 아래의 수학식 3 내지 5에 따라 손실함수가 정의될 수 있다.
[수학식 3]
Figure PCTKR2020017859-appb-img-000014
[수학식 4]
Figure PCTKR2020017859-appb-img-000015
[수학식 5]
Figure PCTKR2020017859-appb-img-000016
이때,
Figure PCTKR2020017859-appb-img-000017
Figure PCTKR2020017859-appb-img-000018
는 각각 정책의 손실 및 가치함수의 손실을 의미하고,
Figure PCTKR2020017859-appb-img-000019
는 처음부터 t-1 시점까지의 보상의 합으로서 리턴(return)을 의미한다.
Figure PCTKR2020017859-appb-img-000020
Figure PCTKR2020017859-appb-img-000021
는 각각 엔트로피 텀 및 엔트로피 계수를 의미한다.
목표 지향적 강화학습 모델(100)은 이상 설명한 알고리즘에 따라서 강화학습을 수행하는 과정에서 목표 이미지를 수집하고, 수집된 목표 이미지에 라벨링을 하여 목표 저장부(10)에 저장한다. 이때, 목표 저장부(10)는 도 2의 저장부(230)에 포함되는 구성일 수 있다.
목표 지향적 강화학습 모델(100)이 목표 이미지를 수집하는 과정에 대해서 자세히 설명하면 다음과 같다. 먼저 목표 이미지의 상위 개념인 목표 데이터를 수집하는 방법에 대해서 설명하고, 목표 이미지를 수집하는 구체적인 예시를 설명한다.
목표 지향적 강화학습 모델(100)은 강화학습을 수행하는 과정에서 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하며, 일 실시예에 따르면 강화학습을 수행하는 에이전트가 목표 달성에 성공하면 목표의 시각적 표현(visual representation)을 포함하는 이미지를 목표 데이터(목표 이미지)로서 수집하고, 수집된 목표 데이터에는 목표에 대응됨을 의미하는 라벨링을 하여 저장할 수 있다.
조금 더 구체적으로 설명하면, 목표 지향적 강화학습 모델(100)은 보상 획득이나 특정 작업 수행의 성공 또는 실패와 같은 이벤트(e.g. 목표상태에 도달)가 발생하면, 해당 이벤트와 관련된 데이터들을 목표 데이터로서 수집한다. 이어서, 목표 지향적 강화학습 모델(100)은 수집된 목표 데이터에, 해당 목표 데이터와 관련된 이벤트를 나타내기 위한 라벨링을 한 후 목표 저장부(10)에 저장한다.
예를 들어, 에이전트가 게임 내 캐릭터가 되어 게임을 플레이하는 케이스를 가정하면, 목표 지향적 강화학습 모델(100)은 게임 내에서 특정 이벤트가 발생하기 전(e.g. 에이전트가 특정 아이템을 얻거나 미션을 수행하기 전) 일정 개수의 게임화면 프레임들(e.g. 아이템을 얻는 시점 이전의 60~70 프레임)을 목표 이미지들로서 수집하고, 수집된 목표 이미지들에 대응되는 이벤트를 나타내기 위한 라벨링을 한 후 목표 저장부(10)에 저장할 수 있다. 즉, 수집되는 목표 이미지들은 목표의 시각적 표현을 포함할 수 있다.
일 실시예에 따르면, 목표 지향적 강화학습 모델(100)은 게임 내에서 에이전트가 목표를 달성하여 보상을 받는 이벤트가 발생한 경우, 즉 목표 작업 수행에 성공한 경우 이벤트가 발생한 시점 이전 일정 개수의 게임화면 프레임들을 목표 이미지로서 저장하고, 저장된 목표 이미지에는 '목표'에 대응됨을 의미하는 라벨링을 할 수 있다. 특징 추출부(110) 및 분류 모듈(130)은 저장된 목표 이미지들을 통해 목표의 시각적 표현(visual representation)을 학습하게 되고, 따라서 특징 추출부(110)는 상태로서 인가되는 게임화면에 목표가 포함되었다면 목표를 식별하기 위한 특징을 효과적으로 추출함으로써 강화학습의 성능 및 효율성을 높일 수 있다.
목표 지향적 강화학습 모델(100)이 어떤 이벤트 발생 시 목표 데이터를 수집할지는 사용자가 미리 설정할 수 있다. 즉, 목표 데이터는 사용자에 의해 지정되는 하이퍼 파라미터(Hyper parameter)라고 볼 수 있다.
목표 지향적 강화학습 모델(100)은 강화학습을 수행하면서 겪는 시행착오 과정에서 다수의 목표 이미지들을 수집할 수 있다.
이하에서는 수집된 목표 이미지들을 이용하여 학습을 수행하는 과정에 대해서 설명한다.
Figure PCTKR2020017859-appb-img-000022
를 인덱스 i의 목표 이미지의 배치 데이터(batch data)라고 하고,
Figure PCTKR2020017859-appb-img-000023
를 해당 데이터의 라벨이라고 한다. 또한, 분류 모듈(130)의 함수를
Figure PCTKR2020017859-appb-img-000024
라고 하고,
Figure PCTKR2020017859-appb-img-000025
는 분류 모듈(130)의 예측값이라고 한다. 목표 이미지를 특징 추출부(110) 및 분류 모듈(130)에 통과시키면서 아래의 수학식 6 내지 8에 따라서 보조 작업에 대한 손실
Figure PCTKR2020017859-appb-img-000026
을 얻을 수 있다. 보조 작업에 대한 손실
Figure PCTKR2020017859-appb-img-000027
은 학습 시에만 사용된다.
[수학식 6]
Figure PCTKR2020017859-appb-img-000028
[수학식 7]
Figure PCTKR2020017859-appb-img-000029
[수학식 8]
Figure PCTKR2020017859-appb-img-000030
이때,
Figure PCTKR2020017859-appb-img-000031
은 목표 이미지의 배치(batch) 개수를 의미한다.
목표 지향적 강화학습 모델(100)은 이상 살펴본 과정에 따라 메인 작업에 대한 손실
Figure PCTKR2020017859-appb-img-000032
과 보조 작업에 대한 손실
Figure PCTKR2020017859-appb-img-000033
을 구하면, 메인 작업의 학습에 초점을 맞추기 위해서 보조 작업에 대한 손실
Figure PCTKR2020017859-appb-img-000034
에 대해서 1보다 작은 가중치
Figure PCTKR2020017859-appb-img-000035
를 곱함으로써 다음의 수학식 9와 같이 전제 손실함수
Figure PCTKR2020017859-appb-img-000036
을 구한다. 일 실시예에 따르면,
Figure PCTKR2020017859-appb-img-000037
는 메인 작업의 종류에 따라서 0.3에서 0.5 사이의 값으로 설정될 수 있다.
[수학식 9]
Figure PCTKR2020017859-appb-img-000038
위와 같은 과정을 통해 목표 지향적 강화학습 모델(100)은 목표 이미지에 대한 시각적 표현을 학습할 수 있다. 즉, 목표 지향적 강화학습 모델(100)은 분류 모델(130)을 통해 어떤 이미지가 목표를 나타내는지 또는 어떤 이미지가 목표를 포함하고 있는지 판단하는 방법을 학습할 수 있고, 특징 추출기(110)는 학습 결과를 이용함으로써 상태
Figure PCTKR2020017859-appb-img-000039
로서 수신하는 이미지로부터 목표와 관련된 특징을 추출할 수 있다. 즉, 에이전트는 행동을 수행할 때 목표에 대한 정보를 이용함으로써 학습 성능 및 효율성이 향상될 수 있다.
다시 말해, 목표 지향적 강화학습 모델(100)은 정책을 학습하면서 분류 모듈(130)을 통해 목표 데이터를 함께 학습하고, 그로 인해 특징 추출부(110)는 목표를 더욱 잘 분류할 수 있게 된다. 즉, 보조 작업을 통해 특징 추출부(110)가 목표 데이터의 시각적 표현을 학습하는 것이라고 볼 수 있다.
한편 학습되는 목표 이미지들은 이전의 시행착오 과정에서 수집된 것들이므로, 정책을 통한 행동 출력에 이용되지는 않는다. 다시 말해, 특징 추출부(110) 및 분류 모듈(130)을 이용한 목표 이미지에 대한 학습은 훈련 시에만 수행될 뿐이다.
이하에서는 상술한 바와 같은 컴퓨팅 장치(200)를 이용하여 목표 지향적 강화학습을 수행하는 방법을 설명한다. 도 3 내지 도 5는 일 실시예에 따른 목표 지향적 강화학습 방법을 설명하기 위한 순서도들이다.
도 3 내지 도 5에 도시된 실시예들에 따른 목표 지향적 강화학습 방법은 도 2에 도시된 컴퓨팅 장치(200)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 2의 컴퓨팅 장치(200)에 관하여 이상에서 기술한 내용은 도 3 내지 도 5에 도시된 실시예들에 따른 목표 지향적 강화학습 방법에도 적용될 수 있다.
도 3을 참고하면, 301 단계에서 목표 지향적 강화학습 모델(100)은 강화학습을 수행하는 과정에서 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집한다.
도 4에는 도 3의 301 단계에 포함되는 세부 단계들을 도시하였다. 도 4를 참조하면, 401 단계에서 목표 지향적 강화학습 모델(100)은 강화학습을 수행하는 에이전트가 목표 달성에 성공하면, 목표의 시각적 표현을 포함하는 이미지를 목표 데이터로서 수집한다. 402 단계에서 목표 지향적 강화학습 모델(100)은 목표 데이터에 목표에 대응됨을 의미하는 라벨링을 수행한다.
다시 도 3으로 돌아와서, 302 단계에서 목표 지향적 강화학습 모델(100)은 강화학습에 대한 보조학습으로서 목표 데이터를 학습한다.
도 5에는 도 3의 302 단계에 포함되는 세부 단계들을 도시하였다. 도 5를 참조하면, 501 단계에서 목표 지향적 강화학습 모델(100)의 특징 추출부(110)는 목표 데이터의 배치 데이터로부터 특징을 추출한다. 502 단계에서 목표 지향적 강화학습 모델(100)의 분류 모듈(130)은 목표 데이터의 배치 데이터로부터 추출된 특징에 따라 예측값을 추출한다. 503 단계에서 목표 지향적 강화학습 모델(100)은 예측값 및 배치 데이터의 라벨을 이용하여 보조학습에 대한 손실을 산출한다. 504 단계에서 목표 지향적 강화학습 모델(100)은 보조학습에 대한 손실을 이용하여 목표 데이터에 대한 시각적 표현을 학습한다. 목표 지향적 강화학습 모델(100)이 강화학습에 대한 보조학습으로서 목표 데이터를 학습하는 구체적인 방법은 앞서 수학식 6 내지 8을 참조하여 설명한 바와 같다.
이상 살펴본 실시예들에 따르면, 강화학습을 수행하는 과정에서 목표 이미지를 수집하고, 수집된 목표 이미지를 함께 학습함으로써 빠르고 효율적인 학습을 돕고, 강화학습의 성능 및 효율성을 높이는 효과를 기대할 수 있다.
일반적인 강화학습에서 에이전트가 정책을 학습하기 위해서는 수많은 시행착오를 거쳐야 하고, 많은 시행착오에도 불구하고 학습 성능이 높지 않은 문제가 있는데, 본 명세서에서 제시된 실시예들에 따르면 이러한 문제점을 해결할 수 있다.
또한, 학습 과정에서 외부 데이터를 추가하는 방식이 아니라 강화학습을 수행하는 과정에서 수집되는 데이터를 이용하므로 외부의 개입 없이 학습이 가능하다는 장점이 있다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.
도 3 내지 도 5를 통해 설명된 실시예들에 따른 목표 지향적 강화학습 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한 도 3 내지 도 5를 통해 설명된 실시예들에 따른 목표 지향적 강화학습 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서 도 3 내지 도 5를 통해 설명된 실시예들에 따른 목표 지향적 강화학습 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

Claims (10)

  1. 목표 지향적 강화학습 모델에 의해 수행되는 강화학습 방법에 있어서,
    강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계;
    상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계; 및
    상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 목표 데이터로서 수집하는 단계는,
    상기 강화학습을 수행하는 에이전트가 상기 목표 달성에 성공하면, 상기 목표의 시각적 표현을 포함하는 이미지를 상기 목표 데이터로서 수집하는 단계; 및
    상기 목표 데이터에는 목표에 대응됨을 의미하는 라벨링을 하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 목표 지향적 강화학습 모델은,
    상태 데이터 및 목표 데이터로부터 특징을 추출하기 위한 특징 추출부;
    상기 상태 데이터로부터 추출된 특징에 기초하여, 정책에 따른 행동 및 가치를 출력하기 위한 행동 모듈; 및
    상기 목표 데이터로부터 추출된 특징에 기초하여 상기 목표 데이터를 분류하기 위한 분류 모듈을 포함하는 것을 특징으로 하는 방법.
  4. 제3항에 있어서,
    상기 수집된 목표 데이터를 학습하는 단계는,
    상기 특징 추출부가 상기 목표 데이터의 배치 데이터(batch data)로부터 특징을 추출하는 단계;
    상기 분류 모듈이 상기 목표 데이터의 배치 데이터로부터 추출된 특징에 따라 예측값을 추출하는 단계;
    상기 목표 지향적 강화학습 모델이 예측값 및 상기 배치 데이터의 라벨을 이용하여 상기 보조학습에 대한 손실을 산출하는 단계; 및
    상기 목표 지향적 강화학습 모델이 상기 보조학습에 대한 손실을 이용하여 상기 목표 데이터에 대한 시각적 표현을 학습하는 단계를 포함하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    컴퓨터에 제1항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  6. 컴퓨팅 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
  7. 목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치에 있어서,
    데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부;
    강화학습을 수행하기 위한 프로그램 및 상기 강화학습을 수행하는 과정에서 수집되는 목표 데이터가 저장되는 저장부; 및
    적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 입출력부를 통해 수신된 데이터를 이용하여 강화학습을 수행하는 제어부를 포함하며,
    상기 제어부가 상기 프로그램을 실행함으로써 구현되는 목표 지향적 강화학습 모델은,
    상기 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 상기 목표 데이터로서 수집하고, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하고, 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는, 컴퓨팅 장치.
  8. 제7항에 있어서,
    상기 목표 지향적 강화학습 모델은 상기 목표 데이터를 수집함에 있어서,
    상기 강화학습을 수행하는 에이전트가 상기 목표 달성에 성공하면, 상기 목표의 시각적 표현을 포함하는 이미지를 상기 목표 데이터로서 수집하고, 상기 목표 데이터에는 목표에 대응됨을 의미하는 라벨링을 하는 것을 특징으로 하는 장치.
  9. 제7항에 있어서,
    상기 목표 지향적 강화학습 모델은,
    상태 데이터 및 목표 데이터로부터 특징을 추출하기 위한 특징 추출부;
    상기 상태 데이터로부터 추출된 특징에 기초하여, 정책에 따른 행동 및 가치를 출력하기 위한 행동 모듈; 및
    상기 목표 데이터로부터 추출된 특징에 기초하여 상기 목표 데이터를 분류하기 위한 분류 모듈을 포함하는 것을 특징으로 하는 장치.
  10. 제9항에 있어서,
    상기 목표 지향적 강화학습 모델은 상기 수집된 목표 데이터를 학습함에 있어서,
    상기 특징 추출부가 상기 목표 데이터의 배치 데이터(batch data)로부터 특징을 추출하고, 상기 분류 모듈이 상기 목표 데이터의 배치 데이터로부터 추출된 특징에 따라 예측값을 추출하고, 상기 목표 지향적 강화학습 모델이 상기 예측값 및 상기 배치 데이터의 라벨을 이용하여 상기 보조학습에 대한 손실을 산출하고, 상기 목표 지향적 강화학습 모델이 상기 보조학습에 대한 손실을 이용하여 상기 목표 데이터에 대한 시각적 표현을 학습하는 것을 특징으로 하는 장치.
PCT/KR2020/017859 2020-10-12 2020-12-08 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치 WO2022080582A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021546353A JP7348296B2 (ja) 2020-10-12 2020-12-08 目標志向的強化学習方法及びこれを遂行するための装置
US17/427,957 US20220398830A1 (en) 2020-10-12 2020-12-08 Target-oriented reinforcement learning method and apparatus for performing the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0131334 2020-10-12
KR1020200131334A KR102345267B1 (ko) 2020-10-12 2020-10-12 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치

Publications (1)

Publication Number Publication Date
WO2022080582A1 true WO2022080582A1 (ko) 2022-04-21

Family

ID=79177477

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/017859 WO2022080582A1 (ko) 2020-10-12 2020-12-08 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치

Country Status (4)

Country Link
US (1) US20220398830A1 (ko)
JP (1) JP7348296B2 (ko)
KR (1) KR102345267B1 (ko)
WO (1) WO2022080582A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615781B1 (ko) * 2022-11-22 2023-12-19 국방과학연구소 모방학습 장치, 모방학습 방법, 및 모방학습 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체
CN116109525B (zh) * 2023-04-11 2024-01-05 北京龙智数科科技服务有限公司 基于多维度数据增强的强化学习方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069582A (ko) * 2016-11-04 2019-06-19 딥마인드 테크놀로지스 리미티드 보조 작업들을 통한 강화 학습
KR20200094655A (ko) * 2019-01-30 2020-08-07 주식회사 스트라드비젼 각 영역에서 최적화된 자율 주행을 수행할 수 있도록 위치 기반 알고리즘 선택을 통해 심리스 파라미터 변경을 수행하는 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6604832B2 (ja) * 2015-12-02 2019-11-13 池上通信機株式会社 機械学習支援装置
WO2018083672A1 (en) * 2016-11-04 2018-05-11 Deepmind Technologies Limited Environment navigation using reinforcement learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069582A (ko) * 2016-11-04 2019-06-19 딥마인드 테크놀로지스 리미티드 보조 작업들을 통한 강화 학습
KR20200094655A (ko) * 2019-01-30 2020-08-07 주식회사 스트라드비젼 각 영역에서 최적화된 자율 주행을 수행할 수 있도록 위치 기반 알고리즘 선택을 통해 심리스 파라미터 변경을 수행하는 방법 및 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUILLAUME LAMPLE; DEVENDRA SINGH CHAPLOT: "Playing FPS Games with Deep Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 18 September 2016 (2016-09-18), 201 Olin Library Cornell University Ithaca, NY 14853 , XP080727453 *
KIM KIBEOM, ZHANG BYOUNG-TAK: "Learning with target classification auxiliary task for semantic navigation", PROCEEDINGS OF KOREAN INSTITUTE OF INFORMATION SCIENTISTS AND ENGINEERS KSC2019, 31 December 2019 (2019-12-31), pages 530 - 532, XP055921652, Retrieved from the Internet <URL:https://bi.snu.ac.kr/Publications/Conferences/Domestic/KSC2019/KSC2019_KBKimZ.pdf> *
LI XIUJUN, LI LIHONG, GAO JIANFENG, HE XIAODONG, CHEN JIANSHU, DENG LI, HE JI: "Recurrent Reinforcement Learning: A Hybrid Approach", ARXIV:1509.03044V1, 10 September 2015 (2015-09-10), XP055921649, Retrieved from the Internet <URL:https://arxiv.org/pdf/1509.03044v1.pdf> *
MAX JADERBERG; VOLODYMYR MNIH; WOJCIECH MARIAN CZARNECKI; TOM SCHAUL; JOEL Z LEIBO; DAVID SILVER; KORAY KAVUKCUOGLU: "Reinforcement Learning with Unsupervised Auxiliary Tasks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 16 November 2016 (2016-11-16), 201 Olin Library Cornell University Ithaca, NY 14853 , XP080732287 *

Also Published As

Publication number Publication date
US20220398830A1 (en) 2022-12-15
JP2023502804A (ja) 2023-01-26
KR102345267B1 (ko) 2021-12-31
JP7348296B2 (ja) 2023-09-20

Similar Documents

Publication Publication Date Title
US10762164B2 (en) Vector and matrix computing device
WO2022080582A1 (ko) 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치
WO2022059969A1 (ko) 심전도 데이터 분류를 위한 심층 신경망 사전 학습 방법
WO2021194056A1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
WO2021153861A1 (ko) 다중 객체 검출 방법 및 그 장치
CN112633419A (zh) 小样本学习方法、装置、电子设备和存储介质
JP5404204B2 (ja) ミスアラインデータアクセスの検出及び処理のためのデバイス、システム、及び方法
WO2022055099A1 (ko) 이상 탐지 방법 및 이를 위한 장치
WO2021157863A1 (ko) 준 지도 학습을 위한 오토인코더 기반 그래프 설계
WO2022124725A1 (ko) 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
CN111124920A (zh) 设备性能测试方法、装置及电子设备
WO2022211301A1 (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
WO2022197044A1 (ko) 뉴럴 네트워크를 이용한 방광병변 진단 방법 및 그 시스템
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2022108206A1 (ko) 설명 가능한 지식그래프 완성 방법 및 장치
WO2023136417A1 (ko) 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법
CN112036516A (zh) 一种图像处理方法、装置、电子设备和存储介质
WO2019216502A1 (ko) 악성코드 데이터를 분류하는 장치 및 방법
WO2022075543A1 (ko) 멀티모달센서를 이용한 이상탐지 방법 및 이를 수행하기 위한 컴퓨팅 장치
CN111340043B (zh) 关键点检测方法、系统、设备及存储介质
WO2022196971A9 (ko) 세포 레벨의 정보로부터 조직 레벨의 정보를 추정하는 방법 및 그 장치
WO2022080567A1 (ko) 질의 응답 장치 및 방법
WO2023101112A1 (ko) 복수의 태스크에 대한 오프라인 메타 강화학습 방법 및 이를 수행하기 위한 컴퓨팅 장치
WO2023113523A1 (ko) 단일 세포 rna 시퀀싱 데이터의 분석 방법 및 장치
WO2017188484A1 (ko) 메모리 관리 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021546353

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20957826

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20957826

Country of ref document: EP

Kind code of ref document: A1