WO2021235603A1 - 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 - Google Patents

조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 Download PDF

Info

Publication number
WO2021235603A1
WO2021235603A1 PCT/KR2020/011169 KR2020011169W WO2021235603A1 WO 2021235603 A1 WO2021235603 A1 WO 2021235603A1 KR 2020011169 W KR2020011169 W KR 2020011169W WO 2021235603 A1 WO2021235603 A1 WO 2021235603A1
Authority
WO
WIPO (PCT)
Prior art keywords
episode
reinforcement learning
conditional
reward
steps
Prior art date
Application number
PCT/KR2020/011169
Other languages
English (en)
French (fr)
Inventor
노철균
이성령
민예린
르팜투옌
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to JP2020558930A priority Critical patent/JP7387953B2/ja
Priority to US17/926,277 priority patent/US20230206079A1/en
Publication of WO2021235603A1 publication Critical patent/WO2021235603A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Definitions

  • the present invention relates to an apparatus and method for reinforcement learning using conditional episode construction, and more particularly, conditions are given to individual decisions so that reinforcement learning can be easily applied even to a problem using a state without continuity, and the given It relates to a reinforcement learning apparatus and method using conditional episode composition that ends an episode when a condition is not satisfied so that the sum of rewards reflecting the present value is maximized.
  • Reinforcement learning is a learning method that deals with agents that interact with the environment and achieve goals, and is widely used in robotics and artificial intelligence fields.
  • Reinforcement learning aims to find out what actions the reinforcement learning agent, the subject of learning, must do to receive more rewards.
  • the agent sequentially selects an action as the time step passes, and receives a reward based on the impact of the action on the environment.
  • FIG. 1 is a block diagram showing the configuration of a reinforcement learning apparatus according to the prior art.
  • the agent 10 determines an action (or action) A through learning of a reinforcement learning model. Learning, each action A affects the next state S, and the degree of success can be measured as a reward R.
  • the reward is a reward score for an action (action) determined by the agent 10 according to a certain state when learning is performed through the reinforcement learning model, It's kind of feedback.
  • the environment 20 is all rules such as actions that the agent 10 can take and rewards accordingly, states, actions, rewards, etc. are all components of the environment, and all predetermined things other than the agent 10 are the environment.
  • the agent 10 takes an action so that the future reward is maximized through reinforcement learning.
  • the reinforcement learning apparatus has limitations in that it should be used only in the direction of solving the number of cases for a clearly defined action in a given environment and a goal of a predefined environment.
  • the reward is determined as the game score, but the actual business (business) environment is not, so there is a problem that the reward must be set separately for reinforcement learning.
  • the reinforcement learning apparatus has a very difficult problem in defining an episode for data that cannot be clearly defined as the next state (without continuity) when a business (business) problem is applied.
  • an episode means a trajectory from the initial state to the last state.
  • the trajectory from 'game start' to 'game end' can be viewed as an episode.
  • trajectory of a character's actions, ending one state, and repeating the transition to the next state until death can be called an episode. It is a trajectory that collects the process of state, action, and reward.
  • the agent may take an incorrect action due to overfitting when taking an action in a new state. have.
  • the present invention provides conditions for individual decision making so that reinforcement learning can be easily applied even to a problem using a state without continuity, and if the given condition is not satisfied, the episode is terminated to obtain the present value.
  • An object of the present invention is to provide a reinforcement learning apparatus and method using a conditional episode configuration that maximizes the sum of the reflected rewards.
  • an embodiment of the present invention is a reinforcement learning apparatus using a conditional episode configuration, and a plurality of states are N ( ⁇ W) extracted, conditional episodes are set for any T ( ⁇ N) of the extracted states to end the episode, and an episode defined by T steps in which the conditions are set is configured and provided to the agent. component; and a reinforcement learning agent that determines an action so that the sum of rewards obtained in the T steps is maximized based on the episode.
  • the end time of the episode is set through the conditions for status, action and reward in T steps, and the end time of the episode is erroneous prediction, exceeding a specific threshold, and the reward value of the current stage It is characterized in any one of these small cases.
  • conditional episode constructing unit includes a sampling unit for extracting a plurality of states through sampling from an arbitrary data set; a condition setting unit that sets a condition for ending an episode for any T among the extracted states, wherein N is less than or equal to the number of extracted states; and an episode setting unit configuring an episode defined by the T steps in which the condition is set.
  • the reinforcement learning agent according to the embodiment is characterized in that it performs reinforcement learning in a direction that maximizes the sum of the rewards currently valued until the end of the episode.
  • the direction in which the sum of the rewards according to the embodiment is maximized is the direction in which the policy gradient for the objective function of reinforcement learning increases the cumulative reward, and may be defined by the following equation.
  • is the policy that can give the greatest reward
  • is the coefficient (or model parameter) of the neural net
  • T is the number of steps with conditions set
  • a t is the action
  • s t is the state
  • G(H) is It is the sum of the rewards currently valued in one episode.
  • the reinforcement learning method using the conditional episode configuration is a) a conditional episode configuration unit N ( ⁇ W) extracting; b) setting a condition for ending an episode for any T ( ⁇ N) of the conditional episode constituent part extracted states; c) the conditional episode constructing unit constructing and setting an episode defined by T steps in which conditions are set; and d) determining, by the reinforcement learning agent, an action by learning to maximize the sum of rewards obtained in T steps based on the set episode.
  • conditional episode configuration unit of step b) determines whether the episode is erroneously predicted through conditions for states, actions and rewards in T steps, exceeds a specific threshold, and the reward value of the current step is small. It is characterized in that it is set as the end point of the episode.
  • the reinforcement learning agent of step d) is characterized in that it learns in the direction of maximizing the sum of the currently valued rewards until the end of the episode.
  • the direction in which the sum of the rewards according to the embodiment is maximized is the direction in which the policy gradient for the objective function of reinforcement learning increases the cumulative reward, and is defined by the following equation.
  • is the policy that can give the greatest reward
  • is the coefficient (or model parameter) of the neural net
  • T is the number of steps with conditions set
  • a t is the action
  • s t is the state
  • G(H) is It is the sum of the rewards currently valued in one episode.
  • the present invention provides conditions for individual decision-making, and if the given conditions are not satisfied, the episode is terminated so that the sum of rewards reflecting the present value is maximized.
  • the present invention provides an episode for data that cannot be clearly defined as the next state (without continuity), so that if the conditions given in the business decision-making field such as cards and loans are not satisfied, learning in a different direction It has the advantage of preventing unintentional reinforcement learning by blocking it.
  • the current value range can be determined in the process of calculating a reward, and by automatically defining an episode as an episode until the condition is satisfied within the sampled N pieces, that is, the condition is satisfied. If not, there is an advantage that the user can control the desired direction through the condition of the end of the episode.
  • the present invention provides that the initial state of the reinforcement learning agent in an episode is randomly sampled, and the interaction proceeds until the environment meets the condition, thereby maximizing the total reward expectation per episode and using the smallest possible number of rewards. It has the advantage of being able to achieve a high level of performance in an episode.
  • 1 is a block diagram showing the configuration of a general reinforcement learning apparatus.
  • FIG. 2 is a block diagram schematically showing a reinforcement learning apparatus using conditional episode configuration according to an embodiment of the present invention.
  • FIG. 3 is a block diagram illustrating a conditional configuration of a reinforcement learning apparatus using a conditional episode configuration according to the embodiment of FIG. 2 .
  • FIG. 4 is a flowchart illustrating a learning method of a reinforcement learning apparatus using conditional episode configuration according to an embodiment of the present invention.
  • ... unit means a unit that processes at least one function or operation, which may be divided into hardware, software, or a combination of the two.
  • the term "at least one” is defined as a term including the singular and the plural, and even if the term “at least one" does not exist, each element may exist in the singular or plural, and may mean the singular or plural. will be self-evident.
  • FIG. 2 is a block diagram schematically showing a reinforcement learning apparatus using a conditional episode configuration according to an embodiment of the present invention
  • FIG. 3 is a configuration of a reinforcement learning apparatus using a conditional episode configuration according to an embodiment of the present invention. It is a block diagram.
  • the reinforcement learning apparatus using conditional episode configuration provides conditions for individual decision-making, and if the given conditions are not satisfied, the episode is terminated to obtain the present value. It is configured to include a conditional episode configuration unit 100 that determines an action so that the sum of the reflected rewards is maximized, and a reinforcement learning agent 200 .
  • the conditional episode configuration unit 100 sets conditions for T in a data set made of arbitrary data, configures episodes defined by the T steps in which the conditions are set, and provides them to the reinforcement learning agent 200 . , a sampling unit 110 , a condition setting unit 120 , and an episode setting unit 130 .
  • the sampling unit 110 is a data set, for example, financial fraud data, card duplicate payment data, loss rate data, yield data, limit exhaustion rate data, etc. through sampling from a set of various data in which there are W units of the state.
  • N states of a certain number of states are randomly extracted.
  • the number of extracted states 'N' may be set to be less than or equal to 'W' (N ⁇ W).
  • the condition setting unit 120 selects T items from among the plurality of states extracted by the sampling unit 110 , and sets an arbitrary condition for ending an episode for the selected T items.
  • condition setting unit 120 may set the number of T according to a preset number or a user's setting.
  • the number of 'T' selected may be set to be less than or equal to the number 'N' (T ⁇ N) of the plurality of states extracted by the sampling unit 110 .
  • condition setting unit 120 may set a condition related to the end of an episode, and in the case of a classification problem, a condition for terminating an episode when an erroneous prediction is performed, a condition for terminating an episode when a specific threshold is exceeded, and the like.
  • condition setting unit 120 may set a condition for terminating the episode when the reward value in the current stage is small.
  • condition setting unit 120 may set the end time of the episode through a predetermined condition, and the end time of the episode may be variously set, such as an incorrect prediction, exceeding a specific threshold, and a small compensation value of the current stage. .
  • the episode setting unit 130 configures a temporary episode based on the episode defined by T steps in which the condition for ending the episode in the condition setting unit 120 is set, and then through training or learning of the reinforcement learning agent 200 .
  • An episode is constructed by extracting a step that satisfies the condition among the steps of the temporary episode.
  • the episode setting unit 130 defines the episode according to the condition of the condition setting unit 120 , the current value-valued range is determined when the reward is calculated, so that the episode can be flexibly changed.
  • the episode setting unit 130 sets the episode consisting of T steps in the condition setting unit 120 as a temporary episode, provides it to the reinforcement learning agent 200 , and performs training or learning of the reinforcement learning agent 200 .
  • the episode is automatically defined and reconfigured so that the sum of rewards can be maximized based on the step that satisfies the conditions and learned well.
  • the user can train and learn in a desired direction, thereby excluding learning in an unnecessary direction.
  • the reinforcement learning agent 200 performs reinforcement learning based on the episode input from the conditional episode configuration unit 100 in a state where an arbitrary reinforcement learning model is installed, and rewards obtained from T steps through reinforcement learning. The action is determined so that the sum of
  • the reinforcement learning agent 200 learns in the direction of maximizing the sum of the rewards currently valued until the end of the episode based on the provided episode.
  • the learning is terminated and the learning content up to that point is reflected and updated, and the updated agent performs learning on the next episode do.
  • learning may be performed in a direction in which learning is improved in order for the agent to meet the remaining 40%, that is, in a direction in which the sum of rewards is maximized.
  • the number of extracted samplings is set to the number of steps T for which a predetermined condition is set, and the learning is performed well and goes to T, the reward can be maximized.
  • the direction in which the sum of rewards is maximized is the direction in which the policy gradient for the objective function of reinforcement learning increases the cumulative reward, and may be defined by the following equation.
  • is the policy that can give the greatest reward
  • is the coefficient (or model parameter) of the neural net
  • T is the number of steps with conditions set
  • a t is the action
  • s t is the state
  • G(H) is It is the sum of the rewards currently valued in one episode.
  • the reward is the sum of the rewards obtained from the T steps in the episode.
  • compensation function Gt R(s t , a t ) + ⁇ R(s t+1 , a t+1 ) + ⁇ 2 R(s t+2 , a t+2 ) + ... + ⁇ T R(s T , a T ), and ⁇ [0, 1].
  • is a coefficient related to the present value of rewards, and the closer to 0, the more important the compensation of the present decision step than the future, and the closer to 1, the more important all the decision step rewards are given the same weight.
  • FIG. 4 is a flowchart illustrating a learning method of a reinforcement learning apparatus using conditional episode configuration according to an embodiment of the present invention.
  • conditional episode configuration unit 100 extracts a plurality of state data through sampling from an arbitrary data set (S100).
  • step S100 the conditional episode construction unit 100 randomly extracts N a plurality of states through sampling from a set of various data in which W units of state exist.
  • the number 'N' of the extracted states is a number less than or equal to 'W' (N ⁇ W).
  • the conditional episode constructing unit 100 selects T random among the plurality of states extracted in step S100, and sets conditions for the selected T pieces (S200).
  • conditional episode configuration unit 100 may set the number of T according to a preset number or a user's setting.
  • step S200 the conditional episode configuration unit 100 sets the number of 'T' to be selected so that the number of 'T' is less than or equal to the number of 'N' extracted in step S100 (T ⁇ N).
  • step S200 the conditional episode configuration unit 100 sets a condition related to the end of the episode, and in the case of a classification problem, a condition to end the episode if an erroneous prediction is performed, a condition to end the episode if a certain threshold is exceeded, etc. can
  • conditions for ending the episode may be variously set.
  • conditional episode constructing unit 100 performs the step of setting an episode defined by T steps in which the condition for ending the episode is set ( S300 ).
  • step S300 the conditional episode configuration unit 100 configures a temporary episode based on an episode defined by T steps in which the condition for ending the episode is set, and then temporarily through training or learning of the reinforcement learning agent 200
  • An episode can be composed by extracting a step that satisfies a condition from among the steps of the episode.
  • step S300 when the conditional episode configuration unit 100 defines the episode by the condition, the current value-valued range is determined when calculating the reward, so that the episode can be flexibly changed, and accordingly, T steps An episode consisting of is set as a temporary episode and provided to the reinforcement learning agent 200 .
  • step S300 the conditional episode constructing unit 100 performs training or learning of the reinforcement learning agent 200 to satisfy the conditions for state, action and reward among T steps.
  • the episode is automatically defined and reconfigured so that the sum of the rewards can be maximized.
  • the episode configured in step S300 is provided to the reinforcement learning agent 200, and the reinforcement learning agent 200 performs reinforcement learning to maximize the sum of the rewards obtained from the T steps based on the set episode (S400). Determine the action.
  • step S400 the reinforcement learning agent 200 learns in the direction of maximizing the sum of the rewards currently valued until the end of the episode, and the direction in which the sum of the rewards is maximized is the policy gradient for the objective function of reinforcement learning.
  • Gradient is a direction to increase the cumulative reward, and may be defined by the following formula.
  • is the policy that can give the greatest reward
  • is the coefficient (or model parameter) of the neural net
  • T is the number of steps with conditions set
  • a t is the action
  • s t is the state
  • G(H) is It is the sum of the rewards currently valued in one episode.
  • is a coefficient related to the present value of rewards, and the closer to 0, the more important the compensation of the present decision step than the future, and the closer to 1, the more important all the decision step rewards are given the same weight.
  • Table 1 is a performance comparison table that measures F-1 measurement, reward, and loss amount.
  • one episode was defined as an episode ending condition until the reinforcement learning agent took an erroneous action with respect to a fraud case by composing an episode based on a specific condition.
  • SL Supervised Learning
  • One-step means One-STEP method
  • N-Step means N-STEP method using the entire batch size (size) as an episode
  • FALSE means One episode is defined as the time until the reinforcement learning agent behaves erroneously in the step in which the condition is set
  • FN False Negative
  • the numerical value corresponding to high performance is emphasized with bold numbers, and the lower the loss amount means better performance.
  • FALSE which consists of episodes on the condition that it cannot be done
  • FN which consists of episodes on the condition that no fraud is allowed even if there is not one mistake, showed good performance.
  • the FN episode experiment shows the best performance.
  • the current value range can be determined in the process of calculating the reward, and by automatically defining an episode as an episode until the condition is satisfied within the sampled N pieces, that is, if the condition is not satisfied, the episode
  • reinforcement learning can be controlled in the desired direction by the user.
  • the initial state of the reinforcement learning agent in the episodes is randomly sampled, and the interaction proceeds until the environment meets the condition, thereby maximizing the total reward estimate per episode and providing a high level in the fewest possible episodes. level of performance can be achieved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Robotics (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

조건부 에피소드 구성을 이용한 강화학습 장치 및 방법을 개시한다. 본 발명은 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 함으로써, 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있다. [대표도] 도 2

Description

조건부 에피소드 구성을 이용한 강화학습 장치 및 방법
본 발명은 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있도록 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 하는 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법에 관한 것이다.
강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.
이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.
즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.
또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.
도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.
즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.
환경(20)은 에이전트(10)가 취할 수 있는 행동, 그에 따른 보상 등 모든 규칙으로서, 상태, 액션, 보상 등은 모두 환경의 구성요소이고, 에이전트(10) 이외의 모든 정해진 것들이 환경이다.
한편, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생하므로, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 된다.
그러나, 종래 기술에 따른 강화 학습 장치는 주어진 환경에서 명확하게 정해진 행동에 대한 경우의 수와 사전에 정의된 환경의 목표를 푸는 방향으로만 사용해야 한다는 한계를 가지고 있다.
즉, 강화 학습에서 많이 적용하는 게임과 같이 환경이 명확한 경우에는 보상이 게임 스코어로 확정되어 있지만, 실제 사업(비즈니스)환경은 그렇지 않기 때문에 강화 학습을 위해서 보상을 별도로 설정해야만 하는 문제점이 있다.
또한, 종래 기술에 따른 강화 학습 장치는 사업(비즈니스) 문제의 적용시 명확하게 다음 상태라고 정의할 수 없는(연속성이 없는) 데이터에 대한 에피소드를 정의하는 것은 매우 어려운 문제점이 있다.
여기서, 에피소드는 초기 상태(State)부터 마지막 상태(State)까지의 궤적(trajectory)을 의미하는 것으로, 예를 들어 게임에서는 '게임 시작'부터 '게임 종료'까지의 궤적을 에피소드라고 볼 수 있다.
더욱 구체적으로는 캐릭터가 행동을 하고 하나의 상태(State)를 끝낸 후 다음 상태로 넘어가는 것을 반복하다가 죽었을 때까지의 궤적을 에피소드라고 할 수 있고, 이때의 에피소드는 캐릭터가 죽기 전까지 취하게 된 상태, 행동, 보상의 과정을 모아놓은 궤적이다.
그러나, 실제 비즈니스에서는 해당 상태와 다음 상태의 연속성이 없는 경우가 많고, 이때 정해진 종료 상태가 없기 때문에 별도로 종료 상태를 정의하지 않으면, 에이전트를 학습시킬 수 없는 문제점이 있다.
또한, 종료 상태가 정의되었다 해도, N개의 스텝으로 이루어진 에피소드를 처음부터 끝까지 모두 처리한 결과 값을 찾는 경우에도, 학습을 시키면 시킬수록 시간이 기하급수적으로 늘어나는 문제점이 있다.
또한, 상태와 보상에 대한 관계를 고려하지 않고 N개의 스텝으로 일괄되게 에피소드를 유지해서 학습시키게 되면, 에이전트가 새로운 상태에서 액션을 취할 때 과적합(Overfitting)으로 인한 잘못된 액션을 하는 경우가 발생할 수 있다.
이러한 문제점을 해결하기 위하여, 본 발명은 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있도록 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 하는 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 조건부 에피소드 구성을 이용한 강화학습 장치로서, 상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하고, 상기 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하고, 상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하여 에이전트로 제공하는 조건부 에피소드 구성부; 및 상기 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 액션(Action)을 결정하는 강화학습 에이전트를 포함한다.
또한, 상기 실시 예에 따른 에피소드는 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 상기 에피소드의 종료 시점을 설정하고, 상기 에피소드의 종료 시점은 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 조건부 에피소드 구성부는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 추출하는 샘플링부; 상기 추출된 상태 중에서 임의의 T개에 대하여 에피소드가 종료되는 조건을 설정하되, 상기 N은 추출된 복수의 상태 수 보다 작거나 또는 같은 수가 되도록 설정하는 조건 설정부; 및 상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하는 에피소드 설정부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 강화학습 에이전트는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 강화 학습하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가하는 방향이고, 하기식으로 정의될 수 있다.
Figure PCTKR2020011169-appb-I000001
여기서,
Figure PCTKR2020011169-appb-I000002
는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, at는 액션, st는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합이다.
또한, 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 방법은 a) 조건부 에피소드 구성부가 상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하는 단계; b) 상기 조건부 에피소드 구성부가 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하는 단계; c) 상기 조건부 에피소드 구성부가 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하여 설정하는 단계; 및 d) 강화학습 에이전트가 상기 설정된 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 학습하여 액션(Action)을 결정하는 단계;를 포함한다.
또한, 상기 실시 예에 따른 b) 단계의 조건부 에피소드 구성부는 에피소드가 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나를 에피소드의 종료 시점으로 설정하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 d) 단계의 강화학습 에이전트는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가하는 방향이고, 하기식으로 정의되는 것을 특징으로 한다.
Figure PCTKR2020011169-appb-I000003
여기서,
Figure PCTKR2020011169-appb-I000004
는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, at는 액션, st는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합이다.
본 발명은 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 함으로써, 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있는 장점이 있다.
또한, 본 발명은 명확하게 다음 상태라고 정의할 수 없는(연속성이 없는) 데이터에 대한 에피소드를 구성함으로써, 카드, 여신 등의 비즈니스 의사 결정 분야에서 부여된 조건을 만족하지 못하면, 다른 방향으로 학습하는 것을 차단하여 의도하지 않은 강화 학습을 방지할 수 있는 장점이 있다.
또한, 본 발명은 에피소드를 조건에 의해 정의함으로써, 보상을 산출하는 과정에서 현재 가치화 하는 범위가 결정될 수 있고, 샘플링된 N개 내에서 조건을 만족할 때 까지를 에피소드로 자동 정의함으로써, 즉 조건을 만족하지 않으면 에피소드 종료, 조건을 통해 사용자가 원하는 방향으로 제어할 수 있는 장점이 있다.
또한, 본 발명은 에피소드에서 강화학습 에이전트의 초기 상태는 랜덤하게 샘플링되고, 상호작용은 환경이 조건을 만족하는 것까지 도달할 때까지 진행됨으로써, 에피소드당 총 보상 예상치를 최대화하고, 최대한 적은 수의 에피소드에서 높은 수준의 성과를 달성할 수 있는 장점이 있다.
도 1은 일반적인 강화 학습 장치의 구성을 나타낸 블록도.
도 2는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치를 개략적으로 나타낸 블록도.
도 3은 도 2의 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 조건부 구성을 나타낸 블록도.
도 4는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 학습 방법을 나타낸 흐름도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법의 바람직한 실시 예를 상세하게 설명한다.
도 2는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치를 개략적으로 나타낸 블록도이고, 도 3은 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 구성을 나타낸 블록도이다.
도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치는 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 액션을 결정하는 조건부 에피소드 구성부(100)와, 강화학습 에이전트(200)를 포함하여 구성된다.
조건부 에피소드 구성부(100)는 임의의 데이터로 이루어진 데이터 세트에서 T개에 대하여 조건을 설정하고, 상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하여 강화학습 에이전트(200)로 제공하는 구성으로서, 샘플링부(110)와, 조건 설정부(120)와, 에피소드 설정부(130)를 포함하여 구성된다.
샘플링부(110)는 데이터 세트, 예를 들면, 금융 사기 데이터, 카드 중복 결제 데이터, 손실률 데이터, 수익률 데이터, 한도 소진률 데이터 등 상태의 단위가 W개 존재하는 다양한 데이터들의 세트에서 샘플링을 통해 복수의 상태(State)를 N개 추출하는 구성으로서, 일정 개수의 상태를 랜덤으로 추출한다.
여기서, 추출되는 상태의 개수 'N'은 'W'보다 작거나 같은 수(N≤W)가 되도록 설정할 수 있다.
조건 설정부(120)는 샘플링부(110)에서 추출된 복수의 상태 중에서 T개를 선택하고, 선택된 T개에 대하여 에피소드가 종료되는 임의의 조건이 설정되도록 한다.
또한, 조건 설정부(120)는 미리 설정된 개수, 또는 사용자의 설정에 따라 T의 개수를 설정할 수 있다.
또한, 선택되는 'T'의 개수는 샘플링부(110)에서 추출된 복수의 상태(State) 개수 'N'보다 작거나 또는 같은 수(T≤N)가 되도록 설정할 수도 있다.
여기서, 조건 설정부(120)는 에피소드의 종료와 관련된 조건으로서, 분류의 문제인 경우, 잘못된 예측을 수행하면 에피소드를 종료하는 조건, 특정 임계치를 초과하면 에피소드를 종료하는 조건 등을 설정할 수 있다.
또한, 조건 설정부(120)는 현재 단계에서의 보상 값이 작은 경우 에피소드를 종료하는 조건 등을 설정할 수 있다.
즉, 조건 설정부(120)는 미리 정해진 조건을 통해 에피소드의 종료 시점을 설정할 수 있는데, 에피소드의 종료 시점은 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 등 다양하게 설정될 수 있다.
에피소드 설정부(130)는 조건 설정부(120)에서 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하고, 이후 강화학습 에이전트(200)의 훈련 또는 학습을 통해 임시 에피소드의 스텝 중에서 조건을 만족하는 스텝을 추출하여 에피소드를 구성한다.
즉, 에피소드 설정부(130)가 에피소드를 조건 설정부(120)의 조건에 의해 정의하는 경우, 보상이 계산될 때 현재 가치화하는 범위가 정해지게 됨으로써, 에피소드가 유동적으로 변경될 수 있다.
따라서, 에피소드 설정부(130)는 조건 설정부(120)에서 T개의 스텝으로 이루어진 에피소드를 임시 에피소드로 설정하여 강화학습 에이전트(200)로 제공하고, 강화학습 에이전트(200)의 훈련 또는 학습을 수행하여 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 통해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성한다.
이러한 조건 설정을 통한 에피소드 설정부(130)의 에피소드 설정을 이용하여 사용자가 원하는 방향으로 훈련 및 학습할 수 있도록 하여 불필요한 방향으로 학습하는 것을 배제할 수 있도록 한다.
강화학습 에이전트(200)는 임의의 강화학습 모델이 설치된 상태에서, 조건부 에피소드 구성부(100)로부터 입력되는 에피소드에 기반하여 강화학습을 수행하며, 강화학습을 통해 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 액션(Action)을 결정한다.
즉, 강화학습 에이전트(200)는 제공되는 에피소드에 기반하여 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습한다.
이를 더욱 상세하게 설명하면, 예를 들어 샘플링을 통해 100개의 스텝을 추출하고, 추출된 100개의 스텝에 대하여 에피소드가 종료되는 임의의 조건이 설정되면 T = 100개의 스텝으로 정의된 에피소드가 구성될 수 있다.
이후, 강화학습 에이전트(200)가 학습을 수행하는 과정에서 임의의 스텝이 조건을 만족하지 못하면, 학습을 종료하고 그때까지의 학습 내용을 반영해서 업데이트하며, 다음 에피소드를 업데이트된 에이전트가 학습을 수행한다.
여기서, 설정된 조건을 통해 예를 들면 60%만 맞고 학습을 종료한 경우, 에이전트는 나머지 40%를 맞추기 위해 학습이 개선되는 방향, 즉 보상의 총합이 최대화하는 방향으로 학습이 수행될 수 있다.
따라서, 추출된 샘플링의 개수를 미리 정해진 조건이 설정된 스텝 T의 개수로 설정하고, 학습이 잘 이루어져 T까지 갈 경우 보상이 최대화 될 수 있다.
한편, 보상의 총합이 최대화되는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이고, 하기식으로 정의될 수 있다.
Figure PCTKR2020011169-appb-I000005
여기서,
Figure PCTKR2020011169-appb-I000006
는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, at는 액션, st는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합이다.
또한, 보상은 에피소드에서 T개의 스텝에서 얻는 보상의 합으로 이루어지게 된다.
또한, 보상함수 Gt = R(st, at) + ΓR(st+1, at+1) + Γ2R(st+2, at+2) + … + ΓTR(sT, aT), 이고, Γ∈[0, 1] 이다.
여기서, Γ는 보상의 현재 가치화와 관련된 계수로서, 0에 가까울수록 미래보다 현재의 결정 스텝의 보상을 중요시하고, 1에 가까울수록 모든 결정 스텝 보상을 동일한 가중치로 중요시하게 된다.
다음은 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 방법을 설명한다.
도 4는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 학습 방법을 나타낸 흐름도이다.
도 2 내지 도 4를 참조하여 설명하면, 조건부 에피소드 구성부(100)가 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State) 데이터를 추출(S100)한다.
S100 단계에서, 조건부 에피소드 구성부(100)는 상태의 단위가 W개 존재하는 다양한 데이터들의 세트에서 샘플링을 통해 랜덤으로 복수의 상태(State)를 N개 추출한다.
여기서, 추출되는 상태의 개수 'N'은 'W'보다 작거나 같은 수(N≤W)이다.
조건부 에피소드 구성부(100)가 S100 단계에서 추출된 복수의 상태 중에서 임의의 T개를 선택하고, 선택된 T개에 대하여 조건을 설정(S200)한다.
또한, S200 단계서 조건부 에피소드 구성부(100)는 미리 설정된 개수, 또는 사용자의 설정에 따라 T의 개수를 설정할 수도 있다.
또한, S200 단계에서 조건부 에피소드 구성부(100)는 선택되는 'T'의 개수가 S100 단계에서 추출된 복수의 상태(State) 개수 'N'보다 작거나 또는 같은 수(T≤N)가 되도록 설정할 수도 있다.
또한, S200 단계에서 조건부 에피소드 구성부(100)는 에피소드의 종료와 관련된 조건으로서, 분류의 문제인 경우, 잘못된 예측을 수행하면 에피소드를 종료하는 조건, 특정 임계치를 초과하면 에피소드를 종료하는 조건 등을 설정할 수 있다.
또한, 현재 단계에서의 보상 값이 작은 경우 에피소드를 종료하는 조건을 다양하게 설정할 수 있다.
계속해서, 조건부 에피소드 구성부(100)는 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 설정하는 단계(S300)를 수행한다.
또한, S300 단계에서 조건부 에피소드 구성부(100)는 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하고, 이후 강화학습 에이전트(200)의 훈련 또는 학습을 통해 임시 에피소드의 스텝 중에서 조건을 만족하는 스텝을 추출하여 에피소드를 구성할 수 있다.
즉, S300 단계에서 조건부 에피소드 구성부(100)는 에피소드를 조건에 의해 정의하는 경우, 보상을 계산할 때 현재 가치화하는 범위가 정해지게 됨으로써, 에피소드가 유동적으로 변경될 수 있고, 이에 따라, T개의 스텝으로 이루어진 에피소드를 임시 에피소드로 설정하여 강화학습 에이전트(200)로 제공한다.
또한, S300 단계는 조건부 에피소드 구성부(100)가 강화학습 에이전트(200)의 훈련 또는 학습을 수행하여 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성한다.
S300 단계에서 구성된 에피소드는 강화학습 에이전트(200)로 제공되고, 강화학습 에이전트(200)는 설정된 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 강화학습을 수행(S400)하여 액션(Action)을 결정한다.
또한, S400 단계에서 강화학습 에이전트(200)는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습하고, 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이며, 하기식으로 정의될 수 있다.
Figure PCTKR2020011169-appb-I000007
여기서,
Figure PCTKR2020011169-appb-I000008
는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, at는 액션, st는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합이다.
또한, 보상은 에피소드에서 T개의 스텝에서 얻는 보상의 합으로 이루어지게 되고, 보상함수 Gt = R(st, at) + ΓR(st+1, at+1) + Γ2R(st+2, at+2) + … + ΓTR(sT, aT), 이고, Γ∈[0, 1]로 구성될 수 있다.
여기서, Γ는 보상의 현재 가치화와 관련된 계수로서, 0에 가까울수록 미래보다 현재의 결정 스텝의 보상을 중요시하고, 1에 가까울수록 모든 결정 스텝 보상을 동일한 가중치로 중요시하게 된다.
하기의 표는 UCI(University of California)에서 공개한 22% 사기 거래를 포함하고 있는 실제 신용카드 거래 데이터를 이용하여 각 에피소드 정의 별 성능 실험한 결과이다.
실험에서 표 1은 F-1 측정, 보상(Reward), 손실금액 3가지를 측정한 성능 비교표이다.
또한, 특정 조건을 기준으로 에피소드를 구성하여 강화학습 에이전트가 사기 건에 대하여 잘못된 행동을 하였을 때까지를 에피소드 종료 조건으로 하여 하나의 에피소드로 정의했다.
즉, SL(Supervised Learning)은 지도학습을 의미하고, One-step은 One-STEP 방법을 의미하며, N-step은 전체 배치 크기(사이즈)를 에피소드로 사용한 N-STEP 방법을 의미하고, FALSE는 조건이 설정된 스텝에서 강화학습 에이전트가 잘못된 행동을 하였을 때까지를 하나의 에피소드로 정의하였으며, FN(False Negative)은 조건이 설정된 스텝에서 강화학습 에이전트가 사기 건에 대하여 잘못된 행동을 하였을 때까지를 하나의 에피소드로 정의하였다.
에피소드 정의 F1 보상 비용(million)
SL 0.450 0.315 140.0
One-step, Γ= 0.0 0.516 0.512 100.0
One-step, Γ= 0.5 0.517 0.527 95.0
One-step, Γ= 0.9 0.519 0.535 92.2
One-step, Γ= 0.99 0.516 0.508 101.3
N-step, Γ= 0.0 0.519 0.529 94.2
N-step, Γ= 0.5 0.515 0.507 102.3
N-step, Γ= 0.9 0.519 0.519 97.8
N-step, Γ= 0.99 0.519 0.538 92.2
FALSE, Γ= 0.0 0.521 0.525 98.1
FALSE, Γ= 0.5 0.518 0.535 92.6
FALSE, Γ= 0.9 0.517 0.516 100.2
FALSE, Γ= 0.99 0.518 0.532 94.3
FN, Γ= 0.0 0.520 0.526 95.6
FN, Γ= 0.5 0.520 0.524 98.3
FN, Γ= 0.9 0.521 0.537 93.9
FN, Γ= 0.99 0.520 0.550 86.9
여기서, 높은 성능에 해당하는 수치는 굵은 숫자로 강조하였고, 손실금액은 낮은 값일수록 좋은 성능을 의미한다.상기 표에서 알 수 있는 바와 같이, 강화학습 에이전트가 특정 조건, 예를 들어 1회도 틀리면 안되는 것을 조건으로 에피소드를 구성한 FALSE와, 1회도 틀리면 안되는데 사기 건을 틀리면 안되는 것을 조건으로 에피소드를 구성한 FN에 대하여 좋은 성능을 나타냈고, 특히 FN 에피소드 실험이 가장 좋은 성능을 보여주고 있다.
따라서, 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 함으로써, 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있다.
또한, 명확하게 다음 상태라고 정의할 수 없는(연속성이 없는) 데이터에 대한 에피소드를 구성함으로써, 카드, 여신 등의 비즈니스 의사 결정 분야에서 부여된 조건을 만족하지 못하면, 다른 방향으로 학습하는 것을 차단하여 의도하지 않은 강화 학습을 방지할 수 있다.
또한, 에피소드를 조건에 의해 정의함으로써, 보상을 산출하는 과정에서 현재 가치화 하는 범위가 결정될 수 있고, 샘플링된 N개 내에서 조건을 만족할 때 까지를 에피소드로 자동 정의함으로써, 즉 조건을 만족하지 않으면 에피소드 종료, 조건을 통해 사용자가 원하는 방향으로 강화학습을 제어할 수 있다.
또한, 에피소드에서 강화학습 에이전트의 초기 상태는 랜덤하게 샘플링되고, 상호작용은 환경이 조건을 만족하는 것까지 도달할 때까지 진행됨으로써, 에피소드당 총 보상 예상치를 최대화하고, 최대한 적은 수의 에피소드에서 높은 수준의 성과를 달성할 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
[부호의 설명]
100 : 조건부 에피소드 구성부
110 : 샘플링부
120 : 조건 설정부
130 : 에피소드 설정부
200 : 강화학습 에이전트
300 : 환경

Claims (9)

  1. 상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하되,
    상기 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하고,
    보상을 계산할 때 현재 가치화하는 범위가 정해지게 되어 에피소드가 유동적으로 변경될 수 있도록 에피소드를 상기 조건에 정의하며,
    상기 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하여 강화학습 에이전트(200)로 제공하고,
    상기 임시 에피소드의 스텝 중에서 상기 강화학습 에이전트(200)의 학습을 통해 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성하는 조건부 에피소드 구성부(100); 및
    상기 조건부 에피소즈 구성부(100)로부터 입력되는 에피소드에 기반하여 T개의 스텝으로부터 얻는 보상(Reward)의 합이 최대화되도록 액션(Action)을 결정하는 강화학습 에이전트(200)를 포함하는 조건부 에피소드 구성을 이용한 강화학습 장치.
  2. 제 1 항에 있어서,
    상기 에피소드는 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 상기 에피소드의 종료 시점을 설정하되,
    상기 에피소드의 종료 시점은 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나인 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
  3. 제 1 항에 있어서,
    상기 조건부 에피소드 구성부(100)는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 추출하는 샘플링부(110);
    상기 추출된 상태 중에서 임의의 T개에 대하여 에피소드가 종료되는 조건을 설정하되, 상기 T는 추출된 복수의 상태 수 보다 작거나 또는 같은 수가 되도록 설정하는 조건 설정부(120); 및
    상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하되,
    보상을 계산할 때 현재 가치화하는 범위가 정해지게 되어 에피소드가 유동적으로 변경될 수 있도록 에피소드를 상기 조건에 정의하며, 상기 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하여 강화학습 에이전트(200)로 제공하고, 상기 임시 에피소드의 스텝 중에서 상기 강화학습 에이전트(200)의 학습을 통해 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성하는 에피소드 설정부(130);를 포함하는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
  4. 제 1 항에 있어서,
    상기 강화학습 에이전트(200)는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 강화 학습하는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
  5. 제 4 항에 있어서,
    상기 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이고, 하기식
    Figure PCTKR2020011169-appb-I000009
    - 여기서,
    Figure PCTKR2020011169-appb-I000010
    는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, at는 액션, st는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합 임 - 으로 정의되는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
  6. a) 조건부 에피소드 구성부(100)가 상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하는 단계;
    b) 상기 조건부 에피소드 구성부(100)가 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하는 단계;
    c) 상기 조건부 에피소드 구성부(100)가 보상을 계산할 때 현재 가치화하는 범위가 정해지게 되어 에피소드가 유동적으로 변경될 수 있도록 에피소드를 상기 조건에 정의하고, 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 임시 에피소드를 구성하여 설정하는 단계;
    d) 강화학습 에이전트(200)가 상기 설정된 임시 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 학습하여 액션(Action)을 결정하는 단계; 및
    e) 상기 조건부 에피소드 구성부(100)는 상기 강화학습 에이전트(200)의 학습을 통해 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성하는 단계;를 포함하는 조건부 에피소드 구성을 이용한 강화학습 방법.
  7. 제 6 항에 있어서,
    상기 b) 단계의 조건부 에피소드 구성부(100)는 에피소드가 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나를 에피소드의 종료 시점으로 설정하는 것을 특징으로 조건부 에피소드 구성을 이용한 강화학습 방법.
  8. 제 6 항에 있어서,
    상기 d) 단계의 강화학습 에이전트(200)는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습하는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 방법.
  9. 제 8 항에 있어서,
    상기 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이고, 하기식
    Figure PCTKR2020011169-appb-I000011
    - 여기서,
    Figure PCTKR2020011169-appb-I000012
    는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, at는 액션, st는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합 임 - 으로 정의되는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 방법.
PCT/KR2020/011169 2020-05-22 2020-08-21 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 WO2021235603A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020558930A JP7387953B2 (ja) 2020-05-22 2020-08-21 条件付きエピソード構成を用いた強化学習装置及び方法
US17/926,277 US20230206079A1 (en) 2020-05-22 2020-08-21 Reinforcement learning device and method using conditional episode configuration

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200061890A KR102169876B1 (ko) 2020-05-22 2020-05-22 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법
KR10-2020-0061890 2020-05-22

Publications (1)

Publication Number Publication Date
WO2021235603A1 true WO2021235603A1 (ko) 2021-11-25

Family

ID=73136133

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/011169 WO2021235603A1 (ko) 2020-05-22 2020-08-21 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법

Country Status (4)

Country Link
US (1) US20230206079A1 (ko)
JP (1) JP7387953B2 (ko)
KR (1) KR102169876B1 (ko)
WO (1) WO2021235603A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180356793A1 (en) * 2017-06-12 2018-12-13 Fanuc Corporation Machine learning device, controller, and computer-readable medium
KR102055141B1 (ko) * 2018-12-31 2019-12-12 한국기술교육대학교 산학협력단 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법
US20200082275A1 (en) * 2018-09-10 2020-03-12 Fujitsu Limited Neural network architecture search apparatus and method and computer readable recording medium
KR102079745B1 (ko) * 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치
KR102100688B1 (ko) * 2020-02-19 2020-04-14 주식회사 애자일소다 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6706173B2 (ja) * 2016-08-09 2020-06-03 株式会社日立製作所 制御装置、制御方法、および制御プログラム
KR20190098107A (ko) 2019-08-02 2019-08-21 엘지전자 주식회사 딥 러닝을 위한 신경망 학습 장치 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180356793A1 (en) * 2017-06-12 2018-12-13 Fanuc Corporation Machine learning device, controller, and computer-readable medium
US20200082275A1 (en) * 2018-09-10 2020-03-12 Fujitsu Limited Neural network architecture search apparatus and method and computer readable recording medium
KR102055141B1 (ko) * 2018-12-31 2019-12-12 한국기술교육대학교 산학협력단 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법
KR102079745B1 (ko) * 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치
KR102100688B1 (ko) * 2020-02-19 2020-04-14 주식회사 애자일소다 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법

Also Published As

Publication number Publication date
JP7387953B2 (ja) 2023-11-29
KR102169876B1 (ko) 2020-10-27
JP2022537846A (ja) 2022-08-31
US20230206079A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
WO2018106005A1 (ko) 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
WO2019098659A1 (ko) 시냅스소자에서 가중치에 대한 비대칭성을 최소화하는 펄스 구동 장치 및 그 방법
WO2020111754A9 (ko) 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템
Wang On competitive learning
WO2023287064A1 (ko) 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2020101457A2 (ko) 지도학습기반의 합의 진단방법 및 그 시스템
WO2020045848A1 (ko) 세그멘테이션을 수행하는 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2021235603A1 (ko) 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법
WO2023128093A1 (ko) 반도체 설계에서 사용자 학습 환경 기반의 강화학습 장치 및 방법
WO2021040287A1 (ko) 사람 재식별 장치 및 방법
WO2023282569A1 (en) Method and electronic device for generating optimal neural network (nn) model
WO2023191129A1 (ko) 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2024111866A1 (ko) 자기 개발을 위한 강화 학습 시스템
Holmes et al. Complex axial growth patterns in an early Cambrian trilobite from South Australia
WO2020204610A1 (ko) 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
WO2019151606A1 (ko) 최적화 계산 장치 및 방법
WO2021091052A1 (ko) 가중 퍼지 소속함수 기반 심층 신경망을 통한 하위 패턴 학습 및 세부 학습을 이용한 클래스 분류 방법 및 장치
WO2020032561A2 (ko) 다중 색 모델 및 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
CN109271635A (zh) 一种嵌入外部词典信息的词向量改进方法
WO2017043680A1 (ko) 의료 데이터의 개인 정보 보호를 위한 인공 신경망의 분산 학습 시스템 및 방법
WO2018117366A1 (ko) 홍채 검증 방법
WO2023063693A1 (ko) 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법
WO2019208869A1 (ko) 학습을 이용한 얼굴 특징점 검출 방법 및 장치
WO2020171321A1 (ko) 딥 러닝 시스템
WO2022019354A1 (ko) 커스터마이징 진단 시스템 제공방법 및 그 시스템

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020558930

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20936277

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20936277

Country of ref document: EP

Kind code of ref document: A1