WO2021235603A1

WO2021235603A1 - 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법

Info

Publication number: WO2021235603A1
Application number: PCT/KR2020/011169
Authority: WO
Inventors: 노철균; 이성령; 민예린; 르팜투옌
Original assignee: 주식회사 애자일소다
Priority date: 2020-05-22
Filing date: 2020-08-21
Publication date: 2021-11-25
Also published as: US20230206079A1; JP7387953B2; KR102169876B1; JP2022537846A

Abstract

조건부 에피소드 구성을 이용한 강화학습 장치 및 방법을 개시한다. 본 발명은 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 함으로써, 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있다. [대표도] 도 2

Description

조건부 에피소드 구성을 이용한 강화학습 장치 및 방법

본 발명은 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있도록 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 하는 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법에 관한 것이다.

강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.

이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.

즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.

또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.

도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.

즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.

환경(20)은 에이전트(10)가 취할 수 있는 행동, 그에 따른 보상 등 모든 규칙으로서, 상태, 액션, 보상 등은 모두 환경의 구성요소이고, 에이전트(10) 이외의 모든 정해진 것들이 환경이다.

한편, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생하므로, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 된다.

그러나, 종래 기술에 따른 강화 학습 장치는 주어진 환경에서 명확하게 정해진 행동에 대한 경우의 수와 사전에 정의된 환경의 목표를 푸는 방향으로만 사용해야 한다는 한계를 가지고 있다.

즉, 강화 학습에서 많이 적용하는 게임과 같이 환경이 명확한 경우에는 보상이 게임 스코어로 확정되어 있지만, 실제 사업(비즈니스)환경은 그렇지 않기 때문에 강화 학습을 위해서 보상을 별도로 설정해야만 하는 문제점이 있다.

또한, 종래 기술에 따른 강화 학습 장치는 사업(비즈니스) 문제의 적용시 명확하게 다음 상태라고 정의할 수 없는(연속성이 없는) 데이터에 대한 에피소드를 정의하는 것은 매우 어려운 문제점이 있다.

여기서, 에피소드는 초기 상태(State)부터 마지막 상태(State)까지의 궤적(trajectory)을 의미하는 것으로, 예를 들어 게임에서는 '게임 시작'부터 '게임 종료'까지의 궤적을 에피소드라고 볼 수 있다.

더욱 구체적으로는 캐릭터가 행동을 하고 하나의 상태(State)를 끝낸 후 다음 상태로 넘어가는 것을 반복하다가 죽었을 때까지의 궤적을 에피소드라고 할 수 있고, 이때의 에피소드는 캐릭터가 죽기 전까지 취하게 된 상태, 행동, 보상의 과정을 모아놓은 궤적이다.

그러나, 실제 비즈니스에서는 해당 상태와 다음 상태의 연속성이 없는 경우가 많고, 이때 정해진 종료 상태가 없기 때문에 별도로 종료 상태를 정의하지 않으면, 에이전트를 학습시킬 수 없는 문제점이 있다.

또한, 종료 상태가 정의되었다 해도, N개의 스텝으로 이루어진 에피소드를 처음부터 끝까지 모두 처리한 결과 값을 찾는 경우에도, 학습을 시키면 시킬수록 시간이 기하급수적으로 늘어나는 문제점이 있다.

또한, 상태와 보상에 대한 관계를 고려하지 않고 N개의 스텝으로 일괄되게 에피소드를 유지해서 학습시키게 되면, 에이전트가 새로운 상태에서 액션을 취할 때 과적합(Overfitting)으로 인한 잘못된 액션을 하는 경우가 발생할 수 있다.

이러한 문제점을 해결하기 위하여, 본 발명은 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있도록 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 하는 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 조건부 에피소드 구성을 이용한 강화학습 장치로서, 상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하고, 상기 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하고, 상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하여 에이전트로 제공하는 조건부 에피소드 구성부; 및 상기 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 액션(Action)을 결정하는 강화학습 에이전트를 포함한다.

또한, 상기 실시 예에 따른 에피소드는 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 상기 에피소드의 종료 시점을 설정하고, 상기 에피소드의 종료 시점은 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나인 것을 특징으로 한다.

또한, 상기 실시 예에 따른 조건부 에피소드 구성부는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 추출하는 샘플링부; 상기 추출된 상태 중에서 임의의 T개에 대하여 에피소드가 종료되는 조건을 설정하되, 상기 N은 추출된 복수의 상태 수 보다 작거나 또는 같은 수가 되도록 설정하는 조건 설정부; 및 상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하는 에피소드 설정부;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 강화학습 에이전트는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 강화 학습하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가하는 방향이고, 하기식으로 정의될 수 있다.

여기서,

는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, a_t는 액션, s_t는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합이다.

또한, 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 방법은 a) 조건부 에피소드 구성부가 상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하는 단계; b) 상기 조건부 에피소드 구성부가 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하는 단계; c) 상기 조건부 에피소드 구성부가 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하여 설정하는 단계; 및 d) 강화학습 에이전트가 상기 설정된 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 학습하여 액션(Action)을 결정하는 단계;를 포함한다.

또한, 상기 실시 예에 따른 b) 단계의 조건부 에피소드 구성부는 에피소드가 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나를 에피소드의 종료 시점으로 설정하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 d) 단계의 강화학습 에이전트는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가하는 방향이고, 하기식으로 정의되는 것을 특징으로 한다.

여기서,

본 발명은 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 함으로써, 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있는 장점이 있다.

또한, 본 발명은 명확하게 다음 상태라고 정의할 수 없는(연속성이 없는) 데이터에 대한 에피소드를 구성함으로써, 카드, 여신 등의 비즈니스 의사 결정 분야에서 부여된 조건을 만족하지 못하면, 다른 방향으로 학습하는 것을 차단하여 의도하지 않은 강화 학습을 방지할 수 있는 장점이 있다.

또한, 본 발명은 에피소드를 조건에 의해 정의함으로써, 보상을 산출하는 과정에서 현재 가치화 하는 범위가 결정될 수 있고, 샘플링된 N개 내에서 조건을 만족할 때 까지를 에피소드로 자동 정의함으로써, 즉 조건을 만족하지 않으면 에피소드 종료, 조건을 통해 사용자가 원하는 방향으로 제어할 수 있는 장점이 있다.

또한, 본 발명은 에피소드에서 강화학습 에이전트의 초기 상태는 랜덤하게 샘플링되고, 상호작용은 환경이 조건을 만족하는 것까지 도달할 때까지 진행됨으로써, 에피소드당 총 보상 예상치를 최대화하고, 최대한 적은 수의 에피소드에서 높은 수준의 성과를 달성할 수 있는 장점이 있다.

도 1은 일반적인 강화 학습 장치의 구성을 나타낸 블록도.

도 2는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치를 개략적으로 나타낸 블록도.

도 3은 도 2의 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 조건부 구성을 나타낸 블록도.

도 4는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 학습 방법을 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법의 바람직한 실시 예를 상세하게 설명한다.

도 2는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치를 개략적으로 나타낸 블록도이고, 도 3은 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 구성을 나타낸 블록도이다.

도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치는 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 액션을 결정하는 조건부 에피소드 구성부(100)와, 강화학습 에이전트(200)를 포함하여 구성된다.

조건부 에피소드 구성부(100)는 임의의 데이터로 이루어진 데이터 세트에서 T개에 대하여 조건을 설정하고, 상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하여 강화학습 에이전트(200)로 제공하는 구성으로서, 샘플링부(110)와, 조건 설정부(120)와, 에피소드 설정부(130)를 포함하여 구성된다.

샘플링부(110)는 데이터 세트, 예를 들면, 금융 사기 데이터, 카드 중복 결제 데이터, 손실률 데이터, 수익률 데이터, 한도 소진률 데이터 등 상태의 단위가 W개 존재하는 다양한 데이터들의 세트에서 샘플링을 통해 복수의 상태(State)를 N개 추출하는 구성으로서, 일정 개수의 상태를 랜덤으로 추출한다.

여기서, 추출되는 상태의 개수 'N'은 'W'보다 작거나 같은 수(N≤W)가 되도록 설정할 수 있다.

조건 설정부(120)는 샘플링부(110)에서 추출된 복수의 상태 중에서 T개를 선택하고, 선택된 T개에 대하여 에피소드가 종료되는 임의의 조건이 설정되도록 한다.

또한, 조건 설정부(120)는 미리 설정된 개수, 또는 사용자의 설정에 따라 T의 개수를 설정할 수 있다.

또한, 선택되는 'T'의 개수는 샘플링부(110)에서 추출된 복수의 상태(State) 개수 'N'보다 작거나 또는 같은 수(T≤N)가 되도록 설정할 수도 있다.

여기서, 조건 설정부(120)는 에피소드의 종료와 관련된 조건으로서, 분류의 문제인 경우, 잘못된 예측을 수행하면 에피소드를 종료하는 조건, 특정 임계치를 초과하면 에피소드를 종료하는 조건 등을 설정할 수 있다.

또한, 조건 설정부(120)는 현재 단계에서의 보상 값이 작은 경우 에피소드를 종료하는 조건 등을 설정할 수 있다.

즉, 조건 설정부(120)는 미리 정해진 조건을 통해 에피소드의 종료 시점을 설정할 수 있는데, 에피소드의 종료 시점은 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 등 다양하게 설정될 수 있다.

에피소드 설정부(130)는 조건 설정부(120)에서 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하고, 이후 강화학습 에이전트(200)의 훈련 또는 학습을 통해 임시 에피소드의 스텝 중에서 조건을 만족하는 스텝을 추출하여 에피소드를 구성한다.

즉, 에피소드 설정부(130)가 에피소드를 조건 설정부(120)의 조건에 의해 정의하는 경우, 보상이 계산될 때 현재 가치화하는 범위가 정해지게 됨으로써, 에피소드가 유동적으로 변경될 수 있다.

따라서, 에피소드 설정부(130)는 조건 설정부(120)에서 T개의 스텝으로 이루어진 에피소드를 임시 에피소드로 설정하여 강화학습 에이전트(200)로 제공하고, 강화학습 에이전트(200)의 훈련 또는 학습을 수행하여 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 통해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성한다.

이러한 조건 설정을 통한 에피소드 설정부(130)의 에피소드 설정을 이용하여 사용자가 원하는 방향으로 훈련 및 학습할 수 있도록 하여 불필요한 방향으로 학습하는 것을 배제할 수 있도록 한다.

강화학습 에이전트(200)는 임의의 강화학습 모델이 설치된 상태에서, 조건부 에피소드 구성부(100)로부터 입력되는 에피소드에 기반하여 강화학습을 수행하며, 강화학습을 통해 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 액션(Action)을 결정한다.

즉, 강화학습 에이전트(200)는 제공되는 에피소드에 기반하여 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습한다.

이를 더욱 상세하게 설명하면, 예를 들어 샘플링을 통해 100개의 스텝을 추출하고, 추출된 100개의 스텝에 대하여 에피소드가 종료되는 임의의 조건이 설정되면 T = 100개의 스텝으로 정의된 에피소드가 구성될 수 있다.

이후, 강화학습 에이전트(200)가 학습을 수행하는 과정에서 임의의 스텝이 조건을 만족하지 못하면, 학습을 종료하고 그때까지의 학습 내용을 반영해서 업데이트하며, 다음 에피소드를 업데이트된 에이전트가 학습을 수행한다.

여기서, 설정된 조건을 통해 예를 들면 60%만 맞고 학습을 종료한 경우, 에이전트는 나머지 40%를 맞추기 위해 학습이 개선되는 방향, 즉 보상의 총합이 최대화하는 방향으로 학습이 수행될 수 있다.

따라서, 추출된 샘플링의 개수를 미리 정해진 조건이 설정된 스텝 T의 개수로 설정하고, 학습이 잘 이루어져 T까지 갈 경우 보상이 최대화 될 수 있다.

한편, 보상의 총합이 최대화되는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이고, 하기식으로 정의될 수 있다.

여기서,

또한, 보상은 에피소드에서 T개의 스텝에서 얻는 보상의 합으로 이루어지게 된다.

또한, 보상함수 Gt = R(s_t, a_t) + ΓR(s_t+1, a_t+1) + Γ²R(s_t+2, a_t+2) + … + Γ^TR(s_T, a_T), 이고, Γ∈[0, 1] 이다.

여기서, Γ는 보상의 현재 가치화와 관련된 계수로서, 0에 가까울수록 미래보다 현재의 결정 스텝의 보상을 중요시하고, 1에 가까울수록 모든 결정 스텝 보상을 동일한 가중치로 중요시하게 된다.

다음은 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 방법을 설명한다.

도 4는 본 발명의 일 실시 예에 따른 조건부 에피소드 구성을 이용한 강화학습 장치의 학습 방법을 나타낸 흐름도이다.

도 2 내지 도 4를 참조하여 설명하면, 조건부 에피소드 구성부(100)가 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State) 데이터를 추출(S100)한다.

S100 단계에서, 조건부 에피소드 구성부(100)는 상태의 단위가 W개 존재하는 다양한 데이터들의 세트에서 샘플링을 통해 랜덤으로 복수의 상태(State)를 N개 추출한다.

여기서, 추출되는 상태의 개수 'N'은 'W'보다 작거나 같은 수(N≤W)이다.

조건부 에피소드 구성부(100)가 S100 단계에서 추출된 복수의 상태 중에서 임의의 T개를 선택하고, 선택된 T개에 대하여 조건을 설정(S200)한다.

또한, S200 단계서 조건부 에피소드 구성부(100)는 미리 설정된 개수, 또는 사용자의 설정에 따라 T의 개수를 설정할 수도 있다.

또한, S200 단계에서 조건부 에피소드 구성부(100)는 선택되는 'T'의 개수가 S100 단계에서 추출된 복수의 상태(State) 개수 'N'보다 작거나 또는 같은 수(T≤N)가 되도록 설정할 수도 있다.

또한, S200 단계에서 조건부 에피소드 구성부(100)는 에피소드의 종료와 관련된 조건으로서, 분류의 문제인 경우, 잘못된 예측을 수행하면 에피소드를 종료하는 조건, 특정 임계치를 초과하면 에피소드를 종료하는 조건 등을 설정할 수 있다.

또한, 현재 단계에서의 보상 값이 작은 경우 에피소드를 종료하는 조건을 다양하게 설정할 수 있다.

계속해서, 조건부 에피소드 구성부(100)는 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 설정하는 단계(S300)를 수행한다.

또한, S300 단계에서 조건부 에피소드 구성부(100)는 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하고, 이후 강화학습 에이전트(200)의 훈련 또는 학습을 통해 임시 에피소드의 스텝 중에서 조건을 만족하는 스텝을 추출하여 에피소드를 구성할 수 있다.

즉, S300 단계에서 조건부 에피소드 구성부(100)는 에피소드를 조건에 의해 정의하는 경우, 보상을 계산할 때 현재 가치화하는 범위가 정해지게 됨으로써, 에피소드가 유동적으로 변경될 수 있고, 이에 따라, T개의 스텝으로 이루어진 에피소드를 임시 에피소드로 설정하여 강화학습 에이전트(200)로 제공한다.

또한, S300 단계는 조건부 에피소드 구성부(100)가 강화학습 에이전트(200)의 훈련 또는 학습을 수행하여 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성한다.

S300 단계에서 구성된 에피소드는 강화학습 에이전트(200)로 제공되고, 강화학습 에이전트(200)는 설정된 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 강화학습을 수행(S400)하여 액션(Action)을 결정한다.

또한, S400 단계에서 강화학습 에이전트(200)는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습하고, 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이며, 하기식으로 정의될 수 있다.

여기서,

또한, 보상은 에피소드에서 T개의 스텝에서 얻는 보상의 합으로 이루어지게 되고, 보상함수 Gt = R(s_t, a_t) + ΓR(s_t+1, a_t+1) + Γ²R(s_t+2, a_t+2) + … + Γ^TR(s_T, a_T), 이고, Γ∈[0, 1]로 구성될 수 있다.

하기의 표는 UCI(University of California)에서 공개한 22% 사기 거래를 포함하고 있는 실제 신용카드 거래 데이터를 이용하여 각 에피소드 정의 별 성능 실험한 결과이다.

실험에서 표 1은 F-1 측정, 보상(Reward), 손실금액 3가지를 측정한 성능 비교표이다.

또한, 특정 조건을 기준으로 에피소드를 구성하여 강화학습 에이전트가 사기 건에 대하여 잘못된 행동을 하였을 때까지를 에피소드 종료 조건으로 하여 하나의 에피소드로 정의했다.

즉, SL(Supervised Learning)은 지도학습을 의미하고, One-step은 One-STEP 방법을 의미하며, N-step은 전체 배치 크기(사이즈)를 에피소드로 사용한 N-STEP 방법을 의미하고, FALSE는 조건이 설정된 스텝에서 강화학습 에이전트가 잘못된 행동을 하였을 때까지를 하나의 에피소드로 정의하였으며, FN(False Negative)은 조건이 설정된 스텝에서 강화학습 에이전트가 사기 건에 대하여 잘못된 행동을 하였을 때까지를 하나의 에피소드로 정의하였다.

에피소드 정의	F1	보상	비용(million)
SL	0.450	0.315	140.0
One-step, Γ= 0.0	0.516	0.512	100.0
One-step, Γ= 0.5	0.517	0.527	95.0
One-step, Γ= 0.9	0.519	0.535	92.2
One-step, Γ= 0.99	0.516	0.508	101.3
N-step, Γ= 0.0	0.519	0.529	94.2
N-step, Γ= 0.5	0.515	0.507	102.3
N-step, Γ= 0.9	0.519	0.519	97.8
N-step, Γ= 0.99	0.519	*0.538*	92.2
FALSE, Γ= 0.0	*0.521*	0.525	98.1
FALSE, Γ= 0.5	0.518	0.535	92.6
FALSE, Γ= 0.9	0.517	0.516	100.2
FALSE, Γ= 0.99	0.518	0.532	94.3
FN, Γ= 0.0	*0.520*	0.526	95.6
FN, Γ= 0.5	*0.520*	0.524	98.3
FN, Γ= 0.9	*0.521*	0.537	93.9
FN, Γ= 0.99	*0.520*	*0.550*	*86.9*

여기서, 높은 성능에 해당하는 수치는 굵은 숫자로 강조하였고, 손실금액은 낮은 값일수록 좋은 성능을 의미한다.상기 표에서 알 수 있는 바와 같이, 강화학습 에이전트가 특정 조건, 예를 들어 1회도 틀리면 안되는 것을 조건으로 에피소드를 구성한 FALSE와, 1회도 틀리면 안되는데 사기 건을 틀리면 안되는 것을 조건으로 에피소드를 구성한 FN에 대하여 좋은 성능을 나타냈고, 특히 FN 에피소드 실험이 가장 좋은 성능을 보여주고 있다.

따라서, 개별 의사결정에 대하여 조건을 부여하고, 부여된 조건을 만족하지 못하면 에피소드를 종료하여 현재 가치를 반영한 보상의 합이 최대화되도록 함으로써, 연속성이 없는 상태를 이용하는 문제에서도 쉽게 강화 학습을 적용할 수 있다.

또한, 명확하게 다음 상태라고 정의할 수 없는(연속성이 없는) 데이터에 대한 에피소드를 구성함으로써, 카드, 여신 등의 비즈니스 의사 결정 분야에서 부여된 조건을 만족하지 못하면, 다른 방향으로 학습하는 것을 차단하여 의도하지 않은 강화 학습을 방지할 수 있다.

또한, 에피소드를 조건에 의해 정의함으로써, 보상을 산출하는 과정에서 현재 가치화 하는 범위가 결정될 수 있고, 샘플링된 N개 내에서 조건을 만족할 때 까지를 에피소드로 자동 정의함으로써, 즉 조건을 만족하지 않으면 에피소드 종료, 조건을 통해 사용자가 원하는 방향으로 강화학습을 제어할 수 있다.

또한, 에피소드에서 강화학습 에이전트의 초기 상태는 랜덤하게 샘플링되고, 상호작용은 환경이 조건을 만족하는 것까지 도달할 때까지 진행됨으로써, 에피소드당 총 보상 예상치를 최대화하고, 최대한 적은 수의 에피소드에서 높은 수준의 성과를 달성할 수 있다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

[부호의 설명]

100 : 조건부 에피소드 구성부

110 : 샘플링부

120 : 조건 설정부

130 : 에피소드 설정부

200 : 강화학습 에이전트

300 : 환경

Claims

상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하되,

상기 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하고,

보상을 계산할 때 현재 가치화하는 범위가 정해지게 되어 에피소드가 유동적으로 변경될 수 있도록 에피소드를 상기 조건에 정의하며,

상기 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하여 강화학습 에이전트(200)로 제공하고,

상기 임시 에피소드의 스텝 중에서 상기 강화학습 에이전트(200)의 학습을 통해 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성하는 조건부 에피소드 구성부(100); 및

상기 조건부 에피소즈 구성부(100)로부터 입력되는 에피소드에 기반하여 T개의 스텝으로부터 얻는 보상(Reward)의 합이 최대화되도록 액션(Action)을 결정하는 강화학습 에이전트(200)를 포함하는 조건부 에피소드 구성을 이용한 강화학습 장치.
제 1 항에 있어서,

상기 에피소드는 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 상기 에피소드의 종료 시점을 설정하되,

상기 에피소드의 종료 시점은 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나인 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
제 1 항에 있어서,

상기 조건부 에피소드 구성부(100)는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 추출하는 샘플링부(110);

상기 추출된 상태 중에서 임의의 T개에 대하여 에피소드가 종료되는 조건을 설정하되, 상기 T는 추출된 복수의 상태 수 보다 작거나 또는 같은 수가 되도록 설정하는 조건 설정부(120); 및

상기 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 구성하되,

보상을 계산할 때 현재 가치화하는 범위가 정해지게 되어 에피소드가 유동적으로 변경될 수 있도록 에피소드를 상기 조건에 정의하며, 상기 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 에피소드를 기반으로 임시 에피소드를 구성하여 강화학습 에이전트(200)로 제공하고, 상기 임시 에피소드의 스텝 중에서 상기 강화학습 에이전트(200)의 학습을 통해 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성하는 에피소드 설정부(130);를 포함하는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
제 1 항에 있어서,

상기 강화학습 에이전트(200)는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 강화 학습하는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
제 4 항에 있어서,

상기 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이고, 하기식

- 여기서,
는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, a_t는 액션, s_t는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합 임 - 으로 정의되는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 장치.
a) 조건부 에피소드 구성부(100)가 상태의 단위가 W개 존재하는 임의의 데이터 세트에서 샘플링을 통해 복수의 상태(State)를 N(≤W)개 추출하는 단계;

b) 상기 조건부 에피소드 구성부(100)가 추출된 상태 중에서 임의의 T(≤N)개에 대하여 에피소드가 종료되는 조건을 설정하는 단계;

c) 상기 조건부 에피소드 구성부(100)가 보상을 계산할 때 현재 가치화하는 범위가 정해지게 되어 에피소드가 유동적으로 변경될 수 있도록 에피소드를 상기 조건에 정의하고, 에피소드가 종료되는 조건이 설정된 T개의 스텝으로 정의되는 임시 에피소드를 구성하여 설정하는 단계;

d) 강화학습 에이전트(200)가 상기 설정된 임시 에피소드에 기반하여 T개의 스텝에서 얻는 보상(Reward)의 합이 최대화되도록 학습하여 액션(Action)을 결정하는 단계; 및

e) 상기 조건부 에피소드 구성부(100)는 상기 강화학습 에이전트(200)의 학습을 통해 T개의 스텝 중에서 상태, 액션 및 보상에 대한 조건을 만족하지 못해 에피소드가 종료되면, 조건을 만족하여 학습이 잘 이루어진 현재까지의 스텝을 기반으로 보상의 합이 최대화될 수 있도록 에피소드를 자동으로 정의하여 재구성하는 단계;를 포함하는 조건부 에피소드 구성을 이용한 강화학습 방법.
제 6 항에 있어서,

상기 b) 단계의 조건부 에피소드 구성부(100)는 에피소드가 T개의 스텝에서 상태, 액션 및 보상에 대한 조건을 통해 잘못된 예측, 특정 임계치 초과, 현재 단계의 보상 값이 작은 경우 중 어느 하나를 에피소드의 종료 시점으로 설정하는 것을 특징으로 조건부 에피소드 구성을 이용한 강화학습 방법.
제 6 항에 있어서,

상기 d) 단계의 강화학습 에이전트(200)는 에피소드의 종료 시점까지 현재 가치화 된 보상의 총합을 최대화하는 방향으로 학습하는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 방법.
제 8 항에 있어서,

상기 보상의 총합이 최대화하는 방향은 강화 학습의 목적 함수에 대한 폴리시 그레디언트(Policy Gradient)가 누적 보상을 증가시키는 방향이고, 하기식

- 여기서,
는 폴리시 그레디언트, π는 가장 큰 보상을 줄 수 있는 정책, θ는 뉴럴넷의 계수(또는 모델 파라미터), T는 조건이 설정된 스텝의 개수, a_t는 액션, s_t는 상태, G(H)는 하나의 에피소드에서 현재 가치화된 보상들의 총합 임 - 으로 정의되는 것을 특징으로 하는 조건부 에피소드 구성을 이용한 강화학습 방법.