KR102100688B1

KR102100688B1 - 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법

Info

Publication number: KR102100688B1
Application number: KR1020200020602A
Authority: KR
Inventors: 차용; 노철균; 이권열
Original assignee: 주식회사 애자일소다
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-04-14

Abstract

한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치를 개시한다. 본 발명은 임의의 환경(Environment, 200)에서 현재의 상태(state)에 따라 선택 가능한 액션(Action)에 대한 보상(Reward)이 최대화되도록 에이전트(Agent, 100)가 강화 학습 모델을 학습하되, 각 액션에 대해서 전체 변동률 대비 개별 액션에 따라 변동되는 전체 변동률과의 차이를 상기 에이전트(100)의 보상으로 제공하는 것을 특징으로 한다.

Description

한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법{DATA-BASED REINFORCEMENT LEARNING DEVICE AND METHOD FOR INCREASING LIMIT RUN-OUT RATE}

본 발명은 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공하는 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법에 관한 것이다.

강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.

이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.

즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.

또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.

도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.

즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.

또한, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생하므로, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 된다.

그러나, 종래 기술에 따른 강화 학습 장치는 주어진 환경에서 목표 달성과 관련되어 획일적으로 결정되는 보상에 기초하여 학습을 진행함으로써, 목표를 이루기 위해 하나의 행동 패턴을 가질 수 밖에 없는 문제점이 있다.

또한, 종래 기술에 따른 강화 학습 장치는 액션에 대한 보상 점수를 예를 들면, 맞으면 +1점, 틀리면 -2점과 같이 획일적으로 결정되는 보상 점수를 부여함으로써, 학습 결과를 보면서 적정한 보상 값을 지정해야만 하는 과정이 요구되어 경우에 따라서는 막대한 시간과 컴퓨팅 리소스가 소비되는 문제점이 있다.

즉, 강화 학습에서 많이 적용하는 게임과 같이 환경이 명확한 경우에는 보상이 게임 스코어로 확정되어 있지만, 실제 사업(비즈니스)환경은 그렇지 않기 때문에 강화 학습을 위해서 보상을 별도로 설정해야만 하는 문제점이 있다.

한국 등록특허공보 등록번호 제10-1990326호(발명의 명칭: 감가율 자동 조정방식의 강화학습 방법)

이러한 문제점을 해결하기 위하여, 본 발명은 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공하는 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치로서, 한도 소진률이 전체 평균 보다 높은 케이스 1과, 한도 소진률이 전체 평균과 대비하여 변동이 없는 케이스 2와, 한도 소진률이 전체 평균 보다 낮은 케이스 3으로 구분되고, 각 케이스에서 현재 한도 유지, 현재 한도 대비 20% 증액, 현재 한도 대비 20% 감액된 개별 데이터별로 한도 소진률이 최적화될 수 있도록 액션을 결정하는 에이전트; 및 상기 에이전트로부터 결정된 개별 데이터의 액션에 대하여 산출되는 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 산출하고, 산출된 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 상기 에이전트의 각 액션에 대한 보상으로 제공하는 보상 제어부;를 포함하고, 상기 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 방법은 a) 에이전트가 한도 소진률이 전체 평균 보다 높은 케이스 1과, 한도 소진률이 전체 평균과 대비하여 변동이 없는 케이스 2와, 한도 소진률이 전체 평균 보다 낮은 케이스 3으로 구분되고, 각 케이스에서 현재 한도 유지, 현재 한도 대비 20% 증액, 현재 한도 대비 20% 감액된 개별 데이터별로 한도 소진률이 최적화될 수 있도록 액션을 결정하는 단계; b) 보상 제어부가 에이전트로부터 결정된 개별 데이터의 액션에 대하여 산출되는 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 산출하는 단계; 및 c) 상기 보상 제어부가 산출된 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 상기 에이전트의 각 액션에 대한 보상으로 제공하는 단계;를 포함하되, 상기 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 한다.

본 발명은 모델의 학습 시 반영되는 한도 소진률 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의로 부여하고 학습 결과를 보고 재조정하는 작업과정을 생략할 수 있는 장점이 있다.

또한, 본 발명은 강화 학습을 통한 모델의 개발 기간을 단축시키고, 강화 학습에 요구되는 시간을 감소시키며, 컴퓨팅 리소스를 절약할 수 있는 장점이 있다.

또한, 본 발명은 강화 학습의 목표와 보상이 연계되어 보상 점수에 대한 직관적인 이해가 가능한 장점이 있다.

또한, 본 발명은 보상이 비즈니스의 임팩트 척도로 이해될 수 있어서, 강화 학습의 작용 전과 후의 효과를 정량적으로 비교 및 판단할 수 있는 장점이 있다.

도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도.
도 2는 본 발명의 일 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치의 구성을 나타낸 블록도.
도 3은 본 발명의 일 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 방법을 설명하기 위한 흐름도.
도 4는 도 3의 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 방법을 설명하기 위한 예시도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.

도 2는 본 발명의 일 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치의 구성을 나타낸 블록도이다.

도 2에 나타낸 바와 같이, 본 발명의 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치는 임의의 환경(Environment, 200)에서 현재의 상태(state)에 따라 선택 가능한 액션(Action)에 대한 보상(Reward)이 최대화되도록 에이전트(Agent, 100)가 강화 학습 모델을 학습하고, 각 액션에 대해서 전체 변동률 대비 개별 액션에 따라 변동되는 전체 변동률과의 차이를 에이전트(100)의 보상으로 제공할 수 있도록 보상 제어부(300)를 포함하여 구성된다.

에이전트(100)는 주어진 특정 환경(200)에서 현재의 상태에 따라 선택 가능한 액션에 대한 보상이 최대화되도록 강화 학습 모델을 학습한다.

강화 학습은 특정 목표(Metric)를 설정하게 되면, 설정된 목표를 달성하기 위한 학습의 방향이 설정된다.

예를 들어, 목표가 수익률을 극대화하기 위한 에이전트를 생성하고 싶다면, 강화 학습은 학습을 통해 여러가지 상태(State)와, 액션(Action)에 따른 보상(Reward)를 고려하여 수익률을 높게 달성할 수 있는 최종 에이전트를 생성한다.

즉, 수익률의 최대화(또는 극대화)는 강화 학습을 통해 에이전트(100)가 달성하고자 하는 궁극적인 목표(Metric)이다.

이를 위해, 임의의 시점 t에 에이전트(100)는 자신의 상태 St와 가능한 액션 At를 가지고 있고, 여기서, 에이전트(100)는 어떤 행동을 취하고, 환경(200)으로부터 새로운 상태 St+1과 보상을 받는다.

이러한 상호 작용에 기반하여 에이전트(100)는 주어진 환경(200)에서 누적된 보상값을 최대화하는 정책(Policy)를 학습한다.

보상 제어부(300)는 에이전트(100)의 학습에 따른 각 액션에 대해서 전체 변동률 대비 개별 액션에 따라 변동되는 전체 변동률과의 차이를 에이전트(100)에 보상으로 제공하는 구성이다.

즉, 보상 제어부(300)는 각 액션에 대해서 해당 매트릭에 대한 전체 변동 대비 개별 변동한 건에 대한 차이를 보상으로 제공하는 보상 함수로서, 에이전트(100)의 학습 내에서 최적의 정책(Optimal Policy)를 찾기 위한 상태에 따른 액션의 피드백으로 보상을 산출하는 보상 학습을 수행한다.

또한, 보상 제어부(300)는 변동 값에 대하여 미리 설정된 표준화한 값으로 변환하여 동일한 단위의 개별 보상 체계를 구성할 수 있다.

또한, 보상 제어부(300)는 강화 학습 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서 획득한 데이터를 기반으로 개별 건의 액션에 의한 변동과 전체의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의로 부여하고 학습 결과를 보고 재조정하는 작업과정을 생략할 수 있다.

또한, 보상 제어부(300)에서 산출되는 변동값은 강화 학습의 목표(Metric)와 보상이 연계(또는 얼라인)되도록 하여 보상 점수가 직관적인 이해될 수 있도록 한다.

다음은 본 발명의 일 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 방법을 설명한다.

도 3은 본 발명의 일 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 방법을 설명하기 위한 흐름도이고, 도 4는 도 3의 실시 예에 따른 한도 소진률을 높이기 위한 데이터 기반 강화 학습 방법을 설명하기 위한 예시도이다.

도 4는 본 발명의 실시 예를 설명하기 위한 예시일 뿐, 이에 한정되는 것은 아니다.

도 2 및 도 4를 참조하면, 우선, 보상을 정의할 특정 피처(Feature)를 설정(S100)한다.

도 4는 예를 들면, 액션(500)에 대하여 변동률(510)을 현재 한도 유지(stay), 현재 한도 대비 20% 증액(up), 현재 한도 대비 20% 감액(down) 이상 3가지로 정의하고, 전체 평균 보다 높은 케이스 1(400)과, 전체 평균과 대비하여 변동이 없는 케이스 2(400a)와, 전체 평균 보다 낮은 케이스 3(400b)으로 구분한 매트릭(520, 예를 들면 수익률)에 대한 데이터이다.

S100 단계에서는 도 4와 같이 구분된 각 케이스에서 개별 건의 액션 변동에 따른 피처를 설정한다.

본 실시 예에서는 설명의 편의를 위해 보상을 정의할 특정 컬럼을 케이스 1-up 컬럼을 액션으로 설정한 것을 실시 예로 설명한다.

S100 단계를 수행한 다음, 보상 제어부(300)는 에이전트(100)를 통한 강화 학습 모델의 학습을 통해 의사 결정 가능한 액션에 따른 변동 값을 추출(S200)한다.

S200 단계에서는, 예를 들면 전체 평균 보다 높은 케이스 1(400)에서 케이스 1-up 컬럼의 경우 개별 액션에 따른 변동 값인 '1.132%'를 추출한다.

보상 제어부(300)는 케이스 1-up 컬럼의 액션에 대해서 전체 변동률 '1,114%' 대비 추출된 액션에 따른 변동 값 '1.132%와의 차이 값 '0.018'을 산출(S300)한다.

이때, 산출된 값은 표준화를 통해 '0' ~ '1' 사이의 값으로 표준화하여 동일한 단위의 개별 보상 체계를 구성할 수 있다.

S300 단계에서 산출된 차이 값은 보상 제어부(300)가 에이전트(100)에 보상(600)으로 제공(S400)한다.

즉, 개별 건의 액션에 의한 변동에 따른 전체와의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의의로 부여하고, 학습 결과에 따라 재조정하는 과정없이 보상 점수를 제공할 수 있게 된다.

또한, 보상 제어부(300)에서 제공되는 변동 차이와 매트릭(520, 목표)이 연계되어 보상 점수에 대하여 직관적으로 이해될 수 있게 되고, 강화 학습의 적용 전/후의 효과를 정량적으로 비교 및 판단할 수 있게 된다.

한편, 본 실시 예에서는 하나의 매트릭(520), 예를 들면 수익률에 대한 보상을 최종 보상으로 설명하였지만, 이에 한정되는 것은 아니고, 예를 들면, 한도 소진율, 손실률 등 복수의 매트릭에 대하여 최종 보상을 산출할 수도 있다.

즉, 수익률, 한도 소진률, 손실률에 대하여 각각 미리 설정된 웨이트를 부여하고, 부여된 각각의 웨이트에 표준화된 수익률의 변동값, 표준화된 한도 소진률의 변동값, 표준화된 손실률의 변동값을 수식을 이용하여 산출할 수 있다.

수식은 예를 들면, 최종 보상 = (웨이트 1*표준화된 수익률의 변동값)+(웨이트 2*표준화된 한도 소진률의 변동값)-(웨이트 3*표준화된 손실률의 변동값) 등과 같이 미리 설정된 수식을 통해 다양한 방식으로 산출할 수 있다.

따라서, 강화 학습 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의로 부여하고 학습 결과를 보고 재조정하는 작업과정을 생략할 수 있다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

100 : 에이전트(Agent)
200 : 환경(Environment)
300 : 보상 제어부
400 : 케이스 1
400a : 케이스 2
400b : 케이스 3
500 : 액션
510 : 변동률
520 : 매트릭(Matric)
600 : 보상

Claims

한도 소진률이 전체 평균 보다 높은 케이스 1(400)과, 한도 소진률이 전체 평균과 대비하여 변동이 없는 케이스 2(400a)와, 한도 소진률이 전체 평균 보다 낮은 케이스 3(400b)으로 구분되고, 각 케이스에서 현재 한도 유지(stay), 현재 한도 대비 20% 증액(up), 현재 한도 대비 20% 감액(down)된 개별 데이터별로 한도 소진률이 최적화될 수 있도록 액션을 결정하는 에이전트(100); 및
상기 에이전트(100)로부터 결정된 개별 데이터의 액션에 대하여 산출되는 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 산출하고, 산출된 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 상기 에이전트(100)의 각 액션에 대한 보상으로 제공하는 보상 제어부(300);를 포함하고,
상기 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 하는 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치.
a) 에이전트(100)가 한도 소진률이 전체 평균 보다 높은 케이스 1(400)과, 한도 소진률이 전체 평균과 대비하여 변동이 없는 케이스 2(400a)와, 한도 소진률이 전체 평균 보다 낮은 케이스 3(400b)으로 구분되고, 각 케이스에서 현재 한도 유지(stay), 현재 한도 대비 20% 증액(up), 현재 한도 대비 20% 감액(down)된 개별 데이터별로 한도 소진률이 최적화될 수 있도록 액션을 결정하는 단계;
b) 보상 제어부(300)가 에이전트(100)로부터 결정된 개별 데이터의 액션에 대하여 산출되는 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 산출하는 단계; 및
c) 상기 보상 제어부(300)가 산출된 한도 소진률의 개별 변동률과 한도 소진률의 전체 변동률 간의 차이값을 상기 에이전트(100)의 각 액션에 대한 보상으로 제공하는 단계;를 포함하되,
상기 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 하는 한도 소진률을 높이기 위한 데이터 기반 강화 학습 방법.