KR102195433B1 - 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법 - Google Patents

학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법 Download PDF

Info

Publication number
KR102195433B1
KR102195433B1 KR1020200042337A KR20200042337A KR102195433B1 KR 102195433 B1 KR102195433 B1 KR 102195433B1 KR 1020200042337 A KR1020200042337 A KR 1020200042337A KR 20200042337 A KR20200042337 A KR 20200042337A KR 102195433 B1 KR102195433 B1 KR 102195433B1
Authority
KR
South Korea
Prior art keywords
metric
rate
value
standardized
action
Prior art date
Application number
KR1020200042337A
Other languages
English (en)
Inventor
차용
노철균
이권열
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to KR1020200042337A priority Critical patent/KR102195433B1/ko
Application granted granted Critical
Publication of KR102195433B1 publication Critical patent/KR102195433B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)

Abstract

학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법을 개시한다. 본 발명은 임의의 환경(Environment, 200)에서 현재의 상태(state)에 따라 선택 가능한 액션(Action)에 대한 보상(Reward)이 최대화되도록 에이전트(Agent, 100)가 강화 학습 모델을 학습하되, 각 액션에 대해서 전체 변동률 대비 개별 액션에 따라 변동되는 전체 변동률과의 차이를 상기 에이전트(100)의 보상으로 제공하는 것을 특징으로 한다.

Description

학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법{DATA-BASED REINFORCEMENT LEARNING DEVICE AND METHOD LINKING LEARNING GOALS AND REWARDS}
본 발명은 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법에 관한 것이다.
강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.
이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.
즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.
또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.
도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.
즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.
또한, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생하므로, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 된다.
그러나, 종래 기술에 따른 강화 학습 장치는 주어진 환경에서 목표 달성과 관련되어 획일적으로 결정되는 보상에 기초하여 학습을 진행함으로써, 목표를 이루기 위해 하나의 행동 패턴을 가질 수 밖에 없는 문제점이 있다.
또한, 종래 기술에 따른 강화 학습 장치는 액션에 대한 보상 점수를 예를 들면, 맞으면 +1점, 틀리면 -2점과 같이 획일적으로 결정되는 보상 점수를 부여함으로써, 학습 결과를 보면서 적정한 보상 값을 지정해야만 하는 과정이 요구되어 경우에 따라서는 막대한 시간과 컴퓨팅 리소스가 소비되는 문제점이 있다.
즉, 강화 학습에서 많이 적용하는 게임과 같이 환경이 명확한 경우에는 보상이 게임 스코어로 확정되어 있지만, 실제 사업(비즈니스)환경은 그렇지 않기 때문에 강화 학습을 위해서 보상을 별도로 설정해야만 하는 문제점이 있다.
한국 등록특허공보 등록번호 제10-1990326호(발명의 명칭: 감가율 자동 조정방식의 강화학습 방법)
이러한 문제점을 해결하기 위하여, 본 발명은 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치로서, 임의의 매트릭(Metric)이 전체 평균 보다 높은 케이스 1과, 매트릭이 전체 평균과 대비하여 변동이 없는 케이스 2와, 매트릭이 전체 평균 보다 낮은 케이스 3으로 구분되고, 각 케이스에서 현재 한도 유지(stay), 현재 한도 대비 일정 값 증액(up), 현재 한도 대비 일정 값 감액(down)된 개별 데이터별로 매트릭이 최적화 되도록 액션을 결정하는 에이전트; 및 상기 에이전트로부터 결정된 개별 데이터의 액션에 대하여 산출되는 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 산출하고, 산출된 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 상기 에이전트의 각 액션에 대한 보상(Reward)으로 제공하는 보상 제어부;를 포함한다.
또한, 상기 실시 예에 따라 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 매트릭은 복수의 매트릭을 포함하고, 개별 매트릭에 대하여 일정 크기의 웨이트 값 또는 서로 다른 웨이트 값이 설정되며, 상기 설정된 개별 매트릭의 웨이트 값에 표준화된 변동 값을 산출하여 최종 보상을 결정하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 매트릭은 수익률, 한도 소진율 및 손실율 중 적어도 하나인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 최종 보상은 하기식
(웨이트 1*표준화된 수익률의 변동값)+(웨이트 2*표준화된 한도 소진률의 변동값)-(웨이트 3*표준화된 손실률의 변동값)으로부터 결정되는 것을 특징으로 한다.
또한, 본 발명에 따른 일 실시 예는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법으로서, a) 에이전트가 임의의 매트릭(Metric) 전체 평균 보다 높은 케이스 1과, 매트릭이 전체 평균과 대비하여 변동이 없는 케이스 2와, 매트릭이 전체 평균 보다 낮은 케이스 3으로 구분되고, 각 케이스에서 현재 한도 유지(stay), 현재 한도 대비 일정 값 증액(up), 현재 한도 대비 일정 값 감액(down)된 개별 데이터별로 매트릭이 최적화 되도록 액션을 결정하는 단계; b) 보상 제어부가 에이전트로부터 결정된 개별 데이터의 액션에 대하여 산출되는 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 산출하는 단계; 및 c) 상기 보상 제어부가 산출된 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 상기 에이전트의 각 액션에 대한 보상으로 제공하는 단계;를 포함한다.
또한, 상기 실시 예에 따라 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 매트릭은 복수의 매트릭을 포함하고, 개별 매트릭에 대하여 일정 크기의 웨이트 값 또는 서로 다른 웨이트 값이 설정되며, 상기 설정된 개별 매트릭의 웨이트 값에 표준화된 변동 값을 산출하여 최종 보상을 결정하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 매트릭은 수익률, 한도 소진율 및 손실율 중 적어도 하나인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 최종 보상은 하기식
(웨이트 1*표준화된 수익률의 변동값)+(웨이트 2*표준화된 한도 소진률의 변동값)-(웨이트 3*표준화된 손실률의 변동값)으로부터 결정되는 것을 특징으로 한다.
본 발명은 모델의 학습 시 반영되는 한도 소진률 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의로 부여하고 학습 결과를 보고 재조정하는 작업과정을 생략할 수 있는 장점이 있다.
또한, 본 발명은 강화 학습을 통한 모델의 개발 기간을 단축시키고, 강화 학습에 요구되는 시간을 감소시키며, 컴퓨팅 리소스를 절약할 수 있는 장점이 있다.
또한, 본 발명은 강화 학습의 목표와 보상이 연계되어 보상 점수에 대한 직관적인 이해가 가능한 장점이 있다.
또한, 본 발명은 보상이 비즈니스의 임팩트 척도로 이해될 수 있어서, 강화 학습의 작용 전과 후의 효과를 정량적으로 비교 및 판단할 수 있는 장점이 있다.
도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도.
도 2는 본 발명의 일 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치의 구성을 나타낸 블록도.
도 3은 본 발명의 일 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법을 설명하기 위한 흐름도.
도 4는 도 3의 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법을 설명하기 위한 예시도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도 2는 본 발명의 일 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치의 구성을 나타낸 블록도이다.
도 2에 나타낸 바와 같이, 본 발명의 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치는 임의의 환경(Environment, 200)에서 현재의 상태(state)에 따라 선택 가능한 액션(Action)에 대한 보상(Reward)이 최대화되도록 에이전트(Agent, 100)가 강화 학습 모델을 학습하고, 각 액션에 대해서 전체 변동률 대비 개별 액션에 따라 변동되는 전체 변동률과의 차이를 에이전트(100)의 보상으로 제공할 수 있도록 보상 제어부(300)를 포함하여 구성된다.
에이전트(100)는 주어진 특정 환경(200)에서 현재의 상태에 따라 선택 가능한 액션에 대한 보상이 최대화되도록 강화 학습 모델을 학습한다.
강화 학습은 특정 목표(Metric)를 설정하게 되면, 설정된 목표를 달성하기 위한 학습의 방향이 설정된다.
예를 들어, 목표가 수익률을 극대화하기 위한 에이전트를 생성하고 싶다면, 강화 학습은 학습을 통해 여러가지 상태(State)와, 액션(Action)에 따른 보상(Reward)를 고려하여 수익률을 높게 달성할 수 있는 최종 에이전트를 생성한다.
즉, 수익률의 최대화(또는 극대화)는 강화 학습을 통해 에이전트(100)가 달성하고자 하는 궁극적인 목표(Metric)이다.
이를 위해, 임의의 시점 t에 에이전트(100)는 자신의 상태 St와 가능한 액션 At를 가지고 있고, 여기서, 에이전트(100)는 어떤 행동을 취하고, 환경(200)으로부터 새로운 상태 St+1과 보상을 받는다.
이러한 상호 작용에 기반하여 에이전트(100)는 주어진 환경(200)에서 누적된 보상값을 최대화하는 정책(Policy)를 학습한다.
보상 제어부(300)는 에이전트(100)의 학습에 따른 각 액션에 대해서 전체 변동률 대비 개별 액션에 따라 변동되는 전체 변동률과의 차이를 에이전트(100)에 보상으로 제공하는 구성이다.
즉, 보상 제어부(300)는 각 액션에 대해서 해당 매트릭에 대한 전체 변동 대비 개별 변동한 건에 대한 차이를 보상으로 제공하는 보상 함수로서, 에이전트(100)의 학습 내에서 최적의 정책(Optimal Policy)를 찾기 위한 상태에 따른 액션의 피드백으로 보상을 산출하는 보상 학습을 수행한다.
또한, 보상 제어부(300)는 변동 값에 대하여 미리 설정된 표준화한 값으로 변환하여 동일한 단위의 개별 보상 체계를 구성할 수 있다.
또한, 보상 제어부(300)는 강화 학습 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서 획득한 데이터를 기반으로 개별 건의 액션에 의한 변동과 전체의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의로 부여하고 학습 결과를 보고 재조정하는 작업과정을 생략할 수 있다.
또한, 보상 제어부(300)에서 산출되는 변동값은 강화 학습의 목표(Metric)와 보상이 연계(또는 얼라인)되도록 하여 보상 점수가 직관적인 이해될 수 있도록 한다.
다음은 본 발명의 일 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법을 설명한다.
도 3은 본 발명의 일 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법을 설명하기 위한 흐름도이고, 도 4는 도 3의 실시 예에 따른 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법을 설명하기 위한 예시도이다.
도 4는 본 발명의 실시 예를 설명하기 위한 예시일 뿐, 이에 한정되는 것은 아니다.
도 2 및 도 4를 참조하면, 우선, 보상을 정의할 특정 피처(Feature)를 설정(S100)한다.
도 4는 예를 들면, 액션(500)에 대하여 변동률(510)을 현재 한도 유지(stay), 현재 한도 대비 20% 증액(up), 현재 한도 대비 20% 감액(down) 이상 3가지로 정의하고, 전체 평균 보다 높은 케이스 1(400)과, 전체 평균과 대비하여 변동이 없는 케이스 2(400a)와, 전체 평균 보다 낮은 케이스 3(400b)으로 구분한 매트릭(520, 예를 들면 수익률)에 대한 데이터이다.
S100 단계에서는 도 4와 같이 구분된 각 케이스에서 개별 건의 액션 변동에 따른 피처를 설정한다.
본 실시 예에서는 설명의 편의를 위해 보상을 정의할 특정 컬럼을 케이스 1-up 컬럼을 액션으로 설정한 것을 실시 예로 설명한다.
S100 단계를 수행한 다음, 보상 제어부(300)는 에이전트(100)를 통한 강화 학습 모델의 학습을 통해 의사 결정 가능한 액션에 따른 변동 값을 추출(S200)한다.
S200 단계에서는, 예를 들면 전체 평균 보다 높은 케이스 1(400)에서 케이스 1-up 컬럼의 경우 개별 액션에 따른 변동 값인 '1.132%'를 추출한다.
보상 제어부(300)는 케이스 1-up 컬럼의 액션에 대해서 전체 변동률 '1,114%' 대비 추출된 액션에 따른 변동 값 '1.132%와의 차이 값 '0.018'을 산출(S300)한다.
이때, 산출된 값은 표준화를 통해 '0' ~ '1' 사이의 값으로 표준화하여 동일한 단위의 개별 보상 체계를 구성할 수 있다.
S300 단계에서 산출된 차이 값은 보상 제어부(300)가 에이전트(100)에 보상(600)으로 제공(S400)한다.
즉, 개별 건의 액션에 의한 변동에 따른 전체와의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의의로 부여하고, 학습 결과에 따라 재조정하는 과정없이 보상 점수를 제공할 수 있게 된다.
또한, 보상 제어부(300)에서 제공되는 변동 차이와 매트릭(520, 목표)이 연계되어 보상 점수에 대하여 직관적으로 이해될 수 있게 되고, 강화 학습의 적용 전/후의 효과를 정량적으로 비교 및 판단할 수 있게 된다.
한편, 본 실시 예에서는 하나의 매트릭(520), 예를 들면 수익률에 대한 보상을 최종 보상으로 설명하였지만, 이에 한정되는 것은 아니고, 예를 들면, 한도 소진율, 손실률 등 복수의 매트릭에 대하여 최종 보상을 산출할 수도 있다.
즉, 수익률, 한도 소진률, 손실률에 대하여 각각 미리 설정된 웨이트를 부여하고, 부여된 각각의 웨이트에 표준화된 수익률의 변동값, 표준화된 한도 소진률의 변동값, 표준화된 손실률의 변동값을 수식을 이용하여 산출할 수 있다.
수식은 예를 들면, 최종 보상 = (웨이트 1*표준화된 수익률의 변동값)+(웨이트 2*표준화된 한도 소진률의 변동값)-(웨이트 3*표준화된 손실률의 변동값) 등과 같이 미리 설정된 수식을 통해 다양한 방식으로 산출할 수 있다.
따라서, 강화 학습 모델의 학습 시 반영되는 데이터를 실제 비즈니스에서의 데이터를 기반으로 개별 건의 행동에 의한 변동에 따라 전체의 변동 차이를 보상으로 정의하여 제공함으로써, 보상 점수를 임의로 부여하고 학습 결과를 보고 재조정하는 작업과정을 생략할 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
100 : 에이전트(Agent)
200 : 환경(Environment)
300 : 보상 제어부
400 : 케이스 1
400a : 케이스 2
400b : 케이스 3
500 : 액션
510 : 변동률
520 : 매트릭(Matric)
600 : 보상

Claims (8)

  1. 임의의 매트릭(Metric)이 전체 평균 보다 높은 케이스 1(400)과, 매트릭이 전체 평균과 대비하여 변동이 없는 케이스 2(400a)와, 매트릭이 전체 평균 보다 낮은 케이스 3(400b)으로 구분되고, 각 케이스에서 현재 한도 유지(stay), 현재 한도 대비 일정 값 증액(up), 현재 한도 대비 일정 값 감액(down)된 개별 데이터별로 매트릭이 최적화 되도록 액션을 결정하는 에이전트(100); 및
    상기 에이전트(100)로부터 결정된 개별 데이터의 액션에 대하여 산출되는 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 산출하고, 산출된 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 상기 에이전트(100)의 각 액션에 대한 보상(Reward)으로 제공하는 보상 제어부(300);를 포함하되,
    상기 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치.
  2. 제 1 항에 있어서,
    상기 매트릭은 복수의 매트릭을 포함하고, 개별 매트릭에 대하여 일정 크기의 웨이트 값 또는 서로 다른 웨이트 값이 설정되며, 상기 설정된 개별 매트릭의 웨이트 값에 표준화된 변동 값을 산출하여 최종 보상을 결정하는 것을 특징으로 하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치.
  3. 제 2 항에 있어서,
    상기 매트릭은 수익률, 한도 소진율 및 손실율 중 적어도 하나인 것을 특징으로 하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치.
  4. 제 3 항에 있어서,
    상기 최종 보상은 하기식
    (웨이트 1*표준화된 수익률의 변동값)+(웨이트 2*표준화된 한도 소진률의 변동값)-(웨이트 3*표준화된 손실률의 변동값)으로부터 결정되는 것을 특징으로 하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치.
  5. a) 에이전트(100)가 임의의 매트릭(Metric) 전체 평균 보다 높은 케이스 1(400)과, 매트릭이 전체 평균과 대비하여 변동이 없는 케이스 2(400a)와, 매트릭이 전체 평균 보다 낮은 케이스 3(400b)으로 구분되고, 각 케이스에서 현재 한도 유지(stay), 현재 한도 대비 일정 값 증액(up), 현재 한도 대비 일정 값 감액(down)된 개별 데이터별로 매트릭이 최적화 되도록 액션을 결정하는 단계;
    b) 보상 제어부(300)가 에이전트(100)로부터 결정된 개별 데이터의 액션에 대하여 산출되는 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 산출하는 단계; 및
    c) 상기 보상 제어부(300)가 산출된 매트릭의 개별 변동률과 매트릭의 전체 변동률 간의 차이값을 상기 에이전트(100)의 각 액션에 대한 보상으로 제공하는 단계;를 포함하되,
    상기 산출된 차이값은 '0' ~ '1' 사이의 값으로 표준화된 값으로 변환되어 보상으로 제공되는 것을 특징으로 하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법.
  6. 제 5 항에 있어서,
    상기 매트릭은 복수의 매트릭을 포함하고, 개별 매트릭에 대하여 일정 크기의 웨이트 값 또는 서로 다른 웨이트 값이 설정되며, 상기 설정된 개별 매트릭의 웨이트 값에 표준화된 변동 값을 산출하여 최종 보상을 결정하는 것을 특징으로 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법.
  7. 제 6 항에 있어서,
    상기 매트릭은 수익률, 한도 소진율 및 손실율 중 적어도 하나인 것을 특징으로 하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법.
  8. 제 7 항에 있어서,
    상기 최종 보상은 하기식
    (웨이트 1*표준화된 수익률의 변동값)+(웨이트 2*표준화된 한도 소진률의 변동값)-(웨이트 3*표준화된 손실률의 변동값)으로부터 결정되는 것을 특징으로 하는 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 방법.
KR1020200042337A 2020-04-07 2020-04-07 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법 KR102195433B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200042337A KR102195433B1 (ko) 2020-04-07 2020-04-07 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200042337A KR102195433B1 (ko) 2020-04-07 2020-04-07 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020200020602A Division KR102100688B1 (ko) 2020-02-19 2020-02-19 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102195433B1 true KR102195433B1 (ko) 2020-12-28

Family

ID=74086962

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200042337A KR102195433B1 (ko) 2020-04-07 2020-04-07 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102195433B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102416931B1 (ko) * 2021-12-28 2022-07-06 주식회사 애자일소다 반도체 설계 데이터 기반의 물체의 위치 최적화를 위한 강화학습 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100112742A (ko) * 2009-04-10 2010-10-20 경기대학교 산학협력단 강화 학습을 위한 행위-기반 구조
KR101990326B1 (ko) 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법
KR20190069582A (ko) * 2016-11-04 2019-06-19 딥마인드 테크놀로지스 리미티드 보조 작업들을 통한 강화 학습
KR20190076628A (ko) * 2017-12-22 2019-07-02 주식회사 모두의연구소 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100112742A (ko) * 2009-04-10 2010-10-20 경기대학교 산학협력단 강화 학습을 위한 행위-기반 구조
KR20190069582A (ko) * 2016-11-04 2019-06-19 딥마인드 테크놀로지스 리미티드 보조 작업들을 통한 강화 학습
KR20190076628A (ko) * 2017-12-22 2019-07-02 주식회사 모두의연구소 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치
KR101990326B1 (ko) 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102416931B1 (ko) * 2021-12-28 2022-07-06 주식회사 애자일소다 반도체 설계 데이터 기반의 물체의 위치 최적화를 위한 강화학습 장치 및 방법
WO2023128094A1 (ko) * 2021-12-28 2023-07-06 주식회사 애자일소다 반도체 설계 데이터 기반의 물체의 위치 최적화를 위한 강화학습 장치 및 방법

Similar Documents

Publication Publication Date Title
KR102082113B1 (ko) 데이터 기반 강화 학습 장치 및 방법
KR101945863B1 (ko) 시뮬레이션 모듈을 사용하는 컴퓨터-지원 플랜트 제어 최적화를 위한 방법
KR102100688B1 (ko) 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법
CN109491494B (zh) 功率参数的调整方法、装置及强化学习模型训练方法
US9727035B2 (en) Computer apparatus and method using model structure information of model predictive control
KR102195433B1 (ko) 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법
KR20050007189A (ko) 프로세스 제어장치의 조정방법, 그 조정 툴 및 이를사용한 프로세스 제어장치
Heard et al. SAHRTA: A supervisory-based adaptive human-robot teaming architecture
Giannitsarou Supply-side reforms and learning dynamics
KR102100686B1 (ko) 손실률을 낮추기 위한 데이터 기반 강화 학습 장치 및 방법
Benjamin et al. Using simulation for robust system design
Diao et al. A business-oriented approach to the design of feedback loops for performance management
Krupitzer et al. Using spreadsheet-defined rules for reasoning in self-adaptive systems
JP4524683B2 (ja) プラントモデルのパラメータ調整装置
CN111103797B (zh) 基于多变量控制的软件行为调节方法
Tefili et al. Performance improvement for networked control system with nonlinear control action
CA3081276A1 (en) Systems and methods for generating and adjusting recommendations provided on a user interface
US11164077B2 (en) Randomized reinforcement learning for control of complex systems
Vilisov Robot Training under conditions of incomplete information
Bakken et al. The Intuitive vs. Analytic Approach to Real World Problem Solving: Misperception of Dynamics in Military Operations
Kaymaz et al. Optimal PSS design using FDB-based social network search algorithm in multi-machine power systems
Buttar Applying machine learning to reduce the adaptation space in self-adaptive systems: an exploratory work
KR20230036890A (ko) 불균형 데이터를 이용한 인공지능 모델의 연합 학습 방법 및 장치
KR102623899B1 (ko) 블록체인 기반 교육 콘텐츠 공유 플랫폼을 이용한 집단지성 형성 방법과 교수학습자 코인 보상 방법, 서버 및 프로그램
Villa et al. Fair-MPC: a control-oriented framework for socially just decision-making

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant