KR20190076628A

KR20190076628A - 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치

Info

Publication number: KR20190076628A
Application number: KR1020170178575A
Authority: KR
Inventors: 김승일
Original assignee: 주식회사 모두의연구소
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2019-07-02

Abstract

본 발명에 의하면, 주어진 환경(environment) 안에서 현재의 상태(state)를 인식하여, 선택 가능한 행동들(actions) 중 보상(reward)과 관련된 값을 최대화하도록 행동시키기 위한 강화 학습 에이전트(agent), 및 강화 학습 에이전트에 제공할 보상과 관련된 값을 제어하기 위한 보상 제어기(reward controller)를 포함하는 보상 제어기를 이용한 강화 학습(reinforcement learning) 장치를 제공할 수 있다.

Description

보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치 {METHOD FOR REINFORCEMENT LEARNING USING A REWARD CONTROLLER AND APPARATUS FOR THE SAME}

본 발명은 인공 지능 기술 및 신경망 모델과 관련된 것으로서 새로운 강화 학습(reinforcement learning) 방법 및 관련 장치의 구조에 관한 것이다. 보다 구체적으로, 강화 학습에 행동 패턴이나 성격과 같은 특성(characteristic) 정보를 반영하기 위한 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치에 관한 것이다.

강화 학습은 로봇이나 인공 지능 분야에서 많이 사용되는 것으로서, 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(reward)을 받을지 알아내는 것을 목적으로 하며, 즉 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것이다.

강화 학습의 경우 학습 에이전트는 지도 학습(supervised learning)의 경우와 다르게 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.

그러나, 종래의 강화 학습을 위한 에이전트의 경우 주어진 환경에서 목표 달성과 관련되어 획일적으로 결정되는 보상에 기초하여 학습을 진행하였다. 따라서, 종래의 강화학습 에이전트는 주어진 환경으로부터 정해진 보상을 가감없이 받아들였기 때문에, 목표를 이루기 위해 항상 하나의 행동 패턴을 가질 수 밖에 없었다.

예컨대, 바둑을 예로 든다고 하면, 종래의 강화 학습 에이전트는 두텁게 세를 구축하는 방식을 취하든 또는 실리를 추구하는 방법을 취하든 상관이 없이 무조건 게임을 이기는 것을 목표로 한다. 따라서, 이와 같은 환경에서 에이전트가 자신의 특성, 행동 패턴, 성격과 같은 고유의 속성을 가질 수 없이 철두철미하게, 냉정하게 행동할 수 밖에 없다. 따라서, 종래의 강화 학습 에이전트는 행동과 관련된 행동 패턴이나 성격을 반영하는 것이 불가능하였다.

[특허문헌]

(특허문헌 1) 대한민국 등록특허공보 제10-1624926호

본 발명은 행동 패턴 또는 성격과 같은 고유의 특성을 갖는 강화 학습 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 강화 학습 에이전트가 행동함에 있어 특정 특성, 즉 행동 패턴 또는 성격을 반영하고, 이를 조절할 수 있는 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명은 보상 제어기(reward controller)를 통해 특정 특성, 즉 행동 패턴 또는 성격에 기초하여 변경된 보상을 제공할 수 있는 강화 학습 장치를 포함한 인공지능 시스템을 제공하는 것을 목적으로 한다.

본 발명의 해결 과제들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 보상 제어기를 이용한 강화 학습(reinforcement learning) 장치에 있어서, 주어진 환경(environment) 안에서 현재의 상태(state)를 인식하여, 선택 가능한 행동들(actions) 중 보상(reward)과 관련된 값을 최대화하도록 행동시키기 위한 강화 학습 에이전트(agent); 및 상기 강화 학습 에이전트에 제공할 보상과 관련된 값을 제어하기 위한 보상 제어기(reward controller)를 포함하는 강화 학습 장치를 제공할 수 있다.

여기서, 상기 보상 제어기는 상기 보상과 관련된 값을 변경하기 위한 제어 정보를 이용하도록 구성될 수 있다. 또한, 상기 보상 제어기는 상기 제어 정보에 기초하여 상기 보상과 관련된 값을 출력하도록 구성되며, 상기 제어 정보에 기초하여 출력된 상기 보상과 관련된 값은 상기 주어진 환경 내에서의 생성되는 보상과 관련된 값과 상이한 것일 수 있다.

또한, 상기 제어 정보는 행동과 관련된 특성과 관련된 것일 수 있다. 또한, 상기 보상 제어기는 복수의 제어 정보 중 선택된 하나 이상의 제어 정보를 수신하고, 수신된 제어 정보에 기초하여 상기 주어진 환경 내에서의 생성되는 보상과 관련된 값을 변경하도록 구성될 수 있다.

또한, 상기 보상 제어기는 상기 주어진 환경 안에서의 상태(state)와 관련된 정보를 더 수신하도록 구성될 수 있다. 또한, 상기 제어 정보는 자연어의 형태를 가지며, 상기 보상 제어기는 워드 임베딩(word embedding)을 이용하여 자연어 처리(natural language processing)를 수행할 수 있다. 또한, 상기 보상 제어기에서 출력된 상기 보상과 관련된 값은 임베딩 과정을 통해 벡터화된 형태를 가질 수 있다.

또한, 본 발명에 일 실시예에 따른 강화 학습 장치는 상기 보상과 관련된 값과 연관된 제어 정보를 생성하기 위한 제어 정보 생성부를 더 포함하고, 상기 제어 정보 생성부는 사용자 입력에 기초하여 복수의 특성과 관련된 제어 정보를 생성하도록 구성될 수 있다. 여기서, 상기 제어 정보 생성부는 상기 사용자 입력으로서 복수의 제어 정보를 수신하고, 수신된 복수의 제어 정보에 기초하여 새로운 제어 정보를 생성하도록 구성될 수 있다.

또한, 상기 행동과 관련된 특성은 행동 패턴 또는 성격을 포함할 수 있다.

본 발명에 의하면, 행동 패턴 또는 성격과 같은 고유의 특성을 갖는 강화 학습 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 강화 학습 에이전트가 행동함에 있어 특정 특성, 즉 행동 패턴 또는 성격을 반영하고, 이를 조절할 수 있는 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 보상 제어기(reward controller)를 통해 특정 특성, 즉 행동 패턴 또는 성격에 기초하여 변경된 보상을 제공할 수 있는 강화 학습 장치를 포함한 인공지능 시스템을 제공할 수 있다.

본 발명의 효과들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 종래 기술에 따른 강화 학습 장치의 동작 및 구성을 설명하기 위한 일 예시를 나타낸 개념도이다.
도 2는 본 발명의 일 실시예에 따른 보상 제어기를 이용한 강화 학습 장치의 동작 및 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 보상 제어기의 동작을 설명하기 위한 개념도이다.
도 4a, 도 4b 및 도 4c는 본 발명의 일 실시예에 따른 제어 정보 생성부의 동작을 설명하기 위한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 제어 정보 생성부 및 보상 제어기를 이용한 강화 학습 장치의 동작 및 구성을 설명하기 위한 블록도이다.
도 6은 본 발명의 일 실시예에 따른 제어 보상 제어기를 이용한 강화 학습 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 보상 제어기를 이용한 강화 학습 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

본 명세서에서 사용되는 "포함한다(comprises)", "포함하는(comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 기술되고, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다.

도 1은 종래 기술에 따른 강화 학습 장치의 동작 및 구성을 설명하기 위한 일 예시를 나타낸 개념도이다.

강화 학습이란 에이전트(agent)가 행동(Action) a를 결정하는 방법을 학습시키는 것으로서, 각 행동인 a는 그 다음 상태(State) s에 영향을 끼치며, 성공한 정도는 보상(reward)인 r로 측정할 수 있다. 이와 같이 강화 학습을 통해 에이전트는 미래의 보상이 최대가 되도록 행동을 취하게 하는 것이다.

수식으로 표현하면, 강화 학습 모델은 다음과 같이 구성된다.

1. 환경 상태 집합, S

2. 행동 집합, A

3. 보상(∈ R)의 집합

매 시점 t에 에이전트는 자신의 상태(state) s_t ∈ S 와 가능한 행동(action) A (s_t)를 가지고 있다. 여기서, 에이전트는 어떤 행동 a ∈ A(s_t)을 취하고, 환경으로부터 새로운 상태 s_t+ ₁와 보상 r_t+1을 받는다. 이 상호작용에 기반해서 주어진 환경에서 강화 학습 에이전트는 누적된 보상값인 R을 최대화하는 정책(policy) π: S→A을 개발하게 된다.

도 1을 참조하면, 주어진 특정 환경(110)에서 강화 학습 에이전트(120)는 각 행동(a)에 의해 다음 상태(s)가 결정되고, 환경(110)으로부터 정해진 보상(r)을 가감없이 그대로 받아들이게 된다.

도 2는 본 발명의 일 실시예에 따른 보상 제어기를 이용한 강화 학습 장치의 동작 및 구성을 설명하기 위한 블록도이다.

도 2를 참조하면, 도 1에서의 종래의 강화 학습 장치의 구조와 다르게, 강화 학습 에이전트에 제공할 보상을 제어하기 위한 보상 제어기(reward controller)(130)를 포함하고 있다. 보상 제어기(130)는 보상과 관련된 값을 변경하기 위한 제어(control) 정보를 이용하도록 구성될 수 있으며, 외부에서 생성된 제어 정보를 수신하거나 내부에서 제어 정보를 생성하는 것도 가능하다. 제어 정보는 예컨대 행동과 관련된 특성(characteristic)을 입력 및 제어하기 위한 정보일 수 있으며, 이와 같이 행동 특성과 관련된 제어 정보는 예컨대 행동 패턴(pattern) 또는 성격을 제어하기 위한 정보 등을 포함할 수 있다.

보상 제어기(130)는 수신된 또는 생성된 제어 정보에 기초하여 보상과 관련된 값 r'을 출력하도록 구성되며, 제어 정보에 기초하여 출력된 보상과 관련된 값 r'은 도 1에서 나타난 바와 같이 주어진 환경 내에서의 일관적으로 생성되는 보상과 관련된 값 r과는 상이한 값을 갖는다. 즉, 보상 제어기(130)는 특성 정보와 같은 제어 정보에 기초하여 에이전트(120)의 부여된 특성을 반영함으로써 새롭게 변경된 보상 r'을 생성하며, 상이한 특성 정보에 따라 변경된 보상 r'은 조절되어 변경될 수 있다.

본 발명의 일 실시예에 따른 강화 학습 장치는 강화 학습 에이전트가 행동하는데 있어서, 제어 정보에 기초한 보상 제어를 통해 그 행동 패턴이나 성격, 속성 등의 고유의 특성을 조절할 수 있다. 이를 통해 예컨대,'실리를 추구하는 스타일'또는 '두텁게 세를 추구하는 스타일'을 갖는 바둑 에이전트, '고위험 고수익형'또는 '저위험 안전형'을 추구하는 주식 투자 에이전트, '달콤하게', '싱겁게'또는 '짭짤하게' 요리하는 요리 로봇, '안전하게', '빠르게' 또는 '부드럽게' 운전하는 자율 주행 자동차를 만드는 등 목표 달성과 관련하여 부여될 수 있는 에이전트의 특성 즉, 행동 패턴이나 성격 등을 부여하고, 이를 변경 및 제어할 수 있게 된다.

도 2에서와 같이, 본 발명의 일 실시예에 따른 강화 학습 장치는 강화 학습 에이전트(120)의 학습의 보상 제어를 위해 보상 제어기(130)의 구성 요소를 추가함으로써, 에이전트(120)의 특성을 제어할 수 있다. 보상 제어기(130)는 에이전트(120)의 특성을 결정하는 제어 정보를 다양한 형태로 입력 받을 수 있고, 주어진 환경(110)으로부터 일관적으로 받는 보상 r을 제어 정보에 기초하여 재설정 및 변경함으로써 제어 정보 또는 특성 정보가 반영된 보상 r'을 출력하게 된다. 이에 따라 본 발명에 의하면, 에이전트(120)의 부여된 특성을 반영한 새롭게 변경된 보상을 제공하여 강화 학습 에이전트(120)를 학습시킴으로써, 고유의 특성을 가질 수 있는 강화 학습 에이전트(120)를 생성해 낼 수 있다.

도 3은 본 발명의 일 실시예에 따른 보상 제어기의 동작을 설명하기 위한 개념도이다.

도 3을 참조하면, 보상 제어기(130)는 입력으로서 제어(c) 정보를 수신할 수 있다.

여기서, 제어 정보(c)는 행동과 관련된 특성과 관련된 정보로서, 예컨대 행동 패턴 또는 성격을 제어하기 위한 정보 등을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 제어 정보는 자연어의 형태를 가질 수 있다. 예컨대, 자율 주행 자동차의 제어와 관련하여 '안전하게', '빠르게', 또는 '부드럽게'와 같은 특성 정보를 자연어 그대로 수신할 수 있으며, 이때 보상 제어기(130)는 워드 임베딩(word embedding) 기술을 이용하여 자연어 처리(natural language processing)를 수행할 수 있다.

워드 임베딩(word embedding) 기술은 하나의 단어를 벡터 공간상의 하나의 점으로 맵핑해주는 기법으로서 단어(word)를 벡터로 변환함으로써 수치화를 구현하는 것이다. 이 방법을 통해 유사한 의미를 가진 단어를 좌표상에 이웃한 지점으로 맵핑시킴으로써 단어들간의 관계를 효율적으로 표현할 수 있다. 이와 같인 단어(word)를 벡터로 변환하는 워드-투-벡터(word2vec) 알고리즘을 이용한 특징 학습(feature learning) 방법에서는 전체 확률 모델이 필요하지 않다는 장점을 가질 수 있다.

또한, 일 실시예에 따르면 보상 제어기(130)는 제어(c) 정보와 함께 환경 내에서의 상태와 관련된 상태(s) 정보를 입력으로 수신할 수 있다. 이와 같이 특성 정보와 같은 제어 정보 및 상태 정보에 기초하여 보상 또는 보상과 관련된 값을 출력할 수 있으며, 이와 같은 변경된 보상 r' 값은 주어진 환경 내에서의 생성되는 보상과 관련된 값 r과 상이하다. 이와 같이 특성 정보에 기초하여 보상을 결정함에 있어 상태(s)　정보를 제어(c) 정보와 함께 이용함으로써 어떤 상태에서 보상이 제어되고 있는지 파악가능하고, 해당 상태에서 해당 제어정보에 맞게 보상을 제어하도록 할 수 있다.　

또한, 다른 대안으로서, 필요에 따라 보상 제어기(130)에서 제어(c) 정보 및 상태(s) 정보(s)에 더하여 행동(a) 정보를 모두 수신하여 이용함으로써 변경된 보상 값 r'을 결정하는 것도 가능할 것이다.

한편, 보상 제어기(130)는 제어(c) 정보에 기초하여 변형된 보상 r'을 생성하여 에이전트(120)에 제공하기 위해 출력할 수 있으며, 보상과 관련된 값인 r'은 임베딩(embedding) 과정을 통해 벡터화된 형태를 가질 수 있다. 이때, 변형된 보상 r'은 벡터화된 수치 값으로 에이전트(120)에 제공될 수 있을 것이다.

도 4a, 도 4b 및 도 4c는 본 발명의 일 실시예에 따른 제어 정보 생성부의 동작을 설명하기 위한 예시도이다.

도 4a는 복수의 제어 정보, 예컨대 2개의 제어 정보인

및

와 관련된 행렬

및

을 좌표축에 매핑한 모습을 나타낸다.

예컨대, 요리 방법의 특성과 관련하여

제어 정보가 짜게 요리하도록 제어하기 위한 제어 정보이고,

제어 정보가 싱겁게 요리하도록 제어하기 위한 제어 정보인 경우, 2개의 제어 정보인

및

에 기초하여 짜거나 싱겁지 않게 중간 정도로 요리하도록 제어하기 위해 새롭게 생성된 제어 정보인

new 를 생성할 수 있다.

도 4b를 참조하면,

과

사이를 직선으로 연결한 선의 중간 지점에 매핑되도록 새롭게 생성된 제어 정보인

new 를 생성할 수 있다.

또한, 도 4c를 참조하면,

과

사이를 곡선으로 연결한 선의 중간 지점에 매핑되도록 새롭게 생성된 제어 정보인

new 를 생성할 수 있으며, 다양한 방법을 통해

과

사이에 적절한 중간 값을 갖는

new 를 생성가능할 것이다.

또한, 위와 같이 2개의 제어 정보를 이용하여 새로운 제어 정보를 생성할 수 있을 뿐만 아니라 3개 이상의 복수의 제어 정보를 이용하여 새로운 제어 정보를 생성하는 것도 가능하다.

도 5는 본 발명의 일 실시예에 따른 제어 정보 생성부 및 보상 제어기를 이용한 강화 학습 장치의 동작 및 구성을 설명하기 위한 블록도이다.

먼저, 복수의 제어 정보, 예컨대

및

가 제어 정보 생성부(140)의 입력으로 들어와서, 복수의 제어 정보에 기초하여 새롭게 생성된 제어 정보인

new 가 출력될 수 있다.

다음으로, 보상 제어기(130)는 이와 같이 생성된 새로운 제어 정보인

new의 입력에 기초하여 에이전트(120)에게 제공될 새로운 보상

new를 생성할 수 있다. 여기서, 새로운 보상

new는 주어진 환경(110) 내에서의 생성되는 보상과 상이한 값을 가질 수 있다. 여기서, 보상 제어기(130)는 새로운 제어 정보인

new와 함께 환경 내(110)에서의 상태와 관련된 상태(s) 정보를 함께 입력으로 수신할 수 있다. 또한, 보상 제어기(130)에서 제어 정보 및 상태(s) 정보에 더하여 행동(a) 정보를 모두 입력값으로 이용함으로써 새로운 보상

new를 생성할 수 있다.

다음으로, 에이전트(120)는 보상 제어기(130)에서 생성된 새로운 보상

new에 기초하여 행동을 진행할 수 있다.

여기서, 아래 식을 이용함으로써, 새로운 보상 값

new 와 목표 보상값

target 과의 평균 제곱 오차(Mean Squared Error, MSE)를 계산함으로써, 새롭게 생성되는 보상값이 목표 보상값에 근접하도록 제어 정보 생성부(140)를 학습시킬 수 있으며, 이때 제어 정보 생성부(140)는 또 하나의 새로운 신경망 네트워크로 동작하게 된다.

MSE = E[(

new _-

target)²]

이상에서 설명한 바와 같이, 도 5에 도시된 강화 학습 장치에 의하면, 제어 정보 생성부(140)를 통해 종래의 복수의 제어 정보를 이용하여 새로운 제어 정보를 생성가능하며, 보상 제어기(130) 새롭게 생성된 제어 정보, 예컨대 특성 정보와 같은 부가 정보를 반영한 보상을 생성하여 에이전트(120)에 제공 가능함으로써, 강화 학습 에이전트가 행동함에 있어 특정 특성, 즉 행동 패턴 또는 성격을 반영하고, 이를 조절할 수 있는 방법 및 장치를 제공할 수 있다.

도 6은 본 발명의 일 실시예에 따른 보상 제어기를 이용한 강화 학습 방법을 설명하기 위한 흐름도이다.

먼저 행동과 관련된 다양한 특성과 관련된 복수의 특성 정보가 생성되어 제어 정보로서 이용될 수 있다.(S610) 복수의 특성 정보는 별도의 제어 정보 생성부(140)를 통해 생성할 수 있으며, 또한 보상 제어기(130) 내에서 복수의 특성 정보가 생성되고 이용되도록 구성되는 것도 가능할 것이다.

복수의 특성 정보 중 사용자 입력 등에 의해 선택된 특성 정보가 보상 제어기(130)에 제공될 수 있다.(S620) 보상 제어기(130)는 강화 학습 에이전트에 제공할 보상과 관련된 값을 제어하기 위해 특성 정보와 같은 제어 정보를 수신 또는 생성하고 이를 이용할 수 있다.

보상 제어기(130)는 선택된 특성 정보에 기초하여 보상을 생성할 수 있다.(S630) 이와 같이 특성 정보와 같은 제어 정보에 기초하여 출력된 보상 또는 보상과 관련된 값은 주어진 환경 내에서의 생성되는 보상과 관련된 값과 상이하며, 즉 주어진 환경 내에서 고려하지 않는 에이전트(120)에 부여되는 특성 정보를 반영함으로써 변경된 보상이 생성될 수 있다.

마지막으로 특성 정보에 기초하여 보상 제어기(130)에 의해 생성된 변경된 보상이 강화 학습 에이전트(120)에 제공될 수 있다.(S640) 이를 통해 강화 학습 에이전트(120)는 특성 정보에 기초하여 변경된 보상을 최대화하도록 행동을 수행함으로써, 특성 정보가 반영된 학습이 수행될 수 있으며, 이에 따라 고유의 특성을 가질 수 있는 강화 학습 에이전트(120)을 구현할 수 있다.

도 7은 본 발명의 다른 실시예에 따른 보상 제어기를 이용한 강화 학습 방법을 설명하기 위한 흐름도이다.

먼저 행동과 관련된 다양한 특성과 관련된 복수의 특성 정보가 생성되어 제어 정보로서 이용될 수 있다.(S710)

복수의 특성 정보 중 사용자 입력 등에 의해 선택된 특성 정보와 함께 주어진 환경 안에서의 상태(state)와 관련된 정보가 함께 보상 제어기(130)에 제공될 수 있다.(S720) 보상 제어기(130)는 강화 학습 에이전트(120)에 제공할 보상과 관련된 값을 제어하기 위해 특성 정보와 같은 제어 정보 및 상태 정보를 수신하여 이를 모두 이용할 수 있다.

보상 제어기(130)는 선택된 특성 정보 및 상태 정보에 기초하여 보상을 생성할 수 있다.(S730) 이와 같이 특성 정보와 같은 제어 정보 및 상태 정보에 기초하여 출력된 보상 또는 보상과 관련된 값은 주어진 환경 내에서의 생성되는 보상과 관련된 값과 상이하며, 즉 주어진 환경 내에서 고려하지 않는 새로운 특성 정보를 반영한 변경된 보상이 생성될 수 있다.

마지막으로 특성 정보 및 상태 정보에 기초하여 보상 제어기(130)에 의해 생성된 변경된 보상이 강화 학습 에이전트(120)에 제공될 수 있다.(S740) 이를 통해 강화 학습 에이전트(120)는 특성 정보에 기초하여 변경된 보상을 최대화하도록 행동을 수행함으로써, 특성 정보가 반영된 학습이 수행될 수 있으며, 이에 따라 고유의 특성을 가질 수 있는 강화 학습 에이전트(120)을 구현할 수 있다.

이상에서 설명된 흐름은 필요에 따라 일부 단계가 생략 가능하고, 일부 단계들은 서로 순서가 바뀌거나 동시에 수행될 수 있으며, 일부 단계는 반복하여 수행될 수 있다.

이상 본 발명의 실시예에 따른 허밍 멜로디 기반 반주 제공 방법 및 이를 위한 장치를 구체적인 다양한 실시 형태로서 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명은 이에 한정되지 않는 것이며, 본 명세서에 개시된 기초 사상에 따르는 최광의 범위를 갖는 것으로 해석되어야 한다. 당업자는 개시된 실시형태들을 조합, 치환하여 적시되지 않은 형상의 패턴을 실시할 수 있으나, 이 역시 본 발명의 범위를 벗어나지 않는 것이다. 이외에도 당업자는 본 명세서에 기초하여 개시된 실시형태를 용이하게 변경 또는 변형할 수 있으며, 이러한 변경 또는 변형도 본 발명의 권리범위에 속함은 명백하다.

110: 환경(environment) 120: 에이전트(agent)
130: 보상 제어기(reward controller)
140: 제어 정보 생성부(control information generator)

Claims

보상 제어기를 이용한 강화 학습(reinforcement learning) 장치에 있어서,
주어진 환경(environment) 안에서 현재의 상태(state)를 인식하여, 선택 가능한 행동들(actions) 중 보상(reward)과 관련된 값을 최대화하도록 행동시키기 위한 강화 학습 에이전트(agent); 및
상기 강화 학습 에이전트에 제공할 보상과 관련된 값을 제어하기 위한 보상 제어기(reward controller)
를 포함하는 강화 학습 장치.
제1항에 있어서, 상기 보상 제어기는 상기 보상과 관련된 값을 변경하기 위한 제어 정보를 이용하도록 구성되는 것인, 강화 학습 장치.
제2항에 있어서, 상기 보상 제어기는 상기 제어 정보에 기초하여 상기 보상과 관련된 값을 출력하도록 구성되며, 상기 제어 정보에 기초하여 출력된 상기 보상과 관련된 값은 상기 주어진 환경 내에서의 생성되는 보상과 관련된 값과 상이한 것인, 강화 학습 장치.
제2항에 있어서, 상기 제어 정보는 행동과 관련된 특성과 관련된 것인, 강화 학습 장치.
제2항에 있어서, 상기 보상 제어기는 복수의 제어 정보 중 선택된 하나 이상의 제어 정보를 수신하고, 수신된 제어 정보에 기초하여 상기 주어진 환경 내에서의 생성되는 보상과 관련된 값을 변경하도록 구성되는 것인, 강화 학습 장치.
제2항에 있어서, 상기 보상 제어기는 상기 주어진 환경 안에서의 상태(state)와 관련된 정보를 더 수신하도록 구성되는 것인, 강화 학습 장치.
제2항에 있어서, 상기 제어 정보는 자연어의 형태를 가지며, 상기 보상 제어기는 워드 임베딩(word embedding)을 이용하여 자연어 처리(natural language processing)를 수행하는 것인, 강화 학습 장치.
제3항에 있어서, 상기 보상 제어기에서 출력된 상기 보상과 관련된 값은 임베딩 과정을 통해 벡터화된 형태를 갖는 것인, 강화 학습 장치.
제2항에 있어서, 상기 보상과 관련된 값과 연관된 제어 정보를 생성하기 위한 제어 정보 생성부를 더 포함하고, 상기 제어 정보 생성부는 사용자 입력에 기초하여 복수의 특성과 관련된 제어 정보를 생성하도록 구성되는 것인, 강화 학습 장치.
제9항에 있어서, 상기 제어 정보 생성부는 상기 사용자 입력으로서 복수의 제어 정보를 수신하고, 수신된 복수의 제어 정보에 기초하여 새로운 제어 정보를 생성하도록 구성되는 것인, 강화 학습 장치.
제4항에 있어서, 상기 행동과 관련된 특성은 행동 패턴 또는 성격을 포함하는 것인, 강화 학습 장치.