WO2022080582A1

WO2022080582A1 - 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치

Info

Publication number: WO2022080582A1
Application number: PCT/KR2020/017859
Authority: WO
Inventors: 장병탁; 김기범; 이민수; 이민후; 김윤성
Original assignee: 서울대학교 산학협력단
Priority date: 2020-10-12
Filing date: 2020-12-08
Publication date: 2022-04-21
Also published as: US20220398830A1; JP2023502804A; KR102345267B1; JP7348296B2

Abstract

일 실시예에 따른 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함한다.

Description

목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치

본 명세서에서 개시되는 실시예들은 강화학습의 효율성을 높이기 위해 목표에 대한 학습을 함께 수행하는 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치에 관한 것이다.

본 연구는 과학기술정보통신부와 정보통신기획평가원의 ICT융합산업원천기술개발 사업의 연구결과로 수행되었음(IITP-2018-0-00622-003).

본 연구는 산업통상자원부와 한국산업기술진흥원의 산업기술국제협력 사업의 연구결과로 수행되었음(KIAT-P0006720).

본 연구는 과학기술정보통신부와 정보통신기획평가원의 SW컴퓨팅산업원천기술개발 사업의 연구결과로 수행되었음(IITP-2015-0-00310-006).

본 연구는 교육부와 한국연구재단의 개인기초연구 사업의 연구결과로 수행되었음(NRF-2018R1D1A1B07049923).

강화학습(reinforcement learning)이란 주어진 상태(state)에서 최적의 행동(action)을 선택하기 위한 학습 방법이다. 이때, 학습의 주체가 되는 구성을 에이전트(agent)라고 하며, 에이전트는 학습을 통해 보상(reward)을 최대화하는 방향으로 행동을 선택하기 위한 정책(policy)을 수립한다.

일반적인 강화학습에 따르면, 에이전트는 목표(target)에 대한 정보를 가지고 있지 않은 상태에서 탐색(exploration)을 통해 최적의 행동이 무엇인지 학습하는 과정을 반복한다. 다시 말해, 에이전트는 무수히 많은 행동을 수행하면서 어떤 경우에 보상을 얻고 어떤 경우에는 보상을 얻지 못하는지를 확인하고, 그 결과에 따라 어떤 행동이 최적인지를 판단하므로 많은 시행착오를 겪게 되는데, 그로 인해 강화학습은 효율성이 낮은 문제를 가지고 있다. 또한, 희소 보상 상황에서는 보상을 획득하게 되는 상황 자체가 드물게 일어나므로 강화학습의 효과가 떨어질 수 있다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은, 강화학습을 수행하는 과정에서 쉽게 얻을 수 있는 목표 데이터(target data)를 통해 목표에 대한 학습도 함께 수행함으로써 학습 효율을 높이기 위한 방법 및 장치를 제공하고자 한다.

위와 같은 기술적 과제를 해결하기 위해 본 명세서에서 개시되는 실시예들에서는, 강화학습을 수행하는 과정에서 수집되는 데이터들을 이용하여 강화학습의 목표에 대한 학습을 수행하고, 학습 결과를 반영하여 강화학습을 수행한다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 강화학습을 수행하면서 목표 데이터에 대한 학습도 함께 수행함으로써 빠르고 효율적인 학습을 돕고, 강화학습의 효과 및 효율성을 높이는 효과를 기대할 수 있다.

또한 전술한 과제 해결 수단 중 어느 하나에 의하면, 일반적인 강화학습 모델을 수행하는 과정에서 쉽게 얻을 수 있는 목표 데이터들을 통해 학습을 수행하여 목표에 대한 정보를 획득함으로써 효율적으로 강화학습의 효과를 높이는 장점이 있다.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 모델을 도시한 도면이다.

도 2는 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다.

도 3 내지 도 5는 실시예들에 따른 목표 지향적 강화학습을 설명하기 위한 순서도들이다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 목표 지향적 강화학습 방법을 수행하기 위한 컴퓨터 프로그램으로서, 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 목표 지향적 강화학습 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 목표 지향적 강화학습 방법은, 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계 및 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치는, 데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부, 강화학습을 수행하기 위한 프로그램 및 상기 강화학습을 수행하는 과정에서 수집되는 목표 데이터가 저장되는 저장부 및 적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 입출력부를 통해 수신된 데이터를 이용하여 강화학습을 수행하는 제어부를 포함하며, 상기 제어부가 상기 프로그램을 실행함으로써 구현되는 목표 지향적 강화학습 모델은, 상기 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 상기 목표 데이터로서 수집하고, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하고, 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영할 수 있다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

먼저 본 명세서에서 자주 사용되는 용어들의 의미를 정의한다.

'목표 작업(target task)'이란 에이전트가 이를 달성할 경우 보상이 주어지는 작업을 의미하고, '목표 데이터(target data)'란 에이전트가 강화학습을 수행하는 과정에서 획득되는 목표와 관련된 데이터를 의미한다. 본 명세서에서 설명되는 실시예들에서는 목표 이미지(target image)가 목표 데이터로서 사용된다고 가정하고, 목표 데이터 및 목표 이미지의 구체적인 예나 이를 수집하는 구체적인 방법에 대해서는 아래에서 자세히 설명한다.

'목표 지향적 강화학습(target oriented reinforcement learning)'이란 본 명세서에서 제시되는 새로운 강화학습 방법으로서, 일반적인 강화학습과 함께 목표 데이터에 대한 학습을 수행함으로써, 목표에 대한 정보를 에이전트가 획득할 수 있도록 하는 학습 방법을 의미한다.

'보조 학습(auxiliary learning)' 또는 '보조 작업(auxiliary task)'이란 하나의 딥러닝 모델에서 학습하고자 하는 메인 작업을 수행하는 과정에서 직간접적으로 얻게 되는 정보들을 출력으로 만들어 메인 작업과 함께 학습하는 것을 의미한다. 보조 학습을 이용하면 그래디언트를 추가로 확보함으로써 모델의 깊은 층을 학습하거나, 추가적인 정보를 학습함으로써 메인 작업을 학습하는데 도움을 줄 수 있다.

위에서 정의되지 않은 용어들은 이하에서 필요할 때마다 정의한다.

이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 모델을 도시한 도면이고, 도 2는 일 실시예에 따른 목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다. 도 1에 도시된 모델은 도 2의 컴퓨팅 장치(200)의 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 구현될 수 있다. 이하에서는 컴퓨팅 장치(200)에 포함된 구성들에 대해서 먼저 간단히 설명한 후, 도 1에 도시된 강화학습 모델을 통해 목표 지향적 강화학습을 수행하는 방법에 대해서 자세히 설명한다.

도 2를 참조하면, 일 실시예에 따른 컴퓨팅 장치(200)는 입출력부(210), 제어부(220) 및 저장부(230)를 포함할 수 있다.

입출력부(210)는 강화학습과 관련된 사용자의 명령이나 데이터를 수신하고, 강화학습을 수행한 결과를 출력하기 위한 구성이다. 입출력부(210)는 사용자로부터 입력을 수신하기 위한 다양한 종류의 입력장치(e.g. 키보드, 터치스크린 등)를 포함할 수 있으며, 또한 강화학습에 사용되는 데이터 및 강화학습 결과 데이터를 송수신하기 위한 연결 포트나 통신 모듈을 포함할 수도 있다.

제어부(220)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 저장부(230)에 저장된 프로그램을 실행함으로써 이하에서 제시되는 프로세스에 따라 강화학습을 수행한다. 다시 말해, 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 도 1에 도시된 목표 지향적 강화학습 모델(100)이 구현되고, 제어부(220)는 목표 지향적 강화학습 모델(100)을 통해 강화학습을 수행한다. 제어부(220)가 목표 지향적 강화학습 모델(100)을 이용하여 강화학습을 수행하는 방법에 대해서는 아래에서 도 1을 참조하여 자세히 설명한다.

저장부(230)는 파일 및 프로그램이 저장될 수 있는 구성으로서 다양한 종류의 메모리를 통해 구성될 수 있다. 특히, 저장부(230)에는 제어부(220)가 이하에서 제시되는 프로세스에 따라 목표 지향적 강화학습을 위한 연산을 수행할 수 있도록 하는 데이터 및 프로그램이 저장될 수 있다. 또한, 저장부(230)에는 강화학습을 수행하는 과정에서 수집된 목표 이미지가 라벨링(labeling)되어 저장되어, 학습에 사용될 수 있다.

이하에서는 제어부(220)가 저장부(230)에 저장된 프로그램을 실행시킴으로써 일 실시예에 따른 목표 지향적 강화학습을 수행하는 과정에 대해서, 도 1을 참조하여 자세히 설명한다.

앞서 설명한 바와 같이 목표 지향적 강화학습 모델(100)은 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 구현되는 것이므로, 이후의 실시예들에서 목표 지향적 강화학습 모델(100)이 수행한다고 설명되는 동작이나 프로세스는, 실제로는 제어부(220)가 수행하는 것으로 볼 수 있다. 또한, 목표 지향적 강화학습 모델(100)에 포함되는 세부 구성들은 목표 지향적 강화학습을 수행하는 전체적인 프로그램에서 특정 기능이나 역할을 담당하는 소프트웨어 단위로 볼 수 있다.

도 1을 참조하면, 일 실시예에 따른 목표 지향적 강화학습 모델(100)은 특징 추출부(110), 행동 모듈(120) 및 분류 모듈(130)을 포함할 수 있다.

특징 추출부(110)는 상태를 나타내는 상태 데이터 및 목표 데이터로부터 특징을 추출하기 위한 구성이다. 특징 추출부(110)가 상태 데이터로부터 추출한 특징은 행동 모듈(120)에 전달되고, 목표 데이터로부터 추출한 특징은 분류 모듈(130)에 전달된다. 행동 모듈(120)는 상태 데이터로부터 추출된 특징에 기초하여, 정책에 따른 행동 및 가치를 출력할 수 있다. 분류 모듈(130)은 목표 데이터로부터 추출된 특징에 기초하여 목표 데이터를 분류할 수 있다. 특징 추출부(110), 행동 모듈(120) 및 분류 모듈(130)이 수행하는 구체적인 동작은 아래에서 수식들을 참조하여 설명한다.

일 실시예에 따른 목표 지향적 강화학습 모델(100)은 특징 추출부(110) 이후 정책

및 가치함수

를 출력하는 행동 모듈(120)로 이어지는 일반적인 강화학습 모델 구조에, 다층 퍼셉트론(multilayer perceptron)으로 구성된 분류 모듈(130)을 추가적으로 포함할 수 있다.

따라서, 특징 추출부(110) 및 행동 모듈(120)은 강화학습 수행 시 이용되고, 특징 추출부(110) 및 분류 모델(130)은 목표 이미지를 학습하는 보조 작업 수행 시 이용될 수 있다. 다시 말해, 메인 작업 수행을 위한 손실함수는 행동 모듈(120)에 의해 실행되고, 목표 이미지 판별을 위한 보조 손실함수는 분류 모듈(130)에 의해 실행될 수 있다.

도 1을 참조하면, 에이전트가 “Get the Amor”라는 지시(1)를 받으면, t 시점에서의 상태

를 나타내는 이미지(2)가 특징 추출부(110)에 대한 입력으로 인가된다.

특징 추출부(110)는 아래의 수학식 1에 따라 상태

를 인코딩 데이터

로 변환한다.

[수학식 1]

이어서 행동 모듈(120)은 아래의 수학식 2에 따라

로부터 정책

와 가치함수

를 출력한다.

[수학식 2]

이때,

는 t 시점에서 에이전트가 수행하는 행동을 의미한다.

또한 이때, 행동 모듈(120)의 함수

와 그 결과 얻게 되는 손실함수

는 선택된 강화학습 알고리즘에 따라 달라질 수 있는데, 예를 들어 A3C(Asynchronous Advantage Actor-Critic) 알고리즘이 선택되었다면 아래의 수학식 3 내지 5에 따라 손실함수가 정의될 수 있다.

[수학식 3]

[수학식 4]

[수학식 5]

이때,

및

는 각각 정책의 손실 및 가치함수의 손실을 의미하고,

는 처음부터 t-1 시점까지의 보상의 합으로서 리턴(return)을 의미한다.

및

는 각각 엔트로피 텀 및 엔트로피 계수를 의미한다.

목표 지향적 강화학습 모델(100)은 이상 설명한 알고리즘에 따라서 강화학습을 수행하는 과정에서 목표 이미지를 수집하고, 수집된 목표 이미지에 라벨링을 하여 목표 저장부(10)에 저장한다. 이때, 목표 저장부(10)는 도 2의 저장부(230)에 포함되는 구성일 수 있다.

목표 지향적 강화학습 모델(100)이 목표 이미지를 수집하는 과정에 대해서 자세히 설명하면 다음과 같다. 먼저 목표 이미지의 상위 개념인 목표 데이터를 수집하는 방법에 대해서 설명하고, 목표 이미지를 수집하는 구체적인 예시를 설명한다.

목표 지향적 강화학습 모델(100)은 강화학습을 수행하는 과정에서 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하며, 일 실시예에 따르면 강화학습을 수행하는 에이전트가 목표 달성에 성공하면 목표의 시각적 표현(visual representation)을 포함하는 이미지를 목표 데이터(목표 이미지)로서 수집하고, 수집된 목표 데이터에는 목표에 대응됨을 의미하는 라벨링을 하여 저장할 수 있다.

조금 더 구체적으로 설명하면, 목표 지향적 강화학습 모델(100)은 보상 획득이나 특정 작업 수행의 성공 또는 실패와 같은 이벤트(e.g. 목표상태에 도달)가 발생하면, 해당 이벤트와 관련된 데이터들을 목표 데이터로서 수집한다. 이어서, 목표 지향적 강화학습 모델(100)은 수집된 목표 데이터에, 해당 목표 데이터와 관련된 이벤트를 나타내기 위한 라벨링을 한 후 목표 저장부(10)에 저장한다.

예를 들어, 에이전트가 게임 내 캐릭터가 되어 게임을 플레이하는 케이스를 가정하면, 목표 지향적 강화학습 모델(100)은 게임 내에서 특정 이벤트가 발생하기 전(e.g. 에이전트가 특정 아이템을 얻거나 미션을 수행하기 전) 일정 개수의 게임화면 프레임들(e.g. 아이템을 얻는 시점 이전의 60~70 프레임)을 목표 이미지들로서 수집하고, 수집된 목표 이미지들에 대응되는 이벤트를 나타내기 위한 라벨링을 한 후 목표 저장부(10)에 저장할 수 있다. 즉, 수집되는 목표 이미지들은 목표의 시각적 표현을 포함할 수 있다.

일 실시예에 따르면, 목표 지향적 강화학습 모델(100)은 게임 내에서 에이전트가 목표를 달성하여 보상을 받는 이벤트가 발생한 경우, 즉 목표 작업 수행에 성공한 경우 이벤트가 발생한 시점 이전 일정 개수의 게임화면 프레임들을 목표 이미지로서 저장하고, 저장된 목표 이미지에는 '목표'에 대응됨을 의미하는 라벨링을 할 수 있다. 특징 추출부(110) 및 분류 모듈(130)은 저장된 목표 이미지들을 통해 목표의 시각적 표현(visual representation)을 학습하게 되고, 따라서 특징 추출부(110)는 상태로서 인가되는 게임화면에 목표가 포함되었다면 목표를 식별하기 위한 특징을 효과적으로 추출함으로써 강화학습의 성능 및 효율성을 높일 수 있다.

목표 지향적 강화학습 모델(100)이 어떤 이벤트 발생 시 목표 데이터를 수집할지는 사용자가 미리 설정할 수 있다. 즉, 목표 데이터는 사용자에 의해 지정되는 하이퍼 파라미터(Hyper parameter)라고 볼 수 있다.

목표 지향적 강화학습 모델(100)은 강화학습을 수행하면서 겪는 시행착오 과정에서 다수의 목표 이미지들을 수집할 수 있다.

이하에서는 수집된 목표 이미지들을 이용하여 학습을 수행하는 과정에 대해서 설명한다.

를 인덱스 i의 목표 이미지의 배치 데이터(batch data)라고 하고,

를 해당 데이터의 라벨이라고 한다. 또한, 분류 모듈(130)의 함수를

라고 하고,

는 분류 모듈(130)의 예측값이라고 한다. 목표 이미지를 특징 추출부(110) 및 분류 모듈(130)에 통과시키면서 아래의 수학식 6 내지 8에 따라서 보조 작업에 대한 손실

을 얻을 수 있다. 보조 작업에 대한 손실

은 학습 시에만 사용된다.

[수학식 6]

[수학식 7]

[수학식 8]

이때,

은 목표 이미지의 배치(batch) 개수를 의미한다.

목표 지향적 강화학습 모델(100)은 이상 살펴본 과정에 따라 메인 작업에 대한 손실

과 보조 작업에 대한 손실

을 구하면, 메인 작업의 학습에 초점을 맞추기 위해서 보조 작업에 대한 손실

에 대해서 1보다 작은 가중치

를 곱함으로써 다음의 수학식 9와 같이 전제 손실함수

을 구한다. 일 실시예에 따르면,

는 메인 작업의 종류에 따라서 0.3에서 0.5 사이의 값으로 설정될 수 있다.

[수학식 9]

위와 같은 과정을 통해 목표 지향적 강화학습 모델(100)은 목표 이미지에 대한 시각적 표현을 학습할 수 있다. 즉, 목표 지향적 강화학습 모델(100)은 분류 모델(130)을 통해 어떤 이미지가 목표를 나타내는지 또는 어떤 이미지가 목표를 포함하고 있는지 판단하는 방법을 학습할 수 있고, 특징 추출기(110)는 학습 결과를 이용함으로써 상태

로서 수신하는 이미지로부터 목표와 관련된 특징을 추출할 수 있다. 즉, 에이전트는 행동을 수행할 때 목표에 대한 정보를 이용함으로써 학습 성능 및 효율성이 향상될 수 있다.

다시 말해, 목표 지향적 강화학습 모델(100)은 정책을 학습하면서 분류 모듈(130)을 통해 목표 데이터를 함께 학습하고, 그로 인해 특징 추출부(110)는 목표를 더욱 잘 분류할 수 있게 된다. 즉, 보조 작업을 통해 특징 추출부(110)가 목표 데이터의 시각적 표현을 학습하는 것이라고 볼 수 있다.

한편 학습되는 목표 이미지들은 이전의 시행착오 과정에서 수집된 것들이므로, 정책을 통한 행동 출력에 이용되지는 않는다. 다시 말해, 특징 추출부(110) 및 분류 모듈(130)을 이용한 목표 이미지에 대한 학습은 훈련 시에만 수행될 뿐이다.

이하에서는 상술한 바와 같은 컴퓨팅 장치(200)를 이용하여 목표 지향적 강화학습을 수행하는 방법을 설명한다. 도 3 내지 도 5는 일 실시예에 따른 목표 지향적 강화학습 방법을 설명하기 위한 순서도들이다.

도 3 내지 도 5에 도시된 실시예들에 따른 목표 지향적 강화학습 방법은 도 2에 도시된 컴퓨팅 장치(200)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 2의 컴퓨팅 장치(200)에 관하여 이상에서 기술한 내용은 도 3 내지 도 5에 도시된 실시예들에 따른 목표 지향적 강화학습 방법에도 적용될 수 있다.

도 3을 참고하면, 301 단계에서 목표 지향적 강화학습 모델(100)은 강화학습을 수행하는 과정에서 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집한다.

도 4에는 도 3의 301 단계에 포함되는 세부 단계들을 도시하였다. 도 4를 참조하면, 401 단계에서 목표 지향적 강화학습 모델(100)은 강화학습을 수행하는 에이전트가 목표 달성에 성공하면, 목표의 시각적 표현을 포함하는 이미지를 목표 데이터로서 수집한다. 402 단계에서 목표 지향적 강화학습 모델(100)은 목표 데이터에 목표에 대응됨을 의미하는 라벨링을 수행한다.

다시 도 3으로 돌아와서, 302 단계에서 목표 지향적 강화학습 모델(100)은 강화학습에 대한 보조학습으로서 목표 데이터를 학습한다.

도 5에는 도 3의 302 단계에 포함되는 세부 단계들을 도시하였다. 도 5를 참조하면, 501 단계에서 목표 지향적 강화학습 모델(100)의 특징 추출부(110)는 목표 데이터의 배치 데이터로부터 특징을 추출한다. 502 단계에서 목표 지향적 강화학습 모델(100)의 분류 모듈(130)은 목표 데이터의 배치 데이터로부터 추출된 특징에 따라 예측값을 추출한다. 503 단계에서 목표 지향적 강화학습 모델(100)은 예측값 및 배치 데이터의 라벨을 이용하여 보조학습에 대한 손실을 산출한다. 504 단계에서 목표 지향적 강화학습 모델(100)은 보조학습에 대한 손실을 이용하여 목표 데이터에 대한 시각적 표현을 학습한다. 목표 지향적 강화학습 모델(100)이 강화학습에 대한 보조학습으로서 목표 데이터를 학습하는 구체적인 방법은 앞서 수학식 6 내지 8을 참조하여 설명한 바와 같다.

이상 살펴본 실시예들에 따르면, 강화학습을 수행하는 과정에서 목표 이미지를 수집하고, 수집된 목표 이미지를 함께 학습함으로써 빠르고 효율적인 학습을 돕고, 강화학습의 성능 및 효율성을 높이는 효과를 기대할 수 있다.

일반적인 강화학습에서 에이전트가 정책을 학습하기 위해서는 수많은 시행착오를 거쳐야 하고, 많은 시행착오에도 불구하고 학습 성능이 높지 않은 문제가 있는데, 본 명세서에서 제시된 실시예들에 따르면 이러한 문제점을 해결할 수 있다.

또한, 학습 과정에서 외부 데이터를 추가하는 방식이 아니라 강화학습을 수행하는 과정에서 수집되는 데이터를 이용하므로 외부의 개입 없이 학습이 가능하다는 장점이 있다.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.

도 3 내지 도 5를 통해 설명된 실시예들에 따른 목표 지향적 강화학습 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.

또한 도 3 내지 도 5를 통해 설명된 실시예들에 따른 목표 지향적 강화학습 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 도 3 내지 도 5를 통해 설명된 실시예들에 따른 목표 지향적 강화학습 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

Claims

목표 지향적 강화학습 모델에 의해 수행되는 강화학습 방법에 있어서,

강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 목표 데이터로서 수집하는 단계;

상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하는 단계; 및

상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는 단계를 포함하는, 방법.
제1항에 있어서,

상기 목표 데이터로서 수집하는 단계는,

상기 강화학습을 수행하는 에이전트가 상기 목표 달성에 성공하면, 상기 목표의 시각적 표현을 포함하는 이미지를 상기 목표 데이터로서 수집하는 단계; 및

상기 목표 데이터에는 목표에 대응됨을 의미하는 라벨링을 하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 목표 지향적 강화학습 모델은,

상태 데이터 및 목표 데이터로부터 특징을 추출하기 위한 특징 추출부;

상기 상태 데이터로부터 추출된 특징에 기초하여, 정책에 따른 행동 및 가치를 출력하기 위한 행동 모듈; 및

상기 목표 데이터로부터 추출된 특징에 기초하여 상기 목표 데이터를 분류하기 위한 분류 모듈을 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,

상기 수집된 목표 데이터를 학습하는 단계는,

상기 특징 추출부가 상기 목표 데이터의 배치 데이터(batch data)로부터 특징을 추출하는 단계;

상기 분류 모듈이 상기 목표 데이터의 배치 데이터로부터 추출된 특징에 따라 예측값을 추출하는 단계;

상기 목표 지향적 강화학습 모델이 예측값 및 상기 배치 데이터의 라벨을 이용하여 상기 보조학습에 대한 손실을 산출하는 단계; 및

상기 목표 지향적 강화학습 모델이 상기 보조학습에 대한 손실을 이용하여 상기 목표 데이터에 대한 시각적 표현을 학습하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

컴퓨터에 제1항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
컴퓨팅 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
목표 지향적 강화학습을 수행하기 위한 컴퓨팅 장치에 있어서,

데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부;

강화학습을 수행하기 위한 프로그램 및 상기 강화학습을 수행하는 과정에서 수집되는 목표 데이터가 저장되는 저장부; 및

적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 입출력부를 통해 수신된 데이터를 이용하여 강화학습을 수행하는 제어부를 포함하며,

상기 제어부가 상기 프로그램을 실행함으로써 구현되는 목표 지향적 강화학습 모델은,

상기 강화학습을 수행하는 과정에서 상기 강화학습의 목표와 관련된 데이터를 상기 목표 데이터로서 수집하고, 상기 강화학습에 대한 보조학습으로서 상기 수집된 목표 데이터를 학습하고, 상기 목표 데이터를 학습한 결과를 상기 강화학습 수행 시 반영하는, 컴퓨팅 장치.
제7항에 있어서,

상기 목표 지향적 강화학습 모델은 상기 목표 데이터를 수집함에 있어서,

상기 강화학습을 수행하는 에이전트가 상기 목표 달성에 성공하면, 상기 목표의 시각적 표현을 포함하는 이미지를 상기 목표 데이터로서 수집하고, 상기 목표 데이터에는 목표에 대응됨을 의미하는 라벨링을 하는 것을 특징으로 하는 장치.
제7항에 있어서,

상기 목표 지향적 강화학습 모델은,

상태 데이터 및 목표 데이터로부터 특징을 추출하기 위한 특징 추출부;

상기 상태 데이터로부터 추출된 특징에 기초하여, 정책에 따른 행동 및 가치를 출력하기 위한 행동 모듈; 및

상기 목표 데이터로부터 추출된 특징에 기초하여 상기 목표 데이터를 분류하기 위한 분류 모듈을 포함하는 것을 특징으로 하는 장치.
제9항에 있어서,

상기 목표 지향적 강화학습 모델은 상기 수집된 목표 데이터를 학습함에 있어서,

상기 특징 추출부가 상기 목표 데이터의 배치 데이터(batch data)로부터 특징을 추출하고, 상기 분류 모듈이 상기 목표 데이터의 배치 데이터로부터 추출된 특징에 따라 예측값을 추출하고, 상기 목표 지향적 강화학습 모델이 상기 예측값 및 상기 배치 데이터의 라벨을 이용하여 상기 보조학습에 대한 손실을 산출하고, 상기 목표 지향적 강화학습 모델이 상기 보조학습에 대한 손실을 이용하여 상기 목표 데이터에 대한 시각적 표현을 학습하는 것을 특징으로 하는 장치.