KR102558092B1

KR102558092B1 - 샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법

Info

Publication number: KR102558092B1
Application number: KR1020210040188A
Authority: KR
Inventors: 성영철; 한승열
Original assignee: 한국과학기술원
Priority date: 2020-12-14
Filing date: 2021-03-29
Publication date: 2023-07-24
Also published as: KR20220084969A; WO2022131433A1

Abstract

샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법에 관한 것으로, 업데이트된 정책(policy)을 이용하여 생성된 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 단계; 상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)하는 단계; 상기 샘플링한 미니-배치 내의 경험에 대하여 비율 함수를 계산하는 단계; 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수 및 정책의 매개변수를 업데이트하는 단계; 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수의 매개변수를 업데이트하는 단계; 및 상기 샘플링한 미니-배치를 대상으로, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 단계를 포함할 수 있다.

Description

샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법{SAMPLE-AWARE ENTROPY REGULARIZATION METHOD FOR SAMPLE EFFICIENT EXPLORATION}

아래의 설명은 강화 학습에서 샘플 효율성을 높이는 샘플-인지 엔트로피(sample-aware entropy) 정규화(regularization) 기술에 관한 것이다.

현재 환경의 주어진 상태에서 최적의 행동을 제어하기 위한 강화 학습(Reinforcement Learning, RL) 연구가 활발하게 진행 중이다.

강화 학습은 매순간 학습하고자 하는 환경과 상호작용하며, 그로부터 얻은 현재 상태, 현재 행동, 보상, 다음 상태를 포함하는 데이터를 이용하여 주어진 상태에서 최적 행동을 출력하는 정책을 학습하는 것을 목표로 한다.

이를 위하여, 환경을 MDP(Markov Decision Process)로 가정하고, 학습하고자 하는 정책을 직접 매개 변수화 하여 정의하여 MDP 환경의 누적 보상의 기대값을 목적함수로 설정하고, 이를 최대화하도록 정책 매개 변수를 업데이트 하는 정책 최적화 기법이 사용된다.

Off-policy 강화 학습 방법은 이런 정책 최적화 기법 중 한 기법으로, 이전 정책과 환경의 상호작용으로 얻은 경험을 모두 경험 리플레이 메모리(experience replay memory)에 저장하고, 이에 저장된 경험의 랜덤 미니-배치(mini-batch)를 샘플링하여, 정책 학습에 이용하는 방법이다. 이는 현재 정책뿐 아니라 다른 정책으로부터 얻은 경험을 사용한다는 점에서 샘플 효율성을 증가시킨다. 이전 경험을 학습에 이용할 수 있기에 이전 경험과는 다른 새로운 경험을 얻는 것이 중요하며, 이는 특히 환경이 요구하는 태스크가 복잡하거나, 보상이 드물게 주어지는 경우 등, 최적 정책의 학습이 어려운 환경일수록 더 중요해진다.

SAC(Soft Actor-Critic)는 off-policy 방법으로, 주어진 상태에 대하여 균등하게 행동 공간(action space)을 방문하도록 누적 보상에 현재 정책의 엔트로피(entropy)에 대한 정규화 항을 추가한 목적 함수를 최대화하는 방향으로 정책 매개 변수를 학습한다. SAC는 강화 학습 에이전트가 주어진 상태에 대하여 행동의 확률 분포를 균일하게 함으로써, 다양한 행동을 환경에 취하여 다양한 경험을 얻도록 한다.

하지만, SAC는 이전에 얻은 경험은 고려하지 않은, 현재 정책에 대한 엔트로피만을 최대화하는 정규화 항은 이전 경험도 지속적으로 경험할 수 있으며, 다양한 경험을 모아서 그 경험을 토대로 목적 함수를 최대화하는 강화 학습 알고리즘의 샘플 효율성을 저하시킨다.

따라서, 이전 경험과는 다른 경험을 하기 위하여, 이전 경험의 확률 분포와 현재 정책 확률 분포를 분석하는 것이 필요하다. 이에 따라, 두 확률 분포를 모두 고려하여 이전 경험과 다르면서, 다양한 경험을 하도록 하여 off-policy 방법의 샘플 효율성을 높이기 위한 새로운 정규화 기법이 요구된다.

본 발명은 정책의 엔트로피에 대한 정규화 항을 이용하여 다양한 경험을 얻도록 하는 SAC의 장점을 유지하면서 SAC의 샘플 효율성을 높이기 위해 경험 리플레이 메모리에 저장되어 있는 이전 경험을 고려하는 샘플-인지 엔트로피 정규화(Sample-Aware Entropy Regularization) 기법을 SAC에 적용(Diversity Actor-Critic, DAC)하여 샘플 효율성을 높이고, 환경의 탐색 성능을 높이기 위한 것이다.

또한, 본 발명은 학습 상황마다 샘플-인지 엔트로피 정규화 항의 이전 경험 샘플의 분포와 현재 정책의 분포의 비중을 맞추는 파라미터를 조정하고, 이에 따라 환경 및 학습 시간에 관계없이 최적의 정책을 학습하는 적응형 DAC를 제공한다.

컴퓨터로 구현되는 적응형 DAC(Diversity Actor-Critic) 시스템에 의해 수행되는 샘플-인지 엔트로피 정규화(sample-aware entropy regularization) 방법에 있어서, 적어도 하나의 프로세서에 의해, 업데이트된 정책(policy)을 이용하여 생성된 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치 내의 경험에 대하여 비율 함수를 계산하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수 및 정책의 매개변수를 업데이트하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수의 매개변수를 업데이트하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치를 대상으로, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 단계를 포함하는 샘플-인지 엔트로피 정규화 방법을 제공한다.

일 측면에 따르면, 상기 경험 리플레이 메모리에 저장하는 단계는, 학습 시간에 업데이트된 상기 정책을 이용하여 현재 상태에 대한 행동을 출력하는 단계; 및 상기 행동이 학습 환경과 상호작용하여 얻은 상기 경험을 상기 경험 리플레이 메모리에 저장하는 단계를 포함할 수 있다.

다른 측면에 따르면, 상기 비율 함수를 계산하는 단계는, 타겟 확률 분포 대비 상기 정책의 확률 분포의 비율을 나타내는 상기 비율 함수를 계산하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 비율 함수를 계산하는 단계는, 타겟 확률 분포 대비 상기 정책의 확률 분포의 비율을 나타내는 상기 비율 함수를 계산하는 단계; 및 상기 비율 함수, 상기 정책의 확률 분포, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중을 이용하여 샘플-인지 엔트로피를 계산하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계는, 상기 비율 함수의 값을 이용하여 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 계산하는 단계; 및 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 통해 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계는, 상기 샘플-인지 엔트로피를 이용하여 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 계산하는 단계; 및 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 통해 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 비율 함수의 매개변수를 업데이트하는 단계는, 상기 비율 함수의 값을 이용하여 상기 비율 함수의 목적 함수를 계산하는 단계; 및 상기 목적 함수를 최대화하는 방향으로 상기 비율 함수의 매개변수를 업데이트하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 비율 함수의 매개변수를 업데이트하는 단계는, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중에 대하여 상기 비율 함수의 목적 함수를 최대화하는 방향으로 상기 비율 함수의 매개변수를 업데이트하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중을 조정하는 단계는, MDP(Markov Decision Process) 환경에 대하여 주어진 상태에 따른 비중 함수를 구성하는 단계; 상기 비중 함수의 손실 함수를 계산하는 단계; 및 상기 손실 함수를 최소화하는 방향으로 상기 비중 함수의 매개변수를 업데이트하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 비중 함수의 매개변수를 업데이트하는 단계는, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포를 대신하여 상기 비율 함수를 이용하여 상기 비중 함수의 매개변수를 업데이트할 수 있다.

컴퓨터로 구현되는 적응형 DAC(Diversity Actor-Critic) 시스템에 있어서, 업데이트된 정책(policy)을 이용하여 환경과 상호작용하여 얻은 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 저장 제어부; 상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)한 후 상기 샘플링한 미니-배치 내의 경험에 대하여 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비율 함수를 계산하는 계산부; 상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수와 정책의 매개변수 및 상기 비율 함수의 매개변수를 업데이트하는 업데이트 제어부; 및 상기 샘플링한 미니-배치를 대상으로 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 비중 적응부를 포함하는 적응형 DAC 시스템을 제공한다.

샘플-인지 엔트로피 정규화(sample-aware entropy regularization) 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서, 상기 샘플-인지 엔트로피 정규화 방법은, 업데이트된 정책(policy)을 이용하여 생성된 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 단계; 상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)하는 단계; 상기 샘플링한 미니-배치 내의 경험에 대하여 비율 함수를 계산하는 단계; 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수 및 정책의 매개변수를 업데이트하는 단계; 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수의 매개변수를 업데이트하는 단계; 및 상기 샘플링한 미니-배치를 대상으로, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.

본 발명의 실시예에 따르면, 샘플-인지 엔트로피 정규화 기법을 적용한 DAC를 기반으로 정책을 학습함으로써, 이전 경험과는 다른 경험을 현재 정책을 사용하여 얻게 한다. 이에 따라 정책 학습의 샘플 효율성을 증가시켜, 최적 정책 학습의 성능 및 수렴 속도를 크게 증가시킬 수 있다.

본 발명의 실시예에 따르면, 경험 리플레이 메모리에 저장되어 있는 이전 경험의 분포와 현재 정책의 분포의 고려 비중을 학습 상황에 맞게 최적으로 조절함으로써, 적응형 DAC는 안정적으로 최적의 성능을 얻도록 할 수 있다. 즉, 적응형 DAC는 SAC 대비 학습 시간을 크게 감소시기며, 전체적인 성능을 크게 증가시킨다.

도 1은 본 발명의 일실시예에 있어서 적응형 DAC 방법의 동작을 도시한 흐름도이다.
도 2는 본 명의 일실시예에 있어서 적응형 DAC 시스템의 내부 구성을 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서 Continuous 4-Room Maze 환경의 지도를 나타낸 것이다.
도 4는 본 발명의 일실시예에 있어서 SAC, SAC-div, DAC의 Continuous 4-Room Maze 환경에서 방문한 상태의 수를 나타낸 것이다.
도 5는 본 발명의 일실시예에 있어서 SAC, SAC-div, DAC의 Continuous 4-Room Maze 환경에서 학습 시간에 따른 각 상태의 방문 횟수를 나타낸 것이다.
도 6 내지 도 8은 본 발명의 일실시예에 있어서 SAC, SAC-div, DAC, 적응형 DAC의 학습 성능을 비교한 그래프를 나타낸 것이다.
도 9는 본 발명의 일실시예에 있어서 시뮬레이션 파라미터 예시를 나타낸 것이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명은 샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법 및 시스템에 관한 것으로, 특히, 강화 학습에서 샘플 효율성을 높이는 샘플-인지 엔트로피 정규화 기술에 관한 것이다. 보다 상세하게는, 샘플-인지 엔트로피 정규화 기법을 Soft Actor Critic (SAC)에 적용(Diversity Actor Critic, DAC)하여 샘플 효율성을 높이고, 환경의 탐색 성능을 높이기 위한 것이다. 또한, 학습 상황마다 샘플-인지 엔트로피 정규화 항의 이전 경험 샘플의 분포와 현재 정책의 분포의 비중을 맞추는 파라미터를 조정하고, 이에 따라 환경 및 학습시간에 관계없이 최적으로 학습하는 적응형 DAC를 제안하기 위한 것이다.

본 실시예들은 자율자동차, 인공지능 로봇, 교통시스템 최적화, 자동 전투기 조정 등 실시간 제어를 위한 분야에 적용 가능하다.

본 실시예들에서는 주어진 MDP 환경에서 시간 에 따른 상태를 , 행동을 , 보상을 , 감쇄 계수를 (), 상태 전환 확률을 라 정의하며, 강화 학습은 이러한 MDP 환경에 대하여 주어진 상태 에 대한 최적 행동 를 출력하는 최적 정책을 학습하는 것이 목표이다. 강화 학습은 에이전트(agent)가 환경으로부터 주어진 상태 를 얻고, 자신의 정책 에 따라 행동을 출력하여 환경에 행동을 할 수 있으며, 이로부터 보상 와 다음 상태 을 얻을 수 있다 가정한다. 또한 환경과의 상호작용하여 얻은 경험 을 경험 리플레이 메모리 에 저장한다. 최적 정책을 학습하기 위하여 에이전트의 정책은 매개변수 를 이용한 신경망으로 정책 을 정의하며, 정책의 목적 함수 를 최대화하는 방향으로 정책의 매개변수 를 학습한다. 일반적으로 목적 함수는 정책 으로 얻는 누적 보상의 기대값 을 이용하지만, 환경이 요구하는 태스크가 복잡하거나, 보상이 드물게 주어지는 경우, 이러한 목적 함수를 이용하여 학습된 정책은 쉽게 국소 최대치(local maxima)에 빠져 낮은 성능을 가진다. 여기서, 는 으로부터 환경과 지속적으로 상호작용하여 얻은 경험의 궤도(trajectory)에 대한 평균값을 의미하며, 경험의 궤도는 시작 상태 부터 시작하여 와 환경으로부터 얻은 순서쌍 이다.

국소 최대치로 정책이 수렴하지 않게 하기 위해서, 지금까지 경험하지 못한 경험 샘플을 환경으로부터 얻어야 하며, 이를 강화 학습에서는 탐색(exploration)이라고 한다. 효율적인 탐색을 위하여 SAC는 정책 의 누적 보상 기대값과 정책 의 엔트로피 를 이용하여 수학식 1과 같이 목적 함수를 설정하며, 이 목적 함수를 최대화하는 방향으로 정책 매개변수 를 학습한다.

이때, 누적 보상의 기대값에 추가되는 항은 엔트로피 정규화 항이라고 하며, 추가된 엔트로피 정규화 항은 주어진 상태 에서 정책 의 행동의 확률 분포를 균일하게 함으로써, 다양한 행동을 환경에 취하도록 한다. 하지만, 정책 에 대한 평균을 직접 계산하는 것은 분산이 크며, 평균을 계산하기 위한 경험 샘플이 많이 필요하다. 따라서, 실제 알고리즘은 정책 에 대한 가치 함수 , 를 수학식 2, 3와 같이 정의한다.

수학식 2와 3에 정의된 가치 함수 , 를 근사하기 위하여 각각 매개변수 와 를 이용하여 가치 함수의 근사 함수 , , 를 정의한다. 각 근사 함수들의 매개변수 , , 들은 수학식 4과 5를 최소화하는 방향으로 학습한다.

수학식 4에서 는 가치 함수 매개변수 의 기하급수적인 이동 평균 (exponentially moving average)으로, 함수 매개변수 를 한번 학습할 때마다 주어진 에 대하여 를 이용하여 업데이트한다. 정책 매개변수 는 수학식 4로 학습된 가치 함수 을 이용하여 수학식 6의 목적 함수를 최대화하는 방향으로 학습된다.

수학식 4, 5, 6의 경험 리플레이 메모리 에 저장된 경험 에 대한 평균을 계산하기 위하여 한번에 개 경험의 랜덤 미니-배치를 샘플링하여 이 경험들에 대한 샘플 평균을 계산하여 각 매개변수 , , , 를 학습한다.

이하에서는 위에서 설명한 SAC를 기반으로 경험 리플레이 메모리에 저장된 경험과는 다른 경험을 뽑기 위한 샘플-인지 엔트로피 정규화(sample-aware entropy regularization)와 이것을 SAC에 적용한 DAC(Diversity Actor-Critic) 및 적응형 DAC 방법에 대해 상세히 설명하기로 한다.

도 1은 본 발명의 일실시예에 있어서 적응형 DAC의 동작을 도시한 흐름도이고, 도 2는 본 발명의 일실시예에 있어서 적응형 DAC 시스템의 내부 구성을 도시한 블록도이다.

적응형 DAC 시스템(200)은 컴퓨터 시스템에 의해 구현되는 것으로, 도 2에 도시한 바와 같이 저장 제어부(210), 계산부(220), 업데이트 제어부(230) 및 비중 적응부(240)를 포함할 수 있다. 또한, 도 1의 적응형 DAC 방법의 각 단계들(즉, 110 내지 160 단계)은 도 2의 적응형 DAC 시스템(200)의 구성 요소인 저장 제어부(210), 계산부(220), 업데이트 제어부(230) 및 비중 적응부(240)에 의해 수행될 수 있다.

도 2에서, 샘플-인지 엔트로피 정규화 기법에 해당하는 부분은 비율 함수의 계산(220에 대응), 비율 함수를 이용한 매개변수 , , , 의 업데이트(230에 대응)에 해당하며, DAC 시스템은 경험 리플레이 메모리에 저장(210에 대응)과 샘플-인지 엔트로피 정규화 기법의 모든 프로세스에 해당한다. 기존의 SAC는 샘플-인지 엔트로피 정규화 기법(220 및 230에 대응) 대신에 정책 의 엔트로피 정규화 기법이 사용되며, 비율 함수의 적응 방법(240에 대응)은 사용하지 않는다.

도 1을 참조하면, 110 단계에서, 저장 제어부(210)는 학습 시간 에서 업데이트된 정책 를 이용하여 현재 상태 에 대한 행동 을 출력하고, 이를 학습 환경에 상호작용한다. 학습 환경은 행동 에 대한 보상 와 다음 상태 을 출력하며, 저장 제어부(210)는 정책 를 이용하여 생성된 경험 샘플을 경험 리플레이 메모리 에 저장하도록 제어할 수 있다.

일례로, 저장 제어부(210)는 정책 를 정책망을 이용하여 가우시안(Gaussian) 정책으로 구성하고, 이를 이용하여 상태 에 대한 행동 을 출력한다. 이때, 가우시안 정책의 출력은 입력 에 대한 행동 의 평균값 과 표준편차 로 구성할 수 있으며, 가우시안 정책으로부터 출력되는 행동은 로 확률적으로 계산할 수 있다. 여기서, 은 각 행동의 차원마다 평균이 0이고, 표준편차가 1인 독립적인 가우시안 확률 분포에서 샘플링한 값이다. 또한, 환경에 상호작용할 수 있는 행동에 최소 , 최대 로 크기 제한이 있을 경우, 가우시안 정책으로부터 나온 행동 을 이에 맞게 변환하여 행동 을 출력할 수 있다.

120 단계에서, 계산부(220)는 경험 리플레이 메모리 내의 경험 샘플 중 랜덤하게 개를 샘플하여, 랜덤 미니-배치를 구성할 수 있다.

130 단계에서, 계산부(220)는 경험 리플레이 메모리에 저장된 경험들의 확률 분포를 계산하며, 이를 이용하여 120단계에서 샘플링한 미니-배치를 대상으로, 샘플-인지 엔트로피를 계산할 수 있다.

일례로, 경험 리플레이 메모리에 저장된 경험 중, 임의의 상태 에 대한 행동 의 확률을 계산할 수 있으며, 이를 로 정의할 수 있다. 이때, 확률 분포 는 경험 리플레이 메모리 내 경험의 확률 분포이며, 즉 지금까지 얻은 경험에 대한 확률 분포이다. 따라서, 정책의 확률 분포 는 앞으로 얻을 경험에 대한 확률 분포로 볼 수 있으며, 이미 얻은 경험과 새롭게 얻을 경험의 확률 분포는 경험 리플레이 메모리 내의 확률 분포 와 정책의 확률 분포 의 가중합(weighted sum)으로 볼 수 있다. 따라서 이미 얻은 경험과 새롭게 얻을 경험의 확률 분포는 주어진 비중 에 대하여 수학식 7으로 볼 수 있다.

수학식 7으로 정의된 타겟 확률 분포 는 앞서 말했듯이 이미 얻은 경험과 새롭게 얻을 경험의 확률 분포로 볼 수 있으며, 샘플-인지 엔트로피는 으로 정의한다. 따라서, 샘플-인지 엔트로피가 증가한다는 것은 이미 얻은 경험과 새롭게 얻을 경험의 확률 분포를 균일하게 만들어준다는 의미로 볼 수 있으며, 이는 즉 정책 이 이전에 얻지 못한 다양한 경험을 환경으로부터 얻게 한다는 의미로 볼 수 있다. 또한, 이전에 얻지 못한 다양한 경험을 얻는 것은 효율적인 환경의 탐색을 위해 필수적인 요소이며, 샘플 효율성을 크게 증가시킬 수 있다. 정의한 샘플-인지 엔트로피 는 수학식 8으로 분해할 수 있다.

수학식 8에서 은 수학식 9로 정의되며, 여기서 은 두 확률 분포의 쿨벡-라이블러 발산(Kullback-Leibler divergence)이다.

수학식 8에서 정의한 샘플-인지 엔트로피는 경험 리플레이 메모리 내의 확률 분포 , 정책의 확률 분포 및 두 확률 분포의 비중 로 구성되지만, 경험 리플레이 메모리 내의 확률 분포는 직접적으로 계산할 수 없기에, 타겟 확률 분포 대비 정책의 확률 분포 의 비율을 나타내는 비율 함수 를 수학식 10으로 정의한다.

수학식 10에서 정의한 비율 함수 를 이용하면 수학식 8의 샘플-인지 엔트로피는 수학식 11이 된다.

하지만, 수학식 12의 관계가 성립하므로, 수학식 11에 적용하면 수학식 13이 된다.

따라서, 샘플-인지 엔트로피 는 수학식 13을 통하여 비율 함수 , 정책의 확률 분포 , 비중 를 이용하여 계산할 수 있다. 하지만 비율 함수도 직접적으로는 계산할 수 없기에 이를 신경망으로 근사할 수 있으며, 근사 함수를 매개변수 로 매개화된 비율 함수 로 정의할 수 있다.

계산부(220)는 120단계에서 샘플한 랜덤 미니-배치 내의 경험에 대하여 비율 함수 의 값을 계산할 수 있다.

140 단계에서, 업데이트 제어부(230)는 120 단계에서 샘플링된 미니-배치를 대상으로, 130 단계에서 계산한 비율 함수 의 값을 이용하여 가치 함수의 매개변수 , , , 와 정책의 매개변수 를 업데이트할 수 있다.

일례로, 샘플-인지 엔트로피를 이용한 가치함수 와 는 수학식 14 및 수학식 15로 정의할 수 있으며, 정책 에 대한 목적 함수는 수학식 16으로 정의할 수 있다.

수학식 14과 15에서 정의한 가치함수 와 는 수학식 2와 3에서 정의한 SAC의 가치함수에서 정책의 엔트로피 대신 샘플-인지 엔트로피를 사용한 것이다. 따라서, 수학식 16의 목적 함수를 최대화하는 정책 는 누적보상 및 이전 경험과 미래 경험에 대한 엔트로피를 최대화하며, 수학식 16의 목적 함수는 에이전트가 이전에 경험하지 못한 새로운 경험을 환경으로부터 얻으며, 누적보상을 최대화하게 한다.

수학식 14과 15에서 정의한 가치 함수 와 로부터 이들을 근사하는 가치 함수 , , 의 매개변수 , , 를 학습하기 위하여 수학식 17과 18를 손실 함수로 정의하고, 이를 최소화하는 방향으로 매개변수 , , 를 학습할 수 있다.

수학식 18에서 은 수학식 19으로 정의된 가치 함수의 타겟 값이다.

하지만 수학식 19에서 경험 리플레이 메모리에서 샘플한 행동 의 확률에 대한 정책의 확률 은 큰 분산을 가질 수 있기 때문에, 행동의 차원 으로 제한하여 안정된 학습을 하도록 할 수 있다. 이 경우 수학식 18의 가치 함수의 타겟은 수학식 20과 같이 정의할 수 있다.

정책 매개변수 는 수학식 21를 최대화하는 방향으로 업데이트할 수 있다.

앞서 언급했듯, 수학식 21를 최대화하는 정책 는 에이전트가 이전에 경험하지 못한 새로운 경험을 환경으로부터 얻으며, 누적보상을 최대화하게 한다. 하지만 수학식 21을 계산하기 위해서는 를 계산해야하지만, 수학식 21의 매개변수 에 대한 경사는 수학식 22의 매개변수 에 대한 경사와 같기 때문에 수학식 22에 정의된 정책의 목적 함수를 이용할 수 있다.

150 단계에서, 업데이트 제어부(230)는 120 단계에서 샘플링한 미니-배치를 대상으로, 비율 함수 의 매개변수 를 업데이트할 수 있다.

일례로, 매개변수 는 주어진 비중 에 대하여 수학식 23를 최대화하는 방향으로 업데이트할 수 있다.

160 단계에서, 비중 적응부(240)는 120 단계에서 샘플링한 미니-배치를 대상으로, 경험 리플레이 메모리 내 경험의 확률 분포 와 정책의 확률 분포 의 비중 를 주어진 상태 에 따라 학습 상황에 맞춰 적응 시킬 수 있다.

일례로, 주어진 상태 에 대한 비중 를 계산하기 위하여, 신경망을 이용하여 비중 함수 를 정의할 수 있으며, 이때 는 비중 함수 의 매개변수이다. 매개변수 는 수학식 24을 최소화하는 방향으로 학습할 수 있다.

수학식 24을 계산하기 위하여 경험 리플레이 메모리 내 경험의 확률 분포 가 필요하지만, 수학식 24에 대한 매개변수 의 경사는 수학식 25이 된다.

따라서, 매개변수 도 경험 리플레이 메모리 내 경험의 확률 분포 를 계산할 필요 없이 비율 함수 만을 이용하여 업데이트 할 수 있다. 이처럼, 주어진 상태 의 학습 상태에 따라 매개변수 를 학습함으로써, 환경 및 학습 시간마다 경험 리플레이 메모리 내 경험의 확률 분포 와 정책의 확률 분포 의 비중을 나타내는 비중 함수 를 조절할 수 있으며, 결국 환경 및 학습 시간에 관계없이 최적의 성능을 가지는 정책을 학습할 수 있다.

이처럼 샘플-인지 엔트로피 정규화 항을 이용한 DAC는 이전과는 다른 경험을 얻게 하여 탐색의 효율성을 증가시킬 수 있다. 또한 경험 리플레이 메모리 내 경험의 확률 분포 와 정책의 확률 분포 의 비중을 조절하는 적응형 DAC는 환경 및 학습 시간에 관계없이 최적의 성능을 가지는 정책을 학습할 수 있으며, 상기 적응형 DAC의 동작은 도 1의 각 단계들(즉, 110 내지 160)에 해당할 수 있다.

도 3은 본 발명의 일실시예에 있어서 Continuous 4-Room Maze 환경의 지도를 나타낸 것이다.

도 3에서, 붉은 색은 벽, 흰색은 강화 학습 에이전트가 움직일 수 있는 방 및 통로에 해당할 수 있다. Continuous 4-Room Maze 환경은 에이전트에게 주는 상태로 에이전트의 현재 위치 좌표 쌍 를 줄 수 있으며, 에이전트가 행동을 하였을 때 주는 보상이 항상 0으로, 환경의 탐색만을 목표로 하는 환경일 수 있다. 또한 처음에는 에이전트는 좌측 하단의 방의 좌측하단 꼭지점에서 시작하며, 정책을 따라 다양한 방으로 움직일 수 있다.

도 4는 본 발명의 일실시예에 있어서 SAC, SAC-div, DAC의 Continuous 4-Room Maze 환경에서 방문한 상태의 수를 나타낸 것이다.

도 4에서, 환경의 방문 상태 수를 나타낸 그래프는 시간에 따른 DAC의 방문 상태 수가 SAC, SAC-div의 방문 상태 수보다 많음을 확인할 수 있다. 이는 같은 시간에 대하여 더 많은 상태를 방문하여 SAC, SAC-div에 비해 효율적인 탐색 성능을 가진다는 것을 의미할 수 있다.

도 5는 본 발명의 일실시예에 있어서 SAC, SAC-div, DAC의 Continuous 4-Room Maze 환경에서 학습 시간에 따른 각 상태의 방문 횟수를 나타낸 것이다.

도 5에서, 각 행(row)는 SAC, SAC-div, DAC의 상태 방문 횟수를 나타낸 것이고, 각 열(row)은 학습 시간(5,000 timesteps, 50,000 timesteps, 500,000 timesteps)에 따른 상태 방문 횟수를 나타낸 것이다. 각 행렬에 있는 그림은 상태 방문 횟수에 따라 검은색 (0번)에서 흰색 (10번 이상)으로 표현할 수 있다. 그림 5에 따라 DAC는 SAC, SAC-div에 비하여 짧은 시간내에 우측 상단에 있는 방에 도달하며, 우측 상단의 방의 다양한 위치에 도달하는 것을 볼 수 있다. 이는 도 4에서 의미한 것과 같이 DAC의 효율적인 탐색 성능을 보여줄 수 있다.

도 6 내지 도 8은 본 발명의 일실시예에 있어서 SAC, SAC-div, DAC, 적응형 DAC의 학습 성능을 비교한 그래프로서, 그래프 610 내지 640은 OpenAI GYM의 Hopper-v1, Walker2d-v1, HalfCheetah-v1, Ant-v1 환경을 드문 보상 환경으로 수정한 환경에서 학습 성능을 비교한 결과를 나타낸 것이다. 드문 보상 환경으로 수정하기 위하여, OpenAI GYM의 환경으로부터 주는 보상을 20 timestep에 대하여 누적하고, 이를 매 20 timesteps 마다 누적 보상을 에이전트에게 주며, 환경이 끝날 경우에도 마지막으로 보상을 준 timestep으로부터 누적해온 보상을 에이전트에게 준다. 그 외에는 모두 0을 보상으로 에이전트에게 주어 보상을 드물게 주는 환경으로 수정할 수 있다. 이러한 드문 보상을 주는 환경은 정책의 학습이 어려운 환경일 수 있다. 그래프 650은 OpenAI GYM의 HumanoidStandup-v1에서의 학습 성능을 비교한 결과이며, HumanoidStandup-v1은 상태 및 행동의 차원이 커 정책의 학습이 어려운 환경일 수 있다.

도 6 내지 도 8의 그래프 610 내지 650은 정책의 학습이 어려운 환경에서의 성능 비교를 보여줄 수 있으며, 적응형 DAC는 SAC, SAC-div, DAC보다 높은 성능을 가진다는 것을 보여줄 수 있다. 이는 적응형 DAC가 환경 및 학습 시간과는 관계없이 최적으로 정책을 학습한다는 것을 보여줄 수 있다.

도 9는 도 4 및 도 5, 그리고 도 6 내지 도 8에 도시된 그래프를 얻기 위한 시뮬레이션 파라미터를 나타낸 것이다.

본 발명의 실시예에 따르면, 샘플-인지 엔트로피 정규화 기법을 적용한 DAC를 기반으로 정책을 학습함으로써, 이전 경험과는 다른 경험을 현재 정책을 사용하여 얻게 한다. 이에 따라 정책 학습의 샘플 효율성을 증가시켜, 최적 정책 학습의 성능 및 수렴 속도를 크게 증가시킬 수 있다. 또한, 본 발명의 실시예에 따르면, 경험 리플레이 메모리에 저장되어 있는 이전 경험의 분포와 현재 정책의 분포의 고려 비중을 학습 상황에 맞게 최적으로 조절함으로써, 적응형 DAC는 안정적으로 최적의 성능을 얻도록 할 수 있다. 즉, 적응형 DAC는 SAC 대비 학습 시간을 크게 감소시기며, 전체적인 성능을 크게 증가시킨다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 구현되는 적응형 DAC(Diversity Actor-Critic) 시스템에 의해 수행되는 샘플-인지 엔트로피 정규화(sample-aware entropy regularization) 방법에 있어서,
적어도 하나의 프로세서에 의해, 업데이트된 정책(policy)을 이용하여 환경과 상호작용하여 얻은 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치 내의 경험에 대하여 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비율 함수를 계산하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수 및 정책의 매개변수를 업데이트하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수의 매개변수를 업데이트하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 샘플링한 미니-배치를 대상으로, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제1항에 있어서,
상기 경험 리플레이 메모리에 저장하는 단계는,
학습 시간에 업데이트된 상기 정책을 이용하여 현재 상태에 대한 행동을 출력하는 단계; 및
상기 행동이 학습 환경과 상호작용하여 얻은 상기 경험을 상기 경험 리플레이 메모리에 저장하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제1항에 있어서,
상기 비율 함수를 계산하는 단계는,
타겟 확률 분포 대비 상기 정책의 확률 분포의 비율을 나타내는 상기 비율 함수를 계산하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제1항에 있어서,
상기 비율 함수를 계산하는 단계는,
타겟 확률 분포 대비 상기 정책의 확률 분포의 비율을 나타내는 상기 비율 함수를 계산하는 단계; 및
상기 비율 함수, 상기 정책의 확률 분포, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중을 이용하여 샘플-인지 엔트로피를 계산하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제1항에 있어서,
상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계는,
상기 비율 함수의 값을 이용하여 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 계산하는 단계; 및
상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 통해 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제4항에 있어서,
상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계는,
상기 샘플-인지 엔트로피를 이용하여 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 계산하는 단계; 및
상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 통해 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제1항에 있어서,
상기 비율 함수의 매개변수를 업데이트하는 단계는,
상기 비율 함수의 값을 이용하여 상기 비율 함수의 목적 함수를 계산하는 단계; 및
상기 목적 함수를 최대화하는 방향으로 상기 비율 함수의 매개변수를 업데이트하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제1항에 있어서,
상기 비율 함수의 매개변수를 업데이트하는 단계는,
상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중에 대하여 상기 비율 함수의 목적 함수를 최대화하는 방향으로 상기 비율 함수의 매개변수를 업데이트하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제1항에 있어서,
상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중을 조정하는 단계는,
MDP(Markov Decision Process) 환경에 대하여 주어진 상태에 따른 비중 함수를 구성하는 단계;
상기 비중 함수의 손실 함수를 계산하는 단계; 및
상기 손실 함수를 최소화하는 방향으로 상기 비중 함수의 매개변수를 업데이트하는 단계
를 포함하는 샘플-인지 엔트로피 정규화 방법.
제9항에 있어서,
상기 비중 함수의 매개변수를 업데이트하는 단계는,
상기 경험 리플레이 메모리 내 상기 경험의 확률 분포를 대신하여 상기 비율 함수를 이용하여 상기 비중 함수의 매개변수를 업데이트하는 것
을 특징으로 하는 샘플-인지 엔트로피 정규화 방법.
컴퓨터로 구현되는 적응형 DAC(Diversity Actor-Critic) 시스템에 있어서,
업데이트된 정책(policy)을 이용하여 환경과 상호작용하여 얻은 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 저장 제어부;
상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)한 후 상기 샘플링한 미니-배치 내의 경험에 대하여 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비율 함수를 계산하는 계산부;
상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수와 정책의 매개변수 및 상기 비율 함수의 매개변수를 업데이트하는 업데이트 제어부;
상기 샘플링한 미니-배치를 대상으로 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 비중 적응부
를 포함하는 적응형 DAC 시스템.
제11항에 있어서,
상기 저장 제어부는,
학습 시간에 업데이트된 상기 정책을 이용하여 현재 상태에 대한 행동을 출력하고,
상기 행동이 학습 환경과 상호작용하여 얻은 상기 경험을 상기 경험 리플레이 메모리에 저장하는 것
을 특징으로 하는 적응형 DAC 시스템.
제11항에 있어서,
상기 계산부는,
타겟 확률 분포 대비 상기 정책의 확률 분포의 비율을 나타내는 상기 비율 함수를 계산하고,
상기 비율 함수, 상기 정책의 확률 분포, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중을 이용하여 샘플-인지 엔트로피를 계산하는 것
을 특징으로 하는 적응형 DAC 시스템.
제11항에 있어서,
상기 업데이트 제어부는,
상기 비율 함수의 값을 이용하여 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 계산하고,
상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 통해 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 것
을 특징으로 하는 적응형 DAC 시스템.
제13항에 있어서,
상기 업데이트 제어부는,
상기 샘플-인지 엔트로피를 이용하여 상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 계산하고,
상기 가치 함수의 손실 함수와 상기 정책의 목적 함수를 통해 상기 가치 함수의 매개변수 및 상기 정책의 매개변수를 업데이트하는 것
을 특징으로 하는 적응형 DAC 시스템.
제11항에 있어서,
상기 업데이트 제어부는,
상기 비율 함수의 값을 이용하여 상기 비율 함수의 목적 함수를 계산하고,
상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 상기 정책의 확률 분포의 비중에 대하여 상기 비율 함수의 목적 함수를 최대화하는 방향으로 상기 비율 함수의 매개변수를 업데이트하는 것
을 특징으로 하는 적응형 DAC 시스템.
제11항에 있어서,
상기 비중 적응부는,
MDP(Markov Decision Process) 환경에 대하여 주어진 상태에 따른 비중 함수를 구성하고,
상기 비중 함수의 손실 함수를 계산하고,
상기 손실 함수를 최소화하는 방향으로 상기 비중 함수의 매개변수를 업데이트하는 것
을 특징으로 하는 적응형 DAC 시스템.
샘플-인지 엔트로피 정규화(sample-aware entropy regularization) 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서,
상기 샘플-인지 엔트로피 정규화 방법은,
업데이트된 정책(policy)을 이용하여 환경과 상호작용하여 얻은 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 단계;
상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)하는 단계;
상기 샘플링한 미니-배치 내의 경험에 대하여 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비율 함수를 계산하는 단계;
상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수 및 정책의 매개변수를 업데이트하는 단계;
상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수의 매개변수를 업데이트하는 단계; 및
상기 샘플링한 미니-배치를 대상으로, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 단계
를 포함하는, 컴퓨터 프로그램.