KR20230089037A

KR20230089037A - 멀티 에이전트 강화학습에서의 탐색 방법 및 장치

Info

Publication number: KR20230089037A
Application number: KR1020210177364A
Authority: KR
Inventors: 유병현; 김현우; 박전규; 송화전; 양정민; 이성원; 정의석; 한란
Original assignee: 한국전자통신연구원
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-06-20
Also published as: US20230186154A1

Abstract

멀티 에이전트 강화 학습에서의 탐색 장치가 학습 샘플을 수집할 때 사용하는 탐색(Exploration) 방법이 제공된다. 탐색 방법은 현재 상태에서 각 에이전트의 선택된 행동에 대해 다른 에이전트의 행동에 대한 영향력을 계산하는 단계, 상기 각 에이전트의 행동 가치를 나타내는 유틸리티 함수의 값과 상기 각 에이전트의 선택된 행동에 대해 계산된 상기 다른 에이전트의 행동에 대한 영향력의 선형 합을 계산하는 단계, 그리고 상기 선형 합이 최대가 되는 행동과 임의의 행동을 확률적으로 선택하여 상기 각 에이전트의 행동 정책의 학습에 사용할 샘플을 획득하는 단계를 포함한다.

Description

멀티 에이전트 강화학습에서의 탐색 방법 및 장치{EXPLORATION METHOD AND APPARATUS IN MULTI-AGENT REINFORCEMENT LEARNING}

본 개시는 멀티 에이전트 강화학습에서의 탐색 방법 및 장치에 관한 것으로, 보다 상세하게는 방대한 행동 공간에서 효율적인 학습 샘플을 얻기 위한 멀티 에이전트 강화학습에서의 탐색 방법 및 장치에 관한 것이다.

멀티 에이전트 강화학습(Multi-agent reinforcement learning) 기술은 다수의 에이전트가 존재하는 환경에서 에이전트 간의 효율적인 협업을 통해 목표를 달성하기 위한 최적의 정책(Policy)을 찾는 기술이다.

멀티 에이전트 강화학습 기술은 기존의 단일 에이전트 강화학습 기술과는 다르게 다수의 에이전트가 존재하기 때문에 에이전트의 행동의 조합 역시 기하급수적으로 늘어나며 이에 따라 방대한 크기의 행동 공간을 탐색하여야 한다.

멀티 에이전트 강화학습은 일반적으로 훈련(training) 과정 중에는 모든 에이전트의 관측 정보를 이용하고, 학습이 완료되고 실제 운용하는 실행(execution) 과정에서는 각 에이전트가 자신의 관측 정보만을 이용하여 실행한다는 가정하에 운용된다. 이러한 방식을 중앙 집중형 훈련과 분산형 실행(CTDE: Centralized training and decentralized execution) 패러다임이라고 한다. 이러한 패러다임 하에서 기존의 방법들은 가치 함수 기반의 방법을 따르되 모든 에이전트 정보를 입력으로 하는 공동 가치 함수(Joint value function)를 학습하고 이를 각 에이전트의 관측 정보를 입력으로 하는 개별 유틸리티 함수(Utility function)로 분해하는 방식을 따르고 있다. 개별 유틸리티 함수는 각 에이전트의 개별 가치 함수와 같은 역할을 한다.

상기 방식은 난이도가 낮아 최적 정책을 찾는 것이 어렵지 않은 시나리오에서는 우수한 성능을 보이나, 난이도가 높거나 비교적 복잡한 환경에서는 성능이 낮다. 이러한 방식이 성능이 낮은 이유 중 하나는 학습 샘플을 얻는 탐색(exploration) 기법이 개별 유틸리티 함수 값이 높은 행동을 선택하거나 임의의 행동을 선택하는 방식인 입실론 그리디(Epsilon Greedy, e-greedy) 방식을 따르고 있기 때문이다.

최근에는 다양한 행동 샘플을 얻기 위한 탐색 기법이 제안되고 있으나, 가치 함수 기반의 방법에서 다수 에이전트 간의 영향력을 고려하는 탐색 기법은 제안된 바가 없다.

본 개시가 해결하려는 과제는 멀티 에이전트 강화학습에서 에이전트간의 영향력을 고려하여 방대한 행동 공간에서 효율적인 학습 샘플을 얻을 수 있는 멀티 에이전트 강화학습에서의 탐색 방법 및 장치를 제공하는 것이다.

한 실시 예에 따르면, 멀티 에이전트 강화 학습에서의 탐색 장치가 훈련 과정에서 학습 샘플을 수집할 때 사용하는 탐색(exploration) 방법이 제공된다. 탐색 방법은 현재 상태에서 각 에이전트의 선택된 행동에 대해 다른 에이전트의 행동에 대한 영향력을 계산하는 단계, 상기 각 에이전트의 행동 가치를 나타내는 유틸리티 함수의 값과 상기 각 에이전트의 선택된 행동에 대해 계산된 상기 다른 에이전트의 행동에 대한 영향력의 선형 합을 계산하는 단계, 그리고 상기 선형 합이 최대가 되는 행동과 임의의 행동을 확률적으로 선택하여 상기 각 에이전트의 행동 정책의 학습에 사용할 샘플을 획득하는 단계를 포함한다.

상기 영향력을 계산하는 단계는 상기 각 에이전트의 선택된 행동을 고정시킨 상태에서 다른 에이전트들의 행동에 대한 공동 가치 함수의 분산 값을 계산하는 단계를 포함하며, 상기 공동 가치 함수는 모든 에이전트의 상태와 행동에 대한 정보를 입력으로 누적 보상의 기대치를 추정할 수 있다.

상기 분산 값을 계산하는 단계는 근사 분산 전파 기법(Approximated variance propagation)을 이용하여 상기 분산 값을 계산하는 단계를 포함할 수 있다.

상기 분산 값을 계산하는 단계는 상기 각 에이전트의 행동들에 대한 분산을 입력 단의 분산으로 정의하는 단계, 그리고 상기 입력 단의 분산을 분산 전파 기법으로 통해 출력 단의 분산으로 전파하는 단계를 포함할 수 있다.

상기 영향력을 계산하는 단계는 상기 각 에이전트로부터 상기 현재 상태에서의 관측 정보와 행동 정보를 획득하는 단계를 포함할 수 있다.

상기 탐색 방법은 상기 각 에이전트가 상기 현재 상태에서 상기 선택된 행동을 취하고 나면 다음 상태로 전이하는 단계, 상기 선택된 행동에 대한 보상을 상기 유틸리티 함수에 반영하는 단계, 그리고 상기 영향력을 계산하는 단계, 선형 합을 계산하는 단계, 및 상기 획득하는 단계를 수행하는 단계를 더 포함할 수 있다.

다른 실시 예에 따르면, 멀티 에이전트 강화 학습에서의 탐색 장치가 제공된다. 탐색 장치는 각 에이전트의 관측 정보와 행동 정보를 획득하는 정보 획득부, 현재 상태에서 각 에이전트의 선택된 행동에 대해 다른 에이전트들의 행동으로부터 받는 영향력을 계산하는 에이전트 영향력 계산부, 그리고 상기 각 에이전트의 행동 가치를 나타내는 유틸리티 함수의 값과 상기 각 에이전트의 선택된 행동에 대해 계산된 상기 다른 에이전트의 행동으로부터 받는 영향력의 선형 합을 계산하고, 상기 선형 합이 최대가 되는 행동과 임의의 행동을 확률적으로 선택하여 상기 각 에이전트의 행동 정책의 학습에 사용할 샘플을 획득하는 행동 탐색부를 포함한다.

상기 에이전트 영향력 계산부는 상기 각 에이전트의 선택된 행동을 고정시킨 상태에서 다른 에이전트들의 행동에 대한 공동 가치 함수의 분산 값을 상기 영향력으로 계산할 수 있고, 상기 공동 가치 함수는 모든 에이전트의 상태와 행동에 대한 정보를 입력으로 누적 보상의 기대치를 추정할 수 있다.

상기 에이전트 영향력 계산부는 상기 각 에이전트의 행동들에 대한 분산을 입력 단의 분산으로 정의하고, 상기 입력 단의 분산을 분산 전파 기법으로 통해 출력 단의 분산으로 전파하는 방식을 이용하여 상기 분산 값을 계산할 수 있다.

상기 정보 획득부, 상기 에이전트 영향력 계산부 및 상기 행동 탐색부는 훈련 과정에서 각 에이전트의 상태 전이에 따라 순차적으로 반복 실행될 수 있다.

실시 예에 의하면, 멀티 에이전트 환경에서 에이전트 간의 행동에 따라 서로에게 영향을 주는 정도를 정량화하여 탐색 기법에 반영함으로써, 단순히 개별 가치 함수의 역할을 하는 유틸리티 함수에 따라 탐색하는 방식보다 효율적인 탐색이 가능해진다.

또한 에이전트 간의 상호작용이 강해 서로 간의 영향이 큰 부분에 대해 적극적인 탐색을 수행함으로써 에이전트간의 협업이 필요한 최적 정책을 더 빠르게 찾거나 기존의 방식으로 찾기 어려운 최적 정책을 찾아 성능을 높일 수 있다.

도 1은 멀티 에이전트 강화학습을 개략적으로 설명하는 도면이다.
도 2는 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 장치에서 에이전트간의 영향력 기반의 탐색 방법을 이용하여 학습 샘플을 얻는 과정을 나타내는 흐름도이다.
도 3은 한 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 장치를 나타낸 도면이다.
도 4는 다른 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 장치를 나타낸 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

이제 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 방법 및 장치에 대하여 도면을 참고로 하여 상세하게 설명한다.

도 1은 멀티 에이전트 강화학습을 개략적으로 설명하는 도면이다.

도 1을 참고하면, 멀티 에이전트 강화학습은 주어진 환경에서 두 개 이상의 에이전트(10₁~10_n)가 협업 또는 경쟁을 통해 높은 보상을 얻을 수 있는 행동 정책(Policy)을 학습한다.

멀티 에이전트 강화학습을 위한 시스템은 실질적으로 행동을 취하는 복수의 행동 에이전트(10₁~10_n)와 행동 에이전트들(10₁~10_n)이 전달해 주는 정보를 받아 조율 역할을 하는 조정자 에이전트(20)로 구성될 수 있다.

멀티 에이전트 강화학습은 훈련(training) 과정 중에는 모든 에이전트의 관측 정보를 이용하고, 학습이 완료되고 실제 운용하는 실행(execution) 과정에서는 각 에이전트가 자신의 관측 정보만을 이용하여 실행하는 중앙 집중형 훈련과 분산형 실행 방식을 사용한다.

행동 에이전트(10₁~10_n)는 실질적으로 환경에 놓여 학습된 행동 정책에 따라 행동을 수행하며, 수행한 행동에 대한 보상을 받는다. 각 행동 에이전트 i(10_i)는 환경으로부터 부분 관측 정보 o_i,t와 과거에 자신이 수행한 행동 이력 정보를 이용하여, 각 시간 단계(time-step) t에서 최적 정책에 따라 행동 공간 내에서 자신이 수행할 행동 u_i,t를 결정하고, 수행한 행동 u_i,t에 대한 보상 r_t을 수신한다. 각 행동 에이전트 i는 부분 관측 정보 o_i,t와 결정된 행동 정보 u_i,t를 조정자 에이전트(20)에게 제공한다. 또한 각 행동 에이전트 i는 환경으로부터 받은 보상 r_t을 조정자 에이전트(20)에게 제공한다.

조정자 에이전트(20)는 환경에 등장하지 않는 가상의 에이전트이며, 환경의 모든 행동 에이전트(10₁~10_n)의 정보를 수집하여 행동 에이전트들(10₁~10_n)의 행동 정책을 제어한다. 조정자 에이전트(20)는 행동 에이전트들(10₁~10_n)로부터 부분 관측 정보와 행동 정보 및 보상 값을 제공 받고, 이러한 모든 에이전트(10₁~10_n)의 정보를 입력으로 하는 공동 가치 함수(Joint value function)를 학습한다. 또한 조정자 에이전트(20)는 훈련 과정에서 방대한 크기의 행동 공간을 효율적으로 탐색하기 위해, 행동 에이전트간의 영향력을 계산하고, 행동 에이전트간의 영향력을 탐색 기법에 반영하여 다른 에이전트로부터 영향을 많이 받는 행동을 우선적으로 탐색하도록 각 에이전트의 행동 정책을 학습한다. 일반적으로, 각 에이전트의 행동 정책은 누적 보상의 기대치(Expected return)를 최대화시키는 방향으로 학습된다. 누적 보상의 기대치를 최대화하는 정책이 최적 정책이 된다.

조정자 에이전트(20)는 훈련 과정에서 방대한 크기의 행동 공간을 효율적으로 탐색하기 위해, 행동 에이전트간의 영향력을 계산하고, 행동 에이전트간의 영향력을 탐색 기법에 반영하여 다른 에이전트로부터 영향을 많이 받는 행동을 우선적으로 탐색하는 방향으로 각 에이전트의 행동 정책을 학습한다.

멀티 에이전트 강화학습에서 에이전트간의 영향력 기반의 행동 탐색을 수행하기 위해, 우선 다수의 에이전트가 존재하는 상황에서 에이전트간의 영향이 정의된다.

하나의 에이전트가 특정 행동을 수행할 때, 다른 에이전트들에 의해 받는 영향은 다른 에이전트의 행동 변화에 따른 누적 보상의 기대치의 분산으로 정의될 수 있다. 누적 보상의 기대값은 학습 전에는 알기 어려운 값이므로 훈련 과정 중에 공동 가치 함수를 활용한다. 공동 가치 함수는 모든 에이전트의 상태와 행동에 대한 정보를 입력으로 누적 보상의 기대치를 추정한 함수를 나타낸다.

결과적으로는 다른 에이전트의 행동에 따른 공동 가치 함수 값의 분산이 다른 에이전트들에 대한 영향으로 정의되며, 수학식 1과 같이 나타낼 수 있다.

여기서,

는 공동 가치 함수를 나타내고, u_i는 i번째 에이전트의 행동을 나타내며, u_-i는 i번째 에이전트를 제외한 나머지 모든 에이전트들의 행동을 나타낸다. M_-i는 다른 에이전트들의 행동 조합의 개수를 나타내고, σ_i는 i번째 에이전트에 대한 다른 에이전트의 행동에 따른 공동 가치 함수의 분산을 나타낸다. 또한 μ_i는 i번째 에이전트에 대한 다른 에이전트들의 행동에 따른 공동 가치 함수의 평균을 나타내며, 수학식 2와 같이 나타낼 수 있다.

수학식 1을 정확하게 계산하기 위해서는 다른 에이전트들의 모든 행동의 조합에 대한 공동 가치 함수의 평균과 분산을 구해야 하는데, 에이전트의 수와 행동의 수가 증가함에 따라 다른 에이전트들의 행동 조합의 수는 기하급수적으로 증가하기 때문에 실제 적용이 어려운 수준의 계산량이 요구된다.

수학식 1의 계산을 현실적으로 가능하게 만들기 위해, 본 개시에서는 근사 분산 전파 기법(Approximated variance propagation)을 이용한다. 근사 분산 전파 기법은 입력의 공분산과 함수의 자코비안을 이용해 입력단에서의 분산을 출력단에서의 분산으로 전파시키는 기법이다.

수학식 3은 근사 분산 전파 기법의 예시로, 이변수 함수(Bivariate function)에서의 근사 분산 전파 기법을 나타낸다.

여기서, σ_f ²은 출력단에서의 분산을 나타내고, σ_x는 입력 변수 x의 분산을 나타내며, σ_y는 입력 변수 y의 분산을 나타낸다. σ_xy는 입력 변수 x와 y의 공분산을 나타내고, f는 입력과 출력을 매핑해주는 매핑 함수를 의미한다.

입력 변수가 셋 이상인 다변수 함수의 경우에도 수학식 3을 다수의 변수에 맞게 확장하여 적용이 가능하다. 그러나 매핑 함수로 심층 신경망(Deep neural network)을 활용하는 경우, 심층 신경망의 각 층마다 전파되는 분산 값을 계산하여야 하기 때문에 수학식 3을 직접적으로 적용하기에는 어려움이 있다.

본 개시에서는 심층 신경망 함수를 매핑 함수로 적용하기 위해 심층 신경망의 각 층마다 함수의 자코비안 행렬과 공분산 행렬을 계산하고 계산된 결과를 다음 층으로 전파하는 방식을 적용한다. 수학식 4는 심층 신경망의 층에 따라 분산을 전파시키기 위한 식을 나타낸다.

여기서, Σ^l은 l번째 층에서의 공분산 행렬을 나타내고, J_l-1은 (l-1)번째와 l번째 층 사이를 매핑해주는 함수에 대한 자코비안 행렬을 나타낸다. 신경망 함수 내의 비선형 요소인 활성화 함수(Activation function)는 심층 신경망 함수의 각 층에서 자코비안 행렬을 통해 선형화된다.

입력 단에서의 분산만 정의되면 수학식 4를 통해 입력 단에서의 분산은 심층 신경망 함수의 출력 단의 분산으로 전파될 수 있다.

멀티 에이전트 강화학습 환경에서 훈련 과정 중에 얻게 되는 학습 샘플을 변화시킬 수 있는 입력은 에이전트들의 행동이다. 그러므로 입력 단에서의 분산은 에이전트들의 행동에 대한 분산으로 정의될 수 있다. 학습 샘플은 하나의 상태에서 행동을 선택하고 보상을 받고 다음 상태로 넘어가는 일련의 과정을 의미할 수 있다. 연속적인 행동 공간에서는 행동에 대한 분산은 직접 계산해서 입력 단의 분산으로 사용된다. 문제의 환경이 이산적인 행동 공간을 갖거나 범주(categorical) 형태의 행동이 존재할 때는, 행동을 의미하는 수치가 유사한 것이 실제로 유사한 행동을 의미하지 않기 때문에 행동에 대한 분산을 직접적으로 계산하는 것이 어렵다. 이러한 경우에는 행동의 분산을 직접 계산하는 것이 아닌 각 행동에 대한 개별 유틸리티 함수 값의 분산을 입력 단의 분산으로 이용한다. 예를 들면, i번째 에이전트에 대한 "먹는다", "도망간다", "숨는다" 등의 행동은 행동에 대한 분산을 수치적으로 계산하기 어려울 수 있다. 이러한 경우, "먹는다"라는 행동이 입력으로 주어졌을 때의 유틸리티 함수 값, "도망간다"라는 행동이 입력으로 주어졌을 때의 유틸리티 함수 값 및, "숨는다"라는 행동이 입력으로 주어졌을 때의 유틸리티 함수 값을 계산하고, 이 행동들의 유틸리티 함수 값에 대한 분산 값을 계산하여, 입력 단의 분산으로 이용한다.

입력 단에서는 입력 인자 간의 상관관계가 없다고 가정하고 수학식 5와 같이 입력 단에서의 공분산이 계산될 수 있다.

여기서, Σ⁰은 입력 단에서의 공분산을 나타내고, ν_i는 i번째 에이전트의 입력에 대한 분산을 나타낸다. 입력 단에서는 입력 인자간의 상관관계가 없다고 가정하였기 때문에 입력 단에서의 공분산이 대각 행렬이나 심층 신경망의 각 층을 전파될 때 수학식 4에 따라 계산되기 때문에 각 층에서 전파되는 공분산 행렬은 대각 형렬이 아니게 된다.

도 2는 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 장치에서 에이전트간의 영향력 기반의 탐색 방법을 이용하여 학습 샘플을 얻는 과정을 나타내는 흐름도이다.

도 2를 참고하면, 에피소드는 임의의 상태에서 시작하게 된다.

멀티 에이전트 강화학습에서의 탐색 장치는 각 에이전트에 대해 현재 상태를 확인한다(S210). 최초의 경우, 각 에이전트에 대해 임의의 시작 상태로 설정하고 진행한다.

탐색 장치는 각 에이전트에 대해 하나의 행동을 선택한다(S220). 설명의 편의를 위해 에이전트 i를 기준으로 설명한다.

탐색 장치는 에이전트 i에 대해 선택된 행동을 고정시킨 상태에서 수학식 4와 수학식 5를 기반으로 에이전트 i를 제외한 다른 에이전트들의 행동에 따른 공동 가치 함수의 분산을 계산한다(S230). 계산된 분산 값은 에이전트 i의 선택된 행동이 다른 에이전트들에 대해 받는 영향력으로 표현된다.

탐색 장치는 계산된 분산 값을 입실론 그리디(e-greedy) 기반 방식에 도입한다.

기존의 입실론 그리디 방식의 멀티 에이전트 강화학습 탐색 기법에서는 각 에이전트의 행동 가치 함수의 역할을 하는 유틸리티 함수 값이 최대로 되는 행동과 임의의 행동을 확률적으로 선택하는 방식을 사용한다. 이와 달리, 본 개시에서는 수학식 6과 같이 해당 에이전트의 유틸리티 함수 값과 앞서 계산된 에이전트들에 대한 영향력의 선형 합이 최대가 되는 행동과 임의의 행동 중 하나의 행동을 확률적으로 선택하는 형태로 에이전트 i의 행동 정책을 학습한다. 각 에이전트의 유틸리티 함수는 각 에이전트가 자신의 관측 정보만을 입력으로 누적 보상의 기대치를 추정하는 함수이다.

U_i는 수학식 7과 같이 나타낼 수 있다. 여기서, ε은 매우 작은 숫자일 수 있다. 훈련 과정에서 ε 값을 0이 아닌 값을 사용하는 것은 최대가 되는 행동이 아닌 임의의 행동을 선택할 수 있는 기회를 주기 위함이다. 실제로 학습이 완료되고 실행과정에서는 ε은 0으로 설정된다.

수학식 6 및 수학식 7에서, I_i는 i번째 에이전트가 받는 영향력을 나타내고,

는 에이전트 하나의 전체 행동 집합의 크기를 나타내며, s_i는 i번째 에이전트의 상태를 나타낸다. π_i는 i번째 에이전트의 행동 정책을 나타내고, β는 개별 유틸리티 함수와 영향력 간의 가중치를 정해주는 사용자 파라미터를 나타낸다.

탐색 장치는 에이전트 i에 대해 개별 유틸리티 함수 값과 앞서 계산된 에이전트 들에 대한 영향력의 선형 합을 계산한다(S240).

탐색 장치는 선형 합이 최대가 되는 행동을 계산하고, 선형 합이 최대가 되는 행동을 현재 최선의 행동으로 설정한다(S250).

탐색 장치는 i번째 에이전트의 행동 정책에 따라 확률적으로 현재 최선의 행동을 선택하거나 임의의 행동을 선택한다(S260).

에이전트 i가 현재 상태에서 선택된 행동을 취하고 이에 대한 보상을 얻게 된다. 이렇게 얻어진 보상 값은 공동 가치 함수에 반영된다.

탐색 장치는 에이전트 i에 대해 다음 상태로 전이하고(S270), 다음 상태가 최종 상태인지 확인한다(S280).

탐색 장치는 다음 상태가 최종 상태가 아니면 다음 상태를 현재 상태로 설정하고(S290), 단계(S210~S280)를 반복한다.

이러한 방법으로, 탐색 장치는 에이전트 i에 대해 다음 상태가 에피소드에서의 최종 상태가 될 때까지 단계(S210~S280)를 반복한다.

또한 탐색 장치는 훈련 과정 중에 수많은 에피소드에 대해 단계(S210~290)를 반복한다.

탐색 장치는 에이전트 i를 기준으로 설명하였지만, 다른 에이전트들에 대해서도 에이전트 i와 동일한 방법으로 해당 에이전트들의 행동 정책을 학습한다.

각 에이전트의 유틸리티 함수는 각 에이전트가 자신의 관측 정보만을 입력으로 누적 보상의 기대치를 추정하는 함수이다. 학습이 완료된 이후 실행 단계에서, 각 에이전트는 자신의 유틸리티 함수만을 이용하여 행동을 선택한다. 실행 단계에서 각 에이전트가 자신의 유틸리티 함수를 이용하여 선택한 행동들이 공동 가치 함수를 이용해 선택한 행동과 같도록 학습이 이루어진다.

훈련 단계에서, 단계(S260)에 의해 에이전트가 현재 상태에서 행동이 선택되면, 에이전트가 선택한 행동을 수행하고, 이에 대한 보상을 얻게 된다. 보상은 공동 가치 함수에 반영되고, 공동 가치 함수는 각 에이전트의 유틸리티 함수와 연관되어 있기 때문에, 보상에 따라 각 에이전트의 유틸리티 함수도 변하게 된다.

따라서, 훈련 단계에서 많은 수의 에피소드에 대해 단계(S210~S290)를 반복하면, 수학식 6에 따라 에이전트간의 영향력이 큰 샘플을 선택할 수 있도록 각 에이전트의 행동 정책이 학습된다.

각 에이전트는 훈련 과정에서 학습이 완료된 행동 정책을 제공 받아, 실행 단계에서 해당 유틸리티 함수를 이용하여 해당 행동 정책을 토대로 각 상태에서의 행동을 결정하게 된다.

도 3은 한 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 장치를 나타낸 도면이다.

도 3을 참고하면, 멀티 에이전트 강화학습에서의 탐색 장치(300)는 정보 획득부(310), 에이전트 영향력 계산부(320) 및 행동 탐색부(330)를 포함한다.

정보 획득부(310)는 모든 에이전트의 정보를 획득한다. 정보 획득부(310)는 각 에이전트의 부분 관측 정보와 행동 정보를 수신한다.

에이전트 영향력 계산부(320)는 각 에이전트에 대해 임의의 시작 상태에서 하나의 행동을 선택하고, 각 에이전트에 대해 선택된 행동이 다른 에이전트들의 행동으로부터 받는 영향력을 계산한다. 이를 위해, 에이전트 영향력 계산부(320)는 각 에이전트에 대해 선택된 행동을 고정시킨 상태에서 수학식 4와 수학식 5를 기반으로 해당 에이전트를 제외한 다른 에이전트들의 행동에 따른 공동 가치 함수의 분산값을 계산한다.

행동 탐색부(330)는 각 에이전트에 대해 개별 유틸리티 함수 값과 앞서 계산된 에이전트들에 대한 영향력의 선형 합을 계산하고, 선형 합이 최대가 되는 행동을 계산한다. 행동 탐색부(330)는 선형 합이 최대가 되는 행동을 현재 최선의 행동으로 설정하고, 각 에이전트의 행동 정책에 따라 현재 최선의 행동을 선택하거나 임의의 행동을 선택한다.

각 에이전트가 현재 상태에서 선택된 행동을 취하고 이에 대한 보상을 얻게 되며, 정보 획득부(310)는 각 에이전트로부터 부분 관측 정보와 행동 정보를 획득한다.

정보 획득부(310), 에이전트 영향력 계산부(320) 및 행동 탐색부(330)는 각 에이전트의 상태 전이에 따라 순차적으로 반복 실행된다.

도 4는 다른 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 장치를 나타낸 도면이다.

도 4를 참고하면, 멀티 에이전트 강화학습에서의 탐색 장치(400)는 앞에서 설명한 탐색 방법이 구현된 컴퓨팅 장치를 나타낼 수 있다. 멀티 에이전트 강화학습에서의 탐색 장치(400)는 도 1에서 설명한 조정 에이전트 내에 구현될 수도 있고, 각 행동 에이전트 내에 구현될 수도 있다. 이와 달리, 멀티 에이전트 강화학습에서의 탐색 장치(400)는 행동 에이전트 및 조정 에이전트 외의 별도의 장치로서 구현될 수도 있다.

멀티 에이전트 강화학습에서의 탐색 장치(400)는 프로세서(410), 메모리(420), 입력 인터페이스 장치(430), 출력 인터페이스 장치(440) 및 저장 장치(450) 중 적어도 하나를 포함할 수 있다. 각각의 구성 요소들은 공통 버스(bus)(460)에 의해 연결되어 서로 통신을 수행할 수 있다. 또한, 각각의 구성 요소들은 공통 버스(460)가 아니라, 프로세서(410)를 중심으로 개별 인터페이스 또는 개별 버스를 통하여 연결될 수도 있다.

프로세서(410)는 AP(Application Processor), CPU(Central Processing Unit), GPU(Graphic　Processing　Unit) 등과 같은 다양한 종류들로 구현될 수 있으며, 메모리(420) 또는 저장 장치(450)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(410)는 메모리(420) 및 저장 장치(450) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 이러한 프로세서(410)는 도 3에서 설명한 정보 획득부(310), 에이전트 영향력 계산부(320) 및 행동 탐색부(330)의 적어도 일부 기능을 구현하기 위한 프로그램 명령을 메모리(420)에 저장하여, 도 1 내지 도 3을 토대로 설명한 동작이 수행되도록 제어할 수 있다.

메모리(420) 및 저장 장치(450)는 다양한 형태의 휘발성 또는 비 휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(420)는 ROM(read-only memory)(421) 및 RAM(random access memory)(422)를 포함할 수 있다. 메모리(420)는 프로세서(410)의 내부 또는 외부에 위치할 수 있고, 메모리(420)는 이미 알려진 다양한 수단을 통해 프로세서(410)와 연결될 수 있다.

입력 인터페이스 장치(430)는 데이터를 프로세서(410)로 제공하도록 구성된다.

출력 인터페이스 장치(440)는 프로세서(410)로부터의 데이터를 출력하도록 구성된다.

실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 방법 중 적어도 일부는 컴퓨팅 장치에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.

또한 실시 예에 따른 멀티 에이전트 강화학습에서의 탐색 방법 중 적어도 일부는 컴퓨팅 장치와 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.

이상에서 본 개시의 실시 예에 대하여 상세하게 설명하였지만 본 개시의 권리 범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리 범위에 속하는 것이다.

Claims

멀티 에이전트 강화 학습에서의 탐색 장치가 훈련 과정에서 학습 샘플을 수집할 때 사용하는 탐색(exploration) 방법에서,
현재 상태에서 각 에이전트의 선택된 행동에 대해 다른 에이전트의 행동에 대한 영향력을 계산하는 단계,
상기 각 에이전트의 행동 가치를 나타내는 유틸리티 함수의 값과 상기 각 에이전트의 선택된 행동에 대해 계산된 상기 다른 에이전트의 행동에 대한 영향력의 선형 합을 계산하는 단계, 그리고
상기 선형 합이 최대가 되는 행동과 임의의 행동을 확률적으로 선택하여 상기 각 에이전트의 행동 정책의 학습에 사용할 샘플을 획득하는 단계
를 포함하는 탐색 방법.
제1항에서,
상기 영향력을 계산하는 단계는 상기 각 에이전트의 선택된 행동을 고정시킨 상태에서 다른 에이전트들의 행동에 대한 공동 가치 함수의 분산 값을 계산하는 단계를 포함하며,
상기 공동 가치 함수는 모든 에이전트의 상태와 행동에 대한 정보를 입력으로 누적 보상의 기대치를 추정하는 함수인 탐색 방법.
제2항에서,
상기 분산 값을 계산하는 단계는 근사 분산 전파 기법(Approximated variance propagation)을 이용하여 상기 분산 값을 계산하는 단계를 포함하는 탐색 방법.
제2항에서,
상기 분산 값을 계산하는 단계는
상기 각 에이전트의 행동들에 대한 분산을 입력 단의 분산으로 정의하는 단계, 그리고
상기 입력 단의 분산을 분산 전파 기법으로 통해 출력 단의 분산으로 전파하는 단계를 포함하는 탐색 방법.
제1항에서,
상기 영향력을 계산하는 단계는 상기 각 에이전트로부터 상기 현재 상태에서의 관측 정보와 행동 정보를 획득하는 단계를 포함하는 탐색 방법.
제1항에서,
상기 각 에이전트가 상기 현재 상태에서 상기 선택된 행동을 취하고 나면 다음 상태로 전이하는 단계,
상기 선택된 행동에 대한 보상을 상기 유틸리티 함수에 반영하는 단계, 그리고
상기 영향력을 계산하는 단계, 선형 합을 계산하는 단계, 및 상기 획득하는 단계를 수행하는 단계
를 더 포함하는 탐색 방법.
멀티 에이전트 강화 학습에서의 탐색 장치에서,
각 에이전트의 관측 정보와 행동 정보를 획득하는 정보 획득부,
현재 상태에서 각 에이전트의 선택된 행동에 대해 다른 에이전트들의 행동으로부터 받는 영향력을 계산하는 에이전트 영향력 계산부, 그리고
상기 각 에이전트의 행동 가치를 나타내는 유틸리티 함수의 값과 상기 각 에이전트의 선택된 행동에 대해 계산된 상기 다른 에이전트의 행동으로부터 받는 영향력의 선형 합을 계산하고, 상기 선형 합이 최대가 되는 행동과 임의의 행동을 확률적으로 선택하여 상기 각 에이전트의 행동 정책의 학습에 사용할 샘플을 획득하는 행동 탐색부
를 포함하는 탐색 장치.
제7항에서,
상기 에이전트 영향력 계산부는 상기 각 에이전트의 선택된 행동을 고정시킨 상태에서 다른 에이전트들의 행동에 대한 공동 가치 함수의 분산 값을 상기 영향력으로 계산하고,
상기 공동 가치 함수는 모든 에이전트의 상태와 행동에 대한 정보를 입력으로 누적 보상의 기대치를 추정하는 함수인 탐색 장치.
제8항에서,
상기 에이전트 영향력 계산부는 상기 각 에이전트의 행동들에 대한 분산을 입력 단의 분산으로 정의하고, 상기 입력 단의 분산을 분산 전파 기법으로 통해 출력 단의 분산으로 전파하는 방식을 이용하여 상기 분산 값을 계산하는 탐색 장치.
제8항에서,
상기 정보 획득부, 상기 에이전트 영향력 계산부 및 상기 행동 탐색부는 훈련 과정에서 각 에이전트의 상태 전이에 따라 순차적으로 반복 실행되는 탐색 장치.