KR20220027624A

KR20220027624A - e스포츠 전략 최적화를 위한 강화학습 모델 및 모델 경량화, 최적화 방법

Info

Publication number: KR20220027624A
Application number: KR1020200108718A
Authority: KR
Inventors: 김민서; 이용수
Original assignee: (주)에이엄
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2022-03-08

Abstract

E-스포츠 교육을 위한 e스포츠 전략 최적화 방법에 관한 것으로, 전략 분석을 위한 강화학습 모델 및 그 모델의 경량화, 최적화 방법이 제공되며, 이때 실시간 게임분석을 위한 강화학습 모델 알고리즘이 제공된다. 강화학습 과정중 Observation과정에서는 e스포츠 경기에서 실시간 관측값 들을 획득하는 단계 , 획득된 관측값이 Deep RL Agent에서 처리되는 단계, Single Batch로 Deep Neural Network의 입력값이 생성되는 단계. 그리고 관측값으로부터 s(t) 상태값, 그리고 상태값 s(t)는 Inference 과정을 거쳐 a(t) 행동값으로 나오는 단계, 이때 상태값 s(t)가 Reward Optimizer 과정을 통해 리워드 r(t) 값을 생성하는 단계를 포함한다. 생성된 상태값, 행동값, 리워드 값은 외부 메모리 접근을 최소화 하기위해 Experience Buffer에 최근 생성된 값들이 저장되며, Policy Network에서는 Deep Neural Network의 weight를 업데이트 하고, Multi Batch로 입력 값들을 받는다. 연산의 가속을 위해 모든 Environment는 Simulator에 병렬적으로 할당되어 계산되게 된다.

Description

e스포츠 전략 최적화를 위한 강화학습 모델 및 모델 경량화, 최적화 방법{Reinforcement learning model and model weight reduction and optimization method for esports strategy optimization}

본 발명은 e스포츠 전략 최적화 방법에 관한 것으로, 더욱 상세하게는 전략 분석을 위한 강화학습 모델 및 그 모델의 경량화, 최적화 및 그 구현에 관한 것이다.

e스포츠 분석은 기존 스포츠 분석과 달리 객관적인 데이터 추출이 가능하고, 기존 전통 스포츠 분석과 달리 플레이어(선수)들에 대한 객관적인 지표 모델링이 가능하다. 얻어진 데이터와 지표들로, 강화학습 기반의 인공지능 모델을 적용하여 E스포츠 경기 분석 및 솔루션 제공에 사용할 수 있다. 강화학습(Reinforcement learning)은 기계학습의 한 영역이며, 심층 강화학습(Deep Reinforcement Learning)은 강화학습 내부의 Policy Network를 심층 신경망으로 구성한 모델이다. 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 제안된 강화학습 모델은 변화하는 환경에서 인공지능 Agent가 e스포츠 경기 환경변수에 대한 관측 값들을 얻고 자발적으로 데이터를 획득 및 학습해가며 분석 모델을 발전시킨다.

PCT/IB2017/056902

본 발명은 일 실시 예에 따라, 기존 e스포츠 전략 분석 시스템을 인공지능 알고리즘 기반의 학습지도 모델을 도입하여 정량적인 분석을 가능케 한다. 기존 e스포츠 분야의 적용 분석은, 데이터 통계 분석위주로 되어있고 인공지능 모델 기반의 분석은 강화학습 기반의 e스포츠 분석 모델로서 e스포츠 플레이어들을 이기기 위해 만들어졌으므로 많은 시간과 연산 비용이 소모된다. 이를 해결 하기위해 플레이어를 이기기 위한 학습모델이 아니라, 플레이어의 실력을 향상시킬 수 있는 학습 모델을 개발하고, 이와 더불어 연산속도 및 연산 비용 역시 절감하는 방법을 제안한다.

본 발명의 실시 예에 따른 e스포츠 전략 최적화를 위한 인공지능 모델은, 게임 환경으로부터 얻어지는 Observation Space ; Observation Space로부터 얻어진 실시간 관측 값으로 행동양식을 결정하는 Deep RL Agent ; e스포츠 경기 분석을 위한 Policy Network ; Inference연산 가속을 위한 Experience Buffer ; Environment 병렬 할당을 통한 Simulator 병렬화 기반의 Agent 가속 구조 ; Experience Re-use를 활용한 Agent 가속 모듈로 이루어진다.

또한, 상기 Agent는 매 게임 순간의 정보를 회득하고, 100여가지 이상의 경기 데이터를 수 frame 마다 획득한다.

또한, 상기 Agent에서 연산된 결과값을 통해 설정된 Action Space중에서 다음 Frame에서 행동할 행동 값을 설정하게 된다.

또한, 상기 Agent에서 결과 연산을 위해 사용하는 Policy Network의 Reward Function은 비선형 회귀 방식을 통해 과거 데이터와 현재 데이터를 모두 활용해 보상값을 정한다.

또한, 상기 Agent의 연산속도의 최적화를 위해 외부 메모리 접근을 줄이기 위해, 빈번히 나오는 Experience 값들은 Buffer에 할당해 속도 최적화를 시행하게 된다.

또한, Agent의 전체 속도 향상을 위해 Simulator 들의 병렬화를 통해 Environment를 병렬 할당하게 된다.

본 발명은, 이 스포츠 경기로부터 데이터를 수집하는 수집부와 수집된 데이터로 강화학습기반의 Agent 및 그 결과로 경기를 분석하는 분석부로 이루어져 있다. 이를 통해 현존 e스포츠 경기 분석의 문제점인 최적 솔루션 제공이 불가하다는 점을 해결할 수 있고, 체계적인 데이터 기반의 유저 피드백을 제공할 수 있다.

또한 제안된 강화학습 Agent에 제안된 알고리즘은 e스포츠 경기 운용사 (게임사)의 API 제공 없이도 분석이 가능하고, 따라서 모든 e스포츠 경기에 적용이 가능하다.

또한, 본 발명은, 개개인 맞춤 분석이 가능하여 체계적인 선수 육성에도 사용이 가능하다.

또한, 본 발명은, e스포츠 경기 내에서 실시간 분석을 통한 승률 예측이 가능 하고 이를 통해 실시간 혹은 경기 후 선수 플레이에 대한 피드백이 가능하다.

또한, 본 발명은, e스포츠 경기 분석에 쓰이는 강화학습 알고리즘을 가속해 실시간 처리가 가능케 하고 사용되는 연산자원의 량을 줄여 효율적인 분석이 가능케 한다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시 예에 따른 실시간 게임분석을 위한 강화학습 모델 알고리즘을 도시한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 분석 알고리즘에서의 보상 함수에 관한 세부 내용을 도시한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 보상함수의 세부 변수 값 최적화를 위한 알고리즘을 도시한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 실시간 게임분석을 위한 강화학습 모델 학습 과정을 도시한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 제안된 강화학습 모델 알고리즘을 가속하기 위한 모델을 도시한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 Observation Space의 내부 변수 Encoding 및 추출 방법을 도시한 도면이다.
도 7은 본 발명의 일 실시 예에 따른 Deep Policy Network를 도시한 도면이다.
도 8은 본 발명의 일 실시 예에 따른 Obervation Space 및 Action Space 변수 설정을 도시한 도면이다.
도 9는 본 발명의 일 실시 예에 따른 강화학습 알고리즘을 가속하기 위한 Experience 압축 방법을 도시한 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사요오딘다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이니, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 ㅓㄳ을의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 중심으로 본 발명을 상세히 설명한다. 각도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시 예에 따른 실시간 게임분석을 위한 강화학습 모델 알고리즘을 도시한 도면이다. Observation과정(1)에서는 e스포츠 경기에서 실시간 관측값 들을 획득하고, 이때 경기의 재생시간이 30frame/s 일 때 각 측정 시간 단위는 0.1초 (3frame)당 값을 획득한다. 획득된 관측값은 Deep RL Agent(5)에서 처리되고, Single Batch로 Deep Neural Network의 입력값이 된다. 그리고 관측값으로부터 s(t) 상태값, 그리고 상태값 s(t)는 Inference 과정을 거쳐 a(t) 행동값으로 나오게 되고, 또한 상태값 s(t)는 Reward Optimizer 과정을 통해 리워드 r(t) 값을 생성한다. 생성된 상태값, 행동값, 리워드 값은 외부 메모리 접근을 최소화 하기위해 Buffer에 최근 생성된 값들이 저장된다. Policy Network에서는 Deep Neural Network의 weight를 업데이트 하고, Multi Batch로 입력 값들을 받는다.

도 2은 본 발명의 일 실시 예에 따른 분석 알고리즘에서의 보상 함수에 관한 세부 내용을 도시한 도면이다. 각 항목에 대해 각기 다른 보상 점수를 부여하고, 분류는 팀과 개인 두 가지로 이루어진다.

이 때 전체 보상 점수의 두 팀의 전체 합은 0으로 설정 되었다. 이는 경기 중 일어나는 모든 사건들이 승부에 영향을 미치고, 결국 무승부가 없는 승패가 명확한 경기이기 때문이다. 각 보상 함수 값은 팀 점수와 개인 점수 두 개로 나눠지게 되고, 각 개인 점수는 각 플레이어들이 얻은 점수로 계산되고 팀 점수는 평균값으로 들어가게 된다. 보상 함수의 계산은 수식1과 같이 계산된다.

w = team weight ( 0<= υ<=1), σ is individual player reward, Ξ is a number of players , c= constant

이때 w는 각 플레이어들의 리워드가 아닌 전체 팀으로서의 보상 값에 대한 가중치를 주는 변수 값이고, σ값은 각 플레이어가 얻은 보상 값, N은 전체 게임 플레이어들의 숫자이다. 이때 시간에 따른 보상 값의 조정은 상수 값 c와 시간에 따라 지수 함수화 하여 적용한다.

도 3은 본 발명의 일 실시 예에 따른 보상함수의 세부 변수 값 최적화를 위한 알고리즘을 도시한 도면이다.

각 경기의 시간대마다의 데이터와, 경기 결과를 이용하여 보상 값의 최적화된 세부 변수값을 찾는다. 각 데이터는 Global 보상값과, Partial 보상값에 대하여 최적화 작업을 하고, 비선형 회귀를 이용하여 팀변수와 플레이어 변수를 분리하고 각각의 최적화된 보상 값을 추출해낸다.

도 4는 본 발명의 일 실시 예에 따른 제안된 강화학습 모델 알고리즘을 가속하기 위한 모델을 도시한 도면이다. 한 개 혹은 그이상의 관측 값을 이스포츠 게임 환경 내에서 획득하고, 획득된 관측 값은 내부 논리 회로를 통해 내부 상태 값으로 변환이 된다. 변환된 내부 상태 값으로부터 그 다음 환경(특정 시간 간격에서의 화면 프레임 내에서 측정)에 취할 행동 값 들을 Neural Net을 통과하여 얻게 된다.

그다음으로, 얻어진 상태 값으로부터 보상 값을 추출하기에 앞서 과거 경기에서 얻은 데이터들로부터 보상함수의 세부 변수 값들을 최적화 작업을 먼저 진행한다. 리워드 함수를 최적화 하고 내부 변수 테이블을 갱신한 이후, 내부 상태 값들은 리워드 값으로 변환될 준비가 된다. 위 과정에서 얻은 상태 값, 보상 값, 행동 값들은 Experience Buffer에 저장되게 된다. Experience Buffer에서는 외부 메모리 접근을 최소화 하고 Inference시간을 최소화 하기위해 값들을 저장한다. 얻어진 각 값들은 Experience Buffer에 저장됨과 동시에 RL Agent내의 Neural Net 업데이트를 위해 Policy Network에 전달되고, Policy Network에서 Inference를 위한 Neural Net의 Weight업데이트를 진행한다.

도 5는 본 발명의 일 실시 예에 따른 실시간 게임분석을 위한 강화학습 모델 학습 과정을 도시한 도면이다.

제안된 알고리즘의 병렬화(parallelization) 및 가속(acceleration)을 위하여 먼저 synchronized sampling을 적용하였다. 먼저 다수의 cpu core를 한 개의 GPU와 연동하였고, cpu core당 하나의 시뮬레이터를 할당해 시뮬레이터연산의 병렬화를 진행하였다. 그리고 각 연산단계에서 모든 개별 시뮬레이터의 관측값들은 inference를 위한 batch sample로 합쳐지게 되고, 추후에 모든 관측이 끝난 후 GPU에서 호출되어 수행된다. 각 시뮬레이터는 한 action값을 내뱉으면, 다시 그 다음 단계로 넘어가게 된다.

이를 효율적으로 하기위해 시뮬레이터과정과 action-server의 효율적이고 빠른 통신 을 위해 전체 시스템은 shared-memory arrays를 사용하도록 설계가 된다.

이때 Synchronized sampling의 가장 큰 문제인 지연효과를 해결하기 위해 (가장 느린 프로세서에 의해 전체 시간이 결정되는 문제), 여러 개의 독립적인 시뮬레이터를 각 프로세서 당 할당함으로써 완화시켯다. 각 프로세서에서는 할당된 모든 시뮬레이터들을 직렬적으로 업데이트하고, 이는 매 inference batch에 쓰이게 된다. 또한 이렇게 함으로써 batch size를 물리적인 하드웨어 프로세서 숫자 이상으로 설정이 가능하다. 여기서 시뮬레이터의 개수는 512개로 설정하였고, cpu core당 16개를 설정하였다.

도 6은 본 발명의 일 실시 예에 따른 Observation Space의 내부 변수 Encoding 및 추출 방법을 도시한 도면이다. 먼저 텍스트 기반 관측값은 FC(Fully-Conneted) Layer의 인풋으로 들어가게 되고, 경기 화면에 대한 이미지 정보는 Convolution Layer의 인풋으로 들어간다. 그런 다음 게임 유닛 피쳐들은 FC Layer와 Relu Function의 인풋으로 들어간다음, Max-Pool레이어로 들어가 Alignment를 맞추게 된다.

각 추출된 피쳐들은 Encoding후 저장된다.

도 7은 본 발명의 일 실시 예에 따른 Deep Policy Network를 도시한 도면이다.

Encoding된 정보들은 Deep Policy Network의 입력값으로 들어가게 되고, LSTM Layer에서 먼저 값을 입력받는다. LSTM Layer는 총 256개의 계층으로 구성되어있고, 출력값은 Fully Connected Layer의 입력값으로 할당된다. FC Layer의 출력값은 Value 값을 추출하는 부분과, Softmax와 Sample 단계를 거쳐 최종 Action값을 결정하는 곳에 쓰이게 된다.

도 8은 본 발명의 일 실시 예에 따른 Observation Space 및 Action Space 변수 설정을 도시한 도면이다.

경기 선수들에 대한 관측 값은, 위치정보 (x,y,z), 각도 (cos, sin), 레벨, 기본 캐릭터 정보 등으로 이루어져 있고 테이블에(33) 전체 값이 나와 있다. 관측값으로부터 유도되는 행동값에 대해서는 테이블 (34)에 정의되어 있고 행동 대기, 스킬 사용, 이동, 공격 등으로 이루어져있다. 이 때 주 액션의 숫자는 대기 1, 이동은 총 4방향에 대해 주변 81칸에 대해서 이루어지고, 나머지 parameter는 적 및 아군의 팀 멤버 숫자와 비례하여 결정된다(35).

도 9는 본 발명의 일 실시 예에 따른 강화학습 알고리즘을 가속하기 위한 Experience 압축 방법을 도시한 도면이다. 먼저 가장 핵심은 속도저하에 가장 큰 부부분인 외부메모리 접근을 최대한 줄이는 방향으로 만든다. 먼저 입력 상태 값들은 (36) Experience Monitor(37)과 최근 입력값 들을 저장하는 버퍼(레지스터)(38)에 각각 저장되게 된다. 이 때 Experience Monitor에서 각 입력 값들의 Exponent값들을 모니터링하고, Exponent값들 중 가장 빈번히 나온 N개의 입력 값들은(39) 2^N 비율로 압축이 되어진 Index분류대로 분리가 된다. (40) 이때 입력 값과 선 분류된 Exponent값들을 비교하여 저장된 Index중 일치하는 값들을 외부 메모리로 보내게 된다. (41)

1 : 데이터 분석 수집을 위한 게임 환경 에서의 observation space
2 : 실시간 행동값 생성을 위한 inference agent
3 : 신경망 가중치 갱신을 위한 policy network
4 : 최근 상태값,행동값,보상값등을 저장하여 Inference속도를 가속하는 Experience Buffer
5 : 신경망 기반으로 Obervation 값들로부터 행동값을 생성하는 Deel RL Agent
6 : Deep RL Agent에서 보상함수에서의 각 항목
7 : Deep RL Agent에서 보상함수에서의 각 보상값
8 : Deep RL Agetn에서 보상함수에서의 각 보상값의 분류 척도
9 : 보상함수에서 보상값 최적화 방법
10 : 보상함수에서 분류 척도 최적화 방법
11 : Game environment에서 Observation 값을 얻는 단계
12 : Observation 값을 internal status로 변환하는 단계
13 : Internal Status 값들로부터 Action 값을 추출하는 단계
14 : Internal Status 값들로부터 Reward 값을 추출하는 단계
15 : 과거 경기 데이터로부터 관측값을 추출하는 단계
16 : 과거 경기 데이터로부터 Reward Function을 최적화 하는 단계
17 : 최적화 단계 후 얻어진 값들로 Reward Function Table을 갱신하는 단계
18 : 최근의 관측값 및 각 상태 값들을 Experience Buffer에 저장하는 단계
19 : Policy Network에 값을 업데이트 후 Neural Net의 Weight를 업데이트하는 단계
20 : 연산처리를 위한 CPU Core 묶음
21 : 각 CPU Core에 할당된 Simulator
22 : 각 Simulator에서 연산하는 각 환경 시뮬레이터 연산
23 : Neural net Inference를 통한 행동값을 계산하는 GPU Cluster
24 : Game Environment 값을 Encoding 가능한 Vector값으로 변환하는 단계
25 : 환경내 Spatial Data를 Encoding 가능한 Vector값으로 변환하는 단계
26 : 게임 환경내 각 Object들의 Feature를 Encoding 가능한 Vector값으로 변환하는 단계
27 : 추출된 Vector를 학습가능한 값들로 Encoding 하는 단계
28 : Encoding된 값들을 LSTM Layer의 입력으로 받기위해 전처리하는 Relu Function
29 : Temporal Information의 극대화를 위한 LSTM 처리 단계
30 : LSTM 결과값으로 행동 값을 예측하기 위한 Fully-Connected Layer 기반의 연산 단계
31 : Policy network 업데이트를 위한 Value값 생성 과정
32 : Activation Function을 거친 후 행동값을 생성하는 단계
33 : Observation Space Table
34 : Action Space Type
35 : Action Space Value
36 : 각 상태 값들의 데이터 타입
37 : 상태값 (Experience) 모니터
38 : 상태값 저장 버퍼
39 : 상태값 분류
40 : 입력 상태값과 기존 분류된 상태값 종류 비교 함수
41 : 입력 상태값들을 빈번히 나오는 Exponent값에 따라 2^N배 압축하는 모듈

Claims

E스포츠 경기에서 분석데이터를 획득하고 최적 솔루션을 제공하는 Deep-RL Agent;
상기 분석 기법은 Observation Space내에서 데이터를 획득하는 부분과, 관측값으로부터 Action Space중 최적의 행동값을 생성하는 Deep-RL Agent로 이루어 지며, 행동양식을 결정하는 Deep-RL Agent의 Policy Network는 심층신경망으로 이루어져 있다.
상기 분석 모델은, Observation Space 및 Action Space의 수정을 통해 모든 E스포츠 경기에 대해 적용이 가능하다.
제1항에 있어서,
상기 이스포츠 데이터 분석 에이전트중 최적 솔루션을 제공하는 연산과정중, 보상함수의 세부 변수 값 최적화를 하기 위해 각 경기의 시간대마다의 데이터와, 경기 결과를 이용하여 보상 값의 최적화된 세부 변수 값을 찾으며, 비선형 회귀를 이용하여 팀 변수와 플레이어 변수를 분리하고 각각의 최적화된 보상 값을 추출해내는 보상함수 최적화 과정.
제1항 또는 제2항에 있어서,
상기 시뮬레이터 환경을 제한된 하드웨어 리소스에 최적 할당하여 병렬연산을 극대화 하게 하는 최적화 방법.
각 시뮬레이터 환경은 각 CPU Core에 병렬적으로 할당이 되며, 각 CPU Core내에서 단위 시간 동안 환경값들을 수집해 GPU Cluster에서 Action Value를 병럴적으로 생성하는 최적화 기법.
제2항에 있어서,
Deep RL Agent의 내부 Policy Network를 갱신하는 방법과 내부값들의 전이에 있어 encoding하는 방법.
제4항에 있어서,
내부 policy Network가 선택하는 Action값과 State값들의 종류와 정의하는 방법.
제4항에 있어서, Experience Compressor는 Deep-RL Agent에 입력으로 들어가는 Experience값들을 압축하여 재사용 하게 하며, E스포츠 경기 중 빈번히 나오는 Experience의 Exponent값들을 압축 후 사용하는 구성 요소.
이를 통해 외부 메모리장치 접근을 최소화 하여 강화학습 에이전트의 속도를 최적화 하는 부분.