KR102263438B1

KR102263438B1 - 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치

Info

Publication number: KR102263438B1
Application number: KR1020200014213A
Authority: KR
Inventors: 이창율; 이준엽; 김충현
Original assignee: 엔에이치엔 주식회사
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2021-06-10
Also published as: US20210245056A1; JP7064559B2; US11738271B2; JP2021122725A

Abstract

본 발명은 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치에 관한 것이다. 보다 상세하게는, 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버를 이용하여 게임맵의 난이도를 예측하고 게임맵을 수정하는 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치이다. 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서버는, 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버에 있어서, 제1 크기의 복수의 제1 게임맵 및 상기 제1 크기보다 작은 제2 크기의 복수의 제2 게임맵을 수신하는 통신부; 에이전트 모델을 저장하는 저장부; 및 상기 에이전트 모델을 독출하여 상기 에이전트 모델의 학습을 수행하고 상기 학습된 에이전트 모델을 이용하여 상기 3매치 퍼즐 게임을 수행하는 프로세서;를 포함하고, 상기 프로세서는, 상기 복수의 제2 게임맵에 대하여 큰 점수를 얻는 행동을 하도록 상기 에이전트 모델을 제1 강화학습하고, 상기 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 상기 제2 크기의 복수의 분할 게임맵을 생성하고, 상기 복수의 제1 게임맵 각각을 입력 데이터로 하고, 상기 복수의 제1 게임맵 각각에 대하여 상기 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하고, 상기 제1 강화학습된 에이전트 모델을 상기 트레이닝 데이터 셋을 이용하여 교사 학습하고, 상기 교사 학습된 에이전트 모델을 상기 복수의 제1 게임맵에 대하여 제2 강화학습할 수 있다.

Description

딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치{METHOD AND APPARATUS FOR PREDICTING GAME DIFFICULTY BY USING DEEP-LEARNING BASED GAME PLAY SERVER}

본 발명은 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치에 관한 것이다. 보다 상세하게는, 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버를 이용하여 게임맵의 난이도를 예측하고 게임맵을 수정하는 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치이다.

정보 통신 기술과 단말기 사양의 발전에 따라 휴대폰, PDA(Personal Data Assistant), 또는 PMP(Portable Multimedia Player) 등과 같은 휴대 단말 장치(Portable device)는 정차 토탈 엔터테인먼트 기기로 진화해 가고 있으며, 현대인의 필수품이 되고 있다.

최근에는 PC와 같은 고성능의 프로세서 및 대용량의 메모리를 탑재하고, 사용자가 자유롭게 어플리케이션을 설치하여 사용할 수 있는 스마트 폰(smart phone)과 같은 고성능 휴대 단말이 급속히 보급되고 있다.

이러한 휴대 단말 장치는 문서 관리, 음악 파일이나 동영상 파일의 재생, 게임 실행, 일정 관리, 사진 및 동 영상 촬영 및 관리 등 다양한 용도로 이용될 수 있다.

특히, 여가 시간뿐만 아니라 이동 시간 또는 대기 시간 등의 지루한 시간에 단말 장치를 이용하여 게임을 즐 기는 사용자가 증가함에 따라서, PC에 프로그램을 설치하여 실행되는 PC 게임, 통신망을 통해 다수 사용자가 함께 진행하는 온라인 게임, 휴대폰과 같은 휴대 단말을 통해 간단하게 즐길 수 있는 모바일 게임, 게임 프로 그램을 설치하지 않고도 웹 브라우저를 통해서 이용할 수 있어 단말 사양에 제약을 받지 않는 웹 게임 등 다양한 종류의 게임이 제공되고 있다. 최근, 짧은 시간에 가볍게 즐길 수 있는 퍼즐 게임에 대한 사용자들의 수요가 증가하는 추세이다.

그런데, 퍼즐 게임은 게임맵의 상태에 따라 게임 난이도가 결정되는데 신규 게임 맵에 대해서는 별도로 게임 난이도 평가를 한 후 사용자들에게 게임 난이도에 맞게 제공될 수 있다. 신규 맵에 대한 게임 난이도 평가를 정확하게 하기 위해서는 신규 맵에서 게임을 수십회 많게는 수백회 이상으로 실제로 플레이 하여야 한다. 이경우, 많은 시간과 인력이 들어 비용이 많이 드는 문제가 있었다. 이러한 문제를 해결하기 위해 인공지능 컴퓨터가 사람 대신 신규 맵에서 게임 플레이를 하도록 하는 방법이 제안되었지만, 학습된 인공지능 컴퓨터일지라도 많은 경우의 수가 존재하는 신규 맵에서 게임 플레이를 제대로 하지 못하는 문제가 있었다.

한국등록특허공보 10-2030942

본 발명은 전술한 문제점을 해결하기 위한, 본 발명은 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버를 이용하여 게임맵의 난이도를 예측하고 게임맵을 수정하는 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치를 제안 하고자 한다.

자세히, 본 발명은 학습되지 않은 새로운 게임맵에서도 게임 플레이가 가능한 게임 플레이 서버를 제공하는 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치를 제안 하고자 한다.

또한, 본 발명은 새로운 게임맵에 대한 게임 난이도를 예측할 수 있는 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치를 제안 하고자 한다.

또한, 본 발명은 게임맵의 게임 난이도를 조절하여 게임에 대한 흥미를 유발하는 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치를 제안 하고자 한다.

실시예에 따른 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버에 있어서, 제1 크기의 복수의 제1 게임맵 및 상기 제1 크기보다 작은 제2 크기의 복수의 제2 게임맵을 수신하는 통신부; 에이전트 모델을 저장하는 저장부; 및 상기 에이전트 모델을 독출하여 상기 에이전트 모델의 학습을 수행하고 상기 학습된 에이전트 모델을 이용하여 상기 3매치 퍼즐 게임을 수행하는 프로세서;를 포함하고, 상기 프로세서는, 상기 복수의 제2 게임맵에 대하여 큰 점수를 얻는 행동을 하도록 상기 에이전트 모델을 제1 강화학습하고, 상기 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 상기 제2 크기의 복수의 분할 게임맵을 생성하고, 상기 복수의 제1 게임맵 각각을 입력 데이터로 하고, 상기 복수의 제1 게임맵 각각에 대하여 상기 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하고, 상기 제1 강화학습된 에이전트 모델을 상기 트레이닝 데이터 셋을 이용하여 교사 학습하고, 상기 교사 학습된 에이전트 모델을 상기 복수의 제1 게임맵에 대하여 제2 강화학습하는 것을 특징으로 한다.
이때, 상기 복수의 제1 게임맵과 상기 복수의 제2 게임맵은 상기 고정 퍼즐의 배치에 따라 게임 난이도가 있고, 상기 프로세서는, 상기 복수의 제1 게임맵과 상기 복수의 제2 게임맵을 입력할 때 게임 난이도가 낮은 맵에서 높은 맵의 순서로 입력하여 상기 에이전트 모델을 학습하는 것을 특징으로 한다.
또한, 상기 프로세서는, 상기 제1 강화학습 또는 상기 제2 강화학습의 입력에 가우시안 노이즈를 섞어서 입력하여 상기 에이전트 모델을 학습하는 것을 특징으로 한다.
또한, 상기 조작 퍼즐은 게임 시작시 4가지 색상으로 랜덤하게 선택 순서가 정해지고, 상기 행동은 기본 행동 및 스위치 행동을 포함하고, 상기 기본 행동은 조작 퍼즐의 방향 및 위치를 변경하여 게임맵에 배치하는 행동이고, 상기 스위치 행동은 상기 조작 퍼즐의 순서를 변경하는 것을 특징으로 할 수 있다.
또한, 상기 조작 퍼즐은 4가지 색상이고, 상기 행동은 준비 행동 및 기본 행동을 포함하고, 상기 준비 행동은 상기 조작 퍼즐에서 상기 기본 행동에 사용될 후보 퍼즐을 소정의 개수만큼 선택하는 행동이고, 상기 기본 행동은 상기 후보 퍼즐의 방향 및 위치를 변경하여 게임맵에 배치하는 행동인 것을 특징으로 할 수 있다.
실시예에 따른 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임에 관한 것으로 학습되지 않은 게임맵에 대한 사용자의 난이도를 예측하는 딥러닝 기반의 게임 난이도 예측 서버에 있어서, 학습되지 않은 게임 맵 및 학습된 게임 맵에 대한 사용자의 승률을 수신하는 통신부; 에이전트 모델, 게임 난이도 예측 모델 및 학습된 게임맵에 대한 상기 에이전트 모델의 승률을 저장하는 저장부; 및 상기 게임 난이도 예측 모델을 독출하여 상기 게임 난이도 예측 모델의 학습을 수행하고 상기 학습된 게임 난이도 예측 모델을 이용하여 상기 학습되지 않은 게임맵에 대한 게임 난이도를 예측하는 프로세서;를 포함하고, 상기 프로세서는, 상기 학습된 게임맵에 대한 에이전트 모델의 승률과 상기 학습된 게임 맵에 대한 사용자의 승률의 차이를 이용한 이항 회귀 분석을 통해 상기 게임 난이도 예측 모델을 학습하고, 상기 학습되지 않은 게임맵에 대한 에이전트 모델의 승률을 산출하고, 상기 게임 난이도 예측 모델을 통해 상기 학습되지 않은 게임맵에 대한 에이전트 모델의 승률을 입력으로 하여 상기 학습되지 않은 게임맵에 대한 사용자의 승률을 예측하는 것을 특징으로 할 수 있다.
또한, 상기 프로세서는, 상기 예측된 학습되지 않은 게임맵에 대한 사용자의 승률을 이용하여 상기 학습되지 않은 게임맵의 난이도를 수정할 수 있다.
또한, 상기 프로세서는, 상기 학습되지 않은 게임맵의 난이도를 스테이지가 올라갈수록 증가시키고, n+5 스테이지의 다음 스테이지의 난이도는 이전 스테이지의 난이도 보다 감소시킬 수 있다.
또한, 상기 프로세서는, 상기 학습되지 않은 게임맵에서 고정 퍼즐의 인접한 위치에 동일한 색상의 고정 퍼즐을 배치하여 난이도를 감소시킬 수 있다.
또한, 상기 통신부는, 제1 크기의 복수의 제1 게임맵 및 상기 제1 크기보다 작은 제2 크기의 복수의 제2 게임맵을 수신하고, 상기 프로세서는, 상기 복수의 제2 게임맵에 대하여 큰 점수를 얻는 행동을 하도록 상기 에이전트 모델을 제1 강화학습하고, 상기 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 상기 제2 크기의 복수의 분할 게임맵을 생성하고, 상기 복수의 제1 게임맵 각각을 입력 데이터로 하고, 상기 복수의 제1 게임맵 각각에 대하여 상기 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하고, 상기 제1 강화학습된 에이전트 모델을 상기 트레이닝 데이터 셋을 이용하여 교사 학습하고, 상기 교사 학습된 에이전트 모델을 상기 복수의 제1 게임맵에 대하여 제2 강화학습하는 것을 특징으로 할 수 있다.
실시예에 따른 통신부, 에이전트 모델이 저장된 저장부, 상기 에이전트 모델을 구동하는 프로세서를 포함하는 게임 플레이 서버가 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서비스 방법에 있어서, 상기 통신부가 제1 크기의 복수의 제1 게임맵 및 상기 제1 크기보다 작은 제2 크기의 복수의 제2 게임맵을 수신하는 단계; 상기 프로세서가 상기 복수의 제2 게임맵에 대하여 큰 점수를 얻는 행동을 하도록 상기 에이전트 모델을 제1 강화학습하는 단계; 상기 프로세서가 상기 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 상기 제2 크기의 복수의 분할 게임맵을 생성하는 단계; 상기 프로세서가 상기 복수의 제1 게임맵 각각을 입력 데이터로 하고, 상기 복수의 제1 게임맵 각각에 대하여 상기 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하는 단계; 상기 프로세서가 상기 제1 강화학습된 에이전트 모델을 상기 트레이닝 데이터 셋을 이용하여 교사 학습하는 단계; 및 상기 프로세서가 상기 교사 학습된 에이전트 모델을 상기 복수의 제1 게임맵에 대하여 제2 강화학습하는 단계를 포함하는 것을 특징으로 한다.

실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치는 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버를 이용하여 게임맵의 난이도를 예측하고 게임맵을 수정할 수 있다.

또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치는 학습되지 않은 새로운 게임맵에서도 게임 플레이가 가능한 게임 플레이 서버를 제공할 수 있다.

또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치는 새로운 게임맵에 대한 게임 난이도를 예측할 수 있다.

또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치는 게임맵의 게임 난이도를 조절하여 게임에 대한 흥미를 유발할 수 있다.

도 1은 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 시스템에 대한 예시도이다.
도 2는 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서버에서 게임맵에서 행동을 위한 에이전트 모델을 설명하기 위한 도면이다.
도 3은 도 2의 에이전트 모델의 행동 방식을 설명하기 위한 일 예이다.
도 4는도 2의 에이전트 모델의 행동 방식을 설명하기 위한 다른 예이다.
도 5는 게임 난이도 예측 서버에서 게임 난이도 예측 모델을 생성하는 방법을 설명하기 위한 도면이다.
도 6은 게임 난이도 예측 서버에서 새로운 맵에 대한 게임 난이도 예측 및 게임 난이도 조정하는 방법을 설명하기 위한 도면이다.
도 7은 게임 난이도에 따른 게임맵의 예시도이다.
도 8은 게임맵의 게임 난이도를 조정하는 방법을 설명하기 위한 도면이다.
도 9는 게임맵의 스테이지에 따른 게임 난이도를 설정하는 예시도이다.
도 10은 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법에 대한 순서도이다.
도 11은 도 10의 딥러닝 기반의 게임 플레이 서비스 방법 중 복수의 제2 게임맵에 대한 예시도이다.
도 12는 도 10의 딥러닝 기반의 게임 플레이 서비스 방법 중 복수의 분할 게임맵 생성 및 트레이닝 데이터 셋 생성 방법을 설명하기 위한 예시도이다.
도 13은 본 발명의 에이전트 모델과 종래 기술에 따른 에이전트 모델의 비교예이다.
도 14는 본 발명의 딥러닝 기반의 게임 난이도 예측 방법에 대한 순서도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 시스템에 대한 예시도이다.

도 1을 참조하면, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 시스템은, 단말기(100), 퍼즐 게임 서버(200), 게임 플레이 서버(300) 및 게임 난이도 예측 서버(400)를 포함할 수 있다.

도 1의 각 구성요소는, 네트워크(500)를 통해 연결될 수 있다. 단말기(100), 퍼즐 게임 서버(200), 게임 플레이 서버(300) 및 게임 난이도 예측 서버(400) 등과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

<단말기(100)>

먼저, 단말기(100)는, 퍼즐 게임 서비스를 제공받고자 하는 유저의 단말기이다. 또한, 단말기(100)는 다양한 작업을 수행하는 애플리케이션들을 실행하기 위한 유저가 사용하는 하나 이상의 컴퓨터 또는 다른 전자 장치이다. 예컨대, 컴퓨터, 랩탑 컴퓨터, 스마트 폰, 모바일 전화기, PDA, 태블릿 PC, 혹은 퍼즐 게임 서버(200)와 통신하도록 동작 가능한 임의의 다른 디바이스를 포함한다. 다만 이에 한정되는 것은 아니고 단말기(100)는 다양한 머신들 상에서 실행되고, 다수의 메모리 내에 저장된 명령어들을 해석하여 실행하는 프로세싱로직을 포함하고, 외부 입력/출력 디바이스상에 그래픽 사용자 인터페이스(GUI)를 위한 그래픽 정보를 디스플레이하는 프로세스들과 같이 다양한 기타 요소들을 포함할 수 있다. 아울러 단말기(100)는 입력 장치(예를 들면 마우스, 키보드, 터치 감지 표면 등) 및 출력 장치(예를 들면 디스플레이장치, 모니터, 스크린 등)에 접속될 수 있다. 단말기(100)에 의해 실행되는 애플리케이션들은 게임 어플리케이션, 웹 브라우저, 웹 브라우저에서 동작하는 웹 애플리케이션, 워드 프로세서들, 미디어 플레이어들, 스프레드시트들, 이미지 프로세서들, 보안 소프트웨어 또는 그 밖의 것을 포함할 수 있다.

또한, 단말기(100)는 명령들을 저장하는 적어도 하나의 메모리(101), 적어도 하나의 프로세서(102) 및 통신부(103)를 포함할 수 있다.

단말기(100)의 메모리(101)는 단말기(100)에서 구동되는 다수의 응용 프로그램(application program) 또는 애플리케이션(application), 단말기(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 명령들은 프로세서(102)로 하여금 동작들을 수행하게 하기 위해 프로세서(102)에 의해 실행 가능하고, 동작들은 퍼즐 게임 실행 요청 신호를 전송, 게임 데이터 송수신, 행동 정보 송수신, 게임맵에 대한 승률 정보 송수신 및 각종 정보 수신하는 동작들을 포함할 수 있다. 또한, 메모리(101)는 하드웨어적으로, ROM, RAM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기 일 수 있고, 메모리(130)는 인터넷(internet)상에서 상기 메모리(101)의 저장 기능을 수행하는 웹 스토리지(web storage)일 수도 있다.

단말기(100)의 프로세서(102)는 전반적인 동작을 제어하여 퍼즐 게임 서비스를 제공받기 위한 데이터 처리를 수행할 수 있다. 단말기(100)에서 퍼즐 게임 어플리케이션이 실행되면, 단말기(100)에서 퍼즐 게임 환경이 구성된다. 그리고 퍼즐 게임 어플리케이션은 네트워크(500)를 통해 퍼즐 게임 서버(200)와 퍼즐 게임 데이터를 교환하여 단말기(100) 상에서 퍼즐 게임 서비스가 실행되도록 한다. 이러한 프로세서(102)는 ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 임의의 형태의 프로세서일 수 있다.

단말기(100)의 통신부(103)는, 하기 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등), WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access)에 따라 구축된 네트워크망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신할 수 있다.

<퍼즐 게임 서버(200)>

퍼즐 게임은 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임일 수 있다.

퍼즐 게임 서버(200)가 제공하는 퍼즐 게임 서비스는 퍼즐 게임 서버(200)가 제공하는 가상의 컴퓨터 유저와 실제 유저가 함께 게임에 참여하는 형태로 구성될 수 있다. 이는 유저측 단말기(100) 상에서 구현되는 퍼즐 게임 환경에서 하나의 실제 유저와 하나의 컴퓨터 유저가 함께 게임을 플레이 한다. 다른 측면에서, 퍼즐 게임 서버(200)가 제공하는 퍼즐 게임 서비스는 복수의 유저측 디바이스가 참여하여 퍼즐 게임이 플레이되는 형태로 구성될 수도 있다.

퍼즐 게임 서버(200)는 명령들을 저장하는 적어도 하나의 메모리(201), 적어도 하나의 프로세서(202) 및 통신부(203)를 포함할 수 있다.

퍼즐 게임 서버(200)의 메모리(201)는 퍼즐 게임 서버(200)에서 구동되는 다수의 응용 프로그램(application program) 또는 애플리케이션(application), 퍼즐 게임 서버(200)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 명령들은 프로세서(202)로 하여금 동작들을 수행하게 하기 위해 프로세서(202)에 의해 실행 가능하고, 동작들은 게임 실행 요청 신호 수신, 게임 데이터 송수신, 행동 정보 송수신 및 각종 전송 동작을 포함할 수 있다. 또한, 메모리(201)는 하드웨어적으로, ROM, RAM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기 일 수 있고, 메모리(201)는 인터넷(internet)상에서 상기 메모리(201)의 저장 기능을 수행하는 웹 스토리지(web storage)일 수도 있다.

퍼즐 게임 서버(200)의 프로세서(202)는 전반적인 동작을 제어하여 퍼즐 게임 서비스를 제공하기 위한 데이터 처리를 수행할 수 있다. 이러한 프로세서(202)는 ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 임의의 형태의 프로세서일 수 있다.

퍼즐 게임 서버(200)는 통신부(203)를 통해 네트워크(500)를 경유하여 단말기(100), 게임 플레이 서버(300) 및 게임 난이도 예측 서버(400)와 통신을 수행할 수 있다.

<게임 플레이 서버(300)>

게임 플레이 서버(300)는, 별도의 클라우드 서버나 컴퓨팅 장치를 포함할 수 있다. 또한, 게임 플레이 서버(300)는 단말기(100)의 프로세서 또는 퍼즐 게임 서버(200)의 데이터 처리부에 설치된 신경망 시스템 또는 게임 난이도 예측 서버(400)의 데이터 처리부에 설치된 신경망 시스템일 수 있지만, 이하에서 게임 플레이 서버(300)는, 단말기(100) 또는 퍼즐 게임 서버(200) 또는 게임 난이도 예측 서버(400)와 별도의 장치로 설명한다.

게임 플레이 서버(300)는 명령들을 저장하는 적어도 하나의 메모리(301), 적어도 하나의 프로세서(302) 및 통신부(303)를 포함할 수 있다.

게임 플레이 서버(300)는 퍼즐 게임 규칙에 따라 스스로 학습하여 딥러닝 모델인 에이전트 모델을 구축하고 게임맵에서 게임 플레이를 할 수 있는 인공지능 컴퓨터이다. 게임 플레이 서버(300)가 에이전트 모델로 트레이닝하는 자세한 설명은 도 10 내지 도 13의 에이전트 모델에 관한 설명을 따른다.

게임 플레이 서버(300)의 메모리(301)는 게임 플레이 서버(300)에서 구동되는 다수의 응용 프로그램(application program) 또는 애플리케이션(application), 게임 플레이 서버(300)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 명령들은 프로세서(302)로 하여금 동작들을 수행하게 하기 위해 프로세서(302)에 의해 실행 가능하고, 동작들은 에이전트 모델 학습(트레이닝) 동작, 행동 정보 송수신 및 각종 전송 동작을 포함할 수 있다. 또한, 메모리(301)는 딥러닝 모델인 에이전트 모델을 저장 할 수 있다. 또한, 메모리(300)는 에이전트 모델의 승률, 학습에 이용된 게임맵, 학습에 이용되지 않은 게임맵 및 학습을 위한 트레이닝 데이터 셋을 저장할 수 있다. 또한, 메모리(301)는 하드웨어적으로, ROM, RAM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기 일 수 있고, 메모리(301)는 인터넷(internet)상에서 상기 메모리(301)의 저장 기능을 수행하는 웹 스토리지(web storage)일 수도 있다.

게임 플레이 서버(300)의 프로세서(302)는 메모리(302)에 저장된 에이전트 모델을 독출하여, 구축된 신경망 시스템에 따라서 하기 기술하는 에이전트 모델 학습 및 조작 퍼즐 행동을 수행하게 된다. 실시예에 따라서 프로세서(302)는, 전체 유닛들을 제어하는 메인 프로세서와, 에이전트 모델에 따라 신경망 구동시 필요한 대용량의 연산을 처리하는 복수의 그래픽 프로세서(Graphics Processing Unit, GPU)를 포함하도록 구성될 수 있다.

게임 플레이 서버(300)는 통신부(303)를 통해 네트워크(500)를 경유하여 퍼즐 게임 서버(200) 또는 게임 난이도 예측 서버(400)와 통신을 수행할 수 있다.

<게임 난이도 예측 서버(400)>

게임 난이도 예측 서버(400)는, 별도의 클라우드 서버나 컴퓨팅 장치를 포함할 수 있다. 또한, 게임 난이도 예측 서버(400)는 단말기(100)의 프로세서 또는 퍼즐 게임 서버(200)의 데이터 처리부에 설치된 신경망 시스템일 수 있지만, 이하에서 게임 난이도 예측 서버(400)는, 단말기(100) 또는 퍼즐 게임 서버(200)와 별도의 장치로 설명한다.

게임 난이도 예측 서버(400)는 명령들을 저장하는 적어도 하나의 메모리(401), 적어도 하나의 프로세서(402) 및 통신부(403)를 포함할 수 있다.

게임 난이도 예측 서버(400)는 통신부(403)를 통하여 퍼즐 게임 서버(200)로부터 사용자 승률 또는 게임 플레이 서버(300)로부터 에이전트 모델의 승률을 수신할 수 있다. 게임 난이도 예측 서버(400)는 수신한 사용자의 승률과 에이전트 모델의 승률을 이용하여 게임 난이도 예측 모델을 학습할 수 있다. 게임 난이도 예측 서버(400)가 게임 난이도 예측 모델을 학습하는 자세한 설명은 도 5의 게임 난이도 예측 모델에 관한 설명을 따른다. 또한, 게임 난이도 예측 서버(400)는 게임 난이도 조정부가 예측된 게임 난이도에 기반하여 게임맵의 게임 난이도를 조정할 수 있다. 게임 난이도 조정에 관한 자세한 설명은 도 6 내지 도 9의 설명을 따른다.

게임 난이도 예측 서버(400)의 메모리(401)는 게임 난이도 예측 서버(400)에서 구동되는 다수의 응용 프로그램(application program) 또는 애플리케이션(application), 게임 난이도 예측 서버(400)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 명령들은 프로세서(402)로 하여금 동작들을 수행하게 하기 위해 프로세서(402)에 의해 실행 가능하고, 동작들은 게임 난이도 예측 모델 학습(트레이닝) 동작, 게임 난이도 예측 수행, 게임맵의 게임 난이도 조정 및 각종 전송 동작을 포함할 수 있다. 또한, 메모리(401)는 딥러닝 모델인 게임 난이도 예측 모델 및 게임 난이도 조정부를 저장 할 수 있다. 또한, 메모리(401)는 하드웨어적으로, ROM, RAM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기 일 수 있고, 메모리(401)는 인터넷(internet)상에서 상기 메모리(301)의 저장 기능을 수행하는 웹 스토리지(web storage)일 수도 있다.

게임 난이도 예측 서버(400)의 프로세서(402)는 메모리(402)에 저장된 게임 난이도 예측 모델을 독출하여, 구축된 신경망 시스템에 따라서 하기 기술하는 게임 난이도 예측 또는 게임맵에 대한 게임 난이도 조정을 수행하게 된다. 실시예에 따라서 프로세서(402)는, 전체 유닛들을 제어하는 메인 프로세서와, 게임 난이도 예측 모델에 따라 신경망 구동시 필요한 대용량의 연산을 처리하는 복수의 그래픽 프로세서(Graphics Processing Unit, GPU)를 포함하도록 구성될 수 있다.

게임 난이도 예측 서버(400)는 통신부(403)를 통해 네트워크(500)를 경유하여 퍼즐 게임 서버(200) 또는 게임 플레이 서버(300)와 통신을 수행할 수 있다.

<에이전트 모델(310)>

도 2는 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서버에서 게임맵에서 행동을 위한 에이전트 모델을 설명하기 위한 도면이고, 도 3은 도 2의 에이전트 모델의 행동 방식을 설명하기 위한 일 예이고, 도 4는도 2의 에이전트 모델의 행동 방식을 설명하기 위한 다른 예이다.

본 발명의 실시예에 따른 에이전트 모델(310)은 게임 플레이 서버(300)의 딥러닝 모델일 수 있다. 에이전트 모델(310)은 게임맵의 현재 상태(S)에 대하여 가능한 행동(A) 중 어느 하나의 행동(O)을 할 수 있다. 특히, 에이전트 모델(310)은 게임맵의 현재 상태(S)에서 큰 점수를 얻는 행동(O)을 할 수 있다. 예를 들어, 도 2를 참조하면, 게임맵은 가로 9칸, 세로 12칸일 수 있다. 게임맵에는 한칸 크기이고 4가지 색상의 고정 퍼즐(fp)이 배치될 수 있다. 조작 퍼즐(cp)은 두칸 크기이고 고정 퍼즐(fp)과 대응되는 4가지 색상 중 두가지 색상을 구성되거나 한가지 색상으로만 구성될 수 있다. 에이전트 모델(310)은 고정 퍼즐(fp)과 동일한 색상의 조작 퍼즐(cp)이 매칭되도록 조작 퍼즐(cp)을 행동할 수 있다. 에이전트 모델(310)이 가능한 행동(A)은 조작 퍼즐(cp)의 위치 변경, 회전 등을 포함할 수 있다. 일 예로, 도 3을 참조하면, 에이전트 모델(310)이 가능한 행동(A)은 기본 행동(BA)과 특수 행동(SA)을 포함할 수 있다. 기본 행동(BA)은 조작 퍼즐(cp)의 방향 또는 위치를 변경하여 게임맵에 배치하는 행동일 수 있다. 기본 행동(BA)은 게임맵 크기와 퍼즐 색상을 고려하여 432가지(9X12X4)의 행동을 포함할 수 있다. 특수 행동(SA)은 스킬 행동과 스위치 행동을 포함할 수 있다. 스위치 행동은 랜덤하게 생성되어 순서대로 배치된 조작 퍼즐(cp)의 순서를 변경하는 행동이다. 다른 예로 도4를 참조하면, 에이전트 모델(310)이 가능한 생동(A)은 기본 행동(BA), 특수 행동(SA) 및 준비 행동(PA)을 포함할 수 있다. 기본 행동(BA)과 특수 행동(SA)의 설명을 앞서 설명한 일 예와 동일하다. 준비 행동(PA)은 게임 시작전 조작 퍼즐(cp)에서 기본 행동(BA)에 사용될 후보 퍼즐을 소정의 개수만큼 선택하는 행동이다. 즉, 에이전트 모델(310)은 준비 행동(PA)을 포함하여 행동(A)을 할 경우 게임 시작전에 준비 행동(PA)을 통하여 게임 플레이에 사용할 조작 퍼즐(cp)의 후보를 선택할 수 있다. 또한, 준비 행동(PA)은 게임 시작전 복수의 특수 행동(SA) 중 어느 하나의 특수 행동을 후보 특수 행동으로 선택하고 게임 플레이 중에 후보 특수 행동을 할 수 있다.

또한, 에이전트 모델(310)은 학습되지 않은 신규맵에서도 3매치 퍼즐 게임을 수행할 수 있다. 에이전트 모델(310)이 신규맵에서도 3매치 퍼즐 게임을 수행하도록 학습하는 방법은 도 10 내지 도 13의 에이전트 모델 학습 방법의 설명을 따른다.

<게임 난이도 예측 모델(410) 및 게임 난이도 조정>

도 5는 게임 난이도 예측 서버에서 게임 난이도 예측 모델을 생성하는 방법을 설명하기 위한 도면이고, 도 6은 게임 난이도 예측 서버에서 새로운 맵에 대한 게임 난이도 예측 및 게임 난이도 조정하는 방법을 설명하기 위한 도면이고, 도 7은 게임 난이도에 따른 게임맵의 예시도이고, 도 8은 게임맵의 게임 난이도를 조정하는 방법을 설명하기 위한 도면이고, 도 9는 게임맵의 스테이지에 따른 게임 난이도를 설정하는 예시도이다.

게임 난이도 예측 모델(410)은 학습되지 않은 게임맵에 대한 게임 난이도를 예측할 수 있다. 도 5를 참조하면, 게임 난이도 예측 모델(410)이 학습되지 않은 게임맵에 대한 게임 난이도를 예측하기 위해서는 학습된 게임맵(SM)에 대한 에이전트 모델(410)의 승률(agent model success rate; ASR)과 사용자(110)의 승률(user success rate; USR)을 이용하여 학습이 되어야 한다. 사용자(110)의 승률(USR)은 단말기(100)에 저장된 승률일 수 있다. 게임 난이도 예측 모델(410)의 학습 방법은 학습된 게임맵(SM)에 대한 사용자의 승률(USR)과 학습된 게임맵(stage map; SM)에 대한 에이전트 모델의 승률(ASR) 간의 차이를 이용한 선형 분석을 하는 것이다. 선형 분석의 일 예로, 이항 회귀 분석을 할 수 있다. 승률은 게임맵에서 게임 플레이를 시도한 횟수에 대한 게임을 클리어하여 성공한 횟수 일 수 있다. 학습된 게임맵(SM)은 에이전트 모델(310)의 학습된 게임맵일 수 있고, 사용자(110)의 단말기(100)에 퍼즐 게임 서버(200)로부터 제공되는 게임맵일 수 있다. 도 6을 참조하면, 학습결과, 게임 난이도 예측 모델(410)은 학습되지 않은 게임맵(new map; NM)에 대한 에이전트의 승률(ASR)을 입력하면 사용자의 승률(predicted USR; PUSR)을 예측할 수 있게되어 게임 난이도를 예측할 수 있는 것이다. 게임 난이도 예측 모델(410)은 수학식 1을 따라서 에이전트 모델의 승률(ASR)을 입력으로 하여 예측된 사용자의 승률(PUSR)을 출력할 수 있다.

(수학식 1)

수학식 1에서,

은 에이전트 모델 성공률(ASR)의 하이퍼 파라미터이다.

는 게임맵에 대한 하나 이상의 고유 특성이다.

는 게임맵의 각 고유 특성에 대한 하이퍼 파라미터이다.

또한, 게임 난이도 예측 서버(400)는 게임 난이도 예측 모델(410)과 게임 난이도 조정부(420)를 이용하여 학습되지 않은 게임맵(NM), 즉 신규맵에 대한 게임 난이도를 조정할 수 있다. 게임맵은 고정 퍼즐의 개수, 고정 퍼즐이 인접한 정도, 사용가능한 조작 퍼즐의 개수, 고정 퍼즐의 배치 등에 따라 게임 난이도가 결정될 수 있다. 일 예로, 도 7을 참조하면, 게임 난이도를 레벨 1부터 레벨10으로 레벨이 올라갈수록 고정 퍼즐의 개수가 증가하고, 동일한 색상의 고정 퍼즐의 인접도가 증가하하여 게임 난이도가 높아지는 게임맵의 예시이다. 게임 난이도가 높아 질수록 조작 퍼즐의 행동으로 고정 퍼즐을 3매치로 제거하는 것이 어려워지는 것이다. 또한, 게임 난이도 예측 서버(400)는 학습되지 않은 게임맵(NM)을 에이전트 모델(310)이 플레이 하여 에이전트 모델(310)의 승률(ASR)을 수신할 수 있다. 게임 난이도 예측 서버(400)는 게임 난이도 예측 모델(410)을 이용하여 에이전트 모델의 승률(ASR)을 입력으로 하여 사용자의 예측 승률(PUSR)을 산출할 수 있다. 게임 난이도 예측 서버(400)는 사용자의 예측 승률(PUSR)을 기반으로 게임 난이도 조정부(420)가 학습되지 않은 게임맵(NM)의 게임 난이도를 조정할 수 있다. 게임 난이도 조정은 게임맵의 고정 퍼즐의 개수, 고정 퍼즐이 인접한 정도, 사용가능한 조작 퍼즐의 개수, 고정 퍼즐의 배치 등을 조정하는 것이다. 일 예로, 게임 난이도를 높이기 위하여 고정 퍼즐의 개수를 증가시키거나 동일 색상의 고정 퍼즐의 더 멀리 배치하거나 사용가능한 조작 퍼즐의 수를 줄일 수 있다. 게임 난이도를 낮추기 위하여 고정 퍼즐의 개수를 감소시키거나 동일 색상의 고정 퍼즐을 서로 인접하게 배치하거나 사용가능한 조작 퍼즐의 수를 증가시킬 수 있다. 예를 들어, 도 8을 참조하면, 게임 난이도 예측 서버(400)는 게임맵의 난이도를 평가하였는데 난이도가 높은 것으로 평가된 경우 고정 퍼즐의 수를 감소시키고, 고정 퍼즐의 배치를 변경하여 난이도를 낮출 수 있다.

도 9를 참조하면, 게임 난이도 예측 서버(400)는 게임맵의 스테이지가 올라갈수록 게임맵의 난이도가 증가하되 n+5 스테이지의 다음 스테이지의 난이도는 이전 스테이지의 난이도 보다 감소시킬 수 있다. n은 자연수이다. 즉, n+6 스테이지는 이전 스테이지인 n+5 스테이지 보다 난이도가 낮을 수 있다. 사용자는 스테이지가 올라갈수록 게임 난이도가 계속하여 증가하면 게임이 어렵다고 느껴 게임 흥미가 감소할 수 있다. 이에, 본 발명의 게임 난이도 예측 서버(400)는 게임 난이도가 증가하다 감소하였다가 다시 증가하는 식으로 조정하여 사용자가 게임이 재미있게 느껴 흥미를 유발할 수 있다.

따라서, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 장치는 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버를 이용하여 게임맵의 난이도를 예측하고 게임맵을 수정할 수 있다. 또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 장치는 학습되지 않은 새로운 게임맵에서도 게임 플레이가 가능한 게임 플레이 서버를 제공할 수 있다. 또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법 및 그 장치는 새로운 게임맵에 대한 게임 난이도를 예측할 수 있다. 또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 장치는 게임맵의 게임 난이도를 조절하여 게임에 대한 흥미를 유발할 수 있다.

<딥러닝 기반의 게임 플레이 서비스 방법>

도 10은 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법에 대한 순서도이고, 도 11은 도 10의 딥러닝 기반의 게임 플레이 서비스 방법 중 복수의 제2 게임맵에 대한 예시도이고, 도 12는 도 10의 딥러닝 기반의 게임 플레이 서비스 방법 중 복수의 분할 게임맵 생성 및 트레이닝 데이터 셋 생성 방법을 설명하기 위한 예시도이다.

본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법은, 딥러닝 기반의 게임 플레이 서버가 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임을 수행할 수 있다.

도 10을 참조하면, 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법은, 제1 크기의 복수의 제1 게임맵 및 제2 크기의 복수의 제2 게임맵을 수신하는 단계(S1001)를 포함할 수 있다. 자세히, 제1 게임맵은 제1 크기이고, 제2 게임맵은 제2 크기이다. 제1 게임맵은 실제 퍼즐 게임 서버(200)가 단말기(100)에 게임 서비스로 제공하는 게임맵이다. 제2 게임맵은 에이전트 모델의 학습을 위해 사용되는 게임맵이다. 제1 게임맵의 제1 크기는 제2 게임맵의 제2 크기보다 클 수 있다. 즉, 게2 게임맵은 제1 게임맵의 미니 맵일 수 있다. 일 예로, 제1 게임맵의 제1 크기는 도 2와 도 7과 같이 9X12 크기 일 수 있다. 제2 게임맵(MM)의 제2 크기는 도 11과 같이 5X5크기 일 수 있다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법은, 복수의 제2 게임맵(MM)에 대하여 큰 점수를 얻는 행동을 하도록 에이전트 모델(310)을 제1 강화학습하는 단계(S1002)를 포함할 수 있다. 자세히, 게임 플레이 서버(300)는 에이전트 모델(310)을 제1 강화학습시키기 위하여 제1 게임맵이 아닌 제2 게임맵(MM)을 이용하여 먼저 강화학습시킬 수 있다. 처음부터 제1 게임맵을 이용하여 강화학습할 경우 제1 게임맵의 크기가 커서 경우의 수가 많기 때문에 에이전트 모델(310)이 학습되지 않는 문제가 있기 때문이다. 따라서, 경우의 수가 작은 제1 게임맵의 미니맵인 제2 게임맵을 이용하면 제2 게임맵에 대하여 에이전트 모델(310)이 게임 플레이를 수행하여 점수를 얻도록 강화학습 될 수 있다. 제1 강화학습은 RND(Random Network Distrillation)을 이용할 수 있다. RND는 목표, 예측 및 정책 신경망으로 구성될 수 있다. 정책 신경망은 에이전트의 행동을 결정하는 신경망이며, 목표 및 예측 신경망은 다음 상태 값을 입력으로 받아서 어떤 특징 값을 출력하는 신경망이다. 목표 신경망은 가중치가 랜덤하게 설정되어 고정되며, 예측 신경망은 목표 신경망과 동일한 구조를 갖는 신경망으로 목표 신경망과 동 일한 출력을 내도록 정책 신경망과 함께 학습된다. 즉, 랜덤 신경망(Random network)을 예측 신경망에 증류(Distillation)하는 효과가 있기에 random network distillation이라 불린다. RND에서는 내적 보상을 위한 가치 함수와 외적 보상을 위한 가치 함수를 각각 구한 후 합치는 방식을 택하였으며, 정책 신경망 최적화를 위해서 PPO(Proximal Policy Optimization)를 사용한다. 또한, 게임 플레이 서버(300)는 에이전트 모델(310)의 제1 강화학습시 입력에 제2 게임맵(MM)과 함께 가우시안 노이즈를 섞어서 입력할 수 있다. 이 경우, 에이전트 모델(310)의 학습이 좀 더 효율적으로 될 수 있다. 또한, 게임 플레이 서버(300)는 에이전트 모델(310)의 제1 강화학습시 복수의 제2 게임맵을 입력할 때 게임 난이도가 낮은 맵에서 높은 맵의 순서로 입력하여 강화학습을 수행할 수 있다. 이에, 에이전트 모델(310)의 학습이 좀 더 효율적을 될 수 있다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법은, 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 제2 크기의 복수의 분할 게임맵을 생성하는 단계(S1003)를 포함할 수 있다. 일 예로, 도 12와 같이 소정의 게임맵에서 고정 퍼즐을 주심으로 하여 분할 게임맵(PM)을 복수개 생성할 수 있다. 제1 분할 게임맵(PM1)과 제2 분할 게임맵(PM2)에 대한 모습을 볼 수 있다. 분할 게임맵(PM)은 게임맵에서 소정의 영역만큼 창을 분할한 것이다. 분할 게임맵은 제2 게임맵의 크기와 동일하게 제2 크기일 수 있다. 일 예로, 분할 게임맵의 크기는 5X5크기일 수 있다. 게임 플레이 서버(300)는 제2 크기의 게임맵으로 학습된 에이전트 모델(310)이 제1 게임맵 내의 제2 크기의 분할 게임맵 각각에 대하여 조작 퍼즐의 행동을 판단할 수 있게 한다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법은, 복수의 제1 게임맵 각각을 입력 데이터로 하고, 복수의 제1 게임맵 각각에 대하여 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하는 단계(S1004)를 포함할 수 있다. 보다 구체적으로, 게임 플레이 서버(300)는 에이전트 모델(310)이 소정의 제1 게임맵 내에 존재하는 복수의 분할 게임맵 중 가장 높은 점수를 얻는 행동을 하는 분할 게임 맵에서의 행동을 선택하여 제1 게임맵에서의 행동을 한다. 즉, 에이전트 모델(310)은 복수의 분할 게임맵 중 가장 좋은 행동을 선택하는 것이다. 일 예로, 도 12와 같이, 제1 게임맵 내에 제1 분할 게임맵(PM1)과 제2 분할 게임맵(PM2)이 있다. 제1 분할 게임맵(PM1)에서 조작 퍼즐을 고정 퍼즐에 배치하여 3매치 제거로 얻는 점수는 1점이다. 제2 분할 게임맵(PM2)에서 조작 퍼즐을 고정 퍼즐에 배차하여 3매치 제거로 얻는 점수는 10이다. 제2 분할 게임맵(PM2)에서의 행동이 제1 분할 게임맵(PM1)에서의 행동보다 더 높은 점수를 얻을 수 있다. 또한, 게임 플레이 서버(300)은 제2 분할 게임맵(PM2)의 행동을 소정의 제1 게임맵에대한 정답레이블로 지장하여 소정의 제1 게임맵과 제2 분할 게임맵(PM2)을 트레이닝 데이터 셋에 포함시킬 수 있다. 게임 플레이 서버(300)는 같은 방식으로 복수의 제1 게임맵에 대해서 정달 레이블을 생성하고 트레이닝 데이터 셋을 모을 수 있다. 또한, 게임 플레이 서버(300)는 에이전트 모델(310)의 교사학습시 복수의 제1 게임맵을 입력할 때 게임 난이도가 낮은 맵에서 높은 맵의 순서로 입력하여 강화학습을 수행할 수 있다. 이경우, 트레이닝 데이터 셋은 게임 난이도가 낮은 맵에서 높은 맵의 순서로 구성될 수 있다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법은, 제1 강화학습된 에이전트 모델을 트레이닝 데이터 셋을 이용하여 교사 학습하는 단계(S1005)를 포함할 수 있다. 보다 구체적으로, 게임 플레이 서버(300)는 제2 크기의 제2 게임맵에 대하여 제1 강화학습된 에이전트 모델(310)을 제1 게임맵의 분할 게임맵을 이용하여 획득한 트레이닝 데이터 셋을 이용하여 교사학습할 수 있다. 이에, 교사학습된 에이전트 모델(310)은 제1 크기의 제1 게임맵에 대해서도 게임맵을 분할하지 않아도 게임 플레이를 할 수 있게 된다. 또한, 게임 플레이 서버(300)는 게임 난이도가 낮은 맵에서 높은 맵의 순으로된 트레이닝 데이터 셋을 에이전트 모델(310)에 순서대로 입력하여 더 효율 높게 학습시킬 수 있다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 플레이 서비스 방법은, 교사 학습된 에이전트 모델을 복수의 제1 게임맵에 대하여 제2 강화학습하는 단계(S1006)를 포함할 수 있다. 보다 구체적으로, 교사 학습된 에이전트 모델이 경우의 수가 많은 제1 게임맵에 대하여 어느 정도 게임 플레이를 수행할 수 있지만 분할 게임맵으로 학습되어서 분할 게임맵 사이에 빈 공간을 고려하여서 학습된 것이 아니기 때문에 가장 높은 점수를 얻는 행동을 하지 않는 경우가 발생할 수 있다. 이에, 게임 플레이 서버(300)는 제1 게임맵에서 플레이가 가능하게 된 에이전트 모델(310)을 할번더 복수의 수많은 제1 게임맵에 대하여 제2 강화학습을 시키는 것이다. 제2 강화학습은 제1 강화학습과 유사하게 RND와 PPO를 이용할 수 있다. 또한, 게임 플레이 서버(300)는 제2 강화학습을 할 때 에이전트 모델(310)에 제1 게임맵과 함께 가우시안 노이즈를 섞어서 입력할 수 있다. 이 경우, 에이전트 모델(310)의 학습이 좀 더 효율적으로 될 수 있다.

따라서, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법은 학습되지 않은 새로운 게임맵에서도 게임 플레이가 가능한 게임 플레이 서버를 제공할 수 있다.

도 13은 본 발명의 에이전트 모델과 종래 기술에 따른 에이전트 모델의 비교예이다.

도 13을 참조하면, 에이전트 모델을 본 발명에 의한 딥러닝 기반의 게임 플레이 서비스 방법에 의해 학습한 경우와 종래 기술에 따른 다른 학습 방법에 의해 학습한 경우의 성능을 비교하였다. 게임맵의 레벨이 5이하에서는 에이전트 모델들의 성능이 유사하다. 그러나 가장 난이도가 높은 레벨 10에서의 게임맵서 성능이 차이가 있음을 알 수 있다. 먼저 종래 기술에 따른 학습 방법인 MCTS 알고리즘, CNN 교사학습, 9x12의 강화학습으로 학습된 에이전트 모델은 성공률이 급격히 낮아지는 것을 알 수 있다. 그러나 본 발명의 게임맵을 분할하여 강화학습한 방법(RL(5x5))는 레벨 10의 게임맵에서도 높은 성공률을 보인다. 더 나아가, 본 발명의 분할 게임맵에서 강화 학습된 에이전트 모델을 다시 교사 학습한 후 다시 9x12게임맵에서 강화학습한 에이전트 모델은 레벨 10에서 가장 높은 성공률을 보여준다.

도 14는 본 발명의 딥러닝 기반의 게임 난이도 예측 방법에 대한 순서도이다.

본 발명의 실시예에 따른 딥러닝 기반의 게임 난이도 예측 방법은, 딥러닝 기반의 게임 난이도 예측 서버가 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임에 관한 것으로 학습되지 않은 게임맵에 대한 사용자의 난이도를 예측할 수 있다.

도 14를 참고하면, 본 발명의 실시예에 따른 딥러닝 기반의 게임 난이도 예측 방법은, 학습되지 않은 게임 맵 및 학습된 게임 맵에 대한 사용자의 승률을 수신하는 단계(S1401)를 포함할 수 있다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 난이도 예측 방법은, 에이전트 모델의 승률과 사용자의 승률의 차이를 이용한 이항 회귀 분석을 통해 게임 난이도 예측 모델을 학습하는 단계(S1402)를 포함할 수 있다. 게임 난이도 예측 모델(410)을 학습하는 방법은 도 5의 설명을 따른다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 난이도 예측 방법은, 학습되지 않은 게임맵에 대한 에이전트 모델의 승률을 산출하는 단계(S1403)을 포함할 수 있다. 보다 구체적으로, 학습된 에이전트 모델의 승률은 에이전트 모델(310)이 학습되지 않은 게임맵에대하여 게임을 수행해서 얻은 승률이다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 난이도 예측 방법은, 게임 난이도 예측 모델을 통해 학습되지 않은 게임맵에 대한 에이전트 모델의 승률을 입력으로 하여 학습되지 않은 게임맵에 대한 사용자의 승률을 예측하는 단계(S1404)를 포함할 수 있다. 사용자의 승률을 예측하는 방법은 도 6의 설명을 따른다.

또한, 본 발명의 실시예에 따른 딥러닝 기반의 게임 난이도 예측 방법은, 예측된 학습되지 않은 게임맵에 대한 사용자의 승률을 이용하여 상기 학습되지 않은 게임맵의 난이도를 수정하는 단계(S1405)를 포함할 수 있다. 학습되지 않은 게임맵의 난이도를 수정하는 방법은 도 6 내지 도 9의 설명을 따른다.

따라서, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법은 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버를 이용하여 게임맵의 난이도를 예측하고 게임맵을 수정할 수 있다. 또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법은 새로운 게임맵에 대한 게임 난이도를 예측할 수 있다. 또한, 실시예에 따른 딥러닝 기반의 게임 플레이 서버를 이용한 게임 난이도 예측 방법은 게임맵의 게임 난이도를 조절하여 게임에 대한 흥미를 유발할 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

또한 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술할 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정하여져야만 할 것이다.

100 단말기
200 퍼즐 게임 서버
210 에이전트 모델
300 게임 플레이 서버
400 게임 난이도 예측 서버
410 게임 난이도 예측 모델

Claims

게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서버에 있어서,
제1 크기의 복수의 제1 게임맵 및 상기 제1 크기보다 작은 제2 크기의 복수의 제2 게임맵을 수신하는 통신부;
에이전트 모델을 저장하는 저장부; 및
상기 에이전트 모델을 독출하여 상기 에이전트 모델의 학습을 수행하고 상기 학습된 에이전트 모델을 이용하여 상기 3매치 퍼즐 게임을 수행하는 프로세서;를 포함하고,
상기 프로세서는,
상기 복수의 제2 게임맵에 대하여 큰 점수를 얻는 행동을 하도록 상기 에이전트 모델을 제1 강화학습하고,
상기 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 상기 제2 크기의 복수의 분할 게임맵을 생성하고,
상기 복수의 제1 게임맵 각각을 입력 데이터로 하고, 상기 복수의 제1 게임맵 각각에 대하여 상기 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하고,
상기 제1 강화학습된 에이전트 모델을 상기 트레이닝 데이터 셋을 이용하여 교사 학습하고,
상기 교사 학습된 에이전트 모델을 상기 복수의 제1 게임맵에 대하여 제2 강화학습하는 것을 특징으로 하는
딥러닝 기반의 게임 플레이 서버.
제1 항에 있어서,
상기 복수의 제1 게임맵과 상기 복수의 제2 게임맵은 상기 고정 퍼즐의 배치에 따라 게임 난이도가 있고,
상기 프로세서는, 상기 복수의 제1 게임맵과 상기 복수의 제2 게임맵을 입력할 때 게임 난이도가 낮은 맵에서 높은 맵의 순서로 입력하여 상기 에이전트 모델을 학습하는 것을 특징으로 하는
딥러닝 기반의 게임 플레이 서버.
제1 항에 있어서,
상기 프로세서는, 상기 제1 강화학습 또는 상기 제2 강화학습의 입력에 가우시안 노이즈를 섞어서 입력하여 상기 에이전트 모델을 학습하는 것을 특징으로 하는
딥러닝 기반의 게임 플레이 서버.
제1 항에 있어서,
상기 조작 퍼즐은 게임 시작시 4가지 색상으로 랜덤하게 선택 순서가 정해지고,
상기 행동은 기본 행동 및 스위치 행동을 포함하고,
상기 기본 행동은 조작 퍼즐의 방향 및 위치를 변경하여 게임맵에 배치하는 행동이고,
상기 스위치 행동은 상기 조작 퍼즐의 순서를 변경하는 것을 특징으로 하는
딥러닝 기반의 게임 플레이 서버.
제1 항에 있어서,
상기 조작 퍼즐은 4가지 색상이고,
상기 행동은 준비 행동 및 기본 행동을 포함하고,
상기 준비 행동은 상기 조작 퍼즐에서 상기 기본 행동에 사용될 후보 퍼즐을 소정의 개수만큼 선택하는 행동이고,
상기 기본 행동은 상기 후보 퍼즐의 방향 및 위치를 변경하여 게임맵에 배치하는 행동인 것을 특징으로 하는
딥러닝 기반의 게임 플레이 서버.
게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임에 관한 것으로 학습되지 않은 게임맵에 대한 사용자의 난이도를 예측하는 딥러닝 기반의 게임 난이도 예측 서버에 있어서,
학습되지 않은 게임 맵 및 학습된 게임 맵에 대한 사용자의 승률을 수신하는 통신부;
에이전트 모델, 게임 난이도 예측 모델 및 학습된 게임맵에 대한 상기 에이전트 모델의 승률을 저장하는 저장부; 및
상기 게임 난이도 예측 모델을 독출하여 상기 게임 난이도 예측 모델의 학습을 수행하고 상기 학습된 게임 난이도 예측 모델을 이용하여 상기 학습되지 않은 게임맵에 대한 게임 난이도를 예측하는 프로세서;를 포함하고,
상기 프로세서는,
상기 학습된 게임맵에 대한 에이전트 모델의 승률과 상기 학습된 게임 맵에 대한 사용자의 승률의 차이를 이용한 이항 회귀 분석을 통해 상기 게임 난이도 예측 모델을 학습하고,
상기 학습되지 않은 게임맵에 대한 에이전트 모델의 승률을 산출하고,
상기 게임 난이도 예측 모델을 통해 상기 학습되지 않은 게임맵에 대한 에이전트 모델의 승률을 입력으로 하여 상기 학습되지 않은 게임맵에 대한 사용자의 승률을 예측하는 것을 특징으로 하는
딥러닝 기반의 게임 난이도 예측 서버.
제6 항에 있어서,
상기 프로세서는, 상기 예측된 학습되지 않은 게임맵에 대한 사용자의 승률을 이용하여 상기 학습되지 않은 게임맵의 난이도를 수정하는
딥러닝 기반의 게임 난이도 예측 서버.
제7 항에 있어서,
상기 프로세서는,
상기 학습되지 않은 게임맵의 난이도를 스테이지가 올라갈수록 증가시키고, n+5 스테이지의 다음 스테이지의 난이도는 이전 스테이지의 난이도 보다 감소시키는
딥러닝 기반의 게임 난이도 예측 서버.
(n은 1 이상의 자연수이다.)
제7 항에 있어서,
상기 프로세서는, 상기 학습되지 않은 게임맵에서 고정 퍼즐의 인접한 위치에 동일한 색상의 고정 퍼즐을 배치하여 난이도를 감소시키는
딥러닝 기반의 게임 난이도 예측 서버.
제6 항에 있어서,
상기 통신부는, 제1 크기의 복수의 제1 게임맵 및 상기 제1 크기보다 작은 제2 크기의 복수의 제2 게임맵을 수신하고,
상기 프로세서는,
상기 복수의 제2 게임맵에 대하여 큰 점수를 얻는 행동을 하도록 상기 에이전트 모델을 제1 강화학습하고,
상기 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 상기 제2 크기의 복수의 분할 게임맵을 생성하고,
상기 복수의 제1 게임맵 각각을 입력 데이터로 하고, 상기 복수의 제1 게임맵 각각에 대하여 상기 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하고,
상기 제1 강화학습된 에이전트 모델을 상기 트레이닝 데이터 셋을 이용하여 교사 학습하고,
상기 교사 학습된 에이전트 모델을 상기 복수의 제1 게임맵에 대하여 제2 강화학습하는 것을 특징으로 하는
딥러닝 기반의 게임 난이도 예측 서버.
통신부, 에이전트 모델이 저장된 저장부, 상기 에이전트 모델을 구동하는 프로세서를 포함하는 게임 플레이 서버가 게임맵에 배치된 고정 퍼즐에 조작 퍼즐을 배치하는 행동을 하여 동일한 색상의 퍼즐이 3이상 매칭되면 제거되고 점수를 얻는 3 매치 퍼즐 게임을 수행하는 딥러닝 기반의 게임 플레이 서비스 방법에 있어서,
상기 통신부가 제1 크기의 복수의 제1 게임맵 및 상기 제1 크기보다 작은 제2 크기의 복수의 제2 게임맵을 수신하는 단계;
상기 프로세서가 상기 복수의 제2 게임맵에 대하여 큰 점수를 얻는 행동을 하도록 상기 에이전트 모델을 제1 강화학습하는 단계;
상기 프로세서가 상기 복수의 제1 게임맵 각각에 대하여 고정 퍼즐의 수만큼 고정 퍼즐을 중심으로 배치하여 상기 제2 크기의 복수의 분할 게임맵을 생성하는 단계;
상기 프로세서가 상기 복수의 제1 게임맵 각각을 입력 데이터로 하고, 상기 복수의 제1 게임맵 각각에 대하여 상기 제2 크기의 복수의 분할 게임맵에 대한 행동 중 가장 큰 점수를 얻는 행동을 하는 분할 게임맵의 행동을 정답 레이블로 하여 트레이닝 데이터 셋을 생성하는 단계;
상기 프로세서가 상기 제1 강화학습된 에이전트 모델을 상기 트레이닝 데이터 셋을 이용하여 교사 학습하는 단계; 및
상기 프로세서가 상기 교사 학습된 에이전트 모델을 상기 복수의 제1 게임맵에 대하여 제2 강화학습하는 단계를 포함하는 것을 특징으로 하는
딥러닝 기반의 게임 플레이 서비스 방법.