KR102535644B1

KR102535644B1 - 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법

Info

Publication number: KR102535644B1
Application number: KR1020190179850A
Authority: KR
Inventors: 장시환; 김찬섭; 양성일
Original assignee: 한국전자통신연구원
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-05-23
Also published as: US20210200923A1; KR20210086131A

Abstract

인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법이 제공된다. 모의 실험 환경 제공 장치는, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면(scene) 및 객체(object)를 제공하는 장면 객체 제공 모듈; 가상 컨텐츠에서 에이전트(agent)가 강화 학습을 수행하기 위해 사용되는 보상함수(reward function)를 제공하는 보상함수 제공 모듈; 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경(environment)에 관한 정보를 포함하는 가상 환경정보를 제공하는 환경정보 제공 모듈; 가상 컨텐츠에서의 에이전트의 상태(state)를 나타내는 가상 상태정보를 제공하는 상태정보 제공 모듈; 가상 컨텐츠에서의 에이전트의 행동(action)을 나타내는 가상 행동공간을 제공하는 행동공간 제공 모듈; 및 장면, 객체, 보상함수, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 모의 실험 환경에서 에이전트에 대한 가상학습을 수행하는 가상학습 모듈을 포함한다.

Description

인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법{DEVICE AND METHOD FOR PROVIDING SIMULATION ENVIRONMENT FOR AI AGENT LEARNING}

본 발명은 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법에 관한 것이다.

최근 강화 학습을 이용한 인공지능 에이전트(agent) 기술, 강화 학습 시뮬레이션 기술이 주목 받고 있다. 이에 대해 많은 연구자들의 관심이 높아지고, 연구 개발도 지속되고 있다. 다른 분야에 비해, 게임은 비교적 환경으로부터 정보 수집이 용이하고 에이전트의 행동에 대한 보상을 자유롭게 조절할 수 있기 때문에, 현실 세계의 복잡한 문제들을 해결하기 위한 테스트베드(testbed)로서 활용도가 높다.

다만, 사용자의 만족도를 향상시키기 위해 다양한 시나리오 및 기능의 구현이 요구되기 때문에, 게임의 복잡도 또한 나날이 증가하는 추세이다. 따라서 인공지능 에이전트 개발을 위해, 시간, 비용, 인력 등 자원이 많이 필요하다. 또한, 강화 학습은 반복되는 시행착오를 통해 보상을 습득하며 에이전트의 상태(state) 및 환경(environment)이 상호작용 하는 정책을 학습하는 방법이기 때문에, 보상함수가 잘못 설계되면 에이전트 학습이 어렵게 될 뿐 아니라, 학습 과정에서 예기치 못한 부작용이 발생할 수도 있다.

본 발명이 해결하고자 하는 과제는, 인공지능 에이전트 개발에 필요한 자원을 최소화하고, 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있는, 모의 실험 환경 제공 장치 및 방법을 제공하는 것이다.

본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치는, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면(scene) 및 객체(object)를 제공하는 장면 객체 제공 모듈; 상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수(reward function)를 제공하는 보상함수 제공 모듈; 상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 환경정보 제공 모듈; 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 상태정보 제공 모듈; 상기 가상 컨텐츠에서의 상기 에이전트의 행동(action)을 나타내는 가상 행동공간을 제공하는 행동공간 제공 모듈; 및 상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 가상학습 모듈을 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 에이전트 생성 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 에이전트 제어 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠로부터 상기 장면 및 객체를 생성하여 상기 장면 객체 제공 모듈에 전송하는 그래픽 간소화 모듈; 상기 보상함수를 생성하여 상기 보상함수 제공 모듈에 전송하는 보상함수 생성 모듈; 및 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나를 생성하여 상기 환경정보 제공 모듈, 상기 상태정보 제공 모듈 및 상기 행동공간 제공 모듈 중 적어도 하나에 전송하는 필수정보 생성 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠로부터 상기 에이전트가 상기 가상학습을 수행하기 위해 필요한 요구사항을 추출하는 요구사항 추출 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠로부터 상기 보상함수를 생성하기 위해 사용되는 학습목표를 추출하는 학습목표 추출 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 추출하는 환경정보 추출 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠에서의 상기 에이전트의 상태를 나타내는 상태정보를 추출하는 상태정보 추출 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠에서의 상기 에이전트의 행동을 나타내는 행동공간을 추출하는 행동공간 추출 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적을 수 있다.

본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치는, 원본 컨텐츠로부터 가상 컨텐츠에서 사용되는 장면 및 객체를 생성하는 그래픽 간소화 모듈; 상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 생성하는 보상함수 생성 모듈; 및 상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보, 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보 및 상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간 중 적어도 하나를 생성하는 필수정보 생성 모듈을 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 모의 실험 환경 생성 모듈을 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 생성 모듈은, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하고, 상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성할 수 있다.

본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 방법은, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공하는 단계; 상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공하는 단계; 상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 단계; 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 단계; 상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간을 제공하는 단계; 및 상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 단계를 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 방법은, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 단계를 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 방법은, 상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 단계를 더 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 방법은, 상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 단계를 더 포함할 수 있다.

본 발명의 실시 예들에 따르면, 원본 컨텐츠를 정보 량이 더 낮은 가상 컨텐츠로 변환한 후, 가상 컨텐츠에 대해 에이전트 학습을 수행하고, 학습이 완료된 에이전트를 원본 컨텐츠에서 제어하는 방식을 이용하여, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.

또한, 원본 컨텐츠에서는 게임 내에서 학습 목적에 따라 실험을 반복하기 어려운 상황에서도, 가상 컨텐츠를 이용하여 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있다.

도 1은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 게임 컨텐츠 분석 모듈을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 이종 환경 매칭 모듈을 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 모의 실험 환경 생성 모듈을 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 에이전트 제어 모듈을 설명하기 위한 블록도이다.
도 6 내지 8은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 방법을 설명하기 위한 도면들이다.
도 9는 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 모의 실험 환경 제공 장치 및 방법을 구현하는 컴퓨팅 장치를 설명하기 위한 블록도이다.

아래에서는 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치를 설명하기 위한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치는 게임 컨텐츠 분석 모듈(100), 이종 환경 매칭 모듈(200), 모의 실험 환경 생성 모듈(300) 및 에이전트 제어 모듈(400)을 포함할 수 있다.

인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치는 컴퓨팅 장치로 구현될 수 있다. 컴퓨팅 장치는, 예를 들어, 스마트 폰, 스마트 워치, 스마트 밴드, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 서버 등을 들 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니고, 컴퓨터 명령을 저장 및 실행할 수 있는 메모리 및 프로세서를 구비한 임의의 형태의 컴퓨터 장치를 포함할 수 있다.

인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치의 기능들은 단일 컴퓨팅 장치 상에서 모두 구현될 수도 있고, 복수의 컴퓨팅 장치 상에서 나누어 구현될 수도 있다. 예를 들어, 복수의 컴퓨팅 장치는 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치를 포함할 수 있고, 모의 실험 환경 제공 장치의 일부 기능은 제1 컴퓨팅 장치 상에 구현되고, 모의 실험 환경 제공 장치의 다른 일부 기능은 제2 컴퓨팅 장치 상에 구현될 수 있다. 그리고 제1 컴퓨팅 장치와 제2 컴퓨팅 장치는 네트워크를 통해 서로 통신할 수 있다.

여기서, 네트워크는 셀룰러 네트워크, Wi-Fi 네트워크, 블루투스 네트워크 등을 비롯한 무선 네트워크, LAN(Local Area Network), WLAN(Wide Local Area Network) 등을 비롯한 유선 네트워크, 또는 무선 네트워크와 유선 네트워크의 조합을 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.

모의 실험 환경 제공 장치는 에이전트가 강화 학습을 수행하기 위한 모의 실험 환경을 제공할 수 있다. 여기서 모의 실험 환경은 에이전트가 실제 동작하는 환경(즉, 실제 환경)으로부터, 강화 학습에 필요한 요소들만을 추출하여 가상으로 만든 환경(즉, 가상 환경)을 말한다. 에이전트는 모의 실험 환경에서 강화 학습을 수행한 후, 학습이 완료되면, 학습된 모델(model)을 이용하여 실제 환경에서 동작할 수 있다.

게임의 경우, 실제 환경은 원본 게임 환경(또는 원본 컨텐츠)이고, 가상 환경은 에이전트의 강화 학습에 필요한 요소들만을 추출하여 가상으로 만든 가상 게임 환경(또는 가상 컨텐츠)를 의미할 수 있다. 가상 컨텐츠는 원본 컨텐츠에서 강화 학습에 필요한 요소들만을 추출하여 생성되므로, 일반적으로 가상 컨텐츠의 정보 량은 원본 컨텐츠의 정보 량보다 적을 수 있다.

예를 들어, 원본 컨텐츠에서는 사용자의 만족도를 높이기 위해 고해상도 그래픽으로 게임 캐릭터, 맵, 아이템 등을 세밀하게 묘사하였다면, 에이전트의 강화 학습에 필요한 요소들만을 추출한 가상 컨텐츠에서 게임 캐릭터, 맵, 아이템 등은 비교적 단순화된 도형, 형상 등으로 표시될 수 있다. 본 발명의 실시 예들에 따른 에이전트는 정보 량이 적은 가상 컨텐츠에 대해 강화 학습을 수행하고, 학습이 완료되면 정보 량이 많은 원본 컨텐츠에서 동작하게 되므로, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.

또한, 게임에서 복잡한 진행 단계로 인해 강화 학습에 대한 목표 설정이 어렵거나, 시나리오에 따른 학습 시간이 많이 소요되는 경우 등, 원본 컨텐츠에서는 게임 내에서 학습 목적에 따라 실험을 반복하기 어려운 상황에서도, 가상 컨텐츠를 이용하여 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있다.

게임 컨텐츠 분석 모듈(100)은, 원본 컨텐츠에서 인공지능 에이전트의 학습이 필요한 상황을 설정하고, 이에 대한 관련 정보들을 추출한 후, 추출한 정보들을 이종 환경 매칭 모듈(200)에 제공할 수 있다. 여기서 추출되는 정보들은, 예를 들어, 에이전트의 강화 학습을 위해 필요한 요구사항, 학습목표, 환경정보, 상태정보, 행동공간 등을 포함할 수 있다.

이종 환경 매칭 모듈(200)은, 게임 컨텐츠 분석 모듈(100)로부터 제공받은 정보들로부터, 가상 컨텐츠를 생성하기 위해 사용될 수 있는 정보들을 생성하고, 생성한 정보들을 모의 실험 환경 생성 모듈(300)에 제공할 수 있다. 여기서 생성되는 정보들은, 가상 컨텐츠에서 사용되는 장면 및 객체, 보상함수, 가상 환경정보, 가상 상태정보, 가상 행동공간 등을 포함할 수 있다.

모의 실험 환경 생성 모듈(300)은, 이종 환경 매칭 모듈(200)로부터 제공받은 정보들로부터 모의 실험 환경을 생성할 수 있다. 구체적으로, 모의 실험 환경 생성 모듈(300)은, 가상 컨텐츠에서 사용되는 장면 및 객체, 보상함수, 가상 환경정보, 가상 상태정보, 가상 행동공간 등의 정보를 이용하여 에이전트의 강화 학습이 수행될 수 있는 모의 실험 환경을 생성할 수 있다.

또한, 모의 실험 환경 생성 모듈(300)은, 모의 실험 환경에서 에이전트에 대한 강화 학습을 수행할 수 있으며, 본 명세서에서는 모의 실험 환경에서 수행되는 강화 학습을 가상학습이라고 지칭하도록 한다. 즉, 모의 실험 환경 생성 모듈(300)은, 모의 실험 환경에서 에이전트에 대한 가상학습을 수행할 수 있다. 가상학습이 완료되면, 모의 실험 환경 생성 모듈(300)은 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트(10, 20, 30)를 생성할 수 있다.

에이전트 제어 모듈(400)은. 원본 컨텐츠 상에서 가상학습된 에이전트(10, 20, 30)를 제어할 수 있다. 이를 위해, 에이전트 제어 모듈(400)은 원본 컨텐츠를 제공하는 서버(예컨대 게임 서버)로부터 실제 환경, 상태에 대한 정보를 수집하고, 이를 가상학습된 에이전트(10, 20, 30)를 제어하기 위해 이용할 수 있다.

이하에서는, 도 2 내지 도 5를 참조하여, 게임 컨텐츠 분석 모듈(100), 이종 환경 매칭 모듈(200), 모의 실험 환경 생성 모듈(300) 및 에이전트 제어 모듈(400)에 대해 구체적으로 설명하도록 한다.

도 2는 본 발명의 일 실시 예에 따른 게임 컨텐츠 분석 모듈을 설명하기 위한 블록도이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 게임 컨텐츠 분석 모듈(100)은, 요구사항 추출 모듈(110), 학습목표 추출 모듈(120), 환경정보 추출 모듈(130), 상태정보 추출 모듈(140) 및 행동공간 추출 모듈(150)을 포함할 수 있다.

요구사항 추출 모듈(110)은, 원본 컨텐츠로부터 에이전트가 가상학습을 수행하기 위해 필요한 요구사항을 추출할 수 있다. 구체적으로, 요구사항 추출 모듈(110)은, 원본 컨텐츠에서 인공지능 에이전트의 학습이 필요한 상황을 설정하고, 이를 위해 필요한 요구사항을 추출하고, 이를 이종 환경 매칭 모듈(200)의 그래픽 간소화 모듈(210)에 제공할 수 있다. 여기서 필요한 요구사항은 게임을 구성하는 여러 장면 또는 여러 객체 중에서 인공지능 에이전트의 학습이 필요한 상황에 맞는 장면 또는 객체를 추출한 것을 의미할 수 있다.

학습목표 추출 모듈(120)은, 원본 컨텐츠로부터 보상함수를 생성하기 위해 사용되는 학습목표를 추출할 수 있다. 구체적으로, 학습목표 추출 모듈(120)은, 원본 컨텐츠에서 에이전트가 특정 동작 또는 행동을 하도록 기대하는 항목에 관한 학습목표를 추출하고, 이를 이종 환경 매칭 모듈(200)의 보상함수 생성 모듈(220)에 제공할 수 있다.

환경정보 추출 모듈(130)은, 원본 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 추출할 수 있다. 구체적으로, 환경정보 추출 모듈(130)은, 원본 컨텐츠의 다양한 게임 상황에 관련된 환경 중에서, 강화 학습에 필요한 환경을 추출하고, 이를 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)에 제공할 수 있다.

상태정보 추출 모듈(140)은, 원본 컨텐츠에서의 에이전트의 상태를 나타내는 상태정보를 추출할 수 있다. 구체적으로, 상태정보 추출 모듈(140)은, 원본 컨텐츠의 다양한 게임 상황에 관련된 에이전트가 가질 수 있는 상태 중에서, 강화 학습에 필요한 상태를 추출하고, 이를 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)에 제공할 수 있다.

행동공간 추출 모듈(150)은, 원본 컨텐츠에서의 에이전트의 행동을 나타내는 행동공간을 추출할 수 있다. 구체적으로, 행동공간 추출 모듈(150)은, 원본 컨텐츠의 다양한 게임 상황에 관련된 에이전트가 가질 수 있는 행동공간 중에서, 강화 학습에 필요한 행동공간을 추출하고, 이를 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)에 제공할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 이종 환경 매칭 모듈을 설명하기 위한 블록도이다.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 이종 환경 매칭 모듈(200)은, 그래픽 간소화 모듈(210), 보상함수 생성 모듈(220) 및 필수정보 생성 모듈(230)을 포함할 수 있다.

그래픽 간소화 모듈(210)은, 원본 컨텐츠로부터 장면 및 객체를 생성하고, 이를 모의 실험 환경 생성 모듈(300)의 장면 객체 제공 모듈(310)에 전송할 수 있다. 구체적으로, 그래픽 간소화 모듈(210)은, 게임 컨텐츠 분석 모듈(100)의 요구사항 추출 모듈(110)로부터 제공받은 요구사항에 기초하여, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 생성할 수 있다.

보상함수 생성 모듈(220)은, 보상함수를 생성하고, 이를 모의 실험 환경 생성 모듈(300)의 보상함수 제공 모듈(320)에 전송할 수 있다. 구체적으로, 보상함수 생성 모듈(220)은, 게임 컨텐츠 분석 모듈(100)의 학습목표 추출 모듈(120)로부터 제공받은 학습목표에 기초하여, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 생성할 수 있다.

필수정보 생성 모듈(230)은, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나를 생성하여 모의 실험 환경 생성 모듈(300)의 환경정보 제공 모듈(330), 상태정보 제공 모듈(340) 및 행동공간 제공 모듈(350) 중 적어도 하나에 전송할 수 있다.

구체적으로, 필수정보 생성 모듈(230)은, 게임 컨텐츠 분석 모듈(100)의 환경정보 추출 모듈(130)로부터 제공받은 환경정보에 기초하여, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 생성할 수 있다.

또한, 구체적으로, 필수정보 생성 모듈(230)은, 게임 컨텐츠 분석 모듈(100)의 환경정보 추출 모듈(130)로부터 제공받은 상태정보에 기초하여, 가상 컨텐츠에서의 에이전트의 상태를 나타내는 가상 상태정보를 생성할 수 있다.

또한, 구체적으로, 필수정보 생성 모듈(230)은, 게임 컨텐츠 분석 모듈(100)의 환경정보 추출 모듈(130)로부터 제공받은 행동공간에 기초하여, 가상 컨텐츠에서의 에이전트의 행동을 나타내는 가상 행동공간을 생성할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 모의 실험 환경 생성 모듈을 설명하기 위한 블록도이다.

도 4를 참조하면, 본 발명의 일 실시 예에 따른 모의 실험 환경 생성 모듈(300)은, 장면 객체 제공 모듈(310), 보상함수 제공 모듈(320), 환경정보 제공 모듈(330), 상태정보 제공 모듈(340), 행동공간 제공 모듈(350), 가상학습 모듈(360) 및 에이전트 생성 모듈(370)을 포함할 수 있다.

장면 객체 제공 모듈(310)은, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공할 수 있다. 예를 들어, 장면 객체 제공 모듈(310)은, 이종 환경 매칭 모듈(200)의 그래픽 간소화 모듈(210)로부터 수신한 장면 및 객체를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.

보상함수 제공 모듈(320)은, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공할 수 있다. 예를 들어, 보상함수 제공 모듈(320)은, 이종 환경 매칭 모듈(200)의 보상함수 생성 모듈(220)로부터 수신한 보상함수를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.

환경정보 제공 모듈(330)은, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공할 수 있다. 예를 들어, 환경정보 제공 모듈(330)은, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)로부터 수신한 가상 환경정보를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.

상태정보 제공 모듈(340)은, 가상 컨텐츠에서의 에이전트의 상태를 나타내는 가상 상태정보를 제공할 수 있다. 예를 들어, 상태정보 제공 모듈(340)은, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)로부터 수신한 가상 상태정보를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.

행동공간 제공 모듈(350)은, 가상 컨텐츠에서의 에이전트의 행동을 나타내는 가상 행동공간을 제공할 수 있다. 예를 들어, 행동공간 제공 모듈(350)은, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)로부터 수신한 가상 행동공간을 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.

가상학습 모듈(360)은, 장면, 객체, 보상함수, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행할 수 있다.

에이전트 생성 모듈(370)은, 가상학습이 완료되면, 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트(10, 20, 30)를 생성할 수 있다. 가상학습된 에이전트(10, 20, 30)는 에이전트 제어 모듈(400)에 의해 원본 컨텐츠, 즉, 실제 게임에서 제어될 수 있다.

도 5는 본 발명의 일 실시 예에 따른 에이전트 제어 모듈을 설명하기 위한 블록도이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 에이전트 제어 모듈(400)은, 환경정보 수집 모듈(410), 상태정보 수집 모듈(420) 및 행동공간 입력 모듈(430)을 포함할 수 있다.

환경정보 수집 모듈(410)은, 원본 컨텐츠를 제공하는 서버(예컨대 게임 서버)로부터 실제 환경, 즉 실제 게임 환경에 대한 정보를 수집할 수 있다.

상태정보 수집 모듈(420)은, 원본 컨텐츠를 제공하는 서버(예컨대 게임 서버)로부터 실제 상태, 즉 실제 에이전트의 상태에 대한 정보를 수집할 수 있다.

행동공간 입력 모듈(430)은, 환경정보 수집 모듈(410) 및 상태정보 수집 모듈(420) 중 적어도 하나에 의해 수집된 정보를 이용하여, 가상학습된 에이전트(10, 20, 30)를 원본 컨텐츠, 즉, 실제 게임에서 제어할 수 있다.

즉, 환경정보 수집 모듈(410) 및 상태정보 수집 모듈(420)은 게임 서버로부터 인공지능 에이전트 모델의 입력 값을 수신하고, 해당 값에 대한 연산을 수행하여 획득한 결과 값은 행동공간 입력 모듈(430)을 통해 게임 서버로 송신되어, 가상학습을 통해 생성된 모델을 통해 인공지능 에이전트를 제어할 수 있다.

이와 같은 본 발명의 일 실시 예에 따르면, 원본 컨텐츠를 정보 량이 더 낮은 가상 컨텐츠로 변환한 후, 가상 컨텐츠에 대해 에이전트 학습을 수행하고, 학습이 완료된 에이전트를 원본 컨텐츠에서 제어하는 방식을 이용하여, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.

이제까지 설명한 각각의 모듈들은 단순히 논리적으로 구분된 것에 불과하며, 물리적으로 구분된 것을 나타내는 것은 아니다. 또한 각각의 모듈들은 구체적인 구현 목적 또는 방식에 따라, 2 이상의 모듈이 하나의 모듈로 통합되어 구현될 수도 있고, 하나의 모듈이 2 이상의 모듈로 나누어져 구현될 수도 있다.

도 6 내지 8은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 방법을 설명하기 위한 도면들이다.

본 발명의 일 실시 예에 따른 모의 실험 환경 제공 방법은, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공하는 단계; 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공하는 단계; 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 단계; 가상 컨텐츠에서의 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 단계; 가상 컨텐츠에서의 에이전트의 행동을 나타내는 가상 행동공간을 제공하는 단계; 및 장면, 객체, 보상함수, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 단계를 포함할 수 있다.

이에 대한 더욱 상세한 내용은 도 1 내지 도 5를 참조하여 전술한 내용을 참조할 수 있으므로, 여기서 그 중복되는 내용에 대한 설명은 생략하도록 한다.

도 6을 참조하면, 롤플레잉 장르의 게임 내에서 인스턴스 던전의 상황을 나타낸 그림(61)이 도시되어 있다. 이와 같이, 플레이어가 입장하여 인스턴스 던전 내 이동을 하면서 몬스터를 처치하고, 일정 수 이상의 몬스터를 처치하면 몬스터가 출현하게 되고, 보스 몬스터를 처치하면 임무를 달성하게 되는 기능 및 시나리오에서는, 이종 환경 매칭 모듈(200)의 그래픽 간소화 모듈(210)을 통해 생성된 장면 및 객체는 그림(63)과 같이 표현될 수 있다.

이어서 도 7을 참조하면, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)은 도 7에 나타낸 바와 같은 가상 환경정보, 가상 상태정보 및 가상 행동공간을 생성할 수 있다.

예를 들어, 가상 환경정보는, 목표물의 유형, 위치, 헬스 포인트, 매직 포인트, 길의 위치, 벽의 위치, 수행할 미션 등에 관한 파라미터를 포함할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.

또한, 가상 상태정보는, 에이전트의 위치, 헬스 포인트, 매직 포인트, 타겟과의 관계 또는 상호작용 등에 관한 파라미터를 포함할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.

또한, 가상 행동공간은, 에이전트의 행동 관련하여 대기, 이동, 공격 등에 관한 관한 파라미터를 포함할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.

이어서 도 8을 참조하면, 이종 환경 매칭 모듈(200)의 보상함수 생성 모듈(220)은, 도 8에 나타낸 바와 같은 학습 정책을 생성할 수 있다.

예를 들어, 학습 정책은, 몬스터를 타겟팅한 경우, 몬스터를 처치한 경우, 보스 몬스터를 타겟팅한 경우, 보스 몬스터를 처치한 경우, 에이전트가 죽은 경우 등에 대한 리워드를 정의할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.

도 9는 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 모의 실험 환경 제공 장치 및 방법을 구현하는 컴퓨팅 장치를 설명하기 위한 블록도이다.

도 9를 참조하면, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치 및 방법은 컴퓨팅 장치(50)를 이용하여 구현될 수 있다.

컴퓨팅 장치(50)는 버스(520)를 통해 통신하는 프로세서(510), 메모리(530), 사용자 인터페이스 입력 장치(540), 사용자 인터페이스 출력 장치(550) 및 저장 장치(560) 중 적어도 하나를 포함할 수 있다. 컴퓨팅 장치(50)는 또한 네트워크(40), 예컨대 무선 네트워크에 전기적으로 접속되는 네트워크 인터페이스(570)를 포함할 수 있다. 네트워크 인터페이스(570)는 네트워크(40)를 통해 다른 개체와 신호를 송신 또는 수신할 수 있다.

프로세서(510)는 AP(Application Processor), CPU(Central Processing Unit), GPU (Graphic　Processing　Unit) 등과 같은 다양한 종류들로 구현될 수 있으며, 메모리(530) 또는 저장 장치(560)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(510)는 도 1 내지 도 8에서 설명한 기능 및 방법들을 구현하도록 구성될 수 있다.

메모리(530) 및 저장 장치(560)는 다양한 형태의 휘발성 또는 비 휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read-only memory)(531) 및 RAM(random access memory)(532)를 포함할 수 있다. 본 발명의 실시 예에서 메모리(530)는 프로세서(510)의 내부 또는 외부에 위치할 수 있고, 메모리(530)는 이미 알려진 다양한 수단을 통해 프로세서(510)와 연결될 수 있다.

또한, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치 및 방법 중 적어도 일부는 컴퓨팅 장치(50)에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.

또한, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치 및 방법 중 적어도 일부는 컴퓨팅 장치(50)과 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.

이제까지 설명한 본 발명의 실시 예들에 따르면, 원본 컨텐츠를 정보 량이 더 낮은 가상 컨텐츠로 변환한 후, 가상 컨텐츠에 대해 에이전트 학습을 수행하고, 학습이 완료된 에이전트를 원본 컨텐츠에서 제어하는 방식을 이용하여, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고, 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속한다.

Claims

원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면(scene) 및 객체(object)를 제공하는 장면 객체 제공 모듈;
상기 가상 컨텐츠에서 에이전트(agent)가 강화 학습을 수행하기 위해 사용되는 보상함수(reward function)를 제공하는 보상함수 제공 모듈;
상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경(environment)에 관한 정보를 포함하는 가상 환경정보를 제공하는 환경정보 제공 모듈;
상기 가상 컨텐츠에서의 상기 에이전트의 상태(state)를 나타내는 가상 상태정보를 제공하는 상태정보 제공 모듈;
상기 가상 컨텐츠에서의 상기 에이전트의 행동(action)을 나타내는 가상 행동공간을 제공하는 행동공간 제공 모듈; 및
상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 가상학습 모듈을 포함하되,
상기 보상함수는,
상기 객체에 대한 상기 에이전트의 행동 또는 상기 객체에 의해 변경되는 상기 에이전트의 상태를 기초로 보상함수 리워드 값이 결정되는
모의 실험 환경 제공 장치.
제1항에 있어서,
상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 에이전트 생성 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제2항에 있어서,
상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 에이전트 제어 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제1항에 있어서,
상기 원본 컨텐츠로부터 상기 장면 및 객체를 생성하여 상기 장면 객체 제공 모듈에 전송하는 그래픽 간소화 모듈;
상기 보상함수를 생성하여 상기 보상함수 제공 모듈에 전송하는 보상함수 생성 모듈; 및
상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나를 생성하여 상기 환경정보 제공 모듈, 상기 상태정보 제공 모듈 및 상기 행동공간 제공 모듈 중 적어도 하나에 전송하는 필수정보 생성 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제1항에 있어서,
상기 원본 컨텐츠로부터 상기 에이전트가 상기 가상학습을 수행하기 위해 필요한 요구사항을 추출하는 요구사항 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제1항에 있어서,
상기 원본 컨텐츠로부터 상기 보상함수를 생성하기 위해 사용되는 학습목표를 추출하는 학습목표 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제1항에 있어서,
상기 원본 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 추출하는 환경정보 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제1항에 있어서,
상기 원본 컨텐츠에서의 상기 에이전트의 상태를 나타내는 상태정보를 추출하는 상태정보 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제1항에 있어서,
상기 원본 컨텐츠에서의 상기 에이전트의 행동을 나타내는 행동공간을 추출하는 행동공간 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제1항에 있어서,
상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적은, 모의 실험 환경 제공 장치.
원본 컨텐츠로부터 가상 컨텐츠에서 사용되는 장면 및 객체를 생성하는 그래픽 간소화 모듈;
상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 생성하는 보상함수 생성 모듈; 및
상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보, 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보 및 상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간 중 적어도 하나를 생성하는 필수정보 생성 모듈을 포함하되,
상기 보상함수는,
상기 객체에 대한 상기 에이전트의 행동 또는 상기 객체에 의해 변경되는 상기 에이전트의 상태를 기초로 보상함수 리워드 값이 결정되는
모의 실험 환경 제공 장치.
제11항에 있어서,
상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 모의 실험 환경 생성 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제12항에 있어서,
상기 모의 실험 환경 생성 모듈은,
상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하고,
상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는, 모의 실험 환경 제공 장치.
제13항에 있어서,
상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 에이전트 제어 모듈을 더 포함하는 모의 실험 환경 제공 장치.
제11항에 있어서,
상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적은, 모의 실험 환경 제공 장치.
컴퓨팅 장치에 의해 각 단계가 수행되는 모의 실험 환경 제공 방법에 있어서,
원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공하는 단계;
상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공하는 단계;
상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 단계;
상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 단계;
상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간을 제공하는 단계; 및
상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 단계를 포함하되,
상기 보상함수는,
상기 객체에 대한 상기 에이전트의 행동 또는 상기 객체에 의해 변경되는 상기 에이전트의 상태를 기초로 보상함수 리워드 값이 결정되는
모의 실험 환경 제공 방법.
제16항에 있어서,
상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 단계를 더 포함하는 모의 실험 환경 제공 방법.
제17항에 있어서,
상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 단계를 더 포함하는 모의 실험 환경 제공 방법.
제18항에 있어서,
상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 단계를 더 포함하는 모의 실험 환경 제공 방법.
제16항에 있어서,
상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적은, 모의 실험 환경 제공 방법.