KR102535644B1 - 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법 - Google Patents

인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법 Download PDF

Info

Publication number
KR102535644B1
KR102535644B1 KR1020190179850A KR20190179850A KR102535644B1 KR 102535644 B1 KR102535644 B1 KR 102535644B1 KR 1020190179850 A KR1020190179850 A KR 1020190179850A KR 20190179850 A KR20190179850 A KR 20190179850A KR 102535644 B1 KR102535644 B1 KR 102535644B1
Authority
KR
South Korea
Prior art keywords
virtual
agent
providing
environment
module
Prior art date
Application number
KR1020190179850A
Other languages
English (en)
Other versions
KR20210086131A (ko
Inventor
장시환
김찬섭
양성일
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190179850A priority Critical patent/KR102535644B1/ko
Priority to US17/139,216 priority patent/US20210200923A1/en
Publication of KR20210086131A publication Critical patent/KR20210086131A/ko
Application granted granted Critical
Publication of KR102535644B1 publication Critical patent/KR102535644B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법이 제공된다. 모의 실험 환경 제공 장치는, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면(scene) 및 객체(object)를 제공하는 장면 객체 제공 모듈; 가상 컨텐츠에서 에이전트(agent)가 강화 학습을 수행하기 위해 사용되는 보상함수(reward function)를 제공하는 보상함수 제공 모듈; 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경(environment)에 관한 정보를 포함하는 가상 환경정보를 제공하는 환경정보 제공 모듈; 가상 컨텐츠에서의 에이전트의 상태(state)를 나타내는 가상 상태정보를 제공하는 상태정보 제공 모듈; 가상 컨텐츠에서의 에이전트의 행동(action)을 나타내는 가상 행동공간을 제공하는 행동공간 제공 모듈; 및 장면, 객체, 보상함수, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 모의 실험 환경에서 에이전트에 대한 가상학습을 수행하는 가상학습 모듈을 포함한다.

Description

인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법{DEVICE AND METHOD FOR PROVIDING SIMULATION ENVIRONMENT FOR AI AGENT LEARNING}
본 발명은 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법에 관한 것이다.
최근 강화 학습을 이용한 인공지능 에이전트(agent) 기술, 강화 학습 시뮬레이션 기술이 주목 받고 있다. 이에 대해 많은 연구자들의 관심이 높아지고, 연구 개발도 지속되고 있다. 다른 분야에 비해, 게임은 비교적 환경으로부터 정보 수집이 용이하고 에이전트의 행동에 대한 보상을 자유롭게 조절할 수 있기 때문에, 현실 세계의 복잡한 문제들을 해결하기 위한 테스트베드(testbed)로서 활용도가 높다.
다만, 사용자의 만족도를 향상시키기 위해 다양한 시나리오 및 기능의 구현이 요구되기 때문에, 게임의 복잡도 또한 나날이 증가하는 추세이다. 따라서 인공지능 에이전트 개발을 위해, 시간, 비용, 인력 등 자원이 많이 필요하다. 또한, 강화 학습은 반복되는 시행착오를 통해 보상을 습득하며 에이전트의 상태(state) 및 환경(environment)이 상호작용 하는 정책을 학습하는 방법이기 때문에, 보상함수가 잘못 설계되면 에이전트 학습이 어렵게 될 뿐 아니라, 학습 과정에서 예기치 못한 부작용이 발생할 수도 있다.
본 발명이 해결하고자 하는 과제는, 인공지능 에이전트 개발에 필요한 자원을 최소화하고, 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있는, 모의 실험 환경 제공 장치 및 방법을 제공하는 것이다.
본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치는, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면(scene) 및 객체(object)를 제공하는 장면 객체 제공 모듈; 상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수(reward function)를 제공하는 보상함수 제공 모듈; 상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 환경정보 제공 모듈; 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 상태정보 제공 모듈; 상기 가상 컨텐츠에서의 상기 에이전트의 행동(action)을 나타내는 가상 행동공간을 제공하는 행동공간 제공 모듈; 및 상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 가상학습 모듈을 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 에이전트 생성 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 에이전트 제어 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠로부터 상기 장면 및 객체를 생성하여 상기 장면 객체 제공 모듈에 전송하는 그래픽 간소화 모듈; 상기 보상함수를 생성하여 상기 보상함수 제공 모듈에 전송하는 보상함수 생성 모듈; 및 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나를 생성하여 상기 환경정보 제공 모듈, 상기 상태정보 제공 모듈 및 상기 행동공간 제공 모듈 중 적어도 하나에 전송하는 필수정보 생성 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠로부터 상기 에이전트가 상기 가상학습을 수행하기 위해 필요한 요구사항을 추출하는 요구사항 추출 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠로부터 상기 보상함수를 생성하기 위해 사용되는 학습목표를 추출하는 학습목표 추출 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 추출하는 환경정보 추출 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠에서의 상기 에이전트의 상태를 나타내는 상태정보를 추출하는 상태정보 추출 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠에서의 상기 에이전트의 행동을 나타내는 행동공간을 추출하는 행동공간 추출 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적을 수 있다.
본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치는, 원본 컨텐츠로부터 가상 컨텐츠에서 사용되는 장면 및 객체를 생성하는 그래픽 간소화 모듈; 상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 생성하는 보상함수 생성 모듈; 및 상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보, 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보 및 상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간 중 적어도 하나를 생성하는 필수정보 생성 모듈을 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 모의 실험 환경 생성 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 생성 모듈은, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하고, 상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 장치는, 상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 에이전트 제어 모듈을 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적을 수 있다.
본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 방법은, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공하는 단계; 상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공하는 단계; 상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 단계; 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 단계; 상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간을 제공하는 단계; 및 상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 방법은, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 단계를 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 방법은, 상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 단계를 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 모의 실험 환경 제공 방법은, 상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 단계를 더 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적을 수 있다.
본 발명의 실시 예들에 따르면, 원본 컨텐츠를 정보 량이 더 낮은 가상 컨텐츠로 변환한 후, 가상 컨텐츠에 대해 에이전트 학습을 수행하고, 학습이 완료된 에이전트를 원본 컨텐츠에서 제어하는 방식을 이용하여, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.
또한, 원본 컨텐츠에서는 게임 내에서 학습 목적에 따라 실험을 반복하기 어려운 상황에서도, 가상 컨텐츠를 이용하여 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있다.
도 1은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 게임 컨텐츠 분석 모듈을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 이종 환경 매칭 모듈을 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 모의 실험 환경 생성 모듈을 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 에이전트 제어 모듈을 설명하기 위한 블록도이다.
도 6 내지 8은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 방법을 설명하기 위한 도면들이다.
도 9는 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 모의 실험 환경 제공 장치 및 방법을 구현하는 컴퓨팅 장치를 설명하기 위한 블록도이다.
아래에서는 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치는 게임 컨텐츠 분석 모듈(100), 이종 환경 매칭 모듈(200), 모의 실험 환경 생성 모듈(300) 및 에이전트 제어 모듈(400)을 포함할 수 있다.
인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치는 컴퓨팅 장치로 구현될 수 있다. 컴퓨팅 장치는, 예를 들어, 스마트 폰, 스마트 워치, 스마트 밴드, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 서버 등을 들 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니고, 컴퓨터 명령을 저장 및 실행할 수 있는 메모리 및 프로세서를 구비한 임의의 형태의 컴퓨터 장치를 포함할 수 있다.
인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치의 기능들은 단일 컴퓨팅 장치 상에서 모두 구현될 수도 있고, 복수의 컴퓨팅 장치 상에서 나누어 구현될 수도 있다. 예를 들어, 복수의 컴퓨팅 장치는 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치를 포함할 수 있고, 모의 실험 환경 제공 장치의 일부 기능은 제1 컴퓨팅 장치 상에 구현되고, 모의 실험 환경 제공 장치의 다른 일부 기능은 제2 컴퓨팅 장치 상에 구현될 수 있다. 그리고 제1 컴퓨팅 장치와 제2 컴퓨팅 장치는 네트워크를 통해 서로 통신할 수 있다.
여기서, 네트워크는 셀룰러 네트워크, Wi-Fi 네트워크, 블루투스 네트워크 등을 비롯한 무선 네트워크, LAN(Local Area Network), WLAN(Wide Local Area Network) 등을 비롯한 유선 네트워크, 또는 무선 네트워크와 유선 네트워크의 조합을 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.
모의 실험 환경 제공 장치는 에이전트가 강화 학습을 수행하기 위한 모의 실험 환경을 제공할 수 있다. 여기서 모의 실험 환경은 에이전트가 실제 동작하는 환경(즉, 실제 환경)으로부터, 강화 학습에 필요한 요소들만을 추출하여 가상으로 만든 환경(즉, 가상 환경)을 말한다. 에이전트는 모의 실험 환경에서 강화 학습을 수행한 후, 학습이 완료되면, 학습된 모델(model)을 이용하여 실제 환경에서 동작할 수 있다.
게임의 경우, 실제 환경은 원본 게임 환경(또는 원본 컨텐츠)이고, 가상 환경은 에이전트의 강화 학습에 필요한 요소들만을 추출하여 가상으로 만든 가상 게임 환경(또는 가상 컨텐츠)를 의미할 수 있다. 가상 컨텐츠는 원본 컨텐츠에서 강화 학습에 필요한 요소들만을 추출하여 생성되므로, 일반적으로 가상 컨텐츠의 정보 량은 원본 컨텐츠의 정보 량보다 적을 수 있다.
예를 들어, 원본 컨텐츠에서는 사용자의 만족도를 높이기 위해 고해상도 그래픽으로 게임 캐릭터, 맵, 아이템 등을 세밀하게 묘사하였다면, 에이전트의 강화 학습에 필요한 요소들만을 추출한 가상 컨텐츠에서 게임 캐릭터, 맵, 아이템 등은 비교적 단순화된 도형, 형상 등으로 표시될 수 있다. 본 발명의 실시 예들에 따른 에이전트는 정보 량이 적은 가상 컨텐츠에 대해 강화 학습을 수행하고, 학습이 완료되면 정보 량이 많은 원본 컨텐츠에서 동작하게 되므로, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.
또한, 게임에서 복잡한 진행 단계로 인해 강화 학습에 대한 목표 설정이 어렵거나, 시나리오에 따른 학습 시간이 많이 소요되는 경우 등, 원본 컨텐츠에서는 게임 내에서 학습 목적에 따라 실험을 반복하기 어려운 상황에서도, 가상 컨텐츠를 이용하여 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있다.
게임 컨텐츠 분석 모듈(100)은, 원본 컨텐츠에서 인공지능 에이전트의 학습이 필요한 상황을 설정하고, 이에 대한 관련 정보들을 추출한 후, 추출한 정보들을 이종 환경 매칭 모듈(200)에 제공할 수 있다. 여기서 추출되는 정보들은, 예를 들어, 에이전트의 강화 학습을 위해 필요한 요구사항, 학습목표, 환경정보, 상태정보, 행동공간 등을 포함할 수 있다.
이종 환경 매칭 모듈(200)은, 게임 컨텐츠 분석 모듈(100)로부터 제공받은 정보들로부터, 가상 컨텐츠를 생성하기 위해 사용될 수 있는 정보들을 생성하고, 생성한 정보들을 모의 실험 환경 생성 모듈(300)에 제공할 수 있다. 여기서 생성되는 정보들은, 가상 컨텐츠에서 사용되는 장면 및 객체, 보상함수, 가상 환경정보, 가상 상태정보, 가상 행동공간 등을 포함할 수 있다.
모의 실험 환경 생성 모듈(300)은, 이종 환경 매칭 모듈(200)로부터 제공받은 정보들로부터 모의 실험 환경을 생성할 수 있다. 구체적으로, 모의 실험 환경 생성 모듈(300)은, 가상 컨텐츠에서 사용되는 장면 및 객체, 보상함수, 가상 환경정보, 가상 상태정보, 가상 행동공간 등의 정보를 이용하여 에이전트의 강화 학습이 수행될 수 있는 모의 실험 환경을 생성할 수 있다.
또한, 모의 실험 환경 생성 모듈(300)은, 모의 실험 환경에서 에이전트에 대한 강화 학습을 수행할 수 있으며, 본 명세서에서는 모의 실험 환경에서 수행되는 강화 학습을 가상학습이라고 지칭하도록 한다. 즉, 모의 실험 환경 생성 모듈(300)은, 모의 실험 환경에서 에이전트에 대한 가상학습을 수행할 수 있다. 가상학습이 완료되면, 모의 실험 환경 생성 모듈(300)은 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트(10, 20, 30)를 생성할 수 있다.
에이전트 제어 모듈(400)은. 원본 컨텐츠 상에서 가상학습된 에이전트(10, 20, 30)를 제어할 수 있다. 이를 위해, 에이전트 제어 모듈(400)은 원본 컨텐츠를 제공하는 서버(예컨대 게임 서버)로부터 실제 환경, 상태에 대한 정보를 수집하고, 이를 가상학습된 에이전트(10, 20, 30)를 제어하기 위해 이용할 수 있다.
이하에서는, 도 2 내지 도 5를 참조하여, 게임 컨텐츠 분석 모듈(100), 이종 환경 매칭 모듈(200), 모의 실험 환경 생성 모듈(300) 및 에이전트 제어 모듈(400)에 대해 구체적으로 설명하도록 한다.
도 2는 본 발명의 일 실시 예에 따른 게임 컨텐츠 분석 모듈을 설명하기 위한 블록도이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 게임 컨텐츠 분석 모듈(100)은, 요구사항 추출 모듈(110), 학습목표 추출 모듈(120), 환경정보 추출 모듈(130), 상태정보 추출 모듈(140) 및 행동공간 추출 모듈(150)을 포함할 수 있다.
요구사항 추출 모듈(110)은, 원본 컨텐츠로부터 에이전트가 가상학습을 수행하기 위해 필요한 요구사항을 추출할 수 있다. 구체적으로, 요구사항 추출 모듈(110)은, 원본 컨텐츠에서 인공지능 에이전트의 학습이 필요한 상황을 설정하고, 이를 위해 필요한 요구사항을 추출하고, 이를 이종 환경 매칭 모듈(200)의 그래픽 간소화 모듈(210)에 제공할 수 있다. 여기서 필요한 요구사항은 게임을 구성하는 여러 장면 또는 여러 객체 중에서 인공지능 에이전트의 학습이 필요한 상황에 맞는 장면 또는 객체를 추출한 것을 의미할 수 있다.
학습목표 추출 모듈(120)은, 원본 컨텐츠로부터 보상함수를 생성하기 위해 사용되는 학습목표를 추출할 수 있다. 구체적으로, 학습목표 추출 모듈(120)은, 원본 컨텐츠에서 에이전트가 특정 동작 또는 행동을 하도록 기대하는 항목에 관한 학습목표를 추출하고, 이를 이종 환경 매칭 모듈(200)의 보상함수 생성 모듈(220)에 제공할 수 있다.
환경정보 추출 모듈(130)은, 원본 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 추출할 수 있다. 구체적으로, 환경정보 추출 모듈(130)은, 원본 컨텐츠의 다양한 게임 상황에 관련된 환경 중에서, 강화 학습에 필요한 환경을 추출하고, 이를 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)에 제공할 수 있다.
상태정보 추출 모듈(140)은, 원본 컨텐츠에서의 에이전트의 상태를 나타내는 상태정보를 추출할 수 있다. 구체적으로, 상태정보 추출 모듈(140)은, 원본 컨텐츠의 다양한 게임 상황에 관련된 에이전트가 가질 수 있는 상태 중에서, 강화 학습에 필요한 상태를 추출하고, 이를 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)에 제공할 수 있다.
행동공간 추출 모듈(150)은, 원본 컨텐츠에서의 에이전트의 행동을 나타내는 행동공간을 추출할 수 있다. 구체적으로, 행동공간 추출 모듈(150)은, 원본 컨텐츠의 다양한 게임 상황에 관련된 에이전트가 가질 수 있는 행동공간 중에서, 강화 학습에 필요한 행동공간을 추출하고, 이를 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)에 제공할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 이종 환경 매칭 모듈을 설명하기 위한 블록도이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 이종 환경 매칭 모듈(200)은, 그래픽 간소화 모듈(210), 보상함수 생성 모듈(220) 및 필수정보 생성 모듈(230)을 포함할 수 있다.
그래픽 간소화 모듈(210)은, 원본 컨텐츠로부터 장면 및 객체를 생성하고, 이를 모의 실험 환경 생성 모듈(300)의 장면 객체 제공 모듈(310)에 전송할 수 있다. 구체적으로, 그래픽 간소화 모듈(210)은, 게임 컨텐츠 분석 모듈(100)의 요구사항 추출 모듈(110)로부터 제공받은 요구사항에 기초하여, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 생성할 수 있다.
보상함수 생성 모듈(220)은, 보상함수를 생성하고, 이를 모의 실험 환경 생성 모듈(300)의 보상함수 제공 모듈(320)에 전송할 수 있다. 구체적으로, 보상함수 생성 모듈(220)은, 게임 컨텐츠 분석 모듈(100)의 학습목표 추출 모듈(120)로부터 제공받은 학습목표에 기초하여, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 생성할 수 있다.
필수정보 생성 모듈(230)은, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나를 생성하여 모의 실험 환경 생성 모듈(300)의 환경정보 제공 모듈(330), 상태정보 제공 모듈(340) 및 행동공간 제공 모듈(350) 중 적어도 하나에 전송할 수 있다.
구체적으로, 필수정보 생성 모듈(230)은, 게임 컨텐츠 분석 모듈(100)의 환경정보 추출 모듈(130)로부터 제공받은 환경정보에 기초하여, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 생성할 수 있다.
또한, 구체적으로, 필수정보 생성 모듈(230)은, 게임 컨텐츠 분석 모듈(100)의 환경정보 추출 모듈(130)로부터 제공받은 상태정보에 기초하여, 가상 컨텐츠에서의 에이전트의 상태를 나타내는 가상 상태정보를 생성할 수 있다.
또한, 구체적으로, 필수정보 생성 모듈(230)은, 게임 컨텐츠 분석 모듈(100)의 환경정보 추출 모듈(130)로부터 제공받은 행동공간에 기초하여, 가상 컨텐츠에서의 에이전트의 행동을 나타내는 가상 행동공간을 생성할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 모의 실험 환경 생성 모듈을 설명하기 위한 블록도이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 모의 실험 환경 생성 모듈(300)은, 장면 객체 제공 모듈(310), 보상함수 제공 모듈(320), 환경정보 제공 모듈(330), 상태정보 제공 모듈(340), 행동공간 제공 모듈(350), 가상학습 모듈(360) 및 에이전트 생성 모듈(370)을 포함할 수 있다.
장면 객체 제공 모듈(310)은, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공할 수 있다. 예를 들어, 장면 객체 제공 모듈(310)은, 이종 환경 매칭 모듈(200)의 그래픽 간소화 모듈(210)로부터 수신한 장면 및 객체를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.
보상함수 제공 모듈(320)은, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공할 수 있다. 예를 들어, 보상함수 제공 모듈(320)은, 이종 환경 매칭 모듈(200)의 보상함수 생성 모듈(220)로부터 수신한 보상함수를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.
환경정보 제공 모듈(330)은, 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공할 수 있다. 예를 들어, 환경정보 제공 모듈(330)은, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)로부터 수신한 가상 환경정보를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.
상태정보 제공 모듈(340)은, 가상 컨텐츠에서의 에이전트의 상태를 나타내는 가상 상태정보를 제공할 수 있다. 예를 들어, 상태정보 제공 모듈(340)은, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)로부터 수신한 가상 상태정보를 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.
행동공간 제공 모듈(350)은, 가상 컨텐츠에서의 에이전트의 행동을 나타내는 가상 행동공간을 제공할 수 있다. 예를 들어, 행동공간 제공 모듈(350)은, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)로부터 수신한 가상 행동공간을 모의 실험 환경 생성을 위해 모의 실험 환경 생성 모듈(300)에 제공할 수 있다.
가상학습 모듈(360)은, 장면, 객체, 보상함수, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행할 수 있다.
에이전트 생성 모듈(370)은, 가상학습이 완료되면, 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트(10, 20, 30)를 생성할 수 있다. 가상학습된 에이전트(10, 20, 30)는 에이전트 제어 모듈(400)에 의해 원본 컨텐츠, 즉, 실제 게임에서 제어될 수 있다.
도 5는 본 발명의 일 실시 예에 따른 에이전트 제어 모듈을 설명하기 위한 블록도이다.
도 5를 참조하면, 본 발명의 일 실시 예에 따른 에이전트 제어 모듈(400)은, 환경정보 수집 모듈(410), 상태정보 수집 모듈(420) 및 행동공간 입력 모듈(430)을 포함할 수 있다.
환경정보 수집 모듈(410)은, 원본 컨텐츠를 제공하는 서버(예컨대 게임 서버)로부터 실제 환경, 즉 실제 게임 환경에 대한 정보를 수집할 수 있다.
상태정보 수집 모듈(420)은, 원본 컨텐츠를 제공하는 서버(예컨대 게임 서버)로부터 실제 상태, 즉 실제 에이전트의 상태에 대한 정보를 수집할 수 있다.
행동공간 입력 모듈(430)은, 환경정보 수집 모듈(410) 및 상태정보 수집 모듈(420) 중 적어도 하나에 의해 수집된 정보를 이용하여, 가상학습된 에이전트(10, 20, 30)를 원본 컨텐츠, 즉, 실제 게임에서 제어할 수 있다.
즉, 환경정보 수집 모듈(410) 및 상태정보 수집 모듈(420)은 게임 서버로부터 인공지능 에이전트 모델의 입력 값을 수신하고, 해당 값에 대한 연산을 수행하여 획득한 결과 값은 행동공간 입력 모듈(430)을 통해 게임 서버로 송신되어, 가상학습을 통해 생성된 모델을 통해 인공지능 에이전트를 제어할 수 있다.
이와 같은 본 발명의 일 실시 예에 따르면, 원본 컨텐츠를 정보 량이 더 낮은 가상 컨텐츠로 변환한 후, 가상 컨텐츠에 대해 에이전트 학습을 수행하고, 학습이 완료된 에이전트를 원본 컨텐츠에서 제어하는 방식을 이용하여, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.
또한, 원본 컨텐츠에서는 게임 내에서 학습 목적에 따라 실험을 반복하기 어려운 상황에서도, 가상 컨텐츠를 이용하여 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있다.
이제까지 설명한 각각의 모듈들은 단순히 논리적으로 구분된 것에 불과하며, 물리적으로 구분된 것을 나타내는 것은 아니다. 또한 각각의 모듈들은 구체적인 구현 목적 또는 방식에 따라, 2 이상의 모듈이 하나의 모듈로 통합되어 구현될 수도 있고, 하나의 모듈이 2 이상의 모듈로 나누어져 구현될 수도 있다.
도 6 내지 8은 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 방법을 설명하기 위한 도면들이다.
본 발명의 일 실시 예에 따른 모의 실험 환경 제공 방법은, 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공하는 단계; 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공하는 단계; 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 단계; 가상 컨텐츠에서의 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 단계; 가상 컨텐츠에서의 에이전트의 행동을 나타내는 가상 행동공간을 제공하는 단계; 및 장면, 객체, 보상함수, 가상 환경정보, 가상 상태정보 및 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 단계를 포함할 수 있다.
이에 대한 더욱 상세한 내용은 도 1 내지 도 5를 참조하여 전술한 내용을 참조할 수 있으므로, 여기서 그 중복되는 내용에 대한 설명은 생략하도록 한다.
도 6을 참조하면, 롤플레잉 장르의 게임 내에서 인스턴스 던전의 상황을 나타낸 그림(61)이 도시되어 있다. 이와 같이, 플레이어가 입장하여 인스턴스 던전 내 이동을 하면서 몬스터를 처치하고, 일정 수 이상의 몬스터를 처치하면 몬스터가 출현하게 되고, 보스 몬스터를 처치하면 임무를 달성하게 되는 기능 및 시나리오에서는, 이종 환경 매칭 모듈(200)의 그래픽 간소화 모듈(210)을 통해 생성된 장면 및 객체는 그림(63)과 같이 표현될 수 있다.
이어서 도 7을 참조하면, 이종 환경 매칭 모듈(200)의 필수정보 생성 모듈(230)은 도 7에 나타낸 바와 같은 가상 환경정보, 가상 상태정보 및 가상 행동공간을 생성할 수 있다.
예를 들어, 가상 환경정보는, 목표물의 유형, 위치, 헬스 포인트, 매직 포인트, 길의 위치, 벽의 위치, 수행할 미션 등에 관한 파라미터를 포함할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.
또한, 가상 상태정보는, 에이전트의 위치, 헬스 포인트, 매직 포인트, 타겟과의 관계 또는 상호작용 등에 관한 파라미터를 포함할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.
또한, 가상 행동공간은, 에이전트의 행동 관련하여 대기, 이동, 공격 등에 관한 관한 파라미터를 포함할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.
이어서 도 8을 참조하면, 이종 환경 매칭 모듈(200)의 보상함수 생성 모듈(220)은, 도 8에 나타낸 바와 같은 학습 정책을 생성할 수 있다.
예를 들어, 학습 정책은, 몬스터를 타겟팅한 경우, 몬스터를 처치한 경우, 보스 몬스터를 타겟팅한 경우, 보스 몬스터를 처치한 경우, 에이전트가 죽은 경우 등에 대한 리워드를 정의할 수 있으며, 이러한 구체적인 내용은 구체적인 구현 목적에 따라 얼마든지 달라질 수 있다.
도 9는 본 발명의 일 실시 예에 따른 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 모의 실험 환경 제공 장치 및 방법을 구현하는 컴퓨팅 장치를 설명하기 위한 블록도이다.
도 9를 참조하면, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치 및 방법은 컴퓨팅 장치(50)를 이용하여 구현될 수 있다.
컴퓨팅 장치(50)는 버스(520)를 통해 통신하는 프로세서(510), 메모리(530), 사용자 인터페이스 입력 장치(540), 사용자 인터페이스 출력 장치(550) 및 저장 장치(560) 중 적어도 하나를 포함할 수 있다. 컴퓨팅 장치(50)는 또한 네트워크(40), 예컨대 무선 네트워크에 전기적으로 접속되는 네트워크 인터페이스(570)를 포함할 수 있다. 네트워크 인터페이스(570)는 네트워크(40)를 통해 다른 개체와 신호를 송신 또는 수신할 수 있다.
프로세서(510)는 AP(Application Processor), CPU(Central Processing Unit), GPU (Graphic Processing Unit) 등과 같은 다양한 종류들로 구현될 수 있으며, 메모리(530) 또는 저장 장치(560)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(510)는 도 1 내지 도 8에서 설명한 기능 및 방법들을 구현하도록 구성될 수 있다.
메모리(530) 및 저장 장치(560)는 다양한 형태의 휘발성 또는 비 휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read-only memory)(531) 및 RAM(random access memory)(532)를 포함할 수 있다. 본 발명의 실시 예에서 메모리(530)는 프로세서(510)의 내부 또는 외부에 위치할 수 있고, 메모리(530)는 이미 알려진 다양한 수단을 통해 프로세서(510)와 연결될 수 있다.
또한, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치 및 방법 중 적어도 일부는 컴퓨팅 장치(50)에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.
또한, 본 발명의 일 실시 예에 따른 모의 실험 환경 제공 장치 및 방법 중 적어도 일부는 컴퓨팅 장치(50)과 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.
이제까지 설명한 본 발명의 실시 예들에 따르면, 원본 컨텐츠를 정보 량이 더 낮은 가상 컨텐츠로 변환한 후, 가상 컨텐츠에 대해 에이전트 학습을 수행하고, 학습이 완료된 에이전트를 원본 컨텐츠에서 제어하는 방식을 이용하여, 인공지능 에이전트 개발에 필요한 자원을 최소화할 수 있다.
또한, 원본 컨텐츠에서는 게임 내에서 학습 목적에 따라 실험을 반복하기 어려운 상황에서도, 가상 컨텐츠를 이용하여 효율적인 방식으로 인공지능 에이전트를 학습시킬 수 있다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고, 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속한다.

Claims (20)

  1. 원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면(scene) 및 객체(object)를 제공하는 장면 객체 제공 모듈;
    상기 가상 컨텐츠에서 에이전트(agent)가 강화 학습을 수행하기 위해 사용되는 보상함수(reward function)를 제공하는 보상함수 제공 모듈;
    상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경(environment)에 관한 정보를 포함하는 가상 환경정보를 제공하는 환경정보 제공 모듈;
    상기 가상 컨텐츠에서의 상기 에이전트의 상태(state)를 나타내는 가상 상태정보를 제공하는 상태정보 제공 모듈;
    상기 가상 컨텐츠에서의 상기 에이전트의 행동(action)을 나타내는 가상 행동공간을 제공하는 행동공간 제공 모듈; 및
    상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하고, 상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 가상학습 모듈을 포함하되,
    상기 보상함수는,
    상기 객체에 대한 상기 에이전트의 행동 또는 상기 객체에 의해 변경되는 상기 에이전트의 상태를 기초로 보상함수 리워드 값이 결정되는
    모의 실험 환경 제공 장치.
  2. 제1항에 있어서,
    상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 에이전트 생성 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  3. 제2항에 있어서,
    상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 에이전트 제어 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  4. 제1항에 있어서,
    상기 원본 컨텐츠로부터 상기 장면 및 객체를 생성하여 상기 장면 객체 제공 모듈에 전송하는 그래픽 간소화 모듈;
    상기 보상함수를 생성하여 상기 보상함수 제공 모듈에 전송하는 보상함수 생성 모듈; 및
    상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나를 생성하여 상기 환경정보 제공 모듈, 상기 상태정보 제공 모듈 및 상기 행동공간 제공 모듈 중 적어도 하나에 전송하는 필수정보 생성 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  5. 제1항에 있어서,
    상기 원본 컨텐츠로부터 상기 에이전트가 상기 가상학습을 수행하기 위해 필요한 요구사항을 추출하는 요구사항 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  6. 제1항에 있어서,
    상기 원본 컨텐츠로부터 상기 보상함수를 생성하기 위해 사용되는 학습목표를 추출하는 학습목표 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  7. 제1항에 있어서,
    상기 원본 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 추출하는 환경정보 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  8. 제1항에 있어서,
    상기 원본 컨텐츠에서의 상기 에이전트의 상태를 나타내는 상태정보를 추출하는 상태정보 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  9. 제1항에 있어서,
    상기 원본 컨텐츠에서의 상기 에이전트의 행동을 나타내는 행동공간을 추출하는 행동공간 추출 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  10. 제1항에 있어서,
    상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적은, 모의 실험 환경 제공 장치.
  11. 원본 컨텐츠로부터 가상 컨텐츠에서 사용되는 장면 및 객체를 생성하는 그래픽 간소화 모듈;
    상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 생성하는 보상함수 생성 모듈; 및
    상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보, 상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보 및 상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간 중 적어도 하나를 생성하는 필수정보 생성 모듈을 포함하되,
    상기 보상함수는,
    상기 객체에 대한 상기 에이전트의 행동 또는 상기 객체에 의해 변경되는 상기 에이전트의 상태를 기초로 보상함수 리워드 값이 결정되는
    모의 실험 환경 제공 장치.
  12. 제11항에 있어서,
    상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 모의 실험 환경 생성 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  13. 제12항에 있어서,
    상기 모의 실험 환경 생성 모듈은,
    상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하고,
    상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는, 모의 실험 환경 제공 장치.
  14. 제13항에 있어서,
    상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 에이전트 제어 모듈을 더 포함하는 모의 실험 환경 제공 장치.
  15. 제11항에 있어서,
    상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적은, 모의 실험 환경 제공 장치.
  16. 컴퓨팅 장치에 의해 각 단계가 수행되는 모의 실험 환경 제공 방법에 있어서,
    원본 컨텐츠로부터 변환된 가상 컨텐츠에서 사용되는 장면 및 객체를 제공하는 단계;
    상기 가상 컨텐츠에서 에이전트가 강화 학습을 수행하기 위해 사용되는 보상함수를 제공하는 단계;
    상기 가상 컨텐츠에서 상기 에이전트가 상기 강화 학습을 수행하기 위한 환경에 관한 정보를 포함하는 가상 환경정보를 제공하는 단계;
    상기 가상 컨텐츠에서의 상기 에이전트의 상태를 나타내는 가상 상태정보를 제공하는 단계;
    상기 가상 컨텐츠에서의 상기 에이전트의 행동을 나타내는 가상 행동공간을 제공하는 단계; 및
    상기 장면, 상기 객체, 상기 보상함수, 상기 가상 환경정보, 상기 가상 상태정보 및 상기 가상 행동공간 중 적어도 하나에 기초하여 모의 실험 환경을 생성하는 단계를 포함하되,
    상기 보상함수는,
    상기 객체에 대한 상기 에이전트의 행동 또는 상기 객체에 의해 변경되는 상기 에이전트의 상태를 기초로 보상함수 리워드 값이 결정되는
    모의 실험 환경 제공 방법.
  17. 제16항에 있어서,
    상기 모의 실험 환경에서 상기 에이전트에 대한 가상학습을 수행하는 단계를 더 포함하는 모의 실험 환경 제공 방법.
  18. 제17항에 있어서,
    상기 가상학습이 완료되면 상기 원본 컨텐츠에서 동작할 수 있는 가상학습된 에이전트를 생성하는 단계를 더 포함하는 모의 실험 환경 제공 방법.
  19. 제18항에 있어서,
    상기 원본 컨텐츠 상에서 상기 가상학습된 에이전트를 제어하는 단계를 더 포함하는 모의 실험 환경 제공 방법.
  20. 제16항에 있어서,
    상기 가상 컨텐츠의 정보 량은 상기 원본 컨텐츠의 정보 량보다 적은, 모의 실험 환경 제공 방법.
KR1020190179850A 2019-12-31 2019-12-31 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법 KR102535644B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190179850A KR102535644B1 (ko) 2019-12-31 2019-12-31 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법
US17/139,216 US20210200923A1 (en) 2019-12-31 2020-12-31 Device and method for providing a simulation environment for training ai agent

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190179850A KR102535644B1 (ko) 2019-12-31 2019-12-31 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210086131A KR20210086131A (ko) 2021-07-08
KR102535644B1 true KR102535644B1 (ko) 2023-05-23

Family

ID=76545501

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190179850A KR102535644B1 (ko) 2019-12-31 2019-12-31 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법

Country Status (2)

Country Link
US (1) US20210200923A1 (ko)
KR (1) KR102535644B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792846A (zh) * 2021-09-06 2021-12-14 中国科学院自动化研究所 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备
KR102365168B1 (ko) * 2021-09-17 2022-02-18 주식회사 애자일소다 설계 데이터 기반의 물체의 위치 최적화를 위한 강화학습 장치 및 방법
CN114205053B (zh) * 2021-11-15 2023-04-07 北京邮电大学 卫星通信系统强化学习自适应编码调制方法、系统及装置
KR102560188B1 (ko) * 2021-12-03 2023-07-26 서울대학교산학협력단 멀티모달 인공지능 에이전트를 이용하여 강화학습을 수행하는 방법 및 이를 수행하기 위한 컴퓨팅 장치
CN114146420B (zh) * 2022-02-10 2022-04-22 中国科学院自动化研究所 一种资源分配方法、装置及设备
CN114924684A (zh) * 2022-04-24 2022-08-19 南栖仙策(南京)科技有限公司 基于决策流图的环境建模方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151973A (ja) 2016-02-23 2017-08-31 ゼロックス コーポレイションXerox Corporation 現実世界の映像分析性能を評価するための仮想世界の生成
JP2019175266A (ja) * 2018-03-29 2019-10-10 株式会社Preferred Networks 動作生成装置、モデル生成装置、動作生成方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101974447B1 (ko) * 2017-10-13 2019-05-02 네이버랩스 주식회사 게임 환경 추상화를 통한 강화 학습 기반의 모바일 로봇 제어
US10800040B1 (en) * 2017-12-14 2020-10-13 Amazon Technologies, Inc. Simulation-real world feedback loop for learning robotic control policies
US11429762B2 (en) * 2018-11-27 2022-08-30 Amazon Technologies, Inc. Simulation orchestration for training reinforcement learning models
US11253783B2 (en) * 2019-01-24 2022-02-22 Kabushiki Kaisha Ubitus Method for training AI bot in computer game

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151973A (ja) 2016-02-23 2017-08-31 ゼロックス コーポレイションXerox Corporation 現実世界の映像分析性能を評価するための仮想世界の生成
JP2019175266A (ja) * 2018-03-29 2019-10-10 株式会社Preferred Networks 動作生成装置、モデル生成装置、動作生成方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"최근 인공지능 개발 트렌드와 미래의 진화 방향", LG 경제연구원, 2017.10.10.

Also Published As

Publication number Publication date
US20210200923A1 (en) 2021-07-01
KR20210086131A (ko) 2021-07-08

Similar Documents

Publication Publication Date Title
KR102535644B1 (ko) 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법
US11135514B2 (en) Data processing method and apparatus, and storage medium for concurrently executing event characters on a game client
US11491400B2 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
WO2020259502A1 (zh) 神经网络模型的生成方法及装置、计算机可读存储介质
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
Toyama et al. Androidenv: A reinforcement learning platform for android
CN104102522B (zh) 交互式游戏中智能非玩家角色的人工情感驱动方法
CN110339569A (zh) 控制游戏场景中虚拟角色的方法及装置
Baillie et al. Cyborg: An autonomous cyber operations research gym
JP2021536066A (ja) 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム
CN112870721B (zh) 一种游戏互动方法、装置、设备及存储介质
Nawalagatti et al. A comprehensive review on artificial intelligence based machine learning techniques for designing interactive characters
CN111282272B (zh) 信息处理方法、计算机可读介质及电子设备
CN109977998A (zh) 信息处理方法及装置、存储介质和电子装置
Carrascosa et al. Consensus-Based Learning for MAS: Definition, Implementation and Integration in IVEs
CN111753855B (zh) 一种数据处理方法、装置、设备及介质
CN111915701B (zh) 一种基于人工智能的按钮图像生成方法和装置
Liang et al. Parallel gym gazebo: a scalable parallel robot deep reinforcement learning platform
Fukushima et al. Evaluation‐function modeling with neural networks for RoboCup soccer
Yu et al. An agent-based self-adaptive mechanism with reinforcement learning
CN110008321A (zh) 信息交互方法和装置,存储介质及电子装置
KR20200133293A (ko) 커스터마이징 이미지 생성 장치 및 방법
Zhang et al. COMBO: Compositional World Models for Embodied Multi-Agent Cooperation
Zhou et al. Cooperative behavior acquisition based modular Q learning in multi-agent system
Hu et al. UTSE: A Game Engine-Based Simulation Environemnt for Agent

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant