KR102143906B1 - Method and system for performing environment adapting stategy based on ai - Google Patents
Method and system for performing environment adapting stategy based on ai Download PDFInfo
- Publication number
- KR102143906B1 KR102143906B1 KR1020180143319A KR20180143319A KR102143906B1 KR 102143906 B1 KR102143906 B1 KR 102143906B1 KR 1020180143319 A KR1020180143319 A KR 1020180143319A KR 20180143319 A KR20180143319 A KR 20180143319A KR 102143906 B1 KR102143906 B1 KR 102143906B1
- Authority
- KR
- South Korea
- Prior art keywords
- environment
- environmental
- game
- strategy
- adaptation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000007613 environmental effect Effects 0.000 claims abstract description 102
- 230000006978 adaptation Effects 0.000 claims abstract description 82
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 44
- 230000003044 adaptive effect Effects 0.000 claims abstract description 33
- 230000002787 reinforcement Effects 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims 1
- 230000004927 fusion Effects 0.000 claims 1
- 229910052698 phosphorus Inorganic materials 0.000 claims 1
- 239000011574 phosphorus Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 239000004575 stone Substances 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템에 관한 것으로서, 인공 지능 기반의 경기 분석 시스템에 의해 수행되는 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 있어서, a) 스포츠 종류별로 가상 환경을 제공하고, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 생성하는 단계; b) 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되고, 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출하는 단계; c) 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용하는 단계; d) 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 환경 적응적 프레임워크를 제공하는 단계; 및e) 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 단계를 포함하는 것이다. The present invention relates to an artificial intelligence-based environment-adaptive game strategy execution method and an artificial intelligence-based game analysis system, wherein in the artificial intelligence-based environment-adaptive game strategy execution method performed by the artificial intelligence-based game analysis system , a) providing a virtual environment for each sport type, extracting an uncertain environmental element in consideration of the actual environment for each sport type in the virtual environment, and generating an incomplete model for each uncertain environmental element; b) In the virtual environment, when a game is played for each sport type, an environment change is generated by the incomplete model, and sequential environmental adaptation features obtained due to environmental changes that change with time are extracted, and the sequential environmental adaptation features are fused. Extracting a current state feature that is being used; c) using a deep network for establishing a target strategy using the sequential environment adaptation features and current state features, and establishing an environment adaptation policy for executing the established target strategy in a real environment; d) Providing an environment adaptive framework for performing reinforcement learning on the environment adaptation policy by sequentially detecting performance errors for the environment adaptation policy execution, and designing an error function and weight for the detected sequential performance errors. Step to do; And e) collecting game progress information in an actual environment, predicting current environmental information by reflecting the collected game progress information in the environmental adaptive framework, and adapting the environment adaptively to the predicted current environmental information. It includes the step of deriving the policy in real time.
Description
본 발명은 각종 스포츠 경기의 전략 수행에 적용되어 불확실성이 있는 현실 환경에 실시간 적응할 수 있는 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템에 관한 것이다.The present invention relates to an artificial intelligence-based environment-adaptive game strategy execution method and an artificial intelligence-based game analysis system capable of real-time adaptation to a real environment with uncertainty by being applied to strategy execution of various sports events.
기계학습을 이용한 인공지능 기술이 실제 환경에 적용되기 위해 다양한 시도가 이루어지고 있다. 최근 심층강화학습 기법을 이용하여 다양한 분야에서 인공지능 스스로 문제를 학습하는 방법들을 제시하고 있다. 하지만 현재까지는 실험실 환경과 같은 제약된 환경에서 인공지능 기반의 문제 학습 실험이 진행되고 있다.Various attempts are being made to apply artificial intelligence technology using machine learning to real environments. Recently, artificial intelligence self-learning methods have been proposed in various fields using deep reinforcement learning techniques. However, up to now, artificial intelligence-based problem learning experiments are being conducted in a constrained environment such as a laboratory environment.
여기서, 강화학습(Reinforcement Learning)이란 어떤 환경 내에서 정의된 장치가 현재의 상태를 인식하여, 선택 가능한 행동들 중 가중치를 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 강화학습 기술은 최근 기계학습 분야 중에서도 가장 중요한 핵심 기술 중 하나로서, 다른 학습 방법들에 비해 탁월한 성능을 보이고 있다. Here, reinforcement learning is a method in which a device defined within a certain environment recognizes the current state and selects an action or action sequence that maximizes weight among selectable actions. This reinforcement learning technology is one of the most important core technologies among the recent machine learning fields, and shows excellent performance compared to other learning methods.
강화학습 기술은 인공지능 스스로 수많은 시행착오를 겪으면서 개선해나가는 방법으로 바로 현실 환경에 적용하기 전에 가상 환경에서 학습을 진행한다. 하지만, 가상 환경은 실제 환경에 비해 상대적으로 이상적인 환경일 수밖에 없고, 대다수 실제 환경을 가상 환경에 완벽하게 구현해 낼 수 없을 뿐만 아니라 불확실성까지 가상 환경에서 고려하는 것은 상당히 어렵다. 일례로, 자율 주행체 제어에 있어서 주요 고려 대상 중 하나인 다른 주행체의 움직임 등이 불확실성 변수로 작용한다. 따라서, 인공 지능 기술을 이용하여 가상 환경을 현실 환경으로 이전하는 문제는 여전히 도전적인 문제일 수밖에 없다. Reinforcement learning technology is a method of improving artificial intelligence itself while undergoing numerous trials and errors, and it learns in a virtual environment immediately before applying it to the real environment. However, the virtual environment is bound to be a relatively ideal environment compared to the real environment, and most of the real environments cannot be perfectly implemented in the virtual environment, and it is quite difficult to consider uncertainty in the virtual environment. For example, in autonomous vehicle control, the movement of another vehicle, which is one of the main considerations, acts as an uncertainty variable. Therefore, the problem of transferring a virtual environment to a real environment using artificial intelligence technology is still a challenging problem.
한편, 딥러닝은 컴퓨터가 인간처럼 판단하고 학습할 수 있도록 하고, 이러한 학습을 통해 사물이나 데이터를 군집화하거나 분류하는데 사용하는 기술이다. 딥러닝의 고안으로 인공지능이 획기적으로 도약하게 되었다. On the other hand, deep learning is a technology used to allow computers to judge and learn like humans, and to cluster or classify objects or data through such learning. With the design of deep learning, artificial intelligence has made a breakthrough.
초기 인공지능은 규칙을 컴퓨터에 주입하는 지도학습법(Supervised Learning)이 활용되었다. 1990년대 중반 이후에는 인터넷의 등장으로 방대한 데이터를 수집할 수 있게 되면서 수많은 빅데이터를 분석해 인공지능 시스템 스스로 학습하는 이른바 머신러닝(Machine Learning, 기계학습)의 형태로 진화하였다. 머신러닝 기반의 인공 지능은 데이터가 포함한 내용의 특징을 파악하는 데는 한계를 보였는데, 이를 뛰어넘는 딥러닝이 고안되면서 문제가 해결되었다.In the early days of artificial intelligence, supervised learning, which injects rules into a computer, was utilized. Since the mid-1990s, as the advent of the Internet has allowed it to collect vast amounts of data, it has evolved into a form of so-called machine learning (machine learning) in which an artificial intelligence system learns itself by analyzing a large number of big data. Machine learning-based artificial intelligence showed limitations in grasping the characteristics of the content contained in data, but the problem was solved as deep learning beyond this was devised.
이러한 딥러닝 기반의 인공 지능 시스템은 각종 스포츠 경기에 적용되어, 경기 분석, 경기 전략 추천 등에 이용될 수 있다. 예를 들어, 인공지능(AI) 컬링 로봇은 카메라를 이용해 상황을 인식하고, 딥러닝 학습을 통해 투구 전략을 수립하여 경기를 수행할 수 있다.Such a deep learning-based artificial intelligence system can be applied to various sports events and used for game analysis and game strategy recommendation. For example, an artificial intelligence (AI) curling robot can perform a game by recognizing a situation using a camera and establishing a throwing strategy through deep learning learning.
일반적으로, 컬링은 각각 4명으로 구성된 두 팀이 '컬링시트(Curling sheet)'라 부르는 길이 42.07m, 너비 4.27m인 얼음 링크 위에서 컬링 스톤을 미끄러뜨려 하우스에 넣어 득점을 하는 스포츠 게임이다. 일반적으로 컬링은 '얼음 위의 체스'라 불릴 정도로 전략이 필요한 경기로, 두뇌의 회전과 상대팀과의 심리전에서 오는 긴장감을 만끽할 수 있으며 팀원과의 협동이 필요하다. 컬링에서 전략은 어떤 샷을 어떻게 구사할 것인지 결정하는 것인데, 컬링의 전략을 지시하는 스킵(Skip)이 스톤을 투구하는 스로어(Thrower)의 투구 특성, 컬링 경기장의 변수 및 스톤의 변수 등을 고려하여 목표 시키고자 하는 목표위치로 유도시킨다. 컬링은 환경적인 불확실성이 경기 상황에 지대한 영향을 미치는 스포츠로 불확실성이 있는 실제 환경에 적용하는 연구를 진행하기에 매우 적합한 환경이다.In general, curling is a sports game in which two teams of four each score a score by sliding a curling stone into a house by sliding a curling stone on an ice rink that is 42.07m long and 4.27m wide, called a'curling sheet'. In general, curling is a game that requires strategy enough to be called'Chess on Ice', and you can enjoy the tension that comes from the rotation of the brain and the psychological battle with the other team, and cooperation with team members is required. In curling, the strategy is to decide which shot and how to use it, and the Skip, which directs the curling strategy, takes into account the throwing characteristics of the thrower who throws the stone, the variables of the curling arena, and the variable of the stone. Induce it to the target position to be targeted. Curling is a sport where environmental uncertainty has a profound effect on the game situation, and is a very suitable environment for conducting research that applies it to real environments where there is uncertainty.
그러나, 이러한 인공 지능 컬링 로봇은 현실 상황에서 발생하는 예기치 못한 상황에 대한 대처 능력이 부족하다는 문제점이 있다.However, such artificial intelligence curling robot has a problem that it lacks the ability to cope with unexpected situations occurring in real situations.
즉, 인공 지능 컬링 로봇은 컬링 경기 전략 알고리즘을 실행할 경우에, 빙판의 마찰 정도, 상대방의 스톤 위치 등 컬링의 불확실성 요소에 대해 취약하거나, 이러한 불확실성 요소들을 무시하는 문제점이 있다. 만일, 인공 지능 컬링 로봇이 불확실성 요소를 반영하여 경기 전략을 생성할 경우, 실제 환경에 실시간 적응적으로 대응할 수 있는 전략을 수행하는 문제를 고려하지 않고 있다. That is, when the artificial intelligence curling robot executes the curling game strategy algorithm, there is a problem in that it is vulnerable to the uncertainty elements of curling such as the degree of friction on the ice and the position of the opponent's stone, or ignores these uncertainty elements. If the artificial intelligence curling robot generates a game strategy by reflecting the uncertainty factor, the problem of implementing a strategy capable of adaptively responding to the real environment in real time is not considered.
대한민국 등록특허 제 10-1611431 호(발명의 명칭 :컬링 분석 방법, 이를 수행하기 위한 기록 매체 및 장치)Republic of Korea Patent Registration No. 10-1611431 (Name of invention: curling analysis method, recording medium and apparatus for performing this)
대한민국 공개특허 제10-2017-0013094호(발명이 명칭 : 작업 환경 변화에 적응적인 로봇 동작 데이터 제공 장치 및 그 방법)Republic of Korea Patent Publication No. 10-2017-0013094 (invention title: robot motion data providing apparatus and method adapted to changes in working environment)
본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라 각종 스포츠 경기의 전략 수행시 심층강화학습 기법을 적용하여 불확실성이 있는 현실 환경에서 오차를 최소화하면서 실시간 환경에 적응적으로 행동을 결정할 수 있도록 하는 것에 목적이 있다.In order to solve the above-described problem, the present invention applies an in-depth reinforcement learning technique when performing strategies for various sports events according to an embodiment of the present invention to adaptively act in a real-time environment while minimizing errors in a real environment with uncertainty. The purpose is to help you decide.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법은, 인공 지능 기반의 경기 분석 시스템에 의해 수행되는 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 있어서, a) 스포츠 종류별로 가상 환경을 제공하고, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 생성하는 단계; b) 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되고, 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 추출된 환경 적응 특징과 융합되는 현재 상태 특징을 추출하는 단계; c) 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용하는 단계; d) 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 환경 적응적 프레임워크를 제공하는 단계; 및e) 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 단계를 포함하는 것이다.As a technical means for achieving the above technical problem, the artificial intelligence-based environment-adaptive game strategy execution method according to an embodiment of the present invention is performed by the artificial intelligence-based game analysis system. A method for performing a game strategy, the method comprising: a) providing a virtual environment for each sport type, extracting an uncertainty environmental factor in consideration of an actual environment for each sport type, and then generating an incomplete model for each uncertainty environmental factor; b) In the virtual environment, when a game is played for each sport type, an environment change is generated by the incomplete model, and sequential environment adaptation features obtained due to environment changes that change with time are extracted, and the extracted environment adaptation features and Extracting the fused current state feature; c) using a deep network for establishing a target strategy using the sequential environment adaptation features and current state features, and establishing an environment adaptation policy for executing the established target strategy in a real environment; d) Providing an environment adaptive framework for performing reinforcement learning on the environment adaptation policy by sequentially detecting performance errors for the environment adaptation policy execution, and designing an error function and weight for the detected sequential performance errors. Step to do; And e) collecting game progress information in an actual environment, predicting current environment information by reflecting the collected game progress information in the environment adaptive framework, and adapting the environment adaptively to the predicted current environment information. It includes the step of deriving the policy in real time.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 인공 지능 기반의 경기 분석 시스템은, 실제 환경에서 환경 적응적 경기 전략 수행 방법을 수행하기 위한 프로그램이 기록된 메모리; 및 상기 프로그램을 실행하기 위한 프로세서를 포함하며, 상기 프로세서는, 상기 프로그램의 실행에 의해, 스포츠 종류별로 가상 환경을 제공하고, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 생성하며, 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되면 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 추출된 환경 적응 특징과 융합되는 현재 상태 특징을 추출하고, 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용하며, 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 환경 적응적 프레임워크를 제공하되, 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 것이다.As a technical means for achieving the above technical problem, an artificial intelligence-based game analysis system according to an embodiment of the present invention includes a memory in which a program for performing an environmentally adaptive game strategy execution method in an actual environment is recorded; And a processor for executing the program, wherein the processor provides a virtual environment for each sport type by execution of the program, and extracts an uncertain environmental factor in consideration of the actual environment for each sport type in the virtual environment. An incomplete model for each uncertain environmental element is generated, and when an environment change is generated by the incomplete model when a game is played for each sport type in the virtual environment, the sequential environmental adaptation characteristics obtained due to the environmental change that changes according to time change are obtained. An environment for extracting, extracting the current state feature fused with the extracted environmental adaptation feature, establishing a target strategy using the sequential environmental adaptation feature and the current state feature, and executing the established target strategy in a real environment Using a deep network that establishes an adaptation policy, sequentially detecting performance errors for the execution of the environmental adaptation policy, and designing an error function and weight for the detected sequential performance errors to perform reinforcement learning on the environmental adaptation policy. Provides an environment-adaptive framework to perform, but collects game progress information in an actual environment, predicts current environment information by reflecting the collected game progress information in the environment-adaptive framework, and predicts the current environment information It is to derive an environmental adaptation policy that adaptively responds to the problem in real time.
전술한 본 발명의 과제 해결 수단에 의하면, 각종 스포츠 경기의 전략 수행시 심층강화학습 기법을 적용하여 불확실성이 있는 현실 환경에서 불확실성 환경적 요소로 인해 발생되는 오차를 실시간 반영하고, 환경 정보를 예측하여 예측된 환경에 적응적으로 행동을 결정할 수 있다. According to the above-described problem solving means of the present invention, by applying an in-depth reinforcement learning technique when performing strategies for various sports events, errors generated by uncertain environmental factors in a real environment with uncertainty are reflected in real time, and environmental information is predicted. Behavior can be determined adaptively to the predicted environment.
본 발명은 불확실성 환경적 요소를 반영한 가상 환경에서 심층강화학습을 수행하여 이전 상황의 오차 및 환경 정보를 이용하여 현재 상황의 환경 정보를 예측할 수 있어, 실제 환경에서 예상하지 못한 환경적인 요소가 존재하더라도 실시간 오차 교정 및 안정적인 전략 수행이 가능해질 수 있다.The present invention performs in-depth reinforcement learning in a virtual environment reflecting uncertain environmental factors, and can predict environmental information of the current situation by using errors and environmental information of the previous situation, even if there are unexpected environmental factors in the actual environment. Real-time error correction and stable strategy execution may be possible.
도 1은 본 발명의 일 실시예에 따른 인공 지능 기반의 경기 분석 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법을 설명하는 순서도이다.
도 3은 실제 컬링 경기에서 목표 전략 수행시 가상 환경과 실제 환경에서 발생되는 오차를 설명하는 도면이다.
도 4는 가상 환경과 실제 환경의 오차를 평가 및 예측하는 과정을 설명하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 심층 네트워크 및 강화 학습 과정을 설명하는 도면이다.
도 6은 본 발명의 일 실시예에 따른 환경 적응적 프레임워크를 설명하는 도면이다.
도 7은 컬링 경기에서 빙질 상태 변화를 반영한 가상 환경을 설명하는 도면이다.
도 8은 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 따른 전략 수행 결과와 기존의 컬링 로봇에 의한 전략 수행 결과에 대한 평균 오차 비교 결과를 설명하는 도면이다.1 is a diagram showing the configuration of an artificial intelligence-based game analysis system according to an embodiment of the present invention.
2 is a flow chart illustrating a method of performing an environment-adaptive game strategy based on artificial intelligence according to an embodiment of the present invention.
3 is a diagram illustrating an error occurring in a virtual environment and a real environment when performing a target strategy in an actual curling game.
4 is a diagram illustrating a process of evaluating and predicting an error between a virtual environment and a real environment.
5 is a diagram illustrating a deep network and a reinforcement learning process according to an embodiment of the present invention.
6 is a diagram illustrating an environment adaptive framework according to an embodiment of the present invention.
7 is a diagram illustrating a virtual environment reflecting a change in ice quality in a curling game.
FIG. 8 is a diagram illustrating a result of comparing an average error between a strategy execution result according to a method of performing an environmentally adaptive game strategy based on artificial intelligence according to an embodiment of the present invention and a strategy execution result by an existing curling robot.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art may easily implement the present invention. However, the present invention may be implemented in various different forms and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are attached to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Throughout the specification, when a part is said to be "connected" with another part, this includes not only "directly connected" but also "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, it means that other components may be further included, and one or more other features, not excluding other components, unless specifically stated to the contrary. It is to be understood that it does not preclude the presence or addition of any number, step, action, component, part, or combination thereof.
이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.The following examples are detailed descriptions for aiding understanding of the present invention, and do not limit the scope of the present invention. Accordingly, the invention of the same scope performing the same function as the present invention will also belong to the scope of the present invention.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 인공 지능 기반의 경기 분석 시스템의 구성을 나타낸 도면이다. 1 is a diagram showing the configuration of an artificial intelligence-based game analysis system according to an embodiment of the present invention.
도 1을 참조하면, 인공 지능 기반의 경기 분석 시스템은 불확실성이 존재하는 실제 환경에 적용되어 정책을 수행하는 것으로서, 설명의 편의상 환경적인 불확실성이 경기 상황에 지대한 영향을 미치는 컬링을 대상으로 하고 있지만, 컬링을 포함한 스포츠 경기 뿐만 아니라 불확실성이 존재하는 환경적 요소를 포함하는 다양한 환경에 적용될 수 있다. Referring to FIG. 1, the artificial intelligence-based game analysis system is applied to an actual environment in which uncertainty exists to perform a policy, and for convenience of explanation, environmental uncertainty targets culling, which has a profound effect on the game situation. It can be applied to various environments including not only sports events including curling but also environmental factors where uncertainty exists.
인공 지능 기반의 경기 분석 시스템은, 투구 로봇(20)과 스킵 로봇(10)을 이용하여 인공 지능 기반으로 경기 분석을 수행하는 프로세서(100)를 포함한다.The artificial intelligence-based game analysis system includes a
프로세서(100)는 스킵 로봇(10)의 헤드부에 장착된 카메라(30)를 통해 경기 상황 인식, 즉 경기 진행 정보를 수집하고, 심층강화학습을 통해 투구 전략을 수립하여 경기를 수행한다. 이때, 스킵 로봇(10)은 카메라(30)를 통해 인식한 경기 영상을 프로세서(100)에 전송한다. The
프로세서(100)는 데이터 입력 모듈(110), 환경 적응적 프레임워크 실행 모듈(120), 환경 적응 정책 추천 모듈(130) 및 데이터 출력 모듈(140)을 통해 경기 영상을 분석하여 현재 환경 상태를 실시간으로 예측한 후, 스톤을 어느 방향으로, 얼마만큼의 강도로 던질 것인지에 대한 투구 파라미터들을 포함한 정책을 결정하여 투구 로봇(20)에게 정책 수행을 위한 데이터를 전달하여 경기를 진행하도록 한다. The
프로세서(100)는 실제 환경에서 환경 적응적 경기 전략 수행 방법을 제공하는 전체 과정을 제어한다. 프로세서(100)가 수행하는 각 단계에 대해서는 도 2를 참조하여 후술하기로 한다.The
여기서, 프로세서(100)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. Here, the
이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.As an example of a data processing device built into the hardware as described above, a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, and an application-specific integrated (ASIC) circuit), a field programmable gate array (FPGA), and the like, but the scope of the present invention is not limited thereto.
메모리(200)는 실제 환경에서 환경 적응적 경기 전략 수행 방법을 수행하기 위한 프로그램이 기록된다. 또한, 프로세서(100)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(200)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The
도 2는 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법을 설명하는 순서도이고, 도 3은 실제 컬링 경기에서 목표 전략 수행시 가상 환경과 실제 환경에서 발생되는 오차를 설명하는 도면이고, 도 4는 가상 환경과 실제 환경의 오차를 평가 및 예측하는 과정을 설명하는 도면이며, 도 5는 본 발명의 일 실시예에 따른 심층 네트워크 및 강화 학습 과정을 설명하는 도면이고, 도 6은 본 발명의 일 실시예에 따른 환경 적응적 프레임워크를 설명하는 도면이다. FIG. 2 is a flow chart illustrating a method of performing an environment-adaptive game strategy based on artificial intelligence according to an embodiment of the present invention, and FIG. 3 is a flowchart illustrating an error occurring in a virtual environment and an actual environment when performing a target strategy in an actual curling game. 4 is a diagram illustrating a process of evaluating and predicting an error between a virtual environment and a real environment, and FIG. 5 is a diagram illustrating a deep network and reinforcement learning process according to an embodiment of the present invention. 6 is a diagram illustrating an environment adaptive framework according to an embodiment of the present invention.
도 2 내지 도 6을 참조하면, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법은, 환경 적응적 프레임워크를 통해 가상 환경의 불완전 모델 생성, 순차적 환경 적응 특징 및 현재 상태 특징 추출, 심층 네트워크 및 강화학습 수행, 환경 적응 정책에 대한 강화 학습을 수행한다.2 to 6, a method of performing an environment-adaptive game strategy based on artificial intelligence includes generation of an incomplete model of a virtual environment through an environment-adaptive framework, sequential environment adaptation features and current state features extraction, deep network and reinforcement. Performing learning and reinforcement learning on environmental adaptation policies.
먼저, 환경 적응적 프레임워크는 스포츠 종류별로 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 포함하는 가상 환경을 제공한다(S110). 컬링의 경우, 빙판의 고르지 못한 마찰 계수, 시간에 따른 마모 변화, 빙질 상태 변화(온도, 습도, 정빙 등), 투구 제어 오차 등이 불확실성 환경적 요소가 될 수 있다. First, the environmental adaptive framework extracts uncertain environmental factors in consideration of the actual environment for each sport type, and then provides a virtual environment including an incomplete model for each uncertain environmental element (S110). In the case of curling, uneven coefficient of friction of the ice sheet, changes in wear over time, changes in ice quality (temperature, humidity, ice cubes, etc.), pitch control errors, etc. can be uncertain environmental factors.
환경 적응적 프레임워크는 가상 환경에서 스포츠 종류별로 경기 진행시 불완전 모델에 의해 환경 변화가 생성되면, 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출한다(S120).The environmental adaptation framework extracts sequential environmental adaptation features obtained due to environmental changes that change according to time when an environment change is generated by an incomplete model when playing for each sport type in a virtual environment. The fused current state feature is extracted (S120).
실제 컬링 경기에서는 도 3에 도시된 바와 같이, 목표 전략 수행시 가상 환경의 목표 위치와 현실에서의 실제 도달 위치간에 오차가 발생한다. 불확실성 환경적 요소가 존재하는 실제 환경에서는 투구 제어 오차, 마모 변화, 빙질 상태 변화 등으로 투구 스톤의 궤적이 가상 환경에서의 투구 스톤의 궤적과 차이가 발생하게 된다. In an actual curling game, as shown in FIG. 3, an error occurs between a target position in a virtual environment and an actual arrival position in the real world when performing a target strategy. In a real environment where uncertain environmental factors exist, the trajectory of the pitching stone differs from the trajectory of the pitching stone in the virtual environment due to pitch control errors, changes in wear, and changes in ice quality.
따라서, 환경 적응적 프레임워크는 도 4에 도시된 바와 같이, 가상 환경이 목표 위치와 실제 환경에서의 도달 위치의 오차를 순차적으로 검출하고, 순차적으로 검출된 오차 데이터를 통해 다음 상태의 환경 변화를 예측할 수 있는 환경 변화 예측 정보를 산출한다. 이때, 환경 적응적 프레임워크는 정책 수행시 환경 변화 예측 정보의 요인을 측정하고, 환경 적응 특징을 추출한다. Therefore, the environment adaptive framework sequentially detects the error between the target position and the arrival position in the real environment in the virtual environment as shown in FIG. 4, and detects the environment change in the next state through the sequentially detected error data. Calculate predictable environmental change prediction information. At this time, the environmental adaptation framework measures the factors of environmental change prediction information when implementing policies, and extracts environmental adaptation features.
순차적 환경 적응 특징은 불완전 모델이 없거나 불완전 모델이 완벽한 상태가 아니더라도 불확실성 환경적 요소에 의한 오차, 불완전 모델에 의한 오차 등을 고려할 수 있는 특징이다. 한편, 현재 상태 특징은 실제 환경에서 측정 가능한 요인을 매 시간마다 추출 및 누적한 순차적 누적 환경 요소이다.The sequential environmental adaptation feature is a feature that can take into account errors due to uncertain environmental factors, errors due to incomplete models, etc. even if there is no incomplete model or the incomplete model is not in perfect state. On the other hand, the current state feature is a sequential cumulative environmental factor in which factors measurable in an actual environment are extracted and accumulated every hour.
환경 적응적 프레임워크는 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 순차적으로 목표 전략을 수립하고, 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용한다(S130). The environmental adaptation framework uses the sequential environmental adaptation characteristics and the current state characteristics to sequentially establish target strategies, and uses a deep network to establish an environmental adaptation policy for executing the established target strategies in a real environment (S130).
심층 네트워크는, 도 5에 도시된 바와 같이, 순차적 환경 적응 특징과 현재 상태 특징, 순차적 누적 환경 요소들이 입력 데이터로 입력되고, 입력 데이터가 복수의 컨벌루션 층을 거쳐 복수의 특징 맵(feature map)으로 출력되며, 복수의 특징 맵들을 밀집 층(Dense Layer)에서 모두 연결하여 환경 적응 정책이 출력되도록 한다. In the deep network, as shown in FIG. 5, sequential environmental adaptation features, current state features, and sequential accumulated environment elements are input as input data, and the input data is passed through a plurality of convolutional layers into a plurality of feature maps. It is output, and the environment adaptation policy is output by connecting all of the plurality of feature maps in a dense layer.
환경 적응적 프레임워크는 순차적 환경 적응 정책을 순차적으로 수행한 후 수행 오차를 검출하고, 검출된 수행 오차에 대해 오류 함수(또는 손실 함수)와 가중치를 설계하여 환경 적응 정책에 대한 강화학습을 수행한다(S140). The environment adaptive framework performs reinforcement learning on the environment adaptation policy by sequentially executing the sequential environment adaptation policy, detecting performance errors, and designing an error function (or loss function) and weights for the detected performance errors. (S140).
이때, 강화 학습의 학습 정도를 조정하기 위한 가중치 설계는 수행 오차가 목표 전략에 대해 허용 오차 범위 이내인 경우에 정답에 근접한 값임을 나타내는 강한 긍정 가중치를 제공하고, 수행 오차가 기설정된 불확실성 범위 이내인 경우에 약한 긍정 가중치를 제공하며, 수행 오차가 기설정된 불확설 범위를 초과하는 경우에 오답에 근접한 값임을 나타내는 부정 가중치를 제공한다. At this time, the weight design for adjusting the learning degree of reinforcement learning provides a strong positive weight indicating that the performance error is close to the correct answer when the performance error is within the tolerance range for the target strategy, and the performance error is within a preset uncertainty range. In the case of a case, a weak positive weight is provided, and when the performance error exceeds a preset uncertainty range, a negative weight indicating that the value is close to the incorrect answer is provided.
환경 적응적 프레임워크는 실제 환경에서 경기 진행 정보를 수집한 후 실시간 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 이렇게 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출한다(S150, S160).The environmental adaptive framework collects game progress information in an actual environment, reflects real-time game progress information, predicts current environmental information, and derives an environmental adaptation policy adaptively responding to the predicted current environmental information ( S150, S160).
또한, 환경 적응적 프레임워크는 강화 학습시 수행 오차를 학습하여 목표 전략에 대한 위험도를 산출하고, 고위험도의 목표 전략에 대한 환경 적응 정책의 가중치 조정을 통해 위험도를 낮출 수 있다. 즉, 고위험도 목표 전략에 대한 환경 적응 정책이 환경 적응 정책 후보군 도출시 제외되도록 한다. 즉, 환경 적응적 프레임워크는 환경 적응 정책에 대한 강화 학습을 수행함과 동시에 불확실성에 의한 투구 오차 데이터를 학습하고, 성공 확률이 낮은 투구 전략에 대한 환경 적응 정책 후보군를 제외하여 실시간 학습된 환경 적응 정책 후보군을 제공함으로써 보다 안정적인 투구 전략에 대한 환경 적응 정책을 제공할 수 있다. In addition, the environmental adaptive framework can calculate the risk for the target strategy by learning performance errors during reinforcement learning, and lower the risk by adjusting the weight of the environmental adaptation policy for the high-risk target strategy. In other words, the environmental adaptation policy for the high-risk target strategy is excluded when deriving the environmental adaptation policy candidate group. In other words, the environmental adaptation framework performs reinforcement learning on the environmental adaptation policy and at the same time learns pitching error data due to uncertainty, and excludes the environmental adaptation policy candidates for the throwing strategy with a low probability of success. It can provide an environmental adaptation policy for a more stable throwing strategy.
심층 강화 학습 기반의 환경 적응적 프레임워크는, 도 6에 도시된 바와 같이, 컬링의 경우 거리오차 및 궤적 등의 순차적 누적 환경 요소, 전략 요소와 환경적 요소를 포함한 특징들이 입력데이터로 입력되고, 심층 네트워크를 통해 투구에 대한 행동 확률인 환경 적응 정책이 출력되며, 환경 적응 정책을 수행한 후에 수행 오차에 대해 손실 함수 및 보상을 수행하며, 손실 함수 및 보상의 결과를 다시 심층 네트워크에 전달 한다. 즉, 환경 적응적 프레임워크는 환경 적응 특징을 이용하여 오류 함수에 반영하여 환경 적응 정책에 대한 학습을 수행한다. In the environment adaptive framework based on deep reinforcement learning, as shown in FIG. 6, in the case of culling, features including sequentially accumulated environmental elements such as distance errors and trajectories, strategic elements and environmental elements are input as input data, Through the deep network, the environmental adaptation policy, which is the probability of the pitching, is output, and after the environmental adaptation policy is executed, the loss function and compensation are performed for the performance error, and the loss function and the result of the compensation are transferred back to the deep network. That is, the environment adaptive framework learns about the environment adaptation policy by reflecting it in the error function using the environment adaptation characteristics.
환경 적응적 프레임워크는 목표 전략을 수립하는 전략 생성 모듈과 환경 적응 정책을 수립하는 전략 수행 모듈을 분리하고, 전략 생성 모듈과 전략 수행 모듈을 개별적으로 강화학습 함으로써 모듈별로 성능을 개선할 수 있도록 한다.The environment adaptive framework separates the strategy generation module that establishes the target strategy and the strategy execution module that establishes the environment adaptation policy, and individually reinforces learning the strategy generation module and the strategy implementation module to improve performance for each module. .
도 7은 컬링 경기에서 빙질 상태 변화를 반영한 가상 환경을 설명하는 도면이고, 도 8은 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 따른 전략 수행 결과와 기존의 컬링 로봇에 의한 전략 수행 결과에 대한 평균 오차 비교 결과를 설명하는 도면이다. 7 is a diagram for explaining a virtual environment reflecting a change in ice quality in a curling game, and FIG. 8 is a strategy execution result according to a method of performing an environment-adaptive game strategy based on artificial intelligence according to an embodiment of the present invention and an existing curling It is a diagram explaining the comparison result of the average error of the strategy execution result by the robot.
도 7 및 도 8을 참조하면, 본 발명은 가상 환경이 아닌 실제 환경에서 전략을 수행하기 위한 환경 적응적 프레임워크를 통해 도출된 순차적 환경 적응 정책을 수행한다. 순차적 환경 적응 정책 (model-based, model free)의 수행 결과와 기존의 컬링 로봇에 의한 전략 수행 결과를 비교해 보면, 로봇이 투구 제어 오차, 마모 변화, 빙질 상태 변화 등의 불확실성으로 인해 예측할 수 없이 변화는 환경에서 환경 적응 정책이 오차를 최소화하면서 현실 환경에 실시간 적응하고 있음을 알 수 있다.Referring to FIGS. 7 and 8, the present invention performs a sequential environmental adaptation policy derived through an environmental adaptation framework for executing a strategy in a real environment rather than a virtual environment. Comparing the results of the sequential environmental adaptation policy (model-based, model free) with the results of strategy execution by the existing curling robot, the robot changes unpredictably due to uncertainties such as pitch control errors, wear changes, and ice quality changes. It can be seen that the environmental adaptation policy in the environment is adapting in real time to the real environment while minimizing errors.
이와 같이, 환경 적응적 프레임워크는 심층강화학습 기술을 이용하여 이전 상황의 환경적 변화 요소와 및 환경적 변화 요소로 인해 발생한 순차적 오차 정보들을 이용한다. 따라서, 환경 적응적 프레임워크는 실제 환경에 대한 완벽한 모델링이 어렵거나, 불확실성으로 인해 예측할 수 없이 변하는 환경에서 이전 상황들의 오차와 환경적 변화 요소를 이용하여 현재 환경 상태를 실시간으로 예측하여 환경 적응 정책을 수행하도록 한다. In this way, the environmental adaptive framework uses deep reinforcement learning technology to use environmental changes in the previous situation and sequential error information caused by environmental changes. Therefore, the environmental adaptation framework predicts the current environmental condition in real time using errors and environmental change factors of previous situations in an environment where it is difficult to model the actual environment or changes unpredictably due to uncertainty. To perform.
특히, 컬링의 투구는 빙판 위에서 스톤을 미끄러뜨리는 것으로, 경기 상황에 따라 상대의 스톤을 밀어내거나 블로킹 하는 등 어떤 전략을 구사할 것인지도 중요하지만, 해당 전략을 수행하기 위해서 현재 빙질 상태에 따라 스톤을 투구할 때 필요한 강도, 회전(curl), 궤적 등의 투구 파라미터의 결정이 매우 중요한 요소이다.In particular, curling's pitch is to slide a stone on the ice, and depending on the game situation, it is important to decide which strategy to use, such as pushing or blocking the opponent's stone, but in order to carry out the strategy, pitch the stone according to the current ice conditions. Determination of pitching parameters, such as strength, curl, and trajectory required for this, is a very important factor.
본 발명은 이전 상황의 환경적 변화 요소와 및 환경적 변화 요소로 인해 발생한 순차적 오차 정보들을 이용하여 실시간으로 현재 빙질 상태 변화를 파악하여, 스톤의 속도(강도)와 회전을 결정하여 스톤의 궤적이 결정되도록 환경 적응 정책을 도출한다. The present invention determines the current ice quality change in real time by using the environmental change factor of the previous situation and the sequential error information generated by the environmental change factor, and determines the speed (strength) and rotation of the stone, so that the trajectory of the stone is Derive environmental adaptation policies to be determined.
이상에서 설명한 본 발명의 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.The method for performing an environmentally adaptive game strategy based on artificial intelligence according to an embodiment of the present invention described above may also be implemented in the form of a recording medium including instructions executable by a computer such as a program module executed by a computer. . Such recording media include computer-readable media, and computer-readable media may be any available media that can be accessed by a computer, and include both volatile and nonvolatile media, and removable and non-removable media. In addition, computer-readable media includes computer storage media, which are volatile and nonvolatile implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, or other data. , Both removable and non-removable media.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that other specific forms can be easily modified without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative and non-limiting in all respects. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.
10: 스킵 로봇 20 : 투구 로봇
30 : 카메라 100 : 프로세서
110 : 데이터 입력 모듈
120 : 환경 적응적 프레임워크 실행 모듈
130 : 환경 적응 정책 추천 모듈
140 : 데이터 출력 모듈10: skip robot 20: pitching robot
30: camera 100: processor
110: data input module
120: Environment adaptive framework execution module
130: Environment adaptation policy recommendation module
140: data output module
Claims (9)
a) 스포츠 종류별로 가상 환경을 제공하되, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 포함하는 가상 환경을 제공하는 단계;
b) 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되고, 시간 변화에 따라 발생하는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 추출된 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출하는 단계;
c) 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 출력하는 심층 네트워크를 이용하는 환경 적응적 프레임 워크를 제공하되, 상기 환경 적응적 프레임 워크는 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 것인, 단계; 및
d) 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 단계를 포함하는 것이되,
상기 스포츠는 대상체를 목표 위치로 이동 시키는 행위를 반복적으로 수행하되, 시간 변화에 따라 발생하는 환경 변화로 인해 대상체가 이동하는 위치가 변화되는 환경에서 이루어지는 것이고,
상기 환경 적응 정책은 상기 대상체를 목표 위치로 이동 시키는 행위에 대한 행동 확률을 나타내는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.In the artificial intelligence-based environment-adaptive game strategy execution method performed by the artificial intelligence-based game analysis system,
a) providing a virtual environment for each sport type, extracting an uncertain environmental element in consideration of the actual environment for each sport type in the virtual environment, and then providing a virtual environment including an incomplete model for each uncertain environmental element;
b) In the virtual environment, when a game is played for each sport type, an environment change is generated by the incomplete model, and sequential environment adaptation features obtained due to environment changes occurring according to time change are extracted, and the extracted sequential environment adaptation features Extracting a current state feature that is fused with;
c) Provide an environment adaptive framework using a deep network that establishes a target strategy using the sequential environment adaptation characteristics and the current state characteristics, and outputs an environment adaptation policy for executing the established target strategy in a real environment. , The environmental adaptation framework sequentially detects an execution error for the execution of the environmental adaptation policy, and performs reinforcement learning for the environmental adaptation policy by designing an error function and weight for the detected sequential execution error. Phosphorus, step; And
d) Environment adaptation policy that collects game progress information in an actual environment, predicts current environment information by reflecting the collected game progress information in the environment adaptive framework, and adaptively responds to the predicted current environment information It includes the step of deriving in real time,
In the sport, the action of moving the object to the target position is repeatedly performed, but is performed in an environment in which the position to which the object moves is changed due to changes in the environment that occur over time,
The environmental adaptation policy represents an action probability for an action of moving the object to a target position. The method of performing an environment-adaptive game strategy based on artificial intelligence.
상기 b) 단계는,
상기 가상 환경에서 경기 진행에 따른 목표값과 실제 환경에서 경기 진행에 따른 목표값을 비교하여 오차를 순차적으로 검출하고, 상기 순차적으로 검출된 오차를 통해 환경 변화 예측 정보를 산출하며, 상기 환경 변화 예측 정보를 이용하여 환경 적응 특징을 추출하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법. The method of claim 1,
Step b),
By comparing the target value according to the progress of the game in the virtual environment and the target value according to the progress of the game in the real environment, errors are sequentially detected, environment change prediction information is calculated through the sequentially detected errors, and the environment change prediction An artificial intelligence-based environmental adaptive game strategy execution method that extracts environmental adaptation features using information.
상기 시간 변화에 따라 변화되는 환경 변화에 대응되는 특징들을 실제 환경에서 매시간 추출하여 누적 저장함으로써 현재 상태 특징을 산출하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법. The method of claim 2,
The method of performing an environment-adaptive game strategy based on artificial intelligence, by extracting and accumulating and storing the features corresponding to the environmental changes that change according to the time change every hour from the actual environment.
상기 심층 네트워크는 상기 환경 적응 특징과 현재 상태 특징, 순차적 누적 환경 요소들이 입력 데이터로 입력되고, 상기 입력 데이터가 복수의 컨벌루션 층을 거쳐 복수의 특징 맵(feature map)으로 출력되며, 상기 복수의 특징 맵들을 밀집 층(Dense Layer)에서 모두 연결하여 환경 적응 정책이 출력되도록 하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법. The method of claim 1,
In the deep network, the environmental adaptation feature, the current state feature, and the sequentially accumulated environment elements are input as input data, the input data is output as a plurality of feature maps through a plurality of convolutional layers, and the plurality of features A method of performing an environment-adaptive game strategy based on artificial intelligence, in which maps are connected in a dense layer so that an environment adaptation policy is output.
상기 c) 단계는 상기 목표 전략을 수립하는 전략 생성 모듈과 상기 환경 적응 정책을 수립하는 전략 수행 모듈을 분리하고,
상기 전략 생성 모듈과 전략 수행 모듈을 개별적으로 강화학습 하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.The method of claim 1,
The step c) separates a strategy generation module for establishing the target strategy and a strategy execution module for establishing the environment adaptation policy,
The method of performing an environmentally adaptive game strategy based on artificial intelligence to individually reinforce learning the strategy generation module and the strategy execution module.
상기 c) 단계는
N-1 번째의 환경 적응 정책을 수행한 결과와 N번째의 환경 적응 정책을 수행한 결과를 비교하여 수행 오차를 검출하고, 상기 검출된 수행 오차에 대해 차등적으로 가중치 설계를 수행하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.The method of claim 1,
Step c)
Comparing the result of performing the N-1th environmental adaptation policy and the result of performing the Nth environmental adaptation policy to detect a performance error, and performing weight design differentially on the detected performance error, Artificial intelligence-based environmentally adaptive game strategy execution method.
상기 강화 학습의 학습 정도를 조정하기 위한 가중치 설계는,
상기 수행 오차가 목표 전략에 대해 허용 오차 범위 이내인 경우, 정답에 근접한 값임을 나타내는 강한 긍정 가중치를 제공하고,
상기 수행 오차가 기설정된 불확실성 범위 이내인 경우, 약한 긍정 가중치를 제공하며,
상기 수행 오차가 기설정된 불확설 범위를 초과하는 경우, 오답에 근접한 값임을 나타내는 부정 가중치를 제공하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.The method of claim 6,
Weight design for adjusting the learning degree of the reinforcement learning,
When the performance error is within the tolerance range for the target strategy, a strong positive weight indicating that the value is close to the correct answer is provided, and
When the performance error is within a preset uncertainty range, a weak positive weight is provided,
When the performance error exceeds a preset uncertainty range, a negative weight indicating a value close to an incorrect answer is provided.
상기 d) 단계는,
상기 환경 적응적 프레임워크를 통해 적어도 하나 이상의 학습된 환경 적응 정책 후보군을 도출하고,
상기 환경 적응적 프레임워크는 강화 학습시 상기 수행 오차를 학습하여 목표 전략에 대한 위험도를 산출하고, 고위험도의 목표 전략에 대한 환경 적응 정책의 가중치 조정을 통해 상기 환경 적응 정책 후보군에서 제외되도록 하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.The method of claim 2,
Step d),
Derive at least one learned environmental adaptation policy candidate group through the environmental adaptation framework,
The environmental adaptive framework learns the performance error during reinforcement learning to calculate the risk for a target strategy, and excludes it from the environmental adaptation policy candidate group by adjusting the weight of the environmental adaptation policy for the high-risk target strategy. Human, artificial intelligence-based environmental adaptive game strategy execution method.
실제 환경에서 환경 적응적 경기 전략 수행 방법을 수행하기 위한 프로그램이 기록된 메모리; 및
상기 프로그램을 실행하기 위한 프로세서를 포함하며,
상기 프로세서는, 상기 프로그램의 실행에 의해,
스포츠 종류별로 가상 환경을 제공하되, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 포함하는 가상 환경을 제공하고,
상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되면 시간 변화에 따라 발생하는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출하고,
상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 출력하는 심층 네트워크를 이용하는 환경 적응적 프레임 워크를 제공하되, 상기 환경 적응적 프레임 워크는, 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하고,
실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 것이되,
상기 스포츠는 대상체를 목표 위치로 이동 시키는 행위를 반복적으로 수행하되, 시간 변화에 따라 발생하는 환경 변화로 인해 대상체가 이동하는 위치가 변화되는 환경에서 이루어지는 것이고,
상기 환경 적응 정책은 상기 대상체를 목표 위치로 이동 시키는 행위에 대한 행동 확률을 나타내는 것인, 인공 지능 기반의 경기 분석 시스템.In the game analysis system based on artificial intelligence,
A memory in which a program for performing an environmentally adaptive game strategy execution method in an actual environment is recorded; And
And a processor for executing the program,
The processor, by executing the program,
Provide a virtual environment for each sport type, and provide a virtual environment including an incomplete model for each uncertain environmental element after extracting the uncertain environmental factors in consideration of the actual environment for each sport type in the virtual environment,
In the virtual environment, when an environment change is generated by the incomplete model when a game is played for each sport type, the sequential environment adaptation features obtained by the environment change occurring according to the time change are extracted, and the current state of fusion with the sequential environment adaptation features Extract features,
Providing an environment adaptive framework using a deep network that establishes a target strategy using the sequential environment adaptation features and current state features, and outputs an environment adaptation policy for executing the established target strategy in a real environment, wherein the The environment adaptive framework performs reinforcement learning on the environment adaptation policy by sequentially detecting an execution error for the execution of the environmental adaptation policy, designing an error function and a weight for the detected sequential performance error,
Collecting game progress information in an actual environment, predicting current environmental information by reflecting the collected game progress information in the environmental adaptive framework, and real-time environmental adaptation policy adaptively responding to the predicted current environmental information To derive,
In the sport, the action of moving the object to the target position is repeatedly performed, but is performed in an environment in which the position to which the object moves is changed due to changes in the environment that occur over time,
The environment adaptation policy represents an action probability for an action of moving the object to a target location.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180143319A KR102143906B1 (en) | 2018-11-20 | 2018-11-20 | Method and system for performing environment adapting stategy based on ai |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180143319A KR102143906B1 (en) | 2018-11-20 | 2018-11-20 | Method and system for performing environment adapting stategy based on ai |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200063309A KR20200063309A (en) | 2020-06-05 |
KR102143906B1 true KR102143906B1 (en) | 2020-08-12 |
Family
ID=71088833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180143319A KR102143906B1 (en) | 2018-11-20 | 2018-11-20 | Method and system for performing environment adapting stategy based on ai |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102143906B1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780317A (en) * | 2020-08-27 | 2021-12-10 | 北京同邦卓益科技有限公司 | Behavior mode prediction method and device, storage medium and electronic equipment |
CN112494949B (en) * | 2020-11-20 | 2023-10-31 | 超参数科技(深圳)有限公司 | Intelligent body action policy making method, server and storage medium |
CN114721788A (en) * | 2021-01-05 | 2022-07-08 | 中国移动通信有限公司研究院 | Policy management method and device |
KR102585570B1 (en) * | 2021-05-12 | 2023-10-10 | 한국과학기술원 | Proactive adaptation approach based on statistical model checking for self-adaptive systems |
CN114371719B (en) * | 2021-12-09 | 2023-08-08 | 湖南国天电子科技有限公司 | SAC-based autonomous control method for underwater robot |
CN116459520B (en) * | 2022-01-11 | 2024-09-27 | 腾讯科技(深圳)有限公司 | Intelligent virtual role control method, device, equipment and storage medium |
CN114489144B (en) * | 2022-04-08 | 2022-07-12 | 中国科学院自动化研究所 | Unmanned aerial vehicle autonomous maneuver decision method and device and unmanned aerial vehicle |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100553439B1 (en) * | 2003-08-26 | 2006-02-20 | 주식회사 팬택앤큐리텔 | Power calibration correction method using neural algorithm |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101611431B1 (en) | 2014-02-20 | 2016-04-12 | 숭실대학교산학협력단 | Method for analyzing curling game, recording medium and device for performing the method |
KR101962889B1 (en) | 2015-07-27 | 2019-03-28 | 한국전자통신연구원 | Robot motion data providing apparatus using a robot to work and method therefor |
KR101963754B1 (en) * | 2016-11-14 | 2019-07-31 | 동국대학교 산학협력단 | System and method for control of drone |
KR102045567B1 (en) * | 2017-02-24 | 2019-11-18 | 고려대학교 산학협력단 | Apparatus and method for recommendation of curling game strategy using deep learning |
-
2018
- 2018-11-20 KR KR1020180143319A patent/KR102143906B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100553439B1 (en) * | 2003-08-26 | 2006-02-20 | 주식회사 팬택앤큐리텔 | Power calibration correction method using neural algorithm |
Also Published As
Publication number | Publication date |
---|---|
KR20200063309A (en) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102143906B1 (en) | Method and system for performing environment adapting stategy based on ai | |
Lee et al. | Composing complex skills by learning transition policies | |
Taylor et al. | Cross-domain transfer for reinforcement learning | |
Barrett et al. | Transfer learning for reinforcement learning on a physical robot | |
Riedmiller et al. | Reinforcement learning for robot soccer | |
Kober et al. | Reinforcement learning to adjust parametrized motor primitives to new situations | |
Huang et al. | Creating a dynamic quadrupedal robotic goalkeeper with reinforcement learning | |
Raza et al. | Teaching coordinated strategies to soccer robots via imitation | |
Schwab et al. | Learning skills for small size league robocup | |
Ros et al. | Retrieving and reusing game plays for robot soccer | |
Davidsson | A framework for preventive state anticipation | |
Riedmiller et al. | Brainstormers 2D–Team Description 2005 | |
Copete et al. | Estimation of players’ actions in soccer matches based on deep autoencoder | |
Carvalho et al. | Reinforcement learning for the soccer dribbling task | |
Farouk et al. | Generic opponent modelling approach for real time strategy games | |
Chen et al. | Modified PPO-RND method for solving sparse reward problem in ViZDoom | |
Wu et al. | A training model of wargaming based on imitation learning and deep reinforcement learning | |
Lee et al. | Effective strategies for improving mobility efficiency and keeping numerical superiority in AI Worldcup | |
Rahimi et al. | An AI-based tennis game by application of virtual reality components | |
Riedmiller et al. | Learning to dribble on a real robot by success and failure | |
Gomez et al. | Iterative learning system to intercept a ball for humanoid soccer player | |
Uc-Cetina | A novel reinforcement learning architecture for continuous state and action spaces | |
Hussein | Deep learning based approaches for imitation learning. | |
Cheng et al. | A novel decision-making method based on reinforcement learning for underwater robots | |
Burkhard et al. | Cases in robotic soccer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |