KR102567928B1 - 전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치 - Google Patents

전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치 Download PDF

Info

Publication number
KR102567928B1
KR102567928B1 KR1020220171478A KR20220171478A KR102567928B1 KR 102567928 B1 KR102567928 B1 KR 102567928B1 KR 1020220171478 A KR1020220171478 A KR 1020220171478A KR 20220171478 A KR20220171478 A KR 20220171478A KR 102567928 B1 KR102567928 B1 KR 102567928B1
Authority
KR
South Korea
Prior art keywords
policy
reward
battlefield situation
battlefield
rewards
Prior art date
Application number
KR1020220171478A
Other languages
English (en)
Inventor
윤세영
이용식
오지환
김준기
Original Assignee
국방과학연구소
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소, 한국과학기술원 filed Critical 국방과학연구소
Priority to KR1020220171478A priority Critical patent/KR102567928B1/ko
Application granted granted Critical
Publication of KR102567928B1 publication Critical patent/KR102567928B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법에 있어서, 전장 상황 시뮬레이터로부터 방책에 대한 상태(state) 정보 내의 관찰(observation) 정보를 획득하는 단계; 상기 관찰 정보를 기초로 행동(action)을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계; 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상(reward)을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및 상기 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함할 수 있다.

Description

전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치 {reinforcement-learning method and system for recommend optimal policy in battle-field, computing apparatus for recommend optimal policy}
본 발명은 전장 상황에서의 방책 추천을 위한 강화학습과 관련이 있고, 이를 위한 시스템 및 컴퓨팅 장치와 관련이 있다.
전장 상황에서 각 부대의 지휘관, 참모는 실시간으로 해부대의 최적의 방책을 선정할 필요가 있으며, 방책 선정은 전투력 운용에 있어 핵심적인 부분일 뿐만 아니라 하급 부대에도 막대한 영향을 끼친다.
그러나, 현재의 방책 선정은 지휘관과 참모의 경험에 크게 의존하고 있으며, 전장 상황에는 수 많은 변수와 그로 인한 불확실성이 존재하여 개인이 급변하는 전장 상황에 대응해 실시간으로 최적 방책을 선정하는데 한계가 있다. 이는 지휘관에게 책임감과 피로감을 가중시키는 요인이 되기 때문에 지휘관의 의사결정을 돕기 위한 수단이 필요한 실정이다.
방책 선정을 위한 보조 수단으로서 시뮬레이터가 존재하나, 대부분 규칙 기반(rule-based)으로 개발되어 있고, 제한적인 시뮬레이션만 가능하다.
등록특허공보 제10-1728367호 (2017년04월25일 등록공고)
본 발명의 실시예에서는, 목표로 하는 전장 상황과 유사한 시뮬레이션 환경에서 다양한 방책 선택지 중 최적의 방책을 선정하기 위한 시뮬레이션 및 그 방법을 제안하고자 한다.
본 발명의 실시예에서는, 시뮬레이션을 위한 보상 형성(reward shaping)을 통해 특정 방책을 따르도록 유도하고, 해당 방책 수행을 위한 최적 정책을 학습하는 방법을 제안하고자 한다.
본 발명이 해결하고자 하는 과제는 상기에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재들로부터 본 발명이 속하는 통상의 지식을 가진 자에 의해 명확하게 이해될 수 있을 것이다.
본 발명의 실시예에 따르면, 컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법에 있어서, 전장 상황 시뮬레이터로부터 방책에 대한 상태(state) 정보 내의 관찰(observation) 정보를 획득하는 단계; 상기 관찰 정보를 기초로 행동(action)을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계; 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상(reward)을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및 상기 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함하는 전장 상황에서의 방책 추천을 위한 강화학습 방법을 제공할 수 있다.
여기서, 상기 학습 모델은, 방책 수행을 위한 적어도 하나의 정책이 설정되도록 학습될 수 있다.
또한, 상기 보상은 공통 보상과 그룹 보상을 포함할 수 있다.
또한, 상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정될 수 있다.
또한, 상기 포텐셜 기반 보상 형성 함수는 멀티 에이전트 환경에서 상기 적어도 하나의 정책이 서로 동일하도록 정의될 수 있다.
또한, 상기 멀티 에이전트 환경에서 동일한 그룹의 에이전트가 상기 학습 모델을 공유할 수 있다.
본 발명의 실시예에 따르면, 목표로 하는 방책에 대한 시뮬레이션 환경을 제공하는 전장 상황 시뮬레이터; 및 상기 전장 상황 시뮬레이터로부터 상기 방책에 대한 상태 정보 내의 관찰 정보를 획득하고, 상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하며, 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하고, 상기 보상을 누적하되 누적되는 보상이 최대가 되는 정책을 설정하도록 기 설정된 학습 모델을 학습시키는 컴퓨팅 장치;를 포함하는 전장 상황에서의 방책 추천을 위한 강화학습 시스템을 제공할 수 있다.
여기서, 상기 전장 상황 시뮬레이터는, 상기 방책을 기초로 보상 형성을 수행하는 방책 설정부를 더 포함하고, 상기 보상은 공통 보상과 그룹 보상을 포함할 수 있다.
또한, 상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정될 수 있다.
본 발명의 실시예에 따르면, 적어도 하나의 명령어를 저장하는 저장부와, 처리부를 포함하며, 상기 처리부에 의해 상기 적어도 하나의 명령어가 실행됨으로써, 전장 상황 시뮬레이터로부터 방책에 대한 상태 정보 내의 관찰 정보를 획득하고, 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하며, 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하고, 상기 보상을 누적하되 누적되는 보상이 최대가 되는 정책을 설정하도록 기 설정된 학습 모델을 학습시키는 컴퓨팅 장치를 포함할 수 있다.
여기서, 상기 보상은 공통 보상과 그룹 보상을 포함할 수 있다.
또한, 상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정될 수 있다.
또한, 상기 포텐셜 기반 보상 형성 함수는 멀티 에이전트 환경에서 상기 적어도 하나의 정책이 서로 동일하도록 정의될 수 있다.
또한, 상기 멀티 에이전트 환경에서 동일한 그룹의 에이전트가 상기 학습 모델을 공유할 수 있다.
본 발명의 실시예에 따르면, 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 상기 컴퓨터 프로그램은, 컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하고, 상기 방법은, 전장 상황 시뮬레이터로부터 방책에 대한 상태정보 내의 관찰 정보를 획득하는 단계; 상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계; 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및 상기 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함할 수 있다.
본 발명의 실시예에 따르면, 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은, 컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하고, 상기 방법은, 전장 상황 시뮬레이터로부터 방책에 대한 상태정보 내의 관찰 정보를 획득하는 단계; 상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계; 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및 상기 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함할 수 있다.
본 발명의 실시예에 의하면, 협력적 멀티 에이전트 강화학습 기반 시뮬레이션을 통해 전장 상황에서 지휘관의 방책 선정의 피로도를 낮추고, 여러 전술적 고려 요소(임무, 적 상황, 지형, 기상 등)에 대응하여 방책 선정 최적화를 도울 수 있다.
특정 방책을 선택하면 정해진 규칙대로 에이전트들이 해동하는 규칙 기반 시뮬레이터와는 달리, 본 발명의 실시예에 따른 방책 추천을 위한 강화학습 방법은, 전문가(expert)가 보상 함수를 구체적으로 설계하여 시뮬레이션 시 에이전트들이 특정 방책을 따르도록(선호하도록) 유도하고, 학습을 통해 해당 방책을 수행하기 위한 최적 정책을 제공할 수 있다. 방책 후보 각각에 대하여 보상 설계와 학습을 실시하면 각 방책의 최적 정책이 저장되고, 저장된 정책으로 테스트를 실시하여 결과가 좋은 방책을 해당 전장 환경에서의 최적의 방책으로 선정할 수 있는 바, 지휘관의 전투력 운용에 큰 도움이 될 것으로 기대된다.
도 1은 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 시스템의 블록도이다.
도 2는 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 시스템의 구성을 구체적으로 나타낸 도면으로서, 전장 상황 시뮬레이터와 학습 모델 간의 입출력과 학습을 상세히 설명하는 도면이다.
도 3은 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 방법을 예시적으로 설명하는 흐름도이다.
도 4는 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 시스템의 시뮬레이터의 방책 후보를 예시적으로 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명은 본 발명의 실시예들을 설명함에 있어 실제로 필요한 경우 외에는 생략될 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
기계학습(machine learning)은 데이터를 이용해 예측, 의사결정 등을 할 수 있도록 모델을 훈련시키는 방법으로 여러 분야에서 각광받고 있다.
그 중에서 강화학습은 매 시점 취할 행동을 결정하는 의사결정 주체인 에이전트(agent)가 주어진 환경(environment)과 상호작용하며, 받게 될 보상(reward)의 누적합을 최대화할 수 있는 최적의 의사결정 정책(policy)을 학습하는 기계학습의 분야이다. 즉, 지휘관을 에이전트, 환경을 전장 상황에 대응시키면 최적의 방책을 찾아가는 과정을 강화학습이라 볼 수 있다.
전장에는 복수의 의사결정 주체가 존재하며, 공통의 임무를 달성해야 하므로 강화학습에서도 협력적 멀티 에이전트 강화학습(cooperative multi-agent reinforcement learning)을 사용하여 더욱 현실적인 정책 학습이 가능하다.
강화학습을 군 문제에 적용하려는 시도는 있었으나 지휘관의 전투 복안을 구체적으로 반영하여 의사결정을 돕는 사례는 없거나 미미한 수준이다.
이에, 본 발명의 실시예에서는, 목표로 하는 전장 상황과 유사한 시뮬레이션 환경에서 다양한 방책 선택지 중 최적의 방책을 선정하기 위한 강화학습 방법을 제안하고자 한다.
본 발명의 실시예에 따른 강화학습을 통해, 보상 형성을 통해 특정 방책을 따르도록 유도하고 해당 방책 수행을 위한 최적 정책을 제공할 수 있다.
특정 방책을 선택하면 정해진 규칙대로 에이전트들이 해동하는 규칙 기반 시뮬레이터와는 달리, 본 발명의 실시예에 따른 방책 추천을 위한 강화학습 방법은, 전문가가 보상 함수를 구체적으로 설계하여 시뮬레이션 시 에이전트들이 특정 방책을 따르도록(선호하도록) 유도하고, 학습을 통해 해당 방책을 수행하기 위한 최적 정책을 제공할 수 있다. 방책 후보 각각에 대하여 보상 설계와 학습을 실시하면 각 방책의 최적 정책이 저장되고, 저장된 정책으로 테스트를 실시하여 결과가 좋은 방책을 해당 전장 환경에서의 최적의 방책으로 선정할 수 있다.
본 발명의 실시예에 의하면, 협력적 멀티 에이전트 강화학습을 통해 방책 평가 과정을 시뮬레이션하고, 그 결과를 통해 최적의 방책을 추정함으로써, 지휘관의 전투력 운용에 큰 도움이 될 것으로 기대된다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 시스템(10)의 블록도이다.
도 1에 도시한 바와 같이, 강화학습 시스템(10)은 전장 상황 시뮬레이터(100) 및 컴퓨팅 장치(200)를 포함할 수 있다.
전장 상황 시뮬레이터(100)는 목표로 하는 전장 상황에 대한 시뮬레이션 환경을 제공할 수 있다.
시뮬레이션 환경은 사용자가 목표로 하는 전장 상황을 구현한 파일이며 언덕, 장애물 등 여러 지형적 요소들을 반영할 수 있다. 데이터베이스에 여러 개의 환경 파일이 저장하고 원하는 파일을 불러와 시뮬레이션 할 수 있다.
전장 상황에서 아군 부대 전체가 공통으로 달성하고자 하는 임무가 존재하고, 시뮬레이션 환경 내에 복수의 아군 에이전트와 적군 유닛이 존재하며, 서로 상호작용할 수 있다.
하나의 부대는 n개의 하급 부대(통상 n=3)로 구성되므로 아군 에이전트도 n개의 그룹으로 나뉠 수 있다.
아군은 공격 개시선 뒤쪽에 배치하며, 지휘관의 재량에 따라 구성(그룹 수, 그룹 내 인원, 무기체계 등)과 위치를 임의로 조정할 수 있다. 또한, 적군은 상정한 전장 상황에 알맞게 배치하며, 역시 지휘관의 재량에 따라 조정이 가능하다.
시뮬레이션 환경 내에는 전투 지경선이 존재하며, 지경선 너머는 해당 부대가 진입하면 안 되는 구역으로 설정될 수 있다.
에이전트가 환경 내 모든 정보를 관측할 수 있다는 것은 비현실적인 가정이므로, 각 에이전트마다 관측 가능 범위가 주어지며, 범위 내 정보만 획득할 수 있다. 따라서, 본 발명의 실시예에서는, 부분 관측 가능한 마르코프 결정 과정(partially-observable markov decision process)으로 모델링하는 것이 바람직하다.
아군 에이전트와 적군 유닛은 무기체계, 사거리, 병과, 위치, 소속 하급 부대(그룹) 등의 정보를 지니도록 할 수 있으며, 이는 상태(state) 정보에 해당된다.
아군 에이전트는 매 시점마다 대기, 특정 방향으로의 이동, 공격 등의 행동을 선택할 수 있고, 현재 환경의 상태에서 각 에이전트는 개별 행동(action)을 선택하게 되는데, 이에 따라 다음 시점의 환경의 상태가 결정될 수 있다. 또한, 다음 상태가 결정되는 시점에서 아군 에이전트는 보상(reward)을 받을 수 있는데, 이러한 보상은 공통 보상(Rcommon)과 그룹 보상(Rgroup)을 포함할 수 있다. 공통 보상과 그룹 보상에 대해서는 아래 도 2에서 상세히 기술하기로 한다.
도 2는 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 시스템(10)의 구성을 구체적으로 나타낸 도면으로서, 전장 상황 시뮬레이터(100)와 학습 모델(222 간의 입출력과 학습을 상세히 설명하는 도면이다.
컴퓨팅 장치(200)는 전장 상황 시뮬레이터(100)로부터 방책에 대한 상태 정보 내의 관찰(observation) 정보를 획득하고, 획득되는 관찰 정보를 기초로 행동을 선택하여 전장 상황 시뮬레이터(100)로 전달하며, 전장 상황 시뮬레이터(100)로부터 행동을 기반으로 한 보상을 획득하면서 행동을 표현하는 정책을 설정하고, 보상 및 정책을 누적하되 누적되는 보상이 최대가 되는 정책을 설정하도록 기 저장된 학습 모델을 학습시킬 수 있다.
이러한 컴퓨팅 장치(200)는 획득부(210), 저장부(220) 및 처리부(230)를 포함할 수 있다.
획득부(210)는 전장 상황 시뮬레이터(100)로부터 방책에 대한 상태 정보 내의 관찰 정보를 획득하여 처리부(230)로 제공할 수 있으며, 전장 상황 시뮬레이터(100)로부터 행동을 기반으로 한 보상을 획득할 수 있다.
처리부(230)는 획득부(210)를 통해 획득되는 관찰 정보를 기초로 행동을 선택하여 전장 상황 시뮬레이터(100)로 전달할 수 있으며, 획득부(210)를 통해 보상을 획득하면서 행동을 표현하는 정책을 설정할 수 있다.
또한, 처리부(230)는 획득되는 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 저장부(220) 내의 학습 모델(222)을 학습시킬 수 있다. 처리부(230)는 학습 모델(222)을 통해 강화학습을 수행할 수 있으며, 이러한 강화학습 과정 중 강화학습 모듈(224) 및 강화학습 에이전트(226)가 생성될 수 있다.
한편, 전장 상황 시뮬레이터(100)는 방책 설정부(300)를 포함할 수 있다.
사용자(지휘관)는 전투 복안을 반영해 주어진 전장 상황에 적합한 방책 후보를 정의할 수 있다. 이때 방책은 선택한 시뮬레이션 환경의 공통 임무를 달성하기 위해 각 하급 부대를 어떻게 운용할 것인지 기술하며, 따라서 각 하급 부대는 공통 임무와 (방책에 따른) 별도 임무를 동시에 고려해야 한다.
방책 설정부(300)는 정의된 방책에 따라 보상 형성(reward shaping) 과정을 수행하는데, 이는 각 하급 부대가 방책에 따라 움직이도록 유도하기 위해 디테일한 보상을 설정하는 과정이다.
보상 형성 과정에서 설정되는 보상은 공통 보상(Rcommon)과 그룹 보상(Rgroup)을 포함할 수 있으며, 공통 보상(Rcommon)은 해부대의 공통 임무 달성에 해당하는 보상이며, 그룹 보상(Rgroup)은 방책에 따라 하급 부대별로 다르게 주어지는 보상이다. 그룹 보상(Rgroup)은 사용자 임의로 설정 가능하며 각 그룹이 방책에 따라 움직이게 유도해야 한다.
예컨대, 에이전트 i가 받는 보상은 다음 [수학식 1]로 표현될 수 있다.
따라서, 보상 형성 과정에서 공통 보상(Rcommon)과 그룹 보상(Rgroup)을 설정할 수 있으며, 공통 보상(Rcommon)은 모든 아군의 최종 목표(적 격퇴, 특정 지점 점령)에 대한 보상이고, 그룹 보상(Rgroup)은 공통 목표 달성을 위해 각 그룹(하급 부대)마다 다르게 설정되는 보상이며, 이는 포텐셜 기반 보상 형성 함수(potential-based reward shaping function)의 정의를 만족하도록 설계될 수 있다.
포텐셜 기반 보상 형성 함수에 대해 구체적으로 설명하면 다음과 같다.
예를 들어, 싱글(single) 에이전트 상황에서 기존 MDP M의 보상 함수가 R일 때 R'=R+F를 보상 함수로 갖는 MDP M’을 가정하면, F를 이용해 보상 형성을 할 수 있고, 이는 아래 [수학식 2]로 정의될 수 있다.
여기서, [수학식 2]를 만족하도록 F를 정의하면 M과 M’은 다른 문제임에도 최적 정책이 동일함이 증명되어 있다. 이를 정책 불변성(policy invariance)라 하며 를 포텐셜 함수(potential function), F를 포텐셜 기반 보상 형성 함수라 한다.
따라서, 위의 정의를 만족하도록 유의한다면, 원래 문제에 영향을 주지 않으면서, 전문가의 지식을 바탕으로 에이전트가 탐험을 더 잘 할 수 있게 하는 추가 보상을 줄 수 있다.
본 발명의 실시예에서는, 이러한 포텐셜 기반 보상 형성 함수에 기반하여, 멀티 에이전트 상황에서 각 에이전트에게 포텐셜 기반 보상을 추가로 준다면 원래 목표, 즉 모든 에이전트들의 공통 목표를 달성하면서도 에이전트마다 다른 방식으로 탐험하도록 유도할 수 있는 방안을 제시하고자 한다.
본 발명의 실시예에서는, 멀티 에이전트 상황에서‘협력적’이며 ‘복잡하고 규모가 큰’문제에 적용하는 상황을 상정할 수 있다.
보상 형성은 아래와 같이 예시될 수 있다.
예를 들어, 방책이 이동 경로를 지정한 경우에 해당 경로에서 벗어날 시 음의 보상을 받도록 설정할 수 있고, 방책이 특정 지점 점령 지시한 경우에 해당 지점에 접근할수록 높은 보상을 부여할 수 있다.
예를 들어, 방책이 순서대로 과업을 시행해야 하는, 멀티-스테이지적 특성을 가질 경우 첫 번째 과업을 달성할 때까지 그 과업에 해당하는 보상에 높은 가중치를 주고, 이후에는 두 번째 과업의 가중치를 높이는 식으로 조정이 가능하다.
따라서, 각 에이전트는 [수학식 1]을 만족하는 최종 보상을 기초로 학습을 수행할 수 있다.
학습 모델(222)은 전장 상황 시뮬레이터(100)의 시뮬레이션 결과로부터 강화학습 데이터를 추출하고 추출된 강화학습 데이터로 강화학습 에이전트를 학습시키는 강화학습 모듈(224)과, 전장 상황 시뮬레이터(100)의 시뮬레이션 환경에서 관찰 정보를 입력으로 하여 행동을 추출하는 강화학습 에이전트(226)를 포함할 수 있다.
이러한 학습 모델(222)은 강화학습 에이전트(226)의 정책을 표현할 수 있으며, 멀티 에이전트 환경에서 동일한 그룹의 에이전트가 학습 모델(222)을 공유할 수 있다.
이러한 학습 모델(222)에서 코드는 학습과 테스트를 수행할 수 있도록 구현할 수 있다.
그룹(하급 부대) 별로 다른 학습 신경망을 배정하고, 같은 그룹의 에이전트는 동일한 신경망을 공유하며, 시뮬레이션 환경, 원하는 방책에 대한 (방책 설정부로 세팅한) 보상체계, 강화학습 알고리즘을 입력하면 해당 알고리즘에 따라 학습을 수행할 수 있다.
원하는 방책의 개수 m만큼 이 과정을 반복, 총 m개의 정책이 저장될 수 있다.
m개의 정책 각각에 대해 테스트를 수행하고, 테스트 종료 후 아래와 같은 평가 항목이 제공될 수 있다.
1. 공통 임무 달성도
2. 하급 부대 별 방책 달성도
3. 살아남은 아군 병 수
4. 섬멸한 적군 병 수
5. 리턴(누적 보상합) 값
평가 항목에 가중치를 두어 합해 가장 결과가 좋은 방책을 m개 중 최적의 방책이라고 생각할 수 있으며, 사용자가 평가 항목을 보고 정성적으로 판단할 수도 있다.
도 3은 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 방법을 예시적으로 설명하는 흐름도이다.
도 3은 컴퓨팅 장치(200)가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 과정을 설명한다.
먼저, 컴퓨팅 장치(200)는 전장 상황 시뮬레이터(100)로부터 방책에 대한 상태 정보 내의 관찰(observation) 정보를 획득할 수 있다(S100).
컴퓨팅 장치(200)는 이러한 관찰 정보를 입력으로 받아 컴퓨팅 장치(200) 내의 강화학습 에이전트(226)가 행동을 선택할 수 있으며, 이러한 행동은 컴퓨팅 장치(200)의 학습 모델(222)의 출력에 해당되어 전장 상황 시뮬레이터(100)로 전달할 수 있다(S102).
컴퓨팅 장치(200)로부터의 행동이 전장 상황 시뮬레이터(100)로 전달되면, 전장 상황 시뮬레이터(100)는 행동을 기반으로 한 보상을 생성할 수 있다. 보상은 상태에 대한 행동의 피드백으로서, 모든 아군이 전체적으로 받는 공통 보상(Rcommon)과 각 그룹마다 별도로 받는 그룹 보상(Rgroup)을 포함할 수 있다. 또한, 전장 상황 시뮬레이터(100)는 컴퓨팅 장치(200)의 행동을 기반으로 한 보상을 생성하면서 그 다음 상태 정보를 결정할 수 있다.
전장 상황 시뮬레이터(100)로부터 보상이 생성되면, 해당 보상은 컴퓨팅 장치(200)로 제공될 수 있고, 컴퓨팅 장치(200)의 획득부(210)는 해당 보상을 획득할 수 있다(S104).
이때, 컴퓨팅 장치(200)의 강화학습 에이전트(226)는 전장 상황 시뮬레이터로부터 행동을 기반으로 한 보상을 획득하면서 행동을 표현하는 정책을 설정할 수 있다.
또한, 컴퓨팅 장치(200)는 전장 상황 시뮬레이터(100)로부터 제공되는 보상을 누적할 수 있으며(S106), 누적되는 보상이 최대가 되는 정책을 설정하도록 학습을 수행할 수 있다(S108).
이러한 학습은 컴퓨팅 장치(200)의 저장부(220) 내에 포함된 학습 모델(222)에 의해 수행되며, 학습 모델(222)은 방책 수행을 위한 적어도 하나의 정책이 설정되도록 학습될 수 있다.
이때, 본 발명의 실시예에서, 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되고, 포텐셜 기반 보상 형성 함수는 멀티 에이전트 환경에서 적어도 하나의 정책이 서로 동일하도록 정의될 수 있다.
또한, 본 발명의 실시예에서는, 멀티 에이전트 환경에서 동일한 그룹의 에이전트가 학습 모델(222)을 공유하도록 구현할 수 있다.
도 4는 본 발명의 실시예에 따른 전장 상황에서의 방책 추천을 위한 강화학습 시스템의 시뮬레이터의 방책 후보를 예시적으로 나타낸 도면이다.
공통의 임무는 도 4의 지점 B의 완전한 점령이며, 지점 A는 적 정찰조의 매복 지역이고, 지점 C는 전투 지경선 외부 지역으로 침범이 불가한 지역이다.
아군의 방책 후보들은 아래와 같이 예시될 수 있다.
1. A고지를 우회하여 2개 소대 정면공격, 1개 소대 후방공격
1. A고지를 우회하여 2개 소대 정면공격, 1개 소대 지원사격
2. A고지를 확보 후 2개 소대 정면공격, 1개 소대 후방공격
3. A고지를 확보 후 2개 소대 정면공격, 1개 소대 지원사격
예를 들어, 3번 방책을 선정한 경우, 보상 체계 예시는 아래와 같다.
- 공통 보상: B지점 점령 및 교전에 대한 보상, 전투 지경선 침범에 대한 보상
- 그룹 보상 (포텐셜 기반 보상 함수 정의 만족하는지 확인)
여기서, 그룹 보상은 아래와 같이 구분될 수 있다.
- A고지 확보해야 하는 2개 소대: A고지에 접근 및 점령에 대한 보상, 정면 경로를 따른 이동 및 공격에 대한 보상, 후방 경로를 따른 이동 및 공격에 대한 보상
- 후방공격을 맡은 1개 소대: 후방 경로를 따른 이동 및 공격에 대한 보상, 전방 경로를 따른 이동 및 공격에 대한 보상
각각의 방책에 대하여 보상체계 설정 후 학습이 진행될 수 있다.
4개 방책 각각에 대해 학습된 모델을 테스트하고, 테스트 결과를 바탕으로 각 방책을 평가하여 최적 방책 선택에 활용이 가능하다.
이상 설명한 바와 같은 본 발명의 실시예에 의하면, 다양한 전술적 고려요소 (METT-TC)를 가정하여 전투평가 및 결과를 확인할 수 있도록 구현하였다. 시뮬레이터 기반의 전투이기 때문에 안전성 문제로부터 자유로울 수 있으며, 규칙 기반(rule-based)으로 되어 있는 현재의 제한적인 워게임 시뮬레이터에서 벗어나 보상 형성(reward shaping)을 통해 강화학습 알고리즘으로 최적의 방책을 찾을 수 있다. 규칙 기반의 시뮬레이터는 에이전트가 사전에 규칙으로 정의된 행동만 할 수 있으므로 선택한 방책에 대하여 제한된 시뮬레이션만 가능한 반면, 본 발명에서 제안한 시뮬레이터는 보상 형성을 통해 에이전트가 방책을 따르도록 유도하며, 그 과정에서 방책을 수행하기 위한 최적의 행동을 탐색하게 되고, 학습된 정책을 통해 정확한 방책 비교가 가능하다. 특히, 현실에서 구현하기 어려운 지휘관의 전투복안을 반영할 수 있으므로 본 발명의 활용가치는 높을 것으로 기대된다.
한편, 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 기록매체(또는 메모리) 등에 저장되는 것도 가능하므로, 그 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 기록매체(또는 메모리)에 저장된 인스트럭션들은 블록도의 각 블록에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 적어도 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
10: 방책 추천을 위한 강화학습 시스템
100: 시뮬레이터
200: 컴퓨팅 장치
210: 획득부
220: 저장부
222: 학습 모델
224: 강화학습 모듈
226: 강화학습 에이전트
230: 처리부

Claims (14)

  1. 컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법에 있어서,
    전장 상황 시뮬레이터로부터 방책에 대한 상태(state) 정보 내의 관찰(observation) 정보를 획득하는 단계;
    상기 관찰 정보를 기초로 행동(action)을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계;
    상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상(reward)을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및
    상기 획득되는 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함하되,
    상기 보상은 공통 보상과 그룹 보상을 포함하고,
    상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는
    전장 상황에서의 방책 추천을 위한 강화학습 방법.
  2. 제 1 항에 있어서,
    상기 학습 모델은,
    방책 수행을 위한 적어도 하나의 정책이 설정되도록 학습되는
    전장 상황에서의 방책 추천을 위한 강화학습 방법.
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    멀티 에이전트 환경에서 동일한 그룹의 에이전트가 상기 학습 모델을 공유하는
    전장 상황에서의 방책 추천을 위한 강화학습 방법.
  6. 목표로 하는 방책에 대한 시뮬레이션 환경을 제공하는 전장 상황 시뮬레이터; 및
    상기 전장 상황 시뮬레이터로부터 상기 방책에 대한 상태 정보 내의 관찰 정보를 획득하고, 상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하며, 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하고, 상기 획득되는 보상을 누적하되 누적되는 보상이 최대가 되는 정책을 설정하도록 기 설정된 학습 모델을 학습시키는 컴퓨팅 장치;를 포함하되,
    상기 보상은 공통 보상과 그룹 보상을 포함하고,
    상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는
    전장 상황에서의 방책 추천을 위한 강화학습 시스템.
  7. 제 6 항에 있어서,
    상기 전장 상황 시뮬레이터는,
    상기 방책을 기초로 보상 형성을 수행하는 방책 설정부를 더 포함하는
    전장 상황에서의 방책 추천을 위한 강화학습 시스템.
  8. 삭제
  9. 적어도 하나의 명령어를 저장하는 저장부와,
    처리부를 포함하며,
    상기 처리부에 의해 상기 적어도 하나의 명령어가 실행됨으로써,
    전장 상황 시뮬레이터로부터 방책에 대한 상태 정보 내의 관찰 정보를 획득하고,
    관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하며,
    상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하고,
    상기 획득되는 보상을 누적하되 누적되는 보상이 최대가 되는 정책을 설정하도록 기 설정된 학습 모델을 학습시키며,
    상기 보상은 공통 보상과 그룹 보상을 포함하고,
    상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는
    컴퓨팅 장치.
  10. 삭제
  11. 삭제
  12. 제 9 항에 있어서,
    멀티 에이전트 환경에서 동일한 그룹의 에이전트가 상기 학습 모델을 공유하는
    컴퓨팅 장치.
  13. 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은,
    컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하고,
    상기 방법은,
    전장 상황 시뮬레이터로부터 방책에 대한 상태정보 내의 관찰 정보를 획득하는 단계;
    상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계;
    상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및
    상기 획득되는 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함하되,
    상기 보상은 공통 보상과 그룹 보상을 포함하고,
    상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는
    컴퓨터 판독 가능한 기록매체.
  14. 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은,
    컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하고,
    상기 방법은,
    전장 상황 시뮬레이터로부터 방책에 대한 상태정보 내의 관찰 정보를 획득하는 단계;
    상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계;
    상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및
    상기 획득되는 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함하되,
    상기 보상은 공통 보상과 그룹 보상을 포함하고,
    상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는
    기록매체에 저장된 컴퓨터 프로그램.
KR1020220171478A 2022-12-09 2022-12-09 전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치 KR102567928B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220171478A KR102567928B1 (ko) 2022-12-09 2022-12-09 전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220171478A KR102567928B1 (ko) 2022-12-09 2022-12-09 전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치

Publications (1)

Publication Number Publication Date
KR102567928B1 true KR102567928B1 (ko) 2023-08-18

Family

ID=87801747

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220171478A KR102567928B1 (ko) 2022-12-09 2022-12-09 전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치

Country Status (1)

Country Link
KR (1) KR102567928B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101728367B1 (ko) 2016-10-07 2017-04-25 대한민국(방위사업청장) 워게임 시뮬레이션 장치 및 이를 이용한 워게임 시뮬레이션 방법
KR102213357B1 (ko) * 2019-09-16 2021-02-05 오산대학교 산학협력단 강화학습이 적용된 함정전투체계에 발생 가능한 위험 차단 시스템 및 그 방법
KR102362749B1 (ko) * 2021-07-09 2022-02-15 한화시스템(주) 지식베이스 기반 인공지능 적방책 분석 및 아방책 수립 시스템 및 그 방법
KR20220027624A (ko) * 2020-08-27 2022-03-08 (주)에이엄 e스포츠 전략 최적화를 위한 강화학습 모델 및 모델 경량화, 최적화 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101728367B1 (ko) 2016-10-07 2017-04-25 대한민국(방위사업청장) 워게임 시뮬레이션 장치 및 이를 이용한 워게임 시뮬레이션 방법
KR102213357B1 (ko) * 2019-09-16 2021-02-05 오산대학교 산학협력단 강화학습이 적용된 함정전투체계에 발생 가능한 위험 차단 시스템 및 그 방법
KR20220027624A (ko) * 2020-08-27 2022-03-08 (주)에이엄 e스포츠 전략 최적화를 위한 강화학습 모델 및 모델 경량화, 최적화 방법
KR102362749B1 (ko) * 2021-07-09 2022-02-15 한화시스템(주) 지식베이스 기반 인공지능 적방책 분석 및 아방책 수립 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
Sapaty Military robotics: latest trends and spatial grasp solutions
CN112820164A (zh) 一种基于分层的行为模型的vr虚拟对抗训练系统
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
US20210078735A1 (en) Satellite threat mitigation by application of reinforcement machine learning in physics based space simulation
Ilachinski Artificial intelligence and autonomy: Opportunities and challenges
KR102567928B1 (ko) 전장 상황에서의 방책 추천을 위한 강화학습 방법 및 시스템, 이를 위한 컴퓨팅 장치
Azak et al. A new approach for Threat Evaluation and Weapon Assignment problem, hybrid learning with multi-agent coordination
Hujer et al. Utilization of modeling and simulation in the design of air defense
Cosma et al. IMPLEMENTING A SOFTWARE MODELING--SIMULATION IN MILITARY TRAINING.
Rao et al. An Ontology based approach to designing adaptive lesson plans in military training simulators
Goolsby System of Systems Composition and Course of Action Pathfinding Tool (CNCPT)
Schadd et al. Intelligent Operational Decision Support for the Military Engineer
Craven et al. Man-machine interoperation in training for large force exercise air missions
Ilachinski EINSTein: A multiagent-based model of combat
CN116485039B (zh) 一种基于强化学习的打击序列智能规划方法
Herashchenko et al. Decision Support with Bayesian Influence Network During UAV Flight Control
Vijay Rao Design and development of intelligent military training systems and wargames
KR102624772B1 (ko) 최적의 초소 위치 선정을 위한 시뮬레이션 방법 및 이를 위한 시뮬레이션장치
Kirkpatrick et al. Unmanned tactical autonomous control and collaboration measures of performance and measures of effectiveness
Will et al. The American way of swarm: A machine learning strategy for training autonomous systems
Song et al. Research on Behavior Modeling Method of Agent-Based CGF.
Das et al. Agent based decision making for Integrated Air Defense system
Pynadath et al. Simulating collaborative learning through decision-theoretic agents
Das et al. Agent-based Decision Making for Integrated Air Defence Systems
Youngren et al. The future theater-level model: a research project update

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant