KR102617794B1

KR102617794B1 - 항공기 제어를 위한 학습 방법 및 이를 위한 전자 장치

Info

Publication number: KR102617794B1
Application number: KR1020230063955A
Authority: KR
Inventors: 배정호; 황인수; 김석봉
Original assignee: 국방과학연구소
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-12-27

Abstract

본 개시에 따르면, 전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법은 제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계; 상기 상태 정보를 기반으로 가상 선을 설정하는 단계; 상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및 상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함할 수 있다.

Description

항공기 제어를 위한 학습 방법 및 이를 위한 전자 장치{LEARNING METHOD FOR AIRCRAFT CONTROL AND ELECTRONIC APPARATUS THEREFOR}

본 개시는 항공기 제어를 위한 학습 방법 및 이를 위한 전자 장치에 관한 것으로, 항공기의 상태 정보에 기반하여 가상 선을 설정하고, 항공기와 가상 선 사이의 거리에 기반하여 리워드를 부여함으로써 항공기 기동 모델을 훈련하는 방법 및 이를 위한 전자 장치 관한 것이다.

학습 기반 인공지능은 최근 센서 정보로부터 환경을 인식하거나, 이동체를 제어하는 성능에서 큰 기술 잠재력을 보이고 있으며, 이에 자율 주행에 관련하여 여러 연구개발 그룹의 주목을 받는 유망 기술이다.

학습 기반 인공지능 자율 주행의 학습 방법은 크게 지도식 학습과 강화 학습 방식이 있는데 지도식 학습은 유인 전문가 주행 패턴을 따라하도록 학습하는 방식으로 주행 성능이 인간 제어 주행 성능에 제한되는 한계점을 가지고 있다. 이와 달리 강화 학습은 여러 상황을 탐험하며 각 상황에서의 최적 행동을 결정하는 정책을 학습한다. 여기서 최적 행동은 주행을 통해 얻는 누적 리워드를 최대화하는 행동을 말하며, 리워드는 기술 설계자에 의해 설계되며 주행 성능 면에서 얼마나 바람직한 기동을 했느냐에 따라 주어지므로 누적 리워드에 따른 학습은 잠재적으로 인간의 주행 성능을 넘어설 수 있다는 장점을 가지고 있다.

또한, 무인 항공기 기술은 최근 급격하게 발전하고 있는 국방 분야의 주요 기술로서, 인공지능 기술을 이용하여 기존의 사람이 수행하는 작업들을 자동화하는 방식으로 발전하고 있다. 특히, 미래 국방 체계 구현을 위해 일반적인 규칙 기반 방식 대비 더 유연하며 인간의 판단 능력을 대체할 수 있는 강화 학습을 활용한 AI 조종사 개발이 세계 각국에서 진행되고 있으며, 관련하여 미국방고등기술연구소(DARPA)에서 2019년부터 진행하는 ACE(Air Combat Evolution) 프로그램을 예로 들 수 있다.

무인 항공기와 관련하여, 공중 교전 시 상대기의 격추를 위하여 아군기가 상대기를 일정 거리를 유지하며 따라가는 상황을 학습하도록 할 수 있다. 종래의 강화 학습 기반 항공기 기동 생성 방법은 상대기와 아군기 기체 간의 거리, 각도, 거리 변화율을 기반으로 리워드를 결정함으로써 항공기 기동을 학습하는 방법을 사용하였다. 그러나, 이러한 방법의 경우 아군기가 상대기를 추격하다가 지나쳐버리는 오버슈트(overshoot)가 발생할 수 있으며, 항공기의 속도가 빠르기 때문에 아군기와 상대기의 거리와 상대속도, 이동 방향 등을 고려하여 속도 조절을 하는 것이 어렵기 때문에 오버슈트 문제의 해결이 쉽지 않다. 따라서, 아군기가 상대기와 일정 거리를 유지하며 따라가도록 하면서도 오버슈트가 발생하지 않도록 하는 항공기의 기동 방법을 학습시킬 수 있는 기술의 필요성이 대두되고 있다.

본 개시의 실시예는 상술한 문제점을 해결하기 위하여 제안된 것으로 제1 항공기 또는 제2 항공기의 상태 정보를 확인하고, 상태 정보를 기반으로 가상 선을 설정하고, 제1 항공기 또는 제2 항공기와 가상 선 간의 거리에 관한 정보를 기초로 리워드를 결정함으로써 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 기술에 관한 것이다.

본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.

상술한 과제를 달성하기 위하여, 본 명세서의 일 실시예에 따른 전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법은 제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계; 상기 상태 정보를 기반으로 가상 선을 설정하는 단계; 상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및 상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함할 수 있다.

일 실시예에서, 상기 상태 정보는 상기 제1 항공기 또는 상기 제2 항공기의 위치 정보 및 상기 제1 항공기 또는 상기 제2 항공기의 이동 방향 중에서 적어도 하나를 포함할 수 있다.

일 실시예에서, 상기 가상 선을 설정하는 단계는 상기 제1 항공기의 이동 방향에 따라 상기 제1 항공기의 전방으로 가상 선을 설정하는 단계를 포함하고, 상기 리워드를 결정하는 단계는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기초로 리워드를 결정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 가상 선을 설정하는 단계는 상기 제2 항공기의 이동 방향에 따라 상기 제2 항공기의 후방으로 가상 선을 설정하는 단계를 포함하고, 상기 리워드를 결정하는 단계는 상기 제1 항공기와 상기 가상 선 간의 거리에 관한 정보를 기초로 리워드를 결정하는 단계를 포함할 수 있다.

일 실시예에서, 전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법은 일정 고도를 기준으로 추가 가상 선을 설정하는 단계; 및 상기 제1 항공기와 상기 추가 가상 선 간의 거리에 관한 정보를 기초로 패널티를 결정하는 단계를 더 포함하고, 상기 모델을 훈련시키는 단계는 상기 리워드 및 상기 패널티를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함할 수 있다.

일 실시예에서, 상기 거리는, 상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하는 경우 상기 법선의 길이로 결정되고, 상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하지 않는 경우 상기 항공기에 가장 근접한 상기 가상 선의 끝 점과 상기 항공기 사이의 거리로 결정될 수 있다.

일 실시예에서, 상기 리워드는 상기 거리에 반비례하고, 상기 거리의 감소량에 비례하도록 설정될 수 있다.

일 실시예에서, 상기 리워드(R)는 에 의해 결정될 수 있고, d는 상기 거리,

는 상기 거리 감소량, , , 는 보정 함수일 수 있다.

일 실시예에서, 상기 보정함수 , , 는 학습 시나리오 및 항공기 종류 중 적어도 하나에 기반하여 결정될 수 있다.

일 실시예에 따른 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 판독 가능 명령어들을 저장하도록 구성되는 매체를 포함하고, 상기 컴퓨터 판독 가능 명령어들은 프로세서에 의해 실행되는 경우 상기 프로세서가 제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계; 상기 상태 정보를 기반으로 가상 선을 설정하는 단계; 상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및 상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함하는 항공기 제어를 위한 학습 방법을 수행하도록 할 수 있다.

일 실시예에 따른 항공기 제어를 위한 학습 방법을 수행하는 전자 장치는 적어도 하나의 프로그램이 저장된 메모리; 및 제1 항공기 또는 제2 항공기의 상태 정보를 확인하고, 상기 상태 정보를 기반으로 가상 선을 설정하고, 상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하고, 상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 프로세서를 포함할 수 있다.

본 명세서의 실시 예에 따르면 아래와 같은 효과가 하나 혹은 그 이상 있다.

실시예에 따르면, 항공기 간의 위치 정보를 기반으로 가상 선을 설정하고 항공기와 가상 선 간의 관계 정보를 기반으로 리워드를 결정하여 항공기 기동을 학습함으로써, 아군기가 상대기를 일정 거리 유지하며 따라가는 상황에서의 오버슈트 발생을 방지할 수 있다.

실시 예의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당해 기술 분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따른 전자 장치를 나타낸다.
도 2는 일 실시예에 따른 강화 학습에 기반하여 항공기의 기동 모델을 훈련시키는 과정을 나타낸다.
도 3은 일 실시예에 따른 가상 선과의 거리에 관한 정보를 정의하기 위한 도면을 나타낸다.
도 4a 및 도 4b는 실시예들에 따라 가상 선을 설정하는 방법을 나타낸다.
도 5는 일 실시예에 따른 항공기 제어를 위한 학습 방법의 흐름도를 나타낸다.

실시예들에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 “~부”, “~모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

명세서 전체에서 기재된 “a, b, 및 c 중 적어도 하나”의 표현은, ‘a 단독’, ‘b 단독’, ‘c 단독’, ‘a 및 b’, ‘a 및 c’, ‘b 및 c’, 또는 ‘a,b,c 모두’를 포괄할 수 있다.

이하에서 언급되는 "단말"은 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말은 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, IMT(International Mobile Telecommunication), CDMA(Code Division Multiple Access), W-CDMA(W-Code Division Multiple Access), LTE(Long Term Evolution) 등의 통신 기반 단말, 스마트폰, 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

이하에서는 도면을 참조하여 본 개시의 실시 예들을 상세히 설명한다.

도 1은 일 실시예에 따른 전자 장치를 나타낸다.

전자 장치(100)는 프로세서(110) 및 메모리(120)를 포함한다. 도 1에 도시된 전자 장치(100)에는 본 발명의 실시예들과 관련된 구성요소들만이 도시되어 있다. 따라서, 전자 장치(100)에는 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다.

실시예들에 따른 전자 장치(100)는 항공기의 자율 비행을 위한 학습 데이터를 생성하고 학습 데이터를 통해 인공지능 모델을 훈련시키는 모듈일 수 있다. 즉, 실시예들에 따른 전자 장치(100)는 항공기의 자율 비행을 위한 학습된 모델을 생성할 수 있다. 예를 들어, 전자 장치(100)는 항공기 내부에 포함되거나 항공기 외부에 존재할 수 있다. 또한, 실시예들에 따른 전자 장치(100)는 학습된 모델을 이용하여 항공기의 기동을 제어할 수 있다. 예를 들어, 항공기 내부에 포함된 전자 장치(100)는 자율 비행을 위한 입력 데이터를 수집하고, 이를 이용하여 학습된 모델을 통해 항공기의 상태와 환경을 예측하여 최적의 행동 방식을 결정하고, 자율적으로 항공기를 제어할 수 있다.

한편, 실시예들에 따른 전자 장치에 포함될 수 있는 프로세서(110)는 전자 장치(100) 내의 메모리(120)에 저장된 알고리즘과 관련된 프로그램들을 실행함으로써, 전자 장치(100)를 전반적으로 제어한다. 프로세서(110)는 전자 장치(100) 내에 구비된 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

실시예들에 따른 전자 장치에 포함될 수 있는 메모리(120)는 전자 장치(100) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 메모리(120)는 전자 장치(100)에서 처리된 데이터들 및 처리될 데이터들을 저장할 수 있다. 또한, 메모리(120)는 전자 장치(100)에 의해 구동될 애플리케이션들, 드라이버들 등을 저장할 수 있다. 메모리(120)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.

도 2는 일 실시예에 따른 항공기 제어를 위한 학습 방법을 나타내는 도면이다.

도 2를 참조하면, 강화 학습을 위한 에이전트(agent)(210)와 환경(environment)(220)이 제공된다. 에이전트(210)는 강화 학습의 대상이 되는 모델로서 항공기의 기동을 제어하기 위한 모델을 포함할 수 있다. 일 실시예에서, 프로세서(110)는 항공기의 상태 정보 S_t(201)를 확인할 수 있으며, 상태 정보 S_t(201)를 에이전트(210)에 제공할 수 있다. 에이전트(210)는 시간 t에서의 상태(state) 정보 S_t(201)를 확인하고, 이를 기반으로 행동(action) A_t(203)를 결정한다. 프로세서(110)는 시간 t에서의 행동 A_t(203)를 에이전트(210)가 상호작용하는 환경(220)의 입력으로 제공할 수 있다. 환경(220)은 이러한 입력을 기반으로 시간 t+1에서의 항공기의 상태 정보 S_t+1(204)을 출력한다. 프로세서(110)는 상태 정보 S_t+1(204)를 다시 에이전트(210)의 입력으로 제공하며, 에이전트(210)는 상태 정보 S_t+1(204)에 대응하는 행동(action) A_t+1을 결정할 수 있다. 또한, 프로세서(110)는 환경(220)으로부터 리워드 R_t(202)를 에이전트(210)에 제공할 수 있으며, 상태 정보 S_t(201) 및 행동 A_t(203)에 대응하는 리워드 R_t(202)를 통해 에이전트(210)를 학습시킬 수 있다. 마찬가지로, 프로세서(110)는 환경(220)으로부터 리워드 R_t+1(205)를 에이전트(210)에 제공할 수 있으며, 상태 정보 S_t+1(204) 및 행동 A_t+1에 대응하는 리워드 R_t+1(205)를 통해 에이전트(210)를 학습시킬 수 있다. 프로세서(110)는 이러한 학습 과정을 반복함으로써 입력되는 상태 정보에 대응하여 리워드가 최대가 되는 행동을 선택하도록 에이전트(210)를 학습시킬 수 있다.

일 실시예에서, 강화 학습을 위한 환경은 마르코프 결정 과정(Markov Decision Process, MDP)로 가정될 수 있다. 마르코프 결정 과정은 의사 결정 과정을 확률과 그래프로 모델링한 것으로 시간 t+1에서의 상태가 이전 히스토리와는 관계 없이 시간 t에서의 상태 정보와 행동에만 영향을 받는 것으로 가정하고 전이 확률(policy)을 기반으로 시간 t+1에서의 상태 정보와 리워드를 결정하는 것을 의미한다.

일 실시예에서, 강화 학습을 위한 알고리즘으로 소프트 액터-크리틱(Soft Actor-Critic, SAC) 알고리즘을 사용할 수 있다. 액터(actor)와 크리틱(critic)으로 구성되는 SAC 알고리즘에서, 액터는 현재 상태를 입력으로 받아 가능한 모든 행동들의 확률 분포를 출력하고, 크리틱은 현재 상태와 행동을 입력으로 받아 다음 상태에서 받을 예상 리워드의 가치를 출력한다. 크리틱의 출력을 기반으로 액터가 업데이트되며, 크리틱 네트워크가 예측한 예상 리워드의 가치 값이 최대가 되도록 액터를 훈련시킨다. 강화 학습을 위한 알고리즘으로 소프트 액터-크리틱 알고리즘을 사용하는 경우, 강화 학습의 목적 함수에 엔트로피를 최대화 하는 텀을 추가함으로써 가능한 모든 행동을 일정 확률로 시도할 수 있도록 하여 새로운 경험을 더 많이 수집할 수 있고 새로운 정책을 찾을 수 있어 지역 최적화(local optima)에 빠지는 것을 방지하고, 더 나은 전역 최적화(global optima)를 찾을 수 있다.

일 실시예에서, 항공기의 상태 정보 S_t(201)는 제1 항공기 또는 제2 항공기의 위치 정보 및 제1 항공기 또는 제2 항공기의 이동 방향 중 적어도 하나를 포함할 수 있다. 제1 항공기 또는 제2 항공기의 위치 정보는 제1 항공기 또는 제2 항공기의 절대적 위치 또는 제1 항공기에 대한 제2 항공기의 상대적 위치일 수 있다. 아군기가 일정 거리를 유지하며 상대기를 따라가도록 하는 시나리오를 학습하는 경우, 제1 항공기는 아군기일 수 있으며, 제2 항공기는 상대기일 수 있다. 제1 항공기가 아군기인 경우, 제1 항공기의 위치 정보는 GPS로부터 획득된 데이터일 수 있다. 제2 항공기가 상대기인 경우, 제2 항공기의 위치 정보는 레이더 또는 시각 센서로부터 획득된 데이터일 수 있으며, 이로부터 제1 항공기에 대한 제2 항공기의 상대적 위치를 결정할 수 있다. 레이더 시스템은 항공기의 전방 방향으로 탐지가 가능하며, 시각 센서는 항공기에 대해 모든 방향으로 탐지가 가능하다.

일 실시예에서, 항공기의 행동 A_t(203)은 강화 학습 알고리즘에 의해 결정되며, 프로세서(110)는 현재 상태 S_t(201)와 가능한 행동들을 고려하여 리워드를 최대화하는 행동을 선택하도록 에이전트(210)를 훈련시킨다. 예를 들어, 현재 상태 St(201)는 제1 항공기 또는 제2 항공기의 위치 정보, 이동 방향 정보, 속도 정보, 및 가속도 정보 중 적어도 하나를 포함할 수 있으며, 항공기의 행동 A_t(203)는 항공기를 제어하기 위한 정보로서 항공기 기동을 위해 필요한 값을 포함할 수 있으며, 예를 들어, 스로틀(throttle), 롤(roll), 피치(pitch), 및 요(yaw)와 관련된 값을 포함할 수 있다.

이하, 일 실시예에 따른 항공기의 기동 모델을 훈련시키기 위한 리워드 R_t(202)을 결정하는 방법에 관해 도 3 내지 도 5를 참조하여 설명한다.

도 3을 참조하면, 일 실시예에 따른 리워드를 결정하기 위해 프로세서(110)에 의해 설정되는 가상 선과 항공기 사이의 거리(d) 및 가상 선과 항공기 사이의 거리 감소량(

)을 정의하기 위한 도면이 도시된다. 가상 선(301)과 항공기 사이의 거리(d)는 가상 선(301)과 항공기 사이의 가장 짧은 거리로 정의된다. 예를 들어, 항공기가 가상 선(301)에의 법선 상에 위치하는 경우, 가상 선(301)과 항공기(302) 사이의 거리(d)는 법선의 길이(d₁)가 된다. 예를 들어, 항공기가 가상 선(301)의 법선 상에 위치하지 않는 경우, 가상 선(301)과 항공기(303, 304) 사이의 거리(d)는 항공기(303, 304)에 가장 가까운 가상 선(301)의 끝 점과 항공기(303, 304) 사이의 거리(d₂, d₃)가 된다. 또한, 가상 선(301)과 항공기(302) 사이의 거리 감소량(

)은 시간 t에서의 가상 선(301)과 항공기(302) 사이의 거리()와 시간 t+1에서의 가상 선(301)과 항공기 사이의 거리()에 기반하여 다음 수학식과 같이 정의된다.

일 실시예에서, 프로세서(110)는 가상 선과 항공기 사이의 거리 감소율(

)에 비례하고, 가상 선과 항공기 사이의 거리(d)에 반비례하도록 설정된 수학식 2에 따라 항공기의 기동 모델을 훈련시키기 위한 리워드 R_t(202)를 결정할 수 있다.

이 때, , , 는 보정함수로 학습 시나리오, 항공기 종류 등에 따라 달라질 수 있다. 예를 들어, 항공기가 전투기인 경우 학습 시나리오로 상대기를 격추시키거나 상대기와 일정 거리를 유지하며 상대기를 추격하는 시나리오가 적용될 수 있으며, 프로세서(110)는 해당 시나리오에 적합하게 모델을 훈련시킬 수 있도록 보정함수를 설정할 수 있다. 또한, 예를 들어, 항공기가 여객기인 경우 여객기를 격추시키는 시나리오는 학습 시나리오로 선택될 수 없으며, 일정 거리를 유지하며 여객기를 엄호하는 시나리오 등이 학습 시나리오로 적용되고, 프로세서(110)는 해당 시나리오에 적합하게 모델을 훈련시킬 수 있도록 보정함수를 설정할 수 있다.

또한, 보정함수 , , 으로는 sigmoid, hyperbolic tangent, 제곱, 세제곱, 제곱근 등이 사용될 수 있으나 이에 제한되지 않으며, 원하는 시나리오에 따라 적절한 리워드가 설정되도록 하는 임의의 함수일 수 있다.

수학식 2에 의하면, 가상 선과 항공기 사이의 거리 감소량(

)이 음의 값을 갖는 경우, 즉, 시간 t에서 시간 t+1로 시간이 흐름에 따라 가상 선과 항공기 사이의 거리가 감소하는 경우, 항공기가 가상 선에 근접하도록 기동하고 있음을 의미하고 이는 원하는 기동이므로 이러한 행동에 대해서는 양의 리워드가 부여된다. 한편, 가상 선과 항공기 사이의 거리 감소량(

)이 양의 값을 갖는 경우, 즉, 시간 t에서 시간 t+1로 시간이 흐름에 따라 가상 선과 항공기 사이의 거리가 증가하는 경우, 항공기가 가상 선에서 멀어지도록 기동하고 있음을 의미하고 이는 원하지 않는 기동이므로 이러한 행동에 대해서는 음의 리워드, 즉, 패널티가 부여된다. 따라서, 수학식 2에 따라 리워드를 설정하는 경우 프로세서(110)는 항공기가 가상 선을 따라 기동하도록 항공기의 기동 모델을 훈련시킬 수 있다.

또한, 수학식 2에 의하면, 가상 선과 항공기 사이의 거리(d)가 큰 경우에는 항공기가 가상 선을 향해 빠르게 이동하여 가상 선과 항공기 사이의 거리 감소량(

)이 큰 값을 가져야 많은 리워드를 받을 수 있는 반면, 가상 선과 항공기 사이의 거리(d)가 작은 경우에는 항공기가 가상 선을 향해 비교적 느리게 이동하여 가상 선과 항공기 사이의 거리 감소량(

)이 작은 값을 갖는 경우에도 충분한 리워드를 받을 수 있다. 더욱이, 가상 선과 항공기 사이의 거리(d)가 작은 경우에 항공기가 가상 선을 향해 빠르게 이동하여 가상 선을 지나쳐 가상 선에서 멀어지는 경우에는 가상 선과 항공기 사이의 거리 감소량(

)이 양의 값이 되어 오히려 패널티가 부여될 수 있다. 따라서, 수학식 2에 따라 리워드를 설정하는 경우 프로세서(110)는 오버슈트를 방지하면서 항공기가 가상 선을 따라 기동하도록 항공기의 기동 모델을 훈련시킬 수 있다.

상술한 바와 같이, 프로세서(110)는 항공기의 기동 모델을 훈련시키기 위한 리워드 함수를 결정하기 위한 방법으로 가상 선을 설정하고, 가상 선과 항공기 사이의 거리 및 가상 선과 항공기 사이의 거리 감소율을 기반으로 리워드를 결정할 수 있다. 그러나, 리워드를 결정하기 위한 방법은 상술한 실시예에 제한되지 않으며, 바람직한 항공기의 기동을 위한 임의의 리워드 방법이 적용될 수 있다. 예를 들어, 공중 교전 상황에서 상대기를 격추시키는 것이 바람직하므로, 상대기를 격추시키는 경우 리워드를 부여하고 상대기에 의해 격추당하는 경우 패널티를 부여하는 방식으로 리워드 함수를 결정하는 것도 가능하다. 예를 들어, 상대기가 WEZ(Weapon Engagement Zone) 내에 위치하거나, 아군기가 상대기의 WEZ 내에 위치하지 않도록 하는 경우 리워드를 부여하며, 상대기가 아군기의 공격 영역 내에 있을 때 상대기와 아군기 사이의 거리가 짧은 경우 더 많은 리워드를 얻을 수 있도록 리워드 함수를 결정하는 것 또한 가능하다. 예를 들어, 항공기가 일정 고도 이하로 내려가는 경우에는 추락하는 것으로 가정하고, 아군기가 추락한 경우에는 패널티를 부여하며, 상대기가 추락한 경우에는 리워드를 부여하도록 리워드 함수를 결정하는 것 또한 가능하다.

도 4는 실시예들에 따라 프로세서(110)가 가상 선을 설정하는 방법을 나타낸다.

도 4a를 참조하면, 프로세서(110)는 아군기(401) 앞에 상대기(402)가 위치하도록 아군기(401)의 기동을 훈련시키기 위하여 아군기(401)의 이동 방향의 전방으로 가상 선(403)을 설정할 수 있다. 이 때, 가상 선(403)과 상대기(402) 사이의 거리 및 가상 선(403)과 상대기(402) 사이의 거리 감소율을 기반으로 리워드(Rt)가 결정된다. 프로세서(110)가 이와 같이 가상 선을 설정하는 경우 프로세서(110)는 아군기(401)의 행동을 제어하여 아군기(401)의 전방에 형성되는 가상 선에 상대기(402)가 근접하도록 학습시킬 수 있으며, 학습 결과 상대기(402)가 아군기의 이동 방향의 전방으로 형성되는 가상 선(403)에 근접하게 되므로 아군기(401) 앞에 상대기(402)가 위치하게 된다.

도 4b를 참조하면, 프로세서(110)는 아군기(401)가 꼬리물기로 상대기(402) 뒤에 위치하도록 아군기(401)의 기동을 훈련시키기 위하여 상대기(402)의 이동 방향과 평행한 방향으로 상대기(402)의 후방으로 가상 선(403)을 설정할 수 있다. 이 때, 가상 선(403)과 아군기(401) 사이의 거리 및 가상 선(403)과 아군기(401) 사이의 거리 감소량을 기반으로 리워드(Rt)가 결정된다. 프로세서(110)가 이와 같이 가상 선을 설정하는 경우 프로세서(110)는 아군기(401)의 행동을 제어하여 상대기(402)의 후방에 형성되는 가상 선에 아군기(401)가 근접하도록 학습시킬 수 있으며, 학습 결과 아군기(401)가 상대기의 이동 방향의 후방으로 형성되는 가상 선(403)에 근접하게 되므로 상대기(402)의 뒤에 아군기(401)가 위치하게 된다.

프로세서(110)가 가상 선을 설정하는 방법은 상술한 예들에 제한되지 않고 항공기 기동을 위한 임의의 시나리오에 기반하여 설정될 수 있으며, 복수의 가상 선을 설정하고 각각의 가상 선과의 거리에 관한 정보를 기반으로 리워드를 결정하는 것 또한 가능하다. 예를 들어, 항공기가 일정 고도 이하로 내려가는 추락 상황을 방지하기 위하여, 프로세서(110)는 일정 고도를 기준으로 추가 가상 선을 설정할 수 있다. 이 때, 제1 항공기와 추가 가상 선 간의 거리에 관한 정보를 기반으로 패널티를 결정할 수 있다. 예를 들어, 제1 항공기가 일정 고도 상에 설정된 추가 가상 선에 가까워질수록 지상의 물체 등과 충돌할 가능성이 높아지므로 제1 항공기와 추가 가상 선 간의 거리에 반비례하도록 패널티가 결정될 수 있다. 일 실시예에서, 프로세서(110)는 가상 선 간의 거리에 관한 정보로부터 결정된 리워드와 추가 가상 선 간의 거리에 관한 정보로부터 결정된 패널티를 모두 고려하여 항공기 기동 모델을 훈련시키는 것도 가능하다.

도 5는 일 실시예에 따른 항공기 제어를 위한 학습 방법의 흐름도를 나타낸다.

단계 S510에서, 전자 장치(100)는 제1 항공기 또는 제2 항공기의 상태 정보를 확인할 수 있다.

단계 S520에서, 전자 장치(100)는 상태 정보를 기반으로 가상 선을 설정할 수 있다.

단계 S530에서, 전자 장치(100)는 제1 항공기 또는 제2 항공기와 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정할 수 있다.

단계 S540에서, 전자 장치(100)는 리워드를 기반으로 제1 항공기의 기동을 제어하기 위한 모델을 훈련시킬 수 있다.

전술한 실시예들에 따른 전자 장치는, 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-Access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.

본 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 실시 예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

전술한 실시예들은 일 예시일 뿐 후술하는 청구항들의 범위 내에서 다른 실시예들이 구현될 수 있다.

Claims

전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법에 있어서,
제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계;
상기 상태 정보를 기반으로 가상 선을 설정하는 단계;
상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및
상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함하되,
상기 거리는,
상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하는 경우, 상기 법선의 길이로 결정되고,
상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하지 않는 경우, 상기 항공기에 가장 근접한 상기 가상 선의 끝 점과 상기 항공기 사이의 거리로 결정되는, 학습 방법.
제1항에 있어서,
상기 상태 정보는 상기 제1 항공기 또는 상기 제2 항공기의 위치 정보 및 상기 제1 항공기 또는 상기 제2 항공기의 이동 방향 중에서 적어도 하나를 포함하는, 학습 방법.
전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법에 있어서,
제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계;
상기 상태 정보를 기반으로 가상 선을 설정하는 단계;
상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및
상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함하되,
상기 가상 선을 설정하는 단계는,
상기 제1 항공기의 이동 방향에 따라 상기 제1 항공기의 전방으로 가상 선을 설정하는 단계를 포함하고,
상기 리워드를 결정하는 단계는,
상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계를 포함하는, 학습 방법.
전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법에 있어서,
제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계;
상기 상태 정보를 기반으로 가상 선을 설정하는 단계;
상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및
상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함하되,
상기 가상 선을 설정하는 단계는,
상기 제2 항공기의 이동 방향에 따라 상기 제2 항공기의 후방으로 가상 선을 설정하는 단계를 포함하고,
상기 리워드를 결정하는 단계는,
상기 제1 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계를 포함하는, 학습 방법.
전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법에 있어서,
제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계;
상기 상태 정보를 기반으로 가상 선을 설정하는 단계;
상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및
상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함하되,
일정 고도를 기준으로 추가 가상 선을 설정하는 단계; 및
상기 제1 항공기와 상기 추가 가상 선 간의 거리에 관한 정보를 기반으로 패널티를 결정하는 단계를 더 포함하고,
상기 모델을 훈련시키는 단계는,
상기 리워드 및 상기 패널티를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함하는, 학습 방법.
삭제
전자 장치에 의해 수행되는 항공기 제어를 위한 학습 방법에 있어서,
제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계;
상기 상태 정보를 기반으로 가상 선을 설정하는 단계;
상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및
상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계를 포함하되,
상기 리워드는 상기 거리에 반비례하고, 상기 거리의 감소량에 비례하도록 설정되는, 학습 방법.
제7항에 있어서,
상기 리워드(R)는 에 의해 결정되며, d는 상기 제1 항공기와 상기 가상 선 사이의 상기 거리,
는 상기 제1 항공기와 상기 가상 선 사이의 상기 거리 감소량, , , 는 보정 함수인, 학습 방법.
제8항에 있어서, 상기 보정함수 , , 는 학습 시나리오 및 항공기 종류 중 적어도 하나에 기반하여 결정되는, 학습 방법.
비일시적 컴퓨터 판독 가능 저장 매체로서,
컴퓨터 판독 가능 명령어들을 저장하도록 구성되는 매체를 포함하고,
상기 컴퓨터 판독 가능 명령어들은 프로세서에 의해 실행되는 경우 상기 프로세서가:
제1 항공기 또는 제2 항공기의 상태 정보를 확인하는 단계;
상기 상태 정보를 기반으로 가상 선을 설정하는 단계;
상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하는 단계; 및
상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 단계
를 포함하되,
상기 거리는,
상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하는 경우, 상기 법선의 길이로 결정되고,
상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하지 않는 경우, 상기 항공기에 가장 근접한 상기 가상 선의 끝 점과 상기 항공기 사이의 거리로 결정되는 항공기 제어를 위한 학습 방법을 수행하도록 하는, 비일시적 컴퓨터 판독 가능 저장 매체.
항공기 제어 학습을 위한 전자 장치로서,
적어도 하나의 프로그램을 저장하는 메모리; 및
상기 적어도 하나의 프로그램을 실행함으로써, 제1 항공기 또는 제2 항공기의 상태 정보를 확인하고, 상기 상태 정보를 기반으로 가상 선을 설정하고, 상기 제1 항공기 또는 상기 제2 항공기와 상기 가상 선 간의 거리에 관한 정보를 기반으로 리워드를 결정하고, 상기 리워드를 기반으로 상기 제1 항공기의 기동을 제어하기 위한 모델을 훈련시키는 프로세서(processor)를 포함하되,
상기 거리는,
상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하는 경우, 상기 법선의 길이로 결정되고,
상기 제1 항공기 또는 상기 제2 항공기가 상기 가상 선의 법선 상에 위치하지 않는 경우, 상기 항공기에 가장 근접한 상기 가상 선의 끝 점과 상기 항공기 사이의 거리로 결정되는, 전자 장치.