KR101345645B1

KR101345645B1 - 목표지향 행위계획 결정이 가능한 모의훈련 시스템 및 목표지향 행위계획 결정방법

Info

Publication number: KR101345645B1
Application number: KR1020110109901A
Authority: KR
Inventors: 박정찬; 유찬곤; 박재현
Original assignee: 국방과학연구소
Priority date: 2011-10-26
Filing date: 2011-10-26
Publication date: 2013-12-27
Also published as: KR20130045598A

Abstract

본 발명은 목표지향 행위계획 결정이 가능한 모의훈련 시스템 및 목표지향 행위계획 결정방법에 관한 것으로, 워게임을 시뮬레이션하고, 시뮬레이션 결과분석이 가능한 모의훈련 서버; 상기 모의훈련 서버에 연결되어, 상기 시뮬레이션에 따라 발생되는 시뮬레이션값을 입력받고, 상기 모의훈련 서버에 상기 워게임의 서로 대립되는 제1 가상군 및 제2 가상군에 대한 각각의 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 입력가능한 계획수립기; 상기 계획수립기에 연결되어 상기 목표값에 따라 상위계층 태스크와 하위계층 태스크의 계층적 태스크로 구성된 행위에이전트값을 제공하는 행위에이전트 서버; 및, 상기 계획수립기에 접속되어 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 설정가능한 지식전문가 컴퓨터를 포함하여 구성된다.
이상과 같은 본 발명에 의하면, 워게임을 시뮬레이션하는 모의훈련 시스템에서, 목표값에 따라 자동적으로 목표지향 행위계획 결정함으로써, 가상군의 자율적 행위를 가능하게 할 수 있다. 또한, 퍼지추론에 의해 환경의 상태에 따라 개체가 자동적으로 변경된 행위를 수행가능하게 할 수 있다.

Description

목표지향 행위계획 결정이 가능한 모의훈련 시스템 및 목표지향 행위계획 결정방법{Simulation System And Method for War Game}

본 발명은 워게임(War Game)을 시뮬레이션하는 시스템에서, 가상군의 자율적 행위를 위한 목표지향 행위계획 결정이 가능한 모의훈련 시스템 및 목표지향 행위계획 결정방법에 관한 것이다.

워게임은 전장 환경을 모델링해서 다양한 전술, 전략을 모의 및 분석해 볼 수 있는 시뮬레이션 도구로서, 실제환경에 비해 적은 비용으로 다양한 실험을 해볼 수 있는 장점이 있어 많은 각광을 받아 왔다. 워게임에서 중요한 것은 실제 전장환경과 유사하게 모의할 수 있도록 각 개체를 적절히 모델링하는 것과 효율적인 시뮬레이션을 가능하게 하는 것이다.

도 1은 종래에 따른 모의훈련 시스템의 구성을 나타내는 것으로서, 도 1에 도시된 바와 같이, 종래에 따른 모의훈련 시스템은 워게임을 시뮬레이션하고, 시뮬레이션 결과분석이 가능한 모의훈련 서버(10); 상기 모의훈련 서버(10)에 연결되어, 상기 시뮬레이션에 따라 발생되는 시뮬레이션값을 입력받고, 상기 모의훈련 서버(10)에 상기 워게임의 서로 대립되는 제1 가상군 및 제2 가상군에 대한 각각의 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 입력가능한 계획수립기(20); 상기 계획수립기(20)에 접속되어 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 설정가능한 지식전문가 컴퓨터(30)를 포함하여 구성되었다.

그런데 종래에 따른 모의훈련 시스템에서, 실시하는 목표지향 행위계획은 일일이 지식전문가에 의해 사람의 손을 거쳐 정해진 방식으로만 설정되어 운영되는 문제점이 있었다. 이러한 계획 방식은 급작스런 행동 발생이나 예측 불가능성 자체를 부정하는 방식이었다. 또한, 대규모 모의훈련 환경에서는 다수의 사람을 투입하여 미리 정의된 시나리오를 실행시키거나, 시나리오를 작성하기 위한 별도의 시간, 장소, 인력을 투입하여 작성을 하게 된다. 이렇게 생성된 시나리오는 동적 환경에서 수정이나 변경이 어렵다.

일례로써, 1980년대부터 Computer Generated Forces(CGF)에 대한 연구가 활발히 진행되고 있다. 그 결과 모듈화된 반(半) 자율적 가상군(Semi-Automated Forces; SAF) 개체들과 Command and Control(C2)을 담당하는 사령부 개체를 모의 환경에 배치하여 모의훈련 및 분석을 하는 것이 가능한 수준의 기술을 개발했다. 하지만 아직 가상군이 스스로 목표를 설정하거나 학습을 하는 수준은 아니다. 또한, 가상 객체의 명령 계통이 상위 수준과 하위 수준으로 구분되어 처리되지는 못하는 상황이다. 따라서 이러한 문제를 해결할 수 있는 계층적 태스크 기반의 목표지향행위계획 기법을 개발하는 것이 큰 과제라 할 수 있다.

상기와 같은 문제점을 해결하기 위해서, 워게임(War Game)을 시뮬레이션하는 모의훈련 시스템에서, 가상군의 자율적 행위를 위한 목표지향 행위계획 결정이 가능한 모의훈련 시스템 및 목표지향 행위계획 결정방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위해 본 발명에 따른 목표지향 행위계획 결정이 가능한 모의훈련 시스템은, 워게임을 시뮬레이션하고, 시뮬레이션 결과분석이 가능한 모의훈련 서버; 상기 모의훈련 서버에 연결되어, 상기 시뮬레이션에 따라 발생되는 시뮬레이션값을 입력받고, 상기 모의훈련 서버에 상기 워게임의 서로 대립되는 제1 가상군 및 제2 가상군에 대한 각각의 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 입력가능한 계획수립기; 상기 계획수립기에 연결되어 상기 목표값에 따라 상위계층 태스크와 하위계층 태스크의 계층적 태스크로 구성된 행위에이전트값을 제공하는 행위에이전트 서버; 및, 상기 계획수립기에 접속되어 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 설정가능한 지식전문가 컴퓨터를 포함하여 구성된다.

여기서, 상기 행위에이전트 서버는, 상기 시뮬레이션값 중 환경정보의 수치화된 퍼지정보에 대해 설정된 퍼지규칙에 따라 언어화된 비퍼지 정보를 제공하는 퍼지규칙 지식DB; 및, 상기 시뮬레이션값 중 이벤트발생정보에 따라 대응하여 변경가능한 행위정보를 제공하는 상태별 활성화 확산정보DB를 더 포함하되, 상기 모의훈련 서버는, 상기 행위에이전트값을 통해 부대 또는 개체의 하위계층 태스크를 결정하고, 상기 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하며, 상기 부대 또는 개체가 인식된 환경에서 상기 행위정보를 참조하여 행위수행여부를 판단하되, 행위수행 조건을 만족하는 경우 행위를 수행하고, 행위수행 조건을 만족하지 못하는 경우 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것을 특징으로 한다.

또한, 상기 모의훈련 서버는, 상기 행위수행 조건을 만족하는 경우 행위를 수행한 후, 행위결과에 따라 경험치를 부여하기 위한 보상신호를 발생하여, 발생된 보상신호를 통해 상기 퍼지규칙 지식DB의 퍼지규칙을 설정변경하며, 또한, 해당 하위계층 태스크의 종료여부를 판단하여 종료되는 경우 설정된 다른 하위계층 태스크를 결정하고, 종료가 아닌 경우 해당 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 것을 특징으로 한다.

또한, 상기 퍼지규칙 지식DB의 상기 퍼지규칙은, 시스템이 종료되고 다시 시작되어도 동일하게 유지되는 장기기억 퍼지규칙과, 시스템이 실행되는 동안만 유지되며, 시스템이 실행되고 있는 도중에 설정변경되는 단기기억 퍼지규칙을 포함한다.

또한, 상기 상태별 활성화 확산정보DB의 행위정보는 설정된 행위들간 수치화된 연결강도 정보를 포함하며, 이 때, 상기 모의훈련 서버에서, 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것은, 행위정보 중 수치화된 연결강도 정보가 가장 높은 하위계층 태스크를 결정하는 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위해, 본 발명에 따른 모의훈련 시스템의 목표지향 행위계획 결정방법은, 상기 모의훈련 서버에서 워게임 시뮬레이션시 부대 또는 개체의 임무수행을 위한 목표값을 입력받는 제1 단계; 상기 모의훈련 서버에서 행위에이전트 서버로부터 상위계층 태스크와 하위 계층태스크의 계층적 태스크로 구성된 행위에이전트값을 이용하여 부대 또는 개체의 하위 계층 태스크를 결정하는 제2 단계; 상기 모의훈련 서버에서 상기 하위 계층 태스크와 상기 행위에이전트 서버의 퍼지규칙 지식DB의 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 제3 단계; 상기 모의훈련 서버에서 상기 부대 또는 개체가 인식된 환경에 대해 상기 행위에이전트 서버의 상태별 활성화 확산정보DB의 행위정보를 참조하여 행위수행 여부를 판단하는 제4 단계; 상기 제4 단계에서, 행위수행 여부를 판단시, 행위수행 조건을 만족하는 경우 행위를 수행하는 제5 단계를 포함하되; 상기 모의훈련 서버는 제4 단계에서, 행위수행 여부를 판단시, 행위수행 조건을 만족하지 못하는 경우 상기 제2 단계로 이동하여 다른 하위 계층 태스크를 결정하는 것을 특징으로 한다.

또한, 본 발명에 따른 모의훈련 시스템의 목표지향 행위계획 결정방법은, 상기 모의훈련 서버가, 제5 단계에서 상기 행위를 수행한 후, 행위결과에 따라 경험치를 부여하기 위한 보상신호를 발생하여, 발생된 보상신호를 통해 상기 퍼지규칙 지식DB의 퍼지규칙을 설정변경하는 제6 단계; 및, 상기 제6 단계에서 해당 하위계층 태스크의 종료여부를 판단하는 제7 단계를 더 포함한다. 이 때, 상기 모의훈련 서버는 제6 단계에서 해당 하위계층 태스크가 종료인 경우 제2 단계로 이동하여 설정된 다른 하위계층 태스크를 결정하고, 종료가 아닌 경우 제3 단계로 이동하여 상기 해당 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 것을 특징으로 한다.

또한, 상기 상태별 활성화 확산정보DB의 행위정보는 설정된 행위들간 수치화된 연결강도 정보를 포함하되, 상기 제2 단계에서, 모의훈련 서버가 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것은, 행위정보 중 수치화된 연결강도 정보가 가장 높은 하위계층 태스크를 결정하는 것을 의미한다.

이상과 같은 본 발명에 의하면, 워게임(War Game)을 시뮬레이션하는 모의훈련 시스템에서, 목표값에 따라 자동적으로 목표지향 행위계획 결정함으로써, 가상군의 자율적 행위를 가능하게 할 수 있다. 또한, 퍼지추론에 의해 환경의 상태에 따라 개체가 자동적으로 변경된 행위를 수행가능하게 할 수 있다.

도 1은 종래에 따른 모의훈련 시스템의 구성을 나타낸다.
도 2는 본 발명의 일실시예에 따른 모의훈련 시스템의 구성을 나타낸다.
도 3은 본 발명의 일실시예에 따른 목표지향 행위계획 결정방법의 순서도를 나타낸다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 2에 도시된 바와 같이, 본 발명에 따른 목표지향 행위계획 결정이 가능한 모의훈련 시스템은, 워게임을 시뮬레이션하고, 시뮬레이션 결과분석이 가능한 모의훈련 서버(110); 상기 모의훈련 서버(110)에 연결되어 상기 시뮬레이션에 따라 발생되는 시뮬레이션값을 입력받고, 상기 모의훈련 서버(110)에 상기 워게임의 서로 대립되는 제1 가상군 및 제2 가상군에 대한 각각의 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 입력가능한 계획수립기(120); 상기 계획수립기(120)에 연결되어 상기 목표값에 따라 상위계층 태스크와 하위계층 태스크의 계층적 태스크로 구성된 행위에이전트값을 제공하는 행위에이전트 서버(130); 및, 상기 계획수립기(120)에 접속되어 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 설정가능한 지식전문가 컴퓨터(140)를 포함하여 구성된다.

여기서, 상기 행위에이전트 서버(130)는, 상기 시뮬레이션값 중 환경정보의 수치화된 퍼지정보에 대해 설정된 퍼지규칙에 따라 언어화된 비퍼지 정보를 제공하는 퍼지규칙 지식DB(133)(도 3 참조); 및, 상기 시뮬레이션값 중 이벤트발생정보에 따라 대응하여 변경가능한 행위정보를 제공하는 상태별 활성화 확산정보DB(135)(도 3 참조)를 더 포함하되, 상기 모의훈련 서버(110)는, 상기 행위에이전트값을 통해 부대 또는 개체의 하위계층 태스크를 결정하고, 상기 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하며, 상기 부대 또는 개체가 인식된 환경에서 상기 행위정보를 참조하여 행위수행여부를 판단하되, 행위수행 조건을 만족하는 경우 행위를 수행하고, 행위수행 조건을 만족하지 못하는 경우 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것을 특징으로 한다.

또한, 상기 모의훈련 서버(110)는, 상기 행위수행 조건을 만족하는 경우 행위를 수행한 후, 행위결과에 따라 경험치를 부여하기 위한 보상신호를 발생하여, 발생된 보상신호를 통해 상기 퍼지규칙 지식DB의 퍼지규칙을 설정변경하며, 또한, 해당 하위계층 태스크의 종료여부를 판단하여 종료되는 경우 설정된 다른 하위계층 태스크를 결정하고, 종료가 아닌 경우 해당 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 것을 특징으로 한다.

또한, 상기 퍼지규칙 지식DB(133)의 상기 퍼지규칙은, 시스템이 종료되고 다시 시작되어도 동일하게 유지되는 장기기억 퍼지규칙과, 시스템이 실행되는 동안만 유지되며, 시스템이 실행되고 있는 도중에 설정변경되는 단기기억 퍼지규칙을 포함한다.

또한, 상기 상태별 활성화 확산정보DB(135)의 행위정보는 설정된 행위들간 수치화된 연결강도 정보를 포함하며, 이 때, 상기 모의훈련 서버(110)에서, 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것은, 행위정보 중 수치화된 연결강도 정보가 가장 높은 하위계층 태스크를 결정하는 것을 특징으로 한다.

한편, 도 3에 도시된 바와 같이, 본 발명에 따른 모의훈련 시스템의 목표지향 행위계획 결정방법은, 상기 모의훈련 서버(110)에서 워게임 시뮬레이션시 부대 또는 개체의 임무수행을 위한 목표값을 입력받는 제1 단계(S10); 상기 모의훈련 서버(110)에서 행위에이전트 서버(130)로부터 상위계층 태스크와 하위 계층태스크의 계층적 태스크로 구성된 행위에이전트값(131)을 이용하여 부대 또는 개체의 하위 계층 태스크를 결정하는 제2 단계(S20); 상기 모의훈련 서버(110)에서 상기 하위 계층 태스크와 상기 행위에이전트 서버(130)의 퍼지규칙 지식DB(133)의 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 제3 단계(S30); 상기 모의훈련 서버(110)에서 상기 부대 또는 개체가 인식된 환경에 대해 상기 행위에이전트 서버(110)의 상태별 활성화 확산정보DB(135)의 행위정보를 참조하여 행위수행 여부를 판단하는 제4 단계(S40); 상기 제4 단계(S40)에서, 행위수행 여부를 판단시, 행위수행 조건을 만족하는 경우 행위를 수행하는 제5 단계(S50)를 포함하되; 상기 모의훈련 서버(110)는 제4 단계(S40)에서, 행위수행 여부를 판단시, 행위수행 조건을 만족하지 못하는 경우 상기 제2 단계(S20)로 이동하여 다른 하위 계층 태스크를 결정하는 것을 특징으로 한다.

또한, 본 발명에 따른 모의훈련 시스템의 목표지향 행위계획 결정방법은, 상기 모의훈련 서버(110)가, 제5 단계(S50)에서 상기 행위를 수행한 후, 행위결과에 따라 경험치를 부여하기 위한 보상신호를 발생하여 발생된 보상신호를 통해 상기 퍼지규칙 지식DB(133)의 퍼지규칙을 설정변경하는 제6 단계(S60); 및, 상기 제6 단계(S60)에서 해당 하위계층 태스크의 종료여부를 판단하는 제7 단계(S70)를 더 포함한다. 이 때, 상기 모의훈련 서버(110)는 제6 단계(S60)에서 해당 하위계층 태스크가 종료인 경우 제2 단계(S20)로 이동하여 설정된 다른 하위계층 태스크를 결정하고, 종료가 아닌 경우 제3 단계(S30)로 이동하여 상기 해당 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 것을 특징으로 한다.

또한, 상기 상태별 활성화 확산정보DB(135)의 행위정보는 설정된 행위들간 수치화된 연결강도 정보를 포함하되, 상기 제2 단계에서, 모의훈련 서버(110)가 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것은, 행위정보 중 수치화된 연결강도 정보가 가장 높은 하위계층 태스크를 결정하는 것을 의미한다.

상기 목표(값)란 에이전트가 만족하기 원하는 어떤 조건(또는 임무)을 의미한다. 하나의 에이전트는 여러 개의 목표를 가질 수 있다. 특정 순간에 하나의 목표가 활성화되겠고, 이를 바탕으로 가상 개체의 행위를 제어한다. 목표는 현재의 상황이 적절한가를 판단하고 만족되어 졌는지를 계산할 수 있도록 기술되어야 한다. 계획(Plan)이란 일련의 행위들을 의미한다. 즉, 목표를 만족하는 계획이란 가상개체의 시작상태로부터 목표를 만족하는 상태까지 가상개체로 이끄는 유효한 행위들의 집합을 말한다. 행위(action)란 계획 내에서 가상객체로 하여금 무엇인가를 하도록 만드는 단일의 원자(최소) 단계를 말한다. 행위는 사전조건들(preconditions)과 효과(effects)로 구성된다.

본 발명에 따른 행위에이전트 서버는 계층적 태스크 네트워크(HTN; Hierarchical Task Network)를 이용한 것으로, 행위에이전트값은 군 모의훈련에서와 같이 지휘계통이 서로 상하위 구조의 계층적 태스크로 이루어진 것을 의미한다. 이러한 계층적 태스크는 아주 복잡한 태스크를 하위 태스크로 나누고 직접 실행이 가능한 가장 간단한 수준의 단위 태스크로 나누는 것이 가능하다. 하위(계층) 태스크로 분할될 수 있는 태스크와 직접 실행이 가능한 오퍼레이터 수준의 태스크를 구분하는 것이 핵심이다. 또한, 하위 태스크로 분기되어 진행될 때 여러 후보군으로부터 적절한 태스크를 선택하는 것도 중요한 사안이다.

목표지향 행위계획 결정방법은 컴퓨터 생성 가상객체를 이용한 연구 분야로 가상객체의 자율적, 목적 지향적 행위를 모델링하는데 있다. 실제로 최적의 목표를 수행하기 위하여 다수의 행위들 사이에서 만족 값을 찾는 것이며, 다수 계획이 가능하지만 가능한 한 최적의 계획을 수립하는 것이다.

본 발명에 따른 일실시예로서, 모의훈련 서버(110)는 가상개체의 특정 목적을 수행하기 위해 다수의 에이전트들, 그리고 외부 환경과 상호작용을 하는 자율적인 소프트웨어 개체를 만들어 내는 것으로, 분산 환경에서의 에이전트 기반 응용 프로그램을 만들기 위한 쿠거(Cougaar)를 사용할 수 있다. 인지적(cognitive)에이전트 아키텍쳐를 기반으로 규칙 기반 시스템을 구축함으로써 협업 체계 기반을 마련하였다. 쿠거(Cougaar)는 다수의 인지적 에이전트를 생성할 수 있는 분산 다중 에이전트 아키텍쳐로서 확장이 용이(scalable)하고 안정적인 시스템을 만들 수 있는 인프라스트럭쳐와 핵심 서비스들을 제공한다. 그리고 에이전트 각각의 개인메모리, 특정 에이전트끼리만 공유하는 그룹메모리, 모든 에이전트들이 공유하는 블랙보드(blackboard) 메모리를 포함하고 있으므로 에이전트 간에 다양한 형태의 의사소통이 가능하도록 한다. 그러므로 때로는 수천명에 달하는 가상 객체가 의사소통을 하거나, 서로 영향을 주면서 움직이는 전장 상황 모의를 위한 기반 아키텍쳐로 사용하기에 적합하다.

상기 쿠거(Cougaar)에서 제공되는 일반적인 에이전트의 틀에 적용하고자하는 분야의 지식과 그를 기반으로 하는 규칙을 플러그인(plugin) 형태로 만들어 결합시킴으로써 해당분야에 알맞은 에이전트를 구축하는 것이 가능하다. 쿠거(Cougaar)에서 제안된 규칙기반 시스템에서는 우선 여러 개의 규칙(rule)들을 룰베이스(rule base; knowledge base)에 저장해놓고 가상 객체가 처한 현재의 상태를 나타내는 사건(fact)들을 작업 메모리(working memory; fact base)에 저장한다. 그 후 룰베이스(rule base)에 저장된 규칙들 중 현재 상태(working memory의 내용)가 조건(if)절의 내용을 만족시키는 모든 규칙들을 충돌 셋(conflict set)으로 만든다. 그리고 충돌 셋(conflict set)에 포함된 규칙들 중에서 충돌 해소(conflict resolution) 전략에 의해 선택된 하나의 규칙의 실행(then)절에 해당하는 행위를 실행한다. 규칙기반 시스템에서는 룰베이스(rule base)에 저장되는 규칙들로써 에이전트의 지식을 표현하게 되는데 이러한 규칙기반 시스템은 여러 가지 장점을 가진다. 우선 특정 상황에 대처하는 사람들의 행위를 쉽고 명료하게 에이전트의 지식으로 입력할 수 있다. 그리고 지식구조, 추론과정, 규칙 선택과정에 추가적인 기술을 사용함으로써 에이전트의 행위를 보다 복잡화, 다양화할 수 있고 에이전트의 성능을 향상시킬 수 있다.

[실시예]

도 2에서와 같이, 모의훈련 서버(110)에서는 실제 모의훈련을 수행한다. 계획수립기(120)는 상기 모의훈련 서버(110)로부터 발생되는 메시지를 받아 계획을 수정하고 모의훈련 서버(110)에 명령을 내려준다. 또한, 행위에이전트 서버(130)는 계획수립기(120)로 수립된 계획 메시지를 받아 적합한 행위 에이전트를 구성할 수 있게 한다. 또한, 지식전문가 컴퓨터(140)는 지식전문가를 통해 상위하위 계층간 분할이나 행위 수행을 위한 연결강도 등을 설정한다. 행위에이전트(값)는 복합행위(상위계층 태스크)와 단순행위(하위계층 태스크)로 구성되고, 복합행위(상위계층 태스크)는 복합행위(다른 상위계층 태스크) 및 단순행위(하위계층 태스크)의 조합으로 구성될 수 있다.

보다 구체적으로, 도면 3을 참조하여, 목표지향 행위계획 결정방법을 살펴보면, 만약 목표값으로 "점령"이라는 명령어가 주어지면 행위에이전트값, 즉, 선언적 정보에 의해 "이동", "공격"이라는 선언적 정보로 분할될 수 있다. 선언적 정보는 이미 지식전문가에 의해 계층별 사용가능한 탬플릿들을 미리 저장해 놓고 있다가 이에 적합한 탬플릿으로 분할되어 사용되는 것이다. 일례로, 보병 소대 명령(과업; Task)이 "부대이동", "공격", "방어", "철수", "전투보장"으로 선언적으로 정의(설정)되어 있고, 이를 다시 하위계층으로 "집결", "부대이동", "기동", "적과 조우시 조치", "돌파 및 돌격", "목표확보후 행동", "경계 활동", "진지전투", "철수", "수색정찰", "매복"으로 분류될 수 있다. 이러한 분류는 다시 계층적 구조에 따라 분대에게 명령으로 전달되어 진다. 해당 분대는 상위계층(이 경우 소대)에서 받은 명령을 다시 "대공사격", "행군이동", "집결행동", "전술적 이동", "엄호/지원 사격", "돌격"으로 세분화될 수 있다. 만약 "방어"가 상위계층으로부터 명령으로 내려왔다면, 이를 다시 "사격진지 점령", "접적 유지 철수", "위력 수색", "통로 정찰" 등으로 세분화한다. 예를 들어, "사격진지 점령"이라는 명령을 수행하는 규칙은,

규칙 1 : R1(부대 1) 새로운 사격진지까지의 이동은 [전술적 이동]과업으로 수행하라.

규칙 2: 적을 발견시 사격을 실시하고 중대장(통제관)에게 보고하라.

규칙 3: 포탄 낙하시에도 사격진지에서 이탈하지 마라.

로 구성될 수 있으며, 이러한 규칙을 만족할 때 해당 명령을 수행하게 된다.일단, 목표값 즉 최상위 계층 태스크가 하나 이상의 하위계층들로 분할이 되면, 모의훈련 서버로부터 환경 정보를 가져오게 된다. 이 때 최초의 환경 정보는 사람이 인지할 수 있는 정보가 아니고 수치화된 정보이고 이를 퍼지규칙 지식베이스(133)로부터 퍼지 규칙을 받아서 추론한 후 그 결과 값을 비퍼지화 하여 사용한다. 만약 적과의 거리가 100m 이내라는 최초 환경 정보를 가지고 있다면 환경 인식 과정(S30)을 통해 이를 "가깝다", "멀다"로 매핑된다. 이러한 매핑 과정은 전문가가 접근할 때 사람의 인지능력과 연관되어 판단이 용이하기 때문에 필요한 작업이다. 또한, 사람의 기억구조와 유사하게 장기기억과 단기기억으로 구분하여 퍼지규칙 지식베이스가 구축된다.

구축방법: 퍼지규칙을 2단계 구분하여 아래와 같이 세분화할 수 있다.

퍼지규칙 1 집합: 시스템이 종료되고 다시 시작되어도 동일하게 유지되는 규칙(장기기억).

퍼지규칙 2 집합: 시스템이 실행되고 있는 도중에 퍼지집항이 변경되어 사용되는 규칙(단기기억).

환경 인식 과정을 거쳐 행위 수행 가능 여부(S40)를 통해 행위를 수행하게 되는데, 여러 행위 중에 가장 적합한 행위를 선택하게 된다. 만약 "전술적 이동"이라는 행위가 선택이 되어 수행하고 있는 도중에 "적발견" 이나 "피해발생" 이벤트가 입력되는 경우 상태별 활성화 확산 정보(135)를 참조하여 다른 행위를 수행하게 된다. 이때 수행되는 행위들은 이미 연결통로가 연결되어 있는 다른 행위들을 활성화시키게 되기 때문에 하나의 상태노드에서 점화하게 되면 하나의 상태노드만이 떠오르는 것이 아니라 그 노드와 연관되어 있는 다른 노드들도 동시에 후보군이 되는 것이다. 하지만 모든 노들들이 연결되어 있다고 해서 연결된 모든 노드들이 활성화되는 것은 아니다. 활성화 여부는 연결통로의 강도에 따라 다음 노드로 활성화하는 정도가 달라진다. 또한, 연결된 노드가 점화되기 위해서는 활성화의 강도가 어느 수준 이상의 역치를 필요로 하며, 역치에 미치지 못할 경우 노드는 활성화되지 못한다.

일례로 "전술적 이동" 행위를 수행하다가 "적발견"이나 "피해발생"의 이벤트가 발생되면 하위 태스크로서 "우회해서 전술적 이동", "고속으로 전술적 이동", "은폐, 엄폐 대기 후 전술적 이동"을 선택하게 되는데 이러한 상태 전환을 위해 수행하는 행위 선택은 개별 규칙에 의해서도 판단될 수 있지만, 전문가 집단에 의해 이미 상태별 활성화 확산정보DB(135)에 구축되어 있을 수 있다. 전문가 집단은 교리에 맞춰 정의된 행위들을 나열해 놓고 "적발견" 이나 "피해발생"이 발생한 경우 선택할 수 있는 우선순위 대로 활성화 정도를 나열해 놓는다.

이 때, 규칙 간 경쟁관계에 놓일 경우를 대비하여 행위들 간의 연결정보를 별도로 가지고 있어야 한다. 예로써, 규칙 a, b, c가 있는 경우 (a AND b OR c)조건을 만족하는 행위 b1, b2가 존재한다면 이들 중에서 선택 가능한 연결강도는 (s1, s2)가 정의되어 있고 이를 기반으로 행위를 선택하게 된다.

단계 1(s1): 행위간 조건문 검사를 통해 선택 가능한 집합을 검색

단계2(s2): 이러한 집합에서 행위간 연결강도를 조사하여 최종 선택

"적의 위치", "피해발생 범위"에 대한 확산 정도는 전문가 집단을 통해 이미 평가받고 그 수치는 활용빈도에 따라 결정되어 있어야 한다. 전문가 집단은 "적의 위치"가 어느 정도인가에 따라 여러 행위들을 구분하는 것이 가능하며, 행위-지식베이스 간 연결강도를 수치화할 수 있다. 이러한 연결강도는 전문가 집단 다수의 질의응답 방식으로 구축될 수 있다.

적절한 행위 선택 과정에 의해 행위 수행(S50)이 되고 나면 행위 수행의 결과에 따라 경험치를 부여하기 위한 보상 신호를 발생시킨다. 최전방에서 적과 조우하여 빈도가 높은 접전을 가진 부대는 후방에 있는 부대와 달리 적 발견과 대응 측면에서 좀 더 지능적인 판단을 가능하게 하므로 "적발견 가능성", "생존율" 등에 대한 개체별 퍼지 룰베이스 값에 보상치를 보정하여 사용하게 된다. 이는 가상 개체별 퍼지 룰베이스 값을 가지고 있어 시스템 메모리 측면에서는 손해가 있는 단점이 있지만, 환경 인식 과정을 거칠 때 주어진 환경 정보로부터 경험치를 반영한 행위 선택이 가능하게 하는 장점이 있다. 또한, 가상 개체별 경험치를 반영하기 위한 개별 퍼지 룰베이스와 공통 퍼지 룰베이스로 구축하여 사용할 수 있다.

예를 들어, 최초에 정의된 퍼지집합 A에 대해 a=[a1, a2, a3, a4], a ∈ A로 정의된 집합이 있다면, 보상과정을 통하게 되면 a=[a1-r, a2, a3, a4+r]로 될 수 있다. 여기서, r :보상수치이며, -1 < r < 1 을 만족한다.

보상은 행위 수행 과정에서 기대되는 효과가 의미가 있는 경우에 따라 가감이 된다. 퍼지 변경자(교집합, 합집합, 여집합등)에 대해서도 동일한 관계로 적용할 수가 있다.

보상 단계 이후 현재 선택된 태스크가 종료되지 않았다면 환경 인식 단계로 가서 추가적인 행위를 선택하게 되는 과정을 거치거나 다음 태스크를 선택하게 된다(S70). 다음 태스크로의 진입은 설정된 시간, 목표지점에 의해 결정되며 설정된 시간이 완료되지 않는 경우는 지정된 시간까지 경계태세를 취하며 머물게 된다.

이에 따라, 본 발명이 이루고자 하는 기술적 과제는 계층적 태스크 네트워크로 이루어진 환경에서 목표지향 행위계획을 결정하기 위한 방법을 제공할 수 있다. 다시말해, 본 발명은 예측 불가능성을 극복하고 적응하는 시스템을 만들기 위한 반응 시스템에 적용할 수 있다.

이상, 본 발명에 대하여 도면과 실시예를 가지고 설명하였으나, 본 발명은 특정 실시예에 한정되지 않으며, 이 기술분야에서 통상의 지식을 가진 자라면 본 발명의 범위에서 벗어나지 않으면서 많은 수정과 변형이 가능함을 이해할 것이다. 또한, 상기 도면은 발명의 이해를 돕기 위해 도시된 것으로서, 청구범위를 한정하도록 이해해서는 아니될 것이다.

10, 110 : 모의훈련 서버 20, 120 : 계획 수립기
30, 140 : 지식 전문가 컴퓨터 140 : 행위에이전트 서버

Claims

워게임을 시뮬레이션하고, 시뮬레이션 결과분석이 가능한 모의훈련 서버;
상기 모의훈련 서버에 연결되어, 상기 시뮬레이션에 따라 발생되는 시뮬레이션값을 입력받고, 상기 모의훈련 서버에 상기 워게임의 서로 대립되는 제1 가상군 및 제2 가상군에 대한 각각의 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 입력가능한 계획수립기;
상기 계획수립기에 연결되어 상기 목표값에 따라 상위계층 태스크와 하위계층 태스크의 계층적 태스크로 구성된 행위에이전트값을 제공하는 행위에이전트 서버;
상기 계획수립기에 접속되어 부대 구조, 부대별 기능, 개체별 기능, 목표값 및 행위에이전트값을 설정가능한 지식전문가 컴퓨터;
를 포함하며,
상기 행위에이전트 서버는,
상기 시뮬레이션값 중 환경정보의 수치화된 퍼지정보에 대해 설정된 퍼지규칙에 따라 언어화된 비퍼지 정보를 제공하는 퍼지규칙 지식DB; 및,
상기 시뮬레이션값 중 이벤트발생정보에 따라 대응하여 변경가능한 행위정보를 제공하는 상태별 활성화 확산정보DB를 더 포함하며,
상기 모의훈련 서버는, 상기 행위에이전트값을 통해 부대 또는 개체의 하위계층 태스크를 결정하고, 상기 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하며, 상기 부대 또는 개체가 인식된 환경에서 상기 행위정보를 참조하여 행위수행여부를 판단하되, 행위수행 조건을 만족하는 경우 행위를 수행하고, 행위수행 조건을 만족하지 못하는 경우 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것을 특징으로 하는 목표지향 행위계획 결정이 가능한 모의훈련 시스템.
삭제
제 1 항에 있어서,
상기 모의훈련 서버는,
상기 행위수행 조건을 만족하는 경우 행위를 수행한 후, 행위결과에 따라 경험치를 부여하기 위한 보상신호를 발생하여, 발생된 보상신호를 통해 상기 퍼지규칙 지식DB의 퍼지규칙을 설정변경하며, 또한, 해당 하위계층 태스크의 종료여부를 판단하여 종료되는 경우 설정된 다른 하위계층 태스크를 결정하고, 종료가 아닌 경우 해당 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 것을 특징으로 하는 목표지향 행위계획 결정이 가능한 모의훈련 시스템.
제 1 항에 있어서,
상기 퍼지규칙 지식DB의 상기 퍼지규칙은,
시스템이 종료되고 다시 시작되어도 동일하게 유지되는 장기기억 퍼지규칙과,
시스템이 실행되는 동안만 유지되며, 시스템이 실행되고 있는 도중에 설정변경되는 단기기억 퍼지규칙을 포함하는 것을 특징으로 하는 목표지향 행위계획 결정이 가능한 모의훈련 시스템.
제 1 항에 있어서,
상기 상태별 활성화 확산정보DB의 행위정보는 설정된 행위들간 수치화된 연결강도 정보를 포함하며,
상기 모의훈련 서버에서, 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것은, 행위정보 중 수치화된 연결강도 정보가 가장 높은 하위계층 태스크를 결정하는 것을 특징으로 하는 목표지향 행위계획 결정이 가능한 모의훈련 시스템.
모의훈련 시스템의 목표지향 행위계획 결정방법으로서,
상기 모의훈련 서버에서 워게임 시뮬레이션시 부대 또는 개체의 임무수행을 위한 목표값을 입력받는 제1 단계;
상기 모의훈련 서버에서 행위에이전트 서버로부터 상위계층 태스크와 하위 계층태스크의 계층적 태스크로 구성된 행위에이전트값을 이용하여 부대 또는 개체의 하위 계층 태스크를 결정하는 제2 단계;
상기 모의훈련 서버에서 상기 하위 계층 태스크와 상기 행위에이전트 서버의 퍼지규칙 지식DB의 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 제3 단계;
상기 모의훈련 서버에서 상기 부대 또는 개체가 인식된 환경에 대해 상기 행위에이전트 서버의 상태별 활성화 확산정보DB의 행위정보를 참조하여 행위수행 여부를 판단하는 제4 단계;
상기 제4 단계에서, 행위수행 여부를 판단시, 행위수행 조건을 만족하는 경우 행위를 수행하는 제5 단계를 포함하되;
상기 모의훈련 서버는 제4 단계에서, 행위수행 여부를 판단시, 행위수행 조건을 만족하지 못하는 경우 상기 제2 단계로 이동하여 다른 하위 계층 태스크를 결정하는 것을 특징으로 하는 모의훈련 시스템의 목표지향 행위계획 결정방법.
제 6 항에 있어서,
상기 모의훈련 서버는, 제5 단계에서 상기 행위를 수행한 후, 행위결과에 따라 경험치를 부여하기 위한 보상신호를 발생하여, 발생된 보상신호를 통해 상기 퍼지규칙 지식DB의 퍼지규칙을 설정변경하는 제6 단계; 및,
상기 제6 단계에서 해당 하위계층 태스크의 종료여부를 판단하는 제7 단계를 더 포함하되;
상기 모의훈련 서버는 제6 단계에서 해당 하위계층 태스크가 종료인 경우 제2 단계로 이동하여 설정된 다른 하위계층 태스크를 결정하고, 종료가 아닌 경우 제3 단계로 이동하여 상기 해당 하위계층 태스크와 비퍼지 정보를 통해 상기 부대 또는 개체의 주어진 환경을 인식하는 것을 특징으로 하는 모의훈련 시스템의 목표지향 행위계획 결정방법.
제 6 항에 있어서,
상기 퍼지규칙 지식DB의 상기 퍼지규칙은,
시스템이 종료되고 다시 시작되어도 동일하게 유지되는 장기기억 퍼지규칙과,
시스템이 실행되는 동안만 유지되며, 시스템이 실행되고 있는 도중에 설정변경되는 단기기억 퍼지규칙을 포함하는 것을 특징으로 하는 모의훈련 시스템의 목표지향 행위계획 결정방법.
제 6 항에 있어서,
상기 상태별 활성화 확산정보DB의 행위정보는 설정된 행위들간 수치화된 연결강도 정보를 포함하되,
상기 제2 단계에서, 모의훈련 서버가 상기 행위정보에 의해 다른 하위계층 태스크를 결정하는 것은, 행위정보 중 수치화된 연결강도 정보가 가장 높은 하위계층 태스크를 결정하는 것을 특징으로 하는 모의훈련 시스템의 목표지향 행위계획 결정방법.