KR102257090B1

KR102257090B1 - 강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계

Info

Publication number: KR102257090B1
Application number: KR1020190125300A
Authority: KR
Inventors: 이승용; 오명섭; 이상만
Original assignee: (주) 심네트
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2021-05-27
Also published as: KR20210042577A; KR102257090B9

Abstract

본 발명은 강화학습이 적용된 “시뮬레이션 기반 조직단위 비상대비 훈련기술 시뮬레이션”내에 적용 가능한 피해복구 에이전트 및 방법에 관한 것으로, 보다 구체적으로는 강화학습 기반의 AI가 적용된 피해복구 시스템 시뮬레이션을 적용한 “시뮬레이션 기반 조직단위 비상대비 훈련기술” 체계를 설계 및 구현하기 위한 AI 통제수준이 적용된 피해복구 에이전트 및 그 방법에 관한 것이다.
이를 위해 시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 피해복구 에이전트가 PBC(지각된 행동통제) 모드의 우선순위 알고리즘에 의해 자동 피해복구 시뮬레이션이 되도록 조정/통제하는 패해복구 에이전트 시스템을 제안하는 것에 그 특징이 있다.

Description

강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 PBC 모드 우선순위 테이블 설계 {The design of PBC mode Priority tabel of Recovery Agent simulation based on Reinforcement Learning }

본 발명은 강화학습이 적용된 “시뮬레이션 기반 조직단위 비상대비 훈련기술 시뮬레이션”내에 적용 가능한 피해복구 에이전트 및 방법에 관한 것으로, 보다 구체적으로는 강화학습 기반의 AI가 적용된 피해복구 시스템 시뮬레이션을 적용한 “시뮬레이션 기반 조직단위 비상대비 훈련기술” 체계를 설계 및 구현하기 위한 AI 통제수준이 적용된 피해복구 에이전트 시뮬레이션의 PBC 모드 우선순위 테이블 설계 및 그 방법에 관한 것이다.

배경 기술로서 대한민국 특허출원 출원번호 제10-2017-0093256호 “강화학습 기반 CCTV용 차량번호 인식방법(A reinforcement learning based vehicle number recognition method for CCTV)”는 차량 번호판을 촬영한 영상 데이터에서 검출된 경계선 및 edge내 문자들을 분할 및 인식하여 인공지능 학습 방식인 강화학습 및 기울기 보정을 통해 차량 번호판 문자들을 정확하게 식별함으로써, 차량번호 인식률을 향상시킬 수 있는 강화학습기반 CCTV용 차량번호 인식방법에 관한 것이다.

아울러, 대한민국 특허출원 출원번호 제10-2019-0096272호 “사용자의 행동 패턴에 기반한 AI 장치와 디바이스를 연계하는 방법 및 이를 위한 장치(A METHOD FOR ASSOCIATING AN AI DEVICE WITH A DEVICE BASED ON A BEHAVIOR PATTERN OF A USER AND AN APPARATUS THEREFOR)”는 카메라에 의해 감지된 상기 사용자의 기 설정된 행동 패턴을 상기 카메라로부터 수신하고, 상기 사용자로부터 디바이스의 동작제어를 위한 음성 명령어를 수신하고, 상기 디바이스로 음성명령을 전송하여, AI 기능이 없는 디바이스들도 AI 기기와 연동하여 사용할 수 있도록 하는 기술에 관한 것이다.

그러나, 상기 소개된 관련 기술들은 AI 또는 AI 학습 중 강화학습을 이용하고 있으나, AI 기능에 의한 학습이 단순목적의 강화학습을 취할뿐 관리자(인간 또는 게임어 등)가 결과를 통제하는 과정에 대한 규칙 등을 수용할 수 없는 한계점이 있다.

대한민국 특허출원 출원번호 제10-2017-0093256호 “강화학습 기반 CCTV용 차량번호인식방법(A reinforcement learning based vehicle number recognition method for CCTV)” 대한민국 특허출원 출원번호 제10-2019-0096272호 “사용자의 행동 패턴에 기반한 AI 장치와 디바이스를 연계하는 방법 및 이를 위한 장치(A METHOD FOR ASSOCIATING AN AI DEVICE WITH A DEVICE BASED ON A BEHAVIOR PATTERN OF A USER AND AN APPARATUS THEREFOR)”

(문헌 1) 양승룡, 권판검, 양정선 장경선, 제4차 산업혁명을 고려한 함정무기체계 발전방향에 관한 소고-지휘관의 술(Art) 구체화를 위한 인공지능기술의 함정전투체계 적용을 중심으로-(2017.12월호 국방과 기술 제466호 92 ~ 101페이지) (문헌 2) 권판검, 장경선, 인공지능 기술의 군사적 사용 시 발생 가능한 위험을 최소화하기 위한 이론에 관한 소고-강화학습의 함정전투체계 적용을 위한 이론적 고찰을 중심으로-(2019.6월호 국방과 기술 제484호 100 ~ 107페이지)

본 발명은 시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 자동 시뮬레이션 되도록 시뮬레이션 결과를 조정/통제하기 위한 긴급복구 에이전트의 PBC 모드 우선순위 테이블 설계 방법을 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위해 본 발명에서 강화학습이 적용된 피해복구 에이전트 시스템은 복구시간 및 복구자원을 고려한 복구임무를 인식하고 주어진 환경(environment)에 따라 활동하는 자율적인 존재로 학습을 하는 주체로 보상(reward)을 통해 학습하는 에이전트를 포함하는 강화학습이 적용된 피해복구 에이전트로 설계되었다.

상기 에이전트는 강화학습 진행 중에 상기 기존 AI 모드에서 학습을 함에도 원하는 기대결과가 나오지 아니하는 경우 PBC(Perceived Behavioral Control 지각된 행동통제) 모드를 추가하여 피해복구 에이전트의 학습수준을 정의하고 그 수준에 따른 설계방향을 제시하는 것을 특징으로 한다.

본 발명은 시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 자동 시뮬레이션 되도록 시뮬레이션 결과를 조정/통제하는 방법을 제공함으로써 정부연습모델 게임어 부족에 따른 연습진행상 과도한 시간지연을 해소하고, PBC(지각된 행동통제) 모드에 따른 우선순위에 따라 시뮬레이션을 효과적으로 수행하는데 이바지 한다.

도 1은 PBC 모드 우선순위 통제에 따른 강화학습을 위한 AI 에이전트 단면도
도 2는 PBC 모드 우선순위 테이블 설계도

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.

도 1은 기존연구에서 발표된 강화학습을 위한 AI 에이전트를 참조하여 본 발명에서 제기한 PBC(Perceived Behavioral Control 지각된 행동통제) 모듈 우선순위 통제에 따른 AI 에이전트 단면도를 나타낸다. 도 2는 발명의 핵심 연구내용인 PBC(Perceived Behavioral Control 지각된 행동통제) 모드의 우선순위 통제를 위한 세부 우선순위 테이블을 정의한 것이다.

먼저, 도 1은 비특허문헌 문헌2의 연구에서와 같이 기존 강화학습(RL) 모델을 수정하여 제시한 것으로 에이전트(100)는 센서를 통해 환경(200)을 인식(State St)하고 PBC 모드(300)를 통해 제약조건(Constraint) 하에서 특정 행동(Action At)을 수행한다. 기존 RL(강화학습) 개념과 같이 Exploartion과 Exploitation 과정을 통해 최적의 정책(policy)을 구체화 한다. 해당 PBC 모듈의 모드로 학습을 했음에도 불구하고 요구되는 효과가 나오지 아니할 경우 모드를 1단계 상향 권고한다. 이러한 개념을 의사코드로 나타내면 다음과 같다.

“Initialize Q(S,A),arbitrarily

Repeat(for each episode):

Initialize S

Select a given PBC mode

If a result is not satisfied with a value:

take PBC mode + 1

Repeat(for each step of episode):

Take action a, observe r, s’

Choose A’ from S’ using policy derived from Q

Q(S, A) ← Q(S, A) + a[r +

Q(S’,A’) - Q(S,A)]

S ← S’, A ← A’;

until S is terminal”

도 2는 PBC 모드 우선순위 테이블 설계도를 나타낸 것으로 모드 0은 현재의 단순 시뮬레이션 체계를 의미하며, 모드가 높아질수록 개입수준이 높아진다. 모드 0은 게임어 단독 모드이며, 모드1은 게임어 보조, 모드 2는 부분 자동화 모드, 모드 3은 조건부 자동화 모드, 모드 4는 고차원 자동화 모드, 모드 5는 완전 자동화 모드를 나타내며 각 모드별 환경 모니터링 및 에이전트 능력4, 복구조건을 나타낸다. 제약조건은 피해복구를 위한 법률 규정 및 상급부서의 지침이며, 이 제약조건을 해제하거나 수정하기 위해서는 제시된 모드별 제약조건에 의해 수정 가능하도록 제시하였다.

Claims

시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 피해복구 에이전트가 PBC(지각된 행동통제) 모드의 우선순위 알고리즘에 의해 자동 피해복구 시뮬레이션이 되도록 조정/통제하는 피해복구 에이전트 시스템