KR102257090B1 - 강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계 - Google Patents

강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계 Download PDF

Info

Publication number
KR102257090B1
KR102257090B1 KR1020190125300A KR20190125300A KR102257090B1 KR 102257090 B1 KR102257090 B1 KR 102257090B1 KR 1020190125300 A KR1020190125300 A KR 1020190125300A KR 20190125300 A KR20190125300 A KR 20190125300A KR 102257090 B1 KR102257090 B1 KR 102257090B1
Authority
KR
South Korea
Prior art keywords
simulation
recovery agent
reinforcement learning
damage recovery
mode
Prior art date
Application number
KR1020190125300A
Other languages
English (en)
Other versions
KR20210042577A (ko
KR102257090B9 (ko
Inventor
이승용
오명섭
이상만
Original Assignee
(주) 심네트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 심네트 filed Critical (주) 심네트
Priority to KR1020190125300A priority Critical patent/KR102257090B1/ko
Publication of KR20210042577A publication Critical patent/KR20210042577A/ko
Application granted granted Critical
Publication of KR102257090B1 publication Critical patent/KR102257090B1/ko
Publication of KR102257090B9 publication Critical patent/KR102257090B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B9/00Simulators for teaching or training purposes
    • G09B9/003Simulators for teaching or training purposes for military purposes and tactics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Educational Technology (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 강화학습이 적용된 “시뮬레이션 기반 조직단위 비상대비 훈련기술 시뮬레이션”내에 적용 가능한 피해복구 에이전트 및 방법에 관한 것으로, 보다 구체적으로는 강화학습 기반의 AI가 적용된 피해복구 시스템 시뮬레이션을 적용한 “시뮬레이션 기반 조직단위 비상대비 훈련기술” 체계를 설계 및 구현하기 위한 AI 통제수준이 적용된 피해복구 에이전트 및 그 방법에 관한 것이다.
이를 위해 시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 피해복구 에이전트가 PBC(지각된 행동통제) 모드의 우선순위 알고리즘에 의해 자동 피해복구 시뮬레이션이 되도록 조정/통제하는 패해복구 에이전트 시스템을 제안하는 것에 그 특징이 있다.

Description

강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 PBC 모드 우선순위 테이블 설계 {The design of PBC mode Priority tabel of Recovery Agent simulation based on Reinforcement Learning }
본 발명은 강화학습이 적용된 “시뮬레이션 기반 조직단위 비상대비 훈련기술 시뮬레이션”내에 적용 가능한 피해복구 에이전트 및 방법에 관한 것으로, 보다 구체적으로는 강화학습 기반의 AI가 적용된 피해복구 시스템 시뮬레이션을 적용한 “시뮬레이션 기반 조직단위 비상대비 훈련기술” 체계를 설계 및 구현하기 위한 AI 통제수준이 적용된 피해복구 에이전트 시뮬레이션의 PBC 모드 우선순위 테이블 설계 및 그 방법에 관한 것이다.
배경 기술로서 대한민국 특허출원 출원번호 제10-2017-0093256호 “강화학습 기반 CCTV용 차량번호 인식방법(A reinforcement learning based vehicle number recognition method for CCTV)”는 차량 번호판을 촬영한 영상 데이터에서 검출된 경계선 및 edge내 문자들을 분할 및 인식하여 인공지능 학습 방식인 강화학습 및 기울기 보정을 통해 차량 번호판 문자들을 정확하게 식별함으로써, 차량번호 인식률을 향상시킬 수 있는 강화학습기반 CCTV용 차량번호 인식방법에 관한 것이다.
아울러, 대한민국 특허출원 출원번호 제10-2019-0096272호 “사용자의 행동 패턴에 기반한 AI 장치와 디바이스를 연계하는 방법 및 이를 위한 장치(A METHOD FOR ASSOCIATING AN AI DEVICE WITH A DEVICE BASED ON A BEHAVIOR PATTERN OF A USER AND AN APPARATUS THEREFOR)”는 카메라에 의해 감지된 상기 사용자의 기 설정된 행동 패턴을 상기 카메라로부터 수신하고, 상기 사용자로부터 디바이스의 동작제어를 위한 음성 명령어를 수신하고, 상기 디바이스로 음성명령을 전송하여, AI 기능이 없는 디바이스들도 AI 기기와 연동하여 사용할 수 있도록 하는 기술에 관한 것이다.
그러나, 상기 소개된 관련 기술들은 AI 또는 AI 학습 중 강화학습을 이용하고 있으나, AI 기능에 의한 학습이 단순목적의 강화학습을 취할뿐 관리자(인간 또는 게임어 등)가 결과를 통제하는 과정에 대한 규칙 등을 수용할 수 없는 한계점이 있다.
대한민국 특허출원 출원번호 제10-2017-0093256호 “강화학습 기반 CCTV용 차량번호인식방법(A reinforcement learning based vehicle number recognition method for CCTV)” 대한민국 특허출원 출원번호 제10-2019-0096272호 “사용자의 행동 패턴에 기반한 AI 장치와 디바이스를 연계하는 방법 및 이를 위한 장치(A METHOD FOR ASSOCIATING AN AI DEVICE WITH A DEVICE BASED ON A BEHAVIOR PATTERN OF A USER AND AN APPARATUS THEREFOR)”
(문헌 1) 양승룡, 권판검, 양정선 장경선, 제4차 산업혁명을 고려한 함정무기체계 발전방향에 관한 소고-지휘관의 술(Art) 구체화를 위한 인공지능기술의 함정전투체계 적용을 중심으로-(2017.12월호 국방과 기술 제466호 92 ~ 101페이지) (문헌 2) 권판검, 장경선, 인공지능 기술의 군사적 사용 시 발생 가능한 위험을 최소화하기 위한 이론에 관한 소고-강화학습의 함정전투체계 적용을 위한 이론적 고찰을 중심으로-(2019.6월호 국방과 기술 제484호 100 ~ 107페이지)
본 발명은 시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 자동 시뮬레이션 되도록 시뮬레이션 결과를 조정/통제하기 위한 긴급복구 에이전트의 PBC 모드 우선순위 테이블 설계 방법을 제공하는데 그 목적이 있다.
상기의 목적을 달성하기 위해 본 발명에서 강화학습이 적용된 피해복구 에이전트 시스템은 복구시간 및 복구자원을 고려한 복구임무를 인식하고 주어진 환경(environment)에 따라 활동하는 자율적인 존재로 학습을 하는 주체로 보상(reward)을 통해 학습하는 에이전트를 포함하는 강화학습이 적용된 피해복구 에이전트로 설계되었다.
상기 에이전트는 강화학습 진행 중에 상기 기존 AI 모드에서 학습을 함에도 원하는 기대결과가 나오지 아니하는 경우 PBC(Perceived Behavioral Control 지각된 행동통제) 모드를 추가하여 피해복구 에이전트의 학습수준을 정의하고 그 수준에 따른 설계방향을 제시하는 것을 특징으로 한다.
본 발명은 시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 자동 시뮬레이션 되도록 시뮬레이션 결과를 조정/통제하는 방법을 제공함으로써 정부연습모델 게임어 부족에 따른 연습진행상 과도한 시간지연을 해소하고, PBC(지각된 행동통제) 모드에 따른 우선순위에 따라 시뮬레이션을 효과적으로 수행하는데 이바지 한다.
도 1은 PBC 모드 우선순위 통제에 따른 강화학습을 위한 AI 에이전트 단면도
도 2는 PBC 모드 우선순위 테이블 설계도
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.
도 1은 기존연구에서 발표된 강화학습을 위한 AI 에이전트를 참조하여 본 발명에서 제기한 PBC(Perceived Behavioral Control 지각된 행동통제) 모듈 우선순위 통제에 따른 AI 에이전트 단면도를 나타낸다. 도 2는 발명의 핵심 연구내용인 PBC(Perceived Behavioral Control 지각된 행동통제) 모드의 우선순위 통제를 위한 세부 우선순위 테이블을 정의한 것이다.
먼저, 도 1은 비특허문헌 문헌2의 연구에서와 같이 기존 강화학습(RL) 모델을 수정하여 제시한 것으로 에이전트(100)는 센서를 통해 환경(200)을 인식(State St)하고 PBC 모드(300)를 통해 제약조건(Constraint) 하에서 특정 행동(Action At)을 수행한다. 기존 RL(강화학습) 개념과 같이 Exploartion과 Exploitation 과정을 통해 최적의 정책(policy)을 구체화 한다. 해당 PBC 모듈의 모드로 학습을 했음에도 불구하고 요구되는 효과가 나오지 아니할 경우 모드를 1단계 상향 권고한다. 이러한 개념을 의사코드로 나타내면 다음과 같다.
“Initialize Q(S,A),arbitrarily
Repeat(for each episode):
Initialize S
Select a given PBC mode
If a result is not satisfied with a value:
take PBC mode + 1
Repeat(for each step of episode):
Take action a, observe r, s’
Choose A’ from S’ using policy derived from Q
Q(S, A) ← Q(S, A) + a[r +
Figure 112019103206208-pat00001
Q(S’,A’) - Q(S,A)]
S ← S’, A ← A’;
until S is terminal”
도 2는 PBC 모드 우선순위 테이블 설계도를 나타낸 것으로 모드 0은 현재의 단순 시뮬레이션 체계를 의미하며, 모드가 높아질수록 개입수준이 높아진다. 모드 0은 게임어 단독 모드이며, 모드1은 게임어 보조, 모드 2는 부분 자동화 모드, 모드 3은 조건부 자동화 모드, 모드 4는 고차원 자동화 모드, 모드 5는 완전 자동화 모드를 나타내며 각 모드별 환경 모니터링 및 에이전트 능력4, 복구조건을 나타낸다. 제약조건은 피해복구를 위한 법률 규정 및 상급부서의 지침이며, 이 제약조건을 해제하거나 수정하기 위해서는 제시된 모드별 제약조건에 의해 수정 가능하도록 제시하였다.

Claims (1)

  1. 시뮬레이션 기반 조직단위 비상대비 훈련기술 개발 사업간 피해복구 모의 설계시 모델 운용자의 과도한 시간지연 및 오류 발생에 대비하여 긴급복구 에이전트 관리도구가 군사상황과 연계된 시뮬레이션 상황을 강화학습을 통한 AI를 적용해 피해복구 에이전트가 PBC(지각된 행동통제) 모드의 우선순위 알고리즘에 의해 자동 피해복구 시뮬레이션이 되도록 조정/통제하는 피해복구 에이전트 시스템
KR1020190125300A 2019-10-10 2019-10-10 강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계 KR102257090B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190125300A KR102257090B1 (ko) 2019-10-10 2019-10-10 강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190125300A KR102257090B1 (ko) 2019-10-10 2019-10-10 강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계

Publications (3)

Publication Number Publication Date
KR20210042577A KR20210042577A (ko) 2021-04-20
KR102257090B1 true KR102257090B1 (ko) 2021-05-27
KR102257090B9 KR102257090B9 (ko) 2022-01-17

Family

ID=75743091

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190125300A KR102257090B1 (ko) 2019-10-10 2019-10-10 강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계

Country Status (1)

Country Link
KR (1) KR102257090B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101139259B1 (ko) 2011-10-20 2012-05-14 국방과학연구소 전구급, 임무급 또는 교전급 시뮬레이션을 위한 heap 기반 다중 에이전트 시스템
KR101299137B1 (ko) 2012-12-27 2013-08-22 국방과학연구소 지휘통제 모델 제작 및 검증시스템 및 이의 운용방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101028814B1 (ko) * 2007-02-08 2011-04-12 삼성전자주식회사 소프트웨어 로봇 장치와 그 장치에서 소프트웨어 로봇의행동 발현 방법
KR101264874B1 (ko) * 2011-05-20 2013-05-15 주식회사 가나테크 증강현실을 이용한 학습 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101139259B1 (ko) 2011-10-20 2012-05-14 국방과학연구소 전구급, 임무급 또는 교전급 시뮬레이션을 위한 heap 기반 다중 에이전트 시스템
KR101299137B1 (ko) 2012-12-27 2013-08-22 국방과학연구소 지휘통제 모델 제작 및 검증시스템 및 이의 운용방법

Also Published As

Publication number Publication date
KR20210042577A (ko) 2021-04-20
KR102257090B9 (ko) 2022-01-17

Similar Documents

Publication Publication Date Title
US11429854B2 (en) Method and device for a computerized mechanical device
KR102422729B1 (ko) 학습 데이터 증강 정책
DE112017002604T5 (de) Systeme und Verfahren für das maschinelle Lernen unter Verwendung eines vertrauenswürdigen Modells
US20190266731A1 (en) Image segmentation method and device
JP2020525688A5 (ko)
US10384809B2 (en) Method and apparatus for comparing satellite attitude control performances
WO2020180014A3 (ko) 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
JP2016532953A5 (ko)
CN111507159B (zh) 提供自动驾驶安全性的方法和装置
KR102239186B1 (ko) 인공지능 기반 로봇 매니퓰레이터의 자동 제어 시스템 및 방법
KR101990418B1 (ko) 로봇의 제어 데이터 세트를 생성하는 시스템
CN105857295A (zh) 一种最高车速限制可调的发动机控制方法和装置
JPWO2018198233A1 (ja) 学習装置、画像認識装置、学習方法及びプログラム
KR102338768B1 (ko) 기능적 안전성을 위해 극한 상황에서 폴트 톨러런스 및 플럭츄에이션 로버스트를 향상시키도록 테스트 패턴을 이용해 cnn의 파라미터의 무결성을 검증하기 위한 방법 및 장치
KR102257090B1 (ko) 강화학습 기술을 적용한 피해복구 에이전트 시뮬레이션 pbc 모드 우선순위 테이블 설계
CN111340241A (zh) 一种数据处理方法、系统及装置
CN106161976B (zh) 用于安防监控领域的自动光圈控制方法及装置
JP2019530502A5 (ko)
EP3301651A3 (en) In-editor spritesheeting
CN109360436A (zh) 一种视频生成方法、终端及存储介质
CN110298449B (zh) 计算机进行通用学习的方法、装置和计算机可读存储介质
JP6205221B2 (ja) 印刷制御装置、及び、プログラム
Book et al. Facilitating collaboration in high-performance computing projects with an interaction room
WO2023225999A9 (en) Method and apparatus for certifying defense against image transformation
KR102502195B1 (ko) 사용자 정의 제스처 모델을 이용한 가상훈련 콘텐츠의 동작 방법 및 시스템

Legal Events

Date Code Title Description
G170 Publication of correction