WO2024091059A1

WO2024091059A1 - 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법

Info

Publication number: WO2024091059A1
Application number: PCT/KR2023/016856
Authority: WO
Inventors: 배두환; 신용준; 신동환
Original assignee: 한국과학기술원
Priority date: 2022-10-27
Filing date: 2023-10-27
Publication date: 2024-05-02

Abstract

효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법이 개시된다. 가상 환경 모델 생성 방법은, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계를 포함할 수 있다.

Description

효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법

아래의 설명은 소량의 FOT(Field Operational Test) 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식에 관한 것이다.

CPS(Cyber-Physical Systems)는 물리적 구성 요소와 소프트웨어 구성 요소를 모두 활용하여 런타임 시 물리적 액추에이터를 지속적으로 수집, 분석 및 제어한다.

CPS는 자율주행차, 로봇, 스마트 공장, 의료 기기와 같은 많은 응용 분야에서 활발히 연구되고 있다.

CPS 개발의 본질적인 문제 중 하나는 개발 중인 CPS가 목표를 어느 정도 달성할 수 있는지 검증하는 것이다.

이에 답하기 위해 개발자는 운영 환경(예를 들어, 고속도로)에 CPS(예를 들어, 자율 차량)를 배치하고 FOT(Field Operational Test)에서 수집된 로그를 사용하여 CPS의 목표 달성(예를 들어, 차선 유지)을 확인할 수 있다.

그러나, FOT를 수행하는 것은 비용이 많이 들고 시간이 많이 걸리며 심지어 위험하기까지 하다. 특히, 검증 결과에서 특정 수준의 통계적 유의성을 달성하기 위해 수백 번 반복해야 하는 경우에는 더욱 그러하다.

대안은 CPS의 소프트웨어 컨트롤러가 가상 환경 모델로 시뮬레이션되는 시뮬레이션 기반 접근 방식이라 할 수 있다.

일례로, 한국 공개특허 제10-2014-0098602호(공개일 2014년 08월 08일)에는 물리적인 요소와 계산적인 요소의 특성을 모두 갖는 가상-물리 시스템(CPS)과 같은 하이브리드 시스템(Hybrid system)을 구성하는 서브시스템(Subsystem)을 모델링한 서브시스템 모델들에 대해 다수의 분산 시뮬레이터들을 이용하여 분산 시뮬레이션을 수행하는 기술이 개시되어 있다.

시뮬레이션 기반 접근 방식이 FOT를 사용하는 것에 비해 CPS 목표 검증의 비용과 위험을 줄일 수 있지만 깊은 도메인 지식을 기반으로 고도로 만들어진 가상 환경 모델이 필요하다.

소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식으로 환경 모델 생성 문제를 공식적으로 정의하고 모방 학습(Imitation Learning) 알고리즘을 사용하여 해결할 수 있다.

효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법 컴퓨터 장치에서 수행되는 가상 환경 모델 생성 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 가상 환경 모델 생성 방법은, 상기 적어도 하나의 프로세서의 의해, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계를 포함하는 가상 환경 모델 생성 방법을 제공한다.

일 측면에 따르면, 상기 생성하는 단계는, BC(Behavior Cloning) 알고리즘, GAIL(Generative Adversarial Imitation Learning), 상기 BC 알고리즘과 상기 GAIL 알고리즘이 결합된 알고리즘 중 어느 하나의 모방 학습 알고리즘을 사용하여 상기 가상 환경 모델을 생성할 수 있다.

다른 측면에 따르면, 상기 생성하는 단계는, CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터로서 상기 CPS 컨트롤러의 FOT 로그를 수집하는 단계; 상기 FOT 로그를 이용한 모방 학습을 통해 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계; 및 상기 환경 모델을 이용한 시뮬레이션을 통해 상기 CPS 목표 검증을 수행하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 환경 상태 집합, CPS 행동 집합, CPS의 소프트웨어 컨트롤러를 캡처하는 정책 함수, 및 CPS 행동과 이전 상태의 결과로 시간 경과에 따른 환경 상태의 전환을 캡처하는 전환 함수를 포함하는 상호 작용 모델을 기반으로 상기 환경 모델을 생성할 수 있다.

또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 환경 상태 전환 함수 기반의 모델 구조로서 현재 환경 상태와 현재 CPS 행동이 입력 계층으로 구성되고 다음 환경 상태가 출력 계층으로 구성되고 입력 변수에서 출력 변수를 계산하는 방법이 은닉 계층으로 구성되는 모델 구조로 상기 환경 모델을 생성할 수 있다.

또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 이력 길이의 슬라이딩 윈도우를 사용하여 상기 FOT 로그에서 훈련 데이터를 생성하는 단계; 및 상기 훈련 데이터를 이용한 모방 학습을 통해 상기 환경 모델을 학습하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델을 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 손실을 계산하고 상기 손실을 사용하여 상기 환경 모델을 업데이트할 수 있다.

또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터와 시뮬레이션 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기(discriminator)를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 손실을 계산하고 상기 손실을 사용하여 상기 판별기를 업데이트하고 상기 업데이트된 판별기와 상기 시뮬레이션 데이터를 사용하여 상기 환경 모델을 업데이트할 수 있다.

또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 제1 손실을 계산하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 제2 손실을 계산하고 상기 제1 손실과 상기 제2 손실을 사용하여 상기 환경 모델을 업데이트할 수 있다.

또 다른 측면에 따르면, 상기 CPS 목표 검증을 수행하는 단계는, 상기 환경 모델을 이용한 시뮬레이션을 통해 통계 검증에 필요한 만큼 시뮬레이션 로그를 생성하여 CPS 요구 사항에 대한 충족 결과를 통계적으로 확인할 수 있다.

가상 환경 모델 생성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서, 상기 가상 환경 모델 생성 방법은, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.

컴퓨터로 구현되는 가상 환경 모델 생성 장치에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 과정을 처리하는 가상 환경 모델 생성 장치를 제공한다.

본 발명의 실시예들에 따르면, 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식으로 환경 모델 생성 문제를 공식적으로 정의하고 모방 학습 알고리즘을 사용하여 해결함으로써 시뮬레이션을 통해 저렴한 비용으로 CPS 목표 검증을 위한 정확한 가상 환경 모델을 생성할 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다.

도 2는 본 발명의 일실시예에 있어서 CPS 목표 확인을 위한 프레임워크를 도시한 것이다.

도 3은 본 발명의 일실시예에 있어서 환경 모델 생성 및 시뮬레이션 기반 CPS 목표 검증 프로세스의 개요를 도시한 것이다.

도 4는 본 발명의 일실시예에 있어서 환경 모델 구조 예시를 도시한 것이다.

도 5는 본 발명의 일실시예에 있어서 BC(Behavior Cloning) 알고리즘의 의사 코드를 도시한 것이다.

도 6은 본 발명의 일실시예에 있어서 GAIL(Generative Adversarial Imitation Learning) 알고리즘의 의사 코드를 도시한 것이다.

도 7 내지 도 9는 본 발명의 일실시예에 있어서 시뮬레이션 기반 검증 사용 사례를 도시한 것이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 가상 환경 모델을 수동으로 생성하는 어려움을 해결하기 위해 환경 모델 생성 문제를 모방 학습 문제로 재구성하여 CPS 목표 검증을 위한 자동화된 데이터를 기반으로 가상 환경 모델을 생성할 수 있다.

본 발명의 실시예들에 따른 가상 환경 모델 생성 장치는 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 가상 환경 모델 생성 방법은 가상 환경 모델 생성 장치에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 가상 환경 모델 생성 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 가상 환경 모델 생성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.

도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 가상 환경 모델 생성 장치는 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.

도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 가상 환경 모델 생성 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어, 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

이하에서는 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법의 구체적인 실시예를 설명하기로 한다.

CPS는 환경을 관찰하고 조치를 결정하는 소프트웨어 컨트롤러를 통해 물리적 환경과 지속적으로 상호 작용한다. 엔지니어는 FOT 로그를 분석하여 분석 중인 CPS가 주어진 목표를 어느 정도까지 달성할 수 있는지 확인할 수 있다. 그러나, 실제 비용과 위험으로 인해 통계적으로 유의미한 결과를 얻기 위해 많은 FOT를 반복하는 것은 어려운 문제이다. 이를 해결하기 위한 시뮬레이션 기반 검증은 효율적인 CPS 목표 검증을 위한 좋은 대안이 될 수 있지만 폐쇄 루프에서 CPS와 상호 작용하는 실제 환경을 대체할 수 있는 정확한 가상 환경 모델이 필요하다.

본 실시예들은 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식에 관한 것으로, 가상 환경 모델을 수동으로 생성하는 어려움을 해결하기 위해 환경 모델 생성 문제를 모방 학습 문제로 재구성하여 CPS 목표 검증을 위한 자동화된 데이터를 기반으로 가상 환경 모델을 생성할 수 있다. 본 실시예에 따른 데이터 기반 접근 방식을 ENVI(ENVironment Imitation)라 칭하기로 한다.

기계 학습에서 모방 학습은 제한된 양의 데모만으로 주어진 작업에서 복잡한 인간 행동을 모방하는 학습론으로 널리 연구되고 있다. 본 실시예에서는 모방 학습을 활용하여 실제 환경이 FOT에서 수집된 작은 로그 데이터 세트에서 분석 중인 CPS와 상호 작용하는 방식을 모방한다. 로그 데이터는 CPS와 실제 환경이 어떻게 상호 작용했는지 기록하기 때문에 본 실시예에 따른 접근 방식은 CPS 동작에 따라 실제 환경의 상태 전환 메커니즘을 로그 데이터에 기록된 것과 최대한 가깝게 모방하는 환경 모델을 생성할 수 있다. 생성된 환경 모델은 CPS 목표 달성을 통계적으로 분석하는 데 필요한 만큼 CPS 소프트웨어 컨트롤러를 시뮬레이션하는 데 사용될 수 있다. 다시 말해, 본 발명은 정형화된 문제 정의로 CPS 목표 검증을 위한 환경 모델 생성 문제를 조명한 것으로, 모방 학습 알고리즘을 이용하여 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성할 수 있다.

본 발명에 따른 ENVI의 사용 사례를 입증하기 위해 CPS 목표 검증의 간단한 예를 설명한다.

자율 주행 차량의 차선 유지 시스템을 개발하는 소프트웨어 엔지니어를 생각해 보자. 엔지니어는 차선 중심으로부터의 거리를 지속적으로 모니터링하고 가능한 한 거리를 작게 유지하기 위해 얼마나 회전해야 하는지를 결정하는 스티어링 각도를 계산하는 차량의 소프트웨어 컨트롤러(즉, 차선 유지 시스템)를 개발하고 테스트하는 것을 목표로 한다.

소프트웨어 컨트롤러가 개발되면 엔지니어는 컨트롤러가 장착된 차량이 주행 중에도 차선의 중심을 계속 따르도록 해야 한다. 이를 위해 엔지니어는 차량을 안전한 도로에 전개하고, t = 1,...,T에서 거리 d_t와 스티어링 각도 a_t를 포함한 FOT 로그를 수집한다. 여기서 T는 사전 설정된 FOT 지속 시간이다. 엔지니어는 수집된 데이터를 기반으로 차량이 차선 중심에서 벗어난 거리의 합(

)을 계산하여 차선 유지 시스템의 품질을 정량적으로 평가할 수 있다. 정량적 평가는 시스템의 목표, 즉

가 작은 임계값 ε에 대해 유지되는지 여부를 정확하게 검증하는 데 사용된다. 타이어와 지면 사이의 불균일한 마찰과 같은 FOT의 불확실성으로 인해 동일한 FOT를 여러 번 반복해야 하며, 그 결과에 통계적 분석을 적용해야 한다.

통계적으로 중요한 결과를 얻기 위해 FOT를 반복하는 데는 많은 시간과 자원이 필요하다. 이 문제를 해결하기 위해 엔지니어는 시뮬레이션에 의존하기로 결정할 수 있다. 그러나, 고품질 및 물리 기반 시뮬레이터를 사용하는 것은 특히 물리학에 대한 전문 지식이 충분하지 않은 소프트웨어 엔지니어에게 매우 어려운 일이다. 시뮬레이션 결과가 FOT 결과와 거의 동일하도록 시뮬레이터에서 시스템의 물리적 구성 요소(예를 들어, 휠 및 휠베이스의 크기)와 도로를 정확하게 설계하는 것은 쉽지 않다.

ENVI는 이러한 고품질 시뮬레이터를 사용하지 않고도 CPS 목표 검증을 가능하게 한다. 엔지니어는 단순히 소프트웨어 컨트롤러(즉, 분석 중인 차선 유지 시스템)와 처음부터 수집한 소량의 FOT 로그를 ENVI에 제공할 수 있으며, 이는 FOT를 사용한 통계적으로 중요한 결과에 필요한 데이터보다 훨씬 적다. 그런 다음, ENVI는 차선 유지 시스템의 실제 환경 동작을 모방한 가상 환경 모델을 자동으로 생성한다, 가상 환경 모델은 주어진 t = 2,...,T에서 d_t와 a_t에 대해 d_t+1을 시뮬레이션하고 가상 모델을 기반으로 계산된

가 FOT를 기반으로 계산된 값과 거의 동일하도록 할 수 있다. 따라서, 엔지니어는 시뮬레이션을 여러 번 빠르게 다시 실행함으로써 적은 비용으로 소프트웨어 컨트롤러의 품질에 대한 통계적으로 중요한 결과를 얻을 수 있다. 또한, 여러 소프트웨어 컨트롤러 버전이 서로 다른 CPS 동작을 수행하는 경우 ENVI에서 생성된 가상 환경 모델을 재사용하여 실제 환경에서 테스트된 적이 없는 새 컨트롤러 버전의 CPS 목표 달성을 확인할 수 있다.

ENVI의 당면 과제는 제한된 양의 데이터를 사용하여 실제 환경과 최대한 유사하게 작동하는 가상 환경 모델을 자동으로 생성하는 것이다. 이를 해결하기 위해 모방 학습을 활용할 수 있다.

모방 학습(Imitation Learning)

모방 학습은 에이전트가 전문가의 시연을 관찰하여 특정 작업에 대한 전문가 행동을 모방할 수 있는 학습 방법이다. 예를 들어, 자율 주행 차량은 인간 운전자가 차량을 어떻게 제어하는지 관찰함으로써 운전하는 법을 배울 수 있다. 모방 학습은 전문가가 마주치는 상태에만 따라 작업을 결정한다고 가정한다. 이러한 가정에 기초하여, 전문가 시연은 일련의 상태와 행동의 쌍이며, 모방 학습은 시연에서 전문가의 내부 의사결정 기능(즉, 상태를 행동에 매핑하는 정책 기능)을 추출하는 것을 목표로 한다. 대표적인 모방 학습 알고리즘을 설명하면 다음과 같다.

(1) BC(Behavior Cloning)

BC는 지도 학습을 사용하여 전문가의 정책 기능을 추론한다. 훈련 데이터는 전문가의 시연에서 상태와 해당 작업을 쌍으로 구성할 수 있다. 기존의 지도 학습 알고리즘은 주어진 상태에 대해 전문가와 같은 동작을 반환하는 정책 기능을 훈련시킬 수 있다. BC 알고리즘의 단순성으로 인해, BC는 시연 데이터가 충분히 많으면 전문가를 빠르게 모방하는 좋은 정책 기능을 만들 수 있다. 그러나, 훈련 데이터(즉, 전문가 시연)가 입력 상태 공간을 완전히 커버하지 않거나 편향된 경우 정책 기능이 전문가 행동을 올바르게 모방하지 못할 수 있다.

(2) GAIL(Generative Adversarial Imitation Learning)

GAIL은 적대적 생성망의 아이디어를 활용하여 정책 기능을 평가하는 판별기와의 반복 경쟁을 사용하여 정책 기능을 진화시키는 것이다. 따라서, 정책 기능과 판별기는 모두 병렬로 훈련된다.

정책 기능은 전문가 시연에서 상태를 가져오고 시뮬레이션된 작업을 생성한다. 그런 다음 판별기는 정책 기능의 입력(즉, 상태)과 출력(즉, 시뮬레이션된 동작)을 얻고 시연에 나온 것처럼 정책 기능이 실제 전문가처럼 작동하는 방식을 평가한다. 시뮬레이션이 전문가 시연과 비슷할수록 정책 기능은 판별기에 의해 더 많은 보상을 받는다. 정책 기능은 판별기의 보상을 최대화하도록 훈련된다.

반면에, 판별기는 정책 기능의 시연 데이터와 시뮬레이션 추적을 모두 사용하여 훈련된다. 시연 데이터에서 정책 기능의 입력 및 출력인 상태 및 작업 쌍은 실제로 레이블이 있지만 시뮬레이션 추적의 쌍은 가짜로 레이블이 있다. 지도 학습 알고리즘은 상태와 동작 쌍이 실제(높은 보상 반환)인지 가짜(낮은 보상 반환)인지 정량적으로 평가하도록 판별기를 훈련시킨다.

정책 기능과 판별기의 수많은 학습 반복 후, 정책 기능은 일반적으로 고급 판별기를 속이기 위해 전문가를 잘 모방한다. GAIL은 내부적으로 생성된 정책 기능의 전문가 시연 데이터와 시뮬레이션 추적 데이터를 모두 사용하므로 작은 시연 데이터로도 잘 작동한다. 그러나, 정책 기능의 내부 시뮬레이션으로 인해 학습 속도가 상대적으로 느리다.

ENVI를 위한 문제 정의

이하에서는 분석 중인 CPS가 목표를 달성하기 위해 환경과 상호 작용하는 방법을 모델링하기 위한 수학적 프레임워크를 소개한다. 그런 다음 공식 프레임워크를 기반으로 CPS 목표 검증을 위한 환경 모델 생성 문제를 정의한다.

(1) CPS 목표 검증을 위한 공식 프레임워크

CPS는 물리적 환경과 상호 작용하여 목표를 달성한다. 특히, CPS 소프트웨어 컨트롤러는 환경의 초기 상태부터 시작하여 상태를 관찰하고 목표 달성 가능성을 최대화하기 위해 적절한 조치를 결정한다. 그런 다음 조치를 취하면 다음 단계에 대한 환경이 변경되고 CPS는 이를 다시 관찰하여 다음 단계에 대한 조치를 결정한다. 본 실시예에서는 CPS와 환경이 세 번째 요인에 의한 간섭 없이 닫힌 루프에서 상호 작용한다고 가정한다. 이 프로세스를 공식화하기 위해 마르코프 의사결정 프로세스에서 영감을 얻은 새로운 CPS-ENV 상호작용 모델을 제시한다. CPS-ENV 상호작용 모델은 환경 상태에 대해 관찰 중인 에이전트의 순차적 의사결정 프로세스를 모델링한다.

구체적으로, CPS-ENV 상호 작용 모델은 튜플 M={S,A,π,δ,s₀)이다. 여기서, S는 고려 중인 환경의 관찰 가능한 상태 집합이고, A는 가능한 CPS 행동 집합이다. π:S→A는 CPS의 소프트웨어 컨트롤러를 캡처하는 정책 함수이며, δ:S×A→S는 CPS 행동과 이전 상태의 결과로 시간 경과에 따른 환경 상태의 전환을 캡처하는 전환 함수이고, s₀은 초기 환경 상태이다. 예를 들어, CPS는 s₀부터 시작하여 다음 상태 s₁=δ(s₀,a₀)로 이어지는 행동 a₀=π(s₀)을 수행한다. CPS는 s₁을 관찰하여 다시 다음 행동 a₁=π(s₁)등을 수행한다.

CPS-ENV 상호 작용 모델 M={S,A,π,δ,s₀)의 경우, n단계를 거치는 일련의 전환 시퀀스

을 생각한다. 여기서,

는 CPS의 행동 a_t-1을 취함으로써 작용을 함으로써 환경 상태 s_t-1에서 다른 상태 s_t로의 전환을 나타낸다. 보다 공식적으로, T 시간 눈금에 대한 M의 궤적을 튜플

의 시퀀스로 정의한다.

CPS-ENV 상호 작용 모델의 궤적은 분석 중인 CPS와 환경 간의 순차적 상호 작용을 간결하게 포착하기 때문에 궤적을 분석하여 CPS 목표가 달성되었는지 여부를 쉽게 확인할 수 있다.

도 2는 본 발명의 일실시예에 있어서 CPS 목표 확인을 위한 공식 프레임워크로, 시뮬레이션 기반 CPS 목표 검증에 CPS-ENV 상호 작용 모델을 사용하는 방법을 시각화한 것이다. 구체적으로,

가 검증 중인 목표를 정확하게 지정하는 요구 사항이라 하자.

의 달성은 정량적이다. CPS-ENV 상호작용 모델 M의 경우,

로 표시된 M에 대한

의 검증 결과는 M의 궤적에 대한

의 달성을 평가하여 계산된다.

의 유형에 따라

의 값은 Boolean(명확한 기준으로 요구 사항의 성공 또는 실패를 나타냄) 또는 Float(

의 평가 지표 측정값을 나타냄)일 수 있다. 예를 들어, 차선 유지 요건의 평가 지표 중 하나는 차량이 차선 중심에서 떨어져 있는 거리이다. 차선 유지 목표를 검증한 결과, 중앙에서 평균 또는 최대 거리가 계산된다.

(2) 문제 설명

시뮬레이션 기반 CPS 목표 검증을 위한 가상 환경 모델 생성의 문제는 동일한 수준의 검증 정확도를 유지하면서 검증 중인 CPS 목표의 실제 환경을 대체할 수 있는 정확한 가상 환경 모델을 개발하는 것이다. 특히, 분석 중인 동일한 CPS의 경우 CPS와 실제 환경(FOT) 간의 상호 작용을 나타내는 CPS-ENV 상호 작용 모델을 M_r={S,A,π,δ_r,s₀), 동일한 CPS와 가상 환경(시뮬레이션) 간의 상호 작용을 나타내는 또 다른 모델을 M_v={S,A,π,δ_v,s₀)라 하자. M_r과 M_v는 거의 동일한 CPS이기 때문에 S, A, π, s₀가 동일하지만 δ_r과 δ_v는 해당 환경이 CPS에 의해 수행되는 행동에 어떻게 반응하는지를 나타내기 때문에 서로 다르다. 요구 사항

의 경우,

와

사이의 차이를 최소화하는 δ_v를 갖는 것을 목표로 한다. 따라서, CPS 목표 검증을 위한 가상 환경 모델 생성의 문제는

가 최소가 되도록 하는 δ_v를 찾는 것이다.

가상 환경 모델 생성 문제에는 세 가지 주요 과제가 있다. 첫째, 가능한 상태 및 행동의 수가 매우 많은 경우가 많아 개별 상태 및 행동을 철저하게 분석하여 가상 환경 모델(즉, 전환 함수 δ_v:S×A→S로 표현됨)을 구축할 수 없다. 둘째, 가상 환경 모델은 폐쇄 루프에서 분석 중인 CPS와 지속적으로 상호 작용하기 때문에 가상 환경과 실제 환경 간의 작은 차이도 시간이 지남에 따라 누적됨에 따라 검증 결과에서 상당한 차이를 보일 수 있는데, 이를 복합 오류 문제라고 한다. 이는 순차적 입력에 대한 오류 누적을 고려하지 않고 개별 입력 및 출력 쌍 측면에서 δ_r의 동작을 모방하는 전환 함수 δ_v를 가지는 것만으로는 충분하지 않다는 것을 의미한다. 셋째, δ_r를 생성하는 데 많은 FOT를 사용하는 것만큼 비용이 많이 들지 않아야 한다. 그렇지 않으면 시뮬레이션 기반 CPS 목표 검증을 사용할 필요가 없다. 고품격 시뮬레이터에서 가상 환경 모델을 수동으로 제작하려면 많은 전문 지식이 필요하다, 이는 통계적으로 유의한 검증 결과를 얻기 위해 FOT를 여러 번 수행하는 것보다 더 오래 걸린다. 따라서, 실용적인 접근 방식은 정확한 가상 환경 모델을 효율적이고 자동으로 생성해야 한다.

상기한 문제를 해결하기 위해 모방 학습을 활용하여 적은 양의 데이터만으로 가상 환경 모델을 자동으로 생성할 수 있다. 데이터는 실제 애플리케이션 환경에서 테스트 중인 CPS에 대한 몇 가지 FOT에서 수집할 수 있는 M_r의 부분 궤적이다. 모방 학습은 전문가가 지정된 상태에 대해 어떻게 순차적인 행동을 수행하는지를 제한된 시연에서 효율적으로 추출할 수 있고 복합 오류를 최소화할 수 있기 때문에 환경 모델 생성 문제에 매우 적합할 것으로 예상된다. 따라서, 환경 모델 생성 문제에 대해 모방 학습은 M_r(즉, FOT 로그)의 주어진 궤적을 가장 잘 재현할 수 있는 π(모방 학습의 원래 목표) 대신 δ_v를 추출할 수 있다.

ENVI의 환경 모방

이하에서는 CPS 목표 검증을 위한 환경 모델 생성 문제에 대한 새로운 접근 방식인 ENVI를 제공한다. 본 실시예에서는 모방 학습을 사용하여 테스트 중인 CPS와 해당 애플리케이션 환경 간의 상호 작용 중에 기록된 로그에서 가상 환경 상태 전환 함수를 자동으로 추론하여 문제를 해결한다. 이러한 맥락에서 실제 애플리케이션 환경은 '전문가'로 간주되며 FOT 로그는 이 전문가를 보여준다.

도 3은 본 발명의 일실시예에 있어서 환경 모방 프로세스 및 시뮬레이션 기반 CPS 목표 검증 과정을 도시한 것이다. 도 3은 ENVI를 사용한 환경 모델 생성 및 시뮬레이션 기반 CPS 목표 검증 프로세스의 개요를 나타내고 있다.

도 3을 참조하면, 본 발명에 따른 가상 환경 모델 생성 방법은 모델 생성을 위한 FOT 로그 수집 단계(S10), 모방 학습 알고리즘을 사용한 환경 모델 생성 단계(S20), 생성된 환경 모델을 사용한 CPS 목표 검증 단계(S30)를 포함할 수 있다.

첫 번째 단계(S10)에서는 엔지니어가 실제 애플리케이션 환경에 구축된 분석 π 하에서 CPS 컨트롤러의 FOT 로그를 수집한다. CPS와 실제 환경 간의 상호 작용은 알려지지 않은 δ_r을 포함하여 M_r로 추상화된다. 로그에 기록된 M_r의 궤적은 두 번째 단계(S20)에서 모방 학습 알고리즘에 의해 사용되어 자동으로 δ_r을 모방하는 가상 환경 모델 δ_v를 생성한다. 마지막 단계(S30)에서는 δ_v에서 설명하는 가상 환경에서 π의 시뮬레이션을 수행하여 통계 검증에 필요한 만큼 시뮬레이션 로그를 생성한다. 따라서, 엔지니어는 몇 개의 FOT 로그만 사용하여 CPS 요구 사항이 어느 정도 충족되는지 통계적으로 확인할 수 있다.

(1) FOT 로그 수집(S10)

ENVI의 첫 번째 단계는 CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터를 수집하는 것이며, 이는 나중에 가상 환경을 생성하기 위한 모방 학습의 '시연'으로 사용될 것이다. CPS-ENV 상호작용 모델 M_r={S,A,π,δ_r,s₀)의 경우, 시간 T에 따라 수집된 상호작용 데이터는 T 단계에 걸쳐 M_r의 궤적, 즉

으로 표현된다. 여기서,

에서 s_t+1=δ_r(s_t,a_t)이고 a_t=π(s_t)이다. CPS 컨트롤러와 실제 환경 간의 상호 작용을 FOT 로그로 기록하는 것이 일반적이기 때문에 FOT에서 궤적을 쉽게 수집할 수 있다. 예를 들어, 차선 유지 시스템은 차량이 차선 중심에서 벗어난 거리와 FOT 중 t = 0,1,...,T에서 스티어링 각도에 대한 시계열 데이터를 기록한다.

실제로, 동일한 M_r의 궤적은 불균일한 표면 마찰과 같은 실제 환경의 불확실성으로 인해 반드시 같지는 않다. 따라서, 모방 학습에 의해 생성된 가상 환경 모델은 주어진 궤적을 최대한 모방하기 때문에 궤적에 기록된 실제 환경의 불확실성 또한 모방할 수 있다.

(2) 환경 모델 생성(S20)

ENVI의 두 번째 단계는 모방 학습 알고리즘을 사용하여 첫 번째 수집된 FOT 로그에서 가상 환경 모델을 생성하는 것이다. 먼저, 환경 모델 생성 단계는 환경 모델 구조를 정의하는 단계와, 모방 학습 알고리즘을 실행하여 훈련된 모델을 생성하는 단계로 구성될 수 있다.

(2-1) 환경 모델 구조 정의

본 실시예에서는 모방 학습을 활용하기 위해 환경 모델을 신경망으로 구현한다. 사용자는 환경 모델을 훈련하기 전에 신경망 구조를 정의한다.

가상 환경 모델 구조는 앞서 정의된 환경 상태 전환 함수 δ:S×A→S를 기반으로 한다. 이는 이상적인 (실제) 환경이 현재 환경 상태 s_t∈S와 현재 CPS 행동 a_t∈A만 취함으로써 다음 상태 s_t+1∈S를 생성한다고 가정한다. 즉, (s_t, a_t)가 시간 t에서 이상적인 환경에서 s_t+1을 결정하는 데 충분하다는 것을 의미한다. 그러나, 실제로는 검증 중인 CPS의 센서에 의해 관찰되고 센서가 감지 기능이 제한적이기 때문에 충분한 정보를 포함하지 않을 수 있다. 이 문제를 해결하기 위해 가상 환경 모델에 대한 δ를 δ_v:(S×A)^l→S로 확장한다. 여기, l은 다음 상태를 예측하는 데 필요한 상태-행동 쌍의 길이이다. 즉, δ_v는

를 사용하여 s_t+1을 예측한다. δ_v는 l=1일 때의 δ와 같다. δ의 확장을 설명하기 위해 CPS-ENV 상호 작용 모델 M={S,A,π,δ,s₀)을 M_v={S,A,π,δ_v,σ₀)로 확장한다. 여기서,

는 s₀에서 시작하는 전체 단계의 부분 궤적이다. 직관적으로 말해서, σ₀은 δ_v에 대한 초기 입력으로, δ에 대한 s₀(and a₀=π(s₀))과 유사하다.

도 4는 본 발명의 일실시예에 있어서 환경 모델 구조 예시를 도시한 것이다. 도 4는 δ_v의 확장된 정의에 기반한 δ_v의 구조 예시를 나타내고 있다. 위에서 정의한 바와 같이 δ_v의 입력과 출력은

및 s_t+1이다. 환경 상태와 CPS 행동 a는 일반적으로 벡터일 수 있으며, |x|를 벡터 x의 길이라고 가정하자. 그러면, 신경망의 입력 뉴런의 수는 l×(|s|+|a|)이고, 출력 뉴런의 수는 |s|이다.

환경 모델 구조를 정의하려면 두 가지 수동 작업이 필요하다. 첫 작업은 이력 길이 l에 대한 적절한 값을 선택하는 것이다. l의 값이 증가하면 δ_v의 훈련 및 실행 비용이 증가하는 동안 환경 상태에서 더 많은 정보를 캡처할 수 있다. 따라서, 정보의 양과 계산 비용의 균형을 맞추는 것이 중요하다. 예를 들어, FOT 로그를 시각화하고 환경 상태 순서에 순환 패턴이 있는지 확인할 수 있다. 두 번째 작업은 δ_v의 은닉 층을 설계하는 것이다. 은닉 층은 입력 변수에서 출력 변수를 계산하는 방법을 지정한다. 이를 순방향 전파라고 한다. 은닉 층의 설계는 도메인에 따라 다르지만, 신경망 설계의 일반적인 지침은 전문가에게 존재한다.

(2-2) 모방 학습 알고리즘을 이용한 환경 모델 학습

δ_v의 구조가 결정되면, 적절한 훈련 데이터 D={(X₁,Y₁),...,(X_n,Y_n)}의 집합을 사용하여 δ_v를 훈련시킬 수 있다. 여기서, n은 FOT 로그의 수이고, X_i는 i번째 FOT 로그에서 수집된 입력의 수이고 Y_i는 출력의 해당 시퀀스(즉, δ_v(x_j)의 기댓값은 모든 j∈{1,...,|X_i|}에 대해 y_j이고 i∈{1,...,n}에 대해 |X_i|=|Y_i|임)이다. x∈X는 상태-행동 쌍의 l-길이 시퀀스이므로 길이 l의 슬라이딩 윈도우를 사용하여 FOT 로그에서 D를 생성할 수 있다. 특히, FOT 로그

에 대해 j∈{0,...,T-l+1}에서

이다.

이하에서는 BC, GAIL 및 BC와 GAIL의 조합과 같은 모방 학습 알고리즘이 δ_v 훈련에 어떻게 사용될 수 있는지 설명한다.

a. BC 사용

BC는 지도 학습을 사용하여 환경 모델 δ_v을 훈련시킨다. FOT 로그에 기록된 실제 환경의 입력과 출력 쌍은 훈련 데이터로 δ_v에 제공되며 δ_v는 훈련 데이터에 표시된 실제 환경 상태 전환을 학습하도록 훈련된다.

도 5를 참조하면, BC 알고리즘은 무작위로 초기화된 환경 모델 δ_v와 훈련 데이터 세트 D를 입력으로 취한다. D를 사용하여 훈련된 환경 모델 δ_v를 반환한다.

BC 알고리즘은 정지 조건(예를 들어, 혼합 반복 횟수 또는 모델 손실의 수렴)이 충족될 때까지 D를 사용하여 δ_v를 반복적으로 훈련시킨다(1-7행). 각 (X, Y) ∈ D에 대해 알고리즘은 다음(2-6행)을 반복한다. (1) X를 실행하여 출력 Y'의 시퀀스를 예측하고(3행), (2) Y'과 Y 사이의 차이를 기준으로 훈련 손실 loss_BC를 계산하고(4행), (3) loss_BC를 최소화하기 위해 δ_v를 업데이트한다(5행). δ_v를 반환하면 BC 알고리즘이 종료된다(8행).

도 5의 BC 알고리즘은 직관적이고 구현하기 쉽다. 또한, 모델의 손실은 지도 학습 접근 방식이기 때문에 빠르게 수렴된다. 그러나 교육 데이터가 입력 공간을 완전히 포함하지 않거나 편향된 경우 모델이 실제 환경을 정확하게 모방하지 못할 수 있다.

b. GAIL 사용

GAIL은 δ_v뿐만 아니라 CPS 컨트롤러 측면에서 δ_v를 평가하는 판별기

도 반복적으로 훈련시킨다. 특히, 상태 s의 경우 δ_v(s,π(s))와 δ_r(s,π(s))을 비교하여 δ_r(D로 캡처)에 대해 δ_v를 평가한다. 이를 위해

는 지도 학습에 의해 D를 사용하여 훈련되고, δ_v는

의 평가 결과를 사용하여 훈련된다.

도 6은 GAIL 알고리즘의 의사 코드를 도시한 것이다. 도 6을 참조하면, GAIL 알고리즘은 BC 알고리즘과 유사하게, 무작위로 초기화된 환경 모델 δ_v와 훈련 데이터 세트 D=(X, Y)를 입력으로 사용하지만, 무작위로 초기화된 판별기

와 분석 π 하에서 CPS 컨트롤러를 추가로 입력으로 사용한다. 훈련된 가상 환경 모델 δ_v를 반환한다.

GAIL 알고리즘은 정지 조건이 충족될 때까지 D와 π를 사용하여 δ_v와

를 모두 반복적으로 훈련시킨다(1-18행). GAIL 알고리즘은 각 (X, Y)∈D에 대해

를 훈련시키려면(2-17행), X의 δ_v를 실행하여 출력 Y'의 시퀀스를 예측하고(3행), X에 대해

가 Y와 Y'을 얼마나 잘 구분할 수 있는지를 나타내는 판별기 손실 loss_d를 계산하고(4행), loss_d를 사용하여

를 업데이트한다(5행).

가 업데이트되면 알고리즘은

와 π를 사용하여 δ_v를 훈련시킨다(6-16행). 구체적으로, GAIL 알고리즘은 일련의 보상 R과 모델 입력 x'을 초기화하고(6-7행), δ_v, π,

를 사용하여 각 x'에 대해 r∈R을 수집하고(8-14행) R을 집계하여 환경 모델 손실 loss_GAIL을 계산하며(15행), loss_GAIL을 사용하여 δ_v를 업데이트 한다(16행). GAIL 알고리즘은 각 x'에 대한 r∈R을 수집하려면(8-14행), 출력 y'을 예측하기 위해 x'에서 δ_v를 실행하고(9행), 보상 r를 얻기 위해 x'과 y'에서

를 실행하며(10행), R의 끝에 r을 추가하고(11행), CPS 행동 a를 결정하기 위해 y'에서 π를 실행한다(12행), 그리고, (s₁, a₁)를 제거하고 (y', a)를 추가하여

를

로 업데이트 한다(13행). δ_v를 반환하면 GAIL 알고리즘이 종료된다(19행).

GAIL은 δ_v를 훈련시키기 위해 D의 실제 입력-출력 쌍 (x, y) 외에 π 및

에 의해 시뮬레이션된 입력-출력 쌍 (x', y')을 사용한다. 이는 적은 양의 훈련 데이터로도 잘 작동하는 것으로 알려진 이유이다. 그러나, GAIL 알고리즘은 BC 알고리즘보다 구현이 더 복잡하며, 환경 모델은 하이퍼 파라미터 값에 따라 천천히 수렴하거나 때로는 수렴하지 못한다.

c. BC와 GAIL을 함께 사용

BC 알고리즘은 훈련 데이터만을 사용하여 δ_v를 훈련하지만 GAIL 알고리즘은 시뮬레이션 데이터를 함께 사용하여 δ_v를 훈련시킨다. BC와 GAIL은 알고리즘 충돌 없이 훈련 데이터와 시뮬레이션 데이터를 모두 사용하기 위해 결합될 수 있다.

BC와 GAIL이 결합된 알고리즘은 입력 및 출력 측면에서 GAIL 알고리즘과 동일하며, GAIL 알고리즘과 유사하게 δ_v와

를 모두 훈련시킨다. 특히,

는 GAIL과 동일하게 업데이트된다. 그러나, δ_v는 loss_BC(도 5의 BC 알고리즘 4행)와 loss_GAIL(도 6의 GAIL 알고리즘 15행)를 모두 사용하여 업데이트 된다. 이를 통해 BC와 GAIL이 결합된 알고리즘은 적은 양의 훈련 데이터(GAIL과 유사)로 빠르게(BC와 유사) 수렴할 수 있다.

(3) 시뮬레이션 기반 CPS 목표 검증(S30)

엔지니어는 이전 단계에서 생성된 가상 환경 모델 δ_v를 사용하여 M_v={S,A,π,δ_v,σ₀)의 많은 시뮬레이션을 통해 분석 중인 CPS 컨트롤러가 목표

(즉,

계산)를 충족하는지 통계적으로 확인할 수 있다.

M_v를 시뮬레이션하려면 초기화 데이터 σ₀이 제공되어야 한다. σ₀은 l 단계를 거친 M_r의 부분 궤적이므로, 엔지니어는 σ₀을 얻기 위해 l 단계에 걸쳐 부분 FOT를 수행해야 한다. σ₀을 얻는 것은 l이 T(즉, 전체 FOT 기간)보다 훨씬 짧기 때문에 FOT 기반 CPS 목표 검증을 위한 전체 FOT를 가지는 것보다 훨씬 저렴하다.

그런 다음 엔지니어는 통계 검증에 필요한 만큼 M_v를 실행한다. 예를 들어, 개발 중인 차선 유지 시스템이 장착된 차량이 차선 중심에서 1m 이상 떨어져 있지 않는지 확인하기 위해 엔지니어는 생성된 환경 모델을 사용하여 차선 유지 시스템을 여러 번 시뮬레이션한다. 그런 다음 엔지니어는 각 시뮬레이션에서 차선 중심에서 가장 멀리 떨어진 거리를 분석하고 요구 사항이 통계적으로 충족되는지 확인한다.

실제로, 동일한 CPS 컨트롤러의 여러 버전을 개발하는 것이 일반적이다. 예를 들어, 진화적 개발 중에 순차적으로 개발될 수 있다. 차선 유지를 위한 최소 스티어링 정도를 나타내는 구성 매개변수로 구현된 차선 유지 시스템 컨트롤러를 고려해 보자. 그런 다음, 이전 버전의 CPS 목표 검증 결과를 기반으로 매개변수 값을 변경하여 새로운 버전의 차선 유지 시스템을 개발할 수 있다. 이러한 진화적 개발 프로세스에서 새로운 버전의 검증을 위해 환경 모델을 생성하는 데 사용되는 FOT 로그 버전에 따라 다양한 사용 사례를 고려할 수 있다. 특히 다음과 같은 세 가지 사용 사례를 고려할 수 있다.

도 7 내지 도 9는 본 발명의 일실시예에 있어서 ENVI를 사용한 시뮬레이션 기반 검증 사용 사례를 도시한 것이다.

도 7을 참고하면, 하나의 버전은 훈련용으로 사용되며, 검증은 훈련용과 동일한 버전에서 수행된다. 이는 기본 사용 사례이다. 예를 들어, 차선 유지 시스템 컨트롤러의 첫 버전을 확인하려면 이전 버전(및 해당 FOT 로그)이 없으므로 해당 버전의 일부 FOT 로그를 수집해야 한다. 훈련에는 하나의 버전이 포함되며 검증은 알려진 버전에 대한 것이므로 이 경우를 TOVK라고 한다.

도 8을 참조하면, 여러 버전이 훈련에 사용되며, 검증은 훈련에 사용되는 버전 중 하나에 대해 수행된다. 도 8에 도시한 바와 같이, 여러 버전의 CPS 컨트롤러를 훈련에 사용할 수 있다. 예를 들어, 이전에 개발된 버전의 차선 유지 시스템에서 수집한 FOT 로그와 새 버전에서 수집한 FOT 로그가 있는 경우 서로 다른 매개변수 값과 관련된 모든 로그를 함께 사용하여 단일 환경 모델을 생성할 수 있다. 따라서, 가상 환경 모델 생성에 모든 FOT 로그를 가장 잘 활용할 수 있다. 훈련에는 여러 버전이 포함되며 검증은 알려진 버전 중 하나에 대한 것이므로 이 경우 TMVK라고 한다.

도 9를 참조하면, 훈련용으로 여러 버전이 사용되며, 훈련용으로 사용된 적이 없는 새 버전에 대해 검증이 수행된다. 도 9에 도시한 바와 같이, 이는 TMVK 사용 사례와 유사하지만 새 버전에서 수집한 FOT 로그를 사용하지는 않는다. 즉, 이전에 수집된 FOT 로그만 새 버전의 확인에 사용된다. 이를 통해 CPS 목표 검증을 위한 새 버전의 새 FOT 비용을 크게 줄일 수 있다. 훈련에는 여러 버전이 포함되며 검증은 알 수 없는 버전에 대한 것이므로 이 경우 TMVU라고 한다.

이처럼 본 발명의 실시예들에 따르면, CPS 목표 검증을 위한 정확한 가상 환경 모델을 효율적으로 생성하는 새로운 데이터 기반 환경 모방 접근 방식인 ENVI를 제공할 수 있다. 값비싼 FOT를 여러 번 수행하는 대신 본 발명에 따른 ENVI는 가상 환경 모델 학습을 위해 일부 FOT 로그를 수집하기 위해 몇 개의 FOT만 필요로 한다. 대표적인 모방 학습 알고리즘(즉, BC, GAIL 및 BC×GAIL)을 활용하여 수집된 FOT 로그에서 정확한 가상 환경 모델을 자동으로 생성할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 장치에서 수행되는 가상 환경 모델 생성 방법에 있어서,

상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,

상기 가상 환경 모델 생성 방법은,

상기 적어도 하나의 프로세서의 의해, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계

를 포함하는 가상 환경 모델 생성 방법.
제1항에 있어서,

상기 생성하는 단계는,

BC(Behavior Cloning) 알고리즘, GAIL(Generative Adversarial Imitation Learning), 상기 BC 알고리즘과 상기 GAIL 알고리즘이 결합된 알고리즘 중 어느 하나의 모방 학습 알고리즘을 사용하여 상기 가상 환경 모델을 생성하는 것

을 특징으로 하는 가상 환경 모델 생성 방법.
제1항에 있어서,

상기 생성하는 단계는,

CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터로서 상기 CPS 컨트롤러의 FOT 로그를 수집하는 단계;

상기 FOT 로그를 이용한 모방 학습을 통해 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계; 및

상기 환경 모델을 이용한 시뮬레이션을 통해 상기 CPS 목표 검증을 수행하는 단계

를 포함하는 가상 환경 모델 생성 방법.
제3항에 있어서,

상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,

환경 상태 집합, CPS 행동 집합, CPS의 소프트웨어 컨트롤러를 캡처하는 정책 함수, 및 CPS 행동과 이전 상태의 결과로 시간 경과에 따른 환경 상태의 전환을 캡처하는 전환 함수를 포함하는 상호 작용 모델을 기반으로 상기 환경 모델을 생성하는 것

을 특징으로 하는 가상 환경 모델 생성 방법.
제3항에 있어서,

상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,

환경 상태 전환 함수 기반의 모델 구조로서 현재 환경 상태와 현재 CPS 행동이 입력 계층으로 구성되고 다음 환경 상태가 출력 계층으로 구성되고 입력 변수에서 출력 변수를 계산하는 방법이 은닉 계층으로 구성되는 모델 구조로 상기 환경 모델을 생성하는 것

을 특징으로 하는 가상 환경 모델 생성 방법.
제3항에 있어서,

상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,

이력 길이의 슬라이딩 윈도우를 사용하여 상기 FOT 로그에서 훈련 데이터를 생성하는 단계; 및

상기 훈련 데이터를 이용한 모방 학습을 통해 상기 환경 모델을 학습하는 단계

를 포함하는 가상 환경 모델 생성 방법.
제3항에 있어서,

상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,

상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델을 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 손실을 계산하고 상기 손실을 사용하여 상기 환경 모델을 업데이트하는 것

을 특징으로 하는 가상 환경 모델 생성 방법.
제3항에 있어서,

상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,

상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터와 시뮬레이션 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기(discriminator)를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 손실을 계산하고 상기 손실을 사용하여 상기 판별기를 업데이트하고 상기 업데이트된 판별기와 상기 시뮬레이션 데이터를 사용하여 상기 환경 모델을 업데이트하는 것

을 특징으로 하는 가상 환경 모델 생성 방법.
제3항에 있어서,

상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,

상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 제1 손실을 계산하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 제2 손실을 계산하고 상기 제1 손실과 상기 제2 손실을 사용하여 상기 환경 모델을 업데이트하는 것

을 특징으로 하는 가상 환경 모델 생성 방법.
제3항에 있어서,

상기 CPS 목표 검증을 수행하는 단계는,

상기 환경 모델을 이용한 시뮬레이션을 통해 통계 검증에 필요한 만큼 시뮬레이션 로그를 생성하여 CPS 요구 사항에 대한 충족 결과를 통계적으로 확인하는 것

을 특징으로 하는 가상 환경 모델 생성 방법.
가상 환경 모델 생성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서,

상기 가상 환경 모델 생성 방법은,

모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계

를 포함하는, 컴퓨터 프로그램.
컴퓨터로 구현되는 가상 환경 모델 생성 장치에 있어서,

메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서

를 포함하고,

상기 적어도 하나의 프로세서는,

모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 과정

을 처리하는 가상 환경 모델 생성 장치.
제12항에 있어서,

상기 적어도 하나의 프로세서는,

BC(Behavior Cloning) 알고리즘, GAIL(Generative Adversarial Imitation Learning), 상기 BC 알고리즘과 상기 GAIL 알고리즘이 결합된 알고리즘 중 어느 하나의 모방 학습 알고리즘을 사용하여 상기 가상 환경 모델을 생성하는 것

을 특징으로 하는 가상 환경 모델 생성 장치.
제12항에 있어서,

상기 적어도 하나의 프로세서는,

CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터로서 상기 CPS 컨트롤러의 FOT 로그를 수집하고,

상기 FOT 로그를 이용한 모방 학습을 통해 상기 실제 환경을 모방하는 환경 모델을 생성하고,

상기 환경 모델을 이용한 시뮬레이션을 통해 상기 CPS 목표 검증을 수행하는 것

을 특징으로 하는 가상 환경 모델 생성 장치.
제14항에 있어서,

상기 적어도 하나의 프로세서는,

상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 제1 손실을 계산하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 제2 손실을 계산하고 상기 제1 손실과 상기 제2 손실을 사용하여 상기 환경 모델을 업데이트하는 것

을 특징으로 하는 가상 환경 모델 생성 장치.