KR20220163751A

KR20220163751A - 가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법

Info

Publication number: KR20220163751A
Application number: KR1020210072300A
Authority: KR
Inventors: 황경훈; 임세준; 박중후; 김희중
Original assignee: 현대자동차주식회사; 기아 주식회사; 국민대학교산학협력단
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-12-12

Abstract

가상의 주행환경에서 차량을 가상으로 운행하여 시험하는 가상 드라이빙 시스템을 강화학습에 기반하여 학습시키는 딥러닝 머신으로써, 차량의 주행시간에 따라 매칭된 목표차속과 현재차속을 저장하는 저장부; 저장부에 저장된 목표차속과 현재차속 간의 오차에 기초하여 연산되는 상태 정보와 보상 정보를 입력값으로 하여 차량의 구동출력에 대한 제어게인이 트레이닝되는 제어변수생성부; 및 제어변수생성부에서 산출된 제어게인과 오차를 이용하여 차량의 구동출력의 제어량를 산출하는 제어부;를 포함하는 가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법이 소개된다.

Description

가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법 {APPARATUS FOR DEEP LEARNING OF VIRTUAL DRIVING SYSTEM AND OPERATING METHOD THEREOF}

본 발명은 차량의 테스트 드라이버로서 차속 기반의 주행 상황에 관한 프로파일 신호를 통해 반복적으로 재현함에 있어서, 단순히 목표 속도에 대응되는 지령값을 사전 설정된 제어변수에 따라 추종하면서 재현하는 것이 아니라, 현재 상태와 테스트 드라이버의 행동에 따른 보상을 최대화하는 방향으로 최적화된 제어변수를 딥러닝함으로써 개별 차량의 각각의 주행모드에 따라 안정적으로 성능 시험을 수행할 수 있는 가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법에 관한 것이다.

머신러닝의 방법론 중 하나인 강화학습(Reinforcement Learning)은 주어진 현재 상태와 다음 상태, 외부환경 하에서 보상을 설계하여, 보상을 최대화하는 방향의 행동 혹은 행동순서를 기계에 학습시키는 학습방법이다. 강화학습은 지도학습을 할 수 없는 문제를 해결할 수 있다. 즉, 강화학습은 지도학습과 같이 입력데이터와 출력데이터의 쌍으로 이루어진 훈련데이터가 명확하지 않은 문제에 대해 탐색(exploration)함과 동시에, 이미 알고 있는 데이터를 이용(expolitation)함으로써 최적의 해를 생성한다.

강화학습의 보상은 행동을 취한 즉시 주어지는 실시간 보상과 그렇지 않은 지연된 보상으로 구별된다. 그리고, 강화학습은 이러한 보상들을 누적한 보상값을 최대화하는 정책으로 개발된다. 따라서, 강화학습은 단기 보상과 장기 보상 사이의 트레이드 오프가 존재하는 문제를 해결하는데도 필요하다. 그러므로, 이러한 강화학습은 특정 차량의 운전시 그 속도의 프로파일에 맞게 제어되어야 하는 가속출력율 또는 브레이크 출력율를 결정하는 데도 사용될 수 있다.

상기 배경기술로서 설명된 사항들은 본 발명의 배경에 대한 이해 증진을 위한 것일 뿐, 이 기술분야에서 통상의 지식을 가진자에게 이미 알려진 종래기술에 해당함을 인정하는 것으로 받아들여져서는 안 될 것이다.

KR

10-0376715

B1

본 발명은 이러한 문제점을 해결하기 위하여 제안된 것으로서, 차량의 테스트 드라이버로서 차속 기반의 주행 상황에 관한 프로파일 신호를 통해 반복적으로 재현함에 있어서, 단순히 목표 속도에 대응되는 지령값을 사전 설정된 제어변수에 따라 추종하면서 재현하는 것이 아니라, 현재 상태와 테스트 드라이버의 행동에 따른 보상을 최대화하는 방향으로 최적화된 제어변수를 딥러닝함으로써 개별 차량의 각각의 주행모드에 따라 안정적으로 성능 시험을 수행할 수 있는 가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법을 제공하고자 함이다.

본 발명에 따른 가상 드라이빙 시스템의 딥러닝 머신은, 차량의 구동출력을 제어함에 있어서, 차량의 운전시간에 따른 사전 결정된 목표차속과 목표운전거리에 관한 프로파일을 구비하고, 목표차속과 차량의 현재차속 간의 오차 및 구동출력의 제어변수를 기반으로 구동출력의 제어량을 생성하는 제어부; 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준을 구비하고, 보상기준에 따른 보상값을 생성하는 보상부; 차량의 운전시간에 따른 목표차속과 차량의 현재차속을 포함하는 상태정보와 보상값을 기반으로 가치함수를 생성하고, 가치함수가 최대화되는 선택과 딥러닝을 기반으로 제어변수에 관한 학습데이터를 생성하는 제어변수생성부;를 포함한다.

제어변수생성부는 가치함수가 최대화되는 선택과 DQN(Deep Q-Network) 알고리즘을 통한 딥러닝을 기반으로 제어변수에 관한 학습데이터를 생성할 수 있다.

제어변수생성부는 적어도 하나의 프로파일에 대응되는 제어변수에 관한 학습데이터를 생성할 수 있다.

제어부는 차량의 구동출력을 가속페달과 브레이크페달의 스트로크를 기반으로 제어함에 있어서, 목표차속과 차량의 현재차속 간의 오차, 가속페달의 스트로크의 제1제어게인 및 브레이크페달의 스트로크의 제2제어게인를 기반으로 구동출력의 제어량을 생성할 수 있다.

제어부는 가속페달의 스트로크의 제1제어게인에 관한 제어변수지령치를 더 구비하고, 가속페달의 스트로크의 제1제어게인는 제어변수지령치 및 학습데이터를 통해 출력되는 제어변수의 평균값일 수 있다.

보상부는 오차 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준을 구비할 수 있다.

보상부는 오차 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고,

보상기준과 패널티기준에 따른 보상값을 생성할 수 있다.

보상부는 오차, 차량의 현재 가속도, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고,

보상기준과 패널티기준에 따른 보상값을 생성할 수 있다.

차량의 현재 가속도는 양의 제1가속도 이상인 경우인 가속 모드, 음의 제1가속도 이하인 감속모드, 및 현재 가속도의 절대값이 제1가속도 미만인 정속모드 중 어느 하나로 평가되고,

보상부는 오차, 평가된 모드, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비할 수 있다.

본 발명에 따른 가상 드라이빙 시스템의 딥러닝 머신의 운용방법은, 보상부에서 차량의 구동출력에 관한 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준을 구비하고, 보상기준에 따른 보상값을 생성하는 단계; 제어변수생성부에서 차량의 운전시간에 따른 사전 결정된 목표차속과 차량의 현재차속을 포함하는 상태정보와 보상값을 기반으로 가치함수를 생성하고, 가치함수가 최대화되는 선택과 딥러닝을 기반으로 제어변수에 관한 학습데이터를 생성하는 단계; 및 제어부에서 차량의 목표차속과 목표운전거리에 관한 프로파일을 구비하고, 목표차속과 차량의 현재차속 간의 오차 및 구동출력의 제어변수를 기반으로 구동출력의 제어량을 생성하는 단계; 를 포함한다.

학습데이터를 생성하는 단계는, 가치함수가 최대화되는 선택과 DQN(Deep Q-Network) 알고리즘을 통한 딥러닝을 기반으로 제어변수에 관한 학습데이터를 생성할 수 있다.

제어량을 생성하는 단계는, 차량의 구동출력을 가속페달과 브레이크페달의 스트로크를 기반으로 제어함에 있어서, 목표차속과 차량의 현재차속 간의 오차, 가속페달의 스트로크의 제1제어게인 및 브레이크페달의 스트로크의 제2제어게인를 기반으로 구동출력의 제어량을 생성할 수 있다.

제어량을 생성하는 단계는, 가속페달의 스트로크의 제1제어게인는 것을 가속페달의 스트로크의 제1제어게인에 관한 제어변수지령치 및 학습데이터를 통해 출력되는 제어변수의 평균값일 수 있다.

보상값을 생성하는 단계는, 보상부에서 오차, 차량의 현재 가속도, 및 제어변*제어게인의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고, 보상기준과 패널티기준에 따른 보상값을 생성할 수 있다.

보상값을 생성하는 단계는, 차량의 현재 가속도를 양의 제1가속도 이상인 경우인 가속 모드, 음의 제1가속도 이하인 감속모드, 및 현재 가속도의 절대값이 제1가속도 미만인 정속모드 중 어느 하나로 평가하는 단계를 더 포함하고, 보상부에서 오차, 평가된 모드, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고, 보상기준과 패널티기준에 따른 보상값을 생성할 수 있다.

본 발명의 가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법에 따르면, 차량의 테스트 드라이버로서 차속 기반의 주행 상황에 관한 프로파일 신호를 통해 반복적으로 재현함에 있어서, 단순히 목표 속도에 대응되는 지령값을 사전 설정된 제어변수에 따라 추종하면서 재현하는 것이 아니라, 현재 상태와 테스트 드라이버의 행동에 따른 보상을 최대화하는 방향으로 최적화된 제어변수를 딥러닝함으로써 개별 차량의 각각의 주행모드에 따라 안정적으로 성능 시험을 수행할 수 있다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 머신의 구성도.
도 2는 본 발명의 일 실시예에 따른 딥러닝 머신의 블록도.
도 3는 본 발명의 일 실시예에 따른 DQN에 기반한 딥러닝 머신의 블록도.
도 4는 본 발명의 일 실시예에 따른 딥러닝 머신을 구현한 학습초기와 학습후의 결과를 나타낸 그래프.
도 5는 본 발명의 일 실시예에 따른 복수의 프로파일에 대응되는 학습데이터에 따른 딥러닝 머신을 구현한 결과를 나타낸 그래프.

본 명세서 또는 출원에 개시되어 있는 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서 또는 출원에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니 된다. 이하, 본 발명의 실시예를 첨부도면을 참조로 상세하게 설명하기로 한다.

본 실시예에서 사용되는 "딥 러닝"은 머신 러닝의 한 종류로 머신 러닝과 혼용될 수 있다. 머신 러닝은 경험적 데이터를 기반으로 학습과 추론을 수행하면서 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘에 관한 기술이다. 즉, 머신 러닝은 입력데이터를 기반으로 출력데이터를 추론하기 위해 특정한 모델을 구축하는 방식이다. 여기서 딥 러닝은 그러한 특정한 모델을 구축하는 방식으로서 입력데이터와 출력 데이터 사이에 입력데이터로부터 인공신경망과 같은 알고리즘에서의 가중치, 편향, 활성화 함수와 같은 학습 파라미터 등을 통해 특징들을 추출하여 출력데이터로 전달하는 은닉데이터를 포함하는 것이다.

따라서 여기서의 러닝(학습)은 입력데이터의 분류, 회귀분석, 군집화 등 해당 시스템의 목적을 위하여 학습데이터를 이용하여 학습 파라미터를 결정하는 과정을 의미할 수 있다. 그리고, 여기서의 러닝(학습)은 훈련, 재훈련과 같은 학습 그자체 또는 예측이나 결정과 같은 추론을 포함하는 개념일 수 있다. 물론, 여기서의 딥 러닝은 회귀기법을 활용하는 인공 신경망을 이용한 학습(CNN 등)과 확률기반, 기하기반, 앙상블 기반 등의 알고리즘을 이용한 기계학습을 포함한다. 또한, 여기서의 딥 러닝은 지도 학습과 비지도 학습, 반지도 학습, 강화학습을 포함한다.

도 1은 본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신의 구성도이고, 도 2는 본 발명의 일 실시예에 따른 딥러닝 머신의 블록도이고, 도 3는 본 발명의 일 실시예에 따른 DQN에 기반한 딥러닝 머신의 블록도이고, 도 4는 본 발명의 일 실시예에 따른 딥러닝 머신을 구현한 학습초기와 학습후의 결과를 나타낸 그래프이며, 도 5는 본 발명의 일 실시예에 따른 복수의 프로파일에 대응되는 학습데이터에 따른 딥러닝 머신을 구현한 결과를 나타낸 그래프이다.

도 1은 본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신의 구성도이다. 본 발명은 차량의 테스트 드라이버로서 활용하기 위한 딥러닝 머신이다. 즉, 본 발명의 일 실시예는 일정한 주행모드 및 속도 시험에 따라 차량을 가상으로 운전하는 모빌리티 에이전트(M)를 통해 차량의 성능, 연비 등을 평가하기 위한 테스트 장치이다. 따라서, 본 발명의 일 실시예에 따른 제어부(C)는 브레이크 페달 또는 가속 페달에 제어방향과 제어량에 관한 가상의 신호를 생성하여 제어함으로써 차량의 주행시험을 진행할 수 있다. 그리고, 저장부(S)는 테스트용 데이터, 즉 일정시간 동안 일정 거리를 정해진 목표속도에 맞게 차량을 주행하는 시험에 관한 프로파일을 저장한다. 이와 함께, 저장부(S)는 테스트용 학습데이터로서 제어변수생성부(L)에서 해당 프로파일을 특정 차량에 주행시킴으로써 얻은 브레이크 페달 또는 가속페달의 제어량에 관하여 딥러닝한 학습데이터를 저장한다.

여기서 학습데이터는 강화학습에 의하여 생성되는 학습데이터를 포함한다. 강화학습은 에이전트(agent)가 주어진 환경(environment) 속에서 현재의 상태(state)를 인식, 행동(action)을 통해 보상(reward)을 최대화하는 방향으로 학습하는 알고리즘이다. 여기서, 딥러닝은 강화학습에 필요한 현재 상태(state)의 인식에 있어서 필요한 정보를 추출하는데 활용된다.

도 2는 본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신의 블록도로, 가상 로봇 드라이버(Virtual Robot Driver)로서 활용한 것을 나타낸 것이다. 본 발명의 일 실시예에 따른 딥러닝 머신은 가상의 속도시험을 수행하는 것으로 활용될 수 있다. 즉, 모빌리티(특히 차량) 에이전트(M)가 주어진 주행 프로파일(P) 속에서 목표속도에 도달하고자 하는 현재의 속도, 가속도, 브레이크 페달 및/또는 가속페달의 제어량에 관한 상태를 인식, APS, BPS (Accel Pedal Stroke, Brake Pedal Stroke)의 P Gain같은 제어변수를 변화시키는 행동을 통해 보상을 최대화하는 방향으로 학습하도록 한다. 이로서 생성된 학습데이터를 바탕으로 트레이닝된 제어변수생성부(L)는 제어변수를 추론한다. 제어부(C)는 이를 활용하여 가속페달 및/또는 브레이크패달에 제어신호를 생성하여 차량(M)에 전달한다.

여기서 보상은 행동에 따른 즉각적인 단기보상과 프로파일에 의해 주어진 일정한 시간 내에 목표 속도에 근접하는지에 따른 장기보상을 포함할 수 있다. 이러한 보상을 최대화하는 방향으로서 가치함수(Value Function)를 생성할 수 있다. 여기서 제어량과 제어변수는 P제어, PI제어, PID제어에 관한 것을 포함할 수 있다. 그리고, 여기서 딥러닝 알고리즘은 DQN(Deep Q Network) 알고리즘일 수 있다.

도 3는 본 발명의 일 실시예에 따른 DQN에 기반한 가상 드라이빙 시스템의 딥러닝 머신의 블록도이다. Q를 최대화하는 방향으로 학습하기 위해, 도 3의 본 발명의 일 실시예에 따른 딥러닝 머신은 목표 Q 신경망(Target Q Network)와 손실함수(Loss)를 활용한다. Q신경망은 환경과의 상호작용을 통해 현재 상태에 관한 정보와 행동에 관한 정보를 입력받는다. 이 때, 상태에 관한 정보를 행동으로 치환하는 Q 신경망은 재현 메모리(Replay Memory)에서 그동안의 주행 프로파일에 따른 N번의 주행을 통해 얻은 상태, 행동 및 보상에 관한 정보를 토대로 가치함수를 생성하고, 선택한 과거 행동에 대한 가치를 출력한다. 목표 Q 신경망은 현재 상태에서의 행동들 중 가장 가치함수가 최대화되는 방향의 행동을 수행하도록 한다. 목표 Q 신경망은 재현 메모리에서 얻은 정보를 토대로 다음 상태에 대해 가장 가치가 높은 행동에 대한 가치(max Q)를 출력한다. 그리고, 손실함수를 최소화하는 방향으로 신경망은 학습된다. 이 때, 학습되는 가중치는 목표값과의 차이, 즉 보상과 Q값, 그리고 가치함수가 최대가 되는 Q값(max Q)과의 평균제곱오차(mse,mean square error)로서 업데이트될 수 있다. 이를 기반으로 Q신경망은 가중치를 업데이트한다. 목표Q신경망은 주기적으로 Q신경망의 가중치를 복사하여 업데이트될 수 있다.

여기서 가치함수란 상태(state)의 가치를 수치화한 함수(V(s)로 약칭하기로 함, s는 상태)로서, 상태를 행동으로 치환하기 위한 함수인 Q함수(Q(s,a)로 약칭하기로 함, a는 행동)일 수 있다. 여기서 Q함수는 딥러닝 알고리즘, 즉 상태에 관한 정보를 압축하고 특징을 잡아내기 위해 은닉층을 활용하고, 은닉층의 가중치 등을 계속되는 주행에 따라 학습하여 도출하는 Q신경망(Quality Network)일 수 있다. Q신경망은 상태와 행동에 관한 정보를 효과적으로 저장하고자 은닉층(Hidden layer)과 학습데이터를 활용한 인공신경망으로서, 상태를 행동으로 치환한다. 에이전트는 Q신경망이 최대화되는 행동을 선택한다. 이와 함께, 에이전트는 지속적인 학습을 위하여 Q신경망과 무작위(random)한 행동을 선택할 확률인 e를 모두 입력받아 해당되면 무작위(random)한 행동을 선택할 수도 있다.

제어변수생성부(L)는 상태정보와 보상정보를 입력값으로 하여 차량의 구동출력에 대한 제어변수이 트레이닝된다. 즉, 저장부(S)에서 입력받은 차량의 주행시간에 따라 매칭된 목표차속의 프로파일에 관한 정보 및 차량의 현재차속, 과거차속을 바탕으로 한 현재가속도, 현재가속도를 바탕으로 한 미래차속 등 차량의 상태에 관한 상태정보, 보상부(R)에서 입력받은 보상기준과 패널티기준, 및 그에 따른 보상값에 관한 보상정보를 토대로 제어변수생성부(L)는 차량의 구동출력에 대한 제어게인이 트레이닝된다. 여기서 트레이닝은 강화학습 모델에서 프로파일마다 가치함수(Value Function, DQN에서는 Q함수에 대응)가 최대화되는 선택을 함에 따른 상태정보와 보상정보를 바탕으로 계속되는 프로파일마다 가치함수의 가중치 등을 갱신하는 과정을 거쳐 제어변수이 트레이닝되는 것을 의미한다.

최종적으로, 저장부(S)는 테스트받는 해당 차량의 브레이크 페달 및/또는 가속페달의 제어량, 제어변수, 차량의 주행시간, 현재속도, 현재가속도, 누적주행거리, 유체저항, 잔여연료량, 연료소모속도 등 테스트에 필요한 주행정보와 테스트로서 얻을 수 있는 시험정보, 모빌리티 에이전트(M)의 학습데이터 등을 저장한다.

여기서의 차속 프로파일의 예시로, 테스트 시간 동안 시간의 흐름에 따라 차량이 추종해야 할 목표 속도로서 북미의 경우 FTP/HWY/US06/SC03/Cold FTP 총 5개의 모드가 있으며, 유럽의 경우 NEDC/WLTP 2개의 모드가 있다. 이외에도 차량 내구시험을 위한 차속 프로파일, 다양한 운전자의 실제 도로 주행 데이터를 이용한 차속 프로파일일 수 있다.

본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신은 로봇 드라이버(Robot Driver)의 운전 시험의 문제점을 해결한다. 기존 기술은 차량, 그중 특히 차량의 샤시 다이나모미터(Chasis Dynamometer)로서 프로파일에 따른 주행시험을 로봇드라이버에 의존하였다. 즉, 기존에는 차량의 성능, 연비 등을 평가하기 위하여 차량에 운전자 대신 로봇 드라이버가 운전하였다. 로봇드라이버에 의한 테스트는 가상 테스트에 비해 실제 운전과의 편차가 크게 줄어들 수 있다. 다만, 이는 실질적으로 설치가 어렵고, 높은 구매비용으로 구현하기 어려운 문제점이 있다. 따라서, 본 발명의 일 실시예는 가상 시험으로서 높은 단계의 주행시험을 제공함으로써 주행시험의 가격경쟁력과 범용성을 높인다.

이와 동시에, 본 발명의 일 실시예에 따른 딥러닝 머신은 가상 로봇 드라이버(Virtual Robot Driver)의 운전시험의 문제점을 해결한다. 가상 로봇 드라이버는 운전자가 제어하는 가속 페달과 브레이크 페달에 센서가 신호를 전달함으로써 가상으로 주행할 수 있다. 가속 페달 센서는 가속 페달의 조작량을 전압 신호로 변환하고, 브레이크 페달 센서는 브레이크 페달의 조작량을 전압 신호로 변환할 수 있다. 가속 페달 센서와 브레이크 페달 센서에서 출력되는 전압신호는 제어기로 전달될 수 있다.

이 때, 가속 페달과 브레이크 페달의 제어는 피드포워드제어 또는 피드백제어일 수 있다. 피드백제어로서 예컨데, 현재 시점에 차속 프로파일이 지시하는 목표 속도와 현재 차속 정보를 비교하여, 현재 차속이 목표 차속보다 낮으면 APS(Accel Pedal Stroke)량을 증가시켜서 목표 차속을 추종하게 하고, 현재 차속이 목표 차속 대비 높으면 APS량을 감소시키며, APS량 감소로는 목표 차속 추종이 어려우면 BPS(Brake Pedal Stroke)를 증가시키는 방법으로 감속시킬 수 있다.

이 때, 각 제어는 프로파일의 목표속도에 도달하기 위해 PI제어(비례 적분 제어) 또는 PID제어(비례 적분 미분 제어)를 활용한다. 두 제어 모두 P, I, D 각각의 제어변수(게인(Gain)이라고도 함)에 따라 제어량이 결정된다. 그런데, 제어변수제어게인는 사전 설정된 값으로서 차량별로 또는 프로파일별로 다르게 설정되어야 한다. 본 발명의 일 실시예에 따른 딥러닝 머신은 이러한 튜닝의 문제를 해결하고, 제어변수제어게인를 자동으로 학습함으로써 프로파일에 따른 주행시험평가에 최적화된 제어를 도출한다.

다만, 여기서 프로파일에 따른 1회의 주행시험 안에서 P게인만이 조정되고, I게인은 고정된 값을 사용하여 P게인을 학습할 수 있도록 할 수 있다. (도 4 내지 도 5는 P게인만을 조정하였다.) 그리고, 각 주행시험마다 I게인을 다르게 변경하여 다양한 상황에 대응 가능하도록 학습할 수 있다. 또한, 각 주행시험마다 차량의 무게를 다르게 변경하여 다양한 차종에 대응 가능하도록 학습할 수 있다.

도 4는 본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신을 구현한 학습초기와 학습후의 결과를 나타낸 그래프이다. 도 4는 본 발명의 일 실시예에 따른 딥러닝 머신를 구현하기 위해 FTP Cycle을 활용하고, 70번째 이상의 주행시험(강화학습의 개념상 70번의 에피소드(Episode)에 해당)을 하여 학습하기 전후단계를 나타낸다. 학습 초기에는 학습데이터가 부족한 상태의 Q신경망의 가치함수를 활용하여 행동을 결정한다. 또한, 학습 초기에는 무작위(random)한 행동을 선택할 확률인 e가 높은 상태로서 입력받아 무작위(random)한 행동을 선택할 확률이 높다. 따라서, 그 추종성은 높지 않다. 그러나, 어느정도 학습이 이뤄지면, 에이전트인 차량는 FTC Cycle 주행시 다양한 상태에서 어떤 행동을 취하면 가장 많은 보상이 돌아올지 학습된 학습데이터를 기반으로 행동한다. 따라서, 도 4에서 알 수 있듯이, 본 발명의 일 실시예에 따른 딥러닝 머신에서, 학습 후 에이전트인 차량는 제어변수의 제어만으로도 추종 오차를 굉장히 줄인 것을 확인할 수 있다.

도 5는 본 발명의 일 실시예에 따른 복수의 프로파일에 대응되는 학습데이터에 따른 가상 드라이빙 시스템의 딥러닝 머신을 구현한 결과를 나타낸 그래프이다. 특히, 도 5는 본 발명의 일 실시예에 따른 딥러닝 머신을 구현하기 위해 FTP Cycle에 기반하여 학습한 모빌리티 에이전트인 차량와 US06 Cycle에 기반하여 학습한 모빌리티 에이전트인 차량의 주행기록을 나타낸 것이다. 도 5에서 도시한 것과 같이, FTP Cycle의 학습 에이전트는 US06 Cycle의 학습 에이전트와 달리 가속페달 제어변수를 크게 사용하려는 경향이 두드러진다. 이러한 점을 고려해, 본 발명의 일 실시예에 따른 딥러닝 머신은 주행모드에 따라 다른 운전자 성향 모델을 구현할 수 있다.

한편, 본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신의 제어부는 차량의 구동출력을 가속페달과 브레이크페달의 스트로크를 기반으로 제어함에 있어서, 목표차속과 차량의 현재차속 간의 오차, 가속페달의 스트로크의 제1제어게인 및 브레이크페달의 스트로크의 제2제어게인를 기반으로 구동출력의 제어량을 생성할 수 있다. 즉, 가속페달과 브레이크페달의 스트로크 모두의 제어변수생성을 통헤 제어부는 차량의 구동출력을 제어할 수 있고, 이에 따라 운전자의 차량 감가속 조작에 더 최적화된 제어변수을 생성할 수 있다.

그리고, 본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신의 제어부는 가속페달의 스트로크의 제1제어게인에 관한 제어변수지령치를 더 구비하고, 가속페달의 스트로크의 제1제어게인는 제어변수지령치 및 학습데이터를 통해 출력되는 제어변수의 평균값일 수 있다. 즉, 본 발명의 일 실시예는 실제 차량의 구동 환경에서 특정 차속을 만들어 내기 위한 가속페달의 변화량에 대한 제어변수제어게인지령치를 구비하여 추종하도록 한다. 실제 차량의 구동시에는 가속페달의 스트로크가 브레이크보다 사용빈도가 높고, 그에 따라 제어변수의 영향이 크기 때문에, 이를 더 추종할 필요가 있다. 따라서, 본 발명의 일 실시예는 가속페달의 스트로크에 대한 제어변수지령치(Reference Gain Table)을 구비하고, 지령치와 출력되는 제어변*제어게인의 평균값으로 제1제어게인를 도출함으로써 시뮬레이션 환경보다 더 실제 차량 시험에 적합한 학습 환경을 조성하도록 할 수 있다.

한편, 본 발명의 일 실시예에 따른 가상 드라이빙 시스템의 딥러닝 머신의 제어부는 오차 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준을 구비할 수 있다. 또한, 보상부는 오차 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고, 보상기준과 패널티기준에 따른 보상값을 생성할 수 있다. 그리고, 보상부는 오차, 차량의 현재 가속도, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고, 보상기준과 패널티기준에 따른 보상값을 생성할 수 있다. 마지막으로, 차량의 현재 가속도는 양의 제1가속도 이상인 경우인 가속 모드, 음의 제1가속도 이하인 감속모드, 및 현재 가속도의 절대값이 제1가속도 미만인 정속모드 중 어느 하나로 평가되고, 보상부는 오차, 평가된 모드, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비할 수 있다. 즉, 학습방법을 다양하게 하고자 보상값 설정기준을 다변화할 수 있다.

예를 들어, 오차가 제1오차 미만일 경우 +k의 보상을, 제1오차 이상일 경우 -k의 패널티를 보상값으로 생성할 수 있다. 또한, 가속도가 0 초과일 때 또는 양의 제1가속도 이상일 경우 제어변수를 감소시키는 선택시 -k의 패널티를, 제어변수를 증가시키는 선택시 +k의 보상을 보상값으로 생성할 수 있다. 음의 제1가속도인 경우도 반대로 보상값을 생성할 수 있다. 그리고, 가속도가 0이거나 가속도의 절댓값이 제1가속도 미만과 같이 일정구간 내인데 제어변수를 증가 또는 감소시키는 선택시 -k의 패널티를, 유지하는 선택시 +k의 보상을 보상값으로 생성할 수 있다. 한편, 가속도가 0 초과일 때 또는 양의 제1가속도 이상일 경우 오차가 양의 값이면 (즉, 목표보다 빠른 경우) -k의 패널티를, 음의 값이면 +k의 보상을 보상값으로 생성할 수 있고, 가속도가 음의 제1가속도인 경우도 반대로 보상값을 생성할 수 있다. 물론 k는 각각 상이하게 설정될 수 있는 상수이다.

본 발명은 가상 드라이빙 시스템의 딥러닝 머신 및 운용방법으로서, 더 구체적으로는, 차량의 테스트 드라이버로서 활용될 수 있는 가상 드라이빙 시스템의 딥러닝 머신 및 운용방법에 관한 것이다. 특히, 본 발명의 일 실시예에 따른 딥러닝 머신 및 운용방법에 의해 도출된 가상 로봇 드라이버는 차속 기반의 주행 상황에 관한 프로파일을 신호를 통해 반복적으로 재현한다. 그러나, 기존 가상 로봇 드라이버는 단순히 목표 속도에 대응되는 지령값을 사전 설정된 제어변수에 따라 추종하면서 재현한다. 이에 반해, 본 발명의 일 실시예에 따른 딥러닝 머신은, 현재 상태와 테스트 드라이버의 행동에 따른 보상을 평가한 가치함수를 최대화하는 방향으로 제어변수를 딥러닝한다. 그럼으로써, 본 발명의 일 실시예에 따른 딥러닝 머신 및 운용방법은 개별 차량의 각각의 주행모드에 따라 안정적으로 성능 시험을 수행할 수 있도록 한다.

본 실시예에서 사용되는 “~부(unit)”는 메모리 상의 소정 영역에서 수행되는 태스크, 클래스, 서브 루틴, 프로세스, 오브젝트, 실행 쓰레드, 프로그램, 프로그램 기반 AI 가속화기(accelerator)와 같은 소프트웨어 각각 또는 조합, GPU(Graphic processing unit), CPU(Central Processing Unit), FPGA(field programmable gate array)나 ASIC(applicationspecific integrated circuit), DSP(Digital Signal Processor), VPC(Vision Processing Units), 뉴로모픽 칩(Neromorphic IC), 하드웨어 기반 AI 가속화기와 같은 하드웨어 각각 또는 조합으로 구현될 수 있다.

또한, 본 실시예의 "~부"는 각각 또는 조합된 소프트웨어(펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함 함) 및 하드웨어의 조합으로 이루어질 수 있다. 또한, 본 실시예의 "~부" 는 컴퓨터로 판독 가능한 저장 매체에 포함되어 있을 수도 있다. 또한, 본 실시예의 "~부"는 복수의 하드웨어나 소프트웨어, 또는 그 조합에 그 일부가 분산되어 분포될 수도 있다. 이 경우, 본 실시예의 "~부"의 데이터 처리는 클라우드 컴퓨팅 또는 엣지 컴퓨팅 또는 AI 엣지 컴퓨팅 등곽 같이 분산되거나, 집중되거나, 가속화될 수 있다. 그리고, 본 실시예의 "~부"는 하나 이상의 소프트웨어 모듈로서 작동하도록 하드웨어로 구성될 수 있으며, 그 역도 마찬가지다.

그리고 전술한 본 발명의 일 실시예에 따른 딥러닝 머신 및 운용방법은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 프로그램 코드의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다.

상기한 바와 같이 본 발명의 특정한 실시예에 관련하여 도시하고 설명하였지만, 이하의 특허청구범위에 의해 제공되는 본 발명의 기술적 사상을 벗어나지 않는 한도 내에서, 본 발명이 다양하게 개량 및 변화될 수 있다는 것은 당 업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.

S: 저장부
C: 제어부
L: 제어변수생성부
R: 보상부
P: 프로파일
M: 모빌리티 에이전트

Claims

가상의 주행환경에서 차량을 가상으로 운행하여 시험하는 가상 드라이빙 시스템을 강화학습에 기반하여 학습시키는 딥러닝 머신으로써, 차량의 주행시간에 따라 매칭된 목표차속과 현재차속을 저장하는 저장부;
저장부에 저장된 목표차속과 현재차속 간의 오차에 기초하여 연산되는 상태 정보와 보상 정보를 입력값으로 하여 차량의 구동출력에 대한 제어게인이 트레이닝되는 제어변수생성부;
및 제어변수생성부에서 산출된 제어게인과 오차를 이용하여 차량의 구동출력의 제어량를 산출하는 제어부;
를 포함하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 1에 있어서,
제어변수생성부는 가치함수가 최대화되는 선택과 DQN(Deep Q-Network) 알고리즘을 통한 딥러닝을 기반으로 제어게인에 관한 학습데이터를 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 1에 있어서,
제어변수생성부는 적어도 하나의 프로파일에 대응되는 제어게인에 관한 학습데이터를 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 1에 있어서,
제어부는 차량의 구동출력을 가속페달과 브레이크페달의 스트로크를 기반으로 제어함에 있어서,
목표차속과 차량의 현재차속 간의 오차, 가속페달의 스트로크의 제1제어게인 및 브레이크페달의 스트로크의 제2제어게인을 기반으로 구동출력의 제어량을 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 4에 있어서,
제어부는 가속페달의 스트로크의 제1제어게인에 관한 제1제어게인지령치를 더 구비하고,
가속페달의 스트로크의 제1제어게인은 제1제어게인지령치 및 제어변수생성부의 트레이닝 결과로 출력되는 제1제어게인의 평균값으로 도출되는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 1에 있어서,
제어변수생성부는 보상 정보를 생성하는 보상부를 더 포함하고,
보상부는 오차 및 제어게인의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준을 구비하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 6에 있어서,
보상부는 오차 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고,
보상기준과 패널티기준에 따른 보상값을 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 6에 있어서,
보상부는 오차, 차량의 현재 가속도, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고,
보상기준과 패널티기준에 따른 보상값을 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 8에 있어서,
차량의 현재 가속도는 양의 제1가속도 이상인 경우인 가속 모드, 음의 제1가속도 이하인 감속모드, 및 현재 가속도의 절대값이 제1가속도 미만인 정속모드 중 어느 하나로 평가되고,
보상부는 오차, 평가된 모드, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
저장부에서 차량의 주행시간에 따라 매칭된 목표차속과 현재차속을 저장하는 단계;
제어변수생성부에서 저장부에서 저장한 목표차속과 현재차속 간의 오차에 기초하여 연산되는 상태정보와 보상정보를 입력값으로 하여 차량의 구동출력에 대한 제어게인을 트레이닝하는 단계;
및 제어변수생성부에서 산출한 제어게인과 오차를 이용하여 차량의 구동출력의 제어량을 산출하는 단계
를 포함하는 가상 드라이빙 시스템의 딥러닝 머신의 운용방법.
청구항 10에 있어서,
제어게인을 트레이닝하는 단계는,
가치함수가 최대화되는 선택과 DQN(Deep Q-Network) 알고리즘을 통한 딥러닝을 기반으로 제어게인에 관한 학습데이터를 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신의 운용방법.
청구항 10에 있어서,
제어게인을 트레이닝하는 단계는, 차량의 구동출력을 가속페달과 브레이크페달의 스트로크를 기반으로 제어함에 있어서, 제어변수생성부에서 오차에 기초하여 연산되는 상태정보와 보상정보를 입력값으로 하여 가속페달의 스트로크의 제1제어게인 및 브레이크페달의 스트로크의 제2제어게인이 트레이닝되고,
제어량을 생성하는 단계는, 제어변수생성부에서 산출한 제1제어게인, 제2제어게인 및 오차를 이용하여 차량의 구동출력의 제어량을 산출하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신의 운용방법.
청구항 4에 있어서,
제어부는 가속페달의 스트로크의 제1제어게인에 관한 제1제어게인지령치를 더 구비하고,
가속페달의 스트로크의 제1제어게인은 제1제어게인지령치 및 제어변수생성부의 트레이닝 결과로 출력되는 제1제어게인의 평균값으로 도출되는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신.
청구항 12에 있어서,
제어량을 생성하는 단계는,
가속페달의 스트로크의 제1제어게인에 관한 제1제어게인지령치가 더 구비된 제어부에서,
제1제어게인지령치 및 제어변수생성부의 트레이닝 결과로 출력되는 제1제어게인의 평균값으로 도출된 가속페달의 스트로크의 제1제어게인, 제2제어게인 및 오차를 이용하여 차량의 구동출력의 제어량을 산출하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신의 운용방법.
청구항 10에 있어서,
보상값을 생성하는 단계는,
보상부에서 오차, 차량의 현재 가속도, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고,
보상기준과 패널티기준에 따른 보상값을 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신의 운용방법.
청구항 14에 있어서,
보상값을 생성하는 단계는,
차량의 현재 가속도를 양의 제1가속도 이상인 경우인 가속 모드, 음의 제1가속도 이하인 감속모드, 및 현재 가속도의 절대값이 제1가속도 미만인 정속모드 중 어느 하나로 평가하는 단계를 더 포함하고,
보상부에서 오차, 평가된 모드, 및 제어변수의 증가, 유지, 감소 중 어느 하나의 선택에 따른 보상기준과 패널티기준을 구비하고,
보상기준과 패널티기준에 따른 보상값을 생성하는 것을 특징으로 하는 가상 드라이빙 시스템의 딥러닝 머신의 운용방법.