KR20240029394A

KR20240029394A - 군집 주행 제어 장치 및 군집 주행의 제어 방법

Info

Publication number: KR20240029394A
Application number: KR1020220107758A
Authority: KR
Inventors: 조흥래
Original assignee: 현대모비스 주식회사
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2024-03-05
Also published as: CN117687402A; US20240069570A1; EP4328697A1

Abstract

군집 주행 제어 장치는 영상 정보와 피드백 신호를 기반으로 강화 학습을 수행하고, 상기 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하는 학습 장치; 및 상기 전방 차량으로부터 상기 전방 차량의 주행 궤적에 대한 제어점의 좌표를 수신하고, 상기 자차의 좌표를 상기 제어점의 좌표와 비교하여 상기 피드백 신호를 생성하는 보상 판단부를 포함한다.

Description

군집 주행 제어 장치 및 군집 주행의 제어 방법{PLATOONING CONTROL APPARATUS AND CONTROL METHOD OF PLATOONING}

본 발명은 군집 주행 시 전방 차량의 주행 궤적을 추종하도록 강화 학습을 수행하는 군집 주행 제어 장치 및 군집 주행의 제어 방법에 관한 것이다.

일반적으로, 군집 주행이란 하나의 그룹으로 묶인 복수의 차량들이 상호 간에 주행 정보를 공유하고 외부 환경을 고려하면서 도로를 주행하는 것을 의미한다.

군집 주행을 안정적으로 운영하기 위해서는, 군집 주행 중인 차량들의 차간 거리를 적절하게 유지하고, 후방 차량이 전방 차량의 주행 궤적을 추종하도록 제어하는 것이 중요하다.

자율 주행 시스템은 자율 주행 차량이 군집 주행 시 최적의 행동(action)을 취하도록 군집 주행에 대한 강화 학습(reinforcement　learning)을 수행할 수 있다.

강화 학습은 기계 학습 방법 중 하나로, 시도와 실패(trial and error)를 통해 현재의 상태(state)에서 어떤 행동(action)을 취하는 것이 최적인지를 학습하는 것이다. 행동을 취할 때마다 보상(reward)이 주어지고, 이러한 보상이 극대화되는 방향으로 학습이 진행된다.

상기의 배경기술로서 설명된 사항들은 본 발명의 배경에 대한 이해 증진을 위한 것일 뿐, 이 기술분야에서 통상의 지식을 가진 자에게 이미 알려진 종래기술에 해당함을 인정하는 것으로 받아들여져서는 안 될 것이다.

이에 본 발명은, 군집 주행 시 영상 정보 및 전방 차량의 주행 궤적에 대한 제어점을 이용하여 강화 학습을 수행함으로써, 자차가 전방 차량의 주행 궤적을 안정적이고 효율적으로 추종하는 것을 해결하고자 하는 기술적 과제로 한다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 수단으로서, 군집 주행 제어 장치는 영상 정보와 피드백 신호를 기반으로 강화 학습을 수행하고, 상기 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하는 학습 장치; 및 상기 전방 차량으로부터 상기 전방 차량의 주행 궤적에 대한 제어점의 좌표를 수신하고, 상기 자차의 좌표를 상기 제어점의 좌표와 비교하여 상기 피드백 신호를 생성하는 보상 판단부를 포함할 수 있다.

또한, 상기 기술적 과제를 해결하기 위한 수단으로서, 군집 주행의 제어 방법 은 영상 정보 및 피드백 신호를 기반으로 수행된 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하는 단계; 상기 전방 차량으로부터 상기 전방 차량의 주행 궤적에 대한 제어점의 좌표를 수신하는 단계; 및 상기 자차의 좌표를 상기 제어점의 좌표와 비교하여 상기 피드백 신호를 생성하는 단계를 포함할 수 있다.

본 발명에 의하면, 군집 주행 시 영상 정보 및 전방 차량의 주행 궤적에 대한 제어점을 이용하여 강화 학습을 수행함으로써, 자차가 전방 차량의 주행 궤적을 안정적이고 효율적으로 추종할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 군집 주행 제어 장치의 구성의 일 예를 도시한 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 군집 주행 시 전방 차량과 자차 간의 정보가 교환되는 과정을 설명하기 위한 시퀀스 다이어그램이다.
도 3은 본 발명의 일 실시예에 따른 군집 주행을 진행 중인 차량들의 전방 영상 및 후방 영상을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따라 전방 차량의 주행 궤적에 대한 제어점을 생성하는 과정의 일 예이다.
도 5는 본 발명의 일 실시예에 따라 전방 차량의 주행 궤적에 대한 제어점을 기반으로 강화 학습에 대한 피드백을 수행하는 과정을 설명하기 위한 플로우 차트이다.
도 6은 본 발명의 일 실시예에 따른 군집 주행 시 자차의 좌표에 따라 피드백이 수행되는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따라 전방 차량으로부터 수신한 무선 신호의 수신 신호 세기를 기반으로 강화 학습에 대한 피드백을 수행하는 과정을 설명하기 위한 플로우 차트이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 군집 주행 제어 장치의 구성의 일 예를 도시한 블럭도이다.

도 1에 도시된 바와 같이, 군집 주행 제어 장치는 학습 장치(100), 보상 판단부(200) 및 추론용 뉴럴 네트워크 장치(300)를 포함할 수 있다.

본 실시예에 따른 군집 주행 제어 장치는 군집 주행 시 영상 정보 및 전방 차량의 주행 궤적을 이용하여 강화 학습(reinforcement learning)을 수행함으로써, 자차가 전방 차량의 주행 궤적을 효율적이고 안정적으로 추종할 수 있도록 제어할 수 있다.

이하에서는, 군집 주행 제어 장치의 각 구성 요소에 대해 설명한다.

학습 장치(100)는 군집 주행에 대한 강화 학습의 대상이 되는 에이전트(agent)에 해당할 수 있다.

학습 장치(100)는 영상 정보 및 피드백 신호를 기반으로 뉴럴 네트워크(neural network)를 통해 강화 학습을 수행하고, 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하기 위해 조향 제어 신호, 제동 제어 신호 및 가속 제어 신호를 출력할 수 있다.

영상 정보는 자차의 전방 카메라로부터 출력되는 전방 영상 정보 및 전방 차량의 후방 카메라로부터 출력되는 후방 영상 정보를 포함할 수 있다. 전방 영상 정보 및 후방 영상 정보는 군집 주행에 대한 상태(state)에 해당하며, 자차가 현재 주행 중인 실도로(real road)의 특성을 반영할 수 있다. 이에 따라, 학습 장치(100)는 현재 군집 주행 상태에 해당하는 전방 영상 정보 및 후방 영상 정보를 통해 강화 학습을 수행함으로써, 예외적인 군집 주행 상황에서도 자차가 전방 차량의 주행 궤적을 안정적으로 추종할 수 있도록 제어할 수 있다.

피드백 신호는 강화 학습에 대한 보상(reward)에 해당할 수 있다. 좀 더 구체적으로, 피드백 신호는 자차가 전방 차량의 주행 궤적을 추종하는지 여부에 대한 긍정 피드백(positive feedback) 및 부정 피드백(negative feedback) 중 어느 하나를 나타낼 수 있다. 이에 따라, 학습 장치(100)는 피드백 신호에 따라 강화 학습에 대한 정책(policy)을 수정 및 변경할 수 있다.

조향 제어 신호, 제동 제어 신호 및 가속 제어 신호는 강화 학습에 대한 행동(action)에 해당하며, 자차의 조향 제어, 제동 제어 및 가속 제어를 수행하기 위해 생성될 수 있다.

좀 더 구체적으로, 학습 장치(100)는 자차의 주행에 요구되는 제어 신호를 조향, 제동, 구동 등의 주행 관련 제어기에 전달함으로써, 자차의 주행 상태를 제어할 수 있다.

예컨대, 학습 장치(100)는 조향 제어 신호를 스티어링 휠의 회전각 등을 조정하는 조향 제어기(미도시)에 출력하여 자차의 조향각을 제어하고, 제동 제어 신호를 유압 제동량을 조정하는 제동 제어기(미도시) 또는 회생 제동량을 조정하는 모터 제어기(미도시) 등에 출력하여 자차의 제동량을 제어할 수 있다. 또한, 학습 장치(100)는 가속 제어 신호를 전기 모터 또는 엔진의 출력 토크를 조정하는 파워트레인 제어기(미도시)에 출력하여 자차의 가속도를 제어할 수 있다.

보상 판단부(200)는 강화 학습에 대한 행동(action)에 해당하는 조향 제어 신호, 제동 제어 신호 및 가속 제어 신호를 기반으로, 강화 학습에 대한 보상(reward)에 해당하는 피드백 신호를 생성할 수 있다.

또한, 보상 판단부(200)는 전방 차량으로부터 전방 차량의 주행 궤적에 대한 제어점(control point)의 좌표를 수신하고, 자차의 좌표를 제어점의 좌표와 비교하여 피드백 신호를 생성할 수 있다.

본 실시예에서, 제어점은 전방 차량의 주행 궤적에 대응하는 스플라인 곡선(spline curve)의 모양을 제어하는 특징점으로 정의될 수 있다.

스플라인 곡선(spline curve)은 스플라인 함수를 이용하여 전방 차량의 주행 궤적을 표현하는 매끄로운 곡선에 해당할 수 있다. 실시예에 따라, 스플라인 곡선은 제어점들을 통과하는 보간 스플라인 곡선(Interpolating spline curve) 또는 중간 제어점들을 통과하지 않은 근사 스플라인 곡선(approximating spline curve) 중 하나에 해당할 수 있다. 여기서, 근사 스플라인 곡선이 시작 제어점 및 종료 제어점을 통과하는지 여부는 실시예에 따라 다르게 설정될 수 있다.

이하에서는, 전방 차량의 주행 궤적에 대응하는 스플라인 곡선(spline curve)이 근사 스플라인 곡선(approximating spline curve)에 해당하는 경우를 가정하여 보상 판단부(200)가 피드백 신호를 생성하는 동작 방법을 설명한다.

보상 판단부(200)는 자차의 좌표가 제어점의 좌표에 비해 주행 차로의 외측에 있을 경우, 자차가 제어점 방향으로 전방 차량의 주행 궤적을 벗어난 것으로 판단하고, 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다. 여기서, 주행 차로는 자차가 현재 주행 중인 차로에 해당한다.

또한, 보상 판단부(200)는 자차의 좌표가 제어점의 좌표로부터 기 설정된 위험 거리 외에 있을 경우, 자차가 제어점 반대 방향으로 전방 차량의 주행 궤적을 벗어난 것으로 판단하고, 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다.

이때, 학습 장치(100)는 자차와 제어점의 좌표 비교에 따라 부정 피드백(negative feedback)이 입력될 경우, 제동 제어 신호를 통해 자차의 제동량이 증가되도록 제어하고, 조향 제어 신호를 통해 자차의 조향각이 전방 차량의 주행 궤적을 추종하도록 제어할 수 있다.

이와 달리, 보상 판단부(200)는 자차의 좌표가 제어점 좌표에 비해 주행 차로의 내측에 있고, 자차의 좌표가 제어점의 좌표로부터 기 설정된 위험 거리 내에 있을 경우, 자차가 전방 차량의 주행 궤적을 안정적으로 추종하는 것으로 판단할 수 있다. 이 경우, 피드백 신호는 보상 판단부(200)에서 긍정 피드백(positive feedback)으로 출력될 수 있다.

이에 따라, 본 실시예에 따른 보상 판단부(200)는 전방 차량의 주행 궤적에 대한 제어점의 좌표를 기반으로, 자차가 전방 차량의 주행 궤적을 추종하는지 여부에 대한 피드백을 학습 장치(100)에 제공함으로써, 전방 차량의 주행 궤적에 대한 데이터 사이즈 및 연산량을 줄일 수 있다.

또한, 보상 판단부(200)는 전방 차량으로부터 수신한 무선 신호의 수신 신호 세기, 예컨대, RSSI(Received Signal Strength Indication)가 기 설정된 범위에 포함되는지에 따라 피드백 신호를 생성할 수 있다. 수신 신호 세기(RSSI)에 대한 기 설정된 범위는 실시예에 따라 다양하게 설정될 수 있다.

무선 신호의 수신 신호 세기(RSSI)는 자차와 전방 차량 간의 차간 거리를 나타낼 수 있다. 예컨대, 보상 판단부(200)는 수신 신호 세기(RSSI)가 높을수록 자차와 전방 차량 간의 차간 거리가 짧은 것으로 판단할 수 있다.

보상 판단부(200)는 무선 신호의 수신 신호 세기(RSSI)가 기 설정된 범위에 포함될 경우, 자차가 전방 차량과의 차간 거리를 안정적으로 유지하는 것으로 판단하고, 피드백 신호를 긍정 피드백(positive feedback)으로 출력할 수 있다.

이와 달리, 보상 판단부(200)는 무선 신호의 수신 신호 세기(RSSI)가 기 설정된 범위에 포함되지 않을 경우, 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다.

좀 더 구체적으로, 보상 판단부(200)는 무선 신호의 수신 신호 세기(RSSI)가 기 설정된 범위의 상한치보다 높을 경우, 자차와 전방 차량 간의 차간 거리가 짧은 것으로 판단하고, 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다. 이때, 학습 장치(100)는 제동 제어 신호를 통해 자차의 제동량이 증가되도록 제어할 수 있다.

이와 달리, 보상 판단부(200)는 무선 신호의 수신 신호 세기(RSSI)가 기 설정된 범위의 하한치보다 낮을 경우, 자차와 전방 차량 간의 차간 거리가 긴 것으로 판단하고, 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다. 이때, 학습 장치(100)는 가속 제어 신호를 통해 자차의 가속도가 증가되도록 제어할 수 있다.

이에 따라, 본 실시예에 따른 보상 판단부(200)는 무선 신호의 수신 신호 세기(RSSI)를 통해 자차와 전방 차량 간의 차간 거리를 안정적으로 유지하는지 여부에 대한 피드백을 학습 장치(100)에 제공함으로써, 학습 장치(100)가 전방 차량과의 거리에 대한 가속 및 제동 특성을 학습하도록 제어할 수 있다.

구현에 있어서, 보상 판단부(200)는 학습 장치(100)의 강화 학습에 대한 피드백을 전담하는 제어기에 해당하며, 이를 위해 다른 제어기나 센서와 통신하는 통신 장치, 운영체제나 로직 명령어와 입출력 정보 등을 저장하는 메모리 및 담당 기능 제어에 필요한 판단, 연산, 결정 등을 수행하는 하나 이상의 프로세서를 포함할 수 있다.

추론용 뉴럴 네트워크 장치(300)는 학습 장치(100)에서 수행되는 군집 주행에 대한 강화 학습이 안정화된 이후, 학습 장치(100)에 포함된 뉴럴 네트워크(neural network)에 대한 파라미터를 주기적으로 업데이트할 수 있다.

추론용 뉴럴 네트워크 장치(300)는 보상 판단부(200)의 피드백 없이, 업데이트된 파라미터를 기반으로 전방 영상 정보 및 후방 영상 정보를 수신하여 자차가 전방 차량의 주행 궤적을 추종하도록 제어할 수 있다. 이때, 추론용 뉴럴 네트워크 장치(300)는 학습 장치(100)와 마찬가지로 조향 제어 신호, 제동 제어 신호 및 가속 제어 신호를 출력함으로써, 자차가 전방 차량의 주행 궤적을 추종하도록 제어할 수 있다.

이에 따라, 추론용 뉴럴 네트워크 장치(300)는 군집 주행에 대한 강화 학습이 안정화된 이후 추가적인 강화 학습 없이 영상 정보만을 통해 자차의 조향 제어, 제동 제어 및 가속 제어를 수행함으로써, 군집 주행 제어 장치의 강화 학습에 대한 연산량을 줄일 수 있다.

도 2는 본 발명의 일 실시예에 따른 군집 주행 시 전방 차량과 자차 간의 정보가 교환되는 과정을 설명하기 위한 시퀀스 다이어그램이다.

도 2에서 자차(R)는 도 1을 참조하여 전술한 구성을 가지며, 전방 차량(F)은 자차(R)와 함께 군집 주행을 진행 중인 차량으로서 자차(R)와 직접적으로 또는 인프라 등을 통한 통신을 지원하는 차량인 것으로 가정한다.

전방 차량(F)은 후방 카메라에서 출력되는 영상 정보를 다운 스케일링 및 압축하여 후방 영상 정보를 생성하고(S101), 자차(R)는 전방 카메라에서 출력되는 영상 정보를 다운 스케일링 및 압축하여 전방 영상 정보를 생성할 수 있다(S103).

전방 차량(F)은 자차(R)에게 후방 영상 정보와 무선 신호를 전송하고, 자차(R)는 전방 차량(F)에게 전방 영상 정보와 무선 신호를 전송할 수 있다(S105).

전방 차량(F)은 수신한 전방 영상 정보를 복원하고, 자차(R)로부터 수신한 무선 신호의 수신 신호 세기(RSSI)를 측정할 수 있다(S107). 마찬가지로, 자차(R)는 후방 영상 정보를 복원하고, 전방 차량(F)으로부터 수신한 무선 신호의 수신 신호 세기(RSSI)를 측정할 수 있다(S109).

전방 차량(F)은 후방 카메라에서 출력되는 영상 정보와 자차(R)로부터 수신한 전방 영상 정보를 통해 비전 기반 궤적(vision-based trajectory)을 생성하고(S111), 비전 기반 궤적(vision-based trajectory)에 따라 제어점(control point)의 좌표를 생성할 수 있다(S113).

전방 차량(F)은 제어점(control point)의 좌표를 자차(R)로 전송할 수 있다(S115).

자차(R)는 제어점(control point)의 좌표 및 무선 신호의 수신 신호 세기(RSSI)에 대한 측정값을 기반으로 강화 학습에 대한 피드백을 진행하고(S117), 피드백에 따라 자차(R)의 조향 제어, 제동 제어 및 가속 제어를 수행하여 전방 차량(F)의 주행 궤적을 추종할 수 있다(S119).

도 3은 본 발명의 일 실시예에 따른 군집 주행을 진행 중인 차량들의 전방 영상 및 후방 영상을 설명하기 위한 도면이다.

도 3을 참조하면, 자차(R)의 전방에는 제1 전방 차량(F<1>)이 위치하며, 제1 전방 차량(F<1>)의 전방에는 제2 전방 차량(F<2>)이 위치한다. 전방 영상(FV)은 각 차량의 전방 카메라를 통해 촬영되며, 후방 영상(RV)은 각 차량의 후방 카메라를 통해 촬영될 수 있다.

이때, 자차(R)의 학습 장치(100)는 자차(R)의 전방 영상 정보 및 제1 전방 차량(F<1>)의 후방 영상 정보를 기반으로, 제1 전방 차량(F<1>)의 후방 영상(RV)과 자차(R)에서 촬영된 전방 영상(FV)에서 상호 중첩되는 부분을 판단하고, 판단 결과에 따른 후방 영상(RV) 및 전방 영상(FV)의 중첩도를 강화 학습에 대한 학습 데이터로 이용할 수 있다.

예컨대, 학습 장치(100)는 차선, 노면 표지 등 노면에 표시된 형상이나 특징점 추출 등을 기반으로 중첩도를 판단할 수 있으나, 이는 예시적인 것으로 반드시 이에 한정되는 것은 아니다.

도 4는 본 발명의 일 실시예에 따라 전방 차량의 주행 궤적에 대한 제어점을 생성하는 과정의 일 예이다.

도 4를 참조하면, 전방 차량(F)는 후방 카메라를 통해 출력되는 후방 영상 정보 및 후방 차량으로부터 수신한 전방 영상 정보를 기반으로, 비전 기반 궤적(vision-based trajectory)을 생성할 수 있다. 이후, 전방 차량(F)는 비전 기반 궤적(vision-based trajectory)을 통해 전방 차량 주행 궤적에 대한 제어점(control point)의 좌표들을 생성할 수 있다.

도 5는 본 발명의 일 실시예에 따라 전방 차량의 주행 궤적에 대한 제어점을 기반으로 강화 학습에 대한 피드백을 수행하는 과정을 설명하기 위한 플로우 차트이다.

도 5에서는 학습 장치(100)가 영상 정보 및 피드백 신호를 기반으로 수행된 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하고 있는 상황을 가정한다.

보상 판단부(200)는 전방 차량으로부터 전방 차량의 주행 궤적에 대한 제어점의 좌표를 수신할 수 있다(S201). 이때, 군집 주행 제어 장치는 전방 차량의 주행 궤적에 대한 제어점의 좌표를 통해 자차의 주행 궤적을 생성할 수 있다(S203).

보상 판단부(200)는 자차의 좌표를 제어점의 좌표와 비교하고(S205, S211), 비교 결과에 따라 피드백 신호를 생성할 수 있다(S207, S213).

우선, 보상 판단부(200)는 자차의 좌표가 제어점의 좌표에 비해 주행 차로의 외측에 있는지 여부를 판단할 수 있다(S205).

자차의 좌표가 제어점의 좌표에 비해 주행 차로의 외측에 있을 경우(S205의 YES), 보상 판단부(200)는 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다(S207). 이때, 학습 장치(100)는 부정 피드백(negative feedback)에 따라 자차의 제동량이 증가되도록 제어하고, 자차의 조향각을 제어할 수 있다(S209).

자차의 좌표가 제어점의 좌표에 비해 주행 차로의 내측에 있을 경우(S205의 YES), 보상 판단부(200)는 자차의 좌표가 제어점의 좌표로부터 기 설정된 위험 거리 외에 있는지 여부를 판단할 수 있다(S211).

자차의 좌표가 제어점의 좌표로부터 기 설정된 위험 거리 외에 있을 경우(S211의 YES), 보상 판단부(200)는 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다(S207). 이때, 학습 장치(100)는 부정 피드백(negative feedback)에 따라 자차의 제동량이 증가되도록 제어하고, 자차의 조향각을 제어할 수 있다(S209).

자차의 좌표가 제어점의 좌표로부터 기 설정된 위험 거리 내에 있을 경우 (S211의 NO), 보상 판단부(200)는 피드백 신호를 긍정 피드백(positive feedback)으로 출력할 수 있다(S213).

도 6은 본 발명의 일 실시예에 따른 군집 주행 시 자차의 좌표에 따라 피드백이 수행되는 과정을 설명하기 위한 도면이다.

도 6의 좌측을 참조하면, 전방 차량(F)의 주행 궤적에 대한 제1 내지 제4 제어점(control point<1:4>)이 도시되어 있다.

도 6의 중앙의 경우, 자차(R)의 좌표가 제2 제어점(control point<2>)의 좌표에 비해 주행 차로의 외측에 있는 경우에 해당한다. 이때, 보상 판단부(200)는 피드백 신호를 부정 피드백으로 출력할 수 있다.

도 6의 우측의 경우, 자차(R)의 좌표가 제2 제어점(control point<2>)의 좌표에 비해 주행 차로의 내측에 있고, 제2 제어점(control point<2>)의 좌표로부터 위험 거리 내에 있는 경우에 해당한다. 이때, 보상 판단부(200)는 피드백 신호를 긍정 피드백으로 출력할 수 있다.

도 7은 본 발명의 일 실시예에 따라 전방 차량으로부터 수신한 무선 신호의 수신 신호 세기(RSSI)를 기반으로 강화 학습에 대한 피드백을 수행하는 과정을 설명하기 위한 플로우 차트이다.

도 7에서는 학습 장치(100)가 영상 정보 및 피드백 신호를 기반으로 수행된 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하고 있는 상황을 가정한다.

보상 판단부(200)는 전방 차량으로부터 무선 신호를 수신하고(S301), 무선 신호의 수신 신호 세기(RSSI)를 측정할 수 있다(S303).

보상 판단부(200)는 무선 신호의 수신 신호 세기(RSSI)가 기 설정된 범위에 포함되는지 여부를 판단하고(S305, S311), 판단 결과에 따라 피드백 신호를 긍정 피드백(positive feedback) 및 부정 피드백(negative feedback) 중 어느 하나로 출력할 수 있다(S307, S313, S317).

우선, 보상 판단부(200)는 무선 신호의 수신 신호 세기(RSSI)가 기 설정된 범위의 상한치보다 낮은지 여부를 판단할 수 있다(S305).

수신 신호 세기(RSSI)가 기 설정된 범위의 상한치보다 높을 경우(S305의 NO), 보상 판단부(200)는 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다(S307). 이때, 학습 장치(100)는 부정 피드백(negative feedback)에 따라 자차의 제동량이 증가되도록 제어할 수 있다(S309).

수신 신호 세기(RSSI)가 기 설정된 범위의 상한치보다 낮을 경우(S305의 YES), 보상 판단부(200)는 수신 신호 세기(RSSI)가 기 설정된 범위의 하한치보다 높은지 여부를 판단할 수 있다(S311).

수신 신호 세기(RSSI)가 기 설정된 범위의 하한치보다 낮을 경우(S311의 NO), 보상 판단부(200)는 피드백 신호를 부정 피드백(negative feedback)으로 출력할 수 있다(S313). 이때, 학습 장치(100)는 부정 피드백(negative feedback)에 따라 자차의 가속도가 증가되도록 제어할 수 있다(S315).

수신 신호 세기(RSSI)가 기 설정된 범위의 하한치보다 높을 경우(S311의 YES), 보상 판단부(200)는 피드백 신호를 긍정 피드백(positive feedback)으로 출력할 수 있다(S317).

한편, 전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

100: 학습 장치
200: 보상 판단부
300: 추론용 뉴럴 네트워크 장치

Claims

영상 정보와 피드백 신호를 기반으로 강화 학습을 수행하고, 상기 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하는 학습 장치; 및
상기 전방 차량으로부터 상기 전방 차량의 주행 궤적에 대한 제어점의 좌표를 수신하고, 상기 자차의 좌표를 상기 제어점의 좌표와 비교하여 상기 피드백 신호를 생성하는 보상 판단부를 포함하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 영상 정보는,
상기 자차의 전방 카메라로부터 출력되는 전방 영상 정보 및 상기 전방 차량의 후방 카메라로부터 출력되는 후방 영상 정보를 포함하는, 군집 주행 제어 장치.
제2 항에 있어서,
상기 학습 장치는,
상기 전방 영상 정보 및 상기 후방 영상 정보를 기반으로, 상기 전방 차량의 후방 영상 및 상기 자차의 전방 영상에서 상호 중첩되는 부분을 판단하고, 판단 결과에 따른 상기 후방 영상 및 상기 전방 영상의 중첩도를 상기 강화 학습에 대한 학습 데이터로 이용하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 피드백 신호는,
상기 자차가 상기 전방 차량의 주행 궤적을 추종하는지 여부에 대한 긍정 피드백 및 부정 피드백 중 어느 하나를 나타내는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 학습 장치는,
상기 자차가 상기 전방 차량의 주행 궤적을 추종하도록 상기 자차의 조향 제어, 제동 제어 및 가속 제어를 수행하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 제어점은,
상기 전방 차량의 주행 궤적에 대응하는 스플라인 곡선의 모양을 제어하는 점에 해당하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 보상 판단부는,
상기 자차의 좌표가 상기 제어점의 좌표에 비해 주행 차로 외측에 있을 경우, 상기 피드백 신호를 부정 피드백으로 출력하는, 군집 주행 제어 장치.
제7 항에 있어서,
상기 학습 장치는,
상기 부정 피드백이 입력될 경우, 상기 자차의 제동량이 증가되도록 제어하고, 상기 자차의 조향각이 상기 전방 차량의 주행 궤적을 추종하도록 제어하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 보상 판단부는,
상기 자차의 좌표가 상기 제어점의 좌표로부터 기 설정된 위험 거리 외에 있을 경우, 상기 피드백 신호를 부정 피드백으로 출력하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 보상 판단부는,
상기 자차의 좌표가 상기 제어점의 좌표에 비해 주행 차로의 내측에 있고, 상기 자차의 좌표가 상기 제어점의 좌표로부터 기 설정된 위험 거리 내에 있을 경우, 상기 피드백 신호를 긍정 피드백으로 출력하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 보상 판단부는,
상기 전방 차량으로부터 수신한 무선 신호의 수신 신호 세기가 기 설정된 범위에 포함되는지 여부에 따라 상기 피드백 신호를 긍정 피드백 및 부정 피드백 중 어느 하나로 출력하는, 군집 주행 제어 장치.
제11 항에 있어서,
상기 보상 판단부는,
상기 수신 신호 세기가 상기 기 설정된 범위에 포함될 경우, 상기 피드백 신호를 상기 긍정 피드백으로 출력하는, 군집 주행 제어 장치.
제11 항에 있어서,
상기 보상 판단부는,
상기 수신 신호 세기가 상기 기 설정된 범위의 상한치보다 높을 경우, 상기 피드백 신호를 상기 부정 피드백으로 출력하고
상기 학습 장치는,
상기 부정 피드백이 입력될 경우, 상기 자차의 제동량이 증가되도록 제어하는, 군집 주행 제어 장치.
제11 항에 있어서,
상기 보상 판단부는,
상기 수신 신호 세기가 상기 기 설정된 범위의 하한치보다 낮을 경우, 상기 피드백 신호를 상기 부정 피드백으로 출력하고
상기 학습 장치는,
상기 부정 피드백이 입력될 경우, 상기 자차의 가속도가 증가되도록 제어하는, 군집 주행 제어 장치.
제1 항에 있어서,
상기 학습 장치에 포함된 뉴럴 네트워크에 대한 파라미터를 업데이트하고, 업데이트된 상기 파라미터를 기반으로 상기 영상 정보를 수신하여 상기 자차가 상기 전방 차량의 주행 궤적을 추종하도록 제어하는 추론용 뉴럴 네트워크 장치를 더 포함하는, 군집 주행 제어 장치.
영상 정보 및 피드백 신호를 기반으로 수행된 강화 학습의 결과에 따라 자차가 전방 차량의 주행 궤적을 추종하도록 제어하는 단계;
상기 전방 차량으로부터 상기 전방 차량의 주행 궤적에 대한 제어점의 좌표를 수신하는 단계; 및
상기 자차의 좌표를 상기 제어점의 좌표와 비교하여 상기 피드백 신호를 생성하는 단계를 포함하는, 군집 주행의 제어 방법.
제16 항에 있어서,
상기 영상 정보는,
상기 자차의 전방 카메라로부터 출력되는 전방 영상 정보 및 상기 전방 차량의 후방 카메라로부터 출력되는 후방 영상 정보를 포함하는, 군집 주행의 제어 방법.
제16 항에 있어서,
상기 제어점은,
상기 전방 차량의 주행 궤적에 대응하는 스플라인 곡선의 모양을 제어하는 점에 해당하는, 군집 주행의 제어 방법.
제16 항에 있어서,
상기 전방 차량으로부터 무선 신호를 수신하는 단계;
상기 무선 신호의 수신 신호 세기가 기 설정된 범위에 포함되는지 여부를 판단하는 단계; 및
상기 판단 결과에 따라 상기 피드백 신호를 긍정 피드백 및 부정 피드백 중 어느 하나로 출력하는 단계를 더 포함하는, 군집 주행의 제어 방법.
제16 항 내지 제20 항 중 어느 한 항에 따른 군집 주행의 제어 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 해독 가능 기록 매체.