KR102631402B1

KR102631402B1 - 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102631402B1
Application number: KR1020210118540A
Authority: KR
Inventors: 권민혜; 이동수
Original assignee: 숭실대학교 산학협력단
Priority date: 2021-06-14
Filing date: 2021-09-06
Publication date: 2024-01-31
Also published as: KR20220167730A

Abstract

자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계; 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나 의 행동을 수행하는 단계; 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 단계; 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 단계; 및 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 단계;를 포함한다. 이에 따라, 심층강화학습 알고리즘을 통해 자율주행차량의 안전하고 효율적인 차선 변경을 가능하게 한다.

Description

자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD OF LANE CHANGE FOR AUTONOMOUS VEHICLES BASED DEEP REINFORCEMENT LEARNING, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 자율주행차량이 효율적이고 안전하게 차선을 변경할 수 있도록 학습하는 기술에 관한 것이다.

최근 자율주행차량 관련 연구가 가속화 되며 상용화 가능성에 대한 검토 및 제도적인 발전이 이루어지고 있다. 자율주행차량이 상용화되기 위해서는 복잡한 도로 상황에 대해 차량의 안정성 및 효율적인 주행에 대한 기술이 필요하다. 특히, 운전자의 목적에 도달하기 위해 빈번하게 발생하는 차선 변경에 대한 전략은 주행의 안전성과 효율성을 높이는데 필수적인 기술이다.

기존의 등록된 기술의 안정적인 차선 변경을 위해 주변 환경의 인지, 안전성 판단, 기능 제어와 같이 단계를 구분한다. 그 후 각각의 단계에 대해 고전적인 조절 이론의 사용 혹은 심층학습(deep learning)을 통해 학습한다.

선행기술문헌의 특허 문헌 1은 자율주행차량의 차선 변경 제어 장치 및 그 방법을 제시하고 있으나, 자율주행차량의 차선 변경 제어 장치 및 그 방법에 관한 발명으로 차선 변경 시 안전을 위해 고려해야 할 다양한 상황정보를 그룹별로 세분화하여 심층 학습을 수행한다.

선행기술문헌의 특허 문헌 2는 무인자동차의 차선 변경 방법, 장치 및 저장매체를 제시하고 있으나, 후보 차선 결정, 후보 차선에 대한 선별적 수행을 통해 목표 차선 선택, 안전성 검토, 차선 변경 수행에 대한 조절 이론 등을 수행한다.

이에, 상황 별 또는 동적인 행동 별로 세분화하지 않고 엔드-투-엔드로 학습을 수행하여 다양한 상황 및 행동에 적합한 안전하고 효율적인 차선 변경 기술이 필요하다.

KR

10-2021-0044960

A

KR

10-2020-0116409

A

Erdmann, "SUMO's Lane-Changing Model," Springer, 2015.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계; 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나 의 행동을 수행하는 단계; 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 단계; 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 단계; 및 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계는, 각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집할 수 있다.

본 발명의 실시예에서, 상기 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 단계는, 자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가질 수 있다.

본 발명의 실시예에서, 상기 보상 함수는, 자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함할 수 있다.

본 발명의 실시예에서, 상기 처벌항은, 차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성될 수 있다.

본 발명의 실시예에서, 상기 심층강화학습 알고리즘을 이용하여 학습하는 단계는, 심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용할 수 있다.

본 발명의 실시예에서, 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에서, 다차선의 도로 환경은 이차선 원형도로일 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치는, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 관측부; 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하고, 수행한 자율주행차량의 행동에 대한 보상값을 도출하여 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 통합 학습부; 및 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 정책 활용부;를 포함한다.

본 발명의 실시예에서, 상기 관측부는, 각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집할 수 있다.

본 발명의 실시예에서, 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 행동부; 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 보상부; 및 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책을 심층강화학습 알고리즘을 이용하여 학습하는 정책 학습부;를 포함할 수 있다.

본 발명의 실시예에서, 상기 행동부는, 자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가질 수 있다.

본 발명의 실시예에서, 상기 통합 학습부는, 심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용할 수 있다.

본 발명의 실시예에서, 상기 통합 학습부는, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트할 수 있다.

이와 같은 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법에 따르면, 심층강화학습의 사용으로 상황정보 및 행동을 그룹별로 세분화 하지 않고 엔드-투-엔드로 학습을 수행하여, 자율주행차량의 안전하고 효율적인 차선 변경을 가능하게 한다.

본 발명을 적용하여 실험한 결과, 목표속도에 대한 분산이 크게 감소하였으며 효율적인 주행 성능을 보였다. 또한, 차선 변경 시 전 후방차량에 대해 안전 거리를 유지하며 차선 변경을 수행하는 능력을 보였다.

도 1은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치의 블록도이다.
도 2는 본 발명에 적용하는 다차선 도로 환경의 예시 도면이다.
도 3은 본 발명의 자율주행차량이 부분 관측하는 근접 도로의 상태를 설명하기 위한 도면이다.
도 4는 본 발명의 통합 학습부의 학습 과정을 설명하기 위한 도면이다.
도 5는 본 발명에서 보상함수 중 처벌항의 안전 거리를 설명하기 위한 도면이다.
도 6은 본 발명의 성능을 검증하기 위해 시간에 따른 차선 변경 차량의 속도 변화를 종래 기술과 비교한 결과를 보여주는 그래프이다.
도 7은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치의 블록도이다.

본 발명에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치(100, 이하 장치)는 심층강화학습 알고리즘을 이용하여 자율주행차량의 차선 변경 학습 방법을 제안한다.

본 발명에서, 개체(자율주행차량)는 환경(도로 상태)과의 상호작용을 통해 학습한다. 개체는 도로 상태를 관측한 뒤 학습된 정보를 바탕으로 그에 맞는 행동을 수행한다. 이때, 절대적인 도로 정보를 확인할 수 없기 때문에 부분적이며 완벽하지 않은 관측된 정보를 사용한다.

행동 수행(차선 변경 및 가속도 조절)의 결과로 새로운 상태를 얻게 되며 이를 바탕으로 보상을 얻는다. 개체는 보상이 최대가 되는 방향으로 학습을 한다.

도 1을 참조하면, 본 발명에 따른 장치(100)는 관측부(110), 통합 학습부(130) 및 정책 활용부(150)를 포함한다. 상기 장치(10)는 자율주행차량의 제어 모듈에 포함되거나 제어 모듈의 일부를 구성할 수 있다.

본 발명의 상기 장치(100)는 자율주행차량을 위한 심층강화학습 기반 차선 변경을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 관측부(110), 상기 통합 학습부(130) 및 상기 정책 활용부(150)의 구성은 상기 장치(100)에서 실행되는 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(100)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 관측부(110), 상기 통합 학습부(130) 및 상기 정책 활용부(150)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(100)는 이동성을 갖거나 고정될 수 있다. 상기 장치(100)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(100)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

상기 관측부(110)는 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집한다. 예를 들어, 상기 관측부(110)는 자율주행차량의 속도와 차선, 선두차량의 속도, 후방차량의 속도, 선두차량의 상대 위치, 후방차량의 상대 위치 및 각 차량이 위치한 차선 번호를 수집할 수 있다.

본 발명의 일 실시예에서, 다차선의 도로 환경은 이차선 원형도로일 수 있다(도 2 참조). 도로 내 비 자율주행차량들은 느리게 등속 주행을 하여 자율주행차량(10)이 차선 변경을 수행하여야만 목표 속도에 도달할 수 있는 환경을 조성하였다.

도로 내 차량의 집합 은 비 자율주행차량의 집합 와 자율주행차량의 집합 으로 구성한다. 도로에 배치된 전체 차량의 수 대이다. 예를 들어, 차선 번호 k는 가장 바깥쪽 차선이 0번 차선이며 안쪽으로 갈수록 차선의 번호는 증가할 수 있다.

도 3을 참조하면, 본 발명에서 자율주행차량 e_N(10)은 도로 전체의 상태 정보 s_t가 아닌 근접 도로 상태에 대한 부분 관측만이 가능하다. 자율주행차량 e_N(10)의 관측 정보 은 다음과 같은 14차원으로 정의할 수 있다.

여기서, 는 각각 0번 차선 선두차량의 속도, 1번 차선 선두차량의 속도, 0번 차선 후방차량 속도, 1번 차선 후방차량의 속도, 자율주행차량의 속도를 의미한다.

는 각각 0번 차선 선두차량, 1번 차선 선두차량, 0번 차선 후방차량, 1번 차선 후방차량과 자율주행차량 사이의 상대 거리를 의미한다.

마지막으로, 는 0번 차선 선두차량, 1번 차선 선두차량, 0번 차선 후방차량, 1번 차선 후방차량 그리고 자율주행차량의 시간 t에서의 차선을 의미한다.

상기 통합 학습부(130)는 도 4와 같이 심층 신경망(11)을 포함하고, 센서(13) 등을 통해 수집한 데이터(관측값)를 기반으로 행동을 수행하고, 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 행동에 대한 보상값을 도출한다.

또한, 상기 통합 학습부(130)는 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 자율주행차량의 차선 변경 및 가속도 조절에 대한 행동 정책(policy)을 학습한다.

일 실시예에서, 행동 정책(policy)을 학습하는 심층강화학습 알고리즘 중 PPO(Proximal Policy Optimization) 알고리즘을 이용할 수 있다.

상기 통합 학습부(130)는 행동부(131), 보상부(133) 및 정책 학습부(135)를 포함할 수 있다.

상기 행동부(131)는 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행할 수 있다.

상기 보상부(133)는 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출할 수 있다.

상기 정책 학습부(135)는 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책을 심층강화학습 알고리즘을 이용하여 학습할 수 있다. 또한, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트할 수 있다.

본 발명에서는 신속한 주행 및 안정성을 위한 마르코프 의사결정 과정(Markov Decision Process; MDP)을 모델링하여, 심층 강화학습 알고리즘 중 하나인 Proximal Policy Optimization(PPO) 알고리즘을 통해 자율주행차량을 학습시켜 효과를 확인하고자 한다.

강화학습은 학습의 주체인 개체(10, 자율주행차량)가 환경(도로(1) 상태)과의 상호작용을 통해 학습을 하는 기계학습의 방법 중 하나이다. 본 발명의 실시예에서 강화학습은 MDP를 따른다. MDP는 개체가 수행하는 의사 결정 과정을 확률적으로 모델링하는 방법으로 일련의 튜플 로 정의할 수 있다.

상태 공간(state space) 는 개체가 상호작용하는 환경의 시간 t에서의 상태(state) s_t의 집합이다. 관측 공간(observation space) 는 개체가 환경을 관측 정보(observation) o_t의 집합이다. 이때 개체가 관측 가능한 상태 정보의 집합이 상태공간과 동일한 경우 완전 관측(full observation)이라고 하며, 일부로 한정되는 경우를 부분 관측(partial observation)이라고 한다.

행동 공간(action space) 는 개체가 취할 수 있는 모든 행동(action) a_t의 집합이다. 보상함수 (s_t,a_t,s_t+1)(이하 _t로 표기)은 상태 s_t에서 행동 a_t를 취할 때 변한 상태 s_t+1에 대해 환경이 개체에게 주는 보상을 의미한다. 개체는 특정 상태 s_t에서 보상 _t가 최대가 되는 행동 a_t를 취하는 방향으로 학습한다. 마지막으로 는 시간에 따른 감가율(discount factor)을 의미한다.

본 발명에서 차선 변경을 통해 개체가 효율적인 주행을 할 수 있도록 하며 동시에 주변 차량의 주행을 방해하지 않기 위한 보상 함수는 다음의 수학식 1과 같다.

[수학식 1]

먼저, 는 보상항으로 자율주행차량이 목표 속도 에 가깝게 주행할 수 있도록 한다. 만약 이 목표 속도 와 동일하다면 최댓값인 1의 보상이 주어지며, 에서 증가하거나 감소하는 경우 그보다 낮은 보상이 주어진다. ??

는 자율주행차량이 차선 변경 했을 때 후방차량의 안전 범위를 침범하는 것에 대한 처벌항이다.

도 5를 참조하면, 는 시간 t+1에서 후방차량과 자율주행차량 사이의 상대 거리를 의미한다. 는 안전 거리며 이는 환경 설정 및 사용자에 의해 조절될 수 있다.

안전 거리는 사용하는 안전 시스템에 따라 달라질 수 있다. 예를 들어, 자율주행차량의 자동 안정 보조 시스템에 내장되어 있다면, 각각의 시스템에서 사용되는 안전 거리를 사용할 수 있다.

또한, 비 자율주행 차량의 설계를 IDM 컨트롤러(controller) 기반으로 하는 경우, IDM 컨트롤러에 의해 조절되기 때문에 안전 거리 는 아래의 수학식 2와 같이 설정할 수 있다.

[수학식 2]

여기서, 는 차량 간 최소 허용 거리이며, 은 time headway로 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간이다.

개체가 취할 수 있는 행동은 로 나타낼 수 있다. acc는 자율주행차량의 가속도를 의미하며, 의 연속적인 범위를 갖는다. 는 자율주행차량의 차선 변경 방향을 의미하며, 와 같은 이산적인 값을 갖는다. 예를 들어, 0은 차선을 유지하는 경우, -1은 우측 차선으로의 차선 변경, 1은 좌측 차선으로의 차선 변경을 의미할 수 있다.

상기 정책 활용부(150)는 학습된 심층강화학습을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행한다.

이하에서는, 도로 교통 시뮬레이터에 대한 심층 강화학습 프레임워크 FLOW를 사용하여 본 발명의 성능을 평가한 결과를 설명한다.

도로의 구성은 260m의 2차선 원형 도로(도 2)이며 차량의 수 대 이다. 여기서, 자율주행차량의 수 대 이며 비 자율주행차량의 수 대 이다. 비 자율주행차량은 모두 IDM 컨트롤러를 사용하며 주행 속도는 1m/s로 고정하였다.

최소 허용 거리 , time headway , 목표 속도 로 설정하였다. 본 시뮬레이션에서 수학식 1의 는 10, 1로 설정하였으며, 1 time step 로 정의하였다.

심층 강화학습 알고리즘 PPO로 학습한 차량의 성능 평가를 위해, 제어이론 기반의 LC2013(선행기술문헌의 비특허문헌 1) 차선 변경 모델을 적용한 경우와 성능 비교를 진행하였다.

도 6을 통해 두 차량 모두 목표 속도인 3m/s를 유지하려는 모습을 확인할 수 있다. 아래의 표 1을 통해 단일 에피소드에서 차선 변경을 수행하는 단일 차량의 평균 속도와 속도의 분산을 자세히 확인할 수 있다.

[표 1]

LC2013 모델을 사용한 경우 차선 변경 결정을 바로 내리지 못하고 비 자율주행 선두차량 뒤에서 선두차량의 속도에 맞춰 운행하며 시간을 지체하는 것을 확인할 수 있다. 이는 도 6의 time step 1700 및 2500 부근에서 비 자율주행차량들의 속도인 1m/s로 유지하는 모습을 통해 단적으로 확인 가능하다.

반면, PPO를 사용하는 경우에는 전방차량이 길을 막고 있을 때 의미 없이 기다리지 않고 차선을 변경하기 때문에 일정한 속도를 유지하며 주행하는 모습을 확인하였다.

결과적으로, 제어 이론 기반의 차선 변경 모델인 LC2013을 사용한 경우에 비해 심층강화학습 기반 모델인 PPO를 사용하여 학습한 경우 더욱 자연스러운 차선 변경을 수행하는 모습을 확인하였다.

결론적으로, 본 발명에 따라 심층 강화학습 알고리즘인 PPO를 통해 학습한 자율주행차량은 전통적인 제어이론 기반 차선 변경 모델을 적용한 비 자율주행차량과 비교하였을 때 더욱 높은 성능을 보여주었다. 자율주행차량의 평균 속력은 비 자율주행차량 약 10% 상승 하였고 목표 속도에 가까운 주행 능력을 보였다.

도 7은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법의 흐름도이다.

본 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 도 1의 장치(100)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(100)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은 자율주행차량을 위한 심층강화학습 기반 차선 변경을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

본 발명은 심층강화학습 알고리즘 중 하나의 실시예로서 PPO 기반의 자율주행차량의 차선 변경 학습 방법을 제안한다. 본 발명에서, 개체(자율주행차량)는 환경(도로 상태)과의 상호작용을 통해 학습한다. 개체는 도로 상태를 관측한 뒤 학습된 정보를 바탕으로 그에 맞는 행동을 수행한다. 이때, 절대적인 도로 정보를 확인할 수 없기 때문에 부분적이며 완벽하지 않은 관측된 정보를 사용한다.

도 7을 참조하면, 본 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집한다(단계 S10).

예를 들어, 부분 관측을 통해 각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집할 수 있다.

예를 들어, 다차선의 도로 환경은 이차선 원형도로일 수 있다.

수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행한다.(단계 S20). 여기서, 자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가질 수 있다.

수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출한다(단계 S30).

상기 보상 함수는, 자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함할 수 있다. 특히, 처벌항은 차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성될 수 있다.

안전 거리는 사용하는 안전 시스템에 따라 달라질 수 있다. 예를 들어, 자율주행차량의 자동 안정 보조 시스템에 내장되어 있다면, 각각의 시스템에서 사용되는 안전 거리를 사용할 수 있다. 또한, 비 자율주행 차량의 설계를 IDM 컨트롤러(controller) 기반으로 하는 경우, IDM 컨트롤러에 의해 조절될 수도 있다.

부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습한다(단계 S40).

예를 들어, 심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용하여 행동 정책(policy)을 학습할 수 있고, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트할 수 있다.

현재까지 학습된 정책의 성능이 미리 설정한 기준치를 초과하는 경우(단계 S50), 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행한다(단계 S60).

반면, 현재까지 학습된 정책의 성능이 미리 설정한 기준치에 미치지 못하는 경우(단계 S50), 단계 S10으로 돌아가 다시 학습을 수행한다.

이와 같은, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 운전자의 목적에 도달하기 위해 빈번하게 발생하는 차선 변경에 대해 주행의 안전성과 효율성을 높일 수 있다. 따라서, 현재 인공지능 기술의 발전과 함께 발전하고 있는 자율주행기술에 유용하게 적용할 수 있다.

10: 자율주행차량
100: 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치
110: 관측부
130: 통합 학습부
131: 행동부
133: 보상부
135: 정책 학습부
150: 정책 활용부
1: 도로
11: 심층 신경망
13: 센서

Claims

다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계;
수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 단계;
수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 단계;
부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 단계; 및
학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 단계;를 포함하고,
상기 보상 함수는,
자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함하고,
상기 처벌항은,
차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성되는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
제1항에 있어서, 상기 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계는,
각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
제1항에 있어서, 상기 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 단계는,
자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가지는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
삭제
삭제
제1항에 있어서, 상기 심층강화학습 알고리즘을 이용하여 학습하는 단계는,
심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
제1항에 있어서,
도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트하는 단계;를 더 포함하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
제1항에 있어서,
다차선의 도로 환경은 이차선 원형도로인, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
제1항에 따른 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 관측부;
수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하고, 수행한 자율주행차량의 행동에 대한 보상값을 도출하여 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 통합 학습부; 및
학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 정책 활용부;를 포함하고,
상기 통합 학습부는,
수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 행동부;
수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 보상부; 및
부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책을 심층강화학습 알고리즘을 이용하여 학습하는 정책 학습부;를 포함하고,
상기 보상 함수는,
자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함하고,
상기 처벌항은,
차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성되는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
제10항에 있어서, 상기 관측부는,
각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
삭제
제10항에 있어서, 상기 행동부는,
자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가지는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
삭제
삭제
제10항에 있어서, 상기 통합 학습부는,
심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
제10항에 있어서, 상기 통합 학습부는,
도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
제10항에 있어서,
다차선의 도로 환경은 이차선 원형도로인, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.