KR102631402B1 - 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 - Google Patents
자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 Download PDFInfo
- Publication number
- KR102631402B1 KR102631402B1 KR1020210118540A KR20210118540A KR102631402B1 KR 102631402 B1 KR102631402 B1 KR 102631402B1 KR 1020210118540 A KR1020210118540 A KR 1020210118540A KR 20210118540 A KR20210118540 A KR 20210118540A KR 102631402 B1 KR102631402 B1 KR 102631402B1
- Authority
- KR
- South Korea
- Prior art keywords
- lane
- vehicle
- autonomous vehicle
- reinforcement learning
- lane change
- Prior art date
Links
- 230000008859 change Effects 0.000 title claims abstract description 80
- 230000002787 reinforcement Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000009471 action Effects 0.000 claims abstract description 59
- 230000001133 acceleration Effects 0.000 claims abstract description 29
- 230000006399 behavior Effects 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 17
- 230000003542 behavioural effect Effects 0.000 claims abstract description 4
- 238000005457 optimization Methods 0.000 claims description 7
- 238000012423 maintenance Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
- B60W30/12—Lane keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/10—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
- B60W40/105—Speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/10—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
- B60W40/107—Longitudinal acceleration
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/10—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4042—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
- B60W2554/802—Longitudinal distance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2720/00—Output or target parameters relating to overall vehicle dynamics
- B60W2720/10—Longitudinal speed
- B60W2720/106—Longitudinal acceleration
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
Abstract
자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계; 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나 의 행동을 수행하는 단계; 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 단계; 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 단계; 및 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 단계;를 포함한다. 이에 따라, 심층강화학습 알고리즘을 통해 자율주행차량의 안전하고 효율적인 차선 변경을 가능하게 한다.
Description
본 발명은 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 자율주행차량이 효율적이고 안전하게 차선을 변경할 수 있도록 학습하는 기술에 관한 것이다.
최근 자율주행차량 관련 연구가 가속화 되며 상용화 가능성에 대한 검토 및 제도적인 발전이 이루어지고 있다. 자율주행차량이 상용화되기 위해서는 복잡한 도로 상황에 대해 차량의 안정성 및 효율적인 주행에 대한 기술이 필요하다. 특히, 운전자의 목적에 도달하기 위해 빈번하게 발생하는 차선 변경에 대한 전략은 주행의 안전성과 효율성을 높이는데 필수적인 기술이다.
기존의 등록된 기술의 안정적인 차선 변경을 위해 주변 환경의 인지, 안전성 판단, 기능 제어와 같이 단계를 구분한다. 그 후 각각의 단계에 대해 고전적인 조절 이론의 사용 혹은 심층학습(deep learning)을 통해 학습한다.
선행기술문헌의 특허 문헌 1은 자율주행차량의 차선 변경 제어 장치 및 그 방법을 제시하고 있으나, 자율주행차량의 차선 변경 제어 장치 및 그 방법에 관한 발명으로 차선 변경 시 안전을 위해 고려해야 할 다양한 상황정보를 그룹별로 세분화하여 심층 학습을 수행한다.
선행기술문헌의 특허 문헌 2는 무인자동차의 차선 변경 방법, 장치 및 저장매체를 제시하고 있으나, 후보 차선 결정, 후보 차선에 대한 선별적 수행을 통해 목표 차선 선택, 안전성 검토, 차선 변경 수행에 대한 조절 이론 등을 수행한다.
이에, 상황 별 또는 동적인 행동 별로 세분화하지 않고 엔드-투-엔드로 학습을 수행하여 다양한 상황 및 행동에 적합한 안전하고 효율적인 차선 변경 기술이 필요하다.
Erdmann, "SUMO's Lane-Changing Model," Springer, 2015.
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계; 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나 의 행동을 수행하는 단계; 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 단계; 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 단계; 및 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 단계;를 포함한다.
본 발명의 실시예에서, 상기 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계는, 각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집할 수 있다.
본 발명의 실시예에서, 상기 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 단계는, 자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가질 수 있다.
본 발명의 실시예에서, 상기 보상 함수는, 자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함할 수 있다.
본 발명의 실시예에서, 상기 처벌항은, 차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성될 수 있다.
본 발명의 실시예에서, 상기 심층강화학습 알고리즘을 이용하여 학습하는 단계는, 심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용할 수 있다.
본 발명의 실시예에서, 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트하는 단계;를 더 포함할 수 있다.
본 발명의 실시예에서, 다차선의 도로 환경은 이차선 원형도로일 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치는, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 관측부; 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하고, 수행한 자율주행차량의 행동에 대한 보상값을 도출하여 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 통합 학습부; 및 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 정책 활용부;를 포함한다.
본 발명의 실시예에서, 상기 관측부는, 각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집할 수 있다.
본 발명의 실시예에서, 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 행동부; 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 보상부; 및 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책을 심층강화학습 알고리즘을 이용하여 학습하는 정책 학습부;를 포함할 수 있다.
본 발명의 실시예에서, 상기 행동부는, 자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가질 수 있다.
본 발명의 실시예에서, 상기 보상 함수는, 자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함할 수 있다.
본 발명의 실시예에서, 상기 처벌항은, 차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성될 수 있다.
본 발명의 실시예에서, 상기 통합 학습부는, 심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용할 수 있다.
본 발명의 실시예에서, 상기 통합 학습부는, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트할 수 있다.
본 발명의 실시예에서, 다차선의 도로 환경은 이차선 원형도로일 수 있다.
이와 같은 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법에 따르면, 심층강화학습의 사용으로 상황정보 및 행동을 그룹별로 세분화 하지 않고 엔드-투-엔드로 학습을 수행하여, 자율주행차량의 안전하고 효율적인 차선 변경을 가능하게 한다.
본 발명을 적용하여 실험한 결과, 목표속도에 대한 분산이 크게 감소하였으며 효율적인 주행 성능을 보였다. 또한, 차선 변경 시 전 후방차량에 대해 안전 거리를 유지하며 차선 변경을 수행하는 능력을 보였다.
도 1은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치의 블록도이다.
도 2는 본 발명에 적용하는 다차선 도로 환경의 예시 도면이다.
도 3은 본 발명의 자율주행차량이 부분 관측하는 근접 도로의 상태를 설명하기 위한 도면이다.
도 4는 본 발명의 통합 학습부의 학습 과정을 설명하기 위한 도면이다.
도 5는 본 발명에서 보상함수 중 처벌항의 안전 거리를 설명하기 위한 도면이다.
도 6은 본 발명의 성능을 검증하기 위해 시간에 따른 차선 변경 차량의 속도 변화를 종래 기술과 비교한 결과를 보여주는 그래프이다.
도 7은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법의 흐름도이다.
도 2는 본 발명에 적용하는 다차선 도로 환경의 예시 도면이다.
도 3은 본 발명의 자율주행차량이 부분 관측하는 근접 도로의 상태를 설명하기 위한 도면이다.
도 4는 본 발명의 통합 학습부의 학습 과정을 설명하기 위한 도면이다.
도 5는 본 발명에서 보상함수 중 처벌항의 안전 거리를 설명하기 위한 도면이다.
도 6은 본 발명의 성능을 검증하기 위해 시간에 따른 차선 변경 차량의 속도 변화를 종래 기술과 비교한 결과를 보여주는 그래프이다.
도 7은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법의 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치의 블록도이다.
본 발명에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치(100, 이하 장치)는 심층강화학습 알고리즘을 이용하여 자율주행차량의 차선 변경 학습 방법을 제안한다.
본 발명에서, 개체(자율주행차량)는 환경(도로 상태)과의 상호작용을 통해 학습한다. 개체는 도로 상태를 관측한 뒤 학습된 정보를 바탕으로 그에 맞는 행동을 수행한다. 이때, 절대적인 도로 정보를 확인할 수 없기 때문에 부분적이며 완벽하지 않은 관측된 정보를 사용한다.
행동 수행(차선 변경 및 가속도 조절)의 결과로 새로운 상태를 얻게 되며 이를 바탕으로 보상을 얻는다. 개체는 보상이 최대가 되는 방향으로 학습을 한다.
도 1을 참조하면, 본 발명에 따른 장치(100)는 관측부(110), 통합 학습부(130) 및 정책 활용부(150)를 포함한다. 상기 장치(10)는 자율주행차량의 제어 모듈에 포함되거나 제어 모듈의 일부를 구성할 수 있다.
본 발명의 상기 장치(100)는 자율주행차량을 위한 심층강화학습 기반 차선 변경을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 관측부(110), 상기 통합 학습부(130) 및 상기 정책 활용부(150)의 구성은 상기 장치(100)에서 실행되는 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 장치(100)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 관측부(110), 상기 통합 학습부(130) 및 상기 정책 활용부(150)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 장치(100)는 이동성을 갖거나 고정될 수 있다. 상기 장치(100)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 장치(100)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
상기 관측부(110)는 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집한다. 예를 들어, 상기 관측부(110)는 자율주행차량의 속도와 차선, 선두차량의 속도, 후방차량의 속도, 선두차량의 상대 위치, 후방차량의 상대 위치 및 각 차량이 위치한 차선 번호를 수집할 수 있다.
본 발명의 일 실시예에서, 다차선의 도로 환경은 이차선 원형도로일 수 있다(도 2 참조). 도로 내 비 자율주행차량들은 느리게 등속 주행을 하여 자율주행차량(10)이 차선 변경을 수행하여야만 목표 속도에 도달할 수 있는 환경을 조성하였다.
도로 내 차량의 집합 은 비 자율주행차량의 집합 와 자율주행차량의 집합 으로 구성한다. 도로에 배치된 전체 차량의 수 대이다. 예를 들어, 차선 번호 k는 가장 바깥쪽 차선이 0번 차선이며 안쪽으로 갈수록 차선의 번호는 증가할 수 있다.
도 3을 참조하면, 본 발명에서 자율주행차량 eN(10)은 도로 전체의 상태 정보 st가 아닌 근접 도로 상태에 대한 부분 관측만이 가능하다. 자율주행차량 eN(10)의 관측 정보 은 다음과 같은 14차원으로 정의할 수 있다.
여기서, 는 각각 0번 차선 선두차량의 속도, 1번 차선 선두차량의 속도, 0번 차선 후방차량 속도, 1번 차선 후방차량의 속도, 자율주행차량의 속도를 의미한다.
는 각각 0번 차선 선두차량, 1번 차선 선두차량, 0번 차선 후방차량, 1번 차선 후방차량과 자율주행차량 사이의 상대 거리를 의미한다.
마지막으로, 는 0번 차선 선두차량, 1번 차선 선두차량, 0번 차선 후방차량, 1번 차선 후방차량 그리고 자율주행차량의 시간 t에서의 차선을 의미한다.
상기 통합 학습부(130)는 도 4와 같이 심층 신경망(11)을 포함하고, 센서(13) 등을 통해 수집한 데이터(관측값)를 기반으로 행동을 수행하고, 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 행동에 대한 보상값을 도출한다.
또한, 상기 통합 학습부(130)는 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 자율주행차량의 차선 변경 및 가속도 조절에 대한 행동 정책(policy)을 학습한다.
일 실시예에서, 행동 정책(policy)을 학습하는 심층강화학습 알고리즘 중 PPO(Proximal Policy Optimization) 알고리즘을 이용할 수 있다.
상기 통합 학습부(130)는 행동부(131), 보상부(133) 및 정책 학습부(135)를 포함할 수 있다.
상기 행동부(131)는 수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행할 수 있다.
상기 보상부(133)는 수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출할 수 있다.
상기 정책 학습부(135)는 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책을 심층강화학습 알고리즘을 이용하여 학습할 수 있다. 또한, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트할 수 있다.
본 발명에서는 신속한 주행 및 안정성을 위한 마르코프 의사결정 과정(Markov Decision Process; MDP)을 모델링하여, 심층 강화학습 알고리즘 중 하나인 Proximal Policy Optimization(PPO) 알고리즘을 통해 자율주행차량을 학습시켜 효과를 확인하고자 한다.
강화학습은 학습의 주체인 개체(10, 자율주행차량)가 환경(도로(1) 상태)과의 상호작용을 통해 학습을 하는 기계학습의 방법 중 하나이다. 본 발명의 실시예에서 강화학습은 MDP를 따른다. MDP는 개체가 수행하는 의사 결정 과정을 확률적으로 모델링하는 방법으로 일련의 튜플 로 정의할 수 있다.
상태 공간(state space) 는 개체가 상호작용하는 환경의 시간 t에서의 상태(state) st의 집합이다. 관측 공간(observation space) 는 개체가 환경을 관측 정보(observation) ot의 집합이다. 이때 개체가 관측 가능한 상태 정보의 집합이 상태공간과 동일한 경우 완전 관측(full observation)이라고 하며, 일부로 한정되는 경우를 부분 관측(partial observation)이라고 한다.
행동 공간(action space) 는 개체가 취할 수 있는 모든 행동(action) at의 집합이다. 보상함수 (st,at,st+1)(이하 t로 표기)은 상태 st에서 행동 at를 취할 때 변한 상태 st+1에 대해 환경이 개체에게 주는 보상을 의미한다. 개체는 특정 상태 st에서 보상 t가 최대가 되는 행동 at를 취하는 방향으로 학습한다. 마지막으로 는 시간에 따른 감가율(discount factor)을 의미한다.
본 발명에서 차선 변경을 통해 개체가 효율적인 주행을 할 수 있도록 하며 동시에 주변 차량의 주행을 방해하지 않기 위한 보상 함수는 다음의 수학식 1과 같다.
[수학식 1]
먼저, 는 보상항으로 자율주행차량이 목표 속도 에 가깝게 주행할 수 있도록 한다. 만약 이 목표 속도 와 동일하다면 최댓값인 1의 보상이 주어지며, 에서 증가하거나 감소하는 경우 그보다 낮은 보상이 주어진다. ??
는 자율주행차량이 차선 변경 했을 때 후방차량의 안전 범위를 침범하는 것에 대한 처벌항이다.
도 5를 참조하면, 는 시간 t+1에서 후방차량과 자율주행차량 사이의 상대 거리를 의미한다. 는 안전 거리며 이는 환경 설정 및 사용자에 의해 조절될 수 있다.
안전 거리는 사용하는 안전 시스템에 따라 달라질 수 있다. 예를 들어, 자율주행차량의 자동 안정 보조 시스템에 내장되어 있다면, 각각의 시스템에서 사용되는 안전 거리를 사용할 수 있다.
또한, 비 자율주행 차량의 설계를 IDM 컨트롤러(controller) 기반으로 하는 경우, IDM 컨트롤러에 의해 조절되기 때문에 안전 거리 는 아래의 수학식 2와 같이 설정할 수 있다.
[수학식 2]
여기서, 는 차량 간 최소 허용 거리이며, 은 time headway로 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간이다.
개체가 취할 수 있는 행동은 로 나타낼 수 있다. acc는 자율주행차량의 가속도를 의미하며, 의 연속적인 범위를 갖는다. 는 자율주행차량의 차선 변경 방향을 의미하며, 와 같은 이산적인 값을 갖는다. 예를 들어, 0은 차선을 유지하는 경우, -1은 우측 차선으로의 차선 변경, 1은 좌측 차선으로의 차선 변경을 의미할 수 있다.
상기 정책 활용부(150)는 학습된 심층강화학습을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행한다.
이하에서는, 도로 교통 시뮬레이터에 대한 심층 강화학습 프레임워크 FLOW를 사용하여 본 발명의 성능을 평가한 결과를 설명한다.
도로의 구성은 260m의 2차선 원형 도로(도 2)이며 차량의 수 대 이다. 여기서, 자율주행차량의 수 대 이며 비 자율주행차량의 수 대 이다. 비 자율주행차량은 모두 IDM 컨트롤러를 사용하며 주행 속도는 1m/s로 고정하였다.
최소 허용 거리 , time headway , 목표 속도 로 설정하였다. 본 시뮬레이션에서 수학식 1의 는 10, 1로 설정하였으며, 1 time step 로 정의하였다.
심층 강화학습 알고리즘 PPO로 학습한 차량의 성능 평가를 위해, 제어이론 기반의 LC2013(선행기술문헌의 비특허문헌 1) 차선 변경 모델을 적용한 경우와 성능 비교를 진행하였다.
도 6을 통해 두 차량 모두 목표 속도인 3m/s를 유지하려는 모습을 확인할 수 있다. 아래의 표 1을 통해 단일 에피소드에서 차선 변경을 수행하는 단일 차량의 평균 속도와 속도의 분산을 자세히 확인할 수 있다.
[표 1]
LC2013 모델을 사용한 경우 차선 변경 결정을 바로 내리지 못하고 비 자율주행 선두차량 뒤에서 선두차량의 속도에 맞춰 운행하며 시간을 지체하는 것을 확인할 수 있다. 이는 도 6의 time step 1700 및 2500 부근에서 비 자율주행차량들의 속도인 1m/s로 유지하는 모습을 통해 단적으로 확인 가능하다.
반면, PPO를 사용하는 경우에는 전방차량이 길을 막고 있을 때 의미 없이 기다리지 않고 차선을 변경하기 때문에 일정한 속도를 유지하며 주행하는 모습을 확인하였다.
결과적으로, 제어 이론 기반의 차선 변경 모델인 LC2013을 사용한 경우에 비해 심층강화학습 기반 모델인 PPO를 사용하여 학습한 경우 더욱 자연스러운 차선 변경을 수행하는 모습을 확인하였다.
결론적으로, 본 발명에 따라 심층 강화학습 알고리즘인 PPO를 통해 학습한 자율주행차량은 전통적인 제어이론 기반 차선 변경 모델을 적용한 비 자율주행차량과 비교하였을 때 더욱 높은 성능을 보여주었다. 자율주행차량의 평균 속력은 비 자율주행차량 약 10% 상승 하였고 목표 속도에 가까운 주행 능력을 보였다.
도 7은 본 발명의 일 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법의 흐름도이다.
본 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 도 1의 장치(100)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(100)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.
또한, 본 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은 자율주행차량을 위한 심층강화학습 기반 차선 변경을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.
본 발명은 심층강화학습 알고리즘 중 하나의 실시예로서 PPO 기반의 자율주행차량의 차선 변경 학습 방법을 제안한다. 본 발명에서, 개체(자율주행차량)는 환경(도로 상태)과의 상호작용을 통해 학습한다. 개체는 도로 상태를 관측한 뒤 학습된 정보를 바탕으로 그에 맞는 행동을 수행한다. 이때, 절대적인 도로 정보를 확인할 수 없기 때문에 부분적이며 완벽하지 않은 관측된 정보를 사용한다.
행동 수행(차선 변경 및 가속도 조절)의 결과로 새로운 상태를 얻게 되며 이를 바탕으로 보상을 얻는다. 개체는 보상이 최대가 되는 방향으로 학습을 한다.
도 7을 참조하면, 본 실시예에 따른 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은, 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집한다(단계 S10).
예를 들어, 부분 관측을 통해 각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집할 수 있다.
예를 들어, 다차선의 도로 환경은 이차선 원형도로일 수 있다.
수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행한다.(단계 S20). 여기서, 자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가질 수 있다.
수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출한다(단계 S30).
상기 보상 함수는, 자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함할 수 있다. 특히, 처벌항은 차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성될 수 있다.
안전 거리는 사용하는 안전 시스템에 따라 달라질 수 있다. 예를 들어, 자율주행차량의 자동 안정 보조 시스템에 내장되어 있다면, 각각의 시스템에서 사용되는 안전 거리를 사용할 수 있다. 또한, 비 자율주행 차량의 설계를 IDM 컨트롤러(controller) 기반으로 하는 경우, IDM 컨트롤러에 의해 조절될 수도 있다.
부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습한다(단계 S40).
예를 들어, 심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용하여 행동 정책(policy)을 학습할 수 있고, 도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트할 수 있다.
현재까지 학습된 정책의 성능이 미리 설정한 기준치를 초과하는 경우(단계 S50), 학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행한다(단계 S60).
반면, 현재까지 학습된 정책의 성능이 미리 설정한 기준치에 미치지 못하는 경우(단계 S50), 단계 S10으로 돌아가 다시 학습을 수행한다.
이와 같은, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
본 발명은 운전자의 목적에 도달하기 위해 빈번하게 발생하는 차선 변경에 대해 주행의 안전성과 효율성을 높일 수 있다. 따라서, 현재 인공지능 기술의 발전과 함께 발전하고 있는 자율주행기술에 유용하게 적용할 수 있다.
10: 자율주행차량
100: 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치
110: 관측부
130: 통합 학습부
131: 행동부
133: 보상부
135: 정책 학습부
150: 정책 활용부
1: 도로
11: 심층 신경망
13: 센서
100: 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치
110: 관측부
130: 통합 학습부
131: 행동부
133: 보상부
135: 정책 학습부
150: 정책 활용부
1: 도로
11: 심층 신경망
13: 센서
Claims (18)
- 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계;
수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 단계;
수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 단계;
부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 단계; 및
학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 단계;를 포함하고,
상기 보상 함수는,
자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함하고,
상기 처벌항은,
차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성되는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
- 제1항에 있어서, 상기 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 단계는,
각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
- 제1항에 있어서, 상기 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 단계는,
자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가지는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
- 삭제
- 삭제
- 제1항에 있어서, 상기 심층강화학습 알고리즘을 이용하여 학습하는 단계는,
심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
- 제1항에 있어서,
도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트하는 단계;를 더 포함하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
- 제1항에 있어서,
다차선의 도로 환경은 이차선 원형도로인, 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법.
- 제1항에 따른 상기 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
- 다차선의 도로 환경에서 자율주행차량이 근접 도로의 상태에 대해 부분 관측하여 데이터를 수집하는 관측부;
수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하고, 수행한 자율주행차량의 행동에 대한 보상값을 도출하여 부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책(policy)을 심층강화학습(deep reinforcement learning) 알고리즘을 이용하여 학습하는 통합 학습부; 및
학습된 행동 정책을 기초로 현재 도로 상태에 대한 자율주행차량의 최적의 주행을 수행하는 정책 활용부;를 포함하고,
상기 통합 학습부는,
수집한 데이터를 기반으로 차선 변경 및 가속도 조절 중 적어도 하나의 행동을 수행하는 행동부;
수행한 자율주행차량의 행동을 반영하여 자율주행차량의 목표 속도 및 후방차량과의 안전 거리를 기초로 하는 보상 함수로부터 자율주행차량의 행동에 대한 보상값을 도출하는 보상부; 및
부분 관측한 데이터, 수행한 행동 정보 및 도출된 보상값 중 적어도 하나의 정보를 기초로 차선 변경 및 가속도 조절 중 적어도 하나에 대한 행동 정책을 심층강화학습 알고리즘을 이용하여 학습하는 정책 학습부;를 포함하고,
상기 보상 함수는,
자율주행차량의 목표 속도에 가깝게 주행할 수 있도록 하는 보상항 및 자율주행차량이 차선을 변경한 경우 후방차량과의 안전 거리를 침범하는 것에 대한 처벌항을 포함하고,
상기 처벌항은,
차량 간 최소 허용 거리 및 선두차량과 후방차량이 동일한 위치에 도달하는데 필요한 최소 허용 시간을 기초로 생성되는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
- 제10항에 있어서, 상기 관측부는,
각 차선의 선두차량의 속도, 각 차선의 후방차량 속도, 자율주행차량의 속도, 각 차선의 선두차량과 자율주행차량 사이의 상대 거리, 각 차선의 후방차량과 자율주행차량 사이의 상대 거리 및 각 차량이 위치한 차선 번호를 수집하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
- 삭제
- 제10항에 있어서, 상기 행동부는,
자율주행차량의 가속도는 -1 내지 1 사이의 연속적인 범위를 가지며, 차선 변경 방향은 각각 차선 유지, 우측 차선으로의 차선 변경 및 좌측 차선으로의 차선 변경을 의미하는 값을 가지는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
- 삭제
- 삭제
- 제10항에 있어서, 상기 통합 학습부는,
심층강화학습 중 PPO(Proximal Policy Optimization) 알고리즘을 이용하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
- 제10항에 있어서, 상기 통합 학습부는,
도출한 자율주행차량의 행동에 대한 보상값을 기초로 행동 정책을 업데이트하는, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
- 제10항에 있어서,
다차선의 도로 환경은 이차선 원형도로인, 자율주행차량을 위한 심층강화학습 기반 차선 변경 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20210076733 | 2021-06-14 | ||
KR1020210076733 | 2021-06-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220167730A KR20220167730A (ko) | 2022-12-21 |
KR102631402B1 true KR102631402B1 (ko) | 2024-01-31 |
Family
ID=84536778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210118540A KR102631402B1 (ko) | 2021-06-14 | 2021-09-06 | 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102631402B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019087096A (ja) * | 2017-11-08 | 2019-06-06 | 本田技研工業株式会社 | 行動決定システム及び自動運転制御装置 |
JP2020035222A (ja) * | 2018-08-30 | 2020-03-05 | 本田技研工業株式会社 | 学習装置、学習方法、およびプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3864574A1 (en) * | 2018-10-16 | 2021-08-18 | Five AI Limited | Autonomous vehicle planning and prediction |
CN109949611B (zh) | 2019-03-28 | 2021-11-30 | 阿波罗智能技术(北京)有限公司 | 无人车的变道方法、装置及存储介质 |
KR20210044960A (ko) | 2019-10-15 | 2021-04-26 | 현대자동차주식회사 | 자율주행차량의 차선변경 제어 장치 및 그 방법 |
-
2021
- 2021-09-06 KR KR1020210118540A patent/KR102631402B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019087096A (ja) * | 2017-11-08 | 2019-06-06 | 本田技研工業株式会社 | 行動決定システム及び自動運転制御装置 |
JP2020035222A (ja) * | 2018-08-30 | 2020-03-05 | 本田技研工業株式会社 | 学習装置、学習方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
심우일 외 2인, 시뮬레이션기반 자율주행 환경을 위한 정책 최적화 강화학습 비교, 2018년 한국소프트웨어종합학술대회 논문집, 2018.12., pp. 833-835.* |
Also Published As
Publication number | Publication date |
---|---|
KR20220167730A (ko) | 2022-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7231372B2 (ja) | 自律走行車ポリシー生成 | |
KR102461831B1 (ko) | 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법 | |
US20220363279A1 (en) | Method for combating stop-and-go wave problem using deep reinforcement learning based autonomous vehicles, recording medium and device for performing the method | |
Dong et al. | Intention estimation for ramp merging control in autonomous driving | |
Maiti et al. | The impact of flexible platoon formation operations | |
Lefevre et al. | A learning-based framework for velocity control in autonomous driving | |
JP7283844B2 (ja) | キーフレームベースの自律走行車の動作のためのシステムおよび方法 | |
Khan et al. | Analyzing cooperative lane change models for connected vehicles | |
US10860025B2 (en) | Modeling graph of interactions between agents | |
CN111267846A (zh) | 一种基于博弈论的周围车辆交互行为预测方法 | |
Li et al. | An explicit decision tree approach for automated driving | |
US20210341886A1 (en) | System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints | |
Dong et al. | Interactive ramp merging planning in autonomous driving: Multi-merging leading PGM (MML-PGM) | |
Pierson et al. | Learning risk level set parameters from data sets for safer driving | |
EP3961598A1 (en) | Method and system for enabling cooperative coordination between autonomously acting entities | |
CN118238847B (zh) | 一种自适应不同驾驶风格和路面环境的自主换道决策规划方法和系统 | |
Guo et al. | Toward human-like behavior generation in urban environment based on Markov decision process with hybrid potential maps | |
Schester et al. | Automated driving highway traffic merging using deep multi-agent reinforcement learning in continuous state-action spaces | |
Zou et al. | Predicting vehicle lane-changing behavior with awareness of surrounding vehicles using LSTM network | |
KR102631402B1 (ko) | 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Kim et al. | Identifying suitable car-following models to simulate automated vehicles on highways | |
Fan et al. | Developing a merge lane change decision policy for autonomous vehicles by deep reinforcement learning | |
CN114360290B (zh) | 一种基于强化学习的交叉口前车辆群体车道选择方法 | |
CN114506337B (zh) | 用于确定要由自主车辆执行的操纵的方法和系统 | |
Youssef et al. | Deep reinforcement learning with external control: Self-driving car application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |