KR102457914B1 - 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치 - Google Patents

심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치 Download PDF

Info

Publication number
KR102457914B1
KR102457914B1 KR1020210091665A KR20210091665A KR102457914B1 KR 102457914 B1 KR102457914 B1 KR 102457914B1 KR 1020210091665 A KR1020210091665 A KR 1020210091665A KR 20210091665 A KR20210091665 A KR 20210091665A KR 102457914 B1 KR102457914 B1 KR 102457914B1
Authority
KR
South Korea
Prior art keywords
vehicle
autonomous vehicle
autonomous
reinforcement learning
learning
Prior art date
Application number
KR1020210091665A
Other languages
English (en)
Inventor
권민혜
이동수
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to US17/535,567 priority Critical patent/US12091025B2/en
Application granted granted Critical
Publication of KR102457914B1 publication Critical patent/KR102457914B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • B60W30/143Speed control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/06Improving the dynamic response of the control system, e.g. improving the speed of regulation or avoiding hunting or overshoot
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18018Start-stop drive, e.g. in a traffic jam
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • B60W40/105Speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • B60W40/107Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2530/00Input parameters relating to vehicle conditions or values, not covered by groups B60W2510/00 or B60W2520/00
    • B60W2530/10Weight
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2530/00Input parameters relating to vehicle conditions or values, not covered by groups B60W2510/00 or B60W2520/00
    • B60W2530/13Mileage
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2530/00Input parameters relating to vehicle conditions or values, not covered by groups B60W2510/00 or B60W2520/00
    • B60W2530/16Driving resistance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/10Accelerator pedal position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/802Longitudinal distance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/804Relative longitudinal speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)

Abstract

심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법은, 자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 중 하나의 알고리즘 및 보상함수를 선택하는 단계; 선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정하는 단계; 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계; 및 자율주행차량의 행동을 결정하는 학습된 정책을 기반으로 자율주행차량을 운행하는 단계;를 포함한다. 이에 따라, 시뮬레이션을 통해 자율주행차량을 도로에 배치함으로써 원형 도로의 stop-and-go wave 현상을 해결할 수 있다.

Description

심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR COMBATING STOP-AND-GO WAVE PROBLEM USING DEEP REINFORCEMENT LEARNING BASED AUTONOMOUS VEHICLES, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}
본 발명은 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 가속도 제어 정책 학습을 위한 다양한 심층강화학습 알고리즘을 기반으로 하는 자율주행차량을 이용하여 원형 도로에서 빈번하게 발생하는 stop-and-go wave 현상을 해결하여 도로 흐름을 개선하는 기술에 관한 것이다.
인공지능 기술의 도약과 함께 자율주행기술 분야는 대중과 연구자들 모두에게 흥미로운 주제 중 하나로 각광받고 있다. 미국자동차공학회(Society of Automotive Engineers)는 자율주행기술을 0 내지 5단계로 구분한 가이드를 제공한다. 0단계인 완전 비 자율주행부터 운전자 보조, 부분 자율주행, 조건부 자율주행, 고도 자율주행, 그리고 5단계인 완전 자율주행 기술까지 총 6단계로 구분할 수 있다.
현재 국내외 기업에서 3단계 자율주행차량의 개발을 성공적으로 이루었으며 Waymo, GM, 현대기아 등은 4단계 자율주행차량의 개발을 진행 중에 있다. 또한, 한국은 세계 최초로 3단계 자율주행차량 안전기준을 발표하였으며 2020년 7월부터 3단계 차량의 출시 및 판매가 가능해졌다. 한국과학기술평가원이 2019년에 보고한 바에 따르면 2020년부터 2035년까지 레벨 4단계의 자율주행차량 시장은 연평균 84.2%의 성장을, 레벨 3단계의 경우 연평균 33.6%의 성장이 전망되었다.
자율주행기술의 구성 요소에는 환경 및 위치 인식과 같은 인지 기술, 판단 기술, 그리고 제어 기술과 함께 탑승자에게 정보를 제공하는 인터페이스(interface)가 있다. 3가지 요소들이 완벽하게 학습될 때 완전 자율주행차량이 상용화될 수 있으며, 이러한 연구는 인공지능의 발전에서 핵심적인 역할을 한 딥러닝(deep learning)을 통해 집중적으로 연구되고 있다.
자율주행기술의 연구는 역할에 따른 기능 모듈을 독립적으로 학습시키거나 구현하는 파이프라인 방식과 전체의 과정을 한 번에 학습하는 엔드-투-엔드(end-to-end) 방식이 있다. 먼저, 기능적 모듈화를 통한 파이프라인 방식은 주로 인지(perception), 계획(planning), 행동(action)의 모듈로 구성되며, 각 모듈은 독립적으로 학습된다. 반면, 엔드-투-엔드 방식은 자율주행기술 요소의 기능적인 모듈화 과정 없이 자율주행의 과정 전체를 학습하는 방식이다. 가장 대표적인 학습 방법으로는 강화학습(reinforcement learning)이 있다.
강화학습은 학습 개체(agent)가 환경(environment)과 상호작용하며 시행착오를 통해 최적의 행동을 찾아내는 기계학습 방법의 하나이다. 강화학습에 딥러닝을 접목시킨 심층강화학습(deep reinforcement learning)은 환경의 복잡성과 불확실성이 큰 경우에도 심층신경망을 이용하여 최적 정책 학습이 가능하다. 따라서, 자율주행기술과 같이 복잡한 현실 세계의 공학 문제에 널리 활용된다.
심층강화학습을 위한 알고리즘은 구글 딥마인드(Google DeepMind)에서 제안한 Deep Q-Network(DQN)를 시작으로 계속해서 발전을 이루고 있다. 그러나, 자율주행기술에는 DQN을 제외한 최신 알고리즘이 적용된 연구 사례 및 알고리즘 간 성능 비교가 드물게 이루어지고 있다. 특히, 알고리즘에 따라 행동전략이 다르게 학습될 수 있기에, 주행 패턴이 중요한 자율주행차량의 경우 알고리즘 간 비교 연구가 필수적이다.
한편, 원형 도로에 다수의 차량을 배치한 환경에서는 특정 차량이 감속하게 되면 반응 시간 지체 현상(reaction time delay)에 의해 뒤따라오는 차들이 연달아 감속하는 현상이 발생한다. 이는 실제 도로에서 특별한 원인 없이 교통이 정체되는 유령 체증의 원인이 될 수 있다.
또한, 원형 도로 환경의 특성상 감속 현상이 발생하는 도로의 반대편에는 가속하는 구간이 생긴다. 결과적으로, 가속과 감속에 의해 전체 차량의 속도가 물결치는 반복적인 현상이 관찰된다. 이러한 현상은 stop-and-go wave라고 불린다.
DQN부터 최신 알고리즘까지 자율주행 기술에 활발히 적용되고 있으나, 각 알고리즘별 성능 비교에 대한 연구는 상대적으로 매우 적다. 또한, 대부분의 연구는 특정한 도로 환경에서의 정상 주행을 목표로 하고 있고, 자율주행차를 활용한 정체 현상 해결에 관한 연구는 미비한 상태이다.
US 2017/0038775 A1 US 2018/0129205 A1 KR 10-1646134 B1
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법을 수행하기 위한 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법은, 자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 중 하나의 알고리즘 및 보상함수를 선택하는 단계; 선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정하는 단계; 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계; 및 자율주행차량의 행동을 결정하는 학습된 정책을 기반으로 자율주행차량을 운행하는 단계;를 포함한다.
본 발명의 실시예에서, 상기 복수의 심층강화학습 알고리즘 중 하나의 알고리즘을 선택하는 단계는, 자율주행차량 학습을 위해 PPO, DDPG, TD3 및 심층강화학습 알고리즘 중 하나의 심층강화학습 알고리즘 및 심층신경망 구조를 선택하는 단계; 선택된 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정하는 단계; 및 해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터를 초기화하는 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는, 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보를 획득하는 단계; 상태 정보에 따른 자율주행차량의 행동을 결정하는 단계; 자율주행차량의 행동에 따른 보상 정보를 획득하는 단계; 자율주행차량의 행동에 따라 변화된 도로의 상태 정보를 획득하는 단계; 및 보상 정보를 바탕으로 심층신경망을 업데이트 하는 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는, 심층신경망의 변화가 기준치 이상인지 판단하는 단계; 및 심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정하는 단계;를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 자율주행차량의 행동은 가속도이며, 유한한 행동 공간은 음의 실수인 최소 가속도부터 양의 실수인 최대 가속도까지의 실수 집합일 수 있다.
본 발명의 실시예에서, 상기 보상함수는, 목표 속도에 가까울수록 큰 값을 갖는 보상 항(reward term) 및 미리 설정된 임계값(threshold)과 자율주행차량의 가속도의 절대값 사이의 차이를 이용하는 처벌 항(penalty term)을 포함할 수 있다.
본 발명의 실시예에서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는, 각 시간마다 자율주행차량의 상태 정보를 획득하는 단계; 획득한 상태 정보에서 행동을 선택하여 수행하는 단계; 수행한 행동에 따른 보상 정보 및 다음 시간의 상태 정보를 획득하는 단계; 및 획득한 상태 정보, 행동 정보, 보상 정보 및 다음 시간의 상태 정보를 각 알고리즘에 따른 목적함수(objective function)에 기초하여 네트워크 및 목표 네트워크를 포함하는 심층신경망을 업데이트하는 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 자율주행차량을 운행하는 단계는, 자율주행차량의 상태 정보를 획득하는 단계; 획득된 상태 정보에 따라 자율주행차량의 행동을 결정하는 단계; 및 운행 종료 조건이 있는 경우, 운행을 종료하는 단계;를 포함할 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치는, 자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 알고리즘 중 하나의 알고리즘을 선택하는 알고리즘 선택부; 자율주행차량 학습을 위한 특정 상태에서 수행한 행동에 따른 보상 정보를 획득하기 위한 보상함수를 결정하는 보상함수 결정부; 선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정하는 심층신경망 구조 결정부; 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 정책 학습부; 및 자율주행차량의 행동을 결정하는 학습한 정책을 기반으로 자율주행차량을 운행하는 정책 활용부;를 포함한다.
본 발명의 실시예에서, 상기 알고리즘 선택부는, 자율주행차량 학습을 위해 PPO, DDPG, TD3 및 심층강화학습 알고리즘 중 하나의 심층강화학습 알고리즘 및 심층신경망 구조를 선택하고, 선택된 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정한 후, 해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터를 초기화할 수 있다.
본 발명의 실시예에서, 상기 정책 학습부는, 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보를 획득하여, 상태 정보에 따른 자율주행차량의 행동을 결정하는 제1 행동 결정부; 자율주행차량의 행동에 따른 보상 정보를 획득하는 보상 정보 획득부; 자율주행차량의 행동에 따라 변화된 상태 정보를 획득하는 제1 상태 정보 획득부; 및 보상 정보를 바탕으로 심층신경망을 업데이트 하는 심층신경망 업데이트부;를 포함할 수 있다.
본 발명의 실시예에서, 상기 정책 학습부는, 심층신경망의 변화가 기준치 이상인지 판단하여, 심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정할 수 있다.
본 발명의 실시예에서, 상기 자율주행차량의 행동은 가속도이며, 유한한 행동 공간은 음의 실수인 최소 가속도부터 양의 실수인 최대 가속도까지의 실수 집합일 수 있다.
본 발명의 실시예에서, 상기 보상함수는, 목표 속도에 가까울수록 큰 값을 갖는 보상 항(reward term) 및 미리 설정된 임계값(threshold)과 자율주행차량의 가속도의 절대값 사이의 차이를 이용하는 처벌 항(penalty term)을 포함할 수 있다.
본 발명의 실시예에서, 상기 정책 학습부는, 미래의 누적 보상을 최대로 만드는 특정 상태에서 가능한 행동의 분포를 나타내는 확률적 또는 결정론적 정책을 결정할 수 있다.
본 발명의 실시예에서, 상기 정책 활용부는, 자율주행차량의 상태 정보를 획득하는 제2 상태 정보 획득부; 및 획득된 상태 정보에 따라 자율주행차량의 행동을 결정하고, 운행 종료 조건이 있는 경우, 운행을 종료하는 제2 행동 결정부;를 포함할 수 있다.
이와 같은 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법에 따르면, 차량 밀집 환경에서 도로의 흐름을 제어할 수 있는 의사결정 모델을 제안한다. 또한, 각 심층강화학습 알고리즘을 통해 학습시킨 자율주행차량의 주행패턴 및 성능을 비교 분석하여 가장 효율적인 주행을 지향하는 알고리즘을 선택하여 적용할 수 있다.
특히, 심층강화학습 알고리즘 중 PPO, DDPG, TD3의 성능을 비교하여 원형 도로에서 가장 효율적인 주행패턴을 학습하는 알고리즘을 확인할 수 있다.
도 1은 본 발명의 일 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치의 블록도이다.
도 2는 도 1의 정책 학습부에 대한 블록도이다.
도 3은 도 1의 정책 활용부에 대한 블록도이다.
도 4는 본 발명의 자율주행 환경인 원형도로에서의 멈춤-가속 반복 현상(stop-and-go wave)을 설명하기 위한 도면이다.
도 5는 본 발명의 자율주행차량에서 관측 가능한 상태 정보를 설명하기 위한 도면이다.
도 6은 본 발명에 따른 자율주행차량을 위한 심층강화학습 기반 가속도 제어 의사코드의 예시를 보여준다.
도 7은 본 발명에서 학습하는 알고리즘 중 PPO의 심층신경망 구조를 설명하기 위한 도면이다.
도 8은 본 발명에서 학습하는 알고리즘 중 DDPG의 심층신경망 구조를 설명하기 위한 도면이다.
도 9는 본 발명에서 학습하는 알고리즘 중 TD3의 심층신경망 구조를 설명하기 위한 도면이다.
도 10은 차량의 행동 선택 및 컨트롤러(controller)의 구성을 보여주는 도면이다.
도 11은 각 심층강화학습 알고리즘에서 시간에 따른 단일 에피소드의 누적 평균 보상을 보여주는 도면이다.
도 12는 각 심층강화학습 알고리즘에서 시간에 따른 자율주행차량의 가속도 변화를 보여주는 도면이다.
도 13은 각 심층강화학습 알고리즘에서 시간에 따른 자율주행차량의 속도 변화를 보여주는 도면이다.
도 14는 각 심층강화학습 알고리즘에서 시간에 따른 비 자율주행차량의 속도 변화를 보여주는 도면이다.
도 15는 각 심층강화학습 알고리즘에서 모든 차량의 시간에 따른 속도 분산을 보여주는 도면이다.
도 16은 본 발명의 일 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법의 흐름도이다.
도 17은 도 16의 정책 학습 단계에 대한 흐름도이다.
도 18은 도 16의 학습한 정책을 기반으로 운행하는 단계에 대한 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치의 블록도이다.
본 발명에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치(10, 이하 장치)는 원형 도로 환경에서 가속과 감속에 의해 전체 차량의 속도가 물결치는 반복적인 현상(이하, stop-and-go wave)을 최소화할 수 있도록 학습된 자율주행차량을 도로에 배치하여, 전반적인 도로 흐름을 원활하게 한다.
도 1을 참조하면, 본 발명에 따른 장치(10)는 알고리즘 선택부(130), 보상함수 결정부(110), 심층신경망 구조 결정부(150), 정책 학습부(170) 및 정책 활용부(190)를 포함한다.
본 발명의 상기 장치(10)는 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 알고리즘 선택부(130), 상기 보상함수 결정부(110), 상기 심층신경망 구조 결정부(150), 상기 정책 학습부(170) 및 상기 정책 활용부(190)의 구성은 상기 장치(10)에서 실행되는 상기 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 알고리즘 선택부(130), 상기 보상함수 결정부(110), 상기 심층신경망 구조 결정부(150), 상기 정책 학습부(170) 및 상기 정책 활용부(190)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
상기 알고리즘 선택부(130)는 자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 알고리즘 중 하나의 알고리즘을 선택한다.
상기 알고리즘 선택부(130)는 자율주행차량 학습을 위해 PPO, DDPG, TD3 및 심층강화학습 알고리즘 중 하나의 심층강화학습 알고리즘 및 심층신경망 구조를 선택하고, 선택된 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정한 후, 해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터를 초기화한다.
본 발명의 일 실시예에서는 자율주행차량 학습을 위해 심층강화학습 알고리즘 중 PPO, DDPG, TD3 및 기타 알고리즘 중 하나를 이용하고, 각 알고리즘을 통해 학습시킨 자율주행차량의 주행패턴 및 성능을 비교 분석하여 가장 효율적인 주행을 지향하는 알고리즘을 확인한다. 그러나, 본 발명에서 선택한 심층강화학습 알고리즘은 예시들에 불과하며, 다른 알고리즘 역시 추가로 활용할 수 있다.
상기 보상함수 결정부(110)는 자율주행차량 학습을 위한 특정 상태에서 수행한 행동에 따른 보상 정보를 획득하기 위한 보상함수를 결정한다.
상기 심층신경망 구조 결정부(150)는 상기 알고리즘 선택부(130)에서 선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정한다.
상기 정책 학습부(170)는 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습한다.
상기 정책 학습부(170)는 심층신경망의 변화가 기준치 이상인지 판단하여, 심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정할 수 있다.
도 2를 참조하면, 상기 정책 학습부(170)는 제1 행동 결정부(171), 보상 정보 획득부(173), 제1 상태 정보 획득부(175) 및 심층신경망 업데이트부(177)를 포함할 수 있다.
상기 제1 행동 결정부(171)는 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보를 획득하여, 상태 정보에 따른 자율주행차량의 행동을 결정한다.
도 4를 참조하면, 본 발명에서는 다수의 차량이 존재하여 정체 현상이 빈번하게 나타나는 원형 도로 환경을 다룬다. 원형 도로에서는 한 차량이 감속하게 되면 뒤따른 차들이 연쇄적으로 감속을 하게 되는 한편, 도로의 반대편에서는 가속하는 구간이 생기기 때문에 stop-and-go wave 현상이 빈번하게 발생한다.
원형 도로 내 전체 차량의 집합
Figure 112021080767375-pat00001
는 다음의 수학식 1과 같이 정의한다.
[수학식 1]
Figure 112021080767375-pat00002
여기서,
Figure 112021080767375-pat00003
번째 차량인
Figure 112021080767375-pat00004
는 자율주행차량을 의미한다. 자율주행차량을 제외한 모든 차량은 비 자율주행차량으로
Figure 112021080767375-pat00005
로 정의한다. 차들은 도로에서 반시계 방향으로 운동하며 차량의 인덱스는 시계 방향으로 정의된다. 즉,
Figure 112021080767375-pat00006
번째 차량
Figure 112021080767375-pat00007
Figure 112021080767375-pat00008
의 선두 차량을 의미한다.
본 발명의 일 실시예에서 자율주행차량의 수는 1대로 한정하며, 전체 차량의 수는
Figure 112021080767375-pat00009
이다. 따라서, 비 자율주행차량의 수는
Figure 112021080767375-pat00010
대 이다. 원형 도로의 길이는
Figure 112021080767375-pat00011
로 정의한다. 차량의 위치는 도로 내 기준점으로부터 이동한 실제 거리로 나타낸다. 시간
Figure 112021080767375-pat00012
에서
Figure 112021080767375-pat00013
번째 차량
Figure 112021080767375-pat00014
의 위치는
Figure 112021080767375-pat00015
로 정의한다. 도로 내 모든 차량이 위치 가능한 공간의 집합은
Figure 112021080767375-pat00016
로 정의한다.
본 발명에서는 자율주행차량
Figure 112021080767375-pat00017
는 확률 모델인 마르코프 의사결정 과정(Markov Decision Process; MDP)을 통해 가속도를 제어한다. MDP 확률 모델은 <
Figure 112021080767375-pat00018
>의 튜플(tuple) 형태로 표현할 수 있다.
Figure 112021080767375-pat00019
는 개체가 위치할 수 있는 유한한 상태 공간(state space)을 의미하며,
Figure 112021080767375-pat00020
는 개체가 취할 수 있는 모든 행동이 포함된 유한한 행동 공간(action space)을 의미한다.
Figure 112021080767375-pat00021
은 환경으로부터 개체가 받게 되는 보상공간이다. 마지막으로,
Figure 112021080767375-pat00022
는 감가율(discount factor)로 즉각적인 보상과 미래에 받게 되는 지연 보상 사이의 중요도를 결정하는 변수이며
Figure 112021080767375-pat00023
을 만족한다.
시간 t의 자율주행차량
Figure 112021080767375-pat00024
의 상태정보
Figure 112021080767375-pat00025
는 다음의 수학식 2와 같이 정의한다.
[수학식 2]
Figure 112021080767375-pat00026
여기서,
Figure 112021080767375-pat00027
는 시간
Figure 112021080767375-pat00028
의 자율주행차량
Figure 112021080767375-pat00029
의 속도를 의미하며,
Figure 112021080767375-pat00030
는 시간
Figure 112021080767375-pat00031
의 자율주행차량
Figure 112021080767375-pat00032
와 선두 차량
Figure 112021080767375-pat00033
의 상대 속도를 의미한다.
Figure 112021080767375-pat00034
는 시간
Figure 112021080767375-pat00035
의 자율주행차량
Figure 112021080767375-pat00036
와 선두 차량
Figure 112021080767375-pat00037
의 상대 위치를 의미하며 길이
Figure 112021080767375-pat00038
의 원형 도로라는 특성을 반영하여 함수
Figure 112021080767375-pat00039
는 다음의 수학식 3과 같이 정의된다.
[수학식 3]
Figure 112021080767375-pat00040
본 발명에서는 현실적인 문제 설정을 위해 자율주행차량
Figure 112021080767375-pat00041
의 상태 정보
Figure 112021080767375-pat00042
에 도로 내 모든 차량이 아닌 선두 차량
Figure 112021080767375-pat00043
한 대만 포함하였다. 따라서, 상태 정보의 차원은
Figure 112021080767375-pat00044
로 정의된다.
도 5를 참조하면, 자율주행차량
Figure 112021080767375-pat00045
가 관측 가능한 정보를 확인할 수 있다. 이때 검은색 차량은 자율주행차량 이며, 회색 차량은 자율주행차량의 선두 차량
Figure 112021080767375-pat00046
으로 관측 가능한 비 자율주행차량을 나타낸다. 흰색 차량은 관측 불가능한 비 자율주행차량을 나타낸다.
자율주행차량
Figure 112021080767375-pat00047
가 취할 수 있는 행동은 가속도
Figure 112021080767375-pat00048
로 정의된다. 유한한 행동 공간
Figure 112021080767375-pat00049
는 차량에서 물리적으로 한정하는 최소 가속도
Figure 112021080767375-pat00050
부터 최대 가속도
Figure 112021080767375-pat00051
까지의 실수 집합
Figure 112021080767375-pat00052
로 정의한다. 여기서,
Figure 112021080767375-pat00053
은 음의 실수이며
Figure 112021080767375-pat00054
는 양의 실수이다.
Figure 112021080767375-pat00055
인 경우는 브레이크가 작동되는 것을 의미하며,
Figure 112021080767375-pat00056
인 경우에는 액셀이 작동되는 것을 의미한다.
상기 보상 정보 획득부(173)는 자율주행차량의 행동에 따른 보상 정보를 획득하고, 상기 제1 상태 정보 획득부(175)는 자율주행차량의 행동에 따라 변화된 상태 정보를 획득한다.
밀집된 차량 환경에서 stop-and-go wave 현상 방지를 위해 설정한 보상함수
Figure 112021080767375-pat00057
은 다음의 수학식 4와 같이 정의한다.
[수학식 4]
Figure 112021080767375-pat00058
보상함수는 두 항으로 구성된다. 첫 항
Figure 112021080767375-pat00059
은 보상 항(reward term)으로 도로 내 자율주행차량의 속도
Figure 112021080767375-pat00060
가 목표 속도
Figure 112021080767375-pat00061
에 가까울수록 큰 값을 갖게 설정하였다. 이를 통해 목표 속도에 가깝게 주행할 수 있도록 하여 정체 현상을 방지할 수 있도록 한다.
두 번째 항
Figure 112021080767375-pat00062
은 처벌 항(penalty term)으로 임계값(threshold)
Figure 112021080767375-pat00063
와 자율주행차량
Figure 112021080767375-pat00064
의 가속도
Figure 112021080767375-pat00065
의 절댓값 사이의 차이를 이용한다. 만약,
Figure 112021080767375-pat00066
이면, 자율주행차량이 가속하는 행위에 대한 처벌이 될 수 있다. 처벌 항은 stop-and-go wave 현상의 원인인 특정 차량의 급가속 및 급감속을 막아 등속 주행을 할 수 있도록 해준다. 마지막으로
Figure 112021080767375-pat00067
는 처벌 항의 스케일 조절을 위해 사용되는 파라미터이다.
이렇게 설계한 보상함수는 자율주행차량이 특정 속도에 도달한 뒤 등속 주행을 할 수 있도록 한다. 즉, 정체 현상 및 연쇄적인 지연 현상을 방지하고 결과적으로 멈춤과 가속의 반복 현상의 감소를 기대할 수 있다.
상기 심층신경망 업데이트부(177)는 보상 정보를 바탕으로 심층신경망을 업데이트한다.
상기 정책 학습부(170)는 심층신경망의 변화가 기준치 이상인지 판단하여, 심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정한다.
자율주행차량의 최종 목표는 미래의 누적 보상을 최대로 만드는 최적의 정책
Figure 112021080767375-pat00068
을 학습하는 것이다. 이때 정책
Figure 112021080767375-pat00069
은 상태
Figure 112021080767375-pat00070
에서 가능한 행동
Figure 112021080767375-pat00071
의 분포를 나타내며, 정책은 확률적
Figure 112021080767375-pat00072
(stochastic policy)일 수도 있고 결정론적
Figure 112021080767375-pat00073
(deterministic policy)일 수도 있다.
정책을 결정하기 위해서는 상태나 상태-행동 조합의 가치를 평가해야 하기 때문에, 상태 가치 함수
Figure 112021080767375-pat00074
(state-value function) 혹은 행동 가치 함수
Figure 112021080767375-pat00075
(action-value function or Q-function)을 사용한다. 가치함수는 다음의 수학식 5와 같이 정의한다.
[수학식 5]
Figure 112021080767375-pat00076
상기 정책 활용부(190)는 자율주행차량의 행동을 결정하는 학습한 정책을 기반으로 자율주행차량을 운행한다. 상기 정책 활용부(190)는 미래의 누적 보상을 최대로 만드는 특정 상태에서 가능한 행동의 분포를 나타내는 확률적 또는 결정론적 정책을 결정할 수 있다.
도 3을 참조하면, 상기 정책 활용부(190)는 자율주행차량의 상태 정보를 획득하는 제2 상태 정보 획득부(191) 및 획득된 상태 정보에 따라 자율주행차량의 행동 결정하고, 운행 종료 조건이 있는 경우, 운행을 종료하는 제2 행동 결정부(193)를 포함할 수 있다.
본 발명에서 제안한 MDP 문제를 해결하기 위한 학습 과정은 도 6의 알고리즘 1을 통해 확인할 수 있다. 우선 자율주행차량을 학습시키기 위해 심층강화학습 알고리즘을 선택한다. 그리고 시뮬레이터(simulator)와 알고리즘 각각의 파라미터를 설정한다. 학습이 시작되기 전 알고리즘의 심층신경망을 구성하는 파라미터
Figure 112021080767375-pat00077
를 초기화한다. 파라미터 설정을 할 때 알고리즘이 만약 DQN 기반의 방식이라면 목표 네트워크(target network)를 위한 파라미터
Figure 112021080767375-pat00078
도 초기화한다.
전체
Figure 112021080767375-pat00079
번의 에피소드를 진행할 때 매 에피소드마다 환경 및 알고리즘이 새롭게 초기화되며 각 에피소드는
Figure 112021080767375-pat00080
time steps으로 구성된다. 매 time step
Figure 112021080767375-pat00081
마다 개체는 상태 정보
Figure 112021080767375-pat00082
를 얻은 뒤 액터 네트워크에서 근사된 정책
Figure 112021080767375-pat00083
을 통해 행동
Figure 112021080767375-pat00084
을 선택하여 수행한다.
Figure 112021080767375-pat00085
을 수행하면 개체는 보상
Figure 112021080767375-pat00086
와 함께 다음 상태 정보
Figure 112021080767375-pat00087
를 얻는다.
이렇게 수집한 일련의 정보
Figure 112021080767375-pat00088
을 이용해 네트워크를 업데이트하는데 사용한다. 만약 DDPG 혹은 TD3와 같이 off-policy 방법을 사용한다면 경로정보를 replay buffer
Figure 112021080767375-pat00089
에 저장하여 네트워크의 업데이트에 사용한다. 네트워크의 업데이트 및 평가 방식에 사용되는 목적함수(objective function)는 각 알고리즘마다 다르며 각각의 목적함수를 통해 네트워크 및 목표 네트워크를 포함하는 심층심경망을 업데이트한다.
이하에서는 본 발명의 실시예에서 사용한 각 심층강화학습 알고리즘의 네트워크 구조 및 목적함수를 설명한다.
1. Proximal Policy Optimization (PPO)
PPO 의 네트워크 집합
Figure 112021080767375-pat00090
은 액터 네트워크
Figure 112021080767375-pat00091
와 크리틱 네트워크
Figure 112021080767375-pat00092
로 구분할 수 있다. PPO 의 액터 네트워크를 업데이트하기 위한 목적함수는 클립된 대리 목적함수(clipped surrogate objective function) 라고 불리며 다음과 같은 수학식 6을 갖는다.
[수학식 6]
Figure 112021080767375-pat00093
Figure 112021080767375-pat00094
는 정책을 근사하는 액터 네트워크의 파라미터이다.
Figure 112021080767375-pat00095
는 이전 정책
Figure 112021080767375-pat00096
과 현재 정책
Figure 112021080767375-pat00097
간의 확률비를 나타낸 값이며,
Figure 112021080767375-pat00098
는 아래의 수학식 7과 같이 추정된 이득 함수(advantage function)이다. 마지막으로
Figure 112021080767375-pat00099
은 클리핑의 기준을 정하는 파라미터이다.
[수학식 7]
Figure 112021080767375-pat00100
Figure 112021080767375-pat00101
PPO에서 크리틱 네트워크를 업데이트하기 위해 사용되는 목적함수는 다음의 수학식 8과 같다.
[수학식 8]
Figure 112021080767375-pat00102
크리틱 네트워크의 목적함수
Figure 112021080767375-pat00103
는 두 개의 목적함수
Figure 112021080767375-pat00104
Figure 112021080767375-pat00105
중 더 큰 값을 이용하여 나타낼 수 있다.
Figure 112021080767375-pat00106
는 목표 가치함수
Figure 112021080767375-pat00107
와 크리틱 네트워크의 파라미터
Figure 112021080767375-pat00108
로 근사되는 현재의 가치함수
Figure 112021080767375-pat00109
의 차, 즉 오차의 제곱을 통해 나타낸다.
Figure 112021080767375-pat00110
Figure 112021080767375-pat00111
(수학식 9 참조)와 목표 가치함수
Figure 112021080767375-pat00112
의 오차의 제곱을 통해 나타낸다. 이때,
Figure 112021080767375-pat00113
는 예측된 가치함수 즉, 업데이트 이전의 네트워크에서 얻은 가치함수의 출력값을 의미한다.
[수학식 9]
Figure 112021080767375-pat00114
이와 같은 목적함수의 근사는 PPO 알고리즘의 심층신경망에 의해 이루어진다. PPO 알고리즘의 심층신경망 구조의 일례는 도 7과 같다. 액터 네트워크의 경우 개체가 관측한 상태 정보
Figure 112021080767375-pat00115
를 입력값으로 사용한다. 입력값은 은닉층(hidden layer)을 거쳐 정책
Figure 112021080767375-pat00116
에서 행동
Figure 112021080767375-pat00117
를 출력한다. 크리틱 네트워크의 경우 동일하게 상태 정보
Figure 112021080767375-pat00118
를 사용하지만 은닉층을 거쳐 가치함수
Figure 112021080767375-pat00119
를 출력한다. 각 계층의 활성화 함수 및 은닉층의 각 계층과 노드는 사용자에 의해 결정된다.
2. Deep Deterministic Policy Gradient (DDPG)
DDPG 의 네트워크 집합
Figure 112021080767375-pat00120
역시 액터 네트워크
Figure 112021080767375-pat00121
와 크리틱 네트워크
Figure 112021080767375-pat00122
로 구분할 수 있다. 또한, DDPG 의 경우 off-policy 기반의 알고리즘으로 목표 네트워크 집합
Figure 112021080767375-pat00123
를 갖는다. Q-함수를 위한 크리틱 네트워크의 목적함수
Figure 112021080767375-pat00124
는 아래의 수학식 10과 같다.
[수학식 10]
Figure 112021080767375-pat00125
여기서, 목표
Figure 112021080767375-pat00126
는 보상과 목표 정책
Figure 112021080767375-pat00127
하에서의 Q-함수 값의 합을 의미한다. 이때
Figure 112021080767375-pat00128
와 같이 행동
Figure 112021080767375-pat00129
를 선택할 때 결정론적인
Figure 112021080767375-pat00130
방법을 사용한다.
Figure 112021080767375-pat00131
은 batch size를 의미한다. 크리틱 네트워크는 수학식 10의 목적함수가 최소화 되는 방향으로 학습된다.
DDPG 의 정책 최적화를 위한 액터 네트워크의 목적함수는 다음의 수학식 11과 같다.
[수학식 11]
Figure 112021080767375-pat00132
DDPG는 매번 목표 네트워크를 다음의 수학식 12와 같은 방식으로 업데이트한다.
[수학식 12]
Figure 112021080767375-pat00133
수학식 12의
Figure 112021080767375-pat00134
는 크리틱 네트워크의 Q-함수를 근사하는 파라미터 이며,
Figure 112021080767375-pat00135
는 목표 Q-함수를 근사하는 파라미터이다.
Figure 112021080767375-pat00136
는 액터 네트워크의 정책 근사 파라미터 이며,
Figure 112021080767375-pat00137
는 목표 정책을 근사하는 파라미터이다.
각각의 네트워크의 업데이트 수식에 사용된
Figure 112021080767375-pat00138
는 목표 네트워크의 변화율을 조절하는 파라미터이다.
Figure 112021080767375-pat00139
가 1에 가까울수록 목표 네트워크의 파라미터는 크게 변화하며 0에 가까울수록 적게 변화한다. 이러한 방식을 soft update 라고 하며 DDPG 는 이를 통해 목표 네트워크가 천천히 변화할 수 있도록 강제한다. 목적함수의 근사는 심층신경망을 통해 이루어지며 DDPG 의 심층신경망 구조의 일례는 도 8과 같다.
3. Twin Delayed DDPG (TD3)
TD3의 네트워크 집합
Figure 112021080767375-pat00140
및 목표 네트워크 집합
Figure 112021080767375-pat00141
은 DDPG 의 네트워크에서 크리틱 네트워크가 한 개 더 추가된 구성이다. 또한, TD3에서 사용되는 목적함수는 DDPG 와 동일한 구성을 가지며 크리틱 네트워크에서 사용되는 수학식 10의 목표 함수
Figure 112021080767375-pat00142
를 구하는 방법만 아래의 수학식 13으로 변경된다.
[수학식 13]
Figure 112021080767375-pat00143
이는 DDPG의 과대추정 편향(overestimation bias)을 해결하기 위해 개선된 방법이다.
Figure 112021080767375-pat00144
을 통해 두 네트워크에서 근사한 Q-함수 중 더욱 작은 값을 사용한다. 또한, 목표 정책에 평활화(smoothing) 기법을 적용하여 행동 선택 과정에서 클리핑 무작위 잡음(clipped random noise)
Figure 112021080767375-pat00145
를 가한다.
TD3 와 DDPG 는 네트워크 업데이트 방식에서도 차이를 보인다. DDPG 의 경우 정해진 time step 마다 모든 네트워크가 차례로 학습을 하는 반면 TD3는 지연 업데이트(delayed update) 방식을 사용한다. 이는 크리틱 네트워크보다 액터 네트워크와 목표 네트워크의 업데이트 주기를 늦추는 방식이다. 이를 통해 Q-함수가 안정되어 다른 네트워크에서 발생하는 과대 추정 및 오류의 축적을 방지할 수 있다. 결과적으로 분산이 낮은 값을 추정할 수 있도록 하며 정책의 품질을 보장한다.
TD3 의 심층신경망 구조 역시 전반적으로 DDPG와 유사하다. 하지만 TD3 의 경우 twin Q-learning을 적용하였기 때문에 Q-함수
Figure 112021080767375-pat00146
Figure 112021080767375-pat00147
에 대한 네트워크 파라미터
Figure 112021080767375-pat00148
Figure 112021080767375-pat00149
가 각각 존재한다는 점을 도 9를 통해 확인할 수 있다.
상기 정책 활용부(190)는 학습된 정책에 따른 자율주행차량의 속도가 등속주행에 가장 가까운 심층강화학습 알고리즘을 자율주행차량의 가속도를 제어하는 의사결정 알고리즘으로 적용한다.
일 실시예에서는, 각 알고리즘에 따른 주행패턴 비교를 통해 속도 및 가속도를 분석하여 자율주행차량이 등속주행에 가장 가까운 알고리즘을 선택할 수 있다.
다른 실시예에서는 비교된 주행패턴을 통해 단위 시간당 에너지량인 전력 소비량을 평가지표로 사용하여, 전력 소비량이 가장 작은 알고리즘을 선택할 수도 있다. 그러나, 등속주행의 경우, 가속도의 변화가 감소함에 따라 차량의 에너지적인 측면에서도 효율이 높은 것이 일반적이다.
이하에서는, 위의 각 알고리즘을 시뮬레이션하여 성능을 분석한다. 도로는 도 4와 같은 원형 구조이다. 시뮬레이션 과정에서 도로의 길이는
Figure 112021080767375-pat00150
Figure 112021080767375-pat00151
으로 고정되어 있다. 반면, 자율주행차량
Figure 112021080767375-pat00152
를 학습시키는 과정에서는 특정 도로 길이에 과적합(overfitting) 되는 것을 방지하기 위해 모의실험(simulation)이 초기화 될 때마다
Figure 112021080767375-pat00153
에서 임의로 설정한다.
학습 및 성능 평가는 모의실험 환경에서 진행된다. 한 번의 모의실험은 하나의 시동(warm-up)기간
Figure 112021080767375-pat00154
과 에피소드
Figure 112021080767375-pat00155
의 두 단계로 구성된다. 즉, 전체 모의실험 중 한 번의 에피소드는
Figure 112021080767375-pat00156
로 구성된다. 시동 기간은 고전적으로 시뮬레이션의 시작단계에서 발생하는 스타트업 문제(start-up problem)를 해결하기 위해 설정하였다. 시동기간 동안의 데이터는 학습에 포함하지 않으며 본 실험에서 예를 들어,
Figure 112021080767375-pat00157
이다.
도로를 주행하는 차량의 수는
Figure 112021080767375-pat00158
이다. 도로 내 자율주행차량의 수는 1대이며, 도 4의 검은색 차량이 자율주행차량
Figure 112021080767375-pat00159
이다. 나머지 21대의 차량은 모두 비 자율주행차량이며, 도 4의 회색 차량은 자율주행차량이 학습 중 관측할 수 있는 선두 차량
Figure 112021080767375-pat00160
이다. 흰색 차량은 모두 비 자율주행차량으로, 자율주행차량이 관측할 수 없는 차량
Figure 112021080767375-pat00161
이다. 모든 차량의 크기는 동일하게 5m 로 설정하였다. 자율주행차량의 행동공간의 범위는
Figure 112021080767375-pat00162
이다.
차량의 행동 선택 및 컨트롤러(controller, 30)의 구성은 도 10과 같다. 모든 차량은 도로 구조에 대한 경로 설정 컨트롤러(routing controller, 31)를 갖고 있어 매 time step 마다 경로를 계산하여 진행 방향에서 벗어나지 않도록 조절한다. 또한, 모든 차량은 기본 컨트롤러(base controller, 33)를 포함한다. 기본 컨트롤러(33)는 지능형운전보조시스템(advanced driver assistance system)과 같은 안전보조 역할을 담당한다. 예를 들어, 선두 차량과의 거리가 안전거리보다 가까워지면 급브레이크를 밟게 되는 등의 행동을 수행한다.
자율주행차량은 RL 컨트롤러(35)를 통해 학습된 정보를 바탕으로 특정 상태에 맞는 행동
Figure 112021080767375-pat00163
를 수행한다. 반면, 비 자율주행차량의 경우 Intelligent Driving Model(IDM) 컨트롤러(37)를 사용하여 선두 차량과의 안전거리를 유지하며 행동
Figure 112021080767375-pat00164
을 결정하도록 설정하였다.
IDM 컨트롤러(37)는 다음의 수학식 14를 통해 비 자율주행차량의 가속도
Figure 112021080767375-pat00165
를 조절한다.
[수학식 14]
Figure 112021080767375-pat00166
여기서,
Figure 112021080767375-pat00167
는 목표속도,
Figure 112021080767375-pat00168
는 속도 지수(velocity exponent)를 의미한다.
Figure 112021080767375-pat00169
의 경우
Figure 112021080767375-pat00170
이므로 양의 가속을 결정한다. 목표 속도
Figure 112021080767375-pat00171
의 경우에는 가속을 0으로 하여 등속 운동을,
Figure 112021080767375-pat00172
일 때는 음의 가속을 결정하도록 유도하여 차량이
Figure 112021080767375-pat00173
를 유지할 수 있도록 설계하였다.
수학식 14의 세 번째 항
Figure 112021080767375-pat00174
은 비 자율주행차량
Figure 112021080767375-pat00175
Figure 112021080767375-pat00176
의 선두 차량
Figure 112021080767375-pat00177
사이의 안전거리를 유지할 수 있도록 보조하는 역할을 한다. 여기서 함수
Figure 112021080767375-pat00178
는 아래의 수학식 15,
Figure 112021080767375-pat00179
는 수학식 3을 따르며
Figure 112021080767375-pat00180
로 설정하였다.
[수학식 15]
Figure 112021080767375-pat00181
이때,
Figure 112021080767375-pat00182
은 time headway로
Figure 112021080767375-pat00183
Figure 112021080767375-pat00184
이 동일한 위치에 도달하는데 걸리는 시간의 차이를 의미한다. IDM 컨트롤러(37)로 결정한
Figure 112021080767375-pat00185
Figure 112021080767375-pat00186
Figure 112021080767375-pat00187
의 가우시안 분포(Gaussian distribution)를 갖는 잡음을 더해주어 실제 운전자들의 얘기치 못한 행동 또한 표현 가능하도록 설정하였다.
이하에서는 본 발명의 자율주행차량에서 사용된 심층신경망 구조 및 학습 설정을 설명하고, 심층강화학습 알고리즘별 성능 평가를 설명한다.
본 발명에서 사용된 심층강화학습 알고리즘 PPO, DDPG, TD3 는 모두 액터-크리틱 구조를 가진다. PPO의 크리틱 네트워크는 가치함수를 근사한다. PPO의 모든 네트워크의 입력값으로는 상태 정보를 사용한다. 본 발명에서 사용한 PPO의 심층신경망 구조는 도 7에 도시되어 있다.
반면, DDPG와 TD3의 크리틱 네트워크는 Q-함수를 근사한다. 따라서 크리틱 네트워크의 입력값으로 상태 정보와 행동 정보가 함께 사용된다. 본 발명에서 사용한 DDPG, TD3의 심층신경망 구조는 도 8 및 도 9에 각각 도시되어 있다.
학습 초기 더 나은 정책을 찾기 위한 탐험(exploration)과정은 PPO의 경우 확률적 행동 추출(stochastic sampling) 방식으로 진행된다. DDPG는 Ornstein-Uhlenbeck noise를 더하는 방식으로, TD3는 Gaussian noise를 더하는 방식으로 구현하였다. TD3에서만 사용된 policy delay
Figure 112021080767375-pat00188
는 지연 업데이트를 위해 필요한 파라미터로, 크리틱 네트워크가 2번 업데이트 될 때 액터 네트워크와 목표 네트워크는 1번 업데이트 되도록 설정하였다.
본 발명에서는 세 가지 알고리즘을 이용하여 학습시킨 자율주행차량의 주행성능 평가 및 주행패턴 분석을 진행하였다. 각 알고리즘의 정량적 성능 평가를 위해 단일 에피소드에서의 누적 평균 보상의 변화를 확인하였다.
자율주행차량의 정성적 성능인 주행패턴의 확인을 위해서는 단일 에피소드에서 time step 변화에 따른 속도 및 가속도의 변화를 확인하였다. 마지막으로 본 발명에서 해결하고자 하였던 원형도로의 stop-and-go wave 현상 해결을 평가하기 위해 비 자율주행차량으로만 구성된 네트워크와 비교한다. 이를 위해 비 자율주행차량의 속도 변화 및 time step에 따른 22대 차량의 속도에 대한 분산을 확인하였다.
성능평가를 위해 10개의 랜덤 시드 번호(random seed number)를 생성하여 랜덤 시드 번호마다 한 대의 차량을 학습시켰다. 알고리즘별 10대의 학습 차량의 결과를 확인할 수 있다.
심층강화학습 알고리즘별 학습 과정은 도 11을 통해 확인할 수 있다. 도 11은 단일 에피소드에서 얻을 수 있는 누적 보상을 time step 별로 확인하였다. 세 알고리즘 모두 2200~2350 사이의 값에서 수렴하는 결과를 보였다.
도 11을 참조하면, DDPG와 TD3의 경우 PPO에 비해 조금 더 빠르게 수렴하는 모습을 확인할 수 있다. 이는 두 알고리즘이 결정론적 정책을 사용하며 off-policy 방법을 사용하여 효과적으로 탐험을 하기 때문이라고 해석된다. 이러한 정책의 특성 때문에 수렴 단계에서 TD3와 DDPG의 경우 각 개체가 일정한 값을 유지하는 모습을 확인할 수 있다.
TD3의 경우 정책의 업데이트를 지연하며, 두 개의 Q-함수 중 최소값을 선택적으로 사용하여 학습하기 때문에 DDPG 보다는 천천히 학습되는 모습을 확인할 수 있다. 또한, DDPG의 경우 TD3에 비해 과대평가되는 방향의 학습 경향을 확인하였다.
PPO는 on-policy 방법을 사용하여 목표 정책과 행동 정책의 구분이 없기 때문에 다른 두 알고리즘에 비해 수렴하기 위해 많은 time step을 필요로 한다. 또한, PPO의 정책 학습 방식은 분산이 최적화된 정책 분포에서 행동을 선택하는 확률적 정책이다. 이러한 차이 때문에 특정 개체에서 수렴 궤도에 오른 이후에도 곡선을 이탈하는 지점을 찾아볼 수 있다.
또한, 각 알고리즘 별 자율주행차량의 주행 성능 및 패턴을 분석한다. 도 12는 단일 에피소드에서 시간에 따른 자율주행차의 가속도 변화를 나타낸 그래프이며, 도 13은 시간에 따른 자율주행차의 속도 변화를 나타낸 그래프이다.
도 12를 참조하여 가속도의 변화를 살펴보면, PPO로 학습된 차량의 경우 양의 가속도를 유지한 채 등가속도 운동을 하다가 순간적인 음의 가속도로 제동을 하는 모습을 보인다. DDPG로 학습된 차량의 경우 역시 가속 운동을 하며 제동을 하지만 그 정도가 PPO에 비해서는 약한 모습을 보여준다. 이러한 제동은 선두 차량과의 상대적인 거리가 가까워졌을 때 안전거리를 확보하기 위함이다.
반면 TD3로 학습된 차량의 가속도는 주행 내내 0 에 수렴하여 등가속도 운동을 하는 모습을 보여주었다. 이러한 주행 패턴의 차이는 도 13을 통해 자세하게 확인할 수 있다. PPO로 학습된 차량의 속도는 시간의 변화에 따라 계속해서 감속 및 가속하는 모습을 보였다. DDPG로 학습된 차량의 경우 PPO와 비교하여 조금 더 자연스럽게 가속 조절을 한다고 판단할 수 있다.
두 알고리즘으로 학습된 차량의 경우 가속 주행을 지향하기 때문에 약
Figure 112021080767375-pat00189
사이의 속도로 지속적으로 변화를 시키며 주행한다. 반면 TD3 로 학습된 차량의 시간에 따른 속도 변화 곡선은
Figure 112021080767375-pat00190
정도의 속도로 등속주행에 가깝게 주행한다는 것을 확인 할 수 있다.
본 발명에서 궁극적으로 해결하고자 하는 stop-and-go wave 문제가 해결되었는지를 확인하기 위해 자율주행차량이 도로 내 존재하는 경우와 비 자율주행차량만 도로에 존재하는 경우의 도로 내 속도를 비교한다. 정량적 성능평가를 위하여 각 도로에서 무작위로 선택한 비 자율주행차량 1대의 속도 변화 및 전체 차량 속도의 분산 값을 확인하였다.
속도 변화 그래프의 진폭을 확인하여 stop-and-go wave 현상의 유무를 확인할 수 있고, 이를 정량적으로 측정하기 위하여 전체 차량 속도의 분산 값을 이용하였다. 분산 값이 작으면 도로 내 차량들의 속도가 비슷하게 운동하여 stop-and-go wave 현상이 해결됨을 의미한다.
도 14는 각 네트워크에서 시간에 따른 비 자율주행차량 한 대의 속도 변화를 나타낸 그래프이다. PPO, TD3, 그리고 DDPG 가 포함된 도로에서의 비 자율주행차량의 속도 변화에서는 큰 진폭을 보이지 않는 결과를 확인할 수 있다. 반면 비 자율주행차량만이 존재하는 도로의 경우 stop-and-go wave 현상으로 인해 매우 큰 진폭을 확인할 수 있다.
도 15는 시간에 따른 모든 차량의 속도의 분산을 나타낸 그래프다. 분산이 크다는 것은 구성 차량의 속도가 일정하지 않다는 것이다. 즉, 계속된 속도 변화로 인해 stop-and-go wave 현상이 해소되지 않았음을 의미한다. 비 자율주행차량으로만 구성된 네트워크의 경우 큰 분산을 보이며 자율주행차량이 존재하는 경우에는 0에 근사할 수준의 분산을 보였다.
각 알고리즘 별 분산의 자세한 경향성 역시 도 15를 통해 확인할 수 있다. 또한, 표 1을 통해 각 네트워크에서의 평균 속도를 확인할 수 있다.
Algorithm Non PPO DDPG TD3
Velocity (m/s) 2.97 4.75 4.72 4.61
Variance 0.88 0.001 0.001 0.001
표 1을 참조하면, 각각의 알고리즘으로 학습된 자율주행차량이 포함된 네트워크는 그렇지 않은 네트워크에 비해 각각 60%(PPO), 59%(DDPG), 그리고 55%(TD3)의 평균속도 증가를 보였다.
본 발명에서는 심층강화학습 알고리즘을 통해 자율주행차량을 학습시켜 원형도로에서 발생하는 stop-and-go wave 현상 해결 및 알고리즘별 주행 패턴을 분석하였다. 본 발명에서 제안한 MDP 모델로 학습시킨 자율주행차량이 존재하는 네트워크의 경우 비 자율주행차량만으로 구성된 네트워크와 비교하였을 때 stop-and-go 현상을 효과적으로 제어하였다.
도로의 평균 속도 역시 자율주행차량이 주행하는 경우 55% 이상의 높은 증가율을 보여주었다. 각 알고리즘을 통해 학습시킨 차량의 성능차이 역시 확인할 수 있었다. 수렴한 상태의 성능지표를 살펴보면 전반적인 지표에서 TD3로 학습시킨 경우 가장 안정적인 모습을 확인할 수 있었다.
정성적 결과를 통해 주행패턴 비교를 수행한 결과 PPO 및 DDPG 로 학습시킨 차량의 경우 가속주행을 지향하며 제동을 사용하는 모습을 보였다. 반면 TD3 로 학습시킨 차량의 경우에는 등속주행을 지향하는 모습을 확인할 수 있었다. 이 경우, TD3가 다른 두 알고리즘 대비 자율주행차량의 감가속을 적게 하여 에너지 효율 역시 높은 것으로 확인된다.
도 16은 본 발명의 일 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법의 흐름도이다.
본 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법은, 도 1의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.
또한, 본 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법은 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.
본 발명은 원형 도로 환경에서 가속과 감속에 의해 전체 차량의 속도가 물결치는 반복적인 현상(이하, stop-and-go wave)을 최소화할 수 있도록 학습된 자율주행차량을 도로에 배치하여, 전반적인 도로 흐름을 원활하게 한다.
도 16을 참조하면, 본 실시예에 따른 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법은, 자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 중 하나의 알고리즘 및 보상함수를 선택한다(단계 S10 및 단계 S20).
본 발명의 일 실시예에서는 자율주행차량 학습을 위해 심층강화학습 알고리즘 중 PPO, DDPG 및 TD3를 이용하고, 각 알고리즘을 통해 학습시킨 자율주행차량의 주행패턴 및 성능을 비교 분석하여 가장 효율적인 주행을 지향하는 알고리즘을 확인한다. 그러나, 본 발명에서 선택한 심층강화학습 알고리즘은 예시들에 불과하며, 다른 알고리즘 역시 추가로 활용할 수 있다.
알고리즘 선택과 함께 단계 S20은 각 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정한다. 해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터 및 시뮬레이터 환경을 초기화한다.
상기 자율주행차량의 행동에 대한 보상함수는, 목표 속도에 가까울수록 큰 값을 갖는 보상 항(reward term) 및 미리 설정된 임계값(threshold)과 자율주행차량의 가속도의 절대값 사이의 차이를 이용하는 처벌 항(penalty term)을 포함할 수 있다.
이렇게 설계한 보상함수는 자율주행차량이 특정 속도에 도달한 뒤 등속 주행을 할 수 있도록 한다. 즉, 정체 현상 및 연쇄적인 지연 현상을 방지하고 결과적으로 멈춤과 가속의 반복 현상의 감소를 기대할 수 있다.
이어, 선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정한다(단계 S30).
선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습한다(단계 S40).
일 실시예에서, 원형 도로 상에 1대의 자율주행차량과 다수의 비 자율주행차량이 운행 중인 환경이며, 자율주행차량은 비 자율주행차량 중 자신의 선두 차량에 대해서만 관측 가능하다. 여기서, 자율주행차량이 취할 수 있는 행동은 가속도이며, 유한한 행동 공간은 음의 실수인 최소 가속도부터 양의 실수인 최대 가속도까지의 실수 집합일 수 있다.
단계 S40은 획득한 상태 정보, 행동 정보, 보상 정보 및 다음 시간의 상태 정보를 각 알고리즘에 따른 목적함수(objective function)에 기초하여 네트워크 및 목표 네트워크를 포함하는 심층신경망들을 업데이트한다. 자세한 학습 과정은 도 6의 알고리즘 1에 나타내었다.
구체적으로, 도 17을 참조하면, 단계 S40은 선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보, 즉 도로의 초기 상태 정보를 획득한다(단계 S41).
상태 정보에 따른 자율주행차량의 행동을 결정하고(단계 S42), 자율주행차량의 행동에 따른 보상 정보를 획득한다(단계 S43). 이후, 자율주행차량의 행동에 따라 변화된 도로의 상태 정보를 획득하고(단계 S44), 보상 정보를 바탕으로 심층신경망을 업데이트 한다(단계 S45).
이후, 심층신경망의 변화가 기준치 이상인지 판단하고(단계 S46), 심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정한다.
자율주행차량의 행동을 결정하는 학습된 정책을 기반으로 자율주행차량을 운행한다(단계 S50).
도 18을 참조하면, 단계 S50은 획득된 도로의 상태 정보에 따라(단계 S51) 자율주행차량의 행동을 결정한다(단계 S52). 또한, 운행 종료 조건이 있는 경우, 운행을 종료한다(단계 S53).
이하에서는, 자율주행차량에서 사용된 심층강화학습 알고리즘별 성능을 평가한다. 예를 들어, PPO, DDPG 및 TD3의 세 가지 알고리즘을 이용하여 학습시킨 자율주행차량의 주행성능 평가 및 주행패턴 분석을 진행하고, 각 알고리즘의 정량적 성능 평가를 위해 단일 에피소드에서의 누적 평균 보상의 변화를 확인할 수 있다.
일 실시예에서, 등가속도 운동에 가장 가까우며, 이에 따라 자율주행차량의 감가속을 줄임에 따라 에너지 효율 역시 높은 것으로 확인된 TD3를 선택하여 적용할 수 있다.
본 발명에서는 심층강화학습 알고리즘을 통해 자율주행차량을 학습시켜 원형도로에서 발생하는 stop-and-go wave 현상 해결 및 알고리즘별 주행 패턴을 분석할 수 있다. 본 발명에서 제안한 MDP 모델로 학습시킨 자율주행차량이 존재하는 네트워크의 경우 비 자율주행차량만으로 구성된 네트워크와 비교하였을 때 stop-and-go 현상을 효과적으로 제어할 수 있다.
이와 같은, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
본 발명은 심층강화학습 알고리즘을 기반으로 한 자율주행차량을 이용하여 원형 도로에서 빈번하게 발생하는 stop-and-go wave 현상을 해결하여 도로 흐름을 개선한다. 따라서, 현재 인공지능 기술의 발전과 함께 발전하고 있는 자율주행기술에 유용하게 적용할 수 있다.
10: 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
110: 보상함수 결정부
130: 알고리즘 선택부
150: 심층신경망 구조 결정부
170: 정책 학습부
190: 정책 활용부
171: 제1 행동 결정부
173: 보상 정보 획득부
175: 제1 상태 정보 획득부
177: 심층신경망 업데이트부
191: 제2 상태 정보 획득부
193: 제2 행동 결정부
30: 차량 컨트롤러
31: 경로 설정 컨트롤러
33: 기본 컨트롤러
35: RL 컨트롤러
37: IDM 컨트롤러

Claims (17)

  1. 자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 중 하나의 알고리즘 및 보상함수를 선택하는 단계;
    선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정하는 단계;
    선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계; 및
    자율주행차량의 행동을 결정하는 학습된 정책을 기반으로 자율주행차량을 운행하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  2. 제1항에 있어서, 상기 복수의 심층강화학습 알고리즘 중 하나의 알고리즘을 선택하는 단계는,
    자율주행차량 학습을 위해 PPO, DDPG, TD3 및 심층강화학습 알고리즘 중 하나의 심층강화학습 알고리즘 및 심층신경망 구조를 선택하는 단계;
    선택된 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정하는 단계; 및
    해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터를 초기화하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  3. 제1항에 있어서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는,
    선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보를 획득하는 단계;
    상태 정보에 따른 자율주행차량의 행동을 결정하는 단계;
    자율주행차량의 행동에 따른 보상 정보를 획득하는 단계;
    자율주행차량의 행동에 따라 변화된 도로의 상태 정보를 획득하는 단계; 및
    보상 정보를 바탕으로 심층신경망을 업데이트 하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  4. 제3항에 있어서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는,
    심층신경망의 변화가 기준치 이상인지 판단하는 단계; 및
    심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정하는 단계;를 더 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  5. 제1항에 있어서,
    상기 자율주행차량의 행동은 가속도이며, 유한한 행동 공간은 음의 실수인 최소 가속도부터 양의 실수인 최대 가속도까지의 실수 집합인, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  6. 제1항에 있어서,
    상기 보상함수는, 목표 속도에 가까울수록 큰 값을 갖는 보상 항(reward term) 및 미리 설정된 임계값(threshold)과 자율주행차량의 가속도의 절대값 사이의 차이를 이용하는 처벌 항(penalty term)을 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  7. 제1항에 있어서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는,
    각 시간마다 자율주행차량의 상태 정보를 획득하는 단계;
    획득한 상태 정보에서 행동을 선택하여 수행하는 단계;
    수행한 행동에 따른 보상 정보 및 다음 시간의 상태 정보를 획득하는 단계; 및
    획득한 상태 정보, 행동 정보, 보상 정보 및 다음 시간의 상태 정보를 각 알고리즘에 따른 목적함수(objective function)에 기초하여 네트워크 및 목표 네트워크를 포함하는 심층신경망을 업데이트하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  8. 제1항에 있어서, 상기 자율주행차량을 운행하는 단계는,
    자율주행차량의 상태 정보를 획득하는 단계;
    획득된 상태 정보에 따라 자율주행차량의 행동을 결정하는 단계; 및
    운행 종료 조건이 있는 경우, 운행을 종료하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법.
  9. 제1항에 따른 상기 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
  10. 자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 알고리즘 중 하나의 알고리즘을 선택하는 알고리즘 선택부;
    자율주행차량 학습을 위한 특정 상태에서 수행한 행동에 따른 보상 정보를 획득하기 위한 보상함수를 결정하는 보상함수 결정부;
    선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정하는 심층신경망 구조 결정부;
    선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 정책 학습부; 및
    자율주행차량의 행동을 결정하는 학습한 정책을 기반으로 자율주행차량을 운행하는 정책 활용부;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
  11. 제10항에 있어서, 상기 알고리즘 선택부는,
    자율주행차량 학습을 위해 PPO, DDPG, TD3 및 심층강화학습 알고리즘 중 하나의 심층강화학습 알고리즘 및 심층신경망 구조를 선택하고, 선택된 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정한 후, 해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터를 초기화하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
  12. 제10항에 있어서, 상기 정책 학습부는,
    선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보를 획득하여, 상태 정보에 따른 자율주행차량의 행동을 결정하는 제1 행동 결정부;
    자율주행차량의 행동에 따른 보상 정보를 획득하는 보상 정보 획득부;
    자율주행차량의 행동에 따라 변화된 상태 정보를 획득하는 제1 상태 정보 획득부; 및
    보상 정보를 바탕으로 심층신경망을 업데이트 하는 심층신경망 업데이트부;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
  13. 제12항에 있어서, 상기 정책 학습부는,
    심층신경망의 변화가 기준치 이상인지 판단하여, 심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
  14. 제10항에 있어서,
    상기 자율주행차량의 행동은 가속도이며, 유한한 행동 공간은 음의 실수인 최소 가속도부터 양의 실수인 최대 가속도까지의 실수 집합인, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
  15. 제10항에 있어서,
    상기 보상함수는, 목표 속도에 가까울수록 큰 값을 갖는 보상 항(reward term) 및 미리 설정된 임계값(threshold)과 자율주행차량의 가속도의 절대값 사이의 차이를 이용하는 처벌 항(penalty term)을 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
  16. 제10항에 있어서, 상기 정책 학습부는,
    미래의 누적 보상을 최대로 만드는 특정 상태에서 가능한 행동의 분포를 나타내는 확률적 또는 결정론적 정책을 결정하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
  17. 제10항에 있어서, 상기 정책 활용부는,
    자율주행차량의 상태 정보를 획득하는 제2 상태 정보 획득부; 및
    획득된 상태 정보에 따라 자율주행차량의 행동을 결정하고, 운행 종료 조건이 있는 경우, 운행을 종료하는 제2 행동 결정부;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치.
KR1020210091665A 2021-04-21 2021-07-13 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치 KR102457914B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/535,567 US12091025B2 (en) 2021-04-21 2021-11-24 Method for combating stop-and-go wave problem using deep reinforcement learning based autonomous vehicles, recording medium and device for performing the method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210051960 2021-04-21
KR1020210051960 2021-04-21

Publications (1)

Publication Number Publication Date
KR102457914B1 true KR102457914B1 (ko) 2022-10-24

Family

ID=83805948

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210091665A KR102457914B1 (ko) 2021-04-21 2021-07-13 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치

Country Status (2)

Country Link
US (1) US12091025B2 (ko)
KR (1) KR102457914B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117592176A (zh) * 2023-10-27 2024-02-23 上海砺群科技有限公司 基于ppo算法的汽车悬架刚度阻尼协同控制系统及方法
CN117910902A (zh) * 2024-01-15 2024-04-19 广州力生机器人技术有限公司 一种基于深度强化学习的在线三维装箱方法
WO2024088068A1 (zh) * 2022-10-25 2024-05-02 重庆邮电大学 一种基于模型预测控制和强化学习融合的自动泊车决策方法
CN118372842A (zh) * 2024-06-21 2024-07-23 长城汽车股份有限公司 车辆决策方法、装置、车辆和存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230063368A1 (en) * 2021-08-27 2023-03-02 Motional Ad Llc Selecting minimal risk maneuvers
CN116055489A (zh) * 2023-01-10 2023-05-02 江南大学 一种基于ddpg算法选择车辆的异步联邦优化方法
CN116513219A (zh) * 2023-07-04 2023-08-01 江西五十铃汽车有限公司 一种车辆自适应控制方法、系统、存储介质及车辆
CN116596060B (zh) * 2023-07-19 2024-03-15 深圳须弥云图空间科技有限公司 深度强化学习模型训练方法、装置、电子设备及存储介质
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN117140527B (zh) * 2023-09-27 2024-04-26 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117911414B (zh) * 2024-03-20 2024-10-15 安徽大学 一种基于强化学习的自动驾驶汽车运动控制方法
CN118182538B (zh) * 2024-05-17 2024-08-13 北京理工大学前沿技术研究院 基于课程强化学习的无保护左转场景决策规划方法及系统
CN118306427B (zh) * 2024-06-05 2024-08-23 广汽埃安新能源汽车股份有限公司 自动驾驶决策方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101646134B1 (ko) 2015-05-06 2016-08-05 현대자동차 주식회사 자율주행차량 및 그 제어 방법
JP6074553B1 (ja) * 2015-04-21 2017-02-01 パナソニックIpマネジメント株式会社 情報処理システム、情報処理方法、およびプログラム
US20170038775A1 (en) 2015-07-20 2017-02-09 Lg Electronics Inc. Autonomous vehicle
JP2018062325A (ja) * 2016-10-15 2018-04-19 渡邉 雅弘 省エネルギー渋滞走行制御方法
US20180129205A1 (en) 2016-11-10 2018-05-10 Electronics And Telecommunications Research Institute Automatic driving system and method using driving experience database
KR20200040150A (ko) * 2018-10-08 2020-04-17 주식회사 만도 차량 제어 장치, 차량 제어 방법 및 차량 제어 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3842304B1 (en) * 2018-08-14 2024-09-18 Mobileye Vision Technologies Ltd. Systems and methods for navigating with safe distances
US20200272159A1 (en) * 2019-02-25 2020-08-27 Denso International America, Inc. Method and vehicle control system for intelligent vehicle control about a roundabout

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6074553B1 (ja) * 2015-04-21 2017-02-01 パナソニックIpマネジメント株式会社 情報処理システム、情報処理方法、およびプログラム
KR101646134B1 (ko) 2015-05-06 2016-08-05 현대자동차 주식회사 자율주행차량 및 그 제어 방법
US20170038775A1 (en) 2015-07-20 2017-02-09 Lg Electronics Inc. Autonomous vehicle
JP2018062325A (ja) * 2016-10-15 2018-04-19 渡邉 雅弘 省エネルギー渋滞走行制御方法
US20180129205A1 (en) 2016-11-10 2018-05-10 Electronics And Telecommunications Research Institute Automatic driving system and method using driving experience database
KR20200040150A (ko) * 2018-10-08 2020-04-17 주식회사 만도 차량 제어 장치, 차량 제어 방법 및 차량 제어 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
2018 21ST INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS (ITSC) *
Kang, Hyunjoo Lim, Kihong Kihong, and Minhye Kwon, A study on speed control technology based on deep reinforcement learning for autonomous vehicles on a circular road, Korea Telecommunications Society, 2020.11.* *
강민수,임현주,이기홍,권민혜, 원형도로에서 자율주행 자동차의 심층 강화학습 기반 속도 제어 기술 연구, 한국통신학회, 2020.11.*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024088068A1 (zh) * 2022-10-25 2024-05-02 重庆邮电大学 一种基于模型预测控制和强化学习融合的自动泊车决策方法
CN117592176A (zh) * 2023-10-27 2024-02-23 上海砺群科技有限公司 基于ppo算法的汽车悬架刚度阻尼协同控制系统及方法
CN117910902A (zh) * 2024-01-15 2024-04-19 广州力生机器人技术有限公司 一种基于深度强化学习的在线三维装箱方法
CN118372842A (zh) * 2024-06-21 2024-07-23 长城汽车股份有限公司 车辆决策方法、装置、车辆和存储介质

Also Published As

Publication number Publication date
US12091025B2 (en) 2024-09-17
US20220363279A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
KR102457914B1 (ko) 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치
CN111898211B (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
JP2019073271A (ja) 自律走行車ポリシー生成
US11474529B2 (en) System and method for motion planning of an autonomous driving machine
CN113609784B (zh) 一种交通极限场景生成方法、系统、设备和存储介质
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN114175068A (zh) 一种通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的方法及使用其的设备上学习装置
CN112977556B (zh) 一种列车制动曲线分段方法、系统及列车控制方法
Capasso et al. Intelligent roundabout insertion using deep reinforcement learning
CN115782880A (zh) 智能汽车换道决策方法、装置、电子设备和存储介质
CN115862322A (zh) 一种车辆可变限速控制优化方法、系统、介质及设备
CN115204455A (zh) 适用于高速与环路交通场景的长时域驾驶行为决策方法
CN118171723A (zh) 智能驾驶策略的部署方法、装置、设备、存储介质和程序产品
CN110390398B (zh) 在线学习方法
KR20230078740A (ko) 확률에 기반하여 기반에 대한 속도를 예측하기 위한 컴퓨터-보조 방법 및 디바이스
CN117473032A (zh) 基于一致扩散的场景级多智能体轨迹生成方法及装置
CN116992928A (zh) 面向公平自适应交通信号控制的多智能体强化学习方法
CN111507499A (zh) 预测用模型的构建方法、测试方法、装置及系统
CN113449823B (zh) 自动驾驶模型训练方法及数据处理设备
KR102549744B1 (ko) 심층강화학습기반 자율주행차를 이용한 도로정보시스템에서의 도로 흐름 제어 방법, 이를 수행하기 위한 기록 매체 및 장치
CN113505875A (zh) 一种故障预测方法、装置及存储介质
CN114065906A (zh) 降低计算网络的复杂度的方法和系统
KR102631402B1 (ko) 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치
CN118560521A (zh) 一种基于行为克隆和强化学习的无人车控制方法及系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant