KR102318027B1 - 자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크 - Google Patents

자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크 Download PDF

Info

Publication number
KR102318027B1
KR102318027B1 KR1020190021909A KR20190021909A KR102318027B1 KR 102318027 B1 KR102318027 B1 KR 102318027B1 KR 1020190021909 A KR1020190021909 A KR 1020190021909A KR 20190021909 A KR20190021909 A KR 20190021909A KR 102318027 B1 KR102318027 B1 KR 102318027B1
Authority
KR
South Korea
Prior art keywords
vision
reinforcement learning
options
autonomous driving
learning controller
Prior art date
Application number
KR1020190021909A
Other languages
English (en)
Other versions
KR20190119510A (ko
Inventor
쑤후이 치앙
밍창 리우
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20190119510A publication Critical patent/KR20190119510A/ko
Application granted granted Critical
Publication of KR102318027B1 publication Critical patent/KR102318027B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0248Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • B60W2420/42
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Electromagnetism (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Medical Informatics (AREA)
  • Optics & Photonics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

프레임워크는 자율 주행을 위한 안내된 정책 탐색에 기초하여 비전 및 샘플-효율적 강화-학습을 조합한다. 컨트롤러는 비전으로부터 환경 정보를 추출하고 강화 학습을 사용하여 주행하도록 트레이닝된다.

Description

자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크{VISION-BASED SAMPLE-EFFICIENT REINFORCEMENT LEARNING FRAMEWORK FOR AUTONOMOUS DRIVING}
본 발명은 자율 주행에 관한 것이다. 더 구체적으로, 본 발명은 비전-기반 자율 주행에 관한 것이다.
자율 주행은 전통적으로 규정들에 기반한다. 일부 연구들은 Q-러닝 또는 정책 계조에 기반하는 강화 학습 알고리즘을 사용하여 자율 주행에 접근했다. 그러나, 규정-기반 방법들은 적절히 스케일링할 수 없는 반면, Q-러닝 또는 정책 계조에 기반하는 강화 학습 방법들은 효율적으로 샘플링할 수 없으며 큰 상태 공간을 탐색할 필요성으로 인해 해결하기에는 매우 시간 소모적이다.
프레임워크는 자율 주행을 위한 안내된 정책 탐색에 기초하여 비전 및 샘플-효율적 강화-학습을 조합한다. 컨트롤러는 비전으로부터 환경 정보를 추출하고, 강화 학습을 사용하여 주행하도록 트레이닝된다.
일 양태에서, 방법은 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계 및 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 배치하는 단계를 포함한다. 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계는 결정할 때 탐색할 안내 관련 옵션들을 제공하기 위한 제1 양태 및 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다. 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화시키고 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현한다. 일부 실시예들에서, 자율 주행을 위한 강화 학습 컨트롤러를 배치하는 단계는 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다. 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 이미지들 및/또는 비디오들을 통해 트레이닝된다. 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계는 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용한다. 방법은 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 강화 학습 컨트롤러를 사용하여 차량을 자율 주행하는 것을 더 포함한다.
또 다른 양태에서, 시스템은 애플리케이션을 저장하기 위한 비-일시적 메모리 - 애플리케이션은: 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하고, 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 이용하기 위한 것임 -, 및 메모리에 결합되는 프로세서 - 프로세서는 애플리케이션을 프로세싱하도록 구성됨 - 를 포함한다. 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 결정할 때 탐색할 안내 관련 옵션들을 제공하기 위한 제1 양태 및 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다. 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화시키고 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현한다. 자율 주행을 위한 강화 학습 컨트롤러를 이용하는 것은 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다. 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 이미지들 및/또는 비디오들을 통해 트레이닝된다. 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용한다. 강화 학습 컨트롤러는 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 차량을 자율 주행하도록 추가로 구성된다.
또 다른 양태에서, 차량은 비전 정보를 취득하도록 구성되는 하나 이상의 카메라, 및 비전 정보를 포함하는 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하고 비전 정보를 포함하는 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 이용하도록 구성되는 하나 이상의 컴퓨팅 디바이스를 포함한다. 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 결정할 때 탐색할 안내 관련 옵션들을 제공하기 위한 제1 양태 및 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다. 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화하고 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현한다. 자율 주행을 위한 강화 학습 컨트롤러를 이용하는 것은 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다. 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용한다. 강화 학습 컨트롤러는 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 차량을 자율 주행하도록 추가로 구성된다.
도 1은 일부 실시예들에 따른 트레이닝동안 자율 주행을 위한 비전-기반 강화 학습 프레임워크를 구현하는 다이어그램을 예시한다.
도 2는 일부 실시예들에 따른 배치 동안 자율 주행을 위한 비전-기반 강화 학습 프레임워크를 구현하는 다이어그램을 예시한다.
도 3은 일부 실시예들에 따른 자율 주행을 위한 비전-기반 강화 학습 프레임워크를 구현하는 방법의 플로우차트를 예시한다.
도 4는 일부 실시예들에 따른 비전-기반 강화 학습 프레임워크를 구현하도록 구성되는 예시적인 컴퓨팅 디바이스의 블록도를 예시한다.
도 5는 일부 실시예들에 따른 비전-기반 강화 학습 프레임워크를 구현하도록 구성되는 차량의 다이어그램을 예시한다.
자율 주행을 위한 안내된 정책 탐색에 기반하는 비전(예를 들어, 이미지들) 및 샘플-효율적 강화-학습을 조합하는 프레임워크가 본원에 기술된다. 컨트롤러는 비전으로부터 환경 정보를 추출하고 강화 학습을 사용하여 주행하도록 트레이닝된다. 동기부여(motivation)는 샘플 효율적이어서 시간을 절감하고 로봇들에 대한 피로 또는 손상을 회피한다. 프레임워크는 자율 주행을 위한 안내된 정책 탐색에 기초하여 비전 및 강화 학습을 조합한다. 안내된 정책 탐색은 유망한 영역 내의 탐색 공간을 샘플 효율적이도록 제한한다.
카메라를 사용하여 취득되는 정보와 같은 비전 입력은 하나 이상의 이미지/비디오 프로세싱 알고리즘을 사용하여 프로세싱되고, 이후 프로세싱 알고리즘에 기초하여 학습이 발생할 수 있다. 강화 학습은 시험 및 에러를 사용하여 긍정적인 행태를 보상하고 부정적인 행태를 벌함으로써 인간이 학습하는 방법과 유사하다. 또한, 강화 학습은 신경망들의 딥 러닝(deep learning)을 이용함으로써 인간 조작형 특징들 없이도 비전 입력으로부터 학습한다. 안내된 정책 탐색은 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화함으로써 학습을 보조하고, 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝한다.
도 1은 일부 실시예에 따른 트레이닝 동안 자율 주행을 위한 비전-기반 강화 학습 프레임워크를 구현하는 다이어그램을 예시한다. 차량 카메라들(100)은 비전 모델(102)을 트레이닝하고 성장시키는데 이용되는 이미지들/비디오들을 캡처한다. 비전 모델(102)은 사람, 나무, 다른 차량들 및 임의의 다른 오브젝트/주행 상태와 같은 캡처된 이미지들/비디오들 내의 오브젝트들을 검출하고, 인지하고 분류하기 위해 사용된다. 일부 실시예들에서, 비전 정보는 LIDAR 및/또는 3-차원 콘텐츠 취득을 사용하여 캡처되고 저장된다. 일부 실시예들에서, 오디오는 비전 모델의 트레이닝을 보조하기 위해 캡처되고 사용된다. 구현예에 따라, 비전 모델은 이미지들, 비디오들 및/또는 오디오, 계산/수치 정보, 깊이 맵 정보, 분류 정보, 라벨 정보, 임의의 다른 정보 및/또는 이들의 임의의 조합을 포함할 수 있다. 비전 모델(102)로부터의 출력은 이미지들의 전체적으로 관측된 상태들을 포함하는 라벨링된 이미지들(106)을 또한 수신하는 강화 학습 컨트롤러(104)로 간다. 일부 실시예들에서, 라벨링된 이미지들(106)은 이미지들의 부분적으로 관측된 상태들을 포함한다. 비전 모델 출력은 임의의 포맷일 수 있고, 주행을 위한 추출된 상태들과 같은 임의의 타입의 출력을 포함할 수 있다. 라벨링된 이미지들(106)은 계산/수치 정보, 깊이 맵 정보, 분류 정보, 라벨 정보, 임의의 다른 정보 및/또는 이들의 임의의 조합을 포함할 수 있다. 강화 학습 컨트롤러(104)는 라벨링된 이미지들(106) 및 강화 학습에 대한 비전 모델 출력을 이용한다. 강화 학습 컨트롤러(104)는 트레이닝 동안 2가지 양태를 이용한다. 제1 양태, 예를 들어, 교사 양태(teacher aspect)는 결정을 수행할 때 탐색할 유망한 탐색 공간과 같은 안내를 제공한다. 일부 실시예들에서, 강화 학습은 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화함으로써 학습을 보조하고 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 유망한 영역 내의 탐색 공간을 샘플 효율적이도록 제한하는 안내된 정책 탐색을 구현하는 것을 포함한다. 예를 들어, 오브젝트에 근접할 때(오브젝트를 치는 것을 포함함) 무엇을 할지에 대한 모든 옵션들을 이용하는 것 대신, 속도를 높이는 것 및 오브젝트를 치는 것을 포함하는 옵션들이 배제되고, 제동, 속도 줄이기 및 오브젝트 피하기와 같은 더 가능성이 높은 옵션들에 집중되도록 안내가 이용된다. 제2 양태, 예를 들어, 학습 양태는 비전 정보, 취할 옵션들(예를 들어, 정지, 가속, 회전), 및 옵션들의 결과들(예를 들어, 오브젝트를 치는 것 - 부정적인 결과, 오브젝트를 피하는 것 - 긍정적인 결과)에 기초하여 주행/반응하는 방법을 학습한다. 강화 학습 컨트롤러(104)는 제동, 가속, 스티어링, 시그널링 및/또는 임의의 다른 차량 제어 특징을 트리거링하는 것과 같은 신호들을 차량 컨트롤러에 제공함으로써 자율적으로 차량을 제어하도록(108) 사용된다. 학습은 시뮬레이션/시뮬레이터를 사용하여 그리고/또는 실제 주행을 통해 발생할 수 있다.
도 2는 일부 실시예들에 따른 배치 동안 자율 주행을 위한 비전-기반 강화 학습 프레임워크를 구현하는 다이어그램을 예시한다. 차량 카메라들(100)은 비전 모델(102)을 트레이닝하고 성장시키는데 이용되는 이미지들/비디오들을 캡처한다. 비전 모델(102)은 사람, 나무, 다른 차량들 및 임의의 다른 오브젝트/주행 상태와 같이 캡처된 이미지들/비디오들 내의 오브젝트들을 검출하고, 인지하고 분류하도록 사용된다. 일부 실시예들에서, 비전 정보는 광 검출 및 범위측정(Light Detection and Ranging)(LIDAR) 및/또는 3-차원 콘텐츠 취득을 사용하여 캡처되고 저장된다. 일부 실시예들에서, 오디오는 비전 모델을 트레이닝하는 것을 보조하기 위해 캡처되고 사용된다. 구현예에 따라, 비전 모델은 이미지들, 비디오들 및/또는 오디오, 계산/수치 정보, 깊이 맵 정보, 분류 정보, 라벨 정보, 임의의 다른 정보 및/또는 이들의 임의의 조합을 포함할 수 있다. 비전 모델(102)로부터의 출력은 강화 학습 컨트롤러(104)로 간다. 비전 모델 출력은 임의의 포맷일 수 있고, 주행을 위해 추출된 상태들과 같은 임의의 타입의 출력을 포함할 수 있다. 강화 학습 컨트롤러(104)는 이전 트레이닝 및 비전 모델 출력을 이용한다. 일부 실시예들에서, 강화 학습 컨트롤러(104)는 배치 동안 학습을 계속한다. 강화 학습 컨트롤러(104)는 제동, 가속, 스티어링, 시그널링 및/또는 임의의 다른 차량 제어 특징의 트리거링과 같은 신호들을 차량 컨트롤러에 제공함으로써 자율적으로 차량을 제어하도록(108) 사용된다.
일부 실시예들에서, 비전 모델(102) 및 강화 학습 컨트롤러(104)는 단일 유닛 내에서 조합된다.
도 3은 일부 실시예들에 따른 자율 트레이닝을 위한 비전-기반 강화 학습 프레임워크를 구현하는 방법의 플로우차트를 예시한다. 단계(300)에서, 비전-기반 강화 학습 컨트롤러가 트레이닝된다. 일부 실시예들에서, 비전 모델은 비전-기반 강화 학습 컨트롤러의 트레이닝 동안 또는 그 이전에 트레이닝된다. 전술된 바와 같이, 강화 학습 컨트롤러는 비전 모델 및 라벨링된 이미지들을 사용하여 트레이닝되고, 강화 학습 컨트롤러의 두 양태들 모두(교사 및 학습)는 트레이닝을 위해 이용된다. 단계(302)에서, 비전-기반 강화 학습 컨트롤러가 배치된다. 전술된 바와 같이, 배치 동안, 강화 학습 컨트롤러는 이전 트레이닝 및 비전 모델 출력을 이용한다. 일부 실시예들에서, 강화 학습 컨트롤러는 배치 동안 학습을 계속한다. 일부 실시예들에서, 더 적은 또는 추가적인 단계들이 구현된다. 일부 실시예들에서, 단계들의 순서는 수정된다.
도 4는 일부 실시예들에 따른 비전-기반 강화 학습 프레임워크를 구현하도록 구성되는 예시적인 컴퓨팅 디바이스의 블록도를 예시한다. 컴퓨팅 디바이스(400)는 이미지들 및 비디오들과 같은 정보를 취득하고, 저장하고, 계산하고, 프로세싱하고, 통신하고, 그리고/또는 디스플레이하도록 사용될 수 있다. 컴퓨팅 디바이스(400)는 비전-기반 강화 학습 프레임워크 양태들 중 임의의 것을 구현할 수 있다. 일반적으로, 컴퓨팅 디바이스(400)를 구현하기에 적합한 하드웨어 구조는 네트워크 인터페이스(402), 메모리(404), 프로세서(406), I/O 디바이스(들)(408), 버스(410) 및 저장 디바이스(412)를 포함한다. 적절한 속도를 가지는 적절한 프로세서가 선택되는 한 프로세서의 선택은 중요하지 않다. 메모리(404)는 본 기술분야에 공지된 임의의 종래의 컴퓨터 메모리일 수 있다. 저장 디바이스(412)는 하드 드라이브, CDROM, CDRW, DVD, DVDRW, 고해상도 디스크/드라이브, 울트라-HD 드라이브, 플래시 메모리 카드 또는 임의의 다른 저장 디바이스를 포함할 수 있다. 컴퓨팅 디바이스(400)는 하나 이상의 네트워크 인터페이스(402)를 포함할 수 있다. 네트워크 인터페이스의 예는 이더넷 또는 다른 타입의 LAN에 접속되는 네트워크 카드를 포함할 수 있다. I/O 디바이스(들)(408)는 다음: 키보드, 마우스, 모니터, 스크린, 프린터, 모뎀, 터치스크린, 버튼 인터페이스 및 다른 디바이스들 중 하나 이상을 포함할 수 있다. 비전-기반 강화 학습 프레임워크를 구현하는데 사용되는 비전-기반 강화 학습 프레임워크 애플리케이션(들)(430)은 저장 디바이스(412) 및 메모리(404)에 저장되고 애플리케이션들이 통상적으로 프로세싱되는 것과 같이 프로세싱될 수 있다. 도 4에 도시된 더 많은 또는 더 적은 컴포넌트들은 컴퓨팅 디바이스(400) 내에 포함될 수 있다. 일부 실시예들에서, 비전-기반 강화 학습 프레임워크 하드웨어(420)가 포함된다. 도 4에서의 컴퓨팅 디바이스(400)가 비전-기반 강화 학습 프레임워크에 대한 애플리케이션들(430) 및 하드웨어(420)를 포함하지만, 비전-기반 강화 학습 프레임워크는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 컴퓨팅 디바이스 상에 구현될 수 있다. 예를 들어, 일부 실시예들에서, 비전-기반 강화 학습 프레임워크 애플리케이션들(430)은 메모리에 저장되고, 프로세서를 사용하여 실행된다. 또 다른 예에서, 일부 실시예들에서, 비전-기반 강화 학습 프레임워크(420)는 비전-기반 강화 학습 프레임워크를 구현하도록 구체적으로 설계된 게이트들을 포함하는 프로그래밍된 하드웨어 로직이다.
일부 실시예들에서, 비전-기반 강화 학습 프레임워크 애플리케이션(들)(430)은 몇몇 애플리케이션들 및/또는 모듈들을 포함한다. 일부 실시예들에서, 모듈들은 또한 하나 이상의 서브-모듈을 포함한다. 일부 실시예들에서, 더 적은 또는 추가적인 모듈들이 포함될 수 있다.
적절한 컴퓨팅 디바이스들의 예들은 차량 컴퓨터, 내장형 컴퓨터, 개인용 컴퓨터, 랩톱 컴퓨터, 컴퓨터 워크스테이션, 서버, 메인프레임 컴퓨터, 핸드헬드 컴퓨터, 개인용 디지털 보조 단말, 셀룰러/모바일 전화, 스마트 가전, 게임 콘솔, 디지털 카메라, 디지털 캠코더, 카메라 폰, 스마트폰, 휴대용 음악 플레이어, 태블릿 컴퓨터, 모바일 디바이스, 비디오 플레이어, 비디오 디스크 라이터/플레이어(예를 들어, DVD 라이터/플레이어, 고해상도 디스크 라이터/플레이어, 초고해상도 디스크 라이터/플레이어), 텔레비전, 홈 엔터테인먼트 시스템, 증강 현실 디바이스, 가상 현실 디바이스, 스마트 주얼리(예를 들어, 스마트 워치) 또는 임의의 다른 적절한 컴퓨팅 디바이스를 포함한다.
도 5는 일부 실시예들에 따른 비전-기반 강화 학습 프레임워크를 구현하도록 구성되는 차량의 다이어그램을 예시한다. 차량(500)은 최상부, 전방, 측면, 후방 또는 아래와 같이 차량 상의 어느 곳에나 위치되는 하나 이상의 카메라 디바이스(502)를 이용하는 비전-기반 강화 학습 프레임워크를 구현하도록 구성되는 하나 이상의 컴퓨팅 디바이스(400)를 포함한다. 카메라들(502)은 360도 카메라, 비디오 카메라, 또는 회전 카메라와 같은 임의의 타입의 카메라일 수 있다. 추가적인 디바이스들은 비전-기반 강화 학습 프레임워크를 구현하도록 이용될 수 있다. 자동차가 도시되었지만, 차량은 자동차, 트럭, 비행기, 자전거, 모터사이클, 또는 보트와 같은 임의의 타입의 자율 또는 부분 자율 차량일 수 있다.
본원에 기술되는 프레임워크는 충돌들 및/또는 임의의 다른 주행 상황들을 회피하기에 충분히 빠르게 결정을 수행할 수 있는 비전 입력을 포함하는 하드웨어 및 소프트웨어와 함께 사용될 수 있다. 프레임워크는 또한 레이싱 게임과 같은 게임과 함께 이용될 수 있다.
본원에 기술되는 비전-기반 강화 학습 프레임워크를 이용하기 위해, 차량은 이후 차량을 학습하고 자율 주행하도록 프로세싱되는 이미지들/비디오들을 취득하도록 사용되는 디지털 카메라들/캠코더들과 같은 디바이스들을 포함한다. 비전-기반 강화 학습 프레임워크는 사용자 보조에 의해 또는 사용자 관여 없이 자율적으로 구현될 수 있다.
동작 시, 비전-기반 강화 학습 프레임워크는 자율 주행을 위해 안내된 정책 탐색에 기초하여 비전 및 샘플-효율적 강화-학습을 조합한다. 컨트롤러는 비전으로부터 환경 정보를 추출하고, 강화 학습을 사용하여 주행하도록 트레이닝된다. 규정-기반 학습 대신 강화 학습을 이용함으로써, 프레임워크는 훨씬 더 양호하게 스케일링할 수 있는데 왜냐하면 자율 주행이 수백만 개의 상이한 시나리오들에 대해 수백만 개의 결정을 요구하기 때문이다. 추가로, 비전-기반 강화 학습 프레임워크는 탐색을 보다 유망한 영역들로 지향시키는 안내된-정책 탐색을 또한 이용하는데, 이는 탐색 시간을 축소시키고 탐색을 보다 적절하게 집중시켜서 자율 주행 동안 실-시간 결정을 수행하는 동안 효과적인 학습을 가능하게 한다.
자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크의 일부 실시예들
1. 방법은,
비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계; 및
상기 비전 모델을 이용하여 자율 주행을 위한 상기 강화 학습 컨트롤러를 배치하는 단계를 포함한다.
2. 1항의 방법에서, 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계는 결정을 수행할 때 탐색할 안내 관련 옵션들을 제공하기 위한 제1 양태 및 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다.
3. 2항의 방법에서, 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화하고 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현한다.
4. 2항의 방법에서, 자율 주행을 위한 강화 학습 컨트롤러를 배치하는 단계는 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다.
5. 1항의 방법에서, 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 이미지들 및/또는 비디오들을 통해 트레이닝된다.
6. 1항의 방법에서, 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계는 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용한다.
7. 1항의 방법은, 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 강화 학습 컨트롤러를 사용하여 차량을 자율 주행하는 단계를 더 포함한다.
8. 시스템은,
애플리케이션을 저장하기 위한 비-일시적 메모리 - 애플리케이션은:
비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하고;
비전 모델을 이용하여 자율 주행을 위해 강화 학습 컨트롤러를 이용하기 위한 것임 -; 및
메모리에 결합되는 프로세서 - 프로세서는 애플리케이션을 프로세싱하도록 구성됨 -
를 포함한다.
9. 8항의 시스템에서, 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 결정을 수행할 때 탐색할 안내 관련 옵션들을 제공하기 위한 제1 양태 및 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다.
10. 9항의 시스템에서, 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화하고 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현한다.
11. 9항의 시스템에서, 자율 주행을 위한 강화 학습 컨트롤러를 이용하는 것은 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다.
12. 8항의 시스템에서, 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 이미지들 및/또는 비디오들을 통해 트레이닝된다.
13. 8항의 시스템에서, 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용한다.
14. 8항의 시스템에서, 강화 학습 컨트롤러는 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 차량을 자율 주행하도록 추가로 구성된다.
15. 차량은,
비전 정보를 취득하도록 구성되는 하나 이상의 카메라; 및
하나 이상의 컴퓨팅 디바이스
를 포함하고, 하나 이상의 컴퓨팅 디바이스는:
비전 정보를 포함하는 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하고;
비전 정보를 포함하는 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 이용하도록
구성된다.
16. 15항의 차량에서, 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 결정을 수행할 때 탐색할 안내 관련 옵션들을 제공하기 위한 제1 양태 및 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다.
17. 16항의 차량에서, 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화하고 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현한다.
18. 16항의 차량에서, 자율 주행을 위한 강화 학습 컨트롤러를 이용하는 것은 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용한다.
19. 15항의 차량에서, 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용한다.
20. 15항의 차량에서, 강화 학습 컨트롤러는 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 차량을 자율 주행하도록 추가로 구성된다.
본 발명은 발명의 구성 및 동작의 원리들의 이해를 용이하게 하기 위해 상세항목들을 포함하는 특정 실시예들의 견지에서 기술되었다. 특정 실시예들 및 이들의 상세항목들에 대한 본원에서의 이러한 참조는 본원에 첨부되는 청구항들의 범위를 제한하도록 의도되지 않는다. 다른 다양한 수정들이 청구항들에 정의된 바와 같은 발명의 사상 및 범위로부터 벗어나지 않고 예시를 위해 선택된 실시예에서 이루어질 수 있다는 것이 본 기술분야의 통상의 기술자에게 자명할 것이다.

Claims (20)

  1. 방법으로서,
    비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계; 및
    상기 비전 모델을 이용하여 자율 주행을 위한 상기 강화 학습 컨트롤러를 배치하는 단계
    를 포함하고,
    상기 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 단계는 결정을 수행할 때 탐색(explore)할 옵션에 관한 안내를 제공하기 위한 제1 양태 및 상기 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용하고,
    상기 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화하고 상기 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색(guided policy search)을 구현하고,
    상기 비전 모델은 이미지, 비디오, 오디오, 계산, 깊이 정보, 분류 정보, 및 라벨 정보를 포함하고,
    상기 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 오디오를 통해 트레이닝되고,
    상기 작업의 특정 인스턴스들에 대한 상기 로컬 정책들의 세트를 반복적으로 최적화하고 상기 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 상기 일반적인 글로벌 정책을 트레이닝하고 상기 탐색 공간을 제한하는 상기 안내된 정책 탐색은, 옵션의 전체 세트로부터 가능성이 덜한 옵션을 제거하여, 더 가능성이 높은 옵션에 집중하는 옵션의 제한된 세트를 생성하는 단계를 더 포함하고,
    상기 강화 학습 컨트롤러는 상기 비전 모델, 하나 이상의 취할 옵션 및 부정적인 옵션과 긍정적인 옵션을 포함하는 상기 취할 옵션의 하나 이상의 결과에 기초하여 학습하는 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    자율 주행을 위한 상기 강화 학습 컨트롤러를 배치하는 단계는 상기 비전 모델로부터의 상기 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 상기 제2 양태를 이용하는 방법.
  5. 제1항에 있어서,
    상기 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 이미지들 및/또는 비디오들을 통해 트레이닝되는 방법.
  6. 제1항에 있어서,
    자율 주행을 위한 상기 강화 학습 컨트롤러를 트레이닝하는 단계는 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용하는 방법.
  7. 제1항에 있어서,
    주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 상기 강화 학습 컨트롤러를 사용하여 차량을 자율 주행하는 단계를 더 포함하는 방법.
  8. 시스템으로서,
    애플리케이션을 저장하기 위한 비-일시적 메모리 - 상기 애플리케이션은:
    비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하고;
    상기 비전 모델을 이용하여 자율 주행을 위한 상기 강화 학습 컨트롤러를 이용하기 위한 것임 -; 및,
    상기 메모리에 결합되는 프로세서 - 상기 프로세서는 상기 애플리케이션을 프로세싱하도록 구성됨 -
    를 포함하고,
    상기 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 결정을 수행할 때 탐색할 옵션에 관한 안내를 제공하기 위한 제1 양태 및 상기 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용하고,
    상기 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화하고 상기 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현하고,
    상기 비전 모델은 이미지, 비디오, 오디오, 계산, 깊이 정보, 분류 정보, 및 라벨 정보를 포함하고,
    상기 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 오디오를 통해 트레이닝되고,
    상기 작업의 특정 인스턴스들에 대한 상기 로컬 정책들의 세트를 반복적으로 최적화하고 상기 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 상기 일반적인 글로벌 정책을 트레이닝하고 상기 탐색 공간을 제한하는 상기 안내된 정책 탐색은, 옵션의 전체 세트로부터 가능성이 덜한 옵션을 제거하여, 더 가능성이 높은 옵션에 집중하는 옵션의 제한된 세트를 생성하는 단계를 더 포함하고,
    상기 강화 학습 컨트롤러는 상기 비전 모델, 하나 이상의 취할 옵션 및 부정적인 옵션과 긍정적인 옵션을 포함하는 상기 취할 옵션의 하나 이상의 결과에 기초하여 학습하는 시스템.
  9. 삭제
  10. 삭제
  11. 제8항에 있어서,
    자율 주행을 위한 상기 강화 학습 컨트롤러를 이용하는 것은 상기 비전 모델로부터의 상기 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 상기 제2 양태를 이용하는 시스템.
  12. 제8항에 있어서,
    상기 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 이미지들 및/또는 비디오들을 통해 트레이닝되는 시스템.
  13. 제8항에 있어서,
    자율 주행을 위한 상기 강화 학습 컨트롤러를 트레이닝하는 것은 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용하는 시스템.
  14. 제8항에 있어서,
    상기 강화 학습 컨트롤러는 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 차량을 자율 주행하도록 추가로 구성되는 시스템.
  15. 차량으로서,
    비전 정보를 취득하도록 구성되는 하나 이상의 카메라; 및
    하나 이상의 컴퓨팅 디바이스
    를 포함하고, 상기 하나 이상의 컴퓨팅 디바이스는:
    상기 비전 정보를 포함하는 비전 모델을 이용하여 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하고;
    상기 비전 정보를 포함하는 상기 비전 모델을 이용하여 자율 주행을 위한 상기 강화 학습 컨트롤러를 이용하도록
    구성되고,
    상기 자율 주행을 위한 강화 학습 컨트롤러를 트레이닝하는 것은 결정을 수행할 때 탐색할 옵션에 관한 안내를 제공하기 위한 제1 양태 및 상기 비전 모델로부터의 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 제2 양태를 이용하고,
    상기 제1 양태는 작업의 특정 인스턴스들에 대한 로컬 정책들의 세트를 반복적으로 최적화하고 상기 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 일반적인 글로벌 정책을 트레이닝하고 탐색 공간을 제한하는 안내된 정책 탐색을 구현하고,
    상기 비전 모델은 이미지, 비디오, 오디오, 계산, 깊이 정보, 분류 정보, 및 라벨 정보를 포함하고,
    상기 비전 모델은 하나 이상의 차량 카메라를 사용하여 취득되는 오디오를 통해 트레이닝되고,
    상기 작업의 특정 인스턴스들에 대한 상기 로컬 정책들의 세트를 반복적으로 최적화하고 상기 로컬 정책들을 사용하여 작업 인스턴스들에 걸쳐 사용가능한 상기 일반적인 글로벌 정책을 트레이닝하고 상기 탐색 공간을 제한하는 상기 안내된 정책 탐색은, 옵션의 전체 세트로부터 가능성이 덜한 옵션을 제거하여, 더 가능성이 높은 옵션에 집중하는 옵션의 제한된 세트를 생성하는 단계를 더 포함하고,
    상기 강화 학습 컨트롤러는 상기 비전 모델, 하나 이상의 취할 옵션 및 부정적인 옵션과 긍정적인 옵션을 포함하는 상기 취할 옵션의 하나 이상의 결과에 기초하여 학습하는 차량.
  16. 제15항에 있어서,
    상기 옵션의 전체 세트는 제동, 속도 줄이기, 오브젝트 피하기, 가속, 및 회전으로 이루어지는 그룹으로부터 선택된 주행 옵션을 포함하는 차량.
  17. 삭제
  18. 제15항에 있어서,
    자율 주행을 위한 상기 강화 학습 컨트롤러를 이용하는 것은 상기 비전 모델로부터의 상기 비전 정보에 기초하여 반응하는 방법을 학습하기 위한 상기 제2 양태를 이용하는 차량.
  19. 제15항에 있어서,
    자율 주행을 위한 상기 강화 학습 컨트롤러를 트레이닝하는 것은 전체적으로 또는 부분적으로 관측된 상태들을 포함하는 라벨링된 이미지들을 이용하는 차량.
  20. 제15항에 있어서,
    상기 강화 학습 컨트롤러는 주행 메커니즘, 제동 메커니즘 및 가속 메커니즘 중 적어도 하나에 신호를 송신함으로써 상기 차량을 자율 주행하도록 추가로 구성되는 차량.
KR1020190021909A 2018-04-02 2019-02-25 자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크 KR102318027B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/943,223 2018-04-02
US15/943,223 US11106211B2 (en) 2018-04-02 2018-04-02 Vision-based sample-efficient reinforcement learning framework for autonomous driving

Publications (2)

Publication Number Publication Date
KR20190119510A KR20190119510A (ko) 2019-10-22
KR102318027B1 true KR102318027B1 (ko) 2021-10-27

Family

ID=65440872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190021909A KR102318027B1 (ko) 2018-04-02 2019-02-25 자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크

Country Status (5)

Country Link
US (1) US11106211B2 (ko)
EP (1) EP3564861B1 (ko)
JP (1) JP2019182400A (ko)
KR (1) KR102318027B1 (ko)
CN (1) CN110348278B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3088674A1 (en) * 2019-07-31 2021-01-31 Royal Bank Of Canada Devices and methods for reinforcement learning visualization using immersive environments
CN110568760B (zh) * 2019-10-08 2021-07-02 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
US12109701B2 (en) * 2019-11-20 2024-10-08 Nvidia Corporation Guided uncertainty-aware policy optimization: combining model-free and model-based strategies for sample-efficient learning
CN110843746B (zh) * 2019-11-28 2022-06-14 的卢技术有限公司 一种基于强化学习的防抱死刹车控制方法及系统
CN111562740B (zh) * 2020-05-06 2021-04-23 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN113835421B (zh) * 2020-06-06 2023-12-15 华为技术有限公司 训练驾驶行为决策模型的方法及装置
CN114518758B (zh) * 2022-02-08 2023-12-12 中建八局第三建设有限公司 基于q学习的室内测量机器人多目标点移动路径规划方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181870A (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置及び情報処理サーバ
US20170327138A1 (en) * 2016-05-16 2017-11-16 Wi-Tronix, Llc Video Content Analysis System and Method for Transportation System

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9764468B2 (en) * 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
WO2015088522A1 (en) 2013-12-11 2015-06-18 Intel Corporation Individual driving preference adapted computerized assist or autonomous driving of vehicles
US10101786B2 (en) * 2014-12-22 2018-10-16 Intel Corporation Holistic global performance and power management
WO2017019555A1 (en) 2015-07-24 2017-02-02 Google Inc. Continuous control with deep reinforcement learning
US9598076B1 (en) * 2015-10-22 2017-03-21 Ford Global Technologies, Llc Detection of lane-splitting motorcycles
US9536191B1 (en) 2015-11-25 2017-01-03 Osaro, Inc. Reinforcement learning using confidence scores
CN108431549B (zh) * 2016-01-05 2020-09-04 御眼视觉技术有限公司 具有施加的约束的经训练的系统
JP6114421B1 (ja) * 2016-02-19 2017-04-12 ファナック株式会社 複数の産業機械の作業分担を学習する機械学習装置,産業機械セル,製造システムおよび機械学習方法
US10061316B2 (en) * 2016-07-08 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration
KR20160132789A (ko) * 2016-10-31 2016-11-21 도영민 사회적 자율주행 교통장치
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN107506830A (zh) * 2017-06-20 2017-12-22 同济大学 面向智能汽车规划决策模块的人工智能训练平台
US20190050729A1 (en) * 2018-03-26 2019-02-14 Intel Corporation Deep learning solutions for safe, legal, and/or efficient autonomous driving

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181870A (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置及び情報処理サーバ
US20170327138A1 (en) * 2016-05-16 2017-11-16 Wi-Tronix, Llc Video Content Analysis System and Method for Transportation System

Also Published As

Publication number Publication date
CN110348278A (zh) 2019-10-18
US11106211B2 (en) 2021-08-31
US20190302785A1 (en) 2019-10-03
JP2019182400A (ja) 2019-10-24
KR20190119510A (ko) 2019-10-22
CN110348278B (zh) 2023-08-11
EP3564861A1 (en) 2019-11-06
EP3564861B1 (en) 2024-02-07

Similar Documents

Publication Publication Date Title
KR102318027B1 (ko) 자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크
US20230351183A1 (en) Shared Processing with Deep Neural Networks
CN111919225B (zh) 使用模拟环境对自主机器进行培训、测试和验证
US11137762B2 (en) Real time decision making for autonomous driving vehicles
US11092966B2 (en) Building an artificial-intelligence system for an autonomous vehicle
US11543830B2 (en) Unsupervised real-to-virtual domain unification for end-to-end highway driving
US10726304B2 (en) Refining synthetic data with a generative adversarial network using auxiliary inputs
US10282623B1 (en) Depth perception sensor data processing
US11055544B2 (en) Electronic device and control method thereof
US11688074B2 (en) Data augmentation including background modification for robust prediction using neural networks
CN108388834A (zh) 利用循环神经网络和级联特征映射的对象检测
JP2020004402A (ja) ニューラルネットワークに基づく自動運転車両用の安全監視システム
CN108334081A (zh) 用于对象检测的循环深度卷积神经网络
US12005922B2 (en) Toward simulation of driver behavior in driving automation
KR102630320B1 (ko) 다중 프레임 시맨틱 신호의 고속 cnn 분류
US11688195B2 (en) Electronic device and method for assisting with driving of vehicle
JP2015076104A (ja) ランダムフォレストモデルを用いた、リアルタイムの多クラス運転者動作認識
US11150656B2 (en) Autonomous vehicle decision making
TW201633181A (zh) 用於經非同步脈衝調制的取樣信號的事件驅動型時間迴旋
US11308324B2 (en) Object detecting system for detecting object by using hierarchical pyramid and object detecting method thereof
Cultrera et al. Explaining autonomous driving with visual attention and end-to-end trainable region proposals
US20240220817A1 (en) System and method for self-supervised federated learning for automotive applications
US11868446B2 (en) Method of operating neural network model using DRM package and method of processing data using the same
CN118055333A (zh) 用于自主系统和应用的图像处理管线中的延迟颜色校正
WO2024142874A1 (ja) 予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant