KR20220052846A - Lidar를 사용한 대상체 식별 - Google Patents

Lidar를 사용한 대상체 식별 Download PDF

Info

Publication number
KR20220052846A
KR20220052846A KR1020210140353A KR20210140353A KR20220052846A KR 20220052846 A KR20220052846 A KR 20220052846A KR 1020210140353 A KR1020210140353 A KR 1020210140353A KR 20210140353 A KR20210140353 A KR 20210140353A KR 20220052846 A KR20220052846 A KR 20220052846A
Authority
KR
South Korea
Prior art keywords
point
view
data
neural network
class
Prior art date
Application number
KR1020210140353A
Other languages
English (en)
Inventor
베니스 에린 바이론 리옹
소 티 응옥 응우옌
Original Assignee
모셔널 에이디 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모셔널 에이디 엘엘씨 filed Critical 모셔널 에이디 엘엘씨
Publication of KR20220052846A publication Critical patent/KR20220052846A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Optics & Photonics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Traffic Control Systems (AREA)

Abstract

무엇보다도, LiDAR를 사용하여 식별된 차량 기반 대상체의 움직임을 제어 회로를 사용하여 제어하기 위한 기술이 설명되어 있다. 예를 들어, 포인트 클라우드의 포인트의 각자의 등급이 결정되고, 결정된 포인트 클라우드의 포인트의 각자의 등급에 기반하여 차량 주변의 대상체가 식별된다.

Description

LIDAR를 사용한 대상체 식별{IDENTIFYING OBJECTS USING LIDAR}
이 설명은 "LiDAR"(light detection and ranging)를 사용하여 대상체들을 식별하는 것에 관한 것이다.
LiDAR는 광 방출기의 가시선에 있는 물리적 대상체들에 관한 데이터를 획득하기 위해 광을 사용하는 기술이다. LiDAR 데이터는 전형적으로 주변 환경의 표현을 구성하는 데 사용되는 포인트들의 집합체들(포인트 클라우드들이라고도 함)의 형태를 취한다. LiDAR는 차량 근처의 대상체들을 검출하는 데 사용될 수 있다.
도 1은 자율 주행 능력(autonomous capability)을 갖는 자율 주행 차량(autonomous vehicle)의 예를 도시한다.
도 2는 예시적인 "클라우드" 컴퓨팅 환경을 도시한다.
도 3은 컴퓨터 시스템을 도시한다.
도 4는 자율 주행 차량에 대한 예시적인 아키텍처를 도시한다.
도 5는 인지 모듈에 의해 사용될 수 있는 입력들 및 출력들의 예를 도시한다.
도 6은 LiDAR 시스템의 예를 도시한다.
도 7은 작동 중인 LiDAR 시스템을 도시한다.
도 8은 LiDAR 시스템의 작동을 추가적으로 상세하게 도시한다.
도 9는 LiDAR 포인트들을 분류하기 위한 예시적인 프로세스의 플로차트를 도시한다.
도 10은 예시적인 분류 네트워크의 블록 다이어그램을 도시한다.
도 11은 예시적인 뷰 네트워크의 표현을 도시한다.
도 12는 예시적인 융합 네트워크의 표현을 도시한다.
도 13은 분류된 LiDAR 포인트들에 기초하여 차량을 작동시키기 위한 예시적인 프로세스의 플로차트를 도시한다.
이하의 설명에서는, 설명 목적으로, 본 발명에 대한 완전한 이해를 제공하기 위해 다수의 특정 세부 사항들이 제시된다. 그렇지만, 본 발명이 이러한 특정 세부 사항들이 없더라도 실시될 수 있음이 명백할 것이다. 다른 경우에, 잘 알려진 구조들 및 디바이스들은 본 발명을 불필요하게 모호하게 하는 것을 피하기 위하여 블록 다이어그램 형태로 도시되어 있다.
도면들에, 설명의 용이성을 위해, 디바이스들, 모듈들, 명령어 블록들 및 데이터 요소들을 나타내는 것들과 같은, 개략적인 요소들의 특정 배열들 또는 순서들이 도시되어 있다. 그렇지만, 본 기술 분야의 통상의 기술자라면, 도면들에서의 개략적인 요소들의 특정 순서 또는 배열이 프로세싱의 특정 순서 또는 시퀀스, 또는 프로세스들의 분리가 요구됨을 암시하는 것으로 의미되지 않는다는 점을 이해할 것이다. 게다가, 도면에 개략적인 요소를 포함시키는 것은, 그러한 요소가 모든 실시예들에서 요구됨을 암시하는 것으로 의미되지 않거나, 또는 그러한 요소에 의해 표현되는 특징들이 일부 실시예들에서 포함되지 않을 수 있거나 다른 요소들과 조합되지 않을 수 있음을 암시하는 것으로 의미되지 않는다.
게다가, 도면들에서, 2 개 이상의 다른 개략적인 요소 사이의 연결, 관계 또는 연관을 예시하기 위해 실선 또는 파선 또는 화살표와 같은 연결 요소들이 사용되는 경우에, 임의의 그러한 연결 요소들의 부재는 연결, 관계 또는 연관이 존재하지 않을 수 있음을 암시하는 것으로 의미되지 않는다. 환언하면, 요소들 사이의 일부 연결들, 관계들 또는 연관들은 본 개시를 모호하게 하지 않기 위해 도면들에 도시되어 있지 않다. 추가적으로, 예시의 용이성을 위해, 요소들 사이의 다수의 연결들, 관계들 또는 연관들을 나타내기 위해 단일의 연결 요소가 사용된다. 예를 들어, 연결 요소가 신호들, 데이터 또는 명령어들의 통신을 나타내는 경우에, 본 기술 분야의 통상의 기술자라면 그러한 요소가, 통신을 수행하기 위해 필요로 할 수 있는, 하나 또는 다수의 신호 경로(예를 들면, 버스)를 나타낸다는 것을 이해할 것이다.
그 예가 첨부 도면들에 예시되어 있는 실시예들이 이제 상세하게 언급될 것이다. 이하의 상세한 설명에서, 다양한 기술된 실시예들에 대한 완전한 이해를 제공하기 위해 수많은 특정 세부 사항들이 기재된다. 그렇지만, 다양한 기술된 실시예들이 이러한 특정 세부 사항들이 없더라도 실시될 수 있다는 것이 본 기술 분야의 통상의 기술자에게 명백할 것이다. 다른 경우에, 실시예들의 양태들을 불필요하게 모호하게 하지 않기 위해 잘 알려진 방법들, 절차들, 컴포넌트들, 회로들, 및 네트워크들은 상세히 기술되지 않았다.
각각이 서로 독립적으로 또는 다른 특징들의 임의의 조합과 함께 사용될 수 있는 여러 특징들이 이하에서 기술된다. 그렇지만, 임의의 개별 특징은 위에서 논의된 문제들 중 어떤 것도 해결할 수 없거나 또는 위에서 논의된 문제들 중 하나만을 해결할 수 있다. 위에서 논의된 문제들 중 일부가 본원에 기술된 특징들 중 임의의 것에 의해 완전히 해결되지는 않을 수 있다. 비록 여러 표제들이 제공되어 있더라도, 특정 표제에 관련되지만 해당 표제를 갖는 섹션에서 발견되지는 않는 정보가 본 설명의 다른 곳에서 발견될 수도 있다. 실시예들은 이하의 개요에 따라 본원에 기술된다:
일반적 개관
시스템 개관
자율 주행 차량 아키텍처
자율 주행 차량 입력들
자율 주행 차량 계획
자율 주행 차량 제어
다중뷰 융합을 사용한 대상체들의 식별
일반적 개관
LiDAR 스캔의 다수의 뷰들이 병렬로 프로세싱되고, 결과들이 결합되어 LiDAR 포인트 클라우드에 포함되는 포인트들의 클러스터들에 대한 시맨틱 라벨들을 생성한다. 예를 들어, 버드 아이 뷰(Birds-eye View, BeV) 신경 네트워크로부터의 출력과 레인지 뷰(Range View, RV) 신경 네트워크로부터의 출력이 비교되고 결합되어 완성된 라벨 세트를 생성한다. 라벨링된 포인트 클라우드들은 이어서, 예를 들면, 운행을 위해, 차량 근처의 대상체들을 식별하는 데 사용된다.
새로운 접근법의 장점들 중 일부는: 차량 근처의 대상체들을 식별하는 데 필요한 계산 리소스들의 양을 감소시키기 위해, 뷰 신경 네트워크들(예를 들면, 위에서 기술된 BeV 및 RV 네트워크들)이라고도 하는, 개별 뷰 네트워크들의 병렬 트레이닝 및 배포의 사용을 포함한다. 추가적으로 또는 대안적으로, 이 접근법은 개별 뷰 네트워크들의 서브세트가 예상대로 출력들을 제공하지 않을 때에도 네트워크들이 기능할 수 있게 한다. 경계 오차들을 제거하고 정확도를 개선시킬 목적으로 대상체들 사이의 공간적 관계를 학습하기 위해 공간 평활화(spatial smoothing)에 사용되는 순환 계층(recurrent layer)이 뷰 네트워크들 각각에 추가된다. 단일 LiDAR 스캔으로부터의 데이터 증강은 전체 네트워크의 보다 나은 트레이닝을 위해 이용 가능한 트레이닝 샘플들의 수를 증가시킨다. 뷰 네트워크들의 출력을 융합하는 것은 뷰들이 독립적으로 고려되는 경우보다 포인트들의 더 정확한 분류 결과들을 생성한다.
시스템 개관
도 1은 자율 주행 능력을 갖는 자율 주행 차량(100)의 예를 도시한다.
본원에서 사용되는 바와 같이, "자율 주행 능력"이라는 용어는, 완전 자율 주행 차량, 고도 자율 주행 차량, 및 조건부 자율 주행 차량을 제한 없이 포함하는, 실시간 인간 개입 없이 차량이 부분적으로 또는 완전하게 작동할 수 있게 하는 기능, 특징, 또는 설비를 지칭한다.
본원에서 사용되는 바와 같이, 자율 주행 차량(AV)은 자율 주행 능력을 갖는 차량이다.
본원에서 사용되는 바와 같이, "차량"은 상품 또는 사람의 운송 수단을 포함한다. 예를 들어, 자동차, 버스, 기차, 비행기, 드론, 트럭, 보트, 선박, 잠수함, 비행선 등. 무인 자동차는 차량의 예이다.
본원에서 사용되는 바와 같이, "궤적"은 AV를 제1 시공간적 위치로부터 제2 시공간적 위치로 운행시키는 경로 또는 루트를 지칭한다. 일 실시예에서, 제1 시공간적 위치는 초기 또는 시작 위치라고 지칭되고 제2 시공간적 위치는 목적지, 최종 위치, 목표, 목표 위치, 또는 목표 장소라고 지칭된다. 일부 예들에서, 궤적은 하나 이상의 세그먼트(예를 들면, 도로 섹션)로 구성되고, 각각의 세그먼트는 하나 이상의 블록(예를 들면, 차선 또는 교차로의 부분)으로 구성된다. 일 실시예에서, 시공간적 위치들은 현실 세계 위치들에 대응한다. 예를 들어, 시공간적 위치들은 사람을 태우거나 내려주고 또는 상품을 싣거나 내리는 픽업(pick up) 위치 또는 하차(drop-off) 위치이다.
본원에서 사용되는 바와 같이, "센서(들)"는 센서를 둘러싸는 환경에 관한 정보를 검출하는 하나 이상의 하드웨어 컴포넌트를 포함한다. 하드웨어 컴포넌트들 중 일부는 감지 컴포넌트들(예를 들면, 이미지 센서들, 생체 측정 센서들), 송신 및/또는 수신 컴포넌트들(예를 들면, 레이저 또는 무선 주파수 파 송신기들 및 수신기들), 아날로그 대 디지털 변환기들과 같은 전자 컴포넌트들, 데이터 저장 디바이스(예컨대, RAM 및/또는 비휘발성 스토리지), 소프트웨어 또는 펌웨어 컴포넌트들, 및 ASIC(application-specific integrated circuit), 마이크로프로세서 및/또는 마이크로컨트롤러와 같은 데이터 프로세싱 컴포넌트들을 포함할 수 있다.
본원에서 사용되는 바와 같이, "장면 묘사(scene description)"는 AV 차량 상의 하나 이상의 센서에 의해 검출되거나 AV 외부의 소스에 의해 제공되는 하나 이상의 분류된 또는 라벨링된 대상체를 포함하는 데이터 구조(예를 들면, 리스트) 또는 데이터 스트림이다.
본원에서 사용되는 바와 같이, "도로"는 차량에 의해 횡단될 수 있는 물리적 영역이고, 명명된 주요 도로(예를 들면, 도시 거리, 주간 프리웨이(interstate freeway) 등)에 대응할 수 있거나, 또는 명명되지 않은 주요 도로(예를 들면, 주택 또는 사무실 건물에서의 사유 도로(driveway), 주차장의 섹션, 공터의 섹션, 시골 지역에의 비포장 경로 등)에 대응할 수 있다. 일부 차량들(예를 들면, 4륜 구동 픽업 트럭들, 스포츠 유틸리티 차량들 등)은 차량 주행에 특히 적합하지 않은 다양한 물리적 영역들을 횡단할 수 있기 때문에, "도로"는 임의의 지자체 또는 다른 정부 또는 행정처에 의해 주요 도로로서 공식적으로 규정되지 않은 물리적 영역일 수 있다.
본원에서 사용되는 바와 같이, "차선"은 차량에 의해 횡단될 수 있는 도로의 일 부분이다. 차선은 때때로 차선 마킹들에 기초하여 식별된다. 예를 들어, 차선은 차선 마킹들 사이의 공간의 대부분 또는 전부에 대응할 수 있거나, 또는 차선 마킹들 사이의 공간의 단지 일부(예를 들면, 50% 미만)에 대응할 수 있다. 예를 들어, 멀리 이격된 차선 마킹들을 갖는 도로는 차선 마킹들 사이에 둘 이상의 차량을 수용할 수 있음으로써, 하나의 차량이 차선 마킹들을 횡단하지 않으면서 다른 차량을 추월할 수 있고, 따라서 차선 마킹들 사이의 공간보다 더 좁은 차선을 갖거나 차선 마킹들 사이에 2 개의 차선을 갖는 것으로 해석될 수 있다. 차선은 차선 마킹들의 부재 시에도 해석될 수 있다. 예를 들어, 차선은 환경의 물리적 특징부들, 예를 들면, 시골 지역에서 주요 도로를 따라 있는 바위들 및 나무들 또는, 예를 들면, 미개발 지역에 있는 피할 자연 장애물들에 기초하여 규정될 수 있다. 차선은 또한 차선 마킹들 또는 물리적 특징부들과 무관하게 해석될 수 있다. 예를 들어, 차선은 차선 경계들로서 해석될 특징부들이 달리 없는 영역에서 장애물들이 없는 임의의 경로에 기초하여 해석될 수 있다. 예시적인 시나리오에서, AV는 들판 또는 공터의 장애물 없는 부분을 통해 차선을 해석할 수 있다. 다른 예시적인 시나리오에서, AV는 차선 마킹들을 갖지 않는 넓은(예를 들면, 2 개 이상의 차선을 위해 충분히 넓은) 도로를 통해 차선을 해석할 수 있다. 이 시나리오에서, AV는 차선에 관한 정보를 다른 AV들에 전달할 수 있음으로써, 다른 AV들이 동일한 차선 정보를 사용하여 그 자신들 간에 경로 계획을 조정할 수 있다.
"OTA(over-the-air) 클라이언트"라는 용어는 임의의 AV, 또는 AV에 내장되거나, AV에 결합되거나, 또는 AV와 통신하는 임의의 전자 디바이스(예를 들면, 컴퓨터, 제어기, IoT 디바이스, 전자 제어 유닛(ECU))를 포함한다.
"OTA(over-the-air) 업데이트"라는 용어는, 셀룰러 모바일 통신(예를 들면, 2G, 3G, 4G, 5G), 라디오 무선 영역 네트워크(예를 들면, WiFi) 및/또는 위성 인터넷을 포함하지만 이에 제한되지 않는, 독점적인 및/또는 표준화된 무선 통신 기술을 사용하여 OTA 클라이언트에 전달되는 소프트웨어, 펌웨어, 데이터 또는 구성 설정, 또는 이들의 임의의 조합에 대한 임의의 업데이트, 변경, 삭제, 또는 추가를 의미한다.
"에지 노드"라는 용어는, AV와의 통신을 위한 포털을 제공하고 OTA 업데이트들을 스케줄링하여 OTA 클라이언트들에 전달하기 위해 다른 에지 노드들 및 클라우드 기반 컴퓨팅 플랫폼과 통신할 수 있는, 네트워크에 결합된 하나 이상의 에지 디바이스를 의미한다.
"에지 디바이스"라는 용어는, 에지 노드를 구현하고 기업 또는 서비스 제공자(예를 들면, VERIZON, AT&T) 코어 네트워크들에 대한 물리적 무선 액세스 포인트(AP)를 제공하는, 디바이스를 의미한다. 에지 디바이스들의 예들은 컴퓨터, 제어기, 송신기, 라우터, 라우팅 스위치, IAD(integrated access device), 멀티플렉서, MAN(metropolitan area network) 및 WAN(wide area network) 액세스 디바이스를 포함하지만, 이에 제한되지 않는다.
"하나 이상"은 하나의 요소에 의해 수행되는 기능, 둘 이상의 요소에 의해, 예를 들면, 분산 방식으로 수행되는 기능, 하나의 요소에 의해 수행되는 여러 기능들, 여러 요소들에 의해 수행되는 여러 기능들, 또는 이들의 임의의 조합을 포함한다.
제1, 제2 등의 용어들이, 일부 경우에, 다양한 요소들을 기술하기 위해 본원에서 사용되고 있지만, 이러한 요소들이 이러한 용어들에 의해 제한되지 않아야 한다는 것이 또한 이해될 것이다. 이러한 용어들은 하나의 요소를 다른 요소와 구별하는 데만 사용된다. 예를 들어, 다양한 기술된 실시예들의 범위를 벗어나지 않으면서, 제1 접촉은 제2 접촉이라고 지칭될 수 있고, 유사하게 제2 접촉은 제1 접촉이라고 지칭될 수 있다. 제1 접촉과 제2 접촉은 둘 모두 접촉이지만, 동일한 접촉은 아니다.
본원에 기술된 다양한 실시예들에 대한 설명에서 사용되는 전문용어는 단지 특정한 실시예들을 기술하기 위한 것이며, 제한하는 것으로 의도되지 않는다. 다양한 기술된 실시예들에 대한 설명 및 첨부된 청구항들에서 사용되는 바와 같이, 단수 형태들(“a,” “an” 및 “the”)은, 문맥이 달리 명확히 나타내지 않는 한, 복수 형태들도 포함하는 것으로 의도된다. "및/또는"이라는 용어가, 본원에서 사용되는 바와 같이, 연관된 열거된 항목들 중 하나 이상의 항목의 임의의 및 모든 가능한 조합들을 지칭하고 포괄한다는 것이 또한 이해될 것이다. 게다가, "포함한다(includes, comprises)" 및/또는 "포함하는(including, comprising)"이라는 용어가, 본 설명에서 사용될 때, 언급된 특징들, 정수들, 단계들, 동작들, 요소들, 및/또는 컴포넌트들의 존재를 명시하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는다는 것이 이해될 것이다.
본원에서 사용되는 바와 같이, "~ 경우"라는 용어는, 선택적으로, 문맥에 따라 "~할 때", 또는 "~시에" 또는 "~라고 결정하는 것에 응답하여" 또는 "~을 검출하는 것에 응답하여"를 의미하는 것으로 해석된다. 마찬가지로, 문구 "~라고 결정되는 경우" 또는 "[언급된 조건 또는 이벤트]가 검출되는 경우"는, 선택적으로, 문맥에 따라, "~라고 결정할 시에" 또는 "~라고 결정하는 것에 응답하여" 또는 "[언급된 조건 또는 이벤트]를 검출할 시에" 또는 "[언급된 조건 또는 이벤트]를 검출하는 것에 응답하여"를 의미하는 것으로 해석된다.
본원에서 사용되는 바와 같이, AV 시스템은 AV의 작동을 지원하는 하드웨어, 소프트웨어, 저장된 데이터 및 실시간으로 생성되는 데이터의 어레이와 함께 AV를 지칭한다. 일 실시예에서, AV 시스템은 AV 내에 포함된다. 일 실시예에서, AV 시스템은 여러 위치들에 걸쳐 확산되어 있다. 예를 들어, AV 시스템의 소프트웨어 중 일부는 도 2과 관련하여 아래에서 기술되는 클라우드 컴퓨팅 환경(200)과 유사한 클라우드 컴퓨팅 환경에 구현된다.
일반적으로, 본원은 완전 자율 주행 차량, 고도 자율 주행 차량, 및 조건부 자율 주행 차량, 예컨대, 제각기, 소위 레벨 5 차량, 레벨 4 차량 및 레벨 3 차량을 포함하는 하나 이상의 자율 주행 능력을 갖는 임의의 차량에 적용 가능한 기술들을 개시한다(차량의 자율성의 레벨 분류에 대한 세부 사항은 그 전체가 참고로 포함된, SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의(Taxonomy and Definitions for Terms Related to On-128-172020-02-28 Road Motor Vehicle Automated Driving Systems) 참조). 본 문서에서 설명된 기술들은 또한 부분적 자율 주행 차량 및 운전자 보조 차량, 예컨대, 소위 레벨 2 차량 및 레벨 1 차량에도 적용 가능하다(SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의 참조). 일 실시예에서, 레벨 1, 레벨 2, 레벨 3, 레벨 4 및 레벨 5 차량 시스템들 중 하나 이상은 센서 입력들의 프로세싱에 기초하여 특정 작동 조건들 하에서 특정 차량 작동들(예를 들면, 조향, 제동, 및 맵 사용)을 자동화할 수 있다. 본 문서에서 설명된 기술들은, 완전 자율 주행 차량으로부터 인간 운전 차량에 이르는, 임의의 레벨들에 있는 차량들에 혜택을 줄 수 있다.
자율 주행 차량은 사람 운전자를 필요로 하는 차량보다 장점이 있다. 한 가지 장점은 안전성이다. 예를 들어, 2016년에, 미국은, 9100억 달러 초과의 사회적 비용으로 추정되는, 600만 건의 자동차 사고, 240만 건의 부상, 4만 명의 사망자수, 및 1300만 건의 차량 충돌을 경험하였다. 1억 마일 주행당 미국 교통 사망자수는, 부분적으로 차량에 설치된 추가적인 안전 대책들로 인해, 1965년과 2015년 사이에 약 6명으로부터 약 1명으로 감소되었다. 예를 들어, 충돌이 발생할 것이라는 추가적인 0.5초의 경고는 전후 충돌의 60%를 완화시키는 것으로 여겨진다. 그렇지만, 수동적 안전 특징부들(예를 들면, 안전 벨트, 에어백)은 이 수치를 개선시키는 데 한계에 도달했을 것이다. 따라서, 차량의 자동 제어와 같은, 능동적 안전 대책들이 이러한 통계치들을 개선시키는 데 유망한 다음 단계이다. 인간 운전자가 충돌의 95%에서 중대한 충돌전 이벤트에 책임 있는 것으로 여겨지기 때문에, 자동 운전 시스템은, 예를 들면, 인간보다 더 낫게 중대한 상황들을 신뢰성 있게 인식하고 피하는 것에 의해; 인간보다 더 낫게 보다 나은 결정을 하고, 교통 법규를 준수하며, 미래의 이벤트들을 예측하는 것에 의해; 및 인간보다 더 낫게 차량을 신뢰성 있게 제어하는 것에 의해, 보다 나은 안전성 결과들을 달성할 가능성이 있다.
도 1을 참조하면, AV 시스템(120)은, 대상체들(예를 들면, 자연 장애물들(191), 차량들(193), 보행자들(192), 자전거 타는 사람들, 및 다른 장애물들)을 피하고 도로 규칙들(예를 들면, 운영 규칙들 또는 운전 선호사항들)을 준수하면서, 차량(100)을 궤적(198)을 따라 환경(190)을 통해 목적지(199)(때때로 최종 위치라고 지칭됨)로 작동시킨다.
일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서들(146)로부터 작동 커맨드들을 수신하고 이에 따라 작동하도록 설비된 디바이스들(101)을 포함한다. 차량으로 하여금 액션(예를 들면, 운전 기동)을 수행하게 하는 실행 가능 명령어(또는 명령어 세트)을 의미하기 위해 "작동 커맨드"라는 용어를 사용한다. 작동 커맨드들은, 제한 없이, 차량이 전진을 시작하고, 전진을 중지하며, 후진을 시작하고, 후진을 중지하며, 가속하고, 감속하며, 좌회전을 수행하고, 우회전을 수행하기 위한 명령어들을 포함할 수 있다. 일 실시예에서, 컴퓨팅 프로세서들(146)은 도 3을 참조하여 아래에서 기술되는 프로세서(304)와 유사하다. 디바이스들(101)의 예들은 조향 컨트롤(102), 브레이크(103), 기어, 액셀러레이터 페달 또는 다른 가속 제어 메커니즘, 윈드실드 와이퍼, 사이드 도어 록, 윈도 컨트롤, 및 방향 지시등을 포함한다.
일 실시예에서, AV 시스템(120)은, AV의 위치, 선속도와 각속도 및 선가속도와 각가속도, 및 헤딩(heading)(예를 들면, 차량(100)의 선단(leading end)의 배향)과 같은, 차량(100)의 상태 또는 조건의 특성들을 측정 또는 추론하기 위한 센서들(121)을 포함한다. 센서들(121)의 예는 GPS, 차량 선가속도 및 각도 변화율(angular rate) 둘 모두를 측정하는 IMU(inertial measurement unit), 휠 슬립률(wheel slip ratio)을 측정 또는 추정하기 위한 휠 속력 센서, 휠 브레이크 압력 또는 제동 토크 센서, 엔진 토크 또는 휠 토크 센서, 그리고 조향각 및 각도 변화율 센서이다.
일 실시예에서, 센서들(121)은 또한 AV의 환경의 속성들을 감지하거나 측정하기 위한 센서들을 포함한다. 예를 들어, 가시 광, 적외선 또는 열(또는 둘 모두) 스펙트럼의 단안 또는 스테레오 비디오 카메라들(122), LiDAR(123), RADAR, 초음파 센서들, 비행 시간(time-of-flight, TOF) 깊이 센서들, 속력 센서들, 온도 센서들, 습도 센서들, 및 강수 센서들.
일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서들(146)과 연관된 머신 명령어들 또는 센서들(121)에 의해 수집되는 데이터를 저장하기 위한 데이터 저장 유닛(142) 및 메모리(144)를 포함한다. 일 실시예에서, 데이터 저장 유닛(142)은 도 3과 관련하여 아래에서 기술되는 ROM(308) 또는 저장 디바이스(310)와 유사하다. 일 실시예에서, 메모리(144)는 아래에서 기술되는 메인 메모리(306)와 유사하다. 일 실시예에서, 데이터 저장 유닛(142) 및 메모리(144)는 환경(190)에 관한 과거 정보, 실시간 정보, 및/또는 예측 정보를 저장한다. 일 실시예에서, 저장된 정보는 맵들, 운전 수행, 교통 혼잡 업데이트들 또는 기상 조건들을 포함한다. 일 실시예에서, 환경(190)에 관련된 데이터는 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 차량(100)으로 송신된다.
일 실시예에서, AV 시스템(120)은 다른 차량들의 상태들 및 조건들, 예컨대, 위치, 선속도와 각속도, 선가속도와 각가속도, 및 차량(100)을 향한 선형 헤딩(linear heading)과 각도 헤딩(angular heading)의 측정된 또는 추론된 속성들을 전달하기 위한 통신 디바이스들(140)을 포함한다. 이러한 디바이스들은 V2V(Vehicle-to-Vehicle) 및 V2I(Vehicle-to-Infrastructure) 통신 디바이스들 및 포인트 투 포인트(point-to-point) 또는 애드혹(ad hoc) 네트워크들 또는 둘 모두를 통한 무선 통신을 위한 디바이스들을 포함한다. 일 실시예에서, 통신 디바이스들(140)은 (무선 및 광학 통신을 포함하는) 전자기 스펙트럼 또는 다른 매체(예를 들면, 공기 및 음향 매체)를 통해 통신한다. V2V(Vehicle-to-Vehicle) 통신과 V2I(Vehicle-to-Infrastructure) 통신(및 일부 실시예들에서, 하나 이상의 다른 유형의 통신)의 조합이 때때로 V2X(Vehicle-to-Everything) 통신이라고 지칭된다. V2X 통신은 전형적으로, 자율 주행 차량들과의 통신 및 자율 주행 차량들 간의 통신을 위한 하나 이상의 통신 표준을 준수한다.
일 실시예에서, 통신 디바이스들(140)은 통신 인터페이스들을 포함한다. 예를 들어, 유선, 무선, WiMAX, Wi-Fi, 블루투스, 위성, 셀룰러, 광학, 근거리(near field), 적외선, 또는 무선(radio) 인터페이스들. 통신 인터페이스들은 원격에 위치하는 데이터베이스(134)로부터 AV 시스템(120)으로 데이터를 송신한다. 일 실시예에서, 원격에 위치하는 데이터베이스(134)는 도 2에 기술된 바와 같은 클라우드 컴퓨팅 환경(200)에 내장된다. 통신 디바이스들(140)은 센서들(121)로부터 수집되는 데이터 또는 차량(100)의 작동에 관련된 다른 데이터를 원격에 위치하는 데이터베이스(134)로 송신한다. 일 실시예에서, 통신 디바이스들(140)은 원격 작동(teleoperation)에 관련되는 정보를 차량(100)으로 송신한다. 일부 실시예들에서, 차량(100)은 다른 원격(예를 들면, "클라우드") 서버들(136)과 통신한다.
일 실시예에서, 원격에 위치하는 데이터베이스(134)는 또한 디지털 데이터를 저장 및 송신한다(예를 들면, 도로 및 거리 위치들과 같은 데이터를 저장함). 그러한 데이터는 차량(100) 상의 메모리(144)에 저장되거나, 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 차량(100)으로 송신된다.
일 실시예에서, 원격에 위치하는 데이터베이스(134)는 유사한 하루 중 시간(time of day)에 궤적(198)을 따라 이전에 주행했던 차량들의 운전 속성들(예를 들면, 속력 프로파일 및 가속도 프로파일)에 관한 과거 정보를 저장 및 송신한다. 일 구현예에서, 그러한 데이터는 차량(100) 상의 메모리(144)에 저장될 수 있거나, 또는 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 차량(100)으로 송신될 수 있다.
차량(100) 상에 위치하는 컴퓨터 프로세서들(146)은 실시간 센서 데이터 및 사전 정보(prior information) 둘 모두에 기초하여 제어 액션들을 알고리즘적으로 생성하여, AV 시스템(120)이 그의 자율 주행 운전 능력을 실행할 수 있게 한다.
일 실시예에서, AV 시스템(120)은 차량(100)의 사용자(예를 들면, 탑승자 또는 원격 사용자)에게 정보 및 경고들을 제공하고 그로부터 입력을 수신하기 위한, 컴퓨터 프로세서들(146)에 결합된 컴퓨터 주변기기들(132)을 포함한다. 일 실시예에서, 주변기기들(132)은 도 3을 참조하여 아래에서 논의되는 디스플레이(312), 입력 디바이스(314), 및 커서 컨트롤러(316)와 유사하다. 결합은 무선 또는 유선이다. 인터페이스 디바이스들 중 임의의 둘 이상이 단일 디바이스에 통합될 수 있다.
일 실시예에서, AV 시스템(120)은, 예를 들면, 승객에 의해 명시되거나 승객과 연관된 프로파일에 저장된, 승객의 프라이버시 레벨을 수신하고 시행한다. 승객의 프라이버시 레벨은 승객과 연관된 특정 정보(예를 들면, 승객 편의 데이터, 생체 측정 데이터 등)가 사용되도록, 승객 프로파일에 저장되도록, 그리고/또는 클라우드 서버(136)에 저장되어 승객 프로파일과 연관되도록 할 수 있는 방법을 결정한다. 일 실시예에서, 프라이버시 레벨은 일단 라이드(ride)가 완료되면 삭제되는 승객과 연관된 특정 정보를 명시한다. 일 실시예에서, 프라이버시 레벨은 승객과 연관된 특정 정보를 지정하고 정보에 액세스하도록 인가된 하나 이상의 엔티티를 식별해 준다. 정보에 액세스하도록 인가되어 있는 명시된 엔티티들의 예들은 다른 AV들, 제3자 AV 시스템들, 또는 정보에 잠재적으로 액세스할 수 있는 임의의 엔티티를 포함할 수 있다.
승객의 프라이버시 레벨은 하나 이상의 입도(granularity) 레벨로 명시될 수 있다. 일 실시예에서, 프라이버시 레벨은 저장 또는 공유될 특정 정보를 식별해 준다. 일 실시예에서, 승객이 자신의 개인 정보가 저장 또는 공유되지 않게 명시할 수 있도록 승객과 연관된 모든 정보에 프라이버시 레벨이 적용된다. 특정 정보에 액세스하도록 허용된 엔티티들의 명시는 다양한 입도 레벨들로 명시될 수 있다. 특정 정보에 액세스하도록 허용되는 다양한 엔티티 세트들은, 예를 들어, 다른 AV들, 클라우드 서버들(136), 특정 제3자 AV 시스템들 등을 포함할 수 있다.
일 실시예에서, AV 시스템(120) 또는 클라우드 서버(136)는 승객과 연관된 특정 정보가 AV(100) 또는 다른 엔티티에 의해 액세스될 수 있는지를 결정한다. 예를 들어, 특정 시공간적 위치에 관련된 승객 입력에 액세스하려고 시도하는 제3자 AV 시스템은 승객과 연관된 정보에 액세스하기 위해, 예를 들면, AV 시스템(120) 또는 클라우드 서버(136)로부터 인가를 획득해야 한다. 예를 들어, AV 시스템(120)은 시공간적 위치에 관련된 승객 입력이 제3자 AV 시스템, AV(100), 또는 다른 AV에 제공될 수 있는지 여부를 결정하기 위해 승객의 명시된 프라이버시 레벨을 사용한다. 이것은 승객의 프라이버시 레벨이 어느 다른 엔티티들이 승객의 행동에 관한 데이터 또는 승객과 연관된 다른 데이터를 수신하도록 허용되는지를 명시할 수 있게 한다.
도 2는 예시적인 "클라우드" 컴퓨팅 환경을 도시한다. 클라우드 컴퓨팅은 구성 가능한 컴퓨팅 리소스들(예를 들면, 네트워크들, 네트워크 대역폭, 서버들, 프로세싱, 메모리, 스토리지, 애플리케이션들, 가상 머신들, 및 서비스들)의 공유 풀에 대한 편리한 온 디맨드 네트워크 액세스를 가능하게 하기 위한 서비스 전달(service delivery)의 일 모델이다. 전형적인 클라우드 컴퓨팅 시스템들에서는, 하나 이상의 대규모 클라우드 데이터 센터가 클라우드에 의해 제공되는 서비스들을 전달하는 데 사용되는 머신들을 수용한다. 이제 도 2를 참조하면, 클라우드 컴퓨팅 환경(200)은 클라우드(202)를 통해 상호연결되는 클라우드 데이터 센터들(204a, 204b 및 204c)을 포함한다. 데이터 센터들(204a, 204b 및 204c)은 클라우드 컴퓨팅 서비스들을 클라우드(202)에 연결된 컴퓨터 시스템들(206a, 206b, 206c, 206d, 206e 및 206f)에 제공한다.
클라우드 컴퓨팅 환경(200)은 하나 이상의 클라우드 데이터 센터를 포함한다. 일반적으로, 클라우드 데이터 센터, 예를 들어, 도 2에 도시된 클라우드 데이터 센터(204a)는 클라우드, 예를 들어, 도 2에 도시된 클라우드(202) 또는 클라우드의 특정 부분을 구성하는 서버들의 물리적 배열을 지칭한다. 예를 들어, 서버들은 클라우드 데이터 센터 내에 룸, 그룹, 로우(row), 및 랙(rack)으로 물리적으로 배열된다. 클라우드 데이터 센터는 하나 이상의 서버 룸을 포함하는 하나 이상의 구역(zone)을 갖는다. 각각의 룸은 하나 이상의 서버 로우를 가지며, 각각의 로우는 하나 이상의 랙을 포함한다. 각각의 랙은 하나 이상의 개별 서버 노드를 포함한다. 어떤 구현예에서, 구역, 룸, 랙, 및/또는 로우 내의 서버들은, 전력 요구사항, 에너지 요구사항, 열적 요구사항, 가열 요구사항, 및/또는 다른 요구사항들을 포함하는, 데이터 센터 설비의 물리적 인프라스트럭처 요구사항들에 기초하여 그룹들로 배열된다. 일 실시예에서, 서버 노드들은 도 3에서 기술된 컴퓨터 시스템과 유사하다. 데이터 센터(204a)는 많은 랙들을 통해 분산된 많은 컴퓨팅 시스템들을 갖는다.
클라우드(202)는 클라우드 데이터 센터들(204a, 204b, 및 204c)을 상호연결시키고 클라우드 컴퓨팅 서비스들에 대한 컴퓨팅 시스템들(206a 내지 206f)의 액세스를 용이하게 하는 것을 돕는 네트워크 및 네트워킹 리소스들(예를 들어, 네트워킹 장비, 노드, 라우터, 스위치, 및 네트워킹 케이블)과 함께 클라우드 데이터 센터들(204a, 204b 및 204c)을 포함한다. 일 실시예에서, 네트워크는 지상 또는 위성 연결들을 사용하여 배포된 유선 또는 무선 링크들을 사용하여 결합되는 하나 이상의 로컬 네트워크, 광역 네트워크, 또는 인터네트워크의 임의의 조합을 나타낸다. 네트워크를 통해 교환되는 데이터는, IP(Internet Protocol), MPLS(Multiprotocol Label Switching), ATM(Asynchronous Transfer Mode), 및 프레임 릴레이 등과 같은, 임의의 수의 네트워크 계층 프로토콜들을 사용하여 전송된다. 게다가, 네트워크가 다수의 서브 네트워크들의 조합을 나타내는 실시예들에서, 기저 서브 네트워크들(underlying sub-networks) 각각에서 상이한 네트워크 계층 프로토콜들이 사용된다. 일부 실시예들에서, 네트워크는, 공중 인터넷과 같은, 하나 이상의 상호연결된 인터네트워크를 나타낸다.
컴퓨팅 시스템들(206a 내지 206f) 또는 클라우드 컴퓨팅 서비스 소비자들은 네트워크 링크들 및 네트워크 어댑터들을 통해 클라우드(202)에 연결된다. 일 실시예에서, 컴퓨팅 시스템들(206a 내지 206f)은 다양한 컴퓨팅 디바이스들, 예를 들어, 서버, 데스크톱, 랩톱, 태블릿, 스마트폰, IoT(Internet of Things) 디바이스, 자율 주행 차량(자동차, 드론, 셔틀, 기차, 버스 등을 포함함) 및 소비자 전자기기로서 구현된다. 일 실시예에서, 컴퓨팅 시스템들(206a 내지 206f)은 다른 시스템들 내에 또는 그 일부로서 구현된다.
도 3은 컴퓨터 시스템(300)을 도시한다. 일 구현예에서, 컴퓨터 시스템(300)은 특수 목적 컴퓨팅 디바이스이다. 특수 목적 컴퓨팅 디바이스는 기술들을 수행하도록 고정 배선(hard-wired)되거나, 또는 기술들을 수행하도록 영속적으로 프로그래밍되어 있는 하나 이상의 ASIC(application-specific integrated circuit) 또는 FPGA(field programmable gate array)와 같은 디지털 전자 디바이스들을 포함하거나, 또는 펌웨어, 메모리, 다른 스토리지 또는 그 조합 내의 프로그램 명령어들에 따라 기술들을 수행하도록 프로그래밍되어 있는 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 그러한 특수 목적 컴퓨팅 디바이스들은 또한 커스텀 고정 배선 로직, ASIC들, 또는 FPGA들을 커스텀 프로그래밍과 조합하여 기술들을 달성할 수 있다. 다양한 실시예들에서, 특수 목적 컴퓨팅 디바이스들은 기술들을 구현하기 위한 고정 배선 및/또는 프로그램 로직을 포함하는 데스크톱 컴퓨터 시스템들, 휴대용 컴퓨터 시스템들, 핸드헬드 디바이스들, 네트워크 디바이스들, 또는 임의의 다른 디바이스이다.
일 실시예에서, 컴퓨터 시스템(300)은 정보를 통신하기 위한 버스(302) 또는 다른 통신 메커니즘, 및 정보를 프로세싱하기 위한, 버스(302)와 결합된 프로세서(304)를 포함한다. 프로세서(304)는, 예를 들어, 범용 마이크로프로세서이다. 컴퓨터 시스템(300)은 프로세서(304)에 의해 실행될 명령어들 및 정보를 저장하기 위한, 버스(302)에 결합된 메인 메모리(306), 예컨대, RAM(random access memory) 또는 다른 동적 저장 디바이스를 또한 포함한다. 일 구현예에서, 메인 메모리(306)는 프로세서(304)에 의해 실행될 명령어들의 실행 동안 임시 변수들 또는 다른 중간 정보를 저장하는 데 사용된다. 그러한 명령어들은, 프로세서(304)에 의해 액세스 가능한 비일시적 저장 매체에 저장되어 있을 때, 컴퓨터 시스템(300)을 명령어들에 명시된 동작들을 수행하도록 커스터마이징되는 특수 목적 머신으로 만든다.
일 실시예에서, 컴퓨터 시스템(300)은, 프로세서(304)에 대한 명령어들 및 정적 정보를 저장하기 위한, 버스(302)에 결합된 ROM(read only memory)(308) 또는 다른 정적 저장 디바이스를 더 포함한다. 정보 및 명령어들을 저장하기 위한, 자기 디스크, 광학 디스크, 솔리드 스테이트 드라이브, 또는 3차원 크로스 포인트 메모리와 같은, 저장 디바이스(310)가 제공되고 버스(302)에 결합된다.
일 실시예에서, 컴퓨터 시스템(300)은 정보를 컴퓨터 사용자에게 디스플레이하기 위한 CRT(cathode ray tube), LCD(liquid crystal display), 플라스마 디스플레이, LED(light emitting diode) 디스플레이, 또는 OLED(organic light emitting diode) 디스플레이와 같은 디스플레이(312)에 버스(302)를 통해 결합된다. 정보 및 커맨드 선택들을 프로세서(304)로 전달하기 위한 문자 숫자식 키 및 다른 키를 포함하는 입력 디바이스(314)가 버스(302)에 결합된다. 다른 유형의 사용자 입력 디바이스는 방향 정보 및 커맨드 선택들을 프로세서(304)에 전달하고 디스플레이(312) 상에서의 커서 움직임을 제어하기 위한, 마우스, 트랙볼, 터치식 디스플레이, 또는 커서 방향 키들과 같은, 커서 컨트롤러(316)이다. 이러한 입력 디바이스는 전형적으로, 디바이스가 평면에서의 위치들을 명시할 수 있게 하는 2 개의 축, 즉 제1 축(예를 들면, x 축) 및 제2 축(예를 들면, y 축)에서의 2 자유도를 갖는다.
일 실시예에 따르면, 본원에서의 기술들은 프로세서(304)가 메인 메모리(306)에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 것에 대한 응답으로 컴퓨터 시스템(300)에 의해 수행된다. 그러한 명령어들은, 저장 디바이스(310)와 같은, 다른 저장 매체로부터 메인 메모리(306) 내로 판독된다. 메인 메모리(306)에 포함된 명령어 시퀀스들의 실행은 프로세서(304)로 하여금 본원에 기술된 프로세스 단계들을 수행하게 한다. 대안적인 실시예들에서, 소프트웨어 명령어들 대신에 또는 소프트웨어 명령어들과 조합하여 고정 배선 회로가 사용된다.
"저장 매체"라는 용어는, 본원에서 사용되는 바와 같이, 머신으로 하여금 특정 방식으로 작동하게 하는 명령어들 및/또는 데이터를 저장하는 임의의 비일시적 매체를 지칭한다. 그러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함한다. 비휘발성 매체는, 예를 들어, 광학 디스크, 자기 디스크, 솔리드 스테이트 드라이브, 또는 3차원 크로스 포인트 메모리, 예컨대, 저장 디바이스(310)를 포함한다. 휘발성 매체는 동적 메모리, 예컨대, 메인 메모리(306)를 포함한다. 통상적인 형태의 저장 매체는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드 스테이트 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광학 데이터 저장 매체, 홀 패턴들을 갖는 임의의 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, NV-RAM, 또는 임의의 다른 메모리 칩, 또는 카트리지를 포함한다.
저장 매체는 송신 매체와 별개이지만 송신 매체와 함께 사용될 수 있다. 송신 매체는 저장 매체들 사이에서 정보를 전달하는 데 참여한다. 예를 들어, 송신 매체는 버스(302)를 구성하는 와이어들을 포함한, 동축 케이블, 구리 와이어 및 광섬유를 포함한다. 송신 매체는 또한, 전파(radio-wave) 및 적외선 데이터 통신 동안 생성되는 것과 같은, 음향파 또는 광파의 형태를 취할 수 있다.
일 실시예에서, 실행을 위해 하나 이상의 명령어의 하나 이상의 시퀀스를 프로세서(304)로 반송하는 데 다양한 형태의 매체가 관여된다. 예를 들어, 명령어들은 초기에 원격 컴퓨터의 자기 디스크 또는 솔리드 스테이트 드라이브에 보유된다. 원격 컴퓨터는 자신의 동적 메모리에 명령어들을 로딩하고 모뎀을 사용하여 전화선을 통해 명령어들을 전송한다. 컴퓨터 시스템(300)에 로컬인 모뎀은 전화선을 통해 데이터를 수신하고 적외선 송신기를 사용하여 데이터를 적외선 신호로 변환한다. 적외선 검출기는 적외선 신호로 반송되는 데이터를 수신하고 적절한 회로는 데이터를 버스(302)에 배치한다. 버스(302)는 데이터를 메인 메모리(306)로 반송하고, 프로세서(304)는 메인 메모리로부터 명령어들을 검색하여 실행한다. 메인 메모리(306)에 의해 수신되는 명령어들은 프로세서(304)에 의해 실행되기 전이나 실행된 후에 선택적으로 저장 디바이스(310)에 저장될 수 있다.
컴퓨터 시스템(300)은 버스(302)에 결합된 통신 인터페이스(318)를 또한 포함한다. 통신 인터페이스(318)는 로컬 네트워크(322)에 연결되는 네트워크 링크(320)에 대한 양방향 데이터 통신(two-way data communication) 결합을 제공한다. 예를 들어, 통신 인터페이스(318)는 ISDN(integrated service digital network) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 유형의 전화선에 대한 데이터 통신 연결을 제공하는 모뎀이다. 다른 예로서, 통신 인터페이스(318)는 호환 가능한 LAN(local area network)에 대한 데이터 통신 연결을 제공하기 위한 LAN 카드이다. 일부 구현예들에서, 무선 링크들이 또한 구현된다. 임의의 그러한 구현예에서, 통신 인터페이스(318)는 다양한 유형의 정보를 나타내는 디지털 데이터 스트림을 반송하는 전기 신호, 전자기 신호, 또는 광학 신호를 전송 및 수신한다.
네트워크 링크(320)는 전형적으로 하나 이상의 네트워크를 통한 다른 데이터 디바이스들로의 데이터 통신을 제공한다. 예를 들어, 네트워크 링크(320)는 로컬 네트워크(322)를 통해 호스트 컴퓨터(324)에 대한 연결 또는 ISP(Internet Service Provider)(326)에 의해 운영되는 클라우드 데이터 센터 또는 장비에 대한 연결을 제공한다. ISP(326)는 차례로 지금은 "인터넷(328)"이라고 통상적으로 지칭되는 월드 와이드 패킷 데이터 통신 네트워크(world-wide packet data communication network)를 통해 데이터 통신 서비스들을 제공한다. 로컬 네트워크(322) 및 인터넷(328) 둘 모두는 디지털 데이터 스트림을 반송하는 전기 신호, 전자기 신호, 또는 광학 신호를 사용한다. 컴퓨터 시스템(300)으로 그리고 컴퓨터 시스템(300)으로부터 디지털 데이터를 반송하는, 다양한 네트워크들을 통한 신호들 및 통신 인터페이스(318)를 통한 네트워크 링크(320) 상의 신호들은 송신 매체의 예시적인 형태들이다. 일 실시예에서, 네트워크(320)는 위에서 기술된 클라우드(202) 또는 클라우드(202)의 일부를 포함한다.
컴퓨터 시스템(300)은 네트워크(들), 네트워크 링크(320), 및 통신 인터페이스(318)를 통해 메시지들을 전송하고, 프로그램 코드를 포함한, 데이터를 수신한다. 일 실시예에서, 컴퓨터 시스템(300)은 프로세싱하기 위한 코드를 수신한다. 수신된 코드는 수신될 때 프로세서(304)에 의해 실행되고/되거나 추후 실행을 위해 저장 디바이스(310) 또는 다른 비휘발성 스토리지에 저장된다.
자율 주행 차량 아키텍처
도 4는 자율 주행 차량(예를 들면, 도 1에 도시된 차량(100))에 대한 예시적인 아키텍처(400)를 도시한다. 아키텍처(400)는 인지 모듈(402)(때때로 인지 회로라고 지칭됨), 계획 모듈(404)(때때로 계획 회로라고 지칭됨), 제어 모듈(406)(때때로 제어 회로라고 지칭됨), 로컬화 모듈(408)(때때로 로컬화 회로라고 지칭됨), 및 데이터베이스 모듈(410)(때때로 데이터베이스 회로라고 지칭됨)을 포함한다. 각각의 모듈은 차량(100)의 작동에서 소정의 역할을 한다. 다함께, 모듈들(402, 404, 406, 408 및 410)은 도 1에 도시된 AV 시스템(120)의 일부일 수 있다. 일부 실시예들에서, 모듈들(402, 404, 406, 408, 및 410) 중 임의의 것은 컴퓨터 소프트웨어(예를 들면, 컴퓨터 판독 가능 매체에 저장된 실행 가능 코드) 및 컴퓨터 하드웨어(예를 들면, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, ASIC(application-specific integrated circuit), 하드웨어 메모리 디바이스, 다른 유형의 집적 회로, 다른 유형의 컴퓨터 하드웨어, 또는 이러한 것들 중 임의의 것 또는 전부의 조합)의 조합이다. 모듈들(402, 404, 406, 408 및 410) 각각은 때때로 프로세싱 회로(예를 들면, 컴퓨터 하드웨어, 컴퓨터 소프트웨어, 또는 이 둘의 조합)라고 지칭된다. 모듈들(402, 404, 406, 408 및 410) 중 일부 또는 전부의 조합은 또한 프로세싱 회로의 예이다.
사용 중에, 계획 모듈(404)은 목적지(412)를 나타내는 데이터를 수신하고 목적지(412)에 도달(예를 들면, 도착)하기 위해 차량(100)에 의해 주행될 수 있는 궤적(414)(때때로 루트라고 지칭됨)을 나타내는 데이터를 결정한다. 계획 모듈(404)이 궤적(414)을 나타내는 데이터를 결정하기 위해, 계획 모듈(404)은 인지 모듈(402), 로컬화 모듈(408), 및 데이터베이스 모듈(410)로부터 데이터를 수신한다.
인지 모듈(402)은, 예를 들면, 도 1에 또한 도시된 바와 같이, 하나 이상의 센서(121)를 사용하여 인근의 물리적 대상체들을 식별한다. 대상체들은 분류되고(예를 들면, 보행자, 자전거, 자동차, 교통 표지판 등과 같은 유형들로 그룹화되고), 분류된 대상체들(416)을 포함하는 장면 묘사가 계획 모듈(404)에 제공된다.
계획 모듈(404)은 또한 AV 위치(418)를 나타내는 데이터를 로컬화 모듈(408)로부터 수신한다. 로컬화 모듈(408)은 위치를 계산하기 위해 센서들(121)로부터의 데이터 및 데이터베이스 모듈(410)로부터의 데이터(예를 들면, 지리적 데이터)를 사용하여 AV 위치를 결정한다. 예를 들어, 로컬화 모듈(408)은 GNSS(Global Navigation Satellite System) 센서로부터의 데이터 및 지리적 데이터를 사용하여 AV의 경도와 위도를 계산한다. 일 실시예에서, 로컬화 모듈(408)에 의해 사용되는 데이터는 도로 기하학적 속성들의 고정밀 맵, 도로망 연결 속성들을 기술하는 맵, 도로 물리적 속성들(예컨대, 교통 속력, 교통량, 차량 교통 차선과 자전거 타는 사람 교통 차선의 수, 차선 폭, 차선 교통 방향, 또는 차선 마커 유형 및 위치, 또는 이들의 조합)을 기술하는 맵, 및 도로 특징부, 예컨대, 횡단보도, 교통 표지판 또는 다양한 유형의 다른 주행 신호들의 공간적 위치들을 기술하는 맵을 포함한다. 일 실시예에서, 고정밀 맵은 자동 또는 수동 주석 달기(annotation)를 통해 저정밀 맵에 데이터를 추가하는 것에 의해 구성된다.
제어 모듈(406)은 궤적(414)을 나타내는 데이터 및 AV 위치(418)를 나타내는 데이터를 수신하고, 차량(100)으로 하여금 목적지(412)로 궤적(414)을 주행하게 할 방식으로 AV의 제어 기능들(420a 내지 420c)(예를 들면, 조향, 스로틀링, 제동, 점화)을 작동시킨다. 예를 들어, 궤적(414)이 좌회전을 포함하는 경우, 제어 모듈(406)은, 조향 기능의 조향각이 차량(100)으로 하여금 좌회전하게 하고 스로틀링 및 제동이 차량(100)으로 하여금 이러한 회전이 이루어지기 전에 지나가는 보행자들 또는 차량들을 위해 일시정지 및 대기하게 하는 방식으로, 제어 기능들(420a 내지 420c)을 작동시킬 것이다.
자율 주행 차량 입력들
도 5는 인지 모듈(402)(도 4)에 의해 사용되는 입력들(502a 내지 502d)(예를 들면, 도 1에 도시된 센서들(121)) 및 출력들(504a 내지 504d)(예를 들면, 센서 데이터)의 예를 도시한다. 하나의 입력(502a)은 LiDAR(Light Detection and Ranging) 시스템(예를 들면, 도 1에 도시된 LiDAR(123))이다. LiDAR는 그의 가시선에 있는 물리적 대상체들에 관한 데이터를 획득하기 위해 광(예를 들면, 적외선 광과 같은 광 버스트)을 사용하는 기술이다. LiDAR 시스템은 출력(504a)으로서 LiDAR 데이터를 생성한다. 예를 들어, LiDAR 데이터는 환경(190)의 표현을 구성하는 데 사용되는 3D 또는 2D 포인트들(포인트 클라우드들이라도 알려져 있음)의 집합체이다.
다른 입력(502b)은 RADAR 시스템이다. RADAR는 인근의 물리적 대상체들에 관한 데이터를 획득하기 위해 전파를 사용하는 기술이다. RADAR는 LiDAR 시스템의 가시선 내에 있지 않은 대상체들에 관한 데이터를 획득할 수 있다. RADAR 시스템은 출력(504b)으로서 RADAR 데이터를 생성한다. 예를 들어, RADAR 데이터는 환경(190)의 표현을 구성하는 데 사용되는 하나 이상의 무선 주파수 전자기 신호이다.
다른 입력(502c)은 카메라 시스템이다. 카메라 시스템은 인근의 물리적 대상체들에 관한 정보를 획득하기 위해 하나 이상의 카메라(예를 들면, CCD(charge-coupled device)와 같은 광 센서를 사용하는 디지털 카메라들)를 사용한다. 카메라 시스템은 출력(504c)으로서 카메라 데이터를 생성한다. 카메라 데이터는 종종 이미지 데이터(예를 들면, RAW, JPEG, PNG 등과 같은 이미지 데이터 포맷의 데이터)의 형태를 취한다. 일부 예들에서, 카메라 시스템은, 카메라 시스템이 깊이를 인지하는 것을 가능하게 하는, 예를 들면, 입체시(stereopsis)(스테레오 비전)를 위한, 다수의 독립적인 카메라들을 갖는다. 비록 카메라 시스템에 의해 인지되는 대상체들이 여기서 "인근"으로 기술되지만, 이것은 AV를 기준으로 한 것이다. 일부 실시예들에서, 카메라 시스템은 멀리 있는, 예를 들면, AV 전방으로 최대 1 킬로미터 이상에 있는 대상체들을 "보도록" 구성된다. 그에 따라, 일부 실시예들에서, 카메라 시스템은 멀리 떨어져 있는 대상체들을 인지하도록 최적화되어 있는 센서들 및 렌즈들과 같은 특징부들을 갖는다.
다른 입력(502d)은 TLD(traffic light detection) 시스템이다. TLD 시스템은 하나 이상의 카메라를 사용하여, 시각적 운행 정보를 제공하는 교통 신호등, 거리 표지판, 및 다른 물리적 대상체들에 관한 정보를 획득한다. TLD 시스템은 출력(504d)으로서 TLD 데이터를 생성한다. TLD 데이터는 종종 이미지 데이터(예를 들면, RAW, JPEG, PNG 등과 같은 이미지 데이터 형식의 데이터)의 형태를 취한다. TLD 시스템은, 시각적 운행 정보를 제공하는 가능한 한 많은 물리적 대상체들에 관한 정보를 획득하기 위해 TLD 시스템이 넓은 시야를 가진 카메라(예를 들면, 광각 렌즈 또는 어안 렌즈를 사용함)를 사용함으로써, 차량(100)이 이러한 대상체들에 의해 제공되는 모든 관련 운행 정보에 액세스하도록 한다는 점에서, 카메라를 포함하는 시스템과 상이하다. 예를 들어, TLD 시스템의 시야각은 약 120도 이상이다.
일부 실시예들에서, 출력들(504a 내지 504d)은 센서 융합 기술을 사용하여 결합된다. 따라서, 개별 출력들(504a 내지 504d) 중 어느 하나가 차량(100)의 다른 시스템들에 제공되거나(예를 들면, 도 4에 도시된 바와 같은 계획 모듈(404)에 제공되거나), 또는 결합된 출력이 동일한 유형의 단일 결합 출력 또는 다수의 결합 출력들의 형태(동일한 결합 기술을 사용하는 것 또는 동일한 출력들을 결합시키는 것 또는 둘 모두) 또는 상이한 유형의 단일 결합 출력 또는 다수의 결합 출력들의 형태(예를 들면, 상이한 각자의 결합 기술들을 사용하는 것 또는 상이한 각자의 출력들을 결합시키는 것 또는 둘 모두) 중 어느 하나로 다른 시스템들에 제공될 수 있다. 일부 실시예들에서, 조기 융합(early fusion) 기술이 사용된다. 조기 융합 기술은 하나 이상의 데이터 프로세싱 단계가 결합된 출력에 적용되기 전에 출력들을 결합하는 것을 특징으로 한다. 일부 실시예들에서, 늦은 융합(late fusion) 기술이 사용된다. 늦은 융합 기술은 하나 이상의 데이터 프로세싱 단계가 개별 출력들에 적용된 후에 출력들을 결합하는 것을 특징으로 한다.
도 6은 LiDAR 시스템(602)(예를 들면, 도 5에 도시된 입력(502a))의 예를 도시한다. LiDAR 시스템(602)은 광 방출기(606)(예를 들면, 레이저 송신기)로부터 광(604a 내지 604c)을 방출한다. LiDAR 시스템에 의해 방출되는 광은 전형적으로 가시 스펙트럼에 있지 않으며; 예를 들어, 적외선 광이 종종 사용된다. 방출되는 광(604b)의 일부는 물리적 대상체(608)(예를 들면, 차량)와 조우하고, LiDAR 시스템(602)으로 다시 반사된다. (LiDAR 시스템으로부터 방출되는 광은 전형적으로 물리적 대상체, 예를 들면, 고체 형태의 물리적 대상체들을 투과하지 않는다). LiDAR 시스템(602)은 또한 반사 광을 검출하는 하나 이상의 광 검출기(610)를 갖는다. 일 실시예에서, LiDAR 시스템과 연관된 하나 이상의 데이터 프로세싱 시스템은 LiDAR 시스템의 시야(614)를 나타내는 이미지(612)를 생성한다. 이미지(612)는 물리적 대상체(608)의 경계들(616)을 나타내는 정보를 포함한다. 이러한 방식으로, 이미지(612)는 AV 인근의 하나 이상의 물리적 대상체의 경계들(616)을 결정하는 데 사용된다.
도 7은 작동 중인 LiDAR 시스템(602)을 도시한다. 이 도면에 도시된 시나리오에서, 차량(100)은 이미지(702) 형태의 카메라 시스템 출력(504c) 및 LiDAR 데이터 포인트들(704) 형태의 LiDAR 시스템 출력(504a) 둘 모두를 수신한다. 사용 중에, 차량(100)의 데이터 프로세싱 시스템들은 이미지(702)를 데이터 포인트들(704)과 비교한다. 상세하게는, 이미지(702)에서 식별된 물리적 대상체(706)가 데이터 포인트들(704) 중에서도 식별된다. 이러한 방식으로, 차량(100)은 데이터 포인트들(704)의 윤곽 및 밀도에 기초하여 물리적 대상체의 경계들을 인지한다.
도 8은 LiDAR 시스템(602)의 작동을 추가적으로 상세하게 도시한다. 위에서 기술된 바와 같이, 차량(100)은 LiDAR 시스템(602)에 의해 검출되는 데이터 포인트들의 특성들에 기초하여 물리적 대상체의 경계를 검출한다. 도 8에 도시된 바와 같이, 지면(802)과 같은 평평한 대상체는 LiDAR 시스템(602)으로부터 방출되는 광(804a 내지 804d)을 일관된 방식으로 반사할 것이다. 달리 말하면, LiDAR 시스템(602)이 일관된 간격을 사용하여 광을 방출하기 때문에, 지면(802)은 광을 동일한 일관된 간격으로 LiDAR 시스템(602)으로 다시 반사할 것이다. 차량(100)이 지면(802) 위를 주행함에 따라, LiDAR 시스템(602)은 도로를 방해하는 것이 아무 것도 없는 경우 다음 유효 지면 포인트(806)에 의해 반사되는 광을 계속 검출할 것이다. 그렇지만, 대상체(808)가 도로를 방해하는 경우, LiDAR 시스템(602)에 의해 방출되는 광(804e 및 804f)은 예상되는 일관된 방식과 부합하지 않는 방식으로 포인트들(810a 및 810b)로부터 반사될 것이다. 이 정보로부터, 차량(100)은 대상체(808)가 존재한다고 결정할 수 있다.
다중뷰 융합을 사용한 대상체들의 식별
도 9는 LiDAR 포인트들을 분류하는 프로세스(900)의 플로차트를 도시한다. 도 6과 관련하여 위에서 언급된 바와 같이, 차량(100)은 LiDAR 시스템(602)에 의해 검출되는 포인트 클라우드 형태의 데이터 포인트들(704)의 특성들에 기초하여 물리적 대상체들을 검출한다. 일부 실시예들에서, 데이터 포인트들은 데이터 포인트들에 의해 표현되는 대상체들을 식별하기 위해 하나 이상의 신경 네트워크에 의해 프로세싱된다. 예를 들어, 포인트 클라우드는 포인트 클라우드에 포함된 포인트들의 클러스터들에 대한 시맨틱 라벨들을 생성하기 위해 신경 네트워크들에 의해 프로세싱된다. 시맨틱 라벨들은 포인트 클라우드에서 대상체들을 구별하는 데 사용된다. 게다가, 일부 예들에서, 포인트 클라우드의 다수의 뷰들은 병렬로 프로세싱되고 융합되어 완성된 라벨 세트를 생성한다.
프로세스(900) 동안, 포인트 클라우드 데이터가 LiDAR 디바이스(502a)(도 5)로부터 생성된다. 일부 예들에서, 포인트 클라우드 데이터는 LiDAR 디바이스(502a)와 카메라 디바이스(502c)(도 5)의 조합으로부터 생성된다. 일 실시예에서, 수신된 포인트 클라우드 데이터는 포인트 클라우드 내의 각각의 포인트에 대한 3차원 위치 정보를 포함한다. 일 실시예에서, 포인트 클라우드 데이터는 포인트 강도 데이터를 포함한다. 포인트 강도 데이터는 포인트 클라우드 내의 포인트의 광 강도를 나타낸다. 일 실시예에서, 포인트 강도 데이터는 실수 값 숫자이다. LiDAR 디바이스(502a)와 카메라 디바이스(502c)의 조합이 활용되는 실시예에서, 포인트 클라우드 데이터는 포인트 클라우드 내의 적어도 하나의 포인트의 색상 데이터를 포함한다. 색상 데이터는 포인트 클라우드 내의 포인트의 색상 정보를 나타낸다. 일 실시예에서, 색상 데이터는 RGB 데이터를 포함하는 텐서로서 표현된다. 포인트 클라우드 데이터 또는 카메라 데이터를 포함한, 이용 가능한 센서 데이터가 수집된다(902).
포인트 클라우드 데이터는 이어서 2 개의 2차원 표면 상으로 투영되어 뷰 데이터를 생성한다(904). 뷰 데이터는 3차원 포인트 클라우드 데이터를 2 개의 2차원 표면 상으로 투영한 것이다. 예를 들어, 포인트 클라우드 데이터는 BeV(Birds-eye View) 및 RV(Range View) 상으로 투영된다. 뷰 데이터는 도 10 및 도 11에 따라 아래에서 상세히 설명된다.
뷰 데이터는 뷰 네트워크들에 제공된다. 뷰 네트워크는 입력 뷰 데이터에 기초하여 분류 메트릭을 생성하는 한 유형의 인코더-디코더 신경 네트워크(예를 들면, 포인트 레벨 인코딩을 갖거나 갖지 않음)이다. 입력 뷰 데이터가 이미지인 실시예에서, 뷰 네트워크는 이미지에 대한 분할 맵(segmentation map)을 출력한다. 분할 맵의 각각의 요소가 입력 뷰 이미지 데이터에서의 대응하는 픽셀에 대한 라벨이도록, 분할 맵은 라벨들로 구성된 행렬이다. 뷰 네트워크들 각각은 뷰 데이터를 입력들로서 취하고, 포인트 클라우드 데이터 내의 각각의 포인트에 대한 클래스 점수 세트를 계산한다(906). 클래스 점수 세트는 n차원 벡터이며, 여기서 n은 미리 정의된 클래스들의 수이고, 여기서 벡터의 각각의 요소는 포인트가 속하는 클래스의 우도 점수(likelihood score)를 나타낸다. 클래스는 대상체 유형, 예를 들면, 초목, 차량 또는 보행자를 반영한다. 뷰 네트워크들에 관한 추가 세부 사항들은 도 11에 따라 아래에 나와 있다.
포인트 클라우드 데이터 내의 포인트의 상이한 클래스 점수 세트들이 획득되고 비교된다. 비교의 결과에 기초하여, 포인트는 이어서 불확실한 포인트(950) 또는 분류된 포인트(960)로서 결정된다(910). 비교 프로세스에 관한 세부 사항들은 도 10에 따라 아래에 나와 있다.
완성(914)된 라벨은 포인트 클라우드 내의 포인트가 포인트의 대상체, 예를 들면, 초목, 차량 또는 보행자의 일부임을 나타내기 위해 해당 포인트에 할당되는 라벨이다. 대부분의 경우에, 분류된 포인트들(960)은 상이한 클래스 점수 세트들로부터의 동일한 지배적 클래스(dominant class)를 나타내고, 따라서 분류된 포인트들(960)의 완성된 라벨은 클래스 점수 세트로부터의 지배적 클래스이다. 그렇지만, 불확실한 포인트(950)는 일반적으로 상이한 클래스 점수 세트들로부터의 동일한 지배적 클래스를 나타내지 않으며, 불확실한 포인트에 대한 완성된 라벨을 결정하기 위해 추가적인 프로세싱을 필요로 한다.
융합 신경 네트워크라고도 하는, 융합 네트워크는 불확실한 포인트를 취하고, 융합(912)을 통해, 불확실한 포인트에 대한 새로운 클래스 점수 세트를 생성한다. 융합 네트워크는 보다 정확한 결과를 생성하기 위해 포인트 클라우드 내의 포인트에 대한 뷰 네트워크들의 최종 또는 중간 출력들을 융합하는 한 유형의 신경 네트워크이다. 일 실시예에서, 새로운 클래스 점수 세트는 불확실한 포인트(950)에 대한 완성(914)된 라벨로서 사용되는 지배적 클래스를 나타낸다. 비교 프로세스에 관한 세부 사항들은 도 12에 따라 아래에 나와 있다.
일 실시예에서, 포인트 클라우드 내의 포인트들의 완성된 라벨들은 대상체 인식과 같은 작업들을 위해 도 4에 도시된 인지 회로(402)에 전달된다. 후속 작업들에 관한 세부 사항들은 도 10에 따라 아래에 나와 있다.
도 10은 LiDAR 스캔 포인트들을 분류하는 데 사용되는 분류 네트워크(1000)의 블록 다이어그램을 예시한다. 분류 네트워크(1000)는 LiDAR 디바이스(1001)(예를 들면, 도 5에 도시된 LiDAR(502a))로부터 획득되는 포인트 클라우드 데이터(1003)를, 입력으로서, 취하고, 포인트 클라우드 데이터(1003) 내의 각각의 포인트에 대한 완성된 라벨들(1060)을 생성한다. 완성된 라벨(1060)은 포인트 클라우드 내의 포인트가 대상체, 예를 들면, 초목, 차량 또는 보행자의 일부라는 해당 포인트에 할당되는 라벨이다.
포인트 클라우드 데이터는 수신되고 프로세싱 회로(1002)를 사용하여 프로세싱되며, 프로세싱 회로(1002)는 수행되는 후속 작업들의 순서에 기초하여 로컬화 회로(408)(도 4) 또는 인지 회로(402)(도 4)이다. 3차원 포인트 클라우드 데이터(1003)는, 프로세싱 회로(1002)를 사용하여, 2 개의 2차원 표면 상으로 투영된다. 하나의 투영은 마치 포인트 클라우드를, 월드 맵 상으로의 지구의 투영과 유사하게, 구면 표면으로부터 평평한 표면 상으로 펼쳐놓은 것과 같으며, 이는 RV(Range View) 데이터(1020)라고 한다. 환언하면, RV(Range View) 데이터(1020)는 xy 좌표계 상으로 매핑되는 구면 좌표계에서의 3차원 포인트 클라우드 데이터이며, 각각의 x 좌표는 각각의 φ(파이) 각도를 나타낸다. 다른 투영은 마치 포인트 클라우드를 위에서 본 것과 같으며, 이는 BeV(Bird-eye View) 데이터(1030)라고 한다. 환언하면, BeV(Bird-eye View) 데이터(1030)는 z축이 제거된 xy 좌표계 상으로 매핑되는 xyz 좌표계에서의 3차원 포인트 클라우드 데이터이다. RV 데이터(1020) 및 BeV 데이터(1030)는 다수의 포맷들을 취한다. 일 예에서, RV 데이터(1020) 및 BeV 데이터(1030)는 이미지들의 포맷을 취한다. 다른 예에서, RV 데이터(1020) 및 BeV 데이터(1030)는 행렬들의 포맷을 취한다.
RV 데이터(1020)는 레인지 뷰 네트워크(1004) 또는 RV 네트워크에 대한 입력으로서 제공되고, BeV 데이터(1030)는 버드 아이 뷰 네트워크(1006) 또는 BeV 네트워크에 대한 입력으로서 제공된다. 일 실시예에서, RV 네트워크(1004) 및 BeV 네트워크(1006) 둘 모두는 뷰 네트워크들이다. RV 네트워크(1004) 및 BeV 네트워크(1006)를 나타내는 뷰 네트워크의 상세한 아키텍처가 도 11에 예시되어 있다. RV 네트워크(1004)는, 포인트 클라우드 내의 각각의 포인트에 대해, 제1 클래스 점수 세트(1040)를 계산한다. 마찬가지로, BeV 네트워크(1006)는, 포인트 클라우드 내의 각각의 포인트에 대해, 제2 클래스 점수 세트(1050)를 계산한다.
RV 네트워크(1004) 및 BeV 네트워크(1006)는 입력 또는 계산을 위해 서로 의존하지 않는 독립적인 신경 네트워크들이다. 일 실시예에서, RV 네트워크(1004) 및 BeV 네트워크(1006)는 2 개의 상이한 프로세서를 사용하여 병렬로 평가된다. 일 실시예에서, 사용되는 2 개의 상이한 프로세서 중 하나는 도 3에 도시된 프로세서(304)인 반면, 사용되는 다른 프로세서는 도 2에 도시된 클라우드(202)의 일부이다. 다른 실시예에서, 프로세서들 둘 모두가 클라우드(202)에 위치하거나, 또는 AV의 요소로서 위치한다. 계산 리소스들이 제한된 일 실시예에서, RV 네트워크(1004) 또는 BeV 네트워크(1006) 중 하나만을 동시에 평가할 수 있는 계산 리소스들이 둘 모두를 평가하는 데 활용되도록 RV 네트워크(1004) 및 BeV 네트워크(1006)가 순차적으로 평가된다.
포인트의 제1 클래스 점수 세트(1040) 및 포인트의 제2 클래스 점수 세트(1050)는 점수 비교기(1008)에 대한 입력으로서 제공된다. 2 개의 점수 세트(1040 및 1050)가 임계치만큼 상이한 경우, 포인트는 불확실한 포인트(950)로서 취급된다. 그렇지 않은 경우, 포인트는 분류된 포인트(960)로서 취급된다. 2 개의 클래스 점수 세트(1040 및 1050)의 임계 차이는 선택되는 평가 메트릭에 의존한다. 위에서 기술된 바와 같이, 제1 클래스 점수 세트(1040) 및 제2 클래스 점수 세트(1050) 각각은 n차원 벡터에 의해 표현된다. 일 실시예에서, 2 개의 클래스 점수 세트(1040 및 1050)의 차이는 2 개의 벡터 사이의 코사인 거리(Cosine distance)로부터 계산된다. 일 실시예에서, 2 개의 클래스 점수 세트(1040 및 1050)의 차이는 2 개의 벡터 사이의 유클리드 거리(Euclidean distance) 또는 L2 노름 거리(distance in L2-norm)로부터 계산된다. 일 실시예에서, 2 개의 클래스 점수 세트(1040 및 1050)의 차이는 2 개의 벡터 사이의 맨해튼 거리(Manhattan distance) 또는 L1 노름 거리(distance in L1-norm)로부터 계산된다.
융합 네트워크(1010)는 불확실한 포인트(950)를 입력으로서 취하고, 2 개의 클래스 점수 세트(1040 및 1050) 사이의 차이가 임계 차이를 충족시키면, 제1 클래스 점수 세트(1040) 및 제2 클래스 점수 세트(1050)에 기초하여 불확실한 포인트(950)에 대한 새로운 클래스 점수 세트(1220)를 생성한다. 불확실한 포인트에 대한 예측된 클래스는 새로운 클래스 점수 세트(1220)에 기초하여 결정된다. 일 실시예에서, 불확실한 포인트(950)에 대한 예측된 클래스는 새로운 클래스 점수 세트(1220) 내의 최대 우도 점수에 대응하는 지배적 클래스이다. 예측된 클래스는 불확실한 포인트(950)에 대한 완성된 라벨(1060)로서 취급된다. 융합 네트워크 및 융합 네트워크의 예시적인 구현예에 관한 세부 사항들은 도 12에 따라 기술된다.
일 실시예에서, 융합 네트워크(1010)는 완성 모듈(finalizing module)을 포함하도록 확장된다. 분류된 포인트의 경우, 완성 모듈은 제1 클래스 점수 세트(1040) 또는 제2 클래스 점수 세트(1050) 중 하나를 취하고, 지배적 클래스를 결정한다. 일 실시예에서, 지배적 클래스는 제1 클래스 점수 세트(1040) 또는 제2 클래스 점수 세트(1050) 내의 최대 우도 점수에 대응한다. 이어서 분류된 포인트에 대한 완성된 라벨(1060)로서 역할하는 지배적 클래스가 분류된 포인트에 할당된다. 불확실한 포인트의 경우, 불확실한 포인트의 완성된 라벨(1060)이 새로운 클래스 점수 세트로부터의 지배적 클래스로서 결정된다.
일 실시예에서, 포인트 클라우드 내의 포인트들의 완성된 라벨들(1060)은, 예를 들면, 대상체 인식과 같은 작업들을 위해 인지 모듈(402)에 제공된다. 예를 들어, 인지 모듈(402)은 포인트 클라우드에서 대상체들을 검출하기 위해, VoxelNet와 같은, 포인트 클라우드 기반 대상체 인식 알고리즘을 적용한다. 일 실시예에서, 검출된 대상체들에 기초하여, 계획 모듈(404)(도 4)은 도로를 따라가거나 인근 차량들과의 충돌을 피하기 위한 전략을 출력한다.
도 11은 RV 네트워크(1004) 및 BeV 네트워크(1006) 둘 모두를 나타내는 뷰 네트워크(1100)를 예시한다. 뷰 네트워크(1100)는 RV 데이터(1020) 또는 BeV 데이터(1030)를 나타내는 뷰 데이터(1120)를 입력으로서 취하고, 클래스 점수 세트(1110)를 출력한다. 일 실시예에서, 뷰 데이터(1120)는 연속적인 콘볼루션 계층들(1102)을 통해 전달된다. 콘볼루션 계층은 계층에 대한 입력에 대해 콘볼루션을 수행하는 신경 네트워크에서의 계층이다. 콘볼루션은 콘볼루션 커널, 예를 들면, 5x5 행렬이 입력 텐서와 콘볼루션되어 새로운 텐서를 생성하는 연산이다. 일 실시예에서, 콘볼루션 계층은 전치 콘볼루션 계층(transpose convolutional layer)으로 대체된다. 전치 콘볼루션 계층은 계층에 대한 입력에 대해 전치 콘볼루션을 사용하여 업샘플링을 수행하는 신경 네트워크에서의 계층이다. 전치 콘볼루션은 패딩된 테두리들을 갖는 입력들에 대해 콘볼루션을 사용하여 수행될 수 있다.
일 실시예에서, 각자의 계층에 대한 입력의 지배적 특성들을 각각 추출하는 다수의 맥스 풀링(max-pooling) 계층들이 연속적인 콘볼루션 계층들(1102) 사이에 임베딩된다. 맥스 풀링 계층은 계층에 대한 입력에 대해 맥스 풀링을 수행하는 신경 네트워크에서의 계층이다. 맥스 풀링은 각각의 패치, 예를 들면, 입력 텐서의 각각의 계층의 입력의 3x3 영역에서의 최댓값을 계산하는 풀링 연산이다.
일 실시예에서, 활성화 함수는 콘볼루션 계층들(1102) 중 일부에 포함된다. 활성화 함수는 계층의 출력을 수정하는 함수이다. 예를 들어, 활성화 함수는 시그모이드 함수 또는 ReLU(Rectified Linear Unit) 함수이다.
순환 계층 또는 다수의 연속적인 순환 계층들을 사용하여 구현되는 공간 평활화 계층(1104)은 연속적인 콘볼루션 계층들(1102) 사이에 임베딩된다. 순환 계층은 내부 메모리를 갖는 신경 네트워크 계층이다. 새로운 입력이 있을 때마다 메모리가 업데이트된다. 출력은 현재 입력과 내부 메모리 둘 모두를 사용하여 계산된다. 그 결과, 순환 계층은 입력들에서의 순차적 관계(sequential relationship)를 학습할 수 있다.
트레이닝 동안, 일 실시예에서, 생성된 RV 데이터(1020) 또는 BeV 데이터(1030)에 대해 데이터 증강이 수행된다. 데이터 증강은 기존 트레이닝 샘플들에 기초하여 보다 많은 트레이닝 샘플들을 생성하는 프로세스이다. 예를 들어, RV 데이터(1020)에 대한 데이터 증강은 RV 데이터를 다수의 보다 작은 조각들로 슬라이싱하는 것을 포함한다. 보다 작은 조각들은 네트워크가 작은 대상체들에 대해 보다 나은 성능을 발휘하는 데 도움이 된다. 추가적으로, 데이터 증강은 이용 가능한 트레이닝 샘플들의 수를 증가시킨다.
일 실시예에서, 하나 또는 다수의 연속적인 완전 연결 계층(1106)은 출력 클래스 점수 세트(1110) 이전에 뷰 네트워크(1100)에 포함된다. 완전 연결 계층은 완전 연결 계층에서의 뉴런들이 이전 계층에서의 모든 출력들에 완전히 연결되어 있는 신경 네트워크에서의 계층이다. 신경 네트워크에서의 뉴런은 학습 가능한 가중치들 및 편향들을 갖는 컴포넌트이다. 다른 실시예에서, 완전 연결 계층들(1106)은 콘볼루션 계층들(1102)로 대체된다. 트레이닝 동안, 신경 네트워크의 실제 출력이 신경 네트워크의 원하는 출력으로 수렴되도록 신경 네트워크에서의 각각의 뉴런의 가중치들 및 편향들이 업데이트된다. 일 실시예에서, 업데이트는 역전파(backpropagation)를 통해 수행된다. 역전파는 신경 네트워크의 가중치들 각각과 관련하여 실제 출력과 원하는 출력 사이의 차이의 기울기가 전파되는 프로세스이다. 실제 출력과 원하는 출력 사이의 차이는 손실 함수에 따라 계산된다. 손실 함수는 실제 출력과 원하는 출력 사이의 오차를 계산하도록 설계된 메트릭이다.
포인트에 대한 출력 클래스 점수 세트(1110)는, 포인트가 어떤 초목의 일부에 속할 우도 점수인 초목 점수(1112), 포인트가 어떤 차량의 일부에 속할 우도 점수인 차량 점수(1114), 포인트가 어떤 보행자의 일부에 속할 우도 점수인 보행자 점수(1116), 및 포인트가 어떤 도로 표면의 일부에 속할 우도 점수인 도로 표면 점수(1118)와 같은, 별개의 클래스들의 우도 점수들을 포함한다.
도 12는 융합 네트워크(1200)의 표현을 도시한다. 융합 네트워크(1200)는 불확실한 포인트(950)를 입력으로서 취하고, 불확실한 포인트(950)에 대한 새로운 클래스 점수 세트(1220)를 출력한다.
트레이닝 동안, 샘플러(1202)는 불확실한 포인트들(950)의 일 부분만이 평가되도록 불확실한 포인트들(950)을 필터링하는 데 사용된다. 이것은 트레이닝 속도를 증가시킨다. 일 실시예에서, 샘플러(1202)는 확률 함수를 사용하여 구현된다. 일 실시예에서, 샘플러(1202)는 필터링 함수를 사용하여 구현된다. 샘플러(1202)는 2 개의 클래스 점수 세트(1040 및 1050)의 차이에 대한 임계치를 지정하는 데 사용된다. 전개 동안, 불확실한 포인트들(950) 모두가 고려된다.
일 실시예에서, K 차원 트리(K-D 트리)(1204)는 불확실한 포인트(950)의 이웃 포인트들(1230)을 선택한다. K-D 트리는 k 차원 공간에서 포인트들을 구성하기 위한 다차원 이진 탐색 트리 구조이며, 이는 최근접 이웃 탐색에 유용하다. 이웃 포인트들(1230)은 특징 추출기 및 연결기(feature extractor and concatenator)(1206)에 대한 입력으로서 제공된다. 불확실한 포인트(950)의 이웃 포인트(1230)는 불확실한 포인트(950)에 근접해 있는 포인트이다. 일 실시예에서, K-D 트리는, 선형 탐색과 같은, 다른 최근접 이웃 탐색 알고리즘으로 대체된다.
특징들은 뷰 네트워크(1100)의 계층으로부터의 출력으로서 정의된다. 일 실시예에서, 특징 추출기 및 연결기(1206)는 불확실한 포인트(950)를 입력으로서 취하고, 대응하는 뷰 네트워크들(1100)로부터 이웃 포인트들(1230) 및 불확실한 포인트(950)의 특징들을 추출하여 포인트 신경 네트워크(1210) 또는 포인트 네트워크에 대한 입력으로서 연결된 특징들을 형성한다. 일 실시예에서, 특징들은 뷰 네트워크(1100)의 중간 계층으로부터의 출력이다. 일 실시예에서, 뷰 네트워크(1100)의 중간 계층으로부터의 출력은 텐서이다. 일 실시예에서, 특징들은 뷰 네트워크(1100)의 최종 계층으로부터의 출력, 또는 출력 클래스 점수 세트들(1110)이다. 일 실시예에서, 특징들은 LiDAR 디바이스로부터 판독되는 프로세싱되지 않은 포인트 클라우드 데이터, 이웃 포인트들의 3차원 위치 정보, 또는 이웃 포인트들의 포인트 강도 정보를 포함한다.
일 실시예에서, 이웃 포인트들(1240)로부터의 연결된 특징들은 원시 포인트 클라우드 데이터, 불확실한 포인트에 상대적인 이웃 포인트들의 3차원 위치 정보, 또는 이웃 포인트들의 포인트 강도 정보를 포함한다. 일 실시예에서, 불확실한 포인트(1242)로부터의 연결된 특징들은 원시 포인트 클라우드 데이터, 불확실한 포인트의 3차원 위치 정보, 또는 불확실한 포인트의 포인트 강도 정보를 포함한다.
포인트 네트워크(1210)는 이웃 포인트들(1240)로부터의 연결된 특징들 및 불확실한 포인트(1242)로부터의 연결된 특징들을 입력들로서 취한다. 일 실시예에서, 이웃 포인트들(1240)로부터의 연결된 특징들은 다층 퍼셉트론(1212)에 의해 입력으로서 취해지며, 다층 퍼셉트론(1212)은 불확실한 포인트(1242)로부터의 연결된 특징들의 특징들의 어떤 압축된 형태를 출력한다. 다층 퍼셉트론(1212)은 신경 네트워크의 모든 노드가 퍼셉트론인 신경 네트워크이다. 퍼셉트론은 이진 분류기를 학습하기 위한 알고리즘이다. 일 실시예에서, 다층 퍼셉트론(1212)은 콘볼루션 신경 네트워크로 대체된다. 일 실시예에서, 다층 퍼셉트론(1212)은 트랜스포머(transformer)로 대체된다. 트랜스포머는 입력 시퀀스를 출력 시퀀스로 변환하는 한 유형의 신경 네트워크이다.
다층 퍼셉트론(1212)으로부터의 출력은 이어서 맥스 풀링 계층(1214)에 제공된다. 맥스 풀링 계층(1214)은 이웃 포인트들로부터 지배적 특성들을 추출한다. 일 실시예에서, 지배적 특성들은 이어서 연결 계층(1216)을 통해 불확실한 포인트(1242)로부터의 연결된 특징들과 함께 연결된다. 연결 계층(1216)으로부터의 출력은 완전 연결 계층(1218)에 공급된다. 일 실시예에서, 연결 계층(1216)은 결합(conjoining) 또는 스태킹(stacking)을 수행하는 계층으로 대체된다. 일 실시예에서, 완전 연결 계층(1218)은 콘볼루션 계층으로 대체된다.
완전 연결 계층의 출력은 불확실한 포인트(950)에 대한 새로운 클래스 점수 세트(1220)이다. 새로운 클래스 점수 세트(1220)는, 포인트가 어떤 초목의 일부에 속할 우도 점수인 초목 점수(1222), 포인트가 어떤 차량의 일부에 속할 우도 점수인 차량 점수(1224), 포인트가 어떤 보행자의 일부에 속할 우도 점수인 보행자 점수(1226), 및 포인트가 어떤 도로 표면의 일부에 속할 우도 점수인 도로 표면 점수(1228)와 같은, 별개의 클래스들의 우도 점수들을 포함한다.
일반적으로, 불확실한 포인트(950)의 새로운 클래스 점수 세트(1220)는, 코사인 거리 또는 유클리드 거리와 같은, 선택된 거리 메트릭에 기초하여 불확실한 포인트(950)의 제1 클래스 점수 세트(1040) 또는 불확실한 포인트(950)의 제1 클래스 점수 세트(1050)와 상당히 상이하다. 따라서, 새로운 클래스 점수 세트(1220)에 기초하여 완성된 라벨(1060)이 불확실한 포인트(950)에 할당될 수 있다. 일 실시예에서, 불확실한 포인트(950)의 완성된 라벨(1060)은 새로운 클래스 점수 세트(1220) 내의 최대 우도 점수에 대응하는 클래스이다.
도 13은 분류된 LiDAR 포인트들에 기초하여 차량을 작동시키기 위한 프로세스(1300)의 플로차트를 도시한다. 일 실시예에서, 차량은 도 1에 도시된 AV(100)이다. 일 구현예에서, 프로세스(1300)는 도 3에 도시된 프로세서(304)와 같은 프로세서에 의해 수행된다. 일 구현예에서, 프로세스(1300)는 도 4에 도시된 인지 모듈(402), 계획 모듈(404), 제어 모듈(406) 또는 로컬화 모듈(408)에 의해 수행된다.
프로세서는 포인트 클라우드 데이터를 수신한다(1302). 일 구현예에서, 포인트 클라우드 데이터는 도 10에 도시된 바와 같은 LiDAR 디바이스(1001)로부터 생성되는 포인트 클라우드 데이터(1003)이다. 일 구현예에서, LiDAR 포인트 클라우드 데이터는 포인트 클라우드에 포함된 적어도 하나의 포인트와 연관된 색상에 관한 정보를 포함한다. 일 구현예에서, LiDAR 포인트 클라우드 데이터는 포인트 강도 정보를 포함한다.
프로세서는 포인트 클라우드 내의 복수의 포인트들에 기초하여 포인트 클라우드의 제1 뷰 및 포인트 클라우드의 제2 뷰를 생성하고(1304), 여기서 제2 뷰는 제1 뷰와 상이하다. 일 구현예에서, 포인트 클라우드의 제1 뷰는 도 10에 도시된 RV(Range View) 데이터(1020)이다. 일 구현예에서, 포인트 클라우드의 제2 뷰는 도 10에 도시된 BeV(Bird-eye View) 데이터(1040)이다.
프로세서는 제1 뷰를 제1 뷰 신경 네트워크에 대한 입력으로서 제공하고 제2 뷰를 제2 뷰 신경 네트워크에 대한 입력으로서 제공하며(1306), 제2 뷰 신경 네트워크는 제1 뷰 신경 네트워크와 상이하다. 일 구현예에서, 제1 뷰는 RV(Range View) 데이터(1020)이고 제1 뷰 신경 네트워크는 도 10에 도시된 RV(Range View) 네트워크(1004)이다. 일 구현예에서, 제2 뷰는 BeV(Bird-eye View) 데이터(1040)이고 제2 뷰 신경 네트워크는 도 10에 도시된 BeV(Bird-eye View) 네트워크(1006)이다. 일 구현예에서, 제1 뷰 신경 네트워크 또는 제2 뷰 신경 네트워크는, 도 11에 도시된 공간 평활화 계층(1104)과 같은, 적어도 하나의 순환 계층을 포함한다. 일 구현예에서, 제1 뷰 신경 네트워크 또는 제2 뷰 신경 네트워크를 트레이닝시키는 동안, 제1 뷰 데이터 또는 제2 뷰 데이터는 도 11과 관련하여 기술된 바와 같이 데이터 증강에 적어도 부분적으로 기초하여 생성된다.
프로세서는, 포인트 클라우드 내의 각각의 포인트에 대해, 제1 뷰 신경 네트워크를 사용하여 대상체 클래스들을 나타내는 제1 클래스 점수 세트를 생성하고 제2 뷰 신경 네트워크를 사용하여 대상체 클래스들을 나타내는 제2 클래스 점수 세트를 생성하며(1308), 여기서 제1 클래스 점수 세트와 제2 클래스 점수 세트는 병렬로 생성된다. 일 실시예에서, 제1 클래스 점수 세트는 도 10에 도시된 RV로부터의 제1 클래스 점수 세트(1040)이다. 일 실시예에서, 제2 클래스 점수 세트는 도 10에 도시된 BeV로부터의 제2 클래스 점수 세트(1050)이다. 일 구현예에서, 특정 포인트의 제1 클래스 점수 세트 또는 제2 클래스 점수 세트에 포함된 적어도 하나의 클래스 점수는 대상체의 미리 정의된 클래스에 대응한다.
프로세서는 포인트 클라우드에서 적어도 하나의 불확실한 포인트를 결정하고(1310), 여기서 결정하는 것은 적어도 하나의 불확실한 포인트의 제1 클래스 점수 세트 및 적어도 하나의 불확실한 포인트의 제2 클래스 점수 세트에 기초한다. 일 구현예에서, 제1 클래스 점수 세트와 제2 클래스 점수 세트는 도 10에 도시된 점수 비교기(1008)에서 비교된다. 일 구현예에서, 적어도 하나의 불확실한 포인트는 도 9에 도시된 불확실한 포인트(950)이다. 일 구현예에서, 불확실한 포인트는 클래스 점수들의 임계 차이와 관련하여 결정되며, 여기서 임계 차이는, 도 10과 관련하여 기술된 바와 같이, 확률 함수 또는 필터링 함수 또는 둘 모두 중 적어도 하나에 기초하여 결정된다. 일 구현예에서, 불확실한 포인트가 아닌 것으로 결정되는 포인트는 분류된 포인트(960)이다.
프로세서는, 융합 신경 네트워크를 사용하여, 적어도 하나의 불확실한 포인트의 제1 클래스 점수 세트 및 적어도 하나의 불확실한 포인트의 제2 클래스 점수 세트 중 적어도 하나에 기초하여 제3 클래스 점수 세트를 생성하고(1312), 여기서 제3 클래스 점수 세트는 적어도 하나의 불확실한 포인트의 이웃 포인트들의 특성들에 기초한다. 일 실시예에서, 적어도 하나의 불확실한 포인트의 제3 클래스 점수 세트는 도 12에 도시된 새로운 클래스 점수 세트(1220)이다. 일 구현예에서, 적어도 하나의 불확실한 포인트의 제3 클래스 점수 세트 내의 적어도 하나의 클래스 점수는 미리 정의된 대상체 클래스에 대응한다. 일 구현예에서, 융합 신경 네트워크는 적어도 하나의 순환 계층을 포함한다. 일 구현예에서, 융합 신경 네트워크는, 도 12에 도시된 다층 퍼셉트론(1212) 또는 도 11에 도시된 콘볼루션 계층과 같은, 다층 퍼셉트론 또는 콘볼루션 계층 중 적어도 하나를 포함한다.
프로세서는, 제3 클래스 점수 세트에 기초하여, 적어도 하나의 불확실한 포인트의 완성된 라벨을 결정한다(1314). 일 구현예에서, 완성된 라벨은, 도 12에 도시된 초목 점수(1222), 차량 점수(1224), 보행자 점수(1226) 또는 도로 표면 점수(1228)와 같은, 새로운 클래스 점수 세트(1220) 내의 요소들과 연관된 대상체 클래스, 예를 들어, 초목, 차량, 보행자 또는 도로 표면이다. 일 구현예에서, 적어도 하나의 불확실한 포인트에 대한 클래스 점수는, 도 12와 관련하여 기술되는 연결된 특징들과 같은, 적어도 하나의 불확실한 포인트의 이웃 포인트들의 연결된 특징들에 기초하여 결정된다. 일 구현예에서, 연결된 특징들은, 도 11과 관련하여 기술된 바와 같이 뷰 네트워크(1100)의 중간 계층으로부터의 출력과 같은, 제1 뷰 신경 네트워크 및 제2 뷰 신경 네트워크의 중간 계층들의 중간 출력을 포함한다. 일 구현예에서, 연결된 특징들은, 도 11에 도시된 출력 클래스 점수 세트들(1110)과 같은, 제1 뷰 신경 네트워크 및 제2 뷰 신경 네트워크 중 적어도 하나로부터의 출력 클래스 점수들을 포함한다. 일 구현예에서, 적어도 하나의 분류된 포인트에 대한 완성된 라벨은 또한 도 10과 관련하여 기술된 완성 모듈을 사용하여 결정된다.
프로세서는 적어도 하나의 불확실한 포인트의 완성된 라벨에 적어도 부분적으로 기초하여 차량 부근에 있는 적어도 하나의 대상체를 식별한다(1316). 일 구현예에서, 대상체는, 도 12에 도시된 초목 점수(1222), 차량 점수(1224), 보행자 점수(1226) 또는 도로 표면 점수(1228)와 같은, 새로운 클래스 점수 세트(1220) 내의 요소들과 연관된 바와 같은 초목, 차량, 보행자 또는 도로 표면의 일부이다. 일 구현예에서, 식별하는 것은 적어도 하나의 분류된 포인트의 완성된 라벨에 적어도 부분적으로 기초한다.
프로세서는 차량의 모션을 제어한다(1318). 일 구현예에서, 프로세서는 차량이 알려진 대상체와 충돌하는 것을 피하기 위해 계획된 경로를 따라가도록 차량을 제어하는 계획 모듈(404), 제어 모듈(406) 또는 로컬화 모듈(408)이다.
전술한 설명에서, 본 발명의 실시예들은 구현마다 달라질 수 있는 다수의 특정 세부 사항들을 참조하여 기술되었다. 따라서, 상세한 설명 및 도면들은 제한적인 의미보다는 예시적인 의미로 간주되어야 한다. 본 발명의 범위의 유일한 독점적인 지표, 및 출원인이 본 발명의 범위이도록 의도한 것은, 본 출원에서 특정 형태로 나오는 일련의 청구항의 문언적 등가 범위이며, 그러한 청구항이 나오는 특정 형태는 임의의 후속 보정을 포함한다. 그러한 청구항들에 포함된 용어들에 대한 본원에서 명시적으로 기재된 임의의 정의들은 청구항들에서 사용되는 그러한 용어들의 의미를 결정한다. 추가적으로, 전술한 설명 및 이하의 청구항들에서 "더 포함하는"이라는 용어가 사용될 때, 이 문구에 뒤따르는 것은 추가적인 단계 또는 엔티티, 또는 이전에 언급된 단계 또는 엔티티의 서브단계/서브엔티티일 수 있다.

Claims (15)

  1. 방법으로서,
    적어도 하나의 프로세서를 사용하여, 포인트 클라우드 내의 복수의 포인트들과 연관된 LiDAR 포인트 클라우드 데이터를 수신하는 단계;
    상기 적어도 하나의 프로세서를 사용하여, 상기 포인트 클라우드 내의 상기 복수의 포인트들에 기초하여 상기 포인트 클라우드의 제1 뷰 및 상기 포인트 클라우드의 제2 뷰를 생성하는 단계 - 상기 제2 뷰는 상기 제1 뷰와 상이함 -;
    상기 적어도 하나의 프로세서를 사용하여, 상기 제1 뷰를 제1 뷰 신경 네트워크에 대한 입력으로서 제공하고 상기 제2 뷰를 제2 뷰 신경 네트워크에 대한 입력으로서 제공하는 단계 - 상기 제2 뷰 신경 네트워크는 상기 제1 뷰 신경 네트워크와 상이함 -;
    상기 적어도 하나의 프로세서를 사용하여, 상기 포인트 클라우드 내의 각각의 포인트에 대해, 상기 제1 뷰 신경 네트워크를 사용하여 대상체 클래스들을 나타내는 제1 클래스 점수 세트를 생성하고 상기 제2 뷰 신경 네트워크를 사용하여 상기 대상체 클래스들을 나타내는 제2 클래스 점수 세트를 생성하는 단계 - 상기 제1 클래스 점수 세트와 상기 제2 클래스 점수 세트는 병렬로 생성됨 -;
    상기 적어도 하나의 프로세서를 사용하여, 상기 포인트 클라우드 내의 적어도 하나의 포인트에 대한 완성된 라벨을 결정하는 단계 - 상기 결정하는 단계는 상기 적어도 하나의 포인트의 상기 제1 클래스 점수 세트 및 상기 적어도 하나의 포인트의 상기 제2 클래스 점수 세트에 기초함 -;
    상기 적어도 하나의 프로세서를 사용하여, 상기 적어도 하나의 포인트의 상기 완성된 라벨에 적어도 부분적으로 기초하여 차량 부근에 있는 적어도 하나의 대상체를 식별하는 단계; 및
    상기 적어도 하나의 프로세서를 사용하여, 상기 적어도 하나의 대상체에 기초하여 상기 차량의 모션을 제어하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서, 상기 포인트 클라우드 내의 적어도 하나의 포인트에 대한 완성된 라벨을 결정하는 상기 단계는:
    상기 포인트 클라우드에서 적어도 하나의 불확실한 포인트를 결정하는 단계 - 상기 결정하는 단계는 상기 적어도 하나의 불확실한 포인트의 상기 제1 클래스 점수 세트 및 상기 적어도 하나의 불확실한 포인트의 상기 제2 클래스 점수 세트에 기초함 -;
    융합 신경 네트워크를 사용하여, 상기 적어도 하나의 불확실한 포인트의 상기 제1 클래스 점수 세트 및 상기 적어도 하나의 불확실한 포인트의 상기 제2 클래스 점수 세트 중 적어도 하나에 기초하여 상기 적어도 하나의 불확실한 포인트에 대한 제3 클래스 점수 세트를 생성하는 단계 - 상기 제3 클래스 점수 세트는 상기 적어도 하나의 불확실한 포인트의 이웃 포인트들의 특성들에 기초함 -; 및
    상기 제3 클래스 점수 세트에 기초하여, 상기 적어도 하나의 프로세서를 사용하여, 상기 적어도 하나의 불확실한 포인트의 완성된 라벨을 결정하는 단계를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 LiDAR 포인트 클라우드 데이터는 상기 포인트 클라우드에 포함된 적어도 하나의 포인트와 연관된 색상에 관한 정보를 포함하는, 방법.
  4. 제1항 또는 제2항에 있어서, 상기 뷰들 중 적어도 하나는 BeV(Birds-eye View) 또는 RV(Range View)를 포함하는, 방법.
  5. 제1항 또는 제2항에 있어서, 상기 LiDAR 포인트 클라우드 데이터는 포인트 강도 정보를 포함하는, 방법.
  6. 제1항 또는 제2항에 있어서, 특정 포인트의 상기 제1 클래스 점수 세트, 상기 제2 클래스 점수 세트 또는 상기 제3 클래스 점수 세트에 포함된 적어도 하나의 클래스 점수는 미리 정의된 대상체 클래스에 대응하는, 방법.
  7. 제1항 또는 제2항에 있어서, 상기 제1 뷰 신경 네트워크, 상기 제2 뷰 신경 네트워크 및 상기 융합 신경 네트워크 중 적어도 하나는 적어도 하나의 순환 계층을 포함하는, 방법.
  8. 제1항 또는 제2항에 있어서, 상기 제1 뷰 데이터를 제1 뷰 신경 네트워크에 대한 입력으로서 제공하고 상기 제2 뷰 데이터를 제2 뷰 신경 네트워크에 대한 입력으로서 제공하는 단계는:
    상기 제1 뷰 데이터를 제1 뷰 신경 네트워크에 대한 입력으로서 제공하고 상기 제2 뷰 데이터를 제2 뷰 신경 네트워크에 대한 입력으로서 제공하는 단계 - 상기 제1 뷰 데이터 또는 상기 제2 뷰 데이터는 데이터 증강에 적어도 부분적으로 기초하여 생성됨 - 를 포함하는, 방법.
  9. 제1항 또는 제2항에 있어서, 상기 불확실한 포인트는 클래스 점수들의 임계 차이와 관련하여 결정되며, 상기 임계 차이는 확률 함수 또는 필터링 함수 또는 둘 모두 중 적어도 하나에 기초하여 결정되는, 방법.
  10. 제1항 또는 제2항에 있어서, 상기 적어도 하나의 불확실한 포인트에 대한 클래스 점수는 상기 적어도 하나의 불확실한 포인트의 이웃 포인트들의 연결된 특징(feature)들에 기초하여 결정되는, 방법.
  11. 제10항에 있어서, 상기 연결된 특징들은 상기 제1 뷰 신경 네트워크 및 상기 제2 뷰 신경 네트워크의 중간 계층들의 중간 출력을 포함하는, 방법.
  12. 제10항에 있어서, 상기 연결된 특징들은 상기 제1 뷰 신경 네트워크 및 상기 제2 뷰 신경 네트워크 중 적어도 하나로부터의 출력 클래스 점수들을 포함하는, 방법.
  13. 제1항 또는 제2항에 있어서, 상기 융합 신경 네트워크는 다층 퍼셉트론(perceptron) 또는 콘볼루션(convolutional) 계층 중 적어도 하나를 포함하는, 방법.
  14. 차량으로서,
    복수의 LiDAR 데이터 포인트들을 포함하는 LiDAR 스캔 포인트 클라우드를 생성할 수 있는 적어도 하나의 LiDAR 디바이스; 및
    상기 LiDAR 디바이스에 결합된 프로세싱 회로 - 상기 프로세싱 회로는 제1항의 방법을 수행하도록 구성됨 -
    를 포함하는, 차량.
  15. 제1 디바이스의 적어도 하나의 프로세서에 의해 실행하기 위한 적어도 하나의 프로그램을 포함하는 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 적어도 하나의 프로그램은, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 제1 디바이스로 하여금 제1항의 방법을 수행하게 하는 명령어들을 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020210140353A 2020-10-21 2021-10-20 Lidar를 사용한 대상체 식별 KR20220052846A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063094809P 2020-10-21 2020-10-21
US63/094,809 2020-10-21
US17/504,449 2021-10-18
US17/504,449 US20220122363A1 (en) 2020-10-21 2021-10-18 IDENTIFYING OBJECTS USING LiDAR

Publications (1)

Publication Number Publication Date
KR20220052846A true KR20220052846A (ko) 2022-04-28

Family

ID=78718512

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210140353A KR20220052846A (ko) 2020-10-21 2021-10-20 Lidar를 사용한 대상체 식별

Country Status (5)

Country Link
US (1) US20220122363A1 (ko)
KR (1) KR20220052846A (ko)
CN (1) CN114387322A (ko)
DE (1) DE102021127118A1 (ko)
GB (1) GB2608201B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220090919A1 (en) * 2020-09-24 2022-03-24 Here Global B.V. System, method, and computer program product for identifying a link offset
US11841439B2 (en) 2020-11-02 2023-12-12 Waymo Llc Point cloud segmentation using a coherent lidar for autonomous vehicle applications
US20220135074A1 (en) * 2020-11-02 2022-05-05 Waymo Llc Classification of objects based on motion patterns for autonomous vehicle applications
US11656629B1 (en) 2020-12-08 2023-05-23 Waymo Llc Detection of particulate matter in autonomous vehicle applications
US11834065B2 (en) * 2020-12-21 2023-12-05 Argo AI System, method, and computer program product for detecting road marking points from LiDAR data

Also Published As

Publication number Publication date
GB202115014D0 (en) 2021-12-01
GB2608201B (en) 2024-05-29
GB2608201A (en) 2022-12-28
DE102021127118A1 (de) 2022-04-21
US20220122363A1 (en) 2022-04-21
CN114387322A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
KR102593948B1 (ko) 주석 달기를 위한 데이터 샘플의 자동 선택
KR102532546B1 (ko) 미리 계산되거나 동적으로 생성된 궤적 뱅크로부터의 궤적 예측
CN113012187B (zh) 用于运载工具的方法和前景提取系统以及存储介质
US11814046B2 (en) Estimating speed profiles
US20220122363A1 (en) IDENTIFYING OBJECTS USING LiDAR
US11731653B2 (en) Conditional motion predictions
US11887324B2 (en) Cross-modality active learning for object detection
KR102358923B1 (ko) 속력 프로파일 추정
GB2601024A (en) Identifying background features using LIDAR
US20220357453A1 (en) Lidar point cloud segmentation using box prediction
US11946749B2 (en) Driving data guided spatial planning
US20230168100A1 (en) Automatic annotation of drivable road segments
US20230003533A1 (en) Fast collision free path generation by connecting c-slices through cell decomposition

Legal Events

Date Code Title Description
E902 Notification of reason for refusal