KR20210058696A

KR20210058696A - 3d 대상체 검출을 위한 순차 융합

Info

Publication number: KR20210058696A
Application number: KR1020200149202A
Authority: KR
Inventors: 소라브 보라; 오스카 올로프 베이봄; 알렉스 헌터 랑; 바쌈 헬라우
Original assignee: 모셔널 에이디 엘엘씨
Priority date: 2019-11-14
Filing date: 2020-11-10
Publication date: 2021-05-24
Also published as: GB202311257D0; US20220080999A1; GB202017625D0; CN115661488A; GB2591171B; CN112801124A; US20210146952A1; US11214281B2; US11634155B2; GB2621701A; GB2591171A; DE102020129854A1; CN112801124B

Abstract

이미지 세그먼트화 데이터(예를 들면, 세그먼트화 점수)를 LiDAR 포인트와 융합하는 대상체 검출을 위한 인지 프로세싱 파이프라인을 개선시키기 위한 기술이 제공된다. 개시하는 기술은 포인트 클라우드 및 이미지를 입력으로 받아들이고 모든 관련 대상체 클래스에 대한 유향 3D 경계 박스를 추정하는 아키텍처를 사용하여 구현된다. 일 실시예에서, 방법은: 차량의 하나 이상의 프로세서를 사용하여, 3차원(3D) 포인트 클라우드 내의 포인트를 이미지와 시간적으로 매칭시키는 단계; 이미지 기반 신경 네트워크를 사용하여, 이미지에 대한 시맨틱 데이터를 생성하는 단계; 하나 이상의 프로세서를 사용하여, 시맨틱 데이터로 3D 포인트 클라우드 내의 포인트를 데코레이션하는 단계; 및 데코레이션된 포인트를 입력으로 갖는 3D 대상체 검출기를 사용하여, 하나 이상의 대상체에 대한 유향 3D 경계 박스를 추정하는 단계를 포함한다.

Description

3D 대상체 검출을 위한 순차 융합{SEQUENTIAL FUSION FOR 3D OBJECT DETECTION}

관련 출원

본 개시는 2019년 11월 14일자로 출원되고 발명의 명칭이 "SEQUENTIAL FUSION FOR 3D OBJECT DETECTION"인 미국 가특허 출원 제62/935,617호에 대한 우선권을 주장하며, 그 전체 내용은 참조에 의해 본원에 포함된다.

기술 분야

본 설명은 일반적으로 차량의 동작에 관한 것이며, 구체적으로는 자가 운전 차량(self-driving vehicle)에 대한 인지 파이프라인에 관한 것이다.

자가 운전 차량은 전형적으로 차량의 동작 환경에서 대상체를 검출 및 분류하기 위해 3D 포인트 클라우드에 최적화된 딥 러닝 기술을 사용하여 인지 파이프라인에서 프로세싱되는 2차원(2D) 또는 3차원(3D) 포인트 클라우드를 생성하기 위해 LiDAR(light detection and ranging) 센서를 사용한다. 자가 운전 차량은 또한 차량의 동작 환경에서 대상체를 검출 및 분류하기 위해 이미지에 최적화된 딥 러닝 기술을 사용하여 프로세싱되는 2D 이미지를 생성하기 위해 여러 카메라 센서를 사용한다. 이러한 인지 파이프라인 각각은 장단점이 있다. 카메라는 에지, 색상 및 조명의 정확한 측정을 가능하게 하고, 따라서 이미지 평면 상에서의 분류 및 로컬화를 가능하게 하지만 부정확한 3D 로컬화를 제공한다. LiDAR 포인트 클라우드는 더 적은 시맨틱 정보를 포함하지만 매우 정확한 3D 로컬화를 제공한다. 그렇지만, LiDAR 데이터는 희소하고 범위는 전형적으로 50 내지 100m로 제한된다.

도 1은 하나 이상의 실시예에 따른, 자율 주행 능력을 갖는 자율 주행 차량(autonomous vehicle; AV)의 예를 도시한다.
도 2는 하나 이상의 실시예에 따른, 예시적인 "클라우드" 컴퓨팅 환경을 예시한다.
도 3은 하나 이상의 실시예에 따른, 컴퓨터 시스템을 예시한다.
도 4는 하나 이상의 실시예에 따른, AV에 대한 예시적인 아키텍처를 도시한다.
도 5는 하나 이상의 실시예에 따른, 인지 모듈에 의해 사용될 수 있는 입력 및 출력의 일 예를 도시한다.
도 6은 하나 이상의 실시예에 따른, LiDAR 시스템의 일 예를 도시한다.
도 7은 하나 이상의 실시예에 따른, 동작 중인 LiDAR 시스템을 도시한다.
도 8은 하나 이상의 실시예에 따른, LiDAR 시스템의 동작을 추가적으로 상세하게 도시한다.
도 9는 하나 이상의 실시예에 따른, 계획 모듈의 입력과 출력 사이의 관계의 블록 다이어그램을 도시한다.
도 10은 하나 이상의 실시예에 따른, 경로 계획에서 사용되는 방향 그래프를 도시한다.
도 11은 하나 이상의 실시예에 따른, 제어 모듈의 입력 및 출력의 블록 다이어그램을 도시한다.
도 12는 하나 이상의 실시예에 따른, 제어기의 입력, 출력, 및 컴포넌트의 블록 다이어그램을 도시한다.
도 13은 하나 이상의 실시예에 따른, 더 정확한 3D 대상체 검출을 위해 LiDAR 특징을 시맨틱 포인트 데코레이션(semantic point decoration)과 융합하는 것을 예시한다.
도 14는 하나 이상의 실시예에 따른, 더 정확한 3D 대상체 검출을 위해 LiDAR 특징을 시맨틱 포인트 데코레이션과 융합하기 위한 시스템의 블록 다이어그램이다.
도 15는 하나 이상의 실시예에 따른, 포인트 필라 네트워크(point pillar network)의 블록 다이어그램이다.
도 16은 하나 이상의 실시예에 따른, 더 정확한 3D 대상체 검출을 위해 LiDAR 특징을 시맨틱 포인트 데코레이션과 융합하는 프로세스의 흐름 다이어그램이다.

설명을 위한 이하의 기술에서는, 본 발명에 대한 완전한 이해를 제공하기 위해 다수의 특정 세부사항이 제시된다. 그렇지만, 본 발명이 이 특정 세부 사항 없이 실시될 수 있음이 명백할 것이다. 다른 예에서, 공지된 구조 및 디바이스는 본 발명을 불필요하게 모호하게 하는 것을 피하기 위하여 블록 다이어그램 형태로 도시된다.

도면에서, 기술을 용이하게 하기 위해, 디바이스, 모듈, 명령어 블록 및 데이터 요소를 나타내는 것과 같은 개략적 요소의 특정 배열 또는 순서가 도시된다. 그렇지만, 본 기술 분야의 통상의 기술자라면, 도면에서의 개략적 요소의 특정 순서 또는 배열이 프로세싱의 특정한 순서 또는 시퀀스, 또는 프로세스의 분리가 요구된다는 것을 암시하는 것을 의미하지는 않는다는 점을 이해할 것이다. 게다가, 도면에 개략적 요소를 포함시키는 것은, 그러한 요소가 모든 실시예에서 요구된다는 것을 암시하는 것을 의미하지 않거나, 또는 그러한 요소에 의해 표현된 특징이 일부 실시예에서 포함되지 않거나 또는 다른 요소와 조합되지 않을 수 있다는 점을 암시하는 것을 의미하지 않는다.

또한, 도면에서, 2개 이상의 다른 개략적 요소 사이의 연결, 관계 또는 연관을 예시하기 위해 실선 또는 파선 또는 화살표와 같은 연결 요소가 사용되는 경우에, 임의의 그러한 연결 요소의 부재는 연결, 관계 또는 연관이 존재할 수 없다는 점을 암시하는 것을 의미하지 않는다. 환언하면, 요소들 사이의 일부 연결, 관계, 또는 연관은 본 개시를 모호하게 하지 않기 위해 도면에 도시되지 않는다. 그에 부가하여, 예시를 용이하게 하기 위해, 요소들 사이의 다수의 연결, 관계 또는 연관을 표현하기 위해 단일의 연결 요소가 사용된다. 예를 들어, 연결 요소가 신호, 데이터 또는 명령어의 통신을 표현하는 경우, 본 기술 분야의 통상의 기술자라면, 그러한 요소가, 통신을 수행하기 위해 필요할 수 있는, 하나 또는 다수의 신호 경로(예를 들면, 버스)를 표현한다는 것을 이해할 것이다.

그 예가 첨부 도면에 예시된 실시예가 이제 상세하게 언급될 것이다. 이하의 상세한 설명에서, 다양한 기술된 실시예에 대한 완전한 이해를 제공하기 위해 많은 특정 세부 사항이 기재된다. 그렇지만, 다양한 기술된 실시예가 이 특정 세부 사항 없이 실시될 수 있다는 것이 본 기술 분야의 통상의 기술자에게 명백할 것이다. 다른 예에서, 실시예의 양태를 불필요하게 모호하게 하지 않기 위해 공지된 방법, 절차, 컴포넌트, 회로, 및 네트워크는 상세하게 기술되지 않았다.

서로 독립적으로 또는 다른 특징의 임의의 조합과 함께 각각 사용될 수 있는 여러 특징이 이하에 기술된다. 그렇지만, 임의의 개별 특징은 위에서 논의된 문제들 중 임의의 것을 해결할 수 없거나 또는 위에서 논의된 문제들 중 단지 하나만을 해결할 수 있다. 위에서 논의된 문제들 중 일부는 본원에 기술된 특징들 중 임의의 것에 의해 완전히 해결되지는 않을 수 있다. 비록 여러 표제가 제공되어 있더라도, 특정 표제에 관련되지만 해당 표제를 갖는 섹션에서 발견되지 않은 정보가 본 설명의 다른 곳에서 발견될 수도 있다. 실시예는 이하의 개요에 따라 본원에 기술된다.

1. 일반적 개관

2. 시스템 개관

3. 자율 주행 차량 아키텍처

4. 자율 주행 차량 입력

5. 자율 주행 차량 계획

6. 자율 주행 차량 제어

7. 3D 대상체 검출을 위한 순차 융합

일반적 개관

이미지 시맨틱 데이터(예를 들면, 시맨틱 세그먼트화 점수(semantic segmentation score))를 LiDAR 포인트와 융합하는 대상체 검출을 위한 인지 프로세싱 파이프라인을 개선시키기 위한 기술이 제공된다. 개시된 기술은 LiDAR 포인트 클라우드 및 카메라 이미지를 입력으로 받아들이고 모든 관련 대상체 클래스에 대한 유향 3D 경계 박스(oriented 3D bounding box)를 추정하는 3D 대상체 검출을 위한 순차 융합 아키텍처를 사용하여 구현된다. 일 실시예에서, 이 아키텍처는 3개의 주요 스테이지: 1) 시맨틱 데이터(예를 들어, 시맨틱 세그먼트화 점수)를 계산하는 시맨틱 세그먼트화 스테이지; 2) 시맨틱 데이터로 LiDAR 포인트를 데코레이션하는 융합 스테이지; 및 3) LiDAR 기반 네트워크가 융합된 포인트 클라우드를 입력으로 받고 모든 클래스에 대한 유향 3D 경계 박스를 추정하는 3D 대상체 검출 스테이지를 포함한다.

일 실시예에서, 각각의 LiDAR 포인트가 이미지 시맨틱 네트워크(image semantic network; ISN)의 출력에 투영되고, 채널별 활성화가 LiDAR 포인트의 위치 좌표(x, y, z) 및 강도 값(i)과 연결(concatenate)된다. 일 실시예에서, 이러한 데코레이션된 LiDAR 포인트는 이어서, 예를 들어, PointPillars, LaserNet, VoxelNet, SECOND 및 STD와 같은, 임의의 조감도(birds eye view; BEV) 또는 전방 뷰 검출(forward-view detection) 방법을 포함하지만 이에 제한되지 않는 임의의 LiDAR 검출 방법에서 사용된다.

적어도 일부 구현예와 부합하는 바와 같은, PointPillars는 [PointPillars: Fast Encoders for Object Detection from Point Clouds, arXiv:1812.05784v2 [cs.LG] 7 May 2019]에 기술되어 있다.

적어도 일부 구현예와 부합하는 바와 같은, LaserNet은 [G. P. Meyer, A. Laddha, E. Kee, C. Vallespi-Gonzalez, and C. K. Wellington. Lasernet: An efficient probabilistic 3d object detector for autonomous driving. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12677-12686, 2019]에 기술되어 있다.

적어도 일부 구현예와 부합하는 바와 같은, VoxelNet은 [Y. Zhou and O. Tuzel. Voxelnet: End-to-end learning for 918 point cloud based 3d object detection. In CVPR, 2018]에 기술되어 있다.

적어도 일부 구현예와 부합하는 바와 같은, SECOND는 [Y. Yan, Y. Mao, and B. Li. SECOND: Sparsely embedded convolutional detection. Sensors, 18(10), 2018]에 기술되어 있다.

적어도 일부 구현예와 부합하는 바와 같은, STD는 [Z. Yang, Y. Sun, S. Liu, X. Shen, and J. Jia. Std: Sparse- to-dense 3d object detector for point cloud. In Proceedings of the IEEE International Conference on Computer Vision, pages 1951-1960, 2019]에 기술되어 있다.

일 실시예에서, 제안된 방법은 엔드-투-엔드(end-to-end)가 아니라 순차적이며, 이는 ISN이 3D 검출의 최종 태스크를 위해 트레이닝되어 있지 않음을 의미한다. 이것은 성능 면에서의 준최적성(sub-optimality)을 암시한다. 그렇지만, 순차적 접근법에는 몇 가지 장점이 있다: 1) 이미지의 시맨틱 세그먼트화는 많은 용도를 가지며 따라서 유용한 독립형 중간 제품이고, 2) 실시간 시스템에서, LiDAR 포인트가 이전 이미지로부터의 시맨틱스로 데코레이션되도록 이미지 네트워크와 LiDAR 네트워크를 파이프라이닝함으로써 레이턴시(latency)가 감소된다.

시스템 개관

도 1은 자율 주행 능력을 갖는 자율 주행 차량(100)의 일 예를 도시한다.

본원에서 사용되는 바와 같이, 용어 "자율 주행 능력"은, 완전한 자율 주행 차량, 고도의 자율 주행 차량, 및 조건부 자율 주행 차량을 제한 없이 포함하는, 실시간 인간 개입 없이 차량이 부분적으로 또는 완전하게 동작될 수 있게 하는 기능, 특징, 또는 설비를 지칭한다.

본원에서 사용되는 바와 같이, 자율 주행 차량(AV)은 자율 주행 능력을 갖는 차량이다.

본원에서 사용되는 바와 같이, "차량"은 상품 또는 사람의 운송 수단을 포함한다. 예를 들어, 자동차, 버스, 기차, 비행기, 드론, 트럭, 보트, 선박, 잠수함, 비행선 등. 무인 자동차는 차량의 일 예이다.

본원에서 사용되는 바와 같이, "궤적"은 AV를 제1 시공간적 위치로부터 제2 시공간적 위치로 동작시키는 경로 또는 루트를 지칭한다. 일 실시예에서, 제1 시공간적 위치는 초기 또는 시작 위치라고 지칭되고 제2 시공간적 위치는 목적지, 최종 위치, 목표, 목표 위치, 또는 목표 장소라고 지칭된다. 일부 예에서, 궤적은 하나 이상의 세그먼트(예를 들면, 도로의 섹션)로 구성되고, 각각의 세그먼트는 하나 이상의 블록(예를 들면, 차선 또는 교차로의 부분)으로 구성된다. 일 실시예에서, 시공간적 위치는 현실 세계 위치에 대응한다. 예를 들어, 시공간적 위치는 사람을 태우거나 내려주고 또는 상품을 싣거나 내리는 픽업(pick up) 또는 드롭-오프(drop-off) 위치이다.

본원에서 사용되는 바와 같이, "센서(들)"는 센서를 둘러싼 환경에 관한 정보를 검출하는 하나 이상의 하드웨어 컴포넌트를 포함한다. 하드웨어 컴포넌트 중 일부는 감지 컴포넌트(예를 들어, 이미지 센서, 생체측정 센서), 송신 및/또는 수신 컴포넌트(예를 들어, 레이저 또는 라디오 주파수 파 송신기 및 수신기), 아날로그 대 디지털 변환기와 같은 전자 컴포넌트, 데이터 저장 디바이스(예컨대, RAM 및/또는 비휘발성 스토리지), 소프트웨어 또는 펌웨어 컴포넌트, 및 ASIC(application-specific integrated circuit), 마이크로프로세서 및/또는 마이크로컨트롤러와 같은 데이터 프로세싱 컴포넌트를 포함할 수 있다.

본원에서 사용되는 바와 같이, "장면 묘사(scene description)"는 AV 차량 상의 하나 이상의 센서에 의해 검출되거나 AV 외부의 소스에 의해 제공되는 하나 이상의 분류된 또는 라벨링된 대상체를 포함하는 데이터 구조(예를 들면, 리스트) 또는 데이터 스트림이다.

본원에서 사용되는 바와 같이, "도로"는 차량에 의해 횡단될 수 있는 물리적 영역이고, 명명된 주요 도로(예를 들면, 도시 거리, 주간 고속도로 등)에 대응할 수 있거나, 또는 명명되지 않은 주요 도로(예를 들면, 주택 또는 사무실 건물 내의 사유 도로, 주차장 섹션, 공터 섹션, 시골 지역의 비포장 경로 등)에 대응할 수 있다. 일부 차량(예를 들어, 4륜 구동 픽업 트럭, 스포츠 유틸리티 차량 등)은 차량 진행에 대해 특히 적합하지 않은 다양한 물리적 영역을 횡단할 수 있기 때문에, "도로"는 임의의 지자체 또는 다른 정부 또는 행정처에 의해 주요 도로로 공식적으로 규정되지 않은 물리적 영역일 수 있다.

본원에서 사용되는 바와 같이, "차선"은 차량에 의해 횡단될 수 있는 도로의 한 부분이고, 차선 마킹들 사이의 공간의 대부분 또는 전부에 대응할 수 있거나, 또는 차선 마킹들 사이의 공간의 단지 일부(예를 들면, 50% 미만)에 대응할 수 있다. 예를 들어, 멀리 이격된 차선 마킹을 갖는 도로는 차선 마킹 사이에 둘 이상의 차량을 수용할 수 있어서, 하나의 차량이 차선 마킹을 횡단하지 않고 다른 차량을 추월할 수 있고, 따라서 차선 마킹 사이의 공간보다 협소한 차선을 갖거나 차선 마킹 사이에 2개의 차선을 갖는 것으로 해석될 수 있다. 차선은 차선 마킹의 부재 시에도 해석될 수 있다. 예를 들어, 차선은 환경의 물리적 특징부, 예를 들어, 시골 지역에서의 주요 도로를 따라 있는 바위 및 나무에 기초하여 규정될 수 있다.

"하나 이상"은 기능이 하나의 요소에 의해 수행되는 것, 기능이 하나보다 많은 요소에 의해, 예를 들어, 분산 방식으로, 수행되는 것, 여러 기능이 하나의 요소에 의해 수행되는 것, 여러 기능이 여러 요소에 의해 수행되는 것, 또는 이들의 임의의 조합을 포함한다.

또한, 용어, 제1, 제2 등이 일부 예에서 다양한 요소를 기술하기 위해 본원에 사용되었지만, 이 요소는 이러한 용어에 의해 제한되지 않아야 한다는 것이 이해될 것이다. 이들 용어는 하나의 요소를 다른 요소와 구별하는 데만 사용된다. 예를 들어, 기술된 다양한 실시예의 범위를 벗어나지 않으면서, 제1 접촉은 제2 접촉이라 지칭될 수 있고, 유사하게 제2 접촉은 제1 접촉이라 지칭될 수 있다. 제1 접촉과 제2 접촉 둘 모두가 접촉이지만, 동일한 접촉은 아니다.

본원에 기술된 다양한 실시예의 설명에 사용된 용어는 단지 특정한 실시예를 기술하기 위한 것이며, 제한하려는 것은 아니다. 기술된 다양한 실시예 및 첨부된 청구항의 설명에서 사용되는 바와 같이, 단수형은 문맥이 달리 명확히 표시하지 않는 한, 복수형을 포함하도록 의도되었다. 또한, 용어 "및/또는"은 본원에서 사용되는 바와 같이 열거된 연관 항목 중 하나 이상의 항목의 임의의 그리고 모든 가능한 조합을 지칭하고 포함한다는 것이 이해될 것이다. 게다가, 용어 "포함한다" 및/또는 "포함하는"은 본 설명에서 사용될 때, 언급된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트의 존재를 명기하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 그의 그룹의 존재 또는 추가를 배제하지 않는다는 것도 이해될 것이다.

본원에서 사용되는 바와 같이, 용어 "~ 경우"는, 선택적으로, 문맥에 따라 "~할 때", 또는 "~시에" 또는 "결정에 응답하여" 또는 "검출에 응답하여"를 의미하는 것으로 해석된다. 마찬가지로, 구문 "~라고 결정된다면" 또는 "[언급된 조건 또는 이벤트]가 검출되는 경우"는, 선택적으로, 문맥에 따라, "결정할 시에" 또는 "결정에 응답하여" 또는 "[언급된 조건 또는 이벤트]의 검출 시에" 또는 "[언급된 조건 또는 이벤트]의 검출에 응답하여"를 의미하는 것으로 해석된다.

본원에서 사용되는 바와 같이, AV 시스템은 AV의 동작을 지원하는, 하드웨어, 소프트웨어, 저장된 데이터, 및 실시간으로 생성된 데이터의 어레이와 함께 AV를 지칭한다. 일 실시예에서, AV 시스템은 AV 내에 포함된다. 일 실시예에서, AV 시스템은 여러 위치에 걸쳐 확산되어 있다. 예를 들어, AV 시스템의 소프트웨어 중 일부는 도 3와 관련하여 아래에서 기술되는 클라우드 컴퓨팅 환경(300)과 유사한 클라우드 컴퓨팅 환경 상에 구현된다.

일반적으로, 본원은 완전한 자율 주행 차량, 고도의 자율 주행 차량, 및 조건부 자율 주행 차량, 예컨대, 제각기 소위 레벨 5 차량, 레벨 4 차량 및 레벨 3 차량을 포함하는 하나 이상의 자율 주행 능력을 갖는 임의의 차량에 적용 가능한 기술을 개시한다(차량의 자율성 레벨의 분류에 대한 세부 사항은 참조에 의해 그 전체가 포함된, SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의(Taxonomy and Definitions for Terms Related to On-128-172020-02-28 Road Motor Vehicle Automated Driving Systems) 참조). 또한, 본원에서 개시된 기술은 부분적 자율 주행 차량 및 운전자 보조 차량, 예를 들어, 소위 레벨 2 및 레벨 1 차량에도 적용 가능하다(SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의 참조). 일 실시예에서, 레벨 1, 레벨 2, 레벨 3, 레벨 4 및 레벨 5 차량 시스템 중 하나 이상은 센서 입력의 프로세싱에 기초하여 특정의 동작 조건 하에서 특정의 차량 동작(예를 들면, 조향, 제동, 및 맵 사용)을 자동화할 수 있다. 본원에서 개시된 기술은, 완전한 자율 주행 차량으로부터 인간-운전 차량에 이르는, 임의의 레벨에 있는 차량에 혜택을 줄 수 있다.

도 1을 참조하면, AV 시스템(120)은, 대상체(예를 들면, 자연 장애물(191), 차량(193), 보행자(192), 자전거 운전자, 및 다른 장애물)을 피하고 도로 법규(예를 들면, 동작 규칙 또는 운전 선호도)를 준수하면서, 환경(190)을 통과하여 궤적(198)을 따라 AV(100)를 목적지(199)(때때로 최종 위치라고 지칭됨)로 동작시킨다.

일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서(146)로부터의 동작 커맨드를 수신하고 이에 따라 동작하도록 설비된 디바이스(101)를 포함한다. 일 실시예에서, 컴퓨팅 프로세서(146)는 도 3을 참조하여 아래에서 기술되는 프로세서(304)와 유사하다. 디바이스(101)의 예는 조향 제어(102), 브레이크(103), 기어, 가속기 페달 또는 다른 가속 제어 메커니즘, 앞유리 와이퍼, 사이드-도어 락, 윈도 제어, 및 방향 지시등을 포함한다.

일 실시예에서, AV 시스템(120)은, AV의 위치, 선형 속도 및 선형 가속도, 각속도 및 각가속도, 및 헤딩(예를 들어, AV(100)의 선단의 배향)과 같은, AV(100)의 상태 또는 조건의 특성을 측정 또는 추론하기 위한 센서(121)를 포함한다. 센서(121)의 예는 GNSS, 차량 선가속도 및 각속도(angular rate) 둘 모두를 측정하는 IMU(inertial measurement unit), 휠 슬립 비(wheel slip ratio)를 측정 또는 추산하기 위한 휠 속력 센서, 휠 브레이크 압력 또는 제동 토크 센서, 엔진 토크 또는 휠 토크 센서, 및 조향각(steering angle) 및 각속도 센서이다.

일 실시예에서, 센서(121)는 AV의 환경의 특성을 감지 또는 측정하기 위한 센서를 또한 포함한다. 예를 들어, 가시광, 적외선 또는 열(또는 둘 모두) 스펙트럼식 단안 또는 스테레오 비디오 카메라(122), LiDAR(123), RADAR, 초음파 센서, TOF(time-of-flight) 심도 센서, 속력 센서, 온도 센서, 습도 센서, 및 강우 센서.

일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서(146)와 연관된 머신 명령어 또는 센서(121)에 의해 수집된 데이터를 저장하기 위한 데이터 저장 유닛(142) 및 메모리(144)를 포함한다. 일 실시예에서, 데이터 저장 유닛(142)은 도 3과 관련하여 아래에서 기술되는 ROM(308) 또는 저장 디바이스(310)와 유사하다. 일 실시예에서, 메모리(144)는 아래에서 기술되는 메인 메모리(306)와 유사하다. 일 실시예에서, 데이터 저장 유닛(142) 및 메모리(144)는 환경(190)에 관한 이력, 실시간, 및/또는 예측 정보를 저장한다. 일 실시예에서, 저장된 정보는 맵, 운전 성능, 교통 정체 업데이트 또는 기상 조건을 포함한다. 일 실시예에서, 환경(190)에 관한 데이터는 원격에 위치된 데이터베이스(134)로부터 통신 채널을 통해 AV(100)에 송신된다.

일 실시예에서, AV 시스템(120)은 다른 차량 상태 및 조건, 예컨대, 위치, 선속도와 각속도, 선가속도와 각가속도, 및 AV(100)를 향한 선형 헤딩과 각도 헤딩의 측정된 또는 추론된 특성을 통신하기 위한 통신 디바이스(140)를 포함한다. 이 디바이스는 V2V(Vehicle-to-Vehicle) 및 V2I(Vehicle-to-Infrastructure) 통신 디바이스 및 포인트-투-포인트(point-to-point) 또는 애드혹(ad hoc) 네트워크 또는 둘 모두를 통한 무선 통신을 위한 디바이스를 포함한다. 일 실시예에서, 통신 디바이스(140)는 (라디오 및 광학적 통신을 포함하는) 전자기 스펙트럼 또는 다른 매체(예를 들면, 공기 및 음향 매체)를 통해 통신한다. V2V(Vehicle-to-Vehicle), V2I(Vehicle-to-Infrastructure) 통신(및 일부 실시예에서 하나 이상의 다른 타입의 통신)의 조합이 때때로 V2X(Vehicle-to-Everything) 통신이라고 지칭된다. V2X 통신은 전형적으로, 자율 주행 차량과의 통신 및 자율 주행 차량들 간의 통신을 위한 하나 이상의 통신 표준에 따른다.

일 실시예에서, 통신 디바이스(140)는 통신 인터페이스를 포함한다. 예를 들어, 유선, 무선, WiMAX, Wi-Fi, 블루투스, 위성, 셀룰러, 광학, 근거리, 적외선, 또는 라디오 인터페이스. 통신 인터페이스는 원격에 위치된 데이터베이스(134)로부터 AV 시스템(120)으로 데이터를 송신한다. 일 실시예에서, 원격에 위치된 데이터베이스(134)는 도 2에 기술된 바와 같은 클라우드 컴퓨팅 환경(200)에 내장된다. 통신 인터페이스(140)는 센서(121)로부터 수집된 데이터 또는 AV(100)의 동작에 관련된 다른 데이터를 원격에 위치된 데이터베이스(134)에 송신한다. 일 실시예에서, 통신 인터페이스(140)는 원격 조작(teleoperation)에 관련되는 정보를 AV(100)에 송신한다. 일부 실시예에서, AV(100)는 다른 원격(예를 들어, "클라우드") 서버(136)와 통신한다.

일 실시예에서, 원격에 위치된 데이터베이스(134)는 또한 디지털 데이터를 저장 및 송신한다(예를 들면, 도로 및 거리 위치와 같은 데이터를 저장함). 그러한 데이터는 AV(100) 상의 메모리(144)에 저장되거나, 원격에 위치된 데이터베이스(134)로부터 통신 채널을 통해 AV(100)에 송신된다.

일 실시예에서, 원격에 위치된 데이터베이스(134)는 유사한 시각(time of day)에 궤적(198)을 따라 이전에 진행된 차량의 운전 특성(예를 들면, 속력 및 가속도 프로파일)에 관한 이력 정보를 저장 및 송신한다. 일 구현예에서, 그러한 데이터는 AV(100) 상의 메모리(144)에 저장될 수 있거나, 원격에 위치된 데이터베이스(134)로부터 통신 채널을 통해 AV(100)에 송신될 수 있다.

AV(100) 상에 위치된 컴퓨팅 디바이스(146)는 실시간 센서 데이터 및 이전 정보 둘 모두에 기초한 제어 액션을 알고리즘적으로 생성하여, AV 시스템(120)이 자율 주행 능력을 실행할 수 있게 한다.

일 실시예에서, AV 시스템(120)은 AV(100)의 사용자(예를 들면, 탑승자 또는 원격 사용자)에게 정보 및 경보를 제공하고 그로부터 입력을 수신하기 위해 컴퓨팅 디바이스(146)에 결합된 컴퓨터 주변기기(132)를 포함한다. 일 실시예에서, 주변기기(132)는 도 3을 참조하여 아래에서 논의되는 디스플레이(312), 입력 디바이스(314), 및 커서 제어기(316)와 유사하다. 결합은 무선 또는 유선이다. 인터페이스 디바이스들 중 임의의 둘 이상이 단일 디바이스에 통합될 수 있다.

예시적인 클라우드 컴퓨팅 환경

도 2는 예시적인 "클라우드" 컴퓨팅 환경을 예시한다. 클라우드 컴퓨팅은 구성 가능한 컴퓨팅 리소스(예를 들면, 네트워크, 네트워크 대역폭, 서버, 프로세싱, 메모리, 스토리지, 애플리케이션, 가상 머신, 및 서비스)의 공유 풀에 대한 간편한 온-디맨드 네트워크 액세스를 가능하게 하기 위한 서비스 전달(service delivery)의 일 모델이다. 전형적인 클라우드 컴퓨팅 시스템에서는, 하나 이상의 대형 클라우드 데이터 센터가 클라우드에 의해 제공되는 서비스를 전달하는 데 사용되는 머신을 수용한다. 이제 도 2를 참조하면, 클라우드 컴퓨팅 환경(200)은 클라우드(202)를 통해 상호연결되는 클라우드 데이터 센터(204a, 204b, 및 204c)를 포함한다. 데이터 센터(204a, 204b, 및 204c)는 클라우드 컴퓨팅 서비스를 클라우드(202)에 연결된 컴퓨터 시스템(206a, 206b, 206c, 206d, 206e, 및 206f)에 제공한다.

클라우드 컴퓨팅 환경(200)은 하나 이상의 클라우드 데이터 센터를 포함한다. 일반적으로, 클라우드 데이터 센터, 예를 들어, 도 2에 도시된 클라우드 데이터 센터(204a)는 클라우드, 예를 들어, 도 2에 도시된 클라우드(202) 또는 클라우드의 특정한 부분을 구성하는 서버의 물리적 배열체를 지칭한다. 예를 들어, 서버는 클라우드 데이터 센터 내에 룸, 그룹, 로우(row), 및 랙(rack)으로 물리적으로 배열된다. 클라우드 데이터 센터는 하나 이상의 서버 룸을 포함하는 하나 이상의 구역을 갖는다. 각각의 룸은 하나 이상의 서버 로우를 가지며, 각각의 로우는 하나 이상의 랙을 포함한다. 각각의 랙은 하나 이상의 개별 서버 노드를 포함한다. 일부 구현예에서, 구역, 룸, 랙, 및/또는 로우 내의 서버는, 전력 요건, 에너지 요건, 열적 요건, 가열 요건, 및/또는 다른 요건을 포함하는, 데이터 센터 설비의 물리적 인프라스트럭처 요건에 기초하여 그룹으로 배열된다. 일 실시예에서, 서버 노드는 도 3에서 기술된 컴퓨터 시스템과 유사하다. 데이터 센터(204a)는 다수의 랙을 통해 분산된 다수의 컴퓨팅 시스템을 갖는다.

클라우드(202)는 클라우드 데이터 센터(204a, 204b, 및 204c)를 상호연결시키고 클라우드 컴퓨팅 서비스에 대한 컴퓨팅 시스템(206a 내지 206f)의 액세스를 용이하게 하는 것을 돕는 네트워크 및 네트워킹 리소스(예를 들어, 네트워킹 장비, 노드, 라우터, 스위치 및 네트워킹 케이블)와 함께 클라우드 데이터 센터(204a, 204b, 및 204c)를 포함한다. 일 실시예에서, 네트워크는 지상 또는 위성 연결을 사용하여 배치된 유선 또는 무선 링크를 사용하여 결합된 하나 이상의 로컬 네트워크, 광역 네트워크, 또는 인터네트워크의 임의의 조합을 나타낸다. 네트워크를 거쳐 교환되는 데이터는 IP(Internet Protocol), MPLS(Multiprotocol Label Switching), ATM(Asynchronous Transfer Mode), 및 프레임 릴레이 등과 같은 임의의 개수의 네트워크 계층 프로토콜을 사용하여 송신된다. 또한, 네트워크가 다수의 서브 네트워크의 조합을 나타내는 실시예에서, 상이한 네트워크 계층 프로토콜은 기저 서브 네트워크(underlying sub-network) 각각에서 사용된다. 일부 실시예에서, 네트워크는, 공중 인터넷과 같은, 하나 이상의 상호연결된 인터네트워크를 나타낸다.

컴퓨팅 시스템(206a 내지 206f) 또는 클라우드 컴퓨팅 서비스 소비자는 네트워크 링크 및 네트워크 어댑터를 통해 클라우드(202)에 연결된다. 일 실시예에서, 컴퓨팅 시스템(206a 내지 206f)은 다양한 컴퓨팅 디바이스, 예를 들어, 서버, 데스크톱, 랩톱, 태블릿, 스마트폰, IoT(Internet of Things) 디바이스, 자율 주행 차량(자동차, 드론, 셔틀, 기차, 버스 등을 포함함) 및 소비자 전자기기로서 구현된다. 일 실시예에서, 컴퓨팅 시스템(206a 내지 206f)은 다른 시스템 내에 또는 그 일부로서 구현된다.

컴퓨터 시스템

도 3은 컴퓨터 시스템(300)을 예시한다. 일 구현예에서, 컴퓨터 시스템(300)은 특수 목적 컴퓨팅 디바이스이다. 특수 목적 컴퓨팅 디바이스는 기술을 수행하도록 고정-배선(hard-wired)되거나, 기술을 수행하도록 지속적으로 프로그래밍되는 하나 이상의 ASIC(application-specific integrated circuit) 또는 FPGA(field programmable gate array)와 같은 디지털 전자 디바이스를 포함하거나, 펌웨어, 메모리, 다른 스토리지, 또는 조합에서 프로그램 명령어에 따라 기술을 수행하도록 프로그래밍되는 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 또한, 그러한 특수-목적 컴퓨팅 디바이스는 커스텀 고정-배선 로직, ASIC, 또는 FPGA를 커스텀 프로그래밍과 조합하여 기술을 실현할 수 있다. 다양한 실시예에서, 특수-목적 컴퓨팅 디바이스는 기술을 구현하기 위한 고정-배선 및/또는 프로그램 로직을 포함하는 데스크톱 컴퓨터 시스템, 포터블 컴퓨터 시스템, 휴대용 디바이스, 네트워크 디바이스, 또는 임의의 다른 디바이스이다.

일 실시예에서, 컴퓨터 시스템(300)은 정보를 통신하기 위한 버스(302) 또는 다른 통신 메커니즘, 및 정보를 프로세싱하기 위해 버스(302)와 결합된 하드웨어 프로세서(304)를 포함한다. 하드웨어 프로세서(304)는, 예를 들어, 범용 마이크로프로세서이다. 컴퓨터 시스템(300)은 버스(302)에 결합된, 프로세서(304)에 의해 실행될 명령어 및 정보를 저장하기 위한, RAM(random access memory) 또는 다른 동적 저장 디바이스와 같은, 메인 메모리(306)를 또한 포함한다. 일 구현예에서, 메인 메모리(306)는 프로세서(304)에 의해 실행될 명령어의 실행 동안 임시 변수 또는 다른 중간 정보를 저장하는 데 사용된다. 그러한 명령어는, 프로세서(304)에 의해 액세스 가능한 비일시적 저장 매체에 저장될 때, 컴퓨터 시스템(300)을 명령어에서 특정된 동작을 수행하도록 커스터마이징된 특수-목적 머신으로 렌더링한다.

일 실시예에서, 컴퓨터 시스템(300)은, 프로세서(304)를 위한 정적 정보 및 명령어를 저장하기 위해 버스(302)와 결합된 ROM(read only memory)(308) 또는 다른 정적 저장 디바이스를 더 포함한다. 자기 디스크, 광학 디스크, 솔리드-스테이트 드라이브, 또는 3차원 크로스 포인트 메모리와 같은, 저장 디바이스(310)가 제공되고 정보 및 명령어를 저장하기 위해 버스(302)에 결합된다.

일 실시예에서, 컴퓨터 시스템(300)은 버스(302)를 통해, 정보를 컴퓨터 사용자에게 디스플레이하기 위한 CRT(cathode ray tube), LCD(liquid crystal display), 플라스마 디스플레이, LED(light emitting diode) 디스플레이, 또는 OLED(organic light emitting diode) 디스플레이와 같은 디스플레이(312)에 결합된다. 문자 숫자식 및 다른 키를 포함하는 입력 디바이스(314)는 정보 및 커맨드 선택을 프로세서(304)에 통신하기 위해 버스(302)에 결합된다. 다른 타입의 사용자 입력 디바이스는, 디스플레이(312) 상에서 커서 움직임을 제어하고 방향 정보 및 커맨드 선택을 프로세서(304)에 통신하기 위한, 마우스, 트랙볼, 터치식 디스플레이, 또는 커서 방향 키와 같은, 커서 제어기(316)이다. 이 입력 디바이스는 전형적으로, 디바이스가 평면에서 위치를 특정할 수 있게 하는 2개의 축, 즉 제1 축(예를 들면, x-축) 및 제2 축(예를 들면, y-축)에서의 2 자유도를 갖는다.

일 실시예에 따르면, 본원에서의 기술은 프로세서(304)가 메인 메모리(306)에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 것에 반응하여 컴퓨터 시스템(300)에 의해 수행된다. 그러한 명령어는, 저장 디바이스(310)와 같은, 다른 저장 매체로부터 메인 메모리(306) 내로 판독된다. 메인 메모리(306)에 포함된 명령어의 시퀀스의 실행은 프로세서(304)로 하여금 본원에서 기술된 프로세스 단계를 수행하게 한다. 대안적인 실시예에서는, 소프트웨어 명령어 대신에 또는 소프트웨어 명령어와 조합하여 고정-배선 회로가 사용된다.

본원에서 사용되는 바와 같은 용어 "저장 매체"는 머신이 특정 방식으로 동작하게 하는 데이터 및/또는 명령어를 저장하는 임의의 비일시적 매체를 지칭한다. 그러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함한다. 비휘발성 매체는, 예를 들어, 광학 디스크, 자기 디스크, 솔리드-스테이트 드라이브, 또는 3차원 크로스 포인트 메모리, 예컨대, 저장 디바이스(310)를 포함한다. 휘발성 매체는 동적 메모리, 예컨대, 메인 메모리(306)를 포함한다. 저장 매체의 일반적인 형태는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드-스테이트 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광학 데이터 저장 매체, 홀 패턴을 갖는 임의의 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, NV-RAM, 또는 임의의 다른 메모리 칩, 또는 카트리지를 포함한다.

저장 매체는 송신 매체와 별개이지만 송신 매체와 함께 사용될 수 있다. 송신 매체는 저장 매체들 간에 정보를 전달하는 데 참여한다. 예를 들어, 송신 매체는 버스(302)를 포함하는 와이어를 포함하여, 동축 케이블, 구리 와이어 및 광섬유를 포함한다. 또한, 송신 매체는 라디오 파 및 적외선 데이터 통신 동안 생성되는 것과 같은, 광파 또는 음향파의 형태를 취할 수 있다.

일 실시예에서, 실행을 위해 하나 이상의 명령어의 하나 이상의 시퀀스를 프로세서(304)에 반송하는 데 다양한 형태의 매체가 수반된다. 예를 들어, 명령어는 초기에 원격 컴퓨터의 자기 디스크 또는 솔리드-스테이트 드라이브에 보유된다. 원격 컴퓨터는 동적 메모리에 명령어를 로딩하고 모뎀을 사용하여 전화선을 통해 명령어를 전송한다. 컴퓨터 시스템(300)에 로컬인 모뎀은 전화선 상으로 데이터를 수신하고 적외선 송신기를 사용하여 데이터를 적외선 신호로 변환한다. 적외선 검출기는 적외선 신호로 반송되는 데이터를 수신하고 적절한 회로는 데이터를 버스(302)에 배치한다. 버스(302)는 데이터를 메인 메모리(306)로 반송하고, 프로세서(304)는 메인 메모리로부터 명령어를 리트리빙하여 실행한다. 메인 메모리(306)에 의해 수신된 명령어는 프로세서(304)에 의해 실행되기 전이나 실행된 후에 선택적으로 저장 디바이스(310)에 저장될 수 있다.

컴퓨터 시스템(300)은 버스(302)와 결합된 통신 인터페이스(318)도 포함한다. 통신 인터페이스(318)는 로컬 네트워크(322)에 연결된 네트워크 링크(320)에 대한 2-웨이 데이터 통신(two-way data communication) 결합을 제공한다. 예를 들어, 통신 인터페이스(318)는 ISDN(integrated service digital network) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 타입의 전화선에 데이터 통신 연결을 제공하기 위한 모뎀이다. 다른 예로서, 통신 인터페이스(318)는 호환 가능한 LAN(local area network)에 데이터 통신 연결을 제공하기 위한 LAN 카드이다. 일부 구현예에서는, 무선 링크도 구현된다. 임의의 그러한 구현예에서, 통신 인터페이스(318)는 다양한 타입의 정보를 나타내는 디지털 데이터 스트림을 반송하는 전기 신호, 전자기 신호, 또는 광학 신호를 전송 및 수신한다.

네트워크 링크(320)는 전형적으로 하나 이상의 네트워크를 통한 다른 데이터 디바이스로의 데이터 통신을 제공한다. 예를 들어, 네트워크 링크(320)는 로컬 네트워크(322)를 통해 호스트 컴퓨터(324)로의 연결 또는 ISP(Internet Service Provider)(326)에 의해 운영되는 클라우드 데이터 센터 또는 장비로의 연결을 제공할 수 있다. ISP(326)는 차례로 지금은 "인터넷(328)"이라고 통칭되는 월드-와이드 패킷 데이터 통신 네트워크(world-wide packet data communication network)를 통해 데이터 통신 서비스를 제공한다. 로컬 네트워크(322) 및 인터넷(328) 양자 모두는 디지털 데이터 스트림을 반송하는 전기 신호, 전자기 신호, 또는 광학 신호를 사용한다. 다양한 네트워크를 통한 신호 및 컴퓨터 시스템(300)으로 그리고 컴퓨터 시스템(300)으로부터 디지털 데이터를 반송하는 통신 인터페이스(318)를 통한 네트워크 링크(320) 상의 신호는 송신 매체의 예시적인 형태이다. 일 실시예에서, 네트워크(320)는 위에서 기술된 클라우드(202) 또는 클라우드(202)의 일부를 포함한다.

컴퓨터 시스템(300)은 네트워크(들), 네트워크 링크(320) 및 통신 인터페이스(318)를 통해 프로그램 코드를 포함하는 메시지 및 데이터를 전송 및 수신한다. 일 실시예에서, 컴퓨터 시스템(300)은 프로세싱하기 위한 코드를 수신한다. 수신된 코드는 수신될 때 프로세서(304)에 의해 실행되고 또/또는, 추후의 실행을 위해 저장 디바이스(310) 또는 다른 비휘발성 스토리지에 저장된다.

자율 주행 차량 아키텍처

도 4는 자율 주행 차량(예를 들면, 도 1에 도시된 AV(100))에 대한 예시적인 아키텍처(400)를 도시한다. 아키텍처(400)는 인지 모듈(402)(때때로 인지 회로라고 지칭됨), 계획 모듈(planning module)(404)(때때로 계획 회로라고 지칭됨), 제어 모듈(406)(때때로 제어 회로라고 지칭됨), 로컬화 모듈(localization module)(408)(때때로 로컬화 회로라고 지칭됨), 및 데이터베이스 모듈(410)(때때로 데이터베이스 회로라고 지칭됨)을 포함한다. 각각의 모듈은 AV(100)의 동작에서 소정의 역할을 한다. 다함께, 모듈(402, 404, 406, 408 및 410)은 도 1에 도시된 AV 시스템(120)의 일부일 수 있다. 일부 실시예에서, 모듈(402, 404, 406, 408, 및 410) 중 임의의 모듈은 컴퓨터 소프트웨어(예를 들면, 컴퓨터 판독 가능 매체 상에 저장된 실행 가능한 코드) 및 컴퓨터 하드웨어(예를 들면, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, ASIC(application-specific integrated circuit), 하드웨어 메모리 디바이스, 다른 타입의 집적 회로, 다른 타입의 컴퓨터 하드웨어, 또는 이러한 것 중 임의의 것 또는 모든 것의 조합)의 조합이다.

사용 중에, 계획 모듈(404)은 목적지(412)를 나타내는 데이터를 수신하고 목적지(412)에 도달하기 위해(예를 들면, 도착하기 위해) AV(100)에 의해 진행될 수 있는 궤적(414)(때때로 루트라고 지칭됨)을 나타내는 데이터를 결정한다. 계획 모듈(404)이 궤적(414)을 나타내는 데이터를 결정하기 위해, 계획 모듈(404)은 인지 모듈(402), 로컬화 모듈(408), 및 데이터베이스 모듈(410)로부터 데이터를 수신한다.

인지 모듈(402)은, 예를 들어, 도 1에도 도시된 바와 같이, 하나 이상의 센서(121)를 사용하여 인근의 물리적 대상체를 식별한다. 대상체는 분류되고(예를 들면, 보행자, 자전거, 자동차, 교통 표지판 등과 같은 타입으로 그룹화되고), 분류된 대상체(416)를 포함하는 장면 묘사는 계획 모듈(404)에 제공된다.

또한, 계획 모듈(404)은 로컬화 모듈(408)로부터 AV 위치(418)를 나타내는 데이터를 수신한다. 로컬화 모듈(408)은 위치를 계산하기 위해 센서(121)로부터의 데이터 및 데이터베이스 모듈(410)로부터의 데이터(예를 들면, 지리적 데이터)를 사용하여 AV 위치를 결정한다. 예를 들어, 로컬화 모듈(408)은 GNSS(Global Operation Satellite System) 센서로부터의 데이터 및 지리적 데이터를 사용하여 AV의 경도 및 위도를 계산한다. 일 실시예에서, 로컬화 모듈(408)에 의해 사용되는 데이터는 도로 기하학적 특성의 고-정밀 맵, 도로망 연결 특성을 기술하는 맵, 도로 물리적 특성(예컨대, 교통 속력, 교통량, 차량 및 자전거 운전자 교통 차선의 개수, 차선 폭, 차선 교통 방향, 또는 차선 마커 타입 및 위치, 또는 그 조합)을 기술하는 맵, 및 도로 특징부, 예를 들어, 횡단보도, 교통 표지판 또는 다양한 타입의 다른 진행 신호(travel signal)의 공간적 위치를 기술하는 맵을 포함한다.

제어 모듈(406)은 궤적(414)을 나타내는 데이터 및 AV 위치(418)를 나타내는 데이터를 수신하고, AV(100)로 하여금 목적지(412)를 향해 궤적(414)을 진행하게할 방식으로 AV의 제어 기능(420a 내지 420c)(예를 들면, 조향, 스로틀링, 제동, 점화)을 동작시킨다. 예를 들어, 궤적(414)이 좌회전을 포함하는 경우, 제어 모듈(406)은, 조향 기능의 조향각이 AV(100)로 하여금 좌측으로 회전하게 하고 스로틀링 및 제동이 AV(100)로 하여금 이러한 회전이 이루어지기 전에 통과하는 보행자 또는 차량을 위해 일시정지 및 대기하게 하는 방식으로 제어 기능(420a 내지 420c)을 동작시킬 것이다.

자율 주행 차량 입력

도 5는 인지 모듈(402)(도 4)에 의해 사용되는 입력(502a 내지 502d)(예를 들면, 도 1에 도시된 센서(121)) 및 출력(504a 내지 504d)(예를 들면, 센서 데이터)의 일 예를 도시한다. 하나의 입력(502a)은 LiDAR(Light Detection and Ranging) 시스템(예를 들면, 도 1에 도시된 LiDAR(123))이다. LiDAR는 그의 시선에 있는 물리적 대상체에 관한 데이터를 획득하기 위해 광(예를 들면, 적외선 광과 같은 광의 버스트)을 사용하는 기술이다. LiDAR 시스템은 출력(504a)으로서 LiDAR 데이터를 생성한다. 예를 들어, LiDAR 데이터는 환경(190)의 표현을 구성하는 데 사용되는 3D 또는 2D 포인트(포인트 클라우드라고도 알려져 있음)의 집합체이다.

다른 입력(502b)은 RADAR 시스템이다. RADAR는 인근의 물리적 대상체에 관한 데이터를 획득하기 위해 라디오 파를 사용하는 기술이다. RADAR는 LiDAR 시스템의 시선 내에 있지 않은 대상체에 관한 데이터를 획득할 수 있다. RADAR 시스템(502b)은 출력(504b)으로서 RADAR 데이터를 생성한다. 예를 들어, RADAR 데이터는 환경(190)의 표현을 구성하는 데 사용되는 하나 이상의 라디오 주파수 전자기 신호이다.

다른 입력(502c)은 카메라 시스템이다. 카메라 시스템은 인근의 물리적 대상체에 관한 정보를 획득하기 위해 하나 이상의 카메라(예를 들면, CCD(charge-coupled device)와 같은 광 센서를 사용하는 디지털 카메라)를 사용한다. 카메라 시스템은 출력(504c)으로서 카메라 데이터를 생성한다. 카메라 데이터는 종종 이미지 데이터(예를 들면, RAW, JPEG, PNG 등과 같은 이미지 데이터 형식의 데이터)의 형태를 취한다. 일부 예에서, 카메라 시스템은, 카메라 시스템이 심도를 인지할 수 있게 하는, 예를 들어, 입체시(stereopsis)(스테레오 비전)를 위한, 다수의 독립적인 카메라를 갖는다. 카메라 시스템에 의해 인지되는 대상체가 본원에서 "인근"으로 기술되지만, 이것은 AV에 상대적인 것이다. 사용 중에, 카메라 시스템은 멀리 있는, 예를 들어, AV 전방으로 최대 1 킬로미터 이상에 있는 대상체를 "보도록" 구성될 수 있다. 따라서, 카메라 시스템은 멀리 떨어져 있는 대상체를 인지하기 위해 최적화되는 센서 및 렌즈와 같은 특징부를 가질 수 있다.

다른 입력(502d)은 TLD(traffic light detection) 시스템이다. TLD 시스템은 하나 이상의 카메라를 사용하여, 시각적 운행 정보를 제공하는 신호등, 거리 표지판, 및 다른 물리적 대상체에 관한 정보를 획득한다. TLD 시스템은 출력(504d)으로서 TLD 데이터를 생성한다. TLD 데이터는 종종 이미지 데이터(예를 들면, RAW, JPEG, PNG 등과 같은 이미지 데이터 형식의 데이터)의 형태를 취한다. TLD 시스템은, 시각적 운행 정보를 제공하는 가능한 한 많은 물리적 대상체에 관한 정보를 획득하기 위해 TLD 시스템이 넓은 시계를 갖는 카메라(예를 들어, 광각 렌즈 또는 어안 렌즈를 사용함)를 사용하여, AV(100)가 이러한 대상체에 의해 제공되는 모든 관련 운행 정보에 액세스한다는 점에서, 카메라를 포함하는 시스템과 상이하다. 예를 들어, TLD 시스템의 시야각은 약 120도 이상일 수 있다.

일부 실시예에서, 출력(504a 내지 504d)은 센서 융합 기술을 사용하여 조합된다. 따라서, 개별 출력(504a 내지 504d) 중 어느 하나가 AV(100)의 다른 시스템에 제공되거나(예를 들면, 도 4에 도시된 바와 같은 계획 모듈(404)에 제공되거나), 또는 조합된 출력이 동일한 타입(동일한 조합 기술을 사용하는 것 또는 동일한 출력을 조합하는 것 또는 둘 모두)의 단일 조합 출력 또는 다중 조합 출력의 형태 또는 상이한 타입(예를 들면, 상이한 각자의 조합 기술을 사용하는 것 또는 상이한 각자의 출력을 조합하는 것 또는 둘 모두)의 단일 조합 출력 또는 다중 조합 출력의 형태 중 어느 하나로 다른 시스템에 제공될 수 있다. 일부 실시예에서, 조기 융합(early fusion) 기술이 사용된다. 조기 융합 기술은 하나 이상의 데이터 프로세싱 단계가 조합 출력에 적용되기 전에 출력을 조합하는 것을 특징으로 한다. 일부 실시예에서, 늦은 융합(late fusion) 기술이 사용된다. 늦은 융합 기술은 하나 이상의 데이터 프로세싱 단계가 개별 출력에 적용된 후에 출력을 조합하는 것을 특징으로 한다.

도 6은 LiDAR 시스템(602)(예를 들면, 도 5에 도시된 입력(502a))의 일 예를 도시한다. LiDAR 시스템(602)은 광 이미터(606)(예를 들면, 레이저 송신기)로부터 광(604a 내지 604c)을 방출한다. LiDAR 시스템에 의해 방출되는 광은 전형적으로 가시 스펙트럼에 있지 않으며, 예를 들어, 적외선 광이 종종 사용된다. 방출되는 광(604b)의 일부는 물리적 대상체(608)(예를 들면, 차량)와 조우하고, LiDAR 시스템(602)으로 다시 반사된다. (LiDAR 시스템으로부터 방출되는 광은 전형적으로 물리적 대상체, 예를 들어, 고체 형태의 물리적 대상체를 관통하지 않는다). 또한, LiDAR 시스템(602)은 반사된 광을 검출하는 하나 이상의 광 검출기(610)를 갖는다. 일 실시예에서, LiDAR 시스템과 연관된 하나 이상의 데이터 프로세싱 시스템은 LiDAR 시스템의 시계(614)를 나타내는 이미지(612)를 생성한다. 이미지(612)는 물리적 대상체(608)의 경계(616)를 나타내는 정보를 포함한다. 이러한 방식으로, 이미지(612)는 AV 인근의 하나 이상의 물리적 대상체의 경계(616)를 결정하는 데 사용된다.

도 7은 동작 중인 LiDAR 시스템(602)을 도시한다. 이 도면에 도시된 시나리오에서, AV(100)는 이미지(702) 형태의 카메라 시스템 출력(504c) 및 LiDAR 데이터 포인트(704) 형태의 LiDAR 시스템 출력(504a) 둘 모두를 수신한다. 사용 중에, AV(100)의 데이터 프로세싱 시스템은 이미지(702)를 데이터 포인트(704)와 비교한다. 특히, 이미지(702)에서 식별된 물리적 대상체(706)가 데이터 포인트(704) 중에서도 식별된다. 이러한 방식으로, AV(100)는 데이터 포인트(704)의 윤곽 및 밀도에 기초하여 물리적 대상체의 경계를 인지한다.

도 8은 LiDAR 시스템(602)의 동작을 추가적으로 상세하게 도시한다. 위에서 기술된 바와 같이, AV(100)는 LiDAR 시스템(602)에 의해 검출되는 데이터 포인트의 특성에 기초하여 물리적 대상체의 경계를 검출한다. 도 8에 도시된 바와 같이, 지면(802)과 같은 평평한 대상체는 LiDAR 시스템(602)으로부터 방출되는 광(804a 내지 804d)을 일관된 방식으로 반사할 것이다. 달리 말하면, LiDAR 시스템(602)이 일관된 간격을 사용하여 광을 방출하기 때문에, 지면(802)은 광을 동일한 일관된 간격으로 다시 LiDAR 시스템(602)으로 반사할 것이다. AV(100)가 지면(802) 위에서 진행함에 따라, LiDAR 시스템(602)은 도로를 방해하는 것이 없는 경우 다음 유효 지면 포인트(806)에 의해 반사되는 광을 계속 검출할 것이다. 그렇지만, 대상체(808)가 도로를 방해하는 경우, LiDAR 시스템(602)에 의해 방출되는 광(804e 내지 804f)은 예상되는 일관된 방식과 불일치하는 방식으로 포인트(810a 내지 810b)로부터 반사될 것이다. 이 정보로부터, AV(100)는 대상체(808)가 존재한다고 결정할 수 있다.

경로 계획

도 9는 (예를 들면, 도 4에 도시된 바와 같은) 계획 모듈(404)의 입력과 출력 사이의 관계의 블록 다이어그램(900)을 도시한다. 일반적으로, 계획 모듈(404)의 출력은 시작 포인트(904)(예를 들면, 소스 위치 또는 초기 위치)로부터 종료 포인트(906)(예를 들면, 목적지 또는 최종 위치)까지의 루트(902)이다. 루트(902)는 전형적으로 하나 이상의 세그먼트에 의해 규정된다. 예를 들어, 세그먼트는 거리, 도로, 공도, 사유 도로, 또는 자동차 진행에 적절한 다른 물리적 영역의 적어도 일 부분에 걸쳐 진행되는 거리이다. 일부 예에서, 예를 들어, AV(100)가 4륜 구동(4WD) 또는 상시 4륜구동(AWD) 자동차, SUV, 픽업 트럭 등과 같은 오프-로드 주행 가능 차량인 경우, 루트(902)는 비포장 경로 또는 탁트인 들판과 같은 "오프-로드" 세그먼트를 포함한다.

루트(902)에 추가하여, 계획 모듈은 차선-레벨 루트 계획 데이터(908)도 출력한다. 차선-레벨 루트 계획 데이터(908)는 특정한 시간에서의 세그먼트의 조건에 기초하여 루트(902)의 세그먼트를 횡단하는 데 사용된다. 예를 들어, 루트(902)가 다중 차선 공도를 포함하는 경우, 차선-레벨 루트 계획 데이터(908)는, 예를 들어, 출구가 다가오고 있는지, 차선 중 하나 이상이 다른 차량을 갖는지, 또는 수 분 이하 동안에 걸쳐 변화되는 다른 인자에 기초하여, AV(100)가 다중 차선 중 한 차선을 선택하는 데 사용할 수 있는 궤적 계획 데이터(910)를 포함한다. 유사하게, 일부 구현예에서, 차선-레벨 루트 계획 데이터(908)는 루트(902)의 세그먼트에 특정적인 속력 제약(912)을 포함한다. 예를 들어, 세그먼트가 보행자 또는 예상치 않은 교통상황(traffic)을 포함하는 경우, 속력 제약(912)은 AV(100)를 예상된 속력보다 더 느린 진행 속력, 예를 들어, 세그먼트에 대한 속력 제한 데이터에 기초한 속력으로 제한할 수 있다.

일 실시예에서, 계획 모듈(404)로의 입력은 (예를 들면, 도 4에 도시된 데이터베이스 모듈(410)로부터의) 데이터베이스 데이터(914), 현재 위치 데이터(916)(예를 들면, 도 4에 도시된 AV 위치(418)), (예를 들면, 도 4에 도시된 목적지(412)에 대한) 목적지 데이터(918), 및 대상체 데이터(920)(예를 들면, 도 4에 도시된 인지 모듈(402)에 의해 인지되는 분류된 대상체(416))를 포함한다. 일 실시예에서, 데이터베이스 데이터(914)는 계획에 사용되는 규칙을 포함한다. 규칙은 형식 언어를 사용하여, 예를 들어, 불리언 로직을 사용하여 특정된다. AV(100)와 조우하는 임의의 주어진 상황에서, 규칙 중 적어도 일부는 해당 상황에 적용될 것이다. 규칙이 AV(100)에 이용 가능한 정보, 예를 들어, 주위 환경에 관한 정보에 기초하여 충족되는 조건을 갖는 경우, 규칙이 주어진 상황에 적용된다. 규칙은 우선순위를 가질 수 있다. 예를 들어, "도로가 공도인 경우, 최좌측 차선으로 이동하라"라고 되어 있는 규칙은, 출구가 1마일 내에서 다가오고 있는 경우, 최우측 차선으로 이동하라"는 것보다 더 낮은 우선순위를 가질 수 있다.

도 10은, 예를 들어, 계획 모듈(404)(도 4)에 의해 경로 계획에 사용되는 방향 그래프(1000)를 도시한다. 일반적으로, 도 10에 도시된 것과 같은 방향 그래프(1000)는 임의의 시작 포인트(1002)와 종료 포인트(1004) 사이의 경로를 결정하는 데 사용된다. 현실 세계에서는, 시작 포인트(1002)와 종료 포인트(1004)를 분리하는 거리는 상대적으로 클 수 있거나(예를 들면, 2개의 상이한 대도시 지역 내) 또는 상대적으로 작을 수 있다(예를 들면, 도시 블록과 맞닿아 있는 2개의 교차로 또는 다중 차선 도로의 2개의 차선).

일 실시예에서, 방향 그래프(1000)는 AV(100)에 의해 점유될 수 있는 시작 포인트(1002)와 종료 포인트(1004) 사이의 상이한 위치를 나타내는 노드(1006a 내지 1006d)를 갖는다. 일부 예에서, 예를 들어, 시작 포인트(1002) 및 종료 포인트(1004)가 상이한 대도시 지역을 나타낼 때, 노드(1006a 내지 706d)는 도로의 세그먼트를 나타낸다. 일부 예에서, 예를 들어, 시작 포인트(1002) 및 종료 포인트(1004)가 동일한 도로 상의 상이한 위치를 나타낼 때, 노드(1006a 내지 706d)는 해당 도로 상의 상이한 위치를 나타낸다. 이러한 방식으로, 방향 그래프(1000)는 다양한 레벨의 입도(granularity)로 정보를 포함한다. 또한, 일 실시예에서, 높은 입도를 갖는 방향 그래프는 또한 더 큰 스케일을 갖는 다른 방향 그래프의 하위그래프이다. 예를 들어, 시작 포인트(1002) 및 종료 포인트(1004)가 멀리 떨어져 있는(예를 들면, 수 마일(many miles) 떨어져 있는) 방향 그래프는 그의 정보 대부분이 낮은 입도이고 저장된 데이터에 기초하지만, AV(100)의 시계 내의 물리적 위치를 나타내는 그래프의 부분에 대한 일부 높은 입도 정보도 포함한다.

노드(1006a 내지 1006d)는 노드와 중첩할 수 없는 대상체(1008a 내지 1008b)와 별개이다. 일 실시예에서, 입도가 낮을 때, 대상체(1008a 내지 1008b)는 자동차에 의해 횡단될 수 없는 구역, 예를 들어, 거리 또는 도로가 없는 영역을 나타낸다. 입도가 높을 때, 대상체(1008a 내지 1008b)는 AV(100)의 시계 내의 물리적 대상체, 예를 들어, 다른 자동차, 보행자, 또는 AV(100)가 물리적 공간을 공유할 수 없는 다른 엔티티를 나타낸다. 일 실시예에서, 대상체(1008a 내지 1008b)의 일부 또는 전부는 정적 대상체(예를 들어, 가로등 또는 전신주와 같은 위치를 변경하지 않는 대상체) 또는 동적 대상체(예를 들어, 보행자 또는 다른 자동차와 같은 위치를 변경할 수 있는 대상체)이다.

노드(1006a 내지 1006d)는 에지(1010a 내지 1010c)에 의해 연결된다. 2개의 노드(1006a 내지 1006b)가 에지(1010a)에 의해 연결되는 경우, AV(100)가, 예를 들어, 다른 노드(1006b)에 도착하기 전에 중간 노드로 진행할 필요 없이, 하나의 노드(1006a)와 다른 노드(1006b) 사이에서 진행하는 것이 가능하다. (노드 사이에서 진행하는 AV(100)를 언급할 때, AV(100)가 각자의 노드에 의해 표현되는 2개의 물리적 위치 사이에서 진행한다는 것을 의미한다.) 에지(1010a 내지 1010c)는, AV(100)가 제1 노드로부터 제2 노드로, 또는 제2 노드로부터 제1 노드로 진행한다는 의미에서 종종 양방향성이다. 일 실시예에서, 에지(1010a 내지 1010c)는, AV(100)가 제1 노드로부터 제2 노드로 진행할 수 있지만, AV(100)가 제2 노드로부터 제1 노드로 진행할 수 없다는 의미에서 단방향성이다. 에지(1010a 내지 1010c)는, 예를 들어, 일방통행로, 거리, 도로, 또는 공도의 개별 차선, 또는 법적 또는 물리적 제약으로 인해 일 방향으로만 횡단될 수 있는 다른 특징부를 나타낼 때 단방향성이다.

일 실시예에서, 계획 모듈(404)은 방향 그래프(1000)를 사용하여 시작 포인트(1002)와 종료 포인트(1004) 사이의 노드 및 에지로 이루어진 경로(1012)를 식별한다.

에지(1010a 내지 1010c)는 연관된 비용(1014a 내지 1014b)을 갖는다. 비용(1014a 내지 1014b)은 AV(100)가 해당 에지를 선택하는 경우 소비될 리소스를 나타내는 값이다. 전형적인 리소스는 시간이다. 예를 들어, 하나의 에지(1010a)가 다른 에지(1010b)의 물리적 거리의 2배인 물리적 거리를 나타내면, 제1 에지(1010a)의 연관된 비용(1014a)은 제2 에지(1010b)의 연관된 비용(1014b)의 2배일 수 있다. 시간에 영향을 미치는 다른 인자는 예상된 교통상황, 교차로의 개수, 속력 제한 등을 포함한다. 다른 전형적인 리소스는 연비이다. 2개의 에지(1010a 및 1010b)는 동일한 물리적 거리를 나타낼 수 있지만, 예를 들어, 도로 상태, 예상된 날씨 등으로 인해, 하나의 에지(1010a)는 다른 에지(1010b)보다 더 많은 연료를 요구할 수 있다.

계획 모듈(404)이 시작 포인트(1002)와 종료 포인트(1004) 사이의 경로(1012)를 식별할 때, 계획 모듈(404)은 전형적으로, 비용에 최적화된 경로, 예를 들어, 에지의 개별 비용이 함께 가산될 때 가장 적은 전체 비용을 갖는 경로를 선택한다.

자율 주행 차량 제어

도 11은 (예를 들면, 도 4에 도시된 바와 같은) 제어 모듈(406)의 입력 및 출력의 블록 다이어그램(1100)을 도시한다. 제어 모듈은, 예를 들어, 프로세서(304)와 유사한 하나 이상의 프로세서(예를 들면, 마이크로프로세서 또는 마이크로컨트롤러 또는 둘 모두와 같은 하나 이상의 컴퓨터 프로세서), 메인 메모리(306)와 유사한 단기 및/또는 장기 데이터 스토리지(예를 들면, 메모리 랜덤-액세스 메모리 또는 플래시 메모리 또는 둘 모두), ROM(1308), 및 저장 디바이스(210)를 포함하는 제어기(1102), 및 메모리 내에 저장된 명령어에 따라 동작하는데, 상기 명령어는 명령어가 (예를 들면, 하나 이상의 프로세서에 의해) 실행될 때 제어기(1102)의 동작을 수행한다.

일 실시예에서, 제어기(1102)는 원하는 출력(1104)을 나타내는 데이터를 수신한다. 원하는 출력(1104)은 전형적으로 속도, 예를 들어, 속력 및 헤딩을 포함한다. 원하는 출력(1104)은, 예를 들어, (예를 들면, 도 4에 도시된 바와 같은) 계획 모듈(404)로부터 수신되는 데이터에 기초할 수 있다. 원하는 출력(1104)에 따라, 제어기(1102)는 스로틀 입력(1106) 및 조향 입력(1108)으로서 사용 가능한 데이터를 생성한다. 스로틀 입력(1106)은 원하는 출력(1104)을 달성하기 위해 조향 페달에 관여하거나 또는 다른 스로틀 제어에 관여함으로써, AV(100)의 스로틀(예를 들면, 가속도 제어)에 관여하는 정도를 나타낸다. 일부 예에서, 스로틀 입력(1106)은 AV(100)의 브레이크(예를 들면, 감속 제어)에 관여하는 데 사용 가능한 데이터를 또한 포함한다. 조향 입력(1108)은 조향각, 예를 들어, AV의 조향 제어(예를 들면, 조향 휠, 조향각 액추에이터, 또는 조향각을 제어하기 위한 다른 기능성)가 원하는 출력(1104)을 달성하도록 위치설정되어야 하는 각도를 나타낸다.

일 실시예에서, 제어기(1102)는 스로틀 및 조향에 제공되는 입력을 조정하는 데 사용되는 피드백을 수신한다. 예를 들어, AV(100)가 언덕과 같은 방해물(1110)과 조우하면, AV(100)의 측정된 속력(1112)은 원하는 출력 속력 아래로 낮아진다. 일 실시예에서, 임의의 측정된 출력(1114)은, 예를 들어, 측정된 속력과 원하는 출력 사이의 차분(1113)에 기초하여, 필요한 조정이 수행되도록 제어기(1102)에 제공된다. 측정된 출력(1114)은 측정된 위치(1116), 측정된 속도(1118)(속력 및 헤딩을 포함), 측정된 가속도(1120), 및 AV(100)의 센서에 의해 측정 가능한 다른 출력을 포함한다.

일 실시예에서, 방해물(1110)에 관한 정보는, 예를 들어, 카메라 또는 LiDAR 센서와 같은 센서에 의해 미리 검출되고, 예측 피드백 모듈(1122)에 제공된다. 이후, 예측 피드백 모듈(1122)은 정보를 제어기(1102)에 제공하며, 제어기(1102)는 이 정보를 사용하여 그에 따라 조정할 수 있다. 예를 들어, AV(100)의 센서가 언덕을 검출한("본") 경우, 이 정보는 상당한 감속을 회피하기 위해 적절한 시간에 스로틀에 관여할 준비를 하도록 제어기(1102)에 의해 사용될 수 있다.

도 12는 제어기(1102)의 입력, 출력, 및 컴포넌트의 블록 다이어그램(1200)을 도시한다. 제어기(1102)는 스로틀/브레이크 제어기(1204)의 동작에 영향을 미치는 속력 프로파일러(1202)를 갖는다. 예를 들어, 속력 프로파일러(1202)는, 예를 들어, 제어기(1102)에 의해 수신되고 속력 프로파일러(1202)에 의해 프로세싱되는 피드백에 따라 스로틀/브레이크(1206)를 사용하여 가속에 관여하거나 감속에 관여하도록 스로틀/브레이크 제어기(1204)에 명령한다.

또한, 제어기(1102)는 조향 제어기(1210)의 동작에 영향을 미치는 측방향 추적 제어기(1208)를 갖는다. 예를 들어, 측방향 추적 제어기(1208)는, 예를 들어, 제어기(1102)에 의해 수신되고 측방향 추적 제어기(1208)에 의해 프로세싱되는 피드백에 따라 조향각 액추에이터(1212)의 위치를 조정하도록 조향 제어기(1210)에 명령한다.

제어기(1102)는 스로틀/브레이크(1206) 및 조향각 액추에이터(1212)를 제어하는 방법을 결정하는 데 사용되는 여러 입력을 수신한다. 계획 모듈(404)은, 예를 들어, AV(100)가 동작을 시작할 때 헤딩을 선택하고 AV(100)가 교차로에 도달할 때 어느 도로 세그먼트를 횡단할지를 결정하기 위해, 제어기(1102)에 의해 사용되는 정보를 제공한다. 로컬화 모듈(408)은, 예를 들어, 스로틀/브레이크(1206) 및 조향각 액추에이터(1212)가 제어되고 있는 방식에 기초하여 예상되는 위치에 AV(100)가 있는지를 제어기(1102)가 결정할 수 있도록, AV(100)의 현재 위치를 기술하는 정보를 제어기(1102)에 제공한다. 일 실시예에서, 제어기(1102)는 다른 입력(1214)으로부터의 정보, 예를 들어, 데이터베이스, 컴퓨터 네트워크 등으로부터 수신된 정보를 수신한다.

3D 대상체 검출을 위한 순차 융합

도 13은 하나 이상의 실시예에 따른, 더 정확한 3D 대상체 검출을 위해 LiDAR 특징을 시맨틱 포인트 데코레이션과 융합하는 것을 예시한다. 시스템(1300)은 이미지(1301), 이미지 시맨틱 세그먼트화 네트워크(ISN)(1302), 세그먼트화된 이미지(1303), LiDAR BEV(1304), 융합 모듈(1305), 데코레이션된 BEV(1306) 및 LiDAR 세그먼트화 네트워크(LSN)(1307)를 포함한다. 일 실시예에서, ISN(1302)은 이미지 세그먼트화와 대상체 검출 둘 모두를 수행한다(즉, 2D 또는 3D 경계 박스를 계산한다). 다른 실시예에서, 2개의 네트워크: 이미지 세그먼트화를 위한 네트워크와 대상체 검출을 위한 네트워크가 사용될 수 있다. ISN(1302)은 이미지를 입력으로 받아서 시맨틱 데이터를 출력한다. 일 실시예에서, 시맨틱 데이터는, 시맨틱 세그먼트화 점수라고 지칭되는, 픽셀 클래스(pixel class)당 확률이다. 이러한 시맨틱 세그먼트화 점수는 이미지의 콤팩트한 요약된 특징으로서 역할한다. 융합 파이프라인에서 시맨틱 세그먼트화를 사용하는 것의 몇 가지 주요 장점이 있다. 첫째, 시맨틱 세그먼트화는 3D 대상체 검출보다 쉬운 태스크인데 그 이유는 세그먼트화가 로컬적 픽셀별 분류만을 필요로 하는 반면, 대상체 검출은 3D 로컬화 및 분류를 필요로 하기 때문이다. 이것은 시맨틱 세그먼트화가 트레이닝하기 쉽고 또한 추론을 위해 작고 빠른 네트워크를 사용할 수 있음을 의미한다. 둘째, 시맨틱 세그먼트화에서 급속한 발전이 이루어지고 있으며, 이는 이러한 융합 전략이 세그먼트화 및 3D 대상체 검출 둘 모두에서의 발전으로부터 이득을 볼 수 있게 한다. 마지막으로, 로봇 공학 또는 자율 주행 차량 시스템에서, 시맨틱 세그먼트화 출력은 자유 공간 추정과 같은 다른 태스크에 유용한 독립적 출력이다.

일 실시예에서, 각각의 포인트 클라우드는, 도 13에 예시된 바와 같이, 각각의 카메라에 의해 캡처된 가장 최근 이미지에 (예를 들면, 타임 스탬프를 비교함으로써) 시간적으로 매칭된다. 그렇지만, 융합 모듈(1305)이 ISN(1302)으로부터의 시맨틱 세그먼트화 점수를 기다려야 하기 때문에, 매칭 프로세스는 실시간 시스템에 레이턴시를 도입한다. 일 실시예에서, 이 레이턴시는 가장 최근의 포인트 클라우드를 시간상 이전 이미지로부터 출력된 시맨틱 세그먼트화 데이터에 투영함으로써 방지된다.

ISN(1302)은 이미지(1301)를 입력으로 받고, 이미지에서의 각각의 픽셀의 클래스를 예측하며, 이미지(1301)에서의 각각의 픽셀에 대한 시맨틱 세그먼트화 데이터(예를 들어, 시맨틱 세그먼트화 점수)를 출력한다. ISN(1302)은 이미지를 포함하는 이미지 데이터 세트를 사용하여 트레이닝되며 여기서 각각의 이미지는 이미지 데이터 세트에서의 클래스에 대한 세그먼트화 레이블 및 2D 경계 박스로 주석이 달려 있다. 예시적인 시맨틱 세그먼트화 점수는 픽셀의 클래스가 올바르게 예측되었을 확률을 나타내는 확률 값이다.

LiDAR 포인트는 융합 모듈(1305)에 의해 LiDAR 에고 차량(ego-vehicle) 좌표 프레임으로부터 카메라 좌표 프레임으로 변환되고, 각각의 픽셀에 대해 세그먼트화 점수 벡터가 획득되며 여기서 포인트는 카메라 좌표 프레임에서 투영된다. 2개의 카메라의 시야가 중첩하는 경우, 2개의 이미지에 동시에 투영되는 일부 포인트가 있을 것이다. 일 실시예에서, 세그먼트화 점수 벡터는 2개의 이미지 중 하나로부터 랜덤하게 선택된다.

도시된 실시예에서, 데코레이션된 포인트는, 도 15를 참조하여 더 충분히 설명되는 바와 같이, 포인트 특징을 희소 의사 이미지(sparse pseudo image)로 변환하는 필라 인코더에 입력된다. 일 실시예에서, 포인트에 대한 포인트 필라 인코딩은 (x, y, z, i, x_c, y_c, z_c, x_p, y_p)이고, 여기서 (x_c, y_c, z_c)는 필라 내의 모든 포인트의 산술 평균에 대한 포인트의 오프셋이고, i는 강도이며, (x_p, y_p)는 필라 x 및 y 중심에 대한 포인트의 오프셋이다. ISN에 의해 생성된 시맨틱 세그먼트화 데이터가 이 인코딩에 어펜딩(append)된다. 일 실시예에서, ISN에 의해 생성된 시맨틱 세그먼트화 점수는 N개의 클래스로 축소된다. 예를 들어, 시맨틱 세그먼트화 점수는 4개의(N = 4개의) 클래스: 자동차(p_car), 자전거(p_bike), 보행자(p_ped) 및 배경(p_background)으로 축소될 수 있다. 따라서, 4개의 클래스에 대한 시맨틱 세그먼트화 점수가 어펜딩된 필라 인코딩은 (x, y, z, i, x_c, y_c, z_c, x_p, y_p, p_car, p_bike, p_ped, p_background)에 의해 주어진다. 이러한 필라 인코딩이 일 예이다. 더 많거나 더 적은 시맨틱 세그먼트화 데이터를 포함하는 다른 필라 인코딩이 사용될 수 있다.

필라 인코더에 의해 출력되는 의사 이미지는 [Y. Zhou and O. Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection. In CVPR, 2018]에 기술된 네트워크와 유사한, 2D CNN과 같은, 딥 러닝 백본 네트워크에 전달된다.

딥 러닝 백본은 검출 헤드(detection head)에 입력되는 특징을 계산하여 출력한다. 검출 헤드는, ["PointPillars: Fast Encoders for Object Detection from Point Clouds, arXiv:1812.05784v2 [cs.LG] 7 May 2019]에 기술된 바와 같이, 유향 3D 경계 박스를 출력한다. 일 실시예에서, 검출 헤드는, [W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg. SSD: Single shot multibox detector. In ECCV, 2016]에 기술된 바와 같은, 단일 샷 검출(single shot detection; SSD) 헤드이다.

일 실시예에서, ISN(1402)으로부터의 시맨틱 세그먼트화를 사용하는 대신에 또는 그에 추가적으로, 2D 검출(2D 경계 박스)이 LiDAR 포인트를 데코레이션하는 데 사용된다. 예를 들어, LiDAR 포인트는 포인트가 포함된 경계 박스로부터의 분류 점수로 데코레이션된다. 특정 포인트가 다수의 중첩하는 경계 박스에 속하면, 포인트가 중첩하는 경계 박스에 대한 분류 점수의 평균에 의해 데코레이션될 수 있다.

ISN(1402)이 출력으로서 3D 경계 박스를 생성하는 실시예(예를 들면, 3D ISN(1402))에서, 포인트는 포인트가 어느 3D 경계 박스에 포함되는지에 따라 데코레이션된다. 포인트가 3D에서 직접적으로 데코레이션되기 때문에, 포인트를 2D 이미지 평면에 투영할 필요가 없다.

도 14는 하나 이상의 실시예에 따른, 더 정확한 3D 대상체 검출을 위해 LiDAR 특징을 시맨틱 포인트 데코레이션과 융합하기 위한 시스템의 블록 다이어그램이다. 시스템(1400)은 매칭 모듈(1401), ISN(1402), 융합 모듈(1403), 포인트 필라 인코더(1404), 딥 러닝 백본 및 검출 헤드(1406)를 포함한다.

동작 중에, 카메라 이미지와 LiDAR 포인트가 매칭 모듈(1401)에 입력되고, 매칭 모듈(1401)은 포인트 클라우드 스캔을 모든 상이한 카메라 채널에 대한 대응하는 이미지에 시간적으로 매칭시킨다. 일 실시예에서, 타임 스탬프는, 예를 들어, 타임 스탬프에 기초하여 시간상 가장 가까운 샘플을 취함으로써 LiDAR 스캔을 카메라 이미지와 시간적으로 매칭시키는 데 사용될 수 있다. 일 실시예에서, 가장 최근의 포인트 클라우드 스캔을 시간상 이전 이미지로부터 출력된 시맨틱 세그먼트화 데이터에 투영함으로써 레이턴시가 감소되는데, 그 이유는 이것이 LiDAR 포인트 클라우드가 기록될 무렵에는 이미지 프로세싱이 완료될 수 있도록 하기 때문이다.

매칭 모듈의 출력은 ISN(1402)에 입력되는 매칭된 이미지이다. 이전에 기술된 바와 같이, ISN(1402)은 시맨틱 세그먼트화와 대상체 검출 둘 모두를 제공한다. 다른 실시예에서, 2개의 개별 네트워크: 이미지 세그먼트화를 위한 네트워크와 대상체 검출을 위한 네트워크가 사용될 수 있다. 검출 클래스의 일부 예는 자동차, 보행자, 자전거, 장벽, 교통 콘(traffic cone) 및 운전 가능한 표면이다. ISN(1402)은 크기 조정(resize)되고 보강될 수 있는 주석이 달린 이미지의 데이터베이스로 트레이닝된다. 손실 함수가 예측된 값 및 목표 값에 적용되며 손실은 네트워크 가중치를 조정하기 위해 네트워크를 통해 역전파된다. 이미지 보강의 일부 예는 줌인(zooming in), 줌아웃(zooming out), 광도 왜곡(photometric distortion) 및 랜덤 플리핑(random flipping)을 포함하지만, 이에 제한되지 않는다.

일 실시예에서, ISN(1402)은 백본 및 검출 헤드를 포함한다. 일 실시예에서, [W. Liu et al]에 기술된 바와 같이, 백본은 완전 컨볼루션 신경 네트워크(fully convolutional neural network; FCNN)이고 검출 헤드는 단일 샷 멀티박스 검출기(single shot multibox detector)이다. 분류 손실(classification loss), 로컬화 손실(localization loss) 및 어트리뷰트 손실(attribute loss)을 포함하지만 이에 제한되지 않는 다양한 손실 함수가 이용될 수 있다. ISN(1402)의 출력은 시맨틱 데이터이다. 일 실시예에서, 시맨틱 데이터는 시맨틱 세그먼트화 점수이다.

시맨틱 세그먼트화 점수는 매칭되는 LiDAR 포인트 클라우드의 BEV와 함께 융합 모듈(1402)에 입력된다. 융합 모듈(1403)은 시맨틱 세그먼트화 데이터로 LIDAR 포인트를 데코레이션한다. 융합 모듈(1403)의 출력은 포인트 필라 인코더(1404)에 입력되는 데코레이션된 BEV이다.

포인트 필라 인코더(1404)는 시맨틱 세그먼트화 점수로 포인트 필라 인코딩을 보강한다. 일 실시예에서, 시맨틱 세그먼트화 점수는 4개의 클래스: 자동차(p_car), 자전거(p_bike), 보행자(p_ped) 및 배경(p_background)으로 축소될 수 있다. 따라서, 4개의 클래스가 어펜딩된 필라 인코딩은 (x, y, z, i, x_c, y_c, z_c, x_p, y_p, p_car, p_bike, p_ped, p_background)에 의해 주어진다. 더 많거나 더 적은 시맨틱 세그먼트화 데이터를 포함하는 다른 필라 인코딩이 사용될 수 있다. 필라 인코더는 도 15를 참조하여 더 상세히 기술된다.

포인트 필라 인코더(1404)의 출력은 의사 이미지이다. 의사 이미지의 생성은 "PointPillars: Fast Encoders for Object Detection from Point Clouds, arXiv:1812.05784v2 [cs.LG] 및 미국 특허 출원 제16/679,099호에 기술되어 있다.

의사 이미지는 딥 러닝 백본(1405)에 입력된다. 일 실시예에서, 백본은, 도 15를 참조하여 설명되는 바와 같이, 2D CNN이다. 백본(1405)의 출력은 유향 3D 경계 박스(유향 3D 경계 박스의 예측)을 추정하는 검출(1406)에 입력되는 특징이다.

도 15는 하나 이상의 실시예에 따른, 포인트 필라 네트워크(1500)의 블록 다이어그램이다. 포인트 필라 네트워크(1500)에 포함된 필라 특징 네트워크(1502)는 데코레이션된 포인트 클라우드를 입력으로 받아들이고 자동차, 보행자 및 자전거 운전자를 포함하지만 이에 제한되지 않는 다양한 클래스에 대한 유향 3D 박스를 추정/예측하도록 구성된다. 네트워크(1502)는 3개의 주요 스테이지: 1) 포인트 클라우드를 희소 의사 이미지로 변환하는 특징 인코더 네트워크(1502); 2) 의사 이미지를 상위 레벨 표현으로 프로세싱하기 위한 2D 컨볼루션 백본(1503); 및 3) 3D 박스(1505)를 검출하고 회귀하는 검출 헤드(1504)를 포함한다.

일 실시예에서, 2D 컨볼루션 아키텍처를 적용하기 위해, 필라 특징 네트워크(1502)는 포인트 클라우드를 의사 이미지로 변환한다. 좌표(x, y, z) 및 반사율(r)을 갖는 포인트 클라우드 내의 한 포인트를 "l"로 나타낸다. 첫 번째 단계로서, 포인트 클라우드는 x-y 평면에서 균일한 간격의(evenly spaced) 그리드로 이산화되어, |P| = B인 필라 세트(P)를 생성한다. z 차원에서의 비닝을 제어하기 위해 하이퍼 파라미터(hyper parameter)가 필요하지 않다는 점에 유의한다. 각각의 필라 내의 포인트는 이어서 x_c, y_c, z_c, x_p 및 y_p로 보강되고 여기서 c 첨자는 필라 내의 모든 포인트의 산술 평균까지의 거리를 나타내고 p 첨자는 필라 x, y 중심으로부터의 오프셋을 나타낸다. 보강된 LiDAR 포인트(l)는 이제 D = 9 차원이다. 보강된 LiDAR 포인트는 이어서, 도 13 및 도 14를 참조하여 기술된 바와 같이, ISN(1402)에 의해 출력되는 시맨틱 세그먼트화 데이터로 추가로 보강된다. 예를 들어, LiDAR 포인트는 자동차, 자전거, 보행자 및 배경의 클래스로 축소되는 4개의 시맨틱 세그먼트화 점수로 추가로 보강될 수 있으며, 이제 D = 13 차원인 보강된 LiDAR 포인트(l)를 결과한다.

필라 세트는 포인트 클라우드의 희소성(sparsity)으로 인해 대체로 비어 있을 것이고, 비어 있지 않은 필라는 일반적으로 그 내에 포인트가 거의 없을 것이다. 예를 들어, 0.162 m2 빈에서 HDL-64E Velodyne LiDAR로부터의 포인트 클라우드는 ~ 97% 희소성에 대해 KITTI에서 전형적으로 사용되는 범위의 6k 내지 9k개의 비어 있지 않은 필라를 갖는다. 이 희소성은 샘플당 비어 있지 않은 필라의 수(P) 및 필라당 포인트의 수(N) 둘 모두에 제한을 부과하여 크기(D, P, N)의 조밀 텐서(dense tensor)를 생성하는 것에 의해 활용된다. 샘플 또는 필라가 너무 많은 데이터를 보유하여 이러한 텐서에 적합하지 않은 경우, 데이터가 랜덤하게 샘플링된다. 반대로, 샘플 또는 필라가 너무 적은 데이터를 가져 텐서를 채우지(populate) 못하는 경우, 제로 패딩(zero padding)이 적용된다.

다음으로, 각각의 포인트에 대해, 선형 계층이 적용되고 뒤이어서 Batch-Norm 및 ReLU가 적용되어 (C, P, N) 크기의 텐서를 생성하는, PointNet의 단순화된 버전이 사용되고, 여기서 Batch-Norm은 [S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. CoRR, abs/1502.03167, 2015]에 기술되어 있고, ReLU는[V. Nair and G. E. Hinton. Rectified linear units improve restricted Boltzmann machines. In ICML, 2010]에 기술되어 있다. 이것에 후속하여 채널에 대한 max 연산이 뒤따라서 (C, P) 크기의 출력 텐서를 생성한다. 선형 계층은 텐서를 통해 1x1 컨볼루션으로서 공식화될 수 있어, 매우 효율적인 계산을 결과할 수 있다. 일단 인코딩되면, 특징이 원래 필라 위치로 다시 분산(scatter)되어 (C, H, W) 크기의 의사 이미지를 생성하며, 여기서 H와 W는 캔버스의 높이와 폭을 나타낸다.

일 실시예에서, 백본(1503)은 2개의 서브 네트워크: 점점 더 작은 공간 분해능으로 특징을 생성하는 하나의 톱-다운 네트워크(top-down network) 및 톱-다운 특징의 업샘플링 및 연결을 수행하는 제2 네트워크를 갖는다. 톱-다운 백본은 일련의 블록 Block(S, L, F )으로 특성화될 수 있다. 각각의 블록은 스트라이드(stride) S(원래 입력 의사 이미지를 기준으로 하여 측정됨)로 동작한다. 블록은 F개의 출력 채널을 갖는 L개의 3x3 2D 컨벌루션 계층을 가지며, 각각에 후속하여 BatchNorm 및 ReLU가 뒤따른다. 계층 내부의 첫 번째 컨볼루션은 스트라이드 S_in의 입력 블롭(input blob)을 수신한 후에 블록이 스트라이드 S로 동작하도록 보장하기 위해 스트라이드

를 갖는다. 블록에서의 모든 후속 컨볼루션은 스트라이드 1을 갖는다.

각각의 톱-다운 블록으로부터의 최종 특징은 다음과 같이 업샘플링과 연결을 통해 조합된다. 첫째, 특징은 F개의 최종 특징을 갖는 전치 2D 컨볼루션(transposed 2D convolution)을 사용하여 초기 스트라이드 S_in으로부터 최종 스트라이드 S_out(둘 모두 다시 말하지만 원래 의사 이미지를 기준으로 하여 측정됨)까지 업샘플링된다, Up(S_in, S_out, F). 다음으로, BatchNorm 및 ReLU가 업샘플링된 특징에 적용된다. 최종 출력 특징은 상이한 스트라이드로부터 시작되는 모든 특징의 연결이다.

일 실시예에서, 검출 헤드(1504)는 3D 대상체 검출을 수행하기 위해 단일 샷 검출기(W. Liu et al.) 셋업을 사용하여 구현된다. SSD와 유사하게, 프라이어 박스(prior box)는 [M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 2010]에 기술된, 2D IoU(Intersection over Union)를 사용하여 실측치(ground truth)에 매칭된다. 경계 박스 높이와 고도는 매칭에 사용되지 않았고; 그 대신에 2D 매치가 주어지면, 높이와 고도가 추가 회귀 목표(regression target)로 된다.

도 16은 하나 이상의 실시예에 따른, 더 정확한 3D 대상체 검출을 위해 LiDAR 특징을 시맨틱 포인트 데코레이션과 융합하는 프로세스(1600)의 흐름 다이어그램이다.

프로세스(1600)는 3D 포인트 클라우드를 하나 이상의 이미지와 시간적으로 매칭시키는 것(1601), 이미지 시맨틱 데이터를 생성하는 것(1602), 및 포인트를 시맨틱 데이터로 데코레이션하는 것(1603)으로 시작된다. 예를 들어, 시맨틱 세그먼트화 점수는, 도 13 및 도 14를 참조하여 기술된 바와 같이, 자동차, 자전거, 보행자 및 배경과 같은, 다수의 클래스로 축소될 수 있다.

프로세스(1600)는 데코레이션된 포인트를 포인트 필라로 선택적으로 인코딩하는 것(1604)으로 계속된다. 예를 들어, 인코딩은 D = 13 차원을 포함할 수 있다: 따라서, 도 13 내지 도 15를 참조하여 기술된 바와 같이, 4개의 클래스(자동차, 자전거, 보행자 및 배경)가 어펜딩된 필라 인코딩은 (x, y, z, i, x_c, y_c, z_c, x_p, y_p, p_car, p_bike, p_ped, p_background)에 의해 주어진다. 더 많거나 더 적은 시맨틱 세그먼트화 데이터를 포함하는 다른 필라 인코딩이 사용될 수 있다.

선택적인 포인트 필라 네트워크가 사용되는 경우, 프로세스(1600)는 2D CNN 백본을 사용하여 특징을 생성하는 것(1605)으로 계속된다. 일 실시예에서, 도 15를 참조하여 기술된 바와 같이, 백본은 2개의 서브 네트워크: 점점 더 작은 공간 분해능으로 특징을 생성하는 하나의 톱-다운 네트워크 및 톱-다운 특징의 업샘플링 및 연결을 수행하는 제2 네트워크를 포함한다.

프로세스(1600)는 포인트 필라 네트워크가 사용되는 경우 특징에 기초하여 또는 다른 검출 네트워크의 경우 임의의 원하는 뷰(예를 들면, BEV, 전방 뷰)에서의 데코레이션된 포인트에 기초하여 유향 3D 경계 박스를 추정/예측하는 것(1606)으로 계속된다. 예를 들어, 포인트 필라 네트워크에서, 유향 3D 경계 박스(즉, 3D 대상체 검출)를 추정/예측하기 위해 SSD 검출 헤드가 사용될 수 있다.

전술한 설명에서, 실시예는 구현마다 달라질 수 있는 다수의 특정 세부 사항을 참조하여 기술되었다. 따라서, 상세한 설명 및 도면은 제한적인 관점보다는 예시적인 관점에서 보아야 한다. 본 발명의 범위의 유일한 독점적인 지표, 및 출원인이 본 발명의 범위가 되도록 의도한 것은, 본 출원에서 특정 형태로 나오는 청구항 세트의 문언적 등가 범위이며, 그러한 청구항이 나오는 특정 형태는 임의의 후속 보정을 포함한다. 그러한 청구항에 포함된 용어에 대한 본원에서 명시적으로 기재된 임의의 정의는 청구항에서 사용되는 그러한 용어의 의미를 결정한다. 그에 부가하여, 전술한 설명 및 이하의 청구항에서 용어 "더 포함하는"이 사용될 때, 이 문구에 뒤따르는 것은 추가적인 단계 또는 엔티티, 또는 이전에 언급된 단계 또는 엔티티의 서브-단계/서브-엔티티일 수 있다.

Claims

방법으로서,
차량의 하나 이상의 프로세서를 사용하여, 3차원(3D) 포인트 클라우드 내의 포인트를 이미지와 시간적으로 매칭시키는 단계;
이미지 기반 신경 네트워크를 사용하여, 상기 이미지에 대한 시맨틱 데터(semantic data)를 생성하는 단계;
상기 하나 이상의 프로세서를 사용하여, 상기 시맨틱 데이터로 상기 3D 포인트 클라우드 내의 상기 포인트를 데코레이션하는 단계; 및
상기 데코레이션된 포인트를 입력으로 갖는 3D 대상체 검출기를 사용하여, 하나 이상의 대상체에 대한 유향 3D 경계 박스(oriented 3D bounding box)를 추정하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 시맨틱 데이터로 상기 3D 포인트 클라우드 내의 상기 포인트를 데코레이션하는 단계는:
포인트 필라 네트워크를 사용하여, 상기 데코레이션된 포인트를 포인트 필라(point pillar)로 인코딩하는 단계;
상기 포인트 필라를 입력으로 갖는 딥 러닝 네트워크를 사용하여, 하나 이상의 대상체를 나타내는 특징을 생성하는 단계;
상기 특징을 입력으로 갖는 검출 헤드(detection head)를 사용하여, 상기 하나 이상의 대상체에 대한 유향 3D 경계 박스를 추정하는 단계를 더 포함하는, 방법.
제1항 또는 제2항에 있어서, 상기 시맨틱 데이터로 상기 3D 포인트 클라우드 내의 상기 포인트를 데코레이션하는 단계는:
상기 3D 포인트 클라우드를 조감도(birds eye view; BEV)에 투영하는 단계; 및
상기 시맨틱 데이터로 상기 BEV 내의 포인트를 데코레이션하는 단계를 더 포함하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 시맨틱 데이터는 시맨틱 세그먼트화 점수를 포함하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 3D 포인트 클라우드 내의 포인트를 이미지와 시간적으로 매칭시키는 단계는 가장 최근의 포인트 클라우드를 시간상 이전 이미지로부터 출력된 시맨틱 데이터에 투영하는 단계를 포함하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 각각의 특정 포인트는 LiDAR(light detection and ranging) 에고 차량(ego-vehicle) 좌표 프레임으로부터 카메라 좌표 프레임으로 변환되고, 상기 이미지 내의 각각의 픽셀에 대해 세그먼트화 점수 벡터가 획득되며 상기 특정 포인트는 상기 카메라 좌표 프레임에서 투영되는, 방법.
제6항에 있어서,
하나 이상의 포인트가 2개의 이미지에 동시에 투영된다고 결정하는 단계; 및
상기 2개의 이미지 중 하나로부터 상기 세그먼트화 점수 벡터를 랜덤하게 선택하는 단계
를 더 포함하는, 방법.
제2항에 있어서, 상기 데코레이션된 포인트를 포인트 필라로 인코딩하는 단계는 상기 시맨틱 데이터로 포인트 필라 값을 보강하는 단계를 포함하는, 방법.
제8항에 있어서, 각각의 필라 내의 상기 포인트는 값 x_c, y_c, z_c, x_p 및 y_p를 포함하고, 상기 값 x_c, y_c, z_c는 상기 필라 내의 모든 포인트의 산술 평균까지의 거리를 나타내며, 상기 값 x_p 및 y_p는 상기 필라 x, y 중심으로부터의 오프셋을 나타내고, 각각의 필라 내의 상기 포인트는 상기 시맨틱 데이터로 보강되는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시맨틱 데이터는 자동차 클래스, 자전거 클래스, 보행자 클래스, 장벽 클래스, 교통 콘(traffic cone) 클래스, 운전 가능한 표면 클래스 또는 배경 클래스, 중 적어도 하나를 포함하는 클래스 세트 내의 하나 이상의 클래스로 축소된 시맨틱 세그먼트화 점수를 포함하는, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 이미지 기반 신경 네트워크를 사용하여, 2차원(2D) 또는 3차원(3D) 경계 박스를 생성하는 단계; 및
상기 시맨틱 데이터 외에도 또는 상기 시맨틱 데이터 대신에 상기 2D 또는 3D 경계 박스에 대한 분류 점수로 상기 포인트를 데코레이션하는 단계
를 더 포함하는, 방법.
제11항에 있어서,
2개 이상의 경계 박스가 중첩하고 공통 포인트를 포함한다고 결정하는 단계;
상기 2개 이상의 중첩하는 경계 박스에 대한 상기 분류 점수의 평균을 계산하는 단계; 및
상기 분류 점수의 평균으로 상기 공통 포인트를 데코레이션하는 단계
를 더 포함하는, 방법.
시스템으로서,
차량의 하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 제1항 내지 제12항에 열거된 동작들 중 임의의 것을 수행하게 하는 명령어를 저장한 메모리
를 포함하는, 시스템.
하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 제1항 내지 제12항에 열거된 동작들 중 임의의 것을 수행하게 하는 명령어를 저장한 비일시적 컴퓨터 판독 가능 저장 매체.