KR20230012953A

KR20230012953A - 운전 가능 표면 주석 달기를 위한 머신 러닝 기반 프레임워크

Info

Publication number: KR20230012953A
Application number: KR1020210186562A
Authority: KR
Inventors: 세르지 아디프라자 위드자자; 베니스 에린 베일론 리옹; 주앙 지에 총; 아포브 싱
Original assignee: 모셔널 에이디 엘엘씨
Priority date: 2021-07-16
Filing date: 2021-12-23
Publication date: 2023-01-26
Also published as: US11367289B1; DE102022100213A1; US20230016246A1; GB2609060A; GB2609060B; CN115615445A

Abstract

운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크의 실시예들이 포함되어 있다. 일 실시예에서, 방법은: 적어도 하나의 프로세서를 사용하여, 지리적 영역에 대한 멀티모달 맵 데이터를 획득하는 단계; 및 적어도 하나의 프로세서를 사용하여, 머신 러닝 모델을 사용하여 맵 데이터의 하나 이상의 시맨틱 마스크에 자동으로 주석을 다는 단계를 포함한다.

Description

운전 가능 표면 주석 달기를 위한 머신 러닝 기반 프레임워크{MACHINE LEARNING-BASED FRAMEWORK FOR DRIVABLE SURFACE ANNOTATION}

다음 설명은 일반적으로 자율 주행 차량을 사용하여 도로들을 횡단하기 위한 시맨틱 맵 계층들에 주석을 다는 것에 관한 것이다.

자율 주행 차량들은 트레이닝된 머신 러닝(ML) 모델들을 사용하여 대상체 검출을 수행하기 위해, 이미지 데이터(예를 들면, 카메라 데이터) 및 깊이 데이터(예를 들면, LiDAR 포인트 클라우드들)와 같은, 센서 데이터에 대해 작동하는 인지 스택을 종종 사용한다. ML 모델들은 전형적으로 ML 모델들을 사용하여 라벨링된 대상체들을 포함하는 2차원(2D) 및/또는 3차원(3D) 경계 상자들을 출력한다. 라벨링된 대상체 검출들은, 수작업으로 주석이 달린(hand-annotated) 시맨틱 맵 계층들(예를 들면, 차선 및 교차로 마스크 계층들)과 함께, 환경에서의 도로들을 안전하고 효율적으로 횡단하기 위해 차량에 의해 사용된다. 시맨틱 맵 계층들은 운전 가능한 표면들을 정의하는 도로 마킹들과 같은 대략적인(coarse-grained) 정보 및 횡단보도들 및 차량 주차 구역들과 같은 보다 세분화된(finer-grained) 정보를 포함한다. 시맨틱 맵 계층들에 수작업으로 주석을 다는 것은 노동 집약적이며 재정적 자원을 고갈시키는 것이다.

운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크를 위한 기술들이 제공된다.

일 실시예에서, 방법은: 적어도 하나의 프로세서를 사용하여, 지리적 영역에 대한 맵 데이터를 획득하는 단계; 및 적어도 하나의 프로세서를 사용하여, 머신 러닝 모델을 사용하여 맵 데이터의 하나 이상의 시맨틱 마스크에 자동으로 주석을 다는 단계를 포함한다.

일 실시예에서, 맵 데이터는 멀티모달(multimodal)이다.

일 실시예에서, 멀티모달 맵 데이터는 적어도 강도 맵 및 점유 맵을 포함한다.

일 실시예에서, 머신 러닝 모델은 2차원(2D) 콘볼루션 네트워크에 의해 구현된다.

일 실시예에서, 머신 러닝 모델은 앙상블 모델링(ensemble modeling)을 사용하여 구현된다.

일 실시예에서, 머신 러닝 모델은 하나 이상의 맵 모델로부터 추출되는 이미지 샘플들에 대해 반복적으로 트레이닝되고, 트레이닝 이미지들의 변동성을 증가시키기 위해 각각의 트레이닝 반복에 대해 상이한 이미지 샘플들이 추출된다.

일 실시예에서, 하나 이상의 맵 모델은 머신 러닝 모델을 트레이닝 및 테스트하기 위한 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 분할된다.

일 실시예에서, 하나 이상의 맵 모델은 트리 데이터 구조를 사용하여 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 자동으로 분할된다.

일 실시예에서, 트리 데이터 구조는 쿼드트리(Quadtree) 데이터 구조이다.

일 실시예에서 시스템은: 적어도 하나의 프로세서; 및 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금 위에서 기술된 방법들 중 임의의 것을 수행하게 하는 명령어를 저장하는 메모리를 포함한다.

일 실시예에서, 비일시적 컴퓨터 판독 가능 저장 매체는: 적어도 하나의 프로세서; 및 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금 위에서 기술된 방법들 중 임의의 것을 수행하게 하는 명령어들을 저장하는 메모리를 포함한다.

개시된 실시예들 중 하나 이상은 다음과 같은 장점들 중 하나 이상을 제공한다. 시맨틱 맵 계층들에 수작업으로 주석을 다는 데 필요한 시간수(number of hours)가 감소되어, 재정적 및 인적 자원들을 고화질(high-definition, HD) 맵들에 수작업으로 주석을 다는 것으로부터 돌려쓸 수 있게 한다. 개시된 실시예들에 의해 출력되는 운전 가능 표면 마스크들은, 미래의 분류법들 및 데이터 큐레이션(data curation)을 위한 능동 학습(예를 들면, 운전 가능한 영역들에 대한 데이터 마이닝을 편향시키는 것, 개선된 데이터 마이닝을 위해 횡단되지 않은 도로 상의 교차로들을 식별하는 것)에 정보를 제공하기 위해 그리고 운전 가능한 표면으로부터 너무 멀리 떨어진 포인트들을 제외하는 것에 의해 컴퓨팅 요구사항들을 감소시키기 위해, 다른 머신 러닝 응용 분야들을 위한 시맨틱 사전 정보(semantic prior)로서 사용될 수 있다. ML 기반 프레임워크를 사용하면, 기존의 맵 리소스들로부터의 보다 많은 정보가 활용될 수 있으며, 따라서, 예를 들어, 도로 경계들 및 교차로들에서 성능을 향상시킨다.

이들 및 다른 양태들, 특징들, 및 구현들은 기능을 수행하기 위한 방법들, 장치들, 시스템들, 컴포넌트들, 프로그램 제품들, 수단들 또는 단계들로서, 그리고 다른 방식들로 표현될 수 있다. 이들 및 다른 양태들, 특징들, 및 구현들은, 청구항들을 포함하여, 이하의 설명으로부터 명백해질 것이다.

도 1은 하나 이상의 실시예에 따른, 자율 주행 능력(autonomous capability)을 갖는 자율 주행 차량(autonomous vehicle, AV)의 예를 예시한다.
도 2는 하나 이상의 실시예에 따른, 예시적인 "클라우드" 컴퓨팅 환경을 예시한다.
도 3은 하나 이상의 실시예에 따른, 컴퓨터 시스템을 예시한다.
도 4는 하나 이상의 실시예에 따른, AV에 대한 예시적인 아키텍처를 예시한다.
도 5는 하나 이상의 실시예에 따른, 수작업으로 주석이 달린 시맨틱 맵 계층의 예시적인 조감도(BEV)이다.
도 6은 하나 이상의 실시예에 따른, ML 지원 주석 달기 사이클을 예시하는 개념 다이어그램이다.
도 7a 및 도 7b는 하나 이상의 실시예에 따른, 운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크를 예시하는 개념 다이어그램들이다.
도 8은 하나 이상의 실시예에 따른, ML 기반 시맨틱 맵 계층 주석 달기를 위한 신경 네트워크의 개념 다이어그램이다.
도 9는 하나 이상의 실시예에 따른, ML 기반 시맨틱 맵 계층 주석 달기를 위한 앙상블 모델링을 예시하는 개념 다이어그램이다.
도 10은 하나 이상의 실시예에 따른, 캐스케이딩 블록들을 사용하는 ML 기반 시맨틱 맵 계층 주석 달기를 위한 앙상블 모델링을 예시하는 개념 다이어그램이다.
도 11은 하나 이상의 실시예에 따른, 수축 및 확장 경로들에 대한 상이한 기본 블록들을 보여주는 ML 기반 시맨틱 맵 계층 주석 달기를 위한 앙상블 모델링을 예시하는 개념 다이어그램이다.
도 12는 하나 이상의 실시예에 따른, 교호하는 기본 블록들을 보여주는 ML 기반 시맨틱 맵 계층 주석 달기를 위한 앙상블 모델링을 예시하는 개념 다이어그램이다.
도 13은 하나 이상의 실시예에 따른, 글로벌 대 로컬 모델 캐스케이딩(global to local model cascading)을 예시하는 개념 다이어그램이다.
도 14는 하나 이상의 실시예에 따른, 운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크의 흐름 다이어그램이다.

이하의 설명에서는, 설명 목적으로, 본 발명에 대한 완전한 이해를 제공하기 위해 다수의 특정 세부 사항들이 제시된다. 그렇지만, 본 발명이 이러한 특정 세부 사항들이 없더라도 실시될 수 있음이 명백할 것이다. 다른 경우에, 잘 알려진 구조들 및 디바이스들은 본 발명을 불필요하게 모호하게 하는 것을 피하기 위하여 블록 다이어그램 형태로 도시되어 있다.

도면들에, 설명의 용이성을 위해, 디바이스들, 시스템들, 명령어 블록들 및 데이터 요소들을 나타내는 것들과 같은, 개략적인 요소들의 특정 배열들 또는 순서들이 도시되어 있다. 그렇지만, 본 기술 분야의 통상의 기술자라면, 도면들에서의 개략적인 요소들의 특정 순서 또는 배열이 프로세싱의 특정 순서 또는 시퀀스, 또는 프로세스들의 분리가 요구됨을 암시하는 것으로 의미되지 않는다는 점을 이해할 것이다. 게다가, 도면에 개략적인 요소를 포함시키는 것은, 그러한 요소가 모든 실시예들에서 요구됨을 암시하는 것으로 의미되지 않거나, 또는 그러한 요소에 의해 표현되는 특징들이 일부 실시예들에서 포함되지 않을 수 있거나 다른 요소들과 조합되지 않을 수 있음을 암시하는 것으로 의미되지 않는다.

게다가, 도면들에서, 2 개 이상의 다른 개략적인 요소 사이의 연결, 관계 또는 연관을 예시하기 위해 실선 또는 파선 또는 화살표와 같은 연결 요소들이 사용되는 경우에, 임의의 그러한 연결 요소들의 부재는 연결, 관계 또는 연관이 존재하지 않을 수 있음을 암시하는 것으로 의미되지 않는다. 환언하면, 요소들 사이의 일부 연결들, 관계들 또는 연관들은 본 개시를 모호하게 하지 않기 위해 도면들에 도시되어 있지 않다. 추가적으로, 예시의 용이성을 위해, 요소들 사이의 다수의 연결들, 관계들 또는 연관들을 나타내기 위해 단일의 연결 요소가 사용된다. 예를 들어, 연결 요소가 신호들, 데이터 또는 명령어들의 통신을 나타내는 경우에, 본 기술 분야의 통상의 기술자라면 그러한 요소가, 통신을 수행하기 위해 필요로 할 수 있는, 하나 또는 다수의 신호 경로(예를 들면, 버스)를 나타낸다는 것을 이해할 것이다.

그 예가 첨부 도면들에 예시되어 있는 실시예들이 이제 상세하게 언급될 것이다. 이하의 상세한 설명에서, 다양한 기술된 실시예들에 대한 완전한 이해를 제공하기 위해 수많은 특정 세부 사항들이 기재된다. 그렇지만, 다양한 기술된 실시예들이 이러한 특정 세부 사항들이 없더라도 실시될 수 있다는 것이 본 기술 분야의 통상의 기술자에게 명백할 것이다. 다른 경우에, 실시예들의 양태들을 불필요하게 모호하게 하지 않기 위해 잘 알려진 방법들, 절차들, 컴포넌트들, 회로들, 및 네트워크들은 상세히 기술되지 않았다.

각각이 서로 독립적으로 또는 다른 특징들의 임의의 조합과 함께 사용될 수 있는 여러 특징들이 이하에서 기술된다. 그렇지만, 임의의 개별 특징은 위에서 논의된 문제들 중 어떤 것도 해결할 수 없거나 또는 위에서 논의된 문제들 중 하나만을 해결할 수 있다. 위에서 논의된 문제들 중 일부가 본원에 기술된 특징들 중 임의의 것에 의해 완전히 해결되지는 않을 수 있다. 비록 여러 표제들이 제공되어 있더라도, 특정 표제에 관련되지만 해당 표제를 갖는 섹션에서 발견되지는 않는 정보가 본 설명의 다른 곳에서 발견될 수도 있다. 실시예들은 이하의 개요에 따라 본원에 기술된다:

1. 일반적 개관

2. 시스템 개관

3. 자율 주행 차량 아키텍처

4. 운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크

일반적 개관

운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크를 위한 기술들이 제공된다. 일 실시예에서, ML 기반 기술들이 맵 모델들에 적용된다. 맵 모델들은 맵의 특정 영역들로 로컬화될 수 있다. 맵 모델들은 고화질 맵일 수 있으며, 강도 맵(예를 들면, 포인트 클라우드 내의 모든 포인트에 대해, 포인트를 생성한 레이저 펄스의 복귀 강도를 측정하는 LiDAR 센서들에 의해 제공되는 맵), 점유 맵(대상체에 의해 점유되는 영역들을 나타냄), 색상 맵(예를 들면, 색상 코딩된 카메라 이미지들), 텍스처 맵(텍스처들을 나타냄), 다른 ML 모델들 등으로부터 출력되는 맵(예를 들면, 예측된 BEV 맵), 컬러 포인트 클라우드 및 장착된 센서 스위트에서 실행 중인 실시간 모델들로부터의 출력을 포함하지만, 이에 제한되지 않는다.

ML 기반 기술들은 추가적인 카테고리들/라벨들(예를 들면, 차선, 교차로, 보행자, 보도, 차량 주차장)로 주석이 달린 운전 가능 표면 마스크와 연관된 시맨틱 계층들을 사용하여 운전 가능 표면 마스크(예를 들면, 적어도 하나의 차량이 작동하도록 의도된 맵의 영역의 마스크)를 자동으로 예측한다. 일 실시예에서, ML 기반 기술들은 타깃 라벨들로서 수작업으로 주석이 달린 시맨틱 계층들을 갖는 2차원(2D) 콘볼루션 네트워크를 사용하여 구현된다. 일 실시예에서, 관심 이미지 영역들의 샘플들이 맵 모델들로부터 추출되고, 추가로 수작업으로 주석이 달릴 수 있는, 추가적인 카테고리들/라벨들을 갖는 시맨틱 맵 계층들을 예측하는 2D 콘볼루션 네트워크에 입력된다.

일 실시예에서, 2D 콘볼루션 네트워크는 U-Net 모델의 수축 및/또는 확장 경로들에 있는 기본 콘볼루션 블록들이 ResNet 및 DenseNet ML 모델들에 기초하여 잔여 블록(residual block) 및/또는 밀집 블록(dense block)으로 대체되는 수정된 U-Net 모델이다. 일 실시예에서, 교차 엔트로피(cross entropy)와 다이스 손실(dice loss)의 결합인 손실 함수가 2D 콘볼루션 네트워크를 트레이닝시키는 데 사용될 수 있다.

일 실시예에서, 앙상블 모델링은 예측을 개선시키기 위해 2D 콘볼루션 네트워크의 수축 및/또는 확장 경로들에서 다양한 상이한 모델들과 함께 사용될 수 있다. 일 실시예에서, 샘플들은 효율성을 개선시키기 위해 트레이닝 동안 온라인으로 이미지 영역들로부터 추출된다. 2D 콘볼루션 네트워크 트레이닝 및 테스트 데이터 세트들에서 도로 마킹들의 등분 비례를 보장하도록 이미지 영역들을 분할하기 위해 트리 데이터 구조(예를 들면, 쿼드트리)가 사용될 수 있다.

개시된 실시예들은 다음과 같은 장점들 중 하나 이상을 제공한다. ML 모델들을 사용하여 수작업 주석 달기 프로세스를 지원하는 것에 의해, HD 맵에 완전히 주석을 달기 위해 개인이 필요로 하는 주석들의 양이 감소될 수 있으며, 이에 의해 전체적으로 주석 달기 속도를 증가시킬 수 있다. 2D 콘볼루션 네트워크의 출력은, AV 스택들에 의해 구현되는 인지 태스크들에서 사용되는 이미지 분할 및 포인트 클라우드 분할 네트워크들과 같은, 다른 ML 모델들을 위한 시맨틱 사전 정보로서 또는 AV의 플래너에 의해 사용될 수 있는 주석이 달린 운전 가능 표면 마스크이다. "운전 가능성(drivability)"이라는 개념은 또한 미래의 분류법들 및 데이터 큐레이션을 위한 능동 학습에 정보를 제공하는 데 사용될 수 있다. 예를 들어, 잠재적인 응용 분야들은 운전 가능한 표면들에 대한 데이터 마이닝을 편향시키는 것 및 보다 나은 데이터 마이닝을 위해 횡단되지 않은 도로들 상의 교차로들을 식별하는 것을 포함하지만, 이에 제한되지 않는다. 포인트 클라우드(예를 들면, LiDAR 포인트 클라우드) 분할 네트워크에 의한 컴퓨팅 요구사항들을 감소시키기 위해, 운전 가능 표면 마스크가 운전 가능한 표면으로부터 너무 멀리 떨어져 있는 포인트 클라우드로부터의 포인트들을 제외시키는 데 사용될 수 있다.

시스템 개관

도 1은 자율 주행 능력을 갖는 자율 주행 차량(100)의 예를 도시한다.

본원에서 사용되는 바와 같이, "자율 주행 능력"이라는 용어는, 완전 자율 주행 차량, 고도 자율 주행 차량, 및 조건부 자율 주행 차량을 제한 없이 포함하는, 실시간 인간 개입 없이 차량이 부분적으로 또는 완전하게 작동할 수 있게 하는 기능, 특징, 또는 설비를 지칭한다.

본원에서 사용되는 바와 같이, 자율 주행 차량(AV)은 자율 주행 능력을 갖는 차량이다.

본원에서 사용되는 바와 같이, "차량"은 상품 또는 사람의 운송 수단을 포함한다. 예를 들어, 자동차, 버스, 기차, 비행기, 드론, 트럭, 보트, 선박, 잠수함, 비행선, 모터사이클, 자전거 등. 무인 자동차는 차량의 일 예이다.

본원에서 사용되는 바와 같이, "궤적"은 제1 시공간적 위치로부터 제2 시공간적 위치로 AV를 작동시키는 경로 또는 루트를 지칭한다. 일 실시예에서, 제1 시공간적 위치는 초기 또는 시작 위치라고 지칭되고 제2 시공간적 위치는 목적지, 최종 위치, 목표, 목표 위치, 또는 목표 장소라고 지칭된다. 일부 예들에서, 궤적은 하나 이상의 세그먼트(예를 들면, 도로 섹션)로 구성되고, 각각의 세그먼트는 하나 이상의 블록(예를 들면, 차선 또는 교차로의 부분)으로 구성된다. 일 실시예에서, 시공간적 위치들은 현실 세계 위치들에 대응한다. 예를 들어, 시공간적 위치들은 사람을 태우거나 내려주고 또는 상품을 싣거나 내리는 픽업(pick up) 위치 또는 하차(drop-off) 위치이다.

본원에서 사용되는 바와 같이, "센서(들)"는 센서를 둘러싸는 환경에 관한 정보를 검출하는 하나 이상의 하드웨어 컴포넌트를 포함한다. 하드웨어 컴포넌트들 중 일부는 감지 컴포넌트들(예를 들면, 이미지 센서들, 생체 측정 센서들), 송신 및/또는 수신 컴포넌트들(예를 들면, 레이저 또는 무선 주파수 파 송신기들 및 수신기들), 아날로그 대 디지털 변환기들과 같은 전자 컴포넌트들, 데이터 저장 디바이스(예컨대, RAM 및/또는 비휘발성 스토리지), 소프트웨어 또는 펌웨어 컴포넌트들, 및 ASIC(application-specific integrated circuit), 마이크로프로세서 및/또는 마이크로컨트롤러와 같은 데이터 프로세싱 컴포넌트들을 포함할 수 있다.

본원에서 사용되는 바와 같이, "도로"는 차량에 의해 횡단될 수 있는 물리적 영역이고, 명명된 주요 도로(예를 들면, 도시 거리, 주간 프리웨이(interstate freeway) 등)에 대응할 수 있거나, 또는 명명되지 않은 주요 도로(예를 들면, 주택 또는 사무실 건물에서의 사유 도로(driveway), 주차장의 섹션, 공터의 섹션, 시골 지역에의 비포장 경로 등)에 대응할 수 있다. 일부 차량들(예를 들면, 4륜 구동 픽업 트럭들, 스포츠 유틸리티 차량들 등)은 차량 주행에 특히 적합하지 않은 다양한 물리적 영역들을 횡단할 수 있기 때문에, "도로"는 임의의 지자체 또는 다른 정부 또는 행정처에 의해 주요 도로로서 공식적으로 규정되지 않은 물리적 영역일 수 있다.

본원에서 사용되는 바와 같이, "차선"은 차량에 의해 횡단될 수 있는 도로의 한 부분이고, 차선 마킹들 사이의 공간의 대부분 또는 전부에 대응할 수 있거나, 또는 차선 마킹들 사이의 공간의 단지 일부(예를 들면, 50% 미만)에 대응할 수 있다. 예를 들어, 멀리 이격된 차선 마킹들을 갖는 도로는 차선 마킹들 사이에 둘 이상의 차량을 수용할 수 있어서, 하나의 차량이 차선 마킹들을 횡단하지 않으면서 다른 차량을 추월할 수 있고, 따라서 차선 마킹들 사이의 공간보다 더 좁은 차선을 갖거나 차선 마킹들 사이에 2 개의 차선을 갖는 것으로 해석될 수 있다. 차선은 차선 마킹들의 부재 시에도 해석될 수 있다. 예를 들어, 차선은 환경의 물리적 특징물들, 예를 들면, 시골 지역에서의 주요 도로를 따라 있는 바위들 및 나무들에 기초하여 규정될 수 있다.

본원에서 사용되는 바와 같이, "에고 차량(ego vehicle)" 또는 "에고(ego)"는, 예를 들어, 가상 환경에서 가상 AV의 루트를 계획하기 위해 플래너에 의해 활용되는 가상 환경을 감지하기 위한 가상 센서들을 갖는 가상 차량 또는 AV를 지칭한다.

"하나 이상"은 하나의 요소에 의해 수행되는 기능, 둘 이상의 요소에 의해, 예를 들어, 분산 방식으로, 수행되는 기능, 하나의 요소에 의해 수행되는 여러 기능들, 여러 요소들에 의해 수행되는 여러 기능들, 또는 이들의 임의의 조합을 포함한다.

제1, 제2 등의 용어들이, 일부 경우에, 다양한 요소들을 기술하기 위해 본원에서 사용되고 있지만, 이러한 요소들이 이러한 용어들에 의해 제한되지 않아야 한다는 것이 또한 이해될 것이다. 이러한 용어들은 하나의 요소를 다른 요소와 구별하는 데만 사용된다. 예를 들어, 다양한 기술된 실시예들의 범위를 벗어나지 않으면서, 제1 접촉은 제2 접촉이라고 지칭될 수 있고, 유사하게 제2 접촉은 제1 접촉이라고 지칭될 수 있다. 제1 접촉과 제2 접촉은 둘 모두 접촉이지만, 동일한 접촉은 아니다.

본원에 기술된 다양한 실시예들에 대한 설명에서 사용되는 전문용어는 단지 특정한 실시예들을 기술하기 위한 것이며, 제한하는 것으로 의도되지 않는다. 다양한 기술된 실시예들에 대한 설명 및 첨부된 청구항들에서 사용되는 바와 같이, 단수 형태들(“a,” “an” 및 “the”)은, 문맥이 달리 명확히 나타내지 않는 한, 복수 형태들도 포함하는 것으로 의도된다. "및/또는"이라는 용어가, 본원에서 사용되는 바와 같이, 연관된 열거된 항목들 중 하나 이상의 항목의 임의의 및 모든 가능한 조합들을 지칭하고 포괄한다는 것이 또한 이해될 것이다. 게다가, "포함한다" 및/또는 "포함하는"이라는 용어들은, 본 설명에서 사용될 때, 언급된 특징들, 정수들, 단계들, 동작들, 요소들, 및/또는 컴포넌트들의 존재를 명시하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 그 그룹의 존재 또는 추가를 배제하지 않는다는 것이 이해될 것이다.

본원에서 사용되는 바와 같이, "~ 경우"라는 용어는, 선택적으로, 문맥에 따라 "~할 때", 또는 "~시에" 또는 "~라고 결정하는 것에 응답하여" 또는 "~을 검출하는 것에 응답하여"를 의미하는 것으로 해석된다. 마찬가지로, 문구 "~라고 결정되는 경우" 또는 "[언급된 조건 또는 이벤트]가 검출되는 경우"는, 선택적으로, 문맥에 따라, "~라고 결정할 시에" 또는 "~라고 결정하는 것에 응답하여" 또는 "[언급된 조건 또는 이벤트]를 검출할 시에" 또는 "[언급된 조건 또는 이벤트]를 검출하는 것에 응답하여"를 의미하는 것으로 해석된다.

본원에서 사용되는 바와 같이, AV 시스템은 AV의 작동을 지원하는 하드웨어, 소프트웨어, 저장된 데이터 및 실시간으로 생성되는 데이터의 어레이와 함께 AV를 지칭한다. 일 실시예에서, AV 시스템은 AV 내에 통합된다. 일 실시예에서, AV 시스템은 여러 위치들에 걸쳐 확산되어 있다. 예를 들어, AV 시스템의 소프트웨어 중 일부는 도 3과 관련하여 아래에서 기술되는 클라우드 컴퓨팅 환경(300)과 유사한 클라우드 컴퓨팅 환경에서 구현된다.

일반적으로, 본원은 완전 자율 주행 차량, 고도 자율 주행 차량, 및 조건부 자율 주행 차량, 예컨대, 제각기, 소위 레벨 5 차량, 레벨 4 차량 및 레벨 3 차량을 포함하는 하나 이상의 자율 주행 능력을 갖는 임의의 차량에 적용 가능한 기술들을 개시한다(차량의 자율성의 레벨 분류에 대한 세부 사항은 그 전체가 참고로 포함되는, SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의(Taxonomy and Definitions for Terms Related to On-128-172020-02-28 Road Motor Vehicle Automated Driving Systems) 참조). 본 문서에서 설명된 기술들은 또한 부분적 자율 주행 차량 및 운전자 보조 차량, 예컨대, 소위 레벨 2 차량 및 레벨 1 차량에도 적용 가능하다(SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의 참조). 일 실시예에서, 레벨 1, 레벨 2, 레벨 3, 레벨 4 및 레벨 5 차량 시스템들 중 하나 이상은 센서 입력들의 프로세싱에 기초하여 특정 작동 조건들 하에서 특정 차량 작동들(예를 들면, 조향, 제동, 및 맵 사용)을 자동화할 수 있다. 본 문서에서 설명된 기술들은, 완전 자율 주행 차량으로부터 인간 운전 차량에 이르는, 임의의 레벨들에 있는 차량들에 혜택을 줄 수 있다.

도 1을 참조하면, AV 시스템(120)은, 대상체들(예를 들면, 자연 장애물들(191), 차량들(193), 보행자들(192), 자전거 타는 사람들, 및 다른 장애물들)을 피하고 도로 규칙들(예를 들면, 운영 규칙들 또는 운전 선호사항들)을 준수하면서, AV(100)를 궤적(198)을 따라 환경(190)을 통해 목적지(199)(때때로 최종 위치라고 지칭됨)까지 작동시킨다.

일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서들(146)로부터 작동 커맨드들을 수신하고 이에 따라 작동하도록 설비된 디바이스들(101)을 포함한다. 일 실시예에서, 컴퓨팅 프로세서들(146)은 도 3을 참조하여 아래에서 기술되는 프로세서(304)와 유사하다. 디바이스들(101)의 예들은 조향 컨트롤(102), 브레이크(103), 기어, 액셀러레이터 페달 또는 다른 가속 제어 메커니즘, 윈드실드 와이퍼, 사이드 도어 록, 윈도 컨트롤, 및 방향 지시등을 포함한다.

일 실시예에서, AV 시스템(120)은, AV의 위치, 선속도 및 선가속도, 각속도 및 각가속도, 및 헤딩(heading)(예를 들면, AV(100)의 선단의 배향)과 같은, AV(100)의 상태 또는 조건의 속성들을 측정 또는 추론하기 위한 센서들(121)을 포함한다. 센서들(121)의 예는 GNSS(Global Navigation Satellite System) 수신기, 차량 선가속도 및 각도 변화율(angular rate) 둘 모두를 측정하는 IMU(inertial measurement unit), 휠 슬립률(wheel slip ratio)을 측정 또는 추정하기 위한 휠 속력 센서, 휠 브레이크 압력 또는 제동 토크 센서, 엔진 토크 또는 휠 토크 센서, 그리고 조향각 및 각도 변화율 센서이다.

일 실시예에서, 센서들(121)은 AV의 환경의 속성들을 감지 또는 측정하기 위한 센서들을 또한 포함한다. 예를 들어, 가시 광, 적외선 또는 열(또는 둘 모두) 스펙트럼의 단안 또는 스테레오 비디오 카메라들(122), LiDAR(123), RADAR, 초음파 센서들, 비행 시간(time-of-flight, TOF) 깊이 센서들, 속력 센서들, 온도 센서들, 습도 센서들, 및 강수 센서들.

일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서들(146)과 연관된 머신 명령어들 또는 센서들(121)에 의해 수집되는 데이터를 저장하기 위한 데이터 저장 유닛(142) 및 메모리(144)를 포함한다. 일 실시예에서, 데이터 저장 유닛(142)은 도 3과 관련하여 아래에서 기술되는 ROM(308) 또는 저장 디바이스(310)와 유사하다. 일 실시예에서, 메모리(144)는 아래에서 기술되는 메인 메모리(306)와 유사하다. 일 실시예에서, 데이터 저장 유닛(142) 및 메모리(144)는 환경(190)에 관한 과거 정보, 실시간 정보, 및/또는 예측 정보를 저장한다. 일 실시예에서, 저장된 정보는 맵들, 운전 수행, 교통 혼잡 업데이트들 또는 기상 조건들을 포함한다. 일 실시예에서, 환경(190)에 관련된 데이터는 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 AV(100)로 송신된다.

일 실시예에서, AV 시스템(120)은 다른 차량의 상태들 및 조건들, 예컨대, 위치, 선속도와 각속도, 선가속도와 각가속도, 및 AV(100)를 향한 선형 헤딩(linear heading)과 각도 헤딩(angular heading)의 측정된 또는 추론된 속성들을 통신하기 위한 통신 디바이스들(140)을 포함한다. 이러한 디바이스들은 V2V(Vehicle-to-Vehicle) 및 V2I(Vehicle-to-Infrastructure) 통신 디바이스들 및 포인트 투 포인트(point-to-point) 또는 애드혹(ad hoc) 네트워크들 또는 둘 모두를 통한 무선 통신을 위한 디바이스들을 포함한다. 일 실시예에서, 통신 디바이스들(140)은 (무선 및 광학 통신을 포함하는) 전자기 스펙트럼 또는 다른 매체(예를 들면, 공기 및 음향 매체)를 통해 통신한다. V2V(Vehicle-to-Vehicle), V2I(Vehicle-to-Infrastructure) 통신(및 일부 실시예들에서, 하나 이상의 다른 유형의 통신)의 조합이 때때로 V2X(Vehicle-to-Everything) 통신이라고 지칭된다. V2X 통신은 전형적으로, 자율 주행 차량들과의 통신 및 자율 주행 차량들 간의 통신을 위한 하나 이상의 통신 표준을 준수한다.

일 실시예에서, 통신 디바이스들(140)은 통신 인터페이스들을 포함한다. 예를 들어, 유선, 무선, WiMAX, Wi-Fi, 블루투스, 위성, 셀룰러, 광학, 근거리(near field), 적외선, 또는 무선(radio) 인터페이스들. 통신 인터페이스들은 원격에 위치하는 데이터베이스(134)로부터 AV 시스템(120)으로 데이터를 송신한다. 일 실시예에서, 원격에 위치하는 데이터베이스(134)는 도 2에 기술된 바와 같은 클라우드 컴퓨팅 환경(200)에 내장되어 있다. 통신 인터페이스들(140)은 센서들(121)로부터 수집되는 데이터 또는 AV(100)의 작동에 관련된 다른 데이터를 원격에 위치하는 데이터베이스(134)로 송신한다. 일 실시예에서, 통신 인터페이스들(140)은 텔레오퍼레이션(teleoperation)에 관련되는 정보를 AV(100)로 송신한다. 일부 실시예들에서, AV(100)는 다른 원격(예를 들면, "클라우드") 서버들(136)과 통신한다.

일 실시예에서, 원격에 위치하는 데이터베이스(134)는 또한 디지털 데이터를 저장 및 송신한다(예를 들면, 도로 및 거리 위치들과 같은 데이터를 저장함). 그러한 데이터는 AV(100) 상의 메모리(144)에 저장되거나, 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 AV(100)로 송신된다.

일 실시예에서, 원격에 위치하는 데이터베이스(134)는 유사한 하루 중 시간(time of day)에 궤적(198)을 따라 이전에 주행했던 차량들의 운전 속성들(예를 들면, 속력 프로필 및 가속도 프로필)에 관한 과거 정보를 저장 및 송신한다. 일 구현예에서, 그러한 데이터는 AV(100) 상의 메모리(144)에 저장될 수 있거나, 또는 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 AV(100)로 송신될 수 있다.

AV(100) 상에 위치하는 컴퓨팅 디바이스들(146)은 실시간 센서 데이터 및 사전 정보(prior information) 둘 모두에 기초하여 제어 행동들을 알고리즘적으로 생성하여, AV 시스템(120)이 그의 자율 주행 운전 능력을 실행할 수 있게 한다.

일 실시예에서, AV 시스템(120)은 AV(100)의 사용자(예를 들면, 탑승자 또는 원격 사용자)에게 정보 및 경고들을 제공하고 그로부터 입력을 수신하기 위한, 컴퓨팅 디바이스들(146)에 결합된 컴퓨터 주변기기들(132)을 포함한다. 일 실시예에서, 주변기기들(132)은 도 3을 참조하여 아래에서 논의되는 디스플레이(312), 입력 디바이스(314), 및 커서 컨트롤러(316)와 유사하다. 결합은 무선 또는 유선이다. 인터페이스 디바이스들 중 임의의 둘 이상이 단일 디바이스에 통합될 수 있다.

예시적인 클라우드 컴퓨팅 환경

도 2는 예시적인 "클라우드" 컴퓨팅 환경을 예시한다. 클라우드 컴퓨팅은 구성 가능한 컴퓨팅 리소스들(예를 들면, 네트워크들, 네트워크 대역폭, 서버들, 프로세싱, 메모리, 스토리지, 애플리케이션들, 가상 머신들, 및 서비스들)의 공유 풀에 대한 편리한 온 디맨드 네트워크 액세스를 가능하게 하기 위한 서비스 전달(service delivery)의 일 모델이다. 전형적인 클라우드 컴퓨팅 시스템들에서는, 하나 이상의 대규모 클라우드 데이터 센터가 클라우드에 의해 제공되는 서비스들을 전달하는 데 사용되는 머신들을 수용한다. 이제 도 2를 참조하면, 클라우드 컴퓨팅 환경(200)은 클라우드(202)를 통해 상호연결되는 클라우드 데이터 센터들(204a, 204b 및 204c)을 포함한다. 데이터 센터들(204a, 204b 및 204c)은 클라우드 컴퓨팅 서비스들을 클라우드(202)에 연결된 컴퓨터 시스템들(206a, 206b, 206c, 206d, 206e 및 206f)에 제공한다.

클라우드 컴퓨팅 환경(200)은 하나 이상의 클라우드 데이터 센터를 포함한다. 일반적으로, 클라우드 데이터 센터, 예를 들어, 도 2에 도시된 클라우드 데이터 센터(204a)는 클라우드, 예를 들어, 도 2에 도시된 클라우드(202) 또는 클라우드의 특정 부분을 구성하는 서버들의 물리적 배열을 지칭한다. 예를 들어, 서버들은 클라우드 데이터 센터 내에 룸, 그룹, 로우(row), 및 랙(rack)으로 물리적으로 배열된다. 클라우드 데이터 센터는 하나 이상의 서버 룸을 포함하는 하나 이상의 구역(zone)을 갖는다. 각각의 룸은 하나 이상의 서버 로우를 가지며, 각각의 로우는 하나 이상의 랙을 포함한다. 각각의 랙은 하나 이상의 개별 서버 노드를 포함한다. 어떤 구현예에서, 구역, 룸, 랙, 및/또는 로우 내의 서버들은, 전력 요구사항, 에너지 요구사항, 열적 요구사항, 가열 요구사항, 및/또는 다른 요구사항들을 포함하는, 데이터 센터 설비의 물리적 인프라스트럭처 요구사항들에 기초하여 그룹들로 배열된다. 일 실시예에서, 서버 노드들은 도 3에서 기술된 컴퓨터 시스템과 유사하다. 데이터 센터(204a)는 많은 랙들을 통해 분산된 많은 컴퓨팅 시스템들을 갖는다.

클라우드(202)는 클라우드 데이터 센터들(204a, 204b, 및 204c)을 상호연결시키고 클라우드 컴퓨팅 서비스들에 대한 컴퓨팅 시스템들(206a 내지 206f)의 액세스를 용이하게 하는 것을 돕는 네트워크 및 네트워킹 리소스들(예를 들어, 네트워킹 장비, 노드들, 라우터들, 스위치들, 및 네트워킹 케이블들)과 함께 클라우드 데이터 센터들(204a, 204b 및 204c)을 포함한다. 일 실시예에서, 네트워크는 지상 또는 위성 연결들을 사용하여 배포된 유선 또는 무선 링크들을 사용하여 결합되는 하나 이상의 로컬 네트워크, 광역 네트워크, 또는 인터네트워크의 임의의 조합을 나타낸다. 네트워크를 통해 교환되는 데이터는, IP(Internet Protocol), MPLS(Multiprotocol Label Switching), ATM(Asynchronous Transfer Mode), 및 프레임 릴레이 등과 같은, 임의의 수의 네트워크 계층 프로토콜들을 사용하여 전송된다. 게다가, 네트워크가 다수의 서브 네트워크들의 조합을 나타내는 실시예들에서, 기저 서브 네트워크들(underlying sub-networks) 각각에서 상이한 네트워크 계층 프로토콜들이 사용된다. 일부 실시예들에서, 네트워크는, 공중 인터넷과 같은, 하나 이상의 상호연결된 인터네트워크를 나타낸다.

컴퓨팅 시스템들(206a 내지 206f) 또는 클라우드 컴퓨팅 서비스 소비자들은 네트워크 링크들 및 네트워크 어댑터들을 통해 클라우드(202)에 연결된다. 일 실시예에서, 컴퓨팅 시스템들(206a 내지 206f)은 다양한 컴퓨팅 디바이스들, 예를 들어, 서버, 데스크톱, 랩톱, 태블릿, 스마트폰, IoT(Internet of Things) 디바이스, 자율 주행 차량(자동차, 드론, 셔틀, 기차, 버스 등을 포함함) 및 소비자 전자기기로서 구현된다. 일 실시예에서, 컴퓨팅 시스템들(206a 내지 206f)은 다른 시스템들 내에 또는 그 일부로서 구현된다.

컴퓨터 시스템

도 3은 컴퓨터 시스템(300)을 예시한다. 일 구현예에서, 컴퓨터 시스템(300)은 특수 목적 컴퓨팅 디바이스이다. 특수 목적 컴퓨팅 디바이스는 기술들을 수행하도록 고정 배선(hard-wired)되거나, 또는 기술들을 수행하도록 영속적으로 프로그래밍되어 있는 하나 이상의 ASIC(application-specific integrated circuit) 또는 FPGA(field programmable gate array)와 같은 디지털 전자 디바이스들을 포함하거나, 또는 펌웨어, 메모리, 다른 스토리지 또는 그 조합 내의 프로그램 명령어들에 따라 기술들을 수행하도록 프로그래밍되어 있는 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 그러한 특수 목적 컴퓨팅 디바이스들은 또한 커스텀 고정 배선 로직, ASIC들, 또는 FPGA들을 커스텀 프로그래밍과 조합하여 기술들을 달성할 수 있다. 다양한 실시예들에서, 특수 목적 컴퓨팅 디바이스들은 기술들을 구현하기 위한 고정 배선 및/또는 프로그램 로직을 포함하는 데스크톱 컴퓨터 시스템들, 휴대용 컴퓨터 시스템들, 핸드헬드 디바이스들, 네트워크 디바이스들, 또는 임의의 다른 디바이스이다.

일 실시예에서, 컴퓨터 시스템(300)은 정보를 통신하기 위한 버스(302) 또는 다른 통신 메커니즘, 및 정보를 프로세싱하기 위한, 버스(302)와 결합된 하드웨어 프로세서(304)를 포함한다. 하드웨어 프로세서(304)는, 예를 들어, 범용 마이크로프로세서이다. 컴퓨터 시스템(300)은 프로세서(304)에 의해 실행될 명령어들 및 정보를 저장하기 위한, 버스(302)에 결합된 메인 메모리(306), 예컨대, RAM(random access memory) 또는 다른 동적 저장 디바이스를 또한 포함한다. 일 구현예에서, 메인 메모리(306)는 프로세서(304)에 의해 실행될 명령어들의 실행 동안 임시 변수들 또는 다른 중간 정보를 저장하는 데 사용된다. 그러한 명령어들은, 프로세서(304)에 의해 액세스 가능한 비일시적 저장 매체에 저장되어 있을 때, 컴퓨터 시스템(300)을 명령어들에 지정된 동작들을 수행하도록 커스터마이징되는 특수 목적 머신으로 만든다.

일 실시예에서, 컴퓨터 시스템(300)은, 프로세서(304)에 대한 명령어들 및 정적 정보를 저장하기 위한, 버스(302)에 결합된 ROM(read only memory)(308) 또는 다른 정적 저장 디바이스를 더 포함한다. 정보 및 명령어들을 저장하기 위한, 자기 디스크, 광학 디스크, 솔리드 스테이트 드라이브, 또는 3차원 크로스 포인트 메모리와 같은, 저장 디바이스(310)가 제공되고 버스(302)에 결합된다.

일 실시예에서, 컴퓨터 시스템(300)은 정보를 컴퓨터 사용자에게 디스플레이하기 위한 CRT(cathode ray tube), LCD(liquid crystal display), 플라스마 디스플레이, LED(light emitting diode) 디스플레이, 또는 OLED(organic light emitting diode) 디스플레이와 같은 디스플레이(312)에 버스(302)를 통해 결합된다. 정보 및 커맨드 선택들을 프로세서(304)로 전달하기 위한 영숫자 키 및 다른 키를 포함하는 입력 디바이스(314)가 버스(302)에 결합된다. 다른 유형의 사용자 입력 디바이스는 방향 정보 및 커맨드 선택들을 프로세서(304)에 전달하고 디스플레이(312) 상에서의 커서 움직임을 제어하기 위한, 마우스, 트랙볼, 터치식 디스플레이, 또는 커서 방향 키들과 같은, 커서 컨트롤러(316)이다. 이러한 입력 디바이스는 전형적으로, 디바이스가 평면에서의 위치들을 지정할 수 있게 하는 2 개의 축, 즉 제1 축(예를 들면, x 축) 및 제2 축(예를 들면, y 축)에서의 2 자유도를 갖는다.

일 실시예에 따르면, 본원에서의 기술들은 프로세서(304)가 메인 메모리(306)에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 것에 응답하여 컴퓨터 시스템(300)에 의해 수행된다. 그러한 명령어들은, 저장 디바이스(310)와 같은, 다른 저장 매체로부터 메인 메모리(306) 내로 판독된다. 메인 메모리(306)에 포함된 명령어 시퀀스들의 실행은 프로세서(304)로 하여금 본원에 기술된 프로세스 단계들을 수행하게 한다. 대안적인 실시예들에서, 소프트웨어 명령어들 대신에 또는 소프트웨어 명령어들과 조합하여 고정 배선 회로가 사용된다.

"저장 매체"라는 용어는, 본원에서 사용되는 바와 같이, 머신으로 하여금 특정 방식으로 작동하게 하는 명령어들 및/또는 데이터를 저장하는 임의의 비일시적 매체를 지칭한다. 그러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함한다. 비휘발성 매체는, 예를 들어, 광학 디스크, 자기 디스크, 솔리드 스테이트 드라이브, 또는 3차원 크로스 포인트 메모리, 예컨대, 저장 디바이스(310)를 포함한다. 휘발성 매체는 동적 메모리, 예컨대, 메인 메모리(306)를 포함한다. 통상적인 형태의 저장 매체는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드 스테이트 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광학 데이터 저장 매체, 홀 패턴들을 갖는 임의의 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, NV-RAM, 또는 임의의 다른 메모리 칩, 또는 카트리지를 포함한다.

저장 매체는 송신 매체와 별개이지만 송신 매체와 함께 사용될 수 있다. 송신 매체는 저장 매체들 사이에서 정보를 전달하는 데 참여한다. 예를 들어, 송신 매체는 버스(302)를 포함하는 전선들을 포함하여, 동축 케이블, 구리선 및 광섬유를 포함한다. 송신 매체는 또한, 전파(radio-wave) 및 적외선 데이터 통신 동안 생성되는 것과 같은, 광파 또는 음향파의 형태를 취할 수 있다.

일 실시예에서, 실행을 위해 하나 이상의 명령어의 하나 이상의 시퀀스를 프로세서(304)로 전달하는 데 다양한 형태의 매체가 관여된다. 예를 들어, 명령어들은 초기에 원격 컴퓨터의 자기 디스크 또는 솔리드 스테이트 드라이브에 보유된다. 원격 컴퓨터는 자신의 동적 메모리에 명령어들을 로드하고 모뎀을 사용하여 전화선을 통해 명령어들을 전송한다. 컴퓨터 시스템(300)에 로컬인 모뎀은 전화선을 통해 데이터를 수신하고 적외선 송신기를 사용하여 데이터를 적외선 신호로 변환한다. 적외선 검출기는 적외선 신호로 전달되는 데이터를 수신하고 적절한 회로는 데이터를 버스(302)에 배치한다. 버스(302)는 데이터를 메인 메모리(306)로 전달하고, 프로세서(304)는 메인 메모리로부터 명령어들을 검색하여 실행한다. 메인 메모리(306)에 의해 수신되는 명령어들은 프로세서(304)에 의해 실행되기 전이나 실행된 후에 선택적으로 저장 디바이스(310)에 저장될 수 있다.

컴퓨터 시스템(300)은 버스(302)에 결합된 통신 인터페이스(318)를 또한 포함한다. 통신 인터페이스(318)는 로컬 네트워크(322)에 연결되는 네트워크 링크(320)에 대한 양방향 데이터 통신(two-way data communication) 결합을 제공한다. 예를 들어, 통신 인터페이스(318)는 ISDN(integrated service digital network) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 유형의 전화선에 대한 데이터 통신 연결을 제공하는 모뎀이다. 다른 예로서, 통신 인터페이스(318)는 호환 가능한 LAN(local area network)에 대한 데이터 통신 연결을 제공하기 위한 LAN 카드이다. 일부 구현예들에서, 무선 링크들이 또한 구현된다. 임의의 그러한 구현예에서, 통신 인터페이스(318)는 다양한 유형의 정보를 나타내는 디지털 데이터 스트림을 전달하는 전기 신호, 전자기 신호, 또는 광학 신호를 전송 및 수신한다.

네트워크 링크(320)는 전형적으로 하나 이상의 네트워크를 통한 다른 데이터 디바이스들로의 데이터 통신을 제공한다. 예를 들어, 네트워크 링크(320)는 로컬 네트워크(322)를 통해 호스트 컴퓨터(324)에 대한 연결 또는 ISP(Internet Service Provider)(326)에 의해 운영되는 클라우드 데이터 센터 또는 장비에 대한 연결을 제공한다. ISP(326)는 차례로 지금은 "인터넷(328)"이라고 통상적으로 지칭되는 월드 와이드 패킷 데이터 통신 네트워크(world-wide packet data communication network)를 통해 데이터 통신 서비스들을 제공한다. 로컬 네트워크(322) 및 인터넷(328)는 둘 모두 디지털 데이터 스트림들을 전달하는 전기 신호, 전자기 신호, 또는 광학 신호를 사용한다. 컴퓨터 시스템(300)으로 그리고 컴퓨터 시스템(300)으로부터 디지털 데이터를 전달하는, 다양한 네트워크들을 통한 신호들 및 통신 인터페이스(318)를 통한 네트워크 링크(320) 상의 신호들은 송신 매체의 예시적인 형태들이다. 일 실시예에서, 네트워크(320)는 위에서 기술된 클라우드(202) 또는 클라우드(202)의 일부를 포함한다.

컴퓨터 시스템(300)은 네트워크(들), 네트워크 링크(320), 및 통신 인터페이스(318)를 통해 메시지들을 전송하고, 프로그램 코드를 포함한, 데이터를 수신한다. 일 실시예에서, 컴퓨터 시스템(300)은 프로세싱하기 위한 코드를 수신한다. 수신된 코드는 수신될 때 프로세서(304)에 의해 실행되고/되거나 추후 실행을 위해 저장 디바이스(310) 또는 다른 비휘발성 스토리지에 저장된다.

자율 주행 차량 아키텍처

도 4는 자율 주행 차량(예를 들면, 도 1에 도시된 AV(100))에 대한 예시적인 아키텍처(400)를 도시한다. 아키텍처(400)는 인지 시스템(402)(때때로 인지 회로라고 지칭됨), 계획 시스템(404)(때때로 계획 회로라고 지칭됨), 제어 시스템(406)(때때로 제어 회로라고 지칭됨), 로컬화 시스템(408)(때때로 로컬화 회로라고 지칭됨), 및 데이터베이스 시스템(410)(때때로 데이터베이스 회로라고 지칭됨)을 포함한다. 각각의 시스템은 AV(100)의 작동에서 소정의 역할을 한다. 다함께, 시스템들(402, 404, 406, 408, 및 410)은 도 1에 도시된 AV 시스템(120)의 일부일 수 있다. 일부 실시예들에서, 시스템들(402, 404, 406, 408, 및 410) 중 임의의 시스템은 컴퓨터 소프트웨어(예를 들면, 컴퓨터 판독 가능 매체 상에 저장된 실행 가능 코드) 및 컴퓨터 하드웨어(예를 들면, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, ASIC(application-specific integrated circuit), 하드웨어 메모리 디바이스, 다른 유형의 집적 회로, 다른 유형의 컴퓨터 하드웨어, 또는 이러한 것들 중 일부 또는 전부의 조합)의 조합이다.

사용 중에, 계획 시스템(404)은 목적지(412)를 나타내는 데이터를 수신하고 목적지(412)에 도달(예를 들면, 도착)하기 위해 AV(100)에 의해 주행될 수 있는 궤적(414)(때때로 루트라고 지칭됨)을 나타내는 데이터를 결정한다. 계획 시스템(404)이 궤적(414)을 나타내는 데이터를 결정하기 위해, 계획 시스템(404)은 인지 시스템(402), 로컬화 시스템(408), 및 데이터베이스 시스템(410)으로부터 데이터를 수신한다.

인지 시스템(402)은, 예를 들면, 도 1에 또한 도시된 바와 같이, 하나 이상의 센서(121)를 사용하여 인근의 물리적 대상체를 식별한다. 대상체들은 분류되고(예를 들면, 보행자, 자전거, 자동차, 교통 표지판 등과 같은 유형으로 그룹화되고), 분류된 대상체들(416)을 포함하는 장면 묘사는 계획 시스템(404)에 제공된다.

계획 시스템(404)은 또한 로컬화 시스템(408)으로부터 AV 위치(418)를 나타내는 데이터를 수신한다. 로컬화 시스템(408)은 위치를 계산하기 위해 센서들(121)로부터의 데이터 및 데이터베이스 시스템(410)으로부터의 데이터(예를 들면, 지리적 데이터)를 사용하여 AV 위치를 결정한다. 예를 들어, 로컬화 시스템(408)은 GNSS 수신기로부터의 데이터 및 지리적 데이터를 사용하여 AV의 경도 및 위도를 계산한다. 일 실시예에서, 로컬화 시스템(408)에 의해 사용되는 데이터는 도로 기하학적 속성들의 고정밀 맵, 도로 네트워크 연결 속성들을 기술하는 맵, 도로 물리적 속성들(예컨대, 교통 속력, 교통량, 차량 교통 차선과 자전거 타는 사람 교통 차선의 수, 차선 폭, 차선 교통 방향, 또는 차선 마커 유형 및 위치, 또는 그 조합)을 기술하는 맵, 및 도로 특징물들, 예컨대, 횡단보도, 교통 표지판 또는 다양한 유형의 다른 주행 신호(travel signal)의 공간적 위치들을 기술하는 맵을 포함한다. 전형적으로, 고정밀 맵은 수작업으로 주석이 달리며, 이는 노동 집약적 프로세스이다. 노동량을 감소시키기 위해, 도 5를 참조하여 기술된 바와 같이, ML 기반 프레임워크를 사용하여 맵들에 주석이 달릴 수 있다.

제어 시스템(406)은 궤적(414)을 나타내는 데이터 및 AV 위치(418)를 나타내는 데이터를 수신하고, AV(100)로 하여금 목적지(412)까지 궤적(414)을 주행하게 할 방식으로 AV의 제어 기능들(420a 내지 420c)(예를 들면, 조향, 스로틀링, 제동, 점화)을 작동시킨다. 예를 들어, 궤적(414)이 좌회전을 포함하는 경우, 제어 시스템(406)은, 조향 기능의 조향각이 AV(100)로 하여금 좌회전하게 하고 스로틀링 및 제동이 AV(100)로 하여금 해당 회전이 이루어지기 전에 지나가는 보행자들 또는 차량들을 위해 일시정지 및 대기하게 하는 방식으로, 제어 기능들(420a 내지 420c)을 작동시킬 것이다.

운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크

도 5는 하나 이상의 실시예에 따른, 이미지 영역(500)의 수작업으로 주석이 달린 시맨틱 맵 계층들의 예시적인 조감도(BEV)이다.

인지 시스템(예를 들면, 인지 시스템(402))으로부터 생성되는 시맨틱 정보(예를 들면, 환경에 있는 적어도 하나의 대상체의 표면들에 관한 정보 등)에 더하여, AV(100)는 도로들을 안전하고 효율적으로 횡단하기 위해 수작업으로 주석이 달린 시맨틱 계층들에 의존한다. 시맨틱 맵 계층들은 대략적인 정보(예를 들면, 운전 가능 영역들) 및/또는 세분화된 정보(예를 들면, 횡단보도들, 보도들, 차량 주차 구역들)를 나타내는 도로 마킹들과 연관된 계층들을 포함할 수 있다. 도시된 예에서, 도로 분리대(road divider)(501), 차선 분리대(lane divider)(502), 차선 커넥터(lane connector)(503), 차선들(504), 교차로(505) 및 차선 그룹(506)에 대한 수작업 주석들이 도시되어 있다.

도 5에 도시된 맵과 같은, 고화질(HD) 맵 계층의 수작업 주석 달기는 개인에 의해 소비되는 상당한 양 시간 및 재정적 자원을 필요로 한다. 예를 들어, 수작업 주석 달기만을 사용하면, 이용 가능한 주석 작성자들의 수에 따라 주당 몇 마일에 주석을 달 수 있다. 아래에서 더욱 상세히 기술되는 바와 같이, HD 맵에 대응하는 시맨틱 계층들(예를 들면, 대상체들 및/또는 다른 대상체들의 연관)에 관한 예측들을 생성하기 위해 ML 모델(또는 ML 모델들의 네트워크)을 트레이닝시키는 데 이미지 분할 네트워크(2D 콘볼루션 네트워크) 및 기존의 수작업으로 주석이 달린 시맨틱 계층들을 활용하는 ML 기반 솔루션이 기술된다. HD 맵은 이어서 ML 모델 또는 ML 모델들의 네트워크가 시맨틱 계층들에 관한 예측들을 생성하는 것에 기초하여(예를 들면, 그 이후에) 인간 주석 작성자들에 의해 주석이 달릴 수 있다. ML 모델들을 사용하여 수작업 주석 달기 프로세스를 지원하는 것에 의해, HD 맵에 완전히 주석을 달기 위해 개인이 필요로 하는 주석들의 양이 감소될 수 있으며, 이에 의해 전체적으로 주석 달기 속도를 증가시킬 수 있다.

도 6은 하나 이상의 실시예에 따른, 시맨틱 맵 계층들에 주석을 달기 위한 ML 지원 주석 달기 사이클(600)을 예시하는 개념 다이어그램이다. 실시예에서, 원시 센서 데이터(예를 들면, LiDAR 포인트 클라우드들, 카메라 이미지들)로부터 라벨링되지 않은 관심 대상체들(601)을 선택하는 데 능동 학습(602)(또는 다른 자동 트레이닝 데이터 선택 프로세스)이 사용된다. 라벨링되지 않은 관심 대상체들(601)은 인간 주석 작성자들에 의해 수작업으로 주석이 달리고(603)(라벨링되고) 관심 대상체들에 대한 라벨들을 예측하도록 ML 모델(604)을 트레이닝시키기 위한 트레이닝 데이터로서 사용된다. 이 예에서, 2 개의 라벨, 즉 라벨 A 및 라벨 B가 있다. 트레이닝된 ML 모델(604)은 이어서 원시 센서 데이터로부터 관심 대상체들(601)에 대한 라벨들을 예측하는 데 사용하기 위해 ML 지원 주석 달기 사이클에 배포(605)되고, 따라서 ML 지원 주석 달기 사이클(600)을 완료한다. 일 실시예에서, 기존의 ML 모델은 트레이닝(예를 들면, 전이 학습(606))을 위한 시작점으로서 사용될 수 있다.

도 7a 및 도 7b는 하나 이상의 실시예에 따른, 운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크(700)를 예시하는 개념 다이어그램들이다. ML 기반 프레임워크(700)는 정확하게 로컬화된 멀티 모달 HD 맵 모델들(701)에 대해 ML을 사용한다. HD 맵 맵 모델들(701)의 일부 예들은 강도 맵, 점유 맵, 텍스처 맵(노멀 맵(normals map)), 색상 맵, 및 차량에 장착된 하나 이상의 카메라로부터의 카메라 이미지들을 사용하여 트레이닝되는 LiDAR 분할 네트워크(LSN) 및/또는 2D 콘볼루션 네트워크의 예측된 출력 맵을 포함하지만 이에 제한되지 않는다. 이러한 멀티모달 HD 맵 모델들(701)은 이미지 분할 네트워크(702)에 입력된다. 일 실시예에서, 네트워크(702)는 추가적인 카테고리/라벨 정보(예를 들면, 차선, 교차로, 보행자, 보도, 차량 주차 구역)를 갖는 운전 가능 표면 마스크들을 예측하도록 트레이닝된 딥 러닝 기반 모델이다. 일부 구현예들에서, HD 맵 모델들(701)은 SLAM(simultaneous localization and mapping) 엔진을 사용하여 생성된다.

색상 맵

일 실시예에서, AV(100)는 환경의 상이한 동태를 포착할 수 있는 카메라들을 장비하고 있다. LiDAR에 의해 캡처되는 모든 대상체/지점/랜드마크에 대해, 해당 대상체/지점/랜드마크와 카메라 센서 상의 지점 사이에 매핑이 있다. 따라서, 카메라 센서로부터 획득되는 색상 픽셀 값을 LIDAR 포인트에 상호 참조시키는 것에 의해 해당 지점에 대한 색상 정보가 획득될 수 있다. 즉, 위에서 "색상 맵"이라고 지칭된, 스캔된 컬러 포인트 클라우드의 조감도 래스터 임베딩이 생성될 수 있다.

노멀 맵

노멀 맵은 지점과 연관된 평면의 배향(x, y 또는 z 방향)을 캡처한다. 일 실시예에서, 이웃 포인트들은 평면의 배향을 근사화하는 데 사용된다.

실시간 시스템으로부터 획득되는 분할 래스터

일 실시예에서, 카메라 시스템에 적용되는 동일한 논리가 실시간 시스템으로부터 획득되는 분할 래스터에 적용될 수 있으며, 여기서 카메라 픽셀들과 LiDAR 포인트들 사이에 대응 관계가 있다. 이 경우에, 색상 정보는, 이미지 분할 네트워크와 같은, 실시간 시스템으로부터 획득되는 시맨틱 라벨들로 대체된다. 시맨틱 라벨들은 LiDAR 스캔에 다시 매핑되고, LiDAR 스캔의 조감도가 래스터화된다.

일 실시예에서, 샘플 생성 프레임워크(704)는 2D 콘볼루션 네트워크(702)에 대한 트레이닝 데이터로서 사용될 복수의 상이한 HD 맵 모델들(701)로부터 샘플들(705)("패치들"이라고도 지칭됨)을 추출한다. 샘플들(705)은 HD 맵 모델들의 상이한 버전들에 대해 확장 가능한 HD 맵 모델 데이터(예를 들면, 이진 데이터)에 직접 액세스(예를 들면, 구독)하는 온라인 데이터 로더(online data loader)에 의해 트레이닝 동안 온 디맨드로 추출될 수 있다. 온라인 데이터 로더가 트레이닝 동안 HD 맵 모델들에 직접 액세스/구독할 수 있게 하는 것에 의해, 샘플들이 오프라인으로 추출된 경우보다 데이터 세트 준비에 더 적은 단계들이 필요하다. 더욱이, 트레이닝 이미지들의 변동성을 증가시키기 위해 매 트레이닝 반복마다 상이한 샘플들이 추출될 수 있다.

위에서 언급된 바와 같이, 추출된 샘플들은, 차선, 교차로, 주차장, 횡단보도, 보도 등과 같은, 추가적인 정보 카테고리들/라벨들을 갖는 주석이 달린 운전 가능한 표면을 예측하기 위해 2D 콘볼루션 네트워크(702)에 입력된다. 2D 콘볼루션 네트워크(702)는 임의의 원하는 손실 함수(706)를 사용하여 트레이닝될 수 있다. 일 실시예에서, 2D 콘볼루션 네트워크(702)는 수정된 U-Net 모델을 사용하여 구현되고, 손실 함수(706)는 교차 엔트로피와 다이스 손실의 결합이다. 2D 콘볼루션 네트워크(702)의 트레이닝은 손실 함수(706)를 사용하여 손실을 계산함으로써 2D 콘볼루션 네트워크(702)의 출력을 실측 자료 주석 계층들과 비교하는 것 및 신경 네트워크 역전파 기술들을 사용하여 손실에 기초하여 2D 콘볼루션 네트워크(702)의 파라미터들(예를 들면, 가중치들 및 편향들)을 업데이트는 것에 의해 수행될 수 있다.

일 실시예에서, 각각의 HD 맵 모델(701)에 대해, HD 맵 모델(701)에서의 맵 영역은 2D 콘볼루션 네트워크(702)에 대한 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 분할된다. 트레이닝 데이터의 변동성을 증가시키기 위해, 샘플 생성 프레임워크(704)에 의해 트레이닝 동안 온라인으로 샘플링 영역들로부터 샘플들이 랜덤하게 추출된다. 트레이닝 데이터 세트와 테스트 데이터 세트 사이의 시맨틱 맵 계층들(예를 들면, 도로 마킹들)의 등분 비례를 보장하기 위해, HD 맵 모델들(701)을 트레이닝 및 테스트 데이터 세트들로 분할하는 것은 트리 데이터 구조 또는 다른 적합한 데이터 구조를 사용하여 자동화된다.

일 실시예에서, 쿼드트리 알고리즘은 이미지 영역에서의 도로 랜드마크들의 위치들을 효율적으로 저장하기 위해 사용된다. 쿼드트리의 각각의 노드는 최대 4 개의 자식을 갖는다. 쿼드트리 알고리즘은 특정 도로 랜드마크의 인스턴스가 두 번 이상 존재할 때 자식 노드들에 대한 분할 기준이 충족되는 이미지 영역에 대해 구현된다. 일 실시예에서, 쿼드트리 알고리즘은 다음과 같이 각각의 2차원(2D) 이미지 영역에 대해 구현될 수 있다: 1) 2D 이미지 영역을 4 개의 상자로 나눈다; 2) 상자가 하나 이상의 도로 랜드마크를 포함하는 경우, 상자에 대한 자식 노드를 생성하고 이를 상자의 2D 공간에 저장한다. 3) 상자가 어떠한 도로 랜드마크들도 포함하지 않는 경우, 상자에 대한 자식 노드를 생성하지 않는다; 4) 자식 노드들 각각에 대해 반복한다. 일 실시예에서, 교차로 수가 분할 기준으로서 사용될 수 있다. 그렇지만, 확률 히트맵(probability heatmap)을 사용하는 운전 가능한 표면의 총 면적에 기초한 랜덤 패치 샘플링과 같은, 임의의 적합한 분할 기준이 또한 사용될 수 있다.

일 실시예에서, 2D 콘볼루션 네트워크(702)는 수정된 U-Net 모델을 사용하여 구현된다. U-Net 모델은, 그 전체가 본원에 참고로 포함되는, 예를 들어, “Long, J.; Shelhamer, E.; Darrell, T. (2014). “Fully convolutional networks for semantic segmentation.” IEEE Transactions on Pattern Analysis and Machine Intelligence.　39　(4): 640-651.　arXiv:1411.4038에 기술되어 있다. U-Net은 수축 경로와 확장 경로를 포함한다. 수축 경로는 기본 콘볼루션 블록들 - 각각에 이어서 ReLU(rectified linear unit) 및 맥스 풀링 연산이 뒤따름 - 을 사용하는 콘볼루션들의 반복적인 적용을 포함하는 종래의 콘볼루션 신경 네트워크(CNN)이다. 수축 경로에서, 공간 정보는 감소되는 반면 특징 정보는 증가된다. 확장 경로에서, 특징 및 공간 정보는 일련의 업 콘볼루션(up-convolution) 및 연결을 통해 수축 경로로부터의 고해상도 특징들과 결합된다.

일 실시예에서, 종래의 U-Net 모델은, 그 전체가 본원에 참고로 포함되는, 예를 들어, He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016).　“Deep Residual Learning for Image Recognition.” Proc. Computer Vision and Pattern Recognition (CVPR), IEEE에 기술된 바와 같이, U-Net 모델의 기본 콘볼루션 블록들을 ResNet 아키텍처에서 영감을 받은 잔여 블록들로 대체하는 것에 의해 수정된다.

다른 실시예에서, 종래의 U-Net 모델은, 그 전체가 본원에 참고로 포함되는, 예를 들어, Gao Huang; Zhuang Liu; Laurens van der Maaten; Kilian Q. Weinberger. “Densely Connected Convolutional Networks.” arXiv:1608.06993　[cs.CV]에 기술된 바와 같이, U-Net 모델의 기본 콘볼루션 블록들을 DenseNet 아키텍처들에서 영감을 받은 밀집 블록들로 대체하는 것에 의해 수정된다.

수축 경로로부터 획득되는 특징들은 U-Net의 확장 경로에서 재사용된다. 확장 경로는 채널 수를 감소시키면서 동일한 출력 차원을 유지하는 기본 콘볼루션 블록들을 포함하고, 그 사이의 블록들을 업샘플링하는 것이 수반되는데, 이 업샘플링은 증가된 특징 맵 공간 차원 및 감소된 채널 수를 달성한다.

도 8은 하나 이상의 실시예에 따른, U-Net ML 모델의 기본 콘볼루션 블록들이 잔여 블록들 및/또는 밀집 블록들로 대체되는 수정된 2D 콘볼루션 네트워크(800)의 개념 다이어그램이다. 일 실시예에서, 수정된 2D 콘볼루션 네트워크(800)는 수축 경로(801) 및 확장 경로(802)를 포함한다. 블록들(803)은 특징 맵들을 나타내고, 라인들(805)은 시작 시스템(809), 잔여 블록들(810) 또는 밀집 블록들(811) 중 하나 이상으로 대체될 기본 콘볼루션 블록들을 나타내며, 라인들(804)은 다운샘플링 블록들을 나타내고, 라인들(807)은 업샘플링 블록들을 나타내며, 라인들(806)은 스킵 연결들을 나타낸다. 명확성을 위해 특징 맵들, 기본 블록들, 다운샘플링 블록들, 스킵 연결들 및 업샘플링 블록들의 단일 인스턴스에 숫자 명칭으로 라벨링되어 있음에 유의한다. 제공된 범례는 또한 수정된 2D 콘볼루션 네트워크(800)에서의 이러한 블록들의 각각의 인스턴스의 위치들을 보여준다.

일 실시예에서, 시작 시스템(809)은 이전 계층으로부터 공급되는 다수의 프로세싱 경로들을 포함한다. 각각의 경로 피드의 출력은 연결 필터(concatenation filter)를 사용하여 연결된다. 도시된 예에서, 제1 프로세싱 경로는 1x1 콘볼루션 블록을 포함하고, 제2 프로세싱 경로는 1x1 콘볼루션 블록과 뒤이어 3x3 콘볼루션 블록을 포함하며, 제3 프로세싱 경로는 1x1 콘볼루션 블록과 뒤이어 5x5 콘볼루션 블록을 포함하고, 제4 프로세싱 경로는 3x3 콘볼루션 블록과 뒤이어 1x1 콘볼루션 블록을 포함한다.

대부분의 최첨단 이미지 인식 백본들은 특정 패턴을 따르며, 여기서 교호하는 다운샘플링 콘볼루션과 기본 콘볼루션 연산이 이미지 및 대응하는 특징 맵들에 적용된다. 기본 콘볼루션 블록들(805)은 전체에 걸쳐 특징 맵들(803)의 동일한 차원을 유지한다. 수축 경로(801)에서의 다운샘플링 콘볼루션은 감소된 특징 맵 공간 차원 및 증가된 채널 수를 달성한다. 이러한 연산들의 생성물은 스킵 연결들(806)의 출력인 상이한 스트라이드들에 걸친 다수의 특징 맵들(803)이다. 이것이 의미하는 바는 대부분의 백본들이 U-Net 모델의 수축 경로에 쉽게 사용 가능하다는 것이다. 그에 따라, U-Net 모델을 일련의 블록들로 보는 것에 의해, ResNet ML 모델들로부터의 잔여 블록들(810) 또는 DenseNet ML 모델들로부터의 밀집 블록들(811)은, 도 8에 도시된 바와 같이, U-Net 모델(800)의 기본 콘볼루션 블록들(805)을 대체할 수 있다.

도 9는 하나 이상의 실시예에 따른, ML 기반 시맨틱 맵 계층 주석 달기를 위한 앙상블 모델링(900)을 예시하는 개념 다이어그램이다. 다른 응용 분야들과 비교하여, 도 8을 참조하여 기술된 수정된 U-Net 모델(800)은 지연시간(latency)에 대해 더 높은 허용오차를 갖는다. 일 실시예에서, 2 개 이상의 상이한 백본 모델의 앙상블은 불확실성 정보를 생성하는 것과 함께 성능을 증가시키기 위해 사용될 수 있다. 도시된 예시적인 실시예에서, 단순 평균 연산(904)이 3 개의 ML 모델(901 내지 903)에 의해 출력되는 예측들에 걸쳐 수행된다. 앙상블 ML 모델들(901 내지 903)이, 특히 불확실성 정보를 제공하는 것에 의해, 능동 학습 태스크들에 대해 잘 작동한다는 점에 유의한다. 어느 맵 영역들이 수작업 주석 달기를 필요로 하는지를 정확히 찾아내기 위해 ML 지원 주석 달기 사이클에 대해 불확실성 정보가 사용될 수 있다. 강건한 불확실성 정보를 제공하는 것 외에도, 앙상블 ML 모델들(901 내지 903)은 또한 본질적으로 보다 나은 예측을 제공한다. 3 개의 ML 모델이 앙상블(900)에 도시되어 있지만, 앙상블(900)은 보다 많은 또는 보다 적은 ML 모델들을 포함할 수 있으며, 여기서 보다 많은 ML 모델은 보다 세분화된 예측을 생성한다.

앙상블 모델링(900)이 단일 모델보다 더 다양한 범위의 예측들을 제공하기 때문에 앙상블 ML 모델들(901 내지 903)에 의해 생성되는 불확실성 정보가 더 강건하다. 각각의 모델의 하이퍼파라미터들(예를 들면, 깊이 파라미터들)을 수정하는 것에 의해 예측들의 다양화가 달성될 수 있다. 일 실시예에서, 다양화는 수정된 U-Net 모델(800)에 상이한 콘볼루션 블록들을 가지는 것에 의해 달성된다. 이하의 도 10 내지 도 12는 다양한 U-Net 모델 변형들을 도시한다.

도 10은 하나 이상의 실시예에 따른, 하나의 블록 변형(1001)(예를 들면, 시작 시스템(809))이 2D 콘볼루션 네트워크(1000) 전체에 걸쳐 사용되는 캐스케이딩 콘볼루션 블록들을 사용하는 ML 기반 시맨틱 맵 계층 주석 달기를 위한 2D 콘볼루션 네트워크(1000)의 앙상블 모델링을 예시하는 개념 다이어그램이다.

도 11은 하나 이상의 실시예에 따른, 수축 및 확장 경로들에 대해, 제각기, 상이한 기본 콘볼루션 블록들(1101(예를 들면, 시작 시스템(809), 1102(예를 들면, 밀집 블록(811))을 보여주는 ML 기반 시맨틱 맵 계층 주석 달기를 위한 2D 콘볼루션 네트워크(1100)의 앙상블 모델링을 예시하는 개념 다이어그램이다.

도 12는 하나 이상의 실시예에 따른, 교호하는 기본 블록들(1201(예를 들면, 시작 시스템(809), 1202(예를 들면, 밀집 블록(811))을 보여주는 ML 기반 시맨틱 맵 계층 주석 달기를 위한 2D 콘볼루션 네트워크(1200)의 앙상블 모델링을 예시하는 개념 다이어그램이다.

도 13은 하나 이상의 실시예에 따른, 글로벌 대 로컬 모델 캐스케이딩을 예시하는 개념 다이어그램이다. 운전 가능한 영역과 상이하게, 교차로들은 완전히 상이한 도로 랜드마크이다. 이들은 전형적으로 맵 영역 전체에 걸쳐 드문드문 흩어져 있다. 따라서, 교차로들은 상이하게 취급될 필요가 있다.

일 실시예에서, 교차로 검출 파이프라인(1300)은 2 개의 스테이지, 즉 글로벌 검출 스테이지(1301)와 뒤이어 로컬 개선 스테이지(1302)로 나누어져 있다. 글로벌 검출 스테이지(1301)에서, 글로벌 모델(1303)(예를 들면, 분할 모델)은 맵 영역(1302)의 크기 조정된 버전을 입력으로 받아들인다. 글로벌 모델(1303)은 특정 교차점이 맵 영역(1302)에서 어디에 있는지를 대략적으로 찾아내려고 시도한다. 글로벌 모델(1303)의 출력은 경계 상자들 및/또는 분할 마스크들을 갖는 맵 영역(1304)의 형태일 수 있다. 맵 영역(1304)은 인간 주석 작성자가 어디에서 교차로들을 찾고 개선해야 하는지에 대한 초기 단서로서 역할한다.

로컬 개선 스테이지(1302)에서, 로컬 개선 시스템(1306)은 글로벌 모델-유도 크로핑된 패치들(global model-guided cropped patches)(1305)을 수용하고 교차로에 대한 개선된 분할 마스크(1306)(예를 들면, 보다 나은 분할 모델 또는 다각형화)를 출력하려고 시도하는 시맨틱 분할 모델이다. 로컬 개선 모델(1306)은 높은 재현율을 갖는 분할 마스크들(1307)을 출력하도록 트레이닝되는데, 즉 맵 영역(1304)으로부터의 추출된 패치들(1305)이 교차로를 포함한다고 가정된다. 로컬 개선 모델(1306)은 높은 로컬화 정확도로 분할 마스크(1307)를 예측한다.

예시적인 프로세스들

도 14는 하나 이상의 실시예에 따른, 운전 가능 표면 주석 달기를 위한 ML 기반 프레임워크의 흐름 다이어그램이다. 프로세스(1400)는, 예를 들어, 도 3을 참조하여 기술된 바와 같은, 컴퓨터 시스템(300)을 사용하여 구현될 수 있다.

프로세스(1400)는 지리적 영역에 대한 맵 데이터를 획득하는 단계(1401) 및 머신 러닝 모델을 사용하여 하나 이상의 시맨틱 맵 계층에 자동으로 주석을 다는 단계(1402)를 포함한다. 일 실시예에서, 맵 데이터는 멀티모달이다. 일 실시예에서, 멀티모달 맵 데이터는 강도 맵, 점유 맵, LSN/2D 콘볼루션 네트워크 출력, 텍스처 맵 및 임의의 다른 적합한 맵 데이터 중 하나 이상을 포함한다. 일 실시예에서, 맵 데이터는 HD 맵 데이터이다. 일 실시예에서, 머신 러닝 모델은 카테고리 정보(예를 들면, 차선, 교차로, 차량 주차 구역)를 포함하는 운전 가능 표면 마스크를 예측한다.

일 실시예에서, 머신 러닝 모델은 임의의 분할 기반 손실 함수(예를 들면, 교차 엔트로피와 다이스 손실의 결합)를 갖는 수정된 U-Net 모델을 기반으로 하는 이미지 분할 네트워크에 의해 구현된다. 예를 들어, U-Net 모델의 수축 및 확장 경로들에 있는 기본 콘볼루션 블록들은, 제각기, ResNet 및 DenseNet 모델들에서 사용되는 잔여 블록들 또는 밀집 블록들로 대체될 수 있다.

일 실시예에서, 수정된 U-Net 모델은 하나 이상의 HD 맵 모델로부터 추출되는 이미지 샘플들에 대해 반복적으로 트레이닝되고, 트레이닝 이미지들의 변동성을 증가시키기 위해 각각의 트레이닝 반복에 대해 이미지 영역들로부터 상이한 이미지 샘플들이 추출되며, 따라서 예측을 개선시킨다.

일 실시예에서, 트리 데이터 구조는 트레이닝 및 테스트 데이터 세트들에서 랜드마크들의 등분 비례를 보장하기 위해 트리 데이터 구조를 사용하여(예를 들면, 쿼드트리를 사용하여) 맵 모델들의 이미지 영역들을 트레이닝 및 테스트 데이터 세트들로 자동으로 분할하는 데 사용될 수 있다.

자동화된 주석 달기 이후에, ML 지원 주석이 달린 시맨틱 맵 계층들이 선택적으로 추가로 수작업으로 주석이 달릴 수 있다(1403).

전술한 설명에서, 본 발명의 실시예들은 구현마다 달라질 수 있는 다수의 특정 세부 사항들을 참조하여 기술되었다. 따라서, 상세한 설명 및 도면들은 제한적인 의미보다는 예시적인 의미로 간주되어야 한다. 본 발명의 범위의 유일한 독점적인 지표, 및 출원인들이 본 발명의 범위이도록 의도한 것은, 본 출원에서 특정 형태로 나오는 일련의 청구항들의 문언적 등가 범위이며, 임의의 후속 보정을 포함한다. 그러한 청구항들에 포함된 용어들에 대한 본원에서 명시적으로 기재된 임의의 정의들은 청구항들에서 사용되는 그러한 용어들의 의미를 결정한다. 추가적으로, 전술한 설명 및 이하의 청구항들에서 "더 포함하는"이라는 용어가 사용될 때, 이 문구에 뒤따르는 것은 추가적인 단계 또는 엔티티, 또는 이전에 언급된 단계 또는 엔티티의 서브단계/서브엔티티일 수 있다.

Claims

방법에 있어서,
적어도 하나의 프로세서를 사용하여, 지리적 영역에 대한 맵 데이터를 획득하는 단계; 및
상기 적어도 하나의 프로세서를 사용하여, 머신 러닝 모델을 사용하여 상기 맵 데이터의 하나 이상의 시맨틱 마스크에 자동으로 주석을 다는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 맵 데이터는 멀티모달인 것인, 방법.
제2항에 있어서,
상기 멀티모달 맵 데이터는 적어도 강도 맵 및 점유 맵을 포함하는 것인, 방법.
제1항에 있어서,
상기 머신 러닝 모델은 2차원(2D) 콘볼루션 네트워크에 의해 구현되는 것인, 방법.
제1항에 있어서,
상기 머신 러닝 모델은 앙상블 모델링을 사용하여 구현되는 것인, 방법.
제1항에 있어서,
상기 머신 러닝 모델은 하나 이상의 맵 모델로부터 추출되는 이미지 샘플들에 대해 반복적으로 트레이닝되고, 트레이닝 이미지들의 변동성을 증가시키기 위해 각각의 트레이닝 반복에 대해 상이한 이미지 샘플들이 추출되는 것인, 방법.
제6항에 있어서,
상기 하나 이상의 맵 모델은 상기 머신 러닝 모델을 트레이닝 및 테스트하기 위한 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 분할되는 것인, 방법.
제7항에 있어서,
상기 하나 이상의 맵 모델은 트리 데이터 구조를 사용하여 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 자동으로 분할되는 것인, 방법.
제8항에 있어서,
상기 하나 이상의 맵 모델은 분할 기준에 기초하여 상이한 샘플링 이미지 영역들로 자동으로 분할되며, 상기 분할 기준은 특정 도로 랜드마크의 인스턴스가 특정 샘플링 이미지 영역에 두 번 이상 존재할 때인 것인, 방법.
제8항에 있어서,
상기 트리 데이터 구조는 쿼드트리 데이터 구조인 것인, 방법.
시스템에 있어서,
적어도 하나의 프로세서; 및
명령어들을 저장하는 메모리
를 포함하며, 상기 명령어들은, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금:
지리적 영역에 대한 맵 데이터를 획득하게 하고;
머신 러닝 모델을 사용하여 상기 맵 데이터의 하나 이상의 시맨틱 맵 계층에 자동으로 주석을 달게 하는, 시스템.
제11항에 있어서,
상기 맵 데이터는 로컬화되는 것인, 시스템.
제11항에 있어서,
상기 맵 데이터는 멀티모달인 것인, 시스템.
제13항에 있어서,
상기 멀티모달 맵 데이터는 강도 맵 및 점유 맵을 포함하는 것인, 시스템.
제11항에 있어서,
상기 머신 러닝 모델은 2차원(2D) 콘볼루션 네트워크에 의해 구현되는 것인, 시스템.
제11항에 있어서,
상기 머신 러닝 모델은 하나 이상의 맵 모델로부터 추출되는 이미지 샘플들에 대해 반복적으로 트레이닝되고, 트레이닝 이미지들의 변동성을 증가시키기 위해 각각의 트레이닝 반복에 대해 상이한 이미지 샘플들이 추출되는 것인, 시스템.
제16항에 있어서,
상기 하나 이상의 맵 모델은 상기 머신 러닝 모델을 트레이닝 및 테스트하기 위한 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 분할되는 것인, 시스템.
제17항에 있어서,
상기 하나 이상의 맵 모델은 트리 데이터 구조를 사용하여 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 자동으로 분할되는 것인, 시스템.
제18항에 있어서,
상기 트리 데이터 구조는 쿼드트리 데이터 구조인 것인, 시스템.
적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 동작들을 수행하게 하는 명령어들을 저장하고 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서, 상기 동작들은:
지리적 영역에 대한 맵 데이터를 획득하는 동작; 및
머신 러닝 모델을 사용하여 상기 맵 데이터의 하나 이상의 시맨틱 맵 계층에 자동으로 주석을 다는 동작 ― 상기 머신 러닝 모델은 하나 이상의 맵 모델로부터 추출되는 이미지 샘플들에 대해 반복적으로 트레이닝되고, 각각의 트레이닝 반복에 대해 상이한 이미지 샘플들이 추출되며, 상기 하나 이상의 맵 모델은 트리 데이터 구조를 사용하여 트레이닝 및 테스트 데이터 세트들을 생성하기 위해 상이한 샘플링 이미지 영역들로 자동으로 분할됨 ―
을 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.