KR20220029268A

KR20220029268A - 합리적인 크라우드 데이터를 사용한 자율 주행 차량 궤적의 스코어링

Info

Publication number: KR20220029268A
Application number: KR1020200135301A
Authority: KR
Inventors: 오스카 올로프 베지봄; 바삼 힐로우; 라드바우드 두인티어 테벤스; 캘린 벨타; 앤 콜린; 티차콘 옹피롬산
Original assignee: 모셔널 에이디 엘엘씨
Priority date: 2020-09-01
Filing date: 2020-10-19
Publication date: 2022-03-08
Also published as: US20220204033A1; GB2616392B; GB2607835B; US11755015B2; GB2598408B; KR102529115B1; US11203362B1; GB2598408A; DE102020128156A1; CN114118658A; KR20230068366A; GB2607835A; GB202213106D0; GB2616392A; US20220063666A1; GB202015581D0

Abstract

궤적에 대한 합리성 점수를 예측하는 머신 러닝 모델을 사용하여 주어진 교통 시나리오를 통과하는 차량의 하나 이상의 궤적을 스코어링하기 위한 실시예가 포함된다. 일 실시예에서, "합리적인 크라우드"라고 지칭되는, 인간 어노테이터는 동일하거나 상이한 교통 시나리오를 통과하는 둘 이상의 차량 궤적의 렌더링을 제시받는다. 어노테이터는 다른 궤적(들)보다 하나의 궤적에 대한 선호도를 표시하도록 요청받는다. 인간 어노테이터로부터 수집된 입력은 주어진 교통 시나리오에 대한 하나 이상의 궤적에 대한 합리성 점수를 예측하기 위해 머신 러닝 모델을 트레이닝시키는 데 사용된다. 이러한 예측된 궤적은 그의 점수에 기초하여 루트 플래너에 의해 생성되는 궤적을 순위화하기 위해, AV 소프트웨어 스택을 비교하기 위해, 또는 차량 궤적을 스코어링하는 머신 러닝 모델로부터 이득을 볼 수 있는 다른 애플리케이션에 의한 사용을 위해 사용될 수 있다.

Description

합리적인 크라우드 데이터를 사용한 자율 주행 차량 궤적의 스코어링{SCORING AUTONOMOUS VEHICLE TRAJECTORIES USING REASONABLE CROWD DATA}

이하의 설명은 일반적으로 자율 주행 차량 및/또는 다른 대상체에 대한 궤적을 스코어링하는 것에 관한 것이다.

교통 시나리오에 직면할 때, 자율 주행 차량(AV) 소프트웨어 스택은, 충돌 방지, 교통 법규 준수 및 승객에게 편안한 승차감을 제공하는 것과 같은, 규칙집에 구현된 규칙 세트를 준수하는 하나 이상의 궤적을 계획할 수 있다. 상이한 AV 소프트웨어 스택은 규칙집을 각각 준수하는 상이한 궤적을 생성할 수 있다. 일부 경우에, 주어진 교통 시나리오에 대한 복수의 후보 궤적 중의 궤적을 스코어링하는 해석 가능한 방식을 갖는 것이 바람직할 수 있다.

머신 러닝 모델을 사용하여 동일하거나 상이한 교통 시나리오와 연관된 2개 이상의 궤적을 스코어링하는 기술이 제공되며, 여기서 머신 러닝 모델은 궤적의 컴퓨터 시뮬레이션을 관찰하는 복수의 인간 어노테이터(human annotator)로부터 수집된 데이터 - 본원에서 합리적인 크라우드 데이터라고 지칭됨 - 를 사용하여 트레이닝된다.

일 실시예에서, 방법은: 하나 이상의 프로세서를 사용하여, 환경에서 동작하는 차량에 대한 궤적 세트를 생성하는 단계 - 궤적 세트 내의 각각의 궤적은 교통 시나리오와 연관됨 -; 하나 이상의 프로세서를 사용하여, 궤적 세트 내의 각각의 궤적에 대한 합리성 점수(reasonableness score)를 예측하는 단계 - 합리성 점수는 복수의 인간 어노테이터로부터 획득된 입력 및 규칙집 구조를 위반하는 합리성 점수의 예측에 페널티를 부과하는 손실 함수를 사용하여 트레이닝되는 머신 러닝 모델로부터 획득됨 -; 하나 이상의 프로세서를 사용하여, 궤적에 대한 예측된 합리성 점수를 사용하여 차량의 루트 플래너(route planner)를 보강하는 단계; 하나 이상의 프로세서를 사용하여, 보강된 루트 플래너를 사용하여 환경에서의 궤적을 계획하는 단계; 및 차량의 제어 회로를 사용하여, 계획된 궤적을 따라 차량을 동작시키는 단계를 포함한다.

일 실시예에서, 방법은: 하나 이상의 프로세서를 사용하여, 하나 이상의 교통 시나리오의 실현(realization) 세트를 획득하는 단계 - 각각의 실현은 교통 시나리오 및 교통 시나리오를 횡단하는 차량의 궤적을 포함함 -; 하나 이상의 프로세서 및 규칙집을 사용하여, 각각의 실현을 이 실현이 규칙집 내의 상이한 규칙을 얼마나 잘 준수하는지에 대응하는 점수 세트로 변환하는 단계; 입력으로서 점수 리스트를 갖는 머신 러닝 모델을 사용하여, 실현 세트에 대한 합리성 점수를 예측하는 단계; 하나 이상의 프로세서를 사용하여, 복수의 인간 어노테이터로부터 어노테이션(annotation)을 획득하는 단계 - 어노테이션은 각각의 실현의 합리성을 나타냄 -; 하나 이상의 프로세서를 사용하여, 어노테이션에 적어도 부분적으로 기초하여 실측 데이터(ground-truth data)를 생성하는 단계; 하나 이상의 프로세서를 사용하여, 실측 데이터 및 예측된 합리성 점수의 손실 함수를 최소화하는 단계 - 손실 함수는 규칙집 구조를 위반하는 합리성 점수의 예측에 페널티를 부과함 -; 및 하나 이상의 프로세서를 사용하여, 최소화된 손실 함수의 출력에 기초하여 머신 러닝 모델의 파라미터를 결정하는 단계를 포함한다.

일 실시예에서, 손실 함수는 힌지(hinge) 또는 슬랙(slack) 손실 함수이다.

일 실시예에서, 머신 러닝 모델은 선형 서포트 벡터 머신이다.

일 실시예에서, 머신 러닝 모델은 신경 네트워크이다.

일 실시예에서, 머신 러닝 모델을 사용하여, 실현 세트에 대한 예측된 합리성 점수를 생성하는 단계는, 신경 네트워크에의 입력으로서, 실현 세트의 의사 이미지 임베딩을 제공하는 단계를 추가로 포함한다.

일 실시예에서, 의사 이미지 임베딩은 조감도(BEV) 임베딩이다.

일 실시예에서, 머신 러닝 모델을 사용하여, 실현 세트에 대한 예측된 합리성 점수를 생성하는 단계는, 신경 네트워크에의 입력으로서, 실현 세트에 대한 벡터 임베딩을 제공하는 단계를 추가로 포함한다.

일 실시예에서, 실현 세트는 동일한 교통 시나리오를 포함한다.

일 실시예에서, 제1 점수 세트가 머신 러닝 모델에 입력되고, 머신 러닝 모델은 제1 합리성 점수를 예측하며, 이어서 제2 점수 세트가 머신 러닝 모델에 입력되고, 머신 러닝 모델은 제2 합리성 점수를 예측한다.

일 실시예에서, 복수의 인간 어노테이터로부터 인간 어노테이션을 획득하는 단계는: 하나 이상의 프로세서를 사용하여, 교통 시나리오와 연관된 실현 쌍을 획득하는 단계; 하나 이상의 프로세서를 사용하여, 실현 쌍을 렌더링하는 단계; 하나 이상의 프로세서를 사용하여, 렌더링된 실현 쌍을 복수의 인간 어노테이터에게 제시하는 단계; 및 하나 이상의 프로세서를 사용하여, 복수의 인간 어노테이터로부터 렌더링된 실현 쌍에 대한 어노테이션을 획득하는 단계를 추가로 포함한다.

일 실시예에서, 인간 어노테이션에 적어도 부분적으로 기초하여 실측 데이터를 생성하는 단계는 쌍 비교의 결과를 예측하는 통계 모델을 인간 어노테이션에 피팅하는 단계를 추가로 포함한다.

일 실시예에서, 교통 시나리오는 다른 에이전트, 그의 시작 위치 및 그의 궤적으로 채워진 맵을 포함한다.

일 실시예에서, 규칙집은 수학적 규칙으로 변환되는 교통 법규, 도로 규칙 및 이해관계자 요구사항의 모음을 포함한다.

일 실시예에서, 규칙집은 상이한 규칙의 상대적 중요도를 인코딩하는 우선순위 구조를 갖는다.

일 실시예에서, 실현 세트는 3차원(3D) 비디오로 렌더링된다.

일 실시예에서, 인간 어노테이션은 실현 쌍의 다른 실현보다 하나의 실현의 선호도를 나타내며, 어노테이션은 어노테이터가 쌍의 제2 실현보다 쌍의 제1 실현을 선호했음을 나타내는 값을 출력하는 함수로 인코딩된다.

일 실시예에서, 머신 러닝 모델은 이미지에 대해 트레이닝된 컨볼루션 신경 네트워크이다.

일 실시예에서, 손실 함수는 궤적 쌍의 어느 궤적이 바람직한지에 대한 규칙집의 예측에 적어도 부분적으로 기초하여 합리성 점수의 예측에 페널티를 부과한다.

개시된 실시예들 중 하나 이상은 이하의 장점들 중 하나 이상을 제공한다. 머신 러닝(ML) 모델은 주어진 교통 시나리오에 대한 AV 궤적에 대한 합리성 점수를 예측하도록 트레이닝된다. 일 실시예에서, 예측된 점수는 루트 플래너 및 그 성능을 튜닝하고, 2개의 AV 스택을 비교하며, 강화 학습 및 임의의 다른 원하는 애플리케이션을 위해 사용될 수 있다.

이들 및 다른 양태, 특징, 및 구현예는 기능을 수행하기 위한 방법, 장치, 시스템, 컴포넌트, 프로그램 제품, 수단 또는 단계로서, 및 다른 방식으로 표현될 수 있다.

이들 및 다른 양태, 특징, 및 구현은, 청구항을 포함하여, 이하의 설명으로부터 명백해질 것이다.

도 1은 하나 이상의 실시예에 따른, 자율 주행 능력을 갖는 자율 주행 차량의 예를 도시한다.
도 2는 하나 이상의 실시예에 따른, 예시적인 "클라우드" 컴퓨팅 환경을 예시한다.
도 3은 하나 이상의 실시예에 따른, 컴퓨터 시스템을 예시한다.
도 4는 하나 이상의 실시예에 따른, AV에 대한 예시적인 아키텍처를 도시한다.
도 5a는 하나 이상의 실시예에 따른, 차선 마킹 및 횡단보도를 갖는 교차로를 예시하는 맵이다.
도 5b는 하나 이상의 실시예에 따른, 보행자가 교차로에서 도로를 건너가는 예시적인 교통 시나리오를 예시하는 도 5a의 맵이다.
도 5c는 하나 이상의 실시예에 따른, 교차로를 횡단하는 예시적인 AV 궤적을 예시하는 도 5b의 맵이다.
도 6은 하나 이상의 실시예에 따른, 인간 어노테이터가 궤적 쌍으로부터 궤적을 선택할 수 있게 하기 위한 예시적인 어노테이션 툴 인터페이스이다.
도 7은 하나 이상의 실시예에 따른, 부분 순서 구조(partial-ordered structure)를 갖는 예시적인 규칙집이다.
도 8은 하나 이상의 실시예에 따른, ML 트레이닝 절차를 예시한다.
도 9는 하나 이상의 실시예에 따른, 신경 네트워크에 대한 트레이닝 데이터로서 사용될 교통 시나리오의 예시적인 조감도(BEV) 임베딩(의사 이미지)을 예시한다.
도 10은 하나 이상의 실시예에 따른, AV 궤적에 대한 합리성 점수를 예측하기 위해 ML 모델을 사용하는 프로세스의 흐름 다이어그램이다.
도 11은 하나 이상의 실시예에 따른, AV 궤적에 대한 합리성 점수를 예측하기 위해 ML 모델을 트레이닝시키는 프로세스의 흐름 다이어그램이다.

설명을 위한 이하의 기술에서는, 본 발명에 대한 완전한 이해를 제공하기 위해 다수의 특정 세부사항이 기재된다. 그렇지만, 본 발명이 이 특정 세부 사항 없이 실시될 수 있음이 명백할 것이다. 다른 예에서, 공지된 구조 및 디바이스는 본 발명을 불필요하게 모호하게 하는 것을 피하기 위하여 블록 다이어그램 형태로 도시된다.

도면에서, 설명을 용이하게 하기 위해, 디바이스, 모듈, 명령 블록 및 데이터 요소를 나타내는 것과 같은, 개략적 요소의 특정 배열 또는 순서가 도시된다. 그렇지만, 본 기술 분야의 통상의 기술자라면, 도면에서의 개략적 요소의 특정 순서 또는 배열이 프로세싱의 특정한 순서 또는 시퀀스, 또는 프로세스의 분리가 요구된다는 것을 암시하는 것을 의미하지는 않는다는 점을 이해할 것이다. 게다가, 도면에 개략적 요소를 포함시키는 것은, 그러한 요소가 모든 실시예에서 요구된다는 것을 암시하는 것을 의미하지 않거나, 또는 그러한 요소에 의해 표현된 특징이 일부 실시예에서 포함되지 않거나 또는 다른 요소와 조합되지 않을 수 있다는 점을 암시하는 것을 의미하지 않는다.

게다가, 도면에서, 2개 이상의 다른 개략적 요소 사이의 연결, 관계 또는 연관을 예시하기 위해 실선 또는 파선 또는 화살표와 같은 연결 요소가 사용되는 경우에, 임의의 그러한 연결 요소의 부재는 연결, 관계 또는 연관이 존재할 수 없다는 점을 암시하는 것을 의미하지 않는다. 환언하면, 요소들 사이의 일부 연결, 관계, 또는 연관은 본 개시를 모호하게 하지 않기 위해 도면에 도시되지 않는다. 추가적으로, 예시를 용이하게 하기 위해, 요소들 사이의 다수의 연결, 관계 또는 연관을 표현하기 위해 단일의 연결 요소가 사용된다. 예를 들어, 연결 요소가 신호, 데이터 또는 명령의 통신을 표현하는 경우, 본 기술 분야의 통상의 기술자라면, 그러한 요소가, 통신을 수행하기 위해 필요할 수 있는, 하나 또는 다수의 신호 경로(예를 들면, 버스)를 표현한다는 것을 이해할 것이다.

그 예가 첨부 도면에 예시되어 있는, 실시예가 이제 상세하게 언급될 것이다. 이하의 상세한 설명에서, 다양한 기술된 실시예에 대한 완전한 이해를 제공하기 위해 많은 특정 세부 사항이 기재된다. 그렇지만, 다양한 기술된 실시예가 이 특정 세부 사항 없이 실시될 수 있다는 것이 본 기술 분야의 통상의 기술자에게 명백할 것이다. 다른 예에서, 실시예의 양태를 불필요하게 모호하게 하지 않기 위해 공지된 방법, 절차, 컴포넌트, 회로, 및 네트워크는 상세하게 기술되지 않았다.

서로 독립적으로 또는 다른 특징들의 임의의 조합과 함께 각각 사용될 수 있는 여러 특징이 이하에서 기술된다. 그렇지만, 임의의 개별 특징은 위에서 논의된 문제들 중 임의의 것을 해결할 수 없거나 또는 위에서 논의된 문제들 중 단지 하나만을 해결할 수 있다. 위에서 논의된 문제들 중 일부는 본원에 기술된 특징들 중 임의의 것에 의해 완전히 해결되지는 않을 수 있다. 비록 여러 표제가 제공되어 있더라도, 특정 표제에 관련되지만 해당 표제를 갖는 섹션에서 발견되지 않은 정보가 본 설명의 다른 곳에서 발견될 수도 있다. 실시예는 이하의 개요에 따라 본원에 기술된다.

1. 일반적 개관

2. 시스템 개관

3. 자율 주행 차량 아키텍처

4. 합리적인 크라우드 데이터로 트레이닝된 머신 러닝 모델을 사용한 교통 시나리오와 연관된 궤적의 스코어링

일반적 개관

"합리적인 크라우드"로부터 수집된 데이터를 사용하여 AV 궤적을 스코어링하기 위한 머신 러닝 모델을 트레이닝시키고 사용하기 위한 기술이 제공된다. AV는 주어진 교통 시나리오를 상이한 방식으로 횡단할 수 있다. 상이한 AV 루트 플래너는 교통 시나리오를 횡단하는 선호된 방식으로서 상이한 궤적을 선택할 수 있다. 그렇지만, AV가 교통 시나리오를 횡단하기 위한 "최상의" 궤적을 선택하는 것이 요망된다. "최상의" 궤적은 주관적일 수 있지만, 대부분의 사람들은 적어도 AV가 교통 법규를 준수하고 편안하고 윤리적이며 기타일 수 있게 하는 궤적이 최상의 궤적이라는 데 동의할 수 있다. 그렇지만, 이러한 요구사항 중 가장 객관적인 것인 교통 법규를 준수하는 것조차도 실제로는 모호하다. 특정 AV 소프트웨어 스택이 다른 궤적보다 하나의 궤적을 선택하는 이유를 이해하는 것이 또한 바람직하다.

아래에서 기술되는 실시예는 해석 가능한 방식으로 궤적을 스코어링할 수 있는 ML 모델을 사용한다. 인간 어노테이션은 ML 모델의 파라미터를 결정한다. 해석 가능성(interpretability)을 달성하기 위해, AV가 특정 교통 시나리오를 어떻게 횡단하는지를, AV 궤적에 합리성 점수를 할당하기 위해 정형적으로 분석될 수 있는, 인간 이해 가능 컴포넌트로 분해하기 위해 규칙집 또는 다른 모델이 사용된다. 트레이닝된 ML 모델은 이어서 AV의 실시간 동작 동안, 예를 들어, 계획 모듈(도 4 참조)에 의해 출력되는 교통 시나리오에 대한 입력 궤적 쌍에 대한 합리성 점수를 예측하는 데 사용될 수 있다. 일 실시예에서, 합리성 점수는, 후보 궤적이 규칙집의 준수에만 기초하여 똑같이 양호하더라도, AV가 주어진 교통 시나리오를 횡단하기 위해 다수의 후보 궤적 중에서 어느 궤적을 선택해야 하는지를 결정(예를 들어, 순위화)하기 위해 또는 궤적을 스코어링하는 것이 이점을 제공하는 임의의 다른 애플리케이션을 위해 사용될 수 있다.

시스템 개관

도 1은 자율 주행 능력을 갖는 자율 주행 차량(100)의 일 예를 도시한다.

본원에서 사용되는 바와 같이, 용어 "자율 주행 능력"은, 완전한 자율 주행 차량, 고도의 자율 주행 차량, 및 조건부 자율 주행 차량을 제한 없이 포함하는, 실시간 인간 개입 없이 차량이 부분적으로 또는 완전하게 동작될 수 있게 하는 기능, 특징, 또는 설비를 지칭한다.

본원에서 사용되는 바와 같이, 자율 주행 차량(AV)은 자율 주행 능력을 갖는 차량이다.

본원에서 사용되는 바와 같이, "차량"은 상품 또는 사람의 운송 수단을 포함한다. 예를 들어, 자동차, 버스, 기차, 비행기, 드론, 트럭, 보트, 선박, 잠수함, 비행선 등. 무인 자동차는 차량의 일 예이다.

본원에서 사용되는 바와 같이, "궤적"은 AV를 제1 시공간적 위치로부터 제2 시공간적 위치로 동작시키는 경로 또는 루트를 지칭한다. 일 실시예에서, 제1 시공간적 위치는 초기 또는 시작 위치라고 지칭되고 제2 시공간적 위치는 목적지, 최종 위치, 목표, 목표 위치, 또는 목표 장소라고 지칭된다. 일부 예에서, 궤적은 하나 이상의 맵 세그먼트(예를 들면, 도로의 섹션)를 횡단하고, 각각의 세그먼트는 하나 이상의 블록(예를 들면, 차선 또는 교차로의 부분)으로 구성된다. 일 실시예에서, 시공간적 위치는 현실 세계 위치에 대응한다. 예를 들어, 시공간적 위치는 사람을 태우거나 내려주고 또는 상품을 싣거나 내리는 픽업(pick up) 또는 드롭-오프(drop-off) 위치이다.

본원에서 사용되는 바와 같이, "센서(들)"는 센서를 둘러싼 환경에 관한 정보를 검출하는 하나 이상의 하드웨어 컴포넌트를 포함한다. 하드웨어 컴포넌트 중 일부는 감지 컴포넌트(예를 들어, 이미지 센서, 생체측정 센서), 송신 및/또는 수신 컴포넌트(예를 들어, 레이저 또는 라디오 주파수 파 송신기 및 수신기), 아날로그 대 디지털 변환기와 같은 전자 컴포넌트, 데이터 저장 디바이스(예컨대, RAM 및/또는 비휘발성 스토리지), 소프트웨어 또는 펌웨어 컴포넌트, 및 ASIC(application-specific integrated circuit), 마이크로프로세서 및/또는 마이크로컨트롤러와 같은 데이터 프로세싱 컴포넌트를 포함할 수 있다.

본원에서 사용되는 바와 같이, "장면 묘사(scene description)"는 AV 차량 상의 하나 이상의 센서에 의해 검출되거나 AV 외부의 소스에 의해 제공되는 하나 이상의 분류된 또는 라벨링된 대상체를 포함하는 데이터 구조(예를 들면, 리스트) 또는 데이터 스트림이다.

본원에서 사용되는 바와 같이, "도로"는 차량에 의해 횡단될 수 있는 물리적 영역이고, 명명된 주요 도로(예를 들면, 도시 거리, 주간 고속도로 등)에 대응할 수 있거나, 또는 명명되지 않은 주요 도로(예를 들면, 주택 또는 사무실 건물 내의 사유 도로, 주차장 섹션, 공터 섹션, 시골 지역의 비포장 경로 등)에 대응할 수 있다. 일부 차량(예를 들어, 4륜 구동 픽업 트럭, 스포츠 유틸리티 차량 등)은 차량 진행에 특히 적합하지 않은 다양한 물리적 영역을 횡단할 수 있기 때문에, "도로"는 임의의 지자체 또는 다른 정부 또는 행정처에 의해 주요 도로로서 공식적으로 규정되지 않은 물리적 영역일 수 있다.

본원에서 사용되는 바와 같이, "차선"은 차량에 의해 횡단될 수 있는 도로의 한 부분이고, 차선 마킹들 사이의 공간의 대부분 또는 전부에 대응할 수 있거나, 또는 차선 마킹들 사이의 공간의 단지 일부(예를 들어, 50% 미만)에 대응할 수 있다. 예를 들어, 멀리 이격된 차선 마킹을 갖는 도로는 차선 마킹 사이에 둘 이상의 차량을 수용할 수 있어서, 하나의 차량이 차선 마킹을 횡단하지 않고 다른 차량을 추월할 수 있고, 따라서 차선 마킹 사이의 공간보다 협소한 차선을 갖거나 차선 마킹 사이에 2개의 차선을 갖는 것으로 해석될 수 있다. 차선은 차선 마킹의 부재 시에도 해석될 수 있다. 예를 들어, 차선은 환경의 물리적 특징부, 예를 들어, 시골 지역에서의 주요 도로를 따라 있는 바위 및 나무에 기초하여 규정될 수 있다.

본원에서 사용되는 바와 같이, "규칙집"은 정확한 수학적 규칙으로 변환되는 교통 법규, 도로 규칙 및 이해관계자 요구사항의 모음이다. 규칙집은 상이한 규칙의 상대적 중요도에 관한 신뢰(belief)를 인코딩하는 우선순위 구조를 가질 수 있다. 부분 순서화(partial ordering)를 갖는 예시적인 규칙집이 도 7에 도시되어 있다. 이 예에서, 인간의 안전이 주차 규칙을 위반하는 것보다 우선순위화되고, 주차 규칙과 정차 규칙은 유사한 중요도를 가지며, 여기서 우선순위는 위에서 아래로 감소한다. 이러한 우선순위 구조는 일부 궤적(예를 들면, 보행자가 충돌되는 궤적, 및 AV가 불법적으로 주차되는 궤적)을 순위화하지만, (예를 들면, 주차된 자동차가 충돌되는 궤적, 및 동물이 충돌되는 다른 궤적과 같은) 모든 궤적을 순위화하지는 않는다. 규칙집에 관한 추가 세부 사항은 Censi et al. Liability, Ethics, and Culture-Aware Behavior Specification using Rulebooks (https://arxiv.org/abs/1902.09355)에서 발견될 수 있다.

본원에서 사용되는 바와 같이, "실현"은 교통 시나리오 및 교통 시나리오를 통한 AV의 궤적을 포함한다.

본원에서 사용되는 바와 같이, "교통 시나리오"는 에이전트, 그의 시작 위치 및 그의 궤적으로 채워진 맵이다.

본원에서 사용되는 바와 같이, "머신 러닝 모델"은, 인공 신경 네트워크, 서포트 벡터 머신, 결정 트리, 회귀 분석, 베이지안 네트워크 및 유전자 알고리즘을 제한 없이 포함한, 예측을 수행하기 위해 데이터에 대해 트레이닝된 임의의 모델을 포함한다.

본원에서 사용되는 바와 같이, "합리적인 크라우드 데이터"는 복수의 인간 어노테이터가 주어진 교통 시나리오를 통한 2개 이상의 궤적에 대한 컴퓨터 시뮬레이션을 관찰하는 동안 이들로부터 수집된 데이터를 포함한다.

본원에서 사용되는 바와 같이, "합리성 점수"는 "합리적인 크라우드 데이터"에 대해 트레이닝된 ML 모델에 의해 예측된 점수이다.

“하나 이상"은 기능이 하나의 요소에 의해 수행되는 것, 기능이 하나보다 많은 요소에 의해, 예를 들어, 분산 방식으로, 수행되는 것, 여러 기능이 하나의 요소에 의해 수행되는 것, 여러 기능이 여러 요소에 의해 수행되는 것, 또는 이들의 임의의 조합을 포함한다.

또한, 용어, 제1, 제2 등이, 일부 예에서, 다양한 요소를 기술하기 위해 본원에 사용되었지만, 이러한 요소는 이러한 용어에 의해 제한되지 않아야 한다는 것이 이해될 것이다. 이들 용어는 하나의 요소를 다른 요소와 구별하는 데만 사용된다. 예를 들어, 기술된 다양한 실시예의 범위를 벗어나지 않으면서, 제1 접촉은 제2 접촉이라 지칭될 수 있고, 유사하게 제2 접촉은 제1 접촉이라 지칭될 수 있다. 제1 접촉과 제2 접촉 둘 모두가 접촉이지만, 동일한 접촉은 아니다.

본원에 기술된 다양한 실시예의 설명에 사용된 용어는 단지 특정한 실시예를 기술하기 위한 것이며, 제한하려는 것은 아니다. 기술된 다양한 실시예 및 첨부된 청구항의 설명에서 사용되는 바와 같이, 단수형은, 문맥이 달리 명시적으로 나타내지 않는 이상, 복수형도 포함하는 것으로 의도된다. 또한, 용어 "및/또는"이, 본원에서 사용되는 바와 같이, 열거된 연관 항목들 중 하나 이상의 항목의 임의의 그리고 모든 가능한 조합을 지칭하고 포함한다는 것이 이해될 것이다. 게다가, 용어 "포함한다" 및/또는 "포함하는"은 본 설명에서 사용될 때, 언급된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트의 존재를 명기하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 그의 그룹의 존재 또는 추가를 배제하지 않는다는 것도 이해될 것이다.

본원에서 사용되는 바와 같이, 용어 "~ 경우"는, 선택적으로, 문맥에 따라 "~할 때", 또는 "~시에" 또는 "결정에 응답하여" 또는 "검출에 응답하여"를 의미하는 것으로 해석된다. 마찬가지로, 문구 "~라고 결정된다면" 또는 "[언급된 조건 또는 이벤트]가 검출되는 경우"는 선택적으로 문맥에 따라, "결정할 시에" 또는 "결정에 반응하여" 또는 "[언급된 조건 또는 이벤트]의 검출 시에" 또는 "[언급된 조건 또는 이벤트]의 검출에 반응하여"를 의미하는 것으로 해석된다.

본원에서 사용되는 바와 같이, AV 시스템은 AV의 동작을 지원하는, 하드웨어, 소프트웨어, 저장된 데이터, 및 실시간으로 생성된 데이터의 어레이와 함께 AV를 지칭한다. 일 실시예에서, AV 시스템은 AV 내에 포함된다. 일 실시예에서, AV 시스템은 여러 위치에 걸쳐 확산되어 있다. 예를 들어, AV 시스템의 소프트웨어 중 일부는 도 3와 관련하여 아래에서 기술되는 클라우드 컴퓨팅 환경(300)과 유사한 클라우드 컴퓨팅 환경 상에 구현된다.

일반적으로, 본원은 완전한 자율 주행 차량, 고도의 자율 주행 차량, 및 조건부 자율 주행 차량, 예컨대, 제각기 소위 레벨 5 차량, 레벨 4 차량 및 레벨 3 차량을 포함하는 하나 이상의 자율 주행 능력을 갖는 임의의 차량에 적용 가능한 기술을 개시한다(차량의 자율성 레벨의 분류에 대한 세부 사항은 참조에 의해 그 전체가 포함된, SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의(Taxonomy and Definitions for Terms Related to On-128-172020-02-28 Road Motor Vehicle Automated Driving Systems) 참조). 또한, 본원에서 개시된 기술은 부분적 자율 주행 차량 및 운전자 보조 차량, 예를 들어, 소위 레벨 2 및 레벨 1 차량에도 적용 가능하다(SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의 참조). 일 실시예에서, 레벨 1, 레벨 2, 레벨 3, 레벨 4 및 레벨 5 차량 시스템 중 하나 이상은 센서 입력의 프로세싱에 기초하여 특정의 동작 조건 하에서 특정의 차량 동작(예를 들면, 조향, 제동, 및 맵 사용)을 자동화할 수 있다. 본원에서 개시된 기술은, 완전한 자율 주행 차량으로부터 인간-운전 차량에 이르는, 임의의 레벨에 있는 차량에 혜택을 줄 수 있다.

도 1을 참조하면, AV 시스템(120)은, 대상체(예를 들면, 자연 장애물(191), 차량(193), 보행자(192), 자전거 운전자, 및 다른 장애물)을 피하고 도로 법규(예를 들면, 동작 규칙 또는 운전 선호도)를 준수하면서, 환경(190)을 통과하여 궤적(198)을 따라 AV(100)를 목적지(199)(때때로 최종 위치라고 지칭됨)로 동작시킨다.

일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서(146)로부터의 동작 커맨드를 수신하고 이에 따라 동작하도록 설비된 디바이스(101)를 포함한다. 일 실시예에서, 컴퓨팅 프로세서(146)는 도 3을 참조하여 아래에서 기술되는 프로세서(304)와 유사하다. 디바이스(101)의 예는 조향 제어(102), 브레이크(103), 기어, 가속기 페달 또는 다른 가속 제어 메커니즘, 앞유리 와이퍼, 사이드-도어 락, 윈도 제어, 및 방향 지시등을 포함한다.

일 실시예에서, AV 시스템(120)은, AV의 위치, 선형 속도 및 선형 가속도, 각속도 및 각가속도, 및 헤딩(예를 들어, AV(100)의 선단의 배향)과 같은, AV(100)의 상태 또는 조건의 특성을 측정 또는 추론하기 위한 센서(121)를 포함한다. 센서(121)의 예는 GNSS, 차량 선가속도 및 각속도(angular rate) 둘 모두를 측정하는 IMU(inertial measurement unit), 휠 슬립 비(wheel slip ratio)를 측정 또는 추산하기 위한 휠 속력 센서, 휠 브레이크 압력 또는 제동 토크 센서, 엔진 토크 또는 휠 토크 센서, 및 조향각(steering angle) 및 각속도 센서이다.

일 실시예에서, 센서(121)는 AV의 환경의 특성을 감지 또는 측정하기 위한 센서를 또한 포함한다. 예를 들어, 가시광, 적외선 또는 열(또는 둘 모두) 스펙트럼식 단안 또는 스테레오 비디오 카메라(122), LiDAR(123), RADAR, 초음파 센서, TOF(time-of-flight) 심도 센서, 속력 센서, 온도 센서, 습도 센서, 및 강우 센서.

일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서(146)와 연관된 머신 명령 또는 센서(121)에 의해 수집된 데이터를 저장하기 위한 데이터 저장 유닛(142) 및 메모리(144)를 포함한다. 일 실시예에서, 데이터 저장 유닛(142)은 도 3과 관련하여 아래에서 기술되는 ROM(308) 또는 저장 디바이스(310)와 유사하다. 일 실시예에서, 메모리(144)는 아래에서 기술되는 메인 메모리(306)와 유사하다. 일 실시예에서, 데이터 저장 유닛(142) 및 메모리(144)는 환경(190)에 관한 이력, 실시간, 및/또는 예측 정보를 저장한다. 일 실시예에서, 저장된 정보는 맵, 운전 성능, 교통 정체 업데이트 또는 날씨 상태를 포함한다. 일 실시예에서, 환경(190)에 관한 데이터는 원격에 위치된 데이터베이스(134)로부터 통신 채널을 통해 AV(100)에 송신된다.

일 실시예에서, AV 시스템(120)은 다른 차량의 상태 및 조건, 예컨대, 위치, 선속도 및 각속도, 선가속도 및 각가속도, 및 AV(100)를 향한 선형 헤딩 및 각도 헤딩의 측정된 또는 추론된 특성을 통신하기 위한 통신 디바이스(140)를 포함한다. 이 디바이스는 V2V(Vehicle-to-Vehicle) 및 V2I(Vehicle-to-Infrastructure) 통신 디바이스 및 포인트-투-포인트(point-to-point) 또는 애드혹(ad hoc) 네트워크 또는 둘 모두를 통한 무선 통신을 위한 디바이스를 포함한다. 일 실시예에서, 통신 디바이스(140)는 (라디오 및 광학적 통신을 포함하는) 전자기 스펙트럼 또는 다른 매체(예를 들면, 공기 및 음향 매체)를 통해 통신한다. V2V(Vehicle-to-Vehicle), V2I(Vehicle-to-Infrastructure) 통신(및 일부 실시예에서 하나 이상의 다른 타입의 통신)의 조합이 때때로 V2X(Vehicle-to-Everything) 통신이라고 지칭된다. V2X 통신은 전형적으로, 자율 주행 차량과의 통신 및 자율 주행 차량들 간의 통신을 위한 하나 이상의 통신 표준에 따른다.

일 실시예에서, 통신 디바이스(140)는 통신 인터페이스를 포함한다. 예를 들어, 유선, 무선, WiMAX, Wi-Fi, 블루투스, 위성, 셀룰러, 광학, 근거리, 적외선, 또는 라디오 인터페이스. 통신 인터페이스는 원격에 위치된 데이터베이스(134)로부터 AV 시스템(120)으로 데이터를 송신한다. 일 실시예에서, 원격에 위치된 데이터베이스(134)는 도 2에 기술된 바와 같은 클라우드 컴퓨팅 환경(200)에 내장된다. 통신 인터페이스(140)는 센서(121)로부터 수집된 데이터 또는 AV(100)의 동작에 관련된 다른 데이터를 원격에 위치된 데이터베이스(134)에 송신한다. 일 실시예에서, 통신 인터페이스(140)는 원격 조작(teleoperation)에 관련되는 정보를 AV(100)에 송신한다. 일부 실시예에서, AV(100)는 다른 원격(예를 들면, "클라우드") 서버(136)와 통신한다.

일 실시예에서, 원격에 위치된 데이터베이스(134)는 또한 디지털 데이터를 저장 및 송신한다(예를 들면, 도로 및 거리 위치와 같은 데이터를 저장함). 그러한 데이터는 AV(100) 상의 메모리(144)에 저장되거나, 원격에 위치된 데이터베이스(134)로부터 통신 채널을 통해 AV(100)에 송신된다.

일 실시예에서, 원격에 위치된 데이터베이스(134)는 유사한 시각(time of day)에 궤적(198)을 따라 이전에 진행된 차량의 운전 특성(예를 들면, 속력 및 가속도 프로파일)에 관한 이력 정보를 저장 및 송신한다. 일 구현예에서, 그러한 데이터는 AV(100) 상의 메모리(144)에 저장될 수 있거나, 원격에 위치된 데이터베이스(134)로부터 통신 채널을 통해 AV(100)에 송신될 수 있다.

AV(100) 상에 위치된 컴퓨팅 디바이스(146)는 실시간 센서 데이터 및 이전 정보 둘 모두에 기초한 제어 액션을 알고리즘적으로 생성하여, AV 시스템(120)이 자율 주행 능력을 실행할 수 있게 한다.

일 실시예에서, AV 시스템(120)은 AV(100)의 사용자(예를 들면, 탑승자 또는 원격 사용자)에게 정보 및 경보를 제공하고 그로부터 입력을 수신하기 위해 컴퓨팅 디바이스(146)에 결합된 컴퓨터 주변기기(132)를 포함한다. 일 실시예에서, 주변기기(132)는 도 3을 참조하여 아래에서 논의되는 디스플레이(312), 입력 디바이스(314), 및 커서 제어기(316)와 유사하다. 결합은 무선 또는 유선이다. 인터페이스 디바이스들 중 임의의 둘 이상이 단일 디바이스에 통합될 수 있다.

예시적인 클라우드 컴퓨팅 환경

도 2는 예시적인 "클라우드" 컴퓨팅 환경을 예시한다. 클라우드 컴퓨팅은 구성 가능한 컴퓨팅 리소스(예를 들면, 네트워크, 네트워크 대역폭, 서버, 프로세싱, 메모리, 스토리지, 애플리케이션, 가상 머신, 및 서비스)의 공유 풀에 대한 간편한 온-디맨드 네트워크 액세스를 가능하게 하기 위한 서비스 전달(service delivery)의 일 모델이다. 전형적인 클라우드 컴퓨팅 시스템에서는, 하나 이상의 대형 클라우드 데이터 센터가 클라우드에 의해 제공되는 서비스를 전달하는 데 사용되는 머신을 수용한다. 이제 도 2를 참조하면, 클라우드 컴퓨팅 환경(200)은 클라우드(202)를 통해 상호연결되는 클라우드 데이터 센터(204a, 204b, 및 204c)를 포함한다. 데이터 센터(204a, 204b, 및 204c)는 클라우드 컴퓨팅 서비스를 클라우드(202)에 연결된 컴퓨터 시스템(206a, 206b, 206c, 206d, 206e, 및 206f)에 제공한다.

클라우드 컴퓨팅 환경(200)은 하나 이상의 클라우드 데이터 센터를 포함한다. 일반적으로, 클라우드 데이터 센터, 예를 들어, 도 2에 도시된 클라우드 데이터 센터(204a)는 클라우드, 예를 들어, 도 2에 도시된 클라우드(202) 또는 클라우드의 특정한 부분을 구성하는 서버의 물리적 배열체를 지칭한다. 예를 들어, 서버는 클라우드 데이터 센터 내에 룸, 그룹, 로우(row), 및 랙(rack)으로 물리적으로 배열된다. 클라우드 데이터 센터는 하나 이상의 서버 룸을 포함하는 하나 이상의 구역을 갖는다. 각각의 룸은 하나 이상의 서버 로우를 가지며, 각각의 로우는 하나 이상의 랙을 포함한다. 각각의 랙은 하나 이상의 개별 서버 노드를 포함한다. 일부 구현예에서, 구역, 룸, 랙, 및/또는 로우 내의 서버는, 전력 요건, 에너지 요건, 열적 요건, 가열 요건, 및/또는 다른 요건을 포함하는, 데이터 센터 설비의 물리적 인프라스트럭처 요건에 기초하여 그룹으로 배열된다. 일 실시예에서, 서버 노드는 도 3에서 기술된 컴퓨터 시스템과 유사하다. 데이터 센터(204a)는 다수의 랙을 통해 분산된 다수의 컴퓨팅 시스템을 갖는다.

클라우드(202)는 클라우드 데이터 센터(204a, 204b, 및 204c)를 상호연결시키고 클라우드 컴퓨팅 서비스에 대한 컴퓨팅 시스템(206a 내지 206f)의 액세스를 용이하게 하는 것을 돕는 네트워크 및 네트워킹 리소스(예를 들어, 네트워킹 장비, 노드, 라우터, 스위치 및 네트워킹 케이블)와 함께 클라우드 데이터 센터(204a, 204b, 및 204c)를 포함한다. 일 실시예에서, 네트워크는 지상 또는 위성 연결을 사용하여 배치된 유선 또는 무선 링크를 사용하여 결합된 하나 이상의 로컬 네트워크, 광역 네트워크, 또는 인터네트워크의 임의의 조합을 나타낸다. 네트워크를 거쳐 교환되는 데이터는 IP(Internet Protocol), MPLS(Multiprotocol Label Switching), ATM(Asynchronous Transfer Mode), 및 프레임 릴레이 등과 같은 임의의 개수의 네트워크 계층 프로토콜을 사용하여 송신된다. 또한, 네트워크가 다수의 서브 네트워크의 조합을 나타내는 실시예에서, 상이한 네트워크 계층 프로토콜은 기저 서브 네트워크(underlying sub-network) 각각에서 사용된다. 일부 실시예에서, 네트워크는, 공중 인터넷과 같은, 하나 이상의 상호연결된 인터네트워크를 나타낸다.

컴퓨팅 시스템(206a 내지 206f) 또는 클라우드 컴퓨팅 서비스 소비자는 네트워크 링크 및 네트워크 어댑터를 통해 클라우드(202)에 연결된다. 일 실시예에서, 컴퓨팅 시스템(206a 내지 206f)은 다양한 컴퓨팅 디바이스, 예를 들어, 서버, 데스크톱, 랩톱, 태블릿, 스마트폰, IoT(Internet of Things) 디바이스, 자율 주행 차량(자동차, 드론, 셔틀, 기차, 버스 등을 포함함) 및 소비자 전자기기로서 구현된다. 일 실시예에서, 컴퓨팅 시스템(206a 내지 206f)은 다른 시스템 내에 또는 그 일부로서 구현된다.

컴퓨터 시스템

도 3은 컴퓨터 시스템(300)을 도시한다. 일 구현예에서, 컴퓨터 시스템(300)은 특수 목적 컴퓨팅 디바이스이다. 특수 목적 컴퓨팅 디바이스는 기술을 수행하도록 고정-배선(hard-wired)되거나, 기술을 수행하도록 지속적으로 프로그래밍되는 하나 이상의 ASIC(application-specific integrated circuit) 또는 FPGA(field programmable gate array)와 같은 디지털 전자 디바이스를 포함하거나, 펌웨어, 메모리, 다른 스토리지, 또는 조합에서 프로그램 명령에 따라 기술을 수행하도록 프로그래밍되는 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 또한, 그러한 특수-목적 컴퓨팅 디바이스는 커스텀 고정-배선 로직, ASIC, 또는 FPGA를 커스텀 프로그래밍과 조합하여 기술을 실현할 수 있다. 다양한 실시예에서, 특수-목적 컴퓨팅 디바이스는 기술을 구현하기 위한 고정-배선 및/또는 프로그램 로직을 포함하는 데스크톱 컴퓨터 시스템, 포터블 컴퓨터 시스템, 휴대용 디바이스, 네트워크 디바이스, 또는 임의의 다른 디바이스이다.

일 실시예에서, 컴퓨터 시스템(300)은 정보를 통신하기 위한 버스(302) 또는 다른 통신 메커니즘, 및 정보를 프로세싱하기 위해 버스(302)와 결합된 하드웨어 프로세서(304)를 포함한다. 하드웨어 프로세서(304)는, 예를 들어, 범용 마이크로프로세서이다. 컴퓨터 시스템(300)은 버스(302)에 결합된, 프로세서(304)에 의해 실행될 명령 및 정보를 저장하기 위한, RAM(random access memory) 또는 다른 동적 저장 디바이스와 같은, 메인 메모리(306)를 또한 포함한다. 일 구현예에서, 메인 메모리(306)는 프로세서(304)에 의해 실행될 명령의 실행 동안 임시 변수 또는 다른 중간 정보를 저장하는 데 사용된다. 그러한 명령은, 프로세서(304)에 의해 액세스 가능한 비-일시적 저장 매체에 저장될 때, 컴퓨터 시스템(300)을 명령에서 특정된 동작을 수행하도록 커스터마이징된 특수-목적 머신으로 렌더링한다.

일 실시예에서, 컴퓨터 시스템(300)은, 프로세서(304)를 위한 정적 정보 및 명령을 저장하기 위해 버스(302)와 결합된 ROM(read only memory)(308) 또는 다른 정적 저장 디바이스를 추가로 포함한다. 자기 디스크, 광학 디스크, 솔리드-스테이트 드라이브, 또는 3차원 크로스 포인트 메모리와 같은, 저장 디바이스(310)가 제공되고 정보 및 명령을 저장하기 위해 버스(302)에 결합된다.

일 실시예에서, 컴퓨터 시스템(300)은 버스(302)를 통해, 정보를 컴퓨터 사용자에게 디스플레이하기 위한 CRT(cathode ray tube), LCD(liquid crystal display), 플라스마 디스플레이, LED(light emitting diode) 디스플레이, 또는 OLED(organic light emitting diode) 디스플레이와 같은 디스플레이(312)에 결합된다. 문자 숫자식 및 다른 키를 포함하는 입력 디바이스(314)는 정보 및 커맨드 선택을 프로세서(304)에 통신하기 위해 버스(302)에 결합된다. 다른 타입의 사용자 입력 디바이스는, 디스플레이(312) 상에서 커서 움직임을 제어하고 방향 정보 및 커맨드 선택을 프로세서(304)에 통신하기 위한, 마우스, 트랙볼, 터치식 디스플레이, 또는 커서 방향 키와 같은, 커서 제어기(316)이다. 이 입력 디바이스는 전형적으로, 디바이스가 평면에서 위치를 특정할 수 있게 하는 2개의 축, 즉 제1 축(예를 들면, x-축) 및 제2 축(예를 들면, y-축)에서의 2 자유도를 갖는다.

일 실시예에 따르면, 본원에서의 기술은 프로세서(304)가 메인 메모리(306)에 포함된 하나 이상의 명령의 하나 이상의 시퀀스를 실행하는 것에 반응하여 컴퓨터 시스템(300)에 의해 수행된다. 그러한 명령은, 저장 디바이스(310)와 같은, 다른 저장 매체로부터 메인 메모리(306) 내로 판독된다. 메인 메모리(306)에 포함된 명령의 시퀀스의 실행은 프로세서(304)로 하여금 본원에서 기술된 프로세스 단계를 수행하게 한다. 대안적인 실시예에서는, 소프트웨어 명령 대신에 또는 소프트웨어 명령과 조합하여 고정-배선 회로가 사용된다.

본원에서 사용되는 바와 같은 용어 "저장 매체"는 머신이 특정 방식으로 동작하게 하는 데이터 및/또는 명령을 저장하는 임의의 비-일시적 매체를 지칭한다. 그러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함한다. 비휘발성 매체는, 예를 들어, 광학 디스크, 자기 디스크, 솔리드-스테이트 드라이브, 또는 3차원 크로스 포인트 메모리, 예컨대, 저장 디바이스(310)를 포함한다. 휘발성 매체는 동적 메모리, 예컨대, 메인 메모리(306)를 포함한다. 저장 매체의 일반적인 형태는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드-스테이트 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광학 데이터 저장 매체, 홀 패턴을 갖는 임의의 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, NV-RAM, 또는 임의의 다른 메모리 칩, 또는 카트리지를 포함한다.

저장 매체는 송신 매체와 별개이지만 송신 매체와 함께 사용될 수 있다. 송신 매체는 저장 매체들 간에 정보를 전달하는 데 참여한다. 예를 들어, 송신 매체는 버스(302)를 포함하는 와이어를 포함하여, 동축 케이블, 구리 와이어 및 광섬유를 포함한다. 또한, 송신 매체는 라디오 파 및 적외선 데이터 통신 동안 생성되는 것과 같은, 광파 또는 음향파의 형태를 취할 수 있다.

일 실시예에서, 실행을 위해 하나 이상의 명령의 하나 이상의 시퀀스를 프로세서(304)에 반송하는 데 다양한 형태의 매체가 수반된다. 예를 들어, 명령은 초기에 원격 컴퓨터의 자기 디스크 또는 솔리드-스테이트 드라이브에 보유된다. 원격 컴퓨터는 동적 메모리에 명령을 로딩하고 모뎀을 사용하여 전화선을 통해 명령을 전송한다. 컴퓨터 시스템(300)에 로컬인 모뎀은 전화선 상으로 데이터를 수신하고 적외선 송신기를 사용하여 데이터를 적외선 신호로 변환한다. 적외선 검출기는 적외선 신호로 반송되는 데이터를 수신하고 적절한 회로는 데이터를 버스(302)에 배치한다. 버스(302)는 데이터를 메인 메모리(306)로 반송하고, 프로세서(304)는 메인 메모리로부터 명령을 검색 및 실행한다. 메인 메모리(306)에 의해 수신된 명령은 프로세서(304)에 의해 실행되기 전이나 실행된 후에 선택적으로 저장 디바이스(310)에 저장될 수 있다.

컴퓨터 시스템(300)은 버스(302)와 결합된 통신 인터페이스(318)도 포함한다. 통신 인터페이스(318)는 로컬 네트워크(322)에 연결된 네트워크 링크(320)에 대한 2-웨이 데이터 통신(two-way data communication) 결합을 제공한다. 예를 들어, 통신 인터페이스(318)는 ISDN(integrated service digital network) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 타입의 전화선에 데이터 통신 연결을 제공하기 위한 모뎀이다. 다른 예로서, 통신 인터페이스(318)는 호환 가능한 LAN(local area network)에 데이터 통신 연결을 제공하기 위한 LAN 카드이다. 일부 구현예에서는, 무선 링크도 구현된다. 임의의 그러한 구현예에서, 통신 인터페이스(318)는 다양한 타입의 정보를 나타내는 디지털 데이터 스트림을 반송하는 전기 신호, 전자기 신호, 또는 광학 신호를 전송 및 수신한다.

네트워크 링크(320)는 전형적으로 하나 이상의 네트워크를 통한 다른 데이터 디바이스로의 데이터 통신을 제공한다. 예를 들어, 네트워크 링크(320)는 로컬 네트워크(322)를 통해 호스트 컴퓨터(324)로의 연결 또는 ISP(Internet Service Provider)(326)에 의해 운영되는 클라우드 데이터 센터 또는 장비로의 연결을 제공할 수 있다. ISP(326)는 차례로 지금은 "인터넷(328)"이라고 통칭되는 월드-와이드 패킷 데이터 통신 네트워크(world-wide packet data communication network)를 통해 데이터 통신 서비스를 제공한다. 로컬 네트워크(322) 및 인터넷(328) 양자 모두는 디지털 데이터 스트림을 반송하는 전기 신호, 전자기 신호, 또는 광학 신호를 사용한다. 다양한 네트워크를 통한 신호 및 컴퓨터 시스템(300)으로 그리고 컴퓨터 시스템(300)으로부터 디지털 데이터를 반송하는 통신 인터페이스(318)를 통한 네트워크 링크(320) 상의 신호는 송신 매체의 예시적인 형태이다. 일 실시예에서, 네트워크(320)는 위에서 기술된 클라우드(202) 또는 클라우드(202)의 일부를 포함한다.

컴퓨터 시스템(300)은 네트워크(들), 네트워크 링크(320) 및 통신 인터페이스(318)를 통해 프로그램 코드를 포함하는 메시지 및 데이터를 전송 및 수신한다. 일 실시예에서, 컴퓨터 시스템(300)은 프로세싱하기 위한 코드를 수신한다. 수신된 코드는 수신될 때 프로세서(304)에 의해 실행되고 및/또는, 추후의 실행을 위해 저장 디바이스(310) 또는 다른 비휘발성 스토리지에 저장된다.

자율 주행 차량 아키텍처

도 4는 자율 주행 차량(예를 들면, 도 1에 도시된 AV(100))에 대한 예시적인 아키텍처(400)를 도시한다. 아키텍처(400)는 인지 모듈(402)(때때로 인지 회로라고 지칭됨), 계획 모듈(planning module)(404)(때때로 계획 회로라고 지칭됨), 제어 모듈(406)(때때로 제어 회로라고 지칭됨), 로컬화 모듈(localization module)(408)(때때로 로컬화 회로라고 지칭됨), 및 데이터베이스 모듈(410)(때때로 데이터베이스 회로라고 지칭됨)을 포함한다. 각각의 모듈은 AV(100)의 동작에서 소정의 역할을 한다. 다함께, 모듈(402, 404, 406, 408 및 410)은 도 1에 도시된 AV 시스템(120)의 일부일 수 있다. 일부 실시예에서, 모듈(402, 404, 406, 408, 및 410) 중 임의의 모듈은 컴퓨터 소프트웨어(예를 들면, 컴퓨터 판독 가능 매체 상에 저장된 실행 가능한 코드) 및 컴퓨터 하드웨어(예를 들면, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, ASIC(application-specific integrated circuit), 하드웨어 메모리 디바이스, 다른 타입의 집적 회로, 다른 타입의 컴퓨터 하드웨어, 또는 이러한 것 중 임의의 것 또는 모든 것의 조합)의 조합이다.

사용 중에, 계획 모듈(404)은 목적지(412)를 나타내는 데이터를 수신하고 목적지(412)에 도달하기 위해(예를 들면, 도착하기 위해) AV(100)가 진행할 수 있는 궤적(414)(때때로 루트라고 지칭됨)을 나타내는 데이터를 결정한다. 계획 모듈(404)이 궤적(414)을 나타내는 데이터를 결정하기 위해, 계획 모듈(404)은 인지 모듈(402), 로컬화 모듈(408), 및 데이터베이스 모듈(410)로부터 데이터를 수신한다.

인지 모듈(402)은, 예를 들어, 도 1에도 도시된 바와 같이, 하나 이상의 센서(121)를 사용하여 인근의 물리적 대상체를 식별한다. 대상체는 분류되고(예를 들면, 보행자, 자전거, 자동차, 교통 표지판 등과 같은 타입으로 그룹화되고), 분류된 대상체(416)를 포함하는 장면 묘사는 계획 모듈(404)에 제공된다.

또한, 계획 모듈(404)은 로컬화 모듈(408)로부터 AV 위치(418)를 나타내는 데이터를 수신한다. 로컬화 모듈(408)은 위치를 계산하기 위해 센서(121)로부터의 데이터 및 데이터베이스 모듈(410)로부터의 데이터(예를 들면, 지리적 데이터)를 사용하여 AV 위치를 결정한다. 예를 들어, 로컬화 모듈(408)은 GNSS(Global Operation Satellite System) 센서로부터의 데이터 및 지리적 데이터를 사용하여 AV의 경도 및 위도를 계산한다. 일 실시예에서, 로컬화 모듈(408)에 의해 사용되는 데이터는 도로 기하학적 특성의 고-정밀 맵, 도로망 연결 특성을 기술하는 맵, 도로 물리적 특성(예컨대, 교통 속력, 교통량, 차량 및 자전거 운전자 교통 차선의 개수, 차선 폭, 차선 교통 방향, 또는 차선 마커 타입 및 위치, 또는 그 조합)을 기술하는 맵, 및 도로 특징부, 예를 들어, 횡단보도, 교통 표지판 또는 다양한 타입의 다른 진행 신호(travel signal)의 공간적 위치를 기술하는 맵을 포함한다.

제어 모듈(406)은 궤적(414)을 나타내는 데이터 및 AV 위치(418)를 나타내는 데이터를 수신하고, AV(100)로 하여금 목적지(412)를 향해 궤적(414)을 진행하게할 방식으로 AV의 제어 기능(420a 내지 420c)(예를 들면, 조향, 스로틀링, 제동, 점화)을 동작시킨다. 예를 들어, 궤적(414)이 좌회전을 포함하는 경우, 제어 모듈(406)은, 조향 기능의 조향각이 AV(100)로 하여금 좌측으로 회전하게 하고 스로틀링 및 제동이 AV(100)로 하여금 이러한 회전이 이루어지기 전에 통과하는 보행자 또는 차량을 위해 일시정지 및 대기하게 하는 방식으로 제어 기능(420a 내지 420c)을 동작시킬 것이다.

합리적인 크라우드 데이터로 트레이닝된 머신 러닝 모델을 사용한 교통 시나리오와 연관된 궤적의 스코어링

이전에 설명된 바와 같이, AV는 주어진 교통 시나리오를 상이한 방식으로 횡단할 수 있다. 그렇지만, AV가 교통 시나리오를 횡단하기 위한 "최상의" 궤적을 선택하는 것이 요망된다. 아래에서 기술되는 실시예는 해석 가능한 방식으로 AV 궤적에 대한 합리성 점수를 예측하기 위해 ML 모델을 사용한다. 일 실시예에서, 합리성 점수는 실수이고, 점수가 높을수록, 궤적이 더 합리적이다. 인간 어노테이션은 파라미터를 모델에 알려준다. 해석 가능성을 달성하기 위해, 일 실시예에서, AV가 교통 시나리오를 어떻게 횡단하는지를, AV 궤적에 합리성 점수를 할당하기 위해 정형적으로 분석될 수 있는, 인간 이해 가능 컴포넌트로 분해하기 위해 규칙집이 사용될 수 있다. ML 모델이 트레이닝된 후에, ML 모델은 이어서 AV의 실시간 동작 동안 AV가 교통 시나리오를 횡단하기 위한 2개 이상의 궤적에 대한 합리성 점수를 예측하는 데 사용될 수 있다. 점수는 AV가 주어진 교통 시나리오를 횡단하기 위해 어느 궤적을 선택해야 하는지를 결정하는 데 사용될 수 있다. 이러한 방식으로, 하나의 궤적이 다른 궤적보다 선택될 수 있는데 그 이유는 그것이 합리적인 크라우드 데이터에 따라 더 "합리적"이기 때문이다.

교통 시나리오

일 실시예에서, 교통 시나리오는 다음과 같은 관련 특징을 갖는다:

맵(M): 도로망 및 정적 환경(예를 들면, 건물, 도로 마킹)의 토폴로지. 도 5a는 차선 마킹 및 횡단보도(501)를 갖는 거리 교차로(500)를 포함하는 토폴로지를 예시하는 맵이다.

시나리오(b): 다른 에이전트, 그의 시작 위치 및 그의 궤적으로 채워진 맵인, 교통 시나리오의 배경. 도 5b는 에이전트(502)(보행자)가 교차로(500)에서 횡단보도(501)에 진입하려고 하는 예시적인 교통 시나리오를 예시한다.

궤적(t): 주어진 교통 시나리오에서의 AV의 궤적.

시나리오(b)의 실현(w), w ∈ W_b: 실현은 교통 시나리오 및 이를 통한 AV의 궤적을 포함한다. 도 5c는 예시적인 AV(503)가 교차로(500)를 횡단하는 것을 예시한다.

어노테이션

ML 모델을 트레이닝시키기 위해서는 어노테이션된 데이터가 필요하다. 일 실시예에서, 어노테이션될 원시 데이터는 교통 시나리오의 모음

및 교통 시나리오 각각과 연관된 실현 세트

이다.

이어서 인간 어노테이터에게 이러한 실현의 서브세트를 보여주고 이를 순위화하도록 요청한다. 구체적으로, 순위화(π)는 실현의 모음(W)의 순열이고:

여기서

는 순위화될 실현의 수이고, π(wi)는 실현(wi)의 순위이다. π는 ML 모델이 이를 바탕으로 트레이닝되는 실측 데이터로서 역할한다. 인간이 특정 실현에 대한 절대 점수(absolute score)를 제공할 것으로 기대하는 것이 비현실적이기 때문에 어노테이터가 실현을 순위화하거나 평가하도록 요청받는다는 점에 유의한다.

쌍별 비교

인간 어노테이터에 대한 인지 부하를 감소시키기 위해, 일 실시예에서, 어노테이터에게 실현 쌍을 보여주고 어노테이터가 가장 합리적이라고 생각하는 실현을 선택하도록 어노테이터에게 요청한다.

정형적으로, m개의 실현의 세트 {w₁,...,w_m}을 고려한다. m개의 실현을 쌍으로 만드는(pair)

개의 방식이 있다. 예를 들어, 컴퓨터 스크린 상에서 그러한 쌍을 어노테이터에게 보여주고, 예를 들어, 더 합리적인 실현과 같은, 그의 선호된 실현을 선택하도록 요청한다. 일 실시예에서, 어노테이터의 선호도는 함수 h로 인코딩되고:

여기서

는 m개의 실현을 쌍으로 만드는 k번째 가능한 방식이고, i, j는 1과 m 사이의 정수이다. 어노테이터의 선호도를 인코딩하기 위해 다른 함수가 사용될 수 있거나, 또는 선호도가 직접적으로 사용될 수 있다.

실현 쌍이 동일한 교통 시나리오로부터 나오는 것으로 제약되지 않는다는 점에 유의한다. 그렇지만, 데이터 품질을 증가시키기 위해, 실현 쌍이 동일한 시나리오로부터 나오도록 제약될 수 있다. 게다가, 시끄러운 어노테이션 및 어노테이터의 편견을 고려하기 위해, 동일한 실현 쌍

를 어노테이션하도록 다수의 인간 어노테이터에게 요청할 수 있다. 게다가, 인코딩 함수(h)가 주어지면, Nihar B. Shah, Sivaraman Balakrishnan, Adityanand Guntuboyina, and Martin J. Wainwright. Stochastically Transitive Models for Pairwise Comparisons: Statistical and Computational Issues, 2015에 기술된, Bradley-Terry 모델과 같은, 확률적 추이 모델(stochastically transitive model)을 사용하여 실측 데이터(π)가 생성될 수 있음에 유의한다.

위에서 기술된 실현은 상이한 방식으로 획득될 수 있다. 일 실시예에서, 인간 피험자가 상이한 방식으로 동일한 실제 교통 상황을 횡단하는 차량에 앉아 있다. 그렇지만, 이것은 엄청나게 비용이 많이 든다. 대안의 실시예에서, 테스트 사례 편집기를 사용하여 수작업으로 생성되거나 교통을 시뮬레이션하는 알고리즘에 의해 생성된 표현을 수집(ingest)하는 시뮬레이터가 사용된다. 시뮬레이터는 3차원(3D) 비디오를 생성하고, 3차원(3D) 비디오가 이어서 인간 어노테이터에게 보여진다.

도 6은 하나 이상의 실시예에 따른, 인간 어노테이터가 궤적 쌍으로부터 궤적을 선택할 수 있게 하기 위한 예시적인 어노테이션 툴 인터페이스(600)이다. 툴 인터페이스(600)의 다른 실시예가 또한 가능하다. 도시된 예에서, 예를 들어, 컴퓨터 스크린 상에 나란히 제시된 비디오(601a)(A)와 비디오(601b)(B)를, "합리적인 운전자라면 A 또는 B에서와 같이 행동할 가능성이 가장 높을까요?"라는 지시사항과 함께, 인간 어노테이터에게 보여준다. 인터페이스(600)는 어노테이터가 비디오를 재생할 수 있게 하는 재생 버튼과 같은, 탐색 컨트롤(navigation control)을 포함한다. 어노테이터는 자신의 선호도를 표시하기 위해 비디오(601a, 601b) 중 하나를 클릭할 수 있다. 탐색 컨트롤은 어노테이터가 상이한 교통 시나리오 사이에서 앞뒤로 이동할 수 있게 하기 위해 그래픽 사용자 인터페이스(GUI) 요소를 또한 포함한다.

규칙집

위에서 이전에 정의된 바와 같이, "규칙집"은 수학적 규칙으로 변환되는 교통 법규, 도로 규칙 및 이해관계자 요구사항의 모음이며:

여기서 n개의 규칙이 있고 R은 실수의 집합이라고 가정된다. 함수 r_i(w)는 w에서의 AV에 의한 특정 규칙의 위반 또는 충족의 정도를 나타낸다. 예를 들어, r_i(w)는 AV가 여전히 도로에 있는지 여부를 나타낼 수 있다.

규칙집은 또한 상이한 규칙의 상대적 중요도에 관한 신뢰를 인코딩하는 우선순위 구조를 가질 수 있다. 부분 순서화를 갖는 예시적인 규칙집(700)이 도 7에 도시되어 있다. 인간의 안전이 주차 규칙을 위반하는 것보다 우선순위화되고, 주차 규칙과 정차 규칙은 유사한 중요도를 가지며, 여기서 우선순위는 위에서 아래로 감소한다는 점에 주목한다. 이러한 부분 순서 구조는 일부 궤적(예를 들면, 보행자가 충돌되는 궤적, 및 AV가 불법적으로 주차되는 궤적)을 순위화하지만, (예를 들면, 주차된 자동차가 충돌되는 궤적, 및 동물이 충돌되는 다른 궤적과 같은) 모든 궤적을 순위화하지는 않는다.

ML 모델 - 셋업

일 실시예에서, "합리적인 인간"이 w₂보다 w₁을 선호하는 경우에만

이도록 - 단, w₁과 w₂는 2개의 상이한 실현임 -, 합리성 점수를 임의의 실현에 할당할 수 있는 합리성 스코어링 함수 s가 정의된다:

함수 s는 실현에 대해 직접적으로 작동할 수 있지만, 해석 가능성을 달성하기 위해, 그의 아키텍처는 먼저 실현(w_s)을 규칙집으로부터 취해진 규칙의 모음에 임베딩하고, 이어서 이를 ML 모델을 사용하여 프로세싱하도록 제약되며:

여기서 규칙 임베딩은 규칙집의 출력을 포함하며 다음과 같이 완전히 해석 가능(fully interpretable)하다:

함수 s_rules는 규칙 위반 또는 충족에 기초하여 궤적을 스코어링하는 학습된 ML 모델이며, 예를 들어, 완전 연결(fully-connected) 신경 네트워크 또는 결정 트리일 수 있다. s_rules에 대한 일부 제약이 있음에 유의한다. 더 큰 r_i(w)가 규칙 i의 더 큰 충족을 나타낸다고 가정하면, 다음과 같은 제약 조건이 있다:

1 ≤ i ≤ n인 경우, 임의의 w 및 δ는 임의의 양의 실수이다. 변수 α _i는 n 차원의 i 번째 단위 벡터이며, 1인 그의 i 번째 엔트리를 제외하고 모든 곳에서 0이다. 수학식 9는 2개의 실현 w₁과 w₂가 동일한 경우, w₂가 특정 규칙을 더 위반하는 것을 제외하고, w₁이 w₂보다 합리적이어야 한다는 것을 나타낸다.

도 8은 하나 이상의 실시예에 따른, ML 트레이닝 절차(800)를 예시한다. 도시된 예에서, 실현 W의 데이터베이스(801)가 실현 쌍(w₁, w₂)에 대해 질의를 받는다. 실현을, 각각이 AV가 상이한 규칙(예를 들면, 교통 법규)을 얼마나 잘 준수하는지를 나타내는 점수 리스트/벡터인, e _rules(w₁) 및 e _rules(w₂)로 변환하기 위해 하나 이상의 규칙집(804)이 이어서 사용된다. ML 모델(806)은 e _rules(w₁)과 e _rules(w₂)를 프로세싱하고 w₁과 w₂를 평가한다. 예를 들어, ML 모델(806)은, w₁을 w₂보다 높게 평가하는 경우, w₁이 w₂보다 합리적이라고 예측한다. 도 6을 참조하여 기술된 바와 같이, 복수의 인간 어노테이터(805)에 w₁ 및 w₂의 3D 렌더링(803)을 보여주고 복수의 인간 어노테이터(805)에 의해 결정된 바와 같이, 이렇지 않는 경우에 ML 모델(806)의 파라미터가 수정된다. 다른 실시예에서, 실현 쌍을 어노테이션하지 않고, 어노테이터는 임의의 수의 궤적을 서로에 대해 순위화할 수 있다.

모델 파라미터 튜닝

ML 모델(806)은 트레이닝 데이터로부터 결정될 필요가 있는 많은 파라미터를 갖는다. 특히, 트레이닝 데이터 데이터베이스가 이하의 식에 의해 주어지는, K개의 실현 쌍 및 그와 연관된 레이블이 포함한다고 가정하며:

여기서

와

는 실현이고, k=1...K이다.

학습 문제는 분류 문제처럼 보이며: 실현 쌍 x = (u, v) 및 그와 연관된 레이블 y = h (u, k)가 주어지면, ML 모델(806)은 실현 u가 실현 v보다 합리적인지 여부를 예측한다. 일 실시예에서, ML 모델(806)은 두 번: e _rules(u) 및 e _rules(v) 각각에 대해 한 번씩 실행되며, 2개의 예측: 합리성 점수 s(u) 및 s(v)를 생성한다. 점수 차이(score differential)는 다음과 같이 정의되고

여기서 ML 모델(806)은 다음과 같은 방식으로 x를 분류하는 데 사용된다:

ML 모델(806)의 파라미터는 그러면 목적(손실) 함수를 최소화함으로써 결정되고:

여기서

인 경우 L(y, d(x))는 모델에 페널티를 부과한다. 패널티의 크기는 d(x)에 의해 결정된다.

는 정규화 항(regularization term)이며, 예를 들어, L1 또는 L2 정규화 항일 수 있다.

는 규칙집의 구조를 위반하는 예측에 페널티를 부과하며:

여기서

는 다른 손실 항(loss term)에 대한

의 중요도를 인코딩하는 포지티브 스칼라이고,

는 실현

가

보다 선호되는지 여부에 대한 규칙집의 예측이며,

와

는 k 번째 샘플의 실현 쌍이고, 여기서 k = 1...K이다(따라서

임). 규칙집이 항상 2개의 실현을 비교할 수는 없으며, 이 경우에

는

과 동일하다는 점에 유의한다. 규칙집은 2개의 실현 중 하나가 더 높은 계층구조 레벨에 있는 규칙을 위반하는 경우에만 2개의 실현을 비교할 수 있다. 구체적으로,

가능한 손실 함수

일 실시예에서, 힌지 손실 함수가 목적 함수로서 사용될 수 있다. 힌지 손실은 레이블 y=+1을 갖는 샘플과 레이블 y=-1을 갖는 샘플 사이의 명확한 마진(clear margin)을 예상한다. 힌지 손실 함수는 다음과 같이 주어지며:

여기서 d(x)는 입력 x에 대한 차등 점수(differential score)이다. 다른 실시예에서, 다음과 같이 주어지는, 슬랙을 허용하는 상이한 손실 함수가 사용될 수 있다:

일 실시예에서, L1 손실 또는 L2 손실, 또는 L1 손실과 L2 손실의 조합(평활화된 L1 손실)이 사용될 수 있다. 예를 들어, L2 손실은 다음과 같이 주어진다:

회귀 학습 실시예

일 실시예에서, Nihar B. Shah, Sivaraman Balakrishnan, Adityanand Guntuboyina, and Martin J. Wainwright. Stochastically Transitive Models for Pairwise Comparisons: Statistical and Computational Issues, 2015에 기술된 바와 같이, 확률적 추이 모델을 어노테이터의 선호도에 피팅함으로써 실측 데이터가 실현에 할당된다.

이러한 확률적 추이 모델은 샘플

에 대한 실측 회귀 목표(ground-truth regression target)를 제공하며, 여기서 k=1...K이다.

여기서

는 실현 u에 할당되는 실측 점수이다. 파라미터

가 이어서

와 직접적으로 비교되고, L2 회귀 손실

과 같은 회귀 손실이 사용된다. 대안적으로,

가

와 직접적으로 비교될 수 있다.

예시적인 아키텍처

개시된 실시예에서 이용될 수 있는 매우 다양한 ML 모델이 있다. 인공 신경 네트워크는 특히 인기가 있으며, 실제로는 매우 잘 작동한다. 그렇지만, 단순함을 위해, 선형 서포트 벡터 머신(선형 SVM)이 사용될 수 있다. 선형 SVM은 또한 해석하기 더 쉽다. 다른 모델은 회귀 분석, 베이지안 예측, 다층 퍼셉트론 및 유전자 프로그래밍을 포함하지만 이에 제한되지 않는다.

일 실시예에서, 선형 SVM인

은 규칙집 내의 각각의 규칙에 가중치를 할당한다. 더 큰 가중치는 더 중요한 규칙을 나타낸다. 선형 SVM은 이어서 다음과 같은 방식으로 규칙 점수 e _rules(w)로 실현 w를 평가하며:

여기서

이고, 단순함을 위해 편향 항(bias term)이 생략된다.

입력 x = (u, v)에 대해, 차등 점수는 다음과 같이 주어진다:

결과적으로, 선형 SVM은 두 번이 아닌 한 번 실행함으로써 데이텀(datum) (x, y)에 대해 트레이닝될 수 있다. 규칙 차이(rules differential)는

로서 제공된다. 선형 SVM은 수학식 18에 나타낸 힌지 손실을 이용하며, 선형 SVM의 경우, L2 정규화 항은

형태이고, 여기서 λ ∈ R이다.

대안적인 임베딩

비록 교통 법규가 운전자의 행동에 강한 영향을 미치지만, 그것이 운전자의 행동을 결정하는 유일한 인자는 아니다. 다른 에이전트의 행동 및 운전자의 시야가 어떻게 가려지는지와 같은, 다른 인자도 역할을 한다. 자체적으로, 교통 법규는 합리적 행동을 구성하는 것에 대한 어노테이터의 선호도를 항상 이해하기에 충분한 정보를 포함하지 않는다. 규칙이 법규에 인코딩되지 않은 행동을 포함하도록 확장되더라도(예를 들면, 진동 궤적(oscillatory trajectory)에 페널티를 부과하는 규칙), 주어진 규칙 세트가 모든 관련 인자를 포함하는 것은 아닐 수 있다.

도 9는 하나 이상의 실시예에 따른, 신경 네트워크에 대한 트레이닝 데이터로서 사용될 교통 시나리오의 예시적인 조감도(BEV) 임베딩(900)을 예시한다. 일 실시예에서, 행동 예측 문헌에서 흔히 사용되는 바와 같이, 장면의 많은 관련 측면을 BEV 의사 이미지에 임베딩함으로써 특정 장면에서 더 많은 정보가 캡처된다. 그러한 임베딩은, 예를 들어, 시나리오를 높이(H), 폭(W) 및 C개의 채널의 의사 이미지에 매핑하는 함수일 수 있다:

예를 들어, 도 8에 도시된 의사 RGB 이미지에서, C = 3이고 운전 가능 영역(901), 횡단보도(902) 등을 포함한다. 학습된 스코어링 함수는 e _rules(w) 대신에 임베딩 e _img(w)에 대해 작동할 것이고, 수학식 7은 다음으로 대체된다:

따라서, 실현을 의사 이미지에 임베딩하는 것은 규칙 임베딩과 대조하여 비교하고, 규칙 임베딩을 알리며, 규칙 임베딩을 검증하기 위한 대안적인 합리성 스코어링 방법을 제공한다. 예를 들어, 학습된 임베딩에 기초한 ML 모델과 규칙 임베딩에 기초한 ML 모델 간의 큰 성능 갭(performance gap)은 관련 규칙이 누락되어 있을 수 있음을 암시한다.

일 실시예에서, 컴퓨터 비전 커뮤니티가 의사 이미지에 대한 우수한 효과를 보여주었기 때문에, s_img는 CNN(Convolutional Neural Network)일 수 있다. 사용된 CNN은, 예를 들어, Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition, 2015에 기술된 바와 같은, 잔여 네트워크(residual network)일 수 있다. 또는, 대안적으로, Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition, 2014에 기술된 VGG 네트워크일 수 있다.

다른 실시예에서, 궤적의 벡터 표현에 대해 직접적으로 작동하는 벡터 임베딩과 같은, 다른 유형의 임베딩이 사용될 수 있다. 벡터 임베딩은 Jiyang Gao et al. VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation.arXiv:2005.04259v1 [cs.CV]에 기술되어 있다.

추가 사용자 사례

A. 플래너 성능 평가

일 실시예에서, 설명된 기술은 루트 플래너 및 그 성능을 튜닝하는 데 사용될 수 있다. L개의 교통 시나리오의 모음이 주어지면

루트 플래너가 각각의 시나리오에 대해 실행된다. 루트 플래너는 위에서 기술된 바와 같이 트레이닝된 ML 모델을 사용하여 L개의 교통 시나리오 각각에 대한 궤적을 예측한다:

ML 모델은 궤적들 각각을 평가하고, 그 결과 L개의 점수가 얻어진다:

이러한 점수로부터 플래너에 대한 메트릭이 형성될 수 있다. 예를 들어, 메트릭은 점수들의 평균일 수 있다:

추가적으로, 플래너가 어느 시나리오에 대해 성능이 좋지 않았는지를 식별함으로써 플래너를 미세 튜닝(fine tune)하는 데 점수가 도움이 될 수 있다. 플래너의 파라미터 또는 설계가 이어서 부적절한 성능을 해결하기 위해 변경될 수 있다.

B. 2개의 AV 스택의 비교

일 실시예에서, 합리적인 크라우드 점수는 2개의 AV 소프트웨어 스택의 성능을 비교하는 방식을 제공한다. AV 소프트웨어 스택은 하나 이상의 서브시스템 구현(예를 들면, 플래너 및/또는 대상체 검출기)에서 상이할 수 있다. 일 실시예에서, 수학식 30의 메트릭은 AV 소프트웨어 스택의 성능을 비교하는 데 사용된다.

C. 강화 학습

일 실시예에서, 위에서 기술된 트레이닝된 ML 모델은 강화 학습 알고리즘에서 보상 함수로서 사용된다. 실제 로봇 공학에서, 양호한 보상 함수를 설계하는 것이 합리적인 행동을 획득하는 데 중요하다.

예시적인 프로세스

도 10은 하나 이상의 실시예에 따른, AV의 실시간 동작 동안 AV 궤적에 대한 합리성 점수를 예측하기 위해 ML 모델을 사용하는 프로세스(1000)의 흐름 다이어그램이다. 프로세스(1000)는, 예를 들어, 도 3을 참조하여 기술된 컴퓨터 시스템(300)에 의해 구현될 수 있다.

프로세스(1000)는 AV에 대한 궤적 세트를 생성하는 것으로 시작되며, 여기서 각각의 궤적은 교통 시나리오와 연관되어 있다(1001). 예를 들어, AV의 계획 모듈(404)은 교통 시나리오에 대한 다수의 후보 궤적을 생성할 수 있으며, 후보 궤적 각각은 규칙집 내의 규칙을 충족시킨다.

프로세스(1000)는 각각의 궤적에 대한 합리성 점수를 예측하는 것으로 계속되며, 여기서 합리성 점수는 복수의 인간 어노테이터로부터 획득된 입력 및 규칙집 구조를 위반하는 합리성 점수의 예측에 페널티를 부과하는 손실 함수를 사용하여 트레이닝되는 머신 러닝 모델로부터 획득된다(1002). 예를 들어, 합리성 점수를 예측하도록 트레이닝된 ML 모델은 규칙집의 규칙에 실현 쌍을 임베딩함으로써 생성된 규칙집 점수 세트로 트레이닝될 수 있으며, 여기서 점수 세트는 특정 실현이 규칙을 얼마나 잘 준수하는지(즉, 규칙을 위반하는지 충족시키는지)를 나타내거나 이에 대응한다.

프로세스(1000)는 차량 루트 플래너의 성능을 개선시키기 위해, 2개 이상의 차량 소프트웨어 스택을 비교하기 위해, 강화 학습 알고리즘에 대한 보상으로서 또는 차량 궤적을 스코어링하는 머신 러닝 모델로부터 이득을 볼 수 있는 임의의 다른 애플리케이션에 의한 사용을 위해, 예측된 합리성 점수를 사용하는 것으로 계속된다(1003). 예를 들어, 계획 모듈(404)은 교통 시나리오를 횡단하기 위해, 즉 보행자(502)와의 충돌을 피하기 위해 AV에 의해 사용될 가장 합리적인 궤적을 선택하기 위해 예측된 합리성 점수를 사용할 수 있다.

도 11은 하나 이상의 실시예에 따른, AV 궤적에 대한 합리성 점수를 예측하기 위해 ML 모델을 트레이닝시키는 프로세스(1100)의 흐름 다이어그램이다. 프로세스(1100)는, 예를 들어, 도 3을 참조하여 기술된 컴퓨터 시스템(300)에 의해 구현될 수 있다.

프로세스(1100)는 하나 이상의 교통 시나리오의 실현 세트를 획득하는 것으로 시작되며, 여기서 각각의 실현은 교통 시나리오 및 교통 시나리오를 횡단하는 차량의 궤적을 포함한다(1101). 일 실시예에서, 인간 피험자가 상이한 방식으로 동일한 실제 교통 상황을 횡단하는 차량에 앉아 있다. 대안의 실시예에서, 테스트 사례 편집기를 사용하여 수작업으로 생성되거나 교통을 시뮬레이션하는 알고리즘에 의해 생성된 표현을 수집하는 시뮬레이터가 사용된다. 시뮬레이터는 3D 비디오를 생성하고, 3D 비디오는 이어서, 컴퓨터 디스플레이와 같은, 디스플레이 상에서 인간 어노테이터에게 제시된다.

프로세스(1100)는, 규칙집을 사용하여, 실현 세트를 궤적이 규칙집 내의 상이한 규칙을 얼마나 잘 준수하는지에 대응하는 각각의 실현에 대한 점수 세트로 변환하는 것으로 계속된다(1102). 일 실시예에서, 실현은 규칙집으로부터 취해진 규칙의 모음에 임베딩되며, 여기서 규칙집은 정확한 수학적 규칙으로 변환되는 교통 법규, 도로 규칙 및 이해관계자 요구사항의 모음을 포함한다. 각각의 실현에 대한 점수 세트가 있으며, 여기서 세트 내의 각각의 특정 점수는 궤적이 특정의 대응하는 규칙을 얼마나 잘 준수하는지를 나타낸다. 일 실시예에서, 계획 모듈은 각각의 궤적에 대한 모든 점수를 가산하고, 가장 높은 총 점수를 갖는 궤적이 특정 교통 시나리오에 대한 AV에 대한 "최상의" 궤적으로서 선택될 것이다. 그렇지만, 동일한 점수를 가진 다수의 후보 궤적이 이용 가능한 경우, 다음 프로세스 단계에서 기술된 바와 같이, 가장 합리적인 궤적을 선택하는 데 도움을 주기 위해 합리적인 점수가 검토될 수 있다.

프로세스(1100)는 입력으로서 점수 세트를 갖는 머신 러닝 모델을 사용하여, 실현 세트에 대한 합리성 점수를 예측하는 것으로 계속된다(1103). 머신 러닝 모델은 선형 SVM을 포함하지만 이에 제한되지 않는, 합리성 점수를 예측하도록 트레이닝될 수 있는 임의의 모델일 수 있거나, 또는 실현이 의사 이미지에 임베딩되는 경우, 예를 들어, CNN일 수 있다.

프로세스(1100)는 각각의 실현의 합리성을 나타내는 복수의 인간 어노테이터로부터의 어노테이션을 획득하는 것으로 계속된다(1104). 예를 들어, 도 6을 참조하여 기술된 바와 같이, 실현 쌍은 2차원(2D) 또는 3D 비디오로 렌더링되어 복수의 어노테이터에게 제시될 수 있다. 어노테이터는 가장 합리적이라고 생각하는 쌍의 실현을 선택하도록 요청받는다. 실현 쌍은 동일한 교통 시나리오 또는 상이한 교통 시나리오를 포함할 수 있다.

프로세스(1100)는 어노테이션에 적어도 부분적으로 기초하여 실측 데이터를 생성하는 것으로 계속된다(1105). 예를 들어, 어노테이터가 제1 실현을 선호하면 제1 값(예를 들면, +1)을 출력하고 그렇지 않은 경우 다른 값(예를 들면, -1)을 출력하는 함수에 의해 어노테이션이 인코딩될 수 있다. 이 함수는 그러면, 예를 들어, Bradley-Terry 모델과 같은, 확률적 추이 모델을 사용하여 실측 데이터를 생성하는 데 사용될 수 있다.

프로세스(1100)는 실측 데이터 및 예측된 합리성 점수의 손실 함수를 최소화하는 것으로 계속되며, 여기서 손실 함수는 규칙집 구조를 위반하는 합리성 점수의 예측에 페널티를 부과한다(1106). 일 실시예에서, 힌지 손실 함수가 목적 함수로서 사용될 수 있다. 다른 예에서, 슬랙을 허용하는 손실 함수가 사용될 수 있다. 또 다른 실시예에서, L1 손실 또는 L2 손실, 또는 L1 손실과 L2 손실의 조합(평활화된 L1 손실)이 사용될 수 있다.

프로세스(1100)는 최소화된 손실 함수의 출력에 기초하여 머신 러닝 모델의 파라미터를 결정하는 것으로 계속된다(1107). 예를 들어, 차등 합리성 점수(differential reasonableness score)가 최소화될 수 있다.

전술한 설명에서, 본 발명의 실시예는 구현마다 달라질 수 있는 다수의 특정 세부 사항을 참조하여 기술되었다. 따라서, 상세한 설명 및 도면은 제한적인 관점보다는 예시적인 관점에서 보아야 한다. 본 발명의 범위의 유일한 독점적인 지표, 및 출원인이 본 발명의 범위가 되도록 의도한 것은, 본 출원에서 특정 형태로 나오는 청구항 세트의 문언적 등가 범위이며, 그러한 청구항이 나오는 특정 형태는 임의의 후속 보정을 포함한다. 그러한 청구항에 포함된 용어에 대한 본원에서 명시적으로 기재된 임의의 정의는 청구항에서 사용되는 그러한 용어의 의미를 결정한다. 그에 부가하여, 전술한 설명 및 이하의 청구항에서 용어 "추가로 포함하는"이 사용될 때, 이 문구에 뒤따르는 것은 추가적인 단계 또는 엔티티, 또는 이전에 언급된 단계 또는 엔티티의 서브-단계/서브-엔티티일 수 있다.

Claims

방법에 있어서,
하나 이상의 프로세서를 사용하여, 환경에서 동작하는 차량에 대한 궤적 세트를 생성하는 단계 - 상기 궤적 세트 내의 각각의 궤적은 교통 시나리오와 연관됨 -;
상기 하나 이상의 프로세서를 사용하여, 상기 궤적 세트 내의 각각의 궤적에 대한 합리성 점수(reasonableness score)를 예측하는 단계 - 상기 합리성 점수는 복수의 인간 어노테이터(human annotator)로부터 획득된 입력 및 규칙집 구조를 위반하는 합리성 점수의 예측에 페널티를 부과하는 손실 함수를 사용하여 트레이닝되는 머신 러닝 모델로부터 획득됨 -;
상기 하나 이상의 프로세서를 사용하여, 상기 궤적에 대한 상기 예측된 합리성 점수를 사용하여 상기 차량의 루트 플래너(route planner)를 보강하는 단계;
상기 하나 이상의 프로세서를 사용하여, 상기 보강된 루트 플래너를 사용하여 상기 환경에서의 궤적을 계획하는 단계; 및
상기 차량의 제어 회로를 사용하여, 상기 계획된 궤적을 따라 상기 차량을 동작시키는 단계
를 포함하는, 방법.
방법에 있어서,
하나 이상의 프로세서를 사용하여, 하나 이상의 교통 시나리오의 실현(realization) 세트를 획득하는 단계 - 각각의 실현은 교통 시나리오 및 상기 교통 시나리오를 횡단하는(traversing) 차량의 궤적을 포함함 -;
상기 하나 이상의 프로세서 및 규칙집을 사용하여, 각각의 실현을 상기 실현이 상기 규칙집 내의 상이한 규칙을 얼마나 잘 준수하는지에 대응하는 점수 세트로 변환하는 단계;
입력으로서 상기 점수 세트를 갖는 머신 러닝 모델을 사용하여, 상기 실현 세트에 대한 합리성 점수를 예측하는 단계;
상기 하나 이상의 프로세서를 사용하여, 복수의 인간 어노테이터로부터 어노테이션을 획득하는 단계 - 상기 어노테이션은 각각의 실현의 합리성을 나타냄 -;
상기 하나 이상의 프로세서를 사용하여, 상기 어노테이션에 적어도 부분적으로 기초하여 실측 데이터(ground-truth data)를 생성하는 단계;
상기 하나 이상의 프로세서를 사용하여, 상기 실측 데이터 및 예측된 합리성 점수의 손실 함수를 최소화하는 단계 - 상기 손실 함수는 상기 규칙집 구조를 위반하는 합리성 점수의 예측에 페널티를 부과함 -; 및
상기 하나 이상의 프로세서를 사용하여, 상기 최소화된 손실 함수의 출력에 기초하여 상기 머신 러닝 모델의 파라미터를 결정하는 단계
를 포함하는, 방법.
제2항에 있어서, 상기 손실 함수는 힌지(hinge) 또는 슬랙(slack) 손실 함수인 것인, 방법.
제2항에 있어서, 상기 머신 러닝 모델은 선형 서포트 벡터 머신인 것인, 방법.
제2항에 있어서, 상기 머신 러닝 모델은 신경 네트워크인 것인, 방법.
제5항에 있어서, 상기 머신 러닝 모델을 사용하여, 상기 실현 세트에 대한 예측된 합리성 점수를 생성하는 것은:
상기 신경 네트워크에의 입력으로서, 상기 실현 세트의 의사 이미지 임베딩(pseudo-image embeddings)을 제공하는 것을 더 포함하는 것인, 방법.
제6항에 있어서, 상기 의사 이미지 임베딩은 조감도(BEV; bird's eye view) 임베딩인 것인, 방법.
제5항에 있어서, 상기 머신 러닝 모델을 사용하여, 상기 실현 세트에 대한 예측된 합리성 점수를 생성하는 것은:
상기 신경 네트워크에의 입력으로서, 상기 실현 세트에 대한 벡터 임베딩을 제공하는 것을 더 포함하는 것인, 방법.
제5항에 있어서, 상기 머신 러닝 모델은 이미지에 대해 트레이닝된 컨볼루션 신경 네트워크인 것인, 방법.
제9항에 있어서, 상기 실현 세트는 동일한 교통 시나리오를 포함하는 것인, 방법.
제9항에 있어서, 제1 점수 세트가 상기 머신 러닝 모델에 입력되고, 상기 머신 러닝 모델은 제1 합리성 점수를 예측하며, 이어서 제2 점수 세트가 상기 머신 러닝 모델에 입력되고, 상기 머신 러닝 모델은 제2 합리성 점수를 예측하는 것인, 방법.
제2항에 있어서, 상기 복수의 인간 어노테이터로부터 인간 어노테이션을 획득하는 단계는:
상기 하나 이상의 프로세서를 사용하여, 교통 시나리오와 연관된 실현 쌍을 획득하는 단계;
상기 하나 이상의 프로세서를 사용하여, 상기 실현 쌍을 렌더링하는 단계;
상기 하나 이상의 프로세서를 사용하여, 상기 렌더링된 실현 쌍을 상기 복수의 인간 어노테이터에게 제시하는 단계; 및
상기 하나 이상의 프로세서를 사용하여, 상기 복수의 인간 어노테이터로부터 상기 렌더링된 실현 쌍에 대한 어노테이션을 획득하는 단계
를 더 포함하는 것인, 방법.
제2항에 있어서, 상기 인간 어노테이션에 적어도 부분적으로 기초하여 실측 데이터를 생성하는 단계는:
쌍 비교의 결과를 예측하는 통계 모델을 상기 인간 어노테이션에 피팅하는 단계를 더 포함하는 것인, 방법.
제2항에 있어서, 교통 시나리오는 다른 에이전트, 그의 시작 위치 및 그의 궤적으로 채워진 맵을 포함하는 것인, 방법.
제1항에 있어서, 상기 규칙집은 수학적 규칙으로 변환되는 교통 법규, 도로 규칙 및 이해관계자 요구사항의 모음을 포함하는 것인, 방법.
제2항에 있어서, 상기 규칙집은 수학적 규칙으로 변환되는 교통 법규, 도로 규칙 및 이해관계자 요구사항의 모음을 포함하는 것인, 방법.
제16항에 있어서, 상기 규칙집은 상이한 규칙의 상대적 중요도를 인코딩하는 구조를 갖는 것인, 방법.
제2항에 있어서, 상기 실현 세트는 3차원(3D) 비디오로 렌더링되는 것인, 방법.
제2항에 있어서, 상기 인간 어노테이션은 실현 쌍의 다른 실현보다 하나의 실현의 선호도를 나타내며, 상기 어노테이션은 상기 어노테이터가 상기 쌍의 제2 실현보다 상기 쌍의 제1 실현을 선호했음을 나타내는 값을 출력하는 함수로 인코딩되는 것인, 방법.
제2항에 있어서, 상기 손실 함수는 상기 궤적 쌍의 어느 궤적이 바람직한지에 대한 상기 규칙집의 예측에 적어도 부분적으로 기초하여 합리성 점수의 예측에 페널티를 부과하는 것인, 방법.