KR20210074366A

KR20210074366A - 자율주행 차량 계획 및 예측

Info

Publication number: KR20210074366A
Application number: KR1020217014710A
Authority: KR
Inventors: 수브라마니안 라마무디; 시몬 라이온스; 스베트 펜코브; 모리스 안토넬로
Original assignee: 파이브 에이아이 리미티드
Priority date: 2018-10-16
Filing date: 2019-10-16
Publication date: 2021-06-21
Also published as: KR20210061461A; WO2020079074A2; EP3864574A1; IL282278A; CN112840350A; CN112888612A; WO2020079069A3; IL282277A; CN112868022A; EP3863904A2; US20210339772A1; JP7455851B2; WO2020079066A4; US20210370980A1; US20210380142A1; WO2020079066A1; EP3837633A2; JP2023175055A; WO2020079069A2; WO2020079074A3

Abstract

외부 행위체 궤적을 예측하는, 컴퓨터로 구현되는 방법이 제공되고, 이러한 방법은, 외부 행위체를 검출 및 추적하기 위한 센서 입력들을 컴퓨터에서 수신하는 것; 외부 행위체를 추적하여 임의의 시구간 동안 외부 행위체의 관찰된 자취를 결정하기 위해 센서 입력들에 객체 추적을 적용하는 것; 외부 행위체에 대한 이용가능한 목표들의 세트를 결정하는 것; 이용가능한 목표들 각각에 대해, 예상된 궤적 모델을 결정하는 것; 그리고 외부 행위체의 관찰된 자취를 이용가능한 목표들 각각에 대한 예상된 궤적 모델과 비교하여 해당 목표의 가능성을 결정하는 것을 포함한다.

Description

자율주행 차량 계획 및 예측

본 개시내용은 자율주행 차량(Autonomous Vehicle, AV) 계획(planning)을 위한 기반(basis)으로서 사용될 수 있는 예측 방법(prediction method)들에 관한 것이다.

자체-주행 차량(self-driving vehicle)으로서 또한 알려진 자율주행 차량은, 외부 환경을 모니터링(monitoring)하기 위한 센서 시스템과, 그리고 이러한 센서들을 사용하여 자동적으로 주행 결정들을 수행 및 구현할 수 있는 제어 시스템을 갖는 차량을 지칭한다. 이것은 특히, 센서 시스템으로부터의 입력들에 근거하여 차량의 속력 및 이동 방향을 자동적으로 적응시킬 수 있는 능력을 포함한다. 완전 자율주행 혹은 "무인(driverless)" 차량은 인간 운전자로부터의 어떠한 입력도 없이 동작하는데 충분한 결정-수행 능력을 갖는다. 하지만, 본 명세서에서 사용되는 바와 같은 용어 "자율주행 차량"은 또한, 더 제한된 자율주행 결정-수행 능력을 갖는, 이에 따라 여전히 인간 운전자로부터 어느 정도의 감시(oversight)를 요구하는 준-자율주행 차량(semi-autonomous vehicle)들에도 적용된다.

마주치는 주행 상황을 안전하게 그리고 효율적으로 항행(navigate)하기 위해서, 자율주행 차량 계획기(autonomous vehicle planner)는 다른 차량들/행위주(agent)들의 예기된 행태(anticipated behaviour)를 고려하는 방식으로 계획을 할 수 있어야 한다.

본 발명의 제 1 실시형태는 외부 행위체 궤적(external actor trajectory)을 예측하는, 컴퓨터로 구현되는 방법(computer-implemented method)을 제공하고, 이러한 방법은,

외부 행위체를 검출 및 추적하기 위한 센서 입력(sensor input)들을 컴퓨터에서 수신하는 것과;

외부 행위체를 추적하여 임의의 시구간(time interval) 동안 외부 행위체의 관찰된 자취(observed trace)를 결정하기 위해 센서 입력들에 객체 추적(object tracking)을 적용하는 것과;

외부 행위체에 대한 이용가능한 목표(available goal)들의 세트(set)를 결정하는 것과;

이용가능한 목표들 각각에 대해, 예상된 궤적 모델(expected trajectory model)을 결정하는 것과; 그리고

외부 행위체의 관찰된 자취를 이용가능한 목표들 각각에 대한 예상된 궤적 모델과 비교하여 해당 목표의 가능성(likelihood)을 결정하는 것을 포함한다.

외부 행위체는 외부 차량 혹은 또 하나의 다른 외부 행위체, 예컨대, 보행자, 자전거 타는 사람, 등일 수 있다. 후속되는 예들에서, 외부 행위체는 외부 차량인데, 하지만 관련 설명이 외부 행위체의 다른 형태들에 동등하게 적용됨이 이해될 것이다.

실시예들에서, 방법은 자율주행 주체 차량(autonomous ego vehicle)에서 구현될 수 있되고, 여기서 자율주행 차량의 계획기(planner)는 이용가능한 목표들 중 적어도 하나의 목표의 가능성에 따라 자율 주행 결정을 수행하고, 센서 입력들은 자율주행 차량의 센서 시스템을 사용하여 획득된다.

예상된 궤적 모델은, 해당 목표와 관련된 단일의 예측된 궤적일 수 있거나, 또는 해당 목표와 관련된 예측된 궤적들의 분포(distribution)일 수 있다.

예상된 궤적 모델은 예측된 궤적들의 세트 내의 각각의 예측된 궤적(Τ)에 대한 조건부 확률(conditional probability)(p(Τ|G_i))을 포함하는 분포일 수 있고, 그리고 해당 목표의 가능성(p(G_i|τ))은 관찰된 자취(τ)가 주어지는 경우 적어도 하나의 예측된 궤적 확률(predicted trajectory probability)(p(Τ|τ))을 추정하기 위해 사용될 수 있다.

예상된 궤적 모델은 각각의 목표에 대해 해당 목표의 원하는 목표 위치에 근거하여 결정될 수 있다.

예상된 궤적 모델은 각각의 목표에 대한 생성 모델(generative model)을 실행함으로써 결정될 수 있고, 생성 행태 모델(generative behaviour model)은 실세계 주행 행태(real-world driving behaviour)의 사례(example)들에 근거하여 궤적들을 생성하도록 훈련된 것이다.

모델들은 방법이 적용되는 관련된 주행 영역(driving area)에 특정되어 있을 수 있다.

예상된 궤적 모델은, 각각의 목표에 대해 해당 목표의 하나 이상의 파라미터(parameter)들 및 외부 행위주(external agent)의 하나 이상의 파라미터들에 근거하여 정의된, 예측된 궤적들의 공간을 샘플링(sampling)하기 위해 샘플링 알고리즘(sampling algorithm)을 적용함으로써 결정될 수 있다.

이용가능한 목표들의 세트는 외부 행위주와 관련된 지도 데이터(map data)에 근거하여 결정될 수 있다.

예상된 궤적 모델은, 주체 차량 행태(ego vehicle behaviour)에 대한 다른 행위체의 반응을 모델링(modeling)하기 위해 하나 이상의 주체 차량 파라미터(ego vehicle parameter)들에 근거하여 결정될 수 있다.

관찰된 자취는 목표에 대한 최상의 이용가능한 궤적 모델(best-available trajectory model)을 예측하기 위해 사용될 수 있고, 그리고 상기 비교하는 것은 최상의 이용가능한 궤적 모델을 예상된 궤적 모델과 비교하는 것을 포함할 수 있다.

관찰된 자취는 외부 행위체의 현재 움직임(current maneuver) 및/또는 미래 움직임(future maneuver)을 예측하기 위해 사용될 수 있고, 예측된 현재 혹은 미래 움직임은 최상의 이용가능한 궤적 모델을 결정하기 위해 사용된다.

적어도 하나의 목표에 대한 일련의 복수의 움직임들이 결정될 수 있고, 그리고 최상의 이용가능한 궤적 모델은 복수의 움직임들과 각각 관련된 부분적 궤적 모델(partial trajectory model)들에 근거하여 해당 목표에 대해 결정될 수 있다.

각각의 부분적 궤적 모델은 하나 이상의 타겟 모션 값(target motion value)들을 포함할 수 있고, 그리고 최상의 이용가능한 궤적 모델의 미래 부분의 하나 이상의 모션 값들은 모션 평활화(motion smoothing)를 타겟 모션 값들에 적용함으로써 결정될 수 있다.

각각의 목표에 대한 예상된 궤적 모델은 해당 목표에 대한 단일의 예상된 궤적일 수 있고, 그리고 각각의 목표에 대한 최상의 이용가능한 궤적 모델은 단일의 최상의 이용가능한 궤적일 수 있다.

각각의 움직임에 대한 부분적 궤적 모델은 해당 움직임에 대한 가장 가능성 높은 부분적 궤적일 수 있다.

정의된 비용 함수(cost function)가 각각의 목표에 대한 최상의 이용가능한 궤적 모델 및 예상된 궤적 모델에 모두 적용될 수 있어 이러한 궤적 모델들의 각각의 비용들이 결정되고, 여기서 상기 비교하는 것은 이러한 비용들을 비교하는 것을 포함한다.

비용 함수는 불안전한 궤적들에는 페널티(penalty)를 줄 수 있지만 감소된 주행 시간에는 보상(reward)을 줄 주 있다.

비용 함수는 또한 편안함(comfort)의 부족에 페널티를 줄 수 있다.

본 발명의 제 2 실시형태는 외부 행위체 궤적을 예측하는, 컴퓨터로 구현되는 방법을 제공하고, 이러한 방법은,

외부 행위체를 검출 및 추적하기 위한 센서 입력들을 컴퓨터에서 수신하는 것과;

외부 행위체를 추적하여 임의의 시구간 동안 외부 행위체의 관찰된 자취를 결정하기 위해 센서 입력들에 객체 추적을 적용하는 것과;

외부 행위체에 대한 가능한 움직임들의 세트를 결정하는 것과;

가능한 움직임들 각각에 대해, 예상된 궤적 모델을 결정하는 것과; 그리고

외부 행위체의 관찰된 자취를 이용가능한 움직임들 각각에 대한 예상된 궤적 모델과 비교하여 해당 움직임의 가능성을 결정하는 것을 포함한다.

이러한 방법은 자율주행 차량에서 구현될 수 있고, 그리고 자율주행 차량의 계획기는 이용가능한 움직임들 중 적어도 하나의 움직임의 가능성에 따라 자율 주행 결정을 수행할 수 있다.

예상된 궤적 모델은, 해당 움직임과 관련된 단일의 예측된 궤적일 수 있거나, 또는 해당 움직임과 관련된 예측된 궤적들의 분포일 수 있다.

관찰된 자취는 예측된 궤적들의 분포 중 가장 가능성 높은 궤적과 비교될 수 있다.

또 하나의 다른 실시형태는 자율주행 차량 컴퓨터 시스템을 제공하고, 이러한 자율주행 차량 컴퓨터 시스템은, 본 명세서에서의 임의의 방법을 구현하도록 구성된 예측 컴포넌트(prediction component)와; 그리고 예측 컴포넌트들의 출력들을 사용하여 자율 주행 결정들을 수행하도록 구성된 계획기를 포함한다.

예측 컴포넌트는, 외부 행위주에 대한 목표 예측을 제공하기 위해 제 1 실시형태의 방법 혹은 이것의 임의의 실시예의 방법을 구현하도록 구성될 수 있고, 그리고 외부 행위주에 대한 움직임 예측을 제공하기 위해 제 2 실시형태의 방법 혹은 이것의 임의의 실시예의 방법을 구현하도록 구성될 수 있다.

움직임 예측은 목표 예측을 수행하기 위해 사용될 수 있다.

자율주행 차량은, 자율주행 차량 컴퓨터 시스템과, 그리고 계획기에 결합되어 계획기에 의해 발생된 제어 신호들에 응답하는 구동 기구(drive mechanism)를 포함할 수 있다.

본 발명의 또 하나의 다른 실시형태는 AV 계획 방법을 포함하고, 이러한 AV 계획 방법은, 앞서의 단계들과, 그리고 AV 계획기가, 목표들 중 적어도 하나의 목표의 결정된 가능성에 근거하여, AV의 동작을 제어하기 위한 제어 신호들을 발생시키는 단계를 포함한다.

실시예들에서, 각각의 목표와 관련된 예상된 궤적 모델은, 해당 목표와 관련된 예측된 궤적을 포함할 수 있거나, 또는 해당 목표와 관련된 예측된 궤적들의 분포를 포함할 수 있다.

각각의 목표(G_i)에 대한 분포는 예측된 궤적들의 세트 내의 각각의 예측된 궤적(Τ)에 대한 조건부 확률(p(Τ|G_i))을 포함할 수 있고, 그리고 해당 목표의 가능성(p(G_i|τ))은 관찰된 자취(τ)가 주어지는 경우 적어도 하나의 예측된 궤적 확률(p(Τ|τ))을 추정하기 위해 사용될 수 있다.

제어 신호들은 적어도 하나의 목표의 결정된 가능성 및 해당 목표에 대한 예상된 궤적 모델에 근거하여 발생될 수 있다.

예상된 궤적 모델은, 외부 행위주의 하나 이상의 초기 파라미터들에 근거하여(예를 들어, 시구간의 시작(시간 t)에서), 관찰된 자취와의 비교를 위해 결정될 수 있다. 예상된 궤적 모델은, 외부 행위주의 하나 이상의 업데이트된 파라미터들에 근거하여(예를 들어, 시구간의 끝(시간 t+△T)에서), 제어 신호들의 발생을 위해 업데이트될 수 있다.

외부 행위주의 파라미터들은 관찰된 파라미터들(즉, 센서 입력들로부터 도출된 파라미터들)일 수 있다.

외부 행위주의 하나 이상의 파라미터들은 (적용가능한 시간에서) 외부 행위주의 위치를 포함할 수 있다.

예상된 궤적 모델은 목표의 하나 이상의 파라미터들에 근거하여 결정될 수 있다.

목표의 하나 이상의 파라미터들은 예를 들어, 도달될 원하는 위치를 포함할 수 있다. 즉, 각각의 목표는 각각의 원하는 위치에 의해 파라미터화될 수 있다.

예상된 궤적 모델은 각각의 목표에 대해 컴퓨터 시스템에서 생성 모델을 실행함으로써 결정될 수 있다. 생성 모델은, 외부 행위주의 앞서의 하나 이상의 관찰된 파라미터들 및 목표의 앞서의 하나 이상의 파라미터들에 근거하여 실행될 수 있다.

예상된 궤적 모델은, 각각의 목표에 대해 해당 목표의 하나 이상의 파라미터들 및 외부 행위주의 하나 이상의 파라미터들에 근거하여 정의된, 예측된 경로들의 공간을 샘플링하기 위해 샘플링 알고리즘을 적용함으로써 결정될 수 있다.

샘플링 알고리즘은, 하나 이상의 무작위 입력 파라미터(randomized input parameter)들에 근거하여, 예측된 경로 분포(predicted path distribution)를 결정하기 위해 검색 공간(search space)을 무작위로 샘플링하는 무작위 샘플링 알고리즘(randomized sampling algorithm)일 수 있다.

예를 들어, 샘플링 알고리즘은 신속 확장 무작위 트리(Rapidly expanding Random Tree)(RRT)일 수 있다.

생성 모델은 실세계 주행 행태의 사례들에 관해 훈련된 기계 학습(Machine Learning)(ML) 모델일 수 있다. 이러한 사례들은, 하나 이상의 주행 영역들을 모니터링함으로써 캡처(capture)되는 바와 같이, 실세계 주행 행태 데이터로부터 추출될 수 있다.

예를 들어, 생성 모델은, 목표 실행의 실세계 사례들에 근거하여, 예상된 궤적 모델들을 생성하도록 훈련되었을 수 있는 신경망(neural network) 혹은 다른 기계 학습(ML) 모델을 포함할 수 있다.

또 하나의 다른 예로서, 생성 모델은 방법이 적용되는 주행 영역에 대해 미리-결정된 모델일 수 있다(예컨대, 공간 마르코프 모델(spatial Markov model)). 모델은 해당 주행 영역 내에서 관찰된 실세계 주행 행태에 근거하여 미리-결정되었을 수 있다.

생성된 모델은, 관찰된 자취와의 비교를 위해서, 예상된 궤적 모델을 결정하기 위해 외부 행위주의 초기 파라미터(들)에 근거하여 초기에 실행될 수 있고, 그리고 후속적으로 제어 신호들의 발생을 위해 외부 행위주의 업데이트된 파라미터(들)에 근거하여 재-실행될 수 있다.

방법은, 시구간 이후, 목표들 중 적어도 하나의 목표의 결정된 가능성 및 해당 목표에 대해 결정된 (업데이트된) 예상된 궤적 모델에 근거하여, 외부 행위주에 대한 적어도 하나의 예측된 궤적을 결정하는 것을 포함할 수 있다.

시구간 이후 적어도 하나의 예측된 궤적의 가능성이 목표의 가능성 및 (업데이트된) 예상된 궤적 모델에 근거하여 결정될 수 있다.

제어 신호들은 적어도 하나의 예측된 궤적에 근거하여 발생될 수 있다.

이용가능한 (가정된(hypothesised)) 목표들의 세트가 외부 행위주와 관련된 지도 데이터에 근거하여 결정될 수 있다.

하나 이상의 목표 파라미터들이 또한, 외부 행위주와 관련된 지도 데이터에 근거하여 결정될 수 있다.

지도 데이터는 센서 입력들로부터 적어도 부분적으로 도출될 수 있다.

예상된 궤적 모델은, AV 센서 신호들로부터 도출되는 바와 같은 외부 행위주의 하나 이상의 관찰된 파라미터들에 생성 행태 모델을 적용함으로써 컴퓨팅(computing)될 수 있다.

생성 행태 모델은 또한, (계획 방법에 의해 제어되고 있는 주체 차량에 대한 다른 행위체의 반응을 모델링하기 위해) 하나 이상의 주체 차량 파라미터들에 적용될 수 있고, 그리고/또는 (주행 환경에 대한 다른 행위체의 반응을 모델링하기 위해 도로 배치/다른 주행 환경 파라미터들과 같은) 주행 상황의 하나 이상의 파라미터들에 적용될 수 있다.

방법은, 목표들 중 적어도 하나의 목표에 대한 예상된 궤적 모델 및 해당 목표의 결정된 가능성에 근거하여 외부 행위체에 대한 적어도 하나의 예측된 궤적을 결정하는 단계를 포함할 수 있다.

예상된 궤적 모델은, 생성 행태 모델이 적용되는 파라미터(들)에서의 변경들을 설명하기 위해(예를 들어, 시구간 내에서 외부 행위체의 실제 행태를 감안하기 위해) 업데이트될 수 있다.

본 발명의 다른 실시형태들은, 본 명세서에서 개시되는 방법 단계들 중 임의의 것을 실행하도록 구성된 실행 하드웨어(execution hardware)를 포함하는 컴퓨터 시스템을 제공하고, 그리고 실행될 때 방법 단계들 중 임의의 것을 구현하도록 구성된 실행가능 명령들을 포함하는 컴퓨터 프로그램을 제공한다.

또 다른 실시형태들은, 본 명세서에서 개시되는 방법 단계들 중 임의의 것을 구현하도록 구성되며 컴퓨터 시스템 내에 구현되는 자율주행 차량(AV) 계획기를 제공하고, 그리고 자율주행 차량 계획기를 포함함과 아울러 이러한 자율주행 차량 계획기에 결합되어 AV 계획기에 의해 발생된 제어 신호들에 응답하는 구동 기구를 포함하는 자율주행 차량을 제공한다.

본 발명의 더 나은 이해를 위해, 그리고 본 발명의 실시예들이 어떻게 실행될 수 있는지를 보여주기 위해, 다음과 같은 도면들이 참조되며, 이러한 도면들에서,
도 1은 자율주행 차량 컴퓨터 시스템 내에 구현된 기능적 컴포넌트들을 보여주는 개략적인 기능적 블록도를 보여주고;
도 2는 자율주행 차량 움직임 계획(autonomous vehicle manoeuvre planning)을 위해 사용될 수 있는 예시적인 게임 트리(game tree)를 보여주고;
도 3A 내지 도 3C는 예시적인 역 계획(inverse planning)의 특정 원리들을 예시하고;
도 4는 예시적인 역 계획 방법에 대한 흐름도를 보여주고; 그리고
도 5는 CCTV 데이터로부터 학습된 궤적 모델의 예를 보여준다.

본 발명의 예시적 실시예들이 아래에서 상세히 설명된다. 먼저 본 발명에 대한 일부 유용한 맥락이 설명된다.

도 1은 AV(주체 차량)의 온-보드 컴퓨터 시스템(on-board computer system)(A1) 내에 구현되는 특정 기능적 컴포넌트(functional component)들(즉, 데이터 프로세싱 컴포넌트(data processing component)(A2), 예측 컴포넌트(prediction component)(A4) 및 AV 계획기(A6))의 고도로 개략적인 기능적 블록도를 보여준다.

데이터 프로세싱 컴포넌트(A2)는 AV의 온-보드 센서 시스템(A8)으로부터 센서 데이터를 수신한다. 온-보드 센서 시스템(A8)은, 다양한 형태들을 취할 수 있고, 하지만 일반적으로 다양한 센서들을 포함하는데, 예컨대, 이미지 캡처 디바이스(image capture device)들(카메라들), 라이다 유닛(LiDAR unit)들 등, 위성-위치결정 센서(satellite-positioning sensor)(들)(GPS, 등), 모션 센서(motion sensor)(들)(가속도계들, 자이로스코프들, 등) 등을 포함하는데, 이들은 풍부한 센서 데이터를 집합적으로 제공하고, 이로부터 주변 환경에 대한 상세한 정보를 추출하는 것 그리고 해당 환경 내에서 AV 및 다른 행위체들(차량들, 보행자들, 등)의 상태에 대한 상세한 정보를 추출하는 것이 가능하다.

하지만, 본 기법들이 AV 자체의 온-보드 광학 센서들(이미지 캡처 디바이스들, 라이다, 등)을 사용하여 캡처된 이미지 데이터, 등을 사용하는 것에 한정되지 않음에 유의해야 한다. 본 방법은, 대안적으로 혹은 추가적으로, 외부에서 캡처된 센서 데이터, 예를 들어, AV의 부근에서 외부 이미지 캡처 유닛들에 의해 캡처된 CCTV 이미지들, 등을 사용하여 적용될 수 있다. 그러한 경우에, 본 방법을 구현하기 위해 사용되는 센서 입력들 중 적어도 일부는 하나 이상의 무선 통신 링크들을 통해 외부 센서 데이터 소스들로부터 AV에 의해 수신될 수 있다.

데이터 프로세싱 시스템(A2)은 센서 데이터로부터 이러한 정보를 추출하기 위해 센서 데이터를 프로세싱한다. 이것은 일반적으로 기계 학습(ML)/인공 지능(Artificial Intelligence)(AI) 프로세싱의 다양한 형태들을 포함할 것이다. 현재 맥락에서 관련된 데이터 프로세싱 시스템(A2)의 기능들은 현지화(localization)(블록(A10)), 객체 검출(블록(A12)) 및 객체 추적(블록(A14))을 포함한다.

현지화는 주변 환경의 인식을 제공하기 위해 그리고 주변 환경 내의 AV의 위치를 제공하기 위해 수행된다. 다양한 현지화 기법들이 이러한 목적을 위해 사용될 수 있고, 여기에는 시각 및 지도-기반 현지화(visual and map-based localization)가 포함된다. 예로서, 영국 특허 출원 번호 제1812658.1호(발명의 명칭: "Vehicle Localization")가 참조되는데, 이러한 문헌은 그 전체가 참조로 본 명세서에 통합된다. 이것은 시각적 검출 및 미리결정된 지도 데이터의 조합을 사용하는 적절한 현지화 방법을 개시한다. 구획화(segmentation)가 주변 도로 구조를 검출하기 위해 시각적 (이미지) 데이터에 적용되는데, 이러한 데이터는 또한 주변 환경의 도로 및/또는 다른 구조와 관련하여 지도 좌표계(map frame of reference) 내에서 AV의 위치의 정확한 그리고 강인한 추정치를 결정하기 위해 HD(High-Definition; 고선명) 지도와 같은 미리결정된 지도 데이터에 매칭(matching)되고, 이러한 추정치는 또한 시각 및 지도 데이터를 병합함으로써 시각 검출 및 지도-기반 추론의 조합을 통해 결정된다. 위치 추정치를 결정하기 위해, 구조 매칭으로부터 결정되는 바와 같은 개개의 위치 추정치는 입자 필터링(particle filtering) 등을 사용하여 다른 위치 추정치(들)(예컨대, GPS)와 결합되어 개개의 위치 추정치들의 정확성에서의 변동(fluctuation)들에 대해 강인한 지도 좌표계 내에서의 AV에 대한 정확한 위치 추정치를 제공하게 된다. 지도 상에서 AV의 위치를 정확하게 결정한 경우, 시각적으로 검출된 도로 구조는 미리결정된 지도 데이터와 병합되어 실시간 지도(live map)의 형태로 차량의 현재 및 과거 주변 환경의 포괄적 표현(representation)을 제공하게 되고 아울러 지도 좌표계 내에서 AV의 위치의 정확한 그리고 강인한 추정치를 제공하게 된다. 현재 맥락에서의 용어 "지도 데이터"는 시각적(혹은 다른 센서-기반) 검출치와 미리결정된 지도 데이터를 병합함으로써 도출되는 바와 같은 실시간 지도의 지도 데이터를 포함하는데, 하지만 또한 시각적/센서 검출로부터만 도출된 지도 데이터 또는 미리결정된 지도 데이터도 포함한다.

AV가 안전하게 반응할 수 있어야 하는 행태를 갖는 차량들, 보행자들, 및 다른 외부 행위체들과 같은 환경 내의 외부 행위체들을 검출 및 현지화하기 위해 센서 데이터에 객체 검출이 적용된다. 이것은 예를 들어, 3D 경계 박스 검출(3D bounding box detection)의 형태를 포함하고, 여기서는 환경 내에서의 객체들의 위치, 배향, 및 크기, 그리고/또는 주체 차량에 대한 객체들의 위치, 배향, 및 크기가 추정된다. 이것은 예를 들어, RGBD(Red Green Blue Depth; 적색 녹색 청색 심도), 라이다 포인트 클라우드(LiDAR point cloud), 등과 같은 (3D) 이미지 데이터에 적용될 수 있다. 이것은 이러한 외부 행위체들의 위치 및 다른 물리적 속성들이 지도 상에서 결정될 수 있게 한다.

환경 내에서, 검출된 객체들의 임의의 활동(movement)을 추적하기 위해 객체 추적이 사용된다. 결과는 객체 추적을 통해 시간 경과에 따라 결정되는 각각의 객체의 관찰된 자취(τ)이다. 관찰된 자취(τ)는 움직이는 객체의 이력(history)인데, 이는 시간 경과에 따른 움직이는 객체의 경로를 캡처하고, 그리고 또한, 상이한 시점들에서 객체의 과거 속력, 가속도, 등과 같은 다른 정보를 캡처할 수 있다.

함께 사용되는 객체 검출과 객체 추적은, AV의 주변부들의 결정된 지도 상에서 포괄적으로 외부 행위체들의 위치가 결정될 수 있게 함과 아울러 외부 행위체들이 추적될 수 있게 한다.

객체 검출 및 객체 추적은 그 자체로 잘 알려져 있고, 그리고 다양한 공개적으로 이용가능한 최신 모델들을 사용하여 현재 맥락에서 수행될 수 있다.

현지화, 객체 검출, 및 객체 추적의 조합을 통해, 데이터 프로세싱 컴포넌트(A2)는, 주체 차량의 주변 환경의 포괄적인 표현, 해당 환경 내의 임의의 외부 행위체들의 현재 상태(검출가능한 정도까지의 위치, 진행방향(heading), 속력, 등), 뿐만 아니라 AV가 추적할 수 있었던 이러한 행위체들의 과거 자취들을 제공한다. 이것은 최신 위치 및 환경 인식을 제공하기 위해 실시간으로 계속해서 업데이트된다.

예측 컴포넌트(A4)는 예측 분석(predictive analysis)에 대한 기반으로서 이러한 정보를 사용하고, 여기서 예측 컴포넌트(A4)는 AV의 부근에서 외부 행위체들의 미래 행태에 대한 예측들을 수행한다. 적절한 예측 방법론(methodology)들의 예들이 아래에서 설명된다.

적어도 하나의 확률적 예측이 외부 행위체에 대해 결정될 수 있다. 이것은 예를 들어, 행위주에 대한 가능한 움직임들에 관한 분포(P(M|τ)) 및/또는 가능한 목표들에 관한 분포(P(G|O))일 수 있다(아래 참조).

기호(notation) "O"는 관찰(Observation)들의 세트를 의미한다. 관찰들(O)은 관찰된 자취(τ) 그 자체일 수 있는데(O = τ), 하지만 이러한 점에 있어서 반드시 한정되지 않는다. 예를 들어, 일 구현예에서, 관찰들(O)은 행위주의 움직임(M_j)을 포함할 수 있고, 이러한 경우에, 기호 "P(G|M_j)"가 사용될 수 있다(가능하게는 속기(shorthand)로서 사용될 수 있는데, 왜냐하면 관찰들(O)은 추가적인 파라미터(들)를 포함할 수 있기 때문임)(움직임들이 자취(τ)로부터 추론될 수 있음에 또한 유의해야 함).

AV 계획기(A6)는, AV 계획을 위한 기반으로서, 예측 컴포넌트(A4)에 의해 제공된 행태 예측들과 함께, 주체의 주변 환경 및 주변 환경 내의 외부 행위주들에 대한 추출된 정보를 사용한다. 다시 말해서, 예측 컴포넌트(A5)에 의한 예측 분석은, AV 계획 결정들을 위한 기반으로서 AV 계획기(A6)에 의해 또한 사용되는, 데이터 프로세싱 컴포넌트에 의해 센서 데이터로부터 추출된 정보 외에, 예측된 정보의 계층을 추가한다. 이것은 일반적으로 계층적 계획 프로세스의 일부인데, 여기서 AV 계획기(A6)는 다양한 높은-레벨 결정(high-level decision)들을 수행하고, 그 다음에 상위-레벨 결정(higher-level decision)들을 구현하기 위해 필요한 하위-레벨 결정(lower-level decision)들을 점점 더 수행한다. 최종 결과는 일련의 실-시간 낮은 레벨 동작 결정들이다. 이러한 결정들을 구현하기 위해서, AV 계획기(A6)는 제어 신호들을 발생시키고, 이러한 제어 신호들은 차량의 속력 및 진행방향, 등을 제어하기 위해(예컨대, 조향(steering), 제동(breaking), 가속(accelerating), 변속(changing gear)을 제어하기 위해) 적어도 부분적으로 AV의 구동 기구(A16)에 입력된다. 제어 신호들은 또한 신호송신(signalling)과 같은 2차 동작들을 실행하기 위해 발생된다.

본 발명의 실시예들이 이제 오로지 예시적으로 설명될 것이다.

역 계획(Inverse Planning)

정의된 목표를 안전하게 그리고 효과적으로 실행하기 위해 주체 차량에 의해 취해지게 될 일련의 움직임들, 동작들, 등을 결정하는 것과 같은 AV 계획 결정들을 수행함에 있어 AV 계획기(A6)를 보조하기 위해, 역 계획기(inverse planner)(A5)는 현재 맥락에서 행위주들로서 지칭될 수 있는 인근의 외부 행위체들의 활동을 예측한다.

역 계획은, 외부 행위체의 현재 움직임에 대한 확률적 예측을 수행하기 위해, 움직임 레벨에서 구현될 수 있다. 예를 들어, 역 계획기(A5)는 "차선 따르기(follow lane)", "차선 바꾸기(switch lane)" 등과 같은 이용가능한 움직임들의 세트(M)에 관한 확률 분포(P(M|τ))를 (자취(τ)를 포함하는(또는 자취(τ)로부터 도출된) 관련된 관찰들의 세트가 주어지는 경우) 예측할 수 있다. 움직임-레벨에서의 역 계획은 (확률적) 움직임 검출의 형태이다.

대안적으로 혹은 추가적으로, 역 계획은, 외부 행위체의 현재 목표에 대한 확률적 예측을 수행하기 위해, 목표-레벨에서 구현될 수 있다. 예를 들어, 역 계획기(A5)는 이용가능한 목표들의 세트(G)에 관한 확률 분포(P(G|O))를 예측할 수 있다. 예를 들어, 좌회전(left turn)을 갖는 주행 상황에서, 목표들은, 적절한 목표 위치들로서 캡처된, "좌회전" 목표 또는 "계속 직진" 목표(즉, 현재 도로 상에 있고 좌회전을 하지 않는 것)일 수 있다. 목표-레벨에서의 역 계획은 (확률적) 목표 인식의 형태이다.

목표 인식 및 움직임 검출은 전형적으로 상이한 시간 척도(time scale)들 상에서 동작할 것이다. 목표 인식은 일반적으로 움직임 검출보다 미래에 대해 더 긴 기간(time period)들을 고려한다. 예를 들어, 움직임 검출은 미래에 대해 수 초(예컨대, 약 5초)를 볼 수 있고, 반면 목표 인식은 (상황들에 따라) 이보다 더 앞서 볼 수 있다. 따라서, 목표 인식은 일반적으로 움직임 인식보다 더 긴 궤적들을 고려할 것이다(즉, 더 미래에 대해 궤적들을 고려할 것임).

목표는 예를 들어, 주체 차량이 지도 상의 현재 위치로부터 도달하려고 시도하고 있는 지도 상의(즉, 지도 좌표계에서의) 원하는 위치(기준 지점)로서 캡처될 수 있고, 여기서 원하는 위치는 마주치는 도로 배치와 관련하여 정의된다. 예를 들어, 원하는 위치는 특정 교차로(junction), 차선 배치(lane layout), 원형교차로 출구(roundabout exit), 등과 관련하여 정의될 수 있다. 주변 도로 배치 및 임의의 외부 행위체들이 주어지는 경우, 원하는 위치에 도달함으로써 해당 목표를 성공적으로 실행하기 위해 차량이 취할 수 있는 다양한 경로들/동작들이 존재할 것이다. 주체 차량 동작들 중에는 주체 차량이 그렇게 하는 것을 막게 되는 주체 차량 동작들이 또한 존재할 것인데, 예를 들어, 외부 행위체의 행태로 인해, 목표를 계속 실행하는 것이 안전하지 않게 될 때, 불량하게-선택된 일련의 초기 동작들은 결과적으로 강체로 차량으로 하여금 원하지 않는 원형교차로 출구를 취하게 할 수 있거나, 또는 그렇지 않으면 목표를 중단(abort)하게 할 수 있다. 외부 행위체들의 행태에 관한 신뢰가능한 예측들을 계획에 통합하는 것은, AV 계획기(A6)가 안전하게 그리고 효과적으로 계획을 하는 것을 돕고, 이것은 중단되는 목표들의 발생을 최소화시킨다.

목표-레벨에서 구현될 때, 역 계획은 각각의 외부 행위주에 대한 서로 다른 가능한 목표들을 가정하고, 그 다음에 행위주가 각각의 목표를 어떻게 달성할 수 있는지의 궤적들을 생성시키고, 아울러 행위주가 각각의 궤적을 따르게 될 가능성을 생성시킨다. 기본 가정(underlying assumption)은 각각의 외부 행위주가 생성 모델을 사용하여 예측될 수 있는 방식으로 동작할 것이라는 것이다.

현재 맥락에서 역 계획은 AV 예측 컴포넌트(A4)에 의해 구현될 수 있는 특정 부류의 예측 방법들을 지칭한다. 다시 말해서, 역 계획 방법은, 특히 외부 행위체들이 예측가능한 방식으로 계획한다고 가정함으로써, 외부 행위체의 행태 및 다른 차량들의 행태를 예측하는 방법이다.

용어 "역 계획(inverse planning)"은 외부 행위체가 예측가능한 방식으로 자신의 결정들을 계획할 것이라는 이러한 기본 가정을 참조한다. 더 형식적으로 말하면, 가정된 것은, 다른 차량이, 가정될 수 있는 생성 모델로 계획 및 실행을 행할 것이라는 것이다.

도 2를 참조하여 역 계획 방법이 이제 설명될 것이고, 도 2는 이러한 방법에 대한 흐름도를 보여준다. 이것은 목표 레벨에서 역 계획을 고려하는데, 하지만 기본 원리들은 움직임 레벨에서의 역 계획에 동등하게 적용된다. 이러한 방법의 단계들은 역 계획기(A5)에 의해 실-시간으로, 혹은 의사 실-시간(pseudo real-time)으로 반복적으로 수행되어, 충분히 새로운 최신 예측(up-to-date prediction)들이 항상 AV 계획기(A6)에게 이용가능하게 된다. 이러한 방법은 데이터 프로세싱 시스템(A2)에 의해 제공되는 정보를 이용하는데, 즉, 주변 환경/도로-배치에 대한 정보, 환경 내의 임의의 다른 행위체들의 위치/상태, 그리고 객체 추적을 통해 관찰되는 바와 같은 이러한 행위체(들)의 자취들을 이용한다.

고려 중인 하나 이상의 외부 행위체들(차량들, 보행자들, 자전거 타는 사람들, 등) 각각에 대해 다음과 같은 단계들이 수행되고, 다음의 예들에서 이러한 행위체들은 AV와는 다른 차량들이다.

단계(SB2)에서, 해당하는 다른 차량에 대한 가정된 목표들의 세트가 결정된다. 가정된 것은, 다른 차량이 현재 이러한 가정된 목표들 중 하나를 실행하고 있다는 것이다. 가정된 목표들의 적절한 세트를 결정하기 위해, 다른 차량의 부근에서 도로-배치와 같은 주행 상황(driving context)이 결정된다.

외부 행위주 목표들은 일반적으로 지도에 근거하여 가정된다. 예를 들어, 지도 상에 표시된 도로 교차로, 원형교차로 혹은 다른 도로 배치 부근에서 외부 차량들의 세트가 주어지는 경우(주행 상황이 주어지는 경우), 적절한 목표들이 (행위주의 임의의 관찰된 과거 행태를 고려함이 없이) 오로지 도로 배치로부터만 가정될 수 있다. 예로서, 만약 다른 차량이 현재 인근에 교차로들이 없는 복수-차선 도로 상에서 주행하고 있다면, 가정된 목표들의 세트는 "차선 따르기" 및 "차선 바꾸기"로 구성될 수 있다. 또 하나의 다른 예로서, 좌-회전 교차로 부근에 외부 행위주들의 세트가 있는 경우, 가정된 목표들은 좌회전 및 계속 직진일 수 있다. 표시된 바와 같이, 이러한 목표들은 지도 상에서 적절한 기준 지점들을 참조하여 정의된다.

하지만, 목표들은 다양한 방식들로 가정될 수 있다. 예를 들어, (시간 t 이전에 관찰된 자취와 같은) 관찰된 과거 행태가 외부 행위주 목표들을 가정할 때 고려될 수 있고, 또는 지도-기반 및 과거 행태-기반 추론의 조합이 목표들을 가정하는데 사용될 수 있다.

과거 행태가, 이용가능한 목표들을 가정하는데 사용되지 않는 경우에도, 과거 행태는 그럼에도 불구하고 이러한 목표들 각각의 가능성을 결정하는데 사용됨에 유의해야 한다(아래 참조).

가정된 목표들의 세트가 결정되었다면, 그러한 목표들 각각에 대해 다음의 단계들이 수행된다

단계(SB4)에서, 해당하는 가정된 목표에 대한 예상된 궤적 모델이 결정된다. 예상된 궤적 모델은, 다른 차량이 그 특정 목표를 실행하고 있다는 가정 하에, 다른 차량의 미래 행태를 시뮬레이션(simulate)한 모델이다. 특히, 예상된 궤적 모델은 다른 차량이, (시간 t로부터 시간 t+△t까지) 주어진 기간(△t) 내에 특정 경로 혹은 경로들(궤적들)을 취할 가능성(다른 차량이 해당 기간(△t) 동안 해당 목표를 실행하고 있다는 가정 하의 가능성)이 얼마나 되는지를 표시한다. 표시된 바와 같이, 차량이 실행하고 있는 목표는 지도에 근거하여 끝 지점(end point)에 의해 파라미터화(parameterize)될 수 있다. 예를 들어, 만약 목표가 (말하자면 좌회전하는 것이 아니라) 계속 직진하는 것이라면, 끝 지점은 설정된 거리(말하자면, 동일한 차선에서 차량의 전방 40m)에서 도로 상의 지점일 수 있다. 대안적으로, 예컨대, 복수-차선 상황에서, 목표 위치는 특정 차선을 특정함이 없이 도로를 따라 전방의 어떤 거리일 수 있다(더 상세한 것들에 대해서는 아래 참조).

예상된 궤적 모델은 주어진 목표에 대해 간단하게, (단일의) 예측된 경로일 수 있는데, 하지만 본 예들에서, 예상된 궤적 모델은 해당 목표에 대한 예측된 경로 분포의 형태를 취한다. 본 경우에서 각각의 목표에 대한 예측된 경로 분포는, 시간 t에서 외부 차량의 위치(r_t)가 주어지는 경우, 해당 목표에 대한 n개의 예측된 경로들의 개별 세트를 합성(synthesizing)함으로써, 제공되고, 그럼으로써 적어도 시구간(△t) 동안, 예측된 경로 분포가 제공되게 된다.

예로서, 도 3A는, 특정 외부 차량에 대해 예측되는 바와 같은, 목표들(G1 및 G2) 각각에 대한 예측된 경로들의 각각의 세트들(P_G1, P_G2)을 보여준다. 목표들(G₁, G₂)은, 지도 상에서 지점들 혹은 영역들일 수 있는, 지도 좌표계 내에서의 기준 위치들(R₁, R₂)에 각각 관련되어 정의된다. 시간 t에서 외부 차량의 위치(r_t), 그리고 각각의 목표의 기준 지점들(R₁, R₂)이 주어지는 경우, 예측된 경로 세트들(P_G1, P_G2)이 목표들(G₁, G₂)에 대해 각각 합성된다.

비록, 이러한 예에서, 각각의 목표가 간단히 단일의 기준 지점/영역에 관련되어 정의되지만, 이해될 것인 바와 같이, 목표들은 다른 방식들로 정의될 수 있는데, 예를 들어, 여러 상황들에서 적절하게 다수의 기준 지점들에 관련되어 정의될 수 있다. 일반적으로, 목표는 하나 이상의 목표 파라미터들의 세트에 의해 정의되는데, 이러한 목표 파라미터들은 또한 자율 주행의 상황에서 일반적으로 지도 좌표계 내에서 정의된다. 지도 좌표계 내의 기준 위치는 목표 파라미터의 하나의 예이고, 그리고 이러한 기준 위치들에 관련된 모든 설명은 목표 파라미터의 다른 타입들에 동등하게 적용된다.

좌회전 예를 따르면, "계속 진진" 목표에 대한 경로들의 하나의 세트가 생성되게 되고(이러한 경로들은, 다른 차량이 "계속 직진" 목표를 실행하고 있다면 다른 차량이 취했을 것으로 예측되는 경로들임), 그리고 "좌회전" 목표에 대한 경로들의 또 하나의 다른 세트가 생성되게 된다(이러한 경로들은, 다른 차량이 "좌회전" 목표를 실행하고 있다면 다른 차량이 취했을 것으로 예측되는 경로들임).

생성 모델은 이러한 경로들을 합성하는데 사용될 수 있다. 기본 가정은 다른 차량이 이러한 모델로 계획 및 실행을 행할 것이라는 것이다. 이러한 모델은 (다른 차량들이 주체 차량과 동일한 방식으로 계획할 것이라는 가정 하에서) AV 계획기(A6) 자체에 대응할 수 있는데, 하지만, 이러한 모델은 또한 AV 자신의 계획기와는 다를 수 있다.

예를 들어, 각각의 목표에 대한 경로들이 신속 탐색 무작위 트리(Rapidly exploring Random Tree)(RRT) 모델을 사용하여 합성될 수 있다. 도 CA의 예를 따르면, 각각의 목표(G₁, G₂)에 대해, 예측된 경로들의 공간(검색 공간)은 해당 목표에 대한 기준 위치(각각, R₁, R₂), 그리고 외부 차량의 현재 위치(r₀)에 근거하여 정의된다. 그 다음에, 검색 공간은, (무작위 입력 파라미터들에 근거하여) n개의 경로들의 세트 및 이러한 경로들 각각의 가능성을 결정하기 위해 무작위로 샘플링된다. 각각의 목표에 대한 n개의 경로들을 시뮬레이션하기 위해서, RRT의 관련된 파라미터들은 n번 무작위화되어 검색 공간의 n개의 적절하게 편향(bias)된 무작위 검색들이 수행되게 된다.

예로서, GB 특허 출원 번호 제1803292.0호(발명의 명칭: "Efficient computation of collision probabilities for safe motion planning")(이것은 그 전체가 참조로 본 명세서에 통합됨)는 역 계획을 구현하기 위해 현재 맥락에서 사용될 수 있는 RRT 모델을 개시한다. 주어진 궤적을 따라 충돌의 확률적 위험이 계산되고, 이러한 확률적 위험은 안전에 따라 후보 궤적들의 순위를 정하는데 사용된다. 이것은 또한, 해당 목표를 실행하기 위해 외부 차량이 더 안전한 경로들을 취할 가능성이 더 높다는 가정 하에서 각각의 샘플링된 경로의 가능성을 제공한다. 즉, 경로 확률들은 안전에 대한 가정된 관계에 근거하여 결정될 수 있다. 샘플링된 경로들 및 이들의 확률들은 궤적 모델의 하나의 예이다.

하지만, 이것은 적절한 생성 모델의 단지 하나의 예이고, 그리고 생성된 모델의 다른 형태들이 또한 사용될 수 있다. 대안적인 궤적 모델의 예가 이후 설명된다.

하나의 이러한 예는, 관찰된 자취 및 실행될 목표가 주어지는 경우, 경로 예측 모델(예컨대, 예측된 경로 또는 예측된 경로들의 분포)을 출력하도록 훈련된 신경망-기반 모델(neural network-based model)이다. 신경망은 실-세계 주행 행태 사례들에 근거하여 훈련된다. 예를 들어, 신경망은, 도시 주행 환경들에서 캡처된 CCTV(Closed Circuit TeleVision; 폐쇄 회로 텔레비전) 데이터의 거대한 덩어리(corpus)로부터 추출된 사례들에 근거하여 훈련될 수 있다.

또 하나의 다른 예는, 충분한 기간 동안 주행 영역을 모니터링함으로써 특정 주행 영역에 대해 미리 결정될 수 있는 공간 마르코프 모델(혹은 유사한 것)이다(위 참조).

일반적으로, 역 계획기(A5)는 상이한 가정된 목표들과 관련하여 추론(reason)할 수 있는 임의의 모델일 수 있다.

단계(SB6)에서, 기간(△t) 동안(즉, 시간 t와 시간 t+△t 사이에) 실제로 관찰된 바와 같은 다른 차량의 자취는, 해당 목표에 대한 가능성을 결정하기 위해, 해당 기간(△t) 동안 해당 목표와 관련된 경로들의 분포에 매칭(matching)된다.

예로서, 도 3B는 시간 t와 시간 t+△t 사이에 해당 차량의 실제 관찰된 자취(τ)를 보여준다. 실제 자취(τ)를 목표들(G₁, G₂) 각각에 대한 예측된 경로 분포(도 3A)에 매칭시킴으로써, 각각의 목표(G₁, G₂)의 가능성이 시구간(△t) 동안 확률적으로 결정될 수 있다. 이것은 소프트-매칭(soft-matching)의 형태일 수 있다. 목표 가능성은, 외부 차량의 관찰된 자취(τ)가 주어지는 경우, 각각의 가정된 목표(G_i)의 조건부 확률로서 캡처될 수 있는데, 즉, p(G_i|τ)로서 캡처될 수 있고, 이것은 관찰된 자취(τ)가 주어지는 경우 시구간(△t) 동안 외부 차량이 해당 목표(G_i)를 실행하고 있었을 추정된 확률이다.

다르게 말하면, 역 계획기(A5)는, 가정된 목표들 각각에 대해, 시구간(△t) 내에 다른 차량이 취했을 수 있는 가능한 경로들의 세트, 그리고 이러한 경로들 각각의 가능성을 예측하는데 사용되는데, 이것은 다른 차량이 해당 기간 동안 해당 목표를 실행하고 있었다는 가정하에서(즉, 다른 차량이 해당 목표를 실행하고 있었다면 다른 차량이 시구간(△t) 동안 했었을 수 있는 것에 근거하여) 이루어진다. 그 다음에, 이것은 기간(△t) 동안 각각의 목표의 가능성을 결정하기 위해 해당 기간 내에 다른 차량의 실제 자취(즉, 다른 차량이 실제로 행한 것)와 비교된다.

도 3C를 참조하면, 관찰된 자취(τ)가 주어지는 경우 각각의 목표의 가능성이 알려지기 때문에, 시간 t+△t 이후 임의의 주어진 예측된 경로(궤적)(Τ)의 (절대(absolute)) 가능성은, 관찰된 자취(τ)가 주어지는 경우, 예를 들어,

로서 결정될 수 있고, 여기서 p(G_i|τ)는 앞에서 정의된 것이고, 그리고 p(Τ|G_i)는 시간 t+△t에서 목표(G_i)에 대한 경로 분포가 주어지는 경우 행위주가 경로(Τ)를 취할 추정된 확률이다. 궤적들을 나타내기 위해 사용되는 수학적 기호(그리스 문자 "타우(tau)"의 소문자 혹은 대문자, 즉, τ, Τ)와 시간을 나타내기 위해 사용되는 기호(라틴어 "티(t)"의 소문자 혹은 대문자, 즉, t, T) 간의 차이(distinction)에 또한 유의해야 한다.

궤적은 간단한 공간적 경로일 수 있지만, 이러한 설명은 모션 정보(예컨대, 속력/속도 정보, 가속도)가 통합된 궤적들에 동등하게 적용된다. 후자에 대해서, 두 개의 궤적들이 동일한 공간적 경로에 대응할 수 있지만(또는 궤적들의 적어도 각각의 부분들이 동일한 공간적 경로에 대응할 수 있지만), 그럼에도 불구하고, 예를 들어, 이들이 서로 다른 속도 정보와 관련되어 있는 이유로, 이들은 상이한 궤적들일 수 있다(예컨대, 하나의 궤적은 실질적으로 동일한 공간적 경로를 따라 움직이지만 공간적 경로를 따라 적어도 일부 지점들에서 더 낮은 속도로 움직이는 차량에 대응할 수 있음). 예를 들어, 궤적은 관련된 속도와 결합된 공간적 경로의 형태를 취할 수 있거나, 또는 공간적 경로의 각각의 지점 혹은 구역(section)들과 관련된 속도들의 세트와 결합된 공간적 경로의 형태를 취할 수 있다. 관련된 가속도 값(들), 등이 추가적으로 통합되는 확장이 가능하다.

도면들에서 보여지지는 않지만, 시간 t+△t에서의 경로 분포(이로부터 p(Τ|G_i)가 결정됨)는 예를 들어, 앞에서와 같이 목표(G_i)에 대해 시간 t+△t에서 역 계획기(A5)를 재-실행함으로써 자체적으로 결정될 수 있는데, 단지 이것은 시간 t+△t에서 외부 행위주의 새로운 결정된 위치(r_t _+△t)에 대해 행해지고, 이에 따라, 예상된 궤적 모델을 업데이트하기 위해 행해진다. 목표 파라미터들은 역 계획기(A5)를 재-실행할 목적으로 이러한 지점에서 업데이트됐을 수 있거나 혹은 업데이트되지 않았었을 수 있다. 데이터-기반 행태 모델(data-driven behaviour model)이 사용되는 경우, 유사하게 이러한 행태 모델은 예상된 궤적 모델을 업데이트하기 위해 해당 시간에 재-실행될 수 있다.

앞서의 단계들은 가능하게는 실시간으로 시간 경과에 따라 반복적으로 수행된다. 해당 목표에 도달하는 것으로부터 다소 벗어난 외부 행위주에 대해, 초기에 외부 행위주가 어떤 목표를 실행하고 있는지를 명확하게 결정하는 것은 가능하지 않을 수 있는데, 왜냐하면 상이한 목표들에 대한 경로 분포들이 초기에는 유사하고, 그리고 이것은 가정된 목표들의 세트에 관한 그 확률들의 분포에서 반영될 것이기 때문이다. 경로 분포들이 발산(diverge)함에 따라, 확률 분포는 일반적으로 경로 분포들의 발산에 따라 특정 목표를 향해 기울어지기 시작할 것이다.

움직임들에 대한 역 계획(Inverse planning for manoeuvres )

앞에서는 목표들에 대한 역 계획을 고려한다. 표시된 바와 같이, 역 계획은 또한 가정된 움직임들의 세트(M)에 관해 움직임 레벨에서 구현될 수 있다.

예를 들어, 만약 다른 차량이 현재 인근에 교차로들이 없는 복수-차선 도로 상에서 주행하고 있다면, 가정된 움직임들의 세트(M)는 "차선 따르기" 및 "차선 바꾸기"로 구성될 수 있다. 그러한 경우에, "차선 따르기" 움직임에 대한 경로들의 하나의 세트가 생성되게 되고(이러한 경로들은, 다른 차량이 현재 "차선 따르기" 움직임을 실행하고 있다면 다른 차량이 취했을 것으로 예측되는 경로들임), 그리고 "차선 바꾸기" 움직임에 대한 경로들의 또 하나의 다른 세트가 생성되게 된다(이러한 경로들은, 다른 차량이 "차선 바꾸기" 움직을 실행하고 있다면 다른 차량이 취했을 것으로 예측되는 경로들임). 앞서의 설명은 움직임-레벨 역 계획에 동등하게 적용되는데, 단지 가정된 목표들의 세트(G) 대신에, 가정된 움직임들의 세트(M)가 사용된다.

움직임-레벨 역 계획에 대해서, 외부 행위주의 관찰된 자취(τ)는 가능한 움직임들의 세트(M)의 각각의 움직임(M_j∈M)의 확률을 추정하기 위해 사용될 수 있다. 각각의 움직임(M_j∈M)에 대해, 도 3A에서와 같이, 시간 t에 대한 예측된 궤적 모델이 결정된다. 예측된 궤적 모델은 단일 궤적일 수 있거나, 또는 궤적 분포일 수 있다. 그 다음에, (도 3B에서와 같이) 실제 관찰된 자취(τ)를 각각의 움직임(M_j)에 대한 궤적 모델과 비교함으로써, 관찰된 자취(τ)가 해당 움직임(M_j)에 대한 궤적 모델과 매칭되는 정도에 근거하여 해당 움직임의 확률(P(M_j|τ))이 추정될 수 있다. 앞에서와 같이, 이것은 소프트-매칭의 형태일 수 있다.

다음의 예에서, 컴퓨팅연산(computation)들을 단순화하기 위해, 각각의 움직임(M_j)은 역 계획의 목적으로 단일 궤적에 맵핑(mapping)된다. 궤적 분포와 관련된 움직임에 대해, 역 계획의 목적으로 해당 분포의 최빈수(mode) 혹은 가장 가능성 높은(most-likely) 궤적이 취해질 수 있다. 그러한 경우에,

P(Τ_j|M_j) = 1

이 되는 단일 궤적(Τ_j)이 존재하는 것으로 가정되고, 그리고 다른 모든 궤적들의 확률은 제로(zero)인 것으로 가정된다.

앞에서 사용된 기호는, 주어진 움직임(M_j)과 관련된 궤적(Τ_j)과 주어진 목표(G_i)에 관해 평가된 궤적(Τ)을 구분한다.

목표(G_i)에 도달하기 위해, 외부 행위주는 일련의 움직임들(예컨대, M_j, M_k,...)을 실행할 수 있다. 그러한 경우에, 전체 목표 궤적(즉, 목표(G_i)에 도달하기 위한 전체 목표 궤적)은 개별 움직임들(M_i, M_j,...)과 관련된 움직임 궤적들의 조합으로서 결정될 수 있다. 예를 들어, 아래에서 설명되는 구현예에서, 목표 궤적은 움직임 궤적들을 결합하고 여기에 속도 평활화를 적용함으로써 결정된다. 이러한 이유로, 움직임(M_i)과 관련된(혹은 움직임(M_i)과 관련하여 평가된) 궤적(Τ_i)은 "부분적 궤적(partial trajectory)"으로서 지칭될 수 있고, 그리고 목표와 관련된(혹은 목표와 관련하여 평가된) 궤적(Τ)은 "전체 궤적(full trajectory)"으로서 지칭될 수 있다.

특정 목표(G_i)에 대한 다수의 궤적들이 고려되는 경우에, 목표(G_i)에 대한 n번째 궤적을 하기 위해 Τ 대신에 기호 Τ⁽ⁿ⁾이 사용될 수 있다.

부분적 궤적들과 움직임들 간의 "일-대-일(one-to-one)" 관계를 가정한 이러한 앞서의 간단한 가정은 컴퓨팅연산 부담(computational burden)을 감소시키면서 수용가능한 성능을 제공하는 것으로 발견되었다. 하지만, 궤적들과 움직임들 간의 "일-대-일" 관계의 이러한 묵시적 가정을 하지 않는 대안적 구현예들이 그럼에도 불구하고 실행가능하다. 이러한 단순화된 가정이 없어도, 더 일반적인 베이시안 정적 관계(Bayesian still relation)가

를 유지하고, 여기서 p(Τ_k|M_j)(∈[0,1])은 움직임(M_l)이 주어지는 경우 부분적 궤적(Τ_j)의 확률이다. 그러한 경우에, 최빈수 / 가장 가능성 높은 부분적 궤적을 가정하는 것이 아니라, 대신 부분적 궤적들이 p(Τ_j|M_l)로부터 샘플링될 수 있고, 그리고 최빈수 / 가장 가능성 높은 부분적 궤적에 관련된 본 명세서에서의 모든 설명은, 그러한 경우에, 샘플링된 궤적에 동등하게 적용된다.

역 계획-예 구현(Inverse planning-example implementation)

추가 예시로서, 목표 인식을 위한 역 계획의 예시적 구현예가 이제 더 상세히 설명될 것이다. 이것은 적어도 하나의 외부 행위주에 대한 이용가능한 목표들의 세트(G)에 관한 확률 분포(P(G|O))를 예측하기 위해서(즉, 각각의 이용가능한 목표에 대해, 행위주가 현재 해당 목표를 구현하고 있을 추정된 확률을 예측하기 위해서) 목표-레벨에서 역 계획을 사용한다.

설명된 구현예는 추가적으로, 외부 행위주의 관찰된 자취(τ)가 주어지는 경우 가능한 움직임들의 세트(M)에 관한 분포(P(M|τ))를 예측하기 위해서(즉, 각각의 가능한 움직임에 대해, 행위주가 현재 해당 움직임을 실행하고 있을 추정된 확률을 예측하기 위해서) 확률적 움직임 검출을 사용한다. 움직임 예측들이 이후 설명되는 바와 같이 목표 예측들에 반영된다. 예를 들어, 움직임 검출은 움직임-레벨에서 역 계획을 사용하여 구현될 수 있다.

다르게 말하면, 설명된 구현예는 움직임-레벨과 목표-레벨 모두에서 추론된다.

목표 인식(Goal recognition)

목표 인식은, 행위주(외부 행위체, 이것은 다음의 예들에서 타겟 차량임, 하지만 언급된 바와 같이 행위체의 또 하나의 다른 형태일 수 있음)의 과거 동작들 및 다른 상황 정보가 주어지는 경우 행위주의 행위주 목표들을 추론하는 프로세스이다.

현재 맥락에서, 목표는, 고속도로/교차로 또는 다른 차선들 상의 다양한 출구 지점들과 같은, 차량의 목표들에 관해 역 계획기(A24)가 추론하고 있을 때 해당 차량에 대한 타겟 위치를 전형적으로 특정하게 된다. 또 하나의 다른 행위주의 목표들에 관한 지식은 계획 프로세스에 정보를 줄 수 있는데, 왜냐하면 행위주의 가정된 목표들에 관련되어 행위주의 행태에 대한 예측들이 수행될 수 있기 때문이다.

목표 인식을 사용하는 것은 또한 AV 시스템의 "설명가능성(explainability)"을 증가시킨다. 설명가능성은 시스템의 결정들을 인간에게 설명할 수 있는 시스템의 능력을 지칭한다. 목표 추론 프로세스(주체 차량이, 다른 차량들의 목표들이 상이한 시간들에 있다고 믿었던 것)를 기록하는 것은 결정 추적(tracing) 및 디버깅(debugging)을 위한 해석가능한 정보를 제공할 수 있다.

목표들은 결정적으로(deterministically) 또는 확률적으로(probabilistically) 추론될 수 있다. 다음의 예들에서, 목표들은, 관련된 관찰들의 세트(O)가 주어지는 경우 확률적으로 추론되는데, 즉, 이용가능한 목표들의 유한 세트(G)에 대한 목표 사후확률(goal posterior)(P(G|O))이 추정되고, 여기서 P(G_i|O)는 관찰들(O)이 주어지는 경우 외부 행위주가 목표(G_i∈G)를 가질 확률이다.

MCTS의 맥락에서, 목표들은 확률적으로 추론되어 앞서의 의미에서 트리가 전개됨에 따라 외부 행위체의 미래 궤적에 대한 추론된 예측이 수행되게 된다.

움직임들 및 목표들(Maneuvers and Goals)

먼저, 이용가능한 목표들 및 움직임들을 결정하기 위한 예시적 방식이 설명된다. 이러한 설명은 이후 설명되는 역 계획의 특정 구현예에 관련 맥락을 제공한다. 하지만, 이러한 설명이 이러한 점에 있어서 한정되는 것은 아니며, 역 계획 / 목표 인식의 대안적 구현예들, 및 목표 인식을 사용하지 않는 구현예들(예를 들어, 상위-레벨 목표 인식 없이 데이터-기반 행태 모델들을 사용하는 앞서 제공된 예들)을 포함하는 MCTS의 다른 구현예들에 동등하게 적용된다.

다중정책 기준선( Multipolicy baseline)

"다중정책 방법(multipolicy method)"이 기준선(baseline)으로서 사용된다. 다중정책 방법의 기본 가정은, 주체 차량을 포함하는 모든 차량들(또는 더 일반적으로는 외부 행위체들)이 차선 따르기, 차선 변경, 회전, 등과 같은 유한 개수의 움직임들 중 하나를 임의의 시간에 실행하고 있다는 것이다. 이러한 움직임들은 또한 본 명세서에서 "움직임 정책(maneuver policy)들"로서 지칭될 수 있다(움직임 정책, 즉 움직임들의 유한 세트 중의 움직임과, 선택된 움직임 정책을 실행하기 위해 사용될 수 있는 동작 정책(action policy) 간의 차이에 유의해야 함, 그리고 움직임의 영국식/미국식 철자들(manoeuvre/maneuver)이 본 명세서에서 상호교환가능하게 사용됨에 또한 유의해야 함).

"타겟(target)" 행위체는 예측되고 있는 행태를 갖는 외부 행위체를 의미한다. 하나 혹은 다수의 타겟 차량들(또는 다른 행위체들)에 대한 예측들이 수행될 수 있고, 그리고 가정들의 앞서의 세트가 각각의 타겟 행위체에 적용된다. 이전의 단락에서의 움직임 정책 예들은, 실제에 있어서, "폐-루프(closed-loop)"인데, 이것은 센서 피드백(sensor feedback)을 고려하여 선두 차량(leading vehicle)(선두 차량은 타겟 차량이 따르고 있는 차량임)에 대한 자신의 속력 및 거리를 자동적으로 변경시키는 것을 의미한다. 하지만, 아래에서 설명되는 바와 같이, 역으로 계획할 목적으로, 이들은 역 계획기(A24)의 성능에 큰 영향을 미침이 없이 컴퓨팅연산 효율이 증가되는 혜택을 갖는 "개방-루프(open-loop)" 움직임들로서 모델링될 수 있다. 타겟 차량 및 선두 차량들은 다음의 예에서 자동차들인데, 하지만 이러한 설명은 행위체의 임의의 형태(차량들, 보행자들, 자전거 타는 사람들, 등)에 동등하게 적용된다. 유사하게, 이러한 예는 자율주행 자동차(주체 자동차)를 고려하는데, 하지만 이러한 설명은 자율주행 차량의 임의의 형태에 적용된다.

움직임 검출은, 앞서 설명된 방식에서, 움직임-레벨에서의 역 계획을 사용하여 구현될 수 있다.

또 하나의 다른 예로서, 예측 컴포넌트(A4)의 별개의 움직임 검출기(Manoeuvre Detector)(MD)(1102)가 베이시안 변화점 검출(Bayesian changepoint detection)을 구현할 수 있다. 이러한 방법은 타겟 차량의 관찰된 낮은-레벨 궤적을 일련의 움직임들로 구획(segment)하는데 사용되고, 그리고 가장 최근의 구획은 자동차의 현재 실행된 움직임의 예측으로서 사용된다. 이러한 예측을 사용하여, 주체 자동차에게 이용가능한 각각의 움직임에 대한 다수의 순방향 궤적(forward trajectory)들이 시뮬레이션되고, 그리고 최상의 평가를 갖는 움직임이 실행을 위해 선택된다. 그 다음에, 이것은 아래의 예에서 목표-레벨 역 계획에 반영된다.

베이시안 변화점 검출은 그 자체로 알려져 있고, 그리고 시스템의 기본적인 은닉 상태에서 변화들의 확률적 검출을 지칭한다. 현재 맥락에서, 특정 시간에서의 외부 행위체의 은닉 상태는 해당 시간에 외부 행위체가 실행하고 있는 움직임 정책으로서 정의된다. 이러한 은닉 상태는 직접적으로 관찰가능하지 않고, 따라서 은닉 상태에 의해 유발된 관찰들(본 경우에서는 관찰된 자취)을 통해 추론될 필요가 있다. 이것은 현재 시점에서 각각의 이용가능한 움직임의 확률(즉, 외부 행위체가 현재 해당 움직임을 실행하고 있을 확률)이 추정될 수 있게 한다.

예를 들어, 은닉 마르코브 모델(Hidden Markov Model)(HHM)은 움직임들을 HHM의 은닉 상태들로서 나타내기 위해 사용될 수 있고, 여기서 관찰된 자취는 HMM의 상태 전이(state transition)들로부터 일어나는 것으로서 모델링된다.

아래에서 설명되는 바와 같이, 계획 프로세스를 상당히 단순화하기 위해 움직임 정책들의 상대적으로 작은 세트를 정의하는 것이 가능하다. 속도 및 거리와 같은 낮은-레벨 계획을 포함하는 방식으로 움직임 정책들이 정의되기 때문에 이러한 작은 세트를 정의하는 것이 가능하다. 유사하게, 다른 자동차들은 이러한 동일한 정책들 중 하나를 실행하고 있는 것으로 가정되기 때문에, 이들의 현재 움직임들은 낮은-레벨 궤적들이 주어지는 경우 효율적으로 추론될 수 있다.

이러한 다중정책 방법은, 단지 다른 자동차들의 현재 움직임만을 예측한다는 점, 하지만 이들의 미래 움직임들을 예측하려고 시도하지 않는다는 점에서, 그 자체가 근시적(myopic)이다. 역 계획은 이후 설명되는 바와 같이 미래 동작들을 예측하기 위해 이러한 방법 위에 구축된다.

예를 들어, 은닉 마르코브 모델(HHM)은 움직임들을 HHM의 은닉 상태들로서 나타내기 위해 사용될 수 있고, 여기서 관찰된 자취는 HMM의 상태 전이들로부터 일어나는 것으로서 모델링된다.

이러한 다중정책 방법은, 단지 다른 자동차들의 현재 움직임만을 예측한다는 점, 하지만 이들의 미래 움직임들을 예측하려고 시도하지 않는다는 점에서, 그 자체가 근시적이다. 역 계획은 이후 설명되는 바와 같이 미래 동작들을 예측하기 위해 이러한 방법 위에 구축된다.

움직임들(Maneuvers)

기본 움직임들(Basic maneuvers)

움직임들은 계획 및 예측을 위해 사용되는 기본 동작들을 나타낸다. 이러한 예에서는 다음과 같은 "기본"(기초적인) 움직임들이 고려된다:

차선 따르기

좌측/우측으로 차선 변경

좌/우 회전(주행 방향에서 가장 가까이 있는 차선으로 회전)

정지/주의

설명된 기법들이 대안적인 혹은 추가적인 움직임들까지 확장될 수 있음이 이해될 것이다.

각각의 기본 움직임은 이용가능성(applicability) 및 이와 관련된 종료 조건(termination condition)들을 특정했다. 움직임은 주어진 상태에서, 상태가 움직임의 이용가능성 조건을 만족시키는 경우에만, 이용가능하다. 예를 들어, 좌측으로 차선 변경은, 자동차의 좌측에 차선이 존재하고, 해당 차선에 자동차를 위한 충분한 개방 공간이 존재하는 경우에만, 가능하다. 이용가능성 조건들은 또한 교통 규칙들을 규정(encode)할 수 있다. 움직임은 상태가 종료 조건을 만족시키는 경우 종료된다. 차선 변경 움직임에 대해, 이것은 자동차가 해당 차선에 도달했고 차선 방향에 맞춰 정렬된 경우이다.

움직임의 시작과 끝 사이에, 움직임은 주체 자동차가 따라가야 할 기준 경로(reference path), 그리고 그 경로를 따르는 타겟 속도들을 특정한다. 현재 맥락에서, 궤적은 쌍(pair)(정적 기준 경로, 타겟 속도들)으로서 정의된다. 즉, 정적 기준 경로와 이에 더하여 타겟 속도들의 관련된 세트로서 정의된다(위 참조).

하지만, 일반적으로, 움직임은 다수의 궤적들과 관련된다. 예를 들어, 예측의 맥락에서, 움직임은 궤적 분포와 관련될 수 있는데, 즉 궤적들의 세트와 관련될 수 있고, 여기서 각각의 궤적은 특정된 확률(즉, 외부 행위체가 현재 해당 움직임을 실행하고 있다는 가정 하에, 외부 행위체가 해당 궤적을 따를 확률)을 갖는다.

처선 따르기 및 주의와 같은 일부 움직임들은 자연적인 종료 조건들을 갖지 못한다. 이러한 움직임들에 대해, 종료 조건은 파라미터로서 특정된다. "거시적 동작(macro action)들"(아래 참조)은 상황 정보에 근거하여 이러한 파라미터들을 자동적으로 설정한다.

주의 움직임은 거시적 동작들에서 사용되는 정지 움직임의 변형이다. 주의는 자동차의 속도를 늦추고 파라미터로서 주어진 특정된 위치까지 계속 움직이도록 한다. 해당 위치에서, 종점 조건(terminal condition)이 만족되는 경우 움직임은 종료되고, 만약 그렇지 않다면 자동차를 완전히 정지시키고, 그 다음에 종점 조건이 만족될 때 종료된다. 종점 조건은 (파라미터로서 제공된) 특정된 차선들에서, 다가오는 교통을 점검하는 데 사용된다. 차선들이 특정되지 않은 경우, 종점 조건은 항상 참(true)이다. 이것은 자동차로 하여금 가능한 다가오는 교통이 존재할 때 안전한 그리고 원활한 진입/진입을 위한 계획을 할 수 있게 한다. 좌측/우측으로 진출 거시적 동작들만에 대한 주의에서의 특별한 경우로서, 만약 다가오는 차량이 정지하고 그리고 피제어 차량이 회전 움직임을 완료하기 위해 필요한 적어도 일정 양의 시간 동안 정지된 상태로 유지될 것으로 예측된다면 강제 종료(forced termination)가 허용된다. 이것은 아래에서 설명되는 상황 3에서와 같은 특별한 경우들을 허용한다.

기본 움직임들 중 일부는 거시적 동작들 내에서만 사용되는데, 왜냐하면 이들은 추가적인 파라미터들을 갖고 있기 때문이고, 또는 이들은 회전 움직임과 같은 매우 특정된 위치들에서만 가능하기 때문이다.

다음의 예는 기본 움직임들의 두 개의 타입들을 사용하는데, 역 계획(예측) 또는 더 일반적으로는 목표 인식(즉, 도 1의 목표 인식 컴포넌트(A24)에 의한 목표 인식)을 위한 개방-루프 움직임들, 그리고 AV의 계획기(A6)에서의 MCTS 주체 계획을 위한 폐-루프 움직임들을 사용한다. 아들은 아래 부분들에서 상세히 설명된다.

폐-루프 움직임들(Closed-loop maneuvers)

기본 움직임은 센서들로부터의 피드백을 사용한다면 폐-루프이다. 이것은 움직임들에서의 자동화의 상이한 정도들을 담당(cover)할 수 있다. 여기서, 각각의 폐-루프 움직임은 선두 차량에 대한 자동차의 속도 및 거리를 자동적으로 제어한다고 가정된다(적응형 순항 제어(Adaptive Cruise Control, ACC)의 형태). 또한, 각각의 움직임은 비상 제동(emergency brake)을 자동적으로 개시시킬 수 있다고 가정된다.

시스템은 움직임들의 특정 구현에 대해 알지 못하며, 본질적으로 이들을 "블랙 박스(black box)" 기능들로서 간주한다. 이것은 유연성(flexibility)의 혜택을 갖고, 그리고 상이한 작용들이 간단하게 통합될 수 있게 한다. 가능한 구현예들은,

유한 상태 머신(finite state machine) 혹은 임의의 프로그래밍 로직(programming logic)을 사용하는 하드-코딩된 휴리스틱(hard-coded heuristic)

운동학적 자전거 모델(kinematic bicycle model)에 의해 정의되는 모션 프리미티브(motion primitive)들을 사용하는 격자 경로 계획기(lattice path planner)

제약 최적화 계획기(constraint optimisation planner)를 포함한다.

앞서의 목록에서의 계획 방법들은 상태 변경들 이후 반복적으로 호출될 수 있어 이들이 폐-루프화되게 된다.

개방-루프 움직임들(Open-loop maneuvers)

폐-루프 움직임들과는 대조적으로, 개방-루프 움직임들은 센서 피드백을 사용하지 않는다. 개방-루프 움직임은 피드백을 이용해 이러한 경로들을 정정하려는 시도 없이 기준 경로(또는 경로들에 관한 분포)를 특정한다. 이것은 움직임들의 더 간단한 그리고 컴퓨팅연산적으로 덜 비용이 드는 구현들을 가능하게 한다.

다시 말하지만, 시스템은 개방-루프 움직임들의 작용들에 대해 알지 못한다.

개방-루프 움직임들을 구현하는 간단한 하지만 효과적인 것은 도로 위상(road topology)으로부터 추출된 지점들의 세트에 다항식 함수(olynomial function)를 맞추는 것이다. 타겟 속도들이 상수(constant) 혹은 다른 시계열(time series)로 설정될 수 있다. 이것은 궤적들에 관한 분포가 아닌 하나의 궤적을 컴퓨팅하는데, 이것은 많은 실제 상황들에서 충분한 것으로 발견되었다.

또 하나의 다른 구현예는 수집된 주행 궤적들에 가우시안 프로세스(Gaussian process) 혹은 신경망과 같은 앞서 설명된 종류의 행태 모델을 사용한다. 이러한 궤적 데이터는 다양한 방식들로 생성될 수 있는데,

시뮬레이션에서, 가변 상황들 하에서, 대응하는 폐-루프 움직임을 사용하여 생성될 수 있고,

AV 플랫폼(AV platform)으로 생성된 실제 주행 데이터로부터 생성될 수 있고,

(인식된 움직임들로 구획되는) 실제 CCTV 데이터로부터 생성될 수 있다. 예로서, 도 5는 시간 경과에 따라 CCTV 장면(footage)에서 관찰된 궤적들에 맞추어진 가우시안 궤적 모델(1202)의 예를 보여준다.

주의 움직임에서 사용되는 바와 같이 "다가오는 교통이 해소(clear)될 때까지 대기(wait)"와 같은 조건들은, 조건이 참인 것으로 예측될 때까지 특정 시간 동안 대기함으로써(예컨대, 교통이 해소된 것으로 예측될 때까지 대기함으로써) 개방-루프 움직임들에서 실현될 수 있다.

타겟 속도들 및 속도 평활화(Target velocities and velocity smoothing)

언급된 바와 같이, 본 예에서, 궤적은 타겟 속도들의 세트와 결합된 정적 경로(static path)로서 정의된다.

타겟 속도들은 기본 움직임들 내에서 설정된다. 일반적인 원리로서, (예를 들어) 차량들은 특정 영역(예컨대, 속력 제한 영역)에서 특정 속력으로 주행하려고 시도할 것이라고 가정될 수 있다. 전방에 저속 자동차가 존재하는 경우(이러한 경우에, 해당 자동차의 속도는 새로운 타겟임), 또는 주행 경로, 등에서의 곡률(curvature)로 인해 요구되는 경우, 이러한 타겟은 감소된다.

개방-루프 차선-따르기에 대해, 타겟 속도들은 다음과 같이 설정된다.

min(제한-속력, 전방 자동차(존재하는 경우)의 속력)

이러한 방법은 간단하기 때문에, 컴퓨팅함에 있어 저렴하고, 하지만 충돌하는 다른 차량들에 대한 예측된 궤적들로 이어질 수 있다. 예를 들어, 아래의 상황 1에서, 트럭은 (전방에 차량이 없기 때문에) 제한 속력으로 계속 직진할 것으로 예측되고, 그리고 (추월(overtake)의 차선 따르기 구획 동안) 제한 속력에서 자동차 2에 의한 추월(over-take)이 또한 가정된다. 자동차 2와 트럭에 대한 예측된 궤적들은 충돌할 수 있는데, 왜냐하면 자동차 2에 대한 역 계획이 실제로 트럭에 대한 일정한 속도를 가정했기 때문이다. 하지만, 이러한 경우에 그리고 다수의 다른 경우들에서, 이러한 불일치(discrepancy)는 주체 계획기(A6)에 대해 문제들을 일으키지 않는 것으로 발견되었고, 안전한 그리고 효과적인 계획 결정이 여전히 이러한 간단한 방법의 예측 출력을 사용하여 취해질 수 있음이 발견되었다.

곡선 궤적들(예컨대, 회전 및 차선 변경)을 생성하는 기본 움직임들 내에서, 타겟 속도들은 국지적 곡률에 근거하는 휴리스틱을 사용하여 설정된다. 이러한 함수는 아래에서 보여지는 바와 같고,

v_target = max(v_min, v_max - cΨ)

여기서 v_target은 타겟 속도이고, 그리고 Ψ는 지점 곡률(point curvature)이다. 다른 항들은 적절한 값들로 설정된 상수들이다.

지점 곡률은 아래와 같은 방정식에 의해 주어지고,

여기서 x 및 y는 데카르트 좌표(Cartesian coordinate)들이다. x 및 y의 미분(derivative)들은 유한 차분(finite difference)들을 사용하여 차량에 대한 타겟 경로로부터 추정된다.

속도들이 기본 움직임들 내에서 설정되기 때문에, 두 개의 후속 움직임들은 속도들에서 갑작스러운 변경들을 가질 수 있다. 전형적인 예가 회전 움직임이 뒤따르는 차선-따르기이다. 이러한 영향을 보상하기 위해, 상이한 움직임들에 걸친 결과적인 완전한 궤적은 속도들에서 평활화될 수 있어 제어 및 사실감(realism)이 향상되게 된다. 주어진 궤적에서 타겟 속도들을 최적화하는 속도 평활화 기능이 사용된다. 속도 평활화는 예측(역 계획) 및 MCTS 주체 계획 모두에 대해 사용된다.

속도 평활화는 주어진 경로를 따르는 궤적에 관한 최적화 문제로서 공식화(formulate)된다. 길이방향 위치(longitudinal position)들에서의 지점들의 세트(xⁱ _T), 그리고 이들의 각각의 타겟 속도들(vⁱ _T)을 가정하면, 연속적인 그리고 미분가능한 함수(κ: x → v)가 맞추어 진다. 그 다음에, 시간 영역(time horizon)(T_H)(이것은 예를 들어, 타겟 속도들을 사용하여 추정될 수 있음), 두 개의 시점들 사이에 경과된 시간(△t), 그리고 최적화의 다른 파라미터들(예컨대, 최대 속도(v_max) 및 가속도(a_max))을 고려하면, 평활화 문제는 다음과 같이 정의된다.

문제의 해(solution)로부터, 공간적 재-샘플링(spatially re-sampling)이 xⁱ _T에서 실제 달성가능한 값들을 획득하기 위해 사용될 수 있다. 마지막 달성가능한 위치는 x_N에 의해 주어진다. 만약 x_N > max(xⁱ _T)라면, 오로지 이러한 해(solution)로부터만 재-샘플링하는 것이 가능하다.

대안적으로, 유사한 문제가 x_N으로부터 시작하여 해결될 수 있고, 이러한 절차(procedure)는 조건이 달성될 때까지 반복될 수 있다.

가속도와 같은 궤적에 관련된 다른 파라미터(들)를 모델링하는 것, 그리고 문제에 대한 확장으로서 이러한 파라미터(들)에 제약(constraint)들을 부과하는 것이 또한 가능하다.

속도 평활화는 입력 궤적에서 제로-속도(zero-velocity)들(이것은 완전한 정지들을 표시함)을 고려해야 한다. 이것을 달성하는 간단한 방법은, 궤적을 정지 이벤트(stopping event)들(제로 속도)에 의해 분리되는 구획들로 분할하고, 그리고 평활화 기능을 각각의 구획에 적용하는 것이다.

거시적 동작들(Macro actions)

본 명세서에서 "거시적 동작들"로서 지칭되는 특별한 종류의 움직임이 두 개의 중요한 방식들로 계획기를 경감(relieve)시키는데, 이러한 방식들은 공통된 일련의 움직임들을 특정하고, 그리고 이러한 방식들은 상황 정보(일반적으로 도로 배치)에 근거하여 기본 움직임들에서 자유 파라미터(free parameter)들을 자동적으로 설정한다.

이러한 예에서, 다음과 같은 거시적 동작들이 사용된다(모난 괄호들 내에 보여지는 것은 움직임 파라미터들임).

차선 유지(Continue lane): 일련의 움직임들<(가시적 차선의 끝까지, 즉 차선 목표까지) 차선 따르기>을 특정함

좌측/우측으로 진출(Exit left/right): 일련의 움직임들<(회전 지점에 이를 때까지 / 회전 지점에 가까이 이를 때까지) 차선 따르기, (다가오는 교통이 해소될 때까지 / 안전한 거리일 때까지) 주의, 좌/우 회전>을 특정함, 출구 지점은 주체 자동차의 목표에 대응하는 것이 되도록 자동적으로 설정되고, 이것은 거시적 동작이 더 이른 출구 지점들을 건너뛸 수 있게 함(이것은 특히 회전교차로들에서 유용함)

도로 횡단(Cross road): 일련의 움직임들<(건널목(road crossing)에 이를 때까지 / 건널목에 가까이 이를 때까지) 차선 따르기, (교차로(crossing road)로부터의 다가오는 교통이 해소될 때까지 / 안전한 거리일 때까지) 주의, (건널목 이후까지) 차선 따르기>을 특정함

추월(Overtake): 일련의 움직임들<우측으로 차선 변경, (주체 자동차가 다른 자동차(들)를 지나칠 때까지) 차선 따르기, 좌측으로 차선 변경>을 특정함

거시적 동작의 이용가능성 조건은, 거시적 동작에서의 첫 번째 움직임의 이용가능성 조건에 의해, 그리고 가능하게는 추가적인 조건들에 의해, 주어진다. 예를 들어, <우측으로 진출>에 대한 추가적인 조건은, 자동차가 자신의 주행 방향에서 가장-우측 차선 상에 있는 것, 그리고 타겟 출구 지점이 동일한 차선 상에서 자동차의 전방에 있는 것이다. <도로 횡단>에 대한 추가적인 조건은, 주체 자동차가 또 하나의 다른 자동차보다 먼저 양보해야만 하는 건널목이 존재하는 것이다(아래의 상황 3 참조). 거시적 동작의 종료 조건은 거시적 동작에서 마지막 움직임에 의해 주어진다. 거시적 동작들은 계획 및 예측 프로세스들을 상당히 촉진(speed up)시킬 수 있는데, 왜냐하면 주어진 목표를 달성하는데 단일의 거시적 동작이면 충분할 수 있기 때문이다. 예를 들어, 아래의 상황 2에서, 만약 주체 자동차의 목표가 G3이라면, 단일의 거시적 동작 <우측으로 진출>은 이미 목표를 달성할 것이다. 거시적 동작들은 또한, (예컨대, 차선 따르기와 같은 움직임들의 개방 종료 조건(open termination condition)들을 설정하는 것과 같은) 명시적으로 계획될 필요가 있었을 움직임들 간의 전환 지점(switching point)들을 자동적으로 고려하기 때문에, 유용하다.

이러한 작동에서 사용되는 바와 같은 거시적 동작들은 분해가능한 동작들의 계층(hierarchy)을 정의하지 않으며, 이들은 간단히 유연한 방식으로 일련의 동작들을 정의한다. 거시적 동작들은 계획 검색 공간에 암묵적으로 포함된다.

언급된 바와 같이, 아래에서 설명되는 특정된 예시적 MCTS 프로세스에 대해, 거시적 동작들에서의 모든 기본 움직임들은 폐-루프이고, 그리고 역 계획에 대해 모든 기본 움직임들은 개방-루프이다.

목표들 및 목표 생성(Goals and goal generation)

주체 자동차에 대한 목표들(Goals for ego car)

주체 자동차에 대한 목표들이 경로 계획에 근거하여 생성된다. 경로 계획기(A25)(도 1)는, 주석이 달린 도로 지도(차선 방향들, 교통 표지판(traffic sign)들, 등으로 주석이 달린 도로 지도), 그리고 시작/끝 위치들을 입력으로서 취한다. 경로 계획기(A25)는 주체 자동차가 주행해야만 하는 일련의 도로 구획들 및 방향들을 특정하는 시작부터 끝 위치까지의 경로를 컴퓨팅한다. 이러한 경로는 계획기(A6)로 전달되어 다음과 같이 주체 자동차에 대한 목표들을 생성하는데 사용된다. 개념적으로, 계획기(A6)는, 아래에서 보여지는 상황 그림들과 유사하게 주체 자동차를 중심으로 하는 조망 영역(view region)(예컨대, 정사각형 혹은 원형 혹은 임의의 적절한 형상)을 갖도록 지도를 "확대(zoom into)"한다. 이러한 조망 영역은 주체 자동차와 함께 계속 움직인다. 임의의 시점에서, 주체 자동차의 목표는, (자동차가 현재 도로로부터 연계 도로(onnecting road)로 변경할 필요가 있는) 경로에서의 다음 출구 지점에 의해 주어지고, 또는 만약 경로에서의 다음 출구 지점이 아직 가시적이 않다면 현재 차선의 가시적 끝에 의해 주어진다. 예를 들어, 아래의 상황 1에서, 다음 출구 지점은 가시적이지 않고, 이에 따라 목표는 G1이 된다. 아래의 상황 2에서, 출구 지점은 가시적이게 되고, 새로운 목표는 G3이 된다.

다른 자동차들에 대한 목표들(Goals for other cars)

또 하나의 다른 자동차의 목표들은, 예를 들어, 해당 자동차의 가능한 출구 지점들, 그리고 주체 자동차의 조망 영역에 의해 경계가 정해지는 해당 자동차의 방향에서 도로의 가시적 끝으로서 정의될 수 있다. 도로 배치 및 교통 규칙들에 대한 정보를 사용하여(예컨대, SDL 도로 그래프를 사용하여), 주어진 조망 영역에서 자동차에 대한 가능한 목표들의 세트를 나열(enumerate)하기 위해, 휴리스틱 목표 생성 기능이 사용된다. 많은 목표들(예컨대, 많은 출구 지점들)이 존재할 때 컴퓨팅 시간(compute time)을 감소시키기 위해서, 만약 동일한 차선 상에서 자동차의 전방에 이미 두 개의 더 이른 출구 지점들이 존재한다면, 이러한 기능은 자동차에 대한 출구 지점 목표를 무시할 수 있다.

"나는 당신이 내 앞에 있기를 원해요(I want you to be in front of me)"와 같은 목표들의 다른 타입들이 특정될 수 있다. 이러한 목표들은 환경 내에서 자동차들의 현재 구성에 근거하여 동적으로 부가 및 제거될 수 있다. 아래의 상황 설명들은 목표들의 예들을 제공한다.

목표 인식(Goal recognition)

이러한 예시적 구현예에서, 목표 인식은 도 4를 참조하여 이제 설명되는 바와 같이 "비용 페널티(cost penalty)들"에 근거하여 수행된다.

현재 맥락에서 "계획"은 목표에 도달하기 위해 선택되는 일련의 하나 이상의 기본 움직임들을 의미한다. 일부 경우들에서, 이러한 일련의 기본 움직임들은 거시적 동작에 의해 정의될 수 있다. 거시적 동작 혹은 일부 다른 일련의 다수의 기본 움직임들을 갖는 경우, 각각의 기본 움직임은 부분적 궤적과 관련되고, 그리고 부분적 궤적들은, 목표에 도달하기 위한 전체 궤적을 결정하기 위해, 속도 평활화를 사용하여 결합된다.

도 4는, 비용 페널티들에 근거하여, 이용가능성 목표들의 유한 세트로부터, 외부 행위체의 목표를 확률적으로 추론하는 방법에 대한 개략적 흐름도를 보여준다. 도 4의 우측은 다음과 같은 두 개의 이용가능한 목표들을 갖는 상황에 적용되는 단계들의 예시적 사례를 보여준다.

1. G₁ - 현재 도로를 계속 따르는 것, 이것은 가시적 도로의 끝에서 목표 위치로서 정의됨(더 일반적으로는, 현재 도로 상에서 자동차 앞에 있는 기준 지점으로서 정의됨);

2. G₂ - 우-회전 출구를 취하는 것, 이것은 출구 위치를 고려하여 정의됨.

관찰된 자동차에 대한 가능한 목표들의 세트, 그리고 자동차에 의해 실행된 일련의 과거 기본 움직임들이 주어지는 경우, 목표들에 관한 사후 분포(posterior distribution)가 역 계획의 프로세스를 사용하여 컴퓨팅될 수 있다. 이러한 방법은, 일련의 관찰들(O)(예컨대, 앞서의 예들에서와 같은, 관찰된 자취(τ_n)), 목표들에 관한 사전 분포(prior distribution)(P(G)), 그리고 가능성 함수(likelihood function)(L(O|G))가 주어지는 경우, 가능한 목표들(G)에 관한 베이시안 사후확률(Bayesian posterior)(P(G|O) ~ L(O|G)P(G))을 컴퓨팅한다.

기호들 P(O|G)와 L(O|G)는 서로 등가이고, 목표(G)가 주어지는 경우 관찰들(O)의 조건부 확률을 의미한다. 기호 "L"은 통계적 의미에서 이러한 확률들이 가능성들이라는 사실과 일관됨을 나타내기 위해 사용된다(본 개시내용의 더 앞선 부분에서, 용어 "가능성"은 일상적인 의미에서 사용된 것이고 반드시 이러한 특정적인 통계적 의미인 것은 아님에 유의해야 함, 그 의미는 맥락에서 명확할 것임).

목표는 목표 위치를 고려하여 정의되고, 그리고 기호 G_i는 해당 영역에 대한 목표 위치를 나타내기 위해 사용될 수 있다. 목표 위치(G_i)는 공간 내의 지점일 수 있고, 하지만 또한 영역일 수 있고, 또는 도로를 따라서 특정 거리에 대응할 수 있는데, 예를 들어, 목표 위치는 도로에 직교하는 선(line)으로서 정의될 수 있고, 그러한 경우에, 자동차가 (도로에서 그 측면 위치에 상관없이) 해당 선에 도달하면 자동차가 목표에 도달한 것으로 말해진다.

주어진 목표(G_j∈G)에 대한 가능성(L(O|G_i))은 다음과 같은 두 개의 계획들의 각각의 비용들(비용 페널티) 간의 차이로서 정의된다.

1. (시간 t에서) 자동차의 초기 위치(r_t)로부터 목표 위치(G_i)까지의 최적의 계획, 즉, 시간 t 이후에 자동차의 임의의 관찰된 행태에 상관없이 r_t로부터 G_i까지 도달하기 위한 최적의 계획. - 이것은 기본 움직임으로서 실행될 수 있거나, 거시적 동작으로서 실행될 수 있거나, 또는 거시적 동작과는 다른 일련의 다수의 기본 움직임들로서 실행될 수 있음. 다수의 기본 움직임들을 갖는 경우, 이와 관련된 부분적 궤적들은 (시간 t 이후에 자동차의 임의의 실제 관찰된 행태에 상관없이) 초기 위치(r_t)로부터 목표(G_i)에 도달하기 위한 최적의 전체 궤적을 제공하기 위해, 결합됨; 그리고

2. "최상의 이용가능한(best available)" 계획. - 이것은 시간 t와 시간 t+△t 사이에 자동차의 임의의 관찰된 행태가 주어지는 경우 r_t로부터 목표 위치(G_i)까지의 최적의 계획으로서 정의되는데, 즉, 후속하는 시구간(△T) 내에서 실제 관찰된 행태와 해당 계획이 매칭돼야만 하는 추가적인 제약 하에서 r_t로부터 G_i에 도달하기 위한 최상의 계획으로서 정의됨. 다르게 말하면, 해당 계획이 관찰들(O)을 고려하도록 하면서 자동차의 초기 위치(r_t)로부터 목표(G_i)까지의 최적의 계획으로서 정의됨. 이것은 자동차들이 목표들을 달성하기 위해 최적의 계획들을 실행할 가능성이 더 높지만 어느 정도의 이탈(deviation)을 허용한다는 가정함. 이것은 또한, 기본 움직임으로서 실행될 수 있거나, 거시적 동작으로서 실행될 수 있거나, 또는 거시적 동작과는 다른 일련의 다수의 기본 움직임들로서 실행될 수 있음. 다수의 기본 움직임들을 갖는 경우, 이와 관련된 부분적 궤적들은, t로부터 t+△t까지의 구간 내에 자동차의 실제 관찰된 행태를 고려하면서 초기 위치(r_t)로부터 목표(G_i)에 도달하기 위한 "최상의 이용가능한" 전체 궤적을 제공하기 위해, 결합됨. 최상의 이용가능한 궤적은, 실제 관찰된 궤적과 매칭되는, 구간 [t, t+△t] 동안의 관찰된 부분 및 후속 시구간 동안의 미래 부분을 갖는데, 이러한 미래 부분은 최상의 이용가능한 전체 궤적과 관련된 전체 비용(즉, 관찰된 부분 및 미래 부분 모두의 전체 비용)을 최소화시키도록 선택됨.

이것은 목표 인식의 형태인데, 왜냐하면 이것은 (다수의 움직임들과 관련된 다수의 부분적 궤적들에 근거할 수 있는) 목표에 도달하기 위한 전체 경로를 고려하기 때문이다.

전체 궤적에 할당된 비용은 이후 설명되는 바와 같이 다양한 인자(factor)들을 고려할 수 있다. 이러한 인자들은, 주행 시간(목표에 도달하기 위해 더 오래 걸리는 궤적들에 페널티를 줌), 안전(안전하지 않은 궤적들에 페널티를 줌), 그리고 편안함(예컨대, 과도한 저크(jerk)를 갖는 궤적들에 페널티를 줌)을 포함한다.

자동차의 초기 위치(r_t)는 예를 들어, 자동차의 첫 번째 관찰된 위치일 수 있다. 합리적인 접근법은 초기 위치(r_t)를 정의하기 위해 주체 자동차의 센서 범위들에 의해 정의된 과거 관찰들의 움직이는 윈도우(moving window)를 사용하는 것이다.

도 4에서 각각의 목표(G₁, G₂)에 대한 최적의 계획(앞서의 1번)이 단계(1004)에서 컴퓨팅된다. 컴퓨팅되면, 이것은 예를 들어, A* 검색(상세한 내용들에 대해서는 아래 참조)을 사용하여 각각의 목표(G₁, G₂)에 대한 최적의 궤적이 결정될 수 있게 한다. 최적의 궤적이 컴퓨팅되면, 그 다음에, 최적의 궤적과 관련된 전체 비용이 컴퓨팅될 수 있다(이것은 또한 아래에서 설명됨). 최적의 궤적은 전체 궤적인데, 즉 초기 위치(r_t)로부터 해당 목표에 도달하기 위한 전체 궤적이다.

도 4의 예에서, 궤적들은 궤적을 따라 지점들에 의해 표시되고, 이러한 지점들은 시간적으로 균등하게 이격되어 있는데, 이에 따라 균등하게-이격된 지점들은 일정한 속도를 시사하게 되고 그리고 지점들 간의 증가하는(감소하는) 거리는 가속도(감속도)를 시사하게 된다. 백색 원들은 최적의 궤적 지점들을 나타내기 위해 사용된다. 따라서, 목표(G₁)에 대해서, 최적의 궤적은 도로를 따라 일정한 속력으로 계속되는 직선 경로이고, 반면 목표(G₂)에 대해서, 최적의 궤적은 자동차가 출구에 대한 회전 지점에 접근함에 따라 점진적으로 느려지는 것이다.

각각의 목표(G₁, G₂)에 대한 최상의 이용가능한 계획(앞서의 2번)이 단계(1006)에서 컴퓨팅된다. 표시된 바와 같이, 이것은 시간 t(자동차가 초기 위치(r_t)에 있었던 때)와 현재 시간 t+△t 사이에서 실제 관찰들(O)을 고려한다. 이러한 관찰들(O)은 관찰된 낮은-레벨 자취(τ)를 포함할 수 있는데, 이것은 도 4에서 흑색 원들을 사용하여 표현된다.

이러한 맥락에서, 관찰들(O)은 대안적으로 혹은 추가적으로 자동차의 현재 움직임을 포함할 수 있는데, 즉 각각의 목표의 확률이, 자동차에 의해 현재 실행되는 움직임에 따라 추정될 수 있다. 관찰들(O)은 추가적으로 과거 관찰된 움직임들을 포함할 수 있다.

비록 도 4에서 명시적으로 보여지지는 않지만, 앞서 설명된 바와 같이, 자동차에 대한 가능한 현재 움직임들에 관한 확률 분포를 예측하기 위해 확률적 움직임 검출이 적용된다. 따라서, 현재 움직임을 명확하게 알 수는 없지만, 가능한 현재 움직임들에 관한 분포(p(M|τ))를 고려하여 단지 확률적으로는 알 수 있다. 이것은, 먼저 p(M|τ)로부터 현재 움직임(M_j)을 샘플링함으로써, 그 다음에 그 현재 움직임(M_j)에 대한 목표 확률 분포(p(G|O))로부터 샘플링을 행함으로써(즉, M_j를 포함하는 관찰들(O)을 이용함으로써), 처리될 수 있다.

최상의 이용가능한 계획으로부터, 최상의 이용가능성 궤적이 결정될 수 있고(상세한 내용들에 대해서는 아래 참조), 이것은 또한 최상의 이용가능한 궤적에 대한 전체 비용이 결정될 수 있게 한다(이것은 아래에서 또한 설명됨). 이것은 또한 초기 위치(r_t)로부터 목표 위치(G_i)까지 완전한 궤적이라는 의미에서 전체 궤적이다. 최상의 이용가능한 궤적은, 실제 관찰된 궤적과 매칭되는, 시간 t와 t+△t 사이의 관찰된 부분(즉, 도 4에서 흑색 원들)을 갖고, 그리고 추가적으로 t+△T 이후의 시간 동안의 미래 부분(이것은 도 4에서 대각선으로 음영처리된 원들을 사용하여 표현됨)을 포함한다.

도시된 예에서, 목표(G₁)에 대한 최상의 이용가능한 궤적의 관찰된 부분(흑색 원들)과 미래 부분(대각선으로 음영처리된 원들) 모두가 해당 목표(G₁)에 대한 최적의 궤적(백색 원들)과 상당히 잘 매칭된다는 것을 알 수 있다. 따라서, (최적의 궤적의 비용과 최상의 이용가능한 궤적의 비용 간의 차이인) 목표(G₁)에 대한 비용 페널티는 상대적으로 낮다.

하지만, 목표(G₂)에 대해서, 관찰된 궤적(흑색 원들)은 최적의 궤적(백색 원들)으로부터 상당히 현저하게 이탈하는데, 왜냐하면 자동차가 최적의 궤적에 의해 요구되는 정도에 대해 시간 t+△t를 지나 실패했기 때문이다. 이러한 불일치가 반드시 그 자체로 상당한 비용 페널티를 일으키지는 않을 것이다(이것은 구현의 세부사항들에 따라 그럴 수도 있고 혹은 그렇지 않을 수도 있음). 하지만, 관찰된 행태의 결과로서, 최상의 이용가능한 궤적의 미래 부분(즉, 시간 t+△t 이후의 부분)은 반드시 급제동(sharp braking)을 포함해야만 함을 알 수 있고(이것은 자동차의 현재 위치로부터 G₂까지의 최저-비용 경로가 자동차의 상황들이 주어지는 경우 급제동을 포함해야만 한다는 사실을 시사함), 여기에는 비용 함수에 의해 페널티가 주어진다. 최적의 궤적의 비용으로부터의 이러한 불일치는 목표(G₂)에 대한 더 높은 비용 페널티를 의미한다.

단계(1008)에서, 각각의 목표(G₁, G₂)에 대해, 비용 페널티를 고려하여, 즉, 해당 목표에 대해 단계(1004)에서 컴퓨팅된 최적의 계획의 비용과 단계(1006)에서 컴퓨팅된 최상의 이용가능한 계획의 비용 간의 차이를 고려하여, 목표 가능성(L(O|G))이 컴퓨팅된다. 이것은 또한, 목표 가능성 및 목표 사전확률(goal prior)에 근거하여 목표 사후확률(P(G|O))이 컴퓨팅될 수 있게 한다(단계(1010)).

사전확률(P(G))은 특정 목표들의 "내재적(inherent)" 확률에 대한 지식을 규정하는데 사용될 수 있다. 예를 들어, 도 4의 상황에서, 자동차들은 상대적으로 드물게 우-회전 출구를 취하는 것이 관찰될 수 있고, 이것은 P(G₂) < P(G₁)인 사전확률로서 규정될 수 있다. 이것은 G₂에 대해 목표(G₁)를 효과적으로 편향시키게 된다. 이러한 사전 지식이 없는 상황들에 대해, 각각의 목표는 특정 자동차의 개별 행태의 임의의 관찰들 없이 동등하게 가능한 것으로, 즉, P(G₁) = P(G₂)인 것으로 간단히 가정될 수 있다.

앞서의 내용은, 목표가 주어질 때, 자동차의 초기 위치(r_t)가 주어지는 경우 해당 목표에 대한 최적의 계획이 결정될 수 있고, 후속하는 시구간(△T) 내의 관찰들이 주어지는 경우 해당 목표에 대한 최상의 이용가능한 계획이 결정될 수 있음을 가정한다. 더욱이, 앞서의 내용은, 최적의 계획(최상의 이용가능한 계획)이 주어지는 경우 최적의 궤적(최상의 이용가능한 궤적)이 결정될 수 있음을 가정한다. 이러한 방식으로 목표들 대 계획들 대 궤적들의 맵핑을 행하기 위한 하나의 기법은, 이제 설명되는 바와 같은, A* 검색을 사용한다.

확률적 계획 인식 알고리즘(Probabilistic plan recognition algorithm)

A* 검색(A* search)

"A* 검색"은 거시적 동작들을 포함하는 개방-루프 움직임들에 관해 수행된다. 움직임들은 이들의 이용가능성 조건들에 근거하여 필터링(filtering)된다. 만약 기본 움직임들이 궤적들에 관한 분포들을 특정한다면, 적절한 단일 궤적이 예를 들어, 최빈수 혹은 가장 가능성 높은 궤적으로서 선택될 수 있다.

A* 검색은 노드(node)들 및 에지(edge)들의 가중된 그래프(weighted graph)를 고려하여 공식화된 알려진 방법이다. 현재 맥락에서, A* 검색의 목표는 (시작 노드(starting node)에 의해 표현된) 주어진 위치로부터 특정 목표(G_i)에 도달하기 위한 최적의 계획을 찾는 것이다. 그래프의 노드들은 움직임들(기본 움직임들 또는 거시적 동작들)을 나타내고, 그리고 목표로 하는 것은, 상대적을 낮은 비용으로 목표에 도달하는 일련의 노드들을 찾는 것(이에 따라 일련의 움직임들을 찾는 것)이다. 각각의 노드(n)에 대해, "지금까지의 비용(cost so far)"(g(n))은 시작 노드로부터 노드(n)까지의 비용으로서 정의되고, 그리고 휴리스틱 함수(heuristic function)(h(n))는 n으로부터 목표까지의 비용의 추정치를 제공한다. 검색은 시작 노드에서 시작하고, 그리고 각각의 노드에서는,

f(n) = g(n) + h(n)

으로서 정의되는 가장 낮은 노드 비용을 갖는 다음 노드로 시퀀스(sequence)를 확장시킨다.

환경 내의 다른 모든 자동차들이 일정한-속도 모델을 사용한다는 단순화된 가정이 사용될 수 있다.

초기 위치(r_t)로부터 목표(G_i)까지의 최적의 궤적을 찾을 목적으로, 검색은 시간 t 및 위치(r_t)에서 자동차에 의해 실행되는 움직임으로 시작한다. 시구간(△t) 내의 관찰들(O)이 주어지는 경우 자동차의 현재 위치(r_t _+△t)로부터 목표까지의 최상의 이용가능한 궤적을 찾을 목적으로, 검색은 검출된 현재 움직임 및 현재 위치(r_t _+△t)로 시작한다.

움직임들을 검출하기 위해 앞서-설명된 움직임 검출 방법이 사용될 수 있다. 일반적으로 이것은 결과적으로 가능한 현재 움직임들에 관한 확률 분포를 생성하게 될 것임에 유의해야 한다. 모든 예측된 현재 움직임에 대해 역 계획이 수행돼야 하는데, 왜냐하면 이들은 목표들에 관한 상이한 사후확률들로 이어질 수 있기 때문이다. 따라서, 각각의 가능한 현재 움직임은 자기 자신의 목표 사후확률을 생성한다. 컴퓨팅연산 효율을 위해, 단지 n개의 가장 가능성 높은 현재 움직임들만이 고려되고, 임의의 다른 움직임들은 무시되는데, 여기서 n은 적절하게 설정될 수 있는 방법 파라미터이다.

현재 위치(현재 검색 노드)에 도달하기 위한 지금까지의 비용(g(n))은 기본 움직임들에 의해 특정된 경로들 및 속도들에 근거하는 현재 위치까지의 추정된 주행 시간으로서 정의될 수 있다.

목표까지의 나머지 비용을 추정하기 위한 비용 휴리스틱(h(n))은 현재 위치로부터 제한 속력에서의 직진을 통해 목표 위치까지의 주행 시간에 의해 주어진다. 검색을 효과적으로 안내(guide)하기 위해서, h(n)은 단지 이러한 검색 안내를 위해 최소의 나머지 비용의 추정치만을 제공하면 됨에 유의해야 한다. 따라서, 성능에 영향을 미침이 없이 상대적으로 개략적인 가정들이 여기서 만들어질 수 있다.

최적의 계획을 찾은 후에, 계획 내의 움직임들에 걸쳐 완전한 궤적이 생성된다. 그 다음에, 속도 평활화가 완전한 궤적에 적용되고, 그리고 계획의 최종 비용을 획득하기 위해 전체 비용 함수가 컴퓨팅된다(아래에서 비용 함수 부분 참조). 이러한 마지막 단계(평활화 적용 및 전체 비용 함수)는, 아래의 제동(braking) 사례에서와 같이, 속도들에 근거하는 추가적인 "단서(clue)들"을 포착하는 것을 가능하게 한다.

속도 평활화는 이미 관찰된 궤적의 임의의 부분에 적용되지 않는다. 그렇지 않다면, 속도 평활화의 효과가 특정 목표들에서 힌트(hint)를 제공하게 되는 증거를 유실시키는 것이 될 수 있다(도 4의 예의 맥락에서 더 상세한 것들에 대해서는 아래 참조).

자동차가 움직임을 통해 중간쯤(mid-way)에 있는 경우들(예컨대, 차선 변경)을 설명하기 위해, 자동차의 현재 실행된 움직임은, 미래에 대한 추가 계획 전에 완료될 수 있도록, 인식될 때 필요가 있다.

검색 공간을 감소시키기 위해, 기본 회전 및 주의 움직임들은 검색 공간으로부터 제거될 수 있는데, 왜냐하면 이들은 거시적 동작들을 벗어나 사용되지 않기 때문이다. 차선-따르기 움직임은, 만약 종점 조건이 기본 값(default value)으로서 어떤 고정된 길이로 설정된다면, 거시적 동작을 벗어난 기본 움직임으로서 여전히 유용할 수 있다.

본 예들은 역 계획 동안 외부 행위체들 간의 충돌들을 점검하지 않는다. 이것이 수행될 수는 있지만, 이것은 전체 프로세스를 더 비싸게 만들게 된다. 더욱이, 다른 차량들의 일정한 속도들과 같은 일부 단순화된 가정들로 인해, 충돌들이 불가피하게 발생하는 상황들이 존재할 수 있다. 아래에서 상세히 설명되는 다수-행위주 MCTS 방법이 이러한 충돌 점검을 처리할 수 있다.

대안적으로, 프로세스는 역 계획의 일부로서, 가능한 충돌들에 대한 추론을 위해 확장될 수 있다.

A* 검색과 관련하여 앞에서 제시된 가정들은 컴퓨팅연산 효율과 성능 간에 좋은 균형(balance)을 제공하는 것으로 발견되었다. 당연한 것으로, 일정하지 않은 속도 모델들과 같은, 가정들의 다른 세트들이 사용될 수 있음이 이해될 것이다. 또 하나의 다른 예로서, 앞서의 내용은 본질적으로, 단지 움직임과 관련된 가장 가능성 높은 궤적만을 고려함으로써, 검색 문제를 결정적 문제(deterministic problem)로 바꾼다. 하지만, 이것은 전체 혹은 생략된(truncated) 궤적 분포들에 근거하는 확률적 검색으로 동등하게 확장될 수 있다. 다시 말해서, 앞서의 내용은 단일 궤적들의 형태로 전체/부분적 궤적 모델들을 고려하지만, 이러한 기법들은 또한 전체/부분적 궤적 분포들에 적용될 수 있다.

각각의 목표(G)에 대해 독립적인 쓰레드(thread)들을 사용함으로써, 다중-쓰레딩(multi-threading)이 프로세스의 속도를 높이기 위해 사용될 수 있다. 자동차들이 독립적인 목표들을 갖는다고 추가적으로 가정하는 경우, 각각의 다른 자동차에 대해 하나의 프로세스/쓰레드를 사용함으로써 추가 병렬화(parallelisation)가 달성될 수 있다.

제동(Braking)

비록 제동이 앞서의 방법에서 별도의 움직임으로서 인식되지 않지만, 이러한 방법은 목표들의 가능성에서 여전히 제동을 설명할 수 있다.

예로서, 앞에서 설명되고 도 4에서 보여지는 상황을 고려한다. 자동차의 초기 위치로부터 G2까지의 최적의 계획이 우측으로 진출 거시적 동작에 의해 주어진다. 속도 평활화를 적용한 이후, 결과는 자동차가 회전 지점에 도달할 때까지 계속 느려지는 궤적이다. 이러한 최적의 궤적의 비용은 C2에 의해 표시된다.

자동차가 차선을 따르고 있고, 회전 지점에 현재 반쯤 더 가까워지고 있으며, G2에 대한 최적의 궤적과 유사하게 감속하고 있는 것으로 관찰된다고 가정한다. 따라서, 만약 G2까지의 궤적이 견줄만 하다면, 이것은 결과적으로 C2와 유사한 비용을 갖는 궤적을 생성한다. 반면, 초기 상태로부터 G1까지의 최적의 궤적은 이러한 제동을 수반하지 않게 되는데, 이것은 (시간에서의 차이 및 가능하게는 저크로 인해) 상당한 비용 차이로 이어진다. 따라서, G2의 사후 확률은 증가하고, 반면 G1의 확률은 감소한다.

(부차적인 것으로서, 앞에서 유의해야 하는 것은, 속도 평활화는 이미 관찰된 궤적의 임의의 부분에 적용되지 않는다는 것이다. 이에 대한 이유는 다음과 같은 예에서 명백하다. 만약 속도 평활화가 전체 궤적에 적용된다면, 평활화는 또한 이미 관찰된 차선-따르기 움직임의 일부에서 속도들을 감소시키게 된다. 이것은 더 낮은 비용 페널티로 이어지게 되는데, 왜냐하면 제동이 더 이상이 그렇게 갑작스러운 것이 아니기 때문이다. 다르게 말하면, 이것은 초기 관찰된 위치로부터 최적의 궤적과 더 유사한 궤적을 만들게 된다. 따라서, 평활화가 과거 궤적을 수정이 불가능한 상수들로서 처리하는 것이 적절하다.)

이제, 그 대신에, 자동차가 차선을 따르지만 감속하는 대신 일정한 속도를 갖고 있음이 관찰된다고 가정한다. 만약 이러한 궤적이 G2로 계속된다면, 이것은 갑작스러운 제동을 수반할 것이고, 이는 결과적으로 C2보다 훨씬 더 높은 비용을 유발하게 된다. 반면, 목표(G1)까지 궤적을 계속하는 것(차선 유지)은 본질적으로 초기 상태로부터 G1에 대한 최적의 계획이다. 따라서, 사후 확률에서 G2는 감소하고, G1은 증가한다.

마지막으로, 자동차가 차선을 따르고, 회전 지점 가까이에서 갑작스럽게 감속하는 것이 관찰된다고 가정한다. 이러한 갑작스러운 제동은 G2와 G1 모두에 대해 상당한 비용 페널티를 유발할 것인데, 왜냐하면 이것은 어떠한 것도 초기 상태로부터 최적의 궤적이 아니기 때문이다. 따라서, 양쪽 목표들의 비용은 증가하게 되고, 이것은 두 개의 목표들의 상대적 확률에서 더 작은 변경을 일으킨다.

목표들로부터 궤적들을 예측(Predicting trajectories from goals)

주어진 목표에 대한 자동차의 가능한 궤적들 및 관련된 확률들을 예측하기 위해, 동일한 A* 검색 방법이 역 계획에 대해 사용된 바와 같이 사용될 수 있다. 최적의 계획을 찾은 이후 A*를 종료하는 것이 아니라, 고정된 시간 예산(time budget)이 대신 부과(impose)되고, 그리고 알고리즘은 (가능하게는 어떤 고정된 수의 계획들까지) 계획들의 세트를 관련된 비용들과 함께 컴퓨팅하도록 허용된다. A* 검색이 목표에 도달한 노드를 찾을 때마다. 대응하는 계획이 계획들의 세트에 부가된다. 계획에서의 움직임들에 의해 주어지는 부분적 궤적들을 연결함으로써 계획들로부터 궤적들이 생성된다.

계획들로부터 추출된 궤적들에 관한 분포가 다음과 같은 소프트맥스 분포(softmax distribution)(궤적 모델)

를 사용하여 컴퓨팅될 수 있고, 여기서 Τ⁽ⁿ⁾은 목표에 대한 n-번째 전체 궤적이고, C_m은 궤적의 비용(평활화 이후 전체 비용)이고, 그리고 β_n은 궤적(Τ⁽ⁿ⁾)에 대한 크기조정 인자(scaling factor)이다(앞에서 언급된 바와 같이, 기호 Τ⁽ⁿ⁾은 주어진 움직임(M_j)에 대한 부분적 궤적(Τ_j)과 구분하기 위해 목표에 대한 n-번째 전체 궤적에 대해 사용됨). 이것은 최적치에 더 가까운 궤적들이 더 가능성이 높다는 가정을 규정한다. 크기조정 인자는 관찰된 데이터에 근거하여 특정 궤적들에 대한 가중치를 낮추기 위해 사용될 수 있는데, 즉, 궤적 예측 모델이, 관련된 사례들에 관해 훈련될 수 있게 하기 위해 사용될 수 있다. 대안적으로, 일정한 크기조정 인자(예를 들어, 1의 값)가 사용될 수 있다.

앞서의 소프트맥스 궤적 모델은 RRT를 통해 획득된 궤적 모델에 대한 대안으로서 사용될 수 있다.

역 계획에서와 같이, 이러한 궤적들의 세트가, 각각의 예측된 현재 움직임에 대해 생성되는데, 이것은 n개의 가장 가능성 높은 현재 움직임들과 같은 일부 서브세트에 집중한다. A*는 현재 움직임을 완료한 이후 시작하고, 최종 궤적들은 현재 움직임의 나머지를 포함한다.

이것은 단일의 최적의 궤적이 아닌 다양한 그럴듯한 궤적들을 예측하고, 이는 유익한 것인데, 왜냐하면 다수의 궤적들이, 최소(거의-최소)의 비용은 달성하지만 주체 차량의 부분 상에서 상이한 행태를 또한 요구할 수 있는 상이한 예측들로 이어지는 상황들이 존재하기 때문이다.

하드웨어 레벨에서, AV의 온-보드 컴퓨터 시스템(A1)은 앞서의 기능들을 수행하기 위한 알고리즘들을 실행할 수 있는 실행 하드웨어를 포함한다. 실행 하드웨어는 범용 혹은 특수 목적 실행 하드웨어, 또는 이들의 임의의 조합일 수 있지만, 일반적으로 가속기(accelerator)들(예컨대, GPU(들)), 현장 프로그래밍가능 게이트-어레이(Field Programmable Gate-Array)(FPGA)들 또는 다른 프로그래밍가능 하드웨어, 그리고/또는 애플리케이션-특정 집적 회로(Application-Specific Integrated Circuit)(ASIC)들, 등과 같은(하지만, 이러한 것으로만 한정되는 것은 아닌) 특화된 하드웨어와 결합되어 동작할 수 있는 하나 이상의 프로세서들(예컨대, 중앙 프로세싱 유닛(Central Processing Unit)(CPU)들)을 포함할 것이다. 안전한 그리고 신뢰가능한 동작을 보장하기 위해 충분한 정확도 및 속도로(종종 실-시간으로), 종종 정교한 그리고 복합적인 ML/AI 모델들을 사용하여, 복합적인 데이터 프로세싱 동작들을 수행할 필요가 있는 경우, 온-보드 컴퓨터 시스템은, 가능하게는 해당 모델들 및 알고리즘들의 구현에 맞춤제작된 특화된 컴퓨터 하드웨어를 갖도록 고도로 정교하게 될 수 있다. 특히, AI의 분야에서 혁신이 진행되고 있는 속도를 고려하면, 하드웨어 레벨 및 기능적/소프트웨어 레벨 모두에서 AV 온-보드 컴퓨터 시스템(A1)의 구조체계(architecture)가 수많은 형태들을 취할 수 있음이 이해될 것이다. 본 명세서에서, 컴퓨터 시스템 내에 구현되는 기능적 컴포넌트들, 등(예컨대, 데이터 프로세싱 컴포넌트(A2), 예측 컴포넌트(A4), 및 AV 계획기(A6))은 컴퓨터 시스템에 의해 구현되는 특정 기능, 즉, 상황들 내에서 적절한 그 어떤 것이든 상관없이 컴퓨터 시스템의 범용 및/또는 특화된 하드웨어에 의해(이들의 조합에 의해) 수행되는 기능들의 높은-레벨 표현이다.

Claims

외부 행위체 궤적(external actor trajectory)을 예측하는, 컴퓨터로 구현되는 방법(computer-implemented method)으로서, 상기 방법은,
외부 행위체를 검출 및 추적하기 위한 센서 입력(sensor input)들을 컴퓨터에서 수신하는 것과;
상기 외부 행위체를 추적하여 임의의 시구간(time interval) 동안 상기 외부 행위체의 관찰된 자취(observed trace)를 결정하기 위해 상기 센서 입력들에 객체 추적(object tracking)을 적용하는 것과;
상기 외부 행위체에 대한 이용가능한 목표(available goal)들의 세트(set)를 결정하는 것과;
상기 이용가능한 목표들 각각에 대해, 예상된 궤적 모델(expected trajectory model)을 결정하는 것과; 그리고
상기 외부 행위체의 상기 관찰된 자취를 상기 이용가능한 목표들 각각에 대한 상기 예상된 궤적 모델과 비교하여 상기 목표의 가능성(likelihood)을 결정하는 것을 포함하는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제1항에 있어서,
상기 방법은 자율주행 주체 차량(autonomous ego vehicle)에서 구현되고,
상기 자율주행 차량의 계획기(planner)는 상기 이용가능한 목표들 중 적어도 하나의 목표의 상기 가능성에 따라 자율 주행 결정을 수행하고,
상기 센서 입력들은 상기 자율주행 차량의 센서 시스템을 사용하여 획득되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제1항 또는 제2항에 있어서,
상기 예상된 궤적 모델은, 상기 목표와 관련된 단일의 예측된 궤적이거나, 또는 상기 목표와 관련된 예측된 궤적들의 분포(distribution)인 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제3항에 있어서,
상기 예상된 궤적 모델은 예측된 궤적들의 세트 내의 각각의 예측된 궤적(Τ)에 대한 조건부 확률(conditional probability)(p(Τ|G_i))을 포함하는 분포이고,
상기 목표의 상기 가능성(p(G_i|τ))은 상기 관찰된 자취(τ)가 주어지는 경우 적어도 하나의 예측된 궤적 확률(predicted trajectory probability)(p(Τ|τ))을 추정하기 위해 사용되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
임의의 앞선 항에 있어서,
상기 예상된 궤적 모델은 각각의 목표에 대해 상기 목표의 원하는 목표 위치에 근거하여 결정되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
임의의 앞선 항에 있어서,
상기 예상된 궤적 모델은 각각의 목표에 대한 생성 모델(generative model)을 실행함으로써 결정되고,
상기 생성 행태 모델(generative behaviour model)은 실세계 주행 행태(real-world driving behaviour)의 사례(example)들에 근거하여 궤적들을 생성하도록 훈련된 것인 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제6항에 있어서,
상기 모델들은 상기 방법이 적용되는 관련된 주행 영역(driving area)에 특정되어 있는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
임의의 앞선 항에 있어서,
상기 예상된 궤적 모델은, 각각의 목표에 대해 상기 목표의 하나 이상의 파라미터(parameter)들 및 상기 외부 행위주(external agent)의 하나 이상의 파라미터들에 근거하여 정의된, 예측된 궤적들의 공간을 샘플링(sampling)하기 위해 샘플링 알고리즘(sampling algorithm)을 적용함으로써 결정되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
임의의 앞선 항에 있어서,
이용가능한 목표들의 상기 세트는 상기 외부 행위주와 관련된 지도 데이터(map data)에 근거하여 결정되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
임의의 앞선 항에 있어서,
상기 예상된 궤적 모델은, 주체 차량 행태(ego vehicle behaviour)에 대한 다른 행위체의 반응을 모델링(modeling)하기 위해 하나 이상의 주체 차량 파라미터(ego vehicle parameter)들에 근거하여 결정되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
임의의 앞선 항에 있어서,
상기 관찰된 자취는 상기 목표에 대한 최상의 이용가능한 궤적 모델(best-available trajectory model)을 예측하기 위해 사용되고,
상기 비교하는 것은 상기 최상의 이용가능한 궤적 모델을 상기 예상된 궤적 모델과 비교하는 것을 포함하는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제11항에 있어서,
상기 관찰된 자취는 상기 외부 행위체의 현재 움직임(current maneuver) 및/또는 미래 움직임(future maneuver)을 예측하기 위해 사용되고,
상기 예측된 현재 혹은 미래 움직임은 상기 최상의 이용가능한 궤적 모델을 결정하기 위해 사용되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제12항에 있어서,
적어도 하나의 목표에 대한 일련의 복수의 움직임들이 결정되고,
상기 최상의 이용가능한 궤적 모델은 상기 복수의 움직임들과 각각 관련된 부분적 궤적 모델(partial trajectory model)들에 근거하여 상기 목표에 대해 결정되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제13항에 있어서,
각각의 부분적 궤적 모델은 하나 이상의 타겟 모션 값(target motion value)들을 포함하고,
상기 최상의 이용가능한 궤적 모델의 미래 부분의 하나 이상의 모션 값들은 모션 평활화(motion smoothing)를 상기 타겟 모션 값들에 적용함으로써 결정되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제11항 내지 제14항 중 임의의 항에 있어서,
각각의 목표에 대한 상기 예상된 궤적 모델은 상기 목표에 대한 단일의 예상된 궤적이고,
각각의 목표에 대한 상기 최상의 이용가능한 궤적 모델은 단일의 최상의 이용가능한 궤적인 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제13항에 종속될 때의 제15항에 있어서,
각각의 움직임에 대한 상기 부분적 궤적 모델은 상기 움직임에 대한 가장 가능성 높은 부분적 궤적인 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제11항 내지 제16항 중 임의의 항에 있어서,
정의된 비용 함수(cost function)가 각각의 목표에 대한 상기 최상의 이용가능한 궤적 모델 및 상기 예상된 궤적 모델에 모두 적용되어 상기 궤적 모델들의 각각의 비용들이 결정되고,
상기 비교하는 것은 상기 비용들을 비교하는 것을 포함하는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제17항에 있어서,
상기 비용 함수는 불안전한 궤적들에는 페널티(penalty)를 주지만 감소된 주행 시간에는 보상(reward)을 주는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제18항에 있어서,
상기 비용 함수는 또한 편안함(comfort)의 부족에 페널티를 주는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
외부 행위체 궤적을 예측하는, 컴퓨터로 구현되는 방법으로서, 상기 방법은,
외부 행위체를 검출 및 추적하기 위한 센서 입력들을 컴퓨터에서 수신하는 것과;
상기 외부 행위체를 추적하여 임의의 시구간 동안 상기 외부 행위체의 관찰된 자취를 결정하기 위해 상기 센서 입력들에 객체 추적을 적용하는 것과;
상기 외부 행위체에 대한 가능한 움직임들의 세트를 결정하는 것과;
상기 가능한 움직임들 각각에 대해, 예상된 궤적 모델을 결정하는 것과; 그리고
상기 외부 행위체의 상기 관찰된 자취를 상기 이용가능한 움직임들 각각에 대한 상기 예상된 궤적 모델과 비교하여 상기 움직임의 가능성을 결정하는 것을 포함하는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제20항에 있어서,
상기 방법은 자율주행 차량에서 구현되고,
상기 자율주행 차량의 계획기는 상기 이용가능한 움직임들 중 적어도 하나의 움직임의 상기 가능성에 따라 자율 주행 결정을 수행하는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제20항 또는 제21항에 있어서,
상기 예상된 궤적 모델은, 상기 움직임과 관련된 단일의 예측된 궤적이거나, 또는 상기 움직임과 관련된 예측된 궤적들의 분포인 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
제22항에 있어서,
상기 관찰된 자취는 예측된 궤적들의 상기 분포 중 가장 가능성 높은 궤적과 비교되는 것을 특징으로 하는 외부 행위체 궤적을 예측하는 방법.
임의의 앞선 항의 방법을 실행하도록 되어 있는 실행 하드웨어(execution hardware)를 포함하는 컴퓨터 시스템.
실행될 때 청구항 제1항 내지 제23항 중 임의의 항의 방법 중 임의의 방법을 구현하도록 되어 있는 실행가능 명령들을 포함하는 컴퓨터 프로그램.
자율주행 차량 컴퓨터 시스템으로서, 상기 자율주행 차량 컴퓨터 시스템은,
청구항 제1항 내지 제23항 중 임의의 항의 방법을 구현하도록 되어 있는 예측 컴포넌트(prediction component)와; 그리고
상기 예측 컴포넌트들의 출력들을 사용하여 자율 주행 결정들을 수행하도록 되어 있는 계획기를 포함하는 것을 특징으로 하는 자율주행 차량 컴퓨터 시스템.
제26항에 있어서,
상기 예측 컴포넌트는,
외부 행위주에 대한 목표 예측을 제공하기 위해 청구항 제1항 내지 제19항 중 임의의 항의 방법을 구현하도록 되어 있고, 그리고
상기 외부 행위주에 대한 움직임 예측을 제공하기 위해 청구항 제20항 내지 제23항 중 임의의 항의 방법을 구현하도록 되어 있는 것을 특징으로 하는 자율주행 차량 컴퓨터 시스템.
제27항에 있어서,
상기 움직임 예측은 상기 목표 예측을 수행하기 위해 사용되는 것을 특징으로 하는 자율주행 차량 컴퓨터 시스템.
청구항 제26항 또는 제27항 또는 제28항의 자율주행 차량 컴퓨터 시스템과, 그리고 상기 계획기에 결합되어 상기 계획기에 의해 발생된 제어 신호들에 응답하는 구동 기구(drive mechanism)를 포함하는 자율주행 차량.