TW202020748A

TW202020748A - 遞迴多保真度行為預測

Info

Publication number: TW202020748A
Application number: TW108136822A
Authority: TW
Inventors: 凱爾約旦布朗; 米希爾加影; 艾哈邁德卡梅爾莎迪克
Original assignee: 美商高通公司
Priority date: 2018-10-11
Filing date: 2019-10-14
Publication date: 2020-06-01
Also published as: US20200117958A1; WO2020077233A1; US11256964B2; CN112823358A

Abstract

一種用於預測場景中的代理的未來動作的方法包括將保真度級別分配給在場景中觀察到的代理。該方法亦包括經由遍歷場景來遞迴地預測代理的未來動作。每個遞迴級別處使用不同的前向預測模型。該方法亦包括基於預測的代理的未來動作來控制自我代理的動作。

Description

遞迴多保真度行為預測

本案根據專利法主張於2018年10月11日提出申請的題為「RECURSIVE MULTI-FIDELITY BEHAVIOR PREDICTION」的美國臨時專利申請案第62/744,415號的權益，其揭示內容經由引用的方式明確地整體上併入本文。

本案內容的各態樣整體上係關於行為預測，具體而言，係關於用於遞迴行為預測的系統和方法。

迴旋神經網路是一種前饋人工神經網路。迴旋神經網路可以包括神經元集合，每個神經元都具有接收場並共同平鋪輸入空間。迴旋神經網路（CNN）有許多應用。尤其是，CNN已廣泛用於模式辨識和分類領域。

CNN亦可以用於行為預測。自動駕駛和非自動駕駛車輛可以使用CNN來預測代理（例如其他車輛）之間的行為。例如，自動駕駛汽車將行為預測用於計畫和決策。期望改進諸如自動駕駛之類的任務的行為預測系統。

在本案內容的一個態樣，揭示一種方法。該方法揭示可以預測場景中的主體的未來動作。該方法包括將保真度級別分配給在場景中觀察到的代理。該方法亦包括經由遍歷場景來遞迴地預測代理的未來動作。該方法亦包括基於預測的代理的未來動作來控制自我代理的動作。

本案內容的另一態樣針對一種裝置，該裝置包括用於將保真度級別分配給在場景中觀察到的代理的單元。該裝置亦包括用於經由遍歷場景來遞迴地預測代理的未來動作的單元。該裝置亦包括用於基於預測的代理的未來動作來控制自我代理的動作的單元。

在本案內容的另一態樣，揭示一種其上記錄有非暫時性程式碼的非暫時性電腦可讀取媒體。程式碼可以預測場景中代理的未來動作。該程式碼由處理器執行，並且包括用於將保真度級別分配給在場景中觀察到的代理的程式碼。該程式碼亦包括用於經由遍歷場景來遞迴地預測代理的未來動作的程式碼。該程式碼亦包括用於基於預測的代理的未來動作來控制自我代理的動作的程式碼。

本案內容的另一態樣針對一種裝置。該裝置可以預測場景中代理的未來動作。該裝置具有記憶體和耦合到該記憶體的一或多個處理器。該處理器被配置為將保真度級別分配給在場景中觀察到的代理。該處理器亦被配置為經由遍歷場景來遞迴地預測代理的未來動作。該處理器亦被配置為基於預測的代理的未來動作來控制自我代理的動作。

下面將描述本案內容的另外的特徵和優點。本發明所屬領域中具有通常知識者應當理解，本案內容可以容易地用作修改或設計用於實現本案內容的相同目的的其他結構的基礎。本發明所屬領域中具有通常知識者還應該認識到，這種等同構造不脫離如所附請求項中闡述的本案內容的教導。當結合附圖考慮時，將從以下描述中更好地理解被認為是本案內容的特徵的新穎特徵，關於其組織和操作方法，以及進一步的目的和優點。然而，應當明確地理解，提供每個附圖僅出於說明和描述的目的，並且不意欲作為對本案內容的限制的定義。

以下結合附圖闡述的實施方式意欲作為各種配置的描述，並非意欲表示可以實踐本文該的概念的唯一配置。本實施方式包括具體細節，目的是提供對各種概念的透徹理解。然而，對於本發明所屬領域中具有通常知識者顯而易見的是，可以在沒有這些具體細節的情況下實踐這些概念。在某些情況下，以方塊圖形式圖示各種結構和部件，以避免使得這些概念難以理解。

基於這些教導，本發明所屬領域中具有通常知識者應該理解，本案內容的範疇意欲覆蓋本案內容的任何態樣，無論是與本案內容的任何其他態樣獨立地實施還是組合地實施。例如，可以使用本文所闡述的任何數量的態樣來實施裝置或者實踐方法。此外，本案內容的範疇意欲涵蓋使用附加於所闡述的本案內容的各個態樣的或除所闡述的本案內容的各個態樣之外的其他結構、功能或結構和功能來實踐的這種裝置或方法。應當理解，所揭示的本案內容的任何態樣可以由請求項的一或多個要素體現。

在本文中使用詞語「示例性」來表示「用作實例、例子或說明」。本文描述為「示例性」的任何態樣不一定被解釋為優選的或優於其他態樣。

儘管本文描述了特定態樣，但是這些態樣的許多變化和排列都屬於本案內容的範疇內。儘管提及了優選態樣的一些益處和優點，但是本案內容的範疇並非意欲限於特定的益處、用途或目的。相反，本案內容的各態樣意欲廣泛地應用於不同的無線技術、系統組態、網路和協定，其中一些在優選態樣的附圖和以下說明中作為實例示出。具體實施方式和附圖僅僅是對本案內容的說明而不是限制，本案內容的範疇由所附請求項及其等同變換限定。

行為預測可用於涉及進行決策的代理之間互動的任務。例如，自動駕駛汽車將行為預測用於計畫和決策。在該實例中，自動駕駛車輛使用行為預測系統來預測自動駕駛車輛周圍的環境中的代理的行為。自動駕駛車輛可以被稱為自我代理。周圍環境可以包括動態物件，例如自主代理。周圍環境亦可以包括靜態物件，例如道路和建築物。

一或多個感測器，例如光感測和測距（LIDAR）感測器、無線電感測和測距（RADAR）感測器、照相機及/或另一種類型的感測器，可用於擷取環境的時間快照（例如場景）。時間快照提供有關在給定的時間上的瞬間處的環境狀態的資訊，例如動態和靜態物件的位置。行為預測系統基於時間快照和一或多個先前的時間快照，計算多個場景（例如，場景的可能未來演變）。

行為預測可以被稱為估計場景中一或多個動態代理的未來軌跡上的後驗分佈的任務。當計畫自我代理的行為時，期望準確地預測自我代理周圍的代理的行為。由於狀態和模型的不決定性，可能難以預測周圍代理的行為。狀態不決定性是代表理的位置及/或速度的不決定性。模型不決定性是代表理推理程序模型中的不決定性。

自我代理和其他代理的未來行為是相互依賴的。由於這種相互依賴性，行為預測可能會很困難，尤其是在連續的狀態空間、動作空間及/或觀察空間中。例如，高速公路駕駛可以使用連續的狀態空間、動作空間和觀察空間進行建模。在高速公路上行駛時，預測模型在控制自我代理的動作的同時從對其他代理動作的連續觀察中接收資訊。

本案內容的各態樣針對經由將多保真度框架組合到遞迴推理方案中來改進行為預測。多保真度是指在各種保真度級別下預測行為。經由使用具有遞迴推理方案的多保真度框架，本案內容的各態樣可以減少記憶體佔用量並且減少用於自我代理的行為預測系統的功耗。

運動假設是指預測的代理的未來軌跡的表示。運動假設可以是單個軌跡或軌跡上的分佈。原子預測模型是接收場景歷史的表示的輸入的模型。原子預測模型亦可以接收預測的場景的未來的表示作為輸入。由原子預測模型產生特定目標車輛的運動假設。原子預測模型的預測保真度可以在其級別的態樣有所不同。原子預測模型亦可以稱為策略。

可以為場景之每一者代理分配推理級別和原子預測模型集合。代理的推理級別是大於或等於零的整數。代理的被分配的原子預測模型集合之每一者原子預測模型都對應於特定的推理級別，該特定推理級別大於或等於零且小於或等於代理的被分配的推理級別。對於每個級別，給定的代理可以具有不多於一個的被分配的原子預測模型。

對於具有被分配的0級的原子預測模型的每個代理，遞迴推理方案使用被分配的0級原子預測模型產生0級運動假設。對於具有被分配的1級原子預測模型的每個代理，遞迴推理方案使用被分配的1級原子預測模型產生1級運動假設。其他代理的0級運動假設的子集可以用作任何1級預測模型的輸入。可以重複該程序，使得可以將每個連續的運動假設集合（k級）以場景中其他代理的子集之每一者代理的先前計算的運動假設的最高級別（最高為k-1）為條件。

多保真度框架提供了一種能力，用以調節預測每個代理行為的保真度。在一種配置中，多保真框架允許定製分配給每個代理的原子策略模型集合。可能期望調節保真度以使模型適應於由用於收集環境資訊的感測器引起的不決定性的分佈。例如，對於其運動歷史在可用於模型的場景歷史中沒有很好定義的代理，可能期望較低保真度的原子預測模型。

多保真度框架亦提供了將計算資源的分配偏向被認為是最重要的代理。亦即，與環境中的其他代理相比，可以將更多的計算資源配置給具有更高重要性的代理。例如，與較遠的車輛的行為相比，與自動車輛（例如自我代理）相鄰的車輛的行為可以被認為對預測模型的計畫程序更為重要。這樣，與分配給處理與環境中的其他物件有關的資訊的計算資源相比，可以將更多的計算資源配置給處理與自動車輛相鄰的車輛有關的資訊。此外，更重要的代理可以產生增加的資訊量。這樣，額外的計算資源可以用於處理更重要的代理的額外資訊。

經由以先前計算的運動假設為條件，該模型可以明確地推理出代理之間的未來互動。目標車輛的較高級別運動假設可以以周圍車輛的預測為條件，而周圍車輛的預測又可以以相同目標車輛的較低級別運動假設為條件。所論述的條件可以被稱為遞迴方案。

可以產生與多個不同的可能場景相對應的預測，這些可能場景可以由場景樹或場景森林進行編碼。多個場景樹可以共享共用的預測節點，並扇出成更高級別的推理所表示的中間節點和葉節點。

圖1圖示根據本案內容的某些態樣片上系統（SOC）100的實例實施方式，該片上系統100可以包括被配置用於遞迴多保真度行為預測的中央處理單元（CPU）102或多核CPU。變數（例如，神經訊號和突觸權重）、與計算設備相關聯的系統參數（例如，具有權重的神經網路）、延遲、頻點資訊和任務資訊可以儲存在與神經處理單元（NPU）108關聯的儲存塊中、與CPU 102相關聯的儲存塊中、與圖形處理單元（GPU）104相關聯的儲存塊中、與數位訊號處理器（DSP）106相關聯的儲存塊中、儲存塊118中、或可以分佈在多個塊中。在CPU 102處執行的指令可以從與CPU 102相關聯的程式記憶體中載入，或者可以從記憶體塊118中載入。

SOC 100亦可以包括針對特定功能而定製的額外處理塊，例如，GPU 104、DSP 106、連線性塊110，其可以包括第五代（5G）連線性、第四代長期進化（4G LTE）連線性、Wi-Fi連線性、USB連線性、藍芽連線性等，以及可以例如偵測和辨識手勢的多媒體處理器112。在一種實施方式中，NPU在CPU、DSP及/或GPU中實施。SOC 100亦可以包括感測器處理器114、圖像訊號處理器（ISP）116及/或導航模組120，其可以包括全球定位系統。

SOC 100可以基於ARM指令集。在本案內容的一態樣，載入到處理器102中的指令可以包括用於將保真度級別分配給在場景中觀察到的代理的代碼。處理器102亦可以包括用於經由遍歷場景來遞迴地預測代理的未來動作的代碼。處理器102亦可以包括用於基於預測的代理的未來動作來控制自我代理的動作的代碼。

深度學習架構可以經由學習表示每層中相繼的更高級別抽象處的輸入，從而構建輸入資料的有用特徵表示來執行物件辨識任務。這樣，深度學習解決了傳統機器學習的主要瓶頸。在深度學習問世之前，針對物件辨識問題的機器學習方法可能嚴重依賴於人工設計的特徵，或者可能與淺分類器結合使用。淺分類器可以是兩類線性分類器，例如，其中可以將特徵向量分量的加權和與閾值進行比較，以預測輸入所屬的類別。人工設計的特徵可以是具有領域專業知識的工程師針對特定問題領域定製的範本或核心。相比之下，深度學習架構可以學習表示與人類工程師可能設計的特徵類似的特徵，但要經由訓練。此外，深度網路可以學習表示和辨識人類可能尚未考慮過的新型特徵。

深度學習架構可以學習特徵的層級。例如，若以視覺資料呈現，則第一層可以學習辨識輸入流中的相對簡單的特徵，例如邊緣。在另一實例中，若以聽覺資料呈現，則第一層可以學習辨識特定頻率中的頻譜功率。以第一層的輸出作為輸入的第二層可以學習辨識特徵的組合，例如視覺資料的簡單形狀或聽覺資料的聲音組合。例如，較高層可以學習表示視覺資料中的複雜形狀或聽覺資料中的詞語。此外，更高層可以學習辨識常見的視覺物件或口頭短語。

深度學習架構在應用於具有自然層級結構的問題時可能會表現特別出色。例如，機動車輛的分類可受益於首先學習辨識車輪、擋風玻璃和其他特徵。這些特徵可以以不同方式在較高層組合，以辨識汽車、卡車和飛機。

可以以各種連接模式設計神經網路。在前饋網路中，資訊從較低層傳遞到較高層，給定層之每一者神經元皆與較高層中的神經元進行通訊。如前述，可以在前饋網路的連續層中構建層級表示。神經網路亦可以具有遞迴或回饋（亦稱為自上而下）連接。在遞迴連接中，給定層中神經元的輸出可以傳送到同一層中的另一個神經元。遞迴架構可能有助於辨識跨以序列傳遞到神經網路的多於一個的輸入資料區塊的模式。從給定層中的神經元到較低層中的神經元的連接稱為回饋（或自上而下）連接。當高級概念的辨識可以幫助區分輸入的特定低級特徵時，具有許多回饋連接的網路可能會有所説明。

神經網路的各層之間的連接可以完全連接或局部連接。圖2A圖示完全連接的神經網路202的實例。在完全連接的神經網路202中，第一層中的神經元可以將其輸出傳送給第二層之每一者神經元，從而第二層之每一者神經元將從第一層的每個神經元接收輸入。圖2B圖示局部連接的神經網路204的實例。在局部連接的神經網路204中，第一層中的神經元可以連接到第二層中的有限數量的神經元。更一般而言，可以配置局部連接的神經網路204的局部連接層，以使該層之每一者神經元將具有相同或相似的連線性模式，但連接強度可能具有不同的值（例如210、212，214和216）。局部連接的連線性模式可以在較高層中引起空間上不同的接收場，因為給定區域中的較高層神經元可能會接收到經由訓練而調整為網路總輸入的受限部分的屬性的輸入。

局部連接的神經網路的一個實例是迴旋神經網路。圖2C圖示迴旋神經網路206的實例。迴旋神經網路206可以被配置為使得共享（例如208）與第二層之每一者神經元的輸入相關聯的連接強度。迴旋神經網路可能非常適合輸入的空間位置有意義的問題。

一種類型的迴旋神經網路是深度迴旋網路（DCN）。圖2D圖示DCN 200的詳細實例，該DCN 200被設計為從來自圖像擷取裝置230（例如車載攝像機）輸入的圖像226中辨識視覺特徵。可以訓練當前實例的DCN 200以辨識交通標誌和在交通標誌上提供的數位。當然，可以對DCN 200進行其他任務的訓練，例如辨識通道標記或辨識交通訊號燈。

可以利用監督學習訓練DCN 200。在訓練期間，可以向DCN 200呈現圖像，例如限速標誌的圖像226，並且隨後可以計算前向傳遞以產生輸出222。DCN 200可以包括特徵提取部分和分類部分。在接收到圖像226時，迴旋層232可以將迴旋核（未圖示）應用於圖像226以產生第一特徵圖集合218。作為實例，用於迴旋層232的迴旋核可以是5×5核心，其產生28×28個特徵圖。在本實例中，因為在第一特徵圖集合218中產生四個不同的特徵圖，所以在迴旋層232處將四個不同的迴旋核應用於圖像226。迴旋核亦可以稱為篩檢程式或迴旋篩檢程式。

可經由最大池化層（未圖示）對第一特徵圖集合218進行二次取樣以產生第二特徵圖集合220。最大池化層減小了第一特徵圖集合218的大小。亦即，第二特徵圖集合220的大小，例如14×14，小於第一特徵圖集合218的大小，例如28×28。減小的大小為後續層提供了類似的資訊，同時減少了記憶體消耗。可以經由一或多個後續迴旋層（未圖示）進一步對第二特徵圖集合220進行迴旋以產生一或多個後續特徵圖集合（未圖示）。

在圖2D的實例中，對第二特徵圖集合220進行迴旋以產生第一特徵向量224。此外，進一步對第一特徵向量224進行迴旋以產生第二特徵向量228。第二特徵向量228的每個特徵可以包括與圖像226的可能特徵相對應的數位，例如「標記」、「60」和「100」。softmax函數（未圖示）可以將第二特徵向量228中的數位轉換為概率。這樣，DCN 200的輸出222是圖像226包括一或多個特徵的概率。

在本實例中，輸出222中「標記」和「60」的概率高於輸出222中其他的概率，例如「30」、「40」、「50」、「70、「80」、「90」和「100」。在訓練之前，DCN200產生的輸出222可能不正確。因此，可以在輸出222和目標輸出之間計算誤差。目標輸出是圖像226的實測資料（例如，「標記」和「60」）。隨後可以調整DCN 200的權重，以使DCN200的輸出222與目標輸出更緊密地對準。

為了調整權重，學習演算法可以計算權重的梯度向量。梯度可以指示若調整權重則誤差將增加或減少的量。在頂層，梯度可以直接對應於連接倒數第二層中的啟動神經元和輸出層中的神經元的權重值。在較低層中，梯度可以取決於權重的值以及較高層的計算出的誤差梯度。隨後可以調整權重以減小誤差。這種調整權重的方式可以稱為「反向傳播」，因為它涉及經由神經網路的「反向傳遞」。

實際上，可以在少量實例上計算權重的誤差梯度，使得計算出的梯度逼近真實誤差梯度。該逼近方法可以被稱為隨機梯度下降。可以重複進行隨機梯度下降，直到整個系統可達到的錯誤率停止降低或直到錯誤率達到目標水平為止。在學習之後，可以向DCN呈現新圖像（例如，圖像226的限速標誌），並且經由網路的前向傳遞可以產生可以被認為是DCN的推斷或預測的輸出222。

深度信念網路（DBN）是包括多個隱藏節點層的概率模型。DBN可以用於提取訓練資料集的分層表示。DBN可以經由堆疊限制性Boltzmann機器（RBM）的層來獲得。RBM是一種人工神經網路，可以學習輸入集合的概率分佈。由於RBM可以在沒有有關每個輸入應分類到的類別的資訊的情況下學習概率分佈，因此RBM經常用於無監督學習中。使用混合的無監督和有監督範式，DBN的底部RBM可以以無監督的方式訓練，並且可以充當特徵提取器，頂部RBM可以以有監督的方式（在來自前一層的輸入和目標類別的聯合分佈上）訓練，並可用作分類器。

深度迴旋網路（DCN）是迴旋網路的網路，其被配置有額外的池化和正規化層。DCN在許多工上都達到了最先進的效能。DCN可以使用有監督的學習進行訓練，其中輸入和輸出目標對於許多實例都是已知的，並且用於經由使用梯度下降方法來修改網路的權重。

DCN可以是前饋網路。另外，如前述，從DCN的第一層中的神經元到下一個更高層中的一組神經元的連接在第一層的神經元之間共享。DCN的前饋和共享連接可用於快速處理。例如，與包含遞迴或回饋連接的類似大小的神經網路相比，DCN的計算負擔可以小得多。

迴旋網路的每一層的處理可以被認為是空間不變的範本或基礎投影。若首先將輸入分解為多個通道，例如彩色圖像的紅色、綠色和藍色通道，則可以將在該輸入上訓練的迴旋網路認為是三維的，其中沿圖像的軸具有兩個空間維度，並且第三維擷取顏色資訊。迴旋連接的輸出可被認為在後續層中形成了特徵圖，其中特徵圖（例如220）的每個元素都從前一層（例如特徵圖218）中的一系列神經元並從多個通道之每一者通道接收輸入。可以用非線性（例如校正）max(0, x)進一步處理特徵圖中的值。來自相鄰神經元的值可以被進一步池化，這對應於向下取樣，並且可以提供額外的局部不變性和降維。亦可以經由特徵圖中神經元之間的橫向抑制來應用對應於白化的正規化。

深度學習架構的效能可以隨著更多有標籤資料點變得可用或計算能力增加而提高。對現代深度神經網路的一般訓練使用比僅十五年前典型研究人員可用的大數千倍的計算資源。新的架構和訓練範例可以進一步提高深度學習的效能。校正後的線性單位可以減少稱為消失梯度的訓練問題。新的訓練技術可以減少過度擬合，並且從而使較大的模型能夠實現更好的泛化。封裝技術可以提取給定接收場中的資料，並進一步提高整體效能。

圖3是示出深度迴旋網路350的方塊圖。深度迴旋網路350可以包括基於連線性和權重共享的多種不同類型的層。如圖3所示，深度迴旋網路350包括迴旋塊354A、354B。每個迴旋塊354A、354B可以配置有迴旋層（CONV）356、正規化層（LNorm）358和最大池化層（MAX POOL）360。

迴旋層356可以包括一或多個迴旋篩檢程式，可以將其應用於輸入資料以產生特徵圖。儘管僅圖示迴旋塊中的兩個354A、354B，但是本案內容不限於此，而是根據設計偏好，任何數量的迴旋塊354A、354B可以包括在深度迴旋網路350中。正規化層358可以正規化迴旋篩檢程式的輸出。例如，正規化層358可以提供白化或橫向抑制。最大池化層360可以提供空間上的下取樣聚合以用於局部不變性和降維。

例如，深層迴旋網路的並行篩檢程式組可以載入在SOC 100的CPU 102或GPU 104上，以實現高效能和低功耗。在替代實施例中，並行篩檢程式組可以載入在SOC 100的DSP 106或ISP 116上。此外，深度迴旋網路350可以存取SOC 100上可能存在的其他處理塊，例如分別專用於感測器和導航的感測器處理器114和導航模組120。

深度迴旋網路350亦可以包括一或多個完全連接的層362（FC1和FC2）。深度迴旋網路350可以進一步包括邏輯回歸（LR）層364。在深度迴旋網路350的每層356、358、360、362、364之間是要更新的權重（未圖示）。每層（例如356、358、360、362、364）的輸出可以用作深度迴旋網路350中一個後續層（例如356、358、360、362、364）的輸入，以從在第一個迴旋塊354A處提供的輸入資料352（例如，圖像、音訊、視訊、感測器資料及/或其他輸入資料）中學習分層特徵表示。深度迴旋網路350的輸出是輸入資料352的分類分數366。分類分數366可以是概率集合，其中每個概率是輸入資料包括特徵集合中的一個特徵的概率。

在行為預測場景中，環境可以表現出可用於減少大量計算的結構（例如，規則）。例如，在具有許多代理的環境中，每個代理的行為可能主要受到周圍代理的子集的影響。例如，在行駛中，與非相鄰車輛的影響相比，相鄰車輛對給定車輛的行為的影響可能更大。

環境的約束條件亦可能表明代理之間動作優先順序的直觀順序。例如，在駕駛時，環境約束（例如交通法規、當地駕駛習慣和道路結構）可以影響動作優先順序順序。作為一個實例，當地駕駛習慣及/或交通法規可以規定同一車道中其他車輛前方的車輛具有通行權。在這種情況下，可以經由假設跟隨車輛對前導車輛的動作做出反應，但是前導車輛的動作很大程度上與跟隨車輛的動作無關來簡化行為預測模型。

環境約束可用於構建互動圖。圖的節點代表代理。圖的有向邊編碼兩個節點之間的單向依賴關係。在一些情況下，代理之間具有循環關係可能是適當的。循環關係是指給定代理的行為被認為是相互依賴的情況。相互依賴關係並不將一種關係優先於另一種關係。

經由按優先順序順序遍歷互動圖可以產生遞迴預測。該預測是遞迴的，因為針對目標車輛的較高級別的預測以周圍車輛的預測為條件，而周圍車輛的預測可以以同一目標車輛的較低級別的預測為條件。在一種配置中，為相比於在互動圖中的直接鄰點，具有較高優先順序的代理產生0級預測。亦可以為作為循環依賴關係的一部分的代理產生0級預測（例如，一個代理的動作取決於另一代理的動作）。

當代理之間存在循環關係時，使用遞迴推理來為相互依賴的代理產生預測。亦即，循環關係是互動圖的屬性，其是基於環境所展現或關於環境推斷出的結構而產生的。遞迴可用於管理循環依賴性。通常，當考慮環境的結構時，假設每個代理的行為都以其他每個代理的行為為條件。在這種情況下，所有關係都是循環的。

圖4A、4B和4C圖示根據本案內容各態樣的遞迴多保真度行為預測的實例。如圖4A所示，在第一時間步長，預測模型接收對應於場景400的觀察的資訊，例如多車道道路上的車輛。可以經由自我代理402的一或多個感測器，例如LIDAR感測器、RADAR感測器、照相機及/或另一類型的感測器，來觀察場景400。基於該觀察，預測模型（例如，原子預測模型）辨識場景中其他物件（例如其他代理404）的位置。觀察亦可以辨識每個代理的行進方向（經由圖4A中的箭頭標識）。基於觀察到的場景400來更新環境模型。

如圖4B所示，在觀察場景400之後，預測模型將推理級別和原子預測模型集合分配給每個觀察到的代理404。在一種配置中，與其他代理404相比，向與自我代理402相鄰的代理406分配更高的保真度級別。相鄰代理406是觀察到的代理404的子集。相鄰代理406處於自我代理402周圍的第一模式。自我代理402處於第二模式。另外，可以向與自我代理402在同一車道410中位元於其他代理404、406前面的代理408分配更高的保真度級別，因為其他代理404、406的動作可以取決於前方代理408的動作。前方代理408是觀察到的代理404的子集。

如圖4C所示，在分配保真度級別之後，預測模型基於環境的結構產生互動圖以對代理之間的關係進行編碼。互動圖亦可以在分配保真度級別之前產生。有向邊（圖4C中未顯示）編碼兩個代理之間的影響的方向。代理404、406、408之間的連接412標識兩個代理之間的約束。在有向圖中，每個邊都包括用箭頭所示的方向（圖4C中未顯示）。在雙向關係的情況下，邊在兩端應具有箭頭（圖4C中未顯示）。亦即，若第一代理426的動作對第二代理424有影響，則邊應從第一代理426指向第二代理424。經由從最高優先順序到最低優先順序遍歷圖來選擇0、1、……、K級行為預測的連續子集。

根據本案內容的各態樣，在產生互動圖之後，該模型為代理集合預測0級場景。每個場景對應於代理集合之每一者代理的一個運動假設。如前述，對於具有分配的0級原子預測模型的每個代理，遞迴推理方案使用分配的0級原子預測模型產生0級運動假設。每個代理的不同預測的數量可以基於原子預測模型的預測保真度。

圖5A圖示根據本案內容各態樣的兩個不同的0級場景的實例。如圖5A所示，針對第一代理集合510（例如，道路上的車輛）產生場景500A、500B。第一代理集合510包括四個代理502、504、506、508。代理集合510中的第二代理504的保真度級別高於代理集合510中其他代理502、506、508的保真度級別。箭頭520標識每個代理502、504、506、508的預測運動。

基於0級場景500A、500B，預測模型為第二代理集合514產生1級場景。圖5B圖示以0級場景500A、500B為條件為第二代理集合514產生1級場景550A、550B、550C的實例。第二集合514之每一者代理的預測動作是對第一0級場景500A、500B中的第一代理集合510的預測動作的回應。每個1級場景550A、550B、550C包括針對第二集合514內的每個代理的一個預測動作。每個1級場景550A、550B、550C中的預測動作可以由1級預測模型產生（見圖7）。

預測模型繼續為代理集合產生場景。亦即，預測模型產生0級到K 級場景。每個k 級（k =0到K ）場景均以k -1級場景和在前級別的場景為條件。具體而言，每個k級場景皆以場景樹中從根節點到父節點的整個節點鏈為條件。此外，場景樹中的任何特定葉節點皆由祖先鏈中一直回到根節點的每個代理的最高級別預測組成。

圖5C圖示以k -1級場景560A、560B為條件為第四代理集合516產生k 級場景570A、570B、570C的實例。第四集合516之每一者代理的預測動作是對k -1級場景560A、560B中的第三代理集合518的預測動作的預測回應。每個k級場景570A、570B、570C包括針對第四集合516內的每個代理的一個預測動作。每個k 級場景570A、570B、570C中的預測動作可以由k級預測模型產生。可以基於0-k級場景來產生一或多個場景樹。每個場景樹都對環境中代理可能的未來行為上的聯合分佈的基於粒子表示進行編碼。

圖6圖示根據本案內容各態樣的用於預測軌跡的模型600的實例。如圖6所示，預測模型接收與當前時間步長的場景604的觀察相對應的資訊，並將保真度級別分配給每個代理640、642。一些代理可以是高保真度代理642，而其他代理是低保真度代理640。本案內容的各態樣不限於兩個保真度級別，可以使用兩個或更多個保真度級別。可以基於一或多個高保真度代理642的多個0級軌跡來產生多個0級場景。0級場景是指下一時間步長處每個觀察到的代理640、642的潛在0級軌跡。在該實例中，預測模型基於先前的觀察來選擇高保真度代理642中的一個，並為所選代理606決定0級軌跡610。駕駛員可以手動操作高保真度代理642和低保真度代理640。

為了為所選代理606決定0級軌跡610，預測模型決定所選代理606的感興趣區域602。感興趣區域602可以取決於應用程式。例如，應用程式可以決定可用於計畫的其他代理的距離及/或位置。在一個實例中，緊急車輛的感興趣區域602的範圍可以大於個人使用車輛的範圍。感測器的範圍限制亦可以決定感興趣區域602的範圍。感興趣區域602中的代理包括高保真度代理642、低保真度代理640和自我代理630。為清楚起見，與感興趣區域602中與所選代理606相鄰的代理630、640、642可以被稱為相鄰代理616。從先前的觀察中獲知感興趣區域602之每一者代理606、616的先前軌跡608（例如，動作）。基於先前軌跡608，模型600為所選代理606決定0級軌跡610。

在一種配置中，每個代理606、616的先前軌跡608由長短期記憶（LSTM）編碼器612編碼。LSTM編碼器612可以是LSTM神經網路。LSTM編碼器612的輸出是最近歷史張量628，最近歷史張量628概括了每個相鄰代理616的行為的最近歷史。LSTM編碼器612亦輸出車輛動力學張量618，車輛動力學張量618對所選代理606的動力學進行編碼。最近歷史張量628可以儲存在三維（3D）張量結構614中，該三維張量結構614類比相鄰代理616與所選代理606有關的幾何關係。

3D張量結構614中的最近歷史張量628由迴旋神經網路（CNN）620的多個層624處理。CNN 620的輸出是社會背景張量，該社會背景張量表示描述本端環境的狀態的統計資料。具體而言，最近歷史張量628將代理608的最近歷史概括為由LSTM編碼器612編碼的向量。根據它們在場景中的位置，將最近歷史張量628放置在3D張量結構614中，從而以幾何方式擷取車輛之間的互動作用。預測張量632與最近歷史張量628不同。預測張量632是將k 級（k ＝0至K ）預測編碼為向量的向量。

對於0級預測，社會背景輸出與所選代理606的車輛動態張量618組合。對於1級預測，將三個向量級聯：從CNN 620為0級和1級產生的社會背景向量；及車輛動力學張量618（例如，向量）。將社會背景輸出和所選代理606的車輛動態張量618的組合輸入到解碼器神經網路622。

解碼器神經網路622產生未來運動在未來訊框集合上的預測分佈。經由預測各種機動類的分佈以及每種機動類的概率，解決駕駛員行為固有的多模態。在一種配置中，機動類包括橫向和縱向機動類。

如圖6所示，解碼器神經網路622接收軌跡編碼。解碼器神經網路622包括兩個softmax層（橫向softmax層650和縱向softmax層652）。橫向softmax層650輸出橫向機動概率(P(m _i |X))，並且縱向softmax層652輸出縱向機動概率。可以將縱向和橫向機動概率相乘以決定機動分佈(P(m _i |X))。P（）是以軌跡X和機動m_i 的歷史為條件的概率分佈。

LSTM解碼器在t_f 訊框上產生雙變數高斯分佈的參數，以提供車輛運動的預測分佈。LSTM解碼器產生提供機動特定的分佈。亦即，LSTM解碼器產生0級軌跡610上的分佈。該分佈為每個0級軌跡610提供概率。解碼器神經網路622亦產生了每個0級軌跡610的形狀（例如，路徑）。對於場景604之每一者高保真度代理642，重多工於決定0級軌跡610的程序。0級軌跡610不為感興趣區域602中的代理606、616之間的未來互動提供資訊。亦即，0級軌跡610不為相鄰代理616的1級軌跡提供資訊。

如圖6所示，軌跡編碼經由級聯器656與機動編碼654級聯。具體地，軌跡編碼與對應於橫向機動類的一個向量和對應於縱向機動的一個向量級聯。級聯的編碼輸入到LSTM解碼器以獲得機動特定的分佈P_Θ (Y|m_i , X)，其中P（）是以軌跡X和機動mi的歷史為條件的預測軌跡Y（未來位置的序列座標）上的概率分佈。LSTM解碼器輸出t_f 訊框上的高斯分佈（Θ）的均值和協方差，其中t_f 是未來的訊框數。

機動編碼是從機動類中獲得的。如所論述的，機動類基於橫向和縱向機動。橫向機動包括左車道改變、右車道改變和車道保持機動。左和右車道改變可以關於實際交叉路口而不同。這樣，可以為左和右車道改變中的每一個定義兩個或更多個向量。縱向機動可以分為正常駕駛和制動。

在為每個高保真度代理642決定了0級軌跡610之後，可以使用模型600來決定1級軌跡。具體地，為自我代理630的感興趣區域602之每一者高保真度代理642決定0級軌跡610。每個高保真度代理642可以用作所選代理606。在決定所有0級軌跡之後，模型為圍繞每個所選代理606的代理641、642決定1級軌跡。在第一次反覆運算中，計算圍繞每個所選代理606的代理641、642的1級軌跡。在第k 次反覆運算中，為圍繞每個所選代理606的代理641、642計算k 級軌跡。

對於0級，每個相鄰代理616的先前軌跡608由LSTM編碼器612編碼。在一種配置中，對於1級軌跡，僅對0級預測軌跡編碼。在另一種配置中，對於1級的軌跡，不是使用先前軌跡608，而是將恆定速度模型用於低保真度代理640。

類似於決定0級軌跡，對於1級軌跡，將相鄰代理616的預測張量632儲存在3D張量結構614中。3D張量結構614中的預測張量632由CNN 620的多層624處理。多層624的權重在1級和0級之間有所不同。對於1級軌跡，將CNN 620的社會背景輸出與所選代理606的0級社會背景輸出和車輛動態張量618組合在一起。將該組合輸入到解碼器神經網路622，並產生在1級軌跡上的分佈。該分佈為每個1級軌跡提供概率。解碼器神經網路622亦產生每個1級軌跡的形狀（例如，路徑）。

可以重複模型600的程序，直到K級。將K級預測與所選代理606的社會背景輸出和車輛動態張量618組合。模型600不限於圖6的模型600。其他模型可以用於行為預測。其他模型將產生0級預測並使用遞迴。

根據本案內容的另一態樣，遞迴多保真度預測考慮間隙穿插機動。圖7A、7B、7C和7D圖示使用間隙穿插機動的遞迴多保真度預測的實例。根據本案內容的各態樣，如圖7A所示，在第一時間步長，預測模型接收對應於場景700的觀察的資訊。可以經由自我代理702的一或多個感測器（例如LIDAR感測器、RADAR感測器、照相機及/或其他類型的感測器）觀察場景700。基於觀察，預測模型辨識其他物件（例如其他代理704）在場景中的位置。觀察亦可以辨識每個代理704的行進方向（借助圖7A中的箭頭標識）。基於觀察到的場景700來更新環境模型。

如圖7B所示，在觀察場景700之後，預測模型基於幾何與基於地圖的成對特徵產生互動圖。有向邊（圖7B中未顯示）編碼兩個代理之間的影響的方向。代理702、704之間的連接712標識兩個代理之間的約束。例如，在自我代理702與每個相鄰代理706之間建立連接712。連接712標識自我代理702與每個相鄰代理706之間的關係，使得自我代理702的動作可以影響每個相鄰代理706的動作。另外，相鄰代理706的動作可以影響自我代理702的動作。

在產生互動圖之後，將場景700劃分為不同的保真度鄰域。圖7C圖示保真度鄰域的實例。高保真度鄰域可以以自我代理702為中心。例如，每個相鄰代理706可以在高保真度鄰域710中。可以將不相鄰的代理708分配給低保真度鄰域722。為清楚起見，圖7C確實未圖示每個低保真度鄰域722。

為每個代理706、708辨識適用策略。圖7D圖示代理708的辨識策略714、716、718、720的實例。每個策略可以由本端鄰域和道路幾何形狀定義。例如，如圖7D所示，代理708可以維持其當前軌跡714，移動到第一代理707A前面的間隙716，移動到第一代理707A和第二代理707B之間的間隙718，或者移動進入第二代理707B後面的間隙720。間隙716、718、720和當前軌跡714可以被稱為策略。

在一種配置中，為與每個代理相對應的每個策略決定策略可能性。策略可能性決定代理執行策略的可能性。執行策略的可能性可以基於軌跡的成本、軌跡與來自先前時間步長的緩存軌跡的相似度、代理的先前動作、地圖位置、鄰點群集等。在一種配置中，代理的先前動作用於決定執行策略的可能性。例如，代理朝一個方向的運動或代理的轉向訊號可用於決定執行策略的可能性。

圖8圖示根據本案內容各態樣的決定最可能策略的實例。如圖8所示，為目標代理800決定了不同的策略802。在該實例中，代理800可以已經在先前的時間步長開啟了其右轉訊號。基於開啟的轉向訊號，預測模型可以決定移動到第一代理804與第二代理806之間的間隙是最可能的策略。

基於從互動圖決定的優先順序順序，可以為每個代理取樣一或多個策略。取樣數量可以取決於代理的保真度級別和機動性分佈。當為一代理取樣了多於一個的策略時，場景樹分支。分支可以改變互動圖。互動圖中的更改會導致優先順序順序更改。從場景樹的根到葉節點的每條路徑代表完整的取樣策略集合，其中為每輛車取樣一個策略。因此，葉節點中的預測以從根到該葉的父節點的整個節點鏈為條件。

圖9A圖示根據本案內容各態樣的決定針對代理920、922、924、926、928的策略902的實例。如圖9A所示，在場景樹的根節點910處，按照優先順序的順序為每個代理920、922、924、926、928決定策略902。例如，可以按照與每個代理920、922、924、926、928相對應的數位（例如1-5）的順序來決定策略902。在該實例中，為第五代理928產生兩個策略。第五代理928的策略數量可以大於其他代理920、922、924、926的策略數量，因為已將高保真度級別分配給第五代理926。

回應於第五代理928具有多於一個的策略902，場景樹分支。圖9B圖示根據本案內容各態樣的場景樹的分支節點的實例。如圖9B所示，場景樹的根節點99包括用於代理920、922、924、926集合的策略902。此外，第一葉912包括用於代理920、922、920、924、926集合的策略902，以及用於第五代理928的第一策略930。第二葉914包括用於代理920、922、924、926集合的策略902，以及用於第五代理928的第二策略932。可以在第一葉912和第二葉914中產生用於其他代理934的策略。當為其他代理934中的一個產生多於一個的策略時，第一葉912和第二葉914可以分支。

根據本案內容的各態樣，可以將混合方法用於行為預測。混合方法可以使用與圖6的模型相似的模型。對於混合方法，為臨近的代理集合決定0級策略。代理集合的動作可以不對自我代理產生實質性影響。基於0級策略，基於優先順序為每個代理決定1級策略。

圖10圖示根據本案內容的一態樣的用於預測場景中的代理的未來動作的方法1000。如圖10所示，在第一方塊1002處，預測模型將保真度級別分配給在場景中觀察到的代理。保真度級別可以是代表理在場景中的重要性。在一種配置中，將計算資源偏向被認為是最重要的代理。可以借助一或多個感測器（例如，LIDAR感測器、RADAR感測器、照相機及/或另一類型的感測器）來觀察場景。基於觀察，預測模型辨識場景中其他物件的位置。觀察結果亦可以辨識每個代理的行進方向。

在可選配置中，在方塊1004處，將推理級別和前向預測模型集合分配給場景之每一者代理。前向預測模型可以被稱為原子模型。代理的推理級別可以是大於或等於零的整數。代理的被分配的前向預測模型集合之每一者前向預測模型都對應於特定的推理級別，該特定的推理級別大於或等於零且小於或等於代理的被分配的推理級別。對於每個級別，給定的代理可以具有不多於一個的被分配的原子預測模型。

例如，若為代理分配推理級別一，則代理可以包括0級前向預測模型及/或1級正向預測模式。0級前向預測模型可以為代理產生0級運動假設（例如，遞迴級別0）。1級前向預測模型可以為代理產生1級運動假設（例如，遞迴級別1）。亦即，前向預測模型集合之每一者前向預測模型對應於基於推理級別決定的遞迴級別。

在可選配置中，在方塊1006處，預測模型將場景劃分成不同的鄰域。可以為每個鄰域分配不同的保真度。保真度可以基於與自我代理的接近度。例如，高保真度鄰域可以以自我代理為中心。代理的保真度可以基於相應鄰域的保真度。

在方塊1008處，預測模型經由遍歷場景來遞迴地預測代理的未來動作。例如，對於具有分配的0級前向預測模型的每個代理，遞迴推理方案使用分配的0級前向預測模型產生0級運動假設。隨後，對於具有分配的1級前向預測模型的每個代理，預測模型使用分配的1級前向預測模型產生1級運動假設。

其他代理的0級運動假設的子集可以用作任何1級預測模型的輸入。可以重複該程序，使得每個連續的運動假設集合（k 級）可以以場景中其他代理子集之每一者代理的先前計算的運動假設的最高級別（最高為k -1）為條件。如所論述的，可以在每個遞迴級別上使用不同的前向預測模型（例如，0級、1級等）。

在一種配置中，基於包括每個代理的歷史觀察的初始軌跡來遞迴地預測未來動作。亦即，對預測模型的輸入可以是場景歷史的表示。在另一種配置中，基於每個代理的適用策略來遞迴地預測未來動作。該策略可以基於代理的相應鄰域和場景結構。場景結構可以指道路幾何形狀。

最後，在方塊1010處，預測模型基於預測的代理的未來動作來控制自我代理的動作。例如，預測模型可以更改路線、調整速度或控制其他動作。預測模型可以是自我代理的部件。

在一些態樣，方法1000可以由SOC 100（圖1）執行。亦即，方法1000的每個元素可以例如但不限於由SOC 100或一或多個處理器（例如，CPU 102）及/或其他包括的部件來執行。

上述方法的各種操作可以由能夠執行相應功能的任何合適的單元來執行。該單元可以包括各種硬體及/或軟體部件及/或模組，包括但不限於電路、特殊應用積體電路（ASIC）或處理器。一般而言，在圖中示出的操作的情況下，這些操作可以具有對應的具有相似編號的單元加功能部件。

如本文所使用的，術語「決定」包含各種各樣的操作。例如，「決定」可以包括計算、運算、處理、匯出、調查、檢視（例如在表、資料庫或其他資料結構中檢視）、查明等。此外，「決定」可以包括接收（例如，接收資訊）、存取（例如，存取記憶體中的資料）等。此外，「決定」可以包括求解、選擇、選取、建立等。

如本文所使用的，提及項目列表中的「至少一個」的短語是指這些項目的任何組合，包括單個成員。作為實例，「a，b或c中的至少一個」意欲覆蓋a、b、c、a-b、a-c、b-c和a-b-c。

結合本案內容說明的各種說明性邏輯區塊、模組和電路可以用設計為執行本文該功能的通用處理器、數位訊號處理器（DSP）、特殊應用積體電路（ASIC）、現場可程式設計閘陣列（FPGA）或其他可程式設計邏輯裝置（PLD）、個別閘門或電晶體邏輯、個別硬體部件或其任何組合來實施或執行。通用處理器可以是微處理器，但是在可替換方案中，處理器可以是任何商業上可獲得的處理器、控制器、微控制器或狀態機。處理器亦可以實施為計算設備的組合，例如DSP和微處理器的組合、複數個微處理器、一或多個微處理器結合DSP核心或任何其他此類配置。

結合本案內容描述的方法或演算法的步驟可以直接體現在硬體中、由處理器執行的軟體模組中或兩者的組合中。軟體模組可以常駐在本領域已知的任何形式的儲存媒體中。可以使用的儲存媒體的一些實例包括隨機存取記憶體（RAM）、唯讀記憶體（ROM）、快閃記憶體、可抹除可程式設計唯讀記憶體（EPROM）、電子可抹除可程式設計唯讀記憶體（EEPROM）、暫存器、硬碟、抽取式磁碟、CD-ROM等。軟體模組可以包括單個指令或多個指令，並且可以分佈在幾個不同程式碼片段上、不同程式中，以及跨越多個儲存媒體分佈。可以將儲存媒體耦合到處理器，使得處理器可以從該儲存媒體讀取資訊，並可以向該儲存媒體寫入資訊。可替換地，儲存媒體可以與處理器整合在一起。

本文揭示的方法包括用於實現該方法的一或多個步驟或操作。方法步驟及/或操作可以彼此互換而不脫離請求項的範疇。亦即，除非指定了步驟或操作的特定順序，否則在不脫離請求項的範疇的情況下，可以修改具體步驟及/或操作的順序及/或使用。

所描述的功能可以以硬體、軟體、韌體或其任何組合來實現。若以硬體實現，則實例硬體設定可以包括設備中的處理系統。處理系統可以用匯流排架構來實施。匯流排可以包括任何數量的互連匯流排和橋接器，這取決於處理系統的具體應用和整體設計約束。匯流排可以將各種電路連結在一起，包括處理器、機器可讀取媒體和匯流排介面。匯流排介面可以用於經由匯流排將網路介面卡等連接到處理系統。網路配接器可以用於實施訊號處理功能。對於某些態樣，使用者介面（例如輔助鍵盤、顯示器、滑鼠、遊戲操作桿等）亦可以連接到匯流排。匯流排亦可以連結諸如定時源、周邊設備、電壓調節器、電源管理電路等的各種其他電路，這在本發明所屬領域中是公知的，因此將不再進一步說明。

處理器可以負責管理匯流排和一般處理，包括執行儲存在機器可讀取媒體上的軟體。處理器可以用一或多個通用及/或專用處理器實施。實例包括微處理器、微控制器、DSP處理器以及可以執行軟體的其他電路。不論被稱為軟體、韌體、中介軟體、微代碼、硬體描述語言或其他術語，軟體應被廣義地解釋為表示指令、資料或其任何組合。作為實例，機器可讀取媒體可以包括例如隨機存取記憶體（RAM）、快閃記憶體、唯讀記憶體（ROM）、可程式設計唯讀記憶體（PROM）、可抹除可程式設計唯讀記憶體（EPROM）、電子可抹除可程式設計唯讀記憶體（EEPROM）、暫存器、磁碟、光碟、硬碟或任何其他合適的儲存媒體或其任何組合。機器可讀取媒體可以體現在電腦程式產品中。該電腦程式產品可以包括包裝材料。

在硬體實施方式中，機器可讀取媒體可以是與處理器分離的處理系統的一部分。然而，如本發明所屬領域中具有通常知識者將容易理解的，機器可讀取媒體或其任何部分可以在處理系統外部。作為實例，機器可讀取媒體可以包括傳輸線，由資料調制的載波及/或與設備分離的電腦產品，所有這些皆可以由處理器經由匯流排介面來存取。可替代地或替代地，機器可讀取媒體或其任何部分可以被整合到處理器中，例如快取記憶體及/或通用暫存器檔的情況。儘管可以將所論述的各種部件描述為具有特定位置，例如本端部件，但是它們亦可以以各種方式進行配置，例如將某些部件配置為分散式運算系統的一部分。

處理系統可以被配置為通用處理系統，其中一或多個微處理器提供處理器功能，而外部記憶體提供機器可讀取媒體的至少一部分，所有這些都經由外部匯流排架構與其他支援電路連結在一起。可替換地，處理系統可包括一或多個神經形態處理器，用於實現本文該的神經元模型和神經系統模型。作為另一種選擇，處理系統可以使用具有處理器的特殊應用積體電路（ASIC）、匯流排介面、使用者介面、支援電路以及整合在單個晶片中的機器可讀取媒體的至少一部分，或者使用一或多個現場可程式設計閘陣列（FPGA）、可程式設計邏輯裝置（PLD）、控制器、狀態機、閘控邏輯、個別硬體部件或任何其他合適的電路，或可以執行貫穿本案內容描述的各種功能的電路的任何組合來實現。本發明所屬領域中具有通常知識者將根據特定應用和施加在整個系統上的整體設計約束，認識到如何最好地實現針對處理系統的所描述功能。

機器可讀取媒體可以包括多個軟體模組。軟體模組包括當由處理器執行時使處理系統執行各種功能的指令。軟體模組可以包括傳輸模組和接收模組。每個軟體模組可以常駐在單個存放裝置中或者分佈在多個存放裝置上。作為實例，當觸發事件發生時，軟體模組可以從硬碟載入到RAM中。在執行軟體模組期間，處理器可以將一些指令載入到快取記憶體中以增加存取速度。隨後可以將一或多個快取記憶體行載入到通用暫存器檔中以供處理器執行。當下面提及軟體模組的功能時，應當理解，當從該軟體模組執行指令時，這種功能由處理器來實現。此外，應當理解，本案內容的各態樣導致對實現這些態樣的處理器、電腦、機器或其他系統的功能的改進。

若以軟體實施，則可以作為電腦可讀取媒體上的一或多個指令或代碼來儲存或傳送功能。電腦可讀取媒體包括電腦儲存媒體和通訊媒體，通訊媒體包括有助於將電腦程式從一個地方傳送到另一個地方的任何媒體。儲存媒體可以是可由電腦存取的任何可用媒體。作為實例而非限制，這種電腦可讀取媒體可以包括RAM、ROM、EEPROM、CD-ROM或其他光碟儲存、磁碟儲存或其他磁性存放裝置，或可用於以指令或資料結構的形式承載或儲存所需的程式碼並且可以由電腦存取的任何其他媒體。此外，任何連接被適當地稱為電腦可讀取媒體。例如，若使用同軸電纜、光纖電纜、雙絞線、數位用戶線路（DSL）或諸如紅外（IR）、無線電和微波的無線技術從網站、伺服器或其他遠端源傳送軟體，則同軸電纜、光纖電纜、雙絞線，DSL或諸如紅外、無線電和微波的無線技術包括在媒體的定義中。如本文所使用的磁碟和光碟包括壓縮光碟（CD）、鐳射光碟、光碟、數位多功能光碟（DVD）、軟碟和藍光®光碟，其中磁碟通常磁性地再現資料，而光碟用鐳射光學地再現資料。因此，在一些態樣，電腦可讀取媒體可以包括非暫時性電腦可讀取媒體（例如，實體媒體）。另外，對於其他態樣，電腦可讀取媒體可以包括暫時性電腦可讀取媒體（例如，訊號）。上述的組合亦包括在電腦可讀取媒體的範疇內。

因此，某些態樣可以包括用於執行本文呈現的操作的電腦程式產品。例如，此類電腦程式產品可以包括其上儲存（及/或編碼）有指令的電腦可讀取媒體，該等指令可由一或多個處理器執行以執行本文所述的操作。對於某些態樣，電腦程式產品可以包括包裝材料。

此外，應當理解，用於執行本文所說明的方法和技術的模組及/或其他適當的單元可以由使用者終端及/或基地台適當地下載及/或以其他方式獲得。例如，此類設備可以耦合到伺服器以便於傳送用於執行本文說明的方法的單元。可替換地，可以經由儲存單元（例如RAM、ROM、諸如壓縮光碟（CD）或軟碟等的實體儲存媒體等）來提供本文說明的各種方法，使得使用者終端及/或基地台在將儲存單元耦合或提供給設備時可以獲得各種方法。此外，可以利用用於將本文所述的方法和技術提供給設備的任何其他適合的技術。

應當理解，申請專利範圍不限於上文所示的精確配置和部件。在不脫離申請專利範圍的範疇的情況下，可以對上述方法和裝置的佈置、操作和細節進行各種修改、改變和變化。

100:片上系統 102:中央處理單元（CPU） 104:圖形處理單元（GPU） 106:數位訊號處理器（DSP） 108:神經處理單元（NPU） 110:連線性塊 112:多媒體處理器 114:感測器處理器 116:圖像訊號處理器（ISP） 118:儲存塊 120:導航模組 200:DCN 202:完全連接的神經網路 204:神經網路 206:迴旋神經網路 210:值 212:值 214:值 216:值 218:第一特徵圖集合 220:第二特徵圖集合 222:輸出 224:第一特徵向量 226:圖像 228:第二特徵向量 230:圖像擷取裝置 232:迴旋層 350:圖像擷取裝置 352:輸入資料 354A:迴旋塊 354B:迴旋塊 356:迴旋層（CONV） 358:迴旋塊 360:迴旋塊 362:層 364:層 366:分類分數 400:場景 402:自我代理 404:其他代理 406:其他代理 408:代理 410:同一車道 412:同一車道 500A:場景 500B:場景 502:場景 504:場景 506:場景 508:場景 510:第一代理集合 514:第二代理集合 516:第四代理集合 518:第三代理集合 520:箭頭 550A:1級場景 550B:1級場景 550C:1級場景 560A:k-1級場 560B:k-1級場 570A:k級場景 570B:k級場景 570C:k級場景 600:模型 602:模型 604:場景 606:代理 608:先前軌跡 610:0級軌跡 612:長短期記憶（LSTM）編碼器 614:三維張量結構 616:代理 618:車輛動態張量 620:CNN 622:解碼器神經網路 624:多層 630:自我代理 632:預測張量 640:低保真度代理 641:代理 642:代理 650:橫向softmax層 652:縱向softmax層 654:編碼 656:級聯器 700:場景 702:自我代理 704:代理 706:代理 708:代理 710:高保真度鄰域 712:連接 714:辨識策略 716:辨識策略 718:辨識策略 720:辨識策略 722:低保真度鄰域 800:目標代理 802:策略 804:第一代理 806:第二代理 902:策略 910:根節點 912:第一葉 914:第二葉 920:代理 922:代理 924:代理 926:代理 928:第五代理 930:第一策略 932:第二策略 934:其他代理 1000:方法 1002:方塊 1004:方塊 1006:方塊 1008:方塊 1010:方塊

當結合附圖時，根據以下闡述的具體實施方式，本案內容的特徵、性質和優點將變得更加明顯，在附圖中，相似的元件符號在全部附圖中相應地標識。

圖1圖示根據本案內容某些態樣的使用包括通用處理器的片上系統（SOC）設計神經網路的實例實施方式。

圖2A、2B和2C是示出根據本案內容各態樣的神經網路的圖。

圖2D是示出根據本案內容各態樣的示例性深度迴旋網路（DCN）的圖。

圖3是示出根據本案內容各態樣的示例性深度迴旋網路（DCN）的方塊圖。

圖4A、4B和4C圖示根據本案內容各態樣的遞迴多保真度行為預測的實例。

圖5A、5B和5C圖示根據本案內容各態樣的推理級別的實例。

圖6圖示根據本案內容各態樣的用於預測軌跡的模型的實例。

圖7A、7B、7C和7D圖示根據本案內容各態樣的使用間隙穿插機動的遞迴多保真度預測的實例。

圖8圖示根據本案內容各態樣的決定最可能策略的實例。

圖9A和9B圖示根據本案內容各態樣的決定策略的實例。

圖10圖示根據本案內容各態樣的用於預測場景中的代理的未來動作的方法。

國內寄存資訊 (請依寄存機構、日期、號碼順序註記) 無

國外寄存資訊 (請依寄存國家、機構、日期、號碼順序註記) 無

600:模型

602:模型

604:場景

606:代理

608:先前軌跡

610:0級軌跡

612:長短期記憶(LSTM)編碼器

614:三維張量結構

616:代理

618:車輛動態張量

620:CNN

622:解碼器神經網路

624:多層

630:自我代理

632:預測張量

640:低保真度代理

641:代理

642:代理

650:橫向softmax層

652:縱向softmax層

654:編碼

656:級聯器

Claims

一種方法，包括以下步驟：將一保真度級別分配給在一場景中觀察到的代理；經由遍歷該場景來遞迴地預測該等代理的未來動作，每個遞迴級別處使用一不同的前向預測模型；及基於預測的該等代理的該等未來動作來控制一自我代理的一動作。
根據請求項1之方法，亦包括將一推理級別和一前向預測模型集合分配給該場景之每一者代理。
根據請求項2之方法，其中該前向預測模型集合之每一者前向預測模型對應於基於該推理級別決定的一遞迴級別。
根據請求項1之方法，其中該等未來動作是基於包括每個代理的歷史觀察的一初始軌跡來遞迴地預測的。
根據請求項1之方法，亦包括將該場景劃分成不同的鄰域。
根據請求項5之方法，其中該保真度級別是基於一對應鄰域的一保真度被分配給該等代理的。
根據請求項1之方法，其中該等未來動作是基於針對每個代理的一適用策略來遞迴地預測的，並且該策略基於該代理的一對應鄰域和一場景結構。
一種裝置，包括：一記憶體；及至少一個處理器，其耦合到該記憶體，該至少一個處理器被配置為：將一保真度級別分配給在一場景中觀察到的代理；經由遍歷該場景來遞迴地預測該代理的未來動作，每個遞迴級別處使用一不同的前向預測模型；及基於預測的該等代理的該等未來動作來控制一自我代理的一動作。
根據請求項8之裝置，其中該至少一個處理器亦被配置為將一推理級別和一前向預測模型集合分配給該場景之每一者代理。
根據請求項9之裝置，其中該前向預測模型集合之每一者前向預測模型皆對應於基於該推理級別決定的一遞迴級別。
根據請求項8之裝置，其中該等未來動作是基於包括每個代理的歷史觀察的一初始軌跡來遞迴地預測的。
根據請求項8之裝置，其中該至少一個處理器亦被配置為將該場景劃分成不同的鄰域。
根據請求項12之裝置，其中該保真度級別是基於一對應鄰域的一保真度被分配給該等代理的。
根據請求項8之裝置，其中該等未來動作是基於針對每個代理的一適用策略來遞迴地預測的，並且該策略基於該代理的一對應鄰域和一場景結構。
一種非暫時性電腦可讀取媒體，其上記錄有程式碼，該程式碼由一處理器執行，並且包括：用於將一保真度級別分配給在一場景中觀察到的代理的程式碼；用於經由遍歷該場景來遞迴地預測該等代理的未來動作的程式碼，每個遞迴級別處使用一不同的前向預測模型；及用於基於預測的該等代理的該等未來動作來控制一自我代理的一動作的程式碼。
根據請求項15之非暫時性電腦可讀取媒體，其中該程式碼亦包括用於將一推理級別和一前向預測模型集合分配給該場景之每一者代理的程式碼。
根據請求項16之非暫時性電腦可讀取媒體，其中該前向預測模型集合之每一者前向預測模型對應於基於該推理級別決定的一遞迴級別。
根據請求項15之非暫時性電腦可讀取媒體，其中該等未來動作是基於包括每個代理的歷史觀察的一初始軌跡來遞迴地預測的。
根據請求項15之非暫時性電腦可讀取媒體，其中該程式碼亦包括用於將該場景劃分成不同的鄰域的程式碼。
根據請求項19之非暫時性電腦可讀取媒體，其中該保真度級別是基於一對應鄰域的一保真度被分配給該等代理的。
根據請求項15之非暫時性電腦可讀取媒體，其中該等未來動作是基於針對每個代理的一適用策略來遞迴地預測的，並且該策略基於該代理的一對應鄰域和一場景結構。
一種裝置，包括：用於將一保真度級別分配給在一場景中觀察到的代理的單元；用於經由遍歷該場景來遞迴地預測該等代理的未來動作的單元，每個遞迴級別處使用一不同的前向預測模型；及用於基於預測的該等代理的該等未來動作來控制一自我代理的一動作的單元。
根據請求項22之裝置，亦包括用於將一推理級別和一前向預測模型集合分配給該場景之每一者代理的單元。
根據請求項23之裝置，其中該前向預測模型集合之每一者前向預測模型對應於基於該推理級別決定的一遞迴級別。
根據請求項22之裝置，其中該等未來動作是基於包括每個代理的歷史觀察的一初始軌跡來遞迴地預測的。
根據請求項22之裝置，亦包括用於將該場景劃分成不同的鄰域的單元。
根據請求項26之裝置，其中該保真度級別是基於一對應鄰域的一保真度被分配給該代理的。
根據請求項22之裝置，其中該未來動作是基於針對每個代理的一適用策略來遞迴地預測的，並且該策略基於該代理的一對應鄰域和一場景結構。