TWI834772B

TWI834772B - 雷達深度學習

Info

Publication number: TWI834772B
Application number: TW108143477A
Authority: TW
Inventors: 丹尼爾亨德里克斯弗朗西斯庫斯馮締吉內; 艾明安薩里; 本斯梅吉爾; 瑞維泰賈蘇克哈法西; 拉狄卡迪利普果瓦伊卡; 吳新宙; 桑德蘇布拉馬尼亞安; 麥克約翰漢密爾頓
Original assignee: 美商高通公司
Priority date: 2018-11-30
Filing date: 2019-11-28
Publication date: 2024-03-11
Also published as: CN113167860A; US20210255304A1; WO2020113160A2; TW202028778A; WO2020113160A3; EP4379580A2; KR20210096607A; US11927668B2; EP3887849A2

Abstract

本發明揭示用於採用深度學習來分析雷達信號之技術。在一態樣中，一主車輛(host vehicle)之一車載電腦自該車輛之一雷達感測器接收複數個雷達訊框；在該複數個雷達訊框之一子集上執行一神經網路；及基於在該複數個雷達訊框之該子集上執行該神經網路來在該複數個雷達訊框之該子集中偵測一或多個物件。另外，揭示用於在一神經網路中將極座標變換為笛卡爾(Cartesian)座標之技術。在一態樣中，一神經網路接收極座標空間之複數個雷達訊框，該神經網路之一極至笛卡爾變換層將該複數個雷達訊框變換至笛卡爾座標空間，且該神經網路輸出該笛卡爾座標空間的該複數個雷達訊框。

Description

雷達深度學習

本發明之態樣大體上係關於雷達深度學習。

通常在車輛上採用雷達及相機感測器來實現系統之增強型車輛安全性(諸如自適應巡航控制(ACC)、前向碰撞警示(FCW)、經由自控制動的碰撞減輕或避免)、預碰撞功能(諸如安全氣囊裝備或預啟動)及車道偏離警示(LDW))。採用雷達及相機感測器兩者之系統可提供高級的主動安全性能力且在生產車輛時日益可用。

一或多個相機感測器安裝於車輛前方(及可能地車輛的後方及側面)的場景之車輛捕捉影像上。車輛內的數位信號處理器(DSP)接著嘗試識別捕捉到的影像內之物件。此類物件可為其他車輛、行人、道路標識、行進道路內的物件等。雷達系統亦可用於沿著行進道路偵測物件。雷達系統利用無線電波沿著道路測定物件的距離、海拔、方向及/或速度。傳輸器傳輸在物件之路徑中自物件彈出的無線電波之脈衝。自物件反射之脈衝將較小部分的無線電波能量返回至接收器，該接收器通常位於與傳輸器相同的位置處。

雷達系統在各種天氣條件下提供對物距及速度之合理準確的量測。然而，雷達系統通常具有不足以識別偵測到之物件的特徵的解析度。然而，相機感測器通常確實提供足以識別物件特徵之解析度。自捕捉到的影像提取之物件形狀及外觀的提示可提供足以對不同物件進行分類之特徵。考慮到兩個感測器之互補特性，來自兩個感測器之資料可經組合(稱為「融合」)於單個系統中以用於改良效能。

雷達視覺融合方法主要在融合級上有差異。低級融合組合原始資料之若干源以產生經預期比輸入更具信息性及合成性之新原始資料。在中間級融合中，各種特徵(諸如邊緣、拐角、線、紋理參數等)組合成接著供其他處理階段使用之特徵映像。在高級融合中，每一輸入源皆產生決策，且該等決策經融合。

下文呈現與本文中所揭示之一或多個態樣有關的簡化發明內容。因此，不應將以下發明內容視為與所有預期態樣有關之廣泛綜述，亦不應將以下發明內容視作識別與所有預期態樣有關之關鍵或重要元素或劃定與任何特定態樣相關聯之範疇。因此，以下發明內容之唯一目的在於在下文呈現之詳細描述之前，以簡化形式呈現同與本文中所揭示之機制有關的一或多個態樣有關的某些概念。

在一態樣中，一種採用深度學習來分析由一主車輛之一車載電腦執行的雷達信號之方法包括：自該主車輛之一雷達感測器接收複數個雷達訊框；在該複數個雷達訊框之至少一子集上執行一神經網路；及基於在該複數個雷達訊框的該子集上執行該神經網路來在該複數個雷達訊框之該子集中偵測一或多個物件。

在一態樣中，一種在由一主車輛之一車載電腦執行的一神經網路中將極座標變換至笛卡爾座標之方法包括：接收極座標空間之複數個雷達訊框或該複數個雷達訊框之一或多個潛在表示；將該複數個雷達訊框或該複數個雷達訊框之該一或多個潛在表示自該極座標空間變換至笛卡爾座標空間；及以該笛卡爾座標空間輸出該複數個雷達訊框或該複數個雷達訊框的該一或多個潛在表示。

在一態樣中，一種一主車輛之一車載電腦包括：至少一個處理器，其經組態以執行以下操作：自該主車輛之一雷達感測器接收複數個雷達訊框；在該複數個雷達訊框之至少一子集上執行一神經網路；及基於在該複數個雷達訊框之該子集上執行該神經網路來在該複數個雷達訊框之該子集中偵測一或多個物件。

在一態樣中，一種一主車輛之一車載電腦包括至少一個處理器，其經組態以執行以下操作：接收極座標空間之複數個雷達訊框或該複數個雷達訊框之一或多個潛在表示；將該複數個雷達訊框或該複數個雷達訊框之該一或多個潛在表示自該極座標空間變換至笛卡爾座標空間；及以該笛卡爾座標空間輸出該複數個雷達訊框或該複數個雷達訊框的該一或多個潛在表示。

在一態樣中，一種一主車輛之一車載電腦包括：用於自該主車輛之一雷達感測器接收複數個雷達訊框之構件；用於在該複數個雷達訊框之至少一子集上執行一神經網路之構件；及用於基於在該複數個雷達訊框之該子集上執行該神經網路來在該複數個雷達訊框之該子集中偵測一或多個物件之構件。

在一態樣中，一種一主車輛之一車載電腦包括：用於接收極座標空間之複數個雷達訊框或該複數個雷達訊框之一或多個潛在表示之構件；用於將該複數個雷達訊框或該複數個雷達訊框之該一或多個潛在表示自該極座標空間變換至笛卡爾座標空間之構件；及用於以該笛卡爾座標空間輸出該複數個雷達訊框或該複數個雷達訊框的該一或多個潛在表示之構件。

在一態樣中，一種儲存電腦可執行指令之非暫時性電腦可讀媒體包括電腦可執行指令，該等電腦可執行指令包含：指示一車輛之一車載電腦自該主車輛之一雷達感測器接收複數個雷達訊框之至少一個指令；指示該車載電腦在該複數個雷達訊框之至少一子集上執行一神經網路的至少一個指令；及指示該車載電腦基於在該複數個雷達訊框之該子集上執行該神經網路來在該複數個雷達訊框的該子集中偵測一或多個物件之至少一個指令。

在一態樣中，一種儲存電腦可執行指令之非暫時性電腦可讀媒體包括：電腦可執行指令，該等電腦可執行指令包含：指示一車輛之一車載電腦接收極座標空間之複數個雷達訊框或該複數個雷達訊框之一或多個潛在表示之至少一個指令；指示該車載電腦將該複數個雷達訊框或該複數個雷達訊框的該一或多個潛在表示自該極座標空間變換至笛卡爾座標空間之至少一個指令；及指示該車載電腦以該笛卡爾座標空間輸出該複數個雷達訊框或該複數個雷達訊框之該一或多個潛在表示的至少一個指令。

對於熟習此項技術者而言，基於隨附圖式及詳細描述，與本文中所揭示之態樣相關聯的其他目標及優勢將顯而易見。

本專利申請案主張2018年11月30日申請之名稱為「RADAR DEEP LEARNING」的美國臨時申請案第62/774,018號之益處，該申請案已讓與給其受讓人，且以全文引用之方式明確地併入本文中。

本發明之態樣在以下描述內容及針對出於說明目的而提供之各種實例的相關圖式中提供。可在不脫離本發明之範疇的情況下設計替代態樣。此外，可不詳細地描述或可省略本發明之熟知態樣以免混淆更多相關細節。

熟習此項技術者應瞭解，下文所描述之資訊及信號可使用多種不同技術及技藝中之任一者來表示。舉例而言，部分取決於特定應用、部分取決於所要設計、部分取決於對應技術等，貫穿以下描述參考之資料、指令、命令、資訊、信號、位元、符號及晶片可由電壓、電流、電磁波、磁場或磁粒子、光場或光粒子或其任何組合表示。

另外，就待由例如計算裝置之元件執行之動作的序列而言描述許多態樣。將認識到，本文中所描述之各種動作可藉由具體電路(例如特殊應用積體電路(ASIC))、藉由一或多個處理器執行之程式指令或藉由兩者之組合來執行。另外，對於本文中所描述之態樣中的每一者，任何此態樣之對應形式可實施為例如「經組態以執行所描述動作之邏輯」。

現在參看圖 1 ，說明包括雷達-相機感測器模組120之車輛100 (稱為「自我車輛」或「主車輛」)，該雷達-相機感測器模組120位於車輛100在擋風玻璃112後方的內部隔室中。雷達-相機感測器模組120包括雷達組件，該雷達組件經組態以在水平覆蓋區域150 (藉由虛線展示)中經由擋風玻璃112傳輸雷達信號，且接收自覆蓋區域150內的任何物件反射之經反射雷達信號。雷達-相機感測器模組120進一步包括用於基於在水平覆蓋區域160 (藉由虛線展示)中經由擋風玻璃112看見及捕捉的光波來捕捉影像之相機組件。

儘管圖1說明其中雷達組件及相機組件為共用殼體中之共置組件的實例，但如應瞭解，可將雷達組件及相機組件分別容納於車輛100內之不同位置中。舉例而言，相機可如圖1中所展示一樣定位，且雷達組件可位於車輛100之護柵或前保險桿中。另外，儘管圖1說明位於擋風玻璃112後方之雷達-相機感測器模組120，但該雷達-相機感測器模組120可替代地位於車頂感測器陣列中或其他地方。另外，儘管圖1僅說明單個雷達-相機感測器模組120，但如應瞭解，車輛100可具有指向不同方向(指向側面、前部、後部等)之多個雷達-相機感測器模組120。各種雷達-相機感測器模組120可位於車輛之「外皮」下方(例如在擋風玻璃112、車門、保險桿、護欄等後方)或位於車頂感測器陣列內。

雷達-相機感測器模組120可相對於車輛100偵測一或多個(或無)物件。在圖1之實例中，在雷達-相機感測器模組120可偵測之水平覆蓋區域150及160內存在兩個物件：車輛130及140。雷達-相機感測器模組120可估計偵測到之物件的參數，諸如位置、距離、方向、速度、大小、分類(例如車輛、行人、道路標識等)及類似者。可採用針對汽車安全性應用(諸如自適應巡航控制(ACC)、前向碰撞警示(FCW)、經由自控制動的碰撞減輕或避免、車道偏離警示(LDW)及類似者)車載於車輛100上之雷達-相機感測器模組120。

共置相機與雷達允許此等組件共用電子元件及信號處理，且特別地使得能夠實現早期雷達-相機資料融合。舉例而言，雷達及相機可整合於單個板上。聯合之雷達-相機對準技術可用於對準雷達與相機兩者。然而，雷達與相機之共置不是實踐本文中所描述的技術所需的。

圖 2 說明根據本發明之各個態樣的車輛100之車載電腦(OBC) 200。在一態樣中，OBC 200可為ADAS或ADS之部分。OBC 200包括非暫時性電腦可讀儲存媒體(亦即，記憶體204)及經由資料匯流排208與記憶體204通信之一或多個處理器206。記憶體204包括儲存可由處理器206執行的電腦可讀指令以執行本文中所描述之OBC 200的功能之一或多個儲存模組。舉例而言，處理器206連同記憶體204可實施本文中所描述之各種神經網路架構。

一或多個雷達-相機感測器模組120耦接至OBC 200 (在圖2中為簡單起見僅展示一個)。在一些態樣中，雷達-相機感測器模組120包括至少一個相機212、至少一個雷達214及視情況選用之光偵測及測距(LiDAR)感測器216。OBC 200亦包括藉助於資料匯流排208將處理器206連接至雷達-相機感測器模組120及視情況連接至其他車輛子系統(未展示)的一或多個系統介面220。

至少在一些情況下，OBC 200亦包括經組態以經由一或多個無線通信網路(未展示) (諸如NR網路、LTE網路、GSM網路及/或類似者)通信之無線廣域網路(WWAN)收發器230。WWAN收發器230可連接至一或多個天線(未展示)以經由至少一個指定的RAT (例如NR、LTE、GSM等)通過感興趣的無線通信媒體(例如特定頻率光譜中之某一組時間/頻率資源)與其他網路節點(諸如其他車輛UE、行人UE、基礎設施存取點、路邊單元(RSU)、基地台(例如eNB、gNB)等)通信。WWAN收發器230可經不同地組態以根據指定的RAT傳輸及編碼信號(例如訊息、指示、資訊等)且相反地經組態以接收及解碼信號(例如訊息、指示、資訊、導頻等)。

至少在一些情況下，OBC 200亦包括無線區域網路(WLAN)收發器240。WLAN收發器240可連接至一或多個天線(未展示)以經由至少一個指定的RAT (例如蜂窩式車輛對外界(cellular vehicle-to-everything，C-V2X)、IEEE 802.11p (亦稱為車載環境之無線存取(WAVE))、專用短程通信(DSRC)等)通過感興趣的無線通信媒體與其他網路節點(諸如其他車輛UE、行人UE、基礎設施存取點、RSU等)通信。WLAN收發器240可經不同地組態以根據指定的RAT傳輸及編碼信號(例如訊息、指示、資訊等)且相反地經組態以接收及解碼信號(例如訊息、指示、資訊、導頻等)。

如本文中所使用，「收發器」可包括傳輸器電路、接收器電路或其組合，但在所有設計中不需要提供傳輸功能性及接收功能性兩者。舉例而言，低功能性接收器電路在一些設計中可用以在提供充分通信並非必要時降低成本(例如僅提供低層級監聽之接收器晶片或類似電路系統)。

至少在一些情況下，OBC 200亦包括全球定位系統(GPS)接收器250。GPS接收器250可連接至一或多個天線(未展示)以用於接收衛星信號。GPS接收器250可包含用於接收及處理GPS信號之任何合適的硬體及/或軟體。GPS接收器250視需要向其他系統請求資訊及操作，且執行使用由任何合適的GPS演算法獲得的量測判定車輛100之位置所需的計算。

在一態樣中，OBC 200可利用WWAN收發器230及/或WLAN收發器240下載接著可儲存於記憶體204中且用於車輛導航之一或多個映像202。映像202可為一或多個高清晰度(HD)映像，該高清晰度映像可提供在7至10 cm的絕對距離內之準確度、與道路有關的所有靜止實體資產之高度詳細的清單(諸如道路車道、道路邊緣、路肩、分隔物、交通信號、標牌、噴塗標記、桿)及可用於藉由車輛100進行道路及十字路口的安全導航之其他資料。映像202亦可提供使得車輛100能夠知道什麼處於前方之電子地平線預測感知。

在一態樣中，相機212可以某一週期性速率捕捉相機212之可視區(如圖1中經說明為水平覆蓋區域160)內的場景之影像訊框(在本文中亦稱為相機訊框)。同樣地，雷達214可以某一週期性速率捕捉雷達214之可視區(如圖1中經說明為水平覆蓋區域150)內的場景之雷達訊框。相機212及雷達214捕捉其各別訊框之週期性速率可相同或不同。每一相機訊框及雷達訊框可為帶時間戳的。因此，在週期性速率不同之情況下，時間戳可用於同時或幾乎同時選擇捕捉到的相機訊框及雷達訊框以供進一步處理(例如融合)。

圖 3 說明所感測的觀測雷達柵格300。雷達214之傳輸器(例如傳輸天線陣列)傳輸自傳輸路徑中之物件(諸如圖1中之車輛130及140)反射的電磁RF波之脈衝。將自物件反射之一部分電磁RF波返回至雷達214之接收器(例如接收天線陣列)，該接收器通常位於與雷達214之傳輸器相同的位點處。

在一態樣中，雷達214可為使用波束成形進行水平地及豎直地掃描之成像雷達。波束成形為用於藉由改變不同傳輸天線之間的延遲來瞄準雷達波束之有效方向以使得信號在所指定方向上建設性地增加的技術。因此，雷達214可藉由使用包含以電子方式操縱之天線的陣列之傳輸器來水平地及豎直地掃描感測區(例如水平覆蓋區域150)。

藉由雷達214量測的所返回之回應經表徵為具有複數個觀測小區342之觀測柵格340。每一小區342表示呈具體距離(r )及角度/方位角(θ )所量測的返回回應值。每一小區342交替地稱為距離-角度頻率組(range-angle bin)。自小區342提取特徵344以判定該特徵344是否為物件(例如車輛130/140)。可將各別小區342內之每一特徵344識別為具有至多四個參數：距離、都卜勒(Doppler)、方位角及高度。此小區被稱作雷達訊框。作為實例，小區342內之特徵344可為藉由恆假警率(CFAR)演算法計算的信雜比(SNR)。然而，應理解，其他方法可用於瞄準及識別小區342內之特徵344。

相比於影像(例如來自相機212)，雷達信號(例如來自雷達214)具有若干唯一特徵。一個特徵為鏡面反射，其中具有有利定向之目標上的僅某些表面反射通常導致少數反射之雷達信號。第二特徵為非均一性的，其中在{距離，方位角}信號空間之遠距離處出現之物件始終較小且具有與在更接近之距離處出現的彼等物件不同之形狀。此不為相機影像之情況。

圖 4 說明相同場景之相機影像410與雷達影像420之間的例示性差異。相機影像410可能已由相機212捕捉，且雷達影像420可能已由雷達214捕捉。在相機影像410中，已偵測到三個物件(此處為車輛)，每一物件由限界框412、414及416包圍。在雷達影像420中，相同之三個物件(車輛)已經被偵測到且由限界框422、424及426包圍。如圖4中可見，雷達影像420中的物件/限界框422、424及426之形狀基於其是位於雷達影像420的中線428下方(亦即，限界框422)抑或是位於該中線428上方(亦即，限界框424及426)而呈不同大小及形狀。另外，歸因於因雷達214與其他物件之間的較大距離而在雷達214處接收更少經反射無線電波，因此與更接近的物件相關聯之限界框(亦即，限界框422)大於與更遠的物件相關聯之限界框(亦即，限界框424及426)。

圖 5 為展示根據本發明之各個態樣的雷達-相機感測器模組120及/或處理器206如何處理來自雷達214之資料的方塊圖500。將資料作為類比資料藉由類比前端(AFE) 502接收，且藉由數位前端(DFE) 504將其轉換成數位資料。數位前端504輸出數位資料之I/Q樣本506。I/Q樣本506為經處理以產生將在後端處理期間使用之張量的原始數據。

計算前端508執行張量產生、開窗、次取樣、快速傅里葉變換(FFT)、運動補償及類似者，以產生表示例如由雷達214偵測到的觀測柵格340之小區342內的特徵344之四維(4D)張量510。在一態樣中，雷達214可為水平地及豎直地掃描之成像雷達。因此，張量510表示每一偵測到之特徵344的距離(自車輛100至偵測到之特徵344的距離)、方位角(特徵344與由雷達214發射之參考RF射線(諸如雷達掃掠之初始RF射線)之間的水平距離)、都卜勒(指示偵測到之特徵344的速度)及高度(自雷達214至偵測到之特徵344的豎直方向)。接著將此等張量傳遞至基於張量510及自相機212接收到之影像執行物件偵測、物件分類、定位及性質估計的計算後端512。

由計算後端512執行的處理之結果514為偵測到的物件之各種屬性，諸如以笛卡爾x-y座標緊密地封閉物件的限界框、物件(例如汽車、卡車、行人、摩托車、道路標識等)的類型、相對(例如相對於車輛100)速度、定向、所有屬性之柔性最大傳遞函數分數(二元分類中之張量的給定輸出之概率)、物件在某一時間量(例如50 ms、100 ms等)之後的預測位置及類似者。

可將結果514分別作為組態516及518回饋至計算前端508及數位前端504。組態516可包括偵測到之物件的距離-方位角-都卜勒(RAD)張量、距離-方位角(RA)張量(在都卜勒維度收縮之情況下)、距離-方位角、距離-都卜勒及方位角-都卜勒張量，及類似者。計算前端508可使用此資訊較佳地識別其他特徵344之此等屬性。組態518可包括波形參數，數位前端504可使用波形參數將來自類比前端502之類比資料較佳地轉換為I/Q樣本506。

更詳細地參看計算前端508，計算前端508接收I/Q樣本506作為輸入，該計算前端508根據該I/Q樣本506計算及輸出雷達訊框。計算前端508可輸出表示距離、方位角、都卜勒及高度之4D複合值張量。視情況，計算前端508可子選擇、分組、壓縮、「argmax」(某一函數之域的函數值經最大化之點)或此等維度中之一或多者「之任何函數」。替代地，計算前端508可輸出表示距離、方位角及都卜勒之3D複合值張量。作為又一替代方案，計算前端508可輸出表示距離及方位角、距離及都卜勒、都卜勒及方位角、距離及高度、都卜勒及高度或方位角及高度中之一或多者的一組二維(2D)複合值張量。突出資訊有時包含於信號之頻率內容中，在此情況下，可執行用以提取此頻率資訊之進一步的信號處理。

在一態樣中，計算前端508可執行雷達信號之正規化。為此，其在每一距離處(使用整個資料集，亦即，所有訓練訊框)計算雷達信號之平均值及標準差。其接著使函數(例如線性函數)擬合資料且使用其沿著距離維度正規化雷達信號。此提供準確度之較小增益(大致1%)。

更詳細地參看計算後端512，計算後端512可實施各種「深度學習」技術(相較於任務特定的演算法，基於學習資料表示之機器學習方法)以判定結果514。深度神經網路(可用於偵測、分類、定位及理解自雷達信號偵測到之物件。深度神經網路(DNN)為在輸入層與輸出層之間具有多個「層」之一種類型的人工神經網路(ANN)。具體而言，DNN執行多個數學處理(稱為「層」)以根據給定輸入計算特定輸出之概率。除最後或最終結果之外，此等運算(或層)中的每一者之結果為「潛在表示」或「潛在特徵映像」，該最後或最終結果不再是「潛在」的，而是模型之預測/應答/輸出。舉例而言，經訓練以識別可由自控或半自控車輛(例如車輛100)所遇到的物件之類型的DNN將分析給定雷達訊框且計算在訊框中偵測到之每一物件為車輛、行人、道路標識等的概率。在訓練DNN期間，使用者可檢查結果且選擇DNN應顯示哪些概率(例如具有高於某一臨限值之概率等的輸出)，且返回所提出的標籤。

在一態樣中，循環神經網路(RNN)可藉由計算後端512用作深度學習技術以判定結果514。RNN為其中節點之間的連接沿著時間序列形成有向圖的一種類別之ANN，其允許RNN展現時間動態行為。RNN元件可用於雷達物件偵測神經網路中以改良偵測準確度。可將迴旋長短期記憶體(LSTM) (能夠學習長期相關性之一種類型的RNN)、迴旋閘控循環單元(GRU) (類似於具有遺忘閘(forget gate)之LSTM，但由於其不具有輸出閘而具有比LSTM更少的參數)或堆疊RNN應用於物件偵測神經網路之潛在特徵映像以構建最新觀測之記憶體。實務上，迴旋GRU為參數更高效的。然而，迴旋LSTM達成略高準確度(就平均值平均精確度(mAP)、平均值絕對誤差(MAE)、精確度及再調用等而言)。實務上，堆疊迴旋GRU並未達成與單層迴旋LSTM相同的準確度。此很可能係歸因於對用於達成高準確度的較長歷史之需求。以與完備的雷達物件偵測神經網路相同之準確度為目標，參數之數目可削減約四倍。由於添加記憶體元件不會增加任何明顯負擔，因此推斷時間大體上與基地網路(不具有可經添加於「基座網路之頂部的LSTM/RNN/GRU模組之網路)相同。相比於可僅估計相對速度之徑向分量之習知車輛雷達，使用RNN可估計物件之完整的相對速度向量。更具體地，RNN具有經由多個時間步驟(與僅在給定時間點處相對)查看物件之位置的能力。基於在時間段內之已知位置，計算速度只是計算該位置移動得有多快。因此，在習知雷達中且在僅使用雷達信號時，僅可量測相對徑向速度(亦即，接近或遠離雷達之相對速度的部分)。無法偵測在其他方向上之速度。然而，使用具有「歷史」之RNN，亦可估計在其他方向上的速度。因此，僅相較於徑向部分，「完整」速度向量為完整3D向量。

應注意，迴旋為兩個函數上之數學運算，以產生表示一個函數之形狀如何由另一函數修改的第三函數。術語「迴旋」係指結果函數且係指計算該函數之製程。迴旋類似於交叉相關；針對離散的實數值函數，其不同之處在於函數中的一者之次序反轉。

在一態樣中，空間上可變的迴旋(亦即，針對不同位置之不同迴旋權重)可由計算後端512用作深度學習技術以判定結果514。在第一解決方案中，可將區域空間迴旋內核(迴旋運算操作於兩個信號、雷達訊框或潛在表示及內核上，且將其組合成一者)應用於基於雷達之物件偵測神經網路之早期層(亦即，第一階段)。相比於基於相機之物件偵測神經網路，雷達訊框不具有空間恆定特性，此意謂在相機訊框中，不管物件在何處，其看起來大體上相同(撇開視角)。然而，在雷達訊框中，由於自我車輛(例如車輛100)沿著距離或方位角中任一者移動，因此距離-方位角訊跡大幅度改變。因此，可在物件偵測神經網路之早期階段使用區域空間迴旋，以將不同迴旋權重(亦即，模型之習得參數)應用於雷達訊框或潛在表示上的不同位置在幾個層之後，此等特徵更均勻地在空間上分佈，且經加權共用迴旋(亦稱為組迴旋)可用於網路之後續層中。由於特徵映像之深度在物件偵測神經網路之早期階段可相對較小，因此就權重之數目而言，此不應增加極高開銷。

在使用空間上可變的迴旋之第二解決方案中，微神經網路(較小輔助神經網路，其目的並非為解決原始問題(偵測物件)，而是產生此等空間上可變的內核及權重)可用於產生空間上可變的內核及權重。類似於前一解決方案，可進一步減少執行空間上可變的迴旋所需的權重之數目。構思為使用淺網路(潛在地僅幾個層)來產生不同內核所需之所有權重。在此問題之柯爾莫哥洛夫(Kolmogorov)複雜度(產生物件作為輸出之最短電腦程式(以預定程式設計語言)的長度)看起來沒有那麼高的條件下，可將此物件偵測神經網路視為壓縮區域空間迴旋內核自身可產生之權重的方式。此網路產生應高度相關之大量權重，且可潛在地用於產生多個層的權重。類似於動態濾波器網路(其中動態地產生濾波器之網路在輸入上經調節)之技術亦可用於針對其中儲存器或帶寬可為有限的且「在運作中」產生此等權重的情況藉由將{距離，方位角}對用作物件偵測神經網路的輸入來動態地產生此等權重。

在使用空間上可變的迴旋之第三解決方案中，顯式變換可用於針對應用於基於雷達之物件偵測神經網路的空間上可變的內核產生權重。使用物件偵測神經網路針對區域空間迴旋之不同內核產生權重的替代方案將在權重上使用顯式變換。假設特徵映像中的一者之頻道中的一者所需的oracle濾波器係已知的，相同頻道(亦即，相同顏色)及相同特徵映像的所有其他位置之變換係已知的(假定空間在笛卡爾域中恆定)。一個問題為濾波器之大小通常較小。為了解決此問題，濾波器之大小可增加至較大(例如7×7)，且接著可(在連續域中)應用變換，且可將所得內核削剪回例如3×3或5×5如應瞭解，上文所描述之第二解決方案比第一解決方案更高效，且第三解決方案比第二解決方案更高效。

亦可基於網路之輸出來估計物件偵測神經網路之偵測的不確定度。在自控驅動之情況下，大多數時間，物件並未在鳥瞰圖(雷達影像捕捉的圖1之視圖)中交疊。此與基於相機-視覺之網路相當不同，其中亦可在常規設定中發生遮擋。舉例而言，如藉由圖 6 中之影像600所說明，對應於三個不同物件之三個不同限界框彼此交疊。在一態樣中，可在物件偵測神經網路之情況下使用非最大抑制(降至一個限界框之目標物件周圍的多個限界框之組合)，以抑制交疊以減少剩餘限界框之數目的限界框以及使該等限界框具有最高置信度。由於在用於車輛的基於雷達之物件偵測的情況下不應存在交疊車輛，因此可改變非最大抑制之參數以對此差做出解釋(例如可改變交疊臨限值及潛在限界框的之目)。

多個交疊限界框預測可用於估計網路之關於預測的不確定度。在大多數情況下，不同於相機影像，針對雷達訊框，僅交疊框中之一者可對應於實體目標。物件偵測神經網路始終輸出一定數量的限界框，在多個偵測對應於相同物件之情況下，在僅用於保持最高置信度之偵測的演算法中需要存在最終步驟。然而，其中偵測(對應於相同物件)彼此交疊之圖案(例如密度、擴散等)可用於推導系統之不確定度。舉例而言，若偵測(對應於相同物件)在位置上具有較大變化，則可能指示物件偵測神經網路不確定待偵測之物件的位置。此資訊可用於估計關於偵測之位置的網路之不確定度。

作為本文中所揭示之用以判定結果514的另一技術，計算後端512可使用基於循環雷達之物件偵測神經網路將推斷時間(亦即，使模型(神經網路)進行基於輸入得到最終預測所需的計算所花費之時間)大幅度加速。一般而言，將對每一雷達訊框執行上文所描述之神經網路技術。一種用以將平均推斷時間加速之有效方式為僅在雷達訊框之子集上運行網路，且在省略步驟(亦即，在此內容背景中為訊框)中預測物件偵測。類似於運動圖像專家組(MPEG)編碼器，可將雷達訊框之子集識別為關鍵訊框(其可均勻或不均勻地分佈於時間軸中)。將此等關鍵訊框(例如圖 7 中之關鍵訊框702)饋送至基於RNN雷達之物件偵測神經網路。接著，訓練預期針對關鍵訊框702之間的預測訊框(稱為「p訊框」且在圖7中說明為p訊框704)輸出限界框的網路。此網路學習如何產生(或較佳地合成)未來訊框之高級特徵映像，以使得單發偵測(SSD)頭可對網路將無法看到的此等未來訊框執行有效物件偵測。此技術應在推斷時間方面提供顯著改良。

SSD為用於使用單個深度神經網路偵測影像中之物件之方法。SSD經由不同縱橫比將限界框之輸出空間離散化成一組預設框且根據特徵映像位置按比例調整。在預測時間處，物件偵測神經網路在每一預設框中之每一物件類別存在的情況下產生分數且產生對框之調整以與物件形狀更佳匹配。另外，網路組合根據具有不同解析度之多個特徵映像的預測，以自然地處置各種大小之物件。SSD模型消除提議產生及後續像素或特徵重取樣階段，且包封單個網路中之所有計算。此使得SSD易於訓練且使得SSD直接地集成至需要偵測組件之系統中。

在此點上擴展，混合追蹤技術可用於加速推斷。在自控驅動之情況下，考慮到限界框通常不自一個訊框大幅度改變至下一訊框的事實，基於雷達之物件偵測神經網路可僅在訊框(例如關鍵訊框702)之子集上運行。針對p訊框(例如p訊框704)，可使用簡單追蹤途徑(例如雙線性外插/內插-在長方體2D柵格上擴展兩個變數之內插函數的線性內插)或更複雜的追蹤途徑(例如具有軌跡片段(路徑之較小子區段或物件在其原點與目的地之間的「軌跡」)之卡爾曼(Kalman)濾波)，以更新限界框之位置。實務上，此可產生較小百分比之mAP減小，但具有對應速度。

然而，若新物件突然出現於訊框中，則其可藉由不在每一訊框上運行完整物件偵測神經網路而被錯過。一種用以解決此之方式為具有淺異常偵測網路，該淺異常偵測網路可告知關鍵訊框之邊界應何時經重置(或用作關鍵訊框偵測器)。可在運行完整物件偵測神經網路時使用訊框間的地面實況之差異訓練此網路。此意謂異常偵測網路可經訓練以藉由使用GT框(亦即，標註)來偵測新物件何時出現在場景中。經由具有開始及結束之時間追蹤標註。因此，使用GT標註，易於告知訊框何時「異常」--其為物件首次出現之訊框。

在另一態樣中，計算後端512可使用消耗4D {距離，方位角，都卜勒，高度}張量(在本文中稱為「SliceNet」)的多個2D片段之神經網路架構。「片段」為降維方法之結果，諸如沿著一或多個維度對(雷達返回之)功率進行求和。先前，雷達感知僅依賴於用於偵測物件之距離-方位角片段。因此，都卜勒資訊被有效地忽略。相比之下，圖 8 說明在將一組所選擇的片段融合在一起作為3D張量810且在其後緊接著物件偵測神經網路的其餘部分(亦即，物件偵測網路之剩餘層在此張量之後出現)之前針對來自一組所選擇的片段的每一2D片段(例如距離-方位角802、距離-都卜勒804及方位角-都卜勒806)使用單獨特徵提取層的SliceNet架構800。此意謂更多迴旋層緊接在已將經處理片段合併成3D張量之後。因此，每一片段由專用迴旋神經網路分支處理。接著結果經融合成單個3D張量，且另一迴旋神經網路採用此3D張量作為輸入且最終輸出物件偵測。組合架構稱為「SliceNet」。此針對計算後端512處之物件分類及偵測產生改良效能。

本文中亦揭示潛在空間自我運動補償技術。當將具有連續時間戳之輸入訊框饋送至物件偵測神經網路時，自我運動(雷達系統自身(例如雷達214)在車輛100移動時之運動)使來自雷達系統的輸入更加難以由計算後端512進行解釋。當嘗試預測偵測到之物件(例如其他車輛、行人等)的運動時，此可尤其存在問題。舉例而言，如上文參看圖4所論述，雷達成像並非平移等變的，因此自我運動之補償為很重要的。舉例而言，雷達信號無法在影像平面中平移。此項技術的基於LiDAR之途徑的當前狀態依賴於自我運動補償，如描述於例如Luo等人的「Fast and Furious:Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net」中，其以全文引用之方式併入本文中。

為了解決此等問題，本發明提供圖 9 中所說明之潛在空間自我運動補償技術。參看圖9，將每一輸入訊框902及904 (在t₁ 及t₂ 處接收到的，其中水平線表示雷達感測器(例如雷達214)之位置的變化)分別饋送至特徵提取器906及908 (儘管兩個特徵提取器經說明為更清晰地展示製程流程，但該兩個特徵提取器可為相同特徵提取器)。特徵提取亦包括極至笛卡爾變換。自一個訊框902/904產生之特徵映像910/912係給定空間區域之表示。特徵映像910及912係「自我座標」，意謂自我點(亦即，雷達感測器之位置)始終在雷達訊框或潛在表示上的固定位置處。因此，靜止物件以反向之自我運動在映像上移動。

接著，獲得訊框902與904之間的自我運動。訊框902與904之間的自我運動係雷達感測器之位置的變化。此可以各種方式(諸如GPS或其他感測器)獲得，或神經網路可估計運動，包括旋轉(亦即，車輛100之定向的變化)。

接著，將每一關鍵訊框902及904之自我座標轉換成世界座標。轉換製程藉由初始化空特徵張量(空間上大於原始空特徵張量(對應於訊框902及904的特徵映像910及912))而開始。此新張量係「世界座標」，意謂靜止物件隨著時間推移仍然在特徵映像上之相同位置中，且自我位置可(取決於自我運動)改變。基於根據製程之前一步驟的自我運動，將每一訊框902及904之特徵映像910及912分別變換為世界座標的新特徵映像914及916。此包括在未看到的但可潛在地在其他訊框中看到的區域中用0填充特徵映像914及/或916。

在圖9之實例中，將第二訊框904選擇為世界訊框，且因此，在特徵映像912與916之間不存在變換。相比之下，第一訊框902經變換。在圖9之實例中，此變換僅為在x軸上的平移。

接著，所得的一組特徵映像(亦即，世界座標特徵映像914及916)組合成組合特徵映像918。該組特徵映像可以各種方式組合。作為第一選項，可使用編索引製程組合該組特徵映像。舉例而言，若並未在訊框中之任一者中看見區域，則將其保留為「0」值。若僅在一個訊框上看見區域，則使用彼等值。且若在多個訊框上看見區域，則使用例如彼等值之平均值。作為第二選項，可使用神經網路。網路將採用世界座標之多個特徵映像914及916作為輸入，且產生組合特徵映像918。組合特徵映像918接著由輸出物件偵測922之SSD 920處理。

本文中亦揭示使用LiDAR感測器216及相機212的雷達信號(例如雷達214之輸出)之交叉感測器標註的技術。LiDAR為其中LiDAR感測器216發射脈衝式雷射光且用感測器量測經反射雷射脈衝之偵測技術。雷射脈衝返回時間及波長之差異可用於判定與雷射脈衝之路徑中的物件之距離。

可用來自LiDAR感測器216之資料自動或手動地標註雷達信號。針對自動LiDAR標註，LiDAR信號可用於偵測及定位感興趣的物件(例如車輛、行人、道路標識等) (例如判定該等感興趣的物件之通用位置)。接著可用3D限界框識別所產生的LiDAR訊框內之感興趣的物件。可使用LiDAR感測器216與雷達214之間的非本徵校準將限界框自LiDAR訊框映射至雷達訊框。

手動標註可用上文所描述之自動標註經自舉。舉例而言，可由人根據刮擦手動地標註雷達訊框，或可藉由使來自三個互補感測器、相機212、LiDAR 216及雷達214之資料可視化來校正自動標註。

在一態樣中，如由圖 10 中的方法1000所說明，可執行早期LiDAR雷達融合以改良自動標註之品質。「Fast and Furious:Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net」中所揭示之方法可用於將LiDAR點雲資料(1004)轉換成鳥瞰圖距離-方位角張量(1006)。可將此張量與原始雷達資料(1002)串接(1008)，將該原始雷達資料(1002)用作物件偵測神經網路(1010)之輸入以執行物件偵測(1012)。雷達及LiDAR彼此的互補之處在於雷達能夠偵測遠程處之物件，而LiDAR提供短程處之細節。另外，當LiDAR安裝於車輛100之頂部時，有時可在其他車輛上「看見」LiDAR。

在另一態樣中，如圖 11 中之方法1100所說明，可執行中間LiDAR雷達融合以改良自動標註之品質。另外，「Fast and Furious:Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net」中所揭示之方法可用於將LiDAR點雲資料(1108)轉換成鳥瞰圖笛卡爾張量(1110)。神經網路(1104；1112)在兩個單獨分支中處理原始雷達資料(1102)及LiDAR張量(1110)以提取特徵。使用下文所描述之方法將雷達特徵經變換至笛卡爾空間(1106)。接著串接雷達與LiDAR特徵(1114)以供藉由神經網路(1116)針對物件偵測(1118)進行進一步處理。

本文中亦揭示針對雷達信號處理具有極至笛卡爾變換之神經網路。用於自控驅動之成像雷達的物件為產生輸出世界之高解析度語義表示的基於雷達之系統(道路世界模型)。道路世界模型可提供其他車輛、行人及靜態物件之位置、其維度、速度等。與傳統雷達相比，經由經改良硬體(例如更多天線)與經改良信號處理的組合實現成像雷達。在信號處理側，深度學習技術用於解釋雷達信號(如在上文所描述之各種技術中)。

雷達信號之「原生格式」係極座標空間。在極空間中，一個軸表示距離而另一軸表示方位角，如圖 12 中所展示，雷達訊框為每一距離-方位角頻率組中之雷達信號的功率之2D「影像」。在圖12中，相機訊框1210在左側上，極空間中之原始雷達訊框1220在中心，且笛卡爾空間中之內插雷達訊框1230在右側上。表示物件(此處為車輛)位置之地面實況標註框1222及1232分別上覆於雷達訊框1220與內插雷達訊框1230上。

此極空間由雷達感測器起作用之方式引起。舉例而言，量測方位角方向作為相鄰天線與使用FFT演算法所擷取之內容之間的相位差。雷達可在原則上感測180度，但解析度朝向所得雷達訊框之最左邊邊緣及最右邊邊緣降低。由於用於汽車應用之較佳輸出空間為笛卡爾(x-y)，因此極座標空間針對深度學習信號處理存在挑戰。

圖 13 說明左側之極空間中的取樣柵格1310，其經變換為右側之笛卡爾空間中的取樣柵格1320。如可看出，取樣柵格1320更遠離雷達源(亦即，取樣柵格1320之底部中心)在笛卡爾空間中變得愈加稀疏。圖13亦展示出解析度朝向取樣柵格1320之左右邊緣降低。

本發明提出在極空間中採用其輸入映像，但在笛卡爾空間中進行輸出之神經網路。圖 14 說明高速公路汽車場景中之物件偵測的實例神經網路架構1400。經由固定功能之極至笛卡爾變換層1410在神經網路內部執行變換。亦即，神經網路架構1400不必學習變換。固定功能之極至笛卡爾變換層1410使用最近鄰映射(當真實值藉由採用在最接近的已知樣本處的值而針對離散點僅為已知的時，用於估計空間中之點處的值之演算法)、雙線性內插或雙立方內插(用於內插二維規則柵格上之資料點的立方內插之擴展)將特徵自極空間(表示為極空間訊框1402)映射至笛卡爾空間(表示為笛卡爾空間訊框1404)。在變換之後，神經網路架構1400持續若干更多迴旋層(由具有解析度「64×64」之特徵映像表示)。最後，「SSD頭」1406執行物件偵測。整個網路端對端地經訓練(相較於單獨地逐塊)。神經網路架構1400在本文中稱為「極至笛卡爾」網路。應注意，標記為「256×64」、「128×32」、「64×32」等之區塊/特徵映像為具有標記解析度之特徵映像。

實務上，完整笛卡爾映像並非所需的。針對高速公路汽車應用，舉例而言，較佳地前方僅250公尺可見，而左右側僅25公尺可見。因此，將裁切(cropping)執行為極至笛卡爾變換之部分，從而減少計算時間及記憶體使用率。

具有上文在圖14中所描述之極輸入空間及笛卡爾輸出空間的可端對端訓練之神經網路架構1400存在若干優點。第一優點為更高準確度及更穩定之結果。舉例而言，精確度之量測mAP可藉由自笛卡爾至笛卡爾網路切換至極至笛卡爾網路(例如神經網路架構1400)而(相對)增加20%。在定性感測中，極至笛卡爾網路之結果優於極至極網路及笛卡爾至笛卡爾網路二者。舉例而言，在訊框之間存在較少閃爍且較少錯過之偵測。

第二優點為與笛卡爾至笛卡爾網路相比，減少了計算時間，此係由於對於大多數處理而言，輸入可保持在(儲存高效之)極空間中。在實驗中，極至笛卡爾網路比笛卡爾至笛卡爾網路快2.3倍。

另一優點為獲得笛卡爾空間中之物件不需要後處理。

另一優點為由於極至笛卡爾網路(例如神經網路架構1400)之輸出係笛卡爾座標，因此相較於極座標(其中物件取決於偵測到該等物件之位置而變形)，該輸出具有平移等變之優點。

又一優點為由於所有車輛具有類似大小，因此僅需要單個SSD頭。在極空間中，鄰近物件經偵測為係極寬的，從而在多個特徵層處需要物件偵測。

圖 15 說明根據本發明之態樣的採用深度學習來分析雷達信號的例示性方法1500。在一態樣中，方法1500可由主車輛之車載電腦(諸如車輛100之OBC 200)執行。

在1510處，OBC自主車輛之雷達感測器(例如雷達214)接收複數個雷達訊框(例如雷達訊框420)。在一態樣中，操作1510可由系統介面210、資料匯流排208、記憶體204及/或處理器206 (其中之任一者或所有可被視為用於執行此操作之構件)執行。

在1520處，OBC對複數個雷達訊框(例如關鍵訊框702)之至少一子集執行神經網路。在一態樣中，操作1520可由處理器206 (其可被視為用於執行此操作之構件)執行。

在1530處，OBC基於在複數個雷達訊框之子集上執行神經網路偵測複數個雷達訊框之子集中的一或多個物件(例如車輛)。在一態樣中，操作1530可由處理器206 (其可被視為用於執行此操作之構件)執行。

圖 16 說明在神經網路中將極座標變換為笛卡爾座標的例示性方法1600。在一態樣中，方法1600可由主車輛之車載電腦(諸如車輛100之OBC 200)執行。

在1610處，OBC接收複數個雷達訊框(例如雷達訊框420)或極座標空間之複數個雷達訊框(已由神經網路處理之雷達訊框)的一或多個潛在表示。在一態樣中，操作1610可由系統介面210、資料匯流排208、記憶體204及/或處理器206 (其中之任一者或所有可被視為用於執行此操作之構件)執行。

在1620處，OBC將複數個雷達訊框或複數個雷達訊框之一或多個潛在表示自極座標空間變換至笛卡爾座標空間。在一態樣中，操作1620可由處理器206 (其可被視為用於執行此操作之構件)執行。

在1630處，OBC輸出複數個雷達訊框或笛卡爾座標空間之複數個雷達訊框的一或多個潛在表示。在一態樣中，操作1630可由系統介面210、資料匯流排208、記憶體204及/或處理器206 (其中之任一者或所有可被視為用於執行此操作之構件)執行。

應注意，儘管在本文中之各個態樣中描述了特定頻率、積體電路(IC)、硬體及其他特徵，但替代態樣可改變。亦即，替代態樣可利用額外頻率或替代頻率(例如除了60 GHz及/或28 GHz的頻帶之外)、天線元件(例如具有不同大小/形狀的天線元件陣列)、掃描週期(包括靜態掃描週期及動態掃描週期兩者)、電子裝置(例如行動電話、平板電腦、個人電腦(PC)等)及/或其他特徵。一般熟習此項技術者應瞭解此類變化。

應理解，本文中使用諸如「第一」、「第二」等指定之元件的任何參考通常不限制彼等元件之數量或次序。實情為，本文中可使用此等指定作為區別兩個或更多個元件或元件之例項的便利方法。因此，對第一元件及第二元件之參考不意謂此處僅可採用兩個元件或第一元件必須以某一方式先於第二元件。此外，除非另外說明，否則一組元件可包含一或多個元件。另外，描述或申請專利範圍中所使用之形式術語「A、B或C中之至少一者」或「A、B或C中之一或多者」或「由A、B及C組成的群組中之至少一者」意謂「A或B或C或此等元件之任何組合」。舉例而言，此術語可包括A、或B、或C、或A及B、或A及C、或A及B及C、或2A、或2B、或2C等。

鑒於以上描述及解釋，熟習此項技術者應瞭解，結合本文中所揭示之態樣描述之各種說明性邏輯區塊、模組、電路及演算法步驟可實施為電子硬體、電腦軟體或兩者之組合。為了清楚地說明硬體與軟體之此互換性，各種說明性組件、區塊、模組、電路及步驟已在上文大體就其功能性而言加以描述。將此功能性實施為硬體抑或軟體取決於特定應用及強加於整個系統上之設計約束。熟習此項技術者可針對每一特定應用而以變化的方式實施所描述的功能性，但不應將此類實施決策解釋為致使脫離本發明之範疇。

因此，應瞭解，(例如)如本文中所教示，設備或設備之任何組件可經組態以(或可操作以或經調適以)提供功能性。其可例如藉由以下達成：藉由加工(例如製造)設備或組件以使其將提供功能性；藉由對設備或組件進行程式設計以使其將提供功能性；或經由使用一些其他合適的實施技術。作為一個實例，積體電路可經製造以提供必需的功能性。作為另一實例，積體電路可經製造以支援必需的功能性且接著經組態(例如經由程式化)以提供必需的功能性。作為又一實例，處理器電路可執行程式碼以提供必需的功能性。

此外，結合本文中所揭示之態樣描述的方法、序列及/或演算法可以硬體、以由處理器執行之軟體模組、或以兩者之組合直接體現。軟體模組可駐留於隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可抹除可程式化ROM (EPROM)、電可抹除可程式化ROM (EEPROM)、暫存器、硬碟、可移式磁碟、CD-ROM、或此項技術中已知的任何其他形式之儲存媒體。例示性儲存媒體耦接至處理器，以使得處理器可自儲存媒體讀取資訊及將資訊寫入至儲存媒體。在替代方案中，儲存媒體可與處理器(例如快取記憶體)成一體式。

因此，亦應瞭解(例如)本發明之某些態樣可包括體現用於利用雷達影像使臉部驗證個人化之方法的電腦可讀媒體。

儘管前述揭示內容揭示展示各種說明性態樣，但應注意，在不脫離由所附申請專利範圍所定義之範疇的情況下，可對所說明之實例作出各種改變及修改。本發明不意欲獨自限制於具體說明之實例。舉例而言，除非另外說明，否則根據本文中所描述之本發明的態樣之方法請求項的功能、步驟及/或動作不必以任何特定次序執行。此外，雖然某些態樣可以單數形式描述或主張，但除非明確地陳述對單數形式之限制，否則涵蓋複數形式。

100:車輛 112:擋風玻璃 120:雷達-相機感測器模組 130:車輛 140:車輛 150:水平覆蓋區域 160:水平覆蓋區域 200:車載電腦 202:映像 204:記憶體 206:處理器 208:資料匯流排 210:系統介面 212:相機 214:雷達 216:光偵測及測距感測器 220:系統介面 230:無線廣域網路 240:無線區域網路收發器 250:全球定位系統接收器 300:所感測的觀測雷達柵格 340:觀測柵格 342:觀測小區 344:特徵 410:相機影像 412:限界框 414:限界框 416:限界框 420:雷達訊框 422:限界框 424:限界框 426:限界框 428:中線 500:方塊圖 502:類比前端 504:數位前端 506:I/Q樣本 508:計算前端 510:四維張量 512:計算後端 514:結果 516:組態 518:組態 600:影像 702:關鍵訊框 704:預測訊框 800:SliceNet架構 802:距離-方位角 804:距離-都卜勒 806:方位角-都卜勒 810:3D張量 902:輸入訊框 904:輸入訊框 906:特徵提取器 908:特徵提取器 910:特徵映像 912:特徵映像 914:新特徵映像 916:新特徵映像 918:特徵映像 920:單發偵測 922:物件偵測 1000:方法 1002:原始雷達資料 1004:LiDAR點雲資料 1006:步驟 1008:步驟 1010:物件偵測神經網路 1012:物件偵測 1100:方法 1102:雷達資料 1104:神經網路 1106:步驟 1108:LiDAR點雲資料 1110:步驟 1112:神經網路 1114:步驟 1116:神經網路 1118:物件偵測 1210:相機訊框 1220:原始雷達訊框 1222:地面實況標註框 1230:內插雷達訊框 1232:地面實況標註框 1310:取樣柵格 1320:取樣柵格 1400:實例神經網路架構 1402:極空間訊框 1404:笛卡爾空間訊框 1406:SSD頭 1410:極至笛卡爾變換層 1500:例示性方法 1510:操作 1520:操作 1530:操作 1600:例示性方法 1610:操作 1620:操作 1630:操作r:距離θ:角度/方位

呈現隨附圖式以輔助描述本發明之各個態樣，且提供該等隨附圖式僅僅為了說明該等態樣而非對其進行限制。

圖1為根據各個態樣之在擋風玻璃後方採用整合式雷達-相機感測器的車輛之俯視圖。

圖2說明根據各個態樣之車載電腦架構。

圖3為所感測的觀測雷達柵格之示意圖。

圖4說明相同場景之相機影像與雷達影像之間的例示性差異。

圖5為展示根據各個態樣之雷達-相機感測器模組及/或一或多個處理器如何處理來自雷達感測器之資料的方塊圖。

圖6說明已出現遮擋之電腦視覺的實例。

圖7說明雷達訊框序列中之一系列關鍵訊框及p訊框。

圖8說明在將一組所選擇的片段融合在一起且在其後緊接著網路的其餘部分之前針對來自一組所選擇的片段之每一2D片段使用單獨特徵提取層的架構。

圖9說明根據本發明之各個態樣的潛在空間自我運動補償技術。

圖10說明視訊訊框、極空間中之雷達訊框及笛卡爾空間中之內插雷達訊框。

圖11說明經變換為笛卡爾空間中之取樣柵格的極空間中的取樣柵格。

圖12說明根據各個態樣之用於高速公路汽車場景中的車輛偵測之例示性神經網路架構。

圖13說明取樣柵格。

圖14說明具體神經網路架構。

圖15說明根據本發明之態樣的採用深度學習來分析雷達信號的例示性方法。

圖16說明在神經網路中將極座標變換為笛卡爾座標的例示性方法。

702:關鍵訊框

704:預測訊框

Claims

一種採用深度學習來分析由一主車輛之一車載電腦執行的雷達信號之方法，其包含：自該主車輛之一雷達感測器接收複數個雷達訊框；在該複數個雷達訊框之至少一子集上執行一神經網路，其中在該複數個雷達訊框之該子集上執行該神經網路之前將光偵測及測距(LiDAR)資料與原始雷達資料串接成一單個輸入張量；及基於在該複數個雷達訊框之該子集上執行該神經網路來在該複數個雷達訊框之該子集中偵測一或多個物件。
如請求項1之方法，其中該神經網路包含一循環神經網路。
如請求項2之方法，其中基於執行該循環神經網路偵測該一或多個物件係基於將一單個迴旋長短期記憶體(LSTM)模組應用於在執行該循環神經網路期間產生之特徵映像。
如請求項1之方法，其中執行該神經網路包含應用一區域空間迴旋以將不同迴旋權重應用於該複數個雷達訊框之該子集中的不同位置。
如請求項1之方法，其中執行該神經網路包含針對不同的空間上可變的內核產生所有權重之一淺神經網路。
如請求項1之方法，其中執行該神經網路包含在該神經網路之每一權重上使用一顯式變換。
如請求項1之方法，其中執行該神經網路包含使用非最大抑制來抑制交疊限界框。
如請求項7之方法，其進一步包含：基於該交疊限界框估計偵測該一或多個物件之一不確定度。
如請求項1之方法，其中該複數個雷達訊框之該子集由該複數個雷達訊框之關鍵訊框組成，且其中該等關鍵訊框之間的該複數個雷達訊框中之雷達訊框包含預測訊框(p訊框)。
如請求項9之方法，其中一異常偵測神經網路基於在該複數個雷達訊框中之一p訊框中對一物件的一初始偵測識別何時重置一關鍵訊框之一邊界。
如請求項1之方法，其中執行該神經網路包含：針對包含一距離-方位角片段、一距離-都卜勒片段及一方位角-都卜勒片段之一組片段中的每一者使用該神經網路之單獨特徵提取層；及將該組經處理片段融合成包含距離、方位角及都卜勒之參數的一三維片段。
如請求項1之方法，其中執行該神經網路包含：對該複數個雷達訊框之該子集中之每一雷達訊框執行特徵提取，以針對該複數個雷達訊框之該子集中之每一雷達訊框產生一特徵映像，其中該特徵映像係自我座標；在該複數個雷達訊框之該子集中之每一雷達訊框之間獲得自我運動；將該複數個雷達訊框之該子集中之每一雷達訊框的該等自我座標變換為世界座標；及組合該複數個雷達訊框之該子集的該等特徵映像。
如請求項1之方法，其中該神經網路係使用基於具有光偵測及測距(LiDAR)資料及/或相機資料之該複數個雷達訊框的該子集之標註進行訓練的。
如請求項1之方法，其進一步包含：在對該複數個雷達訊框之該子集執行該神經網路之前正規化該複數個雷達訊框。
如請求項14之方法，其中該正規化包含：在該複數個雷達訊框之每一距離處計算該複數個雷達訊框中之每一雷達訊框的一平均值及標準差；使一函數擬合該計算之一結果；及使用該函數以沿著距離維度正規化該複數個雷達訊框。
如請求項1之方法，其中雷達資料由該神經網路之一第一分支處理，LiDAR資料由該神經網路之一第二分支處理，將兩個分支之特徵轉化至相同座標空間且進行串接，且基於兩個分支之該等特徵偵測該一或多個物件。
一種一主車輛上之車載電腦，其包含：至少一個處理器，其經組態以執行以下操作：自該主車輛之一雷達感測器接收複數個雷達訊框；在該複數個雷達訊框之至少一子集上執行一神經網路，其中在該複數個雷達訊框之該子集上執行該神經網路之前將光偵測及測距(LiDAR)資料與原始雷達資料串接成一單個輸入張量；及基於在該複數個雷達訊框之該子集上執行該神經網路偵測該複數個雷達訊框之該子集中的一或多個物件。
如請求項17之車載電腦，其中該複數個雷達訊框之該子集由該複數個雷達訊框之關鍵訊框組成，且其中該等關鍵訊框之間的該複數個雷達訊框中之雷達訊框包含預測訊框(p訊框)。
如請求項18之車載電腦，其中一異常偵測神經網路基於在該複數個雷達訊框中之一p訊框中對一物件的一初始偵測識別何時重置一關鍵訊框之一邊界。
如請求項17之車載電腦，其中該至少一個處理器經組態以執行該神經網路包含該至少一個處理器經組態以執行以下操作：針對包含一距離-方位角片段、一距離-都卜勒片段及一方位角-都卜勒片段之一組片段中的每一者使用該神經網路之單獨特徵提取層；及將該組經處理片段融合成包含距離、方位角及都卜勒之參數的一三維片段。
如請求項17之車載電腦，其中該至少一個處理器經組態以執行該神經網路包含該至少一個處理器經組態以執行以下操作：對該複數個雷達訊框之該子集中之每一雷達訊框執行特徵提取，以針對該複數個雷達訊框之該子集中之每一雷達訊框產生一特徵映像，其中該特徵映像係自我座標；在該複數個雷達訊框之該子集中之每一雷達訊框之間獲得自我運動；將該複數個雷達訊框之該子集中之每一雷達訊框的該等自我座標變換為世界座標；及組合該複數個雷達訊框之該子集的該等特徵映像。