TWI706238B

TWI706238B - 用於自動駕駛的系統和方法

Info

Publication number: TWI706238B
Application number: TW107146889A
Authority: TW
Inventors: 羅威
Original assignee: 大陸商北京航跡科技有限公司
Priority date: 2018-12-18
Filing date: 2018-12-25
Publication date: 2020-10-01
Also published as: CN111338333B; SG11201811625UA; AU2018286585A1; TW202024829A; EP3688540B1; AU2018286585B2; CN111338333A; CA3028692C; EP3688540A1; CA3028692A1; WO2020124437A1; EP3688540A4; JP2021514882A

Abstract

本申請涉及一種用於自動駕駛的系統和方法。所述系統可以獲取與運輸工具相關的駕駛資訊；確定所述運輸工具的狀態；基於所述駕駛資訊和所述運輸工具的所述狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號和對應於所述一個或多個候選控制信號的一個或多個評估值；基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇目標控制信號；以及將所述目標控制信號發送至所述運輸工具的控制元件。

Description

用於自動駕駛的系統和方法

本申請一般涉及用於自動駕駛的系統和方法，尤其涉及用於確定自動駕駛中的控制信號的系統和方法。

本申請主張2018年12月19日提交之申請號為PCT/CN2018/122097的國際申請案以及2018年12月18日提交之申請號為201811547279.X的中國專利申請案的優先權，其全部內容藉由引用被包含於此。

隨著微電子技術和機器人技術的發展，自動駕駛的探索現已迅速發展。對於自動駕駛系統來說，基於與自動駕駛系統的運輸工具相關的駕駛資訊（例如，起始位置、定義的目的地、道路狀況）確定合適的控制信號（例如，加速器控制信號）是很重要的。通常，自動駕駛系統藉由執行一系列操作來確定控制信號，例如，獲取駕駛資訊，基於駕駛資訊確定駕駛動作，基於駕駛動作規劃駕駛路徑，基於駕駛路徑確定控制信號等。然而，如果可以更直接地確定控制信號，則可以顯著提高自動駕駛系統的效率。因此，希望提供用於基於與運輸工具相關的駕駛資訊來確定控制信號的系統和方法，從而提高自動駕駛系統的性能。

本申請的一態樣涉及一種用於自動駕駛的系統。該系統可以包括包含一組指令的至少一個儲存媒體；以及與所述至少一個儲存媒體通訊的至少一個處理器。當執行該組指令時，所述至少一個處理器可以用於使所述系統執行一個或多個以下操作。所述系統可以獲取與運輸工具相關的駕駛資訊。所述系統可以確定所述運輸工具的狀態。所述系統可以基於所述駕駛資訊和所述運輸工具的所述狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號和對應於所述一個或多個候選控制信號的一個或多個評估值。所述系統可以基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇目標控制信號。所述系統可以將所述目標控制信號發送至所述運輸工具的控制元件。

在一些實施例中，與所述運輸工具相關的所述駕駛資訊可以包括所述運輸工具的第一預定範圍內的感知資訊及/或所述運輸工具的所述第一預定範圍內的地圖資訊。

在一些實施例中，所述感知資訊可以包括道路狀況資訊及/或障礙物資訊。

在一些實施例中，所述運輸工具的所述狀態可以包括所述運輸工具的速度、所述運輸工具的加速度及/或所述運輸工具的方向盤角度。

在一些實施例中，所述訓練好的控制模型可以由訓練流程確定。所述訓練流程可以包括獲取初始控制模型；獲取初始樣本駕駛資訊，所述初始樣本駕駛資訊包括樣本運輸工具的第二預定範圍內的初始樣本感知資訊和所述樣本運輸工具的所述第二預定範圍內的初始樣本地圖資訊；獲取所述樣本運輸工具的初始樣本狀態；基於所述初始樣本駕駛資訊、所述樣本運輸工具的所述初始樣本狀態以及所述初始控制模型，確定初始樣本控制信號；基於對應於所述初始樣本控制信號的初始獎勵值，確定與所述初始控制模型相關的初始樣本評估值，其中，所述初始獎勵值和與所述初始樣本控制信號相關的碰撞條件、與所述初始樣本控制信號相關的車道狀況或與所述初始樣本控制信號相關的停止條件中的至少一個相關；確定所述初始樣本評估值是否滿足預設條件；以及回應於確定所述初始樣本評估值滿足所述預設條件，指定所述初始控制模型為所述訓練好的控制模型。

在一些實施例中，所述訓練流程可以進一步包括：回應於確定所述初始樣本評估值不滿足所述預設條件，執行一個或多個反覆運算以更新所述初始控制模型，直到更新後的樣本評估值滿足所述預設條件。所述一個或多個反覆運算中的每個反覆運算可以包括基於先前反覆運算中的獎勵值確定更新後的控制模型；獲取更新後的樣本駕駛資訊；基於所述先前反覆運算中的樣本控制信號和所述先前反覆運算中的所述樣本運輸工具的樣本狀態，估計所述樣本運輸工具的更新後的樣本狀態；基於所述更新後的樣本駕駛資訊、所述樣本運輸工具的所述更新後的樣本狀態以及所述更新後的控制模型，確定更新後的樣本控制信號；基於對應於所述更新後的樣本控制信號的更新後的獎勵值和所述先前反覆運算中的樣本評估值，確定與所述更新後的控制模型相關的更新後的樣本評估值；以及確定所述更新後的樣本評估值是否滿足所述預設條件。

在一些實施例中，所述訓練好的控制模型可以包括深度確定性策略梯度（Deep Deterministic Policy Gradient, DDPG）網路模型。

在一些實施例中，所述系統可以根據預定規則，基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇所述目標控制信號。

本申請的另一態樣涉及一種在計算裝置上實施的方法。所述計算裝置可以包括至少一個處理器、至少一個儲存媒體，以及連接到網路的通訊平臺。所述方法可以包括獲取與運輸工具相關的駕駛資訊；確定所述運輸工具的狀態；基於所述駕駛資訊和所述運輸工具的所述狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號和對應於所述一個或多個候選控制信號的一個或多個評估值；基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇目標控制信號；以及將所述目標控制信號發送至所述運輸工具的控制元件。

在一些實施例中，所述訓練流程可以進一步包括回應於確定所述初始樣本評估值不滿足所述預設條件，執行一個或多個反覆運算以更新所述初始控制模型，直到更新後的樣本評估值滿足所述預設條件。所述一個或多個反覆運算中的每個反覆運算可以包括基於先前反覆運算中的獎勵值確定更新後的控制模型；獲取更新後的樣本駕駛資訊；基於所述先前反覆運算中的樣本控制信號和所述先前反覆運算中的所述樣本運輸工具的樣本狀態，估計所述樣本運輸工具的更新後的樣本狀態；基於所述更新後的樣本駕駛資訊、所述樣本運輸工具的所述更新後的樣本狀態以及所述更新後的控制模型，確定更新後的樣本控制信號；基於對應於所述更新後的樣本控制信號的更新後的獎勵值和所述先前反覆運算中的樣本評估值，確定與所述更新後的控制模型相關的更新後的樣本評估值；以及確定所述更新後的樣本評估值是否滿足所述預設條件。

在一些實施例中，所述訓練好的控制模型可以包括深度確定性策略梯度（DDPG）網路模型。

在一些實施例中，基於所述一個或多個評估值從所述一個或多個候選控制信號中選擇所述目標控制信號可以進一步包括：根據預定規則，基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇所述目標控制信號。

本申請的又一態樣涉及一種被配置為自動駕駛的運輸工具。所述運輸工具包括偵測元件、規劃元件和控制元件。所述規劃元件可以被配置為獲取與所述運輸工具相關的駕駛資訊；確定所述運輸工具的狀態；基於所述駕駛資訊和所述運輸工具的所述狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號和對應於所述一個或多個候選控制信號的一個或多個評估值；基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇目標控制信號；以及將所述目標控制信號發送至所述運輸工具的控制元件。

在一些實施例中，所述運輸工具的所述狀態可以包括所述運輸工具的速度、所述運輸工具的加速度和所述運輸工具的方向盤角度。

在一些實施例中，所述規劃元件可以進一步被配置為根據預定規則，基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇所述目標控制信號。

本申請的一部分附加特性可以在下面的描述中進行說明。藉由對以下描述和相應圖式的研究或者對實施例的生產或操作的瞭解，本申請的一部分附加特性對於本領域具有通常知識者是明顯的。本申請的特徵可以藉由對以下描述的具體實施例的各種態樣的方法、手段和組合的實踐或使用得以實現和達到。

以下描述是為了使本領域具有通常知識者能夠實施和利用本申請，並且該描述是在特定的應用場景及其要求的環境下提供的。對於本領域具有通常知識者來講，顯然可以對所揭露的實施例作出各種改變，並且在不偏離本申請的原則和範圍的情況下，本申請中所定義的普遍原則可以適用於其他實施例和應用場景。因此，本申請並不限於所描述的實施例，而應該被給予與申請專利範圍一致的最廣泛的範圍。

本申請中所使用的術語僅用於描述特定的示例性實施例，並不限制本申請的範圍。如本申請使用的單數形式「一」、「一個」及「該」可以同樣包括複數形式，除非上下文明確提示例外情形。還應當理解，如在本申請中，術語「包括」、「包含」僅提示存在所述特徵、整體、步驟、操作、元素及/或元件，但並不排除存在或添加一個或多個其他特徵、整體、步驟、操作、元素、元件及/或其組合的情況。

根據以下對圖式的描述，本申請的這些和其他的特徵、特點以及相關結構組件的功能和操作方法，以及部件組合和製造經濟性，可以變得更加顯而易見，這些圖式都構成本申請說明書的一部分。然而，應當理解的是，圖式僅僅是為了說明和描述的目的，並不旨在限制本申請的範圍。應當理解的是，圖式並不是按比例繪製的。

本申請中使用了流程圖用來說明根據本申請的一些實施例的系統所執行的操作。應當理解的是，流程圖中的操作可以不按循序執行。相反，可以按照倒序或同時處理各種步驟。同時，也可以將一個或多個其他操作添加到這些流程圖中。也可以從流程圖中刪除一個或多個操作。

此外，儘管本申請中揭露的系統和方法主要涉及陸地中的運輸系統，但應該理解，這僅是一個示例性實施例。本申請的系統和方法可以應用於任何其他類型的運輸系統。例如，本申請的系統和方法可以應用於不同環境的運輸系統，包括海洋、航太或類似物或其任意組合。運輸系統的運輸工具可包括汽車、公共汽車、列車、地鐵、船隻、飛機、太空船、熱氣球或類似物或其任意組合。

本申請中使用的定位技術可以包括全球定位系統（GPS）、全球衛星導航系統（GLONASS）、北斗導航系統（COMPASS）、伽利略定位系統、準天頂衛星系統（QZSS）、無線保真（Wi-Fi）定位技術或類似物或其任意組合。上述定位技術中的一種或多種可以在本申請中互換使用。

本申請的一個態樣涉及用於確定自動駕駛中的控制信號的系統和方法。根據本申請的一些系統和方法，處理器可以獲取與運輸工具相關的駕駛資訊（例如，道路狀況資訊、障礙物資訊、地圖資訊），確定運輸工具的狀態（例如，速度、加速度、方向盤角度），基於駕駛資訊和運輸工具的狀態，藉由使用訓練好的控制模型（例如，深度確定性策略梯度（DDPG）網路模型），確定一個或多個候選控制信號和對應於一個或多個候選控制信號的一個或多個評估值，並基於一個或多個評估值，從一個或多個候選控制信號中選擇目標控制信號。進一步地，處理器可以將目標控制信號發送至運輸工具的控制元件。根據本申請的系統和方法，控制信號直接基於訓練好的模型而確定，可以提高自動駕駛系統的效率。

圖1係根據本申請的一些實施例所示的示例性自動駕駛系統的示意圖。在一些實施例中，自動駕駛系統100可以包括伺服器110、網路120、運輸工具130和儲存器140。

在一些實施例中，伺服器110可以是單個伺服器，也可以是伺服器組。伺服器組可以是集中式的或分散式的（例如，伺服器110可以是一分散式系統）。在一些實施例中，伺服器110可以是本地的，也可以是遠端的。例如，伺服器110可以經由網路120存取儲存在運輸工具130及/或儲存器140中的資訊及/或資料。又例如，伺服器110可以直接連接到運輸工具130及/或儲存器140以存取儲存資訊及/或資料。在一些實施例中，伺服器110可以在雲端平臺或車載電腦上實現。僅作為示例，該雲端平臺可以包括私有雲、公共雲、混合雲、社區雲、分佈雲、內部雲、多層雲或類似物或其任意組合。在一些實施例中，伺服器110可以在計算裝置200上實現，該計算裝置200包括本申請中的圖2中所示的一個或多個元件。

在一些實施例中，伺服器110可以包括處理引擎112。處理引擎112可以處理與駕駛資訊及/或運輸工具130的狀態相關的資訊及/或資料，以執行本申請中描述的一個或多個功能。例如，處理引擎112可以獲取與運輸工具130相關的駕駛資訊（例如，道路狀況資訊、障礙物資訊）及/或運輸工具130的狀態（例如，當前位置、當前速度）。處理引擎112可以基於駕駛資訊及/或運輸工具130的狀態確定控制信號。也就是說，處理引擎112可以被配置為運輸工具130的規劃元件。在一些實施例中，處理引擎112可包括一個或多個處理引擎（例如，單核心處理引擎或多核心處理器）。僅作為示例，處理引擎112可以包括中央處理單元（CPU）、特定應用積體電路（ASIC）、特定應用指令集處理器（ASIP）、圖形處理單元（GPU）、物理處理單元（PPU）、數位訊號處理器（DSP）、現場可程式閘陣列（FPGA）、可程式邏輯裝置（PLD）、控制器、微控制器單元、精簡指令集電腦（RISC）、微處理器或類似物或其任意組合。

在一些實施例中，伺服器110可以連接到網路120以與自動駕駛系統100的一個或多個元件（例如，運輸工具130、儲存器140）通訊。在一些實施例中，伺服器110可以直接連接到自動駕駛系統100的一個或多個元件（例如，運輸工具130、儲存器140）或與之通訊。在一些實施例中，伺服器110可以整合在運輸工具130中。例如，伺服器110可以是安裝在運輸工具130中的計算裝置（例如，車載電腦）。

網路120可以促進資訊及/或資料的交換。在一些實施例中，自動駕駛系統100的一個或多個元件（例如，伺服器110、運輸工具130或儲存器140）可以藉由網路120將資訊及/或資料發送至自動駕駛系統100的其他元件。例如，伺服器110可以經由網路120獲取與運輸工具130相關的駕駛資訊及/或運輸工具130的狀態。在一些實施例中，網路120可以是有線網路或無線網路或類似物或其任意組合。僅作為示例，網路120可以包括纜線網路、有線網路、光纖網路、電信網路、內部網路、網際網路、區域網路（LAN）、廣域網路（WAN）、無線區域網路（WLAN）、都會網路（MAN）、公共交換電話網路（PSTN）、藍牙網路、紫蜂網路、近場通訊（NFC）網路或類似物或其任意組合。在一些實施例中，網路120可以包括一個或多個網路存取點。例如，網路120可以包括有線或無線網路存取點，藉由該存取點，自動駕駛系統100的一個或多個元件可以連接到網路120以交換資料及/或資訊。

運輸工具130可以是任何類型的自動運輸工具。自動運輸工具能夠在沒有人為操縱的情況下感測環境資訊和導航。運輸工具130可以包括傳統運輸工具的結構。例如，運輸工具130可包括複數個控制元件，其被配置為控制運輸工具130的操作。複數個控制元件可以包括轉向裝置（例如，方向盤）、剎車裝置（例如，剎車踏板）、加速器等。轉向裝置可以被配置為調節運輸工具130的朝向及/或方向。剎車裝置可以被配置為執行剎車操作以停止運輸工具130。加速器可以被配置為控制運輸工具130的速度及/或加速度。

運輸工具130還可以包括複數個偵測單元，其被配置為偵測與運輸工具130相關的駕駛資訊。複數個偵測單元可以包括相機、全球定位系統（GPS）模組、加速度感測器（例如，壓電感測器）、速度感測器（例如，霍爾感測器）、距離感測器（例如，雷達、LIDAR、紅外線感測器）、轉向角感測器（例如，傾斜感測器）、牽引相關感測器（例如，力感測器）等。在一些實施例中，與運輸工具130相關的駕駛資訊可包括運輸工具130一定範圍內的感知資訊（例如，道路狀況資訊、障礙物資訊）、運輸工具130一定範圍內的地圖資訊等。

儲存器140可以儲存資料及/或指令。在一些實施例中，儲存器140可以儲存從運輸工具130獲取的資料，例如由複數個偵測單元獲取的駕駛資訊及/或運輸工具130的狀態。在一些實施例中，儲存器140可以儲存伺服器110用來執行或使用以完成本申請中描述的示例性方法的資料及/或指令。在一些實施例中，儲存器140可包括大容量儲存器、可移式儲存器、揮發性讀寫記憶體、唯讀記憶體（ROM）或類似物或其任意組合。示例性的大容量儲存器可以包括磁碟、光碟、固態磁碟等。示例性可移式儲存器可以包括快閃記憶體驅動器、軟碟、光碟、記憶卡、壓縮磁碟、磁帶等。示例性揮發性讀寫記憶體可以包括隨機存取記憶體（RAM）。示例性RAM可包括動態隨機存取記憶體（DRAM）、雙倍資料速率同步動態隨機存取記憶體（DDRSDRAM）、靜態隨機存取記憶體（SRAM）、閘流體隨機存取記憶體（T-RAM）和零電容隨機存取記憶體（Z-RAM）等。示例性唯讀記憶體可以包括遮罩式唯讀記憶體（MROM）、可程式唯讀記憶體（PROM）、可清除可程式唯讀記憶體（EPROM）、電子可清除可程式唯讀記憶體（EEPROM）、光碟唯讀記憶體（CD-ROM）和數位多功能影音光碟（digital versatile disk）唯讀記憶體等。在一些實施例中，儲存器140可在雲端平臺上實現。僅作為示例，該雲端平臺可以包括私有雲、公共雲、混合雲、社區雲、分佈雲、內部雲、多層雲或類似物或其任意組合。

在一些實施例中，儲存器140可以連接到網路120以與自動駕駛系統100的一個或多個元件（例如，伺服器110、運輸工具130）通訊。自動駕駛系統100的一個或多個元件可以藉由網路120存取儲存在儲存器140中的資料或指令。在一些實施例中，儲存器140可以直接連接到自動駕駛系統100的一個或多個元件（例如，伺服器110、運輸工具130）或與之通訊。在一些實施例中，儲存器140可以是伺服器110的一部分。在一些實施例中，儲存器140可以整合在運輸工具130中。

應當注意自動駕駛系統100僅僅是為了說明的目的而提供的，並不意圖限制本申請的範圍。對於本領域具有通常知識者來說，可以根據本申請的描述，做出多種修改或變化。例如，自動駕駛系統100還可以包括資料庫、資訊源等。又例如，自動駕駛系統100可以在其他裝置上實現類似或不同的功能。然而，這些變化和修改不會背離本申請的範圍。

圖2係根據本申請的一些實施例所示的示例性計算裝置的示例性硬體及/或軟體組件的示意圖。在一些實施例中，伺服器110可以在計算裝置200上實現。例如，處理引擎112可以在計算裝置200上實現並經配置以執行本申請所揭露的處理引擎112的功能。

計算裝置200可用於實現本申請的自動駕駛系統100的任何元件。例如，自動駕駛系統100的處理引擎112可以藉由其硬體、軟體程式、韌體或其組合在計算裝置200上實現。儘管為了方便僅示出了一個這樣的電腦，但是與這裡描述的自動駕駛系統100相關的電腦功能可以以分散式方式在多個類似平臺上實現以分散處理負荷。

例如，計算裝置200可以包括通訊埠250，連接到與其連接的網路（例如，網路120），以促進資料通訊。計算裝置200還可以包括處理器（例如，處理器220），其形式為一個或多個處理器（例如，邏輯電路），用於執行程式指令。例如，處理器可以包括介面電路和其中的處理電路。介面電路可以被配置為從匯流排210接收電信號，其中電信號編碼結構化資料及/或指令，用於處理電路的處理。處理電路可以進行邏輯計算，然後將結論、結果及/或指令編碼確定為電信號。然後，介面電路可以經由匯流排210從處理電路發出電信號。

計算裝置200可以進一步包括不同形式的程式儲存和資料儲存，例如磁碟270、唯讀記憶體（ROM）230或隨機存取記憶體（RAM）240，用於儲存由計算裝置200處理及/或傳輸的各種資料檔。該計算裝置200還可以包括由處理器220執行的儲存在ROM 230、RAM 240及/或其他類型的非暫時性儲存媒體中的程式指令。本申請的方法及/或流程可以以程式指令的方式實現。計算裝置200還包括輸入/輸出元件260，其支援計算裝置200與其中的其他元件之間的輸入/輸出。計算裝置200也可以藉由網路通訊接收程式設計和資料。

僅僅為了說明，在計算裝置200中僅描述了一個處理器。然而，應該注意的是，本申請中的計算裝置200還可以包括多個處理器，因此由本申請中描述的一個處理器執行的操作也可以由多個處理器聯合或單獨執行。例如，計算裝置200的處理器執行操作A和操作B。如在另一示例中，操作A和操作B也可以由計算裝置200中的兩個不同的處理器聯合或單獨地執行（例如，第一處理器執行操作A並且第二處理器執行操作B，或者第一和第二處理器共同執行操作A和B）。

圖3係根據本申請的一些實施例所示的示例性處理引擎的方塊圖。處理引擎112可包括獲取模組310、狀態確定模組320、候選控制信號確定模組330、目標控制信號確定模組340、傳輸模組350和訓練模組360。

獲取模組310可以被配置為獲取與運輸工具（例如，運輸工具130）相關的駕駛資訊。獲取模組310可以從運輸工具的偵測單元（例如，攝影機、雷達）、本申請中其他地方揭露的儲存裝置（例如，儲存器140）或外部資源（例如，交通導引平臺、新聞平臺）獲取駕駛資訊。獲取模組310可以根據某個時間間隔（例如，0.01秒、0.02秒、0.05秒）、即時地或基本上即時地獲取駕駛資訊。關於駕駛資訊的更多描述可以在本申請的其他地方找到（例如，圖4及其描述）。

狀態確定模組320可以被配置為確定運輸工具的狀態。狀態確定模組320可以根據某個時間間隔（例如，0.01秒、0.02秒、0.05秒）、即時地或基本上即時地確定運輸工具的狀態。關於運輸工具的狀態的更多描述可以在本申請的其他地方找到（例如，圖4及其描述）。

候選控制信號確定模組330可以被配置為基於駕駛資訊和運輸工具的狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號以及對應於一個或多個候選控制信號的一個或多個評估值。

目標控制信號確定模組340可以被配置為基於對應於一個或多個候選控制信號的一個或多個評估值，從一個或多個候選控制信號中選擇目標控制信號。在一些實施例中，目標控制信號確定模組340可以從對應於一個或多個候選控制信號的一個或多個評估值中識別最高評估值，並選擇對應於最高評估值的候選控制信號作為目標控制信號。在一些實施例中，目標控制信號確定模組340可以根據預定規則從一個或多個候選控制信號中選擇目標控制信號。

傳輸模組350可以被配置為將目標控制信號傳輸至運輸工具的一個或多個控制元件。例如，傳輸模組350可以將目標控制信號發送至轉向裝置以指示轉向裝置調節運輸工具的行駛方向。又例如，傳輸模組350可以將目標控制信號發送至剎車裝置及/或加速器，以指示剎車裝置及/或加速器調節運輸工具的行駛速度。

訓練模組360可以被配置為基於與樣本運輸工具相關的樣本駕駛資訊和樣本運輸工具的樣本狀態確定訓練好的控制模型（例如，訓練好的DDPG網路模型）。關於訓練好的控制模型的更多描述可以在本申請的其他地方找到（例如，圖5-7及其描述）。

處理引擎112中的模組可以經由有線連接或無線連接彼此連接或通訊。有線連接可以包括金屬纜線、光纜、混合纜線或類似物或其任意組合。無線連接可以包括區域網路（LAN）、廣域網路（WAN）、藍牙、紫蜂、近場通訊（NFC）或類似物或其任意組合。兩個或更多的模組可以被組合為單個模組，且模組中的任一個可以被分成兩個或更多的單元。例如，獲取模組310和狀態確定模組320可以組合為單個模組，其可以獲取與運輸工具相關的駕駛資訊和運輸工具的狀態。又例如，候選控制信號確定模組330和目標控制信號確定模組340可以組合為單個模組，其可以確定一個或多個候選控制信號和目標控制信號。再例如，處理引擎112可以包括儲存模組（未示出），其用於儲存與運輸工具相關的資訊及/或資料（例如，與運輸工具相關的駕駛資訊、運輸工具的狀態）。再例如，訓練模組360可以是不必要的，訓練好的控制模型可以從儲存裝置（例如，儲存器140）獲取，例如本申請中其他地方揭露的儲存裝置。

圖4係根據本申請的一些實施例所示的用於確定目標控制信號的示例性流程的流程圖。流程400可以由自動駕駛系統100執行。例如，流程400可以實現為儲存在儲存器ROM 230或RAM 240中的一組指令。處理器220及/或圖3中的模組可以執行該組指令，並且當執行該指令時，處理器220及/或模組可以被配置為執行流程400。以下所示流程的操作僅出於說明的目的。在一些實施例中，在完成流程400時，可以添加一個或多個未描述的附加操作，及/或刪減一個或多個此處所討論的操作。另外，圖4中示出並在下面描述的流程400的操作的順序並非限制性的。

在410中，處理引擎112（例如，獲取模組310）（例如，處理器220的介面電路）可以獲取與運輸工具（例如，運輸工具130）相關的駕駛資訊。處理引擎112可以從運輸工具的偵測單元（例如，攝影機、雷達）、本申請中其他地方揭露的儲存裝置（例如，儲存器140）或外部資源（例如，交通導引平臺、新聞平臺）獲取駕駛資訊。處理引擎112可以根據某個時間間隔（例如，0.01秒、0.02秒、0.05秒）、即時地或基本上即時地獲取駕駛資訊。

在一些實施例中，與運輸工具相關的駕駛資訊可以包括運輸工具的第一預定範圍內的感知資訊、運輸工具的第一預定範圍內的地圖資訊或類似物或其任意組合。第一預定範圍可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。例如，第一預定範圍可以是以運輸工具的當前位置為中心的區域（例如，圓形、矩形、正方形、三角形、多邊形）。

在一些實施例中，處理引擎112可以從運輸工具的偵測單元（例如，攝影機、雷達）獲取感知資訊。感知資訊可以包括道路狀況資訊、障礙物資訊或類似物或其任意組合。道路狀況資訊可以包括道路寬度、道路長度、道路類型（例如，高速公路、環形道路、支線、天橋、單向道路、雙向道路）、車道資訊、交通標誌（例如，路標）、交通號誌燈資訊、行人穿越道資訊或類似物或其任意組合。障礙物資訊可以包括障礙物的類型（例如，運輸工具、行人、動物、建築物、樹木、路障）、障礙物的位置、障礙物的大小、障礙物的速度、運輸工具的當前位置與障礙物的位置之間的距離或類似物或其任意組合。

在一些實施例中，處理引擎112可以從儲存裝置（例如，儲存器140）獲取地圖資訊，例如本申請中其他地方揭露的儲存裝置。如本文所使用的，在一些實施例中，地圖資訊可以是包括在高解析度地圖（例如，HD地圖）中的資訊，其指示道路狀況資訊的高解析度表達。

在420中，處理引擎112（例如，狀態確定模組320）（例如，處理器220的處理電路）可以確定運輸工具的狀態。處理引擎112可以根據某個時間間隔（例如，0.01秒、0.02秒、0.05秒等）、即時地或基本上即時地確定運輸工具的狀態。

在一些實施例中，運輸工具的狀態可以包括運輸工具的當前位置、運輸工具的速度（例如，瞬間速度、預定時間段內的平均速度）、運輸工具的加速度（例如，瞬間加速度、預定時間段內的平均加速度）、運輸工具的方向盤的角度或類似物或其任意組合。如本文所使用的，「速度」包括「幅度」資訊及/或「方向」資訊。例如，運輸工具的速度可以表示為「70km/h，30°」，其表示速度的大小是70km/h，速度的方向是與水準方向成30°角的方向。類似地，「加速度」也包括「幅度」資訊及/或「方向」資訊。在一些實施例中，運輸工具的狀態還可包括剩餘電量、剩餘汽油量、油溫、氣壓、輪胎壓力等。

在一些實施例中，處理引擎112可以從運輸工具的偵測單元獲取運輸工具的狀態。例如，處理引擎112可以從加速度感測器獲取運輸工具的加速度。又例如，處理引擎112可以從轉向角感測器獲取方向盤的角度，該角度反映運輸工具的瞬間轉向角。

在430中，處理引擎112（例如，候選控制信號確定模組330）（例如，處理器220的處理電路）可以基於駕駛資訊及運輸工具的狀態，藉由使用訓練好的模型，確定一個或多個候選控制信號及對應於一個或多個候選控制信號的一個或多個評估值。如本文所使用的，對應於特定控制信號的評估值指的是體現對運輸工具行駛流程的綜合獎勵（也稱為「預期獎勵」）的值，該綜合獎勵與特定控制信號相關。

在一些實施例中，控制信號可以指被配置為控制運輸工具操作的指令。在一些實施例中，控制信號可包括複數個控制參數（例如，與加速器或剎車裝置相關的控制參數、轉向控制參數）。例如，控制信號可以表示為S（X，Y），其中X表示與加速器或剎車裝置相關的控制參數（例如，開啟程度），Y表示轉向控制參數（例如，方向盤角度）。如本文所使用的，對於「開啟程度」，正值表示加速器操作，負值表示剎車操作；對於「方向盤角度」，正值表示「向右轉」，負值表示「向左轉」。

在一些實施例中，處理引擎112可以從訓練模組360或本申請中其他地方揭露的儲存裝置（例如，儲存器140）中獲取訓練好的控制模型。在一些實施例中，訓練好的控制模型可以包括深度確定性策略梯度（DDPG）網路模型。DDPG網路模型可以是強化學習模型，其可用於與連續信號問題相關的機器學習中。藉由訓練好的控制模型，可以繞過多因素分析流程中決策確定的某些態樣，允許直接確定信號以控制運輸工具的操作。關於訓練好的控制模型的更多描述可以在本申請的其他地方找到（例如，圖5-7及其描述）。

處理引擎112（例如，候選控制信號確定模組330）（例如，處理器220中的處理電路）可以用不同的方法確定一個或多個候選控制信號和一個或多個評估值，所有這些都涉及訓練好的控制模型。在一些實施例中，對於何種控制信號可以成為候選控制信號並沒有限制。在一些實施例中，處理引擎112可以使用預過濾方法確定候選控制信號，即可以在不經過訓練好的控制模型之前繞過某些控制信號，並且不會成為候選控制信號。例如，本申請的系統和方法可以包括對應於所討論的運輸工具的基本規格的篩檢程式。這種規格可包括參數，例如但不限於最大速度、最大加速度、最大剎車功率、最大轉彎角度（在某一速度下）等。可以使用篩檢程式，使得超過某個參數臨界值（例如，最大速度的75％、最大加速度的75％、最大剎車功率的75％或最大轉彎角度的75％）的控制信號不能成為候選控制信號。還可以基於運輸工具的特定年份和模型、運輸工具的里程數及/或運輸工具狀況的預定綜合評估來調整這些參數。藉由對控制信號使用預過濾方法，可以避免危險及/或極端破壞類型的控制信號，並且訓練好的控制模型需要處理更少的資料，允許對運輸工具進行快速和更即時的控制。在該方法的基礎上，在一些實施例中，如果滿足條件，則可以抑制或繞過預過濾，尤其是當安全受到威脅並且所有候選控制信號都不能提供令人滿意的評估值時。

在440中，處理引擎112（例如，目標控制信號確定模組340）（例如，處理器220的處理電路）可以基於一個或多個評估值，從一個或多個候選控制信號中選擇目標控制信號。

在一些實施例中，處理引擎112可以從對應於一個或多個候選控制信號的一個或多個評估值中識別最高評估值，並選擇對應於最高評估值的候選控制信號作為目標控制信號。

在一些實施例中，處理引擎112可以根據一個或多個預定規則，從一個或多個候選控制信號中選擇目標控制信號。預定規則可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。例如，可以假設處理引擎112確定了兩個候選控制信號S₁ （X₁ ，Y₁ ）和S₂ （X₂ ，Y₂ ），其中X₁ 的絕對值小於X₂ 的絕對值，Y₁ 的絕對值小於Y₂ 的絕對值。在這種情況下，處理引擎112可以選擇候選控制信號S₁ （X₁ ，Y₁ ）作為目標控制信號。

處理引擎112（例如，目標控制信號確定模組340）（例如，處理器220的處理電路）可以藉由多步驟流程選擇目標控制信號。例如，在一些實施例中，處理引擎112可以在第一步驟使用評估值以減少候選控制信號，然後使用某些預定規則完成選擇。又例如，在一些實施例中，處理引擎112可以使用某些預定規則來移除一些候選控制信號，然後基於評估值選擇候選控制信號作為目標控制信號。在某些情況下，後一種方法可能會阻止選擇某種候選控制信號，這種候選控制信號呈現「通常」令人滿意的結果，但也會導致某些損害或後果，從某種角度來看，這些損害或後果涉及長期及/或無法彌補的損失。

在450中，處理引擎112（例如，傳輸模組350）（例如，處理器220的介面電路）可以將目標控制信號發送至一個或多個控制元件。例如，處理引擎112可以將目標控制信號發送至轉向裝置以指示轉向裝置調整運輸工具的行駛方向。又例如，處理引擎112可將目標控制信號發送至剎車裝置及/或加速器，以指示剎車裝置及/或加速器調節運輸工具的行駛速度。

需要注意的是，以上描述僅為描述方便，並不能把本申請限制在所舉實施例範圍之內。對於本領域具有通常知識者來說，可以根據本申請的描述，做出各種各樣的變化和修改。然而，這些變化和修改不會背離本申請的範圍。例如，可以在流程400中的其他地方添加其他可選操作（例如，儲存操作）。在儲存操作中，處理引擎112可以在本申請中其他地方揭露的儲存器（例如，儲存器140）中儲存與運輸工具相關的資訊及/或資料（例如，與運輸工具相關的駕駛資訊、運輸工具的狀態、候選控制信號）。又例如，可以同時執行操作410和420。

圖5係根據本申請的一些實施例所示的用於確定訓練好的控制模型的示例性流程的流程圖。流程500可以由自動駕駛系統100執行。例如，流程500可以實現為儲存在儲存器ROM 230或RAM 240中的一組指令。處理器220及/或訓練模組360可以執行該組指令，並且當執行該指令時，處理器220及/或訓練模組360可以被配置為執行流程500。以下所示流程的操作僅出於說明的目的。在一些實施例中，在完成流程500時，可以添加一個或多個未描述的附加操作及/或刪減一個或多個此處所討論的操作。另外，圖5中示出並在下面描述的流程500的操作的順序並非限制性的。

在510中，處理引擎112（例如，訓練模組360）（例如，處理器220的介面電路）可以獲取初始模型（例如，初始深度確定性策略梯度（DDPG）網路模型）。處理引擎112可以藉由網路120從本申請中其他地方揭露的儲存裝置（例如，儲存器140）及/或外部資料源（未示出）中獲取初始控制模型。初始控制模型可以包括一個或多個初始參數，其可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。

在520中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以獲取與樣本運輸工具相關的初始樣本駕駛資訊。在一些實施例中，樣本運輸工具具有與運輸工具130類似的特徵（例如，運輸工具類型、運輸工具型號、運輸工具年份、運輸工具重量、引擎功率）。

如結合操作410所述，與樣本運輸工具相關的初始樣本駕駛資訊可以包括樣本運輸工具的第二預定範圍內的初始樣本感知資訊、樣本運輸工具的第二預定範圍內的初始樣本地圖資訊或類似物或其任意組合。在一些實施例中，結合操作410所描述，第二預定範圍可以與第一預定範圍相同或不同。初始樣本感知資訊可以包括初始樣本道路狀況資訊、初始樣本障礙物資訊或類似物或其任意組合。在一些實施例中，與樣本運輸工具相關的初始樣本駕駛資訊可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。

在530中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以確定樣本運輸工具的初始樣本狀態。

如結合操作420所述，樣本運輸工具的初始樣本狀態可以包括樣本運輸工具的初始樣本速度（例如，初始樣本瞬間速度、預定時間段內的初始樣本平均速度）、樣本運輸工具的初始樣本加速度（例如，初始樣本瞬間加速度、預定時間段內的初始樣本平均加速度）、樣本運輸工具的方向盤的初始樣本角或類似物或其任意組合。在一些實施例中，樣本運輸工具的初始樣本狀態還可以包括初始樣本剩餘電量、初始樣本剩餘汽油量、初始樣本油溫、初始樣本氣壓、初始樣本輪胎壓力等。在一些實施例中，樣本運輸工具的初始狀態可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。

在540中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以基於初始樣本駕駛資訊、樣本運輸工具的初始樣本狀態和初始控制模型確定初始樣本控制信號。在一些實施例中，處理引擎112可以基於初始控制模型中的初始動作神經網路確定控制信號。如結合操作430所述，初始樣本控制信號包括複數個控制參數（例如，與加速器或剎車裝置相關的控制參數、轉向控制參數）。例如，假設初始樣本駕駛資訊指示在樣本運輸工具前方存在障礙物，處理引擎112可以根據初始控制模型確定用於減慢樣本運輸工具的初始樣本控制信號。

在550中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以根據對應於該初始樣本控制信號的初始獎勵值，確定與初始控制模型相關的初始樣本評估值。在一些實施例中，處理引擎112可以基於初始控制模型中的初始評價神經網路確定對應於初始樣本控制信號的初始樣本評估值。如本文所使用的，以特定樣本控制信號為例，對應於該特定樣本控制信號的獎勵值可以是用於評估該特定樣本控制信號對樣本運輸工具的駕駛過程貢獻的參數。同時以特定反覆運算中的特定樣本控制信號為例，對應於該特定樣本控制信號的評估值可以是截止到該特定反覆運算為止，體現對樣本運輸工具的駕駛流程的綜合獎勵（也稱為「預期獎勵」）的值，該綜合獎勵與該特定樣本控制信號相關。

在一些實施例中，初始獎勵值可以和與初始樣本控制信號相關的碰撞條件、車道狀況、停止條件或類似物或其任意組合相關。

例如，處理引擎112可以確定在初始樣本控制信號作用下，樣本運輸工具與障礙物（指的是最接近樣本運輸工具的障礙物）之間的距離（也稱為「障礙物距離」），並且基於距離確定對應於初始樣本控制信號的初始獎勵值。在一些實施例中，處理引擎112可以定義特定範圍（例如，0~1），將樣本運輸工具和障礙物之間的距離映射到該特定範圍，並指定對應的映射值作為對應於初始樣本控制信號的初始獎勵值。例如，假設樣本運輸工具與障礙物之間的距離長於第一距離臨界值（例如，0.5 m），處理引擎112可以確定對應於初始樣本控制信號的初始獎勵值為1；然而，假設樣本運輸工具與障礙物之間的距離小於第二距離臨界值（例如，0.01 m）（或樣本運輸工具與障礙物碰撞），處理引擎112可以確定對應於初始樣本控制信號的初始獎勵值為0。相應地，樣本運輸工具與障礙物之間的距離越長，對應於初始樣本控制信號的初始獎勵值可能越高。第一距離臨界值及/或第二距離臨界值可以是自動駕駛系統100的默認設置，或者可以在不同情況可調節。

又例如，處理引擎112可以確定在初始樣本控制信號作用下，樣本運輸工具與其所在車道中心線之間的距離（也稱為「車道距離」），並基於距離確定對應於初始樣本控制信號的初始獎勵值。類似地，處理引擎112也可以定義特定範圍（例如，0~1），將樣本運輸工具與車道中心線之間的距離映射到特定範圍，並指定對應的映射值作為對應於初始樣本控制信號的初始獎勵值。例如，假設樣本運輸工具與車道中心線之間的距離長於第三距離臨界值（例如，0.5 m），處理引擎112可以確定對應於初始樣本控制信號的初始獎勵值為1；然而，假設樣本運輸工具與車道中心線之間的距離小於第四距離臨界值（例如，0.01 m），處理引擎112可以確定對應於初始樣本控制信號的初始獎勵值為0。相應地，樣本運輸工具與車道中心線之間的距離越長，對應於初始樣本控制信號的初始獎勵值可能越高。第三距離臨界值及/或所述第四距離臨界值可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。

再例如，處理引擎112可以確定在初始樣本控制信號作用下，樣本運輸工具是否滿足停止條件（例如，紅燈、人行道）。回應於確定在初始樣本控制信號作用下，樣本運輸工具滿足停止條件，處理引擎112可以確定對應於初始樣本控制信號的初始獎勵值為1。回應於確定在初始樣本控制信號作用下，樣本運輸工具不滿足停止條件，處理引擎112可以確定對應於初始樣本控制信號的初始獎勵值為0。

在一些實施例中，處理引擎112可以基於上述初始獎勵值（也可以稱為「候選初始獎勵值」），確定綜合獎勵值。例如，處理引擎112可以將候選初始獎勵值的總和確定為綜合獎勵值。又例如，處理引擎112可以將候選初始獎勵值的平均值（或加權平均值）確定為綜合獎勵值。

在一些實施例中，處理引擎112可以根據以下公式（1），基於動作效用函數（也稱為Q函數）確定與初始控制模型相關的初始樣本評估值：

（1）其中

指的是第i 次反覆運算中的樣本控制信號；

指的是第i 次反覆運算中樣本運輸工具的樣本狀態；

指的是與第i 次反覆運算中的控制模型相關的樣本評估值；

指的是與先前反覆運算中的控制模型相關的樣本評估值（在第一次反覆運算中，樣本評估值可以是預設值）；

指的是對應於第i 次反覆運算的與控制模型相關的最佳樣本評估值；

指的是學習率；

指的是在第i 次反覆運算中對應於樣本控制信號的獎勵值；

指的是折扣因數（例如，0~1內的值）。在一些實施例中，學習率及/或折扣因數可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。在一些實施例中，可以基於在複數個先前反覆運算中確定的複數個樣本評估值確定對應於第i 次反覆運算的最佳樣本評估值。例如，最佳評估值可以是在複數個先前反覆運算中確定的複數個樣本評估值的平均值。又例如，最佳評估值可以是在複數個先前反覆運算確定的複數個樣本評估值中的最高樣本評估值。

在560中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以判斷初始樣本評估值是否滿足預設條件。

在一些實施例中，處理引擎112可以確定初始樣本評估值是否高於第一臨界值。回應於確定初始樣本評估值高於第一臨界值，處理引擎112可以確定初始樣本評估值滿足預設條件。回應於確定初始樣本評估值小於或等於第一臨界值，處理引擎112可以確定初始樣本評估值不滿足預設條件。

在一些實施例中，處理引擎112可以確定反覆運算次數是否高於第二臨界值。回應於確定反覆運算次數高於第二臨界值，處理引擎112可以確定初始樣本評估值滿足預設條件。回應於確定反覆運算次數小於或等於第二臨界值，處理引擎112可以確定初始樣本評估值不滿足預設條件。第一臨界值及/或第二臨界值可以是自動駕駛系統100的默認設置，或者可以在不同情況下可調節。

在一些實施例中，處理引擎112可以確定初始控制模型的損失函數，並基於初始樣本評估值確定損失函數的值。進一步地，處理引擎112可以確定損失函數的值是否小於損失臨界值。回應於確定損失函數的值小於損失臨界值，處理引擎112可以確定初始樣本評估值滿足預設條件。回應於確定損失函數的值大於或等於損失臨界值，處理引擎112可以確定初始樣本評估值不滿足預設條件。

回應於確定初始樣本評估值滿足預設條件，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以在570中將初始控制模型指定為訓練好的控制模型。

回應於確定初始樣本評估值不滿足預設條件，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以執行流程500到操作580以執行一個或多個反覆運算以更新初始控制模型，直到更新後的樣本評估值滿足預設條件。下面在圖6中描述一個示例性反覆運算流程。

在610中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以基於先前反覆運算中的獎勵值確定更新後的控制模型。

在一些實施例中，處理引擎112可以藉由更新先前反覆運算中的控制模型的一個或多個參數（例如，初始控制模型的一個或多個初始參數），確定更新後的控制模型，其中，在更新後的一個或多個參數下，獎勵值及/或樣本評估值可以被提升。

在620中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以獲取與樣本運輸工具相關的更新後的樣本駕駛資訊。

在630中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以基於先前反覆運算中的樣本控制信號和先前反覆運算中的樣本運輸工具的樣本狀態，估計樣本運輸工具的更新後的樣本狀態。

在一些實施例中，處理引擎112可以根據模擬模型，基於先前反覆運算中的樣本控制信號和先前反覆運算中的樣本運輸工具的樣本狀態，估計樣本運輸工具的更新後的樣本狀態。在一些實施例中，模擬模型可以配置樣本運輸工具的一個或多個特徵（例如，運輸工具類型、運輸工具重量、運輸工具型號、運輸工具年份、引擎功率、剎車效率）、道路狀況資訊、障礙物資訊、地圖資訊或類似物或其任意組合。處理引擎112可以基於模擬模型來模擬樣本運輸工具的操作，並且基於模擬結果確定樣本運輸工具的更新後的樣本狀態。

在640中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以基於更新後的樣本駕駛資訊、樣本運輸工具的更新後的樣本狀態和更新後的控制模型，確定更新後的樣本控制信號。例如，處理引擎112可以將更新後的樣本駕駛資訊和樣本運輸工具的更新後的樣本狀態輸入到更新後的控制模型中。處理引擎112可以基於更新後的控制模型的輸出確定更新後的樣本控制信號。

在650中，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以基於先前反覆運算中對應於更新後的樣本控制信號的更新後的獎勵值以及樣本評估值，確定與更新後的控制模型相關的更新後的樣本評估值。例如，處理引擎112可以根據公式（1）確定更新後的樣本評估值。

在660中，如操作560所述，處理引擎112（例如，訓練模組360）（例如，處理器220的處理電路）可以確定更新後的樣本評估值是否滿足預設條件。

在一些實施例中，處理引擎112還可以確定更新後的控制模型是否是收斂的。例如，處理引擎112可以確定更新後的樣本評估值和先前反覆運算中的樣本評估值之間的差值是否小於差值臨界值。回應於確定差值小於差值臨界值，處理引擎112可以確定更新後的控制模型是收斂的，進而，處理引擎112可以確定更新後的樣本評估值滿足預設條件。回應於確定差值大於或等於差值臨界值，處理引擎112可以確定更新後的樣本評估值不滿足預設條件。

回應於確定更新後的樣本評估值滿足預設條件，處理引擎112可以在670中將更新後的控制模型指定為訓練好的控制模型。

回應於確定更新後的樣本評估值不滿足預設條件，處理引擎112可執行流程600以返回操作610以更新更新後的控制模型（即，開始下一次反覆運算），直到更新後的樣本評估值滿足預設條件。

在一些實施例中，對應於樣本控制信號的獎勵值可以與在樣本控制信號作用下的樣本運輸工具的其他特徵（例如，速度、加速度）相關。在一些實施例中，處理引擎112可以定義各種類型的獎勵值，並且基於各種類型的獎勵值確定各種類型的控制模型。在實際應用中，使用者可以根據具體要求選擇特定的控制模型。

需要注意的是，以上描述僅為描述方便，並不能把本申請限制在所舉實施例範圍之內。對於本領域具有通常知識者來說，可以根據本申請的描述，做出各種各樣的變化和修改。然而，這些變化和修改不會背離本申請的範圍。例如，可以在流程500及/或流程600中的其他地方添加一個或多個其他可選操作（例如，儲存操作）。在儲存操作中，處理引擎112可以在本申請的其他地方揭露的儲存器（例如，儲存器140）中儲存與樣本運輸工具相關的資訊及/或資料（例如，樣本駕駛資訊、樣本運輸工具的樣本狀態）。又例如，可以同時執行操作520和530。再例如，可以同時執行操作620和630。

圖7係根據本申請的一些實施例所示的用於訓練深度確定性策略梯度（DDPG）網路模型的示例性流程的示意圖。

如圖7所示，DDPG網路模型包括動作神經網路和評價神經網路，「環境」是指樣本運輸工具所處的場景，我們可以假設「環境」是陸地交通場景。根據本申請，已知訓練流程包括一個或多個的反覆運算，這裡描述第i 次反覆運算作為示例。具體地，處理引擎112可以確定樣本運輸工具在時間點t 的樣本狀態

（例如，位置、速度）。處理引擎112可以根據第i 次反覆運算中的動作神經網路，基於樣本運輸工具的樣本狀態

（為方便起見，此處省略了樣本駕駛資訊），為樣本運輸工具確定對應於時間點t 的樣本控制信號

。進一步地，處理引擎112可以確定對應於樣本控制信號

的獎勵值

，並且同時或相繼地，處理引擎112可以根據評價神經網路，確定與對應於樣本控制信號

的與DDPG網路模型相關的樣本評估值

。結合操作560所描述的，處理引擎112可以確定樣本評估值

是否滿足預設條件。回應於確定樣本評估值

滿足預設條件，處理引擎112可以將第i 次反覆運算中的DDPG網路模型指定為最終訓練好的DDPG模型。回應於確定樣本評估值

不滿足預設條件，處理引擎112可以開始下一次反覆運算，直到更新後的樣本評估值滿足預設條件。

上文已對基本概念做了描述，顯然，對於閱讀此申請後的本領域具有通常知識者來說，上述申請揭露僅作為示例，並不構成對本申請的限制。雖然此處並未明確說明，但本領域具有通常知識者可能會對本申請進行各種修改、改進和修正。該類修改、改進和修正在本申請中被建議，所以該類修改、改進、修正仍屬於本申請示範實施例的精神和範圍。

同時，本申請使用了特定詞語來描述本申請的實施例。例如「一個實施例」、「一實施例」及/或「一些實施例」意指與本申請至少一個實施例相關的某一特徵、結構或特性。因此，應當強調並注意的是，本說明書中在不同位置兩次或更多次提及的「一實施例」或「一個實施例」或「一替代性實施例」並不一定是指同一實施例。此外，本申請的一個或多個實施例中的某些特徵、結構或特點可以進行適當的組合。

此外，本領域具有通常知識者可以理解，本申請的各態樣可以藉由若干具有可專利性的種類或情況進行說明和描述，包括任何新的和有用的流程、機器、產品或物質的組合，或對其任何新的和有用的改進。相應地，本申請的各個態樣可以完全由硬體執行，可以完全由軟體（包括韌體、常駐軟體、微代碼等）執行，也可以由硬體和軟體組合執行。以上硬體或軟體均可被稱為「單元」、「模組」或「系統」。此外，本申請的各態樣可以採取體現在一個或多個電腦可讀取媒體中的電腦程式產品的形式，其中電腦可讀取程式碼體現在其中。

電腦可讀取信號媒體可能包含一個內含有電腦程式碼的傳播資料信號，例如在基頻上或作為載波的一部分。此類傳播信號可以有多種形式，包括電磁形式、光形式或類似物或任何合適的組合形式。電腦可讀取信號媒體可以是除電腦可讀取儲存媒體之外的任何電腦可讀取媒體，該媒體可以藉由連接至一個指令執行系統、器械或裝置以實現通訊、傳播或傳輸供使用的程式。於電腦可讀取信號媒體上體現的程式碼可以藉由任何合適的媒體進行傳播，包括無線電、纜線、光纖纜線、RF或類似物，或任何上述媒體的組合。

本申請各部分操作所需的電腦程式碼可以用任意一種或多種程式設計語言編寫，包括物件導向程式設計語言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB. NET、Python或類似物，常規程式化程式設計語言如C程式設計語言、Visual Basic、Fortran 2103、Perl、COBOL 2102、PHP、ABAP，動態程式設計語言如Python、Ruby和Groovy，或其他程式設計語言等。該程式碼可以完全在使用者電腦上運行，或作為獨立的軟體包在使用者電腦上運行，或部分在使用者電腦上運行部分在遠端電腦運行，或完全在遠端電腦或伺服器上運行。在後種情況下，遠端電腦可以藉由任何網路形式與使用者電腦連接，比如區域網路（LAN）或廣域網路（WAN），或連接至外部電腦（例如藉由網際網路），或在雲端計算環境中，或作為服務使用如軟體即服務（SaaS）。

此外，除非申請專利範圍中明確說明，本申請所述處理元素和序列的順序，數字、字母或其他名稱的使用，並非用於限定本申請流程和方法的順序。儘管上述揭露中藉由各種示例討論了一些目前認為有用的申請實施例，但應當理解的是，該類細節僅起到說明的目的，附加的申請專利範圍並不僅限於揭露的實施例，相反，申請專利範圍旨在覆蓋所有符合本申請實施例實質和範圍的修正和均等組合。例如，雖然以上所描述的系統元件可以在硬體裝置中而被具體化，但是也可以實現為只有軟體的解決方案，如在現有伺服器或行動裝置上的安裝。

同理，應當注意的是，為了簡化本申請揭露的表述，從而幫助對一個或多個申請實施例的理解，前文對本申請的實施例的描述中，有時會將多種特徵歸併至一個實施例、圖式或對其的描述中。然而，此揭露方式不應被解釋為反映所主張的發明標的需要比每個請求項中所明確記載的特徵還要多的意圖。實際上，所主張的發明標的的特徵要少於上述揭露的單個實施例的全部特徵。

一些實施例中使用了描述成分、屬性數量的數字，應當理解的是，此類用於實施例描述的數字，在一些示例中使用了修飾詞「大約」、「近似」或「大體上」來修飾。除非另外說明，「大約」、「近似」或「大體上」表明所述數字允許有±20%的變化。相應地，在一些實施例中，說明書和申請專利範圍中使用的數值參數均為近似值，該近似值根據個別實施例所需特點可以發生改變。在一些實施例中，數值參數應考慮規定的有效位數並採用一般位數保留的方法。儘管本申請一些實施例中用於確認其範圍廣度的數值域和參數為近似值，在具體實施例中，此類數值的設定在可行範圍內盡可能精確。

本文中提及的所有專利、專利申請案、專利申請案的公開本和其他材料（如論文、書籍、說明書、出版物、記錄、事物及/或類似的東西）均在此藉由引用的方式全部併入本文以達到所有目的，與上述文件相關的任何申請文件歷史記錄、與本文不一致或衝突的任何上述文件或對可能與本文相關的申請專利範圍的廣泛範疇有限定作用的任何上述文件除外。舉例來說，如果任何併入材料相關的與本文相關的描述、定義及/或術語使用之間有任何不一致或衝突，那麼本文中的描述、定義及/或術語使用應當優先。

最後，應當理解的是，本申請中所述實施例僅用以說明本申請實施例的原則。其他的變形也可以屬於本申請的範圍。因此，作為示例而非限制，本申請實施例的替代配置可視為與本申請的教導一致。相應地，本申請的實施例不僅限於本申請明確介紹和描述的實施例。

100:自動駕駛系統 110:伺服器 112:處理引擎 120:網路 130:運輸工具 140:儲存器 200:計算裝置 210:匯流排 220:處理器 230:唯讀記憶體 240:隨機存取記憶體 250:通訊埠 260:輸入/輸出元件 270:磁碟 310:獲取模組 320:狀態確定模組 330:候選控制信號確定模組 340:目標控制信號確定模組 350:傳輸模組 360:訓練模組 400:流程 410:操作 420:操作 430:操作 440:操作 450:操作 500:流程 510:操作 520:操作 530:操作 540:操作 550:操作 560:操作 570:操作 580:操作 600:流程 610:操作 620:操作 630:操作 640:操作 650:操作 660:操作 670:操作

本申請將藉由示例性實施例進行進一步描述。這些示例性實施例將藉由圖式進行詳細描述。這些實施例是非限制性的示例性實施例，在這些實施例中，各圖中相同的元件符號表示相似的結構，其中：

圖1係根據本申請的一些實施例所示的示例性自動駕駛系統的示意圖；

圖2係根據本申請的一些實施例所示的示例性計算裝置的示例性硬體及/或軟體組件的示意圖；

圖3係根據本申請的一些實施例所示的示例性處理引擎的方塊圖；

圖4係根據本申請的一些實施例所示的用於確定目標控制信號的示例性流程的流程圖；

圖5係根據本申請的一些實施例所示的用於確定訓練好的控制模型的示例性流程的流程圖；

圖6係根據本申請的一些實施例所示的用於確定訓練好的控制模型的示例性流程的流程圖；以及

400:流程

410:操作

420:操作

430:操作

440:操作

450:操作

Claims

一種用於自動駕駛的系統，包括：包括一組指令的至少一個儲存媒體；以及與所述至少一個儲存媒體通訊的至少一個處理器，其中，當執行該組指令時，所述至少一個處理器用於使所述系統：獲取與運輸工具相關的駕駛資訊；確定所述運輸工具的狀態；基於所述駕駛資訊和所述運輸工具的所述狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號和對應於所述一個或多個候選控制信號的一個或多個評估值；基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇目標控制信號；以及將所述目標控制信號發送至所述運輸工具的控制元件；其中，所述候選控制信號指被配置為控制運輸工具操作的指令。
如申請專利範圍第1項之系統，其中，與所述運輸工具相關的所述駕駛資訊包括所述運輸工具的第一預定範圍內的感知資訊和所述運輸工具的所述第一預定範圍內的地圖資訊。
如申請專利範圍第2項之系統，其中，所述感知資訊包括道路狀況資訊和障礙物資訊。
如申請專利範圍第1至3項中任一項之系統，其中，所述運輸工具的所述狀態包括所述運輸工具的速度、所述運輸工具的加速度和所述運輸工具的方向盤角度。
如申請專利範圍第1至3項中任一項之系統，其中，所述訓練好的控制模型由訓練流程確定，所述訓練流程包括：獲取初始控制模型；獲取初始樣本駕駛資訊，所述初始樣本駕駛資訊包括樣本運輸工具的第二預定範圍內的初始樣本感知資訊和所述樣本運輸工具的所述第二預定範圍內的初始樣本地圖資訊；獲取所述樣本運輸工具的初始樣本狀態；基於所述初始樣本駕駛資訊、所述樣本運輸工具的所述初始樣本狀態以及所述初始控制模型，確定初始樣本控制信號；基於對應於所述初始樣本控制信號的初始獎勵值，確定與所述初始控制模型相關的初始樣本評估值，其中，所述初始獎勵值和與所述初始樣本控制信號相關的碰撞條件、與所述初始樣本控制信號相關的車道狀況或與所述初始樣本控制信號相關的停止條件中的至少一個相關；確定所述初始樣本評估值是否滿足預設條件；以及回應於確定所述初始樣本評估值滿足所述預設條件，指定所述初始控制模型為所述訓練好的控制模型。
如申請專利範圍第5項之系統，其中，所述訓練流程進一步包括：回應於確定所述初始樣本評估值不滿足所述預設條件，執行一個或多個反覆運算以更新所述初始控制模型，直到更新後的樣本評估值滿足所述預設條件，其中，所述一個或多個反覆運算中的每個反覆運算包括：基於先前反覆運算中的獎勵值確定更新後的控制模型；獲取更新後的樣本駕駛資訊；基於所述先前反覆運算中的樣本控制信號和所述先前反覆運算中的所述樣本運輸工具的樣本狀態，估計所述樣本運輸工具的更新後的樣本狀態；基於所述更新後的樣本駕駛資訊、所述樣本運輸工具的所述更新後的樣本狀態以及所述更新後的控制模型，確定更新後的樣本控制信號；基於對應於所述更新後的樣本控制信號的更新後的獎勵值和所述先前反覆運算中的樣本評估值，確定與所述更新後的控制模型相關的更新後的樣本評估值；以及確定所述更新後的樣本評估值是否滿足所述預設條件。
如申請專利範圍第1至3項中任一項之系統，其中，所述訓練好的控制模型包括深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)網路模型。
如申請專利範圍第1至3項中任一項之系統，其中，為了基於所述一個或多個評估值從所述一個或多個候選控制信號中選擇所述目標控制信號，所述至少一個處理器用於使所述系統：根據預定規則，基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇所述目標控制信號。
一種在計算裝置上實施的方法，所述計算裝置具有至少一個處理器、至少一個儲存媒體，以及連接到網路的通訊平臺，所述方法包括：獲取與運輸工具相關的駕駛資訊；確定所述運輸工具的狀態；基於所述駕駛資訊和所述運輸工具的所述狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號和對應於所述一個或多個候選控制信號的一個或多個評估值；基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇目標控制信號；以及將所述目標控制信號發送至所述運輸工具的控制元件；其中，所述候選控制信號指被配置為控制運輸工具操作的指令。
如申請專利範圍第9項之方法，其中，與所述運輸工具相關的所述駕駛資訊包括所述運輸工具的第一預定範圍內的感知資訊和所述運輸工具的第一預定範圍內的地圖資訊。
如申請專利範圍第10項之方法，其中，所述感知資訊包括道路狀況資訊和障礙物資訊。
如申請專利範圍第9至11項中任一項之方法，其中，所述運輸工具的所述狀態包括所述運輸工具的速度、所述運輸工具的加速度和所述運輸工具的方向盤角度。
如申請專利範圍第9至11項中任一項之方法，其中，所述訓練好的控制模型由訓練流程確定，所述訓練流程包括：獲取初始控制模型；獲取初始樣本駕駛資訊，所述初始樣本駕駛資訊包括樣本運輸工具的第二預定範圍內的初始樣本感知資訊和所述樣本運輸工具的所述第二預定範圍內的初始樣本地圖資訊；獲取所述樣本運輸工具的初始樣本狀態；基於所述初始樣本駕駛資訊、所述樣本運輸工具的所述初始樣本狀態以及所述初始控制模型，確定初始樣本控制信號；基於對應於所述初始樣本控制信號的初始獎勵值，確定與所述初始控制模型相關的初始樣本評估值，其中，所述初始獎勵值和與所述初始樣本控制信號相關的碰撞條件、與所述初始樣本控制信號相關的車道狀況或與所述初始樣本控制信號相關的停止條件中的至少一個相關；確定所述初始樣本評估值是否滿足預設條件；以及回應於確定所述初始樣本評估值滿足所述預設條件，指定所述初始控制模型為所述訓練好的控制模型。
如申請專利範圍第13項之方法，其中，所述訓練流程進一步包括：回應於確定所述初始樣本評估值不滿足所述預設條件，執行一個或多個反覆運算以更新所述初始控制模型，直到更新後的樣本評估值滿足所述預設條件，其中，所述一個或多個反覆運算中的每個反覆運算包括：基於先前反覆運算中的獎勵值確定更新後的控制模型；獲取更新後的樣本駕駛資訊；基於所述先前反覆運算中的樣本控制信號和所述先前反覆運算中的所述樣本運輸工具的樣本狀態，估計所述樣本運輸工具的更新後的樣本狀態；基於所述更新後的樣本駕駛資訊、所述樣本運輸工具的所述更新後的樣本狀態以及所述更新後的控制模型，確定更新後的樣本控制信號；基於對應於所述更新後的樣本控制信號的更新後的獎勵值和所述先前反覆運算中的樣本評估值，確定與所述更新後的控制模型相關的更新後的樣本評估值；以及確定所述更新後的樣本評估值是否滿足所述預設條件。
如申請專利範圍第9至11項中任一項之方法，其中，所述訓練好的控制模型包括深度確定性策略梯度(DDPG)網路模型。
如申請專利範圍第9至11項中任一項之方法，其中，基於所述一個或多個評估值從所述一個或多個候選控制信號中選擇所述目標控制信號，進一步包括：根據預定規則，基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇所述目標控制信號。
一種被配置為自動駕駛的運輸工具，包括：偵測元件、規劃元件和控制元件，其中，所述規劃元件被配置為：獲取與所述運輸工具相關的駕駛資訊；確定所述運輸工具的狀態；基於所述駕駛資訊和所述運輸工具的所述狀態，藉由使用訓練好的控制模型，確定一個或多個候選控制信號和對應於所述一個或多個候選控制信號的一個或多個評估值；基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇目標控制信號；以及將所述目標控制信號發送至所述運輸工具的控制元件；其中，所述候選控制信號指被配置為控制運輸工具操作的指令。
如申請專利範圍第17項之運輸工具，其中，與所述運輸工具相關的所述駕駛資訊包括所述運輸工具的第一預定範圍內的感知資訊和所述運輸工具的所述第一預定範圍內的地圖資訊。
如申請專利範圍第18項之運輸工具，其中，所述感知資訊包括道路狀況資訊和障礙物資訊。
如申請專利範圍第17至19項中任一項之運輸工具，其中，所述運輸工具的所述狀態包括所述運輸工具的速度、所述運輸工具的加速度和所述運輸工具的方向盤角度。
如申請專利範圍第17至19項中任一項之運輸工具，其中，所述訓練好的控制模型由訓練流程確定，所述訓練流程包括：獲取初始控制模型；獲取初始樣本駕駛資訊，所述初始樣本駕駛資訊包括樣本運輸工具的第二預定範圍內的初始樣本感知資訊和所述樣本運輸工具的所述第二預定範圍內的初始樣本地圖資訊；獲取所述樣本運輸工具的初始樣本狀態；基於所述初始樣本駕駛資訊、所述樣本運輸工具的所述初始樣本狀態以及所述初始控制模型，確定初始樣本控制信號；基於對應於所述初始樣本控制信號的初始獎勵值，確定與所述初始控制模型相關的初始樣本評估值，其中，所述初始獎勵值和與所述初始樣本控制信號相關的碰撞條件、與所述初始樣本控制信號相關的車道狀況或與所述初始樣本控制信號相關的停止條件中的至少一個相關；確定所述初始樣本評估值是否滿足預設條件；以及回應於確定所述初始樣本評估值滿足所述預設條件，指定所述初始控制模型為所述訓練好的控制模型。
如申請專利範圍第21項之運輸工具，其中，所述訓練流程進一步包括：回應於確定所述初始樣本評估值不滿足所述預設條件，執行一個或多個反覆運算以更新所述初始控制模型，直到更新後的樣本評估值滿足所述預設條件，其中，所述一個或多個反覆運算中的每個反覆運算包括：基於先前反覆運算中的獎勵值確定更新後的控制模型；獲取更新後的樣本駕駛資訊；基於所述先前反覆運算中的樣本控制信號和所述先前反覆運算中的所述樣本運輸工具的樣本狀態，估計所述樣本運輸工具的更新後的樣本狀態；基於所述更新後的樣本駕駛資訊、所述樣本運輸工具的所述更新後的樣本狀態以及所述更新後的控制模型，確定更新後的樣本控制信號；基於對應於所述更新後的樣本控制信號的更新後的獎勵值和所述先前反覆運算中的樣本評估值，確定與所述更新後的控制模型相關的更新後的樣本評估值；以及確定所述更新後的樣本評估值是否滿足所述預設條件。
如根據申請專利範圍第17至19項中任一項之運輸工具，其中，所述訓練好的控制模型包括深度確定性策略梯度(DDPG)網路模型。
如申請專利範圍第17至19項中任一項之運輸工具，其中，為了基於所述一個或多個評估值從所述一個或多個候選控制信號中選擇所述目標控制信號，所述規劃元件進一步被配置為：根據預定規則，基於所述一個或多個評估值，從所述一個或多個候選控制信號中選擇所述目標控制信號。