TWI757999B

TWI757999B - 即時避障系統、即時避障方法及具有即時避障功能的無人載具

Info

Publication number: TWI757999B
Application number: TW109142873A
Authority: TW
Inventors: 王學誠; 張博凱; 黃瑞得; 許朝鈞
Original assignee: 國立陽明交通大學
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2022-03-11
Also published as: TW202223571A

Abstract

本發明揭露一種即時避障系統、即時避障方法及具有即時避障功能的無人載具。於即時避障系統中，無人載具係處於特定環境中且設置有環境感測模組、資料收集模組及運算模組。環境感測模組用以感測特定環境以提供環境感測信號。資料收集模組用以收集關於特定環境之環境資料。運算模組分別耦接環境感測模組及資料收集模組，用以分別接收環境感測信號與環境資料並透過虛實轉移深度強化學習機制產生自主導航信號。當無人載具於特定環境內行駛時，無人載具根據自主導航信號即時避開障礙物。

Description

即時避障系統、即時避障方法及具有即時避障功能的無人載具

本發明係與即時避障(Real-time obstacle avoidance)有關，尤其是關於一種即時避障系統、即時避障方法及具有即時避障功能的無人載具。

一般而言，由於毫米波雷達(Millimeter-wave radar)的波段可以在多霧、多懸浮微粒、粉塵以及無任何光線的黑暗環境中收集深度資料，因此，毫米波雷達相當適合應用於戶外、草地、海上、地下等環境中進行無人載具的避障任務。

然而，無論是工廠的自動搬運車或是具有毫米波雷達感測器的自走車，傳統上大多是使用點雲(Point cloud)方式進行深度資料之處理。於此處理方式下，受限於毫米波雷達在環境中障礙體的複雜度造成許多雜訊，多個毫米波雷達可能會互相干擾而造成誤感測或無法感測的情事發生，因而導致其感測結果出現誤差，尤其是在未知環境或人員活動較頻繁的環境中更為嚴重，故仍亟待進一步加以改善。

雖然目前已有使用深度學習模型來進行無人載具的行駛控制，然而，由於其深度學習模型的訓練大多是根據真實駕駛的行為模式來與模型輸出計算誤差並梯度反向傳送，故仍需要收集標準及非標準的真人駕駛行為資料，導致其訓練資料的取得較為耗時且訓練過程較為繁雜，亟待進一步改善。

有鑑於此，本發明提出一種即時避障系統、即時避障方法及具有即時避障功能的無人載具，以有效解決先前技術所遭遇到之上述問題。

依據本發明之一具體實施例為一種即時避障系統。於此實施例中，即時避障系統包括無人載具。無人載具係處於特定環境中且設置有環境感測模組、資料收集模組及運算模組。環境感測模組用以感測特定環境以提供環境感測信號。資料收集模組用以收集關於特定環境之環境資料。運算模組分別耦接環境感測模組及資料收集模組，用以分別接收環境感測信號與環境資料並透過虛實轉移深度強化學習機制產生自主導航信號。當無人載具於特定環境內行駛時，無人載具根據自主導航信號即時避開障礙物。

於一實施例中，特定環境為多煙環境(Smoked-filled environment)、多霧環境(Foggy environment)、地下環境(Subterranean environment)或工廠環境。

於一實施例中，環境感測模組為毫米波雷達(Millimeter-wave radar)。

於一實施例中，資料收集模組為光達(LiDAR)。

於一實施例中，運算模組包括對比學習(Contrastive learning)單元，用以於訓練階段(Training stage)下最大化(Maximize)環境感測信號與環境資料之間的協議(Agreement)，以產生環境感測信號之表徵(Representations)。

於一實施例中，對比學習單元係透過跨模式的表徵對比學習(CM-CLR)機制最大化環境感測信號與環境資料之間的協議。

於一實施例中，運算模組還包括端對端(End-to-end)的深度強化學習(Deep RL)網路，耦接對比學習單元，用以根據環境感測信號之表徵進行深度強化學習後產生自主導航信號。

於一實施例中，運算模組包括變分自動編碼器(VAE)及條件式產生對抗網路(cGAN)，用以根據環境感測信號重建(Reconstruct)出虛擬環境資料。

於一實施例中，運算模組還包括基於深度強化學習(Deep RL-based)的控制策略網路，用以根據虛擬環境資料進行深度強化學習後產生自主導航信號。

依據本發明之另一具體實施例為一種即時避障方法。於此實施例中，即時避障方法係應用於處於特定環境中之無人載具。即時避障方法包括下列步驟：(a)感測特定環境以提供環境感測信號；(b)收集關於特定環境之環境資料；(c)透過虛實轉移深度強化學習機制根據環境感測信號與環境資料產生自主導航信號；以及(d)當無人載具於特定環境內行駛時，無人載具根據自主導航信號之指引即時避開障礙物。

依據本發明之又一具體實施例為一種具有即時避障功能的無人載具。於此實施例中，無人載具係處於特定環境中。無人載具包括環境感測模組、資料收集模組、運算模組及控制模組。環境感測模組用以感測特定環境以提供環境感測信號。資料收集模組用以收集關於特定環境之環境資料。運算模組分別耦接環境感測模組及資料收集模組，用以分別接收環境感測信號與環境資料並透過虛實轉移深度強化學習機制產生自主導航信號。控制模組耦接運算模組，用以根據自主導航信號控制無人載具於特定環境內的行駛路線，以即時避開障礙物。

相較於先前技術，本發明之即時避障系統、即時避障方法及具有即時避障功能的無人載具可使用虛實轉移深度強化學習機制在虛擬及現實環境下雙重收集資料，以有效提升資料之多樣性及完整性，並能以毫米波雷達做為無人載具實現避障功能的主要感測器，而不需使用相機等感測器進行影像處理，因此，本發明之無人載具即使在毫無光線的黑暗環境下自主行駛亦能即時閃避障礙物，還能以極短時間學習並適應任何新的環境，故可有效拓展其應用場所及範圍，大幅增加其在市場上之商用價值。

關於本發明之優點與精神可以藉由以下的發明詳述及所附圖式得到進一步的瞭解。

現在將詳細參考本發明的示範性實施例，並在附圖中說明所述示範性實施例的實例。在圖式及實施方式中所使用相同或類似標號的元件/構件是用來代表相同或類似部分。

依據本發明之一具體實施例為一種即時避障系統。於此實施例中，即時避障系統包括具有即時避障功能的無人載具，例如工廠的自動搬運車或是設置有感測器的自走車，但不以此為限。實際上，本發明之即時避障系統的應用範圍相當廣泛，例如工廠搬運、自駕車、無人船、隧道探勘、緊急救災等等，但不以此為限。

請參照圖1，圖1係繪示此實施例中之即時避障系統的示意圖。如圖1所示，於即時避障系統中，無人載具10係處於特定環境ENV中且其設置有環境感測模組100、資料收集模組102、運算模組104及控制模組106。運算模組104分別耦接環境感測模組100及資料收集模組102。控制模組106耦接運算模組104。

需說明的是，於此實施例中，無人載具10的型式及規格並無特定之限制，只要能夠實現即時避障功能即可。至於無人載具10所處的特定環境ENV亦無特定之限制，例如多煙環境(Smoked-filled environment)、多霧環境(Foggy environment)、地下環境(Subterranean environment)或一般的工廠環境，但不以此為限。

環境感測模組100係用以針對無人載具10所處的特定環境ENV進行感測，以提供環境感測信號ES。於實際應用中，由於毫米波雷達(Millimeter-wave radar)可在多霧、多懸浮微粒、粉塵以及無任何光線的黑暗環境中收集深度資料環境，故此實施例中之環境感測模組100可採用毫米波雷達對無人載具10所處的特定環境ENV進行感測，以提供環境感測信號ES，但不以此為限。

資料收集模組102係用以收集關於無人載具10所處的特定環境ENV的環境資料ED。於實際應用中，由於光達(LiDAR)具有測距精度高、方向性強、探測角度大及反應速度快等優點，故此實施例中之資料收集模組102可採用光達(LiDAR)收集關於特定環境ENV的環境資料ED，例如採用光達收集關於特定環境ENV的360度(俯仰角達30度)的全像深度資料，但不以此為限。

運算模組104係用以分別接收來自環境感測模組100的環境感測信號ES以及來自資料收集模組102的環境資料ED，並透過虛實轉移深度強化學習機制(Sim-to-real deep reinforcement learning mechanism)進行運算處理後產生自主導航(Autonomous navigation)信號AN至控制模組106。

於實際應用中，若欲以深度強化學習方法實現避障功能，可採用兩組類神經網路，例如actor網路及critic網路，其中critic網路用以負責根據當下環境輸入（深度資料）來評估當下以及未來可能狀態的價值，而actor網路則用以負責根據當下環境輸入（深度資料）來輸出無人載具之動作值。actor網路會根據critic網路所輸出之價值進行深度學習之梯度反向傳波。critic網路則利用人為設計之獎勵方程式來計算當下以及未來之價值誤差，進行梯度反向傳波。

關於獎勵方程式之設計，詳細而言，為了希望無人載具能儘量直線移動，無人載具直線移動之行為會得到最大之獎勵值，隨著無人載具轉彎程度之增加，獎勵值便呈指數型下降。此外，為了避免無人載具過於靠近障礙物，當根據深度資訊得知無人載具愈靠近障礙物時會得到線性增加的懲罰值，以使無人載具能即時避開障礙物，最後再將計算出之獎勵值正規化。

於一實施例中，如圖2所示，運算模組104可包括對比學習(Contrastive learning)單元1040及端對端(End-to-end)深度強化學習(Deep RL)網路1042。端對端深度強化學習網路1042耦接對比學習單元1040。

對比學習單元1040係用以於訓練階段(Training stage)下透過跨模式的表徵對比學習(Cross Mode Contrastive Learning Representation, CM-CLR)機制最大化(Maximize)環境感測信號ES與環境資料ED之間的協議(Agreement)，以產生環境感測信號ES之表徵(Representations)REP至端對端深度強化學習網路1042，再由端對端深度強化學習網路1042根據環境感測信號ES之表徵REP進行深度強化學習後產生自主導航信號AN。

此外，當對比學習單元1040接收到毫米波雷達MWR感測特定環境所得到的環境感測信號ES時會將其編碼為編碼q。當對比學習單元1040接收到光達LiDAR收集特定環境的環境資料ED時會將其編碼為編碼k。接著，將編碼k與編碼q比對後可得到對比損失。

於另一實施例中，如圖2所示，運算模組104亦可包括變分自動編碼器(Variational Auto Encoder, VAE)1044、條件式產生對抗網路(conditional Generative Adversarial Network, cGAN)1046及基於深度強化學習(Deep RL-based)的控制策略網路1048。

變分自動編碼器1044及條件式產生對抗網路1046係用以根據環境感測信號ES重建(Reconstruct)出虛擬環境資料VED。需說明的是，環境感測信號ES係屬於未標籤資料(Unlabeled data)並且變分自動編碼器1044與條件式產生對抗網路1046係屬於非監督式學習(Unsupervised learning)模型，兩者彼此搭配進行訓練。基於深度強化學習的控制策略網路1048則係用以根據虛擬環境資料VED進行深度強化學習後產生自主導航信號AN。

當無人載具10開始於特定環境ENV內行駛時，控制模組106即可根據來自運算模組104的自主導航信號AN即時控制無人載具10的行駛路徑軌跡，使得無人載具10能夠即時避開特定環境ENV內的障礙物而順利前進。

請參照圖3，圖3繪示毫米波雷達MWR設置於無人載具10上，用以針對無人載具10所處的特定環境ENV進行感測，以提供環境感測信號ES。此外，圖3亦繪示毫米波雷達MWR的可視及不可視範圍及角度的示意圖，但不以此為限。於實際應用中，毫米波雷達MWR可進行360度全景偵測以收集無人載具10周圍360度之深度資訊，例如與側邊牆面之距離及速度、前方障礙物之相對位置等，但不以此為限。

需說明的是，圖3雖以無人載具10上設置有一台毫米波雷達MWR為例進行說明，實際上亦可依照實際需求於無人載具10上設置多台(例如四台)毫米波雷達MWR，並無特定之限制。

請參照圖4，圖4繪示本發明之毫米波雷達MWR感測特定環境ENV所得到的環境感測信號ES可供強化學習之用而光達LiDAR所收集特定環境ENV的環境資料ED則僅供訓練之用的示意圖。

如圖4所示，毫米波雷達MWR感測特定環境ENV所得到的環境感測信號ES經可訓練編碼器TEN編碼為編碼q後可應用於強化學習上。至於光達LiDAR收集特定環境ENV的環境資料ED僅供訓練之用，環境資料ED經固定編碼器FEN編碼為編碼k後可與編碼q比對，以得到對比損失。

請參照圖5，毫米波雷達MWR感測特定環境ENV所得到的環境感測信號ES可透過變分自動編碼器(VAE)1044及條件式產生對抗網路(cGAN)1046重建出虛擬環境資料VED。其中，毫米波雷達MWR之環境感測信號ES係屬於未標籤資料(Unlabeled data)並且變分自動編碼器1044與條件式產生對抗網路1046係屬於非監督式學習(Unsupervised learning)模型，兩者彼此搭配進行訓練。

於一實施例中，毫米波雷達MWR感測到的原始資料可透過深度學習方法設置限制條件(例如範圍、密度)來濾除其雜訊。接著，運算模組104可採用深度強化學習之方式將一個或多個毫米波雷達MWR感測到的深度資料整理出三層高度（例如0~50、50~150、150~250公分）的360度環景深度資訊，其中每度內均有一筆深度資訊，代表其與環境障礙物之距離。接著，整理後的深度資料被輸入至已訓練好的類神經網路，並由類神經網路輸出無人載具的運動速度與方向之指令，但不以此為限。

需說明的是，傳統上以毫米波雷達做為主要感測器之避障系統往往無法妥善處理其感測到的點雲資料而無法讓無人載具有效發揮即時避障之功能。相較之下，本發明提出的即時避障系統能夠透過上述較佳的資訊處理方式搭配深度學習強化訓練，使得做為避障功能之主要感測器的毫米波雷達得以有效且即時地發揮其功能，使得無人載具能夠在複雜的環境(例如隧道、礦坑、天然洞穴、戶外環境、水面或海面，火災發生之濃煙環境等)中有效發揮即時避障之功能。

再者，傳統的避障系統通常使用影像處理技術將虛擬與真實環境之影像預先簡化處理，並利用虛擬影像進行深度強化學習後移植至真實環境中，但仍無法取得黑暗環境中之影像，故在黑暗環境中無法發揮即時避障之效果。相較之下，本發明提出的即時避障系統同樣亦使用深度強化學習，但進一步採用全方位深度資訊進行神經網路訓練，故可在無法取得影像的黑暗環境發揮即時避障之效果。

此外，本發明提出的即時避障系統可手動切換為自動模式或學習模式。於學習模式中，即時避障系統可快速學習陌生環境之資訊。於自動模式中，即時避障系統可根據學習結果自動規劃無人載具在陌生環境中之移動路徑以即時避開障礙物。

請參照圖6，圖6分別繪示在不同環境下，毫米波雷達MWR感測到的環境感測信號ES、光達LiDAR收集到的環境資料ED以及透過變分自動編碼器(VAE)1044及條件式產生對抗網路(cGAN)1046根據環境感測信號ES重建出的虛擬環境資料VED之比對圖。

請參照圖7，圖7分別繪示透過毫米波雷達MWR、變分自動編碼器(VAE)1044、條件式產生對抗網路(cGAN)1046及光達LiDAR對走廊、交叉路口、死路及停車場等不同環境得到的感測結果。很明顯地，毫米波雷達MWR感測到的環境感測信號ES經過變分自動編碼器(VAE)1044及條件式產生對抗網路(cGAN)1046重建後會變得較為理想。

請參照圖8，圖8分別繪示無人載具10採用不同的控制策略在多煙環境下之移動軌跡。如圖8所示，在整個環境中之部分區域(例如斜線區域)為多煙區域，很明顯地，若無人載具10採用光達LiDAR進行環境感測，則當無人載具10進入多煙區域時容易受到煙的影響而無法即時感測，導致無人載具10會被困住(Trapped)於多煙區域中。相反地，若無人載具10採用毫米波雷達MWR進行環境感測，即使無人載具10進入多煙區域時亦不會受到煙的影響而能正常感測，故無人載具10在多煙區域中亦能正常行駛。

請參照圖9、圖10A及圖10B，圖9繪示特定環境ENV之一實施例。圖10A及圖10B分別繪示設置光達LiDAR及毫米波雷達MWR的無人載具10於圖9的特定環境ENV下之移動軌跡。

依據本發明之另一具體實施例為一種即時避障方法。於此實施例中，即時避障方法係應用於處於特定環境中之無人載具，但不以此為限。

請參照圖11，圖11係繪示此實施例中之即時避障方法的流程圖。如圖11所示，即時避障方法可包括下列步驟：

步驟S10：感測無人載具所處的特定環境，以提供環境感測信號；

步驟S12：收集關於特定環境之環境資料；

步驟S14：透過虛實轉移深度強化學習機制根據環境感測信號與環境資料產生自主導航信號；以及

步驟S16：當無人載具於特定環境內行駛時，無人載具根據自主導航信號之指引即時避開障礙物。

於實際應用中，步驟S10可採用毫米波雷達對無人載具所處的特定環境進行感測，以提供環境感測信號ES，但不以此為限；步驟S12可採用光達收集關於特定環境的環境資料，但不以此為限。需說明的是，步驟S10與步驟S12並無特定之先後順序，亦即步驟S10可先於步驟S12，或步驟S12先於步驟S10，或步驟S10與步驟S12兩者同時。

於一實施例中，如圖12A所示，步驟S14可進一步包括：

步驟S140：於訓練階段下透過跨模式的表徵對比學習(CM-CLR)機制最大化環境感測信號與環境資料之間的協議，以產生環境感測信號之表徵；以及

步驟S142：透過端對端深度強化學習網路根據環境感測信號之表徵進行深度強化學習後產生自主導航信號。

於另一實施例中，如圖12B所示，步驟S14亦可進一步包括：

步驟S144：透過變分自動編碼器及條件式產生對抗網路根據環境感測信號重建出虛擬環境資料；以及

步驟S146：透過基於深度強化學習的控制策略網路根據虛擬環境資料進行深度強化學習後產生自主導航信號。

於實際應用中，環境感測信號可屬於未標籤資料並且變分自動編碼器與條件式產生對抗網路可屬於非監督式學習模型，兩者彼此搭配進行訓練，但不以此為限。

至於此實施例中之具有即時避障功能的無人載具的詳細運作情形請參照前述實施例之說明，於此不另行贅述。

10:無人載具

100:環境感測模組

102:資料收集模組

104:運算模組

106:控制模組

ENV:特定環境

ES:環境感測信號

ED:環境資料

AN:自主導航信號

1040:對比學習單元

1042:端對端深度強化學習網路

1044:變分自動編碼器

1046:條件式產生對抗網路

1048:基於深度強化學習的控制策略網路

k:編碼

q:編碼

REP:表徵

VED:虛擬環境資料

MWR:毫米波雷達

LiDAR:光達

TEN:可訓練編碼器

FEN:固定編碼器

VAE:變分自動編碼器

cGAN:條件式產生對抗網路

S10~S16:步驟

S140~S146:步驟

本發明所附圖式說明如下：圖1繪示根據本發明之一較佳具體實施例中之即時避障系統的功能方塊圖。圖2繪示圖1中之運算模組的不同實施例。圖3繪示本發明之無人載具設置有毫米波雷達及其可視範圍的示意圖。圖4繪示本發明之毫米波雷達感測特定環境所得到的環境感測信號可供強化學習之用而光達所收集特定環境的環境資料則僅供訓練之用的示意圖。圖5分別繪示光達所收集特定環境的環境資料、毫米波雷達感測特定環境所得到的環境感測信號以及透過變分自動編碼器及條件式產生對抗網路重建環境感測信號所得到的虛擬環境資料的示意圖。圖6分別繪示在不同環境下之環境資料、環境感測信號及虛擬環境資料之比對圖。圖7分別繪示透過毫米波雷達、變分自動編碼器、條件式產生對抗網路及光達對走廊、交叉路口、死路及停車場等不同環境得到的感測結果。圖8分別繪示無人載具採用不同的控制策略在多煙環境下之移動軌跡的示意圖。圖9繪示無人載具所處之特定環境之一實施例。圖10A及圖10B分別繪示於圖9的特定環境下的無人載具透過光達及毫米波雷達進行感測之移動軌跡。圖11繪示根據本發明之另一較佳具體實施例中之即時避障方法的流程圖。圖12A繪示圖11中之步驟S14可進一步包括步驟S140及S142的流程圖。圖12B繪示圖11中之步驟S14可進一步包括步驟S144及S146的流程圖。

S10~S16:步驟

Claims

一種即時避障系統，包括：一無人載具(Unmanned vehicle)，其係處於一特定環境中且設置有：一環境感測模組，用以感測該特定環境以提供一環境感測信號；一資料收集模組，用以收集關於該特定環境之一環境資料；以及一運算模組，分別耦接該環境感測模組及該資料收集模組，用以分別接收該環境感測信號與該環境資料並透過一虛實轉移深度強化學習(Sim-to-real deep reinforcement learning)機制產生一自主導航(Autonomous navigation)信號；其中，當該無人載具於該特定環境內行駛時，該無人載具根據該自主導航信號即時避開障礙物；該運算模組包括：一對比學習(Contrastive learning)單元，用以於一訓練階段(Training stage)下最大化(Maximize)該環境感測信號與該環境資料之間的協議(Agreement)，以產生該環境感測信號之表徵(Representations)；其中，該對比學習單元係透過跨模式的表徵對比學習機制最大化該環境感測信號與該環境資料之間的協議。
如請求項1所述的即時避障系統，其中該特定環境為一多煙環境(Smoked-filled environment)、一多霧環境(Foggy environment)、一地下環境(Subterranean environment)或一工廠環境。
如請求項1所述的即時避障系統，其中該環境感測模組為毫米波雷達(Millimeter-wave radar)。
如請求項1所述的即時避障系統，其中該資料收集模組為光達(LiDAR)。
如請求項1所述的即時避障系統，其中該運算模組還包括：一端對端(End-to-end)的深度強化學習網路，耦接該對比學習單元，用以根據該環境感測信號之表徵進行深度強化學習後產生該自主導航信號。
如請求項1所述的即時避障系統，其中該運算模組包括一變分自動編碼器及一條件式產生對抗網路，用以根據該環境感測信號重建出一虛擬環境資料。
如請求項6所述的即時避障系統，其中該運算模組還包括一基於深度強化學習的控制策略網路，用以根據該虛擬環境資料進行深度強化學習後產生該自主導航信號。
一種即時避障方法，應用於處於一特定環境中之一無人載具，包括下列步驟：(a)感測該特定環境以提供一環境感測信號；(b)收集關於該特定環境之一環境資料；(c)透過一虛實轉移深度強化學習機制根據該環境感測信號與該環境資料產生一自主導航信號；以及(d)當該無人載具於該特定環境內行駛時，該無人載具根據該自主導航信號之指引即時避開障礙物；其中，步驟(c)包括： (c1)於一訓練階段下最大化該環境感測信號與該環境資料之間的協議，以產生該環境感測信號之表徵；其中，步驟(c1)係透過跨模式的表徵對比學習機制最大化該環境感測信號與該環境資料之間的協議。
如請求項8所述的即時避障方法，其中該特定環境為一多煙環境、一多霧環境、一地下環境或一工廠環境。
如請求項8所述的即時避障方法，其中步驟(a)係透過毫米波雷達進行感測。
如請求項8所述的即時避障方法，其中步驟(b)係透過光達進行收集。
如請求項8所述的即時避障方法，其中步驟(c)還包括：(c2)透過端對端深度強化學習網路根據該環境感測信號之表徵進行深度強化學習後產生該自主導航信號。
如請求項8所述的即時避障方法，其中步驟(c)包括：(c1’)透過一變分自動編碼器及一條件式產生對抗網路根據該環境感測信號重建出一虛擬環境資料。
如請求項13所述的即時避障方法，其中步驟(c)還包括：(c2’)透過一基於深度強化學習的控制策略網路根據該虛擬環境資料進行深度強化學習後產生該自主導航信號。
一種無人載具，其係處於一特定環境中且具有即時避障功能，包括：一環境感測模組，用以感測該特定環境以提供一環境感測信號；一資料收集模組，用以收集關於該特定環境之一環境資料；一運算模組，分別耦接該環境感測模組及該資料收集模組，用以分別接收該環境感測信號與該環境資料並透過一虛實轉移深度強化學習機制產生一自主導航信號；以及一控制模組，耦接該運算模組，用以根據該自主導航信號控制該無人載具於該特定環境內的行駛路線，以即時避開障礙物；其中，該運算模組包括：一對比學習單元，用以於一訓練階段下最大化該環境感測信號與該環境資料之間的協議，以產生該環境感測信號之表徵；其中，該對比學習單元係透過一跨模式的表徵對比學習機制最大化該環境感測信號與該環境資料之間的協議。
如請求項15所述的無人載具，其中該特定環境為一多煙環境、一多霧環境、一地下環境或一工廠環境。
如請求項15所述的無人載具，其中該環境感測模組為毫米波雷達。
如請求項15所述的無人載具，其中該資料收集模組為光達。
如請求項15所述的無人載具，其中該運算模組還包括：一端對端深度強化學習網路，耦接該對比學習單元，用以根據該環境感測信號之表徵進行深度強化學習後產生該自主導航信號。
如請求項15所述的無人載具，其中該運算模組包括一變分自動編碼器及一條件式產生對抗網路，用以根據該環境感測信號重建出一虛擬環境資料。
如請求項20所述的無人載具，其中該運算模組還包括一基於深度強化學習的控制策略網路，用以根據該虛擬環境資料進行深度強化學習後產生該自主導航信號。
一種即時避障系統，包括：一無人載具(Unmanned vehicle)，其係處於一特定環境中且設置有：一環境感測模組，用以感測該特定環境以提供一環境感測信號；一資料收集模組，用以收集關於該特定環境之一環境資料；以及一運算模組，分別耦接該環境感測模組及該資料收集模組，用以分別接收該環境感測信號與該環境資料並透過一虛實轉移深度強化學習(Sim-to-real deep reinforcement learning)機制產生一自主導航(Autonomous navigation)信號；其中，當該無人載具於該特定環境內行駛時，該無人載具根據該自主導航信號即時避開障礙物；該運算模組包括：一對比學習(Contrastive learning)單元，用以於一訓練階段(Training stage)下最大化(Maximize)該環境感測信號與該環境資料之間的協議(Agreement)，以產生該環境感測信號之表徵(Representations)；其中，該運算模組還包括：一端對端(End-to-end)的深度強化學習網路，耦接該對比學習單元，用以根據該環境感測信號之表徵進行深度強化學習後產生該自主導航信號。
一種即時避障方法，應用於處於一特定環境中之一無人載具，包括下列步驟： (a)感測該特定環境以提供一環境感測信號；(b)收集關於該特定環境之一環境資料；(c)透過一虛實轉移深度強化學習機制根據該環境感測信號與該環境資料產生一自主導航信號；以及(d)當該無人載具於該特定環境內行駛時，該無人載具根據該自主導航信號之指引即時避開障礙物；其中，步驟(c)包括：(c1)於一訓練階段下最大化該環境感測信號與該環境資料之間的協議，以產生該環境感測信號之表徵；其中，步驟(c)還包括：(c2)透過端對端深度強化學習網路根據該環境感測信號之表徵進行深度強化學習後產生該自主導航信號。
一種無人載具，其係處於一特定環境中且具有即時避障功能，包括：一環境感測模組，用以感測該特定環境以提供一環境感測信號；一資料收集模組，用以收集關於該特定環境之一環境資料；一運算模組，分別耦接該環境感測模組及該資料收集模組，用以分別接收該環境感測信號與該環境資料並透過一虛實轉移深度強化學習機制產生一自主導航信號；以及一控制模組，耦接該運算模組，用以根據該自主導航信號控制該無人載具於該特定環境內的行駛路線，以即時避開障礙物；其中，該運算模組包括：一對比學習單元，用以於一訓練階段下最大化該環境感測信號與該環境資料之間的協議，以產生該環境感測信號之表徵；其中，該運算模組還包括：一端對端深度強化學習網路，耦接該對比學習單元，用以根據該環境感測信號之表徵進行深度強化學習後產生該自主導航信號。
一種即時避障系統，包括：一無人載具(Unmanned vehicle)，其係處於一特定環境中且設置有：一環境感測模組，用以感測該特定環境以提供一環境感測信號；一資料收集模組，用以收集關於該特定環境之一環境資料；以及一運算模組，分別耦接該環境感測模組及該資料收集模組，用以分別接收該環境感測信號與該環境資料並透過一虛實轉移深度強化學習(Sim-to-real deep reinforcement learning)機制產生一自主導航(Autonomous navigation)信號；其中，當該無人載具於該特定環境內行駛時，該無人載具根據該自主導航信號即時避開障礙物；該運算模組包括一變分自動編碼器及一條件式產生對抗網路，用以根據該環境感測信號重建出一虛擬環境資料。
一種即時避障方法，應用於處於一特定環境中之一無人載具，包括下列步驟：(a)感測該特定環境以提供一環境感測信號；(b)收集關於該特定環境之一環境資料； (c)透過一虛實轉移深度強化學習機制根據該環境感測信號與該環境資料產生一自主導航信號；以及(d)當該無人載具於該特定環境內行駛時，該無人載具根據該自主導航信號之指引即時避開障礙物；其中，步驟(c)包括：(c1’)透過一變分自動編碼器及一條件式產生對抗網路根據該環境感測信號重建出一虛擬環境資料。
一種無人載具，其係處於一特定環境中且具有即時避障功能，包括：一環境感測模組，用以感測該特定環境以提供一環境感測信號；一資料收集模組，用以收集關於該特定環境之一環境資料；一運算模組，分別耦接該環境感測模組及該資料收集模組，用以分別接收該環境感測信號與該環境資料並透過一虛實轉移深度強化學習機制產生一自主導航信號；以及一控制模組，耦接該運算模組，用以根據該自主導航信號控制該無人載具於該特定環境內的行駛路線，以即時避開障礙物；其中，該運算模組包括一變分自動編碼器及一條件式產生對抗網路，用以根據該環境感測信號重建出一虛擬環境資料。