TW202230282A

TW202230282A - 結合語義分割與光達點雲之物件辨識與測距系統

Info

Publication number: TW202230282A
Application number: TW110103080A
Authority: TW
Inventors: 李綱; 曾俊為; 林宗郁
Original assignee: 國立臺灣大學
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-08-01
Also published as: TWI766560B

Abstract

一種結合語義分割與光達點雲之物件辨識與測距系統，其特徵在於，該物件辨識與測距系統具有一語義分割系統，該語義分割系統包含：一圖像輸入單元、一卷積神經網路單元、一全局語義資訊單元、一局部語義資訊單元、及一語義分割輸出單元，而能夠輸出語義分割結果資訊，以供該物件辨識與測距系統根據該語義分割結果資訊及對應的光達點雲資訊而進行物件辨識與測距。

Description

結合語義分割與光達點雲之物件辨識與測距系統

本發明相關於一種智慧型載具的感知系統，特別是相關於一種結合語義分割與光達點雲之物件辨識與測距系統。

智慧型載具的感知會利用到語義分割（Semantic Segmentation）的技術。語義分割又名圖像分割，不同於圖像分類（Image Classification），語義分割的任務是根據已標籤好的圖像物件，行人、車輛、路樹、天空等物件，針對圖像中每一個像素點進行分類，而非針對整張圖像進行分類。由於語義分割屬於像素級別（Pixel Level）的分類任務，因此相較於圖像分類，語義分割的處理更為棘手。

在習知技術中所提出的用於語義分割的語義分割神經網路模型，多是需要利用高昂貴的硬體設備於開源的資料庫下進行線下的模型訓練與評估，以提升準確度。然而，神經網路模型中準確度與推論時間是相互妥協的關係。因此，往往為了追求更準確的模型而導致模型推論上需要消耗非常大的運算資源，造成運算時間增加，或是為了追求推論更快速的模型而導致模型在準確度上變得不夠精準。並且，除了在準確度和推論時間上取得平衡外，運算所需的高昂貴的硬體設備更是造成整個系統不具實用性的最大問題所在。

因此，本發明的目的即在提供一種結合語義分割與光達點雲之物件辨識與測距系統，能夠運行於低規的硬體設備中，並且在降低模型參數量及運算量的前提下，維持足夠的準確度。

本發明為解決習知技術之問題所採用之技術手段係提供包含：一種結合語義分割與光達點雲之物件辨識與測距系統，其特徵在於，該物件辨識與測距系統具有一語義分割系統，該語義分割系統包含：一圖像輸入單元，用於接收原始圖資訊；一卷積神經網路單元，連接於該圖像輸入單元，該卷積神經網路單元係經配置而以一空洞CSPDarkNet53神經網路模型對該原始圖資訊進行圖像處理，而得到特徵圖資訊，其中該空洞CSPDarkNet53神經網路模型係為將一CSPDarkNet53神經網路模型中的一個以上的卷積層設置成空洞卷積層所構成；一全局語義資訊單元，連接於該卷積神經網路單元，該全局語義資訊單元係經配置而以一非局部神經網路模型對該特徵圖資訊進行圖像處理，而得到全局語義資訊；一局部語義資訊單元，連接於該卷積神經網路單元，該局部語義資訊單元包括一維度重塑模組、一重塑轉置模組、一歸一化指數函數模組、及一殘差學習模組，該局部語義資訊單元係經配置而以該維度重塑模組對該特徵圖資訊進行維度重塑處理而得到重塑特徵圖資訊，且以該重塑轉置模組對該特徵圖資訊進行重塑轉置處理而得到重塑轉置特徵圖資訊，並將該重塑特徵圖資訊與該重塑轉置特徵圖資訊進行矩陣相乘並經由該歸一化指數函數模組以歸一化指數函數進行運算而得到權重通道特徵圖資訊，再將該權重通道特徵圖資訊與該特徵圖資訊進行矩陣相乘而得到加權通道特徵圖資訊，再將該加權通道特徵圖資訊經由該殘差學習模組進行殘差學習處理，而得到局部語義資訊；以及一語義分割輸出單元，連接於該卷積神經網路單元、該全局語義資訊單元及該局部語義資訊單元，該語義分割輸出單元包括一上採樣模組，該語義分割輸出單元係經配置而將該全局語義資訊及該局部語義資訊予以結合後經由該上採樣模組進行一上採樣處理，並將該上採樣處理之結果與該特徵圖資訊相結合而輸出語義分割結果資訊，以供該物件辨識與測距系統根據該語義分割結果資訊及對應的光達點雲資訊而進行物件辨識與測距。

在本發明的一實施例中係提供一種物件辨識與測距系統，其中在該卷積神經網路單元與該全局語義資訊單元之間，以及在該卷積神經網路單元與該局部語義資訊單元之間，係分別連接有一逐點卷積單元，該特徵圖資訊係經過該逐點卷積單元所進行的逐點卷積處理後而輸入至該全局語義資訊單元以及該局部語義資訊單元。

在本發明的一實施例中係提供一種物件辨識與測距系統，其中該語義分割輸出單元更包括一逐點卷積輸出模組，該語義分割結果資訊係經過該逐點卷積輸出模組所進行的逐點卷積處理後而輸出至該物件辨識與測距系統。

在本發明的一實施例中係提供一種物件辨識與測距系統，其中在該卷積神經網路單元中，該空洞CSPDarkNet53神經網路模型係為將該CSPDarkNet53神經網路模型中的一個以上的CSP模塊中的該卷積層設置成該空洞卷積層而構成。

在本發明的一實施例中係提供一種物件辨識與測距系統，其中該語義分割結果資訊所對應的該光達點雲資訊係為二維光達點雲。

經由本發明所採用之技術手段，本發明的物件辨識與測距系統所具有的語義分割系統能夠運行於低規的硬體設備中，並且在降低模型參數量及運算量的前提下，維持足夠的準確度，以提供良好的語義分割結果資訊，且此輸出結果能夠與光達點雲資訊相結合而進行物件辨識與測距的實際應用。該語義分割系統具有自CSPDarkNet53神經網路模型所延伸出的全新的神經網路模型，作為語義分割神經網路架構中的特徵萃取編碼器。並且，作為語義分割神經網路架構中的解碼器，該語義分割系統具有全局語義資訊單元及局部語義資訊單元，以強化特徵圖中各像素點間的關聯性，以及強化各通道間的輸出響應，使輸出結果富含更多的圖像語義資訊，有助於後續的物件辨識與測距。

以下根據第1圖至第6圖，而說明本發明的實施方式。該說明並非為限制本發明的實施方式，而為本發明之實施例的一種。

請參閱第1圖，其係顯示根據本發明的一實施例的一結合語義分割與光達點雲之物件辨識與測距系統的一語義分割系統的示意圖，其中該物件辨識與測距系統的特徵在於具有該語義分割系統。如第1圖所示，該語義分割系統包含：一圖像輸入單元1、一卷積神經網路單元2、一全局語義資訊單元3、一局部語義資訊單元4、以及一語義分割輸出單元5。

如第1圖所示，該圖像輸入單元1係用於接收原始圖資訊I1。具體而言，該物件辨識與測距系統係為應用在智慧型載具的感知系統。在本實施例中，該智慧型載具為一自駕車，該自駕車配置有相機、光達等感測器。該原始圖資訊I1則是相機所取得的圖像資訊。

如第1圖至第3圖所示，該卷積神經網路單元2連接於該圖像輸入單元1，該卷積神經網路單元2係經配置而以一空洞CSPDarkNet53神經網路模型21對該原始圖資訊I1進行圖像處理，而得到特徵圖資訊I2，其中該空洞CSPDarkNet53神經網路模型21（第3圖）係為將一CSPDarkNet53神經網路模型（第2圖）中的一個以上的卷積層設置成空洞卷積層所構成。

具體而言，隨著卷積神經網路的發展，神經網路越深或越寬已成為趨勢。一旦當模型越來越龐大，其運算複雜度和運算成本都會顯著提升。為了使應用這類神經網路的智慧型載具能夠實用化而非僅是理論，有需要在不失準確度的情況下降低其模型的運算量，進而達到實時推論的實用效果。為了此一目的，該卷積神經網路單元2中採用全新的用於語義分割的神經網路模型，即，該空洞CSPDarkNet53神經網路模型21。

空洞CSPDarkNet53神經網路是基於「YOLOv4」中使用的CSPDarkNet53神經網路進行延伸。「YOLOv4」的CSPDarkNet53神經網路是YOLO（you only look once）系列的神經網路，其架構如第2圖所示，其係基於「YOLOv3」中所使用的「DarkNet53」，將CSPNet（Cross Stage Partial Network；跨階段局部網路）的模型架構放入於「DarkNet53」中所產生，其具體技術為本發明所屬技術領域中具有通常知識者依據本領域通常知識並配合參照第2圖所能瞭解，故不再針對細節內容作贅述。

YOLO系列是關於物件偵測（Object Detection）的神經網路，其作用不同於圖像分類或語義分割，而在本發明中，為了解決語義分割的任務，將空洞卷積（Dilated Convolution）的技術結合於該CSPDarkNet53神經網路，而得到能夠適用於語義分割的該空洞CSPDarkNet53（Dilated CSPDarkNet53）神經網路。具體而言，請參閱第3圖並配合參閱第2圖，第3圖係顯示空洞CSPDarkNet53神經網路的架構，附帶一提，圖式中的「©」所代表的是意義是合併（Concatenate）。從圖中可看出，該空洞CSPDarkNet53神經網路模型21係為將該CSPDarkNet53神經網路模型中的一個以上的CSP模塊中的該卷積層設置成該空洞卷積層而構成。卷積層（Convolution Layer）是由數個卷積核（Convolution Kernels）所組成的網路層，卷積核的功用主要是將圖像切割成許多小塊，以擷取出圖像於局部端的特徵資訊。第2圖及第3圖中的「1×1卷積」及「3×3卷積」便分別代表以1×1卷積核進行卷積運算的卷積層、以及以3×3卷積核進行卷積運算的卷積層。其中，以1×1卷積核進行的卷積運算又稱為逐點卷積（pointwise convolution），其能夠將特徵圖降維或升維，而1×1卷積核的數量即為輸出特徵圖的通道數量。空洞卷積不同於標準的卷積運算，是將原先的卷積核注入空洞（即，數值0）而成為空洞卷積核。空洞卷積核中注入有多少個空洞則取決於膨脹率（Dilated Rate），當膨脹率為2時，代表在標準的卷積核下增加一格的空洞，而當膨脹率為4時，則代表在標準卷積核下增加二格的空洞。第3圖中的「空洞卷積，膨脹率=2」及「空洞卷積，膨脹率=4」便代表以膨脹率為2的空洞卷積核進行卷積運算的空洞卷積層、以及以膨脹率為4的空洞卷積核進行卷積運算的空洞卷積層。

如第1圖及第4圖所示，該全局語義資訊單元3連接於該卷積神經網路單元2，該全局語義資訊單元3係經配置而以一非局部神經網路模型31對該特徵圖資訊I2進行圖像處理，而得到全局語義資訊I3。此外，在該卷積神經網路單元2與該全局語義資訊單元3之間連接有一逐點卷積單元30，該特徵圖資訊I2係經過該逐點卷積單元30所進行的逐點卷積處理（即，以1×1卷積核進行的卷積運算）後而輸入至該全局語義資訊單元3。

具體而言，非局部神經網路（Non Local Network）是由「Facebook」於2017年所提出的，其架構如第4圖所示。非局部神經網路受到機器視覺中非局部均值（Non Local Mean）演算法的啟發，圖像中的像素點間並非孤立存在，某一點像素與別處的像素點存在某種關聯性。該演算法在整個圖像範圍內計算出各像素間的相似度，在處理某個像素點時，都會計算此像素點與所有像素點間的相似程度。其具體技術為本發明所屬技術領域中具有通常知識者依據本領域通常知識並配合參照第4圖所能瞭解，故不再針對細節內容作贅述。藉由該全局語義資訊單元3的設置，使運算不再僅是局部端的運算，而是將圖像中像素點間的關聯性也考量進去，進行全局端的運算。

如第1圖及第5圖所示，該局部語義資訊單元4連接於該卷積神經網路單元2，該局部語義資訊單元4包括一維度重塑模組41、一重塑轉置模組42、一歸一化指數函數模組43、及一殘差學習模組44，該局部語義資訊單元4係經配置而以該維度重塑模組41對該特徵圖資訊I2進行維度重塑處理而得到重塑特徵圖資訊，且以該重塑轉置模組對該特徵圖資訊I2進行重塑轉置處理而得到重塑轉置特徵圖資訊，並將該重塑特徵圖資訊與該重塑轉置特徵圖資訊進行矩陣相乘並經由該歸一化指數函數模組43以歸一化指數函數進行運算而得到權重通道特徵圖資訊，再將該權重通道特徵圖資訊與該特徵圖資訊I2進行矩陣相乘而得到加權通道特徵圖資訊，再將該加權通道特徵圖資訊經由該殘差學習模組進行殘差學習處理，而得到局部語義資訊I4。此外，在該卷積神經網路單元2與該局部語義資訊單元4之間連接有一逐點卷積單元40，該特徵圖資訊I2係經過該逐點卷積單元40所進行的逐點卷積處理（即，以1×1卷積核進行的卷積運算）後而輸入至該局部語義資訊單元4。

具體而言，由於深層輸出的各通道特徵圖可被視為各別類別於模型輸出的響應，而各類別間的輸出響應是相互關聯的，因此藉由該局部語義資訊單元4的設置來計算出通道特徵圖間的關聯性，強化各通道間的輸出響應。該局部語義資訊單元4的架構如第5圖所示，其係將輸入的該特徵圖資訊I2的維度重塑而得到該重塑特徵圖資訊，將該重塑特徵圖資訊與其轉置（即，該重塑轉置特徵圖資訊）進行矩陣相乘，接著將矩陣相乘後的結果資訊經過Softmax函數（歸一化指數函數）而獲取該權重通道特徵圖資訊，隨後與原先輸入的該特徵圖資訊I2進行矩陣相乘而得出該加權通道特徵圖資訊，並且在架構中還加入有殘差（Residual）學習的技術，即，殘差連結（Residual Connection）。藉此，以解決語義分割的處理中常見的類間不清晰（Inter-Class Inconsistency）的問題。

如第1圖及第6圖所示，該語義分割輸出單元5連接於該卷積神經網路單元2、該全局語義資訊單元3及該局部語義資訊單元4，該語義分割輸出單元5包括一上採樣模組51及一逐點卷積輸出模組52，該語義分割輸出單元5係經配置而將該全局語義資訊I3及該局部語義資訊I4予以結合後經由該上採樣模組51進行一上採樣處理，並將該上採樣處理之結果與該特徵圖資訊相結合，再經過該逐點卷積輸出模組所進行的逐點卷積處理後，作為語義分割結果資訊I5而輸出至該物件辨識與測距系統，以供該物件辨識與測距系統根據該語義分割結果資訊I5及對應的光達點雲資訊（例如：二維光達點雲、三維光達點雲）而進行物件辨識與測距。

藉由上述結構，本發明的物件辨識與測距系統所具有的語義分割系統能夠運行於低規的硬體設備中，並且在降低模型參數量及運算量的前提下，維持足夠的準確度，以提供良好的該語義分割結果資訊I5，且此輸出結果能夠與光達點雲資訊相結合而進行物件辨識與測距的實際應用。該語義分割系統具有自CSPDarkNet53神經網路模型所延伸出的全新的神經網路模型，作為語義分割神經網路架構中的特徵萃取編碼器。並且，作為語義分割神經網路架構中的解碼器，該語義分割系統具有該全局語義資訊單元3及該局部語義資訊單元4，以強化特徵圖（即，該特徵圖資訊I2）中各像素點間的關聯性，以及強化各通道間的輸出響應，使輸出結果（即，該語義分割結果資訊I5）富含更多的圖像語義資訊，有助於後續的物件辨識與測距。

以上之敘述以及說明僅為本發明之較佳實施例之說明，對於此項技術具有通常知識者當可依據以下所界定申請專利範圍以及上述之說明而作其他之修改，惟此些修改仍應是為本發明之發明精神而在本發明之權利範圍中。

1:圖像輸入單元 2:卷積神經網路單元 21:空洞CSPDarkNet53神經網路模型 3:全局語義資訊單元 30:逐點卷積單元 31:非局部神經網路模型 4:局部語義資訊單元 40:逐點卷積單元 41:維度重塑模組 42:重塑轉置模組 43:歸一化指數函數模組 44:殘差學習模組 5:語義分割輸出單元 51:上採樣模組 52:逐點卷積輸出模組 I1:原始圖資訊 I2:特徵圖資訊 I3:全局語義資訊 I4:局部語義資訊 I5:語義分割結果資訊

［第1圖］為顯示根據本發明的一實施例的一結合語義分割與光達點雲之物件辨識與測距系統的一語義分割系統的示意圖；［第2圖］為顯示一CSPDarkNet53神經網路的架構示意圖；［第3圖］為顯示該語義分割系統的一卷積神經網路單元所使用的一空洞CSPDarkNet53神經網路的架構示意圖；［第4圖］為顯示該語義分割系統的一全局語義資訊單元的架構示意圖；［第5圖］為顯示該語義分割系統的一局部語義資訊單元的架構示意圖；［第6圖］為顯示該語義分割系統的一語義分割輸出單元的架構示意圖。

1:圖像輸入單元

2:卷積神經網路單元

21:空洞CSPDarkNet53神經網路模型

3:全局語義資訊單元

30:逐點卷積單元

31:非局部神經網路模型

4:局部語義資訊單元

40:逐點卷積單元

41:維度重塑模組

42:重塑轉置模組

43:歸一化指數函數模組

44:殘差學習模組

5:語義分割輸出單元

51:上採樣模組

52:逐點卷積輸出模組

I1:原始圖資訊

I2:特徵圖資訊

I3:全局語義資訊

I4:局部語義資訊

I5:語義分割結果資訊

Claims

一種結合語義分割與光達點雲之物件辨識與測距系統，其特徵在於，該物件辨識與測距系統具有一語義分割系統，該語義分割系統包含：一圖像輸入單元，用於接收原始圖資訊；一卷積神經網路單元，連接於該圖像輸入單元，該卷積神經網路單元係經配置而以一空洞CSPDarkNet53神經網路模型對該原始圖資訊進行圖像處理，而得到特徵圖資訊，其中該空洞CSPDarkNet53神經網路模型係為將一CSPDarkNet53神經網路模型中的一個以上的卷積層設置成空洞卷積層所構成；一全局語義資訊單元，連接於該卷積神經網路單元，該全局語義資訊單元係經配置而以一非局部神經網路模型對該特徵圖資訊進行圖像處理，而得到全局語義資訊；一局部語義資訊單元，連接於該卷積神經網路單元，該局部語義資訊單元包括一維度重塑模組、一重塑轉置模組、一歸一化指數函數模組、及一殘差學習模組，該局部語義資訊單元係經配置而以該維度重塑模組對該特徵圖資訊進行維度重塑處理而得到重塑特徵圖資訊，且以該重塑轉置模組對該特徵圖資訊進行重塑轉置處理而得到重塑轉置特徵圖資訊，並將該重塑特徵圖資訊與該重塑轉置特徵圖資訊進行矩陣相乘並經由該歸一化指數函數模組以歸一化指數函數進行運算而得到權重通道特徵圖資訊，再將該權重通道特徵圖資訊與該特徵圖資訊進行矩陣相乘而得到加權通道特徵圖資訊，再將該加權通道特徵圖資訊經由該殘差學習模組進行殘差學習處理，而得到局部語義資訊；以及一語義分割輸出單元，連接於該卷積神經網路單元、該全局語義資訊單元及該局部語義資訊單元，該語義分割輸出單元包括一上採樣模組，該語義分割輸出單元係經配置而將該全局語義資訊及該局部語義資訊予以結合後經由該上採樣模組進行一上採樣處理，並將該上採樣處理之結果與該特徵圖資訊相結合而輸出語義分割結果資訊，以供該物件辨識與測距系統根據該語義分割結果資訊及對應的光達點雲資訊而進行物件辨識與測距。
如請求項1所述的物件辨識與測距系統，其中在該卷積神經網路單元與該全局語義資訊單元之間，以及在該卷積神經網路單元與該局部語義資訊單元之間，係分別連接有一逐點卷積單元，該特徵圖資訊係經過該逐點卷積單元所進行的逐點卷積處理後而輸入至該全局語義資訊單元以及該局部語義資訊單元。
如請求項1所述的物件辨識與測距系統，其中該語義分割輸出單元更包括一逐點卷積輸出模組，該語義分割結果資訊係經過該逐點卷積輸出模組所進行的逐點卷積處理後而輸出至該物件辨識與測距系統。
如請求項1所述的物件辨識與測距系統，其中在該卷積神經網路單元中，該空洞CSPDarkNet53神經網路模型係為將該CSPDarkNet53神經網路模型中的一個以上的CSP模塊中的該卷積層設置成該空洞卷積層而構成。
如請求項1所述的物件辨識與測距系統，其中該語義分割結果資訊所對應的該光達點雲資訊係為二維光達點雲。