TWI759156B

TWI759156B - 影像物件辨識模型的訓練方法及影像物件辨識模型

Info

Publication number: TWI759156B
Application number: TW110110527A
Authority: TW
Inventors: 花凱龍; 陳永耀; 鍾昕燁; 陳佑丞; 林八林; 林子永; 溫承書; 王彥博; 陳俊榮; 楊東行; 呂文翔; 黃祺佳
Original assignee: 福邦科技國際股份有限公司; 國立臺灣科技大學
Priority date: 2021-01-19
Filing date: 2021-03-24
Publication date: 2022-03-21
Also published as: TWI797596B; TWI768709B; TW202230284A; TW202305405A; TW202230278A

Abstract

一種影像物件辨識模型的訓練方法，該影像物件辨識模型包含第一、第二及第三深度神經網路以及一連接第一、第二及第三深度神經網路的特徵融合層；將複數組訓練用影像其中的每一組訓練用影像中的可見光影像和熱影像各別對應輸入第一和第二深度神經網路，以對第一和第二深度神經網路進行訓練，且該特徵融合層接受由該第一和第二深度神經網路各別輸出之經過特徵處理的各該可見光影像和經過特徵處理的各該熱影像，並將兩者融合成一融合影像後輸入第三深度神經網路，以對第三深度神經網路進行訓練，而獲得完成訓練的該影像物件辨識模型。

Description

影像物件辨識模型的訓練方法及影像物件辨識模型

本發明是有關於一種影像物件辨識模型及其訓練方法，特別是指一種能根據同一成像時間獲得之同一場景的熱影像與可見光影像進行影像物件辨識的影像物件辨識模型及其訓練方法。

可見光相機(RGB Camera)在天候良好、光線明亮時，其拍攝範圍內之物件成像效果良好，但在光線昏暗，如夜晚無光源處，其成像效果則與光線強弱成反比。而在雨、雪、霧等天候不良或有煙、塵的環境時，則易遭遮蔽且無法穿透，成像效果不佳，以致影響辨識影像中之物件的識別率。熱感攝影機(或稱紅外線相機，Thermal Camera)在天候不佳或光線昏暗環境下，其成像效果較可見光相機佳，但熱感攝影機僅能描繪物件的外型，不能顯示物件的細節輪廓，例如無法顯示人臉的細部特徵，且當所拍攝的相鄰物件溫度相近時，熱感攝影機易混淆相鄰物件而影響辨識影像中之物件的識別率。

因此，為解決上述問題，傳統採用上述兩種影像進行影像中之物件辨識的方法會設定一個切換機制，例如白天使用可見光相機拍攝的可見光影像進行物件辨識，晚上則切換至使用熱感攝影機拍攝的熱影像進行物件辨識；但此種做法需要特別考慮時段而且過度依賴單一種影像，例如即使在晚上但燈火通明的地方，可見光影像的成像效果未必較熱影像差，反之，即使在晚上但溫度差異不大的環境，例如冬天或冰天雪地的地方，熱影像的成像效果亦不見得較可見光影像佳。

因此，若能同時採用上述兩種影像進行影像物件辨識，可利用影像互補的效果，而不需考量時段或環境的變化對應切換不同的影像辨識機制，並可進行全天候的影像辨識。

因此，本發明之目的，即在提供一種影像物件辨識模型的訓練方法及一種影像物件辨識模型，其同時採用內容重疊的熱影像與可見光影像進行影像物件辨識，利用影像互補的效果，達到全天候影像辨識。

於是，本發明一種影像物件辨識模型的訓練方法，由一電腦執行，並包括：該電腦執行一影像物件辨識模型，該影像物件辨識模型包含一第一深度神經網路、一第二深度神經網路、一第三深度神經網路、一與該第一深度神經網路、該第二深度神經網路和該第三深度神經網路連接的特徵融合層以及一判定模組。

該第一深度神經網路包含一第一特徵提取層，該第一特徵提取層包含複數串接的第一跨階段局部模組，該等第一跨階段局部模組其中的一第一跨階段局部模組的輸出端具有第一個分歧點；該第二深度神經網路包含一第二特徵提取層，該第二特徵提取層包含複數串接的第二跨階段局部模組，該等第二跨階段局部模組其中的一第二跨階段局部模組的輸出端具有第一個分歧點；該特徵融合層的輸入端與具有該第一個分歧點的該第一跨階段局部模組的前一個第一跨階段局部模組的輸出端連接，並與具有該第一個分歧點的該第二跨階段局部模組的前一個第二跨階段局部模組的輸出端連接；該特徵融合層的輸出端與該第三深度神經網路的輸入端連接；該判定模組與該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端連接。

於該電腦中預備複數組訓練用影像，每一組訓練用影像包含在同一時間拍攝且內容重疊的一可見光影像與一熱影像。

該電腦將該等訓練用影像的每一組訓練用影像中的該可見光影像和該熱影像各別對應輸入該第一深度神經網路和該第二深度神經網路，以對該第一深度神經網路和該第二深度神經網路進行訓練，且該特徵融合層接受由該前一個第一跨階段局部模組的輸出端輸出之經過特徵處理的各該可見光影像以及接受由該前一個第二跨階段局部模組的輸出端輸出之經過特徵處理的各該熱影像，並將經過特徵處理的各該可見光影像和相對應之經過特徵處理的各該熱影像融合成一融合影像後，將各該融合影像輸入該第三深度神經網路，以對該第三深度神經網路進行訓練，而獲得完成訓練的一影像物件辨識模型，使得一組待辨識影像中的一待辨識可見光影像和一待辨識熱影像被該電腦各別對應輸入完成訓練的該影像物件辨識模型的該第一深度神經網路和該第二深度神經網路後，完成訓練的該影像物件辨識模型的該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端將分別輸出與該組待辨識影像相關的複數個候選物件資訊至該判定模組，使該判定模組能根據該等候選物件資訊，辨識出該待辨識可見光影像中的物件。

在本發明的一些實施態樣中，該第一深度神經網路包含依序串接的一第一輸入層、該第一特徵提取層、一第一多尺度層及一第一預測層，且該第一跨階段局部模組的該第一個分歧點與該第一多尺度層連接；該第二深度神經網路包含依序串接的一第二輸入層、該第二特徵提取層、一第二多尺度層及一第二預測層，且該第二跨階段局部模組的該第一個分歧點與該第二多尺度層連接；該第三深度神經網路包含依序串接的一第三特徵提取層、一第三多尺度層及一第三預測層；該判定模組與該第一預測層、該第二預測層及該第三預測層的輸出端連接；每一組訓練用影像中的該可見光影像和該熱影像各別由對應的該第一輸入層和該第二輸入層輸入，以對該第一深度神經網路和該第二深度神經網路進行訓練，且該融合影像被輸入至該第三特徵提取層，以對該第三深度神經網路進行訓練；且該待辨識可見光影像和該待辨識熱影像被各別對應輸入完成訓練的該影像物件辨識模型的該第一深度神經網路的該第一輸入層和該第二深度神經網路的該第二輸入層後，完成訓練的該影像物件辨識模型的該第一深度神經網路的該第一預測層、該第二深度神經網路的該第二預測層及該第三深度神經網路的該第三預測層的輸出端分別輸出與該組待辨識影像相關的複數個候選物件資訊至該判定模組。

在本發明的一些實施態樣中，每一組訓練用影像包含的該熱影像是預先根據相對應的該可見光影像進行影像校正，而能與該可見光影像良好地融合的校正後熱影像；且該組待辨識影像中的該待辨識熱影像是預先根據該待辨識可見光影像進行影像校正，而能與該待辨識可見光影像良好地融合的校正後待辨識熱影像。

此外，本發明一種影像物件辨識模型，其係根據上述之影像物件辨識模型的訓練方法訓練而成，而能接受包含在同一時間拍攝且內容重疊的一待辨識可見光影像與一待辨識熱影像的一組待辨識影像，以根據該待辨識可見光影像與該待辨識熱影像辨識出該待辨識可見光影像中的物件。

再者，本發明一種影像物件辨識模型，其接受包含在同一時間拍攝且內容重疊的一可見光影像與一熱影像的一組影像，以根據該可見光影像與該熱影像辨識該可見光影像中的物件，並包括：一第一深度神經網路，其接受該可見光影像輸入，並包含一第一特徵提取層，該第一特徵提取層包含複數串接的第一跨階段局部模組，該等第一跨階段局部模組其中的一第一跨階段局部模組的輸出端具有第一個分歧點；一第二深度神經網路，其接受該熱影像輸入，並包含一第二特徵提取層，該第二特徵提取層包含複數串接的第二跨階段局部模組，該等第二跨階段局部網路其中的一第二跨階段局部模組的輸出端具有第一個分歧點；一第三深度神經網路；一特徵融合層，其輸入端與具有該第一個分歧點的該第一跨階段局部模組的前一個第一跨階段局部模組的輸出端連接，並與具有該第一個分歧點的該第二跨階段局部模組的前一個第二跨階段局部模組的輸出端連接，且該特徵融合層的輸出端與該第三深度神經網路的輸入端連接，該特徵融合層接受由該前一個第一跨階段局部模組的輸出端輸出之經過特徵處理的該可見光影像以及接受由該前一個第二跨階段局部模組的輸出端輸出之經過特徵處理的該熱影像，並將經過特徵處理的該可見光影像和相對應之經過特徵處理的該熱影像融合成一融合影像，再將該融合影像輸入該第三深度神經網路；及一判定模組，其與該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端連接，且該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端分別輸出與該組影像相關的複數個候選物件資訊至該判定模組，該判定模組根據該等候選物件資訊，辨識該可見光影像中的物件。

在本發明的一些實施態樣中，該第一深度神經網路包含依序串接的一第一輸入層、該第一特徵提取層、一第一多尺度層及一第一預測層，且該第一跨階段局部模組的該第一個分歧點與該第一多尺度層連接；該第二深度神經網路包含依序串接的一第二輸入層、該第二特徵提取層、一第二多尺度層及一第二預測層，且該第二跨階段局部模組的該第一個分歧點與該第二多尺度層連接；該第三深度神經網路包含依序串接的一第三特徵提取層、一第三多尺度層及一第三預測層；該判定模組與該第一預測層、該第二預測層及該第三預測層的輸出端連接；且該可見光影像和該熱影像被各別對應輸入該第一輸入層和該第二輸入層，該融合影像被輸入至該第三特徵提取層，該第一預測層、該第二預測層及該第三預測層的輸出端分別輸出與該組影像相關的複數個候選物件資訊至該判定模組。

在本發明的一些實施態樣中，該熱影像是預先根據該可見光影像進行影像校正，而能與該可見光影像良好地融合的校正後熱影像。

本發明之功效在於：除了運用該第一深度神經網路和該第二深度神經網路分別對一組輸入的可見光影像和熱影像進行物件偵測及辨識外，還藉由該特徵融合層獲取該第一深度神經網路的該第一特徵提取層輸出之經過特徵處理的該可見光影像以及獲取該第二深度神經網路的該第二特徵提取層輸出之經過特徵處理的該熱影像，並將兩者融合成該融合影像後，將該融合影像輸入該第三深度神經網路，使對該融合影像進行物件偵測及辨識，使得第一、第二及第三深度神經網路分別輸出複數個候選物件資訊至該判定模組，使該判定模組能根據該等候選物件資訊，辨識該可見光影像中的物件而提升物件辨識能力，而且藉由同時採用在同一時間拍攝的可見光影像及熱影像進行影像物件辨識，可同時取得這兩種影像的特徵，而利用影像特徵互補的效果，進行全天候的影像辨識並提升物件辨識率，使影像物件辨識不致受限於時段、天候或環境的變化。

100:影像物件辨識模型

1:第一深度神經網路

10:第一輸入層

11:第一特徵提取層

111:第一跨階段局部(CSP)模組

12:第一多尺度層

13:第一預測層

2:第二深度神經網路

20:第二輸入層

21:第二特徵提取層

211:第二跨階段局部(CSP)模組

22:第二多尺度層

23:第二預測層

3:第三深度神經網路

31:第三特徵提取層

311:第三跨階段局部(CSP) 模組

32:第三多尺度層

33:第三預測層

4:特徵融合層

5:判定模組

61:可見光影像

61’:第一特徵圖

610:經過特徵處理的可見光影像

62:熱影像

62’:第二特徵圖

620:經過特徵處理的熱影像

63:融合影像

63’:第三特徵圖

P1、P2:第一個分歧點

OP1、OP2:輸出端

S1~S3:步驟

本發明之其他的特徵及功效，將於參照圖式的實施方式中清楚地顯示，其中：圖1是本發明影像物件辨識模型的訓練方法的一實施例的主要流程；圖2是本實施例的影像物件辨識模型的架構方塊示意圖；圖3顯示本實施例的第一深度神經網路和第二深度神經網路的各層的組成方塊示意圖；及圖4是本實施例的影像物件辨識模型提取影像特徵的過程示意圖。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1所示，是本發明影像物件辨識模型的訓練方法的一實施例的主要流程步驟，由一電腦執行，首先，如圖1的步驟S1，本實施例要預先提供(預備)待訓練的一影像物件辨識模型100給該電腦執行，且如圖2所示，該影像物件辨識模型100包含一第一深度神經網路1、一第二深度神經網路2、一第三深度神經網路3、一連接該第一深度神經網路1、該第二深度神經網路2、該第三深度神經網路3的特徵融合層4以及一判定模組5。而本實施例的該影像物件辨識模型100是基於YOLOv4物件偵測模型進行開發，因此以下以YOLOv4架構進行說明。值得一提的是，本實施例的該影像物件辨識模型100並不限於YOLOv4物件偵測模型，也可以使用其它的物件偵測方法，例如但不限於YOLOv1、YOLOv2、YOLOv3、R-CNN,Fast R-CNN,Faster R-CNN,Mask R-CNN、Scaled-YOLOv4、DetectoRS及EfficientDet等具有深度學習的人工智慧模型。

該第一深度神經網路1包含一第一特徵提取層11，該第一特徵提取層11包含一第一跨階段局部網路(Cross Stage Partial Network，以下簡稱CSPNet)，該第一CSPNet的主要目的是使網路架構能夠獲取更豐富的梯度融合信息並降低計算量，且如圖3所示YOLOv4之架構方塊圖可知，該第一CSPNet具有第一個分歧點P1，具體而言，該第一CSPNet是由複數個串連的第一跨階段局部(CSP)模組111(以下簡稱第一CSP模組111)組成，該等第一CSP模組111其中的一個第一CSP模組111的輸出端具有第一個分歧點P1。且在本實施例中，如圖2所示，該第一深度神經網路1是採用但不限於YOLOv4架構，所以該第一深度神經網路1主要由第一輸入層10、第一特徵提取層11、第一多尺度層12及第一預測層13組成，且第一特徵提取層11中的該等第一CSP模組111實際上為依序串連的CSP1、CSP2、CSP8、CSP8和CSP4等特徵提取網路，且該分歧點P1是第一個CSP8的輸出端，該分歧點P1除了與第二個CSP8連接外，也與第一多尺度層12連接，而且第一輸入層10和第一個第一CSP模組111(即CSP1)之間還串連一第一激活層210(CBM，YOLOv4網路結構中的最小元件，由Conv+Bn+Mish激活函數三者組成)。此外，由於第一輸入層10、第一特徵提取層11、第一多尺度層12及第一預測層13的具體細部架構和功能已是習知技術且非本案技術重點所在，且可參見公開之YOLOv4的相關文獻或介紹，故在此不予贅述。

如同第一深度神經網路1，該第二深度神經網路2同樣包含一第二特徵提取層21，該第二特徵提取層21包含一第二跨階段局部網路(CSPNet)，且如圖3所示YOLOv4之架構方塊圖可知，該第二CSPNet具有第一個分歧點P2，具體而言，如圖2所示，該第二CSPNet是由複數個串連的第二跨階段局部(CSP)模組211(以下簡稱第二CSP模組211)組成，該等第二CSP模組211其中的一個第二CSP模組211的輸出端具有第一個分歧點P2。且在本實施例中，如圖2所示，該第二深度神經網路2是採用但不限於YOLOv4架構，所以該第二深度神經網路2主要由第二輸入層20、第二特徵提取層21、第二多尺度層22及第二預測層23組成，且第二特徵提取層21中的該等第二CSP模組211實際上為依序串連的CSP1、CSP2、CSP8、CSP8和CSP4等特徵提取網路，且該分歧點P2是第一個CSP8的輸出端，該分歧點P2除了與第二個CSP8連接外，也與第二多尺度層22連接。而且第二輸入層20和第一個第二CSP模組211(即CSP1)之間還串連一第二激活層210(CBM)。而由於第二輸入層20、第二特徵提取層21、第二多尺度層22及第二預測層23的具體細部架構和功能並非本案技術重點所在，且可參見公開之YOLOv4的相關文獻或介紹，故在此不予贅述。

該特徵融合層4的輸入端與具有該第一個分歧點P1的該第一CSP模組111(即第一個CSP8)的前一個第一CSP模組111(即CSP2)的輸出端OP1連接，並與具有該第一個分歧點P2的該第二CSP模組211(即第一個CSP8)的前一個第二CSP模組211(即CSP2)的輸出端OP2連接；該特徵融合層4的輸出端與該第三深度神經網路3的輸入端連接；且在本實施例中，該第三深度神經網路3採用但不限於YOLOv4的大部分架構，因此，如圖2所示，該第三深度神經網路3由第三特徵提取層31、第三多尺度層32及第三預測層33組成，第三特徵提取層31包含複數第三跨階段局部(CSP)模組311，且該等第三CSP模組311實際上為依序串連的CSP8、CSP8和CSP4等特徵提取網路。由於第三特徵提取層31、第三多尺度層32及第三預測層33的具體細部架構和功能並非本案技術重點所在，且可參見YOLOv4的相關文獻或介紹，故在此不予贅述。

該判定模組5與該第一深度神經網路1、該第二深度神經網路2及該第三深度神經網路3的輸出端連接，具體而言，該判定模組5是與該第一深度神經網路1的該第一預測層13、該第二深度神經網路2的該第二預測層23及該第三深度神經網路3的該第三預測層33的輸出端連接。

且如圖1的步驟S2，本實施例要於該電腦中預備複數組訓練用影像，每一組訓練用影像包含在同一時間拍攝且內容重疊的一可見光影像及一熱影像，且該熱影像是已預先經過校正而與該可見光影像尺寸一致且能良好地重疊(套疊)在一起的校正後影像，其校正方法可以參考但不限於台灣第110104936號專利申請案；另外說明的是，該熱影像原始的解析度通常是640x512，而該可見光影像原始的解析度通常是1920x1080、1280x720或640x512等，但為了配合該影像物件辨識模型100要求的輸入影像尺寸，例如224x224、416x416或608x608等，在使用該影像物件辨識模型100時，本實施例會將要輸入該影像物件辨識模型100的每一組訓練用影像(該可見光影像和該熱影像)的大小調整(Resize)為模型能接受的尺寸，例如416x416。且本實施例最終產生的物件辨識結果並不會呈現在調整大小後的該可見光影像上，而是呈現在原始的該可見光影像上或者呈現在融合前述雙影像的一融合影像上。

然後，如圖1的步驟S3，該電腦將該等訓練用影像的每一組訓練用影像中的該可見光影像和該熱影像各別對應輸入該第一深度神經網路1的該第一輸入層10和該第二深度神經網路2的該第二輸入層20，以對該第一深度神經網路1和該第二深度神經網路2進行訓練和深度學習；具體而言，該第一深度神經網路1的該第一特徵提取層11和該第二深度神經網路2的該第二特徵提取層21皆使用CSPDarknet53神經網絡架構，該第一特徵提取層 11(又稱骨幹層(Backbone)主要對經由第一輸入層10輸入的可見光影像61進行特徵提取，將特徵去蕪存菁，例如圖3所示，可見光影像61經過該第一特徵提取層11的5個第一CSP模組(CSP1、CSP2、CSP8、CSP8、CSP4)依序進行特徵提取後，該第一特徵提取層11輸出大小為13x13的第一特徵圖61’；同理，該第二特徵提取層21(又稱骨幹層(Backbone)主要對經由第二輸入層20輸入的熱影像62進行特徵提取，將特徵去蕪存菁，例如圖3所示，熱影像62經過該第二特徵提取層21的5個第二CSP模組(CSP1、CSP2、CSP8、CSP8、CSP4)依序進行特徵提取後，該第二特徵提取層21輸出大小為13x13的第二特徵圖62’。且在圖4中，416x416x3是指將影像分成三路輸入CBM模組110、210，416x416x32是指CBM模組110、210輸出由32個大小為416x416的特徵圖所組成的圖層，208x208x128是指CSP1模組111、211輸出由128個大小為208x208的特徵圖所組成的圖層，依此類推。

且如圖4所示，該特徵融合層4接受該第一深度神經網路1之由該前一個第一CSP模組111(CSP2)輸出之經過特徵處理(即特徵提取)的各該可見光影像610(即圖4上方CSP2輸出之大小為104x104的可見光影像特徵圖)以及接受由該前一個第二CSP模組211(CSP2)的輸出之經過特徵處理(即特徵提取)的各該熱影像620(即圖4下方CSP2輸出之大小為104x104的熱影像特徵圖)，並將經過特徵處理的各該可見光影像610和相對應之經過特徵處理的各該熱影像620融合成一融合影像63，再將各該融合影像63輸入該第三深度神經網路3，以對該第三深度神經網路3進行訓練和深度學習，具體而言，第三深度神經網路3的該第三特徵提取層31(又稱骨幹層(Backbone)將對該融合影像63進行特徵提取，將特徵去蕪存菁，例如圖4所示，該融合影像63經過該第三特徵提取層31的3個CSP模組(CSP8、CSP8、CSP4)依序進行特徵提取後，該第三特徵提取層31輸出大小為13x13的第三特徵圖63’。

接著，第一、第二及第三特徵圖61’、62’、63’被分別對應輸入至該第一多尺度層12、該第二多尺度層22及該第三多尺度層32，其中各該多尺度層12、22、32又稱頸部層(Neck)，其主要由多尺度模組所組成，用來增強模型多尺度(小物件)的偵測能力，以擴大感受野以及融合不同尺度特徵圖的信息，以更好地進行特徵融合。而本實施例的各該多尺度層12、22、32是採用但不限於YOLOv4中的SPP(Spatial Pyramid Pooling)和PANet(Path Aggregation Network)架構。因此，該第一多尺度層12、該第二多尺度層22及該第三多尺度層32分別針對第一、第二及第三特徵圖61’、62’、63’進行進一步的特徵提取，並分別輸出第一、第二及第三最終特徵圖至相對應的第一預測層13、第二預測層23和第三預測層33，且本實施例的第一預測層13、第二預測層23和第三預測層33是採用YOLOv4中的Dense Prediction，且基於YOLO head進行開發，因此，該第一預測層13、第二預測層23和第三預測層33能分別根據輸入的第一、第二和第三最終特徵圖中的影像特徵進行候選框偵測以及物件辨識並分別輸出複數個候選物件資訊，每一個候選物件資訊至少包含一物件候選框及其對應的一信心指數(分數或機率)。且該等候選物件資訊被分別輸入該判定模組5。

該判定模組5在本實施例中是採用DIOU-NMS演算法，其中DIOU的全文為Distance Intersection over Union，NMS的全文為Non-Max Suppression，而DIOU-NMS演算法的主要原理為利用信心指數來判斷哪一個物件候選框是最佳的候選框。且由於DIOU-NMS演算法已是一習知演算法，且非本案主要重點所在，故在此不予詳述。藉此，該判定模組5將根據DIOU-NMS演算法之原理，從該等候選物件資訊中選出最佳的候選物件資訊，並將選出的一或一個以上的最佳候選物件資訊(包含物件的候選框及其信心指數)標註於各該可見光影像中。

因此，該電腦藉由上述複數組訓練用影像反覆訓練該影像物件辨識模型100，將使該影像物件辨識模型100的辨識率逐漸提升並收斂至一目標值，而獲得完成訓練的該影像物件辨識模型100，藉此，當一組待辨識影像中的一待辨識熱影像和一待辨識可見光影像被該電腦各別對應輸入完成訓練的該影像物件辨識模型100的該第一深度神經網路1和該第二深度神經網路2後，完成訓練的該影像物件辨識模型100的該第一深度神經網路1、該第二深度神經網路2及該第三深度神經網路3的輸出端(即第一預測層13、第二預測層23和第三預測層33的輸出端)將分別輸出與該組待辨識影像相關的複數個候選物件資訊至該判定模組5，其中每一個候選物件資訊包含框選物件的候選框及其信心指數，且該判定模組5將根據該等候選物件資訊，辨識出該待辨識可見光影像中的物件，並於輸出的該待辨識可見光影像中，將辨識的物件框選並標註其類別(例如人、車(汽車、卡車、機車、公車等)、動物(狗、貓、馬等)、植物等)。值得一提的是，本實施例也可應用但不限於台灣第110104936號專利申請案提供的雙影像融合方法，將該待辨識熱影像和該待辨識可見光影像融合成一融合影像後輸出，並根據影像辨識結果，將該融合影像中被辨識的物件框選並標註其類別。

綜上所述，上述實施例除了運用第一深度神經網路1和第二深度神經網路2分別對一組輸入的可見光影像和熱影像進行物件偵測及辨識外，還藉由該特徵融合層4連接第一深度神經網路1的該第一特徵提取層11與第二深度神經網路2的該第二特徵提取層 21，以獲取該第一特徵提取層11中之一第一CSP模組111輸出之經過特徵處理的該可見光影像(特徵圖)610以及獲取該第二特徵提取層21中之一第二CSP模組211輸出之經過特徵處理的該熱影像(特徵圖)620，並將經過特徵處理的該可見光影像610和相對應之經過特徵處理的該熱影像620融合成一融合影像63後，將該融合影像63輸入該第三深度神經網路3，使對該融合影像63進行物件偵測及辨識，使得第一、第二及第三深度神經網路1、2、3分別輸出複數個候選物件資訊至該判定模組5，使該判定模組5能根據該等候選物件資訊，辨識出該可見光影像中的物件，而且，本實施例的影像物件辨識模型100藉由同時採用在同一時間拍攝的可見光影像及熱影像進行影像物件辨識，可同時取得這兩種影像的特徵，而利用影像特徵互補的效果，進行全天候的影像辨識並提升物件辨識率，使影像物件辨識不致受限於時段、天候或環境的變化，也不需根據時段、天候或環境變化不斷地切換不同的影像辨識機制，確實達到本發明的功效與目的。

惟以上所述者，僅為本發明之實施例而已，當不能以此限定本發明實施之範圍，凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

S1~S3:步驟

Claims

一種影像物件辨識模型的訓練方法，由一電腦執行，並包括：該電腦執行一影像物件辨識模型，該影像物件辨識模型包含一第一深度神經網路、一第二深度神經網路、一第三深度神經網路、一與該第一深度神經網路、該第二深度神經網路和該第三深度神經網路連接的特徵融合層以及一判定模組；該第一深度神經網路包含一第一特徵提取層，該第一特徵提取層包含複數串接的第一跨階段局部模組，該等第一跨階段局部模組其中的一第一跨階段局部模組的輸出端具有第一個分歧點；該第二深度神經網路包含一第二特徵提取層，該第二特徵提取層包含複數串接的第二跨階段局部模組，該等第二跨階段局部模組其中的一第二跨階段局部模組的輸出端具有第一個分歧點；該特徵融合層的輸入端與具有該第一個分歧點的該第一跨階段局部模組的前一個第一跨階段局部模組的輸出端連接，並與具有該第一個分歧點的該第二跨階段局部模組的前一個第二跨階段局部模組的輸出端連接；該特徵融合層的輸出端與該第三深度神經網路的輸入端連接；該判定模組與該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端連接；於該電腦中預備複數組訓練用影像，每一組訓練用影像包含在同一時間拍攝且內容重疊的一可見光影像與一熱影像；及該電腦將該等訓練用影像的每一組訓練用影像中的該可見光影像和該熱影像各別對應輸入該第一深度神經網路和該第二深度神經網路，以對該第一深度神經網路和該第二深度神經網路進行訓練，且該特徵融合層接受由該前一個第一跨階段局部模組的輸出端輸出之經過特徵處理的各該可見光影像以及接受由該前一個第二跨階段局部模組的輸出端輸出之經過特徵處理的各該熱影像，並將經過特徵處理的各該可見光影像和相對應之經過特徵處理的各該熱影像融合成一融合影像後，將各該融合影像輸入該第三深度神經網路，以對該第三深度神經網路進行訓練，而獲得完成訓練的一影像物件辨識模型，使得一組待辨識影像中的一待辨識可見光影像和一待辨識熱影像被該電腦各別對應輸入完成訓練的該影像物件辨識模型的該第一深度神經網路和該第二深度神經網路後，完成訓練的該影像物件辨識模型的該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端將分別輸出與該組待辨識影像相關的複數個候選物件資訊至該判定模組，使該判定模組能根據該等候選物件資訊，辨識出該待辨識可見光影像中的物件。
如請求項1所述影像物件辨識模型的訓練方法，其中，該第一深度神經網路包含依序串接的一第一輸入層、該第一特徵提取層、一第一多尺度層及一第一預測層，且該第一跨階段局部模組的該第一個分歧點與該第一多尺度層連接；該第二深度神經網路包含依序串接的一第二輸入層、該第二特徵提取層、一第二多尺度層及一第二預測層，且該第二跨階段局部模組的該第一個分歧點與該第二多尺度層連接；該第三深度神經網路包含依序串接的一第三特徵提取層、一第三多尺度層及一第三預測層；該判定模組與該第一預測層、該第二預測層及該第三預測層的輸出端連接；每一組訓練用影像中的該可見光影像和該熱影像各別由對應的該第一輸入層和該第二輸入層輸入，以對該第一深度神經網路和該第二深度神經網路進行訓練，且該融合影像被輸入至該第三特徵提取層，以對該第三深度神經網路進行訓練；且該待辨識可見光影像和該待辨識熱影像被各別對應輸入完成訓練的該影像物件辨識模型的該第一深度神經網路的該第一輸入層和該第二深度神經網路的該第二輸入層後，完成訓練的該影像物件辨識模型的該第一深度神經網路的該第一預測層、該第二深度神經網路的該第二預測層及該第三深度神經網路的該第三預測層的輸出端分別輸出與該組待辨識影像相關的複數個候選物件資訊至該判定模組。
如請求項1所述影像物件辨識模型的訓練方法，其中每一組訓練用影像包含的該熱影像是預先根據相對應的該可見光影像進行影像校正，而能與該可見光影像良好地融合的校正後熱影像；且該組待辨識影像中的該待辨識熱影像是預先根據該待辨識可見光影像進行影像校正，而能與該待辨識可見光影像良好地融合的校正後待辨識熱影像。
一種影像物件辨識模型，其係根據請求項1至3其中任一項所述影像物件辨識模型的訓練方法訓練而成，而能接受包含在同一時間拍攝且內容重疊的一待辨識可見光影像與一待辨識熱影像的一組待辨識影像，以根據該待辨識可見光影像與該待辨識熱影像辨識出該待辨識可見光影像中的物件。
一種影像物件辨識模型，其接受包含在同一時間拍攝且內容重疊的一可見光影像與一熱影像的一組影像，以根據該可見光影像與該熱影像辨識該可見光影像中的物件，並包括：一第一深度神經網路，其接受該可見光影像輸入，並包含一第一特徵提取層，該第一特徵提取層包含複數串接的第一跨階段局部模組，該等第一跨階段局部模組其中的一第一跨階段局部模組的輸出端具有第一個分歧點；一第二深度神經網路，其接受該熱影像輸入，並包含一第二特徵提取層，該第二特徵提取層包含複數串接的第二跨階段局部模組，該等第二跨階段局部網路其中的一第二跨階段局部模組的輸出端具有第一個分歧點；一第三深度神經網路；一特徵融合層，其輸入端與具有該第一個分歧點的該第一跨階段局部模組的前一個第一跨階段局部模組的輸出端連接，並與具有該第一個分歧點的該第二跨階段局部模組的前一個第二跨階段局部模組的輸出端連接，且該特徵融合層的輸出端與該第三深度神經網路的輸入端連接，該特徵融合層接受由該前一個第一跨階段局部模組的輸出端輸出之經過特徵處理的該可見光影像以及接受由該前一個第二跨階段局部模組的輸出端輸出之經過特徵處理的該熱影像，並將經過特徵處理的該可見光影像和相對應之經過特徵處理的該熱影像融合成一融合影像，再將該融合影像輸入該第三深度神經網路；及一判定模組，其與該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端連接，且該第一深度神經網路、該第二深度神經網路及該第三深度神經網路的輸出端分別輸出與該組影像相關的複數個候選物件資訊至該判定模組，該判定模組根據該等候選物件資訊，辨識該可見光影像中的物件。
如請求項5所述的影像物件辨識模型，其中，該第一深度神經網路包含依序串接的一第一輸入層、該第一特徵提取層、一第一多尺度層及一第一預測層，且該第一跨階段局部模組的該第一個分歧點與該第一多尺度層連接；該第二深度神經網路包含依序串接的一第二輸入層、該第二特徵提取層、一第二多尺度層及一第二預測層，且該第二跨階段局部模組的該第一個分歧點與該第二多尺度層連接；該第三深度神經網路包含依序串接的一第三特徵提取層、一第三多尺度層及一第三預測層；該判定模組與該第一預測層、該第二預測層及該第三預測層的輸出端連接；且該可見光影像和該熱影像被各別對應輸入該第一輸入層和該第二輸入層，該融合影像被輸入至該第三特徵提取層，該第一預測層、該第二預測層及該第三預測層的輸出端分別輸出與該組影像相關的複數個候選物件資訊至該判定模組。
如請求項5所述的影像物件辨識模型，其中該熱影像是預先根據該可見光影像進行影像校正，而能與該可見光影像良好地融合的校正後熱影像。