TWI888949B - 影像物件辨識模型的訓練方法、影像物件辨識模型及電腦可存取的記錄媒體 - Google Patents
影像物件辨識模型的訓練方法、影像物件辨識模型及電腦可存取的記錄媒體 Download PDFInfo
- Publication number
- TWI888949B TWI888949B TW112138531A TW112138531A TWI888949B TW I888949 B TWI888949 B TW I888949B TW 112138531 A TW112138531 A TW 112138531A TW 112138531 A TW112138531 A TW 112138531A TW I888949 B TWI888949 B TW I888949B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- feature map
- layer
- image
- module
- Prior art date
Links
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一種影像物件辨識模型的訓練方法,由一電腦裝置執行待訓練的一影像物件辨識模型,該電腦裝置依序將每一組訓練用影像輸入該影像物件辨識模型,由該影像物件辨識模型對每一組訓練用影像包含之在同一時間拍攝且內容重疊的一可見光影像與一熱影像,藉由基於像素對齊模組和基於錨框對齊模組改善雙影像因視野不同造成之特徵偏移,藉由跨模態特徵強化模組針對雙影像特徵強化不同模態的特徵特點,並融合雙影像的全域特徵和區域特徵,而達到多物件偵測效果的提升。
Description
本發明是有關於一種影像物件辨識模型及其訓練方法,特別是指一種能根據同一成像時間獲得之同一場景的熱影像與可見光影像進行影像物件辨識的影像物件辨識模型及其訓練方法。
可見光相機(RGB Camera)在天候良好、光線明亮時,其拍攝範圍內之物件成像效果良好,但在光線昏暗,如夜晚無光源處,其成像效果則與光線強弱成反比。而在雨、雪、霧等天候不良或有煙、塵的環境時,則易遭遮蔽且無法穿透,成像效果不佳,以致影響辨識影像中之物件的識別率。熱感攝影機(或稱紅外線相機,Thermal Camera)在天候不佳或光線昏暗環境下,其成像效果較可見光相機佳,但熱感攝影機僅能描繪物件的外型,不能顯示物件的細節輪廓,例如無法顯示人臉的細部特徵,且當所拍攝的相鄰物件溫度相近時,熱感攝影機易混淆相鄰物件而影響辨識影像中之物件的識別率。
因此,為解決上述問題,傳統採用上述兩種影像進行影
像中之物件辨識的方法會設定一個切換機制,例如白天使用可見光相機拍攝的可見光影像進行物件辨識,晚上則切換至使用熱感攝影機拍攝的熱影像進行物件辨識;但此種做法需要特別考慮時段而且過度依賴單一種影像,例如即使在晚上但燈火通明的地方,可見光影像的成像效果未必較熱影像差,反之,即使在晚上但溫度差異不大的環境,例如冬天或冰天雪地的地方,熱影像的成像效果亦不見得較可見光影像佳。
因此,若能同時採用上述兩種影像進行影像物件辨識,可利用影像互補的效果,而不需考量時段或環境的變化對應切換不同的影像辨識機制,並可進行全天候的影像辨識。
因此,本發明之目的,即在提供一種影像物件辨識模型的訓練方法、被該方法訓練的一種影像物件辨識模型以及儲存該影像物件辨識模型的一種電腦可存取的記錄媒體,該影像物件辨識模型同時採用內容重疊的熱影像與可見光影像進行影像物件辨識,利用影像互補的效果,達到全天候影像辨識。
於是,本發明一種影像物件辨識模型的訓練方法,包括:
A、一電腦裝置的一處理單元執行預先載入之待訓練的一影像物件辨識模型,該影像物件辨識模型包括一第一骨幹層、一第二骨幹層、一第三骨幹層、與該第三骨幹層串接的一跨模態特徵強化模組、與
該第一骨幹層和該第二骨幹層連接的一第一照度網路、與該第一照度網路和該跨模態特徵強化模組連接的一第一基於像素對齊模組、與該第三骨幹層連接的一第一多尺度層、與該第一多尺度層連接的一全域融合偵測層、與該第一骨幹層和該第二骨幹層連接的一第二照度網路、與該第二照度網路連接的一第二基於像素對齊模組、與該第二基於像素對齊模組連接的一第二多尺度層、與該第二多尺度層連接的一區域融合偵測層、與該全域融合偵測層和該區域融合偵測層連接的一基於錨框對齊模組以及與該基於錨框對齊模組連接的一物件判定模組;及B、該電腦裝置提供複數組訓練用影像給該處理單元,每一組訓練用影像包含在同一時間拍攝且內容重疊的一可見光影像與一熱影像;該處理單元依序將每一組訓練用影像輸入該影像物件辨識模型,以藉由反覆執行下述動作訓練該影像物件辨識模型。
B1、將該可見光影像和該熱影像各別對應輸入該第一骨幹層和該第二骨幹層,並將該可見光影像輸入該第一照度網路和該第二照度網路,使該第一骨幹層對該可見光影像進行區域特徵提取並輸出一第一特徵圖至該第一照度網路和該跨模態特徵強化模組,並使該第二骨幹層對該熱影像進行區域特徵提取並輸出一第二特徵圖至該第一照度網路和該跨模態特徵強化模組;且該第一照度網路和該第二照度網路根據該可見光影像求得與明亮環境相關的
一第一權重和與陰暗環境相關的一第二權重。
B2、該第一照度網路將該第一特徵圖以該第一權重加權以產生一加權後第一特徵圖,且將該第二特徵圖以該第二權重加權以產生一加權後第二特徵圖,並將該加權後第一特徵圖和該加權後第二特徵圖輸出至該第一基於像素對齊模組。
B3、該第一基於像素對齊模組根據該加權後第一特徵圖的特徵像素和該加權後第二特徵圖的特徵像素各自與一偏移場域之間的一偏移量,校正該加權後第一特徵圖和該加權後第二特徵圖,以產生特徵像素對齊的一校正且加權後第一特徵圖和一校正且加權後第二特徵圖,並將該校正且加權後第一特徵圖與該校正且加權後第二特徵圖相疊合而產生並輸出一第一融合特徵圖至該跨模態特徵強化模組。
B4、該跨模態特徵強化模組利用基於移位窗口的自注意力機制對輸入的該第一特徵圖、該第二特徵圖和該第一融合特徵圖進行全域特徵擷取,以對應產生三個強化特徵圖,並分別輸出三個強化特徵圖至相對應的該第一骨幹層、該第二骨幹層和該第三骨幹層。
B5、該第三骨幹層對該跨模態特徵強化模組輸出的該強化特徵圖進行特徵擷取而產生並輸出一特徵圖至該第一多尺度層;該第一骨幹層基於該第一特徵圖與該跨模態特徵強化模組輸出
的該強化特徵圖進行特徵提取以產生並輸出一特徵圖至該第二照度網路,且該第二骨幹層基於該第二特徵圖與該跨模態特徵強化模組輸出的該強化特徵圖進行特徵提取以產生並輸出一特徵圖至該第二照度網路。
B6、該第一多尺度層對該第三骨幹層輸出的該特徵圖進行基於不同尺度的特徵擷取,以產生並輸出一特徵圖至該全域融合偵測層;該全域融合偵測層根據該第一多尺度層輸出的該特徵圖中的影像特徵進行候選框偵測和物件辨識,以產生並輸出具有複數個第一候選物件資訊的一特徵圖至該基於錨框對齊模組。
B7、該第二照度網路將該第一骨幹層輸出的該特徵圖以該第一權重加權以產生一加權後特徵圖,且將該第二骨幹層輸出的該特徵圖以該第二權重加權以產生一加權後特徵圖,並將該二個加權後特徵圖輸出至該第二基於像素對齊模組。
B8、該第二基於像素對齊模組根據該第二照度網路輸出的該二個加權後特徵圖的特徵像素各自與一偏移場域之間的一偏移量,校正該二個加權後特徵圖,以產生特徵像素對齊的二個校正且加權後特徵圖,並將該二個校正且加權後特徵圖相疊合而產生並輸出一融合特徵圖至該第二多尺度層;該第二多尺度層對該第二基於像素對齊模組輸出的該融合特徵圖進行基於不同尺度的特徵擷取,以產生並輸出一特徵圖至該區域融合偵測層;該區域融合偵
測層根據該第二多尺度層輸出的該特徵圖中的影像特徵進行候選框偵測和物件辨識,以產生並輸出具有複數個第二候選物件框的一特徵圖至該基於錨框對齊模組。
B9、該基於錨框對齊模組根據輸入的二個特徵圖對應的該等第一候選物件框和該等第二候選物件框的相對偏移位置,校正該等第一候選物件框和該等第二候選物件框,使校正後的該等第一候選物件框和校正後的該等第二候選物件框及其所涵蓋的影像物件對齊,以此產生並輸出具有複數個最終候選物件框的一特徵圖至該物件判定模組。
B10、該物件判定模組根據該基於錨框對齊模組輸出的該特徵圖中的該等最終候選物件框所對應的信心指數,從該等最終候選物件框選出最佳的候選物件框,並將選出的最佳候選物件框顯示在該可見光影像中。
在本發明的一些實施態樣中,每一組訓練用影像包含的該熱影像是預先以一座標投影矩陣校正的校正後熱影像,使該校正後熱影像能與相對應的該可見光影像對齊,且該座標投影矩陣是根據該熱影像與相對應的該可見光影像兩者的視野差異而求得。
在本發明的一些實施態樣中,該跨模態特徵強化模組包含依序串連的四個特徵強化層,該等特徵強化層包含用於正規化輸入的特徵的一正規化層;第一個特徵強化層包含的W-MSA層和
第三個特徵強化層包含的SW-MSA層對輸入的特徵進行多頭自注意力處理以提取特徵;第二個和第四個特徵強化層包含的一卷積層對輸入的特徵進行卷積運算以提取特徵。
在本發明的一些實施態樣中,該基於錨框對齊模組包含依序串連的一特徵融合層、一錨框位移層及一卷積層,該特徵融合層將輸入的二個特徵圖相疊合成為一融合特徵圖,再由該錨框位移層根據該融合特徵圖中該等第一候選物件框和該等第二候選物件框的相對偏移位置,校正該等第一候選物件框和該等第二候選物件框,使校正後的該等第一候選物件框和校正後的該等第二候選物件框及其所涵蓋的影像物件對齊,再由該卷積層對該融合特徵圖進行卷積運算以降維,並輸出具有該等最終候選物件框的該特徵圖。
在本發明的一些實施態樣中,該跨模態特徵強化模組是第一個跨模態特徵強化模組,且該影像物件辨識模型還包括與第一個跨模態特徵強化模組和該第三骨幹層串接的第二個跨模態特徵強化模組和第三個跨模態特徵強化模組;且步驟B5還包括下列步驟。
B51、該第一骨幹層基於該第一特徵圖與該強化特徵圖進行特徵提取而產生的該特徵圖被輸入第二個跨模態特徵強化模組,且該第二骨幹層基於該第二特徵圖與該強化特徵圖進行特徵提取而產生的該特徵圖被輸入第二個跨模態特徵強化模組,該第三骨
幹層對該強化特徵圖進行特徵擷取而產生的該特徵圖被輸入第二個跨模態特徵強化模組。
B52、第二個跨模態特徵強化模組對輸入的三個特徵圖進行特徵強化,以對應產生三個強化特徵圖,並分別輸出該三個強化特徵圖至相對應的該第一骨幹層、該第二骨幹層和該第三骨幹層。
B53、該第一骨幹層基於輸入該第二個跨模態特徵強化模組的該特徵圖和該第二個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出一特徵圖至該第三個跨模態特徵強化模組;該第二骨幹層基於輸入該第二個跨模態特徵強化模組的該特徵圖和該第二個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出一特徵圖至該第三個跨模態特徵強化模組;該第三骨幹層對第二個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出一特徵圖至該第三個跨模態特徵強化模組。
B54、第三個跨模態特徵強化模組對輸入的三個特徵圖進行特徵強化,以對應產生三個強化特徵圖,並分別輸出三個強化特徵圖至相對應的該第一骨幹層、該第二骨幹層和該第三骨幹層。
B55、該第三骨幹層對第三個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出該特徵圖至該第一多尺度層;該第一骨幹層基於輸入該第三個跨模態特徵強化模組的該特徵圖和該第三個跨模態特徵強化模組輸出的強化特徵圖進行特徵
提取而產生並輸出該特徵圖至該第二照度網路;該第二骨幹層基於輸入該第三個跨模態特徵強化模組的該特徵圖和該第三個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出該特徵圖至該第二照度網路。
此外,本發明一種影像物件辨識模型,其係根據上述影像物件辨識模型的訓練方法訓練而成,而能接受包含在同一時間拍攝且內容重疊的一待辨識可見光影像與一待辨識熱影像的一組待辨識影像,以根據該待辨識可見光影像與該待辨識熱影像辨識出該待辨識可見光影像中的物件。
再者,本發明一種電腦可存取的記錄媒體,其中存有如上所述影像物件辨識模型的訓練方法中記載的該影像物件辨識模型,且該影像物件辨識模型藉由如上所述影像物件辨識模型的訓練方法訓練完成後,能根據輸入之在同一時間拍攝且內容重疊的一可見光影像與一熱影像辨識該可見光影像中的物件。
本發明之功效在於:藉由照度網路根據可見光影像呈現的照度調整可見光影像的特徵圖和熱影像的特徵圖的比重,並藉由基於像素對齊模組和基於錨框對齊模組改善雙影像因視野不同造成之特徵偏移;且藉由跨模態特徵強化模組針對雙影像特徵的不平衡,套用自注意力機制強化不同模態的特徵特點,改善模型經過訓練後的特徵丟失,並融合全域特徵和區域特徵,進行全天候的影
像辨識並提升物件辨識率。
100、200、300:影像物件辨識模型
11:第一骨幹層
111:聚焦層
112:第一跨階段局部網路(第一CSPNet)
113:第一跨階段局部模組(第一CSP模組)
114:加法器
12:第二骨幹層
121:聚焦層
122:第二跨階段局部網路(第二CSPNet)
123:第二CSP模組
124:加法器
13:第三骨幹層
131:跨模態特徵強化(CMR)模組
132:第三跨階段局部模組(第三CSP模組)
133:加法器
134:第一特徵強化層
135:第二特徵強化層
136:第三特徵強化層
137:第四特徵強化層
14:第一照度網路
15:第一基於像素對齊模組
16:第一多尺度層
17:全域融合偵測層
171:第一候選特徵圖
18:第二照度網路
19:第二基於像素對齊模組
20:第二多尺度層
21:區域融合偵測層
211:第二候選特徵圖
22:基於錨框對齊模組
22a:最終特徵圖
221:特徵融合層
222:錨框位移層
223:卷積層
23:物件判定模組
3、3’:可見光影像
4、4’:熱影像
3a:第一特徵圖
3b:加權後第一特徵圖
3c:校正且加權後第一特徵圖
3d:第一強化特徵圖
3e:第一混合特徵圖
3f:第三特徵圖
3g:第三強化特徵圖
3h:第三混合特徵圖
3i:第五特徵圖
3j:第五強化特徵圖
3k:第五混合特徵圖、混合特徵圖
3l:第七特徵圖、特徵圖
3m:加權後第三特徵圖
3n:校正且加權後第三特徵圖
4a:第二特徵圖
4b:加權後第二特徵圖
4c:校正且加權後第二特徵圖
4d:第二強化特徵圖
4e:第二混合特徵圖
4f:第四特徵圖
4g:第四強化特徵圖
4h:第四混合特徵圖
4i:第六特徵圖
4j:第六強化特徵圖
4k:第六混合特徵圖、混合特徵圖
4l:第八特徵圖、特徵圖
4m:加權後第四特徵圖
4n:校正且加權後第四特徵圖
5a:第一融合特徵圖
5b:第一強化融合特徵圖
5c:第三融合特徵圖
5d:第二強化融合特徵圖
5e:第四融合特徵圖
5f:第三強化融合特徵圖、強化融合特徵圖
5g:第五融合特徵圖
5h:第一最終融合特徵圖
6a:第五融合特徵圖
6b:第二最終融合特徵圖
S1~S3、S31~S47:步驟
本發明之其他的特徵及功效,將於參照圖式的實施方式中清楚地顯示,其中:圖1是本發明影像物件辨識模型的訓練方法的第一實施例的主要流程;圖2是第一實施例的影像物件辨識模型的架構方塊示意圖;圖3A~圖3D是第一實施例訓練影像物件辨識模型的細部流程;及圖4是第一實施例的CMR模組的細部架構方塊示意圖;圖5是第一實施例的基於錨框對齊模組的細部架構方塊示意圖;圖6是本發明的影像物件辨識模型的第二實施例的架構方塊示意圖;及圖7是本發明的影像物件辨識模型的第三實施例的架構方塊示意圖。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
參閱圖1所示,是本發明影像物件辨識模型的訓練方
法的一第一實施例的主要流程步驟,首先,如圖1的步驟S1,本實施例由一電腦裝置(圖未示)的一處理單元(例如中央處理器)執行預先載入之待訓練的一影像物件辨識模型100,該影像物件辨識模型100是儲存在一電腦電存取的記錄媒體,例如該電腦裝置的記憶體模組或硬碟中的軟體程式,且該影像物件辨識模型100可以是基於YOLO系列,例如YOLOv2、YOLOv3、YOLOv4、YOLOv5、YOLOv7、YOLOv8、YOLOR、ScaledYOLOv4等至少其中之一進行開發的物件偵測模型,本實施例的該影像物件辨識模型100將以基於YOLOv5開發1的架構進行說明。
如圖2所示,該影像物件辨識模型100主要包括第一骨幹(backbone)層11、一第二骨幹層12、一第三骨幹層13、與該第三骨幹層13串接的三個跨模態特徵強化(Cross-modality Reinforcement Module,以下簡稱CMR)模組131、一第一照度網路(Illumination Mechanism)14、一第一基於像素對齊(Pixel-based Alignment)模組15、一第一多尺度層16、一全域融合偵測層(Global Fusion Detection Head)17、一第二照度網路18、一第二基於像素對齊模組19、一第二多尺度層20、一區域融合偵測層(Local Fusion Detection Head)21、一基於錨框對齊(Anchor-based Alignment)模組22及一物件判定模組23。
該第一骨幹層11包含一聚焦(Focus)層111和一第一
跨階段局部網路(Cross Stage Partial Network,以下簡稱CSPNet)112;該聚焦(Focus)層111主要對輸入的圖像進行切片及堆疊,類似於鄰近下採樣(縮小圖像),再對得到的新圖片經過卷積操作,以得到沒有信息丟失的下採樣特徵圖,並輸出特徵圖至該第一CSPNet112。CSPNet是YOLO的現有技術且非本案重點所在,故在此不予詳述。
該第一CSPNet112的主要目的是使網路架構能夠獲取更豐富的梯度融合信息並降低計算量,具體而言,該第一CSPNet112包含複數個串連的第一跨階段局部模組(CSP1)113(以下簡稱第一CSP模組113)和連接在相鄰的兩兩第一跨階段局部(CSP1)模組113之間的複數個加法器114。本實施例是以該第一CSPNet112包含四個第一CSP模組113和三個連接相鄰的兩兩第一CSP模組113的加法器114為例。
該第二骨幹層12具有和該第一骨幹層12相同的架構,而同樣具有一聚焦(Focus)層121和一第二跨階段局部網路(Cross Stage Partial Network,以下簡稱CSPNet)122,並以該第二CSPNet122包含四個第二CSP模組123和三個連接相鄰的兩兩第二CSP模組123的加法器124為例。
值得一提的是,上述的該聚焦(Focus)層111、121並非必要,也可以視實際應用情況被省略。
在本實施例中,該第三骨幹層13包含與各CMR模組131的輸出端連接的三個第三跨階段局部(CSP)模組132。其中,第一個CMR模組131與該第一骨幹層11中的第一個該第一CSP模組113的輸出端和第一個該第一加法器114連接,並與該第二骨幹層12中的第一個該第二CSP模組123的輸出端和第一個該第二加法器124連接;第二個CMR模組131與該第一骨幹層11中的第二個該第一CSP模組113的輸出端和第二個該第一加法器114連接,並與該第二骨幹層12中的第二個該第二CSP模組123的輸出端和第二個該第二加法器124連接;第三個CMR模組131與該第一骨幹層11中的第三個該第一CSP模組113的輸出端和第三個該第一加法器114連接,並與該第二骨幹層12中的第三個該第二CSP模組123的輸出端和第三個該第二加法器124連接。
該第一照度網路14與該第一骨幹層11中的第一個該第一CSP模組113的輸出端和該第二骨幹層12中的第一個該第二CSP模組123的輸出端連接。
該第一基於像素對齊模組15與該第一照度網路14的輸出端和第一個CMR模組131的輸入端連接。
該第一多尺度層16,又稱頸部(Neck)層,其與該第三骨幹層13的最後一個(即第三個)該第三CSP模組132的輸出端連接。該第一多尺度層16也是由多個跨階段局部(CSP2)模組161
組成。
該全域融合偵測層17與該第一多尺度層16的輸出端連接。
該第二照度網路18與該第一骨幹層11的輸出端,即最後一個該第一CSP模組113的輸出端和該第二骨幹層12的輸出端,即最後一個該第二CSP模組123的輸出端連接。此外,該第一照度網路14和該第二照度網路18是採用相同的深度學習網路,例如基於卷積神經網路(CNN)的R-CNN,且皆被預先訓練完成而能夠偵測輸入的一影像中的照度(亮度)以輸出與明亮環境相關(表徵明亮環境,例如白天、晴天)的一第一權重和與陰暗環境相關(表徵陰暗環境,例如夜晚、陰天或隧道)的一第二權重,亦即,該第一權重代表明亮的機率,該第二權重代表陰暗的機率,因此該第一權重和該第二權重的總和為1。由於照度網路是現有技術且非本案重點所在,故在此不予詳述,有關照度網路(Illumination Mechanism)的技術細節可以參見論文「Improving Multispectral Pedestrian Detection by Addressing Modality Imbalance Problems」其中的「3.2 Illumination Aware Feature Alignment Module」以及論文「Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection」。
該第二基於像素對齊模組19與該第二照度網路18的
輸出端連接。且該第二基於像素對齊模組19與該第一基於像素對齊模組15相同。
該第二多尺度層20與該第二基於像素對齊模組19的輸出端連接。且該第二多尺度層20具有與該第一多尺度層16相同的組成架構。
該區域融合偵測層21與該第二多尺度層20的輸出端連接。該區域融合偵測層21與該全域融合偵測層17具有相同的架構,且都是基於YOLOv5的Head架構開發。
該基於錨框對齊模組22與該全域融合偵測層17的輸出端和該區域融合偵測層21的輸出端連接。
該物件判定模組23與該基於錨框對齊模組22的輸出端連接。該物件判定模組23在本實施例中是採用DIOU-NMS演算法,其中DIOU的全文為Distance Intersection over Union,NMS的全文為Non-Max Suppression,而DIOU-NMS演算法的主要原理為利用信心指數來判斷輸入的多個物件候選框其中哪些是最佳的候選框。且由於DIOU-NMS演算法已是一習知演算法,且非本案主要重點所在,故在此不予詳述。
此外,上述的CSPNet、多尺度層和該物件判定模組23的具體細部架構並非本案技術重點所在,可參見上述公開的YOLO系列的相關文獻或介紹,故在此不予贅述。
然後,如圖1的步驟S2,該電腦裝置提供複數組訓練用影像給該處理單元,每一組訓練用影像包含在同一時間拍攝且內容重疊的一可見光影像與一熱影像;具體而言,該等訓練用影像例如是由設置在一車輛上的一影像擷取系統收集,該影像擷取系統包含並排地固定在車輛前面的一可見光相機及一熱影像相機,以透過該可見光相機和該熱影像同時拍攝可見光影像和熱影像;此外,該影像擷取系統還事先基於該可見光相機的視野(或視角,簡稱FOV)與該熱影像相機的視野兩者之間的差異,計算出用以校正熱影像的一座標投影矩陣,並以該座標投影矩陣校正該熱影像相機拍攝的熱影像,使校正後熱影像的涵蓋範圍能與相對應的可見光影像重疊,而能與相對應的可見光影像對齊,因此,每一組訓練用影像中的熱影像都是經過校正的熱影像。
接著,如圖1的步驟S3,該處理單元依序將每一組訓練用影像輸入該影像物件辨識模型100,以藉由圖3A~圖3D所示的流程和下述訓練過程訓練該影像物件辨識模型100。
首先,如圖3A的步驟S31,該可見光影像3和該熱影像4各別對應輸入該第一骨幹層11和該第二骨幹層12,使該第一骨幹層11的第一個該第一CSP模組113對該聚焦(Focus)層111輸出的一初始特徵圖進行區域(Local)特徵擷取,以產生並分別輸出一第一特徵圖3a至該第一照度網路14、第一個CMR模
組131及第一個該第一加法器114,並使該第二骨幹層12的第一個該第二CSP模組123對該聚焦(Focus)層121輸出的一初始特徵圖進行區域特徵擷取,以產生並分別輸出一第二特徵圖4a至該第一照度網路14、第一個CMR模組131及第一個該第二加法器124。
同時,該第一照度網路14和該第二照度網路18根據輸入的(每一組訓練用影像中的)該可見光影像求得與明亮環境相關的該第一權重和與陰暗環境相關的該第二權重。
然後,如圖3A的步驟S32,該第一照度網路14將輸入的該第一特徵圖3a以該第一權重加權以產生一加權後第一特徵圖3b,且將該第二特徵圖4a以該第二權重加權以產生一加權後第二特徵圖4b,並將該加權後第一特徵圖3b和該加權後第二特徵圖4b輸出至該第一基於像素對齊模組15。
接著,如圖3的步驟S33,該第一基於像素對齊(校正)模組15根據輸入的該加權後第一特徵圖3b的特徵像素和該加權後第二特徵圖4b的特徵像素各自與一偏移場域(offset field)之間的一偏移量(offset),校正該加權後第一特徵圖3b的特徵像素和該加權後第二特徵圖4b的特徵像素的位置,而產生特徵像素對齊的一校正且加權後第一特徵圖3c和一校正且加權後第二特徵圖4c,並將該校正且加權後第一特徵圖3c與該校正且加權後第二特徵圖
4c相疊合而產生並輸出一第一融合特徵圖5a至該第三骨幹層13的第一個CMR模組131。
其中,該偏移場域(offset field)是透過額外的卷積層學習該加權後第一特徵圖3b的特徵像素要如何偏移以及該加權後第二特徵圖4b的特徵像素要如何偏移,才會讓該加權後第一特徵圖3b和該加權後第二特徵圖4b的特徵像素對齊,並藉此得到與該加權後第一特徵圖3b的特徵像素和該加權後第二特徵圖4b的特徵像素對應的複數個偏移(校正)參考點,然後,該第一基於像素對齊(校正)模組15根據該偏移場域中的該等偏移參考點與該加權後第一特徵圖3b中相對應的每一特徵像素之間的一偏移量(offset)以及該等偏移參考點與該加權後第二特徵圖4b的每一特徵像素之間的一偏移量,校正該加權後第一特徵圖3b的特徵像素和該加權後第二特徵圖4b的特徵像素的位置,其技術細節可以參見「Improving Multispectral Pedestrian Detection by Addressing Modality Imbalance Problems」該篇論文第8頁對於Fig.4的說明和第9頁第1段說明,以及https://zhuanlan.zhihu.com/p/52476083的記載內容。
接著,如圖3A的步驟S34,第一個CMR模組131利用基於移位窗口的自注意力(self-attention)機制對輸入的該第一特徵圖3a、該第二特徵圖4a和該第一融合特徵圖5a進行全域特
徵擷取,以強化不同模態的特徵特點,改善模型經過訓練後的特徵丟失,而對應產生一第一強化特徵圖3d、一第二強化特徵圖4d及一第一強化融合特徵圖5b,並輸出該第一強化特徵圖3d至該第一骨幹層11的第一個該第一加法器114,輸出該第二強化特徵圖4d至該第二骨幹層12的第一個該第二加法器124,輸出該第一強化融合特徵圖5b至該第三骨幹層13的第一個該第三CSP模組132。
具體而言,如圖4所示,CMR模組131是參考swim Transformer架構開發,並包括透過加法器133依序串連的一第一特徵強化層134、一第二特徵強化層135、一第三特徵強化層136和一第四特徵強化層137;且CMR模組131會先透過Patch Embedding處理,將二維的該第一特徵圖3a、該第二特徵圖4a和該第一融合特徵圖5a轉換成一維的一第一特徵陣列41,再將該第一特徵陣列41輸入該第一特徵強化層134。其中,Patch Embedding是一種將二維影像切分為一維圖塊向量的演算法,其技術細節可以參見「AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE」此一論文。
其中第一至第四特徵強化層134~137中的LN(Layer Normalization,層正規化)層主要用於正規化特徵,以確保輸出的特徵數值在同一分布;第一特徵強化層134中的W-MSA層和
第三特徵強化層136中的SW-MSA層如同原始論文記載,主要都是對輸入的特徵進行多頭自注意力(Multi-headed Self-Attention)處理,其處理目的皆為特徵提取。其中W-MSA層是對windows內的特徵做自注意力(Self-Attention)處理,SW-MSA層是先對windows做平移,再將新的windows內的特徵做自注意力(Self-Attention)處理,有關windows如何進行及平移(shift)可以參考swim Transformer的原始論文「Swin Transformer:Hierarchical Vision Transformer using Shifted Windows」。而第二和第四特徵強化層135、137中的conv(Convolutional,卷積)層則是對輸入的特徵進行卷積運算以提取特徵,且本實施例以conv層取代swim Transformer中的MLP層的主要原因是經由實驗得知conv層會讓物件偵測(辨識)結果更好。
且該第一特徵陣列41經過第一至第四特徵強化層134~137處理後,該第四特徵強化層137會產生並輸出一維的一第二特徵陣列42,CMR模組131再將該第二特徵陣列42轉換成二維的該第一強化特徵圖3d、該第二強化特徵圖4d及該第一強化融合特徵圖5b並輸出。
接著,如圖3B的步驟S35,第一個該第一加法器114將第一個CMR模組131輸出的該第一強化特徵圖3d與該第一特
徵圖3a相加,以產生並輸出一第一混合特徵圖3e至第二個該第一CSP模組113;且第一個該第二加法器124將第一個CMR模組131輸出的該第二強化特徵圖4d與該第二特徵圖4a相加,以產生並輸出一第二混合特徵圖4e至第二個該第二CSP模組123。第二個該第一CSP模組113對該第一混合特徵圖3e進行特徵提取以產生並輸出一第三特徵圖3f至第二個該第一加法器114和第二個CMR模組131,且第二個該第二CSP模組123對該第二混合特徵圖4e進行特徵提取以產生並輸出一第四特徵圖4f至第二個該第二加法器114和第二個CMR模組131,且該第三骨幹層13的第一個該第三CSP模組132對該第一強化融合特徵圖5b再次進行特徵擷取而產生並輸出一第三融合特徵圖5c至第二個CMR模組131。
接著,如圖3B的步驟S36,第二個CMR模組131重覆第一個CMR模組131的動作,利用基於移位窗口的自注意力(self-attention)機制對第二個該第一CSP模組113輸出的一第三特徵圖3f、第二個該第二CSP模組123輸出的一第四特徵圖4f以及第一個該第三CSP模組132輸出的第三融合特徵圖5c進行特徵強化,以對應產生一第三強化特徵圖3g、一第四強化特徵圖4g及一第二強化融合特徵圖5d,並輸出該第三強化特徵圖3g至該第一骨幹層11的第二個該第一加法器114,輸出該第四強化特徵圖4g至該第二骨幹層12的第二個該第二加法器124,輸出該第
二強化融合特徵圖5d至該第三骨幹層13的第二個該第三CSP模組132。
接著,如圖3B的步驟S37,第二個該第一加法器114將第二個CMR模組131輸出的該第三強化特徵圖3g與該第三特徵圖3f相加,以產生並輸出一第三混合特徵圖3h至第三個該第一CSP模組113;且第二個該第二加法器124將第二個CMR模組131輸出的該第四強化特徵圖4g與該第四特徵圖4f相加,以產生並輸出一第四混合特徵圖4h至第三個該第二CSP模組123。且第三個該第一CSP模組113對該第三混合特徵圖3h進行特徵提取以產生並輸出一第五特徵圖3i至第三個該第一加法器114和第三個CMR模組131;且第三個該第二CSP模組123對該第四混合特徵圖4h進行特徵提取以產生並輸出一第六特徵圖4i至第三個該第二加法器114和第三個CMR模組131;且該第三骨幹層13的第二個該第三CSP模組132對該第二強化融合特徵圖5d再次進行特徵擷取而產生並輸出一第四融合特徵圖5e至第三個CMR模組131。
接著,如圖3B的步驟S38,第三個CMR模組131同樣地重覆第一個CMR模組131的動作,利用基於移位窗口的自注意力(self-attention)機制對第三個該第一CSP模組113輸出的一第五特徵圖3i、第三個該第二CSP模組123輸出的一第六特徵
圖4i以及第二個該第三CSP模組131輸出的第四融合特徵圖5e進行特徵強化,以對應產生一第五強化特徵圖3j、一第六強化特徵圖4j及一第三強化融合特徵圖5f,並輸出該第五強化特徵圖3j至該第一骨幹層11的第三個該第一加法器114,輸出該第六強化特徵圖4j至該第二骨幹層12的第三個該第二加法器124,輸出該第三強化融合特徵圖5f至該第三骨幹層13的第三個該CSP模組132。
接著,如圖3C的步驟S39,第三個該第一加法器114將第三個CMR模組131輸出的該第五強化特徵圖3j與該第五特徵圖3i相加,以產生並輸出一第五混合特徵圖3k至第四個該第一CSP模組113;且第三個該第二加法器124將第三個CMR模組131輸出的該第六強化特徵圖4j與該第六特徵圖4i相加,以產生並輸出一第六混合特徵圖4k至第四個該第二CSP模組123。第四個該第一CSP模組113對該第五混合特徵圖3k進行特徵提取以產生並輸出一第七特徵圖3l至該第二照度網路18;且第四個該第二CSP模組123對該第六混合特徵圖4k進行特徵提取以產生並輸出一第八特徵圖4l至該第二照度網路18;而該第三骨幹層13的第三個該第三CSP模組132對該第三強化融合特徵圖5f再次進行特徵擷取而產生並輸出一第五融合特徵圖5g至該第一多尺度層16。
接著,如圖3C的步驟S40,該第一多尺度層16對該第五融合特徵圖5g進行基於不同尺度的特徵擷取,以產生並輸出一第一最終融合特徵圖5h至該全域融合偵測層17。
且如圖3C的步驟S41,該全域融合偵測層17根據該第一最終融合特徵圖5h中的影像特徵進行候選框偵測及物件辨識,以產生並輸出具有複數個第一候選物件資訊的一第一候選特徵圖171至該基於錨框對齊模組22。其中各該第一候選物件資訊至少包含一第一候選物件框及其對應的一信心指數(分數或機率)。
且如圖3C的步驟S42,該第二照度網路18將輸入的該第七特徵圖3l以該第一權重加權以產生一加權後第三特徵圖3m,且將該第八特徵圖4l以該第二權重加權以產生一加權後第四特徵圖4m,並將該加權後第三特徵圖3m和該加權後第四特徵圖4m輸出至該第二基於像素對齊模組19。
接著如圖3C的步驟S43,該第二基於像素對齊模組19如同該第一基於像素對齊(校正)模組15,根據輸入的該加權後第三特徵圖3m的特徵像素和該加權後第四特徵圖4m的特徵像素各自與一偏移場域之間的一偏移量,校正(位移)該加權後第三特徵圖3m的特徵像素和該加權後第四特徵圖4m的特徵像素的位置,而產生特徵像素對齊的一校正且加權後第三特徵圖3n和一校正且加權後第四特徵圖4n,並將該校正且加權後第三特徵圖3n與該校
正且加權後第四特徵圖4n相疊合而產生並輸出一第五融合特徵圖6a至該第二多尺度層20。
接著如圖3C的步驟S44,該第二多尺度層20對該第五融合特徵圖6a進行基於不同尺度的特徵擷取,以產生並輸出一第二最終融合特徵圖6b至該區域融合偵測層21。
接著如圖3C的步驟S45,該區域融合偵測層21根據該第二最終融合特徵圖6b中的影像特徵進行候選框偵測及物件辨識,以產生並輸出具有複數個第二候選物件資訊的一第二候選特徵圖211至該基於錨框對齊模組22。其中各該第二候選物件資訊211至少包含一第二候選物件框及其對應的一信心指數(分數或機率)。
接著如圖3D的步驟S46,該基於錨框對齊模組22根據該第一候選特徵圖171包含的該等第一候選物件框和該第二候選特徵圖211包含的該等第二候選物件框的相對偏移位置,校正(位移)該等第一候選物件框和該等第二候選物件框,以使校正後的該等第一候選物件框和校正後的該等第二候選物件框及其所涵蓋的影像物件能夠對齊,且據此產生並輸出具有複數個最終候選物件資訊的一最終特徵圖22a至該物件判定模組23;其中各該最終候選物件資訊包含複數個最終候選物件框及其對應的一信心指數(分數或機率)。
具體而言,如圖5所示,該基於錨框對齊模組22包含
依序串連的一特徵融合層221、一錨框位移層222及一卷積層223,該特徵融合層221主要將該第一候選特徵圖171和第二候選特徵圖211相疊合成為一融合特徵圖,再由該錨框位移層222根據融合特徵圖中該等第一候選物件框和該等第二候選物件框的相對偏移位置,校正該等第一候選物件框和該等第二候選物件框,使校正後的該等第一候選物件框和校正後的該等第二候選物件框對齊的同時,其所涵蓋的影像物件也能夠對齊,再將該融合特徵圖輸出至卷積層223進行卷積運算以降維,將特徵維度重塑,而產生具有該等最終候選物件資訊的該最終特徵圖22a。與該基於錨框對齊模組22類似概念的相關技術可以參見「Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection」該篇論文中第4章「The Proposed Approach」其中Alignment Process的做法。
最後如圖3D的步驟S47,該物件判定模組23根據DIOU-NMS演算法之原理,從該最終特徵圖22a的該等最終候選物件資訊中選出最佳(信心指數最高)的最終候選物件資訊,並將選出的最佳候選物件資訊(包含物件框及其對應的信心指數)標註於該可見光影像3’及相對應的該熱影像4’,因此在該可見光影像3’及相對應的該熱影像4’中會顯示框選物件的物件框;當然也可以只在該可見光影像3’標註選出的最佳候選物件資訊。
且藉由依序將每一組訓練用影像輸入該影像物件辨識模型100,使影像物件辨識模型100重覆執行上述步驟S31~S47,以反覆進行影像特徵擷取的訓練和深度學習,將使該影像物件辨識模型100的辨識率逐漸提升並收斂至一目標值,而獲得完成訓練的該影像物件辨識模型100。
因此,當該影像物件辨識模型100被訓練完成後,將一組待辨識影像中的一待辨識熱影像和一待辨識可見光影像被輸入該影像物件辨識模型100時,該影像物件辨識模型100即可辨識出該待辨識可見光影像中的物件,並於輸出的該待辨識可見光影像中,將辨識出來的物件以物件框框選並標註其類別(例如人、車(汽車、卡車、機車、公車等)、動物(狗、貓、馬等)、植物等)。值得一提的是,本實施例也可應用但不限於台灣第110104936號專利申請案提供的雙影像融合方法,將該待辨識熱影像和該待辨識可見光影像融合成一融合影像後輸出,並根據影像辨識結果,將該融合影像中被辨識的物件框選並標註其類別。
再參見圖6所示,是本發明的第二實施例,其與第一實施例不同處在於該影像物件辨識模型的該第一骨幹層11只採用二個第一CSP模組113,該第二骨幹層12也只採用二個第二CSP模組123,該影像物件辨識模型只採用一個CMR模組131,且該第三骨幹層13只採用一個第三CSP模組132;因此CMR模組
131是直接將產生的一強化融合特徵圖5f輸出至第三CSP模組132,第三CSP模組132對強化融合特徵圖5f進行特徵提取以產生並輸出一特徵圖至該第一多尺度層16;且第二個該第一CSP模組113對加法器114提供的一混合特徵圖3k進行特徵提取所產生的一特徵圖3l直接輸出至第二照度網路18,第二個該第二CSP模組123對加法器124提供的一混合特徵圖4k進行特徵提取所產生的一特徵圖4l直接輸出至第二照度網路18。
再參見圖7所示,是本發明的第三實施例,其與第一實施例不同處在於該影像物件辨識模型200只採用一個CMR模組131且該第三骨幹層13只採用一個CSP模組132,且該CMR模組131是根據該第一骨幹層11的倒數第二個CSP層113和該第二骨幹層11的倒數第二個CSP層123輸出的特徵圖及該第一基於像素對齊模組15輸出的特徵圖產生相對應的三個強化特徵圖並分別輸出至該第一骨幹層11的加法器114、該第二骨幹層12的加法器124和該第三骨幹層13該CSP模組132。
綜上所述,上述實施例藉由照度網路根據可見光影像呈現的照度調整可見光影像的特徵圖和熱影像的特徵圖的比重,並藉由基於像素對齊模組和基於錨框對齊模組改善雙影像因視野不同造成之特徵偏移,因此對於雙影像之間的特徵偏移和視野差異的容忍度高;且藉由跨模態特徵強化模組針對雙影像特徵的不平衡,
套用自注意力機制強化不同模態的特徵特點,改善模型經過訓練後的特徵丟失,並融合全域(或全局)(Global)特徵和區域(或局部)(Local)特徵,而達到多物件偵測效果的提升。且本實施例的影像物件辨識模型100藉由對在同一時間拍攝的可見光影像及熱影像進行影像物件辨識,可同時取得這兩種影像的特徵,而利用影像特徵互補的效果,進行全天候的影像辨識並提升物件辨識率,使影像物件辨識不致受限於時段、天候或環境的變化,也不需根據時段、天候或環境變化不斷地切換不同的影像辨識機制,確實達到本發明的功效與目的。
惟以上所述者,僅為本發明之實施例而已,當不能以此限定本發明實施之範圍,凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。
100:影像物件辨識模型
11:第一骨幹層
111:聚焦層
112:第一跨階段局部網路(第一CSPNet)
113:第一跨階段局部模組(第一CSP模組)
114:加法器
12:第二骨幹層
121:聚焦層
122:第二跨階段局部網路(第二CSPNet)
123:第二CSP模組
124:加法器
13:第三骨幹層
131:跨模態特徵強化(CMR)模組
132:第三跨階段局部模組(第三CSP模組)
14:第一照度網路
15:第一基於像素對齊模組
16:第一多尺度層
17:全域融合偵測層
171:第一候選特徵圖
18:第二照度網路
19:第二基於像素對齊模組
20:第二多尺度層
21:區域融合偵測層
211:第二候選特徵圖
22:基於錨框對齊模組
22a:最終特徵圖
23:物件判定模組
3、3’:可見光影像
4、4’:熱影像
3a:第一特徵圖
3b:加權後第一特徵圖
3c:校正且加權後第一特徵圖
3d:第一強化特徵圖
3e:第一混合特徵圖
3f:第三特徵圖
3g:第三強化特徵圖
3h:第三混合特徵圖
3i:第五特徵圖
3j:第五強化特徵圖
3k:第五混合特徵圖
3l:第七特徵圖
3m:加權後第三特徵圖
3n:校正且加權後第三特徵圖
4a:第二特徵圖
4b:加權後第二特徵圖
4c:校正且加權後第二特徵圖
4d:第二強化特徵圖
4e:第二混合特徵圖
4f:第四特徵圖
4g:第四強化特徵圖
4h:第四混合特徵圖
4i:第六特徵圖
4j:第六強化特徵圖
4k:第六混合特徵圖
4l:第八特徵圖
4m:加權後第四特徵圖
4n:校正且加權後第四特徵圖
5a:第一融合特徵圖
5b:第一強化融合特徵圖
5c:第三融合特徵圖
5d:第二強化融合特徵圖
5e:第四融合特徵圖
5f:第三強化融合特徵圖
5g:第五融合特徵圖
5h:第一最終融合特徵圖
6a:第五融合特徵圖
6b:第二最終融合特徵圖
Claims (7)
- 一種影像物件辨識模型的訓練方法,包括: A、 一電腦裝置的一處理單元執行預先載入之待訓練的一影像物件辨識模型,該影像物件辨識模型包括一第一骨幹層、一第二骨幹層、一第三骨幹層、與該第三骨幹層串接的一跨模態特徵強化模組、與該第一骨幹層和該第二骨幹層連接的一第一照度網路、與該第一照度網路和該跨模態特徵強化模組連接的一第一基於像素對齊模組、與該第三骨幹層連接的一第一多尺度層、與該第一多尺度層連接的一全域融合偵測層、與該第一骨幹層和該第二骨幹層連接的一第二照度網路、與該第二照度網路連接的一第二基於像素對齊模組、與該第二基於像素對齊模組連接的一第二多尺度層、與該第二多尺度層連接的一區域融合偵測層、與該全域融合偵測層和該區域融合偵測層連接的一基於錨框對齊模組以及與該基於錨框對齊模組連接的一物件判定模組;及 B、該電腦裝置提供複數組訓練用影像給該處理單元,每一組訓練用影像包含在同一時間拍攝且內容重疊的一可見光影像與一熱影像;該處理單元依序將每一組訓練用影像輸入該影像物件辨識模型,以藉由反覆執行下述動作訓練該影像物件辨識模型: B1、將該可見光影像和該熱影像各別對應輸入該第一骨幹層和該第二骨幹層,並將該可見光影像輸入該第一照度網路和該第二照度網路,使該第一骨幹層對該可見光影像進行區域特徵提取並輸出一第一特徵圖至該第一照度網路和該跨模態特徵強化模組,並使該第二骨幹層對該熱影像進行區域特徵提取並輸出一第二特徵圖至該第一照度網路和該跨模態特徵強化模組;且該第一照度網路和該第二照度網路偵測該可見光影像中的照度以輸出與明亮環境相關且代表明亮的機率的一第一權重和與陰暗環境相關且代表陰暗的機率的一第二權重; B2、該第一照度網路將該第一特徵圖以該第一權重加權以產生一加權後第一特徵圖,且將該第二特徵圖以該第二權重加權以產生一加權後第二特徵圖,並將該加權後第一特徵圖和該加權後第二特徵圖輸出至該第一基於像素對齊模組; B3、該第一基於像素對齊模組根據該加權後第一特徵圖的特徵像素和該加權後第二特徵圖的特徵像素各自與一偏移場域之間的一偏移量,校正該加權後第一特徵圖和該加權後第二特徵圖,以產生特徵像素對齊的一校正且加權後第一特徵圖和一校正且加權後第二特徵圖,並將該校正且加權後第一特徵圖與該校正且加權後第二特徵圖相疊合而產生並輸出一第一融合特徵圖至該跨模態特徵強化模組; B4、該跨模態特徵強化模組利用基於移位窗口的自注意力機制對輸入的該第一特徵圖、該第二特徵圖和該第一融合特徵圖進行全域特徵擷取,以對應產生三個強化特徵圖,並分別輸出三個強化特徵圖至相對應的該第一骨幹層、該第二骨幹層和該第三骨幹層; B5、該第三骨幹層對該跨模態特徵強化模組輸出的該強化特徵圖進行特徵擷取而產生並輸出一特徵圖至該第一多尺度層;該第一骨幹層基於該第一特徵圖與該跨模態特徵強化模組輸出的該強化特徵圖進行特徵提取以產生並輸出一特徵圖至該第二照度網路,且該第二骨幹層基於該第二特徵圖與該跨模態特徵強化模組輸出的該強化特徵圖進行特徵提取以產生並輸出一特徵圖至該第二照度網路; B6、該第一多尺度層對該第三骨幹層輸出的該特徵圖進行基於不同尺度的特徵擷取,以產生並輸出一特徵圖至該全域融合偵測層;該全域融合偵測層根據該第一多尺度層輸出的該特徵圖中的影像特徵進行候選框偵測和物件辨識,以產生並輸出具有複數個第一候選物件資訊的一特徵圖至該基於錨框對齊模組; B7、該第二照度網路將該第一骨幹層輸出的該特徵圖以該第一權重加權以產生一加權後特徵圖,且將該第二骨幹層輸出的該特徵圖以該第二權重加權以產生一加權後特徵圖,並將該二個加權後特徵圖輸出至該第二基於像素對齊模組; B8、該第二基於像素對齊模組根據該第二照度網路輸出的該二個加權後特徵圖的特徵像素各自與一偏移場域之間的一偏移量,校正該二個加權後特徵圖,以產生特徵像素對齊的二個校正且加權後特徵圖,並將該二個校正且加權後特徵圖相疊合而產生並輸出一融合特徵圖至該第二多尺度層;該第二多尺度層對該第二基於像素對齊模組輸出的該融合特徵圖進行基於不同尺度的特徵擷取,以產生並輸出一特徵圖至該區域融合偵測層;該區域融合偵測層根據該第二多尺度層輸出的該特徵圖中的影像特徵進行候選框偵測和物件辨識,以產生並輸出具有複數個第二候選物件框的一特徵圖至該基於錨框對齊模組; B9、該基於錨框對齊模組根據輸入的二個特徵圖對應的該等第一候選物件框和該等第二候選物件框的相對偏移位置,校正該等第一候選物件框和該等第二候選物件框,使校正後的該等第一候選物件框和校正後的該等第二候選物件框及其所涵蓋的影像物件對齊,以此產生並輸出具有複數個最終候選物件框的一特徵圖至該物件判定模組;及 B10、該物件判定模組根據該基於錨框對齊模組輸出的該特徵圖中的該等最終候選物件框所對應的信心指數,從該等最終候選物件框選出最佳的候選物件框,並將選出的最佳候選物件框顯示在該可見光影像中。
- 如請求項1所述影像物件辨識模型的訓練方法,其中每一組訓練用影像包含的該熱影像是預先以一座標投影矩陣校正的校正後熱影像,使該校正後熱影像能與相對應的該可見光影像對齊,且該座標投影矩陣是根據該熱影像與相對應的該可見光影像兩者的視野差異而求得。
- 如請求項1所述影像物件辨識模型的訓練方法,其中該跨模態特徵強化模組包含依序串連的四個特徵強化層,該等特徵強化層包含用於正規化輸入的特徵的一正規化層;第一個特徵強化層包含的W-MSA層和第三個特徵強化層包含的SW-MSA層對輸入的特徵進行多頭自注意力處理以提取特徵;第二個和第四個特徵強化層包含的一卷積層對輸入的特徵進行卷積運算以提取特徵。
- 如請求項1所述影像物件辨識模型的訓練方法,其中該基於錨框對齊模組包含依序串連的一特徵融合層、一錨框位移層及一卷積層,該特徵融合層將輸入的二個特徵圖相疊合成為一融合特徵圖,再由該錨框位移層根據該融合特徵圖中該等第一候選物件框和該等第二候選物件框的相對偏移位置,校正該等第一候選物件框和該等第二候選物件框,使校正後的該等第一候選物件框和校正後的該等第二候選物件框及其所涵蓋的影像物件對齊,再由該卷積層對該融合特徵圖進行卷積運算以降維,並輸出具有該等最終候選物件框的該特徵圖。
- 如請求項1所述影像物件辨識模型的訓練方法,其中該跨模態特徵強化模組是第一個跨模態特徵強化模組,且該影像物件辨識模型還包括與第一個跨模態特徵強化模組和該第三骨幹層串接的第二個跨模態特徵強化模組和第三個跨模態特徵強化模組;且步驟B5還包括下列步驟: B51、該第一骨幹層基於該第一特徵圖與該強化特徵圖進行特徵提取而產生的該特徵圖被輸入第二個跨模態特徵強化模組,且該第二骨幹層基於該第二特徵圖與該強化特徵圖進行特徵提取而產生的該特徵圖被輸入第二個跨模態特徵強化模組,該第三骨幹層對該強化特徵圖進行特徵擷取而產生的該特徵圖被輸入第二個跨模態特徵強化模組; B52、第二個跨模態特徵強化模組對輸入的三個特徵圖進行特徵強化,以對應產生三個強化特徵圖,並分別輸出該三個強化特徵圖至相對應的該第一骨幹層、該第二骨幹層和該第三骨幹層; B53、該第一骨幹層基於輸入該第二個跨模態特徵強化模組的該特徵圖和該第二個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出一特徵圖至該第三個跨模態特徵強化模組;該第二骨幹層基於輸入該第二個跨模態特徵強化模組的該特徵圖和該第二個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出一特徵圖至該第三個跨模態特徵強化模組;該第三骨幹層對第二個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出一特徵圖至該第三個跨模態特徵強化模組; B54、第三個跨模態特徵強化模組對輸入的三個特徵圖進行特徵強化,以對應產生三個強化特徵圖,並分別輸出三個強化特徵圖至相對應的該第一骨幹層、該第二骨幹層和該第三骨幹層;及 B55、該第三骨幹層對第三個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出該特徵圖至該第一多尺度層;該第一骨幹層基於輸入該第三個跨模態特徵強化模組的該特徵圖和該第三個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出該特徵圖至該第二照度網路;該第二骨幹層基於輸入該第三個跨模態特徵強化模組的該特徵圖和該第三個跨模態特徵強化模組輸出的強化特徵圖進行特徵提取而產生並輸出該特徵圖至該第二照度網路。
- 一種影像物件辨識模型,其係根據請求項1至5其中任一項所述影像物件辨識模型的訓練方法訓練而成,而能接受包含在同一時間拍攝且內容重疊的一待辨識可見光影像與一待辨識熱影像的一組待辨識影像,以根據該待辨識可見光影像與該待辨識熱影像辨識出該待辨識可見光影像中的物件。
- 一種電腦可存取的記錄媒體,其中存有如請求項1至5其中任一項所述影像物件辨識模型的訓練方法其中所述的該影像物件辨識模型,且該影像物件辨識模型藉由如請求項1至5其中任一項所述影像物件辨識模型的訓練方法訓練完成後,能根據輸入之在同一時間拍攝且內容重疊的一可見光影像與一熱影像辨識該可見光影像中的物件。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112138531A TWI888949B (zh) | 2023-10-06 | 2023-10-06 | 影像物件辨識模型的訓練方法、影像物件辨識模型及電腦可存取的記錄媒體 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112138531A TWI888949B (zh) | 2023-10-06 | 2023-10-06 | 影像物件辨識模型的訓練方法、影像物件辨識模型及電腦可存取的記錄媒體 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202516404A TW202516404A (zh) | 2025-04-16 |
| TWI888949B true TWI888949B (zh) | 2025-07-01 |
Family
ID=96169901
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW112138531A TWI888949B (zh) | 2023-10-06 | 2023-10-06 | 影像物件辨識模型的訓練方法、影像物件辨識模型及電腦可存取的記錄媒體 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI888949B (zh) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112070111A (zh) * | 2020-07-28 | 2020-12-11 | 浙江大学 | 一种适配多波段图像的多目标检测方法和系统 |
| TW202215367A (zh) * | 2020-10-14 | 2022-04-16 | 財團法人工業技術研究院 | 影像辨識方法及影像辨識系統 |
| CN114898189A (zh) * | 2022-03-31 | 2022-08-12 | 西安电子科技大学 | 基于模态差异特征引导的红外可见光融合识别系统和方法 |
| US20220374647A1 (en) * | 2021-05-18 | 2022-11-24 | Sony Group Corporation | Reverse image search based on deep neural network (dnn) model and image-feature detection model |
-
2023
- 2023-10-06 TW TW112138531A patent/TWI888949B/zh active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112070111A (zh) * | 2020-07-28 | 2020-12-11 | 浙江大学 | 一种适配多波段图像的多目标检测方法和系统 |
| TW202215367A (zh) * | 2020-10-14 | 2022-04-16 | 財團法人工業技術研究院 | 影像辨識方法及影像辨識系統 |
| US20220374647A1 (en) * | 2021-05-18 | 2022-11-24 | Sony Group Corporation | Reverse image search based on deep neural network (dnn) model and image-feature detection model |
| CN114898189A (zh) * | 2022-03-31 | 2022-08-12 | 西安电子科技大学 | 基于模态差异特征引导的红外可见光融合识别系统和方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202516404A (zh) | 2025-04-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Luo et al. | Thermal infrared image colorization for nighttime driving scenes with top-down guided attention | |
| Sakaridis et al. | Semantic foggy scene understanding with synthetic data | |
| CN115457456B (zh) | 一种基于智能车辆的多光谱行人检测方法及系统 | |
| US11455710B2 (en) | Device and method of object detection | |
| CN117671509B (zh) | 遥感目标检测方法、装置、电子设备及存储介质 | |
| CN113298177B (zh) | 夜间图像着色方法、装置、介质和设备 | |
| Wen et al. | YOFIR: High precise infrared object detection algorithm based on YOLO and FasterNet | |
| CN119223299B (zh) | 一种用于环境感知的多维像素融合方法及存储介质 | |
| Xu et al. | Cross-domain car detection model with integrated convolutional block attention mechanism | |
| CN117011722A (zh) | 基于无人机实时监控视频的车牌识别方法及装置 | |
| Vadidar et al. | Robust environment perception for automated driving: A unified learning pipeline for visual-infrared object detection | |
| Zheng et al. | Overwater image dehazing via cycle-consistent generative adversarial network | |
| Chen et al. | Reinforcement-and-alignment multispectral object detection using visible–thermal vision sensors in intelligent vehicles | |
| CN109410161A (zh) | 一种基于yuv和多特征分离的红外偏振图像的融合方法 | |
| TWI888949B (zh) | 影像物件辨識模型的訓練方法、影像物件辨識模型及電腦可存取的記錄媒體 | |
| CN120236233B (zh) | 一种基于跨模态时空联合学习的多模态视频目标识别方法 | |
| Zhang et al. | Capitalizing on RGB-FIR hybrid imaging for road detection | |
| CN115810179A (zh) | 一种人车视觉感知信息融合方法及系统 | |
| CN115100680A (zh) | 一种基于多源图像融合的行人检测方法 | |
| CN120431316A (zh) | 一种基于异质性感知注意力融合网络多模态图像目标检测方法 | |
| Liu et al. | Optimal LED spectral multiplexing for NIR2RGB translation | |
| Tao et al. | Intelligent colorization for thermal infrared image based on CNN | |
| Cao et al. | Semantic region adaptive fusion of infrared and visible images via dual-DeepLab guidance | |
| CN120496046A (zh) | 一种基于深度学习的车牌识别方法及系统 | |
| TWI759156B (zh) | 影像物件辨識模型的訓練方法及影像物件辨識模型 |