TWI698811B

TWI698811B - 多路徑卷積神經網路偵測方法及系統

Info

Publication number: TWI698811B
Application number: TW108111007A
Authority: TW
Inventors: 郭峻因; 林冠廷
Original assignee: 國立交通大學
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-07-11
Also published as: TW202036395A

Abstract

本發明係揭露一種多路徑卷積神經網路偵測方法及系統，其方法包含以下步驟：藉由影像擷取裝置產生影像，接著藉由處理器，對影像依序進行畫面特徵擷取編碼程序、物件編碼程序、物件解碼程序、物件框萃取程序及非最大值抑制程序，萃取出至少一最終物件框資訊，且合併至影像中，產生偵測影像。藉由儲存裝置，儲存上述偵測方法進行中之影像及偵測影像。最後藉由影像輸出裝置，輸出偵測影像。

Description

多路徑卷積神經網路偵測方法及系統

本發明是有關於一種多路徑卷積神經網路偵測方法及系統，特別是有關於一種應用於道路目標檢測之多路徑卷積神經網路偵測方法及系統。

近年來使用卷積神經網路開發物件偵測的演算法可以分為基於待選區域之卷積神經網路(例如，Faster R-CNN)以及使用單一神經網路(例如，YOLO9000)之偵測器。基於待選區域之偵測網路準確度較高，但過大的計算量仍不利於實際應用。

單一神經網路偵測器相較於基於待選區域之偵測器有較低的計算量以及複雜度之優勢，但在同時偵測多種物件時有較差的效能，原因在於單一的神經網路在學習階段時，擬合訓練資料特徵的能力較差，導致於應用於實際場景時當同時出現不同大小以及長寬比例的物件時，會有較低的偵測率。

有鑑於上述習知問題，本發明提供一種多路徑卷積神經網路偵測方法及系統，基於單一神經網路偵測系統，在複雜度不過度提升之前提下，以多路徑偵測器解決因距離或物件大小而產生之多尺度物件偵測失誤，以達到穩定的物件偵測效果，可在低功耗移動式平台上，應用於道路目標檢測。

本發明提出一種多路徑卷積神經網路(Multipath convolutional neural network)偵測方法，其方法利用影像擷取裝置、處理器、儲存裝置及影像輸出裝置進行。藉由影像擷取裝置產生影像。接著藉由處理器，對影像進行畫面特徵擷取編碼程序，將影像轉換成第一特徵圖(feature map)及第二特徵圖，且第一特徵圖之解析度大於第二特徵圖之解析度。藉由處理器，對第一特徵圖進行第一物件編碼程序，以及對第二特徵圖進行第二物件編碼程序，將第一特徵圖轉換成第一編碼特徵圖，且將第二特徵圖轉換成第二編碼特徵圖。藉由處理器，對第一編碼特徵圖進行第一物件解碼程序，以及對第二編碼特徵圖進行第二物件解碼程序，將第一編碼特徵圖轉換成第一解碼特徵圖，且將第二編碼特徵圖轉換成第二解碼特徵圖。藉由處理器，對第一解碼特徵圖及第二解碼特徵圖進行物件框(bounding box)萃取程序，從第一解碼特徵圖萃取出複數個第一物件框資訊，且從第二解碼特徵圖萃取出複數個第二物件框資訊。藉由處理器，對複數個第一物件框資訊及複數個第二物件框資訊進行非最大值抑制程序，萃取出至少一最終物件框資訊，且合併至影像中，產生偵測影像。藉由儲存裝置，儲存上述影像及偵測影像。最後藉由影像輸出裝置輸出偵測影像。

較佳地，畫面特徵擷取編碼程序可包含五層最大值池化層(Pooling layer) 運算及十八層卷積層(Convolution Layer) 運算，且畫面特徵擷取編碼程序執行完成後，產生第一特徵圖，其解析度大小為14x14，且產生第二特徵圖，其解析度大小為7x7。

較佳地，第一物件編碼程序可包含五層第一物件編碼卷積層運算，第二物件編碼程序可包含五層第二物件編碼卷積層運算及一層第二物件編碼最大值池化層運算，第一物件解碼程序可包含一層第一物件解碼卷積層程序，以及第二物件解碼程序可包含一層第二物件解碼卷積層程序。

較佳地，物件框萃取程序可包含損失函數(Loss function)。

較佳地，物件框萃取程序可包含訓練損失函數之條件反向傳播機制(Conditional back propagation mechanism)。

較佳地，非最大值抑制程序可包含檢測評價函數(Intersection-over-Union, IoU)。

較佳地，本發明也提供一種多路徑卷積神經網路偵測系統，其系統可包含影像擷取裝置、畫面特徵擷取編碼器、物件編碼器、物件解碼器、物件框萃取器及非最大值抑制器之處理器、儲存裝置及影像輸出裝置。影像擷取裝置係產生影像。畫面特徵擷取編碼器係輸入由影像擷取裝置產生之該影像，輸出第一特徵圖及第二特徵圖，且第一特徵圖之解析度大於第二特徵圖之解析度。物件編碼器包含第一物件編碼器及第二物件編碼器，第一物件編碼器係輸入第一特徵圖，且輸出第一編碼特徵圖，第二物件編碼器係輸入第二特徵圖，且輸出第二編碼特徵圖。物件解碼器包含第一物件解碼器及第二物件解碼器，第一物件解碼器係輸入第一編碼特徵圖，且輸出第一解碼特徵圖，第二物件解碼器係輸入第二編碼特徵圖，且輸出第二解碼特徵圖。物件框萃取器係輸入第一解碼特徵圖，且輸出複數個第一物件框資訊，以及輸入第二解碼特徵圖，且輸出複數個第二物件框資訊。非最大值抑制器係輸入複數個第一物件框資訊及複數個第二物件框資訊，且輸出至少一最終物件框資訊，且合併至影像中，產生偵測影像。儲存裝置儲存上述產生之影像及偵測影像。最後藉由影像輸出裝置輸出偵測影像。

承上所述，本發明之多路徑卷積神經網路偵測方法及系統，其可具有一或多個下述優點：

(1)此多路徑卷積神經網路偵測方法及系統是在單一神經網路之偵測器上作改良，其偵測方法之程式複雜度仍低於待選區域卷積神經網路之程式複雜度。

(2) 此多路徑卷積神經網路偵測方法及系統能利用多路徑之偵測器，改善多尺度物件偵測因距離或物件大小造成之偵測失誤，例如偵測誤警及偵測遺漏之問題。

(3) 此多路徑卷積神經網路偵測方法及系統能在低功耗之移動式平台上，提供品質穩定之物件偵測效果。

為利貴審查委員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

請參閱第1圖，其係為本發明之實施例之多路徑卷積神經網路偵測方法之步驟流程圖。如圖所示，多路徑卷積神經網路偵測方法包含以下步驟(S1~S8)：

步驟S1：藉由影像擷取裝置100產生欲進行物件偵測之影像50。例如網路攝影機、數位攝影機、智慧型手機、行車紀錄器等電子設備，此影像50為三通道(紅、綠、藍)編碼之彩色影像，其影像解析度為448x448。請參閱第2圖，其係為本發明之實施例之多路徑卷積神經網路偵測方法之欲偵測影像示意圖。如圖所示，由行車紀錄器所擷取的原始影像50中即包含道路中欲偵測之物件，例如各式各樣之車輛1a、1b，路樹1c等等。

步驟S2：藉由處理器200進行畫面特徵擷取編碼程序。上述影像擷取裝置100產生之影像50，可輸入至處理器200，其處理器200可包含畫面特徵擷取編碼程序，當畫面特徵擷取編碼程序執行完成後，可輸出壓縮解析度之第一特徵圖及第二特徵圖，且第一特徵圖之解析度大小大於第二特徵圖之解析度大小。此處提及之處理器200，可為低功耗移動式平台之處理器，例如手機或行車紀錄器內之運算晶片。請參閱第3圖，其係為本發明之實施例利用畫面特徵擷取編碼程序產生第一特徵圖及第二特徵圖之示意圖。可理解第一特徵圖之解析度大於第二特徵圖之具體描述，係指第一特徵圖用較小之柵盒20(grid box)分割欲進行物件偵測之影像50，第二特徵圖用較大之柵盒30分割欲進行物件偵測之影像50，柵盒之數目即代表其解析度大小(例如，第一特徵圖之解析度為14x14，第二特徵圖之解析度7x7)。

步驟S3：藉由處理器200進行物件編碼程序。處理器200可包含對應第一特徵圖之第一物件編碼程序，及對應第二特徵圖之第二物件編碼程序。當物件編碼程序執行完成後，第一特徵圖轉換成第一編碼特徵圖，且第二特徵圖轉換成第二編碼特徵圖。

步驟S4：藉由處理器200進行物件解碼程序。處理器200可包含對應第一編碼特徵圖之第一物件解碼程序，及對應第二編碼特徵圖之第二物件解碼程序。當物件解碼程序執行完成後，第一編碼特徵圖轉換成第一解碼特徵圖，且第二編碼特徵圖轉換成第二解碼特徵圖。

步驟S5：藉由處理器200進行物件框萃取程序。處理器200可包含從第一解碼特徵圖及第二解碼特徵圖中，萃取出物件框資訊之物件框萃取程序。當物件框萃取程序執行完成後，將從第一解碼特徵圖中萃取出複數個第一物件框資訊，且從第二解碼特徵圖中萃取出複數個第二物件框資訊。此處提及之第一物件框資訊及第二物件框資訊，即對應影像50中欲偵測之物件資訊，例如物件中心位置在影像50中之相對座標、物件之寬度及高度，以及物件之種類，像是汽車、機車、自行車或行人等等。請參閱第4圖，其係為本發明之實施例執行物件解碼程序得到之第一解碼特徵圖及第二解碼特徵圖之示意圖。如圖所示，可理解物件框萃取程序從第一解碼特徵圖中萃取出之第一物件框資訊21、22、23、24及25，以及從第二解碼特徵圖中萃取出之第二物件框資訊31、32、33、34及35。

步驟S6：藉由處理器200進行非最大值抑制程序。處理器200可包含從第一物件框資訊及第二物件框資訊中，萃取出至少一個最終物件框資訊，且合併至欲進行物件偵測之影像50中，產生偵測影像50。請參閱第5圖，此示意圖表示執行完非最大值抑制程序後所保留之最終物件框資訊之物件框41及42，其中第5圖之較小的物件框41，即為執行完非最大值抑制程序之後，保留之第一物件框資訊，而較大的物件框42，即為執行完非最大值抑制程序之後，保留之第二物件框資訊。此偵測影像50即為人眼可辨識之照片或影片等等，其中標示有各式各樣之物件框，以區分影像50中之不同種類之車輛或行人等等不同物件。

步驟S7：藉由儲存裝置(例如，硬碟、記憶卡等等)，儲存上述步驟S1~S6中所產生之影像50及偵測影像50。

步驟S8：藉由影像輸出裝置輸出偵測影像50。儲存裝置之中儲存之偵測影像50可由影像輸出裝置輸出。

上述步驟S2之畫面特徵擷取編碼程序，可由五層最大值池化層運算及十八層卷積層運算組成，產生第一特徵圖，其解析度大小為14x14，且產生第二特徵圖，其解析度大小為7x7。畫面特徵擷取編碼程序之詳細組成可參考表1，其詳細方法將在之後描述。

表1：畫面特徵擷取編碼程序之詳細組成

	操作類型	濾波器數量	濾波器大小/步長	輸出特徵圖大小
第1層	卷積層	32	3 x 3 /1	224 x 224
第2層	最大值池化層		2 x 2 /2	112 x 112
第3層	卷積層	64	3 x 3 /1	112 x 112
第4層	最大值池化層		2 x 2 /2	56 x 56
第5層	卷積層	128	3 x 3/ 1	56 x 56
第6層	卷積層	64	1 x 1 /2	56 x 56
第7層	卷積層	128	3 x 3 /2	56 x 56
第8層	最大值池化層		2 x 2/2	28 x 28
第9層	卷積層	256	3 x 3 /2	28 x 28
第10層	卷積層	128	1 x 1 /2	28 x 28
第11層	卷積層	256	3 x 3 /2	28 x 28
第12層	最大值池化層		2 x 2/2	14 x 14
第13層	卷積層	512	3 x 3 /2	14 x 14
第14層	卷積層	256	1 x 1 /2	14 x 14
第15層	卷積層	512	3 x 3 /2	14 x 14
第16層	卷積層	256	1 x 1 /2	14 x 14
第17層	卷積層	512	3 x 3 /2	14 x 14
第18層	最大值池化層		2 x 2/2	7 x 7
第19層	卷積層	1024	3 x 3 /2	7 x 7
第20層	卷積層	512	1 x 1 /2	7 x 7
第21層	卷積層	1024	3 x 3 /2	7 x 7
第22層	卷積層	512	1 x 1 /2	7 x 7
第23層	卷積層	1024	3 x 3 /2	7 x 7

首先，上述提及之卷積層運算指的是，由卷積層內設置之濾波器在影像50上滑動，藉此提取影像50之特徵(例如，圓形、直線及三角形等等)之過程。表1中的濾波器大小(例如，1x1、2x2及3x3)指的是對應輸入之影像解析度(448x448)之解析度大小，步長指的是以對應輸入之影像解析度，每次滑動多少個單位(例如，1或2)，且當輸入之影像具有不同通道(例如，上述提及之三通道編碼彩色影像)時，卷積層運算可在不同通道中執行，以更正確的提取影像之特徵，而卷積層運算可藉由訓練達到最佳化。卷積層所需之數量及卷積層內設置之濾波器數量，則需視上述影像中，欲進行偵測之物件種類及物件對應之特徵之複雜度或數量而決定，雖然直觀上濾波器數量越多可越精準擷取物件之特徵，但程式複雜度及運算量也大幅提高，因此亦需要選擇適當之組成。

接著，上述提及之最大值池化層運算指的是，將上一層運算(在表1中為卷積層運算)執行完成後之影像，藉由輸出濾波器內具有最大值之數值，再設定所需之步長後，可得到壓縮之縮小影像。

藉由此種方法，同時參閱表1及第3圖，可理解藉由畫面特徵擷取編碼程序，進行至第十七層運算後，產生解析度為14x14之第一特徵圖，以及在二十三層運算後，產生解析度為7x7之第二特徵圖。第二特徵圖之每個柵盒30對應至第一特徵圖中，均對應四個第一特徵圖之柵盒20。

上述步驟S3之第一物件編碼程序及第二物件編碼程序，亦由上述提及之方法達成，亦即利用卷積層運算或最大值池化層運算進行。在此列出第一物件編碼程序及第二物件編碼程序之詳細組成(表2及表3)。

表2：第一物件編碼程序之詳細組成

	操作類型	濾波器數量	濾波器大小/步長	輸出特徵圖大小
第1層	卷積層	1024	3 x 3 /1	14 x 14
第2層	卷積層	512	3 x 3 /1	14 x 14
第3層	卷積層	1024	3 x 3 /1	14 x 14
第4層	卷積層	512	3 x 3 /1	14 x 14
第5層	卷積層	1024	3 x 3 /1	14 x 14

表3：第二物件編碼程序之詳細組成

	操作類型	濾波器數量	濾波器大小/步長	輸出特徵圖大小
第1層	最大值池化層		2 x 2/2	7 x 7
第2層	卷積層	1024	3 x 3 /1	7 x 7
第3層	卷積層	512	3 x 3 /1	7 x 7
第4層	卷積層	1024	3 x 3 /1	7 x 7
第5層	卷積層	512	3 x 3 /1	7 x 7
第6層	卷積層	1024	3 x 3 /1	7 x 7

如表2及表3所描述，第一物件編碼程序及第二物件編碼程序之中之卷積層運算即使濾波器之數量、大小或步長與表1提及之卷積層運算相同，其濾波器之功能(例如，對不同之物件特徵進行編碼)，或執行運算之對象(例如，對第一特徵圖或對第二特徵圖)並不相同，因此用不同名稱區別。表3中之最大值池化層運算在執行過後，並沒有將第二特徵圖之解析度大小作更改，此手段在卷積神經網路中亦為常規之方法，亦即利用墊零(Zero padding)之手法。

上述步驟S4提及之第一物件解碼程序及第二物件解碼程序，亦由上述提及之方法達成，亦即利用卷積層運算進行。在此列出表4及表5以描述其詳細組成。

表4：第一物件解碼程序之詳細組成

	操作類型	濾波器數量	濾波器大小/步長	輸出特徵圖大小
第1層	卷積層	18	3 x 3 /1	14 x 14

表5：第二物件解碼程序之詳細組成

	操作類型	濾波器數量	濾波器大小/步長	輸出特徵圖大小
第1層	卷積層	28	3 x 3 /1	7 x 7

上述步驟S5提及物件框萃取程序，為了正確萃取出第一物件框資訊及第二物件框資訊，需要設計適當之損失函數(Loss function)，且經過訓練之後最小化其值，代表萃取出之第一物件框資訊及第二物件框資訊與實際欲進行物件偵測之影像內之物件資訊差距最小。在此列出根據本發明之損失函數：

上述損失函數中提及之C _coord、C _coord、C _obj及C _noobj代表的是對應物件框中心點座標(x,y)之加權因子(weighting factor)、物件框之寬度與高度(w,h)之加權因子及物件框類別之加權因子，利用物件框中心點座標、物件框寬度及物件框類別等參數，即可得出物件框之條件式信賴分數(Confidence score)。詳細的各項對應定義為

可預測物件框之X座標、

可預測物件框之Y座標、

可預測物件框之寬度、

可預測物件框之高度、

可判斷第(i,j)個物件框中是否有物件(若有物件，則

之值為1，若無則為0)、

係物件框中具有對應物件類別c之物件之預測值

，

可判斷第i個物件框中是否有物件(若有物件，則

之值為1，若無則為0)。其中，j之數值與參數B相關，參數B則為第一解碼特徵圖或第二解碼特徵圖中，每個柵盒之中可偵測之物件框數量，I之數值與參數S相關，參數S對應第一解碼特徵圖及第二解碼特徵圖之解析度(例如，14x14或7x7)。在實際訓練過程之中，發現損失函數之加權因子之設定值，在第一物件框資訊中之值設定成在第二物件框資訊中之兩倍之時，得到之效果為最佳。

在進行物件框萃取程序時，若萃取第一物件框資訊及第二物件框資訊彼此完全獨立，將會使得整體所需之運算量，變成單一路徑卷積神經網路之兩倍，這並非本發明之目的，且當欲偵測之影像內之物件尺寸，在第一解碼特徵圖中顯得過大，而在第二解碼特徵圖中又顯得過小(如第4圖內所示)時，容易發生兩者皆偵測失誤之結果，這也並非本發明之目的。因此，以下揭露根據本發明提供之條件反向傳播機制(Conditional back propagation mechanism)改善此情形。

在進行物件框萃取程序時，若萃取物件框資訊時，得出物件框之寬度及高度兩者之中之較小值(稱為物件之短邊)，小於整體影像之某個百分比時，則從第一解碼特徵圖中萃取出其第一物件框資訊，因此訓練其對應之損失函數。同理，若得出物件框之短邊，大於整體影像之某個百分比時，則從第二解碼特徵圖中萃取出其第二物件框資訊，因此訓練其對應之損失函數。

上述提及之百分比，若為單一值，則萃取第一物件框資訊及第二物件框資訊將彼此完全獨立。在實際訓練過程中，發現當物件框之短邊小於8%時，則萃取成為第一物件框資訊，若當物件框之短邊大於7%時，則萃取成為第二物件框資訊。利用此機制，可改善單一路徑卷積神經網路因物件尺寸之不同造成之偵測失誤。

上述步驟S6提及之非最大值抑制程序，其功能為局部最大搜索，對物件框之條件式信賴分數具有最大分數之物件框保留，且將一些高重複度之物件框資訊篩選掉，以得到精確的最終物件框資訊，此最終物件框資訊之位置或大小，不限制於上述提及之柵盒20或30之大小或位置，而是精確地符合欲偵測物件之大小及位置。其利用之手法為檢測評價函數(Intersection-over-Union，IoU)，此手法可簡單的理解成，將上述步驟S5萃取出之物件框，與對應實際欲進行物件偵測之影像內對應之物件，其交集面積與聯集面積之比值。

參閱第6圖，其係為本發明之實施例之多路徑卷積神經網路偵測系統10之示意圖，其包含影像擷取裝置100、處理器200、儲存裝置300及影像輸出裝置400。此多路徑卷積神經網路偵測系統10可執行上述之多路徑卷積神經網路偵測方法(步驟S1~S8)。換句話說，多路徑卷積神經網路偵測系統10，具有對應執行步驟S1至S8之各元件。

多路徑卷積神經網路偵測系統10之影像擷取裝置100係產生影像，此即對應至第1圖之步驟S1。

第6圖中之處理器200，可包含畫面特徵擷取編碼器201、物件編碼器202、物件解碼器203、物件框萃取器204及非最大值抑制器205等子元件。處理器200即可對應進行第1圖之步驟S2至S6。

更具體地說，畫面特徵擷取編碼器201係輸入由影像擷取裝置100產生之該影像，進行畫面特徵擷取編碼程序之後，輸出第一特徵圖及第二特徵圖，且第一特徵圖之解析度大於第二特徵圖之解析度。此即對應至第1圖之步驟S2。

更具體地說，物件編碼器202包含第一物件編碼器2021及第二物件編碼器2022，第一物件編碼器2021係輸入第一特徵圖，進行第一物件編碼程序之後，輸出第一編碼特徵圖。第二物件編碼器2022係輸入第二特徵圖，進行第二物件編碼程序之後，輸出第二編碼特徵圖。此即對應第1圖之步驟S3。

更具體地說，物件解碼器203包含第一物件解碼器2031及第二物件解碼器2032，第一物件解碼器2031係輸入第一編碼特徵圖，進行第一物件解碼程序之後，輸出第一解碼特徵圖。第二物件解碼器2032係輸入第二編碼特徵圖，進行第二物件解碼程序之後，輸出第二解碼特徵圖。此即對應第1圖之步驟S4。

更具體地說，物件框萃取器204係輸入第一解碼特徵圖，進行物件框萃取程序之後，萃取出複數個第一物件框資訊，以及輸入第二解碼特徵圖，進行物件框萃取程序之後，萃取出複數個第二物件框資訊。此即對應第1圖之步驟S5。

更具體地說，非最大值抑制器205係輸入複數個第一物件框資訊及複數個第二物件框資訊，進行非最大值抑制程序之後，保留至少一最終物件框資訊，且合併至影像中，產生偵測影像。此即對應第1圖之步驟S6。

更具體地說，儲存裝置300儲存上述產生之影像、第一特徵圖、第二特徵圖、第一編碼特徵圖、第二編碼特徵圖、第一解碼特徵圖、第二解碼特徵圖、複數個第一物件框資訊、複數個第二物件框資訊、至少一最終物件框資訊及偵測影像。此即對應第1圖之步驟S7。

最後藉由影像輸出裝置400輸出偵測影像。此即對應第1圖之步驟S8。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

1a、1b:車輛 1c:路樹 10:多路徑卷積神經網路偵測系統 20、30:柵盒 21~25:第一物件框資訊 31~35:第二物件框資訊 41、42:最終物件框資訊 50:影像 100:影像擷取裝置 200:處理器 201:畫面特徵擷取編碼器 202:物件編碼器 203:物件解碼器 204:物件框萃取器 205:非最大值抑制器 300:儲存裝置 400:影像輸出裝置 2021:第一物件編碼器 2022:第二物件編碼器 2031:第一物件解碼器 2032:第二物件解碼器 S1~S8:步驟

第1圖係根據本發明實施例之多路徑卷積神經網路偵測方法之步驟流程圖。

第2圖係根據本發明實施例之多路徑卷積神經網路偵測方法之欲偵測影像示意圖。

第3圖係根據本發明實施例利用畫面特徵擷取編碼程序產生第一特徵圖及第二特徵圖之示意圖。

第4圖係根據本發明實施例執行物件解碼程序得到之第一解碼特徵圖及第二解碼特徵圖之示意圖。

第5圖係根據本發明實施例執行完非最大值抑制程序得到之偵測影像之示意圖。

第6圖係根據本發明實施例之多路徑卷積神經網路偵測系統之示意圖。

S1~S8:步驟

Claims

一種多路徑卷積神經網路偵測方法，其包含下列步驟：藉由一影像擷取裝置，產生一影像；藉由一處理器對該影像進行一畫面特徵擷取編碼程序，將該影像轉換成一第一特徵圖及一第二特徵圖，且該第一特徵圖之解析度大於該第二特徵圖之解析度；藉由該處理器對該第一特徵圖進行一第一物件編碼程序，以及對該第二特徵圖進行一第二物件編碼程序，將該第一特徵圖轉換成一第一編碼特徵圖，且將該第二特徵圖轉換成一第二編碼特徵圖；藉由該處理器對該第一編碼特徵圖進行一第一物件解碼程序，以及對該第二編碼特徵圖進行一第二物件解碼程序，將該第一編碼特徵圖轉換成一第一解碼特徵圖，且將該第二編碼特徵圖轉換成一第二解碼特徵圖；藉由該處理器對該第一解碼特徵圖及該第二解碼特徵圖進行一物件框萃取程序，從該第一解碼特徵圖萃取出複數個第一物件框資訊，且從該第二解碼特徵圖萃取出複數個第二物件框資訊；藉由該處理器對該複數個第一物件框資訊及該複數個第二物件框資訊進行一非最大值抑制程序，萃取出至少一最終物件框資訊，且合併至該影像中，產生一偵測影像；藉由一儲存裝置儲存上述該影像及該偵測影像；以及藉由一影像輸出裝置，輸出該偵測影像。
如申請專利範圍第1項所述之多路徑卷積神經網路偵測方法，其中該畫面特徵擷取編碼程序包含五層最大值池化層運算及十八層卷積層運算，且執行完該畫面特徵擷取編碼程序後，產生之該第一特徵圖解析度大小為14x14，且該第二特徵圖解析度大小為7x7。
如申請專利範圍第1項所述之多路徑卷積神經網路偵測方法，其中該第一物件編碼程序包含五層第一物件編碼卷積層運算，該第二物件編碼程序包含五層第二物件編碼卷積層運算及一層第二物件編碼最大值池化層運算，該第一物件解碼程序包含一層第一物件解碼卷積層運算，以及該第二物件解碼程序包含一層第二物件解碼卷積層運算。
如申請專利範圍第1項所述之多路徑卷積神經網路偵測方法，其中該物件框萃取程序包含一損失函數。
如申請專利範圍第4項所述之多路徑卷積神經網路偵測方法，其中該物件框萃取程序包含訓練該損失函數之一條件反向傳播機制。
如申請專利範圍第1項所述之多路徑卷積神經網路偵測方法，其中該非最大值抑制程序包含一檢測評價函數。
一種多路徑卷積神經網路偵測系統，其包含：一影像擷取裝置，係產生一影像；一處理器，其包含：一畫面特徵擷取編碼器，係輸入由該影像擷取裝置產生之該影像，輸出一第一特徵圖及一第二特徵圖，且該第一特徵圖之解析度大於該第二特徵圖之解析度；一物件編碼器，其包含一第一物件編碼器及一第二物件編碼器，該第一物件編碼器係輸入該第一特徵圖，且輸出一第一編碼特徵圖，該第二物件編碼器係輸入該第二特徵圖，且輸出一第二編碼特徵圖；一物件解碼器，其包含一第一物件解碼器及一第二物件解碼器，該第一物件解碼器係輸入該第一編碼特徵圖，且輸出一第一解碼特徵圖，該第二物件解碼器係輸入該第二編碼特徵圖，且輸出一第二解碼特徵圖；一物件框萃取器，係輸入該第一解碼特徵圖，且輸出複數個第一物件框資訊，以及輸入該第二解碼特徵圖，且輸出複數個第二物件框資訊；以及一非最大值抑制器，係輸入該複數個第一物件框資訊及該複數個第二物件框資訊，輸出至少一最終物件框資訊，且合併至該影像中，產生一偵測影像；一儲存裝置，儲存該影像及該偵測影像；以及一影像輸出裝置，係輸出該偵測影像。