TWI717655B

TWI717655B - 適應多物件尺寸之特徵決定裝置及方法

Info

Publication number: TWI717655B
Application number: TW107139866A
Authority: TW
Inventors: 陳彥霖; 梁弘一; 陳修志; 余兆偉; 李孟燦
Original assignee: 財團法人資訊工業策進會
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2021-02-01
Also published as: US11037016B2; CN111178367B; US20200151492A1; CN111178367A; TW202018659A

Abstract

一種適應多物件尺寸之特徵決定裝置及方法。該裝置將多張物件影像個別地輸入具有複數個卷積層之卷積神經網路以產生各該物件影像所對應之複數張特徵圖。該裝置計算各該物件影像之各該特徵圖之一特徵量。該裝置根據一預設門檻值及各該物件影像所對應之該等特徵量，判斷各該物件影像之一無效層起始編號。該裝置根據各該物件影像之尺寸及各該物件影像所對應之該無效層起始編號，決定複數個物件尺寸各自對應之特徵圖提取建議。

Description

適應多物件尺寸之特徵決定裝置及方法

本發明係關於一種物件之特徵決定裝置及方法。具體而言，本發明係關於一種適應多物件尺寸之特徵決定裝置及方法。

隨著運算硬體及深度學習技術的快速發展，許多電腦視覺裝置及影像處理裝置(例如：路側裝置)已採用由深度學習技術所建立的物件偵測模型來偵測影像或影像序列中的物件。目前被廣泛地應用於電腦視覺技術及影像處理技術的深度學習模型包含卷積神經網路(Convolutional Neural Network；CNN)模型、區域卷積神經網路(Region-based Convolutional Neural Network；R-CNN)模型、快速區域卷積神經網路(Faster Region-based Convolutional Neural Network；Faster R-CNN)模型等等。

不論採用哪一種深度學習模型，皆需要經過訓練才能作為實際要使用的物件偵測模型。目前已有一些深度學習技術(例如：單次多框偵測器(Single Shot multibox Detector；SSD))係以影像與影像在深度學習模型中某幾層卷積層的特徵圖(feature map)來進行訓練，以提高物件偵測模型的準確率。由於硬體資源有限，習知技術係預先設定欲固定地提取哪一(或哪些)卷積層的特徵圖。然而，物件尺寸不一，習知技術的作法極可能提取到無效的特徵圖(亦即，特徵量過少的特徵圖)，造成運算資源的浪費，且導致無法提高訓練出來的物件偵測模型的準確率。

為便於理解，請參考第1圖及第2圖所示之具體範例。第1圖描繪一內有物件「車子」之影像11，以及影像11在一深度學習模型之第1層至第5層卷積層所分別對應之複數張特徵圖。於第1圖中，第5層卷積層所對應之各該特徵圖為全黑或近乎全黑，代表所具有的特徵量極少(亦即，有用之資訊極少)，可視為無效的特徵圖。第2圖則描繪一內有物件「人物」之影像21，以及影像21在一深度學習模型之第1層至第5層卷積層所分別對應之複數張特徵圖。於第2圖中，第4層卷積層及第5層卷積層所對應之各該特徵圖為全黑或近乎全黑，代表所具有的特徵量極少，可視為無效的特徵圖。比較第1圖及第2圖可知，第2圖之影像21中的物件的尺寸較小，故第4層卷積層所對應之該等特徵圖即已為全黑或近乎全黑，而第1圖之影像11中的物件的尺寸較大，故直到第5層卷積層所對應之該等特徵圖才為全黑或近乎全黑。由此可知，在物件的尺寸不一的狀況下，預先設定欲固定地提取哪一(或哪些)卷積層的特徵圖勢必會提取到無用的資訊，造成無意義的運算，無法使訓練出來的物件偵測模型有較高的準確率。

目前的深度學習模型的另一個問題是需要大量的常態卷積運算，因此硬體需求較高，不易實現於嵌入式平台。為解決前述問題，目前已有一些輕量化(亦即，運算量較少)的深度學習模型，例如：深度分離卷積神經網路(depth-wise separable convolution neural network)。然而，這些輕量化的深度學習模型在經過多層的卷積運算後，往往會產生無效的特徵圖(亦即，特徵量過少的特徵圖)，造成後續運算資源的浪費。

有鑑於此，如何根據不同物件尺寸提供特徵圖提取建議，以避免造成無意義運算，乃業界亟需努力之目標。

本發明之一目的在於提供一種適應多物件尺寸之特徵決定裝置。該裝置包含一儲存器及一處理器，且二者彼此電性連接。該儲存器儲存複數張物件影像。該處理器將各該物件影像輸入具有複數個卷積層之一卷積神經網路以產生各該物件影像所對應之複數張特徵圖(feature map)，其中各該特徵圖對應至該等卷積層其中之一。該處理器計算各該物件影像之各該特徵圖之一特徵量。該處理器根據一預設門檻值及各該物件影像所對應之該等特徵量，判斷各該物件影像之一無效層起始編號，其中各該無效層起始編號對應至該等卷積層其中之一。該處理器根據各該物件影像之一尺寸及各該物件影像所對應之該無效層起始編號，決定複數個物件尺寸各自對應之一特徵圖提取建議，其中各該特徵圖提取建議對應至該等卷積層之一部分。

本發明之另一目的在於提供一種適應多物件尺寸之特徵決定方法，其係適用於一電子裝置。該電子裝置儲存複數張物件影像。該方法包含下列步驟：(a)將各該物件影像輸入具有複數個卷積層之一卷積神經網路以產生各該物件影像所對應之複數張特徵圖，其中各該特徵圖對應至該等卷積層其中之一，(b)計算各該物件影像之各該特徵圖之一特徵量，(c)根據一預設門檻值及各該物件影像所對應之該等特徵量，判斷各該物件影像之一無效層起始編號，其中各該無效層起始編號對應至該等卷積層其中之一，以及(d)根據各該物件影像之一尺寸及各該物件影像所對應之該無效層起始編號，決定複數個物件尺寸各自對應之一特徵圖提取建議，其中各該特徵圖提取建議對應至該等卷積層之一部分。

本發明所提供之適應多物件尺寸之特徵決定技術(至少包含裝置及方法)藉由分析多張物件影像於卷積神經網路之各卷積層之特徵圖之特徵量，判斷各該物件影像之無效層起始編號，並根據各該物件影像之尺寸及無效層起始編號進行統計，藉此決定各個物件尺寸對應之特徵圖提取建議。本發明所提供之適應多物件尺寸之特徵決定技術藉由提供不同物件尺寸之特徵圖提取建議，解決習知技術可能提取到無效的特徵圖，或是僅提取固定某一(或某些)卷積層之特徵圖所造成的無意義運算的問題。

以下結合圖式闡述本發明之詳細技術及實施方式，俾使本發明所屬技術領域中具有通常知識者能理解所請求保護之發明之技術特徵。

11‧‧‧影像

21‧‧‧影像

3‧‧‧特徵決定裝置

31‧‧‧儲存器

33‧‧‧處理器

31a、31b、……、31x‧‧‧物件影像

31a-1、31b-1、……、31x-1‧‧‧特徵圖

31a-2、31b-2、……、31x-2‧‧‧特徵圖

31a-n、31b-n、……、31x-n‧‧‧特徵圖

32a、32b、32x‧‧‧特徵量分布曲線

7‧‧‧混合式卷積網路

S801-S807‧‧‧步驟

S901~S903‧‧‧步驟

第1圖係描繪一內有物件「車子」之影像及其於複數個卷積層之特徵圖；第2圖係描繪一內有物件「人物」之影像及其於複數個卷積層之特徵圖；第3圖係描繪第一實施方式之適應多物件尺寸之特徵決定裝置3之架構示意圖；第4圖係描繪複數張物件影像於複數個卷積層所對應之特徵圖之示意；第5A圖係描繪物件影像31a之特徵圖31a-2之一具體範例；第5B圖係描繪物件影像31a、31b、31x所分別對應之特徵量分布曲線32a、32b、32x；第6A圖係描繪物件尺寸為100*100像素之群組之特徵量分布曲線之一具體範例；第6B圖係描繪物件尺寸為200*200像素之群組之特徵量分布曲線之一具體範例；第7圖係描繪混合式卷積神經網路7之架構示意圖；第8圖係描繪第二實施方式之適應多物件尺寸之特徵決定方法之部分流程圖；以及第9圖係描繪某些實施方式所會執行之方法之部分流程圖。

以下將透過實施方式來解釋本發明所提供之一種適應多物件尺寸之特徵決定裝置及方法。然而，該等實施方式並非用以限制本發明需在如該等實施方式所述之任何環境、應用或方式方能實施。因此，關於實施方式之說明僅為闡釋本發明之目的，而非用以限制本發明之範圍。應理解，在以下實施方式及圖式中，與本發明非直接相關之元件已省略而未繪示，且各元件之尺寸以及元件間之尺寸比例僅為例示而已，而非用以限制本發明之範圍。

本發明之第一實施方式為一能適應多物件尺寸之特徵決定裝置3，其架構示意圖係描繪於第3圖。特徵決定裝置3包含一儲存器31及一處理器33，且二者彼此電性連接。儲存器31可為一記憶體、一通用串列匯流排(Universal Serial Bus；USB)碟、一硬碟、一光碟、一隨身碟或本發明所屬技術領域中具有通常知識者所知且具有相同功能之任何其他儲存媒體或電路。處理器33可為各種處理器、中央處理單元、微處理器、數位訊號處理器或本發明所屬技術領域中具有通常知識者所知之其他計算裝置。於一些實施方式中，特徵決定裝置3可為但不限於路側監控裝置、錄影機或車牌辨識系統的資訊蒐集裝置等。

儲存器31儲存複數張物件影像31a、31b、……、31x。物件影像31a、31b、……、31x為以物件為主之影像(亦即，物件於影像中所佔據之面積大於一預設比例，例如：95%)。於其他實施方式中，特徵決定裝置3則可利用任何的影像，但各影像中需有物件且需提供物件於影像中之位置資訊，俾特徵決定裝置3能依據位置資訊從影像中取得物件影像。

於本實施方式中，特徵決定裝置3先取得物件影像31a、31b、……、31x於一卷積神經網路之不同卷積層中之特徵圖，計算各該特徵圖之特徵量，再根據一預設門檻值及該等特徵量判斷各該物件影像之無效層起始編號，再根據各該物件影像之尺寸及各該物件影像所對應之該無效層起始編號進行統計，藉此決定複數個物件尺寸各自對應之一特徵圖提取建議。需說明者，一卷積神經網路尚包含池化層(pooling layer)、線性整流層(rectified linear units layer)等其他層，惟本發明之重點在於與卷積層相關之運算及分析，故以下段落將僅詳細說明與本發明相關之實施細節。

具體而言，處理器33將物件影像31a、31b、……、31x分別輸入一個具有複數個卷積層(例如：n層，其中n為正整數)之卷積神經網路以產生物件影像31a、31b、……、31x各自之複數張特徵圖(feature map)，其中各該特徵圖對應至該等卷積層其中之一。卷積神經網路之各卷積層具有至少一個卷積核(filter)以分別進行卷積運算。應理解，本發明未限制一卷積層所具有之卷積核之數目。為便於說明，以下將以一卷積層具有一個卷積核為例說明，但本發明所屬技術領域中具有通常知識者依據以下說明應能理解當一卷積層有多個卷積核時之運作方式。

具體而言，將一物件影像輸入卷積神經網路後，處理器33在各卷積層會以該卷積層之卷積核對該卷積層之輸入執行一卷積運算以產生一特徵圖。一特徵圖包含複數個細胞(cell)，且細胞數係取決於特徵圖之尺寸。舉例而言，若特徵圖之尺寸為4*4，則該特徵圖具有16個細胞。需說明者，一卷積神經網路可具有之層數、各卷積層所對應之卷積核之數目、各卷積核之參數為何以及各卷積層如何以對應之卷積核產生特徵圖並非本發明之重點，本發明所屬技術領域中具有通常知識者應可理解其內容，故不贅言。

為便於理解，請參考第4圖所示之一具體範例，但其非用以限制本發明之範例。於該具體範例中，處理器33將物件影像31a輸入該卷積神經網路後，在第1、2、……、n層卷積層分別得到特徵圖31a-1、31a-2、……31a-n。類似的，處理器33將物件影像31b輸入至該卷積神經網路後，在第1、2、……、n層卷積層分別得到特徵圖31b-1、31b-2、……31b-n。同理，處理器33將物件影像31x輸入至該卷積神經網路後，在第1、2、……、n層卷積層分別得到特徵圖31x-1、31x-2、……、31x-n。處理器33將其他物件影像輸入該卷積神經網路後，亦會在各卷積層得到對應之特徵圖，茲不贅言。

接著，處理器33計算物件影像31a、31b、……、31x各自對應之各該特徵圖之一特徵量。特徵量係用以評估對應之特徵圖所帶有之影像資訊量。於某些實施方式中，一特徵圖之特徵量為該特徵圖上之一非零細胞(cell)數與一總細胞數間之一比例。於該等實施方式中，處理器33可根據下列公式(1)對一特徵圖之各細胞進行計數(若為非零細胞，計數為1；若為零細胞，計數為0)，再根據公式(2)計算該特徵圖之特徵量。

上述公式(1)及公式(2)中，變數x及y為正整數，函數f(x,y)為特徵圖之座標位置(x,y)之細胞所對應之計數，函數feature map(x,y)為特徵圖之座標位置(x,y)之細胞之值，變數FR代表特徵量，變數H為特徵圖之高度，且變數W為特徵圖之寬度。

為便於理解，請參第5A圖所示之一具體範例，但其非用以限制本發明之範圍。於該具體範例中，物件影像31a之特徵圖31a-2之尺寸為5*5，且各細胞之值如第5A圖所示。處理器33根據前述公式(1)及公式(2)計算特徵圖31a-2上非零細胞數與總細胞數之比例，得到特徵圖31a-2之特徵量為7/25。需說明者，本發明未限制如何計算一特徵圖之特徵量，任何可以評估一特徵圖所帶有之資訊量之方法(例如：非零細胞之數目、細胞之值的分布狀態、連續非零細胞之比例、非零細胞之密集度等等)均屬於本發明所要保護的範圍。

之後，處理器33根據一預設門檻值及物件影像31a、31b、……、31x各自所對應之該等特徵量，判斷物件影像31a、31b、……、31x各自之一無效層起始編號，其中各該無效層起始編號對應至該卷積神經網路之該等卷積層其中之一。具體而言，每一物件影像31a、31b、……、31x對於不同卷積層有一對應之特徵量，處理器33藉由將物件影像31a、 31b、……、31x各自所對應之該等特徵量與一預設門檻值比對以判斷物件影像31a、31b、……、31x各自之該無效層起始編號。需說明者，於某些實施方式中，若一物件影像於一卷積層有多張特徵圖，則該物件影像於該卷積層所對應之特徵量為該物件影像於該卷積層之該等特徵量之一統計值(例如：一平均值)。於本實施方式中，處理器33對各張物件影像31a、31b、……、31x的各個特徵圖(如前所述，各特徵圖對應至某一卷積層)依其經卷積處理的順序開始計算對應的特徵量，並依計算特徵量的順序判斷各張物件影像31a、31b、……、31x的特徵量是否小於一預設門檻值。若處理器33判斷某一物件影像(例如：物件影像31a)的特徵值首次小於該預設門檻值，便記錄該特徵值首次小於該預設門檻值的卷積層為一無效層，且選擇該無效層之編號作為一無效層起始編號。

為便於理解，請參考第5B圖所示之一具體範例，但其非用以限制本發明之範圍。第5B圖顯示物件影像31a、31b、31x所分別對應之特徵量分布曲線32a、32b、32x。茲假設預設門檻值設為0.2。由特徵量分布曲線32a可知，物件影像31a之特徵量從第5層卷積層開始小於該預設門檻值，故處理器33判斷物件影像31a之無效起始層編號為5。由特徵量分布曲線32b可知，物件影像31b之特徵量從第4層卷積層開始小於該預設門檻值，故處理器33判斷物件影像31b之無效起始層編號為4。類似的，由特徵量分布曲線32x可知，物件影像31x之特徵量從第6層卷積層開始小於該預設門檻值，故處理器33判斷物件影像31x之無效起始層編號為6。物件影像31a、31b、31x所分別對應之無效起始層編號為5、4、6，表示物件影像31a、31b、31x分別在第5、4、6層卷積層開始就不具有足夠的特徵量。

接著，處理器33根據物件影像31a、31b、……、31x各自之尺寸及物件影像31a、31b、……、31x各自所對應之該無效層起始編號，決定複數個物件尺寸各自對應之一特徵圖提取建議，其中各該特徵圖提取建議對應至該等卷積層之一部分。處理器33所決定之不同物件尺寸之特徵圖提取建議可供卷積神經網路之訓練階段或辨識階段使用。

於某些實施方式中，處理器33藉由執行下列運作以決定各該物件尺寸之該特徵圖提取建議。處理器33先依據物件影像31a、31b、……、31x之尺寸，將物件影像31a、31b、……、31x區分為複數個群組，其中區分物件影像為不同群組的規則可預先地根據經驗或使用目的設定不同群組的尺寸範圍。於一實施方式中，同一群組中的物件影像之尺寸相同或接近(例如：面積之差異小於5%)。接著，處理器33針對各該群組執行以下運作：藉由統計該群組之該等物件影像之該等無效層起始編號以決定該特徵圖提取建議。舉例而言，處理器33可分別從各群組的各物件影像所對應的無效層起始編號中選取最小的無效層起始編號為該群組的共同無效起始層編號，接著再選取共同無效起始層的前一層或前數層作為該群組的特徵圖提取建議，其中，於卷積神經網路中越淺層的卷積層所對應到的編號越小。舉例而言，若某一群組的共同無效起始層編號為k，特徵圖提取建議可為對應於編號k-1的卷積層，或對應於編號k-n、k-n+1…、k-1等編號的n層卷積層，其中k及n皆為正整數，且k大於n。

為便於理解，茲以第6A圖及第6B圖所示之一具體範例說明，但其非用以限制本發明之範圍。於該具體範例中，處理器33從物件影像31a、31b、……、31x等多種尺寸中設定二種尺寸範圍，例如近似於100*100像素的尺寸範圍及近似於200*200像素的尺寸範圍，以下分別以物件尺寸100*100像素及物件尺寸200*200像素來表示。處理器33將物件影像31a、31b、……、31x輸入卷積神經網路後，依據前述運算產生物件影像31a、31b、……、31x於各卷積層所對應之該等特徵量。另外，處理器33根據物件影像31a、31b、……、31x之尺寸，將物件影像31a、31b、……、31x區分為群組A(亦即，物件尺寸為100*100像素或接近100*100像素之物件影像)及群組B(亦即，物件尺寸為200*200像素或接近200*200像素之物件影像)。

第6A圖及第6B圖分別描繪群組A及群組B各自包含之物件影像之特徵量分布曲線，由特徵量分布曲線可看出物件影像對應至不同卷積層之特徵量。茲假設預設門檻為0.2。物件尺寸為100*100像素之群組A之特徵量從第5層卷積層開始小於預設門檻值，代表群組A的共同無效層起始編號為5。物件尺寸為200*200像素之群組B之特徵量從第7層卷積層開始小於該預設門檻值，代表群組B的共同無效層起始編號為7。針對各群組，處理器33會選取編號小於該對應的共同無效層起始編號之前一層或前n層(亦即，不會產生無效特徵圖的卷積層)作為特徵圖提取建議。以第6A圖及第6B圖之具體範例為例，對於物件尺寸為100*100像素，處理器33從第1層卷積層至第4層卷積層(亦即，小於最低無效層起始編號5的那幾層)選出一或多層(例如：第2層、第3層、第4層卷積層)作為特徵圖提取建議。對於物件尺寸為200*200像素，處理器33從第1層至第6層卷積層(亦即，小於最低無效層起始編號7的那幾層)選出一或多層(例如：第4層、第5層、第6層卷積層)作為特徵圖提取建議。

如前所述，處理器33所決定之不同物件尺寸之特徵圖提取建議可供卷積神經網路之訓練階段或辨識階段使用。以第6A圖及第6B圖之具體範例為例，在卷積神經網路之訓練階段或/及辨識階段使用，處理器33會針對物件尺寸為100*100像素之物件影像提取出第2、3及4層卷積層的特徵圖，且會針對物件尺寸為200*200像素之物件影像提取出第4、5及6層卷積層的特徵圖，以增進卷積神經網路之訓練或/及辨識結果。本發明所屬技術領域中具有通常知識者應瞭解如何利用特徵圖來訓練卷積神經網路，以及如何利用特徵圖來使卷積神經網路進行辨識，故不贅言。

於某些實施方式中，該卷積神經網路為一深度分離卷積神經網路(depth-wise separable convolution neural network)。於該等實施方式中，特徵決定裝置3還可基於前述物件影像31a、31b、……、31x之無效起始層編號建構出一混合式卷積神經網路。具體而言，處理器33藉由統計物件影像31a、31b、……、31x之該等無效起始層編號以決定一轉換層編號。舉例而言，處理器33藉由統計該等無效層起始編號而以最低的無效層起始編號作為轉換層編號。再舉例而言，處理器33藉由統計該等無效層起始編號而以出現最多次的無效層起始編號作為轉換層編號。接著，處理器33根據該轉換層編號產生具有複數個卷積層之一混合式卷積神經網路，其中該混合式卷積神經網路中低於該轉換層編號之該等卷積層採用一深度分離卷積架構，且非低於該轉換層編號之該等卷積層採用一常態卷積架構。於某些實施方式中，該深度分離卷積神經網路之各該卷積層具有至少二個卷積核(filter)以分別執行一深度卷積(depth-wise convolution)運算及一逐點卷積(point-wise convolution)運算。

為便於理解，茲以第5B圖所示之具體範例說明，但其非用以限制本發明之範圍。如前所述，於該具體範例中，物件影像31a、31b、31x之無效起始層編號分別為5、4、6。處理器33統計該等無效層起始編號後，以最低的(亦即，編號最小)之無效起始層編號作為一轉換層編號(亦即，4)。接著，處理器33根據該轉換層編號產生一個具有複數個卷積層之混合式卷積神經網路以作為一影像物件偵測模型。具體而言，該混合式卷積神經網路中，低於該轉換層編號之該等卷積層採用一深度分離卷積架構，且非低於該轉換層編號之該等卷積層採用一常態卷積架構。請參考第7圖之一混合式卷積神經網路7之架構示意圖。當轉換層編號為t時，混合式卷積網路7之第1層至第t-1層卷積層採用深度分離卷積架構，而第t層至第m層則採用常態卷積架構，前述變數t及變數m皆為自然數，且t小於m。

本發明所屬技術領域中具有通常知識者應瞭解採用深度分離卷積架構之卷積層需要計算的參數量較少。混合式卷積神經網路7之低卷積層(亦即，低於該轉換層編號之該等卷積層)採用深度分離卷積架構，代表在影像之特徵圖之資訊還足夠時，混合式卷積神經網路7係以低運算成本之架構進行卷積運算。混合式卷積神經網路7之高卷積層(亦即，不低於該轉換層編號之該等卷積層)採用常態卷積架構，代表當影像之特徵圖之資訊較低時不再使用參數量少的計算方式，故可降低產生無效特徵圖的機率，避免運算資源的浪費。因此，以混合式卷積神經網路7作為影像物件偵測模型可提升物件偵測的效率，亦可解決習知深度學習模型需要大量的常態卷積運算，因為硬體需求較高而不易實現於嵌入式平台等問題。

於某些實施方式中，處理器33可針對混合式卷積神經網路7提供不同物件尺寸之特徵圖提取建議，以供混合式卷積神經網路7之訓練階段或辨識階段使用。簡言之，在訓練階段，處理器33可將欲用於訓練之影像輸入混合式卷積神經網路7，基於影像中物件之尺寸確認要提取哪幾層的特徵圖，再以影像與特徵圖一起訓練混合式卷積神經網路7。類似的，在辨識階段，處理器33可將欲辨識/偵測之影像輸入經訓練之混合式卷積神經網路7，基於影像中物件之尺寸確認要提取哪幾層的特徵圖，再由混合式卷積神經網路7基於影像與特徵圖進行物件辨識/偵測。

由上述說明可知，特徵決定裝置3藉由分析多張物件影像於卷積神經網路之各卷積層之特徵圖之特徵量，判斷各該物件影像之無效層起始編號，再根據各該物件影像之尺寸及各該物件影像所對應之該無效層起始編號，決定各個物件尺寸對應之特徵圖提取建議。特徵決定裝置3藉由提供不同物件尺寸之特徵圖提取建議，因而解決習知技術可能提取到無效的特徵圖，或是僅提取固定某一(或某些)卷積層之特徵圖所造成的無意義運算的問題。

此外，特徵決定裝置3還可藉由分析及統計物件影像於一深度分離卷積神經網路之各卷積層之特徵圖之特徵量，產生一混合式卷積神經網路作為一影像物件偵測模型。混合式卷積神經網路之低卷積層採用深度分離卷積架構，代表在影像之特徵圖之資訊還足夠時，以低運算成本之架構進行卷積運算，達到輕量化的效果。混合式卷積神經網路之高卷積層採用常態卷積架構，代表當影像之特徵圖之資訊較低時不再使用參數量少的計算方式，故可降低產生無效特徵圖的機率，避免運算資源的浪費。藉由提供一個同時具有分離卷積架構及常態卷積架構之混合式卷積神經網路，可達到輕量化的效果，且以混合式卷積神經網路作為影像物件偵測模型可有效率地提升物件偵測及辨識的準確率。

本發明之第二實施方式為一適應多物件尺寸之特徵決定方法(以下簡稱「特徵決定方法」)，其流程圖係描繪於第8圖。特徵決定方法適用於一電子裝置，例如：第一實施方式所述之特徵決定裝置3。該電子裝置儲存複數張物件影像，例如：第一實施方式之物件影像31a、31b、……、31x。特徵決定方法透過步驟S801至步驟S807決定複數個物件尺寸各自對應之一特徵圖提取建議。

於步驟S801，由該電子裝置將各該物件影像輸入具有複數個卷積層之一卷積神經網路，藉此產生各該物件影像所對應之複數張特徵圖，其中各該特徵圖對應至該等卷積層其中之一。卷積神經網路之各卷積層具有至少一個卷積核(filter)以分別進行卷積運算。應理解，本發明未限制一卷積層所具有之卷積核之數目。為便於說明，以下將以一卷積層具有一個卷積核為例說明，但本發明所屬技術領域中具有通常知識者依據以下說明應能理解當一卷積層有多個卷積核時之運作方式。

於步驟S803，由該電子裝置計算各該物件影像之各該特徵圖之一特徵量。一特徵圖具有複數個細胞。於某些實施方式中，各該特徵量為對應之該特徵圖上之一非零細胞數與一總細胞數間之一比例。於某些實施方式中，各該特徵量為對應之該特徵圖上之一非零細胞數。

接著，於步驟S805，由該電子裝置根據一預設門檻值及各該物件影像所對應之該等特徵量，判斷各該物件影像之一無效層起始編號，其中各該無效層起始編號對應至該等卷積層其中之一。於某些實施方式中，步驟S8O5藉由將各該物件影像所對應之該等特徵量與該預設門檻值比對以判斷各該物件影像之該無效層起始編號。

隨後，於步驟S807，由該電子裝置根據各該物件影像之一尺寸及各該物件影像所對應之該無效層起始編號，決定複數個物件尺寸各自對應之一特徵圖提取建議。於某些實施方式中，步驟S807包含一步驟以依據該等物件影像之該等尺寸，將該等物件影像區分為複數個群組，再包含另一步驟藉由統計各該群組之該等物件影像之該等無效層起始編號以決定各該群組之該特徵圖提取建議。步驟S807所決定之不同物件尺寸之特徵圖提取建議可供卷積神經網路之訓練階段或辨識階段使用。

於某些實施方式中，步驟S801之該卷積神經網路為一深度分離卷積神經網路(depth-wise separable convolution neural network)，該特徵決定方法還會透過第9圖所示之步驟S901至步驟S903產生一混合式卷積神經網路。

於步驟S901，由該電子裝置藉由統計該等無效起始層編號以決定一轉換層編號。接著，於步驟S903，由該電子裝置根據該轉換層編號產生具有複數個卷積層之一混合式卷積神經網路作為一物件偵測模型，其中該混合式卷積神經網路中低於該轉換層編號之該等卷積層採用一深度分離卷積架構，且非低於該轉換層編號之該等卷積層採用一常態卷積架構。於某些實施方式中，該深度分離卷積神經網路之各該卷積層包含一深度卷積(depth-wise convolution)運算及一逐點卷積(point-wise convolution)運算。

除了上述步驟，第二實施方式亦能執行第一實施方式所描述之特徵決定裝置3之所有運作及步驟，具有同樣之功能，且達到同樣之技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第二實施方式如何基於上述第一實施方式以執行此等運作及步驟，具有同樣之功能，並達到同樣之技術效果，故不贅述。

需說明者，於本發明專利說明書及申請專利範圍中，某些用語(包含：卷積層及特徵圖)前被冠以「第一」或「第二」，該等「第一」及「第二」僅用來區分不同之用語。例如：第一卷積層及第二卷積層中之「第一」及「第二」僅用來表示不同階段所使用之預設門檻值。

綜上所述，本發明所提供之適應多物件尺寸之特徵決定技術(至少包含裝置及方法)藉由分析多張物件影像於卷積神經網路之各卷積層之特徵圖之特徵量，判斷各該物件影像之無效層起始編號，再根據各該物件影像之尺寸及各該物件影像所對應之該無效層起始編號，決定各個物件尺寸對應之特徵圖提取建議。本發明所提供之適應多物件尺寸之特徵決定技術藉由提供不同物件尺寸之特徵圖提取建議，因而解決習知技術可能提取到無效的特徵圖，或是僅提取固定某一(或某些)卷積層之特徵圖所造成的無意義運算的問題。另外，本發明所提供之適應多物件尺寸之特徵決定技術還藉由統計無效起始層編號，產生一混合式卷積神經網路作為一影像物件偵測模型。藉由提供一個同時具有分離卷積架構及常態卷積架構之混合式卷積神經網路，可達到輕量化的效果，且以混合式卷積神經網路作為影像物件偵測模型可有效率地提升物件偵測及辨識的準確率。

上述實施方式僅用來例舉本發明之部分實施態樣，以及闡釋本發明之技術特徵，而非用來限制本發明之保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍，而本發明之權利保護範圍以申請專利範圍為準。

S801~S807‧‧‧步驟

Claims

一種適應多物件尺寸之特徵決定裝置，包含：一儲存器，儲存複數張物件影像；一處理器，電性連接至該儲存器，且執行以下運作：將各該物件影像輸入具有複數個第一卷積層之一卷積神經網路以產生各該物件影像所對應之複數張第一特徵圖(feature map)，其中各該第一特徵圖對應至該等第一卷積層其中之一；計算各該物件影像之各該第一特徵圖之一特徵量；根據一預設門檻值及各該物件影像所對應之該等特徵量，判斷各該物件影像之一無效層起始編號，其中各該無效層起始編號對應至該等第一卷積層其中之一；以及根據各該物件影像之一尺寸及各該物件影像所對應之該無效層起始編號，決定複數個物件尺寸各自對應之一特徵圖提取建議，其中各該特徵圖提取建議對應至該等第一卷積層之一部分。
如請求項1所述之特徵決定裝置，其中該處理器藉由執行以下運作以決定各該物件尺寸之該特徵圖提取建議：依據該等物件影像之該等尺寸，將該等物件影像區分為複數個群組；以及針對各該群組執行以下運作：藉由統計該群組之該等物件影像之該等無效層起始編號以決定該特徵圖提取建議。
如請求項1所述之特徵決定裝置，其中各該特徵量為對應之該第一特徵圖上之一非零細胞(cell)數與一總細胞數間之一比例。
如請求項1所述之特徵決定裝置，其中各該特徵量為對應之該第一特徵圖上之一非零細胞(cell)數。
如請求項1所述之特徵決定裝置，其中該處理器係藉由將各該物件影像所對應之該等特徵量與該預設門檻值比對以判斷各該物件影像之該無效層起始編號。
如請求項1所述之特徵決定裝置，其中該卷積神經網路為一深度分離卷積神經網路(depth-wise separable convolution neural network)，該處理器還執行以下運作：藉由統計該等無效起始層編號以決定一轉換層編號；以及根據該轉換層編號產生具有複數個第二卷積層之一混合式卷積神經網路，其中低於該轉換層編號之該等第二卷積層採用一深度分離卷積架構，且非低於該轉換層編號之該等第二卷積層採用一常態卷積架構。
如請求項6所述之特徵決定裝置，其中該深度分離卷積神經網路之各該第二卷積層包含一深度卷積(depth-wise convolution)運算及一逐點卷積(point-wise convolution)運算。
一種適應多物件尺寸之特徵決定方法，該方法適用於一電子裝置，該電子裝置儲存複數張物件影像，該方法包含下列步驟：將各該物件影像輸入具有複數個第一卷積層之一卷積神經網路以產生各該物件影像所對應之複數張第一特徵圖(feature map)，其中各該第一特徵圖對應至該等第一卷積層其中之一；計算各該物件影像之各該第一特徵圖之一特徵量；根據一預設門檻值及各該物件影像所對應之該等特徵量，判斷各該物件影像之一無效層起始編號，其中各該無效層起始編號對應至該等第一卷積層其中之一；以及根據各該物件影像之一尺寸及各該物件影像所對應之該無效層起始編號，決定複數個物件尺寸各自對應之一特徵圖提取建議，其中各該特徵圖提取建議對應至該等第一卷積層之一部分。
如請求項8所述之特徵決定方法，其中決定各該物件尺寸之該特徵圖提取建議之該步驟包含：依據該等物件影像之該等尺寸，將該等物件影像區分為複數個群組；以及針對各該群組執行下列步驟：藉由統計該群組之該等物件影像之該等無效層起始編號以決定該特徵圖提取建議。
如請求項8所述之特徵決定方法，其中各該特徵量為對應之該第一特徵圖上之一非零細胞(cell)數與一總細胞數之一比例。
如請求項8所述之方法，其中各該特徵量為對應之該第一特徵圖上之一非零細胞(cell)數。
如請求項8所述之特徵決定方法，其中判斷各該物件影像之該無效層起始編號之該步驟係藉由將各該物件影像所對應之該等特徵量與該預設門檻值比對以判斷各該物件影像之該無效層起始編號。
如請求項8所述之特徵決定方法，其中該卷積神經網路為一深度分離卷積神經網路(depth-wise separable convolution neural network)，該方法還包含下列步驟：藉由統計該等無效起始層編號以決定一轉換層編號；以及根據該轉換層編號產生具有複數個第二卷積層之一混合式卷積神經網路，其中低於該轉換層編號之該等第二卷積層採用一深度分離卷積架構，且非低於該轉換層編號之該等第二卷積層採用一常態卷積架構。
如請求項13所述之特徵決定方法，其中該深度分離卷積神經網路之各該第二卷積層包含一深度卷積(depth-wise convolution)運算及一逐點卷積(point-wise convolution)運算。