TWI773481B

TWI773481B - 圖像處理方法及裝置、電子設備和電腦可讀儲存介質

Info

Publication number: TWI773481B
Application number: TW110129660A
Authority: TW
Inventors: 楊昆霖; 顏鯤; 侯軍; 蔡曉聰; 伊帥
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-07-18
Filing date: 2019-12-16
Publication date: 2022-08-01
Also published as: US20210019562A1; KR102436593B1; SG11202008188QA; JP7106679B2; CN110378976B; TWI740309B; WO2021008022A1; KR20210012004A; JP2021533430A; TW202105321A; TW202145143A; CN110378976A

Abstract

本發明涉及一種圖像處理方法及裝置、電子設備和電腦可讀儲存介質，所述方法包括：通過特徵提取網路對待處理圖像進行特徵提取，得到待處理圖像的第一特徵圖；通過M級編碼網路對第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，多個特徵圖中各個特徵圖的尺度不同；通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到待處理圖像的預測結果。本發明實施例可提高預測結果的質量及強健性。

Description

圖像處理方法及裝置、電子設備和電腦可讀儲存介質

本申請要求在2019年7月18日提交中國專利局、申請號爲201910652028.6、發明名稱爲“圖像處理方法及裝置、電子設備和存儲介質”的中國專利申請的優先權，其全部內容通過引用結合在本申請中。

本發明涉及電腦技術領域，尤其涉及一種圖像處理方法及裝置、電子設備和電腦可讀儲存介質。

隨著人工智能技術的不斷發展，其在電腦視覺、語音識別等方面都取得了很好的效果。在對場景中的目標（例如行人、車輛等）進行識別的任務中，可能需要預測場景中目標的數量、分布情况等。

因此，本發明之目的，即在提供一種圖像處理技術方案。

於是，本發明在一種可能的實現方式中，根據本發明的一方面，提供了一種圖像處理方法，包括：通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，所述多個特徵圖中各個特徵圖的尺度不同；通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的預測結果，M、N爲大於1的整數。

在一種可能的實現方式中，通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，包括：通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖；通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖，m爲整數且1＜m＜M；通過第M級編碼網路對第M-1級編碼的M個特徵圖進行尺度縮小及多尺度融合處理，得到第M級編碼的M+1個特徵圖。

在一種可能的實現方式中，通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第二特徵圖，包括：對所述第一特徵圖進行尺度縮小，得到第二特徵圖；對所述第一特徵圖和所述第二特徵圖進行融合，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖。

在一種可能的實現方式中，通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖，包括：對第m-1級編碼的m個特徵圖進行尺度縮小及融合，得到第m+1個特徵圖，所述第m+1個特徵圖的尺度小於第m-1級編碼的m個特徵圖的尺度；對所述第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖進行融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，對第m-1級編碼的m個特徵圖進行尺度縮小及融合，得到第m+1個特徵圖，包括：通過第m級編碼網路的卷積子網路對第m-1級編碼的m個特徵圖分別進行尺度縮小，得到尺度縮小後的m個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；對所述尺度縮小後的m個特徵圖進行特徵融合，得到所述第m+1個特徵圖。

在一種可能的實現方式中，對第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖進行融合，得到第m級編碼的m+1個特徵圖，包括：通過第m級編碼網路的特徵最佳化子網路對第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖分別進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖；通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，所述卷積子網路包括至少一個第一卷積層，所述第一卷積層的卷積核尺寸爲3×3，步長爲2；所述特徵最佳化子網路包括至少兩個第二卷積層以及殘差層，所述第二卷積層的卷積核尺寸爲3×3，步長爲1；所述m+1個融合子網路與最佳化後的m+1個特徵圖對應。

在一種可能的實現方式中，對於m+1個融合子網路的第k個融合子網路，通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖，包括：通過至少一個第一卷積層對尺度大於特徵最佳化後的第k個特徵圖的k-1個特徵圖進行尺度縮小，得到尺度縮小後的k-1個特徵圖，所述尺度縮小後的k-1個特徵圖的尺度等於特徵最佳化後的第k個特徵圖的尺度；和/或通過上採樣層及第三卷積層對尺度小於特徵最佳化後的第k個特徵圖的m+1-k個特徵圖進行尺度放大及通道調整，得到尺度放大後的m+1-k個特徵圖，所述尺度放大後的m+1-k個特徵圖的尺度等於特徵最佳化後的第k個特徵圖的尺度；其中，k爲整數且1≤k≤m+1，所述第三卷積層的卷積核尺寸爲1×1。

在一種可能的實現方式中，通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖，還包括：對所述尺度縮小後的k-1個特徵圖、所述特徵最佳化後的第k個特徵圖及所述尺度放大後的m+1-k個特徵圖中的至少兩項進行融合，得到第m級編碼的第k個特徵圖。

在一種可能的實現方式中，通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的預測結果，包括：通過第一級解碼網路對第M級編碼的M+1個特徵圖進行尺度放大及多尺度融合處理，得到第一級解碼的M個特徵圖；通過第n級解碼網路對第n-1級解碼的M-n+2個特徵圖進行尺度放大及多尺度融合處理，得到第n級解碼的M-n+1個特徵圖，n爲整數且1＜n＜N≤M；通過第N級解碼網路對第N-1級解碼的M-N+2個特徵圖進行多尺度融合處理，得到所述待處理圖像的預測結果。

在一種可能的實現方式中，通過第n級解碼網路對第n-1級解碼的M-n+2個特徵圖進行尺度放大及多尺度融合處理，得到第n級解碼的M-n+1個特徵圖，包括：對第n-1級解碼的M-n+2個特徵圖進行融合及尺度放大，得到尺度放大後的M-n+1個特徵圖；對所述尺度放大後的M-n+1個特徵圖進行融合，得到第n級解碼的M-n+1個特徵圖。

在一種可能的實現方式中，通過第N級解碼網路對第N-1級解碼的M-N+2個特徵圖進行多尺度融合處理，得到所述待處理圖像的預測結果，包括：對第N-1級解碼的M-N+2個特徵圖進行多尺度融合，得到第N級解碼的目標特徵圖；根據所述第N級解碼的目標特徵圖，確定所述待處理圖像的預測結果。

在一種可能的實現方式中，對第n-1級解碼的M-n+2個特徵圖進行融合及尺度放大，得到放大後的M-n+1個特徵圖，包括：通過第n級解碼網路的M-n+1個第一融合子網路對第n-1級解碼的M-n+2個特徵圖進行融合，得到融合後的M-n+1個特徵圖；通過第n級解碼網路的反卷積子網路對融合後的M-n+1個特徵圖分別進行尺度放大，得到尺度放大後的M-n+1個特徵圖。

在一種可能的實現方式中，對所述尺度放大後的M-n+1個特徵圖進行融合，得到第n級解碼的M-n+1個特徵圖，包括：通過第n級解碼網路的M-n+1個第二融合子網路對所述尺度放大後的M-n+1個特徵圖進行融合，得到融合的M-n+1個特徵圖；通過第n級解碼網路的特徵最佳化子網路對所述融合的M-n+1個特徵圖分別進行最佳化，得到第n級解碼的M-n+1個特徵圖。

在一種可能的實現方式中，根據所述第N級解碼的目標特徵圖，確定所述待處理圖像的預測結果，包括：對所述第N級解碼的目標特徵圖進行最佳化，得到所述待處理圖像的預測密度圖；根據所述預測密度圖，確定所述待處理圖像的預測結果。

在一種可能的實現方式中，通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖，包括：通過所述特徵提取網路的至少一個第一卷積層對待處理圖像進行卷積，得到卷積後的特徵圖；通過所述特徵提取網路的至少一個第二卷積層對卷積後的特徵圖進行最佳化，得到所述待處理圖像的第一特徵圖。

在一種可能的實現方式中，所述第一卷積層的卷積核尺寸爲3×3，步長爲2；所述第二卷積層的卷積核尺寸爲3×3，步長爲1。

在一種可能的實現方式中，所述方法還包括：根據預設的訓練集，訓練所述特徵提取網路、所述M級編碼網路及所述N級解碼網路，所述訓練集中包括已標注的多個樣本圖像。

在一種可能的實現方式中，根據本發明的一方面，提供了一種圖像處理裝置，包括：特徵提取模組，用於通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；編碼模組，用於通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，所述多個特徵圖中各個特徵圖的尺度不同；解碼模組，用於通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的預測結果，M、N爲大於1的整數。

在一種可能的實現方式中，所述編碼模組包括：第一編碼子模組，用於通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖；第二編碼子模組，用於通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖，m爲整數且1＜m＜M；第三編碼子模組，用於通過第M級編碼網路對第M-1級編碼的M個特徵圖進行尺度縮小及多尺度融合處理，得到第M級編碼的M+1個特徵圖。

在一種可能的實現方式中，所述第一編碼子模組包括：第一縮小子模組，用於對所述第一特徵圖進行尺度縮小，得到第二特徵圖；第一融合子模組，用於對所述第一特徵圖和所述第二特徵圖進行融合，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖。

在一種可能的實現方式中，所述第二編碼子模組包括：第二縮小子模組，用於對第m-1級編碼的m個特徵圖進行尺度縮小及融合，得到第m+1個特徵圖，所述第m+1個特徵圖的尺度小於第m-1級編碼的m個特徵圖的尺度；第二融合子模組，用於對所述第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖進行融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，所述第二縮小子模組用於：通過第m級編碼網路的卷積子網路對第m-1級編碼的m個特徵圖分別進行尺度縮小，得到尺度縮小後的m個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；對所述尺度縮小後的m個特徵圖進行特徵融合，得到所述第m+1個特徵圖。

在一種可能的實現方式中，所述第二融合子模組用於：通過第m級編碼網路的特徵最佳化子網路對第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖分別進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖；通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，所述解碼模組包括：第一解碼子模組，用於通過第一級解碼網路對第M級編碼的M+1個特徵圖進行尺度放大及多尺度融合處理，得到第一級解碼的M個特徵圖；第二解碼子模組，用於通過第n級解碼網路對第n-1級解碼的M-n+2個特徵圖進行尺度放大及多尺度融合處理，得到第n級解碼的M-n+1個特徵圖，n爲整數且1＜n＜N≤M；第三解碼子模組，用於通過第N級解碼網路對第N-1級解碼的M-N+2個特徵圖進行多尺度融合處理，得到所述待處理圖像的預測結果。

在一種可能的實現方式中，所述第二解碼子模組包括：放大子模組，用於對第n-1級解碼的M-n+2個特徵圖進行融合及尺度放大，得到尺度放大後的M-n+1個特徵圖；第三融合子模組，用於對所述尺度放大後的M-n+1個特徵圖進行融合，得到第n級解碼的M-n+1個特徵圖。

在一種可能的實現方式中，所述第三解碼子模組包括：第四融合子模組，用於對第N-1級解碼的M-N+2個特徵圖進行多尺度融合，得到第N級解碼的目標特徵圖；結果確定子模組，用於根據所述第N級解碼的目標特徵圖，確定所述待處理圖像的預測結果。

在一種可能的實現方式中，所述放大子模組用於：通過第n級解碼網路的M-n+1個第一融合子網路對第n-1級解碼的M-n+2個特徵圖進行融合，得到融合後的M-n+1個特徵圖；通過第n級解碼網路的反卷積子網路對融合後的M-n+1個特徵圖分別進行尺度放大，得到尺度放大後的M-n+1個特徵圖。

在一種可能的實現方式中，所述第三融合子模組用於：通過第n級解碼網路的M-n+1個第二融合子網路對所述尺度放大後的M-n+1個特徵圖進行融合，得到融合的M-n+1個特徵圖；通過第n級解碼網路的特徵最佳化子網路對所述融合的M-n+1個特徵圖分別進行最佳化，得到第n級解碼的M-n+1個特徵圖。

在一種可能的實現方式中，所述結果確定子模組用於：對所述第N級解碼的目標特徵圖進行最佳化，得到所述待處理圖像的預測密度圖；根據所述預測密度圖，確定所述待處理圖像的預測結果。

在一種可能的實現方式中，所述特徵提取模組包括：卷積子模組，用於通過所述特徵提取網路的至少一個第一卷積層對待處理圖像進行卷積，得到卷積後的特徵圖；最佳化子模組，用於通過所述特徵提取網路的至少一個第二卷積層對卷積後的特徵圖進行最佳化，得到所述待處理圖像的第一特徵圖。

在一種可能的實現方式中，所述裝置還包括：訓練子模組，用於根據預設的訓練集，訓練所述特徵提取網路、所述M級編碼網路及所述N級解碼網路，所述訓練集中包括已標注的多個樣本圖像。

在一種可能的實現方式中，根據本發明的另一方面，提供了一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲呼叫所述記憶體儲存的指令，以執行上述方法。

在一種可能的實現方式中，根據本發明的另一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。

在一種可能的實現方式中，根據本發明的另一方面，提供了一種電腦程式，所述電腦程式包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行上述方法。

本發明至少具有以下功效：在本發明實施例中，能夠通過M級編碼網路對圖像的特徵圖進行尺度縮小及多尺度融合，並通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合，從而在編碼及解碼過程中多次融合多尺度的全域信息和局部信息，保留了更有效的多尺度信息，提高了預測結果的質量及強健性。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裡作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情况。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，爲了更好地說明本發明，在下文的具體實施方式中給出了衆多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

圖1示出根據本發明實施例的圖像處理方法的流程圖，如圖1所示，所述圖像處理方法包括：

在步驟S11中，通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；

在步驟S12中，通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，所述多個特徵圖中各個特徵圖的尺度不同；

在步驟S13中，通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的預測結果，M、N爲大於1的整數。

在一種可能的實現方式中，所述圖像處理方法可以由終端設備或伺服器等電子設備執行，終端設備可以爲用戶設備（User Equipment，UE）、移動設備、用戶終端、終端、行動電話 (Cell Phone)、無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等，所述方法可以通過處理器呼叫記憶體中儲存的電腦可讀指令的方式來實現。或者，可通過伺服器執行所述方法。

在一種可能的實現方式中，待處理圖像可以是圖像採集設備（例如攝影鏡頭）拍攝的監控區域（例如路口、商場等區域）的圖像，也可以是通過其他方式獲取的圖像（例如網路下載的圖像）。待處理圖像中可包括一定數量的目標（例如行人、車輛、顧客等）。本發明對待處理圖像的類型、獲取方式以及圖像中目標的類型不作限制。

在一種可能的實現方式中，可通過神經網路（例如包括特徵提取網路、編碼網路及解碼網路）對待處理圖像進行分析，預測出待處理圖像中的目標的數量、分布情况等信息。該神經網路可例如包括卷積神經網路，本發明對神經網路的具體類型不作限制。

在一種可能的實現方式中，可在步驟S11中通過特徵提取網路對待處理圖像進行特徵提取，得到待處理圖像的第一特徵圖。該特徵提取網路可至少包括卷積層，可通過帶步長的卷積層（步長＞1）縮小圖像或特徵圖的尺度，並通過不帶步長的卷積層（步長=1）對特徵圖進行最佳化。經特徵提取網路處理後，可得到第一特徵圖。本發明對特徵提取網路的網路結構不作限制。

由於尺度較大的特徵圖中包括待處理圖像的更多的局部信息，尺度較小的特徵圖中包括待處理圖像的更多的全域信息，因此可在多尺度上對全域和局部信息進行融合，提取更加有效的多尺度的特徵。

在一種可能的實現方式中，可在步驟S12中通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，多個特徵圖中各個特徵圖的尺度不同。這樣，可在每個尺度上將全域和局部的信息進行融合，提高所提取的特徵的有效性。

在一種可能的實現方式中，M級編碼網路中的每級編碼網路可包括卷積層、殘差層、上採樣層、融合層等。對於第一級編碼網路，可通過第一級編碼網路的卷積層（步長＞1）對第一特徵圖進行尺度縮小，得到尺度縮小後的特徵圖（第二特徵圖）；通過第一級編碼網路的卷積層（步長=1）和/或殘差層分別對第一特徵圖和第二特徵圖進行特徵最佳化，得到特徵最佳化後的第一特徵圖和第二特徵圖；再通過第一級編碼網路的上採樣層、卷積層（步長＞1）和/或融合層等分別對特徵最佳化後的第一特徵圖和第二特徵圖進行融合，得到第一級編碼的第一特徵圖及第二特徵圖。

在一種可能的實現方式中，與第一級編碼網路類似，可通過M級編碼網路中的各級編碼網路依次對前一級編碼後的多個特徵圖進行尺度縮小及多尺度融合，通過多次融合全域信息和局部信息進一步提高所提取的特徵的有效性。

在一種可能的實現方式中，經M級編碼網路處理後，可得到M級編碼後的多個特徵圖。可在步驟S13中通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到待處理圖像的N級解碼的特徵圖，進而得到待處理圖像的預測結果。

在一種可能的實現方式中，N級解碼網路中的每級解碼網路可包括融合層、反卷積層、卷積層、殘差層、上採樣層等。對於第一級解碼網路，可通過第一級解碼網路的融合層對編碼後的多個特徵圖進行融合，得到融合後的多個特徵圖；再通過反卷積層對融合後的多個特徵圖進行尺度放大，得到尺度放大後的多個特徵圖；通過融合層、卷積層（步長=1）和/或殘差層等分別對多個特徵圖進行融合及最佳化，得到第一級解碼後的多個特徵圖。

在一種可能的實現方式中，與第一級解碼網路類似，可通過N級解碼網路中的各級解碼網路依次對前一級解碼後的特徵圖進行尺度放大及多尺度融合，每級解碼網路得到的特徵圖數量依次減少，經過第N級解碼網路後得到與待處理圖像尺度一致的密度圖（例如目標的分布密度圖），從而確定預測結果。這樣，通過在尺度放大過程中多次融合全域信息和局部信息，提高了預測結果的質量。

根據本發明的實施例，能夠通過M級編碼網路對圖像的特徵圖進行尺度縮小及多尺度融合，並通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合，從而在編碼及解碼過程中多次融合多尺度的全域信息和局部信息，保留了更有效的多尺度信息，提高了預測結果的質量及強健性。

在一種可能的實現方式中，步驟S11可包括：通過所述特徵提取網路的至少一個第一卷積層對待處理圖像進行卷積，得到卷積後的特徵圖；

通過所述特徵提取網路的至少一個第二卷積層對卷積後的特徵圖進行最佳化，得到所述待處理圖像的第一特徵圖。

舉例來說，特徵提取網路可包括至少一個第一卷積層和至少一個第二卷積層。第一卷積層爲帶步長的卷積層（步長＞1），用於縮小圖像或特徵圖的尺度，第二卷積層爲不帶步長的卷積層（步長=1），用於對特徵圖進行最佳化。

在一種可能的實現方式中，特徵提取網路可包括連續的兩個第一卷積層，第一卷積層的卷積核尺寸爲3×3，步長爲2。待處理圖像經連續兩個第一卷積層卷積後，得到卷積後的特徵圖，該特徵圖的寬和高分別爲待處理圖像的1/4。應當理解，本領域技術人員可根據實際情况設定第一卷積層的數量、卷積核尺寸及步長，本發明對此不作限制。

在一種可能的實現方式中，特徵提取網路可包括連續的三個第二卷積層，第二卷積層的卷積核尺寸爲3×3，步長爲1。經第一卷積層卷積後的特徵圖經連續三個第一卷積層最佳化後，可得到待處理圖像的第一特徵圖。該第一特徵圖中尺度與經第一卷積層卷積後的特徵圖的尺度相同，也即第一特徵圖的寬和高分別爲待處理圖像的1/4。應當理解，本領域技術人員可根據實際情况設定第二卷積層的數量及卷積核尺寸，本發明對此不作限制。

通過這種方式，可實現待處理圖像的尺度縮小及最佳化，有效提取特徵信息。

在一種可能的實現方式中，步驟S12可包括：通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖；

通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖，m爲整數且1＜m＜M；

通過第M級編碼網路對第M-1級編碼的M個特徵圖進行尺度縮小及多尺度融合處理，得到第M級編碼的M+1個特徵圖。

舉例來說，可通過M級編碼網路中的各級編碼網路依次對前一級編碼的特徵圖進行處理，各級編碼網路可包括卷積層、殘差層、上採樣層、融合層等。對於第一級編碼網路，可通過第一級編碼網路對第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖。

在一種可能的實現方式中，通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第二特徵圖的步驟可包括：對所述第一特徵圖進行尺度縮小，得到第二特徵圖；對所述第一特徵圖和所述第二特徵圖進行融合，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖。

舉例來說，可通過第一級編碼網路的第一卷積層（卷積核尺寸爲3×3，步長爲2）對第一特徵圖進行尺度縮小，得到尺度小於第一特徵圖的第二特徵圖；通過第二卷積層（卷積核尺寸爲3×3，步長爲1）和/或殘差層分別對第一特徵圖和第二特徵圖進行最佳化，得到最佳化後的第一特徵圖和第二特徵圖；通過融合層分別對第一特徵圖和第二特徵圖進行多尺度融合，得到第一級編碼的第一特徵圖及第二特徵圖。

在一種可能的實現方式中，可直接通過第二卷積層對特徵圖進行最佳化；也可通過由第二卷積層及殘差層組成基本塊（basic block）對特徵圖進行最佳化。該基本塊可作爲最佳化的基本單元，每個基本塊可包括兩個連續的第二卷積層，然後通過殘差層將輸入的特徵圖與卷積得到的特徵圖相加作爲結果輸出。本發明對最佳化的具體方式不作限制。

在一種可能的實現方式中，也可對多尺度融合後的第一特徵圖及第二特徵圖再次最佳化及融合，將再次最佳化及融合後的第一特徵圖及第二特徵圖作爲第一級編碼的第一特徵圖及第二特徵圖，以便進一步提高所提取的多尺度特徵的有效性。本發明對最佳化及多尺度融合的次數不作限制。

在一種可能的實現方式中，對於M級編碼網路中的任意一級編碼網路（第m級編碼網路，m爲整數且1＜m＜M）。可通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖的步驟可包括：對第m-1級編碼的m個特徵圖進行尺度縮小及融合，得到第m+1個特徵圖，所述第m+1個特徵圖的尺度小於第m-1級編碼的m個特徵圖的尺度；對所述第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖進行融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，對第m-1級編碼的m個特徵圖進行尺度縮小及融合，得到第m+1個特徵圖的步驟可包括：通過第m級編碼網路的卷積子網路對第m-1級編碼的m個特徵圖分別進行尺度縮小，得到尺度縮小後的m個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；對所述尺度縮小後的m個特徵圖進行特徵融合，得到所述第m+1個特徵圖。

舉例來說，可通過第m級編碼網路的m個卷積子網路（每個卷積子網路包括至少一個第一卷積層）對第m-1級編碼的m個特徵圖分別進行尺度縮小，得到尺度縮小後的m個特徵圖。該尺度縮小後的m個特徵圖的尺度相同，且尺度小於第m-1級編碼的第m個特徵圖（即，等於第m+1個特徵圖的尺度）；通過融合層對該尺度縮小後的m個特徵圖進行特徵融合，得到第m+1個特徵圖。

在一種可能的實現方式中，每個卷積子網路包括至少一個第一卷積層，第一卷積層的卷積核尺寸爲3×3，步長爲2，用於對特徵圖進行尺度縮小。卷積子網路的第一卷積層數量與對應的特徵圖的尺度相關聯，例如，第m-1級編碼的第一個特徵圖的尺度爲4x（寬和高分別爲待處理圖像的1/4），而待生成的m個特徵圖的尺度爲16x（寬和高分別爲待處理圖像的1/16），則第一個卷積子網路包括兩個第一卷積層。應當理解，本領域技術人員可根據實際情况設定卷積子網路第一卷積層的數量、卷積核尺寸及步長，本發明對此不作限制。

在一種可能的實現方式中，對第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖進行融合，得到第m級編碼的m+1個特徵圖的步驟可包括：通過第m級編碼網路的特徵最佳化子網路對第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖分別進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖；通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，可通過融合層對第m-1級編碼的m個特徵圖進行多尺度融合，得到融合後的m個特徵圖；通過m+1個特徵最佳化子網路（每個特徵最佳化子網路包括第二卷積層和/或殘差層）分別對融合後的m個特徵圖和第m+1個特徵圖進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖；然後通過m+1個融合子網路分別對特徵最佳化後的m+1個特徵圖進行多尺度融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，也可通過m+1個特徵最佳化子網路（每個特徵最佳化子網路包括第二卷積層和/或殘差層）直接對第m-1級編碼的m個特徵圖進行處理。也即，通過m+1個特徵最佳化子網路分別對第m-1級編碼的m個特徵圖和第m+1個特徵圖進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖；然後通過m+1個融合子網路分別對特徵最佳化後的m+1個特徵圖進行多尺度融合，得到第m級編碼的m+1個特徵圖。

在一種可能的實現方式中，可以對多尺度融合後的m+1個特徵圖再次進行特徵最佳化及多尺度融合，以便進一步提高所提取的多尺度特徵的有效性。本發明對特徵最佳化及多尺度融合的次數不作限制。

在一種可能的實現方式中，每個特徵最佳化子網路可包括至少兩個第二卷積層以及殘差層，所述第二卷積層的卷積核尺寸爲3×3，步長爲1。舉例來說，各個特徵最佳化子網路均可包括至少一個基本塊（兩個連續的第二卷積層及殘差層）。可通過各個特徵最佳化子網路的基本塊分別對第m-1級編碼的m個特徵圖和第m+1個特徵圖進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖。應當理解，本領域技術人員可根據實際情况設定第二卷積層的數量及卷積核尺寸，本發明對此不作限制。

通過這種方式，可進一步提高提取的多尺度特徵的有效性。

在一種可能的實現方式中，第m級編碼網路的m+1個融合子網路可分別對特徵最佳化後的m+1個特徵圖分別進行融合，對於m+1個融合子網路的第k個融合子網路（k爲整數且1≤k≤m+1），通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖，包括：通過至少一個第一卷積層對尺度大於特徵最佳化後的第k個特徵圖的k-1個特徵圖進行尺度縮小，得到尺度縮小後的k-1個特徵圖，所述尺度縮小後的k-1個特徵圖的尺度等於特徵最佳化後的第k個特徵圖的尺度；和/或通過上採樣層及第三卷積層對尺度小於特徵最佳化後的第k個特徵圖的m+1-k個特徵圖進行尺度放大及通道調整，得到尺度放大後的m+1-k個特徵圖，所述尺度放大後的m+1-k個特徵圖的尺度等於特徵最佳化後的第k個特徵圖的尺度，所述第三卷積層的卷積核尺寸爲1×1。

舉例來說，第k個融合子網路首先可將m+1個特徵圖的尺度調整爲特徵最佳化後的第k個特徵圖的尺度。在1＜k＜m+1的情况下，在特徵最佳化後的第k個特徵圖之前的k-1個特徵圖的尺度均大於特徵最佳化後的第k個特徵圖，例如第k個特徵圖的尺度爲16x（寬和高分別爲待處理圖像的1/16），第k個特徵圖之前的特徵圖的尺度爲4x和8x。在該情况下，可通過至少一個第一卷積層對尺度大於特徵最佳化後的第k個特徵圖的k-1個特徵圖進行尺度縮小，得到尺度縮小後的k-1個特徵圖。也即，將尺度爲4x和8x的特徵圖均縮小爲16x的特徵圖，可通過兩個第一卷積層對4x的特徵圖進行尺度縮小，可通過一個第一卷積層對8x的特徵圖進行尺度縮小。這樣，可以得到尺度縮小後的k-1個特徵圖。

在一種可能的實現方式中，在1＜k＜m+1的情况下，在特徵最佳化後的第k個特徵圖之後的m+1-k個特徵圖的尺度均小於特徵最佳化後的第k個特徵圖，例如第k個特徵圖的尺度爲16x（寬和高分別爲待處理圖像的1/16），第k個特徵圖之後的m+1-k個特徵圖爲32x。在該情况下，可通過上採樣層對32x的特徵圖進行尺度放大，並通過第三卷積層（卷積核尺寸爲1×1）對尺度放大後的特徵圖進行通道調整，使得尺度放大後的特徵圖的通道數與第k個特徵圖的通道數相同，從而得到尺度爲16x的特徵圖。這樣，可以得到尺度放大後的m+1-k個特徵圖。

在一種可能的實現方式中，在k=1的情况下，特徵最佳化後的第1個特徵圖之後的m個特徵圖的尺度均小於特徵最佳化後的第1個特徵圖，則可對後m個特徵圖均進行尺度放大及通道調整，得到尺度放大後的後m個特徵圖；在k=m+1的情况下，特徵最佳化後的第m+1個特徵圖之前的m個特徵圖的尺度均大於特徵最佳化後的第m+1個特徵圖，則可對前m個特徵圖均進行尺度縮小，得到尺度縮小後的前m個特徵圖。

在一種可能的實現方式中，通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖的步驟還可包括：對所述尺度縮小後的k-1個特徵圖、所述特徵最佳化後的第k個特徵圖及所述尺度放大後的m+1-k個特徵圖中的至少兩項進行融合，得到第m級編碼的第k個特徵圖。

舉例來說，第k個融合子網路可對尺度調整後的m+1個特徵圖進行融合。在1＜k＜m+1的情况下，尺度調整後的m+1個特徵圖包括尺度縮小後的k-1個特徵圖、特徵最佳化後的第k個特徵圖及所述尺度放大後的m+1-k個特徵圖，可以對尺度縮小後的k-1個特徵圖、特徵最佳化後的第k個特徵圖及所述尺度放大後的m+1-k個特徵圖這三者進行融合（相加），得到第m級編碼的第k個特徵圖。

在一種可能的實現方式中，在k=1的情况下，尺度調整後的m+1個特徵圖包括特徵最佳化後的第1個特徵圖和尺度放大後的m個特徵圖，可對特徵最佳化後的第1個特徵圖和尺度放大後的m個特徵圖這兩者進行融合（相加），得到第m級編碼的第1個特徵圖。

在一種可能的實現方式中，在k=m+1的情况下，尺度調整後的m+1個特徵圖包括尺度縮小後的m個特徵圖和特徵最佳化後的第m+1個特徵圖，可對尺度縮小後的m個特徵圖和特徵最佳化後的第m+1個特徵圖這兩者進行融合（相加），得到第m級編碼的第m+1個特徵圖。

圖2a、圖2b及圖2c示出根據本發明實施例的圖像處理方法的多尺度融合過程的示意圖。在圖2a、圖2b及圖2c中，以待融合的特徵圖爲三個爲例進行說明。

如圖2a所示，在k=1的情况下，可對第2個和第3個特徵圖分別進行尺度放大（上採樣）及通道調整（1×1卷積），得到與第1個特徵圖的尺度及通道數相同的兩個特徵圖，再將這三個特徵圖相加得到融合後的特徵圖。

如圖2b所示，在k=2的情况下，可對第1個特徵圖進行尺度縮小（卷積核尺寸爲3×3，步長爲2的卷積）；對第3個特徵圖進行尺度放大（上採樣）及通道調整（1×1卷積），從而得到與第2個特徵圖的尺度及通道數相同的兩個特徵圖，再將這三個特徵圖相加得到融合後的特徵圖。

如圖2c所示，在k=3的情况下，可對第1個和第2個特徵圖進行尺度縮小（卷積核尺寸爲3×3，步長爲2的卷積）。由於第1個特徵圖與第3個特徵圖之間的尺度差爲4倍，因此可進行兩次卷積（卷積核尺寸爲3×3，步長爲2）。經尺度縮小後，可得到與第3個特徵圖的尺度及通道數相同的兩個特徵圖，再將這三個特徵圖相加得到融合後的特徵圖。

通過這種方式，可以實現尺度不同的多個特徵圖之間的多尺度融合，在每個尺度上將全域和局部的信息進行融合，提取更加有效的多尺度特徵。

在一種可能的實現方式中，對於M級編碼網路中的最後一級（第M級編碼網路），該第M級編碼網路可與第m級編碼網路的結構類似。第M級編碼網路對第M-1級編碼的M個特徵圖的處理過程也與第m級編碼網路對第m-1級編碼的m個特徵圖的處理過程相似，此處不再重複描述。通過第M級編碼網路處理後，可得到第M級編碼的M+1個特徵圖。例如，M=3時，可得到尺度爲4x、8x、16x及32x的四個特徵圖。本發明對M的具體取值條件不作限制。

通過這種方式，可以實現M級編碼網路的整個處理過程，得到不同尺度的多個特徵圖，更有效地提取到待處理圖像的全域和局部的特徵信息。

在一種可能的實現方式中，步驟S13可包括：通過第一級解碼網路對第M級編碼的M+1個特徵圖進行尺度放大及多尺度融合處理，得到第一級解碼的M個特徵圖；

通過第n級解碼網路對第n-1級解碼的M-n+2個特徵圖進行尺度放大及多尺度融合處理，得到第n級解碼的M-n+1個特徵圖，n爲整數且1＜n＜N≤M；

通過第N級解碼網路對第N-1級解碼的M-N+2個特徵圖進行多尺度融合處理，得到所述待處理圖像的預測結果。

舉例來說，經M級編碼網路處理後，可得到第M級編碼的M+1個特徵圖。可通過N級解碼網路中的各級解碼網路依次對前一級解碼的特徵圖進行處理，各級解碼網路可包括融合層、反卷積層、卷積層、殘差層、上採樣層等。對於第一級解碼網路，可通過第一級解碼網路對第M級編碼的M+1個特徵圖進行尺度放大及多尺度融合處理，得到第一級解碼的M個特徵圖。

在一種可能的實現方式中，對於N級解碼網路中的任意一級解碼網路（第n級解碼網路，n爲整數且1＜n＜N≤M）。可通過第n級解碼網路對第n-1級解碼的M-n+2個特徵圖進行尺度縮小及多尺度融合處理，得到第n級解碼的M-n+1個特徵圖。

在一種可能的實現方式中，通過第n級解碼網路對第n-1級解碼的M-n+2個特徵圖進行尺度放大及多尺度融合處理，得到第n級解碼的M-n+1個特徵圖的步驟可包括：對第n-1級解碼的M-n+2個特徵圖進行融合及尺度放大，得到尺度放大後的M-n+1個特徵圖；對所述尺度放大後的M-n+1個特徵圖進行融合，得到第n級解碼的M-n+1個特徵圖。

在一種可能的實現方式中，對第n-1級解碼的M-n+2個特徵圖進行融合及尺度放大，得到放大後的M-n+1個特徵圖的步驟可包括：通過第n級解碼網路的M-n+1個第一融合子網路對第n-1級解碼的M-n+2個特徵圖進行融合，得到融合後的M-n+1個特徵圖；通過第n級解碼網路的反卷積子網路對融合後的M-n+1個特徵圖分別進行尺度放大，得到尺度放大後的M-n+1個特徵圖。

舉例來說，可先對第n-1級解碼的M-n+2個特徵圖進行融合，在融合多尺度信息的同時減小特徵圖的數量。可設置有M-n+1個第一融合子網路，該M-n+1個第一融合子網路與M-n+2個特徵圖中的前M-n+1個特徵圖相對應。例如待融合的特徵圖包括尺度爲4x、8x、16x及32x的四個特徵圖，則可設置有三個第一融合子網路，以便融合得到尺度爲4x、8x及16x的三個特徵圖。

在一種可能的實現方式中，第n級解碼網路的M-n+1個第一融合子網路的網路結構可與第m級編碼網路的m+1個融合子網路的網路結構類似。例如，對於第q個第一融合子網路（1≤q≤M-n+1），第q個第一融合子網路可首先將M-n+2個特徵圖的尺度調整爲第n-1級解碼的第q個特徵圖的尺度，再對尺度調整後的M-n+2個特徵圖進行融合，得到融合後的第q個特徵圖。這樣，可得到融合後的M-n+1個特徵圖。此處對尺度調整及融合的具體過程不再重複描述。

在一種可能的實現方式中，可通過第n級解碼網路的反卷積子網路對融合後的M-n+1個特徵圖分別進行尺度放大，例如將尺度爲4x、8x及16x的三個融合後的特徵圖放大爲2x、4x及8x的三個特徵圖。經放大後，得到尺度放大後的M-n+1個特徵圖。

在一種可能的實現方式中，對所述尺度放大後的M-n+1個特徵圖進行融合，得到第n級解碼的M-n+1個特徵圖的步驟可包括：通過第n級解碼網路的M-n+1個第二融合子網路對所述尺度放大後的M-n+1個特徵圖進行融合，得到融合的M-n+1個特徵圖；通過第n級解碼網路的特徵最佳化子網路對所述融合的M-n+1個特徵圖分別進行最佳化，得到第n級解碼的M-n+1個特徵圖。

舉例來說，在得到尺度放大後的M-n+1個特徵圖後，可通過M-n+1個第二融合子網路分別對該M-n+1個特徵圖進行尺度調整及融合，得到融合的M-n+1個特徵圖。此處對尺度調整及融合的具體過程不再重複描述。

在一種可能的實現方式中，可通過第n級解碼網路的特徵最佳化子網路對融合的M-n+1個特徵圖分別進行最佳化，各個特徵最佳化子網路均可包括至少一個基本塊。經特徵最佳化後，可得到第n級解碼的M-n+1個特徵圖。此處對特徵最佳化的具體過程不再重複描述。

在一種可能的實現方式中，第n級解碼網路的多尺度融合及特徵最佳化的過程可重複多次，以便進一步融合不同尺度的全域和局部特徵。本發明對多尺度融合及特徵最佳化的次數不作限制。

通過這種方式，可放大多個尺度的特徵圖，並同樣對多個尺度的特徵圖信息進行融合，保留特徵圖的多尺度信息，提高預測結果的質量。

在一種可能的實現方式中，通過第N級解碼網路對第N-1級解碼的M-N+2個特徵圖進行多尺度融合處理，得到所述待處理圖像的預測結果的步驟可包括：對第N-1級解碼的M-N+2個特徵圖進行多尺度融合，得到第N級解碼的目標特徵圖；根據所述第N級解碼的目標特徵圖，確定所述待處理圖像的預測結果。

舉例來說，經第N-1級解碼網路處理後，可得到M-N+2個特徵圖，該M-N+2個特徵圖中尺度最大的特徵圖的尺度等於待處理圖像的尺度（尺度爲1x的特徵圖）。對於N級解碼網路的最後一級（第N級解碼網路），可對第N-1級解碼的M-N+2個特徵圖進行多尺度融合處理。在N=M的情况下，第N-1級解碼的特徵圖爲2個（例如尺度爲1x和2x的特徵圖）；在N＜M的情况下，第N-1級解碼的特徵圖大於2個（例如尺度爲1x、2x及4x的特徵圖）。本發明對此不作限制。

在一種可能的實現方式中，可通過第N級解碼網路的融合子網路多M-N+2個特徵圖進行多尺度融合（尺度調整及融合），得到第N級解碼的目標特徵圖。該目標特徵圖的尺度可與待處理圖像的尺度一致。此處對尺度調整及融合的具體過程不再重複描述。

在一種可能的實現方式中，根據所述第N級解碼的目標特徵圖，確定所述待處理圖像的預測結果的步驟可包括：對所述第N級解碼的目標特徵圖進行最佳化，得到所述待處理圖像的預測密度圖；根據所述預測密度圖，確定所述待處理圖像的預測結果。

舉例來說，在得到第N級解碼的目標特徵圖後，可對目標特徵圖繼續最佳化，可通過多個第二卷積層（卷積核尺寸爲3×3，步長爲1）、多個基本塊（包括第二卷積層及殘差層）、至少一個第三卷積層（卷積核尺寸爲1×1）中的至少一種對目標特徵圖進行最佳化，從而得到待處理圖像的預測密度圖。本發明對最佳化的具體方式不作限制。

在一種可能的實現方式中，可根據預測密度圖確定待處理圖像的預測結果。可將該預測密度圖直接作爲待處理圖像的預測結果；也可以對該預測密度圖進行進一步的處理（例如通過softmax層等處理），得到待處理圖像的預測結果。

通過這種方式，N級解碼網路在尺度放大過程中多次融合全域信息和局部信息，提高了預測結果的質量。

圖3示出根據本發明實施例的圖像處理方法的網路結構的示意圖。如圖3所示，實現根據本發明實施例的圖像處理方法的神經網路可包括特徵提取網路31、三級編碼網路32（包括第一級編碼網路321、第二級編碼網路322及第三級編碼網路323）以及三級解碼網路33（包括第一級解碼網路331、第二級解碼網路332及第三級解碼網路333）。

在一種可能的實現方式中，如圖3所示，可將待處理圖像34（尺度爲1x）輸入特徵提取網路31中處理，通過連續兩個第一卷積層（卷積核尺寸爲3×3，步長爲2）對待處理圖像進行卷積，得到卷積後的特徵圖（尺度爲4x，也即該特徵圖的寬和高分別爲待處理圖像的1/4）；再通過三個第二卷積層（卷積核尺寸爲3×3，步長爲1）對卷積後的特徵圖（尺度爲4x）最佳化，得到第一特徵圖（尺度爲4x）。

在一種可能的實現方式中，可將第一特徵圖（尺度爲4x）輸入第一級編碼網路321中，通過卷積子網路（包括第一卷積層）對第一特徵圖進行卷積（尺度縮小），得到第二特徵圖（尺度爲8x，也即該特徵圖的寬和高分別爲待處理圖像的1/8）；分別通過特徵最佳化子網路（至少一個基本塊，包括第二卷積層及殘差層）對第一特徵圖和第二特徵圖進行特徵最佳化，得到特徵最佳化後的第一特徵圖和第二特徵圖；對特徵最佳化後的第一特徵圖和第二特徵圖進行多尺度融合，得到第一級編碼的第一特徵圖及第二特徵圖。

在一種可能的實現方式中，可將第一級編碼的第一特徵圖（尺度爲4x）及第二特徵圖（尺度爲8x）輸入第二級編碼網路322中，分別通過卷積子網路（包括至少一個第一卷積層）對第一級編碼的第一特徵圖和第二特徵圖進行卷積（尺度縮小）並融合，得到第三特徵圖（尺度爲16x，也即該特徵圖的寬和高分別爲待處理圖像的1/16）；分別通過特徵最佳化子網路（至少一個基本塊，包括第二卷積層及殘差層）對第一、第二及第三特徵圖進行特徵最佳化，得到特徵最佳化後的第一、第二及第三特徵圖；對特徵最佳化後的第一、第二及第三特徵圖進行多尺度融合，得到融合後的第一、第二及第三特徵圖；然後，對融合後的第一、第二及第三特徵圖再次最佳化及融合，得到第二級編碼的第一、第二及第三特徵圖。

在一種可能的實現方式中，可將第二級編碼的第一、第二及第三特徵圖（4x、8x及16x）輸入第三級編碼網路323中，分別通過卷積子網路（包括至少一個第一卷積層）對第二級編碼的第一、第二及第三特徵圖進行卷積（尺度縮小）並融合，得到第四特徵圖（尺度爲32x，也即該特徵圖的寬和高分別爲待處理圖像的1/32）；分別通過特徵最佳化子網路（至少一個基本塊，包括第二卷積層及殘差層）對第一、第二、第三及第四特徵圖進行特徵最佳化，得到特徵最佳化後的第一、第二、第三及第四特徵圖；對特徵最佳化後的第一、第二、第三及第四特徵圖進行多尺度融合，得到融合後的第一、第二、第三及第四特徵圖；然後，對融合後的第一、第二及第三特徵圖再次最佳化，得到第三級編碼的第一、第二、第三及第四特徵圖。

在一種可能的實現方式中，可將第三級編碼的第一、第二、第三及第四特徵圖（尺度爲4x、8x、16x及32x）輸入第一級解碼網路331中，通過三個第一融合子網路對第三級編碼的第一、第二、第三及第四特徵圖進行融合，得到融合後的三個特徵圖（尺度爲4x、8x及16x）；再將融合後的三個特徵圖進行反卷積（尺度放大），得到尺度放大後的三個特徵圖（尺度爲2x、4x及8x）；對尺度放大後的三個特徵圖進行多尺度融合、特徵最佳化、再次多尺度融合及再次特徵最佳化，得到第一級解碼的三個特徵圖（尺度爲2x、4x及8x）。

在一種可能的實現方式中，可將第一級解碼的三個特徵圖（尺度爲2x、4x及8x）輸入第二級解碼網路332中，通過兩個第一融合子網路對第一級解碼的三個特徵圖進行融合，得到融合後的兩個特徵圖（尺度爲2x及4x）；再將融合後的兩個特徵圖進行反卷積（尺度放大），得到尺度放大後的兩個特徵圖（尺度爲1x及2x）；對尺度放大後的兩個特徵圖進行多尺度融合、特徵最佳化及再次多尺度融合，得到第二級解碼的兩個特徵圖（尺度爲1x及2x）。

在一種可能的實現方式中，可將第二級解碼的兩個特徵圖（尺度爲1x及2x），輸入第三級解碼網路333中，通過第一融合子網路對第二級解碼的兩個特徵圖進行融合，得到融合後的特徵圖（尺度爲1x）；再將融合後的特徵圖通過第二卷積層及第三卷積層（卷積核尺寸爲1×1）進行最佳化，得到待處理圖像的預測密度圖（尺度爲1x）。

在一種可能的實現方式中，可以在每個卷積層之後添加歸一化層，對每級的卷積結果進行歸一化處理，從而得到歸一化後的卷積結果，提高卷積結果的精度。

在一種可能的實現方式中，在應用本發明的神經網路之前，可對該神經網路進行訓練。根據本發明實施例的圖像處理方法還包括：根據預設的訓練集，訓練所述特徵提取網路、所述M級編碼網路及所述N級解碼網路，所述訓練集中包括已標注的多個樣本圖像。

舉例來說，可預先設置有已標注的多個樣本圖像，每個樣本圖像具有標注信息，例如樣本圖像中行人的位置、數量等信息。可將具有標注信息的多個樣本圖像組成訓練集，訓練所述特徵提取網路、所述M級編碼網路及所述N級解碼網路。

在一種可能的實現方式中，可將樣本圖像輸入特徵提取網路，經由特徵提取網路、M級編碼網路及N級解碼網路處理，輸出樣本圖像的預測結果；根據樣本圖像的預測結果和標注信息，確定特徵提取網路、M級編碼網路及N級解碼網路的網路損失；根據網路損失調整特徵提取網路、M級編碼網路及N級解碼網路的網路參數；在滿足預設的訓練條件時，可得到訓練後的特徵提取網路、M級編碼網路及N級解碼網路。本發明對具體的訓練過程不作限制。

通過這種方式，可得到高精度的特徵提取網路、M級編碼網路及N級解碼網路。

根據本發明實施例的圖像處理方法，能夠通過帶步長的卷積操作來獲取小尺度的特徵圖，在網路結構中不斷進行全域和局部信息的融合來提取更有效的多尺度信息，並且通過其他尺度的信息來促進當前尺度信息的提取，增强網路對於多尺度目標（例如行人）識別的強健性；能夠在解碼網路中放大特徵圖的同時進行多尺度信息的融合，保留多尺度信息，提高生成密度圖的質量，從而提高模型預測的準確率。

根據本發明實施例的圖像處理方法，能夠應用於智能視訊分析、安防監控等應用場景中，對場景中的目標（例如行人、車輛等）進行識別，預測場景中目標的數量、分布情况等，從而分析當前場景人群的行爲。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情况下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

此外，本發明還提供了圖像處理裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本發明提供的任一種圖像處理方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖4示出根據本發明實施例的圖像處理裝置的方塊圖，如圖4所示，所述圖像處理裝置包括：特徵提取模組41，用於通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；

編碼模組42，用於通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，所述多個特徵圖中各個特徵圖的尺度不同；

解碼模組43，用於通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的預測結果，M、N爲大於1的整數。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，爲了簡潔，這裡不再贅述。

本發明實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非揮發性電腦可讀儲存介質或揮發性電腦可讀儲存介質。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲呼叫所述記憶體儲存的指令，以執行上述方法。

本發明實施例還提出一種電腦程式，所述電腦程式包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行上述方法。

電子設備可以被提供爲終端、伺服器或其它形態的設備。

圖5示出根據本發明實施例的一種電子設備800的方塊圖。例如，電子設備800可以是移動電話，電腦，數字廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數字助理等終端。

參照圖5，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）介面812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置爲儲存各種類型的資料以支持在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，視訊等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除可程式化唯讀記憶體（EEPROM），可抹除可程式化唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁碟或光碟。

電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與爲電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控式面板（TP）。如果螢幕包括觸控式面板，螢幕可以被實現爲觸控式螢幕，以接收來自用戶的輸入信號。觸控式面板包括一個或多個觸控式感測器以感測觸摸、滑動和觸控式面板上的手勢。所述觸控式感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影鏡頭和/或後置攝影鏡頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝影鏡頭和/或後置攝影鏡頭可以接收外部的多媒體資料。每個前置攝影鏡頭和後置攝影鏡頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置爲輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置爲接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

輸入/輸出介面812爲處理組件802和外圍介面模組之間提供介面，上述外圍介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於爲電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件爲電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於無線射頻辨識（RFID）技術，紅外數據協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路（ASIC）、數位訊號處理器（DSP）、數字信號處理設備（DSPD）、可程式邏輯裝置（PLD）、現場可程式化邏輯閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖6示出根據本發明實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供爲一伺服器。參照圖6，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置爲執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置爲將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是，但不限於電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子（非窮舉的列表）包括：便携式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可抹除可程式化唯讀記憶體（EPROM或閃存）、靜態隨機存取記憶體（SRAM）、便携式壓縮盤唯獨記憶體（CD-ROM）、可擕式壓縮磁碟唯讀記憶體（DVD）、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋爲瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脉衝）、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置資料、或者以一種或多種程式語言的任意組合編寫的原始碼或目標代碼，所述程式語言包括面向對象的程式語言—諸如Smalltalk、C++等，以及常規的過程式程式語言—諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路服務供應商來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態信息來個性化定制電子電路，例如可程式邏輯電路、現場可程式化邏輯閘陣列（FPGA）或可程式化邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裡參照根據本發明實施例的方法、裝置（系統）和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式資料處理裝置的處理器，從而生産出一種機器，使得這些指令在通過電腦或其它可程式資料處理裝置的處理器執行時，産生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式資料處理裝置、或其它設備上，使得在電腦、其它可程式資料處理裝置或其它設備上執行一系列操作步驟，以産生電腦實現的過程，從而使得在電腦、其它可程式資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中，方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

在不違背邏輯的情况下，本發明不同實施例之間可以相互結合，不同實施例描述有所側重，爲側重描述的部分可以參見其他實施例的記載。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

31:特徵提取網路 32:三級編碼網路 321:第一級編碼網路 322:第二級編碼網路 323:第三級編碼網路 33:三級解碼網路 331:第一級解碼網路 332:第二級解碼網路 333:第三級解碼網路 34:待處理圖像 41:特徵提取模組 42:編碼模組 43:解碼模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出介面 814:感測器組件 816:通信組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入輸出介面 S11~S13:步驟

此處的附圖被並入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。圖1示出根據本發明實施例的圖像處理方法的流程圖；圖2a、圖2b及圖2c示出根據本發明實施例的圖像處理方法的多尺度融合過程的示意圖；圖3示出根據本發明實施例的圖像處理方法的網路結構的示意圖；圖4示出根據本發明實施例的圖像處理裝置的方塊圖；圖5示出根據本發明實施例的一種電子設備的方塊圖；及圖6示出根據本發明實施例的一種電子設備的方塊圖。

S11~S13:步驟

Claims

一種圖像處理方法，包括：通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，所述多個特徵圖中各個特徵圖的尺度不同；通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的預測結果，M、N爲大於1的整數；其中，通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，包括：通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖；通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖，m爲整數且1＜m＜M；通過第M級編碼網路對第M-1級編碼的M個特徵圖進行尺度縮小及多尺度融合處理，得到第M級編碼的M+1個特徵圖。
根據請求項1所述的方法，其中，通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第二特徵圖，包括：對所述第一特徵圖進行尺度縮小，得到第二特徵圖；對所述第一特徵圖和所述第二特徵圖進行融合，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖。
根據請求項1所述的方法，其中，通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖，包括：對第m-1級編碼的m個特徵圖進行尺度縮小及融合，得到第m+1個特徵圖，所述第m+1個特徵圖的尺度小於第m-1級編碼的m個特徵圖的尺度；對所述第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖進行融合，得到第m級編碼的m+1個特徵圖。
根據請求項3所述的方法，其中，對第m-1級編碼的m個特徵圖進行尺度縮小及融合，得到第m+1個特徵圖，包括：通過第m級編碼網路的卷積子網路對第m-1級編碼的m個特徵圖分別進行尺度縮小，得到尺度縮小後的m個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；對所述尺度縮小後的m個特徵圖進行特徵融合，得到所述第m+1個特徵圖。
根據請求項3所述的方法，其中，對所述第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖進行融合，得到第m級編碼的m+1個特徵圖，包括：通過第m級編碼網路的特徵最佳化子網路對第m-1級編碼的m個特徵圖以及所述第m+1個特徵圖分別進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖；通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖。
根據請求項4所述的方法，其中，所述卷積子網路包括至少一個第一卷積層，所述第一卷積層的卷積核尺寸爲3×3，步長爲2；所述特徵最佳化子網路包括至少兩個第二卷積層以及殘差層，所述第二卷積層的卷積核尺寸爲3×3，步長爲1；所述m+1個融合子網路與最佳化後的m+1個特徵圖對應。
根據請求項6所述的方法，其中，對於m+1個融合子網路的第k個融合子網路，通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖，包括：通過至少一個第一卷積層對尺度大於特徵最佳化後的第k個特徵圖的k-1個特徵圖進行尺度縮小，得到尺度縮小後的k-1個特徵圖，所述尺度縮小後的k-1個特徵圖的尺度等於特徵最佳化後的第k個特徵圖的尺度；和/或通過上採樣層及第三卷積層對尺度小於特徵最佳化後的第k個特徵圖的m+1-k個特徵圖進行尺度放大及通道調整，得到尺度放大後的m+1-k個特徵圖，所述尺度放大後的m+1-k個特徵圖的尺度等於特徵最佳化後的第k個特徵圖的尺度；其中，k爲整數且1≤k≤m+1，所述第三卷積層的卷積核尺寸爲1×1。
根據請求項7所述的方法，其中，通過第m級編碼網路的m+1個融合子網路對所述特徵最佳化後的m+1個特徵圖分別進行融合，得到第m級編碼的m+1個特徵圖，還包括：對所述尺度縮小後的k-1個特徵圖、所述特徵最佳化後的第k個特徵圖及所述尺度放大後的m+1-k個特徵圖中的至少兩項進行融合，得到第m級編碼的第k個特徵圖。
根據請求項1所述的方法，通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖，包括：通過所述特徵提取網路的至少一個第一卷積層對待處理圖像進行卷積，得到卷積後的特徵圖；通過所述特徵提取網路的至少一個第二卷積層對卷積後的特徵圖進行最佳化，得到所述待處理圖像的第一特徵圖。
根據請求項1所述的方法，所述方法還包括：根據預設的訓練集，訓練所述特徵提取網路、所述M級編碼網路及所述N級解碼網路，所述訓練集中包括已標注的多個樣本圖像。
一種圖像處理裝置，包括：特徵提取模組，用於通過特徵提取網路對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；編碼模組，用於通過M級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，所述多個特徵圖中各個特徵圖的尺度不同；解碼模組，用於通過N級解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的預測結果，M、N爲大於1的整數；其中，所述編碼模組，包括：第一編碼子模組，用於通過第一級編碼網路對所述第一特徵圖進行尺度縮小及多尺度融合處理，得到第一級編碼的第一特徵圖及第一級編碼的第二特徵圖；第二編碼子模組，用於通過第m級編碼網路對第m-1級編碼的m個特徵圖進行尺度縮小及多尺度融合處理，得到第m級編碼的m+1個特徵圖，m爲整數且1＜m＜M；第三編碼子模組，用於通過第M級編碼網路對第M-1級編碼的M個特徵圖進行尺度縮小及多尺度融合處理，得到第M級編碼的M+1個特徵圖。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲呼叫所述記憶體儲存的指令，以執行請求項1至10中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至10中任意一項所述的方法。