TWI749423B

TWI749423B - 圖像處理方法及裝置、電子設備和電腦可讀儲存介質

Info

Publication number: TWI749423B
Application number: TW108145780A
Authority: TW
Inventors: 楊昆霖; 侯軍; 蔡曉聰; 伊帥
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-07-18
Filing date: 2019-12-13
Publication date: 2021-12-11
Also published as: TW202105244A; SG11202008147VA; US11481574B2; CN110348537A; WO2021008023A1; JP7041284B2; CN110348537B; KR20210019537A; JP2021533436A; KR102593020B1; US20210019560A1

Abstract

一種圖像處理方法及裝置、電子設備和電腦可讀儲存介質，所述方法包括：對待處理圖像進行特徵提取，得到待處理圖像的第一特徵圖；根據第一特徵圖的維度資訊及預設的拆分規則，將第一特徵圖拆分為多個第一子特徵圖，第一特徵圖的維度資訊包括第一特徵圖的維度以及各個維度的尺寸；對多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖；對多個第二子特徵圖進行拼接，得到待處理圖像的第二特徵圖。本發明實施例可減小完整特徵圖歸一化時的統計誤差。

Description

圖像處理方法及裝置、電子設備和電腦可讀儲存介質

本申請要求在2019年7月18日提交中國專利局、申請號爲201910652025.2、發明名稱爲“圖像處理方法及裝置、電子設備和存儲介質”的中國專利申請的優先權，其全部內容通過引用結合在本申請中。

本發明涉及電腦技術領域，尤其涉及一種圖像處理方法及裝置、電子設備和電腦可讀儲存介質。

在深度學習網路中，可以對輸入的特徵圖從某一固定的維度進行歸一化計算，不僅能夠加快模型的收斂速度，還能夠緩解深層網路中的“梯度彌散”問題，從而更易於訓練深度神經網路並得到更穩定的網路。

因此，本發明之目的，即在提供一種圖像處理技術方案。

於是，本發明在一些實施態樣中，根據本發明的一方面，提供了一種圖像處理方法，包括：對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分爲多個第一子特徵圖，所述第一特徵圖的維度信息包括所述第一特徵圖的維度以及各個維度的尺寸；對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖；對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。

在一種可能的實現方式中，根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分爲多個第一子特徵圖，包括：根據所述第一特徵圖的空間維度的尺寸及預設的拆分規則，在空間維度上對所述第一特徵圖進行拆分，得到多個第一子特徵圖。

在一種可能的實現方式中，對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖，包括：在通道維度上對每個第一子特徵圖進行分組，分別對所述第一子特徵圖的各組通道進行歸一化處理，得到所述第一子特徵圖的第二子特徵圖。

在一種可能的實現方式中，對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖，包括：根據所述多個第一子特徵圖在所述第一特徵圖中的位置，對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。

在一種可能的實現方式中，所述拆分規則包括特徵圖的待拆分維度、各待拆分維度的拆分位置、各待拆分維度的拆分數量、各待拆分維度的拆分尺寸、拆分後的子特徵圖的數量中的至少一種。

在一種可能的實現方式中，所述方法還包括：對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，得到編碼後的多個特徵圖，所述編碼後的多個特徵圖中各個特徵圖的尺度不同；對所述編碼後的多個特徵圖進行尺度放大及多尺度融合，得到所述待處理圖像的分類預測結果。

在一種可能的實現方式中，對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，包括：對m個第二特徵圖進行尺度縮小，得到尺度縮小後的m個特徵圖，m爲正整數；對所述尺度縮小後的m個特徵圖進行特徵融合，得到第m+1個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；對所述m個第二特徵圖及所述第m+1個特徵圖分別進行特徵最佳化及融合，得到編碼後的m+1個特徵圖。

在一種可能的實現方式中，對所述編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的分類預測結果，包括：對編碼後的m+1個特徵圖進行融合及尺度放大，得到尺度放大後的m個特徵圖，m爲正整數；對所述尺度放大後的m個特徵圖進行特徵最佳化及融合，得到所述待處理圖像的分類預測結果。

在一種可能的實現方式中，所述方法通過神經網路實現，所述神經網路包括特徵提取網路、編碼網路及解碼網路，所述特徵提取網路用於對待處理圖像進行特徵提取，所述編碼網路用於對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，所述解碼網路用於對所述編碼後的多個特徵圖進行尺度放大及多尺度融合。

在一種可能的實現方式中，所述方法還包括：根據預設的訓練集，訓練所述神經網路，所述訓練集中包括已標注的多個樣本圖像。

一種可能的實現方式中，根據本發明的另一方面，提供了一種圖像處理裝置，包括：特徵提取模組，用於對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；拆分模組，用於根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分爲多個第一子特徵圖，所述第一特徵圖的維度信息包括所述第一特徵圖的維度以及各個維度的尺寸；歸一化模組，用於對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖；拼接模組，用於對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。

在一種可能的實現方式中，所述拆分模組包括：拆分子模組，用於根據所述第一特徵圖的空間維度的尺寸及預設的拆分規則，在空間維度上對所述第一特徵圖進行拆分，得到多個第一子特徵圖。

在一種可能的實現方式中，所述歸一化模組包括：歸一化子模組，用於在通道維度上對每個第一子特徵圖進行分組，分別對所述第一子特徵圖的各組通道進行歸一化處理，得到所述第一子特徵圖的第二子特徵圖。

在一種可能的實現方式中，所述拼接模組包括：拼接子模組，用於根據所述多個第一子特徵圖在所述第一特徵圖中的位置，對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。

在一種可能的實現方式中，所述裝置還包括：編碼模組，用於對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，得到編碼後的多個特徵圖，所述編碼後的多個特徵圖中各個特徵圖的尺度不同；解碼模組，用於對所述編碼後的多個特徵圖進行尺度放大及多尺度融合，得到所述待處理圖像的分類預測結果。

在一種可能的實現方式中，所述編碼模組包括：縮小子模組，用於對m個第二特徵圖進行尺度縮小，得到尺度縮小後的m個特徵圖，m爲正整數；第一融合子模組，用於對所述尺度縮小後的m個特徵圖進行特徵融合，得到第m+1個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；第二融合子模組，用於對所述m個第二特徵圖及所述第m+1個特徵圖分別進行特徵最佳化及融合，得到編碼後的m+1個特徵圖。

在一種可能的實現方式中，所述解碼模組包括：放大子模組，用於對編碼後的m+1個特徵圖進行融合及尺度放大，得到尺度放大後的m個特徵圖，m爲正整數；第三融合子模組，用於對所述尺度放大後的m個特徵圖進行特徵最佳化及融合，得到所述待處理圖像的分類預測結果。

在一種可能的實現方式中，所述裝置通過神經網路實現，所述神經網路包括特徵提取網路、編碼網路及解碼網路，所述特徵提取網路用於對待處理圖像進行特徵提取，所述編碼網路用於對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，所述解碼網路用於對所述編碼後的多個特徵圖進行尺度放大及多尺度融合。

在一種可能的實現方式中，所述裝置還包括：訓練模組，用於根據預設的訓練集，訓練所述神經網路，所述訓練集中包括已標注的多個樣本圖像。

在一種可能的實現方式中，根據本發明的另一方面，提供了一種電子設備，包括：處理器；用於存儲處理器可執行指令的記憶體；其中，所述處理器被配置爲呼叫所述記憶體存儲的指令，以執行上述方法。

在一種可能的實現方式中，根據本發明的另一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。

在一種可能的實現方式中，根據本發明的另一方面，提供了一種電腦程式，所述電腦程式包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行上述方法。

本發明至少具有以下功效：在本發明實施例中，能夠對特徵圖進行拆分並分別進行歸一化處理，得到歸一化後的多個子特徵圖，並將歸一化後的多個子特徵圖拼接爲完整的特徵圖，從而保留局部特徵信息，減小完整特徵圖歸一化時的統計誤差，提高所提取特徵的有效性。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裡作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情况。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，爲了更好地說明本發明，在下文的具體實施方式中給出了衆多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

圖1示出根據本發明實施例的圖像處理方法的流程圖，如圖1所示，所述圖像處理方法包括：

步驟S11中，對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；

在步驟S12中，根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分爲多個第一子特徵圖，所述第一特徵圖的維度信息包括所述第一特徵圖的維度以及各個維度的尺寸；

在步驟S13中，對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖；

在步驟S14中，對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。

在一種可能的實現方式中，所述圖像處理方法可以由終端設備或伺服器等電子設備執行，終端設備可以爲用戶設備（User Equipment，UE）、移動設備、用戶終端、終端、行動電話、無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等，所述方法可以通過處理器呼叫記憶體中儲存的電腦可讀指令的方式來實現。或者，可通過伺服器執行所述方法。

在一種可能的實現方式中，待處理圖像可以是圖像採集設備（例如攝影鏡頭）拍攝的監控區域（例如路口、商場等區域）的圖像，也可以是通過其他方式獲取的圖像（例如網路下載的圖像）。待處理圖像中可包括一定數量的目標（例如行人、車輛、顧客等）。本發明對待處理圖像的類型、獲取方式以及圖像中目標的類型不作限制。

在一種可能的實現方式中，可在步驟S11中通過特徵提取網路對待處理圖像進行特徵提取，得到待處理圖像的第一特徵圖。該特徵提取網路可例如包括卷積神經網路，本發明對特徵提取網路的具體網路類型不作限制。

在一種可能的實現方式中，第一特徵圖可具有維度信息，該維度信息包括第一特徵圖的維度以及各個維度的尺寸。例如第一特徵圖包括高度H、寬度W以及通道C這三個維度，其中高度H和寬度W爲空間維度，通道C爲通道維度。各個維度的尺寸例如高度H和寬度W均爲256，通道C爲16（即16個通道），則可表示爲H×W×C=256×256×16。本發明對第一特徵圖的維度數量以及各個維度的具體尺寸均不作限制。

在一種可能的實現方式中，如果待處理圖像中各個區域之間存在差異，例如各個區域的目標（行人）數量不同，則對第一特徵圖直接進行歸一化處理可能會導致統計誤差。在該情况下，可以將第一特徵圖進行拆分，以便分區域進行歸一化處理以降低誤差。

在一種可能的實現方式中，可預先設定有針對特徵圖的拆分規則，以便根據該拆分規則拆分特徵圖，例如均勻拆分爲多塊、指定拆分爲特定尺寸的塊等。可對所有的特徵圖採用同樣的拆分規則，也可對不同的特徵圖採用不同的拆分規則，本發明對此不作限制。

在一種可能的實現方式中，拆分規則可包括特徵圖的待拆分維度、各待拆分維度的拆分位置、各待拆分維度的拆分數量、各待拆分維度的拆分尺寸、拆分後的子特徵圖的數量中的至少一種。

在一種可能的實現方式中，待拆分維度用於指示特徵圖要進行拆分的維度，例如對空間維度中的高度H和寬度W進行拆分；各待拆分維度的拆分位置用於指示對特徵圖的各個待拆分維度進行拆分的拆分點的位置，例如高度H（尺寸爲256）的拆分位置包括52、108及160等；各待拆分維度的拆分數量用於指示對特徵圖的各個待拆分維度進行拆分的數量，例如在高度H（尺寸爲256）維度方向上均勻拆分爲三塊；各待拆分維度的拆分尺寸用於指示對特徵圖的各個待拆分維度進行拆分的尺寸，例如在高度H（尺寸爲256）維度方向上拆分的尺寸爲64；拆分後的子特徵圖的數量用於指示對特徵圖拆分後得到的子特徵圖的數量，例如子特徵圖的數量爲9，則可在高度H和寬度W維度方向上分別拆分爲3塊。

應當理解，本領域技術人員可根據實際情况設定具體的拆分規則及其內容，本發明對此不作限制。

在一種可能的實現方式中，可在步驟S12中根據第一特徵圖的維度信息及預設的拆分規則，將第一特徵圖拆分爲多個第一子特徵圖。例如拆分規則指示待拆分維度爲高度H和寬度W，在高度H和寬度W維度方向上分別拆分爲2塊，則可將第一特徵圖拆分爲4個第一子特徵圖（128×128×16）。

在一種可能的實現方式中，可在步驟S13中對多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖。本發明對歸一化的具體方式不作限制。

在一種可能的實現方式中，可在步驟S14中對多個第二子特徵圖進行拼接，得到待處理圖像的第二特徵圖。也即，根據歸一化後的各個子特徵圖的位置，對多個子特徵圖進行拼接，得到完整的特徵圖（第二特徵圖），以便進行後續的處理。

根據本發明的實施例，能夠對特徵圖進行拆分並分別進行歸一化處理，得到歸一化後的多個子特徵圖，並將歸一化後的多個子特徵圖拼接爲完整的特徵圖，從而保留局部特徵信息，減小完整特徵圖歸一化時的統計誤差，提高所提取特徵的有效性。

在一種可能的實現方式中，步驟S12可包括：根據所述第一特徵圖的空間維度的尺寸及預設的拆分規則，在空間維度上對所述第一特徵圖進行拆分，得到多個第一子特徵圖。

舉例來說，預設的拆分規則可設定爲在空間維度（H和W）上對第一特徵圖進行拆分，例如在各維度方向上分別均勻拆分爲4塊。在該情况下，根據第一特徵圖的空間維度（H和W）的尺寸（256×256），可在空間維度（H和W）上將第一特徵圖拆分爲尺寸爲64×64的16個第一子特徵圖。各個第一子特徵圖的其它維度與第一特徵圖的其它維度的尺度相同（例如通道數量同爲16）。

通過這種方式，可在空間維度上對特徵圖進行區域拆分，將特徵圖拆分爲各個空間區域的子特徵圖，以便對特徵圖的各個空間區域分別進行歸一化處理，從而減小完整特徵圖歸一化時的統計誤差。

在一種可能的實現方式中，步驟S13可包括：在通道維度上對每個第一子特徵圖進行分組，分別對所述第一子特徵圖的各組通道進行歸一化處理，得到所述第一子特徵圖的第二子特徵圖。

舉例來說，在相關技術中，可通過批歸一化（Batch Normalization，BN）對每一批的資料進行歸一化。然而在訓練時無法使用大的批尺寸（batch size）的任務上，例如物體檢測、語義分割、人群密度估計，批歸一化的效果較差。在該情况下，可採用組歸一化（Group Normalization，GN）的方式對特徵圖進行歸一化處理。

在一種可能的實現方式中，在得到多個子特徵圖後，可在通道（channel）維度C上對每個第一子特徵圖進行分組，例如將第一子特徵圖的16個通道分爲2組，每組包括8個通道。然後在各組通道上分別進行歸一化處理。也即，分別統計第一子特徵圖的各組通道的平均值和方差，再對第一子特徵圖的各組通道的每一個位置的值進行歸一化計算，得到歸一化後的結果（第一子特徵圖的第二子特徵圖）。這樣，可得到與多個第一子特徵圖對應的多個第二子特徵圖。本發明對通道的分組數量及每組通道所包括的通道數量不作限制。

通過這種方式，能夠對子特徵圖的各組通道分別進行歸一化，從而進一步減少歸一化時的統計誤差，提高所提取特徵的有效性。

在一種可能的實現方式中，步驟S14可包括：根據所述多個第一子特徵圖在所述第一特徵圖中的位置，對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。

舉例來說，在得到歸一化後的多個第二子特徵圖後，可將各個第一子特徵圖在第一特徵圖中的位置，確定爲對應的各個第二子特徵圖的位置，也即，使得拼接的順序與拆分時相同。根據各個第二子特徵圖的位置對各個第二子特徵圖進行拼接，得到拼接後的第二特徵圖。

通過這種方式，可保證第二特徵圖與第一特徵圖的局部特徵信息的分布保持一致。

圖2示出根據本發明實施例的圖像處理方法的處理過程的示意圖。如圖2所示，第一特徵圖21可包括高度H、寬度W以及通道C三個維度；預設的拆分規則可爲在空間維度H上拆分爲2塊，在空間維度W上拆分爲2塊；根據第一特徵圖21的維度信息以及該拆分規則，可將第一特徵圖21拆分爲4個第一子特徵圖22；可對4個第一子特徵圖22分別進行組歸一化處理（通道C分組），並將得到的結果（4個第二子特徵圖）按拆分的順序進行拼接，得到完整的第二特徵圖23，以便進行後續操作。

在一種可能的實現方式中，所述方法還可包括：對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，得到編碼後的多個特徵圖，所述編碼後的多個特徵圖中各個特徵圖的尺度不同；

對所述編碼後的多個特徵圖進行尺度放大及多尺度融合，得到所述待處理圖像的分類預測結果。

舉例來說，可對待處理圖像進行特徵提取得到不同尺度的多個第一特徵圖，經步驟S12-S14的拆分、歸一化及拼接處理後，可得到多個第二特徵圖。在後續處理中，可通過神經網路的編碼網路對待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，得到編碼後的多個特徵圖，編碼後的多個特徵圖中各個特徵圖的尺度不同。這樣，可在每個尺度上將全域和局部的信息進行融合，提高所提取的特徵的有效性。

在一種可能的實現方式中，編碼網路可例如包括卷積層、殘差層、上採樣層、融合層等。可通過編碼網路的第一卷積層（步長>1）對第二特徵圖進行尺度縮小，得到尺度縮小後的特徵圖；通過第二卷積層（步長=1）和/或殘差層對第二特徵圖及尺度縮小後的特徵圖進行特徵最佳化，得到特徵最佳化後的多個特徵圖；再通過編碼網路的上採樣層、卷積層（步長>1）和/或融合層等對特徵最佳化後的多個特徵圖進行融合，得到編碼後的多個特徵圖。

在一種可能的實現方式中，在得到編碼後的多個特徵圖後，可通過解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到待處理圖像的分類預測結果。

在一種可能的實現方式中，解碼網路可例如包括融合層、反卷積層、卷積層、殘差層、上採樣層等。可通過解碼網路的融合層對編碼後的多個特徵圖進行融合，得到融合後的多個特徵圖；再通過反卷積層對融合後的多個特徵圖進行尺度放大，得到尺度放大後的多個特徵圖；通過融合層、卷積層（步長=1）和/或殘差層等分別對多個特徵圖進行融合及最佳化，得到解碼後的特徵圖（分類預測結果）。本發明對編碼網路及解碼網路的具體網路結構不作限制。

在一種可能的實現方式中，可在編碼網路及解碼網路的任意網路層（融合層、反卷積層、卷積層、殘差層、上採樣層等）之後進行步驟S12-S14的拆分、歸一化及拼接處理，以便對各網路層的操作結果進行歸一化，提高網路層的操作結果的強健性。

通過這種方式，能夠通過編碼網路對圖像的特徵圖進行尺度縮小及多尺度融合，並通過解碼網路對編碼後的多個特徵圖進行尺度放大及多尺度融合，從而在編碼及解碼過程中多次融合多尺度的全域信息和局部信息，保留了更有效的多尺度信息，提高了預測結果的質量及強健性。

在一種可能的實現方式中，對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖的步驟可包括：對m個第二特徵圖進行尺度縮小，得到尺度縮小後的m個特徵圖，m爲正整數；對所述尺度縮小後的m個特徵圖進行特徵融合，得到第m+1個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；對所述m個第二特徵圖及所述第m+1個特徵圖分別進行特徵最佳化及融合，得到編碼後的m+1個特徵圖。

舉例來說，可設定待處理的第二特徵圖爲m個，m爲任意正整數。可通過編碼網路的m個卷積子網路（每個卷積子網路包括至少一個第一卷積層）對m個第二特徵圖分別進行尺度縮小，得到尺度縮小後的m個特徵圖，該尺度縮小後的m個特徵圖的尺度相同且尺度小於第m個第二特徵圖的尺度（等於第m+1個特徵圖的尺度）；通過融合層對該尺度縮小後的m個特徵圖進行特徵融合，得到第m+1個特徵圖。

在一種可能的實現方式中，每個卷積子網路包括至少一個第一卷積層，第一卷積層的卷積核尺寸爲3×3，步長爲2，用於對特徵圖進行尺度縮小。卷積子網路的第一卷積層數量與對應的特徵圖的尺度相關聯，例如，編碼後的第一個第二特徵圖的尺度爲4x（寬和高分別爲待處理圖像的1/4），而待生成的m個特徵圖的尺度爲16x（寬和高分別爲待處理圖像的1/16），則第一個卷積子網路包括兩個第一卷積層。應當理解，本領域技術人員可根據實際情况設定卷積子網路第一卷積層的數量、卷積核尺寸及步長，本發明對此不作限制。

在一種可能的實現方式中，可通過編碼網路的融合層對編碼的m個第二特徵圖進行多尺度融合，得到融合後的m個特徵圖；通過m+1個特徵最佳化子網路（每個特徵最佳化子網路包括第二卷積層和/或殘差層）分別對融合後的m個特徵圖和第m+1個特徵圖進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖；然後通過m+1個融合子網路分別對特徵最佳化後的m+1個特徵圖進行多尺度融合，得到編碼後的m+1個特徵圖。

在一種可能的實現方式中，可以對多尺度融合後的m+1個特徵圖再次進行特徵最佳化及多尺度融合，以便進一步提高所提取的多尺度特徵的有效性。本發明對特徵最佳化及多尺度融合的次數不作限制。

在一種可能的實現方式中，可直接通過第二卷積層對特徵圖進行最佳化，第二卷積層的卷積核尺寸爲3×3，步長爲1；也可通過由第二卷積層及殘差層組成基本塊（basic block）對特徵圖進行最佳化。該基本塊可作爲最佳化的基本單元，每個基本塊可包括兩個連續的第二卷積層，然後通過殘差層將輸入的特徵圖與卷積得到的特徵圖相加作爲結果輸出。本發明對特徵最佳化的具體方式不作限制。

在一種可能的實現方式中，每個特徵最佳化子網路可包括至少一個基本塊。可通過各個特徵最佳化子網路的基本塊分別對m個第二特徵圖和第m+1個特徵圖進行特徵最佳化，得到特徵最佳化後的m+1個特徵圖。應當理解，本領域技術人員可根據實際情况設定第二卷積層的數量及卷積核尺寸，本發明對此不作限制。

通過這種方式，可進一步提高提取的多尺度特徵的有效性。

在一種可能的實現方式中，編碼網路的m+1個融合子網路可分別對特徵最佳化後的m+1個特徵圖分別進行融合。對於m+1個融合子網路的第k個融合子網路（k爲整數且1≤k≤m+1），改第k個融合子網路首先可將m+1個特徵圖的尺度調整爲特徵最佳化後的第k個特徵圖的尺度。在1>k>m+1的情况下，在特徵最佳化後的第k個特徵圖之前的k-1個特徵圖的尺度均大於特徵最佳化後的第k個特徵圖，例如第k個特徵圖的尺度爲16x（寬和高分別爲待處理圖像的1/16），第k個特徵圖之前的特徵圖的尺度爲4x和8x。在該情况下，可通過至少一個第一卷積層對尺度大於特徵最佳化後的第k個特徵圖的k-1個特徵圖進行尺度縮小，得到尺度縮小後的k-1個特徵圖。也即，將尺度爲4x和8x的特徵圖均縮小爲16x的特徵圖，可通過兩個第一卷積層對4x的特徵圖進行尺度縮小，可通過一個第一卷積層對8x的特徵圖進行尺度縮小。這樣，可以得到尺度縮小後的k-1個特徵圖。

在一種可能的實現方式中，在1>k>m+1的情况下，在特徵最佳化後的第k個特徵圖之後的m+1-k個特徵圖的尺度均小於特徵最佳化後的第k個特徵圖，例如第k個特徵圖的尺度爲16x（寬和高分別爲待處理圖像的1/16），第k個特徵圖之後的m+1-k個特徵圖爲32x。在該情况下，可通過上採樣層對32x的特徵圖進行尺度放大，並通過第三卷積層（卷積核尺寸爲1×1）對尺度放大後的特徵圖進行通道調整，使得尺度放大後的特徵圖的通道數與第k個特徵圖的通道數相同，從而得到尺度爲16x的特徵圖。這樣，可以得到尺度放大後的m+1-k個特徵圖。

在一種可能的實現方式中，在k=1的情况下，特徵最佳化後的第1個特徵圖之後的m個特徵圖的尺度均小於特徵最佳化後的第1個特徵圖，則可對後m個特徵圖均進行尺度放大及通道調整，得到尺度放大後的後m個特徵圖；在k=m+1的情况下，特徵最佳化後的第m+1個特徵圖之前的m個特徵圖的尺度均大於特徵最佳化後的第m+1個特徵圖，則可對前m個特徵圖均進行尺度縮小，得到尺度縮小後的前m個特徵圖。

在一種可能的實現方式中，第k個融合子網路可對尺度調整後的m+1個特徵圖進行融合。在1>k>m+1的情况下，尺度調整後的m+1個特徵圖包括尺度縮小後的k-1個特徵圖、特徵最佳化後的第k個特徵圖及所述尺度放大後的m+1-k個特徵圖，可以對尺度縮小後的k-1個特徵圖、特徵最佳化後的第k個特徵圖及所述尺度放大後的m+1-k個特徵圖這三者進行融合（相加），得到編碼後的第k個特徵圖。

在一種可能的實現方式中，在k=1的情况下，尺度調整後的m+1個特徵圖包括特徵最佳化後的第1個特徵圖和尺度放大後的m個特徵圖，可對特徵最佳化後的第1個特徵圖和尺度放大後的m個特徵圖這兩者進行融合（相加），得到編碼後的第1個特徵圖。

在一種可能的實現方式中，在k=m+1的情况下，尺度調整後的m+1個特徵圖包括尺度縮小後的m個特徵圖和特徵最佳化後的第m+1個特徵圖，可對尺度縮小後的m個特徵圖和特徵最佳化後的第m+1個特徵圖這兩者進行融合（相加），得到編碼後的第m+1個特徵圖。

圖3a、圖3b及圖3c示出根據本發明實施例的圖像處理方法的多尺度融合過程的示意圖。在圖3a、圖3b及圖3c中，以待融合的特徵圖爲三個爲例進行說明。

如圖3a所示，在k=1的情况下，可對第2個和第3個特徵圖分別進行尺度放大（上採樣）及通道調整（1×1卷積），得到與第1個特徵圖的尺度及通道數相同的兩個特徵圖，再將這三個特徵圖相加得到融合後的特徵圖。

如圖3b所示，在k=2的情况下，可對第1個特徵圖進行尺度縮小（卷積核尺寸爲3×3，步長爲2的卷積）；對第3個特徵圖進行尺度放大（上採樣）及通道調整（1×1卷積），從而得到與第2個特徵圖的尺度及通道數相同的兩個特徵圖，再將這三個特徵圖相加得到融合後的特徵圖。

如圖3c所示，在k=3的情况下，可對第1個和第2個特徵圖進行尺度縮小（卷積核尺寸爲3×3，步長爲2的卷積）。由於第1個特徵圖與第3個特徵圖之間的尺度差爲4倍，因此可進行兩次卷積（卷積核尺寸爲3×3，步長爲2）。經尺度縮小後，可得到與第3個特徵圖的尺度及通道數相同的兩個特徵圖，再將這三個特徵圖相加得到融合後的特徵圖。

通過這種方式，可以實現尺度不同的多個特徵圖之間的多尺度融合，在每個尺度上將全域和局部的信息進行融合，提取更加有效的多尺度特徵。

在一種可能的實現方式中，對所述編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的分類預測結果的步驟可包括：

對編碼後的m+1個特徵圖進行融合及尺度放大，得到尺度放大後的m個特徵圖，m爲正整數；

對所述尺度放大後的m個特徵圖進行特徵最佳化及融合，得到所述待處理圖像的分類預測結果。

舉例來說，可先對編碼後的m+1個特徵圖進行融合，在融合多尺度信息的同時減小特徵圖的數量。可設置有m個第一融合子網路，該m個第一融合子網路與編碼後的m+1個特徵圖中的前m個特徵圖相對應。例如待融合的特徵圖包括尺度爲4x、8x、16x及32x的四個特徵圖，則可設置有三個第一融合子網路，以便融合得到尺度爲4x、8x及16x的三個特徵圖。

在一種可能的實現方式中，解碼網路的m個第一融合子網路的網路結構可與編碼網路的融合子網路的網路結構類似。例如，對於第q個第一融合子網路（1≤q≤m），第q個第一融合子網路可首先將m+1個特徵圖的尺度調整爲解碼後的第q個特徵圖的尺度，再對尺度調整後的m+1個特徵圖進行融合，得到融合後的第q個特徵圖。這樣，可得到融合後的m個特徵圖。此處對尺度調整及融合的具體過程不再重複描述。

在一種可能的實現方式中，可通過解碼網路的反卷積子網路對融合後的m個特徵圖分別進行尺度放大，例如將尺度爲4x、8x及16x的三個融合後的特徵圖放大爲2x、4x及8x的三個特徵圖。經放大後，得到尺度放大後的m個特徵圖。

在一種可能的實現方式中，在得到尺度放大後的m個特徵圖後，可通過m個第二融合子網路分別對該m個特徵圖進行尺度調整及融合，得到融合的m個特徵圖。此處對尺度調整及融合的具體過程不再重複描述。

在一種可能的實現方式中，可通過解碼網路的特徵最佳化子網路對融合的m個特徵圖分別進行最佳化，各個特徵最佳化子網路均可包括至少一個基本塊。經特徵最佳化後，可得到解碼的m個特徵圖。此處對特徵最佳化的具體過程不再重複描述。

在一種可能的實現方式中，解碼網路的多尺度融合及特徵最佳化的過程可重複多次，以便進一步融合不同尺度的全域和局部特徵。本發明對多尺度融合及特徵最佳化的次數不作限制。

在一種可能的實現方式中，解碼網路的融合及尺度放大的過程可重複多次，以便得到尺度與待處理圖像一致的目標特徵圖；再對目標特徵圖進行最佳化，得到所述待處理圖像的預測密度圖。

在一種可能的實現方式中，可將該預測密度圖直接作爲待處理圖像的預測結果；也可以對該預測密度圖進行進一步的處理（例如通過softmax層等處理），得到待處理圖像的分類預測結果。

通過這種方式，解碼網路在尺度放大過程中多次融合全域信息和局部信息，提高了預測結果的質量。

在一種可能的實現方式中，根據本發明實施例的圖像處理方法可通過神經網路實現，該神經網路包括特徵提取網路、編碼網路及解碼網路，所述特徵提取網路用於對待處理圖像進行特徵提取，所述編碼網路用於對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，所述解碼網路用於對所述編碼後的多個特徵圖進行尺度放大及多尺度融合。其中，特徵提取網路、編碼網路及解碼網路的處理過程已在前文中說明，此處不再重複描述

在一種可能的實現方式中，在應用本發明的神經網路之前，可對該神經網路進行訓練。根據本發明實施例的圖像處理方法還包括：

根據預設的訓練集，訓練所述神經網路，所述訓練集中包括已標注的多個樣本圖像。

舉例來說，可預先設置有多個樣本圖像，每個樣本圖像具有標注信息，例如樣本圖像中行人的位置、數量等信息。可將具有標注信息的多個樣本圖像組成訓練集，訓練所述神經網路。

在一種可能的實現方式中，可將樣本圖像輸入特徵提取網路，經由特徵提取網路、編碼網路及解碼網路處理，輸出樣本圖像的預測結果；根據樣本圖像的預測結果和標注信息，確定神經網路的網路損失；根據網路損失調整神經網路的網路參數；在滿足預設的訓練條件時，可得到訓練後的神經網路。本發明對具體的訓練方式不作限制。

通過這種方式，可得到高精度的神經網路。

根據本發明實施例的歸一化方法，能夠在空間維度上對特徵圖進行區域拆分，對各空間區域分別歸一化，從而保留特徵圖局部的差異性，減小完整特徵圖歸一化時的統計誤差；根據本發明的實施例，在訓練時使用小批尺寸也能保證網路的性能，能夠應用於訓練時只能使用小批尺寸的任務（例如人群密度估計、語義分割等），消除例如人群密度估計任務訓練時不使用歸一化層導致的梯度消失／爆炸等問題。

根據本發明實施例的圖像處理方法，能夠通過帶步長的卷積操作來獲取小尺度的特徵圖，在網路結構中不斷進行全域和局部信息的融合來提取更有效的多尺度信息，並且通過其他尺度的信息來促進當前尺度信息的提取，增强網路對於多尺度目標（例如行人）識別的強健性；能夠在解碼網路中放大特徵圖的同時進行多尺度信息的融合，保留多尺度信息，提高生成密度圖的質量，從而提高模型預測的準確率。

根據本發明實施例的圖像處理方法，能夠應用於智能視訊分析、安防監控等應用場景中，對場景中的目標（例如行人、車輛等）進行識別，預測場景中目標的數量、分布情况等，從而分析當前場景人群的行爲。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情况下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

此外，本發明還提供了圖像處理裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本發明提供的任一種圖像處理方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖4示出根據本發明實施例的圖像處理裝置的方塊圖，如圖4所示，所述圖像處理裝置包括：

特徵提取模組41，用於對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；拆分模組42，用於根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分爲多個第一子特徵圖，所述第一特徵圖的維度信息包括所述第一特徵圖的維度以及各個維度的尺寸；歸一化模組43，用於對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖；拼接模組44，用於對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，爲了簡潔，這裡不再贅述。

本發明實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非揮發性電腦可讀儲存介質或揮發性電腦可讀儲存介質。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲呼叫所述記憶體儲存的指令，以執行上述方法。

本發明實施例還提出一種電腦程式，所述電腦程式包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行上述方法。

電子設備可以被提供爲終端、伺服器或其它形態的設備。

圖5示出根據本發明實施例的一種電子設備800的方塊圖。例如，電子設備800可以是移動電話，電腦，數字廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖5，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）介面812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置爲儲存各種類型的資料以支持在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，視訊等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除可程式化唯讀記憶體（EEPROM），可抹除可程式化唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁碟或光碟。

電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與爲電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控式面板（TP）。如果螢幕包括觸控式面板，螢幕可以被實現爲觸控式螢幕，以接收來自用戶的輸入信號。觸控式面板包括一個或多個觸控式感測器以感測觸摸、滑動和觸控式面板上的手勢。所述觸控式感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影鏡頭和/或後置攝影鏡頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝影鏡頭和/或後置攝影鏡頭可以接收外部的多媒體資料。每個前置攝影鏡頭和後置攝影鏡頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置爲輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置爲接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

輸入/輸出介面812爲處理組件802和外圍介面模組之間提供介面，上述外圍介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於爲電子設備800提供各個方面的狀態評估。例如，傳感器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件爲電子設備800的顯示器和小鍵盤，傳感器組件感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播頻道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於無線射頻辨識（RFID）技術，紅外數據協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路（ASIC）、數位訊號處理器（DSP）、數位信號處理設備（DSPD）、可程式邏輯裝置（PLD）、現場可程式化邏輯閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖6示出根據本發明實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供爲一伺服器。參照圖6，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置爲執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理，一個有線或無線的網路介面1950被配置爲將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是但不限於電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子（非窮舉的列表）包括：便携式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可抹除可程式化唯讀記憶體（EPROM或閃存）、靜態隨機存取記憶體（SRAM）、可擕式壓縮磁碟唯讀記憶體（CD-ROM）、數位多功能影音光碟（DVD）、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋爲瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脉衝）、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置資料、或者以一種或多種程式語言的任意組合編寫的原始碼或目標代碼，所述程式語言包括面向對象的程式語言—諸如Smalltalk、C++等，以及常規的過程式程式語言—諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路，包括區域網路(LAN)或廣域網路(WAN)連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路服務供應商來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態信息來個性化定制電子電路，例如可程式化邏輯電路、現場可程式化邏輯閘陣列（FPGA）或可程式化邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裡參照根據本發明實施例的方法、裝置（系統）和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式資料處理裝置的處理器，從而生産出一種機器，使得這些指令在通過電腦或其它可程式資料處理裝置的處理器執行時，産生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式資料處理裝置、或其它設備上，使得在電腦、其它可程式資料處理裝置或其它設備上執行一系列操作步驟，以産生電腦實現的過程，從而使得在電腦、其它可程式資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中，方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

在不違背邏輯的情况下，本發明不同實施例之間可以相互結合，不同實施例描述有所側重，爲側重描述的部分可以參見其他實施例的記載。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

21:第一特徵圖 22:第一子特徵圖 23:第二特徵圖 41:特徵提取模組 42:拆分模組 43:歸一化模組 44:拼接模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出介面 814:感測器組件 816:通信組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入輸出介面 S11~S14:步驟 H:高度 W:寬度 C:通道

此處的附圖被並入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。圖1示出根據本發明實施例的圖像處理方法的流程圖；圖2示出根據本發明實施例的圖像處理方法的處理過程的示意圖；圖3a、圖3b及圖3c示出根據本發明實施例的圖像處理方法的多尺度融合過程的示意圖；圖4示出根據本發明實施例的圖像處理裝置的方塊圖；圖5示出根據本發明實施例的一種電子設備的方塊圖；及圖6示出根據本發明實施例的一種電子設備的方塊圖。

S11~S14:步驟

Claims

一種圖像處理方法，包括：對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分為多個第一子特徵圖，所述第一特徵圖的維度信息包括所述第一特徵圖的維度以及各個維度的尺寸；對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖；對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖；及對所述待處理圖像的至少一個第二特徵圖進行編碼及解碼，得到所述待處理圖像的分類預測結果。
根據請求項1所述的方法，其中，根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分為多個第一子特徵圖，包括：根據所述第一特徵圖的空間維度的尺寸及預設的拆分規則，在空間維度上對所述第一特徵圖進行拆分，得到多個第一子特徵圖。
根據請求項1所述的方法，其中，對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖，包括：在通道維度上對每個第一子特徵圖進行分組，分別對所述第一子特徵圖的各組通道進行歸一化處理，得到所述第一子特徵圖的第二子特徵圖。
根據請求項1所述的方法，其中，對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖，包括：根據所述多個第一子特徵圖在所述第一特徵圖中的位置，對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖。
根據請求項1或2所述的方法，其中，所述拆分規則包括特徵圖的待拆分維度、各待拆分維度的拆分位置、各待拆分維度的拆分數量、各待拆分維度的拆分尺寸、拆分後的子特徵圖的數量中的至少一種。
根據請求項1所述的方法，其中，所述方法還包括：對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，得到編碼後的多個特徵圖，所述編碼後的多個特徵圖中各個特徵圖的尺度不同；對所述編碼後的多個特徵圖進行尺度放大及多尺度融合，得到所述待處理圖像的分類預測結果。
根據請求項6所述的方法，其中，對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合處理，得到編碼後的多個特徵圖，包括：對m個第二特徵圖進行尺度縮小，得到尺度縮小後的m個特徵圖，m為正整數；對所述尺度縮小後的m個特徵圖進行特徵融合，得到第m+1個特徵圖，所述尺度縮小後的m個特徵圖的尺度等於所述第m+1個特徵圖的尺度；對所述m個第二特徵圖及所述第m+1個特徵圖分別進行特徵最佳化及融合，得到編碼後的m+1個特徵圖。
根據請求項6所述的方法，其中，對所述編碼後的多個特徵圖進行尺度放大及多尺度融合處理，得到所述待處理圖像的分類預測結果，包括：對編碼後的m+1個特徵圖進行融合及尺度放大，得到尺度放大後的m個特徵圖，m為正整數；對所述尺度放大後的m個特徵圖進行特徵最佳化及融合，得到所述待處理圖像的分類預測結果。
根據請求項1-4、6-8中任意一項所述的方法，其中，所述方法通過神經網路實現，所述神經網路包括特徵提取網路、編碼網路及解碼網路，所述特徵提取網路用於對待處理圖像進行特徵提取，所述編碼網路用於對所述待處理圖像的至少一個第二特徵圖進行尺度縮小及多尺度融合，所述解碼網路用於對所述編碼後的多個特徵圖進行尺度放大及多尺度融合。
根據請求項9所述的方法，其中，所述方法還包括：根據預設的訓練集，訓練所述神經網路，所述訓練集中包括已標注的多個樣本圖像。
一種圖像處理裝置，包括：特徵提取模組，用於對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；拆分模組，用於根據所述第一特徵圖的維度信息及預設的拆分規則，將所述第一特徵圖拆分為多個第一子特徵圖，所述第一特徵圖的維度信息包括所述第一特徵圖的維度以及各個維度的尺寸；歸一化模組，用於對所述多個第一子特徵圖分別進行歸一化處理，得到多個第二子特徵圖；拼接模組，用於對所述多個第二子特徵圖進行拼接，得到所述待處理圖像的第二特徵圖；編碼模組，用於對所述待處理圖像的至少一個第二特徵圖進行編碼，得到編碼後的多個特徵圖；及解碼模組，用於對所述編碼後的多個特徵圖進行解碼，得到所述待處理圖像的分類預測結果。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為呼叫所述記憶體儲存的指令，以執行請求項1至10中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至10中任意一項所述的方法。