TWI728621B

TWI728621B - 圖像處理方法及其裝置、電子設備、電腦可讀儲存媒體和電腦程式

Info

Publication number: TWI728621B
Application number: TW108147606A
Authority: TW
Inventors: 龐江淼; 陳愷; 石建萍; 林達華; 歐陽萬里; 馮華君
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-02-01
Filing date: 2019-12-25
Publication date: 2021-05-21
Also published as: TW202030694A; SG11202102977SA; JP2022500791A; WO2020155828A1; US20210209392A1; CN109829501A; CN109829501B

Abstract

本發明涉及一種圖像處理方法及其裝置、電子設備、電腦可讀儲存媒體和電腦程式，所述方法包括：通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得樣本圖像的均衡特徵圖像；通過檢測子網路對均衡特徵圖像進行目標檢測處理，獲得均衡特徵圖像中目標對象的預測區域；分別確定每個預測區域的交併比；根據各預測區域的交併比，對多個預測區域進行抽樣，獲得目標區域；根據目標區域和標注區域，訓練檢測網路。根據本發明的實施例的圖像處理方法，對目標樣本圖像進行特徵均衡處理，可避免訊息損失，提高訓練效果。並且，可根據預測區域的交併比，抽取出目標區域，可提高抽取出確定過程困難的預測區域的機率，提升訓練效率，提高訓練效果。

Description

圖像處理方法及其裝置、電子設備、電腦可讀儲存媒體和電腦程式

本發明涉及電腦技術領域，尤其涉及一種圖像處理方法及其裝置、電子設備、電腦可讀儲存媒體和電腦程式。

在相關技術中，在神經網路訓練的過程中，困難樣本和簡單樣本對於神經網路訓練的重要性不同，困難樣本在訓練過程可獲取更多訊息，使訓練過程效率更高，且訓練效果更好，但在大量樣本中，簡單樣本的數量更多。並且，在訓練過程中，神經網路的各層級對提取的特徵各有側重。

本發明提出了一種圖像處理方法及其裝置、電子設備、電腦可讀儲存媒體和電腦程式。

根據本發明的一方面，提供了一種圖像處理方法，包括：

通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得所述樣本圖像的均衡特徵圖像，所述檢測網路包括所述均衡子網路和檢測子網路；

通過檢測子網路對所述均衡特徵圖像進行目標檢測處理，獲得所述均衡特徵圖像中目標對象的多個預測區域；

分別確定所述多個預測區域中每個預測區域的交併比，其中，所述交併比爲所述樣本圖像中目標對象的預測區域與對應的標注區域的重疊區域與合併區域的面積比；

根據所述每個預測區域的交併比，對所述多個預測區域進行抽樣，獲得目標區域；

根據所述目標區域和所述標注區域，訓練所述檢測網路。

根據本發明的實施例的圖像處理方法，對目標樣本圖像進行特徵均衡處理，可避免訊息損失，提高訓練效果。並且，可根據預測區域的交併比，抽取出目標區域，可提高抽取出確定過程困難的預測區域的機率，提升訓練效率，提高訓練效果。

在一種可能的實現方式中，根據所述每個預測區域的交併比，對多個預測區域進行抽樣，獲得目標區域，包括：

根據所述每個預測區域的交併比，將所述多個預測區域進行分類處理，獲得多個類別的預測區域；

對所述類別的預測區域分別進行抽樣處理，獲得所述目標區域。

通過這種方式，可通過交併比對預測區域進行分類，並對各類別的預測區域進行抽樣，可提高抽取到交併比較高的預測區域的機率，提高目標區域中確定過程困難的預測區域的比重，提高訓練效率。

在一種可能的實現方式中，通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得均衡特徵圖像，包括：

對樣本圖像進行特徵提取處理，獲得多個第一特徵圖，其中，所述多個第一特徵圖中至少有一個第一特徵圖的解析度與其他第一特徵圖的解析度不同；

對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖；

根據所述第二特徵圖以及所述多個第一特徵圖，獲得多個均衡特徵圖像。

在一種可能的實現方式中，對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖，包括：

分別對所述多個第一特徵圖進行放縮處理，獲得多個預設解析度的第三特徵圖；

對所述多個第三特徵圖進行平均處理，獲得第四特徵圖；

對所述第四特徵圖進行特徵提取處理，獲得所述第二特徵圖。

在一種可能的實現方式中，根據所述第二特徵圖以及所述多個第一特徵圖，獲得多個均衡特徵圖像，包括：

將所述第二特徵圖進行放縮處理，分別獲得與所述各第一特徵圖對應的第五特徵圖，其中，所述第一特徵圖與所述對應的第五特徵圖的解析度相同；

分別將所述各第一特徵圖與所述對應的第五特徵圖進行殘差連接，獲得所述均衡特徵圖像。

通過這種方式，可通過均衡處理獲得特徵均衡的第二特徵圖，並通過殘差連接，獲得均衡特徵圖，可減少訊息損失，提高訓練效果。

在一種可能的實現方式中，根據所述目標區域和所述標注區域，訓練所述檢測網路，包括：

根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失；

根據所述辨識損失與所述位置損失對所述檢測網路的網路參數進行調整；

在滿足訓練條件的情況下，獲得訓練後的檢測網路。

在一種可能的實現方式中，根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失，包括：

確定所述目標區域與所述標注區域之間的位置誤差；

在所述位置誤差小於預設閾值的情況下，根據所述位置誤差確定所述位置損失。

確定所述目標區域與所述標注區域之間的位置誤差；

在所述位置誤差大於或等於預設閾值的情況下，根據預設值確定所述位置損失。

通過這種方式，可在對目標對象的預測正確的情況下，提高位置損失的梯度，提高訓練效率，並提高檢測網路的擬合優度。並可在對目標對象的預測錯誤的情況下，降低位置損失的梯度，減小位置損失對訓練過程的影響，以加快位置損失收斂，提高訓練效率。

根據本發明的另一方面，提供了一種圖像處理方法，包括：

將待檢測圖像輸入所述圖像處理方法訓練後的檢測網路進行處理，獲得目標對象的位置訊息。

根據本發明的另一方面，提供了一種圖像處理裝置，包括：

均衡模組，用於通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得所述樣本圖像的均衡特徵圖像，所述檢測網路包括所述均衡子網路和檢測子網路；

檢測模組，用於通過檢測子網路對所述均衡特徵圖像進行目標檢測處理，獲得所述均衡特徵圖像中目標對象的多個預測區域；

確定模組，用於分別確定所述多個預測區域中每個預測區域的交併比，其中，所述交併比爲所述樣本圖像中目標對象的預測區域與對應的標注區域的重疊區域與合併區域的面積比；

抽樣模組，用於根據所述每個預測區域的交併比，對多個預測區域進行抽樣，獲得目標區域；

訓練模組，用於根據所述目標區域和所述標注區域，訓練所述檢測網路。

在一種可能的實現方式中，所述抽樣模組被進一步配置爲：

對所述各類別的預測區域分別進行抽樣處理，獲得所述目標區域。

在一種可能的實現方式中，所述均衡模組被進一步配置爲：

對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖；

在一種可能的實現方式中，所述均衡模組被進一步配置爲：

對所述多個第三特徵圖進行平均處理，獲得第四特徵圖；

在一種可能的實現方式中，所述均衡模組被進一步配置爲：

在一種可能的實現方式中，所述訓練模組被進一步配置爲：

在滿足訓練條件的情況下，獲得訓練後的檢測網路。

在一種可能的實現方式中，所述訓練模組被進一步配置爲：

確定所述目標區域與所述標注區域之間的位置誤差；

在一種可能的實現方式中，所述訓練模組被進一步配置爲：

確定所述目標區域與所述標注區域之間的位置誤差；

根據本發明的另一方面，提供了一種圖像處理裝置，包括：

獲得模組，用於將待檢測圖像輸入所述圖像處理裝置訓練後的檢測網路進行處理，獲得目標對象的位置訊息。

根據本發明的一方面，提供了一種電子設備，包括：

處理器；

用於儲存處理器可執行指令的記憶體；

其中，所述處理器被配置爲：執行上述圖像處理方法。

根據本發明的一方面，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述圖像處理方法。

根據本發明的一方面，提供了一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於執行上述的圖像處理方法。

根據本發明的實施例的圖像處理方法，可通過均衡處理獲得特徵均衡的第二特徵圖，並通過殘差連接，獲得均衡特徵圖，可減少訊息損失，提高訓練效果，並提高檢測網路的檢測精確度。可通過交併比對預測區域進行分類，並對各類別的預測區域進行抽樣，可提高抽取到交併比較高的預測區域的機率，提高預測區域中的確定過程困難的預測區域的比重，提高訓練效率，且降低內存消耗與資源占用。進一步地，可在對目標對象的預測正確的情況下，提高位置損失的梯度，提高訓練效率，並提高檢測網路的擬合優度，以及在對目標對象的預測錯誤的情況下，降低位置損失的梯度，減小位置損失對訓練過程的影響，以加快位置損失收斂，提高訓練效率。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。

根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裏專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裏作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，爲了更好的說明本發明，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

圖1示出根據本發明實施例的圖像處理方法的流程圖，如圖1所示，所述方法包括：

在步驟S11中，通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得所述樣本圖像的均衡特徵圖像，所述檢測網路包括所述均衡子網路和檢測子網路；

在步驟S12中，通過所述檢測子網路對所述均衡特徵圖像進行目標檢測處理，獲得所述均衡特徵圖像中目標對象的多個預測區域；

在步驟S13中，分別確定所述多個預測區域中每個預測區域的交併比，其中，所述交併比爲所述樣本圖像中目標對象的預測區域與對應的標注區域的重疊區域與合併區域的面積比；

在步驟S14中，根據所述每個預測區域的交併比，對所述多個預測區域進行抽樣，獲得目標區域；

在步驟S15中，根據所述目標區域和所述標注區域，訓練檢測網路。

根據本發明的實施例的圖像處理方法，對目標樣本圖像進行特徵均衡處理，可避免訊息損失，提高訓練效果。並且，可根據預測區域的交併比，抽取出目標區域，可提高抽取到確定過程困難的預測區域的機率，提升訓練效率，提高訓練效果。

在一種可能的實現方式中，所述圖像處理方法可以由終端設備執行，終端設備可以爲用戶設備（User Equipment，UE）、移動設備、用戶終端、終端、行動電話、無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等，所述方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者，所述圖像處理方法通過伺服器執行。

在一種可能的實現方式中，所述檢測網路可以是卷積神經網路等神經網路，本發明對檢測網路的類型不作限制。所述檢測網路可包括均衡子網路和檢測子網路。可通過檢測網路的均衡子網路的各層級提取樣本圖像的特徵圖，並可通過特徵均衡處理使各層級提取的特徵圖的特徵平衡，以減少訊息損失，提高訓練效果。

在一種可能的實現方式中，步驟S11可包括：對樣本圖像進行特徵提取處理，獲得多個第一特徵圖，其中，所述多個第一特徵圖中至少有一個第一特徵圖的解析度與其他第一特徵圖的解析度不同；對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖；根據所述第二特徵圖以及所述多個第一特徵圖，獲得多個均衡特徵圖像。

在一種可能的實現方式中，可使用均衡子網路來進行特徵均衡處理。在示例中，可使用均衡子網路的多個卷積層分別對目標樣本圖像進行特徵提取處理，獲得多個第一特徵圖，在第一特徵圖中，至少有一個第一特徵圖的解析度與其他第一特徵圖的解析度不同，例如，多個第一特徵圖的解析度互不相同。在示例中，第一個卷積層對目標樣本圖像進行特徵提取處理，獲得第一個第一特徵圖，再由第二個卷積層對所述第一個第一特徵圖進行特徵提取處理，獲得第二個第一特徵圖…可按照這種方式獲得多個第一特徵圖，多個第一特徵圖分別由不同層級的卷積層獲取，各層級的卷積層對第一特徵圖中的特徵各有側重。

在一種可能的實現方式中，對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖，包括：分別對所述多個第一特徵圖進行放縮處理，獲得多個預設解析度的第三特徵圖；對所述多個第三特徵圖進行平均處理，獲得第四特徵圖；對所述第四特徵圖進行特徵提取處理，獲得所述第二特徵圖。

在一種可能的實現方式中，所述多個第一特徵圖的解析度可互不相同，例如，640×480、800×600、1024×768、1600×1200等。可對各第一特徵圖分別進行放縮處理，獲得預設解析度的第三圖像。所述預設解析度可以是多個第一特徵圖的解析度的平均值，或者其他設定值，本發明對預設解析度不做限制。可對第一特徵圖進行放縮處理，獲得預設解析度的第三特徵圖，在示例中，可對解析度低於預設解析度的第一特徵圖進行插值等上採樣處理，以提高解析度，獲得預設解析度的第三特徵圖，並可對高於預設解析度的第一特徵圖進行池化處理等下採樣處理，獲得預設解析度的第三特徵圖，本發明對放縮的方法不做限制。

在一種可能的實現方式中，可對多個第三特徵圖進行平均處理。在示例中，多個第三特徵圖的解析度相同，均爲預設解析度，可將多個第三特徵圖中同一坐標的像素點的像素值（例如，RGB值或深度值等參數）進行平均，可獲得第四特徵圖中該坐標的像素點的像素值。可按照這種方式，確定第四特徵圖中所有像素點的像素值，即可獲得第四特徵圖，第四特徵圖中爲特徵均衡的特徵圖。

在一種可能的實現方式中，可對第四特徵圖進行特徵提取，獲得第二特徵圖，在示例中，可使用所述均衡子網路的卷積層對第四特徵圖進行特徵提取，例如，使用非局部注意力機制（Non-Local）對第四特徵圖進行特徵提取，獲得所述第二特徵圖，第二特徵圖中爲特徵均衡的特徵圖。

在一種可能的實現方式中，根據所述第二特徵圖以及所述多個第一特徵圖，獲得多個均衡特徵圖像，包括：將所述第二特徵圖進行放縮處理，分別獲得與所述各第一特徵圖對應的第五特徵圖，其中，所述第一特徵圖與所述對應的第五特徵圖的解析度相同；分別將所述各第一特徵圖與所述對應的第五特徵圖進行殘差連接，獲得所述均衡特徵圖像。

在一種可能的實現方式中，所述第二特徵圖與各第一特徵圖的解析度可不同，可對第二特徵圖進行放縮處理，以獲得分別與各第一特徵圖解析度相同的第五特徵圖，在示例中，第二特徵圖的解析度爲800×600，則可對第二特徵圖進行池化等下採樣處理，獲得解析度爲640×480的第五特徵圖，即，與解析度爲640×480的第一特徵圖對應的第五特徵圖，可對第二特徵圖進行插值等上採樣處理，獲得解析度爲1024×768的第五特徵圖，即，與解析度爲1024×768的第一特徵圖對應的第五特徵圖…本發明對第二特徵圖和第一特徵圖的解析度不做限制。

在一種可能的實現方式中，第一特徵圖與對應的第五特徵圖的解析度相同，可將第一特徵圖與對應的第五特徵圖進行殘差連接處理，獲得所述均衡特徵圖像，例如，可將第一特徵圖中某一坐標的像素點的像素值與對應的第五特徵圖中相同坐標的像素點的像素值相加，獲得均衡特徵圖像中該像素點的像素值，可按照這種方式獲得均衡特徵圖像中所有像素點的像素值，即，獲得均衡特徵圖像。

在一種可能的實現方式中，在步驟S12中，可通過檢測子網路對均衡特徵圖像進行目標檢測，得到均衡特徵圖像中目標對象的預測區域，在示例中，可通過選擇框對目標對象所在的預測區域進行框選。所述目標檢測處理還可通過其他用於目標檢測的神經網路或其他方法來實現，以獲取目標對象的多個預測區域。本發明對目標檢測處理的實現方式不做限制。

在一種可能的實現方式中，在步驟S13中，所述樣本圖像爲已標注的樣本圖像，例如，可對目標對象所在的區域進行標注，即，使用選擇框對目標對象所在的區域進行框選。所述均衡特徵圖像是根據樣本圖像獲得的，可根據樣本圖像中對目標對象所在區域進行框選的選擇框，確定所述均衡特徵圖像中目標對象所在區域的位置，並可對該位置進行框選，被框選的區域即爲所述標注區域。在示例中，所述標注區域與所述目標對象對應，所述樣本圖像或者樣本圖像的均衡特徵圖像中，可包括一個或多個目標對象，可對每個目標對象進行標注，即，每個目標對象均具有對應的標注區域。

在一種可能的實現方式中，所述交併比爲目標對象的預測區域與對應標注區域的重疊區域與合併區域的面積比，所述預測區域與標注區域的重疊區域爲兩個區域的交集，所述預測區域與標注區域的合併區域爲兩個區域的併集。在示例中，所述檢測網路可分別確定每個對象的預測區域，例如，針對目標對象A，檢測網路可確定目標對象A的多個預測區域，針對目標對象B，檢測網路可確定目標對象B的多個預測區域。在確定預測區域的交併比時，可確定預測區域與對應標注區域的重疊區域與合併區域的面積比，例如，在確定目標對象A的某個預測區域的交併比時，可確定該預測區域與目標對象A的標注區域的重疊區域與合併區域的面積比。

圖2示出根據本發明實施例的預測區域的交併比的示意圖，如圖2所示，在某一均衡特徵圖像中，已對目標對象所在的區域進行標注，該標注可以是框選目標對象所在區域的選擇框，例如，圖2中虛線所示的標注區域。可使用目標檢測方法檢測均衡特徵圖像中的目標對象，例如，可使用檢測網路等方法進行檢測，並將檢測到的目標對象的預測區域進行框選，例如，圖2中實線所示的預測區域。如圖2所示，標注區域爲A+B，預測區域爲B+C，預測區域與標注區域的重疊區域爲B，預測區域與標注區域的合併區域爲A+B+C。樣本圖像的交併比爲B區域面積與A+B+C區域面積之比。

在一種可能的實現方式中，交併比與確定預測區域的困難程度正相關，即，在交併比較高的預測區域中，確定過程困難的預測區域所占的比重較大。但在所有預測區域中，交併比較低的預測區域所占比重較大，如果直接在所有預測區域中進行隨機抽樣或均勻抽樣，則獲得交併比較低的預測區域的機率較大，即，獲得確定過程容易的預測區域的機率較大，如果使用大量確定過程容易的預測區域進行訓練，則訓練效率較低。而使用確定過程困難的預測區域進行訓練，可在每次訓練中獲得較多的訊息，提高訓練效率。因此，可根據各預測區域的交併比來篩選預測區域，使篩選出的預測區域中，確定過程困難的預測區域所占比重較高，提高訓練效率。

在一種可能的實現方式中，在步驟S14可包括：根據所述每個預測區域的交併比，將所述多個預測區域進行分類處理，獲得多個類別的預測區域；對所述各類別的預測區域分別進行抽樣處理，獲得所述目標區域。

在一種可能的實現方式中，可按照所述交併比，將預測區域進行分類處理，例如，可將交併比大於0且小於或等於0.05的預測區域分爲一類，將交併比大於0.05且小於或等於0.1的預測區域分爲一類，將交併比大於0.1且小於或等於0.15的預測區域分爲一類…即，交併比中每一類的區間長度爲0.05。本發明對類別數量和每一類的區間長度不做限制。

在一種可能的實現方式中，可在每個類別中，進行均勻抽樣或隨機抽樣，獲得所述目標區域。即，在交併比較高的類別和交併比較低的類別中，均抽取預測區域，來提高抽取到交併比較高的預測區域的機率，即，提高目標區域中確定過程困難的預測區域的比重。在各類別中，預測區域被抽取的機率可用以下公式（1）表示：

（1）

其中，

（

爲大於1的整數）爲類別數量，

爲在第k（k爲小於或等於

的正整數）個類別中，預測區域被抽取的機率，

爲預測區域圖像的總數量，

爲在第k個類別中的預測區域的數量。

在示例中，還可篩選出交併比高於預設閾值（例如，0.05、0.1等）的預測區域，或篩選出交併比屬預設區間（例如，大於0.05且小於或等於0.5等）的預測區域，作爲所述目標區域，本發明對篩選方式不做限制。

在一種可能的實現方式中，在步驟S15中，檢測網路可以是用於檢測圖像中的目標對象的神經網路，例如，檢測網路可以是卷積神經網路，本發明對檢測網路的類型不做限制。可使用均衡特徵圖像中的目標區域和標注區域來訓練檢測網路。

在一種可能的實現方式中，根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失，包括：根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失；根據所述辨識損失與所述位置損失對檢測網路的網路參數進行調整；在滿足訓練條件的情況下，獲得訓練後的檢測網路。

在一種可能的實現方式中，可通過任意一個目標區域與標注區域確定辨識損失和位置損失，其中，所述辨識損失用於表示神經網路對目標對象的辨識是否正確，例如，均衡特徵圖像中可包括多個對象，其中，只有一個或一部分對象爲目標對象，可將所述對象分爲兩類，即，所述對象爲目標對象和所述對象不是目標對象。在示例中，可用機率來表示所述辨識結果，例如，某對象爲目標對象的機率，即，如果某對象爲目標對象的機率大於或等於50%，則所述對象爲目標對象，否則，所述對象不是目標對象。

在一種可能的實現方式中，可根據目標區域與標注區域，確定所述檢測網路的辨識損失。在示例中，對所述檢測網路預測的目標對象的所在區域進行框選的選擇框中的區域爲所述目標區域，例如，圖像中包括多個對象，其中，可將目標對象所在的區域進行框選，對其他對象不進行框選，可根據目標區域框選的對象與目標對象的相似度來確定檢測網路的辨識損失，例如，目標區域中的對象有70%的機率爲目標對象（即，所述檢測網路確定目標區域中的對象與目標對象的相似度爲70%），而該對象爲目標對象，可標注爲100%，則可根據30%的誤差確定辨識損失。

在一種可能的實現方式中，根據目標區域與標注區域，確定所述檢測網路的位置損失。在示例中，標注區域爲對目標對象所在區域進行框選的選擇框。即，目標區域檢測網路預測出的目標對象所在區域，並使用選擇框對該區域進行框選，可對上述兩個選擇框的位置和尺寸等進行比較，確定所述位置損失。

在一種可能的實現方式中，根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失，包括：確定所述目標區域與所述標注區域之間的位置誤差；在所述位置誤差小於預設閾值的情況下，根據所述位置誤差確定所述位置損失。所述預測區域和所述標注區域均爲選擇框，可將預測區域與標注區域進行比較。所述位置誤差可包括選擇框的位置和尺寸的誤差，例如，選擇框的中心點或左上角頂點坐標的誤差，以及選擇框的長度和寬度的誤差等。如果對目標對象的預測是正確的，則所述位置誤差較小，在訓練過程中，使用該位置誤差確定的位置損失可有利於位置損失收斂，提高訓練效率，有利於提高檢測網路的擬合優度，如果對目標對象的預測是錯誤的，例如，將某個非目標對象錯認爲目標對象，則所述位置誤差較大，在訓練過程中，位置損失不易收斂，訓練過程效率低，也不利於提高檢測網路的擬合優度，因此，可使用預設閾值來確定所述位置損失。在位置誤差小於預設閾值的情況下，可認爲對目標對象的預測是正確的，可根據位置誤差確定所述位置損失。

在一種可能的實現方式中，根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失，包括：確定所述目標區域與所述標注區域之間的位置誤差；在所述位置誤差大於或等於預設閾值的情況下，根據預設值確定所述位置損失。在示例中，如果位置誤差大於或等於預設閾值，可認爲對目標對象的預測是錯誤的，可根據預設值（例如，某個常數值）確定位置損失，以減小訓練過程中位置損失的梯度，從而加快位置損失的收斂，提高訓練效率。

在一種可能的實現方式中，所述位置損失可通過以下公式（2）來確定：

（2）

其中，

爲所述位置損失，

和

爲設定的參數，

爲位置誤差，

爲所述預設值，

爲預設閾值，在示例中，

，

。本發明對

、

和

的取值不做限制。

對（2）進行積分，可獲得位置損失

，

可根據以下公式（3）來確定：

（3）

其中，

爲積分常數。在公式（3）中，如果位置誤差小於預設閾值，即，對目標對象的預測正確，則通過對數來提高位置損失的梯度，使得位置損失在訓練過程中調整參數的梯度較大，從而提高訓練效率，提高檢測網路的擬合優度。如果對目標對象的預測錯誤，則位置損失爲常數

，從而降低位置損失的梯度，減小位置損失對訓練過程的影響，以加快位置損失收斂，提高檢測網路的擬合優度。

在一種可能的實現方式中，可根據辨識損失與位置損失對檢測網路的網路參數進行調整，在示例中，可根據辨識損失與位置損失確定檢測網路的綜合網路損失，例如，可通過以下公式（4）確定檢測網路的綜合網路損失：

（4）

其中，

爲所述綜合網路損失，

爲所述辨識損失。

在一種可能的實現方式中，可按照使綜合網路損失最小化的方向來調整檢測網路的網路參數，在示例中，可使用梯度下降法進行綜合網路損失的反向傳播，來調整檢測網路的網路參數。

在一種可能的實現方式中，訓練條件可包括調整次數和綜合網路損失的大小或斂散性等條件。可對檢測網路調整預定次數，當調整次數達到預定次數時，即爲滿足訓練條件。也可不限定訓練次數，在綜合網路損失降低到一定程度或收斂於某個區間內時，即爲滿足訓練條件。在訓練完成後，可將檢測網路用於檢測圖像中的目標對象的過程中。

在一種可能的實現方式中，根據本發明實施例，還提供了一種圖像處理方法，所述方法包括：將待檢測圖像輸入訓練後的檢測網路進行處理，獲得目標對象的位置訊息。

在一種可能的實現方式中，待檢測圖像爲包括目標對象的圖像，可通過所述檢測網路的均衡子網路對待檢測圖像進行特徵均衡處理，獲得一組均衡特徵圖。

在一種可能的實現方式中，可將均衡特徵圖輸入檢測網路的檢測子網路，檢測子網路可辨識出目標對象，並確定目標對象的位置，獲得目標對象的位置訊息，例如，對目標對象進行框選的選擇框。

圖3示出根據本發明實施例的圖像處理方法的應用示意圖，如圖3所示，可使用檢測網路的均衡子網路的多個層級的卷積層，對樣本圖像C1進行特徵提取，獲得解析度互不相同的多個第一特徵圖，例如，獲得解析度爲640×480、800×600、1024×768、1600×1200等的第一特徵圖。

在一種可能的實現方式中，可對各第一特徵圖進行放縮處理，獲得多個預設解析度的第三特徵圖，例如，可將解析度爲640×480、800×600、1024×768、1600×1200的第一特徵圖分別進行放縮處理，獲得解析度均爲800×600的第三特徵圖。

在一種可能的實現方式中，可對多個第三特徵圖進行平均處理，獲得特徵均衡的第四特徵圖。並使用非局部注意力機制（Non-Local）對第四特徵圖進行特徵提取，獲得所述第二特徵圖。

在一種可能的實現方式中，可對第二特徵圖進行放縮處理，獲得分別與各第一特徵圖解析度相同的第五特徵圖（例如，C2、 C3、 C4 、C5），例如，可分別將第二特徵圖放縮成解析度爲640×480、800×600、1024×768、1600×1200等的第五特徵圖（例如，P2、P3、 P4、P5）。

在一種可能的實現方式中，可對第一特徵圖與對應的第五特徵圖進行殘差連接處理，即，將第一特徵圖與對應的第五特徵圖中的相同坐標的像素點的RGB值或灰階值等參數相加，獲得多個均衡特徵圖。

在一種可能的實現方式中，可使用檢測網路的檢測子網路對所述均衡特徵圖像進行目標檢測處理，獲得所述均衡特徵圖像中目標對象的多個預測區域。並可分別確定多個預測區域的並併比，並根據交併比對預測區域進行分類，並對各類別的預測區域進行抽樣，可獲得目標區域，在目標區域中，確定過程困難的預測區域所占的比重較大。

在一種可能的實現方式中，可使用目標區域和標注區域訓練所述檢測網路，即，根據目標區域框選的對象與目標對象的相似度來確定辨識損失，並根據目標區域和標注區域以及公式（3）確定位置損失。進一步地，可通過公式（4）確定綜合網路損失，並根據綜合網路損失來調整檢測網路的網路參數，在綜合網路損失滿足訓練條件時，完成訓練，並可使用訓練後的檢測網路檢測待檢測圖像中的目標對象。

在一種可能的實現方式中，可使用均衡子網路對待檢測圖像進行特徵均衡處理，並將獲得均衡特徵圖輸入檢測網路的檢測自網路，獲得目標對象的位置訊息。

在示例中，所述檢測網路可用於自動駕駛中，進行目標檢測，例如，可檢測障礙物、訊號燈或交通標識等，可爲控制車輛運行提供依據。在示例中，所述檢測網路可用於安防監控，可對監控視訊中的目標人物進行檢測。在示例中，所述檢測網路還可用於檢測遙測圖像或導航視訊中的目標對象等，本發明對檢測網路的應用領域不做限制。

圖5示出根據本發明實施例的圖像處理裝置的方塊圖，如圖5所示，所述裝置包括：

均衡模組11，用於通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得所述樣本圖像的均衡特徵圖像，所述檢測網路包括所述均衡子網路和檢測子網路；檢測模組12，用於通過檢測子網路對所述均衡特徵圖像進行目標檢測處理，獲得所述均衡特徵圖像中目標對象的多個預測區域；確定模組13，用於分別確定所述多個預測區域中每個預測區域的交併比，其中，所述交併比爲所述樣本圖像中目標對象的預測區域與對應的標注區域的重疊區域與合併區域的面積比；抽樣模組14，用於根據所述每個預測區域的交併比，對多個預測區域進行抽樣，獲得目標區域；訓練模組15，用於根據所述目標區域和所述標注區域，訓練所述檢測網路。

在一種可能的實現方式中，所述抽樣模組被進一步配置爲：根據所述每個預測區域的交併比，將所述多個預測區域進行分類處理，獲得多個類別的預測區域；對所述類別的預測區域分別進行抽樣處理，獲得所述目標區域。

在一種可能的實現方式中，所述均衡模組被進一步配置爲：對樣本圖像進行特徵提取處理，獲得多個第一特徵圖，其中，所述多個第一特徵圖中至少有一個第一特徵圖的解析度與其他第一特徵圖的解析度不同；對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖；根據所述第二特徵圖以及所述多個第一特徵圖，獲得多個均衡特徵圖像。

在一種可能的實現方式中，所述均衡模組被進一步配置爲：分別對所述多個第一特徵圖進行放縮處理，獲得多個預設解析度的第三特徵圖；對所述多個第三特徵圖進行平均處理，獲得第四特徵圖；對所述第四特徵圖進行特徵提取處理，獲得所述第二特徵圖。

在一種可能的實現方式中，所述均衡模組被進一步配置爲：將所述第二特徵圖進行放縮處理，分別獲得與所述各第一特徵圖對應的第五特徵圖，其中，所述第一特徵圖與對應的第五特徵圖的解析度相同；分別將所述各第一特徵圖與所述對應的第五特徵圖進行殘差連接，獲得所述均衡特徵圖像。

在一種可能的實現方式中，所述訓練模組被進一步配置爲：根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失；根據所述辨識損失與所述位置損失對所述檢測網路的網路參數進行調整；在滿足訓練條件的情況下，獲得訓練後的檢測網路。

在一種可能的實現方式中，所述訓練模組被進一步配置爲：確定所述目標區域與所述標注區域之間的位置誤差；在所述位置誤差小於預設閾值的情況下，根據所述位置誤差確定所述位置損失。

在一種可能的實現方式中，所述訓練模組被進一步配置爲：確定所述目標區域與所述標注區域之間的位置誤差；在所述位置誤差大於或等於預設閾值的情況下，根據預設值確定所述位置損失。

在一種可能的實現方式中，根據本發明實施例，還提供了一種圖像處理裝置，所述裝置包括：獲得模組，用於將待檢測圖像輸入所述圖像處理裝置訓練後的檢測網路進行處理，獲得目標對象的位置訊息。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。

此外，本發明還提供了圖像處理裝置、電子設備、電腦可讀儲存媒體、程式，上述均可用來實現本發明提供的任一種圖像處理方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，爲了簡潔，這裏不再贅述。

本發明實施例還提出一種電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是非揮發性電腦可讀儲存媒體。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲上述方法。

電子設備可以被提供爲終端、伺服器或其它形態的設備。

圖5是根據一示例性實施例示出的一種電子設備800的方塊圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，訊息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖5，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音訊組件810，輸入/輸出（I/O）的介面812，感測器組件814，以及通訊組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，數據通訊，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置爲儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人數據，電話簿數據，訊息，圖片，視訊等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除可程式化唯讀記憶體（EEPROM），可抹除可程式化唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁碟或光碟。

電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與爲電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控面板（TP）。如果螢幕包括觸控面板，螢幕可以被實現爲觸控螢幕，以接收來自用戶的輸入訊號。觸控面板包括一個或多個觸控感測器以感測觸控、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸控或滑動動作的邊界，而且還檢測與所述觸控或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置拍攝鏡頭和/或後置拍攝鏡頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置拍攝鏡頭和/或後置拍攝鏡頭可以接收外部的多媒體數據。每個前置拍攝鏡頭和後置拍攝鏡頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音訊組件810被配置爲輸出和/或輸入音訊訊號。例如，音訊組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置爲接收外部音訊訊號。所接收的音訊訊號可以被進一步儲存在記憶體804或經由通訊組件816發送。在一些實施例中，音訊組件810還包括一個揚聲器，用於輸出音訊訊號。

I/O介面812爲處理組件802和外圍介面模組之間提供介面，上述外圍介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於爲電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件爲電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通訊組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通訊。電子設備800可以接入基於通訊標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通訊組件816經由廣播通道接收來自外部廣播管理系統的廣播訊號或廣播相關訊息。在一個示例性實施例中，所述通訊組件816還包括近場通訊（NFC）模組，以促進短程通訊。例如，在NFC模組可基於射頻辨識（RFID）技術，紅外數據協會（IrDA）技術，超寬帶（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用集成電路（ASIC）、數位訊號處理器（DSP）、數位訊號處理設備（DSPD）、可程式化邏輯裝置（PLD）、現場可程式化邏輯閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存媒體，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

本發明實施例還提供了一種電腦程式産品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的方法的指令。

該電腦程式産品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式産品具體體現爲電腦儲存媒體，在另一個可選實施例中，電腦程式産品具體體現爲軟體産品，例如軟體開發包(Software Development Kit，SDK)等等。

圖6是根據一示例性實施例示出的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供爲一伺服器。參照圖6，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置爲執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置爲將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存媒體，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存媒體，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子（非窮舉的列表）包括：可攜式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可抹除可程式化唯讀記憶體（EPROM或閃存）、靜態隨機存取記憶體（SRAM）、可攜式壓縮磁碟唯讀記憶體（CD-ROM）、數位多功能影音光碟（DVD）、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裏所使用的電腦可讀儲存媒體不被解釋爲瞬時訊號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電訊號。

這裏所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備，或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置數據、或者以一種或多種程式化語言的任意組合編寫的源代碼或目標代碼，所述程式化語言包括面向對象的程式化語言—諸如Smalltalk、C++等，以及常規的過程式程式化語言—諸如“C”語言或類似的程式化語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路伺服提供商來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態訊息來個性化定制電子電路，例如可程式化邏輯電路、現場可程式化閘道陣列（FPGA）或可程式化邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裏參照根據本發明實施例的方法、裝置（系統）和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化數據處理裝置的處理器，從而生産出一種機器，使得這些指令在通過電腦或其它可程式化數據處理裝置的處理器執行時，産生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中，這些指令使得電腦、可程式化數據處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀媒體則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式化數據處理裝置、或其它設備上，使得在電腦、其它可程式化數據處理裝置或其它設備上執行一系列操作步驟，以産生電腦實現的過程，從而使得在電腦、其它可程式化數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中，方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方塊實際上可以基本併行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

11:均衡模組 12:檢測模組 13:確定模組 14:抽樣模組 15:訓練模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音訊組件 812:輸入/輸出介面 814:感測器組件 816:通訊組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入輸出介面

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案：圖1示出根據本發明實施例的圖像處理方法的流程圖；圖2示出根據本發明實施例的預測區域的交併比的示意圖；圖3示出根據本發明實施例的圖像處理方法的應用示意圖；圖4示出根據本發明實施例的圖像處理裝置的方塊圖；圖5示出根據本發明實施例的電子裝置的方塊圖；圖6示出根據本發明實施例的電子裝置的方塊圖。

Claims

一種圖像處理方法，其中，包括：通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得所述樣本圖像的均衡特徵圖像，所述檢測網路包括所述均衡子網路和檢測子網路；通過所述檢測子網路對所述均衡特徵圖像進行目標檢測處理，獲得所述均衡特徵圖像中目標對象的多個預測區域；分別確定所述多個預測區域中每個預測區域的交併比，其中，所述交併比爲所述樣本圖像中目標對象的預測區域與對應的標注區域的重疊區域與合併區域的面積比；根據所述每個預測區域的交併比，對所述多個預測區域進行抽樣，獲得目標區域；根據所述目標區域和所述標注區域，訓練所述檢測網路。
如請求項1所述的方法，其中，根據所述每個預測區域的交併比，對多個預測區域進行抽樣，獲得目標區域，包括：根據所述每個預測區域的交併比，將所述多個預測區域進行分類處理，獲得多個類別的預測區域；對所述各類別的預測區域分別進行抽樣處理，獲得所述目標區域。
如請求項1所述的方法，其中，通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得均衡特徵圖像，包括：對樣本圖像進行特徵提取處理，獲得多個第一特徵圖，其中，所述多個第一特徵圖中至少有一個第一特徵圖的解析度與其他第一特徵圖的解析度不同；對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖；根據所述第二特徵圖以及所述多個第一特徵圖，獲得多個均衡特徵圖像。
如請求項3所述的方法，其中，對所述多個第一特徵圖進行均衡處理，獲得第二特徵圖，包括：分別對所述多個第一特徵圖進行放縮處理，獲得多個預設解析度的第三特徵圖；對所述多個第三特徵圖進行平均處理，獲得第四特徵圖；對所述第四特徵圖進行特徵提取處理，獲得所述第二特徵圖。
如請求項3所述的方法，其中，根據所述第二特徵圖以及所述多個第一特徵圖，獲得多個均衡特徵圖像，包括：將所述第二特徵圖進行放縮處理，分別獲得與所述各第一特徵圖對應的第五特徵圖，其中，所述第一特徵圖與所述對應的第五特徵圖的解析度相同；分別將所述各第一特徵圖與所述對應的第五特徵圖進行殘差連接，獲得所述均衡特徵圖像。
如請求項1所述的方法，其中，根據所述目標區域和所述標注區域，訓練所述檢測網路，包括：根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失；根據所述辨識損失與所述位置損失對所述檢測網路的網路參數進行調整；在滿足訓練條件的情況下，獲得訓練後的檢測網路。
如請求項6所述的方法，其中，根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失，包括：確定所述目標區域與所述標注區域之間的位置誤差；在所述位置誤差小於預設閾值的情況下，根據所述位置誤差確定所述位置損失。
如請求項6所述的方法，其中，根據所述目標區域和所述標注區域，確定所述檢測網路的辨識損失和位置損失，包括：確定所述目標區域與所述標注區域之間的位置誤差；在所述位置誤差大於或等於預設閾值的情況下，根據預設值確定所述位置損失。
一種圖像處理方法，其中，包括：將待檢測圖像輸入如請求項1-8其中任一項所述的方法訓練後的檢測網路進行處理，獲得目標對象的位置訊息。
一種圖像處理裝置，其中，包括：均衡模組，用於通過檢測網路的均衡子網路對樣本圖像進行特徵均衡處理，獲得所述樣本圖像的均衡特徵圖像，所述檢測網路包括所述均衡子網路和檢測子網路；檢測模組，用於通過檢測子網路對所述均衡特徵圖像進行目標檢測處理，獲得所述均衡特徵圖像中目標對象的多個預測區域；確定模組，用於分別確定所述多個預測區域中每個預測區域的交併比，其中，所述交併比爲所述樣本圖像中目標對象的預測區域與對應的標注區域的重疊區域與合併區域的面積比；抽樣模組，用於根據所述每個預測區域的交併比，對多個預測區域進行抽樣，獲得目標區域；訓練模組，用於根據所述目標區域和所述標注區域，訓練所述檢測網路。
一種圖像處理裝置，其中，包括：獲得模組，用於將待檢測圖像輸入如請求項10所述的裝置訓練後的檢測網路進行處理，獲得目標對象的位置訊息。
一種電子設備，其中，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲：執行請求項1至9其中任意一項所述的方法。
一種電腦可讀儲存媒體，其上儲存有電腦程式指令，其中，所述電腦程式指令被處理器執行時實現請求項1至9其中任意一項所述的方法。
一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現請求項1-9其中的任意一項所述的方法。