TW202131281A

TW202131281A - 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介

Info

Publication number: TW202131281A
Application number: TW109117678A
Authority: TW
Inventors: 宋廣錄; 劉宇
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-02-03
Filing date: 2020-05-27
Publication date: 2021-08-16
Also published as: KR20210102180A; CN111310616B; WO2021155632A1; TWI766286B; CN111310616A

Abstract

本公開涉及一種圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介，所述圖像處理方法包括：對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域；根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊。本公開實施例可實現快速準確的目標關鍵點檢測。

Description

圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介

本公開涉及電腦技術領域，尤其涉及一種圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介。本申請要求在2020年2月3日提交中國專利局、申請號為202010078672.X、發明名稱為“圖像處理方法及裝置、電子設備和存儲介質”的中國專利申請的優先權，其全部內容通過引用結合在本申請中。

在電腦視覺、目標識別等領域，通常需要對圖像中的目標（例如人臉）進行檢測。在相關技術中，基於錨點（anchor）的目標檢測方式需要保持結構上的特定設計，限制了檢測演算法速度的提升；而採用羽量級的模型結構能夠達到很快的推理速度，但對複雜場景的檢測準確率較低，無法滿足要求。

本公開提出了一種圖像處理技術方案。

根據本公開的一方面，提供了一種圖像處理方法，包括：

對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域；根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊。

在一種可能的實現方式中，所述圖像處理方法還包括：對所述待處理圖像中各目標的所述目標關鍵點資訊分別進行邊框回歸，確定所述各目標的第二區域；根據所述各目標的第二區域，確定所述待處理圖像的目標識別結果。

在一種可能的實現方式中，對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域，包括：對所述第一特徵圖進行中心點特徵提取，得到第二特徵圖；從所述第二特徵圖的多個特徵點中確定出至少一個區域中心點，所述區域中心點包括特徵值大於或等於第一閾值的特徵點；根據所述至少一個區域中心點中各區域中心點對應的通道編號，確定所述各區域中心點對應的所述第一區域的尺度；根據所述各區域中心點的位置及所述各區域中心點對應的所述第一區域的尺度，分別確定各所述第一區域。

在一種可能的實現方式中，根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊，包括：對所述第一特徵圖進行關鍵點特徵提取，得到第三特徵圖；從所述第三特徵圖中與所述第一區域對應的特徵區域中確定出所述目標的多個關鍵點；根據所述第三特徵圖中所述多個關鍵點的位置，確定所述待處理圖像的目標關鍵點資訊。

在一種可能的實現方式中，從所述第三特徵圖中與所述第一區域對應的特徵區域中確定出所述目標的多個關鍵點，包括：對所述特徵區域的各個通道分別進行關鍵點檢測，得到與所述各個通道對應的關鍵點。

在一種可能的實現方式中，根據各目標的第二區域，確定所述待處理圖像的目標識別結果，包括：確定與所述第二區域對應的所述第一區域的第一置信度得分，以及所述第二區域的全部或部分目標關鍵點資訊的第二置信度得分；根據所述第一置信度得分及所述第二置信度得分，確定所述第二區域的第三置信度得分；根據各個第二區域的第三置信度得分，確定待處理圖像的目標識別結果，所述目標識別結果包括第三置信度得分大於或等於第二閾值的所述第二區域。

在一種可能的實現方式中，所述圖像處理方法通過神經網路實現，所述圖像處理方法還包括：根據預設的訓練集，訓練所述神經網路，所述訓練集包括多個樣本圖像、所述多個樣本圖像中的標注區域資訊，及所述多個樣本圖像中的標注關鍵點資訊。

在一種可能的實現方式中，所述神經網路包括特徵提取網路、區域預測網路及關鍵點檢測網路，所述根據預設的訓練集，訓練所述神經網路，包括：

通過所述特徵提取網路對樣本圖像進行處理，確定第一樣本特徵圖；通過所述區域預測網路對所述第一樣本特徵圖進行處理，確定第二樣本特徵圖及所述第二樣本特徵圖中的至少一個樣本區域；通過所述關鍵點檢測網路對所述第一樣本特徵圖進行處理，確定第三樣本特徵圖，所述第三樣本特徵圖的寬度及高度與所述第二樣本特徵圖寬度及高度相同；根據所述至少一個樣本區域，確定所述第三樣本特徵圖的樣本區域中的樣本關鍵點資訊；根據所述樣本圖像的標注區域資訊，確定所述樣本圖像的第一標注特徵圖，所述第一標注特徵圖的尺度與所述第二樣本特徵圖的尺度相同，所述第一標注特徵圖的通道編號表示所述標注區域資訊的尺度；根據所述第一標注特徵圖和所述第二樣本特徵圖之間的差異，確定所述樣本圖像針對所述區域預測網路的第一損失；根據所述標注關鍵點資訊與所述樣本關鍵點資訊之間的差異，確定所述樣本圖像針對所述關鍵點檢測網路的第二損失；根據所述多個樣本圖像的第一損失和第二損失，訓練所述神經網路。

在一種可能的實現方式中，所述待處理圖像中的目標包括人臉、人體及人手中的任意一種。

根據本公開的一方面，提供了一種圖像處理裝置，包括：特徵提取模組，用於對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；區域預測模組，用於對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域；關鍵點檢測模組，用於根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊。

在一種可能的實現方式中，所述圖像處理裝置還包括：邊框回歸模組，用於對所述待處理圖像中各目標的所述目標關鍵點資訊分別進行邊框回歸，確定所述各目標的第二區域；結果確定模組，用於根據所述各目標的第二區域，確定所述待處理圖像的目標識別結果。

在一種可能的實現方式中，所述區域預測模組包括：中心點特徵提取子模組，用於對所述第一特徵圖進行中心點特徵提取，得到第二特徵圖；中心點確定子模組，用於從所述第二特徵圖的多個特徵點中確定出至少一個區域中心點，所述區域中心點包括特徵值大於或等於第一閾值的特徵點；尺度確定子模組，用於根據所述至少一個區域中心點中各區域中心點對應的通道編號，確定所述各區域中心點對應的所述第一區域的尺度；區域確定子模組，用於根據所述各區域中心點的位置及所述各區域中心點對應的所述第一區域的尺度，分別確定各所述第一區域。

在一種可能的實現方式中，所述關鍵點檢測模組包括：關鍵點特徵提取子模組，用於對所述第一特徵圖進行關鍵點特徵提取，得到第三特徵圖；關鍵點確定子模組，用於從所述第三特徵圖中與所述第一區域對應的特徵區域中確定出所述目標的多個關鍵點；關鍵點資訊確定子模組，用於根據所述第三特徵圖中所述多個關鍵點的位置，確定所述待處理圖像的目標關鍵點資訊。

在一種可能的實現方式中，所述關鍵點確定子模組用於：對所述特徵區域的各個通道分別進行關鍵點檢測，得到與所述各個通道對應的關鍵點。

在一種可能的實現方式中，所述結果確定模組包括：第一得分確定子模組，用於確定與所述第二區域對應的所述第一區域的第一置信度得分，以及所述第二區域的全部或部分目標關鍵點資訊的第二置信度得分；第二得分確定子模組，用於根據所述第一置信度得分及所述第二置信度得分，確定所述第二區域的第三置信度得分；結果確定子模組，用於根據各個第二區域的第三置信度得分，確定待處理圖像的目標識別結果，所述目標識別結果包括第三置信度得分大於或等於第二閾值的所述第二區域。

在一種可能的實現方式中，所述圖像處理裝置通過神經網路實現，所述圖像處理裝置還包括：訓練模組，用於根據預設的訓練集，訓練所述神經網路，所述訓練集包括多個樣本圖像、所述多個樣本圖像中的標注區域資訊，及所述多個樣本圖像中的標注關鍵點資訊。

在一種可能的實現方式中，所述神經網路包括特徵提取網路、區域預測網路及關鍵點檢測網路，所述訓練模組用於：

根據本公開的一方面，提供了一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行上述圖像處理方法。

根據本公開的一方面，提供了一種電腦可讀儲存媒介，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述圖像處理方法。

根據本公開的一方面，提供了一種電腦程式，所述電腦程式包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行上述圖像處理方法。

在本公開實施例中，能夠獲取待處理圖像的特徵圖；預測特徵圖中目標所在的區域；進而在目標所在的區域中檢測關鍵點，確定圖像的目標關鍵點資訊，從而提高檢測速度和檢測效果，實現快速準確的目標關鍵點檢測。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本公開。根據下麵參考圖式對示例性實施例的詳細說明，本公開的其它特徵及方面將變得清楚。

以下將參考圖式詳細說明本公開的各種示例性實施例、特徵和方面。圖式中相同的圖式標記表示功能相同或相似的元件。儘管在圖式中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製圖式。

在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本公開，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本公開同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本公開的主旨。

圖1示出了根據本公開實施例的圖像處理方法的流程圖，如圖1所示，所述方法包括：

在步驟S11中，對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；

在步驟S12中，對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域；

在步驟S13中，根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊。

在一種可能的實現方式中，所述圖像處理方法可以由終端設備或伺服器等電子設備執行，終端設備可以為使用者設備（User Equipment，UE）、移動設備、使用者終端、終端、蜂巢式電話、無線市內電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等，所述方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者，可通過伺服器執行所述方法。

舉例來說，在人臉解鎖、安防監控及門禁閘機等應用場景中，可能需要對待處理圖像中的目標進行檢測。待處理圖像可以是圖像採集設備（例如攝像頭）等採集的圖像，待處理圖像中可能存在待識別的目標，該目標可例如包括人臉、人體及人手中的任意一種。本公開對應用場景的類型、待處理圖像的獲取方式以及目標的類型均不作限制。

在一種可能的實現方式中，可在步驟S11中通過輕量級的檢測器對待處理圖像進行特徵提取，得到待處理圖像的第一特徵圖，從而降低圖像的尺度。該檢測器可例如為卷積神經網路，本公開對此不作限制。

在一種可能的實現方式中，可在步驟S12中對第一特徵圖進行目標區域預測，預測得到第一特徵圖可能存在目標的區域位置以及該區域的尺度，給出尺度區域建議框，即目標所在的第一區域。

在一種可能的實現方式中，在得到第一區域後，可在步驟S13中根據第一區域，對第一特徵圖進行關鍵點檢測，檢測得到各個第一區域中的目標關鍵點的位置，例如在目標為人臉時，得到人臉的眼睛、鼻子、嘴巴等關鍵點的位置，從而確定出待處理圖像的目標關鍵點資訊。

根據本公開的實施例，能夠獲取圖像的特徵圖，預測特徵圖中目標所在的區域，給出區域建議框；進而在區域建議框中檢測關鍵點，確定出圖像的目標關鍵點資訊，從而提高檢測速度和檢測效果，實現快速準確的目標關鍵點檢測。

在一種可能的實現方式中，可通過輕量級的檢測器（可稱為特徵提取網路）對待處理圖像進行特徵提取。該特徵提取網路可為卷積神經網路（簡稱ConvNet）。

圖2示出了根據本公開實施例的特徵提取網路的示意圖。如圖2所示，該特徵提取網路包括多個卷積層、池化層、上採樣層、全連接層等。可對圖像（即待處理圖像）進行卷積（conv）操作（卷積核尺寸為3×3，通道數為64，採樣倍數為1/2（即下採樣倍數為2倍））得到第一操作結果（未示出）；第一操作結果經過池化（Pool）操作（尺寸為2×2，採樣倍數為1/2）、多次卷積操作（卷積核尺寸為3×3，通道數為64）及特徵融合（即疊加），得到第二操作結果（未示出）；第二操作結果經過多次卷積操作（卷積核尺寸為3×3，通道數為128，採樣倍數為1/2或1）及特徵融合，得到第三操作結果（未示出）；第三操作結果經過2倍上採樣後、與第二操作結果連接（C表示全連接操作）、卷積（卷積核尺寸為3×3，通道數為64）、2倍上採樣、與第一操作結果連接、卷積（卷積核尺寸為3×3，通道數為128）後，得到最終的特徵圖（即待處理圖像的第一特徵圖）。

在一種可能的實現方式中，輸入特徵提取網路的待處理圖像的尺度可為256×256，可通過對採集圖像進行預處理得到該尺度的待處理圖像。整個特徵提取網路的下採樣倍數為2倍，這樣，經特徵提取網路處理後，可得到尺度為128×128的第一特徵圖。通過該輕量級的特徵提取網路，可快速提取待處理圖像的特徵，得到低尺度的第一特徵圖，為後續處理提供基礎。

在一種可能的實現方式中，可在步驟S12中對第一特徵圖進行目標區域預測。其中，步驟S12可包括：

對所述第一特徵圖進行中心點特徵提取，得到第二特徵圖；

從所述第二特徵圖的多個特徵點中確定出至少一個區域中心點，所述區域中心點包括特徵值大於或等於第一閾值的特徵點；

根據所述至少一個區域中心點中各區域中心點對應的通道編號，確定所述各區域中心點對應的所述第一區域的尺度；

根據所述各區域中心點的位置及所述各區域中心點對應的所述第一區域的尺度，分別確定各所述第一區域。

舉例來說，可通過卷積神經網路提取第一特徵圖的中心點特徵，得到第二特徵圖（也可稱為細細微性尺度估計特徵圖），該第二特徵圖的尺度為H×W×G，H、W、G分別為第二特徵圖的高度、寬度和通道數，通道數G例如為60。第二特徵圖中包括多個特徵點，任一特徵點的特徵值可表示該特徵點為目標所在區域的區域中心點的概率或置信度，該特徵點所在的通道編號可表示該特徵點為區域中心點時，相應區域的尺度（高度和寬度）。

在一種可能的實現方式中，可預設有第一閾值，將特徵值大於或等於第一閾值的特徵點確定為目標所在區域的區域中心點。這樣，可從第二特徵圖的多個特徵點中確定出一個或多個區域中心點。本公開對第一閾值的具體取值不作限制。

在一種可能的實現方式中，在確定第二特徵圖中的區域中心點後，可根據一個或多個區域中心點中各區域中心點對應的通道編號，確定各區域中心點對應的第一區域的尺度；進而根據各區域中心點的位置及各區域中心點對應的第一區域的尺度，分別確定各第一區域，即估計出一個或多個區域建議框。

例如，某一區域中心點A在第二特徵圖中的座標為（|x_v /N_s |，|y_v /N_s |，b_v ），N_s 表示第二特徵圖相對於第一特徵圖的下採樣倍數，b_v 表示通道編號，則區域中心點A在第一特徵圖中的位置為（x_v ，y_v ），區域中心點A對應的第一區域的高度和寬度均為與通道編號b_v 對應的尺度s_v ，可將區域中心點A對應的第一區域表示為[x_v ，y_v ，s_v ，s_v ]。應當理解，本領域技術人員可根據實際情況設置通道編號與尺度之間的對應關係，本公開對此不作限制。

通過這種方式，可以預測出圖像中可能存在目標的位置及尺度，得到目標所在區域的區域建議框，以便在後續處理中進行關鍵點檢測，提高檢測效果。

在一種可能的實現方式中，在得到第一區域後，可在S13中對所述第一特徵圖進行關鍵點檢測。其中，步驟S13可包括：

對所述第一特徵圖進行關鍵點特徵提取，得到第三特徵圖；

從所述第三特徵圖中與所述第一區域對應的特徵區域中確定出所述目標的多個關鍵點；

根據所述第三特徵圖中所述多個關鍵點的位置，確定所述待處理圖像的目標關鍵點資訊。

舉例來說，可通過卷積神經網路提取第一特徵圖的關鍵點特徵，得到第三特徵圖（也可稱為關鍵點回應特徵圖），該第三特徵圖的尺度為H×W×K，H、W、K分別為第三特徵圖的高度、寬度和通道數。其中，第三特徵圖的高度及寬度與第二特徵圖的高度及寬度相同，通道數K用於表示每個目標的關鍵點數量，通道數K例如為5。本公開對通道數K的具體取值不作限制。

在一種可能的實現方式中，根據前述步驟中確定的第一區域（即區域建議框），可確定出與第一區域對應的特徵區域中的目標的多個關鍵點，例如目標為人臉時，可確定眼睛、鼻子、嘴角等對應的關鍵點。

在一種可能的實現方式中，從所述第三特徵圖中與所述第一區域對應的特徵區域中確定出所述目標的多個關鍵點，包括：

對所述特徵區域的各個通道分別進行關鍵點檢測，得到與所述各個通道對應的關鍵點。

舉例來說，針對任一特徵區域R[x₁ ，y₁ ，x₂ ，y₂ ]，（x₁ ，y₁ ）和（x₂ ，y₂ ）分別表示區域R的左上頂點和右下頂點座標，可先對第三特徵圖進行標準化（例如通過softmax函數進行標準化）。對於特徵區域R中的任意一個特徵點h_i,j,c ，其標準化後的特徵值可表示為：

(1)

在公式（1）中，i，j分別表示特徵點的橫座標和縱坐標，c表示特徵點的通道編號，1≤c≤K；h_m,n,c 表示與h_i,j,c 在同一通道的任意特徵點，x₁ ≤m≤x₂ ，y₁ ≤n≤y₂ 。

在得到特徵區域R中各個特徵點的特徵值後，可計算該區域在通道c上的關鍵點橫縱坐標

：

(2)

在公式（2）中，w₁ ，h₁ 分別表示特徵區域R的寬度和高度；對於函數

，如果0≤p≤q則返回p，否則返回0。

公式（1）和（2）的處理過程可稱為soft-argmax操作，即結合指數標準化函數softmax，達到argmax（尋找參數最大值的索引）的目的，同時使得過程可導。

這樣，分別對特徵區域R的K個通道進行計算，可得到特徵區域R在K個通道上的K個特徵點；進而，對第三特徵圖中所有的特徵區域進行處理，可得到各個特徵區域中的K個特徵點。根據第三特徵圖的各個特徵區域中的K個特徵點的位置，以及第三特徵圖與待處理圖像之間的對應關係，可確定待處理圖像的目標關鍵點資訊。

通過這種方式，根據區域建議框及關鍵點回應特徵圖，結合尺度自我調整的soft-argmax操作生成目標的關鍵點，能夠提高關鍵點檢測的效果，且不受關鍵點數量的約束。

在一種可能的實現方式中，所述方法還包括：

對所述待處理圖像中各目標的所述目標關鍵點資訊分別進行邊框回歸，確定所述各目標的第二區域；

根據所述各目標的第二區域，確定所述待處理圖像的目標識別結果。

舉例來說，在步驟S13中得到目標關鍵點後，可對各目標的目標關鍵點資訊分別進行邊框回歸，得到目標所在的第二區域，使得區域的範圍更準確。

在一種可能的實現方式中，可先統計多個圖像（例如訓練集中的多個樣本圖像）的平均目標關鍵點座標

：

(3)

公式（3）中，N表示參與統計的圖像中標注框的數量，例如N=10000；

可表示任意一個標注框的目標關鍵點座標，

和

表示對應人臉標注框的寬和高，1≤l≤N。對於資料集中的人臉關鍵點資訊，可以求得每個關鍵點對應的平均點座標

，其中1≤k≤K，K為關鍵點數量。從而，對於檢測得到的一組目標關鍵點和對應的變換矩陣T，可以有：

(4)

公式（4）中，

、

、

表示任意三個關鍵點對應的平均點座標，（X₁ ，Y₁ ）、（X₂ ，Y₂ ）、（X₃ ，Y₃ ）表示一組目標關鍵點中相對應的三個目標關鍵點。通過公式（4），可計算出與該組目標關鍵點對應的變換矩陣T。設該組目標關鍵點對應的邊界框的左上頂點和右下頂點座標分別為（x₃ ，y₃ ）和（x₄ ，y₄ ），則有：

(5)

通過公式（5），可計算出該組目標關鍵點對應的邊界框的左上頂點和右下頂點座標（x₃ ，y₃ ）和（x₄ ，y₄ ），也即通過邊框回歸得到目標所在的第二區域。從而，對待處理圖像中的各個目標的目標關鍵點分別進行邊框回歸處理，可確定出各個目標的第二區域；進而可根據各個目標的第二區域，確定出待處理圖像的目標識別結果。

通過這種方式，對檢測到的目標關鍵點進行邊界框回歸，能夠有效的減少邊界框模糊定義的影響，提高獲取到的目標所在區域的位置更加準確。

在一種可能的實現方式中，根據所述各目標的第二區域，確定所述待處理圖像的目標識別結果的步驟可包括：

確定與所述第二區域對應的所述第一區域的第一置信度得分，以及所述第二區域的全部或部分目標關鍵點資訊的第二置信度得分；

根據所述第一置信度得分及所述第二置信度得分，確定所述第二區域的第三置信度得分；

根據各個第二區域的第三置信度得分，確定待處理圖像的目標識別結果，所述目標識別結果包括第三置信度得分大於或等於第二閾值的所述第二區域。

舉例來說，在得到待處理圖像中各目標的第二區域後，可確定各個第二區域的置信度得分，用於表示第二區域是真實目標所在區域的概率。

在一種可能的實現方式中，對於任意一個第二區域，可確定與該第二區域對應的第一區域（即區域建議框）的第一置信度得分，該第一置信度得分可以為第一區域的區域中心點的特徵值，或與區域中心點的特徵值相對應。同時，可確定第二區域的全部或部分目標關鍵點資訊的第二置信度得分，即可採用全部的目標關鍵點進行計算，也可採用一部分重要的目標關鍵點進行計算，本公開對此不作限制。

在一種可能的實現方式中，可根據第一置信度得分及第二置信度得分，確定第二區域的第三置信度得分。針對任意一個第二區域，設該第二區域的第一置信度得分為P₁ ，第二置信度得分為3個重要的目標關鍵點的特徵值之和，第三置信度得分為P₃ ，則有：

(6)

在公式（6）中，

表示第二區域內任意一個點

的特徵值；

表示目標關鍵點的特徵值，c為通道編號。

在一種可能的實現方式中，可預設有置信度得分的第二閾值。如果第二區域的第三置信度得分大於或等於該第二閾值，則可認為該第二區域是真實目標所在的區域，可作為目標識別結果；反之，如果第二區域的第三置信度得分小於該第二閾值，則可認為該第二區域不是真實目標所在的區域，可從目標識別結果中去除。本公開對第二閾值的具體取值不作限制。

通過這種方式，可對邊界框回歸得到的目標所在區域進行篩選，進一步提高圖像中目標識別的精度。

在一種可能的實現方式中，根據本公開實施例的圖像處理方法可通過神經網路實現，該神經網路包括特徵提取網路、區域預測網路及關鍵點檢測網路，分別用於進行特徵提取、目標區域預測及關鍵點檢測。

圖3示出了根據本公開實施例的圖像處理過程的示意圖。如圖3所示，該神經網路包括特徵提取網路31、區域預測網路32及關鍵點檢測網路33。可將待處理圖像34輸入特徵提取網路31中處理，得到待處理圖像34的第一特徵圖（未示出），以降低圖像的尺度。

在該示例中，將第一特徵圖輸入區域預測網路32的中心點特徵提取子網路321中處理，得到第二特徵圖（也可稱為細微性尺度估計特徵圖）S，尺度為H×W×G；根據各個通道中的特徵點的特徵值，選取特徵值大於或等於第一閾值的特徵點作為區域中心點，並根據區域中心點所在的通道確定區域的尺度，從而得到多個第一區域（即區域建議框）322。

在該示例中，可同時將第一特徵圖輸入關鍵點檢測網路33的關鍵點特徵提取子網路331中處理，得到第三特徵圖（也可稱為關鍵點回應特徵圖）K，第三特徵圖的尺度為H×W×K；根據前述步驟中確定的第一區域322，可對與第一區域322對應的特徵區域中的特徵點進行softmax標準化，進而確定出目標的多個關鍵點（每個通道對應一類關鍵點），座標表示為（X，Y）。

在該示例中，可根據各個目標的多個關鍵點進行邊框回歸，確定更準確的目標區域（稱為第二區域）。經篩選後，最終得到待處理圖像的目標識別結果35。該目標識別結果35可包括識別出的各個目標所在的區域框及關鍵點位置。在目標為人臉的情況下，可得到多個人臉框以及人臉框中的眼睛、鼻子、嘴角等人臉關鍵點的位置。

在一種可能的實現方式中，在應用根據本公開實施例的圖像處理方法的神經網路之前，可對神經網路進行訓練。其中，所述方法還包括：

根據預設的訓練集，訓練所述神經網路，所述訓練集包括多個樣本圖像、所述多個樣本圖像中的標注區域資訊，及所述多個樣本圖像中的標注關鍵點資訊。

舉例來說，可預設有訓練集，訓練集中包括多個樣本圖像，各樣本圖像中包括待識別的目標（例如人臉），各樣本圖像已標注有各個目標的標注區域資訊及標注關鍵點資訊。可將訓練集中的樣本圖像輸入神經網路中處理，得到樣本圖像的目標識別結果；根據識別結果與標注資訊之間的差異，調整神經網路的參數。經多次反覆運算後，得到訓練後的神經網路。

在一種可能的實現方式中，根據預設的訓練集，訓練所述神經網路的步驟包括：

通過所述特徵提取網路對樣本圖像進行處理，確定第一樣本特徵圖；

通過所述區域預測網路對所述第一樣本特徵圖進行處理，確定第二樣本特徵圖及所述第二樣本特徵圖中的至少一個樣本區域；

通過所述關鍵點檢測網路對所述第一樣本特徵圖進行處理，確定第三樣本特徵圖，所述第三樣本特徵圖的寬度及高度與所述第二樣本特徵圖寬度及高度相同；

根據所述至少一個樣本區域，確定所述第三樣本特徵圖的樣本區域中的樣本關鍵點資訊；

根據所述樣本圖像的標注區域資訊，確定所述樣本圖像的第一標注特徵圖，所述第一標注特徵圖的尺度與所述第二樣本特徵圖的尺度相同，所述第一標注特徵圖的通道編號表示所述標注區域資訊的尺度；

根據所述第一標注特徵圖和所述第二樣本特徵圖之間的差異，確定所述樣本圖像針對所述區域預測網路的第一損失；

根據所述標注關鍵點資訊與所述樣本關鍵點資訊之間的差異，確定所述樣本圖像針對所述關鍵點檢測網路的第二損失；

根據所述多個樣本圖像的第一損失和第二損失，訓練所述神經網路。

舉例來說，對於訓練集中的任意一個樣本圖像，與圖3中的處理過程類似，可將該樣本圖像輸入特徵提取網路31中處理，輸出第一樣本特徵圖，以降低圖像的尺度。再將第一樣本特徵圖輸入區域預測網路32中處理，得到第二樣本特徵圖及第二樣本特徵圖中的至少一個樣本區域（即區域建議框）。該第二樣本特徵圖的尺度為H×W×G，G例如為60。

在一種可能的實現方式中，根據該樣本圖像的標注區域資訊（即標注框），可確定所述樣本圖像的第一標注特徵圖M，第一標注特徵圖的尺度與所述第二樣本特徵圖的尺度相同，為H×W×G，第一標注特徵圖的通道編號表示標注區域資訊的尺度。也就是說，對於該樣本圖像的任一標注框R₀ ，[x₀ ，y₀ ，h₀ ，w₀ ]，（x₀ ，y₀ ）表示中心點在樣本圖像中的座標，h₀ 和w₀ 表示長和寬，其尺度編碼可表示為：

(7)

公式（7）中，b表示該標注框R₀ 的通道索引（即通道編號），I_max 表示樣本圖像的最長邊。應當理解，本領域技術人員可根據實際情況設置標注框R₀ 的通道索引，本公開對此不作限制。

該情況下，可對第一標注特徵圖M中的各個特徵點進行賦值。可首先將該標注框R₀ 的中心特徵點賦值為1：

(8)

公式（8）中，N_G 表示第一標注特徵圖相對於樣本圖像的下採樣倍數。

在一種可能的實現方式中，為了減輕網路學習離散值的難度，引入2D高斯函數來調整第一標注特徵圖M中的中心特徵點的鄰居點的取值。設

，

表示取整數，則有：

(9)

公式（9）中，

表示標注框R₀ 的中心特徵點座標；

表示中心特徵點的鄰居點，σ表示預設的變異數。經公式（8）-（9）對第一標注特徵圖M中的各個標注框中的特徵點進行賦值後，可得到賦值後的第一標注特徵圖M。

在該情況下，根據第一標注特徵圖和第二樣本特徵圖之間的差異，可確定該樣本圖像針對所述區域預測網路的第一損失：

(10)

公式（10）中，

表示第一標注特徵圖和第二樣本特徵圖中的特徵點個數；對於任意一個特徵點t，

表示該特徵點t在第一標注特徵圖中的取值（作為監督值）；

表示該特徵點t在第二樣本特徵圖中的取值（即網路預測值）。根據公式（10），可計算出該樣本圖像針對區域預測網路的第一損失L_scale 。進而，可對多個樣本圖像（例如一個批次的256個樣本）分別計算，得到多個樣本圖像的第一損失，以便訓練根據本公開實施例的神經網路。應當理解，本領域技術人員可根據實際情況設置第一損失的損失函數，本公開對此不作限制。

在一種可能的實現方式中，針對樣本圖像的第二樣本特徵圖，可根據預設的閾值（例如第一閾值），從第二樣本特徵圖中確定出多個中心特徵點；根據中心特徵點所在的通道，可利用公式（7）計算出中心特徵點所在的區域的尺度，從而可確定出第二樣本特徵圖中的至少一個樣本區域（即區域建議框）。

在一種可能的實現方式中，可將第一樣本特徵圖輸入關鍵點檢測網路中處理，得到第三樣本特徵圖，第三樣本特徵圖的寬度及高度與第二樣本特徵圖寬度及高度相同，第三樣本特徵圖的尺度可表示為H×W×K，通道數K用於表示每個目標的關鍵點數量，通道數K例如為5。

在一種可能的實現方式中，根據各個樣本區域，可確定第三樣本特徵圖的樣本區域中的樣本關鍵點資訊。即，通過公式（1）對各個樣本區域進行標準化，並通過公式（2）確定出各個樣本區域中的樣本關鍵點的位置。進而，根據該樣本圖像的標注關鍵點資訊與樣本關鍵點資訊之間的差異，確定該樣本圖像針對關鍵點檢測網路的第二損失：

(11)

公式（11）中，

表示標注關鍵點（例如GT標注的關鍵點）；

表示樣本關鍵點，c表示通道編號。根據公式（11），可計算出該樣本圖像針對關鍵點檢測網路的第二損失L_keypoint 。進而，可對多個樣本圖像（例如一個批次的256個樣本）分別計算，得到多個樣本圖像的第二損失，以便訓練根據本公開實施例的神經網路。應當理解，本領域技術人員可根據實際情況設置第二損失的損失函數，本公開對此不作限制。

在一種可能的實現方式中，可根據多個樣本圖像的第一損失和第二損失，確定神經網路的總體損失，例如將第一損失與第二損失的加權和確定為神經網路的總體損失。根據神經網路的總體損失，可進行反向傳播以調整神經網路的網路參數；經過多輪反覆運算調整，在滿足預設的訓練條件（例如網路收斂）的情況下，可得到訓練後的神經網路，完成整個訓練過程。

通過這種方式，可實現神經網路的訓練過程，得到高精度的神經網路。

根據本公開實施例的圖像處理方法，能夠採用低尺度圖像輸入以及輕量級模型結構達到高效的推理速度；利用目標尺度編碼，利用卷積神經網路進行目標位置及尺度預測；該方法採用anchor-free（可稱為無錨點）機制，結合人臉尺度預測與可導的soft-argmax操作，構建出快速準確的目標檢測演算法。

根據本公開實施例的圖像處理方法，採用由下而上（bottom-up）的機制，即先進行人臉關鍵點的檢測，進而基於關鍵點資訊回歸出人臉邊界框。相比於人臉邊界框的模糊定義，人臉關鍵點具備準確的語義資訊表達，從而提高了推理精度，性能可達到SOTA（當前最好的一系列演算法）水平。

根據本公開實施例的圖像處理方法，能夠應用於門禁閘機、智慧視頻分析、安防監控等領域，實現快速準確的人臉檢測，人臉關鍵點檢測，或聯合進行人臉關鍵點檢測和人臉邊界框檢測。並且，可利用本方法的尺度預測結果，預測圖像中潛在的人臉目標尺度。

可以理解，本公開提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本公開不再贅述。本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

此外，本公開還提供了圖像處理裝置、電子設備、電腦可讀儲存媒介、程式，上述均可用來實現本公開提供的任一種圖像處理方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖4示出了根據本公開實施例的圖像處理裝置的框圖，如圖4所示，所述圖像處理裝置包括：

特徵提取模組41，用於對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；區域預測模組42，用於對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域；關鍵點檢測模組43，用於根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊。

在一些實施例中，本公開實施例提供的圖像處理裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

本公開實施例還提出一種電腦可讀儲存媒介，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒介可以是非揮發性電腦可讀儲存媒介或揮發性電腦可讀儲存媒介。

本公開實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行上述方法。

本公開實施例還提供了一種電腦程式產品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的圖像處理方法的指令。

本公開實施例還提供了另一種電腦程式產品，用於儲存電腦可讀指令，指令被執行時使得電腦執行上述任一實施例提供的圖像處理方法的操作。

電子設備可以被提供為終端、伺服器或其它形態的設備。

圖5示出了根據本公開實施例的一種電子設備800的框圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖5，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音訊組件810，輸入/輸出（I/ O）的介面812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，影片等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子抹除式可複寫唯讀記憶體（EEPROM），可擦除可規劃式唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁片或光碟。

電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控面板（TP）。如果螢幕包括觸控面板，螢幕可以被實現為觸控式螢幕，以接收來自使用者的輸入信號。觸控面板包括一個或多個觸控感測器以感測觸摸、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音訊組件810被配置為輸出和/或輸入音訊信號。例如，音訊組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音訊信號。所接收的音訊信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音訊組件810還包括一個揚聲器，用於輸出音訊信號。

輸入/輸出介面812為處理組件802和週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，使用者與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於射頻識別（RFID）技術，紅外資料協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路（ASIC）、數位訊號處理器（DSP）、數位信號處理設備（DSPD）、可程式設計邏輯裝置（PLD）、現場可程式設計閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存媒介，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖6示出了根據本公開實施例的一種電子設備1900的框圖。例如，電子設備1900可以被提供為一伺服器。參照圖6，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置為執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置為將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存媒介，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒介，其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。

電腦可讀儲存媒介可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒介例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存媒介的更具體的例子（非窮舉的列表）包括：可擕式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可擦式可程式化唯讀記憶體（EPROM或快閃記憶體）、靜態隨機存取記憶體（SRAM）、可擕式壓縮磁碟唯讀記憶體（CD-ROM）、多媒體光碟（DVD）、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒介不被解釋為暫態信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒介下載到各個計算/處理設備，或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存媒介中。

用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼，所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等，以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到使用者電腦，或者，可以連接到外部電腦（例如利用網際網路服務提供者來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式設計邏輯電路、現場可程式設計閘陣列（FPGA）或可程式設計邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本公開的各個方面。

這裡參照根據本公開實施例的方法、裝置（系統）和電腦程式產品的流程圖和/或框圖描述了本公開的各個方面。應當理解，流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器，從而生產出一種機器，使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時，產生了實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒介中，這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上，使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作。

圖式中的流程圖和框圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或框圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方框中所標注的功能也可以以不同於圖式中所標注的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的循序執行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式產品具體體現為電腦儲存媒介，在另一個可選實施例中，電腦程式產品具體體現為軟體產品，例如軟體發展包(Software Development Kit，SDK)等等。

在不違背邏輯的情況下，本公開不同實施例之間可以相互結合，不同實施例描述有所側重，為側重描述的部分可以參見其他實施例的記載。

以上已經描述了本公開的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

S11~S13:流程步驟 31:特徵提取網路 32:區域預測網路 321:中心點特徵提取子網路 322:第一區域 33:關鍵點檢測網路 331:關鍵點特徵提取子網路 34:待處理圖像 35:目標識別結果 41:特徵提取模組 42:區域預測模組 43:關鍵點檢測模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音訊組件 812:輸入/輸出介面 814:感測器組件 816:通信組件 820:處理器 1900:電子設備 1902:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入輸出介面

此處的圖式被併入說明書中並構成本說明書的一部分，這些圖式示出了符合本公開的實施例，並與說明書一起用於說明本公開的技術方案。圖1示出了根據本公開實施例的圖像處理方法的流程圖。圖2示出了根據本公開實施例的特徵提取網路的示意圖。圖3示出了根據本公開實施例的圖像處理過程的示意圖。圖4示出了根據本公開實施例的圖像處理裝置的框圖。圖5示出了根據本公開實施例的一種電子設備的框圖。圖6示出了根據本公開實施例的一種電子設備的框圖。

S11~S13:流程步驟

Claims

一種圖像處理方法，包括：對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域；根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊。
根據請求項1所述的圖像處理方法，還包括：對所述待處理圖像中各目標的所述目標關鍵點資訊分別進行邊框回歸，確定所述各目標的第二區域；根據所述各目標的第二區域，確定所述待處理圖像的目標識別結果。
根據請求項1所述的圖像處理方法，其中，對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域，包括：對所述第一特徵圖進行中心點特徵提取，得到第二特徵圖；從所述第二特徵圖的多個特徵點中確定出至少一個區域中心點，所述區域中心點包括特徵值大於或等於第一閾值的特徵點；根據所述至少一個區域中心點中各區域中心點對應的通道編號，確定所述各區域中心點對應的所述第一區域的尺度；根據所述各區域中心點的位置及所述各區域中心點對應的所述第一區域的尺度，分別確定各所述第一區域。
根據請求項1所述的圖像處理方法，其中，根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊，包括：對所述第一特徵圖進行關鍵點特徵提取，得到第三特徵圖；從所述第三特徵圖中與所述第一區域對應的特徵區域中確定出所述目標的多個關鍵點；根據所述第三特徵圖中所述多個關鍵點的位置，確定所述待處理圖像的目標關鍵點資訊。
根據請求項4所述的圖像處理方法，其中，從所述第三特徵圖中與所述第一區域對應的特徵區域中確定出所述目標的多個關鍵點，包括：對所述特徵區域的各個通道分別進行關鍵點檢測，得到與所述各個通道對應的關鍵點。
根據請求項2所述的圖像處理方法，其中，根據所述各目標的第二區域，確定所述待處理圖像的目標識別結果，包括：確定與所述第二區域對應的所述第一區域的第一置信度得分，以及所述第二區域的全部或部分目標關鍵點資訊的第二置信度得分；根據所述第一置信度得分及所述第二置信度得分，確定所述第二區域的第三置信度得分；根據各個第二區域的第三置信度得分，確定待處理圖像的目標識別結果，所述目標識別結果包括第三置信度得分大於或等於第二閾值的所述第二區域。
根據請求項1所述的圖像處理方法，其中，所述圖像處理方法通過神經網路實現，所述圖像處理方法還包括：根據預設的訓練集，訓練所述神經網路，所述訓練集包括多個樣本圖像、所述多個樣本圖像中的標注區域資訊，及所述多個樣本圖像中的標注關鍵點資訊。
根據請求項7所述的圖像處理方法，其中，所述神經網路包括特徵提取網路、區域預測網路及關鍵點檢測網路，所述根據預設的訓練集，訓練所述神經網路，包括：通過所述特徵提取網路對樣本圖像進行處理，確定第一樣本特徵圖；通過所述區域預測網路對所述第一樣本特徵圖進行處理，確定第二樣本特徵圖及所述第二樣本特徵圖中的至少一個樣本區域；通過所述關鍵點檢測網路對所述第一樣本特徵圖進行處理，確定第三樣本特徵圖，所述第三樣本特徵圖的寬度及高度與所述第二樣本特徵圖寬度及高度相同；根據所述至少一個樣本區域，確定所述第三樣本特徵圖的樣本區域中的樣本關鍵點資訊；根據所述樣本圖像的標注區域資訊，確定所述樣本圖像的第一標注特徵圖，所述第一標注特徵圖的尺度與所述第二樣本特徵圖的尺度相同，所述第一標注特徵圖的通道編號表示所述標注區域資訊的尺度；根據所述第一標注特徵圖和所述第二樣本特徵圖之間的差異，確定所述樣本圖像針對所述區域預測網路的第一損失；根據所述標注關鍵點資訊與所述樣本關鍵點資訊之間的差異，確定所述樣本圖像針對所述關鍵點檢測網路的第二損失；根據所述多個樣本圖像的第一損失和第二損失，訓練所述神經網路。
根據請求項1-8中任意一項所述的圖像處理方法，其中，所述待處理圖像中的目標包括人臉、人體及人手中的任意一種。
一種圖像處理裝置，其特徵在於，包括：特徵提取模組，用於對待處理圖像進行特徵提取，得到所述待處理圖像的第一特徵圖；區域預測模組，用於對所述第一特徵圖進行目標區域預測，確定所述第一特徵圖中目標所在的第一區域；關鍵點檢測模組，用於根據所述第一區域，對所述第一特徵圖進行關鍵點檢測，確定所述待處理圖像的目標關鍵點資訊。
一種電子設備，其特徵在於，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行請求項1至9中任意一項所述的圖像處理方法。
一種電腦可讀儲存媒介，其上儲存有電腦程式指令，其特徵在於，所述電腦程式指令被處理器執行時實現請求項1至9中任意一項所述的圖像處理方法。