TWI781359B

TWI781359B - 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體

Info

Publication number: TWI781359B
Application number: TW108146192A
Authority: TW
Inventors: 楊昆霖; 顏鯤; 侯軍; 伊帥
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-09-18
Filing date: 2019-12-17
Publication date: 2022-10-21
Also published as: KR20210113612A; WO2021051650A1; JP7238141B2; TW202113680A; CN110647834B; CN110647834A; SG11202106831QA; KR102632647B1; US20210326587A1; JP2022517914A

Abstract

本發明涉及一種人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體，所述方法包括：獲取第一圖像，所述第一圖像爲人物對象的圖像；對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖；對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，所述第二特徵圖的尺度與所述第一特徵圖的尺度一一對應；基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置。本發明實施例可簡單方便的實現人臉和人手的關聯檢測。

Description

人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體

本發明涉及電腦視覺技術領域，尤其涉及一種人臉和人手位置方法及裝置、電子設備和電腦可讀儲存媒體。

人體人臉人手關聯是指將檢測出的人臉和人手進行關聯，從而通過這個關聯的信息來將人手進行的某項操作與某個具體的人對應起來。

因爲人體中人臉與人手之間有較遠的距離，無法通過位置信息直接進行關聯。所以，現有的技術中，通常使用關鍵點技術以及物體檢測技術，來將對應的人臉框、人手框進行關聯。

本發明提出了一種圖像處理中檢測人臉和人手的技術方案。

根據本發明的一方面，提供了一種人臉和人手關聯檢測方法，其包括：獲取第一圖像，所述第一圖像爲人物對象的圖像；對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖；對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，所述第二特徵圖的尺度與所述第一特徵圖的尺度一一對應；基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置。基於上述配置，本發明實施例可以簡單方便的得到圖像中相互關聯的人臉和人手，同時還可以提高檢測精度。

在一些可能的實施方式中，所述獲取第一圖像，包括：獲取所述第二圖像，所述第二圖像爲包括至少一個人物對象的圖像；對所述第二圖像執行人體目標檢測，得到所述第一圖像中所述至少一個人物對象中任一人物對象的檢測框；將所述任一人物對象的所述檢測框在所述第二圖像中對應的圖像區域，確定爲所述任一人物對象的第一圖像。基於上述配置，本發明實施例得到的第一圖像中删除了其他環境因素的影響，能夠進一步提高檢測精度。

在一些可能的實施方式中，所述對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖，包括：將所述第一圖像調整爲預設尺度的第三圖像；將所述第三圖像輸入至殘差網路，得到所述多個尺度的第一特徵圖。基於上述配置，可以實現圖像的尺度統一，提高適用性。

在一些可能的實施方式中，所述對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，包括：將所述多個尺度的第一特徵圖輸入至特徵金字塔網路，通過所述特徵金字塔網路執行所述特徵融合處理，得到所述多個尺度的第二特徵圖。基於上述配置，可以提高得到的多個尺度的第二特徵圖的特徵精度。

在一些可能的實施方式中，按照尺度從小到大的順序，所述多個第一特徵圖表示爲

，其中，n表示第一特徵圖的數量，n爲大於1的整數；所述對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，包括：利用第一卷積核對第一特徵圖

執行卷積處理，獲得與所述第一特徵圖

對應的第二特徵圖

，其中，所述第一特徵圖

的尺度與所述第二特徵圖

的尺度相同；對所述第二特徵圖

執行線性插值處理獲得與所述第二特徵圖

對應的第一中間特徵圖

，其中，所述第一中間特徵圖

的尺度與第一特徵圖

的尺度相同；利用第二卷積核對所述第一特徵圖

以外的第一特徵圖

執行卷積處理，得到所述第一特徵圖

對應的第二中間特徵圖

，所述第二中間特徵圖

的尺度與第一中間特徵圖

的尺度相同，其中，i爲大於或者等於1且小於n的整數變量；利用所述第二中間特徵圖

和對應的所述第一中間特徵圖

得到所述第二特徵圖

以外的第二特徵圖

，其中，所述第一中間特徵圖

由對應的所述第二特徵圖

經線性插值得到。基於上述配置，可以融合不同尺度的特徵信息，進一步提高特徵精度。

在一些可能的實施方式中，所述利用所述第二中間特徵圖

和對應的所述第一中間特徵圖

得到所述第二特徵圖

以外的第二特徵圖

，包括：將所述第二中間特徵圖

與對應的所述第一中間特徵圖

進行加和處理，得到所述第二特徵圖

。基於上述配置，可以有效的融合兩個中間特徵的特徵信息。

在一些可能的實施方式中，所述基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置，包括：對所述多個尺度的第二特徵圖中尺度最大的第二特徵圖執行卷積處理，分別得到表示所述人臉位置的掩碼圖，以及表示所述人手位置的掩碼圖；基於所述人臉位置的掩碼圖以及所述人手位置的掩碼圖確定所述第一圖像中關聯的人手和人臉所在的位置區域。基於上述配置，可以方便的預測和表示關聯的人臉和人手的位置。

在一些可能的實施方式中，所述多個尺度的第一特徵圖之間的尺度關係爲：

且

，其中，

表示各第一特徵圖，

表示所述第一特徵圖

的長度，

表示所述第一特徵圖

的寬度，

爲大於或者等於1的整數，i爲變量，且i的範圍爲[2,n]，n表示第一特徵圖的數量。

在一些可能的實施方式中，所述方法還包括以下方式中的至少一種：在所述第一圖像中突出顯示所述關聯的人手和人臉；爲所述第一圖像中檢測到的關聯的人臉位置和人手位置分配相同的標籤。基於上述配置，可以直觀的體現關聯的人臉和人手所在的圖像區域，同時有效的區分不同人物對象的關聯檢測結果。

在一些可能的實施方式中，所述方法通過神經網路實現，其中，訓練所述神經網路的步驟包括：獲取訓練圖像，所述訓練圖像爲包括人物對象的圖像，所述訓練圖像具有真實關聯的人臉位置和人手位置的標註信息；將所述訓練圖像輸入至所述神經網路，通過所述神經網路預測所述訓練圖像中針對同一人物對象的關聯的人臉位置和人手位置；基於預測出的關聯的所述人臉位置以及人手位置以及所述標註信息確定網路損失，並根據所述網路損失調整所述神經網路的網路參數，直至滿足訓練要求。基於上述配置，可以實現神經網路的優化訓練，保證網路檢測精度。

根據本發明的第二方面，提供了一種人臉和人手關聯檢測裝置，其包括：獲取模組，用於獲取第一圖像，所述第一圖像爲人物對象的圖像；特徵提取模組，用於對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖；融合模組，用於對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，所述第二特徵圖的尺度與所述第一特徵圖的尺度一一對應；檢測模組，用於基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置。

在一些可能的實施方式中，所述獲取模組包括：獲取單元，用於獲取所述第二圖像，所述第二圖像爲包括至少一個人物對象的圖像；目標檢測單元，用於對所述第二圖像執行人體目標檢測，得到所述第一圖像中所述至少一個人物對象中任一人物對象的檢測框；確定單元，用於將所述任一人物對象的所述檢測框在所述第二圖像中對應的圖像區域，確定爲所述任一人物對象的第一圖像。

在一些可能的實施方式中，所述特徵提取模組還用於將所述第一圖像調整爲預設尺度的第三圖像；將所述第三圖像輸入至殘差網路，得到所述多個尺度的第一特徵圖。

在一些可能的實施方式中，所述融合單元還用於將所述多個尺度的第一特徵圖輸入至特徵金字塔網路，通過所述特徵金字塔網路執行所述特徵融合處理，得到所述多個尺度的第二特徵圖。

，其中，n表示第一特徵圖的數量，n爲大於1的整數；所述融合模組還用於利用第一卷積核對第一特徵圖

執行卷積處理，獲得與所述第一特徵圖

對應的第二特徵圖

，其中，所述第一特徵圖

的尺度與所述第二特徵圖

的尺度相同；對所述第二特徵圖

執行線性插值處理獲得與所述第二特徵圖

對應的第一中間特徵圖

，其中，所述第一中間特徵圖

的尺度與第一特徵圖

的尺度相同；利用第二卷積核對所述第一特徵圖

以外的第一特徵圖

執行卷積處理，得到所述第一特徵圖

對應的第二中間特徵圖

，所述第二中間特徵圖

的尺度與第一中間特徵圖

和對應的所述第一中間特徵圖

得到所述第二特徵圖

以外的第二特徵圖

，其中，所述第一中間特徵圖

由對應的所述第二特徵圖

經線性插值得到。

在一些可能的實施方式中，所述融合模組還用於將所述第二中間特徵圖

與對應的所述第一中間特徵圖

進行加和處理，得到所述第二特徵圖

。

在一些可能的實施方式中，所述檢測模組還用於對所述多個尺度的第二特徵圖中尺度最大的第二特徵圖執行卷積處理，分別得到表示所述人臉位置的掩碼圖，以及表示所述人手位置的掩碼圖；基於所述人臉位置的掩碼圖以及所述人手位置的掩碼圖確定所述第一圖像中關聯的人手和人臉所在的位置區域。

且

，其中，

表示各第一特徵圖，

表示所述第一特徵圖

的長度，

表示所述第一特徵圖

的寬度，

在一些可能的實施方式中，所述裝置還包括顯示模組和分配模組中的至少一種，其中所述顯示模組，用於在所述第一圖像中突出顯示所述關聯的人手和人臉；所述分配模組，用於爲所述第一圖像中檢測到的關聯的人臉位置和人手位置分配相同的標籤。

在一些可能的實施方式中，所述裝置包括神經網路，所述特徵提取模組、所述融合模組和所述檢測模組應用所述神經網路，所述裝置還包括訓練模組，用於訓練所述神經網路，其中，訓練所述神經網路的步驟包括：獲取訓練圖像，所述訓練圖像爲包括人物對象的圖像，所述訓練圖像具有真實關聯的人臉位置和人手位置的標註信息；將所述訓練圖像輸入至所述神經網路，通過所述神經網路預測所述訓練圖像中針對同一人物對象的關聯的人臉位置和人手位置；基於預測出的關聯的所述人臉位置以及人手位置以及所述標註信息確定網路損失，並根據所述網路損失調整所述神經網路的網路參數，直至滿足訓練要求。

根據本發明的第三方面，提供了一種電子設備，其包括：處理器；用於儲存處理器可執行指令的儲存器；其中，所述處理器被配置爲調用所述儲存器儲存的指令，以執行第一方面中任意一項所述的方法。

根據本發明的第四方面，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現第一方面中任意一項所述的方法。

本發明實施例，可以從第一圖像中確定一個人物對象所在的區域對應的第一圖像，並對第一圖像進行特徵提取處理得到相應的特徵圖，而後對特徵圖進行多尺度的特徵融合處理，得到多個尺度的第二特徵圖，其中第二特徵圖相對於第一特徵圖具有更精確的特徵信息，通過對第二特徵圖進行處理可以得到第一圖像中關聯的人手和人臉的位置，提高人臉和人手檢測精度。另外，本發明實施例的技術方案不需要獲取人耳或者手腕的關鍵點，可以直接得到圖像中關聯的人手和人臉的位置，具有簡單方便且精度高的特點。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。

根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。所述多個第一特徵圖表示爲

，

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裡作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情况。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，爲了更好地說明本發明，在下文的具體實施方式中給出了衆多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

本發明實施例提供了一種人臉和人手關聯檢測方法，其可以應用在任意的圖像處理裝置中，例如，該方法可以應用在終端設備或伺服器中，或者也可以應用在其它處理設備中，其中，終端設備可以包括用戶設備（User Equipment，UE）、行動設備、用戶終端、終端、蜂窩電話、無繩電話、個人數位處理（Personal Digital Assistant，PDA）、手持設備、電腦設備、車載設備、可穿戴設備等。在一些可能的實現方式中，該人臉和人手關聯檢測方法可以通過處理器調用儲存器中儲存的電腦可讀指令的方式來實現。

圖1示出根據本發明實施例的一種人臉和人手關聯檢測方法的流程圖，如圖1所示，所述人臉和人手關聯檢測方法包括：

S10：獲取第一圖像；

在一些可能的實施方式中，第一圖像可以爲人物對象的圖像，其中可以包括至少一個人臉和至少一個人手，本發明實施例可以實現該第一圖像中的人物對象的人手和人臉的關聯檢測，該關聯是指得到的人臉和人手爲同一人物對象的人臉和人手。

在一些可能的實施方式中，獲取第一圖像的方式可以包括：直接通過圖像採集設備採集第一圖像，其中圖像採集設備可以爲手機、攝影鏡頭、照相機等具有圖像採集功能的設備。獲取第一圖像的方式也可以包括從其他設備接收傳輸的第一圖像，或者從儲存器中讀取第一圖像，或者第一圖像也可以爲從影片流中執行選幀操作後得到的圖像幀，本發明對此不作具體限定。

在另一些可能的實施方式中，第一圖像也可以爲其他圖像的部分圖像區域，例如第一圖像可以爲通過接收的選擇信息從其他圖像中選擇出的圖像區域，或者也可以爲通過目標檢測的方式，如檢測人體，檢測得到的圖像區域，本發明對此不作具體限定。

S20：對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖；

在一些可能的實施方式中，本發明實施例可以對第一圖像執行特徵提取處理，得到多個尺度的第一特徵圖，例如，本發明實施例可以將第一圖像輸入至特徵提取網路，得到多個尺度的第一特徵圖，其中特徵提取網路可以爲卷積神經網路，如殘差網路（Res-Net），通過該殘差網路執行第一圖像的特徵提取，得到至少兩個尺度的第一特徵圖。或者，在其他實施例中也可以採用其他類型的特徵提取網路，得到該多個尺度的第一特徵圖，本發明對此不作具體限定。或者，在另一些可能的實施方式中，也可以通過對第一圖像進行升採樣或者降採樣的方式得到多個尺度的第一特徵圖，例如通過不同的採樣率得到相應的多個尺寸的第一特徵圖。

S30：對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，所述第二特徵圖的尺度與所述第一特徵圖的尺度一一對應；

在一些可能的實施方式中，在得到多個尺度的第一特徵圖的情况下，可以對該多個尺度的第一特徵圖執行特徵融合處理，得到相應尺度的第二特徵圖。其中，通過特徵融合可以提高每個第二特徵圖內特徵信息的精確度，從而可以進一步提高人臉和人手的關聯檢測精度。

在一些可能的實施方式中，可以通過特徵金字塔網路執行該多個尺度的第一特徵圖的特徵融合處理，其中，可以對相鄰尺度的第一特徵圖的特徵信息進行特徵融合，通過依次從小尺度的第一特徵圖的特徵信息融合到大尺度的第一特徵圖的特徵信息，最終可以得到融合了所有尺度的第一特徵圖中的特徵信息的第二特徵圖。

S40：基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置。

在一些可能的實施方式中，在得到多個尺度的第二特徵圖之後，可以基於該多個尺度的第二特徵圖執行人臉和人手的關聯檢測。其中，可以對各個尺度的第二特徵圖中的至少一個第二特徵圖執行卷積處理，從而得到第一圖像中關聯的人臉位置和人手位置。例如，可以將尺度最大的第二特徵圖輸入至卷積層執行卷積處理，分別得到關於人臉位置和人手位置的掩碼圖，其中可以包括一個人臉位置的第一掩碼圖，以及左手位置的第二掩碼圖，和右手位置的第三掩碼圖，通過得到的各掩碼圖可以對應的在第一圖像中確定出關聯的人手和人臉位置。

基於上述配置，本發明實施例可以不需要獲取人耳或者手腕的關鍵點，以及也不需要分析是否滿足高斯分布，可以直接通過第一圖像的特徵的多尺度提取以及特徵融合得到關聯的人手和人臉，具有簡單方便且精度高的特點。

下面結合附圖，對本發明實施例的過程進行詳細說明。如上述實施例所述，本發明實施例得到的第一圖像可以爲人物對象的圖像，其中，在實際應用過程中，得到的圖像中可能包括多個人物對象，爲了提高同一人物對象的人臉和人手的關聯檢測精度，本發明可以從得到的圖像中得到每個人物對象的圖像區域，再分別對每個圖像區域執行特徵提取和特徵融合，最終得到每個人物對象的人臉和人手位置。圖2示出根據本發明實施例的一種人臉和人手關聯檢測方法中步驟S10的流程圖。所述獲取第一圖像，包括：

S101：獲取第二圖像，所述第二圖像爲包括至少一個人物對象的圖像；

在一些可能的實施方式中，第一圖像可以是基於第二圖像獲得的圖像，其中，第二圖像可以爲至少一個人物對象的圖像。獲取第二圖像的方式可以包括：直接通過圖像採集設備採集第一圖像，其中圖像採集設備可以爲手機、攝影鏡頭、照相機等具有圖像採集功能的設備。獲取第二圖像的方式也可以包括從其他設備接收傳輸的第二圖像，或者從儲存器中讀取第二圖像，或者第二圖像也可以爲從影片流中執行選幀操作後得到的圖像幀，本發明對此不作具體限定。

圖3示出根據本發明實施例的第二圖像的示意圖。其中，可以包括5個人物對象A、B、C、D和E。在其他實施例中，第二圖像也可以僅包括一個人物對象，或者也可以包括其他數量的人物對象，本發明對此不作具體限定。

S102：對所述第二圖像執行人體目標檢測，得到所述第二圖像中所述至少一個人物對象中任一人物對象的檢測框；

在一些可能的實施方式中，在通過第二圖像得到第一圖像時，可以檢測第一圖像中針對每個人物對象的人體區域的位置，得到與該人物對象對應的第一圖像，其中在第二圖像中包括多個人物對象時，在得到的第一圖像中可以包括一個人物對象的人體區域，同時也可以其他人物對象的至少一部分圖像，如包括其他對象的人臉或者人手的至少一部分。本發明實施例通過對第一圖像進行後續處理得到第一圖像中爲一個人物對象的人手和人臉。

如上所述，第二圖像中可以包括至少一個人物對象，本發明可以對該第二圖像執行目標檢測，實現第二圖像中人物對象的人體區域檢測，得到每個人物對象的檢測框。

在一些可能的實施方式中，可以通過能夠執行人體目標檢測神經網路檢測第二圖像中人物對象對應的檢測框，該神經網路可以爲卷積神經網路，其可以是經過訓練能夠精確的識別出圖像中的每個人物對象，以及相應人物對象的位置區域（即檢測框）的卷積神經網路，例如可以爲R-CNN網路，或者也可以爲其他能夠實現目標檢測的神經網路，本發明對此不作具體限定。

如圖3所示，通過目標檢測處理，得到了圖像中的人物對象的人體區域對應的檢測框，例如人物對象A的檢測框A1，以及人物對象D的檢測框D1，上述僅爲示例性說明，也可以檢測出其他人物對象的檢測框。

其中，在得到檢測框的過程中，可以識別圖像中每個人物對象的檢測框，也可以識別滿足品質要求的檢測框，例如圖3中對於人物對象B、C和D，得到的檢測框的品質值小於品質閾值，此時可以將人物對象B、C和D對應的檢測框確定爲不滿足品質要求的檢測框，做删除處理。其中檢測框的品質值可以是在執行目標檢測處理時，在得到檢測框同時得到的關於該檢測框的得分或者置信度，在該得分或者置信度大於品質閾值的情况下，則確定檢測框滿足品質要求。其中品質閾值可以爲設定的數值，如80%，或者也可以爲其他小於1的數值，本發明對此不作具體限定。

S103：將所述任一人物對象的所述檢測框在所述第二圖像中的圖像區域，確定爲所述任一人物對象對應的第一圖像。

在得到第二圖像中每個人物對象的檢測框的情况下，可以將第二圖像中與檢測框對應的圖像區域，確定爲該檢測框對應的人物對象的第一圖像。例如圖3示出的實施例，可以得到第二圖像中人物對象A的檢測框A1，以及人物對象D的檢測框D1。對應的可以將A1對應的圖像區域確定爲人物對象A的第一圖像，以及檢測框D1對應的圖像區域確定爲人物對象D的第一圖像。

基於上述配置，本發明實施例得到的第一圖像中删除了其他環境因素的影響，能夠進一步提高檢測精度。另外基於上述可以從第二圖像中得到針對一個人物對象的圖像區域（第一圖像），雖然得到的第一圖像爲針對一個人物對象的圖像，但是在實際應用過程中，由於第二圖像中包括的各人物可能相近，此時得到的第一圖像中也可能包括其他人物對象的至少一部分，例如，圖3中的檢測框D1除了包括人物對象D還可以包括人物C的人臉的一部分，本發明可以通過後續的處理過程得到第一圖像中爲同一人物對象的人臉和人手的位置。

圖4示出根據本發明實施例的一種人臉和人手關聯檢測方法的步驟S20的流程圖，其中所述對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖，包括：

S201：將所述第一圖像調整爲預設規格的第三圖像；

在一些可能的實施方式中，得到的第一圖像的尺度可能不同，本發明實施例可以將得到的第一圖像調整爲同一尺度，即調整爲預設尺度，從而可以對相同尺度的圖像執行後續的特徵提取處理。其中，本發明實施例的預設尺度可以根據網路的設計和配置確定，例如本發明實施例的預設尺度可以爲256*192（高度*寬度），但不作爲本發明的具體限定。

其中，調整圖像尺度的方式可以包括、上採樣、降採樣、圖像插值中的至少一種，本發明對此也不作具體限定，也可以通過其他方式得到預設尺度的第三圖像。

S202：將所述第三圖像輸入至殘差網路，得到所述多個尺度的第一特徵圖。

在得到預設尺度的第三圖像的情况下，可以對第三圖像執行特徵提取處理，例如可以將第三圖像輸入至殘差網路（如Resnet50）執行圖像的特徵提取處理，得到不同尺度的第一特徵圖。其中，可以通過殘差網路的不同卷積層輸出不同尺度的第一特徵圖。

或者，在其他實施方式中，也可以通過其他特徵提取網路得到該多尺度的第一特徵圖，如金字塔特徵提取網路，或者通過升採樣或者降採樣的方式得到多尺度的第一特徵圖，例如本發明實施例的採樣頻率可以爲1/8、1/16、1/32等，但本發明實施例對此不進行限定。

在一些可能的實施方式中，得到的各第一特徵圖之間的關係爲

且

，其中，

表示各第一特徵圖，

表示第一特徵圖

的長度，

表示第一特徵圖

的寬度，

爲大於或者等於1的整數，i爲變量，且i的範圍爲[2,n]，n爲第一特徵圖的數量。即本發明實施例中的各第一特徵圖的長度和寬度之間的關係均爲2的k1次方倍。

在一個示例中，本發明得到的第一特徵圖的數量可以爲4個，可以分別表示爲第一特徵圖

，其中，第一特徵圖

的長度和寬度可以分別對應的爲第一特徵圖

的長度和寬度的二倍，第二特徵圖

的長度和寬度可以分別對應的爲第三特徵圖

的長度和寬度的二倍，以及第三特徵圖

的長度和寬度可以分別對應的爲第四特徵圖

的長度和寬度的二倍。本發明實施例上述

之間、

和

之間，以及

和

之間的長度倍數以及寬度倍數均相同，即k₁ 取值爲1。在其他的實施例中，k₁ 可以爲不同的值，例如可以爲：第一特徵圖

的長度和寬度可以分別對應的爲第一特徵圖

的長度和寬度的二倍，第二特徵圖

的長度和寬度可以分別對應的爲第三特徵圖

的長度和寬度的四倍，以及第三特徵圖

的長度和寬度可以分別對應的爲第四特徵圖

的長度和寬度的八倍。本發明實施例對此不進行限定。

在得到第一圖像對應的多個尺度的第一特徵圖的情况下，可以進一步執行各第一特徵圖的特徵融合處理，提高得到的第二特徵圖的特徵信息的精確度。

在一些可能的實施方式中，對第一特徵圖執行特徵融合處理，可以利用金字塔特徵提取網路（FPN）執行。即可以將多個尺度的第一特徵圖輸入至特徵金字塔網路，通過所述特徵金字塔網路執行所述特徵融合處理，得到第一特徵圖對應的第二特徵圖。或者也可以通過其他方式執行特徵融合處理，例如可以通過卷積處理和上採樣處理得到多個尺度第二特徵圖。基於上述配置，可以提高得到的多個尺度的第二特徵圖的特徵精度。

圖5示出根據本發明實施例的一種人臉和人手關聯檢測方法中步驟S30的流程圖，其中所述對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，包括：

S301：利用第一卷積核對第一特徵圖

執行卷積處理，獲得與第一特徵圖

對應的第二特徵圖

，其中，第一特徵圖

的尺度與第二特徵圖

的尺度相同；

在一些可能的實施方式中，本發明實施例得到的第一特徵圖可以表示成

，即n個第一特徵圖，且

可以爲長度和寬度最小的特徵圖，即尺度最小的第一特徵圖。其中隨著n值越大對應的第一特徵圖的尺度就越小，例如上述第一特徵圖

，尺度依次降低。

在執行特徵融合處理時，可以首先得到尺度最小的第一特徵圖

對應的第二特徵圖

。例如，可以通過第一卷積核對第一特徵圖

執行卷積處理，得到第一特徵圖

對應的第二特徵圖

，其中，第一特徵圖

的尺度與第二特徵圖

的尺度相同。同樣的，第二特徵圖

也是第二特徵圖中尺度最小的特徵圖。通過第一卷積核執行的卷積處理可以得到相對於第一特徵圖

的特徵信息更精確的第二特徵圖

。其中，第一卷積核可以爲3*3的卷積核，或者也可以是其他類型的卷積核。

S302：對所述第二特徵圖

執行線性插值處理獲得與第二特徵圖

對應的第一中間特徵圖

，其中第一中間特徵圖

的尺度與第一特徵圖

的尺度相同；

在得到第二特徵圖

之後，可以利用該第二特徵圖

獲得與其對應的第一中間特徵圖

，本發明實施例可以通過對第二特徵圖

執行線性插值處理獲得與第二特徵圖

對應的第一中間特徵圖

，其中，第一中間特徵圖

的尺度與第一特徵圖C_n-1 的尺度相同，例如，在C_n-1 的尺度爲C_n 的尺度的二倍時，第一中間特徵圖

的長度爲第二特徵圖

的長度的二倍，以及第一中間特徵圖

的寬度爲第二特徵圖

的寬度的二倍。

S303：利用第二卷積核對第一特徵圖

以外的第一特徵圖

執行卷積處理，得到所述第一特徵圖

對應的第二中間特徵圖

，所述第二中間特徵圖

的尺度與第一中間特徵圖

的尺度相同，其中，i爲大於或者等與1且小於n的整數變量；

在一些可能的實施方式中，可以獲得第一特徵圖

以外的各第一特徵圖

對應的第二中間特徵圖

，其中，可以利用第二卷積核分別對第一特徵圖

進行卷積處理，分別得到與各第一特徵圖

一一對應的第二中間特徵圖

，其中第二卷積核可以爲1*1的卷積核，但本發明對此不作具體限定。通過第二卷積核的卷積處理得到的各第二中間特徵圖的尺度與對應的第一特徵圖的尺度分別相同。其中，本發明實施例可以按照第一特徵圖

的倒序，獲得各第一特徵圖

的第二中間特徵圖

。即，可以先獲得第一特徵圖

對應的第二中間特徵圖

,而後獲得第一特徵圖

的對應的第二中間圖

,以此類推，直至獲得第一特徵圖

對應的第二中間特徵圖

。

S304：利用所述第二中間特徵圖

和對應的第一中間特徵圖

得到所述第二特徵圖

以外的第二特徵圖

，其中，第一中間特徵圖

由對應的第二特徵圖

經線性插值得到。

在獲得各第二中間特徵圖的，或者獲得各第二中間特徵圖之後還可以對應的獲得第一中間特徵圖

以外的其他第一中間特徵圖

，本發明實施例中，與第一特徵圖

中的第一特徵圖

對應的第二特徵圖

，其中，第二中間特徵圖

的尺度（長度和寬度）分別與第一中間特徵圖

的尺度（長度和寬度）相等，並且第二中間特徵圖

的長度和寬度與第一特徵圖

的長度和寬度相同，因此得到的第二特徵圖

的長度和寬度分別爲第一特徵圖

的長度和寬度。其中，i爲大於或者等於1且小於n的整數。

具體的，本發明實施例依然可以採用倒序的處理方式獲得第二特徵圖F_n 以外的各第二特徵圖

。即，本發明實施例可以首先獲得第一中間特徵圖

，其中，可以利用第一特徵圖

對應的第二中間圖

與第一中間特徵圖

進行加和處理得到第二特徵圖F_n-1 ，其中，第二中間特徵圖

的長度和寬度分別與第一中間特徵圖

的長度和寬度相同，以及第二特徵圖F_n-1 的長度和寬度爲第二中間特徵圖

和

的長度和寬度。此時第二特徵圖F_n-1 的長度和寬度分別爲第二特徵圖F_n 的長度和寬度的二倍（C_n-1 的尺度爲C_n 的尺度的二倍）。進一步地，可以對第二特徵圖F_n-1 進行線性插值處理，得到第一中間特徵圖

，使得

的尺度與C_n-1 的尺度相同，繼而可以利用第一特徵圖

對應的第二中間圖

與第一中間特徵圖

進行加和處理得到第二特徵圖F_n-2 ，其中，第二中間特徵圖

的長度和寬度分別與第一中間特徵圖

的長度和寬度相同，以及第二特徵圖F_n-2 的長度和寬度爲第二中間特徵圖

和

的長度和寬度。例如第二特徵圖F_n-2 的長度和寬度分別爲第二特徵圖F_n-1 的長度和寬度的二倍。以此類推，可以最終獲得第一中間特徵圖

，以及根據該第一中間特徵圖

與第一特徵圖

的加和處理得到第二特徵圖F₁ ，F₁ 的長度和寬度分別爲與C₁ 的長度和寬度的相同。從而得到各第二特徵圖，並滿足

及

，並且

，

。

例如，以上述四個第一特徵圖

爲例進行說明。圖6示出根據本發明實施例的特徵提取和特徵融合過程的示意圖。其中，可以通過殘差網路a執行特徵提取處理，以及利用殘差網路中的四個卷積層分別輸出四個不同尺度的第一特徵圖

，而後利用特徵提取網路b執行特徵融合處理，獲得多尺度的第二特徵圖。其中，首先可以將

經過一個3*3的第一卷積核計算得到一個新的特徵圖F₄ （第二特徵圖），F₄ 的長度和寬度的大小與

相同。對F₄ 進行雙線性插值的上採樣(upsample)操作,得到一個長和寬都放大兩倍的特徵圖，即第一中間特徵圖

。C₃ 經過一個1*1的第二卷積核計算得到一個第二中間特徵圖

，

與

大小相同，兩個中間特徵圖相加，得到新的特徵圖F₃ （第二特徵圖），使得第二特徵圖F₃ 的長度和寬度分別爲第二特徵圖F₄ 二倍，同時與第一特徵圖C₃ 的尺度相同。對F₃ 進行雙線形插值的上採樣(upsample)操作,得到一個長和寬都放大兩倍的特徵圖，即第一中間特徵圖

。C₂ 經過一個1*1的第二卷積核計算得到一個第二中間特徵圖

，

與

大小相同，兩個中間特徵圖相加，得到新的特徵圖F₂ （第二特徵圖），使得第二特徵圖F₂ 的長度和寬度分別爲第二特徵圖F₃ 二倍。對F₂ 進行雙線性插值的上採樣(upsample)操作,得到一個長和寬都放大兩倍的特徵圖，即第一中間特徵圖

。C₁ 經過一個1*1的第二卷積核計算得到一個第二中間特徵圖

，

與

大小相同，兩個特徵圖相加，得到新的特徵圖F₁ （第二特徵圖），使得第二特徵圖F₁ 的長度和寬度分別爲第二特徵圖F₂ 二倍。經過FPN之後，同樣得到了四個不同尺度的第二特徵圖，分別記爲F₁ 、F₂ 、F₃ 和F₄ 。並且 F₁ 和F₂ 之間的長度和寬度的倍數與C₁ 和C₂ 之間的長度和寬度的倍數相同，以及F₂ 和F₃ 之間的長度和寬度的倍數與C₂ 和C₃ 之間的長度和寬度的倍數相同，F₃ 和F₄ 之間的長度和寬度的倍數與C₃ 和C₄ 之間的長度和寬度的倍數相同。

基於上述配置，可以融合不同尺度的特徵信息，進一步提高特徵精度。通過上述方式可以得到與多個尺度的第一特徵圖分別對應的第二特徵圖，第二特徵圖的特徵信息相對於第一特徵圖的特徵信息提高了精確度。

在得到第二特徵圖的情况下，可以根據第二特徵圖得到第一圖像中針對同一人物對象的人臉和人手的位置。圖7示出根據本發明實施例的一種人臉和人手關聯檢測方法中步驟S40的流程圖。如上述實施例所述，本發明實施例中基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置，包括：

S401：對所述多個尺度的第二特徵圖中尺度最大的第二特徵圖執行卷積處理，分別得到表示所述人臉位置的掩碼圖，以及表示所述人手位置的掩碼圖；

在一些可能的實施方式中，可以將得到的多個尺度的第二特徵圖中的至少一個第二特徵圖輸入至卷積層中，對該至少一個第二特徵圖執行進一步的特徵融合，並對應的生成第一圖像對應的同一人物對象的人臉位置的掩碼圖以及人手位置的掩碼圖。其中，由於尺度最高的第二特徵圖融合了各個尺度的特徵圖的特徵信息，本發明可以將第二特徵圖輸入至該卷積層中執行人手和人臉位置的關聯檢測。其中，得到的掩碼圖中的元素可以表示爲由1和0構成，其中1表示人手或者人臉的位置區域。例如，本發明實施例可以得到同一人物對象的人臉位置的第一掩碼圖，左手位置的第二掩碼圖以及右手位置的第三掩碼圖，通過各掩碼圖中元素1的位置，即可以得到相應的關聯的人臉和人手在第一圖像中的位置。

在一些可能的實施方式中，如果只能檢測到左手和右手中的一個手，則檢測不到的人手對應的掩碼圖可以爲全0掩碼圖。或者，如果檢測不到關聯的人臉和人手，則輸出的掩碼圖也可以爲全0掩碼圖。

在一些可能的實施方式中，得到的掩碼圖可以對應關聯有人物對象標識以及類型標識，其中人物對象標識用於區分不同的人物對象，不同的人物對象可以具有不同的人物對象標識，類型標識可以用於表示掩碼圖對應的人臉位置、左手位置或者右手位置。通過上述人物對象標識以及類型標識可以清楚的確定每個掩碼圖對應的人物對象以及確定掩碼圖對應的是人臉或者人手（左手或者右手）。

S402：基於所述人臉位置的掩碼圖以及所述人手位置的掩碼圖確定所述第一圖像中關聯的人手和人臉所在的位置區域。

在得到關聯的人手和人臉對應的掩碼圖的情况下，進一步得到第一圖像中的關聯的人手和人臉對應的位置區域。

本發明實施例得到的第一掩碼圖和第二掩碼圖的尺度可以和第一圖像相同，從而可以根據掩碼圖確定的人臉位置映射到第一圖像中相應的人臉圖像區域，以及根據掩碼圖確定的人手位置映射到第一圖像中的人手圖像區域，進而得到關聯的人手和人臉所在的位置區域。

在一些可能的實施方式中，在檢測到所述第一圖像中的關聯的人臉和人手的位置後，可以基於得到的掩碼圖在第一圖像中突出顯示匹配的人臉和人手，例如將掩碼圖在第一圖像中圖像區域以檢測框的方式表示，以提示關聯的人臉和人手。如圖3所示，在圖像中可以顯示人物對象D關聯的人臉檢測框D11和人手檢測框D12和D13。同時，本發明實施例還可以爲相關聯的人臉和人手分配相同的標籤，用以標識該人臉和人手爲同一個人物對象的人臉和人手。

基於上述配置可以方便的預測和表示關聯的人臉和人手的位置。

在一些可能的實施方式中，本發明實施例得到的關聯人臉和人手的位置還可以用於確定人物對象姿態變化。例如，第一圖像可以爲基於影片流中的圖像幀得到的，通過本發明實施例的方法可以檢測出圖像幀中針對同一任務對象的人臉位置的變化以及人手位置的變化，更進一步的，還可以通過對相應圖像幀中的人臉位置進行表情識別，或者基於人手位置執行手勢識別，從而可以得到表情的變化情况，或者手勢的變化情况。

如上述實施例所述，本發明實施例中的人臉和人手關聯檢測方法可以應用在神經網路中，如卷積神經網路中，例如可以由殘差網路和金字塔網路構建形成上述卷積神經網路。本發明還可以對神經網路進行訓練得到滿足精度要求的神經網路。圖8示出根據本發明實施例的訓練神經網路的流程圖。其中，所述訓練神經網路可以包括：

S501：獲取訓練圖像，所述訓練圖像爲包括人物對象的圖像，所述訓練圖像具有真實關聯的人臉位置和人手位置的標註信息；

在一些可能的實施方式中，訓練圖像可以爲一個人物對象的圖像，同時訓練圖像中也可以包括其餘人物對象的人臉或者人手中的一部分，從而可以提高訓練精度。其中訓練圖像的數量爲多個，本發明對訓練圖像的數量不作限制。

在一些可能的實施方式中，訓練圖像可以關聯有真實的標註信息，用以監督神經網路的訓練。其中，每個訓練圖像均具有真實關聯的人臉位置和人手位置的標註信息，用以表示訓練圖像中針對同一人物對象的人臉位置和人手位置（左手和右手），其中，標註信息可以表示爲標註框，或者也可以表示爲位置坐標的形式，或者也可以表示成真實的關聯的人手和人臉位置的掩碼圖，只要是能夠確定訓練圖像中的關聯的人臉位置和人手位置就可以作爲本發明實施例。S502：將所述訓練圖像輸入至所述神經網路，通過所述神經網路預測所述訓練圖像中針對同一人物對象的關聯的人臉位置和人手位置；

在一些可能的實施方式，可以將訓練圖像輸入至神經網路，進行特徵提取、特徵融合、以及關聯的人手和人臉位置的檢測。

例如，可以通過殘差網路等特徵提取網路執行訓練圖像的多尺度特徵提取，得到多個尺度的第一預測特徵圖，具體特徵提取的過程可以參照上述實施例的說明，在此不再重複說明。

在得到多個尺度的第一特徵圖之後，可以對該多個尺度的第一預測特徵圖執行特徵融合處理，例如利用金字塔網路FPN執行該多個第一預測特徵圖的特徵融合，得到多個尺度的第二預測特徵圖，其中，特徵融合的具體過程在此也不作重複說明，具體可以參照上述實施例的過程。

在得到多個第二預測特徵圖的情况下，可以基於每個第二預測特徵圖執行卷積處理，得到基於每個第二預測特徵圖預測的關聯的人臉和人手的位置的預測掩碼圖。

S503：基於針對所述訓練圖像預測出的關聯的所述人臉位置以及人手位置以及所述標註信息確定網路損失，並根據所述網路損失調整所述神經網路的網路參數，直至滿足訓練要求。

本發明實施例可以根據各個尺度的第二預測特徵圖預測得到的人臉預測掩碼圖和人手預測掩碼圖與真實的人臉和人手的對應的掩碼圖之間的差異，得到網路損失，其中可以通過對數損失函數確定網路損失。例如，本發明實施例可以直接利用對數損失函數處理，得到每個尺寸的第二預測特徵圖得到的預測掩碼圖和標註的真實掩碼圖之間的損失，並將該損失作爲網路損失，調整神經網路的參數。也就是說，可以將每個尺寸對應的損失都作爲網路損失，單獨的優化神經網路參數。

或者，在其他實施方式中，本發明實施例可以通過對數損失函數確定每個尺度的第二預測特徵圖得到的人臉預測掩碼圖、人手預測掩碼圖與真實標註信息對應的掩碼圖之間的子網路損失，並利用各尺度對應得到的子網路損失的加權和確定網路損失。也就是說，可以根據每個尺度對應的損失的加權和確定網路損失，用以一起優化神經網路參數。

另外，由於本發明實施例可以基於每個第二預測特徵圖的預測結果得到網路損失，因此得到的神經網路無論哪個尺度的第二預測特徵圖的預測結果的精度都會較高，進而可以提高整個神經網路的檢測精度。

在得到網路損失的情况下，基於網路損失和損失閾值的比較結果調整神經網路的網路參數，例如，在網路損失大於損失閾值的情况下，反饋調整神經網路的參數，如調整特徵提取網路、金字塔特徵網路以及得到掩碼圖的卷積層的參數，重新對訓練圖像進行處理，直至得到的網路參數小於損失閾值。以及在網路損失小於損失閾值的情况下，可以確定爲神經網路滿足訓練要求，此時可以終止訓練。基於上述配置，可以實現神經網路的優化訓練，保證網路檢測精度。

綜上所述，本發明實施例，可以從第一圖像中確定一個人體對象所在的區域對應的第一圖像，並對第一圖像進行特徵提取處理得到相應的特徵圖，而後對特徵圖進行多尺度的特徵融合處理，得到多個尺度的第二特徵圖，其中第二特徵圖相對於第一特徵圖具有更精確的特徵信息，通過對第二特徵圖進行處理可以得到第一圖像中關聯的人手和人臉的位置，提高人臉和人手檢測精度。另外，本發明實施例的技術方案不需要獲取人耳或者手腕的關鍵點，可以直接得到圖像中關聯的人手和人臉的位置，具有簡單方便且精度高的特點。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情况下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。

此外，本發明還提供了人臉和人手關聯檢測裝置、電子設備、電腦可讀儲存媒體、程式，上述均可用來實現本發明提供的任一種人臉和人手關聯檢測方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖9示出根據本發明實施例的一種人臉和人手關聯檢測裝置的方塊示意圖，如圖9所示，所述人臉和人手關聯檢測裝置包括：

獲取模組10，用於獲取第一圖像，所述第一圖像爲人物對象的圖像；

特徵提取模組20，用於對所述第一圖像執行特徵提取，得到多個尺寸的第一特徵圖；

融合模組30，用於對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，所述第二特徵圖的尺度與所述第一特徵圖的尺度一一對應；

檢測模組40，用於基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置。

在一些可能的實施方式中，所述獲取模組包括：

獲取單元，用於獲取所述第二圖像，所述第二圖像爲包括至少一個人物對象的圖像；

目標檢測單元，用於對所述第二圖像執行人體目標檢測，得到所述第一圖像中所述至少一個人物對象中任一人物對象的檢測框；

確定單元，用於將所述任一人物對象的所述檢測框在所述第二圖像中對應的圖像區域，確定爲所述任一人物對象的第一圖像。

在一些可能的實施方式中，所述特徵提取模組還用於獲取所述第二圖像，所述第二圖像爲包括至少一個人物對象的圖像；

對所述第二圖像執行人體目標檢測，得到所述第一圖像中所述至少一個人物對象中任一人物對象的檢測框；

將所述任一人物對象的所述檢測框在所述第二圖像中對應的圖像區域，確定爲所述任一人物對象的第一圖像。

，其中，n表示第一特徵圖的數量，n爲大於1的整數；

所述融合模組還用於利用第一卷積核對第一特徵圖

執行卷積處理，獲得與所述第一特徵圖

對應的第二特徵圖

，其中，所述第一特徵圖

的尺度與所述第二特徵圖

的尺度相同；

對所述第二特徵圖

執行線性插值處理獲得與所述第二特徵圖

對應的第一中間特徵圖

，其中，所述第一中間特徵圖

的尺度與第一特徵圖

的尺度相同；

利用第二卷積核對所述第一特徵圖

以外的第一特徵圖

執行卷積處理，得到所述第一特徵圖

對應的第二中間特徵圖

，所述第二中間特徵圖

的尺度與第一中間特徵圖

的尺度相同，其中，i爲大於或者等於1且小於n的整數變量；

利用所述第二中間特徵圖

和對應的所述第一中間特徵圖

得到所述第二特徵圖

以外的第二特徵圖

，其中，所述第一中間特徵圖

由對應的所述第二特徵圖

經線性插值得到。

與對應的所述第一中間特徵圖

進行加和處理，得到所述第二特徵圖

。

在一些可能的實施方式中，所述檢測模組還用於對所述多個尺度的第二特徵圖中尺度最大的第二特徵圖執行卷積處理，分別得到表示所述人臉位置的掩碼圖，以及表示所述人手位置的掩碼圖；

基於所述人臉位置的掩碼圖以及所述人手位置的掩碼圖確定所述第一圖像中關聯的人手和人臉所在的位置區域。

且

，其中，

表示各第一特徵圖，

表示所述第一特徵圖

的長度，

表示所述第一特徵圖

的寬度，

在一些可能的實施方式中，所述裝置還包括顯示模組和分配模組中的至少一種，其中

所述顯示模組，用於在所述第一圖像中突出顯示所述關聯的人手和人臉；

所述分配模組，用於爲所述第一圖像中檢測到的關聯的人臉位置和人手位置分配相同的標籤。

在一些可能的實施方式中，所述裝置包括神經網路，所述特徵提取模組、所述融合模組和所述檢測模組應用所述神經網路，

所述裝置還包括訓練模組，用於訓練所述神經網路，其中，訓練所述神經網路的步驟包括：

獲取訓練圖像，所述訓練圖像爲包括人物對象的圖像，所述訓練圖像具有真實關聯的人臉位置和人手位置的標註信息；

將所述訓練圖像輸入至所述神經網路，通過所述神經網路預測所述訓練圖像中針對同一人物對象的關聯的人臉位置和人手位置；

基於預測出的關聯的所述人臉位置以及人手位置以及所述標註信息確定網路損失，並根據所述網路損失調整所述神經網路的網路參數，直至滿足訓練要求。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，爲了簡潔，這裡不再贅述。

本發明實施例還提出一種電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是非易失性電腦可讀儲存媒體。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的儲存器；其中，所述處理器被配置爲上述方法。

電子設備可以被提供爲終端、伺服器或其它形態的設備。

圖10示出根據本發明實施例的一種電子設備的方塊示意圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，訊息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖10，電子設備800可以包括以下一個或多個組件：處理組件802，儲存器804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）的連接埠812，感測器組件814，以及通訊組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，數據通訊，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

儲存器804被配置爲儲存各種類型的資料以支持在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，訊息，圖片，影片等。儲存器804可以由任何類型的易失性或非易失性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子抹除式可複寫唯讀記憶體（EEPROM），可擦除可程式化唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁芯記憶體，快閃記憶體，磁碟或光碟。

電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與爲電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出連接埠的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控面板（TP）。如果螢幕包括觸控面板，螢幕可以被實現爲觸控螢幕，以接收來自用戶的輸入信號。觸控面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸控面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影鏡頭和/或後置攝影鏡頭。當電子設備800處於操作模式，如拍攝模式或影片模式時，前置攝影鏡頭和/或後置攝影鏡頭可以接收外部的多媒體資料。每個前置攝影鏡頭和後置攝影鏡頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置爲輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置爲接收外部音頻信號。所接收的音頻信號可以被進一步儲存在儲存器804或經由通訊組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/ O連接埠812爲處理組件802和外圍連接埠模組之間提供連接埠，上述外圍連接埠模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於爲電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件爲電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/减速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通訊組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通訊。電子設備800可以接入基於通訊標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通訊組件816經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中，所述通訊組件816還包括近場通訊（NFC）模組，以促進短程通訊。例如，在NFC模組可基於射頻識別（RFID）技術，紅外通訊（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個現場可程式化邏輯閘陣列（ASIC）、數位信號處理器（DSP）、數位信號處理設備（DSPD）、可程式化邏輯裝置（PLD）、現場可程式化邏輯閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存媒體，例如包括電腦程式指令的儲存器804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖11示出根據本發明實施例的另一種電子設備的方塊示意圖。例如，電子設備1900可以被提供爲一伺服器。參照圖11，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由儲存器1932所代表的儲存器資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。儲存器1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置爲執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理，一個有線或無線網路連接埠1950被配置爲將電子設備1900連接到網路，和一個輸入輸出（I/O）連接埠1958。電子設備1900可以操作基於儲存在儲存器1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存媒體，例如包括電腦程式指令的儲存器1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒體，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子（非窮舉的列表）包括：便攜式電腦硬碟、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可擦除可程式化唯讀記憶體（EPROM或快閃記憶體）、靜態隨機存取記憶體（SRAM）、唯讀記憶光碟（CD-ROM）、數位多功能影音光碟（DVD）、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒體不被解釋爲瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脉衝）、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備，或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火墻、交換機、閘道器電腦和/或邊緣伺服器。每個計算/處理設備中的網路適配卡或者網路連接埠從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式語言的任意組合編寫的源代碼或目標代碼，所述程式語言包括面向對象的程式語言—諸如Smalltalk、C++等，以及常規的過程式程式語言—諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的軟體包執行、部分在用戶電腦上部分在遠程電腦上執行、或者完全在遠程電腦或伺服器上執行。在涉及遠程電腦的情形中，遠程電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路服務提供商來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態信息來個性化定制電子電路，例如可程式化邏輯電路、現場可程式化邏輯閘陣列（FPGA）或可程式化邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裡參照根據本發明實施例的方法、裝置（系統）和電腦程式產品的流程圖和/或方塊示意圖描述了本發明的各個方面。應當理解，流程圖和/或方塊示意圖的每個方框以及流程圖和/或方塊示意圖中各方框的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化資料處理裝置的處理器，從而生產出一種機器，使得這些指令在通過電腦或其它可程式化資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊示意圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中，這些指令使得電腦、可程式化資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀媒體則包括一個製造品，其包括實現流程圖和/或方塊示意圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式化資料處理裝置、或其它設備上，使得在電腦、其它可程式化資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式化資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊示意圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和方塊示意圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊示意圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中，方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊示意圖和/或流程圖中的每個方框、以及方塊示意圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

S10~S40:步驟 S101~S103:步驟 S201~S202:步驟 S301~S304:步驟 S401~S402:步驟 S501~S503:步驟 A~E:人物對象 A1:檢測框 D1:檢測框 D11:人臉檢測框 D12:人手檢測框 D13:人手檢測框 C₁ ~C₄ :第一特徵圖 F₁ ~F₄ :第二特徵圖 10:獲取模組 20:特徵提取模組 30:融合模組 40:檢測模組 800:電子設備 802:處理組件 804:儲存器 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出連接埠 814:感測器組件 816:通訊組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:儲存器 1950:網路連接埠 1958:輸入/輸出連接埠

此處的附圖被並入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。圖1示出根據本發明實施例的一種人臉和人手關聯檢測方法的流程圖；圖2示出根據本發明實施例的一種人臉和人手關聯檢測方法中步驟S10的流程圖；圖3示出根據本發明實施例的第二圖像的示意圖；圖4示出根據本發明實施例的一種人臉和人手關聯檢測方法的步驟S20的流程圖；圖5示出根據本發明實施例的一種人臉和人手關聯檢測方法中步驟S30的流程圖；圖6示出根據本發明實施例的特徵提取和特徵融合過程的示意圖；圖7示出根據本發明實施例的一種人臉和人手關聯檢測方法中步驟S40的流程圖；圖8示出根據本發明實施例的訓練神經網路的流程圖；圖9示出根據本發明實施例的一種人臉和人手關聯檢測裝置的方塊示意圖；圖10示出根據本發明實施例的一種電子設備的方塊示意圖；圖11示出根據本發明實施例的另一種電子設備的方塊示意圖。

S10~S40:步驟

Claims

一種人臉和人手關聯檢測方法，包括以下步驟：獲取第一圖像，所述第一圖像為人物對象的圖像；對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖；對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，所述第二特徵圖的尺度與所述第一特徵圖的尺度一一對應；基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置；所述基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置，包括：對所述多個尺度的第二特徵圖中的至少一個第二特徵圖執行卷積處理，得到所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置。
如請求項1所述的方法，其中，所述獲取第一圖像，包括以下步驟：獲取第二圖像，所述第二圖像為包括至少一個人物對象的圖像；對所述第二圖像執行人體目標檢測，得到所述第一圖像中所述至少一個人物對象中任一人物對象的檢測框；將所述任一人物對象的所述檢測框在所述第二圖像中對應的圖像區域，確定為所述任一人物對象的第一圖像。
如請求項1或2所述的方法，其中，所述對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖，包括以下步驟：將所述第一圖像調整為預設尺度的第三圖像；將所述第三圖像輸入至殘差網路，得到所述多個尺度的第一特徵圖。
如請求項1或2所述的方法，其中，所述對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，包括以下步驟：將所述多個尺度的第一特徵圖輸入至特徵金字塔網路，通過所述特徵金字塔網路執行所述特徵融合處理，得到所述多個尺度的第二特徵圖。
如請求項1或2所述的方法，其中，按照尺度從大到小的順序，所述多個第一特徵圖表示為{C₁,...,C_n}，其中，n表示第一特徵圖的數量，n為大於1的整數；所述對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，包括以下步驟：利用第一卷積核對第一特徵圖C_n執行卷積處理，獲得與所述第一特徵圖C_n對應的第二特徵圖F_n，其中，所述第一特徵圖C_n的尺度與所述第二特徵圖F_n的尺度相同；對所述第二特徵圖F_n執行線性插值處理獲得與所述第二特徵圖F_n對應的第一中間特徵圖
，其中，所述第一中間特徵圖
的尺度與第一特徵圖C_n-1的尺度相同；利用第二卷積核對所述第一特徵圖C_n以外的第一特徵圖C_i執行卷積處理，得到所述第一特徵圖C_i對應的第二中間特徵圖
，所述第二中間特徵圖
的尺度與第一中間特徵圖
的尺度相同，其中，i為大於或者等於1且小於n的整數變量；利用所述第二中間特徵圖
和對應的所述第一中間特徵圖
得到所述第二特徵圖F_n以外的第二特徵圖F_i，其中，所述第一中間特徵圖
由對應的所述第二特徵圖F_i+1經線性插值得到。
如請求項5所述的方法，其中，所述利用所述第二中間特徵圖
和對應的所述第一中間特徵圖
得到所述第二特徵圖F_n以外的第二特徵圖F_i，包括以下步驟：將所述第二中間特徵圖
與對應的所述第一中間特徵圖
進行加和處理，得到所述第二特徵圖F_i。
如請求項1或2所述的方法，其中，所述基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置，包括以下步驟：對所述多個尺度的第二特徵圖中尺度最大的第二特徵圖執行卷積處理，分別得到表示所述人臉位置的掩碼圖，以及表示所述人手位置的掩碼圖；基於所述人臉位置的掩碼圖以及所述人手位置的掩碼圖確定所述第一圖像中關聯的人手和人臉所在的位置區域。
如請求項1或2所述的方法，其中，所述方法還包括以下方式中的至少一種：在所述第一圖像中突出顯示所述關聯的人手和人臉；為所述第一圖像中檢測到的關聯的人臉位置和人手位置分配相同的標籤。
如請求項1或2所述的方法，其中，所述方法通過神經網路實現，其中，訓練所述神經網路的步驟包括：獲取訓練圖像，所述訓練圖像為包括人物對象的圖像，所述訓練圖像具有真實關聯的人臉位置和人手位置的標註信息；將所述訓練圖像輸入至所述神經網路，通過所述神經網路預測所述訓練圖像中針對同一人物對象的關聯的人臉位置和人手位置；基於預測出的關聯的所述人臉位置以及人手位置以及所述標註信息確定網路損失，並根據所述網路損失調整所述神經網路的網路參數，直至滿足訓練要求。
一種人臉和人手關聯檢測裝置，包括：獲取模組，用於獲取第一圖像，所述第一圖像為人物對象的圖像；特徵提取模組，用於對所述第一圖像執行特徵提取，得到多個尺度的第一特徵圖；融合模組，用於對所述多個尺度的第一特徵圖執行特徵融合處理，得到多個尺度的第二特徵圖，所述第二特徵圖的尺度與所述第一特徵圖的尺度一一對應；檢測模組，用於基於得到的所述多個尺度的第二特徵圖檢測所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置；所述檢測模組，還用於對所述多個尺度的第二特徵圖中的至少一個第二特徵圖執行卷積處理，得到所述第一圖像中針對同一人物對象的關聯的人臉位置和人手位置。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的儲存器；其中，所述處理器被配置為調用所述儲存器儲存的指令，以執行請求項1至9中任意一項所述的方法。
一種電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至9中任意一項所述的方法。