TWI753588B

TWI753588B - 人臉屬性識別方法、電子設備和電腦可讀儲存介質

Info

Publication number: TWI753588B
Application number: TW109133422A
Authority: TW
Inventors: 陳鄭豪; 徐靜; 朱烽; 趙瑞
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2019-09-30
Filing date: 2020-09-25
Publication date: 2022-01-21
Also published as: TW202115622A; WO2021063056A1; CN111339813A; CN111339813B; JP2022547595A; KR20220044828A

Abstract

本發明提供了一種人臉屬性識別的方法、電子設備和電腦可讀儲存介質，所述方法包括：獲取n 個特徵圖像，其中，n 個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n 為正整數；獲取n 個特徵圖像中的每一個特徵圖像對應的屬性特徵，其中，屬性特徵為特徵圖像中用於表徵目標人臉屬性的特徵；根據屬性特徵，確定人臉圖像中目標人臉屬性的屬性識別結果。

Description

人臉屬性識別方法、電子設備和電腦可讀儲存介質

本發明關於電腦視覺領域，尤其關於人臉屬性識別方法、電子設備和電腦可讀儲存介質。

近年來，突發事件的防控與處置難度不斷加大，機場、海關或者邊防等重要關卡或者街道、商場等公共場所均安裝有監控攝影頭，通過人臉識別技術將攝影頭採集的人臉圖像進行屬性分析，可有效地協助安防工作人員應對突發事件。例如，通過人臉的表情屬性識別判斷一個人是否具有攻擊性，或者通過將採集的目標對象的人臉圖像與人臉圖像庫進行對比分析，從而獲得目標對象的身份資訊，方便安防工作人員能夠通過這些分析結果及時進行安防布控和危機處理。

本發明實施例提供一種人臉屬性識別方法、電子設備和電腦可讀儲存介質，能夠對人臉圖像的各個屬性進行高效準確的識別。

本發明實施例提供一種人臉屬性識別方法，包括：獲取n 個特徵圖像，其中，所述n 個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n 為正整數；獲取所述n 個特徵圖像中的每一個特徵圖像對應的屬性特徵，其中，所述屬性特徵為所述特徵圖像中用於表徵目標人臉屬性的特徵；根據所述屬性特徵，確定所述人臉圖像的目標人臉屬性的屬性識別結果。

上述人臉屬性識別方法，通過獲取特徵圖像以及特徵圖像對應的屬性特徵，確定人臉圖像中的目標人臉屬性的屬性識別結果。由於在不同的特徵圖像中獲取的屬性特徵均可以在不同程度上反映人臉屬性，所以利用不同特徵圖像對應的屬性特徵來預測人臉屬性，可以提高人臉屬性識別的準確性以及識別效率。

在本發明的一些實施例中，所述獲取所述n 個特徵圖像中的每一個特徵圖像對應的屬性特徵，包括：將所述n 個特徵圖像中的每一個特徵圖像分別輸入對應的注意力模型，獲得所述每一個特徵圖像對應的注意力矩陣；根據所述注意力矩陣提取所述n 個特徵圖像中的每一個特徵圖像對應的屬性特徵。

上述方法中，通過將特徵圖像輸入到多個注意力模型中，可以獲得該特徵圖像對應的多個注意力矩陣，其中一個注意力矩陣可以用於提取該特徵圖像中的一個人臉屬性特徵，並且一個人臉屬性特徵可用於表徵一個人臉屬性。因此，通過注意力模型以及得到的注意力矩陣可以提高單個人臉屬性的識別效果，從而提高人臉圖像中的所有人臉屬性的識別準確率。

在本發明的一些實施例中，根據所述注意力矩陣提取所述n 個特徵圖像中的每一個特徵圖像對應的屬性特徵包括：將所述n 個特徵圖像中的每一個特徵圖像與對應的注意力矩陣進行乘法運算，獲得所述n 個特徵圖像中的每一個特徵圖像對應的屬性特徵。

上述方法中，利用注意力機制將特徵圖像與對應的注意力矩陣進行乘法運算，可以得到特徵圖像對應的屬性特徵，這些屬性特徵可以將識別區域從整張圖像定位到感興趣的區域，從而濾除影響該屬性識別結果的其他雜訊等因素，提高屬性識別的精度以及識別效率。

在本發明的一些實施例中，所述根據所述屬性特徵，確定所述人臉圖像的目標人臉屬性的屬性識別結果包括：分別根據每一個所述屬性特徵，預測得到對應的識別結果；對所述識別結果進行加權平均計算，確定所述人臉圖像中目標人臉屬性的屬性識別結果。

上述方法中，對同一個屬性識別是通過將不同特徵圖像中對應的該屬性的屬性特徵進行加權平均計算，因此提高了屬性識別結果的精確度。

在本發明的一些實施例中，所述分別根據每一個所述屬性特徵，預測得到對應的識別結果包括：對所述屬性特徵中的每一個所述屬性特徵進行屬性預測處理，預測得到所述屬性特徵對應的所述識別結果。

上述方法中，對每一個屬性特徵分別進行屬性的預測處理，可以得到每一個屬性特徵中對應的屬性的識別結果，根據這些結果可以進一步得到不同屬性特徵對同一個屬性的識別結果的影響因數，也就是說，可以進一步判斷人臉圖像中需要深層次屬性特徵進行屬性識別的屬性以及淺層次特徵即可識別的屬性。

在本發明的一些實施例中，所述預設的屬性預測處理包括全域平均池化處理。

上述方法中，通過將每一個提取到的人臉屬性特徵進行全域平均池化，可以直接得到對應的識別結果，改善識別過程中的過擬合現象，同時還能提高識別效率，節省模型的運算時間和預算量。

在本發明的一些實施例中，在所述獲取n 個特徵圖像之前，所述方法還包括：獲取所述人臉圖像；通過特徵圖像提取模型對所述人臉圖像進行特徵提取，以獲得所述n 個特徵圖像。

上述方法中，通過對獲取得到的人臉圖像進行特徵圖像的提取，可以初步過濾人臉圖像中的噪音，方便後續得到屬性特徵，提高人臉圖像的屬性識別準確性。

在本發明的一些實施例中，所述特徵圖像提取模型是通過人臉圖像樣本以及特徵圖像樣本訓練得到的，所述方法還包括：使用所述特徵圖像樣本以及對應的注意力矩陣樣本對神經網路進行訓練，獲得所述注意力模型。

上述方法中，通過利用大量的已知特徵圖像樣本以及已知注意力矩陣樣本，訓練得到注意力模型，可以提高注意力矩陣的精確度，同時還通過採集大量的人臉圖像樣本以及特徵圖像樣本，訓練得到特徵圖像提取模型，提高特徵提取的多尺度性，從而使得人臉屬性的識別準確率大大提高。

在本發明的一些實施例中，所述n 個特徵圖像還包括所述人臉圖像。

上述方法中，注意力模型實際就是一種特徵圖像提取的過程，因此可以直接將人臉圖像輸入注意力模型中進行計算，省去了特徵圖像提取模型對人臉圖像的特徵提取，提高了人臉屬性識別的效率。

本發明實施例提供一種人臉屬性識別的裝置，包括：特徵圖像提取單元，配置為獲取n 個特徵圖像，其中，所述n 個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n 為正整數；屬性特徵提取單元，配置為獲取所述n 個特徵圖像中每一個特徵圖像對應的屬性特徵，其中，所述屬性特徵為所述特徵圖像中用於表徵目標人臉屬性的特徵；人臉屬性識別單元，配置為根據所述屬性特徵，確定所述人臉圖像的目標人臉屬性的屬性識別結果。

本發明實施例提供一種儲存介質，所述儲存介質中儲存有電腦程式，所述電腦程式被硬體執行以實現上述方法。

本發明實施例提供一種電腦程式產品，當所述電腦程式產品被電腦讀取並執行時，上述方法將被執行。

本發明實施例提供一種電腦集群，包括：至少一個計算節點，每個計算節點包括處理器和記憶體，所述處理器通過執行所述記憶體中的代碼執行上述方法。

本發明實施例提供一種電腦非瞬態儲存介質，包括指令，當所述指令在電腦節點集群中的至少一個計算節點上運行時，使得所述計算節點集群執行上述方法。

本發明實施例提供一種電子設備，包括處理器和記憶體，所述處理器執行所述記憶體中的代碼實現上述方法。

以本發明的實施例部分使用的術語僅用於對本發明的具體實施例進行解釋，而非旨在限定本發明。

本發明實施例涉及的應用場景包括但不限於安防監控場景、手機娛樂場景，進一步還應用於表情識別、年齡識別等場景中。為了便於理解本發明實施例，這裡先說明本發明實施例主要涉及的應用場景：安防監控的場景。

安防監控通常指的是應用光纖、同軸電纜或微波在其閉合的環路內傳輸視訊訊號，並從攝影到圖像顯示和記錄構成的獨立完整的系統。它能即時、形象、真實地反映被監控對象，不但可以延長觀察距離，還可以在惡劣環境下代替人工進行長時間監視，讓人們可以通過監控看到人眼無法看到的細微特徵，配合人臉識別設備還可以對監控區域的相關人員進行識別、警報和記錄，是維護社會安全的重要手段之一。

在安防監控的場景中，通常通過人臉識別技術將攝影頭採集的目標人臉圖像進行多個屬性識別，綜合多個屬性識別的結果，確定目標人臉是否具有攻擊性、目標人臉對應的身份資訊等等。比如，先識別目標人臉圖像是否配戴帽子、是否背包、是否配戴面罩等等多個屬性，根據多個屬性識別的結果，結合一定的分析策略，確定目標人臉是否具有攻擊性；或者，先識別目標人臉圖像的眼睛、鼻子、嘴巴、痣、疤痕等等多個屬性，根據多個屬性識別的結果，結合一定的分析策略，識別目標人臉對應的身份資訊。應理解，上述舉例僅用於說明，本發明不作具體限定。

相關技術中，多工卷積神經網路（Multi-Task Convolution Neural Net，MTCNN）常用於解決人臉屬性的識別問題，這種方法基於多分支網路共用特徵，可簡單有效地對人臉的各個獨立屬性進行識別。但是在實際應用過程中，並非所有屬性的識別均需要相同的特徵，例如，一些類似配戴耳環、眼鏡等屬性的識別需要較淺層特徵，而一些類似表情、性別等屬性的識別則需要深層次特徵，因此利用MTCNN進行人臉屬性識別時，可能會出現由於特徵不明顯而造成識別結果不精確的問題。

圖1為相關技術中一種基於MTCNN對人臉屬性進行識別的過程示意圖。由圖1可知，MTCNN包括輸入層110、共用特徵學習層120、全連接層130。其中，輸入層110配置為對輸入的人臉圖像進行圖像預處理，共用特徵學習層120配置為提取人臉圖像的屬性特徵，全連接層130配置為將共用對共用特徵學習層120輸出的人臉屬性特徵進行分類。需要說明的，共用語義特徵學習層120中包括一個或多個卷積層以及全連接層，配置為對人臉屬性特徵進行過濾以及優化。

具體實現中，對於一張輸入圖像（比如人臉圖像），MTCNN首先通過輸入層110對輸入圖像進行簡單圖像處理，例如，圖像二值化；然後通過共用特徵學習層120對輸入圖像進行特徵提取，其中，共用特徵學習層120中包括不同的卷積層和一個或者多個全連接層，在多層卷積層後增加一個全連接層，濾除不相關的屬性特徵，然後將濾除後的屬性特徵再經過多層卷積層的特徵提取，從而得到共用特徵，例如，將上述濾除後的屬性特徵再次經過10層卷積層的卷積操作，將第10層卷積層提取的特徵作為共用特徵；最後將該共用特徵輸入全連接層130，從而利用這個共用特徵進行不同的屬性識別任務。

可以理解，上述人臉屬性識別過程中，MTCNN需要根據最後一層卷積層提取的共用特徵，來解決不同屬性的識別問題。這樣訓練出的神經網路，由於每種屬性識別都是根據同一個共用特徵來進行的，因此，其對圖片每個區域的特徵其實是等價處理的，而並不會對某個“區域”過多關注，這樣就會使得一些細微特徵，無法被神經網路精確識別，換句話說，並非所有的人臉屬性進行識別時所需要的特徵，都是經過多層卷積提取後得到的最後一層特徵。舉例來講，將目標對象的人臉圖像進行3次卷積操作可以得到3層特徵，在判斷目標對象是否配戴眼鏡的情況下，卷積神經網路可能只需要淺層次特徵（如2層特徵），即可得到該屬性的特徵，從而識別出目標對象是否配戴眼鏡；在判斷目標對象的種族的情況下，卷積神經網路可能需要深層次特徵（如4層特徵），才能識別出目標對象的種族。此時，利用3層特徵判斷目標對象是否配戴眼鏡時，可能由於特徵的過度提取造成表徵該屬性的特徵資訊丟失，從而影響屬性識別結果的精確度，而且降低屬性識別的效率；而利用3層特徵判斷目標對象的種族時，可能由於3層特徵無法完全表徵種族這個屬性，從而降低該屬性識別結果的精確度。

因此，鑒於上述安防監控領域人臉屬性識別的過程中，基於共用特徵進行屬性識別時，容易造成特徵丟失或者特徵不明顯等問題，本發明實施例提供了一種人臉屬性識別的方法，該方法通過將不同卷積層提取的特徵輸入不同的人臉屬性識別模型中，從而提高人臉屬性識別的精確度以及識別效率。

圖2是本發明實施例提供的一種人臉屬性識別神經網路的結構示意圖，如圖2所示，本發明實施例提供的人臉屬性識別神經網路包括：輸入層210、卷積層220、注意力學習層230、全域平均池化層（Global Average Pooling，GAP）240以及識別層250。下面對本發明實施例提供的人臉屬性識別神經網路中的各個層進行詳細說明如下。

輸入層210：

將目標對象的人臉圖像

輸入至輸入層，輸出和輸入相等，即，不對輸入的人臉圖像進行任何處理。為了陳述簡便，此處假設經輸入層輸出的圖像與輸入圖像相等，但是，在實際應用中，可以在輸入層中設置歸一化處理模組或者其他圖像預處理模組，此處不作具體限定。

卷積層220。

將輸入層輸出的圖像作為卷積層的輸入，經過一個或者多個卷積層的卷積計算生成n 個特徵圖像，所述n 個特徵圖像分別是不同層次的特徵圖像，可以表徵人臉在不同層次的屬性特徵。為了方便陳述，本發明實施例提出“區塊”的概念，將卷積神經網路的卷積層分成多個區塊，每一個區塊可以包括一個或多個卷積核，每一個區塊輸出一個特徵圖像，換句話說，區塊B ₁ ,B ₂ ,…,B_n 分別可輸出特徵圖像I ₁ ,I ₂ ,…,I_n ，其中，n 是正整數。

特徵圖像I ₁ ,I ₂ ,…,I_n 可以是這樣得到的：以區塊B_i 輸出的特徵圖像I_i 為例，將區塊

輸出的特徵圖像I_i- ₁ 作為區塊B_i 的輸入，經過u 個卷積核

（l =1,2,…,u ）的卷積操作生成u 個特徵圖像

（l =1,2,…,u ），其中，

，i 、l 、u 均是正整數。將特徵圖像b_u 作為區塊B_i 輸出的特徵圖像I_i ，其中，特徵圖像b_u 是卷積得到的最後一個特徵圖像，也就是說，特徵圖像I_i 是將特徵圖像I_i- ₁ 經過u 次卷積操作提取到的特徵圖像。

需要說明的是，特徵圖像I ₁ 是將原始人臉圖像輸入至區塊B ₁ 中得到的。另外，上述卷積層的各個參數中，卷積核

（包括元素、尺寸、步長等等）、偏置值

可以是人為根據需要提取的特徵或者輸入圖像的大小等等進行設置。以卷積核

為例，當需要提取的特徵是人臉屬性的特徵時，卷積核

的元素可以採用局部二值模式（Local Binary Patterns，LBP）運算元的元素，又例如，當輸入的特徵圖像I_i 比較大時，卷積核

的大小也可以比較大，反之，當輸入的特徵圖像I_i 比較小時，卷積核

的大小也可以比較小，又例如，當輸入的特徵圖像I_i 比較大時，卷積核

的步長也可以比較大，反之，當輸入的特徵圖像I_i 比較小時，卷積核

的步長也可以比較小。

注意力學習層230。

將區塊B ₁ ,B ₂ ,…,B_n 輸出的n 個特徵圖像I ₁ ,I ₂ ,…,I_n 中的每一個特徵圖像作為注意力學習層的輸入，經過注意力學習層的學習後得到n ×m 個人臉屬性特徵，其中，每一個特徵圖像對應有m 個人臉屬性特徵，m 是正整數，m 表示需要提取的人臉屬性的個數。

以特徵圖像I_i 提取的m 個人臉屬性特徵為例：將特徵圖像I_i 輸入注意力學習層中，經過m 個注意力模型的注意力學習生成m 個注意力矩陣V_ij （j =1,2,…,m ），其中，一個注意力矩陣對應一個人臉屬性，即一個注意力矩陣用於提取對應人臉屬性的屬性特徵，並且，j 是正整數。將特徵圖像I_i 與注意力矩陣V_ij 進行點乘運算，提取到特徵圖像I_i 對應的第j 個屬性的人臉屬性特徵A_ij 。每個注意力特徵的獲取過程如下公式（1-1）：

（1-1）；其中，Attention是一個注意力模型，

可以為特徵圖像I_i 與注意力矩陣V_ij 之間的映射關係，其中

可以通過大量的已知特徵圖像I 以及已知屬性的注意力矩陣進行訓練得到。為了陳述簡便，上面只陳述了特徵圖像I_i 的第j 個屬性的人臉屬性特徵A_ij 的提取，實際應用中，特徵圖像I_i 中的人臉屬性特徵A_i ₁ ,A_i ₂ ,…,A_im 的提取方式與特徵圖像I_i 的第j 個屬性的人臉屬性特徵A_ij 的提取方式類似，此處不再展開贅述。另外，特徵圖像I ₁ ,I ₂ ,…,I_n 中的第j 個屬性的人臉屬性特徵A _1j ,A _2j ,…,A_nj 的提取方式均與特徵圖像I_i 中第j 個屬性的人臉屬性特徵A_ij 的提取方式類似，此處不再展開贅述。

全域平均池化層240：

將注意力學習層輸出的n ×m 個人臉屬性特徵A ₁₁ ，A ₁₂ ，…，A _1m ，A ₂₁ ，A ₂₂ ，…，A _2m ，..，A_n ₁ ，A_n ₂ ，…，A_nm 作為全域平均池化層的輸入，經過池化視窗進行池化之後，得到n ×m 個識別結果P_ij ，其中，每個識別結果P_ij 的獲取過程如下公式（1-2）：

（1-2）；這裡，P_ij 表示特徵圖像I_i 的第j 個屬性的預測結果，GAP表示全域平均池化。

識別層250。

將全域平均池化層輸出的n ×m 個識別結果P_ij 按照屬性分類為第一個屬性的識別結果P ₁₁ ，P ₂₁ ，…，P_n ₁ ，第二個屬性的識別結果P ₁₂ ，P ₂₂ ，…，P_n ₂ ，...，第m個屬性的識別結果P _1m ，P _2m ，…，P_nm ，對每一個屬性的識別結果進行加權平均計算，從而得到人臉圖像中該屬性的識別結果。

以第j 個人臉屬性的識別結果為例：將特徵圖像I ₁ ,I ₂ ,…,I_n 的第j 個屬性的識別結果P _1j ，P _2j ，…，P_nj 進行加權平均計算，獲得人臉圖像的第j 個人臉屬性的識別結果P _j ，其中，第j 個屬性的識別結果P _j 的獲取過程如下公式（1-3）：

（1-3）；這裡，w_ij 是權重數值，w_ij 可以通過大量的已知屬性的預測結果以及對應的屬性識別結果進行訓練得到。為了陳述簡便，上面只陳述了人臉圖像的第j 個屬性的識別結果P _j 的獲取過程，實際應用中，人臉圖像的其他屬性的識別結果與人臉圖像的第j 個屬性的識別結果P _j 的獲取過程類似，此處不再進行贅述。

舉例說明，將目標對象的人臉圖像輸入至上述人臉屬性識別神經網路中，經過輸入層210、卷積層220、注意力學習層230、全域平均池化層240以及識別層250的計算，可以得到目標對象的性別屬性結果，例如，目標對象的性別是男性的概率為0.8，性別是女性的概率為0.2，則識別層250輸出目標對象是男性的結果。

可以理解的，上述人臉屬性識別神經網路僅僅作為一種舉例，在實際應用中，還可以是上述神經網路的其他形變形式，例如，可以包括更多的卷積層、更多的池化層，也可以用全連接層代替全域平均池化層，另外，也可以對人臉圖像在輸入層進行二值化、標準化等更多的預處理，本發明實施例不作具體限定。

需要說明的，上述人臉屬性識別網路是一種卷積神經網路，其中，卷積神經網路可以包括殘差神經網路（Residual Network，ResNet）、VGG網路（VGG Network，VGGNet）等等，此處不作具體限定。人臉圖像的各個屬性的識別可以在同一個卷積神經網路中進行，也可以在不同卷積神經網路中進行，此處不作具體限定。另外，人臉圖像的各個特徵圖像可以用同一個卷積核進行提取，也可以用不同的卷積核進行提取，此處不作具體限定。

基於圖2所示的人臉屬性識別神經網路，本發明實施例提供的一種人臉屬性識別方法，如圖3所示，圖3是本發明實施例提供的一種人臉屬性識別方法的流程示意圖。本發明實施例的人臉屬性識別方法，包括如下步驟。

S101、獲取n 個特徵圖像，其中，所述n 個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n 為正整數。

在本發明實施例中，在獲取n 個特徵圖像之前，首先獲取人臉圖像，然後通過特徵圖像提取模型對人臉圖像進行特徵圖像的提取，以獲得上述n 個特徵圖像。應理解，在對採集得到的人臉圖像進行特徵圖像提取之前，還可以對人臉圖像進行圖像預處理，例如，圖像的二值化處理或者圖像的標準化處理等等，然後再對預處理後的人臉圖像進行特徵提取，使得獲得的特徵圖像可以包含更多可以用於識別人臉屬性的屬性特徵。

在本發明實施例中，特徵圖像提取模型是通過人臉圖像樣本以及特徵圖像樣本訓練得到的。在實現中，特徵圖像提取模型可以由卷積神經網路訓練得到，也可以由尺度不變特徵變化（Scale-Invariant Feature Transform，SIFT）演算法訓練得到，此處不作具體限定。在使用卷積神經網路訓練得到特徵圖像提取模型的情況下，特徵圖像提取模型中可以包括一個卷積層，也可以包括多個卷積層，此處不作具體限定。

在本發明的一些實施例中，特徵圖像可以是人臉圖像，也可以是通過將人臉圖像輸入一個或者多個卷積層後得到的圖像，此處不作具體限定。另外，上述n 個特徵圖像的提取可以分別使用同一個卷積核，也可以分別使用不同的卷積核，此處不作具體限定。

S102、將n 個特徵圖像中的每一個特徵圖像分別輸入對應的注意力模型，獲得每一個特徵圖像對應的注意力矩陣。

在本發明實施例中，使用上述特徵圖像樣本以及對應的注意力矩陣樣本對神經網路進行訓練，獲得注意力模型。例如，將目標人臉圖像經過3個卷積層後得到的特徵圖像作為特徵圖像樣本，將提取人臉圖像中目標對象眼睛大小的權值矩陣作為注意力矩陣樣本，利用上述特徵圖像樣本和注意力矩陣樣本可訓練得到用於提取人臉圖像中目標對象眼睛大小的注意力模型。換句話說，注意力模型反映了注意力矩陣與特徵圖像之間的映射關係，注意力模型可以表示為如下公式（1-4）：

（1-4）；其中，x 是特徵圖像，y 是注意力矩陣，

是注意力矩陣與輸入的特徵圖像之間的映射關係。

可以是通過大量的樣本集訓練得到，其中，每一個樣本集包括特徵圖像樣本以及對應的注意力矩陣樣本，一個樣本集用於訓練一個注意力模型。

在本發明實施例中，注意力模型可以是通過卷積神經網路訓練得到的，其中，卷積神經網路可以是簡單結構的網路，比如只有二個卷積層的小網路，從而可以高效準確地提取出人臉圖像中目標對象眼睛大小的屬性特徵，卷積神經網路也可以是具有10個卷積層的複雜網路，配置為提取人臉圖像中目標對象的年齡等細微屬性的屬性特徵，此處不作具體限定，並且，所述注意力模型訓練的具體過程這裡不再進行贅述。另外，卷積神經網路可以是殘差神經網路（Residual Network，ResNet），還可以是VGG網路（VGG Network，VGGNet）等等，此處不作具體限定。

在本發明實施例中，在識別人臉圖像中的m 個屬性的情況下，需要訓練得到m 個注意力模型，其中，一個注意力模型用於提取一個屬性的屬性特徵。可以將n 個特徵圖像中的每一個特徵圖像輸入m 個注意力模型，獲得每一個特徵圖像對應的m 個注意力矩陣，以及n 個特徵圖像對應的n ×m 個注意力矩陣。其中，一個注意力矩陣用於提取對應的特徵圖像的一個人臉屬性特徵，m 為正整數。

在本發明實施例中，上述屬性可以包括很多種，以人臉為例，人臉的屬性包括局部屬性和全域屬性，其中，局部屬性包括髮型、眉毛疏密、眼睛大小、眼珠顏色、鼻樑高低、是否配戴眼鏡、是否配戴飾品等；全域屬性包括性別、年齡、民族、表情等。

S103、根據注意力矩陣，提取n 個特徵圖像中的每一個特徵圖像對應的屬性特徵，其中，屬性特徵為特徵圖像中用於表徵目標人臉屬性的特徵。

在本發明實施例中，將n 個特徵圖像中的每一個特徵圖像與對應的注意力矩陣進行乘法運算，獲得n 個特徵圖像中的每一個特徵圖像對應的屬性特徵。其中，屬性特徵為特徵圖像中用於表徵目標人臉屬性的特徵，例如，當識別的人臉屬性為是否配戴眼鏡時，屬性特徵是與眼睛區域有關的特徵。

可以理解的，在人臉圖像中有m 個屬性需要識別的情況下，根據n 個特徵圖像對應的n ×m 個注意力矩陣，將特徵圖像與對應的注意力矩陣進行乘法運算，可以獲取得到的n 個特徵圖像的屬性特徵有n ×m 個，包括：第1個特徵圖像的m 個屬性特徵A ₁₁ ，A ₁₂ ，…，A _1m ，第2個特徵圖像的m 個屬性特徵A ₂₁ ，A ₂₂ ，…，A _2m ，..，第n 個特徵圖像的m 個屬性特徵A_n ₁ ，A_n ₂ ，…，A_nm ，其中，A_nm 為第n 個特徵圖像中用於表徵第m 個人臉屬性的特徵。

S104、根據屬性特徵，確定人臉圖像中目標人臉屬性的屬性識別結果。

在本發明的一些實施例中，根據屬性特徵，確定所述人臉圖像中目標人臉屬性的屬性識別結果包括：分別根據每一個屬性特徵，預測得到對應的識別結果；對識別結果進行加權平均計算，確定人臉圖像中目標人臉屬性的屬性識別結果。

在本發明的一些實施例中，分別根據每一個屬性特徵，預測得到對應的識別結果包括：對屬性特徵中的每一個屬性特徵進行屬性預測處理，預測得到屬性特徵對應的識別結果。

在本發明的一些實施例中，屬性預測處理包括全域平均池化處理。可以對屬性特徵A ₁₁ 進行全域平均池化，獲得第1個特徵圖像的第1個屬性的屬性識別結果P ₁₁ ，對屬性特徵A ₂₁ 進行全域平均池化，獲得第2個特徵圖像的第1個屬性的屬性識別結果P ₂₁ ，…，對屬性特徵A_nm 進行全域平均池化，獲得第n 個特徵圖像的第m 個屬性的屬性識別結果P_nm ；對屬性識別結果P ₁₁ ，P ₂₁ ，…，P_n ₁ 進行加權平均計算，獲得人臉圖像的第1個屬性的屬性識別結果，對屬性識別結果P ₁₂ ，P ₂₂ ，…，P_n ₂ 進行加權平均計算，獲得人臉圖像的第2個屬性的屬性識別結果，…，對屬性識別結果P _1m ，P _2m ，…，P_nm 進行加權平均計算，獲得人臉圖像的第m 個屬性的屬性識別結果。

上述人臉屬性識別的方法能夠根據獲取得到的人臉圖像，經過特徵圖像提取模型得到多個不同層次的特徵圖像，然後將這些不同層次的特徵圖像輸入注意力模型，以獲取對應的注意力矩陣，通過將特徵圖像以及注意力矩陣相乘，得到多個屬性特徵，從而更高效、準確的識別人臉圖像中各個屬性。

下面以識別屬性為是否配戴眼鏡、性別以及表情為例，對圖3所示的人臉屬性識別方法進行舉例說明，如圖4所示，圖4是本發明實施例提供的一種對目標對象是否配戴眼鏡、性別以及表情進行識別的流程示意圖。本發明實施例的步驟可以如下。

1、獲取目標對象的人臉圖像。

2、經過一次卷積計算，得到第一特徵圖像。

3、提取第一特徵圖像中目標對象是否配戴眼鏡的特徵、目標對象的性別特徵以及目標對象的表情特徵。首先將第一特徵圖像分別輸入第一注意力模型、第二注意力模型以及第三注意力模型中，得到第一注意力矩陣、第二注意力矩陣以及第三注意力矩陣。其中，第一注意力矩陣用於提取目標對象是否配戴眼鏡的特徵，第二注意力模型用於提取目標對象的性別特徵，第三注意力模型用於提取目標對象的表情特徵；然後將第一特徵圖像分別與第一注意力矩陣、第二注意力矩陣和第三注意力矩陣相乘，從而提取到第一特徵圖像中目標對象是否配戴眼鏡的特徵、目標對象的性別特徵以及目標對象的表情特徵。

4、將第一特徵圖像再進行三次卷積計算，得到第二特徵圖像。

5、提取第二特徵圖像中目標對象是否配戴眼鏡的特徵、目標對象的性別特徵以及目標對象的表情特徵，實現步驟可以參見步驟3。

6、將第二特徵圖像進行五次卷積計算，得到第三特徵圖像。

7、提取第三特徵圖像中目標對象是否配戴眼鏡的特徵、目標對象的性別特徵以及目標對象的表情特徵，實現步驟可以參見步驟3。

8、將步驟3、步驟5和步驟7中提取的9個特徵進行全域平均池化操作，分別得到對應的識別結果。

9、將第一特徵圖像、第二特徵圖像以及第三特徵圖像中目標對象是否配戴眼鏡的識別結果進行加權平均計算，得到目標對象配戴眼鏡或者未配戴眼鏡。

舉例說明，假設第一特徵圖像中目標對象配戴眼鏡的概率為0.4，未配戴眼鏡的概率為0.6；第二特徵圖像中目標對象配戴眼鏡的識別結果為0.25，未配戴眼鏡的概率為0.75；第三特徵圖像中目標對象配戴眼鏡的識別結果為0.2，未配戴眼鏡的概率為0.8；且第一特徵圖像在識別目標對象是否配戴眼鏡中的權重為0.2，第二特徵圖像在識別目標對象是否配戴眼鏡中的權重為0.4，第二特徵圖像在識別目標對象是否配戴眼鏡中的權重為0.4，經過計算，可得知目標對象配戴眼鏡的概率為0.4x0.2+0.25x0.4+0.2x0.4=0.26，目標未配戴眼鏡的概率為

。因此，人臉屬性識別裝置輸出目標對象未配戴眼鏡。

10、將第一特徵圖像、第二特徵圖像以及第三特徵圖像中目標對象的性別的識別結果進行加權平均計算，得到目標對象為男性或者女性。實現步驟可以參見步驟9。

11、將第一特徵圖像、第二特徵圖像以及第三特徵圖像中目標對象的表情的識別結果進行加權平均計算，得到目標對象是開心或是悲傷或是惱怒等等。實現步驟可以參見步驟9。

結合上文圖1-圖4所示的相關實施例，下面闡述本發明實施例涉及的相關裝置。

參見圖5，圖5是本發明實施例提供的一種人臉屬性識別裝置的結構示意圖。本發明實施例的人臉屬性識別裝置包括特徵圖像提取單元510，屬性特徵提取單元520、人臉屬性識別單元530。

特徵圖像提取單元510，配置為獲取n 個特徵圖像，其中，所述n 個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n 為正整數。

屬性特徵提取單元520，配置為獲取n 個特徵圖像中每一個特徵圖像對應的屬性特徵，其中，屬性特徵為特徵圖像中用於表徵目標人臉屬性的特徵。

人臉屬性識別單元530，配置為根據屬性特徵，確定人臉圖像中目標人臉屬性的屬性識別結果。

在本發明實施例中，屬性特徵提取單元520還配置為：將n 個特徵圖像中的每一個特徵圖像分別輸入對應的注意力模型，獲得每一個特徵圖像對應的注意力矩陣；根據注意力矩陣提取所述n 個特徵圖像中的每一個特徵圖像對應的屬性特徵。

在本發明實施例中，屬性特徵提取單元520還配置為：將n 個特徵圖像中的每一個特徵圖像與對應的注意力矩陣進行乘法運算，獲得n 個特徵圖像中的每一個特徵圖像對應的屬性特徵。

在本發明實施例中，人臉屬性識別單元530還配置為：分別根據每一個屬性特徵，預測得到對應的識別結果；對識別結果進行加權平均計算，確定人臉圖像中目標人臉屬性的屬性識別結果。

在本發明實施例中，人臉屬性識別單元530還配置為：對屬性特徵中的每一個屬性特徵進行屬性預測處理，預測得到屬性特徵對應的所述識別結果。

在本發明的一些實施例中，屬性預測處理包括全域平均池化處理。

在本發明實施例中，在所述獲取n 個特徵圖像之前，人臉屬性識別裝置500還配置為：獲取人臉圖像；通過特徵圖像提取模型對所述人臉圖像進行特徵提取，以獲得n 個特徵圖像。

在本發明的一些實施例中，特徵圖像可以是人臉圖像，也可以是通過將人臉圖像輸入一個或者多個卷積層後得到的，此處不作具體限定。另外，n 個特徵圖像的提取可以分別使用同一個卷積核，也可以使用不同的卷積核，此處不作具體限定。

在本發明的一些實施例中，人臉屬性識別裝置500還包括：特徵圖像提取模型訓練單元540以及注意力模型訓練單元550。

特徵圖像提取模型訓練單元540，配置為訓練特徵圖像提取模型，特徵圖像提取模型是通過人臉圖像樣本以及特徵圖像樣本訓練得到的。在實現中，特徵圖像提取模型可以由卷積神經網路訓練得到，也可以由尺度不變特徵變化（Scale-Invariant Feature Transform，SIFT）演算法訓練得到，此處不作具體限定。在使用卷積神經網路訓練得到特徵圖像提取模型的情況下，特徵圖像提取模型中可以包括一個卷積層，也可以包括多個卷積層，此處不作具體限定。

注意力模型訓練單元550，配置為使用上述特徵圖像樣本以及對應的注意力矩陣樣本對神經網路進行訓練，獲得注意力模型。例如，將目標人臉圖像經過3個卷積層後得到的特徵圖像作為特徵圖像樣本，將提取人臉圖像中目標對象眼睛大小的權值矩陣作為注意力矩陣樣本，利用上述特徵圖像樣本和注意力矩陣樣本可訓練得到用於提取人臉圖像中目標對象眼睛大小的注意力模型。換句話說，注意力模型反映了注意力矩陣與特徵圖像之間的映射關係，注意力模型可以表示為如下公式（1-5）：

（1-5）；其中，x 是特徵圖像，y 是注意力矩陣，

是注意力矩陣與輸入的特徵圖像之間的映射關係。

可以理解，目標對象的性別或是表情等屬性的識別屬於全域屬性識別，因此在判斷目標對象全域屬性（如，性別或是表情）時可以先判斷多個局部屬性（如，髮型、是否配戴耳環或者眼睛大小等）。也就是說，上述人臉屬性識別裝置可以先對目標對象的局部屬性特徵進行識別，根據局部屬性的識別結果綜合評價人臉的全域屬性。

需要說明的，上述人臉識別裝置還可以用於安防領域，幫助安防工作人員快速準確地篩選具有攻擊性的人物，例如，在機場登機口，使用上述人臉識別裝置可以識別出乘機人員的人臉屬性特徵，判斷乘機人員是否具有攻擊性。在乘機人員具有攻擊性的情況下，將乘機人員的人臉圖像與已有的人臉圖像庫進行對比，從而確定乘機人員的身份資訊。

上述人臉屬性識別裝置通過特徵圖像提取單元對獲取得到的人臉圖像進行特徵提取得到多個不同層次的特徵圖像，然後在注意力特徵學習單元中，將這些不同層次的特徵圖像輸入注意力模型，獲取對應的注意力矩陣，通過將特徵圖像以及注意力矩陣相乘，得到多個屬性特徵，最後在人臉屬性識別單元中，將多個屬性特徵進行加權平均計算，從而更高效、準確的識別人臉圖像中各個屬性。

本發明實施例的人臉識別裝置可以在單個計算節點中實現，也可以在雲計算基礎設施上實現，此處不作具體限定。下面將分別介紹如何在單個計算節點和雲計算基礎設施上人臉識別裝置。

如圖6所示，計算節點600可以包括處理器610、記憶體620以及通信網路630。其中，處理器配置為運行特徵圖像提取單元611、屬性特徵提取單元612、人臉屬性識別單元613、特徵圖像提取模型訓練單元614以及注意力模型訓練單元615等等。記憶體620配置為儲存人臉圖像、特徵圖像、屬性特徵、注意力矩陣等等。計算節點600還提供了兩種對外的介面，分別是面向裝置的維護人員的管理介面640以及面向使用者的使用者介面650。其中，介面的形態可以是多樣的，例如web介面、命令列工具、REST介面等。

在本發明的一些實施例中，管理介面640配置為供維護人員可以通過輸入大量的人臉圖像樣本以及對應的特徵圖像樣本，以用於訓練特徵圖像提取模型；還可以通過輸入大量特徵圖像樣本以及對應的注意力矩陣樣本，以用於對注意力模型進行訓練；使用者介面650配置為供使用者輸入需要被屬性識別的目標對象的人臉圖像，以及通過使用者介面650向使用者輸出人臉屬性的識別結果。

應當理解，計算節點600僅為本發明實施例提供的一個例子，並且，計算節點600可具有比示出的部件更多或更少的部件，可以組合兩個或更多個部件，或者可具有部件的不同配置實現。

如圖7所示，雲計算基礎設施可以是雲服務集群700。所述雲服務集群700是由節點，以及節點之間的通信網路構成。上述節點可以是計算節點，也可以是運行在計算節點上的虛擬機器。節點按功能可分為兩類：計算節點710、儲存節點720以及通信介面730。計算節點710配置為運行特徵圖像提取單元711、屬性特徵提取單元712、人臉屬性識別單元713、特徵圖像提取模型訓練單元714以及注意力模型訓練單元715。儲存節點720配置為儲存人臉圖像、特徵圖像以及屬性特徵等等。雲服務集群700還提供了兩種對外的介面，分別是面向問答引擎的維護人員的管理介面740以及面向使用者的使用者介面750。其中，介面的形態可以是多樣的，例如web介面、命令列工具、表現層狀態轉換（Representational State Transfer，REST）介面等。

在本發明的一些實施例中，管理介面740配置為供維護人員可以通過輸入大量的人臉圖像樣本以及對應的特徵圖像樣本，以用於訓練特徵圖像提取模型；還可以通過輸入大量特徵圖像樣本以及對應的注意力矩陣樣本，以用於對注意力模型進行訓練；使用者介面750配置為供使用者輸入需要被屬性識別的目標對象的人臉圖像，以及通過使用者介面750向使用者輸出人臉屬性的識別結果。

應當理解，雲服務集群700僅為本發明實施例提供的一個例子，並且，雲服務集群700可具有比示出的部件更多或更少的部件，可以組合兩個或更多個部件，或者可具有部件的不同配置實現。

參見圖8，本發明實施例提供了另一實施方式的人臉屬性識別裝置800的結構示意圖，本實施方式的人臉屬性識別裝置可以在如圖6所示的電腦節點中實現，至少包括：處理器810、通信介面820以及記憶體830，其中，處理器810、通信介面820和記憶體830通過匯流排840進行耦合。

處理器810包括一個或者多個通用處理器，其中，通用處理器可以是能夠處理電子指令的任何類型的設備，包括中央處理器（Central Processing Unit，CPU）、微處理器、微控制器、主處理器、控制器以及專用積體電路（Application Specific Integrated Circuit，ASIC）等等。處理器810讀取記憶體830中儲存的程式碼，與通信介面820配合執行本發明上述實施例中由人臉屬性識別裝置500執行的方法的部分或者全部步驟。

通信介面820可以為有線介面（例如乙太網介面），配置為與其他計算節點或裝置進行通信。

記憶體830可以包括易失性記憶體，例如隨機存取記憶體（Random Access Memory，RAM）；記憶體也可以包括非易失性記憶體（Non-Volatile Memory），例如唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash Memory）、硬碟（Hard Disk Drive，HDD）或固態硬碟（Solid-State Drive，SSD）記憶體還可以包括上述種類的記憶體的組合。記憶體813可以儲存有程式碼以及程式資料。其中，程式碼包括特徵圖像提取單元的代碼、屬性特徵提取單元的代碼、人臉屬性識別單元的代碼、特徵圖像提取模型訓練單元的代碼以及注意力模型訓練單元的代碼。程式資料包括：大量人臉圖像、特徵圖像以及對應的注意力矩陣，以用於對特徵圖像提取模型以及注意模型進行訓練；程式資料還包括大量用於計算屬性識別結果的權重值等等。

其中，所述處理器810通過調用記憶體830中的程式碼，用於執行以下步驟：處理器810配置為獲取n 個特徵圖像，其中，n 個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n 為正整數；處理器810配置為獲取n 個特徵圖像中的每一個特徵圖像對應的屬性特徵，其中，屬性特徵為特徵圖像中用於表徵目標人臉屬性的特徵；處理器810配置為根據屬性特徵，確定人臉圖像的目標人臉屬性的屬性識別結果。

處理器810還配置為使用人臉圖像樣本以及特徵圖像樣本訓練得到特徵圖像提取模型；以及使用上述特徵圖像樣本以及對應的注意力矩陣樣本對神經網路進行訓練，獲得所述注意力模型。

參見圖9，圖9是本發明實施例提供的又一實施方式的人臉屬性識別裝置的結構示意圖。本實施方式的人臉屬性識別裝置可以在如圖7所示的雲服務集群中實現，包括至少一個計算節點910以及至少一個儲存節點920。

計算節點910包括一個或多個處理器911、通信介面912和記憶體913，處理器911、通信介面912和記憶體913之間可以通過匯流排914連接。

處理器911包括一個或者多個通用處理器，其中，通用處理器可以是能夠處理電子指令的任何類型的設備，包括CPU、微處理器、微控制器、主處理器、控制器以及ASIC等等。它能夠是僅用於計算節點910的專用處理器或者能夠與其它計算節點910共用。處理器911讀取記憶體913中儲存的程式碼，與通信介面912配合執行本發明上述實施例中由人臉屬性識別裝置500執行的方法的部分或者全部步驟。

通信介面912可以為有線介面（例如乙太網介面），配置為與其他計算節點或用戶進行通信。當通信介面912為有線介面時，通信介面912可以採用傳輸控制協定/網際協定（Transmission Control Protocol/Internet Protocol，TCP/IP）之上的協定族，例如，機器人即服務（Robot as a Service，RAAS）協議、遠端函式呼叫（Remote Function Call，RFC）協定、簡單對象訪問協定（Simple Object Access Protocol，SOAP）協定、簡單網路管理協定（Simple Network Management Protocol，SNMP）協定、公共對象請求代理體系結構（Common Object Request Broker Architecture，CORBA）協定以及分散式協定等等。

記憶體913可以包括易失性記憶體，例如RAM；記憶體也可以包括非易失性記憶體，例如ROM、快閃記憶體、HDD或固態硬碟SSD記憶體還可以包括上述種類的記憶體的組合。

儲存節點920包括一個或多個處理器911、通信介面912和記憶體913。其中，儲存控制器921、通信介面912和記憶體913之間可以通過匯流排924連接。

處理器911包括一個或者多個通用處理器，其中，通用處理器可以是能夠處理電子指令的任何類型的設備，包括CPU、微處理器、微控制器、主處理器、控制器以及ASIC等等。它能夠是僅用於儲存節點920的專用處理器或者能夠與其它儲存節點920共用。處理器911執行各種類型的數位儲存指令，例如儲存在記憶體913中的軟體或者固件程式，它能使儲存節點920提供較寬的多種服務。例如，處理器911能夠執行程式或者處理資料，以執行本文討論的方法的至少一部分。

通信介面912可以為有線介面（例如乙太網介面），配置為與其他計算設備或使用者進行通信。

儲存節點920包括一個或多個儲存控制器921、儲存陣列922。其中，儲存控制器921和儲存陣列922之間可以通過匯流排923連接。

儲存控制器921包括一個或者多個通用處理器，其中，通用處理器可以是能夠處理電子指令的任何類型的設備，包括CPU、微處理器、微控制器、主處理器、控制器以及ASIC等等。它能夠是僅用於單個儲存節點920的專用處理器或者能夠與計算節點900或者其它儲存節點920共用。可以理解，在本實施例中，每個儲存節點包括一個儲存控制器，在其他的實施例中，也可以多個儲存節點共用一個儲存控制器，此處不作具體限定。

儲存陣列922可以包括多個記憶體。記憶體可以是非易失性記憶體，例如ROM、快閃記憶體、HDD或SSD記憶體還可以包括上述種類的記憶體的組合。例如，儲存陣列可以是由多個HDD或者多個SDD組成，或者，儲存陣列可以是由HDD以及SDD組成。其中，多個記憶體在儲存控制器921的協助下按不同的方式組合起來形成記憶體組，從而提供比單個記憶體更高的儲存性能和提供資料備份技術。可選地，儲存陣列922可以包括一個或者多個資料中心。多個資料中心可以設置在同一個地點，或者，分別在不同的地點，此處不作具體限定。儲存陣列922可以儲存有程式碼以及程式資料。其中，程式碼包括特徵圖像提取單元的代碼、注意力特徵學習單元的代碼、人臉屬性識別單元的代碼以及注意力模型訓練單元的代碼。程式資料包括：大量人臉圖像、特徵圖像以及對應的注意力矩陣，以用於對特徵圖像提取模型以及注意模型進行訓練；程式資料還包括大量用於計算屬性識別結果的權重值等等。

其中，計算節點910通過調用儲存節點920中的程式碼，配置為執行以下步驟：計算節點910配置為獲取n 個特徵圖像，其中，n 個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n 為正整數；計算節點910配置為獲取n 個特徵圖像中的每一個特徵圖像對應的屬性特徵，其中，屬性特徵為特徵圖像中用於表徵目標人臉屬性的特徵；計算節點910配置為根據屬性特徵，確定人臉圖像的目標人臉屬性的屬性識別結果。

計算節點910還配置為使用人臉圖像樣本以及特徵圖像樣本訓練得到特徵圖像提取模型；以及使用上述特徵圖像樣本以及對應的注意力矩陣樣本對神經網路進行訓練，獲得所述注意力模型。

多工人臉屬性學習是目前在視頻監控安防領域一個十分熱門且棘手的問題，在安防領域中起到至關重要的作用。比如可以通過表情屬性識別判斷一個人是否有攻擊性，通過配戴危險物識別判斷行人是否安全等。相關技術中可以利用一個多分支神經網路共用特徵，並對各個單獨的屬性（如配戴耳環，眼睛，表情）等進行分類。該網路非常簡單但是卻有明顯的缺點。以多工卷積神經網路為例，在該網路中，多工往往共用前網路所有的特徵，然後在卷積網路的最後一層進行GAP提取共用語義特徵F，並使用這個F進行不同的分類任務。這樣造成的問題是，並非所有屬性所需要的特徵都是最後一層的特徵，例如，一些類似配戴耳環、眼鏡等細細微性特徵可能需要比較淺層且帶有注意力機制的二維特徵，一些類似性別、表情等屬性則更需要深層的語義特徵。

本發明實施例在該網路的基礎上進行提升，提供一種可以更高效更準確識別人臉屬性的方法。該方法採用深度卷積神經網路（CNN）對人臉圖像特徵進行抽取，在不同層得到注意力特徵，然後利用這些注意力特徵進行分類，最後將所有分類結果進行加權平均，得到最後的分類結果。在實施時，可以把標準的神經網路分成多個不同尺度的區塊（block），事實上很多神經網路已經分好區塊，比如VGG網路和殘差網路；在不同尺度的區塊B_i 上學習出N個注意力模型，其中N表示N個任務；使用N個注意力機制進行屬性分類，在同一個屬性上，將各個區塊上的預測結果P_ij 進行加權平均得到最後的結果P_j _，其中，i為區塊的序號，j為屬性的序號。

圖10為本發明實施例提供的一種人臉屬性識別方法的實現流程示意圖，如圖10所示，將神經網路分成多個不同尺度的區塊101i，區塊101i為一個（N，W_i ，H_i ，C_i ）類型的張量，其中，i=1,2……，n，n為區塊的數量，W_i 為區塊101i對應的圖像寬度，H_i 為區塊101i對應的圖像長度，C為區塊101i對應的圖像通道數。針對待識別的人臉圖像，通過每一區塊101i進行特徵提取，可以生成相應的注意力圖102i，注意力圖102i為一個（N，W_i ，H_i ，1）類型的張量。將每一區塊101i與相應的注意力圖102i相乘得到一個注意力特徵，再對該注意力特徵通過GAP層1030進行屬性分類，得到預測結果104i，預測結果104i為一個（N，2）類型的張量。將所有預測結果104i進行加權平均，得到總的預測結果1040。最後，使用該總的預測結果進行人臉屬性分類。

本發明實施例提供的人臉屬性識別方法，使用多尺度注意力機制深挖不同層的特徵，可以使用各個屬性在網路不同深度的特徵進行屬性分類，從而可以解決相關技術中分類時特徵不夠強的問題，對比相關技術中只用最後一層語義資訊做分類的方案，可以更高效更準確識別人臉屬性。

在上述實施例中，可以全部或部分地通過軟體、硬體、固件或者其任意組合來實現。當使用軟體實現時，可以全部或部分地以電腦程式產品的形式實現。所述電腦程式產品包括一個或多個電腦指令。在電腦上載入和執行所述電腦程式指令時，全部或部分地產生按照本發明實施例所述的流程或功能。所述電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式設計裝置。所述電腦指令可以儲存在電腦可讀儲存介質中，或者從一個電腦可讀儲存介質向另一個電腦可讀儲存介質傳輸，例如，所述電腦指令可以從一個網站網站、電腦、伺服器或資料中心通過有線（例如同軸電纜、光纖、數位用戶線路）或無線（例如紅外、無線、微波等）方式向另一個網站網站、電腦、伺服器或資料中心進行傳輸。所述電腦可讀儲存介質可以是電腦能夠存取的任何可用介質或者是包含一個或多個可用介質集成的伺服器、資料中心等資料存放裝置。所述可用介質可以是磁性介質，（例如，軟碟、儲存盤、磁帶）、光介質（例如，數位多功能盤（Digital Video Disc，DVD））、或者半導體介質（例如，SSD）等。在所述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述。

在本發明所提供的幾個實施例中，應該理解到，所揭露的裝置，也可以通過其它的方式實現。例如以上所描述的裝置實施例僅是示意性的，例如所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可結合或者可以集成到另一個系統，或一些特徵可以忽略或不執行。另一點，所顯示或討論的相互之間的間接耦合或者直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者，也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本發明實施例的方案的目的。

另外，在本發明各實施例中的各功能單元可集成在一個處理單元中，也可以是各單元單獨物理存在，也可以是兩個或兩個以上單元集成在一個單元中。所述集成的單元既可以採用硬體的形式實現，也可以採用軟體功能單元的形式實現。

所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解，本發明技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存介質中，包括若干指令用以使得一台電腦設備（可為個人電腦、伺服器或者網路設備等）執行本發明各個實施例所述方法的全部或部分步驟。而前述的儲存介質例如可包括：U盤、移動硬碟、唯讀記憶體、隨機存取記憶體、磁碟或光碟等各種可儲存程式碼的介質。

以上所述，僅為本發明的具體實施方式，但本發明的保護範圍並不局限於此，任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內，可輕易想到各種等效的修改或替換，這些修改或替換都應涵蓋在本發明的保護範圍之內。因此，本發明的保護範圍應以申請專利範圍的保護範圍為準。

工業實用性本發明涉及一種人臉屬性識別方法、電子設備和電腦可讀儲存介質，所述方法包括：獲取n個特徵圖像，其中，所述n個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n為正整數；獲取所述n個特徵圖像中的每一個特徵圖像對應的屬性特徵，其中，所述屬性特徵為所述特徵圖像中用於表徵目標人臉屬性的特徵；根據所述屬性特徵，確定所述人臉圖像的目標人臉屬性的屬性識別結果。根據本發明實施例的人臉屬性識別方法，可以利用不同特徵圖像對應的屬性特徵來預測人臉屬性，可以提高人臉屬性識別的準確性以及識別效率。

110:輸入層 120:共用特徵學習層 130:全連接層 210:輸入層 220:卷積層 230:注意力學習層 240:全域平均池化層 250:識別層 500:人臉屬性識別裝置 510:特徵圖像提取單元 520:屬性特徵提取單元 530:人臉屬性識別單元 540:特徵圖像提取模型訓練單元 550:注意力模型訓練單元 600:計算結點 610:處理器 611:特徵圖像提取單元 612:屬性特徵提取單元 613:人臉屬性識別單元 614:特徵圖像提取模型訓練單元 615:注意力模型訓練單元 620:記憶體 630:通信網路 640:管理介面 650:使用者介面 700:雲服務集群 710:計算節點 711:特徵圖像提取單元 712:屬性特徵提取單元 713:人臉屬性識別單元 714:特徵圖像提取模型訓練單元 715:注意力模型訓練單元 720:儲存節點 730:通信介面 740:管理介面 750:使用者介面 800:人臉屬性識別裝置 810:處理器 820:通信介面 830:記憶體 840:匯流排 900:計算節點 910:計算節點 911:處理器 912:通信介面 913:記憶體 914:匯流排 920:儲存節點 921:儲存控制器 922:儲存陣列 923:匯流排 924:匯流排 S101~S104:步驟

為了更清楚地說明本發明實施例技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。圖1是相關技術中一種基於MTCNN對人臉屬性進行識別的過程示意圖。圖2是本發明實施例提供的一種人臉屬性識別神經網路的結構示意圖。圖3是本發明實施例提供的一種人臉屬性識別方法的流程示意圖。圖4是本發明實施例提供的一種對目標對象是否配戴眼鏡、性別以及表情進行識別的流程示意圖。圖5是本發明實施例提供的一種人臉屬性識別裝置的結構示意圖。圖6是本發明實施例提供的一種計算節點的結構示意圖。圖7是本發明實施例提供的一種雲服務集群的結構示意圖。圖8是本發明實施例提供的另一種人臉屬性識別裝置的結構示意圖。圖9是本發明實施例提供的另一種人臉屬性識別裝置的結構示意圖。圖10是本發明實施例提供的一種人臉屬性識別方法的實現流程示意圖。

S101~S104:步驟

Claims

一種人臉屬性識別的方法，包括：獲取n個特徵圖像，其中，所述n個特徵圖像是對人臉圖像進行一次或者多次特徵提取後得到的，n為正整數；將所述n個特徵圖像中的每一個特徵圖像分別輸入對應的注意力模型，獲得所述每一個特徵圖像對應的注意力矩陣；根據所述注意力矩陣提取所述n個特徵圖像中的每一個特徵圖像對應的屬性特徵，其中，所述屬性特徵為所述特徵圖像中用於表徵目標人臉屬性的特徵；根據所述屬性特徵，確定所述人臉圖像中目標人臉屬性的屬性識別結果。
根據請求項1所述的方法，其中，根據所述注意力矩陣提取所述n個特徵圖像中的每一個特徵圖像對應的屬性特徵包括：將所述n個特徵圖像中的每一個特徵圖像與對應的注意力矩陣進行乘法運算，獲得所述n個特徵圖像中的每一個特徵圖像對應的屬性特徵。
根據請求項1或2所述的方法，其中，所述根據所述屬性特徵，確定所述人臉圖像中目標人臉屬性的屬性識別結果包括：分別根據每一個所述屬性特徵，預測得到對應的識別結果；對所述識別結果進行加權平均計算，確定所述人臉圖像中目標人臉屬性的屬性識別結果。
根據請求項3所述的方法，其中，所述分別根據每一個所述屬性特徵，預測得到對應的識別結果包括：對所述屬性特徵中的每一個所述屬性特徵進行屬性預測處理，預測得到所述屬性特徵對應的所述識別結果。
根據請求項4所述的方法，其中，所述屬性預測處理包括全域平均池化處理。
根據請求項1或2所述的方法，其中，在所述獲取n個特徵圖像之前，所述方法還包括：獲取所述人臉圖像；通過特徵圖像提取模型對所述人臉圖像進行特徵提取，以獲得所述n個特徵圖像；所述特徵圖像提取模型是通過人臉圖像樣本以及特徵圖像樣本訓練得到的。
根據請求項6所述的方法，所述方法還包括：使用所述特徵圖像樣本以及對應的注意力矩陣樣本對神經網路進行訓練，獲得所述注意力模型。
根據請求項1或2所述的方法，其中，所述n個特徵圖像還包括所述人臉圖像。
一種電腦可讀儲存介質，所述電腦可讀儲存介質儲存有電腦程式，所述電腦程式被硬體執行以實現請求項1至8任一請求項所述的方法。
一種電子設備，包括處理器和記憶體，所述處理器執行所述記憶體中的代碼實現如請求項1至8中任一請求項所述的方法。