TWI717923B - 面部識別方法及裝置、電子設備和儲存介質 - Google Patents
面部識別方法及裝置、電子設備和儲存介質 Download PDFInfo
- Publication number
- TWI717923B TWI717923B TW108143797A TW108143797A TWI717923B TW I717923 B TWI717923 B TW I717923B TW 108143797 A TW108143797 A TW 108143797A TW 108143797 A TW108143797 A TW 108143797A TW I717923 B TWI717923 B TW I717923B
- Authority
- TW
- Taiwan
- Prior art keywords
- features
- attention
- cluster
- attribute
- target object
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 230000001815 facial effect Effects 0.000 claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 43
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000012937 correction Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公開關於一種面部識別方法及裝置、電子設備和儲存介質。該方法包括:對包括目標對象的待處理圖像進行屬性特徵提取,得到所述目標對象的N個屬性特徵,N為大於1的整數;基於注意力機制對所述待處理圖像進行注意力特徵提取,得到所述目標對象的N個注意力特徵;對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,M為正整數且M<N;根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果。
Description
本公開關於電腦技術領域但不限於電腦領域,尤其關於一種面部識別方法及裝置、電子設備和儲存介質。
面部屬性預測具有廣泛的應用,例如,其是監控安防領域中極為重要的一環。有效地預測人的性別、年齡、是否佩戴危險物及其他的屬性,對面部屬性預測的應用起到極為重要的作用。正確的屬性預測可以進一步提升面部識別的正確率,使面部識別能夠更廣泛地應用於各種應用場景。
本公開提出了一種面部識別技術方案。
根據本公開的一方面,提供了一種面部識別方法,包括:對包括目標對象的待處理圖像進行屬性特徵提取,得到所述目標對象的N個屬性特徵,N為大於1的整數;
基於注意力機制對所述待處理圖像進行注意力特徵提取,得到所述目標對象的N個注意力特徵;對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,M為正整數且M<N;根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果。
在一種可能的實現方式中,對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,包括:對所述N個注意力特徵進行聚類處理,得到M個聚類集合,每個注意力特徵與M個聚類集合中的一個聚類集合相對應;分別確定各個聚類集合的聚類注意力特徵,得到M個聚類注意力特徵。
在一種可能的實現方式中,所述方法還包括:將所述N個屬性特徵與所述N個注意力特徵分別相乘,得到增強後的N個屬性特徵;
其中,根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果,包括:根據所述M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果。
在一種可能的實現方式中,根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果,包括:根據所述M個聚類注意力特徵對所述N個屬性特徵分別進行修正,得到所述面部識別結果。
在一種可能的實現方式中,根據所述M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到所
述目標對象的面部識別結果,包括:將增強後的N個屬性特徵與所述N個屬性特徵的至少部分屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
在一種可能的實現方式中,根據所述M個聚類注意力特徵對所述N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果,包括:將所述N個屬性特徵與所述N個屬性特徵的至少部分所述屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
在一種可能的實現方式中,所述方法通過神經網路實現,所述神經網路包括多工卷積網路、多個單獨注意力網路以及聚類網路,所述多工卷積網路用於對所述待處理圖像進行屬性特徵提取,所述多個單獨注意力網路用於對所述待處理圖像進行注意力特徵提取,所述聚類網路用於對所述N個注意力特徵進行聚類處理。
在一種可能的實現方式中,所述方法還包括:在訓練所述神經網路的過程中,根據所述聚類網路的網路損失,調整多個單獨注意力網路的網路參數。
在一種可能的實現方式中,所述聚類處理包括譜聚類,所述M個聚類注意力特徵分別是所述M個聚類集合的類中心。
根據本公開的另一方面,提供了一種面部識別裝置,包括:屬性提取模組,用於對包括目標對象的待處理圖像進行屬性特徵提取,得到所述目標對象的N個屬性特徵,N為大於1的整數;注意力提取模組,用於基於注意力
機制對所述待處理圖像進行注意力特徵提取,得到所述目標對象的N個注意力特徵;聚類別模組,用於對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,M為正整數且M<N;結果確定模組,用於根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果。
在一種可能的實現方式中,所述聚類別模組包括:聚類子模組,用於對所述N個注意力特徵進行聚類處理,得到M個聚類集合,每個注意力特徵與M個聚類集合中的一個聚類集合相對應;特徵確定子模組,用於分別確定各個聚類集合的聚類注意力特徵,得到M個聚類注意力特徵。
在一種可能的實現方式中,所述裝置還包括:屬性增強模組,用於將所述N個屬性特徵與所述N個注意力特徵分別相乘,得到增強後的N個屬性特徵,其中,所述結果確定模組包括:
第一修正子模組,用於根據所述M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果。
在一種可能的實現方式中,所述結果確定模組包括:第二修正子模組,用於根據所述M個聚類注意力特徵對所述N個屬性特徵分別進行修正,得到所述面部識別結果。
在一種可能的實現方式中,所述第一修正子模組包括:第一相乘子模組,用於將增強後的N個屬性特徵與
所述N個屬性特徵的至少部分屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
在一種可能的實現方式中,所述第二修正子模組包括:第二相乘子模組,用於將所述N個屬性特徵與N個屬性特徵的至少部分屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
在一種可能的實現方式中,所述裝置通過神經網路實現,所述神經網路包括多工卷積網路、多個單獨注意力網路以及聚類網路,所述多工卷積網路用於對所述待處理圖像進行屬性特徵提取,所述多個單獨注意力網路用於對所述待處理圖像進行注意力特徵提取,所述聚類網路用於對所述N個注意力特徵進行聚類處理。
在一種可能的實現方式中,所述裝置還包括:參數調整模組,用於在訓練所述神經網路的過程中,根據所述聚類網路的網路損失,調整多個單獨注意力網路的網路參數。
在一種可能的實現方式中,所述聚類處理包括譜聚類,所述M個聚類注意力特徵分別是所述M個聚類集合的類中心。
根據本公開的另一方面,提供了一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行上述方法。
根據本公開的另一方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。
根據本公開的再一方面,一種電腦程式產品,所述電腦程式產品被處理器執行後,實現上述方法。
在本公開實施例中,能夠對待處理圖像分別進行屬性特徵提取及注意力特徵提取,得到多個屬性特徵及注意力特徵;對注意力特徵聚類得到聚類注意力特徵,並根據多個屬性特徵及聚類注意力特徵確定面部識別結果,通過多注意力機制提取注意力特徵並通過聚類來聚集相似的注意力特徵,從而優化不同的局部特徵,提高面部屬性的識別效果。
100‧‧‧面部識別方法
200‧‧‧面部識別方法
41‧‧‧屬性提取模組
42‧‧‧注意力提取模組
43‧‧‧聚類別模組
44‧‧‧結果確定模組
800‧‧‧電子設備
802‧‧‧處理組件
804‧‧‧記憶體
806‧‧‧電源組件
808‧‧‧多媒體組件
810‧‧‧音頻組件
812‧‧‧輸入/輸出介面
814‧‧‧感測器組件
816‧‧‧通信組件
820‧‧‧處理器
1900‧‧‧電子設備
1922‧‧‧處理組件
1926‧‧‧電源組件
1932‧‧‧記憶體
1950‧‧‧網路介面
1958‧‧‧輸入輸出介面
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本公開的實施例,並與說明書一起用於說明本公開的技術方案。
圖1示出根據本公開實施例的面部識別方法的流程圖。
圖2示出根據本公開實施例的面部識別方法的應用示例的示意圖。
圖3示出根據本公開進行優化前後唇部注意力特徵的對比圖。
圖4示出根據本公開實施例的面部識別裝置的方塊圖。
圖5示出根據本公開實施例的一種電子設備的方塊圖。
圖6示出根據本公開實施例的一種電子設備的方塊圖。
以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本公開,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本公開同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本公開的主旨。
圖1示出根據本公開實施例的面部識別方法100的流程圖。該面部識別方法100包括:在步驟102中,對包括目標對象的待處理圖像進行屬性特徵提取,得到所述目標對象的N個屬性特徵,N為大於1的整數。在步驟104中,基於注意力機制對所述待處理圖像進行注意力特徵提取,得到所述目標對象的N個注意力特徵。在步驟106中,對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,M為正整數且M<N。在步驟108中,根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果。
本申請實施例提供的方法,可以應用於各種圖像處理設備中,圖像處理設備通過步驟102、步驟104、步驟106及步驟108的執行,能夠識別圖像目標對象的面部,例如,人臉識別等。該圖像處理設備可為安防設備,例如,安裝在社區門口、學校、廠區、居所等各種需要安放監控等位置處的設備。
在一些實施例中,所述圖像處理設備還可以應用於非安防領域,例如,該圖像處理設備可為通過面部識別進行檢票的票務設備。再例如,該圖像處理設備可為支付設備,通過面部識別結果確定是否進行支付等。
總之本申請的面部識別方法可應用在各種需要進行面部識別獲得面部識別結果的場景。
根據本公開的實施例,能夠對待處理圖像分別進行屬性特徵提取及注意力特徵提取,得到多個屬性特徵及
注意力特徵;對注意力特徵聚類得到聚類注意力特徵,並根據多個屬性特徵及聚類注意力特徵確定面部識別結果,通過多注意力機制提取注意力特徵並通過聚類來聚集相似的注意力特徵,從而優化不同的局部特徵,提高面部屬性的識別效果。
在面部識別(例如人臉識別)的過程中,不同任務所需要的特徵可能不是整個面部的特徵,而僅是面部的局部特徵。例如,如果預測人是否佩戴眼鏡,則可能只需要單獨的眼部資訊,而多餘的資訊可能對結果造成干擾。因此,可通過添加注意力特徵以提升預測的精度。
在本公開的實施例中,所述注意力特徵可為指定需要提取的特徵,可為所述屬性特徵中的一個或多個。
所述屬性特徵可為目標對象的整體特徵和/或局部特徵。例如,所述整體特徵包括但不限於:目標對象臉部的整體特徵;所述局部特徵可為面部內某一個局部的特徵,例如,眼睛的特徵、唇部特徵等。
在識別面部屬性(例如人的性別、年齡、佩戴物等多個與面部相關的屬性)時,可以多屬性共同識別及共用特徵。在單獨的屬性上,可以通過添加注意力機制(Attention Mechanism),以使重要的特徵(如耳朵、口、鼻等)被更好地學習,也就是使得局部特徵能夠被強調,從而更好地學習整體屬性特徵。
在一種可能的實現方式中,可以在步驟102中對包括目標對象的待處理圖像進行屬性特徵提取,得到所述
目標對象的N個屬性特徵。其中,目標對象可以例如為圖像中的人物等,待處理圖像可以例如為包括目標對象的人臉圖像。可以通過例如卷積神經網路CNN作為基礎網路(Base Net),對待處理圖像進行特徵提取以得到面部特徵圖;再通過例如多工卷積神經網路(Multi-Task Convolution Neural Net,MTCNN),對所得到的面部特徵圖進行屬性特徵提取,從而得到目標對象的N個屬性特徵。其中,多工卷積神經網路可以使用VGG16、殘差網路等不同類型的網路,本公開對多工卷積神經網路的網路類型不作限制。
在一種可能的實現方式中,可以在步驟104中基於注意力機制對所述待處理圖像進行注意力特徵提取,得到所述目標對象的N個注意力特徵。可以例如通過基礎網路對待處理圖像進行特徵提取以得到面部特徵圖,從而實現特徵共用;再通過多個單獨注意力網路(Individual Attention Network,IAN)對所述面部特徵圖進行注意力特徵的提取。需要說明的是,多個單獨注意力網路中的每個網路是針對一個單獨的注意力點進行訓練,例如分別針對人的眼鏡、唇部等。針對IAN。多個單獨注意力網路可以使用簡單的卷積神經網路,或者採用相關技術的注意力機制,例如殘差注意力(residual attention)等,本公開對多個單獨注意力網路的網路類型不作限制。
在一種可能的實現方式中,可以在步驟106中對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵。
舉例來說,部分面部特徵能夠比較好地學習,例如眼鏡、鼻子等。相對的,例如耳環、眉毛等的一些細細微性特徵卻並不好學習。因此,可以通過聚類方式讓所有注意力特徵中相似的部分可以聚在一起,並優化、尤其是修正一部分學習效果不好的原有注意力特徵。
在一種可能的實現方式中,步驟106可包括:
對所述N個注意力特徵進行聚類處理,得到M個聚類集合,每個注意力特徵與M個聚類集合中的一個聚類集合相對應;
分別確定各個聚類集合的聚類注意力特徵,得到M個聚類注意力特徵。
舉例來說,可以將N個注意力特徵聚類成M類(M<N),進行聚類處理後,每個注意力特徵都對應於M類中的一類。經聚類後,可得到M個聚類集合。分別提取各個聚類集合的聚類注意力特徵,可得到M個聚類注意力特徵。這樣,可以M個聚類注意力特徵作為N個注意力特徵的代表,進而根據N個屬性特徵和M個聚類注意力特徵來確定目標對象的面部識別結果。
在一種可能的實現方式中,聚類處理可以是譜聚類,M個聚類注意力特徵是所述M個聚類集合中每一個聚類集合的類中心。在M個聚類集合中取出類中心的方法可以有多種。在一種實現中,可以在每個聚類集合中對所有值取平均值以得到類中心。在另一實現中,可以通過預設訓練集進行訓練,以學習得出每個注意力特徵的相應權重,對聚類
集合中的每個注意力特徵進行加權平均,以得到該聚類結合的類中心。本公開對聚類的具體方式不作限制。
通過這種方式,可以通過好學習的注意力特徵來說明到其它不好學習的注意力特徵,通過相關注意力特徵的互相說明來提升注意力機制的效果。
在一種可能的實現方式中,可在步驟108中根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果。可以通過相乘等方式綜合考慮所得到的N個屬性特徵和M個聚類注意力特徵,也可以採用其他方式進一步處理,以確定目標對象的面部識別結果。
在一種可能的實現方式中,步驟108可包括:
根據所述M個聚類注意力特徵對所述N個屬性特徵分別進行修正,得到所述面部識別結果。也就是說,可以採用M個聚類注意力特徵直接對N個屬性特徵分別進行修正。
在一種可能的實現方式中,根據M個聚類注意力特徵對N個屬性特徵進行修正的步驟可包括:將N個屬性特徵與所述N個屬性特徵中至少部分屬性特徵所對應的聚類注意力特徵分別相乘,得到所述面部識別結果。
通過這種方式,可使得面部識別結果更好地聚焦於單個注意力特徵。本實施例中的N個屬性特徵中的至少部分屬性特徵包括:N個屬性特徵中的各屬性特徵,及少於N個的屬性特徵。
在一種可能的實現方式中,所述方法還可包括:將所述N個屬性特徵與所述N個注意力特徵分別相乘,得到增強後的N個屬性特徵;
步驟108可包括:根據所述M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果。
舉例來說,可以先將N個注意力特徵與N個屬性特徵分別相乘,得到增強後的N個屬性特徵,從而使得需要被強調的屬性特徵得到增強。進而,根據M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到目標對象的面部識別結果。
在一個具體實現中,根據M個聚類注意力特徵對增強後的N個屬性特徵進行修正的步驟可包括:將增強後的N個屬性特徵與所述N個屬性特徵中至少部分屬性特徵所對應的聚類注意力特徵分別相乘,得到面部識別結果。
通過這種方式,可以進一步強調注意力特徵,提高面部識別的效果。
圖2示出根據本公開實施例的面部識別方法的應用示例的示意圖。方法200是面部識別方法100的一個應用示例。如圖2所示,在方法200中,可通過基礎網路對待處理圖像進行特徵提取,得到面部特徵圖;對面部特徵圖進行屬性特徵提取,可得到N個屬性特徵202;對面部特徵圖進行注意力特徵提取,得到N個注意力特徵204;對N個注意力特徵204進行聚類處理,得到了M個聚類集合。該N個
注意力特徵中的每個注意力特徵與M個聚類集合中的一個聚類集合相對應;分別確定各個聚類集合的聚類注意力特徵,可得到M個聚類注意力特徵。
在面部識別方法200的一個變形中,根據由N個注意力特徵204所得到的M個聚類注意力特徵,直接對N個屬性特徵202進行修正(S208),可確定目標對象的面部識別結果。這樣,可以利用IAN聚類的前導對目標對象的面部識別結果進行修正,通過容易學習的注意力特徵來優化不容易的注意力特徵。
在面部識別方法200的一個變形中,如圖2中的虛線箭頭S206所示,可進一步將N個注意力特徵204與N個屬性特徵202分別相乘,得到增強後的N個屬性特徵。進而,根據M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到目標對象的面部識別結果。由此,可以進一步強調注意力特徵,通過容易學習的注意力特徵來優化不容易的注意力特徵。
通過面部識別方法200的上述變形,可以通過相關屬性的互相說明來提升注意力機制。
在一種可能的實現方式中,所述方法可通過神經網路實現,所述神經網路包括多工卷積網路、多個單獨注意力網路以及聚類網路,所述多工卷積網路用於對所述待處理圖像進行屬性特徵提取,所述多個單獨注意力網路用於對所述待處理圖像進行注意力特徵提取,所述聚類網路用於對所述N個注意力特徵進行聚類處理。
多工卷積網路(MTCNN)用於對待處理圖像(面部特徵圖)進行屬性特徵202的提取。關於具體使用的多工卷積網路,可以使用類似VGG16、殘差網路(Residual Network)等不同大小的網路來應對不同的應用場景。
多個單獨注意力網路(IAN)用於對待處理圖像(面部特徵圖)進行注意力特徵204的提取。需要說明的是,多個單獨注意力網路中的每個網路是針對一個單獨的注意力點進行訓練,例如分別針對人的眼鏡、唇部等。針對IAN,可以使用簡單的卷積神經網路進行學習,或者採用注意力機制、例如殘差注意力(residual attention)等。
聚類網路用於對N個注意力特徵進行聚類處理,得到M個聚類注意力特徵。本公開對聚類網路的網路類型不作限制。
在一種可能的實現方式中,所述方法還包括:在訓練所述神經網路的過程中,根據所述聚類網路的網路損失,調整多個單獨注意力網路的網路參數。
上述各個神經網路可根據預設的訓練集進行訓練。在本發明採用的各網路中,採用組合任務來進行優化,在組合過程中可以不涉及人工涉及的環節,而全部採用自主學習來實現優化。
在訓練所述神經網路的過程中,可根據所述聚類網路的網路損失,調整多個單獨注意力網路的網路參數,從而利用神經網路的反向傳播對單獨注意力網路進行優化。
在一個具體實現方式中,可以利用MTCNN為基礎的多工屬性學習網路,同時訓練面部特徵圖的N個屬性(attribute),得到N個屬性特徵202。經由MTCNN得到的N個屬性特徵202為特徵張量,可以表示為(N,C,W,H)。(N,C,W,H)的數值由具體的神經網路來決定。其中N、C、W、H均為自然數,N表示特徵張量的個數;C表示得到的特徵圖的數量、又稱通道數,通常遠大於3;W表示特徵圖的寬度;H表示特徵圖的長度。也就是說,N個屬性特徵202可以表示為N個屬性特徵(C,W,H),即N個屬性特徵張量(通道數,寬度,長度)。後續可以利用N個屬性特徵202對作為面部識別結果的N個面部屬性進行預測。
在一個具體實現方式中,可以利用例如IAN來訓練來自面部特徵圖的N個屬性,使用注意力圖(attention map)來學習N個屬性,從而得到N個注意力特徵204。由於每個注意力特徵對應於1個二維注意力特徵圖像(Mask),因此得到的注意力特徵204的特徵張量A可以表示為(N,1,W,H),即此處通道數為1。因此,N個注意力特徵204可以表示為N個特徵張量A(W,H),即N個特徵張量A(寬度,長度)。
在一個具體實現中,如圖2的虛線箭頭S206所示例的,可以將N個注意力特徵張量A(寬度,長度)與N個屬性特徵張量進行相乘處理,從而使得N個屬性特徵張量中的相關特徵被強調。
在一個具體實現中,對N個注意力特徵進行聚類處理,得到M個聚類集合,可以表示為C1,...,CM。其中,M個聚類集合各自取出的類中心可以表示為第1個聚類注意力特徵(Ax1,Ay1),...,第M個聚類注意力特徵(Axm,Aym)。上述M個聚類注意力特徵可以表示為(M,1,W,H),即M個二維張量X_1(寬度,長度),...,X_M(寬度,長度)。對經過N個注意力特徵A的修正所得到的N個屬性特徵張量F(通道數,寬度,長度),確定各自所對應的聚類類中心,然後使用M個二維張量X中相應的類中心對N個屬性特徵F進行最後的修正。由於這M個張量X來自於之前IAN的輸出,所以通過這樣的學習,也可以同時優化IAN,還可以同時使用多個注意力特徵對N個屬性特徵F進行修正。
在一個具體示例中,修正的方式是,將N個屬性特徵F(通道數,寬度,長度)同時乘上M個已經聚類好的張量X_m,其中m是在[1,M]範圍內的自然數。由此可以得到相乘後的張量FX(M,通道數,寬度,長度)。將相乘後的張量FX(M,通道數,寬度,長度)展開成(M×通道數,寬度,長度),最後使用該展開的結果對特徵進行預測,以得到最終的面部識別結果。
根據上述方法,可以使得多工下的注意力特徵的面部識別效果得到整體的提升。圖3示出了根據本公開進行優化前後唇部注意力特徵的對比圖。如圖3上半部分所示,優化前的唇部注意力特徵圖像有較多雜訊。如圖3下半
部分所示,按照本公開優化之後,唇部注意力特徵能更好的集中在唇部,雜訊有所減少。
根據本公開實施例的面部識別方法,能夠在訓練及預測人臉屬性時,通過自主優化注意力特徵,提升訓練模型的強度來提升預測的精度,從而更好的預測人臉上的細細微性屬性,比如是否配到帽子,項鍊,是否攜帶耳機等。根據本公開的實施例,可應用於監控安防等領域中進行人臉屬性識別,提升人臉屬性識別率,提高識別效果。
可以理解,本公開提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本公開不再贅述。
此外,本公開還提供了面部識別裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本公開提供的任一種面部識別方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
圖4示出根據本公開實施例的面部識別裝置的方塊圖,如圖4所示,所述裝置包括:
屬性提取模組41,用於對包括目標對象的待處理圖像進行屬性特徵提取,得到所述目標對象的N個屬性特徵,N為大於1的整數;
注意力提取模組42,用於基於注意力機制對所述待處理圖像進行注意力特徵提取,得到所述目標對象的N個注意力特徵;
聚類別模組43,用於對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,M為正整數且M<N;
結果確定模組44,用於根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果。
在一種可能的實現方式中,所述聚類別模組包括:聚類子模組,用於對所述N個注意力特徵進行聚類處理,得到M個聚類集合,每個注意力特徵與M個聚類集合中的一個聚類集合相對應;特徵確定子模組,用於分別確定各個聚類集合的聚類注意力特徵,得到M個聚類注意力特徵。
在一種可能的實現方式中,所述裝置還包括:屬性增強模組,用於將所述N個屬性特徵與所述N個注意力特徵分別相乘,得到增強後的N個屬性特徵,其中,所述結果確定模組包括:
第一修正子模組,用於根據所述M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果。
在一種可能的實現方式中,所述結果確定模組包括:第二修正子模組,用於根據所述M個聚類注意力特徵對所述N個屬性特徵分別進行修正,得到所述面部識別結果。
在一種可能的實現方式中,所述第一修正子模組包括:第一相乘子模組,用於將增強後的N個屬性特徵與各所述屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
在一種可能的實現方式中,所述第二修正子模組包括:第二相乘子模組,用於將所述N個屬性特徵與各所述屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
在一種可能的實現方式中,所述裝置通過神經網路實現,所述神經網路包括多工卷積網路、多個單獨注意力網路以及聚類網路,所述多工卷積網路用於對所述待處理圖像進行屬性特徵提取,所述多個單獨注意力網路用於對所述待處理圖像進行注意力特徵提取,所述聚類網路用於對所述N個注意力特徵進行聚類處理。
在一種可能的實現方式中,所述裝置還包括:參數調整模組,用於在訓練所述神經網路的過程中,根據所述聚類網路的網路損失,調整多個單獨注意力網路的網路參數。
在一種可能的實現方式中,所述聚類處理包括譜聚類,所述M個聚類注意力特徵分別是所述M個聚類集合的類中心。
在一些實施例中,本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述
的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本公開實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非易失性電腦可讀儲存介質。
本公開實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
本公開實施例還提出一種電腦程式產品,所述電腦程式產品被處理器執行後,實現上述方法。
圖5示出根據本公開實施例的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖5,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/O)的介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器
820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的易失性或非易失性儲存裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器
可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音頻信號。
I/O介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不
存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子組件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體804,上
述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖6示出根據本公開實施例的電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖6,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電儲存裝置、磁儲存裝置、光儲存裝置、電磁儲存裝置、半導體儲存裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括對象導向的程式設計語言-諸如Smalltalk、C++等,以及常規的過程式程式設計語言-諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路-包括局域網(LAN)或廣域網路(WAN)-連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本公開的各個方面。
這裡參照根據本公開實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時
也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本公開的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
圖1代表圖為流程圖,無元件符號說明。
Claims (11)
- 一種面部識別方法,包括:對包括目標對象的待處理圖像進行屬性特徵提取,得到所述目標對象的N個屬性特徵,N為大於1的整數;基於注意力機制對所述待處理圖像進行注意力特徵提取,得到所述目標對象的N個注意力特徵,所述注意力特徵為指定需要提取的特徵,所述注意力特徵屬於所述屬性特徵;對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,M為正整數且M<N;根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果。
- 根據請求項1所述的方法,其中,對所述N個注意力特徵進行聚類處理,得到M個聚類注意力特徵,包括:對所述N個注意力特徵進行聚類處理,得到M個聚類集合,每個注意力特徵與M個聚類集合中的一個聚類集合相對應;分別確定各個聚類集合的聚類注意力特徵,得到M個聚類注意力特徵。
- 根據請求項1或2所述的方法,所述方法還包括:將所述N個屬性特徵與所述N個注意力特徵分別相乘,得到增強後的N個屬性特徵: 其中,根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果,包括:根據所述M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果。
- 根據請求項1或2所述的方法,其中,根據所述N個屬性特徵以及所述M個聚類注意力特徵,確定所述目標對象的面部識別結果,包括:根據所述M個聚類注意力特徵對所述N個屬性特徵分別進行修正,得到所述面部識別結果。
- 根據請求項3所述的方法,其中,根據所述M個聚類注意力特徵對增強後的N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果,包括:將增強後的N個屬性特徵與所述N個屬性特徵中至少部分屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
- 根據請求項4所述的方法,其中,根據所述M個聚類注意力特徵對所述N個屬性特徵分別進行修正,得到所述目標對象的面部識別結果,包括:將所述N個屬性特徵與所述N個屬性特徵中至少部分屬性特徵所對應的所述聚類注意力特徵分別相乘,得到所述面部識別結果。
- 根據請求項1或2所述的方法,其中,所述方法通過神經網路實現,所述神經網路包括多工卷積網路、多個單獨注意力網路以及聚類網路,所述多工卷積網路用 於對所述待處理圖像進行屬性特徵提取,所述多個單獨注意力網路用於對所述待處理圖像進行注意力特徵提取,所述聚類網路用於對所述N個注意力特徵進行聚類處理。
- 根據請求項7所述的方法,所述方法還包括:在訓練所述神經網路的過程中,根據所述聚類網路的網路損失,調整多個單獨注意力網路的網路參數。
- 根據請求項1或2所述的方法,其中,所述聚類處理包括譜聚類,所述M個聚類注意力特徵分別是所述M個聚類集合的類中心。
- 一種電子設備,其中,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行請求項1至9中任意一項所述的方法。
- 一種電腦可讀儲存介質,其上儲存有電腦程式指令,其中,所述電腦程式指令被處理器執行時實現請求項1至9中任意一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910107458.XA CN109800737B (zh) | 2019-02-02 | 2019-02-02 | 面部识别方法及装置、电子设备和存储介质 |
CN201910107458.X | 2019-02-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202030638A TW202030638A (zh) | 2020-08-16 |
TWI717923B true TWI717923B (zh) | 2021-02-01 |
Family
ID=66561887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108143797A TWI717923B (zh) | 2019-02-02 | 2019-11-29 | 面部識別方法及裝置、電子設備和儲存介質 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11455830B2 (zh) |
JP (1) | JP7038829B2 (zh) |
KR (1) | KR102390580B1 (zh) |
CN (1) | CN109800737B (zh) |
SG (1) | SG11202006192YA (zh) |
TW (1) | TWI717923B (zh) |
WO (1) | WO2020155606A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800737B (zh) * | 2019-02-02 | 2021-06-25 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
CN110210572B (zh) * | 2019-06-10 | 2023-02-07 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、存储介质及设备 |
CN110458052B (zh) * | 2019-07-25 | 2023-04-07 | Oppo广东移动通信有限公司 | 基于增强现实的目标对象识别方法、装置、设备、介质 |
CN111339813B (zh) * | 2019-09-30 | 2022-09-27 | 深圳市商汤科技有限公司 | 人脸属性识别方法、装置、电子设备和存储介质 |
CN111274388B (zh) * | 2020-01-14 | 2024-05-10 | 平安科技(深圳)有限公司 | 一种文本聚类的方法及装置 |
CN111950643B (zh) * | 2020-08-18 | 2022-06-28 | 创新奇智(上海)科技有限公司 | 图像分类模型训练方法、图像分类方法及对应装置 |
CN112580694B (zh) * | 2020-12-01 | 2024-04-19 | 中国船舶重工集团公司第七0九研究所 | 基于联合注意力机制的小样本图像目标识别方法及系统 |
CN112560756A (zh) * | 2020-12-24 | 2021-03-26 | 北京嘀嘀无限科技发展有限公司 | 识别人脸的方法、装置、电子设备和存储介质 |
CN112733652B (zh) * | 2020-12-31 | 2024-04-19 | 深圳赛安特技术服务有限公司 | 图像目标识别方法、装置、计算机设备及可读存储介质 |
CN113049084B (zh) * | 2021-03-16 | 2022-05-06 | 电子科技大学 | 一种基于注意力机制的Resnet的分布式光纤传感信号识别方法 |
CN113052175B (zh) * | 2021-03-26 | 2024-03-29 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备及可读存储介质 |
CN113177533B (zh) * | 2021-05-28 | 2022-09-06 | 济南博观智能科技有限公司 | 一种人脸识别方法、装置及电子设备 |
CN113553905B (zh) * | 2021-06-16 | 2024-04-26 | 北京百度网讯科技有限公司 | 图像识别方法、装置及系统 |
CN113392263A (zh) * | 2021-06-24 | 2021-09-14 | 上海商汤科技开发有限公司 | 一种数据标注方法及装置、电子设备和存储介质 |
CN113470827A (zh) * | 2021-06-30 | 2021-10-01 | 上海商汤智能科技有限公司 | 分类方法及装置、电子设备和存储介质 |
CN113688729B (zh) * | 2021-08-24 | 2023-04-07 | 上海商汤科技开发有限公司 | 一种行为识别方法及装置、电子设备和存储介质 |
CN114495294A (zh) * | 2021-12-03 | 2022-05-13 | 华中科技大学鄂州工业技术研究院 | 一种地铁闸机无感支付方法、装置及存储介质 |
KR102664254B1 (ko) * | 2022-04-01 | 2024-05-08 | 한국생산기술연구원 | 비전 인공지능 기반 수신호 인식 장치 및 이를 이용한 수신호 인식 방법 |
KR102458179B1 (ko) | 2022-06-20 | 2022-10-24 | 주식회사 한국공간데이터 | 얼굴 속성을 이용한 얼굴 인식 방법 및 얼굴 인식 장치 |
CN117437684B (zh) * | 2023-12-14 | 2024-04-16 | 深圳须弥云图空间科技有限公司 | 一种基于修正注意力的图像识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI528331B (zh) * | 2014-10-06 | 2016-04-01 | 由田新技股份有限公司 | 注意力偵測裝置、方法、電腦可讀取紀錄媒體、及其電腦程式產品 |
CN107909059A (zh) * | 2017-11-30 | 2018-04-13 | 中南大学 | 一种面向复杂城市场景中协同仿生视觉的交通标志牌检测与识别方法 |
CN108875521A (zh) * | 2017-12-20 | 2018-11-23 | 北京旷视科技有限公司 | 人脸检测方法、装置、系统和存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003346151A (ja) * | 2002-05-29 | 2003-12-05 | Fuji Photo Film Co Ltd | 画像認識方法および装置並びにプログラム |
JP2013003635A (ja) * | 2011-06-13 | 2013-01-07 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
CN105096420A (zh) * | 2015-07-31 | 2015-11-25 | 北京旷视科技有限公司 | 门禁系统以及用于其的数据处理方法 |
CN105678304B (zh) * | 2015-12-30 | 2020-04-10 | 浙江宇视科技有限公司 | 一种车标识别方法及装置 |
JP6873600B2 (ja) * | 2016-03-04 | 2021-05-19 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
US10831827B2 (en) * | 2016-04-01 | 2020-11-10 | International Business Machines Corporation | Automatic extraction of user mobility behaviors and interaction preferences using spatio-temporal data |
CN106611421B (zh) * | 2016-12-30 | 2019-06-21 | 西安电子科技大学 | 基于特征学习和素描线段约束的sar图像分割方法 |
CN106845421B (zh) * | 2017-01-22 | 2020-11-24 | 苏州飞搜科技有限公司 | 基于多区域特征与度量学习的人脸特征识别方法及系统 |
CN108229674B (zh) * | 2017-02-21 | 2021-03-02 | 北京市商汤科技开发有限公司 | 聚类用神经网络的训练方法和装置、聚类方法和装置 |
CN108960331A (zh) * | 2018-07-10 | 2018-12-07 | 重庆邮电大学 | 一种基于行人图像特征聚类的行人再识别方法 |
CN109255369B (zh) * | 2018-08-09 | 2020-10-16 | 杭州易现先进科技有限公司 | 利用神经网络识别图片的方法及装置、介质和计算设备 |
CN109145867B (zh) * | 2018-09-07 | 2021-08-10 | 北京旷视科技有限公司 | 人体姿态估计方法、装置、系统、电子设备、存储介质 |
CN109800737B (zh) * | 2019-02-02 | 2021-06-25 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
US11256960B2 (en) * | 2020-04-15 | 2022-02-22 | Adobe Inc. | Panoptic segmentation |
-
2019
- 2019-02-02 CN CN201910107458.XA patent/CN109800737B/zh active Active
- 2019-08-15 JP JP2020533112A patent/JP7038829B2/ja active Active
- 2019-08-15 KR KR1020207018821A patent/KR102390580B1/ko active IP Right Grant
- 2019-08-15 WO PCT/CN2019/100859 patent/WO2020155606A1/zh active Application Filing
- 2019-08-15 SG SG11202006192YA patent/SG11202006192YA/en unknown
- 2019-11-29 TW TW108143797A patent/TWI717923B/zh active
-
2020
- 2020-06-22 US US16/907,406 patent/US11455830B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI528331B (zh) * | 2014-10-06 | 2016-04-01 | 由田新技股份有限公司 | 注意力偵測裝置、方法、電腦可讀取紀錄媒體、及其電腦程式產品 |
CN107909059A (zh) * | 2017-11-30 | 2018-04-13 | 中南大学 | 一种面向复杂城市场景中协同仿生视觉的交通标志牌检测与识别方法 |
CN108875521A (zh) * | 2017-12-20 | 2018-11-23 | 北京旷视科技有限公司 | 人脸检测方法、装置、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109800737A (zh) | 2019-05-24 |
KR20200096565A (ko) | 2020-08-12 |
JP7038829B2 (ja) | 2022-03-18 |
US11455830B2 (en) | 2022-09-27 |
JP2021514497A (ja) | 2021-06-10 |
SG11202006192YA (en) | 2020-11-27 |
TW202030638A (zh) | 2020-08-16 |
KR102390580B1 (ko) | 2022-04-26 |
WO2020155606A1 (zh) | 2020-08-06 |
CN109800737B (zh) | 2021-06-25 |
US20200320281A1 (en) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI717923B (zh) | 面部識別方法及裝置、電子設備和儲存介質 | |
TWI749423B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
TWI747325B (zh) | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 | |
JP7106687B2 (ja) | 画像生成方法および装置、電子機器、並びに記憶媒体 | |
TWI738172B (zh) | 影片處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
TW202105199A (zh) | 資料更新方法、電子設備和儲存介質 | |
WO2020135529A1 (zh) | 位姿估计方法及装置、电子设备和存储介质 | |
JP7165818B2 (ja) | ニューラルネットワークのトレーニング方法及び装置並びに画像生成方法及び装置 | |
TW202131281A (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介 | |
TW202113756A (zh) | 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
JP2022523606A (ja) | 動画解析のためのゲーティングモデル | |
CN110909815B (zh) | 神经网络训练、图像处理方法、装置及电子设备 | |
TW202038183A (zh) | 文本識別方法及裝置、電子設備、儲存介質 | |
TWI735112B (zh) | 圖像生成方法、電子設備和儲存介質 | |
TW202107337A (zh) | 一種人臉圖像識別方法及裝置、電子設備和電腦可讀儲存媒體 | |
CN110458218B (zh) | 图像分类方法及装置、分类网络训练方法及装置 | |
CN105335684B (zh) | 人脸检测方法及装置 | |
US20210012154A1 (en) | Network optimization method and apparatus, image processing method and apparatus, and storage medium | |
WO2020114236A1 (zh) | 关键点检测方法、装置、电子设备及存储介质 | |
CN109165738B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
CN110135349A (zh) | 识别方法、装置、设备及存储介质 | |
WO2020192113A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109447258B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
WO2023024439A1 (zh) | 一种行为识别方法及装置、电子设备和存储介质 | |
CN111027617A (zh) | 神经网络训练及图像识别方法、装置、设备和存储介质 |