KR20210136140A - 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체 - Google Patents

얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체 Download PDF

Info

Publication number
KR20210136140A
KR20210136140A KR1020217034708A KR20217034708A KR20210136140A KR 20210136140 A KR20210136140 A KR 20210136140A KR 1020217034708 A KR1020217034708 A KR 1020217034708A KR 20217034708 A KR20217034708 A KR 20217034708A KR 20210136140 A KR20210136140 A KR 20210136140A
Authority
KR
South Korea
Prior art keywords
basic unit
output
image
channel
attention module
Prior art date
Application number
KR1020217034708A
Other languages
English (en)
Inventor
페이 티안
셍자오 웬
푸쿠이 양
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202010591858.5A external-priority patent/CN111783596B/zh
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210136140A publication Critical patent/KR20210136140A/ko

Links

Images

Classifications

    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 출원은 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체를 개시하고, 인공 지능에서 딥러닝, 클라우드 컴퓨팅 및 컴퓨터 시각 분야에 관한 것이며, 구체적으로, 마스크를 쓴 얼굴 인식 방면에 관한 것이다. 구체적인 방안은, 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 현재 기본 유닛에 입력하며; 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하며; 처리된 이미지 특징을 다음 기본 유닛에 입력하고; 현재 기본 유닛에서 출력되는 이미지 특징이 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하고; 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 얼굴 인식 모델에 대해 훈련을 수행한다. 본 출원의 실시예는 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있다.

Description

얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체
본 출원은 2020년 6월 24일 중국특허청에 제출된 출원번호가 202010591858.5인 중국특허출원의 우선권을 주장하는 바, 상기 출원의 전부 내용은 참조로서 본 출원에 포함된다.
본 출원의 실시예는 컴퓨터 응용 기술분야에 관한 것이며, 더 상세하게는 인공 지능의 딥러닝, 클라우드 컴퓨팅 및 컴퓨터 시각 분야에 관한 것이며, 예를 들어 마스크를 쓴 얼굴 인식 방면에 관한 것이다. 구체적으로, 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체에 관한 것이다.
컴퓨터 기술의 발전에 따라, 이미지 처리 기술은 점점 더 많은 분야에 적용되고 있다. 일반적으로, 기계 학습 방법을 사용하여 얼굴 인식 모델을 훈련할 수 있고, 얼굴 인식 모델을 사용하여 이미지의 얼굴에 대해 인식할 수 있다. 얼굴에 마스크를 쓴 상황에서, 마스크를 쓴 얼굴에 대해 인식하는 어려움은, 얼굴 인식 모델이 마스크를 쓴 상황에서의 얼굴 인식을 해결해야 할 뿐만 아니라, 마스크를 쓰지 않은 상황에서의 얼굴 인식도 해결해야 하는 것이다. 마스크를 쓴 상황과 마스크를 쓰지 않은 상황을 비교하면, 입, 코 및 기타 관련 정보가 부족하고, 모델을 훈련하는 과정에서 수정을 추가하지 않으면, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 효과가 저하된다.
종래의 얼굴 인식 모델의 훈련 방법에서는, 마스크 데이터와 비마스크 데이터를 동등하게 대하고, 직접 ID 분류의 방법을 사용하여 훈련한다. 얼굴에 마스크를 쓴 상황에서, 얼굴 인식 모델 특수 처리를 하지 않기 때문에, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않다.
이하, 본 문서에서 상세히 설명하려는 주제에 대한 개술이다. 본 개술은 청구항의 보호 범위를 한정하기 위한 것이 아이다.
본 출원에 의해 제공한 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체는, 마스크 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상한다.
본 출원의 한 방면에 따르면, 얼굴 인식 모델의 훈련 방법을 제공하였으며, 해당 방법은,
훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않을 때, 상기 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 상기 현재 기본 유닛에 입력하는 단계-여기서, 상기 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함함-;
상기 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 상기 현재 어텐션 모듈을 통해 상기 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하는 단계;
상기 자체 가중치 처리된 이미지 특징을 상기 현재 기본 유닛의 다음 기본 유닛에 입력하고; 상기 다음 기본 유닛을 상기 현재 기본 유닛으로 하고; 상기 현재 기본 유닛에서 출력되는 이미지 특징이 상기 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하는 단계;
상기 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 상기 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 상기 현재 사용자의 얼굴 이미지로 하며, 상기 훈련할 얼굴 인식 모델이 상기 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행하는 단계; 를 포함한다.
본 출원의 한 방면에 따르면, 얼굴 인식 모델의 훈련 장치를 제공하였으며, 해당 장치는, 입력 모듈, 자체 가중치 처리 모듈과 훈련 모듈을 포함하고; 여기서,
상기 입력 모듈은 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않은 경우, 상기 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 상기 현재 기본 유닛에 입력하는데 사용되되, 여기서, 상기 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함하며;
상기 자체 가중치 처리 모듈은 상기 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 상기 현재 어텐션 모듈을 통해 상기 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하는데 사용되며;
상기 입력 모듈은 또한, 상기 자체 가중치 처리된 이미지 특징을 상기 현재 기본 유닛의 다음 기본 유닛에 입력하고; 상기 다음 기본 유닛을 상기 현재 기본 유닛으로 하고; 상기 현재 기본 유닛에서 출력되는 이미지 특징이 상기 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하는데 사용되며;
상기 훈련 모듈은 상기 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 상기 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 상기 현재 사용자의 얼굴 이미지로 하며, 상기 훈련 대기의 얼굴 인식 모델이 상기 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행하는데 사용된다.
본 출원의 한 방면에 따르면, 전자설비를 제공하며,
하나 이상의 프로세서;
하나 이상의 프로그램을 저장하는데 사용되는 메모리; 를 포함하고,
상기 하나 이상의 프로세서에 의해 상기 하나 이상의 프로그램을 실행할 때, 상기 하나 이상의 프로세서는 본 출원의 실시예에 따른 얼굴 인식 모델의 훈련 방법을 구현한다.
본 출원의 한 방면에 따르면, 컴퓨터 프로그램이 저장된 저장 매체를 제공하며, 해당 프로그램은 프로세서에 의해 실행되여, 본 출원의 실시예에 따른 얼굴 인식 모델의 훈련 방법을 구현한다.
본 출원은 선행기술에서 얼굴에 마스크를 쓴 상황에서, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않은 기술문제를 해결하고, 본 출원의 실시예가 제공한 기술방안은, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있다.
본 부분에서 설명된 내용은 본 개시 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 개시의 범위를 한정하기 위해 사용되는 것이 아님을 이해할 것이다. 본 개시의 다른 특징은 다음 설명을 통해 쉽게 이해할 수 있다. 도면과 상세한 설명을 읽고 이해하면, 기타 방면을 이해할 수 있다.
도면은 본 방안을 더 쉽게 이해하는데 사용되고, 본 출원에 대한 한정을 구성하지 않는다. 여기서,
도 1은 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 방법의 흐름 개략도이다.
도 2는 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 구조 개략도이다.
도 3은 본 출원의 실시예에 의해 제공된 어텐션 모듈의 구조 개략도이다.
도 4는 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 방법의 흐름 개략도이다.
도 5는 본 출원의 실시예에 의해 제공된 공간 어텐션 모듈의 구조 개략도이다.
도 6은 본 출원의 실시예에 의해 제공된 채널 어텐션 모듈의 구조 개략도이다.
도 7은 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 장치의 구조 개략도이다.
도 8은 본 출원의 실시예에 의해 제공된 자체 가중치 처리 모듈의 구조 개략도이다.
도 9는 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 방법을 구현하기 위한 전자설비의 블록도이다.
이하 도면을 결합하여 본 출원의 예시적인 실시예를 설명하며, 이해를 돕기 위해 본 출원의 실시예의 각 세부사항을 포함하나, 이는 단지 예시적인 것으로 간주해야 한다. 따라서, 본 분야의 당업자는, 본 출원의 범위 및 사상을 벗어나지 않는 한, 여기에 설명된 실시예에 대해 여러 가지 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성과 간결성을 위해, 이하의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략한다.
실시예 1
도 1은 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 방법의 흐름 개략도이고, 해당 방법은 얼굴 인식 모델의 훈련 장치 또는 전자설비에 의해 실행될 수 있고, 해당 장치 또는 전자설비는 스포트웨어 및/또는 하드웨어의 방식으로 구현될 수 있고, 해당 장치 또는 전자설비는 임의의 네트워크 통신 기능을 구비하는 지능설비에 통합될 수 있다. 도 1에 도시된 바와 같이, 본 실시예에 의해 제공된 얼굴 인식 모델의 훈련 방법은 단계(S101) 내지 단계(S104)를 포함할 수 있다.
단계(S101), 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않을 때, 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 현재 기본 유닛에 입력하되, 여기서, 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함한다.
본 출원의 구체적인 실시예에서, 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않을 때, 전자설비는 먼저 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 현재 기본 유닛에 입력할 수 있으며; 여기서, 해당 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함한다. 구체적으로, 얼굴 인식 모델은 N 개의 기본 유닛(Block)과 N-1 개의 어텐션 모듈(Attention Module)을 포함할 수 있으며, 두 개의 인접한 기본 유닛 사이마다 하나의 어텐션 모듈을 설치하고; 여기서, N은 1보다 큰 자연수이다.
도 2는 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 구조 개략도이다. 도 2에 도시된 바와 같이, 얼굴 인식 모델은 네 개의 기본 유닛과 세 개의 어텐션 모듈을 포함하고, 상기 네 개의 기본 유닛은 각각 기본 유닛 1, 기본 유닛 2, 기본 유닛 3과 기본 유닛 4이며; 상기 세 개의 어텐션 모듈은 각각 어텐션 모듈 1, 어텐션 모듈 2와 어텐션 모듈 3이고; 여기서, 어텐션 모듈 1은 기본 유닛 1과 기본 유닛 2 사이에 설치되고; 어텐션 모듈 2는 기본 유닛 2와 기본 유닛 3 사이에 설치되며; 어텐션 모듈 3은 기본 유닛 3과 기본 유닛 4 사이에 설치된다. 구체적으로, 얼굴 이미지(마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함함)는 기본 유닛 1에 먼저 입력되어, 기본 유닛 1에서 출력되는 이미지 특징을 획득하고; 기본 유닛 1에서 출력되는 이미지 특징을 어텐션 모듈 1에 입력하며, 어텐션 모듈 1을 통해 기본 유닛 1에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 어텐션 모듈 1이 자체 가중치 처리를 수행한 이미지 특징을 획득하고; 어텐션 모듈 1이 자체 가중치 처리를 수행한 이미지 특징을 기본 유닛 2에 다시 입력하여, 기본 유닛 2에서 출력되는 이미지 특징을 회득하며; 기본 유닛 2에서 출력되는 이미지 특징을 어텐션 모듈 2에 입력하고, 어텐션 모듈 2를 통해 기본 유닛 2에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 어텐션 모듈 2가 자체 가중치 처리를 수행한 이미지 특징을 획득하며; 어텐션 모듈 2가 자체 가중치 처리를 수행한 이미지 특징을 기본 유닛 3에 입력하여, 기본 유닛 3에서 출력되는 이미지 특징을 획득하고; 기본 유닛 3에서 출력되는 이미지 특징을 어텐션 모듈 3에 입력하고, 어텐션 모듈 3을 통해 기본 유닛 3에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 어텐션 모듈 3이 자체 가중치 처리를 수행한 이미지 특징을 획득하며; 어텐션 모듈 3이 자체 가중치 처리를 수행한 이미지 특징을 기본 유닛 4에 입력하여, 기본 유닛 4에서 출력되는 이미지 특징을 획득할 수 있다.
단계(S102), 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득한다.
본 출원의 구체적인 실시예에서, 전자설비는 현재 기본 유닛에서 출력되는 이미지 특징을 어텐션 모듈에 입력하고, 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득할 수 있으며; 여기서, 현재 어텐션 모듈은 현재 기본 유닛과 현재 기본 유닛의 다음 기본 유닛 사이에 설치된다. 구체적으로, 전자설비는 먼저 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈의 공간 어텐션 모듈(Spacial Attention Module)에 입력하여, 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하고; 그다음 현재 기본 유닛에서 출력되는 이미지 특징과 공간 어텐션 모듈에서 출력되는 공간 마스크 코드를 첫 번째 요소별 곱셈하여, 첫 번째 요소별 곱셈 후의 이미지 특징을 획득하며; 그리고 첫 번째 요소별 곱셈 후의 이미지 특징을 현재 어텐션 모듈의 채널 어텐션 모듈(Channel Attention Module)에 입력하여, 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득하고; 그다음 첫 번째 요소별 곱셈 후의 이미지 특징과 채널 어텐션 모듈에서 출력되는 채널 마스크를 두 번째 요소별 곱셈하여, 두 번째 요소별 곱셈 후의 이미지 특징을 획득하며; 두 번째 요소별 곱셈 후의 이미지 특징을 자체 가중치 처리된 이미지 특징으로 할 수 있다.
도 3은 본 출원의 실시예에 의해 제공된 어텐션 모듈의 구조 개략도이다. 도 3에 도시된 바와 같이, 어텐션 모듈은, 입력 모듈, 공간 어텐션 모듈, 제 1 계산 모듈, 채널 어텐션 모듈, 제 2 계산 모듈 및 출력 모듈을 포함할 수 있고; 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행할 때, 먼저 입력 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징을 공간 어텐션 모듈과 제 1 계산 모듈에 각각 입력할 수 있으며; 제 1 계산 모듈은 현재 기본 유닛에서 출력되는 이미지 특징과 공간 어텐션 모듈에서 출력되는 공간 마스크를 첫 번째 요소별 곱셈하여, 첫 번째 요소별 곱셈 후의 이미지 특징을 획득하고; 그다음 첫 번째 요소별 곱셈 후의 이미지 특징을 채널 어텐션 모듈과 제 2 계산 모듈에 각각 입력하며; 제 2 계산 모듈은 첫 번째 요소별 곱셈 후의 이미지 특징과 채널 어텐션 모듈에서 출력되는 채널 마스크를 두 번째 요소별 곱셈하여, 두 번째 요소별 곱셈 후의 이미지 특징을 획득하고; 두 번째 요소별 곱셈 후의 이미지 특징을 자체 가중치 처리된 이미지 특징으로 한다.
단계(S103), 자체 가중치 처리된 이미지 특징을 현재 기본 유닛의 다음 기본 유닛에 입력하고; 다음 기본 유닛을 현재 기본 유닛으로 하고; 현재 기본 유닛에서 출력되는 이미지 특징이 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행한다.
본 출원의 구체적인 실시예에서, 전자설비는 자체 가중치 처리된 이미지 특징을 현재 기본 유닛의 다음 기본 유닛에 입력하고; 다음 기본 유닛을 현재 기본 유닛으로 하고; 현재 기본 유닛에서 출력되는 이미지 특징이 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행할 수 있다. 예를 들어, 전자설비는 어텐션 모듈 1에 의해 자체 가중치 처리된 이미지 특징을 획득한 후, 어텐션 모듈 1에 의해 자체 가중치 처리된 이미지 특징을 기본 유닛 2에 입력하고; 기본 유닛 2를 현재 기본 유닛으로 하며; 현재 기본 유닛에서 출력되는 이미지 특징이 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행한다.
단계(S104), 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 현재 사용자의 얼굴 이미지로 하며, 훈련할 얼굴 인식 모델이 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행한다.
본 출원의 구체적인 실시예에서, 전자설비는 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 현재 사용자의 얼굴 이미지로 하며, 훈련할 얼굴 인식 모델이 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행할 수 있다. 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지가 동일한 사람의 얼굴 이미지이지만, 마스크를 쓴 얼굴 이미지를 훈련할 얼굴 인식 모델에 입력하여 획득한 이미지 특징과 마스크를 쓰지 않은 얼굴 이미지를 훈련할 얼굴 인식 모델에 입력하여 획득한 이미지 특징은 일정한 차이가 있으므로, 손실 함수(Additive Angular Margin Loss)를 통해 둘 사이의 차이를 계산하고, 두 이미지 특징의 차이에 따라 훈련할 얼굴 인식 모델에 대한 파라미터를 조정한다.
바람직하게, 본 출원의 구체적인 실시예에서, 전자설비는 먼저 비마스크 얼굴 인식 모델을 먼저 훈련하고; 그다음 비마스크 얼굴 인식 모델에 어텐션 모듈을 추가할 수 있으며; 이때 비마스크 얼굴 인식 모델을 고정해야 하고, 어텐션 모듈만 합습하며; 어텐션 모듈의 구조가 동일하면, 주류의 신경망(예를 들어, Backbone, Resnet 등)의 Block의 중간에 감입할수 있다. 각 Block에서 출력되는 이미지 특징을 순착적으로 공간 어텐션 모듈에서 출력되는 공간 마스크와 채널 어텐션 모듈에서 출력되는 채널 마스크에 곱하면, 출력된 이미지 특징은 강조와 억제가 생기고, 따라서 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬수 있다.
본 출원의 실시예에서 제출한 얼굴 인식 모델의 훈련 방법은, 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 못할 경우, 먼저 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 현재 기본 유닛에 입력하며; 그다음 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하고; 그리고 자체 가중치 처리된 이미지 특징을 현재 기본 유닛의 다음 기본 유닛에 입력하고; 다음 기본 유닛을 현재 기본 유닛으로 하며; 현재 기본 유닛에서 출력되는 이미지 특징이 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하고; 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 훈련할 얼굴 인식 모델에 대해 훈련을 수행하며, 다음 사용자의 얼굴 이미지를 현재 사용자의 얼굴 이미지로 하고, 훈련할 얼굴 인식 모델이 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행한다. 즉, 본 출원은 현재 기본 유닛과 현재 기본 유닛의 다음 기본 유닛 사이에 하나의 현재 어텐션 모듈을 설치하고, 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 강조와 억제를 진행하여, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있다. 그러나 종래의 얼굴 인식 모델의 훈련 방법에서는, 얼굴에 마스크를 쓴 상황에서, 얼굴 인식 모델 특수 처리를 하지 않기 때문에, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않다. 본 출원은 서로 인접한 두개의 기본 유닛 사이마다 하나의 어텐션 모듈을 설치하는 기술수단을 사용하여, 선행기술에서 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않은 기술 문제를 극복하고, 본 출원에서 제공한 기술방안은, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있으며; 본 출원의 실시예의 기술방안은 구현이 간단하고 편리하며 대중화되기 쉽고 적용 범위가 더 넓다.
실시예 2
도 4은 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 방법의 흐름 개략도이다. 본 실시예는 상기 실시예의 기초에서 제출한 하나의 선택가능한 방안이다. 도 4에 도시된 바와 같이, 얼굴 인식 모델의 훈련 방법은 단계(S401) 내지 단계(S407)를 포함할 수 있다.
단계(S401), 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않을 때, 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 얼굴 이미지를 현재 기본 유닛에 입력하되, 여기서, 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함한다.
단계(S402), 현재 기본 유닛에서 출력되는 이미지 특징을 어텐션 모듈의 공간 어텐션 모듈에 입력하여, 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득한다.
본 출원의 구체적인 실시예에서, 전자설비는 현재 기본 유닛에서 출력되는 이미지 특징을 어텐션 모듈의 공간 어텐션 모듈에 입력하여, 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득할 수 있다. 구체적으로, 전자설비는 먼저 현재 기본 유닛에서 출력되는 얼굴 특징을 공간 어텐션 모듈의 채널 최대 글로벌풀과 채널 평균 글로벌풀에 각각 입력하여, 채널 최대 글로벌풀에서 출력되는 이미지 특징과 채널 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 그다음 채널 최대 글로벌풀에서 출력되는 이미지 특징과 채널 평균 글로벌풀에서 출력되는 이미지 특징에 대해 컨볼루션 계산을 수행하여, 컨볼루션 계산 후의 이미지 특징을 획득하며; 그다음 컨볼루션 계산 후의 이미지 특징에 따라 계산하여 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득할 수 있다. 구체적으로, 공간 어텐션 모듈에서 출력되는 공간 마스크는 이미지 특징 중의 각 특징에 대응하는 공간 가중치로 구성된 매트릭스일 수 있다. 구체적으로, 현재 기본 유닛에서 출력되는 이미지 특징은, 특징 1내지 특징 M를 포함할 수 있고; 여기서, M는 1보다 크거나 같은 자연수이기 때문에; 공간 어텐션 모듈에서 출력되는 공간 마스크는, 공간 가중치 1 내지 공간 가중치 M를 포함할 수 있다.
바람직하게, 본 출원의 구체적인 실시예에서, 컨볼루션 계산 후의 이미지 특징의 치수는 (1, 1, H, W)이고; 여기서, H는 얼굴 이미지의 높이를 표시하며; W는 얼굴 이미지의 너비를 표시한다. 상기 치수 설정은 얼굴 인식 모델이 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 더 효과적으로 향상시킬 수 있다.
도 5는 본 출원의 실시예에 의해 제공된 공간 어텐션 모듈의 구조 개략도이다. 도 5에 도시된 바와 같이, 공간 어텐션 모듈은, 공간 입력 모듈, 채널 최대 글로벌풀(Channel Max Global Pool), 채널 평균 글로벌풀(Channel Avg Global Pool), 컨볼루션 계산 모듈(Conv)과 공간 마스크계산 모듈(Spacial Mask)를 포함할 수 있다. 전자설비는 먼저 공간 입력 모듈을 통해 현재 기본 유닛에서 출력되는 얼굴 특징을 채널 최대 글로벌풀과 채널 평균 글로벌풀에 각각 입력하여, 채널 최대 글로벌풀에서 출력되는 이미지 특징과 채널 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 그다음 채널 최대 글로벌풀과 채널 평균 글로벌풀을 각각의 출력된 이미지 특징을 컨볼루션 계산 모듈에 입력하여, 컨볼루션 계산 모듈에서 출력되는 이미지 특징을 획득하며; 그다음 컨볼루션 계산 모듈에서 출력되는 이미지 특징을 공간 마스크 계산 모듈에 입력하여, 공간 마스크 계산 모듈에서 출력되는 공간 마스크를 획득하며; 공간 마스크 계산 모듈에서 출력되는 공간 마스크를 공간 어텐션 모듈이 출력한 공간 마스크로 할 수 있다.
단계(S403), 현재 기본 유닛에서 출력되는 이미지 특징과 공간 어텐션 모듈에서 출력되는 공간 마스크를 첫 번째 요소별 곱셈하여, 첫 번째 요소별 곱셈 후의 이미지 특징을 획득한다.
본 출원의 구체적인 실시예에서, 전자설비는 현재 기본 유닛에서 출력되는 이미지 특징과 공간 어텐션 모듈에서 출력되는 공간 마스크를 첫 번째 요소별 바이 곱셈하여, 첫 번째 요소별 곱셈 후의 이미지 특징을 얻을 수 있다. 구체적으로, 현재 기본 유닛에서 출력되는 이미지 특징은, 특징 1 내지 특징 M를 포함할 수 있고; 여기서, M는 1보다 크거나 같은 자연수이기 때문에; 공간 어텐션 모듈에서 출력되는 공간 마스크는, 공간 가중치 1 내지 공간 가중치 M를 포함할 수 있다. 본 단계에서, 특징 1을 공간 가중치 1과 곱하여, 특징 1이 수정된 이미지 특징을 획득하고; 특징 2를 공간 가중치 2와 곱하여, 특징 2가 수정된 이미지 특징을 획득하며; 이것으로 유추해보면, 특징 M가 수정된 이미지 특징을 획득할 때 까지, 특징 M를 공간 가중치 M와 곱한다. 예를 들어, 현재 기본 유닛에서 출력되는 이미지 특징이 특징 1 내지 특징 9를 포함할 수 있다고 가정하면; 따라서, 공간 어텐션 모듈에서 출력되는 공간 마스크는, 공간 가중치 1 내지 공간 가중치 9를 포함할 수 있다. 본 단계에서, 특징 1을 공간 가중치 1과 곱하여, 특징 1이 수정된 이미지 특징을 획득하고; 특징 2를 공간 가중치 2와 곱하여, 특징 2가 수정된 이미지 특징을 획득하며; 이것으로 유추해보면, 특징 9가 수정된 이미지 특징을 획득할 때 까지, 특징 9를 공간 가중치 9와 곱한다.
단계(S404), 첫 번째 요소별 곱셈 후의 이미지 특징을 어텐션 모듈의 채널 어텐션 모듈에 입력하여, 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득한다.
본 출원의 구체적인 실시예에서, 전자설비는 첫 번째 요소별 곱셈 후의 이미지 특징을 어텐션 모듈의 채널 어텐션 모듈에 입력하여, 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득할 수 있다. 구체적으로, 전자설비는 먼저 첫 번째 요소별 곱셈 후의 이미지 특징을 채널 어텐션 모듈의 최대 글로벌풀과 평균 글로벌풀에 각각 입력하여, 최대 글로벌풀에서 출력되는 이미지 특징과 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 그다음 최대 글로벌풀에서 출력되는 이미지 특징과 평균 글로벌풀에서 출력되는 이미지 특징을 다층 감지기에 각각 입력하여, 다층 감지기에서 출력되는 이미지 특징을 획득하며; 그다음 다층 감지기에서 출력되는 이미지 특징에 따라 계산하여 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득할 수 있다. 구체적으로, 채널 어텐션 모듈에서 출력되는 채널 마스크는 이미지 특징이 위치한 각 채널에 대응하는 가중치로 구성된 매트릭스일 수 있다. 구체적으로, 현재 기본 유닛에서 출력되는 이미지 특징이 위치한 채널은, 채널 1 내지 채널 P를 포함할 수 있고; 여기서, P는 1보다 크거나 같은 자연수이기 때문에; 채널 어텐션 모듈에서 출력되는 채널 마스크는, 채널 가중치 1 내지 채널 가중치 P를 포함할 수 있다.
도 6은 본 출원의 실시예에 의해 제공된 채널 어텐션 모듈의 구조 개략도이다. 도 6에 도시된 바와 같이, 채널 어텐션 모듈은, 채널 입력 모듈, 최대 글로벌풀(Max Global Pool), 평균 글로벌풀(Avg Global Pool), 다층 감지기(MLP) 및 채널 마스크계산 모듈(Channel Mask)을 포함할 수 있다. 구체적으로, 전자설비는 먼저 채널 입력 모듈을 통해 첫 번째 요소별 곱셈 후의 이미지 특징을 최대 글로벌풀과 평균 글로벌풀에 각각 입력하여, 최대 글로벌풀에서 출력되는 이미지 특징과 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 그다음 최대 글로벌풀에서 출력되는 이미지 특징과 평균 글로벌풀에서 출력되는 이미지 특징을 다층 감지기에 각각 입력하여, 다층 감지기에서 출력되는 이미지 특징을 획득하며; 그다음 다층 감지기에서 출력되는 이미지 특징을 채널 마스크계산 모듈에 입력하여, 채널 마스크계산 모듈에서 출력되는 채널 마스크를 획득하고, 채널 마스크 계산 모듈에서 출력되는 채널 마스크를 어텐션 모듈에서 출력되는 채널 마스크로 할 수 있다.
바람직하게, 본 출원의 구체적인 실시예에서, 다층 감지기는 2 계층 완전 연결 네트워크이고, 이는, 제 1 층 완전 연결 네트워크와 제 2 층 완전 연결 네트워크를 포함하고; 여기서, 제 1 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C/4, 1, 1)이고; 제 2 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C, 1, 1)이며; 여기서, C는 얼굴 이미지의 채널수를 표시한다.
단계(S405), 첫 번째 요소별 곱셈 후의 이미지 특징과 채널 어텐션 모듈에서 출력되는 채널 마스크를 두 번째 요소별 곱셈하여, 두 번째 요소별 곱셈 후의 이미지 특징을 획득하고; 두 번째 요소별 곱셈 후의 이미지 특징을 자체 가중치 처리된 이미지 특징으로 한다. 상기 치수 설정은 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 더 효과적으로 향상시킬 수 있다.
본 출원의 구체적인 실시예에서, 전자설비는 첫 번째 요소별 곱셈 후의 이미지 특징과 채널 어텐션 모듈에서 출력되는 채널 마스크를 두 번째 요소별 곱셈하여, 두 번째 요소별 곱셈 후의 이미지 특징을 획득하며; 두 번째 요소별 곱셈 후의 이미지 특징을 자체 가중치 처리 후의 이미지 특징으로 할 수 있다. 구체적으로, 첫 번째 요소별 곱셈 후의 이미지 특징이 위치한 채널은, 채널 1 내지 채널 P를 포함할 수 있고; 여기서, P는 1보다 크거나 같은 자연수이기 때문에; 채널 어텐션 모듈에서 출력되는 채널 마스크는, 채널 가중치 1 내지 채널 가중치 M를 포함할 수 있다. 본 단계에서, 채널 1에서의 특징을 채널 가중치 1과 곱하여, 채널 1에서의 특징이 수정된 이미지 특징을 획득하고; 채널 2에서의 특징을 채널 가중치 2와 곱하여, 채널 2에서의 특징이 수정된 이미지 특징을 획득하며; 이것으로 유추해보면, 채널 P에서의 특징이 수정된 이미지 특징을 획득할 때 까지, 채널 P에서의 특징을 채널 가중치 M와 곱한다. 예를 들어, 현재 기본 유닛에서 출력되는 이미지 특징이 위치한 채널이 채널 1 내지 채널 3을 포함할 수 있다고 가정하면; 따라서, 채널 어텐션 모듈에서 출력되는 공간 마스크는, 채널 가중치 1 내지 채널 가중치 3을 포함할 수 있다. 본 단계에서, 채널 1에서의 특징을 채널 가중치 1과 곱하여, 채널 1에서 수정된 이미지 특징을 획득하고; 채널 2에서의 특징을 채널 가중치 2와 곱하여, 채널 2에서의 특징이 수정된 이미지 특징을 획득하며; 채널 3에서의 특징을 채널 가중치 3과 곱하여, 채널 3에서의 특징이 수정된 이미지 특징을 획득한다.
단계(S406), 자체 가중치 처리된 이미지 특징을 현재 기본 유닛의 다음 기본 유닛에 입력하고; 다음 기본 유닛을 현재 기본 유닛으로 하고; 현재 기본 유닛에서 출력되는 이미지 특징이 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행한다.
단계(S407), 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 현재 사용자의 얼굴 이미지로 하며, 훈련할 얼굴 인식 모델이 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행한다.
본 출원의 실시예에서 제출한 얼굴 인식 모델의 훈련 방법은, 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 못한 경우, 먼저 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 현재 기본 유닛에 입력하며; 그다음 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하고; 그다음 자체 가중치 처리된 이미지 특징을 현재 기본 유닛의 다음 기본 유닛에 입력하고; 다음 기본 유닛을 현재 기본 유닛으로 하며; 현재 기본 유닛에서 출력되는 이미지 특징이 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하고; 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 훈련할 얼굴 인식 모델에 대해 훈련을 수행하며, 다음 사용자의 얼굴 이미지를 현재 사용자의 얼굴 이미지로 하고, 훈련할 얼굴 인식 모델이 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행한다. 즉, 본 출원은 현재 기본 유닛과 현재 기본 유닛의 다음 기본 유닛 사이에 하나의 현재 어텐션 모듈을 설치하고, 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 강조와 억제를 진행하여, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있다. 종래의 얼굴 인식 모델의 훈련 방법에서는, 얼굴에 마스크를 쓴 상황에서, 얼굴 인식 모델 특수 처리를 하지 않기 때문에, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않다. 본 출원은 서로 인접한 두개의 기본 유닛의 사이마다 하나의 어텐션 모듈을 설치하는 기술수단을 사용하여, 선행기술에서 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않은 기술 문제를 극복하고, 본 출원에서 제공한 기술방안은, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있으며; 본 출원의 실시예의 기술방안은 구현이 간단하고 편리하며 대중화되기 쉽고 적용 범위가 더 넓다.
실시예 3
도 7은 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 장치의 구조 개략도이다. 도 7에 도시된 바와 같이, 상기 장치(700)는, 입력 모듈(701), 자체 가중치 처리 모듈(702)과 훈련 모듈(703)을 포함하고; 여기서,
상기 입력 모듈(701)은, 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않은 경우, 상기 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 상기 현재 기본 유닛에 입력하는데 사용되며; 여기서, 상기 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함하고;
상기 자체 가중치 처리 모듈(702)은, 상기 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 상기 현재 어텐션 모듈을 통해 상기 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하는데 사용되며;
상기 입력 모듈(701)은 또한, 상기 자체 가중치 처리된 이미지 특징을 상기 현재 기본 유닛의 다음 기본 유닛에 입력하고; 상기 다음 기본 유닛을 상기 현재 기본 유닛으로 하고; 상기 현재 기본 유닛에서 출력되는 이미지 특징이 상기 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하는데 사용되며;
상기 훈련 모듈(703)은, 상기 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 상기 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 상기 현재 사용자의 얼굴 이미지로 하며, 상기 훈련할 얼굴 인식 모델이 상기 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행하는데 사용된다.
도 8은 본 출원의 실시예에 의해 제공된 자체 가중치 처리 모듈의 구조 개략도이다. 도 8에 도시된 바와 같이, 상기 자체 가중치 처리 모듈(702)은, 공간 마스크 계산 서브 모듈(7021), 제 1 가중치 처리 서브 모듈(7022), 채널 마스크 계산 서브 모듈(7023)과 제 2 가중치 처리 서브 모듈(7024)을 포함하고; 여기서,
상기 공간 마스크 계산 서브 모듈(7021)은 상기 현재 기본 유닛에서 출력되는 이미지 특징을 상기 현재 어텐션 모듈의 공간 어텐션 모듈에 입력하여, 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하는데 사용되고;
상기 제 1 가중치 처리 서브 모듈(7022)은 상기 현재 기본 유닛에서 출력되는 이미지 특징과 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 첫 번째 요소별 곱셈하여, 첫 번째 요소별 곱셈 후의 이미지 특징을 획득하는데 사용되며;
상기 채널 마스크 계산 서브 모듈(7023)은 상기 첫 번째 요소별 곱셈 후의 이미지 특징을 상기 현재 어텐션 모듈의 채널 어텐션 모듈에 입력하여, 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득하는데 사용되며;
상기 제 2 가중치 처리 서브 모듈(7024)은 상기 첫 번째 요소별 곱셈 후의 이미지 특징과 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 두 번째 요소별 곱셈하여, 두 번째 요소별 곱셈 후의 이미지 특징을 획득하고; 상기 두 번째 요소별 곱셈 후의 이미지 특징을 상기 자체 가중치 처리 후의 이미지 특징으로 하는데 사용된다.
더 나아가, 상기 공간 마스크 계산 서브 모듈(7021)은 상기 현재 기본 유닛에서 출력되는 얼굴 특징을 상기 공간 어텐션 모듈의 채널 최대 글로벌풀과 채널 평균 글로벌풀에 각각 입력하여, 상기 채널 최대 글로벌풀에서 출력되는 이미지 특징과 상기 채널 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 상기 채널 최대 글로벌풀에서 출력되는 이미지 특징과 상기 채널 평균 글로벌풀에서 출력되는 이미지 특징을 컨볼루션 계산하여, 컨볼루션 계산 후의 이미지 특징을 획득하며; 상기 컨볼루션 계산 후의 이미지 특징에 따라 계산하여 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하는데 사용된다.
더 나아가, 상기 채널 마스크 계산 서브 모듈(7022)은 상기 첫 번째 요소별 곱셈 후의 이미지 특징을 상기 채널 어텐션 모듈의 최대 글로벌풀과 평균 글로벌풀에 각각 입력하여, 상기 최대 글로벌풀에서 출력되는 이미지 특징과 상기 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 상기 최대 글로벌풀에서 출력되는 이미지 특징과 상기 평균 글로벌풀에서 출력되는 이미지 특징을 다층 감지기에 각각 입력하여, 상기 다층 감지기에서 출력되는 이미지 특징을 획득하며; 상기 감지기에서 출력되는 이미지 특징에 따라 계산하여 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득하는데 사용된다.
더 나아가, 상기 컨볼루션 계산 후의 이미지 특징의 치수는 (1, 1, H, W)이고; 여기서, H는 상기 얼굴 이미지의 높이를 표시하며; W는 상기 얼굴 이미지의 너비를 표시한다.
더 나아가, 상기 다층 감지기는 2 계층 완전 연결 네트워크이고, 이는, 제 1 층 완전 연결 네트워크와 제 2 층 완전 연결 네트워크를 포함하고; 여기서, 상기 제 1 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C/4, 1, 1)이고; 상기 제 2 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C, 1, 1)이며; 여기서, C는 상기 얼굴 이미지의 채널수를 표시한다.
상기 얼굴 인식 모델의 훈련 장치는 본 출원의 임의의 실시예에서 제공하는 방법을 실행할 수 있으며, 방법을 실행할 수 있는 상응한 기능 모듈과 유익한 효과를 구비한다. 본 실시예에서 상세하게 설명되지 않은 기술적 세부사항은, 본 출원의 임의의 실시예에서 제공되는 얼굴 인식 모델의 훈련 방법을 참조할 수 있다.
실시예 4
본 출원의 실시예에 따라, 본 출원에서는 전자설비 및 판독 가능 저장 매체를 더 제공한다.
도 9에 도시된 바와 같이, 본 출원의 실시예에 의해 제공된 얼굴 인식 모델의 훈련 방법을 구현하기 위한 전자설비의 블록도이다. 전자설비는 다양한 형태의 디지털 컴퓨터를 표시하며, 예를 들어, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인용 정보 단말기(Personal Digital Assistant), 서버, 블레이드 서버, 메인프레임 컴퓨터 및 기타 적합한 컴퓨터를 표시한다. 전자설비는 또한 다양한 형태의 모바일 장치를 표시할 수 있으며, 예를 들어, 개인용 정보 단말기, 셀 폰, 스마트 폰, 웨어러블 설비 및 기타 유사한 컴퓨팅 장치를 표시할 수 있다. 본문에 서술된 부재, 이들의 연결, 관계, 및 이들의 기능은 단지 예시적인 것일 뿐, 본문에서 설명되는 및/또는 요구되는 본 출원의 구현을 한정하지 않는다.
도 9에 도시된 바와 같이, 해당 전자설비는, 하나 또는 다수의 프로세서(901), 메모리(902), 및 각 부재를 연결하기 위한 인터페이스를 포함하며, 상기 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되며, 공공 메인보드에 설치되거나 수요에 따라 기타 방식으로 설치될 수 있다. 프로세서는 메모리에 저장되거나 또는 메모리에 저장되어 외부 입/출력 장치(예: 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함하는 전자설비에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요한 경우, 복수의 프로세서 및/또는 복수의 버스가 복수의 메모리와 함께 사용될 수 있다. 마찬가지로, 여러 전자설비를 연결할 수 있으며 각 장치는 일부 필요한 작업(예: 서버 어레이, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공한다. 도 9에서는 하나의 프로세서(901)로 예를 들어 설명한다.
메모리(902)는 본 출원에서 제공하는 비일시적 컴퓨터 판독가능 저장매체이다. 여기서, 상기 메모리는 적어도 하나의 프로세서에 의해 실행 가능한 명령을 저장하여, 상기 적어도 하나의 프로세서가 본 출원에 의해 제공된 얼굴 인식 모델의 훈련 방법을 실행하도록 한다. 본 출원의 비일시적 컴퓨터 판독가능 저장 매체에는 컴퓨터 명령이 저장되며, 해당 컴퓨터 명령은 컴퓨터가 본 출원에서 제공하는 얼굴 인식 모델의 훈련 방법을 실행하도록 한다.
메모리(902)는 비일시적 컴퓨터 판독가능 저장매체로써, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용되며, 예를 들어, 본 출원의 실시예의 얼굴 인식 모델의 훈련 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 7에 도시된 입력 모듈(701), 자체 가중치 처리 모듈(702) 및 훈련 모듈(703))을 저장하는데 사용된다. 프로세서(901)는 메모리(902)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여, 서버의 여러 가지 기능적 응용 및 데이터 처리를 수행하여, 상기 방법 실시예에서의 얼굴 인식 모델의 훈련 방법을 구현한다.
메모리(902)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있으며, 여기서, 프로그램 저장 영역은 운영 시스템(operation system), 적어도 하나의 기능에 필요한 애플리케이션을 저장할 수 있고; 저장 데이터 영역은 얼굴 인식 모델에 따른 훈련 방법을 실현하기 위한 전자설비의 사용에 따라 생성된 데이터를 저장할 수 있다. 또한, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비일시적 메모리를 더 포함할 수 있는데, 예를 들어, 적어도 하나의 자기 디스크 저장 소자, 플래시 저장 소자 또는 기타 비일시적인 솔리드 스테이트 저장 소자를 포함할 수 있다. 일부 실시예에서, 메모리(902)는 프로세서(901)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 얼굴 인식 모델의 훈련 방법을 실현하는 전자설비에 연결될 수 있다. 상기 네트워크의 예시로는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합이 포함되지만 이에 한정되지 않는다.
얼굴 인식 모델의 훈련 방법을 실현하는 전자설비는 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 9에서는 버스를 통해 연결되는 것을 예로 들어 설명한다.
입력 장치(903)는 입력되는 디지털 또는 문자(Character) 정보를 수신하고, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 이상의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치와 같은 리소스 추천 방법 및/또는 파라미터 결정 방법을 구현하는 전자설비의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있다. 출력 장치(704)는 디스플레이 장치, 보조 조명 장치(예: LED), 촉각 피드백 장치(예: 진동 모터) 등을 포함할 수 있다. 해당 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이, 플라즈마 디스플레이 등을 포함할 수 있지만, 이에 한정되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린일 수 있다.
여기에 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 집적 회로(ASIC), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에서 구현되는 방식을 포함할 수 있으며, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 및/또는 해석(interpretating)될 수 있으며, 해당 프로그램 가능한 프로세서는 전용 또는 범용 프로그램 가능한 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)에는 프로그램 가능한 프로세서의 기계 명령이 포함되며 고급 프로세스 및/또는 객체 지향 프로그램 가능한 언어 및/또는 어셈블리/기계 언어를 사용하여 컴퓨팅 프로그램을 실시할 수 있다. 본 문서에 사용된 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서에 제공하는 모든 컴퓨터 프로그램 제품, 설비 및/또는 장치(예를 들어, 디스크, 광 디스크, 메모리, 프로그램 가능한 논리 장치(PLD))를 의미하며, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. "기계 판독 가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서에 제공하는데 사용되는 모든 신호를 의미한다.
사용자와의 상호 작용을 위해, 여기에서 설명된 시스템 및 기술은 컴퓨터 상에서 구현될 수 있으며, 해당 컴퓨터는, 사용자에게 정보를 디스플레이 하기 위한 디스플레이 장치(예를 들어, 음극선관(CRT) 또는 액정디스플레이(LCD) 모니터) 및 키보드와 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 해당 키보드 및 해당 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치도 사용자와의 상호 작용을 제공할 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 햅틱 피드백과 같은 임의의 형태의 센싱 피드백일 수 있으며, 사운드 입력, 음성 입력 또는 햅틱 입력과 같은 임의의 형태를 사용하여 사용자로부터의 입력을 수신할 수 있다.
여기에서 설명된 시스템 및 기술은 백엔드 구성 요소(back-end component)를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버)에서 구현될 수 있거나, 미들웨어 구성 요소(middleware component)를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버) 구현될 수 있거나, 프론트엔드 구성 요소(front-end component)를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 웹브라우저를 통해 여기에서 설명된 시스템 및 기술의 실시형태와 상호 작용할 수 있음)에서 구현될 수 있거나, 이러한 백엔드 구성 요소, 미들웨어 구성 요소 또는 프론트엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 구성 요소는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예시에는 근거리 통신망(LAN), 원거리 통신망(WAN), 블록 체인 네트워크 및 인터넷이 포함된다.
컴퓨터 시스템에는 클라이언트단과 서버가 포함될 수 있다. 클라이언트단과 서버는 일반적으로 서로 멀리 떨어져 있으며, 통상적으로 통신 네트워크를 통해 상호 작용을 수행한다. 클라이언트단과 서버 간의 관계는 대응되는 컴퓨터 상에서 실행되고 서로 클라이언트단-서버 관계를 구비하는 컴퓨터 프로그램을 통해 발생한다.
본 출원의 실시예의 기술 방안에 따라, 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 못한 경우, 먼저 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 현재 기본 유닛에 입력하며; 그다음 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하고; 그다음 자체 가중치 처리된 이미지 특징을 현재 기본 유닛의 다음 기본 유닛에 입력하고; 다음 기본 유닛을 현재 기본 유닛으로 하며; 현재 기본 유닛에서 출력되는 이미지 특징이 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하고; 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 훈련할 얼굴 인식 모델에 대해 훈련을 수행하며, 다음 사용자의 얼굴 이미지를 현재 사용자의 얼굴 이미지로 하고, 훈련할 얼굴 인식 모델이 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행한다. 즉, 본 출원은 현재 기본 유닛과 현재 기본 유닛의 다음 기본 유닛의 사이에 하나의 현재 어텐션 모듈을 설치하고, 현재 어텐션 모듈을 통해 현재 기본 유닛에서 출력되는 이미지 특징에 대해 강조와 억제를 진행하여, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있다. 종래의 얼굴 인식 모델의 훈련 방법에서는, 얼굴에 마스크를 쓴 상황에서, 얼굴 인식 모델 특수 처리를 하지 않기 때문에, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않다. 본 출원은 각 서로 인접한 두개의 기본 유닛의 사이에 하나의 어텐션 모듈을 설치하는 기술 수단을 사용하여, 선행기술에서 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도가 높지 않은 기술 문제를 극복하고, 본 출원에서 제공한 기술방안은, 마스크를 쓴 얼굴에 대한 얼굴 인식 모델의 인식 정확도를 효과적으로 향상시킬 수 있으며; 본 출원의 실시예의 기술방안은 구현이 간단하고 편리하며 대중화되기 쉽고 적용 범위가 더 넓다.
상기에 언급된 여러 가지 형태의 프로세스를 사용하여 재배열하거나, 단계를 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 개시에 기재된 각각의 단계는 병행으로 수행될 수도 있고, 순서대로 수행될 수도 있으며, 상이한 순서로 수행될 수도 있는데, 본 개시의 기술방안이 원하는 결과를 구현할 수 있기만 하면, 본문에서는 이에 대해 한정하지 않는다.
상기 구체적인 실시형태는 본 개시의 보호 범위에 대해 한정하지 않는다. 본 분야의 당업자는 설계 요구 및 기타 요소에 따라 여러 가지 수정, 조합, 서브 조합 및 대체를 수행할 수 있음을 알아햐 한다.

Claims (14)

  1. 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않을 때, 상기 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 상기 현재 기본 유닛에 입력하는 단계-여기서, 상기 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함함-;
    상기 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 상기 현재 어텐션 모듈을 통해 상기 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하는 단계;
    상기 자체 가중치 처리된 이미지 특징을 상기 현재 기본 유닛의 다음 기본 유닛에 입력하고; 상기 다음 기본 유닛을 상기 현재 기본 유닛으로 하고; 상기 현재 기본 유닛에서 출력되는 이미지 특징이 상기 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하는 단계;
    상기 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 상기 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 상기 현재 사용자의 얼굴 이미지로 하며, 상기 훈련할 얼굴 인식 모델이 상기 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행하는 단계; 를 포함하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 방법.
  2. 제 1 항에 있어서,
    상기 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 상기 현재 어텐션 모듈을 통해 상기 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하는 단계는,
    상기 현재 기본 유닛에서 출력되는 이미지 특징을 상기 현재 어텐션 모듈의 공간 어텐션 모듈에 입력하여, 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하는 단계;
    상기 현재 기본 유닛에서 출력되는 이미지 특징과 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 첫 번째 요소별 곱셈하여, 첫 번째 요소별 곱셈 후의 이미지 특징을 획득하는 단계;
    상기 첫 번째 요소별 곱셈 후의 이미지 특징을 상기 현재 어텐션 모듈의 채널 어텐션 모듈에 입력하여, 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득하는 단계;
    상기 첫 번째 요소별 곱셈 후의 이미지 특징과 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 두 번째 요소별 곱셈하여, 두 번째 요소별 곱셈 후의 이미지 특징을 획득하고; 상기 두 번째 요소별 곱셈 후의 이미지 특징을 상기 자체 가중치 처리된 이미지 특징으로 하는 단계; 를 포함하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 방법.
  3. 제 2 항에 있어서,
    상기 현재 기본 유닛에서 출력되는 이미지 특징을 상기 현재 어텐션 모듈의 공간 어텐션 모듈에 입력하여, 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하는 단계는,
    상기 현재 기본 유닛에서 출력되는 얼굴 특징을 상기 공간 어텐션 모듈의 채널 최대 글로벌풀과 채널 평균 글로벌풀에 각각 입력하여, 상기 채널 최대 글로벌풀에서 출력되는 이미지 특징과 상기 채널 평균 글로벌풀에서 출력되는 이미지 특징을 획득하는 단계;
    상기 채널 최대 글로벌풀에서 출력되는 이미지 특징과 상기 채널 평균 글로벌풀에서 출력되는 이미지 특징을 컨볼루션 계산하여, 컨볼루션 계산 후의 이미지 특징을 획득하는 단계;
    상기 컨볼루션 계산 후의 이미지 특징에 따라 계산하여 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하는 단계; 를 포함하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 방법.
  4. 제 2 항에 있어서,
    상기 첫 번째 요소별 곱셈 후 획득한 이미지 특징을 상기 어텐션 모듈의 채널 어텐션 모듈에 입력하여, 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득하는 단계는,
    상기 첫 번째 요소별 곱셈 후 획득한 이미지 특징을 상기 채널 어텐션 모듈의 최대 글로벌풀과 평균 글로벌풀에 각각 입력하여, 상기 최대 글로벌풀에서 출력되는 이미지 특징과 상기 평균 글로벌풀에서 출력되는 이미지 특징을 획득하는 단계;
    상기 최대 글로벌풀에서 출력되는 이미지 특징과 상기 평균 글로벌풀에서 출력되는 이미지 특징을 다층 감지기에 각각 입력하여, 상기 다층 감지기에서 출력되는 이미지 특징을 획득하는 단계;
    상기 다층 감지기에서 출력되는 이미지 특징에 따라 계산하여 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득하는 단계; 를 포함하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 방법.
  5. 제 3 항에 있어서,
    상기 컨볼루션 계산 후의 이미지 특징의 치수는 (1, 1, H, W)이고; 여기서, H는 상기 얼굴 이미지의 높이를 표시하고, W는 상기 얼굴 이미지의 너비를 표시하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 방법.
  6. 제 4 항에 있어서,
    상기 다층 감지기는, 제 1 층 완전 연결 네트워크와 제 2 층 완전 연결 네트워크를 포함하는 2 계층 완전 연결 네트워크이고; 여기서, 상기 제 1 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C/4, 1, 1)이고; 상기 제 2 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C, 1, 1)이며; 여기서, C는 상기 얼굴 이미지의 채널수를 표시하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 방법.
  7. 입력 모듈, 자체 가중치 처리 모듈 및 훈련 모듈을 포함하고; 여기서,
    상기 입력 모듈은 훈련할 얼굴 인식 모델이 수렴 조건을 만족하지 않은 경우, 상기 훈련할 얼굴 인식 모델의 첫 번째 기본 유닛을 현재 기본 유닛으로 하고, 현재 사용자의 얼굴 이미지를 상기 현재 기본 유닛에 입력하는데 사용되고, 여기서, 상기 얼굴 이미지는, 마스크를 쓴 얼굴 이미지와 마스크를 쓰지 않은 얼굴 이미지를 포함하며;
    상기 자체 가중치 처리 모듈은 상기 현재 기본 유닛에서 출력되는 이미지 특징을 현재 어텐션 모듈에 입력하고, 상기 현재 어텐션 모듈을 통해 상기 현재 기본 유닛에서 출력되는 이미지 특징에 대해 자체 가중치 처리를 수행하여, 자체 가중치 처리된 이미지 특징을 획득하는데 사용되며;
    상기 입력 모듈은 또한, 상기 자체 가중치 처리된 이미지 특징을 상기 현재 기본 유닛의 다음 기본 유닛에 입력하고; 상기 다음 기본 유닛을 상기 현재 기본 유닛으로 하고; 상기 현재 기본 유닛에서 출력되는 이미지 특징이 상기 훈련할 얼굴 인식 모델의 마지막 기본 유닛에 입력될 때까지, 상기 작업을 반복으로 실행하는데 사용되며;
    상기 훈련 모듈은 상기 마지막 기본 유닛에서 출력되는 이미지 특징을 사용하여 상기 훈련할 얼굴 인식 모델에 대해 훈련을 수행하고, 다음 사용자의 얼굴 이미지를 상기 현재 사용자의 얼굴 이미지로 하며, 상기 훈련할 얼굴 인식 모델이 상기 수렴 조건을 만족할 때까지, 상기 작업을 반복으로 실행하는데 사용되는 것을 특징으로 하는 얼굴 인식 모델의 훈련 장치.
  8. 제 7 항에 있어서,
    상기 자체 가중치 처리 모듈은, 공간 마스크 계산 서브 모듈, 제 1 가중치 처리 서브 모듈, 채널 마스크 계산 서브 모듈 및 제 2 가중치 처리 서브 모듈을 포함하고; 여기서,
    상기 공간 마스크 계산 서브 모듈은 상기 현재 기본 유닛에서 출력되는 이미지 특징을 상기 현재 어텐션 모듈의 공간 어텐션 모듈에 입력하여, 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하는데 사용되고;
    상기 제 1 가중치 처리 서브 모듈은 상기 현재 기본 유닛에서 출력되는 이미지 특징과 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 첫 번째 요소별 곱셈하여, 첫 번째 요소별 곱셈 후의 이미지 특징을 획득하는데 사용되며;
    상기 채널 마스크 계산 서브 모듈은 상기 첫 번째 요소별 곱셈 후의 이미지 특징을 상기 현재 어텐션 모듈의 채널 어텐션 모듈에 입력하여, 채널 어텐션 모듈에서 출력되는 상기 채널 마스크를 획득하는데 사용되며;
    상기 제 2 가중치 처리 서브 모듈은 상기 첫 번째 요소별 곱셈 후의 이미지 특징과 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 두 번째 요소별 곱셈하여, 두 번째 요소별 곱셈 후의 이미지 특징을 획득하고; 상기 두 번째 요소별 곱셈 후의 이미지 특징을 상기 자체 가중치 처리된 이미지 특징으로 하는데 사용되는 것을 특징으로 하는 얼굴 인식 모델의 훈련 장치.
  9. 제 8 항에 있어서,
    상기 공간 마스크 계산 서브 모듈은 상기 현재 기본 유닛에서 출력되는 얼굴 특징을 상기 공간 어텐션 모듈의 채널 최대 글로벌풀과 채널 평균 글로벌풀에 각각 입력하여, 상기 채널 최대 글로벌풀에서 출력되는 이미지 특징과 상기 채널 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 상기 채널 최대 글로벌풀에서 출력되는 이미지 특징과 상기 채널 평균 글로벌풀에서 출력되는 이미지 특징을 컨볼루션 계산하여, 컨볼루션 계산 후의 이미지 특징을 획득하며; 상기 컨볼루션 계산 후의 이미지 특징에 따라 계산하여 상기 공간 어텐션 모듈에서 출력되는 공간 마스크를 획득하는데 사용되는 것을 특징으로 하는 얼굴 인식 모델의 훈련 장치.
  10. 제 8 항에 있어서,
    상기 채널 마스크 계산 서브 모듈은 상기 첫 번째 요소별 곱셈 후의 이미지 특징을 상기 채널 어텐션 모듈의 최대 글로벌풀과 평균 글로벌풀에 각각 입력하여, 상기 최대 글로벌풀에서 출력되는 이미지 특징과 상기 평균 글로벌풀에서 출력되는 이미지 특징을 획득하고; 상기 최대 글로벌풀에서 출력되는 이미지 특징과 상기 평균 글로벌풀에서 출력되는 이미지 특징을 다층 감지기에 각각 입력하여, 상기 다층 감지기에서 출력되는 이미지 특징을 획득하며; 상기 감지기에서 출력되는 이미지 특징에 따라 계산하여 상기 채널 어텐션 모듈에서 출력되는 채널 마스크를 획득하는데 사용되는 것을 특징으로 하는 얼굴 인식 모델의 훈련 장치.
  11. 제 9 항에 있어서,
    상기 컨볼루션 계산 후의 이미지 특징의 치수는 (1, 1, H, W)이고; 여기서, H는 상기 얼굴 이미지의 높이를 표시하고, W는 상기 얼굴 이미지의 너비를 표시하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 장치.
  12. 제 10 항에 있어서,
    상기 다층 감지기는 제 1 층 완전 연결 네트워크와 제 2 층 완전 연결 네트워크를 포함하는 2 계층 완전 연결 네트워크이고; 여기서, 상기 제 1 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C/4, 1, 1)이고; 상기 제 2 층 완전 연결 네트워크에서 출력되는 이미지 특징의 치수는 (1, C, 1, 1)이며; 여기서, C는 상기 얼굴 이미지의 채널수를 표시하는 것을 특징으로 하는 얼굴 인식 모델의 훈련 장치.
  13. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리; 를 포함하며,
    여기서, 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령을 저장하고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제 1항 내지 제 6항 중 어느 한 항에 따른 방법을 실행하도록 하는 것을 특징으로 하는 전자설비.
  14. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독가능 저장매체에 있어서,
    상기 컴퓨터 명령은, 컴퓨터가 제 1항 내지 제 6항 중 어느 한 항에 따른 방법을 실행하도록 하는 것을 특징으로 하는 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독가능 저장매체.
KR1020217034708A 2020-06-24 2021-01-25 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체 KR20210136140A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010591858.5A CN111783596B (zh) 2020-06-24 2020-06-24 人脸识别模型的训练方法、装置、电子设备及存储介质
CN202010591858.5 2020-06-24
PCT/CN2021/073484 WO2021258727A1 (zh) 2020-06-24 2021-01-25 人脸识别模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
KR20210136140A true KR20210136140A (ko) 2021-11-16

Family

ID=78717139

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217034708A KR20210136140A (ko) 2020-06-24 2021-01-25 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체

Country Status (3)

Country Link
EP (1) EP3958173A4 (ko)
JP (1) JP7203248B2 (ko)
KR (1) KR20210136140A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550269A (zh) * 2022-03-02 2022-05-27 北京百度网讯科技有限公司 口罩佩戴检测方法、设备和介质
CN115527254B (zh) * 2022-09-21 2023-06-20 合肥的卢深视科技有限公司 人脸识别、模型训练方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5127583B2 (ja) 2008-06-20 2013-01-23 株式会社豊田中央研究所 対象物判定装置及びプログラム
JP6647474B2 (ja) 2017-11-27 2020-02-14 三菱電機株式会社 表情認識装置
CN110276362A (zh) 2018-03-13 2019-09-24 富士通株式会社 训练图像模型的方法和装置以及分类预测方法和装置

Also Published As

Publication number Publication date
EP3958173A1 (en) 2022-02-23
JP2022543334A (ja) 2022-10-12
EP3958173A4 (en) 2022-12-28
JP7203248B2 (ja) 2023-01-12

Similar Documents

Publication Publication Date Title
US20210390428A1 (en) Method, apparatus, device and storage medium for training model
EP3828719A2 (en) Method and apparatus for generating model for representing heterogeneous graph node, electronic device, storage medium, and computer program product
US20220270373A1 (en) Method for detecting vehicle, electronic device and storage medium
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
US11748895B2 (en) Method and apparatus for processing video frame
US20210406599A1 (en) Model training method and apparatus, and prediction method and apparatus
CN111507355B (zh) 一种字符识别方法、装置、设备和存储介质
CN111144108B (zh) 情感倾向性分析模型的建模方法、装置和电子设备
US11775845B2 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
KR20220002050A (ko) 이벤트 관계의 생성 방법, 장치, 전자 기기 및 저장 매체
CN111832701B (zh) 模型的蒸馏方法、装置、电子设备及存储介质
WO2021258727A1 (zh) 人脸识别模型的训练方法、装置、电子设备及存储介质
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN111783601B (zh) 人脸识别模型的训练方法、装置、电子设备及存储介质
JP7267379B2 (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
CN111443801B (zh) 人机交互方法、装置、设备及存储介质
KR20210136140A (ko) 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체
US20210232856A1 (en) Image processing method, apparatus, electronic device and storage medium
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
US11557062B2 (en) Method and apparatus for processing video frame
US20220101642A1 (en) Method for character recognition, electronic device, and storage medium
CN111784757A (zh) 深度估计模型的训练方法、深度估计方法、装置及设备
US11830242B2 (en) Method for generating a license plate defacement classification model, license plate defacement classification method, electronic device and storage medium
US20220004812A1 (en) Image processing method, method for training pre-training model, and electronic device
US11881050B2 (en) Method for detecting face synthetic image, electronic device, and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal