KR20220130630A - 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기 - Google Patents

이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기 Download PDF

Info

Publication number
KR20220130630A
KR20220130630A KR1020220113617A KR20220113617A KR20220130630A KR 20220130630 A KR20220130630 A KR 20220130630A KR 1020220113617 A KR1020220113617 A KR 1020220113617A KR 20220113617 A KR20220113617 A KR 20220113617A KR 20220130630 A KR20220130630 A KR 20220130630A
Authority
KR
South Korea
Prior art keywords
image
image block
pruning
layer network
input
Prior art date
Application number
KR1020220113617A
Other languages
English (en)
Inventor
지엔웨이 리
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220130630A publication Critical patent/KR20220130630A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Collating Specific Patterns (AREA)
  • Image Input (AREA)

Abstract

본 발명은 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기를 제공하고, 인공지능 기술 분야에 관한 것으로, 구체적으로 컴퓨터 비전 및 딥 러닝 기술 분야에 관한 것이고, 이미지 처리, 이미지 인식 등 장면에 응용될 수 있다. 구체적인 구현 수단은, 처리할 안면 이미지를 획득하고, 처리할 안면 이미지를 복수의 이미지 블록으로 분할하는 단계; 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정하는 단계; 및 미리 설정된 비전 트랜스포머 모델의 가지치기율을 획득하는 단계; 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 하고, 비전 트랜스포머 모델의 출력 결과를 획득하는 단계; 를 포함한다. 본 발명의 기술 수단은 이미지 처리 프로세스의 계산력 소모를 저하하고, 이미지 처리 효율을 향상시킬 수 있다.

Description

이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기{IMAGE PROCESSING METHOD, FACE RECOGNITION MODEL TRAINING METHOD, DEVICE AND EQUIPMENT}
본 발명은 인공지능 기술 분야에 관한 것으로, 구체적으로 컴퓨터 비전 및 딥 러닝 기술 분야에 관한 것이고, 이미지 처리, 이미지 인식 등 장면에 응용될 수 있고, 특히 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기에 관한 것이다.
최근에 비전 트랜스포머(Vision Transformer ,ViT) 모델은 큰 발전을 이루었고, 트랜스포머 모델(Transformer)은 각 비전 분야의 경쟁에서 우수한 결과를 취득하였으나, 컨볼루션 신경망 모델에 비해, Transformer 모델은 통상적으로 거대한 계산력을 소모하여 추정 및 배치해야 하므로, Transformer 모델에 대한 소형화 압축 처리가 시급하다.
본 발명은 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기를 제공한다.
본 발명의 제1 측면에 따르면, 이미지 처리 방법을 제공하고, 상기 방법은,
처리할 안면 이미지를 획득하고, 상기 처리할 안면 이미지를 복수의 이미지 블록으로 분할하는 단계;
상기 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정하는 단계;
미리 설정된 비전 트랜스포머 모델의 가지치기율을 획득하는 단계;
상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는 단계; 및
상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 처리할 안면 이미지의 특징 벡터를 결정하는 단계; 를 포함한다.
본 발명의 제2 측면에 따르면, 안면 인식 모델의 훈련 방법을 제공하고, 상기 방법은,
안면 이미지 샘플을 획득하고, 상기 안면 이미지 샘플을 복수의 이미지 블록으로 분할하는 단계;
상기 안면 이미지 샘플의 각 이미지 블록의 중요성 정보를 결정하는 단계;
비전 트랜스포머 모델의 가지치기율을 획득하는 단계;
상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는 단계;
상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 안면 이미지 샘플의 특징 벡터를 결정하고, 상기 특징 벡터에 따라 안면 인식 결과를 획득하는 단계; 및
상기 안면 인식 결과에 따라 상기 비전 트랜스포머 모델을 훈련하는 단계; 를 포함한다.
본 발명의 제3 측면에 따르면, 이미지 처리 장치를 제공하고, 상기 장치는,
처리할 안면 이미지를 획득하고, 상기 처리할 안면 이미지를 복수의 이미지 블록으로 분할하는데 사용되는 제1 획득 모듈;
상기 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정하는데 사용되는 제1 결정 모듈;
비전 트랜스포머 모델의 가지치기율을 획득하는데 사용되는 제2 획득 모듈;
상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는데 사용되는 가지치기 모듈; 및
상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 처리할 안면 이미지의 특징 벡터를 결정하는데 사용되는 제2 결정 모듈; 을 포함한다.
본 발명의 제4 측면에 따르면, 안면 인식 모델의 훈련 장치를 제공하고, 상기 장치는,
안면 이미지 샘플을 획득하고, 상기 안면 이미지 샘플을 복수의 이미지 블록으로 분할하는데 사용되는 제1 획득 모듈;
상기 안면 이미지 샘플의 각 이미지 블록의 중요성 정보를 결정하는데 사용되는 제1 결정 모듈;
비전 트랜스포머 모델의 가지치기율을 획득하는데 사용되는 제2 획득 모듈;
상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는데 사용되는 가지치기 모듈;
상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 안면 이미지 샘플의 특징 벡터를 결정하고, 상기 특징 벡터에 따라 안면 인식 결과를 획득하는데 사용되는 제2 결정 모듈; 및
상기 안면 인식 결과에 따라 상기 비전 트랜스포머 모델을 훈련하는데 사용되는 훈련 모듈; 을 포함한다.
본 발명의 제5 측면에 따르면, 전자 기기를 제공하고, 상기 전자 기기는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 상기 제1 측면의 방법 및 상기 제2 측면의 방법 중의 적어도 하나를 수행한다.
본 발명의 제6 측면에 따르면, 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 프로그램의 명령이 수행될 경우 컴퓨터가 상기 제1 측면의 방법 및 상기 제2 측면의 방법 중의 적어도 하나를 수행한다.
본 발명의 제7 측면에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램의 명령이 프로세서에 의해 수행될 경우 상기 제1 측면의 방법 및 상기 제2 측면의 방법 중의 적어도 하나가 구현된다.
본 발명의 기술 수단에 따르면, 처리할 안면 이미지 복수의 이미지 블록을 미리 설정된 비전 트랜스포머 모델에 입력하고, 모델의 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행함으로써, 비전 트랜스포머 모델의 각 층 네트워크의 입력 특징을 감소하고, 안면 이미지의 특징 추출을 영향주지 않는 동시에, 비전 트랜스포머 모델의 계산력 소모를 감소함으로써, 이미지 처리의 효율을 향상시킬 수 있다.
이해해야 할 것은, 본 발명의 내용 부분에서 설명하는 내용은 본 발명의 실시예의 관건 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아니다. 본 발명의 기타 특징은 이하의 명세서를 통해 용이하게 이해된다.
도면은 본 기술적 수단을 더 잘 이해하는데 사용되고, 본 발명을 한정하려는 것은 아니다.
도1은 본 발명의 실시예에 따른 비전 트랜스포머 모델의 구조 개략도이다.
도2는 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도3은 본 발명의 실시예에 따른 각 층 네트워크 입력에 대한 가지치기 처리의 흐름도이다.
도4는 본 발명의 실시예에 따른 다른 각 층 네트워크 입력에 대한 가지치기 처리의 흐름도이다.
도5는 본 발명의 실시예에 따른 또 다른 각 층 네트워크 입력에 대한 가지치기 처리의 흐름도이다.
도6은 본 발명의 실시예에 따른 각 층 네트워크 입력에 대한 가지치기 처리의 개략도이다.
도7은 본 발명의 실시예에 따른 안면 인식 모델의 훈련 방법이다.
도8은 본 발명의 실시예에 따른 이미지 처리 장치의 구조 블록도이다.
도9는 본 발명의 실시예에 따른 다른 이미지 처리 장치의 구조 블록도이다.
도10은 본 발명의 실시예를 구현하는 전자 기기의 블록도이다.
이하 도면과 결합하여 본 발명의 예시적인 실시예를 설명한다. 여기에는 이해를 돕기 위해 본 발명의 실시예의 다양한 세부 사항을 포함하고, 실시예들은 단지 예시적인 것으로 간주되어야 한다. 때문에 본 발명에 속하는 기술 분야의 통상의 기술자는 본 발명의 범위 및 사상을 벗어나지 않고 실시예에 여러가지 변경과 수정을 할 수 있다는 것을 인식해야 한다. 동시에 정확성과 간결성을 위해 하기의 설명에서 공지 기능과 구조에 대한 설명은 생략한다.
본 발명의 기술 수단에서, 언급된 사용자 개인 정보의 획득, 저장 및 응용은 모두 관련 법규의 규정에 부합되고, 공서양속을 위배하지 않는다. 언급된 사용자의 개인 정보는 사용자의 동의 하에 획득, 저장 및 적용된 것이다.
설명해야 할 것은, 본 발명의 일 실시예에서, 비전 트랜스포머 모델은 Vision Transformer(ViT) 모델을 가리킨다. 최근에 비전 트랜스포머 모델은 큰 발전을 이루었고, 트랜스포머 모델(Transformer)은 각 비전 분야의 경쟁에서 우수한 결과를 취득하였으나, 컨볼루션 신경망 모델에 비해, Transformer 모델은 통상적으로 거대한 계산력을 소모하여 추정 및 배치해야 하므로, Transformer 모델에 대한 소형화 압축 처리가 시급하다.
여기서, 비전 트랜스포머 모델 구조는 도1에 도시된 바와 같이, Transformer에서 한 장의 사진은 복수의 이미지 블록(patch)으로 분할되고, 각 이미지 블록은 각각 네트워크의 1개의 입력 위치에 대응된다. Multi transformer encoder(멀티 트랜스포머 모델의 인코더)는 다층 Transformer Encoder(트랜스포머 모델의 인코더) 모듈을 스택하고, 당해 모듈에는 2개의 norm(표준화) 모듈, 1개의 MHA(Multi Head Attention, 멀티 헤드 어텐션) 모듈, 1개의 MLP(Multilayer Perceptron, 다층 퍼셉트론) 모듈이 있다.
현재, 관련된 가지치기 기술은 주로 비전 트랜스포머 모델의 층수, head(헤드)의 수량 등에 대해 가지치기하는 것이고, 당해 수단은 계산 프로세스의 일부 차원에 대해 가지치기하는 것뿐이다. 계산 프로세스에서, 모델의 계산량을 영향하는 데는 이미지 블록의 수량이 더 있다는 것을 알 수 있다.
그러나 이미지 블록의 가지치기에 있어서, 일반 분류 태스크에 매우 큰 한계성이 있고, 이미지의 물체가 어떠한 위치에도 나타날 수 있으므로, 이미지 블록의 가지치기는 특수한 결합 동작을 거쳐야함으로, 레이어 사이의 정보 전송이 모이도록 구현한다. 당해 동작은 계산량을 증가하였으나, 정보가 반드시 정합 및 모이도록 하는 것은 아니다.
그러나, 안면 인식 모델에 있어서, 이미지가 모델에 입력되기 전에, 모두 이미지에 대해 검출, 정렬 등 동작을 수행함으로써, 정도가 최고에 도달되도록 한다. 당해 동작 이후, 안면 이미지는 대략 같은 구조를 구비하므로, 안면 이미지 블록의 중요성도 대략 같게 정렬된다. 따라서 이미지 블록의 중요성에 따라 이미지 블록에 대해 가지치기를 수행하여, 비중요 이미지 블록에 대한 모델의 계산을 감소함으로써, 모델의 계산력 소모를 저하할 수 있다.
상기 과제의 발견을 기반으로, 본 발명은 이미지 처리 방법을 제공하고, 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행함으로써, 이미지 처리 프로세스의 계산 소모를 저하한다.
도2는 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도이다. 당해 이미지 처리 방법은 주로 안면 이미지의 처리에 응용되고, 당해 처리 프로세스의 안면 인식 모델은 훈련된 것이고, 당해 안면 인식 모델은 비전 트랜스포머 모델을 포함한다. 즉, 비전 전환 모델도 이미 훈련된 것이다. 설명해야 할 것은, 본 발명 실시예의 이미지 처리 방법은 본 발명 실시예의 이미지 처리 장치에 의해 수행될 수 있고, 당해 장치는 전자 기기에 구성될 수 있다. 도2에 도시된 바와 같이, 당해 이미지 처리 방법은 단계201 내지 단계205를 포함한다.
단계201에서, 처리할 안면 이미지를 획득하고, 처리할 안면 이미지를 복수의 이미지 블록으로 분할한다.
이해해야 할 것은, 모델이 처리할 안면 이미지의 특징을 충분히 추출할 수 있도록, 처리할 안면 이미지를 복수의 이미지 블록으로 분할할 수 있고, 분할된 복수의 이미지 블록의 크기는 같고, 분할된 이미지 블록의 수량과 미리 설정된 비전 트랜스포머 모델의 이미지 블록 입력 수량은 일치하다.
단계202에서, 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정한다.
이해해야 할 것은, 처리할 안면 이미지의 모든 이미지 블록이 모두 안면의 중요 특징을 포함하는 것은 아니고, 일부 이미지 블록에서는 오직 안면 이미지의 배경일 수 있고, 안면 특징의 추출에 있어서 큰 작용이 없다. 따라서 비전 트랜스포머 모델이 처리할 안면의 각 이미지 블록에 대해 모두 학습을 통해 특징 추출을 수행할 경우, 일부 비중요 이미지 블록에 일정한 계산력을 낭비할 수 있다.
또한, 안면 인식 모델에 있어서, 이미지가 모델에 입력되기 전에, 모두 검출, 정렬 등 동작을 하므로, 당해 동작 이후, 각 안면 이미지는 대략 같은 모드를 구비한다. 즉, 각 안면 이미지의 각 이미지 블록의 중요성 분포가 대략 같으므로, 대량의 안면 이미지를 기반으로 통계 분석을 하여 각 이미지 블록의 중요성 정보를 결정한다.
본 발명의 일 실시예에서, 복수의 안면 이미지를 미리 획득하고, 각 안면 이미지를 미리 설정된 수량의 이미지 블록으로 분할하고, 훈련된 안면 특징 추출 모델을 통해, 각 이미지 블록에 포함된 특징 정보를 결정할 수 있다. 각 이미지 각 이미지 블록의 특징 정보를 조합하고, 위치 1에서 각 안면 이미지의 이미지 블록이 모두 대량의 안면 특징 정보를 포함하고, 위치 3에서 이미지 블록이 모두 안면 특징 정보를 포함하지 않을 경우, 위치 1에서 이미지 블록의 중요성이 위치 3의 이미지 블록보다 높다고 결정할 수 있으므로, 부동한 위치에서 각 이미지 블록의 중요성 정보를 획득할 수 있고, 당해 중요성 정보는 모든 안면 이미지에 적용될 수 있어, 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정한다.
일 실시 방식으로서, 비전 트랜스포머 모델의 Transformer Encoder층 계산 프로세스에서, 어텐션 행렬에 의해 반영된 것은 이미지 블록 사이의 관계 중요성이다. 따라서 비전 전환 모델의 각 층 네트워크에 의해 출력된 어텐션 행렬에 따라 이미지 블록 사이의 중요성 정보를 결정할 수 있다. 당해 구현 방식은, 복수의 안면 이미지 샘플을 비전 트랜스포머 모델에 입력하여, 각 층 네트워크에 의해 출력된 각 안면 이미지 샘플에 대응되는 어텐션 행렬을 획득하는 단계; 획득된 모든 어텐션 행렬을 합병하고, 각 이미지 블록 샘플의 가중치를 획득하는 단계; 및 각 이미지 블록 샘플의 가중치에 따라, 처리할 안면 이미지에서 각 이미지 블록의 중요성 정보를 결정하는 단계; 를 포함한다. 여기서, 어텐션 행렬의 값이 softmax(최대 정규화 활성화 함수) 처리 후의 결과이므로, softmax 결과는 이미지 블록의 중요성 확률이고, 복수의 이미지 샘플의 이미지 블록의 중요성 확률을 합병하여 각 이미지 블록의 가중치를 결정할 수 있다. 당해 합병 방식은, 각 이미지 샘플의 어텐션 행렬을 행렬축에 따라 더하거나, 또는 실제 응용 장면에서 각 층 네트워크의 차이에 따라 가중 합계를 계산하거나, 또는 실제 수요에 따라 기타 합병 방식을 사용하는 것일 수 있다.
단계203에서, 미리 설정된 비전 트랜스포머 모델의 가지치기율을 획득한다.
본 발명의 일 실시예에서, 비전 트랜스포머 모델의 가지치기율은 다층 네트워크 계산에서 감소된 계산량 비율을 가리킨다. 인터랙션 인터페이스의 입력을 통해 획득하거나, 또는 인터페이스를 통해 파라미터를 전송하여 획득하거나, 또는 실제 응용 장면의 미리 설정된 값, 또는 실제 응용 장면에 따라 기타 방식을 사용하여 획득할 수 있다, 본 발명은 이에 대해 한정하지 않는다.
단계204에서, 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 비전 트랜스포머 모델의 출력 결과를 획득한다.
설명해야 할 것은, 본 발명 실시예에서 비전 트랜스포머 모델의 출력 결과는 안면 인식 모델 중 1개의 노드 출력이고, 당해 출력 결과를 안면 인식 모델의 후속 노드의 입력 정보로 한다.
즉, 처리할 안면 이미지 중 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 가지치기율 및 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 기반으로, 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 모델의 특징 추출을 영향주지 않는 동시에, 각 층 네트워크의 계산량을 저하할 수 있다.
일 예시로서, 가지치기율을 기반으로 각 층 네트워크의 입력에서, 자를 수 있는 이미지 블록의 수량을 결정하고, 각 이미지 블록의 중요성 정보에 따라, 중요성이 비교적 낮은 이미지 블록을 층별로 선택하여 가지치기할 이미지 블록으로 하고, 각 층 네트워크의 입력에서 가지치기할 이미지 블록의 특징 정보를 가지치기 처리함으로써, 비전 트랜스포머 모델의 출력 결과를 획득할 수 있다.
다른 예시로서, 처리할 안면 이미지 복수의 이미지 블록을 각 이미지 블록의 중요성 정보에 따라 정렬할 수 있다. 예를 들면, 중요성의 높은 데서 낮은 순서로 각 이미지 블록을 정렬하고; 결정된 각 층 네트워크의 입력에서 자를 수 있는 이미지 블록 수량을 기반으로, 각 층 네트워크의 입력에서 마지막에 정렬된 해당 수량 이미지 블록의 특징을 자름으로, 비중요 이미지 블록에 대한 가지치기 처리를 구현하여, 비전 트랜스포머 모델이 처리할 안면 이미지에 대한 특징 추출을 영향주지 않는다.
설명해야 할 것은, 본 발명의 일 실시예에서, 비전 트랜스포머 모델의 각 층 네트워크는, 비전 트랜스포머 모델의 각 층 Transformer Encoder 층을 가리킨다.
단계205에서, 비전 트랜스포머 모델의 출력 결과에 따라, 처리할 안면 이미지의 특징 벡터를 결정한다.
본 발명의 일 실시예에서, 처리할 안면 이미지 복수의 이미지 블록을 비전 트랜스포머 모델에 입력할 경우, 비전 트랜스포머 모델은 1개의 가상 이미지 블록을 보충할 수 있고, 당해 가상 이미지 블록이 Transformer Encoder 층을 거친 후의 결과를 처리할 안면 이미지의 전체 정보 표현이라고 하므로, 비전 트랜스포머 모델의 출력 결과에서, 가상 이미지 블록의 해당 특징 벡터를 처리할 안면 이미지의 특징 벡터로 한다. 또한, 일부 비전 트랜스포머 모델은 1개의 가상 이미지 블록을 보충하여 처리할 안면 이미지의 전체 정보를 학습하지 않으므로, 당해 상황에서 비전 트랜스포머 모델의 출력 결과를 직접 처리할 안면 이미지의 특징 벡터로 할 수 있다.
본 발명의 실시예에 따른 이미지 처리 방법은, 처리할 안면 이미지 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 모델의 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행함으로써, 비전 트랜스포머 모델의 각 층 네트워크의 입력 특징을 감소할 수 있고, 안면 이미지의 특징 추출을 영향주지 않는 동시에, 이미지 처리의 효율을 향상시킬 수 있다.
상기 실시예를 기반으로, 본 발명은 비전 트랜스포머 모델의 각 층 네트워크 입력의 가지치기 처리 방식에 대해 다른 실시예를 제공한다.
도3은 본 발명 실시예의 각 층 네트워크 입력의 가지치기 처리의 흐름도이다. 도3에 도시된 바와 같이, 당해 가지치기 처리 프로세스는 단계301 내지 단계303을 포함한다.
단계301에서, 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정한다.
비전 트랜스포머 모델에 다층 네트워크가 포함되므로, 가지치기 처리가 특징 추출에 대한 영향을 저하하기 위해, 층별로 가지치기 처리를 할 수 있다. 즉, 모델이 층별로 운행될 경우 점차적으로 가지치기 처리를 수행함으로써, 어느 한 층 네트워크의 입력에서 잘라 낸 정보의 과잉으로 당해 층 네트워크 및 후속 네트워크의 특징 추출을 영향주는 경우를 방지한다.
본 발명의 일 실시예에서, 각 층 네트워크의 이미지 블록 가지치기 수량은 당해 가지치기율을 기반으로, 각 층 네트워크에서 잘라 내야 하는 이미지 블록 수량을 가리킨다. 각 층 네트워크의 이미지 블록 가지치기 수량은 가지치기율을 통해 계산할 수 있고, 각 층에서 자른 이미지 블록 수량은 같을 수 있고, 부동할 수도 있으며, 실세 상황에 따라 결정할 수 있다. 일 예시로서, 비전 트랜스포머 모델에 의해 입력된 이미지 블록 수량 및 가지치기율에 따라, 비전 트랜스포머 모델의 모든 이미지 블록 가지치기 수량을 계산할 수 있다. 입력된 이미지 블록 수량이 120개이고, 비전 트랜스포머 모델이 모두 10층의 네트워크가 있을 경우, 가지치기 처리를 하지 않을 경우, 각 층 네트워크 입력에 120개의 이미지 블록의 특징이 있다는 것을 설명하고, 가지치기율이 10%일 경우, 당해 모델의 모든 이미지 블록 가지치기 수량은 120*10*10%=120개이다. 이리하여, 각 층 네트워크에서 실제로 잘라 낸 이미지 블록 수량의 누적 합계는 120개의 이미지 블록이다. 제1 층의 이미지 블록 가지치기 수량이 2이고, 제2 층의 이미지 블록 가지치기 수량도 2일 경우, 제2 층 이미지 블록의 실제 가지치기 수량은 4이고, 순차적으로, 당해 모델의 각 층 네트워크의 실제 가지치기 수량의 누적 합계가 120개의 이미지 블록으로 될 때까지 유추할 경우, 당해 가지치기율에 도달한다. 설명해야 할 것은, 각 층 네트워크에서 잘라 낸 이미지 블록의 수량은 같고, 실제 수요에 따라 부동한 이미지 블록 가지치기 수량으로 설정될 수도 있다.
단계302에서, 각 이미지 블록의 중요성 정보 및 각 층 네트워크의 이미지 블록 가지치기 수량에 따라, 복수의 이미지 블록에서 각 층 네트워크에 있는 가지치기할 이미지 블록을 결정한다.
이해해야 할 것은, 각 이미지 블록의 중요성 정보에 따라 어느 이미지 블록이 가지치기 동작을 할 수 있을지 결정하므로, 다시 각 층 네트워크의 이미지 블록 가지치기 수량을 기반으로, 각 층 네트워크의 가지치기할 이미지 블록을 결정할 수 있다.
일 예시로서, 입력된 이미지 블록의 수량이 9개이고, 각 층 네트워크의 이미지 블록 가지치기 수량이 1개이고, 각 이미지 블록의 중요성 정보가 위치 3의 이미지 블록<위치 9의 이미지 블록<위치 2의 이미지 블록<위치 1의 이미지 블록<위치 4의 이미지 블록<위치 5의 이미지 블록<위치 6의 이미지 블록<위치 7의 이미지 블록<위치 8의 이미지 블록일 경우, 제1 층 네트워크 입력의 가지치기할 이미지 블록을 위치 3의 이미지 블록으로 결정하고, 제2 층의 네트워크 입력의 가지치기할 이미지 블록을 위치 9의 이미지 블록으로 결정하고, 제3 층 네트워크 입력의 가지치기할 이미지 블록을 위치 2의 이미지 블록으로 결정하며, 순차적으로 유추한다. 설명의 편리를 위해, 아래에서 "이미지 블록+번호"의 형식으로 부동한 위치의 이미지 블록을 표현한다. 예를 들면, 이미지 블록 3은 위치 3의 이미지 블록을 나타낸다.
단계303에서, 각 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력한다.
즉, 각 층 네트워크의 입력 특징은 먼저 자름 처리를 한 후, 자른 후 특징을 해당 층의 네트워크에 입력함으로써, 각 층 네트워크의 입력을 감소하여 비전 트랜스포머 모델의 계산량을 감소한다.
본 발명의 일 실시예에서, 각 층 네트워크의 입력 특징은 이전 층의 네트워크의 출력 특징과 같다. 예를 들면 제3 층의 네트워크에 있어서, 제3 층 네트워크의 입력 특징은 제2 층 네트워크의 출력 특징과 같다. 즉, 본 발명의 실시예에서, 각 층 네트워크의 입력 특징이 네트워크에 입력되기 전에, 먼저 당해 입력 특징에 대해 가지치기 처리를 수행하고, 자른 후 획득된 특징을 해당 층의 네트워크에 입력한다.
예를 들면, 상기 예시의 제3 층 네트워크의 입력 특징에 대해, 먼저 당해 입력 특징에서 위치2의 이미지 블록에 대응되는 특징을 자르고, 자른 후 획득된 특징을 제3 층 네트워크에 입력한다.
본 발명의 실시예에 따른 이미지 처리 방법은, 가지치기율에 따라 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하고, 각 이미지 블록의 중요성 정보를 기반으로, 각 층 네트워크의 가지치기할 이미지 블록을 결정함으로, 각 층 네트워크의 입력 특징에 대해, 가지치기할 이미지 블록에 대응되는 특징을 자른 후 현재 층의 네트워크에 입력할 수 있다. 즉, 불필요 이미지 블록에 대한 각 층 네트워크의 정보 입력을 감소하여, 각 층 네트워크의 계산량을 저하함으로써, 특징 정보가 손실되지 않도록 보장하는 전제 하에, 비전 트랜스포머 모델의 계산력을 감소하는 목적을 구현한다.
상기 실시예를 기반으로, 본 발명은 각 층 네트워크의 입력의 가지치기 처리에 대한 실시예를 더 제공한다.
도4는 본 발명의 실시예에 따른 다른 각 층 네트워크 입력에 대한 가지치기 처리의 흐름도이다. 도4에 도시된 바와 같이, 당해 가지치기 처리 프로세스는 단계401 내지 단계404를 포함한다.
단계401에서, 각 이미지 블록의 중요성 정보에 따라, 각 이미지 블록을 정렬한다.
즉, 각 이미지 블록의 중요성 정보에 따라, 각 이미지 블록을 중요성에 따라 정렬한다.
본 발명의 일 실시예에서, 처리할 안면 이미지를 복수의 이미지 블록으로 분할한 후, 각 이미지 블록은 처리할 안면 이미지에서의 위치를 기반으로 정렬된 것이다. 즉, 처리할 안면 이미지를 복수의 이미지 블록으로 분할하는 것은, 처리할 안면 이미지를 부동한 복수의 행 및 렬로 분할하는 것과 같고, 각 이미지 블록이 처리할 안면 이미지에서의 위치를 기반으로 정렬하는 것은, 행렬 순서에 따라, 위에서 아래로, 왼쪽에서 오른쪽으로의 순서로 정렬하는 것일 수 있다.
각 이미지 블록의 중요성 정보에 따라, 각 이미지 블록을 다시 정렬하는 것은 원래의 위치 정렬 순서를 뒤섞은 것과 같고, 중요성이 높은 이미지 블록을 앞에 정렬하고, 순차적으로 유추할 수 있다. 중요성이 높은 이미지 블록을 뒤에 정렬할 수도 있고, 순차적으로 유추할 수 있다. 일 예시로서, 분할된 이미지 블록은 모두 120이고, 분할된 각 이미지 블록의 순서가 {이미지 블록 1, 이미지 블록 2, 이미지 블록 3, 이미지 블록 4, ..., 이미지 블록 120}이고; 각 이미지 블록의 중요성 정보가 이미지 블록 3<이미지 블록 10<이미지 블록 11<이미지 블록 34<이미지 블록 1<이미지 블록 2<이미지 블록 115<이미지 블록 13...<이미지 블록 44<이미지 블록 45<이미지 블록 47일 경우; 각 이미지 블록의 중요성 정보에 따르면, 각 이미지 블록을 중요성에 따라 정렬한 결과는 {이미지 블록 47, 이미지 블록 45, 이미지 블록 44, ..., 이미지 블록 13, 이미지 블록 115, 이미지 블록 2, 이미지 블록 1, 이미지 블록 34, 이미지 블록 11, 이미지 블록 10, 이미지 블록 3}일 수 있다.
단계402에서, 각 이미지 블록 및 각 이미지 블록의 정렬 결과를 비전 트랜스포머 모델에 입력한다.
단계403에서, 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정한다.
단계404에서, 각 층 네트워크의 입력 특징에 대해, 각 이미지 블록의 정렬 결과에 따라, 입력 특징에서 당해 이미지 블록 가지치기 수량의 이미지 블록에 대응되는 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력한다.
즉, 각 층 네트워크의 입력 특징은, 네트워크 층을 입력하기 전에, 먼저 각 이미지 블록의 정렬 결과에 따라, 입력 특징에서 이미지 블록 가지치기 수량에 대응되는 이미지 블록의 특징을 잘라 내고, 자른 후의 특징을 해당 층의 네트워크에 입력한다.
예를 들면, 상기 예시를 기반으로, 각 이미지 블록을 중요성의 높은 데서 낮은 순서로 정렬된 결과는, {이미지 블록 47, 이미지 블록 45, 이미지 블록 44, ..., 이미지 블록 13, 이미지 블록 115, 이미지 블록 2, 이미지 블록 1, 이미지 블록 34, 이미지 블록 11, 이미지 블록 10, 이미지 블록 3}이고, 제1 층 네트워크의 이미지 블록 가지치기 수량이 1개일 경우, 제1 층 네트워크를 입력하기 전의 입력 특징은 {이미지 블록 47, 이미지 블록 45, 이미지 블록 44, ..., 이미지 블록 13, 이미지 블록 115, 이미지 블록 2, 이미지 블록 1, 이미지 블록 34, 이미지 블록 11, 이미지 블록 10 이미지 블록 3}의 최초 특징이고; 당해 정렬 결과에 따라, 마지막에 정렬된 이미지 블록에 대응되는 특징을 자를 경우, 자른 후의 특징은 {이미지 블록 47, 이미지 블록 45, 이미지 블록 44, ..., 이미지 블록 13, 이미지 블록 115, 이미지 블록 2, 이미지 블록 1, 이미지 블록 34, 이미지 블록 11, 이미지 블록 10}의 최초 특징이고, 당해 처리된 특징을 제1 층 네트워크에 입력하고; 제2 층 네트워크의 이미지 블록 가지치기 수량이 3개일 경우, 제2 층 네트워크에 입력되기 전의 입력 특징{이미지 블록 47, 이미지 블록 45, 이미지 블록 44, ..., 이미지 블록 13, 이미지 블록 115, 이미지 블록 2, 이미지 블록 1, 이미지 블록 34, 이미지 블록 11, 이미지 블록 10}에 대응되는 제1 특징에 입력하고, 당해 제1 특징은 제1 층 네트워크에 의해 학습 및 계산하여 출력된 특징이고; 자른 후의 특징이 {이미지 블록 47, 이미지 블록 45, 이미지 블록 44, ..., 이미지 블록 13, 이미지 블록 115, 이미지 블록 2, 이미지 블록 1}에 대응되는 제1 특징일 경우, 당해 자른 후의 특징을 제2 층 네트워크에 입력한다.
본 발명 실시예의 이미지 처리 방법에 따르면, 먼저 각 이미지 블록의 중요성 정보에 따라 처리할 안면 이미지의 각 이미지 블록을 정렬하고, 당해 정렬에 따라 각 층 입력 특징에서 해당 수량의 이미지 블록에 대응되는 특징을 자른 후, 획득된 특징을 해당 네트워크 층에 입력함으로써, 자를 경우, 정렬을 기반으로 앞의 몇 개의 이미지 블록 특징 또는 뒤의 몇 개의 이미지 블록 특징을 직접 자를 수 있으므로, 프로세스의 계산량을 더 저하하고, 자르는 효율을 향상시킬 수 있고, 이미지 처리의 효율을 더 향상시킬 수 있다.
각 층 네트워크 입력의 자름 처리가 안면 이미지의 특징 추출에 대한 영향을 방지하기 위해, 본 발명의 실시예는 이에 대해 또 다른 실시예를 제공한다.
도5는 본 발명의 실시예에 따른 또 다른 각 층 네트워크 입력에 대한 가지치기 처리의 흐름도이다. 설명의 편리를 위해, 본 발명의 실시예에서는 N으로 비전 트랜스포머 모델의 네트워크 층수를 나타내고, 여기서 N은 1보다 큰 정수이다. 도5에 도시된 바와 같이, 당해 가지치기 처리 프로세스는 단계501 내지 단계504를 포함한다.
단계501에서, 가지치기율에 따라, 제i 층 네트워크의 이미지 블록 가지치기 수량을 결정하고; 여기서, 상기 i는 0보다 크고 N-1보다 작거나 같은 정수이다.
즉, 본 발명의 실시예에서, 가지치기율만으로 앞의 N-1 층 네트워크의 이미지 블록 가지치기 수량을 결정하고, 제N 층 네트워크의 입력에 대해 가지치기 처리를 하지 않는다.
단계502에서, 각 이미지 블록의 중요성 정보 및 제i 층 네트워크의 이미지 블록 가지치기 수량에 따라, 복수의 이미지 블록에서 제i 층 네트워크에 있는 가지치기할 이미지 블록을 결정한다.
단계503에서, 제i 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자른 후, 획득된 특징을 제i 층 네트워크에 입력한다.
여기서, 단계502와 단계503에서 앞의 N-1 층 네트워크 입력의 자름 처리에 대한 구현 방식은 도3의 단계302와 단계303에서 앞의 N-1 층 네트워크 입력의 자름 처리에 대한 구현 방식과 일치하고, 여기서 더는 설명하지 않는다.
단계504에서, 제N 층 네트워크의 입력 특징에 대해, 입력 특징을 잘라낸 모든 이미지 블록의 특징과 스플라이스하고, 스플라이스 처리 후 획득된 특징을 제N 층 네트워크에 입력한다.
즉, 제N-1 층 네트워크의 출력 특징을, 앞의 N-1 층 네트워크의 입력에서 잘라낸 모든 이미지 블록의 특징과 스플라이스한 후 획득된 특징을 제N 층 네트워크에 입력함으로, 앞의 N-1 층 네트워크의 계산력을 저하할 수 있을 뿐만 아니라, 자름 처리가 처리할 안면 이미지의 특징 추출에 대한 영향을 감소할 수도 있다.
이해에 편리하기 위해, 본 발명 실시예의 구현 방식은 도6에 도시된 바와 같을 수 있고, 비전 트랜스포머 모델이 모두 6층 네트워크이고, 앞의 5층 네트워크의 입력의 각 층에서 1개의 이미지 블록에 대응되는 특징을 자를 경우, 제6 층 네트워크의 입력은 제5 층 네트워크의 출력 특징과 앞의 5층 네트워크에서 잘라 낸 이미지 블록에 대응되는 특징을 스플라이스한 후 획득된 특징이다. 즉, 비전 트랜스포머 모델이 운행되는 프로세스에서, 매 번의 가지치기 프로세스에서 잘라 낸 이미지 블록에 대응되는 특징을 저장해야 하고, 마지막 층까지 운행될 경우, 잘라 낸 이미지 블록 특징을 호출한다.
이해해야 할 것은, 제N 층 네트워크의 입력은 처리할 안면 이미지의 모든 특징을 정합한 것과 같음으로, 계산량을 저하하는 동시에, 안면 이미지의 특징을 잃어버리지 않도록 보장할 수 있다.
본 발명 실시예의 이미지 처리 방법에 따르면, N층 네트워크의 비전 트랜스포머 모델에 있어서, 앞의 N-1 층 네트워크의 입력에 대해 각각 가지치기 처리를 수행하고, 제N-1 층 네트워크의 출력 특징과 앞의 N-1 층 네트워크의 입력에서 잘라 낸 이미지 블록에 대응되는 특징에 대해 스플라이스를 수행하고, 스플라이스된 특징을 제N 층 네트워크에 입력함으로써, 가지치기 처리가 안면 이미지의 특징 추출에 대한 영향을 저하할 뿐만아니라, 앞의 N-1 층 네트워크의 가지치기 처리를 통해 모델의 계산량을 저하하기 때문에, 가지치기 처리가 이미지 처리에 대한 효과를 더 향상시킬 수 있다.
본 발명의 실시예는 안면 인식 모델의 훈련 방법을 더 제공한다.
도7은 본 발명의 실시예에 따른 안면 인식 모델의 훈련 방법이고, 당해 안면 인식 모델은 비전 트랜스포머 모델을 포함한다. 설명해야 할 것은, 본 발명 실시예의 안면 인식 모델의 훈련 방법은 본 발명 실시예의 안면 인식 모델의 훈련 장치에 적용될 수 있고, 당해 장치는 전자 기기에 구성될 수 있다. 도7에 도시된 바와 같이, 당해 훈련 방법은 단계701 내지 단계706을 포함한다.
단계701에서, 안면 이미지 샘플을 획득하고, 안면 이미지 샘플을 복수의 이미지 블록으로 분할한다.
이해해야 할 것은, 모델이 처리할 안면 이미지 샘플의 특징을 충분히 추출할 수 있도록, 안면 이미지 샘플의 각 안면 이미지를 복수의 이미지 블록으로 분할할 수 있고, 분할된 복수의 이미지 블록의 크기는 같고, 분할된 이미지 블록의 수량과 비전 트랜스포머 모델의 이미지 블록 입력 수량은 일치하다.
단계702에서, 안면 이미지 샘플에서 각 이미지 블록의 중요성 정보를 결정한다.
이해해야 할 것은, 각 안면 이미지의 모든 이미지 블록이 모두 안면의 중요 특징을 포함하는 것은 아니고, 일부 이미지 블록에서는 오직 안면 이미지의 배경일 수 있고, 안면 특징의 추출에 있어서 큰 작용이 없다. 따라서 비전 트랜스포머 모델이 안면 이미지 샘플의 각 이미지 블록에 대해 모두 학습을 통해 특징 추출을 수행할 경우, 일부 비중요 이미지 블록에 일정한 계산력을 낭비할 수 있다.
또한, 안면 인식 모델에 있어서, 이미지가 모델에 입력되기 전에, 모두 검출, 정렬 등 동작을 하므로, 당해 동작 이후, 각 안면 이미지는 대략 같은 모드를 구비한다. 즉, 각 안면 이미지의 각 이미지 블록의 중요성 분포가 대략 같으므로, 대량의 안면 이미지를 기반으로 통계 분석을 하여 각 이미지 블록의 중요성 정보를 결정한다.
본 발명의 일 실시예에서, 복수의 안면 이미지를 미리 획득하고, 각 안면 이미지를 미리 설정된 수량의 이미지 블록으로 분할하고, 훈련된 비전 트랜스포머 모델을 통해, 각 이미지 블록에 포함된 특징 정보를 결정할 수 있다. 각 이미지 각 이미지 블록의 특징 정보를 조합하고, 위치 1에서 각 안면 이미지의 이미지 블록이 모두 대량의 안면 특징 정보를 포함하고, 위치 3에서 이미지 블록이 모두 안면 특징 정보를 포함하지 않을 경우, 위치 1에서 이미지 블록의 중요성이 위치 1의 이미지 블록보다 높다고 결정할 수 있으므로, 부동한 위치에서 각 이미지 블록의 중요성 정보를 획득할 수 있고, 당해 중요성 정보는 모든 안면 이미지에 적용될 수 있어, 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정한다.
일 실시 방식으로서, 비전 트랜스포머 모델의 Transformer Encoder층 계산 프로세스에서, 어텐션 행렬에 의해 반영된 것은 이미지 블록 사이의 관계 중요성이다. 따라서 비전 전환 모델의 각 층 네트워크에 의해 출력된 어텐션 행렬에 따라 이미지 블록 사이의 중요성 정보를 결정할 수 있다. 당해 구현 방식은, 복수의 안면 이미지를 비전 트랜스포머 모델에 입력하여, 각 층 네트워크에 의해 출력된 각 안면 이미지에 대응되는 어텐션 행렬을 획득하는 단계; 획득된 모든 어텐션 행렬을 합병하고, 안면 이미지에서 이미지 블록 샘플의 가중치를 획득하는 단계; 및 안면 이미지에서 이미지 블록의 가중치에 따라, 안면 이미지 샘플의 각 안면 이미지에서 각 이미지 블록의 중요성 정보를 결정하는 단계; 를 포함한다. 여기서, 어텐션 행렬의 값이 softmax 후의 결과이므로, softmax 결과는 이미지 블록의 중요성 확률이고, 복수의 이미지 샘플의 이미지 블록의 중요성 확률을 합병하여 각 이미지 블록의 가중치를 결정할 수 있다. 당해 합병 방식은, 각 이미지 샘플의 어텐션 행렬을 행렬축에 따라 더하거나, 또는 실제 응용 장면에서 각 층 네트워크의 차이에 따라 가중 합계를 계산하거나, 또는 실제 수요에 따라 기타 합병 방식을 사용하는 것일 수 있다.
단계703에서, 비전 트랜스포머 모델의 가지치기율을 획득한다.
본 발명의 일 실시예에서, 비전 트랜스포머 모델의 가지치기율은 다층 네트워크 계산에서 감소된 계산량 비율을 가리킨다. 인터랙션 인터페이스의 입력을 통해 획득하거나, 또는 인터페이스를 통해 파라미터를 전송하여 획득하거나, 또는 실제 응용 장면의 미리 설정된 값, 또는 실제 응용 장면에 따라 기타 방식을 사용하여 획득할 수 있다, 본 발명은 이에 대해 한정하지 않는다.
단계704에서, 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 하고, 비전 트랜스포머 모델의 출력 결과를 획득한다.
설명해야 할 것은, 본 발명 실시예에서 비전 트랜스포머 모델의 출력 결과는 안면 인식 모델 중 1개의 노드 출력이고, 당해 출력 결과를 안면 인식 모델의 후속 노드의 입력 정보로 한다. 여기서, 안면 인식 모델은 이미 관련 훈련 방식을 통해 훈련된 모델이다. 즉, 비전 트랜스포머 모델도 이미 관련 훈련 방식을 통해 훈련된 모델이다.
안면 인식 모델이 응용될 경우의 계산량을 저하하고, 가지치기 처리 후 모델의 정도를 보장하기 위해, 본 발명 실시예의 안면 인식 모델 훈련 방법은 각 네트워크층 입력의 가지치기 처리를 기반으로하는 미조정 프로세스와 같다.
일 구현 방식으로서, 비전 트랜스포머 모델에서 각 층 네트워크의 입력에 대해 가지치기 처리하는 구현 방식은, 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하는 단계; 각 이미지 블록의 중요성 정보 및 각 층 네트워크의 이미지 블록 가지치기 수량에 따라, 복수의 이미지 블록에서 각 층 네트워크에 있는 가지치기할 이미지 블록을 결정하는 단계; 및 각 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는 단계; 를 포함한다.
다른 구현 방식으로서, 비전 트랜스포머 모델에서 각 층 네트워크의 입력에 대해 가지치기 처리하는 구현 방식은, 각 이미지 블록의 중요성 정보에 따라, 각 이미지 블록을 정렬하는 단계; 각 이미지 블록 및 각 이미지 블록의 정렬 결과를 비전 트랜스포머 모델에 입력하는 단계; 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하는 단계; 및 각 층 네트워크의 입력 특징에 대해, 각 이미지 블록의 정렬 결과에 따라, 입력 특징에서 이미지 블록 가지치기 수량의 이미지 블록에 대응되는 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는 단계; 를 포함한다.
또 다른 구현 방식으로서, 설명의 편리를 위해, 아래는 N으로 비전 트랜스포머 모델의 네트워크 층수를 나타낸다. 각 층 네트워크 입력에 대한 가지치기 처리의 구현 방식은, 가지치기율에 따라, 제i 층 네트워크의 이미지 블록 가지치기 수량을 결정하는 단계 - 상기 i는 0보다 크고 N-1보다 작거나 같은 정수임 - ; 각 이미지 블록의 중요성 정보 및 제i 층 네트워크의 이미지 블록 가지치기 수량에 따라, 복수의 이미지 블록에서 제i 층 네트워크에 있는 가지치기할 이미지 블록을 결정하는 단계; 제i 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자른 후, 획득된 특징을 제i 층 네트워크에 입력하는 단계; 및 제N 층 네트워크의 입력 특징에 대해, 입력 특징을 잘라낸 모든 이미지 블록의 특징과 스플라이스하고, 스플라이스 처리 후 획득된 특징을 제N 층 네트워크에 입력하는 단계; 를 포함한다.
상기 가지치기 처리를 기반으로, 비전 전환의 모델의 마지막 층 네트워크의 출력 결과는 비전 트랜스포머 모델의 출력 결과이다.
단계705에서, 비전 트랜스포머 모델의 출력 결과에 따라, 안면 이미지 샘플의 특징 벡터를 결정하고, 특징 벡터에 따라 안면 인식 결과를 획득한다.
본 발명의 일 실시예에서, 안면 이미지 샘플의 복수의 이미지 블록을 비전 트랜스포머 모델에 입력할 경우, 비전 트랜스포머 모델은 1개의 가상 이미지 블록을 보충할 수 있고, 당해 가상 이미지 블록이 Transformer Encoder 층을 거친 후의 결과를 안면 이미지 샘플에서 해당 이미지의 전체 정보 표현이라고 하므로, 비전 트랜스포머 모델의 출력 결과에서, 가상 이미지 블록의 해당 특징 벡터를 안면 이미지 샘플의 특징 벡터로 한다. 또한, 일부 비전 트랜스포머 모델은 1개의 가상 이미지 블록을 보충하여 안면 이미지 샘플에서 해당 이미지의 전체 정보를 학습하지 않으므로, 당해 상황에서 비전 트랜스포머 모델의 출력 결과를 직접 안면 이미지 샘플의 특징 벡터로 할 수 있다.
이 전에, 비전 트랜스포머 모델에 의해 획득된 안면 이미지 샘플의 특징 벡터가 안면 인식 프로세스의 1개의 노드에 해당하므로, 당해 특징 벡터는 계속하여 안면 인식 모델의 후속 노드에 의해 학습될 것이고, 당해 특징 벡터에 따라 안면 이미지 샘플에 대응되는 안면 인식 결과를 획득한다.
단계706에서, 안면 인식 결과에 따라 안면 인식 모델을 훈련한다.
즉, 당해 안면 인식 결과와 안면 이미지 샘플의 진실 결과에 따라 해당 손실값을 계산하여 획득하고, 손실값에 따라 안면 인식 모델의 파라미터에 대해 미조정을 수행하여, 당해 모델 파라미터가 해당 가지치기 방식에 적용되도록 한다.
설명해야 할 것은, 본 발명의 실시예에서 비전 트랜스포머 모델에 관한 각 층 네트워크의 가지치기 처리는 이미 상기 이미지 처리 방법의 실시예에 나타냈으므로, 여기서 더는 설명하지 않는다.
본 발명의 실시예에 따른 안면 인식 모델의 훈련 방법은, 안면 이미지 샘플의 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 모델의 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하고, 가지치기 처리된 후 비전 트랜스포머 모델에 의해 획득된 특징 벡터를 기반으로 안면 인식 결과를 결정함으로써, 안면 인식 결과에 따라 비전 트랜스포머 모델을 훈련할 수 있다. 즉, 안면 인식 결과에 따라 안면 인식 모델을 훈련함으로써, 당해 모델의 파라미터가 당해 가지치기 방식에 적용되도록 하고, 비전 트랜스포머 모델을 사용한 안면 인식 모델이 사용될 경우 계산력의 소모를 절약하고, 안면 인식의 효율을 향상시키도록 한다.
상기 실시예를 구현하기 위해, 본 발명은 이미지 처리 장치를 제공한다.
도8은 본 발명의 실시예에 따른 이미지 처리 장치의 구조 블록도이다. 도8에 도시된 바와 같이, 당해 장치는,
처리할 안면 이미지를 획득하고, 처리할 안면 이미지를 복수의 이미지 블록으로 분할하는데 사용되는 제1 획득 모듈(801);
처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정하는데 사용되는 제1 결정 모듈(802);
비전 트랜스포머 모델의 가지치기율을 획득하는데 사용되는 제2 획득 모듈(803);
복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 비전 트랜스포머 모델의 출력 결과를 획득하는데 사용되는 가지치기 모듈(804); 및
비전 트랜스포머 모델의 출력 결과에 따라, 처리할 안면 이미지의 특징 벡터를 결정하는데 사용되는 제2 결정 모듈(805); 을 포함한다.
여기서, 제1 결정 모듈(802)은 구체적으로,
복수의 안면 이미지 샘플을 비전 트랜스포머 모델에 입력하여, 각 층 네트워크에 의해 출력된 각 안면 이미지 샘플에 대응되는 어텐션 행렬을 획득하고;
획득된 모든 어텐션 행렬을 합병하고, 각 이미지 블록 샘플의 가중치를 획득하고;
각 이미지 블록 샘플의 가중치에 따라, 처리할 안면 이미지에서 각 이미지 블록의 중요성 정보를 결정하는데 사용된다.
본 발명의 일 실시예에서, 가지치기 모듈(804)은 구체적으로,
가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하고;
각 이미지 블록의 중요성 정보 및 각 층 네트워크의 이미지 블록 가지치기 수량에 따라, 복수의 이미지 블록에서 각 층 네트워크에 있는 가지치기할 이미지 블록을 결정하고;
각 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는데 사용된다.
본 발명의 다른 실시예에서, 가지치기 모듈(804)은 구체적으로,
각 이미지 블록의 중요성 정보에 따라, 각 이미지 블록을 정렬하고;
각 이미지 블록 및 각 이미지 블록의 정렬 결과를 비전 트랜스포머 모델에 입력하고;
가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하며;
각 층 네트워크의 입력 특징에 대해, 각 이미지 블록의 정렬 결과에 따라, 입력 특징에서 이미지 블록 가지치기 수량의 이미지 블록에 대응되는 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는데 사용된다.
본 발명의 또 다른 실시예에서, 비전 트랜스포머 모델은 N층 네트워크를 포함하고, N은 1보다 큰 정수이고; 가지치기 모듈(804)은 구체적으로,
가지치기율에 따라, 제i 층 네트워크의 이미지 블록 가지치기 수량을 결정하고; 여기서, i는 0보다 크고 N-1보다 작거나 같은 정수이고;
각 이미지 블록의 중요성 정보 및 제i 층 네트워크의 이미지 블록 가지치기 수량에 따라, 복수의 이미지 블록에서 제i 층 네트워크에 있는 가지치기할 이미지 블록을 결정하고;
제i 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 자른 후 획득된 특징을 제i 층 네트워크에 입력하며;
제N 층 네트워크의 입력 특징에 대해, 입력 특징을 잘라낸 모든 이미지 블록의 특징과 스플라이스하고, 스플라이스 처리 후 획득된 특징을 제N 층 네트워크에 입력하는데 사용된다.
본 발명의 실시예에 따른 이미지 처리 장치는, 처리할 안면 이미지 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 모델의 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행함으로써, 비전 트랜스포머 모델의 각 층 네트워크의 입력 특징을 감소할 수 있고, 안면 이미지의 특징 추출을 영향주지 않는 동시에, 비전 트랜스포머 모델의 계산력 소모를 저하함으로써, 이미지 처리의 효율을 향상시킬 수 있다.
상기 실시예를 구현하기 위해, 본 발명은 안면 인식 모델의 훈련 장치를 제공한다.
도9는 본 발명의 실시예에 따른 안면 인식 모델의 훈련 장치의 구조 블록도이다. 여기서, 본 발명 실시예의 안면 인식 모델은 비전 트랜스포머 모델을 포함한다. 도9에 도시된 바와 같이, 당해 장치는,
안면 이미지 샘플을 획득하고, 안면 이미지 샘플을 복수의 이미지 블록으로 분할하는데 사용되는 제1 획득 모듈(901);
안면 이미지 샘플에서 각 이미지 블록의 중요성 정보를 결정하는데 사용되는 제1 결정 모듈(902);
비전 트랜스포머 모델의 가지치기율을 획득하는데 사용되는 제2 획득 모듈(903);
복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 비전 트랜스포머 모델의 출력 결과를 획득하는데 사용되는 가지치기 모듈(904);
비전 트랜스포머 모델의 출력 결과에 따라, 안면 이미지 샘플의 특징 벡터를 결정하고, 특징 벡터에 따라 안면 인식 결과를 획득하는데 사용되느 제2 결정 모듈(905); 및
안면 인식 결과에 따라 안면 인식 모델을 훈련하는데 사용되는 훈련 모듈(906); 을 포함한다.
여기서, 제1 결정 모듈(902)은 구체적으로,
복수의 안면 이미지를 비전 트랜스포머 모델에 입력하여, 각 층 네트워크에 의해 출력된 각 안면 이미지에 대응되는 어텐션 행렬을 획득하고;
획득된 모든 어텐션 행렬을 합병하고, 안면 이미지에서 이미지 블록 샘플의 가중치를 획득하고;
안면 이미지에서 이미지 블록의 가중치에 따라, 안면 이미지 샘플의 각 안면 이미지에서 각 이미지 블록의 중요성 정보를 결정하는데 사용된다.
본 발명의 일 실시예에서, 가지치기 모듈(904)은 구체적으로,
가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하고;
각 이미지 블록의 중요성 정보 및 각 층 네트워크의 이미지 블록 가지치기 수량에 따라, 각 안면 이미지 샘플의 복수의 이미지 블록에서 각 층 네트워크에 있는 가지치기할 이미지 블록을 결정하고;
각 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는데 사용된다.
본 발명의 다른 실시예에서, 가지치기 모듈(904)은 구체적으로,
각 이미지 블록의 중요성 정보에 따라, 각 이미지 블록을 정렬하고;
각 이미지 블록 및 각 이미지 블록의 정렬 결과를 비전 트랜스포머 모델에 입력하고;
가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하며;
각 층 네트워크의 입력 특징에 대해, 각 이미지 블록의 정렬 결과에 따라, 입력 특징에서 이미지 블록 가지치기 수량의 이미지 블록에 대응되는 특징을 자르고, 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는데 사용된다.
본 발명의 또 다른 실시예에서, 비전 트랜스포머 모델은 N층 네트워크를 포함하고, N은 1보다 큰 정수이고; 가지치기 모듈(904)은 구체적으로,
가지치기율에 따라, 제i 층 네트워크의 이미지 블록 가지치기 수량을 결정하고; 여기서, i는 0보다 크고 N-1보다 작거나 같은 정수이고,
각 이미지 블록의 중요성 정보 및 제i 층 네트워크의 이미지 블록 가지치기 수량에 따라, 복수의 이미지 블록에서 제i 층 네트워크에 있는 가지치기할 이미지 블록을 결정하고;
제i 층 네트워크의 입력 특징에 대해, 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 자른 후 획득된 특징을 제i 층 네트워크에 입력하며;
제N 층 네트워크의 입력 특징에 대해, 입력 특징을 잘라낸 모든 이미지 블록의 특징과 스플라이스하고, 스플라이스 처리 후 획득된 특징을 제N 층 네트워크에 입력하는데 사용된다.
본 발명 실시예에 따른 안면 인식 모델의 훈련 장치는, 안면 이미지 샘플의 복수의 이미지 블록을 비전 트랜스포머 모델에 입력하고, 모델의 가지치기율 및 각 이미지 블록의 중요성 정보에 따라, 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 하고, 가지치기 처리된 후 비전 트랜스포머 모델에 의해 획득된 특징 벡터를 기반으로 안면 인식 결과를 결정함으로써, 안면 인식 결과에 따라 비전 트랜스포머 모델을 훈련할 수 있다. 즉, 안면 인식 결과에 따라 안면 인식 모델을 훈련함으로써, 당해 모델의 파라미터가 당해 가지치기 방식에 적용되도록 하고, 비전 트랜스포머 모델을 사용한 안면 인식 모델이 사용될 경우 계산력의 소모를 절약하고, 안면 인식의 효율을 향상시키도록 한다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.
도10에 도시된 바와 같이, 도10은 본 발명 실시예를 구현하는데 사용되는 전자 기기(1000)의 개략적인 블록도이다. 전자 기기는 다양한 형식의 디지털 컴퓨터를 표시한다. 예를 들면, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말(PAD), 서버, 블레이드 서버, 메인 프레임 및 기타 적합한 컴퓨터일 수 있다. 전자 기기는 다양한 형식의 모바일 장치를 표시한다. 예를 들면 개인 정보 단말(PAD), 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치일 수 있다. 본 발명에 개시된 컴포넌트, 이들의 연결과 관계, 및 기능은 단지 예시적인 것 뿐이며, 본 발명에서 설명 및/또는 요구한 본 발명의 구현을 한정하려는 것은 아니다.
도10에 도시한 바와 같이, 전자 기기(1000)는 컴퓨팅 유닛(1001)을 포함하고, 읽기 전용 메모리(ROM)(1002)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1008)에서 랜덤 액세스 메모리(RAM)(1003)에 로딩된 컴퓨터 프로그램에 따라, 각 적당한 동작 및 처리를 수행한다. RAM(1003)에서, 전자 기기(1000) 동작에 수요되는 각 프로그램 및 데이터를 저장할 수도 있다. 컴퓨팅 유닛(1001), ROM(1002) 및 RAM(1003)은 버스(1004)를 통해 서로 연결된다. I/O 인터페이스(1005)도 버스(1004)에 연결된다.
전자 기기(1000)의 복수의 컴포넌트는 I/O인터페이스(1005)에 연결되고, 복수의 컴포넌트는, 키보드, 마우스 등과 같은 입력 유닛(101006); 다양한 유형의 모니터, 스피커 등과 같은 출력 유닛(1007); 자기 디스크, 광 디스크 등과 같은 저장 유닛(1008); 및 네트워크 카드, 모뎀 또는 무선 통신 송수신기 등과 같은 통신 유닛(1009)을 포함한다. 통신 유닛(1009)은 전자 기기(1000)가 인터넷과 같은 컴퓨터 네트워크 및/또는 각 전신 네트워크를 통해 기타 기기와 정보/데이터를 교환할 수 있도록 허용한다.
컴퓨팅 유닛(1001)은 각 처리 및 계산 기능을 구비한 범용/전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(1001)의 일부 예시는 중앙 처리 장치(CPU), 그래프 처리 장치(GPU), 각 전용 인공지능(AI) 계산 칩, 각 기계 학습 모델 알고리즘을 운행하는 컴퓨팅 유닛, 디지털 신호 처리 장치(DSP), 임의의 적합한 프로세서, 제어기 및 마이크로 제어기 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(1001)은 상기 설명한 각 방법 및 처리를 수행한다. 예를 들면 이미지 처리 방법 및/또는 안면 인식 모델의 훈련 방법을 수행한다. 예를 들면, 일 실시예에서, 이미지 처리 방법 및/또는 안면 인식 모델의 훈련 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 유형적으로 저장 유닛(1005)과 같은 기계 판독 가능 매체에 포함된다. 일 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1002) 및/또는 통신 유닛(1009)에 의해 전자 기기(1000)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1003)에 로딩되고 컴퓨팅 유닛(1001)에 의해 수행될 경우, 상기 설명한 이미지 처리 방법 및/또는 안면 인식 모델의 훈련 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안적으로, 기타 실시예에서, 컴퓨팅 유닛(1001)은 기타 임의의 적합한 방식(예를 들면, 펌웨어)으로 본 발명의 실시예에 따른 이미지 처리 방법 및/또는 안면 인식 모델의 훈련 방법을 수행할 수 있도록 구성된다.
여기서 설명하는 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 프로그래밍 가능 게이트 어레이(FPGA), 주문형 직접 회로(ASIC), 전용 표준 제품(ASSP), 칩상 시스템(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 여러 가지 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석되며, 당해 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터와 명령을 수신할 수 있고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 수행하는데 사용되는 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 당해 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치의 프로세서 또는 제어기에 제공하여, 프로그램 코드가 프로세서 또는 제어기에 의해 수행될 경우 흐름도 및/또는 블록도에서 규정한 기능/동작을 실시하게 된다. 프로그램 코드는 완전히 또는 부분적으로 기계에서 수행되고, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행하고 부분적으로 또는 완전히 원거리 기계 또는 서버에서 수행된다.
본 발명의 콘텍스트에서, 기계 판독 가능 매체는 유형적인 매체일 수 있고, 명령 수행 시스템, 장치 또는 기기가 사용하거나 명령 수행 시스템, 장치 또는 기기와 결합하여 사용하도록 제공하는 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 및 기기, 또는 상기 내용의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선을 기반으로 하는 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 엑세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 시디롬(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상기 내용의 임의의 적합한 조합을 포함할 수 있다.
사용자와의 인터랙션을 제공하기 위해, 여기서 설명된 시스템 및 기술은 컴퓨터에서 구현할 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들면, CRT 음극선관) 또는 LCD(액정 디스플레이)모니터); 및 키보드와 지향 장치(예를 들면, 마우스 또는 트랙볼)를 구비하고, 사용자는 당해 키보드와 당해 지향 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치도 사용자와의 인터랙션에 사용될 수 있는 바, 예를 들면 사용자에게 제공된 피드백은 임의의 형식의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 임의의 형식(음향 입력, 음성 입력 또는 촉각 입력)에 의해 사용자로부터의 입력을 수신할 수 있다.
여기서 설명한 시스템과 기술을, 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터에서 실시될 수 있고, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통해 여기서 설명한 시스템과 기술의 실시형태와 인터랙션할 수 있다), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망 (LAN), 광역 통신망 (WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통신 네트워크를 통해 서로 인터랙션한다. 대응하는 컴퓨터에서 운행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계를 생성한다. 서버는 분산식 시스템의 서버 또는 블록 체인을 결합한 서버일 수도 있다.
이해해야 할 것은, 상기 복수 형식의 흐름에 의해, 단계를 재정렬, 추가 또는 삭제할 수 있다. 예를 들면, 본 발명에 기재한 각 단계는 병행하여 또는 순차적으로 실행할 수도 있고, 서로 다른 순서로 실행할 수도 있다. 본 발명에서 개시한 기술적 수단이 원하는 결과만 구현할 수 있으면 본 발명에서는 이에 대해 한정하지 않는다.
상기 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 본 발명이 속하는 기술 분야의 통상의 기술자는 설계 요구 및 기타 요소에 의해 여러가지 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본 발명 보호 범위에 포함된다.

Claims (15)

  1. 이미지 처리 방법에 있어서,
    처리할 안면 이미지를 획득하고, 상기 처리할 안면 이미지를 복수의 이미지 블록으로 분할하는 단계;
    상기 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정하는 단계;
    미리 설정된 비전 트랜스포머 모델의 가지치기율을 획득하는 단계;
    상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는 단계; 및
    상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 처리할 안면 이미지의 특징 벡터를 결정하는 단계; 를 포함하는,
    이미지 처리 방법.
  2. 제1항에 있어서,
    상기 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정하는 단계는,
    복수의 안면 이미지 샘플을 상기 비전 트랜스포머 모델에 입력하여, 각 층 네트워크에 의해 출력된 각 안면 이미지 샘플에 대응되는 어텐션 행렬을 획득하는 단계;
    획득된 모든 어텐션 행렬을 합병하고, 각 이미지 블록 샘플의 가중치를 획득하는 단계; 및
    상기 각 이미지 블록 샘플의 가중치에 따라, 상기 처리할 안면 이미지에서 각 이미지 블록의 중요성 정보를 결정하는 단계; 를 포함하는,
    이미지 처리 방법.
  3. 제1항에 있어서,
    상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는 단계는,
    상기 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하는 단계;
    상기 각 이미지 블록의 중요성 정보 및 상기 각 층 네트워크의 이미지 블록 가지치기 수량에 따라, 상기 복수의 이미지 블록에서 각 층 네트워크에 있는 가지치기할 이미지 블록을 결정하는 단계; 및
    각 층 네트워크의 입력 특징에 대해, 상기 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 상기 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는 단계; 를 포함하는,
    이미지 처리 방법.
  4. 제1항에 있어서,
    상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는 단계는,
    상기 각 이미지 블록의 중요성 정보에 따라, 상기 각 이미지 블록을 정렬하는 단계;
    상기 각 이미지 블록 및 상기 각 이미지 블록의 정렬 결과를 상기 비전 트랜스포머 모델에 입력하는 단계;
    상기 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하는 단계; 및
    각 층 네트워크의 입력 특징에 대해, 상기 각 이미지 블록의 정렬 결과에 따라, 상기 입력 특징에서 상기 이미지 블록 가지치기 수량의 이미지 블록에 대응되는 특징을 자르고, 상기 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는 단계; 를 포함하는,
    이미지 처리 방법.
  5. 제1항에 있어서,
    상기 비전 트랜스포머 모델은 N층의 네트워크를 포함하고,
    상기 N은 1보다 큰 정수이고; 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하는 단계는,
    상기 가지치기율에 따라, 제i 층 네트워크의 이미지 블록 가지치기 수량을 결정하는 단계 - 상기 i는 0보다 크고 N-1보다 작거나 같은 정수임 - ;
    상기 각 이미지 블록의 중요성 정보 및 상기 제i 층 네트워크의 이미지 블록 가지치기 수량에 따라, 상기 복수의 이미지 블록에서 상기 제i 층 네트워크에 있는 가지치기할 이미지 블록을 결정하는 단계;
    제i 층 네트워크의 입력 특징에 대해, 상기 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 상기 자른 후 획득된 특징을 제i 층 네트워크에 입력하는 단계; 및
    제N 층 네트워크의 입력 특징에 대해, 상기 입력 특징을 잘라낸 모든 이미지 블록의 특징과 스플라이스하고, 스플라이스 처리 후 획득된 특징을 제N 층 네트워크에 입력하는 단계; 를 포함하는,
    이미지 처리 방법.
  6. 안면 인식 모델 훈련 방법에 있어서,
    상기 안면 인식 모델은 비전 트랜스포머 모델을 포함하고, 상기 안면 인식 모델 훈련 방법은,
    안면 이미지 샘플을 획득하고, 상기 안면 이미지 샘플을 복수의 이미지 블록으로 분할하는 단계;
    상기 안면 이미지 샘플의 각 이미지 블록의 중요성 정보를 결정하는 단계;
    상기 비전 트랜스포머 모델의 가지치기율을 획득하는 단계;
    상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는 단계;
    상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 안면 이미지 샘플의 특징 벡터를 결정하고, 상기 특징 벡터에 따라 안면 인식 결과를 획득하는 단계; 및
    상기 안면 인식 결과에 따라 상기 안면 인식 모델을 훈련하는 단계; 를 포함하는,
    안면 인식 모델 훈련 방법.
  7. 이미지 처리 장치에 있어서,
    처리할 안면 이미지를 획득하고, 상기 처리할 안면 이미지를 복수의 이미지 블록으로 분할하는데 사용되는 제1 획득 모듈;
    상기 처리할 안면 이미지의 각 이미지 블록의 중요성 정보를 결정하는데 사용되는 제1 결정 모듈;
    비전 트랜스포머 모델의 가지치기율을 획득하는데 사용되는 제2 획득 모듈;
    상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는데 사용되는 가지치기 모듈; 및
    상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 처리할 안면 이미지의 특징 벡터를 결정하는데 사용되는 제2 결정 모듈; 을 포함하는,
    이미지 처리 장치.
  8. 제7항에 있어서,
    상기 제1 결정 모듈은,
    복수의 안면 이미지 샘플을 상기 비전 트랜스포머 모델에 입력하여, 각 층 네트워크에 의해 출력된 각 안면 이미지 샘플에 대응되는 어텐션 행렬을 획득하고;
    획득된 모든 어텐션 행렬을 합병하고, 각 이미지 블록 샘플의 가중치를 획득하고;
    상기 각 이미지 블록 샘플의 가중치에 따라, 상기 처리할 안면 이미지에서 각 이미지 블록의 중요성 정보를 결정하는데 사용되는,
    이미지 처리 장치.
  9. 제7항에 있어서,
    상기 가지치기 모듈은,
    상기 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하고;
    상기 각 이미지 블록의 중요성 정보 및 상기 각 층 네트워크의 이미지 블록 가지치기 수량에 따라, 상기 복수의 이미지 블록에서 각 층 네트워크에 있는 가지치기할 이미지 블록을 결정하고;
    각 층 네트워크의 입력 특징에 대해, 상기 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 상기 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는데 사용되는,
    이미지 처리 장치.
  10. 제7항에 있어서,
    상기 가지치기 모듈은,
    상기 각 이미지 블록의 중요성 정보에 따라, 상기 각 이미지 블록을 정렬하고;
    상기 각 이미지 블록 및 상기 각 이미지 블록의 정렬 결과를 상기 비전 트랜스포머 모델에 입력하고;
    상기 가지치기율에 따라, 각 층 네트워크의 이미지 블록 가지치기 수량을 결정하며;
    각 층 네트워크의 입력 특징에 대해, 상기 각 이미지 블록의 정렬 결과에 따라, 상기 입력 특징에서 상기 이미지 블록 가지치기 수량의 이미지 블록에 대응되는 특징을 자르고, 상기 자른 후 획득된 특징을 현재 층의 네트워크에 입력하는데 사용되는,
    이미지 처리 장치.
  11. 제7항에 있어서,
    상기 비전 트랜스포머 모델은 N층의 네트워크를 포함하고, 상기 N은 1보다 큰 정수이고;
    상기 가지치기 모듈은,
    상기 가지치기율에 따라, 제i 층 네트워크의 이미지 블록 가지치기 수량을 결정하고; 상기 i는 0보다 크고 N-1보다 작거나 같은 정수이고,
    상기 각 이미지 블록의 중요성 정보 및 상기 제i 층 네트워크의 이미지 블록 가지치기 수량에 따라, 상기 복수의 이미지 블록에서 상기 제i 층 네트워크에 있는 가지치기할 이미지 블록을 결정하고;
    제i 층 네트워크의 입력 특징에 대해, 상기 입력 특징의 가지치기할 이미지 블록의 특징을 자르고, 상기 자른 후 획득된 특징을 제i 층 네트워크에 입력하며;
    제N 층 네트워크의 입력 특징에 대해, 상기 입력 특징을 잘라낸 모든 이미지 블록의 특징과 스플라이스하고, 스플라이스 처리 후 획득된 특징을 제N 층 네트워크에 입력하는데 사용되는,
    이미지 처리 장치.
  12. 안면 인식 모델의 훈련 장치에 있어서,
    상기 안면 인식 모델은 비전 트랜스포머 모델을 포함하고,
    상기 안면 인식 모델의 훈련 장치는,
    안면 이미지 샘플을 획득하고, 상기 안면 이미지 샘플을 복수의 이미지 블록으로 분할하는데 사용되는 제1 획득 모듈;
    상기 안면 이미지 샘플의 각 이미지 블록의 중요성 정보를 결정하는데 사용되는 제1 결정 모듈;
    상기 비전 트랜스포머 모델의 가지치기율을 획득하는데 사용되는 제2 획득 모듈;
    상기 복수의 이미지 블록을 상기 비전 트랜스포머 모델에 입력하고, 상기 가지치기율 및 상기 각 이미지 블록의 중요성 정보에 따라, 상기 비전 트랜스포머 모델의 각 층 네트워크의 입력에 대해 가지치기 처리를 수행하여, 상기 비전 트랜스포머 모델의 출력 결과를 획득하는데 사용되는 가지치기 모듈;
    상기 비전 트랜스포머 모델의 출력 결과에 따라, 상기 안면 이미지 샘플의 특징 벡터를 결정하고, 상기 특징 벡터에 따라 안면 인식 결과를 획득하는데 사용되는 제2 결정 모듈; 및
    상기 안면 인식 결과에 따라 상기 안면 인식 모델을 훈련하는데 사용되는 훈련 모듈; 을 포함하는,
    안면 인식 모델의 훈련 장치.
  13. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제5항 중 어느 한 항의 방법 및 제6항의 방법 중의 적어도 하나를 수행하는,
    전자 기기.
  14. 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램의 명령이 수행될 경우 컴퓨터가 제1항 내지 제5항 중 어느 한 항의 방법 및 제6항의 방법 중의 적어도 하나를 수행하는,
    비일시적 컴퓨터 판독 가능 저장 매체.
  15. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 프로세서에 의해 수행될 경우 제1항 내지 제5항 중 어느 한 항의 방법 및 제6항의 방법 중의 적어도 하나가 구현되는,
    컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020220113617A 2021-09-29 2022-09-07 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기 KR20220130630A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111157086.5 2021-09-29
CN202111157086.5A CN113901904A (zh) 2021-09-29 2021-09-29 图像处理方法、人脸识别模型训练方法、装置及设备

Publications (1)

Publication Number Publication Date
KR20220130630A true KR20220130630A (ko) 2022-09-27

Family

ID=79189682

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220113617A KR20220130630A (ko) 2021-09-29 2022-09-07 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기

Country Status (4)

Country Link
US (1) US20230103013A1 (ko)
JP (1) JP2022172362A (ko)
KR (1) KR20220130630A (ko)
CN (1) CN113901904A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116342964A (zh) * 2023-05-24 2023-06-27 杭州有朋网络技术有限公司 针对于电子商务平台的图片宣传的风控系统及其方法
KR102646073B1 (ko) 2022-12-13 2024-03-12 인하대학교 산학협력단 선박 이미지 재구성 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953654A (zh) * 2022-03-24 2023-04-11 北京字跳网络技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN114693977A (zh) * 2022-04-06 2022-07-01 北京百度网讯科技有限公司 图像处理方法、模型训练方法、装置、设备及介质
KR102504007B1 (ko) * 2022-09-07 2023-02-27 (주)내스타일 분할 이미지를 통해 컨텍스트 벡터를 생성하는 컨텍스트 벡터 추출 모듈 및 이의 동작 방법
CN116132818B (zh) * 2023-02-01 2024-05-24 辉羲智能科技(上海)有限公司 用于自动驾驶的图像处理方法及系统
CN116611477B (zh) * 2023-05-31 2024-05-17 北京百度网讯科技有限公司 数据剪枝方法和序列模型的训练方法、装置、设备和介质
CN116612435B (zh) * 2023-07-18 2023-10-27 吉林隆源农业服务有限公司 一种玉米高产栽培方法
CN116844217B (zh) * 2023-08-30 2023-11-14 成都睿瞳科技有限责任公司 用于生成人脸数据的图像处理系统及方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004059051A1 (de) * 2004-12-07 2006-06-08 Deutsche Telekom Ag Verfahren und modellbasiertes Audio- und Videosystem zur Darstellung einer virtuellen Figur
EP3192010A1 (en) * 2014-09-09 2017-07-19 Thomson Licensing Image recognition using descriptor pruning
CN105354571B (zh) * 2015-10-23 2019-02-05 中国科学院自动化研究所 基于曲线投影的畸变文本图像基线估计方法
CN108229533A (zh) * 2017-11-22 2018-06-29 深圳市商汤科技有限公司 图像处理方法、模型剪枝方法、装置及设备
CN108764046A (zh) * 2018-04-26 2018-11-06 平安科技(深圳)有限公司 车辆损伤分类模型的生成装置、方法及计算机可读存储介质
CN110659582A (zh) * 2019-08-29 2020-01-07 深圳云天励飞技术有限公司 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN111428583B (zh) * 2020-03-05 2023-05-12 同济大学 一种基于神经网络和触觉点阵的视觉补偿方法
CN111985340A (zh) * 2020-07-22 2020-11-24 深圳市威富视界有限公司 基于神经网络模型的人脸识别方法、装置和计算机设备
CN112489396B (zh) * 2020-11-16 2022-12-16 中移雄安信息通信科技有限公司 一种行人尾随行为检测方法、装置、电子设备和存储介质
CN112766421A (zh) * 2021-03-12 2021-05-07 清华大学 基于结构感知的人脸聚类方法和装置
CN112927173B (zh) * 2021-04-12 2023-04-18 平安科技(深圳)有限公司 模型压缩方法、装置、计算设备及存储介质
CN113361540A (zh) * 2021-05-25 2021-09-07 商汤集团有限公司 图像处理方法及装置、电子设备和存储介质
CN113361363B (zh) * 2021-05-31 2024-02-06 北京百度网讯科技有限公司 人脸图像识别模型的训练方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102646073B1 (ko) 2022-12-13 2024-03-12 인하대학교 산학협력단 선박 이미지 재구성 방법
CN116342964A (zh) * 2023-05-24 2023-06-27 杭州有朋网络技术有限公司 针对于电子商务平台的图片宣传的风控系统及其方法

Also Published As

Publication number Publication date
US20230103013A1 (en) 2023-03-30
JP2022172362A (ja) 2022-11-15
CN113901904A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
KR20220130630A (ko) 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기
US20220004811A1 (en) Method and apparatus of training model, device, medium, and program product
CN111488985B (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN113657399A (zh) 文字识别模型的训练方法、文字识别方法及装置
CN113379627A (zh) 图像增强模型的训练方法和对图像进行增强的方法
EP3876197A2 (en) Portrait extracting method and apparatus, electronic device and storage medium
CN114445831A (zh) 一种图文预训练方法、装置、设备以及存储介质
CN112562069A (zh) 三维模型的构造方法、装置、设备和存储介质
WO2022247343A1 (zh) 识别模型训练方法、识别方法、装置、设备及存储介质
JP2023547010A (ja) 知識の蒸留に基づくモデルトレーニング方法、装置、電子機器
EP4390725A1 (en) Video retrieval method and apparatus, device, and storage medium
WO2022064656A1 (ja) 処理システム、処理方法及び処理プログラム
WO2023207039A1 (zh) 数据处理方法、装置、设备以及存储介质
US20230047748A1 (en) Method of fusing image, and method of training image fusion model
CN114020950A (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN116704291A (zh) 分片并行的模型训练方法、装置、设备及存储介质
CN114863229A (zh) 图像分类方法和图像分类模型的训练方法、装置
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
KR20220116395A (ko) 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체
CN114693934A (zh) 语义分割模型的训练方法、视频语义分割方法及装置
CN114463551A (zh) 图像处理方法、装置、存储介质及电子设备
CN113837965A (zh) 图像清晰度识别方法、装置、电子设备及存储介质
CN113240780B (zh) 生成动画的方法和装置
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN115019057A (zh) 图像特征提取模型确定方法及装置、图像识别方法及装置