KR102362744B1 - 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법 - Google Patents

딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법 Download PDF

Info

Publication number
KR102362744B1
KR102362744B1 KR1020200001718A KR20200001718A KR102362744B1 KR 102362744 B1 KR102362744 B1 KR 102362744B1 KR 1020200001718 A KR1020200001718 A KR 1020200001718A KR 20200001718 A KR20200001718 A KR 20200001718A KR 102362744 B1 KR102362744 B1 KR 102362744B1
Authority
KR
South Korea
Prior art keywords
size
learning
feature
features
face
Prior art date
Application number
KR1020200001718A
Other languages
English (en)
Other versions
KR20200095356A (ko
Inventor
김용중
김인수
김학경
남운현
부석훈
성명철
유우주
정경중
제홍모
조호진
Original Assignee
주식회사 스트라드비젼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스트라드비젼 filed Critical 주식회사 스트라드비젼
Publication of KR20200095356A publication Critical patent/KR20200095356A/ko
Application granted granted Critical
Publication of KR102362744B1 publication Critical patent/KR102362744B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • G06K9/6255
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용한 얼굴 인식 방법에 있어서, (a) 제1 사이즈를 갖는 얼굴 이미지가 획득되면, 얼굴 인식 장치가, 상기 얼굴 이미지를 특징 추출 네트워크 - 상기 특징 추출 네트워크는 제2 사이즈를 갖는 학습용 얼굴 이미지를 사용하여 적어도 하나의 특징이 추출되도록 학습된 것을 특징으로 하며, 상기 제2 사이즈는 상기 제1 사이즈보다 작음 - 로 입력하여, 상기 특징 추출 네트워크로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 특징 맵을 생성하도록 하며, 상기 특징 맵에 슬라이딩 풀링 연산을 적용하여 다수의 특징들을 생성하도록 하는 단계; 및 (b) 상기 얼굴 인식 장치가, 상기 다수의 특징들을 학습된 뉴럴 애그리게이션 네트워크로 입력하여, 상기 뉴럴 애그리게이션 네트워크로 하여금 상기 다수의 특징들을 애그리게이트하여 얼굴 인식을 위한 적어도 하나의 최적 특징을 출력하도록 하는 단계;를 포함하는 것을 특징으로 하는 방법에 관한 것이다.

Description

딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법{METHOD FOR RECOGNIZING FACE USING MULTIPLE PATCH COMBINATION BASED ON DEEP NEURAL NETWORK WITH FAULT TOLERANCE AND FLUCTUATION ROBUSTNESS IN EXTREME SITUATION}
본 발명은 얼굴 인식 장치에 관한 것으로, 보다 구체적으로 얼굴 이미지에 대응하는 다수의 특징을 사용하여 얼굴을 인식하기 위한 시스템에 관한 것이다.
딥 러닝(Deep learning)은 다수의 프로세싱 레이어가 포함된 딥 그래프를 사용하여 높은 수준의 데이터 추출을 모델링하기 위하여 시도하는 알고리즘 세트를 기반으로 하는 머신 러닝(machine learning) 및 인공 신경망(artificial neural network)의 일종이다. 일반적인 딥 러닝 아키텍처에는 많은 뉴런 레이어와 수 백만 개의 파라미터가 포함될 수 있다. 이러한 파라미터는 고속 CPU가 장착된 컴퓨터에서 대량의 데이터로 학습될 수 있으며, ReLU(rectified linear units), 드롭 아웃(dropout), 데이터 증강(data augmentation), SGD(stochastic gradient descent) 등과 같은 많은 레이어에서 작동할 수 있는 새로운 학습 기술에 의해 가이드 된다.
기존의 딥 러닝 아키텍처 중에서 CNN(convolutional neural network)은 가장 널리 사용되는 딥 러닝 아키텍처 중 하나이다. 비록 CNN의 기본 개념은 20년 이상 알려져 왔지만, CNN의 진정한 힘은 최근 딥 러닝 이론이 개발된 이후에 인정되었다. 현재까지 CNN은 얼굴 인식, 이미지 분류, 이미지 캡션 생성, 시각적 질의응답 및 자율 주행 차량과 같은 인공지능 및 기계 학습 어플리케이션에서 큰 성공을 이루었다.
얼굴 인식은 많은 얼굴 인식 어플리케이션에서 중요한 프로세스이다. 얼굴 감지 기술의 대부분은 얼굴의 정면을 쉽게 감지할 수 있다.
이러한 얼굴 인식은 얼굴 이미지가 입력되면 특징 추출 네트워크에 의해 얼굴 이미지로부터 특징을 추출하며, 추출된 특징을 사용하여 얼굴을 인식하게 된다.
특히, 종래의 얼굴 인식 장치에서는 얼굴 인식 성능을 향상시키기 위하여 입력 증강(input augmentation)를 이용하고 있다.
즉, 도 1을 참조하면, 얼굴 이미지가 입력되면 패치 생성부(11)는 얼굴 이미지에 대응하는 복수의 패치를 생성하기 위해 변환(translation) 또는 플립(flip) 등과 같은 방법을 사용하여 얼굴 이미지를 처리할 수 있고, 특징 추출 네트워크(12)는 생성된 각각의 패치로부터 특징을 추출하며, 추출된 특징을 평균화하여 얼굴 이미지에 대응되는 특징을 출력하여 얼굴 이미지에 대한 얼굴 인식을 수행하게 된다.
그러나, 이러한 종래의 얼굴 인식 장치에서는 생성된 패치에 대응되는 회수만큼 특징 추출 네트워크에서 순방향 컴퓨팅(forward computing)을 수행하여야 하므로, 시간이 많이 소요되며 많은 컴퓨팅 리소스를 사용하는 단점이 있다.
또한, 종래의 얼굴 인식 장치에서는 평균화된 특징이 얼굴 이미지에 대응되는 가장 최적의 특징이라는 보장이 없으므로 얼굴 인식 결과에 대한 신뢰성을 보장하기 어려운 문제점이 있다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
본 발명은 패치를 생성하는 과정없이 다수의 특징을 획득할 수 있도록 하는 것을 다른 목적으로 한다.
본 발명은 패치를 생성하는 과정없이 한번의 순방향 컴퓨팅(forward computing)을 이용하여 다수의 특징을 획득할 수 있도록 하는 것을 또 다른 목적으로 한다.
본 발명은 얼굴 인식에 소요되는 시간을 최소화하며, 컴퓨팅 리소스의 사용을 최소화할 수 있도록 하는 것을 또 다른 목적으로 한다.
본 발명은 얼굴 인식 결과에 대한 신뢰성을 보장할 수 있도록 하는 것을 또 다른 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용한 얼굴 인식 방법에 있어서, (a) 제1 사이즈를 갖는 얼굴 이미지가 획득되면, 얼굴 인식 장치가, 상기 얼굴 이미지를 특징 추출 네트워크 - 상기 특징 추출 네트워크는 제2 사이즈를 갖는 학습용 얼굴 이미지를 사용하여 적어도 하나의 특징이 추출되도록 학습된 것을 특징으로 하며, 상기 제2 사이즈는 상기 제1 사이즈보다 작음 - 로 입력하여, 상기 특징 추출 네트워크로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 특징 맵을 생성하도록 하며, 상기 특징 맵에 슬라이딩 풀링 연산을 적용하여 다수의 특징들을 생성하도록 하는 단계; 및 (b) 상기 얼굴 인식 장치가, 상기 다수의 특징들을 학습된 뉴럴 애그리게이션 네트워크로 입력하여, 상기 뉴럴 애그리게이션 네트워크로 하여금 상기 다수의 특징들을 애그리게이트하여 얼굴 인식을 위한 적어도 하나의 최적 특징을 출력하도록 하는 단계;를 포함하는 것을 특징으로 하는 방법이 제공된다.
일 실시예에서, 상기 (a) 단계에서, 상기 얼굴 인식 장치는, 상기 제1 사이즈를 갖는 상기 얼굴 이미지를 상기 특징 추출 네트워크의 적어도 하나의 컨볼루션 레이어에 입력하여, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 제1_1 사이즈의 특징 맵을 생성하도록 하고, 상기 제1_1 사이즈의 특징 맵을 풀링 레이어에 입력하여, 상기 풀링 레이어로 하여금 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용함으로써 제2_1 사이즈의 다수의 특징들을 생성하도록 하되, 상기 제2_1 사이즈는 상기 제2 사이즈를 갖는 학습용 얼굴 이미지에 대응하는 학습용 특징 맵의 사이즈이며, 특징 추출 네트워크에 의해 생성된 것을 특징으로 하는 방법이 제공된다.
일 실시예에서, 상기 특징 추출 네트워크는, 제1 학습 장치에 의해, (i) 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지가 상기 적어도 하나의 컨볼루션 레이어로 입력되어, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지에 적어도 하나의 컨벌루션 레이어의 적어도 하나의 이전 학습된 컨볼루션 파라미터를 사용한 적어도 하나의 컨벌루션 연산을 적용하여 상기 제2_1 사이즈의 상기 학습용 특징 맵이 생성되고, (ii) 상기 제2_1 사이즈의 상기 학습용 특징 맵에 대응되는 학습용 특성 정보와 이에 대응되는 GT를 참조하여 제1 로스 레이어에 의해 생성된 하나 이상의 제1 로스를 최소화하도록, 상기 적어도 하나의 컨볼루션 레이어의 상기 적어도 하나의 이전 학습된 컨볼루션 파라미터가 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 방법이 제공된다.
일 실시예에서, 상기 얼굴 인식 장치는, 상기 풀링 레이어로 하여금, 기설정된 스트라이드를 이용하여 상기 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용하도록 하는 것을 특징으로 하는 방법이 제공된다.
일 실시예에서, 상기 (b) 단계에서, 상기 얼굴 인식 장치는, 상기 다수의 특징들을 상기 뉴럴 애그리게이션 네트워크의 적어도 2개의 어텐션 블록들에 입력하여, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 방법이 제공된다.
일 실시예에서, 상기 얼굴 인식 장치는, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 다수의 특징들 각각에 대응하는 퀄리티 스코어 각각을 생성하도록 하고, 상기 퀄리티 스코어를 이용하여 상기 다수의 특징들을 가중 합산(weighted summation)하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 방법이 제공된다.
일 실시예에서, 상기 뉴럴 애그리게이션 네트워크는, 제2 학습 장치에 의해, (i) 하나의 얼굴에 대한 비디오 또는 상기 하나의 얼굴에 대한 이미지 세트에 대응되는 복수의 학습용 얼굴 특징들이 상기 적어도 2개의 어텐션 블록들로 입력되어, 상기 적어도 2개의 어텐션 블록들의 이전 학습된 어텐션 파라미터들을 이용하여 상기 학습용 얼굴 특징들을 애그리게이트함으로써 상기 학습용 얼굴 특징들 각각에 대응하는 학습용 퀄리티 스코어 각각이 생성되도록 하며, (ii) 상기 학습용 퀄리티 스코어들을 이용하여 상기 학습용 얼굴 특징들을 가중 합산함으로써 학습용 최적 특징이 출력되며, (iii) 상기 학습용 최적 특징 및 이에 대응하는 GT를 참조로 하여 제2 로스 레이어에 의해 생성된 하나 이상의 제2 로스를 최소화하도록 상기 적어도 2개의 어텐션 블록들의 상기 이전 학습된 어텐션 파라미터들이 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 방법이 제공된다.
일 실시예에서, (c) 상기 얼굴 인식 장치는, 상기 최적 특징을 참조로 하여 얼굴 정보 데이터베이스로부터 레퍼런스 특징을 검색하여 상기 얼굴 이미지 상의 얼굴을 인식하는 단계;를 더 포함하는 것을 특징으로 하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용한 얼굴 인식 장치에 있어서, 적어도 하나의 인스트럭션들을 저장하는 적어도 하나의 메모리; 및 상기 인스트럭션들을 수행하도록 설정된 적어도 하나의 프로세서를 포함하되, 상기 프로세서는, (I) 제1 사이즈를 갖는 얼굴 이미지가 획득되면, 상기 얼굴 이미지를 특징 추출 네트워크 - 상기 특징 추출 네트워크는 제2 사이즈를 갖는 학습용 얼굴 이미지를 사용하여 적어도 하나의 특징이 추출되도록 학습된 것을 특징으로 하며, 상기 제2 사이즈는 상기 제1 사이즈보다 작음 - 로 입력하여, 상기 특징 추출 네트워크로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 특징 맵을 생성하도록 하며, 상기 특징 맵에 슬라이딩 풀링 연산을 적용하여 다수의 특징들을 생성하도록 하는 프로세스; 및 (II) 상기 다수의 특징들을 학습된 뉴럴 애그리게이션 네트워크로 입력하여, 상기 뉴럴 애그리게이션 네트워크로 하여금 상기 다수의 특징들을 애그리게이트하여 얼굴 인식을 위한 적어도 하나의 최적 특징을 출력하도록 하는 프로세스;를 수행하는 것을 특징으로 하는 장치가 제공된다.
일 실시예에서, 상기 (I) 프로세스는, 상기 프로세서가, 상기 제1 사이즈를 갖는 상기 얼굴 이미지를 상기 특징 추출 네트워크의 적어도 하나의 컨볼루션 레이어에 입력하여, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 제1_1 사이즈의 특징 맵을 생성하도록 하고, 상기 제1_1 사이즈의 특징 맵을 풀링 레이어에 입력하여, 상기 풀링 레이어로 하여금 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용함으로써 제2_1 사이즈의 다수의 특징들을 생성하도록 하되, 상기 제2_1 사이즈는 상기 제2 사이즈를 갖는 학습용 얼굴 이미지에 대응하는 학습용 특징 맵의 사이즈이며, 특징 추출 네트워크에 의해 생성된 것을 특징으로 하는 장치가 제공된다.
일 실시예에서, 상기 특징 추출 네트워크는, 제1 학습 장치에 의해, (i) 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지가 상기 적어도 하나의 컨볼루션 레이어로 입력되어, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지에 적어도 하나의 컨벌루션 레이어의 적어도 하나의 이전 학습된 컨볼루션 파라미터를 사용한 적어도 하나의 컨벌루션 연산을 적용하여 상기 제2_1 사이즈의 상기 학습용 특징 맵이 생성되고, (ii) 상기 제2_1 사이즈의 상기 학습용 특징 맵에 대응되는 학습용 특성 정보와 이에 대응되는 GT를 참조하여 제1 로스 레이어에 의해 생성된 하나 이상의 제1 로스를 최소화하도록, 상기 적어도 하나의 컨볼루션 레이어의 상기 적어도 하나의 이전 학습된 컨볼루션 파라미터가 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 장치가 제공된다.
일 실시예에서, 상기 프로세서가, 상기 풀링 레이어로 하여금, 기설정된 스트라이드를 이용하여 상기 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용하도록 하는 것을 특징으로 하는 장치가 제공된다.
일 실시예에서, 상기 (II) 프로세스는, 상기 프로세서가, 상기 다수의 특징들을 상기 뉴럴 애그리게이션 네트워크의 적어도 2개의 어텐션 블록들에 입력하여, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 장치가 제공된다.
일 실시예에서, 상기 프로세서가, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 다수의 특징들 각각에 대응하는 퀄리티 스코어 각각을 생성하도록 하고, 상기 퀄리티 스코어를 이용하여 상기 다수의 특징들을 가중 합산(weighted summation)하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 장치가 제공된다.
일 실시예에서, 상기 뉴럴 애그리게이션 네트워크는, 제2 학습 장치에 의해, (i) 하나의 얼굴에 대한 비디오 또는 상기 하나의 얼굴에 대한 이미지 세트에 대응되는 복수의 학습용 얼굴 특징들이 상기 적어도 2개의 어텐션 블록들로 입력되어, 상기 적어도 2개의 어텐션 블록들의 이전 학습된 어텐션 파라미터들을 이용하여 상기 학습용 얼굴 특징들을 애그리게이트함으로써 상기 학습용 얼굴 특징들 각각에 대응하는 학습용 퀄리티 스코어 각각이 생성되도록 하며, (ii) 상기 학습용 퀄리티 스코어들을 이용하여 상기 학습용 얼굴 특징들을 가중 합산함으로써 학습용 최적 특징이 출력되며, (iii) 상기 학습용 최적 특징 및 이에 대응하는 GT를 참조로 하여 제2 로스 레이어에 의해 생성된 하나 이상의 제2 로스를 최소화하도록 상기 적어도 2개의 어텐션 블록들의 상기 이전 학습된 어텐션 파라미터들이 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 장치가 제공된다.
일 실시예에서, 상기 프로세서가, (III) 상기 최적 특징을 참조로 하여 얼굴 정보 데이터베이스로부터 레퍼런스 특징을 검색하여 상기 얼굴 이미지 상의 얼굴을 인식하는 프로세스;를 더 수행하는 것을 특징으로 하는 장치가 제공된다.
이 외에도, 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명은 학습된 이미지보다 큰 이미지를 입력하여 패치를 생성하는 과정없이 다수의 특징을 획득할 수 있게 된다.
본 발명은 학습된 이미지보다 큰 이미지를 입력하여 특징 추출 동안 한번의 순방향 컴퓨팅만으로 다수의 특징을 획득하므로, 특징 추출을 위한 컴퓨팅 시간 및 컴퓨팅 리소스의 소모를 절감할 수 있게 된다.
본 발명은 퀄리티 스코어를 이용하여 다수의 특징을 가중 합산하여 최적의 특징을 출력하므로 얼굴 인식 결과에 대한 신뢰성을 보장할 수 있게 된다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자(이하 "통상의 기술자")에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 종래의 얼굴 인식 장치를 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따라 딥 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴을 인식하는 얼굴 인식 장치를 개략적으로 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따라 딥 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴을 인식하는 방법을 개략적으로 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따라 딥 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴을 인식하는 방법에서 특징 추출 네트워크를 개략적으로 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따라 딥 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴을 인식하는 방법에서 생성된 예시적인 다중 패치를 개략적으로 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따라 딥 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴을 인식하는 방법에서 뉴럴 애그리게이션 네트워크를 개략적으로 나타내는 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, "포함하다"라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.
본 발명에서 언급하는 각종 이미지는 포장 또는 비포장 도로 관련 이미지를 포함할 수 있으며, 이 경우 도로 환경에서 등장할 수 있는 물체(가령, 자동차, 사람, 동물, 식물, 물건, 건물, 비행기나 드론과 같은 비행체, 기타 장애물)를 상정할 수 있을 것이나, 반드시 이에 한정되는 것은 아니며, 본 발명에서 언급하는 각종 이미지는 도로와 상관 없는 이미지(가령, 비포장도로, 골목길, 공터, 바다, 호수, 강, 산, 숲, 사막, 하늘, 실내와 관련된 이미지)일 수도 있으며, 이 경우, 비포장도로, 골목길, 공터, 바다, 호수, 강, 산, 숲, 사막, 하늘, 실내 환경에서 등장할 수 있는 물체(가령, 자동차, 사람, 동물, 식물, 물건, 건물, 비행기나 드론과 같은 비행체, 기타 장애물)를 상정할 수 있을 것이나, 반드시 이에 한정되는 것은 아니다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따라 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴을 인식하는 얼굴 인식 장치를 개략적으로 나타내는 도면이다. 도 2를 참조하면, 얼굴 인식 장치(100)는 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 적어도 하나의 얼굴 이미지의 얼굴 인식을 하기 위한 인스트럭션들을 저장하는 메모리(110)와 메모리(110)에 저장된 인스트럭션들에 대응하여 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴 이미지로부터 얼굴을 인식하는 프로세서(120)를 포함할 수 있다. 여기서, 뉴럴 네트워크는 딥 러닝 네트워크 또는 딥 뉴럴 네트워크를 포함할 수 있으나, 본 발명의 범위는 이에 한정되는 것은 아니다.
구체적으로, 얼굴 인식 장치(100)는 전형적으로 적어도 하나의 컴퓨팅 장치(컴퓨터 프로세서, 메모리, 스토리지, 입력 장치, 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치, 라우터 또는 스위치 등과 같은 전자 통신 장치, 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 적어도 하나의 컴퓨터 소프트웨어(컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
또한, 컴퓨팅 장치의 프로세서는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 컴퓨팅 장치는 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
그러나, 이와 같이 컴퓨팅 장치가 묘사되었다고 하여, 컴퓨팅 장치가 본 발명을 실시하기 위한 미디엄, 프로세서 및 메모리가 통합된 형태인 통합 프로세서를 포함하는 경우를 배제하는 것은 아니다.
본 발명의 일 실시예에 따라 얼굴 인식 장치(100)를 이용하여 딥 뉴럴 네트워크 기반의 다중 패치 조합을 이용하여 얼굴을 인식하는 방법을 도 3을 참조하여 설명하면 다음과 같다.
먼저, 제1 사이즈를 갖는 얼굴 이미지가 획득되면, 얼굴 인식 장치(100)가, 상기 얼굴 이미지를 특징 추출 네트워크(130)로 입력하여, 상기 특징 추출 네트워크(130)로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 특징 맵을 생성하도록 하며, 상기 특징 맵에 슬라이딩 풀링 연산을 적용하여 다수의 특징들을 생성하도록 한다. 상기 특징 추출 네트워크(130)는 제2 사이즈를 갖는 학습용 얼굴 이미지를 사용하여 적어도 하나의 특징이 추출되도록 학습된 것을 특징으로 하며, 상기 제2 사이즈는 상기 제1 사이즈보다 작다.
일 예로, 도 4를 참조하면, 제1 사이즈를 갖는 얼굴 이미지가 획득되면, 특징 추출 네트워크(130)는 제1 컨볼루션 레이어(131_1) 내지 제n 컨볼루션 레이어(131_n)를 이용하여 제1 사이즈를 갖는 얼굴 이미지에 복수의 컨볼루션 연산을 적용함으로써 제1_1 사이즈의 특징 맵을 생성하도록 한다. 여기서, 제1 컨볼루션 레이어(131_1) 내지 제n 컨볼루션 레이어(131_n)는 제1 사이즈를 갖는 학습용 얼굴 이미지에 대하여 복수의 컨볼루션 연산을 적용하여 제2_1 사이즈의 학습용 특징 맵을 생성하도록 학습된 상태일 수 있으며, 제2_1 사이즈는 제1_1 사이즈보다 작을 수 있다.
그리고, 도 5를 참조하면, 특징 추출 네트워크(130)는 풀링 레이어(132)로 하여금 제2_1 사이즈의 풀링 사이즈를 사용하여 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용하여 제2_1 사이즈의 다수의 특징들을 생성하도록 한다. 여기서, 슬라이딩 풀링 연산은 기설정된 스트라이드를 이용하여 수행할 수 있다. 또한, 도 5에서는 실제 특징 맵을 도시한 것은 아니며, 설명의 편의를 위해 특징 맵에 대응되는 얼굴 이미지를 도시한 것이다.
이를 좀 더 상세히 설명하면 다음과 같다.
학습 장치는 특징 추출 네트워크(130)로 하여금 192 x 192 사이즈의 학습용 얼굴 이미지에 복수의 컨볼루션 연산을 적용하여 6 x 6 사이즈의 특징 맵을 생성하도록 하며, 풀링 레이어로 하여금 6 x 6 사이즈의 특징 맵에 하나 이상의 6 x 6 풀링 연산을 적용하여 특징 벡터를 출력하도록 학습된 상태일 수 있다.
여기서, 특징 추출 네트워크(130)의 각각의 컨볼루션 레이어(131_1 내지 131_n)는 자신에 대응하는 입력 이미지 또는 입력 특징 맵에 컨볼루션 연산을 적용하여 이에 대응하는 입력 이미지 또는 입력 특징 맵의 사이즈의 1/2 사이즈로 각각의 특징 맵을 출력하고, 192 x 192 사이즈의 학습용 얼굴 이미지는 6번의 컨볼루션 연산에 의해 6 x 6 사이즈의 특징 맵으로 변환될 수 있다.
그리고, 이와 같이 학습된 특징 추출 네트워크(130)에 320 x 320 사이즈의 얼굴 이미지가 입력되면, 특징 추출 네트워크(130)는 학습 과정에서와 유사한 과정에 의해 6번의 컨볼루션 연산을 수행하여 10 x 10 사이즈의 특징 맵을 출력할 수 있다.
그런 다음, 특징 추출 네트워크(130)는 풀링 레이어(132)로 하여금 슬라이딩 윈도우를 사용하여 10 x 10 사이즈의 특징 맵에 6 x 6 풀링 연산을 적용하여, 6 x 6 사이즈에 대응되는 적어도 하나의 영역에 대한 25개의 특징을 생성하도록 할 수 있다. 즉, 풀링 레이어는 6 x 6 사이즈의 윈도우를 1 스트라이드로 이동시킬 수 있고, 10 x 10 사이즈의 특징 맵에 풀링 연산을 적용하여 25개의 특징을 생성할 수 있다. 여기서, 풀링 레이어(132)는 다수의 특징들을 벡터화하여 생성된 특징 벡터를 출력할 수 있다.
결과적으로, 본 발명에서는 종래와는 달리 한번의 순방향 컴퓨팅 과정만을 이용하여 하나의 얼굴 이미지에 대한 다수의 특징들을 획득할 수 있다.
한편, 특징 추출 네트워크(130)는, 제1 학습 장치에 의해, (i) 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지가 상기 적어도 하나의 컨볼루션 레이어로 입력되어, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지에 적어도 하나의 컨벌루션 레이어의 적어도 하나의 이전 학습된 컨볼루션 파라미터를 사용한 적어도 하나의 컨벌루션 연산을 적용하여 상기 제2_1 사이즈의 상기 학습용 특징 맵이 생성되고, (ii) 상기 제2_1 사이즈의 상기 학습용 특징 맵에 대응되는 학습용 특성 정보(characteristic information)와 이에 대응되는 GT를 참조하여 제1 로스 레이어에 의해 생성된 하나 이상의 제1 로스를 최소화하도록, 상기 적어도 하나의 컨볼루션 레이어의 상기 적어도 하나의 이전 학습된 컨볼루션 파라미터가 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태일 수 있다.
즉, (i) (i-1) 제2_1 사이즈의 학습용 특징 맵에 풀링 연산을 적용하여 풀링 레이어에 의해 제2_1 사이즈로 풀링한 학습용 특징과 (i-2) 학습용 얼굴 이미지의 기설정된 특징과의 차이 및 (ii) (ii-1) 학습용 특징을 이용하여 인식된 얼굴 정보와 (ii-2) 학습용 얼굴 이미지에 대응되는 기설정된 얼굴 정보와의 차이 중 적어도 하나를 참조하여, 백프로퍼게이션에 의해 적어도 하나의 컨볼루션 레이어의 적어도 하나의 이전 학습된 컨볼루션 파라미터를 업데이트하는 과정을 반복함으로써 입력된 얼굴 이미지에 대응되는 정확한 얼굴 특징을 출력하도록 적어도 하나의 컨볼루션 레이어가 학습된 상태일 수 있다.
다음으로, 얼굴 인식 장치(100)는 획득된 다수의 특징을 뉴럴 애그리게이션 네트워크(140)로 입력하여 뉴럴 애그리게이션 네트워크(140)로 하여금 다수의 특징들을 애그리게이트하여 얼굴 인식을 위한 적어도 하나의 최적 특징을 출력하도록 할 수 있다.
일 예로, 도 6을 참조하면, 얼굴 인식 장치(100)는 다수의 특징들을 뉴럴 애그리게이션 네트워크(140)의 적어도 2개의 어텐션 블록들에 입력하여, 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 최적 특징을 출력하도록 할 수 있다.
즉, 얼굴 인식 장치(100)는 뉴럴 애그리게이션 네트워크(140)의 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 다수의 특징들 각각에 대응하는 퀄리티 스코어 각각을 생성하도록 하고, 상기 퀄리티 스코어를 이용하여 상기 다수의 특징들을 가중 합산(weighted summation)하여 상기 최적 특징을 출력하도록 할 수 있다.
여기서, 뉴럴 애그리게이션 네트워크(140)는 비디오 영상에서 얼굴 인식을 수행하기 위한 뉴럴 애그리게이션 네트워크에서의 애그리게이션 모듈만을 이용할 수 있다. 또한, 퀄리티 스코어는 뉴럴 애그리게이션 네트워크(140)가 가장 높은 얼굴 인식 성능을 갖도록 학습된 값일 수 있다.
한편, 비디오 영상에서 얼굴 인식을 수행하는 뉴럴 애그리게이션 네트워크에 대해서는, 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)에서 발표된 "Neural Aggregation Network for Video Face Recognition"에 기재되어 있다.
한편, 뉴럴 애그리게이션 네트워크(140)는, 제2 학습 장치에 의해, (i) 하나의 얼굴에 대한 비디오 또는 상기 하나의 얼굴에 대한 이미지 세트에 대응되는 복수의 학습용 얼굴 특징들이 상기 적어도 2개의 어텐션 블록들로 입력되어, 상기 적어도 2개의 어텐션 블록들의 이전 학습된 어텐션 파라미터들을 이용하여 상기 학습용 얼굴 특징들을 애그리게이트함으로써 상기 학습용 얼굴 특징들 각각에 대응하는 학습용 퀄리티 스코어 각각이 생성되도록 하며, (ii) 상기 학습용 퀄리티 스코어들을 이용하여 상기 학습용 얼굴 특징들을 가중 합산함으로써 학습용 최적 특징이 출력되며, (iii) 상기 학습용 최적 특징 및 이에 대응하는 GT를 참조로 하여 제2 로스 레이어에 의해 생성된 하나 이상의 제2 로스를 최소화하도록 상기 적어도 2개의 어텐션 블록들의 상기 이전 학습된 어텐션 파라미터들이 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태일 수 있다.
다음으로, 얼굴 인식 장치(100)는 퀄리티 스코어를 사용하여 복수의 특징들의 가중 합산에 의해 생성된 얼굴 인식에 사용될 최적의 특징을 이용함으로써, 상기 최적 특징을 참조로 하여 얼굴 정보 데이터베이스로부터 레퍼런스 특징을 검색하여 상기 얼굴 이미지 상의 얼굴을 인식할 수 있다.
즉, 본 발명은 패치를 생성하는 과정 없이, 한번의 순방향 컴퓨팅만으로 다수의 변환된 특징들을 획득하고, 뉴럴 애그리게이션 네트워크에 의해, 여러 개의 변환된 특징 중에서 얼굴 인식에서 중요하게 사용되는 특징에 더 높은 가중치를 주는 가중 합산 특징을 획득함으로써 얼굴 인식 성능을 극대화할 수 있게 된다.
이와 같은 본 발명에 의하면, 특징 추출 네트워크는 학습 프로세스가 수행되는 이미지보다 큰 이미지를 사용하여 효율적인 다수 시점 특징을 생성할 수 있고, 뉴럴 애그리게이션 네트워크는 최적의 특징을 출력할 수 있다. 결과적으로, 모바일 장치, 감시, 드론 등에서 흔들림에 강인하고 포즈 변화에 강인한 얼굴 인식이 가능하다.
또한, 이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (16)

  1. 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용한 얼굴 인식 방법에 있어서,
    (a) 제1 사이즈를 갖는 얼굴 이미지가 획득되면, 얼굴 인식 장치가, 상기 얼굴 이미지를 특징 추출 네트워크 - 상기 특징 추출 네트워크는 제2 사이즈를 갖는 학습용 얼굴 이미지를 사용하여 적어도 하나의 특징이 추출되도록 학습된 것을 특징으로 하며, 상기 제2 사이즈는 상기 제1 사이즈보다 작음 - 로 입력하여, 상기 특징 추출 네트워크로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 특징 맵을 생성하도록 하며, 상기 특징 맵에 슬라이딩 풀링 연산을 적용하여 기설정된 사이즈의 윈도우를 기설정된 스트라이드로 이동하며 상기 윈도우가 위치하는 각각의 위치에서 상기 윈도우 내에 포함되는 얼굴 영역에 대응되는 상기 특징 맵의 영역을 서로 다르게 하여 각각 풀링함으로써 상기 윈도우가 위치하는 상기 특징 맵 영역 각각에 대응되는 다수의 특징들을 생성하도록 하는 단계; 및
    (b) 상기 얼굴 인식 장치가, 상기 다수의 특징들을 학습된 뉴럴 애그리게이션 네트워크로 입력하여, 상기 뉴럴 애그리게이션 네트워크로 하여금 상기 다수의 특징들을 애그리게이트하여 얼굴 인식을 위한 적어도 하나의 최적 특징을 출력하도록 하는 단계;
    를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 (a) 단계에서,
    상기 얼굴 인식 장치는, 상기 제1 사이즈를 갖는 상기 얼굴 이미지를 상기 특징 추출 네트워크의 적어도 하나의 컨볼루션 레이어에 입력하여, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 제1_1 사이즈의 특징 맵을 생성하도록 하고, 상기 제1_1 사이즈의 특징 맵을 풀링 레이어에 입력하여, 상기 풀링 레이어로 하여금 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용함으로써 제2_1 사이즈의 다수의 특징들을 생성하도록 하되, 상기 제2_1 사이즈는 상기 제2 사이즈를 갖는 학습용 얼굴 이미지에 대응하는 학습용 특징 맵의 사이즈이며, 특징 추출 네트워크에 의해 생성된 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 특징 추출 네트워크는, 제1 학습 장치에 의해, (i) 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지가 상기 적어도 하나의 컨볼루션 레이어로 입력되어, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지에 적어도 하나의 컨벌루션 레이어의 적어도 하나의 이전 학습된 컨볼루션 파라미터를 사용한 적어도 하나의 컨벌루션 연산을 적용하여 상기 제2_1 사이즈의 상기 학습용 특징 맵이 생성되고, (ii) 상기 제2_1 사이즈의 상기 학습용 특징 맵에 대응되는 학습용 특성 정보(characteristic information)와 이에 대응되는 GT를 참조하여 제1 로스 레이어에 의해 생성된 하나 이상의 제1 로스를 최소화하도록, 상기 적어도 하나의 컨볼루션 레이어의 상기 적어도 하나의 이전 학습된 컨볼루션 파라미터가 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 방법.
  4. 제2항에 있어서,
    상기 얼굴 인식 장치는, 상기 풀링 레이어로 하여금, 기설정된 스트라이드를 이용하여 상기 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용하도록 하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 (b) 단계에서,
    상기 얼굴 인식 장치는, 상기 다수의 특징들을 상기 뉴럴 애그리게이션 네트워크의 적어도 2개의 어텐션 블록들에 입력하여, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 얼굴 인식 장치는, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 다수의 특징들 각각에 대응하는 퀄리티 스코어 각각을 생성하도록 하고, 상기 퀄리티 스코어를 이용하여 상기 다수의 특징들을 가중 합산(weighted summation)하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 방법.
  7. 제5항에 있어서,
    상기 뉴럴 애그리게이션 네트워크는, 제2 학습 장치에 의해, (i) 하나의 얼굴에 대한 비디오 또는 상기 하나의 얼굴에 대한 이미지 세트에 대응되는 복수의 학습용 얼굴 특징들이 상기 적어도 2개의 어텐션 블록들로 입력되어, 상기 적어도 2개의 어텐션 블록들의 이전 학습된 어텐션 파라미터들을 이용하여 상기 학습용 얼굴 특징들을 애그리게이트함으로써 상기 학습용 얼굴 특징들 각각에 대응하는 학습용 퀄리티 스코어 각각이 생성되도록 하며, (ii) 상기 학습용 퀄리티 스코어들을 이용하여 상기 학습용 얼굴 특징들을 가중 합산함으로써 학습용 최적 특징이 출력되며, (iii) 상기 학습용 최적 특징 및 이에 대응하는 GT를 참조로 하여 제2 로스 레이어에 의해 생성된 하나 이상의 제2 로스를 최소화하도록 상기 적어도 2개의 어텐션 블록들의 상기 이전 학습된 어텐션 파라미터들이 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    (c) 상기 얼굴 인식 장치는, 상기 최적 특징을 참조로 하여 얼굴 정보 데이터베이스로부터 레퍼런스 특징을 검색하여 상기 얼굴 이미지 상의 얼굴을 인식하는 단계;
    를 더 포함하는 것을 특징으로 하는 방법.
  9. 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용한 얼굴 인식 장치에 있어서,
    적어도 하나의 인스트럭션들을 저장하는 적어도 하나의 메모리; 및
    상기 인스트럭션들을 수행하도록 설정된 적어도 하나의 프로세서를 포함하되, 상기 프로세서는, (I) 제1 사이즈를 갖는 얼굴 이미지가 획득되면, 상기 얼굴 이미지를 특징 추출 네트워크 - 상기 특징 추출 네트워크는 제2 사이즈를 갖는 학습용 얼굴 이미지를 사용하여 적어도 하나의 특징이 추출되도록 학습된 것을 특징으로 하며, 상기 제2 사이즈는 상기 제1 사이즈보다 작음 - 로 입력하여, 상기 특징 추출 네트워크로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 특징 맵을 생성하도록 하며, 상기 특징 맵에 슬라이딩 풀링 연산을 적용하여 기설정된 사이즈의 윈도우를 기설정된 스트라이드로 이동하며 상기 윈도우가 위치하는 각각의 위치에서 상기 윈도우 내에 포함되는 얼굴 영역에 대응되는 상기 특징 맵의 영역을 서로 다르게 하여 각각 풀링함으로써 상기 윈도우가 위치하는 상기 특징 맵 영역 각각에 대응되는 다수의 특징들을 생성하도록 하는 프로세스; 및 (II) 상기 다수의 특징들을 학습된 뉴럴 애그리게이션 네트워크로 입력하여, 상기 뉴럴 애그리게이션 네트워크로 하여금 상기 다수의 특징들을 애그리게이트하여 얼굴 인식을 위한 적어도 하나의 최적 특징을 출력하도록 하는 프로세스;를 수행하는 것을 특징으로 하는 장치.
  10. 제9항에 있어서,
    상기 (I) 프로세스는,
    상기 프로세서가, 상기 제1 사이즈를 갖는 상기 얼굴 이미지를 상기 특징 추출 네트워크의 적어도 하나의 컨볼루션 레이어에 입력하여, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제1 사이즈를 갖는 상기 얼굴 이미지에 적어도 한번의 컨볼루션 연산을 적용함으로써 제1_1 사이즈의 특징 맵을 생성하도록 하고, 상기 제1_1 사이즈의 특징 맵을 풀링 레이어에 입력하여, 상기 풀링 레이어로 하여금 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용함으로써 제2_1 사이즈의 다수의 특징들을 생성하도록 하되, 상기 제2_1 사이즈는 상기 제2 사이즈를 갖는 학습용 얼굴 이미지에 대응하는 학습용 특징 맵의 사이즈이며, 특징 추출 네트워크에 의해 생성된 것을 특징으로 하는 장치.
  11. 제10항에 있어서,
    상기 특징 추출 네트워크는, 제1 학습 장치에 의해, (i) 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지가 상기 적어도 하나의 컨볼루션 레이어로 입력되어, 상기 적어도 하나의 컨볼루션 레이어로 하여금 상기 제2 사이즈를 갖는 상기 학습용 얼굴 이미지에 적어도 하나의 컨벌루션 레이어의 적어도 하나의 이전 학습된 컨볼루션 파라미터를 사용한 적어도 하나의 컨벌루션 연산을 적용하여 상기 제2_1 사이즈의 상기 학습용 특징 맵이 생성되고, (ii) 상기 제2_1 사이즈의 상기 학습용 특징 맵에 대응되는 학습용 특성 정보와 이에 대응되는 GT를 참조하여 제1 로스 레이어에 의해 생성된 하나 이상의 제1 로스를 최소화하도록, 상기 적어도 하나의 컨볼루션 레이어의 상기 적어도 하나의 이전 학습된 컨볼루션 파라미터가 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 장치.
  12. 제10항에 있어서,
    상기 프로세서가, 상기 풀링 레이어로 하여금, 기설정된 스트라이드를 이용하여 상기 제1_1 사이즈의 특징 맵에 슬라이딩 풀링 연산을 적용하도록 하는 것을 특징으로 하는 장치.
  13. 제9항에 있어서,
    상기 (II) 프로세스는,
    상기 프로세서가, 상기 다수의 특징들을 상기 뉴럴 애그리게이션 네트워크의 적어도 2개의 어텐션 블록들에 입력하여, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 장치.
  14. 제13항에 있어서,
    상기 프로세서가, 상기 적어도 2개의 어텐션 블록들로 하여금 상기 다수의 특징들을 애그리게이트하여 상기 다수의 특징들 각각에 대응하는 퀄리티 스코어 각각을 생성하도록 하고, 상기 퀄리티 스코어를 이용하여 상기 다수의 특징들을 가중 합산(weighted summation)하여 상기 최적 특징을 출력하도록 하는 것을 특징으로 하는 장치.
  15. 제13항에 있어서,
    상기 뉴럴 애그리게이션 네트워크는, 제2 학습 장치에 의해, (i) 하나의 얼굴에 대한 비디오 또는 상기 하나의 얼굴에 대한 이미지 세트에 대응되는 복수의 학습용 얼굴 특징들이 상기 적어도 2개의 어텐션 블록들로 입력되어, 상기 적어도 2개의 어텐션 블록들의 이전 학습된 어텐션 파라미터들을 이용하여 상기 학습용 얼굴 특징들을 애그리게이트함으로써 상기 학습용 얼굴 특징들 각각에 대응하는 학습용 퀄리티 스코어 각각이 생성되도록 하며, (ii) 상기 학습용 퀄리티 스코어들을 이용하여 상기 학습용 얼굴 특징들을 가중 합산함으로써 학습용 최적 특징이 출력되며, (iii) 상기 학습용 최적 특징 및 이에 대응하는 GT를 참조로 하여 제2 로스 레이어에 의해 생성된 하나 이상의 제2 로스를 최소화하도록 상기 적어도 2개의 어텐션 블록들의 상기 이전 학습된 어텐션 파라미터들이 업데이트되는 과정을 복수 회 거쳐 학습이 완료된 상태인 것을 특징으로 하는 장치.
  16. 제9항에 있어서,
    상기 프로세서가,
    (III) 상기 최적 특징을 참조로 하여 얼굴 정보 데이터베이스로부터 레퍼런스 특징을 검색하여 상기 얼굴 이미지 상의 얼굴을 인식하는 프로세스;
    를 더 수행하는 것을 특징으로 하는 장치.
KR1020200001718A 2019-01-31 2020-01-06 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법 KR102362744B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962799076P 2019-01-31 2019-01-31
US62/799,076 2019-01-31
US16/721,961 US10740593B1 (en) 2019-01-31 2019-12-20 Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation
US16/721,961 2019-12-20

Publications (2)

Publication Number Publication Date
KR20200095356A KR20200095356A (ko) 2020-08-10
KR102362744B1 true KR102362744B1 (ko) 2022-02-15

Family

ID=69185483

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200001718A KR102362744B1 (ko) 2019-01-31 2020-01-06 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법

Country Status (5)

Country Link
US (1) US10740593B1 (ko)
EP (1) EP3690721A1 (ko)
JP (1) JP6924517B2 (ko)
KR (1) KR102362744B1 (ko)
CN (1) CN111507150B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020165848A1 (en) * 2019-02-14 2020-08-20 Hatef Otroshi Shahreza Quality assessment of an image
US11514713B2 (en) * 2019-05-31 2022-11-29 Apple Inc. Face quality of captured images
JP7396159B2 (ja) * 2020-03-26 2023-12-12 富士通株式会社 画像処理装置、画像認識システム及び画像処理プログラム
KR102497805B1 (ko) 2020-07-31 2023-02-10 주식회사 펫타버스 인공지능 기반 반려동물 신원확인 시스템 및 방법
CN112494935B (zh) * 2020-12-14 2023-10-17 咪咕互动娱乐有限公司 一种云游戏平台池化方法、电子设备及存储介质
CN112686178B (zh) * 2020-12-30 2024-04-16 中国电子科技集团公司信息科学研究院 一种多视角目标轨迹生成方法、装置和电子设备
CN112860810B (zh) * 2021-02-05 2023-07-14 中国互联网络信息中心 域名多重图嵌入表示方法、装置、电子设备及介质
CN113282721B (zh) * 2021-04-28 2023-07-21 南京大学 基于网络结构搜索的视觉问答方法
KR102611480B1 (ko) * 2022-02-08 2023-12-08 주식회사 트윔 뉴럴 네트워크를 이용한 제품 검사 방법 및 장치
CN115620083B (zh) * 2022-09-29 2023-08-29 合肥的卢深视科技有限公司 模型训练方法、人脸图像质量评价方法、设备及介质
CN115661911B (zh) * 2022-12-23 2023-03-17 四川轻化工大学 一种人脸特征提取方法、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060698A1 (en) * 2016-09-01 2018-03-01 Microsoft Technology Licensing, Llc Frame aggregation network for scalable video face recognition

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100442835B1 (ko) * 2002-08-13 2004-08-02 삼성전자주식회사 인공 신경망을 이용한 얼굴 인식 방법 및 장치
TW200842733A (en) * 2007-04-17 2008-11-01 Univ Nat Chiao Tung Object image detection method
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection
WO2016054778A1 (en) * 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Generic object detection in images
US9996768B2 (en) * 2014-11-19 2018-06-12 Adobe Systems Incorporated Neural network patch aggregation and statistics
WO2016119076A1 (en) * 2015-01-27 2016-08-04 Xiaoou Tang A method and a system for face recognition
CN105335714B (zh) * 2015-10-28 2019-06-14 小米科技有限责任公司 照片处理方法、装置和设备
US10303977B2 (en) * 2016-06-28 2019-05-28 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
KR102036963B1 (ko) * 2017-01-03 2019-11-29 한국과학기술원 Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템
CN108073898B (zh) * 2017-12-08 2022-11-18 腾讯科技(深圳)有限公司 人头区域识别方法、装置及设备
US11295140B2 (en) * 2018-03-14 2022-04-05 Comcast Cable Communications, Llc Methods and systems for determining object activity within a region of interest
CN110633604B (zh) * 2018-06-25 2023-04-25 富士通株式会社 信息处理方法和信息处理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060698A1 (en) * 2016-09-01 2018-03-01 Microsoft Technology Licensing, Llc Frame aggregation network for scalable video face recognition

Also Published As

Publication number Publication date
KR20200095356A (ko) 2020-08-10
US20200250402A1 (en) 2020-08-06
JP2020126624A (ja) 2020-08-20
CN111507150B (zh) 2023-08-18
EP3690721A1 (en) 2020-08-05
CN111507150A (zh) 2020-08-07
JP6924517B2 (ja) 2021-08-25
US10740593B1 (en) 2020-08-11

Similar Documents

Publication Publication Date Title
KR102362744B1 (ko) 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법
US10417526B2 (en) Object recognition method and device
Wu et al. Rapid target detection in high resolution remote sensing images using YOLO model
EP3686795B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
KR102337367B1 (ko) 원거리 검출 또는 군사 목적을 위해, 이미지 컨캐터네이션을 이용한, cnn 기반의 하드웨어 최적화가 가능한 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스팅 방법 및 테스팅 장치
CN110633745A (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
KR102320985B1 (ko) 멀티 카메라 시스템 내의 더블 임베딩 구성을 이용하여 도로 이용자 이벤트를 검출하기 위해 이용될 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
US10387753B1 (en) Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
KR102337383B1 (ko) 하드웨어 최적화에 사용되는 1xK 또는 Kx1 컨벌루션 연산을 이용한 CNN을 학습하는 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR102338750B1 (ko) 하드웨어 최적화에 사용되는 1xH 컨벌루션을 이용한 CNN 기반의 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR102301631B1 (ko) 협업 주행을 수행하는 자동차들로부터 획득된 주행 이미지들을 통합하는 방법 및 이를 이용한 주행 이미지 통합 장치
JP7252120B2 (ja) 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置
CN111488979B (zh) 设备上持续学习用于分析输入数据的神经网络的方法及装置
KR102320995B1 (ko) 객체의 스케일에 따라 모드 전환이 가능한 cnn 기반의 감시용 객체 검출기의 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR102277505B1 (ko) 하드웨어 최적화에 사용되는 이미지 인식을 위한 1xH 컨벌루션을 이용한 CNN 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
CN116071701A (zh) 基于注意力机制和GSConv的YOLOv5行人检测方法
CN109426773A (zh) 一种道路识别方法和装置
KR102349975B1 (ko) 연속 학습 기반의 얼굴 인식을 위한 스마트 데이터베이스를 관리하는 방법 및 장치
Wang et al. Study on the method of transmission line foreign body detection based on deep learning
CN111062310B (zh) 一种基于虚拟样本生成的少样本无人机图像识别方法
Gopal et al. Tiny object detection: Comparative study using single stage CNN object detectors
KR20220003651A (ko) 주행 환경에 적응되도록 자율주행차량의 딥러닝 기반의 객체 검출기를 업데이트하기 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 업데이트 방법 및 업데이트 장치
KR102328733B1 (ko) 하드웨어 최적화에 쓰이는 1x1 컨벌루션을 이용한 CNN 기반의 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스트 장치 및 테스트 장치
KR102349969B1 (ko) 스마트폰, 드론, 선박 혹은 군사적 목적을 위한, 트레이닝 이미지의 최적화 샘플링에 의해 입력 데이터를 분석하는 뉴럴 네트워크의 온디바이스 연속 학습 방법 및 장치, 그리고, 이를 이용한 테스트 방법 및 장치
CN113610015A (zh) 基于端到端快速阶梯网络的姿态估计方法、装置及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant