KR102036963B1 - Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 - Google Patents

Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 Download PDF

Info

Publication number
KR102036963B1
KR102036963B1 KR1020170075826A KR20170075826A KR102036963B1 KR 102036963 B1 KR102036963 B1 KR 102036963B1 KR 1020170075826 A KR1020170075826 A KR 1020170075826A KR 20170075826 A KR20170075826 A KR 20170075826A KR 102036963 B1 KR102036963 B1 KR 102036963B1
Authority
KR
South Korea
Prior art keywords
face
layer
region
pooling
unit
Prior art date
Application number
KR1020170075826A
Other languages
English (en)
Other versions
KR20180080081A (ko
Inventor
노용만
김형일
송주남
김학구
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20180080081A publication Critical patent/KR20180080081A/ko
Application granted granted Critical
Publication of KR102036963B1 publication Critical patent/KR102036963B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06K9/00228
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

합성곱 신경망(Convolutional Neural Network; CNN)을 기반으로 하는 개선된 얼굴 검출 방법 및 시스템을 제공한다. 얼굴의 포즈 변화와 가림이 발생하는 와일드(wild) 환경에서도 일부 신경망을 공유하고 있는 멀티 스케일의 완전한 합성곱 신경망(Fully Convolutional Network; FCN)을 이용하여 정확하고 빠르게 얼굴을 검출한다.

Description

CNN 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 {METHOD AND SYSTEM FOR ROBUST FACE DECTECTION IN WILD ENVIRONMENT BASED ON CNN}
본 발명은 얼굴의 포즈 변화와 가림이 발생하는 와일드 환경에서 얼굴 검출을 수행하는 방법에 관한 것으로, 합성곱 신경망(Convolutional Neural Network; CNN) 기반의 얼굴 검출 기술에 대한 것이다.
최근 얼굴 정보를 이용한 다양한 어플리케이션 (application)이 등장함에 따라 실용적인 얼굴 검출 방법에 관심이 높아지고 있다. 얼굴 인식 시스템은 특정인의 출입을 허가하는 보안시스템과 감시 환경 에서 개인의 프라이버시(privacy) 보호를 위해 사용 되고 있다. 또한, 표정 인식은 얼굴 영역에 대해 표 정 변화를 분석하여 외형적 표정 변화로부터 사람 의 감정을 해석하는 분야에 이용되고 있다. 이러한 얼굴 정보를 활용한 어플리케이션의 영역이 확대되고 그 수가 증가함에 따라 다양한 환경에서 얼굴 영 역을 정확하게 추출할 수 있는 실용성 높은 얼굴 검 출 방법에 대한 연구가 활발하게 진행되고 있다.
2000년대에 제안된 비올라 존스(Viola-Jones) 방법은 얼굴 검출의 실용적인 가능성을 제시한 최초의 모델이다. 적분 영상(integral image) 기법을 이용하여 Haar-like 특징 정보를 효율적으로 추출하고 이를 제안한 Adaboost의 직렬로 연결된 분류기를 이용하여 최종적인 얼굴 영역을 선별한다. 그러나 이러한 방법은 단순한 특징 정보를 이용하기 때문에 얼굴의 자세 변화 또는 가림과 같은 환경에서 얼굴 검출 성능이 크게 떨어진다. 이러한 문제를 해결하기 위해 변형 가능한 파트 모델(deformable part model; DPM)이 제안되었다. 이 방법은 얼굴 구성 요소의 기하학적인 위치 관계에 의한 조합으로서 얼굴 영역을 정의한다. 얼굴 구성 요소의 일부가 손실되더라도 얼굴 영역을 판정할 수 있기 때문에 자세 변화 또는 가림에 강인한 특성을 보인다. 그러나 각 얼굴의 구성 요소의 존재 가능성에 대한 일차적인 과정뿐만 아니라 슬라이딩 윈도우 방법(sliding window method)으로부터 추출된 수많은 윈도우에 대해 파트 모델의 매칭(matching) 정도를 판정하는 것은 큰 복잡도를 수반 하게 된다. 또한, 이러한 파트 모델을 학습하기 위해서는 각각의 파트의 정확한 라벨(label)이 포함된 대규모의 데이터베이스(database)가 필요하다.
최근에 다양한 컴퓨터 비전(computer vision)의 분야에서 학습에 기반한 합성곱 신경망(convolutional neural network; CNN) 방법이 큰 성과를 이루었다. CNN의 얼굴 검출 방법이 검출 성능에서 큰 발전을 이루었지만, 시스템의 증가된 복잡도는 이에 대한 실용성에 의문을 갖게 했다. 320×240의 이미지 로부터 추출할 수 있는 윈도우(window)의 수는 십억 개에 달한다. 수많은 패치에 대해서 각각 CNN에 기반하여 특징 정보를 추출하고 얼굴과 얼굴이 아닌 영역으로 분류(classification)를 하게 된다. 이는 얼굴 검출 성능과 시스템의 복잡도 사이의 트레이드오프(trade off) 관계를 잘 나타낸다. 또한, 인접한 윈도우 사이의 교집합 영역에 대해 합성곱 연산(convolution operation)이 반복적으로 수행됨으로써 불필요한 연산 과정이 포함되고, 합성곱 신경망의 완전 연결 계층(fully-connected layer)의 입력과 출력이 고정됨으로 인하여 그 신경망을 통과하는 모든 입력 데이터는 입력 데이터의 크기를 고정된 크기로 재조정(resizing)하는 과정을 수반함으로써 시스템의 연산 복잡도가 증가하게 된다.
일 실시예는 완전 연결 계층(Fully-Connected layer)이 없는 완전한 합성곱 네트워크(Fully Convolutional Network; FCN)를 입력단에 사용함으로써 입력 데이터의 크기를 고정된 크기로 재조정(resizing)하는 과정을 배제하여 연산 복잡도를 낮춘 얼굴 검출 방법을 제공할 수 있다.
일 실시예는 얼굴을 포함하는지 여부를 판단하는 분류(Classfication) 과정과 얼굴 경계 영역 회귀법(Face Bound Regression)을 통한 회귀(Regression) 과정을 더하여 정교하게 얼굴 영역을 검출하는 얼굴 검출 방법을 제공할 수 있다.
일 실시예는 복수 개의 계층이 공통된 피처맵을 사용하여 합성곱 연산을 함으로써 복잡도를 낮추고, 풀링 계층들이 서로 다른 크기의 스트라이드(stride)를 갖게 하여 다양한 크기의 얼굴을 검출하는 것에 최적화된 얼굴 검출 방법을 제공할 수 있다.
본 발명의 일 실시예에 따른 얼굴 검출 방법은 이미지에 포함된 얼굴 구성요소를 나타내는 복수의 히트맵들-상기 복수의 히트맵들은 상기 이미지에 대해 서로 다른 합성곱 또는 풀링 방식을 적용함으로써 생성된 것들임-각각으로부터 서로 다른 복수의 얼굴 후보 영역들을 추출하는 단계; 및 상기 서로 다른 복수의 얼굴 후보 영역들에 기초하여 상기 이미지에 포함된 얼굴 영역을 검출(Detection)하는 단계를 포함할 수 있다.
상기 서로 다른 복수의 얼굴 후보 영역들을 추출하는 단계는, 합성곱을 수행하는 적어도 하나의 제1 합성곱 계층 및 풀링을 수행하는 적어도 하나의 제1 풀링 계층을 포함하는 제1 계층을 통하여 상기 이미지를 피처맵들로 변환하는 단계; 및 상기 서로 다른 복수의 얼굴 후보 영역들을 추출하기 위하여 적어도 하나의 제2 합성곱 계층과 적어도 하나의 제2 풀링 계층을 포함하는 복수의 제2 계층들 각각을 통하여 상기 피처맵들을 히트맵들로 변환하는 단계를 포함하고, 상기 복수의 제2 계층들은 상기 피처맵들을 상기 히트맵들로 변환하기 위하여 공통적으로 상기 피처맵들을 사용할 수 있다.
나아가, 상기 피처맵들을 히트맵들로 변환하는 단계는, 피처맵들을 히트맵들로 변환하기 위하여 상기 복수의 제2 계층들 각각이 합성곱과 풀링 연산을 연속적으로 수행하는 단계를 포함하고, 상기 복수의 제2 계층들 중 어느 하나가 포함하고 있는 계층과, 다른 하나의 제2 계층에 포함되며 상기 계층의 연산 순서에 대응되는 계층은 서로 다른 크기의 스트라이드(stride)를 가질 수 있다.
상기 얼굴 영역을 검출(Detection)하는 단계는, 상기 얼굴 후보 영역에 얼굴 영역이 있는지 여부를 판단함으로써 얼굴 유무에 대하여 분류(Classification)하는 단계; 및 상기 분류와 상기 얼굴 후보 영역들을 기반으로 하여 정밀한 얼굴 후보 영역으로 회귀(Regression)하는 단계를 포함할 수 있다.
나아가, 상기 분류(Classification)하는 단계는, 얼굴 영역이 포함되어 있으면 확률 1을 제시하고, 얼굴 영역이 포함되어 있지 않으면 확률 0을 제시하는 단계를 포함할 수 있다.
나아가, 상기 정밀한 얼굴 후보 영역으로 회귀(Regression)하는 단계는, 상기 분류(Classification)하는 단계에서 얼굴 영역이 있다고 분류하면 얼굴 영역의 위치 정보를 제시하고, 얼굴 영역이 없다고 분류하면 얼굴 영역의 위치 정보를 무시하라는 라벨(label)을 부여하는 단계를 포함할 수 있다.
상기 얼굴 영역을 검출(Detection)하는 단계는, 상기 얼굴 후보 영역들이 적어도 하나의 합성곱 계층, 적어도 하나의 풀링 계층 및 적어도 하나의 완전 연결 계층(Fully-Connected layer; FCL)을 거쳐서 얼굴 영역을 검출하는 단계를 포함할 수 있다.
상기 얼굴 후보 영역들을 추출하는 단계는, 물체 영역과 물체가 아닌 영역을 구분하는 신경망 모델을 기반으로 하여 얼굴 영역과 얼굴이 아닌 영역을 구분하기 위한 학습을 하는 단계; 및 하나 이상의 얼굴 특징점(facial landmark)을 포함하는 이미지 데이터 베이스를 사용하여 얼굴 후보 영역 추출을 학습하는 단계를 통해 학습될 수 있다.
상기 얼굴 영역을 검출(Detection)하는 단계는, 네거티브 예제 마이닝(Hard Sample Mining) 기술을 통해 상기 얼굴 후보 영역들을 데이터 베이스로 사용하여 학습될 수 있다.
본 발명의 일 실시예에 따른 기계 학습 기반 얼굴 검출 시스템은 이미지에 포함된 얼굴 구성요소를 나타내는 복수의 히트맵들-상기 복수의 히트맵들은 상기 이미지에 대해 서로 다른 합성곱 및 풀링 방식들을 적용함으로써 생성된 것들임-각각으로부터 서로 다른 복수의 얼굴 후보 영역들을 추출하여 검출부로 프로포즈(propose)하는 제안부; 및 상기 서로 다른 복수의 얼굴 후보 영역들에 기초하여 상기 이미지에 포함된 얼굴 영역을 검출(Detection)하는 검출부를 포함할 수 있다.
상기 제안부는, 합성곱을 수행하는 적어도 하나의 제1 합성곱 계층 및 풀링을 수행하는 적어도 하나의 제1 풀링 계층을 통하여 상기 이미지를 피처맵들로 변환하는 제1 계층부; 및 상기 서로 다른 복수의 얼굴 후보 영역들을 추출하기 위하여 적어도 하나의 제2 합성곱 계층과 적어도 하나의 제2 풀링 계층을 통하여 상기 피처맵들을 히트맵들로 변환하는 복수의 제2 계층부를 포함하고, 상기 복수의 제2 계층부들은 상기 피처맵들을 상기 히트맵들로 변환하기 위하여 공통적으로 상기 피처맵들을 사용할 수 있다.
상기 제안부는, 피처맵들을 히트맵들로 변환하기 위하여 상기 복수의 제2 계층부들 각각이 합성곱과 풀링 연산을 연속적으로 수행하고, 상기 복수의 제2 계층부들 중 어느 하나가 포함하고 있는 계층과, 다른 하나의 제2 계층부에 포함되며 상기 계층의 연산 순서에 대응되는 계층은 서로 다른 크기의 스트라이드(stride)를 가질 수 있다.
상기 검출부는, 상기 얼굴 후보 영역에 얼굴이 있는지 여부를 판단함으로써 얼굴 유무에 대하여 분류(Classification)를 수행하는 분류부; 및 상기 분류와 상기 얼굴 후보 영역들을 기반으로 하여 정밀한 얼굴 후보 영역으로 회귀(Regression)하는 회귀부를 포함할 수 있다.
나아가, 상기 분류부는, 얼굴 영역이 포함되어 있으면 확률 1을 제시하고, 얼굴 영역이 포함되어 있지 않으면 확률 0을 제시할 수 있다.
나아가, 상기 회귀부는, 상기 분류부가 얼굴 영역이 있다고 분류하면 얼굴 영역의 위치 정보를 제시하고, 얼굴 영역이 없다고 분류하면 얼굴 영역의 위치 정보를 무시하라는 라벨(label)을 부여할 수 있다.
상기 검출부는, 얼굴 영역을 검출하기 위하여 상기 얼굴 후보 영역들이 적어도 하나의 합성곱 계층, 적어도 하나의 풀링 계층 및 적어도 하나의 완전 연결 계층(Fully-Connected layer; FCL)을 포함할 수 있다.
일 실시예는 완전 연결 계층(Fully-Connected layer)이 없는 완전한 합성곱 네트워크(Fully Convolutional Network; FCN)를 입력단에 사용함으로써 입력 데이터의 크기를 고정된 크기로 재조정(resizing)하는 과정을 배제하여 연산 복잡도를 낮출 수 있다.
일 실시예는 얼굴을 포함하는지 여부를 판단하는 분류(Classfication) 과정과 얼굴 경계 영역 회귀법(Face Bound Regression)을 통한 회귀(Regression) 과정을 더하여 정교하게 얼굴 영역을 검출할 수 있다.
일 실시예는 복수 개의 계층이 공통된 피처맵을 사용하여 합성곱 연산을 함으로써 복잡도를 낮추고, 풀링 계층들이 서로 다른 크기의 스트라이드(stride)를 갖게 하여 다양한 크기의 얼굴을 검출하는 것에 최적화될 수 있다.
도 1은 본 발명의 일 실시예에 따른 얼굴 검출 과정을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 제안 네트워크의 기계 학습을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 제안 네트워크를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 검출 네트워크를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 얼굴 검출 방법에 대한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 얼굴 검출 시스템의 블록도이다.
이하, 본 발명의 여러가지 실시예 중 특정 실시예를 첨부된 도면에 도시하여 상세하게 설명한다. 그러나 이러한 특정 실시예가 본 발명을 제한하거나 한정하는 것은 아니다. 도면의 부호에 관계없이 동일한 참조 번호는 동일한 구성요소를 나타내며, 중복되는 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 얼굴 검출 과정을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예는 대상 이미지(100)에서 얼굴 영역을 검출(detection)하는 네트워크를 제공할 수 있다. 본 발명의 일 실시예에 따른 네트워크는 제안 네트워크(proposal network)(110)와 검출 네트워크(detection network)(120) 두 단계로 구분된다.
제안 네트워크(110)로 대상 이미지(100)가 입력되면 제1 계층(130)이 대상 이미지(100)를 피처맵들로 변환한다. 피처맵은 대상 이미지에 대한 합성곱 및 풀링 연산을 통해 생성되는 이미지이다.
제1 피처맵은 복수의 제2 계층(141, 142, 143)에 입력되며, 복수의 제2 계층 각각은 서로 다른 방식을 통해 제1 피처맵을 히트맵(150)들로 변환한다. 히트맵(150)은 피처맵에 대한 합성곱 및 풀링 연산을 통해 생성되는 확률맵이다.
확률맵은 각각의 픽셀 값을 얼굴이 존재할 확률 값으로 매핑(mapping)한 것으로서, 얼굴이 존재하는 영역을 파악하기 위해 사용된다.
제1 계층(130) 및 복수의 제2 계층(141, 142, 143)은 합성곱 계층(convolutional layer)들 또는 풀링 계층(pooling layer)들을 포함할 수 있다.
합성곱 계층은 학습된 가중치(weight)와 바이어스(bias) 및 사용자에 의해 정의된 스트라이드(stride)를 포함하는 커널을 가질 수 있고 대상 이미지(100) 또는 피처맵에 대한 합성곱 연산을 할 수 있다.
풀링 계층은 사용자에 의해 정의된 크기의 스트라이드(stride)를 가지고 풀링 연산을 할 수 있다. 풀링 연산은 max-pooling 또는 average-pooling일 수 있다.
제안 네트워크(110)는 복수의 제2 계층(141, 142, 143)을 통해 생성된 히트맵들로부터 얼굴이라고 판단되는 영역, 즉 얼굴 후보 영역(170) n개를 추출(160)하여, 검출 네트워크(120)에 제안한다.
복수의 제2 계층(141, 142, 143) 각각은 합성곱 연산 또는 풀링 연산을 연속적으로 수행한다. 어느 하나의 제2 계층에 포함된 특정 계층이 가지고 있는 스트라이드의 크기는, 다른 하나의 제2 계층에 포함되며 상기 특정 계층의 연산 순서에 대응되는 계층이 가지고 있는 스트라이드의 크기와 다를 수 있다.
제2 계층 별로 스트라이드의 크기를 다르게 함으로써 다양한 크기의 얼굴에 대하여 최적화된 히트맵을 생성할 수 있으므로 높은 정확도를 갖는 얼굴 후보 영역(170)을 생성할 수 있고, 궁극적으로 대상 이미지(100)에 대한 얼굴 검출 성능을 향상시킬 수 있다.
제안 네트워크(110)로부터 추출된 얼굴 후보 영역(170)은 그 자체로도 높은 얼굴 검출 성능을 보이지만, 추출된 얼굴 후보 영역(170)에 대해 검출 네트워크(120)를 거침으로써 리콜율(recall rate)을 높이고 오검출(false-positive)을 줄여서 더 높은 얼굴 검출 성능에 기여할 수 있다.
검출 네트워크(120)에 얼굴 후보 영역(170)이 입력되면 합성곱 계층(180)과 완전 연결 계층(190)을 통해 1차원 데이터(191)로 변환되고, n개의 얼굴 후보 영역(170) 각각에 얼굴이 포함되어 있는지 분류(Classfication) 할 수 있는 n개의 값(192)을 제시한다. 검출 네트워크(120)는 1차원 데이터(191)를 생성하기 위하여 합성곱 계층(180)과 완전 연결 계층(190) 외에도 풀링 계층을 포함할 수 있다.
또한, 검출 네트워크(120)는 얼굴 후보 영역(170)에서 판단되는 얼굴 위치보다 더 정밀한 얼굴 위치로 회귀(Regression)하여 정밀한 얼굴 후보 영역에 대한 좌표 값(192)을 제시한다. 정밀한 얼굴 후보 영역에 대한 box 표시를 하기 위하여 좌표 값은 x 좌표, y좌표, 너비, 높이를 포함하는 4n개의 값일 수 있다. 정밀한 얼굴 후보 영역으로 회귀하는 알고리즘은 D. Wang, J. Ynag, and Q. Liu, "Hierarchical Convolutional Neural Network for Face Detection," Proceeding of International Conference on Image and Graphics, pp. 373-384, 2015. 에서 개시하고 있는 얼굴 영역 회귀법(Face bound regression)일 수 있다.
생성된 1차원 데이터(191)는 얼굴 후보 영역(170)보다 더 정밀하게 얼굴 영역을 나타낼 수 있으며, 5n개의 값에 대한 후처리 과정(post processing)을 통해 최종적인 얼굴 영역을 제시할 수 있다. 후처리 과정은 Non-Maximum Suppression(NMS)일 수 있다.
도 2는 본 발명의 일 실시예에 따른 제안 네트워크(110)의 기계 학습을 설명하기 위한 도면이다.
제안 네트워크(110)에서, 각 합성곱 계층은 가중치(weight)를 포함하는 커널을 이용하여 대상 이미지(100) 또는 피처맵에 대한 합성곱 연산을 할 수 있다.
얼굴 영역이 더욱 부각되는 피처맵을 생성하기 위해서는 얼굴의 구성요소가 드러날 수 있도록 가중치가 결정되어야 한다. 본 발명의 일 실시예와 같이 심층적인 신경망 구조는 대규모의 파라미터를 포함하고 있다. 따라서, 초기 가중치를 가우시안 분포로 설정한다면 라벨이 부여된 얼굴 특징점(facial landmark)의 위치 정보를 사용하여 얼굴의 구성요소를 지역화(localize)하기 위한 정보 해석하는 것은 어려움이 있다. 즉, 얼굴 구성 요소가 부각된 피처맵을 생성하는 것이 어렵다는 문제점이 있다.
이를 해결하기 위하여, 전이 학습(transfer learning)을 통해, 구성요소를 지역화하는 특성이 있는 가중치를 본 발명의 일 실시예를 위한 초기 가중치로 사용할 수 있다.
얼굴의 특징점(facial landmark)은 얼굴의 특징이 되는 부분에 표시된 점이며, 눈, 코, 입, 귀 등에 표시될 수 있다. 지역화(localize)는 얼굴 구성요소가 다른 부분에 비하여 부각이 되도록 만드는 과정이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예는 고양이의 얼굴 구성요소를 지역화하는 특성이 있는 네트워크(201)의 가중치를, 사람의 얼굴 구성요소를 지역화하는 특성이 있는 네트워크(202)의 초기 가중치로 사용할 수 있다.
전이 학습을 통해 얻은 가중치를 초기값으로 한 후에 사람의 얼굴 구성요소를 지역화하기 위한 학습을 할 수 있다. 학습을 위해서 A. Krizhevsky, I. Sutskever, and G.E. Hinton,“Imagenet Classification with Deep Convolutional Neural Networks," Proceeding of Advances in Neural Information Processing Systems, pp. 1097-1105, 2012. 에서 소개하고 있는 AlexNet의 구조를 모델로 사용할 수 있다. AlexNet의 구조는 물체 영역과 배경 영역을 구분하는 특성을 가진 네트워크이다.
이를 기본 구조로 하면, 얼굴 영역과 배경 영역을 구분하는 가중치를 용이하게 얻을 수 있으므로, 얼굴 구성 요소를 지역화하는 특성이 있는 네트워크(202)를 유용하게 구성할 수 있다.
AlexNet 구조는 5개의 합성곱 계층(221, 222, 225), 3개의 풀링 계층(231, 232, 233) 및 3개의 완전 연결 계층(fully-connected layer)을 포함할 수 있다. 마지막 완전 연결 계층에서는 순차 연결된 얼굴 후보 특징점의 위치 좌표(250)가 생성될 수 있다. 일 실시예에서, 순차 연결된 얼굴 후보 특징점의 위치 좌표(250)는 왼쪽 눈, 오른쪽 눈, 코, 입 각각을 가리키는 복수 개의 얼굴 특징점의 위치 좌표를 포함할 수 있다.
순차적으로 연결된 얼굴 후보 특징점의 위치 좌표(250)와 실제 이미지에 존재하는 얼굴 특징점의 위치 좌표를 비교함으로써 손실함수가 최소가 되도록 하여 가중치를 변화시킬 수 있다. 즉, 하기와 같은 손실함수를 통해서, 대상 이미지에 존재하는 얼굴 특징점의 위치를 파악하기 위한 학습을 수행할 수 있다.
일 실시예는 순차 연결된 얼굴 후보 특징점의 위치 좌표(250)와 실제 이미지에 존재하는 얼굴 특징점의 위치 좌표의 유클리디언 거리(Euclidean distance)를 최소화하는 손실함수(loss function)는 다음과 같이 정의될 수 있다.
Figure 112017057270238-pat00001
여기에서,
Figure 112017057270238-pat00002
는 미니 배치(mini-batch)의 크기를 의미하며,
Figure 112017057270238-pat00003
은 얼굴 특징점의 총 개수,
Figure 112017057270238-pat00004
은 순차 연결된 얼굴 후보 특징점의 위치 좌표(250),
Figure 112017057270238-pat00005
은 실제 이미지에 존재하는 얼굴 특징점의 위치 좌표이다. 얼굴 특징점의 집합은
Figure 112017057270238-pat00006
의 벡터 형태로 정의될 수 있다.
일 실시예는 총 41개의 얼굴 특징점 중에서 오른쪽 눈, 왼쪽 눈, 코 그리고 입을 지역화하기 위해 각각 6, 6, 9 및 20개의 얼굴 특징점을 사용할 수 있다.
일 실시예는 식 (1)의 손실함수를 최소화하기 위해 확률적 기울기 하강(stochastic gradient descent) 방법을 이용할 수 있다. Caffe 라이브러리(library)를 이용할 수 있으며 초기의 학습 속도(initial learning rate)는
Figure 112017057270238-pat00007
, 가속도(momentum)의
Figure 112017057270238-pat00008
에에 대해 매 세대(epoch) 수마다 학습 속도에
Figure 112017057270238-pat00009
의 값을 곱할 수 있다. 완전 연결 계층의 드롭아웃(dropout)의 확률 값은 0.5일 수 있다.
도 3은 본 발명의 일 실시예에 따른 제안 네트워크를 설명하기 위한 도면이다.
도 3에 도시된 바와 같이, 도 2의 실시예에서 개시하고 있는 학습을 통해 얻어진 가중치 또는 바이어스를 복사(340)하여 제안 네트워크의 각 계층이 가지고 있는 가중치 또는 바이어스로 사용할 수 있다.
일 실시예에서, 제안 네트워크의 제1 계층(130)은 2개의 합성곱 계층(221, 222)과 풀링 계층(231)을 포함하며, 제2 계층(141, 142, 143) 각각은 3개의 합성곱 계층(223, 224, 225)과 1개의 풀링 계층(232)을 포함할 수 있다. 일 실시예에서 제1 계층과 제2 계층의 합성곱 계층 및 풀링 계층 개수는 AlexNet의 구조에 따른 것으로 예시적이므로 개발자의 설정에 따라 개수는 변경될 수 있다.
도 3에 도시된 바와 같이, 일 실시예에 따른 제안 네트워크(110)는 도 2에 도시된 네트워크와는 다르게 마지막 풀링 계층(233)및 완전 연결 계층(240)를 두지 않을 수 있다. 완전 연결 계층(240)을 통과하려면 입력과 출력 데이터의 크기가 고정된 값이어야 하므로 모든 입력 데이터의 크기를 고정된 크기에 맞게 재조정(resizing)하는 과정을 거쳐야 한다. 재조정하는 과정에서 복잡도는 증가되므로, 일 실시예는 풀링 계층(233) 및 완전 연결 계층(240)을 두지 않음으로써 입력 데이터의 크기를 재조정하는데 소요되는 복잡도를 낮출 수 있다.
도 3에 도시된 바와 같이, 일 실시예에 따른 제안 네트워크(110)에서, 제1 계층(130)을 거쳐 생성된 피처맵은 복수의 제2 계층(141, 142, 143)에서 공통적으로 사용될 수 있다.
합성곱 신경망에서, 낮은 계층에서는 대상 이미지의 간단한 테두리(edge)와 같은 특징이 추출되고, 높은 계층에서는 물체의 형상과 같은 복잡한 특징이 추출된다. 따라서, 낮은 계층부터 복수 개의 계층을 두는 대신에 한 개의 제1 계층(130)만을 두고 제1 계층(130)에서 생성된 피처맵을 복수개의 제2 계층(141, 142, 143)으로 보냄으로써 낮은 계층에서 발생하는 불필요한 계산 복잡도를 낮출 수 있다.
일 실시예에서, 복수개의 제2 계층(141, 142, 143) 각각이 포함하고 있는 맨 처음 풀링 계층(232)은 서로 다른 크기의 스트라이드(stride)를 가질 수 있다. 대상 이미지(100)에 다양한 크기의 얼굴이 존재하더라도 다른 크기의 스트라이드(stride)로 풀링 연산을 함으로써, 다양한 크기의 얼굴 별로 최적화된 히트맵을 얻을 수 있으므로 얼굴 검출 성능을 향상시킬 수 있다.
일 예로, 작은 크기의 스트라이를 갖는 풀링 계층이 포함된 제2 계층은 작은 얼굴에 대한 히트맵을 표현하는데 적합하고, 큰 크기의 스트라이드를 갖는 풀링 계층이 포함된 제2 계층은 큰 얼굴에 대한 히트맵을 표현하는데 적합할 수 있다. 이는 예시적인 것으로서, 맨 처음 풀링 계층 외에 다른 계층의 스트라이드(stride)를 달리 함으로써 다양한 크기의 얼굴에 대해 최적화된 히트맵을 얻을 수도 있다.
일 실시예에서, 각각의 제2 계층이 포함하는 마지막 합성곱 계층(225)은 256개의 피처맵을 생성할 수 있으며, 정규화(normalizing) 및 스케일링(scaling) 과정을 거쳐 히트맵을 얻을 수 있다. 이 히트맵에 대해 얼굴 영역과 얼굴이 아닌 영역을 잘 구분 짓는
Figure 112017057270238-pat00010
을 설정하여 히트맵으로부터 얼굴 영역을 판단할 수 있고 얼굴 후보 영역을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 검출 네트워크를 설명하기 위한 도면이다.
제안 네트워크로부터 받은 입력 패치(410)는 그 자체로 높은 얼굴 검출 성능을 가지나, 리콜율(recall rate)을 높이고 혹여 발생할 수 있는 오검출(false-positive)을 줄이기 위해 검출 네트워크를 통해 추가적인 연산을 할 수 있다. 검출 네트워크에 입력되는 얼굴 후보 영역은 입력 패치(410)라고 부를 수 있다.
도 4에 도시된 바와 같이, 일 실시예에서, 검출 네트워크는 4개의 합성곱 계층(421, 422, 423, 424), 4개의 풀링 계층(431, 432, 433) 및 1개의 완전 연결 계층(440)을 포함할 수 있다. 검출 네트워크는 입력 패치(410)에 대하여 분류(Classification) 및 회귀(Regression)의 결과로 1차원의 데이터(191)를 생성할 수 있고, 입력 패치에 boxing된 얼굴 영역보다 정밀한 얼굴 영역을 검출할 수 있다.
일 실시예에 따른 검출 네트워크는 얼굴 후보 영역에서 더 정밀한 얼굴 영역으로 회귀(Regression)할 수 있고, D. Wang, J. Ynag, and Q. Liu, "Hierarchical Convolutional Neural Network for Face Detection," Proceeding of International Conference on Image and Graphics, pp. 373-384, 2015.에 개시된 얼굴 영역 회귀법(Face Bound Regression)을 수행하기 위한 구조를 기반으로 할 수 있다.
일 실시예는, 상기 구조에 더하여 입력 패치(410)에 얼굴이 존재하는지 여부를 판단하는 분류(Classification) 과정을 추가적으로 도입함으로써 리콜율(recall rate)을 높이고 혹여 발생할 수 있는 오검출(false-positive)을 줄일 수 있다.
입력 패치(410)에 얼굴이 존재하는지 여부를 판단하여 분류(Classification)하는 값(192)을 제시할 수 있고, 입력 패치(410)에 얼굴이 있으면 확률 1을 제시하고, 얼굴이 없으면 0을 제시하는 방법을 사용할 수 있다.
일 실시예는, 얼굴 영역 회귀법(Face Bound Regression)을 통해서 정밀한 얼굴 영역의 위치 정보(193)를 제시할 수 있다. 위치 정보는 x좌표, y좌표, 너비 및 높이를 포함할 수 있다.
일 실시예에서, 패치 1(411)에는 얼굴 영역이 포함되어 있으므로 분류(Classification)과정의 결과로서 확률 1이 제시(451)되며, 회귀(Regression)과정의 결과로서 정밀한 얼굴 영역의 위치 정보(452)가 제시될 수 있다.
패치 2(412)에는 얼굴 영역이 포함되어 있지 않으므로 분류(Classification) 과정의 결과로서 확률 0이 제시(261)되며, 얼굴 영역이 없다고 분류되었으므로 위치 정보에는 패치 2(412)의 위치 정보를 무시하라는 라벨(label)(462)이 부여될 수 있다.
분류(Classification)와 회귀(Regression)에 대하여 손실함수를 정의하고, 아래의 수식 (4)와 같은 손실함수의 값이 최소가 되도록 함으로써 검출 네트워크의 가중치를 학습할 수 있다.
Figure 112017057270238-pat00011
여기에서,
Figure 112017057270238-pat00012
는 조정 파라미터(parameter)이다. 일 실시예에서, 분류(Classification)에 대한 손실함수는 아래의 수식 (5)와 같이 교차 엔트로피 함수(cross-entropy loss function)일 수 있고, 회귀(Regression)에 대한 손실함수는 아래의 수식 (6)과 같이 정밀한 얼굴 영역의 위치 정보와 실제 얼굴 영역의 위치 정보 간의 유클리디언 거리(Euclidean distance)가 최소가 되도록 설계 할 수 있다.
Figure 112017057270238-pat00013
여기에서,
Figure 112017057270238-pat00014
는 미니 배치(mini-batch)의 크기를 의미하며,
Figure 112017057270238-pat00015
는 얼굴 영역의 위치 정보를 정의하는 행렬의 크기,
Figure 112017057270238-pat00016
은 분류 과정에서 얼굴이라고 추정되는 확률 값,
Figure 112017057270238-pat00017
은 목적하는 얼굴 영역인지 얼굴 영역이 아닌지에 대한 라벨이다. 또한,
Figure 112017057270238-pat00018
Figure 112017057270238-pat00019
는 각각 정밀한 얼굴 영역의 위치 정보와 이에 대해 가장 근접한 실제 얼굴 위치 정보이다.
식 (4)의 손실함수를 최소화하기 위해 확률적 기울기 하강(stochastic gradient descent) 방법을 이용할 수 있다. Caffe 라이브러리(library)를 이용할 수 있으며 초기의 학습 속도(initial learning rate)는
Figure 112017057270238-pat00020
, 가속도(momentum)의
Figure 112017057270238-pat00021
에 대해 매 세대(epoch) 수마다 학습 속도에
Figure 112017057270238-pat00022
의 값을 곱할 수 있다. 완전 연결 계층의 드롭아웃(dropout)의 확률 값은 0.5일 수 있다.
검출 네트워크의 학습을 위하여 네거티브 예제 마이닝(hard sample mining) 기술을 사용할 수 있다. 이 기술은 일반화된 많은 예제를 사용하여 합성곱 신경망을 학습하는 것이 아니라, 목적을 잘 표현하는 소규모의 유익한 예제를 추출하여 특정한 상황에 잘 대처하는 신경망을 학습시키는 기법이다. 즉, 제안 네트워크를 통해 출력된 추출된 얼굴 후보 영역(170)은 그 자체로도 높은 얼굴 검출 성능을 보이므로, 이를 기반으로 검출 네트워크를 학습하여 성능을 최대화할 수 있다.
본 발명의 일 실시예에 따른 얼굴 검출 방법은, 제안 네트워크와 검출 네트워크가 직렬로 연결된 구조를 이루고 있기 때문에 검출 네트워크가 처리해야 할 데이터는 제안 네트워크의 성능과 직접도가 매우 높다. 제안 네트워크가 출력하는 대부분의 얼굴 후보 영역은 얼굴과의 유사도가 매우 높은 패치일 가능성이 크다.
따라서 네거티브 예제 마이닝 기술에 의할 때, 제안 네트워크에 의해 생성되는 얼굴 후보 영역 중 확실히 얼굴 영역을 포함하는 패치들을 사용하여 검출 네트워크의 학습을 할 수 있다.
도 5는 본 발명의 일 실시예에 따른 얼굴 검출 방법에 대한 흐름도이다.
도 5를 참조하면, 일 실시예는 얼굴 검출을 하기 위하여 사전에 학습을 할 수 있다(510).
제안 네트워크가 학습하는 단계는, 물체 영역과 배경 영역을 구분하는 선행 모델을 기본 구조로 삼고 나서, 전이 학습을 통해 초기 가중치를 설정하고, 얼굴 영역과 얼굴이 아닌 영역을 구분하는 학습을 하는 단계를 포함할 수 있다. 또한, 순차 연결된 얼굴 후보 특징점의 위치 좌표(250)와 실제 이미지에 존재하는 얼굴 특징점의 위치 좌표간의 유클리디언 거리(Euclidean distance)를 최소화하는 손실함수(loss function)를 이용하여 학습하는 단계를 포함할 수 있다.
검출 네트워크에서 제안 네트워크로부터 얼굴 후보 영역을 받은 뒤 더 정밀한 얼굴 영역을 생성하기 위하여 학습할 수 있다.
검출 네트워크가 학습하는 단계는, 네거티브 예제 마이닝(hard sample mining) 기술을 이용하고, 분류(Classification)를 위해서 손실 함수로 교차 엔트로피 함수(cross-entropy loss function)를 이용하고, 정밀한 얼굴 영역으로 회귀(Regression)하기 위하여 정밀한 얼굴 영역의 위치 정보와 실제 얼굴 영역의 위치 정보 간의 유클리디언 거리(Euclidean distance)가 최소가 되도록 하는 함수를 이용하는 단계를 포함할 수 있다.
얼굴 검출의 대상이 되는 대상 이미지가 입력되면(520), 제안 네트워크에서 대상 이미지에 대응되는 복수의 얼굴 후보 영역을 추출할 수 있다(530). 추출하는 단계는, 제1 계층에서 대상 이미지를 피처맵으로 변환하는 단계, 복수의 제2 계층들 각각이 피처맵을 히트맵으로 변환하는 단계, 히트맵을 얼굴 후보 영역으로 변환하는 단계를 포함할 수 있다.
이 때, 복수의 제2 계층들은 제 1 계층이 변환한 피처맵을 공통적으로 사용할 수 있다. 또한, 복수의 제2 계층들에 포함될 수 있는 풀링 계층은 제2 계층들 각각마다 서로 다른 크기의 스트라이드(stride)를 가지고 있어서, 다양한 크기의 얼굴에 대하여 최적화된 히트맵을 생성할 수 있다. 즉, 다양한 크기의 얼굴에 대해서도 향상된 얼굴 검출 성능을 보일 수 있으므로, 와일드한 환경에 강인한 얼굴 검출 방법을 제공할 수 있다.
검출 네트워크는 제안 네트워크로부터 얼굴 후보 영역을 받을 수 있고, 얼굴 후보 영역에 얼굴 영역이 존재하는지를 분류(Classification)하고, 얼굴 후보 영역보다 정밀한 얼굴 영역으로 회귀(Regression)할 수 있다(540). 회귀(Regression)는 제안 네트워크로부터 받은 얼굴 후보 영역의 위치 좌표를 조정하여 실제 얼굴 영역의 위치 좌표에 가깝도록 만드는 것을 의미한다. 회귀하는 방법으로 D. Wang, J. Ynag, and Q. Liu, "Hierarchical Convolutional Neural Network for Face Detection," Proceeding of International Conference on Image and Graphics, pp. 373-384, 2015.에서 제안하는 얼굴 경계 영역 회귀법(Face Bound Regression)이 사용될 수 있다.
검출 네트워크에서 생성된 정밀한 얼굴 후보 영역들은 후처리 과정(post processing)을 통해 최종적인 얼굴 영역으로 제시될 수 있다(550). 후처리 과정은 Non-Maximum Suppression(NMS)일 수 있다.
도 6은 본 발명의 일 실시예에 따른 얼굴 검출 시스템의 블록도이다.
도 6은 참조하면, 얼굴 검출 시스템은 제안부(610)와 검출부(640)를 포함할 수 있다. 대상 이미지(100)를 받은 제안부(610)는 얼굴 후보 영역을 추출하여 검출부(640)에 제안(propose)할 수 있으며, 검출부(640)는 얼굴 후보 영역을 받아 더 정밀한 얼굴 후보 영역을 검출 할 수 있다.
제안부(610)는 제1 계층부(620)와 제2 계층부(630)를 포함할 수 있다.
제1 계층부(620)는 복수 개의 합성곱 계층과 풀링 계층을 포함할 수 있으며, 대상 이미지에 대응하는 피처맵을 생성할 수 있다.
복수의 제2 계층부(630)는 제1 계층부가 생성한 피처맵을 공통적으로 사용하며, 복수의 제2 계층부(630) 각각은 피처맵에 대응되는 히트맵을 생성할 수 있다. 복수의 제2 계층부(630) 각각은 직렬 연결된 복수 개의 합성곱 계층과 풀링 계층을 포함할 수 있으며, 어느 하나의 제2 계층부에 포함된 풀링 계층이 갖는 스트라이드(stride)의 크기는, 상기 풀링 계층에 대응되는 다른 하나의 제2 계층부에 포함된 풀링 계층이 갖는 스트라이드(stride)의 크기와 다를 수 있다. 스트라이드의 크기를 다르게 함으로써 대상 이미지에 다양한 크기의 얼굴이 있더라도 이에 최적화된 히트맵을 생성할 수 있다. 이는 예시적인 것으로서, 풀링 계층 외에도 각 제2 계층부가 포함하는 합성곱 계층의 스트라이드(stride)의 크기가 다를 수도 있다.
일 실시예에서, 제안부(610)는, 물체 영역과 배경 영역을 구분하는 선행 모델을 기본 구조로 삼을 수 있으며, 전이 학습을 통해 초기 가중치를 설정하고, 얼굴 영역과 얼굴이 아닌 영역을 구분하는 학습을 할 수 있다. 또한, 순차 연결된 얼굴 후보 특징점의 위치 좌표(250)와 실제 이미지에 존재하는 얼굴 특징점의 위치 좌표간의 유클리디언 거리(Euclidean distance)를 최소화하는 손실함수(loss function)를 이용하여 학습할 수 있다.
제안부(610)는 생성된 히트맵으로부터 얼굴 후보 영역을 생성하여 검출부(640)로 보낼 수 있다.
일 예에서, 검출부(640)는 복수 개의 합성곱 계층, 풀링 계층, 완전 연결 계층을 포함할 수 있다. 검출부(640)는 제안부(610)로부터 받은 얼굴 후보 영역에 대하여 상기 계층에 따라 연산을 수행할 수 있고, 수행의 결과로서 정밀한 얼굴 후보 영역의 위치 좌표를 나타내는 1차원 데이터를 생성할 수 있다.
검출부(640)는 분류부(650)와 회귀부(660)를 포함할 수 있다. 일 실시예에서, 분류부(650)와 회귀부(660)는 복수 개의 합성곱 계층과 풀링 계층을 포함하는 동일한 네트워크일 수 있다. 분류부(650)는 얼굴 후보 영역에 얼굴이 있는지 판단할 수 있으며, 얼굴이 있다고 판단되면 확률 1을 제시하고, 없다고 판단되면 확률 0을 제시할 수 있다. 회귀부(660)는 입력 패치에 boxing된 얼굴 후보 영역보다 정밀하게 얼굴 영역을 검출할 수 있다. 보다 자세하게는, 분류부(650)가 얼굴 후보 영역에 얼굴이 있다고 판단하면 회귀부(660)는 얼굴 영역 회귀법(Face Bound Regression)을 통해서 정밀해진 얼굴 영역의 위치 정보를 제시할 수 있다. 위치 정보는 x좌표, y좌표, 너비 및 높이를 포함할 수 있다. 반대로 분류부(650)가 얼굴 후보 영역에 얼굴이 없다고 판단하면 회귀부(660)는 box표시된 위치 정보를 무시하라는 라벨(label)을 얼굴 후보 영역에 부여할 수 있다.
검출부는 제안부로부터 얼굴 후보 영역을 받은 뒤 더 정밀한 얼굴 영역을 생성하기 위하여 학습할 수 있다.
일 예로, 검출부는 네거티브 예제 마이닝(hard sample mining) 기술을 이용하고, 분류(Classification)를 위해서 손실 함수로 교차 엔트로피 함수(cross-entropy loss function)를 이용하고, 정밀한 얼굴 영역으로 회귀(Regression)하기 위하여 정밀한 얼굴 영역의 위치 정보와 실제 얼굴 영역의 위치 정보 간의 유클리디언 거리(Euclidean distance)가 최소가 되도록 하는 함수를 이용하여 학습할 수 있다.
검출부(640)가 정밀해진 얼굴 후보 영역의 정보를 생성하면 후처리 과정(post processing)을 통해 최종적인 얼굴 영역(670)을 제시할 수 있다. 후처리 과정은 Non-Maximum Suppression(NMS)일 수 있다.
이상과 같이 한정된 실시예를 들어 본 발명을 구체적으로 설명하였으나, 본 발명은 상술한 실시예에 한정되지 않는다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 청구 범위 및 발명의 설명을 보고 용이하게 변경, 수정하여 실시할 수 있으며 그러한 실시까지 본 발명의 청구범위의 기재 범위에 속하게 된다.

Claims (16)

  1. 이미지에 포함된 얼굴 구성요소를 나타내는 복수의 히트맵들-상기 복수의 히트맵들은 상기 이미지에 대해 서로 다른 합성곱 및 풀링 방식들을 적용함으로써 생성된 것들임-각각으로부터 서로 다른 복수의 얼굴 후보 영역들을 추출하는 단계; 및
    상기 서로 다른 복수의 얼굴 후보 영역들에 기초하여 상기 이미지에 포함된 얼굴 영역을 검출(Detection)하는 단계
    를 포함하고, 상기 서로 다른 복수의 얼굴 후보 영역들을 추출하는 단계는,
    합성곱을 수행하는 적어도 하나의 제1 합성곱 계층 및 풀링을 수행하는 적어도 하나의 제1 풀링 계층을 포함하는 제1 계층을 통하여 상기 이미지를 피처맵들로 변환하는 단계; 및
    상기 서로 다른 복수의 얼굴 후보 영역들을 추출하기 위하여 적어도 하나의 제2 합성곱 계층과 적어도 하나의 제2 풀링 계층을 포함하는 복수의 제2 계층들 각각을 통하여 상기 피처맵들을 히트맵들로 변환하는 단계
    를 포함하고,
    상기 복수의 제2 계층들은 상기 피처맵들을 상기 히트맵들로 변환하기 위하여 공통적으로 상기 피처맵들을 사용하며,
    상기 피처맵들을 히트맵들로 변환하는 단계는,
    피처맵들을 히트맵들로 변환하기 위하여 상기 복수의 제2 계층들 각각이 합성곱과 풀링 연산을 연속적으로 수행하는 단계를 포함하고,
    상기 복수의 제2 계층들 중 어느 하나가 포함하고 있는 계층과, 다른 하나의 제2 계층에 포함되며 상기 계층의 연산 순서에 대응되는 계층은 서로 다른 크기의 스트라이드(stride)를 갖도록 함으로써 상기 복수의 제2 계층들이 서로 다른 크기의 얼굴에 대하여 최적화된 히트맵을 생성하도록 하는 것을 특징으로 하는 얼굴 검출 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 얼굴 영역을 검출(Detection)하는 단계는,
    상기 얼굴 후보 영역에 얼굴 영역이 있는지 여부를 판단함으로써 얼굴 유무에 대하여 분류(Classification)하는 단계; 및
    상기 분류와 상기 얼굴 후보 영역들을 기반으로 하여 정밀한 얼굴 후보 영역으로 회귀(Regression)하는 단계
    를 포함하는 것을 특징으로 하는 얼굴 검출 방법.
  5. 제4항에 있어서,
    상기 분류(Classification)하는 단계는,
    얼굴 영역이 포함되어 있으면 확률 1을 제시하고, 얼굴 영역이 포함되어 있지 않으면 확률 0을 제시하는 단계를 포함하는 것을 특징으로 하는 얼굴 검출 방법.
  6. 제4항에 있어서,
    상기 정밀한 얼굴 후보 영역으로 회귀(Regression)하는 단계는,
    상기 분류(Classification)하는 단계에서 얼굴 영역이 있다고 분류하면 얼굴 영역의 위치 정보를 제시하고, 얼굴 영역이 없다고 분류하면 얼굴 영역의 위치 정보를 무시하라는 라벨(label)을 부여하는 단계를 포함하는 것을 특징으로 하는 얼굴 검출 방법.
  7. 제1항에 있어서,
    상기 얼굴 영역을 검출(Detection)하는 단계는,
    상기 얼굴 후보 영역들이 적어도 하나의 합성곱 계층, 적어도 하나의 풀링 계층 및 적어도 하나의 완전 연결 계층(Fully-Connected layer; FCL)을 거쳐서 얼굴 영역을 검출하는 것을 특징으로 하는 얼굴 검출 방법.
  8. 제1항에 있어서,
    상기 얼굴 후보 영역들을 추출하는 단계는,
    물체 영역과 물체가 아닌 영역을 구분하는 신경망 모델을 기반으로 하여 얼굴 영역과 얼굴이 아닌 영역을 구분하기 위한 학습을 하는 단계; 및
    하나 이상의 얼굴 특징점(facial landmark)을 포함하는 이미지 데이터 베이스를 사용하여 얼굴 후보 영역 추출을 학습하는 단계
    를 통해 학습되는 것을 특징으로 하는 얼굴 검출 방법.
  9. 제1항에 있어서,
    상기 얼굴 영역을 검출(Detection)하는 단계는,
    네거티브 예제 마이닝(Hard Sample Mining) 기술을 통해 상기 얼굴 후보 영역들을 데이터 베이스로 사용하여 학습되는 것을 특징으로 하는 얼굴 검출 방법.
  10. 이미지에 포함된 얼굴 구성요소를 나타내는 복수의 히트맵들-상기 복수의 히트맵들은 상기 이미지에 대해 서로 다른 합성곱 및 풀링 방식들을 적용함으로써 생성된 것들임-각각으로부터 서로 다른 복수의 얼굴 후보 영역들을 추출하여 검출부로 프로포즈(propose)하는 제안부; 및
    상기 서로 다른 복수의 얼굴 후보 영역들에 기초하여 상기 이미지에 포함된 얼굴 영역을 검출(Detection)하는 검출부
    를 포함하고,
    상기 제안부는,
    합성곱을 수행하는 적어도 하나의 제1 합성곱 계층 및 풀링을 수행하는 적어도 하나의 제1 풀링 계층을 통하여 상기 이미지를 피처맵들로 변환하는 제1 계층부; 및
    상기 서로 다른 복수의 얼굴 후보 영역들을 추출하기 위하여 적어도 하나의 제2 합성곱 계층과 적어도 하나의 제2 풀링 계층을 통하여 상기 피처맵들을 히트맵들로 변환하는 복수의 제2 계층부
    를 포함하고,
    상기 복수의 제2 계층부들은 상기 피처맵들을 상기 히트맵들로 변환하기 위하여 공통적으로 상기 피처맵들을 사용하며,
    상기 제안부는,
    피처맵들을 히트맵들로 변환하기 위하여 상기 복수의 제2 계층부들 각각이 합성곱과 풀링 연산을 연속적으로 수행하고,
    상기 복수의 제2 계층부들 중 어느 하나가 포함하고 있는 계층과, 다른 하나의 제2 계층부에 포함되며 상기 계층의 연산 순서에 대응되는 계층은 서로 다른 크기의 스트라이드(stride)를 갖는 것을 특징으로 하는 기계 학습 기반 얼굴 검출 시스템.
  11. 삭제
  12. 삭제
  13. 제10항에 있어서,
    상기 검출부는,
    상기 얼굴 후보 영역에 얼굴이 있는지 여부를 판단함으로써 얼굴 유무에 대하여 분류(Classification)를 수행하는 분류부; 및
    상기 분류와 상기 얼굴 후보 영역들을 기반으로 하여 정밀한 얼굴 후보 영역으로 회귀(Regression)하는 회귀부
    를 포함하는 것을 특징으로 하는 기계 학습 기반 얼굴 검출 시스템.
  14. 제13항에 있어서,
    상기 분류부는,
    얼굴 영역이 포함되어 있으면 확률 1을 제시하고, 얼굴 영역이 포함되어 있지 않으면 확률 0을 제시하는 것을 특징으로 하는 기계 학습 기반 얼굴 검출 시스템.
  15. 제13항에 있어서,
    상기 회귀부는,
    상기 분류부가 얼굴 영역이 있다고 분류하면 얼굴 영역의 위치 정보를 제시하고, 얼굴 영역이 없다고 분류하면 얼굴 영역의 위치 정보를 무시하라는 라벨(label)을 부여하는 것을 특징으로 하는 기계 학습 기반 얼굴 검출 시스템.
  16. 제10항에 있어서,
    상기 검출부는,
    얼굴 영역을 검출하기 위하여 상기 얼굴 후보 영역들이 적어도 하나의 합성곱 계층, 적어도 하나의 풀링 계층 및 적어도 하나의 완전 연결 계층(Fully-Connected layer; FCL)을 포함하는 것을 특징으로 하는 기계 학습 기반 얼굴 검출 시스템.
KR1020170075826A 2017-01-03 2017-06-15 Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 KR102036963B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170000720 2017-01-03
KR1020170000720 2017-01-03

Publications (2)

Publication Number Publication Date
KR20180080081A KR20180080081A (ko) 2018-07-11
KR102036963B1 true KR102036963B1 (ko) 2019-11-29

Family

ID=62917972

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170075826A KR102036963B1 (ko) 2017-01-03 2017-06-15 Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102036963B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210157028A (ko) 2020-06-19 2021-12-28 권세기 마스크 착용 상태 검사 시스템

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102161476B1 (ko) * 2018-07-13 2020-10-06 동국대학교 산학협력단 딥 러닝 기반의 사용자 몸을 이용한 신원 인식 장치 및 방법
KR102213600B1 (ko) * 2018-08-28 2021-02-05 포항공과대학교 산학협력단 Cnn을 이용하여 크기 독립적으로 물체를 검출하는 방법 및 장치
KR102251858B1 (ko) * 2018-11-14 2021-05-14 주식회사 투아트 딥러닝 기반의 영상분석 방법, 시스템 및 휴대 단말
WO2020101121A1 (ko) * 2018-11-14 2020-05-22 (주)투아트 딥러닝 기반의 영상분석 방법, 시스템 및 휴대 단말
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN111488764B (zh) * 2019-01-26 2024-04-30 天津大学青岛海洋技术研究院 一种面向ToF图像传感器的人脸识别方法
US10740593B1 (en) * 2019-01-31 2020-08-11 StradVision, Inc. Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation
KR102239133B1 (ko) * 2019-05-24 2021-04-12 한국생산기술연구원 영상 변환을 이용한 머신러닝 기반 결함 분류 장치 및 방법
KR20210071410A (ko) 2019-12-06 2021-06-16 삼성전자주식회사 센서 특화 이미지 인식 장치 및 방법
KR102236904B1 (ko) * 2019-12-13 2021-04-06 조선대학교산학협력단 이미지 합성 방법 및 장치
CN111144310A (zh) * 2019-12-27 2020-05-12 创新奇智(青岛)科技有限公司 一种基于多层信息融合的人脸检测方法及系统
KR20220029212A (ko) * 2020-09-01 2022-03-08 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102410564B1 (ko) * 2020-09-22 2022-06-20 (주) 아하 딥 러닝 기반 사람 인식 장치 및 방법
KR102502840B1 (ko) * 2020-12-03 2023-02-23 주식회사 포스코 용접부 균열 예측 장치 및 방법
KR102648270B1 (ko) * 2020-12-29 2024-03-14 포항공과대학교 산학협력단 이미지에서의 좌표 및 불확실성 추정 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101449744B1 (ko) * 2013-09-06 2014-10-15 한국과학기술원 영역 기반 특징을 이용한 얼굴 검출 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100474848B1 (ko) * 2002-07-19 2005-03-10 삼성전자주식회사 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101449744B1 (ko) * 2013-09-06 2014-10-15 한국과학기술원 영역 기반 특징을 이용한 얼굴 검출 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210157028A (ko) 2020-06-19 2021-12-28 권세기 마스크 착용 상태 검사 시스템

Also Published As

Publication number Publication date
KR20180080081A (ko) 2018-07-11

Similar Documents

Publication Publication Date Title
KR102036963B1 (ko) Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템
Halder et al. Real-time vernacular sign language recognition using mediapipe and machine learning
CN108052896B (zh) 基于卷积神经网络与支持向量机的人体行为识别方法
Dong et al. American sign language alphabet recognition using microsoft kinect
Mustafa Retracted article: a study on Arabic sign language recognition for differently abled using advanced machine learning classifiers
Rahman et al. Hand gesture recognition using multiclass support vector machine
KR101117549B1 (ko) 얼굴 인식 시스템 및 그 얼굴 인식 방법
Waheed et al. A novel deep learning model for understanding two-person interactions using depth sensors
Hussain et al. Intelligent sign language recognition system for e-learning context
Kumar et al. 3D sign language recognition using spatio temporal graph kernels
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
Alarfaj et al. An Intelligent Framework for recognizing social human-object interactions
Vafadar et al. A vision based system for communicating in virtual reality environments by recognizing human hand gestures
Assiri et al. Face emotion recognition based on infrared thermal imagery by applying machine learning and parallelism
Li et al. Recognizing hand gestures using the weighted elastic graph matching (WEGM) method
Yadav et al. Exploration of deep learning models for localizing bare-hand in the practical environment
Srininvas et al. A framework to recognize the sign language system for deaf and dumb using mining techniques
Phothiwetchakun et al. Thai Fingerspelling Recognition Using Hand Landmark Clustering
Boyraz12 et al. Action recognition by weakly-supervised discriminative region localization
Sharma et al. Deep learning for face mask detection: a survey
Mesbahi et al. Hand Gesture Recognition Based on Various Deep Learning YOLO Models
Abdullah et al. Crowd Anomaly Detection in Public Surveillance via Spatio-temporal Descriptors and Zero-Shot Classifier
Zhang et al. Fuzzy-based latent-dynamic conditional random fields for continuous gesture recognition
Tasnim et al. Progress in Object Detection: An In-Depth Analysis of Methods and Use Cases
Jindal et al. Quantum behaved Intelligent Variant of Gravitational Search Algorithm with Deep Neural Networks for Human Activity Recognition: 10.48129/kjs. 18531

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant