KR20180027194A

KR20180027194A - 얼굴 검출 장치

Info

Publication number: KR20180027194A
Application number: KR1020160114490A
Authority: KR
Inventors: 박준영; 노승인; 윤종민; 김대진
Original assignee: 한화테크윈 주식회사; 포항공과대학교 산학협력단
Priority date: 2016-09-06
Filing date: 2016-09-06
Publication date: 2018-03-14

Abstract

상기 과제를 해결하기 위한 본 발명의 실시예에 따른 얼굴 검출 장치는 특정 영역을 촬영하여 획득한 영상을 입력받는 입력부; 내부에 분류기가 포함된 윈도우를 이용하여 상기 영상을 탐색함으로써, 상기 영상 상에서 얼굴 후보 영역에 대한 특징을 추출하는 윈도우 탐색부; 미리 학습 데이터를 통해 학습을 수행하여 문턱값을 생성하는 데이터 학습부; 상기 특징과 상기 저장부에 미리 저장된 상기 문턱값을 비교하여, 상기 얼굴 후보 영역이 얼굴 영역인지 판단하는 얼굴 영역 검출부를 포함하되, 상기 분류기는, 상기 특징들에 대하여 룩업테이블(LUT)을 사용하여 제1 분류를 수행하고, 동일한 종류로 분류된 샘플들에 대하여, 선형 분류기를 사용하여 제2 분류를 수행한다.

Description

얼굴 검출 장치{Apparatus For Detecting Face}

본 발명은 얼굴 검출 장치에 관한 것으로서, 보다 상세하게는 영상에서 특징들을 추출하고 분류기를 이용하여 분류함에 있어서, 샘플들의 분류 성능 및 분류 경계면을 모두 개선시키는 얼굴 검출 장치에 관한 것이다.

얼굴 검출은 영상에 존재하는 얼굴의 위치와 크기 등을 검출하는 것으로서 얼굴 검출 알고리즘 자체로서의 중요성뿐만 아니라, 얼굴 인식, 표정 인식 및 졸음 검출 등과 같은 다양한 응용 분야의 필수적인 알고리즘이다. 그러나 영상에 존재하는 사람의 얼굴을 정확하게 검출하는 일은 영상 자체의 다양한 배경, 인물의 포즈, 표정 및 조명 변화와 같은 환경 요소에 민감한 문제점이 있다. 따라서, 다양한 영상으로부터 정확하게 사람의 얼굴을 검출하는 방법에 대한 많은 연구가 현재까지 지속되고 있다.

현재까지 연구되고 있는 얼굴 검출의 방법들을 크게 정리하면 다음과 같은 형태로 구분할 수 있다. 첫째 얼굴의 특징 성분에 대한 사전 지식 정보에 기반한 방법이다. 이는 사람의 얼굴 에는 얼굴의 형태 및 눈, 코, 입 등의 신체 구성 요소들이 상호간의 일정한 거리 및 위치 관계를 가지고 있다는 가정을 이용하여 얼굴을 검출하는 방법이다. 그러나 이와 같은 방법은 정면과 측면 영상에 대해 서로 다른 형태 모델이 필요하기 때문에 얼굴 검출기의 모델이 복잡해지며, 얼굴의 각도, 기울기, 가려짐 등의 변화에 대해서는 얼굴 검출이 어려운 문제점이 존재한다.

둘째, 얼굴 특징 모델에 대한 템플릿 매칭을 이용한 방법이다. 템플릿 매칭 기법이란 얼굴 학습 데이터를 이용하여 얼굴 표준 모형에 대한 템플릿을 생성하여 테스트 영상에 대하여 학습한 템플릿과 비교하여 비슷한 특징을 가지는 영역을 얼굴로 검출하는 방법이다. 이와 같은 방법은 다양한 종류의 영상 내 존재하는 얼굴 영역의 크기 변화, 시선 방향에 따른 왜곡에 민감할 뿐만 아니라 다양한 인종, 표정 및 자세를 고려한 표준 얼굴 모델에 대한 템플릿을 생성하기 힘든 문제점이 있다. 또한 템플릿 매칭을 위하여 얼굴 후보 영역의 모든 크기 및 위치 정보를 고려해야 하기 때문에 검출에 많은 소요 시간이 요구된다.

셋째, 특징기반 분별 학습 모델을 이용한 방법이다. 이는 훈련 데이터로부터 다양한 종류의 특징을 추출하고, 얼굴 영역에서 추출한 특징과 비 얼굴 영역에서 추출한 특징을 분류해 낼 수 있는 분별학습에 따른 구별 모델을 생성하고, 이를 이용하여 영상에서 얼굴 영역을 검출하는 방법이다. 다양한 특징으로부터 얼굴과 비얼굴 영역을 구분하기 위한 SVM, LDA 등의 다양한 기계학습 방법이 존재하며, 이는 앞에서 소개한 방법들의 제약 조건을 극복하고 얼굴 검출에 있어서 좋은 성능을 보인다. 그러나 구별 모델을 학습하기 위하여 많은 훈련데이터가 필요하며, 모델 학습에 많은 시간이 소요될 뿐만 아니라, 구별 모델이 학습 데이터에 영향을 받기 때문에 일반화 성능이 떨어지는 문제점이 있다.

한국특허등록 제1408344호 한국특허등록 제1415325호

본 발명이 해결하고자 하는 과제는, 영상에서 특징들을 추출하고 분류기를 이용하여 분류함에 있어서, 샘플들의 분류 성능 및 분류 경계면을 모두 개선시키는 얼굴 검출 장치를 제공하는 것이다.

본 발명의 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.

영상에서 특징들을 추출하고, 아다부스트(Adaboost) 알고리즘을 이용한 약분류기에 대입하여 샘플들을 분류할 때, 룩업테이블에 의한 1차 분류 및 선형 분류기에 의한 2차 분류를 수행함으로써, 샘플들의 분류 성능 및 분류 경계면을 모두 개선시킬 수 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 얼굴 검출 장치(1)의 구성을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 얼굴 검출 장치(1)가 얼굴 검출 동작을 수행하는 과정을 도시한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 윈도우 탐색부(141)가 영상(20) 상에서 탐색을 수행하는 면적 비율이 달라지는 모습을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 윈도우 탐색부(141)가 수행하는 적응 탐색 스텝 사이즈 체계(Adaptive Searching Stepsize Scheme) 방법을 나타낸 예시도이다.
도 5는 본 발명의 일 실시예에 따른 아다부스트(Adaboost) 알고리즘으로 제작한 분류기들의 동작을 개념적으로 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 샘플들의 가중치가 약분류기에 따라 달라지는 모습을 나타내는 도면이다.
도 7은 룩업테이블(Look-up Table, LUT) 분류기를 수행하는 모습을 나타낸 개념도이다.
도 8은 선형 판별 분석법(Linear Discriminant Analysis, LDA)을 수행하는 모습을 나타낸 개념도이다.
도 9는 본 발명의 일 실시예에 따른 약분류기의 동작을 개념적으로 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 얼굴 검출 장치(1)의 구성을 나타낸 블록도이고, 도 2는 본 발명의 일 실시예에 따른 얼굴 검출 장치(1)가 얼굴 검출 동작을 수행하는 과정을 도시한 예시도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 얼굴 검출 장치(1)는 입력부(11), 출력부(12), 저장부(13), 제어부(14)를 포함한다.

입력부(11)는 외부로부터 영상(20)을 입력받는 기능을 한다. 예를 들어, 카메라, 캠코더 등의 영상 획득 장치를 통해서, 검출하고자 하는 사람의 얼굴을 촬영하여 영상(20)을 획득할 수 있다. 입력부(11)는 빛이 집광되는 집광부, 집광된 빛을 감지하고 감지된 빛의 신호를 전기 신호로 변환하는 촬상부, 변환된 전기 신호를 디지철 신호로 변환하는 A/D 컨버터를 포함한다.

여기서 촬상부는 노출 및 감마 조정, 이득조정, 화이트 밸런스, 컬러 매트릭스 등의 기능을 수행하며, 일반적으로 CCD(Charge Coupled Device, 전하결합소자)나 CMOS 이미지 센서 등의 촬상 소자가 포함된다. CCD는 복수의 포토다이오드(Photodiode)에 광이 조사되면 광전효과에 의해 발생한 전자들을 축적시킨 후 전송하는 방식이다. 이 때, 광자의 양에 따라 발생하는 전자량의 변화를 분석하고 정보를 재구성함으로써, 화면을 이루는 이미지 정보가 생성된다. CCD는 화질이 선명하고 노이즈가 적다는 장점이 있으나, 전력소비가 높고 처리속도가 느리다는 단점이 있다.

CMOS 이미지 센서는 CMOS(Complementary Metal Oxide Semiconductor)를 이용하는 이미지 센서로서, 각 셀마다 증폭기가 있어 광에 의해 발생한 전자를 곧바로 전기신호로 증폭시켜 전송하는 방식이다. CMOS 이미지 센서는 가격이 저렴하고 전력소비가 낮으며 처리속도가 빠르나, 노이즈가 많다는 단점이 있다.

출력부(12)는 입력받은 영상(21)에서 얼굴 영역이 검출된 영상(22)을 출력한다. 그리고 도 2에 도시된 바와 같이, 얼굴 영역이 검출되어 출력되는 영상(22)에는, 얼굴 영역을 나타내는 프레임(221)이 표시된다. 출력부(12)는 액정, 모니터, 프로젝터, TV 또는 프린터 등 얼굴 영역이 검출되어 출력될 수 있다면, 제한되지 않고 다양한 종류의 출력부(12)를 포함할 수 있다.

저장부(13)는 입력부(11)에서 입력받은 영상(21) 또는, 제어부(14)에서 검출된 얼굴 후보 영역 및 얼굴 영역이 저장될 수 있다. 저장부(13)는 부피가 작고 외부의 충격에 강한 플래시 메모리(Flash Memory)인 것이 바람직하나, 이에 제한되지 않고 다양한 저장 장치를 포함할 수 있다.

제어부(14)는 얼굴 검출 장치(1)의 전반적인 동작을 제어한다. 예를 들어, 제어부(14)는 입력부(11)로부터 입력받은 영상(21)으로부터 얼굴 영역을 검출한다. 또한 출력되는 영상(22) 상에서 얼굴 영역을 나타내기 위하여, 검출된 얼굴 영역을 포위하는 프레임(221)을 설정한다. 도 2에서는 프레임(221)을 사각형으로 도시하였으나, 이에 제한되지 않고 얼굴 영역을 용이하게 나타낼 수 있다면, 원형, 타원형, 다각형 등 다양한 모양을 가질 수 있다. 그리고 제어부(14)는 출력부(12)를 통해 상기 영상(22)을 출력시킨다. 또한, 입력부(11)로부터 받은 영상(21) 또는, 얼굴 후보 영역 및 얼굴 영역을 저장부(13)에 저장시키고, 저장부(13)로부터 상기의 영상(20)들을 로딩하도록 제어한다. 본 발명의 일 실시예에 따른 제어부(14)로는 CPU(Central Processing Unit), MCU(Micro Controller Unit) 또는 DSP(Digital Signal Processor) 등을 사용하는 것이 바람직하나, 이에 제한되지 않고 다양한 논리 연산 프로세서가 사용될 수 있다.

제어부(14)는 윈도우(23)를 이용하여, 입력된 영상(21)에서 특징(Feature)을 추출하는 윈도우 탐색부(141), 얼굴 후보 영역들과 미리 저장된 문턱값을 토대로 얼굴 영역을 검출하는 얼굴 영역 검출부(142), 상기 입력 영상(21)이 입력되기 전에 학습 데이터 영상을 이용하여 얼굴 영역을 검출함으로써, 상기 문턱값을 생성하는 데이터 학습부(143)를 포함한다.

윈도우 탐색부(141)는 우선, 입력된 영상(21)에서 특징(Feature)을 추출한다. 이 때, 특징에는 이진화 특징(Binary Coded Feature)과 히스토그램 특징(Histogram Feature)이 있다. 본 발명의 일 실시예에 따른 영상(20)에서 추출하는 특징은, SURF(Speeded-Up Robust Features)와 같이, 추후에 히스토그램을 계산하게 되는 히스토그램 특징(Histogram Feature)인 것이 바람직하다. 이진화 특징(Binary Coded Feature)은 여러 가지 단점들이 있기 때문이다. 예를 들면, LBP, MCT 등은 속도가 빠르지만 국부적인 하나의 픽셀에서 특징이 추출되므로, 영상(20) 상에서 이격되어 있는 관계를 표현하지 못한다. Ferns의 경우에는 각 쌍(Pair)들 사이의 대소 관계를 표현하지 못하고, 코드 테이블의 크기가 너무 커지는 단점이 있다.

SURF는, 예를 들어 40×40의 윈도우(23) 영역 내에서 2×2 특징 영역의 픽셀들의 기울기 정보를 각 특징 영역마다 8차원으로 추출하여 32차원 특징 벡터를 생성한다. 여기서 기울기 정보에는,

,

등이 있으며,

는 수평방향 그래디언트의 합,

는 수직방향 그래디언트의 합,

,

는 대각선방향 그래디언트의 합,

는 수평방향 그래디언트의 절대값의 합,

는 수직방향 그래디언트의 절대값의 합,

,

는 대각선방향 그래디언트의 절대값의 합이다.

본 발명의 일 실시예에 따르면, SURF를 이용하여 특징이 추출되는 것이 바람직하나, 이에 제한되지 않고, SIFT(Scale Invariant Feature Transform), HOG(Histogram of Oriented Gradient) 등 히스토그램 특징(Histogram Feature)이라면 다양한 방법을 이용하여 특징이 추출될 수 있다. SIFT는 주변의 영상 패치(Image Patch)를 4×4 블록으로 분할하고, 각 블록에 속한 픽셀들의 그래디언트(Gradient) 방향과 크기에 대한 히스토그램을 계산한 후 히스토그램의 빈 값들을 연결한 벡터이다. 그리고 HOG는 대상 영역을 일정 크기의 셀(Cell)들로 분할하고, 각 셀마다 에지 픽셀(Edge Pixel)들의 방향(Orientation)에 대한 히스토그램을 획득한 후, 히스토그램들의 빈(bin) 값을 연결한 벡터를 나타낸다.

윈도우 탐색부(141)는 추출된 히스토그램 특징을 기초로, 윈도우(23) 탐색 기법을 이용하여 얼굴 후보 영역을 검출한다. 여기서 얼굴 후보 영역이란, 입력된 영상(20) 상에서, 얼굴 영역이 될 가능성이 높은 영역을 지칭한다. 도 3에 도시된 바와 같이, 윈도우 탐색부(141)는 영상(20) 상에서 윈도우(23)를 슬라이딩하며, 영상(20)의 모든 위치를 탐색(Scanning) 한다. 윈도우(23) 내에는 미리 학습된 분류기가 저장되어 있어, 윈도우(23)가 탐색하는 영역이 오브젝트(Object)인지 배경(Background)인지를 판별하게 된다.

일반적으로, 상기 윈도우(23) 내에 미리 저장된 분류기로는, 아다부스트(Adaboost), 랜덤 포레스트(Random Forest), SVM(Support Vector Machine), NN(Neural Network) 등 다양한 방법이 사용될 수 있다. 그러나, 본 발명의 일 실시예에 따른 분류기는, 인식 성능을 향상시키기 위해, 데이터의 분포를 효과적으로 모델링 할 수 있도록 복잡한 비선형 분류기인 아다부스트(Adaboost)인 것이 바람직하다. 아다부스트(Adaboost)에 대한 자세한 설명은 후술한다.

도 3은 본 발명의 일 실시예에 따른 윈도우 탐색부(141)가 영상(20) 상에서 탐색을 수행하는 면적 비율이 달라지는 모습을 나타낸 도면이다.

윈도우 탐색부(141)는 영상(20) 상에서 탐색을 한 번만 수행하여 특징을 모두 추출할 수도 있으나, 윈도우(23)의 사이즈를 변화시켜가며 여러 번 반복하여 영상(20)을 탐색할 수도 있다. 그러나, 이 경우에는 각각의 사이즈에 해당되는 윈도우(23)마다, 별도의 학습된 분류기가 마련되어야 한다. 따라서, 일반적으로는 윈도우(23)의 사이즈를 고정시키고 영상(20)의 사이즈를 감소시켜가며, 영상(20) 상에서의 판별을 수행하게 된다. 이 때, 윈도우 탐색부(141)는 영상(20) 상에서 탐색을 수행하는 상대적인 좌표값이 변화하게 된다.

도 4는 본 발명의 일 실시예에 따른 윈도우 탐색부(141)가 수행하는 적응 탐색 스텝 사이즈 체계(Adaptive Searching Stepsize Scheme) 방법을 나타낸 예시도이다.

윈도우 탐색부(141)는 다음 영역을 검출할 때, 윈도우(23)를 Δ만큼 x축 또는 y축으로 이동시킬 수 있다. 윈도우 탐색부(141)는 윈도우(23)에서 추출된 얼굴 영역 특징(Gradient Magnitude)의 값이 문턱값(Threshold) 보다 작은 경우, 다음 탐색할 영역을 스텝 사이즈 Δ 대신 Δ+ηα 크기만큼 이동시키는 적응 탐색 스텝 사이즈 체계(Adaptive Searching Stepsize Scheme)를 이용할 수 있다. 윈도우 탐색부(141)는 적응 탐색 스탭 사이즈 체계를 이용하여 양성(Positive) 영역이 아닌 음성(Negative) 영역은 통과하여, 얼굴 영역 특징을 추출하는 불필요한 처리 과정을 생략할 수 있다. 여기서, η는 탐색 스텝 사이즈(Searching Stepsize)를 부스팅(Boosting)하는 크기이고, α는 탐색하지 않고 통과한 누적 횟수이다.

윈도우 탐색부(141)는 ηα을 이용하여 영상(20)에서 배경과 같은 부분에서는 탐색 윈도우(23)의 탐색 스텝 사이즈를 크게 함으로써, 불필요한 탐색을 줄일 수 있다. 그리고 윈도우(23)가 얼굴 영역 근방을 탐색하게 되면, ηα값을 초기화하여 기본 탐색 스탭 사이즈 Δ를 이용하여 얼굴 영역을 찾을 수 있다.

도 5는 본 발명의 일 실시예에 따른 아다부스트(Adaboost) 알고리즘으로 제작한 분류기들의 동작을 개념적으로 나타낸 도면이다.

아다부스트(Adaboost)는 기계학습(Machine Learning)의 한 종류로서, 오브젝트가 포함된 영상들과, 오브젝트가 포함되지 않은 영상들을 많이 입력받아 학습한다. 이 때, 오브젝트가 포함된 영상들의 집합을 양성(Positive) 집합이라 하고, 오브젝트가 포함되지 않은 영상들의 집합을 음성(Negative) 집합이라 한다. 이러한 학습은, 입력되는 영상이 양성인지 음성인지를 알고 있는 상태에서 진행한다. 이를 통해, 데이터 학습부(143)는 스스로 양성 및 음성 여부를 판단할 수 있는 기준이 되는 문턱값(Threshold)을 설정하게 된다. 그리고 학습을 계속 진행할수록, 상기 문턱값은 오차가 감소하도록 조정된다.

윈도우 탐색부(141)는 아다부스트 분류기를 이용하여 사람의 얼굴로 의심되는 영역을 구분할 수 있다. 즉, 아다부스트 분류기는 입력 영상이 주어지면 1차적으로 오브젝트가 존재하는지 여부를 구별할 수 있다.

아다부스트는 복수의 약분류기(Weak Classifier)들을 조합하여 강분류기(Strong Classifier)를 만드는 구조를 가진다. 이 때, 약하다는 것은 그 분류기가 양성 및 음성의 영상들을 낮은 정확도로 구별한다는 것을 의미하고, 강하다는 것은 그 분류기가 양성 및 음성의 영상들을 높은 정확도로 구별한다는 것을 의미이다. 약분류기는 추출한 특징이 양성이라고 판단되면 1을 반환하고 음성이라고 판단되면 -1을 반환하는 함수이다. 그리고 강분류기는 약분류기들이 반환하는 값의 선형 조합(Linear Combination)을 반환하는 함수이다. 만약에 반환한 값이 양수이면 그 특징은 양성으로 분류되고 반환한 값이 음수이면 그 특징은 음성으로 분류된다.

아다부스트는 데이터들에 대한 반복 연산을 통해 에러가 적은 약분류기들을 선별하고, 이 약분류기들의 선형 조합을 통해 정확도가 높은 강분류기를 만드는 알고리즘이다. 아다부스트 학습 알고리즘은 가장 잘 알려진 부스트 알고리즘이며, 단순하면서도 효율적이라는 장점을 지닌다. 도 5에 도시된 바와 같이, 아다부스트를 이용하는 분류기는, 윈도우(23)에서 추출한 특징 값을 각각 단계별로 진위 여부를 판단하여, 지정된 영역이 얼굴 영역(32)인지 판단한다. 즉, 모든 후보 윈도우(31)가 판단의 대상이 된다. 각 단계를 지날수록 분류기의 성능이 더 좋아지며, 이 방법을 통해 더욱 빠른 얼굴 검출 알고리즘을 구현할 수 있다. 첫 단계(341)에서는 적은 수의 특징 값들로 분류기를 제작하고, 다음 단계(342)에서는 첫 단계(341)에서 보다 더 많은 수의 특징 값들을 가지고 더욱 정밀한 분류기를 만든다. 이와 같은 과정을 거치며, 마지막 단계(343)에서는 매우 강력한 분류기가 형성될 수 있다. 입력 영상에는 얼굴이 아닌 영역이 일부 존재한다. 그러나, 이 영역이 검출기의 각 단계를 지나면서 비 얼굴 영역 후보(33)의 대부분은 초기 단계에서 걸러지게 되고 얼굴 영역의 후보가 되는 윈도우(32)만이 결과로 출력되므로, 빠른 속도의 분류기를 제작할 수 있다.

아다부스트는 하나의 약분류기와 선형 조합에 쓰일 그 약분류기들의 계수를 같은 방식으로 반복적으로 학습한다. 약분류기와 계수를 정하기 위해서 각각의 학습에 이용되는 영상들에 대해 중요도를 설정할 수 있다. 여기서 중요도는 하나의 약분류기를 학습할 때마다 앞서 학습된 약분류기의 결과에 영향을 받아서 갱신된다.

선택된 약분류기의 계수는 앞서 계산한 잘못 분류한 영상의 중요도의 합을 이용해서 계산한다. 만약에 그 합의 값이 크다면 약분류기는 좋지 않은 분류기라고 판단되어 계수의 값을 작게 만들고 그 합이 작다면 약분류기는 좋은 분류기라고 판단하여 계수의 값을 크게 만들어준다. 따라서 계수는 일차 결합을 할 때 어느 분류기의 결과를 더 중요하게 볼 것인가 하는 기준이 될 것이다.

도 6은 본 발명의 일 실시예에 따른 샘플들의 가중치가 약분류기에 따라 달라지는 모습을 나타내는 도면이다.

도 6에 도시된 바와 같이, 데이터 학습부(143)에서 아다부스스 알고리즘을 학습시키는 경우, 윈도우(23)의 탐색을 반복하여, 매 탐색마다 약분류기를 하나씩 선택한다. 이 때, 각 샘플(41)마다 가중치를 가지고 있어서, 각 샘플마다 약분류기에 미치는 영향이 다르게 된다. 즉, 가중치가 작은 샘플(41)보다는 가중치가 큰 샘플(42)들이 더 잘 분류되도록 약분류기가 선택된다. 윈도우(23)의 탐색에서 약분류기가 선택된 후, 선택된 약분류기를 각 학습샘플에 적용하여 분류 결과를 얻는다. 그리고 그 분류 결과에 따라, 잘못 분류된 샘플들은 가중치를 증가시키고, 잘 분류된 샘플들은 가중치를 감소시켜서 다음 탐색에서 약분류기를 계산할 때, 기존에 잘못 분류된 샘플을 더 잘 분류하는 약분류기가 선택되도록 한다. 예를 들면, 도 6에서 제1 약분류기(51)로 분류한 샘플(41)들은 모두 가중치가 작다. 그러나, 제2 약분류기(52)로 샘플들을 분류하면, 일부 샘플(42)들은 가중치가 증가한다. 제3 약분류기(53)로 샘플들을 분류하면, 가중치가 증가하는 샘플(42)들의 수도 증가하게 된다. 이러한 약분류기들을 선형 조합하여 강분류기가 형성된다.

도 7은 룩업테이블(Look-up Table, LUT) 분류기를 수행하는 모습을 나타낸 개념도이다.

일반적인 룩업테이블(LUT) 분류기는 양성과 음성, 두 종류의 클래스를 구분하는 이진 분류기이다. 룩업테이블 분류기의 분류 규칙은 사전 학습에 의해 파악된 통계 특성, 즉 입력 영상의 특징(LUT 인덱스)이 특정한 값으로 나타났을 때, 통계적으로 양성과 음성 중 더 높았던 확률에 따라 인식 결과 클래스를 결정하는 것이다.

추출된 특징은 빈 인덱스(bin index)값을 나타내는 코드값으로 표현되고, 특징이 룩업테이블의 특정 빈(bin)에 할당되면, 그 빈에 해당하는 컨피던스(Confidence) 값이 도출된다. 컨피던스(Confidence) 값이란, 상기 빈에 할당된 특징이 오브젝트에 해당할 것인지 또는 배경에 해당할 것인지 예상할 수 있는 확률을 말한다.

예를 들면, 도 7에 도시된 바와 같이, 윈도우(23)에서 제1 특징(231)과 제2 특징(232)을 추출하였다. 그리고 제1 특징(231)을 특징 코드로 변환을 하였을 때 2, 제2 특징(232)을 특징 코드로 변환을 하였을 때 4가 도출되었다. 이를 각각 해당하는 룩업테이블의 빈에 할당한다. 그리고 컨피던스 값이 도출되면, 각각의 특징들이 오브젝트에 해당할 확률이 높은지, 배경에 해당할 확률이 높은지 판단될 수 있다.

도 8은 선형 판별 분석법(Linear Discriminant Analysis, LDA)을 수행하는 모습을 나타낸 개념도이다.

한편, LDA는 개별행렬 상에서 고유값 분석을 통하여 얼굴을 인식하는 방법으로, 클래스 간 산포(Between Scatter, BS)을 최대화하고 클래스 내 산포(Within Scatter, WS)을 최소화하는 선형변환을 찾아내는 선형 분류기이다. 판별정보를 보존하면서도 인식에 아주 적합하다고 볼 수 있다. LDA는 클래스 정보를 사용하여 동일한 클래스들의 자료는 서로 모으고 다른 클래스 간의 자료는 서로 분리하기 때문에 입력 데이터를 비교적 정확히 분류한다.

도 8에 도시된 바와 같이, 다차원 벡터로 주어진 양성(Positive) 및 음성(Negative) 데이터가 있다. LDA는 이들을 1차원으로 프로젝션(Projection)시켰을 때, 두 클래스 간의 분리도가 최대가 되는 프로젝션 벡터(Projection Vector)를 구한다. 클래스 간의 분리도는 상기 기술한 바와 같이, 클래스 간 산포(Between Scatter, SB)을 최대화하고 클래스 내 산포(Within Scatter, SW)을 최소화되어야 한다. 여기서, 클래스 내 산포(SW)은 데이터를 1차원으로 프로젝션 시켰을 때의 분산(Variation)을 의미한다. 반면에, 클래스 간 산포(SB)은 클래스 간의 떨어진 정도를 의미한다. 이를 목적 함수(Objective Function)로 표현하면 다음 수학식 1과 같다.

w는 프로젝션 벡터(Projection Vector)이고, SB는 클래스 간 산포 행렬(Between-class Scatter Matrix)이며, SW는 클래스 내 산포 행렬(Within-class Scatter Matrix)이다. SB와 SW을 수학식으로 표현하면 다음 수학식 2와 같다.

여기서, f는 특징 벡터(Feature Vector)이고, m⁺ 및 m^- 는 각각 양성 및 음성 특징 벡터(Positive/Negative Feature Vector)의 평균(Mean)을 의미한다.

목적 함수(Objective Function)인 J(w)를 최대화 하는 프로젝션 벡터(Projection Vector, w)와 최적 문턱값(Optimal Threshold, τ)은 다음 수학식 4와 같다.

도 9는 본 발명의 일 실시예에 따른 약분류기의 동작을 개념적으로 나타낸 도면이다.

상기 기술한 룩업테이블(Look-up Table, LUT) 분류기는, 추출된 복수의 특징들을 서로 분리된 빈들로 분할한다. 따라서, 다양한 변화를 갖거나 선형적으로 분리가 불가능하도록 분포된 실제 환경의 데이터를 용이하게 분류할 수 있다. 그러나, 각 빈에 해당하는 샘플들 간의 공간들은 수학적, 통계적인 분포를 고려하여 분리된 것이 아니므로, 좋은 분류 경계면(Decision Boundary)를 갖지 못한다.

반면, 상기 기술한 LDA 분류기는, 통계적 방법을 고려하여 분류한 것이므로, 선형으로 분리 가능한 이상적인 샘플 분포에 대해서는 좋은 분류 경계면을 가질 수 있다. 그러나, 선형 분류기의 특성상 특징 공간을 두 가지 경우로만 나누기 때문에 다양한 변화를 갖는 실제 환경 샘플들에 대해서는 용이하게 분류하기 어려워, 좋은 분류 성능을 갖지는 못한다.

따라서, 본 발명의 일 실시예에 따르면, 아다부스트(Adaboost) 알고리즘에 의한 특징 분류를 수행할 때, 룩업테이블 분류기와 LDA 분류기를 결합한 새로운 분류기를 약분류기로써 사용한다. 이를 통해, 두 분류기의 단점을 보완하고 장점만을 취할 수 있어 더욱 효과적인 특징들의 분류가 가능하게 된다. 물론, 좋은 분류 경계면을 가지나, 분류 성능이 좋지 못한 분류기로 SVM도 있으나, 이는 연산 시간이 너무 오래 걸리므로, LDA 분류기를 사용하는 것이 바람직하다.

구체적으로 설명하면 도 9에 도시된 바와 같이, 영상 상에서 특징(233)들의 특징 코드(Feature Code)에 따라 룩업테이블(Look-Up Table)을 구성하고, 각 빈(bin)에 할당된 샘플들을 이용하여 LDA 분류기와 같은 선형 분류기(Linear Classifier)로 한번 더 분류를 수행한다. 즉, 각 빈마다 컨피던스(Confidence) 값을 가지고 있는 일반적인 룩업테이블 방식의 약분류기(Weak Classifier)와는 달리, 룩업테이블 내의 각 빈은 해당 빈에 할당되는 샘플들을 다시 한번 분류하는 선형 분류기를 서브 분류기(Sub classifier)로 가진다. 그리고 각 빈 내에서 선형분류기를 통한 분류 결과가 문턱값(Threshold)보다 큰 지 작은 지에 따라서 선택되는 두 개의 컨피던스(Confidence)값을 가진다. 도 9에서 w_i는 프로젝션 벡터(Projection Vector), x는 추출된 특징 벡터이다. 그리고 t_i는 문턱값이 된다. 즉, 프로젝션 벡터(w_i)와 특징 벡터(x)를 내적한 값을, 문턱값(t_i)과 비교하여 컨피던스(Confidence) 값을 정할 수 있다.

본 발명의 일 실시예에 따른 분류기를 통해 특징(233)을 분류하기 전에, 먼저 추출된 특징(233)을 분류기에 대입할 수 있도록 변환하여야 한다. 상기 기술한 바와 같이 본 발명의 일 실시예에 따르면, 추출하는 특징(233)으로는 LBP, MCT와 같은 이진화 특징보다 SURF와 같은 히스토그램 특징이 더욱 바람직하다. 그러나, SURF와 같은 특징은 결과가 벡터(Vector)로 표현되므로 룩업테이블에 대입하기 용이하지 않다. 따라서, 본 발명의 일 실시예에 따르면, 추출된 특징(Feature)(233)을 ORF 코드라는 코드로 변환한다.

ORF(Order Relation Feature)는 특징 벡터(Feature Vector)가 주어졌을 때, 벡터의 원소들 간의 순서에 따라 개별 코드를 할당한다. 즉, 다차원의 특징 벡터의 특성을 하나의 십진화 코드(Decimal Code)로 변환하는 방법이다. 우선, 특징 벡터에 포함된 모든 원소들의 크기를 비교하여, 롱 코드(Long Code)로 표현한다. 그리고 불필요한 코드들을 제거하기 위해, 인코딩 맵(Encoding Map)에 상기 롱 코드(Long Code)를 대입하여 숏 코드(Short Code)를 얻는다. 상기 숏 코드는 적은 수의 코드 셋(Code Set)으로 원소들의 순서에 대한 모든 경우의 수를 표현할 수 있는 특성을 갖는다.

구체적인 ORF 코드를 추출하는 과정은 다음과 같다.

우선, 상기 기술한 바와 같이, 추출한 기초 특징(Base Feature)에는 K개의 원소가 포함되어 있다. 이들을 다음 수학식 5를 통해 롱 코드(Long Code)로 변환한다.

여기서, q와

은 원소의 비교 순서를 나타내는 시퀀스 벡터(Sequence Vector)로 다음 수학식 6의 조건을 만족한다.

예를 들어, K가 5라면, q와

은 다음 수학식 7과 같이 표현될 수 있다.

상기 롱 코드는 원소들의 모든 가능한 쌍(Pair)으로부터 대소관계를 비교한 후 이를 비트 스트링(Bit String)으로 형성되며 0 내지

의 값을 가진다. 변환된 롱 코드는 너무 큰 범위의 값을 가지므로 룩업테이블을 구성는데 용이하지 않다. 따라서 롱 코드를 인코딩 맵(Encoding Map)에 대입하여 코드 수를 감소시킨 숏 코드(Short Code)로 변환한다.

여기서

가 인코딩 맵을 나타낸다. 상기 변환한 ORF 코드도, 8개의 원소를 가지므로, 코드의 개수는 8!이다. 즉, 룩업 테이블의 크기가 너무 커지게 된다. 따라서, 원소를 4개씩 묶어서 각각의 ORF를 만들고 이를 다음과 같이 합쳐서 다음 수학식 9와 같이 ORF_4x4로 정의한다.

한편, 인코딩 맵은 롱 코드를 숏 코드인 ORF로 변환하는 함수로서, 다음과 같은 알고리즘으로 생성될 수 있다.

여기서 A는 K차원 벡터들의 집합이며, 집합 A의 원소인 각 벡터는 1에서 K사이의 중복되지 않는 정수 값을 갖는다. 즉 A는 1 내지 K 사이의 모든 순열이 들어있는 집합이라고 볼 수 있다.

여기서

가 인코딩 맵으로, 롱 코드(Long Code)를 숏 코드(Short Code)로 변환한다. 초기에는 숏 코드는 0으로, 인코딩 맵은 유효하지 않은 값을 나타내는 ε 으로 초기화 되어있다.

A의 임의의 원소 r벡터가 추출된 특징 벡터(Feature Vector)이다. 그리고, 시퀀스 벡터인 q[k]와

[k]의 인덱스 값에 따라서 특징 벡터의 각 원소들의 크기를 비교하여 롱 코드를 만든다.

이와 같이 롱 코드에 대응하는 숏 코드는 하나씩 록업테이블에 매핑한다. 그리고, 숏 코드 값을 1 증가시켜, 다음 매핑을 수행한다. 이와 같은 방법을 반복하여, 모든 숏 코드를 롱 코드에 대하여 하나씩 매핑함으로써, 롱 코드가 숏 코드로 변환될 수 있다.

지금까지, 기초 특징(Base Feature)로 추출한 특징 벡터(Feature Vector)를 ORF 코드로 변환하여 룩업테이블로 분류하는 과정을 살펴보았다. 그리고, 상기 기술한 바와 같이, 본 발명의 일 실시예에 따르면, 룩업테이블 내의 각 빈은 해당 빈에 할당되는 샘플들을 다시 한번 분류하는 선형 분류기를 서브 분류기(Sub classifier)로 가진다. 그리고, 각 빈 내에서 선형 분류기로 한번 더 분류를 수행한다.

본 발명의 일 실시예에 따르면, ORF 코드는 룩업테이블의 빈 인덱스(bin index)로 사용하므로, 동일한 ORF 코드를 갖는 학습 샘플들은 룩업테이블 상의 동일한 빈에 할당된다. 이 때 각 빈에 대해서, 그 빈에 할당되는 샘플들과 그 샘플들의 가중치들을 가지고 wLDA(weighted LDA) 학습을 통하여 해당 빈의 샘플들을 분류해 주는 선형 분류기(Linear Classifier)를 계산한다. wLDA(weighted LDA)는 모든 샘플이 동일한 영향력을 갖는 일반 LDA와 달리, 샘플에 서로 다른 가중치를 부여해서 가중치가 큰 샘플들이 프로젝션 벡터(Projection Vector)를 계산하는데 더 큰 영향을 미치도록 한다. wLDA(weighted LDA) 에서 SW(within scatter)와 SB(between scatter)는 가중치를 반영하도록 다음과 같이 변형되어 나타내어진다.

수학식 14가 상기 수학식 2 및 수학식 3과 다른 점은, 평균 m과 SW의 계산에서 각 샘플의 가중치(weight, W)를 반영하였다는 것이다. 이와 같은 wLDA가 룩업테이블의 각 빈에 포함되어 있어 선형 분류를 수행한다. 이하, wLDA가 선형 분류를 수행하는 과정을 설명한다. 우선, N개의 학습 샘플에 대하여 학습 샘플 및 레이블의 쌍(Pair)으로 학습 데이터 셋(Training Data Set)을 정의하고 각 샘플의 t번째 부스팅 라운드에서의 가중치(Weight)를 수학식 15와 같이 정의한다.

그리고, 룩업테이블의 b번째 빈에서 가장 좋은 분류성능을 나타내는 θ_t는 수학식 16과 같이 나타낼 수 있다.

한편, wLDA 학습을 위해 b번째 빈에 떨어진 학습 데이터를, 클래스 레이블에 따라 두 개의 세트로 나눈다.

여기서

는 샘플 x _i로부터 추출된 t번째 특징 벡터(Feature Vector)이다. 따라서, 가중치가 반영된 SB와 SW을 수학식으로 표현하면 다음 수학식 16과 같다.

목적 함수(Objective Function)인 J(w)를 최대화 하는 프로젝션 벡터(Projection Vector, w)와 최적 문턱값(Optimal Threshold, τ)은 다음 수학식 19와 같다.

상기 wLDA를 수행하여 얻은 프로젝션 벡터(Projection Vector)와 최적 문턱값(Optimal Threshold)을 이용하면, t번째 부스팅 라운드의 b번째 빈에 해당하는 샘플들을 잘 분류하는 선형 분류기(Linear Classifier)는 다음 수학식 20과 같다.

한편, t번째 약분류기가 b번째 빈에 대해 반환하는 컨피던스(Confidence) 값은 리얼부스트(RealBoost)를 이용해 다음 수학식 21과 같이 구한다.

임의의 샘플 x를 분류하는 약분류기 함수인 h_t(x)는 상기 구한 컨피던스(Confidence) 값과 선형 분류기를 이용하여, 다음 수학식 22와 같이 구할 수 있다.

상기와 같은 방법으로, 특징 벡터를 추출하여 룩업테이블로 먼저 샘플들을 분류하고, 각 빈에 할당된 샘플들에 대하여 선형 분류기를 이용하여 한번 더 분류를 수행할 수 있다. 따라서, 뛰어난 분류 성능 및 분류 경계면을 모두 가지게 된다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1: 얼굴 검출 장치 11: 영상 입력부
12: 출력부 13: 저장부
14: 제어부 20: 영상
21: 입력 영상 22: 출력 영상
23: 윈도우 141: 윈도우 탐색부
142: 얼굴 영역 검출부 143: 데이터 학습부
221: 프레임

Claims

특정 영역을 촬영하여 획득한 영상을 입력받는 입력부;
내부에 분류기가 포함된 윈도우를 이용하여 상기 영상을 탐색함으로써, 상기 영상 상에서 얼굴 후보 영역에 대한 특징을 추출하는 윈도우 탐색부;
미리 학습 데이터를 통해 학습을 수행하여 문턱값을 생성하는 데이터 학습부;
상기 생성된 문턱값을 저장하는 저장부;
상기 특징과 상기 저장부에 미리 저장된 상기 문턱값을 비교하여, 상기 얼굴 후보 영역이 얼굴 영역인지 판단하는 얼굴 영역 검출부를 포함하되,
상기 분류기는,
상기 특징들에 대하여 룩업테이블(LUT)을 사용하여 제1 분류를 수행하고, 동일한 종류로 분류된 샘플들에 대하여, 선형 분류기를 사용하여 제2 분류를 수행하는, 얼굴 검출 장치.
제1항에 있어서,
상기 분류기는,
아다부스트(Adaboost) 알고리즘을 사용한 분류기인, 얼굴 검출 장치.
제1항에 있어서,
상기 선형 분류기는,
선형 판별 분석법(LDA)을 사용한 선형 분류기인, 얼굴 검출 장치.
제3항에 있어서,
상기 선형 분류기는,
상기 샘플들에 대하여 각각 가중치를 반영하여 제2 분류를 수행하는, 얼굴 검출 장치.
제1항에 있어서,
상기 특징은,
SURF를 통해 추출되는 특징인, 얼굴 검출 장치.
제5항에 있어서,
상기 추출된 특징은,
상기 룩업테이블에 의해 제1 분류가 되기 전에, 코드의 형태로 변환되는, 얼굴 검출 장치.