KR102655789B1

KR102655789B1 - 얼굴 검출 방법 및 장치

Info

Publication number: KR102655789B1
Application number: KR1020160126850A
Authority: KR
Inventors: 장 차오; 황원준; 왕 비아오; 위 빙; 최창규; 한재준; 펑 하오
Original assignee: 삼성전자주식회사
Priority date: 2016-01-21
Filing date: 2016-09-30
Publication date: 2024-04-09
Also published as: CN106991363B; KR20170087817A; CN106991363A

Abstract

얼굴 검출 방법 및 장치가 개시된다. 일실시예에 따른 얼굴 검출 방법은 제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우에 기초하여 타겟 영상으로부터 후보 영역을 검출하고, 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우에 기초하여 후보 영역 내 얼굴 영역을 검출할 수 있다. 일실시예에 따른 얼굴 검출 방법은 타겟 영상에 기초하여 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성하고, 제1 영상들에 기초하여, 제1 얼굴 영역을 검출하고, 제2 영상들에 기초하여, 제2 얼굴 영역을 검출하며, 제1 얼굴 영역 및 제2 얼굴 영역에 기초하여, 타겟 영상 내 얼굴 영역을 검출할 수 있다.

Description

얼굴 검출 방법 및 장치{FACE DETECTING METHOD AND APPARATUS}

아래 실시예들은 영상 처리 기술에 관한 것이고, 구체적으로 얼굴을 검출하는 방법 및 장치에 관한 것이다.

영상을 촬영할 때의 상황과 조건은 다양할 수 있으므로, 촬영된 영상 내의 얼굴은 서로 다른 자세와 크기로 표시될 수 있다. 이러한 영상으로부터 얼굴을 검출하기 위해서, 복수의 자세들 및 복수의 크기들의 얼굴들을 검출할 필요가 있다.

영상으로부터 얼굴을 검출하기 위한 방법으로, 슬라이딩 윈도우를 이용하는 기법과 영상 피라미드를 이용하는 기법이 있다. 슬라이딩 윈도우는 영상을 스캔하는데 이용되는데, 슬라이딩 윈도우의 스캔 횟수는 검출 속도 등의 성능과 관련이 있다. 또한, 영상 피라미드는 서로 다른 크기의 영상들을 포함하는데, 얼굴을 검출하는데 필요한 영상들의 수도 검출 속도 등의 성능과 관련이 있다.

일실시예에 따른 얼굴 검출 방법은 얼굴을 검출하기 위한 타겟 영상을 획득하는 단계; 제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우를 이용하여 상기 타겟 영상을 스캔하는 단계; 상기 제1 슬라이딩 윈도우에 의해 스캔된 제1 스캔 영상들에 기초하여, 상기 타겟 영상 내 얼굴의 후보 영역을 검출하는 단계; 상기 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우를 이용하여 상기 후보 영역을 스캔하는 단계; 및 상기 제2 슬라이딩 윈도우에 의해 스캔된 제2 스캔 영상들에 기초하여, 상기 후보 영역 내 얼굴 영역을 검출하는 단계를 포함한다.

일실시예에 따른 상기 후보 영역을 검출하는 단계는 제1 스캔 영상으로부터 제1 특징을 추출하는 단계; 상기 제1 스캔 영상을 식별하는 약 분류기들(weak classifiers)로 상기 제1 특징을 입력하는 단계; 상기 약 분류기들로부터 획득된 점수들을 누적시켜 제1 누적 점수를 생성하는 단계; 상기 제1 누적 점수가 제1 범위에 포함되는지 여부에 기초하여, 상기 제1 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별하는 단계; 및 상기 식별 결과에 기초하여, 상기 후보 영역을 검출하는 단계를 포함한다.

일실시예에 따른 상기 얼굴 영역을 검출하는 단계는 제2 스캔 영상으로부터 제2 특징을 추출하는 단계; 상기 제2 스캔 영상을 식별하는 약 분류기들로 상기 제2 특징을 입력하는 단계; 상기 약 분류기들로부터 획득된 점수들을 누적시켜 제2 누적 점수를 생성하는 단계; 상기 제2 누적 점수가 제2 범위에 포함되는지 여부에 기초하여, 상기 제2 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별하는 단계; 및 상기 식별 결과에 기초하여, 상기 얼굴 영역을 검출하는 단계를 포함하고, 상기 제1 범위는 상기 제2 범위보다 넓을 수 있다.

일실시예에 따르면, 상기 제1 특징은 MB-LBP(Mult-scale Block Local Binary Pattern)의 특징이고, 약 분류기는 상기 MB-LBP의 특징에 기초하여 점수를 생성하고, 상기 생성된 점수에 기초하여 상기 제1 스캔 영상이 얼굴에 대응하는지 여부를 식별하며, 상기 제1 스캔 영상이 얼굴이면 상기 MB-LBP의 특징을 다음 순서의 약 분류기로 입력할 수 있다.

일실시예에 따르면, 상기 제1 범위는 제1 임계값 및 제2 임계값에 기초하여 생성되고, 약 분류기는 상기 제1 임계값 보다 큰 점수를 생성하면, 상기 제1 스캔 영상이 얼굴에 대응하는 것으로 판단하고, 상기 제2 임계값 보다 작은 점수를 생성하면, 상기 제1 스캔 영상이 배경에 대응하는 것으로 판단할 수 있다.

일실시예에 따른 상기 얼굴 검출 방법은 각 픽셀들의 값이 제1 유형의 값으로 표현된 상기 타겟 영상으로부터 상기 얼굴 영역을 검출하는 데 실패한 경우, 상기 각 픽셀들의 값이 제2 유형의 값으로 표현된 상기 타겟 영상으로부터 상기 얼굴 영역을 검출하는 단계를 더 포함한다.

일실시예에 따르면, 상기 제1 유형 및 상기 제2 유형 중 적어도 하나는 밝기(luma) 및 적색(Red) 중 적어도 하나를 포함한다.

일실시예에 따른 얼굴 검출 방법은 얼굴을 검출하기 위한 타겟 영상을 획득하는 단계; 상기 타겟 영상에 기초하여, 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성하는 단계; 상기 제1 영상들에 기초하여, 제1 얼굴 영역을 검출하는 단계; 상기 제2 영상들에 기초하여, 제2 얼굴 영역을 검출하는 단계; 및 상기 제1 얼굴 영역 및 상기 제2 얼굴 영역에 기초하여, 상기 타겟 영상 내 얼굴 영역을 검출하는 단계를 포함한다.

일실시예에 따른 상기 제1 얼굴 영역을 검출하는 단계는 제1 영상 크기의 영상으로부터 제1 얼굴 크기의 얼굴을 검출하는 작은 얼굴 검출기를 이용하여, 상기 제1 얼굴 영역을 검출하는 단계를 포함하고, 상기 제2 얼굴 영역을 검출하는 단계는 제2 영상 크기의 영상으로부터 제2 얼굴 크기의 얼굴을 검출하는 표준 얼굴 검출기를 이용하여, 상기 제2 얼굴 영역을 검출하는 단계를 포함한다.

일실시예에 따르면, 상기 제1 영상 크기의 영상 중에서 상기 제1 얼굴 크기의 얼굴이 차지하는 비율은 상기 제2 영상 크기의 영상 중에서 상기 제2 얼굴 크기의 얼굴이 차지하는 비율보다 작을 수 있다.

일실시예에 따른 상기 얼굴 검출 방법은 검출하고자 하는 타겟 얼굴의 크기, 상기 제1 영상 크기 및 상기 타겟 영상의 크기에 기초하여 상기 제1 스케일 구간을 결정하는 단계; 및 상기 타겟 얼굴의 크기, 상기 제2 영상 크기 및 상기 타겟 영상의 크기에 기초하여, 상기 제2 스케일 구간을 결정하는 단계를 더 포함한다.

일실시예에 따른 상기 제1 얼굴 영역을 검출하는 단계는 제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우를 이용하여 제1 영상을 스캔하는 단계; 상기 제1 슬라이딩 윈도우에 의해 스캔된 제1 스캔 영상들에 기초하여, 상기 제1 영상 내 얼굴의 후보 영역을 검출하는 단계; 상기 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우를 이용하여 상기 후보 영역을 스캔하는 단계; 상기 제2 슬라이딩 윈도우에 의해 스캔된 제2 스캔 영상들에 기초하여, 상기 후보 영역 내 얼굴 영역을 검출하는 단계; 및 상기 후보 영역 내 얼굴 영역에 기초하여, 상기 제1 얼굴 영역을 검출하는 단계를 포함한다.

일실시예에 따른 상기 얼굴 영역을 검출하는 단계는 상기 제1 얼굴 영역이 검출된 영상의 스케일; 상기 제1 얼굴 영역의 좌표; 상기 제2 얼굴 영역이 검출된 영상의 스케일; 및 상기 제2 얼굴 영역의 좌표에 기초하여, 상기 타겟 영상 내 얼굴의 위치 및 크기를 계산하는 단계를 포함한다.

일실시예에 따른 상기 얼굴 검출 방법은 상기 검출된 얼굴 영역이 두 개의 얼굴 영역을 포함하는지 여부를 판단하는 단계; 상기 두 개의 얼굴 영역이 겹치는 영역 및 상기 두 개의 얼굴 영역을 합친 영역 간의 비에 기초하여, 상기 두 개의 얼굴 영역이 서로 겹치는지 여부를 판단하는 단계; 및 상기 서로 겹치는 두 개의 얼굴 영역 중 어느 하나를 제거하는 단계를 더 포함한다.

일실시예에 따른 얼굴 검출 장치는 얼굴을 검출하기 위한 타겟 영상을 획득하고, 상기 타겟 영상에 기초하여, 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성하는 영상 피라미드 생성부; 상기 제1 영상들에 기초하여, 제1 얼굴 영역을 검출하는 작은 얼굴 검출기; 상기 제2 영상들에 기초하여, 제2 얼굴 영역을 검출하는 표준 얼굴 검출기; 및 상기 제1 얼굴 영역 및 상기 제2 얼굴 영역에 기초하여, 상기 타겟 영상 내 얼굴 영역을 검출하는 얼굴 영역 검출부를 포함한다.

일실시예에 따르면, 상기 작은 얼굴 검출기는 제1 영상 크기의 영상으로부터 제1 얼굴 크기의 얼굴을 검출하고, 상기 표준 얼굴 검출기는 제2 영상 크기의 영상으로부터 제2 얼굴 크기의 얼굴을 검출할 수 있다.

일실시예에 따른 상기 작은 얼굴 검출기는 제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우를 이용하여 제1 영상을 스캔하고, 상기 제1 슬라이딩 윈도우에 의해 스캔된 제1 스캔 영상들에 기초하여, 상기 제1 영상 내 얼굴의 후보 영역을 검출하는 거친 검출기(coarse detector); 및 상기 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우를 이용하여 상기 후보 영역을 스캔하고, 상기 제2 슬라이딩 윈도우에 의해 스캔된 제2 스캔 영상들에 기초하여, 상기 후보 영역 내 얼굴 영역을 검출하는 정밀 검출기(fine detector)를 포함한다.

일실시예에 따른 상기 거친 검출기는 약 분류기들을 포함하는 강 분류기를 포함하고, 상기 강 분류기는 제1 스캔 영상으로부터 제1 특징을 추출하고, 상기 제1 스캔 영상을 식별하는 상기 약 분류기들로 상기 제1 특징을 입력하고, 상기 약 분류기들로부터 획득된 점수들을 누적시켜 제1 누적 점수를 생성하며, 상기 제1 누적 점수가 제1 범위에 포함되는지 여부에 기초하여, 상기 제1 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별하고, 상기 식별 결과에 기초하여, 상기 후보 영역을 검출할 수 있다.

도 1은 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.
도 2는 슬라이딩 윈도우를 이용한 검출 기법을 설명하기 위한 도면이다.
도 3은 일실시예에 따른 거친 스캔 및 정밀 스캔을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.
도 5는 영상 피라미드를 이용한 검출 기법을 설명하기 위한 도면이다.
도 6은 일실시예에 따른 영상 피라미드의 스케일 구간을 설명하기 위한 도면이다.
도 7은 일실시예에 따른 템플렛 영상을 설명하기 위한 도면이다.
도 8은 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.
도 9는 MB-LBP의 특징을 설명하기 위한 도면이다.
도 10은 일실시예에 따른 분류기를 설명하기 위한 도면이다.
도 11은 일실시예에 따른 거친 검출기의 동작을 설명하는 순서도이다.
도 12는 일실시예에 따른 정밀 검출기의 동작을 설명하는 순서도이다.
도 13은 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.
도 14는 일실시예에 따른 얼굴 검출 장치를 설명하는 도면이다.
도 15는 일실시예에 따라서 검출된 얼굴 영역의 예시도이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 예를 들어, 실시예들은 스마트 폰, 모바일 기기, 스마트 홈 시스템 등에서 사용자를 인식하는데 적용될 수 있다. 실시예들은 사용자 인식을 통한 결제 서비스에 적용될 수 있다. 또한, 실시예들은 사용자를 인식하여 자동으로 시동을 거는 지능형 자동차 시스템 등에도 적용될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

Coarse-to-Fine Detection 기법의 실시예

도 1은 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.

일실시예에 따르면, 얼굴 검출 장치는 얼굴을 검출하기 위한 타겟 영상을 획득할 수 있다(101). 얼굴 검출 장치는 영상으로부터 얼굴을 검출하는 장치로서, 예를 들어 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다. 타겟 영상은 얼굴을 검출하고자 하는 영상으로서, 얼굴 검출 장치에 의한 얼굴 검출의 타겟이 되는 영상이다.

얼굴을 검출하기 위한 방법으로, Adaboost 알고리즘이 이용될 수 있다. Adaboost 알고리즘에 기초하여, 검출기는 복수의 특징들 및 복수의 약 분류기들 중에서 얼굴 검출의 정확도가 높은 약 분류기들 및 특징들을 선택하고, 얼굴 검출을 위한 최적의 임계값을 결정하는 방식으로 학습될 수 있다. 선택된 약 분류기들 및 특징에 기반하여, 강 분류기가 학습될 수 있고, 학습된 강 분류기를 이용하여 검출기가 구현될 수 있다. 얼굴을 검출하기 위해 슬라이딩 윈도우가 이용될 수 있다. 도 2를 참조하면, 슬라이딩 윈도우는 영상을 스캔하고, 슬라이딩 윈도우에 의해 스캔된 영상은 검출기에 의해 얼굴 또는 배경인지 여부가 판별될 수 있다. 예를 들어, 슬라이딩 윈도우에 의해 스캔된 영상으로부터 추출된 특징이 미리 정의된 임계값의 조건을 충족하는 경우, 검출기는 그 스캔된 영상을 얼굴로 판별할 수 있다.

다양한 유형의 자세의 얼굴을 검출하기 위해, 서로 다른 자세의 얼굴들에 대응하는 복수의 검출기들이 스캔된 영상을 판별할 수 있다. 이러한 복수의 검출기들을 이용하는 경우, 단일 검출기만으로 얼굴을 검출할 때보다 더 높은 정확도의 검출률이 획득될 수 있지만, 스캔된 영상들의 수가 늘어남에 따라 검출 속도가 떨어질 수 있다.

슬라이딩 윈도우는 일정한 스텝 길이를 간격으로 이동하면서 영상을 스캔하고, 검출기는 슬라이딩 윈도우에 의해 스캔된 영상들에 기초하여 얼굴을 검출한다. 여기서, 슬라이딩 윈도우의 스텝 길이는 검출의 정확도와 관련이 있다. 스텝 길이가 비교적 큰 경우에는, 슬라이딩 윈도우가 영상 내 얼굴 전체를 스캔하지 못하는 경우가 있을 수 있으므로 검출의 정확도가 비교적 낮을 수 있다. 스텝 길이가 비교적 작은 경우에는, 검출의 정확도는 비교적 높을 수 있지만, 검출기에 입력되는 스캔 영상들의 수가 커지게 된다. 얼굴의 위치와 크기를 보다 정확하게 추정하기 위해, 슬라이딩 윈도우의 스텝 길이 중에서 비교적 작은 스텝 길이가 채용될 수 있다. 이 경우, 작은 스텝 길이로 인해, 높은 밀도의 스캔 영상들을 처리하는 검출기는 검출 속도의 성능에 제약이 있을 수 있다. 또한, 다양한 자세에 대응하는 검출기와 다양한 크기에 대응하는 검출기가 채용되면, 얼굴을 검출하기 위한 슬라이딩 윈도우의 스캔 횟수 및 스캔 영상의 수는 검출 속도에 영향을 줄 수 있다. 즉, 스텝 길이의 설정은 검출 속도 측면의 성능에 영향을 주게 된다.

일실시예에 따른 얼굴 검출 장치는 제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우를 이용하여 타겟 영상을 스캔할 수 있다(102). 일실시예에 따른 얼굴 검출 장치는 서로 다른 두 가지 유형의 스텝 길이를 채용하고, 타겟 영상으로부터 얼굴을 검출할 수 있다.

얼굴 검출 장치는 제1 슬라이딩 윈도우에 의해 스캔된 제1 스캔 영상들에 기초하여, 타겟 영상 내 얼굴의 후보 영역을 검출할 수 있다(103). 얼굴 검출 장치는 제1 스캔 영상들이 얼굴 또는 배경인지 여부를 판별하여 후보 영역을 검출할 수 있는데, 여기서 후보 영역을 검출하는 과정을 거친 검출(Course Detecting)이라 지칭할 수 있다. 또한, 제1 스텝 길이의 제1 슬라이딩 윈도우에 의해 타겟 영상이 스캔되는 과정을 거친 스캔(Course Scan)이라 지칭할 수 있다. 후술하겠지만, 거친 검출 과정에서 검출되는 후보 영역은 얼굴을 포함하지만, 얼굴 주변의 배경도 포함할 수 있다.

얼굴 검출 장치는 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우를 이용하여 후보 영역을 스캔할 수 있다(104). 여기서, 제2 슬라이딩 윈도우의 크기는 제1 슬라이딩 윈도우의 크기와 같게 정의될 수 있지만, 이에 한정되는 것은 아니고 설정에 따라 다양하게 변형되거나 응용될 수 있다.

얼굴 검출 장치는 제2 슬라이딩 윈도우에 의해 스캔된 제2 스캔 영상들에 기초하여, 후보 영역 내 얼굴 영역을 검출할 수 있다(105). 여기서, 기 검출된 후보 영역으로부터 얼굴 영역을 검출하는 과정을 정밀 검출(Fine Detecting)이라 지칭할 수 있다. 또한, 제1 스텝 길이보다 작은 제2 스텝 길이의 제2 슬라이딩 윈도우에 의해 후보 영역이 스캔되는 과정을 정밀 스캔(Fine Scan)이라 지칭할 수 있다.

제2 스텝 길이는 제1 스텝 길이보다 작기 때문에, 제2 슬라이딩 윈도우는 제1 슬라이딩 윈도우보다 짧은 간격으로 이동하지만, 제2 슬라이딩 윈도우는 후보 영역만을 스캔하므로, 제2 스캔 영상들의 수는 제1 스캔 영상들의 수보다 작을 수 있다. 얼굴 검출 장치는 제2 스캔 영상들이 얼굴 또는 배경인지 여부를 판별하여 후보 영역 내의 얼굴 영역을 검출할 수 있다.

얼굴 검출 장치는, 제1 스캔 영상들을 식별할 때의 검출 정확도보다 제2 스캔 영상들을 식별할 때의 검출 정확도가 더 높도록 설계될 수 있다. 예를 들어, 제1 스캔 영상이 얼굴 또는 배경인지 여부를 판별할 때 기준이 되는 조건보다 제2 스캔 영상이 얼굴 또는 배경인지 여부를 판별할 때 기준이 되는 조건이 더 엄격할 수 있다. 얼굴 검출 장치는 제2 스캔 영상들을 이용하여, 후보 영역으로부터 배경을 제거하여 얼굴 영역을 검출할 수 있다. 예를 들면, 얼굴 검출 장치는 거친 스캔을 통해 타겟 영상으로부터 얼굴과 그 얼굴의 주변 배경이 포함된 후보 영역을 검출하고, 정밀 스캔을 통해 후보 영역에서 배경이 제거된 얼굴 영역을 후보 영역으로부터 검출할 수 있다. 얼굴 검출 장치는 정밀 스캔에서 채용되는 제2 스텝 길이를 간격으로 스캔을 수행하기 때문에, 검출 정확도를 높일 수 있다. 또한, 얼굴 검출 장치는 후보 영역을 대상으로 정밀 스캔을 수행하기 때문에 스캔의 횟수를 줄여 검출 속도의 성능도 향상시킬 수 있다.

도 3은 일실시예에 따른 거친 스캔 및 정밀 스캔을 설명하기 위한 도면이다.

도 3을 참조하면, 얼굴 검출 장치는 거친 검출을 통해 타겟 영상으로부터 후보 영역(303)을 검출할 수 있는데, 여기서 얼굴 검출 장치는 제1 슬라이딩 윈도우(302)를 제1 스텝 길이(301)의 간격으로 이동시키면서 타겟 영상의 거친 스캔을 수행할 수 있다. 상술한 바와 같이, 제1 스텝 길이(301)는 정밀 스캔에서 채용되는 제2 스텝 길이(304)보다 클 수 있는데, 예를 들면 제1 스텝 길이(301)는 4 픽셀로 정의되고, 제2 스텝 길이(304)는 2 픽셀로 정의될 수 있다. 제1 슬라이딩 윈도우(302)를 이용하여 후보 영역(303)을 검출하는 모듈을 거친 검출기(Coarse Detector)로 지칭하고, 제2 슬라이딩 윈도우(305)를 이용하여 얼굴 영역을 검출하는 모듈을 정밀 검출기(Fine Detector)로 지칭할 수 있다. 얼굴 검출 장치는 거친 검출기 및 정밀 검출기를 포함하고, 여기서, 거친 검출기 및 정밀 검출기는 하드웨어 모듈, 소프트웨어 모듈 또는 이들의 다양한 조합으로 구현될 수 있다. 또한, 거친 검출기 및 정밀 검출기는 얼굴을 검출하기 위한 독립된 형태의 검출기로 채용될 수 있으므로, 얼굴 검출 장치는 거친 검출기 및 정밀 검출기 중 어느 하나만을 이용하여 얼굴을 검출할 수 있다.

거친 검출기는 제1 슬라이딩 윈도우(302)에 의해 스캔된 제1 스캔 영상들을 임계값을 기준으로 분류할 수 있다. 여기서, 임계값은 얼굴을 포함하는지 여부와 연관되어 정의될 수 있다. 거친 검출기는 얼굴에 대응하는 영상들로 분류된 스캔 영상들에 기초하여, 얼굴이 포함된 영역의 좌표와 크기를 기록하고, 기록 결과를 이용하여 후보 영역(303)을 결정할 수 있다.

도 3을 참조하면, 얼굴 검출 장치는 정밀 검출을 통해 후보 영역(303)으로부터 얼굴 영역을 검출할 수 있다. 얼굴 검출 장치의 정밀 검출기는 거친 검출기로부터 출력된 후보 영역(303)을 수신할 수 있다. 정밀 검출기는 제2 슬라이딩 윈도우(305)를 제1 스텝 길이(301) 보다 작은 제2 스텝 길이(304)의 간격으로 이동시키면서 후보 영역의 정밀 스캔을 수행할 수 있다. 즉, 거친 검출기에 의해 검출된 후보 영역(303)은 정밀 검출기에 의해 스캔되는 영역이다.

정밀 검출기는 제2 슬라이딩 윈도우(305)에 의해 스캔된 제2 스캔 영상들을 임계값을 기준으로 분류할 수 있다. 여기서, 임계값은 얼굴을 포함하는지 여부와 연관되어 정의될 수 있는데, 거친 검출에서 사용되는 임계값보다 얼굴의 검출 정확도가 더 높게 설정될 수 있다. 일실시예에 따르면, 제1 슬라이딩 윈도우(302)의 크기와 제2 슬라이딩 윈도우(305)의 크기는 같을 수 있지만, 이에 한정되지 않고 설정 조건에 따라 서로 다른 크기가 채용될 수도 있다.

작은 얼굴 검출기 기반 영상 피라미드 기법의 실시예

도 4는 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.

얼굴 검출 장치는 얼굴을 검출하기 위한 타겟 영상을 획득할 수 있다(401). 다양한 크기와 자세의 얼굴을 검출하기 위해, 영상 피라미드를 채용한 방법이 이용될 수 있다. 얼굴을 검출하고자 하는 영상을 미리 정의된 스케일에 따라 확대 또는 축소하여, 서로 다른 크기의 영상들이 획득될 수 있다. 도 5를 참조하면, 획득된 영상들을 작은 영상부터 큰 영상의 종 방향으로 배열하면, 밑 부분의 영상이 가장 크고 윗 부분의 영상이 가장 작은 영상 피라미드가 구축될 수 있다.

영상 피라미드에 포함된 서로 다른 크기의 영상들은 영상의 크기에 따라 서로 다른 크기의 얼굴들을 포함하는데, 검출기는 모든 크기의 영상으로부터 얼굴을 검출할 수 있다. 예를 들어, 검출기는 도 2를 참조하여 설명한 슬라이딩 윈도우를 이용하여 영상 피라미드에 포함된 영상들을 스캔하고, 스캔된 영상들에 기초하여 얼굴을 검출할 수 있다. 영상 피라미드를 이용한 기법을 채용하는 경우, 피라미드의 각 층의 영상들은 슬라이딩 윈도우에 의해 스캔되고, 스캔된 영상들은 동일한 검출기에 의해 식별될 수 있다. 예를 들면, 특정 크기의 템플렛 영상으로부터 특정 크기의 얼굴을 검출하도록 학습된 검출기는 스캔된 영상들 중에서 템플렛 영상에 매칭되는 영상으로부터 얼굴을 검출할 수 있다.

예를 들면, 템플렛 영상의 크기와 템플렛 영상 내의 얼굴의 크기는 미리 정의되어 고정된 것일 수 있다. 만약 비교적 작은 크기의 얼굴을 검출하는 것이 요구되면, 템플렛 영상의 크기에 따라 슬라이딩 윈도우는 피라미드의 밑 부분의 영상(크기가 비교적 큰 영상)을 스캔해야 할 수 있다. 이 경우, 검출기는 밑 부분의 영상을 스캔한 결과를 이용하여 작은 크기의 얼굴을 검출할 수 있다. 여기서, 영상 피라미드의 저 층의 영상(밑 부분의 영상)은 원래의 입력 영상 또는 입력 영상을 확대하여 획득한 영상일 수 있고, 작은 얼굴을 검출하기 위해 스캔되는 저 층의 영상의 크기는 검출기의 템플렛 영상의 크기와 비교하여 상대적으로 클 수 있으며, 상대적으로 크기가 큰 저 층의 영상으로 인해 스캔의 속도가 느려질 수 있다. 즉, 검출기의 템플렛 영상의 크기의 제약으로 인해, 비교적 작은 크기의 얼굴을 검출할 때 검출 속도가 느려질 수 있다. 또한, 영상 피라미드 내의 모든 크기의 영상들을 스캔하는 검출기는 슬라이딩 윈도우의 스캔 횟수와 스캔된 영상들의 수가 커짐에 따라 검출 속도의 성능이 떨어질 수 있다.

일실시예에 따른 얼굴 검출 장치는 작은 얼굴 검출기와 표준 얼굴 검출기를 이용하여, 영상 피라미드에 포함된 영상들로부터 얼굴을 검출할 수 있는데, 작은 얼굴 검출기 및 표준 얼굴 검출기는 각각의 스케일 구간의 영상들의 스캔을 수행하므로, 효율적으로 영상을 스캔하면서 얼굴 검출의 정확도를 높일 수 있다. 얼굴 검출 장치는 작은 얼굴 검출기 및 표준 얼굴 검출기를 포함하고, 여기서, 작은 얼굴 검출기 및 표준 얼굴 검출기는 하드웨어 모듈, 소프트웨어 모듈 또는 이들의 다양한 조합으로 구현될 수 있다. 또한, 작은 얼굴 검출기 및 표준 얼굴 검출기는 얼굴을 검출하기 위한 독립된 형태의 검출기로 채용될 수 있으므로, 얼굴 검출 장치는 작은 얼굴 검출기 및 표준 얼굴 검출기 중 어느 하나만을 이용하여 얼굴을 검출할 수 있다.

얼굴 검출 장치는 타겟 영상에 기초하여, 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성할 수 있다(402). 도 6을 참조하면, 제1 스케일 구간의 제1 영상들은 작은 얼굴 검출기에 의해 스캔되는 영상들이고, 제2 스케일 구간의 제2 영상들은 표준 얼굴 검출기에 의해 스캔되는 영상들이다. 작은 얼굴 검출기는 제1 영상 크기의 영상으로부터 제1 얼굴 크기의 얼굴을 검출하도록 학습될 수 있다. 표준 얼굴 검출기는 제2 영상 크기의 영상으로부터 제2 얼굴 크기의 얼굴을 검출하도록 학습될 수 있다.

예를 들어, 제1 영상 크기의 영상 중에서 제1 얼굴 크기의 얼굴이 차지하는 비율은 제2 영상 크기의 영상 중에서 상기 제2 얼굴 크기의 얼굴이 차지하는 비율보다 작을 수 있다. 작은 얼굴 검출기 및 표준 얼굴 검출기는 특정 크기의 템플렛 영상으로부터 특정 크기의 얼굴을 검출하도록 학습될 수 있다. 도 7을 참조하면, 표준 얼굴 검출기의 템플렛 영상 중에서 얼굴이 차지하는 비율은 작은 얼굴 검출기의 템플렛 영상 중에서 얼굴이 차지하는 비율보다 클 수 있다. 다시 말해, 작은 얼굴 검출기는 표준 얼굴 검출기에 비해, 얼굴을 제외한 배경이 상대적으로 더 많이 포함된 영상으로부터 얼굴을 검출할 수 있다.

얼굴 검출 장치는 타겟 영상을 확대 또는 축소하여 스케일링하는 방식으로 제1 영상들 및 제2 영상들을 생성하고, 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들로 구성된 영상 피라미드를 생성할 수 있다. 제1 스케일 구간 및 제2 스케일 구간은 서로 겹치는 스케일 구간을 포함할 수 있지만, 이에 제한되지 않고 서로 떨어진 구간일 수 있다. 얼굴 검출 장치는 작은 얼굴 검출기 및 표준 얼굴 검출기 각각에 의해 스캔되는 제1 영상들 및 제2 영상들만을 생성하여 영상 피라미드를 구현할 수 있다. 예를 들면, 얼굴 검출 장치는 검출하고자 하는 타겟 얼굴의 크기, 작은 얼굴 검출기에 대응하는 제1 영상 크기 및 타겟 영상의 크기에 기초하여 제1 스케일 구간을 결정할 수 있다. 또한, 얼굴 검출 장치는 검출하고자 하는 타겟 얼굴의 크기, 표준 얼굴 검출기에 대응하는 제2 영상 크기 및 타겟 영상의 크기에 기초하여, 제2 스케일 구간을 결정할 수 있다. 얼굴 검출 장치는 결정된 제1 스케일 구간에 기초하여, 제1 스케일 구간에 포함된 복수의 층들의 제1 영상들을 타겟 영상의 스케일링을 통해 생성할 수 있고, 결정된 제2 스케일 구간에 기초하여, 제2 스케일 구간에 포함된 복수의 층들의 제2 영상들을 타겟 영상의 스케일링을 통해 생성할 수 있다. 여기서, 타겟 영상의 스케일링은 타겟 영상을 특정 스케일에 따라 확대 또는 축소하는 동작을 의미하고, 예를 들어 타겟 영상의 픽셀 수를 일정한 비율에 따라 확대 또는 축소하는 동작을 포함한다.

얼굴 검출 장치는 영상 피라미드를 생성할 때, 작은 얼굴 검출기 및 표준 얼굴 검출기의 사양을 고려하여, 타겟 영상을 스케일링할 수 있다. 이 경우, 얼굴 검출 장치는 스캔이 필요한 층들의 영상들만 생성할 수 있기 때문에, 보다 효율적으로 영상 피라미드를 구현할 수 있다. 예를 들면, 제1 스케일 구간 및 제2 스케일 구간에 기초하여, 영상 피라미드의 층 수와 각 층의 영상 크기를 결정할 수 있다. 필요한 층들의 영상들만 생성하는 방식을 통해, 얼굴 검출 장치는 일반적인 영상 피라미드보다 층 수가 작은 영상 피라미드를 생성할 수 있다.

또는, 얼굴 검출 장치는 미리 정의된 비율들로 타겟 영상을 스케일링하여 복수의 크기의 영상들을 생성하고, 복수의 크기의 영상들을 포함하는 영상 피라미드 중에서 제1 스케일 구간 및 제2 스케일 구간을 결정할 수 있다. 이 경우, 영상 피라미드는 작은 얼굴 검출기 또는 표준 얼굴 검출기의 스캔이 필요하지 않은 층들의 영상들을 포함할 수 있다.

얼굴 검출 장치는 제1 영상들에 기초하여, 제1 얼굴 영역을 검출할 수 있다(403). 얼굴 검출 장치의 작은 얼굴 검출기는 슬라이딩 윈도우를 이용하여 제1 영상들을 스캔할 수 있고, 스캔된 영상들로부터 제1 얼굴 영역을 검출할 수 있다. 예를 들면, 작은 얼굴 검출기는 제1 영상 크기의 슬라이딩 윈도우를 이용하여 제1 영상들을 스캔할 수 있다. 또는, 작은 얼굴 검출기는 상술한 Coarse-to-Fine Detection 기법을 이용하여 제1 얼굴 영역을 검출할 수 있다. 즉, 거친 검출기 및 정밀 검출기를 포함하는 작은 얼굴 검출기는 거친 검출을 통해 제1 영상들로부터 후보 영역을 검출하고, 정밀 검출을 통해 후보 영역으로부터 제1 얼굴 영역을 검출할 수 있다. 여기서, 거친 검출기 및 정밀 검출기가 이용하는 슬라이딩 윈도우의 크기는 제1 영상 크기와 같게 설정될 수 있다. 다만, 슬라이딩 윈도우의 크기의 실시예는 이에 제한되지 않고 다양하게 응용되거나 변형될 수 있다.

얼굴 검출 장치는 제2 영상들에 기초하여, 제2 얼굴 영역을 검출할 수 있다(404). 얼굴 검출 장치의 표준 얼굴 검출기는 슬라이딩 윈도우를 이용하여 제2 영상들을 스캔할 수 있고, 스캔된 영상들로부터 제2 얼굴 영역을 검출할 수 있다. 예를 들면, 표준 얼굴 검출기는 제2 영상 크기의 슬라이딩 윈도우를 이용하여 제2 영상들을 스캔할 수 있다. 또는, 표준 얼굴 검출기는 상술한 Coarse-to-Fine Detection 기법을 이용하여 제2 얼굴 영역을 검출할 수 있는데, 403을 참조하여 기술된 내용이 적용될 수 있다.

얼굴 검출 장치는 제1 얼굴 영역 및 제2 얼굴 영역에 기초하여, 타겟 영상 내 얼굴 영역을 검출할 수 있다(405). 얼굴 검출 장치는 제1 얼굴 영역 및 제2 얼굴 영역을 결합하여, 원래의 타겟 영상으로부터 얼굴 영역을 검출할 수 있다. 예를 들어, 얼굴 검출 장치는 제1 얼굴 영역이 검출된 영상의 스케일; 제1 얼굴 영역이 검출된 영상 내의 제1 얼굴 영역의 좌표 및 크기; 제2 얼굴 영역이 검출된 영상의 스케일; 및 제2 얼굴 영역이 검출된 영상 내의 제2 얼굴 영역의 좌표 및 크기에 기초하여, 타겟 영상 내 얼굴의 위치 및 크기를 계산할 수 있다. 얼굴 검출 장치는 계산된 얼굴의 위치 및 크기에 기초하여 타겟 영상으로부터 얼굴 영역을 검출할 수 있다.

일실시예에 따르면, 작은 얼굴 검출기를 학습시키는데 이용된 샘플 영상의 크기는 표준 얼굴 검출기를 학습시키는데 이용된 샘플 영상의 크기보다 작을 수 있다. 여기서, 표준 얼굴 검출기는 일반적인 영상 피라미드 기법에 활용되는 검출기를 채용할 수 있다. 학습 시 이용되는 샘플 영상의 크기로 인해, 작은 얼굴 검출기의 템플렛 영상의 크기는 표준 얼굴 검출기의 템플렛 영상의 크기보다 작을 수 있다. 이 경우, 작은 얼굴 검출기는 크기가 작은 얼굴을 검출하기 위해, 영상 피라미드의 높은 층의(영상 크기가 작은) 영상들을 대상으로 얼굴을 검출할 수 있다. 따라서, 작은 얼굴 검출기의 채용으로 인해, 영상 피라미드의 낮은 층의(영상 크기가 큰) 영상들을 스캔하는 것을 피할 수 있다. 다만, 작은 얼굴 검출기는 스캔된 영상의 대부분이 얼굴인 영상들로부터 얼굴을 검출하는데 제약이 있으므로, 타겟 영상의 비교적 큰 얼굴을 검출하는데 있어서 표준 얼굴 검출기보다 검출률이 낮을 수 있다. 따라서, 표준 얼굴 검출기는 작은 얼굴 검출기의 제약을 보완하기 위해, 영상 피라미드의 영상들을 스캔하여 작은 얼굴 검출기가 취약한 비교적 큰 얼굴을 검출할 수 있다. 얼굴 검출 장치는 슬라이딩 윈도우의 스캔 횟수와 스캔 영상들의 수를 줄여 검출 속도를 향상시킬 수 있고, 상호 보완적인 작은 얼굴 검출기 및 표준 얼굴 검출기를 채용하여 높은 수준의 검출의 정확도도 보장할 수 있다.

작은 얼굴 검출기 기반 영상 피라미드 기법과 Coarse-to-Fine Detection 기법을 조합한 실시예

도 8은 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.

얼굴 검출 장치는 얼굴을 검출하기 위한 타겟 영상을 획득할 수 있다(801). 일실시예에 따르면, 얼굴 검출 장치에 포함된 표준 얼굴 검출기 및 작은 얼굴 검출기는 각각 거친 검출기 및 정밀 검출기를 포함할 수 있다.

얼굴 검출 장치는 타겟 영상에 기초하여, 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성할 수 있다(802). 여기서, 영상 피라미드는 상술한 작은 얼굴 검출기 기반 영상 피라미드 기법이 적용될 수 있다. 예를 들어, 타겟 영상의 해상도가 1024*1024 픽셀이면, 일반적인 영상 피라미드의 최저층(제1 층)은 1024*1024 픽셀의 타겟 영상이고, 제2 층, 제3 층 및 제4 층은 타겟 영상을 스케일링하여 획득한 512*512, 256*256 및 128*128 픽셀의 해상도를 갖는 영상들일 수 있다. 이 경우, 일실시예에 따른 얼굴 검출 장치는 타겟 얼굴의 크기(예를 들어, 검출하고자 하는 16*16 픽셀 이상의 얼굴의 크기), 제1 영상 크기, 제2 영상 크기 및 타겟 영상의 크기 중 적어도 하나에 기초하여, 상술한 512*512 픽셀의 제2 층의 생성을 생략할 수 있다. 또한, 일반적인 영상 피라미드의 최저층은 타겟 영상을 확대한 영상일 수 있는데, 일실시예에 따른 얼굴 검출 장치는 타겟 얼굴의 크기, 제1 영상 크기, 제2 영상 크기 및 타겟 영상의 크기 중 적어도 하나에 기초하여, 최저층이 타겟 영상인 영상 피라미드를 생성할 수 있다. 일실시예에 따르면, 영상 얼굴 검출기가 생성하는 영상 피라미드의 최상층의 영상의 크기는 작은 얼굴 검출기의 템플렛 영상의 크기 또는 표준 얼굴 검출기의 템플렛 영상의 크기와 같을 수 있다.

얼굴 검출 장치는 작은 얼굴 검출기에 포함된 거친 검출기를 이용하여, 제1 영상 내 얼굴의 후보 영역을 검출할 수 있다(803). 여기서, 제1 영상은 제1 영상들 중 어느 하나일 수 있다. 작은 얼굴 검출기에 포함된 거친 검출기는 제1 스케일 구간의 제1 영상들로부터 얼굴의 후보 영역을 검출하고, 여기서 거친 검출기는 Coarse-to-Fine Detection 기법에서 설명된 내용이 적용될 수 있다. 예를 들면, 거친 검출기는 슬라이딩 윈도우를 이용하여 제1 스케일 구간의 제1 영상들을 스캔하고, 스캔된 영상들로부터 후보 영역을 검출할 수 있다.

얼굴 검출 장치는 작은 얼굴 검출기에 포함된 정밀 검출기를 이용하여, 후보 영역 내 제1 얼굴 영역을 검출할 수 있다(804). 작은 얼굴 검출기에 포함된 정밀 검출기는 슬라이딩 윈도우를 이용하여 후보 영역을 스캔하고, 스캔된 영상들로부터 얼굴 영역을 검출할 수 있는데, 여기서 정밀 검출기는 Coarse-to-Fine Detection 기법에서 설명된 내용이 적용될 수 있다. 일실시예에 따르면, 작은 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기의 슬라이딩 윈도우의 크기는 같을 수 있지만 이에 제한되는 것은 아니다.

얼굴 검출 장치는 표준 얼굴 검출기에 포함된 거친 검출기를 이용하여, 제2 영상 내 얼굴의 후보 영역을 검출할 수 있다(805). 여기서, 제2 영상은 제2 영상들 중 어느 하나일 수 있다. 표준 얼굴 검출기에 포함된 거친 검출기는 제2 스케일 구간의 제2 영상들로부터 얼굴의 후보 영역을 검출하고, 여기서 거친 검출기는 Coarse-to-Fine Detection 기법에서 설명된 내용이 적용될 수 있다.

얼굴 검출 장치는 표준 얼굴 검출기에 포함된 정밀 검출기를 이용하여, 후보 영역 내 제2 얼굴 영역을 검출할 수 있다(806). 표준 얼굴 검출기에 포함된 정밀 검출기는 슬라이딩 윈도우를 이용하여 후보 영역을 스캔하고, 스캔된 영상들로부터 얼굴 영역을 검출할 수 있는데, 여기서 정밀 검출기는 Coarse-to-Fine Detection 기법에서 설명된 내용이 적용될 수 있다. 일실시예에 따르면, 표준 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기의 슬라이딩 윈도우의 크기는 같을 수 있지만 이에 제한되는 것은 아니다.

일실시예에 따르면, 작은 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기의 슬라이딩 윈도우의 크기(예를 들어, 16*16 픽셀)는 표준 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기의 슬라이딩 윈도우의 크기보다 작게 설정될 수 있다. 다만, 작은 얼굴 검출기 및 표준 얼굴 검출기의 템플릿 영상의 크기와 슬라이딩 윈도우의 크기는 서로 같을 수도 있고, 설계 의도에 따라 다양하게 변형되어 채용될 수 있다.

얼굴 검출 장치는 제1 얼굴 영역 및 제2 얼굴 영역에 기초하여, 타겟 영상 내 얼굴 영역을 검출할 수 있다(807). 얼굴 검출 장치는 작은 얼굴 검출기 및 표준 얼굴 검출기로부터 각각 검출된 제1 얼굴 영역 및 제2 얼굴 영역을 조합하여 타겟 영상 내 얼굴의 위치 및 크기를 계산할 수 있다. 얼굴 검출 장치는 작은 얼굴 검출기로부터 제1 얼굴 영역이 포함된 영상의 스케일, 제1 얼굴 영역의 좌표 및 크기를 수신할 수 있다. 얼굴 검출 장치는 표준 얼굴 검출기로부터 제2 얼굴 영역이 포함된 영상의 스케일, 제2 얼굴 영역의 좌표 및 크기를 수신할 수 있다. 얼굴 검출 장치는 작은 얼굴 검출기 및 표준 얼굴 검출기로부터 각각 수신한 정보를 이용하여, 타겟 영상 내 얼굴 영역을 검출할 수 있다.

작은 얼굴 검출기에 의한 제1 얼굴 영역의 검출 동작과 표준 얼굴 검출기에 의한 제2 얼굴 영역의 검출 동작은 병렬적으로 수행될 수 있고, 순서에 따라 수행될 수 있고, 어느 하나만 선택될 수도 있다. 얼굴 검출 장치는 제1 얼굴 영역 및 제2 얼굴 영역 중 어느 하나만을 선택하여 타겟 영상 내 얼굴 영역을 검출할 수도 있고, 가중치를 적용하여 얼굴 영역을 검출할 수도 있다.

얼굴 검출 장치는 검출된 얼굴 영역들에 기초하여, 서로 겹친 얼굴을 제거할 수 있다. 예를 들어, 두 개의 얼굴 영역 x 및 y는 얼굴 검출 장치에 의해 검출된 영역들로 가정하자. 얼굴 검출 장치는 x 및 y가 겹치는 영역과 x 및 y를 합친 영역 간의 비를 계산할 수 있다. 얼굴 검출 장치는 계산된 비에 기초하여, x 및 y 가 서로 겹치는지 여부를 판단하고, 만약 x 및 y 가 서로 겹친다면 x 및 y 중 어느 하나를 제거할 수 있다. 일실시예에 따르면, 얼굴 검출 장치는 계산된 비가 미리 정의된 임계값(예를 들어, 0.3)보다 크고, x의 스케일 및 y의 스케일의 차이가 미리 정의된 임계값(예를 들어, 4)보다 작거나 같으면 x 및 y가 서로 겹치는 것으로 결정할 수 있다. 얼굴 검출 장치는 x 및 y 가 겹친 영역의 좌표들을 이용하여, x 및 y 가 겹친 영역의 너비와 높이를 계산하고, 계산된 너비와 폭의 평균 값을 이용하여, 겹친 영역의 x를 복원하고 y를 제거할 수 있다.

일실시예에 따르면, x를 복원한 얼굴 검출 장치는 임의의 두 개의 얼굴 영역들의 면적을 계산할 수 있다. 얼굴 검출 장치는 두 개의 얼굴 영역들이 겹치는 영역과 두 개의 얼굴 영역들을 합친 영역간의 비를 계산하고, 계산된 비가 미리 정의된 임계값(예를 들어, 0.4)보다 크면, 두 개의 얼굴영역들은 서로 겹치는 것으로 판단하고, 면적이 작은 얼굴 영역을 제거할 수 있다. 이러한 동작들을 반복하여, 얼굴 검출 장치는 타겟 영상 내에 검출된 모든 얼굴 영역들에 있어서, 임의의 두 개의 얼굴 영역들이 겹치는 영역과 두 개의 얼굴 영역들을 합친 영역간의 비가 미리 정의된 임계값(예를 들어, 0.4)보다 작거나 같게 할 수 있다.

얼굴 검출 장치의 학습

일실시예에 따르면, 얼굴 검출 장치에 포함된 표준 얼굴 검출기 및 작은 얼굴 검출기; 표준 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기; 및 작은 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기는 얼굴을 검출하도록 학습될 수 있다. 이러한 검출기들은 다양한 기법들이 적용되어 학습될 수 있다. 예를 들면, Viola-Jones 기법, LBP(Local Binary Pattern) 기법 및 MB-LBP(Multi-scale Local Binary Pattern) 기법 등이 적용될 수 있다.

일실시예에 따르면, 표준 얼굴 검출기를 학습시키기 위해, MB-LBP의 특징과 Adaboost 알고리즘이 채용될 수 있다. 일례로, 24*24 픽셀의 사각형인 샘플 영상을 이용하여 표준 얼굴 검출기를 학습시키는 동작을 설명한다.

표준 얼굴 검출기에 포함된 거친 검출기를 학습시키기 위해, 거친 검출기의 검출 조건은 정밀 검출기의 검출 조건보다 상대적으로 느슨(loose)할 수 있다. 여기서, 거친 검출기의 검출 조건이 정밀 검출기의 검출 조건보다 상대적으로 느슨하다는 것은 거친 검출기와 정밀 검출기가 특정 영상으로부터 얼굴을 검출할 때 거친 검출기가 그 특정 영상을 얼굴에 해당하는 것으로 식별하려는 경향이 더 크다는 것을 의미할 수 있다. 또한, 검출 조건이 느슨하다는 것은 검출 조건이 엄격(strict)하다는 것과 반대의 의미를 가질 수 있다. 여기서, 정밀 검출기의 검출 조건이 거친 검출기의 검출 조건보다 상대적으로 엄격하다는 것은 거친 검출기와 정밀 검출기가 특정 영상으로부터 얼굴을 검출할 때 정밀 검출기가 그 특정 영상을 배경에 해당하는 것으로 식별하려는 경향이 더 크다는 것을 의미할 수 있다. 예를 들면, 배경과 얼굴이 절반씩 차지하는 특정 영상으로부터 얼굴을 검출하고자 하는 경우, 검출 조건이 상대적으로 느슨한 거친 검출기는 그 특정 영상을 얼굴에 해당하는 것으로 식별할 수 있고, 검출 조건이 상대적으로 엄격한 정밀 검출기는 그 특정 영상을 배경에 해당하는 것으로 식별할 수 있다.

복수의 샘플 영상들의 샘플 영상 집합을 이용하여, 거친 검출기 및 정밀 검출기를 학습시키는 경우, 거친 검출기의 얼굴 검출률의 임계값은 정밀 검출기의 얼굴 검출률의 임계값보다 작게 설정될 수 있다. 또한, 거친 검출기 및 정밀 검출기의 학습에 있어서, 거친 검출기가 샘플 영상을 식별하는 동작의 반복 횟수는 정밀 검출기의 해당 동작의 반복 횟수보다 상대적으로 작게 설정될 수 있다.

일실시예에 따르면, 거친 검출기는 특정 영상이 얼굴에 해당하는지 여부를 식별하기 위해, 특정 영상에 기초하여 획득한 값이 미리 정의된 범위에 포함되는지 여부를 판단할 수 있다. 특정 영상으로부터 획득한 값이 미리 정의된 범위에 포함된다면, 거친 검출기는 특정 영상이 얼굴에 해당하는 것으로 식별할 수 있다. 여기서, 미리 정의된 범위는 얼굴을 검출하기 위한 임계값을 기준으로 오프셋을 더하고 뺀 값들 사이의 범위를 의미할 수 있다. 거친 검출기가 얼굴을 검출하기 위해 이용하는 미리 정의된 범위는 정밀 검출기가 이용하는 미리 정의된 범위보다 더 넓게 설정될 수 있다.

상술한 바와 같이, 거친 검출기의 검출 조건이 정밀 검출기의 검출 조건보다 상대적으로 느슨하도록, 거친 검출기 및 정밀 검출기가 학습될 수 있다. 이를 통해, 거친 검출기는 정밀 검출기보다 검출 정확도가 낮을 수 있고, 거친 검출기에 의해 검출된 후보 영역은 얼굴뿐만 아니라 배경도 함께 포함할 수 있다. 또한, 상술한 바와 같이 정밀 검출기의 검출 조건이 거친 검출기의 검출 조건 보다 엄격하도록, 표준 얼굴 검출기의 정밀 검출기가 학습될 수 있다. 따라서, 정밀 검출기가 후보 영역으로부터 검출한 얼굴 영역은 후보 영역에서 배경이 제거된 영상일 수 있다.

일실시예에 따르면, 작은 얼굴 검출기를 학습시키기 위해, MB-LBP의 특징과 Adaboost 알고리즘이 채용될 수 있고, 상술한 표준 얼굴 검출기의 학습과정이 적용될 수 있다. 일실시예에 따르면, 16*16 픽셀의 사각형인 샘플 영상을 이용하여 작은 얼굴 검출기가 학습될 수 있는데, 작은 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기는 상술한 학습 과정을 통해 학습될 수 있다. 다만, 작은 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기는 표준 얼굴 검출기에 포함된 거친 검출기 및 정밀 검출기와 비교하여, 얼굴 주변의 배경이 차지하는 비율이 상대적으로 높은 영상을 얼굴로 식별하도록 학습될 수 있다.

일실시예에 따른 검출기들은 Adaboost 알고리즘, MB-LBP의 특징, Multiple Branch Tree 및 MIP(Multiple Instance Pruning) 기법에 기초하여 학습될 수 있는데, 아래에 각각 설명한다.

(1) Adaboost 알고리즘을 이용한 학습

Adaboost 알고리즘은 이터레이션 알고리즘의 일종으로, 약 분류기들을 결합하여 하나의 강 분류기를 구축할 수 있다. Adaboost 알고리즘에 따르면, 모든 후보 약 분류기들 중에서 어느 하나의 약 분류기가 선택되고, 선택된 약 분류기의 오차 함수가 최소가 되도록 학습된다. 어느 하나의 샘플이 정확하게 분류되면, 다음 번 약 분류기를 학습시키는데 이용되는 샘플 집합 중에서 상기 분류된 샘플의 가중치는 작아진다. 이와 반대로, 어느 하나의 샘플이 정확하게 분류되지 않으면, 다음 번 약 분류기를 학습시키는데 이용되는 샘플 집합 중에서 상기 정확하게 분류되지 않은 샘플의 가중치는 커진다. 이러한 방식으로 가중치들은 업데이트되고, 가중치들이 업데이트된 샘플 집합은 다음 번 약 분류기를 학습시키는데 이용되고, 전체 학습과정에서 이러한 동작들의 반복(iteration)이 수행된다.

약 분류기의 오차 함수는 <수학식 1>로 정의될 수 있다.

<수학식 1>

여기서, N은 샘플의 수, 는 샘플의 가중치, 는 샘플의 태그(샘플이 얼굴 또는 배경인지를 지시하는 값, 라벨(label)), 는 약 분류기, 는 샘플의 특징, i는 샘플의 인덱스(index)이다. 강 분류기는 <수학식 2>로 정의될 수 있다.

<수학식 2>

여기서, m은 약 분류기의 인덱스, M은 약 분류기의 개수이다. 샘플 집합으로부터 획득한 검출률 및 정확도가 주어진 임계값 A를 도달하는 경우 또는 모든 약 분류기의 학습이 종료된 경우, 강 분류기의 학습이 완료될 수 있다. 일실시예에 따른 거친 검출기의 검출 조건이 정밀 검출기의 검출 조건보다 느슨하도록 학습시키기 위해, 거친 검출기의 임계값 A는 정밀 검출기의 임계값 A보다 작게 설정될 수 있고, 거친 검출기를 학습시키기 위한 동작의 반복(iteration) 횟수가 정밀 검출기의 반복 횟수보다 작게 설정될 수 있다.

(2) MB-LBP의 특징

일실시예에 따르면, MB-LBP의 특징은 약 분류기로 입력될 수 있다. 도 9를 참조하면, MB-LBP의 특징은 3x3의 격자 영역에 기초하여 생성될 수 있다. 예시로 든 3x3의 격자 영역은 영상의 임의의 위치를 기준으로 정의될 수 있다.

MB-LBP의 특징을 획득하기 위해, 얼굴 검출 장치는 격자 영역 내의 픽셀들의 평균 값을 계산하고, 중심 격자 영역의 픽셀들의 평균 값과 주변 격자 영역의 픽셀들의 평균값들을 비교하고, 2진법을 이용하여 비교 결과를 코딩하여 MB-LBP의 생성할 수 있다.

일실시예에 따르면, MB-LBP의 특징은 0부터 255사이의 숫자가 될 수 있다. MB-LBP의 특징은 <수학식 3>과 같이 표현될 수 있다.

<수학식 3>

여기서, 는 부호 함수, 는 주변 격자 영역의 픽셀들의 평균값, 는 중심 격자 영역의 픽셀들의 평균값이다.

(3) 약 분류기

일실시예에 따른 약 분류기는 MB-LBP의 특징을 채용한 Multi-Branch Tree로 정의될 수 있다.

Multi-Branch Tree는 <수학식 4>로 정의될 수 있다.

<수학식 4>

여기서, x는 MB-LBP의 특징, 는 분류기 파리미터이다.

분류기 파라미터는 <수학식 5>에 기초하여 획득될 수 있다.

<수학식 5>

여기서, 이고, 는 샘플 i의 가중치이고, 는 샘플 i의 MB-LBP의 특징이며, 는 샘플 i의 태그이다.

(4) Multiple Instance Pruning(MIP) 기법 및 응용

Adaboost 알고리즘에 기초하여 학습된 강 분류기는 약 분류기들을 포함할 수 있다. 도 10을 참조하면, 사각형은 강 분류기를 나타내고, 사각형 내의 타원들은 약 분류기를 나타낸다. MIP 기법이 적용되지 않는 경우, 영상은 모든 약 분류기들을 통과하고, 강 분류기는 영상이 얼굴 또는 배경에 해당하는지 여부를 미리 정의된 임계값에 기초하여 판단할 수 있다. MIP 기법이 적용된다면, 각 약 분류기들은 영상이 얼굴 또는 배경에 해당하는지 여부를 각각 정의된 임계값에 기초하여 판단할 수 있다. MIP 기법에 따르면, 약 분류기들 중 어느 하나의 약 분류기에 의해 영상이 배경에 해당하는 것으로 결정할 수 있고, 이 경우 강 분류기의 판단은 필요하지 않게 된다.

MIP 기법에 기초한 학습 동작은 역방향의 전파과정(backward propagation)으로 진행될 수 있다. 예를 들면, MIP 기법에 따른 학습 동작은 다음과 같은 과정으로 수행될 수 있다.

(i) 학습이 종료된 강 분류기는 모든 샘플을 분류하고, 분류된 샘플이 약 분류기를 통과할 때의 점수가 기록된다.

(ii) 임의의 샘플이 강 분류기에 의해 분류될 때, 약 분류기들은 각각 검출 프레임들을 출력한다. 여기서, 검출 프레임은, 첫번째 약 분류기부터 검출 프레임을 출력한 마지막 약 분류기까지 획득된 점수와 대응한다. 역방향의 전파과정에 있어서, 점수 F(x)는 검출 프레임이 각 약 분류기들을 통과할 때의 점수들에 기초하여 획득될 수 있다. 예를 들면, 임의의 검출 프레임이 제P 번째 약 분류기를 통과할 때의 점수는 <수학식 6>으로 정의될 수 있다.

<수학식 6>

여기서, m은 약 분류기의 인덱스, P는 검출 프레임을 출력한 약 분류기의 인덱스이고, 는 설계 의도에 따라 변형되어 정의될 수 있다.

(iii) 어느 약 분류기 p에 관해, 모든 샘플(트레이닝 샘플)들에 대응한 점수들 중 최소의 점수는 약 분류기 p의 임계값으로 설정될 수 있다. 여기서, 임계값은 Pos-Threshold로 표기한다.

검출 과정에서, 임의의 영상이 약 분류기 p를 통과할 때의 점수 가 Pos-Threshold보다 작은 경우, 해당 영상은 배경으로 분류될 수 있다. 점수 가 Pos-Threshold보다 큰 경우, 약 분류기 p는 해당 영상을 다음 순서의 약 분류기로 전달할 수 있다.

얼굴 검출 장치가 MIP 기법에 의해 학습될 때, 얼굴에 해당하는 샘플들(Positive Samples)만 채용되는 경우 검출률이 떨어질 수 있다. MIP 기법은 역방향 전파과정이지만, 얼굴에 해당하는 샘플들(Positive Samples)뿐만 아니라 배경에 해당하는 샘플들(Negative Samples)도 약 분류기의 임계값의 설정에 고려된다면, 보다 최적화된 임계값이 획득될 수 있다.

상술한 방식으로 약 분류기의 Pos-Threshold가 획득될 수 있다. 이하, Negative Samples에 기초하여 임계값이 획득되는 실시예를 설명한다.

(i) 학습이 종료된 강 분류기는 Negative Samples을 분류하고, 분류된 Negative Samples이 약 분류기를 통과할 때의 점수가 기록된다.

(ii) 어느 약 분류기 p에 관해, Negative Samples에 대응한 점수들 중 최대의 점수는 약 분류기 p의 임계값으로 설정될 수 있다. 여기서, 임계값은 Neg-Threshold로 표기한다.

(iii) Pos-Threshold와 Neg-Threshold를 임의의 가중치를 이용하여 병합하면, 약 분류기 p의 임계값 가 획득될 수 있다. 여기서, 와 는 가중치이고, 이다. 가중치들은 경험적으로 결정될 수 있다. 예를 들면 다음과 같이 가중치가 설정된 임계값이 획득될 수 있다.

상술한 학습 과정에 기초하여, 얼굴 검출 장치는 다음과 같이 학습될 수 있다. 강 분류기는 복수의 약 분류기들을 포함하고, 상술한 MIP 기법에 기초하여 강 분류기가 학습될 수 있다. 구체적으로, 강 분류기 또는 약 분류기들에 대응하는 임계값을 획득하기 위해, 상술한 얼굴의 샘플들(Positive Samples) 및 배경의 샘플들(Negative Samples)을 채용한 MIP 기법이 적용될 수 있다.

상술한 학습 과정에 기초하여, 작은 얼굴 검출기; 표준 얼굴 검출기; 거친 검출기; 및 정밀 검출기가 학습될 수 있다. 아래, 학습된 거친 검출기 및 정밀 검출기에 의해 얼굴이 검출되는 동작을 설명한다.

도 11은 일실시예에 따른 거친 검출기의 동작을 설명하는 순서도이다.

일실시예에 따른, 거친 검출기는 제1 스캔 영상으로부터 제1 특징을 추출할 수 있다(1101). 여기서, 제1 스캔 영상은 타겟 영상으로부터 제1 슬라이딩 윈도우에 의해 스캔된 영상이다. 제1 특징은 MB-LBP의 특징일 수 있다.

거친 검출기는 제1 스캔 영상을 식별하는 약 분류기들로 제1 특징을 입력할 수 있다(1102). 거친 검출기는 약 분류기들로부터 획득된 점수들을 누적시켜 제1 누적 점수를 생성할 수 있다(1103). 여기서, 약 분류기는 입력된 MB-LBP의 특징에 기초하여 점수를 생성하고, 생성된 점수에 기초하여 제1 스캔 영상이 얼굴에 대응하는지 여부를 식별할 수 있다. 약 분류기는 제1 스캔 영상이 얼굴로 식별되면 MB-LBP의 특징을 다음 순서의 약 분류기로 입력할 수 있다.

거친 검출기는 제1 누적 점수가 제1 범위에 포함되는지 여부에 기초하여, 제1 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별할 수 있다(1104). 여기서, 제1 범위는 제1 임계값 및 제2 임계값에 기초하여 생성될 수 있는데, 제1 임계값 및 제2 임계값은 상술한 Neg-Threshold 및 Pos-Threshold일 수 있다. 약 분류기는 제1 임계값 보다 큰 점수를 생성하면, 제1 스캔 영상이 얼굴에 대응하는 것으로 판단하고, 제2 임계값 보다 작은 점수를 생성하면, 제1 스캔 영상이 배경에 대응하는 것으로 판단할 수 있다. 거친 검출기는 식별 결과에 기초하여, 후보 영역을 검출할 수 있다. 거친 검출기가 얼굴을 검출하는 동작은 상술한 실시예가 적용되므로, 자세한 설명은 생략한다.

도 12는 일실시예에 따른 정밀 검출기의 동작을 설명하는 순서도이다.

일실시예에 따른, 정밀 검출기는 제2 스캔 영상으로부터 제2 특징을 추출할 수 있다(1201). 여기서, 제2 스캔 영상은 거친 검출기에 의해 검출된 후보 영역으로부터 제2 슬라이딩 윈도우에 의해 스캔된 영상이다. 제2 특징은 MB-LBP의 특징일 수 있다.

정밀 검출기는 제2 스캔 영상을 식별하는 약 분류기들로 제2 특징을 입력할 수 있다(1202). 정밀 검출기는 약 분류기들로부터 획득된 점수들을 누적시켜 제2 누적 점수를 생성할 수 있다(1203). 정밀 검출기는 제2 누적 점수가 제2 범위에 포함되는지 여부에 기초하여, 제2 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별할 수 있다(1204). 정밀 검출기는 식별 결과에 기초하여, 후보 영역으로부터 얼굴 영역을 검출할 수 있다(1205). 여기서, 제1 범위는 제2 범위보다 넓게 설정될 수 있고, 이러한 이유로 거친 검출기의 검출 조건이 정밀 검출기의 검출 조건보다 느슨하게 설정될 수 있다.

서로 다른 채널을 통한 얼굴 검출의 실시예

도 13은 일실시예에 따른 얼굴 검출 방법을 설명하는 순서도이다.

일실시예에 따른 얼굴 검출 장치는 각 픽셀들의 값이 제1 유형의 값으로 표현된 타겟 영상으로부터 얼굴 영역을 검출할 수 있다(1301). 여기서, 타겟 영상의 각 픽셀들의 값은 제1 유형의 값으로 표현될 수 있다. 제1 유형은 픽셀의 값을 표현하기 위한 모든 유형들을 포함한다. 예를 들면, 제1 유형은 적색(Red), 녹색(Green), 청색(Blue), 밝기(luma) 및 크로미넌스(Chrominance, 예를 들어 , )등의 색 공간의 어느 하나의 축을 정의하는 척도일 수 있지만, 설계 의도에 따라 다양하게 적용될 수 있다.

일실시예에 따르면, 얼굴 검출 장치는 RGB로 픽셀들의 값이 표현된 타겟 영상을 전처리하여 Y(luma)로 픽셀들의 값이 표현된 타겟 영상을 생성할 수 있다. 얼굴 검출 장치는 전처리된 타겟 영상으로부터 얼굴 영역을 검출할 수 있다. 여기서, 픽셀들의 값이 Y로 표현된 타겟 영상으로부터 얼굴 영역을 검출하는 채널을 Y 채널로 지칭한다. 즉, 얼굴 검출 장치는 Y 채널을 통해 얼굴 영역을 검출할 수 있다.

얼굴 검출 장치는 제1 유형의 값으로 표현된 타겟 영상으로부터 검출된 얼굴 영역의 개수가 0보다 큰지 여부를 판단할 수 있다(1302). 얼굴 검출 장치는 검출된 얼굴 영역의 개수가 하나도 없는 경우, 얼굴 영역을 검출하는데 실패한 것으로 결정할 수 있다. 제1 유형이 Y인 경우, 얼굴 검출 장치는 Y 채널을 통해 얼굴 영역을 검출하는데 실패한 것으로 판단할 수 있다.

얼굴 검출 장치는 제1 유형의 값으로 표현된 타겟 영상으로부터 얼굴 영역을 검출하는 데 실패한 경우, 각 픽셀들의 값이 제2 유형의 값으로 표현된 타겟 영상으로부터 얼굴 영역을 검출할 수 있다(1303). 여기서, 제2 유형은 제1 유형과 구별된다.

예를 들어, 제2 유형은 R(Red)일 수 있다. 이 경우, 얼굴 검출 장치는 타겟 영상을 전처리하여 R로 픽셀들의 값이 표현된 타겟 영상을 생성할 수 있다. 얼굴 검출 장치는 전처리된 타겟 영상으로부터 얼굴 영역을 검출할 수 있다. 여기서, 픽셀들의 값이 R로 표현된 타겟 영상으로부터 얼굴 영역을 검출하는 채널을 R 채널로 지칭한다. 즉, 얼굴 검출 장치는 Y 채널을 통해 얼굴 영역을 검출하는데 실패한 경우, R 채널을 통해 얼굴 영역을 검출할 수 있다. Y 채널을 통해 얼굴 영역을 검출하는 경우, 역광의 조건에서 촬영된 영상으로부터 얼굴을 검출하거나 영상 내 흑인의 얼굴을 검출하는데 취약할 수 있지만, R 채널을 통한 얼굴 영역을 검출하는 경우에는 그렇지 않을 수 있다. 따라서, 얼굴 검출 장치는 평상시 조건에서는 Y 채널을 통해 얼굴 영역을 검출하고, Y 채널을 통한 얼굴 영역의 검출을 실패하는 경우, R 채널을 통해 얼굴 영역을 검출할 수 있다.

얼굴 검출 장치는 얼굴 영역이 검출된 타겟 영상 내의 얼굴의 위치 및 크기를 계산할 수 있다(1304).

도 14는 일실시예에 따른 얼굴 검출 장치를 설명하는 도면이다.

도 14를 참조하면, 얼굴 검출 장치(1401)는 영상 피라미드 생성부(1402), 작은 얼굴 검출기(1403), 표준 얼굴 검출기(1404) 및 얼굴 영역 검출기(1405)를 포함한다. 작은 얼굴 검출기(1403)는 거친 검출기(1406) 및 정밀 검출기(1407)를 포함하고, 표준 얼굴 검출기(1404)는 거친 검출기(1408) 및 정밀 검출기(1409)를 포함한다.

영상 피라미드 생성부(1402)는 얼굴을 검출하기 위한 타겟 영상을 획득하고, 타겟 영상에 기초하여 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성할 수 있다. 상술한 실시예가 적용되므로 중복되는 내용의 설명은 생략한다.

작은 얼굴 검출기(1403)는 제1 영상들에 기초하여, 제1 얼굴 영역을 검출할 수 있고, 상술한 실시예가 적용되므로 중복되는 내용의 설명은 생략한다.

표준 얼굴 검출기(1404)는 제2 영상들에 기초하여, 제2 얼굴 영역을 검출할 수 있고, 상술한 실시예가 적용되므로 중복되는 내용의 설명은 생략한다.

얼굴 영역 검출기(1405)는 제1 얼굴 영역 및 상기 제2 얼굴 영역에 기초하여, 타겟 영상 내 얼굴 영역을 검출할 수 있고, 상술한 실시예가 적용되므로 중복되는 내용의 설명은 생략한다.

거친 검출기(1406), 정밀 검출기(1407), 거친 검출기(1408) 및 정밀 검출기(1409)도 상술한 실시예에 따라 동작할 수 있으므로 자세한 내용의 설명은 생략한다.

일실시예에 따르면, 얼굴 검출 장치(1401)는 프로세서(1410) 및 메모리(1411)를 포함한다. 프로세서(1410)는 상술한 실시예들을 명령들을 실행할 수 있고, 메모리(1411)는 상술한 실시예들을 위해 필요한 정보를 기록할 수 있다.

도 15는 일실시예에 따라서 검출된 얼굴 영역의 예시도이다.

도 15를 참조하면, 일실시예에 따른 얼굴 검출 장치는 다양한 크기와 다양한 자세의 얼굴들이 포함된 영상들로부터 얼굴 영역을 검출할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

얼굴을 검출하기 위한 타겟 영상을 획득하는 단계;
제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우를 이용하여 상기 타겟 영상을 스캔하는 단계;
제1 얼굴 크기의 얼굴을 검출하도록 학습된 제1 검출기를 이용하여, 상기 제1 슬라이딩 윈도우에 의해 스캔된 제1 스캔 영상들에 기초하여, 상기 타겟 영상 내 얼굴의 후보 영역을 검출하는 단계;
제2 얼굴 크기의 얼굴을 검출하도록 학습된 제2 검출기를 이용하여, 상기 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우를 이용하여 상기 후보 영역을 스캔하는 단계; 및
상기 제2 슬라이딩 윈도우에 의해 스캔된 제2 스캔 영상들에 기초하여, 상기 후보 영역 내 얼굴 영역을 검출하는 단계
를 포함하는
얼굴 검출 방법.
제1항에 있어서,
상기 후보 영역을 검출하는 단계는
제1 스캔 영상으로부터 제1 특징을 추출하는 단계;
상기 제1 스캔 영상을 식별하는 약 분류기들(weak classifiers)로 상기 제1 특징을 입력하는 단계;
상기 약 분류기들로부터 획득된 점수들을 누적시켜 제1 누적 점수를 생성하는 단계;
상기 제1 누적 점수가 제1 범위에 포함되는지 여부에 기초하여, 상기 제1 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별하는 단계; 및
상기 식별 결과에 기초하여, 상기 후보 영역을 검출하는 단계
를 포함하는,
얼굴 검출 방법.
제2항에 있어서,
상기 얼굴 영역을 검출하는 단계는
제2 스캔 영상으로부터 제2 특징을 추출하는 단계;
상기 제2 스캔 영상을 식별하는 약 분류기들로 상기 제2 특징을 입력하는 단계;
상기 약 분류기들로부터 획득된 점수들을 누적시켜 제2 누적 점수를 생성하는 단계;
상기 제2 누적 점수가 제2 범위에 포함되는지 여부에 기초하여, 상기 제2 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별하는 단계; 및
상기 식별 결과에 기초하여, 상기 얼굴 영역을 검출하는 단계
를 포함하고,
상기 제1 범위는 상기 제2 범위보다 넓은,
얼굴 검출 방법.
제2항에 있어서,
상기 제1 특징은 MB-LBP(Mult-scale Block Local Binary Pattern)의 특징이고,
약 분류기는
상기 MB-LBP의 특징에 기초하여 점수를 생성하고,
상기 생성된 점수에 기초하여 상기 제1 스캔 영상이 얼굴에 대응하는지 여부를 식별하며,
상기 제1 스캔 영상이 얼굴이면 상기 MB-LBP의 특징을 다음 순서의 약 분류기로 입력하는,
얼굴 검출 방법.
제2항에 있어서,
상기 제1 범위는 제1 임계값 및 제2 임계값에 기초하여 생성되고,
약 분류기는
상기 제1 임계값 보다 큰 점수를 생성하면, 상기 제1 스캔 영상이 얼굴에 대응하는 것으로 판단하고,
상기 제2 임계값 보다 작은 점수를 생성하면, 상기 제1 스캔 영상이 배경에 대응하는 것으로 판단하는,
얼굴 검출 방법.
제1항에 있어서,
각 픽셀들의 값이 제1 유형의 값으로 표현된 상기 타겟 영상으로부터 상기 얼굴 영역을 검출하는 데 실패한 경우, 상기 각 픽셀들의 값이 제2 유형의 값으로 표현된 상기 타겟 영상으로부터 상기 얼굴 영역을 검출하는 단계
를 더 포함하는,
얼굴 검출 방법.
제6항에 있어서,
상기 제1 유형 및 상기 제2 유형 중 적어도 하나는 밝기(luma) 및 적색(Red) 중 적어도 하나를 포함하는,
얼굴 검출 방법.
얼굴을 검출하기 위한 타겟 영상을 획득하는 단계;
상기 타겟 영상에 기초하여, 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성하는 단계;
제1 얼굴 크기의 얼굴을 검출하도록 학습된 제1 검출기를 이용하여, 상기 제1 영상들에 기초하여, 제1 얼굴 영역을 검출하는 단계;
제2 얼굴 크기의 얼굴을 검출하도록 학습된 제2 검출기를 이용하여, 상기 제2 영상들에 기초하여, 제2 얼굴 영역을 검출하는 단계; 및
상기 제1 얼굴 영역 및 상기 제2 얼굴 영역에 기초하여, 상기 타겟 영상 내 얼굴 영역을 검출하는 단계
를 포함하는,
얼굴 검출 방법.
제8항에 있어서,
상기 제1 얼굴 영역을 검출하는 단계는
제1 영상 크기의 영상으로부터 상기 제1 얼굴 크기의 얼굴을 검출하는 작은 얼굴 검출기를 이용하여, 상기 제1 얼굴 영역을 검출하는 단계를 포함하고,
상기 제2 얼굴 영역을 검출하는 단계는
제2 영상 크기의 영상으로부터 상기 제2 얼굴 크기의 얼굴을 검출하는 표준 얼굴 검출기를 이용하여, 상기 제2 얼굴 영역을 검출하는 단계를 포함하는,
얼굴 검출 방법.
제9항에 있어서,
상기 제1 영상 크기의 영상 중에서 상기 제1 얼굴 크기의 얼굴이 차지하는 비율은 상기 제2 영상 크기의 영상 중에서 상기 제2 얼굴 크기의 얼굴이 차지하는 비율보다 작은,
얼굴 검출 방법.
제9항에 있어서,
검출하고자 하는 타겟 얼굴의 크기, 상기 제1 영상 크기 및 상기 타겟 영상의 크기에 기초하여 상기 제1 스케일 구간을 결정하는 단계; 및
상기 타겟 얼굴의 크기, 상기 제2 영상 크기 및 상기 타겟 영상의 크기에 기초하여, 상기 제2 스케일 구간을 결정하는 단계
를 더 포함하는,
얼굴 검출 방법.
제8항에 있어서,
상기 제1 얼굴 영역을 검출하는 단계는
제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우를 이용하여 제1 영상을 스캔하는 단계;
상기 제1 슬라이딩 윈도우에 의해 스캔된 제1 스캔 영상들에 기초하여, 상기 제1 영상 내 얼굴의 후보 영역을 검출하는 단계;
상기 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우를 이용하여 상기 후보 영역을 스캔하는 단계;
상기 제2 슬라이딩 윈도우에 의해 스캔된 제2 스캔 영상들에 기초하여, 상기 후보 영역 내 얼굴 영역을 검출하는 단계; 및
상기 후보 영역 내 얼굴 영역에 기초하여, 상기 제1 얼굴 영역을 검출하는 단계
를 포함하는,
얼굴 검출 방법.
제8항에 있어서,
상기 얼굴 영역을 검출하는 단계는
상기 제1 얼굴 영역이 검출된 영상의 스케일; 상기 제1 얼굴 영역의 좌표; 상기 제2 얼굴 영역이 검출된 영상의 스케일; 및 상기 제2 얼굴 영역의 좌표에 기초하여, 상기 타겟 영상 내 얼굴의 위치 및 크기를 계산하는 단계를 포함하는,
얼굴 검출 방법.
제8항에 있어서,
상기 검출된 얼굴 영역이 두 개의 얼굴 영역을 포함하는지 여부를 판단하는 단계;
상기 두 개의 얼굴 영역이 겹치는 영역 및 상기 두 개의 얼굴 영역을 합친 영역 간의 비에 기초하여, 상기 두 개의 얼굴 영역이 서로 겹치는지 여부를 판단하는 단계; 및
상기 서로 겹치는 두 개의 얼굴 영역 중 어느 하나를 제거하는 단계
를 더 포함하는,
얼굴 검출 방법.
제8항에 있어서,
상기 얼굴 영역을 검출하는 데 각 픽셀들의 값이 제1 유형의 값으로 표현된 상기 타겟 영상으로부터 상기 얼굴 영역을 검출하는 데 실패한 경우, 상기 각 픽셀들의 값이 제2 유형의 값으로 표현된 상기 타겟 영상으로부터 상기 얼굴 영역을 검출하는 단계
를 더 포함하고,
상기 제1 유형 및 상기 제2 유형 중 적어도 하나는 밝기(luma) 및 적색(Red) 중 적어도 하나를 포함하는,
얼굴 검출 방법.
하드웨어와 결합되어 제1항 내지 제15항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
얼굴을 검출하기 위한 타겟 영상을 획득하고, 상기 타겟 영상에 기초하여, 제1 스케일 구간의 제1 영상들 및 제2 스케일 구간의 제2 영상들을 포함하는 영상 피라미드를 생성하는 영상 피라미드 생성부;
상기 제1 영상들에 기초하여, 제1 얼굴 크기의 제1 얼굴 영역을 검출하도록 학습된 작은 얼굴 검출기;
상기 제2 영상들에 기초하여, 제2 얼굴 크기의 제2 얼굴 영역을 검출하도록 학습된 표준 얼굴 검출기; 및
상기 제1 얼굴 영역 및 상기 제2 얼굴 영역에 기초하여, 상기 타겟 영상 내 얼굴 영역을 검출하는 얼굴 영역 검출부
를 포함하는,
얼굴 검출 장치.
제17항에 있어서,
상기 작은 얼굴 검출기는 제1 영상 크기의 영상으로부터 제1 얼굴 크기의 얼굴을 검출하고,
상기 표준 얼굴 검출기는 제2 영상 크기의 영상으로부터 제2 얼굴 크기의 얼굴을 검출하며,
상기 제1 영상 크기의 영상 중에서 상기 제1 얼굴 크기의 얼굴이 차지하는 비율은 상기 제2 영상 크기의 영상 중에서 상기 제2 얼굴 크기의 얼굴이 차지하는 비율보다 작은,
얼굴 검출 장치.
제18항에 있어서,
상기 작은 얼굴 검출기는
제1 스텝 길이를 간격으로 이동하는 제1 슬라이딩 윈도우를 이용하여 제1 영상을 스캔하고, 상기 제1 슬라이딩 윈도우에 의해 스캔된 제1 스캔 영상들에 기초하여, 상기 제1 영상 내 얼굴의 후보 영역을 검출하는 거친 검출기(coarse detector); 및
상기 제1 스텝 길이보다 작은 제2 스텝 길이를 간격으로 이동하는 제2 슬라이딩 윈도우를 이용하여 상기 후보 영역을 스캔하고, 상기 제2 슬라이딩 윈도우에 의해 스캔된 제2 스캔 영상들에 기초하여, 상기 후보 영역 내 얼굴 영역을 검출하는 정밀 검출기(fine detector)
를 포함하는,
얼굴 검출 장치.
제19항에 있어서,
상기 거친 검출기는
약 분류기들을 포함하는 강 분류기
를 포함하고,
상기 강 분류기는
제1 스캔 영상으로부터 제1 특징을 추출하고, 상기 제1 스캔 영상을 식별하는 상기 약 분류기들로 상기 제1 특징을 입력하고, 상기 약 분류기들로부터 획득된 점수들을 누적시켜 제1 누적 점수를 생성하며, 상기 제1 누적 점수가 제1 범위에 포함되는지 여부에 기초하여, 상기 제1 스캔 영상이 얼굴 또는 배경에 대응하는지 여부를 식별하고, 상기 식별 결과에 기초하여, 상기 후보 영역을 검출하는,
얼굴 검출 장치.