WO2011096651A2

WO2011096651A2 - 얼굴 식별 방법 및 그 장치

Info

Publication number: WO2011096651A2
Application number: PCT/KR2011/000220
Authority: WO
Inventors: 아드하모비치 이르마토프안바르; 유리비치 부리악드미트리; 블라디미로비치 체르다코브드미트리; 이동성
Original assignee: 주식회사 에스원
Priority date: 2010-02-05
Filing date: 2011-01-12
Publication date: 2011-08-11
Also published as: WO2011096651A3; KR101410489B1; KR20130018763A; RU2427911C1; US8885943B2; US20120294535A1

Abstract

입력되는 이미지에서 탐색되는 서클에 대응하는 영역들내에서 이미지 프래그먼트들을 형성한다. 동종의 분류기들로 이루어진 캐스케이드에서, 각각의 분류기가 이미지 프래그먼트에 대응하는 입력 벡터를 얼굴 타입과 비얼굴 타입으로 분류한다. 이러한 처리를 복수의 이미지를 포함하는 이미지 피라미드의 모든 이미지들에 대하여 수행되며, 모든 이미지들에 대한 처리 결과를 토대로 검출된 얼굴에 대한 좌표를 산출한다.

Description

얼굴 식별 방법 및 그 장치

본 발명은 디지털 이미지 처리 분야에 관한 것으로, 보다 구체적으로는 디지털 이미지에서 임의로 원하는 얼굴을 식별하는 방법 및 그 장치에 관한 것이다.

디지털 이미지는 많은 첨단 멀티 미디어 장치에서 사용되고 있다. 이 때 멀티 미디어 장치가 이미지 상에서 얼굴의 존재 및 위치를 결정하는 기능은 기본적인 기능 중의 하나이다. 이 기능이 필요한 경우는 예를 들어 장치에 저장되는 이미지들을 내용에 따라 선별을 할 경우, 디지털 사진 촬영 및 사진 인쇄 장치에서 이미지 구역을 특수 처리할 경우, 경비 및 비디오 관찰 시스템에서 신원 확인 및 조회를 할 경우, 사람과 멀티미디어 컴퓨터 시스템의 상호 작용을 할 경우 등이다.

현재 이미지 상에서 피사체를 인식하고자 하는 과제를 해결하기 위하여, 뉴런 네트워크, 연구 구역에 대한 분해(dissection), SVM 등의 기술을 사용하고 있는 접근 방법은 매우 많다. 탐색 피사체가 분명하게 형식화(formalisation)되어 있지 않은 조건에서 이러한 모든 방법들은 상당량의 탐색 피사체의 초기 샘플을 필요로 하는 트레이닝 과정(파라미터 튜닝)을 사용하고 있다. 각 방법에서 수행되는 트레이닝 과정은 이미지에 대한 피사체의 등급을 결정하는 작업을 수행하는데 이것은 상당한 계산량과 이에 따른 소요 비용을 필요로 하는 과제이다. 이러한 과제에서 이미지에서 얼굴의 위치, 크기, 방향이 결정되어 있지 않을 경우 계산의 복잡성이 현저히 증가하게 된다.

이러한 얼굴 식별 기술 관련 기술로는 미국 특허 번호 6,661,907호와 6,816,611호에 기재된 얼굴 인식 시스템이 있다. 이 기술들은 이미지의 색상 정보를 이용하는 것인데, 이러한 특성은 이미지의 색상을 포착하는 장치를 필요로 하기 때문에 그 적용 분야를 현저하게 감소시킨다.

또 다른 기술로는 미국 특허 6,940,545호에 기재된 2 단계 얼굴 인식 시스템이 있다. 이 기술은 첫 번째 단계에서 사람의 머리에 관련된 다양한 요소들의 확률적 색상 모델, 예를 들어 머리와 얼굴 피부를 이용하는 것을 기본으로 한다. 두 번째 단계에서는 베이지안 분류기(Bayesian classifier)를 사용한다. 이것은 얻어진 영역 목록을 처리하고 이미지 상에 얼굴의 존재와 위치에 대한 최종 결정을 실행한다. 이 기술을 사용하는 얼굴 인식 시스템은 촬영 공간에 얼굴이 있는 경우, 보다 정확한 촬영 파라미터 평가를 얻기 위해 디지털 카메라에서 사용될 것으로 예상된다. 그러나 이 기술은 시스템 작업의 속도와 정확도에 있어서 매우 느슨한 요구 조건을 구성할 수 있으며, 이것은 사람의 얼굴 인식과 관련된 대부분의 과제에서 제안된 알고리즘을 이용할 수 없게 한다.

2 단계 얼굴 인식 알고리즘을 사용하는 다른 기술로는 미국 특허 6,463,163호에 기재된 기술이 있다. 이 기술은 첫 번째 단계에서 선형 및 비선형 필터로 구성되 2 요소(two-element) 알고리즘이 수행된다. 먼저 선형 필터의 핵(core)과의 상관 관계가 계산되고 그 후 상관관계 지도(correlation map)에 국소적 극값들(local extremes)이 추출된다. 발견된 극값들에 일치하는 영역의 밝기 특성을 모델에서 얻은 값들과 비교하면 알고리즘의 첫 번째 단계가 종결되며, 첫 번째 단계를 통하여 얼굴이 있을 가능성이 있는 위치 지역들의 세트들이 획득된다. 두 번째 단계에서는 발견된 지역들이 다층 피드포워드 뉴럴 네트워크(multilayer feedforward neural network)에 의해 분석되고 그 결과 이미지에서 발견된 얼굴들의 목록이 작성된다. 그러나 이 기술은 얼굴을 돌리게 되면서 발생하는 변화에 대하여 상관계 알고리즘의 안정성이 낮다는 단점이 있으며, 이외에도 다층 뉴럴 네트워크 기능의 속도가 실시간으로 수행되는 어플리케이션에 적용하기가 불충분한 단점이 있다.

미국 특허 7,099,510는 위의 단점을 부분적으로 해소하고 있는데, 구체적으로 비례 조정 및 이동을 고려하는 계산으로 얼굴 영역의 위치탐색(localization)을 효과적으로 수행하는 알고리즘을 제안하고 있다. 이 알고리즘은 계산이 간단한 분류(classification) 절차의 캐스케이드를 토대로 한다. 그 구성 및 결합의 방법은 작업 정확도와 속도에서 높은 성과를 달성할 수 있지만, 모든 분류기의 얼굴 식별 효율성이 꽤 낮은 단점이 있다.

이와 같이 종래의 기술들은 얼굴 식별시에 높은 처리 속도를 요구하고, 또한 얼굴 식별시에 에러를 발생시켜서 시스템의 성능에 영향을 미치는 요인들(예를 들어, 얼굴의 다양성, 안경이나, 콧수염 또는 모자와 같은 장애물들)에 대한 처리가 이루어지지 않고 있다. 또한 외부 환경의 구조적 복잡성, 조명의 불균일 등이 이미지 지역에서 실제로는 존재하지 않는 얼굴을 검출하는 등의 수 많은 에러를 발생시킨다. 이러한 종류의 에러는 생체측정 신분확인 시스템 같은 경우 치명적인 것이다.

본 발명이 해결하고자 하는 과제는 다양한 조명 조건에서 이미지로부터 안정적으로 보다 빠른 처리 속도로 얼굴을 식별할 수 있는 방법 및 그 장치를 제공하는 것이다.

또한 본 발명이 해결하고자 하는 과제는 복잡하고 구조적으로 다양한 환경에서도 이미지로부터 얼굴을 잘못 식별하는 오류 횟수를 감소시킬 수 있는 얼굴 식별 방법 및 그 장치를 제공하는 것이다.

본 발명의 과제를 달성하기 위한 방법은 이미지에서 얼굴을 식별하는 방법이며, 허프 변환(Hough transform)을 이용하여 입력 이미지에서 서클(Circle)을 검출하는 단계; 검출된 상기 서클의 영역 내에서 동일한 크기의 이미지 프래그먼트를 형성하는 단계; 동종의 분류기들로 이루어진 케스케이드의 각각의 분류기를 이용하여, 상기 이미지 프래그먼트 각각에 대하여 입력 벡터를 생성하는 단계; 및 상기 이미지 프래그먼트에 의해 생성된 입력 벡터가 상기 케스케이드의 분류기에 의하여 얼굴 타입에 속하는 것으로 분류되면, 상기 입력 이미지에서 얼굴이 검출된 것으로 판단하는 단계를 포함한다.

본 발명의 다른 특징에 따른 장치는 이미지에서 얼굴을 식별하는 장치이며, 캐스케이드 형태로 이루어지며 동종의 분류기들을 포함하며, 각각의 분류기는 상기 입력 이미지를 기반으로 입력 벡터들을 얼굴 타입과 비얼굴 타입으로 분류하는 캐스케이드 분류기; 허프 변환(Hough transform)을 이용하여 상기 입력 이미지에서 서클을 검출하는 서클 검출기; 및 검출된 서클들의 영역내에서 동일 크기의 이미지 프래그먼트들을 형성하는 이미지 분석기를 포함하고, 상기 이미지 분석기는 상기 이미지 프래그먼트에 대하여 상기 캐스케이드의 분류기들을 이용하여 입력 벡터를 생성하고, 모든 분류기가 상기 이미지 프래그먼트에 의해 생성된 입력 벡터가 얼굴 타입에 속하는 것으로 분류하면, 상기 입력 이미지에서 얼굴이 검출된 것으로 판단한다.

본 발명의 실시 예에 따르면, 이미지에서 보다 정확하고 빠르게 얼굴을 식별할 수 있다. 또한 조명이 다르거나 복잡하고 구조적으로 다양한 환경에서도 이미지로부터 얼굴을 잘못 식별하는 오류 횟수를 감소시킬 수 있다.

도 1은 본 발명의 실시 예에 따른 얼굴 식별 장치의 구조도이다.

도 2는 본 발명의 실시 예에 따른 얼굴 검출부의 구조를 나타낸 도이다.

도 3은 본 발명의 실시 예에 따른 다단계 얼굴 검출기의 구조를 나타낸 도이다.

도 4는 본 발명의 실시 예에 따른 얼굴 검출기의 구조를 나타낸 도이다.

도 5는 본 발명의 실시 예에 따른 분류기의 동작을 나타낸 도이다.

도 6은 본 발명의 실시 예에 따른 LBP 산출 과정이 도시되어 있다.

도 7은 본 발명의 실시 예에 따른 얼굴 검출 방법의 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 도면을 참조하여 본 발명의 실시 예에 따른 얼굴 식별 방법 및 그 장치에 대하여 설명한다.

본 발명의 실시 예에서는 캐스케이드(cascade) 형태의 동종(homogeneous)의 분류기(classifier)들을 이용하여 입력 이미지로부터 얼굴을 검출한다. 각 분류기는 입력 벡터를 얼굴(face) 타입과 비얼굴(non-face) 타입의 2개의 등급으로 구분하며, 이 때 각 분류기는 이전 단계의 분류기에 비하여 보다 높은 정확도를 가진다.

특히 본 발명의 실시 예에서는 입력 이미지를 기반으로 허프 변환(Hough transform)을 이용하여 소정 반경의 서클을 탐색하며, 탐색된 서클에 대응하는 영역들을 동일 크기의 프래그먼트들로 나누고, 이러한 이미지 프래그먼트들로 이루어진 프래그먼트 집합을 형성한다. 그리고 프래그먼트 집합에 포함되는 각 이미지 프래그먼트에 대하여 캐스케이드 형태의 동종의 분류기들을 적용시켜 각 분류기들이 해당 이미지 프래그먼트가 얼굴을 포함하고 있는지의 여부를 결정하도록 한다.

도 1는 본 발명의 실시 예에 따른 얼굴 식별 장치의 구조도이다.

첨부한 도 1에 도시되어 있듯이, 본 발명의 실시 예에 따른 얼굴 식별 장치는 피사체 이미지를 획득하는 이미지 획득부(10), 획득된 이미지들로부터 얼굴을 검출하는 얼굴 검출부(20), 그리고 얼굴 검출을 위한 분류기(calssifier)를 구성하는 트레이닝부(traning unit)(30)를 포함한다.

이미지 획득부(10)는 얼굴 식별을 위한 소스가 되는 이미지를 획득하며, 예를 들어, 디지털 카메라, 이미지 데이터 베이스 또는 이미지 시퀀스에서 이미지를 선별하는 장치 등이 포함될 수 있다.

얼굴 검출부(20)는 이미지 획득부로부터 제공되는 이미지를 처리하여 얼굴을 검출한다. 얼굴 검출부(20)로부터 발견된 얼굴들이 마킹되어 있는 이미지가 출력되며, 해당 이미지에서 검출된 얼굴의 좌표들이 출력된다.

트레이닝부(30)는 본 발명의 실시 예에 따른 트레이닝 단계에서 사용된다. 트레이닝부(30)는 얼굴과 비얼굴 이미지를 담고 있는 트레이닝 샘플에 대한 트레이닝 절차를 수행하며, 트레이닝 절차를 운용하는 분류기들을 구성한다. 트레이닝 절차는 분류기 이용을 시작하기 전에 1회만 수행된다. 트레이닝 절차의 처리 결과는 얼굴 검출부(20)로 제공되며, 얼굴 검출부(20)는 획득된 분류기를 이용하여 입력되는 이미지에서 얼굴을 검출한다.

첨부한 도 2에 도시되어 있듯이, 본 발명의 실시 예에 따른 얼굴 검출부(20)는 이미지 피라미드 구성기(21) 및 다단계 얼굴 검출기(22)를 포함한다.

이미지 피라미드 구성기(21)는 이미지를 제공받으며, 입력되는 이미지는 비디오카메라, 이미지 데이터 베이스, 비디오 시퀀스 또는 기타 디지털 이미지 소스 등의 이미지 획득부(10)로부터 제공될 수 있다. 이미지 피라미드 구성기(21)는 이미지들의 집합(collection)을 형성하며, 이미지 집합에 포함되는 각각의 이미지는 설정된 비율로 축소된 초기 이미지의 복사본이다. 즉, 이미지 획득부(10)로부터 제공되며 얼굴 검출을 위한 소스가 되는 이미지에서 미리 설정된 비율로 스케일(scale)이 축소된 이미지의 복사본이다. 여기서 스케일 조정을 위한 비율(비례조정 비율)은 집합에 포함되는 각 이미지별로 다를 수 있다. 이러한 이미지들의 집합을 "이미지 피라미드"라고 명명할 수 있으며, 이미지 피라미드는 다단계 얼굴 검출기(22)로 전달된다.

다단계 얼굴 검출기(22)는 이미지 피라미드의 각 이미지에서 얼굴을 검출하고 초기 이미지에 검출된 얼굴을 표시하여 제시되는 결과물을 형성한다. 또는 다단계 얼굴 검출기(22)는 검출된 얼굴들에 대한 좌표값들을 포함하는 얼굴 좌표 집합을 생성한다.

이러한 얼굴 검출부(20)는 디지털 프로세서, 초기 이미지 저장부, 보조 버퍼를 포함하는 형태로 구성될 수 있으며, 이미지 피라미드 구성기나 다단계 얼굴 검출기가 디지털 프로세서에서 동작하는 형태로 구현될 수 있다.

첨부한 도 3에서와 같이, 본 발명의 실시 예에 따른 다단계 얼굴 검출기(22)는, 얼굴 검출기(221) 및 얼굴 통합부(222)를 포함한다. 다단계 얼굴 검출기(22)에서 처리되는 기본 데이터는 이미지 피라미드이다.

얼굴 검출기(221)는 입력되는 이미지 피라미드를 구성하는 각각의 이미지로부터 얼굴을 검출한다. 그리고 각 이미지에서 검출한 얼굴에 해당하는 얼굴 좌표를 얼굴 통합부(222)로 전달한다.

얼굴 통합부(222)는 입력되는 얼굴 좌표들을 통합하여 검출된 얼굴의 최종 좌표들을 산출한다. 얼굴 통합부(222)는 검출된 얼굴의 좌표들을 클러스터화(clusterization)하고, 이에 따라 획득한 클러스터들의 파라미터(크기, 신뢰도 (confidence level))를 분석한다. 그리고 미리 설정된 임계치를 토대로 어떤 클러스터가 입력된 이미지에서의 얼굴에 관련된 것인지를 판단하며, 여기서 신뢰도는 모든 클러스터 요소(element)들의 신뢰 값들의 총합으로 산출된다. 클러스터 요소들의 신뢰값들은 얼굴 검출 처리 결과로서 얼굴 검출기(221)의 출력값에 포함된다.

첨부한 도 4에서와 같이, 본 발명의 실시 예에 따른 얼굴 검출기(221)는 서클(circle) 검출기(2211), 및 이미지 분석기(2212)를 포함하며, 트레이닝부(30)에 의하여 구성되는 캐스케이드 분류기(classifier)(31)와 연계하여 동작한다.

서클 검출기(221)로 이미지 피라미드가 입력되며, 서클 검출기(221)는 서클인식을 위해 허프 변환(Hough circle transform)을 이용하여 입력된 이미지 즉, 원본 이미지에서 고정 반경을 가지는 모든 주변 즉, 서클(circle)을 검출한다. 서클 검출 결과에 따라 맵(map)을 구성하고, 맵에는 검출된 모든 서클의 중심에 해당하는 지점들을 표시한다. 그리고 지도 즉, 서클 맵과 원본 이미지를 사용하여 마스크 처리된 이미지(masked image)를 형성하며, 상기 마스크 처리된 이미지를 이미지 분석기(2212)로 전달한다.

이미지 분석기(2212)는 입력되는 마스크 처리된 이미지를 스캔하여 프래그먼트(fragments) 집합을 생성한다. 이미지 프래그먼트들로 이루어진 프래그먼트 집합들은 이후의 단계에서 캐스케이드 분류기(31)에 의하여 처리된다.

본 발명의 실시 예에 따른 분류기(31)는 캐스케이드(cascade) 분류기로서 복수의 분류기를 포함하며, 동종 분류기(homogeneous classifier)들로 이루어진 캐스케이드 분류기이다. 얼굴 검출기(221)의 이미지 분석기(2212)는 모든 분류기를 호출하여 이미지 프래그먼트의 타입을 얼굴과 비얼굴 타입으로 정의한다.

캐스케이드 분류기(31)에 포함되는 각 분류기들은 디스크립터 벡터(descriptor vector)를 가지고 동작하며, 디스크립터 벡터들을 각 이미지 프래그먼트마다 구성되어 있다.

캐스케이드의 제 1단계에서, 입력되는 프래그먼트에 대하여 디스크립터 벡터가 형성되며, 이 경우 짧은 길이를 가지는 디스크립터 벡터들을 형성한다(501,502). 첫번째 분류기가 이러한 디스크립터 벡터들을 처리한다(503).

첫번째 분류기에 의하여 짧은 길이의 디스크립터 벡터들에 대한 처리가 완료되면 첫번째 분류기에 의하여 비얼굴 타입으로 분류된 이미지 프래그먼트들이 프래그먼트 집합으로부터 제거된다. 첫번째 분류기에 의하여 수행되는 제1 분류 절차는 비교적 짧은 길이의 벡터를 사용하기 때문에 그 처리 속도가 빠르다. 부정적 샘플들(비얼굴 타입으로 분류된 이미지 프래그먼트들)에 대한 프래그먼트 제거 처리는 도 5에서, NF(non-face)"로 표시되어 있다. 부정적 샘플로 처리된 이미지 프래그먼트들은 거부된 프래그먼트들의 집합에 포함된다(506).

분류기(첫번째 분류기)가 소정 이미지 프래그먼트를 얼굴 타입으로 분류하면, 해당 이미지 프래그먼트는 캐스케이드의 다음 분류기로 전달된다. 이러한 처리는 도 5에 "F(face)"로 표시된 화살표에 대응한다.

캐스케이드 분류기에 의한 4 단계 처리가 완료된 경우(504,505), 어떠한 분류기에 의해서도 부정적 샘플로 처리되어 거절된 프래그먼트들의 집합에 포함되지 않은 이미지 프래그먼트는 캐스케이드에서의 추가 분류기에 의한 처리나 출력 처리 예를 들어, 출력 이미지에서 얼굴의 인스턴스(instances)를 밝게 처리(highlighting)하는 등의 추가적 처리를 위한 단계로 전달된다(507).

이후의 분류기들은 추가적으로 비얼굴 타입의 부정적 샘플들에 대한 제거를 수행하는데 첫번째 분류기에 비하여 부가적인 계산(computation)을 필요로 한다. 캐스케이드에서 첫번째 분류기 이후의 모든 분류기들은 현저하게 큰 길이를 가지는 벡터를 가지고 동작하기 때문에, 첫번째 분류기에 의하여 처리되는 초기 단계보다 처리 속도가 느리다.

일반적으로 이미지 프로세서에 의해 형성되는 이미지 프래그먼트 집합은 다량의 비얼굴 타입의 프래그먼트들을 포함하고, 비교적 적은 수의 얼굴 타입의 프래그먼트를 포함하고 있다. 대부분의 비얼굴 타입의 프래그먼트들은 캐스케이드의 제1단계에서 제거되기 때문에, 단지 적은 수의 프래그먼트들이 이후의 캐스케이드의 모든 단계들을 통하여 처리된다. 이와 같이 많은 수의 비얼굴 타입의 프래그먼트들이 첫번째 단계에서 제거된 다음에 단지 적은 수의 프래그먼트들만이 계산 용량이 많은 단계들에서 처리되기 때문에, 비교적 빠른 처리 속도로 전체적인 캐스케이드 분류 처리가 이루어진다.

캐스케이드 분류기의 입력 데이터는 처리된 프래그먼트를 사용하여 산출되는 벡터이다. 먼저 프래그먼트가 캐스케이드의 분류기의 위치에 대응하는 비율에 따라 비례 조정(scaling)이 되고, 그 후 로컬 바이너리 패턴(Local Binary Pattern: LBP) 디스크립터가 산출된다. 캐스케이드의 제1 단계는 큰 스케일 팩터(scaling factor 또는 scaling ratio)를 사용하며, 보다 짧은 길이의 디스크립터 벡터를 사용하므로, 이러한 단계에서의 분류기들의 계산 속도를 보다 빠르게 할 수 있다.

LBP 구성 절차는 하나의 픽셀과 그것에 인접한 8개의 인접 픽셀들 사이의 양단(pair-wise) 세기 비교(intensity comparison) 비교 수행으로 이루어진다. 각 비교 결과들은 이진 8 요소 벡터를 사용하여 코드화되며, 각 벡터 요소들의 값은 각각의 비교 결과에 따라 0 또는 1의 값을 가진다. 이러한 이진 벡터는 [0,255]의 영역 내에서 10진수에 대한 이진 표기법으로 표시된다. 즉, LBP 동작의 결과는 이진 벡터에 대하여 산출된 십진수이며, 각 이진 벡터는 8비트의 이진법으로 표기되며, 0에서 255까지의 숫자 중에서 하나에 대응된다. 도 6에 이러한 LBP 산출 과정이 도시되어 있다.

도 6을 참조하면, '78'의 인스턴스 값을 가지는 특정 픽셀과 인접한 8개의 픽셀들 사이의 양단의 세기 비교를 수행한다.

그런 다음, 인접한 픽셀의 인스턴스 값이 상기 특정 픽셀보다 작은 경우 '0'의 값을, 큰 경우 '1'의 값으로 픽셀 값이 대체된다.

이와 같은 과정을 통하여 대체된 픽셀값은 좌측 상단 픽셀값을 기준으로 배열되고(00111010), 배열된 픽셀 값의 10진 연산을 통하여 LBP 동작의 결과값 '58'이 산출된다.

LBP 산출은 처리되는 이미지 프래그먼트의 모든 픽셀에 적용되며, 프래그먼트의 디스크립터 벡터는 모든 LBP 결과값들의 벡터이다. 디스크립터 벡터는 H×W 크기의 매트릭스이며, 그 각 요소는 0부터 255까지의 정수이다.

캐스케이드에 포함되는 각 분류기는 SNOW 아키텍처를 지닌 인공 뉴럴 네트워크(NN)로 이루어진다. 인공 뉴럴 네트워크의 하나의 층은 피드 포워드 구조이며, 완전하게 뉴럴 네트워크에 연결되어 있다. 입력층의 크기는 디스크립터 벡터의 길이에 좌우되며, 다음 수학식 1에 따라 산출된다.

수학식 1

여기서 W, H는 각각 디스크립터의 넓이와 길이를 나타낸다.

출력층은 두개의 뉴런(neuron)으로 이루어지며, 하나의 뉴런은 얼굴 타입을 코딩하고, 나머지 하나는 비얼굴 타입을 코딩한다.

뉴럴 네트워크로 입력되는 입력 벡터는 이진수이며, 1에 대응하는 요소들의 개수는 W×H와 같다. 입력 벡터의 크기가 크기만 그 요소들 대부분이 "0"이므로, 뉴럴 네트워크 출력 산출시에는 입력 벡터의 W×H개수의 요소들만이 사용된다. 따라서 뉴럴 네트워크의 처리 속도를 향상시킬 수 있다.

단위 요소(unit element)들의 위치를 산출하고 다른 모든 요소들을 0으로 설정하여 입력 벡터를 구성하며, 단위 요소들의 위치는 다음과 같이 산출될 수 있다.

수학식 2

여기서 x,y는 디스크립터 요소의 좌표를 나타내며, W는 디스크립터의 넓이(width)를 나타낸다.

출력 뉴런의 활성 함수(activation function)(fu)는 시그모이드(sigmoid) 함수이며, 다음과 같이 나타낼 수 있다.

수학식 3

입력 벡터 분류에 대한 결정은 NN 출력 뉴런의 값의 비교 결과를 토대로 이루어진다.

본 발명의 실시 예에서는 다음과 같이 입력 벡터에 대한 타입 결정 과정이 수행된다.

먼저, 뉴런 가중치들과 입력 벡터의 선형 조합이 다음과 같이 수행된다.

수학식 4

상기 수학식 4에서 w는 뉴런 가중치를 의미하며, z는 입력 벡터, i, j 는 각각의 인덱스를 나타낸다.

다음 비선형 함수가 산출된다.

수학식 5

여기서

는 비선형 함수의 값을 나타낸다.

산출된 비선형 함수의 값이 임계값(thr₁)보다 클 경우, 해당 입력 벡터는 얼굴 타입에 속하는 것으로 결정되고, 산출된 비선형 함수의 값이 입계값(thr₁)보다 크지 않은 경우에는 해당 입력 벡터가 비얼굴 타입에 속하는 것으로 결정한다. 이 때 임계값은 다음과 같이 산출될 수 있다.

수학식 6

각각의 입력 벡터에 대한 비선형 함수값 산출 및 임계값과의 비교 과정은 수식 u₁-u₂ 의 산출 및 그것의 값과 입계값(thr₁)의 비교로 대체할 수 있다.

두개의 선형 조합들의 차이(u₁-u₂)는 다음과 같이 산출될 수 있다.

수학식 7

뉴럴 네트워크는 동일한 입력층을 가지만 출력층에서는 단지 하나의 뉴런을 가지는 새로운 뉴럴 네트워크로 대체될 수 있다. 이 하나의 뉴런의 가중치들은 기존 뉴럴 네트워크 NN의 뉴런의 각 가중치들의 차이와 동일하며, 새로운 뉴럴 네트워크는 기존 뉴럴 네트워크에 비하여 계산량이 반밖에 안된다.

본 발명의 실시 예에서는 위에 기술된 바와 같은 구조로 이루어지는 4개의 뉴럴 네트워크들로 이루어진 캐스케이드가 사용되었다. 그러나 본 발명은 이것에 한정되지는 않는다.

분류기로 입력되는 프래그먼트는 24×24 픽셀들로 이루어진다.

첫번째 단계에서 3×3 픽셀의 디스크립터들을 처리하는 뉴럴 네트워크가 동작된다. 그 다음에 4×3 픽셀의 디스크립터에 대한 분류기가 동작하며, 이후 6×6 픽셀의 디스크립터에 대한 분류기, 그리고 마지막으로 12×12 픽셀의 디스크립터에 대한 분류기가 동작한다.

본 발명의 실시 예에 따른 뉴럴 네트워크의 구조는 실험 결과를 토대로 선택된다. 실험 결과 획득을 위하여, 소정의 트레이닝 알고리즘이 가중치 산출을 위하여 사용되며, 트레이닝 알고리즘으로는 공지된 기술이 사용될 수 있다.

본 발명의 실시 예에서는 트레이닝 단계를 수행한다. 트레이닝 단계는 트레이닝부(30)에 의하여 수행될 수 있으며, 트레이닝 절차 및 테스트 절차의 2 세트로 이루어진다. 각 세트는 얼굴 타입과 비얼굴 타입의 프래그먼트들을 포함하며, 뉴런 가중치들이 트레이닝 절차를 사용하여 산출되고, 테스트 절차로부터 샘플들에 대한 뉴럴 네트워크(NN) 효율성(efficiency)이 검증된다.

트레이닝 절차는 다음과 같은 단계를 포함한다.

1) 초기 트레이닝

2) 하나 또는 복수의 부트스트랩(Bootstrap) 절차

먼저, 트레이닝이 첫번째 단계에서 동작하는 뉴럴 네트워크에 대하여 수행된다.

뉴럴 네트워크는 트레이닝 샘플들에 대하여 구동되고, 뉴럴 네트워크에 의하여 폐기된 모든 샘플들은 트레이닝 샘플로부터 제거된다. 이와 동일한 절차가 테스트 세트에 대해서도 수행된다.

갱신된 세트들이 제2 단계에서 동작하는 뉴럴 네트워크의 트레이닝을 위하여 사용된다. 위의 제1 단계와 유사하게, 제2 단계에서 동작하는 뉴럴 네트워크는 트레이닝 세트와 테스트 세트의 샘플들을 처리하며, 그 중에서 비얼굴 타입으로 분류되는 것들을 세트로부터 제거된다. 이러한 작업들은 캐스케이드에 포함된 모든 뉴럴 네트워크에 대하여 반복적으로 수행된다.

하나의 뉴럴 네트워크의 트레이닝 처리는 테스트 세트를 사용하여 제어된다. 본 발명의 실시 예에서 뉴럴 네트워크가 실패한 비얼굴 타입의 샘플들의 개수는 고정된다. 모든 트레이닝 절차 수행후에 뉴럴 네트워크가 트레이닝 처리를 수행하는 동안 실수로 인하여 얼굴 타입으로 분류되는 샘플들의 개수가 카운트되며, 이러한 개수가 감소될때까지 트레이닝 절차가 계속될 수 있다.

이와 같이 본 발명의 실시 예에서는 테스트 절차에서 에러로 인하여 얼굴 타입으로 잘못 분류되는 샘플들의 개수가 선택된 기준의 최저치(minimum)에 도달할 때까지 테스트 절차가 수행될 수 있으며, 이러한 최저치를 만족하는 뉴럴 네트워크가 결정될 수 있다.

부트스트랩 절차는 다음과 같이 수행된다.

분류기들의 캐스케이드가 얼굴을 포함하지 않는 이미지들에 대하여 구동된다. 캐스케이드가 에러를 수행한 모든 이미지 프래그먼트들이 트레이닝 세트에 추가된다. 즉, 캐스케이드가 얼굴을 포함하지 않는 것으로 잘못 판단한 이미지 프래그먼트들이 트레이닝 세트에 추가된다. 캐스케이들의 모든 뉴럴 네트워크들은 갱신된 트레이닝 세트를 사용하여 다시 트레이닝된다.

위에 기술된 바와 같은 구조 및 방법을 토대로 본 발명의 실시 예에 따른 얼굴 검출 방법에 대하여 설명한다.

첫번째 단계에서 비례 조정된 이미지 피라미드들이 획득되며(S710), 이후의 단계를 통하여 이미지 피라미드를 구성하는 각각의 이미지로부터 얼굴을 검출한다.

그 다음 비례 조정된(scaled) 이미지에서 허프 변환을 이용하여 고정 반경을가지는 모든 주변 즉, 서클을 검출한다(S720). 그리고 검출된 서클에 해당하는 영역을 스캔하여 분류를 위한 이미지 프래그먼트들의 집합을 형성한다(S730). 형성된 프래그먼트 집합은 도 5에 도시된 캐스케이드 분류기(31)로 입력된다.

캐스케이드 분류기(31)는 뉴럴 네크워크의 캐스캐이드로 이루어지며, 첫번째 단계에서 동작하며 빠른 처리 속도를 가지는 뉴럴 네트워크들(제1 뉴럴 네트워크라고도 명명함)을 포함한다. 이러한 뉴럴 네트워크들은 작은 길이의 벡터들을 사용하며, 입력되는 이미지에 대하여 "러프(rough)" 프로세싱을 수행한다. 얼굴을 나타내지 않는 대부분의 이미지 프래그먼트들은 제거되며, 얼굴을 포함하는 모든 이미지 프래그먼트들만 다음 단계를 위하여 보존된다.

캐스케이드의 다음 단계에서 보다 복잡하고 처리 속도가 느린 뉴럴 네트워크들(제2 뉴럴 네트워크라고도 명명함)이 동작한다. 이러한 뉴럴 네트워크를 높은 차원의 벡터들을 처리하며, 얼굴을 포함하는 이미지 프래그먼트들과 얼굴을 포함하지 않는 이미지 프래그먼트들을 보다 정밀하게 식별한다. 이러한 제1 및 제2 뉴럴 네트워크들을 통하여, 이미지의 프래그먼트들이 얼굴 타입 또는 비얼굴 타입으로 분류된다(S740).

위에 기술된 바와 같이 얼굴 검출기(221)는 캐스케이드 분류기(31)와 연계하여 뉴럴 네트워크 캐스케이드를 통하여 이미지 피라미드의 모든 이미지들에 대한 분류 처리를 수행하며, 그 결과를 얼굴 통합부(222)로 제공한다(S750).

그 다음, 피라미드의 모든 이미지들에 대한 분류 처리가 완료되었는지를 판단한 다음(S750), 분류 처리가 완료되었으면 얼굴 통합부(222)는 얼굴 검출기(221)로부터 제공되는 결과를 토대로, 클러스터화 및 체험화(heuristics) 알고리즘을 사용하여 입력 이미지에서 검출된 얼굴들의 좌표들을 산출한다(S760). 이후 얼굴 검출 방법의 작업을 종료한다.

이와 같이 본 발명의 실시 예에서는 이미지에서 얼굴을 검출하는 알고리즘을 수행하는 단계들을 캐스케이드 형태로 구성하고, 캐스케이드를 형성하는 단계들이 동일한 형태의 이미지 정보와 서로 다른 형태의 이미지 정보 모두를 처리하도록 하여, 높은 알고리즘 효율성을 형성한다. 캐스케이드 구조는 유연성이 특징임으로, 캐스케이드 구조에 포함되는 단계들의 개수를 가변시킬 수 있다. 이러한 단계를 통하여 높은 정확도로 고속으로 이미지에서 얼굴을 검출할 수 있다.

이러한 본 발명의 실시 예에 따른 얼굴 검출 방법을 입력되는 이미지에서 사람의 얼굴을 구분하는 생물측정학적 인식 시스템에 적용할 수 있으며, 본 발명의 실시 예에 따른 얼굴 식별 방법 및 그 장치는 시그널 프로세서와 같은 특수 장비에도 용이하게 적용할 수 있다.

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

입력 이미지로부터의 얼굴 식별 방법에 있어서

허프 변환(Hough transform)을 이용하여 입력 이미지에서 서클(Circle)을 검출하는 단계;

검출된 상기 서클의 영역 내에서 동일한 크기의 이미지 프래그먼트를 형성하는 단계;

동종의 분류기들로 이루어진 캐스케이드의 각각의 분류기를 이용하여, 상기 이미지 프래그먼트 각각에 대하여 입력 벡터를 생성하는 단계; 및

상기 이미지 프래그먼트에 의해 생성된 입력 벡터가 상기 캐스케이드의 분류기에 의하여 얼굴 타입에 속하는 것으로 분류되면, 상기 입력 이미지에서 얼굴이 검출된 것으로 판단하는 단계

를 포함하는 얼굴 식별 방법.
제1항에 있어서

상기 얼굴이 검출된 것으로 판단하는 단계는

상기 캐스케이드의 분류기가 입력 벡터를 얼굴 타입과 비얼굴 타입으로 분류하는 단계를 더 포함하고,

상기 서클을 검출하는 단계는

미리 설정된 비율에 따라 비례조정한 상기 입력 이미지의 복사본인 이미지들을 포함하는 이미지 피라미드를 형성하는 단계를 더 포함하는

얼굴 식별 방법.
제2항에 있어서

상기 얼굴 타입과 비얼굴 타입으로 분류하는 단계는

트레이닝 세트를 포함하는 데이터베이스를 토대로 상기 동종의 분류기들을 트레이닝하는 단계를 더 포함하는, 얼굴 식별 방법.
제1항에 있어서

상기 입력 벡터는

LBP(Local Binary Pattern) 디스크립터를 토대로 산출되며 상기 이미지 프래그먼트를 대표하는, 얼굴 식별 방법.
제1항에 있어서

상기 각각의 분류기는

이전 분류기에 비하여 큰 크기를 가지는 입력 벡터를 제공받으며, 상기 입력 벡터는 미리 설정된 비율로 비례 조정된 이미지 프래그먼트에 대하여 형성되며, 상기 비율은 단계별로 감소되는 얼굴 식별 방법.
제1항에 있어서

상기 캐스케이드의 각각의 분류기는 SNOW 구조의 인공 뉴럴 네트워크를 토대로 동작하는, 얼굴 식별 방법.
입력 이미지로부터 얼굴을 식별하는 얼굴 식별 장치에 있어서,

캐스케이드 형태로 이루어지며 동종의 분류기들을 포함하며, 각각의 분류기는 상기 입력 이미지를 기반으로 입력 벡터들을 얼굴 타입과 비얼굴 타입으로 분류하는 캐스케이드 분류기;

허프 변환(Hough transform)을 이용하여 상기 입력 이미지에서 서클을 검출하는 서클 검출기; 및

검출된 서클들의 영역내에서 동일 크기의 이미지 프래그먼트들을 형성하는 이미지 분석기를 포함하고,

상기 이미지 분석기는 상기 이미지 프래그먼트에 대하여 상기 캐스케이드의 분류기들을 이용하여 입력 벡터를 생성하고, 모든 분류기가 상기 이미지 프래그먼트에 의해 생성된 입력 벡터가 얼굴 타입에 속하는 것으로 분류하면, 상기 입력 이미지에서 얼굴이 검출된 것으로 판단하는, 얼굴 식별 장치.
제7항에 있어서

상기 장치는

미리 설정된 비율에 따라 비례조정한 입력 이미지의 복사본인 이미지들을 포함하는 이미지 피라미드를 형성하는 이미지 피라미드 구성기

를 더 포함하는 얼굴 식별 장치.
제7항에 있어서

상기 장치는

트레이닝 세트를 포함하는 데이터베이스를 토대로 상기 동종의 분류기들을 트레이닝하는 트레이닝부를 더 포함하는, 얼굴 식별 장치.
제7항에 있어서

상기 입력 벡터는 LBP(Local Binary Pattern) 디스크립터를 토대로 산출되며, 상기 이미지 프래그먼트를 대표하는 얼굴 식별 장치.
제7항에 있어서

상기 캐스캐이드의 각각의 분류기는 이전 분류기에 비하여 큰 크기를 가지는 입력 벡터를 제공받으며, 상기 입력 벡터는 미리 설정된 비율로 비례 조정된 이미지 프래그먼트에 대하여 형성되며, 상기 비율은 분류기의 단계별로 감소되는, 얼굴 식별 장치.
제7항에 있어서

상기 각각의 분류기는 SNOW 구조의 인공 뉴럴 네트워크를 토대로 동작하는, 얼굴 식별 장치.