KR20060003666A

KR20060003666A - 얼굴 인식을 위한 영상간 대응 결정 방법 및 장치, 이를이루기위한 영상 보정 방법 및 장치

Info

Publication number: KR20060003666A
Application number: KR1020040052643A
Authority: KR
Inventors: 기석철; 자오지아리; 렌하이빙; 왕대준
Original assignee: 삼성전자주식회사
Priority date: 2004-07-07
Filing date: 2004-07-07
Publication date: 2006-01-11
Also published as: US7715659B2; US20060008150A1; KR100601957B1

Abstract

얼굴 인식을 위한 영상간 대응 결정 방법 및 장치, 이를 이루기위한 영상 보정 방법 및 장치가 개시된다. 본 발명의 영상간 대응 결정 방법은 테스트 영상을 복수의 서브영역들로 분할하고, 복수의 레퍼런스 영상들을 각각 테스트 영상과 동일한 크기의 서브영역들로 분할하는 단계; 테스트 영상의 서브영역중 하나와 레퍼런스 영상들의 해당 서브영역들간의 상관관계가 가장 큰 제1레퍼런스 영상을 결정하는 단계; 테스트 영상의 서브영역중 다른 하나와 레퍼런스 영상들의 해당 서브영역들간의 상관관계가 가장 큰 제2레퍼런스 영상을 결정하는 단계; 및 상관관계를 기반으로하여 제1 및 제2레퍼런스 영상중 하나를 선택하는 단계를 포함함을 특징으로한다.

Description

얼굴 인식을 위한 영상간 대응 결정 방법 및 장치, 이를 이루기위한 영상 보정 방법 및 장치{Apparatus for and method for determining image correspondence, apparatus and method for image correction therefor}

도 1은 본 발명에 따른 얼굴 인식 방법에 대한 흐름도를 도시한 것이다.

도 2a 내지 2c는 본 발명의 양상들에 따른 정규화 및 서브영역 분할의 예를 도시한 것이다.

도 3a는 얼굴 데이터베이스에 포함되는 얼굴 영상을 도시한 것이다.

도 3b는 도 3a의 얼굴 영상들에 대한 감마보정 결과를 도시한 것이다.

도 4a는 다른 얼굴 영상 데이터베이스에 포함된 얼굴 영상을 도시한 것이다.

도 4b는 도 4a의 얼굴 영상들에 대한 감마보정 결과를 도시한 것이다.

도 4c는 도 4a의 얼굴 영상들에 대한 SHE 보정 결과를 도시한 것이다.

도 5는 도 1의 MIFE에 대한 상세 흐름도이다.

도 6은 각 서브영역별로 분류하는 과정과 분류 결과를 도시한 것이다.

도 7는 본 발명과 종래 기술에 의한 인식결과를 각각 비교하여 도시한 것이다.

도 8a, b, c 및 d는 얼굴 영상 데이터베이스의 제1, 제2, 제3 및 제4서브세트를 각각 도시한 것이다.

도 9는 본 발명에 따른 얼굴 인식 시스템에 대한 블록도이다.

도 10은 본 발명에 따른 밝기조절 및 MIFE(Most Informative Feature Extraction)를 수행하는 시스템의 블록도이다.

본 발명은 저장된 영상들과 매칭(matching)될 영상들의 비교를 통한 영상 인식에 관한 것으로, 더욱 상세하게는 영상의 서브영역들이 밝기, 표정 및/또는 다른 조건을 보완하도록 비교 및/또는 정규화됨으로써 비교의 정확성을 개선하는 얼굴 인식에 관한 것이다.

얼굴 인식은 생체인식 응용(biometric application)에서 잘 알려진 주제(topic)이다. 특히 얼굴 인식에서도 자동 얼굴 인식은 홍채 또는 지문 인식 기술과 비교되는 것으로 관심이 높다. 그러한 얼굴 인식 기술은 보안 목적을 위해서 특별한 관심 대상이다. 예를 들어, 최근 1~2년 사이에 많은 국가에서 생체 여권을 위한 자동 얼굴인식 기술이 필수분야로 선택되었다. 게다가 얼굴 인식 기술은 범죄 예방, 국가 보안 및 개인 보안 목적과 같은 다른 분야에서도 유용한 것으로 받아들여진다.

종래의 자동 얼굴 인식 기술에서의 문제점은 기존 기술이 종종 실패하기때문에 보통의 감시자(즉, 사용자)가 얼굴 인식을 도와야할 필요가 크다는 것이다. 특히 얼굴 인식을 수행하기위하여, 얼굴 텍스쳐, 얼굴의 3차원 기하, 유리나 머리카 락에 의한 가려짐(occlusion) 또는 특징의 차단(blocking) 및 복잡한 조명 환경을 처리해야할 필요가 있다. 이러한 요소들은 얼굴 인식을 어렵게한다.

최근에 종래의 얼굴인식 알고리듬 및 기술을 비교하고 평가하는 연구가 수행되었다. 그러한 연구로는 D. Blackburn 등에 의한 "Facial Recognition Vendor Test 2000: Evaluation Report, 2000" 와 P.J.Phillips 등에 의한 "The FERET Evaluation Methodology for Face Recognition Algorithms:IEEE Trans. On PAMI, 22(10): 1090-1103,2000" 등이 있다.

이러한 연구들은 현재의 알고리듬이 얼굴 표정, 조명, 자세 및 가려짐의 변화에 강건하지 못함을 보여준다.

또한, 얼굴 인식을 수행함에 있어서, 특징 선택이 적절하게 수행되는 것이 중요하다. 좋은 특징이 선택되면, 분류(classification)가 상대적으로 쉬운 작업이 되기때문이다. 예를 들어, 좋은 특징이 선택되면, 유클리드 거리(Euclidian distance)를 기반으로하는 K-means 클러스터링(clustering)또는 KNN 프로세스와 같은 간단한 분류 기술도 잘 동작한다. 그러나, 이러한 방법들은 적절한 특징 서브공간(subspace)에서 동일한 클래스(class)에 속하는 샘플들이 가우시안 분포(Gaussian distribution)를 갖고 다른 클래스들간의 중첩이 적어야함을 가정한다. 그러나 이 방법들을 얼굴 인식에 시험하고 적용하기위해서는 많은 양의 작업이 필요한 반면, 이 방법들이 수행되는데 필요한 적절한 특징 서브공간은 잘 찾아지지않는다. 예를 들어, 얼굴 표현(face representation) 및 특징 선택을 위한 적절한 특징 서브공간이 주성분분석(Principal Components Analysis, PCA), 선형판별분석 (Linear Discriminant Analysis, LDA) 또는 LPP(Locality Preserving Projection) 방법에서는 찾아지지않는다.

PCA, LDA 및 LPP 방법은 M. Turk 등의 "Face Recognition Using Eigenfaces, IEEE, 1991", P.N.Belhumeur 등의 "Eigenfaces vs. Fisherfaces:Recognition Using Class Specific Projection, IEEE Trans. PAMI, vol 19, No. 7, pp. 711-720, 1997" 및 Xiaofei He 등의 "Learning a Locality Preserving Subspace for Visual Recognition, Proceedings of the Ninth IEEE International Conference on Computer Vision, pp. 385-392, ICCV, 2003"에 설명되어있다.

얼굴 인식에서 특징 선택이 어려운 이유중 하나는 얼굴 영상이 비선형 다양체(nonlinear manifold)(즉, 비선형 면 또는 비선형 공간)에 위치하는 것이다. 복잡한 얼굴 다양체 때문에, 영상간의 대응(correspondence)을 결정하는데 사용되는 전통적인 유클리드 거리(즉, 두 점간의 직선 거리)는 얼굴 인식 작업에서는 잘 작동되지않는다. 이 문제를 해결하기위하여, ISOMAP을 사용한 측지선 거리(Geodesic distance)(즉, 두 점간 가장 짧은 거리, 선형 또는 비선형)가 도입되었다. 자세한 내용은 J.B.Tenebaum 등의 "A Global Geometric Framework for Nonlinear Dimensional Reduction, Science, vol 290, 22 December 2000"에 설명되어있다. 그러나, ISOAMP이 실제 사용되도록 하기위해서는 파라미터 공간이 일련의 중첩되는 볼록한 조각들(convex pieces)로 분해되어야한다는 사실이 몇몇 연구자들에 의해 발견되었다. 그와 같이, 다양체 접근의 어려움은 실제 사용시 사람의 특정 다양체를 기술할 수 있을만큼 충분한 샘플을 제공할 수 없다는 것이다. 따라서 다양체 접 근이 실제 사용되기는 어렵다.

본 발명이 이루고자하는 기술적 과제는 얼굴 영상을 복수의 서브영역으로 분할하고 각 서브영역별로 MIFE(Most Informative Feature Extraction) 방식으로 얼굴 영상을 분류하는 영상간 대응 결정 방법 및 장치를 제공하는데 있다.

본 발명이 이루고자하는 다른 기술적 과제는 얼굴 영상을 복수의 서브영역으로 분할하고 각 서브영역별로 기준영상과의 차이를 보정하는 영상 보정 방법 및 장치를 제공하는데 있다.

상기 기술적 과제를 이루기위한, 본 발명의 영상간 대응 결정 방법은 테스트 영상을 복수의 서브영역들로 분할하고, 복수의 레퍼런스 영상들을 각각 상기 테스트 영상과 동일한 크기의 서브영역들로 분할하는 단계; 상기 테스트 영상의 서브영역중 하나와 상기 레퍼런스 영상들의 해당 서브영역들간의 상관관계가 가장 큰 제1레퍼런스 영상을 결정하는 단계; 상기 테스트 영상의 서브영역중 다른 하나와 상기 레퍼런스 영상들의 해당 서브영역들간의 상관관계가 가장 큰 제2레퍼런스 영상을 결정하는 단계; 및 상기 상관관계를 기반으로하여 상기 제1 및 제2레퍼런스 영상중 하나를 선택하는 단계를 포함함을 특징으로한다.

상기 기술적 과제를 이루기위한 본 발명의 영상간 대응 결정 장치는 테스트 영상을 입력하는 영상 입력 장치; 복수의 레퍼런스 영상들을 저장하는 데이터베이스; 및 상기 테스트 영상 및 상기 레퍼런스 영상들을 복수의 서브영역으로 분할하 고, 상기 테스트 영상의 각 서브영역을 상기 레퍼런스 영상들의 해당 서브영역들과 각각 비교하며, 비교결과를 기반으로하여 상기 테스트 영상과 가장 큰 상관관계를 갖는 레퍼런스 영상을 결정하는 비교수단을 포함함을 특징으로한다.

상기 다른 기술적 과제를 이루기위한, 본 발명의 영상 보정 방법은 테스트 영상과 소정 기준 영상을 동일한 크기의 복수의 서브 영역으로 각각 분할하는 단계; 및 상기 기준 영상에 대한 상기 테스트 영상의 각 서브영역별 차이를 상기 테스트 영상의 각 서브영역에 반영하여 보정하는 단계를 포함함을 특징으로한다.

상기 다른 기술적 과제를 이루기위한, 본 발명의 영상 보정 장치는 테스트 영상을 입력하는 영상 입력 장치; 기준 영상을 저장하는 저장부; 및 상기 테스트 영상과 상기 기준 영상을 복수의 서브영역으로 분할하고, 상기 기준 영상에 대한 상기 테스트 영상의 각 서브영역별 차이를 상기 테스트 영상의 각 서브영역에 반영하여 보정하는 보정 수단을 포함함을 특징으로한다.

이하에서 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명하기로한다.

도 9는 본 발명의 일양상에 따른 얼굴 인식을 수행하는 장치에 대한 개략적인 블록도이다. 도시된 바에 따르면, 카메라(90)는 컴퓨터(91)에 연결되어있다.컴퓨터(91)는 알려진 얼굴에 대한 레퍼런스 영상들이 저장되어있는 데이터베이스(92)에 접근한다. 카메라(90)는 식별될 얼굴의 영상을 얻는데 사용된다. 본 실시예에서 카메라(90)는 5메가 픽셀로 320*240의 해상도를 갖는 디지털 카메라가 사용되었다. 그러나 카메라(90)는 다른 해상도를 가질 수 있고, PDA(Personal Digital Assistant), 전화기, 보안 시스템에 사용되는 카메라 또는 사진을 찍을 수 있는 다 른 유사한 장치일 수 있다. 더우기, 카메라(90) 대신에 또는 카메라(90)외에 디지털 사진이 아닌 영상을 스캔하여 입력하기위해서 스캐너(미도시)가 디지털 영상 입력 장치로 사용될 수도 있으며, 디지털 이미지가 바로 컴퓨터(91)로 제공될 수도 있다. 비록 도면에서는 카메라(90)가 직접 컴퓨터(92)에 연결되어있지만, 반드시 연결될 필요는 없다. 대신 스캐너(미도시)를 통해 또는 스토리지 매체로부터 영상을 업로드하여 영상을 전달받을 수 있으며, 유선 및/또는 무선 전송 기술을 사용하여 네트웍을 통해 전달받을 수도 있다.

테스트 영상이 컴퓨터(90)에 로딩되면, 컴퓨터(91)는 테스트 영상에서 특징점들을 식별하여 테스트 영상을 서브영역들로 분할한다. 컴퓨터(91)는 분할된 서브영역들에 대해 후술될, 서브영역을 기반으로하는 적응적 감마(Sub-region based adaptive Gamma, SadaGamma) 보정 또는 히스토그램 등화(Sub-region based Histogram Equalization, SHE) 및/또는 MIFE를 수행한다.

컴퓨터(91)는 보정된 서브영역들을 데이터베이스(92)에 저장된 레퍼런스 영상들의 해당 서브영역들과 비교한다. 각 보정된 서브영역의 비교 결과를 기반으로하여 컴퓨터(91)는 후술된 다수결 투표(majority voting)를 이용하여 어느 레퍼런스 영상이 테스트 영상과 가장 가까운지를 판별한다.

도시된 실시예에서, 컴퓨터(91)는 1GHz, 256Mbytes의 개인용 컴퓨터이다. 그러나 컴퓨터(91)는 다른 형태의 컴퓨터일 수 있고, 범용 및 특수 목적용일 수도 있으며, 휴대가능할 수도 있고 그렇지않을 수도 있다. 더우기, 컴퓨터(91)는 그리드 컴퓨팅(grid computing) 또는 병렬 컴퓨팅(parallel computing)을 통해 테스트 영 상과 데이터베이스(92)에 저장된 레퍼런스 영상들의 대응 서브영역들을 집합적으로(collectively) 분석하는 일련의 컴퓨터일 수도 있다. 컴퓨터(91)가 휴대가능하다면, 컴퓨터(91)는 비교를 수행하는 포터블 컴퓨팅 장치일 수 있고, 연결된 장치로부터 비교결과를 수신하는 PDA일 수도 있다.

또한, 데이터베이스(92)는 설명을 위해 컴퓨터(91)와 별개로 분리되어 도시되어있다. 본 발명의 일양상에 따르면, 데이터베이스(92)는 네트웍을 통한 전송시간을 줄이도록 컴퓨터(91)에 포함되는 것이 바람직하다. 데이터베이스(92)가 컴퓨터(91)와 분리되어있다면, 데이터베이스(92)는 LAN, 인터넷, 또는 다른 유/무선 네트웍을 통해 컴퓨터(91)에 연결된다. 이 경우, 레퍼런스 영상들은 보안을 목적으로 사람을 식별하는데 사용된다면, 데이터베이스(92)의 레퍼런스 영상들은 각기 다른 위치에서 카메라(90)에 의해 촬상된 사람을 구별하도록 서로 다른 위치에 있는 복수의 컴퓨터(91)에 의해 사용될 수 있다. 따라서, 데이터베이스(92)는 한 장소에 있을 수 있다. 아니면, 해당 컴퓨터(91) 내에서 사용될 수 있도록 각 장소로 메일링 또는 전송될 수 있다. 또는 데이터베이스(92)는 각 장소에서 네트웍을 통해 한 장소로부터 갱신될 수 있다. 이렇게 별도로 저장되는 데이터베이스(92)는 예를 들어 다양한 사법당국(law enforcement agency)에 의한 여권 확인 또는 사람 식별을 목적으로 별개의 장소. 예를 들어, 정부 기관(government agency)에 저장될 수도 있다.

그러한 데이터베이스(92)는 저장 매체, 예를 들어 하디 디스크 드라이브와 같은 마그네틱 매체 또는 광자기 매체(magneto-optical media), CD 또는 DVD와 같 은 광 매체, 블루레이 디스크(Blueray disc) 및 첨단 광 디스크(Advanced Optical Disc)와 같은 차세대 광 디스크 등에 저장될 수 있다. 또한 데이터베이스(92)는 읽기 전용(read only), write once 또는 재기록(rewritable) 매체일 수도 있다. 데이터베이스(92)가 기록(writable) 또는 재기록(rewritable) 가능하다면, 레퍼런스 영상들은 모든 영상들을 데이터베이스(92)에 재전송하지않고 새로운 영상을 반영한다. 그러한 갱신가능한 특성은 새로운 사람이 임의의 장소에서 처음으로 인식되고 나머지 장소에서는 새로운 사람의 영상을 데이터베이스(92)에 반영하도록 갱신될 때 유용하게된다.

도 1은 본 발명에 따른 얼굴 인식 방법에 대한 흐름도이다. 도시된 바에 따른 얼굴 인식 방법은 먼저, 입력된 얼굴 영상에 대해 전처리한다(10단계). 전처리로는 얼굴 영상에 혼입된 잡음의 제거, 얼굴의 크기나 위치를 원하는 크기와 위치로 맞추는 얼굴 영상의 정규화 등이 포함된다.

다음으로, 전처리된 얼굴 영상으로부터 특징을 검출한다(11단계). 특징검출은 얼굴 구성 성분의 위치, 모양, 폭, 길이 등을 취해서 기하학적 특징점을 찾는 구조적 방법, 극좌표계(Log-polar)변환, 웨이블릿(Wavelet)변환과 같은 수학적인 변환 필터함수를 이용하는 방법, 그리고 주성분 분석(Principal Component Analysis, PCA), 지역적 특징분석(Local Feature Analysis), 선형판별분석(Linear Discriminant Analysis)과 같은 통계적 모델을 이용하는 방법 등이 있다. 다른 예로는 K-L변환, 신경망 모델, 그리고 3차원 정보를 얻기 위한 베이지안 확률모델을 사용할 수 도 있다.

특징점을 찾는 방법을 예로 들면, 얼굴 영상의 특징부분에 특징점들을 형성한다. 특징점은 예를 들어, 동공, 코 및 입과 같은 부분에 형성할 수 있다. 특징점이 형성되면, 컴퓨터(91)는 영상에서 특징점들에 대한 좌표를 얻고, 좌표를 이용하여 영상을 정규화할 수 있다.

특징추출이 완료되면, 특징점들간의 공선성(colinarity)과 거리의 비를 유지하도록 어파인 변환(affine transformation) 등을 통해 영상을 변환한다. 예를 들어 도 2a에 도시된 영상을 도 2b에 도시된 영상과 같이 변환한다.

다음으로, 얼굴 영상을 복수의 서브영역들로 분할한다(12단계). 서브영역의 개수는 실험적으로 정해질 수 있다. 예를 들어, 다음 표와 같이 서브영역의 크기별로 레퍼런스 영상들에 대한 인식률을 구하는 실험결과에 따라 그 크기를 정할 수 있다.

서브영역의 크기	제1레퍼런스영상세트	제2레퍼런스영상세트	제3레퍼런스영상세트
15*21	0	0.0083	0.2875
9*15	0	0	0.1714
9*9	0	0	0.0429

표에 따르면, 9*9의 크기가 가장 적절함을 알 수 있다. 따라서 도 2b의 얼굴 영상을 도 2c에 도시된 바와 같이 복수의 서브영역으로 분할할 수 있다. 도 2b에 도시된 얼굴 영상의 높이가 H, 폭이 W이라면 얼굴 영상의 크기는 H*W로 표현될 수 있고, 각각 높이방향으로 90개, 폭방향으로 63개씩의 특징벡터를 갖는다면, 전체 특징벡터 I_i(단, i=1,2,…N)는 90*63=5670개가 된다. 이를 hxw=9*9=81개 크기의 서브 영역으로 나눈다면 전체 서브영역의 개수는 D=int(H/h)xint(W/w)=10*7=70이 된 다. 이 서브영역이 얼굴 영상의 특징공간이 된다.

분할된 서브영역에 대해서 밝기를 조절할 수 있다(13단계). 밝기 조절은 상술한 바 있는 SadaGamma(이하 감마보정이라 함) 또는 SHE 등이 사용될 수 있다.

감마보정은 조명 변화에 따른 얼굴 영상의 변화를 반영하기위한 것으로, 밝기를 전체 레퍼런스 영상에 대해 평균한 평균 영상를 기준으로한다. 감마 파라미터는 원래의 영상 I와 평균 영상 I₀간의 각 서브영역별 거리를 최소화하도록 선택된다.

감마 파라미터 γ에 따라 테스트 이미지의 k번째 서브영역의 픽셀값 I_xy ^k ^'는 다음 식과 같이 보정된다.

여기서, I_xy ^k ^'는 감마 보정된 이미지의 k번째 서브영역의 픽셀값이고, dis()는 거리함수이며, c는 계수이다. I^k ₀ _xy는 평균 영상의 k번째 서브영역의 픽셀값이다.

도 3a는 예일(Yale)-A라는 얼굴 데이터베이스에 포함되는 얼굴 영상을 도시한 것이다. 예일-A 데이터베이스는 각각 다른 조건, 예를 들어, 다른 표정, 조명 및 유리 뒤에 가려짐과 같은 조건에서 획득한 얼굴영상을 포함한다. 도 3b는 도 3a의 예일-A의 얼굴영상에 대해 수학식 1에 따라 감마 보정한 결과를 도시한 것이다.

도 4a는 또 다른 얼굴 영상 데이터베이스인 예일-B의 제4서브세트에 포함된 얼굴 영상을 도시한 것이다. 도 4b는 도 4a의 얼굴 영상들에 대한 감마보정 결과를 도시한 것이다. 도 4c는 도 4a의 얼굴 영상들에 대해 SHE를 수행한 결과를 도시한 것이다.

도 3b, 도 4b 및 도 4c의 감마보정된 영상들에 따르면, 조명의 영향이 크게 감소되었음을 알 수 있다.

감마보정은 종래의 PCA 방법 또는 상관(correlation) 방법에 적용될 수도 있다. 여기서, 상관방법은 레퍼런스 영상과 테스트 영상간 직접 유클리드 거리 또는 정규화된 유클리드 거리(normalized Euclidian diatance)를 계산하여 최소 거리를 찾고, 그에 따라 테스트 영상에 대한 레이블(label)을 구하는 방법, 즉, 테스트 영상이 속하는 최종 클래스를 얻는 방법이다.

다음으로, 테스트 영상에 대해 MIFE(Most Informative Feature Extraction)를 수행한다(14단계).

MIFE를 보다 간단하게 설명하기위해 하나의 이미지 벡터에 대한 클래스 분류 방법을 먼저 설명하기로한다.

먼저, C개의 클래스에 속하는 N개의 학습 샘플을 가정하기로한다. D차원의 특징 공간에서 각 샘플 x_i는 벡터로서,

, i=1,2,…,N(여기서, T는 전치(transpose))와 같이 표현될 수 있다.

각 샘플 벡터 x_i는 클래스 레이블 k=l(x_i)을 가지며, 이는 x_i가 k번째 클래스에 속한다는 것을 뜻한다. 이를 수학식으로 표현하면 다음과 같다.

테스트 샘플 z에 대해 유클리드 또는 마할라노비스(Mahalanobis) 거리를 기반으로하여 z가 l번째 클래스에 속하는 것을 결정하는 클러스터링 기준(clustering criteria)을 z와 샘플 벡터간 거리를 이용하여 다음 식과 같이 구할 수 있다.

여기서, dis()는 테스트 샘플과 평균 벡터간의 유클리드 거리 또는 마할라노비스 거리이다.

수학식 2 및 3에 따라 z가 속하는 클래스 y'_i(z)는 다음 식과 같이 표현된다.

얼굴 인식에서 분류되는 클래스는 인식대상이 되는 사람이다. 즉, 한 사람이 하나의 클래스에 해당하고, 하나의 클래스에 표정 및 주변환경에 따라 각각 다른 얼굴 영상을 레퍼런스 영상으로서 복수 개 구비하고, 동일한 클래스에 속하는 레퍼런스 영상들에 대해 동일인임을 인식하도록 학습한다. 학습이 완료되면, 테스트 영상에 대해 인식이 이루어진다. 학습과 테스트 과정은 동일하고, 인식 대상을 미리 알고있는지 없는지의 차이가 있다. 즉, 학습은 인식 대상을 미리 알고있는 경우이며 인식 결과와 인식 대상간의 차이점을 줄이도록 인식 알고리즘을 반복하는 수행하는 것이고, 테스트는 상기 인식 알고리즘에 따라 테스트 영상과 각 클래스를 구성하는 영상들인 레퍼런스 영상들을 비교하여 최종 인식 결과를 출력하는 것이다.

본 발명에서 상술한 서브 영역은 특징 공간을 나타내는 것으로, 분할된 서브 영역의 개수가 특징공간의 차원이 된다. 도 2b에 도시된 서브 영역에 따르면, 이미지 벡터는 총 5670개가 되고, 서브영역은 70개이다. 각 서브영역의 이미지 벡터의 차원은 81이 된다.

도 5는 도 1의 MIFE에 대한 상세 흐름도이다. 먼저, 테스트 영상의 j번째 서브영역과 레퍼런스 영상들의 j번째 서브영역을 각각 비교하여, 각 서브영역 대응관계를 조사한다(50단계). 비교결과 대응관계가 가장 가까운 레퍼런스 영상이 속한 클래스로 테스트 영상의 j번째 영역을 레이블링한다(51단계). 이를 수학식으로 표 현하면 다음과 같다.

테스트 영상 I_x의 j번째 서브영역의 이미지 벡터를 z_jx라 하면, j번째 서브영역의 레이블은 다음 식과 같이 결정된다.

여기서, N은 레퍼런스 영상의 개수이다.

수학식 5에 따라 j번째 서브영역 l번째 클래스에 속한다면, 다음 식과 같이 나타낼 수 있다.

그 결과, I_x에 대해 D차원의 결정 행렬(decision matrix)인

을 얻을 수 있고, 각 서브영역별로 어느 클래스에 속하는지 분류할 수 있다.

참조번호 60의 테스트 영상에 대해 감마보정을 수행하면 참조번호 61의 영상을 얻을 수 있다. 마찬가지로 N개의 레퍼런스 영상(62)에 대해서도 감마보정이 수행된다. 다음으로, 참조번호 61의 영상의 j번째 서브영역과 감마보정된 레퍼런스 영상(63)의 j번째 서브영역을 각각 비교한다. 예를 들어, 도시된 바와 같이 참조번호 61의 좌측 상단의 첫번째 서브영역과 레퍼런스 영상들(63)의 첫번째 서브영역이 각각 비교된다(64). 비교결과, 참조번호 65와 같이 각 서브영역별로 가장 근접한 클래스를 찾을 수 있다.

다음으로, 각 서브영역들에 의한 다수결 투표에 의해 테스트 영상에 대한 최종 클래스를 결정한다(52단계). 최종 클래스의 결정은 결정 행렬 Y에 대해 다음 식과 같이 서브영역별로 가장 많이 대응되는 클래스를 최종 클래스로 구분한다.

수학식 7에 따르면, 도 6에 도시된 레스런스 영상들중에서 제1레퍼런스 영상(66)이 최종 클래스로 구분된다.

최종 구분된 클래스에 해당하는 사람을 테스트 이미지에 대한 인식 결과로서 출력한다(15단계).

도 10은 본 발명의 얼굴 인식 장치에 대한 개념 블록도를 도시한 것이다. 도 10에 도시된 얼굴 인식 장치는 도 1에 도시된 실시예를 사용하여 구현될 수 있고/있거나 다중 프로세서를 사용하여 구현될 수도 있다.

도시된 바에 따르면, 레퍼런스 영상들은 전처리부(101)로 입력되어 와핑(warping)되거나 정규화된다. 특히 전처리부(101)는 사용자에 의해 수작업으로 추출될 수도 있는 특징점들을 기반으로하여 레퍼런스 영상들을 정규화한다. 특징점들 은 레퍼런스 영상에서 동공, 입의 중앙, 코 등을 포함할 수 있다. 특징점으로 추출된 동공의 x-y좌표 및 입의 y좌표 등은 레퍼런스 영상에서 적절하게 위치하도록 와핑될 수 있다.

밝기 조절부(102)는 정규화된 레퍼런스 영상을 서브 영역으로 분할하고, 서비영역별로 감마보정 또는 SHE를 수행하여 레퍼런스 영상의 밝기를 조절한다.

하나 또는 그 이상의 테스트 영상도 마찬가지로 전처리부(103)과 밝기 조절부(104)에 의해 각각 정규화 및 밝기가 조절된다.

MIFE 프로세서(105)는 밝기가 조절된 영상들에 대해 도 5 및 도 6에 도시된 바와 같이 MIFE를 실행하여, 테스트 영상을 레퍼런스 영상들중 하나로 인식한다.

여기서, 두 전처리부(101, 103)는 하나의 유닛으로 구현될 수 있다. 또한 두 밝기 조절부(102, 104)도 하나의 유닛으로 구현될 수 있으며, 보정된 영상들을 공통의 MIFE 프로세서(105)로 결합하는 복수의 컴퓨터로 구현될 수도 있다.

도 7는 본 발명과 종래 기술에 의한 인식결과를 각각 비교하여 도시한 것이다. 레퍼런스 영상은 도 3a에 도시된 예일-A 영상이고, 가로축은 사람별 레퍼런스 영상의 수를 나타낸다.

도시된 바에 따르면, 종래 기술인 PCA 및 상관 방법에 의한 결과보다 본 발명의 MIFE에 의한 인식률이 더 높음을 알 수 있다. 특히, 본 발명의 MIFE와 감마보정을 결합한 경우 레퍼런스 영상이 4개일 때 100% 인식이 가능하고, 레퍼런스 영상이 1개일 때에도 90%정도의 인식률을 보인다.

또한, PCA 및 상관 방법의 종래기술에 본 발명의 감마보정을 적용한 경우의 인식률이 PCA 또는 상관 방법을 단독으로 적용한 경우보다 개선됨을 알 수 있다. 가장 바람직한 경우로는 본 발명의 감마보정을 적용한 후 MIFE를 수행하였을 때, 인식률이 가장 높은 것을 알 수 있다.

도 8a, b, c 및 d는 예일-B 얼굴 영상 데이터베이스중 제1, 제2, 제3 및 제4서브세트를 각각 도시한 것이다. 도시된 얼굴 영상들은 10명의 얼굴에 대해 45개의 서로 다른 조명 조건에서 촬상된 것이다. 각 서브세트는 촬상수단의 정면 축(frontal axis)에 대한 조명각(lighting angle)에 따라 구분된 것이다. 제1서브세트는 조명각이 0°~12°인 경우, 제2서브세트는 12°~25°인 경우, 제3서브세트는 25°~50°인 경우, 그리고 제4서브세트는 50°~77°인 경우이다.

다음 표는 도 8a 내지 도 8d에 도시된 얼굴영상을 이용하여 종래기술과 본 발명에 의한 인식결과를 나타낸 것이다. 여기서, 도 8a의 제1서브세트는 학습에 사용되고, 도 8b 내지 도 8d는 테스트에 사용되었다.

	에러율(%)
	제1서브세트	제2서브세트	제3서브세트	제4서브세트
상관	0.0	0.0	11.7	65.0
PCA	0.0	0.0	16.7	69.3
PCA w/o 1st 3	0.0	0.0	3.3	57.9
ICTCAS	0.0	0.0	0.0	9.4
PCA+감마보정	0.0	0.0	0.0	9.3
MIFE+SHE	0.0	0.0	0.0	6.4
MIFE+감마보정	0.0	0.0	0.0	4.3

표에서 ICTCAS는 Shiguang Shan 등의 "Illumination Normalization for Robust Face Recognition against varying Lighting Condition, IEEE International Workshop on Analysis and Modeling of Faces and Gestures (AMFG), pp157-164, Nice, France, Oct. 2003." 에 따른 결과이다.

표에 나타난 바에 따르면, 본 발명에 따른 감마보정이 적용된 경우 인식 에러율이 개선됨을 알 수 있고, 특히 감마보정이 이루어진 영상에 대해 MIFE를 적용하여 얼굴 인식을 수행할 때, 가장 에러율이 낮음을 알 수 있다.

본 발명의 방법은 칩을 기반으로하는 애플리케이션(chip-based application) 또는 제한된 메모리를 갖는 MRTD(Machine Readable Travel Document)로 구현될 수 있다. 그러한 경우 도 9에 도시된 장치는 대형 컴퓨터의 일부일 수 있다. 또한 본 발명의 각 과정, 예를 들어, 전처리 과정, 밝기조절 과정 및 MIFE 등은 각각 단일 집적회로, 칩, MRTD 또는 제한된 메모리를 갖는 어떤 다른 프로세서로 구현될 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명에 따르면, 얼굴 영상에 대해 서브 영역별로 밝기를 조절함으로써 서로 다른 조명 조건하에서도 인식률이 개선될 수 있다.

또한 MIFE를 통해 각 서브영역이 분류기(classifier)로 동작하고, 각 서브영역이 가장 많이 속한 클래스를 최종 클래스로 분류하는 다수결 투표(majority voting) 방식으로 인식함으로써 인식률이 개선될 수 있다. MIFE는 단순한 유클리드 거리와 복잡한 측지선 거리를 트레이드오프(trade-off)함으로써 다른 분류방법, 예를 들어 고차원의 특징 벡터를 1차원 거리로 매핑하는 K-Means 또는 KNN 방법에서는 사용할 수 없는 분류 정보를 이용할 수 있고, 따라서 많은 수의 학습 샘플들을 필요로하는 복잡한 다양체 및 측지선 거리를 계산하지 않아도 되는 장점이 있다.

Claims

테스트 영상을 복수의 서브영역들로 분할하고, 복수의 레퍼런스 영상들을 각각 상기 테스트 영상과 동일한 크기의 서브영역들로 분할하는 단계;

상기 테스트 영상의 서브영역중 하나와 상기 레퍼런스 영상들의 해당 서브영역들간의 상관관계가 가장 큰 제1레퍼런스 영상을 결정하는 단계;

상기 테스트 영상의 서브영역중 다른 하나와 상기 레퍼런스 영상들의 해당 서브영역들간의 상관관계가 가장 큰 제2레퍼런스 영상을 결정하는 단계; 및

상기 상관관계를 기반으로하여 상기 제1 및 제2레퍼런스 영상중 하나를 선택하는 단계를 포함함을 특징으로하는 영상간의 대응 결정 방법.
제1항에 있어서,

상기 테스트 영상의 나머지 서브영역들과 상기 레퍼런스 영상들의 각 대응 서브영역들간의 상관관계가 가장 큰 레퍼런스 영상들을 각각 결정하고,

상기 선택하는 단계는 상기 테스트 영상의 서브영역들에 대해 상관관계가 가장 큰 레퍼런스 영상으로 가장 많이 결정된 레퍼런스 영상을 최종 레퍼런스 영상으로 선택하는 것을 더 구비함을 특징으로하는 영상간의 대응 결정 방법.
제1항 또는 제2항에 있어서, 상기 분할하는 단계와 결정하는 단계사이에

소정 평균 영상에 대한 상기 테스트 영상의 각 서브영역별 차이를 상기 테스트 영상의 각 서브영역에 반영하여 보정하는 단계를 더 포함하는 것을 특징으로하는 영상간의 대응 결정 방법.
제3항에 있어서, 상기 평균 영상은

상기 레퍼런스 영상들을 소정 팩터(factor)에 대해 모두 평균한 영상임을 특징으로하는 영상간의 대응 결정 방법.
제4항에 있어서, 상기 보정단계는

상기 팩터에 대해 각 서브영역별로 상기 테스트 영상들과 상기 평균 영상간의 차이가 최소가 되도록 감마값을 결정하는 단계; 및

결정된 감마값을 이용하여 상기 테스트 영상의 해당 서브영역을 보정하는 단계를 포함함을 특징으로하는 영상간의 대응 결정 방법.
테스트 영상과 소정 기준 영상을 동일한 크기의 복수의 서브 영역으로 각각 분할하는 단계; 및

상기 기준 영상에 대한 상기 테스트 영상의 각 서브영역별 차이를 상기 테스트 영상의 각 서브영역에 반영하여 보정하는 단계를 포함하는 것을 특징으로하는 영상 보정 방법.
제6항에 있어서, 상기 보정 단계는

각 서브영역별로 소정 팩터에 대해 상기 테스트 영상과 상기 평균 영상간의 차이가 최소가 되도록 감마값을 결정하는 단계; 및

결정된 감마값을 이용하여 상기 테스트 영상의 해당 서브영역을 보정하는 단계를 포함함을 특징으로하는 영상 보정 방법.
테스트 영상을 입력하는 영상 입력 장치;

복수의 레퍼런스 영상들을 저장하는 데이터베이스; 및

상기 테스트 영상 및 상기 레퍼런스 영상들을 복수의 서브영역으로 분할하고, 상기 테스트 영상의 각 서브영역을 상기 레퍼런스 영상들의 해당 서브영역들과 각각 비교하며, 비교결과를 기반으로하여 상기 테스트 영상과 가장 큰 상관관계를 갖는 레퍼런스 영상을 결정하는 비교수단을 포함함을 특징으로하는 영상 인식 장치.
제8항에 있어서, 상기 비교 수단은

상기 테스트 영상의 서브영역들과 상기 레퍼런스 영상들의 해당 서브영역들을 비교한 후, 상기 테스트 영상의 서브영역들에 대해 성관관계가 가장 큰 레퍼런스 영상으로 가장 많이 결정된 레퍼런스 영상을 최종 레퍼런스 영상으로 선택하는 기능을 수행함을 특징으로하는 영상 인식 장치.
제8항에 있어서, 상기 비교 수단은

소정 평균 영상에 대한 상기 테스트 영상의 각 서브영역별 차이를 상기 테스트 영상의 각 서브영역에 반영하여 보정하는 기능을 더 수행함을 특징으로하는 영상 인식 장치.
제10항에 있어서, 상기 비교 수단은

상기 레퍼런스 영상들을 소정 팩터에 대해 모두 평균한 영상을 상기 평균 영상으로 선택하는 기능을 수행함을 특징으로하는 영상 인식 장치.
제11항에 있어서, 상기 비교 수단은

상기 팩터에 대해 각 서브영역별로 상기 테스트 영상들과 상기 평균 영상간 의 차이가 최소가 되도록 감마값을 결정하고, 상기 감마값을 이용하여 상기 테스트 영상의 해당 서브영역을 보정하는 기능을 더 수행함을 특징으로하는 영상 인식 장치.
테스트 영상을 입력하는 영상 입력 장치;

기준 영상을 저장하는 저장부; 및

상기 테스트 영상과 상기 기준 영상을 복수의 서브영역으로 분할하고, 상기 기준 영상에 대한 상기 테스트 영상의 각 서브영역별 차이를 상기 테스트 영상의 각 서브영역에 반영하여 보정하는 보정 수단을 포함하는 것을 특징으로하는 영상 보정 장치.
제13항에 있어서, 상기 보정 수단은

각 서브영역별로 소정 팩터에 대해 상기 테스트 영상과 상기 기준 영상간의 차이가 최소가 되도록 감마값을 결정하고, 상기 감마값을 이용하여 상기 테스트 영상의 해당 서브영역을 보정하는 기능을 포함함을 특징으로하는 영상 보정 장치.
테스트 영상을 복수의 서브영역들로 분할하고, 복수의 레퍼런스 영상들을 각각 상기 테스트 영상과 동일한 크기의 서브영역들로 분할하는 단계;

상기 테스트 영상의 서브영역중 하나와 상기 레퍼런스 영상들의 해당 서브영역들간의 상관관계가 가장 큰 제1레퍼런스 영상을 결정하는 단계;

상기 테스트 영상의 서브영역중 다른 하나와 상기 레퍼런스 영상들의 해당 서브영역들간의 상관관계라 가장 큰 제2레퍼런스 영상을 결정하는 단계; 및

상기 상관관계를 기반으로하여 상기 제1 및 제2레퍼런스 영상중 하나를 선택하는 단계를 포함함을 특징으로하는 영상간의 대응 결정 방법을 실행할 수 있는 프로그램을 기혹한 컴퓨터로 읽을 수 있는 기록 매체.
테스트 영상과 소정 기준 영상을 동일한 크기의 복수의 서브 영역으로 각각 분할하는 단계; 및

상기 기준 영상에 대한 상기 테스트 영상의 각 서브영역별 차이를 상기 테스트 영상의 각 서브영역에 반영하여 보정하는 단계를 포함하는 것을 특징으로하는 영상 보정 방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.