KR20070003759A

KR20070003759A - 이미지 인식

Info

Publication number: KR20070003759A
Application number: KR1020067006809A
Authority: KR
Inventors: 제임스 오스틴; 니콜라스 피어스; 토마스 헤슬타인
Original assignee: 유니버시티오브요크
Priority date: 2003-10-09
Filing date: 2004-10-11
Publication date: 2007-01-05
Also published as: US7689043B2; GB2408615A; GB2408615B; GB0422530D0; KR101149931B1; GB0615820D0; US20070122007A1; GB2428325B; JP4860472B2; GB2428325A; JP2007508609A; EP1673714A1; WO2005038700A1

Abstract

카메라(A)가 3D 자연 이미지를 발생시키고, 이 이미지는 N에서 소정 파라미터들에 대해 재지향 및 재위치 된다. 서로 다른 프로세스들(C, D, E)이 이미지로부터 서로 다른 특징들을 추출하여 서로 다른 가공 이미지들을 제공한다. 가공 이미지들이 점유하는 데이터 공간이 주성분 분석 등에 의해 감축되고(F, G, H), 감축된 가공 이미지들은 결합되어(O), 이미지(B)를 대표하는 이미지 키(I)를 제공한다. 이미지 키(I)가 기존 이미지들에 대해 저장된 이미지 키들(L)과 비교되고(J), 그 비교 결과가 저장되어(K) 잠정적 매치에 대한 최종 리스트(M)가 생성된다. 검증 프로세스 중에, 단 한 개의 이미지 키(L)가 비교될 수 있다. 이와 달리 단일 부공간 감축 및/또는 최적화 방법 이전에 가공 이미지들(C, D, E에서의)이 결합될 수도 있다. 2D 데이터가 3D 데이터와 결합되거나 3D 데이터 대신 사용될 수 있다.

Description

이미지 인식{Image recognition}

본 발명은 이미지들의 인식에 관한 것으로, 자연 이미지와 인공 이미지 둘 모두의 인식에 관한 것이다.

"자연 이미지"란 자연적으로 발생한 객체의 이미지를 의미하는 것으로-예를 들면, 사진과 같은 광학 이미지뿐 아니라 x-레이와 적외선 같은 다른 파장의 이미지들을 의미한다. 자연 이미지는 디지털 수단에 의해 기록 및/또는 바로 이어서 처리될 수 있지만, 컴퓨터나 다른 인위적 수단을 통해 생성되거나 합성된 이미지와는 대조를 이룬다.

수많은 이유에 따라 자연 이미지들에 대한 인식이 요망될 수 있다. 예를 들어, 지리적 위치에 대한 식별을 돕기 위해, 특징적 경관들과 건물들이 인식될 수 있다. 사람 얼굴에 대한 인식은 식별 및 보안 목적에 유용할 수 있다. 경주마들과 같이 값비싼 동물들에 대한 인식은 식별 용도로서 매우 유용할 것이다.

이 명세서에서는, 본 발명의 바람직한 실시예들을 통해, 요크 대학(UofY)에서 만들어진 다양한 3차원 얼굴 표면(facial surface) 표현/Cybula 3D 페이스(Face) 데이터베이스를 이용하는 얼굴 인식에 관한 새로운 방식이 제공된다.

얼굴 인식 기술의 상당한 진보에도 불구하고, 아직까지 얼굴 인식은 상업적 이고 산업적인 많은 어플리케이션들에 필요로 되는 정확도의 수준에는 도달하지 못하고 있다. 몇몇 얼굴 인식 시스템들은 테스트 환경에서 극히 낮은 에러율을 공언하고 있지만, 이러한 수치들은 실제 상황에 노출될 때는 증가하는 것이 보통이다. 이러한 높은 에러율의 이유는 온전히 해결된 적이 없었던 잘 알려져 있는 수많은 부수적 문제들로부터 시작된다. 얼굴 인식 시스템들은 이미지들이 캡춰(capture)되는 주변 환경에 매우 민감하다. 조광 조건, 얼굴 표정, 및 방향(orientation)의 변동만으로 에러율을 크게 높일 수 있으므로, 시스템이 적절하게 동작하도록 하기 위해서는 쿼리(query)와 갤러리 이미지들 사이에 일정한 이미지 캡춰 조건을 유지할 필요가 있다. 그러나, 이러한 방식은 얼굴 인식(종속적 협력을 필요로 하지 않는다는 의미에서 수동적인 생체인식)에 의해 주어지는 몇몇 핵심적 장점들을 사라지게 한다.

본 발명의 바람직한 실시예들은 상술한 사항들에 있어서 향상된 얼굴 인식 방법을 제공하는 것을 목적으로 한다.

본 발명의 한 양태에 따르면, 이미지를 인식하는 방법이 제공되며, 이 방법은:

a. 이미지를 처리하여, 복수의 서로 다른 가공(processed) 이미지들을 포함하는 이미지 집합을 제공하는 단계;

b. 이미지 집합 내 가공 이미지들을 결합하는 단계;

c. 이미지 집합 내 가공 이미지들이 점유하는 데이터 공간을 변환하는 단계;

d. 변환된 데이터 공간 안에 재현된 이미지 집합으로부터 이미지를 대표하는 이미지 키를 생성하는 단계; 및

e. 이미지 키를, 어떤 알려진 이미지의 이전에 저장된 적어도 한 개의 이미지 키와 비교하는 단계를 포함한다.

a 단계는, 에지(edge)들, 라인들, 웨이블릿(wavelet)들, 경사농도(gradient) 성분들 및 컬러 성분들 가운데 적어도 한 가지가 포함된 이미지 특성들을 추출하는 단계를 포함한다.

b 단계는, c 단계에 앞서서 수행될 수 있다. 이와 달리, c 단계가 b 단계 이전에 수행될 수도 있다.

e 단계는, 이미지 키를, 이전에 저장된 딱 한 개의 이미지 키와 비교하여 이미지의 아이덴티티(동일성)를 검증하는 단계를 포함한다.

e 단계는, 이미지 키와, 이전에 저장된 복수의 이미지 키들과 비교하여 이미지를 식별하는 단계를 포함한다.

상기 방법은, e 단계의 비교 결과들을 저장하여 이전에 저장된 이미지 키들과의 잠정적 매치 리스트를 생성하는 단계를 더 포함할 수 있다.

e 단계는 유클리드 거리 (L2 norm), 마할라노비스(mahalanobis) 거리, 또는 코사인 거리를 이용해 수행될 수 있다.

상기 방법은 a 단계에 앞서서, 이미지를 소정 방향 및/또는 위치 및/또는 깊이 규격(depth normalisation)으로 회전 및/또는 위치시키는 단계를 포함할 수 있다.

상기 방법은 b 단계에 앞서서, 결합(combination) 전에 데이터를 정규화하는 단계를 포함할 수 있다.

상기 이미지는 카메라로부터 얻어질 수 있다.

상기 이미지는 3D 데이터 및/또는 2D 데이터를 포함할 수 있다.

상기 이미지는 등록된 2D-3D 이미지 쌍을 포함할 수 있다.

c 단계는 주성분분석(Principal Component Analysis) 방법을 통해 수행될 수 있다.

c 단계는 피셔의 선형 판별법(Fisher's Linear Discriminant Analysis)을 통해 수행될 수 있다.

상기 이미지는 얼굴 이미지일 수 있다.

상기 이미지는 사람 얼굴의 이미지일 수 있다.

상기 이미지는 자연 이미지일 수 있다.

상기 이미지 집합은 오리지널 이미지를 포함할 수 있다.

다른 양태에 있어서, 본 발명은 이미지를 인식하는 장치를 제공하며, 그 장치는,

a. 이미지를 처리하여 복수의 서로 다른 가공 이미지들을 제공하도록 구성된 프로세싱 수단;

b. 가공 이미지들을 결합하도록 구성된 결합 수단;

c. 가공 이미지들이 점유하는 데이터 공간을 감축하도록 구성된 감축 수단:

d. 결합되고 감축된, 가공 이미지들로부터 이미지를 대표하는 이미지 키를 생성하도록 구성된 생성 수단; 및

e. 이미지 키를, 알려진 한 이미지의 이전에 저장된 적어도 하나의 이미지 키와 비교하도록 구성된 비교 수단을 포함한다.

상기 장치는 본 발명의 상술한 양태들 가운데 어느 하나에 따른 방법을 수행하도록 구성될 수 있다.

또 다른 양태에 있어서, 본 발명은 3 차원 이미지를 인식하는 방법을 제공하며, 그 방법은,

a. 피셔의 선형 판별법을 이용하여 이미지가 점유하는 데이터 공간을 변환하는 단계;

b. 변환된 데이터 공간으로부터, 이미지를 대표하는 이미지 키를 생성하는 단계; 및

c. 이미지 키를, 한 알려진 이미지의 이전에 저장된 적어도 한 개의 이미지 키와 비교하는 단계를 포함한다.

또 다른 양태에 있어서, 본 발명은 3 차원 이미지를 인식하기 위한 장치를 제공하며, 그 장치는,

a. 피셔의 선형 판별법을 이용하여 이미지가 점유하는 데이터 공간을 변환하는 수단;

b. 변형된 데이터 공간으로부터, 이미지를 대표하는 이미지 키를 생성하는 수단; 및

c. 이미지 키를, 한 알려진 이미지의 이전에 저장된 적어도 한 개의 이미지 키와 비교하는 수단을 포함한다.

이 명세서에서, "2D 이미지"는 통상적인 디지털 이미지를 의미하는 것으로, 픽셀값들의 이차원적(2D) 어레이로서 이뤄진다. 이것은 픽셀값들이 강도(밝기)를 의미하거나, 픽셀들이 관련 컬러 및 강도 모두를 포함할 수 있는 그레이스케일(greyscale) 이미지일 수 있다. 이 경우, 여러 값들이 각 픽셀과 연관되는데, 가장 일반적인 것은 픽셀의 RGB 컬러 값들이라 흔히 불리는 빨강(R), 초록(G), 및 파랑(B)과 같은 세 가지 기본 컬러이다. 그러나, 픽셀의 컬러 및 강도에 대한 다른 많은 멀티-값 표현들이 있을 수 있다.

이 명세서에서, "3D 이미지"란, 얼굴 또는, 보다 일반화하여 다른 객체에 대한 어떤 삼차원적(3D) 표현을 의미한다. 예를 들어, 이것은 3D 포인트 클라우드(cloud), 3D 메쉬(mesh), 또는 3D 표면 표현이 될 수 있다. 바람직한 구현예들에 서 사용하는 3D 이미지는 깊이 맵(depth map)이 될 것이며, 이것은 픽셀 값들이 이제 어떤 참조 평면에 대한 얼굴(객체)의 깊이들을 나타낸다는 것을 제외하면 표준 2D 이미지와 동일한 직사각형 어레이, 픽셀화된(pixelated) 구조를 가진다.

이 명세서에서, "등록된(registered) 2D-3D 이미지 쌍"이란 동일한 사람의 얼굴 (또는 다른 객체)에 대한 2D 및 3D 이미지를 말하는 것으로, 우리는 그 두 이미지들 사이의 대응관계를 알고 있다, 즉, 이들이 실제 얼굴 (또는 객체) 표면 위의 동일한 표면 포인트들의 특성들을 나타내고 있다는 의미에서, 2D 이미지 내 어느 포인트들이 3D 이미지의 어느 포인트들에 대응되는지를 아는 것이다.

본 발명을 더 잘 이해하고, 발명의 실시예들이 어떻게 실시되는지를 보이기 위해, 예로서 첨부된 도면들을 참조할 것이다.

도 1은 이미지 인식 방법의 한 예를 도시한 흐름도이다.

도 2는 트레이닝 모드를 도시하고자 한, 도 1과 유사한 흐름도이다.

도 3은 도 1에 도시된 방법을 변형한 것을 도시한 흐름도이다.

도 4는 도 3과 유사하지만, 특정 매치가 구해지는 변형된 방법을 도시한 흐름도이다.

도 5는 3D 얼굴 데이터베이스로부터 가져온 얼굴 모델의 예들을 도시한 것이다.

도 6은 미가공 3D 얼굴 모델 (왼쪽)의 정면 포즈 (중간) 및 얼굴 표면 깊이 맵 (오른쪽)으로의 오리엔테이션을 보인 것이다.

도 7은 평균적 깊이 맵 (맨 왼쪽)과 최초 8 개의 고유표면들을 보인 것이다.

도 8은 얼굴 표면 깊이 맵들과 거리 측정 기준의 범위를 이용하는 통상의 3D 얼굴 인식 시스템들에 있어서 타인 인식률 및 본인 거부율을 보인 그래프이다.

도 9는 검증 테스트 절차에 대한 도면이다.

도 10은 최적의 표면 표현 및 거리 측정 기준을 이용하는 3D 얼굴 인식 시스템들에 있어서 타인 인식률 및 본인 거부율을 보인 그래프이다.

도 11은 다양한 표면 표현 및 거리 측정 기준을 이용하는 3D 얼굴 인식 시스템들의 동등 에러 레이트(EER)를 보인 차트이다.

도 12는 컨볼루션 커널들을 사용한 표면 표현에 대한 간략한 설명을 보인 것 이다.

도 13은 표면 표현 테이블이다.

도 14는 서로 다른 표면 표현들에 있어서의 EER을 보인 그래프이다.

도 15는 서로 다른 표면 표현들에 대한 판별값들 및 치수들을 보인 그래프이다.

도 16은 유클리드 거리와 코사인 거리 측정 기준을 이용하는 두 결합 시스템의 통합을 위해 표면 공간들로부터 선택된 치수들을 보인 테이블이다.

도 17 및 18은 코사인 및 유클리드 거리 측정 기준을 이용하는 피셔 표면 시스템들에서의 에러 곡선들을 보인다.

도면에서 동일한 참조부호는 동일하거나 대응되는 구성 요소들을 나타낸다.

도 1에서, 카메라(A)가 얼굴의 3D 이미지를 포획하여 그것을 프로세서(B)로 보내고, 프로세서(B)는 2D 텍스춰(texture) 이미지 (컬러나 그레이스케일 데이터)와 함께 3D 깊이 이미지를 생성한다. 3D 및 2D 데이터는 서로 함께 기억됨이 바람직하다. N에서, 이미지가 (필요하면) 회전되고(rotated), 스케일되며(scaled), 재배치되어(repositioned) 정면과 마주하고 이미지 공간 중앙에 자리하게 된다. (일반적으로, 이미지는 소정 회전각만큼 회전되고, 어떤 소정 깊이로 스케일되며, 이미지 공간의 어떤 소정 위치에 재배치된다.)

C, D, E에서, 이미지는 얼굴로부터 특징들을 추출하기 위한 서로 다른 각각의 세 단계에 따라 처리된다. 여러 상이한 이미지 프로세스들이 채택될 수 있는 데, 가령 에지, 라인, 웨이블릿 등이 그것이다. 많은 이미지 프로세스들이 이 기술분야의 당업자에게 잘 알려져 있을 것이다. 이러한 C, D, E 프로세스들 중 하나가 널(null) 프로세스-즉, 미가공(raw) 이미지가 N으로부터 통과되는 프로세스-일 수 있다. 특징 추출 또는 분석 프로세스들은, 입력과 같은 크기가 되거나 다른 사이즈로 될 수 있는-일반적으로는 더 크게 될 것이다- 가공된(processed) 여러 새로운 이미지들을 만들어낸다. 그러므로, 이러한 점에서 많은 량의 데이터가 생기므로, 이를 줄이는 것이 바람직하게 된다.

F, G, 및 H에서는, C, D, 및 E로부터의 가공된 이미지 출력들이 분석되어 중요 데이터가 추출되게 하고 중요도가 낮거나 없는 데이터는 거부하도록 하는 변환 단계가 수행된다. 많은 해석 방법들이 이 기술분야의 당업자들에게 알려져 있을 것이며, 그러한 방법들은 주성분분석(Principle Component Analysis, PCA), 주요 곡선들(Principle Curves), 정보 극대화(Information Maximisation), 등등과 같은 것을 포함할 것이다. 최종 결과는 오리지널 데이터 집합의 부공간-바람직하게는 최적 부공간-을 차지하는, 입력보다 작은 크기의 데이터를 생성하는 것이다. 정보 추출 방법은 C, D, 및 E로부터 출력된 모든 이미지에 적용된다.

F, G, 및 H 프로세스들의 출력들에는 벡터들의 집합이 포함되며, 이들은 O에서 결합되어 이미지 키 I로 불리는 단일 벡터를 형성한다. 많은 다양한 방법들의 결합 형태가 사용될 수 있다-예를 들어, 단순 연결(concatenation) (종단간, end-to-end), 합성(superimposition) 등의 방법이 사용될 수 있다. 벡터들은 O에 입력 전에 정규화되어, 벡터들이 모두 같은 범위 안에 놓이게 될 수 있다. F, G, 및 H 로부터 벡터들의 유효 비트들(significant bits)은 결합되고, 중요하지 않은 비트들은 버려진다.

I로부터의 이미지 키는, K에서 이전에 저장된 키들과 J에서 비교되어, 어떤 측정 기준(metric)에 따라 저장된 키들과의 유사성의 정도가 산출된다. 유클리드나 맨해튼(Manhattan) 등과 같은, 많은 적절한 측정 기준들이 당업자들에게 알려져 있을 것이다.

J로부터의 비교 결과는 K에 저장되고 최종 리스트로서 M에서 출력된다.

도 2는 키들이 어떻게 L에 저장되는지를 도시한 것이다. 이 경우, 어떤 알려진 이미지가 카메라(A)에 의해 포획되고, 상술한 프로세스 단계들이 I 단계까지 반복되며, 이때 상기 알려진 이미지의 이미지 키가 L에서 저장된다.

도 1 및 2의 방법들에 대한 대안이 도 3에 도시되고, 도 3에서는 특징 추출 단계 C, D, E 다음에 벡터들이 결합되어 I에서 단일 벡터를 생성하고, 그런 다음 단일 벡터는 G의 단일 정보 추출 단계(부공간-subspace 방법)를 통한 변환을 거쳐, 이미지 키를 생성하고, 이것은 앞에서와 같이 J에서 비교된다.

도 4는 키 이미지가 J에서 저장된 단 하나의 이미지와 비교되고, 이어지는 K에서의 문턱(threshold) 단계가 매치(Match) 아니면 노 매치(No Match)를 출력으로 가리키는 다른 변형된 방식을 도시한 것이다.

도 4는 부공간 변환 프로세스 G 이전에 벡터들의 결합 O, I을 보인다. 그러나, 이와 달리, F, G, 및 H와 같은 부공간 프로세스들이 도 1에서와 같이 벡터 결합 변환 O, I 이전에 적용될 수도 있음을 알아야 한다.

일반적으로 본 발명의 실시예들은 3D 이미지 데이터, 2D 이미지 데이터, 혹은 그 둘 모두를 처리할 것이다. 카메라(A)가 도 1 부터 4에서 도시되고 있으나, 이미지(들)은 적절한 어느 소스로부터라도 나올 수 있다.

이제 도 5 내지 12를 참조할 때, 3 차원 표면 구조에 주성분분석(PCA)을 적용함으로써, 보다 보편적인 2 차원적 접근방식에 대해 일반적 곤란성 부여하는 조건하에서 포획된 3D 얼굴 모델들의 방대한 데이터베이스 상에서 인식을 수행할 때, 높은 정확도를 달성할 수 있음을 보이는 실시예들을 고려할 것이다. 그 결과는 동등 에러 레이트(equal error rate)를 단일한 비교값으로 취하는, 타인 인식률 및 본인 거부율로서 나타내어질 것이다. 가장 효율적 표면 표현들과 거리 측정 기준이 식별되어, 보안, 감시, 데이터 압축 및 아카이브(archive) 검색과 같은 어플리케이션 영역들에서 사용될 것이다.

이들 실시예들에서는, 얼굴 인식에 일반적으로 결부되는 몇몇 문제들을 제거한 3D 얼굴 모델들의 사용을 포함한다. 이차원적 이미지들에서 사용 가능한 컬러나 텍스춰 정보가 아닌, 순전히 기하학적 모양에만 반응함으로써, 컬러와 텍스춰 데이터에서만 이용 가능한 특징들을 판별 못하는 대신, 시스템이 조광 조건에 대해 불변하게 만든다. 또, 3 차원 공간에서 얼굴의 구조를 회전하는 기능이 포즈의 변화에 대한 보상을 가능하게 하여, 인식 이전에 얼라인먼트(alignment)를 필요로 하는 방법들을 지원한다.

그럼에도 불구하고, 2D 데이터는 3D 데이터와 별도로 사용되거나, 대안적으로 사용될 수 있음을 알아야 한다.

여기서는 3D 얼굴 모델들로부터 가져온 얼굴 표면 데이터를, 보다 익숙한 이차원적 이미지들의 대용으로 사용한다. Turk와 Pentland에 의해 기술된 고유 얼굴(eigenface) 방식[1991년 인식 신경과학 저널 3권 72-86 페이지, Turk,M과 Pentland, A의 "인식을 위한 고유얼굴들"], [1991년 IEEE 컴퓨터 비전 및 패턴 인식 관련 회보 586-591의 Turk, M 및 Pentland, A의 고유 얼굴들을 이용한 얼굴 인식]과 같은 잘 알려진 얼굴 인식 방법을 취할 수 있고, 이것을 새로운 3차원 데이터 상의 용도로 변형시킨다. 3차원 표면 구조를 이용하여 얼굴들을 인식하는 가장 효과적인 방법들을 식별한다.

이러한 얼굴 인식 방법을 테스트하기 위해, 3D 얼굴 모델들의 방대한 데이터베이스를 이용해 왔다. 그러나, 최근까지, 3D 모델 생성 방법들은 보통 레이저 스캐닝 장비 사용을 필요로 했다. 이러한 시스템들은 (비록 매우 정확하기는 하지만) 보통 느리면서도, 대상이 완전히 정지되어 있을 것을 요구한다. 스테레오 비전 기술들은 레이저 사용 없이 고속 레이트로 포획할 수 있지만, 특성 상관(feature correlation)이 콘트라스트(contrast) 및 안정적 로컬 텍스춰의 영역들; 뺨과 이마가 뚜렷이 결여하는 어떤 것을 필요로 한다. 이러한 이유로, 2 차원 얼굴 인식에 초점을 맞춘 연구들이 넘쳐나는 것과 대조적으로 3 차원적 얼굴 인식은 상대적으로 미개발 상태에 있었다. 몇몇 연구가 3D 데이터를 가지고 실험을 해왔으나 [2000년, 이미지 및 비전 컴퓨팅, 18권 4호, 315-321, Beumier, C와 Acheroy, M의 자동 3D 얼굴 인식], [2000년 패턴 인식에 관한 11차 포르투갈 회의에서 Beumier, C와 Acheroy, M의 3D 및 그레이 레벨 표지들로부터의 자동 얼굴 검 증], [1992년 일리노이주 샴페인에서의 IEEE 컴퓨터 비전 및 패턴 인식에 관한 컴퓨터 협회 회보 108-110의, Gordon, G의 깊이 및 곡률 특징에 기반하는 얼굴 인식], [2000년 4차 IEEE 자동 얼굴 및 제스처 인식에 관한 국제 회보 233-8 집합이, C; Han, F; Ho,T의 포인트 표시를 이용한 3D 사람 얼굴 인식], 이들은 인식에 앞서 2차원 이미지들을 개선시키기 위해 3D 얼굴 모델들이나 사용한 포괄적 얼굴 모델들의 얼마 안 되는 테스트 집합들에 의존해야만 했다[2000년 뱅쿠버에서의 이미지 프로세싱에 관한 국제 회의 중 Zhao, W와 Chellaa, R의 개선된 3D 모델 얼굴 인식], [2002년 컴퓨터 비전에 대한 유럽 회의 중 Romdhani,S; Blanz, V; Vetter, T의 선형 모양 및 텍스춰 에러 함수를 이용한 3D 변형가능 모델을 적응시킴에 따른 얼굴 식별], [2002년 AFGR에 대한 제5차 IEEE 회의 중, Blanz, V; Romdhani,S, Vetter, T의 3D 변형가능 모델을 이용한 다양한 포즈와 조명하에서의 얼굴 식별]. 그러나, 이러한 연구는, 3 차원 정보의 이용이, 현 기술 수준 훨씬 이상으로 얼굴 인식을 향상시키는 잠재성을 가지고 있음을 증명한다. 새로운 3 차원적 포획 장비의 출현으로, 방대한 3D 얼굴 데이터베이스 집단이 실행될 수 있게 되었고 3 차원 얼굴 인식 기술에 대한 연구를 지원하는 프로젝트의 일부인 UofY/Cybula에서 사용되고 있다.

이전의 연구는 얼굴 인식을 수행하는 3차원적 기하 구조에 의해 제공되는 가능성을 검토했었다. 지금까지 이러한 연구는 이차원적 이미지들에 초점을 맞춰왔으나, 일부는 이러한 기존의 이차원적 방식을 개선하기 위해 얼굴 구조에 대한 사전 지식을 이용하고자 하였다. 예를 들어, Zhao와 Chellappa [상기 문서 참조]는 이 차원 이미지들에 있어서 얼굴의 오리엔테이션과 조명 방향을 정규화하기 위한 포괄적인 3D 얼굴 모델을 이용한다. 광원의 방향과 포즈에 대한 추정을 이용하여, 선형 판별 분석(Linear Discriminant Analysis)에 의한 인식 이전에, 3D 얼굴 모델이 이차원 얼굴 이미지와 나란히 정렬되어 정면 포즈에 해당하는 원형(prototype) 이미지를 추정하는데 사용된다. 이러한 방식을 통해, 테스트 집합에 대한 인식 정확도는 대략 81% (25 랭크 내 올바른 매치)에서 100%까지 증가한다. 유사한 결과가 얼굴 인식 벤더 테스트(Face Recognition Vendor Test, FRVT)시 관찰되는데 [Phillips, P.J., Grother, P., Micheals, R.J., Blackburn, D.M., Tabassi, E., Bone, J.M.:FRVT 2002: 개괄 및 요약. http://www.frvt.org/FRVT2002/documents.htm,March (2003)], FERET 데이터베이스에 적용될 때 [상기 언급한] Romdhani, Blanz와 Vetter의 3D 변형 모델 기술을 이용한 포즈 정정이 에러율을 줄인다 [1998년 이미지 및 비전 컴퓨팅, J, 16권 5호, 295-306, Phillps, P.J., Wechsler, H., Huang, J., Rauss, P.의 얼굴 인식 알고리즘을 위한 FERET 데이터베이스 및 평가 절차].

Blanz, Romdhani 및 Vetter [상기 문서 참조]는 2D 얼굴 이미지들의 식별을 돕기 위한 3D 변형 얼굴 모델을 이용하여, 그에 필적할만한 방식을 취하고 있다. 조명 방향과 얼굴 모양에 대한 초기 추정에서 시작하여, Romdhani 등은 변형 가능한 얼굴 모델의 모양과 텍스춰 파라미터들을 반복적으로 변경하여, 이차원 이미지와의 차이를 최소화한다. 그리고 나서 이 파라미터들이 식별을 위한 특징들로서 취해진다.

상술한 방법은 정규화를 향상시킴으로써 3차원 얼굴 모양이 이차원 얼굴 인식 시스템을 향상시킬 수 있음을 보이고 있지만, 상술한 것들 중 어느 것도 이제까지 인식을 수행하는데 실제적인 기하학적 구조를 사용하고 있지 않다. Beumier와 Acheroy [상기 문서 참조]는 그러한 정보를 직접적으로 이용하여 체계화된 광 변형(light deformation)에 기반한 방식을 이용한 3D 얼굴 모델들을 생성하지만, 3D 얼굴 모델들을 매치하는 다양한 방법들을 테스트함에 있어 그 방법들 중 대부분이 성공적이지 못했다. 곡률 분석(Curvature analysis)은 효율적이지 못함이 증명되었고, 특징 추출은 정밀한 인식을 제공할 정도로 충분히 강력하지 않았다. 그러나, Beumier와 Acheroy는 수직 표면 프로파일들의 곡률 값들을 이용하여 무리없는 에러율을 달성할 수 있었다. 30 명의 사람에 대한 데이터베이스 상에서 수행된 검증 테스트는 자동 정렬된 표면(automatically aligned surface)들에 대해 7.25%에서 9% 사이, 그리고 수동 정렬이 사용될 때 6.25%에서 9.5% 사이의 동등한 에러율을 발생하였다.

Chua 등 [상기 문서 참조]은 얼굴 구조에 연식(non-rigid) 표면 인식을 적용하는 다른 방식을 취하고 있다. 얼굴 표면 중 단단한(rigid) 부분들을 식별 및 추출하여 얼굴 표현에 대한 시스템 불변량(invariant)을 만들고자 하는 시도가 이뤄진다. 이러한 단단한 부분들을 식별하여 궁극적으로 얼굴들을 구별하기 위해 사용되는 특성이 포인트 시그니처(point signiture)로서, 이것이 얼굴 표면 위의 고유 포인트들의 로컬 영역들을 둘러싸는 깊이 값들을 나타낸다. 두 얼굴 모델의 유사성은 각 얼굴에 대한 고유한 포인트 시그니처의 집합을 식별 및 비교함으로써 산출 된다. 식별 테스트들에서, 6 명의 서로 다른 사람들에 대한 30 개의 깊이 맵들의 테스트 집합에 적용될 때 검사 이미지(probe image)가 모든 사람에 대해 정확하게 식별됨이 보여진다.

Coombes 등은 [1992년 광학 엔지니어링에 대한 국제 회보 1766권 307-19, A.M.Coombes, R.Richards, A.Linney, V.Bruce, R.Fright의 3D 데이터로부터의 얼굴 묘사 및 인식] 미분 기하학에 기초하는 방법을 연구하고 있다. 곡률 분석이 얼굴 표면에 대한 깊이 맵에 적용되고; 그 표면을 8 개의 기본 타입들인 꼭대기(peak), 능선(ridge), 내부 능선(saddle ridge), 미니멀(minimal), 우묵한 곳(pit), 골짜기(valley), 내부 골짜기(saddle valley), 플랫(flat) 중 하나로 세그멘트화된다. Coombes 등은 두 얼굴들의 영역들을 상관하는 곡률 타입들의 유형을 비교함으로써 두 얼굴들이 구별될 수 있다는 것을 제시한다. 평균적인 남성과 여성의 얼굴 구조에 대한 정량적 분석은 서로 다른 성 간의 턱, 코, 이마 모양과 광대뼈 위치에서의 현저한 차이를 알려준다.

Gordon [상기 문서 참조]이 제안한 다른 방법은 생김새(특징) 위치추정(feature localisation)을 포함한다. 3 차원 얼굴 모델로부터 추출된 깊이 및 곡률 정보를 이용해, Gordon은 수많은 얼굴의 생김새들을 식별하고, 그로부터 머리 폭, 수많은 코의 크기들과 곡선들, 눈 사이 거리, 및 눈 넓이를 포함하는 측정 기준들의 집합이 나오게 된다. 이러한 생김새들은 각 개인의 생김새에 대한 구별 능력을 결정하는 Fisher의 선형 판별을 이용해 평가된다. Gordon의 연구는 인식에 있어서 특히 머리 폭과 코 위치가 중요한 특징이고 반면 눈 넓이와 코의 곡선은 덜 유용하다는 것을 알려준다. 특징부 공간의 간단한 유클리드 거리 측정 기준을 이용해 인식이 수행된다. 8 개의 서로 다른 사람으로부터 가져온 24 가지 얼굴 표면들의 데이터베이스를 이용하여 여러 특징들의 조합이 테스트되고, 그 결과 70.8%에서 100% 범위를 아우르는 정확한 매치를 얻을 수 있다.

앞서 언급한 바와 같이, 현재 공공연하게 사용가능한 3차원 얼굴 데이터는 거의 없으며, 3차원 얼굴 인식 시스템의 개발 및 테스트를 위해 요청되는 데이터 량에 가까운 것은 전혀 없다. 따라서, 우리는 얼굴 인식 연구를 위해 1000 명이 넘는 사람들에 대해 공공연하게 사용 가능한 3D 얼굴 데이터베이스를 제공한다는, 현재 진행중인 프로젝트의 일환으로서 UofY/Cybula에 새로운 3D 얼굴 모델들의 데이터베이스를 수집해왔다. 그 3D 얼굴 모델들은, 특징들의 보다 높은 밀도를 제공하기 위해 광 투사(light projection)에 의해 향상되는 스테레오 비전 기술을 이용해 생성된다. 각각의 얼굴 모델은 3D 카메라로 촬영된 싱글 샷(shot)을 필요로 하고, 그로부터 즉각적(sub-second) 처리 시간 내에 모델이 생성된다.

이러한 평가의 목적으로, 우리는 예비 데이터 획득 세션 중에 획득한 3D 얼굴 데이터페이스의 부분집합을 이용한다. 이 집합은 도 5에 도시된 조건 하에 100 명의 서로 다른 사람들로부터 가져온 330 개의 얼굴 모델들로 이뤄진다.

캡춰(capture) 중에, 조명 상태를 제어하는데 어떤 노력도 들지 않았다. 다양한 머리 오리엔테이션(방향)의 얼굴 모델들을 생성하기 위해, 대상들은 카메라 위 아래 대략 45도로 자리한 기준 포인트들을 마주하도록 요구되었으나, 정밀한 오리엔테이션 각도를 강제하기 위해 노력도 기울이지 않았다. 각각의 사람에 대해 생성된 얼굴 모델들의 예가 도 5에 도시된다.

3D 얼굴 모델들은 OBJ 파일 포맷 (3D 데이터의 공통적 표현)으로 저장되고, 깊이 맵들로 변환되기 전에 오리엔테이션 정규화 알고리즘 (여기 기술되지 않음)을 이용하여 정면을 향하도록 위치된다. 그런 다음 데이터베이스는 두 개의 분리 집합으로 나눠지는데, 하나는 타입 01의 40 개의 깊이 맵들로 이뤄진(도 5 참조) 트레이닝 집합이고, 하나는 도 5에 도시된 모든 캡춰 조건들로 이뤄진 나머지 290 개의 깊이 맵들로 된 테스트 집합이다. 트레이닝 집합 및 테스트 집합 모두 다양한 인종, 나이, 및 성별의 대상들을 포함하며, 누구도 트레이닝 집합와 테스트 집합에 한꺼번에 존재하지 못한다.

환경상의 캡춰 조건에 의해 야기된 원치않는 특징들을 제거함으로써, 이미지 프로세싱 기술들의 사용이 이차원 얼굴 인식 방법의 에러율을 획기적으로 줄일 수 있다는 것이 잘 알려져 있다. 이러한 환경상의 영향 대부분은 3D 얼굴 모델들에 나타나지 않지만, 두드러지는 특징들을 보다 명확히 함으로써 전처리(pre-processing)는 인식을 한층 도울 수 있다. 이 부분에서, 우리는 인식 에러율에 영향을 미칠 수 있는 여러 표면 표현들에 관해 기술한다. 이 표면들은 도 8에 도시된 바와 같이, 두 트레이닝 및 집합 절차들 전에, 깊이 맵들을 전처리함으로써 도출된다.

이러한 접근 방식에서, 주성분 분석을 얼굴 표면의 트레이닝 집합에 적용함으로써 '3D 표면 공간'을 규정하고, Turk와 Pentland [상기 문헌 참조]에 의해 기재되고 이전의 연구에서 사용된 것에 이와 유사한 방식을 도입한다.

오리엔테이션 정규화된 60x105 깊이 맵들로서 저장된 얼굴 표면들의 트레이닝 집합은 고려할 수 있다. 이들 깊이 맵들 각각은 모든 가능한 깊이 맵들의 6300 가지 특성(dimensional) 공간 내 단일 포인트를 나타내는 6300 개의 요소들의 벡터로서 표현될 수 있다. 더 설명하면, 비슷한 기하학적 구조를 가진 얼굴들이, 이러한 높은 특성 공간의 상대적으로 국지화된 영역에 있는 포인트들을 점유할 것이다. 이러한 개념을 밀고 나갈 때, 같은 얼굴에 대한 서로 다른 깊이 맵들은 공간 내 인접하는(nearby) 포인트들로 투사되고, 다른 얼굴들의 깊이 멥들은 멀리 떨어진 포인트들에 투사된다고 가정한다. 이상적으로는, 얼굴 표면들을 포함하는 이러한 공간의 영역을 추출하고, 특성들을 실제 값으로 감축하면서, 깊이 맵 부공간(subspace) 내에서 얼굴 표면들의 분포(spread)를 최대화하는 것이 요망된다.

상술한 특징들을 갖는 공간을 규정하기 위해, M 깊이 맵들(이 경우, M=40) 로 된 트레이닝 집합

에 주성분 분석을 응용하여, 공분산 행렬을 산출한다.

은 평균

과 n 번째 깊이 맵의 차이이다. 공분산 매트릭스의 고유벡터들(eigenvectors)과 고유값들은 표준 선형 방법들을 이용해 산출된다. 그 결과에 의한 고유 벡터들이 깊이 맵 공간 내 축들의 집합을 나타내고, 그에 따라 대부 분의 분산이 트레이닝 집합 내에서 일어나고, 그에 상응하는 고유값들은 각 축에서의 이러한 분산의 정도를 나타낸다. M 개의 고유벡터들은 내림차순의 고유값들로서 저장되고 M'의 최대 고유벡터들 (이 시스템에서 M'=40)은 표면 공간을 나타내기 위해 선택된다. 그 효과는, 공간의 특성들을 M'로 줄이면서, 깊이 맵 부공간 전역에 걸쳐 얼굴 표면들 사이에 높은 분산도를 유지하였다는 것이다.

각각의 고유벡터를, 도 7에 도시된, 얼굴 표면 주요 성분들의 영역 이미지들로서 디스플레이될 수 있는 6300 개의 요소들(오리지널 깊이 맵들에서의 깊이 값들의 수)을 포함하는 고유 표면(eigensurface)라 칭한다.

표면 공간이 규정되었으면, 수학식 1의 공분산 행렬로부터 산출된 고유 벡터들을 이용하는 단순 행렬 곱셈 연산을 통해 한 얼굴을 표면 공간에 투사한다.

는 k 번째 고유벡터이고

는 벡터

의 k 번째 요소이다. M' 계수는 각각의 개별 고유 표면의, 투사되는 깊이 맵으로의 기여분(contribution)을 나타낸다. 벡터

는 표면 공간의 어떤 사람의 얼굴 구조를 나타내는 '얼굴-키'로서 취해지고 유클리드 거리나 코사인 거리 측정 기준에 따라 비교된다.

또한, 거리 산출 전에 각 얼굴-키를 그 개개의 고유값들로 나누고, 어떤 고유한 특성의 바이어스(inherent dimensional bias)를 제거하고 두 개의 보충적 측정 기준인 마할라노비스(mahalanobis) 거리 및 코사인 거리를 도입할 수 있다. 인식 (두 얼굴 표면이 매치함) 또는 거부(두 얼굴 표면이 매치하지 않음)는 산출된 거리에 어떤 문턱치를 적용하여 판단된다. 문턱치 미만의 거리라는 결과를 보이는 비교는 인식으로 간주된다. 얼굴 인식 방법들의 효율을 평가하기 위해, 우리는 290 얼굴 표면들에 대한 테스트 집합에 대해 41,905 번의 검증 동작을 수행하고, 발생된 에러율을 산출한다(도 8 참조). 테스트 집합 내 각 표면은 다른 모든 표면과 비교되고, 어떤 이미지도 자신과는 비교되지 않으며, 각각의 쌍이 단 한번만 비교된다 (그 관계는 대칭적이다).

문턱치를 적용한 후 오인식율(타인 인식률) 및 오거부율(본인 거부율)이 틀린 인식 및 틀린 거부의 백분율로서 산출된다. 일정한 범위의 문턱치들을 적용하는 것은 일련의 FAR, FRR 쌍들을 생기게 하며, 이들이 도 9의 본 발명의 벤치마크 시스템에 대해 도시된 것과 같은 그래프 상에 그려진다. EER(동등 에러율)은 FAR이 FRR과 같은 포인트로서 보여질 수 있다.

이제, 290 개의 얼굴 표면들의 테스트 집합에 대해 3차원 얼굴 인식 방법들을 테스트한 것으로부터 모아진 결과를 보일 것이다. 그 결과는 FAR 대 FRR의 에 러 곡선들과 EER들의 막대 차트들로서 제공된다. 도 8은 앞에서 기술한 네 개의 거리 측정 기준을 이용하는 베이스라인 시스템 (얼굴 표면 깊이 맵들)에 대해 산출된 에러 곡선을 보인다.

이 결과들은, 거리 값들을 산출하기 전에 벡터 특성을 정규화하기 위해 고유값들로 나누는 것이 유클리드 및 코사인 거리 측정들 모두에서 에러율을 상당히 감소시키고, 마할라노비스 거리에서는 최저의 EER을 제공한다는 것을 명확히 보이고 있다. 동일한 네 곡선들이 도 11에 제공된 단일 비교 값으로 가져온 EER들과 모든 표면 표현들에 대해 생성되었다.

도 11에 도시된 EER들로부터, 표면 경사농도(gradient) 표현들이 얼굴 인식에 있어 가장 구별 가능한 정보를 제공함을 분명히 알 수 있다. 수평 도함수들(horizontal derivatives)이 가중된 코사인 거리 측정기준을 이용하여, 그 중 가장 낮은 에러율을 보인다. 실제로, 가중된 코사인 거리는, 가중된 코사인 EER이 특히 높을 때의 몇몇 경우들을 제외하면 대부분의 표면 표현들에 있어서 가장 낮은 에러율을 낳는다. 그러나, 어느 것이 가장 효율적인 표면 표현이냐는, 사용된 거리 측정 방식과 무관하게 일반적으로 구별능력이 떨어지는 곡률 표현을 제외하고, 비교에 사용된 거리 측정 기준에 달려 있는 것으로 보여진다 (도 10 참조).

가정 효율적 표면 표현들의 직교하는 성질로 인해 (수평 및 수직 도함수들), 이들 표현들을 결합한 것이 에러율을 좀 더 줄일 것이라고 전제한다. 따라서, 도 11에 사용된 방법들 이외에, 수많은 표면 공간들로부터 투사된 얼굴-키들을 연결하여 여러 시스템의 조합들을 테스트하고, 여러 표면 표현들로부터의 특징 구별 짓기 를 이용하고자 할 것이다. 이에 대한 결과가, 가중된 코사인 거리 측정 기준을 확장형 얼굴-키들의 조합에 적용하여 산출한, 표 1에서 보여지고 있다.

표 1. 표면 공간 조합 시스템들의 EER(동등 에러율)

표면 공간 조합	EER
소벨(Sobel) X, Sobel Y, 높은 수평 경사농도(horizontal gradient large), 수직 경사 농도(vertical gradient)	12.1%
라플라스(Laplacian), 높은 수평 경사 농도(horizontal gradient large), 높은 수직 경사 농도(vertical gradient large)	11.6%
라플라스, 소벨 X, 수평 경사농도, 높은 수평 경사 농도, 수직 경사 농도, 높은 수직 경사 농도	11.4%

이미 잘 알려진 이차원 얼굴 인식 방법이 3차원 얼굴 모델들에 사용되기 위해 변형(adapted)될 수 있음을 보였었다. 인식을 수행할 때 통상적 어려움을 주는 조건하에서 캡춰된, 얼굴 표면들에 대한 방대한 데이터베이스 상에서 테스트가 수행되었다. 베이스라인 3차원 시스템들로부터 발생한 에러율은 이차원 이미지들을 이용한 이와 비슷한 실험들에서 수집된 것보다 훨씬 낮다. 3차원 얼굴 인식이 종래의 이차원 방식에 비해 월등한 이점을 가진다는 것은 명백하다.

여러 표면 표현들을 가지고 작업할 때, 얼굴 표면 경사 농도가 깊이 및 곡률 표혐 보다 인식에 있어 효율적이라는 것을 알게 되었다. 특히, 수평 경사 농도(horizontal gradients)는 최저의 에러율을 낳는다. 이것은 수평 도함수들이 수직 프로파일들 보다 구별이 되는 정보를 제공한다는 것을 나타내는 것으로 보인다. 또 다른 이점은, 경사 농도들이 얼라인먼트(alignment) 절차의 부정확성에 보다 강할 가능성이 높다는 것으로, 이는 도함수들이 Z 축으로의 변환에 대해 불변할 것이기 때문이다.

곡률 표현은 다른 표면 표현들만큼 많은 구별되는 정보를 포함하는 것 같지 는 않다. 우리는 이러한 예기치 않은 결과가, 이차 도함수들이 Z 축 상의 오리엔테이션 및 변환의 부정확성에 덜 민감할 것이기 때문이라고 이해한다. 그러나, 이것은 부정확한 3D 모델 분석의 반영일 수 있으며, 이것이 도 12의 잡음 있는 곡률 이미지들에 대한 원인일 수 있다.

세 가지 거리 측정 기준들을 테스트하여, 얼굴-키 비교 방법의 선택이 에러율의 결과에 상당한 영향을 미친다는 것을 알았다. 또한, 각각의 얼굴-키를 그 개개의 고유값들로 나누어, 특성의 분포를 정규화하는 것이 통상적으로 유클리드 및 코사인 거리 둘 모두에 대한 결과를 개선한다는 것 역시 명백하다. 이러한 사실은 특성의 분포가 반드시 구별 능력에 비례하지는 않으며 전체적으로 표면 공간이 고르게 분포될 때 더 구별성이 있음을 나타낸다. 그러나, 이러한 것은, 다수의 구별성이 덜한 성분들과 함께 정규화될 때 마스크되는(masked) 단지 몇 개의 주요하고 유용한 성분들을 포함할 것을 암시하는, 보다 높은 EER을 가진 일부 표면 표현들에는 해당하지 않는다.

가중된 코사인 거리는 최적 시스템을 포함하여, 대다수의 표면 표현들에 있어서, 가장 낮은 에러율을 발생한다. 이 측정 기준은 또한 수많은 표면 표현들에 의해 제공되는 이점들을 활용하고자 하는 시도로서 여러 개의 얼굴-키들을 결합하는 수단을 제공하여, 에러 레이트들을 더 줄인다.

초기 깊이 맵들을 사용해 얻어지는 17.8%의 EER이라는 에러율을, 가장 효율적인 표면 표현들이 하나의 시스템으로 결합되었을 때의 에러율인 12.1%까지 그럭저럭 줄일 수 있었다. 이러한 결과들은, 기하학적 얼굴 구조가 컬러 및 텍스춰 정 보로부터 독립적으로 사용될 때 인식에 있어 유용하고 높은 정확도 수준에 도달할 수 있다면, 이전의 연구들에서와 유사한 상황하에서 테스트 되는 최선의 이차원 시스템들 보다 실질적으로 더 낮다. 데이터 캡춰 방법이 조명 상태에 대해 불변하는 얼굴 모델들을 생성하고 포즈와 무관하게 얼굴들을 인식하는 능력을 제공할 때, 이 시스템은 보안과 감시 어플리케이션에서의 사용에 특히 매력적일 수 있다.

이제 도 13에서 18의 예로 주의를 돌리고자 한다.

이전의 연구 [2000년, 이미지 및 비전 컴퓨팅, 18권 4호, 315-321, Beumier, C와 Acheroy, M의 자동 3D 얼굴 인식], [1992년 일리노이주 샴페인에서의 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컴퓨터 회보 108-110, Gordon, G.의 깊이 및 곡률 특성에 기반한 얼굴 인식], [2000년 4차 IEEE 자동 얼굴 및 제스처 인식에 관한 국제 회보 233-8 Chua, C; Han, F; Ho,T의 포인트 표시를 이용한 3D 사람 얼굴 인식], [2000년 뱅쿠버에서의 이미지 프로세싱에 관한 국제 회의 중 Zhao, W와 Chellaa, R의 개선된 3D 모델 얼굴 인식], [2002년 컴퓨터 비전에 대한 유럽 회의 중 Romdhani,S; Blanz, V; Vetter, T의 선형 모양 및 텍스춰 에러 함수를 이용한 3D 변형가능 모델을 적응시킴에 따른 얼굴 식별], [2002년 AFGR에 대한 제5차 IEEE 회의 중, Blanz, V; Romdhani,S, Vetter, T의 3D 변형가능 모델을 이용한 다양한 포즈와 조명하에서의 얼굴 식별], [2000년 패턴 인식에 관한 11차 포르투갈 회의에서 Beumier, C와 Acheroy, M의 3D 및 그레이 레벨 표지들로부터의 자동 얼굴 검증]는 3D 얼굴 모델들의 이용이 2D 얼굴 인식과 관련된 몇몇 문제들을 해결할 수 있다는 것을 보여왔다. 우선, 컬러 및 텍스춰 정보가 아닌 기하학적 모양에 의존함으 로써, 시스템들이 조명 상태에 대해 불변하게 된다. 둘째로, 3차원 공간에서 얼굴 구조를 회전하는 능력은, 포즈의 변화를 보충할 수 있게 하여, 인식 전 얼라인먼트(정렬)를 필요로 하는 방법들을 지원한다. 마지막으로, 얼굴 표면 구조에 사용 가능하지만 2차원 이미지들로부터는 사용 가능하지 않은 추가 판별 정보가 인식에 대한 추가적 기회를 제공한다.

그러나, 2D 데이터가 3D 데이터에 부가되거나-그 대안으로서 사용될 수도 있음을 알아야 한다.

구별하는 특징들이 보다 명확하게 만들어지고, 환경상의 결과들이 정규화되며 잡음 내용이 감소되는, 트레이닝 및 인식 이전에 적용되는 전처리 기술들의 사용이 인식 정확도를 크게 향상시킬 수 있다는 것 역시 보여졌다 []2002년 이미지 및 그래픽에 대한 제2차 국제 회의 회보, SPIE 4875권 677-685의 Heseltine,T., Pears, N., Austin, J의 고유얼굴-기반 얼굴 인식을 위한 이미지 전처리 기술의 평가]. 그러나, 앞서의 연구의 초점은 최적 표면 표현을 식별하는 데 맞춰져 있었고, 각각의 개별 표면 표현에 의해 제공되는 이점에는 별 관심이 없었다. 본 발명은 전반적인 인식에 있어서 일반적 취약성을 가짐에도 불구하고, 서로 다른 표면 표현들이 서로 다른 캡춰 조건들이나 소정의 얼굴 특징에 고유하게 맞춰질 수 있다는 것을 제안한다. 예를 들어, 곡률 표현은 시스템을 3D 오리엔테이션의 부정확성에 보다 강력하게 만들어 인식을 도울 수 있지만, 한편 잡음에는 크게 민감할 수 있다. 다른 표현은 코 모양을 개선시킬 수 있지만, 얼굴 특징들의 상대적 위치들을 놓칠 수 있다. 여러 고유 공간들(eigenspaces)을 이용하는 것의 이점이 Pentland 등에 의해 [1994년 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의 중, A.Pentland, B.Moghaddom, T.Starner의 "얼굴 인식을 위한 보기-기반 및 모듈형 고유얼굴들"] 이전에 검토되었는 바, 그 내용에는, 전문가 고유공간들이 다양한 얼굴의 오리엔테이션들과 로컬 얼굴 영역들에 대해 생성되고, 그로부터 누적되는 매치 점수들이 에러 레이트들을 줄일 수 있었다. 이 예에서 본 발명의 방식은, 개별적 특성들을 추출 및 결합하여 하나의 단일화된 표면 공간을 생성한다는 점에서 차이가 있다. 이 방식은 이차원 이미지들에 적용될 때 효과적으로 작용한다는 것을 보여 주고 있다.

여기서, 본 발명은 각각의 표현에 의해 주어지는 이점들을 식별 및 분리하기 위한 시도로서, 각각이 얼굴 구조에 대한 서로 다른 표면 표현을 이용하는 3D 얼굴 인식 시스템들의 범위를 분석 및 평가한다. 얼굴 인식에 대한 fisher 표면 방법에 초점을 맞추면서, 각각의 시스템에 의해 생성된 표면 부공간으로부터 성분들을 선택 및 추출하는 수단을 제공하여, 이들이 단일화된 표면 공간으로 결합될 수 있도록 한다.

트레이닝 및 테스트 전에, 3D 얼굴 모델들은 도 13에 도시된 얼굴 표현들 가운데 하나로 변환된다. 이것은 우선 3D 얼굴 모델을 정면으로 바라보도록 위치시키고, 그런 다음 깊이 맵에 투사함으로써 행해진다. 그런 다음, 깊이 맵들에 대한 전처리를 통해 도 13의 표의 표면들이 도출된다.

Belhumeur 등이 기술한 것과 같이 [1996년 컴퓨터 비전에 대한 유럽 회의 회보 45-58 페이지, Belhumeur, J. Hespanha, D. Kriegman의 "고유얼굴(eighenfaces) 대 피셔 얼굴(Fisherfaces): 클래스 고유 선형 투사를 이용한 얼굴 인식"], 얼굴 인식에 대한 피셔 얼굴 방법의 간략한 설명을 제공하여, 그것이 3차원 얼굴 표면들에 어떻게 적용되고 피셔 표면(Fishersurface) 방법이라 불리는지를 설명할 것이다. 주성분 분석 및 선형 판별 분석 둘 모두를 3D 얼굴 모델들의 표면 표현에 적용하여, 고유 얼굴 [1994년 컴퓨터 비전 및 패턴 인식에 대한 IEEE 회보, A.Pentland, B.Moghaddom, T.Starner의 "얼굴 인식을 위한 보기 기반 및 모듈형 고유 얼굴들"] 및 고유 표면 방법들에 사용된 것과 같은 부공간 투사 행렬을 생성한다. 그러나, 피셔 표면 방법은 '클래스 내부(within-class)' 정보를 활용하여, 같은 사람의 여러 얼굴 모델들 사이의 변화를 최소화하고, 더 나아가 클래스 분리를 최대화할 수 있다. 이를 수행하기 위해, 본 발명은 각각의 대상에 대한 여러 예들을 포함하도록 트레이닝 집합을 확장하여, 수학식 4에 도시된 것과 같이 한 얼굴 모델에서 다른 모델로, (얼굴 표정 및 머리 방향과 같은 영향에 따른) 한 사람의 얼굴 구조의 변동을 나타낸다.

는 얼굴 표면이고 트레이닝 집합은 c 개의 클래스들로 분할되는데, 각 클래스

내 각각의 표면은 동일한 사람의 것이고 어떤 한 사람도 한 클래스 이상에서 존재하지 못하게 된다. 세 개의 산란(scatter) 행렬들을 산출하고, 수학식 5에 보이는, 표면 공간 전체에 걸친 트레이닝 집합의 클래스 내부

, 클래스 사이

, 및 전체적

분포를 나타낸다.

는 전체 트레이닝 집합의 평균 표면이고,

는 클래스

의 평균이다. 총 산란 행렬

를 이용해 PCA를 수행하고, 최상위 M-c 주성분들을 취함으로써, 본 발명은 클래스 내부 산란 매트릭스의 특성(dimensionality)을 줄이는데 사용되는 투사(projection) 행렬

을 생성하여, 수학식 6에 도시된 것과 같은

인, 감축된 산란 행렬 비율에 대한 최상위 c-1 (이 경우 49)의 고유 벡터들을 산출하기 전에 그것이 비특이 행렬이 되게 한다.

마지막으로, 행렬

가 수학식 7에 보인 것처럼 산출되어, 이 행렬이 얼 굴 표면을 c-1 가지 특성의 감축된 표면 공간으로 투사될 수 있게 하며, 이때 클래스 간(between-class) 산란은 모든 c 개의 클래스들에 대해 최대가 되는 한편, 내부 클래스 산란은 각각의 클래스

에서 최소가 된다.

행렬

가 구성되었으면, 이 행렬은 고유 얼굴 및 고유 표면 시스템들의 투사 행렬에서와 매우 동일한 방식으로 사용되어, 얼굴 표면 벡터들의 특성을 5330에서 단 49 (c-1) 개의 요소들로 줄이게 된다. 또, 고유 얼굴 시스템처럼, 투사 매트릭스의 성분들 역시 이미지들로 보여질 수 있다.

표면 공간이 규정되었으면, 수학식 8에 보여진 것과 같이, 행렬

를 이용하는 간단한 행렬 곱셈에 의해 얼굴 표면을 표면 공간으로 투사한다.

는 k 번째 고유벡터이고

는 벡터

내 k 번째 요소이다. c-1개의 계수들은 각각의 개별 피셔 표면의 오리지널 얼굴 표면 구조로의 기여분(contribution)을 나타낸다. 벡터

는 감소된 특성 표면 공간에 서의 한 사람의 얼굴 구조를 나타내는 '얼굴-키'로서 주어져, 수학식 9에 보인 것과 같이 유클리드 거리나 코사인 거리 측정 기준을 이용해 비교된다.

인식 (두 얼굴 표면들이 매치함) 또는 거부 (두 표면들이 인식 못함)는, 산출된 거리에 어떤 문턱치를 적용하여 결정된다. 문턱치 미만의 거리 값이 나오게 하는 비교는 인식으로 간주된다.

이제, 다양한 얼굴 표면 표현들이 피셔 표면 방법과 함께 사용될 때 생성되는 표면 공간들을 분석한다. 다양한 표면 표현들을 사용할 때 발생되는 에러율들의 범위를 나타내는 결과들을 제공하는 것으로 시작한다. 도 14는 표면 표현의 선택이 피셔 표면 방법의 효율에 큰 영향을 준다는 것과, 수평 경사농도 표현들은 최저의 동등 에러율 (EER, FAR가 FRR과 같을 때의 에러)을 제공한다는 것을 명확하게 보이고 있다.

그러나, 수평 경사농도 표현들의 우수성은 수직 경사농도 및 곡률 표현들이 전혀 소용없다는 것을 나타내는 것은 아니며, 이들 표현들에 의해 주어지는 판별 정보가 그다지 강력하고 탁월한 구별성은 없을지 모르지만, 이것이 이 표현들이 수평 경사농도 표현들에서 이미 사용되는 정보에 대해 긍정적인 기여를 하지 않을 것이라는 말은 아니다. 이제, 3D 얼굴 생김새들을 분석하기 위해 Gordon [상기 문헌 참조]에 의해 사용된 것과 같은 피셔의 선형 판별(FLD)을 각각의 표면 공간의 개개 의 성분들 (단일 특성)에 적용함으로써, 각 표면 공간의 판별 능력에 대해 보다 상세히 검토하고자 한다. 하나의 얼굴 공간 특성에 초점을 맞출 때, c 명의 사람들 사이의 그 특성에 대한 판별력을 나타내는 판별자 d를 산출한다.

m은 얼굴-키들의 그러한 특성의 평균치이고, m_i는 클래스 i의 클래스 내부 평균이며,

는 클래스 i의 얼굴-키들로부터 가져온 벡터 성분들의 집합이다. 각각의 얼굴 표면 표현을 이용하여 생성된 표면 공간 시스템들의 분류에 상기 수학식을 적용할 때, 각각의 표면 표현을 위한 상위 10 개의 가장 판별력 있는 특성들에 대해 도 15에 도시된 것과 같이, 각각의 개별 특성의 판별 능력을 나타내는 폭넓은 범위의 판별값들을 볼 수 있다.

몇몇 표면 표현들이 얼굴 인식 테스트들에서 잘 이행되지 않으면서 높은 EER들을 발생해도 (가령 min_curvature), 이들의 얼굴-키 성분들 중 일부는 매우 판별력이 높은 정보를 포함한다는 것이 자명한 사실이다. 다른 면에서는 비효율적인 부공간에서 이렇게 높은 판별성이 있다는 예외성의 이유는, 소정 표면 표현이 코 모양이나 턱 구조와 같이 하나의 판별력 있는 요소에 특히 잘 맞을 수는 있으나, 보다 일반적인 분류자로서 사용될 때는 비효율적이기 때문임을 유추할 수 있다. 따라서, 보다 특수화된 부공간들로부터 이러한 약간의 유용한 특질들을 분리할 수 있다면, 이러한 특질들을 보다 효율적인 표면 공간에 긍정적 기여를 하게 하는데 사용하여, 에러율을 보다 낮출 수 있을 것이다.

이제 상술한 분석 방법이 여러 얼굴 인식 시스템들을 결합하는데 어떻게 사용되는지에 대해 설명할 것이다. 먼저, 표면 공간 특징들의 우선 순위화 문제를 언급할 필요가 있다. 일련의 시스템들로부터 얼굴-키 벡터들의 평균 크기 및 편차는 크기에 대한 어떤 등급에 따라 달라질 것이기 때문에, 판별 능력들이 고르게 매치된다고 해도 소정 특징들(dimensions)이 다른 것들에 비해 훨씬 큰 영향을 주게 될 것이다. 이러한 영향을 보상하기 위해, 각각의 얼굴-키 성분을 그 클래스 내 표준 편차로 나눔으로써 적률(moments)을 정규화한다. 그러나, 이러한 특징들을 정규화할 때, 모든 얼굴 공간 성분들이 똑같이 고려될 수 있도록 어떠한 우선 순위 역시 배제하였다. 하나의 표면 공간에 적용될 때는 문제되지 않는 것이지만, 여러 특징들을 결합할 때는 보다 신뢰성 있는 성분들에 대해 보다 큰 우선권을 주는 것이 이상적일 수 있다. 그렇지 않으면 상당 수의 판별력이 덜한 (그러나 유용한) 특징들이 일부 더 판별력 있는 것들을 압도하기 시작할 때 문제가 발생할 가능성이 있다. 어떤 주어진 얼굴 공간으로부터 한 특징의 판별 능력을 평가하는데 FLD가 어떻게 사용될 수 있는지를 보였다. 이제 이 판별값 d를 각각의 얼굴 표면 특징에 대한 가중치로서 적용하여, 가장 높은 판별 능력을 가진 특징들에 우선권을 부여할 것이다.

각 시스템에서 발생한 모든 얼굴-키들에 적용되는 이러한 가중 방식을 통해, 특징들을 하나의 단일화된 표면 공간으로 결합하기 시작할 수 있다. 일련의 표면 공간들로부터의 여러 특징들을 결합하기 위해, 어던 특징들을 결합할지를 판단하기 위한 어떤 기준이 필요하다. 순전히 판별값 자체에만 의존하는 것으로는 충분치 않는데, 이 값은, 이 특징을 포함하는 것이 기존의 특징들의 집합에 도움이 될 것인지 여부에 대한 어떠한 지시도 없이 단지 그 특징 단독의 판별 능력에 대한 표시만을 제공할 뿐이기 때문이다. 기존의 표면 공간이 이미 소정의 판별 능력 정도를 제공할 때, 기존 집합 내에 이미 존재하는 한 모양을 나타내는 추가적 특징을 도입해야 한다면 그것은 거의 무익한 것이 될 것이다(혹은 심지어 해로울 수 있을 것이다).

연구 자료들은 FLD를 사용하여, 인식에 사용될 때의 효과를 예측하기 위해 결합 고유공간(combined eigenspace)에 적용하였다. 그리고 나서 추가 특징들이 보다 판별력이 큰 값을 가져오는 경우 그 추가 특징들을 도입한다. 비록 EER을 사용하는 것이 처리 시간은 극도로 길어지더라도 보다 나은 결과를 제공할 가능성이 크리라는 것을 알 수 있지만, 상기 방법이 2D 얼굴 인식에 있어서 훨씬 낮은 에러율을 달성할 수 있는 2D 고유공간 조합을 제공한다는 것을 보였다. 그러나, 보다 효율적인 조합 알고리즘을 통해, 기존의 표면 공간에 도입될 새로운 특징에 필요로 되는 기준이 EER의 합성적(resultant) 증가가 되게 하는 방식을 이제 택할 것이다. 실제로, 임의의 최적화 방법이 특징들에 대한 최선의 결합을 선택하는데 사용될 수 있다 (일반적 알고리즘들, 시뮬레이팅된 어닐링(annealing) 등).

결합 표면 공간= 현 최적 시스템의 첫 번째 특징 결합 표면 공간의 EER 산출 각 표면 공간 시스템에 대해: 표면 공간의 각 특징에 대해: 결합 표면 공간에 새 특징 연결 결합 표면 공간의 EER 산출 EER이 증가하지 않은 경우: 결합 표면 공간에서 새 특징 제거 평가를 위해 준비된 결합 표면 공간을 저장

도 16은 하나는 유클리드 거리 측정기준을 사용하고 다른 하나는 코사인 거리 측정기준을 사용하는 두 결합 시스템에 포함하기 위해, 상기 알고리즘을 이용해 어느 표면 공간에서 어느 특징들이 선택되었는지를 보인다.

이제 코사인 및 유클리드 거리 측정 기준들을 이용하여 결합 표면 공간 시스템들을 최적 개별 시스템과 비교할 것이다.

도 17 및 18에 도시된 에러 곡선은 코사인 및 유클리드 거리 측정기준을 사용하여, 최적 단일 피셔 표면 시스템과 결합 피셔 표면 시스템이 테스트 집합 A (결합 시스템을 구성하는데 사용됨), 테스트 집합 B (미도시 테스트 집합), 및 전체 테스트 집합 (집합 A 및 B로부터의 모든 이미지들)에 적용될 때 얻어지는 결과들을 도시한 것이다. 코사인 및 유클리드 거리 측정 모두의 경우 결합 시스템들 (점선들)이 단일 시스템들보다 낮은 에러율을 발생한다는 것을 알 수 있다. 최적 시스템은 코사인 거리를 이용하는 피셔 표면 결합임을 알 수 있고, 이때 테스트 집합 A, B, 및 A와 B 각각에서 7.2%, 9.3%, 및 8.3%의 EER을 발생함을 알 수 있다.

이것은 단지 특징들을 선택하는 하나의 예일 뿐이며, 이 경우 모든 수평적 도함수 성분들의 선택인 초기 선택 성분들의 집합 부근에서의 성능에 대한 국지적 최대치만을 판단할 수 있다는 것을 알아야 한다. 일반적으로 본 발명의 다른 실시 예들은, 정확하고 신뢰성 있는 시스템 성능을 제공하기 위해 특성들의 총 집합으로부터 특성들의 부분집합을 선택하는데 사용되는 어떤 서치 혹은 최적화 방법을 망라한다.

여기 개시된 다양한 방법들은 서로서로 결합 될 수 있다.

상술한 것과 같이, 도시된 본 발명의 실시예들이 얼굴들을 인식하는데 사용되는 것이지만, 다른 객체들을 인식하는데 사용 혹은 변형될 수도 있다.

이 명세서에서, "포함한다"는 말은 통상의 사전적 의미로서, 배타적이지 않은(non-exclusive) 포함을 뜻한다. 즉, 한가지 특징 이상을 포함한다고 할 때의, "포함한다"라는 말 (또는 그 파생어들)의 사용은 다른 특징들의 포함 가능성을 배제하지 않는다.

이 출원 문서와 관련하여 확인된 각종 우선권 서류들과, 이 출원과 관련하여 본 명세서 이전이나 동시에 출원되어 이 명세서와 함께 공공 열람에 개방된 모든 논문들과 서류들, 그리고 그러한 모든 논문들과 서류들의 콘텐츠들이 고려되며, 이 문서상에 참조 형태로 병합된다.

이 명세서에 개시된 각종 특징들 및/또는 개시된 방법이나 프로세스의 모든 단계들은, 그러한 특징들 및/또는 단계들의 적어도 일부가 상호 배타적인 결합 형태를 제외한 어떤 조합형태로도 결합될 수 있다.

이 명세서에 개시된 각각의 특징은 명백히 다르게 기술되는 것이 아니라면 동일하거나, 등가적이거나 유사한 목적에 맞는 대안적 특징들로 대체될 수 있다. 따라서, 명백히 다르게 기술되지 않는다면, 개시된 각각의 특징은 포괄적인 일련의 등가적이거나 유사한 특징들에 대한 하나의 예일 뿐인 것이다.

본 발명은 상술한 실시예(들)의 세부 내용에 국한되지 않는다. 본 발명은 이 명세서에 개시된 특징들의 어떤 신규한 한 가지, 또는 어떤 신규한 조합 형태로 확장되거나, 여기 개시된 방법이나 프로세스 단계들의 어떤 신규한 한가지 또는 신규한 조합 형태로 확장된다.

Claims

이미지 인식 방법에 있어서,

a. 이미지를 처리하여, 복수의 서로 다른 가공(processed) 이미지들을 포함하는 이미지 집합을 제공하는 단계;

b. 상기 이미지 집합 내 가공 이미지들을 결합하는 단계;

c. 상기 이미지 집합 내 가공 이미지들이 점유하는 데이터 공간을 변형하는 단계;

d. 상기 변형된 데이터 공간상에 표현된 이미지-집합으로부터, 상기 이미지를 대표하는 이미지 키를 생성하는 단계; 및

e. 상기 이미지 키를, 이전에 저장된 적어도 하나의 어떤 기존 이미지의 이미지 키와 비교하는 단계를 포함함을 특징으로 하는 이미지 인식 방법.
제1항에 있어서, 상기 a 단계는,

에지들(edges), 라인들, 웨이블릿들(wavelets), 경사농도(gradient) 성분들, 곡률(curvature) 성분들 및 컬러 성분들 중 적어도 한 가지를 포함하는 이미지 특성을 추출하는 단계를 포함함을 특징으로 하는 이미지 인식 방법.
제1항 또는 제2항에 있어서, 상기 b 단계는 상기 c 단계 전에 수행됨을 특징으로 하는 이미지 인식 방법.
제1항 또는 제2항에 있어서, 상기 c 단계는 상기 b 단계 전에 수행됨을 특징으로 하는 이미지 인식 방법.
제1항, 제2항, 또는 제3항에 있어서, 상기 e 단계는,

상기 이미지 키를 이전에 저장된 딱 한 개의 이미지 키와 비교하여, 이미지의 아이덴티티(동일성)을 검증하는 단계를 포함함을 특징으로 하는 이미지 인식 방법.
제1항, 제2항, 또는 제3항에 있어서, 상기 e단계는,

상기 이미지 키를 이전에 저장된 복수의 이미지 키들과 비교하여, 이미지를 식별하는 단계를 포함함을 특징으로 하는 이미지 인식 방법.
제6항에 있어서,

이전에 저장된 이미지 키들과의 잠정적 매치 리스트를 생성하기 위해, e 단계의 비교 결과를 저장하는 단계를 더 포함함을 특징으로 하는 이미지 인식 방법.
제6항 또는 제7항에 있어서, 상기 e 단계는 유클리드 거리 측정법 (L2 norm), 마할라노비스(mahalanobis) 거리 측정법, 또는 코사인 거리 측정법을 이용해 수행됨을 특징으로 하는 이미지 인식 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, a 단계 이전에,

상기 이미지를 소정 방향(orientation) 및/또는 위치 및/또는 깊이 규격(normalisation)으로 회전 및/또는 위치시키는 단계를 포함함을 특징으로 하는 이미지 인식 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, b 단계 이전에,

결합에 앞서 데이터를 정규화하는 단계를 포함함을 특징으로 하는 이미지 인식 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,

상기 이미지는 카메라로부터 얻어짐을 특징으로 하는 이미지 인식 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,

상기 이미지는 3D 데이터를 포함함을 특징으로 하는 이미지 인식 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,

상기 이미지는 2D 데이터를 포함함을 특징으로 하는 이미지 인식 방법.
제12항 및 제13항에 있어서, 상기 이미지는 등록된 2D-3D 이미지 쌍을 포함 함을 특징으로 하는 이미지 인식 방법.
제1항 내지 제14항 중 어느 한 항에 있어서, c 단계는 주성분 분석(Principal Component Analysis) 방법을 통해 수행됨을 특징으로 하는 이미지 인식 방법.
제1항 내지 제14항 중 어느 한 항에 있어서, c 단계는 피셔의 선형 판별 분석(Fisher's Linear Discriminant Analysis) 방법을 통해 수행됨을 특징으로 하는 이미지 인식 방법.
제1항 내지 제16항 중 어느 한 항에 있어서, 상기 이미지는 얼굴에 대한 이미지임을 특징으로 하는 이미지 인식 방법.
제1항 내지 제17항 중 어느 한 항에 있어서, 상기 이미지는 사람의 얼굴에 대한 이미지임을 특징으로 하는 이미지 인식 방법.
제1항 내지 제18항 중 어느 한 항에 있어서, 상기 이미지는 자연 이미지임을 특징으로 하는 이미지 인식 방법.
제1항 내지 제19항 중 어느 한 항에 있어서, 상기 이미지 집합은 오리지널 이미지를 포함함을 특징으로 하는 이미지 인식 방법.
이미지 인식 방법에 있어서,

상기 방법은, 첨부된 도면을 참조하여 명세서에 기재된 바와 실질적으로 같은 것임을 특징으로 하는 이미지 인식 방법.
이미지 인식 장치에 있어서,

a. 이미지를 처리하여, 복수의 서로 다른 가공(processed) 이미지들을 제공하도록 구성된 프로세싱 수단;

b. 상기 가공 이미지들을 결합하도록 구성된 결합 수단;

c. 상기 가공 이미지들이 점유하는 데이터 공간을 감축하도록 구성된 감축 수단;

d. 상기 결합 및 감축된 가공 이미지들로부터 상기 이미지를 대표하는 이미지 키를 생성하도록 구성된 생성 수단; 및

e. 상기 이미지 키를, 이전에 저장된 적어도 하나의 어떤 기존 이미지의 이미지 키와 비교하도록 구성된 비교 수단을 포함함을 특징으로 하는 이미지 인식 장치.
제21항에 있어서,

제1항 내지 제20항 중 어느 한 항에 따른 방법을 수행하도록 구성됨을 특징 으로 하는 이미지 인식 장치.
이미지 인식 장치에 있어서,

상기 장치는, 첨부된 도면을 참조하여 명세서에 기재된 바와 실질적으로 같은 것임을 특징으로 하는 이미지 인식 장치.
3차원 이미지를 인식하는 방법에 있어서,

a. 피셔의 선형 판별 분석법을 이용하여 이미지가 점유하는 데이터 공간을 변형하는 단계;

b. 상기 변형된 데이터 공간으로부터 상기 이미지를 대표하는 이미지 키를 생성하는 단계; 및

c. 상기 이미지 키를, 이전에 저장된 적어도 하나의 어떤 기존 이미지의 이미지 키와 비교하는 단계를 포함함을 특징으로 하는 3차원 이미지 인식 방법.
3차원 이미지를 인식하는 장치에 있어서,

a. 피셔의 선형 판별 분석법을 이용하여 이미지가 점유하는 데이터 공간을 변형하는 수단;

b. 상기 변형된 데이터 공간으로부터 상기 이미지를 대표하는 이미지 키를 생성하는 수단; 및

c. 상기 이미지 키를, 이전에 저장된 적어도 하나의 어떤 기존 이미지의 이 미지 키와 비교하는 수단을 포함함을 특징으로 하는 3차원 이미지 인식 장치.