KR102174595B1

KR102174595B1 - 비제약형 매체에 있어서 얼굴을 식별하는 시스템 및 방법

Info

Publication number: KR102174595B1
Application number: KR1020167019024A
Authority: KR
Inventors: 아툴 카나우지아; 나라야난 라마나단; 태은 최
Original assignee: 아비질론 포트리스 코퍼레이션
Priority date: 2013-12-19
Filing date: 2014-12-19
Publication date: 2020-11-06
Also published as: ZA201604115B; WO2015095733A1; SG11201604981UA; CN106068514B; EP3084682A4; US9449432B2; EP3084682A1; CN106068514A; KR20160101973A; CA2934514C; IL246209A0; IL246209B; AU2014368997B2; MX2016007868A; US20150178554A1; US20160314345A1; JP2017506379A; JP6411510B2; MX358833B; AU2014368997A1

Abstract

얼굴 인식을 위한 방법 및 시스템이 제공된다. 그 방법은 개인의 다수의 서로 다른 이미지에 기초하여 개인의 얼굴의 3차원(3D) 모델을 판정하는 것을 구비한다. 그 방법은, 또한, 3D 모델로부터 2차원(2D) 패치(patch)들을 추출하는 것을 구비한다. 그 방법은, 또한, 2D 패치들의 서로 다른 조합들을 이용하여 얼굴의 다수의 시그니처(signature)들을 생성하는 것을 구비하되,다수의 시그니처는 서로 다른 각도들로부터의 3D 모델의 각 뷰(view)에 대응한다.

Description

비제약형 매체에 있어서 얼굴을 식별하는 시스템 및 방법{SYSTEM AND METHOD FOR IDENTIFYING FACES IN UNCONSTRAINED MEDIA}

본 출원은 2013년 12월 19일자 출원된 가출원번호 제61/918,208 및 2014년 3월 20일자 출원된 가출원번호 61/968,015호의 우선권을 주장하며, 그들의 전체 개시는 본 명세서에서 참조로서 수록된다.

본 개시는 매체에 있어서 이미지(image)들을 인식하는 시스템 및 방법에 관한 것으로, 보다 구체적으로는 얼굴 인식(facial recognition)에 관한 것이다.

이동 디바이스, 감시 센서 및 법 집행 차량(law enforcement vehicles)에서는 카메라가 일상적인 것이 되고 있다. 그들의 이동성에 기인하여, 그러한 카메라들은 다양한 비제약 상황(unconstrained conditions)에서 개인들의 이미지를 기록할 수 있다. 즉, 각색된 얼굴 사진(staged mug shot)과 대조적으로, 비제약 상황하에서 기록된 개인들의 얼굴들은 조명(예를 들어, 자연 조명 및 인공 조명), 개인들의 얼굴의 속성(예를 들어, 나이, 얼굴 털, 안경), 뷰잉 각도(viewing angle)(예를 들어, 피치 및 요(yaw)), 폐색(occlusion)(예를 들어, 표지판, 나무 등) 등의 변경에 기인하여 크게 달라질 수 있다. 예를 들어, 범죄자들은 붐비는 이벤트에서 불법적인 행위를 한다. 그 행위 시간을 전후하여, 주변 사람들은 그들의 이동 카메라를 이용하여 그 이벤트를 기록하면서 범죄자의 이미지를 포착할 수 있다. 추가적으로, 그 이벤트를 모니터링하는 보안 카메라가 다른 (예를 들어, 높은) 조망에서 범죄자의 이미지를 포착할 수 있다. 동시 발생적으로, 범죄자의 이미지들이 다른 조망 및 폐색을 가진 다수의 카메라들에 의해 포착되었을 수도 있다. 그 기록들은 카메라, 소셜 네트워킹 웹사이트(social networking websites) 및 매체 아웃렛(media outlet)의 조작자로부터 법 집행 당국에 의해 액세스될 수 있다. 그러나, 다양한 기록들로부터 범죄자를 식별하고자 하는 것은 수 많은 양의 이미지 데이터를 통한 감별(sifting)을 요구할 수 있다.

본 개시는 개인의 다른 이미지들에 기초하여 개인의 얼굴의 3차원(3D) 모델을 판정하는 것을 포함하는 방법을 제공한다. 그 방법은 3D 모델로부터 2차원(2D) 패치(patch)를 추출하는 것을 포함한다. 또한, 그 방법은 2D 패치의 다른 조합들을 이용하여 다수의 얼굴 시그니처(a plurality of signatures of the face)를 생성하는 것을 포함하며, 다수의 시그니처는 다른 각도들로부터의 3D 모델의 각각의 뷰(view)에 대응한다.

추가적으로, 본 개시는 프로세서, 저장 시스템, 프로세서가 실행하기 위한 컴퓨터 독출 가능 하드웨어 저장 디바이스상에 저장된 프로그램 명령어를 포함하는 얼굴 인식 시스템을 제공한다. 그 프로그램 명령어는 개인의 다른 이미지들에 기반하여 개인의 얼굴의 3차원(3D) 모델을 판정하는 프로그램 명령어를 포함한다. 프로그램 명령어는 3D 모델로부터 2차원(2D) 패치를 추출하는 프로그램 명령어를 포함한다. 또한, 프로그램 명령어는 2D 패치의 서로 다른 조합을 이용하여 다수의 얼굴 시그니처를 생성하는 프로그램 명령어를 포함하되, 다수의 시그니처는 다른 각도로부터의 3D 모델의 각 뷰에 대응한다.

첨부 도면은 본 명세서의 일부에 합체되어 그 일부를 구성하고, 본 교시를 상세한 설명과 함께 설명하며, 본 개시의 원리를 설명하는 작용을 한다.
도 1은 본 개시의 측면들에 따른 시스템 및 프로세스를 구현하는 예시적인 환경의 블럭도이다.
도 2는 본 개시의 측면에 따른 예시적인 얼굴 인식 시스템의 기능 블럭도이다.
도 3은 본 개시의 측면에 따른, 얼굴을 인식하는 예시적인 프로세스의 흐름도이다.
도 4는 본 개시의 측면에 따른, 얼굴 인식 시스템을 이용하여 속성 기반 표현을 판정하는 예시적인 프로세스의 흐름도이다.
도 5는 본 개시의 측면에 따른, 얼굴 인식 시스템을 이용하여 속성을 판정하는 예시적인 프로세스의 흐름도이다.
도 6은 본 개시의 측면에 따른, 얼굴 인식 시스템을 이용하여 멀티뷰 PEP 시그니처(multiview PEP signature)를 판정하는 예시적인 프로세스의 흐름도이다.
도면의 일부 상세한 설명은 간략화되었으며 엄격한 구조적 정확성, 세부 사항 및 스케일을 유지하기 보다는 본 교시의 이해를 도모하도록 도시되었다.

본 개시는 매체에 있어서 얼굴을 인식하는 시스템 및 방법에 관한 것으로, 보다 구체적으로는 얼굴 인식에 관한 것이다. 본 개시의 측면에 따르면, 시스템 및 방법은 개인의 얼굴의 속성 기반 표현에 기반하여 이미지에 있어서 개인을 인식하는데 이용될 수 있다. 속성 기반 표현은 개인 얼굴의 의미론적 특징인 속성(예를 들어, 성별, 나이, 인종 등)과 이미지로부터 추출된 2D 패치를 이용하여 판정된 멀티뷰 PEP(multi-view probabilistic elastic parts) 시그니처를 구비한다. 멀티뷰 PEP 시그니처는 3D 모델로부터 추출된 2D 얼굴 패치들로부터 구축된 속성 지정 PEP(attribute-specific PEP) 모델을 이용하여 판정된다. PEP 모델은 로컬 공간-외관 특성 기반 가우시안 혼합 모델(local spatial-appearance feature based Gaussian mixture model)이다. 3D 모델은 사진, 비디오 및/또는 스케치(sketch)에 있어서의 개인의 이미지로부터 획득된 얼굴의 서로 다른 자세(pose)들로부터 구성된다. 유익하게, 속성 기반 표현은 뷰포인트(viewpoint), 조도, 에이징(aging) 및 표정으로 인해 개인의 얼굴에서 발생하는 기하학적, 구조적 및 측광학적(photometric) 가변성을 설명하고, 개인의 얼굴을 다른 것들로부터 고유하게 판별하는데 이용될 수 있는 불변 특성을 보존한다.

본 발명의 측면들에 따르면, 속성 기반 표현은, 그것이 기반으로 하는 얼굴의 특징 묘사들(characterization)(에이징, 자세, 조도 및 표정)을 정규화한다. 속성 기반 표현 및 특징들은 상호 의존적일 수 있으며, 속성 기반 표현의 파라메타들은 정규화에 이용되는 모델들에 강하게 영향을 주며, 그 반대로도 마찬가지이다. 그러므로, 속성 기반 표현은 서브-표현(sub-representation)에 대응하는 파라메타들의 세트들에 걸쳐 그것을 반복적으로 최적화함에 의해 판정된다.

추가적으로, 본 발명의 측면들에 따르면, 속성 기반 표현의 2개의 요소들(멀티 뷰 PEP 시그니처 및 속성)은 서로 다른 추상화 레벨(levels of abstraction)로 정보를 인코딩한다. 멀티뷰 PEP 시그니처의 기반이 되는 3D 모델은 불충분한 훈련 예시들을 이용 가능할 수 있는 변화를 설명하기 위해 정확한 통계적 모델들이 학습될 수 없는 극단적 변화를 모델링함에 의해 2D 이미지 기반 PEP 표현의 제약을 극복하도록 정규화된다. 또한, 속성 기반 표현의 각 요소를 구성하는데 이용되는 도메인 지식(domain knowledge)은 다양한 소스로부터 독립적으로 추출되고, 속성 기반 표현에 있어서 상보적인 사전 제약(complementary prior constraint)으로서 실시된다.

본 개시의 속성 기반 표현은 많은 장점을 제공한다. 먼저, 멀티뷰 PEP 시그니처를 생성하는데 이용되는 PEP 모델은 자세 불변성을 제공한다. 두번 째, PEP 모델은 "비-얼굴" 패치를 내재적으로 식별하기 때문에, 멀티뷰 PEP 시그니처는 직접 모델링될 수 없는, 폐색 및 저해상도 데이터와 같은 얼굴 변화를 설명한다. 세번 째, 멀티뷰 PEP 시그니처는 비 시각적(non-visual) 매체(예를 들어, 근 적외선, 몽타주(composite sketch))를 지원하는 모델을 이용함으로써 적외선 및/또는 이종 데이터(heterogeneous data)를 흡수(assimilate)할 수 있다. 네번 째, 멀티뷰 PEP 시그니처는 이미지 특성에 대해 통계적으로 학습된 회귀 함수를 이용하여 모든 연령층으로 확장될 수 있다. 다섯번 째, 멀티뷰 PEP 시그니처는 조도 및 표정에 있어서의 변경에 복원력을 제공한다. 즉, 조도 및 표정에 기인한 변화는, 멀티뷰 PEP 시그니처를 판정할 때, 얼굴 재조명 및 무 표정화(expression neutralization)에 의해 제거된다. 본 개시의 측면들에 따르면, 멀티뷰 PEP로부터 추출된 2D 이미지 패치들은 그러한 변화가 없는데, 그 이유는 멀티뷰 PEP 시그니처에 있어서 조도(음영(shadow) 또는 채도(saturation))가 약한 임의 패치 및 강한 얼굴 표정에 대응하는 것들에 대한 가중치를 낮추기 때문이다.

당업자라면 알겠지만, 본 발명은 방법, 시스템 또는 컴퓨터 프로그램 제품으로 구현될 수 있다. 따라서, 본 발명은 전체적인 하드웨어 구현, 전체적인 소프트웨어 구현(펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함), 또는 본 명세서에서 전반적으로 "회로", "모듈" 또는 "시스템"으로 지칭될 수 있는 소프트웨어 및 하드웨어 측면을 조합하는 구현의 형태를 취할 수 있다. 또한, 본 발명은 매체상에 구현된 컴퓨터 이용 가능 프로그램 코드를 가진 컴퓨터 이용 가능 저장 매체상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다.

임의 적당한 컴퓨터 이용 가능 또는 컴퓨터 독출 가능 매체가 이용될 수 있다. 컴퓨터 이용 가능 또는 컴퓨터 독출 가능 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치, 디바이스 또는 전파 매체일 수 있지만 이에 국한되는 것은 아니다. 컴퓨터 독출 가능 매체의 보다 구체적인 예시(비전면적 리스트(non-exhaustive list))는, 하나 이상의 와이어들(wires)을 가진 전기적 접속, 휴대형 컴퓨터 디스켓, 하드 디스크, RAM(Random Access Memory), ROM(Read-Only Memory), EPROM(erasable programmable read-only memory) 또는 플래시 메모리, 광학 섬유, 휴대용 CD-ROM, 광학 저장 디바이스, 인터넷이나 인트라넷을 지원하는 것과 같은 전송 매체 또는 자기 저장 디바이스를 포함한다. 컴퓨터 이용 가능 또는 컴퓨터 독출 가능 매체는, 프로그램이, 예를 들어, 용지 또는 다른 매체의 광학적 스캐닝을 통해 전자적으로 포착되고, 컴파일되고, 해독되고, 그렇지 않으면 적당한 방식으로 프로세싱되고, 필요한 경우 컴퓨터 메모리에 저장될 수 있기 때문에, 그 프로그램이 인쇄되는 용지 또는 다른 적당한 매체일 수 있음을 알아야 한다. 본 출원서의 문맥에서, 컴퓨터 이용 가능 또는 컴퓨터 독출 가능 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해 또는 그와 관련하여 이용하기 위해 프로그램을 포함하고, 저장하고, 통신하고, 전파하고 또는 운송할 수 있는 임의 매체일 수 있다. 컴퓨터 이용 가능 매체는 기저 대역에서 또는 반송파의 일부로서 그와 함께 구현된 컴퓨터 이용 가능 프로그램 코드를 가진 전파 데이터 신호를 포함할 수 있다. 컴퓨터 이용 가능 프로그램 코드는 인터넷, 유선, 광학 섬유 케이블, RF 등을 포함하되 그에 국한되지 않은 임의 적당한 매체를 이용하여 전송될 수 있다.

본 발명의 동작들을 실행하는 컴퓨터 프로그램 코드는 Java, Smalltalk, C++ 등과 같은 객체 지향 프로그래밍 언어로 작성될 수 있다. 그러나, 본 발명의 동작들을 실행하는 컴퓨터 프로그램 코드는 "C" 프로그래밍 언어 또는 유사한 프로그래밍 언어와 같은 통상적인 절차 프로그래밍 언어로 작성될 수 있다. 프로그램 코드는 독립형 소프트웨어 패키지와 같이 사용자의 컴퓨터상에 전체적으로 실행되거나 사용자의 컴퓨터상에서 부분적으로 실행되거나, 사용자의 컴퓨터상에서 부분적으로 및 원격 컴퓨터상에서 부분적으로 실행되거나, 원격 컴퓨터 또는 서버상에서 전체적으로 실행된다. 후자의 시나리오에서는, 원격 컴퓨터가 LAN(local area network) 또는 WAN(wide area network)을 통해 사용자의 컴퓨터에 접속되거나, 그 접속이 외부 컴퓨터(예를 들어, 인터넷 서비스 제공자를 이용하여 인터넷을 통해)에 대해 이루어질 수 있다.

본 발명은 본 발명의 실시 예들에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블럭도를 참조하여 이하에서 설명된다. 흐름도 및/또는 블럭도의 각 블럭과, 흐름도와 블럭도에 있어서의 블럭들의 조합은 컴퓨터 프로그램 명령어에 의해 구현될 수 있다. 이들 컴퓨터 프로그램 명령어들은, 머신을 생성하도록 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 프로세싱 장치의 프로세서에 제공됨으로써, 컴퓨터의 프로세서 또는 다른 프로그램 가능 데이터 프로세싱 장치를 통해 실행되는 명령어들이 흐름도 및/또는 블럭도의 블럭 또는 블럭들에 지정된 기능/작용을 구현하는 수단을 생성할 수 있게 한다.

컴퓨터 또는 다른 프로그램 가능 데이터 프로세싱 장치에게 특정 방식으로 기능하도록 명령할 수 있는 이들 컴퓨터 프로그램 명령어들은, 컴퓨터 독출 가능 메모리에 저장됨으로써, 컴퓨터 독출 가능 메모리에 저장된 명령어가 흐름도 및/또는 블럭도의 블럭 또는 블럭들에 지정된 기능/작용을 구현하는 명령어들을 포함하는 제조 물품(article of manufacture)을 생성할 수 있게 한다.

컴퓨터 프로그램 명령어들은, 컴퓨터 구현 프로세스를 생성하도록 컴퓨터 또는 다른 프로그램 가능 장치상에서 일련의 동작 단계들이 실행될 수 있게 하기 위해 컴퓨터 또는 다른 프로그램 가능 데이터 프로세싱 장치상에 탑재됨으로써, 컴퓨터 또는 다른 프로그램 가능 장치상에서 실행되는 명령어들이 흐름도 및/또는 블럭도의 블럭 또는 블럭들에 지정된 기능/작용을 구현하는 단계를 제공할 수 있게 한다.

도 1은 본 개시의 측면들에 따른 방법 및 시스템들을 구현하는 예시적인 환경(100)이다. 그 환경(100)은 얼굴 인식 시스템(105) 및 이미지 소스(110)을 포함한다. 본 개시의 측면들에 따르면, 얼굴 인식 시스템(105)은 개인의 이미지를 포함하는 다양한 매체(예를 들어, 정지 영상, 동영상, 비디오, 그림 등)를 수집(예를 들어, 획득)하고, 얼굴 인식을 위한 개인의 얼굴의 모델(예를 들어, PEP 모델)을 생성하는 시스템이다. 그 시스템은 그 모델로부터 정보를 추출하고 추출된 정보를 이용하여 다른 매체에 있는 개인을 인식한다. 이미지 소스(110)는 비디오, 사진, 영상등과 같은 이미지 데이터를 포착하고/하거나 저장하는 디바이스 또는 시스템이다. 실시 예에 있어서, 이미지 소스(110)은 매체 데이터베이스이다. 추가적으로 또는 대안적으로, 이미지 소스(110)는 하나 이상의 이미지 센서(예를 들어, 카메라)이다.

본 개시의 측면들에 따르면, 얼굴 인식 시스템(105)은 본 명세서에서 설명한 프로세스들 및 기능들을 수행하는 하드웨어 및 소프트웨어를 포함한다. 특히, 얼굴 인식 시스템(105)은 컴퓨팅 디바이스(130), 입력/출력(I/O) 디바이스(133), 저장 시스템(135) 및 디바이스 선택기(137)를 포함한다. I/O 디바이스(133)는 개인이 컴퓨팅 디바이스(130)와 상호 작용할 수 있게 하는 임의 디바이스(예를 들어, 사용자 인터페이스) 및/또는 컴퓨팅 디바이스(130)가 임의 유형의 통신 링크를 이용하여 하나 이상의 다른 컴퓨팅 디바이스와 통신할 수 있게 하는 임의 디바이스를 포함할 수 있다. I/O 디바이스(133)는, 예를 들어, 휴대용 디바이스, PDA, 터치스크린 디스플레이, 핸드셋(handset), 키보드 등일 수 있다.

저장 시스템(135)은 정보 및 프로그램 명령어를 저장하는 컴퓨터 독출 가능, 비휘발성 하드웨어 저장 디바이스를 구비할 수 있다. 예를 들어, 저장 시스템(135)은 하나 이상의 플래시 드라이브 및/또는 하드 디스크 드라이브일 수 있다. 본 개시의 측면들에 따르면, 저장 디바이스(135)는 이미지 데이터베이스(136), 도메인 지식 데이터베이스(137) 및 모델 데이터베이스(138)를 포함한다. 이미지 데이터베이스(136)는 이미지 소스(110)로부터 획득된 이미지 및 매체를 저장할 수 있다. 도메인 지식 데이터베이스(137)는 매체로부터 의미론적 정보(예를 들어, 성별, 인종, 나이, 얼굴 형상, 피부 유형, 얼굴 특성 등)를 추출하고, 얼굴(예를 들어, 형상, 특성, 비례, 근육 조직 및 다른 성별, 인종 및 나이에 대응하는 텍스쳐(texture))을 모델링하는데 적용될 수 있는 사전 설정된 모델들 및 인체 계측 정보의 콜렉션을 포함한다. 모델 데이터베이스(138)는 개인의 3D 얼굴 모델, 3D 얼굴 모델로부터 추출된 2D 패치 및 속성 기반 표현을 구비하는 추출 속성을 포함한다.

실시 예에 있어서, 컴퓨팅 디바이스(130)는 하나 이상의 프로세서(139), 하나 이상의 메모리 디바이스(141)(예를 들어, RAM 또는 ROM), 하나 이상의 I/O 인터페이스(143) 및 하나 이상의 네트워크 인터페이스(144)를 포함한다. 메모리 디바이스(141)는 프로그램 명령어의 실행 동안에 채용되는 로컬 메모리(예를 들어, RAM 및 캐시 메모리)를 포함할 수 있다. 추가적으로, 컴퓨팅 디바이스(130)는 I/O 디바이스(133), 저장 시스템(135) 및 디바이스 선택기(137)와 통신할 수 있게 하는 적어도 하나의 통신 채널(예를 들어, 데이터 버스)을 포함한다. 프로세서(139)는 메모리 디바이스(141) 및/또는 저장 시스템(135)에 저장될 수 있는 컴퓨터 프로그램 명령어(예를 들어, 운영 시스템 및/또는 애플리케이션 프로그램들)를 실행시킨다.

또한, 본 개시의 측면들에 따르면, 프로세서(139)는, 본 명세서에서 설명한 하나 이상의 프로세스들을 수행하기 위해, 수집 모듈(ingestion module)(151), 분석 모듈(153), 모델링 모듈(155), 추출 모듈(159) 및 매칭 모듈(163)의 컴퓨터 프로그램 명령어들을 실행시킨다. 수집 모듈(151), 분석 모듈(153), 모델링 모듈(155), 추출 모듈(159) 및 매칭 모듈(163)은 개별 또는 조합된 모듈로서 메모리 디바이스(141) 및/또는 저장 시스템(135)내에 하나 이상의 프로그램 명령어로서 구현될 수 있다. 추가적으로, 수집 모듈(151), 분석 모듈(153), 모델링 모듈(155), 추출 모듈(159) 및 매칭 모듈(163)은 이들 모듈들의 기능들을 제공하기 위해 개별적인 전용 프로세서 또는 하나 또는 여러개의 프로세서로서 구현될 수 있다.

본 개시의 실시 예들에 따르면, 수집 모듈(151)은 컴퓨팅 디바이스(130)가 이미지 소스(110)로부터 매체를 획득하고 매체내에 포함된 이미지를 개선할 수 있게 한다(예를 들어, 해상도, 블러링(blurring) 및 콘트라스트(constrast)를 개선). 추가적으로, 수집 모듈(151)은 컴퓨팅 디바이스가 (예를 들어, 얼굴 및 눈 검출 알고리즘을 이용하여) 이미지에서 얼굴을 검출하고 추적할 수 있게 한다.

분석 모듈(153)은 컴퓨팅 디바이스(130)가 수집 모듈(151)에 의해 검출된 얼굴으로부터 속성을 추출할 수 있게 한다. 속성은 얼굴들의 특징들을 의미론적으로 묘사한다. 실시 예에 있어서, 속성들은 개인의 성별, 나이, 인종, 머리까락 색깔, 얼굴 형상 등과 연관된 도출된 특징들이다. 유익하게, 그 속성은 개인의 외관을 설명하기 위한 가요성의 도메인 적응적 어휘를 제공함에 의해 멀티뷰 PEP 시그니처로부터 효율적인 검색 및 인덱싱을 가능하게 하며, 그에 의해 탐색 시간 및 데이터 저장 요건들을 감소시킨다.

모델링 모듈(155)은 컴퓨팅 디바이스(130)가 개인의 얼굴의 3D 모델을 생성 또는 판정할 수 있게 한다. 본 개시의 측면들에 따르면, 3D 모델은 다양한 뷰잉(viewing) 및 조명 조건하에서 광범위한 매체 양식들(media modalities)에서 나타나는 얼굴의 형상, 텍스쳐 및 다이나믹들(dynamics)을 콤팩트하게 인코딩하는 3D 자세(예를 들어, 요 및 피치의 양자화된 공간)의 모든 변화들에 대해 생성된 자세-인식 PEP 기반 모델이다. 추가적으로, 본 개시의 측면들에 따르면, 모델링 모듈(155)은 3D 모델을 재조명하고, 3D 모델에 있어서 포착된 얼굴 표정을 무표정화시키고 3D 모델에 의해 표현된 개인의 나이를 수정하고, 3D 모델과 연관된 얼굴 장신구 및 폐색을 설명할 수 있다. 또한, 모델링 모듈은 (예를 들어 도메인 지식 데이터베이스(137)에 있어서의) 도메인 지식을 이용하여, 3D 모델로부터 빠뜨린 정보(예를 들어, 피부 텍스쳐 및 폐색 패치들(occluded patches))를 채울 수 있다.

추출 모듈(159)은 컴퓨터 디바이스가 (예를 들어, 인종, 성별, 연령층등과 같은) 다양한 인구 통계학적 그룹들의 특징인 의미론적 속성과, 2D 패치들을 이용하여 멀티뷰 PEP 얼굴 시그니처를 생성할 수 있게 한다. 본 개시의 측면들에 따르면, 추출 모듈은 다수의 자세들로부터 3D 모델로부터의 프로젝션들(projections)로부터 2D 패치들을 판정할 수 있다. 그 자세들은 3D 모델의 직접적인 뷰(예를 들어, 정면 뷰로부터 0의 피치 및 0의 요(yaw))에 대해 소정 피치(예를 들어, -10도 내지 +10도) 및 소정 요(예를 들어, -10도 내지 +10도)를 가진 다수의 사전 정의된 뷰잉 각도 범위들 이내일 수 있다. 그 프로젝션들은 자세에 대응하는, 조밀한 중복 2D 얼굴 패치들(dense overlapping 2D face patchs)로부터 멀티뷰 PEP 시그니처를 제공하도록 조합된다. 다시 말해, 멀티뷰 PEP 얼굴 시그니처들의 각각에 포함된 데이터 량은 이용 가능 매체의 품질 및/또는 양에 따라 변경되지 않는다. 따라서, 멀티뷰 PEP 얼굴 시그니처는 그 표현의 크기를 증가시키지 않고도 추가적인 이미지로부터의 정보를 포함시킴에 의해 증분적으로 정제될 수 있다.

추가적으로, 본 개시의 측면들에 따르면, 추출 모듈(159)은 멀티뷰 PEP 얼굴 시그니처들의 각각에 대한 불확정성 메트릭(uncertainty metric)을 판정한다. 불확정성 메트릭은 멀티뷰 PEP 얼굴 시그니처들의 각각내의 2D 패치들의 품질의 특징이다. 추출 모듈(159)은 3D 모델로부터 도출될 수 있는 "얼굴-유사(face-like)" 측정을 이용하여 계산된 불확정성 메트릭을 판정한다. 예를 들어, 그 메트릭은 비 얼굴(non-face) 부분을 포함하는 특정 멀티뷰 PEP 얼굴 시그니처에 대응하는 패치의 백분율에 대응할 수 있다.

또한, 본 개시의 측면들에 따르면, 멀티뷰 PEP 얼굴 시그니처는 이용 가능한 이미지의 해상도에 적응적이다. 실시 예들에 있어서, 멀티뷰 PEP 얼굴 시그니처는 얼굴 이미지에 대한 이용 가능 해상도에 대해 자동적으로 조정될 수 있다. 그와 같이, 이용 가능 해상도가 커질수록, 얼굴 표현이 보다 세부적으로 될 것이며, 해상도가 낮을수록 얼굴 표현이 보다 덜 세부적으로 될 것이다.

또한, 본 개시의 측면들에 따르면, 추출 모듈(159)은 각 멀티뷰 PEP 얼굴 시그니처를 하나 이상의 속성에 연계시킨다. 실시 예들에 있어서, 추출 모듈(159)은 각 멀티뷰 PEP 얼굴 시그니터에 하나 이상의 얼굴 속성(예를 들어, 인종, 나이, 성별, 계란형, 동그란형등과 같은 얼굴의 독특한 면)을 첨부한다. 따라서, 본 개시의 속성 기반 표현은 연계된 속성을 이용하여 얼굴의 효율적인 검색 및 인덱싱이 가능하게 한다.

매칭 모듈(163)은, 모델링 모듈(155)에 의해 판정된 개인의 얼굴의 속성 기반 표현에 기초하여 얼굴 이미지가 개인의 이미지와 매칭되는지를 컴퓨팅 디바이스가 판정할 수 있게 한다. 본 개시의 측면들에 따르면, 그 매칭은 멀티뷰 PEP 시그니처의 각 요소들에 대해 판정된 불확정성 메트릭에 기반한다. 추가적으로, 본 개시의 측면들에 따르면, 매칭 모듈(163)은 도메인 적응화(domain adaptation)를 이용하여 이미징 양식들에 걸쳐 멀티뷰 PEP 얼굴 시그니처들을 매칭시킨다. 실시 예들에 있어서, 그 양식들은 다른 것들 중에서도 RGB 스펙트럼, 적외선, 초분광(hyperspectral), 그림(예를 들어, 스케치 및 만화)을 포함한다.

실시 예들에 있어서, 도메인 지식 베이스(137)는 얼굴 인식 시스템(105)에 의해 참조될 수 있는 정보, 즉, 얼굴 인체 측정학(facial anthropometry), 얼굴 초해상도 툴, 속성 지정 3D 형상 모델, 속성 지정 멀티뷰 PEP, 속성 추출 툴, 특성 선택 이전들(feature selection priors), 얼굴 AU(Action Unit) 코딩 시스템 및 도메인 적응 툴을 포함할 수 있다. 얼굴 인체 측정학은 인구학적 얼굴 정보(demographic facial information)의 특징으로서, 에이징 및 표정에 기인한 구조적 변경에 걸쳐 불변하는 얼굴 특성을 식별하는 인체 측정학 측정(anthropometric measurements)의 통계(평균 및 표준 편차)이다. 3D 얼굴 모델로부터 추정된 인체 측정학 측정은 매칭 모듈(163)에 의해 매칭 스코어를 판정하고, 분석 모듈(153)에 의해 속성을 판정할 때 이용될 수 있다. 얼굴 초해상도 툴은 얼굴 이미지의 화소 레벨 세부 사항을 강화하는 전형적인 이미지들에 대한 요소 기반 매칭(component-based matching)이다. 얼굴 초해상도 툴은 모델링 모듈(155)에 의해 표현들을 구축하기 위한 개선된 얼굴 특성 추출을 제공한다. 속성 지정 3D 형상 모델은 인종, 성별 및 나이에 기초한 3D 얼굴 형상 변화의 다른 서브스페이스 모델링 모드들(subspaces modeling modes)이다. 이들은 모델링 모듈(155)에 의한 일반 3D 얼굴 형상에 비해, 3D 형상에 맞는 보다 많은 정보적 이전들(informative priors)을 제공한다. 속성 지정 멀티뷰 PEP는 공통 속성(예를 들어, 성별, 인종 및 나이별)을 가진 개인의 이미지들로부터 조밀하게 샘플링된 패치들의 GMM(Gaussian Mixture Model)이다. 이들은 매칭 모듈(163)에 의한 매칭에 이용되는 개인 맞춤형 통계적 모델을 제공한다. 속성 추출 툴은 분석 모듈(153)에 의해 얼굴 이미지로부터 속성을 검출하기 위한 (심층 학습(deep learning) 및 구조화된 예측에 기초한) 판별 모델(discriminative models)이다. 속성 추출 툴은 이들 속성들의 불확정성을 모델링하여, 얼굴의 의미있는 측면을 따라 매칭할 수 있게 한다. 특성 선택 이전들은, 예를 들어, 에이징, 자세 및 조도 변경으로 인한 얼굴 특성에 있어서의 불변하는 차이들을 달성하는 심층 학습 기반 특성 선택(deep learning based feature seletion)과, 강화된 부분 기반 표현 및 매칭(enhanced part-based representation and matching)이다. 이들은 관련있는 가장 큰 차별 특성(discriminative features)을 판정하기 위한 추출 모듈(159)에 의한 고속 특성 추출이 가능하게 한다. 얼굴 AU 코딩 시스템은 모델링 모듈(155)에 의해 표정에 기인한 얼굴 변형을 모델링하기 위한 얼굴 근육 조직 다이나믹들의 중간 표현(intermediate representation)을 범용적으로 적용할 수 있다. 얼굴 AU 코딩 시스템은 얼굴 근육 조직의 명시적이고 정확한 모델링을 제공한다. 도메인 적응 툴은 에이징, 자세 및 조도 변경에 걸쳐 도메인 시프트(domain shift)를 모델링하는 학습된 툴이다.

컴퓨팅 디바이스(130)는 컴퓨터 프로그램 명령어들이 설치되어 그 명령어들을 실행할 수 있는 임의의 범용의 컴퓨팅 제조 물품(예를 들어, 개인용 컴퓨터, 서버 등)을 구비할 수 있음을 알아야 한다. 그러나, 컴퓨팅 디바이스(130)는 본 명세서에서 설명된 프로세스를 실행할 수 있는 다양한 가능한 등가의 컴퓨팅 디바이스만을 나타낸다. 그 정도로, 실시 예에 있어서, 컴퓨팅 디바이스(130)에 의해 제공된 기능성은 범용 및/또는 전용 하드웨어 및/또는 컴퓨터 프로그램 명령어의 임의 조합일 수 있다. 각 실시 예에 있어서, 프로그램 명령어 및 하드웨어는 표준 프로그래밍 및 엔지니어링 기술을 각각 이용하여 생성될 수 있다.

도 2는 본 개시의 측면들에 따른 얼굴 인식 시스템(105)의 예시적인 프로세스의 기능적 흐름도이다. 얼굴 인식 시스템(105)은 이전에 설명한 것과 동일할 수 있는, 수집 모듈(151), 분석 모듈(153), 모델링 모듈(155), 추출 모듈(159) 및 매칭 모듈(163)을 포함한다. 본 개시의 측면들에 따르면, 수집 모듈(151)은 이미지 소스(예를 들어 이미지 소스(110))로부터 수신된 매체를 평가한다. 그 매체는 개인의 사진, 비디오 및/또는 그림(예를 들어, 스케치)을 포함할 수 있다. 실시 예들에 있어서, 매체를 평가하는 것은 스케일, 얼굴 커버리지(예를 들어, 이미지에 있어서의 자세에 기초한 이미지내의 얼굴의 부분), 해상도, 양식(예를 들어, 매체 유형) 및/또는 이미지를 포함하는 매체의 품질을 정의하는 정보를 판정하는 것을 포함한다. 얼굴의 해상도는 이미지 해상도의 특징으로서, 수집 모듈(151)에 의해 추출될 세부 사항의 레벨을 판정한다. 수신된 이미지 및 연계된 평가 정보는 후속적인 참조 및 프로세싱을 위해 데이터베이스(예를 들어, 이미지 데이터베이스(136))에 저장될 수 있다.

추가적으로, 본 개시의 측면들에 따르면, 수집 모듈(151)은 수신된 매체에 포함된 이미지들을 개선한다. 실시 예들에 있어서, 이미지들을 개선하는 것은 블러링을 줄이고, 콘트라스트를 개선하고, 이미지 해상도를 증가시키는 것을 포함한다. 예를 들어, 수집 모듈(151)은 큰 자세-변형 얼굴 데이터세트(pose-variant face dataset)로부터의 전형적인 구조(눈, 입, 얼굴 윤곽선 등)에 기초하여 최적의 블러 커널(blur kernel)을 추정함에 의해 블러링을 줄일 수 있다. 블러 커널 추정은 (예를 들어, 도메인 지식 데이터베이스(137)에서) 블러링된 얼굴 이미지에 가장 근접한 견본(exemplar)을 식별하고, 블러링된 얼굴과 가장 근접한 견본의 구배에서 취하는 조직화 프로세스(regularization process)를 실행하는 것을 수반한다. 또한, 그 개선은 통계적 학습 및 기하학을 이용하여 조도 조건을 모델링함에 의해 이미지들을 재조명하는 것을 포함할 수 있다. 추가적으로, 수집 모듈(151)은 히스토그램 균등화(histogram equalization)를 실행함에 의해 이미지들의 콘트라스트를 증가시킬 수 있다. 또한, 수집 모듈(151)은 저 해상도 데이터로부터 고 해상도 이미지를 생성하기 위해 얼굴 환각 기술(face hallucination technique)을 이용할 수 있다.

본 개시의 측면들에 따르면, 수집 모듈(151)은 수집된 이미지내에 포함된 얼굴을 검출 및 추적한다. 실시 예들에 있어서, 수집 모듈(151)은 특성 국소화 기술을 이용하여 이미지내의 얼굴의 눈과 입을 검출하고, 전체적인 머리 자세 추정(holistic head pose estimation)을 판정한다. 예를 들어, 수집 모듈(151)은 MIL 추적 유형 알고리즘을 이용하는 객체 외관의 온라인 적응화에 기초하여, 포지티브 샘플들과 네거티브 샘플들의 평균 신뢰도들 간의 마진을 최대화함에 의해 특성 선택을 정제하는 ODFS(Online Discriminative Feature Selection) 방식을 채용할 수 있다. ODFS 방식은 배경 샘플의 신뢰도를 억제하면서 목표 샘플들의 신뢰도를 최대화하는 특성을 선택한다. 그것은 가장 정확한 포지티브 샘플에 보다 큰 가중치를 부여하고, 분류기(classifier) 갱신 동안에 배경 샘플에 작은 분류기를 할당함으로써, 스케일, 자세, 조도 및 움직임 블러(motion blur)에 있어서의 변경에 걸쳐 어수선한 배경(cluttered background)으로부터 전경 목표의 효과적인 분리를 도모한다. 추가적으로, 수집 모듈(151)은 얼굴 추적의 정확성을 추가적으로 개선하기 위해 비디오내의 소셜 콘텍스트를 모델링하는 것을 활용하는 자율 얼굴 검출 적응화 방법을 이용하여 얼굴을 검출 및 추적할 수 있다.

본 발명의 측면들에 따르면, 수집 모듈(151)은 얼굴 특성 국소화 및 추적을 실행한다. 특성 국소화는 이미지내의 개인의 머리의 자세를 추정하고, 그 자세에 기초하여 눈, 입 및 얼굴(예를 들어, 목선(neckline), 턱 및 머리선(hairline))의 위치들에 대응하는 기준점(fiducial points)을 판정하는데 이용될 수 있다. 실시 예들에 있어서, 수집 모듈(151)은 SDM(Supervised Decent Method)을 이용한다. SDM은 훈련 데이터로부터 형상 또는 외관의 임의 모델을 학습하는데 요구되지 않은 비-파라메타 형상 모델(non-parametric shape model)을 구비한다. 훈련 단계 동안에, SDM은 훈련 이미지내의 랜드마크(landmark)를 이용하고, 랜드마크 위치에 있는 특성을 추출한다. SDM은 훈련 데이터로부터 모든 NLS(Normalized Least Square) 함수의 평균을 최소화하는 일반 하강 방향들 및 바이어스 항들(generic descent directions and bias terms)의 시퀀스를 학습한다. 유익하게, SDM 기반 얼굴 특성 국소화 및 추적은 다른 그러한 방법들에 비해 계산적으로 매우 간단하며(프레임당 4 행렬 곱셈), 큰 자세 변화(예를 들어, ±60° 요, ±90° 롤(roll) 및 ±30° 피치), 폐색 및 극단적 조도 변경을 겪는 얼굴 랜드마크의 추적을 도모한다. 본 개시의 측면들에 따르면, 분석 모듈(153)은 도메인 지식(예를 들어, 도메인 지식 데이터베이스(137))에 기초하여 수집 모듈(151)에 의해 검출되고 추적되는 이미지내의 얼굴으로부터 속성을 판정한다. 그 속성은 매칭 모듈(163)에 의해 얼굴들간의 유사성을 평가하기 위한 중간 표현 스페이스를 제공한다. 실시 예들에 있어서, 저 레벨 특성들은 장면에 있어서의 측광학적 및 기하학적 변경으로 인한 섭동에 의해 강하게 영향받는 반면, 묘사 가능한 얼굴 속성(describable facial attribute)은 얼굴들 간의 대응 관계를 수립하기 위한 보다 일반화 가능한 메트릭을 제공한다. 그 속성은 도메인 지식(예를 들어, 도메인 지식(137))의 사전 설정된 라이브러리(library)에 포함된 특성들에 대해 수집 모듈(151)에 의해 검출된 개인의 얼굴에 있어서의 기준점을 참조함에 의해 판정될 수 있다. 기준점은, 예를 들어, 얼굴의 자세 잡기(posing)및 에이징으로 인해 발생할 수 있는 개인의 얼굴의 변화를 설명한다. 실시 예들에 있어서, 특성 국소화는 3D 머리 자세 추정 및 얼굴 속성 추론을 위해 이용된다. 판별 모델들은 매체내의 얼굴 이미지로부터의 속성의 확률적 추론을 위해 이용된다. 학습된 모델은 예를 들어, 개략적인(예를 들어, 성별, 인종 및 나이) 및 정밀한(예를 들어, 헤어 스타일 및 컬러, 눈썹 형상, 눈의 컬러 및 수염) 얼굴 속성을 검출한다. 분석 모듈(153)은 얼굴의 속성을 후속하는 참조 및 프로세싱을 위해 데이터베이스(예를 들어, 이미지 데이터베이스(136))에 저장할 수 있다.

본 개시의 측면들에 따르면, 모델링 모듈(155)은 분석 모듈(153)에 의해 판정된 기준점 및 속성들로부터 3D 모델을 판정한다. 실시 예들에 있어서, 3D 모델은 다양한 뷰잉 및 조명 조건하에서 광범위한 매체 양식들에서 나타나는 얼굴의 형상, 텍스쳐 및 다이나믹들을 인코딩한다. 3D 모델은 3D 자세(요 및 피치의 양자화된 공간)의 모든 변화에 대해 생성되고, 얼굴으로부터 추출된 인구 통계학적 속성(성별, 인종 및 나이별)에 따라 특정화된 자세-인식 PEP 기반 모델로 구성된다.

실시 예들에 있어서, 사전 정의된 파라메타들은 2D 이미지를 3D 얼굴 형상에 매핑한다. 3D 모델은 우선 일반 3D 메시(mesh)에 맞춰지고, 그 다음 속성 지정 모델에 적합하게 되도록 인구 통계학적 속성(성별 및 인종)에 기초하여 반복적으로 정제된다. 그 매핑은, 예를 들어, 3D 형상, 랜더링된 2D 이미지(rendered 2D image) 및 대응하는 카메라 파라메타를 포함하는 룩업 테이블일 수 있다. 예를 들어, (예를 들어, ±70도의 요 및 ± 25도의 피치의 범위내의) 임의 자세의 이미지가 주어지면, 모델링 모듈(155)은 2D 기준점으로부터 머리 자세를 개략적으로 추정할 수 있다. 모델링 모델(155)은 얼굴의 3D 형상을 식별하여 (예를 들어, 도메인 지식 데이터베이스(137)로부터) 3D 모델에 대한 초기 추정을 선택하기 위해 이용된 유사한 기준 특성 구성(fiducial features configurations)을 가진 일반 3D 모델을 선택할 수 있다. 선택된 3D 모델을 이용하면, 모델링 모듈(155)은 적합 알고리즘(fitting algorithm)(예를 들어, 구배 하강)을 이용하여 3D 얼굴 모델의 얼굴 정렬 및 형상을 정제할 수 있다.

추가적으로, 본 개시의 측면들에 따르면, 모델링 모듈(155)은 3D 모델을 재 조명한다. 실시 예들에 있어서, 모델링 모듈(155)은 무제어 조도 조건(uncotrolled illumination condtions)하에서 취해진 이미지를 스팬(span)하도록 충분한 조도 변화와 함께, 선형 서브스페이스를 생성하는데 이용되는 훈련 예시들을 확장함에 의해 실제 상황을 지원하도록 3D 얼굴 재조명 알고리즘을 이용한다. 예를 들어, 모델링 모듈(155)은 조도 데이터베이스(예를 들어, CMU PIE 데이터베이스)를 이용하여, 많은 다른 조도 조건 및 자세하에서의 개인의 외관을 포착할 수 있다.

또한, 본 개시의 측면들에 따르면, 모델링 모듈(155)은 3D 모델의 표정을 무 표정화시킨다. 실시 예들에 있어서, 무 표정화시키기 위하여, 모델링 모듈(155)은 여러개의 1D 매니폴드(manifold)들(각각은, 미소, 놀람, 화남 등의 변형의 모드를 나타냄)의 조합으로서 3D 얼굴 변형을 모델링하기 위한 비선형 매니폴드 기반 방식을 이용한다. 예를 들어, 고차원 스페이스에서 무표정 얼굴이 중심 포인트인 것으로 간주되면, 가변하는 표정들을 가진 동일 개인의 얼굴들은 그 스페이스 인근내의 포인트들인 것으로 가정될 수 있다. 무표정화를 위해, 모델링 모듈(155)은 개별적 포인트들 간의 내재적인 구조적 관련성을 포착하는 저 차원 스페이스를 이용할 수 있다. 이들은 비선형 매니폴드들을 구성한다. 비선형 매니폴드상의 좌표는 " 활성 레벨(level of activation)"이라고 하는, 그 모드를 따르는 얼굴 변형의 크기에 대응한다. (예를 들어, N-D 텐서 보팅(Tensor voting)과 같은) 드문 드문한 데이터 포인트(spar data point)들로부터 구조 추론을 가능하게 하는 계산 프레임워크에 기초한 비선형 매니폴드 학습을 이용하여, 모델링 모듈(155)은 각 포인트에서 매니폴드의 로컬 법선 및 접선 스페이스(local normal and tangent space)를 추정할 수 있다. 추정된 접선 벡터는 모델링 모듈(155)이 비선형 매니폴드상을 직접 항행하게 한다. 예를 들어, 모델링 모듈(155)은 매니폴드를 구축하는데 있어서 훈련 데이터로서 다른 얼굴 표정들하의 대상의 3D 얼굴 스캔들을 구비한 데이터베이스(예를 들어, 보스포루스(Bosphorus) 데이터셋)를 이용할 수 있다.

또한, 모델링 모듈(155)에 의한 무표정화는 본 개시의 측면들에 따라 얼굴의 3D 모델을 판정함에 의해 내재적으로 실행된다. 즉, 3D 모델은 3D 모델이 기반으로 하는 무표정 얼굴 이미지로부터 대응하는 패치들에 대한 그의 근접성인 발생 확률에 각 얼굴 매치들을 연계시킨다. 따라서, 3D 모델은 얼굴 표정에 의해 영향을 받는 얼굴 패치들의 가중치를 낮춘다.

또한, 본 개시의 측면들에 따르면, 모델링 모듈(155)은 3D 모델에 의해 표현되는 개인의 에이징을 판정한다. 에이징 효과는 형상(예를 들어, 두개골 성장, 새깅(sagging) 특성들) 및 텍스쳐 변화(피부 주름살)의 조합으로서 특정화된다. 실시 예들에 있어서, 모델링 모듈(155)은 에이징을 설명하기 위해 3D 형상 및 텍스쳐 모델을 추정한다. 예를 들어, 모델링 모듈(155)은 다른 나이 그룹들에 대한 PEP 모델을 판정한다(예를 들어, 십대(＜20), 청장년(20 내지 35 살), 중년(35 내지 50살), 고령자(50살 이상)). 나이 그룹 기반 PEP 모델들은 전체 나이 그룹들에 걸쳐서의 피치-기반 외관 변화의 특징으로 되도록 통합 프레임워크(unified framework)를 제공한다. 실시 예들에 있어서, 모델링 모듈(155)은, 모든 자세에 걸쳐서의 충분한 얼굴 에이징 데이터세트들의 결여에 기인하여, 그 나이 그룹에 속하는 대상들의 정면의 얼굴 이미지들을 이용하여, 나이 그룹 기반 PEP 모델의 학습을 정면 자세 빈(frontal pose bin)으로 제한한다.

특히, 본 개시의 측면들에 따르면, 모델링 모듈(155)에 의해 판정된 3D 모델은 얼굴 장신구 및 폐색을 설명한다. 얼굴 장신구 및 폐색은 속성 기반 얼굴 표현에서 내재적으로 제거된다. 즉, 3D 모델은 얼굴 장신구 및 폐색이 없는 얼굴들을 이용하여 구축된다. 그러므로, 그 모델에 있어서의 요소들의 높은 확률에 기초하여 선택된 패치들은 훈련 예시 패치들의 외관과 유사한 외관을 갖되 얼굴 털이 없는 것들이다. 예를 들어, 3D 모델을 판정하는데 있어서, 모델링 모듈(155)은 피부 텍스쳐 모델링을 이용하여 이미지로부터 2D 피부 패치들을 선택적으로 추출하고 3D 메시의 전체적인 피부 텍스쳐를 갱신한다. 따라서, 3D 모델의 피부는 얼굴 털이 없다. 대신에, 분석 모듈(152)에 의해 판정된 개인에 대한 속성은 얼굴 털의 존재를 특징지우며, 3D 모델을 특징지우는데 이용될 수 있다.

본 개시의 측면들에 따르면, 추출 모듈(159)은 3D 모델로부터 자세들의 다른 영역들에 대응하는 2D 패치들을 추출한다. 실시 예들에 있어서, 추출 모듈(159)은 다수의 자세-빈들의 각각에 대해 랜더링된 이미지들로부터 2D 패치들을 조밀하게 샘플링한다. 2D 패치들은 가변하는 크기들(예를 들어, 해상도)을 가질 수 있다. 예를 들어, 추출 모듈(159)은 다수의 크기 레벨들(예를 들어 10개)로 2D 패치들을 추출할 수 있으며, 각 크기 레벨은 각 레벨에서 점진전으로 작아진다. 또한, 각 레벨마다, 추출된 2D 패치들의 추출 모듈(159) 해상도는 계단식의 얼굴 이미지의 샘플일 수 있다(예를 들어, 각 단계는 2D 패치 폭의 절반이다). (예를 들어, 관측된 이미지로부터의 패치들, 회귀를 이용하여 추정된 패치들 또는 정규화된 3D 모델로부터 랜더링된 패치들을 이용하여) 자세-빈들이 어떻게 작성되는지에 의거하고, 2D 패치들을 판정하는데 이용된 각 데이터의 품질 및/또는 양에 기초하여, 서로 다른 불확정성 메트릭들이 그들에게 연계된다.

본 개시의 측면들에 따르면, 매칭 모듈(163)은 추출 모듈(159)에 의해 추출된 2D 패치와 입력 이미지(예를 들어, 이벤트시의 범죄자의 포착된 이미지)간의 매치를 판정한다. 입력 이미지와 갤러리 매체(gallery media)간의 유사성은, 그들의 표현들의 이종 시그니처들간의 매칭 스코어로서 계산된다. 실시 예들에 있어서, 매칭 모듈(163)은 멀티뷰 PEP 시그니처들을 매칭시키고 각 요소들의 불확정성들을 설명하기 위해 인덱싱 및 매칭 스킴의 조합을 이용한다. 본 개시의 측면들에 따르면, 얼굴을 묘사하기 위한 가시적 속성들은 얼굴들간의 유사성을 평가하기 위한 중간 표현 스페이스를 제공한다. 저 레벨 특성들은 장면에 있어서의 측광학적 및 기하학적 변경에 기인한 섭동에 의해 강하게 영향받는 반면, 묘사 가능한 얼굴 속성의 스페이스는 얼굴들간의 대응성을 수립하기 위한 보다 일반화 가능한 메트릭을 제공한다.

도 3 내지 6의 흐름도는 본 개시의 여러 측면에 따른 시스템, 디바이스, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 기능성 및 동작을 도시한다. 도 3 내지 6의 흐름도에 있어서의 각 블럭들은 모듈, 세그먼트, 또는, 도시된 기능 및 동작들을 구현하기 위한 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있는 프로그램 명령어들의 일부를 나타낸다. 일부 대안적인 구현에 있어서, 흐름도의 특정 블럭에 도시된 기능 및/또는 동작은 도 3 내지 6에 도시된 순서와 관계없이 발생한다. 예를 들어, 연속적으로 도시된 2개의 블럭들은 실질적으로 동시에 실행될 수 있으며, 또는 그 블럭들은 수반된 기능에 의거하여, 반대 순서로 실행되는 경우도 있다. 블럭내의 블럭들의 조합 및 흐름도의 각 블럭들은 지정된 기능 또는 작용을 실행하는 전용 하드웨어 기반 시스템 또는 전용 하드웨어 및 컴퓨터 명령어들의 조합에 의해 구현될 수 있다.

도 3은 본 개시의 측면들에 따라, 이미지들을 수집, 모델링, 추출 및 매칭시키는 예시적인 프로세스(300)의 흐름도이다. 도 3의 단계들은 얼굴 인식 시스템(예를 들어, 얼굴 인식 시스템(105))을 이용하여, 예를 들어, 이미지 소스(예를 들어, 이미지 소스(110))로부터 이미지를 획득하고, 획득된 이미지들을 처리하여 얼굴 인식을 실행하도록 구현될 수 있다.

단계 303에서, 얼굴 인식 시스템은 (예를 들어, 수집 모듈(151)을 통해), 개인의 하나 이상의 얼굴들을 획득한다. 예를 들어, 얼굴 인식 시스템은, 카메라 및/또는 이미지 데이터베이스와 같은 이미지 소스(예를 들어, 이미지 소스(110))로부터 개인의 얼굴 이미지를 포함하는 다수의 서로 다른 이미지를 획득할 수 있다. 그 이미지들은, 얼굴 인식 시스템에 의한 참조 및 프로세싱을 위해 데이터베이스(예를 들어, 이미지 데이터베이스(136))내에 저장될 수 있다.

단계 305에서, 얼굴 인식 시스템은, (예를 들어 분석 모듈(153)을 통해) 이미지들로부터 속성들을 판정한다. 본 발명의 측면들에 따르면, 그 속성들은 대상의 특징들을 의미론적으로 묘사한다. 실시 예들에 있어서, 그 속성들은 사전 정의된 정보 및 모델(예를 들어 도메인 지식 데이터베이스(137))에 기초하여 판정된다.

단계 307에서, 얼굴 인식 시스템은, (예를 들어, 모델링 모듈(155)을 통해서) 그 이미지들을 이용하여 개인 얼굴의 3D 모델을 판정한다. 예를 들어, 모델링 모듈(155)은 단계 305에서 판정된 속성들에 기초하여 라이브러리(예를 들어, 도메인 지식 데이터베이스(137))로부터 3D 메시를 선택하고, 단계 303에서 획득된 그 이미지들의 패치들로 메시를 채운다. 실시 예들에 있어서, 얼굴 인식 시스템은 다수의 이미지들로부터 정보가 부족한 3D 모델의 요소들을 식별할 수 있다. 3D 모델에 임의 요소들이 결핍되면, 얼굴 인식 툴은 대상 또는 목표 개인의 속성과 유사한 속성을 가진 개인들로부터 컴파일된 도메인 지식(예를 들어, 도메인 지식 데이터베이스(137))을 이용하여 식별된 요소들에 대한 정보를 제공할 수 있다.

단계 309에서, 얼굴 인식 시스템은, (예를 들어, 모델링 모듈(155)을 통해) 단계 307에서 판정된 3D 모델을 정규화한다. 그 정규화는 3D 모델에 의해 표현된 얼굴내의 조명 변화를 정규화하도록 3D 모델을 재조명하는 것을 포함할 수 있다. 추가적으로, 그 정규화는 본 명세서에서 이미 설명한 바와 같이, 3D 모델에 의해 표현된 얼굴의 표정을 무표정화하고 3D 모델에 의해 표현된 얼굴의 나이를 수정하고, 3D 모델과 연계된 얼굴 장신구 및 폐색을 설명하는 것을 포함할 수 있다.

단계 311에서, 얼굴 인식 시스템은, (예를 들어, 추출 모듈(159)을 통해) 단계 309에서 정규화된 3D 모델로부터 얼굴의 다른 자세들에 대응하는 2D 패치들을 추출한다. 예를 들어, 다른 자세들의 각각은 3D 모델의 각 뷰잉 각도 범위들에 대응한다. 각 뷰잉 각도 범위마다, 얼굴 인식 시스템은 다수의 가시적 패치들을 판정하고, 패치들의 정보를 각 뷰잉 각도 범위들에 연계시켜 데이터베이스(예를 들어, 모델 데이터베이스(138))에 저장한다.

단계 313에서, 얼굴 인식 시스템은, (예를 들어, 추출 모듈(159)을 통해) 단계 311에서 이용된 다른 자세들에 대한 멀티뷰 PEP 시그니처들을 판정한다. 실시 예들에 있어서, 멀티뷰 PEP 시그니처들은 다른 각도들로부터의 3D 모델의 각 뷰잉 각도 범위에 대응한다. 실시 예들에 있어서, 얼굴 인식 시스템은 다수의 추가적인 얼굴 이미지들을 이용하여 멀티뷰 PEP 시그니처들을 반복적으로 정제한다. 그러나, 본 발명의 측면들에 따르면, 멀티뷰 PEP 시그니처들의 각각은 다수의 추가적인 얼굴 이미지들과 무관하게 고정된 크기를 가진다. 또한, 본 발명의 측면들에 따르면, 얼굴 인식 시스템은 멀티뷰 PEP 시그니처들 중, 얼굴의 다른 특성에 대해 가장 큰 차별 특성을 가진 얼굴에 일부에 대응하는 시그니처를 판정한다. 실시 예들에 있어서, 가장 큰 차별 특성을 가진 얼굴의 일부의 판정은 얼굴 특성 선택을 실행하기 위해 데이터 훈련된 콘볼루션 신경 네트워크를 이용하여 이루어진다. 예를 들어, 콘볼루션 신경 네트워크는, 훈련 데이터에 기초하여, 각 부분에 대한 불확정성 메트릭을 판정하고, 가장 작은 불확정성 메트릭을 가진 얼굴들의 대응 부분을 선택하는 데 이용될 수 있다.

단계 315에서, 얼굴 인식 시스템은, (예를 들어, 추출 모듈(159)을 통해) 단계 305에서 판정된 속성을 가진 멀티뷰 PEP 시그니처들을 인덱싱한다. 실시 예들에 있어서, 특정 멀티뷰 PEP 시그니처에 대해, 속성은 요소 멀티뷰 PEP 시그니처로서 처리된 벡터로 그것을 전환시킴에 의해 인덱싱될 수 있다. 예를 들어, 그 인덱싱은 OTC(Optimized Transform Coding) 방법을 이용하여 실행될 수 있다.

단계 317에서, 얼굴 인식 시스템은, (예를 들어, 추출 모듈(159)을 통해) 하나 이상의 불확정성 메트릭을 멀티뷰 PEP 시그니처들에 연계시킨다. 불확정성 메트릭은 (예를 들어, 폐색, 얼굴 장신구, 조명 및 뷰잉 각도에 기인하여) 멀티뷰 PEP 시그니처들의 각각을 생성하는데 이용된 정보의 품질에 기반하여 판정된 값들일 수 있다. 멀티뷰 PEP 시그니처들은 단계 315에서 판정된 그들 각각의 속성 및 단계 317에서 판정된 각 불확정성 메트릭과 연계되어 데이터베이스(예를 들어, 모델 데이터베이스(138))에 저장될 수 있다.

단계 319에서, 얼굴 인식 시스템은, (예를 들어 매칭 모듈(163)을 통해) 입력 이미지가 단계 305에서 판정된 속성, 단계 315에서 판정된 멀티뷰 PEP 시그니처들 및 단계 317에서 판정된 불확정성 메트릭에 기초하여 모델링되었던 개인의 얼굴에 매칭되는지를 판정한다. 실시 예들에 있어서, 그 판정은 입력 이미지의 해상도에 기초하여 다수의 시그니처들의 해상도를 수정하는 것을 포함한다. 추가적으로, 실시 예들에 있어서, 그 판정은 다수의 이미지 양식들을 이용하여 그 매칭을 수행하는 것을 포함한다. 예를 들어, 그 매칭은 가시 스펙트럼 이미지, 적외선 이미지 및/또는 그림에 대응하는 PEP 시그니처를 이용하여 수행될 수 있다.

도 4는 본 개시의 측면들에 따른, 얼굴 인식 시스템(예를 들어, 얼굴 인식 시스템(105))을 이용하여 속성 기반 표현을 판정하는 흐름도이다. 얼굴 인식 시스템은 본 명세서에서 이미 설명한 것과 동일한 것일 수 있다. 단계 403에서, 얼굴 인식 시스템은 하나 이상의 소스(예를 들어, 이미지 소스(110))로부터 개인의 하나 이상의 얼굴(405)을 수신한다. 단계 407에서, 얼굴 인식 시스템은, (예를 들어, 모델링 모듈(155)을 이용하여) 개인의 얼굴의 3D 모델을 판정한다. 3D 모델은 (예를 들어, 분석 모듈(153)을 이용하여) 수신된 이미지로부터 추출되는 개인의 속성(예를 들어, 성별, 나이, 인종 등)에 기초하여 선택된 표준 형상에 기초할 수 있다. 또한, 얼굴 인식 시스템은 본 명세서에서 이미 설명한 바와 같이 모델을 재조명하고, 얼굴 표정을 정규화하고 및/또는 얼굴의 나이를 측정함에 의해 3D 모델내의 개인의 얼굴의 표현을 수정할 수 있다.

단계 409에서, 얼굴 인식 시스템(105)은, (예를 들어, 추출 모듈(159)을 이용하여) 3D 모델의 다수의 서로 다른 자세에 대응하는 2D 패치들을 추출함에 의해 단계 407에서 판정된 3D 모델로부터 멀티뷰 PEP 시그니처들을 판정한다. 그 자세들의 각각은 피치 및 요 범위들의 다른 조합에 기초한 3D 모델의 뷰잉 각도에 대응할 수 있다. 예를 들어, 제 1 조합은 -15도 내지 15도의 피치 범위 및 10도 내지 40도의 요 범위를 포함할 수 있으며, 제 2 조합은 -10도 내지 +10도의 피치 범위 및 -90도 내지 -75도의 요 범위를 포함할 수 있고, 제 3 조합은 -10도 내지 +10의 피지 범위 및 -45도 내지 -15도의 요 범위를 포함할 수 있고, 제 4 조합은 -10도 내지 +10도의 피치 범위 및 -15도 내지 +15도의 요 범위를 포함할 수 있고, 제 5 조합은 -10도 내지 +10도의 피치 범위 및 +15도 내지 +45도의 요 범위를 포함할 수 있고, 제 6 조합은 -10도 내지 +10도의 피치 범위 및 +75도 내지 +90도의 요 범위를 포함할 수 있고, 제 7 조합은 -40도 내지 -10도의 피치 범위 및 -15도 내지 +15도의 요 범위를 포함할 수 있다. 본 개시의 측면들에 따르면, 멀티뷰 PEP 시그니처는 다수의 이미지 양식들(413)(예를 들어, 가시 스펙트럼, 적외선 및 스케치/만화)에 대해 판정된다.

단계 415에서, 얼굴 인식 시스템은, (예를 들어, 추출 모듈(159)을 이용하여) 단계 409에서 이용된 서로 다른 자세들(예를 들어, 자세 0 내지 8)에 대해 판정된 멀티뷰 PEP 시그니처들의 각각에 대응하는 다수의 빈들(417)(예를 들어, 빈 0 내지 8)을 채운다. 추가적으로, 빈(417)들의 각각은 하나 이상의 속성들(419)에 의해 인덱싱된다. 또한, 빈(417)의 각각은 각 불확정성 메트릭(421)과 연계된다. 본 개시의 측면들에 따르면, 다른 자세들에 대해 결정된 멀티뷰 PEP 시그니처들과 개인의 이미지들간의 유사성에 기초하여 개인이 식별될 수 있다.

도 5는 본 개시의 측면들에 따른, 얼굴 인식 시스템(예를 들어, 얼굴 인식 시스템(105))에 의해 속성들을 판정하는 흐름도이다. 그 속성들은, 본 명세서에서 이미 설명한 것과 동일한 것일 수 있는, 얼굴 인식 시스템의 분석 모듈(153)에 의해 판정될 수 있다. 단계 503에서, 분석 모듈(153)은 본 명세서에서 이미 설명한 바와 같이, 이미지내의 개인의 얼굴을 검출할 수 있다. 검출된 얼굴은 자세와 연계될 수 있다. 단계 505에서, 분석 모듈(153)은 본 명세서에서 이미 설명한 바와 같이 단계 503에서 검출된 얼굴의 기준점을 판정할 수 있다. 단계 507에서, 분석 모듈(153)은 단계 505에서 판정된 기준점에 기초하여 얼굴내로부터 2D 패치들을 판정할 수 있다.

또한, 단계 509에서, 분석 모듈(153)은 단계 503에서 검출된 얼굴의, 단계 507에서 판정된 2D 패치에 있어서의 속성(예를 들어, 자세)들을 분류할 수 있다. 예를 들어, 얼굴 및 2D 패치에 기초하여, 분석 모듈(153)은, 의미 "남성", "백인", "끝이 뾰족한 코" 및 "안경"을 이미지와 연계시키는 선형 분류기를 이용한다. 의미들의 각각은 판정의 확실성에 대응하는 각각의 의미의 연계된 가중치를 가질 수 있다. 예를 들어, 의미 "남성"과 연계된 가중치는, 이미지내의 개인의 성별이 확실하게 남성이다라고 분석 모듈(153)이 판정할 때 더 크며, 그 가중치는, 이미지내의 개인의 성별이 남성인지 명확하지 않다라고 분석 모듈(153)이 판정하면 더 낮아질 수 있다. 실시 예들에 있어서, 확정성은 (예를 들어, 도메인 지식 데이터베이스(137)에 있어서) 참조 데이터와 이미지내의 기준점의 비교에 의해 판정된 유사성에 기초하여 판정될 수 있다.

실시 예들에 있어서, 분석 모듈(153)은 머리 자세의 요 및 피치값들의 범위에 대응하는 자세 지정 PEP 표현을 식별하는 CNN(Convolutional Neural Net)을 이용하여 속성을 판정한다. 자세 지정적인 부분들에 기초하여 그 이미지를 단계 507에서의 2D 패치로 분해함에 의해, 콘볼루션 신경 네트의 후속하는 훈련이 실질적으로 보다 쉬어진다. 따라서, 분석 모듈(153)은 상대적으로 작은 데이터세트로부터 자세 정규화 특성들을 판정할 수 있게 된다. 저 레벨 특성들에 추가하여, 한쌍의 표현들간의 대응성(또는 매칭)을 수립하는데 이용되는 이미지 패치들은 3D 자세(요 및 피치)에 의존하며, 콘볼루션 신경 네트를 이용하여 각 3D 자세에 대해 독립적으로 학습될 수 있다. 또한, 분석 모듈(153)은 의미론적으로 정렬된 부분 패치들에 기초하여 입력 층(input layer)들을 갖도록 심층 콘볼루션 네트워크를 확대시키는 모델을 이용할 수 있다. 이 모델은 특정 자세하의 특정 속성에 대해 지정된 특성들을 학습한다. 분석 모듈(153)은 그러한 네트워크에 의해 생성된 속성들을 조합하고, 자세-정규화 심층 표현(pose-normalized deep representation)을 구성할 수 있다. 분석 모듈은 다양한 해상도, 품질 및 조건들(예를 들어, 나이, 자세, 조도)을 가진 매체를 지원하도록 훈련받는 멀티뷰 PEP 기반 표현에 심층 학습 아키텍쳐를 통합시킨다.

도 6은 본 개시의 측면들에 따른, 멀티뷰 PEP 시그니처를 판정하는 얼굴 인식 시스템(예를 들어, 얼굴 인식 시스템(105))에 의해 실행되는 프로세스에 대한 흐름도이다. 본 명세서에서 이미 설명한 것과 동일한 것일 수 있는, 추출 모듈(159)에 의해 속성이 판정될 수 있다.

단계 603에서, 추출 모듈(159)은 이미 설명된 것과 동일한 것일 수 있는, 3D 모델로부터 로컬 기술자(local descriptor)를 추출한다. 단계 605에서, 추출 모듈(159)은 PEP 모델의 요소들을 판정한다. 본 발명의 측면들에 따르면, 모델링 모듈(155)은 (예를 들어, 이미지 데이터베이스(136)내의) 훈련 이미지들로부터, 가우시안 요소들을 구형(spherical)으로 제약하는 가우시안 혼합 모델을 이용하여 공간-외관 로컬 기술자를 추출한다. 추출 모듈(159)은 EM(Expectation-Maximization)을 이용하여 파라메타들을 판정할 수 있다. PEP 모델은 부분 기반 표현(part based representation)에 기초하여 자세 변화를 효과적으로 처리하고, 불변 로컬 기술자들을 이용하여 다른 계수(factor)들로부터의 변화를 처리한다.

단계 607에서, 추출 모듈(159)은 단계 605에서 판정된 PEP 모델의 요소들 간에서 최대 우도 부분 기술자(maximum likelihood part descriptor)들을 판정한다. 예를 들어, 판정된 PEP 모델의 (얼굴 부분을 나타내는) 각 가우시안 요소는 모델의 파라메타들로부터 유발된 요소에 대해 가장 높은 우도를 가진 로컬 이미지 기술자를 선택한다.

단계 609에서, 추출 모듈(159)은 단계 607에서 판정된 최대 우도 부분 기술자들로부터 PEP 시그니처를 판정한다. 최종적인 표현을 판정하기 위해, 추출 모듈(159)은 모든 요소들로부터 선택된 기술자들을 결부시킬 수 있다. 실제 현실 상황(real-world conditions)을 처리하기 위해, 추출 모듈(159)은 상술한 PEP 모델을 자세 인식 PEP 모델로 확장하며, 그에 의해 모델링 모듈(155)은 요-피치 자세 스페이스를 다른 자세 빈들로 구분하고, 각각마다 다른 PEP 모델과 표현을 획득한다. 모든 PEP 모델들의 앙상블(ensemble)은 큰 범위의 자세 변화들을 보다 효과적으로 모델링할 수 있는 앙상블 PEP 표현을 이끈다. 추출 모듈(159)은 그 앙상블내의 각각의 개별적인 PEP 표현에 대한 메트릭을 판정하고, 각 개별적인 PEP 모델에 대해 입력 얼굴 이미지의 발생 확률을 자연적으로 채택하여, 각각의 개별적인 PEP 표현들에 대해 정의된 메트릭에 적응적으로 가중치를 부여한다.

대상의 모든 추가적인 얼굴 이미지와 함께, 추출 모듈(159)은 소프트-맥스 취합(soft-max aggregation)을 채택하여 부분 기술자들을 취합한다. 모든 얼굴 이미지로부터 모든 최대 우도 부분 기술자들의 가중된 합을 획득함에 의해(각 최대 우도 부분 기술자들의 각각의 가중치는 대응하는 부분과 연계된 기술자의 확률을 이용하여 다항 소프트 맥스 함수에 의해 설정됨), PEP 모델은 기술자들의 증분적 및 가역적(incremental and reversible) 갱신이 가능하게 된다. 각각의 최대 우도 부분 기술자들의 확률을 동시에 기록함으로써, 모든 원본 이미지들을 액세스할 필요없이, 추가적인 새로운 이미지로부터 최대 우도 기술자를 추가하거나 기존의 표현을 생성하는데 이용되었던 기준 이미지들의 세트로부터 최대 우도 기술자를 제거함에 의해 기존의 표현을 가요적으로 갱신할 수 있게 된다. 또한, 소프트-맥스 취합에 기반한 갱신은 자세 인식 PEP 표현의 크기가 고정될 수 있게 한다.

본 발명의 측면들에 따르면, 자세 인식 PEP 기반 2D 표현들은 3 부분 표현일 수 있으며, 그 각각은 가시 스펙트럼, 근적외선 스펙트럼 및 몽타주(또는 만화)로부터의 이미지들에 대한 것일 수 있다. 표현의 각 유형에 대해, 추출 모듈(159)은 생성 확률에 기초하여 패치로부터 도출되는 시그니처와 연계된 불확정성 메트릭을 추정한다. 그러한 불확정성 메트릭은 시그니처를 개인들과 정확하게 매칭시키는 것을 보조할 수 있다.

본 개시는 본 출원서에서 설명된 특정 실시 예들의 견지에서 제한되는 것은 아니며, 다양한 측면들의 예시로서 의도된 것이다. 당업자라면 그의 사상 및 범주를 벗어나지 않고서 많은 수정 및 변형이 이루어질 수 있음을 알 것이다. 본 명세서에서 열거된 것들에 추가하여 본 개시의 범주내의 기능적으로 등가인 방법 및 장치는 상술한 설명으로부터 당업자에게는 명백할 것이다. 그러한 수정 및 변형은 첨부된 청구범위의 범주 내이다. 본 개시는 청구범위가 갖게되는 등가물들의 전체 범주와 함께, 첨부된 청구범위에 의해서만 제한된다. 본 명세서에서 이용된 용어는 특정 실시 예를 설명하기 위한 것으로 제한을 위한 것은 아님을 알 것이다. 본 명세서에서 실질적으로 복수형 및/또는 단수형 용어를 이용한 것에 대하여, 당업자라면 문맥 및/또는 애플리케이션에 적절하게 복수형이 단수형으로 변환되고 단수형이 복수형으로 변환될 수 있음을 알 것이다. 다양한 단수/복수 치환은 명확성을 위해 본 명세서에서 명확하게 설명된다.

당업자라면, 일반적으로 본 명세서, 특히 첨부된 청구범위에서 이용된 용어들이 "오픈(open)" 용어로서 의도된 것임을 알 것이다(예를 들어, 용어 "포함하는"은 "포함하지만 그에 국한되는 것은 아닌"으로 해석되어야 하고, 용어 "가진"은 "적어도 가진"으로 해석되어야 하며, 용어 "포함하다"는 "포함하지만 그에 국한되는 것인 아니다"로서 해석되어야 한다). 당업자라면, 도입된 청구항 인용의 특정 번호가 의도되면, 그러한 의도는 그 청구항에 명확하게 인용될 것이며, 그러한 인용이 없으면 그러한 의도도 존재하지 않는다. 예를 들어, 이해를 돕기 위해, 이하의 첨부된 청구범위가 청구항 인용들을 도입하기 위해 서두 문구에 "적어도 하나" 및 "하나 이상을 이용하는 것을 포함할 수 있다. 그러나, 그러한 문구를 이용할지라도, "소정의" 또는 "하나의"란 표현에 의한 청구항 인용의 도입이 그러한 도입된 청구항 인용을 포함하는 임의 특정 청구항을 단지 그러한 인용만을 포함하는 실시 예로 제한하는 것을 암시하는 것으로 이해되어서는 안되며, 그것은 동일한 청구항이 서두 문구 "하나 이상" 또는 "적어도 하나" 및 "소정의" 또는 "하나의"를 포함하는 경우에도 그러하며(예를 들어, "소정의" 및/또는 "하나의"는 "적어도 하나" 또는 "하나 이상"을 의미하는 것으로 해석되어야 한다), 청구항 인용을 도입하는데 이용되는 표현들의 이용에 대해서도 마찬가지이다. 또한, 특정 개수의 도입 청구항 인용이 명확하게 인용된다 할지라도, 그러한 인용이 최소한의 인용된 개수를 의미하는 것으로 해석되어야 함을 당업자라면 알 것이다(예를 들어, 다른 수정없이 "2개의 인용"이란 기본 인용은 적어도 2개의 인용 또는 2개 이상의 인용을 의미한다). 또한, "A, B, C 등 중 적어도 하나"와 유사한 관례적인 것이 이용되는 예시에 있어서, 통상적으로 그러한 구성은 당업자가 그 관례적인 것을 이해하고 있다는 견지에서 의도된 것이다(예를 들어, "A, B, C 중 적어도 하나를 가진 시스템"은 A 단독, B 단독, C 단독, A와 B, A와 C, B와 C, 및/또는 A와 B와 C를 가진 시스템을 포함하되 그에 국한되는 것은 아니다). "A, B 또는 C 등 중 적어도 하나"와 유사한 관례적이 것이 이용되는 예시에 있어서, 통상적으로 그러한 구성은, 당업자가 그 관례적인 것을 이해하고 있다는 견지에서 의도된 것이다(예를 들어, "A, B, C 중 적어도 하나를 가진 시스템"은 A 단독, B 단독, C 단독, A와 B, A와 C, B와 C, 및/또는 A와 B와 C를 가진 시스템을 포함하되 그에 국한되는 것은 아니다). 당 분야에 속한 자라면, 상세한 설명, 청구범위 또는 도면에서 둘 이상의 대안적인 용어를 나타내는 가상적인 임의의 이접적인(disjunctive) 단어 및/또는 구문이 그 용어 중 하나, 그 용어 중 어느 하나, 또는 둘 모두를 포함하는 것을 고려하는 것으로 이해되어야 함을 알 것이다. 예를 들어, 구문 "A 또는 B"는 "A" 또는 "B" 또는 "A와 B"의 가능성을 포함하는 것으로 이해되어야 한다. 또한, 본 개시의 특성 또는 측면이 마쿠시 그룹의 견지에서 설명될 경우, 당업자라면 그 개시가 마쿠시 그룹의 부재들의 임의 개별적 개수 또는 서브 그룹의 견지에서 설명됨을 인식할 것이다.

여러 측면 및 실시 예가 본 명세서에서 설명되었지만, 다른 측면 및 실시 예가 당업자에게는 명백할 것이다. 본 명세서에서 개시된 여러 측면 및 실시 예는 예시적인 목적이며, 이하의 청구범위에 의해 표시된 진실한 범주 및 사상을 제한하려고 하는 것은 아니다.

Claims

개인의 다수의 서로 다른 2차원(2D) 이미지들에 기초하여 개인의 얼굴의 3차원(3D) 모델을 판정하고;
다수의 서로 다른 2차원 이미지들에 기초하여 3D 모델을 결정한 후, 3D 모델로부터 2차원(2D) 패치(patch)들을 추출하고 - 상기 2D 패치들은 다수의 서로 다른 2D 이미지들과 다름 - ;
2D 패치들의 서로 다른 조합들을 이용하여 얼굴의 다수의 시그니처(signature)들을 생성하는 것을 구비하되,
다수의 시그니처는 서로 다른 각도들로부터의 3D 모델의 각 뷰(view)에 대응하는
방법.
개인의 다수의 서로 다른 이미지에 기초하여 개인의 얼굴의 3차원(3D) 모델을 판정하고;
3D 모델로부터 2차원(2D) 패치(patch)들을 추출하고;
2D 패치들의 서로 다른 조합들을 이용하여 얼굴의 다수의 시그니처(signature)들 - 다수의 시그니처들은 서로 다른 각도들로부터의 3D 모델의 각 뷰(view)에 대응함 - 을 생성하고;
개인의 특징들을 의미론적으로 묘사하는 개인의 다수의 속성들을 판정하고;
다수의 속성들에 기초하여 다수의 시그니처들을 인덱싱하는
방법.
제 1 항 또는 제 2 항에 있어서,
상기 3D 모델을 판정하는 것은,
다수의 이미지로부터 정보가 결핍된 3D 모델의 요소들을 식별하고;
개인의 속성들과 유사한 속성들을 가진, 개인들로부터 컴파일된 도메인 지식을 이용하여 식별된 요소들에 대한 정보를 제공하는 것을 구비하는
방법.
제 1 항 또는 제 2 항에 있어서,
3D 모델에서 조명 변화를 정규화함에 의해 3D 모델을 수정하는 것을 추가로 구비하는
방법.
제 1 항 또는 제 2 항에 있어서,
개인의 다수의 서로 다른 이미지들로부터 결과하는 얼굴 표정을 무표정화하는 것을 더 구비하는
방법.
제 1 항 또는 제 2 항에 있어서,
개인의 나이에 기초하여 3D 모델을 수정하는 것을 더 구비하는
방법.
제 1 항에 있어서,
개인의 특징들을 의미론적으로 묘사하는 개인의 다수의 속성들을 판정하는 것을 더 구비하는
방법.
제 1 항 또는 제 2 항에 있어서,
다수의 시그니처들에 대한 각각의 불확정성 값들을 판정하는 것을 더 구비하되,
불확정성 값은 다수의 시그니처들에 포함된 각 2D 패치들의 품질에 기초하는
방법.
제 1 항 또는 제 2 항에 있어서,
얼굴 이미지가 다수의 시그니처들 중 적어도 하나에 매칭되는 지를 판정하는 것을 더 구비하는
방법.
제 9 항에 있어서,
얼굴 이미지가 매칭되는 지를 판정하는 것은, 얼굴 이미지의 해상도에 기초하여 다수의 시그니처들의 해상도를 수정하는 것을 구비하는
방법.
제 9 항에 있어서,
얼굴 이미지가 매칭되는 지를 판정하는 것은, 다수의 이미징 양식들(imaging modalities)을 이용하여 매칭시키는 것을 구비하는
방법.
제 1 항 또는 제 2 항에 있어서,
얼굴의 다수의 시그니처들은 개인의 다수의 추가적인 얼굴 이미지들을 이용하여 반복적으로 정제되는
방법.
제 12 항에 있어서,
얼굴의 다수의 시그니처들은 다수의 추가적인 얼굴 이미지와 무관하게 고정된 크기를 가지는
방법.
제 1 항 또는 제 2 항에 있어서,
다수의 시그니처들에 각각 대응하는 불확정성 메트릭을 판정하고;
다수의 시그니처들을 대응하는 불확정성 메트릭에 연계시키는 것을 더 구비하는
방법.
제 1 항 또는 제 2 항에 있어서,
다수의 시그니처들 중 어느 것이 가장 큰 개수의 차별 특성들을 가진 얼굴의 부분에 대응하는 지를 판정하는 것을 더 구비하는
방법.
얼굴 인식 시스템으로서,
프로세서;
저장 시스템;
상기 저장 시스템에 저장된, 프로세서에 의한 실행을 위한 프로그램 명령어를 구비하되,
상기 프로그램 명령어는
개인의 다수의 서로 다른 2차원(2D) 이미지들에 기초하여 개인의 얼굴의 3차원(3D) 모델을 판정하는 프로그램 명령어;
다수의 서로 다른 2차원 이미지들에 기초하여 3D 모델을 판정한 후, 3D 모델로부터 2차원(2D) 패치들을 추출하는 프로그램 명령어 - 상기 2D 패치들은 다수의 서로 다른 2차원 이미지들과 다름 - ; 및
2D 패치들의 서로 다른 조합들을 이용하여 얼굴의 다수의 시그니처(signature)들을 생성하는 프로그램 명령어를 구비하고,
다수의 시그니처들은 서로 다른 각도들로 부터의 3D 모델의 각각의 뷰(view)에 대응하는
얼굴 인식 시스템.
얼굴 인식 시스템으로서,
프로세서;
저장 시스템;
상기 저장 시스템에 저장된, 프로세서에 의한 실행을 위한 프로그램 명령어를 구비하되,
상기 프로그램 명령어는
개인의 다수의 서로 다른 이미지들에 기초하여 개인의 얼굴의 3차원(3D) 모델을 판정하는 프로그램 명령어;
3D 모델로부터 2차원(2D) 패치들을 추출하는 프로그램 명령어;
2D 패치들의 서로 다른 조합들을 이용하여 얼굴의 다수의 시그니처(signature)들 - 다수의 시그니처들은 서로 다른 각도들로 부터의 3D 모델의 각각의 뷰(view)에 대응함 - 을 생성하는 프로그램 명령어;
개인의 특징들을 의미론적으로 묘사하는 개인의 다수의 속성들을 판정하는 프로그램 명령어; 및
다수의 속성들에 기초하여 다수의 시그니처들을 인덱싱하는 프로그램 명령어를 구비하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
상기 3D 모델을 판정하는 것은,
다수의 이미지로부터 정보가 결핍된 3D 모델의 요소들을 식별하고;
개인의 속성들과 유사한 속성들을 가진, 개인들로부터 컴파일된 도메인 지식을 이용하여 식별된 요소들에 대한 정보를 제공하는 것을 구비하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
3D 모델에서 조명 변화를 정규화함에 의해 3D 모델을 수정하는 프로그램 명령어를 추가로 구비하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
개인의 다수의 서로 다른 이미지들로부터 결과하는 얼굴 표정을 무표정화하는 프로그램 명령어를 더 구비하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
개인의 나이에 기초하여 3D 모델을 수정하는 프로그램 명령어를 더 구비하는
얼굴 인식 시스템.
제 16 항에 있어서,
개인의 특징들을 의미론적으로 묘사하는 개인의 다수의 속성들을 판정하는 프로그램 명령어를 더 구비하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
다수의 시그니처들에 대한 각각의 불확정성 값들을 판정하는 프로그램 명령어를 더 구비하되,
불확정성 값은 다수의 시그니처들에 포함된 각 2D 패치들의 품질에 기초하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
얼굴 이미지가 다수의 시그니처들 중 적어도 하나에 매칭되는 지를 판정하는 프로그램 명령어를 더 구비하는
얼굴 인식 시스템.
제 24 항에 있어서,
얼굴 이미지가 매칭되는 지를 판정하는 것은, 얼굴 이미지의 해상도에 기초하여 다수의 시그니처들의 해상도를 수정하는 것을 구비하는
얼굴 인식 시스템.
제 24 항에 있어서,
얼굴 이미지가 매칭되는 지를 판정하는 것은, 다수의 이미징 양식들(imaging modalities)을 이용하여 매칭시키는 것을 구비하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
얼굴의 다수의 시그니처들은 개인의 다수의 추가적인 얼굴 이미지들을 이용하여 반복적으로 정제되는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
얼굴의 다수의 시그니처들은 다수의 추가적인 얼굴 이미지와 무관하게 고정된 크기를 가지는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
다수의 시그니처들에 각각 대응하는 불확정성 메트릭을 판정하는 프로그램 명령어; 및
다수의 시그니처들을 대응하는 불확정성 메트릭에 연계시키는 프로그램 명령어를 더 구비하는
얼굴 인식 시스템.
제 16 항 또는 제 17 항에 있어서,
다수의 시그니처들 중 어느 것이 가장 큰 개수의 차별 특성들을 가진 얼굴의 부분에 대응하는 지를 판정하는 프로그램 명령어를 더 구비하는
얼굴 인식 시스템.