KR101967410B1

KR101967410B1 - 시각 검색 애플리케이션용 유명인사의 인물 모델 자동 마이닝

Info

Publication number: KR101967410B1
Application number: KR1020127015598A
Authority: KR
Inventors: 데이비드 로스; 앤드류 라비노비치; 아난드 필라이; 하트위그 아담
Original assignee: 구글 엘엘씨
Priority date: 2009-11-18
Filing date: 2010-11-16
Publication date: 2019-04-10
Also published as: WO2011062911A1; EP2502185A1; CA2781105A1; AU2010322173A1; AU2010322173B2; CN102804208B; KR20120086728A; US8605956B2; US20110116690A1; CN102804208A

Abstract

유명인사의 이름 목록을 생성하고, 각 이름에 대한 이미지 세트와 이에 대응하는 특징 벡터를 얻고, 이 이미지 세트 내의 얼굴을 검출하고, 비얼굴 이미지를 제거하는 유명인사 얼굴 이미지 자동 식별 방법 및 시스템이 제공된다. 이미지 분석은 인트라 모델 분석, 인터 모델 분석 및 스펙트럼 분석을 이용하여 수행되어 이름 목록에 있는 개인들 각각에 대한 매우 정확한 생체인식 모델을 리턴한다. 그런 다음에, 정밀도와 리콜에 기초하여 인식이 수행되어 얼굴 이미지를 유명인사에 속한 것으로 아니면 그 얼굴은 모르는 것으로 식별한다.

Description

시각 검색 애플리케이션용 유명인사의 인물 모델 자동 마이닝{AUTOMATICALLY MINING PERSON MODELS OF CELEBRITIES FOR VISUAL SEARCH APPLICATIONS}

본 발명의 실시예들은 시각 콘텐츠에서 인물을 인식하는 것에 관한 것이다.

인터넷은 텍스트, 이미지 및 비디오를 비롯한 엄청난 량의 각종 콘텐츠를 호스팅한다. 이러한 콘텐츠를 다루기 위해서는 콘텐츠를 검색하고 구성할 수 있어야 한다. 이미지는 일반적으로 사용자가 수동으로 지정한 식별자에 기초하여 검색되고 구성된다.

특히, 이미지가 인물 얼굴 이미지인 경우에, 외양, 조명 및 표정이 크게 변하더라도 사람은 그 얼굴을 매우 정확하게 인식할 수가 있다. 반면에, 컴퓨터 영상 시스템은 사람의 정확도로 인식하기가 어려웠다. 얼굴 인식이 컴퓨터 영상이나 다른 영역에서 오래 지속된 문제이긴 하였으나 이 산업의 주요 촛점은 데이터셋이 매우 작은 제한된 환경에서의 얼굴 인식이었다. 데이터셋이 각각이 조명, 포즈 및 표정으로 인한 외양 변화를 갖는 수 천개로 늘어남에 따라, 성공적인 검증과 인식을 위한 작업이 부족하였다.

유명한 사람의 작은 데이터셋이 이용될 수 있게 됨에 따라서 뉴스 속의 유명인사를 인식하려는 노력도 있어왔다. 통상적으로 통제된 환경과 통제된 포즈에서 찍힌 보통은 고화질인 뉴스 사진에 한정된 데이터셋을 포함하는 얼굴 식별, 검증 및 인식 알고리즘이 개발되어 왔다. 그러나, 통제되지 않은 환경에서는 관심 인물의 포괄적인 이미지가 자동적으로 인식되고 검증되기 힘들다.

그러므로 시각적 검색 애플리케이션을 위해 유명인사의 인물 모델을 자동적으로 마이닝(mining)할 수 있는 방법과 시스템이 요구된다.

<발명의 개요>

일 실시예에서, 유명인사의 이름 목록을 생성하고, 각 이름에 대한 이미지 세트와 이에 대응하는 특징 벡터를 얻고, 이 이미지 세트 내의 얼굴을 검출하고, 비얼굴 이미지를 제거하는 유명인사 얼굴 이미지 식별을 위한 컴퓨터 구현 방법이 제공된다. 이미지 분석은 인트라 모델 분석, 인터 모델 분석 및 스펙트럼 분석을 이용하여 수행되어 이름 목록에 있는 개인들 각각에 대한 매우 정확한 생체인식 모델을 리텅한다. 그런 다음에, 정밀도와 리콜(recall)에 기초하여 인식이 수행되어 얼굴 이미지를 유명인사에 속는 것으로 아니면 그 얼굴은 모르는 것으로 식별한다.

다른 실시예에서, 유명인사의 이름을 생성하는 이름 목록 생성기, 각 이름에 대한 이미지 세트와 이에 대응하는 특징 벡터를 얻고, 이 이미지 세트 내의 얼굴을 검출하고, 비얼굴 이미지를 제거하는 얼굴 시그너처 검출기를 포함하는 유명인사 얼굴 식별 시스템이 제공된다. 인물 모델 학습 시스템은 인트라 모델 분석, 인터 모델 분석 및 스펙트럼 분석을 이용하여 이미지 분석을 수행하여 각 얼굴 이미지에 대한 매우 정확한 생체인식 모델을 리턴한다. 그런 다음에, 정밀도와 리콜에 기초하여 인식이 수행되어 얼굴 이미지를 유명인사에 속하는 것으로서 식별하거나 아니면 그 얼굴은 모르는 것으로 나타낸다.

본 발명의 추가적인 특징 및 이점과 본 발명의 여러 가지 실시예들의 구조와 동작에 대해서는 첨부 도면을 참조로 하기에서 자세히 설명한다. 본 발명은 여기서 설명되는 특정 실시예에 한정되는 것은 아님에 유의한다. 이와 같은 실시예는 여기서는 예시 목적으로만 제시되는 것이다. 당업자라면 여기서 설명되는 교시에 따라서 추가적인 실시예를 만들어 낼 수 있을 것이다.

본 발명의 실시예들에 대해 설명을 할 것인데, 그 예들은 첨부 도면에 예시되어 있다. 도면은 예시적인 것으로 한정적 의미를 갖는 것은 아니다. 본 발명은 이들 실시예들의 문맥에서 일반적으로 설명하지만 본 발명의 범위를 이들 특정 실시예에 한정하고자 하는 것은 아님을 알아야 한다.
도 1은 본 발명의 실시예에 따른 페어와이즈(pairwise) 유사성의 2가지 그래픽 예를 보여주는 도.
도 2는 본 발명의 실시예에 따른 중간 단계에서의 인식 성능의 그래픽 표현을 보여주는 도.
도 3은 본 발명의 실시예에 따른 특정 데이터셋에 대한 인식 성능의 그래픽 표현을 보여주는 도.
도 4는 본 발명의 일 실시예에 따른 시스템도.
도 5는 본 발명의 실시예에 따른 이름 목록 생성기의 구성 성분을 보여주는 도.
도 6은 본 발명의 실시예에 따른 얼굴 시그너처 검출기의 구성 성분을 보여주는 도.
도 7은 본 발명의 실시예에 따른 인물 모델 학습 시스템의 구성 성분을 보여주는 도.
도 8은 본 발명의 실시예에 따른 유명인사의 인물 모델을 자동적으로 마이닝하는 방법을 보여주는 도.
도 9는 본 발명의 실시예에 따른 유명인사의 인물 모델을 자동적으로 마이닝하는 컴퓨터 시스템을 도시한 도.

본 발명은 여기서는 특정 응용을 위한 예시적인 실시예들을 참조로 설명하지만, 본 발명은 이들 실시예에 한정되는 것은 아님을 알아야 한다. 본 발명의 교시를 접한 당업자라면 본 발명의 범위 내에 있는 추가적인 변경, 응용 및 실시예와 본 발명이 중요하게 활용될 수 있는 추가적인 분야를 인지할 것이다.

이미지 캡쳐 장치의 광범위한 유용성과 인터넷이 제공하는 연결성에 의해 촉발된 콘텐츠의 급증에 따라 이용가능한 이미지 컬렉션의 규모가 점점 더 커지고 있다. 서로 연결된 네트워크들과 공유 이미지 컬렉션의 이용함으로써 사용자는 전 세계에 퍼져 있는 사람들이 작성한 다양한 주제에 대한 대규모 콘텐츠 컬렉션에 수시로 접근할 수 있다. 자연환경 속의 수 많은 개인을 포함하는 데이터셋 내의 얼굴들을 자동적으로 식별하고 인식할 수 있는 시스템은 매우 유용하다. 본 명세서에서 설명되는 방법과 시스템은 예컨대 인터넷 상에서 이용가능한 많은 논문과 이미지 코퍼스를 이용하여 유명인사들의 이름과 얼굴을 자동적으로 연관시킨다. 본 발명의 실시예에서 본 시스템은 웹(web)을 크롤링(crawling)하고 얼굴 이미지와 그 주석(annotations)으로부터 학습함으로써 생체인식(biometric) 모델을 학습하고 얼굴을 인식할 수 있다. 그와 같은 이미지는 스틸 이미지, 비디오, 홀로그램, 및 기타 다른 미디어 유형이나 렌더링 방법을 포함하는 임의 유형의 이미지 콘텐츠로부터 얻을 수 있다. 클라우드 컴퓨팅 체계를 활용하면 이동 장치를 가지고 질의(query) 이미지를 얻을 수 있으며, 이 경우에 그 이미지 중의 질의된 얼굴의 이름은 그 이동 장치로 리턴된다.

데이터 컬렉션 트레이닝

웹상의 이름 목록과 이미지

본 발명의 실시예에서 자율 얼굴 인식 시스템은 사람의 개입없이 생성되는 트레이닝 세트 생성을 이용한다. 시스템에 입력해야 할 것은 시스템이 인식하려는 유명인사들의 이름 목록 뿐이다. 그와 같은 이름 목록은 인터넷 상에서 구할 수 있는 아티클과 같은 복수의 소스, 예컨대 위키피디아(Wikipedia)로부터 얻을 수 있고, 이 경우에 그러한 아티클은 사람 이름을 언급하는 아티클만을 포함하도록 걸러진다. 그러면, 여러 가지 이름이 GIS(Google Image Search)(캘리포니아 마운틴뷰 소재의 구글 인크.가 제작)와 같은 임의의 가용 서비스를 이용하여 인터넷을 통해 얻을 수 있는 이미지들과 연관될 수 있다. 이와 같은 서비스를 이용하면 얼굴 이미지가 검색되어 그 아티클에 있는 이름 목록과 연관될 수 있다. 그러면, 이 목록 중의 이름들은, 각 이름에 대한 이미지 검색에 의해 리턴된 얼굴 이미지의 수에 따라서 그 순위가 매겨질 수 있다.

이 실시예에서, 이름 목록이 정의되고 나면, 제1 단계는 이 목록상의 이름마다 이미지 세트와 그 대응 특징 벡터를 모으는 것이다. 이는 GIS와 같은 가용 인터넷 이미지 검색 시스템에 질의를 발행하고, 각 질의에 대해 리턴된 임계 갯수의 이미지를 기록하고, 얼굴을 검출하고, 이미지로부터 특징 벡터를 추출함으로써 달성될 수 있으며, 각 특징 벡터를 이 특징 벡터가 얻어진 질의로 추정상 라벨링한다. 인터넷 기반 이미지 검색에 내재된 오류의 가능성을 감안하면 초기의 특징 벡터 세트의 서브세트가 잘못 라벨링될 것이다. 일 실시예에서는 잘못 라벨링된 엔트리를 식별하여 폐기함으로써 트레이닝 데이터의 품질을 개선하기 위한 추가 트레이닝이 시도된다. 다른 실시예에서는, 하나보다 많은 유명인사 이름 질의에 대한 이미지가 리턴되면, 결과로서 생긴 특징 벡터들의 복수의 카피가 저장될 수 있고 각각의 카피는 이 카피를 생성했던 질의어로 라벨링된다. 유사하게, 이미지가 2개 이상의 얼굴을 포함하고 있다면, 이 모든 얼굴은 질의 이름으로 추정상 라벨링된다. 그러나, 양 경우에, 어느 얼굴이 실제로 문제의 유명인사인지를 해결하는 것은 더 나중에 다루어질 것이다.

검출

본 발명의 실시예에서, 이미지 검색에 의해 리턴된 명백한 이상치(outlier)를 피하기 위하여 얼굴 검출기를 이용하여 초기 결과로부터 비얼굴 이미지를 제거한다. 이 검출기는 예컨대 소정 범위의 윈도우 크기에 대한 고속 슬라이딩 원도우 방식을 이용한다. 일 실시예에서 이 검출기는 (1) 비트 특징과 같이 간단하지만 고속인 특징은 물론 (2) 가버 웨이브렛(Gabor wavelets)과 같이 비용이 더 많이 들지만 정보가 더 많은 특징을 포함하는 가지각색의 복잡성의 특징군에 기초한 이종 특징 검출기 세트의 선형적 조합을 이용한다. 이 검출기는 논리 손실항과 L₁ 정규화를 채용하는 목적 함수를 최소화함으로써 트레이닝된다. 출력은 범위 [0,1] 내의 각 윈도우에 할당된 스코어일 수 있다. 모든 스케일이 처리될 때에, 나머지 윈도우는 그 스코어에 따라서 걸러지고 병합되어 스케일에 걸쳐 중첩된다. 검출기 파라미터는 ±30도와 같은 임계 레벨로 설정된 틸트(피치) 각과, 40 화소와 같은 최소 박스사이즈를 포함할 수 있다. 다른 실시예에서, 얼굴 검출 스코어는 얼굴 경계 박스 내의 얼굴 특징 위치들을 정확히 찾아내는 랜드마커 서브시스템을 부가함으로써 더 정제될 수 있다. 그러면 이들 위치에서 추출된 특징들을 이용하여 어떤 얼굴이 존재할 확률을 나타내는 정제된 스코어를 얻을 수 있다. 일 실시예는 독창적인 비올라 존스(Viola and Jones) 검출기와 같은 큰 슬라이딩 윈도우 검출기군에 속하는 검출 알고리즘을 이용한다. 추출된 특징 벡터는 주 성분 분석(PCA)을 이용하여 차원수를 감소시킴으로써 더 처리될 수 있고, 가중 내적(weighted dot product)을 이용하여 2개의 특징 벡터 간의 유사성을 측정할 수 있다.

당업자라면 고정밀 및 리콜의 검출기를 기반으로 실시예를 구성할 수 있음을 잘 알 것이다.

인물 모델 학습

본 절은 본 발명의 실시예에 따라서 미가공 이미지 검색 결과를 입력으로 하여 이름 목록에 있는 수 많은 개인에 대한 매우 정확한 생체인식 모델을 리턴하는 전체 파이프라인에 대해 설명한다.

인트라 모델 분석

본 발명의 실시예에서, 30,000개 이름 세트, 예컨대 Q=30,000과 같은 큰 이름 목록을 이용하여 트레이닝 데이터를 생성할 수 있다. 일 실시예에서, 변수 M^q는 q∈[1,Q]에 대해 이미지 검색에 의해 리턴된 최대 1000개 이미지 세트이며, 첫 번째 단계는 M^q 자체를 분석하여 M^q로부터 잘못 라벨링된 트레이닝 표본, 예컨대 M^q _outlier를 제거하는 것이다. 특히 M^q내의 특징 벡터들

각각이 검사되고, M^q중의 나머지 벡터들에 대한 관련성이 낮은 이미지들을 폐기한다. 이 단계에서 각 M^q는 개별적으로 분석되어 상이한 이름들 q에 대해 리턴된 얼굴 이미지들 간의 유사성은 아직 고려되지 않도록 한다.

일 실시예에서,

로 나타낸 M^q내의 각 이미지 I_i에 대해서, 그룹 내의 이웃의 수와 근접 복제의 수를 카운트함으로써 최근접 이웃 그루핑(nearest neighbor grouping)이 수행될 수 있고, 이 경우에 이웃은

인 얼굴로 정의되고, 근접 복제는

인

로 정의된다. 일 실시예에서, 유사성 함수

는 이미지 검색으로부터 얻은 이미지와 라벨을 이용하여 학습될 수 있지만, 본 체계에 대해서는 다른 거리 메트릭(distance metrics)도 가능하다.

그러면 최근접 이웃의 수가 k개 미만인 이미지는 M^q로부터 제거될 수 있다. 중복을 줄이기 위해서, I_i로 나타낸 이미지의 모든 근접 복제가 제거될 수 있다. 그러면 M^q의 요소들은 근접 복제 카운트가 증가하는 순으로 저장될 수 있다. 저장된 목록 중의 각 얼굴은, 만일 목록 중에 보다 먼저 나타나는 근접 복제 이미지를 갖고 있다면 폐기될 수 있고, 그렇지 않으면 보유될 수 있다. 국소적 이상치 제거 방식은 부정 오류(false negatives)를 줄이는데 중요한 하이 리콜(high recall)에 도움이 될 수 있음에 유의한다. 이 프로세스를 통해 주어진 얼굴 모델에 대응하는 초기의 라벨링된 얼굴 컬렉션이 식별될 수 있다.

인터 모델 분석

본 발명의 실시예에서, 이 단계는 인트라 모델 분석 후에 남아있는 라벨링된 얼굴을 모으는 것으로 시작하며, 예컨대 서로 다른 이름이 달린 서로 다른 모델로부터의 얼굴들을 비교함으로써 잘못 라벨링된 엔트리를 더 제거하는 것을 추구한다. 컬렉션이 라벨이 서로 다른 2개의 근접 복제 얼굴을 포함하고 있다면, 이 라벨들 중 하나 또는 둘 다 잘못된 것이 거의 확실하며, 이 얼굴은 입력되는 질의 얼굴을 신뢰성있게 라벨링하는 데에 이용될 수 없다. 인터 모델 분석 단계는 페어와이즈 방식으로 컬렉션 중의 모든 얼굴을 고려함으로써 근접 복제 얼굴을 해결하는 것을 목적으로 한다. 각 쌍

에 대해서,

, 예컨대 얼굴 i와 j는 τ 초과의 유사성을 갖고, 라벨링된 유명인사 이름들은 불일치하면, 인트라 모델 분석 중에 계산된 근접 복제 카운트가 가장 작은 얼굴은 나중의 제거를 위해 마킹된다. 모든 얼굴쌍들이 고려되고 나면, 제거를 위해 마킹된 얼굴들은 컬렉션으로부터 폐기되고, 이들이 속했던 세트 M^q로부터 제거된다. 이러한 공식화는 컬렉션 내의 각 얼굴을 다른 모든 얼굴과 비교하며, 이에 따라서 몇몇 비교 중에 하나의 얼굴을 잃고(즉, 제거를 위해 마킹될 수 있고) 다른 얼굴들을 얻을 수 있다. 어느 경우든 특징 벡터는 임의의 비교 중에 잃게 된다면 컬렉션으로부터 폐기된다.

스펙트럼 분석

본 발명의 실시예에서, 개별 얼굴(예컨대 근접 복제와 최근접 이웃) 통계가 고려되었던 인트라 모델과 인터 모델 분석 단계와는 달리 스펙트럼 분석 단계는 개별 모델들의 전역적(global) 통계를 평가하는 것을 목적으로 한다. 스펙트럼 분석 단계의 시작에서, 얼굴 특징 벡터의 각 세트 M^q는 인트라 모델 또는 인터 모델 분석 중에 이미 폐기되지 않은 요소들만 포함한다.

특징 벡터(

)(i=1 ...

) 세트인 각 모델 M^q에 대한 목표는

를 k개의 그룹으로 클러스터링하고, 이 그룹들 중 하나를 이상치 부류로서 제거하는 것이다. 일 실시예에서, 이는 M^q 중의 각

쌍에 대해 측정되는 유사성

(S∈[0,1])를 계산함으로써 시작한다. 유사성 S_ij는 모델 M^q에 대한 무방향 그래프 G의 가중으로서 보여질 수 있다. 행렬 S는 G에 대한 "실가(real-valued)" 인접 행렬의 역할을 한다. 다음,

를 노드 i의 차수(degree)라 하고 D를 대각 d_i를 가진 대각 행렬이라 한다. 마지막으로, G의 그래프 라플라시안은 L=D^-1/2SD^-1/2(고유치가 [0,1] 사이에 있고, 최대 고유치는 1인 것을 보장함)로 정의된다. 일 실시예에서, 몇몇 종래의 스펙트럼 클러스터링 알고리즘은 고유치에 기초하여 L의 k개의 지배적 고유벡터를 선택함으로써 진행되고,

중의 원 데이터를 이들 k개의 고유벡터에 투사하여

로 맵핑한다. 그러나, 확실하게, M^q를 포함하는 클러스터는 도 1에 도시된 바와 같이 구형이고 M^q 내의 데이터는 투사를 요하지 않는다고 여겨진다. 일 실시예에서, 도 1은 어떤 사람의 얼굴 시그너처의 페어와이즈 유사성의

에의 맵핑을 나타낸다. 도표(102)는 브리트니 스피어스(Britney Spears)의 얼굴 모델 중의 71개 이미지를 나타낸다. 도표(104)는 버락 오바마(Barack Obama)의 얼굴 모델 중의 141개 이미지를 나타낸다. 이 실시예에서, 브리트니 스피어스는 여러 가지 표준 외양을 갖거나 그녀의 모델이 끊임없이 오염되고 있고, 버락 오바마에 대한 분포는 그의 이미지들이 서로 약간 다르기는 하나 대부분 비슷하여 보통은 동일한 외양을 보여주는 것이 분명하게 드러난다.

따라서, 그래프 라플라시안 L은 모델 차수 k를 결정하는데만 이용된다. L의 고유치는 내림차순으로 정렬되는데, 이 경우에 λ₁=1이고 나머지 고유치는 0으로 감소한다. 고유치 분포는 모델 M의 왜곡 또는 오염의 추정치로서 이용된다. 나머지 고유치가 매우 빨리 감소하면 M^q가 오염되지 않고 그 구성원 전부가 그 이웃들 사이에서 강한 지지를 얻고 있는 것으로 가정한다. 그러나, 일부 고유치가 실제로 크다면(예컨대 τ보다 크다면) k는 τ보다 큰 고유치의 수에 따라 결정된다.

일 실시예에서, 적당한 모델 차수 k를 갖고서 M^q 내의 엔트리는 응집형 클러스터링을 이용하여 클러스터링된다. 원 데이터에 잡음이 없고 선택된 k가 k_true일 때에만 멀티웨이(multiway)가 더 잘 수행되므로 k 웨이(k-way) 클러스터링 중에서 반복적 바이너리 클러스터링이 선택될 수 있다. 이 경우에는 데이터가 잘못 라벨링될 수 있으므로 반복적 바이너리 클러스터링이 더 적합하다. M^q 내의 얼굴들은 아래의 유사성 함수를 이용하여 평균 링킹을 가진 계층적 클러스터링을 이용하여 클러스터링될 수 있다.

일 실시예에서, 단순히 페어와이즈 유사성 S_ij를 이용하는 대신에,

와 M^q 내의 나머지 얼굴 간의 누적 유사성을 고려하는 더욱 전역적인 유사성 메트릭이 이용될 수 있다.

M^q가 클러스터 C₁, ... C_k로 분할되고 나면, 이상치 클러스터가 선택된다. 이 이상치 선택은, 클러스터 통계, 예컨대, 클러스터 사이즈, 엔트로피, 평균 클러스터 이미지 랭크, 또는 이전 단계에서 계산된 평균 복제 카운트에 의해, 또는 모델 M^q'(q≠q')과 비교함으로써 행해질 수 있다. 대개는, M^q'에 가장 유사한 클러스터

는 이상치 클러스터로 간주되어 폐기된다.

는 단순히 클러스터 C_i와 모델 M^q' 간의 평균 페어와이즈 유사성임에 유의한다. 그러면, 이름 목록 중의 모든 인물의 컬렉션과의 비교가 완료된다. 나머지 클러스터 중의 얼굴들은 M^q 및 M^q' 중의 엔트리와 개별적으로 비교된다. M^q'에 대한 평균 유사성이 더 높은 얼굴은 M^q로부터 제거된다. M^q를 Q-1개의 나머지 모델 각각과 비교하는(따라서 q(Q-1)/2개의 페어와이즈 비교가 생김) 대신에, M^q를 소수의 가장 유사한 모델과만 비교할 수 있다. 예컨대, M^q는 인트라 모델 분석 전에 최대 세트 교차를 공유했던 단일 모델 M^q'에만 비교될 수 있다. 또는 M^q는

일 때까지 다른 모델 M^q'와 비교될 수 있다.

대표 이미지

본 발명의 실시예에서, 어떤 인물의 대표 이미지가 자동적으로 선택된다. 어떤 인물의 대표 이미지는 이미지 세트와 이에 대응하는 전술한 특징 벡터들로부터 유사성 특징 세트, 예컨대 얼굴 시그너처, 복장, 선글라스, 머리카락 색, 배경 등에 의해 정의된다.

얼굴 특징에 기초하여 대표 이미지를 선택하는 것은 먼저 얼굴 유사성에 기초하여 관심 인물의 얼굴 이미지들을 클러스터링함으로써 수행될 수 있다. 당업자에게 공지된 바와 같이, 예컨대 임의의 페어와이즈 또는 센트럴 방법과 같은 몇 가지 클러스터링 알고리즘 중 임의의 것은 클러스터를 생성하는 데 이용될 수 있다. 일례로서, 평균 시프팅 클러스터링을 이용하여 얼굴 각각을 피봇(pivot)으로 이용하여 클러스터를 먼저 생성할 수 있다. 피봇 얼굴에 대한 적어도 임계 유사성(예컨대, 90%)을 가진 모든 얼굴은 그 클러스터에 추가될 것이다. 이와 같은 프로세스에 따라서 복수의 클러스터에는 동일 얼굴이 존재하게 될 수 있다. 복제 얼굴은 작은 클러스터로부터 제거될 수 있으며, 최소 임계치(예컨대 10)를 넘는 많은 얼굴을 포함하는 클러스터는 "양호" 클러스터라고 할 수 있다. 클러스터링 기법에 대한 추가적인 설명은 미국 특허 출원 제12/172,939호(대리인 정리번호 2525.1390000)[발명의 명칭: "Method And System For Automated Annotation Of Persons In Video Content", 그 전체 내용은 본 명세서에 인용으로 포함됨]에 더 자세히 기술되어 있다.

그러면, 최대 클러스터 또는 양호 클러스터 중의 임의의 클러스터로부터의 이미지는 대표 이미지로서 식별될 수 있다. 양호 클러스터가 없는 경우에는 최대 클러스터로부터 대표 이미지가 선택될 수 있다.

일 실시예에서, 대표 이미지는 예컨대 전신 이미지나 그룹 이미지가 아닌 헤드샷(headshot) 이미지만을 포함하도록 구성된다. 헤드샷 대표 이미지의 선택은 스코어링 알고리즘에 기초한다. 예컨대, 이미지 크롭핑(cropping)이 허용되지 않거나 가능하지 않은 경우에는 관심 인물의 얼굴을 묘사하는 이미지 부분에 기초하여 각 이미지에 정규화된 헤드샷 스코어가 주어진다. 그러므로, 단체 사진의 스코어는 초상 사진의 스코어보다 작을 것이다. 더욱이, 특정 이미지 종횡비가 요구된다면, 그 선택된 이미지는 차원들 중 하나를 따라 확대되어 원하는 면적비에 맞추어진다. 이 확대된 이미지 차원은 헤드샷 스코어 계산에 이용된다. 대표 헤드샷 이미지는 최고 스코어링 이미지에 기초하여 선택되는데, 이 경우에 최적의 선택은 양호 클러스터들로부터 얻은 이미지이다. 그러나, 양호 클러스터가 없는 경우에는 최고 스코어링 이미지는 모든 이미지들 중에서 선택된다. 동일한 최고 스코어를 갖는 이미지가 수 개 있다면, 그 이미지는 최대 클러스터로부터 선택된다.

인식

본 절은 본 발명의 실시예에 따라서 상기 구축된 생체인식 모델을 이용한 인식 프로세스에 대해 설명한다. 일 실시예에 따라서, 거의 실시간으로 전체 트레이닝 데이터셋을 통과할 수 있는 분류 방식이 선택된다. 대규모 데이터셋에서는 지연(latency)이 문제가 되므로 최근접 이웃 분류자의 변종을 이용하여 인식이 수행될 수 있다.

일 실시예에서, 질의 이미지 I_query가 주어지면 특징 벡터

가 트레이닝 데이터 중의 모든 이미지와 비교된다. 트레이닝에서와 동일한 유사성 메트릭을 가지고 Q개 카테고리 모두에 대한 제1의 k개의 최유사 이미지가 선택된다. 질의에 대한 얼굴 라벨의 마지막 선택은 다음의 가정에 기초한다. 먼저, 트레이닝 데이터는 그 정확성이 보장되지 않으므로 질의 이미지와 매우 유사할 수는 있으나 잘못 라벨링된 이미지가 있을 수 있으며, 따라서 그 라벨을 트레이닝하고 전달하는데 있어 하나의 최유사 이미지를 찾는 것은 최선이 아니다. 둘째,

에 대해 최고의 평균 유사성으로 식별되는 모델 M^q가 선택되면, 가변적인 모델 사이즈와 트레이닝 라벨의 불확실성으로 인해 모든 모델에 대한 평균 유사성이 거의 균일하다. 따라서, 일 실시예에서는, 2개의 극한 사이의 거리 함수가 선택된다.

여기서, M_k ^q는 M^q 중에서 질의 이미지 I_query와 가장 유사한 K개 트레이닝 이미지이고 sim(I_query,q)는 질의 이미지 I의 인물 q에 대한 k 평균 유사성이다. 마지막으로 질의 이미지에 대한 라벨은 다음과 같다.

자연에서의 인식은 본질적으로 개집합(open-set) 문제이며, 질의 이미지에서 묘사된 유명인사는 인식 시스템이 알고 있는 것들 중에 있지 않을 수 있다. 이를 해결하기 위해, 일 실시예에서, 인식 우도 임계치(recognition likelihood threshold) τ_τ이 도입된다. 최상 매칭 유명인사 모델과의 유사성이 이 임계치를 초과하지 않으면, 즉,

이면, 시스템은 질의 얼굴을 인식하는 것을 거절하고 대신에 질의 얼굴을 "미상(unknown)"인 것으로 보고한다.

실험 결과

예시적인 실시예에 대응하는 실험에서는, 인식기의 성능을 평가하기 위해 수동적으로 주석을 단 질의 이미지 세트를 선택하고, 인식기를 이용하여 각 이미지에 대해 유명인사 이름 또는 "모름(unknown)"을 제시하였다. 2개의 넘버, 즉 정밀도(올바른 제시된 이름의 일부)와 리콜(인식기가 알고 있는 유명인사에 속하는 모든 이미지 중에서 제시된 올바른 이름의 일부)을 이용하여 성능을 측정하였다. 정밀도와 리콜은 인식 우도 임계치의 선택에 따라 다르다. 예컨대 임계치가 높을수록 정밀도는 높으나 리콜은 낮다. 이에 따라서 임계치의 범위에 대해서 정밀도와 리콜을 평가하였다. 그 결과는 도 2와 3에서 정밀도 대 리콜 도표로 요약되어 있다.

이 실험의 목적은 해상도가 낮고 이미징 상태가 좋지 않은 이미지를 비롯한 보통의 이미지를 이용하여 사람들의 얼굴을 인식하는 것이었다. 그러므로 3개의 서로 다른 자연적 데이터셋에 대해 실험을 하였다. 여기서 설명되는 바와 같이, 예시적 실시예의 성능은 1메가 화소 카메라가 부착된 이동 장치를 이용하여 이미지 테스트 세트를 이용하는 종래의 방식과 비교되어, 실생활 사용자 경험을 모사하고(replicate), 예시적인 실시예는 물론 다른 방식의 여러 단계의 인식 결과를 보고할 것이다. 예시적인 실시예의 성능은 이름 및 얼굴의 가장 관련있는 작업과 테스트 데이터의 성능과도 비교될 것이다(참조: In Submission, by Berg, Berg, Edwards, Maire, Teh Learned-Miller, and Forsyth("Berg et al.")).

유명인사 30,000명의 인식

본 발명의 실시예에 따라서, 전술한 알고리즘의 확장성과 실제 성능을 결정하기 위해서 약 30,000명의 이름 목록을 구축하였다. 테스트를 위해 이 목록에서 1000명 초과의 이름을 뽑고, 각 해당 이름에 대한 얼굴 이미지를 얻었다. 의도적으로, 잡지 커버 상의 얼굴 샷에서 텔레비전 화면에 이르기까지 여러 가지 조명과 포즈 속에서 이미지를 얻었다. 1메가 화소 카메라가 부착된 이동 전화를 가지고 모든 이미지를 촬영했다. 테스트에서 이 방식의 성능은 파이프라인의 여러 단계에서 비교되었고, 또 이 테스트에서는 GIS(Google Image Search)인 이미지 시스템으로부터의 미가공 출력과 비교하였다. 특히, 얼굴 필터를 턴 온시킨 GIS로부터의 20개 및 50개 결과(GIS, 톱(top) 20/50 얼굴)를 이용하여 구축된 모델들; 파이프라인의 제1 단계, 즉 최근접 이웃 그루핑만을 이용하여 구축된 모델들(인트라 모델); 복제 제거를 포함하는 파이프라인의 제1의 2개 단계을 이용하여 구축된 모델들(인터 모델); 그리고 마지막으로 전체 파이프라인을 이용하여 구축된 모델들(스펙트럼)을 비교하였다. 그 외에도, Zhao 등이 개발한 데이터셋(참조: In Automatic Faced and Gesture Recognition, 2008. FGR 2008. 8^th Int. Conf. on, 2008)(그 전체 내용은 본 명세서에 인용으로 포함됨)에 대한 성능을 소정의 알고리즘을 이용하여 비교하였다. 정밀도/리콜 곡선이 도 2에 도시되어 있으며, 이 곡선에서 라인(201)은 GIS, 톱 20 얼굴을 나타내며, 라인(203)은 GIS, 톱 50 얼굴을 나타내며, 라인(205)은 일관성(consistency)을 나타내며, 라인(207)은 니어듀프(neardupes)를 가진 일관성을 나타내며, 라인(209)은 인터 모델을 나타내며, 라인(211)은 스펙트럼을 나타내고, 라인(213)은 인트라 모델을 나타낸다.

도 2는 일 실시예에서 파이프라인의 각 제시된 단계가 명백한 기여(clear contribution)를 전달하고 시스템의 전체 성능을 개선하는 것을 보여준다. 높은 리콜(>0.5)에서의 낮은 정밀도 경향은 모든 알고리즘에서 뚜렷하다. 이들 곡선의 높은 리콜 영역은 GIS에서 이미지 수가 매우 적은 사람의 인식에 해당한다. 따라서, 그와 같은 사람을 인식할 수 있으려면, 예컨대 부정 오류를 감소시켜 리콜을 증가시키려면 허용된 부정 오류의 수가 증가해야 하는데, 이는 정밀도의 저하로 이어진다.

GIS의 미가공 출력과 비교해서, GIS 출력의 크기(20 또는 50)를 변화시킨다고 해서 실질적인 입력이 되는 것은 아님은 명백하다. 실제로, GIS 출력만을 증가시키면 신호 대 잡음비가 감소하기는 하나 생체인식 모델의 정확도를 저하시키고 인식이 나쁘게 된다. 그러나, 제시된 파이프라인을 이용하면 파이프라인의 여러 단계를 이용하여 잘못 라벨링된 이미지를 제거함으로써 가능한 많은(최대 1000개의) 이미지를 GIS로부터 추출하였다.

파이프라인의 각 단계의 인식 정확도에의 기여도들을 비교하는 것은 별도로 하고, 각 단계를 트레이닝하는데 필요한 시간과, 각 단계가 전달한 결과적인 모델 사이즈를 고려하였다. 실행시간과 사이즈는 하기의 표 1에 나타낸다. Zhao 등의 일관성 학습은 파이프라인의 인터 모델 단계와 동일한 복잡도 O(n²)(n은 얼굴 수임)를 갖고 있다. 그러나 O(1000*n²)(여기서 1000은 임의의 샘플 수임)일 수 있는 샘플링 전략 때문에 인터 모델 분석은 O(1*n²)이다. 더 중요한 것은 인터 모델 분석이 일관성 학습 방식과는 달리 결정론적이라는 것이다. 실제로는, 대규모 얼굴 인식에 대한 유일한 다른 방식인 일관성 학습은 (인트라 모델, 인터 모델 및 스펙트라를 조합하는) 본 예시적인 실시예의 방식보다는 3배보다 많이 느리기 때문에 오인식률이 11%보다 높다(F-measure의 개선).

"이름 및 얼굴"의 인식

예시적인 실시예에서의 방식의 성능을 다른 방법 및 테스트 세트와 비교하기 위하여 Berg 등의 인식 실험을 반복하였다. Berg 등은 관련 뉴스 캡션을 가진 데이터셋으로부터 1000개의 랜덤 이미지를 선택했다. 얼굴 인식기와 연결된 언어 모델을 이용하여 뉴스 캡션으로부터 이름을 주어진 얼굴에 대한 라벨로서 선택하였다. 이 실험을 모방하기 위해서는 테스트 데이터 중의 모든 진짜 이름이 트레이닝용 이름 목록에 들어 있어야 했다. 2개의 서로 다른 트레이닝 데이터 버전(포괄과 특정)을 이용하였다. 포괄 트레이닝은 자율적으로 각자의 생체인식 모델을 트레이닝하기 위해 약 30,000개 이름의 이름 목록을 포함한 반면에, 특정 트레이닝은 테스트 세트 중에 존재하는 이름들만 포함하는데, 이는 컴퓨터 영상 커뮤니티에서 표준이다. 테스트 데이터에 대해서는 2개의 버전(테스트 1과 테스트 2)도 생성하였다. Berg 등이 제공한 테스트 이미지에 대한 라벨의 일부는 'christian palestinian'과 'young afghan' 형태로 되어 있었다. 이들 라벨은 사람들의 고유 이름이 아니며 GIS에 대한 질의로서 사용되는 경우 결과의 결정론적 세트를 생성하지 않는다. 그러므로, 그와 같은 라벨을 가진 몇 개의 테스트 이미지가 테스트 1에 대한 테스트 데이터로부터 제거되었다. 테스트 2에서, GIS에서 의미있는 응답을 내놓지 않았던 라벨을 가진 이미지도 제거되었다. 도 3은 ROC 곡선을 예시하며 전술한 2개의 트레이닝 및 테스트 세트의 성능을 보여준다. 이 도에서 라인(301)은 Berg 전용 트레이닝 테스트 1을 나타내고, 라인(303)은 Berg 전용 트레이닝 테스트 2를 나타내고, 라인(305)은 포괄 트레이닝 테스트 1을 나타내고, 라인(307)은 포괄 트레이닝 테스트 2를 나타낸다. 성능 통계의 요약은 하기의 표 2에 나타낸다.

그러나, 종래의 트레이닝 방식으로 회귀하고 이 회귀가 트레이닝 세트가 테스트 중에 존재하는 카테고리를 꼭 포함하는 것을 보장한다면(특정 트레이닝: 테스트 1), 예시적인 실시예는 Berg 등으로 똑같이 잘 수행하면서 뉴스 캡션과 언어 모델에 의해 제한되지 않는 더 일반적인 문제를 해결한다. 마지막으로 모든 테스트 카테고리에 대한 트레이닝 데이터가 존재해야 하는 것이 요구되면(즉, 페어(pair) 요건), 테스트 2가 정의된다. 이 경우에 예시적인 실시예는 Berg 등보다 성능이 훨씬 좋으며, 그 정밀도가 전체 리콜 영역에 걸쳐 단 10%만 저하되는 인식 시스템을 만들어내었다.

실패 경우들

제시된 알고리즘의 통계적 특성과 주석이 붙은 이미지의 불완전한 소스(예컨대 GIS)에 대한 의존때문에 즉시 트레이닝된 유명인사 모델에 오류가 들어가서 잘못된 인식 결과를 생성하는 경우가 많이 있다.

첫 번째의 가장 흔한 경우는 서로 밀접하게 연관된 더 유명한 유명인사의 얼굴로 오염된 덜 유명한 유명인사에 대한 모델의 문제이다. 예컨대 오류없이 78개의 이미지를 포함하는 사라 팔린(Sarah Palin)에 대한 모델은 깨끗하지만, 그녀의 덜 유명한 딸인 브리스톨 팔린(Bristol Palin)에 대한 모델은 그녀 어머니의 7개 이미지를 포함한다. 그 결과, 사라 팔린의 일부 질의 이미지는 브리스톨로 잘못 인식될 것인데, 이는 사라 팔린의 모델에 어떤 문제가 있어서가 아니라 다른 모델이 오류를 갖고 있기 때문이다. 이 문제는 이 예에서는 덜 유명한 사람에 대한 GIS 결과가 본래적으로 잡음을 많이 갖고 있다는 사실에 기인할 수 있다. 흥미롭게도 브래드 피트와 안젤리나 졸리와 같이 2명의 강하게 연관되어 있으나 매우 유명한 유명인사의 모델은 이 문제를 갖고 있지 않는데, 이는 그들의 개별 GIS 결과에서 신호 대 잡음비가 매우 높기 때문이다.

두 번째 경우는 GIS 질의를 발행하는 때의 표준 이름의 이용이다. 예컨대 "웨일즈의 왕자 헨리"는 단 하나의 얼굴만을 포함하는 모델을 생성하는 비교적 적은 수의 잡음이 있는 결과를 리턴하지만, 더 일상 대화체의 "왕자 헨리"는 훨씬 더 포괄적인 컬렉션을 리턴할 것이다. 이와 같은 결핍된 모델의 결과로서 인터 모델 분석은 그의 애인인 첼시 데이비의 모델로부터 왕자의 얼굴을 제거할 수가 없다. 이 문제는 유명인사의 가명들마다 GIS 결과를 모으고 가장 좋은 모델을 선택하거나 이 결과들을 종합함으로써 야기된다.

문제가 될 수 있는 다른 카테고리는 패션 디자이너(그 GIS 결과는 이 패션 디자이너의 작품을 입고 있는 다른 사람의 사진이 지배함)와 얼굴 유사성 함수에 의해 종종 혼란스러워질 수 있는 선글라스를 낀 유명인사들을 포함한다.

시스템 구성 성분

도 4는 본 발명의 일 실시예에 따라, 유명인사 이름을 자동으로 식별하고, 얼굴 이미지를 식별, 인식하고, 식별된 유명인사 이름과 연관시킬 수 있는 시스템(400)을 도시한 것이다. 얼굴 인식 검출기(412)는 접속부(411)를 통해 시스템 인터페이스(410)에 연결되어 있다. 시스템 인터페이스(410)는 예컨대 얼굴 인식 검출기(412)와 동일한 컴퓨팅 플랫폼에 있는 사용자 인터페이스나 애플리케이션 프로그래밍 인터페이스이거나, 예컨대 웹 클라이언트와 같은 원격 사용자 인터페이스일 수 있다. 따라서, 접속부(411)는 예컨대 통신 버스, 이더넷 또는 무선 통신 표준과 같은 접속 방법이나 기타 다른 통신 프로토콜을 이용할 수 있다.

시스템 인터페이스(410)는 적어도 하나의 프로세서, 적어도 하나의 메모리 및 적어도 하나의 네트워크 인터페이스를 포함하는 장치 상에 존재할 수 있다. 예컨대 시스템 인터페이스(410)는 개인용 컴퓨터, 핸드헬드 컴퓨터, 개인 정보 단말, 이동 통신 장치, 게임 콘솔, 디지털 엔터테인먼트 시스템, 셋톱 박스 등 상에서 구현될 수 있다.

얼굴 인식 검출기(412)는 서버 상에 존재할 수 있으며, 구글사의 구글 웹 서버, 아파치 재단의 아파치 웹 서버, 마이크로소프트사의 인터넷 정보 서비스 등과 같은 웹 서버를 포함할 수 있다. 얼굴 인식 검출기(412)는 로컬로 또는 연결된 저장 장치(미도시)에 저장된 웹 콘텐츠에 대한 액세스를 제공할 수 있다. 얼굴 인식 검출기(412)는 통상적으로 네트워크에 접속된 적어도 하나의 서버 컴퓨터를 포함한다. 서버 컴퓨터의 예로는 컴퓨터, 워크스테이션, 분산 컴퓨팅 시스템, 컴퓨터 클러스터, 임베디드 시스템, 독립형 전자 장치, 네트워크연결 장치, 이동 장치(예컨대 이동 전화나 이동 컴퓨팅 장치), 랙(rack) 서버, 셋톱 박스, 또는 적어도 하나의 프로세서, 메모리 및 네트워크 인터페이스를 가진 다른 형태의 컴퓨터 시스템을 들 수 있으나 이에 한정되는 것은 아니다.

얼굴 인식 검출기(412)는 이미지/비디오 코퍼스(corpus)(432)와 아티클(article) 코퍼스(434)에 접근할 수도 있다. 이 코퍼스들(432, 434) 중 일부 또는 모두는 예컨대 인터넷과 같은 WAN(Wide Area Network) 또는 LAN(Local Area Network)과 같은 네트워크(430)를 통해 접근될 수 있거나, 사용자 자신의 시스템에 로컬로 위치될 수 있다. 코퍼스(432, 434)는 각각 동일 위치에 있거나 분산된 하나 이상의 저장 장치를 포함할 수 있다. 일부 실시예에서 코퍼스(432, 434)는 부분적으로 또는 전체적으로 동일 위치에 있을 수 있다. 얼굴 인식 검출기(412)는 예컨대 통신 버스, 이더넷 및 무선 통신 표준을 포함하는(이에 한정되는 것은 아님) 임의의 접속부(431)를 통해 네트워크(430)에 연결될 수 있다. 이미지/비디오 코퍼스(432)는 JPEG, Exif, TIFF, RAW, PNG, GIF, BMP, PPM, CGM, SVG, PNS, JPS 및 MPO와 같은 임의의 이미지 형식으로 된 이미지를 포함할 수 있다. 이미지/비디오 코퍼스(432)는 인물의 이미지를 포함한다. 아티클 코퍼스(434)는 예컨대, 아티클 아카이브, 웹 기반 서비스, 및 로컬로 및/또는 인터넷을 통해 접근가능한 레포지토리를 포함한다. 가용 아티클 아카이브는 예컨대 ASCII 텍스트, PDF 텍스트, 기타 다른 형태의 텍스트를 포함할 수 있으나 이에 한정되는 것은 아니다.

얼굴 인식 검출기(412)는 접속부(441, 451)를 통해 각각 이름 데이터베이스(440)와 이미지 데이터베이스(450)에도 연결된다. 이름 데이터베이스(440)는 적어도 아티클 코퍼스(434)에서 얻을 수 있는 가사들에서 식별된 이름에 기초하여 얼굴 인식 검출기(412)에 의해 식별되고 랭크된 유명인사의 이름 목록을 포함한다. 이와 같은 이름 목록 생성에 대해서는 도 5를 참조로 하기에서 자세히 설명할 것이다. 이미지 데이터베이스(450)는 이름 데이터베이스(440)에 있는 유명인사의 이름 목록에 있는 인물에 대한 스틸 이미지와 비디오 이미지를 포함하는 임의 형태의 이미지 콘텐츠로부터의 얼굴 이미지를 포함한다. 이미지 데이터베이스(450) 내의 얼굴 이미지는 적어도 이미지/비디오 코퍼스(432)에서 찾은 이미지 상에서 생성되고 식별된다. 여기서 사용된 "데이터베이스"는 데이터 요소의 임의의 집합과 그 관련 저장 및 접근 메카니즘을 말한다. 접속부(142)는 예컨대 통신 버스, 이더넷 및 무선 통신 표준과 같은 하나 이상의 접속 방법을 이용할 수 있다.

얼굴 인식 검출기(412)는 이름 목록 생성기(422), 얼굴 시그너처 검출기(424) 및 인물 모델 학습 시스템(426)을 비롯한 수 개의 구성 성분을 포함할 수 있다. 얼굴 인식 검출기(412)와 서브시스템(422, 424, 426) 중 일부 또는 전부는 소프트웨어, 하드웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 예컨대 얼굴 인식 검출기(412)는 중앙 처리 장치(도 4에는 미도시) 상에서 실행 코드로서 구현될 수 있다. 다른 실시예에서 얼굴 인식 검출기(412)는 필드 프로그래머블 게이트 어레이와 같은 하드웨어 성분으로 구현될 수 있다. 당업자라면 얼굴 인식 검출기(412)가 하나 이상의 플랫폼에서 구현될 수 있다는 것을 잘 알 것이다.

이름 목록 생성기(422)는 시스템이 인식하고자 하는 유명인사의 이름 목록을 생성한다. 이름 목록은 아티클 코퍼스(434)로부터의 아티클에 기초하여 생성된다. 이름 목록 생성기(422)는 사람을 기술하는 아티클만을 포함하도록 아티클 코퍼스(434)로부터의 아티클을 필터링한다. 이름 목록 생성기(422)는 뒤에 더 자세히 설명할 이미지 검색에 의해 리턴된 얼굴 이미지 수에 기초하여 이름 목록 중의 이름들에 순위를 매긴다.

얼굴 시그너처 검출기(424)는 이름 목록 생성기(422)에 의해 생성된 초기 이미지로부터 "비얼굴" 이미지를 제거하는데, 이에 대해서는 뒤에 더 자세히 설명한다.

인물 모델 학습 시스템(426)은 얼굴 시그너처 검출기(424)에 의해 생성된 얼굴 이미지를 입력으로 하여 이름 목록에서 식별된 개인들에 대한 매우 정확한 생체인식 모델을 생성한다. 인물 모델 학습 시스템(426)은 일련의 분석 서브시스템을 이용하여 이름과 이미지의 연관성을 더 정제하고, 궁극적으로는 질의된 얼굴과 연관된 이름을 생성하거나 질의된 얼굴은 "모름"이라고 표시한다.

도 5는 본 발명의 실시예에 따른 이름 목록 생성기(422)의 구성 성분을 보여준다. 이름 목록 생성기(422)는 이름 목록 생성기 서브시스템(502), 이미지 컬렉터(504) 및 이름 랭커(506)를 포함한다.

이름 목록 생성기 서브시스템(502)은 아티클 코퍼스(434)에서 찾은 아티클에 기초하여 이름 목록을 생성한다. 이름 목록 생성기 서브시스템(502)은 아티클 코퍼스(434)에서 아티클을 식별하고, 사람 이름을 포함하는 아티클만을 선택하여 필터링한다. 이름 목록을 얻고 나면, 이미지 컬렉터(504)가 예컨대 스틸 및/또는 비디오와 같은 임의 형태의 이미지 콘텐츠와 각 이름에 대한 대응 특징 벡터로부터 이미지 세트를 수집한다. 이는 이미지/비디오 코퍼스(432)에게 이미지 검색을 발행함으로써 달성된다. 일 실시예에서 이미지 컬렉터(504)는 각 질의에 대해 리턴된 이미지 수의 임계치를 포함하며, 이를 초과하지 않을 것이다. 이미지 컬렉터(504)는 각 이미지 추출 특징 벡터에서 얼굴을 검출하고, 각 특징 벡터에 이 벡터를 얻은 질의로 추정상 라벨링한다. 이름 랭커(506)는 이미지 컬렉터(504)에 의해 식별된 얼굴 이미지 수에 기초하여 이름 목록 중의 이름들에 순위를 매긴다.

도 6은 본 발명에 따른 얼굴 시그너처 검출기(424)의 구성 성분을 보여준다. 얼굴 시그너처 검출기(424)는 특징 검출 서브시스템(602), 랜드마커 서브시스템(604), 얼굴 확률 서브시스템(606) 및 얼굴 검출 서브시스템(608)을 포함한다.

특징 검출 서브시스템(602)은 예컨대 전술한 바와 같이 이종 특징 검출기 세트의 선형적 조합을 채용하는 소정 범위의 윈도우 크기에 대한 고속 슬라이딩 원도우 방식을 이용한다. 일 실시예에서 랜드마커 서브시스템(604)을 이용하여 얼굴 경계 박스 내의 얼굴 특징 위치들을 정확히 찾아냄으로써 얼굴 검출을 더 정제할 수 있다. 얼굴 확률 서브시스템(606)은 얼굴 존재 확률을 나타내는 정제된 스코어를 얻기 위해 랜드마커 서브시스템(604)에 의해 식별된 위치들에서 특징을 추출한다. 얼굴 검출 서브시스템(608)은 적어도 검출된 특징과 얼굴 존재 확률에 기초하여 얼굴이 실제로 검출되었는지를 판단한다.

도 7은 본 발명의 실시예에 따른 인물 모델 학습 시스템(426)의 구성 성분을 보여준다. 인물 모델 학습 시스템(426)은 인트라 모델 분석기 서브시스템(702), 인터 모델 분석기 서브시스템(704), 스펙트럼 분석기 서브시스템(706) 및 인식기 서브시스템(708)을 포함한다.

인트라 모델 분석기 서브시스템(702)은 얼굴 시그너처 검출기(424)로부터 잘못 라벨링된 얼굴 시그너처를 제거하는 제1 단계를 실시한다. 인트라 모델 분석기 서브시스템(702)은 이름 목록 중의 하나의 이름과 연관된 모든 얼굴 이미지를 검사하고, 다른 이름에 속하는 얼굴을 고려하지 않고 어느 얼굴을 폐기할 지를 결정한다. 인트라 모델 분석기 서브시스템(702)의 작업은 명백한 이상치를 제거하는 것인데, 이 경우에는 특정 이름과 연관된 다른 얼굴 대부분과 매우 다른 얼굴이 제거된다.

동일한 유명인사 이름으로 모두 라벨링된 얼굴 시그너처 그룹이 주어지면, 인트라 모델 분석기 서브시스템(702)은 각 얼굴에 대해 그 그룹 내의 이웃의 수와 근접 복제의 수를 카운트한다. 일 실시예에서 이웃은 어떤 값, 예컨대 0.2 미만의 거리를 가진 얼굴로서 정의되고, 근접 복제는 제2 값, 예컨대 0.01 미만의 거리를 가지는데, 이 경우에 거리는 최소 0.0에서 최대 1.0의 범위를 갖는다. 인트라 모델 분석기는 제3 값, 예컨대 10 미만인 이웃들의 모든 얼굴을 폐기한다. 마지막으로 인트라 모델 분석기 서브시스템(702)은 그룹 내의 근접 복제의 수에 기초하여 얼굴들을 내림차 순으로 정렬함으로써 그룹으로부터 근접 복제 얼굴을 제거한다. 정렬된 목록 내의 각 얼굴에 대해서는 그것이 그 목록 내에 보다 먼저 나타나는 근접 복제를 갖는다면 그 얼굴을 폐기하기로 결정하고, 그렇지 않으면 그대로 둔다.

인터 모델 분석기 서브시스템(704)은 인트라 모델 분석기 서브시스템(702)으로부터 라벨링된 얼굴들의 컬렉션을 수신하고, 서로 다른 이름이 붙은 얼굴들을 비교함으로써 잘못 라벨링된 엔트리를 더 제거한다. 인터 모델 분석기 서브시스템(704)은 다른 이름으로 잘못 라벨링된 이름 목록 내의 이름과 연관된 얼굴을 식별하고 이름 목록으로부터 제거한다.

이름 목록이 라벨이 서로 다른 2개의 근접 복제 얼굴을 포함하고 있다면 이 라벨들 중 하나 또는 둘 다 잘못된 것이 거의 확실하며, 이 얼굴은 입력되는 질의 얼굴에 신뢰성있게 라벨링되는 데에 이용될 수 없다. 이 단계에서의 인터 모델 분석기 서브시스템(704)은 컬렉션 내의 모든 얼굴을 페어와이즈 방식으로 고려함으로써 근접 복제 얼굴을 해결하는 것을 목적으로 한다. 각 쌍에 대해 만일 얼굴들이 어떤 값, 예컨대 0.01 미만의 거리를 갖고 있고 라벨링된 유명인사 이름들이 불일치한다면, 인트라 모델 분석기 서브시스템(702)에 의해 계산된 근접 복제 카운트가 가장 작은 얼굴이 나중의 제거를 위해 마킹된다. 모든 얼굴 시그너처쌍들이 고려되고 나면, 제거를 위해 마킹된 얼굴들은 컬렉션으로부터 폐기된다. 그러나 이러한 공식화는 컬렉션 내의 각 얼굴을 다른 모든 얼굴과 비교한다. 이에 따라서 임의의 비교 중에 하나의 얼굴 시그너처를 "잃고", 즉, 제거를 위해 마킹될 수 있고, 다른 비교를 "얻을" 수 있다. 얼굴 시그너처는 임의의 비교 중에 "잃게" 된다면 인터 모델 분석기(704)에 의해 컬렉션으로부터 폐기된다.

스펙트럼 분석기 서브시스템(706)은 분석의 마지막 단계를 실시하며 2개의 구성 성분을 이용한다. 제1 구성 성분은 인트라 인물(intra-person) 비교에 기초하고 제2 구성 성분은 인터 인물(inter-person) 비교에 기초한다. 스펙트럼 분석기(706)는 인트라 인물 비교를 이용하여 각 인물에 대해 개별적으로 이미지 컬렉션을 고려한다. 스펙트럼 분석기(706)는 한 인물의 모든 이미지들 간의 페어와이즈 관계를 기술하는 거리 행렬을 구축한다. 이 거리 행렬은 그래프 라플라시안 행렬로 변환되며 그 스펙트럼이 분석된다. 그래프 라플라시안의 제2 고유치가 고유 갭(eigen gap)보다 작다면, 예컨대 0.4로 설정되어 있다면, 컬렉션의 클러스터링이 실시되지 않는다. 반면에 제2 고유치가 고유 갭보다 크다면, 이 컬렉션은 평균 응집형 클러스터링을 이용하여 2개의 클러스터로 분할된다. 이 2개의 클러스터 중 하나는 이상치로서 폐기된다. 클러스터 선택은 클러스터의 통계(예컨대 클러스터 사이즈, 부류 이미지 랭크의 평균치, 또는 이전 단계에서 계산된 평균 복제 카운트)에 의하거나 다른 사람의 이미지 컬렉션과 비교함으로써 실시된다. 그와 같은 비교의 "라이트(light)" 버전을 이용하는 실시예는 현재 인물과 더 높은 식별자 중첩을 갖는 인물의 이미지 컬렉션을 가지고서 실시된다. 클러스터 비교가 실시되기 전에 현 컬렉션과 가장 높은 식별자 중첩을 가진 컬렉션 간에 우세성(dominance)이 설정될 수 있음에 유의한다. 우세성은 각 컬렉션의 그래프 라플라시안의 스펙트럼을 분석함으로써 계산될 수 있다. 더 큰 제2 고유치를 가진 컬렉션이 우세한 것으로 간주된다. 다른 실시예에서 "풀(full)" 버전을 이용하여 이름 목록 중의 모든 인물의 컬렉션과의 비교가 실시된다.

스펙트럼 분석기(706)는 인터 인물 비교를 이용하여 "라이트" 버전 실시예와 "풀" 버전 실시예를 이용할 수 있다. 인터 인물 "라이트" 실시예는 컬렉션 중의 각 이미지의 컬렉션 중의 나머지 이미지와의 유사성 및 대부분의 식별자를 공유하는 인물의 컬렉션 중의 모든 이미지와의 유사성을 검사한다. 한 컬렉션과의 이미지 유사성이 다른 컬렉션과의 이미지 유사성보다 작다면, 주어진 이미지는 이상치인 것으로 간주된다. "풀" 버전 실시예에서는 가장 높은 식별자 중첩을 가진 것만이 아니라 다른 모든 컬렉션이 재귀적으로 고려되는 것을 제외하고는 동일한 비교가 실시된다.

인식기 서브시스템(708)은 질의된 얼굴이 인식되는 것인지 아니면 알지 못하는 것인지에 대해 최종 판단을 수행한다. 일 실시예에서, 전술한 바와 같이, 인식기 서브시스템(708)은 인식 우도 임계치를 이용한다. 최상의 매칭 얼굴 이미지와의 유사성이 이 임계치를 초과하지 않는다면, 인식기 서브시스템(708)은 질의된 얼굴 인식을 거절하고 그 질의된 얼굴을 알지 못한다고 보고한다. 그렇지 않으면 인식기 서브시스템(708)은 관련 해당 이름을 가진 인식된 얼굴을 제시한다.

도 8은 본 발명의 실시예에 따라, 유명인사의 인물 모델을 자동으로 마이닝(mining)하는 방법(800)을 설명하는 플로우차트이다. 단계(802)에서, 유명인사의 이름들이 식별되고 수집된다. 단계(804)에서, 단계(802)에서 수집된 유명인사 이름과 연관된 이미지가 식별되고, 수집되고, 순위가 매겨진다. 단계(806)에서, 인트라 모델 분석을 실시하여 특정 유명인사와 연관된 이미지에 기초하여 잘못 라벨링된 이미지를 제거한다. 단계(808)에서, 인터 모델 분석을 실시하여 서로 다른 유명인사 이름이 붙여진 얼굴들을 비교함으로써 잘못 라벨링된 이미지를 더 제거한다. 단계(810)에서, 스펙트럼 분석을 실시하여 거리 행렬을 이용하여 잘못 라벨링된 이미지를 더 정제한다. 단계(812)에서, 특정 이미지가 특정 유명인사 이름과 연관되어 있는지를 판단한다.

예시적인 컴퓨터 시스템 구현

도 1 내지 8에 도시된 본 발명의 양상 또는 그 임의의 구성부(들) 또는 기능(들)은 하드웨어, 소프트웨어 모듈, 펌웨어, 명령어가 저장된 유형적 컴퓨터 판독 매체, 또는 이들의 조합을 이용하여 구현될 수 있으며, 하나 이상의 컴퓨터 시스템 또는 기타 다른 처리 시스템에서 구현될 수 있다.

도 9는 본 발명의 실시예들 또는 그 일부가 컴퓨터 판독 코드로서 구현될 수 있는 예시적인 컴퓨터 시스템(900)을 도시한 것이다. 예컨대 시스템(400)은 하드웨어, 소프트웨어, 펌웨어, 명령어가 저장된 유형적 컴퓨터 판독 매체, 또는 이들의 조합을 이용하여 컴퓨터 시스템(900)에서 구현될 수 있으며, 하나 이상의 컴퓨터 시스템 또는 기타 다른 처리 시스템에서 구현될 수 있다. 하드웨어, 소프트웨어 또는 이들의 조합은 도 1 내지 8의 구성 성분들 중 임의의 것을 구체화할 수 있다.

프로그래머블 로직이 이용되는 경우에는 그와 같은 로직은 상업적으로 입수가능한 처리 플랫폼이나 특수 목적 장치 상에서 실행될 수 있다. 당업자라면 개시된 청구 대상의 실시예들이 멀티코어 멀티프로세서 시스템, 미니컴퓨터, 메인프레임 컴퓨터, 분산 기능과 링크 또는 클러스터링된 컴퓨터는 물론, 가상적인 임의의 장치에 내장될 수 있는 편재형(pervasive) 또는 소형 컴퓨터를 포함한 여러 가지 컴퓨터 시스템 구성을 가지고 실시될 수 있음을 잘 알 것이다.

예컨대 적어도 하나의 프로세서 장치와 메모리를 이용하여 전술한 실시예들을 구현할 수 있다. 프로세서 장치는 단일 프로세서, 복수 프로세서, 또는 이들의 조합일 수 있다. 프로세서 장치는 하나 이상의 프로세서 "코어"를 가질 수 있다.

본 발명의 여러 가지 실시예는 이 예시적인 컴퓨터 시스템(900)과 관련해서 기술된다. 당업자라면 이 설명으로부터 다른 컴퓨터 시스템 및/또는 컴퓨터 구조를 이용하여 본 발명을 구현하는 방법을 잘 알 것이다. 동작들은 순차적 프로세스로 기술될 수 있지만, 동작들 중 일부는 실제로는 병렬적으로, 동시적으로, 그리고/또는 분산 환경에서, 그리고 단일 또는 멀티 프로세서 기계에 의한 액세스를 위해 로컬로 또는 원격적으로 저장된 프로그램 코드를 가지고 수행될 수 있다. 그 외에도, 일부 실시예에서는 동작 순서는 개시된 대상의 취지로부터 벗어나지 않고 재배열될 수 있다.

프로세서 장치(904)는 전용 또는 범용 프로세서 장치일 수 있다. 당업자라면 잘 알겠지만, 프로세서 장치(904)는 단독으로 동작하는 멀티코어/멀티프로세서 시스템 내의, 또는 클러스터 또는 서버 팜(farm)에서 동작하는 컴퓨팅 장치의 클러스터 내의 단일 프로세서일 수도 있다. 프로세서 장치(904)는 통신 인프라구조(906), 예컨대 버스, 메시지 큐(queue), 네트워크 또는 멀티코어 메시지 전달 스킴에 접속되어 있다.

컴퓨터 시스템(900)은 메인 메모리(908)(예컨대 RAM(Random Access Memory))도 포함하며, 2차 메모리(910)도 포함할 수 있다. 2차 메모리(910)는 예컨대 하드 디스크 드라이브(912)와 착탈식 저장 드라이브(914)를 포함할 수 있다. 착탈식 저장 드라이브(914)는 플로피 디스크 드라이브, 자기 테이프 드라이브, 광디스크 드라이브, 플래시 메모리 등을 포함할 수 있다. 착탈식 저장 드라이브(914)는 공지의 방식으로 착탈식 저장 유닛(918)으로부터 판독하거나 이에 기록한다. 착탈식 저장 유닛(918)은 착탈식 저장 드라이브(914)에 의해 판독 및 기입되는 플로피 디스크, 자기 테이프, 광디스크 등을 포함할 수 있다. 당업자라면 잘 알겠지만, 착탈식 저장 유닛(918)은 컴퓨터 소프트웨어 및/또는 데이터를 저장하는 컴퓨터 이용가능 저장 매체를 포함한다.

컴퓨터 시스템(900)은 디스플레이 유닛(930)에 디스플레이될 그래픽, 텍스트 및 기타 다른 데이터를 통신 인프라구조(906)로부터(또는 프레임 버퍼(미도시)로부터) 전송하는 (키보드, 마우스 등과 같은 입/출력 장치를 포함할 수 있는) 디스플레이 인터페이스(902)를 (선택적으로) 포함한다.

다른 구현에서, 2차 메모리(910)는 컴퓨터 프로그램 또는 기타 다른 명령어가 컴퓨터 시스템(900)에 로드될 수 있게 하는 다른 유사한 수단을 포함할 수 있다. 이 수단은 예컨대 착탈식 저장 유닛(922)과 인터페이스(920)를 포함할 수 있다. 이 수단의 예로는 (비디오 게임 장치에 있는 것과 같은) 프로그램 카트리지 및 카트리지 인터페이스, (EPROM이나 PROM과 같은) 착탈식 메모리 칩 및 관련 소켓, 다른 착탈식 저장 유닛(922), 및 소프트웨어와 데이터가 착탈식 저장 유닛(922)으로부터 컴퓨터 시스템(900)으로 전송될 수 있게 하는 인터페이스(920)를 들 수 있다.

컴퓨터 시스템(900)은 통신 인터페이스(924)도 포함할 수 있다. 통신 인터페이스(924)는 컴퓨터 시스템(900)과 외부 장치 간에 소프트웨어와 데이터가 전송될 수 있게 한다. 통신 인터페이스(924)는 모뎀, (이더넷 카드와 같은) 네트워크 인터페이스, 통신 포트, PCMCIA 슬롯과 카드 등을 포함할 수 있다. 통신 인터페이스(924)를 통해 전송된 소프트웨어와 데이터는 통신 인터페이스(924)에 의해 수신될 수 있는 전자적, 전자기적, 광학적 신호 형태 또는 기타 다른 신호 형태일 수 있다. 이들 신호는 통신로(926)를 통해 통신 인터페이스(924)에 제공될 수 있다. 통신로(926)는 신호를 전달하며 유선 또는 케이블, 광파이버, 전화선, 셀룰러폰 링크, RF 링크 또는 기타 다른 통신 채널을 이용하여 구현될 수 있다.

본 명세서에서 용어 "컴퓨터 프로그램 매체"와 "컴퓨터 이용가능 매체"는 착탈식 저장 유닛(918), 착탈식 저장 유닛(922), 및 하드 디스크 드라이브(912)에 설치된 하드 디스크를 총칭하는 데에 사용된다. 컴퓨터 프로그램 매체와 컴퓨터 이용가능 매체는 메인 메모리(908)와 2차 메모리(910)와 같이 반도체 메모리(예컨대 DRAM 등)일 수 있는 메모리를 말할 수도 있다.

컴퓨터 프로그램(컴퓨터 제어 로직이라고도 함)은 메인 메모리(908) 및/또는 2차 메모리(910)에 저장된다. 컴퓨터 프로그램은 통신 인터페이스(924)를 통해 수신될 수도 있다. 이와 같은 컴퓨터 프로그램은 실행 시에 컴퓨터 시스템(900)이 여기서 설명된 본 발명을 구현할 수 있도록 한다. 특히, 컴퓨터 프로그램은 실행 시에 프로세서 장치(904)가 전술한 도 8의 플로우(800)에서 설명된 방법의 단계들과 같은 본 발명의 프로세스를 구현할 수 있도록 한다. 따라서, 그와 같은 컴퓨터 프로그램은 컴퓨터 시스템(900)의 컨트롤러를 나타낸다. 본 발명이 소프트웨어를 이용하여 구현되는 경우에는 이 소프트웨어는 컴퓨터 프로그램 제품에 저장되고, 착탈식 저장 드라이브(914), 인터페이스(920) 및 하드 디스크 드라이브(912) 또는 통신 인터페이스(924)를 이용하여 컴퓨터 시스템(900)에 로드될 수 있다.

본 발명의 실시예들은 임의의 컴퓨터 이용가능 매체에 저장된 소프트웨어를 포함하는 컴퓨터 프로그램 제품에 관한 것일 수도 있다. 이와 같은 소프트웨어는 하나 이상의 데이터 처리 장치에서 실행 시에 데이터 처리 장치(들)가 여기서 설명된 것과 같이 동작할 수 있도록 한다. 본 발명의 실시예들은 임의의 컴퓨터 이용가능 또는 판독가능 매체를 채용한다. 컴퓨터 이용가능 매체의 예로는 1차 저장 장치(예컨대 임의 형태의 RAM)와 2차 저장 장치(예컨대 하드 드라이브, 플로피 디스크, CD ROM, ZIP 디스크, 테이프, 자기 저장 장치, 광 저장 장치, MEMS, 나노기술 저장 장치 등)가 있으나 이에 한정되는 것은 아니다.

결론

상세한 설명 부분(개요와 요약서 부분은 아님)은 청구범위를 해석하는데 사용되는 것임을 잘 알아야 한다. 개요와 요약서 부분은 본 발명자(들)가 생각하는 본 발명의 전부는 아니지만 한 가지 이상의 예시적인 실시예들 기재한 것일 수 있으며, 따라서 어떤 방식으로든 본 발명과 첨부 청구범위를 제한하려는 것이 아니다.

본 발명은 특정 기능들과 그들 간의 관계의 구현을 설명하는 기능적 구성 블록들을 이용하여 설명되었다. 이들 기능적 구성 블록들의 경계는 설명의 편의를 위해 여기서는 임의적으로 정하였다. 특정 기능들과 그들 간의 관계가 적절하게 수행될 수만 있다면 다른 경계들도 정해질 수 있다.

특정 실시예들에 대한 상기 설명은, 당업자라면 본 기술분야의 기술 내의 지식을 적용하여, 본 발명의 일반적 개념으로부터 벗어남이 없이 불필요한 시행착오적 실험을 거치지 않아도 그와 같은 특정 실시예들을 여러 가지 응용을 위해 쉽게 변형 및/또는 개작할 수 있는 본 발명의 일반적 특성을 충분이 보여줄 것이다. 그러므로, 그와 같은 개작과 변형은 여기서 설명된 교시와 가이드에 따라서 상기 개시된 실시예들의 등가물의 의미와 범위 내에 있는 것으로 의도된다. 여기서의 자구나 용어는 본 발명을 설명하기 위한 것일 뿐이지 본 발명을 한정하려는 것이 아니며, 따라서 본 명세서에서 이러한 용어나 자구는 본 발명의 교시와 가이드에 비추어 당업자에 의해 해석되어야 하는 것임을 알아야 한다.

본 발명의 범위는 상기 예시적인 실시예들에 의해 제한되어서는 않되며, 하기의 청구범위와 그 등가물에 따라서만 한정되어야 한다.

Claims

자동 얼굴 인식의 컴퓨터 구현 방법으로서,
하나 이상의 아티클들(articles)로부터 이름 목록을 획득하는 단계, 상기 이름 목록은 사람들의 그룹에서 각 사람에 대한 이름을 포함하며;
특정 사람의 이름을 사용하여 상기 그룹에서 각 사람에 대한 이미지들의 집합을 획득하는 단계;
상기 그룹에서 각 사람에 대한 상기 이미지들의 집합으로부터, 특정 사람에 대한 대표 이미지들의 세트를 선택하는 단계를 포함하며, 상기 대표 이미지들 각각은 특정 사람의 헤드샷(headshot)의 묘사(depiction)와 관련된 상기 집합 중에서 가장 높은 스코어를 가지는 것으로 간주되며;
상기 대표 이미지들의 세트를 선택하는 단계는:
상기 집합의 이미지들을 상기 집합의 다른 이미지들 비교하는 것에 기초하여 중복되는 것으로 간주되는 상기 집합으로부터의 하나 이상의 이미지들의 제1 세트를 결정하는 단계;
상기 그룹에서 다른 사람에 대한 이미지들의 집합에서의 이미지와 매칭되는 상기 집합으로부터의 하나 이상의 이미지들의 제2 세트를 결정하는 단계; 및
대표 이미지들의 상기 세트를 선택하기 위해, 상기 제1 세트와 상기 제2 세트를 배제하는 상기 집합의 나머지로부터, 상기 집합에서 이미지들의 나머지와 비교할 때 아웃라이어(outlier)들일 것으로 고려되는 하나 이상의 이미지들을 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
삭제
삭제
제1항에 있어서,
사람들의 이름들을 포함하는 아티클들만을 포함(retain)하도록 상기 하나 이상의 아티클들을 필터링하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 대표 이미지들의 세트를 선택하는 단계는 반복적 바이너리 클러스터링을 수행하는 것을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
삭제
제1항에 있어서,
상기 집합으로부터의 상기 하나 이상의 이미지들의 제1 세트를 결정하는 단계는 인트라 모델 분석을 수행하는 것을 포함하며,
상기 집합으로부터의 상기 하나 이상의 이미지들의 제2 세트를 결정하는 단계는 인터 모델 분석을 수행하는 것을 포함하며, 그리고
상기 인터 모델 분석을 수행하는 것은 상기 인트라 모델 분석 후에 수행되는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
이름들의 세트에서의 이름들 중 하나와 연관된 각 사람의 대표 이미지들의 상기 세트에서의 양(quantity)에 기초하여 상기 이름 목록으로부터의 이름들의 세트에 순위를 매기는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 그룹에서 한 명 이상의 사람들의 대표 이미지들의 상기 세트에서 하나 이상의 이미지에 대한 특징 벡터(feature vector)를 검출하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제9항에 있어서,
상기 검출하는 단계는 상기 그룹에서 상기 한 명 이상의 사람들의 대표 이미지들의 상기 세트에서 하나 이상의 이미지들 내에서 얼굴 특징 위치(facial feature location)를 식별하는 것을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
시스템으로서,
얼굴 이미지 데이터베이스;
이름 데이터베이스; 및
컴퓨터 기반 얼굴 인식 시스템을 포함하며, 상기 컴퓨터 기반 얼굴 인식 시스템은:
하나 이상의 아티클들로부터 이름 목록을 획득하기 위한 이름 목록 생성기, 상기 이름 목록은 사람들의 그룹에서 각 사람에 대한 이름을 포함하며;
상기 그룹에서 각 사람에 대한 이미지들의 집합을 획득하기 위한 얼굴 시그너처 검출기(face signature detector);
상기 그룹에서 각 사람에 대한 상기 이미지들의 집합으로부터, 특정 사람에 대한 대표 이미지들의 세트를 선택하기 위한 하나 이상의 분석기들을 포함하며, 상기 대표 이미지들 각각은 특정 사람의 헤드샷의 묘사와 관련된 상기 집합 중에서 가장 높은 스코어를 가지는 것으로 간주되며;
상기 하나 이상의 분석기들은:
상기 집합의 이미지들을 상기 집합의 다른 이미지들 비교하는 것에 기초하여 중복되는 것으로 간주되는 상기 집합으로부터의 하나 이상의 이미지들의 제1 세트를 결정하고;
상기 그룹에서 다른 사람에 대한 이미지들의 집합에서의 이미지와 매칭되는 상기 집합으로부터의 하나 이상의 이미지들의 제2 세트를 결정하고; 그리고
대표 이미지들의 상기 세트를 선택하기 위해, 상기 제1 세트와 상기 제2 세트를 배제하는 상기 집합의 나머지로부터, 상기 집합에서 이미지들의 나머지와 비교할 때 아웃라이어(outlier)들일 것으로로 고려되는 하나 이상의 이미지들을 결정함으로써 대표 이미지들의 상기 세트를 선택하는 것을 특징으로 하는 시스템.
제11항에 있어서,
컴퓨터 기반 얼굴 인식 시스템은 특정 사람에 대한 대표 이미지들의 상기 세트에 기초하여 입력 이미지가 상기 이름 목록에서 특정한 이름과 연관된 사람을 묘사하는지 여부를 결정하도록 구성되는 인식기를 더 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
상기 이름 목록 생성기는 상기 이름 목록에서 각 사람의 대표 이미지들의 상기 세트에서의 양에 기초하여 상기 이름 목록 내의 상기 하나 이상의 이름에 순위를 매기도록 구성되는 이름 랭커(name ranker)를 더 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
상기 얼굴 시그너처 검출기는 가버 웨이브렛(Gabor wavelets)에 기초하여 얼굴 이미지들을 검출하는 특징 검출기(feature detector)를 사용하여 상기 그룹에서 각 사람에 대한 상기 이미지들의 집합을 획득하는 것을 특징으로 하는 시스템.
제11항에 있어서,
상기 얼굴 시그너처 검출기는 상기 하나 이상의 얼굴 이미지 내의 얼굴 특징 위치에 기초하여 얼굴 이미지들을 검출하기 위한 특징 검출기를 사용하여 상기 그룹에서 각 사람에 대한 상기 이미지들의 집합을 획득하는 것을 특징으로 하는 시스템.
제12항에 있어서,
상기 인식기는 주어진 이미지와 연관된 매칭되는 이름이 없다고 판단하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 그룹에서 한 명 이상의 사람들에 대한 상기 대표 이미지들의 세트를 사용하여, 입력 이미지의 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
자동 얼굴 인식 매칭을 실현하기 위한 명령어들을 저장하는 컴퓨터 판독가능 저장 매체로서, 상기 명령어들은 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
하나 이상의 아티클들(articles)로부터 이름 목록을 획득하는 동작, 상기 이름 목록은 사람들의 그룹에서 각 사람에 대한 이름을 포함하며;
특정 사람의 이름을 사용하여 상기 그룹에서 각 사람에 대한 이미지들의 집합을 획득하는 동작;
상기 그룹에서 각 사람에 대한 상기 이미지들의 집합으로부터, 특정 사람에 대한 대표 이미지들의 세트를 선택하는 동작을 포함하며, 상기 대표 이미지들 각각은 특정 사람의 헤드샷(headshot)의 묘사(depiction)와 관련된 상기 집합 중에서 가장 높은 스코어를 가지는 것으로 간주되며;
상기 대표 이미지들의 세트를 선택하는 동작은:
상기 집합의 이미지들을 상기 집합의 다른 이미지들 비교하는 것에 기초하여 중복되는 것으로 간주되는 상기 집합으로부터의 하나 이상의 이미지들의 제1 세트를 결정하는 동작;
상기 그룹에서 다른 사람에 대한 이미지들의 집합에서의 이미지와 매칭되는 상기 집합으로부터의 하나 이상의 이미지들의 제2 세트를 결정하는 동작; 및
대표 이미지들의 상기 세트를 선택하기 위해, 상기 제1 세트와 상기 제2 세트를 배제하는 상기 집합의 나머지로부터, 상기 집합에서 이미지들의 나머지와 비교할 때 아웃라이어(outlier)들일 것으로 고려되는 하나 이상의 이미지들을 결정하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
제18항에 있어서,
사람들의 이름들을 포함하는 아티클들만을 포함하도록 상기 하나 이상의 아티클들을 필터링하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
제18항에 있어서,
상기 대표 이미지들의 세트를 선택하는 동작은 반복적 바이너리 클러스터링을 수행하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
제18항에 있어서,
상기 집합으로부터의 상기 하나 이상의 이미지들의 제1 세트를 결정하는 동작은 인트라 모델 분석을 수행하는 것을 포함하며,
상기 집합으로부터의 상기 하나 이상의 이미지들의 제2 세트를 결정하는 동작은 인터 모델 분석을 수행하는 것을 포함하며, 그리고
상기 인터 모델 분석을 수행하는 것은 상기 인트라 모델 분석 후에 수행되는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
제18항에 있어서,
이름들의 세트에서의 이름들 중 하나와 연관된 각 사람의 대표 이미지들의 상기 세트에서의 양(quantity)에 기초하여 상기 이름 목록으로부터의 이름들의 세트에 순위를 매기는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
제18항에 있어서,
상기 그룹에서 한 명 이상의 사람들에 대한 상기 대표 이미지들의 세트를 사용하여, 입력 이미지의 인식을 수행하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.