KR20060133563A

KR20060133563A - 온라인 학습을 통한 지속적인 얼굴 인식

Info

Publication number: KR20060133563A
Application number: KR1020067015311A
Authority: KR
Inventors: 네벤카 디미트로바; 잔 판 션전
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2004-02-02
Filing date: 2005-01-31
Publication date: 2006-12-26
Also published as: KR20060129366A; US20090196464A1; WO2005073896A1; JP4579931B2; EP1714233A1; TW200539046A; JP2007520010A

Abstract

얼굴 분류의 시스템 및 방법이 개시된다. 시스템(10)은 비디오 입력(20) 내에서 검출된 얼굴 이미지가 분류기(40) 내에 알려진 얼굴에 대응하는지 여부의 결정을 제공하는 얼굴 분류기(40)를 포함한다. 이 시스템(10)은 알려지지 않은 검출된 얼굴이 하나 이상의 존속 표준(100) 또는 특징성 표준에 부합할 때 알려지지 않은 검출된 얼굴을 분류기(40)에 추가한다.

Description

온라인 학습을 통한 지속적인 얼굴 인식{CONTINUOUS FACE RECOGNITION WITH ONLINE LEARNING}

본 출원은 2004년 2월 2일 출원된, Nevenka Dimitrova 및 Jun Fan의 "온라인 학습을 통한 지속적인 얼굴 인식"이라는 명칭의 미국 가특허 출원 제 60/541,206에 대한 우선권을 주장한다.

위에서 언급한 2004년 2월 2일 출원된, Nevenka Dimitrova 및 Jun Fan의 "온라인 학습을 통한 지속적인 얼굴 인식"이라는 명칭의 미국 가특허 출원 제 60/541,206의 내용은 본 명세서에 그 전문이 참조로 병합되어 있다.

본 발명은, 일반적으로 얼굴 인식에 관한 것이다. 더 구체적으로, 본 발명은 새 얼굴의 온라인 학습을 포함하여, 얼굴 인식의 향상에 관한 것이다.

얼굴 인식은 현재 많은 기술이 이용가능하며, 연구가 활발한 영역이었다. 이러한 한가지 기술은 비디오 스트림 또는 다른 이미지에서 검출된 얼굴을 나타내는 입력 벡터를 인식하는지 여부를 결정하기 위해 개연적 신경망(일반적으로 "PNN"; Probabilistic Neural Network)를 사용한다. PNN은 입력 벡터와 PNN이 교육받은 고정된 수의 알려진 얼굴을 비교함으로써 얼굴이 "알려졌는지" 또는 "알려지지 않았는지"를 결정한다. 비교를 통해 충분히 높은 신뢰값이 나온 경우, 예를 들어, 얼굴 은 데이터베이스 내에 대응하는 얼굴의 그것으로 간주된다. 비교를 통한 신뢰값이 높지 않은 경우, 입력 얼굴은 단순히 "알려지지 않은"으로 간주되며 폐기된다. PNN은 일반적으로, 예를 들어, 그 내용이 본 명세서에 참조로 병합된, 2002 신경망에 대한 국제 연합 회의(IEEE IJCNN'02) 회보, 2002년 5월, 제 2판, pp.1200-1205에 게재된, P.K. Patra 등의, "패턴 분류를 위한 개연적 신경망"에 설명되어 있다.

PNN을 얼굴 인식에 적용하는 종래 기술에서의 한 가지 어려움은 입력 얼굴이 오직 미리 교육받은 데이터베이스 내의 얼굴에만 비교된다는 것이다. 다시 말해, 얼굴은 PNN을 교육시키는데 사용된 얼굴들 중 하나에 대응하는 것으로 발견된 경우 단지 "알려진" 것으로 결정될 수 있다. 따라서, 동일한 얼굴이 이전에 시스템에 의해 검출된 경우라고 해도, 동일한 입력 얼굴이 데이터베이스에 없으면 "알려지지 않은" 것으로 반복해서 결정될 수 있다.

미국 특허 출원 공보 제 2002/0136433 A1("433 공보")은 "적응 고유얼굴(adaptive eigenface)" 시스템 내의 알려지지 않은 얼굴에 대한 온라인 학습을 응용하는 얼굴 인식 시스템을 설명한다. '433 공보에 따르면, 검출된 알려지지 않은 얼굴은 알려진 얼굴의 등급에 추가된다. '433 공보는 또한 알려지지 않은 얼굴의 복수의 이미지들이 데이터베이스에 추가될 수 있도록 얼굴 추적에 대해 언급한다. 그러나, '433 공보는 알려지지 않은 얼굴을 데이터베이스에 추가할지 여부를 결정하는데 선택성을 교시하지 않는다. 따라서, '433 데이터베이스는 새로운 얼굴들로 급격히 확장될 수 있으며 또한 시스템의 성능을 저하시킬 수 있다. 모든 알려지지 않은 이미지의 캡처가 특정 애플리케이션(예, 나중에 인식하기 위해 모든 얼 굴을 캡처하는 것이 바람직한, 감시카메라)에 대해 바람직할 수 있는 반면, 다른 경우에는 바람직하지 않을 수 있다. 예를 들어, 특징있는 얼굴의 신속한 식별이 중요한 비디오 시스템에서, 데이터베이스의 무차별적 확장은 바람직하지 않다.

본 발명은, 특히, 얼굴 인식에 사용된 새로운 얼굴을 데이터베이스 등에 추가하는 것 등을 포함하며, 새 얼굴을 지속적으로 학습한다. 새 얼굴이 데이터베이스에 추가될 때, 후속적으로 수신된 입력 비디오에서 다시 발견된 경우, "알려진" 얼굴로 검출될 수 있다. 일 양상은 비디오에 존속할 오직 새 얼굴들만이 데이터베이스에 추가된다는 것을 보장하기 위해 법칙을 적용함으로써 데이터베이스에 어떤 새 얼굴이 추가될지를 구별한다. 이것은 "가짜" 또는 "일시적인" 얼굴들이 데이터베이스에 추가되는 것을 막는다.

다음은 이하 설명에서 사용되는 용어에 대한 간략한 설명이다: 일반적으로, 얼굴 특성에 관한 데이터가 시스템에 저장된 경우 얼굴은 시스템에 의해 "알려진" 것으로 간주된다. 일반적으로, 얼굴이 "알려진" 경우, 이 얼굴을 포함하는 입력은 시스템에 의해 저장된 얼굴에 대응하는 것으로 인식될 수 있다. 예를 들어, PNN 기반 시스템에서, 얼굴에 해당하는 범주가 존재하는 경우 얼굴은 "알려진 것"이며 어떠한 범주도 존재하지 않는 경우 "알려지지 않은 것"으로 간주된다.(물론, 얼굴에 대응하는 범주의 존재는 반드시 이 처리 단계가 항상 매칭하거나 일치하는 것으로 결정할 것을 의미하지는 않는데, 그 이유는 입력된 알려진 얼굴과 그 범주 사이에 "오류"가 있을 수 있기 때문이다.) "알려진" 얼굴에는 일반적으로, 일반 라벨 또는 참조 번호와 같이, 시스템에 의한 식별자가 주어질 것이다.(보는 바와 같이 도 2와 도 6의 라벨(F1,F2,...,FN) 및 도 6의 라벨(FA)은 시스템 내의 이러한 일반 식별자를 나타낸다.) 시스템은 사람의 신원(예, 사람의 이름)을 가질 필요없이 얼굴에 대한 얼굴 특성 및 이러한 시스템 식별자 또는 라벨이 관한 저장된 데이터를 가질 수 있다. 따라서, 시스템은 얼굴의 개인 신원에 관한 데이터를 가질 필요없이 얼굴에 대한 저장된 얼굴 데이터를 포함한다는 의미에서 얼굴을 "알 수 있다". 물론, 시스템은 얼굴을 "알고" 또한 얼굴에 대한 대응 개인 신원 데이터를 가질 수 있다.

따라서, 본 발명은 비디오 입력에서 검출된 얼굴 이미지가 분류기 내에 알려진 얼굴에 해당하는지 여부의 결정을 제공하는 얼굴 분류기를 구비하는 시스템을 포함한다. 이 시스템은 알려지지 않은 검출된 얼굴이 하나 이상의 존속 표준에 따라 비디오 입력 내에 존속할 때 알려지지 않은 검출된 얼굴을 분류기에 추가한다. 알려지지 않은 얼굴은 따라서 시스템에 알려지게 된다.

얼굴 분류기는, 예를 들어 개연적 신경망(PNN)일 수 있으며 비디오 입력에서 검출된 얼굴 이미지는 PNN 내의 카테고리에 대응하는 경우 알려진 얼굴이다. 존속 표준이 알려지지 않은 얼굴에 대해 충족된 경우, 시스템은 알려지지 않은 얼굴에 대한 하나의 범주와 하나 이상의 패턴 노드를 PNN에 추가함으로써 알려지지 않은 얼굴을 PNN에 추가할 수 있으며, 이에 따라 알려지지 않은 얼굴이 시스템에 알려지도록 한다. 상기 하나 이상의 존속 표준은 최소 시간 기간동안 비디오 입력 내에 동일한 알려지지 않은 얼굴의 검출을 포함할 수 있다.

본 발명은 또한 유사한 얼굴 분류 방법을 포함한다. 얼굴 인식 방법은: 비디오 입력에서 검출된 얼굴 이미지가 기억 장치 내의 알려진 얼굴에 해당하는지 여부를 결정하는 단계, 및 알려지지 않은 얼굴이 하나 이상의 존속 표준에 따라 비디오 입력에 존속할 때 기억장치에 알려지지 않은 검출된 얼굴을 추가하는 단계를 포함한다.

본 발명은 또한 사진과 같이, 분리된 이미지를 사용하여 유사한 얼굴 분류 기술을 포함한다. 이것은 또한 적어도 하나의 이미지 내의 얼굴이 임계 크기와 같이, 하나 이상의 특징 표준을 충족시킬 때 알려지지 않은 얼굴(비디오 또는 별도의 이미지의 경우)의 추가 단계를 제공한다.

본 발명의 바람직한 예시적인 실시예는 이하 첨부된 도면과 관련해 설명될 것이며, 이 도면에서 유사 표시는 유사 요소를 나타낸다.

도 1은 본 발명의 실시예에 따른 시스템의 대표 블록도.

도 1a는 도 1의 시스템의 다른 레벨의 대표도.

도 2는 도 1의 시스템의 성분의 초기에 교육된 변형된 PNN을 도시한 도면.

도 3은 도 1의 시스템의 다수의 성분의 더 상세한 도면.

도 3a는 도 3에서와 같이 특성 추출 성분에 따른 얼굴 이미지에 대해 생성된 벡터 양자화 히스토그램.

도 4는 확률 분포 함수에 기초한 특정 결과를 나타내는데 사용된 1차원 예의 대표 그래프.

도 5는 도 4의 예의 변형을 도시한 그래프.

도 6은 온라인 교육에 의해 생성된 새 범주를 포함하는 도 2의 변형된 PNN을 도시한 도면.

전술한 것처럼, 본 발명은, 특히, 비디오 이미지 내에 존속하는 새(즉, 알려지지 않은) 얼굴의 온라인 교육을 제공하는 얼굴 인식을 포함한다. 비디오 이미지 내의 새 얼굴의 존속은, 예를 들어 얼굴이 새 얼굴이라는 확인을 제공하는 하나 이상의 인자에 의해 측정되며, 또한 얼굴이 미래의 결정(즉, "알려진" 얼굴이 되는것)에 대한 데이터베이스로의 추가를 보장할 만큼 충분히 중요한 얼굴이라는 임계값을 제공한다.

도 1은 본 발명의 예시적인 실시예를 도시한다. 도 1은 본 발명의 시스템과 방법의 실시예 모두의 대표도이다. 이하 설명된 처리 단계가 또한 대응 방법 실시에를 설명하고 예시한다는 것이 주목된다고 해도, 시스템 용어는 실시예를 설명하기 위해 이하 사용될 것이다. 이하 설명으로부터 즉시 명백한 것처럼, 맨 위의 점선 위(A 부분)에 있는 비디오 입력(20)과 샘플 얼굴 이미지(70)는 시스템(10)에 대한 입력이며, 이것은 수신 후에 시스템(10)의 메모리에 저장될 수 있다. 점선 안의 처리 블록(B 부분)은 이하 더 설명되는 것처럼 시스템(10)에 의해 실행되는 처리 알고리즘을 포함한다.

당업자가 쉽게 이해하는 것처럼, B 부분 안의 시스템(10)의 처리 알고리즘은, 하나 이상의 프로세서에 의해 실행되고, 시간에 따라 시스템에 의해 변형될 수 있는 소프트웨어 안에 존재할 수 있다(예, 이하 설명된 MPNN의 온라인 교육을 반영 하기 위해). 이하 설명에서 또한 명백한 것처럼, 다양한 처리 블록 알고리즘에 대한 입력은 직접 또는 연관 메모리를 통해, 다른 처리 블록의 출력에 의해 제공된다. (도 1a는 도 1에 나타난 시스템(10)의 처리를 지원하는 하드웨어 및 소프트웨어 성분의 단순한 대표적인 실시예를 제공한다. 따라서, 도 1의 B 부분의 블록에 의해 나타낸 시스템(10)의 처리는 도 1a에서 연관 메모리(10b) 및 소프트웨어(10c)와 관련하여 프로세서(10a)에 의해 수행될 수 있다.)

도 1의 시스템(10)은 얼굴 분류기(40) 내의 PNN을 이용하며, 이것은 이하 설명된 실시예에서, 변형된 PNN 또는 "MPNN"(42)을 형성하도록 변형되고 따라서 전체적으로 "MPNN"이라고 칭할 것이다. 그러나, 기본(즉, 변형되지 않은) PNN도 역시 본 발명에서 사용될 수 있다는 것이 이해된다. 얼굴 분류기(40)는 원칙적으로 실시예에서 MPNN(42)으로 구성되지만, 또한 추가적 처리를 포함할 수 있다. 예컨대, 이하 지적한 것처럼, 결정 블록(50)의 일부 또는 전부는 MPNN(42)과 분리된 분류기(40)의 일부로 간주될 수 있다.(또한, 대안적인 얼굴 분류 기술이 사용될 수 있다) 따라서, 얼굴 분류기(40) 및 MPNN(42)는 본 명세서에서 설명된 것처럼 도 1의 실시예에서 실질적으로 같은 공간 상에 있다고 해도(coextensive) 개념적 명확성을 위해 분리된 것으로 도시된다. 또한, 시스템(10)은 얼굴이 알려졌는지 여부를 결정함에 있어 샘플 얼굴 이미지와 비디오 입력으로부터 얼굴 특성을 추출한다. 많은 다른 얼굴 특성 추출 기술, 즉 벡터 양자화(VQ) 히스토그램 또는 고유 얼굴 특성이 시스템(10)에서 사용될 수 있다. 도 1의 예시적인 시스템(10)에서, 벡터 양자화(VQ) 히스토그램 특성은 얼굴 특성으로 사용된다.

우선 도 1의 시스템(10)에서, 샘플 얼굴 이미지(70)는 MPNN(42)의 초기 오프라인 교육(90)을 제공하기 위해 시스템(10)에 입력된다. 샘플 얼굴 이미지는 다수의 다른 얼굴, 즉 첫 번째 얼굴(F1), 두 번째 얼굴(F2),... N번째 얼굴(FN)에 대한 것이며, 이 때 N은 샘플 이미지에 포함된 다른 얼굴의 전체 수이다. 얼굴(F1-FN)은 초기 "알려진" 얼굴(또는 얼굴 범주)을 포함할 것이며, 그들의 범주 라벨(F1,F2,...,FN)에 의해 시스템에 "알려질" 것이다. 교육 중에 사용된 샘플 얼굴 이미지(70)는 일반적으로 얼굴 범주(F1)에 대한 다수의 샘플 이미지, F2에 대한 다수의 샘플 이미지,..., FN에 대한 다수의 샘플 이미지를 포함한다. 블록(70)에서 샘플 이미지 입력에 대해, 어떤 이미지가 어떤 얼굴 범주에 대응하는지가 알려진다.

각 얼굴 범주에 대한 샘플 이미지들은 얼굴 분류기(40)의 MPNN(42) 내의 해당 얼굴 범주에 대한 패턴 노드와 범주를 생성하는데 사용된다. 따라서, F1에 대응하는 샘플 이미지는 F1에 대한 패턴과 범주 노드를 생성하는데 사용되며, F2에 대응하는 샘플 이미지는 F2에 대한 패턴과 범주 노드를 생성하는데 사용되는 등이다. 샘플 얼굴 이미지(70)는 각 샘플 얼굴 이미지에 대한 대응 입력 특성 벡터(X)를 생성하기 위해 특성 추출기(75)에 의해 처리된다.(아래의 오프라인 교육(90)의 설명에서, "X"는 일반적으로 고려 중인 특정 샘플 이미지에 대한 입력 특성 벡터를 말한다) 예시적인 실시예에서, 입력 특성 벡터(X)는 각 샘플 이미지(70)로부터 추출된 VQ 히스토그램을 포함한다. 특성 추출의 VQ 히스토그램 기술은 종래 기술에 잘 알려져 있으며 또한 아래의 입력 비디오 이미지에 대한 블록(35)에서 유사한 특성 추출의 내용 중에 더 설명된다. 따라서, 각 샘플 이미지에 대한 입력 특성 벡터(X)는 사용된 벡터 코드북(아래의 특정 예에서 33)에 의해 결정된 다수의 크기를 가질 것이다.

샘플 이미지의 입력 특성 벡터(X)가 추출된 후, 분류기 교육기(80)에 의해 표준화된다. 분류기 교육기(80)는 또한 표준화된 X를 가중 벡터(W)로서 MPNN(42) 내의 분리된 패턴 노드에 배정한다. 따라서, 각 패턴 노드는 또한 얼굴 중 하나의 샘플 이미지에 대응한다. 교육기(80)는 각 패턴 노드를 범주층 내의 대응 얼굴에 대해 생성된 노드에 연결한다. 일단 모든 샘플 입력 이미지가 유사한 방법으로 수신되고 처리되면, MPNN(42)은 우선 교육된다. 각 얼굴 범주는 다수의 패턴 노드에 연결될 것이며, 각 패턴 노드는 범주에 대해 샘플 얼굴 이미지로부터 추출된 특성 벡터에 대응하는 가중 벡터를 갖는다. 각 얼굴(또는 범주)에 대한 패턴 노드의 가중 벡터 전체는 이 범주에 대한 기본 확률 분포 함수(PDF)를 생성한다.

도 2는 초기에 분류기 교육기(80)에 의해 오프라인 교육을 받은(90) 것으로서 얼굴 분류기(40)의 MPNN(42)을 도시한다. 블록(70)에 의해 출력된 입력 샘플 이미지의 수(n-1)는 얼굴(F1)에 대응한다. 첫 번째 패턴 노드에 배정된 가중 벡터(W1₁)는 F1의 첫 번째 샘플 이미지로부터 추출된 표준화된 입력 특성 벡터와 같고; 두 번째 패턴 노드에 배정된 가중 벡터(W1₂)는 F1의 두 번째 샘플 이미지로부터 추출된 표준화된 입력 특성 벡터와 같으며;...; n_1 번째 패턴 노드에 배정된 가중 벡터(W1_{n_1})는 F1의 n_1 번째 샘플 이미지(F1)로부터 추출된 표준화된 입력 특성 벡 터와 같다. 첫 번째 n_1 패턴 노드는 대응 범주 노드(F1)에 연결된다. 유사하게, 입력 샘플 이미지의 수(n_2)는 얼굴(F2)에 대응한다. 가중 벡터(W2₁-W2_{n_2})를 각각 갖는 다음 n_2 패턴 노드는 F2의 n_2 샘플 이미지를 사용하여 유사한 방법으로 생성된다. 얼굴(F2)에 대한 패턴 노드는 범주(F2)에 연결된다. 후속 패턴 노드와 범주 노드는 유사한 방법으로 후속 얼굴 범주에 대해 생성된다. 도 2에서, 교육 단계는 N개의 다른 얼굴에 대해 다수의 샘플 이미지를 사용한다.

도 2의 초기에 교육된 MPNN를 생성하기 위한 알고리즘은 이제 간단히 설명된다. 위에 언급한 것처럼, 블록(70)에서 현재 샘플 얼굴 이미지 입력에 대해, 특성 추출기(75)는 우선 대응 입력 특성 벡터(X)(특정 실시예에서는 이하 설명된 VQ 히스토그램임)를 생성한다. 분류기 교육기(80)는 벡터를 각각의 크기로 나눔으로써 입력 특성 벡터를 우선 표준화함으로써 이 입력 특성 벡터를 패턴 노드에 대한 가중 벡터로 변환한다:

현재 샘플 이미지( 및 따라서 현재 대응하는 표준화된 특성 벡터(X'))는 알려진 얼굴(Fj)에 대응하며, 이 때 Fj는 교육 중의 얼굴(F1,F2,...,FN) 중에 하나이다. 또한, 언급한 것처럼, 블록(70)의 샘플 얼굴의 스트림에서 각 알려진 얼굴에 대한 다수의 샘플 이미지가 일반적으로 존재할 것이다. 따라서, 현재 샘플 이미지는 일반적으로 블록(70)에 의해 출력된 Fj에 대응하는 m번째 샘플 이미지일 것이 다. 표준화된 입력 특성 벡터(X')는 따라서 가중 벡터로서 범주 Fj에 대한 m번째 패턴 노드에 배정된다.

가중 벡터(Wj_m)를 가진 패턴 노드는 각 범주 노드(Fj)에 연결된다. 블록(70)에 의해 입력된 다른 샘플 얼굴 이미지들은 특성 추출 블록(75) 내의 입력 특성 벡터로 변환되며 도 2에 도시된 얼굴 분류기의 초기에 구성된 MPNN(42)을 생성하기 위한 분류기 교육기(80)에 의해 유사한 방법으로 처리된다.

예를 들어, 도 2를 다시 참조하면, 블록(70)에 의해 입력된 현재 샘플 이미지가 얼굴(F1)에 대한 제 1 샘플 이미지인 경우, 특성 추출기(75)는 이 이미지에 대한 입력 특성 벡터(X)를 생성한다. 분류기 교육기(80)는 입력 특성 벡터를 표준화하고 이것을 F1에 대한 첫 번째 패턴 노드에 대한 가중 벡터(W1₁)로서 배정한다. 다음 샘플 이미지는 얼굴(F9)에 대한 제 3 샘플 이미지일 수 있다. 블록(75)에서 이 다음 샘플 이미지에 대한 입력 특성 벡터(X)의 추출 후에, 분류기 교육기(80)는 특성 벡터를 표준화한 다음 F9(미도시)에 대한 세 번째 패턴 노드에 대한 가중 벡터(W9₃)로서 표준화된 특성 벡터를 배정한다. 나중의 일부 입력 이미지, 즉, 교육 중의 다른 샘플 이미지는 다시 F1에 대한 것일 수 있다. 이 이미지는 유사한 방법으로 처리되며, F1에 대한 두 번째 패턴 노드에 대한 가중 벡터(W1₂)로서 배정된다.

모든 샘플 얼굴 이미지(70)는 유사한 방법으로 처리되며, 도 2의 분류기(40) 의 초기에 교육된 MPNN(42)을 초래한다. 이러한 초기 오프라인 교육(90) 이후, 얼굴 분류기(40)는 오프라인 교육으로부터 야기되고 오프라인 교육에 사용된 얼굴들을 반영하는 패턴층과 범주층을 구비하며 MPNN(42)을 포함한다. 이러한 얼굴들은 오프라인 교육된 MPNN-기반 시스템의 초기에 "알려진" 얼굴을 포함한다.

이하 더 설명되는 것처럼, 입력 노드(I1,I2,...,IM)는 검출된 얼굴 이미지의 특성 벡터를 수신할 것이며 이것이 알려진 얼굴 범주에 해당하는지 여부를 결정할 것이다. 따라서, 각 입력 노드는 각 패턴 노드에 연결되며 입력 노드의 수는 특성 벡터에서 크기의 수(33, 이하 특정 예에서)와 같다.

MPNN의 교육은 전술한 것처럼, 입력 샘플 이미지의 시퀀스로서 행해질 수 있으며, 복수의 이미지들은 동시에 처리될 수 있다. 또한, 샘플 얼굴 이미지의 입력의 순서는 무관하다는 것이 위의 설명으로부터 명확해 진다. 얼굴 범주가 각 샘플 이미지에 대해 알려져 있으므로, 각 알려진 얼굴에 대한 모든 샘플들은 순차적으로 제출될 수 있거나, 이들은 무작위로 처리될 수 있다(위의 예와 같이). 어느 경우라도, 최종 교육된 MPNN(42)는 도 2에 도시된 것과 같다.

시스템(10)의 이러한 초기 오프라인 교육 직후에 구성된 것과 같은 MPNN은 오프라인 교육만을 사용하는 종래 기술의 PNN 시스템에서의 MPNN과 유사하다는 것이 주목된다. 예를 들어, 이러한 오프라인 교육(90)은 Patra 등에 의해 앞서 언급한 문헌에 따라 행해질 수 있다.

본 명세서에서 본 발명이 반드시 오프라인 교육(90)을 필요로 하지는 않다 것이 주목된다(이하 더 설명된다). 그 대신, MPNN(42)은 또한 이하 더 설명된, 유 일한 온라인 교육(110)을 사용하여 구성될 수 있다. 그러나, 현재 설명된 실시예의 경우, MPNN(42)은 우선 오프라인(90) 교육을 사용하여 교육되며 도 2에 도시된 것과 같다. 전술한 것과 같은 MPNN(42)의 초기 오프라인 교육(90) 이후, 시스템(10)은 비디오 입력(20) 내의 얼굴을 검출하고, 검출된 경우, 이 검출된 얼굴이 MPNN(42)의 범주들 중 하나의 알려진 얼굴에 해당하는지 여부를 결정하기 위해 사용된다. 도 1을 다시 참조하면, 비디오 입력(20)은 얼굴 검출(30) 처리의 기존 기술에 관한 것이며, 이것은 비디오 입력(20) 내의 얼굴(들)의 존재 및 위치를 검출한다. (따라서, 얼굴 검출 처리(30)는 단지 얼굴의 이미지가 비디오 입력에 존재하는지를 인식할 뿐이며, 알려졌는지 여부를 인식하지 않는다) 시스템(10)은 얼굴 검출의 임의의 기존 기술을 사용할 수 있다.

얼굴 검출 알고리즘(30)은 따라서 그 내용이 본 명세서에 참조로 병합된, 2001 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의(IEEE CVPR '01) 의사록, 제 1권, pp.511-518(2001년 12월판)에 게재된, P. 비올라 및 M. 존스 등의 "단순한 특성의 증가된 캐스케이드를 사용한 신속한 물체 검출'에 설명된 것과 같은 신속한 물체 검출에 대한 AdaBoost의 알려진 애플리케이션을 사용한다. 사용된 기본 얼굴 검출 알고리즘(30)은 비올라에서 설명된 것과 같을 수 있는데, 즉, 이것은 계단형 단계로 구성될 수 있고, 각 단계는 강한 분류기이며 각 단계는 여러 약한 분류기로 구성될 수 있으며, 각 약한 분류기는 이미지의 특성에 대응한다. 입력 비디오 이미지(20)는 왼쪽에서 오른쪽으로, 위에서 아래로 스캐닝되며, 이미지 내의 다른 크기의 직사각형은 이것이 얼굴을 포함하는지 여부를 결정하기 위해 분석된다. 따라서, 분류기의 단계는 직사각형에 대해 연속으로 적용된다. 각 단계는 직사각형에 대한 점수(score)를 얻고, 이것은 단계를 포함하는 약한 분류기의 응답의 합계이다.(이하 언급하는 것처럼, 직사각형에 대한 점수 취득은 일반적으로 2개 이상의 서브-직사각형을 조사하는 단계를 수반한다.) 합계가 단계에 대한 임계값을 초과하는 경우, 직사각형은 다음 단계로 진행한다. 직사각형의 점수가 모든 단계에 대한 임계값을 통과하는 경우, 얼굴 부분을 포함하는 것으로 결정되며, 얼굴 이미지는 특성 추출(35)로 전달된다. 직사각형이 임의 단계에 대한 임계값 미만인 경우, 직사각형은 버려지고 알고리즘은 이미지 내의 다른 직사각형으로 진행된다.

분류기는 단계 또는 강한 분류기를 만들기 위해 유효성(validation) 세트를 사용하여 평가된 시간에서 하나의 약한 분류기를 추가함으로써 비올라에 구성될 수 있다. 가장 새로운 약한 분류기는 구성 중인 현재 단계에 추가된다. 증가(boosting)의 각 원(t)은 최소화에 의한 구조 하에서 강한 분류기 내에 특성의 현재 세트에 직사각형 특성 분류기를 추가한다:

상기 수학식 3은 비올라의 절차에 사용된 것에 상응하며, E_t는 직사각형 교육 예(x_i)를 사용하여 평가된 t번째 직사각형 특성 분류기(h_t)와 연관된 가중된 오류를 나타낸다. (직사각형 예에 대해 사용된 더 낮은 경우 표시 "x_i"는 이것을 MPNN 에 사용된 이미지의 특성 벡터 표시(X)와 구별한다.) 본질적으로 h_t(x_i)는 교육 예(x_i)의 특정 직사각형 하위-영역 내의 픽셀의 총합의 가중된 합계이다. h_t(x_i)가 세트 임계값을 초과하는 경우, x_i과 같은 h_t(x_i)의 출력은 1이며, 그렇지 않은 경우, h_t(x_i)의 출력은 -1이다. h는 위 수학식에서 +1 또는 -1로 한정되므로, 변수(α_t)는 구성 중인 강한 분류기에 대한 이러한 약한 가정(h)의 영향(크기)이다. 또한,

가 예(x_i)의 대상 라벨이다(즉, x_i가 특성(h)의 음 또는 양의 예인지이며, 이것은 교육 세트의 예를 위해 객관적으로 알려져 있다). D는 h_t 특성에 대한 i번째 예에 대한 가중 인자이다.

일단 최소값(E)이 이러한 방법으로 결정되면, 대응 직사각형 특성 분류기(h)(크기(α)뿐만 아니라)는 새로운 약한 분류기를 구성하는데 사용된다. h에 대한 관례적 결정 임계값은 또한 교육 세트를 사용하여 그리고 양 및 음의 예의 분포에 기초하여 결정된다. 설계 파라미터에 기초해 양 및 음의 예를 가장 잘 분할하는 임계값이 선택된다.(임계값은 앞서 참조한 비올라 문헌에서 Θ_j로 언급된다) 언급한 것처럼, 약한 분류기는 또한 α로 구성되며, 이것은, 선택된 직사각형 특성 분류기(h)가 구성 중인 강한 분류기에 얼마나 많이 영향을 미치는지를 표시하는 실수값의 수이다(그리고 교육 중에 결정된 오류(E)로부터 결정된다). 구현될 때, 이미지의 입력 직사각형 부분은 또한 일반적으로 입력 직사각형의 2개 이상의 서브-직사각형 내의 픽셀의 가중된 합계에 기초해 h에 의해 분석되며 h의 출력은 임계값(교 육에서 결정된 것과 같음)이 입력 직사각형에 대해 초과되는 경우 1로 설정되며 그렇지 않은 경우 h=-1로 설정된다. 새로운 약한 분류기의 출력은 영향값(α)의 H배인 2진 출력이다. 강한 분류기는 교육 중에 추가된 약한 분류기의 합계로 구성된다.

일단 새로운 약한 분류기가 추가되면, 분류기의 성능(검출 비율 및 오류 경고 비율의 관점에서)은 유효성 세트에 대한 원하는 설계 파라미터를 충족시키는 경우, 새롭게 추가된 약한 분류기는 구성 중의 단계를 완료하는데, 그 이유는 이것이 적절하게 각각의 특성을 검출하기 때문이다. 그렇지 않은 경우, 다른 약한 분류기는 추가되고 평가된다. 일단 단계들이 모든 원하는 특성에 대해 구성되고 유효성 세트에 대해 설계 파라미터에 따라 수행하면, 분류기는 완성된다.

비올라의 약한 분류기의 전술한 구조의 변형예는 대안적으로 얼굴 검출기(30)에 대해 사용될 수 있다. 변형예에서, 새로운 약한 분류기에 대해 h의 선택 중에 α는 h로 폴딩된다. 새로운 약한 분류기(h)(이제 α를 결합함)는 전술한 것과 유사한 방법으로 E를 최소화함으로써 선택된다. 약한 분류기의 구현의 경우, "결정 부스팅 스텀프(boosting stumps)"는 변형에 사용된다. 결정 부스팅 스텀프는 비-리프 기원(non-leaf parent) 모드에서 이뤄진 결정에 근거해 왼쪽 또는 오른쪽 리프값을 출력하는 결정 트리(decision tree)이다. 따라서, 약한 분류기는 1과 -1 대신에 2개의 실수 값 중 하나(2개의 리프(c_left 및 c_right) 중 하나)를 출력하는 결정 트리로 구성된다. 약한 분류기는 또한 이하 설명되는, 관례적 결정 임계값으로 구성된다. 이미지의 입력 직사각형 부분에 대해, 선택된 직사각형 특성 분류기(h) 는, 입력 직사각형의 서브-직사각형 영역 사이의 픽셀 밀도의 합계의 가중된 합계가 임계값보다 큰지 여부를 결정하기 위해 사용된다. 더 큰 경우, c_left이 약한 분류기로부터 출력되며, 작은 경우, c_right이 출력된다.

리프(c-left 및 c_right)는, 얼마나 많은 양 및 음의 예가 주어진 임계값에 대한 왼쪽 및 오른쪽 분할에 배정되었는지에 기초해, 선택된 h의 교육 중에 결정된다. (교육 세트에 대한 기본 사실이 알려져 있으므로 예는 객관적으로 양 또는 음인 것으로 알려져 있다.) 직사각형으로부터 합계의 가중된 합계는 전체 샘플 세트에 대해 평가되며, 따라서 다른 값의 배분을 제공한 다음, 분류된다. 분류된 배분으로부터 그리고 요구된 검출과 오류 경고 비율의 관점에서, 목표는 대부분의 양의 예시가 한 쪽에 해당하고 대부분의 음의 예가 다른 쪽에 해당하는 부분을 선택하는 것이다. 분류된 배분에 대해, 최적의 분할(약한 분류기에 사용된 관행상 결정 임계값을 제공)은 다음 수학식에서 T를 최소화하는 부분을 선택함으로써 행해진다:

이 때 W는 "양"이거나 "음"인 고려 중인 부분의 왼쪽 또는 오른쪽에 해당하는 교육 세트에서 예의 가중치를 나타낸다.

선택된 부분(T를 최소화함)은 관례적 결정 임계값을 생성하며; 또한, c_left 및 c_right는 수학식 5 및 6에 따라서 교육 데이터 배분으로부터 계산된다:

이 때 W는 "양"이거나 "음"인 선택된 부분의 왼쪽 또는 오른쪽에 배정된 예의 가중치를 나타낸다(그리고 ε는 큰 예상값에 의해 야기된 수치상의 문제를 회피하기 위한 보정항(smoothing term)이다). 이들 값은 균형된 약한 분류기의 다음 반복되는 가중치를 유지하는데, 즉, 경계치의 각 측에 대한 양쪽의 양 및 음의 예의 상대 가중치가 실질적으로 같게 유지한다.

언급한 대로, 약한 분류기가 비올라에서와 같이 구성될 수 있다고 해도, 대안적으로 이들은 바로 위 문단에서 설명한 결정 부스팅 스텀프와 같이 구성될 수 있다. 더욱이, 어느 한 쪽의 약한 분류기의 교육은 대안적인 기술을 사용할 수 있다는 것이 주목된다. 한 기술에 따라, 현재 추가되고 있는 약한 분류기를 테스트하기 위해 유효성 세트의 예는 이전 단계의 모든 이전에 추가된 약한 분류기 및 현재 단계에 이전에 추가된 약한 분류기를 통해 스캐닝된다. 그러나, 일단 이전의 약한 분류기가 채택되고 점수가 매겨지면, 이 점수는 변하지 않는다. 따라서, 더 효율적인 대안 기술에서, 모든 이전 단계를 통과하는 직사각형 및 이전 단계에 대한 그 점수가 저장된다. 모든 이전 단계를 통해 예를 실행시키기 보다는, 이들 나머지 직사각형에 대한 이전 점수들은 현재 약한 분류기의 교육에서 사용되며, 나머지 직사각형은 오직 점수를 업데이트하기 위해 현재 약한 분류기를 통해 실행되어야 한다.

일단 얼굴 이미지가 얼굴 검출(30)에 의해 비디오(20)에서 검출되면, 이미지 에 대한 VQ 히스토그램을 생성하기 위해 특성 추출기(35)에서 처리된다. 이 특성 추출 처리는 검출된 이미지에 대한 특성 벡터(X_D)를 초래한다. 표시 X_D("검출된" X에 대한)는 벡터가 비디오 스트림(20) 내의 검출된 얼굴 이미지(이하 35a)에 대응하며, 교육 중인 샘플 얼굴 이미지가 아니라는 것을 강조하는데 사용된다. 그러나, 검출된 이미지에 대한 특성 벡터(X_D)는 오프라인 교육(90) 중에 사용된 샘플 얼굴 이미지에 대해 전술한 입력 특성 벡터(X)와 같은 방법으로 추출된다는 것이 주목된다. 따라서, 특성 추출기(35,37)는 시스템(10)에서 같을 수 있다. 검출된 얼굴 이미지와 교육 중에 사용된 샘플 이미지를 포함하는 비디오 프레임은 동일한 원본 입력 형식일 수 있으며, 이 경우 특성 추출 처리는 동일하다.

특성 추출기(35)에 의한 특성 추출은 이제 얼굴 검출기(30)에서 검출된 비디오 입력(20)으로부터 얼굴 이미지에 대해 더 자세히 설명된다. 도 3은 검출된 얼굴 이미지를 얼굴 분류기(40)로의 입력을 위해 VQ 히스토그램으로 변환하는데 사용된 특성 추출기(35)의 요소를 도시한다. 비디오 입력에서 검출된 얼굴 이미지(도 3에서 지정된 얼굴 구간(35a))는 저역 필터(35b)로 전송된다. 이 점에서 얼굴 구간(35a)은 여전히 원본 비디오 형식인 비디오 프레임 내에 존재한다. 저역 필터(35a)는 고주파 잡음을 감소시키고 인식을 위해 얼굴 구간(35a)의 가장 효과적인 저주파 성분을 추출하기 위해 사용된다. 얼굴 구간은 이후 픽셀의 4x4 블록(처리 블록(35c))으로 분할된다. 게다가, 최소 세기는 각 4x4 픽셀 블록에 대해 결정되며 각 블록으로부터 감산된다. 결과는 각 4x4 블록에 대한 세기의 변화이다.

처리 블록(35d)에서, 얼굴 이미지의 이러한 각 4x4 블록은 메모리에 저장된 벡터 코드북(35e) 내의 코드와 비교된다. 코드북(35e)은 종래 기술에 잘 알려져 있으며 단조로운 세기 변화를 가진 33개의 코드 벡터로 체계적으로 조직된다. 처음 32개의 코드벡터는 세기 변화의 방향과 범위를 변경함으로써 생성되고, 33번째 벡터는 도 3에 도시된 것처럼, 어떠한 변경과 방향도 포함하지 않는다. 각 4x4 블록에 대해 선택된 코드벡터는 블록에 대해 결정된 세기의 변화에 가장 유사하게 일치하는 코드벡터이다. 유클리드 거리(Euclidean distance)는 이미지 블록과 코드북 내의 코드벡터 간의 거리 매칭에 사용된다.

33개의 코드벡터 각각은 따라서 이미지에서 특정 수의 매칭하는 4x4 블록을 구비한다. 각 코드벡터에 대한 매칭의 수는 이미지에 대한 VQ 히스토그램(35f)을 생성하는데 사용된다. VQ 히스토그램(35f)이 생성되며 x 축을 따라 코드벡터 저장소(bin)(1-33)를 갖고 y축에서 각 코드벡터에 대한 매칭 수를 나타낸다. 도 3a는 도 3에 도시된 것과 같은 특성 추출기의 처리에 의해 얼굴 구간(35a')에 대해 생성된 VQ 히스토그램(35f')을 나타낸다. 코드벡터에 대한 저장소(1-33)는 x축을 따라 도시되며, 이미지(35a') 내의 각 벡터와 4x4 이미지 블록과 각 코드벡터 사이의 매칭 수는 y축을 따라 도시된다. 전술한 것처럼, 이 예시적인 실시예에서 VQ 히스토그램은 검출된 얼굴 이미지에 대해 이미지 특성 벡터(X_D)로서 사용된다. (동등하게, 처리 중에 사용된 이미지 특성 벡터(X_D)는 33개의 공간 벡터, 즉, X_D= (코드벡터 1과 매칭하는 수, 코드벡터 2와 매칭하는 수,..., 코드벡터 V와 매칭하는 수)로 나 타내 질 수 있으며, 이 때 V는 코드북 내의 마지막 코드벡터 수(전술한 코드북에 대해, V=33)이다.)

2002 이미지 처리에 관한 국제 회의(IEEE ICIP '02) 의사록, 제 2권, pp.105-108(2002년 9월)의 게재된 K. Kotani 등의 "벡터 양자화 히스토그램 방법을 사용한 얼굴 인식"이라는 문헌은 본 명세서에 참조로 병합되며, 특성 추출기(35)에 의해 입력 얼굴 이미지(35a)로부터 VQ 히스토그램(35f)의 생성에 대해 전술한 것과 실질적으로 같은 VQ 히스토그램을 사용한 얼굴 특성의 표시를 설명한다.

도 3은 또한 얼굴 분류기(40)의 MPNN(42)을 도시한다. VQ 히스토그램(35f)은 입력 얼굴 이미지(35a)에 대한 특성 백터(X_D)를 출력한다. 특성 벡터(X_D)는 MPNN(42)의 입력층에 전송되며, 기본 얼굴 구간이 알려졌는지 여부를 결정하기 위해 처리된다.

이제 도 2에 도시된 것처럼 MPNN(42)의 초기 교육된 구성으로 되돌아가면, 전술한 것처럼, 각 패턴 노드는 얼굴 범주에서 샘플 교육 이미지의 표준화된 입력 특성 벡터(X)와 같은 배정된 가중 벡터(W)를 갖는다. 교육 중의 입력 특성 벡터가 X_D에 대한 방법과 동일한 방법으로 샘플 이미지로부터 추출되므로, 이들 벡터는 같은 수의 크기(추출에서 사용된 33개의 코드벡터의 예시적인 실시예에서 33)를 가지며 대응 벡터 크기 내에 각 이미지의 동일한 특성을 나타낸다. 따라서, 검출된 이미지의 X_D와 범주의 샘플 이미지에 대한 가중 벡터(W)는 X_D와 범주의 알려진 얼굴 사이의 대응성을 결정하기 위해 비교된다.

X_D는 입력층 노드를 통해 MPNN(42)으로 입력되며, MPNN(42)은 패턴 노드 내의 가중 벡터를 사용하여 각 얼굴 범주와의 대응성을 평가한다. MPNN(42)은 각 범주에 대한 별도의 PDF 값을 결정함으로써 X_D와 알려진 얼굴 범주(F1,F2..)를 비교한다. 첫째, 입력층은 입력 벡터(X_D)를 표준화하여(이 입력 벡터를 그 크기로 나눔으로써), 오프라인 교육 중에 패턴 층의 가중 벡터의 이전 표준화와 대응시키기 위해 스케일링되도록 한다:

둘째, 패턴층에서, MPNN(42)은 표준화된 입력 벡터(X_D')와 도 2에 도시된 각 패턴 노드의 가중 벡터(W) 사이의 도트곱을 수행하고, 따라서 각 패턴 노드에 대한 출력 벡터값(Z)을 초래한다:

패턴 노드에 대한 가중 벡터(W)에 대한 기준 표시( 및 이에 따른 결과 출력 벡터(Z))는 도 2에 도시된 것과 같으며 오프라인 교육에 대해 위에 설명된 것과 같다.

마지막으로, 각 범주에 대응하는 패턴 노드의 출력값은 각 관련 범주에 대한 입력 벡터(X_D)에 대한 PDF의 값(함수 f)을 결정하기 위해 합산되며 표준화된다. 따라서, j번째 범주(Fj)에 대해, j번째 범주의 패턴 노드에 대한 출력값(Zj₁-Zj_{n_j})이 사용되며, 이 때 n_j는 범주(j)에 대한 패턴 노드의 수이다. PDF 값(f)은 다음과 같이 고려 하의 범주(Fj)에 대해 계산된다:

이 때 σ는 보정 계수이다. j=1 내지 N에 대해 수학식 9를 사용하여, PDF 값(f_F1(X_D),...f_FN(X)_D)은 각 관련 범주에 대응하는 패턴 노드의 출력값(Z)을 사용하여, 범주(F1,...,FN) 각각에 대해 계산된다. 각 범주에 대한 PDF 값(f)이 범주의 출력값(Z)의 합계에 기초하므로, 범주에 대한 값(f)이 더 클수록, X_D와 이 범주에 대한 가중 벡터 사이의 대응성이 더 커진다는 사실을 따른다.

MPNN(42)은 이후 입력 벡터(X_D)에 대해 가장 큰 값(f)을 가지는 범주(i번째 범주 또는 Fi로 지정됨)를 선택한다. MPNN(42)에 의한 i번째 범주의 선택은 베이스 정리(Bayes Strategy)의 구현 중 하나를 사용하며, 이것은 PDF에 기초하여 최소 위험 비용을 추구한다. 공식으로서, 베이스 결정 법칙은 다음과 같이 쓸 수 있다:

입력 벡터(X_D)에 대해 가장 큰 PDF(f로 측정된 것과 같음)를 갖는 범주(Fi)는 입력 벡터(X_D)(얼굴 구간(42a)에 대응함)가 잠재적으로 알려진 얼굴 범주(Fi)와 매칭한다는 결정을 제공한다. 매칭이 존재한다고 실제로 간주하기 전에, MPNN(42)는 신뢰 추정치를 생성하며, 이것은 잠재적 매칭 범주(i)에 대한 벡터(X_D)의 PDF를 모든 범주에 대한 벡터(X_D)의 PDF의 합계와 비교한다.

신뢰 측정치가 신뢰 임계값(예, 80%)을 초과하는 경우, 입력 벡터(X_D)와 범주(i) 사이의 매칭은 시스템에 의해 발견된다. 그렇지 않은 경우에는 발견되지 않는다.

그러나, 바로 위에서 설명한 것처럼 결정 함수 결과에 기초한 신뢰 측정치는, 입력 벡터에 대해 가장 큰 PDF 값(f)이 그럼에도 불구하고 표시될 범주와의 매칭에 대해 너무 낮은 경우 바람직하지 못하게 높은 신뢰 측정치가 야기될 수 있다. 이것은 주어진 입력 벡터에 대해 범주의 PDF 출력에서 야기된 상대적 결과를 비교함으로써 위의 계산된 것과 같은 신뢰 크기가 생성되기 때문이다. 1차원에서 단순한 일반 예는 다음을 설명한다:

도 4는 두 가지 범주(Cat1,Cat2)의 PDF를 도시한다. 각 범주에 대한 PDF 함수는 일반적으로 "

"(또는 입력 특성 벡터(X)가 범주(Cat)에 속하는 확률) 대 1차원 특성 벡터(X)로서 도 4에 도시된다. 3가지 별도의 1차원 입력 특성 벡터(X_Ex1,X_Ex2,X_Ex3)가 도시되며 이들은 얼마나 바람직하지 못하게 높은 신뢰값이 초래될 수 있는지를 설명하는데 사용된다. 입력 벡터(X_Ex1)에 대해, 가장 큰 PDF 값은 범주 (Cat1)(즉,

및

)에 대응한다. 수학식 10에 주어진 것과 유사한 베이스(Bayes) 법칙을 적용함으로써, Cat1이 이에 따라 선택된다. 또한, 신뢰 측정치는 수학식 11에 주어진 것과 유사한 X_Ex1에 대한 Cat1에 대해 계산될 수 있다:

Confi_Ex1=

그러나, 입력 특성 벡터(X_Ex1)에 대한 PDF 값이 매우 낮으므로(Cat1에 대해 0.1 그리고 Cat2에 대해 더 낮음), 이것은, 패턴 노드 내에서 입력 벡터와 가중 벡터 사이의 대응성이 작고, 그러므로 X_Ex1이 "알려지지 않은" 범주로서 식별되어야 한다는 것을 의미한다.

다른 유사한 바람직하지 않은 결과는 또한 도 4로부터 명백하며: 입력 특성 벡터(X_Ex2)를 참조하면, 이것이 Cat1의 최대값에 대응하므로 이를 범주 Cat1과 매칭하는 것이 분명히 적절하다. 또한, 수학식 12와 유사한 방법으로 신뢰값(Confi_Ex2)을 계산하면 대략 66%의 신뢰 측정치가 야기된다. 그러나, Confi_Ex2 는 Confi_Ex1보다 더 낮아야 하는데, 그 이유는 X_Ex2가 X_Ex1보다 Cat1에 대한 PDF의 최대값과 훨씬 더 가깝기 때문이다. X_Ex3이 Cat2에 대해 PDF의 최대값의 한 쪽에 대해 마찬가지로 멀리 떨어져 있다고 해도, Cat2가 대략 80%의 신뢰값으로 선택되는, X_Ex3에 대한 다른 바람직하지 못한 결과가 나타난다.

도 5는 주어진 입력 특성 벡터에 대한 낮은 PDF 값을 처리할 때 이러한 바람직하지 못한 결과를 회피하기 위한 기술을 예시한다. 도 5에서, 임계값은 도 4의 범주(Cat1, Cat2) 각각에 적용된다. 가장 큰 PDF 값을 갖는 범주를 선택하는 것 외에도, 입력 특성 벡터(X)는 매칭하는 것으로 간주되기 전에 범주에 대한 임계값을 충족하거나 이를 초과해야 한다. 임계값은 각 범주에 대해 다를 수 있다. 예를 들어, 임계값은 범주에 대해 PDF의 최대값의 특정 비율일 수 있다(예, 70%).

도 5에서 보다시피, Cat1은 다시 특성 벡터(X_Ex1)에 대해 가장 큰 PDF 값을 가지는 범주이다. 그러나,

은 Cat1에 대한 임계값을 초과하지 않으며, 임계값은 대략 0.28이다. 따라서, 특성 벡터(X_Ex1)는 "알려지지 않은" 것으로 결정된다. 마찬가지로, X_Ex3의 PDF 값이 Cat2에 대한 임계값을 초과하지 않으므로, X_Ex3는 "알려지지 않은" 것으로 결정된다. 그러나, X_Ex2에 대한 PDF 값이 Cat1에 대한 임계값을 초과하므로, Cat1는 X_Ex2에 대해 선택되며, 신뢰 레벨은 위에서 계산된 것처럼 66%이다.

유사하게 바람직하지 못한 시나리오는 다중 차원의 경우(예, 예시적인 실시예에서 33개의 차원의 경우)에서 발생할 수 있다는 것이 명백하다. 예를 들어, 입력 다중 차원의 특성 벡터에 대해 가장 큰 범주에 대한 PDF 값은 그럼에도 불구하고 범주 매칭을 표시하기에는 너무 작을 수 있다. 그러나, 가장 큰 PDF 값이 신뢰 측정치에서 다른 범주(심지어 가장 낮은 크기를 구비함)의 PDF 값과 함께 사용되는 경우, 과도하게 높은 신뢰값이 야기될 수 있다.

예시적인 실시예로 되돌아가서, 주어진 입력 벡터에 대해 낮은 PDF 값 출력(f)을 적절히 처리하기 위해, 앞서 지시한 것처럼, 변형된 PNN(MPNN(42))이 이용된다. MPNN(42)에서, 입력 벡터에 대해 가장 큰 PDF 값(f)을 갖는 범주는 일시적으로 선택된다. 그러나, 범주에 대한 값(f(X))은 또한 일시적으로 선택된 범주에 대한 임계값을 충족하거나 이를 초과해야 한다. 이 임계값은 각 범주에 대해 다를 수 있다. 예를 들어, 임계값은 범주에 대한 PDF의 최대값의 특정 비율(예, 70%)일 수 있다. 실시예의 MPNN에 이용된 입력 벡터(X_D)에 대해 생성된 PDF 값(f)의 임계화(thresholding)는 위에서 주어진 베이스 결정 법칙의 변형으로서 응용된다. 따라서, 실시예의 MPNN에 의해 사용된 베이스 결정 법칙은 다음과 같다:

이 때 ti는 최대값 f(X_D)에 대응하는 얼굴 범주(Fi)의 임계값이며 임계값은 범주(Fi)의 PDF에 기초한다. (적어도 전술한 기술에서의 임계값이 "알려지지 않은" 범주의 PDF에 기초하지 않으므로, 신경망에 대한 IEEE 국제 회의 의사록, p. 434-437(1993년)에 게재된, T.P. Washburne 등의 "개연적 신경망을 가진 알려지지 않은 범주의 확인"의 다른 출원에 대해 설명된 임계값과 다르다.

d가 알려지지 않은 경우, 얼굴은 블록(50)에서 "알려지지 않은" 것으로 결정된다. 얼굴 범주(Fi)가 MPNN의 변형된 베이스 결정 알고리즘 하에서 선택된 경우, 신뢰값은 전술한 방법(수학식 11)으로 선택 범주에 대해 계산된다. 신뢰값이 신뢰 임계값을 초과하는 경우, 입력 벡터는 선택 범주(Fi)에 대응하는 것으로 간주되며 얼굴은 얼굴 범주에 대응한다는 의미에서 도 1의 블록(50)에서 "알려진" 것으로 결정된다. 이러한 경우, 알려진 얼굴의 검출과 관련된 임의의 후속 처리는 블록(60)에서 개시될 수 있다. 이러한 개시는 선택적이며, 비디오 색인화(indexing), 얼굴 신원의 인터넷 검색, 편집 등과 같은 많은 작업들 중 어느 한 가지가 될 수 있다. 더욱이, 시스템(10)은 비디오 입력 상의 얼굴 구간과 MPNN 내의 범주(알려진 얼굴) 사이의 매칭을 알리는 출력(65)(예, 단순한 시각적이거나 청각적 알람)을 제공할 수 있다. 교육(training) 이미지가 또한 얼굴 범주에 대한 개인 ID(예, 해당 성명)를 포함하는 경우, ID가 출력될 수 있다. 반면, 신뢰값이 신뢰 임계값을 초과하지 않는 경우, 입력 벡터는 다시 알려지지 않은 것으로 간주된다.

얼굴이 알려졌는지 여부를 결정하는 처리는 도 1에서 처리 결정(50)으로 별 도로 도시된다. 블록(50)은 앞서 설명한 변형된 베이스 결정 법칙(수학식 13 및 수학식 14)과 후속 신뢰 결정(수학식 11)을 포함할 수 있다. 그러나, 블록(50)이 개념적 명확성을 위해 얼굴 분류기(40)와 별도로 도시되었다고 해도, 베이스 결정 알고리즘과 신뢰 결정은 일반적으로 얼굴 분류기(40)의 일부라는 것이 이해된다. 이러한 결정 처리는 대안적으로 얼굴 분류기(40)의 별도의 성분으로 간주될 수 있다고 해도, MPNN(42)의 일부로 간주될 수 있다.

얼굴 이미지가 결정(50) 단계에서 알려지지 않은 것으로 결정된 경우, 도 1은 얼굴이 단순히 버려지지 않고 차라리 이 처리가 존속 결정 블록(100)으로 이동된다는 것을 보여준다. 이하 더 자세히 설명되는 것처럼, 알려지지 않은 얼굴을 가진 비디오 입력(20)은 동일한 얼굴이 존속하는지 아니면 비디오 내에서 널리 보급되었는지를 결정하기 위해 하나 이상의 표준을 사용하여 모니터링된다. 동일한 얼굴이 존속하는 경우, 입력(20)을 통해 수신된 알려지지 않은 얼굴의 하나 이상의 얼굴 이미지에 대한 특성 벡터(X_D)는 트레이너(80)에게 전송된다. 트레이너(80)는 얼굴 분류기(40) 내의 MPNN(42)이 얼굴에 대한 새로운 범주를 포함할 것을 교육하기 위해 얼굴 이미지에 대한 데이터를 사용한다. 이러한 MPNN(42)의 "온라인" 교육은 비디오 내의 특징있는 새(알려지지 않은) 얼굴이 얼굴 분류기 내의 범주로서 추가될 것을 보장한다. 따라서, 후속 비디오 입력(20) 내의 동일한 얼굴은 "알려진" 얼굴(즉, 예를 들어, 반드시 이름에 의해 "식별"되지 않았다고 해도, 범주에 대응함)로서 검출될 수 있다.

전술한 것처럼, 얼굴이 블록(50)에서 알려지지 않은 것으로 결정될 때, 존속 처리(100)가 개시된다. 비디오 입력(20)은 하나 이상의 조건이 충족되었는지 여부를 결정하기 위해 모니터링되며, 이는 MPNN(42)이 알려지지 않은 얼굴의 이미지를 사용하여 온라인 교육될 것이라는 것을 나타낸다. 하나 이상의 조건은, 예를 들어 동일한 알려지지 않은 얼굴이 시간 기간동안 비디오 내에 지속적으로 존재한다는 것을 나타낼 수 있다. 따라서, 존속 처리(100)의 일 실시예에서, 검출된 알려지지 않은 얼굴은 임의의 잘 알려진 추적 기술을 사용하여 비디오 입력 내에서 추적된다. 얼굴이 비디오 입력 내에서 최소 수초동안(예, 10초) 추적된 경우, 얼굴은 처리 블록(100)("예" 화살표)에 의해 존속하는 것으로 간주된다.

대안적으로, 존속 결정 블록(100)은, 동일한 알려지지 않은 얼굴이 특정 시간 기간동안 비디오에서 존재하는지 여부를 결정하기 위해 얼굴 이미지의 시퀀스에 대한 데이터가 얼굴 분류기(40) 내의 MPNN(42)에 의해 알려지지 않은 것으로 결정되었다고 간주할 수 있다. 예를 들어, 다음의 네 가지 표준이 시퀀스에 적용될 수 있다:

1) MPNN(42) 분류기는 전술한 방법으로, 비디오 입력(20) 내의 얼굴 구간의 시퀀스를 알려지지 않은 것으로 식별한다.

2) PDF 출력의 평균은 시퀀스의 얼굴 구간에 대해 추출된 특성 벡터(X_D)에 대해 작다("PDF 출력"은 임계값(ti)을 초과하지 않는다고 해도, 가장 큰 값(i)에 대한 값(f_Fi(X_D))이다). 특성 벡터에 대한 평균 PDF 출력에 대한 임계값은 일반적으 로, 예를 들어 최대 PDF 출력의 40%보다 작거나 같고 20%를 초과할 수 있다. 그러나, 이 임계값이 비디오 데이터의 상태에 대해 민감하므로, 이 임계값은 원하는 검출 레벨 대비 거짓 양의 값(false positives)을 얻기 위해 경험적으로 조정될 수 있다. 이 표준은 알려진 얼굴들 중 하나가 아니라는 것, 즉, 알려지지 않은 얼굴이라는 것을 확인하는 역할을 한다.

3) 시퀀스에 대한 특성 벡터(X_D)의 변화는 작다. 이것은 입력 벡터의 시퀀스에 대한 표준 편차를 계산함으로써 입력 벡터 간의 거리를 계산하여 결정될 수 있다. 입력 벡터 사이의 표준 편차에 대한 임계값은 일반적으로 예를 들어, 0.2 내지 0.5의 범위에 있을 수 있다. 그러나, 이 임계값이 또한 비디오 데이터의 상태에 대해 민감하므로, 임계값은 원하는 검출 레벨 대비 거짓 양의 값을 얻기 위해 경험적으로 조정될 수 있다. 이러한 표준은 시퀀스 내의 입력 벡터는 동일한 알려지지 않은 얼굴에 해당하는 것을 확인하는 역할을 한다.

4) 상기 세 가지 조건은 특정 시간 기간(예, 10초)에 걸쳐 블록(20)에서 얼굴 입력 시퀀스 동안 지속된다.

상기 처음 세 가지 조건은 구간 전체에 걸쳐 동일한 알려지지 않은 얼굴이라는 것을 확인하는 역할을 한다. 네 번째 표준은 존속 크기의 역할을 하는데, 즉, 어떤 알려지지 않은 얼굴이 포함할 MPNN를 재교육할 만한 자격을 갖는지에 대한 조치의 역할을 한다. 예를 들어, 10초 이상동안 비디오 입력(20)에서 지속되는 알려지지 않은 얼굴의 경우, 짧은 시간 기간동안 비디오를 통해 잠깐 나타나는 가 짜(spurious) 얼굴(군중 얼굴, 단역 배우 등에 해당)은 온라인 교육에서 제외된다. 얼굴의 이미지의 샘플에 대한 특성 벡터(X_D)는 시간 간격 전체에 저장될 수 있으며, 수행될 때, 온라인 교육에 사용될 수 있다.

시퀀스가 연속적인 시간 기간동안 지속되는 경우, 처리는 단순하다. 이러한 경우, 비디오 입력(20)의 얼굴 구간에 대한 특성 벡터(X_D)의 일부 또는 전부는 버퍼 메모리에 저장될 수 있으며, 최소 시간 기간이 초과된 경우, 이하 더 설명된 것처럼 온라인 교육에서 사용될 수 있다. 다른 경우, 예를 들어, 얼굴은 비연속적인 비디오 구간에서 매우 짧은 시간 기간동안 나타날 수 있지만, 이 시간은 모두 합하면 최소 시간 기간을 초과한다. (예를 들어, 대화에 참여한 배우 사이에 빠른 장면이 존재하는 경우.) 이러한 경우, 존속 블록(100) 내의 복수의 버퍼는 각각 위의 조건(1-3)에 의해 결정된 것처럼, 특정 알려지지 않은 얼굴에 대한 알려지지 않은 얼굴 이미지에 대해 특성 벡터를 저장할 수 있다. MPNN에 의해 "알려지지 않은" 것으로 결정된 후속 얼굴 이미지는 표준 1-3에 의해 결정된 것처럼, 해당 얼굴에 대해 적절한 버퍼에 저장된다. (알려지지 않은 얼굴이 기존 버퍼에서 발견될 것에 대응하지 않는 경우, 이것은 새 버퍼에 저장된다.) 특정 알려지지 않은 얼굴에 대한 버퍼가 최소 시간 기간을 초과하기 위해 시간에 따른 얼굴 이미지에 대한 충분한 특성 벡터를 축적한 경우, 및 축적했을 때, 존속 블록(100)은 버퍼 내의 얼굴에 대해 온라인 교육(110)을 위한 분류기 교육기(80)로 특성 벡터를 배포(release)한다.

알려지지 않은 얼굴에 대한 얼굴의 시퀀스가 존속 표준(또는 단일 존속 표 준)을 충족하지 않는 것으로 결정된 경우, 시퀀스의 처리는 종료되고 알려지지 않은 얼굴과 연관된 임의의 저장된 특성 벡터와 데이터는 메모리로부터 폐기된다(처리 120). 이미지 구간이 전술한 것처럼 다른 버퍼에서 시간에 걸쳐 다른 얼굴에 대해 축적된 경우, 더 긴 시간 기간 이후(예, 5분) 시간에 따라 축적된 얼굴 이미지가 최소 기간을 초과하지 않는 경우, 임의의 한 버퍼 내의 데이터는 폐기될 수 있다.

알려지지 않은 것을 결정된 비디오 입력 내에 얼굴이 존속 처리를 충족하는 경우, 시스템(10)은 알려지지 않은 얼굴에 대한 범주를 포함하기 위해 MPNN(42)의 온라인 교육(110)을 수행한다. 편의를 위해, 잇따른 설명은 존속 블록(100)을 충족시키는 알려지지 않은 얼굴 "A"에 대한 온라인 교육에 초점을 둔다. 전술한 것처럼, 얼굴 A의 존속의 결정 중에, 시스템은 비디오 입력(20)을 통해 수신된 이미지의 시퀀스로부터 얼굴 A의 이미지에 대한 다수의 특성 벡터(X_D)를 저장한다. 특성 벡터의 수는 존속 결정 또는 샘플에 사용된 시퀀스에서 얼굴 A 모두에 대한 것일 수 있다. 예를 들어, 얼굴 A의 시퀀스 내의 10개의 이미지에 대한 입력 벡터는 교육 중에 이용될 수 있다.

존속 얼굴 A에 대해, 시스템 처리는 교육 처리(80)로 되돌아오며, 이 경우, 얼굴 A를 포함하기 위해 얼굴 분류기(40)의 MPNN(42)의 온라인 교육(110)으로 되돌아 온다. 예를 들어, 얼굴 A에 대해 온라인 교육에서 사용된 10개의 특성 벡터는 시퀀스 내의 이미지에 대한 모든 입력 벡터로부터의 가장 낮은 변화를 가지는 것일 수 있는데, 즉, 10개의 입력 벡터는 버퍼 내의 평균과 가장 가까운 것을 갖는다. 교육기(80)의 온라인 교육 알고리즘(110)은 MPNN(42)이 각 이미지에 대해 패턴 노드를 갖도록 얼굴 A에 대해 새 범주(FA)를 포함하도록 교육한다.

새 범주(FA)의 온라인 교육은 샘플 얼굴 이미지(70)를 사용하여 MPNN(42)의 초기 오프라인 교육에 대해 유사한 방법으로 진행된다. 전술한 것처럼, 얼굴 A의 이미지에 대한 특성 벡터(X_D)는 이미 블록(35)에서 추출된다. 따라서, 오프라인 교육과 같은 방법으로, 분류기 교육기(80)는 FA의 특성 벡터를 표준화하며, 각각을 MPNN 내의 범주(FA)에 대한 새로운 패턴 노드의 가중 벡터(W)로서 배정한다. 새 패턴 노드는 FA에 대한 범주 노드에 연결된다.

도 6은 새 범주(FA)에 대한 새로운 패턴 노드를 가진 도 2의 MPNN을 도시한다. 새로 추가된 노드는 N개의 범주 및 대응하는 패턴 노드에 추가하며 전술한 알려진 얼굴들을 사용하여 초기의 오프라인 교육 중에 개발된다. 따라서, F1에 대한 첫 번째 패턴 노드에 배정된 가중 벡터(WA₁)는 비디오 입력(20)을 통해 수신된 FA의 제 1 이미지에 대한 표준화된 특성 벡터와 같고; FA에 대한 두 번째 패턴 노드(미도시)에 배정된 가중 벡터(WA₂)는 FA의 제 2 샘플 이미지에 대한 표준화된 특성 벡터와 같으며;...; FA에 대한 n_A번째 패턴 노드에 배정된 가중 벡터(WA_{n_A})는 FA의 n_1번째 샘플 이미지에 대한 표준화된 특성 벡터와 같다. 이러한 온라인 교육에 의해, 얼굴 A는 MPNN에서 "알려진" 얼굴이 된다. MPNN(42)은 이제 후속 비디오 입력(20)에서 얼굴 A가 도 1의 전술한 검출 및 분류 처리를 사용하여 "알려진" 얼굴 인지를 결정할 수 있으며 위에 설명되었다. 다시 후속 비디오 입력(20) 내의 얼굴 이미지(A)는 MPNN의 얼굴 범주(FA)에 대응한다는 점에서 "알려진" 얼굴로 결정될 수 있다는 것이 주목된다. 그러나, 이것은 반드시 얼굴 A의 이름이 시스템(10)에 알려졌다는 관점에서 얼굴이 "식별되었다"는 것을 의미하는 것은 아니다.

입력 비디오(20) 내에 검출되고 전술한 방법으로 시스템(10)에 의해 "알려지지 않은" 것으로 분류된 다른 얼굴들은 마찬가지로 존속 처리(100)에 의해 처리된다. 존속 블록(100)에 적용된 하나 이상의 표준이 다른 얼굴(예, 얼굴 B)에 의해 충족된 경우, 그리고 충족되었을 때, 트레이너(80)는 얼굴 A에 대해 전술한 방법으로 MPNN(42)을 온라인 교육한다(110). 온라인 교육 이후에, MPNN(42)은 얼굴 B에 대한 다른 범주(대응하는 패턴 노드와 함께)를 포함한다. 존속하는 추가적인 알려지지 않은 얼굴(C,D 등)은 유사한 방법으로 MPNN을 온라인 교육하는데 사용된다. 일단 MPNN이 얼굴에 대해 교육되면, 이것은 시스템에 "알려진다". 블록(20)에서 비디오 입력 내의 상기 얼굴의 후속 이미지는 MPNN(42) 내의 상기 얼굴에 대해 새로 생성된 범주에 해당하는 것으로 결정될 수 있다.

전술한 실시예는 시스템 내의 비디오 입력(20)을 이용한다. 그러나, 당업자는 개인 이미지 라이브러리, 이미지 아카이브(archive) 등으로부터 분리된 이미지(예, 사진)를 사용하기 위해 본 명세서에서 설명된 기술을 쉽게 적응시킬 수 있다. 이들은 또한 예를 들어, 다른 검색 소프트웨어를 이용함으로써, 인터넷 상에서 하나 이상의 사이트로부터 다운로드될 수 있다. 비디오 입력(20)에 대한 분리된 이미지의 대체는 당업자에게 즉시 명백해질 전술한 시스템의 일부 적응을 필요로 할 수 있다. (예를 들어, 제공된 이미지가 얼굴로 한정된 경우, 얼굴 검출(30)은 우회될 수 있다.) 이산 이미지의 경우, 다른 표준은 한 얼굴이알려지지 않은 얼굴로 인식되어 온라인 교육 프로세스에 포함되어야 하는지 여부를 결정하는데 적용될 수 있다. 예를 들어, 이러한 한 표준은 새 얼굴이 적어도 최소 회수만큼 나타나는 것이며, 이 횟수는 사용자가 지정할 수 있다. 이로써 이미지에 유사한 "존속 표준"을 제공한다.

이미지에 대해, "두드러짐(prominence)" 유형 표준은 예를 들어, 블록(100)에서 존속 유형 표준에 대한 대안예로서 사용될 수 있다. 예를 들어, 이미지의 세트 중에 특정 얼굴을 포함하는 한 이미지만이 존재할 수 있지만, 이것은 이 이미지에 대한 온라인 교육을 갖는 것이 바람직할 수 있다. 특정 예로서, 워싱턴 D.C.로의 여행 중에 찍은 수백 개의 세트 중에 미국 대통령과 함께 찍은 사용자의 한 사진이 존재할 수 있다. 존속 표준을 적용하면 이 이미지에 대한 온라인 교육을 야기하지 않을 수 있다. 그러나, 예를 들어, 중요한 이러한 많은 단일 얼굴 이미지는 적절히 배치되거나 클로즈-업될 수 있는데, 즉 이들은 이미지에서 "두드러질" 수 있다. 따라서, 온라인 교육은 이미지 내의 알려지지 않은 얼굴의 크기가 미리 결정된 임계값보다 크거나 MPNN(42) 내에 있는 것과 적어도 같은 크기인 경우 발생할 수 있다. 하나 이상의 이러한 두드러진 표준의 적용은 또한 작고 배경 이미지일 수 있는 이미지 내의 이들 얼굴을 제외하는 역할을 할 것이다.

분리된 이미지의 경우 하나 이상의 특징적 표준은 단독으로 또는 하나 이상의 존속 표준과 결합하여 적용될 수 있다는 것이 주목된다. 또한 특징적인 표준은 또한 존속 표준에 대한 대안으로서 또는 존속 표준과 함께, 비디오 입력에 적용될 수 있다는 것이 주목된다.

본 발명이 여러 실시예를 참조로 설명되었지만, 당업자는 본 발명이 도시되고 설명된 특정 형태로 제한되지 않는다는 것을 이해할 것이다. 따라서, 형태와 세부 사항에서의 다양한 변경이 첨부된 청구항에 정의된 본 발명의 정신과 범위를 이탈하지 않고 이루어질 수 있다. 예를 들어, 얼굴 검출(30)에 대해 본 발명에서 사용될 수 있는 많은 대안적인 기술이 존재한다. 종래 기술에 알려진 것과 같은 얼굴 검출의 예시적인 대안 기술은, 패턴 분석과 기계 지능에 관한 IEEE 의사록, 제 20권, 제 1호, p.23-38(1998년 1월)에 게재된, H.A. Rowley 등의 "신경망-기반 얼굴 검출"에서 더 설명된다.

또한, 특성 추출의 다른 기술은 전술한 VQ 히스토그램 기술에 대한 대안예로서 사용될 수 있다. 예를 들어, 잘 알려진 "고유 얼굴" 기술은 얼굴 특성을 비교하기 위해 사용될 수 있다. 더욱이, 예를 들어, 전술한 온라인 교육 기술이 사용될 수 있는, 얼굴 분류에 대한 전술한 MPNN의 대안예로서 사용될 수 있는 PNN 분류의 많은 변형예가 존재한다. 또한, RBF, 순수 베이스 분류기 및 가장 가까운 인접 분류기와 같은 전술한 예시적인 실시예에서 사용된 MPNN 기술에 대한 대안예(또는 이와는 별도의 기술)로서 사용될 수 있는 얼굴 분류의 많은 다른 기술이 존재한다. 적절한 존속 및/또는 두드러짐 표준을 포함하는, 온라인 교육 기술은 이러한 대안적인 기술로 즉시 조정될 수 있다.

또한, 전술한 실시예는 N개의 다른 샘플 얼굴의 이미지로 처음으로 오프라인 교육되어야 할 필요는 없다는 것이 주목된다. 초기 MPNN(42)은 임의의 오프라인 교육된 노드를 갖지 않을 수 있으며, 전술한 방법으로 하나 이상의 존속(또는 두드러짐) 표준에 부합하는 얼굴들로 배타적인 온라인 교육을 받을 수 있다.

또한, 구체적으로 전술한 것들 이외의 존속 표준은 본 발명의 범주에 해당한다. 예를 들어, 얼굴이 비디오 입력에서 존재해야 하는 임계 시간은 비디오 컨텐츠, 비디오 내의 장면 등의 함수일 수 있다. 따라서, 전술한 특정 기술은 단지 예시를 위한 것이며 본 발명의 범위를 제한하기 위한 것이 아니다.

본 발명은, 일반적으로 얼굴 인식에 관한 것이며, 더 구체적으로, 본 발명은 새 얼굴의 온라인 학습을 포함하여, 얼굴 인식의 향상에 관한 것으로서, 얼굴 분류기를 구비한 시스템 등에 이용가능하다.

Claims

얼굴 분류기(40)를 구비한 시스템(10)으로서, 상기 얼굴 분류기(40)는 비디오 입력(20) 내의 얼굴 이미지가 분류기(40)에 저장된 임의의 하나의 알려진 얼굴에 해당하지 않는 경우 알려지지 않은 얼굴이라는 결정을 제공하며, 상기 시스템(10)은 상기 알려지지 않은 얼굴이 하나 이상의 존속 표준(100)에 따라서 비디오 입력(20) 내에 존속할 때 분류기(40)에 상기 알려지지 않은 얼굴을 추가하는, 얼굴 분류기를 구비한 시스템.
제 1항에 있어서, 상기 얼굴 분류기(40)는 개연적 신경망(PNN)(42)을 포함하는, 얼굴 분류기를 구비한 시스템.
제 2항에 있어서, 상기 비디오 입력(20) 내의 얼굴 이미지는 PNN(42) 내의 범주에 해당하는 경우 알려진 얼굴을 포함하는, 얼굴 분류기를 구비한 시스템.
제 3항에 있어서, 상기 시스템(10)은 범주 및 상기 알려지지 않은 얼굴에 대한 하나 이상의 노드(node)를 PNN(42)를 추가함으로써 알려지지 않은 얼굴을 PNN(42)에 추가하여, 이에 따라 상기 알려지지 않은 얼굴을 상기 시스템(10)에 알려지도록 하는, 얼굴 분류기를 구비한 시스템.
제 2항에 있어서, 상기 하나 이상의 존속 표준(100)은 상기 동일한 알려지지 않은 얼굴이 최소 시간 기간동안 상기 비디오 입력에 존재한다는 것을 결정하는 것을 포함하는, 얼굴 분류기를 구비한 시스템.
제 5항에 있어서, 상기 알려지지 않은 얼굴은 상기 비디오 입력(20)에서 추적되는, 얼굴 분류기를 구비한 시스템.
제 5항에 있어서, 상기 하나 이상의 존속 표준(100)은:

a) 상기 비디오 입력(20) 내의 알려지지 않은 얼굴의 시퀀스가 상기 PNN(42)에 의해 결정되며;

b) 얼굴의 시퀀스에 대한 특성 벡터의 평균 확률 분포 함수(PDF) 값은 제 1 임계값 미만이며;

c) 얼굴 시퀀스에 대한 특성 벡터의 분산(variance)은 제 2 임계값 미만이며; 그리고

d) 표준(a,b,c)은 최소 시간 기간동안 충족되는

표준을 포함하는, 얼굴 분류기를 구비한 시스템.
제 7항에 있어서, 상기 최소 시간 기간은 약 10초보다 크거나 같은, 얼굴 분류기를 구비한 시스템.
제 2항에 있어서, 상기 PNN(42)은 임계값을, 알려지지 않은 얼굴인지 여부를 결정하는 범주에 대해 상기 얼굴 이미지에 대한 특성 벡터의 PDF 값에 적용하며, 상기 임계값은 상기 범주의 PDF에 기초하여 결정되는, 얼굴 분류기를 구비한 시스템.
제 9항에 있어서, 상기 임계값은 상기 범주에 대한 PDF의 최대값의 백분율인, 얼굴 분류기를 구비한 시스템.
제 1항에 있어서, 상기 분류기(40)에 저장된 다수의 알려진 얼굴은 오프라인 교육 중에 저장된 얼굴 범주를 포함하는, 얼굴 분류기를 구비한 시스템.
제 1항에 있어서, 분류기(40)에 저장된 모든 알려진 얼굴은 상기 비디오 입력 내에 존속하고 시스템(10)에 의해 분류기(40)로 추가되는 알려지지 않은 얼굴인, 얼굴 분류기를 구비한 시스템.
얼굴 인식 방법으로서,

a) 비디오 입력(20) 내의 얼굴 이미지가 알려진 얼굴의 세트 내의 알려진 얼굴에 해당하는지 여부를 결정하고, 알려진 얼굴이 아닌 경우, 상기 얼굴 이미지가 알려지지 않았다고 결정하는 단계,

b) 상기 알려지지 않은 얼굴은 하나 이상의 존속 표준(100)에 따라 상기 비 디오 입력(20)에 존속하는지 여부를 결정하는 단계, 및

c) 단계 b의 하나 이상의 존속 표준(100)이 충족될 때 상기 알려지지 않은 얼굴을 상기 세트 내에 알려진 얼굴이 되도록 처리하는 단계

를 포함하는, 얼굴 인식 방법.
제 13항에 있어서, 상기 하나 이상의 존속 표준(100)은 상기 동일한 알려지지 않은 얼굴이 최소 시간 기간동안 상기 비디오 입력(20)에 존재하는지 여부를 결정하는 단계를 포함하는, 얼굴 인식 방법.
제 14항에 있어서, 상기 하나 이상의 존속 표준(100)은 최소 시간 기간동안 상기 비디오 입력(20) 내에 알려지지 않은 얼굴의 추적 단계를 포함하는, 얼굴 인식 방법.
제 14항에 있어서, 상기 하나 이상의 존속 표준은:

i) 상기 비디오 입력(20) 내의 알려지지 않은 얼굴의 시퀀스가 존재하며;

ii) 알려지지 않은 얼굴의 시퀀스의 특성 벡터의 평균 확률 분포 함수(PDF) 값은 제 1 임계값 미만이며; 그리고

iii) 얼굴의 시퀀스에 대한 특성 벡터의 분산은 제 2 임계값 미만라는 것

이 최소 시간 기간동안 충족되었다고 결정하는 단계를 포함하는, 얼굴 인식 방법.
제 13항에 있어서, 상기 얼굴이 알려지지 않았다고 결정하는 단계는, 얼굴 범주에 대한 얼굴 이미지에 대한 특성 벡터의 PDF 값이 임계값 미만라고 결정하는 단계를 포함하며, 상기 임계값은 상기 범주의 PDF에 기초한, 얼굴 인식 방법.
제 13항에 있어서, 상기 알려진 얼굴의 세트는 처음에 어떠한 알려진 얼굴도 포함하지 않는, 얼굴 인식 방법.
얼굴 분류기(40)를 구비하는 시스템(10)에 있어서, 상기 얼굴 분류기(40)는, 입력 이미지 내의 얼굴 이미지가 상기 분류기(40)에 저장된 임의의 하나의 알려진 얼굴에 해당하지 않는 경우 알려지지 않은 얼굴이라는 결정을 제공하며, 상기 시스템(10)은 상기 입력 이미지 내의 상기 알려지지 않은 얼굴이 하나 이상의 존속 표준(100) 및 하나 이상의 두드러짐(prominence) 표준 중 적어도 하나에 부합할 때 상기 알려지지 않은 얼굴을 상기 분류기(40)에 추가하는, 얼굴 분류기를 구비하는 시스템.
제 19항에 있어서, 상기 입력 이미지는 이미지 아카이브(archive)에 의해 제공되는, 얼굴 분류기를 구비하는 시스템.
제 19항에 있어서, 상기 제공된 입력 이미지는 하나 이상의 위치에서 찍은 이미지인, 얼굴 분류기를 구비하는 시스템.
제 19항에 있어서, 상기 하나 이상의 존속 표준(100)은 상기 동일한 알려지지 않은 얼굴이 상기 입력 이미지의 최소수로 존재하는지를 결정하는 단계를 포함하는, 얼굴 분류기를 구비하는 시스템.
제 19항에 있어서, 상기 하나 이상의 두드러짐 표준은 알려지지 않은 얼굴이 적어도 하나의 이미지 내의 임계값 크기를 갖는지를 결정하는 단계를 포함하는, 얼굴 분류기를 구비하는 시스템.
제 19항에 있어서, 상기 입력 이미지는 비디오 이미지와 이산 이미지 중 적어도 하나인, 얼굴 분류기를 구비하는 시스템.