KR101304374B1

KR101304374B1 - 객체 특징을 위치결정하는 방법

Info

Publication number: KR101304374B1
Application number: KR1020087026428A
Authority: KR
Inventors: 데이비드 크리스티나쎄; 티모시 프란시스 쿠테스
Original assignee: 도요타 모터 유럽; 더 유니버시티 오브 맨체스터
Priority date: 2006-04-08
Filing date: 2007-04-05
Publication date: 2013-09-11
Also published as: KR20090018037A; EP2005367A1; JP4928601B2; US8594430B2; WO2007116208A1; GB0607143D0; JP2009533724A; US20090116749A1; EP2005367B1

Abstract

타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하는 방법. 이 방법은, 상기 타깃 이미지 내의 특징점들의 세트를 초기화하는 단계 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ; 상기 객체 클래스의 통계적 모델을 이용하여, 상기 특징점들의 세트로부터 템플릿 검출자들(template detectors)의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지의 영역을 포함함 - ; 상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및 상기 비교 결과에 응답하여 상기 타깃 이미지 내의 상기 특징점들의 세트를 업데이트하는 단계를 포함한다.

객체 특징점, 통계적 모델, 특징점 세트, 템플릿 검출자, 위치결정

Description

객체 특징을 위치결정하는 방법{METHOD OF LOCATING FEATURES OF AN OBJECT}

본 발명은 객체 특징을 위치결정(locate)하는 방법에 관한 것이다. 보다 구체적으로, 이에 한정되지는 않지만, 본 발명은 객체 클래스(a class of objects)의 모델(외형 모델(appearance model)이라고도 칭함)을 클래스 내의 객체를 포함하는 타깃 이미지(target image)에 피트(fit)시키는 방법에 관한 것이다.

통계적 외형 모델은 컴퓨터 비전(computer vision)에서 광범위하게 이용되고, 의료 이미지를 해석하는 단계 및 얼굴을 포함하는 이미지를 해석하는 단계를 포함하는 다수의 어플리케이션을 가진다. 다수의 어플리케이션에 대하여, 객체 특징을 위치결정하는 것이 유용할 수 있다. 예를 들어, 얼굴을 포함하는 이미지를 수반하는 어플리케이션에 대하여, 눈의 코너(corner) 및 입의 코너와 같은 얼굴 특징을 위치결정하는 것이 유용할 수 있다.

종래에는, 객체 클래스의 통계적 모델이 이미지, 또는 그 클래스의 객체를 포함하는 이미지의 일부에 걸쳐 명암도(intensity)(그레이스케일(greyscale) 또는 컬러) 및/또는 형상 변화를 표시하도록 형성된다. 얼굴 외형 모델의 경우, 시스템을 트레이닝(train)하기 위하여 트레이닝 이미지(training image)로서 알려져 있는 얼굴 이미지가 이용되고, 그에 따라 모델을 생성한다. 임의의 주어진 얼굴의 변화는 유사한 패턴을 포함하는 경향이 있을 것이고, 모델은 이 패턴을 표시한다. 모델이 형성되었다면, 타깃 이미지 내의 그 클래스 객체의 특징의 위치를 식별하기 위하여(indentify) 모델이 타깃 이미지에 피트될 수 있다.

통계적 외형 모델을 생성하고, 그 모델을 이용하여 얼굴 특징, 또는 이미지 내의 객체의 다른 타입의 특징을 식별 및/또는 인식하는 여러 가지의 공지된 방법이 존재한다. 공지된 제1 모델은 T.F. Cootes, A. Hill, C. J. Taylor, and J. Haslam: "The use of active shape models for locating structures in medical images", Image and Vision Computing, 12(6):276-285, July 1994, and in T.F. Cootes, C. J. Taylor, D. Cooper, and J. Graham: "Active shape models - their training and application", Computer Vision and Image Understanding, 61 (l):38-59, Jan. 1995에 설명된 활성 형상 모델(Active Shape Model : ASM)이다. ASM의 두 설명은 본 명세서에 참조로서 인용된다.

ASM에 의해 이용되는 기본적인 개념은 트레이닝 세트(training set)로부터, 형상의 "합법적" 변화 패턴 및 주어진 이미지의 클래스(이미지의 클래스는 예를 들어, 얼굴 이미지 또는 손 이미지일 수 있음) 내의 구조의 공간적 관계를 확립시키는 것이다. 통계적 분석은 합법적 변화 패턴의 효율적인 파라미터화(parameterisation)를 제공하기 위하여 이용되고, 형상의 간결한 표시를 제공한다. 또한, 통계적 분석은 형상 제약(shape constraint)을 제공하고, 이것은 분석된 이미지 내의 구조의 형상이 대상 객체 클래스의 개연적인 예(plausible example)인지의 여부를 결정하기 위하여 이용된다.

공지된 제2 모델은 T.F. Cootes, G.J. Edwards, and C.J. Taylor: "Active appearance models", In H. Burkhardt and B. Neumann, editors, 5^th European Conference in Computer Vision, volume 2, pages 484-498. Springer, Berlin, 1998에 설명된 활성 외형 모델(Active Appearance Model : AAM)이다. AAM은 형상 및 텍스쳐(texture)의 결합된 통계적 모델을 이용한다. ASM 및 AAM은 모두 영국의 맨체스터 대학(Victoria University of Manchester)에서 개발되었다. 이들 모델 모두는 표준화된 명암도 값의 이용에 기초한다. ASM 및 AAM은 모두 고유 얼굴 모델(Eigen-face model)의 일반화이다. 고유 얼굴 모델은 명암도 값의 이용에 기초한다.

본 발명의 제1 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하는 방법이 제공되고, 이 방법은, 타깃 이미지 내의 특징점 세트를 초기화하는 단계 - 각각의 특징점은 객체 클래스의 객체에 대한 미리 결정된 특징에 대응함 - ; 객체 클래스의 통계적 모델을 이용하여, 특징점 세트로부터 템플릿 검출자(template detector) 세트를 유도하는 단계 - 각각의 템플릿 검출자는 객체 클래스의 객체에 대한 특징점의 위치에 대하여 위치결정된 이미지의 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하는 단계; 및 비교 결과에 응답하여 타깃 이미지 내의 특징점 세트를 업데이트하는 단계를 포함한다.

바람직하게는, 본 발명에 따른 객체 특징을 위치결정하는 방법은, 공지된 기술과 비교된 계산 복잡도(computational complexity)의 상당한 증가를 초래하지 않고, 이미지 시퀀스(sequence)에 대하여 보다 강건한 검출(robust detection) 및 보다 양호한 트래킹(tracking)을 제공한다.

용어 '이미지'는 이미지 또는 대상 이미지의 영역을 의미하기 위한 것이다. 이미지 내의 대상 위치는 선택된 영역일 수 있고, 이것은 식별하는데 유용한 정보를 제공하도록 예상된다.

상기 통계적 모델을 이용하여 유도된 템플릿 검출자 세트는 객체 클래스의 객체를 포함하는 이미지의 영역의 일부만을 집합적으로 표시할 수 있다.

상기 통계적 모델을 이용하여 유도된 템플릿 검출자 세트는 객체 클래스의 객체를 포함하는 이미지의 영역 전체를 집합적으로 표시할 수 있다.

상기 방법은, 업데이트된 특징점 세트로부터 템플릿 검출자 세트를 유도하고, 타깃 이미지와 템플릿 검출자 세트를 비교하고, 특징점 세트를 업데이트하는 단계를 반복하는 단계를 더 포함할 수 있다.

상기 방법은, 특징점 세트를 업데이트 하는 상기 단계 이후에, 각각의 업데이트된 특징점의 위치와 그 이전 위치 사이의 평균 차가 미리 결정된 임계치(threshold) 이하인지의 여부를 결정하는 단계; 및 평균 차가 임계치 이하일 경우, 최종 특징점 세트로서 특징점 세트를 출력하는 단계를 더 포함할 수 있다.

상기 방법은, 트레이닝 이미지의 세트로부터 통계적 모델을 생성하는 단계 - 각각의 트레이닝 이미지는 객체 클래스의 객체를 포함함 - 를 더 포함할 수 있다.

통계적 모델을 생성하는 상기 단계는, 상기 각각의 트레이닝 이미지에 대하여, 트레이닝 이미지 내의 객체의 미리 결정된 특징에 대응하는 트레이닝 이미지 내의 특징점 세트를 식별하는 단계; 및 템플릿 세트를 생성하는 단계 - 각각의 템플릿은 식별된 특징점에 대하여 위치결정된 트레이닝 이미지 내의 이미지 영역을 포함함 - 를 더 포함할 수 있다.

특징점 세트를 식별하는 상기 단계는, 운용자(human operator)가 특징점 세트를 식별하는 단계를 더 포함할 수 있다. 이와 달리, 특징점 세트를 식별하는 상기 단계는 특징점 세트를 자동으로 식별하는 단계를 더 포함할 수 있다.

상기 방법은, 트레이닝 이미지 세트 내의 각각의 트레이닝 이미지에 대한 특징점 세트로부터 트레이닝 이미지 세트에 대한 특징점의 공간적 분포를 표시하는 형상 모델을 생성하는 단계를 더 포함한다.

템플릿 검출자의 세트를 유도하는 상기 단계는, 타깃 이미지에 대한 템플릿 세트를 생성하는 단계 - 각각의 템플릿은 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ; 형상 모델을 이용하여 타깃 이미지 내의 특징점 세트와 가장 근접한 특징점 세트를 식별하는 트레이닝 이미지 세트 내의 트레이닝 이미지 서브세트(subset)를 식별하는 단계; 트레이닝 이미지의 서브세트 내의 각각의 트레이닝 이미지에 대한 템플릿 세트와 타깃 이미지에 대한 템플릿 세트를 상관시키는(correlating) 단계; 트레이닝 이미지 서브세트로부터 타깃 이미지에 대한 템플릿 세트와 가장 상관되는 템플릿 세트를 가지는 트레이닝 이미지를 선택하는 단계; 및 선택된 트레이닝 이미지에 대한 템플릿 세트를 템플릿 검출자 세트로서 설정하는 단계를 더 포함할 수 있다.

상기 방법은, 트레이닝 이미지 세트 내의 각각의 트레이닝 이미지에 대한 특징점 세트로부터 트레이닝 이미지 세트에 대한 특징점의 공간적 분포를 표시하는 형상 모델을 생성하는 단계; 트레이닝 이미지 세트 내의 각각의 트레이닝 이미지에 대한 템플릿 세트로부터 트레이닝 이미지 세트 내의 템플릿 세트에 대한 텍스쳐의 분포를 표시하는 텍스쳐 모델을 생성하는 단계; 및 형상 모델 및 텍스쳐 모델을 결합하여 결합된 형상 및 텍스쳐 모델(a combined shape and texture model)을 형성하는 단계를 더 포함할 수 있다.

템플릿 검출자 세트를 유도하는 상기 단계는, 타깃 이미지에 대한 템플릿 세트를 생성하는 단계 - 각각의 템플릿은 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ; 결합된 형상 및 텍스쳐 모델을 이용하여, 타깃 이미지에 대한 템플릿 세트 및 특징점 세트로부터 모델링된 템플릿 세트를 생성하는 단계; 및 생성된 템플릿 세트를 템플릿 검출자 세트로서 설정하는 단계를 더 포함할 수 있다.

타깃 이미지와 템플릿 검출자 세트를 비교하는 상기 단계는, 타깃 이미지의 각각의 영역과 각각의 템플릿 검출자를 비교하는 단계를 더 포함할 수 있다.

타깃 이미지와 템플릿 검출자 세트를 비교하는 상기 단계는, 타깃 이미지 내의 대응하는 특징점에 대하여 일련의 위치들(positions)에서 타깃 이미지와 별도로(separately) 각각의 템플릿 검출자를 상호 관계시켜, 응답 이미지(response image) 세트가 형성되도록 응답 이미지를 생성하는 단계; 및 비선형 최적화(non-linear optimisation)를 이용하여, 업데이트된 특징점 세트가 생성되도록 각각의 특징점에 대한 최적의 상관의 위치들(positions)를 위치결정하는(locate) 단계 - 상기 업데이트된 특징점 세트는 객체 클래스의 객체에 대한 특징점의 유효 세트(valid set)를 형성함 - 를 더 포함할 수 있다.

특징점 세트를 초기화하는 상기 단계는, 전역 객체 검출자(global object detector)를 이용하여 객체를 포함하는 타깃 이미지 내의 이미지 영역을 식별하는 단계; 및 전역 객체 검출자에 의해 식별된 이미지 영역 내의 평균 특징점 위치로 특징점 세트를 초기화하는 단계를 더 포함할 수 있다.

특징점 세트를 초기화하는 상기 단계는,
각각의 특징점을 포함하는 상기 전역 객체 검출자를 이용하여 식별된 상기 타깃 이미지의 상기 영역 내의 이미지 영역들을 식별하기 위해 특징 검출자들의 세트를 이용하는 단계; 및 특징 영역 검출자에 의해 식별된 이미지 영역 내의 평균 특징 위치로 각각의 특징점을 초기화하는 단계를 더 포함할 수 있다.

상기 방법은, 일련의 타깃 이미지를 포함하는 비디오 시퀀스 내의 객체 특징을 위치결정하는 단계; 제1 타깃 이미지 내의 특징점 세트를 초기화하는 단계; 및 이전의 타깃 이미지로부터의 업데이트된 특징점을 이용하여 이후의 타깃 이미지에 대한 특징점 세트를 초기화하는 단계를 더 포함할 수 있다.

객체 클래스는 사람 얼굴을 포함할 수 있다.

본 발명의 제2 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체의 시각적 외형(visual appearance)을 모델링하는 방법이 제공되고, 이 방법은, 타깃 이미지 내의 특징 점 세트를 초기화 하는 단계 - 각각의 특징점은 객체 클래스의 객체에 대한 미리 결정된 특징에 대응함 - ; 객체 클래스의 통계적 모델을 이용하여, 특징점 세트로부터 템플릿 검출자 세트를 유도하는 단계 - 각각의 템플릿 검출자는 객체 클래스의 객체에 대한 특징점의 위치에 대하여 위치결정된 이미지 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하는 단계; 및 비교 결과에 응답하여 타깃 이미지 내의 특징점 세트를 업데이트하는 단계를 포함한다.

본 발명의 제3 형태에 따르면, 타깃 이미지 내의 사람 얼굴의 시각적 외형을 모델링하는 방법이 제공되고, 이 방법은, 타깃 이미지 내의 특정점 세트를 초기화하는 단계 - 각각의 특징점은 미리 결정된 얼굴 특징에 대응함 - ; 사람 얼굴의 통계적 모델을 이용하여, 특징점 세트로부터 템플릿 검출자 세트를 유도하는 단계 - 각각의 템플릿 검출자는 얼굴 특징의 위치에 대하여 위치결정된 이미지 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하는 단계; 및 비교 결과에 응답하여 타깃 이미지 내의 특정점 세트를 업데이트하는 단계를 포함한다.

본 발명의 제4 형태에 따르면, 전술한 방법을 수행하기 위하여 컴퓨터를 제어하기 위한 컴퓨터 판독가능 코드(computer readable code)를 운반(carrying)하는 캐리어 매체(carrier medium)가 제공된다.

본 발명의 제5 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하기 위한 컴퓨터 장치가 제공되고, 이 장치는 프로세서 판독가능 명령들(processor readable instructions)을 저장하는 프로그램 메모리; 및 상기 프로그램 메모리에 저장된 명령들을 판독(read) 및 실행(execute)하도록 구성된 프로세서를 포함하고, 여기서 프로세서 판독가능 명령들은 프로세서가 전술한 방법을 수행하도록 제어하는 명령들을 포함한다.

본 발명의 제6 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하기 위한 장치를 제공하고, 이 장치는 타깃 이미지 내의 특징점 세트를 초기화하기 위한 수단 - 각각의 특징점은 객체 클래스의 객체에 대한 미리 결정된 특징에 대응함 - ; 객체 클래스의 통계적 모델을 이용하여 특징점 세트로부터 템플릿 검출자 세트를 유도하기 위한 수단 - 각각의 템플릿 검출자는 객체 클래스의 객체에 대한 특징점의 위치에 대하여 위치결정된 이미지 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하기 위한 수단; 및 비교 결과에 응답하여 타깃 이미지 내의 특징점 세트를 업데이트하기 위한 수단을 포함한다.

이하, 첨부한 도면을 참조하여 단지 예로서, 본 발명을 설명할 것이다.

도 1은 본 발명의 실시예에 따른 객체의 특징을 위치결정하는 방법의 흐름도이다.

도 2는 본 발명의 실시예에 따른 통계적 모델을 생성하기 위하여 이용되는 일련의 트레이닝 이미지로부터의 4개의 예시적인 이미지를 예시하는 도면이다.

도 3은 본 발명의 제1 특정 실시예에 따른 타깃 이미지 내의 특징을 위치결정하는 방법을 흐름도 형식으로 예시하는 개략도이다.

도 4는 본 발명의 제2 특정 실시예에 따른 타깃 이미지 내의 특징을 위치결정하는 방법을 흐름도 형식으로 예시하는 개략도이다.

도 5는 도 4의 실시예에 따른 형상 모델에 대한 변화 모드를 예시하는 개략 도이다.

도 6은 도 4의 실시예에 따른 텍스쳐 모델에 대한 변화 모드를 예시하는 개략도이다.

도 7은 도 4의 실시예에 따른 결합된 형상 및 텍스쳐 모델에 대한 변화 모드를 예시하는 개략도이다.

도 8a 및 8b는 공적으로 이용 가능한 제1 및 제2 데이터 세트로부터 각각 도시된 정적 이미지에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 정적 이미지에 대한 특징점 국소화에 대하여 도 3 실시예의 성능을 예시하는 도면이다.

도 9a 및 9b는 공적으로 이용 가능한 제1 및 제2 데이터 세트로부터 각각 도시된 정적 이미지에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 정적 이미지에 대한 특징점 국소화에 대하여 도 4 실시예의 성능을 예시하는 도면이다.

도 10은 타깃 이미지가 첨가된 타깃 이미지에 대한 최종 특징 위치에 수렴하는 도 3의 실시예에 대한 템플릿 검출자를 예시하는 개략도이다.

도 11은 타깃 이미지가 첨가된 타깃 이미지에 대한 최종 특징 위치에 수렴하는 도 4의 실시예에 대한 템플릿 검출자를 예시하는 개략도이다.

도 12는 본 발명의 실시예를 테스트하기 위하여 이용되는 3개의 비디오 시퀀스로부터의 예시적인 프레임을 예시하는 도면이다.

도 13은 비디오 시퀀스에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 도 12에서 예시되는 3개의 비디오 시퀀스의 각각에 대한 특징점 국소화에 대하여 도 3 실시예의 성능을 예시하는 도면이다.

도 14는 비디오 시퀀스에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 도 12에서 예시된 3개의 비디오 시퀀스의 각각에 대한 특징점 국소화에 대하여 도 4 실시예의 성능을 예시하는 도면이다.

본 명세서에 설명된 본 발명의 실시예에서, 눈동자 또는 입의 코너와 같은 얼굴 특징의 자동 위치결정은 정적 및 비디오 어플리케이션 모두에 제공된다. 사람의 얼굴에 적용되는 경우, 본 발명의 실시예는 일부의 종래 기술 알고리즘보다 더 강건하고 더 정확하게 나타낸다.

종래 기술 AAM은 형상 변화도(shape variability)에 대해 교정하기 위하여 이미지를 첫 번째 워핑(warping)한 후에, 이미지 내의 객체와 교차하여 명암도 내의 변화의 통계적 모델링을 이용한다. 외형 모델은 객체 주위의 대상 영역 내의 이미지 구조를 표시한다. 일반적으로, AAM의 경우, 이것은 모든 객체 또는 일부의 객체를 커버(cover)하는 2D 영역이다.

AAM은 2 단계(two-step) 프로세스를 수반한다. 첫째로, 외형 모델은 주어진 클래스 객체를 위하여 형성된다. 둘째로, 객체의 동일한 클래스의 객체를 위치결정하기 위하여 타깃 이미지가 검색된다. 모든 모델 형성 및 이미지 검색 도중에, 대상 이미지는 각각의 대상 영역을 통해 샘플링된다. 샘플값(sample value)은 각각의 영역 내의 이미지 구조를 표시하는 벡터 내에 배치된다. 모델과 타깃 이미지 사이의 텍스쳐의 차 즉, 각각의 점에서의 이미지 명암도 차는 최적의 가능한 매 치(match)를 얻도록 향상된 모델 파라미터를 예측하기 위하여 이용된다.

본 발명의 실시예는 템플릿 검출자 세트를 생성하는데 기초하고, 템플릿 검출자를 이용하여 그 타깃 이미지 내의 객체에 대한 정확한 특징 위치를 향한 디폴트 위치(default position)로부터의 타깃 이미지 내의 특징 위치(예를 들어, 얼굴 특징 위치)를 반복적으로 향상시킨다. 템플릿 검출자 세트는 이미지 패치(image patch) 세트를 포함하고, 각각의 이미지 패치는 특징 위치에 대응한다. 각각의 템플릿 검출자는 그 대응하는 특징 위치의 현재 위치에 대하여 타깃 이미지 영역 내의 타깃 이미지와 상관된다.

본 발명의 특정 실시예는 본 명세서에서 템플릿 선택 트래커(Template Selection Tracker : TST) 또는 템플릿된 활성 외형 모델(Templated Active Apperance Model : TAAM)이라 칭한다. 이 용어는 발명의 범위를 임의의 방식으로 제한하는 것으로서 해석되어서는 안된다. 발명의 범위는 설명을 고려하여 본 명세서에 첨부된 청구범위에 의해 정의된다.

이하, 개요에서 본 발명의 실시예를 설명한다. 설명한 방법은 도 1에 도시된 2개의 단계를 포함한다.

초기 트레이닝 단계(단계(S1)) 동안, 예시적인 트레이닝 이미지의 트레이닝 세트로부터 모델이 생성되고, 각각의 이미지는 객체 클래스의 객체를 표시한다. 트레이닝 세트 내에 대략 1000개의 이미지가 존재할 수 있다. 일반적으로, 이 트레이닝 이미지는 트레이닝 이미지 사이의 대응하는 특징을 정의하는 특징점을 수동으로 레이블(label)한다. 객체 클래스가 사람 얼굴인 본 발명의 하나의 실시예에서, 트레이닝 세트 내의 각각의 이미지는 미리 결정된 특징에 대응하는 22개의 특징점(예를 들어, 눈의 코너 및 입의 코너)으로 수동으로 레이블된다. 본 발명의 또 다른 실시예에서, 트레이닝 이미지는 특징점으로 자동으로 레이블될 수 있다.

각각의 특징점 주위에서, 이미지의 표준화된 부분(또는 템플릿)이 샘플링된다. 템플릿은 트레이닝 세트 이미지 사이의 스케일 변화를 설명하는 객체의 미리 결정된 치수 예를 들어, 얼굴 이미지에 대한 눈의 중심 사이의 거리에 관계하여 샘플링된다. 트레이닝 세트 내의 텍스쳐 정보(즉, 템플릿과 교차하는 픽셀 명암도 변화) 및 형상 정보(즉, 각각의 이미지에 대한 특징점의 분포)는 모델을 생성하기 위하여 이용된다.

제2 객체 식별 단계(단계(S2)) 동안, 생성된 모델을 타깃 이미지(즉, 트레이닝 이미지 세트 내에 포함되지는 않지만, 동일한 객체 클래스로부터의 이미지)에 피트시키기 위한 시도(attempt)가 이루어지고, 그에 따라 타깃 이미지 내의 동일한 클래스 객체에 대한 미리 결정된 특징의 위치를 위치결정한다. 본 발명의 실시예는 타깃 이미지 내의 미리 결정된 특징을 자동으로 위치결정하는 것을 시도한다.

이미지 식별 단계의 제1 단계는 이미지 내의 객체를 위치결정하는 것이다. 얼굴에 대해서는, 본 명세서에 참조로서 인용되는 공지된 Viola and Jones face detector described in Viola, P., Jones, M: "Rapid object detection using a boosted cascade of simple features", In.: Computer Vision and Pattern Recognition Conference 2001. Volume 1., Kauai, Hawaii (2001) 511-518과 같은 표준 얼굴 검출자(standard face detector)가 이용된다.

Viola 및 Jones 얼굴 검출자를 적용시켜, 객체 식별 단계는 2개의 서브 단계(sub-step) 즉, 템플릿 선택 단계(S3) 및 형상 제약된 검색 단계(S4)를 포함하고, 이들 모두는 이하의 본 발명의 특정 실시예를 참조하여 보다 상세하게 설명할 것이다.

단계(S1)의 초기 트레이닝에 의해 생성된 모델은 단계(S2)의 객체 식별 단계(본 발명의 특정 실시예를 참조하여, 이하에서 보다 상세히 설명할 것임)동안, 동일한 객체 클래스로부터의 객체를 포함하는 타깃 이미지 내의 실제 특징점을 위치결정하는데 이용하기 위한 특징 템플릿 검출자 세트를 생성하기 위해 이용된다.

템플릿 검출자가 타깃 이미지에 적용될 경우, (템플릿 검출자당 하나의) 응답면(response surface)의 세트가 생성된다. 각각의 템플릿 검출자는 현재 추정된 특징 위치에 대하여 위치의 범위에서 타깃 이미지와 별개로 상관된다. 각각의 응답면은 현재 특징점에 대하여 각각의 픽셀 위치에서 그 특징점 및 타깃 이미지에 대한 템플릿 검출자 사이의 교정 결과를 포함한다. 응답면의 세트는 (예를 들어, 본 명세서에 참조로서 인용되는 D. Cristinacce and T. Cootes: "A comparison of shape constrained facial feature detectors" In 6^th International Conference on Automatic Face and Gesture Recognition 2004, Seoul, Korea, pages 375-380, 2004에 설명된) 비선형 최적화 기술을 이용하여 향상된 특징점 위치를 계산하기 위하여 이용된다. 최적화 기술은 위치가 모델 내의 "합법적" 예시에 대응한다는 것을 보장하기 위하여, 특징점이 형상 변화에 대한 정보를 모델링함으로써 부과된 제약에 영향을 받기 쉽다는 것을 보장한다.

업데이트된 특징점은, 다음 반복(next iteration)에서 새로운 템플릿 검출자 세트를 생성하기 위하여 현재 특징점으로서 이용되거나, 그것이 본 발명의 실시예의 이전 반복(preceding iteration)으로부터의 특징점에 근접하여 놓여있다는 것이 발견될 경우, 최종 특징점으로서 출력된다.

이하, 본 발명의 2개의 실시예를 보다 상세하게 설명할 것이다.

본 발명의 제1 실시예는 템플릿 선택 트래커 알고리즘(Template Selection Tracker algorithm : TST)이라 칭한다. TST 알고리즘은 트레이닝 이미지 세트, 및 (이하에서 보다 상세하게 설명할 것인) 초기 트레이닝 단계 동안 수동으로 레이블된 얼굴 이미지 세트로부터 학습된 템플릿 세트로부터 생성된 형상 모델을 이용한다. 이미지 식별 단계 동안, TST 알고리즘은 2개의 단계 즉, 템플릿 선택 단계 및 형상 제약된 검색 단계를 포함한다.

템플릿 선택 단계 동안, TST 알고리즘은 타깃 이미지의 현재 특징점을 이용하여, 형상 모델을 타깃 이미지로 피트시키는 것을 시도한다. 새로운 타깃 이미지에 대하여, 특징점은 디폴트 위치로 초기화된다. 형상 공간(shape space) 내의 유클리드 거리(Euclidean distance)는 예시적인 트레이닝 이미지의 가장 가까운 이웃 검색(neighbour search)을 수행하도록 이용된다. 즉, 타깃 이미지의 현재 특징점과의 가장 근접한 공간적 상관을 가지는 트레이닝 이미지의 서브세트를 식별하기 위하여, 타깃 이미지의 현재 특징점은 트레이닝 세트 내의 각각의 이미지와 순차적으로 비교된다. 트레이닝 이미지의 서브세트는 대략 20개의 트레이닝 이미지일 수 있다. 트레이닝 세트로부터 가장 근접한 템플릿 텍스쳐 매치를 선택하기 위하여, 형상에 의해 선택된 트레이닝 이미지의 서브세트는 현재 타깃 이미지와 상관된다. 즉, 트레이닝 이미지 중의 어느 것이 타깃 이미지에 가장 근접한 텍스쳐 매치(textural match)를 가지는지를 식별하기 위하여, 트레이닝 이미지의 서브세트의 각각에 대한 텍스쳐 템플릿은 타깃 이미지 템플릿과 상관된다.

가장 근접한 매칭 트레이닝 이미지가 식별되면, 그 트레이닝 이미지에 대한 템플릿은 타깃 이미지 내의 특징점을 검색할 시에 템플릿 검출자로서 이용된다. 타깃 이미지의 현재 특징점을 향상시키기 위하여, 템플릿 검출자는 형상 제약된 검색 단계에서, 표준화된 교정을 이용하여, 타깃 이미지와 상관된다. 형상 제약된 검색 단계는 본 명세서에서 참조로서 인용되는 D. Cristinacce and T. Cootes: "A comparison of shape constrained facial feature detectors", In 6^th International Conference on Automatic Face and Gesture Recognition 2004, Seoul, Korea, pages 375-380, 2004 내에 설명된 것과 유사하다.

상기 참조된 문헌에 설명된 검색 방법에서, 검색 중에 특징 템플릿이 고정된다. 그러나, 상기 본 발명의 실시예에서는, 현재 특징점 및 타깃 이미지로부터 적절한 템플릿 검출자가 생성되는 곳에서 반복 스킴(iteration scheme)이 구현된다. 또한, 하드 리미트(hard limit)를 이용하여 제약되는 형상 모델 파라미터 대신에, 형상 모델 파라미터가 비선형 최적화 함수에 소프트 페널티 항(soft penalty term) 을 추가시킴으로써 제약된다. 소프트 페널티 항은 형상을 방해하고, 이것은 통계적 형상 모델에 따른 발생 사건(occurrence)의 낮은 확률을 가진다.

검색 방법은 활성 형상 모델에도 관계된다. 그러나, 다시, ASM은 각각의 검출자에 대한 전체 응답면을 이용하는 대신에, 고정된 템플릿을 이용하고, 형상 모델만을 이용하여 각각의 검출자의 최적의 매치를 계산한 후에 특징점을 업데이트한다.

템플릿 검출자는 각각의 템플릿 검출자의 각 특징점을 둘러싸고 있는 타깃 이미지 영역에 대하여 증분적으로 이동된다. 표준화된 교정은 응답면의 세트를 생성한다. 모델의 피트의 품질(즉, 타깃 이미지 내의 실제 특징점에 관계된 현재 특징점의 위치의 정확도)은 공지된 방법을 이용하여 최적화된다. 특히, 모델의 피트 품질은 (본 명세서에서 참조로서 인용되는 J. A. Nelder and R. Mead: "A simplex method for function minimization", Computer Journal, 7:308-313, 1965에서 설명된) Nelder-Mead 심플렉스 알고리즘을 이용하여 최적화된다. Nelder-Mead 심플렉스 알고리즘은 각각의 점에서의 응답의 합을 최대화하기 위하여 즉, 타깃 이미지와 각각의 템플릿 검출자 사이의 가장 강한 교정의 위치를 위치결정하기 위하여, 형상 모델의 파라미터를 구동시킨다. 이것은 새롭고, 향상된 타깃 이미지에 대한 특징점 세트를 생성한다. 현재 특징점이 타깃 이미지 내의 고정된 위치에 수렴되면, 프로세스는 종료한다. 현재 특징점이 타깃 이미지 내의 고정된 위치에 수렴되지 않으면, 새로운 템플릿 선택 단계에서 새로운 템플릿 검출자가 생성된다.

얼굴을 포함하는 타깃 이미지가 첫 번째 제공될 시에, 전술한 바와 같은 타 깃 이미지 내의 얼굴을 검색하기 위하여 Viola 및 Jones 얼굴 검출자가 이용된다. 검출된 얼굴 영역 내에서는, 본 명세서에서 참조로서 인용되는 Felzenszwalb, P., Huttenlocher, D: "Pictorial structures for object recognition" International Journal of Computer Vision 61 (2005) 내에 설명된 그림 구조 매칭(Pictorial Structure Matching : PSM) 방법을 이용하여 제약된, 보다 작은 Viola 및 Jones 특징 검출자가 초기의 추정된 특징 위치를 계산하기 위하여 이용된다.

이하, 템플릿 선택 트래커 알고리즘을 보다 상세하게 설명할 것이다.

(도 1의 단계(S1)에서) 결합 형상(joint shape) 및 텍스쳐 모델을 형성하기 위하여, 이미지 트레이닝 세트는 우선 다수의 특징점과 레이블링되어야 한다. 도 2는 트레이닝 세트로부터의 4개의 예시적인 이미지를 나타낸다. 트레이닝 세트는 얼굴을 포함하는 다수의(예를 들어 1052개의) 트레이닝 이미지를 포함한다. 트레이닝 이미지는 각도의 범위 및 조명 조건의 범위에서 취득될 수 있다. 각각의 트레이닝 이미지(1)는 식별 가능한 얼굴 특징에 대응하는 (하얀 십자표시로 나타낸) 특징점(2)으로 레이블된다.

통계적 형상 모델은 본 명세서에 참조로서 인용되는 T. Cootes, G. J. Edwards, and C. J. Taylor: "Active appearance models", In 5^th European Conference on Computer Vision, pages 484-498. Springer, June 1998 내에 설명된 공지된 방법을 이용하여 트레이닝 세트로부터 형성된다. 각각의 트레이닝 이미지는 트레이닝 이미지 내의 각각의 특징점의 좌표를 연관시킴으로써 형성된 n차원 형상 벡터(x)에 의해 표시된다.

주 성분 분석(Principal Component Analysis : PCA)을 이용하여, 각각의 형상 벡터(x)는 다음과 같은 형태의 선형 모델에 의해 근사치될 수 있다.

(1)

는 평균 형상이고, P는 형상 변화의 직교 모드 세트이며, b는 각각의 트레이닝 이미지에 대한 형상 파라미터의 세트이다. 이것은 트레이닝 세트와 유사한 형상의 파라메티제이션(parametisation)(b)을 제공한다. 형상 모델 파라미터(b)는 전치 행렬(transpose matrix)(P^T)을 이용하여 새로운 형상에 대하여 추정될 수 있다.

객체 클래스의 새로운 예(즉, 본 예에서의 새로운 얼굴)는 트레이닝 세트에서 발견된 범위 내의 b의 값을 선택함으로써 생성될 수 있다.

도 2에 도시된 트레이닝 세트 내의 각각의 이미지에 대하여, 직사각형 템플릿은 각각의 레이블된 특징점 주위에 도시된다. 템플릿은 각각의 특징점에 대하여 국소화된 영역 내의 이미지에 대한 텍스쳐(즉, 명암도 변화) 정보를 포함한다. 템플릿은 (눈 중심 사이의 표준화된 거리에 관계하여 표준화함으로써와 같이) 스케일에 대하여 표준화된다. 각각의 템플릿의 평균 명암도는 조명 조건의 변화를 설명하도록 표준화될 수도 있는데, 이것 하에 이미지는 레코딩된다. 특징 템플릿은 각각 의 트레이닝 이미지에 대하여 계산되고, 그 트레이닝 이미지에 대한 대응하는 형상 모델 파라미터(b) 쪽에 저장된다.

도 1의 단계(S2)의 객체 식별 단계는 도 3의 흐름도에 개략적으로 예시된다. 객체 식별 단계(S2)의 처음에는, 타깃 이미지(즉, 얼굴의 경우 - 트레이닝 세트 내에 포함되지 않고, 트레이닝 세트로서 동일한 클래스의 객체를 포함하는 새로운 이미지)가 식별된다. 객체를 포함하는 타깃 이미지 영역을 식별하기 위하여 전술한 Viola 및 Jones 얼굴 검출자가 이용될 수 있다.

객체 식별 단계는 템플릿 선택 단계(S3) 및 형상 제약된 검색 단계(S4)를 통해 사이클링함으로써 특징점이 반복적으로 향상되는 (상기 논의한 바와 같은) 반복 프로세스이다. 초기에, 타깃 이미지는 단계(S5)에서 임의의 시작 특징점(arbitrary starting feature point)을 제공받아야 한다. 시작점은 (얼굴 검출자를 수동으로 레이블된 검증 이미지(verification image)의 세트에 적용시킴으로써 학습된) Viola 및 Jones 얼굴 검출자에 의해 검출된 영역에 관계된 평균 특징점일 수 있고, 그것은 임의의 다른 디폴트 위치일 수 있다. 이와 달리, (전체 얼굴 영역에 대립되는 것으로서) 개개의 얼굴 특징 상에 트레이닝된 Viola 및 Jones 검출자는 초기 시작점을 제공하기 위하여 이용될 수 있다. 얼굴이 비디오 시퀀스 내의 하나의 프레임으로부터 다음 프레임으로 트래킹되는 어플리케이션에 대하여, 시작점은 (디폴트 특징점으로써 초기화시키는 단계를 요구하는, 첫 번째 프레임을 제외한) 마지막 프레임에 대한 최종 특징점일 수 있다.

단계(S6)에서는, 타깃 이미지 상의 현재(즉, 초기 디폴트) 특징점의 형상 정 보 및 각각의 특징점 주위의 템플릿 내의 텍스쳐 정보가 샘플링된다. 그 후, 프로세스는 템플릿 선택 단계(S3)로 진행한다.

TST 알고리즘에 대한 템플릿 선택 단계(S3)는 가장 가까운 이웃 선택 단계(S7)를 포함한다. 단계(S6)로부터 현재 특징점 및 텍스쳐가 주어지면, 유사한 특징 템플릿 세트는 트레이닝 세트 내의 트레이닝 이미지의 가장 가까운 이웃 검색을 이용하여 생성될 수 있다. 형상 모델은 현재 형상 파라미터(b)를 얻기 위하여 현재 특징점에 피트된다. 그 후, 이 파라미터는 트레이닝 세트 내의 각각의 이미지에 대한 저장된 형상 파라미터(b)와 비교된다. 형상 공간 내의 유클리드 거리를 이용하여 트레이닝 세트로부터의 K개의 가장 근접한 매칭 형상이 선택된다. 이러한 방식으로, 트레이닝 세트는 우선 타깃 이미지 내의 현재 특징점과 각각의 트레이닝 이미지에 대한 형상 정보를 비교함으로써, 트레이닝 이미지의 서브세트로 감소된다.

그 후, 표준화된 교정을 이용하여, 단계(S6)의 타깃 이미지로부터 얻은 특징점에 대한 텍스쳐 템플릿에 대하여, 각각의 트레이닝 이미지에 대한 텍스쳐 템플릿을 비교함으로써 형상 모델에 의해 선택된 주요한(top) K개의 트레이닝 이미지가 테스트된다. 이 프로세스는 그 템플릿이 타깃 이미지 내의 현재 특징점 주위의 템플릿에 가장 근접하게 매치하는 트레이닝 이미지의 서브세트로부터 트레이닝 이미지를 선택한다. 그 후, 형상 제약된 검색 단계(S4)에의 이용을 위하여, K개의 트레이닝 이미지의 서브세트로부터 최적으로 매치하는 트레이닝 이미지 템플릿은 각각의 얼굴 특징에 대한 템플릿 검출자를 제공하기 위하여 이용된다.

초기(또는, 이후 반복에서의, 현재의) 특징점이 주어지면, 이 중의 일부는 타깃 이미지에 대한 실제 특징점에 모일 수 있고, 이 가장 가까운 단순한 이웃 검색은 트레이닝 세트 내의 템플릿으로부터 템플릿 검출자의 알맞은 후보 세트(candidate set)(즉, 단일 이미지로부터 취득된 템플릿 세트)를 생성할 것이다.

파라미터 K(형상 모델에 의한 전체 트레이닝 세트로부터 식별된 서브세트 내의 트레이닝 이미지의 수)는 설정되는 것이 필요하다. 1052개의 트레이닝 이미지의 트레이닝 세트에 대하여, K = 20은 양호한 결과를 제공하기 위하여 발견되었다.

타깃 이미지 내의 현재 특징점의 위치를 향상시키기 위하여, 트레이닝 세트로부터 템플릿 선택 단계(S3)에서 선택된 템플릿 검출자가 형상 제약된 검색 단계(S4)에서 이용된다. 템플릿 검출자는 단계(S8)에서 타깃 이미지에 적용되어, 단계(S9)에서 응답면의 세트(각각의 특징에 대한 하나)를 계산한다. 각각의 템플릿 검출자는 그 검출자에 대응하는 현재 특징점 주위 영역에 걸쳐 조직적으로 스캐닝된다. (템플릿 검출자의 각각의 위치에서의) 특징 템플릿 검출자와 타깃 이미지 사이의 표준화된 교정은 응답값을 제공한다. 응답값은 각각의 템플릿 검출자에 대한 응답면 이미지 내에 저장된다. 각각의 템플릿 검출자가 타겟 이미지에 적용된 이후, 이것은 응답면의 세트를 제공한다.

높은 응답면의 값을 가지는 특징점 위치를 표시하는 형상 파라미터를 선택하기 위하여, 형상 파라미터 최적화 단계(S10)는 형상 모델을 현재 특징점으로 피트시키고 형상 파라미터를 변경시키려고 하지만, 여전히 "합법적" 형상 구성을 표시한다.

(X_i, Y_i)를 (i가 인덱스인) 타깃 이미지 내의 특징점(i)의 위치로 하고, I_i(X_i, Y_i)를 그 점에서의 i번째 특징점의 응답 이미지의 값으로 하자. 위치는 다음의 벡터(X)로 연관될 수 있다.

(2)

통계적 형상 모델은 T F Cootes, A Hill, C J Taylor and J Haslam: "The use of active shape models for locating structures in medical images", Image and Vision Computing 12(6): 276-285, July 1994 내에 설명된 기술을 이용하여 타깃 특징점(X)에 피트된다.

형상 모델 피팅(shape model fitting)은 형상 모델 파라미터(b) 및 형상 모델 프레임으로부터 타깃 이미지 프레임으로의 변환(transformation)(T_t)을 제공한다. 변환(T_t)은 파라미터(t)를 가지는 유사 변환(similarity transform)(즉, 스케일, 번역(translation) 및 회전으로 제한됨)이다.

특징점(X)의 새로운 세트를 생성하기 위하여, X는 형상 파라미터(b) 및 다음과 같은 유사 변환(T_t)으로부터 근사치될 수 있다.

(3)

X의 시작 파라미터(starting parameter)가 통계적 모델에 의해 잘 표시될 경우,

이다. 유사 변환(t)의 파라미터 및 형상 파라미터(b)는 하나의 결합된 벡터(p)를 형성하도록 연관된다.

(4)

따라서, 미리계산된 응답면(I_i(X_i, Y_i))을 가지는 타깃 이미지(X') 내의 특징점 세트는 p의 함수로서 표시될 수 있다. p에 대하여 초기 시작 값이 주어지면, 이미지 응답면(I_i) 및 트레이닝 세트로부터 학습된 통계적 형상 모델에 기초하여 함수 f(p)를 최적화함으로써 검색이 진행된다. 이용되는 함수는 다음과 같다.

(5)

제2 항은 주어진 형상 파라미터(b_j) 및 고유값(λ_j)의 로그-우도(log-likelihood)의 추정값이고, 여기서 로그-우도는 통계적 형상 모델에 따른 b에 의해 표시된 주어진 형상의 개연성(plausibility)의 측정값이며, 형상 파라미터(b_j)가 독 립적이고 가우시안 분포(Gaussian distributed)되었다는 점을 가정한다. 파라미터(R)는 템플릿 검출자와 타깃 이미지 사이의 개연적인 형상 및 상관 관계의 품질의 상대적 중요성을 결정하는 가중치(weighting)이다. 예를 들어, R = 0에 대하여, 함수는 형상을 무시하고, 특징의 임의의 구성를 선택한다. R의 보다 큰 값에 대해서는, 고품질 검출자 응답의 대신에 개연적인 형상 구성이 부여된다. (도 2에 도시된 트레이닝 세트 이미지와 유사한) 수동으로 레이블된 특징점을 가지는 이미지의 검증 세트에 적용될 시에, f(p)의 제1 및 제2 항의 비율을 계산함으로써 R의 지각 가능한 값(sensible value)이 결정될 수 있다.

방정식(5)은 전술한 공지된 Nelder-Meade 심플렉스 알고리즘을 이용하여 단계(S10)에서 최적화된다.

방정식(5)은 공지된 형상 제약된 얼굴 특징 검출자에 이미 이용된 객체 함수와 상이하고, 이것은 형상 파라미터(b_j) 상에서 하드 리미트를 이용하였다. 하드 리미트를 이용하는 것은 형상과 특징 응답 사이의 트레이드 오프(trade off)에 대한 필요성을 회피하는 이점을 가진다. 그러나, (예를 들어, 모든 형상 파라미터(b_j)가 그 개개의 리미트에 근접할 경우) 하드 리미트를 이용하는 것은 가능성 없는 형상을 허용할 수 있으며, 이것이 단점이다.

본 발명의 특정 실시예에서, 추가된 상세화(refinement)는 응답면을 스무드(smooth)하게 하기 위한 거리 변환의 이용이다. 템플릿 검출자 응답에 적용될 시에, 거리 변환은 본 명세서에 참조로서 인용되는 P Felzenszwalb, D Huttenlocher: "Pictorial structures for object recognition", International Journal of Computer Vision, 61 (2005) 내에 설명된 바와 같은 여러 쌍의 특징 검출자 사이의 변형 가능한 형상 변화를 허용한다. 응답 이미지의 스무딩(smoothing)은 방정식(5)의 최적화가 잘못된 최소치(false minima)를 피하도록 돕고, 또한 나머지 변화를 설명한다. 형상 모델에 의해 설명되지 않은 형상 변화는 거리 변환에 의해 고려된다.

단계(S10)에서의 방정식(5)의 최적화 결과는 타깃 이미지에 대한 단계(S11)에서의 업데이트된 특징점 세트이다. 결정 단계(S12)에서, 단계(S11)로부터 업데이트된 점은 이전 반복과 비교하여 점 이동(point movement)에 대한 임계치를 이용하여 수렴(convergence)에 대해 검사된다. 즉, 특징점이 상당히 이동하지 않았을 경우, 그것은 수렴된 것으로 간주된다. 타깃 이미지에 대한 특징점이 수렴되었을 경우, 단계(S11)로부터의 업데이트된 점은 단계(S13)에서의 최종점으로서 TST 알고리즘으로부터 출력된다. 특징점이 수렴되지 않았을 경우, S11로부터의 업데이트된 점은 S6에서 현재 특징점으로서 저장되고, 타깃 이미지로부터의 새로운 템플릿은 현재 특징점에 대하여 선택된다. 그 후, 템플릿 선택 단계는 다시 실행된다.

본 발명의 제2 예시적인 실시예는 제1 예시적인 실시예에 대하여 유사하다. 따라서, 일반적으로, 단지 알고리즘의 차는 공통성(commonality)의 영역에 대하여 상기의 설명에서 이루어진 참조로써, 상세하게 설명될 것이다.

본 발명의 제2 실시예는 탬플릿 활성 외형 모델(Templated Active Apprearance Model : TAAM)로서 본 명세서에 참조된다.

TAAM 알고리즘은 공지된 활성 외형 모델에 관계된다. 첫 번째 중요한 차이점은 TAAM 모델이 각각의 특징점에 대하여 위치결정된 이미지 부분(또는 템플릿)의 형상 및 텍스쳐 변화의 결합된 모델을 포함한다는 점이다. 트레이닝 이미지 중의 각 하나에 대한 명암도 및 형상 정보는 벡터로 로드(load)될 수 있으며, 그 후 이것은 모델을 생성하기 위하여 이용된다. TST와 같은 본 발명의 또 다른 실시예에서는, 이 단계가 발생하지 않는다.

반대로, AAM 알고리즘은 전체 객체 영역을 통해 형상 및 텍스쳐 변화로부터 모델을 생성한다. 얼굴은 모델링하는 것을 예로 들어, AAM 알고리즘은 특징점 사이의 위치결정된 일련의 삼각형으로 얼굴을 분리시키고, 그 후 각각의 삼각형 전체에 걸쳐 형상 및 텍스쳐 변화를 모델링한다. 이에 반해, TAAM 알고리즘은 특징 템플릿을 생성할 가능성이 있고, AAM 알고리즘은 전체 객체 영역에 대한 이미지 픽셀을 근사치하는 것을 시도한다.

조인트 모델(joint model)을 이용하여 새로운 템플릿 검출자를 생성함으로써, 모델은 반복 방식(iterative manner)으로 타깃 이미지에 피트된다. 현재 파라미터는 (본 발명의 TST 실시예에 관한 템플릿 검출자로서 이용하기 위하여 트레이닝 세트로부터 실제 템플릿을 선택하기 보다) 타깃 이미지를 추정한다. 본 발명의 TST 제1 실시예에 관하여, 템플릿 검출자는 타깃 이미지와 상호 관련되어 응답 이미지를 생성하고, 형상 파라미터는 응답의 합을 최대화하도록 최적화된다.

본 발명의 제2 실시예는 도 4의 흐름도 형식으로 개략적으로 예시된다. 본 발명의 제1 실시예에 대한 그것과 동등한 단계는 도 3에 관하여 동일한 번호로 제 공되며, 상세하게 설명되지 않는다.

본 발명의 제1 실시예와는 달리, 트레이닝 세트 내의 가장 근접한 단일 이미지를 식별하기 위하여 가장 가까운 이웃 선택을 수행하는 대신에 템플릿 선택 단계(S3) 도중에, 제2 실시예는 형상 및 텍스쳐 모델을 이용하여 형상 제약된 검색 단계(S4)에서의 템플릿 검출자로서의 이용을 위한 새로운 이미지 템플릿을 생성한다.

템플릿 생성 방법은 본 명세서에서 참조로서 인용되는 N Dowson, R Bowden: "Simultaneous modelling and tracking (SMAT) of feature sets", International Conference on Computer Vision and Pattern Recognition, San Diego, USA, June 2005에 설명된 공지된 기술에 관계된다. 그러나, SMAT 기술은 오프라인 데이터(offline data)를 이용하는 것 대신에, 가우시안 믹스쳐 모델을 이용하여 특징 외형을 모델링하며, 이것은 실행 시간에 형성된다. 템플릿 검출자는 업데이트되고, 트래커의 이전에 매치된 프레임을 제공받으며, 그에 따라 정확한 초기화를 요구한다. 또한, SMAT는 형샹 구성의 가우시안 믹스쳐 모델을 형성하고, 이것을 이용하여 특징 템플릿 모델이 업데이트될 수 있는 경우를 제한한다. TAAM 방법은 형상 및 텍스쳐를 명백하게 결합하여 강건한 검색 템플릿 생성 방법을 제공하고, 이것은 비합법적인 예를 생성할 수 없다.

템플릿 검출자가 생성되었다면, 이것은 특징점의 위치결정을 향상시키기 위하여, 본 발명의 제1 실시예에 관한 형상 제약된 검색 단계에서의 표준화된 상관을 이용하여 타깃 이미지와 상관된다.

본 발명의 제1 실시예에 관하여, 얼굴을 포함하는 타깃 이미지로써 첫 번째로 나타날 시에, Viloa 및 Jones 얼굴 검출자는 이미지 내의 얼굴을 검색하기 위하여 이용될 수 있다. 검출된 얼굴 영역 내에서, (전체 얼굴 영역에 대립되는 것으로서) 개개의 얼굴 특징상에 트레이닝된 Viola 및 Jones 특징 검출자는 단계(S5)에서의 초기 특징점을 제공하기 위하여 이용될 수 있다. 그 후, 이 특징점은 본 발명의 제1 실시예에 대하여 상기 설명된 것과 유사한 방법을 이용하여 상세히 논술된다.

이하, TAAM 알고리즘은 보다 상세하게 설명될 것이다.

본 발명의 제1 실시예에 관하여, 조인트 형상(joint shape) 및 조인트 텍스쳐 모델을 형성하기 위해 이미지의 트레이닝 세트는 도2에 도시된 바와 같이 특징점의 번호로 (수동 또는 자동 중의 하나로) 첫 번째 레이블되어야 한다.

앞서와 같이, 통계적 형상 모델은 공지된 방법을 이용하여 트레이닝 세트로부터 형성된다. 각각의 트레이닝 이미지는 트레이닝 이미지 내의 각각의 특징점의 좌표를 연관시킴으로써 형성된 n차원의 형상 백터(x)에 의해 표시된다. 주성분 분석(Principal Component Analysis : PCA)을 이용하여, 각각의 형상 벡터(x)는 다음 형태의 선형 모델에 의해 근사치될 수 있다.

(6)

는 평균 형상이고, P_s 는형상 변화의 직교 모드의 세트이며, b_s 는 각각의 트레이닝 이미지에 대한 형상 파라미터의 세트이다.

객체 클래스의 새로운 예(즉, 새로운 얼굴)는 트레이닝 세트에서 발견된 범위 내의 b_s 의 값을 선택함으로써 생성될 수 있다.

b_s 의 첫 번째 2개의 구성요소를 변경시킴으로써 생성된, 형상 모델의 변화의 첫 번째 2개의 모드는 도 5에 도시된다. 평균값의 +/- 3 표준 편차 내에서 형상 모델의 변화의 첫 번째 2개의 모드 중 하나를 변경시키는 것이 형상 내의 상당한 왜곡(distortion)을 생성한다는 점을 알 수 있다.

도 2에 도시된 트레이닝 세트 내의 각각의 이미지에 대하여, 직사각형 템플릿은 각각의 레이블된 특징점 주위에 도시된다. 템플릿은 각각의 특징점에 대하여 국소화된 영역 내의 이미지에 대한 텍스쳐(즉, 명암도 변화) 정보를 포함한다. 각각의 트레이닝 이미지로부터의 얼굴 영역은 고정된 크기의 직사각형에 첫 번째 재샘플링되어, 트레이닝 이미지 사이의 스케일 변화를 허용한다. 각각의 템플릿은 픽셀 값이 0 및 유닛 분산(unit variance)의 평균을 가지도록 표준화된다. 그 후, 주어진 트레이닝 이미지로부터의 템플릿 패치(template patch)는 단일 그레이값 벡터(grey value vector)를 형성하도록 연관된다. 다음의 형상 모델에 관하여, 이 트레이닝 벡터 세트는 주성분 분석을 이용해 그레이 레벨 텍스쳐 변화의 선형 모델을 구성하기 위해 이용된다.

(7)

는 평균 표준화된 그레이 레벨 벡터이고, P_g 는 변화의 직교 모드의 세트이며, b_g 는 각각의 트레이닝 이미지에 대한 그레이-레벨 파라미터의 세트이다. b_g 의 첫 번째 2개의 구성요소를 변경시킴으로써 생성된, 텍스쳐 모델의 변화의 첫 번째 2개의 모드는 도 6에 도시된다. 평균값의 +/- 3 표준 편차 내에서 형상 모델의 변화의 첫 번째 2개의 모드 중 하나를 변경시키는 것이 템플릿 텍스쳐 내의 상당한 왜곡을 생성한다는 점을 알 수 있다.

형상 및 템플릿 텍스쳐 모델은 추가적인 주성분 분석 단계를 이용하여 하나의 조인트 모델을 생성하도록 결합된다. 조인트 모델은 다음의 형태를 가진다.

여기서,

및

(8)

b는 형상과 텍스쳐 유닛 사이의 차를 설명하기 위한 적절한 가중치(W_s)를 가지는 연관된 형상 및 텍스쳐 파라미터 벡터이다. c는 각각의 트레이닝 이미지에 대한 조인트 외형 파라미터의 세트이다. P_c 는 PCA를 이용하여 계산된 직교 행렬이고, 이것은 2개의 행렬(P_cs 및 P_cg)로 분할하며, 이것은 주어진 형상 및 텍스쳐 파라미터와, 조인트 파라미터 벡터(c)를 함께 계산한다.

주어진 조인트 파라미터(c)의 세트에 대하여, 텍스쳐(g) 및 형상(x)을 가지는 템플릿 세트는 다음과 같이 계산될 수 있다.

(9)

c의 첫 번째 2개의 구성요소를 변경시킴으로써 생성된, 조인트 외형 모델의 변화의 첫 번째 2개의 모드는 도 7에 도시된다. 평균값의 +/-3 표준 편차 내에서 조인트 형상 모델의 변화의 첫 번째 2개의 모드 중의 하나를 변경하는 것이 템플릿 텍스쳐 및 형상 내의 상당한 왜곡을 생성한다는 점을 알 수 있다.

객체 식별 단계(S2)는 본 발명의 실시예에 따른 알고리즘에 대한 것이고, 도 4의 흐름도에서 개략적으로 예시된다. 본 발명의 제1 실시예에 관하여, 객체 식별 단계(S2)의 시작은 타깃 이미지(즉, 얼굴의 경우 - 트레이닝 세트 내에 포함되지 않고, 트레이닝 세트로서 동일한 클래스의 객체를 포함하는 새로운 이미지)가 식별된다. 객체 식별 단계는 템플릿 선택 단계(S3) 및 형상 제약된 검색 단계(S4)를 통해 사이클링함으로써 특징점이 반복적으로 향상되는 (상기 논의된 바와 같은) 반복 프로세스이다. 초기에, 타깃 이미지는 전술한 바와 같이 단계(S5)에서 임의의 시작 특징점을 제공받아야 한다.

TAAM 알고리즘에 대한 템플릿 선택 단계(S3)는 조인트 모델(단계(S14))으로부터의 템플릿 검출자를 생성하는 단계를 포함한다. 조인트 모델 및 단계(S6)로부터의 디폴트 특징점의 초기 세트를 가지는 타깃 이미지가 주어지면, 조인트 모델은 방정식(10)에 도시된 바와 같이 형상, 텍스쳐 및 조인트 파라미터를 추정함으로써 이미지에 피트될 수 있다.

및

(10)

조인트 파라미터(c)가 주어지면, 현재 특징점을 근사치하는 형상을 가지는 템플릿 검출자 세트는 방정식(9)를 이용하여 계산될 수 있다.

템플릿 선택 단계(S3)에서 생성된 템플릿 검출자는 형상 제약된 검색 단계(S4)에서 이용되어, 본 발명의 제1 실시예에서와 동일한 방식으로 현재 특징점의 위치를 향상시킨다. 템플릿 검출자는 단계(S8)에서 타깃 이미지에 적용되어, 단계(S9)에서 응답 이미지의 세트(각각의 특징에 대한 하나)를 계산한다. 이 프로세스는 다음과 같다.

(X_i, Y_i)를 타깃 이미지 내의 특징점(i)의 위치라고 하고(여기서, i는 인덱 스임), I_i(X_i, Y_i)를 그 점에서의 i번째 특징 템플릿의 응답 이미지 값이라고 하자. 그 위치는 다음의 벡터(X)로 연관될 수 있다.

(11)

제1 실시예에 관하여, 모델은 타깃 특징점(X)에 피트된다. 이것은 형상 모델 파라미터(b) 및 형상 모델 프레임으로부터 타깃 이미지 프레임으로의 변환(T_t)을 제공한다.

X는 형상 파라미터(b) 및 유사 변환(T_t)로부터 근사치되어, 특징점(X')의 새로운 세트를 생성할 수 있다.

(12)

유사 변환(T_t)의 파라미터 및 형상 파라미터(b)는 벡터(p)로 연관된다.

(13)

따라서, X는 p의 함수로서 표시될 수 있다. p에 대한 시작 값이 주어지면, 검색은 이미지 응답면(I_i)및 트레이닝 세트로부터 학습된 통계적 형상 모델에 기초하여 함수(f(p))를 최적화시킴으로써 진행된다. 함수는 다음과 같이 이용된다.

(14)

제2 항은 주어진 형상 파라미터(b_j) 및 고유값(λ_j)의 로그-우도의 추정값이다. 그것은 형상 파라미터(b_j)가 독립적이고 가우시안 분포되었다는 점을 가정한다. 파라미터(R)는 특징 검출자와 타깃 이미지 사이의 개연적인 형상 및 상관 관계의 품질의 상대적 중요성을 결정하는 가중치이다. 수동으로 레이블된 특징점을 가지는 이미지의 검증 세트에 적용될 시에, f(p)의 제1 및 제2 항의 비율을 계산함으로써 R의 값이 결정될 수 있다.

방정식(14)은 전술한 공지된 Nelder-Meade 심플렉스 알고리즘을 이용하여 단계(S10)에서 최적화된다.

단계(S10)에서의 방정식(5)의 최적화 결과는 타깃 이미지에 대한 단계(S11)에서의 업데이트된 특징점 세트이다. 결정 단계(S12)에서, 단계(S11)로부터 업데이트된 점은 이전 반복과 비교된 점 이동에 대한 임계치를 이용하여 수렴에 대해 검 사된다. 타깃 이미지에 대한 특징점이 수렴되었을 경우, 단계(S11)로부터의 업데이트된 점은 단계(S13)에서의 최종점으로서 TST 알고리즘으로부터 출력된다. 특징점이 수렴되지 않았을 경우, S11로부터의 업데이트된 점은 S6에서 현재 특징점으로서 저장되고, 템플릿 선택 단계는 다시 실행된다.

TST 알고리즘 및 TAAM 알고리즘을 2개의 공적으로 이용 가능한 데이터 세트에 적용시킴으로써 얼굴 특징을 정확하게 위치결정하기 위한 본 발명의 전술한 실시예의 능력이 테스트된다. 또한, 비교를 위하여, 공지된 AAM 알고리즘은 2개의 데이터 세트에 적용된다. 데이터 세트는 모두 얼굴을 포함하는 일련의 이미지를 포함한다. 이 데이터 세트는 TST 모델 및 TAAM 모델 모두를 생성하기 위한 초기 트레이닝 단계(S1) 내에서 이용된 이미지의 트레이닝 세트와는 완전히 관계가 없다. 테스트하는데 이용되는 제1 데이터 세트는 O Jesorsky, K J Kirchberg and R W Frishholz: "Robust face detection using the hausdorff distance", 3^rd International Conference on Audio- and Video-Based Biometric Person Authentication, 2001에 설명되는 BIOID 데이터 세트이다. 이용되는 제2 데이터 세트는 K Messer, J Matas, J Kittler, J Luettin and G Maitre: "Xm2vtsdb: the extended m2vts database", Proc. 2^nd Conference on Audio- and Video-Based Biometric Personal Verification, Springer Verlag, 1999에 설명된 XM2VTS 데이터 세트이다.

상대적 특징 국호화 정확도를 평가하기 위하여, 손쉽게 측정 가능한 거리 메 트릭(distance metric)이 이용된다. 파라미터는 각각의 자동으로 위치결정된 특징점으로부터 각각의 특징점의 대응하는 수동으로 레이블된 정확한 위치까지의 거리의 함수이다. 거리 메트릭은 방정식(15)에 따라 산정된다.

(15)

d_i 는 자동으로 위치결정된 특징점으로부터 특징점의 대응하는 수동으로 레이블된 정확한 위치까지의 거리이다. s는 데이터 세트로부터 선택된 수동으로 레이블된 타깃 이미지로부터 산정된 좌측과 우측 눈동자 사이의 내안 거리(inter-ocular distance)이다. 거리 메트릭을 표준화하기 위하여 s에 의해 분배되는 것은 데이터 세트 내의 이미지 내의 얼굴 객체의 크기의 변화를 설명하기 위하여 필요하다. n은 특징점의 수이다. BIOID 및 XM2VTS 데이터 세트를 이용해 테스트하는 것에 대하여, n은 17이다. 이 테스트를 위하여, (눈, 코 및 입 주위의) 얼굴에 대한 내부의 특징 위치만이 거리 메트릭을 계산하기 위해 이용된다. 도 2에 도시된 바와 같이, 얼굴의 외부 주위의 특징점은 이용되지 않는다.

통계적 이미지에 대한 초기 특징점(S5)을 생성하기 위하여 이용되는 테스팅 절차는 전술한 Viola 및 Jones 얼굴 검출자를 적용시키고, 검출된 얼굴 영역 내의 유사한 더 작은 영역 검출자를 적용시키는 것이다. 더 작은 영역 검출자는 그림 구 조 매칭(PSM) 방법을 이용하여 제약된다. 이것은 점의 세트를 생성하고, 이것으로부터 TST 및 TAAM 알고리즘 모두와, 비교 AAM를 초기화한다. TST 및 TAAM 알고리즘은 별개로 테스트되었다.

TST 알고리즘에 대하여, 5개의 상이한 절차가 평가되었다.

* AVG - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 전역 viola 및 Jones 얼굴 검출자 상에서 이용하여 산정된 초기 특징점을 이용하여 간략하게 산정된다.

* PSM - 더 작은 영역 검출자를 이용하여 Viola 및 Jones 얼굴 영역 내의 발견된 PSM 매칭점을 이용하여 산정된다.

* AAM - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 AAM 알고리즘을 이용하여 산정된다.

* 고정된 TST - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TST 알고리즘을 이용하여 산정되지만, 고정된 템플릿 검출자를 이용하여(트레이닝 세트의 평균 템플릿을 이용하여) 제한된다. 이것은 템플릿의 텍스쳐를 반복적으로 업데이트하지 않고 특징점을 위치결정하기 위하여, TST 알고리즘의 능력의 표시를 제공한다.

* TST - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TST 알고리즘을 이용하여 산정되고, 이 시간은 템플릿 세트를 각각의 반복 동안 업데이트되도록 허용한다.

이러한 각각의 절차를 BIOID 및 XM2VTS 데이터 세트에 각각 적용시킨 결과는 도 8a 및 8b에 도시된다. 각각의 데이터 세트 및 상기 5개의 절차의 각각에 대하여, 특징점이 위치결정된 트레이닝 세트 내의 이미지의 비율은 주어진 거리 메트릭 내에서 거리 메트릭에 대하여 플로트(plot)된다.

TAAM 알고리즘에 대하여, 동일한 첫 번째 3개의 절차(AVG, PSM 및 AAM)는 다음의 것들과 함께 각각의 데이터 세트에 대해 평가되었다.

* 고정된 TAAM - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TAAM 알고리즘을 이용하여 산정되지만, 고정된 템플릿 검출자를 이용하여(트레이닝 세트의 평균 템플릿을 이용하여) 제한된다. 이것은 템플릿의 텍스쳐를 반복적으로 업데이트하지 않고 특징점을 위치결정하기 위하여, TAAM 알고리즘의 능력의 표시를 제공한다.

* TAAM - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TAAM 알고리즘을 이용하여 산정되고, 이 시간은 템플릿 세트를 각각의 반복 동안 업데이트되도록 허용한다.

이러한 각각의 절차를 BIOID 및 XM2VTS 데이터 세트에 각각 적용시킨 결과는 도 9a 및 9b에 도시되고, 이것은 도 8a 및 8b에 대응한다.

도 8a, 8b, 9a 및 9b는 개개의 특징점(AVG 라인(AVG line))에 대한 국소화된 검색 없이, 모든 데이터 세트에 대한 가장 적은 성공적인 절차가 전역 얼굴 검출자로부터의 단순한 평균 특징점이었다는 것을 나타낸다. 검출된 얼굴 영역이 주어지면, 특징점 국소화 정확도는 PSM 제약 방법(PSM 라인)으로 더 작은 영역 검출자를 이용하여 모든 데이터 세트에 대하여 향상된다.

모든 4개의 그래프는 유사한 트렌드(trend)를 나타낸다. 최적의 수행 절차는 각각 반복적으로 템플릿을 업데이트하는 TST 및 TAAM 이다. 거리 메트릭 값(m_e < 0.075)에서 TST 알고리즘의 성공율은 AAM 알고리즘보다 더 크다. 상기의 이 값에 대하여, AAM 알고리즘은 약간 더 성공적이다. 고정된 템플릿을 가지는 TST 알고리즘을 이용하는 것은 보다 합리적으로 수행하지만(계산적으로 덜 비싼 이점을 가짐), 전체(full) TST 알고리즘에 비하여 더 낮은 성공율을 항상 가진다.

TAAM 알고리즘은 m_e 의 모든 값에 대한 AAM 알고리즘보다 더 양호하게 수행한다. TST 알고리즘에 관하여, 고정된 템플릿을 가지는 TAAM 알고리즘은 보다 합리적으로 수행하지만, 전체 TST 알고리즘에 비하여 더 낮은 성공율을 항상 가진다.

도 10 및 11은 예를 들어, BIOID 데이터 세트로부터의 예시적인 타깃 이미지에 대한 특징점에 대한 성공적인 검색을 향하여 수렴하는 전체 TST 및 전체 TAAM 알고리즘을 각각 예시한다. 템플릿은 각각의 반복 후에 변화하여 타깃 이미지를 닮는다. 도 10 및 11은 모두 시작(a), 첫 번째 반복(b) 이후, 두 번째 반복(c) 이후에서 첨가된 템플릿을 가지는 타깃 이미지를 나타내고, 특징점은 그 최종 값(d)으로 수렴한다.

본 발명의 실시예는 타깃 이미지를 매치시키도록 템플릿 검출자를 자동으로 선택 또는 조정한다. 이와 같이, 현재 템플릿 및 특징점이 하나의 비디오 프레임으로부터 다음으로 존속될 수 있으므로, 본 발명의 실시예는 비디오 어플리케이션에서의 객체에 대한 특징 위치를 트래킹하는데 매우 적합하다. 일반적으로, 두 번째 프레임이 디폴트 특징점으로써 초기화될 경우(전체 이미지를 검색함으로써 발견될 경우)보다 두 번째 프레임에 대한 초기 특징점이 정확한 특징 위치에 더 근접할 것이라는 결과가 되어, 하나의 프레임으로부터 다음 프레임으로의 상당한 객체 이동이 존재하지 않을 수 있다. 객체의 트래킹이 손실되도록 상당한 특징 이동이 발생할 경우, 그 프레임은 디폴트 특징점으로써 다시 초기화될 수 있다. 본 발명의 실시예는 템플릿 검출자가 타깃 이미지를 매치시키는 것을 학습하는 의미에서의 본래의 트래킹 방법(natural tracking method)이지만, 개연적인 특징 템플릿을 남기기 위하여 생성된 모델에 의해 제약된다.

본 발명의 TST 및 TAAM 실시예는 그것 모두를 자동차 내에서 운전하는 사람의 3개의 상이한 비디오 시퀀스에 적용시킴으로써 비디오 어플리션에 대하여 테스트된다. 비디오 시퀀스의 서브젝트(subject) 중의 단 하나도 트레이닝 세트 내에 나타나지 않는다. 각각의 테스트 시퀀스는 상당한 양의 조명 변화 및 헤드 이동(head movement)과, 그에 따른 트래킹을 위한 본 도전적인 데이터 세트를 수반하였다. 각각의 시퀀스는 대략 1000 프레임(초당 10 프레임을 취득함)을 포함한다.

도 12는 3개의 테스트 비디오 시퀀스의 각각으로부터의 3개의 예시적인 프레임을 포함한다. 3개의 테스트 비디오 시퀀스 각각에서, 얼굴은 동일한 점에서 비디오 플레인(plane)의 외부로 회전한다. 따라서, 얼굴의 트래킹(즉, 얼굴 특징점의 정확한 국소화)이 손실되었는지의 여부를 결정하기 위하여, 양질의 피트 측정(fit measure)이 이용된다. 얼굴의 트래킹이 손실된 경우, 상기에 논의한 Viola 및 Jones 얼굴 검출자를 이용함으로써 TST 또는 TAAM 알고리즘을 다시 초기화하는 것 이 필요하다. TST 및 TAAM 알고리즘에 이용되는 양질의 피트 측정은 각각 형상 제약된 응답 스코어(response score) 즉, 방정식(5) 또는 방정식(14)의 출력이다. AAM 알고리즘에 대하여, 양질의 피트 측정은 텍스쳐 모델과 타깃 이미지 사이의 차의 합이다.

트래킹의 정확도를 시험하기 위한 참조점(reference point)을 정의하기 위하여, 각각의 시퀀스의 매 10번째 프레임은 운용자에 의해 수동으로 레이블되고, 모든 얼굴 특징점이 가시화된다는 점이 제공된다. 각각의 수동으로 레이블된 얼굴에 대하여, 거리 메트릭(m_e)은 산정되고, 특징점이 그 프레임에 대하여 위치결정된다고 가정한다. 레이블된 얼굴이 검출될 수 없을 경우, 거리 메트릭(m_e)은 무한하게 레코딩된다. TST 알고리즘 및 TAAM 알고리즘에 대하여, 이 특징점 트래킹 실험의 결과는 도 13 및 14에 각각 도시된다. 각각의 테스트 비디오 시퀀스에 대하여 도 13 및 14는 거리 메트릭에 대하여 플롯된 성공적인 검색의 비율을 나타낸다. 주어진 거리 메트릭(m_e)에 대하여, 성공적인 검색의 비율은 특징점이 그 거리 메트릭보다 적거나 동일하도록 위치결정된 각각의 시퀀스 내의 그 수동으로 레이블된 프레임의 비율이다. 각각의 시퀀스에 대하여, 도 13은 (상기 논의한 바와 같은) TST 및 TST 고정된 템플릿 절차 모두와, 또한 비교를 위한 AAM 절차를 이용하여 얻어진 결과를 나타낸다. 각각의 시퀀스에 대하여, 도 14는 TAAM 및 TAAM 고정된 템플릿 절차 모두와, 또한 비교를 위한 AAM 절차를 이용하여 얻어진 결과를 나타낸다.

도 13은 TST 절차가 TST 고정된 템플릿 절차 및 AAM(AAM은 가장 효율이 적 음) 모두보다 더 효율적이었다는 것을 나타낸다. 시퀀스 1에서, TST 고정 템플릿 절차는 전체 TST 절차와 매우 유사한 결과를 나타낸다. 이것은 TST 모델의 평균 텍스쳐에 근접하게 놓여 있는 얼굴의 텍스쳐를 포함하는 시퀀스 1의 서브젝트로 인한 것일 것이다.

도 14는 TAAM 절차가 TAAM 고정된 템플릿 절차 및 AAM 절차보다 대체로 더 효율적이라는 것을 나타낸다. 그러나, 3개의 시퀀스 상의 변화가 존재한다. 도 13에서와 같이, 시퀀스 1에 대하여 TAAM 고정된 템플릿 절차를 이용하는 성능은 전체 TAAM 알고리즘에 대한 것과 유사하다. 다시, 이것은 TAAM 모델의 평균 텍스쳐에 근접하게 놓여 있는 얼굴의 텍스쳐를 가지는 시퀀스 1의 서브젝트로 인한 것일 것이다. 전체 TAAM 알고리즘은 시퀀스 2 및 3에 대하여 TAAM 고정 템플릿 알고리즘을 능가한다. AAM은 시퀀스 1 및 2보다 TAAM보다 못하고, 시퀀스 3에서 유사한 성능을 제공한다.

정적 이미지를 검색할 경우, 본 발명의 실시예는 (Viola 및 Jones 얼굴 검출자를 이용하여) 전역 검색(global search)을 수행하기 위하여 대략 120ms를 취하고, 그 후 로컬 영역 검출(local region detection)을 수행한다. 그 후, TST, TAAM 및 AAM 특징점 검색은 120 ms 이상보다 더 적게 취하지만, 3개의 모든 경우에서 요구된 엄격한 시간은 요구된 반복의 수에 의존한다. 본 발명의 TST 및 TAAM 실시예는 매 검색 반복마다 대략 40ms를 각각 취한다. 정적 이미지에 대하여, TST 및 TAAM 알고리즘은 모두 2 또는 3번의 반복을 요구한다. 그러나, 비디오 시퀀스 내의 얼굴 특징점을 트래킹할 경우, 통상적으로 단지 한 번의 반복만이 요구된다. 따라 서, P4 3GHz 컴퓨터 프로세서를 이용하여 대략 BIOID 데이터세트(384*286 픽셀)로부터의 단일의 정적 이미지를 검색하는 경우, 전체 검색 시간은 대략 240ms(초당 대략 4개의 프레임)이었다. TST 또는 TAAM 알고리즘을 이용하여 비디오 시퀀스 내의 특징점을 검색하는 경우, (전역 얼굴 검색을 요구하지 않고, 더 적은 반복을 요구함으로 인하여) 평균 검색 시간은 40ms로 떨어지고, 이것은 초당 약 25 프레임과 동등하다.

본 발명의 실시예는 특징점을 자동으로 정확하게 위치결정하는 것이 필요한 이미지 해석 태스크(image interpretation task)에 적합하다. 본 발명의 실시예는 정적 이미지의 인식 및 얼굴 국소화의 특정 이점을 가진다. 특히, 이것은 보안 어플리케이션 자동적 얼굴 이미지 편집 및 자동적 아바타 생성을 위하여 중요할 수 있다. 또한, (특히, 새로운 프레임에 대한 현재 특징점이 이전 프레임에 대한 수렴된 특징점으로 초기화될 시에) 본 발명의 특정 실시예의 방법을 검색하는 고유의 객체 트래킹 기계 장치(mechanism)로 인하여, 검색 방법은 특히 비디오 시퀀스의 인식 및 얼굴 트래킹에 적합하다. 예를 들어, 이것은 얼굴의 애니메이션(facial animation), 보안 어플리케이션, 행동 모니터링(behaviour monitoring) 및 피로 검출(tiredness detection)에 적용될 수 있다.

특히, 본 발명의 실시예는 자동차 산업에서의 어플리케이션 예를 들어, 자동차 운전자의 이미지를 모니터링하는 것에 적합하다. 운전자 얼굴 상의 특징점의 위치를 트래킹함으로써, 어플리케이션의 범위를 가능하게 한다. 예를 들어, 운전자의 눈깜빡임 회수의 변화에 대하여 모니터링을 함으로써, 피로(fatique)가 검출될 수 있다. 본 발명의 실시예는 운전자가 보고 있는 방향을 검출하기 위하여 이용될 수도 있다. 예를 들어, 운전자가 이동의 방향으로부터 눈길을 돌릴 경우, 위험이 검출되어 알람이 발생될 수 있다. 본 발명의 실시예는 얼굴 인식에 의한 차량의 운전자를 식별하기 위한 시스템 내에서 이용될 수 있다.

본 발명의 실시예의 다른 어플리케이션은 의료 진단, 예를 들어 이상(abnormality)의 검출 및 질병 진행(disease progression)의 모델링을 포함한다.

본 발명의 실시예는 주로 얼굴의 모델링에 관하여 예시되지만, 그것은 결코 이에 한정되지 않는다. 본 발명의 실시예는 객체 클래스의 광범위의 특징을 식별 및 모델링하는데 적용될 수 있다. 특히, 본 발명의 실시예는 객체의 상이한 실례 사이의 특유의 대응하는 랜드마크(landmark)가 존재하는 객체의 특징 클래스를 식별 및 모델링하는데 적합하다. 또한, 본 발명의 실시예의 어플리케이션 및 변경은 첨부된 청구범위의 범위 및 사상으로부터 벗어나지 않고, 본 발명의 교시 내용으로부터 당업자에게 손쉽게 이해될 것이다.

Claims

타깃 이미지 내의 객체 클래스(a class of objects)의 객체 특징들을 위치결정하는(locating) 방법에 있어서,

상기 타깃 이미지 내의 특징점들의 세트를 초기화하는 단계 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ;

상기 객체 클래스의 통계적 모델을 이용하여, 상기 타깃 이미지 내의 특징점들의 세트로부터 템플릿 검출자들(template detectors)의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지의 영역을 포함함 - ;

상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및

상기 비교 결과에 응답하여 상기 타깃 이미지 내의 상기 특징점들의 세트를 업데이트하는 단계

를 포함하는 객체 특징 위치결정 방법.
제 1 항에 있어서,

상기 통계적 모델을 이용하여 유도된 상기 템플릿 검출자들의 세트는 상기 객체 클래스의 객체의 일부만을 집합적으로 표시하는

객체 특징 위치결정 방법.
제 1 항에 있어서,

상기 통계적 모델을 이용하여 유도된 상기 템플릿 검출자들의 세트는 상기 객체 클래스의 객체의 전체를 집합적으로 표시하는

객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 업데이트된 특징점들의 세트로부터 상기 템플릿 검출자들의 세트를 유도하는 단계, 상기 타깃 이미지와 템플릿 검출자들의 세트를 비교하는 단계 및 상기 특징점들의 세트를 업데이트하는 단계를 반복하는 단계

를 더 포함하는 객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 특징점들의 세트를 업데이트 하는 단계 이후에,

상기 업데이트된 특징점 각각의 위치와 그 이전 위치 사이의 평균 차가 미리 결정된 임계치(threshold) 이하인지의 여부를 결정하는 단계; 및

상기 평균 차가 임계치 이하일 경우, 상기 특징점들의 세트를 최종 특징점들의 세트로서 출력하는 단계

를 더 포함하는 객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

트레이닝 이미지들의 세트로부터 상기 통계적 모델을 생성하는 단계 - 각각의 트레이닝 이미지는 상기 객체 클래스의 객체를 포함함 -

를 더 포함하는 객체 특징 위치결정 방법.
제 6 항에 있어서,

상기 통계적 모델을 생성하는 단계는, 각각의 트레이닝 이미지에 대하여,

상기 트레이닝 이미지 내의 상기 객체의 미리 결정된 특징에 대응하는 상기 트레이닝 이미지 내의 특징점들의 세트를 식별하는(identifying) 단계; 및

템플릿들의 세트를 생성하는 단계 - 각각의 템플릿은 식별된 특징점에 대하여 위치결정된 상기 트레이닝 이미지 내의 이미지 영역을 포함함 -

를 포함하는 객체 특징 위치결정 방법.
제 7 항에 있어서,

상기 특징점들의 세트를 식별하는 단계는, 운용자(human operator)가 상기 특징점들의 세트를 식별하는 단계를 포함하는

객체 특징 위치결정 방법.
제 7 항에 있어서,

상기 특징점들의 세트를 식별하는 단계는, 상기 특징점들의 세트를 자동으로 식별하는 단계를 포함하는

객체 특징 위치결정 방법.
제 7 항에 있어서,

상기 트레이닝 이미지들의 세트 내의 각각의 트레이닝 이미지에 대한 특징점들의 세트들로부터 상기 트레이닝 이미지들의 세트에 대한 특징점들의 공간적 분포를 표시하는 형상 모델을 생성하는 단계

를 더 포함하는 객체 특징 위치결정 방법.
제 10 항에 있어서,

상기 템플릿 검출자들의 세트를 유도하는 단계는,

상기 타깃 이미지에 대한 템플릿들의 세트를 생성하는 단계 - 각각의 템플릿은 상기 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ;

상기 타깃 이미지 내의 상기 특징점들의 세트와 가장 근접한 특징점들을 식별하는 상기 트레이닝 이미지들의 세트 내의 트레이닝 이미지들의 서브세트(subset)를 식별하기 위해 상기 형상 모델을 이용하는 단계;

상기 트레이닝 이미지들의 서브세트 내의 각각의 트레이닝 이미지에 대한 템플릿들의 세트와 상기 타깃 이미지에 대한 템플릿들의 세트를 상관시키는(correlating) 단계;

상기 트레이닝 이미지들의 서브세트로부터 상기 타깃 이미지에 대한 상기 템플릿들의 세트와 가장 상관되는 템플릿들의 세트를 가지는 상기 트레이닝 이미지를 선택하는 단계; 및

상기 선택된 트레이닝 이미지에 대한 상기 템플릿들의 세트를 상기 템플릿 검출자들의 세트로 설정하는 단계를 포함하는

객체 특징 위치결정 방법.
제 7 항에 있어서,

상기 트레이닝 이미지들의 세트 내의 각각의 트레이닝 이미지에 대한 상기 특징점들의 세트들로부터 상기 트레이닝 이미지들의 세트에 대한 특징점들의 공간적 분포를 표시하는 형상 모델을 생성하는 단계;

상기 트레이닝 이미지들의 세트 내의 각각의 트레이닝 이미지에 대한 템플릿들의 세트들로부터 상기 트레이닝 이미지들의 세트 내의 템플릿들의 세트들에 대한 텍스쳐(texture)의 분포를 표시하는 텍스쳐 모델을 생성하는 단계; 및

결합된 형상 및 텍스쳐 모델(a combined shape and texture model)을 형성하기 위해 상기 형상 모델 및 상기 텍스쳐 모델을 결합하는 단계

를 더 포함하는 객체 특징 위치결정 방법.
제 12 항에 있어서,

상기 템플릿 검출자들의 세트를 유도하는 단계는,

상기 타깃 이미지에 대한 템플릿들의 세트를 생성하는 단계 - 각각의 템플릿은 상기 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ;

상기 타깃 이미지에 대한 상기 템플릿들의 세트 및 상기 특징점들의 세트로부터 모델링된 템플릿들의 세트를 생성하기 위해 상기 결합된 형상 및 텍스쳐 모델을 이용하는 단계; 및

상기 생성된 템플릿들의 세트를 상기 템플릿 검출자들의 세트로 설정하는 단계를 더 포함하는

객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 타깃 이미지와 템플릿 검출자들의 세트를 비교하는 단계는,

상기 타깃 이미지의 각각의 영역과 각각의 템플릿 검출자를 비교하는 단계를 포함하는

객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계는,

응답 이미지들(response images)의 세트가 형성되도록 응답 이미지를 생성하기 위해 상기 타깃 이미지 내의 대응하는 특징점에 대한 일련의 위치들(positions)에서 상기 타깃 이미지와 별도로 각각의 템플릿 검출자를 상관시키는 단계; 및

업데이트된 특징점들의 세트가 생성되도록 각각의 특징점에 대한 최적의 상관 위치들(positions)을 위치결정하기(locate) 위해 비선형 최적화(non-linear optimisation)를 이용하는 단계 - 상기 업데이트된 특징점들의 세트는 상기 객체 클래스의 객체들에 대한 특징점들의 유효 세트(valid set)를 형성함 - 를 포함하는

객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 특징점들의 세트를 초기화하는 단계는,

상기 객체를 포함하는 타깃 이미지 내의 이미지 영역을 식별하기 위해 전역 객체 검출자(global object detector)를 이용하는 단계; 및

상기 전역 객체 검출자에 의해 식별된 상기 이미지 영역 내의 평균 특징점 위치들로 상기 특징점들의 세트를 초기화하는 단계를 포함하는

객체 특징 위치결정 방법.
제 16 항에 있어서,

상기 특징점들의 세트를 초기화하는 단계는,

각각의 특징점을 포함하는 상기 전역 객체 검출자를 이용하여 식별된 상기 타깃 이미지의 상기 영역 내의 이미지 영역들을 식별하기 위해 특징 검출자들의 세트를 이용하는 단계; 및

상기 특징 영역 검출자에 의해 식별된 상기 이미지 영역 내의 평균 특징 위치로 각각의 특징점을 초기화하는 단계를 더 포함하는

객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

일련의 타깃 이미지들을 포함하는 비디오 시퀀스 내의 객체의 특징들을 위치결정하는 단계;

제1 타깃 이미지 내의 특징점들의 세트를 초기화하는 단계; 및

이전의 타깃 이미지로부터의 업데이트된 특징점들을 이용하여 이후의 타깃 이미지들에 대한 특징점들의 세트를 초기화하는 단계

를 포함하는 객체 특징 위치결정 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 객체 클래스는 사람 얼굴들을 포함하는

객체 특징 위치결정 방법.
타깃 이미지 내의 객체 클래스의 객체의 시각적 외형을 모델링하는 방법에 있어서,

상기 타깃 이미지 내의 특징점들의 세트를 초기화 하는 단계 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ;

상기 객체 클래스의 통계적 모델을 이용하여, 상기 타깃 이미지 내의 특징점들의 세트로부터 템플릿 검출자들의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지 영역을 포함함 - ;

상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및

상기 비교 결과에 응답하여 상기 타깃 이미지 내의 특징점들의 세트를 업데이트하는 단계

를 포함하는 객체의 시각적 외형 모델링 방법.
타깃 이미지 내의 사람 얼굴의 시각적 외형을 모델링하는 방법에 있어서,

상기 타깃 이미지 내의 특정점들의 세트를 초기화하는 단계 - 각각의 특징점은 미리 결정된 얼굴 특징에 대응함 - ;

사람 얼굴들의 통계적 모델을 이용하여, 상기 타깃 이미지 내의 특징점들의 세트로부터 템플릿 검출자들의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 얼굴 특징의 위치(location)에 대하여 위치결정된(located) 이미지 영역을 포함함 - ;

상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및

상기 비교 결과에 응답하여 상기 타깃 이미지 내의 특징점들의 세트를 업데이트하는 단계

를 포함하는 사람 얼굴의 시각적 외형 모델링 방법.
제 1 항, 제 20 항 및 제 21 항 중 어느 한 항의 방법을 수행하기 위하여 컴퓨터를 제어하기 위한 컴퓨터 판독가능 코드(computer readable code)를 운반하는(carrying) 캐리어 매체(carrier medium).
타깃 이미지 내의 객체 클래스의 객체의 특징들을 위치결정하기(locating) 위한 컴퓨터 장치에 있어서,

프로세서 판독가능 명령들(processor readable instructions)을 저장하는 프로그램 메모리; 및

상기 프로그램 메모리 내에 저장된 명령들을 판독(read) 및 실행(execute)하도록 구성된 프로세서

를 포함하고,

상기 프로세서 판독가능 명령들은 상기 프로세서가 제 1 항, 제 20 항 및 제 21 항 중 어느 한 항의 방법을 수행하도록 제어하는 명령들을 포함하는

컴퓨터 장치.
타깃 이미지 내의 객체 클래스의 객체의 특징들을 위치결정하기(locating) 위한 장치에 있어서,

상기 타깃 이미지 내의 특징점들의 세트를 초기화하기 위한 수단 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ;

상기 객체 클래스의 통계적 모델을 이용하여 상기 특징점들의 세트로부터 템플릿 검출자들의 세트를 유도하기 위한 수단 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지 영역을 포함함 - ;

상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하기 위한 수단; 및

상기 비교 결과에 응답하여 상기 타깃 이미지 내의 특징점들의 세트를 업데이트하기 위한 수단

을 포함하는 객체 특징 위치결정 장치.
삭제
삭제
삭제
삭제