KR101304374B1 - 객체 특징을 위치결정하는 방법 - Google Patents

객체 특징을 위치결정하는 방법 Download PDF

Info

Publication number
KR101304374B1
KR101304374B1 KR1020087026428A KR20087026428A KR101304374B1 KR 101304374 B1 KR101304374 B1 KR 101304374B1 KR 1020087026428 A KR1020087026428 A KR 1020087026428A KR 20087026428 A KR20087026428 A KR 20087026428A KR 101304374 B1 KR101304374 B1 KR 101304374B1
Authority
KR
South Korea
Prior art keywords
feature
target image
image
template
feature points
Prior art date
Application number
KR1020087026428A
Other languages
English (en)
Other versions
KR20090018037A (ko
Inventor
데이비드 크리스티나쎄
티모시 프란시스 쿠테스
Original Assignee
도요타 모터 유럽
더 유니버시티 오브 맨체스터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도요타 모터 유럽, 더 유니버시티 오브 맨체스터 filed Critical 도요타 모터 유럽
Publication of KR20090018037A publication Critical patent/KR20090018037A/ko
Application granted granted Critical
Publication of KR101304374B1 publication Critical patent/KR101304374B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하는 방법. 이 방법은, 상기 타깃 이미지 내의 특징점들의 세트를 초기화하는 단계 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ; 상기 객체 클래스의 통계적 모델을 이용하여, 상기 특징점들의 세트로부터 템플릿 검출자들(template detectors)의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지의 영역을 포함함 - ; 상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및 상기 비교 결과에 응답하여 상기 타깃 이미지 내의 상기 특징점들의 세트를 업데이트하는 단계를 포함한다.
객체 특징점, 통계적 모델, 특징점 세트, 템플릿 검출자, 위치결정

Description

객체 특징을 위치결정하는 방법{METHOD OF LOCATING FEATURES OF AN OBJECT}
본 발명은 객체 특징을 위치결정(locate)하는 방법에 관한 것이다. 보다 구체적으로, 이에 한정되지는 않지만, 본 발명은 객체 클래스(a class of objects)의 모델(외형 모델(appearance model)이라고도 칭함)을 클래스 내의 객체를 포함하는 타깃 이미지(target image)에 피트(fit)시키는 방법에 관한 것이다.
통계적 외형 모델은 컴퓨터 비전(computer vision)에서 광범위하게 이용되고, 의료 이미지를 해석하는 단계 및 얼굴을 포함하는 이미지를 해석하는 단계를 포함하는 다수의 어플리케이션을 가진다. 다수의 어플리케이션에 대하여, 객체 특징을 위치결정하는 것이 유용할 수 있다. 예를 들어, 얼굴을 포함하는 이미지를 수반하는 어플리케이션에 대하여, 눈의 코너(corner) 및 입의 코너와 같은 얼굴 특징을 위치결정하는 것이 유용할 수 있다.
종래에는, 객체 클래스의 통계적 모델이 이미지, 또는 그 클래스의 객체를 포함하는 이미지의 일부에 걸쳐 명암도(intensity)(그레이스케일(greyscale) 또는 컬러) 및/또는 형상 변화를 표시하도록 형성된다. 얼굴 외형 모델의 경우, 시스템을 트레이닝(train)하기 위하여 트레이닝 이미지(training image)로서 알려져 있는 얼굴 이미지가 이용되고, 그에 따라 모델을 생성한다. 임의의 주어진 얼굴의 변화는 유사한 패턴을 포함하는 경향이 있을 것이고, 모델은 이 패턴을 표시한다. 모델이 형성되었다면, 타깃 이미지 내의 그 클래스 객체의 특징의 위치를 식별하기 위하여(indentify) 모델이 타깃 이미지에 피트될 수 있다.
통계적 외형 모델을 생성하고, 그 모델을 이용하여 얼굴 특징, 또는 이미지 내의 객체의 다른 타입의 특징을 식별 및/또는 인식하는 여러 가지의 공지된 방법이 존재한다. 공지된 제1 모델은 T.F. Cootes, A. Hill, C. J. Taylor, and J. Haslam: "The use of active shape models for locating structures in medical images", Image and Vision Computing, 12(6):276-285, July 1994, and in T.F. Cootes, C. J. Taylor, D. Cooper, and J. Graham: "Active shape models - their training and application", Computer Vision and Image Understanding, 61 (l):38-59, Jan. 1995에 설명된 활성 형상 모델(Active Shape Model : ASM)이다. ASM의 두 설명은 본 명세서에 참조로서 인용된다.
ASM에 의해 이용되는 기본적인 개념은 트레이닝 세트(training set)로부터, 형상의 "합법적" 변화 패턴 및 주어진 이미지의 클래스(이미지의 클래스는 예를 들어, 얼굴 이미지 또는 손 이미지일 수 있음) 내의 구조의 공간적 관계를 확립시키는 것이다. 통계적 분석은 합법적 변화 패턴의 효율적인 파라미터화(parameterisation)를 제공하기 위하여 이용되고, 형상의 간결한 표시를 제공한다. 또한, 통계적 분석은 형상 제약(shape constraint)을 제공하고, 이것은 분석된 이미지 내의 구조의 형상이 대상 객체 클래스의 개연적인 예(plausible example)인지의 여부를 결정하기 위하여 이용된다.
공지된 제2 모델은 T.F. Cootes, G.J. Edwards, and C.J. Taylor: "Active appearance models", In H. Burkhardt and B. Neumann, editors, 5th European Conference in Computer Vision, volume 2, pages 484-498. Springer, Berlin, 1998에 설명된 활성 외형 모델(Active Appearance Model : AAM)이다. AAM은 형상 및 텍스쳐(texture)의 결합된 통계적 모델을 이용한다. ASM 및 AAM은 모두 영국의 맨체스터 대학(Victoria University of Manchester)에서 개발되었다. 이들 모델 모두는 표준화된 명암도 값의 이용에 기초한다. ASM 및 AAM은 모두 고유 얼굴 모델(Eigen-face model)의 일반화이다. 고유 얼굴 모델은 명암도 값의 이용에 기초한다.
본 발명의 제1 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하는 방법이 제공되고, 이 방법은, 타깃 이미지 내의 특징점 세트를 초기화하는 단계 - 각각의 특징점은 객체 클래스의 객체에 대한 미리 결정된 특징에 대응함 - ; 객체 클래스의 통계적 모델을 이용하여, 특징점 세트로부터 템플릿 검출자(template detector) 세트를 유도하는 단계 - 각각의 템플릿 검출자는 객체 클래스의 객체에 대한 특징점의 위치에 대하여 위치결정된 이미지의 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하는 단계; 및 비교 결과에 응답하여 타깃 이미지 내의 특징점 세트를 업데이트하는 단계를 포함한다.
바람직하게는, 본 발명에 따른 객체 특징을 위치결정하는 방법은, 공지된 기술과 비교된 계산 복잡도(computational complexity)의 상당한 증가를 초래하지 않고, 이미지 시퀀스(sequence)에 대하여 보다 강건한 검출(robust detection) 및 보다 양호한 트래킹(tracking)을 제공한다.
용어 '이미지'는 이미지 또는 대상 이미지의 영역을 의미하기 위한 것이다. 이미지 내의 대상 위치는 선택된 영역일 수 있고, 이것은 식별하는데 유용한 정보를 제공하도록 예상된다.
상기 통계적 모델을 이용하여 유도된 템플릿 검출자 세트는 객체 클래스의 객체를 포함하는 이미지의 영역의 일부만을 집합적으로 표시할 수 있다.
상기 통계적 모델을 이용하여 유도된 템플릿 검출자 세트는 객체 클래스의 객체를 포함하는 이미지의 영역 전체를 집합적으로 표시할 수 있다.
상기 방법은, 업데이트된 특징점 세트로부터 템플릿 검출자 세트를 유도하고, 타깃 이미지와 템플릿 검출자 세트를 비교하고, 특징점 세트를 업데이트하는 단계를 반복하는 단계를 더 포함할 수 있다.
상기 방법은, 특징점 세트를 업데이트 하는 상기 단계 이후에, 각각의 업데이트된 특징점의 위치와 그 이전 위치 사이의 평균 차가 미리 결정된 임계치(threshold) 이하인지의 여부를 결정하는 단계; 및 평균 차가 임계치 이하일 경우, 최종 특징점 세트로서 특징점 세트를 출력하는 단계를 더 포함할 수 있다.
상기 방법은, 트레이닝 이미지의 세트로부터 통계적 모델을 생성하는 단계 - 각각의 트레이닝 이미지는 객체 클래스의 객체를 포함함 - 를 더 포함할 수 있다.
통계적 모델을 생성하는 상기 단계는, 상기 각각의 트레이닝 이미지에 대하여, 트레이닝 이미지 내의 객체의 미리 결정된 특징에 대응하는 트레이닝 이미지 내의 특징점 세트를 식별하는 단계; 및 템플릿 세트를 생성하는 단계 - 각각의 템플릿은 식별된 특징점에 대하여 위치결정된 트레이닝 이미지 내의 이미지 영역을 포함함 - 를 더 포함할 수 있다.
특징점 세트를 식별하는 상기 단계는, 운용자(human operator)가 특징점 세트를 식별하는 단계를 더 포함할 수 있다. 이와 달리, 특징점 세트를 식별하는 상기 단계는 특징점 세트를 자동으로 식별하는 단계를 더 포함할 수 있다.
상기 방법은, 트레이닝 이미지 세트 내의 각각의 트레이닝 이미지에 대한 특징점 세트로부터 트레이닝 이미지 세트에 대한 특징점의 공간적 분포를 표시하는 형상 모델을 생성하는 단계를 더 포함한다.
템플릿 검출자의 세트를 유도하는 상기 단계는, 타깃 이미지에 대한 템플릿 세트를 생성하는 단계 - 각각의 템플릿은 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ; 형상 모델을 이용하여 타깃 이미지 내의 특징점 세트와 가장 근접한 특징점 세트를 식별하는 트레이닝 이미지 세트 내의 트레이닝 이미지 서브세트(subset)를 식별하는 단계; 트레이닝 이미지의 서브세트 내의 각각의 트레이닝 이미지에 대한 템플릿 세트와 타깃 이미지에 대한 템플릿 세트를 상관시키는(correlating) 단계; 트레이닝 이미지 서브세트로부터 타깃 이미지에 대한 템플릿 세트와 가장 상관되는 템플릿 세트를 가지는 트레이닝 이미지를 선택하는 단계; 및 선택된 트레이닝 이미지에 대한 템플릿 세트를 템플릿 검출자 세트로서 설정하는 단계를 더 포함할 수 있다.
상기 방법은, 트레이닝 이미지 세트 내의 각각의 트레이닝 이미지에 대한 특징점 세트로부터 트레이닝 이미지 세트에 대한 특징점의 공간적 분포를 표시하는 형상 모델을 생성하는 단계; 트레이닝 이미지 세트 내의 각각의 트레이닝 이미지에 대한 템플릿 세트로부터 트레이닝 이미지 세트 내의 템플릿 세트에 대한 텍스쳐의 분포를 표시하는 텍스쳐 모델을 생성하는 단계; 및 형상 모델 및 텍스쳐 모델을 결합하여 결합된 형상 및 텍스쳐 모델(a combined shape and texture model)을 형성하는 단계를 더 포함할 수 있다.
템플릿 검출자 세트를 유도하는 상기 단계는, 타깃 이미지에 대한 템플릿 세트를 생성하는 단계 - 각각의 템플릿은 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ; 결합된 형상 및 텍스쳐 모델을 이용하여, 타깃 이미지에 대한 템플릿 세트 및 특징점 세트로부터 모델링된 템플릿 세트를 생성하는 단계; 및 생성된 템플릿 세트를 템플릿 검출자 세트로서 설정하는 단계를 더 포함할 수 있다.
타깃 이미지와 템플릿 검출자 세트를 비교하는 상기 단계는, 타깃 이미지의 각각의 영역과 각각의 템플릿 검출자를 비교하는 단계를 더 포함할 수 있다.
타깃 이미지와 템플릿 검출자 세트를 비교하는 상기 단계는, 타깃 이미지 내의 대응하는 특징점에 대하여 일련의 위치들(positions)에서 타깃 이미지와 별도로(separately) 각각의 템플릿 검출자를 상호 관계시켜, 응답 이미지(response image) 세트가 형성되도록 응답 이미지를 생성하는 단계; 및 비선형 최적화(non-linear optimisation)를 이용하여, 업데이트된 특징점 세트가 생성되도록 각각의 특징점에 대한 최적의 상관의 위치들(positions)를 위치결정하는(locate) 단계 - 상기 업데이트된 특징점 세트는 객체 클래스의 객체에 대한 특징점의 유효 세트(valid set)를 형성함 - 를 더 포함할 수 있다.
특징점 세트를 초기화하는 상기 단계는, 전역 객체 검출자(global object detector)를 이용하여 객체를 포함하는 타깃 이미지 내의 이미지 영역을 식별하는 단계; 및 전역 객체 검출자에 의해 식별된 이미지 영역 내의 평균 특징점 위치로 특징점 세트를 초기화하는 단계를 더 포함할 수 있다.
특징점 세트를 초기화하는 상기 단계는,
각각의 특징점을 포함하는 상기 전역 객체 검출자를 이용하여 식별된 상기 타깃 이미지의 상기 영역 내의 이미지 영역들을 식별하기 위해 특징 검출자들의 세트를 이용하는 단계; 및 특징 영역 검출자에 의해 식별된 이미지 영역 내의 평균 특징 위치로 각각의 특징점을 초기화하는 단계를 더 포함할 수 있다.
상기 방법은, 일련의 타깃 이미지를 포함하는 비디오 시퀀스 내의 객체 특징을 위치결정하는 단계; 제1 타깃 이미지 내의 특징점 세트를 초기화하는 단계; 및 이전의 타깃 이미지로부터의 업데이트된 특징점을 이용하여 이후의 타깃 이미지에 대한 특징점 세트를 초기화하는 단계를 더 포함할 수 있다.
객체 클래스는 사람 얼굴을 포함할 수 있다.
본 발명의 제2 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체의 시각적 외형(visual appearance)을 모델링하는 방법이 제공되고, 이 방법은, 타깃 이미지 내의 특징 점 세트를 초기화 하는 단계 - 각각의 특징점은 객체 클래스의 객체에 대한 미리 결정된 특징에 대응함 - ; 객체 클래스의 통계적 모델을 이용하여, 특징점 세트로부터 템플릿 검출자 세트를 유도하는 단계 - 각각의 템플릿 검출자는 객체 클래스의 객체에 대한 특징점의 위치에 대하여 위치결정된 이미지 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하는 단계; 및 비교 결과에 응답하여 타깃 이미지 내의 특징점 세트를 업데이트하는 단계를 포함한다.
본 발명의 제3 형태에 따르면, 타깃 이미지 내의 사람 얼굴의 시각적 외형을 모델링하는 방법이 제공되고, 이 방법은, 타깃 이미지 내의 특정점 세트를 초기화하는 단계 - 각각의 특징점은 미리 결정된 얼굴 특징에 대응함 - ; 사람 얼굴의 통계적 모델을 이용하여, 특징점 세트로부터 템플릿 검출자 세트를 유도하는 단계 - 각각의 템플릿 검출자는 얼굴 특징의 위치에 대하여 위치결정된 이미지 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하는 단계; 및 비교 결과에 응답하여 타깃 이미지 내의 특정점 세트를 업데이트하는 단계를 포함한다.
본 발명의 제4 형태에 따르면, 전술한 방법을 수행하기 위하여 컴퓨터를 제어하기 위한 컴퓨터 판독가능 코드(computer readable code)를 운반(carrying)하는 캐리어 매체(carrier medium)가 제공된다.
본 발명의 제5 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하기 위한 컴퓨터 장치가 제공되고, 이 장치는 프로세서 판독가능 명령들(processor readable instructions)을 저장하는 프로그램 메모리; 및 상기 프로그램 메모리에 저장된 명령들을 판독(read) 및 실행(execute)하도록 구성된 프로세서를 포함하고, 여기서 프로세서 판독가능 명령들은 프로세서가 전술한 방법을 수행하도록 제어하는 명령들을 포함한다.
본 발명의 제6 형태에 따르면, 타깃 이미지 내의 객체 클래스의 객체 특징을 위치결정하기 위한 장치를 제공하고, 이 장치는 타깃 이미지 내의 특징점 세트를 초기화하기 위한 수단 - 각각의 특징점은 객체 클래스의 객체에 대한 미리 결정된 특징에 대응함 - ; 객체 클래스의 통계적 모델을 이용하여 특징점 세트로부터 템플릿 검출자 세트를 유도하기 위한 수단 - 각각의 템플릿 검출자는 객체 클래스의 객체에 대한 특징점의 위치에 대하여 위치결정된 이미지 영역을 포함함 - ; 타깃 이미지와 템플릿 검출자 세트를 비교하기 위한 수단; 및 비교 결과에 응답하여 타깃 이미지 내의 특징점 세트를 업데이트하기 위한 수단을 포함한다.
이하, 첨부한 도면을 참조하여 단지 예로서, 본 발명을 설명할 것이다.
도 1은 본 발명의 실시예에 따른 객체의 특징을 위치결정하는 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 통계적 모델을 생성하기 위하여 이용되는 일련의 트레이닝 이미지로부터의 4개의 예시적인 이미지를 예시하는 도면이다.
도 3은 본 발명의 제1 특정 실시예에 따른 타깃 이미지 내의 특징을 위치결정하는 방법을 흐름도 형식으로 예시하는 개략도이다.
도 4는 본 발명의 제2 특정 실시예에 따른 타깃 이미지 내의 특징을 위치결정하는 방법을 흐름도 형식으로 예시하는 개략도이다.
도 5는 도 4의 실시예에 따른 형상 모델에 대한 변화 모드를 예시하는 개략 도이다.
도 6은 도 4의 실시예에 따른 텍스쳐 모델에 대한 변화 모드를 예시하는 개략도이다.
도 7은 도 4의 실시예에 따른 결합된 형상 및 텍스쳐 모델에 대한 변화 모드를 예시하는 개략도이다.
도 8a 및 8b는 공적으로 이용 가능한 제1 및 제2 데이터 세트로부터 각각 도시된 정적 이미지에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 정적 이미지에 대한 특징점 국소화에 대하여 도 3 실시예의 성능을 예시하는 도면이다.
도 9a 및 9b는 공적으로 이용 가능한 제1 및 제2 데이터 세트로부터 각각 도시된 정적 이미지에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 정적 이미지에 대한 특징점 국소화에 대하여 도 4 실시예의 성능을 예시하는 도면이다.
도 10은 타깃 이미지가 첨가된 타깃 이미지에 대한 최종 특징 위치에 수렴하는 도 3의 실시예에 대한 템플릿 검출자를 예시하는 개략도이다.
도 11은 타깃 이미지가 첨가된 타깃 이미지에 대한 최종 특징 위치에 수렴하는 도 4의 실시예에 대한 템플릿 검출자를 예시하는 개략도이다.
도 12는 본 발명의 실시예를 테스트하기 위하여 이용되는 3개의 비디오 시퀀스로부터의 예시적인 프레임을 예시하는 도면이다.
도 13은 비디오 시퀀스에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 도 12에서 예시되는 3개의 비디오 시퀀스의 각각에 대한 특징점 국소화에 대하여 도 3 실시예의 성능을 예시하는 도면이다.
도 14는 비디오 시퀀스에 대한 특징점을 국소화하는 공지된 방법의 성능에 관계된, 도 12에서 예시된 3개의 비디오 시퀀스의 각각에 대한 특징점 국소화에 대하여 도 4 실시예의 성능을 예시하는 도면이다.
본 명세서에 설명된 본 발명의 실시예에서, 눈동자 또는 입의 코너와 같은 얼굴 특징의 자동 위치결정은 정적 및 비디오 어플리케이션 모두에 제공된다. 사람의 얼굴에 적용되는 경우, 본 발명의 실시예는 일부의 종래 기술 알고리즘보다 더 강건하고 더 정확하게 나타낸다.
종래 기술 AAM은 형상 변화도(shape variability)에 대해 교정하기 위하여 이미지를 첫 번째 워핑(warping)한 후에, 이미지 내의 객체와 교차하여 명암도 내의 변화의 통계적 모델링을 이용한다. 외형 모델은 객체 주위의 대상 영역 내의 이미지 구조를 표시한다. 일반적으로, AAM의 경우, 이것은 모든 객체 또는 일부의 객체를 커버(cover)하는 2D 영역이다.
AAM은 2 단계(two-step) 프로세스를 수반한다. 첫째로, 외형 모델은 주어진 클래스 객체를 위하여 형성된다. 둘째로, 객체의 동일한 클래스의 객체를 위치결정하기 위하여 타깃 이미지가 검색된다. 모든 모델 형성 및 이미지 검색 도중에, 대상 이미지는 각각의 대상 영역을 통해 샘플링된다. 샘플값(sample value)은 각각의 영역 내의 이미지 구조를 표시하는 벡터 내에 배치된다. 모델과 타깃 이미지 사이의 텍스쳐의 차 즉, 각각의 점에서의 이미지 명암도 차는 최적의 가능한 매 치(match)를 얻도록 향상된 모델 파라미터를 예측하기 위하여 이용된다.
본 발명의 실시예는 템플릿 검출자 세트를 생성하는데 기초하고, 템플릿 검출자를 이용하여 그 타깃 이미지 내의 객체에 대한 정확한 특징 위치를 향한 디폴트 위치(default position)로부터의 타깃 이미지 내의 특징 위치(예를 들어, 얼굴 특징 위치)를 반복적으로 향상시킨다. 템플릿 검출자 세트는 이미지 패치(image patch) 세트를 포함하고, 각각의 이미지 패치는 특징 위치에 대응한다. 각각의 템플릿 검출자는 그 대응하는 특징 위치의 현재 위치에 대하여 타깃 이미지 영역 내의 타깃 이미지와 상관된다.
본 발명의 특정 실시예는 본 명세서에서 템플릿 선택 트래커(Template Selection Tracker : TST) 또는 템플릿된 활성 외형 모델(Templated Active Apperance Model : TAAM)이라 칭한다. 이 용어는 발명의 범위를 임의의 방식으로 제한하는 것으로서 해석되어서는 안된다. 발명의 범위는 설명을 고려하여 본 명세서에 첨부된 청구범위에 의해 정의된다.
이하, 개요에서 본 발명의 실시예를 설명한다. 설명한 방법은 도 1에 도시된 2개의 단계를 포함한다.
초기 트레이닝 단계(단계(S1)) 동안, 예시적인 트레이닝 이미지의 트레이닝 세트로부터 모델이 생성되고, 각각의 이미지는 객체 클래스의 객체를 표시한다. 트레이닝 세트 내에 대략 1000개의 이미지가 존재할 수 있다. 일반적으로, 이 트레이닝 이미지는 트레이닝 이미지 사이의 대응하는 특징을 정의하는 특징점을 수동으로 레이블(label)한다. 객체 클래스가 사람 얼굴인 본 발명의 하나의 실시예에서, 트레이닝 세트 내의 각각의 이미지는 미리 결정된 특징에 대응하는 22개의 특징점(예를 들어, 눈의 코너 및 입의 코너)으로 수동으로 레이블된다. 본 발명의 또 다른 실시예에서, 트레이닝 이미지는 특징점으로 자동으로 레이블될 수 있다.
각각의 특징점 주위에서, 이미지의 표준화된 부분(또는 템플릿)이 샘플링된다. 템플릿은 트레이닝 세트 이미지 사이의 스케일 변화를 설명하는 객체의 미리 결정된 치수 예를 들어, 얼굴 이미지에 대한 눈의 중심 사이의 거리에 관계하여 샘플링된다. 트레이닝 세트 내의 텍스쳐 정보(즉, 템플릿과 교차하는 픽셀 명암도 변화) 및 형상 정보(즉, 각각의 이미지에 대한 특징점의 분포)는 모델을 생성하기 위하여 이용된다.
제2 객체 식별 단계(단계(S2)) 동안, 생성된 모델을 타깃 이미지(즉, 트레이닝 이미지 세트 내에 포함되지는 않지만, 동일한 객체 클래스로부터의 이미지)에 피트시키기 위한 시도(attempt)가 이루어지고, 그에 따라 타깃 이미지 내의 동일한 클래스 객체에 대한 미리 결정된 특징의 위치를 위치결정한다. 본 발명의 실시예는 타깃 이미지 내의 미리 결정된 특징을 자동으로 위치결정하는 것을 시도한다.
이미지 식별 단계의 제1 단계는 이미지 내의 객체를 위치결정하는 것이다. 얼굴에 대해서는, 본 명세서에 참조로서 인용되는 공지된 Viola and Jones face detector described in Viola, P., Jones, M: "Rapid object detection using a boosted cascade of simple features", In.: Computer Vision and Pattern Recognition Conference 2001. Volume 1., Kauai, Hawaii (2001) 511-518과 같은 표준 얼굴 검출자(standard face detector)가 이용된다.
Viola 및 Jones 얼굴 검출자를 적용시켜, 객체 식별 단계는 2개의 서브 단계(sub-step) 즉, 템플릿 선택 단계(S3) 및 형상 제약된 검색 단계(S4)를 포함하고, 이들 모두는 이하의 본 발명의 특정 실시예를 참조하여 보다 상세하게 설명할 것이다.
단계(S1)의 초기 트레이닝에 의해 생성된 모델은 단계(S2)의 객체 식별 단계(본 발명의 특정 실시예를 참조하여, 이하에서 보다 상세히 설명할 것임)동안, 동일한 객체 클래스로부터의 객체를 포함하는 타깃 이미지 내의 실제 특징점을 위치결정하는데 이용하기 위한 특징 템플릿 검출자 세트를 생성하기 위해 이용된다.
템플릿 검출자가 타깃 이미지에 적용될 경우, (템플릿 검출자당 하나의) 응답면(response surface)의 세트가 생성된다. 각각의 템플릿 검출자는 현재 추정된 특징 위치에 대하여 위치의 범위에서 타깃 이미지와 별개로 상관된다. 각각의 응답면은 현재 특징점에 대하여 각각의 픽셀 위치에서 그 특징점 및 타깃 이미지에 대한 템플릿 검출자 사이의 교정 결과를 포함한다. 응답면의 세트는 (예를 들어, 본 명세서에 참조로서 인용되는 D. Cristinacce and T. Cootes: "A comparison of shape constrained facial feature detectors" In 6th International Conference on Automatic Face and Gesture Recognition 2004, Seoul, Korea, pages 375-380, 2004에 설명된) 비선형 최적화 기술을 이용하여 향상된 특징점 위치를 계산하기 위하여 이용된다. 최적화 기술은 위치가 모델 내의 "합법적" 예시에 대응한다는 것을 보장하기 위하여, 특징점이 형상 변화에 대한 정보를 모델링함으로써 부과된 제약에 영향을 받기 쉽다는 것을 보장한다.
업데이트된 특징점은, 다음 반복(next iteration)에서 새로운 템플릿 검출자 세트를 생성하기 위하여 현재 특징점으로서 이용되거나, 그것이 본 발명의 실시예의 이전 반복(preceding iteration)으로부터의 특징점에 근접하여 놓여있다는 것이 발견될 경우, 최종 특징점으로서 출력된다.
이하, 본 발명의 2개의 실시예를 보다 상세하게 설명할 것이다.
본 발명의 제1 실시예는 템플릿 선택 트래커 알고리즘(Template Selection Tracker algorithm : TST)이라 칭한다. TST 알고리즘은 트레이닝 이미지 세트, 및 (이하에서 보다 상세하게 설명할 것인) 초기 트레이닝 단계 동안 수동으로 레이블된 얼굴 이미지 세트로부터 학습된 템플릿 세트로부터 생성된 형상 모델을 이용한다. 이미지 식별 단계 동안, TST 알고리즘은 2개의 단계 즉, 템플릿 선택 단계 및 형상 제약된 검색 단계를 포함한다.
템플릿 선택 단계 동안, TST 알고리즘은 타깃 이미지의 현재 특징점을 이용하여, 형상 모델을 타깃 이미지로 피트시키는 것을 시도한다. 새로운 타깃 이미지에 대하여, 특징점은 디폴트 위치로 초기화된다. 형상 공간(shape space) 내의 유클리드 거리(Euclidean distance)는 예시적인 트레이닝 이미지의 가장 가까운 이웃 검색(neighbour search)을 수행하도록 이용된다. 즉, 타깃 이미지의 현재 특징점과의 가장 근접한 공간적 상관을 가지는 트레이닝 이미지의 서브세트를 식별하기 위하여, 타깃 이미지의 현재 특징점은 트레이닝 세트 내의 각각의 이미지와 순차적으로 비교된다. 트레이닝 이미지의 서브세트는 대략 20개의 트레이닝 이미지일 수 있다. 트레이닝 세트로부터 가장 근접한 템플릿 텍스쳐 매치를 선택하기 위하여, 형상에 의해 선택된 트레이닝 이미지의 서브세트는 현재 타깃 이미지와 상관된다. 즉, 트레이닝 이미지 중의 어느 것이 타깃 이미지에 가장 근접한 텍스쳐 매치(textural match)를 가지는지를 식별하기 위하여, 트레이닝 이미지의 서브세트의 각각에 대한 텍스쳐 템플릿은 타깃 이미지 템플릿과 상관된다.
가장 근접한 매칭 트레이닝 이미지가 식별되면, 그 트레이닝 이미지에 대한 템플릿은 타깃 이미지 내의 특징점을 검색할 시에 템플릿 검출자로서 이용된다. 타깃 이미지의 현재 특징점을 향상시키기 위하여, 템플릿 검출자는 형상 제약된 검색 단계에서, 표준화된 교정을 이용하여, 타깃 이미지와 상관된다. 형상 제약된 검색 단계는 본 명세서에서 참조로서 인용되는 D. Cristinacce and T. Cootes: "A comparison of shape constrained facial feature detectors", In 6th International Conference on Automatic Face and Gesture Recognition 2004, Seoul, Korea, pages 375-380, 2004 내에 설명된 것과 유사하다.
상기 참조된 문헌에 설명된 검색 방법에서, 검색 중에 특징 템플릿이 고정된다. 그러나, 상기 본 발명의 실시예에서는, 현재 특징점 및 타깃 이미지로부터 적절한 템플릿 검출자가 생성되는 곳에서 반복 스킴(iteration scheme)이 구현된다. 또한, 하드 리미트(hard limit)를 이용하여 제약되는 형상 모델 파라미터 대신에, 형상 모델 파라미터가 비선형 최적화 함수에 소프트 페널티 항(soft penalty term) 을 추가시킴으로써 제약된다. 소프트 페널티 항은 형상을 방해하고, 이것은 통계적 형상 모델에 따른 발생 사건(occurrence)의 낮은 확률을 가진다.
검색 방법은 활성 형상 모델에도 관계된다. 그러나, 다시, ASM은 각각의 검출자에 대한 전체 응답면을 이용하는 대신에, 고정된 템플릿을 이용하고, 형상 모델만을 이용하여 각각의 검출자의 최적의 매치를 계산한 후에 특징점을 업데이트한다.
템플릿 검출자는 각각의 템플릿 검출자의 각 특징점을 둘러싸고 있는 타깃 이미지 영역에 대하여 증분적으로 이동된다. 표준화된 교정은 응답면의 세트를 생성한다. 모델의 피트의 품질(즉, 타깃 이미지 내의 실제 특징점에 관계된 현재 특징점의 위치의 정확도)은 공지된 방법을 이용하여 최적화된다. 특히, 모델의 피트 품질은 (본 명세서에서 참조로서 인용되는 J. A. Nelder and R. Mead: "A simplex method for function minimization", Computer Journal, 7:308-313, 1965에서 설명된) Nelder-Mead 심플렉스 알고리즘을 이용하여 최적화된다. Nelder-Mead 심플렉스 알고리즘은 각각의 점에서의 응답의 합을 최대화하기 위하여 즉, 타깃 이미지와 각각의 템플릿 검출자 사이의 가장 강한 교정의 위치를 위치결정하기 위하여, 형상 모델의 파라미터를 구동시킨다. 이것은 새롭고, 향상된 타깃 이미지에 대한 특징점 세트를 생성한다. 현재 특징점이 타깃 이미지 내의 고정된 위치에 수렴되면, 프로세스는 종료한다. 현재 특징점이 타깃 이미지 내의 고정된 위치에 수렴되지 않으면, 새로운 템플릿 선택 단계에서 새로운 템플릿 검출자가 생성된다.
얼굴을 포함하는 타깃 이미지가 첫 번째 제공될 시에, 전술한 바와 같은 타 깃 이미지 내의 얼굴을 검색하기 위하여 Viola 및 Jones 얼굴 검출자가 이용된다. 검출된 얼굴 영역 내에서는, 본 명세서에서 참조로서 인용되는 Felzenszwalb, P., Huttenlocher, D: "Pictorial structures for object recognition" International Journal of Computer Vision 61 (2005) 내에 설명된 그림 구조 매칭(Pictorial Structure Matching : PSM) 방법을 이용하여 제약된, 보다 작은 Viola 및 Jones 특징 검출자가 초기의 추정된 특징 위치를 계산하기 위하여 이용된다.
이하, 템플릿 선택 트래커 알고리즘을 보다 상세하게 설명할 것이다.
(도 1의 단계(S1)에서) 결합 형상(joint shape) 및 텍스쳐 모델을 형성하기 위하여, 이미지 트레이닝 세트는 우선 다수의 특징점과 레이블링되어야 한다. 도 2는 트레이닝 세트로부터의 4개의 예시적인 이미지를 나타낸다. 트레이닝 세트는 얼굴을 포함하는 다수의(예를 들어 1052개의) 트레이닝 이미지를 포함한다. 트레이닝 이미지는 각도의 범위 및 조명 조건의 범위에서 취득될 수 있다. 각각의 트레이닝 이미지(1)는 식별 가능한 얼굴 특징에 대응하는 (하얀 십자표시로 나타낸) 특징점(2)으로 레이블된다.
통계적 형상 모델은 본 명세서에 참조로서 인용되는 T. Cootes, G. J. Edwards, and C. J. Taylor: "Active appearance models", In 5th European Conference on Computer Vision, pages 484-498. Springer, June 1998 내에 설명된 공지된 방법을 이용하여 트레이닝 세트로부터 형성된다. 각각의 트레이닝 이미지는 트레이닝 이미지 내의 각각의 특징점의 좌표를 연관시킴으로써 형성된 n차원 형상 벡터(x)에 의해 표시된다.
주 성분 분석(Principal Component Analysis : PCA)을 이용하여, 각각의 형상 벡터(x)는 다음과 같은 형태의 선형 모델에 의해 근사치될 수 있다.
Figure 112008074957475-pct00001
(1)
Figure 112008074957475-pct00002
는 평균 형상이고, P는 형상 변화의 직교 모드 세트이며, b는 각각의 트레이닝 이미지에 대한 형상 파라미터의 세트이다. 이것은 트레이닝 세트와 유사한 형상의 파라메티제이션(parametisation)(b)을 제공한다. 형상 모델 파라미터(b)는 전치 행렬(transpose matrix)(PT)을 이용하여 새로운 형상에 대하여 추정될 수 있다.
객체 클래스의 새로운 예(즉, 본 예에서의 새로운 얼굴)는 트레이닝 세트에서 발견된 범위 내의 b의 값을 선택함으로써 생성될 수 있다.
도 2에 도시된 트레이닝 세트 내의 각각의 이미지에 대하여, 직사각형 템플릿은 각각의 레이블된 특징점 주위에 도시된다. 템플릿은 각각의 특징점에 대하여 국소화된 영역 내의 이미지에 대한 텍스쳐(즉, 명암도 변화) 정보를 포함한다. 템플릿은 (눈 중심 사이의 표준화된 거리에 관계하여 표준화함으로써와 같이) 스케일에 대하여 표준화된다. 각각의 템플릿의 평균 명암도는 조명 조건의 변화를 설명하도록 표준화될 수도 있는데, 이것 하에 이미지는 레코딩된다. 특징 템플릿은 각각 의 트레이닝 이미지에 대하여 계산되고, 그 트레이닝 이미지에 대한 대응하는 형상 모델 파라미터(b) 쪽에 저장된다.
도 1의 단계(S2)의 객체 식별 단계는 도 3의 흐름도에 개략적으로 예시된다. 객체 식별 단계(S2)의 처음에는, 타깃 이미지(즉, 얼굴의 경우 - 트레이닝 세트 내에 포함되지 않고, 트레이닝 세트로서 동일한 클래스의 객체를 포함하는 새로운 이미지)가 식별된다. 객체를 포함하는 타깃 이미지 영역을 식별하기 위하여 전술한 Viola 및 Jones 얼굴 검출자가 이용될 수 있다.
객체 식별 단계는 템플릿 선택 단계(S3) 및 형상 제약된 검색 단계(S4)를 통해 사이클링함으로써 특징점이 반복적으로 향상되는 (상기 논의한 바와 같은) 반복 프로세스이다. 초기에, 타깃 이미지는 단계(S5)에서 임의의 시작 특징점(arbitrary starting feature point)을 제공받아야 한다. 시작점은 (얼굴 검출자를 수동으로 레이블된 검증 이미지(verification image)의 세트에 적용시킴으로써 학습된) Viola 및 Jones 얼굴 검출자에 의해 검출된 영역에 관계된 평균 특징점일 수 있고, 그것은 임의의 다른 디폴트 위치일 수 있다. 이와 달리, (전체 얼굴 영역에 대립되는 것으로서) 개개의 얼굴 특징 상에 트레이닝된 Viola 및 Jones 검출자는 초기 시작점을 제공하기 위하여 이용될 수 있다. 얼굴이 비디오 시퀀스 내의 하나의 프레임으로부터 다음 프레임으로 트래킹되는 어플리케이션에 대하여, 시작점은 (디폴트 특징점으로써 초기화시키는 단계를 요구하는, 첫 번째 프레임을 제외한) 마지막 프레임에 대한 최종 특징점일 수 있다.
단계(S6)에서는, 타깃 이미지 상의 현재(즉, 초기 디폴트) 특징점의 형상 정 보 및 각각의 특징점 주위의 템플릿 내의 텍스쳐 정보가 샘플링된다. 그 후, 프로세스는 템플릿 선택 단계(S3)로 진행한다.
TST 알고리즘에 대한 템플릿 선택 단계(S3)는 가장 가까운 이웃 선택 단계(S7)를 포함한다. 단계(S6)로부터 현재 특징점 및 텍스쳐가 주어지면, 유사한 특징 템플릿 세트는 트레이닝 세트 내의 트레이닝 이미지의 가장 가까운 이웃 검색을 이용하여 생성될 수 있다. 형상 모델은 현재 형상 파라미터(b)를 얻기 위하여 현재 특징점에 피트된다. 그 후, 이 파라미터는 트레이닝 세트 내의 각각의 이미지에 대한 저장된 형상 파라미터(b)와 비교된다. 형상 공간 내의 유클리드 거리를 이용하여 트레이닝 세트로부터의 K개의 가장 근접한 매칭 형상이 선택된다. 이러한 방식으로, 트레이닝 세트는 우선 타깃 이미지 내의 현재 특징점과 각각의 트레이닝 이미지에 대한 형상 정보를 비교함으로써, 트레이닝 이미지의 서브세트로 감소된다.
그 후, 표준화된 교정을 이용하여, 단계(S6)의 타깃 이미지로부터 얻은 특징점에 대한 텍스쳐 템플릿에 대하여, 각각의 트레이닝 이미지에 대한 텍스쳐 템플릿을 비교함으로써 형상 모델에 의해 선택된 주요한(top) K개의 트레이닝 이미지가 테스트된다. 이 프로세스는 그 템플릿이 타깃 이미지 내의 현재 특징점 주위의 템플릿에 가장 근접하게 매치하는 트레이닝 이미지의 서브세트로부터 트레이닝 이미지를 선택한다. 그 후, 형상 제약된 검색 단계(S4)에의 이용을 위하여, K개의 트레이닝 이미지의 서브세트로부터 최적으로 매치하는 트레이닝 이미지 템플릿은 각각의 얼굴 특징에 대한 템플릿 검출자를 제공하기 위하여 이용된다.
초기(또는, 이후 반복에서의, 현재의) 특징점이 주어지면, 이 중의 일부는 타깃 이미지에 대한 실제 특징점에 모일 수 있고, 이 가장 가까운 단순한 이웃 검색은 트레이닝 세트 내의 템플릿으로부터 템플릿 검출자의 알맞은 후보 세트(candidate set)(즉, 단일 이미지로부터 취득된 템플릿 세트)를 생성할 것이다.
파라미터 K(형상 모델에 의한 전체 트레이닝 세트로부터 식별된 서브세트 내의 트레이닝 이미지의 수)는 설정되는 것이 필요하다. 1052개의 트레이닝 이미지의 트레이닝 세트에 대하여, K = 20은 양호한 결과를 제공하기 위하여 발견되었다.
타깃 이미지 내의 현재 특징점의 위치를 향상시키기 위하여, 트레이닝 세트로부터 템플릿 선택 단계(S3)에서 선택된 템플릿 검출자가 형상 제약된 검색 단계(S4)에서 이용된다. 템플릿 검출자는 단계(S8)에서 타깃 이미지에 적용되어, 단계(S9)에서 응답면의 세트(각각의 특징에 대한 하나)를 계산한다. 각각의 템플릿 검출자는 그 검출자에 대응하는 현재 특징점 주위 영역에 걸쳐 조직적으로 스캐닝된다. (템플릿 검출자의 각각의 위치에서의) 특징 템플릿 검출자와 타깃 이미지 사이의 표준화된 교정은 응답값을 제공한다. 응답값은 각각의 템플릿 검출자에 대한 응답면 이미지 내에 저장된다. 각각의 템플릿 검출자가 타겟 이미지에 적용된 이후, 이것은 응답면의 세트를 제공한다.
높은 응답면의 값을 가지는 특징점 위치를 표시하는 형상 파라미터를 선택하기 위하여, 형상 파라미터 최적화 단계(S10)는 형상 모델을 현재 특징점으로 피트시키고 형상 파라미터를 변경시키려고 하지만, 여전히 "합법적" 형상 구성을 표시한다.
(Xi, Yi)를 (i가 인덱스인) 타깃 이미지 내의 특징점(i)의 위치로 하고, Ii(Xi, Yi)를 그 점에서의 i번째 특징점의 응답 이미지의 값으로 하자. 위치는 다음의 벡터(X)로 연관될 수 있다.
Figure 112008074957475-pct00003
(2)
통계적 형상 모델은 T F Cootes, A Hill, C J Taylor and J Haslam: "The use of active shape models for locating structures in medical images", Image and Vision Computing 12(6): 276-285, July 1994 내에 설명된 기술을 이용하여 타깃 특징점(X)에 피트된다.
형상 모델 피팅(shape model fitting)은 형상 모델 파라미터(b) 및 형상 모델 프레임으로부터 타깃 이미지 프레임으로의 변환(transformation)(Tt)을 제공한다. 변환(Tt)은 파라미터(t)를 가지는 유사 변환(similarity transform)(즉, 스케일, 번역(translation) 및 회전으로 제한됨)이다.
특징점(X)의 새로운 세트를 생성하기 위하여, X는 형상 파라미터(b) 및 다음과 같은 유사 변환(Tt)으로부터 근사치될 수 있다.
Figure 112008074957475-pct00004
(3)
X의 시작 파라미터(starting parameter)가 통계적 모델에 의해 잘 표시될 경우,
Figure 112008074957475-pct00005
이다. 유사 변환(t)의 파라미터 및 형상 파라미터(b)는 하나의 결합된 벡터(p)를 형성하도록 연관된다.
Figure 112008074957475-pct00006
(4)
따라서, 미리계산된 응답면(Ii(Xi, Yi))을 가지는 타깃 이미지(X') 내의 특징점 세트는 p의 함수로서 표시될 수 있다. p에 대하여 초기 시작 값이 주어지면, 이미지 응답면(Ii) 및 트레이닝 세트로부터 학습된 통계적 형상 모델에 기초하여 함수 f(p)를 최적화함으로써 검색이 진행된다. 이용되는 함수는 다음과 같다.
Figure 112008074957475-pct00007
(5)
제2 항은 주어진 형상 파라미터(bj) 및 고유값(λj)의 로그-우도(log-likelihood)의 추정값이고, 여기서 로그-우도는 통계적 형상 모델에 따른 b에 의해 표시된 주어진 형상의 개연성(plausibility)의 측정값이며, 형상 파라미터(bj)가 독 립적이고 가우시안 분포(Gaussian distributed)되었다는 점을 가정한다. 파라미터(R)는 템플릿 검출자와 타깃 이미지 사이의 개연적인 형상 및 상관 관계의 품질의 상대적 중요성을 결정하는 가중치(weighting)이다. 예를 들어, R = 0에 대하여, 함수는 형상을 무시하고, 특징의 임의의 구성를 선택한다. R의 보다 큰 값에 대해서는, 고품질 검출자 응답의 대신에 개연적인 형상 구성이 부여된다. (도 2에 도시된 트레이닝 세트 이미지와 유사한) 수동으로 레이블된 특징점을 가지는 이미지의 검증 세트에 적용될 시에, f(p)의 제1 및 제2 항의 비율을 계산함으로써 R의 지각 가능한 값(sensible value)이 결정될 수 있다.
방정식(5)은 전술한 공지된 Nelder-Meade 심플렉스 알고리즘을 이용하여 단계(S10)에서 최적화된다.
방정식(5)은 공지된 형상 제약된 얼굴 특징 검출자에 이미 이용된 객체 함수와 상이하고, 이것은 형상 파라미터(bj) 상에서 하드 리미트를 이용하였다. 하드 리미트를 이용하는 것은 형상과 특징 응답 사이의 트레이드 오프(trade off)에 대한 필요성을 회피하는 이점을 가진다. 그러나, (예를 들어, 모든 형상 파라미터(bj)가 그 개개의 리미트에 근접할 경우) 하드 리미트를 이용하는 것은 가능성 없는 형상을 허용할 수 있으며, 이것이 단점이다.
본 발명의 특정 실시예에서, 추가된 상세화(refinement)는 응답면을 스무드(smooth)하게 하기 위한 거리 변환의 이용이다. 템플릿 검출자 응답에 적용될 시에, 거리 변환은 본 명세서에 참조로서 인용되는 P Felzenszwalb, D Huttenlocher: "Pictorial structures for object recognition", International Journal of Computer Vision, 61 (2005) 내에 설명된 바와 같은 여러 쌍의 특징 검출자 사이의 변형 가능한 형상 변화를 허용한다. 응답 이미지의 스무딩(smoothing)은 방정식(5)의 최적화가 잘못된 최소치(false minima)를 피하도록 돕고, 또한 나머지 변화를 설명한다. 형상 모델에 의해 설명되지 않은 형상 변화는 거리 변환에 의해 고려된다.
단계(S10)에서의 방정식(5)의 최적화 결과는 타깃 이미지에 대한 단계(S11)에서의 업데이트된 특징점 세트이다. 결정 단계(S12)에서, 단계(S11)로부터 업데이트된 점은 이전 반복과 비교하여 점 이동(point movement)에 대한 임계치를 이용하여 수렴(convergence)에 대해 검사된다. 즉, 특징점이 상당히 이동하지 않았을 경우, 그것은 수렴된 것으로 간주된다. 타깃 이미지에 대한 특징점이 수렴되었을 경우, 단계(S11)로부터의 업데이트된 점은 단계(S13)에서의 최종점으로서 TST 알고리즘으로부터 출력된다. 특징점이 수렴되지 않았을 경우, S11로부터의 업데이트된 점은 S6에서 현재 특징점으로서 저장되고, 타깃 이미지로부터의 새로운 템플릿은 현재 특징점에 대하여 선택된다. 그 후, 템플릿 선택 단계는 다시 실행된다.
본 발명의 제2 예시적인 실시예는 제1 예시적인 실시예에 대하여 유사하다. 따라서, 일반적으로, 단지 알고리즘의 차는 공통성(commonality)의 영역에 대하여 상기의 설명에서 이루어진 참조로써, 상세하게 설명될 것이다.
본 발명의 제2 실시예는 탬플릿 활성 외형 모델(Templated Active Apprearance Model : TAAM)로서 본 명세서에 참조된다.
TAAM 알고리즘은 공지된 활성 외형 모델에 관계된다. 첫 번째 중요한 차이점은 TAAM 모델이 각각의 특징점에 대하여 위치결정된 이미지 부분(또는 템플릿)의 형상 및 텍스쳐 변화의 결합된 모델을 포함한다는 점이다. 트레이닝 이미지 중의 각 하나에 대한 명암도 및 형상 정보는 벡터로 로드(load)될 수 있으며, 그 후 이것은 모델을 생성하기 위하여 이용된다. TST와 같은 본 발명의 또 다른 실시예에서는, 이 단계가 발생하지 않는다.
반대로, AAM 알고리즘은 전체 객체 영역을 통해 형상 및 텍스쳐 변화로부터 모델을 생성한다. 얼굴은 모델링하는 것을 예로 들어, AAM 알고리즘은 특징점 사이의 위치결정된 일련의 삼각형으로 얼굴을 분리시키고, 그 후 각각의 삼각형 전체에 걸쳐 형상 및 텍스쳐 변화를 모델링한다. 이에 반해, TAAM 알고리즘은 특징 템플릿을 생성할 가능성이 있고, AAM 알고리즘은 전체 객체 영역에 대한 이미지 픽셀을 근사치하는 것을 시도한다.
조인트 모델(joint model)을 이용하여 새로운 템플릿 검출자를 생성함으로써, 모델은 반복 방식(iterative manner)으로 타깃 이미지에 피트된다. 현재 파라미터는 (본 발명의 TST 실시예에 관한 템플릿 검출자로서 이용하기 위하여 트레이닝 세트로부터 실제 템플릿을 선택하기 보다) 타깃 이미지를 추정한다. 본 발명의 TST 제1 실시예에 관하여, 템플릿 검출자는 타깃 이미지와 상호 관련되어 응답 이미지를 생성하고, 형상 파라미터는 응답의 합을 최대화하도록 최적화된다.
본 발명의 제2 실시예는 도 4의 흐름도 형식으로 개략적으로 예시된다. 본 발명의 제1 실시예에 대한 그것과 동등한 단계는 도 3에 관하여 동일한 번호로 제 공되며, 상세하게 설명되지 않는다.
본 발명의 제1 실시예와는 달리, 트레이닝 세트 내의 가장 근접한 단일 이미지를 식별하기 위하여 가장 가까운 이웃 선택을 수행하는 대신에 템플릿 선택 단계(S3) 도중에, 제2 실시예는 형상 및 텍스쳐 모델을 이용하여 형상 제약된 검색 단계(S4)에서의 템플릿 검출자로서의 이용을 위한 새로운 이미지 템플릿을 생성한다.
템플릿 생성 방법은 본 명세서에서 참조로서 인용되는 N Dowson, R Bowden: "Simultaneous modelling and tracking (SMAT) of feature sets", International Conference on Computer Vision and Pattern Recognition, San Diego, USA, June 2005에 설명된 공지된 기술에 관계된다. 그러나, SMAT 기술은 오프라인 데이터(offline data)를 이용하는 것 대신에, 가우시안 믹스쳐 모델을 이용하여 특징 외형을 모델링하며, 이것은 실행 시간에 형성된다. 템플릿 검출자는 업데이트되고, 트래커의 이전에 매치된 프레임을 제공받으며, 그에 따라 정확한 초기화를 요구한다. 또한, SMAT는 형샹 구성의 가우시안 믹스쳐 모델을 형성하고, 이것을 이용하여 특징 템플릿 모델이 업데이트될 수 있는 경우를 제한한다. TAAM 방법은 형상 및 텍스쳐를 명백하게 결합하여 강건한 검색 템플릿 생성 방법을 제공하고, 이것은 비합법적인 예를 생성할 수 없다.
템플릿 검출자가 생성되었다면, 이것은 특징점의 위치결정을 향상시키기 위하여, 본 발명의 제1 실시예에 관한 형상 제약된 검색 단계에서의 표준화된 상관을 이용하여 타깃 이미지와 상관된다.
본 발명의 제1 실시예에 관하여, 얼굴을 포함하는 타깃 이미지로써 첫 번째로 나타날 시에, Viloa 및 Jones 얼굴 검출자는 이미지 내의 얼굴을 검색하기 위하여 이용될 수 있다. 검출된 얼굴 영역 내에서, (전체 얼굴 영역에 대립되는 것으로서) 개개의 얼굴 특징상에 트레이닝된 Viola 및 Jones 특징 검출자는 단계(S5)에서의 초기 특징점을 제공하기 위하여 이용될 수 있다. 그 후, 이 특징점은 본 발명의 제1 실시예에 대하여 상기 설명된 것과 유사한 방법을 이용하여 상세히 논술된다.
이하, TAAM 알고리즘은 보다 상세하게 설명될 것이다.
본 발명의 제1 실시예에 관하여, 조인트 형상(joint shape) 및 조인트 텍스쳐 모델을 형성하기 위해 이미지의 트레이닝 세트는 도2에 도시된 바와 같이 특징점의 번호로 (수동 또는 자동 중의 하나로) 첫 번째 레이블되어야 한다.
앞서와 같이, 통계적 형상 모델은 공지된 방법을 이용하여 트레이닝 세트로부터 형성된다. 각각의 트레이닝 이미지는 트레이닝 이미지 내의 각각의 특징점의 좌표를 연관시킴으로써 형성된 n차원의 형상 백터(x)에 의해 표시된다. 주성분 분석(Principal Component Analysis : PCA)을 이용하여, 각각의 형상 벡터(x)는 다음 형태의 선형 모델에 의해 근사치될 수 있다.
Figure 112008074957475-pct00008
(6)
Figure 112008074957475-pct00009
는 평균 형상이고, Ps 는형상 변화의 직교 모드의 세트이며, bs 는 각각의 트레이닝 이미지에 대한 형상 파라미터의 세트이다.
객체 클래스의 새로운 예(즉, 새로운 얼굴)는 트레이닝 세트에서 발견된 범위 내의 bs 의 값을 선택함으로써 생성될 수 있다.
bs 의 첫 번째 2개의 구성요소를 변경시킴으로써 생성된, 형상 모델의 변화의 첫 번째 2개의 모드는 도 5에 도시된다. 평균값의 +/- 3 표준 편차 내에서 형상 모델의 변화의 첫 번째 2개의 모드 중 하나를 변경시키는 것이 형상 내의 상당한 왜곡(distortion)을 생성한다는 점을 알 수 있다.
도 2에 도시된 트레이닝 세트 내의 각각의 이미지에 대하여, 직사각형 템플릿은 각각의 레이블된 특징점 주위에 도시된다. 템플릿은 각각의 특징점에 대하여 국소화된 영역 내의 이미지에 대한 텍스쳐(즉, 명암도 변화) 정보를 포함한다. 각각의 트레이닝 이미지로부터의 얼굴 영역은 고정된 크기의 직사각형에 첫 번째 재샘플링되어, 트레이닝 이미지 사이의 스케일 변화를 허용한다. 각각의 템플릿은 픽셀 값이 0 및 유닛 분산(unit variance)의 평균을 가지도록 표준화된다. 그 후, 주어진 트레이닝 이미지로부터의 템플릿 패치(template patch)는 단일 그레이값 벡터(grey value vector)를 형성하도록 연관된다. 다음의 형상 모델에 관하여, 이 트레이닝 벡터 세트는 주성분 분석을 이용해 그레이 레벨 텍스쳐 변화의 선형 모델을 구성하기 위해 이용된다.
Figure 112008074957475-pct00010
(7)
Figure 112008074957475-pct00011
는 평균 표준화된 그레이 레벨 벡터이고, Pg 는 변화의 직교 모드의 세트이며, bg 는 각각의 트레이닝 이미지에 대한 그레이-레벨 파라미터의 세트이다. bg 의 첫 번째 2개의 구성요소를 변경시킴으로써 생성된, 텍스쳐 모델의 변화의 첫 번째 2개의 모드는 도 6에 도시된다. 평균값의 +/- 3 표준 편차 내에서 형상 모델의 변화의 첫 번째 2개의 모드 중 하나를 변경시키는 것이 템플릿 텍스쳐 내의 상당한 왜곡을 생성한다는 점을 알 수 있다.
형상 및 템플릿 텍스쳐 모델은 추가적인 주성분 분석 단계를 이용하여 하나의 조인트 모델을 생성하도록 결합된다. 조인트 모델은 다음의 형태를 가진다.
Figure 112008074957475-pct00012
여기서,
Figure 112008074957475-pct00013
Figure 112008074957475-pct00014
(8)
b는 형상과 텍스쳐 유닛 사이의 차를 설명하기 위한 적절한 가중치(Ws)를 가지는 연관된 형상 및 텍스쳐 파라미터 벡터이다. c는 각각의 트레이닝 이미지에 대한 조인트 외형 파라미터의 세트이다. Pc 는 PCA를 이용하여 계산된 직교 행렬이고, 이것은 2개의 행렬(Pcs 및 Pcg)로 분할하며, 이것은 주어진 형상 및 텍스쳐 파라미터와, 조인트 파라미터 벡터(c)를 함께 계산한다.
주어진 조인트 파라미터(c)의 세트에 대하여, 텍스쳐(g) 및 형상(x)을 가지는 템플릿 세트는 다음과 같이 계산될 수 있다.
Figure 112008074957475-pct00015
(9)
c의 첫 번째 2개의 구성요소를 변경시킴으로써 생성된, 조인트 외형 모델의 변화의 첫 번째 2개의 모드는 도 7에 도시된다. 평균값의 +/-3 표준 편차 내에서 조인트 형상 모델의 변화의 첫 번째 2개의 모드 중의 하나를 변경하는 것이 템플릿 텍스쳐 및 형상 내의 상당한 왜곡을 생성한다는 점을 알 수 있다.
객체 식별 단계(S2)는 본 발명의 실시예에 따른 알고리즘에 대한 것이고, 도 4의 흐름도에서 개략적으로 예시된다. 본 발명의 제1 실시예에 관하여, 객체 식별 단계(S2)의 시작은 타깃 이미지(즉, 얼굴의 경우 - 트레이닝 세트 내에 포함되지 않고, 트레이닝 세트로서 동일한 클래스의 객체를 포함하는 새로운 이미지)가 식별된다. 객체 식별 단계는 템플릿 선택 단계(S3) 및 형상 제약된 검색 단계(S4)를 통해 사이클링함으로써 특징점이 반복적으로 향상되는 (상기 논의된 바와 같은) 반복 프로세스이다. 초기에, 타깃 이미지는 전술한 바와 같이 단계(S5)에서 임의의 시작 특징점을 제공받아야 한다.
단계(S6)에서는, 타깃 이미지 상의 현재(즉, 초기 디폴트) 특징점의 형상 정 보 및 각각의 특징점 주위의 템플릿 내의 텍스쳐 정보가 샘플링된다. 그 후, 프로세스는 템플릿 선택 단계(S3)로 진행한다.
TAAM 알고리즘에 대한 템플릿 선택 단계(S3)는 조인트 모델(단계(S14))으로부터의 템플릿 검출자를 생성하는 단계를 포함한다. 조인트 모델 및 단계(S6)로부터의 디폴트 특징점의 초기 세트를 가지는 타깃 이미지가 주어지면, 조인트 모델은 방정식(10)에 도시된 바와 같이 형상, 텍스쳐 및 조인트 파라미터를 추정함으로써 이미지에 피트될 수 있다.
Figure 112008074957475-pct00016
Figure 112008074957475-pct00017
(10)
조인트 파라미터(c)가 주어지면, 현재 특징점을 근사치하는 형상을 가지는 템플릿 검출자 세트는 방정식(9)를 이용하여 계산될 수 있다.
템플릿 선택 단계(S3)에서 생성된 템플릿 검출자는 형상 제약된 검색 단계(S4)에서 이용되어, 본 발명의 제1 실시예에서와 동일한 방식으로 현재 특징점의 위치를 향상시킨다. 템플릿 검출자는 단계(S8)에서 타깃 이미지에 적용되어, 단계(S9)에서 응답 이미지의 세트(각각의 특징에 대한 하나)를 계산한다. 이 프로세스는 다음과 같다.
(Xi, Yi)를 타깃 이미지 내의 특징점(i)의 위치라고 하고(여기서, i는 인덱 스임), Ii(Xi, Yi)를 그 점에서의 i번째 특징 템플릿의 응답 이미지 값이라고 하자. 그 위치는 다음의 벡터(X)로 연관될 수 있다.
Figure 112008074957475-pct00018
(11)
제1 실시예에 관하여, 모델은 타깃 특징점(X)에 피트된다. 이것은 형상 모델 파라미터(b) 및 형상 모델 프레임으로부터 타깃 이미지 프레임으로의 변환(Tt)을 제공한다.
X는 형상 파라미터(b) 및 유사 변환(Tt)로부터 근사치되어, 특징점(X')의 새로운 세트를 생성할 수 있다.
Figure 112008074957475-pct00019
(12)
유사 변환(Tt)의 파라미터 및 형상 파라미터(b)는 벡터(p)로 연관된다.
Figure 112008074957475-pct00020
(13)
따라서, X는 p의 함수로서 표시될 수 있다. p에 대한 시작 값이 주어지면, 검색은 이미지 응답면(Ii) 및 트레이닝 세트로부터 학습된 통계적 형상 모델에 기초하여 함수(f(p))를 최적화시킴으로써 진행된다. 함수는 다음과 같이 이용된다.
Figure 112008074957475-pct00021
(14)
제2 항은 주어진 형상 파라미터(bj) 및 고유값(λj)의 로그-우도의 추정값이다. 그것은 형상 파라미터(bj)가 독립적이고 가우시안 분포되었다는 점을 가정한다. 파라미터(R)는 특징 검출자와 타깃 이미지 사이의 개연적인 형상 및 상관 관계의 품질의 상대적 중요성을 결정하는 가중치이다. 수동으로 레이블된 특징점을 가지는 이미지의 검증 세트에 적용될 시에, f(p)의 제1 및 제2 항의 비율을 계산함으로써 R의 값이 결정될 수 있다.
방정식(14)은 전술한 공지된 Nelder-Meade 심플렉스 알고리즘을 이용하여 단계(S10)에서 최적화된다.
단계(S10)에서의 방정식(5)의 최적화 결과는 타깃 이미지에 대한 단계(S11)에서의 업데이트된 특징점 세트이다. 결정 단계(S12)에서, 단계(S11)로부터 업데이트된 점은 이전 반복과 비교된 점 이동에 대한 임계치를 이용하여 수렴에 대해 검 사된다. 타깃 이미지에 대한 특징점이 수렴되었을 경우, 단계(S11)로부터의 업데이트된 점은 단계(S13)에서의 최종점으로서 TST 알고리즘으로부터 출력된다. 특징점이 수렴되지 않았을 경우, S11로부터의 업데이트된 점은 S6에서 현재 특징점으로서 저장되고, 템플릿 선택 단계는 다시 실행된다.
TST 알고리즘 및 TAAM 알고리즘을 2개의 공적으로 이용 가능한 데이터 세트에 적용시킴으로써 얼굴 특징을 정확하게 위치결정하기 위한 본 발명의 전술한 실시예의 능력이 테스트된다. 또한, 비교를 위하여, 공지된 AAM 알고리즘은 2개의 데이터 세트에 적용된다. 데이터 세트는 모두 얼굴을 포함하는 일련의 이미지를 포함한다. 이 데이터 세트는 TST 모델 및 TAAM 모델 모두를 생성하기 위한 초기 트레이닝 단계(S1) 내에서 이용된 이미지의 트레이닝 세트와는 완전히 관계가 없다. 테스트하는데 이용되는 제1 데이터 세트는 O Jesorsky, K J Kirchberg and R W Frishholz: "Robust face detection using the hausdorff distance", 3rd International Conference on Audio- and Video-Based Biometric Person Authentication, 2001에 설명되는 BIOID 데이터 세트이다. 이용되는 제2 데이터 세트는 K Messer, J Matas, J Kittler, J Luettin and G Maitre: "Xm2vtsdb: the extended m2vts database", Proc. 2nd Conference on Audio- and Video-Based Biometric Personal Verification, Springer Verlag, 1999에 설명된 XM2VTS 데이터 세트이다.
상대적 특징 국호화 정확도를 평가하기 위하여, 손쉽게 측정 가능한 거리 메 트릭(distance metric)이 이용된다. 파라미터는 각각의 자동으로 위치결정된 특징점으로부터 각각의 특징점의 대응하는 수동으로 레이블된 정확한 위치까지의 거리의 함수이다. 거리 메트릭은 방정식(15)에 따라 산정된다.
Figure 112008074957475-pct00022
(15)
di 는 자동으로 위치결정된 특징점으로부터 특징점의 대응하는 수동으로 레이블된 정확한 위치까지의 거리이다. s는 데이터 세트로부터 선택된 수동으로 레이블된 타깃 이미지로부터 산정된 좌측과 우측 눈동자 사이의 내안 거리(inter-ocular distance)이다. 거리 메트릭을 표준화하기 위하여 s에 의해 분배되는 것은 데이터 세트 내의 이미지 내의 얼굴 객체의 크기의 변화를 설명하기 위하여 필요하다. n은 특징점의 수이다. BIOID 및 XM2VTS 데이터 세트를 이용해 테스트하는 것에 대하여, n은 17이다. 이 테스트를 위하여, (눈, 코 및 입 주위의) 얼굴에 대한 내부의 특징 위치만이 거리 메트릭을 계산하기 위해 이용된다. 도 2에 도시된 바와 같이, 얼굴의 외부 주위의 특징점은 이용되지 않는다.
통계적 이미지에 대한 초기 특징점(S5)을 생성하기 위하여 이용되는 테스팅 절차는 전술한 Viola 및 Jones 얼굴 검출자를 적용시키고, 검출된 얼굴 영역 내의 유사한 더 작은 영역 검출자를 적용시키는 것이다. 더 작은 영역 검출자는 그림 구 조 매칭(PSM) 방법을 이용하여 제약된다. 이것은 점의 세트를 생성하고, 이것으로부터 TST 및 TAAM 알고리즘 모두와, 비교 AAM를 초기화한다. TST 및 TAAM 알고리즘은 별개로 테스트되었다.
TST 알고리즘에 대하여, 5개의 상이한 절차가 평가되었다.
* AVG - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 전역 viola 및 Jones 얼굴 검출자 상에서 이용하여 산정된 초기 특징점을 이용하여 간략하게 산정된다.
* PSM - 더 작은 영역 검출자를 이용하여 Viola 및 Jones 얼굴 영역 내의 발견된 PSM 매칭점을 이용하여 산정된다.
* AAM - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 AAM 알고리즘을 이용하여 산정된다.
* 고정된 TST - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TST 알고리즘을 이용하여 산정되지만, 고정된 템플릿 검출자를 이용하여(트레이닝 세트의 평균 템플릿을 이용하여) 제한된다. 이것은 템플릿의 텍스쳐를 반복적으로 업데이트하지 않고 특징점을 위치결정하기 위하여, TST 알고리즘의 능력의 표시를 제공한다.
* TST - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TST 알고리즘을 이용하여 산정되고, 이 시간은 템플릿 세트를 각각의 반복 동안 업데이트되도록 허용한다.
이러한 각각의 절차를 BIOID 및 XM2VTS 데이터 세트에 각각 적용시킨 결과는 도 8a 및 8b에 도시된다. 각각의 데이터 세트 및 상기 5개의 절차의 각각에 대하여, 특징점이 위치결정된 트레이닝 세트 내의 이미지의 비율은 주어진 거리 메트릭 내에서 거리 메트릭에 대하여 플로트(plot)된다.
TAAM 알고리즘에 대하여, 동일한 첫 번째 3개의 절차(AVG, PSM 및 AAM)는 다음의 것들과 함께 각각의 데이터 세트에 대해 평가되었다.
* 고정된 TAAM - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TAAM 알고리즘을 이용하여 산정되지만, 고정된 템플릿 검출자를 이용하여(트레이닝 세트의 평균 템플릿을 이용하여) 제한된다. 이것은 템플릿의 텍스쳐를 반복적으로 업데이트하지 않고 특징점을 위치결정하기 위하여, TAAM 알고리즘의 능력의 표시를 제공한다.
* TAAM - 데이터 세트 내의 각각의 이미지에 대한 거리 메트릭은 PSM 매칭점을 이용하여 초기화된 TAAM 알고리즘을 이용하여 산정되고, 이 시간은 템플릿 세트를 각각의 반복 동안 업데이트되도록 허용한다.
이러한 각각의 절차를 BIOID 및 XM2VTS 데이터 세트에 각각 적용시킨 결과는 도 9a 및 9b에 도시되고, 이것은 도 8a 및 8b에 대응한다.
도 8a, 8b, 9a 및 9b는 개개의 특징점(AVG 라인(AVG line))에 대한 국소화된 검색 없이, 모든 데이터 세트에 대한 가장 적은 성공적인 절차가 전역 얼굴 검출자로부터의 단순한 평균 특징점이었다는 것을 나타낸다. 검출된 얼굴 영역이 주어지면, 특징점 국소화 정확도는 PSM 제약 방법(PSM 라인)으로 더 작은 영역 검출자를 이용하여 모든 데이터 세트에 대하여 향상된다.
모든 4개의 그래프는 유사한 트렌드(trend)를 나타낸다. 최적의 수행 절차는 각각 반복적으로 템플릿을 업데이트하는 TST 및 TAAM 이다. 거리 메트릭 값(me < 0.075)에서 TST 알고리즘의 성공율은 AAM 알고리즘보다 더 크다. 상기의 이 값에 대하여, AAM 알고리즘은 약간 더 성공적이다. 고정된 템플릿을 가지는 TST 알고리즘을 이용하는 것은 보다 합리적으로 수행하지만(계산적으로 덜 비싼 이점을 가짐), 전체(full) TST 알고리즘에 비하여 더 낮은 성공율을 항상 가진다.
TAAM 알고리즘은 me 의 모든 값에 대한 AAM 알고리즘보다 더 양호하게 수행한다. TST 알고리즘에 관하여, 고정된 템플릿을 가지는 TAAM 알고리즘은 보다 합리적으로 수행하지만, 전체 TST 알고리즘에 비하여 더 낮은 성공율을 항상 가진다.
도 10 및 11은 예를 들어, BIOID 데이터 세트로부터의 예시적인 타깃 이미지에 대한 특징점에 대한 성공적인 검색을 향하여 수렴하는 전체 TST 및 전체 TAAM 알고리즘을 각각 예시한다. 템플릿은 각각의 반복 후에 변화하여 타깃 이미지를 닮는다. 도 10 및 11은 모두 시작(a), 첫 번째 반복(b) 이후, 두 번째 반복(c) 이후에서 첨가된 템플릿을 가지는 타깃 이미지를 나타내고, 특징점은 그 최종 값(d)으로 수렴한다.
본 발명의 실시예는 타깃 이미지를 매치시키도록 템플릿 검출자를 자동으로 선택 또는 조정한다. 이와 같이, 현재 템플릿 및 특징점이 하나의 비디오 프레임으로부터 다음으로 존속될 수 있으므로, 본 발명의 실시예는 비디오 어플리케이션에서의 객체에 대한 특징 위치를 트래킹하는데 매우 적합하다. 일반적으로, 두 번째 프레임이 디폴트 특징점으로써 초기화될 경우(전체 이미지를 검색함으로써 발견될 경우)보다 두 번째 프레임에 대한 초기 특징점이 정확한 특징 위치에 더 근접할 것이라는 결과가 되어, 하나의 프레임으로부터 다음 프레임으로의 상당한 객체 이동이 존재하지 않을 수 있다. 객체의 트래킹이 손실되도록 상당한 특징 이동이 발생할 경우, 그 프레임은 디폴트 특징점으로써 다시 초기화될 수 있다. 본 발명의 실시예는 템플릿 검출자가 타깃 이미지를 매치시키는 것을 학습하는 의미에서의 본래의 트래킹 방법(natural tracking method)이지만, 개연적인 특징 템플릿을 남기기 위하여 생성된 모델에 의해 제약된다.
본 발명의 TST 및 TAAM 실시예는 그것 모두를 자동차 내에서 운전하는 사람의 3개의 상이한 비디오 시퀀스에 적용시킴으로써 비디오 어플리션에 대하여 테스트된다. 비디오 시퀀스의 서브젝트(subject) 중의 단 하나도 트레이닝 세트 내에 나타나지 않는다. 각각의 테스트 시퀀스는 상당한 양의 조명 변화 및 헤드 이동(head movement)과, 그에 따른 트래킹을 위한 본 도전적인 데이터 세트를 수반하였다. 각각의 시퀀스는 대략 1000 프레임(초당 10 프레임을 취득함)을 포함한다.
도 12는 3개의 테스트 비디오 시퀀스의 각각으로부터의 3개의 예시적인 프레임을 포함한다. 3개의 테스트 비디오 시퀀스 각각에서, 얼굴은 동일한 점에서 비디오 플레인(plane)의 외부로 회전한다. 따라서, 얼굴의 트래킹(즉, 얼굴 특징점의 정확한 국소화)이 손실되었는지의 여부를 결정하기 위하여, 양질의 피트 측정(fit measure)이 이용된다. 얼굴의 트래킹이 손실된 경우, 상기에 논의한 Viola 및 Jones 얼굴 검출자를 이용함으로써 TST 또는 TAAM 알고리즘을 다시 초기화하는 것 이 필요하다. TST 및 TAAM 알고리즘에 이용되는 양질의 피트 측정은 각각 형상 제약된 응답 스코어(response score) 즉, 방정식(5) 또는 방정식(14)의 출력이다. AAM 알고리즘에 대하여, 양질의 피트 측정은 텍스쳐 모델과 타깃 이미지 사이의 차의 합이다.
트래킹의 정확도를 시험하기 위한 참조점(reference point)을 정의하기 위하여, 각각의 시퀀스의 매 10번째 프레임은 운용자에 의해 수동으로 레이블되고, 모든 얼굴 특징점이 가시화된다는 점이 제공된다. 각각의 수동으로 레이블된 얼굴에 대하여, 거리 메트릭(me)은 산정되고, 특징점이 그 프레임에 대하여 위치결정된다고 가정한다. 레이블된 얼굴이 검출될 수 없을 경우, 거리 메트릭(me)은 무한하게 레코딩된다. TST 알고리즘 및 TAAM 알고리즘에 대하여, 이 특징점 트래킹 실험의 결과는 도 13 및 14에 각각 도시된다. 각각의 테스트 비디오 시퀀스에 대하여 도 13 및 14는 거리 메트릭에 대하여 플롯된 성공적인 검색의 비율을 나타낸다. 주어진 거리 메트릭(me)에 대하여, 성공적인 검색의 비율은 특징점이 그 거리 메트릭보다 적거나 동일하도록 위치결정된 각각의 시퀀스 내의 그 수동으로 레이블된 프레임의 비율이다. 각각의 시퀀스에 대하여, 도 13은 (상기 논의한 바와 같은) TST 및 TST 고정된 템플릿 절차 모두와, 또한 비교를 위한 AAM 절차를 이용하여 얻어진 결과를 나타낸다. 각각의 시퀀스에 대하여, 도 14는 TAAM 및 TAAM 고정된 템플릿 절차 모두와, 또한 비교를 위한 AAM 절차를 이용하여 얻어진 결과를 나타낸다.
도 13은 TST 절차가 TST 고정된 템플릿 절차 및 AAM(AAM은 가장 효율이 적 음) 모두보다 더 효율적이었다는 것을 나타낸다. 시퀀스 1에서, TST 고정 템플릿 절차는 전체 TST 절차와 매우 유사한 결과를 나타낸다. 이것은 TST 모델의 평균 텍스쳐에 근접하게 놓여 있는 얼굴의 텍스쳐를 포함하는 시퀀스 1의 서브젝트로 인한 것일 것이다.
도 14는 TAAM 절차가 TAAM 고정된 템플릿 절차 및 AAM 절차보다 대체로 더 효율적이라는 것을 나타낸다. 그러나, 3개의 시퀀스 상의 변화가 존재한다. 도 13에서와 같이, 시퀀스 1에 대하여 TAAM 고정된 템플릿 절차를 이용하는 성능은 전체 TAAM 알고리즘에 대한 것과 유사하다. 다시, 이것은 TAAM 모델의 평균 텍스쳐에 근접하게 놓여 있는 얼굴의 텍스쳐를 가지는 시퀀스 1의 서브젝트로 인한 것일 것이다. 전체 TAAM 알고리즘은 시퀀스 2 및 3에 대하여 TAAM 고정 템플릿 알고리즘을 능가한다. AAM은 시퀀스 1 및 2보다 TAAM보다 못하고, 시퀀스 3에서 유사한 성능을 제공한다.
정적 이미지를 검색할 경우, 본 발명의 실시예는 (Viola 및 Jones 얼굴 검출자를 이용하여) 전역 검색(global search)을 수행하기 위하여 대략 120ms를 취하고, 그 후 로컬 영역 검출(local region detection)을 수행한다. 그 후, TST, TAAM 및 AAM 특징점 검색은 120 ms 이상보다 더 적게 취하지만, 3개의 모든 경우에서 요구된 엄격한 시간은 요구된 반복의 수에 의존한다. 본 발명의 TST 및 TAAM 실시예는 매 검색 반복마다 대략 40ms를 각각 취한다. 정적 이미지에 대하여, TST 및 TAAM 알고리즘은 모두 2 또는 3번의 반복을 요구한다. 그러나, 비디오 시퀀스 내의 얼굴 특징점을 트래킹할 경우, 통상적으로 단지 한 번의 반복만이 요구된다. 따라 서, P4 3GHz 컴퓨터 프로세서를 이용하여 대략 BIOID 데이터세트(384*286 픽셀)로부터의 단일의 정적 이미지를 검색하는 경우, 전체 검색 시간은 대략 240ms(초당 대략 4개의 프레임)이었다. TST 또는 TAAM 알고리즘을 이용하여 비디오 시퀀스 내의 특징점을 검색하는 경우, (전역 얼굴 검색을 요구하지 않고, 더 적은 반복을 요구함으로 인하여) 평균 검색 시간은 40ms로 떨어지고, 이것은 초당 약 25 프레임과 동등하다.
본 발명의 실시예는 특징점을 자동으로 정확하게 위치결정하는 것이 필요한 이미지 해석 태스크(image interpretation task)에 적합하다. 본 발명의 실시예는 정적 이미지의 인식 및 얼굴 국소화의 특정 이점을 가진다. 특히, 이것은 보안 어플리케이션 자동적 얼굴 이미지 편집 및 자동적 아바타 생성을 위하여 중요할 수 있다. 또한, (특히, 새로운 프레임에 대한 현재 특징점이 이전 프레임에 대한 수렴된 특징점으로 초기화될 시에) 본 발명의 특정 실시예의 방법을 검색하는 고유의 객체 트래킹 기계 장치(mechanism)로 인하여, 검색 방법은 특히 비디오 시퀀스의 인식 및 얼굴 트래킹에 적합하다. 예를 들어, 이것은 얼굴의 애니메이션(facial animation), 보안 어플리케이션, 행동 모니터링(behaviour monitoring) 및 피로 검출(tiredness detection)에 적용될 수 있다.
특히, 본 발명의 실시예는 자동차 산업에서의 어플리케이션 예를 들어, 자동차 운전자의 이미지를 모니터링하는 것에 적합하다. 운전자 얼굴 상의 특징점의 위치를 트래킹함으로써, 어플리케이션의 범위를 가능하게 한다. 예를 들어, 운전자의 눈깜빡임 회수의 변화에 대하여 모니터링을 함으로써, 피로(fatique)가 검출될 수 있다. 본 발명의 실시예는 운전자가 보고 있는 방향을 검출하기 위하여 이용될 수도 있다. 예를 들어, 운전자가 이동의 방향으로부터 눈길을 돌릴 경우, 위험이 검출되어 알람이 발생될 수 있다. 본 발명의 실시예는 얼굴 인식에 의한 차량의 운전자를 식별하기 위한 시스템 내에서 이용될 수 있다.
본 발명의 실시예의 다른 어플리케이션은 의료 진단, 예를 들어 이상(abnormality)의 검출 및 질병 진행(disease progression)의 모델링을 포함한다.
본 발명의 실시예는 주로 얼굴의 모델링에 관하여 예시되지만, 그것은 결코 이에 한정되지 않는다. 본 발명의 실시예는 객체 클래스의 광범위의 특징을 식별 및 모델링하는데 적용될 수 있다. 특히, 본 발명의 실시예는 객체의 상이한 실례 사이의 특유의 대응하는 랜드마크(landmark)가 존재하는 객체의 특징 클래스를 식별 및 모델링하는데 적합하다. 또한, 본 발명의 실시예의 어플리케이션 및 변경은 첨부된 청구범위의 범위 및 사상으로부터 벗어나지 않고, 본 발명의 교시 내용으로부터 당업자에게 손쉽게 이해될 것이다.

Claims (28)

  1. 타깃 이미지 내의 객체 클래스(a class of objects)의 객체 특징들을 위치결정하는(locating) 방법에 있어서,
    상기 타깃 이미지 내의 특징점들의 세트를 초기화하는 단계 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ;
    상기 객체 클래스의 통계적 모델을 이용하여, 상기 타깃 이미지 내의 특징점들의 세트로부터 템플릿 검출자들(template detectors)의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지의 영역을 포함함 - ;
    상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및
    상기 비교 결과에 응답하여 상기 타깃 이미지 내의 상기 특징점들의 세트를 업데이트하는 단계
    를 포함하는 객체 특징 위치결정 방법.
  2. 제 1 항에 있어서,
    상기 통계적 모델을 이용하여 유도된 상기 템플릿 검출자들의 세트는 상기 객체 클래스의 객체의 일부만을 집합적으로 표시하는
    객체 특징 위치결정 방법.
  3. 제 1 항에 있어서,
    상기 통계적 모델을 이용하여 유도된 상기 템플릿 검출자들의 세트는 상기 객체 클래스의 객체의 전체를 집합적으로 표시하는
    객체 특징 위치결정 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 업데이트된 특징점들의 세트로부터 상기 템플릿 검출자들의 세트를 유도하는 단계, 상기 타깃 이미지와 템플릿 검출자들의 세트를 비교하는 단계 및 상기 특징점들의 세트를 업데이트하는 단계를 반복하는 단계
    를 더 포함하는 객체 특징 위치결정 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 특징점들의 세트를 업데이트 하는 단계 이후에,
    상기 업데이트된 특징점 각각의 위치와 그 이전 위치 사이의 평균 차가 미리 결정된 임계치(threshold) 이하인지의 여부를 결정하는 단계; 및
    상기 평균 차가 임계치 이하일 경우, 상기 특징점들의 세트를 최종 특징점들의 세트로서 출력하는 단계
    를 더 포함하는 객체 특징 위치결정 방법.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    트레이닝 이미지들의 세트로부터 상기 통계적 모델을 생성하는 단계 - 각각의 트레이닝 이미지는 상기 객체 클래스의 객체를 포함함 -
    를 더 포함하는 객체 특징 위치결정 방법.
  7. 제 6 항에 있어서,
    상기 통계적 모델을 생성하는 단계는, 각각의 트레이닝 이미지에 대하여,
    상기 트레이닝 이미지 내의 상기 객체의 미리 결정된 특징에 대응하는 상기 트레이닝 이미지 내의 특징점들의 세트를 식별하는(identifying) 단계; 및
    템플릿들의 세트를 생성하는 단계 - 각각의 템플릿은 식별된 특징점에 대하여 위치결정된 상기 트레이닝 이미지 내의 이미지 영역을 포함함 -
    를 포함하는 객체 특징 위치결정 방법.
  8. 제 7 항에 있어서,
    상기 특징점들의 세트를 식별하는 단계는, 운용자(human operator)가 상기 특징점들의 세트를 식별하는 단계를 포함하는
    객체 특징 위치결정 방법.
  9. 제 7 항에 있어서,
    상기 특징점들의 세트를 식별하는 단계는, 상기 특징점들의 세트를 자동으로 식별하는 단계를 포함하는
    객체 특징 위치결정 방법.
  10. 제 7 항에 있어서,
    상기 트레이닝 이미지들의 세트 내의 각각의 트레이닝 이미지에 대한 특징점들의 세트들로부터 상기 트레이닝 이미지들의 세트에 대한 특징점들의 공간적 분포를 표시하는 형상 모델을 생성하는 단계
    를 더 포함하는 객체 특징 위치결정 방법.
  11. 제 10 항에 있어서,
    상기 템플릿 검출자들의 세트를 유도하는 단계는,
    상기 타깃 이미지에 대한 템플릿들의 세트를 생성하는 단계 - 각각의 템플릿은 상기 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ;
    상기 타깃 이미지 내의 상기 특징점들의 세트와 가장 근접한 특징점들을 식별하는 상기 트레이닝 이미지들의 세트 내의 트레이닝 이미지들의 서브세트(subset)를 식별하기 위해 상기 형상 모델을 이용하는 단계;
    상기 트레이닝 이미지들의 서브세트 내의 각각의 트레이닝 이미지에 대한 템플릿들의 세트와 상기 타깃 이미지에 대한 템플릿들의 세트를 상관시키는(correlating) 단계;
    상기 트레이닝 이미지들의 서브세트로부터 상기 타깃 이미지에 대한 상기 템플릿들의 세트와 가장 상관되는 템플릿들의 세트를 가지는 상기 트레이닝 이미지를 선택하는 단계; 및
    상기 선택된 트레이닝 이미지에 대한 상기 템플릿들의 세트를 상기 템플릿 검출자들의 세트로 설정하는 단계를 포함하는
    객체 특징 위치결정 방법.
  12. 제 7 항에 있어서,
    상기 트레이닝 이미지들의 세트 내의 각각의 트레이닝 이미지에 대한 상기 특징점들의 세트들로부터 상기 트레이닝 이미지들의 세트에 대한 특징점들의 공간적 분포를 표시하는 형상 모델을 생성하는 단계;
    상기 트레이닝 이미지들의 세트 내의 각각의 트레이닝 이미지에 대한 템플릿들의 세트들로부터 상기 트레이닝 이미지들의 세트 내의 템플릿들의 세트들에 대한 텍스쳐(texture)의 분포를 표시하는 텍스쳐 모델을 생성하는 단계; 및
    결합된 형상 및 텍스쳐 모델(a combined shape and texture model)을 형성하기 위해 상기 형상 모델 및 상기 텍스쳐 모델을 결합하는 단계
    를 더 포함하는 객체 특징 위치결정 방법.
  13. 제 12 항에 있어서,
    상기 템플릿 검출자들의 세트를 유도하는 단계는,
    상기 타깃 이미지에 대한 템플릿들의 세트를 생성하는 단계 - 각각의 템플릿은 상기 타깃 이미지 내의 특징점에 대하여 위치결정된 이미지 영역을 포함함 - ;
    상기 타깃 이미지에 대한 상기 템플릿들의 세트 및 상기 특징점들의 세트로부터 모델링된 템플릿들의 세트를 생성하기 위해 상기 결합된 형상 및 텍스쳐 모델을 이용하는 단계; 및
    상기 생성된 템플릿들의 세트를 상기 템플릿 검출자들의 세트로 설정하는 단계를 더 포함하는
    객체 특징 위치결정 방법.
  14. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 타깃 이미지와 템플릿 검출자들의 세트를 비교하는 단계는,
    상기 타깃 이미지의 각각의 영역과 각각의 템플릿 검출자를 비교하는 단계를 포함하는
    객체 특징 위치결정 방법.
  15. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계는,
    응답 이미지들(response images)의 세트가 형성되도록 응답 이미지를 생성하기 위해 상기 타깃 이미지 내의 대응하는 특징점에 대한 일련의 위치들(positions)에서 상기 타깃 이미지와 별도로 각각의 템플릿 검출자를 상관시키는 단계; 및
    업데이트된 특징점들의 세트가 생성되도록 각각의 특징점에 대한 최적의 상관 위치들(positions)을 위치결정하기(locate) 위해 비선형 최적화(non-linear optimisation)를 이용하는 단계 - 상기 업데이트된 특징점들의 세트는 상기 객체 클래스의 객체들에 대한 특징점들의 유효 세트(valid set)를 형성함 - 를 포함하는
    객체 특징 위치결정 방법.
  16. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 특징점들의 세트를 초기화하는 단계는,
    상기 객체를 포함하는 타깃 이미지 내의 이미지 영역을 식별하기 위해 전역 객체 검출자(global object detector)를 이용하는 단계; 및
    상기 전역 객체 검출자에 의해 식별된 상기 이미지 영역 내의 평균 특징점 위치들로 상기 특징점들의 세트를 초기화하는 단계를 포함하는
    객체 특징 위치결정 방법.
  17. 제 16 항에 있어서,
    상기 특징점들의 세트를 초기화하는 단계는,
    각각의 특징점을 포함하는 상기 전역 객체 검출자를 이용하여 식별된 상기 타깃 이미지의 상기 영역 내의 이미지 영역들을 식별하기 위해 특징 검출자들의 세트를 이용하는 단계; 및
    상기 특징 영역 검출자에 의해 식별된 상기 이미지 영역 내의 평균 특징 위치로 각각의 특징점을 초기화하는 단계를 더 포함하는
    객체 특징 위치결정 방법.
  18. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    일련의 타깃 이미지들을 포함하는 비디오 시퀀스 내의 객체의 특징들을 위치결정하는 단계;
    제1 타깃 이미지 내의 특징점들의 세트를 초기화하는 단계; 및
    이전의 타깃 이미지로부터의 업데이트된 특징점들을 이용하여 이후의 타깃 이미지들에 대한 특징점들의 세트를 초기화하는 단계
    를 포함하는 객체 특징 위치결정 방법.
  19. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 객체 클래스는 사람 얼굴들을 포함하는
    객체 특징 위치결정 방법.
  20. 타깃 이미지 내의 객체 클래스의 객체의 시각적 외형을 모델링하는 방법에 있어서,
    상기 타깃 이미지 내의 특징점들의 세트를 초기화 하는 단계 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ;
    상기 객체 클래스의 통계적 모델을 이용하여, 상기 타깃 이미지 내의 특징점들의 세트로부터 템플릿 검출자들의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지 영역을 포함함 - ;
    상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및
    상기 비교 결과에 응답하여 상기 타깃 이미지 내의 특징점들의 세트를 업데이트하는 단계
    를 포함하는 객체의 시각적 외형 모델링 방법.
  21. 타깃 이미지 내의 사람 얼굴의 시각적 외형을 모델링하는 방법에 있어서,
    상기 타깃 이미지 내의 특정점들의 세트를 초기화하는 단계 - 각각의 특징점은 미리 결정된 얼굴 특징에 대응함 - ;
    사람 얼굴들의 통계적 모델을 이용하여, 상기 타깃 이미지 내의 특징점들의 세트로부터 템플릿 검출자들의 세트를 유도하는 단계 - 각각의 템플릿 검출자는 얼굴 특징의 위치(location)에 대하여 위치결정된(located) 이미지 영역을 포함함 - ;
    상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하는 단계; 및
    상기 비교 결과에 응답하여 상기 타깃 이미지 내의 특징점들의 세트를 업데이트하는 단계
    를 포함하는 사람 얼굴의 시각적 외형 모델링 방법.
  22. 제 1 항, 제 20 항 및 제 21 항 중 어느 한 항의 방법을 수행하기 위하여 컴퓨터를 제어하기 위한 컴퓨터 판독가능 코드(computer readable code)를 운반하는(carrying) 캐리어 매체(carrier medium).
  23. 타깃 이미지 내의 객체 클래스의 객체의 특징들을 위치결정하기(locating) 위한 컴퓨터 장치에 있어서,
    프로세서 판독가능 명령들(processor readable instructions)을 저장하는 프로그램 메모리; 및
    상기 프로그램 메모리 내에 저장된 명령들을 판독(read) 및 실행(execute)하도록 구성된 프로세서
    를 포함하고,
    상기 프로세서 판독가능 명령들은 상기 프로세서가 제 1 항, 제 20 항 및 제 21 항 중 어느 한 항의 방법을 수행하도록 제어하는 명령들을 포함하는
    컴퓨터 장치.
  24. 타깃 이미지 내의 객체 클래스의 객체의 특징들을 위치결정하기(locating) 위한 장치에 있어서,
    상기 타깃 이미지 내의 특징점들의 세트를 초기화하기 위한 수단 - 각각의 특징점은 상기 객체 클래스의 객체들에 대한 미리 결정된 특징에 대응함 - ;
    상기 객체 클래스의 통계적 모델을 이용하여 상기 특징점들의 세트로부터 템플릿 검출자들의 세트를 유도하기 위한 수단 - 각각의 템플릿 검출자는 상기 객체 클래스의 객체에 대한 특징점의 위치(location)에 대하여 위치결정된(located) 이미지 영역을 포함함 - ;
    상기 타깃 이미지와 상기 템플릿 검출자들의 세트를 비교하기 위한 수단; 및
    상기 비교 결과에 응답하여 상기 타깃 이미지 내의 특징점들의 세트를 업데이트하기 위한 수단
    을 포함하는 객체 특징 위치결정 장치.
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
KR1020087026428A 2006-04-08 2007-04-05 객체 특징을 위치결정하는 방법 KR101304374B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB0607143.5A GB0607143D0 (en) 2006-04-08 2006-04-08 Method of locating features of an object
GB0607143.5 2006-04-08
PCT/GB2007/001262 WO2007116208A1 (en) 2006-04-08 2007-04-05 Method of locating features of an object

Publications (2)

Publication Number Publication Date
KR20090018037A KR20090018037A (ko) 2009-02-19
KR101304374B1 true KR101304374B1 (ko) 2013-09-11

Family

ID=36539632

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087026428A KR101304374B1 (ko) 2006-04-08 2007-04-05 객체 특징을 위치결정하는 방법

Country Status (6)

Country Link
US (1) US8594430B2 (ko)
EP (1) EP2005367B1 (ko)
JP (1) JP4928601B2 (ko)
KR (1) KR101304374B1 (ko)
GB (1) GB0607143D0 (ko)
WO (1) WO2007116208A1 (ko)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848566B2 (en) 2004-10-22 2010-12-07 Carnegie Mellon University Object recognizer and detector for two-dimensional images using bayesian network based classifier
JP4985293B2 (ja) * 2007-10-04 2012-07-25 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US9753948B2 (en) * 2008-05-27 2017-09-05 Match.Com, L.L.C. Face search in personals
US8358336B2 (en) * 2008-07-25 2013-01-22 Handshot, Llc Frontal hand capture of fingerprints, palm prints and hand geometry using contactless photography
US8442330B2 (en) 2009-03-31 2013-05-14 Nbcuniversal Media, Llc System and method for automatic landmark labeling with minimal supervision
US9417700B2 (en) 2009-05-21 2016-08-16 Edge3 Technologies Gesture recognition systems and related methods
US8460215B2 (en) * 2009-06-08 2013-06-11 The Brigham And Women's Hospital, Inc. Systems and methods for predicting potentially difficult intubation of a subject
US9530077B2 (en) 2010-02-10 2016-12-27 Imorphics Limited Image analysis
EP2534613B1 (en) * 2010-02-10 2019-03-27 Mako Surgical Corp. Image analysis
US8396252B2 (en) 2010-05-20 2013-03-12 Edge 3 Technologies Systems and related methods for three dimensional gesture recognition in vehicles
KR101365789B1 (ko) * 2010-05-26 2014-02-20 닛본 덴끼 가부시끼가이샤 얼굴 특징점 위치 보정 장치, 얼굴 특징점 위치 보정 방법, 및 얼굴 특징점 위치 보정 프로그램을 기록한 컴퓨터 판독가능 기록 매체
US8873801B2 (en) * 2010-08-03 2014-10-28 Empire Technology Development Llc Identification of objects in a video
WO2012030872A1 (en) 2010-09-02 2012-03-08 Edge3 Technologies Inc. Method and apparatus for confusion learning
US8655093B2 (en) 2010-09-02 2014-02-18 Edge 3 Technologies, Inc. Method and apparatus for performing segmentation of an image
US8666144B2 (en) 2010-09-02 2014-03-04 Edge 3 Technologies, Inc. Method and apparatus for determining disparity of texture
US8582866B2 (en) 2011-02-10 2013-11-12 Edge 3 Technologies, Inc. Method and apparatus for disparity computation in stereo images
KR20120025233A (ko) 2010-09-07 2012-03-15 삼성전자주식회사 다파장 영상 복원 처리 방법 및 장치와 이를 채용한 의료 영상 시스템
SG190383A1 (en) * 2010-11-26 2013-06-28 Agency Science Tech & Res Method for creating a report from radiological images using electronic report templates
US8970589B2 (en) 2011-02-10 2015-03-03 Edge 3 Technologies, Inc. Near-touch interaction with a stereo camera grid structured tessellations
FR2971873B1 (fr) * 2011-02-22 2014-01-03 Fittingbox Procede de detection d'un ensemble predefini de points caracteristiques d'un visage
JP5796185B2 (ja) * 2011-03-10 2015-10-21 パナソニックIpマネジメント株式会社 対象物判定装置
WO2012139271A1 (en) * 2011-04-11 2012-10-18 Intel Corporation Smile detection techniques
JP5726646B2 (ja) * 2011-06-10 2015-06-03 株式会社東芝 画像処理装置、方法、及びプログラム
US9672609B1 (en) 2011-11-11 2017-06-06 Edge 3 Technologies, Inc. Method and apparatus for improved depth-map estimation
JP5632355B2 (ja) * 2011-12-01 2014-11-26 日本電信電話株式会社 画像処理装置、及びプログラム
EP2672425A1 (en) 2012-06-08 2013-12-11 Realeyes OÜ Method and apparatus with deformable model fitting using high-precision approximation
EP2672423A1 (en) 2012-06-08 2013-12-11 Realeyes OÜ Method and apparatus for locating features of an object using deformable models
EP2672424A1 (en) 2012-06-08 2013-12-11 Realeyes OÜ Method and apparatus using adaptive face registration method with constrained local models and dynamic model switching
US9202138B2 (en) 2012-10-04 2015-12-01 Adobe Systems Incorporated Adjusting a contour by a shape model
US9158963B2 (en) 2012-10-04 2015-10-13 Adobe Systems Incorporated Fitting contours to features
US9152847B2 (en) * 2012-11-27 2015-10-06 Adobe Systems Incorporated Facial landmark localization by exemplar-based graph matching
US10721448B2 (en) 2013-03-15 2020-07-21 Edge 3 Technologies, Inc. Method and apparatus for adaptive exposure bracketing, segmentation and scene organization
US20140341443A1 (en) * 2013-05-16 2014-11-20 Microsoft Corporation Joint modeling for facial recognition
JP6261187B2 (ja) * 2013-05-21 2018-01-17 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
GB2518589B (en) * 2013-07-30 2019-12-11 Holition Ltd Image processing
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9558426B2 (en) * 2014-04-24 2017-01-31 Nant Holdings Ip, Llc Robust feature identification for image-based object recognition
US9639742B2 (en) 2014-04-28 2017-05-02 Microsoft Technology Licensing, Llc Creation of representative content based on facial analysis
US9773156B2 (en) 2014-04-29 2017-09-26 Microsoft Technology Licensing, Llc Grouping and ranking images based on facial recognition data
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9460493B2 (en) 2014-06-14 2016-10-04 Microsoft Technology Licensing, Llc Automatic video quality enhancement with temporal smoothing and user override
US9373179B2 (en) 2014-06-23 2016-06-21 Microsoft Technology Licensing, Llc Saliency-preserving distinctive low-footprint photograph aging effect
JP6101661B2 (ja) * 2014-08-27 2017-03-22 富士フイルム株式会社 画像合成装置および画像合成方法ならびに画像合成プログラムおよび画像合成プログラムを格納した記録媒体
US9665804B2 (en) * 2014-11-12 2017-05-30 Qualcomm Incorporated Systems and methods for tracking an object
CN106156692B (zh) * 2015-03-25 2019-12-13 阿里巴巴集团控股有限公司 一种用于人脸边缘特征点定位的方法及装置
CN106295476B (zh) * 2015-05-29 2019-05-17 腾讯科技(深圳)有限公司 人脸关键点定位方法和装置
US9594977B2 (en) * 2015-06-10 2017-03-14 Adobe Systems Incorporated Automatically selecting example stylized images for image stylization operations based on semantic content
WO2017027262A1 (en) 2015-08-07 2017-02-16 Gleim Conferencing, Llc System and method for validating honest test taking
KR20170024303A (ko) * 2015-08-25 2017-03-07 영남대학교 산학협력단 얼굴의 특징점 검출 시스템 및 방법
CN107016319B (zh) * 2016-01-27 2021-03-05 北京三星通信技术研究有限公司 一种特征点定位方法和装置
US10452071B1 (en) * 2016-02-29 2019-10-22 AI Incorporated Obstacle recognition method for autonomous robots
US10861129B2 (en) 2016-03-08 2020-12-08 Nant Holdings Ip, Llc Image feature combination for image-based object recognition
US10371650B2 (en) * 2016-09-22 2019-08-06 Advanced Manufacturing LLC Macrotexture map visualizing texture heterogeneity in polycrystalline parts
KR101986804B1 (ko) * 2016-12-29 2019-07-10 주식회사 얍컴퍼니 시각적 콘텐츠 검색용 데이터베이스 생성 장치 및 방법
EP3591580A4 (en) 2017-03-20 2020-03-18 Huawei Technologies Co., Ltd. METHOD AND DEVICE FOR RECOGNIZING DESCRIPTIVE CHARACTERISTICS OF A APPEARANCE
US10769500B2 (en) * 2017-08-31 2020-09-08 Mitsubishi Electric Research Laboratories, Inc. Localization-aware active learning for object detection
US20210390344A1 (en) * 2018-11-01 2021-12-16 Element Ai Inc. Automatically applying style characteristics to images
US11392659B2 (en) * 2019-02-28 2022-07-19 Adobe Inc. Utilizing machine learning models to generate experience driven search results based on digital canvas gesture inputs
US10748022B1 (en) * 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
KR102208676B1 (ko) * 2020-06-17 2021-01-27 주식회사 카카오뱅크 신경망 학습을 위한 학습 데이터 레이블링 방법 및 이를 수행하는 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306325A (ja) * 1998-04-24 1999-11-05 Toshiba Tec Corp 対象物検出装置及び対象物検出方法
JP2002032735A (ja) 2000-05-12 2002-01-31 Fuji Photo Film Co Ltd 画像の位置合わせ方法および装置
US20030016853A1 (en) 2001-04-26 2003-01-23 Fuji Photo Film Co., Ltd. Image position matching method and apparatus therefor
US20050036690A1 (en) 2003-08-15 2005-02-17 Yi Zhou Unified bayesian framework for shape registration

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944676A (ja) 1995-08-01 1997-02-14 Toyota Motor Corp 顔面検出装置
JP2866325B2 (ja) 1995-08-04 1999-03-08 株式会社グラフィックス・コミュニケーション・ラボラトリーズ 動きベクトル探索装置
JPH0950528A (ja) 1995-08-09 1997-02-18 Nippon Telegr & Teleph Corp <Ntt> 人物検出装置
JP3279913B2 (ja) 1996-03-18 2002-04-30 株式会社東芝 人物認証装置、特徴点抽出装置及び特徴点抽出方法
US5892837A (en) 1997-08-29 1999-04-06 Eastman Kodak Company Computer program product for locating objects in an image
GB2360183A (en) 1999-11-18 2001-09-12 Anthropics Technology Ltd Image processing using parametric models
GB0114271D0 (en) 2001-06-12 2001-08-01 Univ Manchester Parameterisation
JP4203648B2 (ja) 2003-09-01 2009-01-07 パナソニック電工株式会社 画像処理装置
US7536044B2 (en) 2003-11-19 2009-05-19 Siemens Medical Solutions Usa, Inc. System and method for detecting and matching anatomical structures using appearance and shape

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306325A (ja) * 1998-04-24 1999-11-05 Toshiba Tec Corp 対象物検出装置及び対象物検出方法
JP2002032735A (ja) 2000-05-12 2002-01-31 Fuji Photo Film Co Ltd 画像の位置合わせ方法および装置
US20030016853A1 (en) 2001-04-26 2003-01-23 Fuji Photo Film Co., Ltd. Image position matching method and apparatus therefor
US20050036690A1 (en) 2003-08-15 2005-02-17 Yi Zhou Unified bayesian framework for shape registration

Also Published As

Publication number Publication date
KR20090018037A (ko) 2009-02-19
EP2005367A1 (en) 2008-12-24
JP4928601B2 (ja) 2012-05-09
US8594430B2 (en) 2013-11-26
WO2007116208A1 (en) 2007-10-18
GB0607143D0 (en) 2006-05-17
JP2009533724A (ja) 2009-09-17
US20090116749A1 (en) 2009-05-07
EP2005367B1 (en) 2014-07-09

Similar Documents

Publication Publication Date Title
KR101304374B1 (ko) 객체 특징을 위치결정하는 방법
Cristinacce et al. Feature detection and tracking with constrained local models.
US7254256B2 (en) Method and computer program product for locating facial features
US10755145B2 (en) 3D spatial transformer network
JP4951700B2 (ja) 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション
US7218760B2 (en) Stereo-coupled face shape registration
CN107016319B (zh) 一种特征点定位方法和装置
Wimmer et al. Learning local objective functions for robust face model fitting
JP6296205B2 (ja) 画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体
Tong et al. Semi-supervised facial landmark annotation
Bowden Learning non-linear Models of Shape and Motion
Paterson et al. 3D head tracking using non-linear optimization.
Zins et al. Level set-based camera pose estimation from multiple 2D/3D ellipse-ellipsoid correspondences
Hahmann et al. Combination of facial landmarks for robust eye localization using the Discriminative Generalized Hough Transform
Yu Facial feature detection and tracking with a 3d constrained local model
Wang Generating 3D Faces by Tracking and Pose Estimation in Video Streams
WO2001022355A1 (en) Occlusion tolerant pattern recognition
Efraty et al. Towards 3D-aided profile-based face recognition
van Dam From image sequence to frontal image: reconstruction of the unknown face: a forensic case
Tsalakanidou et al. Exploitation of 3D images for face authentication under pose and illumination variations
Cootes et al. Statistical models of shape and texture for face recognition
Romeiro et al. Model-based stereo with occlusions
Heo et al. Face pose correction with eyeglasses and occlusions removal
Tan et al. Adaptive Learning-based Temporal Tracker for 3D Head Shape Models
Mercier et al. Occluded facial expression tracking

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160727

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170804

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180816

Year of fee payment: 6