KR20040034606A - 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법 - Google Patents

단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법 Download PDF

Info

Publication number
KR20040034606A
KR20040034606A KR10-2003-7014619A KR20037014619A KR20040034606A KR 20040034606 A KR20040034606 A KR 20040034606A KR 20037014619 A KR20037014619 A KR 20037014619A KR 20040034606 A KR20040034606 A KR 20040034606A
Authority
KR
South Korea
Prior art keywords
model
tracking
stereo data
image sequence
face
Prior art date
Application number
KR10-2003-7014619A
Other languages
English (en)
Other versions
KR100571115B1 (ko
Inventor
그르제스츠주크라테크
보구에트진-이브
고크투르크사리흐
Original Assignee
인텔 코오퍼레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코오퍼레이션 filed Critical 인텔 코오퍼레이션
Publication of KR20040034606A publication Critical patent/KR20040034606A/ko
Application granted granted Critical
Publication of KR100571115B1 publication Critical patent/KR100571115B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

단안 얼굴 트래킹(monocular face tracking)을 위해 데이터 구동형 모델(data-driven model)을 사용하는 시스템 및 방법을 기술하며, 이것은 단일 카메라를 사용하여 예를 들어 얼굴과 같은 3차원(3D) 영상을 트래킹하는 다용도 시스템(versatile system)을 제공한다. 한 방법의 경우, 입력 영상 시퀀스에 기초한 스테레오 데이터(stereo data)를 얻는다. 3D 모델은 취득된 스테레오 데이터를 사용하여 구축된다. 단안 영상 시퀀스는 구축된 3D 모델을 사용하여 트래킹된다. 예를 들어 가능한 얼굴 변형들을 학습하고 데이터 구동형 3D 모델("3D 얼굴 모델")을 구축하기 위해 주요 성분 분석법(principal component analysis, PCA)을 스테레오 데이터에 적용할 수 있다. 3D 얼굴 모델은 일반적인 형상(예: 얼굴 자세)을 PCA 분석법에 기초하여 형상 베이스 벡터의 선형 조합으로 근사하기 위하여 사용될 수 있다.

Description

단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는 시스템 및 방법 {METHOD AND SYSTEM USING A DATA-DRIVEN MODEL FOR MONOCULAR FACE TRACKING}
단안 얼굴 트래킹은 고정된 카메라의 단안 영상 시퀀스에 기초하여 얼굴 움직임(motion), 위치(position) 및 형상(shape)을 통계적으로 예측하는 프로세스이다. 단안 얼굴 트래킹은 화상 회의 시스템(video conferencing system)과 같은 많은 영상 처리 시스템에서 중요한 프로세스(process)이다. 예를 들어, 화상 회의 시스템에서 얼굴 움직임이나 위치를 예측함으로써 교체되거나 처리되어야 하는 얼굴 데이터나 정보의 양이 감소된다. 즉, 예측되는 얼굴 움직임, 위치 및 형상과 관련된 파라미터들은 대량의 영상 데이터를 교체하거나 처리하는 대신에 영상 시퀀스 출력에 대해 대체되거나 처리될 수 있다.
한 종류의 얼굴 트래킹 시스템은 마커들(markers)에 기초한 얼굴 트래킹 시스템("마커 얼굴 트래킹 시스템")이다. 마커 얼굴 트래킹 시스템에서, 사용자는 알려진 위치에 색채 "마커들"을 하고 있어야 한다. 따라서 마커들의 이동이 얼굴위치 및 형상을 예측하기 위해 파라미터화된다. 마커 얼굴 트래킹 시스템의 단점은 사용자를 성가시게(invasive) 한다는 것이다. 특히, 사용자는 얼굴의 변화하는 위치에 다수의 색채 마커를 두어야한다. 게다가, 사용자는 마커를 부착하는 데 시간을 소비해야 하는데, 이것은 그러한 시스템의 사용하는데 복잡도(complexity)를 더욱 증가시킨다.
다른 종류의 얼굴 트래킹 시스템은 모델 기반 얼굴 트래킹 시스템이다. 모델 기반 얼굴 트래킹 시스템은 얼굴 위치 및 움직임을 예측하는 데 사용될 수 있는 파라미터화된 얼굴 형상 모델을 사용한다. 종래의 모델 기반 얼굴 트래킹 시스템에서, 파라미터화된 모델은 예를 들어 3D 스캐너 또는 CAD(Computer Aided Design) 모델러를 사용함으로써 수동 프로세스(manual process)를 사용하여 구축된다. 그러므로, 종래 모델 기반 얼굴 트래킹 시스템의 단점은 얼굴 형상 모델들의 수동 구축이 매우 임시적인 것이고(ad- hoc), 이는 트래킹 모델들을 취득하기 위해 시행착오 접근법으로 이끈다. 이러한 매우 임시적인 프로세스는 부정확하고 최적에 못미치는(suboptimal) 모델을 제공한다.
본 발명은 일반적으로 영상 처리 분야에 관한 것이다. 특히, 본 발명은 단안 얼굴 트래킹(monocular face tracking)을 위해 데이터 구동형 모델(data-driven model)을 사용하는 시스템 및 방법에 관한 것이다.
도 1은 본 발명을 실시하는 컴퓨팅 시스템의 일례를 나타낸 도면이다.
도 2는 일 실시예에 따라 데이터 구동형 모델을 사용하는 단안 트래킹을 수행하는 동작의 흐름도이다.
도 3은 도 2의 데이터 구동형 모델를 구축하기 위한 스테레오 트래킹용 스테레오 입력 영상 시퀀스의 일례를 나타낸 도면이다.
도 4는 스테레오 입력 시퀀스로부터 학습된 4차원 공간의 변형(deformation)예를 나타내는 도면이다.
도 5는 단안 트래킹을 위한 입력 영상 시퀀스의 예를 나타내는 도면이다.
도 6은 일 실시예에 따라 도 2의 스테레오 트래킹을 수행하는 동작의 흐름도이다.
도 7은 일 실시예 따라 도 2의 주요 형상 벡터를 계산하는 흐름도이다.
도 8은 일 실시예 따라 도 2의 단안 트래킹을 수행하는 흐름도이다.
단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용한 시스템 및 방법으로, 단일 카메라를 사용하여 취득한 영상 시퀀스에서 예를 들어 얼굴과 같은 3차원(3D)객체를 트래킹하는 다목적 시스템을 제공한다. 일 실시예에서 입력 영상 시퀀스에 기초한 스테레오 데이터(stereo)가 취득된다. 3D 모델은 취득된 스테레오 데이터를 사용하여 구축된다. 단안 영상 시퀀스는 구축된 3D 모델을 사용하여 트래킹된다. 일 실시예에서, 주요 성분 분석법(principal component analysis, PCA)이 예를 들어 가능한 얼굴 변형을 학습하고 데이터 구동형 3D 모델("3D 얼굴 모델")을 구축하기 위해 스테레오 데이터에 적용된다. 3D 얼굴 모델은 일반적인 형상(예: 얼굴 포즈)을 PCA 분석법에 기초한 형상 기저 벡터(shape basis vector)들의 선형 조합으로 근사하기 위하여 사용될 수 있다.
실제 스테레오를 사용함으로써, 3D 모델을 구축하기 위하여 작은 수의 형상 기저 벡터를 계산할 수 있는데, 이것은 많은 이점을 제공한다. 예를 들어, 최적의 작은 수(예: 3 또는 4)의 형상 기저 벡터는 예를 들어 미소짓고, 얘기하고, 눈썹을 치켜 올리는 등 다양한 얼굴 표정을 연결(span)하기 위하여 사용될 수 있다. 또한, 3D 모델은 하나 이상의 사용자로부터의 스테레오 데이터를 사용하여 구축되어 데이터베이스에 저장될 수 있으며, 예를 들어 새로운 사용자로부터의 스테레오 데이터가 데이터베이스에 저장되어 있지 않더라도 새로운 사용자의 얼굴을 트래킹할 수 있다.
또 입력 영상 시퀀스에 기초한 스테레오 데이터를 사용하여 3D 모델을 구축함으로써 얼굴의 변형(deformation) 및 포즈(pose)에 대한 단안 얼굴 트래킹이 귀찮고 성가신 마커(intrusive maker)를 사용하지 않고도 실현될 수 있다. 여기에 기술된 3D 얼굴 모델은 단일 영상 시퀀스("단안 트래킹")로부터 얼굴의 변형 및 포즈의 동시 트래킹에 대해 복잡도가 낮은 변형할 수 있는 모델을 제공한다.
다음의 실시예는 귀찮고 성가신 마커를 사용하지 않는 단일 비디오 카메라 앞의 얼굴 영상("얼굴")의 3D 포즈 및 형상 모두를 트래킹하는 시스템을 기술한다.이 시스템은 또한 데이터 구동형 모델을 사용한 견고하고(robust) 정확한 단안 트래킹을 제공한다. 게다가, 이 시스템은 동일한 3D 모델로 많은 사람의 얼굴 트래킹이 가능하도록 특성들(properties)의 일반화를 제공한다.
이하의 설명에서, 단안 트래킹 기술은 3D 얼굴 영상의 트래킹과 관련하여 기술한다. 그렇지만, 본 명세서에 기술된 단안 트래킹 기술은 어떤 특정한 유형의 이미지로의 한정을 의도한 것은 아니며, 움직이는 신체 부분 또는 무생물 객체(inanimate objects) 등 다른 유형의 3D 이미지를 이용하여 구현될 수도 있다.
본 발명은 예시를 목적으로 설명되며, 첨부 도면에 의해 한정되지 않으며, 도면 내의 같은 도면 부호는 같은 구성요소를 나타낸다.
개관
컴퓨팅 시스템의 일례
도 1은 본 발명을 실시하기 위한 컴퓨팅 시스템(100)의 일례를 나타낸다. 본 명세서에 기술된 3D 모델 구축 기술 및 단안 트래킹 기술은 컴퓨팅 시스템(100)에 의해 이용될 수 있고 구현될 수 있다. 컴퓨팅 시스템(100)은 현존하는 예를 들어 범용 컴퓨터, 워크스테이션, 휴대형 컴퓨터, 핸드헬드(hand-held) 컴퓨팅 장치 및 기타 컴퓨팅 장치를 의미할 수 있다. 컴퓨팅 시스템(100)의 구성 요소는 예시적이며, 하나 이상의 구성요소가 생략되거나 추가될 수 있다. 예를 들어, 복수의 카메라 장치(128)를 컴퓨팅 시스템(100)과 함께 사용할 수 있다.
도 1을 참조하면, 컴퓨팅 시스템(100)은 버스(101)을 통해 디스플레이 회로(105), 메인 메모리(104), 스태틱 메모리(106), 및 플래시 메모리(107)에 연결되는 코프로세서(co-processor)(103)와 중앙 처리 장치(CPU)(102)를 구비하는 주 장치(110)를 포함한다. 컴퓨팅 시스템(100)의 주 장치(110)는 버스(101)를 통해 또한 디스플레이(121), 키패드 입력부(122), 커서 제어부(123), 하드카피(hardcopy) 장치(124), 입출력(I/O) 장치(125) 및 대용량 기억 장치(126), 그리고 카메라 장치(128)에 연결될 수 있다.
버스(101)는 정보와 신호를 통신하는 표준 시스템 버스이다. CPU(102)와 코프로세서(103)는 컴퓨팅 시스템(100)의 처리 장치이다. CPU(102)나 코프로세서(103) 또는 이 모두는 컴퓨팅 시스템(100)의 정보 및/또는 신호를 처리하기 위해 사용될 수 있다. CPU(102)는 본 명세서에 기술된 3D 데이터 구동형 모델 구축 기술과 단안 트래킹 기술을 실행하는 코드(code) 또는 명령(instruction)을 처리하기 위해 사용될 수 있다. 대안으로, 코프로세서(103)는 CPU(102)와 동일한 기술을 실행하기 위한 코드나 명령을 처리하는 데 될 수 있다. CPU(102)는 제어 장치(131), 산술 논리 장치(arithmetic logic unit, ALU)(132) 및 수 개의 레지스터(133)를 포함하는데, 이것은 데이터 및 정보 처리를 목적으로 CPU(102)에 의해 사용될 수 있다. 코프로세서(103)는 또한 CPU(102)와 유사한 구성 요소를 포함할 수 있다.
메인 메모리(104)는 컴퓨팅 시스템(100)에 의해 사용될 데이터, 코드 또는 명령을 기억하는, 예를 들어 랜덤 액세스 메모리(RAM)나 기타 동적 기억 장치일 수 있다. 일 실시예에서, 메인 메모리(104)는 이하에 더욱 상세하게 설명되는 바와 같이 입력 스테레오 영상 시퀀스 및/또는 3D 데이터 구동형 모델과 관련된 데이터를 기억할 수 있다. 메인 메모리(104)는 또한 CPU(102) 또는 코프로세서(103)에 의해 코드나 명령이 실행되는 동안에 변수 또는 기타 중간 데이터(intermediate data)를 일시적으로 기억할 수 있다. 스태틱 메모리(106)는 예를 들어 읽기 전용 메모리(ROM) 및/또는 기타 스태틱 기억 장치일 수 있으며, 컴퓨팅 시스템(100)에 의해 사용될 데이터 및/또는 코드나 명령을 기억할 수 있다. 플래시 메모리(107)는 기본 입출력 시스템(BIOS) 코드 또는 명령을 기억하기 위해 사용될 수 있는 메모리 장치이다.
디스플레이(121)는 예를 들어 음극선관(CRT) 또는 액정 디스플레이(LCD) 일 수 있다. 디스플레이(121)는 영상, 정보 또는 그래픽을 사용자에게 표시할 수 있다. 컴퓨팅 시스템(100)의 주 장치(110)은 디스플레이 회로(105)를 통해 디스플레이(121)와 인터페이스할 수 있다. 키패드 입력부(122)는 정보 통신과 컴퓨팅 시스템(100)의 커맨드 선택을 위한 영숫자 입력 장치이다. 커서 제어부(132)는 디스플레이(121) 상의 객체의 이동을 제어하기 위한, 예를 들어 마우스, 터치패드, 트랙볼 또는 커서 방향키일 수 있다. 하드카피 장치(124)는 종이, 필름 등의 매체에 정보를 인쇄하기 위한, 예를 들어 레이저 프린터일 수 있다. 임의의 개수의 입출력(I/O) 장치(125)가 컴퓨팅 시스템(100)에 접속될 수 있다. 예를 들어, 스피커와 같은 I/O 장치는 컴퓨팅 시스템(100)에 연결될 수 있다. 대용량 기억 장치(126)는 예를 들어 하드 디스크, 읽기/쓰기 가능 CD 또는 DVD 플레어 등의 대용량 기억 장치일 수 있다. 카메라 장치(128)는 비디오 영상 캡쳐 장치일 수 있으며, 본 명세서에 기술된 영상 처리 기술에 사용될 수 있다. 일 실시예에서, 카메라 장치(128)는 640×480 크기의 컬러 영상을 4fp의 평균 프레임 속도로 제공하는 DigiclopsTM카메라 시스템을 포함한다.
일 실시예에서, 본 명세서에 기술된 3D 데이터 구동형 모델 구축 기술 및 단안 트래킹 기술은 컴퓨팅 시스템(100) 내에 포함된 하드웨어 및/또는 소프트웨어 모듈로 실행할 수 있다. 예를 들어, CPU(102) 또는 코프로세서(103)는 여기에 기술된 바와 같은 3D 데이터 구동형 모델을 구축하기 위한 스테레오 입력 시퀀스를 처리하기 위해, 예를 들어 메인 메모리(104) 또는 스태틱 메모리(106)와 같은 기계로 판독 가능한 매체에 기억된 코드 또는 명령을 실행할 수 있다. 나아가, CPU(102) 또는 코프로세서(103)는 여기에 기술된 바와 같이 3D 데이터 구동형 모델을 사용한 단안 입력 영상을 트래킹하기 위한 코드 또는 명령을 실행할 수 있다. 주 장치(110) 내의 메모리 장치들은 또한 일 수 있다.
기계 판독 가능한 매체는 컴퓨터 또는 디지털 처리 장치와 같은 기계가 판독할 수 있는 형태로 정보를 제공(즉 기억 및/또는 전송)하는 메커니즘을 포함할 수 있다. 예를 들어, 기계 판독 가능한 매체는 ROM, RAM, 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 장치 및 기타 메모리 장치를 포함할 수 있다. 코드 또는 명령은 반송파 신호, 적외선 신호, 디지털 신호 및 기타 신호로 표현될 수 있다. 기계 판독 가능한 매체는 또한 본 명세서에 기술된 3D 데이터 구동형 모델에 대한 데이터베이스를 저장하는 데 사용될 수 있다. 나아가, 하나 이상의 기계 판독 가능한 매체는 3D 모델을 기억하기 위해 사용될 수 있다.
기본 동작
도 2는 일 실시예 따라 데이터 구동형 모델을 사용하여 단안 트래킹을 수행하는 동작(operation)(200)의 기능적인 흐름도를 예시한다. 도 2를 참조하면, 동작(200)은 두 개의 단계를 포함한다. 제1 단계는 동작 블록(210) 또는 학습 단계(210)라 한다. 학습 단계(210)는 단안 트래킹을 위한 3D 데이터 구동형 모델을 구축하기 위하여 실제 스테레오 트래킹 데이터를 처리하는 PCA를 적용함으로써얼굴 변형이 가능한 공간을 학습한다. 3D 데이터 구동형 모델은 일반 형상을 형상 기저 벡터들의 선형 조합으로 근사하기 위해 사용될 수 있다. 제2 단계는 상기 학습 단계에서 구축된 3D 데이터 구동형 모델을 사용하여 단안 트래킹이 수행되는 동작 블록(220)이다. 3D 데이터 구동형 모델을 사용함으로써, 예를 들어 얼굴과 같은 영상의 변형 및 포즈는 단안 또는 단일 영상 시퀀스로부터 함께 트래킹될 수 있다. 처음에, 동작(200)은 학습 단계(210)로 시작한다.
학습 단계(210) 내의 동작 블록(202)에서, 스테레오 시퀀스가 입력된다. 예를 들어, 카메라 장치(128)는 도 3에 도시한 바와 같이 왼쪽 시각(perspective)과 오른쪽 시각으로부터 영상 시퀀스를 취득하기 위하여 제1 카메라와 제2 카메라를 포함할 수 있다. 도 3에 도시한 바와 같이, 제1 및 제2 카메라는 변화하는 얼굴 움직임과 포즈를 보이는 사람의 영상 시퀀스(예: 프레임 1 내지 프레임 100)를 왼쪽 및 오른쪽 시각에서 취득할 수 있다. 스테레오 입력 시퀀스는 처리를 위해 컴퓨팅 시스템(100)으로 입력될 수 있다.
동작 블록(204)에서, 입력 스테레오 시퀀스가 트래킹된다. 특히, 복잡도가 낮은 얼굴 메시(mesh)(예: 도 3에 도시한 바와 같이 얼굴의 변화하는 위치에서의 19개의 점)는 초기화된 다음, 표준 광학 흐름 기술(standard optical flow technique)을 사용하여 트래킹된다. 얼굴의 비강성(non-rigid) 변형을 처리하기 위하여, 각 점은 얼굴 형상 궤도(trajectory)를 취득하기 위해 독립적으로 트래킹된다.
동작 블록(206)에서, 트래킹된 입력 스테레오 시퀀스로부터 취득된 형상 궤도에 대해 PCA 처리가 시작된다. PCA는 고차원 공간에 포함된 데이터의 저차원 표현을 최적으로 예측하는 수학적인 프로세스이다. PCA 처리는 콤팩트한 변형 가능한 3D 형상 모델("3D 형상 모델")의 주요 형상 벡터를 취득하기 위한 것인데, 이것은 단안 트래킹에서 사용된다.
동작 블록(208)에서, 주요 형상 벡터가 계산되는 데, 이에 대해서는 나중에 더욱 상세하게 설명하겠다. 일단 주요 형상 벡터가 계산되면, 단안 트래킹 동안의 어떤 얼굴 움직임 또는 포즈는 주요 형상 벡터들의 선형 조합으로 근사될 수 있다.
동작 블록(220)(제2 단계)에서, 단안 트래킹이 계산된 모델을 사용하여 단안 입력 시퀀스에 대해 수행될 수 있다. 단안 시퀀스는 단일 카메라로부터의 영상들로 이루어지는 시퀀스이다. 예를 들어, 도 5에 도시한 바와 같이 단안 입력 시퀀스의 각 프레임(예: 프레임 1 내지 72)에서, 얼굴 형상은 학습 단계(210)에서 구축된 계산된 모델의 주요 형상 벡터들의 선형 조합에 의해 근사될 수 있다. 특히, 사람이 얼굴 표정과 포즈를 바꾸는 동안에, 시퀀스의 결과 광학 흐름 정보는 포즈와 얼굴 표정에서 변화를 트래킹하기 위해 계산된 모델과 함께 사용될 수 있다.
상기 동작은 예시적인 컴퓨팅 시스템(100)의 내부에서 구현될 수 있다. 예를 들어, CPU(102)는 3D 모델 구축 및 PCA 처리 수행을 위해 코드 또는 명령을 실행할 수 있으며, 이에 대해서는 나중에 더욱 상세하게 설명하겠다. 데이터 구동형 3D 모델은 컴퓨팅 시스템(100)의 메모리 기억 장치 내에 기억될 수 있다. 일 실시예에서, 데이터 구동형 3D 모델은 "변형 가능한 얼굴 모델"이며, 이에 대해 설명한다.
변형 가능한 얼굴 모델
다음 설명에서는 스테레오 트래킹 데이터에 기초하여 변형 가능한 얼굴 모델을 생성하고, 그 변형 가능한 얼굴 모델을 단안 트래킹하기 위해 필요한 파라미터화를 기술한다. 예를 들어, 도 5를 참조하면 단안 얼굴 시퀀스는 여기에 기술된 변형 가능한 얼굴 모델을 사용하여 3D 공간에서 트래킹될 수 있다.
처음에, In을 도 5에 도시한 바와 같이 72 프레임을 갖는 단안 얼굴 시퀀스의 n번째(nth)영상이라고 하자. 시간 n에서의 각 프레임 내의 각 얼굴의 3D 구조는 N개 점들의 집합 으로 나타낼 수 있다. 단안 트래킹을 수행하기 위하여, 얼굴 기준 프레임(reference frame)과 카메라 기준 프레임의 좌표 벡터를 정의하여야 한다. 특히, Xi(n)과를 각각 얼굴 기준 프레임과 카메라 기준 프레임 내의 점의 좌표 벡터라 하자.
벡터 Xi(n)과은 그 후 시간 n에서의 카메라에 대한 사용자 얼굴의 포즈를 특징화(characterizing)하는 강체 변환(rigid body transformation)을 통해 다음과 같이 서로 연관된다.
여기서, Rn은 3×3 회전 행렬(rotation matrix)이고, tn은 이동 벡터(translation vector)이다. 각 프레임의 각 얼굴을 트래킹하기 위해, 도 5에도시한 바와 같이 비강성 객체로서 형상에 대한 Xi(n)의 양과 포즈에 대한 Rn및 tn은 예측되어야 한다. Rn은 회전 행렬이기 때문에, Rn은 회전 벡터로 알려진 3벡터(3-vector)로 고유하게 파라미터화된다. 회전 행렬과 회적 벡터는 표준식(standard formula)을 사용하여 서로 관련될 수 있다.
영상 In, n= 1, 2, ... M 내의 데이터(예: 프레임 1 내지 72)는 각 프레임 내의 각 얼굴에 대한 형상과 포즈를 예측하는 데 사용될 수 있다. 특히,을 영상 In상의의 투영이라 하고,의 영상 좌표 벡터라 하자. 따라서, 일 실시예에서 종래 핀홀(pinhole) 카메라 모델은 다음과 같이의 투영에 대한 영상 좌표 벡터을 결정하기 위해 사용될 수 있다.
따라서 단안 트래킹은 3D 형상 Xi(n)과 포즈을 복구하기 위해 투영 맵(projection map) π를 반전시키는 것과 동등할 수 있다.
일 실시예에서, 비강성 형상(예: 변화하는 얼굴 표정과 포즈)의 단안 트래킹을 수행하기 위하여 비강성 형상들은 강성 형성들의 선형 조합에 기초할 수 있다. 비강성 형상들을 강성 형상들의 선형 조합에 기초하게 함으로써, 무한 수의 변화하는 형상과 포즈에 대한 영상 투영 점을 처리하는 것을 피할 수 있다. 따라서, 시퀀스 내의 임의의 시간 n에서, 형상 좌표 벡터 Xi(n)은 평균 형상(mean shape)벡터와 소수의 알려진 형상 벡터의 선형 조합의 합일 수 있으며, 아래의 식 1에 나타낸 바와 같이 주요 형상 기저 벡터이다.
[식 1]
식 1에서, p<< 3N이고, p 계수은 3D 형상의 비강성을 허용하는 엔티티들(entities)을 나타낸다. 만약 p=0 이면, 얼굴 형상 Xi(n)은 강성 형성가 된다. 때문에 "p"는 "변형 공간의 차원성(dimensionality)"이라 한다. 영상 투영 맵은 포즈 파라미터, tn과 같은 복수의 "변형 계수를 갖는 변형 벡터의 함수로 감소될 수 있다. 영상 투영 맵은 따라서 다음에 나타낸 식 2를 사용하여 계산될 수 있다.
[식 2]
따라서 단안 트래킹 절차는 변형 가능한 모델의 특정 형태로 광학 흐름 제약조건(optical flow constraints)(예: Lucas-Kanade)을 결합함으로써 수행될 수 있으며, 이것은 모든 프레임에서 변형 벡터, 포즈 파라미터, 및 tn을 동시 예측하는 경우, 식 1로 나타난다. 단안 트래킹 절차에 대해 이하에 더욱 상세하게 설명한다.
단안 트래킹 절차를 수행하기 전에, 식 1의 주요 형상 기저 벡터를 계산하여야 하는데, 이것은 도 2에 도시한 바와 같이 학습 단계(210)에서 수행된다. 주요 형상 기저 벡터를 사용함으로써, 데이터 구동형 모델은 비강성 모델의 수동 구축을 피할 수 있도록 하는 데 사용될 수 있다. 주요 형상 기저 벡터는 실제 3D 트래킹된 데이터로부터 발생되며, 이것 또한 도 2에 도시한 바와 같이 학습 단계(210)에서 수행된다. 특히, 교정된(calibrated) 스테레오 카메라는 3D 변화하는 얼굴 표정 및 포즈의 트래킹 하는데 사용된다. 예를 들어, 대략 100 내지 150 프레임의 숏트(short) 스테레오 입력 시퀀스(예를 들어, 도 3에 도시된 바와 같은)가 사용될 수 있다.
따라서, 주요 형상 기저 벡터는 PCA 처리를 사용하여 동작 블록 202 및 204에서 트래킹된 시퀀스로부터 계산될 수 있다. 동작 블록 202 및 204의 처리는 형상 변형 분석을 목적으로 하는 3D 궤도 데이터를 얻기 위해 필요한 스테레오 트래킹을 제공한다.
스테레오 트래킹
도 6은 일 실시예에 따른 스테레오 트래킹을 수행하기 위한 도 2의 동작 204의 흐름도를 예시한다. 처음에 동작 204는 동작 블록 604에서 시작한다.
동작 블록 604에서, 왼쪽 카메라 영상과 오른쪽 카메라 영상에 대한 점들의 집합이 초기화 된다. 일 실시예에서, 눈(2), 코(3), 입(8), 눈썹(6) 상에 위치하는 N=19인 점들 Pi의 집합은 도 2에 도시한 바와 같이 왼쪽 카메라 영상 및 오른쪽 카메라 영상에 대해 초기화 된다. 이 동작에서, 예를 들어, 입을 여닫고, 미소짓고, 눈썹을 치켜올리고 하는 등의 다양한 다른 얼굴 표정을 지으면서 사용자가 시퀀스 내내 머리 포즈를 가능한한 고정되게 유지하도록 변화하는 얼굴 변형은 포즈와 독립적으로 제공된다. 일 실시예에서, 점들의 집합은 컴퓨팅 시스템(100)의 사용자에 의해 제1 그리고 오른쪽 및 왼쪽 카메라 영상 상에 표시된다. 따라서, 스테레오 영상 시퀀스는 이 점들을 사용하여 트래킹될 수 있다.
모든 점들이 영상의 구성 영역(textured area) 내에 있어야 하는 것은 아니라는 것에 유의하여야 한다. 이것은 "트래킹하기 좋은(good to track)" 점을 분명히 나타내는 독립 특징점 트래킹의 필요조건이지만 모델 기반 트래킹의 필요조건은 아니다. 예를 들어, 코끝 점은 완전히 비구성 영역(textureless region) 내에 있고, 입 윤곽 점들 및 눈썹 상의 점들은 에지 특징들(edge features)이다. 이 모든 점들을 종래의 광학 흐름 기술(optical flow techniques)을 사용하여 개별적으로 트래킹하는 것은 불가능할 것이다.
동작 블록 604에서, 점들의 집합은 스테레오 3각 측량법(triangulation)에 의해 트래킹된다. 스테레오 트래킹은 각 점의 위치(왼쪽 카메라 기준 프레임에서)가 갱신되어 그것의 현재 왼쪽 및 오른쪽 영상 투영이 이전 영상 투영(즉, 임시 트래킹)과 대략 정합(matching)되도록 3D로 수행된다.
영상 정합 비용
일 실시예에서, 스테레오 트래킹 내내 스테레오 대응을 유지하기 위하여, 왼쪽 및 오른쪽 영상 투영은 왼쪽 영상과 오른족 영상 사이의 측정된 비용 함수를 고려함으로써 대략 정합될 것이다. 특히, 프레임 n-1 내지 프레임 n의 점들 Pi의 스테레오 트래킹은 아래의 식 3으로 나타낸 비용 함수 Ei를 최소화함으로써 할 수 있다.
[식 3]
식 3에서,은 시간 n에서의 왼쪽 및 오른족 영상에 대한 벡터를 의미하고,은 Pi의 왼쪽 및 오른쪽 영상 투영의 좌표 벡터를 가리킨다. Ei의 합은 관심 영역(region of interest, ROI)으로 불리는 영상 점 주위에서 실행된다. 식 3의 제1 및 제2 항은 독립적인 왼쪽 및 오른쪽 시간 트래킹(temporal tracking)에 대한 종래 영상 정합 비용 계산 항을 나타낸다. 제3 항은 왼쪽 영상과 오른족 영상 사이의 대응을 유지하기 위해 사용된다. 상기 세 항에 대한 세 개의 계수()는 상기 세 항들 사이의 변수 신뢰성(variable reliability)에 대한 고정 가중 계수(fixed weighting coefficient)(즉, 모든 점에 대해 동일) 사용자이다.
가중 계수 계산
일 실시예에서,계수에 대한 값은계수 및계수보다 작게 유지되고,비 및비는 보통 비율값 20으로 유지된다.계수의 값은 도 2에 도시한 바와 같이 얼굴 매쉬(face mash) 상의 19개 점 각각에 대해 개별적으로 하드코드(hardcode)될 수 있다.의 값은 대략 100 픽셀의 평균 이미지 영역(average image area)에 대해 각각 1, 1, 0.05일 수 있다.
에너지 함수 최소화
모든 매쉬 점에 적용될 때, 상기 3개의 가중 계수는 전체(global) 에너지 함수를 최소하는 데 사용될 수 있다. 전체 에너지 함수의 이런 형식에서, 스테레오 트래킹은 숏트 시퀀스(예를 들어 최대 20 내지 30 프레임)에 대해 잘 작용한다. 더 큰 스테레오 시퀀스의 경우, 조정항(regulation term)들이 모든 3D 구조(structure)가 스테레오 시퀀스를 통해 전체로서 매끄럽게 변형되면서 그 무결성(integrity)을 유지할 수 있도록 하는 비용 함수 EI(n)에 추가될 수 있다. 전체 에너지 비용 E(n)은 그 후 다음과 같이 된다:
ET(n)항은 시간 평활(temporal smoothing) 항이며, 각 점에서의 3D 속도의크기를 최소화하는 데 사용된다. ES(n)항은 형상 평활 항이며, 이웃하는 점들의 속도 차를 최소화하는 데 사용된다. 이 항은 이웃한 점들이 함께 움직이도록 이웃한 점들을 약하게 강화(enforcing)함으로써 모델의 무결성을 보증한다. EA(n)항은 인체측정(anthropometric) 에너지 비용 항이며, 제1 프레임에서 계산된 값에 가능한한 가깝게 세그멘트 길이를 유지하는 데 사용되고 롱(long) 트래킹 시퀀스에 대한 이동(drift)을 방지하는 데 사용된다. 이 세 개의 조정항을 다음과 같은 식으로 나타낸다:
여기서,이고, 양의 계수은 점에서 점, 그리고 에지에서 에지까지 변화한다. 일 실시예에서, 크게 확장되는(large streche) 모든 세그먼트값보다 작게 할당된다. 다른 실시예에서, 얼굴의 크게 변형 가능한 영역 상의 점 Pi는 작은가 할당될 것이다. 일 실시예에서, 상당히 강성인 것으로 알려진 점들 및 세그먼트들은 더 큰 값이 할당될 것이다.
그들에게 적용된 한 묶음(lot)의 임의의 움직임 및 확장(stretch)을 부과하는에 대한 값은 더 높게 할당될 것이다. 예를 들어, 입 윤곽에 대한 점들 및 에지들은 코와 눈에 속하는 점들 및 에지들보다 더 작은 계수를 가질 것이다. 일 실시예에서,에 대한 값은 대략 100 픽셀의 영상 특징 단편(image feature patch)의 평균 영역에 대해 20000, 20000 및 100이다.
3D 형상 궤도
전체 에너지 함수 E(n)을 최소화하는 솔루션 형상(solution shape)은 기울기 하강법(gradient descent)을 사용하여 계산될 수 있다. 즉, 모든 미분 형상 좌표 벡터에 대한 E(n)의 도함수를 영(zero)으로 설정하여이 되도록 한다. 야코비 행렬(Jacobian matrix)의 유도 후, 형상에 대한 솔루션은 1차 방정식(linear equation)으로 감소되며, 여기서 dX는 모든 N 벡터으로 이루어지는 3N×1 열 벡터이고, D 및 e는 각각 3N×3N 벡터와 3N×1 벡터이다. 일단 dX가 계산되면, 형상은 알게 된다. 동일한 프로세스가 최종적으로 완전한 3D 형상 궤도를 얻기 위하여 전체 스테레오 시퀀스에 걸쳐 반복된다.
주요 형상 벡터 계산
도 7은 일 실시예에 따른 주요 형상 벡터를 계산하기 위한 도 2의 동작 208에 대한 흐름도를 예시한다. 처음에 동작 208은 동작 블록(702)에서 시작한다.
동작 블록 702에서, 평균 형상(mean shape)이 계산된다. 특히, 스테레오 트래킹의 결과는 왼쪽 카메라 기준 프레임 내의 각 점 Pi의 3D 궤적,이며(n = 1, ..., M에 대해, M은 시퀀스 내의 프레임 수이다. p+1 형상 기저 벡터는 특이 값 분해(sigular value decomposition, SVD)를 사용하여 계산된다. 먼저, 평균 형상가 다음과 같이 계산된다:
동작 블록 704에서, 평균 형상는 전체 궤도에서 감산된다. 즉. 결과 형상 궤도는 그런 다음 3N×M 행렬("M")으로 저장된다.
동작 블록 706에서, SVD가 M에 적용된다. 특히 M에 SVD를 적용한 결과이 구해지며, U=[u1u1...u3N]이고 V=[v1v1...vM] 이다. U와 V는 두 개의 일원(unitary) 3N×3N과 M×M 행렬이며,은 양의 대각 행렬이며 단조 증가하는 특이 값이다. 이 분해 다음에 M은 다음과 같다.
동작 블록 708에서, M에 대한 합은 3N에서 p항까지 절단되는데, 이것은 p 벡터들의 고정 묶음(fixed budget)으로 주어진 행렬 M의 최적의 최소 제곱 근사(least squares aproximation)로 귀착된다. 이것은 제1 p벡터들 u1, ..., up에 의해 연결된(spanned) 선형 부분공간(subspace) 상에의 그 직교 투영(orthogonal projection)에 의한, M의 각 열 벡터(즉, 시퀀스 내의 각 3D 형상)의 근사값(approximating)과 동등하다. 이 벡터들은 정확하게 나머지 p 변형 형상 벡터들 이다:
k=1, ....p인 경우,
주요 형상 벡터의 결과 모델은 단안 트래킹 단계에 적합하다. 예를 들어, 만약 사용자가 다양한 얼굴 표정을 만들면, 그 얼굴 표정은 학습 단계(210) 동안에 시스템에 노출된 얼굴 표정을 기초로 트래킹될 수 있다. 벡터 uk는 일원적(unitary)이므로, 식 1 및 2에 나타나는 형상 계수는 평균 형상(mean shape)의 구성단위(units) 내에 있다. 일 실시예에서, 구성단위는 수 센티미터 내이고(in centimeters), 4개의 주요 형상 벡터는 가장 공통적인 얼굴 표정(예: 입과 눈썹 움직임)을 커버하는 데 사용된다. 그렇지만, 사용되는 주요 형상 벡터의 n는 트래킹을 수행한 얼굴 표정의 다양성(diversity)에 기초하여 변화될 수 있다.
도 4로 돌아가 참조하면, 도 3에 도시한 스테레오 시퀀스로부터 계산된 변형 411 내지 변형 414의 4차원 공간이 도시된다. 도 4에 도시된 바와 같이, 주요 형상 벡터는 예를 들어, 미소, 여닫은 입, 왼쪽과 오른쪽이 올라간 눈썹과 같은 4개의 주된 얼굴 움직임의 조합에 대응할 수 있다.
단안 트래킹
도 8은 일 실시예에 따라 학습 단계(210)에서 계산된 모델을 사용하여 단안 트래킹을 수행하는 도 2의 동작 220의 흐름도를 나타낸다. 처음에, 동작 220은 도 5에 도시한 바와 같은 영상 시퀀스에 대해 동작블록 802에서 시작한다.
동작 블록 802에서, 영상 측정값을 사용하여 형상 및 포즈에 대한 파라미터들이 영상 시퀀스로부터 예측된다. 특히, 광학 흐름 트래킹 기술은 두 개의 연속하는 프레임(예: 프레임 1 및 2)으로 주어진 영상 내의 모든 점의 과도적인 변위를 계산하는 데 사용될 수 있다. 각 영상 점은 그 후 독립적으로 처리될 수 있다. 여기서, 모델 기반 트래킹의 경우, 모델 내의 모든 점은 식 1에 의해 주어진 파라미터화된 3D 모델을 통해 상호 연결된다. 따라서, 3D 모델 구성을 정의하는 파라미터들은 영상 측정값으로부터 모든 한꺼번에 예측된다. 그러한 파라미터들은 형상에 대한과 포즈에 대한을 포함한다.
동작 블록 804에서, 최적의 형상 및 포즈는 다음 프레임에 가장 적합한 얼굴 모델을 사용하여 구해진다. 예를 들어, 얼굴 모델이 시퀀스 I1의 첫 번째 프레임에서 In-1의 (n-1)번째 프레임까지 트래킹된 얼굴 모델이라고 하자. 그 후 목표는 단안 트래킹을 수행하기 위하여 다음 프레임 In에 가장 적합한 얼굴 모델의 변형과 최적의 포즈를 구하는 것이다. 다음의 설명은 단안 트래킹을 위한 최적의 포즈 및 변형을 구하는 방법을 기술한다.
최적의 포즈 및 변형을 얻기 위하여, 트래킹 솔루션 식 4 및 5에 의해 최소값이 구해지는 비용 함수 Cn의 최소화가 사용된다.
여기서, πi는 식 2에서 정의된 모델 기반 영상 투영 맵이다. 식 4의 합은 예를 들어 관심 영역(ROI)과 같은 작은 화소창(pixel windows)에 통해 모든 영상 점주위에서 실행된다.
일 실시예에서, 식 4의 제1 항은 표준 정합 비용 항, 즉 제1 항은 모델 점들에서 두 개의 연속하는 영상 사이의 모든 영상 부정합(mismatch)를 측정한다. 그러나 제2 항은 현지 이미지 In과 제1 이미지 I1사이의 영상 부정합을 측정한다. 이 추가적인 항은 모든 얼굴 특징이 시퀀스의 시작부터 끝까지(이웃한 인식 영상 내의) 영상에 대해 동일하게 나타나도록 모든 얼굴 특징을 약하게 강화한다. 그렇게 함으로써 트래킹 이동(drift)을 방지하고 견고성(robustness)을 증가시킨다.이를 이동 감시 에너지 항(drift monitoring energy term)이라 부른다.
상기 두 개의 에너지 항은 스칼라 변수 "e"에 의해 다른 것에 비례하여 가중된다. 일 실시예에서, 변수 e=0.2이며, 감시 비용을 넘는 트래킹 비용을 강조하는 것이다. 따라서, 트??킹은 최적의 포즈 및 변형 갱신 벡터를 예측하는 것과 같다. 이것은에 대한 Cn의 도함수를 영(zero)으로 설정함으로써 실현된다.
[식 6]
따라서, 식 6은 두 개의 연속적인 프레임 사이에 작은 움직임을 가정할 때, "s"에 대해 풀린다. Iti를 다음과 같이 정의된 확장된 시간 도함수라 하자.
[식 7]
시간 도함수 Iti는 실제로 점의 이웃에서 구해진다. 만약이면, 식 7은 실제 시간차로 감소된다. 만약이면, 이전 영상 In-1상의 영상 단편(image patch)은 제1 프레임, 즉 식 7의 2번째 행(row)의 영상 단편과 평균된다. 결과 단편은 다음 이미지 In에 대해 기준(reference)으로 사용된다. 이 프로세스는 제1 영상에서 그것이 선택되었을 때의 특징의 원래 모습(original appearance) "기억"하는 단안 트래킹 동작을 효과적으로 도움으로써 견고성을 향상시키고 이동을 감소시킨다.
다음에, 아래의 Ixi의 이웃 내의 영상 In의 x 및 y 영상 도함수(영상 기울기)라 하자.
아래의를 S=0일 때의 이웃 내의 s에 대한 영상 휘도 In의 도함수라 하자.
Ixi각각의 크기가 1×2와 2×(p+6)이기 때문에, 결과 행렬는 크기가 1×(p+6)이다. 식 6을 충족하는 최적의 형상 및 포즈 갱신 벡터 "s"는 다음과 같다.
[식 8]
여기서, (p+6)×(p+6) 행렬 G와 (p+6)=1 벡터 b는 다음과 같이 주어진다:
여기서, 유일한 트래킹 해(unique tracking solution) "s"는 전체 모델에 대해 모두 한꺼번에 계산되며, 동시에 그것의 원래 형태로 각 영상 점은 개별적으로 처리된다. 3D 모델은 실제 데이터에 의해 구축되고, 몇 개의 계수로 파라미터화되어 트래킹을 위해 사용된다. s를 계산할 수 있는 경우, 행렬 G는 p+6 열(rank)이다. 대략, 3D 모델 내의 각 점은 비구성 영역(, 에지 영역, 또는 영상 내의 완전한 구성 영역에 있는지에 따라 0, 1 또는 2 스칼라 관측 제약조건(observation constraints)을 초래한다. 일 실시예에서, 트래킹하기 좋은 3D 모델을 만들기 위하여 전체 점에서 수집된 제약조건의 전체 수는 p+6=10 이상이어야 한다.
일단 "s"가 계산되면, 시간 프레임 n에서의 포즈와 변형은 알려진다. 일 실시예에서, 예측을 정밀하게 하기 위하여 고정된 시간 프레임 n에서 동일한 절차를 여러번(예: 4, 5번) 반복할 수 있다. 그런 다음 동일한 전체 프로세스는 후속 프레임에 대해 반복된다. 일 실시예에서, 3D 모델 파라미터들에 대한 초기화는 먼저 제1 영상 I1에 대해 N=19로 얼굴 특징을 국소화(localizing)함으로써 수동으로 행해진다. 그런 다음 수동으로 선택된 점을 정합시키는 모델의 영상 투영을 만드는 초기 포즈 및 변형 파라미터들를 계산하기 위해 소규모 최적화가 수행된다.
각 모델 점의 관심 영역(ROI)은 전체 시퀀스를 통해 일정하게 유지되는 않는다는 것에 유의하여야 한다. 대신에, 관심 영역(ROI)의 크기 및 기하(geometry)는 거리(깊이)와 공간내 점의 방위(국소 표면 수직 )에 기초하여 모든 프레임에서 다시 계산된다. 결과 관심 영역은 도 5에 도시한 바와 같이 작은 평행사변형이다. 특히, 카메라로부터 멀리 떨어져 "보기 불가(non visible)"으로 선언된 얼굴의 점들은 할당된 크기가 0인 관심 영역을 가지며, 따라서 트래킹 갱신에 기여하지 못한다.
그러므로, 단안 영상 시퀀스에서 예를 들어 사람의 얼굴 등에 번거러운 특별한 마커를 사용하지 않는 포즈와 변형의 3D 트래킹을 위한 2단계 시스템 및 방법을 기술하였다. 시스템의 제1 단계는 실제 스테레오 트래킹 데이터에 PCA를 적용하여 모든 가능한 얼굴 변형의 공간을 학습한다. 그 결과 모델은 임의의 일반적인 형상을 형상 기저 벡터의 선형 조합으로 근사한다. 시스템의 제2 단계는 이 복잡도가 낮은 변형 가능한 모델을 단일 영상 시퀀스로부터 얼굴의 포즈와 변형을 동시에 예측하기 위해 사용한다. 이 단계는 모델 기반 단안 트래킹으로 알려져 있다.
모델 구축을 위한 데이터 구동형 접근법(data-driven approach)은 비강성 객체의 3D 트래킹에 적합하며, 3D 스캐너 또는 CAD 모델러를 사용한 모델의 수동 구축 업무에 대한 정밀하고 실제적인 대안을 제공한다. 또한, 실제 데이터로부터 모델을 생성하는 것은 손으로 만든 모델에 비해 더 적은 파라미터로 트래킹되는 얼굴 변형에 커다란 다양성을 허용하며, 향상된 견고성과 트래킹 정확도를 가져온다. 또한 시스템은 동일한 3D 모델을 사용하여 여러 사람을 트래킹 가능하게 함에 있어매우 장래성있는 일반화 특성을 나타내며, 이것은 트래킹을 위해 각각의 사용에 대해 상이한 모델을 요구하는 대부분의 다른 얼굴 트래킹 시스템을 능가하는 중요한 개선점이다.
전술한 명세서에서, 본 발명은 특정한 실시예를 참조하여 설명하였다. 그러나 첨부된 청구범위에 기재한 발명의 범위와 더 넓은 기술 사상을 벗어나지 않으면서, 다양한 수정과 변경이 가능하다는 것이 명백하다. 따라서 명세서와 도면은 제한적인 의미가 아니라 예시적인 의미로 간주되어야 한다.

Claims (15)

  1. 입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 단계,
    상기 취득된 스테레오 데이터를 사용하여 3차원(3D) 모델을 구축하는 단계, 및
    상기 구축된 3D 모델을 사용하여 단안 영상 시퀀스(monocular image sequences)를 트래킹하는 단계
    를 포함하는 영상 처리 방법.
  2. 제1항에서,
    상기 스테레오 데이터를 취득하는 단계는 변화하는 얼굴 표정들의 입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 단계를 포함하는 영상 처리 방법.
  3. 제1항에서,
    상기 3D 모델을 구축하는 단계는 주요 성분 분석법(principal component analysis, PCA)을 사용하여 상기 취득된 스테레오 데이터를 처리하는 단계를 포함하는 영상 처리 방법.
  4. 제3항에서,
    상기 PCA를 사용하여 처리된 상기 스테레오 데이터는 상기 3D 모델이 일반적인 형상을 형상 기저 벡터들(shape vase vectors)의 선형 조합으로 근사할 수 있도록 하는 영상 처리 방법.
  5. 제1항에서,
    상기 단안 영상 시퀀스를 트래킹하는 단계는 상기 구축된 3D 모델을 사용하여 얼굴 변형들(facial deformations)의 단안 영상 시퀀스를 트래킹하는 단계를 포함하는 영상 처리 방법.
  6. 입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 입력 장치, 및
    상기 취득된 스테레오 데이터를 사용하여 3차원(3D) 모델을 구축하고, 상기 구축된 3D 모델을 사용하여 단안 영상 시퀀스를 트래킹하는 처리 장치
    를 포함하는 컴퓨팅 시스템.
  7. 제6항에서,
    상기 입력 장치는 변화하는 얼굴 표정들의 입력 영상 시퀀스에 기초하여 상기 스테레오 데이터를 취득하는 컴퓨팅 시스템.
  8. 제6항에서,
    상기 처리 장치는 PCA를 사용하여 취득된 상기 스테레오 데이터를 처리하는 컴퓨팅 시스템.
  9. 제6항에서,
    상기 처리 장치는 상기 PCA 처리된 스테레오 데이터에 기초하여 일반적인 형상을 형상 기저 벡터들의 선형 조합으로 근사하는 컴퓨팅 시스템.
  10. 제6항에서,
    상기 처리 장치는 상기 구축된 3D 모델을 사용하여 얼굴 변형들의 단안 영상 시퀀스를 트래킹하는 컴퓨팅 시스템.
  11. 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금
    입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 단계,
    상기 취득된 스테레오 데이터를 사용하여 3차원(3D) 모델을 구축하는 단계, 및
    상기 구축된 3D 모델을 사용하여 단안 영상 시퀀스를 트래킹하는 단계
    를 포함하는 동작(operation)을 수행하도록 하는 명령들(instructions)을 제공하는 기계로 판독 가능한 매체.
  12. 제11항에서,
    상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금
    변화하는 얼굴 표정들의 입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 단계를 포함하는 동작을 수행하도록 하는 명령들을 더 제공하는 기계로 판독 가능한 매체.
  13. 제11항에서,
    상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금
    주요 성분 분석법(principal component analysis, PCA)을 사용하여 상기 취득된 스테레오 데이터를 처리하는 단계를 포함하는 동작을 수행하도록 하는 명령들을 더 제공하는 기계로 판독 가능한 매체.
  14. 제11항에서,
    상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금
    상기 PCA를 사용하여 처리된 상기 스테레오 데이터에 기초하여 일반적인 형상을 형상 기저 벡터들의 선형 조합으로 근사하도록 하는 단계를 포함하는 동작을 수행하도록 하는 명령들을 더 제공하는 기계로 판독 가능한 매체.
  15. 제11항에서,
    상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금
    상기 구축된 3D 모델을 사용하여 얼굴 변형들의 단안 영상 시퀀스를 트래킹하는 단계를 포함하는 동작을 수행하도록 하는 명령들을 더 제공하는 기계로 판독 가능한 매체.
KR1020037014619A 2001-05-09 2002-05-02 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법 KR100571115B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/852,398 US9400921B2 (en) 2001-05-09 2001-05-09 Method and system using a data-driven model for monocular face tracking
US09/852,398 2001-05-09
PCT/US2002/014014 WO2002091305A2 (en) 2001-05-09 2002-05-02 Method and system, using a data-driven model for monocular face tracking

Publications (2)

Publication Number Publication Date
KR20040034606A true KR20040034606A (ko) 2004-04-28
KR100571115B1 KR100571115B1 (ko) 2006-04-13

Family

ID=25313204

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037014619A KR100571115B1 (ko) 2001-05-09 2002-05-02 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법

Country Status (7)

Country Link
US (1) US9400921B2 (ko)
KR (1) KR100571115B1 (ko)
CN (1) CN1294541C (ko)
AU (1) AU2002303611A1 (ko)
GB (1) GB2393065B (ko)
HK (1) HK1062067A1 (ko)
WO (1) WO2002091305A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101311600B1 (ko) * 2012-10-26 2013-09-26 동국대학교 산학협력단 의료용 위치추적 기기
KR101424942B1 (ko) * 2004-07-30 2014-08-01 익스트림 리얼리티 엘티디. 이미지 프로세싱을 기반으로 한 3d 공간 차원용 시스템 및 방법
KR20200015459A (ko) * 2017-06-07 2020-02-12 구글 엘엘씨 고속, 고성능 얼굴 추적

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10025922A1 (de) * 2000-05-27 2001-12-13 Robert Massen Automatische photogrammetrische Digitalisierung von Körpern und Objekten
US9400921B2 (en) * 2001-05-09 2016-07-26 Intel Corporation Method and system using a data-driven model for monocular face tracking
GB2382289B (en) * 2001-09-28 2005-07-06 Canon Kk Method and apparatus for generating models of individuals
GB2389289B (en) * 2002-04-30 2005-09-14 Canon Kk Method and apparatus for generating models of individuals
DE10235657A1 (de) * 2002-08-02 2004-02-12 Leica Microsystems Heidelberg Gmbh Verfahren, Anordnung und Software zur Optimierung der Bildqualität von mit einem Mikroskop aufgenommenen beweglichen Objekten
US7343278B2 (en) * 2002-10-22 2008-03-11 Artoolworks, Inc. Tracking a surface in a 3-dimensional scene using natural visual features of the surface
JP4210926B2 (ja) * 2004-01-16 2009-01-21 株式会社デンソー 乗員保護システム
JP4928451B2 (ja) * 2004-07-30 2012-05-09 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法
US8571258B2 (en) * 2006-02-07 2013-10-29 France Telecom Method of tracking the position of the head in real time in a video image stream
US8026931B2 (en) 2006-03-16 2011-09-27 Microsoft Corporation Digital video effects
CN100449567C (zh) * 2006-11-02 2009-01-07 中山大学 一种基于块内相关性的二维主元分析人脸识别方法
CN100423020C (zh) * 2006-12-15 2008-10-01 中山大学 一种基于结构主元分析的人脸识别方法
ES2402957T3 (es) * 2007-03-05 2013-05-10 Seeing Machines Pty Ltd Rastreo eficaz y preciso de objetos tridimensionales
KR100896065B1 (ko) * 2007-12-17 2009-05-07 한국전자통신연구원 3차원 얼굴 표정 애니메이션 생성 방법
JP5239396B2 (ja) * 2008-02-28 2013-07-17 セイコーエプソン株式会社 画像出力方法、画像出力装置および画像出力プログラム
US8525871B2 (en) * 2008-08-08 2013-09-03 Adobe Systems Incorporated Content-aware wide-angle images
US8538072B2 (en) * 2008-08-27 2013-09-17 Imprivata, Inc. Systems and methods for operator detection
CN101425183B (zh) * 2008-11-13 2012-04-25 上海交通大学 基于二阶锥规划的变形体三维跟踪方法
US8624962B2 (en) * 2009-02-02 2014-01-07 Ydreams—Informatica, S.A. Ydreams Systems and methods for simulating three-dimensional virtual interactions from two-dimensional camera images
JP2011039801A (ja) * 2009-08-12 2011-02-24 Hitachi Ltd 画像処理装置および画像処理方法
CN101763636B (zh) * 2009-09-23 2012-07-04 中国科学院自动化研究所 视频序列中的三维人脸位置和姿态跟踪的方法
US8937592B2 (en) * 2010-05-20 2015-01-20 Samsung Electronics Co., Ltd. Rendition of 3D content on a handheld device
US8259994B1 (en) * 2010-09-14 2012-09-04 Google Inc. Using image and laser constraints to obtain consistent and improved pose estimates in vehicle pose databases
CN102122239B (zh) * 2011-03-21 2013-03-20 日照市活点网络科技有限公司 物联网3d图像处理方法
CN103814384B (zh) 2011-06-09 2017-08-18 香港科技大学 基于图像的跟踪
KR101624808B1 (ko) * 2011-08-09 2016-05-26 인텔 코포레이션 파라미터화된 3d 얼굴 생성
US9123144B2 (en) * 2011-11-11 2015-09-01 Microsoft Technology Licensing, Llc Computing 3D shape parameters for face animation
US9129147B1 (en) * 2012-05-22 2015-09-08 Image Metrics Limited Optimal automatic capture of facial movements and expressions in video sequences
US9406135B2 (en) 2012-10-29 2016-08-02 Samsung Electronics Co., Ltd. Device and method for estimating head pose
FR2998402B1 (fr) * 2012-11-20 2014-11-14 Morpho Procede de generation d'un modele de visage en trois dimensions
EP2824913A1 (en) * 2013-07-09 2015-01-14 Alcatel Lucent A method for generating an immersive video of a plurality of persons
US20160070952A1 (en) * 2014-09-05 2016-03-10 Samsung Electronics Co., Ltd. Method and apparatus for facial recognition
GB201419441D0 (en) * 2014-10-31 2014-12-17 Microsoft Corp Modifying video call data
US9747573B2 (en) * 2015-03-23 2017-08-29 Avatar Merger Sub II, LLC Emotion recognition for workforce analytics
US10441604B2 (en) * 2016-02-09 2019-10-15 Albireo Ab Cholestyramine pellets and methods for preparation thereof
US11736756B2 (en) * 2016-02-10 2023-08-22 Nitin Vats Producing realistic body movement using body images
EP3324254A1 (de) * 2016-11-17 2018-05-23 Siemens Aktiengesellschaft Einrichtung und verfahren zur bestimmung der parameter einer regeleinrichtung
CN109145758A (zh) * 2018-07-25 2019-01-04 武汉恩智电子科技有限公司 一种基于视频监控的人脸的识别算法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9610212D0 (en) 1996-05-16 1996-07-24 Cyberglass Limited Method and apparatus for generating moving characters
CN1188948A (zh) * 1996-12-27 1998-07-29 大宇电子株式会社 用于对脸部运动编码的方法和装置
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JP3055666B2 (ja) * 1997-03-11 2000-06-26 株式会社エイ・ティ・アール知能映像通信研究所 3次元画像作成装置
US6047078A (en) * 1997-10-03 2000-04-04 Digital Equipment Corporation Method for extracting a three-dimensional model using appearance-based constrained structure from motion
CA2312315A1 (en) * 1997-12-01 1999-06-10 Arsev H. Eraslan Three-dimensional face identification system
CA2227361A1 (en) * 1998-01-19 1999-07-19 Taarna Studios Inc. Method and apparatus for providing real-time animation utilizing a database of expressions
US6272231B1 (en) * 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
US6301370B1 (en) * 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
US6614428B1 (en) * 1998-06-08 2003-09-02 Microsoft Corporation Compression of animated geometry using a hierarchical level of detail coder
US6072496A (en) * 1998-06-08 2000-06-06 Microsoft Corporation Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects
US6198485B1 (en) * 1998-07-29 2001-03-06 Intel Corporation Method and apparatus for three-dimensional input entry
IT1315446B1 (it) * 1998-10-02 2003-02-11 Cselt Centro Studi Lab Telecom Procedimento per la creazione di modelli facciali tridimensionali apartire da immagini di volti.
JP2000293687A (ja) * 1999-02-02 2000-10-20 Minolta Co Ltd 3次元形状データ処理装置および3次元形状データ処理方法
US6200139B1 (en) * 1999-02-26 2001-03-13 Intel Corporation Operator training system
EP1039417B1 (en) * 1999-03-19 2006-12-20 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Method and device for the processing of images based on morphable models
JP3639476B2 (ja) * 1999-10-06 2005-04-20 シャープ株式会社 画像処理装置および画像処理方法ならびに画像処理プログラムを記録した記録媒体
JP2001142380A (ja) * 1999-11-12 2001-05-25 Sony Corp ホログラム作成装置及び方法、並びにホログラム
EP1412917B1 (en) * 2000-03-08 2008-04-30 Cyberextruder.com, Inc. Apparatus and method for generating a three-dimensional representation from a two-dimensional image
US6807290B2 (en) * 2000-03-09 2004-10-19 Microsoft Corporation Rapid computer modeling of faces for animation
JP2001331799A (ja) * 2000-03-16 2001-11-30 Toshiba Corp 画像処理装置および画像処理方法
IT1320002B1 (it) * 2000-03-31 2003-11-12 Cselt Centro Studi Lab Telecom Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
KR20020022504A (ko) * 2000-09-20 2002-03-27 박종만 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법
US6850872B1 (en) * 2000-08-30 2005-02-01 Microsoft Corporation Facial image processing methods and systems
US6950104B1 (en) * 2000-08-30 2005-09-27 Microsoft Corporation Methods and systems for animating facial features, and methods and systems for expression transformation
US7127081B1 (en) * 2000-10-12 2006-10-24 Momentum Bilgisayar, Yazilim, Danismanlik, Ticaret, A.S. Method for tracking motion of a face
US6975750B2 (en) * 2000-12-01 2005-12-13 Microsoft Corp. System and method for face recognition using synthesized training images
US9400921B2 (en) * 2001-05-09 2016-07-26 Intel Corporation Method and system using a data-driven model for monocular face tracking
US7027054B1 (en) * 2002-08-14 2006-04-11 Avaworks, Incorporated Do-it-yourself photo realistic talking head creation system and method
US6919892B1 (en) * 2002-08-14 2005-07-19 Avaworks, Incorporated Photo realistic talking head creation system and method
EP2030171A1 (en) * 2006-04-10 2009-03-04 Avaworks Incorporated Do-it-yourself photo realistic talking head creation system and method
WO2008141125A1 (en) * 2007-05-10 2008-11-20 The Trustees Of Columbia University In The City Of New York Methods and systems for creating speech-enabled avatars

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101424942B1 (ko) * 2004-07-30 2014-08-01 익스트림 리얼리티 엘티디. 이미지 프로세싱을 기반으로 한 3d 공간 차원용 시스템 및 방법
KR101311600B1 (ko) * 2012-10-26 2013-09-26 동국대학교 산학협력단 의료용 위치추적 기기
KR20200015459A (ko) * 2017-06-07 2020-02-12 구글 엘엘씨 고속, 고성능 얼굴 추적

Also Published As

Publication number Publication date
CN1294541C (zh) 2007-01-10
WO2002091305A3 (en) 2003-09-18
KR100571115B1 (ko) 2006-04-13
GB0328400D0 (en) 2004-01-14
AU2002303611A1 (en) 2002-11-18
CN1509456A (zh) 2004-06-30
HK1062067A1 (en) 2004-10-15
US9400921B2 (en) 2016-07-26
GB2393065A (en) 2004-03-17
US20030012408A1 (en) 2003-01-16
GB2393065B (en) 2005-04-20
WO2002091305A2 (en) 2002-11-14

Similar Documents

Publication Publication Date Title
KR100571115B1 (ko) 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법
US6492986B1 (en) Method for human face shape and motion estimation based on integrating optical flow and deformable models
US5774129A (en) Image analysis and synthesis networks using shape and texture information
US6047078A (en) Method for extracting a three-dimensional model using appearance-based constrained structure from motion
DeCarlo et al. The integration of optical flow and deformable models with applications to human face shape and motion estimation
US10573065B2 (en) Systems and methods for automating the personalization of blendshape rigs based on performance capture data
US11494915B2 (en) Image processing system, image processing method, and program
Ishikawa Passive driver gaze tracking with active appearance models
US9477878B2 (en) Rigid stabilization of facial expressions
Dornaika et al. On appearance based face and facial action tracking
US5844573A (en) Image compression by pointwise prototype correspondence using shape and texture information
US6556196B1 (en) Method and apparatus for the processing of images
DeCarlo et al. Deformable model-based shape and motion analysis from images using motion residual error
Reveret et al. A new 3D lip model for analysis and synthesis of lip motion in speech production
JP6207210B2 (ja) 情報処理装置およびその方法
JP2003108981A (ja) 顔の特徴を位置確認するための方法及びコンピュータープログラム製品
WO1995006297A1 (en) Example-based image analysis and synthesis using pixelwise correspondence
JP2011039869A (ja) 顔画像処理装置およびコンピュータプログラム
Kervrann et al. Statistical deformable model-based segmentation of image motion
Agudo et al. Real-time 3D reconstruction of non-rigid shapes with a single moving camera
JP2005025748A (ja) 立体結合顔形状の位置合わせ
CN113628327A (zh) 一种头部三维重建方法及设备
CN114422832A (zh) 主播虚拟形象生成方法及装置
Ye et al. 3d morphable face model for face animation
Achenbach et al. Accurate Face Reconstruction through Anisotropic Fitting and Eye Correction.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090403

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee