KR100571115B1 - 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법 - Google Patents
단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법 Download PDFInfo
- Publication number
- KR100571115B1 KR100571115B1 KR1020037014619A KR20037014619A KR100571115B1 KR 100571115 B1 KR100571115 B1 KR 100571115B1 KR 1020037014619 A KR1020037014619 A KR 1020037014619A KR 20037014619 A KR20037014619 A KR 20037014619A KR 100571115 B1 KR100571115 B1 KR 100571115B1
- Authority
- KR
- South Korea
- Prior art keywords
- model
- tracking
- stereo data
- face
- monocular
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/189—Recording image signals; Reproducing recorded image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
단안 얼굴 트래킹(monocular face tracking)을 위해 데이터 구동형 모델(data-driven model)을 사용하는 시스템 및 방법을 기술하며, 이것은 단일 카메라를 사용하여 예를 들어 얼굴과 같은 3차원(3D) 영상을 트래킹하는 다용도 시스템(versatile system)을 제공한다. 한 방법의 경우, 입력 영상 시퀀스에 기초한 스테레오 데이터(stereo data)를 얻는다. 3D 모델은 취득된 스테레오 데이터를 사용하여 구축된다. 단안 영상 시퀀스는 구축된 3D 모델을 사용하여 트래킹된다. 예를 들어 가능한 얼굴 변형들을 학습하고 데이터 구동형 3D 모델("3D 얼굴 모델")을 구축하기 위해 주요 성분 분석법(principal component analysis, PCA)을 스테레오 데이터에 적용할 수 있다. 3D 얼굴 모델은 일반적인 형상(예: 얼굴 자세)을 PCA 분석법에 기초하여 형상 베이스 벡터의 선형 조합으로 근사하기 위하여 사용될 수 있다.
데이터구동형모델, 트래킹, PCA, 스테레오데이터, 학습, 영상시퀀스, 3D
Description
본 발명은 일반적으로 영상 처리 분야에 관한 것이다. 특히, 본 발명은 단안 얼굴 트래킹(monocular face tracking)을 위해 데이터 구동형 모델(data-driven model)을 사용하는 시스템 및 방법에 관한 것이다.
단안 얼굴 트래킹은 고정된 카메라의 단안 영상 시퀀스에 기초하여 얼굴 움직임(motion), 위치(position) 및 형상(shape)을 통계적으로 예측하는 프로세스이다. 단안 얼굴 트래킹은 화상 회의 시스템(video conferencing system)과 같은 많은 영상 처리 시스템에서 중요한 프로세스(process)이다. 예를 들어, 화상 회의 시스템에서 얼굴 움직임이나 위치를 예측함으로써 교체되거나 처리되어야 하는 얼굴 데이터나 정보의 양이 감소된다. 즉, 예측되는 얼굴 움직임, 위치 및 형상과 관련된 파라미터들은 대량의 영상 데이터를 교체하거나 처리하는 대신에 영상 시퀀스 출력에 대해 대체되거나 처리될 수 있다.
한 종류의 얼굴 트래킹 시스템은 마커들(markers)에 기초한 얼굴 트래킹 시스템("마커 얼굴 트래킹 시스템")이다. 마커 얼굴 트래킹 시스템에서, 사용자는 알려진 위치에 색채 "마커들"을 하고 있어야 한다. 따라서 마커들의 이동이 얼굴 위치 및 형상을 예측하기 위해 파라미터화된다. 마커 얼굴 트래킹 시스템의 단점은 사용자를 성가시게(invasive) 한다는 것이다. 특히, 사용자는 얼굴의 변화하는 위치에 다수의 색채 마커를 두어야한다. 게다가, 사용자는 마커를 부착하는 데 시간을 소비해야 하는데, 이것은 그러한 시스템의 사용하는데 복잡도(complexity)를 더욱 증가시킨다.
다른 종류의 얼굴 트래킹 시스템은 모델 기반 얼굴 트래킹 시스템이다. 모델 기반 얼굴 트래킹 시스템은 얼굴 위치 및 움직임을 예측하는 데 사용될 수 있는 파라미터화된 얼굴 형상 모델을 사용한다. 종래의 모델 기반 얼굴 트래킹 시스템에서, 파라미터화된 모델은 예를 들어 3D 스캐너 또는 CAD(Computer Aided Design) 모델러를 사용함으로써 수동 프로세스(manual process)를 사용하여 구축된다. 그러므로, 종래 모델 기반 얼굴 트래킹 시스템의 단점은 얼굴 형상 모델들의 수동 구축이 매우 임시적인 것이고(ad- hoc), 이는 트래킹 모델들을 취득하기 위해 시행착오 접근법으로 이끈다. 이러한 매우 임시적인 프로세스는 부정확하고 최적에 못미치는(suboptimal) 모델을 제공한다.
단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용한 시스템 및 방법으로, 단일 카메라를 사용하여 취득한 영상 시퀀스에서 예를 들어 얼굴과 같은 3차원(3D)객체를 트래킹하는 다목적 시스템을 제공한다. 일 실시예에서 입력 영상 시퀀스에 기초한 스테레오 데이터(stereo data)가 취득된다. 3D 모델은 취득된 스테레오 데이터를 사용하여 구축된다. 단안 영상 시퀀스는 구축된 3D 모델을 사용하여 트래킹된다. 일 실시예에서, 주요 성분 분석법(principal component analysis, PCA)이 예를 들어 가능한 얼굴 변형을 학습하고 데이터 구동형 3D 모델("3D 얼굴 모델")을 구축하기 위해 스테레오 데이터에 적용된다. 3D 얼굴 모델은 일반적인 형상(예: 얼굴 포즈)을 PCA 분석법에 기초한 형상 기저 벡터(shape basis vector)들의 선형 조합으로 근사하기 위하여 사용될 수 있다.
실제 스테레오를 사용함으로써, 3D 모델을 구축하기 위하여 작은 수의 형상 기저 벡터를 계산할 수 있는데, 이것은 많은 이점을 제공한다. 예를 들어, 최적의 작은 수(예: 3 또는 4)의 형상 기저 벡터는 예를 들어 미소짓고, 얘기하고, 눈썹을 치켜 올리는 등 다양한 얼굴 표정을 연결(span)하기 위하여 사용될 수 있다. 또한, 3D 모델은 하나 이상의 사용자로부터의 스테레오 데이터를 사용하여 구축되어 데이터베이스에 저장될 수 있으며, 예를 들어 새로운 사용자로부터의 스테레오 데이터가 데이터베이스에 저장되어 있지 않더라도 새로운 사용자의 얼굴을 트래킹할 수 있다.
또 입력 영상 시퀀스에 기초한 스테레오 데이터를 사용하여 3D 모델을 구축함으로써 얼굴의 변형(deformation) 및 포즈(pose)에 대한 단안 얼굴 트래킹이 귀찮고 성가신 마커(intrusive maker)를 사용하지 않고도 실현될 수 있다. 여기에 기술된 3D 얼굴 모델은 단일 영상 시퀀스("단안 트래킹")로부터 얼굴의 변형 및 포즈의 동시 트래킹에 대해 복잡도가 낮은 변형할 수 있는 모델을 제공한다.
다음의 실시예는 귀찮고 성가신 마커를 사용하지 않는 단일 비디오 카메라 앞의 얼굴 영상("얼굴")의 3D 포즈 및 형상 모두를 트래킹하는 시스템을 기술한다. 이 시스템은 또한 데이터 구동형 모델을 사용한 견고하고(robust) 정확한 단안 트래킹을 제공한다. 게다가, 이 시스템은 동일한 3D 모델로 많은 사람의 얼굴 트래킹이 가능하도록 특성들(properties)의 일반화를 제공한다.
이하의 설명에서, 단안 트래킹 기술은 3D 얼굴 영상의 트래킹과 관련하여 기술한다. 그렇지만, 본 명세서에 기술된 단안 트래킹 기술은 어떤 특정한 유형의 이미지로의 한정을 의도한 것은 아니며, 움직이는 신체 부분 또는 무생물 객체(inanimate objects) 등 다른 유형의 3D 이미지를 이용하여 구현될 수도 있다.
본 발명은 예시를 목적으로 설명되며, 첨부 도면에 의해 한정되지 않으며, 도면 내의 같은 도면 부호는 같은 구성요소를 나타낸다.
도 1은 본 발명을 실시하는 컴퓨팅 시스템의 일례를 나타낸 도면이다.
도 2는 일 실시예에 따라 데이터 구동형 모델을 사용하는 단안 트래킹을 수행하는 동작의 흐름도이다.
도 3은 도 2의 데이터 구동형 모델를 구축하기 위한 스테레오 트래킹용 스테레오 입력 영상 시퀀스의 일례를 나타낸 도면이다.
도 4는 스테레오 입력 시퀀스로부터 학습된 4차원 공간의 변형(deformation)예를 나타내는 도면이다.
도 5는 단안 트래킹을 위한 입력 영상 시퀀스의 예를 나타내는 도면이다.
도 6은 일 실시예에 따라 도 2의 스테레오 트래킹을 수행하는 동작의 흐름도이다.
도 7은 일 실시예 따라 도 2의 주요 형상 벡터를 계산하는 흐름도이다.
도 8은 일 실시예 따라 도 2의 단안 트래킹을 수행하는 흐름도이다.
개관
컴퓨팅 시스템의 일례
도 1은 본 발명을 실시하기 위한 컴퓨팅 시스템(100)의 일례를 나타낸다. 본 명세서에 기술된 3D 모델 구축 기술 및 단안 트래킹 기술은 컴퓨팅 시스템(100)에 의해 이용될 수 있고 구현될 수 있다. 컴퓨팅 시스템(100)은 현존하는 예를 들어 범용 컴퓨터, 워크스테이션, 휴대형 컴퓨터, 핸드헬드(hand-held) 컴퓨팅 장치 및 기타 컴퓨팅 장치를 의미할 수 있다. 컴퓨팅 시스템(100)의 구성 요소는 예시적이며, 하나 이상의 구성요소가 생략되거나 추가될 수 있다. 예를 들어, 복수의 카메라 장치(128)를 컴퓨팅 시스템(100)과 함께 사용할 수 있다.
도 1을 참조하면, 컴퓨팅 시스템(100)은 버스(101)을 통해 디스플레이 회로(105), 메인 메모리(104), 스태틱 메모리(106), 및 플래시 메모리(107)에 연결되는 코프로세서(co-processor)(103)와 중앙 처리 장치(CPU)(102)를 구비하는 주 장치(110)를 포함한다. 컴퓨팅 시스템(100)의 주 장치(110)는 버스(101)를 통해 또한 디스플레이(121), 키패드 입력부(122), 커서 제어부(123), 하드카피(hardcopy) 장치(124), 입출력(I/O) 장치(125) 및 대용량 기억 장치(126), 그리고 카메라 장치(128)에 연결될 수 있다.
버스(101)는 정보와 신호를 통신하는 표준 시스템 버스이다. CPU(102)와 코 프로세서(103)는 컴퓨팅 시스템(100)의 처리 장치이다. CPU(102)나 코프로세서(103) 또는 이 모두는 컴퓨팅 시스템(100)의 정보 및/또는 신호를 처리하기 위해 사용될 수 있다. CPU(102)는 본 명세서에 기술된 3D 데이터 구동형 모델 구축 기술과 단안 트래킹 기술을 실행하는 코드(code) 또는 명령(instruction)을 처리하기 위해 사용될 수 있다. 대안으로, 코프로세서(103)는 CPU(102)와 동일한 기술을 실행하기 위한 코드나 명령을 처리하는 데 될 수 있다. CPU(102)는 제어 장치(131), 산술 논리 장치(arithmetic logic unit, ALU)(132) 및 수 개의 레지스터(133)를 포함하는데, 이것은 데이터 및 정보 처리를 목적으로 CPU(102)에 의해 사용될 수 있다. 코프로세서(103)는 또한 CPU(102)와 유사한 구성 요소를 포함할 수 있다.
메인 메모리(104)는 컴퓨팅 시스템(100)에 의해 사용될 데이터, 코드 또는 명령을 기억하는, 예를 들어 랜덤 액세스 메모리(RAM)나 기타 동적 기억 장치일 수 있다. 일 실시예에서, 메인 메모리(104)는 이하에 더욱 상세하게 설명되는 바와 같이 입력 스테레오 영상 시퀀스 및/또는 3D 데이터 구동형 모델과 관련된 데이터를 기억할 수 있다. 메인 메모리(104)는 또한 CPU(102) 또는 코프로세서(103)에 의해 코드나 명령이 실행되는 동안에 변수 또는 기타 중간 데이터(intermediate data)를 일시적으로 기억할 수 있다. 스태틱 메모리(106)는 예를 들어 읽기 전용 메모리(ROM) 및/또는 기타 스태틱 기억 장치일 수 있으며, 컴퓨팅 시스템(100)에 의해 사용될 데이터 및/또는 코드나 명령을 기억할 수 있다. 플래시 메모리(107)는 기본 입출력 시스템(BIOS) 코드 또는 명령을 기억하기 위해 사용될 수 있는 메 모리 장치이다.
디스플레이(121)는 예를 들어 음극선관(CRT) 또는 액정 디스플레이(LCD) 일 수 있다. 디스플레이(121)는 영상, 정보 또는 그래픽을 사용자에게 표시할 수 있다. 컴퓨팅 시스템(100)의 주 장치(110)은 디스플레이 회로(105)를 통해 디스플레이(121)와 인터페이스할 수 있다. 키패드 입력부(122)는 정보 통신과 컴퓨팅 시스템(100)의 커맨드 선택을 위한 영숫자 입력 장치이다. 커서 제어부(132)는 디스플레이(121) 상의 객체의 이동을 제어하기 위한, 예를 들어 마우스, 터치패드, 트랙볼 또는 커서 방향키일 수 있다. 하드카피 장치(124)는 종이, 필름 등의 매체에 정보를 인쇄하기 위한, 예를 들어 레이저 프린터일 수 있다. 임의의 개수의 입출력(I/O) 장치(125)가 컴퓨팅 시스템(100)에 접속될 수 있다. 예를 들어, 스피커와 같은 I/O 장치는 컴퓨팅 시스템(100)에 연결될 수 있다. 대용량 기억 장치(126)는 예를 들어 하드 디스크, 읽기/쓰기 가능 CD 또는 DVD 플레어 등의 대용량 기억 장치일 수 있다. 카메라 장치(128)는 비디오 영상 캡쳐 장치일 수 있으며, 본 명세서에 기술된 영상 처리 기술에 사용될 수 있다. 일 실시예에서, 카메라 장치(128)는 640×480 크기의 컬러 영상을 4fp의 평균 프레임 속도로 제공하는 DigiclopsTM 카메라 시스템을 포함한다.
일 실시예에서, 본 명세서에 기술된 3D 데이터 구동형 모델 구축 기술 및 단안 트래킹 기술은 컴퓨팅 시스템(100) 내에 포함된 하드웨어 및/또는 소프트웨어 모듈로 실행할 수 있다. 예를 들어, CPU(102) 또는 코프로세서(103)는 여기에 기 술된 바와 같은 3D 데이터 구동형 모델을 구축하기 위한 스테레오 입력 시퀀스를 처리하기 위해, 예를 들어 메인 메모리(104) 또는 스태틱 메모리(106)와 같은 기계로 판독 가능한 매체에 기억된 코드 또는 명령을 실행할 수 있다. 나아가, CPU(102) 또는 코프로세서(103)는 여기에 기술된 바와 같이 3D 데이터 구동형 모델을 사용한 단안 입력 영상을 트래킹하기 위한 코드 또는 명령을 실행할 수 있다. 주 장치(110) 내의 메모리 장치들은 또한 일 수 있다.
기계 판독 가능한 매체는 컴퓨터 또는 디지털 처리 장치와 같은 기계가 판독할 수 있는 형태로 정보를 제공(즉 기억 및/또는 전송)하는 메커니즘을 포함할 수 있다. 예를 들어, 기계 판독 가능한 매체는 ROM, RAM, 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 장치 및 기타 메모리 장치를 포함할 수 있다. 코드 또는 명령은 반송파 신호, 적외선 신호, 디지털 신호 및 기타 신호로 표현될 수 있다. 기계 판독 가능한 매체는 또한 본 명세서에 기술된 3D 데이터 구동형 모델에 대한 데이터베이스를 저장하는 데 사용될 수 있다. 나아가, 하나 이상의 기계 판독 가능한 매체는 3D 모델을 기억하기 위해 사용될 수 있다.
기본 동작
도 2는 일 실시예 따라 데이터 구동형 모델을 사용하여 단안 트래킹을 수행하는 동작(operation)(200)의 기능적인 흐름도를 예시한다. 도 2를 참조하면, 동작(200)은 두 개의 단계를 포함한다. 제1 단계는 동작 블록(210) 또는 학습 단계(210)라 한다. 학습 단계(210)는 단안 트래킹을 위한 3D 데이터 구동형 모델을 구축하기 위하여 실제 스테레오 트래킹 데이터를 처리하는 PCA를 적용함으로써 얼굴 변형이 가능한 공간을 학습한다. 3D 데이터 구동형 모델은 일반 형상을 형상 기저 벡터들의 선형 조합으로 근사하기 위해 사용될 수 있다. 제2 단계는 상기 학습 단계에서 구축된 3D 데이터 구동형 모델을 사용하여 단안 트래킹이 수행되는 동작 블록(220)이다. 3D 데이터 구동형 모델을 사용함으로써, 예를 들어 얼굴과 같은 영상의 변형 및 포즈는 단안 또는 단일 영상 시퀀스로부터 함께 트래킹될 수 있다. 처음에, 동작(200)은 학습 단계(210)로 시작한다.
학습 단계(210) 내의 동작 블록(202)에서, 스테레오 시퀀스가 입력된다. 예를 들어, 카메라 장치(128)는 도 3에 도시한 바와 같이 왼쪽 시각(perspective)과 오른쪽 시각으로부터 영상 시퀀스를 취득하기 위하여 제1 카메라와 제2 카메라를 포함할 수 있다. 도 3에 도시한 바와 같이, 제1 및 제2 카메라는 변화하는 얼굴 움직임과 포즈를 보이는 사람의 영상 시퀀스(예: 프레임 1 내지 프레임 100)를 왼쪽 및 오른쪽 시각에서 취득할 수 있다. 스테레오 입력 시퀀스는 처리를 위해 컴퓨팅 시스템(100)으로 입력될 수 있다.
동작 블록(204)에서, 입력 스테레오 시퀀스가 트래킹된다. 특히, 복잡도가 낮은 얼굴 메시(mesh)(예: 도 3에 도시한 바와 같이 얼굴의 변화하는 위치에서의 19개의 점)는 초기화된 다음, 표준 광학 흐름 기술(standard optical flow technique)을 사용하여 트래킹된다. 얼굴의 비강성(non-rigid) 변형을 처리하기 위하여, 각 점은 얼굴 형상 궤도(trajectory)를 취득하기 위해 독립적으로 트래킹된다.
동작 블록(206)에서, 트래킹된 입력 스테레오 시퀀스로부터 취득된 형상 궤 도에 대해 PCA 처리가 시작된다. PCA는 고차원 공간에 포함된 데이터의 저차원 표현을 최적으로 예측하는 수학적인 프로세스이다. PCA 처리는 콤팩트한 변형 가능한 3D 형상 모델("3D 형상 모델")의 주요 형상 벡터를 취득하기 위한 것인데, 이것은 단안 트래킹에서 사용된다.
동작 블록(208)에서, 주요 형상 벡터가 계산되는 데, 이에 대해서는 나중에 더욱 상세하게 설명하겠다. 일단 주요 형상 벡터가 계산되면, 단안 트래킹 동안의 어떤 얼굴 움직임 또는 포즈는 주요 형상 벡터들의 선형 조합으로 근사될 수 있다.
동작 블록(220)(제2 단계)에서, 단안 트래킹이 계산된 모델을 사용하여 단안 입력 시퀀스에 대해 수행될 수 있다. 단안 시퀀스는 단일 카메라로부터의 영상들로 이루어지는 시퀀스이다. 예를 들어, 도 5에 도시한 바와 같이 단안 입력 시퀀스의 각 프레임(예: 프레임 1 내지 72)에서, 얼굴 형상은 학습 단계(210)에서 구축된 계산된 모델의 주요 형상 벡터들의 선형 조합에 의해 근사될 수 있다. 특히, 사람이 얼굴 표정과 포즈를 바꾸는 동안에, 시퀀스의 결과 광학 흐름 정보는 포즈와 얼굴 표정에서 변화를 트래킹하기 위해 계산된 모델과 함께 사용될 수 있다.
상기 동작은 예시적인 컴퓨팅 시스템(100)의 내부에서 구현될 수 있다. 예를 들어, CPU(102)는 3D 모델 구축 및 PCA 처리 수행을 위해 코드 또는 명령을 실행할 수 있으며, 이에 대해서는 나중에 더욱 상세하게 설명하겠다. 데이터 구동형 3D 모델은 컴퓨팅 시스템(100)의 메모리 기억 장치 내에 기억될 수 있다. 일 실시예에서, 데이터 구동형 3D 모델은 "변형 가능한 얼굴 모델"이며, 이에 대해 설명한다.
변형 가능한 얼굴 모델
다음 설명에서는 스테레오 트래킹 데이터에 기초하여 변형 가능한 얼굴 모델을 생성하고, 그 변형 가능한 얼굴 모델을 단안 트래킹하기 위해 필요한 파라미터화를 기술한다. 예를 들어, 도 5를 참조하면 단안 얼굴 시퀀스는 여기에 기술된 변형 가능한 얼굴 모델을 사용하여 3D 공간에서 트래킹될 수 있다.
처음에, In을 도 5에 도시한 바와 같이 72 프레임을 갖는 단안 얼굴 시퀀스의 n번째(nth)영상이라고 하자. 시간 n에서의 각 프레임 내의 각 얼굴의 3D 구조는 N개 점들의 집합 으로 나타낼 수 있다. 단안 트래킹을 수행하기 위하여, 얼굴 기준 프레임(reference frame)과 카메라 기준 프레임의 좌표 벡터를 정의하여야 한다. 특히, Xi(n)과를 각각 얼굴 기준 프레임과 카메라 기준 프레임 내의 점의 좌표 벡터라 하자.
벡터 Xi(n)과은 그 후 시간 n에서의 카메라에 대한 사용자 얼굴의 포즈를 특징화(characterizing)하는 강체 변환(rigid body transformation)을 통해 다음과 같이 서로 연관된다.
여기서, Rn은 3×3 회전 행렬(rotation matrix)이고, tn은 이동 벡터(translation vector)이다. 각 프레임의 각 얼굴을 트래킹하기 위해, 도 5에 도시한 바와 같이 비강성 객체로서 형상에 대한 Xi(n)의 양과 포즈에 대한 Rn 및 t
n은 예측되어야 한다. Rn은 회전 행렬이기 때문에, Rn은 회전 벡터로 알려진 3벡터(3-vector)로 고유하게 파라미터화된다. 회전 행렬과 회적 벡터는 표준식(standard formula)을 사용하여 서로 관련될 수 있다.
영상 In, n= 1, 2, ... M 내의 데이터(예: 프레임 1 내지 72)는 각 프레임 내의 각 얼굴에 대한 형상과 포즈를 예측하는 데 사용될 수 있다. 특히, 을 영상 In 상의 의 투영이라 하고, 을 의 영상 좌표 벡터라 하자. 따라서, 일 실시예에서 종래 핀홀(pinhole) 카메라 모델은 다음과 같이 의 투영에 대한 영상 좌표 벡터 을 결정하기 위해 사용될 수 있다.
일 실시예에서, 비강성 형상(예: 변화하는 얼굴 표정과 포즈)의 단안 트래킹을 수행하기 위하여 비강성 형상들은 강성 형성들의 선형 조합에 기초할 수 있다. 비강성 형상들을 강성 형상들의 선형 조합에 기초하게 함으로써, 무한 수의 변화하 는 형상과 포즈에 대한 영상 투영 점을 처리하는 것을 피할 수 있다. 따라서, 시퀀스 내의 임의의 시간 n에서, 형상 좌표 벡터 Xi(n)은 평균 형상(mean shape) 벡터와 소수의 알려진 형상 벡터 의 선형 조합의 합일 수 있으며, 아래의 식 1에 나타낸 바와 같이 주요 형상 기저 벡터이다.
[식 1]
식 1에서, p<< 3N이고, p 계수 은 3D 형상의 비강성을 허용하는 엔티티들(entities)을 나타낸다. 만약 p=0 이면, 얼굴 형상 Xi(n)은 강성 형성 가 된다. 때문에 "p"는 "변형 공간의 차원성(dimensionality)"이라 한다. 영상 투영 맵은 포즈 파라미터 , tn 및 과 같은 복수의 "변형 계수를 갖는 변형 벡터의 함수로 감소될 수 있다. 영상 투영 맵은 따라서 다음에 나타낸 식 2를 사용하여 계산될 수 있다.
[식 2]
따라서 단안 트래킹 절차는 변형 가능한 모델의 특정 형태로 광학 흐름 제약조건(optical flow constraints)(예: Lucas-Kanade)을 결합함으로써 수행될 수 있 으며, 이것은 모든 프레임에서 변형 벡터, 포즈 파라미터 , 및 tn을 동시 예측하는 경우, 식 1로 나타난다. 단안 트래킹 절차에 대해 이하에 더욱 상세하게 설명한다.
단안 트래킹 절차를 수행하기 전에, 식 1의 주요 형상 기저 벡터를 계산하여야 하는데, 이것은 도 2에 도시한 바와 같이 학습 단계(210)에서 수행된다. 주요 형상 기저 벡터 를 사용함으로써, 데이터 구동형 모델은 비강성 모델의 수동 구축을 피할 수 있도록 하는 데 사용될 수 있다. 주요 형상 기저 벡터는 실제 3D 트래킹된 데이터로부터 발생되며, 이것 또한 도 2에 도시한 바와 같이 학습 단계(210)에서 수행된다. 특히, 교정된(calibrated) 스테레오 카메라는 3D 변화하는 얼굴 표정 및 포즈의 트래킹 하는데 사용된다. 예를 들어, 대략 100 내지 150 프레임의 숏트(short) 스테레오 입력 시퀀스(예를 들어, 도 3에 도시된 바와 같은)가 사용될 수 있다.
따라서, 주요 형상 기저 벡터 는 PCA 처리를 사용하여 동작 블록 202 및 204에서 트래킹된 시퀀스로부터 계산될 수 있다. 동작 블록 202 및 204의 처리는 형상 변형 분석을 목적으로 하는 3D 궤도 데이터를 얻기 위해 필요한 스테레오 트래킹을 제공한다.
스테레오 트래킹
도 6은 일 실시예에 따른 스테레오 트래킹을 수행하기 위한 도 2의 동작 204 의 흐름도를 예시한다. 처음에 동작 204는 동작 블록 604에서 시작한다.
동작 블록 604에서, 왼쪽 카메라 영상과 오른쪽 카메라 영상에 대한 점들의 집합이 초기화 된다. 일 실시예에서, 눈(2), 코(3), 입(8), 눈썹(6) 상에 위치하는 N=19인 점들 Pi의 집합은 도 2에 도시한 바와 같이 왼쪽 카메라 영상 및 오른쪽 카메라 영상에 대해 초기화 된다. 이 동작에서, 예를 들어, 입을 여닫고, 미소짓고, 눈썹을 치켜올리고 하는 등의 다양한 다른 얼굴 표정을 지으면서 사용자가 시퀀스 내내 머리 포즈를 가능한한 고정되게 유지하도록 변화하는 얼굴 변형은 포즈와 독립적으로 제공된다. 일 실시예에서, 점들의 집합은 컴퓨팅 시스템(100)의 사용자에 의해 제1 그리고 오른쪽 및 왼쪽 카메라 영상 상에 표시된다. 따라서, 스테레오 영상 시퀀스는 이 점들을 사용하여 트래킹될 수 있다.
모든 점들이 영상의 구성 영역(textured area) 내에 있어야 하는 것은 아니라는 것에 유의하여야 한다. 이것은 "트래킹하기 좋은(good to track)" 점을 분명히 나타내는 독립 특징점 트래킹의 필요조건이지만 모델 기반 트래킹의 필요조건은 아니다. 예를 들어, 코끝 점은 완전히 비구성 영역(textureless region) 내에 있고, 입 윤곽 점들 및 눈썹 상의 점들은 에지 특징들(edge features)이다. 이 모든 점들을 종래의 광학 흐름 기술(optical flow techniques)을 사용하여 개별적으로 트래킹하는 것은 불가능할 것이다.
동작 블록 604에서, 점들의 집합은 스테레오 3각 측량법(triangulation)에 의해 트래킹된다. 스테레오 트래킹은 각 점의 위치 (왼쪽 카메라 기준 프레 임에서)가 갱신되어 그것의 현재 왼쪽 및 오른쪽 영상 투영이 이전 영상 투영(즉, 임시 트래킹)과 대략 정합(matching)되도록 3D로 수행된다.
영상 정합 비용
일 실시예에서, 스테레오 트래킹 내내 스테레오 대응을 유지하기 위하여, 왼쪽 및 오른쪽 영상 투영은 왼쪽 영상과 오른족 영상 사이의 측정된 비용 함수를 고려함으로써 대략 정합될 것이다. 특히, 프레임 n-1 내지 프레임 n의 점들 Pi의 스테레오 트래킹은 아래의 식 3으로 나타낸 비용 함수 Ei를 최소화함으로써 할 수 있다.
[식 3]
식 3에서, 및은 시간 n에서의 왼쪽 및 오른족 영상에 대한 벡터를 의미하고,및은 Pi의 왼쪽 및 오른쪽 영상 투영의 좌표 벡터를 가리킨다. Ei의 합은 관심 영역(region of interest, ROI)으로 불리는 영상 점 주위에서 실행된다. 식 3의 제1 및 제2 항은 독립적인 왼쪽 및 오른쪽 시간 트래킹(temporal tracking)에 대한 종래 영상 정합 비용 계산 항을 나타낸다. 제3 항은 왼쪽 영상과 오른족 영상 사이의 대응을 유지하기 위해 사용된다. 상기 세 항에 대한 세 개 의 계수(및)는 상기 세 항들 사이의 변수 신뢰성(variable reliability)에 대한 고정 가중 계수(fixed weighting coefficient)(즉, 모든 점에 대해 동일) 사용자이다.
가중 계수 계산
일 실시예에서, 계수에 대한 값은 계수 및계수보다 작게 유지되고, 비 및비는 보통 비율값 20으로 유지된다. 계수의 값은 도 2에 도시한 바와 같이 얼굴 매쉬(face mash) 상의 19개 점 각각에 대해 개별적으로 하드코드(hardcode)될 수 있다. 및의 값은 대략 100 픽셀의 평균 이미지 영역(average image area)에 대해 각각 1, 1, 0.05일 수 있다.
에너지 함수 최소화
모든 매쉬 점에 적용될 때, 상기 3개의 가중 계수는 전체(global) 에너지 함수 를 최소하는 데 사용될 수 있다. 전체 에너지 함수의 이런 형식에서, 스테레오 트래킹은 숏트 시퀀스(예를 들어 최대 20 내지 30 프레임)에 대해 잘 작용한다. 더 큰 스테레오 시퀀스의 경우, 조정항(regulation term)들이 모든 3D 구조(structure)가 스테레오 시퀀스를 통해 전체로서 매끄럽게 변형되면서 그 무결성(integrity)을 유지할 수 있도록 하는 비용 함수 EI(n)에 추가될 수 있다. 전체 에너지 비용 E(n)은 그 후 다음과 같이 된다:
ET(n)항은 시간 평활(temporal smoothing) 항이며, 각 점에서의 3D 속도의 크기를 최소화하는 데 사용된다. ES(n)항은 형상 평활 항이며, 이웃하는 점들의 속도 차를 최소화하는 데 사용된다. 이 항은 이웃한 점들이 함께 움직이도록 이웃한 점들을 약하게 강화(enforcing)함으로써 모델의 무결성을 보증한다. EA(n)항은 인체측정(anthropometric) 에너지 비용 항이며, 제1 프레임에서 계산된 값에 가능한한 가깝게 세그멘트 길이를 유지하는 데 사용되고 롱(long) 트래킹 시퀀스에 대한 이동(drift)을 방지하는 데 사용된다. 이 세 개의 조정항을 다음과 같은 식으로 나타낸다:
여기서,이고, 양의 계수 및은 점에서 점, 그리고 에지에서 에지까지 변화한다. 일 실시예에서, 크게 확장되는(large streche) 모든 세그먼트 는 및값보다 작게 할당된다. 다른 실시예에서, 얼굴의 크게 변형 가능한 영역 상의 점 Pi는 작은가 할당될 것이다. 일 실시예에서, 상당히 강성인 것으로 알려진 점들 및 세그먼트들은 더 큰 값이 할당될 것이다.
그들에게 적용된 한 묶음(lot)의 임의의 움직임 및 확장(stretch)을 부과하는 및 에 대한 값은 더 높게 할당될 것이다. 예를 들어, 입 윤곽에 대한 점 들 및 에지들은 코와 눈에 속하는 점들 및 에지들보다 더 작은 계수를 가질 것이다. 일 실시예에서, 및 에 대한 값은 대략 100 픽셀의 영상 특징 단편(image feature patch)의 평균 영역에 대해 20000, 20000 및 100이다.
3D 형상 궤도
전체 에너지 함수 E(n)을 최소화하는 솔루션 형상(solution shape)은 기울기 하강법(gradient descent)을 사용하여 계산될 수 있다. 즉, 모든 미분 형상 좌표 벡터 에 대한 E(n)의 도함수를 영(zero)으로 설정하여이 되도록 한다. 야코비 행렬(Jacobian matrix)의 유도 후, 형상에 대한 솔루션은 1차 방정식(linear equation) 으로 감소되며, 여기서 dX는 모든 N 벡터으로 이루어지는 3N×1 열 벡터이고, D 및 e는 각각 3N×3N 벡터와 3N×1 벡터이다. 일단 dX가 계산되면, 형상 은 알게 된다. 동일한 프로세스가 최종적으로 완전한 3D 형상 궤도를 얻기 위하여 전체 스테레오 시퀀스에 걸쳐 반복된다.
주요 형상 벡터 계산
도 7은 일 실시예에 따른 주요 형상 벡터를 계산하기 위한 도 2의 동작 208에 대한 흐름도를 예시한다. 처음에 동작 208은 동작 블록(702)에서 시작한다.
동작 블록 702에서, 평균 형상(mean shape) 이 계산된다. 특히, 스테레 오 트래킹의 결과는 왼쪽 카메라 기준 프레임 내의 각 점 Pi의 3D 궤적, 이며(n = 1, ..., M에 대해, M은 시퀀스 내의 프레임 수이다. p+1 형상 기저 벡터는 특이 값 분해(sigular value decomposition, SVD)를 사용하여 계산된다. 먼저, 평균 형상 가 다음과 같이 계산된다:
동작 블록 706에서, SVD가 M에 적용된다. 특히 M에 SVD를 적용한 결과 이 구해지며, U=[u1u1...u3N]이고 V=[v1v1...v
M] 이다. U와 V는 두 개의 일원(unitary) 3N×3N과 M×M 행렬이며, 은 양의 대각 행렬이며 단조 증가하는 특이 값 이다. 이 분해 다음에 M은 다음과 같다.
동작 블록 708에서, M에 대한 합은 3N에서 p항까지 절단되는데, 이것은 p 벡 터들의 고정 묶음(fixed budget)으로 주어진 행렬 M의 최적의 최소 제곱 근사(least squares aproximation)로 귀착된다. 이것은 제1 p벡터들 u1, ..., up에 의해 연결된(spanned) 선형 부분공간(subspace) 상에의 그 직교 투영(orthogonal projection)에 의한, M의 각 열 벡터(즉, 시퀀스 내의 각 3D 형상)의 근사값(approximating)과 동등하다. 이 벡터들은 정확하게 나머지 p 변형 형상 벡터들 이다:
주요 형상 벡터의 결과 모델은 단안 트래킹 단계에 적합하다. 예를 들어, 만약 사용자가 다양한 얼굴 표정을 만들면, 그 얼굴 표정은 학습 단계(210) 동안에 시스템에 노출된 얼굴 표정을 기초로 트래킹될 수 있다. 벡터 uk는 일원적(unitary)이므로, 식 1 및 2에 나타나는 형상 계수는 평균 형상(mean shape)의 구성단위(units) 내에 있다. 일 실시예에서, 구성단위는 수 센티미터 내이고(in centimeters), 4개의 주요 형상 벡터는 가장 공통적인 얼굴 표정(예: 입과 눈썹 움직임)을 커버하는 데 사용된다. 그렇지만, 사용되는 주요 형상 벡터의 n는 트래킹을 수행한 얼굴 표정의 다양성(diversity)에 기초하여 변화될 수 있다.
도 4로 돌아가 참조하면, 도 3에 도시한 스테레오 시퀀스로부터 계산된 변형 411 내지 변형 414의 4차원 공간이 도시된다. 도 4에 도시된 바와 같이, 주요 형상 벡터는 예를 들어, 미소, 여닫은 입, 왼쪽과 오른쪽이 올라간 눈썹과 같은 4개의 주된 얼굴 움직임의 조합에 대응할 수 있다.
단안 트래킹
도 8은 일 실시예에 따라 학습 단계(210)에서 계산된 모델을 사용하여 단안 트래킹을 수행하는 도 2의 동작 220의 흐름도를 나타낸다. 처음에, 동작 220은 도 5에 도시한 바와 같은 영상 시퀀스에 대해 동작블록 802에서 시작한다.
동작 블록 802에서, 영상 측정값을 사용하여 형상 및 포즈에 대한 파라미터들이 영상 시퀀스로부터 예측된다. 특히, 광학 흐름 트래킹 기술은 두 개의 연속하는 프레임(예: 프레임 1 및 2)으로 주어진 영상 내의 모든 점의 과도적인 변위를 계산하는 데 사용될 수 있다. 각 영상 점은 그 후 독립적으로 처리될 수 있다. 여기서, 모델 기반 트래킹의 경우, 모델 내의 모든 점은 식 1에 의해 주어진 파라미터화된 3D 모델을 통해 상호 연결된다. 따라서, 3D 모델 구성을 정의하는 파라미터들은 영상 측정값으로부터 모든 한꺼번에 예측된다. 그러한 파라미터들은 형상에 대한 과 포즈에 대한 을 포함한다.
동작 블록 804에서, 최적의 형상 및 포즈는 다음 프레임에 가장 적합한 얼굴 모델을 사용하여 구해진다. 예를 들어, 얼굴 모델이 시퀀스 I1의 첫 번째 프레임에서 In-1의 (n-1)번째 프레임까지 트래킹된 얼굴 모델이라고 하자. 그 후 목표는 단 안 트래킹을 수행하기 위하여 다음 프레임 In에 가장 적합한 얼굴 모델의 변형 과 최적의 포즈를 구하는 것이다. 다음의 설명은 단안 트래킹을 위한 최적의 포즈 및 변형을 구하는 방법을 기술한다.
최적의 포즈 및 변형을 얻기 위하여, 트래킹 솔루션 식 4 및 5에 의해 최소값이 구해지는 비용 함수 Cn의 최소화가 사용된다.
여기서, πi는 식 2에서 정의된 모델 기반 영상 투영 맵이다. 식 4의 합은 예를 들어 관심 영역(ROI)과 같은 작은 화소창(pixel windows)에 통해 모든 영상 점및 주위에서 실행된다.
일 실시예에서, 식 4의 제1 항은 표준 정합 비용 항, 즉 제1 항은 모델 점들에서 두 개의 연속하는 영상 사이의 모든 영상 부정합(mismatch)를 측정한다. 그러나 제2 항은 현지 이미지 In과 제1 이미지 I1 사이의 영상 부정합을 측정한다. 이 추가적인 항은 모든 얼굴 특징이 시퀀스의 시작부터 끝까지(이웃한 인식 영상 내의) 영상에 대해 동일하게 나타나도록 모든 얼굴 특징을 약하게 강화한다. 그렇게 함으로써 트래킹 이동(drift)을 방지하고 견고성(robustness)을 증가시킨다. 이를 이동 감시 에너지 항(drift monitoring energy term)이라 부른다.
상기 두 개의 에너지 항은 스칼라 변수 "e"에 의해 다른 것에 비례하여 가중된다. 일 실시예에서, 변수 e=0.2이며, 감시 비용을 넘는 트래킹 비용을 강조하는 것이다. 따라서, 트??킹은 최적의 포즈 및 변형 갱신 벡터및를 예측하는 것과 같다. 이것은 및에 대한 Cn의 도함수를 영(zero)으로 설정함으로써 실현된다.
[식 6]
따라서, 식 6은 두 개의 연속적인 프레임 사이에 작은 움직임을 가정할 때, "s"에 대해 풀린다. Iti를 다음과 같이 정의된 확장된 시간 도함수라 하자.
[식 7]
시간 도함수 Iti는 실제로 점 의 이웃에서 구해진다. 만약 이면, 식 7은 실제 시간차 로 감소된다. 만약 이면, 이전 영상 In-1 상의 영상 단편(image patch)은 제1 프레임, 즉 식 7의 2번째 행(row)의 영상 단편과 평균된 다. 결과 단편은 다음 이미지 In에 대해 기준(reference)으로 사용된다. 이 프로세스는 제1 영상에서 그것이 선택되었을 때의 특징의 원래 모습(original appearance) "기억"하는 단안 트래킹 동작을 효과적으로 도움으로써 견고성을 향상시키고 이동을 감소시킨다.
[식 8]
여기서, (p+6)×(p+6) 행렬 G와 (p+6)=1 벡터 b는 다음과 같이 주어진다:
여기서, 유일한 트래킹 해(unique tracking solution) "s"는 전체 모델에 대해 모두 한꺼번에 계산되며, 동시에 그것의 원래 형태로 각 영상 점은 개별적으로 처리된다. 3D 모델은 실제 데이터에 의해 구축되고, 몇 개의 계수로 파라미터화되어 트래킹을 위해 사용된다. s를 계산할 수 있는 경우, 행렬 G는 p+6 열(rank)이다. 대략, 3D 모델 내의 각 점은 비구성 영역(, 에지 영역, 또는 영상 내의 완전한 구성 영역에 있는지에 따라 0, 1 또는 2 스칼라 관측 제약조건(observation constraints)을 초래한다. 일 실시예에서, 트래킹하기 좋은 3D 모델을 만들기 위하여 전체 점에서 수집된 제약조건의 전체 수는 p+6=10 이상이어야 한다.
일단 "s"가 계산되면, 시간 프레임 n에서의 포즈와 변형은 알려진다. 일 실시예에서, 예측을 정밀하게 하기 위하여 고정된 시간 프레임 n에서 동일한 절차를 여러번(예: 4, 5번) 반복할 수 있다. 그런 다음 동일한 전체 프로세스는 후속 프레임에 대해 반복된다. 일 실시예에서, 3D 모델 파라미터들에 대한 초기화는 먼저 제1 영상 I1에 대해 N=19로 얼굴 특징을 국소화(localizing)함으로써 수동으로 행해진다. 그런 다음 수동으로 선택된 점을 정합시키는 모델의 영상 투영을 만드는 초기 포즈 및 변형 파라미터들를 계산하기 위해 소규모 최적화가 수행된다.
각 모델 점의 관심 영역(ROI)은 전체 시퀀스를 통해 일정하게 유지되는 않는다는 것에 유의하여야 한다. 대신에, 관심 영역(ROI)의 크기 및 기하(geometry)는 거리(깊이)와 공간내 점의 방위(국소 표면 수직 )에 기초하여 모든 프레임에서 다시 계산된다. 결과 관심 영역은 도 5에 도시한 바와 같이 작은 평행사변형이다. 특히, 카메라로부터 멀리 떨어져 "보기 불가(non visible)"으로 선언된 얼굴의 점들은 할당된 크기가 0인 관심 영역을 가지며, 따라서 트래킹 갱신에 기여하지 못한다.
그러므로, 단안 영상 시퀀스에서 예를 들어 사람의 얼굴 등에 번거러운 특별한 마커를 사용하지 않는 포즈와 변형의 3D 트래킹을 위한 2단계 시스템 및 방법을 기술하였다. 시스템의 제1 단계는 실제 스테레오 트래킹 데이터에 PCA를 적용하여 모든 가능한 얼굴 변형의 공간을 학습한다. 그 결과 모델은 임의의 일반적인 형상을 형상 기저 벡터의 선형 조합으로 근사한다. 시스템의 제2 단계는 이 복잡도가 낮은 변형 가능한 모델을 단일 영상 시퀀스로부터 얼굴의 포즈와 변형을 동시에 예측하기 위해 사용한다. 이 단계는 모델 기반 단안 트래킹으로 알려져 있다.
모델 구축을 위한 데이터 구동형 접근법(data-driven approach)은 비강성 객체의 3D 트래킹에 적합하며, 3D 스캐너 또는 CAD 모델러를 사용한 모델의 수동 구축 업무에 대한 정밀하고 실제적인 대안을 제공한다. 또한, 실제 데이터로부터 모델을 생성하는 것은 손으로 만든 모델에 비해 더 적은 파라미터로 트래킹되는 얼굴 변형에 커다란 다양성을 허용하며, 향상된 견고성과 트래킹 정확도를 가져온다. 또한 시스템은 동일한 3D 모델을 사용하여 여러 사람을 트래킹 가능하게 함에 있어 매우 장래성있는 일반화 특성을 나타내며, 이것은 트래킹을 위해 각각의 사용에 대해 상이한 모델을 요구하는 대부분의 다른 얼굴 트래킹 시스템을 능가하는 중요한 개선점이다.
전술한 명세서에서, 본 발명은 특정한 실시예를 참조하여 설명하였다. 그러나 첨부된 청구범위에 기재한 발명의 범위와 더 넓은 기술 사상을 벗어나지 않으면서, 다양한 수정과 변경이 가능하다는 것이 명백하다. 따라서 명세서와 도면은 제한적인 의미가 아니라 예시적인 의미로 간주되어야 한다.
Claims (15)
- 변화하는 얼굴 표정들의 입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 단계,상기 취득된 스테레오 데이터를 사용하여 3차원(3D) 모델을 구축하는 단계, 및마커(marker)를 사용하지 않고 상기 구축된 3D 모델을 사용하여 개별 단안 영상 시퀀스(monocular image sequence)를 트래킹하는 단계를 포함하는 영상 처리 방법.
- 삭제
- 제1항에서,상기 3D 모델을 구축하는 단계는 주요 성분 분석법(principal component analysis, PCA)을 사용하여 상기 취득된 스테레오 데이터를 처리하는 단계를 포함하는 영상 처리 방법.
- 제3항에서,상기 PCA를 사용하여 처리된 상기 스테레오 데이터는 상기 3D 모델이 일반적 인 형상을 형상 기저 벡터들(shape vase vectors)의 선형 조합으로 근사할 수 있도록 하는 영상 처리 방법.
- 제1항에서,상기 단안 영상 시퀀스를 트래킹하는 단계는 상기 구축된 3D 모델을 사용하여 얼굴 변형들(facial deformations)의 단안 영상 시퀀스를 트래킹하는 단계를 포함하는 영상 처리 방법.
- 변화하는 얼굴 표정들의 입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 입력 장치, 및상기 취득된 스테레오 데이터를 사용하여 3차원(3D) 모델을 구축하고, 마커를 사용하지 않고 상기 구축된 3D 모델을 사용하여 개별 단안 영상 시퀀스를 트래킹하는 처리 장치를 포함하는 컴퓨팅 시스템.
- 삭제
- 제6항에서,상기 처리 장치는 PCA를 사용하여 취득된 상기 스테레오 데이터를 처리하는 컴퓨팅 시스템.
- 제6항에서,상기 처리 장치는 상기 PCA 처리된 스테레오 데이터에 기초하여 일반적인 형상을 형상 기저 벡터들의 선형 조합으로 근사하는 컴퓨팅 시스템.
- 제6항에서,상기 처리 장치는 상기 구축된 3D 모델을 사용하여 얼굴 변형들의 단안 영상 시퀀스를 트래킹하는 컴퓨팅 시스템.
- 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금변화하는 얼굴 표정들의 입력 영상 시퀀스에 기초하여 스테레오 데이터를 취득하는 단계,상기 취득된 스테레오 데이터를 사용하여 3차원(3D) 모델을 구축하는 단계, 및마커를 사용하지 않고 상기 구축된 3D 모델을 사용하여 개별 단안 영상 시퀀스를 트래킹하는 단계를 포함하는 동작(operation)을 수행하도록 하는 명령들(instructions)을 제공하는 기계로 판독 가능한 기억 매체.
- 삭제
- 제11항에서,상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금주요 성분 분석법(principal component analysis, PCA)을 사용하여 상기 취득된 스테레오 데이터를 처리하는 단계를 포함하는 동작을 수행하도록 하는 명령들을 더 제공하는 기계로 판독 가능한 기억 매체.
- 제11항에서,상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금상기 PCA를 사용하여 처리된 상기 스테레오 데이터에 기초하여 일반적인 형상을 형상 기저 벡터들의 선형 조합으로 근사하는 단계를 포함하는 동작을 수행하도록 하는 명령들을 더 제공하는 기계로 판독 가능한 기억 매체.
- 제11항에서,상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금상기 구축된 3D 모델을 사용하여 얼굴 변형들의 단안 영상 시퀀스를 트래킹하는 단계를 포함하는 동작을 수행하도록 하는 명령들을 더 제공하는 기계로 판독 가능한 기억 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/852,398 | 2001-05-09 | ||
US09/852,398 US9400921B2 (en) | 2001-05-09 | 2001-05-09 | Method and system using a data-driven model for monocular face tracking |
PCT/US2002/014014 WO2002091305A2 (en) | 2001-05-09 | 2002-05-02 | Method and system, using a data-driven model for monocular face tracking |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040034606A KR20040034606A (ko) | 2004-04-28 |
KR100571115B1 true KR100571115B1 (ko) | 2006-04-13 |
Family
ID=25313204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020037014619A KR100571115B1 (ko) | 2001-05-09 | 2002-05-02 | 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9400921B2 (ko) |
KR (1) | KR100571115B1 (ko) |
CN (1) | CN1294541C (ko) |
AU (1) | AU2002303611A1 (ko) |
GB (1) | GB2393065B (ko) |
HK (1) | HK1062067A1 (ko) |
WO (1) | WO2002091305A2 (ko) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10025922A1 (de) * | 2000-05-27 | 2001-12-13 | Robert Massen | Automatische photogrammetrische Digitalisierung von Körpern und Objekten |
US9400921B2 (en) * | 2001-05-09 | 2016-07-26 | Intel Corporation | Method and system using a data-driven model for monocular face tracking |
GB2382289B (en) * | 2001-09-28 | 2005-07-06 | Canon Kk | Method and apparatus for generating models of individuals |
GB2389289B (en) * | 2002-04-30 | 2005-09-14 | Canon Kk | Method and apparatus for generating models of individuals |
DE10235657A1 (de) * | 2002-08-02 | 2004-02-12 | Leica Microsystems Heidelberg Gmbh | Verfahren, Anordnung und Software zur Optimierung der Bildqualität von mit einem Mikroskop aufgenommenen beweglichen Objekten |
NZ539632A (en) * | 2002-10-22 | 2008-01-31 | Artoolworks | Tracking a surface in a 3-dimensional scene using natural visual features of the surface |
JP4210926B2 (ja) * | 2004-01-16 | 2009-01-21 | 株式会社デンソー | 乗員保護システム |
JP4928451B2 (ja) * | 2004-07-30 | 2012-05-09 | ユークリッド・ディスカバリーズ・エルエルシー | ビデオデータを処理する装置および方法 |
KR101323966B1 (ko) * | 2004-07-30 | 2013-10-31 | 익스트림 리얼리티 엘티디. | 이미지 프로세싱을 기반으로 한 3d 공간 차원용 시스템 및 방법 |
US8659668B2 (en) * | 2005-10-07 | 2014-02-25 | Rearden, Llc | Apparatus and method for performing motion capture using a random pattern on capture surfaces |
WO2007090945A1 (fr) * | 2006-02-07 | 2007-08-16 | France Telecom | Procede pour suivre la position de la tete en temps reel dans un flux d'images video |
US8026931B2 (en) | 2006-03-16 | 2011-09-27 | Microsoft Corporation | Digital video effects |
CN100449567C (zh) * | 2006-11-02 | 2009-01-07 | 中山大学 | 一种基于块内相关性的二维主元分析人脸识别方法 |
CN100423020C (zh) * | 2006-12-15 | 2008-10-01 | 中山大学 | 一种基于结构主元分析的人脸识别方法 |
ES2402957T3 (es) | 2007-03-05 | 2013-05-10 | Seeing Machines Pty Ltd | Rastreo eficaz y preciso de objetos tridimensionales |
KR100896065B1 (ko) * | 2007-12-17 | 2009-05-07 | 한국전자통신연구원 | 3차원 얼굴 표정 애니메이션 생성 방법 |
JP5239396B2 (ja) * | 2008-02-28 | 2013-07-17 | セイコーエプソン株式会社 | 画像出力方法、画像出力装置および画像出力プログラム |
US8525871B2 (en) * | 2008-08-08 | 2013-09-03 | Adobe Systems Incorporated | Content-aware wide-angle images |
US8538072B2 (en) * | 2008-08-27 | 2013-09-17 | Imprivata, Inc. | Systems and methods for operator detection |
CN101425183B (zh) * | 2008-11-13 | 2012-04-25 | 上海交通大学 | 基于二阶锥规划的变形体三维跟踪方法 |
US8624962B2 (en) * | 2009-02-02 | 2014-01-07 | Ydreams—Informatica, S.A. Ydreams | Systems and methods for simulating three-dimensional virtual interactions from two-dimensional camera images |
JP2011039801A (ja) * | 2009-08-12 | 2011-02-24 | Hitachi Ltd | 画像処理装置および画像処理方法 |
CN101763636B (zh) * | 2009-09-23 | 2012-07-04 | 中国科学院自动化研究所 | 视频序列中的三维人脸位置和姿态跟踪的方法 |
US8937592B2 (en) * | 2010-05-20 | 2015-01-20 | Samsung Electronics Co., Ltd. | Rendition of 3D content on a handheld device |
US8259994B1 (en) * | 2010-09-14 | 2012-09-04 | Google Inc. | Using image and laser constraints to obtain consistent and improved pose estimates in vehicle pose databases |
CN102122239B (zh) * | 2011-03-21 | 2013-03-20 | 日照市活点网络科技有限公司 | 物联网3d图像处理方法 |
CN103814384B (zh) * | 2011-06-09 | 2017-08-18 | 香港科技大学 | 基于图像的跟踪 |
WO2013020247A1 (en) * | 2011-08-09 | 2013-02-14 | Intel Corporation | Parameterized 3d face generation |
US9123144B2 (en) * | 2011-11-11 | 2015-09-01 | Microsoft Technology Licensing, Llc | Computing 3D shape parameters for face animation |
US9129147B1 (en) * | 2012-05-22 | 2015-09-08 | Image Metrics Limited | Optimal automatic capture of facial movements and expressions in video sequences |
KR101311600B1 (ko) * | 2012-10-26 | 2013-09-26 | 동국대학교 산학협력단 | 의료용 위치추적 기기 |
US9406135B2 (en) | 2012-10-29 | 2016-08-02 | Samsung Electronics Co., Ltd. | Device and method for estimating head pose |
FR2998402B1 (fr) * | 2012-11-20 | 2014-11-14 | Morpho | Procede de generation d'un modele de visage en trois dimensions |
EP2824913A1 (en) * | 2013-07-09 | 2015-01-14 | Alcatel Lucent | A method for generating an immersive video of a plurality of persons |
US20160070952A1 (en) * | 2014-09-05 | 2016-03-10 | Samsung Electronics Co., Ltd. | Method and apparatus for facial recognition |
GB201419441D0 (en) * | 2014-10-31 | 2014-12-17 | Microsoft Corp | Modifying video call data |
US9747573B2 (en) | 2015-03-23 | 2017-08-29 | Avatar Merger Sub II, LLC | Emotion recognition for workforce analytics |
US10441604B2 (en) * | 2016-02-09 | 2019-10-15 | Albireo Ab | Cholestyramine pellets and methods for preparation thereof |
US11736756B2 (en) * | 2016-02-10 | 2023-08-22 | Nitin Vats | Producing realistic body movement using body images |
EP3324254A1 (de) * | 2016-11-17 | 2018-05-23 | Siemens Aktiengesellschaft | Einrichtung und verfahren zur bestimmung der parameter einer regeleinrichtung |
WO2018227001A1 (en) * | 2017-06-07 | 2018-12-13 | Google Llc | High speed, high-fidelity face tracking |
CN109145758A (zh) * | 2018-07-25 | 2019-01-04 | 武汉恩智电子科技有限公司 | 一种基于视频监控的人脸的识别算法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9610212D0 (en) | 1996-05-16 | 1996-07-24 | Cyberglass Limited | Method and apparatus for generating moving characters |
CN1188948A (zh) * | 1996-12-27 | 1998-07-29 | 大宇电子株式会社 | 用于对脸部运动编码的方法和装置 |
US6014625A (en) * | 1996-12-30 | 2000-01-11 | Daewoo Electronics Co., Ltd | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model |
JP3055666B2 (ja) * | 1997-03-11 | 2000-06-26 | 株式会社エイ・ティ・アール知能映像通信研究所 | 3次元画像作成装置 |
US6047078A (en) * | 1997-10-03 | 2000-04-04 | Digital Equipment Corporation | Method for extracting a three-dimensional model using appearance-based constrained structure from motion |
US6381346B1 (en) * | 1997-12-01 | 2002-04-30 | Wheeling Jesuit University | Three-dimensional face identification system |
CA2227361A1 (en) * | 1998-01-19 | 1999-07-19 | Taarna Studios Inc. | Method and apparatus for providing real-time animation utilizing a database of expressions |
US6272231B1 (en) * | 1998-11-06 | 2001-08-07 | Eyematic Interfaces, Inc. | Wavelet-based facial motion capture for avatar animation |
US6301370B1 (en) * | 1998-04-13 | 2001-10-09 | Eyematic Interfaces, Inc. | Face recognition from video images |
US6072496A (en) * | 1998-06-08 | 2000-06-06 | Microsoft Corporation | Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects |
JP4384813B2 (ja) * | 1998-06-08 | 2009-12-16 | マイクロソフト コーポレーション | 時間依存ジオメトリの圧縮 |
US6198485B1 (en) * | 1998-07-29 | 2001-03-06 | Intel Corporation | Method and apparatus for three-dimensional input entry |
IT1315446B1 (it) * | 1998-10-02 | 2003-02-11 | Cselt Centro Studi Lab Telecom | Procedimento per la creazione di modelli facciali tridimensionali apartire da immagini di volti. |
JP2000293687A (ja) * | 1999-02-02 | 2000-10-20 | Minolta Co Ltd | 3次元形状データ処理装置および3次元形状データ処理方法 |
US6200139B1 (en) * | 1999-02-26 | 2001-03-13 | Intel Corporation | Operator training system |
EP1039417B1 (en) * | 1999-03-19 | 2006-12-20 | Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. | Method and device for the processing of images based on morphable models |
JP3639476B2 (ja) * | 1999-10-06 | 2005-04-20 | シャープ株式会社 | 画像処理装置および画像処理方法ならびに画像処理プログラムを記録した記録媒体 |
JP2001142380A (ja) * | 1999-11-12 | 2001-05-25 | Sony Corp | ホログラム作成装置及び方法、並びにホログラム |
US7457457B2 (en) * | 2000-03-08 | 2008-11-25 | Cyberextruder.Com, Inc. | Apparatus and method for generating a three-dimensional representation from a two-dimensional image |
US6807290B2 (en) * | 2000-03-09 | 2004-10-19 | Microsoft Corporation | Rapid computer modeling of faces for animation |
JP2001331799A (ja) * | 2000-03-16 | 2001-11-30 | Toshiba Corp | 画像処理装置および画像処理方法 |
IT1320002B1 (it) * | 2000-03-31 | 2003-11-12 | Cselt Centro Studi Lab Telecom | Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio. |
KR20020022504A (ko) * | 2000-09-20 | 2002-03-27 | 박종만 | 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법 |
US6850872B1 (en) * | 2000-08-30 | 2005-02-01 | Microsoft Corporation | Facial image processing methods and systems |
US6950104B1 (en) * | 2000-08-30 | 2005-09-27 | Microsoft Corporation | Methods and systems for animating facial features, and methods and systems for expression transformation |
US7127081B1 (en) * | 2000-10-12 | 2006-10-24 | Momentum Bilgisayar, Yazilim, Danismanlik, Ticaret, A.S. | Method for tracking motion of a face |
US6975750B2 (en) * | 2000-12-01 | 2005-12-13 | Microsoft Corp. | System and method for face recognition using synthesized training images |
US9400921B2 (en) | 2001-05-09 | 2016-07-26 | Intel Corporation | Method and system using a data-driven model for monocular face tracking |
US6919892B1 (en) * | 2002-08-14 | 2005-07-19 | Avaworks, Incorporated | Photo realistic talking head creation system and method |
US7027054B1 (en) * | 2002-08-14 | 2006-04-11 | Avaworks, Incorporated | Do-it-yourself photo realistic talking head creation system and method |
WO2008156437A1 (en) * | 2006-04-10 | 2008-12-24 | Avaworks Incorporated | Do-it-yourself photo realistic talking head creation system and method |
US20110115798A1 (en) * | 2007-05-10 | 2011-05-19 | Nayar Shree K | Methods and systems for creating speech-enabled avatars |
-
2001
- 2001-05-09 US US09/852,398 patent/US9400921B2/en not_active Expired - Fee Related
-
2002
- 2002-05-02 AU AU2002303611A patent/AU2002303611A1/en not_active Abandoned
- 2002-05-02 KR KR1020037014619A patent/KR100571115B1/ko not_active IP Right Cessation
- 2002-05-02 CN CNB028094204A patent/CN1294541C/zh not_active Expired - Fee Related
- 2002-05-02 WO PCT/US2002/014014 patent/WO2002091305A2/en not_active Application Discontinuation
- 2002-05-02 GB GB0328400A patent/GB2393065B/en not_active Expired - Fee Related
-
2004
- 2004-07-08 HK HK04104981A patent/HK1062067A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
GB2393065B (en) | 2005-04-20 |
KR20040034606A (ko) | 2004-04-28 |
CN1509456A (zh) | 2004-06-30 |
AU2002303611A1 (en) | 2002-11-18 |
US9400921B2 (en) | 2016-07-26 |
WO2002091305A2 (en) | 2002-11-14 |
US20030012408A1 (en) | 2003-01-16 |
WO2002091305A3 (en) | 2003-09-18 |
CN1294541C (zh) | 2007-01-10 |
GB2393065A (en) | 2004-03-17 |
GB0328400D0 (en) | 2004-01-14 |
HK1062067A1 (en) | 2004-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100571115B1 (ko) | 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법 | |
US6492986B1 (en) | Method for human face shape and motion estimation based on integrating optical flow and deformable models | |
US10573065B2 (en) | Systems and methods for automating the personalization of blendshape rigs based on performance capture data | |
US5774129A (en) | Image analysis and synthesis networks using shape and texture information | |
US11494915B2 (en) | Image processing system, image processing method, and program | |
DeCarlo et al. | The integration of optical flow and deformable models with applications to human face shape and motion estimation | |
US6047078A (en) | Method for extracting a three-dimensional model using appearance-based constrained structure from motion | |
Dornaika et al. | On appearance based face and facial action tracking | |
US9477878B2 (en) | Rigid stabilization of facial expressions | |
US5745668A (en) | Example-based image analysis and synthesis using pixelwise correspondence | |
US8086027B2 (en) | Image processing apparatus and method | |
CN104123749A (zh) | 一种图像处理方法及系统 | |
JP6207210B2 (ja) | 情報処理装置およびその方法 | |
DeCarlo et al. | Deformable model-based shape and motion analysis from images using motion residual error | |
Reveret et al. | A new 3D lip model for analysis and synthesis of lip motion in speech production | |
JP2003108981A (ja) | 顔の特徴を位置確認するための方法及びコンピュータープログラム製品 | |
Kervrann et al. | Statistical deformable model-based segmentation of image motion | |
KR20010042673A (ko) | 아바타 애니메이션을 위한 웨이브렛-기본 얼굴 움직임 캡쳐 | |
JP2011039869A (ja) | 顔画像処理装置およびコンピュータプログラム | |
Agudo et al. | Real-time 3D reconstruction of non-rigid shapes with a single moving camera | |
CN113628327A (zh) | 一种头部三维重建方法及设备 | |
CN114422832A (zh) | 主播虚拟形象生成方法及装置 | |
US20220027602A1 (en) | Deep Learning-Based Three-Dimensional Facial Reconstruction System | |
Achenbach et al. | Accurate Face Reconstruction through Anisotropic Fitting and Eye Correction. | |
Ye et al. | 3d morphable face model for face animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20090403 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |