KR20150046724A

KR20150046724A - 얼굴 트랙킹 장치 및 방법

Info

Publication number: KR20150046724A
Application number: KR20140118874A
Authority: KR
Inventors: 펑 쉬에타오; 센 샤오루; 장 후이; 김지연; 김정배
Original assignee: 삼성전자주식회사
Priority date: 2013-10-22
Filing date: 2014-09-05
Publication date: 2015-04-30
Also published as: KR20150046718A; KR101877711B1; CN104573614A; CN104573614B

Abstract

얼굴 트랙킹 기술이 개시된다. 일 실시예에 따르면, 입력 영상에서 검출된 얼굴 영역은 서브 영역들로 분할되고, 서브 영역들의 가려짐 확률들에 기초하여 입력 영상에 포함된 얼굴이 트랙킹된다.

Description

얼굴 트랙킹 장치 및 방법{APPARATUS AND METHOD OF FACE TRACKING}

이하의 실시예들은 얼굴 트랙킹 장치 및 방법에 관한 것으로 얼굴 및 얼굴의 키 포인트를 트랙킹(tracking)하는 장치 및 방법에 관한 것이다.

얼굴은 눈, 코, 입과 같은 주요 구성요소들에 의하여 효과적으로 식별되므로, 얼굴은 주요 구성요소들에 대응하는 특징점들을 이용하여 트랙킹될 수 있다. 그러나, 다양한 원인에 의하여 얼굴의 일부가 가려질 수 있다. 예를 들어, 사용자가 선글라스를 착용하는 경우, 눈에 대응하는 특징점들이 정확하게 트랙킹되기 어렵다. 또는, 사용자가 마스크를 착용하는 경우, 입에 대응하는 특징점들이 정확하게 트랙킹되기 어렵다. 나아가, 불균등 조명 환경에 의하여 얼굴에 그림자가 발생하는 경우, 얼굴의 표정에 따라 그림자에 의하여 가려지는 영역의 크기 및 형상이 변할 수 있다. 이 경우, 얼굴이 정확하게 트랙킹되기 어렵다.

일 측에 따른 얼굴 트랙킹 방법은 입력 영상에서 얼굴 영역을 검출하는 단계; 상기 얼굴 영역을 서브 영역들로 분할하는 단계; 상기 서브 영역들의 가려짐 확률들을 계산하는 단계; 및 상기 가려짐 확률들에 기초하여 상기 입력 영상에 포함된 얼굴을 트랙킹하는 단계를 포함한다. 여기서, 상기 입력 영상은 적어도 일부가 가려진 얼굴을 포함할 수 있다.

상기 얼굴 영역을 검출하는 단계는 상기 입력 영상의 현재 프레임에서 제1 특징점들을 추출하는 단계; 데이터베이스로부터 적어도 하나의 키 프레임을 선택하는 단계; 상기 제1 특징점들과 상기 적어도 하나의 키 프레임의 제2 특징점들에 기초하여, 상기 입력 영상에 포함된 상기 얼굴의 포즈를 추정하는 단계; 및 상기 추정된 포즈에 기초하여 상기 입력 영상에 포함된 상기 얼굴의 제3 특징점들을 추정하는 단계를 포함할 수 있다.

상기 얼굴의 포즈를 추정하는 단계는 상기 제1 특징점들의 특징 벡터들과 상기 제2 특징점들의 특징 벡터들 사이의 유사성에 기초하여 상기 제1 특징점들과 상기 제2 특징점들 사이의 매칭 관계 정보를 생성하는 단계; 및 매칭된 제1 특징점의 좌표와 매칭된 제2 특징점의 투영 좌표 사이의 거리에 기초하여 상기 얼굴의 포즈를 지시하는 포즈 파라미터를 추정하는 단계를 포함할 수 있다.

상기 서브 영역들로 분할하는 단계는 상기 얼굴 영역에 포함된 픽셀들의 위치 및 색상에 기초하여 패치들을 생성하는 단계; 및 상기 얼굴 영역에서 추정된 특징점들에 기초하여 섹션들을 생성하는 단계를 포함할 수 있다.

상기 서브 영역들의 가려짐 확률들을 계산하는 단계는 패치들의 제1 확률 모델들에 기초하여 상기 패치들의 제1 가려짐 확률들을 계산하는 단계; 섹션들의 제2 확률 모델들에 기초하여 상기 섹션들의 제2 가려짐 확률들을 계산하는 단계; 및 상기 제1 가려짐 확률들 및 상기 제2 가려짐 확률들에 기초하여 가려짐 가중치 맵을 생성하는 단계를 포함할 수 있다.

상기 입력 영상에 포함된 상기 얼굴을 트랙킹하는 단계는 가려짐 가중치 맵을 이용하여 상기 입력 영상에 포함된 상기 얼굴을 표현하는 얼굴 모델의 파라미터를 조정하는 단계를 포함할 수 있다.

상기 얼굴 트랙킹 방법은 기 학습된 분류기를 이용하여 트랙킹 결과를 평가하는 단계; 및 상기 트랙킹 결과가 성공적이라고 평가되는 경우, 키 프레임을 업데이트하는 단계를 더 포함할 수 있다.

다른 일 측에 따른 얼굴 트랙킹 장치는 입력 영상에서 얼굴 영역을 검출하는 얼굴 영역 검출부; 상기 얼굴 영역을 서브 영역들로 분할하는 분할부; 상기 서브 영역들의 가려짐 확률들을 계산하는 가려짐 확률 계산부; 및 상기 가려짐 확률들에 기초하여 상기 입력 영상에 포함된 얼굴을 트랙킹하는 트랙킹부를 포함한다.

도 1은 일 실시예에 따른 얼굴 트랙킹 방법을 나타낸 동작 흐름도.
도 2는 일 실시예에 따른 가려짐 현상을 설명하는 도면.
도 3은 일 실시예에 따른 얼굴 영역의 검출 방법을 나타낸 동작 흐름도.
도 4는 일 실시예에 따른 얼굴 영역의 분할 방법을 나타낸 동작 흐름도.
도 5a 내지 도 5c는 일 실시예에 따른 서브 영역을 설명하는 도면.
도 6은 일 실시예에 따른 가려짐 확률의 계산 방법을 나타낸 동작 흐름도.
도 7은 일 실시예에 따른 템플레이트 형상을 설명하는 도면.
도 8은 일 실시예에 따른 확률 모델을 설명하는 도면.
도 9는 일 실시예에 따른 가려짐 확률을 설명하는 도면.
도 10은 일 실시예에 따른 얼굴 모델의 파라미터 조정 방법을 나타낸 동작 흐름도.
도 11은 일 실시예에 따른 얼굴 트랙킹 방법의 후 처리를 나타낸 동작 흐름도.
도 12는 일 실시예에 따른 얼굴 트랙킹 프로세스의 전 과정을 나타낸 동작 흐름도.
도 13은 일 실시예에 따른 얼굴 트랙킹 알고리즘을 나타낸 동작 흐름도.
도 14는 일 실시예에 따른 얼굴 트랙킹 장치를 나타낸 블록도.
도 15는 일 실시예에 따른 얼굴 영역 검출부를 나타낸 블록도.
도 16은 일 실시예에 따른 가려짐 확률 계산부를 나타낸 블록도.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 얼굴 트랙킹 방법을 나타낸 동작 흐름도이다. 도 1을 참조하여, 일 실시예에 따른 얼굴 트랙킹 방법(face tracking method)을 설명하기에 앞서, 실시예들에 의하여 이용되는 얼굴 모델을 설명한다. 얼굴 모델은 입력 영상에 포함된 얼굴을 표현하는 모델이다. 얼굴 모델은 2차원 형상 모델, 3차원 형상 모델, 및/또는 텍스쳐 모델을 포함할 수 있다. 얼굴 모델은 변형 가능할(deformable) 수 있다.

2차원 형상 모델은 얼굴의 특징점들(feature points)의 기하 위치를 2차원 좌표로 표시할 수 있다. 특징점들은 눈, 코, 입, 눈썹, 또는 얼굴의 윤곽선 등 얼굴의 특징적인 외형 위에 위치하는 점들일 수 있다. 예를 들어, 2차원 형상 모델은 수학식 1로 나타낼 수 있다.

여기서, s은 2차원 형상 모델을 표현하는 벡터이며, 얼굴의 특징점들의 2차원 좌표로 구성될 수 있다. p는 2차원 형상 파라미터(shape parameter)이고, q는 2차원 유사 변환 파라미터(similarity transformation parameter)이다. s₀은 2차원 평균 형상이고, s_i는 2차원 형상 프리미티브(primitive)이다. p_i는 2차원 형상 파라미터의 구성 요소이고, N()은 2차원 형상을 2차원 유사 변환시키는 함수이다. 2차원 형상 파라미터 p에 따라 서로 다른 2차원 얼굴 형상이 생성될 수 있다. 2차원 유사 변환 파라미터 q에 따라 2차원 얼굴의 포즈(pose)가 변경될 수 있다. 2차원 형상 파라미터 p와 2차원 유사 변환 파라미터 q에 의하여 2차원 형상 모델 s를 구성하는 특징점들의 2차원 좌표들이 결정된다.

3차원 형상 모델은 얼굴의 특징점들의 기하 위치를 3차원 좌표를 표시할 수 있다. 예를 들어, 3차원 형상 모델은 수학식 2로 나타낼 수 있다.

여기서, s'은 3차원 형상 모델을 표현하는 벡터이며, 얼굴의 특징점들의 3차원 좌표로 구성될 수 있다. p'은 3차원 형상 파라미터이고, q'은 3차원 유사 변환 파라미터이다. s'₀은 3차원 평균 형상이고, s'_i는 3차원 형상 프리미티브이다. p'_i는 3차원 형상 파라미터의 구성요소이고, N'()은 3차원 형상을 3차원 유사 변환시키는 함수이다.

3차원 형상 파라미터 p'에 따라 서로 다른 3차원 얼굴 형상이 생성될 수 있다. 3차원 유사 변환 파라미터 q'에 따라 3차원 좌표계 내에서 3차원 얼굴의 위치 또는 포즈가 변경될 수 있다. 3차원 형상 파라미터 p'은 얼굴의 표정(expression)에 대응할 수 있다. 예를 들어, 3차원 형상 파라미터 p'은 개인이 가지고 있는 고유한 얼굴 형태뿐 아니라, 개인의 표정도 포함할 수 있다. 또한,, 유사 변환 파라미터 q'은 얼굴의 포즈(pose)에 대응할 수 있다. 3차원 형상 파라미터 p'과 3차원 유사 변환 파라미터 q'에 의하여 3차원 형상 모델 s'을 구성하는 특징점들의 3차원 좌표들이 결정된다.

텍스쳐 모델은 얼굴의 텍스쳐를 표시하는 모델이다. 예를 들어, 텍스쳐 모델은 수학식 3으로 나타낼 수 있다. 텍스쳐 모델은 외형 모델(appearance model)이라고 지칭될 수 있다.

여기서, a는 텍스쳐 모델을 표현하는 텍스쳐 벡터이며, b는 텍스쳐 파라미터이다. a ₀ 는 평균 텍스쳐이고, a _i 는 텍스쳐 프리미티브이며, b_i는 텍스쳐 파라미터의 구성요소이다. 텍스쳐 파라미터 b에 따라 텍스쳐 모델 a가 변형될 수 있다.

도 1을 참조하면, 일 실시예에 따른 얼굴 트랙킹 방법은 입력 영상에서 얼굴 영역을 검출하는 단계(110), 얼굴 영역을 서브 영역들로 분할하는 단계(120), 서브 영역들의 가려짐 확률들을 계산하는 단계(130), 및 가려짐 확률들에 기초하여 얼굴을 트랙킹하는 단계(140)를 포함한다. 얼굴 트랙킹 방법은 소프트웨어 모듈로 구현되어 프로세서에 의하여 실행될 수 있다. 또는, 얼굴 트랙킹 방법은 하드웨어 모듈로 구현될 수 있다. 또는, 얼굴 트랙킹 방법은 소프트웨어 모듈과 하드웨어 모듈의 조합으로 구현될 수 있다. 이하, 얼굴 트랙킹 방법이 구현된 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합은 '얼굴 트랙킹 장치'라고 지칭될 수 있다.

일 실시예에 따른 얼굴 트랙킹 장치는 입력 영상에서 얼굴을 트랙킹할 수 있다. 입력 영상은 복수 개의 영상들 또는 비디오 스트리밍(video streaming)일 수 있다. 얼굴 트랙킹 장치는 복수 개의 영상들 각각에서 얼굴을 트랙킹할 수 있다. 또는, 얼굴 트랙킹 장치는 비디오 스트리밍에 포함된 프레임들 각각에서 얼굴을 트랙킹할 수 있다.

입력 영상에 포함된 얼굴에서 적어도 일부가 다른 물체에 의하여 가려질(occluded) 수 있다. 예를 들어, 도 2를 참조하면, 제1 얼굴 영상(210)에서 사용자의 얼굴 중 오른쪽 눈썹 전부, 왼쪽 눈썹 일부, 및 왼쪽 눈 일부가 머리카락에 의하여 가려질 수 있다. 또한, 제2 얼굴 영상(220)에서 사용자의 얼굴 중 오른쪽 눈썹 전부 및 왼쪽 눈썹 일부가 머리카락에 의하여 가려지고, 입술 일부가 마이크에 의하여 가려질 수 있다.

이처럼 입력 영상에 포함된 얼굴에서 적어도 일부가 다른 물체에 의하여 가려지는 경우, 트랙킹 결과의 정확도가 낮아질 수 있다. 실시예들은 입력 영상에 포함된 얼굴에서 적어도 일부가 다른 물체에 의하여 가려지는 경우에도 정확도 높은 트랙킹 결과를 도출하는 기술을 제공할 수 있다.

얼굴 트랙킹 장치는 단계(110)에서 입력 영상을 수신하고, 입력 영상으로부터 얼굴 영역(face region)을 검출할 수 있다. 얼굴 영역은 단일 영상 또는 단일 프레임에서 얼굴을 포함하는 영역일 수 있다. 얼굴 영역은 눈, 코, 입, 눈썹 등 얼굴의 주요 구성요소들 및 얼굴의 윤곽선 등을 포함하는 영역일 수 있다. 예를 들어, 단일 영상 또는 단일 프레임에는 사람의 전신(full body)이 포함될 수 있다. 얼굴 트랙킹 장치는 사람의 전신 중 얼굴에 대응하는 얼굴 영역을 검출할 수 있다.

얼굴 트랙킹 장치는 이전 프레임(previous frame)의 트랙킹 결과(tracking result)에 기초하여 현재 프레임(current frame)의 얼굴 영역을 검출할 수 있다. 얼굴의 운동 속도는 일정 속도 이하로 제한되므로, 얼굴 트랙킹 장치는 이전 프레임에서 얼굴이 포함된 영역을 주변으로 확대하여 현재 프레임의 얼굴 영역을 결정할 수 있다.

예를 들어, 도 3을 참조하면, 얼굴 트랙킹 장치는 단계(111)에서 현재 프레임으로부터 특징점들을 추출할 수 있다. 얼굴 트랙킹 장치는 현재 프레임에서 눈, 코, 입, 눈썹, 얼굴의 윤곽선 등을 나타내는 특징점들을 추출할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 SIFT(scale-invariant feature transform) 알고리즘, SURF(speed up robust feature) 알고리즘, 및 FAST(features from accelerated segment test) 알고리즘 중 적어도 하나를 사용하여 특징점들을 검출할 수 있다. 이하, 현재 프레임으로부터 추출된 특징점들은 '제1 특징점들'이라고 지칭될 수 있다.

이 때, 가려진 부위(occluded part)에서는 얼굴과 무관한 특징점들이 추출될 수 있다. 예를 들어, 도 2의 제2 얼굴 영상(220)에서 입술의 일부가 마이크에 의하여 가려지므로, 입술에 대응하는 특징점 대신 마이크에 대응하는 특징점이 추출될 수 있다.

얼굴 트랙킹 장치는 단계(112)에서 데이터베이스로부터 키 프레임들(key frames)을 선택할 수 있다. 데이터베이스는 복수의 키 프레임들을 저장한다. 키 프레임들 각각은 포즈 파라미터(pose parameter) 및 표정 파라미터(expression parameter) 중 적어도 하나로 인덱스될 수 있다. 예를 들어, 키 프레임들 각각은 특정 포즈와 특정 표정의 조합에 대응하는 특징점들을 저장한다. 키 프레임들 각각은 특징점들을 3차원 좌표의 형태로 저장할 수 있다.

얼굴 트랙킹 장치는 데이터베이스에 저장된 복수의 키 프레임들 중 이전 프레임의 트랙킹 결과와 연관된 키 프레임들을 선택할 수 있다. 예를 들어, 이전 프레임의 트랙킹 결과 도출된 포즈 파라미터와 표정 파라미터로 각각 p1과 e1이 도출될 수 있다. 이 경우, 얼굴 트랙킹 장치는 데이터베이스에 저장된 복수의 키 프레임들 중 (p1, e1)으로 인덱스되는 키 프레임을 선택할 수 있다. 또한, 얼굴 트랙킹 장치는 데이터베이스에 저장된 복수의 키 프레임들 중 (p1, *) 또는 (*, e1)으로 인덱스되는 키 프레임들을 선택할 수 있다. (p1, *)는 p1을 포함하는 모든 인덱스들이고, (*, e1)은 e1을 포함하는 모든 인덱스들일 수 있다. 또는, 얼굴 트랙킹 장치는 (p1, e1)과 유사한 인덱스들을 결정하고, (p1, e1)과 유사하다고 결정된 인덱스들로 인덱스되는 키 프레임들을 선택할 수 있다. 전술한 키 프레임 선택 방식은 예시적인 사항에 불과하며, 키 프레임 선택 방식은 다양하게 변형될 수 있다.

얼굴 트랙킹 장치는 단계(113)에서 선택된 키 프레임들에 포함된 특징점들과 현재 프레임에서 추출된 제1 특징점들에 기초하여 현재 프레임에 포함된 얼굴의 포즈를 추정할 수 있다. 선택된 키 프레임들 각각은 특징점들을 3차원 좌표의 형태로 저장할 수 있다. 이하, 선택된 키 프레임들 각각에 포함된 특징점들은 '제2 특징점들'이라고 지칭될 수 있다.

포즈 추정은 크게 두 단계들로 수행될 수 있다. 포즈 추정의 첫 번째 단계로, 얼굴 트랙킹 장치는 선택된 제1 특징점들과 키 프레임들 각각에 포함된 제2 특징점들 사이의 매칭 관계 정보(matching relation information)를 생성할 수 있다. 키 프레임들 각각은 이전에 성공적으로 매칭되었던 특징점들을 3차원 좌표의 형태로 저장하고, 이전에 성공적으로 매칭되었던 특징점들의 특징 벡터들을 더 저장할 수 있다.

키 프레임에 저장된 3차원 좌표들은 이전에 성공적으로 매칭되었던 특징점들의 2차원 좌표들이 3차원 형상 모델로 투영(projection)됨으로써 얻어진 것일 수 있다. 키 프레임에 저장된 3차원 좌표들은 3차원 형상 모델을 구성하는 삼각형 표면에 위치할 수 있다. 키 프레임에 저장된 3차원 좌표들은 해당 삼각형의 꼭지점 좌표 및 수심 좌표로 표시될 수 있다. 여기서, 삼각형의 수심(orthocenter)은 삼각형의 세 꼭지점에서 그 각각의 대변에 내린 세 수선들이 만나는 점이다.

키 프레임에 저장된 특징 벡터는 이전에 성공적으로 매칭되었던 특징점들의 주변 영역의 색상에 의하여 계산된 것일 수 있다. 예를 들어, 특징 벡터는 색상 히스토그램 및/또는 SIFT 히스토그램에 기초하여 계산될 수 있다. 키 프레임에 저장된 특징 벡터는 이전에 성공적으로 매칭되었던 특징점들의 텍스쳐 특징을 반영할 수 있다.

얼굴 트랙킹 장치는 특징 벡터인 텍스처 벡터의 유사 여부에 기초하여 매칭 관계 정보를 생성할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 현재 프레임에서 추출된 제1 특징점들의 특징 벡터들과 데이터베이스로부터 선택된 키 프레임들에 포함된 제2 특징점들의 특징 벡터들을 비교할 수 있다. 얼굴 트랙킹 장치는 특징 벡터들이 유사한 제1 특징점 및 제2 특징점을 서로 매칭할 수 있다. 보다 구체적으로, 얼굴 트랙킹 장치는 특징 벡터들 사이의 거리를 계산할 수 있다. 얼굴 트랙킹 장치는 현재 프레임으로부터 추출된 제1 특징점에 대응하여, 복수의 키 프레임들에 포함된 제2 특징점들 중 특징 벡터들 사이의 거리가 가장 가깝게 계산된 제2 특징점을 검출할 수 있다. 얼굴 트랙킹 장치는 검출된 제2 특징점을 제1 특징점의 매칭점(matching point)으로 선택할 수 있다.

얼굴 트랙킹 장치는 데이터베이스로부터 선택된 복수의 키 프레임들 중 어느 하나의 키 프레임을 선택할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 제1 특징점들과 가장 잘 매칭되는 제2 특징점들을 포함하는 키 프레임을 선택할 수 있다. 매칭 관계 정보는 특징 벡터 사이의 유사성에 의하여 생성되고, 텍스쳐 정보가 가장 유사한 키 프레임이 선택될 수 있다.

포즈 추정의 두 번째 단계로, 얼굴 트랙킹 장치는 매칭 관계 정보에 기초하여 현재 프레임에 포함된 얼굴의 포즈를 추정할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 매칭 관계 정보를 이용하여 적합한 3차원 형상 모델의 3차원 유사 변환 파라미터를 조정할 수 있다. 얼굴 트랙킹 장치는 선택된 키 프레임에 대응하는 3차원 얼굴 모델을 획득하고, 매칭 관계 정보에 기초하여 3차원 얼굴 모델의 3차원 유사 변환 파라미터를 결정할 수 있다. 얼굴 트랙킹 장치는 3차원 유사 변환 파라미터를 결정함으로써, 현재 프레임에 포함된 얼굴의 포즈를 추정할 수 있다.

보다 구체적으로, 얼굴 트랙킹 장치는 3차원 유사 변환 파라미터를 조정함으로써, 키 프레임에 포함된 매칭 특징점들의 3차원 위치 및 자세를 변경할 수 있다. 얼굴 트랙킹 장치는 3차원 유사 변환 파라미터에 의하여 변환된 키 프레임의 매칭 특징점들을 현재 프레임의 매칭 특징점들과 비교하기 위하여, 키 프레임의 매칭 특징점들을 현재 프레임으로 투영시킬 수 있다. 키 프레임의 매칭 특징점들 각각은 3차원 좌표를 가지고, 현재 프레임은 2차원 영상이기 때문이다. 얼굴 트랙킹 장치는 키 프레임의 매칭 특징점들을 현재 프레임에 투영함으로써 투영점들을 획득할 수 있다. 현재 프레임의 매칭 특징점들과 투영점들은 2차원 좌표를 가질 수 있다.

얼굴 트랙킹 장치는 투영점들과 현재 프레임의 매칭 특징점들 사이의 거리를 계산할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 수학식 4를 사용하여 투영점들과 현재 프레임의 매칭 특징점들 사이의 거리를 계산할 수 있다.

여기서, i 는 서로 매칭된 페어(pair)의 인덱스이고, v_i는 현재 프레임의 매칭 특징점이며, u_i는 키 프레임의 매칭 특징점일 수 있다. Proj()는 키 프레임의 매칭 특징점을 현재 프레임에 투영하는 함수이고, N'()은 3차원 형상 모델을 유사 변환(예를 들어, 3차원 이동 및 회전)시키는 함수일 수 있다. q'은 3차원 유사 변환 파라미터이다.

ρ()는 로버스트(robust) 오차함수이다. 로버스트 오차함수는 입력이 임계값보다 적으면 입력에 따라 출력이 증가하고, 입력이 임계값보다 크면 입력에 따라 출력이 증가하는 속도가 느려지거나 더 이상 증가하지 않는 함수이다. 얼굴 트랙킹 장치는 로버스트 오차함수를 사용함으로써, 특징점 매칭 중 발생된 에러가 얼굴의 포즈 추정에 미치는 간섭을 감소시킬 수 있다.

얼굴 트랙킹 장치는 현재 프레임의 매칭 특징점들과 투영점들 사이의 거리가 최소가 되도록, 3차원 얼굴 모델의 3차원 유사 변환 파라미터를 결정할 수 있다. 얼굴 트랙킹 장치는 3차원 유사 변환 파라미터를 결정함으로써, 현재 프레임에 포함된 얼굴의 포즈를 추정할 수 있다.

얼굴 트랙킹 장치는 단계(114)에서 추정된 포즈에 기초하여 현재 프레임에 포함된 얼굴의 특징점들을 추정할 수 있다. 이하, 현재 프레임의 얼굴을 위하여 추정된 특징점들은 '제3 특징점들'이라고 지칭될 수 있다. 제1 특징점은 현재 프레임에서 직접 추출되므로, 가려진 부위에서 추출된 제1 특징점들은 얼굴과 무관한 특징점들을 포함할 수 있다. 반면, 제3 특징점은 이전 프레임의 트랙킹 결과와 유사하면서 제1 특징점들과의 연관 관계가 높은 포즈에 기초하여 추정되므로, 가려진 부위에서도 얼굴과 관련된 제3 특징점들이 추정될 수 있다.

보다 구체적으로, 얼굴 트랙킹 장치는 3차원 형상 모델에 기초하여 현재 프레임을 위한 2차원 형상 모델의 파라미터들을 결정할 수 있다. 얼굴 트랙킹 장치는 결정된 2차원 형상 모델의 특징점들을 현재 프레임에 포함된 얼굴의 특징점들로 추정할 수 있다.

예를 들어, 얼굴 트랙킹 장치는 수학식 5로 표현되는 비용 함수(cost function)를 최소화시키는 2차원 형상 모델의 파라미터들을 결정할 수 있다.

얼굴 트랙킹 장치는 기울기 하강 알고리즘(gradient descent algorithm)을 이용하여 수학식 5의 비용 함수를 최소화시킴으로써, 2차원 형상 모델의 파라미터들 p, q를 결정할 수 있다. 이 때, 2차원 형상 모델을 구성하는 특징점들과 3차원 형상 모델을 구성하는 특징점들은 각각 대응하지 않을 수 있다. 얼굴 트랙킹 장치는 서로 대응하는 특징점들에 한하여 수학식 5의 비용 함수를 최소화시킬 수 있다.

얼굴 트랙킹 장치는 현재 프레임을 위한 2차원 형상 모델의 특징점들에 대응하는 위치 좌표에 기초하여 현재 프레임에서 얼굴 영역을 검출할 수 있다. 이처럼 일 실시예에 따른 얼굴 트랙킹 장치는 이전 프레임의 트랙킹 결과에 기초하여 현재 프레임의 얼굴 영역을 검출할 수 있다.

다른 실시예에 따른 얼굴 트랙킹 장치는 일반적인 얼굴 검출 알고리즘(face detection algorithm)을 이용하여 얼굴 영역을 검출할 수 있다. 예를 들어, 비디오 스트리밍 내 첫 번째 프레임이나, 복수의 영상들 중 최초로 입력된 영상의 경우, 이전 프레임 정보가 없을 수 있다. 이 경우, 얼굴 트랙킹 장치는 일반적인 얼굴 검출 알고리즘을 통하여 얼굴 영역을 검출할 수 있다.

도면에 도시하지 않았으나, 얼굴 트랙킹 장치는 유효 매칭 결과(valid matching result)를 저장할 수 있다. 유효 매칭 결과는 제1 특징점들 및 제2 특징점들 사이의 매칭이 유효한지 여부를 나타내는 정보일 수 있다. 예를 들어, 유효 매칭 결과는 매칭 관계 정보에 의하여 매칭되는 (제1 특징점, 제2 특징점)의 페어들 중 제1 특징점과 제2 특징점 사이의 차이가 미리 정해진 임계값 미만인 페어만을 포함할 수 있다. 유효 매칭 결과는 가려지지 않은 영역에 존재하는 특징점들을 지시할 수 있다.

얼굴 트랙킹 장치는 현재 프레임에서 추출된 특징점들 및 3차원 형상 모델에서 현재 프레임에 투영된 투영점들 사이의 거리에 기초하여 유효 매칭 결과를 생성할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 현재 프레임에서 추출된 특징점들을 유효 매칭 그룹 및 무효 매칭 그룹으로 분류할 수 있다. 얼굴 트랙킹 장치는 현재 프레임에서 추출된 특징점 및 3차원 형상 모델에서 현재 프레임에 투영된 투영점 사이의 거리를 계산할 수 있다. 얼굴 트랙킹 장치는 계산된 거리가 임계값보다 작은 경우, 현재 프레임에서 추출된 특징점을 유효 매칭 그룹으로 분류할 수 있다. 얼굴 트랙킹 장치는 계산된 거리가 임계값 이상인 경우, 현재 프레임에서 추출된 특징점을 무효 매칭 그룹으로 분류할 수 있다. 얼굴 트랙킹 장치는 유효 특징 그룹으로 분류된 특징점들을 이용하여 유효 매칭 결과를 생성할 수 있다.

유효 매칭 결과는 얼굴 영역을 서브 영역들로 분할 시, 섹션(section)을 생성하는 과정에 이용될 수 있다. 유효 매칭 결과가 이용되는 방식과 관련된 상세한 사항은 후술한다.

얼굴 트랙킹 장치는 단계(120)에서 얼굴 영역을 서브 영역들로 분할할 수 있다. 서브 영역들은 얼굴 영역이 분할된 영역들로, 패치들(patches)과 섹션들(sections)을 포함할 수 있다. 패치들은 픽셀들의 위치와 색상에 기초하여 얼굴 영역 내 픽셀들이 클러스터링(clustering) 됨으로써 생성될 수 있다. 섹션들은 얼굴 영역 내 특징점들에 기초하여 패치들이 병합(merge) 됨으로써 생성될 수 있다.

도 4를 참조하면, 얼굴 트랙킹 장치는 단계(121)에서 패치들을 생성할 수 있다. 얼굴 트랙킹 장치는 유사한 위치에서 유사한 색상을 가지는 픽셀들을 클러스터링 함으로써 패치들을 생성할 수 있다. 얼굴 트랙킹 장치는 얼굴 영역 내에서 서로 다른 색상을 가지는 픽셀들을 서로 다른 패치들로 분할할 수 있다. 이로 인하여, 얼굴 영역 내 가려진 부분과 가려지지 않은 부분을 서로 다른 패치들로 분할할 수 있다. 예를 들어, 도 2의 얼굴 영상들로부터 도 5a의 패치들이 생성될 수 있다.

얼굴 트랙킹 장치는 위치-색상 디스크립터(position-color descriptor)를 이용하여 K-평균 클러스터링 알고리즘(K-means clustering algorithm)을 얼굴 영상의 픽셀들에 반복적으로(iteratively) 적용함으로써, 패치들을 생성할 수 있다. 위치-색상 디스크립터는 [x, y, r, g, b]로 표현될 수 있다. 여기서, x는 픽셀의 x좌표이고, y는 픽셀의 y좌표이며, r은 픽셀의 빨간색 성분이고, g는 픽셀의 녹색 성분이며, b는 픽셀의 파란색 성분이다.

얼굴 트랙킹 장치는 단계(122)에서 섹션들을 생성할 수 있다. 얼굴 트랙킹 장치는 얼굴 영역 내 특징점들에 따라 인접한 패치들을 병합함으로써 섹션들을 생성할 수 있다. 얼굴 영역 내 특징점들은 제3 특징점들일 수 있다. 얼굴 영역 내 특징점들은 눈, 코, 입, 또는 눈썹 등 얼굴의 주요 구성요소들 위에 위치하므로, 섹션들은 얼굴의 주요 구성요소들에 각각 대응될 수 있다. 섹션들의 크기는 서로 다를 수 있다. 예를 들어, 눈에 대응하는 섹션의 크기와 코에 대응하는 섹션의 크기는 서로 다를 수 있다. 또한, 얼굴의 특징이 잘 나타나지 않는 볼 부분은 하나의 섹션에 포함될 수 있다.

일 예로, 도 5b를 참조하면, 제1 섹션(510)은 제1 얼굴 영상에서 오른쪽 눈에 대응하는 섹션이고, 제2 섹션(520)은 제1 얼굴 영상에서 왼쪽 눈에 대응하는 섹션이며, 제3 섹션(530)은 제1 얼굴 영상에서 입에 대응하는 섹션이고, 제4 섹션(540)은 제1 얼굴 영상에서 코에 대응하는 섹션일 수 있다.

다른 예로, 도 5c를 참조하면, 제5 섹션(550)은 제2 얼굴 영상에서 오른쪽 눈에 대응하는 섹션이고, 제6 섹션(560)은 제2 얼굴 영상에서 왼쪽 눈에 대응하는 섹션이며, 제7 섹션(570)은 제2 얼굴 영상에서 입에 대응하는 섹션이고, 제8 섹션(580)은 제2 얼굴 영상에서 코에 대응하는 섹션일 수 있다.

얼굴 트랙킹 장치는 단계(130)에서 서브 영역들의 가려짐 확률들(occlusion probabilities)을 계산할 수 있다. 서브 영역들 각각의 가려짐 확률은 해당 서브 영역이 가려진 것일 확률일 수 있다. 가려짐 확률은 0 이상 1 이하의 값을 가지며, 1에서 가려짐 확률을 차감한 값은 노출 확률(exposition probability)일 수 있다. 서브 영역들 각각의 노출 확률은 해당 서브 영역이 가려지지 않고 노출된 것일 확률일 수 있다. 이하, 설명의 편의를 위하여 가려짐 확률을 이용하는 경우를 설명하나, 실시예들은 노출 확률을 이용하도록 변형될 수 있다.

얼굴 트랙킹 장치는 확률 모델들을 이용하여 서브 영역들의 가려짐 확률들을 계산할 수 있다. 예를 들어, 도 6을 참조하면, 얼굴 트랙킹 장치는 단계(131)에서 패치들의 가려짐 확률들을 계산할 수 있다. 얼굴 트랙킹 장치는 템플레이트 형상(template shape) 내에서 패치에 대응하는 부위의 확률 모델을 이용하여 패치의 가려짐 확률을 계산할 수 있다. 여기서, 템플레이트 형상은 미리 정해진 얼굴 형상으로, 도 7과 같이 미리 정해진 얼굴 형상을 구성하는 복수의 부위들을 포함할 수 있다. 템플레이트 형상에 포함된 각각의 부위마다 확률 모델이 지정될 수 있다.

템플레이트 형상의 부위들에 지정된 확률 모델들은 랜덤 트리 클러스터 기반 적응 다 변수 가우스 모델(random tree cluster based adaptive multivariate Gaussian model)일 수 있다. 도 8을 참조하면, 랜덤 트리(810)는 패치 데이터를 클러스터 하도록 적응될 수 있다. 랜덤 트리의 리프 노드들 각각은 다 변수 가우스 분포(multivariate Gaussian distribution)에 기초하여 패치 데이터를 클러스터할 수 있다. 예를 들어, 제1 리프 노드(811)는 제1 다 변수 가우스 분포(821)에 기초하여 제1 패치 데이터를 클러스터하고, 제2 리프 노드(812)는 제2 다 변수 가우스 분포(822)에 기초하여 제2 패치 데이터를 클러스터할 수 있다.

얼굴 트랙킹 장치는 패치가 템플레이트 형상의 어느 부위에 대응하는지 여부를 판단하고, 패치에 대응하는 부위에 지정된 확률 모델을 이용하여 패치의 가려짐 확률을 계산할 수 있다. 얼굴 트랙킹 장치는 패치에 포함된 픽셀들의 통계(statistic)를 특징 디스크립터(feature descriptor)로 이용할 수 있다. 패치에 포함된 픽셀들의 통계는 색상과 관련된 통계일 수 있다. 예를 들어, 패치에 포함된 픽셀들의 통계는 색상 히스토그램, 색상 평균, 및 색상 분산 중 적어도 하나를 포함할 수 있다. 얼굴 트랙킹 장치는 패치를 위한 확률 모델에 기초하여, 패치의 특징 디스크립터에 대응하는 가려짐 확률을 계산할 수 있다. i번째 패치 P_i의 가려짐 확률은 O(P_i)라고 지칭될 수 있다.

확률 모델은 가려지지 않은 패치들(unoccluded patches)에 기초하여 생성되고 갱신되므로, 확률 모델은 가려지지 않은 패치가 어떻게 보이는지를 기술하는데 이용될 수 있다. 예를 들어, 확률 모델을 생성하기 위하여 색상이 특징 디스크립터로 이용된 상황에서, 볼 위의 패치에 대하여 가려짐 확률을 계산하는 경우를 가정하자. 확률 모델은 볼에 위치하고 피부 색상에 맞는 임의의 패치에 대하여 그 패치가 얼굴의 가려지지 않은 부위에 해당할 확률이 높다고 (또는, 그 패치의 가려짐 확률이 낮다고) 예측할 수 있다. 실제로는 자세, 조명, 표정 등에 의하여 외형이 변하므로, 적절한 확률 모델 및 특징 디스크립터가 선택되어야 한다.

일 예로, 가우스 혼합 모델(Gaussian Mixture Model)이 이용되는 경우, 가려지지 않은 패치로부터 벡터 x가 도출될 확률은 수학식 6과 같이 계산될 수 있다.

여기서, M은 컴포넌트 번호이고, w _t 는 t번째 컴포넌트의 가중치이며,

는 t번째 컴포넌트 가우스 밀도이다.

는 수학식 7과 같이 계산될 수 있다.

여기서,

는 평균 벡터이고,

는 공분산(covariance) 매트릭스이며, D는 벡터 x의 디멘션(dimension)이다.

다른 예로, 랜덤 트리 기반 가우스 모델이 이용되는 경우, 가려지지 않은 패치로부터 벡터 x가 도출될 확률은 모든 트리 밀도들의 평균일 수 있다. 이 경우, 가려지지 않은 패치로부터 벡터 x가 도출될 확률은 수학식 8과 같이 계산될 수 있다.

여기서, T는 트리 번호이고, p _t (x)는 t번째 트리 밀도이다. p _t (x)는 수학식 9와 같이 계산될 수 있다.

여기서, l(x)는 벡터 x가 분열되는(divided into) 리프 노드이고,

는 리프 노드 l(x)에 도달하는 모든 트레이닝 샘플의 비율(proportion)이며, Z _t 는 확률 정규화(probability normalization)를 위한 계수이고,

는 리프 노드 l(x)를 위한 단일 가우스 모델이다.

는 수학식 10과 같이 계산될 수 있다.

여기서,

는 리프 노드 l(x) 내 모든 트레이닝 샘플의 평균 벡터이고,

는 리프 노드 l(x) 내 모든 트레이닝 샘플의 공분산 매트릭스이며, D는 벡터 x의 디멘션이다.

특징 디스크립터 벡터 x는 패치, 패치와 이웃 패치들, 또는 패치와 이웃 픽셀들로부터 추출될 수 있다. 예를 들어, 패치 내 픽셀들의 색상 히스토그램이 특징 디스크립터 벡터 x로 추출될 수 있다.

특징 디스크립터 벡터 x는 영역의 프로퍼티(property)를 나타내는데 이용될 수 있는 어떠한 벡터라도 포함할 수 있다. 예를 들어, 특징 디스크립터 벡터 x는 패치 내 픽셀들의 그레디언트 히스토그램; 패치의 이웃 영역 내 픽셀들의 색상 히스토그램; 패치의 이웃 영역 내 픽셀들의 그레디언트 히스토그램; 경계 직사각형(bounding rectangle)의 높이-너비 비, 둘레-넓이 비, 패치와 동일한 정규화된 제2 센트럴 모멘츠(normalized second central moments)를 가지는 타원의 메이저-마이너 축 길이 비, 패치 내 컨벡스 홀(convex hull)에 포함된 픽셀들의 비율 등과 같은 기하학적 특징(geometry feature); 로컬 바이너리 특징(Local Binary Feature), 코-어커런스 매트릭스(co-occurrence matrix) 내 원소들 등과 같은 텍스처 특징; 정규화, 주성분분석(Principle Component Analysis) 등으로 변환된 특징 벡터들 등을 포함할 수 있다.

임의의 패치는 복수의 확률 모델들에 대응할 수 있다. 일 예로, 템플레이트 형상은 100 x 100 픽셀 범위를 가지고, 템플레이트 형상은 100개의 부위들로 분할될 수 있다. 이 경우, 각 부위에 지정된 확률 모델은 10 x 10 픽셀 범위에 대응할 수 있다. 패치 P_i의 크기가 10 x 10 픽셀 범위보다 큰 경우, 패치 P_i는 템플레이트 형상 내 복수의 부위들에 대응할 수 있다. 얼굴 트랙킹 장치는 복수의 부위들에 지정된 확률 모델들을 획득할 수 있다. 복수의 확률 모델들은 모두 패치 P_i에 대응할 수 있다. 얼굴 트랙킹 장치는 패치를 위한 복수의 확률 모델들에 기초하여, 패치의 특징 디스크립터에 대응하는 가려짐 확률을 계산할 수 있다. i번째 패치 P_i에 대응하는 m번째 확률 모델을 이용하는 경우, 패치 P_i의 가려짐 확률은 O_m(P_i)라고 지칭될 수 있다. 이 경우, i번째 패치 P_i의 가려짐 확률은 O(P_i) = min(O_m(P_i))으로 계산될 수 있다.

패치의 가려짐 확률은 대응하는 확률 모델들에 기초하여 예측될 수 있다. 실제로 패치의 수는 일정하지 않으므로, 확률 모델들과 패치들 사이에 일대일 대응 관계가 형성되지 않을 수 있다.

만약 패치 i의 영역 내 N _i 개의 확률 모델들이 있다면, N _i 개의 가려짐 확률들

이 계산될 수 있다. 여기서, x _i 는 패치 i의 특징 디스크립터이다.

패치의 가려짐 확률은 모든 가려짐 확률들

의 결합 결과일 수 있다. 만약 패치 i가 가려지지 않았다면, N _i 개의 확률 모델들은 패치 i 주변의 얼굴 영역의 외형을 나타낸다. 하지만, N _i 개의 확률 모델들 중 일부는 이웃 패치들의 외형을 나타낼 수 있다. 따라서, 가려짐 확률들

의 신뢰도(reliability)는 달라질 수 있다.

확률 결합의 일 예로, 가려짐 확률이 낮은 스코어들은 가려짐 확률이 높은 스코어들보다 더 신뢰할 수 있다는 가설(hypothesis)이 이용될 수 있다. 가려짐 확률이 낮은 스코어는 관측된 외형이 모델에 잘 매치되는 것을 의미할 수 있다. 가려짐 확률이 높은 스코어는 다양한 원인들, 예를 들어 트레이닝 또는 적응(adaptation)이 불충분한 경우, 확률 모델이 패치 i보다 다른 패치에 더 가까운 경우, 조명 변화로 인하여 외형이 눈에 보이지 않게 되는 경우 등에 의하여 발생될 수 있다. 그러므로, 가장 낮은 가려짐 확률이 패치 i의 가려짐 확률로 고려될 수 있다.

확률 결합의 다른 예로, 확률 모델이 정의된 위치와 패치의 중심 사이의 거리가 이용될 수 있다. 예를 들어, 임의의 패치가 가려지지 않은 확률은 수학식 11과 같이 계산될 수 있다.

여기서, p _i 는 패치 i가 가려지지 않은 확률이고, w _j 는 가중치 계수이다. w _j 는 수학식 12와 같이 계산될 수 있다.

여기서, d _j 는 확률 모델 j가 정의된 위치와 패치의 중심 사이의 거리이다.

얼굴 트랙킹 장치는 단계(132)에서 섹션들의 가려짐 확률들을 계산할 수 있다. 얼굴 트랙킹 장치는 섹션들의 가려짐 확률들을 계산함으로써, 얼굴의 주요 구성요소들 각각이 가려진 확률들을 추정할 수 있다. 예를 들어, 도 9를 참조하면, 케이스 1에서는 입에 대응하는 섹션(910)의 가려짐 확률이 다른 섹션들의 가려짐 확률들에 비하여 높게 계산될 수 있다. 이 경우, 얼굴 트랙킹 장치는 입력 영상에서 입이 가려진 확률이 높다고 판단할 수 있다. 케이스 2에서는 오른쪽 눈에 대응하는 섹션(920)의 가려짐 확률이 다른 섹션들의 가려짐 확률들에 비하여 높게 계산될 수 있다. 이 경우, 얼굴 트랙킹 장치는 입력 영상에서 오른쪽 눈이 가려진 확률이 높다고 판단할 수 있다. 케이스 3에서는 왼쪽 볼 일부에 대응하는 섹션(930)의 가려짐 확률이 다른 섹션들의 가려짐 확률들에 비하여 높게 계산될 수 있다. 이 경우, 얼굴 트랙킹 장치는 입력 영상에서 왼쪽 볼 일부가 가려진 확률이 높다고 판단할 수 있다.

얼굴 트랙킹 장치는 각각의 섹션들에 대응하는 적응 가우스 모델(adaptive Gaussian model)을 이용하여 섹션의 가려짐 확률을 계산할 수 있다. 각각의 섹션들에 대응하는 적응 가우스 모델들은 얼굴의 주요 구성요소들(눈, 코, 입, 눈썹 등)을 반영할 수 있다. 얼굴 트랙킹 장치는 섹션에 포함된 유효 매칭 결과의 수를 특징 디스크립터로 이용할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 얼굴 영역 검출 과정에서 기 저장된 유효 매칭 결과를 이용하여, 섹션에 포함된 유효 매칭 결과의 수를 카운트할 수 있다. 얼굴 트랙킹 장치는 섹션의 확률 모델에 기초하여, 섹션의 특징 디스크립터에 대응하는 가려짐 확률을 계산할 수 있다. j번째 섹션 R_j의 가려짐 확률은 O(R_j)라고 지칭될 수 있다.

얼굴 트랙킹 장치는 단계(133)에서 가려짐 가중치 맵(occlusion weight map)을 생성할 수 있다. 가려짐 가중치 맵은 얼굴 영역에 포함된 각각의 픽셀들의 가려짐 확률을 포함할 수 있다. 얼굴 트랙킹 장치는 패치들의 가려짐 확률들 및 섹션들의 가려짐 확률들에 기초하여 가려짐 가중치 맵을 생성할 수 있다. 여기서, 패치들과 섹션들은 서로 정밀도가 다를 수 있다. 얼굴 트랙킹 장치는 정밀도가 서로 다른 패치의 가려짐 확률과 섹션의 가려짐 확률을 종합적으로 고려하여 픽셀의 가려짐 확률을 추정할 수 있다.

예를 들어, 얼굴 트랙킹 장치는 O(X_k) = max(O(P_i), O(R_j))를 이용하여, 가려짐 가중치 맵을 생성할 수 있다. 여기서, O(X_k)는 얼굴 영역 내 k번째 픽셀의 가려짐 가중치이고, O(P_i)는 k번째 픽셀이 속한 패치 P_i의 가려짐 확률이며, O(R_j)는 k번째 픽셀이 속한 섹션 R_j의 가려짐 확률이다. 패치들의 가려짐 확률들과 섹션들의 가려짐 확률들을 조합하여 가려짐 가중치 맵을 생성하는 방식은 다양하게 변형될 수 있다.

얼굴 트랙킹 장치는 단계(140)에서 가려짐 확률들에 기초하여 얼굴을 트랙킹할 수 있다. 예를 들어, 도 10을 참조하면, 얼굴 트랙킹 장치는 단계(141)에서 가려짐 가중치 맵을 이용하여 얼굴 모델의 파라미터들을 조정할 수 있다. 얼굴 모델은 2차원 형상 모델, 3차원 형상 모델, 및/또는 텍스쳐 모델을 포함할 수 있다. 얼굴 모델은 변형 가능한 형상 모델(deformable shape model)일 수 있다.

얼굴 트랙킹 장치는 변형 가능한 형상 모델의 미리 정해진 파라미터들을 조정함으로써, 변형 가능한 형상 모델을 입력된 얼굴(input face)에 맞게 적응시킬 수 있다. 입력된 얼굴은 현재 프레임에 포함된 얼굴을 지칭한다. 얼굴 트랙킹 장치는 가려짐 가중치 맵을 이용하여 정의된 비용 함수의 출력이 최소화 되도록, 변형 가능한 형상 모델의 파라미터들을 조정할 수 있다. 실시예들은 가려짐 가중치 맵을 이용함으로써, 가려진 영역에서 발생되는 에러를 감소시킬 수 있다. 또한, 실시예들은 변형 가능한 형상 모델의 변형 에너지를 이용함으로써, 가려진 영역 내 특정점들의 위치가 일반적인 위치로부터 크게 벗어나는 것을 방지할 수 있다.

비용 함수는 가려짐 가중치 맵을 이용하여 얼굴 모델과 입력된 얼굴 사이의 매칭 오차를 계산하는 함수이다. 이하, 비용 함수의 출력은 매칭 오차 정보라고 지칭될 수 있다. 얼굴 트랙킹 장치는 매칭 오차 정보가 최소화되도록 2차원 형상 파라미터, 2차원 유사 변환 파라미터, 3차원 형상 파라미터, 3차원 유사 변환 파라미터 및 텍스쳐 파라미터 중 적어도 하나를 변경할 수 있다.

일 실시예에 따른 비용 함수는 수학식 13으로 정의될 수 있다.

여기서, E (p, q, b)는 비용함수이고, O _a는 가려짐 확률이다. A (p, q)는 현재 프레임에서 획득된 텍스쳐 벡터이고, a(b)는 텍스쳐 모델에 대응하는 텍스쳐 벡터이다. 픽셀의 가려짐 확률이 클 수록 A (p, q) 및 a(b) 사이의 차이에 적용되는 가중치가 감소할 수 있다. 이에 따라, 픽셀의 가려짐 확률이 클 수록 가려짐으로 인해 받는 영향이 감소될 수 있다.

A (p, q)는 2차원 형상 파라미터 p 및 2차원 유사 변환 파라미터 q에 기초하여 계산될 수 있다. 얼굴 트랙킹 장치는 p 및 q에 의하여 표현되는 2차원 형상 모델에 포함된 특징점들을 기 설정된 크기의 영상 I 안에 포함되도록 할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 p를 0으로 설정하고 q를 적절한 값으로 설정함으로써, 2차원 형상 모델에 포함된 특징점들이 영상 I 안에 포함되도록 할 수 있다.

얼굴 트랙킹 장치는 2차원 형상 모델에 포함된 특징점들을 꼭지점으로 하는 삼각형들을 설정할 수 있다. 삼각형들은 공통 에지(common edge) 또는 공통 꼭지점(common vertex)을 통해 서로 인접하면서, 서로 겹치기 않게 설정될 수 있다. 각각의 삼각형들은 영상 I를 구성하는 픽셀 X_k (k는 인덱스)로 설정될 수 있다.

얼굴 트랙킹 장치는 영상 I의 픽셀 X_k에 대응하는 삼각형의 수심 좌표를 계산할 수 있다. 얼굴 트랙킹 장치는 픽셀 X_k에 대응하는 삼각형의 수심 좌표 및 꼭지점 좌표들에 기초하여, 픽셀 X_k에 대응하는 대응점(corresponding point)의 좌표를 계산할 수 있다. 대응점의 좌표는 현재 프레임의 픽셀을 지시할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 최근접(nearest neighbor) 방법 및/또는 직선 보간(linear interpolation) 방법을 이용하여 픽셀 X_k에 대응하는 대응점의 좌표를 계산할 수 있다.

얼굴 트랙킹 장치는 대응점의 좌표에 의하여 지시되는 현재 프레임의 픽셀로부터 색상을 획득할 수 있다. 얼굴 트랙킹 장치는 획득된 색상을 픽셀 X_k에 할당함으로써, 영상 I를 텍스쳐 영상 I'으로 변경할 수 있다. 이 때, 텍스쳐 영상 I'은 현재 프레임에 포함된 얼굴의 형상과 무관할 수 있다.

얼굴 트랙킹 장치는 텍스쳐 영상 I'의 픽셀들을 변경할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 텍스쳐 영상 I'에 그레이 스케일 표준화(Grayscale normalization)를 적용한 결과 및/또는 그라데이션 변형(Gradient Transform)을 적용한 결과를 하나의 벡터로 결합함으로써, 텍스쳐 벡터 A (p, q)를 획득할 수 있다.

얼굴 트랙킹 장치는 E (p, q, b)를 최소화하는 p, q 및 b를 계산할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 기울기 하강 알고리즘으로 p, q 및 b를 변경함으로써, E (p, q, b)를 최소화시킬 수 있다. 얼굴 트랙킹 장치는 계산된 p와 q를 수학식 1에 적용함으로써 현재 프레임에서 얼굴의 특징점들을 획득할 수 있다.

다른 실시예에 따른 비용 함수는 수학식 14와 같이 2차원 형상 모델과 3차원 형상 모델의 2차원 투영간의 바이어스(bias)에 기초하여 정의될 수 있다.

여기서, s(p, q)는 2차원 형상 모델이고, Proj(s'(p', q'))은 3차원 형상 모델의 2차원 투영이다. 얼굴 트랙킹 장치는 수학식 14에 의하여 정의되는 비용 함수의 출력을 최소화하는 p, q, p' 및 q'을 계산할 수 있다. 얼굴 트랙킹 장치는 계산된 p와 q를 수학식 1에 적용함으로써 현재 프레임에서 얼굴의 특징점들을 획득할 수 있다. 또는, 얼굴 트랙킹 장치는 계산된 p'과 q'을 수학식 2에 적용함으로써 현재 프레임에서 얼굴의 특징점들을 획득할 수 있다.

얼굴 트랙킹 장치는 각각의 영상들 또는 각각의 프레임들에 대응하는 트랙킹 결과를 출력할 수 있다. 트랙킹 결과는 다양한 방식으로 표현될 수 있다.

일 예로, 트랙킹 결과는 전술한 얼굴 모델을 이용하여 표현될 수 있다. 트랙킹 결과는 얼굴의 특징점들의 2차원 좌표들로 구성되는 2차원 형상 모델로 표현될 수 있다. 또는, 트랙킹 결과는 얼굴의 특징점들의 3차원 좌표들로 구성되는 3차원 형상 모델로 표현될 수 있다. 또는, 트랙킹 결과는 얼굴의 텍스쳐 정보를 포함하는 텍스쳐 모델로 표현될 수 있다.

다른 예로, 트랙킹 결과는 얼굴 모델의 파라미터들로 표현될 수 있다. 트랙킹 결과는 2차원 형상 모델의 파라미터들인 2차원 형상 파라미터 및 2차원 유사 변환 파라미터로 표현될 수 있다. 또는, 트랙킹 결과는 3차원 형상 모델의 파라미터들인 3차원 형상 파라미터 및 3차원 유사 변환 파라미터로 표현될 수 있다. 또는, 트랙킹 결과는 텍스쳐 모델의 파라미터인 텍스쳐 파라미터로 표현될 수 있다.

또 다른 예로, 트랙킹 결과는 얼굴의 포즈 정보 및 얼굴의 표정 정보로 표현될 수 있다. 포즈 정보는 얼굴의 포즈를 나타내는 정보로, 예를 들어 얼굴 정면 포즈, 얼굴 측면 포즈 등을 포함할 수 있다. 표정 정보는 얼굴의 표정을 나타내는 정보로, 예를 들어 웃는 표정, 우는 표정 등을 포함할 수 있다.

전술한 트랙킹 결과의 표현 방식은 예시적인 사항들에 불과하고, 트랙킹 결과의 표현 방식은 다양하게 변형될 수 있다. 예를 들어, 트랙킹 결과는 전술한 사항들의 다양한 조합으로 표현될 수 있다.

얼굴 트랙킹 장치는 트랙킹 결과를 평가하고, 키 프레임 또는 확률 모델을 업데이트할 수 있다. 예를 들어, 도 11을 참조하면, 얼굴 트랙킹 장치는 단계(150)에서 기 학습된 분류기(classifier)를 이용하여 트랙킹 결과를 평가할 수 있다. 얼굴 트랙킹 장치는 트랙킹 결과를 평가함으로써, 현재 프레임에서 도출된 트랙킹 결과가 신뢰할 수 있는 결과인지 여부를 판단할 수 있다. 트랙킹 결과가 성공적이라고 평가되는 경우, 현재 프레임에서 도출된 트랙킹 결과는 다음 프레임의 얼굴 트랙킹을 위하여 이용될 수 있다. 이 경우, 키 프레임 및/또는 확률 모델이 업데이트될 수 있다. 트랙킹 경과가 성공적이지 않다고 평가되는 경우, 현재 프레임에서 도출된 트랙킹 결과는 다음 프레임의 얼굴 트랙킹을 위하여 이용되지 않을 수 있다. 이 경우, 키 프레임 및/또는 확률 모델이 업데이트되지 않을 수 있다.

트랙킹 결과의 평가에 이용되는 분류기는 트레이닝 샘플들을 이용하여 기 학습된 것일 수 있다. 트레이닝 샘플들은 복수의 영상들 또는 스트리밍 비디오로 구성될 수 있으며, 각각의 영상 또는 각각의 프레임에 포함된 특징점들의 위치가 레이블되어(labeled) 있을 수 있다.

분류기는 트랙킹 결과의 성공/실패 여부를 분류하는 랜덤 트리 분류기(random tree classifier)일 수 있다. 예를 들어 분류기는 SVM(support vector machine) 및 랜덤 포레스트(random forest) 중 하나일 수 있다. 분류기는 성공적으로 트랙킹된 샘플들을 파지티브 샘플들(positive samples)로 분류하고, 성공적으로 트랙킹되지 못한 샘플들을 네거티브 샘플들(negative samples)로 분류할 수 있다. 분류기에 입력되는 정보는 트랙킹 결과에 포함된 각종 파라미터들 및 비용 함수의 출력들 중 적어도 하나를 포함할 수 있다.

분류기를 학습시키는 네거티브 샘플들의 수를 증가시키기 위하여, 트레이닝 샘플들에 방해요소(disturbance)가 추가될 수 있다. 예를 들어, 트레이닝 샘플들에서 노이즈가 추가되거나, 가려짐이 추가되거나, 밝기가 변경되거나, 콘트라스트(contrast)가 변경될 수 있다.

얼굴 트랙킹 장치는 트랙킹 결과가 성공적이라고 평가되는 경우, 단계(160)에서 키 프레임을 업데이트할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 트랙킹 결과로부터 특징점들의 3차원 좌표들, 포즈 파라미터, 및 표정 파라미터를 획득할 수 있다. 얼굴 트랙킹 장치는 포즈 파라미터 및 표정 파라미터로 인덱스되는 키 프레임을 데이터베이스에 추가할 수 있다. 키 프레임은 특징점들의 3차원 좌표들을 포함할 수 있다. 만약 포즈 파라미터 및 표정 파라미터로 인덱스되는 키 프레임이 이미 데이터베이스에 이미 저장되어 있는 경우, 분류기에 의하여 평가된 스코어를 기준으로 교체(replace) 여부를 판단할 수 있다. 예를 들어, 이미 저장된 키 프레임에 비하여 새로 생성된 키 프레임이 분류기에 의하여 더 높은 스코어를 받는 경우, 이미 저장된 키 프레임은 새로 생성된 키 프레임으로 교체될 수 있다.

얼굴 트랙킹 장치는 트랙킹 결과가 성공적이라고 평가되는 경우, 단계(170)에서 확률 모델을 업데이트할 수 있다. 얼굴 트랙킹 장치는 패치들의 가려짐 확률들을 계산하기 위한 확률 모델들 및/또는 섹션들의 가려짐 확률들을 계산하기 위한 확률 모델들을 업데이트할 수 있다. 예를 들어, 얼굴 트랙킹 장치는 노드 스플릿(node split)을 이용하여 패치의 가려짐 확률들을 계산하기 위한 확률 모델을 업데이트할 수 있다.

도 8을 통하여 전술한 바와 같이, 패치의 가려짐 확률들을 계산하기 위한 확률 모델은 트리 구조를 가질 수 있다. 얼굴 트랙킹 장치는 (i)리프 노드에 포함된 데이터의 수가 제1 임계값 이상이고, (ii)노드 스플릿을 통한 정보 이득(information gain)이 제2 임계값 이상이며, (iii)트리의 깊이(depth)가 제3 임계값 미만인 경우, 리프 노드를 스플릿함으로써 확률 모델을 업데이트할 수 있다.

도 12는 일 실시예에 따른 얼굴 트랙킹 프로세스의 전 과정을 나타낸 동작 흐름도이다. 도 12를 참조하면, 일 실시예에 따른 얼굴 트랙킹 장치는 단계(910)에서 초기화를 수행할 수 있다. 여기서, 확률 모델들이 초기화될 수 있다. 얼굴 트랙킹 장치는 단계(920)에서 입력 영상을 수신할 수 있다. 얼굴 트랙킹 장치는 단계(930)에서 얼굴을 검출할 수 있다. 여기서, 일반적인 얼굴 검출 알고리즘을 통하여 얼굴 영역이 검출될 수 있다. 얼굴 트랙킹 장치는 단계(940)에서 얼굴 모델의 파라미터들을 계산할 수 있다.

얼굴 트랙킹 장치는 단계(950)에서 얼굴 모델을 평가할 수 있다. 여기서, 기 학습된 분류기를 통하여 얼굴 모델이 평가될 수 있다. 얼굴 모델이 성공적이지 않다고 평가되는 경우, 얼굴 트랙킹 장치는 단계(910) 내지 단계(950)을 이용하여 다음 프레임의 얼굴을 트랙킹할 수 있다.

얼굴 모델이 성공적이라고 평가되는 경우, 얼굴 트랙킹 장치는 단계(960) 내지 단계(980)을 이용하여 다음 프레임의 얼굴을 트랙킹할 수 있다. 얼굴 트랙킹 장치는 단계(960)에서 입력 영상의 다음 프레임을 수신할 수 있다. 얼굴 트랙킹 장치는 단계(970)에서 얼굴 트랙킹 알고리즘을 수행할 수 있다. 얼굴 트랙킹 알고리즘은 도 13을 통하여 후술한다. 얼굴 트랙킹 장치는 얼굴 트랙킹 알고리즘을 수행함으로써 얼굴 모델 평가 결과를 수신할 수 있다. 얼굴 트랙킹 장치는 단계(980)에서 얼굴 모델 평가 결과가 성공적인지 아닌지 여부를 판단할 수 있다. 얼굴 모델이 성공적이지 않다고 평가되는 경우, 얼굴 트랙킹 장치는 단계(910) 내지 단계(950)을 이용하여 그 다음 프레임의 얼굴을 트랙킹할 수 있다. 얼굴 모델이 성공적이라고 평가되는 경우, 얼굴 트랙킹 장치는 단계(960) 내지 단계(980)을 이용하여 그 다음 프레임의 얼굴을 트랙킹할 수 있다.

도 13은 일 실시예에 따른 얼굴 트랙킹 알고리즘을 나타낸 동작 흐름도이다. 도 13에 도시된 각 단계들에는 도 1 내지 도 11을 통하여 전술한 사항들이 그대로 적용될 수 있다. 예를 들어, 단계(971)은 도 1의 단계(110)에 대응한다. 단계(972)는 도 1의 단계(120)에 대응한다. 단계(973)은 도 1의 단계(130)에 대응한다. 단계(974)는 도 1의 단계(140)에 대응한다. 단계(975)는 도 11의 단계(150)에 대응한다. 단계(976)은 도 11의 단계(160)에 대응한다.

얼굴 트랙킹 장치는 단계(977)에서 입력 영상에 가려짐이 존재하는지 여부를 판단할 수 있다. 얼굴 트랙킹 장치는 서브 영역들의 가려짐 확률들에 기초하여 입력 영상에 가려짐 유무 여부를 판단할 수 있다. 예를 들어, 모든 패치들의 가려짐 확률들 및 모든 섹션들의 가려짐 확률들이 미리 설정된 임계값보다 작은 경우, 얼굴 트랙킹 장치는 입력 영상에 가려짐이 존재하지 않는다고 판단할 수 있다.

입력 영상에 가려짐이 존재하지 않는다고 판단되는 경우 얼굴 트랙킹 장치는 단계(978)에서 확률 모델을 업데이트할 수 있다. 단계(978)은 도 11의 단계(170)에 대응한다. 입력 영상에 가려짐이 존재한다고 판단되는 경우 얼굴 트랙킹 장치는 확률 모델을 업데이트하지 않을 수 있다. 얼굴 트랙킹 장치는 단계(979)에서 얼굴 모델 평가 결과를 리턴(return)할 수 있다.

도 14는 일 실시예에 따른 얼굴 트랙킹 장치를 나타낸 블록도이다. 도 14를 참조하면, 일 실시예에 따른 얼굴 트랙킹 장치(1400)는 얼굴 영역 검출부(1410), 분할부(1420), 가려짐 확률 계산부(1430), 및 트랙킹부(1440)를 포함한다. 얼굴 영역 검출부(1410)는 입력 영상에서 얼굴 영역을 검출할 수 있다. 분할부(1420)는 얼굴 영역을 서브 영역들로 분할할 수 있다. 가려짐 확률 계산부(1430)는 서브 영역들의 가려짐 확률들을 계산할 수 있다. 트랙킹부(1440)는 가려짐 확률들에 기초하여 입력 영상에 포함된 얼굴을 트랙킹할 수 있다. 여기서, 입력 영상은 적어도 일부가 가려진 얼굴을 포함할 수 있다.

도 15를 참조하면, 얼굴 영역 검출부(1410)는 특징점 추출부(1411), 선택부(1412), 포즈 추정부(1413), 및 특징점 추정부(1414)를 포함한다. 특징점 추출부(1411)는 입력 영상의 현재 프레임에서 제1 특징점들을 추출할 수 있다. 선택부(1412)는 데이터베이스로부터 적어도 하나의 키 프레임을 선택할 수 있다. 포즈 추정부(1413)는 제1 특징점들과 적어도 하나의 키 프레임의 제2 특징점들에 기초하여 입력 영상에 포함된 얼굴의 포즈를 추정할 수 있다. 특징점 추정부(1414)는 추정된 포즈에 기초하여 입력 영상에 포함된 얼굴의 제3 특징점들을 추정할 수 있다.

도 16을 참조하면, 가려짐 확률 계산부(1430)는 확률 모델 결정부(1431), 제1 가려짐 확률 계산부(1432), 제2 가려짐 확률 계산부(1433), 및 가려짐 가중치 맵 생성부(1434)를 포함한다. 확률 모델 결정부(1431)는 패치들의 제1 확률 모델들 및 섹션들의 제2 확률 모델들을 결정할 수 있다. 제1 가려짐 확률 계산부(1432)는 제1 확률 모델들에 기초하여 패치들의 제1 가려짐 확률들을 계산할 수 있다. 제2 가려짐 확률 계산부(1433)는 제2 확률 모델들에 기초하여 섹션들의 제2 가려짐 확률들을 계산할 수 있다. 가려짐 가중치 맵 생성부(1434)는 제1 가려짐 확률들 및 제2 가려짐 확률들에 기초하여 가려짐 가중치 맵을 생성할 수 있다.

도 14 내지 도 16에 도시된 각 모듈들에는 도 1 내지 도 13을 통하여 기술된 사항들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

입력 영상에서 얼굴 영역을 검출하는 단계;
상기 얼굴 영역을 서브 영역들로 분할하는 단계;
상기 서브 영역들의 가려짐 확률들을 계산하는 단계; 및
상기 가려짐 확률들에 기초하여 상기 입력 영상에 포함된 얼굴을 트랙킹하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제1항에 있어서,
상기 입력 영상은
적어도 일부가 가려진 얼굴을 포함하는, 얼굴 트랙킹 방법.
제1항에 있어서,
상기 얼굴 영역을 검출하는 단계는
이전 트랙킹 결과에 기초하여 상기 얼굴 영역을 검출하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제1항에 있어서,
상기 얼굴 영역을 검출하는 단계는
상기 입력 영상의 현재 프레임에서 제1 특징점들을 추출하는 단계;
데이터베이스로부터 적어도 하나의 키 프레임을 선택하는 단계;
상기 제1 특징점들과 상기 적어도 하나의 키 프레임의 제2 특징점들에 기초하여, 상기 입력 영상에 포함된 상기 얼굴의 포즈를 추정하는 단계; 및
상기 추정된 포즈에 기초하여 상기 입력 영상에 포함된 상기 얼굴의 제3 특징점들을 추정하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제4항에 있어서,
상기 적어도 하나의 키 프레임은
포즈 파라미터 및 표정 파라미터에 의하여 인덱스되는, 얼굴 트랙킹 방법.
제4항에 있어서,
상기 적어도 하나의 키 프레임을 선택하는 단계는
상기 입력 영상의 이전 프레임의 포즈 파라미터 및 표정 파라미터를 이용하여 상기 적어도 하나의 키 프레임을 선택하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제4항에 있어서,
상기 적어도 하나의 키 프레임은
이전에 성공적으로 매칭된 특징점들의 3차원 좌표들 및 상기 이전에 성공적으로 매칭된 특징점들의 특징 벡터들을 포함하는, 얼굴 트랙킹 방법.
제4항에 있어서,
상기 얼굴의 포즈를 추정하는 단계는
상기 제1 특징점들의 특징 벡터들과 상기 제2 특징점들의 특징 벡터들 사이의 유사성에 기초하여 상기 제1 특징점들과 상기 제2 특징점들 사이의 매칭 관계 정보를 생성하는 단계; 및
매칭된 제1 특징점의 좌표와 매칭된 제2 특징점의 투영 좌표 사이의 거리에 기초하여 상기 얼굴의 포즈를 지시하는 포즈 파라미터를 추정하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제8항에 있어서,
상기 얼굴 영역을 검출하는 단계는
상기 매칭된 제1 특징점의 좌표와 상기 매칭된 제2 특징점의 투영 좌표 사이의 거리에 기초하여 유효 매칭 결과를 생성하는 단계
를 더 포함하는, 얼굴 트랙킹 방법.
제1항에 있어서,
상기 서브 영역들로 분할하는 단계는
상기 얼굴 영역에 포함된 픽셀들의 위치 및 색상에 기초하여 패치들을 생성하는 단계; 및
상기 얼굴 영역에서 추정된 특징점들에 기초하여 섹션들을 생성하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제10항에 있어서,
상기 섹션들을 생성하는 단계는
상기 추정된 특징점들 각각에 인접한 패치들을 병합함으로써 상기 섹션들을 생성하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제1항에 있어서,
상기 서브 영역들의 가려짐 확률들을 계산하는 단계는
패치들의 제1 확률 모델들에 기초하여 상기 패치들의 제1 가려짐 확률들을 계산하는 단계;
섹션들의 제2 확률 모델들에 기초하여 상기 섹션들의 제2 가려짐 확률들을 계산하는 단계; 및
상기 제1 가려짐 확률들 및 상기 제2 가려짐 확률들에 기초하여 가려짐 가중치 맵을 생성하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제12항에 있어서,
상기 제1 확률 모델들은
템플레이트 형상을 구성하는 복수의 부위들 중 상기 패치들에 대응하는 부위들에 지정된 확률 모델들인, 얼굴 트랙킹 방법.
제12항에 있어서,
상기 패치들의 특징 디스크립터는
상기 패치들에 포함된 픽셀들의 색상들과 관련된 특징을 포함하는, 얼굴 트랙킹 방법.
제12항에 있어서,
상기 제2 확률 모델들은
얼굴의 주요 구성요소들 중 상기 섹션들에 대응하는 구성요소들과 관련된 확률 모델들인, 얼굴 트랙킹 방법.
제12항에 있어서,
상기 섹션들의 특징 디스크립터는
상기 섹션들에 포함된 유효 매핑 결과의 수와 관련된 특징을 포함하는, 얼굴 트랙킹 방법.
제12항에 있어서,
상기 가려짐 가중치 맵은
상기 얼굴 영역에 포함된 픽셀들 각각의 가려짐 확률을 포함하는, 얼굴 트랙킹 방법.
제1항에 있어서,
상기 입력 영상에 포함된 상기 얼굴을 트랙킹하는 단계는
가려짐 가중치 맵을 이용하여 상기 입력 영상에 포함된 상기 얼굴을 표현하는 얼굴 모델의 파라미터를 조정하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제18항에 있어서,
상기 얼굴 모델은
2차원 형상 모델, 3차원 형상 모델, 및 텍스쳐 모델 중 적어도 하나를 포함하는, 얼굴 트랙킹 방법.
제18항에 있어서,
상기 얼굴 모델의 파라미터를 조정하는 단계는
상기 가려짐 가중치 맵을 이용하여 정의되는 비용 함수가 최소가 되도록, 상기 파라미터를 조정하는 단계
를 포함하는, 얼굴 트랙킹 방법.
제1항에 있어서,
기 학습된 분류기를 이용하여 트랙킹 결과를 평가하는 단계; 및
상기 트랙킹 결과가 성공적이라고 평가되는 경우, 키 프레임을 업데이트하는 단계
를 더 포함하는, 얼굴 트랙킹 방법.
제21항에 있어서,
상기 트랙킹 결과가 성공적이라고 평가되는 경우, 상기 입력 영상에 가려짐이 존재하는지 여부를 판단하는 단계; 및
상기 입력 영상에 가려짐이 존재하지 않는다고 판단되는 경우, 확률 모델을 업데이트하는 단계
를 더 포함하는, 얼굴 트랙킹 방법.
제1항 내지 제22항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
입력 영상에서 얼굴 영역을 검출하는 얼굴 영역 검출부;
상기 얼굴 영역을 서브 영역들로 분할하는 분할부;
상기 서브 영역들의 가려짐 확률들을 계산하는 가려짐 확률 계산부; 및
상기 가려짐 확률들에 기초하여 상기 입력 영상에 포함된 얼굴을 트랙킹하는 트랙킹부
를 포함하는, 얼굴 트랙킹 장치.
제24항에 있어서,
상기 입력 영상은
적어도 일부가 가려진 얼굴을 포함하는, 얼굴 트랙킹 장치.
제24항에 있어서,
상기 얼굴 영역 검출부는
상기 입력 영상의 현재 프레임에서 제1 특징점들을 추출하는 특징점 추출부;
데이터베이스로부터 적어도 하나의 키 프레임을 선택하는 선택부;
상기 제1 특징점들과 상기 적어도 하나의 키 프레임의 제2 특징점들에 기초하여 상기 입력 영상에 포함된 상기 얼굴의 포즈를 추정하는 포즈 추정부; 및
상기 추정된 포즈에 기초하여 상기 입력 영상에 포함된 상기 얼굴의 제3 특징점들을 추정하는 특징점 추정부
를 포함하는, 얼굴 트랙킹 장치.
제26항에 있어서,
상기 적어도 하나의 키 프레임은
특징점들과 관련된 정보를 저장하고, 포즈 파라미터 및 표정 파라미터에 의하여 인덱스되는, 얼굴 트랙킹 장치.
제24항에 있어서,
상기 분할부는
상기 얼굴 영역에 포함된 픽셀들의 위치 및 색상에 기초하여 패치들을 생성하는 패치 생성부; 및
상기 얼굴 영역에서 추정된 특징점들에 기초하여 섹션들을 생성하는 섹션 생성부
를 포함하는, 얼굴 트랙킹 장치.
제28항에 있어서,
상기 섹션 생성부는
상기 추정된 특징점들 각각에 인접한 패치들을 병합함으로써 상기 섹션들을 생성하는, 얼굴 트랙킹 장치.
제24항에 있어서,
상기 가려짐 확률 계산부는
패치들의 제1 확률 모델들 및 섹션들의 제2 확률 모델들을 결정하는 확률 모델 결정부;
상기 제1 확률 모델들에 기초하여 상기 패치들의 제1 가려짐 확률들을 계산하는 제1 가려짐 확률 계산부;
상기 제2 확률 모델들에 기초하여 상기 섹션들의 제2 가려짐 확률들을 계산하는 제2 가려짐 확률 계산부; 및
상기 제1 가려짐 확률들 및 상기 제2 가려짐 확률들에 기초하여 가려짐 가중치 맵을 생성하는 가려짐 가중치 맵 생성부
를 포함하는, 얼굴 트랙킹 장치.