KR20010042673A

KR20010042673A - 아바타 애니메이션을 위한 웨이브렛-기본 얼굴 움직임 캡쳐

Info

Publication number: KR20010042673A
Application number: KR1020007011375A
Authority: KR
Inventors: 토마스 모러; 에거 발레리비치 엘라긴; 루치아노 파스퀄 어고스티노 노세라; 쟈네스 버나드 스텝판스; 하트머트 네븐
Original assignee: 아이매틱 인터페이시즈, 인크.
Priority date: 1998-04-13
Filing date: 1999-04-12
Publication date: 2001-05-25
Also published as: CA2327304A1; KR100530812B1; US6580811B2; AU3639699A; JP2002511620A; BR9909611A; BR9909611B1; DE69910757D1; WO1999053443A1; JP4177402B2; US20010033675A1; JP3970520B2; EP1072018B1; ATE248409T1; DE69910757T2; JP2007109255A; EP1072018A1

Abstract

본 발명은 얼굴 감지에 기초된 아바타 이미지를 생성하고 애니메이션화하기 위해, 사람의 얼굴 움직임들, 특징들, 특성들 등을 감지하는 것을 위한 장치 및 그와 관련된 방법으로 실시된다. 아바타 장치는 이미지 특징들을 제트들로서 효과적으로 나타내는 모델 그래프들 및 집군 그래프들에 기초된 이미지 처리 기술을 사용한다. 제트들은 쉽게 식별될 수 있는 특징들에 해당하는 이미지상의 노드 또는 표식 위치들에서, 처리된 웨이브렛 변환들로 구성된다. 노드들은 사람의 얼굴 움직임에 따라 아바타 이미지를 애니메이션화하도록 획득되고 추적된다. 또한, 얼굴 감지는 사람의 얼굴 특징들 및 특성을 결정하기 위해 제트 유사도를 사용하여서, 사람의 자연적인 특성들을 방해하거나 금할 수 있는 어떠한 부자연스런 요소들 없이, 사람의 자연스런 특성들을 추적하는 것을 가능하게 한다.

Description

아바타 애니메이션을 위한 웨이브렛-기본 얼굴 움직임 캡쳐{WAVELET-BASED FACIAL MOTION CAPTURE FOR AVATAR ANIMATION}

아바타(avatar)들로 채워진 가상 공간들은 공유 환경을 체험하는 것을 가능하게 하는 매력적인 방법이다. 그러나, 존재하는 공유 환경들은 사용자의 인간화(incarnation) 즉, 아바타에 사용자의 유사성, 표현들 또는 얼굴 표정(gesture)을 제공하는 것을 가능하게 하기 위한 충분한 품질의 얼굴 특징 감지가 일반적으로 부족하다. 질적으로 우수한 얼굴 특징 감지는 중요한 이점이라고 할 수 있는데, 그 이유는 얼굴 표정들은 통신의 근본적인 수단이기 때문이다. 따라서, 사용자의 인간화는 가상 공간에서의 매력을 증가시킨다.

얼굴 특징 감지의 현존하는 방법들은 통상적으로 사람의 얼굴에 맞는 마커(marker)들을 사용한다. 얼굴 움직임 캡쳐용 마커들의 사용은 귀찮고, 일반적으로 영화 제작과 같은 고-비용의 응용으로의 얼굴 움직임 캡쳐 사용으로 제한되어왔다.

따라서, 편리하고 효율적인 얼굴 특징 감지를 구현하는 비젼 기본 움직임 캡쳐 시스템이 매우 필요하다. 본 발명은 이러한 필요성을 만족시켜줄 것이다.

〈발명의 요약〉

본 발명은 사람의 얼굴 움직임들, 특징들 또는 개성을 감지하기 위한 장치 및 이에 관련된 방법으로 실시화된다. 얼굴 감지 결과는 아바타 이미지를 애니메이셔닝하는 데 사용될 수 있다. 아바타 장치는 모델 그래프 및 집군 그래프들-쉽게 식별가능한 특징들에 대응하는 얼굴 이미지상의 표식(landmark)에서, 웨이브렛 변환들로 구성된 젯트들과 같이 이미지 특징들을 효과적으로 나타냄-에 기초된 이미지 처리 기술을 사용한다. 감지 시스템은 사람의 자연스런 특성들에 간섭하여 결과된 어떠한 부자연스런 요소가 없이 사람의 자연스런 특성들의 추적을 가능하게 한다.

특징 감지 처리는 웨이프렛 변환을 사용하여 각 이미지 프레임을 변환하는 일련의 이미지 프레임상에서 동작하여, 변환된 이미지 프레임을 발생한다. 변환된 이미지 프레임으로의 모델 그래프의 웨이브렛 제트와 결합된 노드(node) 위치들은 변환된 이미지 프레임에 대해 모델 그래프를 이동시키고, 노드 위치의 웨이브렛 제트들과 변환된 이미지 프레임 사이의 최대 제트 유사성을 갖는 변환된 이미지 프레임의 위치에, 모델 그래프를 위치시킴으로서 초기화된다. 모델 그래프의 하나 이상의 노드 위치들의 위치는 이미지 프레임들 사이에서 추적된다. 추적된 노드는 노드 위치가 이미지 프레임들 사이의 소정의 위치 제한(constraint)에 멀어지면, 다시 초기화된다.

본 발명의 일 실시예에서, 얼굴 특징 발견은 머리 모델을 개별화하기 위한 집군 그래프 정합(matching)에 기초될 수 있다. 또한, 얼굴 이미지 분석용 모델 그래프는 사람 얼굴에 나타나는 특징들을 구별하는 것에 관련된 복수의 위치 노드들(예를 들어, 18)을 포함할 수 있다.

본 발명의 다른 특징들 및 장점들은 본 발명의 원리를 단지 예시의 수단으로 설명하는 첨부 도면에 대한 바람직한 실시예의 다음의 설명으로부터 명백할 것이다.

본 발명은 다이내믹한 얼굴 특징 감지에 관한 것으로, 특히 아바타를 애니메이셔닝하는 그래픽 수단에 입력하기 위한 얼굴 특징의 실-시간 발견, 추적 및 분류를 가능하게 하는 비젼-기초 움직임 캡쳐 시스템에 관한 것이다.

도 1은 본 발명에 따른 구현 애니메이션 시스템 및 처리의 블럭도.

도 2는 도 1의 아바타 애니메이션 시스템 및 처리를 위한 본 발명에 따른 얼굴 특징 감지 장치 및 처리의 블럭도.

도 3은 도 2의 얼굴 특징 감지 장치를 구현하기 위한 비디오 이미지 프로세서의 블럭도.

도 4는 도 2의 얼굴 특징 감지 장치 및 시스템의 표식(landmark) 발견 기술을 도시하기 위해 사진이 함께 첨부된 순서도.

도 5는 본 발명에 따른 가버 웨이브렛들(Gabor wavelets)을 사용하여 얼굴 이미지 처리를 나타내는 이미지 연속도.

도 6은 본 발명에 따라 도 5의 웨이브렛 처리 기술을 사용하여, 제트(jet), 이미지 그래프, 및 집군 그래프(bunch graph)의 구조들을 나타낸 그래프의 연속도.

도 7은 얼굴 이미지를 처리하기 위한 본 발명에 따른 모델 그래프의 도.

도 8은 얼굴 특징을 위치시키기 위한 웨이브렛 처리의 사용을 나타내는 2개의 도면을 표시한 도.

도 9는 도 4의 표식 발견 기술에 의해 발견된 표식을 추적하기 위한 추적 기술을 도시한 순서도.

도 10은 1차원상에서의 표식 추적을 도시하기 위한 가우스 이미지 피라밋 기술의 도.

도 11은 50개의 일련의 이미지 프래임에 대하여 얼굴 특징들의 추적을 나타내기 위해, 프레임 각도 대 자세(pose) 각도와의 그래프가 함께 첨부된 2개의 얼굴 이미지들의 연속도.

도 12는 도 2의 얼굴 특징 감지 장치 및 시스템의 자세 추정 기술을 도시하기 위해 사진을 함께 첨부하는 순서도.

도 13은 대강에서 세밀한쪽으로의(course-to-fine) 표식 발견 기술을 도시하기 위해 추출된 눈과 입 영역들을 갖는 얼굴의 개략적인 도.

도 14는 도 6의 신축(elastic) 집군 그래프를 사용하여 측면과 정면의 얼굴 얼굴을 추출한 것을 나타내는 사진.

도 15는 본 발명에 따른 아바타 애니메이션을 위한 사람의 다양한 표현을 포함하는 이미지 패치(image patch)들의 대응하는 갤러리(gallery)와 함께, 태그된(tagged) 의인화 집군 그래프의 생성을 나타내는 순서도.

도 16A, 16B는 원격 사이트에 전송되고, 전송된 태그-상기 태그는 사람의 현재 얼굴 얼굴에 관련된 얼굴 감지에 기초됨-에 기초되어 원격 사이트에서 선택된 이미지 패치들을 사용하여, 아바타를 애니메이셔닝하기 위한 기술을 나타내는 순서도.

도 17은 다이내믹 텍스처(dynamic texture) 생성으로 합성된 부피 모핑(volume morphing)을 사용하여, 얼굴 특징의 위치 및 태그에 기초되어 생성된 3차원 머리 이미지를 나타내는 순서도.

도 18은 아바타를 애니메이셔닝하기 위해 오디오 분석을 포함한 본 발명에 따른 아바타 애니메이션의 블럭도.

본 발명은 얼굴 감지에 기초된 아바타 이미지를 발생시키고 애니메이션화하기 위해 사람의 얼굴 움직임, 특징들, 특징 등을 감지하는 장치 및 관련 기술에서 실시된다. 아바타 장치는 제트와 같은 이미지 특성들을 효과적으로 나타내는 모델 그래프 및 집군 그래프에 기초된 이미지 처리 기술을 사용한다. 제트들은 쉽게 인식가능한 특성들에 해당하는 이미지상의 노드 또는 표식 위치들에서 처리된 웨이브렛 변환들로 구성된다. 사람의 얼굴 움직임에 따라 아바타 이미지를 애니케이션화하기 위해 노드들이 포착되고 추적된다. 또한, 얼굴 감지는 사람의 얼굴 특징 및 특성들을 판정하는 제트 유사도(jet similarity)를 사용하여서, 사람의 자연스런 특성들을 방해할 수 있는 어떠한 부자연스런 요소들 없이, 사람의 자연스런 특성들을 추적하는 것을 가능하게 할 수 있다.

도 1에 도시한 바와 같이, 본 발명의 아바타 애니메이션 시스템(10)은 이미지 시스템(12), 얼굴 감지 처리(14), 데이터 통신 네트워크(16), 얼굴 애니메이션 처리(18), 및 아바타 디스플레이(20)를 포함한다. 이미지 시스템은 사람의 살아있는 비디오 이미지 신호를 포착하고 디지털화하여서, 이미지 프레임들로 조직화된 디지털화된 비디오 데이터의 스트림을 생성한다. 디지털화된 비디오 이미지 데이터는 사람 얼굴과 각 프레임의 해당 얼굴 특징들에 위치하는 얼굴 감지 처리에 제공된다. 얼굴 감지 처리는 또한, 프레임-대-프레임으로부터 얼굴 특징들의 위치 및 특성을 추적한다. 정보를 수신하고, 그래픽 수단들을 사용하여 아바타 디스플레이상의 애니메이션화된 얼굴 이미지를 생성하는 하나 이상의 원격 사이트들에, 네트워크를 통하여 추적 정보가 전송될 수 있다. 애니메이션화된 얼굴 이미지는 사람의 사실적 모델이나 만화 캐릭터, 또는 사용자와 전혀 관계없는 얼굴에 기초될 수 있다.

이미지 시스템(12) 및 얼굴 감지 처리(14)는 도 2 및 3에 보다 더 자세하게 도시된다. 이미지 시스템은 비디오 이미지 프레임들의 스트림을 생성하는 디지털 비디오 카메라(22)를 사용하여 사람의 이미지를 캡쳐한다. 비디오 이미지 프레임들은 그 처리를 위해 비디오 랜덤-액세스 메모리(VRAM)(24)에 전달된다. 만족스런 이미지 시스템은 종래의 CCD 카메라에 의해 생성된 디지털화된 이미지를 발생시키고, 30Hz의 프레임 속도로 메모리에 실시간의 이미지를 전달하는 Matrox Meteor Ⅱ available from Matrox^TM이다. 이미지 프레임은 VRM과 랜덤-액세스 메모리 RAM(30)과 접속된 중앙 처리 유닛(CPU)을 갖는 이미지 프로세서(26)에 의해 처리된다. RAM은 얼굴 감지 및 아바타 애니메이션 처리를 실시하기 위해 프로그램 코드 및 데이터를 저장한다.

얼굴 특징 처리는 디지털화된 이미지상에서 동작하여서, 사람의 얼굴 특징을 찾고(블럭 32), 특징들을 추적하고(블럭 34), 필요에 따라 특징 추적을 다시 초기화한다. 얼굴 특징은 또한 분류될 수 있다(블럭 36). 얼굴 특징 처리는 얼굴 감지에 의한 얼굴 특징의 위치 및 분류에 관련된 데이터를 생성하고, 얼굴 감지는 얼굴 애니메이션 처리와 인터페이스한다(블럭 38).

얼굴 특징들은 도 4에 도시한 신축(elastic) 그래프 정합을 사용하여 위치될 수 있다. 신축 그래프 정합 기술에서, 캡쳐된 이미지(블럭 40)는 도 5에 대하여 아래에서 보다 더 자세히 설명될 웨이브렛 변환을 사용하여 가버 공간(Gabor Space)로 변환된다(블럭 42). 변환된 이미지(블럭 44)는 40개의 복소수 값들-원 이미지의 각 픽셀당 웨이브렛 성분(component)들을 나타냄-로 나타난다. 다음으로, 도 7에 대해 아래에서 보다 더 자세히 설명될 모델 그래프의 세밀한 복사는 가변 모델 노드 위치들의 변환된 이미지에 대하여 위치되어서, 최적의 유사도의 위치로 위치한다. 모델 그래프를 이미지의 상부 왼쪽 코너에 위치시키고, 노드들에서의 제트들을 추출하고, 이미지 그래프와 모델 그래프 사이의 유사도를 판정함으로써, 최적의 유사도에 대한 탐색이 형성된다. 모델 그래프를 왼쪽에서 오른쪽으로 이동시킴으로써, 탐색은 이미지의 상부-왼쪽 코너로부터 시작하여 계속된다(블럭 48). 얼굴의 대략적 위치가 발견되면(블럭 50), 노드들은 개별적으로 이동하는 것이 가능해져서 신축 그래프 왜곡(distortion)들을 함유한다(블럭 52). 위상에 둔감한(phase-insensitive) 유사도 함수가 그 후, 제트를 세밀하게 위치시키기 위해 사용되는 데, 그 이유는 위상은 작은 제트의 위치 변화에도 매우 민감하기 때문이다. 위상에 둔감하고 위상에 민감한(phase-sensitive) 유사도 함수들이 도 5 내지 도 8에 대하여 아래에서 설명된다. 원 이미지(original image)에 대하여 그래들이 도 4에 도시되었으나, 모델 그래프의 움직임들 및 정합은 변환된 이미지상에서 실질적으로 행해짐을 유의해야 한다.

웨이브렛 변환은 도 5를 참조하여 설명된다. 원 이미지는 중첩(convolution) 결과를 발생시키는 가버 웨이브렛을 사용하여 처리된다. 가버-기본 웨이브렛은 가우시안 엔벨롭(Gaussian envelope)에 의해 변조된 2차원의 복소수 웨이브 필드(complex wave field)를 구성한다.

웨이블렛은 가우시안 윈도(Gaussian window)에 의해 제한되고, 파장에 비율로 그 크기는 α로 제한되는 웨이브 벡터을 갖는 평면 웨이브이다. 중괄호({})안의 항은 DC 성분을 소거한다. 웨이브벡터 k의 크기는 v가 희망된 공간 해상도(spacial resolution)에 관계되는 다음과 같은 방식으로 선택될 수 있다.

이미지 위치에 중심을 둔 웨이브렛은 그레이(gray) 레벨의 분산을 갖는 이미지로부터 웨이브렛 성분인를 추출하는 데 사용된다.

웨이브 벡터의 공간은 통상 5개의 해상도 레벨들(반-옥타브(half-octave)만큼 다름)로, 각 해상도 레벨에 8개의 오리엔테이션(orientation)이 있는 이산 계층(discrete hierarchy)으로 샘플링되어서(예를 들어, 도 8을 볼 것), 각 샘플링된 이미지 점에 대해 40개의 복소수 값들(평면 웨이브의 코사인과 사인 위상들을 기준으로 한 실수와 허수 성분들)이 발생한다. k개의 공간내의 샘플들은 인덱스(index)인 j=1,..., 40으로 정해지고, 단일 이미지 점에 중심을 둔 모든 웨이브렛 성분들은 도 6에 도시한 바와 같이 제트(60)라 불리는 벡터로 논의된다. 각 제트는주변 영역의 로컬(local) 특성들을 설명한다. 만일 충분한 밀도를 가지고 샘플링된다면, 이미지는 샘플링된 주파수들에 의해 범위지어진 대역 통과(bandpass)내의 제트들로부터 재구성될 수 있다. 따라서, 제트의 각 성분은 이미지 점 (x, y)에서 추출된 가버 웨이브렛의 필터 반응(response)이다.

도 6에 도시한 바와 같이 라벨이 붙여져서(labeled) 분류된 이미지 그래프(62)는 대상(이러한 정황에서는 얼굴임)의 모양(aspect)을 설명하는 데 사용된다. 라벨로 분류된 그래프의 노드들(64)은 대상의 점들을 지시하며, 제트들(60)에 의해 라벨로 분류된다. 그래프의 모서리(66)들은 노드들 사이의 거리 벡터(distance vector)로 라벨화되어 분류된다. 노드들과 모서리들이 그래프 토폴로지(graph topology)를 정의한다. 등가의 토폴로지를 갖는 그래프들이 비교될 수 있다. 2개의 제트들의 절대 성분의 정규화된 내적(normalized dot product)은 제트 유사도를 정의한다. 이 값은 대조 변화들과 무관한다. 2개의 그래프들 간의 유사도를 계산하기 위해, 그 합은 그래프들 사이의 대응하는 제트들의 유사도에 대해서 취해진다.

이미지내의 인간 얼굴을 발견하기 위해 특별히 지정된 모델 그래프(68)가 도 7에 도시된다. 그래프의 숫자화된 노드들은 다음의 위치들을 갖는다.

0 우안구 동공

1 좌안구 동공

2 코의 최상부

3 우측 눈썹의 우측 모서리

4 우측 눈썹의 좌측 모서리

5 좌측 눈썹의 우측 모서리

6 좌측 눈썹의 좌측 모서리

7 우측 콧구멍

8 코 끝

9 좌측 콧구멍

10 입의 우측 모서리

11 윗 입술의 중심

12 입의 좌측 모서리

13 아랫 입술의 중심

14 우측 귀의 최저부

15 우측 귀의 최상부

16 좌측 귀의 최상부

17 좌측 귀의 최저부

얼굴을 표현하기 위해, 집군 그래프(70)(도 6)라 불리는 데이터 구조가 사용된다. 그것은 상술된 그래프와 유사하지만 각 노드에 단일한 제트만을 부여하는 대신, 제트들(72)(번치(bunch) 제트)의 전체 번치가 각 노드에 부여된다. 각 제트는 상이한 얼굴 이미지로부터 유도된다. 집군 그래프를 형성하기 위해, 얼굴 이미지의 수집(collection)(번치 이미지 갤러리)에는 머리의 정의된 점의 노드 위치들이 표시된다. 이들 정의된 위치들을 표식(landmark)이라 부른다. 하나의 번치 이미지를 하나의 이미지에 정합할 때, 이미지로부터 추출된 제트는 집군 그래프에 부여된 대응하는 번치의 모든 제트들과 비교되어서, 가장-잘 정합되는 것이 선택된다. 이러한 정합 처리를 신축 집군 그래프 정합이라 부른다. 제대로(judiciously) 선택된 갤러리를 사용하여 구성될 때, 집군 그래프는 얼굴들-상이한 로컬 특성들, 예를 들어 남자와 여자의 얼굴, 및 다른 연령층 혹은 인종들의 샘플들을 가질 수 있음-의 큰 변화들을 수용할 수 있다.

다시 이미지 프레임에서 얼굴을 찾기 위해, 그래프가 가장 잘 정합(번치 제트들내에서 가장 잘 맞는 제트들이 노드들의 현재 점의 이미지로부터 추출된 제트들과 가장 유사함)하는 위치에 위치될 때가지, 그래프는 이동되고 스케일되며 왜곡된다(distored). 얼굴 특징들은 얼굴마다 다르기 때문에, 그 태스크(task)를 위해 그래프는 보다 일반적으로 만들어지는 예를 들어, 각 노드에는 10 내지 100개의 개인 얼굴들로부터 취해진 대응하는 표식의 제트들이 할당되어야 한다.

2개의 상이한(different) 또는 상보적(complementary)인 태스크에 대하여 2개의 다른 제트 유사도 함수들이 도입된다. 만일 제트의 성분들이 크기와 위상으로 씌여진다면, 2개의 제트들와의 유사도에 대한 하나의 형태는 크기 벡터의 정규화된 스칼라 곱(scalar product)를 갖는다.

다른 유사도 함사는 다음과 같은 형태를 갖는다.

이 함수는 2개의 제트들이 가리키는 이미지 점들 간의 상대적(relative) 변위 벡터(displacement vector)를 포함한다. 그래프 정합 동안 2개의 제트들을 비교할 때, 2개의 제트들 간의 유사도는 d에 대하여 최대가 되어서, 제트 위치의 정확한 결정을 할 수 있게 한다. 첫번째로 그래프와 정합할 때, 유사도 함수 둘 다, 위상에 둔감한 버젼(version)(상대적 위치에 대해 스무드하게(smoothly) 변함)로 종종 주어진 프리퍼런스(preference)로, 제트에 정확하게 위치할 때 위치에 민감한 버젼으로 주어진 프리퍼런스로 사용된다.

얼굴 특징들이 위치된 후, 얼굴 특징들은 도 9에 도시된 바와 같은 연속적인 프레임을에 대하여 추적될 수 있다. 본 발명의 추적 기술은 특징 또는 노드의 추적이 놓쳐졌는 지를 탐지하고 그 노드에 대한 추적 처리를 다시 초기화하는 추적 정정 스킴(scheme)을 사용함으로써, 긴 프레임 열들에 대한 확고한 추적을 달성한다.

상술된 바와 같은 표식 발견 방법(블럭 80)을 사용한 이미지 I_n상의 표식 발견이나, 또는 추적 처리를 사용한 이미지 I_(n-1)에서 I_n까지의 노드의 추적에 의해 이미지 열의 이미지 I_n내의 단일 노드의 위치 X_n을 알 수 있다. 그 후, 노드는 여러 기술들 중의 하나를 이용하여, 이미지 I_(n+1)의 대응하는 위치 X_(n+1)로 추적된다(블럭 82). 하기에 설명될 추적 방법들은 빠른 움직임에 유리하게 적응한다.

제1 추적 기술은 선형 움직임 예상(linear motion prediction)을 포함한다. 새 이미지 I_(n+1)내의 대응하는 노드 위치 X_(n+1)에 대한 탐색은 움직임 추정기(motion estimator)에 의해 발생된 위치에서 시작된다. 차이 벡터(disparity vector)(X_n - X_(n-1))가 계산되며, 이것은 예상하는 2개의 프레임들 간의 노드의 속도가 일정하다는 것을 가정할 때, 변위를 나타낸다. 차이 또는 변위 벡터 D_n은 위치 X_n에 더해재서, 노드 위치 X_(n+1)을 예상할 수 있다. 이러한 선형 움직임 모델은 일정 속도 움직임에 적용될 때 특히 유리하다. 이러한 선형 움직임 모델은 또한, 프레임 속도가 추적될 대상의 가속도에 비해 높을 때, 우수한 추적을 제공한다. 그러나, 프레임 속도가 이미지 열(sequence) 내의 대상의 가속도에 비해 너무 낮으면, 선형 움직임 모델은 성능이 좋지 않다. 이러한 조건하에서, 임의의 움직임 모델이 대상들을 추적하는 것은 어렵기 때문에, 보다 고속의 프레임 속도를 갖는 카메라의 사용이 요망된다.

선형 움직임 모델은 추정된 움직임 벡터 D_n를 아주 크게 생성하여서, 이것은 움직임 추정에서의 에러가 누적하게 할 수 있다. 따라서, 선형 예상은 댐핑 요인(damping factor) f_D를 사용하여 댐핑될 수 있다. 그 결과의 추정된 움직임 벡터는 D_n = f_D * (X_n - X_(n-1))이다. 적당한 댐핑 요인은 0.9이다. 어떠한 이전 프레임 I_(n-1)도 존재하지 않았다면, 예를 들어 표식 바로 다음의 프레임에 대하여 추정된 움직임 벡터는 제로(zero)와 같게 설정된다(D_n=0).

1차원에 적용된 가우시안 이미지 피라밋에 기초된 추적 기술이 도 10에 도시된다. 원 이미지 해상도를 사용하는 것 대신, 이미지는 2-4 배(times)로 다운 샘플링되어서(down sampled), 이미지의 가우시안 피라밋을 생성한다. 4 레벨의 이미지 피라밋은 가장 세밀한(finest) 원래 해상도 레벨-가장 대강의(coarsest) 레벨상에서 3개의 픽셀로서만 표현될 것임-상에서 24개의 픽셀들의 거리로 결과한다. 제트들은 피라밋의 임의의 레벨에서 계산되고 비교될 수 있다.

가우시안 이미지 피라밋상의 노드의 추적은 일반적으로 가장 대강의 레벨에서 맨 처음 행해진다. 제트는 상술된 바와 같이 댐핑된 선형 움직임 추정 X_(n+1) = (X_n + D_n)을 사용하여, 위치 X_(n+1)의 사실적 이미지 프레임 I_(n+1)의 가장 대강의 가우스 레벨상에서 추출되고, 이전 이미지 프레임의 가장 대강의 가우스 레벨상에서 계산된 대응하는 제트와 비교된다. 이들 2개의 제트들로부터, 차이가 판정되어, 즉 2D 벡터 R은 X_(n+1)에서 이전 프레임으로부터의 제트에 가장 잘 대응하는 위치로, 포인팅한다. 이러한 새로운 위치를 X_(n+1)로 할당한다. 차이 계산은 하기에서 보다 더 자세하게 설명된다. 가장 대강의 가우스 레벨상의 위치 X_(n+1)에 대응하며, 사실적 이미지(2*X_(n+1))의 다음의 보다 세밀한 가우스 레벨상의 위치는 이러한 다음의 보다 세밀한 레벨사의 차이 계산에 대한 기저점이다. 이 점에서 추출된 제트는 이전 이미지 프레임의 동일 가우스 레벨상에서 계산된 대응하는 제트와 비교된다. 가장 세밀한 해상도 레벨에 도달할 때까지, 또는 가우스 레벨이 이전 프레임의 위치에 해당하는 노드 위치를 결정하기 위해 특정화된 것에 도달할 때까지 모든 가우스 레벨들에 대해 이러한 처리가 반복된다.

가우시안 이미지 피라밋의 2개의 대표적 레벨들이 도 10에 도시되며, 보다 대강의 레벨(94)은 위쪽에 보다 세밀한 레벨(96)은 아래쪽에 나타나 있다. 각 제트는 2개의 주파수 레벨들에 대해 주파수 반응을 갖는 것으로 가정된다. 보다 대강의 가우스 레벨, X_(n+1)=X_n+D_n상의 위치 1에서 시작하여, 최하위(lowest) 주파수 제트 계수만을 사용한 제1 차이 이동은 위치 2에 이른다. 주파수 레벨들 둘 다의 모든 제트 계수들을 사용함으로써, 제2 차이 이동은 위치 3에 이른다. 축들-상기 축들은 겹쳐질(doubled) 것임-을 가지며, 보다 세밀한 가우스 레벨상의 위치 1은 보다 대강의 레벨상의 위치 3에 대응한다. 차이 이동 열이 반복되고, 가장 세밀한 가우스 레벨상의 위치 3은 추적된 표식의 최종 위치이다. 사실적 이미지 프레임내의 추적된 노드의 새로운 위치가 결정된 후, 모든 가우스 레벨들상의 제트들은 이 위치에서 계산된다. 추적된 노드를 나타내는 이전 프레임에 대해 계산된 제트들의 저장된 어레이는 그 후, 현재 프레임에 대해 계산된 제트들의 새로운 어레로 대체된다.

가우스 이미지 피라밋을 사용하면 2가지의 주요 장점들을 갖는다. 첫번째, 노드들의 이동은 원 이미지상에서보다 대강의 레벨상의 픽셀들에서 훨씬 더 작고, 이것은 큰 이미자 영역에서 소모적으로 탐색하는 대신 로컬 이동만을 행함으로써 추적을 가능하게 한다. 둘째, 제트 성분들의 계산은 저 주파수에서 보다 더 빠른데, 그 이유는 원 해상도 이미지상의 큰 커널 윈도(kernel window)상에서보다 다음 샘플링된 이미지상의 작은 커널 윈도를 갖고 계산이 행해지기 때문이다.

상관도 레벨(correspondence level)은 역동적으로 선택될 수 있는 데, 예를 들어 얼굴 특징들의 경우, 상관도 레벨은 얼굴의 사실적 크기에 관련하여 선택될 수 있음을 유념해야할 것이다. 또한, 가우스 이미지 피라밋의 크기는 추적 처리 동안 바뀔 수 있는 데, 즉 그 크기는 움직임이 더 빨라질수록 증가하고, 움직임이 느려질수록 감소한다. 통상, 가장 대강의 가우스 레벨상의 최대 노드 움직임은 4 픽셀로 제한된다. 또한, 움직임 측정은 종종 가장 대강의 레벨상에서만 행해짐을 유념해야한다.

이제 동일한 가우스 레벨상의 2개의 주어진 제트들 간의 변위 벡터(차이 벡터)의 계산이 설명된다. 2개의 연속적 프레임들 사이의 변위를 계산하기 위해, D.J. Fleet와 A. D. Jepson에 의해 기초되며 원래 스테레오 이미지들의 차이 추정을 위해 계산되었던 방법이 사용된다. 1990년 International Journal of Computer Vision, Volume 5, issue 1, page 77-104의 W. M. Theimer와 H.A. Mallot에 의한 Computation of conponent image velocity from local phase information이 있으며, 1994sus 11월, CVGIP의 Image Understanding, Volume 60, issue 3, page 343-358의 Phase-based binocular vergence control and depth reconstruction using active vision이 있다.

복소수 필터 반응의 위상들에서 두드러진(strong) 변화는 서브픽셀의 정확도로 변위를 분명하게 계산하는 데 사용된다(wiskott, L., 'Labeled Graphs and Dynamic Link Matching for Face Recognition and Scene Analysis", Verlag Harri Deutsch, Thun-Frankfurt am Main, Reihe Physik 53(PhD thesis, 1995)). 크기 a_j와 위상 j의 기호에서 j번째 가버 필터로의 반응 J를 씀으로써, 유사도 함수는 다음과 같이 정의될 수 있다.

J와 J'를 위치 X와 X'=X+d의 2개의 제트라 하고, 필터 발생 J_j와 관련된 웨이브 벡터들이 되는 d와 k_j에 대한 유사도 S를 최대화함으로써, 변위 d가 발견될 수 있다. d의 추정은 작은 변위들에 대해서만 세밀한, 즉 가버 제트들의 크게 중첩된 것, 큰 변위 벡터들은 제1 추정으로서만 다루어지기 때문에, 그 처리는 다음의 방식으로 반복된다. 첫번째, 최하위 주파수 레벨의 필터 반응만이 제1 추정 d_1에서 결과되어 사용된다. 다음으로, 이 추정이 실행되고, 제트 J는 위치 X_1=X+d_1에서 재계산되고, 이 위치는 제트 H'의 위치 X'에 더 가깝다. 그 후, 최하위의 2개의 주파수 레벨들은 변위 d_2의 추정을 위해 사용되고, 제트 J는 위치 X_2=X_1+d_2에서 재계산된다. 이것은 사용된 최고 주파수 레벨에 도달할 때까지 계속되며, 2개의 시작 제트들 J와 J' 간의 최종 차이 d는 합 d= d_1+d_2+,...으로서 주어진다. 따라서, 최하위 주파수를 갖는 커널 파장의 절반가지의 변위가 계산될 수 있다(wiskott 1995, supra 참조).

변위들이 부동점 숫자들을 사용하여 결정되었으나, 제트들은 (정수; integer) 픽셀 위치들에서만 추출되어서(즉, 중첩(convolution)에 의해 계산됨), 규칙적인(systematic) 라운딩 에러(rounding error)를 결과한다. 이러한 서브픽셀(subpixel) 에러 Δd에 대해 보상하기 위해, 복소수 가버 필터 반응들의 위상들은 다음 식에 따라서 시프팅되어야만 하여서,

제트들이 올바른 서브픽셀 우치에서 추출되는 바와 같이, 제트들이 등장할 것이다. 따라서, 가버 제트들은 라운딩 에러들을 더 계산하지 않은 채, 서브픽셀의 정확도로 추적될 수 있다. 가버 제트들은 이미지 처리에 있어서 상당한 이점을 제공하는 데, 그 이유는 서브픽셀 정확도라는 문제는 대부분의 다른 이미지 처리 방법에서 다루어지는 것 중에서 보다 어렵기 문제이기 때문이다.

에러 추적은 신뢰도(confidence) 또는 유사도 값이 소정의 임계치보다 더 작은지(도 9의 블럭 84)를 판정함으로써 검출될 수 있다. 유사도(또는 신뢰도) 값 S는, 2개의 이미지 프레임의 2개의 이미지 영역들이 서로-서로 연속적 이미지 프레임들 간의 노드의 변위 계산을 동시에 함- 얼마나 잘 대응하는지를 나타내기 위해 계산될 수 있다. 통상, 신뢰도 값은 1에 가까우며, 이것은 우수한 상관도를 가리킨다. 신뢰도 값이 1에 가깝지 않으면, 이미지내의 대응 점이 발견되지 않거나(예를 들어, 프레임 속도가 이동 대상의 속도에 비해 너무 낮기 때문임), 또는 이러한 이미지 영역이 하나의 이미지 프레임에서 다음으로 너무 크게 변하여서, 상관도가 더이상 정의되지 않게 된다(예를 들어, 동공(pupil of the eye)을 추적하는 노드에 대해, 눈꺼풀이 닫혀있는 것). 특정 임계치 아래의 신뢰도 값을 갖는 노드들은 스위치 오프될 수 있다.

에러 추적은 또한, 특정의 지오메트리 제한이 깨질 때 검출될 수 있다(블럭 86). 만일 많은 노드들이 동시에 추적된다면, 노드들의 지오메트리 구조는 일관되어 있는지 체크될 수 있다. 이러한 지오메트리 제한들이 적당히 느슨(loose)해질 수 있는 데, 예를 들어 얼굴 특징들이 추적될 때, 코는 눈과 입 사이에 위치해야만 한다. 또 다른 한편, 이러한 지오메트리 제한들은 예를 들어, 추적된 얼굴의 정확한 형태 정보를 포함하는 모델에서 보다 더 정확할 수 있다. 중간 정도의 ㅈ어확성에 대하여, 제한들은 플랫한 평면 모델상에서 기초된다. 플랫한 평면 모델에서, 얼굴 그래프의 노드들은 플랫 평면상에 존재하는 것으로 가정된다. 정면에 시작하는 이미지 열들에 대하여, 추적된 노드 위치들은 사실적 프레임의 밀접하게 결합된(affine) 변환에 의해 변환된 정면 그래프의 해당 노드 위치들과 비교될 수 있다. 최적의 밀접하게 결합된 변환의 6개의 파라미터들은 노드 위치에서 가장 작은 스퀘어(square) 에러를 최소화함으로써 발견된다. 추적된 노드 위치들과 변환된 노드 위치들 간의 편차는 임계치와 비교된다. 임계치보다 큰 편차를 갖는 노드들은 스위치 오프된다. 밀접하게 결합된 변환의 파라미터들은 자세와 상대적 스케일(시작 그래프와 비교한)을 동시에 결정하는 데 사용된다(블럭 88). 따라서, 이러한 대략의 플랫한 평면 모델은 추적 에러가 소정의 임계치 이상으로 크지 않음을 보장한다.

추적된 노드가 추적 에러 때문에 스위치 오프되면, 상이한 자세들과 정정된 위치(블럭 92)로부터 계속된 추적을 포함하는 집군 그래프를 유익하게 사용하여, 그 노드는 정확한 위치에서 재활성화될 수 있다(블럭 90). 추적된 노드가 스위치 오프된 후, 시스템은 소정의 자세가 구체적인 집군 그래프가 존재하는 자세에 도달할 때까지 시스템은 기다릴 수 있다. 그렇지 않고, 정면 집군 그래프만이 저장되면 시스템은 정면 포즈가 임의의 추적 에러들을 정정하기 위해 정면 포즈에 도달할 대까지 시스템은 기다려야만 한다. 제트들의 저장된 번치는 맞는(fit) 위치(예를 들어, 플랫한 평면 모델로부터의) 주위의 이미지 영역과 비교될 수 있으며, 이것은 이전 이미지 프레임의 제트와 비교하는 것 대신, 그 비교는 예시에서의 번치의 모든 제트들에 대해 반복된다는 것을 제외하고는, 추적과 동일한 방식으로 동작하여, 가장 유사한 것이 채택된다. 얼굴 특징들은 예를 들어, 실재 자세, 스케일, 그리고 심지어는 대략의 위치에 대해서도 알려지기 때문에, 이미지 및/또는 포즈 공간에서의 그래프 정합 또는 과도한 탐색은 필요하지 않아서, 노드 추적 정정이 실시간에 행해질 수 있다.

도 11에 도시한 바와 같이, 추적 정정에 대해서, 많은 상이한 자세들과 스케일들에 대하여 집군 그래프들이 필요하지 않는 데, 그 이유는 스케일 뿐 아니라 이미지 평면의 회전은 로컬 이미지 영역 또는 집군 그래프의 제트들을 변환함으로서, 계산될 수 있기 때문이다. 정면 자세에 추가하여, 집군 그래프들은 회전들에 대해서만 철저히 생성될 것이 필요하다.

추적된 사람의 동일성은 이미지 열 동안 동일하게 유지된다는 사실에서의 이점을 이용함으로써, 재초기화 처리 속도를 증가시킬 수 있다. 따라서, 초기 학습 세션(learning session)에서, 사람의 제1 열(sequence)은 정면 얼굴 표현의 충분한 레파토리를 나타내는 사람으로서 취해진다. 이러한 제1 열은 크게 일반화된 집군 그래프-많은 다른 사람들에 대한 지식들을 포함함-에 기초하여 상술된 추적 및 정정 스킴을 사용하여 고도의 정확성으로 추적될 수 있다. 이 처리는 오프라인으로 행해지며, 새롭게 인간화된 집군 그래프를 생성할 수 있다. 인간화된 집군 그래프는 그 후, 실시간에 빠른 속도로 이러한 사람을 추적하기 위해 사용될 수 있는 데, 그 이유는 인간화된 집군 그래프는 보다 크고 일반화된 집군 그래프보다 훨씬 작기 때문이다.

재초기화 처리 속도는 또한, 부분적인 집군 그래프 재초기화를 사용함으로서 증가될 수 있다. 부분적인 집군 그래프는 전체 집군 그래프의 노드의 서브셋트만을 포함한다. 서브셋트는 하나의 단일 노드만큼 작을 수 있다.

자세 추정 집군 그래프는 이미지 평면에서 정의된 2차원의 집군 그래프 군(family)을 이용한다. 하나의 군 내의 상이한 그래프들은 상이한 자세들 및/또는 머리의 스케일들이 원인이 된다. 표식 발견 처리는 이미지내의 자세 또는 머리의 크기를 결정하기 위해, 군에서 입력 이미지까지 각 집군 그래프를 정합하는 것을 시도한다. 이러한 자세-추정 과정의 예가 도 12에 도시된다. 자세 추정의 제1 단계는 규칙적인 표식 발견 단계와 등가이다. 그래프 유사도 함수를 사용하기 위해 이미지(블럭 98)가 변환된다(블럭 100 및 102). 그 후, 단일한 하나 대신, 3개의 집군 그래프의 군이 사용된다. 첫번째 집군 그래프는 정면 자세의 얼굴들(상술된 정면도와 등가임)만 포함하고, 다른 2개의 집군 그래프들은 1/4 회전된 얼굴들(하나는 왼쪽으로 회전한 것을, 다른 하나는 오른쪽으로 회전한 것을 나타냄)을 포함한다. 전에서와 같이, 각 그래프들에 대한 초기 위치들은 상부 왼쪽 코너에 있으며, 그래프들의 위치는 이미지와 위치상에서 스캔되어, 그래프는 표식 발견이 선택된 후(블럭들 104-114) 최고의 유사도를 나타낸다.

각 그래프에 대한 초기 정합후, 최정 위치들의 유사도가 비교된다(블럭 116). 이미지상에 주어진 자세에 가장 잘 해당하는 그래프는 최고의 유사도를 가질 것이다. 도 12에서, 좌회전된 그래프는 그 유사도에 의해 지시된 바와 같이 이미지와 가장 잘 맞는다(블럭 118). 사진의 해상도와 얼굴의 회전 정도에 따라서, 정확한 그래프와 다른 자세들에 대한 그래프들의 유사도가 변할 것이고, 얼굴이 그래프가 정의된 2개의 포즈들 사이의 대략 중간 정도쯤에 있을 때, 그 유사도가 가장 가까워진다. 보다 많은 자세들에 대한 집군 그래프들을 생성함으로써, 보다 세밀한 자세 추정 과정이 실현될 수 있고, 그래서 머리 회전 각도의 정도들을 보다 자세히 분간하고 다른 방향들(예를 들어, 위와 아래)로의 회전들을 다룰 것이다.

카메라로부터의 임의적 위치에서 얼굴을 확실히 발견하기 위해, 각각 다른 스케일들을 갖는 2개 또는 3개의 다른 집군 그래프들이 사용될 수 있는 유사한 접근이 이용될 수 있다. 이미지에서의 얼굴은 얼굴 이미지의 많은 부분을 나타내는 집군 그래프와 동일한 스케일을 갖는 것으로 가정될 것이다.

상술된 기술에 관련된 3차원(3D) 표식 발견 기술들 또한, 상이한 자세들에 적응된 다중 집군 그래프들을 사용할 수 있다. 그러나, 3D 접근은 3D 공간에서 정의된 단 하나의 집군 그래프만을 도입한다. 3D 그래프의 지오메트리는 평균적인 얼굴 또는 머리 지오메트리를 반영한다. 서로 다른 회전 각도들내의 여러 사람들의 얼굴 이미지들로부터 제트들을 추출함으로서, 3D 집군 그래프는 2D 접근과 유사한 접근을 생성한다. 각 제트는 이제 3개의 회전 각도로 한정된다. 2D 접근에서, 노드들은 모리 표면의 기준 점들에 위치된다. 3D 그래프의 투영법(projection)이 그 후, 정합 처리에서 사용된다. 3D 접근의 하나의 중요한 일반화로 모든 노드는 다른 자세들에 적응된 번치 제트들의 부여되고 제한된 군을 갖는다. 제2 일반화로 그래프는 이미지 평면에서의 변환뿐 아니라, 유클리드(euclidean) 변환들을 갖는다.

그래프 정합 처리는 대강에서-세밀한 쪽으로(coarse-to-fine) 접근하는 것으로 조직화될 수 있어서, 첫번째로 소수의 노드들과 커널들을로 그래프들을 이용하고, 그 후 다음 단계에서 보다 집중적인(dense) 그래프들을 이용한다. 특히 얼굴의 특정 부위의 특징 점의 매우 세밀한 국지화가 요망될 때 대강에서-세밀한쪽으로의 접근이 적당하다. 따라서, 표식 발견이 보다 대강의 해상도상에 먼저 행해지는 계층적 접근 방식을 채택함으로써, 계산하는 데 있어서의 노력을 줄일 수 있고, 그 다음에 적용된 그래프들은 보다 높은 해상도로 체킹되어서, 특정 부위를 보다 세밀하게 세부를 분석할 수 있다.

또한, 계산적인 평균 작업량(workload)은 멀티-프로세서상에서 쉽게 분할되어서, 일단 대강의 영역들이 발견될 수 있으며, 몇 개의 차일드(child) 처리들이 전체 이미지 중의 그 자신의 부분상에서 각각 평행하게 작업을 시작한다. 차일드 처리들의 후반부에서, 처리들은 특징 좌표들과 통신하여서, 차일드 처리들은 마스터(master) 처리-상기 마스터 처리는 차일드 처리들을 원 이미지로 맞도록 적절히 스케일 조정하고 조합하여서, 총 계산 시간을 상당한 정도로 줄임-에 위치된다.

도 13에 도시한 바와 같이, 노드들에 대응하는 얼굴 특징들은 예를 들어, 깜박거리거나(blinking) 또는 입을 열고 있는(mouth opening) 것과 같은 부절적한 추적 에러 지시들을 설명하도록 분류될 수 있다. 얼굴 특징들, 예를 들어 눈을 뜨고/감는 것, 입을 벌리고/닫는 것 등에 대응하는 집군 그래프의 서로 다른 제트들에 라벨들(labels)이 부여된다. 라벨들은 현재의 이미지와 비교하여 가장 유사한 집군 그래프의 대응하는 제트와 함께 복사될 수 있다. 라벨 추적은 추적 에러가 검출됐는지 여부와 관계없이, 지속적으로 모니터링될 수 있다. 따라서, 분류 노드들이 다음에 대하여 추적된 노드들에 부여될 수 있다.

-눈을 뜨고/감는 것

-입을 벌리고/닫는 것

-혀가 보이는 것 또는 그렇지 않는 것

-헤어(hair) 타입의 분류

-주름살 검출(예를 들어, 이마에서의 주름살)

따라서, 추적은 2개의 정보 소스들의 이용을 가능하게 한다. 하나의 정보 소스는 특징 위치들, 즉 노드 위치들에 기초되고, 다른 정보 소스는 특징 분류(class)에 기초된다. 특징 분류 정보는 보다 조직적으로 기초되며, 로컬 이미지 영역을 저장된 예들의 셋트에 비교함으로써, 낮은 해상도와 추적 세밀도를 이용하여 노드 위치들 상에서만 기초된 특징 분류 정보와 기능할 수 있다.

본 발명의 얼굴 감지는 도 14에 도시된 바와 같이 정지되고 역동적인 아바타들의 생성과 에니메이션화에 적용될 수 있다. 아바타는 일반적인 얼굴 모델 또는 사람의 구체적인 얼굴 모델에 기초될 수 있다. 추적 및 얼굴 표현 인식은 사람의 얼굴을 갖는 아바타의 인간화를 위해 사용될 수 있다.

일반적인 얼굴 모델은 전형적인 여러 사람들에 적요될 수 있으며, 사실적 애니메이션과 얼굴 특징 및/또는 표현들의 넓은 범위에서의 표현을 행하기 위해 적용될 수 있다. 일반적 모델은 다음 기술에 의해 얻어질 수 있다.

1. 모노-카메라 시스템, 모노-카메라 시스템이 사용되어서(T. Akimoto 등, 1993), 로우-엔드 텔레-이머젼(low-end tele-immersion) 시스템에 사용하기 위한 사실적 아바타를 제공할 수 있다. 시상 봉합적이고(sagital) 관상 봉합적(coronal)인 평면으로부터 볼 수 있는 바와 같이, 얼굴 측면 정보는 아바타를 얻도록 병합될 수 있다.

2. 스테레오-카메라 시스템, 카메라들이 충분히 교정될 때(calibrate)(교정(calibration) 처리를 통해 카메라 파라미터들이 계산됨), 스테레오 카메라 시스템은 정확한 3-D 측정을 행할 수 있다. 그 후, 얻어진 3-D 데이터에 일반적 얼굴 모델을 맞춤으로써, 개인 얼굴 모델을 얻을 수 있다. 스테레오 알고리즘은 비-텍스쳐된(non-textured) 영역상에서는 정확한 정보를 제공하지 않기 때문에, 활성화되어-텍스쳐된(active-textured) 광(light)의 투영(projection)이 사용될 수 있다.

3. 특징-기본 스테레오 기술, 마커들의 세밀한 3-D 위치들을 계산하기 위해 사람 얼굴에 특징-기본 스테레오 기술들에서의 마커(marker)가 사용된다. 3-D 정보는 그 후 일반적인 모델에 맞추기 위해 사용된다.

4. 3-차원 디지털화 장치(digitalizer), 3-차원 디지털화 장치내의 감지기 또는 위치를 정하는 장치는 측정되어질 각 표면 점상으로 이동된다.

5. 활성화로 구성된 광, 활성화로 구성된 광에서, 패턴들이 투영되고, 그 결과의 비디오 스트림이 3D 측정들을 추출하기 위해 처리된다.

6. 레이저-기본 표면 스캐닝 장치들, 레이저-기본 표면 스캐닝 장치들(Cyberware. Inc에 의해 개발된 장치들과 같은)은 정확한 얼굴 측정을 한다.

7. 앞의 기술들의 조합. 이들 서로 다른 기술들은 사용자에게 동일한 편리함을 주지는 않는다. 어떤 것은 한 번의 처리로 사람의 모습(측정 기간 동안 희망된 모습으로 있는 얼굴)을 측정할 수 있으나, 어떤 것은 샘플의 수집을 필요로 하여서 사용하는 데 좀 더 불편하다.

특정한 사람에 대한 일반적인 3-차원 머리 모델은 정면과 옆면도를 나타내는 2개의 얼굴 이미지를 사용하여 생성될 수 있다. 얼굴 감지에 의해 3-D 얼굴 모델을 효과적이면서 확실하게 생성할 수 있다.

얼굴 윤곽 추출은 사람의 눈들, 코, 입, 및 빰의 국부화와 함께 행해진다. 이러한 특징 위치 정보는 도 14에 도시한 바와 같이, 얼굴 특징들을 자동적으로 추출하기 위해 계층적 정합과 조합하여, 신축 집군 그래프 기술을 사용함으로써, 얻을 수 있다. 그 후, 특징 위치 정보는 사람 얼굴의 3D 모델을 제공하기 위해 조합된다(T. Akimot와 Y. Suenaga, Automatic Creation of 3ㅇ Facial Models, In IEEE Computer Graphics ＆ Applications, pages 16-22, September 1993을 볼 것). 일반적인 3차원 머리 모델이 적용되어서, 그 비율은 이미지의 측정과 관련된다. 마지막으로, 아바타에 대한 보다 더 조직적인 모델을 얻기 위해, 옆면과 정면 이미지 둘 다 결합되는 데, 즉 정면도는 모델의 정면을 텍스쳐 맵핑(texture map)하기 위해 이용되고, 옆면도는 모델의 옆면을 텍스쳐 맵핑하기 위해 이용된다. 얼굴 감지는 이러한 기술을 향상시키는 데, 그 이유는 추출된 특징들이 라벨로 분류화되어서(공지된 점들은 측면에서 규정될 수 있음), 동시에 2개의 이미지들을 택할 필요가 없다.

아바타 이미지는 다음의 일반적인 기술들(F. I. Parke and K. Waters, Computer Facial Animation, A K Peters, Ltd. Wellesley, Massachusetts, 1996을 볼 것)에 의해 애니메이션화될 수 있다.

1. 키 프레이밍(key framing) 및 지오메트리 인터폴레이션(geometric interpolation), 키 프레이밍 및 지오메트리 인터폴레이션에서, 키 자세들과 표현들의 갯수가 정의된다. 그 후, 애니메이션을 제공하기 위해 키 프레임들 간에 지오메트리 인터폴레이션이 사용된다. 이러한 시스템을 종종 퍼포먼스-기본(performance-based)(또는 퍼포먼스-유도) 모델로 언급한다.

2. 모델을 유도하기 위해 사용된 파라미터 셋트들에, 표현들 및 자세를 직접 맵핑하는 직접적 파라미터화(parameterization).

3. 의사-근육(pseudo-muscle) 모델, 의사-근육 모델은 지오메트리 변형들을 사용하여 근육 운동을 시뮬레이션한다.

4. 근육-기본 모델들, 근육-기본 모델들에서 근육들과 피부는 물리적 모델들을 사용하여 모델링된다.

5. 2D 애니메이션을 제공하기 위해 비디오 스트림내의 이미지들 사이에서 2D 몰핑(morphing)을 사용하는 2-D와 3-D 몰핑. 이러한 기술은 3D로 확장될 수 있다(F. F. Pighin, J. Hecker, D. Lischinski, R. Szeliski, and D.H. Salesin, Synthesizing Realistic Facial Expressions from Photographs, In SIGGRAPH 98 Conference Proceedings, pages 75-84, July 1998을 볼 것).

6. 제어 점들 및 유한 소자 모델들과 같은 다른 방법들.

이들 기술시, 얼굴 감지는 얼굴 특징의 자동 특징 및 캐릭터화를 제공함으로써 애니메이션 처리를 증강시킨다. 키 프레이밍 및 인터폴레이션 모델들의 경우 표현들을 인터폴레이팅하거나, 직접 파라미터화된 모델들이나 또는 의사-근육 혹은 근육들 모델들에 대하여 파라미터들을 선택하기 위해 추적된 특징들이 사용된다. 2-D 및 3-D 몰핑의 경우, 지오메트리 변환을 행하도록 적절한 정보를 제공하여서, 얼굴상의 특징들을 자동으로 선택하기 위해 얼굴 감지가 사용된다.

얼굴 특징 추적 및 분류를 사용하는 아바타 애니메이션의 예가 도 15에 따라 도시된다. 연습 단계(training phase) 동안, 소정의 얼굴 표현의 시리즈로 개인에게 질문되고(prompt)(블럭 120), 감지는 상기 특징들을 추적하는 데 사용된다(블럭 122). 소정 위치에서, 제트와 이미지 패치(patch)들은 다양한 표현들을 위해 추출된다(블럭 124). 얼굴 특징들 주변의 이미지 패치들은 이들 특징들로부터 추출된 제트들(126)과 함께 추출된다. 얼굴 특징들(128)을 분류하고 태그(tag)하기 위해 이들 제트들이 그 다음으로 사용된다. 인간화된 군집 그래프를 생성하기 위해 이들 제트들을 사용하고, 상술된 분류 방법을 적용함으로써, 이 일이 행해진다.

도 16A, 16B에 도시한 바와 같이, 아바타의 애니메이션을 위해 시스템은 이미지 패치들에서 나타난 부분들을 뺀 얼굴 전체(130)("얼굴 프레임")뿐 아니라 모든 이미지 패치들(128)을 원격 사이트로 전송한다(블럭 132 ＆ 134). 애니메이션 기구에 대한 소프트웨어 또한 전송될 필요가 있다. 그 후, 감지 시스템은 사용자의 얼굴을 관측하고, 어떤 이미지 패치들이 현재 얼굴 표현에 가장 유사한지를 판정하기 위해 얼굴 감지가 적용된다(블럭 136 ＆ 138). 이미지 태그들은 원격 사이트로 전송되어서(블럭 140), 정확한 이미지 패치들을 사용하여 애니메이션 기구가 얼굴(142)을 모아주는 것을 가능하게 한다.

이미지 패치들을 이미지 프레임이 스무드하게(smoothly) 맞추기 위해, 가우시안 블러링(Gaussian blurring)이 도입될 수 있다. 사실적인 표현을 위해, 로컬 이미지 몰핑이 필요될 수 있는 데, 그 이유는 감지에 의해 부여될 때 이미지 연속이 제공될 수 있다는 의미에서, 애니메이션은 연속적이지 않을 수 있다. 몰핑은 이미지 공간상의 대응점의 선형 인터폴레이션을 사용하여 실현될 수 있다. 중간적 이미지들을 창조하기 위해, 다음의 수학식들을 사용하여 선형 인터폴레이션이 적용된다.

여기서, P₁및 P₂는 이미지들 I₁및 I₂의 대응점들이고, I_i은 1≤i≤2의 조건에서의 i번째의 인터폴레이팅된 이미지이다. 효율적인 처리를 위해, 이미지 인터폴레이션은 P_i및 I_i에 대하여 미리-계산된 해쉬 테이블(hash table)을 사용하여 구현될 수 있다. 사용된 점들의 번호와 정확도를 통해, 일반적으로 인터폴레이팅된 얼굴 모델은 결과하는 이미지 품질을 결정한다.

따라서, 원격 디스플레이에서 재구성된 얼굴은 검출된 표현들에 대응하는 이미지 조각들을 습득(learning) 단계에서 조립함으로써 구성될 수 있다. 따라서, 아바타는 애니메이션을 지배하는(commanding) 사람에 대응하는 특징들을 나타낸다. 그래서, 초기화시 각 특징후의 얼굴의 결과한 이미지로서 각각의 추적된 얼굴 특징과 "얼굴 컨테이너(container)"에 대응하는 생산된 이미지 세트가 제거된다. 애니메이션이 시작되고 얼굴 감지는 이전에 설명된 바와 같이 전송된 특정 태그들을 발생시키기 위해 사용된다. 전송된 태그들, 예를 들어 태그 '웃는-입"(146)(도 16A, 16B)으로 라벨 분류된 입의 이미지과 관련된 이미지 조각들을 선택함으로써 디코딩이 일어난다.

상술된 다이내믹 텍스쳐 생성이 도 17에 도시한 바와 같은 부피 몰핑의 보다 편리한 기술로 구성될 때, 아바타 애니메이션은 보다 앞선 레벨에 도달할 수 있다. 부피 몰핑(volume morphing)을 달성하기 위해, 노드 위치들의 장소가 사용되어서 매시(mesh)(150)상의 제어 점들을 유도할 수 있다. 다음으로, 태그들을 사용하여 다이내믹하게 생성된 텍스쳐들(152)은 그 후, 매쉬로 맵핑되어서 사실적인 머리 이미지(154)를 나타낸다. 메시(mesh) 상의 제어 점들의 유도기들(driver)로서 감지된 노드의 사용에 대한 다른 대안으로, 로컬 몰프 타겟(local morph target)을 선택하기 위해 태그드을 사용하는 것을 들 수 있다. 몰프 타겟은 샘플 제트들이 수집된 서로 다른 얼굴 표현들과 몸짓들에 대해 결정된 로컬 메시 구성이다. 이들 로컬 메시 지오메트리들은 스테레오 비젼(vision) 기술들에 의해 결정될 수 있다. 몰프 타겟의 사용은 다음의 참조에서 보다 더 발전된다(J. R. Kent, W. E. Carlson, and R. E. Parent, Shape Transformation for Polyhedral Objects, In SIGGRAPH 92 Conference Proceedings, Volume 26, pages 47-54, August 1992; Pighin et al. 1998, supra를 볼 것).

비젼-기본 아바타 애니메이션으로의 유용한 확장은 소리(speech) 분석을 갖는 얼굴 감지과 결합하여, 도 18에 도시된 바와 같은 정확한 입술 움직임을 종합하는 것이다. 립 싱킹(lip synching) 기술은 소리로부터 결과되는 입술 움직임을 아바타에 맵핑하는 데, 특히 유용하다. 이것은 또한 비젼-기본 입술 추적 실패의 경우 백-업으로서도 도움이 된다.

앞서 말한 내용은 본 발명의 바람직한 실시예를 개시하였으나, 기술에서의 숙련자들은 본 발명의 범위에 멀어지지 않은 채 바람직한 실시예에 다양한 변화를 줄 수 있도록 이해될 수 있다. 본 발명은 다음의 청구항으로만 정의된다.

Claims

일련의 이미지 프레임들상에서의 특징 감지를 위한 방법에 있어서,

변환 이미지 프레임을 생성하기 위해, 웨이브렛(wavelet) 변환을 이용하여 각 이미지 프레임을 변환하기 위한 단계와,

상기 변환된 이미지 프레임에 대하여 모델 그래프를 이동시키고, 노드 위치들과 상기 변환된 이미지 프레임 간의 최대 제트 유사도가 되는 상기 변환된 이미지 프레임의 위치에, 상기 모델 그래프를 위치시킴으로써, 상기 모델 그래프의 웨이브렛 제트(jet)들과 연관된 노드 위치들을 상기 변환된 이미지 프레임으로 초기화하기 위한 단계와,

이미지 프레임들 간의 상기 모델 그래프의 하나 이상의 노드 위치들의 위치를 추적하기 위한 단계와,

상기 노드 위치가 상기 이미지 프레임들 간의 소정의 위치 제한(constraint)에서 벗어날 때, 추적된 노드를 재초기화하기 위한 단계를 포함하는 특징 감지를 위한 방법.
제1항에 있어서, 상기 초기화 단계에 사용된 상기 모델 그래프는 소정의 자세(pose)에 기초되는 특징 감지를 위한 방법.
제1항에 있어서, 상기 추적 단계는 신축 집군 그래프 정합(bunch graph matching)을 사용하여 상기 노드 위치들을 추적하는 특징 감지를 위한 방법.
제1항에 있어서, 상기 추적 단계는 다음 이미지 프레임의 노드 위치들을 예상하기 위해 선형 위치 예상(linear position prediction)을 사용하고, 재초기화 단계는 소정의 임계치 편차보다 큰 상기 예상된 노드 위치로부터의 편차에 기초된 노드 위치를 재초기화하는 특징 감지를 위한 방법.
제1항에 있어서, 상기 소정의 위치 제한은 상기 노드 위치들 간의 상대적 위치들과 연관된 지오메트리(geometric) 위치 제한에 기초된 특징 감지를 위한 방법.
제1항에 있어서, 상기 노드 위치들은 아바타(avatar) 이미지를 애니메이션화하기 위해 원격 사이트(remote site)로 전송되는 특징 감지를 위한 방법.
제1항에 있어서, 상기 추적 단계는 얼굴 특성을 결정하는 단계를 포함하는 특징 감지를 위한 방법.
제7항에 있어서, 상기 추적 단계에 의해 결정된 상기 얼굴 특성들에 기초를 둔 얼굴 특성들을 갖는 아바타 이미지를 애니메이션화하기 위해, 상기 노드들과 상기 얼굴 특성들을 원격 사이트로 전송하는 단계를 더 포함하는 특징 감지를 위한 방법.
제7항에 있어서, 상기 추적 단계에 의해 결정된 얼굴 특성들은 입(mouth)이 벌려지거나(open) 또는 닫혀지는(closed) 것인 특징 감지를 위한 방법.
제7항에 있어서, 상기 추적 단계에 의해 결정된 상기 얼굴 특성은 눈(eye)이 떠지거나 또는 감겨지는 것인 특징 감지를 위한 방법.
제7항에 있어서, 상기 추적 단계에 의해 결정된 상기 얼굴 특성은 상기 입속의 혀(tongue)가 보이거나 또는 그렇지 않은 것인 특징 감지를 위한 방법.
제7항에 있어서, 상기 추적 단계에 의해 결정된 상기 얼굴 특성은 상기 이미지에서 검출된 얼굴 주름살에 기초를 둔 특징 감지를 위한 방법.
제7항에 있어서, 상기 추적 단계에 의해 결정된 상기 얼굴 특성은 헤어 타입(hair type)에 기초를 둔 특징 감지를 위한 방법.
제7항에 있어서, 각 얼굴 특성은 상기 얼굴 특성과 연관된 상기 이미지 프레임의 이미지 세그먼트(segment)를 식별하는 이미지 태그와의 트레이닝(training)에 의해 연관된 특징 감지를 위한 방법.
제14항에 있어서, 상기 연관된 이미지 태그에 의해 식별된 상기 이미지 세그먼트들이 아바타 이미지로 몰핑되는(morphed) 특징 감지를 위한 방법.
제14항에 있어서, 상기 노드 위치들과 특징 태그들은 상기 대응하는 이미지 세그먼트들을 3차원 이미지로 부피 몰핑(volume morphing)하기 위해 사용되는 특징 감지를 위한 방법.
제7항에 있어서, 상기 모델 그래프는 사람 얼굴상의 두드러진 특징들과 관련된 18개의 위치 노드들을 포함하는 특징 감지를 위한 방법.
제17항에 있어서, 상기 얼굴의 상기 18개의 노드 위치들은

우안구 동공,

좌안구 동공,

코의 최상부,

우측 눈썹의 우측 모서리,

우측 눈썹의 좌측 모서리,

좌측 눈썹의 우측 모서리,

좌측 눈썹의 좌측 모서리,

우측 콧구멍,

코 끝,

좌측 콧구멍,

입의 우측 모서리,

윗 입술의 중심,

입의 좌측 모서리,

아랫 입술의 중심,

우측 귀의 최저부,

우측 귀의 최상부,

좌측 귀의 최상부, 및

좌측 귀의 최저부에 각각 연관되는 특징 감지를 위한 방법.
제1항에 있어서, 상기 노드 위치 추적 단계는 오디오 신호-상기 오디오 신호는 상기 오디오 신호를 발생시키는 입의 상기 노드 위치들의 움직임과 연관됨-에 기초된 립 싱킹(lip synching)을 포함하는 특징 감지를 위한 방법.
얼굴 특징 발견에 기초된 머리 모델을 개별화하기 위한 방법에 있어서, 상기 얼굴 특징 발견은 신축 집군 그래프 정합에 기초를 둔 머리 모델을 개별화하기 위한 방법.
제20항에 있어서, 상기 정합은 대강에서-세밀한 쪽으로의 접근(coarse-to-fine approach)을 사용하여 행해지는 머리 모델을 개별화하기 위한 방법.
일련의 이미지 프레임들에서의 특징 감지를 위한 장치에 있어서,

변환 이미지 프레임을 생성하기 위해, 웨이브렛(wavelet) 변환을 이용하여 각 이미지 프레임을 변환하기 위한 수단과,

상기 변환된 이미지 프레임에 대해 모델 그래프를 이동시키고, 노드 위치들과 상기 변환된 이미지 프레임 간의 최대 제트 유사도가 되는 상기 변환된 이미지 프레임의 위치에, 상기 모델 그래프를 위치시킴으로써, 상기 모델 그래프의 웨이브렛 제트(jet)들과 연관된 노드 위치들을 상기 변환된 이미지 프레임으로 초기화하기 위한 수단과,

이미지 프레임들 간의 상기 모델 그래프의 하나 이상의 노드 위치들의 위치를 추적하기 위한 수단과,

상기 노드 위치가 상기 이미지 프레임들 간의 소정의 위치 제한(constraint)에서 벗어날 때, 추적된 노드를 재초기화하기 위한 수단을 포함하는 특징 감지를 위한 장치.
제22항에 있어서,

얼굴 특성을 결정하기 위한 수단과,

상기 결정된 수단에 의해 생성된 상기 얼굴 특성들에 기초된 얼굴 특성들을갖는 아바타 이미지를 애니메이션화하기 위한 수단을 더 포함하는 특징 감지를 위한 장치.
제23항에 있어서, 상기 모델 그래프는 사람 얼굴상의 두드러진 특징들과 연관된 18개의 위치 노드들을 포함하는 특징 감지를 위한 장치.
얼굴 이미지 분석을 위한 모델 그래프에 있어서, 상기 사람 얼굴상의 두드러진 특징들과 연관된 상기 18개의 위치 노드들을 포함하는 얼굴 이미지 분석을 위한 모델 그래프.
제25항에 있어서, 상기 얼굴의 상기 18개의 노드 위치들은

우안구 동공,

좌안구 동공,

코의 최상부,

우측 눈썹의 우측 모서리,

우측 눈썹의 좌측 모서리,

좌측 눈썹의 우측 모서리,

좌측 눈썹의 좌측 모서리,

우측 콧구멍,

코 끝,

좌측 콧구멍,

입의 우측 모서리,

윗 입술의 중심,

입의 좌측 모서리,

아랫 입술의 중심,

우측 귀의 최저부,

우측 귀의 최상부,

좌측 귀의 최상부, 및

좌측 귀의 최저부에 각각 연관되는 얼굴 이미지 분석을 위한 모델 그래프.