KR20010042659A

KR20010042659A - 비디오 화상으로부터의 얼굴 인식

Info

Publication number: KR20010042659A
Application number: KR1020007011358A
Authority: KR
Inventors: 토마스 모러; 에거 발레리비치 엘라긴; 루치아노 파스퀄 어고스티노 노세라; 쟈네스 버나드 스텝판스; 하트머트 네븐
Original assignee: 아이매틱 인터페이시즈, 인크.
Priority date: 1998-04-13
Filing date: 1999-04-12
Publication date: 2001-05-25
Also published as: KR100653288B1; BR9909623A; EP1072014B1; ATE419591T1; ATE283519T1; CA2326816C; CA2326816A1; EP1072014A1; JP2002511617A; DE69940225D1; DE69922183T2; US6301370B1; DE69922183D1; AU3554199A; BR9909623B1; WO1999053427A1

Abstract

본 발명은 이미지 프레임내의 대상을 검출하고 인식하기 위한 장치 및 그에 간련된 방법에서 실시된다. 그 대상은 예를 들어, 특정 얼굴 특성들을 갖는 머리일 수 있다. 대상 검출 처리는 확실하면서 계산적으로도 효율적인 기술들을 사용한다. 대상 식별 및 인식 처리는 이미지 특징들을 제트와 같이 효율적으로 나타내는 모델 그래프 및 집군 그래프들에 기초된 이미지 처리 기술을 사용한다. 제트들은 웨이브렛 변환들로 구성되며, 쉽게 식별가능한 특징들에 대응하는 이미지상의 노드들 또는 식별 위치들에서 처리된다. 본 발명의 시스템은 자세 각도의 넓은 변화에 대하여 사람을 인식하는 것에 특히 장점이 있다.

Description

비디오 화상으로부터의 얼굴 인식{FACE RECOGNITION FROM VIDEO IMAGES}

최근에 개발된 물체 및 얼굴 인식 기술은 신축 집군 그래프 정합법을 포함한다. 상기 집군 그래프 인식 기술은 상기 화상의 얼굴 부분이 상기 화상의 실질적인 부분을 차지하도록 분석될 화상이 세그먼트될 때 얼굴을 인식하는데 매우 유효하다. 그러나, 상기 신축 집군 그래프 기술은 관심 있는 물체가 정경의 일부분만을 차지하는 큰 정경에서 물체를 확실히 검출할 수 없다. 더욱이, 상기 신축 집군 그래프 인식 기술을 실시간으로 사용하기 위하여, 상기 화상을 세그먼트화하는 프로세스는 계산상 유효하지 않으면 상기 인식 기술의 성능 이점들을 얻지 못한다.

그 외에, 비디오 화상에서 물체를 검출하고 계산상 유효하게 집군 그래프 정합 프로세스에 의해 더 프로세스할 비디오 화상을 준비하기 위한 화상 처리 기술이 상당이 필요하다. 본 발명은 이런 필요를 만족시킨다.

〈발명의 요약〉

본 발명은 화상 프레임에서 물체를 검출하고 인식하기 위한 장치, 및 관련된 방법에서 구현된다. 상기 물체 검출 프로세스는 강하고 계산상 유효한 기술을 사용한다. 상기 물체 식별 및 인식 프로세스는 화상 특징을 제트(jet)로서 유효하게 나타내는 모델 그래프와 집군 그래프에 기초를 둔 화상 처리 기술을 사용한다. 본 발명의 시스템은 갖가지 자세각에 대하여 사람을 인식하는데 특히 유리하다.

본 발명의 실시예에서, 상기 물체는 검출되고 상기 물체와 관련된 화상 프레임의 부분은 사각형 경계선으로 긋는다. 상기 화상 프레임의 경계 부분은 웨이브렛(wavelet) 변환을 사용하여 변환되어 변환 화상을 만들어낸다. 복수의 대표 물체상으로부터 만들어진 집군 그래프의 웨이브렛 제트(wavelet jet)에 의해 정의된 물체의 두드러진 특징과 관련된 노드(node)는 상기 변환 화상에 위치해 있다. 상기 물체는 물체상들의 갤러리에서 물체상과 관련된 웨이브렛 제트(wavelet jet)와 상기 변환 화상 위의 노드(node)에서 웨이브렛 제트(wavelet jet)간 유사점을 바탕으로 하여 식별된다.

그 외에, 상기 검출된 물체는 사이즈되고 상기 화상의 경계 부분의 내부 중심에 놓여질 수 있어서 상기 검출된 물체는 미리 정해진 크기와 상기 경계 부분의 내부에 위치를 갖고 상기 물체를 식별하기 전에 상기 물체와 관련 없는 화상 프레임의 경계 부분의 배경 부분은 억제될 수 있다. 종종, 상기 물체는 얼굴 영역을 나타내는 사람의 머리이다. 상기 집군 그래프는 상기 물체의 3차원 표현에 기초를 둘 수 있다. 그밖에, 상기 웨이브렛(wavelet) 변환은 하드웨어 어댑트 위상 표현을 사용한 위상 계산에 의해 수행될 수 있다.

본 발명의 대체적인 실시예에서, 상기 물체는 일련의 화상에 있고 상기 물체를 검출하는 단계는 상기 물체와 관련된 궤적에 기초를 둔 화상 프레임들 사이에서 상기 물체를 추적하는 것을 더 포함한다. 또한, 상기 노드(node)의 위치를 찾아내는 단계는 화상 프레임들 사이에서 상기 노드(node)를 추적하고 상기 노드(node)의 위치가 화상 프레임들 사이에서 미리 정해진 위치 제한을 벗어나면 추적된 노드(node)를 재초기화하는 것을 포함한다. 그 외에, 상기 화상 프레임은 입체 화상일 수 있고 상기 검출 단계는 머리 이동과 관련된 볼록 영역을 검출하는 것을 포함할 수 있다.

본 발명의 다른 특징과 이점들은 첨부한 도면과 함께 다음 바람직한 실시예들의 설명으로부터 명확하다.

본 발명은 시각에 기초를 둔 물체 검출 및 추적에 관한 것으로, 더욱 상세하게는 인간의 얼굴과 같은 비디오 화상에서 물체를 검출하며, 상기 물체를 실시간으로 추적하고 식별하기 위한 시스템에 관한 것이다.

도 1은 본 발명에 의한 얼굴 인식 프로세스의 블록 다이어그램.

도 2는 본 발명에 의한 얼굴 인식 시스템의 블록 다이어그램.

도 3은 도 1의 인식 프로세스 중 검출, 찾기 및 식별 프로세스를 나타내기 위한 일련의 화상.

도 4는 본 발명에 의한 머리 검출 및 추적 프로세스의 블록 다이어그램.

도 5는 본 발명에 의한 디스패리티(disparity) 검출 프로세스를 설명하기 위해, 화상을 첨부한 플로우 차트.

도 6은 본 발명에 의한 볼록 검출기의 개략적인 다이어그램.

도 7은 본 발명에 의한 머리 추적 프로세스의 플로우 차트.

도 8은 본 발명에 의한 프리실렉터(preselector)의 플로우 차트.

도 9는 도 1의 얼굴 인식 장치 및 시스템의 표식 찾기 기술을 설명하기 위해, 사진을 첨부한 플로우 차트.

도 10은 본 발명에 의한 가버 웨이브렛(Gabor wavelet)을 사용한 얼굴 화상의 처리를 나타내는 일련의 화상.

도 11은 본 발명에 의한 도 10의 웨이브렛(wavelet) 처리 기술을 사용한 제트(jet), 화상 그래프, 및 집군 그래프의 구성을 나타내는 그래프들.

도 12는 얼굴 화상을 처리하기 위한 본 발명에 의한 모델 그래프의 다이어그램.

도 13은 얼굴 특징의 위치를 찾아내기 위해 웨이브렛(wavelet) 처리를 사용한 두 다이어그램.

도 14는 대강에서 세밀한쪽으로의(coarse-to-fine) 표식 찾기 기술을 설명하기 위해, 눈과 입 영역이 추출된 얼굴의 다이어그램.

도 15는 위상의 원형 행동을 도시한 개략적인 다이어그램.

도 16은 본 발명에 의한 원형 행동하는 위상의 2의 보수 표현을 도시한 개략적인 다이어그램.

도 17은 본 발명의 표식 찾기 기술에 의해 찾아낸 표식을 추적하기 위한 추적 기술을 나타낸 플로우 다이어그램.

도 18은 본 발명에 의한 얼굴 특징의 추적을 나타낸 얼굴 화상들.

도 19는 1차원에서 표식 추적을 설명하기 위한 가우스 이미지 피라미드 기술의 다이어그램.

도 20은 일련의 50 화상 프레임에 대한 얼굴 특징의 추적을 나타내는 자세각 대 프레임 번호의 그래프를 첨부한 두 얼굴 화상들.

도 21은 도 1의 인식 장치 및 시스템의 자세 추정 기술을 설명하기 위한, 사진을 첨부한 플로우 다이어그램.

도 22는 3차원(3-D) 뷰(view) 액세스(access)의 오리엔테이션을 나타낸 바늘 구멍 사진기 모델의 그래프.

도 23은 3-D 사진기 교정 구성의 투시도.

도 24는 동일 행번호를 따라 입체 화상의 대응 화소를 투영하기 위한 조정의 개략적인 다이어그램.

도 25는 하나의 화상 프레임의 윈도와 다른 화상 프레임의 탐색 윈도간 상관 정합 프로세스를 나타낸 화상 프레임.

도 26은 3-D 화상 디코딩을 도시하는 입체 화상 쌍, 디스패리티 맵(disparity map) 및 화상 재구성의 화상들.

도 27은 본 발명에 의한 화상 식별 프로세스의 플로우 차트.

도 28은 배경 억제를 사용한 화상.

본 발명은 화상 프레임에서 물체를 검출하고 인식하기 위한 방법, 및 관련된 장치에서 구현된다. 상기 물체는 예를 들면, 독특한 얼굴 특징을 가진 머리일 수 있다. 상기 물체 검출 프로세스는 강하고 계산상 유효한 기술을 사용한다. 상기 물체 식별 및 인식 프로세스는 화상 특징을 제트(jet)로서 유효하게 나타내는 모델 그래프와 집군 그래프에 기초를 둔 화상 처리 기술을 사용한다. 상기 제트(jet)는 웨이브렛(wavelet) 변환으로 구성되고, 쉽게 식별할 수 있는 특징에 대응하는 화상의 노드(node)나 표식 위치에서 처리된다. 본 발명의 시스템은 갖가지 자세각에 대하여 사람을 인식하는데 특히 유리하다.

본 발명의 화상 처리 시스템은 도 1-3을 참고하여 설명된다. 상기 물체 인식 프로세스(10)는 화상 처리 시스템(12)에 의해 제공된 디지털화된 비디오 화상 데이터에 대해 작동한다. 상기 화상 데이터는 인간의 얼굴과 같은, 물체의 화상을 포함한다. 상기 화상 데이터는 단일 비디오 화상 프레임 또는 일련의 연속적인 단안(單眼)이나 입체 화상 프레임일 수 있다.

신축 집군 그래프 기술을 사용하여 얼굴 화상을 처리하기 전에, 본 발명에 의한 머리 검출 및 추적 프로세스(14)를 사용하여, 상기 화상에서 머리의 위치를 대강 찾아낸다. 상기 화상 데이터의 성질에 따라, 상기 머리 검출 모듈은 예를 들면, 운동, 색, 또는 크기(스테레오 비전), 토폴로지나 패턴에 기초를 둔 여러 가지 시각 경로들 중 하나를 사용한다. 상기 머리 검출 프로세스는 상기 검출된 머리 주위에 사각형 경계선을 두어서 상기 표식 찾기 프로세스에 의해 처리되어야 하는 화상 영역을 줄인다. 상기 머리 검출 및 추적 프로세스로부터 수신된 데이터를 바탕으로 하여, 프리실렉터(preselector)(16)는 분석할 화상 자료 중 가장 적당한 뷰(view)를 선택하며 상기 머리 화상을 중심에 놓고 기준화하도록 상기 머리 검출을 개선한다. 상기 선택된 머리 화상은 상기 신축 집군 그래프 기술을 사용하여 독특한 얼굴 특징을 검출하기 위해 표식 찾기 프로세스(18)에 제공된다. 얼굴 표식이 상기 얼굴 화상에서 발견되면, 표식 추적 프로세스(20)는 상기 표식의 추적에 사용될 수 있다. 그리고 나서 상기 표식에서 추출된 특징은 식별자 프로세스(22)에 의해 갤러리 화상으로부터 추출된 대응 특징과 비교된다. 상기 표식 찾기 프로세스가 비교적 많은 시간이 소요되고, 비교적 프레임 속도가 높은 일련의 화상 프레임에 대해 종종 실시간으로 수행될 수 없기 때문에 상기 화상 인식 프로세스의 분할은 유리하다. 그러나, 다른 한편으로, 표식 추적은 프레임 속도보다 더 빨리 수행될 수 있다. 따라서, 초기 표식 찾기 프로세스가 일어나는 동안에, 버퍼는 새로 들어오는 화상 프레임으로 채워질 수 있다. 상기 표식의 위치를 찾아내면, 표식 추적이 시작되고 상기 처리 시스템은 상기 버퍼가 클리어될 때까지 버퍼된 화상을 처리함으로써 따라잡을 수 있다. 상기 프리실렉터(preselector) 및 표식 추적 모듈은 상기 얼굴 인식 프로세스에서 생략될 수 있다.

상기 인식 프로세스의 스크린 출력은 상기 검출, 표식 찾기 및 식별자 프로세스를 위해 도 3에 나타나 있다. 상단 좌측 화상 윈도는 사각형 경계선에 의해 검출된 머리를 가진 포착된 화상을 나타낸다. 상기 머리 화상은 중심에 놓이고, 다시 사이즈되며, 상기 표식 찾기 프로세스에 제공된다. 상단 우측 화상 윈도는 상기 얼굴 표식 상에 노드(node)로 표시된 얼굴 화상을 가진 표식 찾기 모듈의 출력을 나타낸다. 상기 표시된 화상은 하단 윈도에 도시된 식별 프로세스에 제공된다. 가장 좌측 화상은 식별하기 위한 표식 찾기 프로세스에 의해 제공되는 선택된 얼굴을 나타낸다. 세 개의 가장 우측 화상들은 가장 유사한 얼굴이 가장 좌측에 있도록 유사한 순서로 분류되는 가장 유사한 갤러리 화상들을 나타낸다. 각 갤러리 화상은 상기 화상과 관련된 태그(예를 들면, 아이디 및 인명)를 가지고 있다. 그때 상기 시스템은 가장 유사한 얼굴과 관련된 태그를 보고한다.

상기 얼굴 인식 프로세스는 입체 화상에 기초한 3차원(3D) 재구성 프로세스(24)를 사용하여 구현될 수 있다. 상기 3D 얼굴 인식 프로세스는 관점과 무관한 인식을 제공한다.

본 발명의 얼굴 인식 프로세스를 구현하기 위한 화상 처리 시스템(12)은 도 2에 나타나 있다. 상기 처리 시스템은 디지털 비디오 화상 프레임의 스트림(stream)을 만들어내는 비디오 소스(26)로부터 사람의 화상을 수신한다. 상기 비디오 화상 프레임은 처리하기 위해 비디오 램(VRAM)에 보내진다. 만족스러운 화상 시스템은 종래의 CCD 카메라에 의해 디지털화된 화상을 만들어내고 상기 화상을 실시간에 30㎐의 프레임 속도로 상기 메모리에 보내는 매트록스(도벌, 퀘벡, 캐나다; www.matrox.com)로부터 입수할 수 있는 Matrox Meteor Ⅱ이다. 화상 프레임의 전형적인 해상도는 256 픽셀 × 256 픽셀이다. 상기 화상 프레임은 상기 VRAM과 램(RAM)(32)에 연결된 중앙 처리 장치(CPU)(30)를 구비한 화상 처리 장치에 의해 처리된다. 상기 RAM은 본 발명의 얼굴 인식 프로세스를 구현하기 위한 프로그램 코드(34)와 데이터를 저장한다. 대체적으로, 상기 화상 처리 시스템은 응용 주문형 하드웨어에서 구현될 수 있다.

상기 머리 검출 프로세스는 도 4를 참고하여 더 상세하게 설명된다. 상기 얼굴 화상은 단일 화상(36), 단안(單眼) 비디오 스트림 화상(38) 또는 쌍안(雙眼) 비디오 스트림 화상(40)으로 VRAM(28)에 저장될 수 있다.

단일 화상에 대하여, 처리 시간은 중요하지 않을 수 있으며, 상기 얼굴이 상기 화상의 적어도 10%에 미치고 직경이 적어도 50 픽셀이면 이하에서 더 상세하게 설명되는 신축 집군 그래프 정합은 얼굴을 검출하는데 사용될 수 있다. 상기 얼굴이 상기 화상의 10%보다 작거나 다수의 얼굴이 존재하면, 신경망에 기초를 둔 얼굴 검출기는 H. A. Rowley, S. Baluja and T. Kanade, "Rotation Invarient Neural Network-Based Face Detection", Proceedings Computer Vision and Pattern Recognition, 1998에서 설명되는 바와 같이 사용될 수 있다. 상기 화상이 색 정보를 포함하면, 피부 색 검출 프로세스는 가능한 피부 색을 포함하는 조견표를 바탕으로 할 수 있다. 얼굴 검출의 신뢰도를 나타내고 집군 그래프 정합 동안이나 상기 신경망에 의해 만들어진 신뢰도 값은 피부색 화상 영역에 대해 증가될 수 있다.

특히 상기 화상 스트림(stream)이 정지 배경 앞에서 움직이고 있는 한 사람만을 포함한다면, 초 당 적어도 10 프레임의 단안(單眼) 화상 스트림(stream)이 화상 이동을 위해 분석될 수 있다. 머리 추적용 한 가지 기술은 화상의 어느 영역이 움직였는지를 결정하기 위해 차화상법을 포함한다.

쌍안(雙眼) 화상에 관하여 이하에서 더 상세하게 설명되는 바와 같이, 머리 이동의 결과 종종 이동 실루엣의 내부에 볼록 영역을 가진 차화상이 생긴다. 화상이 정지 배경 앞에 직립 자세로 있는 한 사람을 포함하면 이 이동 실루엣 기술은 머리 이동의 위치를 쉽게 찾아내고 추적할 수 있다. 클러스터링(clustering) 알고리즘은 움직이는 영역을 클러스터(cluster)로 모은다. 최소 임계 크기 및 직경을 초과하는 가장 높은 클러스터(cluster)의 최상부는 머리로 간주되고 표시된다.

머리 이동 검출의 또 다른 유리한 용도는 화상 이동에 의해 영향 받은 화소의 수가 최소 임계값을 초과할 때만 시행되는 그래프 정합을 사용한다. 상기 화상의 충분한 변화가 갱신된 철저한 분석을 정당화하기만 하면 상기 임계값은 비교적 많은 시간이 소요되는 그래프 정합 화상 분석이 수행되도록 선택된다. 노이지(noisy) 이동 실루엣의 볼록 영역을 결정하기 위한 다른 기술은 예를 들면, Turk 등, "Eignefaces for Recognition", Journal of Cognitive Neuroscience, Vol. 3, No. 1 p. 71, 1991과 같이 사용될 수 있다. D. J. Fleet, "Measurement of Image Velocity", Kluwer International Series in Engineering and Computer Science, No. 169, 1992에서 설명되는 것과 같은 옵티컬 플로(optical flow)법은 어느 화상 영역이 변화하지만 계산상으로 더 집중적인지를 결정하기 위한 대체적이고 신뢰할 수 있는 수단을 제공한다.

도 5에 의하면, 신뢰할 수 있고 빠른 머리와 얼굴 검출은 입체 쌍안 비디오 화상들의 화상 스트림(50)을 사용하여 가능하다. 스테레오 비전은 전경과 배경 물체를 구별하게 하고, 머리와 손과 같은 알고 있는 크기의 물체에 대한 크기를 결정하게 한다. 이동은 우화상 채널 및 좌화상 채널의 화상들에 차 루틴을 적용함으로써 화상 시리즈의 두 화상 사이에서 검출된다(52). 디스패리티 맵(disparity map)은 양 화상 채널에서 움직이는 화소에 대하여 계산된다(54). 다음으로 상기 볼록 검출기는 상기 디스패리티(disparity)에 대한 화소의 수를 나타내는 디스패리티 히스토그램(56)을 사용한다. 어떤 디스패리티(disparity) 간격에 한정된 디스패리티(disparity)를 가지는 화상 영역은 상기 디스패리티 히스토그램의 국부 최고점(58)을 조사함으로써 선택된다. 국부 최고점과 관련된 화소는 이동 실루엣이라고 한다. 상기 이동 실루엣은 2진 이미지이다.

사람에 의해 만들어질 수 없을 정도로 너무 작아서 버려지는 이동 실루엣도 있다(60). 주어진 깊이와 관련된 이동 실루엣은 다른 움직이는 물체와 사람을 구별할 수 있다(62).

상기 이동 실루엣의 볼록 영역(64)은 도 6에 나타낸 볼록 검출기에 의해 검출된다. 상기 볼록 검출기는 상기 실루엣의 내부에서 볼록 영역을 분석한다. 상기 볼록 검출기는 인접 화소를 가진 이동 실루엣에 속하는 화소(68)가 상기 디스패리티(disparity)의 둘레나 폭(72) 상의 허용 영역(70) 내부에 있는지를 검사한다. 상기 연결된 허용 영역은 상기 둘레의 어느 부분에나 위치할 수 있다. 상기 볼록 검출기의 출력은 2진값이다.

피부 색 실루엣은 머리와 손을 검출하는데 마찬가지로 사용될 수 있다. 상기 이동 실루엣, 피부색 실루엣, 상기 이동 실루엣에 적용되는 볼록 검출기의 출력 및 상기 피부색 실루엣에 적용되는 볼록 검출기의 출력은 네 가지 상이한 증거 지도를 제공한다. 증거 지도는 어떤 화소가 얼굴 또는 손에 속하는 증거를 나타내는 화상 영역에 대한 스칼라 함수이다. 네 가지 증거 지도 각각은 2진값이다. 상기 증거 지도는 주어진 디스패리티(disparity)에 선형으로 겹치고, 국부 최고점이 검사된다. 상기 국부 최고점은 머리나 손이 발견될 것 같은 위치를 나타낸다. 그때 머리의 예상 직경은 상기 증거 지도를 야기한 디스패리티 맵(disparity map)에서 국부 최고점으로부터 추론될 수 있다. 설명한 것과 같은 머리 검출은 배경 이동이 강할 때 조차도 잘 수행된다.

상기 머리 추적 프로세스(42)는 머리 궤적 검사를 하는데 사용될 수 있는 머리 위치 정보를 만들어낸다. 도 7에 나타낸 바와 같이, 새로 검출된 머리 위치(78)는 존재하는 머리 궤적과 비교될 수 있다. 다수의 근처 검출들을 하나의 대표 검출(82)로 대체하는 세선화(細線化)(80)가 일어난다. 시간과 공간에 관한 연속성을 가정할 때 상기 새로운 추정 위치가 이미 존재하는 궤적(84)에 속하는지를 결정하기 위해 상기 새로운 위치는 검사된다. 시간 t에서 얻은 프레임에 대한 모든 위치 추정에 대하여, 상기 알고리즘은 시간 t-1에서의 이전 프레임에 대해 결정된 가장 가까운 머리 위치 추정을 찾아서(86) 그것을 연결한다(88). 충분히 가까운 추정을 찾아낼 수 없으면, 새로운 머리가 출현하였고(90) 새로운 궤적이 시작된다고 가정한다. 개개의 추정들을 궤적으로 연결하기 위해, 화상 좌표만이 사용된다.

각 궤적은 리크형(leaky) 적분기를 사용하여 갱신되는 신뢰도를 할당받는다. 상기 신뢰도 값이 미리 정해진 임계값 이하로 내려가면, 상기 궤적은 지워진다(92). 히스테리시스 메커니즘(hysteresis mechanism)은 궤적 생성 및 제거를 안정화시키는데 사용된다. 궤적을 초기화하기 위하여(90), 궤적을 지우는데 필요한 것보다 더 높은 신뢰도 값에 이르러야 한다.

상기 프리실렉터(16)(도 2)는 동일한 궤적에 속하는 일련의 화상으로부터 인식하기에 적당한 화상을 선택하도록 작동한다. 상기 하드웨어의 계산 전력이 궤적의 각 화상을 개별적으로 분석하는데 충분하지 않다면 이 선택은 특히 유용하다. 그러나, 이용할 수 있는 계산 전력이 찾은 얼굴 전부를 분석하는데 충분하다면, 상기 프리실렉터(preselector)를 사용할 필요는 없다.

상기 프리실렉터(16)는 상기 머리 추적 프로세스(14)로부터 입력을 수신하고, 상기 표식 찾기 프로세스(18)에 출력을 제공한다. 상기 입력은

· 바이트의 2차원 배열로 나타낸 256×256 픽셀 크기의 단안 그레이(gray) 값 화상

· 상기 화상의 순번호를 나타내는 정수. 이 숫자는 동일한 시퀀스에 속하는 화상에 대해서 같다.

· 상기 얼굴을 둘러싼 사각형 경계선의 상단 좌측 및 하단 우측 모서리의 화소 좌표를 나타내는 네 개의 정수값이다.

상기 프리실렉터(preselector)의 출력은

· 상기 이전 시퀀스로부터 선택된 단안 그레이(gray) 값 화상

· 프리실렉터(preselector)가 입력으로서 받아들이는 사각형보다 상기 얼굴 위치를 더 정확하게 나타내는 사각형 경계선의 상단 좌측 및 하단 우측 모서리의 화소 좌표를 나타내는 네 개의 정수값이다.

도 8에 나타낸 바와 같이, 상기 프리실렉터(16)는 상기 머리 추적 프로세스(14)에 의해 결정된 것과 같은 궤적에 속할 것 같은 얼굴들을 처리한다(100). 표식 찾기에 관하여 이하에서 설명되는 바와 같이, 신축 집군 그래프 정합은 더 처리(즉 표식 찾기/인식)할 가장 적당한 화상을 선택하기 위하여 관심 있는 물체(예를 들면 사람의 머리)를 포함하는 화상들의 시퀀스에 적용된다(102). 상기 프리실렉터(preselector)는 각 화상을 질적으로 평가하기 위하여 그래프 정합을 적용한다. 그 외에, 상기 정합 결과는 상기 머리 검출 모듈보다 상기 얼굴의 위치와 크기에 대한 더 정확한 정보를 제공한다. 상기 정합 절차에 의한 신뢰도 값은 상기 화상의 적합 척도로서 사용된다. 그 신뢰도 값이 현재의 시퀀스에서 여태까지 측정된 가장 좋은 신뢰도 값을 초과하면 프리실렉터(preselector)는 다음 모듈로 화상을 보낸다(104-110). 상기 프리실렉터(preselector)는 상기 검출된 화상을 사각형 경계선으로 긋고 상기 표식 찾기 프로세스(18)에 상기 화상을 제공한다. 다음 프로세스는 각 들어오는 화상에 대해 처리하기 시작하나, (상기 프리실렉터에 의해 측정된) 신뢰도 값이 더 높은 화상이 동일 시퀀스의 내부에 나타나면 종결된다. 이것은 CPU 작업량을 증가시킬 수 있으나 예비 결과를 더 빨리 산출한다.

따라서, 상기 프리실렉터(preselector)는 더 처리할 적당한 화상들의 집합을 필터한다. 상기 프리실렉터(preselector)는 상기 화상을 다음과 같이 대체적으로 평가할 수 있다:

- 다음 모듈(예를 들면 랜드마커, 식별자)은 프리실렉터(preselector)에 의해 승인된 마지막 따라서 가장 가망이 있는 화상을 선택하기 위하여 상기 시퀀스가 끝날 때까지 기다린다. 이것은 CPU 작업량을 낮게 하나 상기 최종 결과(예를 들면 인식)를 이용할 수 있을 때까지 시간 지연을 의미한다.

- 다음 모듈은 프리실렉터(preselector)에 의해 승인된 각 화상을 받아들이고, 그것을 개별적으로 평가하며, (예를 들면 인식 신뢰도에 의해) 최종 선택을 다음 모듈에게 맡긴다. 또한 이것은 빠른 예비 결과를 산출한다. 이 경우에 최종 인식 결과는 한 시퀀스 안에서 변할 수 있고, 결국 더 좋은 인식 속도를 산출한다. 그러나, 이 방법은 세 가지 평가 방법 중에서 가장 많은 CPU 시간을 필요로 한다.

도 9에 나타낸 신축 그래프 정합 기술을 사용하여 상기 머리의 얼굴 표식 및 특징의 위치를 찾을 수 있다. 상기 신축 그래프 정합 기술에서, 포착된 화상(140)은 도 10에 관하여 더 상세하게 이하에서 설명되는 웨이브렛(wavelet) 변환(142)을 사용하여 가버(Gabor) 공간으로 변환된다. 상기 변환 화상(144)은 상기 원래 화상의 각 화소 당, 웨이브렛(wavelet) 성분을 나타내는 40 복소수값으로 나타낸다. 다음으로, 도 12에 관하여 이하에서 더 상세하게 설명되는 모델 그래프의 정밀 사본은 최적으로 유사한 위치를 찾아내도록 각각의 모델 노드 위치에서 상기 변환 화상 위에 위치한다(146). 상기 최적 유사도 탐색은 상기 모델 그래프를 상기 화상의 상단 좌측 모서리에 위치시키고, 상기 노드(node)에서 상기 제트(jet)를 추출하며, 상기 화상 그래프와 상기 모델 그래프간 유사도를 결정함으로써 수행될 수 있다. 상기 탐색은 상기 화상의 상단 좌측 모서리에서 시작하여 좌측에서 우측으로 상기 모델 그래프를 나아가면서 계속된다(148). 상기 얼굴의 대강 위치를 찾을 때(150), 상기 노드(node)는 개별적으로 움직이게 되고, 신축 그래프 왜곡을 가져온다(152). 이하에서 설명되는 위상 둔감 유사 함수는 우수한 매치(match)의 위치를 찾아내기 위하여 사용된다(154). 그 밖에 위상 민감 유사 함수는 상기 위상이 작은 제트(jet) 변위에 민감하기 때문에 제트(jet)의 위치를 정확하게 찾아내는데 사용된다. 상기 위상 둔감 및 위상 민감 유사 함수는 도 10-13에 관하여 이하에서 설명된다. 상기 그래프는 상기 원래 화상에 관하여 도 9에 나타내지만, 상기 모델 그래프 이동 및 정합은 실제로 상기 변환 화상 위에서 수행된다.

상기 웨이브렛(wavelet) 변환은 도 10을 참고하여 설명된다. 원래 화상은 중첩 결과를 만들어내기 위해 가버 웨이브렛(Gabor wavelet)을 사용하여 처리된다. 상기 가버 웨이브렛(Gabor wavelet)은, 가우스 엔벨로프(Gaussian envelope)에 의해 변조된 2차원 복소 파장으로 구성된다.

상기 웨이브렛(wavelet)은 파동 벡터 를 가진 평면파이고, 가우스 윈도에 의해 제한되며, 파장에 대한 크기는 σ로 매개 변수화된다. 대괄호 안에 있는 항은 DC 성분을 제거한다. 상기 파동벡터 k의 진폭은 ν가 원하는 공간 해상도에 관계되도록 다음과 같이 선택될 수 있다.

화상 위치 가 중심이 되는, 웨이브렛(wavelet)은 그레이 레벨 분포 를 가진 화상으로부터 웨이브렛(wavelet) 성분 를 추출하는데 사용된다,

파동 벡터 의 공간은 전형적으로 (반 옥타브만큼 다른) 5 해상도 레벨과 각 해상도 레벨의 8 오리엔테이션의 이산적 계층에서 샘플되어서(예를 들면 도 13 참조), 각 샘플된 상점에 대해 40 복소값(상기 평면파의 코사인 및 사인 위상을 말하는 실수 및 허수 성분)을 만들어낸다. k 공간에서 샘플은 색인 j = 1,..,40으로 표시되고 하나의 상점 중심에 놓인 모든 웨이브렛(wavelet) 성분들은 제트(60)라고 불리는 벡터로서 간주된다. 각 제트(jet)는 를 둘러싼 영역의 국부 특징을 설명한다. 충분한 밀도로 샘플되면, 상기 화상은 샘플 주파수에 의해 포함된 통과 대역폭내 제트(jet)로부터 재구성될 수 있다. 따라서, 제트(jet)의 각 성분은 상기 화상의 점 (x, y)에서 추출된 가버 웨이브렛(Gabor wavelet)의 필터 응답이다.

도 11에 나타낸 바와 같이, 화상 그래프(162)는 물체(이에 관련해서, 얼굴)의 생김새를 설명하는데 사용된다. 상기 그래프의 노드(164)는 상기 물체 위의 점들을 말하고 제트(160)라고 부른다. 상기 그래프의 에지(166)는 상기 노드간 거리 벡터라고 부른다. 노드(node) 및 에지(edge)는 상기 그래프 토폴로지를 정의한다. 기하학이 같은 그래프가 비교될 수 있다. 두 제트(jet)의 절대 성분들의 정규화된 도트 곱은 상기 제트(jet) 유사도를 정의한다. 이 값은 조도 및 콘트라스트(contrast) 변화에 무관하다. 두 그래프간 유사도를 계산하기 위해, 상기 그래프간 대응 제트(jet)의 유사도에 대한 합을 구한다.

특히 화상에서 인간의 얼굴을 찾아내기 위해 고안된 모델 그래프(168)가 도 12에 나타나 있다. 상기 그래프의 번호를 붙인 노드(node)의 위치는 다음과 같다:

0 우안구 동공

1 좌안구 동공

2 코의 최상부

3 우측 눈썹의 우측 모서리

4 우측 눈썹의 좌측 모서리

5 좌측 눈썹의 우측 모서리

6 좌측 눈썹의 좌측 모서리

7 우측 콧구멍

8 코 끝

9 좌측 콧구멍

10 입의 우측 모서리

11 윗 입술의 중심

12 입의 좌측 모서리

13 아랫 입술의 중심

14 우측 귀의 최저부

15 우측 귀의 최상부

16 좌측 귀의 최상부

17 좌측 귀의 최저부

얼굴을 나타내기 위해, 집군 그래프(170)라고 불리는 데이터 구조가 사용된다. 그것은 상술한 그래프와 유사하나, 각 노드(node)에 제트(jet) 하나만을 붙이는 대신에, 제트들의 집군 전체(172)(집군 제트)가 각 노드(node)에 붙여진다. 각 제트(jet)는 상이한 얼굴 화상으로부터 유도된다. 집군 그래프를 형성하기 위해, 얼굴 화상들의 집합(집군 그래프 갤러리)은 상기 머리의 정해진 위치에서 노드(node) 위치로 표시된다. 이런 정해진 위치는 표식이라고 불린다. 집군 그래프를 화상에 정합시킬 때, 상기 화상으로부터 추출된 각 제트(jet)는 상기 집군 그래프에 붙여진 대응 집군에서 모든 제트(jet)와 비교되고, 가장 잘 정합한 것이 선택된다. 이 정합 프로세스는 신축 집군 그래프 정합이라고 불린다. 사려깊게 선택된 갤러리를 사용하여 구성될 때, 집군 그래프는 국부 성질이 상당히 다를 수 있는 갖가지 얼굴을 포함한다.

화상 프레임에서 얼굴을 찾아내기 위하여, 상기 그래프가 가장 잘 정합하는 위치를 찾아낼 때까지 상기 그래프는 이동되고 상기 화상 프레임에 대하여 기준화된다(상기 집군 제트의 내부에서 가장 잘 맞는 제트는 상기 노드(node)의 현위치에서 화상으로부터 추출된 제트와 가장 유사하다). 얼굴 특징은 얼굴마다 상이하므로, 상기 그래프는 상기 작업에 더 일반적으로 된다, 예를 들면, 각 노드(node)는 10 내지 100 개개의 얼굴에서 택한 대응 표식의 제트(jet)를 할당받는다.

상기 그래프가 비교적 왜곡이 있으면, 기하학적 왜곡을 설명하는 두 번째 항이 도입될 수 있다. 두 상이한 제트(jet) 유사 함수는 두 상이한, 심지어는 상보적인 작업에 사용된다. 제트(jet)의 성분이 진폭 a_j및 위상 φ_j형태로 쓰여지면, 두 제트(jet) 및 의 유사도는 상기 진폭 벡터의 규준화된 스칼라 곱이다:

다른 유사 함수의 형태는 다음과 같다

이 함수는 상기 두 제트(jet)가 말하는 상점간 상대 변위 벡터를 포함한다. 그래프 정합 동안 두 제트(jet)를 비교할 때, 그들간 유사도는 d에 관하여 최대로 되어, 제트(jet) 위치를 정확하게 결정하도록 한다. 양 유사 함수가 사용되는데, 우선 그래프를 정합할 때, (상대 위치에 따라 매끄럽게 변하는) 위상 둔감 버전이 선호되고, 상기 제트(jet)의 위치를 정확하게 둘 때 상기 위상 민감 버전이 주어진다.

도 14에 나타낸, 대강에서 세밀한쪽으로의 표식 찾기 방법은 저해상도 화상에 대해 노드(node)와 커널(kernel)이 거의 없는 그래프를 사용한다. 대강의 표식 찾기를 한 후에, 고정밀 위치 결정은 독특한 얼굴 특징을 정확하게 찾기 위해 고해상도 화상에 대해 수행될 수 있다.

절대값 및 위상값이 실-허수 영역보다는 그 영역에 표현되면 가버 제트(Gabor jet)를 더 유효하게 비교할 수 있기 때문에 가버(Gabor) 중첩의 응답은 대개 상기 값들로 저장되는 복소수이다. 전형적으로 상기 절대값 및 위상값은 '부동' 값으로 저장된다. 그리고 나서 부동 산술을 사용하여 계산된다. 도 15에 나타낸 바와 같이 상기 위상값은 -π가 π와 같은 -π 내지 π의 범위 내에 있어서 숫자 분포는 원형 축 상에 나타낼 수 있다. 즉 일정한 위상값의 덧셈이나 뺄셈 때문에, 상기 위상값이 이 범위를 초과할 때마다, 그 결과 값은 상기 부동 덧셈보다 더 많은 계산 노력을 필요로 하는 이 범위 내에서 재조정되어야 한다.

대부분의 처리 장치에 의해 제공된 흔히 사용되는 정수 표현 및 관련된 산술은 2의 보수이다. 이 값은 유한한 범위를 가지므로, 오버플로 또는 언더플로가 덧셈 및 뺄셈 연산에서 일어날 수 있다. 2 바이트 정수의 최대 양수는 32767이다. 1을 더하는 것은 -32768을 산출한다. 그러므로 상기 2의 보수 정수의 산술은 위상 산술에 대한 요건과 매우 밀접하다. 따라서, 위상값을 2 바이트 정수로 나타낼 수 있다. 도 16에 나타낸 바와 같이 위상값 j는 정수값 I로 사상된다. -π 내지 π의 범위에 있는 값은 후에 설명되는 정합 및 비교 단계 동안 거의 필요하지 않다. 따라서 [-π, π]와 [-32768, 32768]간 사상은 그다지 자주 계산될 필요가 없다. 그러나 위상 덧셈 및 뺄셈은 매우 자주 행해진다. 이것은 상기 처리 장치에 적합한 간격을 사용하여 훨씬 더 빨리 계산한다. 따라서 이 적응 기술은 상기 처리 장치의 계산 속도를 상당히 향상시킬 수 있다.

상기 얼굴 특징 및 표식의 위치를 찾아낸 후에, 도 17 및 18에 도시한 바와 같이 상기 얼굴 특징은 연속 프레임에 대해 추적될 수 있다. 본 발명의 추적 기술은 특징 또는 노드(node)의 추적이 유실되었는지를 검출하고 그 노드(node)에 대해 추적 프로세스를 재초기화하는 추적 상관 체계를 사용함으로써 긴 프레임 시퀀스에 대해 로버스트(robust) 추적을 한다.

화상 시퀀스 중 화상 I_n에서 노드(node) 하나의 위치 X_n은 상술한 표식 찾기 방법(180)을 사용하여 화상 I_n에 대한 표식 찾기, 또는 상기 추적 프로세스를 사용하여 화상 I_(n-1)에서 I_n까지 상기 노드(node)를 추적함으로써 알아낸다. 그리고 나서 상기 노드(node)는 몇 가지 기술들 중 하나에 의해 상기 화상 I_(n+1)에 대응하는 위치 X_(n+1)로 추적된다(182). 이하에서 설명되는 추적법은 빠른 이동에 유리하게 조정된다.

첫 번째 추적 기술은 선형 운동 예측을 포함한다. 새로운 화상 I_(n+1)에 대응하는 위치 X_(n+1) 탐색은 운동 추정 법칙에 의해 발생된 위치에서 시작된다. 일정 속도를 가정하여, 상기 이전 두 프레임간 노드(node)의 변위를 나타내는 디스패리티 벡터 (X_n - X_(n-1))이 계산된다. 상기 디스패리티(disparity) 또는 변위 벡터 D_n은 상기 노드(node) 위치 X_(n+1)을 예측하기 위해 상기 위치 X_n에 더할 수 있다. 이 선형 운동 모델은 일정 속도 운동을 조정하는데 특히 유리하다. 또한 상기 프레임 속도가 추적될 물체의 가속도보다 높으면 상기 선형 운동 모델은 우수한 추적을 제공한다. 그러나, 상기 물체의 가속도가 상기 화상 시퀀스에서 프레임들 사이에 있을 만큼 상기 프레임 속도가 너무 낮으면 상기 선형 운동 모델은 제대로 수행되지 못한다. 운동 모델이 그런 조건하에서 물체를 추적하는 것은 곤란하기 때문에, 프레임 속도가 더 높은 사진기를 사용하도록 권장된다.

상기 선형 운동 모델은 상기 운동 추정에서 오차를 누적시키는 너무 큰 추정 운동 벡터 D_n을 발생시킬 수 있다. 따라서, 상기 선형 예측은 감쇠 계수 f_D를 사용하여 감쇠될 수 있다. 그 결과 추정 운동 벡터 D_n = f_D * (X_n - X_(n-1))이다. 적당한 감쇠 계수는 0.9이다. 예를 들면, 표식 찾기 직후 프레임에 대한 이전 프레임 I_(n-1)이 존재하지 않으면, 상기 추정 운동 벡터는 영과 같게 설정된다(D_n = 0).

1차원에 적용되는 가우스 이미지 피라미드에 기초를 둔 추적 기술은 도 19에 도시된다. 원래 화상 해상도를 사용하는 대신에, 상기 화상의 가우스 피라미드를 만들기 위해 상기 화상은 2-4번 다운 샘플된다. 4 레벨 화상 피라미드의 결과 가장 세밀한 원래 해상도 레벨에서 24 화소의 거리가 가장 대강의 레벨에서 3 화소만으로 표현된다. 제트(jet)는 상기 피라미드의 어느 레벨에서든지 계산되고 비교될 수 있다.

상기 가우스 이미지 피라미드 상에서 노드(node) 추적은 일반적으로 가장 세밀한 레벨에 앞서 우선 가장 대강의 레벨에서 수행된다. 상술한 바와 같이 제트(jet)는 상기 감쇠 선형 운동 추정 X_(n+1) = (X_n + D_n)을 사용하여 상기 위치 X_(n+1)에서 실제 화상 프레임 I_(n+1)의 가장 대강의 가우스 레벨에서 추출되고, 이전 화상 프레임의 가장 대강의 가우스 레벨에서 계산된 대응 제트(jet)와 비교된다. 이런 두 제트(jet)로부터, 상기 디스패리티(disparity)가 결정된다, 즉, 2D 벡터 R은 X_(n+1)에서 상기 이전 프레임의 제트(jet)에 가장 잘 대응하는 위치까지 가리킨다. 이 새로운 위치는 X_(n+1)로 정해진다. 상기 디스패리티(disparity) 계산은 더 상세하게 이하에서 설명된다. 가장 대강의 가우스 레벨에서 위치 X_(n+1)에 대응하는, 실제 화상의 다음 더 세밀한 가우스 레벨에서 위치(2*X_(n+1))는 이 다음 세밀한 레벨에서 디스패리티(disparity) 계산을 위한 기점이다. 이 점에서 추출된 제트(jet)는 상기 이전 화상 프레임의 동일한 가우스 레벨에서 계산된 대응 제트(jet)와 비교된다. 이 프로세스는 가장 세밀한 해상도 레벨에 이르거나, 상기 이전 프레임의 위치에 대응하는 노드(node)의 위치를 결정하기 위해 특정된 가우스 레벨에 이를 때까지 모든 가우스 레벨에 대해 반복된다.

상기 가우스 이미지 피라미드의 두 대표적인 레벨은 위에 더 대강의 레벨(194)과, 아래에 더 세밀한 레벨(196)로, 도 19에 나타내고 있다. 각 제트(jet)는 두 주파수 레벨에 대한 필터 응답을 가진다고 가정한다. 상기 더 대강의 가우스 레벨의 위치 1, X_(n+1)=X_n+D_n에서 시작하면, 가장 낮은 주파수 제트(jet) 계수만을 사용한 제1 디스패리티(disparity) 이동은 위치 2에 도달한다. 양 주파수 레벨의 모든 제트(jet) 계수를 사용함으로써 제2 디스패리티 이동은 이 가우스 레벨의 최종 위치, 위치 3에 도달한다. 상기 더 세밀한 가우스 레벨의 위치 1은 상기 좌표가 두배로 되어 상기 더 대강의 레벨의 위치 3에 대응된다. 상기 디스패리티(disparity) 이동 시퀀스는 반복되고, 상기 가장 세밀한 가우스 레벨의 위치 3은 상기 추적된 표식의 최종 위치이다.

실제 화상 프레임에서 추적된 노드(node)의 새로운 위치가 결정된 후에, 모든 가우스 레벨의 제트(jet)는 이 위치에서 계산된다. 그리고 나서 상기 추적된 노드(node)를 나타내는 이전 프레임에 대해 계산된 제트(jet)들의 저장 배열은, 상기 현재 프레임에 대해 계산된 제트(jet)들의 새로운 배열로 대체된다.

가우스 이미지 피라미드법은 두 가지 주요한 이점이 있다: 첫째, 노드(node)의 이동은 상기 원래 화상에서보다 더 대강의 레벨의 화소 견지에서 훨씬 더 작은데, 그것은 큰 화상 영역에서 소모적인 탐색 대신에 국부 이동만을 수행함으로써 추적을 가능하게 한다. 둘째, 제트(jet) 성분의 계산은 상기 원래 해상도 화상에 대한 큰 커널(kernel) 윈도에서보다, 다운 샘플된 화상에 대한 작은 커널(kernel) 윈도로 수행되기 때문에, 상기 계산은 더 낮은 주파수에 대해 훨씬 빠르다.

대응 레벨은 동적으로 선택될 수 있다, 예를 들면, 얼굴 특징을 추적하는 경우에, 대응 레벨은 상기 얼굴의 실제 크기에 따라 선택될 수 있다. 또한 상기 가우스 이미지 피라미드의 크기는 상기 추적 프로세스를 통하여 변경될 수 있다, 즉, 상기 크기는 운동이 더 빨라질 때 커질 수 있고, 운동이 더 느려질 때 작아질 수 있다. 전형적으로, 가장 대강의 가우스 레벨에서 최대 노드(node) 이동은 1 내지 4 화소 범위에 한정된다. 상기 운동 추정은 종종 가장 대강의 레벨에서만 수행된다.

동일한 가우스 레벨에 주어진 두 제트(jet)간 변위 벡터(상기 디스패리티 벡터)의 계산을 설명한다. 두 연속 프레임간 변위를 계산하기 위해, D. J. Fleet and A. D. Jepson, "Computation of component image velocity from local phase information", International Journal of Computer Vision, volume 5, issue 1, 77-104 페이지, 1990과 W. M. Theimer and H. A. Mallot, "Phase-based binocular vergence control and depth reconstruction using active vision", CVGIP:Image Understanding, volume 60, issue 3, 343-358 페이지, November 1994를 바탕으로 하여, 입체 화상에서 디스패리티(disparity) 추정을 위해 본래 개발되었던 방법이 사용된다. 상기 복소 필터 응답 위상의 뚜렷한 변화는 서브픽셀 정확성을 가진 변위를 계산하는데 사용된다(Wiskott, L., "Labeled Graphs and Dynamic Link Matching for Face Recognition and Scene Analysis", Verlag Harri Deutsch, Thun-Frankfurt am Main, Reihe Physik 53, PhD Thesis, 1995 참조). 진폭 a_j및 위상 Φ_j에 의해 j번째 가버(Gabor) 필터에 상기 응답 J를 쓰면, 유사 함수는 다음과 같이 정의될 수 있다.

J와 J'는 위치 X와 X'=X+d에서 두 제트(jet)라고 하고, k_j는 J_j를 발생시키는 필터와 관련된 파동벡터일 때, 상기 변위 d는 상기 유사도 S를 d에 관하여 최대로 함으로써 구할 수 있다. d의 추정은 작은 변위, 즉, 상기 가버 제트(Gabor jet)의 큰 오버랩에 대해서만 정확하기 때문에, 큰 변위 벡터는 제1 추정으로만 다루어지고, 상기 프로세스는 다음과 같은 식으로 반복된다. 우선, 가장 낮은 주파수 레벨의 필터 응답만이 제1 추정 d_1으로 사용된다. 다음으로, 이 추정은 수행되고 상기 제트(jet) J는 상기 위치 X_1=X+d_1에서 재계산되는데, 그것은 제트(jet) J'의 위치 X'보다 더 가깝다. 그리고 나서, 가장 낮은 두 주파수 레벨은 변위 d_2의 추정에 사용되고, 상기 제트(jet) J는 위치 X_2 = X_1 + d_2에서 재계산된다. 이것은 사용된 가장 높은 주파수에 이를 때까지 되풀이되고, 상기 두 시작 제트(jet) J 및 J'간 최종 디스패리티 d는 합 d = d_1 + d_2 + ...으로 주어진다. 따라서, 가장 낮은 주파수를 가진 커널(kernel) 파장의 반까지의 변위가 계산될 수 있다(위에 Wiskott 1995 참조).

상기 변위는 부동 소수점수를 사용하여 결정되지만, 제트(jet)는 (정수) 화소 위치에서만 추출(즉, 중첩에 의해 계산)되어, 계통 끝맺음 오차를 생성한다. 이 서브픽셀 오차 △d를 보상하기 위해, 상기 복소 가버(Gabor) 필터 응답의 위상은 다음에 따라 제트(jet)가 정확한 서브픽셀 위치에서 추출되는 것처럼 나타나도록 이동되어야 한다.

따라서, 상기 가버 제트(Gabor jet)는 끝맺음 오차 없이 서브픽셀 정확성으로 추적될 수 있다. 서브픽셀 정확성의 문제는 대부분의 다른 화상 처리 방법에서 설명하기가 더 곤란하기 때문에 가버 제트(Gabor jet)는 실질적인 이점을 제공한다.

또한 오차를 추적하는 것은 신뢰도나 유사도 값이 미리 정해진 임계값보다 더 작은지를 결정함으로써 검출될 수 있다(도 17의 184). 상기 유사도(또는 신뢰도) 값 S는 상기 두 화상 프레임에서 상기 두 화상 영역이 연속 화상 프레임간 노드(node)의 변위 계산과 함께 서로 얼마나 잘 대응하는지를 나타내기 위해 계산될 수 있다. 전형적으로, 상기 신뢰도 값은 1에 가까워서, 잘 대응하는 것을 나타낸다. 상기 신뢰도 값이 1에 가깝지 않으면, 상기 화상에서 대응점을 구하지 못하거나(예를 들면, 상기 프레임 속도는 상기 움직이는 물체의 속도보다 너무 낮았다), 이 화상 영역은 한 화상 프레임에서 다음 화상 프레임으로 너무 격렬하게 변화해서 상기 대응은 더 이상 잘 정해지지 않는다(예를 들면, 눈의 동공을 추적하는 노드에 대해 눈꺼풀이 닫혀졌다). 신뢰도 값이 특정 임계값 이하인 노드(node)는 바꾸어질 수 있다.

또한 기하학적 제한이 위반될 때 추적 오차는 검출될 수 있다(186). 많은 노드들이 동시에 추적되면, 상기 노드(node)의 기하학적 구성은 일관성을 위해 검사될 수 있다. 그런 기하학적 제한은 아주 느슨할 수 있다, 예를 들면, 얼굴 특징이 추적될 때, 상기 코는 상기 눈과 입 사이에 있어야 한다. 대체적으로, 그런 기하학적 제한은 다소 정확할 수 있다, 예를 들면, 추적된 얼굴의 정확한 형태 정보를 포함하는 모델. 중간 정확성을 위해, 상기 제한은 평면 모델에 기초를 둘 수 있다. 상기 평면 모델에서, 상기 얼굴 그래프의 노드(node)는 평면 위에 있다고 가정한다. 정면도로 시작한 화상 시퀀스에 대해, 상기 추적된 노드(node) 위치는 관계 변환에 의해 상기 실제 프레임으로 변환된 정면 그래프의 대응 노드(node) 위치와 비교될 수 있다. 최적 관계 변환의 6 매개 변수는 상기 노드(node) 위치에서 최소 제곱 오차를 최소화함으로써 구한다. 상기 추적된 노드(node) 위치와 상기 변환된 노드(node) 위치간 편차는 임계값과 비교된다. 상기 임계값보다 편차가 더 큰 노드(node)는 바뀐다. 상기 관계 변환의 매개 변수는 상기 자세 및 (상기 시작 그래프와 비교한) 상대 스케일을 동시에 결정하는데 사용될 수 있다(188). 따라서, 이 개략적인 평면 모델은 추적 오차가 미리 정해진 임계값을 넘지 않도록 한다.

추적 노드(node)가 추적 오차 때문에 바뀌면, 상기 노드(node)는 정확한 위치에서 재개되어(190), 상이한 자세를 포함하는 집군 그래프를 유리하게 사용하고 상기 정확한 위치에서 계속 추적한다(192). 추적 노드(node)가 바뀐 후에, 상기 시스템은 자세 특정 집군 그래프가 존재하는 미리 정해진 자세에 이를 때까지 기다릴 수 있다. 그렇지 않고, 정면 집군 그래프만이 저장되면, 상기 시스템은 정면 자세의 추적 오차가 보정될 때까지 기다려야 한다. 제트(jet)들의 저장된 집군은 알맞은 위치를 둘러싼 화상 영역과 비교되는데(예를 들면, 상기 평면 모델에서), 그것은 상기 이전 화상 프레임의 제트(jet)와 비교하는 대신에, 예들의 집군 제트(jet) 전부와 반복해서 비교되어, 가장 유사한 것을 택하는 점을 제외하고는, 추적과 같은 식으로 작동한다. 상기 얼굴 특징들, 예를 들면, 실제 자세, 스케일, 및 심지어 대강의 위치는 알려져 있기 때문에, 그래프 정합이나 상기 화상 및/또는 자세 공간에서 철저한 탐색은 필요 없고 노드(node) 추적 보정은 실시간으로 수행될 수 있다.

추적 보정을 하기 위해, 도 20에 나타낸 바와 같이 스케일 뿐만 아니라 상기 화상 평면에서 회전은 집군 그래프의 국부 화상 영역이나 제트(jet)를 변환함으로써 고려될 수 있기 때문에 상기 집군 그래프는 여러 가지 상이한 자세 및 스케일이 필요 없다. 정면 자세 이외에, 집군 그래프는 깊이 회전에 대해서만 만들어질 필요가 있다.

재초기화 프로세스의 속도는 추적된 사람의 동일성이 화상 시퀀스 동안 같다라는 사실을 이용함으로써 증가될 수 있다. 따라서, 초기 학습 세션에서, 상기 사람의 제1 시퀀스는 정면 얼굴 표정들의 충분한 레퍼터리를 나타내는 사람으로 정해질 수 있다. 이 제1 시퀀스는 많은 상이한 사람들에 관해 알고 있는 크게 일반화된 집군 그래프를 바탕으로 하여 상술한 추적 및 보정 체계를 사용하여 매우 정확하게 추적될 수 있다. 이 프로세스는 오프라인으로 수행될 수 있고 새로 개인별 집군 그래프를 만들어낸다. 그때 상기 개인별 집군 그래프는 더 큰, 일반화된 집군 그래프보다 훨씬 작기 때문에 상기 개인별 집군 그래프는 이 사람을 빠른 속도로 실시간에 추적하는데 사용될 수 있다.

또한 상기 재초기화 프로세스의 속도는 부분 집군 그래프 재초기화를 사용함으로써 증가될 수 있다. 부분 집군 그래프는 완전 집군 그래프 노드(node)들의 부분 집합만을 포함한다. 상기 부분 집합은 단지 노드(node) 하나만큼 작을 수 있다.

자세 추정 집군 그래프는 상기 화상 평면에 정의된 2차원 집군 그래프의 패밀리를 이용한다. 한 패밀리 내에서 상이한 그래프들은 상기 머리의 상이한 자세 및/또는 스케일을 설명한다. 상기 표식 찾기 프로세스는 상기 화상에서 머리의 자세나 크기를 결정하기 위하여 상기 패밀리로부터 각 집군 그래프를 입력 화상에 정합하려고 한다. 그런 자세 추정 절차의 예는 도 21에 나타나 있다. 상기 자세 추정의 첫 단계는 정규 표식 찾기와 같다. 상기 화상(198)은 상기 그래프 유사 함수를 사용하기 위하여 변환된다(200 및 202). 그리고 나서, 하나만이 아니라, 세 집군 그래프들의 패밀리가 사용된다. 첫 번째 집군 그래프는 (상술한 정면도와 같은) 정면 얼굴만을 포함하고, 다른 두 집군 그래프는 4분의 1 회전된 얼굴(좌회전한 것 및 우회전한 것)을 포함한다. 이전과 마찬가지로, 상기 그래프의 각각에 대한 초기 위치는 상단 좌측 모서리에 있고, 상기 그래프들의 위치는 상기 화상 및 위치에 대해 스캔되어 상기 표식 찾기 후에 가장 유사도가 높은 그래프가 선택된다(204-214).

각 그래프에 대한 초기 정합 후에, 상기 최종 위치의 유사도가 비교된다(216). 상기 화상에 대한 자세에 가장 잘 대응하는 그래프의 유사도가 가장 높을 것이다(218). 도 21에서, 유사도에 의해 나타낸 바와 같이, 좌회전한 그래프는 상기 화상에 가장 잘 맞는다. 상기 그림에서 얼굴의 해상도 및 회전 각도에 따라, 상기 정확한 그래프 및 다른 자세에 대한 그래프의 유사도는 변하고, 상기 그래프들이 정의된 두 자세 사이에 상기 얼굴이 중간에 있을 때 유사도는 매우 가깝다. 더 많은 자세에 대한 집군 그래프를 만듦으로써, 머리 회전 각도들을 구별하고 다른 방향(예를 들면 위 또는 아래) 회전을 다루는 더 세밀한 자세 추정 절차가 구현될 수 있다.

상기 사진기로부터 임의 거리에서 얼굴을 로버스트(robust)하게 찾기 위하여, 스케일이 다른 두세 개의 상이한 집군 그래프 각각을 이용하는 유사한 방법이 사용될 수 있다. 상기 화상에서 얼굴은 상기 얼굴 화상을 최대한 반환하는 집군 그래프의 스케일과 같다고 가정할 것이다.

또한 상술한 기술과 관련된 3차원(3D) 표식 찾기 기술은 상이한 자세에 적합한 다수의 집군 그래프들을 사용할 수 있다. 그러나, 상기 3D 방법은 3D 공간에서 정의된 하나의 집군 그래프만을 사용한다. 상기 3D 그래프의 기하학은 보통 얼굴 또는 머리 기하학을 반영한다. 상이한 회전 각도에서 몇 사람의 얼굴 화상으로부터 제트(jet)를 추출함으로써, 2D 방법과 유사한 3D 집군 그래프가 만들어진다. 각 제트(jet)는 세 가지 회전각으로 매개 변수화된다. 상기 2D 방법에서와 같이, 상기 노드(node)는 머리 표면의 기저점에 있다. 그때 상기 정합 프로세스에서, 상기 3D 그래프의 투영법이 사용된다. 상기 3D 방법의 한 가지 중요한 일반화는 모든 노드(node)가 상이한 자세에 적합한 집군 제트(jet)의 매개 변수화된 패밀리를 가지고 있다라는 것이다. 두 번째 일반화는 상기 그래프가 상기 상면(image plane)에서 변환만이 아니라 3D 공간에서 유클리드 변환을 겪을 수 있다는 것이다.

상기 3D 그래프 정합 프로세스는 우선 노드(node)와 커널(kernel)이 거의 없는 그래프를 이용하고 나서 다음 단계에서 더 조밀한 그래프를 이용하는 대강에서 세밀한쪽으로의 방법으로서 공식화될 수 있다. 상기 얼굴의 특정 영역에 상기 특징점의 고정밀 국부화를 원하면 상기 대강에서 세밀한쪽으로의 방법은 특히 적당하다. 따라서, 먼저 더 대강의 해상도에서 표식 찾기가 수행된 후에, 특정 영역을 더 상세하게 분석하기 위해 적합한 그래프가 고해상도에서 검사되는 계층적 방법을 채택함으로써 계산 노력을 덜게 된다.

더우기, 계산 작업량은 다중 처리 기계에서 쉽게 분배되어서 상기 대강의 영역을 찾으면, 차일드(child) 프로세스들은 전체 화상의 부분에 대해 각각 평행하게 작동하기 시작한다. 차일드(child) 프로세스들의 끝에서, 상기 프로세스들은 마스터(master) 프로세스의 위치를 가리키는 특징 좌표를 알리는데, 상기 마스터(master) 프로세스는 상기 원래 화상에 맞게 하기 위해 그것들을 적당히 기준화하고 결합하여서 총 계산 시간을 줄인다.

머리의 텍스처 맵트(texture mapped) 3D 모델을 구성하기 위해 수많은 방법들이 개발되었다. 이 절은 입체에 기초를 둔 방법을 설명한다. 상기 입체에 기초를 둔 알고리즘은 완전히 교정된 사진기에 대해 설명된다. 상기 알고리즘은 화상 화소의 영역에 기초를 둔 정합을 수행하고, 조밀 3-D 정보가 필요한 경우에 적당하다. 그때 그것은 주요한 물체 설명을 정확하게 정의하기 위해 사용될 수 있다. 입체 이미징 및 정합에 관한 그밖의 배경 정보는 U. Dhond and J. Aggrawal, "Structure from Stereo: a review", IEEE Transactions on System, Man, and Cybernetics, 19(6), 1489-1510 페이지, 1989, 또는 더 최근에 R. Sara and R. Bajcsy, "On Occluding Contour Artifacts in Stereo Vision", Proc. Int. Conf. Computer Vision and Pattern Recognition, IEEE Computer Society, Puerto rico, 1997.; M. Okutomi and T. Kanade, "Multiple-baseline Stereo", IEEE Trans. on Pattern Analysis and Machine Intelligence, 15(4), 353-363 페이지, 1993; P. Belhumeur, "A Bayesian Approach to Binocular Stereopsis'", Intl. J. of Computer Vision, 19(3), 237-260 페이지, 1996; Roy, S. and Cox, I., "Maximum-Flow Formulation of the N-camera Stereo Correspondence Problem", Proc. Int. Conf. Computer Vision, Narosa Publishing House, Bombay, India, 1998; Scharstein, D. and Szeliski, R., "Stereo Matching with Non-Linear Diffusion", Proc. Int. Conf. Computer Vision and Pattern Recognition, IEEE Computer Society, San Francisco, CA, 1996; 및 Tomasi, C. and Manduchi, R., "Stereo without Search", Proc. European Conf. Computer Vision, Cambridge, UK, 1996에서 찾을 수 있다.

입체 영상 기술에서 중요한 문제는 대응(정합) 문제로서 알려져 있다; 즉 쌍안 입체로부터 범위 데이터를 회복하기 위해, 공간 3D 점의 대응 투영은 좌우 화상에서 발견되어야 한다. 탐색 공간 차원을 줄이기 위해 외극(epipolar) 제한이 적용된다(S. Maybank and O. Faugeras, "A Theory of Self-calibration of a Moving Camera", Intl. J. of Computer Vision, 8(2), 123-151 페이지, 1992 참조). 입체 영상 기술은 4 단계 프로세스로 공식화될 수 있다:

· 교정: 상기 사진기의 매개 변수 계산.

· 조정: 상기 화상에서 대응 특징이 동일선 위에 있도록, 입체 쌍이 투영된다. 이런 선은 외극(epipolar)선이라고 불린다. 상기 정합 프로세스가 조정된 화상에서 수평선을 따라, 1차원 탐색으로서, 수행될 수 있을 때, 이것은 절대로 필요한 것은 아니지만 상기 알고리즘의 성능을 크게 향상시킨다.

· 정합: 비용 함수는 탐색 윈도에서 각 위치에 대해 국부적으로 계산된다. 상관의 최대값은 상기 입체 쌍에서 대응 화소를 선택하는데 사용된다.

· 재구성: 3-D 좌표는 상기 입체 쌍에서 정합된 화소 좌표로부터 계산된다.

정합 오차를 제거하기 위하여 상기 정합 직후에 후처리를 더할 수 있다. 상기 정합이 국부적으로 행해지기 때문에 정합 모호성은 대개 오차를 일으킬 수 있다. 필터링 뿐만 아니라 기하학적 제한은 잘못된 매치(match)의 수를 줄이기 위해 적용될 수 있다. 또한 연속면(예를 들면 정면 위치에서 얼굴)을 다룰 때 보간법은 매치(match)되지 않은 영역(대개 상관 점수가 명확한 단일모드 최대값을 갖지 않는 논텍스처드 영역)을 회복하는데 사용될 수 있다.

상기 조정 및 재구성 프로세스에서 사용된 식을 가져오는 형식은 사영 기하학이라 불리고 O. Faugeras, "Three-Dimensional Computer Vision, A Geometric Viewpoint", MIT Press, Cambridge, Massachusetts, 1993에 상세하게 제시된다. 사용된 모델은 상당한 이점들을 제공한다. 일반적으로, 도 22에 나타낸, 간단한 바늘 구멍 사진기 모델을 가정한다. 또한 필요하면, 렌즈 왜곡이 교정 시간에서 계산될 수 있다(가장 중요한 인자는 방사상 렌즈 왜곡). 실용적인 관점으로부터, 상기 교정은 교정 보조 기구, 즉 3-D 구조가 알려진 물체를 사용하여 행해진다. 대개, 도 23에 나타낸 바와 같이 가시 도트나 정방형 패턴을 가진 정육면체가 교정 보조 기구로서 사용된다.

상기 조정 알고리즘을 단순하게 하기 위해, 대응점들이 동일 화상선 위에 있도록, 각 입체 쌍의 입력 화상은 먼저 조정된다(N. Ayache and C. Hansen, "Rectification of Images for Binocular and Trinocular Stereovision", Proc. of 9th International Conference on Pattern Recognition, 1, 11-16 페이지, Italy, 1988 참조). 그때, 대응점의 좌표는 좌우 조정 화상에서 (u_L, v_L) 및 (u_L-d,v_L)이라 정의되는데, 여기서 "d"는 디스패리티(disparity)로서 알려져 있다. 상기 조정 프로세스의 세부 사항에 대해, 위 Faugeras를 참조해라. 조정 평면(상기 조정된 화상을 얻기 위해 상기 화상을 투영하는데 사용된 평면)의 선택은 중요하다. 대개 이 평면은 상기 투영된 화상의 왜곡을 최소화하도록 선택되어서, 도 24에 나타낸 바와 같이 대응 화소는 상기 동일선 번호에 있다(외극선은 평행하게 정렬된다). 그런 구성은 표준 기하학이라고 불린다.

도 26에 의하면, 정합은 좌우 화상에서 대응점을 찾는 프로세스이다. 상관 함수는 이 디스패리티(disparity)를 측정하는데 사용될 수 있다; 예를 들면 규준화된 상호 상관(H. Moravec, "Robot Rover Visual Navigation", Computer Science: Artificial Intelligence, 13-15, 105-108 페이지, UMI Research Press 1980/1981 참조)은 다음과 같이 주어진다:

여기서 I_L및 I_R은 좌우 조정 화상이다. 상기 상관 함수는 점 (u_L, v_L) 및 (u_R,v_R)에서 사각 영역에 적용된다. 도 25에 나타낸 바와 같이, 상기 비용 함수 c(I_L, I_R)은 (상기 조정 프로세스 때문에) 크기 1×N의 탐색 윈도에 대해 계산되는데, 여기서 N은 허용 가능한 정수이다. 상기 좌화상에서 각 화소 (u_L, v_L)에 대해, 상기 정합은 "d"가 상기 점 (u_L, v_L)에서의 디스패리티(disparity)로서 정의되는 상관 프로파일 c(u_L, v_L, d)를 산출한다, 즉:

두 번째 식은 외극(epipolar)선이 정렬된다는 것을 나타낸다. 결과적으로 상기 정합 절차는 디스패리티 맵(disparity map), 즉 기준 화상(여기서 상기 입체 쌍의 좌화상)에 겹쳐놓일 수 있는 디스패리티(disparity)들의 화상을 출력한다. 상기 디스패리티 맵(disparity map)은 "상기 입체 쌍의 우화상에서 대응 화소를 찾기 위해 상기 외극(epipolar)선을 따라 얼마나 이동해야 하는지"를 알려준다.

정합시 몇 가지가 개선될 수 있다. 예를 들면 가능한 대응 리스트가 각 점에 있고 가시도 제한, 순서 제한, 및 디스패리티(disparity) 구배 제한과 같은 제한들(A. Yuille and T. Poggio, "A Generalized Ordering Constraint for Stereo Correspondence", MIT, Artificial Intelligence Laboratory Memo, No. 777, 1984; 위, Dhond 등; 및 위, Faugeras 참조)은 불가능한 구성을 제거하는데 사용될 수 있다(위, R. Sara 등, 1997 참조). 또한 교차 정합을 사용할 수 있는데, 상기 정합은 좌에서 우로 그리고 나서 우에서 좌로 수행되고, 양 매치(match)가 동일 화상 화소를 가져오면 후보(상관 피크)를 받아들인다, 즉 다음과 같은 경우이다,

여기서 d_LR은 좌에서 우로 그리고 d_RL은 우에서 좌로 정합할 때 디스패리티(disparity)이다. 더우기 피라미드형 전략은 상기 탐색 윈도를 제한함으로써 전체 정합 프로세스를 촉진하는데 사용될 수 있다. 이것은 이전 레벨의 추정을 사용하여, 해상도 피라미드의 각 레벨에서 정합을 수행하여 구현된다. 또한 계층적 체계는 표면 연속성을 강요한다.

입체가 2-D 세그먼테이션 목적에 사용될 때, 상기 디스패리티 맵(disparity map)만이 필요하다. 그때 전술한 교정 프로세스를 사용하지 않고, 기본 행렬을 이용할 수 있으면 교정될 수 있는 사영 기하학의 결과를 사용할 수 있다(Q.T. Luong, "Fundamental Matrix and autocalibration in Computer Vision", Ph.D. Thesis, University of Paris Sud, Orsay, France, December 1992 참조). 상기 기본 행렬은 상기 화상을 교정하는데 사용되어서, 전술한 바와 같이 정합이 수행될 수 있다.

상기 3-D 위치 추정을 개선하기 위해, 상기 정수 디스패리티 맵(disparity map)의 서브픽셀 보정의 결과 서브픽셀 디스패리티 맵이 계산된다. 상기 서브픽셀 디스패리티 맵은 다음 중 어느 한 가지 방법으로 구할 수 있다:

· 검출된 최대값 근처에서 상기 보정 점수의 2차 보간법을 사용하기,

· F. Devernay, "Computing Differential Properties of {3-D} Shapes from Stereoscopic Images without {3-D} Models", INRIA, RR-2304, Sophia Antipolis, 1994(그것은 평면 패치의 상을 비춘다고 가정하여, 투시 투영에 의해 유도된 좌우 상관 윈도간 왜곡을 고려한다)에서 설명된 것과 같은 더 일반적인 방법을 사용하기.

첫 번째 방법은 가장 빠르지만, 두 번째 방법은 더 신뢰할 수 있는 서브픽셀 디스패리티의 추정을 제공한다. 추정의 정확성을 유지하면서도, 서브픽셀 추정을 빨리 하기 위해, 다음과 같이 진행한다. I_L및 I_R은 좌우 교정 화상이라고 하자. ε은 미지의 서브픽셀 보정이고, A(u, v)는 좌화상에서 우화상으로 상기 상관 윈도를 사상하는 변환(평면 표적에 대해 그것은 상열을 유지하는 관계 사상이다)이라고 하자. 상기 좌우 화상에서 대응 화소에 대해,

여기서 계수 α는 사진기 이득에서 가능한 차이를 고려한다. 'ε'과 'A'에 관하여 상기 식의 1차 선형 근사는 각 계수가 상기 대응하는 좌우 상관 윈도에서 추정되는 선형 시스템을 제공한다. 이 선형 시스템의 최소 제곱 해는 상기 서브픽셀 보정을 제공한다.

(정면 자세에서 얼굴처럼) 연속면이 회복되는 경우에, 보간법 체계가 필터된 디스패리티 맵(disparity map)에 사용될 수 있다. 그런 체계는 다음 고려 사항으로부터 유도될 수 있다. 하면이 연속적이라고 가정할 때, 보간된 평활화 디스패리티 맵 d는 다음 식을 입증하여야 한다:

여기서 λ는 평활화 매개 변수이고 상기 적분은 화상에 (화소 좌표 u와 v에 대해) 행해진다. 반복적인 알고리즘은 오일러 방정식과, 라플라스의 연산자 ∇의 근사를 사용하여 간단하게 구해진다.

상기 디스패리티 맵(disparity map) 및 사진기 교정으로부터, 상기 3D 점의 공간 위치는 삼각법에 기초하여 계산된다(위, Dhond 등 참조). (하나의 입체 화상 쌍으로부터) 상기 재구성의 결과는 공간점들의 리스트이다.

몇 개의 화상이 사용되는 경우에(다안 입체) 입증 단계가 사용될 수 있다(R. Sara, "Reconstruction of 3-D Geometry and Topology from Polynocular Stereo", http://cmp.felk.cvut.cz/~sara 참조). 이 절차 동안, 모든 입체 쌍으로부터, 재구성된 점들의 집합은 모든 사진기 쌍들의 디스패리티 공간에 다시 투영되고 상기 투영된 점들이 상기 쌍들 각각의 다른 화상에서 예측 위치와 정합하면 입증된다. 상기 입증은 부정합점(특히 맞물림 근처에서 정합한 것)을 매우 효과적으로 제거하는 것 같다.

도 26은 텍스처 빛을 투영하여 얻은 화상의 입체 쌍에 입체 알고리즘을 적용한 대표적인 결과를 나타낸다. 도 26의 윗 줄은 피검자가 움직이지 않게 하여 단시간에 택한 좌우 및 컬러 화상을 나타낸다. 아랫 줄은 텍스처 화상에 입체를 적용하여 구하고, 상기 컬러 화상으로 텍스처 맵트 재구성된 얼굴 모델의 두 가지 뷰(view)를 나타낸다. 보간법 및 필터링이 상기 디스패리티 맵(disparity map)에 적용되어서, 상기 얼굴에 대한 재구성은 순조롭고 연속적이다. 또한 상기 결과는 상기 입체로부터 구한 점들의 원집합으로서 디스플레이된다; 예를 들면 저장된 갤러리 화상으로부터 추출된 제트(jet)와 위치가 비교될 수 있는 알고리즘을 사용하면 이런 점들은 망상으로 만들어져 연속면을 얻을 수 있다. 얼굴 인식 응용을 위한 경우와 같이, 완전 그래프가 비교되거나, 부분 그래프 또는 심지어 개개의 노드(node)만이 비교된다.

상기 제트(jet)가 실제 비교하기 위해 추출되기 전에, 수많은 화상 규준화가 사용된다. 그런 규준화는 배경 억제라고 불린다. 프로브와 갤러리 화상간 상이한 배경은 유사도를 낮추고 오분류(misclassification)를 자주 가져오기 때문에 프로브 화상에 미치는 상기 배경의 영향은 억제될 필요가 있다. 따라서 상기 얼굴을 둘러싼 노드(node)와 에지(edge)를 얼굴 경계로서 택한다. 상기 얼굴에서 벗어날 때 배경 화소의 색조는 온화하게 낮아진다. 상기 머리를 제외한 각 화소값은 다음과 같이 변경된다:

여기서

이고 c는 상기 그래프의 가장 가까운 변으로부터 화소 위치의 유클리드 거리를 나타내는 일정한 배경 그레이 값이다. d₀는 일정한 톤 다운(tone down) 값이다. 물론, 상기 그래프 경계로부터 화소 값과 거리간 다른 함수 종속이 가능하다.

도 28에 나타낸 바와 같이, 자동 배경 억제는 가장 가까운 변으로부터 벗어날 때 상기 그레이 값을 상수로 드래그(drag)한다. 이 방법은 여전히 상기 얼굴을 둘러싼 배경 영역을 볼 수 있게 하지만, 그것은 상기 화상에서 강한 동요 에지(edge)를 피하는데, 그것은 이 영역이 일정한 그레이 값만으로 채워지면 생길 것이다.

본 발명의 특정 실시예들을 참고하여 전술하였지만, 이것은 설명일 뿐이고 이런 실시예는 본 발명의 원리, 첨부된 청구항에 의해 한정된 범위에서 벗어나지 않게 변화될 수 있다고 당업자는 생각할 것이다.

상기에서 설명한 바와 같이, 본 발명은 인간의 얼굴과 같은 비디오 화상에서 물체를 검출하며, 상기 물체를 실시간으로 추적하고 식별하는데 사용될 수 있다.

본 발명의 시스템은 다양한 자세각에 대하여 사람을 인식하는데 특히 유리하다.

Claims

화상 프레임에서 물체를 인식하기 위한 프로세스에 있어서,

상기 화상 프레임에서 물체를 검출하고 상기 물체와 관련된 화상 프레임 부분의 경계를 긋는 단계와,

변환 화상을 만들어내기 위해 웨이브렛(wavelet) 변환을 사용하여 상기 화상 프레임의 경계 부분을 변환하는 단계와,

복수의 대표 물체상으로부터 만들어진 집군 그래프(bunch graph)의 웨이브렛 제트(wavelet jet)에 의해 정의된 물체의 두드러진 특징과 관련된 노드(node)의 위치를 상기 변환 화상에서 찾아내는 단계와,

물체상들의 갤러리에서 물체상과 관련된 웨이브렛 제트(wavelet jet)와 상기 변환 화상의 노드(node)에서 웨이브렛 제트(wavelet jet)간 유사도를 바탕으로 하여 상기 물체를 식별하는 단계를 포함하는 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 검출된 물체가 상기 경계 부분의 내부에 미리 정해진 크기와 위치를 가지도록 상기 화상의 경계 부분의 내부에 상기 검출된 물체를 사이징(sizing)하고 중심에 놓는 단계를 더 포함하는 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 물체를 식별하기 전에 상기 물체와 관련 없는 화상 프레임의 상기 경계 부분의 배경 부분을 억제하는 단계를 더 포함하는 물체를 인식하기 위한 프로세스.
제3항에 있어서, 상기 억제된 배경 부분은 상기 화상 프레임의 상기 경계 부분내의 물체의 에지(edge) 근처에서 점차 억제되는 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 물체는 얼굴 부분(region)을 나타내는 사람의 머리인 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 집군 그래프는 상기 물체의 3차원 표현에 기초를 둔 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 웨이브렛(wavelet) 변환은 하드웨어 어댑트(adapted) 위상 표현을 사용한 위상 계산에 의해 행해지는 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 위치 찾기 단계는 대강에서 세밀한쪽으로의 방법(coarse-to-fine approach)을 사용하여 수행되는 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 집군 그래프는 미리 정해진 자세를 바탕으로 한 물체를 인식하기 위한 프로세스.
제1항에 있어서, 상기 식별 단계는 상기 물체의 3차원 표현을 사용하는 물체를 인식하기 위한 프로세스.
일련의 화상 프레임에서 물체를 인식하기 위한 프로세스에 있어서,

상기 화상 프레임에서 물체를 검출하고 상기 물체와 관련된 각 화상 프레임 부분의 경계를 긋는 단계와,

변환 화상을 만들어내기 위해 웨이브렛(wavelet) 변환을 사용하여 각 화상 프레임의 경계 부분을 변환하는 단계와,

복수의 대표 물체상으로부터 만들어진 집군 그래프의 웨이브렛 제트(wavelet jet)에 의해 정의된 물체의 두드러진 특징과 관련된 노드(node)의 위치를 상기 변환 화상에서 찾아내는 단계와,

물체상(object image)들의 갤러리에서 물체상과 관련된 웨이브렛 제트(wavelet jet)와 상기 변환 화상의 노드(node)에서 웨이브렛 제트(wavelet jet)간 유사도를 바탕으로 하여 상기 물체를 식별하는 단계를 포함하는 물체를 인식하기 위한 프로세스.
제11항에 있어서, 상기 물체를 검출하는 단계는 상기 물체와 관련된 궤적을바탕으로 하여 화상 프레임간 물체를 추적하는 단계를 더 포함하는 물체를 인식하기 위한 프로세스.
제11항에 있어서, 특정 궤적에 속하는 뷰(view)들에서 물체의 가장 적당한 뷰(view)를 선택하는 프리실렉팅 프로세스(preselecting process)를 더 포함하는 물체를 인식하기 위한 프로세스.
제11항에 있어서, 상기 노드(node)의 위치를 찾아내는 단계는 화상 프레임간 노드(node)를 추적하는 단계를 포함하는 물체를 인식하기 위한 프로세스.
제14항에 있어서, 상기 노드(node)의 위치가 화상 프레임간의 미리 정해진 위치 제한(constraint)을 벗어나면 추적된 노드(node)를 재초기화하는 것으로 더 구성된 물체를 인식하기 위한 프로세스.
제15항에 있어서, 상기 미리 정해진 위치 제한은 상기 노드(node) 위치간 상대 위치와 관련된 기하학적 위치 제한(geometrical position constraint)에 기초를 둔 물체를 인식하기 위한 프로세스.
제11항에 있어서, 상기 화상 프레임은 입체 화상이고 상기 검출 단계는 상기 물체를 검출하기 위해 디스패리티 히스토그램과 실루엣 화상을 만들어내는 것을 포함하는 물체를 인식하기 위한 프로세스.
제17항에 있어서, 상기 디스패리티 히스토그램과 실루엣 화상은 머리 이동과 관련되며 볼록 검출기에 의해 검출된 볼록 영역을 만들어내는 물체를 인식하기 위한 프로세스.
제11항에 있어서, 상기 웨이브렛(wavelet) 변환은 하드웨어 어댑트 위상 표현을 사용한 위상 계산에 의해 수행되는 물체를 인식하기 위한 프로세스.
제11항에 있어서, 상기 집군 그래프는 상기 물체의 3차원 표현에 기초를 둔 물체를 인식하기 위한 프로세스.
제11항에 있어서, 상기 위치 찾기 단계는 대강에서 세밀한쪽으로의 방법을 사용하여 수행되는 물체를 인식하기 위한 프로세스.
제11항에 있어서, 상기 집군 그래프는 미리 정해진 자세를 바탕으로 한 물체를 인식하기 위한 프로세스.
화상 프레임에서 물체를 인식하기 위한 장치에 있어서,

상기 화상 프레임에서 물체를 검출하고 상기 물체와 관련된 화상 프레임 부분의 경계를 긋기 위한 수단과,

변환 화상을 만들어내기 위해 웨이브렛(wavelet) 변환을 사용하여 상기 화상 프레임의 경계 부분을 변환하기 위한 수단과,

복수의 대표 물체상으로부터 만들어진 집군 그래프의 웨이브렛 제트(wavelet jet)에 의해 정의된 물체의 두드러진 특징과 관련된 노드(node)의 위치를 상기 변환 화상에서 찾아내기 위한 수단과,

물체상들의 갤러리에서 물체상과 관련된 웨이브렛 제트(wavelet jet)와 상기 변환 화상의 노드(node)에서 웨이브렛 제트(wavelet jet)간 유사도를 바탕으로 하여 상기 물체를 식별하기 위한 수단을 포함하는 물체를 인식하기 위한 장치.
일련의 화상 프레임에서 물체를 인식하기 위한 프로세스에 있어서,

상기 화상 프레임에서 물체를 검출하고 상기 물체와 관련된 각 화상 프레임 부분의 경계를 긋기 위한 수단과,

변환 화상을 만들어내기 위해 웨이브렛(wavelet) 변환을 사용하여 각 화상 프레임의 경계 부분을 변환하기 위한 수단과,

복수의 대표 물체상으로부터 만들어진 집군 그래프의 웨이브렛 제트(wavelet jet)에 의해 정의된 물체의 두드러진 특징과 관련된 노드(node)의 위치를 상기 변환 화상에서 찾아내기 위한 수단과,

물체상들의 갤러리에서 물체상과 관련된 웨이브렛 제트(wavelet jet)와 상기 변환 화상의 노드(node)에서 웨이브렛 제트(wavelet jet)간 유사도를 바탕으로 하여 상기 물체를 식별하기 위한 수단을 포함하는 물체를 인식하기 위한 프로세스.