KR100343223B1

KR100343223B1 - 화자 위치 검출 장치 및 그 방법

Info

Publication number: KR100343223B1
Application number: KR1019990055577A
Authority: KR
Inventors: 강동중; 류성걸; 김지연; 김창용; 서양석
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1999-12-07
Filing date: 1999-12-07
Publication date: 2002-07-10
Also published as: US6611613B1; NL1016006C2; KR20010054674A; JP2001175869A; NL1016006A1

Abstract

본 발명은 입력된 영상 또는 비디오 영상에서 사람 얼굴의 위치를 발견하는 장치 및 그 방법에 관한 것이다. 본 발명에 의한 화자위치 검출장치는 입력된 RGB 영상에서, 강한 회색 특징을 나타내는 픽셀들을 검출하여 검출된 픽셀들이 형성하는 영역들 중에서 부분 응집 특성을 나타내고 텍스쳐 특징이 있는 영역들을 눈 후보 영역들로 결정하는 눈위치 검출수단; 눈 후보 영역들 중에서 2개씩 추출하여 미리 저장하고 있는 모델 템플레이트와 매칭시켜서 RGB 영상위에 복수 개의 탐색 템플레이트를 생성하고, 각 탐색 템플레이트에 대해 얼굴에 해당하는 색도값, 눈,코 및 입에 해당하는 수평 에지값들을 구하고, 탐색 템플레이트들중 색도값 및 수평 에지값에 대한 기준들을 최대로 만족하는 최적 탐색 플레이트를 결정하는 얼굴위치 결정수단; 및 영상의 한 프레임에 해당하는 크기의 형상 메모리를 구비하고, 최적 탐색 템플레이트내에서 얼굴이 포함되는 최소 외곽 사각형을 복수 개 구성하여, RGB 영상의 각 픽셀이 각 최소 외곽 사각형에 해당될 때마다 형상 메모리에 저장된 해당 픽셀의 카운트값을 증가시키고 최소 외곽 사각형 이외의 영역에 해당하면 카운트값을 감소시키면서 연속되는 영상 프레임에 대해 실시하되, 카운트값이 미리 정해진 임계치 이상인 픽셀들이 위치한 영역을 화자 위치 영역으로 출력하는 추출위치 안정화수단을 포함한다.

Description

화자 위치 검출 장치 및 그 방법{Apparatus for eye and face detection and method thereof}

본 발명은 영상 신호 처리에 관한 것으로서, 특히 카메라 센서를 통해 입력된 영상 또는 비디오 영상에서 나타나는 사람 얼굴의 특징 값을 해석하고 추출하여영상 내에서 사람 얼굴의 위치를 발견하는 장치 및 그 방법에 관한 것이다.

최근, 인공지능 분야에 관한 연구는 인간이 가지고 있는 인식 능력을 컴퓨터에 이식하여 컴퓨터나 기계에 지적인 능력을 부여하는 부분에 관심과 연구가 집중되고 있다. 특히, 인간의 시각 시스템을 이용한 얼굴인식 기술은 영상 처리, 패턴 인식 및 표정 연구 등의 컴퓨터 비전 및 영상 처리의 관련 분야 전반에 걸쳐 매우 활발하고 광범위하게 연구되고 있다.

입력되는 영상을 이용하여 얼굴 존재 유무 및 얼굴 영역을 검출하는 기술은 얼굴 인식 문제 뿐만 아니라 표정연구, 운전자 졸음 감지, 출입 관리, 영상 인덱싱등의 많은 응용 분야에서 매우 중요하게 인식되고 있다. 인간은 다양하고 동적인 환경 하에서도 쉽게 얼굴 영역을 찾아내지만, 컴퓨터를 이용하여 이러한 일을 수행하는 것은 비교적 간단한 배경을 가진 영상에서도 쉬운 문제가 아니다.

기존에 제안된 얼굴영역의 검출방법들 중 대표적인 방법들에는 미합중국 특허번호 US5680481의 신경망을 이용하는 방법, 미합중국 특허번호 US5710833의 밝기의 주성분(principal component) 분석 등과 같은 얼굴 밝기의 통계적 특징을 이용하는 방법, T.Poggio에 의해 [IEEE TPAMI20,1998]에서 제시된 정합방법 등이 존재한다. 그런데, 추출된 얼굴 후보 영상을 얼굴인식시스템의 입력으로 사용하기 위해서는 추출된 얼굴 후보 영역에서의 얼굴 구성요소나 얼굴에서 발생하는 특징의 정확한 위치를 검출하는 과정이 필요하다. 즉, 입력 영상을 모델과 비교하기 위해서는, 입력 영상에서 추출된 얼굴 영상과 모델 템플릿의 얼굴 영상 간의 크기, 회전방향 및 위치차이 등을 보상하기 위한 위치추출 및 크기 정규화 과정이 인식 및매칭 성능을 향상시키기 위해 필수적인 선결과정으로 요청된다. 대부분의 얼굴인식 시스템에서는 이러한 정렬 및 정규화 과정에서 필요한 기준이 되는 얼굴 구성요소로서 눈 영역 또는 눈동자의 중심 영역을 사용한다. 그 이유는 얼굴 영상의 크기, 표정, 자세, 조명 등의 변화가 발생하더라도 얼굴 구성요소들 중 상대적으로 그 특징이 불변하는 형태를 유지하는 부분이 눈 영역이기 때문이다.

이러한 눈 영역 또는 눈동자 중심위치를 영상에서 찾기 위한 많은 연구가 진행되어 왔다. 기존의 얼굴인식시스템에 적용되었던 방법들이 주로 눈동자의 검출방법에도 적용되어 왔다. 눈동자 검출방법들 중 대표적인 것으로는 다양한 크기의 눈 템플레이트를 만들고 입력 영상의 가우시안 피라밋(Gaussian pyramid) 영상을 구성하여 입력 영상 내의 모든 위치에서 정규화 상관계수법(normalized correlation)을 이용하여 눈동자를 탐색하는 방법이 일반적으로 적용되어 왔다[T.Poggio(IEEE TPAMI20,1998)]. 미합중국 특허번호 US5680481와 Moghaddam에 의한 [IEEE TPAMI19,1997]은 템플릿의 크기에 따라 눈, 코, 입 영역에 대한 고유행렬(eigen matrix)을 만들고, 템플릿 영상 내의 모든 영역에서 입력 영상과의 비교를 통해 관심 특징을 탐색한다. 이러한 두 가지 방법에서 발생하는 공통적인 문제는 영상에서 눈이나 코 등의 특징에 대한 크기나 방향, 위치 등에 대해서 미리 알 수 없기 때문에, 영상의 모든 영역에 대해 크기나 방향에 따라 분류된 여러 개의 모델 템플릿으로 탐색해야 한다는 것이다. 이것은 과도한 계산량을 발생시키며, 또한 위치 결정을 위한 임계값 결정, 과도한 오응답(false alarm) 처리 등의 문제로 인해 실제 시스템에 적용을 어렵게 만든다. 미합중국 특허번호 US5832115에서는 동심인 두 타원(concentric ellipses)들로 구성된 얼굴 경계 발견을 위한 템플릿을 구성하고, 두 타원들 사이의 영역에서 얼굴을 둘러싸는 에지 크기의 평가를 통해 얼굴 위치를 발견하였다. 이러한 방법에서도 타원 템플릿의 크기 및 방향을 결정하여야 하고 전체 영상 영역에서 탐색하여야 된다는 문제는 여전히 발생한다.

이러한 얼굴 위치 발견에 관한 문제를 해결하기 위해 최근 많은 연구가 칼라 영상을 이용하는 부분에 집중되어 왔다. 대부분의 칼라 영상에서는 얼굴색이나 피부색의 칼라값이 비교적 일반적인 통계값의 범위에 근접한다는 사실에 근거하여, 피부색을 검출함에 의해 얼굴 후보 영역을 추출하는 연구가 주류가 이룬다[J.Rehg (COMPAQ TR CRL9811,1998) & theirin references]. 이러한 연구는 최근 칼라 인덱싱이나 얼굴 추적 및 추출 등에 비교적 성공적으로 적용되어 왔다. 그러나 색에 의한 얼굴 위치 추출은 영상을 획득한 카메라나 조명색, 물체표면 및 상태 등의 영상획득 조건에 많은 영향을 받는다. 다른 카메라는 같은 환경 조건과 같은 사람에 대해서도 다른 칼라값을 준다. 특히, 조명에 따라 얼굴이나 피부색 값은 상당히 크게 변하며 영상획득 조건을 모를 경우, 얼굴색 영역만을 결정하기 위해 피부색의 값에 대한 범위를 결정하는데 어려움이 따른다. 또한, 배경 영역을 포함하면서 폭넓게 추출된 유사 피부색에 대해 얼굴 영역만을 결정하는 과정이 쉽지 않고, 많은 후처리 과정을 필요로 한다.

본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 영상에서 화자의 눈과 얼굴 위치를 정확하고, 빠르게 찾을 수 있으며, 영상잡음에도 강한 화자위치 검출장치 및 그 방법을 제공함을 목적으로 한다.

도 1은 본 발명의 전체 구성을 도시한 블록 구성도이다.

도 2는 눈위치 검출수단을 보다 상세히 도시한 블록 구성도이다.

도 3은 얼굴위치 결정수단을 보다 상세히 도시한 블록 구성도이다.

도 4는 추출위치 안정화수단을 보다 상세히 도시한 블록 구성도이다.

도 5는 얼굴 형상의 밝기 분포를 설명하기 위한 도면이다.

도 6a 내지 도 6d는 눈 후보 영역을 검출하는 과정을 설명하기 위한 도면이다.

도 7a 내지 도 7c는 얼굴 위치를 검출하는 과정을 설명하기 위한 도면이다.

도 8은 연속 MPEG 영상에서 얼굴 위치가 검출된 것을 예시적으로 보여주는 도면이다.

상기의 목적을 달성하기 위하여, 본 발명에 의한 화자위치 검출장치의 일실시예는 입력된 RGB 영상에서, 강한 회색 특징을 나타내는 픽셀들을 검출하여 검출된 픽셀들이 형성하는 영역들 중에서 부분 응집 특성을 나타내고 텍스쳐 특징이 있는 영역들을 눈 후보 영역들로 결정하는 눈위치 검출수단; 상기 눈 후보 영역들 중에서 2개씩 추출하여 미리 저장하고 있는 모델 템플레이트와 매칭시켜서 상기 RGB 영상위에 복수 개의 탐색 템플레이트를 생성하고, 상기 각 탐색 템플레이트에 대해 얼굴에 해당하는 색도값, 눈,코 및 입에 해당하는 수평 에지값들을 구하고, 상기 탐색 템플레이트들중 상기 색도값 및 수평 에지값에 대한 기준들을 최대로 만족하는 최적 탐색 플레이트를 결정하는 얼굴위치 결정수단; 및 영상의 한 프레임에 해당하는 크기의 형상 메모리를 구비하고, 상기 최적 탐색 템플레이트내에서 얼굴이 포함되는 최소 외곽 사각형을 복수 개 구성하여, 상기 RGB 영상의 각 픽셀이 상기 각 최소 외곽 사각형에 해당될 때마다 상기 형상 메모리에 저장된 해당 픽셀의 카운트값을 증가시키고 상기 최소 외곽 사각형 이외의 영역에 해당하면 카운트값을 감소시키면서 연속되는 영상 프레임에 대해 실시하되, 상기 카운트값이 미리 정해진 임계치 이상인 픽셀들이 위치한 영역을 화자 위치 영역으로 출력하는 추출위치 안정화수단을 포함한다.

상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 화자위치 검출방법은 (a) 입력된 RGB 영상에서, 강한 회색 특징을 나타내는 픽셀들을 검출하여 검출된 픽셀들이 형성하는 영역들 중에서 부분 응집 특성을 나타내고 텍스쳐 특징이 있는 영역들을 눈 후보 영역들로 결정하는 단계; 상기 눈 후보 영역들 중에서 2개씩 추출하여 미리 저장하고 있는 모델 템플레이트와 매칭시켜서 상기 RGB 영상위에 복수 개의 탐색 템플레이트를 생성하고, 상기 각 탐색 템플레이트에 대해 얼굴에 해당하는 색도값, 눈,코 및 입에 해당하는 수평 에지값들을 구하고, 상기 탐색 템플레이트들중 상기 색도값 및 수평 에지값에 대한 기준들을 최대로 만족하는 최적 탐색 플레이트를 결정하는 단계; 및 영상의 한 프레임에 해당하는 크기의 형상 메모리를 구비하고, 상기 최적 탐색 템플레이트내에서 얼굴이 포함되는 최소 외곽 사각형을 복수 개 구성하여, 상기 RGB 영상의 각 픽셀이 상기 각 최소 외곽 사각형에 해당될 때마다 상기 형상 메모리에 저장된 해당 픽셀의 카운트값을 증가시키고 상기 최소 외곽 사각형 이외의 영역에 해당하면 카운트값을 감소시키면서 연속되는 영상 프레임에 대해 실시하되, 상기 카운트값이 미리 정해진 임계치 이상인 픽셀들이 위치한 영역을 화자 위치 영역으로 출력하는 단계를 포함한다.

이하에서 본 발명에 적용된 기본적인 개념을 설명한다.

본 발명에서는 다양한 칼라 영상에서 획득된 얼굴에서 나타나는 공통적인 특징의 분석을 통해 대표적인 얼굴 특징인 눈의 위치를 추출한다. 얼굴에서 눈은 기하학적으로 움푹 패인(concave) 형상을 가지기 때문에 눈의 밝기는 검은 동공을 가지지 않은 서양인의 경우라 하더라도 영상에서 그 칼라 특성은 강한 회색(strong gray) 성향을 나타낸다. 입력 칼라의 3가지 주성분들의 값이 눈 위치에서는 서로 비슷한 크기를 가지면서 밝기가 아주 낮은 특징을 나타낸다. 이러한 칼라 특성이 눈의 대표적인 칼라 특징이 된다. 또한 눈의 밝기 분포를 보면 눈동자와 동공 그리고 얼굴색 등의 밝기 교차가 조밀하게 집중되어 분포하기 때문에 눈동자의 윤곽이 나타나는 대부분의 영상에서 텍스춰(texture)가 존재하는 특징을 나타내게 된다. 또한 눈 위치는 주위의 얼굴색에 의해 둘러 싸여 있기 때문에 이러한 칼라 및 텍스춰의 두가지 특징이 집중되어 부분적으로 발생하는 특징을 나타낸다. 머리카락의 경우는 경계부에서 부분적으로 텍스춰와 강한 회색의 특징을 가지고 있지만 이러한 특징이 폭넓게 또는 길게 나타나는 특징이 있다. 따라서 머리카락의 경우는 부분 응집 특성(locality)을 만족하지 않는다.

본 발명은 이러한 3 가지의 중요한 특징을 눈 위치의 초기 검출을 위한 정보로 사용한다. 눈에서 발생하는 3가지 특징의 결합을 통해 눈 위치를 검출하고 뒤따라 오는 여러 후처리 과정의 결합과 얼굴인식 과정을 통해 정확한 눈위치를 추출하고, 이 정보를 이용하여 얼굴의 위치를 추출한다. 또한 이렇게 추출된 얼굴 위치정보를 이용하여 비디오폰의 화상 전송에서 관심 영역(region of INTERest:RoI) 응용에 적용한다.

이하에서, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

도 1에 의하면, 본 발명에 의한 화자 위치 추출에 의한 화질 개선 장치의 일실시예는 입력영상에서 눈위치를 결정하는 눈위치 검출수단(10), 발견된 눈 위치 후보점을 이용하여 얼굴 템플레이트를 구성하고 눈과 얼굴 위치를 판별하기 위해 영상 데이타와 매칭하는 얼굴위치 결정수단(20) 및 추출된 눈과 얼굴위치가 영상에서 급격하게 변화하는 것을 막기 위한 추출위치 안정화수단(30)를 포함하여 구성된다.

도 2에 의하면, 본 발명에 의한 눈위치 검출수단(10)의 일실시예는 색 변환부(21), 강한 회색 추출부(22), 중간값 필터링부(23), 영역 형성부(24), 영역 형성 해석부(25), 텍스쳐 추출부(26), 눈후보 판별부(27)를 구비한다.

색 변환부(21)는 입력된 영상의 비디오 신호(YUV)를 3색 신호(RGB)로 변환한다.

강한 회색(Strong gray) 추출부(12)는 영상의 3색 신호를 해석하여 강한 회색 특징을 나타내는 픽셀들을 추출한다. 눈위치 검출수단(10)의 일실시예에서, 강한 회색 추출부(22)는 임의의 한 픽셀에 대해 칼라를 나타내는 색 요소의 최대값(maxc)과 최소값(minc)의 차이가 소정의 값(t1)보다 작고, 최대값(maxc)이 또 다른 소정의 값(t2)보다 작게 분포하면 강한 회색성향을 나타낸다는 특징을 이용한다. 여기서, 색 요소의 값들이 0 ~ 255의 값으로 표현될 때, t1은 55 ~ 65의 값들 중에서 결정되고, t2는 90 ~ 110의 값들 중에서 결정되는 것이 바람직하다. 그러나, 본 발명 범위는 상기 실시예에만 한정되어 해석되는 것이 아니라 강한 회색의 픽셀들을 추출하는 알려진 모든 방법이 포함되는 것으로 해석되어야 한다.

중간값(Median) 필터링부(23)는 추출된 픽셀들을 중간값 필터링하여 스폿 노이즈(spot noise) 등을 제거한다.

영역 형성부(24)는 추출된 픽셀들에 대해 연결된 픽셀들을 한데 묶어 영역을 만들고, 각각의 영역에 레이블을 부여한다.

도 2에 의하면, 본 발명에 의한 눈위치 검출수단(10)의 일실시예에서 영역 형상해석부(25)는 환상성(Circularity) 해석부(25a), 세장비 해석부(25b) 및 영역 크기 해석부(25c)를 구비한다. 환상성(Circularity) 해석부(25a)는 각각의 레이블화된 영역에 대해 그 형상을 해석하여, 원(circle) 형상에 가까운지를 판별하고, 세장비 해석부(25b)는 각각의 레이블화된 영역의 세장비를 계산하고, 영역 크기 해석부(25c)는 각각의 레이블화된 영역의 상대적인 크기를 계산하여 각 영역의 부분응집 특성을 검사한다.

도 2에 의하면, 본 발명에 의한 눈위치 검출수단(10)의 일실시예에서 텍스쳐 추출부(26)는 모폴로지(morphology) 해석부(26a) 및 수평 에지(horizontal edge) 해석부(26b)를 구비한다. 모폴로지(morphology) 해석부(26a)는 각 영역에서 모폴로지 필터를 사용하여 텍스춰 응답을 계산하여 텍스춰 특징을 검사하고, 수평 에지(horizontal edge) 해석부(26b)는 수평 에지 필터를 사용하여 수평 에지를 추출한다. 모폴로지 필터로는 밝기의 최소 변화추출(minimum morphology) 필터[M.Kunt, IEEE TCSVT,1998]를 사용하고, 수평에지 필터로는 일반적인 미분 필터(Sobel operator)를 사용하는 것이 바람직하다.

눈 후보 판별부(27)는 레이블화된 영역들 중에서 부분 응집 특성 및 텍스쳐 특징이 각각 소정의 값보다 큰 영역들을 눈 후보 영역으로 판별한다.

도 3에 의하면, 본 발명에 의한 얼굴위치 결정수단(20)의 일실시예는 얼굴 템플레이트 생성부(31), 확률거리 연산부(32), 에지특징 해석부(33) 및 최적 템플레이트 결정부(34)를 구비한다.

얼굴 템플레이트 생성부(31)는 미리 구비된 모델 템플레이트를 눈 후보 영역들 중에서 추출한 2개의 영역의 위치에 대응시켜 유사변환(similarity transformation)함으로써 입력된 RGB 영상 위에 탐색 템플레이트를 생성한다. 모델 템플레이트는 두 눈을 나타내는 두 원을 포함하고, 코와 입 부분을 사이에 사각형의 아랫변이 위치하는 얼굴 영역의 사각형으로 구성되는 것이 바람직하다.

확률거리 연산부(32)는 RGB 영상에서 탐색 템플레이트의 영역 내의 픽셀들의 색차신호 Cr,Cb값과 미리 학습된 통계값을 이용하여 얼굴 영역의 피부색 확률거리의 합을 구하고, 그 합을 탐색 템플레이트의 크기에 대해 정규화한 정규화된 확률거리를 계산한다.

에지특징 해석부(33)는 탐색 템플레이트에서 추정되는 눈, 코 및 입의 위치에서 입력된 RGB 영상의 수평 에지 특징값을 검출한다. 에지특징 해석부(33)는 탐색 템플레이트에서 추정되는 입과 코의 위치에 대응하는 입력된 RGB 영상에서의 제1 수평 에지 크기 및 눈, 코 및 입의 위치 이외에 상기 탐색 템플레이트와 매칭되는 영역에 대응하는 입력된 RGB 영상에서의 제2 수평 에지 크기를 검출하고, 제1 수평 에지 크기와 제2 수평 에지 크기의 비를 정규화한 에지성분비를 계산한다. 또한, 에지특징 해석부(33)는 눈 부분을 나타내는 원의 크기에 의해 정규화된 눈의 수평 에지 크기를 검출할 수 있다.

최적 템플레이트 결정부(34)는 정규화된 확률거리, 상기 에지성분비 및 상기 정규화된 눈의 수평 에지 크기에 각각 소정의 가중치를 부여하여 합한 값이 가장 작은 템플레이트를 최적의 템플레이트로 결정한다. 한편, 최적 템플레이트 결정부(34)는 다수의 탐색 템플레이트들이 중첩되어 형성하는 영역이 다른 탐색 템플레이트들이 중첩되어 형성하는 영역과 독립되어 위치한 경우에는, 독립된 영역마다 별도의 최적 템플레이트를 결정한다. 이는 하나의 영상 내에 다수의 얼굴이 포함되는 경우를 나타내기 때문이다.

도 4에 의하면, 본 발명에 의한 추출위치 안정화수단(30)의 일실시예는 형상메모리(43), 최소 외곽 사각형 구성부(41), 형상 메모리 갱신부(42) 및 추적위치 추출부(44)를 구비하고, 다른 실시예는 속도 및 형상 해석부(45)를 더 구비할 수 있다.

형상 메모리(43)는 입력된 RGB 영상의 크기(영상의 가로길이×세로길이)에 대응하는 픽셀수의 카운트 값들을 저장한다.

최소 외곽 사각형 구성부(41)는 최적의 탐색 템플레이트 내에서 얼굴 영상이 포함되는 최소 외곽 사각형(MBR: minimum boundary rectangle)을 구성한다. 탐색 템플레이트는 두 눈의 상대적인 위치에 따라 영상에 대하여 사각형의 방향이 회전할 수도 있으나, 최소 외곽 사각형은 최적 탐색 템플레이트에 의해 결정된 얼굴의 외곽은 포함하고, 얼굴의 회전 여부에 관계없이 영상과 동일한 방향으로 형성된 사각형이다.

형상 메모리 갱신부(43)는 형상메모리에 저장된 각 픽셀별 카운트 값들 중에서 최소 외곽 사각형의 영역에 대응하는 카운트 값은 증가시키고, 최소 외곽 사각형 이외의 영역에 대응하는 카운트 값은 감소시킨다.

추적위치 추출부(44)는 형상메모리에서 소정의 값 이상의 카운트 값들이 위치한 영역을 화자 위치 영역으로서 출력한다.

한편, 속도 및 형상 해석부(45)는 최소 외곽 사각형의 크기 및 움직임 속도를 계산하여, 형상 메모리 갱신부(42)에 의해 증가 또는 감소되는 값의 크기를 제어한다.

이하에서 본 발명의 동작 내용을 상세히 설명한다.

먼저, 도 2, 도 5 및 도 6a 내지 도 6d를 참조하여 본 발명에 의한 눈후보 영역의 결정 과정을 설명한다.

본 발명에서는 일반 정지 영상 또는 비디오 칼라 영상의 비디오 신호를 입력하여 사용한다. 입력된 영상의 비디오 신호(YUV)는 색 변환부(21)에 의해 3색 신호(RGB)로 변환된다.

본 발명에서 눈 위치 검출을 위해 고려하는 3 가지 중요한 특성들은 칼라 영상에서 눈의 강한 회색성향(strong gray), 눈 근방 위치의 수평 에지 또는 텍스춰(texture) 그리고 분포의 부분 응집 특성이다. 도 5는 이러한 3가지 특징을 설명하기 위한 도면이다. 도 5에는 16명에 대해 각 2장씩 32장의 영상들과 정면 얼굴 영상을 평균한 1장의 영상이 나타나 있다. 도 5의 각 영상에 나타난 바와 같이, 두 눈의 형상은 움푹 패인 형상이 둥근 원 형상으로 집중되어 나타나는 것을 알 수 있다. 이러한 3가지 특징과 이러한 특징의 조합을 통해 눈 후보점을 추출하는 것이 본 발명에 의한 눈 후보 영역의 결정 과정의 중요한 요지이다.

도 6a는 MPEG(Moving Picture Expert Group)에서 사용되는 대표적인 4 개의 영상들을 나타내고 있다. 이 영상들은 주로 머리와 상체가 보이는 상반신(Head & Soulder) 영상들이다. 도 6a에서 공통적으로 보여진 것처럼 눈 부분은 검정색에 가까운 강한 회색 특징을 나타낸다. 이러한 회색 특징은 도 5에서 보여진 것처럼 눈 부분이 움푹 패인(concave) 기하학적인 형상이라는 점에서 비롯된다.

따라서, 강한 회색 추출부(22)는 임의의 한 픽셀에 대해 칼라를 나타내는 색 요소의 최대, 최소값의 차이가 작고 밝기가 낮게 분포하면 강한 회색성향을 나타낸다는 특징을 이용하여, 영상의 색 신호로부터 강한 회색 성향을 나타내는 픽셀들을 추출한다. 도 6b는 이러한 회색 특징을 나타내는 픽셀들을 추출한 것을 도시한 것이다. 도 6b에서 각 영상에서 회색 성향의 픽셀들은 흰색의 픽셀들로 원 영상에 중첩하여 표시되었고, 눈 부분 뿐만 아니라 배경의 어두운 부분이 모두 추출되었다.

이러한 추출 픽셀들에 대한 영상 좌표에서의 공간 분포를 살펴보면, 눈 부분은 얼굴의 피부영역 내부에 응집되어 나타나 있지만, 배경이나 머리 부분의 회색 픽셀들은 큰 덩어리이거나 폭넓게 퍼져서 발생하는 것을 알 수 있다. 즉, 응집성을 나타내는 특징은 눈 부분의 일관적인 특징이 된다. 이러한 부분 응집 특성을 사용하여 눈 후보 영역 만을 추출할 수 있다.

강한 회색 추출부(22)에서 출력된 에지 픽셀들에 대해 중간값(median) 필터링과 영역 레이블링된 후, 영역 형상 해석부(25)에 의해 각 영역들의 크기와 형상(circularity and height-width ratio) 등이 계산되어 부분응집성을 나타내지 않는 영역들은 제거된다.

환상성(circularity) 측정에서는 영역의 방향이나 크기에 관계없이 형상이 원에 가까운 영역을 찾는 것이 필요하다. 따라서, 본 발명의 일실시예에서는 이러한 특징을 나타내는 형상 측정 기준으로 Haralick[Computer & Robot Vision, Addition-Wesley Pub., 1992]에 의한 다음 식을 사용하는 것이 바람직하다.

수학식1 및 수학식 2에서, 두 값 μ_R과 σ_R은 픽셀(r_k,c_k), k=1,…,n의 항들로 정의되고, k는 형상 내부의 픽셀에 대한 인덱스이고,는 영역 중심의 좌표이다. 계산된 두 값들로부터 μ_R/σ_R값을 측정하면, 이 값이 형상의 환상성(circularity)을 나타내는 값이 된다. μ_R/σ_R값이 소정의 값(본 발명의 바람직한 일실시예에서는 1.2로 결정되는 본 발명의 범위는 이에 한정되는 것은 아니다)보다 낮은 값을 나타내면, 임의의 형상이 되는 경우가 많으므로 그 영역은 배제된다.

영역의 MBR을 구하여 세장비(가로/세로)를 계산하고 이 세장비에 제한을 둠으로써, 영상 상하 방향으로 길쭉한 영역들이 제거된다. 본 발명의 일실시예에서는, 세장비가 0.7보다 작거나, 3.5보다 작은 영역은 제거된다. 또한, 영역 내의 픽셀수를 세어 소정의 크기 이상의 영역이 배제된다. 본 발명의 일실시예에서는, 영역의 크기가 ((영상의 가로 픽셀수*영상의 세로 픽셀수)/1600)보다 크면 그 영역은 배제된다. 즉, 영역 형상이 폭넓게 분포하거나 크기가 너무 큰 형태이거나 길게 연결된 형태를 제거시키는 작업이 수행된다. 그러나, 본 발명의 범위는 본 발명의 일실시예에서 사용한 숫자적인 제한에 한정되는 것은 아니다.

도 6c는 모폴로지 연산자를 사용하여 검출한 텍스춰 특징을 나타내고 있다.도 6c에 의하면, 밝기의 조밀한 교차로 인해 눈 부분에서 강한 응답(밝기의 크기)의 텍스춰 특성이 추출되고 있다. 텍스춰 특징은 영역 사이의 경계가 아닌 에지부에서 강하게 나타나는 특징이 있다. 또한, 눈 근방에서는 수직 방향으로 밝기의 교차가 강하게 발생하므로 수평 에지 특성이 일관적으로 존재함을 알 수 있다. 따라서 영역 형상 해석을 통해 추출된 눈 영역 후보들 중 수평에지 특성과 텍스춰 특성을 강하게 포함한 부분만을 선택함으로써 눈 후보 영역들을 최종적으로 결정하는 것이 가능하다.

도 7c는 이렇게 추출한 최종적인 눈 후보점들의 위치를 나타내고 있다. 눈은 하나의 얼굴에 2개 존재하므로, 눈의 위치가 결정되면 비교할 얼굴 템플레이트의 크기, 방향, 위치 등을 결정할 수 있다. 즉, 추출된 눈 후보 위치에 따라 얼굴 템플레이트를 겹쳐 최종적으로 얼굴 영역을 판별함으로써 눈 위치가 결정된다.

도 3, 도 7a 내지 도 7c, 및 도 8을 참조하여, 얼굴 위치를 결정하는 과정을 설명한다.

도 7a 내지 도 7c는 모델 템플레이트를 사용하여 최적의 탐색 템플레이트를 결정하는 과정을 설명한다. 도 7b는 발견된 눈 후보 영역에 겹쳐져 매칭된 탐색 얼굴 템플레이트(face template)의 형상을 보여주고 있다. 모델 템플레이트는 비율에 따라 변화할 수 있는 사각형 형상과 내부에 눈 위치를 나타내는 두 개의 원형상으로 구성되어 있다. 그 외에 사각형의 아랫변에 코와 입이 위치할 수 있는 영역이 내부적으로 포함되어 있다. 모델 템플레이트는 일단 비교할 눈 후보 영역의 위치가 선정되면, 영상상의 위치와 형상, 방향 및 크기가 결정되어 눈 후보 영역위에 겹쳐진다. 이후에, 겹쳐진 탐색 템플레이트의 내부에 들어오는 영상상의 영역들의 색과 기하학적 특징을 조사함으로써 선택된 눈 후보 영역이 실제로 얼굴상의 눈을 나타내는 영역인지를 결정하게 된다. 모델 템플레이트는 4개의 인자를 가지고 탐색 템플레이트로 유사변환(similarity transform)한다. 두 점에 대한 4개의 식과 4개의 미지수가 있으므로 변환인자를 결정하는것이 가능하다. 도 7c는 최종적으로 인식된 눈 위치와 발견된 얼굴영역을 표시하고 있다.

다음에서 열거한 사항들은 눈 위치에 의해 결정된 탐색 템플레이트에 대해 얼굴을 인식하는 과정을 나타낸 것이다.

첫째, 얼굴은 피부색을 띠고 있으며 인간의 피부색의 분포는 일정한 범위를 가진다. 조명이나 형상의 변화에 따라 물체의 반사색은 폭넓고 크게 변화하지만, 대부분의 영상에 대해 얼굴이나 피부색은 일정한 값과 분포를 가지게 된다는 것은 많은 연구에 의해 알려져 있다. 이러한 피부색의 분포를 사용하면 얼굴후보 영역을 인식하는 것이 가능하다. 얼굴의 색은 2차원 색(chrominance) 공간에서 가우시안(Gaussian) 분포를 가진다고 가정할 수 있다. 따라서, 수천 장의 MPEG 비디오 영상에서 피부색을 선택하여 통계값을 계산할 수 있다. 이 통계값을 이용하여 도 7b에서 겹쳐진 탐색 템플레이트 내부의 영역이 피부색에 가까운 여부를 나타내는 확률거리를 계산하는 것이 가능하다. 본 발명의 일실시예에서는 Mahalanobis 거리를 확률거리로 사용한다.

수학식 3에서 d는 확률거리, x는 색차신호 C_r,C_b로 이루어진 입력색의 벡터값, μ는 학습된 피부색의 평균벡터, Σ는 학습치의 분산행렬을 표시하고 있다. 템플레이트 크기에 대해 정규화된 내부의 색도값에 대한 확률거리의 합이 작을수록 얼굴영역이 될 가능성은 커지게 된다.

둘째, 사각형상의 탐색 템플레이트에서 아랫변의 중앙부 근방은 입 또는 코의 위치가 되고, 이 부분의 수평 에지 성분은 비교적 크게 나타난다. 이와 반대로 입, 코 부분과 눈 부분을 제외한 탐색 템플레이트의 나머지 얼굴 영역 부분은 비교적 균일한 밝기 분포를 가지고 특별한 에지 성분이 존재하지 않는다. 따라서, 이 두 영역에서의 수평 에지 성분의 비를 구하고, 이 값을 판별값으로 이용한다.

셋째, 눈 부분의 수평 에지는 강하다. 따라서 눈 부분을 나타내는 원의 크기에 의해 정규화된 눈의 수평 에지 크기는 얼굴을 판별하기 위해 사용될 수 있다.

도 7b에서 겹쳐진 여러 탐색 템플레이트에 대하여, 이상의 3 가지 항목의 값을 계산하고, 각 항목의 중요도에 따라 대응하는 값을 가중하여 합한 값이 가장 작은 탐색 템플레이트를 취하게 된다. 단, 복수의 눈후보 영역의 짝들에 대해 각 탐색 템플레이트가 겹쳐지면 최소 응답을 주는 탐색 템플레이트만을 추출하고, 다수의 탐색 템플레이트들이 중첩되어 형성하는 영역이 다른 탐색 템플레이트들이 중첩되어 형성하는 영역과 독립되어 위치한 경우에는, 복수의 사람이 존재하는 것으로 판별하여 독립된 영역마다 별도의 최적 템플레이트를 결정한다. 이러한 과정을 통해 눈 위치 및 얼굴을 추출하는 것이 가능하다. 도 8은 상반신(head & shoulder)이 나타나는 전형적인 연속된 MPEG 영상들에 대해 추출한 눈과 얼굴 위치를 예시한것이다.

이하에서 도 4, 도 7c를 참조하여, 추출 안정화과정을 설명한다.

도 7c에 도시된 바와 같이 얼굴 인식을 통해 추출된 눈과 얼굴의 템플레이트는 연속 영상에서 안정화될 필요가 있다. 자연 영상(natural sequences)은 영상을 획득할 때의 환경조건, 영상 입력 장치 내부의 인자 등 여러 요인으로 인하여 항상 영상잡음을 가지고 있다. 따라서, 비록 아주 짧은 시간에 입력된 연속 영상 상의 전후 두 영상이라 할지라도 두 영상에서의 화질은 많은 경우에 상이한 특성을 나타낸다. 이러한 영상 잡음특성으로 인해 영상특징치의 계산은 영향을 받게 되며, 영상에서 계산된 특징값이 시간축으로 많이 변하게 된다. 이러한 불안정 요인으로 인해 영상인식이나 물체추출의 성능은 영향을 받으며, 도 7c에서 보여진 눈과 얼굴 템플레이트의 위치도 연속 영상에서 불안정하게 추출되는 경향을 나타낸다. 이러한 불안정 요인을 제거하기 위해 본 발명은 물체의 경계를 나타내는 MBR 위치 정보를 형상메모리에 누적시키는 기법을 통해 템플레이트 추출의 불안정성 문제를 해결한다.

보통, 질량을 가진 물체는 관성(moment)을 가지고 있으며, 사람이나 물체가 영상에서 운동시 급격한 운동변화는 미세한 시간축에서 잘 일어나지 않는 경향이 있다. 특히, 상반신(head&shoulder) 영상과 같은 경우 사람의 공간상의 위치는 일정한 위치에 연속되어 나타나는 경향이 있으며 연속영상에서 보면 느린 속도로 천천히 변화하게 된다. 즉, 전후 영상프레임들 사이에서 추출위치에 대한 시간적 상호상관성(temporal coherence)이 존재하게 된다. 초당 20~30장 단위로 획득된 비디오 영상에서 볼 때, i번째 프레임에서 왼쪽에 있던 물체가 (i+1)번째 프레임에서 갑자기 오른쪽에 존재하는 경우는 없다. 이러한 시간축의 상호 상관성을 이용하면 추출위치를 안정화시키고 MBR을 연속적으로 추출 및 추적하는 것이 가능하다. 이러한 과정은 형상메모리(shape memory) 기법을 이용하여 간단하게 해결할 수 있다.

먼저, 영상프레임의 크기 만큼의 카운트 값을 저장하기 위한 공간을 갖는 형상메모리를 확보하고, 각 픽셀에 대응하는 카운트 값을 초기화시킨다. 다음, 추출된 얼굴 MBR을 n개 입력받아, 이 MBR 내부의 픽셀들의 위치에 대해 할당된 형상메모리의 카운트 값을 증가시켜 준다. 연속되는 다음 영상에서 마찬가지로 추출된 얼굴 MBR를 입력받아 똑같은 과정을 반복한다. 만일 추출되는 MBR이 연속 영상에서 연속되어 유사한 위치에서 추출될 경우, 형상메모리의 대응 위치에서의 카운트 값은 계속해서 증가된다. 카운트 값은 미리 정해둔 소정의 값에 도달할 때까지 계속적으로 증가하며, 소정의 값에 도달하면 그 값을 유지하게 된다. 역으로 MBR 이외의 위치에서는 형상메모리의 카운트 값이 반복되어 감소되고, 0에 도달하면 0을 계속 유지하게 된다. 본 발명의 일실시예에서는 카운트 값이 0 ~ 7 사이의 값을 갖게 된다. 이러한 과정을 반복하게 되면 유사한 위치에서 연속되어 추출되는 물체만이 안정되어 정확한 추출을 나타내고 랜덤(random)하게 위치가 반복되어 추출되는 물체의 경우 자연적으로 형상메모리 상에서 낮은 카운트 값을 지니게 된다. 따라서, 형상메모리의 카운트 값을 검사하여 미리 정해준 문턱값 이상의 카운트 값을 나타내는 부분만이 물체가 존재하는 것으로 판별할 수 있다. 본 발명의 일실시예에서는 3 이상의 카운트 값을 나타내는 부분만을 얼굴이 존재하는 위치로 판별한다. 그러나, 본 발명의 범위는 상기한 바와 같은 카운트 값의 범위 및 화자 위치를 결정하기 위한 문턱값에 한정되는 것은 아니다.

이러한 형상누적메모리의 장점은 비교적 간단하게 물체추출과 위치안정화를 달성할 수 있으면 성능에 비해 수행속도가 매우 빠르다. 또한 급격하게 위치가 변화하거나 추출된 MBR의 크기에 대응하여 감하거나 가하는 카운트 스텝을 조절할 수 있으므로, 움직이는 물체의 속도, 물체의 중요성 또는 형상 특성에도 대응할 수 있다. 즉, 보다 느리게 움직이는 경우와 물체의 얼굴의 크기가 비교적 작은 경우 카운트 스텝을 크게 하는 것이 바람직하다.

동화상 전화기나 휴대용 전화의 동영상 통화 등에 있어서 사람의 얼굴 영역은 가장 중요한 관심 영역(ROI)이 된다. 따라서, 추출된 얼굴 영역의 정보를 사용하여 MPEG-1, MPEG-2, MPEG-4, H.263등의 부호화기를 사용하여 압축된 영상을 생성하는데 있어 얼굴 영역의 화질을 개선할 수 있다. 즉, 본 발명은 관심영역인 얼굴부분만을 고화상으로 보내고 나머지 배경영역이나 관심외 영역부는 저화상이나 낮은 정보량으로 보내어 전체적으로 전송정보량을 조정하고 고화상을 유지하는 장치에 적절히 적용할 수 있다.

본 발명의 바람직한 실시예에 따른 화자위치 검출방법은 컴퓨터 시스템에서 실행할 수 있는 프로그램으로 작성가능하며, 이러한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체로부터 읽어들여 범용 디지털 컴퓨터 시스템에서 실행될 수 있다. 이러한 기록 매체에는 마그네틱 저장 매체(예를 들면, 롬, 플로피디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 매체가 포함된다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

본 발명에 의하면, 영상에서 화자의 눈과 얼굴 위치를 정확하고, 빠르게 찾을 수 있으며, 영상잡음에도 강하다.

즉, 정지 배경 및 움직이는 배경이 있는 영상에 동시에 적용가능하며, 눈 및 얼굴 위치 검출과정에서 전체 영상의 탐색을 회피함으로써 고속처리 및 병렬처리가 가능하고, 운동 검출 등의 방법과 결합하여 신뢰성이 증가된 화자위치 추출을 가능하게 할 수 있다.

본 발명의 휴대용 영상 전화 단말기, 화상 회의, 동화상 채팅 모듈 등에 적용가능한 비디오폰, 얼굴 영상의 고화질 보존이 필요한 감시 시스템, 내용기반 영상 탐색 등의 응용분야에 적절히 적용될 수 있다.

Claims

입력된 RGB 영상에서, 강한 회색 특징을 나타내는 픽셀들을 검출하여 검출된 픽셀들이 형성하는 영역들 중에서 부분 응집 특성을 나타내고 텍스쳐 특징이 있는 영역들을 눈 후보 영역들로 결정하는 눈위치 검출수단;

상기 눈 후보 영역들 중에서 2개씩 추출하여 미리 저장하고 있는 모델 템플레이트와 매칭시켜서 상기 RGB 영상위에 복수 개의 탐색 템플레이트를 생성하고, 상기 각 탐색 템플레이트에 대해 얼굴에 해당하는 색도값, 눈,코 및 입에 해당하는 수평 에지값들을 구하고, 상기 탐색 템플레이트들중 상기 색도값 및 수평 에지값에 대한 기준들을 최대로 만족하는 최적 탐색 플레이트를 결정하는 얼굴위치 결정수단; 및

영상의 한 프레임에 해당하는 크기의 형상 메모리를 구비하고, 상기 최적 탐색 템플레이트내에서 얼굴이 포함되는 최소 외곽 사각형을 복수 개 구성하여, 상기 RGB 영상의 각 픽셀이 상기 각 최소 외곽 사각형에 해당될 때마다 상기 형상 메모리에 저장된 해당 픽셀의 카운트값을 증가시키고 상기 최소 외곽 사각형 이외의 영역에 해당하면 카운트값을 감소시키면서 연속되는 영상 프레임에 대해 실시하되, 상기 카운트값이 미리 정해진 임계치 이상인 픽셀들이 위치한 영역을 화자 위치 영역으로 출력하는 추출위치 안정화수단을 포함함을 특징으로 하는 화자위치 검출장치.
제1항에 있어서, 상기 눈위치 검출수단은

입력된 RGB 영상신호를 해석하여 강한 회색 특징을 나타내는 픽셀들을 추출하는 강한 회색 추출부;

추출된 픽셀들 중 인접한 픽셀들과 상호 연결된 픽셀들끼리 결합하여 영역을 형성하는 영역 형성부;

형성된 각 영역에 대하여 부분 응집 특성을 검출하는 영역 형상 해석부;

형성된 각 영역에 대하여 텍스쳐 특징을 검출하는 텍스쳐 추출부; 및

상기 형성된 영역들 중에서 상기 부분 응집 특성 및 상기 텍스쳐 특징이 각각 소정의 값보다 큰 영역들을 눈 후보 영역으로 판별하는 눈 후보 판별부를 구비하는 것을 특징으로 하는 화자위치 검출장치.
제1항에 있어서, 상기 얼굴위치 결정수단은

상기 모델 템플레이트를 눈 후보 영역들 중에서 추출한 2개의 영역의 위치에 대응시켜 유사변환함으로써 입력된 RGB 영상 위에 탐색 템플레이트를 생성하는 얼굴템플레이트 생성부;

RGB 영상에서 탐색 템플레이트의 영역 내의 픽셀들의 색도값에 대한 확률거리의 합을 상기 탐색 템플레이트의 크기에 대해 정규화한 정규화된 확률거리를 계산하는 확률거리 연산부;

상기 탐색 템플레이트에서 추정되는 눈, 코 및 입의 위치에서 입력된 RGB 영상의 수평 에지 특징값을 검출하는 에지특징 해석부; 및

상기 얼굴템플레이트 생성부에 의해 생성된 다수의 탐색 템플레이트들 중 상기 정규화된 확률거리 및 상기 수평 에지 특징값에 소정의 가중치의 부여한 값에 의해 최적의 템플레이트를 결정하는 최적 템플레이트 결정부를 구비함을 특징으로 하는 화자위치 검출장치.
제1항에 있어서, 상기 추출위치 안정화수단은

상기 입력된 RGB 영상의 크기에 대응하는 픽셀수의 카운트 값들을 저장하는 형상 메모리;

상기 최적의 탐색 템플레이트 내에서 얼굴 영상이 포함되는 최소 외곽 사각형을 복수 개 구성하는 최소 외곽 사각형 구성부;

상기 형상메모리에 저장된 각 픽셀별 카운트 값들 중에서 상기 각 최소 외곽 사각형의 영역에 대응하는 카운트 값은 증가시키고, 상기 최소 외곽 사각형 이외의 영역에 대응하는 카운트 값은 감소시키는 형상 메모리 갱신부; 및

상기 형상메모리에서 상기 임계치 이상의 카운트 값들이 위치한 영역을 화자 위치 영역으로서 출력하는 추적 위치 추출부를 구비함을 특징으로 하는 화자위치 검출장치.
제2항에 있어서, 상기 강한 회색 추출부는

상기 RGB 영상신호의 각 픽셀에 대해 칼라를 나타내는 색 요소의 최대값과 최소값의 차이가 소정의 값보다 작고, 최대값이 또 다른 소정의 값보다 작게 분포하면 강한 회색성향을 나타내는 픽셀로서 추출하는 것을 특징으로 하는 화자위치 검출장치.
제2항에 있어서, 상기 영역 형상 해석부는

각 영역의 환상성 값을 계산하는 환상성 해석부를 구비하고,

상기 눈 후보 판별부는 영역의 환상성 값이 소정의 값보다 적은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출장치.
제2항에 있어서, 상기 영역 형상 해석부는

각 영역의 세장비를 계산하는 세장비 해석부를 구비하고,

상기 눈 후보 판별부는 영역의 세장비가 소정의 값보다 크거나, 다른 소정의 값보다 작은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출장치.
제2항에 있어서, 상기 영역 형상 해석부는

각 영역에 대하여 전체 영상의 크기에 상대적인 영역의 크기를 계산하는 영역크기 해석부를 구비하고,

상기 눈 후보 판별부는 영역의 상대적인 크기가 소정의 값보다 큰 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출장치.
제2항에 있어서, 상기 텍스쳐 추출부는

최소 모폴로지 필터를 구비하여 각 영역의 텍스쳐 응답을 계산하는 모폴로지 해석부를 구비하고,

상기 눈 후보 판별부는 영역의 텍스쳐 특성값이 소정의 값보다 작은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출장치.
제2항에 있어서, 상기 텍스쳐 추출부는

미분 필터를 구비하여 각 영역의 수평 에지를 검출하는 수평 에지 해석부를 구비하고,

상기 눈 후보 판별부는 영역의 수평 에지 특성값이 소정의 값보다 작은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출장치.
제3항에 있어서, 상기 모델 템플레이트는

두 눈을 나타내는 두 원을 포함하고, 코와 입 부분을 사이에 사각형의 아랫변이 위치하는 얼굴 영역의 사각형으로 구성되는 것으로 특징으로 하는 화자위치 검출장치.
제3항에 있어서, 상기 확률거리 d는 수학식

(여기서, x는 입력 색차신호 C_r,C_b로 이루어진 벡터값, μ는 미리 학습된 피부색의 평균벡터, Σ는 학습치의 분산행렬을 표시한다)에 의해 구하여짐을 특징으로 하는 화자위치 검출장치.
제3항에 있어서, 상기 에지특징 해석부는

상기 탐색 템플레이트에서 추정되는 입과 코의 위치에 대응하는 입력된 RGB영상에서의 제1 수평 에지 크기 및 눈, 코 및 입의 위치 이외에 상기 탐색 템플레이트와 매칭되는 영역에 대응하는 입력된 RGB 영상에서의 제2 수평 에지 크기를 검출하고, 제1 수평 에지 크기와 제2 수평 에지 크기의 비를 정규화한 에지성분비를 계산하는 것을 특징으로 하는 화자위치 검출장치.
제13항에 있어서, 상기 에지특징 해석부는

눈 부분을 나타내는 원의 크기에 의해 정규화된 눈의 수평 에지 크기를 검출하고,

상기 최적 템플레이트 결정부는 상기 정규화된 확률거리, 상기 에지성분비 및 상기 정규화된 눈의 수평 에지 크기에 각각 소정의 가중치를 부여하여 합한 값이 가장 작은 템플레이트를 최적의 템플레이트로 결정함을 특징으로 하는 화자위치 검출장치.
제3항에 있어서, 상기 최적 템플레이트 결정부는

다수의 탐색 템플레이트들이 중첩되어 형성하는 영역이 다른 탐색 템플레이트들이 중첩되어 형성하는 영역과 독립되어 위치한 경우에는, 독립된 영역마다 별도의 최적 템플레이트를 결정하는 것을 특징으로 하는 화자위치 검출장치.
제4항에 있어서,

상기 최소 외곽 사각형의 크기 및 움직임 속도를 계산하여 상기 형상 메모리갱신부에 의해 증가 또는 감소되는 값의 크기를 제어하는 속도 및 형상 해석부를 더 구비함을 특징으로 하는 화자위치 검출장치.
(a) 입력된 RGB 영상에서, 강한 회색 특징을 나타내는 픽셀들을 검출하여 검출된 픽셀들이 형성하는 영역들 중에서 부분 응집 특성을 나타내고 텍스쳐 특징이 있는 영역들을 눈 후보 영역들로 결정하는 단계;

상기 눈 후보 영역들 중에서 2개씩 추출하여 미리 저장하고 있는 모델 템플레이트와 매칭시켜서 상기 RGB 영상위에 복수 개의 탐색 템플레이트를 생성하고, 상기 각 탐색 템플레이트에 대해 얼굴에 해당하는 색도값, 눈,코 및 입에 해당하는 수평 에지값들을 구하고, 상기 탐색 템플레이트들중 상기 색도값 및 수평 에지값에 대한 기준들을 최대로 만족하는 최적 탐색 플레이트를 결정하는 단계; 및

영상의 한 프레임에 해당하는 크기의 형상 메모리를 구비하고, 상기 최적 탐색 템플레이트내에서 얼굴이 포함되는 최소 외곽 사각형을 복수 개 구성하여, 상기 RGB 영상의 각 픽셀이 상기 각 최소 외곽 사각형에 해당될 때마다 상기 형상 메모리에 저장된 해당 픽셀의 카운트값을 증가시키고 상기 최소 외곽 사각형 이외의 영역에 해당하면 카운트값을 감소시키면서 연속되는 영상 프레임에 대해 실시하되, 상기 카운트값이 미리 정해진 임계치 이상인 픽셀들이 위치한 영역을 화자 위치 영역으로 출력하는 단계를 포함함을 특징으로 하는 화자위치 검출방법.
제17항에 있어서, 상기 (a) 단계는

(a1) 입력된 RGB 영상신호를 해석하여 강한 회색 특징을 나타내는 픽셀들을추출하는 단계;

(a2) 추출된 픽셀들 중 인접한 픽셀들과 상호 연결된 픽셀들끼리 결합하여 영역을 형성하는 단계;

(a3) 형성된 각 영역에 대하여 부분 응집 특성을 검출하는 단계;

(a4) 형성된 각 영역에 대하여 텍스쳐 특징을 검출하는 단계; 및

(a5) 상기 형성된 영역들 중에서 상기 부분 응집 특성 및 상기 텍스쳐 특징이 각각 소정의 값보다 큰 영역들을 눈 후보 영역으로 판별하는 단계를 구비하는 것을 특징으로 하는 화자위치 검출방법.
제17항에 있어서, 상기 (b) 단계는

(b1) 미리 구비된 모델 템플레이트를 눈 후보 영역들 중에서 추출한 2개의 영역의 위치에 대응시켜 유사변환함으로써 입력된 RGB 영상 위에 탐색 템플레이트를 생성하는 단계;

(b2) RGB 영상에서 탐색 템플레이트의 영역 내의 픽셀들의 색도값에 대한 확률거리의 합을 상기 탐색 템플레이트의 크기에 대해 정규화한 정규화된 확률거리를 계산하는 단계;

(b3) 상기 탐색 템플레이트에서 추정되는 눈, 코 및 입의 위치에서 입력된 RGB 영상의 수평 에지 특징값을 검출하는 단계; 및

(b4) 상기 얼굴템플레이트 생성부에 의해 생성된 다수의 탐색 템플레이트들 중 상기 정규화된 확률거리 및 상기 수평 에지 특징값에 소정의 가중치의 부여한값에 의해 최적의 템플레이트를 결정하는 단계를 구비함을 특징으로 하는 화자위치 검출장치.
제17항에 있어서, 상기 (c) 단계는

(c1) 상기 최적의 탐색 템플레이트 내에서 얼굴 영상이 포함되는 최소 외곽 사각형을 복수 개 구성하는 단계;

(c2) 형상메모리에 저장된 각 픽셀별 카운트 값들 중에서 상기 최소 외곽 사각형의 영역에 대응하는 카운트 값은 증가시키고, 상기 최소 외곽 사각형 이외의 영역에 대응하는 카운트 값은 감소시키는 단계; 및

(c3) 상기 형상메모리에서 상기 임계치 이상의 카운트 값들이 위치한 영역을 화자 위치 영역으로서 출력하는 단계를 구비함을 특징으로 하는 화자위치 검출방법.
제18항에 있어서, 상기 (a1) 단계는

상기 RGB 영상신호의 각 픽셀에 대해 칼라를 나타내는 색 요소의 최대값과 최소값의 차이가 소정의 값보다 작고, 최대값이 또 다른 소정의 값보다 작게 분포하면 강한 회색성향을 나타내는 픽셀로서 추출하는 것을 특징으로 하는 화자위치 검출방법.
제18항에 있어서, 상기 (a3) 단계는

각 영역의 환상성 값을 계산하고,

상기 (a5) 단계는 영역의 환상성 값이 소정의 값보다 적은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출방법.
제18항에 있어서, 상기 (a3) 단계는

각 영역의 세장비를 계산하고,

상기 (a5) 단계는 영역의 세장비가 소정의 값보다 크거나, 다른 소정의 값보다 작은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출방법.
제18항에 있어서, 상기 (a3) 단계는

각 영역에 대하여 전체 영상의 크기에 상대적인 영역의 크기를 계산하고,

상기 (a5) 단계는 영역의 상대적인 크기가 소정의 값보다 큰 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출방법.
제18항에 있어서, 상기 (a4) 단계는

각 영역의 텍스쳐 응답을 계산하고,

상기 (a5) 단계는 영역의 텍스쳐 특성값이 소정의 값보다 작은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출방법.
제18항에 있어서, 상기 (a4) 단계는

각 영역의 수평 에지를 검출하고,

상기 (a5) 단계는 영역의 수평 에지 특성값이 소정의 값보다 작은 경우, 그 영역을 눈 후보 영역에서 제거하는 것을 특징으로 하는 화자위치 검출방법.
제19항에 있어서, 상기 모델 템플레이트는

두 눈을 나타내는 두 원을 포함하고, 코와 입 부분을 사이에 사각형의 아랫변이 위치하는 얼굴 영역의 사각형으로 구성되는 것으로 특징으로 하는 화자위치 검출방법.
제19항에 있어서, 상기 확률거리 d는 수학식

(여기서, x는 입력 색차신호 C_r,C_b로 이루어진 벡터값, μ는 미리 학습된 피부색의 평균벡터, Σ는 학습치의 분산행렬을 표시한다)에 의해 구하여짐을 특징으로 하는 화자위치 검출방법.
제19항에 있어서, 상기 (b3) 단계는

상기 탐색 템플레이트에서 추정되는 입과 코의 위치에 대응하는 입력된 RGB 영상에서의 제1 수평 에지 크기 및 눈, 코 및 입의 위치 이외에 상기 탐색 템플레이트와 매칭되는 영역에 대응하는 입력된 RGB 영상에서의 제2 수평 에지 크기를 검출하고, 제1 수평 에지 크기와 제2 수평 에지 크기의 비를 정규화한 에지성분비를 계산하는 것을 특징으로 하는 화자위치 검출방법.
제19항에 있어서, 상기 (b3) 단계는

눈 부분을 나타내는 원의 크기에 의해 정규화된 눈의 수평 에지 크기를 검출하는 단계를 더 구비하고,

상기 (b4) 단계는 상기 정규화된 확률거리, 상기 에지성분비 및 상기 정규화된 눈의 수평 에지 크기에 각각 소정의 가중치를 부여하여 합한 값이 가장 작은 템플레이트를 최적의 템플레이트로 결정함을 특징으로 하는 화자위치 검출방법.
제19항에 있어서, 상기 (b4) 단계는

다수의 탐색 템플레이트들이 중첩되어 형성하는 영역이 다른 탐색 템플레이트들이 중첩되어 형성하는 영역과 독립되어 위치한 경우에는, 독립된 영역마다 별도의 최적 템플레이트를 결정하는 것을 특징으로 하는 화자위치 검출방법.
제20항에 있어서, 상기 (c1) 단계 이후에

상기 최소 외곽 사각형의 크기 및 움직임 속도를 계산하여 상기 형상 메모리에서 증가 또는 감소되는 값의 크기를 결정하는 단계를 더 구비함을 특징으로 하는 화자위치 검출방법.