WO2013009020A2

WO2013009020A2 - 시청자 얼굴 추적정보 생성방법 및 생성장치, 그 기록매체 및 3차원 디스플레이 장치

Info

Publication number: WO2013009020A2
Application number: PCT/KR2012/005202
Authority: WO
Inventors: 이인권; 이정헌
Original assignee: Lee In Kwon; Lee Jeong Heon
Priority date: 2011-07-08
Filing date: 2012-06-29
Publication date: 2013-01-17
Also published as: WO2013009020A4; US20140307063A1; WO2013009020A3; KR101216123B1

Abstract

본 발명은 시청자 얼굴 추적정보 생성방법 및 생성장치, 그 기록매체 및 3차원 디스플레이 장치에 관한 것으로서, 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성방법으로서, (a) 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 단계; (b) 상기 검출된 얼굴영역에서 얼굴특징점을 검출하는 단계; (c) 3차원 표준 얼굴모델의 모델특징점을 변환하여 상기 얼굴특징점에 대응하는 3차원 시청자 얼굴모델을 생성하는 최적변환행렬을 추정하는 단계; 및 (d) 상기 최적변환행렬에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나를 추정하여 시청자 얼굴 추적정보를 생성하는 단계;를 포함하여 구성된다.

Description

시청자 얼굴 추적정보 생성방법 및 생성장치, 그 기록매체 및 3차원 디스플레이 장치

본 발명은 시청자 얼굴 추적정보 생성방법 및 생성장치, 그 기록매체 및 3차원 디스플레이 장치에 관한 것이다.

더욱 상세하게는, 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 시청자 얼굴 내의 얼굴특징점을 검출하고, 이러한 얼굴특징점 및 최적변환행렬을 이용하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자의 응시방향 및 응시거리에 대한 정보를 생성하는 시청자 얼굴 추적정보 생성방법 및 생성장치, 그 기록매체 및 3차원 디스플레이 장치에 관한 것이다.

성인 남성을 기준으로 사람의 눈은 가로 방향으로 약 6.5㎝ 정도 떨어져서 존재한다.

이로 인해 나타나게 되는 양안시차(binocular disparity)는 입체감을 느끼는 가장 중요한 요인으로 작용한다.

즉, 좌측 눈과 우측 눈은 각각의 서로 다른 2D 영상을 보게 된다.

이 두 영상이 망막을 통해 뇌로 전달되면, 뇌는 이를 정확히 서로 융합하여 본래 3D 입체 영상의 깊이감과 실체감을 생성하게 된다.

이와 같이 하나의 단일한 영상이 두 눈의 시각차에 의해 얻어진 두 장의 이미지로부터 생성하여 양안에 차이를 두고 보여줌으로써 사람이 마치 영상이 제작되고 있는 장소에 있는 것과 같은 생동감과 현실감을 느낄 수 있게 하는 시각적 기술을 3D 입체 영상 기술이라고 한다.

3D 입체 영상 기술은 3D TV를 비롯하여 정보통신, 방송, 의료, 영화, 게임, 애니메이션 등과 같은 기존의 모든 산업제품 개발에 광범위하게 응용되는 핵심기술로 자리 잡고 있다.

예를 들어, 3D TV는 특수안경을 사용하여 디스플레이에 좌안/우안용 영상을 각각의 눈에 입력해 주고 양안시차 원리를 이용하여 사람의 인지/정보 체계에서 3D로 인식하게 하는 장치이다.

상기 3D TV는 인공의 시각차를 발생시킨 좌/우 영상을 디스플레이에서 분리시켜 두 눈에 전달함으로써 뇌에서 3D 입체감을 느끼게 한다.

예를 들어, 패시브 방식의 3D TV는, 도 1에 도시된 바와 같이, 광학 필름, 액정, 편광필름(PR Film, polaroid film)으로 구성된다.

상기 패시브 방식의 3D TV는, 도 2에 도시된 바와 같이, TV화면의 정면에서 TV화면과 동일한 높이에서 시청할 경우에, L로 표시된 왼쪽 눈에 비춰져야 할 화상은 왼쪽 눈으로, R로 표시된 오른쪽 눈으로 가야할 화상은 오른쪽 눈에 표시가 되어 3D 입체감을 느끼게 된다.

하지만, 도 3에 도시된 바와 같이, 시청자가 TV화면의 정면에서 시청하지 않고, 3D TV의 정면에서 좌우측으로 벗어난 위치에서 시청하는 경우에는 영상이 겹쳐 보이는 크로스토크(crosstalk) 현상이 발생한다. 이로 인하여 시청자는 정상적인 3D 입체감을 느끼기 어렵게 된다.

이는, 시야각 때문에 각각의 눈 쪽에는 보이지 않아야 할 영상이 보이게 되어 발생하는 것이며, 시청자와 3D TV 화면의 거리가 가까울수록 더욱 심해지게 된다.

따라서, 시청자가 응시하는 방향과 위치를 추적하여, 3D TV의 화면 입체감을 제어하거나 3D TV 화면을 회전시켜주는 등의 제어기술이 요구된다.

한편, 최근에는, 특수안경을 사용하는 방식의 3D TV의 불편함으로 인해 무안경 방식의 3D TV 개발이 가속화되고 있다.

무안경 방식의 3D TV는 특수안경을 사용하지 않고도 3D 영상을 제공할 수 있는 TV로서, 이러한 무안경 방식을 적용하기 위해서는 시청자가 응시하는 방향을 추적하는 기술이 더욱 필요로 한다.

시청자가 응시하는 방향을 추적하는 기술의 일예로서, 시청자의 눈을 추적하는 방식이 있다.

시청자의 눈을 추적하는 방식은, 눈 위치에 대한 특징점을 파악한 후 눈 추적 알고리즘을 이용하여 눈동자의 좌표를 출력하는 방식을 사용한다.

구체적으로, 홍채(Iris)와 흰자위(Sclera)의 경계선을 얼굴 영상에서 검출한 후 추적하는 방식을 사용한다.

그러나, 이러한 방식은 눈이 응시하는 각도를 정확히 파악하기 어려우며, 눈 추적 각도가 작은 문제점이 있었다.

시청자가 응시하는 방향을 추적하는 기술의 다른 일예로서, 얼굴의 특징점을 찾고 추적하는 템플릿 매칭(Template Matching) 방식이 있다.

그러나, 템플릿 매칭 방식은 초기에 얼굴의 특징점에 해당하는 틀(template)이 주어져야 하므로 일반적이지 못하고 제약이 뒤따르게 되는 문제점이 있었다.

상기 종래 기술에 따른 문제점을 해결하기 위한 본 발명의 목적은, 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 시청자 얼굴 내의 얼굴특징점을 검출하고, 이러한 얼굴특징점 및 최적변환행렬을 이용하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자의 응시방향 및 응시거리에 대한 정보를 생성하는 시청자 얼굴 추적정보 생성방법 및 생성장치, 그 기록매체 및 3차원 디스플레이 장치를 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 일실시예는, 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성방법으로서, (a) 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 단계; (b) 상기 검출된 얼굴영역에서 얼굴특징점을 검출하는 단계; (c) 3차원 표준 얼굴모델의 모델특징점을 변환하여 상기 얼굴특징점에 대응하는 3차원 시청자 얼굴모델을 생성하는 최적변환행렬을 추정하는 단계; 및 (d) 상기 최적변환행렬에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나를 추정하여 시청자 얼굴 추적정보를 생성하는 단계;를 포함하여 구성된다.

본 발명의 또 다른 측면에 따른 일실시예는, 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성방법으로서, 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 얼굴영역 검출단계; 상기 검출된 얼굴영역에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보를 추정하여 응시정보를 생성하는 응시정보 생성단계; 및 상기 검출된 얼굴영역에 근거하여 상기 시청자의 성별 및 나이 중 적어도 하나의 정보를 추정하여 시청자정보를 생성하는 시청자정보 생성단계;를 포함하여 구성된다.

본 발명의 다른 측면에 따르면, 상기 시청자 얼굴 추적정보 생성방법의 각 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.

본 발명의 또 다른 측면에 따르면, 상기 시청자 얼굴 추적정보 생성방법을 이용하여 입체감을 제어하는 3차원 디스플레이 장치가 제공된다.

본 발명의 또 다른 측면에 따른 일실시예는, 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성장치로서, 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 얼굴영역 검출모듈; 상기 검출된 얼굴영역에서 얼굴특징점을 검출하는 얼굴특징점 검출모듈; 3차원 표준 얼굴모델의 모델특징점을 변환하여 상기 얼굴특징점에 대응하는 3차원 시청자 얼굴모델을 생성하는 최적변환행렬을 추정하는 행렬 추정모듈; 및 상기 추정된 최적변환행렬에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나를 추정하여 시청자 얼굴 추적정보를 생성하는 추적정보 생성모듈;을 포함하여 구성된다.

본 발명의 또 다른 측면에 따른 일실시예는, 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성장치로서, 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 수단; 상기 검출된 얼굴영역에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보를 추정하여 응시정보를 생성하는 수단; 및 상기 검출된 얼굴영역에 근거하여 상기 시청자의 성별 및 나이 중 적어도 하나의 정보를 추정하여 시청자정보를 생성하는 수단;을 포함하여 구성된다.

상술한 바와 같은 본 발명은, 3차원 표준 얼굴모델의 모델특징점을 변환하여 얼굴영역의 얼굴특징점에 대응하는 3차원 시청자 얼굴모델을 생성하는 최적변환행렬을 이용하여 시청자의 응시방향 및 응시거리를 추정한다.

상술한 바와 같이 응시방향 및 응시거리를 추정하므로, 추적속도가 빨라 실시간 추적에 적합하고, 얼굴영역의 국부적 일그러짐에도 강인하게 얼굴영역을 추적할 수 있다는 이점이 있다.

또한, 검출된 얼굴영역이 유효한지 여부를 판정하고, 유효하다고 판정된 얼굴영역에 대해서 얼굴특징점을 검출하므로, 얼굴특징점의 검출 신뢰도가 높아 얼굴영역의 추적성능이 높아진다는 이점이 있다.

또한, 비정면 얼굴영역을 검출하기 위해 비대칭성의 하 라이크 피쳐(harr-like feature)를 이용하므로, 비정면 얼굴에 대한 얼굴영역의 검출 신뢰도가 높아 얼굴영역의 추적성능이 높아진다는 이점이 있다.

또한, 기본적으로 시청자의 응시방향 및 응시거리를 추정하여 응시방향정보 및 응시거리정보를 생성하고, 부가적으로 시청자의 성별 또는 나이 중 적어도 어느 하나를 추정하여 시청자정보를 생성한다.

상술한 바와 같이, 상기 응시방향정보 및 응시거리정보뿐만 아니라 상기 시청자정보를 부가적으로 활용하여 3차원 디스플레이 장치의 입체감을 제어할 수 있도록 하므로, 더욱 정확한 입체감 조절이 가능하다는 이점이 있다.

또한, 시청자의 눈감김 여부를 추정하여, 3차원 디스플레이 장치를 시청하는 시청자의 눈이 감겨 있다고 추정된 경우에 3차원 디스플레이 장치의 화면출력을 OFF시키거나 재생을 중지시키기 위한 정보로 활용할 수 있다는 이점이 있다.

또한, 하나의 영상입력수단(예를 들어, 카메라)만으로 시청자의 응시방향, 응시거리의 정확한 추적이 가능하다는 이점이 있다.

도 1은 패시브 방식의 3D TV의 개략적인 구성을 도시한 구성도.

도 2는 패시브 방식의 3D TV를 정면에서 시청하는 상태를 도시한 상태도.

도 3은 패시브 방식의 3D TV를 측면에서 시청하는 상태를 도시한 상태도.

도 4는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성장치의 개략적인 구성을 도시한 구성도.

도 5는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여, 3차원 표준 얼굴모델을 보여주는 사진.

도 6a는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여, UI모듈의 예시화면을 보여주는 제1사진.

도 6b는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여, UI모듈의 예시화면을 보여주는 제2사진.

도 7은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 과정을 도시한 순서도.

도 8은 기존의 Harr-like feaure의 기본 형태를 도시한 도면.

도 9는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여, 정면 얼굴 영역 검출을 위한 Harr-like feaure의 예시 사진.

도 10은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여,비정면 얼굴 영역 검출을 위한 Harr-like feaure의 예시 사진.

도 11은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여, 새롭게 추가된 직4각 feaure를 도시한 도면.

도 12는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여,비정면 얼굴 영역 검출을 위해 도 11에서 선택된 Harr-like feaure의 예시 사진.

도 13은 기존의 Harr-like feaure와 본 발명에 적용된 Harr-like feaure에 대한 Training Set에서의 feature 확률곡선.

도 14는 비정면얼굴의 Training Set에서 새로 추가한 특징들과 기존 Harr-like feaure의 확률곡선의 분산과 Kurtosis의 평균값을 도시한 표.

도 15는 해상도가 낮거나 화질이 나쁜 화상에 대해 기존 ASM방법에 적용된 프로필사진.

도 16은 본 발명의 표식점탐색을 위한 Adaboost에 이용되는 각 표식점주변의 패턴사진.

도 17은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여, 얼굴의 28개 특징점을 표시한 사진.

도 18은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 행렬 추정과정을 도시한 순서도.

도 19는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 성별 추정과정을 도시한 순서도.

도 20은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 성별 추정과정에서 성별추정용 얼굴영역을 정의하기 위한 예시사진.

도 21은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 나이 추정과정을 도시한 순서도.

도 22는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 나이 추정과정에서 나이추정용 얼굴영역을 정의하기 위한 예시사진.

도 23은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 눈감김 추정과정을 도시한 순서도.

도 24는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 눈감김 추정과정에서 눈감김추정용 얼굴영역을 정의하기 위한 예시사진.

도 25는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성과 관련하여, 영상입력수단의 좌표계(카메라 좌표계)를 설명하기 위한 평면도.

본 발명은 그 기술적 사상 또는 주요한 특징으로부터 벗어남이 없이 다른 여러가지 형태로 실시될 수 있다.

따라서, 본 발명의 실시예들은 모든 점에서 단순한 예시에 지나지 않으며 한정적으로 해석되어서는 안된다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다.

상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함하다" 또는 "구비하다", "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이다.

그러므로, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 4는 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성장치의 개략적인 구성을 도시한 구성도이다.

시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성장치가 개시된다.

시청자 얼굴 추적정보 생성장치는 중앙처리유닛, 시스템 DB, 시스템 메모리, 인터페이스 등의 컴퓨팅 요소를 구비한다.

시청자 얼굴 추적정보 생성장치는 3D TV와 같은 3차원 디스플레이 장치에 제어 신호 송수신이 가능하도록 연결된 통상의 컴퓨터 시스템이 될 수 있다.

시청자 얼굴 추적정보 생성장치는 상술한 통상의 컴퓨터 시스템에 시청자 얼굴 추적정보 생성 프로그램의 설치 및 구동에 의해 시청자 얼굴 추적정보 생성장치로서 기능되는 것으로 볼 수 있다.

다른 관점에서, 본 실시예의 시청자 얼굴 추적정보 생성장치는, 3D TV와 같은 3차원 디스플레이 장치에 임베디드 장치 형태로 구성될 수도 있다.

이러한 컴퓨터 시스템의 통상적 구성에 대한 설명은 생략하며, 이하에서는 본 발명의 실시예의 설명에 필요한 기능 관점의 구성을 중심으로 설명한다.

시청자 얼굴 추적정보 생성장치는 얼굴영역 검출모듈(100)을 구비한다.

상기 얼굴영역 검출모듈(100)은, 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단(10), 예를 들어, 카메라를 통해 입력되는 영상에서 이미지 캡쳐부(20)가 캡쳐하여 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출한다.

이때, 검출 보기각도는 -90 ~ +90 범위의 모든 얼굴들이 될 수 있다.

상기 영상입력수단(10)은, 예를 들어, 도 25에 도시된 바와 같이, 3D TV(1)의 정중앙부 상단 또는 하단 측에 설치될 수 있다.

상기 영상입력수단(10)은, 실시간으로 TV화면 전방에 위치한 시청자의 얼굴을 동영상으로 촬영할 수 있는 카메라, 더욱 바람직하게는, 이미지센서가 부착된 디지털 카메라가 될 수 있다.

본 실시예의 영상입력수단(10)은 하나만 구비되어도 후술하는 시청자 얼굴 추적정보를 생성할 수 있다.

상기 얼굴영역 검출모듈(100)은, 상기 추출된 이미지의 RGB 색 정보로부터 YCbCr 색 모델을 작성하고, 작성된 색 모델에서 색 정보와 밝기 정보를 분리하며, 상기 밝기 정보에 의하여 얼굴후보영역을 검출하는 기능을 수행한다.

상기 얼굴영역 검출모듈(100)은, 상기 검출된 얼굴후보영역에 대한 4각 특징점 모델을 정의하고, 상기 4각 특징점 모델을 AdaBoost 학습 알고리즘에 의하여 학습시킨 학습자료에 기초하여 얼굴영역을 검출하는 기능을 수행한다.

상기 얼굴영역 검출모듈(100)은, 상기 AdaBoost의 결과값의 크기가 소정임계값을 초과하는 경우에 상기 검출된 얼굴영역을 유효한 얼굴영역으로 판정하는 기능을 수행한다.

시청자 얼굴 추적정보 생성장치는 또한, 얼굴특징점 검출모듈(200)을 구비한다.

상기 얼굴특징점 검출모듈(200)은, 상기 얼굴영역 검출모듈(100)에서 유효하다고 판단된 얼굴영역들에 대하여 얼굴특징점 검출을 진행한다.

상기 얼굴특징점 검출모듈(200)은, 얼굴 보기회전각도를 포함한, 예를 들어, 눈썹, 눈, 코, 입의 각 위치에 대한 정의가 가능한 28개의 얼굴특징점을 검출할 수 있다.

본 실시예에서, 바람직하게는 기본 얼굴특징점인 눈4개, 코2개, 입2개의 총 8개의 특징점을 얼굴특징점으로서 검출할 수 있다.

시청자 얼굴 추적정보 생성장치는 또한, 행렬 추정모듈(300)을 구비한다.

상기 행렬 추정모듈(300)은, 3차원 표준 얼굴모델의 모델특징점을 변환하여 상기 얼굴특징점에 대응하는 3차원 시청자 얼굴모델을 생성하는 최적변환행렬을 추정한다.

여기서, 상기 3차원 표준 얼굴모델은, 도 5에 도시된 바와 같이, 331개의 점과 630개의 삼각형으로 구성된 3D 메쉬 형태의 모형이 될 수 있다.

시청자 얼굴 추적정보 생성장치는 또한, 추적정보 생성모듈(400)을 구비한다.

상기 추적정보 생성모듈(400)은, 상기 최적변환행렬에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나를 추정하여 시청자 얼굴 추적정보를 생성한다.

시청자 얼굴 추적정보 생성장치는 또한, 성별 추정모듈(500)을 구비한다.

상기 성별 추정모듈(500)은 상기 검출된 얼굴영역을 이용하여 상기 시청자의 성별을 추정한다.

상기 성별 추정모듈(500)은 상기 검출된 얼굴영역에서 성별 추정용 얼굴영역을 잘라내는 기능, 잘라낸 얼굴영역 이미지를 정규화하는 기능, 정규화된 이미지를 이용하여 SVM(Support Vector Machine)에 의한 성별추정 기능을 수행한다.

시청자 얼굴 추적정보 생성장치는 또한, 나이 추정모듈(600)을 구비한다.

상기 나이 추정모듈(600)은 상기 검출된 얼굴영역을 이용하여 상기 시청자의 나이를 추정한다.

상기 나이 추정모듈(600)은 상기 검출된 얼굴영역에서 나이 추정용 얼굴영역을 잘라내는 기능을 수행한다.

상기 나이 추정모듈(600)은 잘라낸 얼굴영역 이미지를 정규화하는 기능을 수행한다.

상기 나이 추정모듈(600)은 정규화된 이미지로부터 입력벡터를 구성하고 나이다양체 공간으로 사영하는 기능을 수행한다.

상기 나이 추정모듈(600)은 2차 다항식 회귀를 이용하여 나이를 추정하는 기능을 수행한다.

시청자 얼굴 추적정보 생성장치는 또한, 눈감김 추정모듈(700)을 구비한다.

상기 눈감김 추정모듈(700)은 상기 검출된 얼굴영역을 이용하여 상기 시청자의 눈감김을 추정한다.

상기 눈감김 추정모듈(700)은 눈감김 추정용 얼굴영역을 잘라내는 기능, 잘라낸 얼굴영역 이미지를 정규화하는 기능, 정규화된 이미지를 이용하여 SVM(Support Vector Machine)에 의한 눈감김추정 기능을 수행한다.

시청자 얼굴 추적정보 생성장치는 또한, 상기 3차원 디스플레이 장치의 일측에 구비된 영상입력수단(10)의 설정(도 6a), 검출한 얼굴영역 및 나이/성별 결과 등을 디스플레이(도 6b)할 수 있도록 하는 UI(30, User Interface) 모듈을 구비한다.

도 7은 본 발명의 일실시예에 따른 시청자 얼굴 추적정보 생성방법의 과정을 도시한 순서도이다.

도시된 바와 같이 본 실시예에 의한 시청자 얼굴 추적정보 생성방법은, 생성 과정의 시작 단계로부터 출발하여, 얼굴영역 검출단계(S100), 얼굴특징점 검출단계(S200), 행렬 추정단계(S300), 추적정보 생성단계(S400), 성별 추정단계(S500), 나이 추정단계(S600), 눈감김 추정단계(S700), 결과 출력단계(S800)를 거쳐 종료 단계로 이뤄진다.

상기 얼굴영역 검출단계(S100)에서는, 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출한다.

얼굴 검출을 위한 방법으로서, 예를 들어, 지식기반 방법(Knowledge-based), 특징기반방법(feature-based), 형판 정합(template-matching) 방법, 외형기반(Appearance-based)방법 등이 있다.

바람직하게, 본 실시예에서는 외형기반(Appearance-based)방법을 사용한다.

외형기반방법은 상이한 영상들에서 얼굴영역과 비얼굴영역을 획득하며, 획득된 영역들을 학습하여 학습모델을 만들고, 입력 영상과 학습모델자료를 비교하여 얼굴을 검출하는 방법이다.

상기 외형기반방법은 정면 및 측면 얼굴 검출에 대해서 비교적 성능이 높은 방법으로 알려져 있다.

이러한 얼굴검출과 관련하여, Jianxin Wu, S.Charles Brubaker, Matthew D.Mullin, and James M.Rehg의 논문, "Fast Asymmetric Learning for Cascade Face Detection,"(IEEE Tran- saction on Pattern Analysis and Machine Intelligence, Vol.30, No.3, MARCH 2008.)와, Paul Viola, Michael Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features"(Accepted Conference on Computer Vision and Pattern Recognition 2001.)등을 통해 이해될 수 있다.

상기 영상입력수단을 통해 입력되는 영상에서의 이미지 추출은, 예를 들어, DirectX의 샘플 그래버(SampleGrabber)를 이용하여 영상입력수단을 통해 입력되는 영상에서 이미지를 캡쳐하는 방식으로 이뤄질 수 있다.

상기 영상입력수단을 통해 입력되는 영상에서의 이미지 추출에 관한 바람직한 일예로서, 샘플 그래버의 미디어형식(MediaType)을 RGB24로 설정할 수 있다.

한편, 영상입력수단의 영상포멧(format)이 RGB24와 다른 경우 샘플 그래버 필터의 앞단에 비디오 컨버터 필터(videoconverter filter)가 자동으로 붙어 최종적으로 샘플 그래버에서 캡쳐되는 이미지가 RGB24가 되도록 할 수 있다.

예를 들어,

AM_MEDIA_TYPE mt;

// Set the media type to Sample Grabber

ZeroMemory(&mt, sizeof(AM_MEDIA_TYPE));

mt.formattype = FORMAT_VideoInfo;

mt.majortype = MEDIATYPE_Video;

mt.subtype = MEDIASUBTYPE_RGB24; // only accept 24-bit bitmaps

hr = pSampleGrabber->SetMediaType(&mt);

와 같이 구성될 수 있다.

한편, 본 실시예의 얼굴 영역 검출은, (a1) 상기 추출된 이미지의 RGB 색 정보로부터 YCbCr 색 모델을 작성하고, 작성된 색 모델에서 색 정보와 밝기 정보를 분리하며, 상기 밝기 정보에 의하여 얼굴후보영역을 검출하는 단계; (a2) 상기 검출된 얼굴후보영역에 대한 4각 특징점 모델을 정의하고, 상기 4각 특징점 모델을 AdaBoost 학습 알고리즘에 의하여 학습시킨 학습자료에 기초하여 얼굴영역을 검출하는 단계; 및 (a3) 상기 AdaBoost의 결과값(하기 수학식1의 CF_H(x))의 크기가 소정임계값을 초과하는 경우에 상기 검출된 얼굴영역을 유효한 얼굴영역으로 판정하는 단계;를 포함하여 구성된다.

[수학식1]

(단, M:강분류기를 구성하고 있는 전체 약분류기의 개수

h_m(x):m번째 약분류기에서의 출력값

θ:강분류기의 오류판정률을 보다 세밀하게 조절하는데 이용되는 값으로써 경험적으로 설정한다.)

AdaBoost 학습알고리즘은 약분류기의 선형적인 결합을 통하여 최종적으로 높은 검출 성능을 가지는 강분류기를 생성하는 알고리즘으로 알려져 있다.

본 실시예에서는 비정면얼굴에서의 검출성능을 보다 높이기 위해 기존의 대칭적인 Haar-Like feature 뿐만아니라 비정면얼굴의 비대칭특성을 고려한 새로운 feature들을 더 포함한다.

정면얼굴화상에서는 눈, 코, 입과 같이 얼굴의 고유한 구조적 특성들이 화상에 전반적으로 골고루 분포되어 있으며 대칭적이다.

그러나, 비정면얼굴화상에서는 대칭적이지 못하고 좁은 범위에 밀집되어 있으며 얼굴윤곽이 직선이 아니므로 배경영역이 많이 섞어져 있다.

따라서 기존의 대칭적인 Haar-Like feature 들만으로는 비정면얼굴에 대한 높은 검출성능을 얻을 수 없는 문제점이 있다.

이러한 문제점을 극복하기 위해, 본 실시예에서는 기존의 Haar-like feature와 비슷하면서도 비대칭성을 부가한 새로운 Haar-Like feature 들을 더 포함한다.

이와 관련하여, 도 8은 기존의 Harr-like feaure 의 기본형태들이고, 도 9는 본 발명의 실시예에 의한 정면 얼굴 영역 검출을 위하여 선택된 Haar-like feature 들의 예시 사진이며, 도 10은 비정면 얼굴 영역 검출을 위하여 선택된 Haar-like feature 들의 예시 사진이다.

도 11은 본 실시예에 의하여 새롭게 추가된 직4각 Haar-Like feature 를 보여주고 있으며, 도 12는 도 11의 Haar-Like feature 중 비정면얼굴검출을 위해 선택된 Haar-Like feature 들의 예시를 보여주고 있다.

본 실시예의 Haar-Like feature는 기존의 대칭적인 Haar-Like feature와 다르게 도 12에 도시된 바와 같이, 비대칭적인 형태, 구조, 모양으로 구성되어 비정면얼굴의 구조적 특성을 잘 반영하도록 구성되며, 비정면 얼굴에 대한 검출효과가 뛰어나다.

도 13은 기존의 Harr-like feaure와 본 실시예에 적용된 Harr-like feaure에 대한 Training Set에서의 Haar-Like feature 확률곡선이다.

ㄱ)은 본 실시예의 경우, ㄴ)은 기존의 경우이며, 도시된 바와 같이, 본 실시예의 경우에 해당하는 확률곡선이 보다 좁은 범위에 밀집되어 있다.

이것은 베이스분류규칙에 비추어 볼 때 본 실시예에서 추가된 Haar-Like feature 들이 비정면얼굴검출에서 효과적이라는 것을 의미한다.

도 14는 비정면얼굴의 Training Set에서 새로 추가한 특징들과 기존 Harr-like feaure의 확률곡선의 분산과 Kurtosis의 평균값을 도시한 표이다.

상기 표는 비정면얼굴의 Training Set에서 새로 추가한 Haar-Like feature 들과 기존 Haar-Like feature 들의 확률곡선의 분산과 Kurtosis의 평균값을 보여주고 있다.

본 실시예에서 추가된 Haar-Like feature 들이 분산이 작고 Kurtosis가 크며 이것은 검출에서 효과적이라는 것을 알 수 있다.

상술한 바와 같이, 상기 (a2) 단계에서, 상기 얼굴영역 검출을 위한 하 라이크 피쳐(harr-like feature)는 비정면 얼굴영역을 검출하기 위한 비대칭성의 하 라이크 피쳐(harr-like feature)를 더욱 포함한다.

한편, 얼굴의 유효성을 판정하기 위한 방법으로서, 예를 들어, PCA(Principle Component Analysis)나 신경망을 이용한 방법 등이 있는데, 이러한 방법들은 속도가 느리고 별도의 해석을 필요로 한다는 단점이 있다.

따라서, 본 발명의 일실시예에서는, 상기 AdaBoost의 결과값(상기 수학식1의 CF_H(x))의 크기와 소정임계값을 비교하여 검출된 얼굴의 유효성을 판정한다.

기존 AdaBoost방법에서는, 하기 참고식1과 같이 부호값만을 이용하였으나, 본 실시예에서는 그의 실제적인 크기를 이용하여 얼굴영역의 유효성을 판정한다.

………[참고식 1]

즉, 상기 수학식1에서, CF_H(x)의 크기가 얼굴의 유효성을 판정하기 위한 중요한 요소로 활용될 수 있다.

이 값(CF_H(x))은 검출된 영역이 얼굴에 얼마나 근사한가를 나타내는 척도로써 소정임계값을 설정하여 얼굴의 유효성판정에 이용할 수 있다.

이때, 소정임계값은 학습얼굴모임을 이용하여 경험적으로 설정한다.

상기 얼굴특징점 검출단계(S200)에서는, 상기 검출된 얼굴영역에서 얼굴특징점을 검출한다.

상기 얼굴특징점 검출단계(S200)는, ASM(active shape model) 방법의 특징점(landmark) 탐색에 의해 이뤄지되, AdaBoost 알고리즘을 이용하여 진행하여 얼굴특징점을 검출한다.

예를 들어, 상기 얼굴특징점의 검출은, (b1) 현재 특징점의 위치를 (x_l, y_l)라고 정의하고, 현재 특징점의 위치를 중심으로 그 근방에서 n*n 화소크기의 가능한 모든 부분창문들을 분류기로 분류하는 단계; (b2) 하기 수학식2에 의하여 특징점의 후보위치를 계산하는 단계; 및 (b3) 하기 수학식3의 조건을 만족하는 경우에는 (x'_l, y'_l)을 새로운 특징점으로 정하고, 만족하지 못하는 경우에는 현재 특징점의 위치(x_l, y_l)를 유지하는 단계;를 포함하여 구성된다.

[수학식2]

[수학식3]

(단, a:x축방향으로 탐색해나가는 최대근방거리

b:y축방향으로 탐색해나가는 최대근방거리

x_dx _, _dy:(x_l, y_l)에서 (dx, dy)만큼 떨어진 점을 중심으로 하는 부분창문

N_all:분류기의 총계단수

N_pass:부분창문이 통과된 계단수

c:끝까지 통과되지 못한 부분창문의 신뢰도값을 제한하기 위해 실험을 통해 얻은 1보다 작은 상수값)

얼굴의 특징점을 검출하기 위한 방법으로서, 예를 들어, 특징점들을 개별적으로 검출하는 방법과 특징점들의 상호연관속에서 동시에 검출해내는 방법 등이 있다.

개별적으로 특징점들을 검출하는 방법은 부분적인 가림이 있는 얼굴화상들에서 검출오류가 많은 문제점이 있기 때문에, 본 실시예에서는 속도와 정확성에 있어서 얼굴 특징 검출에 바람직한 방법인 ASM(Active Shape Model) 방법을 이용한다.

이러한 ASM 방법에 대하여서는 T.F.Cootes, C.J.Taylor, D.H.Cooper, and J.Graham의 논문 “Active shape models: Their training and application” (CVGIP: Image Understanding, Vol.61, pp.38-59, 1995) 과 S.C.Yan, C.Liu, S.Z.Li, L.Zhu, H.J.Zhang, H.Shum, and Q.Cheng의 논문 “Texture-constrained active shape models”(In Proceedings of the First International Workshop on Generative-Model-Based Vision (with ECCV), May 2002), T.F.Cootes, G.J.Edwards, and C.J.Taylor의 논문 “Active appearance models”(In ECCV 98, Vol.2, pp.484-498, 1998) T.F.Cootes, G.Edwards, and C.J.Taylor의 논문 “Comparing Active Shape Models with Active Appearance Models” 등을 통해 이해될 수 있다.

한편, 기존 ASM의 특징점탐색은 특징점에서의 프로필(Profile)을 이용하는 방법이기 때문에 고품질의 화상에서만 검출이 안정적으로 이뤄진다.

일반적으로 카메라 등의 영상입력수단을 통해 입력되는 영상에서 추출된 이미지는 저해상도, 저품질의 이미지로서 얻어질 수 있다.

따라서, 본실시예에서는 AdaBoost방법에 의한 특징점탐색에 의해 이를 개선하여, 저해상도와 저품질의 화상에서도 특징점들을 용이하게 검출할 수 있도록 한다.

도 15는 해상도가 낮거나 화질이 나쁜 화상에 대해 기존 ASM방법에 적용된 프로필사진이고, 도 16은 본 발명의 표식점탐색을 위한 Adaboost에 이용되는 각 표식점주변의 패턴사진이다.

상기 얼굴특징점 검출단계(S200) 및 추정정보 생성단계(S400)에서는, 도 17에 도시된 바와 같이, 다수의 특징점(예를 들어, 28개)을 검출할 수 있다.

본 실시예에서는 연산처리 및 추적성능을 함께 고려하여 기본얼굴특징점(눈4개(4, 5, 6, 7), 코2개(10, 11), 입2개(8, 9)) 8개만을 응시거리 및 응시방향의 추정에 사용한다.

상기 행렬 추정단계(S300)는, 도 18에 도시된 바와 같이, 8개의 얼굴특징점 입력(S310, 예를 들어, 검출된 8개의 특징점의 좌표값을 본 실시예의 프로그램이 구동되는 컴퓨팅 수단이 메모리 상에 입력값으로 불러들임), 3차원 표준 얼굴모델 적재(S320, 예를 들어, DB에 저장되어 있던 3D얼굴모델의 전체 좌표 정보를 본 프로그램이 구동되는 컴퓨팅 수단이 입력값으로 불러들임), 최적변환행렬 추정(S330)으로 이뤄진다.

이렇게 추정된 최적변환행렬로부터 응시방향 및 응시거리를 계산하는 추정정보 생성단계(S400)가 이뤄진다.

상기 3차원 표준 얼굴모델은, 도 5에 도시된 바와 같이, 331개의 점과 630개의 삼각형으로 구성된 3D 메쉬 형태의 모형이다.

상기 추정정보 생성단계(S400)는, 상기 최적변환행렬에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나를 추정하여 시청자 얼굴 추적정보를 생성한다.

상기 최적변환행렬 추정은, (c1) 상기 3차원 표준 얼굴모델의 얼굴 회전정보에 관한 3*3 행렬 M과 얼굴 평행이동정보에 관한 3차원 벡터 T를 이용하여 하기 수학식4의 변환식을 계산하는 단계-상기 M과 T는 각 성분을 변수로 가지며, 상기 최적변환행렬을 정의하는 행렬임-; (c2) 상기 수학식4에 의해 구해진 카메라특징점위치벡터(P_C)와 하기 수학식6에 의해 구해진 카메라변환행렬(M_C)를 이용하여 하기 수학식5의 3차원 벡터 P'을 계산하는 단계; (c3) 상기 3차원 벡터 P'에 근거하여 2차원 벡터 P_I를 (P'_x/P'_z, P'_y/P'_z)로 정의하는 단계; 및 (c4) 상기 2차원 벡터 P_I와 상기 (b) 단계에서 검출된 얼굴특징점의 좌표값을 이용하여 상기 최적변환행렬의 각 변수를 추정하는 단계;를 포함하여 구성된다.

[수학식4]

P_C=M*P_M+T

[수학식5]

P'=M_c * P_c

(단, P'은 (P'_x, P'_y, P'_z)로 정의되는 3차원 벡터)

최적변환행렬은 수학적으로 보면 3*3 행렬 M과 3차원 벡터 T로 구성되어 있다. 여기서 3*3 행렬 M은 얼굴의 회전정보를 반영하며, 3차원 벡터 T는 얼굴의 평행이동정보를 반영한다.

먼저, 상기 수학식4에 의하여, 3차원 표준 얼굴모델의 좌표계에서의 특징점위치(3차원벡터) P_M은 상기 최적변환행렬(M, T)에 의해 카메라좌표계에서의 위치(3차원벡터) P_c로 변환된다.

이때, 상기 3차원 표준 얼굴모델 좌표계는 좌표중심이 3차원 표준 얼굴모델의 중심에 위치한 3차원 좌표계이고, 상기 카메라좌표계는 중심이 영상입력수단(도 25의 10)의 중심에 위치한 3차원 좌표계이다.

다음으로, 상기 수학식5에 의하여, 상기 카메라특징점위치벡터 P_c와 카메라변환행렬 M_c를 이용하여 (P'x, P'y, P'z)로 정의된 3차원 벡터인 P'을 구한다.

여기서 카메라변환행렬M_c는 카메라의 초점거리 등에 의하여 결정되는 3*3행렬로서, 하기 수학식6과 같이 정의된다.

[수학식6]

(단, W:영상입력수단(카메라)으로 입력된 이미지의 폭

H:영상입력수단(카메라)으로 입력된 이미지의 높이

focal_len:-0.5*W/tan(Degree2Radian(fov*0.5))

fov:카메라의 보임각도)

따라서, 최적변환행렬(M, T)의 하기에서 설명하는 바와 같은 12개의 변수를 포함하여 “P'=(P'x, P'y, P'z)”이 정의되고, 이에 따라 상기 12개의 변수를 포함하여 “P_I=(P'x/P'z, P'y/P'z)”가 정의될 수 있다.

상술한 바와 같은 과정에 의한 최적변환행렬(M, T)의 추정과정을 간단히 보면 다음과 같다.

검출된 8개의 기본얼굴특징점들의 위치와 이 위치에 대해 3차원 표준 얼굴모델에서 대응하는 점의 위치쌍을 이용하여 최적변환행렬의 12개 변수(M의 3*3=9개와 T의 3개)들을 최소제곱법을 이용하여 추정한다.

즉, 최적변환행렬의 12개 성분들을 변수로 하고, 검출된 특징점의 위치와 최적변환행렬을 적용한 얼굴모델특징점들의 위치 사이 편차의 제곱합을 출력으로 하는 목표함수를 설정한다.

상기 목표함수를 최소화하는 최적화문제를 풀어 12개의 최적 변수를 계산한다.

상기 응시방향정보는 상기 최적변환행렬의 회전정보 관련 행렬(M)의 각 성분을 이용하여 하기 수학식7에 의해 정의되고, 상기 응시거리정보는 상기 최적변환행렬의 평행이동 관련 벡터(T)로 정의된다.

[수학식7]

(단, m₁₁, m₁₂, ...,m₃₃: 3*3 행렬 M의 추정된 각 성분값)

즉, 상기 응시방향정보는 (a_x, a_y, a_z)가 되고, 상기 응시거리정보는 평행이동 관련 벡터(T) 자체로 정의되는 것이다.

상기 성별 추정단계(S500)에서는, 도 19에 도시된 바와 같이, 이미지 및 얼굴특징점 입력(S510), 성별 추정용 얼굴영역 잘라냄(S520), 잘라낸 얼굴영역 이미지 정규화(S530), SVM에 의한 성별추정(S540)의 과정으로 이뤄진다.

성별추정을 위한 방법으로서, 예를 들어, 사람의 얼굴 전부를 이용하는 보기 기반 방법과 얼굴의 기하학적인 특징들만을 이용하는 기하학적인 특징기반방법 등이 있다.

바람직한 일예로서, 상기 성별 추정은, SVM(Support Vector Machine)학습을 이용한 보기기반 성별 분류 방법으로써 검출된 얼굴 영역을 정규화하여 얼굴 특징벡터를 구성하고 그것으로 성별을 예측하는 과정으로 이뤄진다.

SVM방법은 SVC(Support Vector Classifier)와 SVR(Support Vector Regression)로 구분하여 볼 수 있다.

상기 성별 추정과 관련하여, Shumeet Baluja et al.”Boosting Sex Identification Performance”, Carnegie Mellon University, Computer Science Department(2005), Gutta, et al.“Gender and ethnic classification”.IEEE Int.Workshop on Automatic Face and Gesture Recognition, pages 194-199(1998)과, Moghaddam et al.“Learning Gender with Support Faces”.IEEE T.PAMI Vol.24, No.5(2002), 등을 통해 이해될 수 있다.

본 실시예에서, 성별 추정단계(S500)는 구체적으로, (e1) 상기 검출된 얼굴특징점을 기준으로 상기 검출된 얼굴영역에서 성별추정용 얼굴영역을 잘라내는 단계; (e2) 상기 잘라낸 성별추정용 얼굴영역의 크기를 정규화하는 단계; (e3) 상기 크기가 정규화된 성별추정용 얼굴영역의 히스토그램을 정규화하는 단계; 및 (e4) 상기 크기 및 히스토그램이 정규화된 성별추정용 얼굴영역으로부터 입력벡터를 구성하고 미리 학습된 SVM 알고리즘을 이용하여 성별을 추정하는 단계;를 포함하여 구성된다.

상기 (e1) 단계에서는, 입력된 이미지와 얼굴특징점을 이용하여 얼굴영역을 잘라내며, 예를 들어, 도 20에 도시된 바와 같이, 왼쪽눈귀와 오른쪽눈귀 사이의 거리의 절반을 1로 보고 자르려는 얼굴의 영역을 계산한다.

상기 (e2) 단계에서는, 예를 들어, 잘라낸 얼굴영역을 12 * 21 크기로 정규화한다.

상기 (e3) 단계에서는, 조명효과의 영향을 최소화하기 위하여 히스토그램을 매 농도값을 가지는 화소수를 동일하게 하는 과정인 히스토그램정규화를 한다.

상기 (e4) 단계에서는, 예를 들어, 정규화된 12 * 21 크기의 얼굴이미지로부터 252차원의 입력벡터를 구성하고, 미리 학습된 SVM을 이용하여 성별을 추정한다.

이때, 상기 성별의 추정은, 하기 수학식8의 분류기의 계산 결과값이 0보다 크면 남자, 아니면 여자로 판정한다.

[수학식8]

(단, M:표본자료의 개수,

y_i:i번째 시험자료의 성별 값으로써 남자면 1, 여자면 -1로 설정

α_i:i번째 벡터의 계수,

x:시험자료,

x_i:학습표본자료,

k:커널함수,

b:편차)

이때, 상기 커널함수는 하기 수학식9에 정의된 가우시안동경토대함수(GRBF, Gaussian Radial Basis Function)를 이용할 수 있다.

[수학식9]

(단, x:시험자료, x':학습표본자료, σ:분산정도를 나타내는 변수)

한편, 커넬함수로서는 가우시안동경토대함수 이외에 다항식커널 등을 사용할 수 있으며, 바람직하게, 식별성능을 고려하여 가우시안동경토대함수를 사용한다.

한편, SVM(Support Vector Machine) 방법은 두 개의 그룹을 가지는 모임에서 두 그룹의 경계선을 도출해내는 분류방법으로서 패턴분류와 회귀를 위한 학습 알고리즘으로 알려져 있다.

SVM들의 기초적인 학습원리는 눈에 보이지 않는 시험표본을 위한 예측분류오유가 최소로 되는, 즉, 좋은 일반화 성능을 가지는 최적의 선형초평면을 찾는 것이다.

이러한 원리에 기초하여 선형 SVM에서는 최소의 차수를 가지는 선형함수를 찾는 분류학적인 방법을 사용한다.

SVM의 학습문제는 선형제한붙은 2차원계획문제에 귀착된다.

학습표본을 x1,…,xi , 개개의 클래스라벨을 y1,…,yi이라고 하고 학습표본이 남자이면 y = 1 , 여자라면 y = -1 로 한다.

학습결과를 일의로 결정하기 위하여 하기 참고식2의 제약을 준다.

………[참고식2]

이러한 제약을 주면 학습표본과 초평면의 최소거리는, 하기 참고식3으로 표시되므로 반드시 하기 참고식4와 같이 된다.

………[참고식3]

………[참고식4]

w, b 는 학습표본을 완전히 식별하는 가운데서 최소거리를 최대로 하도록 결정해야 하므로 하기 참고식5와 같이 정식화된다.

………[참고식5]

목적함수를 최소화하는 것은 최소거리인 상기 식4의 값을 최대화하는 것으로 된다.

따라서 위의 목적함수를 최대화하는 지지벡터를 w와 편차 b를 계산한다.

커널을 이용한 SVM에서는 최적상수

을 하기 참고식6과 같이 결정한다.

…[참고식6]

이때 제한조건은 하기 참고식7과 같다.

…[참고식7]

여기서 K(x, x')는 비선형커널함수이다.

다음 편차를 하기 참고식8과 같이 계산한다.

…[참고식8]

상술한 바와 같은 방법에 의해 얻어진 상기 수학식8의 분류기에 대한 계산 결과값이 1이면 남자, 0이면 여자로 판정되는 것이다.

한편, 상기 과정에서 Adaboost 방법을 사용할 수도 있으나, 분류기의 성능과 일반화 성능을 고려할 때, SVM 방법을 사용하는 것이 더욱 바람직하다.

예를 들어, 아시아인들의 얼굴들을 Adaboost 방법으로 학습시키고 유럽인들에 대하여 성별추정성능을 시험해보았을 때 SVM 방법으로 시험할 때보다 10 ~ 15%정도 성능이 내려가게 된다.

이로부터 충분한 학습자료가 주어지지 않은 조건에서 SVM 방법으로 성별추정을 진행하는 경우 높은 식별능력을 얻을 수 있다는 이점이 있다.

상기 나이 추정단계(S600)에서는, 도 21에 도시된 바와 같이, 이미지 및 얼굴특징점 입력(S610), 나이 추정용 얼굴영역 잘라냄(S620), 잘라낸 얼굴영역 이미지 정규화(S630), 나이다양체 공간으로 사영(S640), 2차 다항식 회귀를 이용하여 나이추정(S650)의 과정으로 이뤄진다.

나이 추정방법과 관련하여, Y.Fu, Y.Xu, and T.S.Huang의 논문, “Estimating human ages by manifold analysis of face pictures and regression on aging features,” in Proc.IEEE Conf.Multimedia Expo., 2007, pp.1383-1386과, G.Guo, Y.Fu, T.S.Huang, and C.Dyer의 논문, “Locally adjusted robust regression for human age estimation,” presented at the IEEEWorkshop on Applications of Computer Vision, 2008, A.Lanitis, C.Draganova, and C.Christodoulou의 논문, “Comparing different classifers for automatic age estimation,” IEEE Trans.Syst., Man, Cybern.B, Cybern., vol.34, no.1, pp.621-628, Feb.2004.등을 통해 이해할 수 있다.

본 실시예에서, 나이의 추정은 구체적으로, (f1) 상기 검출된 얼굴특징점을 기준으로 상기 검출된 얼굴영역에서 나이추정용 얼굴영역을 잘라내는 단계; (f2) 상기 잘라낸 나이추정용 얼굴영역의 크기를 정규화하는 단계; (f3) 상기 크기가 정규화된 나이추정용 얼굴영역의 국부적 조명보정을 하는 단계; (f4) 상기 크기 정규화 및 국부적 조명보정된 나이추정용 얼굴영역으로부터 입력벡터를 구성하고 나이다양체 공간으로 사영하여 특징벡터를 생성하는 단계; 및 (f5) 상기 생성된 특징벡터에 2차회귀를 적용하여 나이를 추정하는 단계;를 포함하여 구성된다.

상기 (f1) 단계에서는, 입력된 이미지와 얼굴특징점을 이용하여 얼굴영역을 잘라낸다.

예를 들어, 도 22에 도시된 바와 같이, 두눈귀 및 입귀점으로부터 위(0.8), 아래(0.2), 왼쪽(0.1), 오른쪽(0.1)로 각각 확장하여 얼굴영역을 잘라낸다.

상기 (f2) 단계에서는, 예를 들어, 잘라낸 얼굴영역을 64 * 64 크기로 정규화한다.

상기 (f3) 단계에서는, 조명효과의 영향을 줄이기 위하여, 하기 수학식10에 의해 국부적 조명보정이 이뤄진다.

[수학식10]

I(x,y)=(I(x,y)-M)/V*10 + 127

(단, I(x,y):(x,y)위치에서의 농담값, M:4*4 국부적 창문영역에서의 농담평균값, V:표준분산값)

상기 표준분산값(V)은 어떤 우연량의 값이 평균값주위에서 흩어지는 정도를 나타내는 특성값이며, 수학적으로 표준분산 V는 다음 식9와 같이 계산된다.

………[참고식9]

상기 (f4) 단계에서는, 예를 들어, 64 * 64 얼굴이미지로부터 4096차원의 입력벡터를 구성하고, 미리 학습된 나이다양체공간으로 사영하여 50차원의 특징벡터를 생성한다.

나이추정이론에서는 얼굴화상에 반영된 인간의 노화과정을 나타내는 특징들이 어떠한 저차원분포에 따르는 패턴들로 표시될 수 있다고 가정하며, 이때의 저차원특징공간을 나이다양체공간이라고 한다.

이로부터 나이추정에서 기본은 얼굴화상으로부터 나이다양체공간에로의 사영행렬을 추정하는 것이 기본이다.

CEA(Conformal Embedding Analysis)에 의한 나이다양체에로의 사영행렬 학습 알고리즘에 대하여 간략하게 설명한다.

Y=P^TX………[참고식10]

상기 참고식10에서, X는 입력벡터, Y는 특징벡터이며 P는 CEA를 이용하여 학습된 나이다양체에로의 사영행렬이다.

이와 관련하여, Yun Fu Huang, T.S.의 논문, "Human Age Estimation With Regression on Discriminative Aging Manifold" in Multimedia, IEEE Transactions on, 2008, pp.578-584 등을 통해 이해할 수 있다.

n개의 얼굴이미지 x₁, x₂,…,x_n을 X={x₁,…, x_n}∈R^m로 표시한다.

이때, X는 m×n 행렬이며 x_i는 매 얼굴이미지를 나타낸다.

다양체학습단계는 m차원의 얼굴벡터를 d≪m(d는 m보다 훨씬 작다)인 d차원의 얼굴벡터(노화특징벡터)로 표현하기 위한 사영행렬을 구하는 것이다.

즉, y_i= P_mat×x_i 인 사영행렬 P_mat를 구하는 것이다. 여기서 {y₁,…, y_n}∈R^d이다. 여기서, d를 50으로 설정한다.

일반적으로 얼굴해석을 진행할 때, 이미지차수 m은 이미지개수 n보다 훨씬 더 크다.

그러므로 m×m행렬 XX^T는 퇴화행렬이다. 이 문제를 극복하기 위해 처음에 PCA를 이용하여 얼굴이미지를 정보손실이 없는 부분공간으로 사영하며 결과 행렬 XX^T는 불퇴화행렬로 된다.

(1) PCA 사영

n개의 얼굴벡터가 주어지면 이 얼굴벡터모임에 대한 공분산행렬 C_pca를 구한다. C_pca는 m×m 행렬이다.

공분산행렬 C_pca에 대한 C_pca×Eigen_vector=Eigen_value×Eigen_vector인 고유값, 고유벡터 문제를 풀어서 m개의 고유값들과 m개의 m차원 고유벡터들을 얻는다.

다음 고유값이 큰 순서로 d개의 고유벡터를 선택하여 행렬 W_PCA를 구성한다.

W_PCA는 m×d 행렬이다.

(2) 무게행렬 Ws, Wd구성

Ws는 같은 나이그룹에 속하는 얼굴이미지들사이의 관계를 나타내며 Wd는 서로 다른 그룹에 속하는 얼굴이미지들사이의 관계를 나타낸다.

………[참고식11]

상기 참고식11에서, Dist(X_i,X_j)는 하기 참고식12와 같다.

…[참고식12]

(3) CEA토대벡터 계산

의 d개의 가장 큰 고유값에 대응하는 고유벡터가 CEA토대벡터로 된다.

…[참고식13]

(4) CEA 은페화

직교토대벡터들인 a₁,…,a_d가 계산되면 행렬 WCEA는 하기 참고식14와 같이 정의된다.

W_CEA = [a₁, a₂, …, a_d]………[참고식14]

식에서 W_CEA은 m×d행렬이다.

이때 사영행렬 P_mat는 하기 참고식15와 같이 정의된다.

P_mat=W_PCAW_CEA………[참고식15]

사영행렬 P_mat를 이용하여 매 얼굴벡터 X에 대한 노화특징량을 얻어낸다.

x→y = P_mat ^T× x………[참고식16]

(단, y는 얼굴벡터 X에 대응하는 d차원벡터, 즉, 노화특징량임)

상기 (f5) 단계에서, 상기 2차회귀를 적용하여 나이를 추정하는 것은 하기 수학식11에 의해 이뤄진다.

[수학식11]

(단, b_o, b₁, b₂:학습자료로부터 미리 계산된 회귀계수,

Y:시험자료x로부터 참고식16에 의하여 계산된 노화특징벡터,

L:추정 나이)

b_o, b₁, b₂는 학습자료로부터 다음과 같이 미리 계산한다.

2차회귀모형은 하기 참고식17과 같다.

………[참고식17]

여기서

는 i번째 학습화상의 나이값이며

는 i번째 학습화상의 특징벡터이다.

이것은 벡터-행렬형식으로 하기 참고식18과 같이 표시된다.

………[참고식18]

여기서,

………[참고식19]

이며, n은 학습자료의 개수이다.

이때, 회귀상수

는 하기 참고식20과 같이 계산된다.

………[참고식20]

상기 눈감김 추정단계(S700)에서는, 도 23에 도시된 바와 같이, 이미지 및 얼굴특징점 입력(S710), 눈감김 추정용 얼굴영역 잘라냄(S720), 잘라낸 얼굴영역 이미지 정규화(S730), SVM에 의한 눈감김 추정(S740)의 과정으로 이뤄진다.

본 실시예에서, 상기 눈감김의 추정은 구체적으로, (g1) 상기 검출된 얼굴특징점을 기준으로 상기 검출된 얼굴영역에서 눈감김추정용 얼굴영역을 잘라내는 단계; (g2) 상기 잘라낸 눈감김추정용 얼굴영역의 크기를 정규화하는 단계; (g3) 상기 크기가 정규화된 눈감김추정용 얼굴영역의 히스토그램을 정규화하는 단계; 및 (g4) 상기 크기 및 히스토그램이 정규화된 눈감김추정용 얼굴영역으로부터 입력벡터를 구성하고 미리 학습된 SVM 알고리즘을 이용하여 눈감김을 추정하는 단계;를 포함하여 구성된다.

상기 (g1) 단계에서는, 입력된 이미지와 얼굴특징점을 이용하여 눈영역을 잘라낸다.

예를 들어, 도 24에 도시된 바와 같이, 얼굴특징점 검출에서 검출된 특징점 중에서 눈의 양쪽 끝점을 기준으로 너비를 확정하고, 위아래로 동일한 높이로 눈영역을 확정하여 눈영역을 잘라낼 수 있다.

상기 (g2) 단계에서는, 예를 들어, 잘라낸 눈영역이미지를 20*20크기로 정규화한다.

상기 (g3) 단계에서는, 조명효과의 영향을 줄이기 위하여 히스토그램정규화를 한다.

상기 (g4) 단계에서는, 예를 들어, 정규화된 20*20 크기의 얼굴이미지로부터 400차원의 입력벡터를 구성하고, 미리 학습된 SVM을 이용하여 눈감김여부를 추정한다.

상기 (g4) 단계에서, 상기 눈감김의 추정은, 하기 수학식12의 결과값이 0보다 크면 눈을 뜬 상태, 0보다 작으면 눈을 감은 상태로 판정하며, 결과값이 0인 경우에는 바람직하게는 눈을 뜬 것으로 판정한다.

[수학식12]

(단, M:SV벡터의 개수,

y_i:i번째 학습자료에 대한 눈감김 여부로써 눈을 뜬 상태인 경우 1, 눈을 감은 상태인 경우 -1로 설정,

α_i:i번째 벡터의 계수,

x:시험벡터,

x_i:i번째 학습벡터,

k:커널함수,

b:편차)

이때, 상기 커널함수는 하기 수학식13에 정의된 가우시안동경토대함수를 이용할 수 있다.

[수학식13]

상기 결과 출력단계(S800)에서는, 상술한 바와 같은 과정에 의해 추정된 시청자의 성별정보, 시청자의 나이정보를 3차원 디스플레이 장치의 입체감을 제어하기 정보로서 입체감 제어수단으로 출력한다.

일반적으로 3차원 디스플레이 장치 개발시, 3차원 디스플레이 장치의 정면 2.5M에 성인 남자가 앉아있다는 전제조건으로 개발을 한다.

하지만, 예를 들어, 양안 시차를 이용하는 3DTV의 경우 해당위치에서 벗어나게 되면 입체효과가 줄어들거나 어지러움증이 일어나는 문제가 있다.

한편, 일반적인 성인남자의 경우 대략 6.5cm의 양안 거리를 가지고 있으며, 이에 맞도록 뇌는 깊이정보를 계산하도록 되어있다.

하지만 인종, 성별, 나이에 따라 이 차이가 작게는 1cm 많게는 1.5cm 정도 차이가 벌어진다.

그러므로, 이를 판별하여 3차원 디스플레이 장치의 입체감을 제어하기 위하여 시청자의 성별정보와 나이정보가 필요하다.

상기 입체감 제어수단으로 출력된 시청자의 성별정보, 시청자의 나이정보는, 좌영상과 우영상 촬영시의 초점이 맞추어지는 점을 기준으로 하여 정해지는 변경 량을 의미하는 수평 시차 변경 기준값으로 활용될 수 있다.

즉, 상기 추정된 시청자의 성별정보, 시청자의 나이정보에 근거한 수평 시차 변경 기준값을 이용하여 3차원 디스플레이 장치의 입체감을 제어함에 따라 현재 시청자의 시청 조건에 최적화된 3차원 화면을 출력하여 제공할 수 있는 것이다.

한편, 시청자의 응시방향에 대한 추정 결과, 3차원 디스플레이 장치의 정면에서 시청하는 경우(도 25의 a)가 아닌 3차원 디스플레이 장치의 정면에서 소정 각도 이상 벗어난 경우(예를 들어, 도 25에 도시된 바와 같이, 좌우 10˚ 이상 벗어난 위치에서 시청자가 응시하고 있는 경우(도 25의 b))에는 다음과 같은 처리를 할 수 있다.

3차원 디스플레이 장치의 정면이 해당 시청자를 향하도록 회전구동수단(도면 미도시)을 이용하여 3차원 디스플레이 장치의 출력방향을 변경할 수 있다.

또는, 3차원 디스플레이 장치의 화면으로 "시청 각도에서 벗어남", "화면 정면으로 이동 바람" 등의 자막을 출력하여 시청자가 3차원 디스플레이 장치의 정면으로 이동할 수 있도록 안내할 수도 있다.

또한, 상기 결과 출력단계(S800)에서는, 상술한 바와 같은 과정에 의해 추정된 시청자의 눈감김정보를 3차원 디스플레이 장치 화면 출력 ON/OFF를 제어하기 위한 정보로서 화면전원 제어수단으로 출력한다.

즉, 시청자의 눈감김 상태가 지속된다고 추정된 경우에, 상기 화면전원 제어수단은 상기 디스플레이 장치 화면으로 출력되는 영상을 OFF시켜서 더 이상의 영상 출력이 이뤄지지 않도록 할 수 있다.

도 25의 도면부호 1000은, 이러한 각종 제어 처리를 하기 위한 제어수단이다.

본 발명의 실시예 들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록매체를 포함한다.

상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 기록매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

상기 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

본 발명은 첨부된 도면을 참조하여 바람직한 실시예를 중심으로 기술되었지만 당업자라면 이러한 기재로부터 본 발명의 범주를 벗어남이 없이 많은 다양하고 자명한 변형이 가능하다는 것은 명백하다. 따라서 본 발명의 범주는 이러한 많은 변형예들을 포함하도록 기술된 특허청구범위에 의해서 해석돼야 한다.

Claims

시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성방법으로서,

(a) 상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 단계;

(b) 상기 검출된 얼굴영역에서 얼굴특징점을 검출하는 단계;

(c) 3차원 표준 얼굴모델의 모델특징점을 변환하여 상기 얼굴특징점에 대응하는 3차원 시청자 얼굴모델을 생성하는 최적변환행렬을 추정하는 단계; 및

(d) 상기 최적변환행렬에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나를 추정하여 시청자 얼굴 추적정보를 생성하는 단계;를 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제1항에 있어서,

상기 (a) 단계는,

(a1) 상기 추출된 이미지의 RGB 색 정보로부터 YCbCr 색 모델을 작성하고, 작성된 색 모델에서 색 정보와 밝기 정보를 분리하며, 상기 밝기 정보에 의하여 얼굴후보영역을 검출하는 단계; 및

(a2) 상기 검출된 얼굴후보영역에 대한 4각 특징점 모델을 정의하고, 상기 4각 특징점 모델을 AdaBoost 학습 알고리즘에 의하여 학습시킨 학습자료에 기초하여 얼굴영역을 검출하는 단계;를 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제2항에 있어서,

상기 (a2) 단계 이후에

(a3) 상기 AdaBoost의 결과값(하기 수학식1의 CF_H(x))의 크기가 소정임계값을 초과하는 경우에 상기 검출된 얼굴영역을 유효한 얼굴영역으로 판정하는 단계;를 더 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.

[수학식1]

(단, M:강분류기를 구성하고 있는 전체 약분류기의 개수

h_m(x):m번째 약분류기에서의 출력값

θ:강분류기의 오류판정률을 조절하는데 이용되는 값)
제2항에 있어서,

상기 (a2) 단계에서,

상기 얼굴영역 검출을 위한 하 라이크 피쳐(harr-like feature)는 비정면 얼굴영역을 검출하기 위한 비대칭성의 하 라이크 피쳐(harr-like feature)를 더욱 포함하는 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제1항에 있어서,

상기 (b) 단계는,

ASM(active shape model) 방법의 특징점(landmark) 탐색에 의해 이뤄지되, AdaBoost 알고리즘을 이용하여 진행하는 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제5항에 있어서,

상기 얼굴특징점의 검출은,

(b1) 현재 특징점의 위치를 (x_l, y_l)라고 정의하고, 현재 특징점의 위치를 중심으로 그 근방에서 n*n 화소크기의 부분창문들을 분류기로 분류하는 단계;

(b2) 하기 수학식2에 의하여 특징점의 후보위치를 계산하는 단계; 및

(b3) 하기 수학식3의 조건을 만족하는 경우에는 (x'_l, y'_l)을 새로운 특징점으로 정하고, 만족하지 못하는 경우에는 현재 특징점의 위치(x_l, y_l)를 유지하는 단계;를 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.

[수학식2]

[수학식3]

(단, a:x축방향으로 탐색해나가는 최대근방거리

b:y축방향으로 탐색해나가는 최대근방거리

x_dx _, _dy:(x_l, y_l)에서 (dx, dy)만큼 떨어진 점을 중심으로 하는 부분창문

N_all:분류기의 총계단수

N_pass:부분창문이 통과된 계단수

c:끝까지 통과되지 못한 부분창문의 신뢰도값을 제한하기 위한 상수값)
제1항에 있어서,

상기 (c) 단계는,

(c1) 상기 3차원 표준 얼굴모델의 얼굴 회전정보에 관한 3*3 행렬 M과 얼굴 평행이동정보에 관한 3차원 벡터 T를 이용하여 하기 수학식4의 변환식을 계산하는 단계-상기 M과 T는 각 성분을 변수로 가지며, 상기 최적변환행렬을 정의하는 행렬임-;

(c2) 상기 수학식4에 의해 구해진 카메라특징점위치벡터(P_C)와 하기 수학식6에 의해 구해진 카메라변환행렬(M_C)를 이용하여 하기 수학식5의 3차원 벡터 P'을 계산하는 단계;

(c3) 상기 3차원 벡터 P'에 근거하여 2차원 벡터 P_I를 (P'_x/P'_z, P'_y/P'_z)로 정의하는 단계; 및

(c4) 상기 2차원 벡터 P_I와 상기 (b) 단계에서 검출된 얼굴특징점의 좌표값을 이용하여 상기 최적변환행렬의 각 변수를 추정하는 단계;를 더욱 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.

[수학식4]

P_C=M*P_M+T

[수학식5]

P'=M_c*P_c

(단, P'은 (P'_x, P'_y, P'_z)로 정의되는 3차원 벡터)

[수학식6]

(단, W:영상입력수단으로 입력된 이미지의 폭,

H:영상입력수단으로 입력된 이미지의 높이,

focal_len:-0.5*W/tan(Degree2Radian(fov*0.5)),

fov:카메라의 보임각도)
제7항에 있어서,

상기 응시방향 정보는 상기 행렬 M의 추정된 각 성분을 이용하여 하기 수학식7에 의해 구해지고, 상기 응시거리 정보는 상기 벡터 T의 추정된 각 성분으로 정의되는 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.

[수학식7]

(단, m₁₁, m₁₂, ...,m₃₃: 3*3 행렬 M의 추정된 각 성분값)
제1항에 있어서,

상기 (d) 단계 이후에,

(e) 상기 검출된 얼굴영역을 이용하여 상기 시청자의 성별을 추정하는 성별추정단계;를 더 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제9항에 있어서,

상기 (e) 단계는,

(e1) 상기 검출된 얼굴특징점을 기준으로 상기 검출된 얼굴영역에서 성별추정용 얼굴영역을 잘라내는 단계;

(e2) 상기 잘라낸 성별추정용 얼굴영역의 크기를 정규화하는 단계;

(e3) 상기 크기가 정규화된 성별추정용 얼굴영역의 히스토그램을 정규화하는 단계; 및

(e4) 상기 크기 및 히스토그램이 정규화된 성별추정용 얼굴영역으로부터 입력벡터를 구성하고 미리 학습된 SVM 알고리즘을 이용하여 성별을 추정하는 단계;를 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제1항에 있어서,

상기 (d) 단계 이후에,

(f) 상기 검출된 얼굴영역을 이용하여 상기 시청자의 나이를 추정하는 나이추정단계;를 더 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제11항에 있어서,

상기 나이의 추정은,

(f1) 상기 검출된 얼굴특징점을 기준으로 상기 검출된 얼굴영역에서 나이추정용 얼굴영역을 잘라내는 단계;

(f2) 상기 잘라낸 나이추정용 얼굴영역의 크기를 정규화하는 단계;

(f3) 상기 크기가 정규화된 나이추정용 얼굴영역의 국부적 조명보정을 하는 단계;

(f4) 상기 크기 정규화 및 국부적 조명보정된 나이추정용 얼굴영역으로부터 입력벡터를 구성하고 나이다양체 공간으로 사영하여 특징벡터를 생성하는 단계; 및

(f5) 상기 생성된 특징벡터에 2차회귀를 적용하여 나이를 추정하는 단계;를 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제1항에 있어서,

상기 (d) 단계 이후에,

(g) 상기 검출된 얼굴영역을 이용하여 상기 시청자의 눈감김을 추정하는 눈감김추정단계;를 더 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제13항에 있어서,

상기 눈감김의 추정은,

(g1) 상기 검출된 얼굴특징점을 기준으로 상기 검출된 얼굴영역에서 눈감김추정용 얼굴영역을 잘라내는 단계;

(g2) 상기 잘라낸 눈감김추정용 얼굴영역의 크기를 정규화하는 단계;

(g3) 상기 크기가 정규화된 눈감김추정용 얼굴영역의 히스토그램을 정규화하는 단계; 및

(g4) 상기 크기 및 히스토그램이 정규화된 눈감김추정용 얼굴영역으로부터 입력벡터를 구성하고 미리 학습된 SVM 알고리즘을 이용하여 눈감김을 추정하는 단계;를 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성방법으로서,

상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 얼굴영역 검출단계;

상기 검출된 얼굴영역에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보를 추정하여 응시정보를 생성하는 응시정보 생성단계; 및

상기 검출된 얼굴영역에 근거하여 상기 시청자의 성별 및 나이 중 적어도 하나의 정보를 추정하여 시청자정보를 생성하는 시청자정보 생성단계;를 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성방법.
제1항 내지 제15항 중의 어느 한 항에 기재된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제1항 내지 제15항 중의 어느 한 항에 기재된 시청자 얼굴 추적정보 생성방법을 이용하여 입체감을 제어하는 3차원 디스플레이 장치.
시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성장치로서,

상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 얼굴영역 검출모듈;

상기 검출된 얼굴영역에서 얼굴특징점을 검출하는 얼굴특징점 검출모듈;

3차원 표준 얼굴모델의 모델특징점을 변환하여 상기 얼굴특징점에 대응하는 3차원 시청자 얼굴모델을 생성하는 최적변환행렬을 추정하는 행렬 추정모듈; 및

상기 추정된 최적변환행렬에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나를 추정하여 시청자 얼굴 추적정보를 생성하는 추적정보 생성모듈;을 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성장치.
제18항에 있어서,

상기 얼굴특징점 검출모듈은,

ASM(active shape model) 방법의 특징점(landmark) 탐색에 의해 얼굴특징점을 검출하되, AdaBoost 알고리즘을 이용하여 진행하는 것을 특징으로 하는 시청자 얼굴 추적정보 생성장치.
제18항에 있어서,

상기 행렬 추정모듈은,

상기 3차원 표준 얼굴모델의 얼굴 회전정보에 관한 3*3 행렬 M과 얼굴 평행이동정보에 관한 3차원 벡터 T를 이용하여 하기 수학식4의 변환식을 계산하고-상기 M과 T는 각 성분을 변수로 가지며, 상기 최적변환행렬을 정의하는 행렬임-; 상기 수학식4에 의해 구해진 카메라특징점위치벡터(P_C)와 하기 수학식6에 의해 구해진 카메라변환행렬(M_C)를 이용하여 하기 수학식5의 3차원 벡터 P'을 계산하며, 상기 3차원 벡터 P'에 근거하여 2차원 벡터 P_I를 (P'_x/P'_z, P'_y/P'_z)로 정의하고, 상기 2차원 벡터 P_I와 상기 (b) 단계에서 검출된 얼굴특징점의 좌표값을 이용하여 상기 최적변환행렬의 각 변수를 추정하는 것을 특징으로 하는 시청자 얼굴 추적정보 생성장치.

[수학식4]

P_C=M*P_M+T

[수학식5]

P'=M_c*P_c

(단, P'은 (P'_x, P'_y, P'_z)로 정의되는 3차원 벡터)

[수학식6]

(단, W:영상입력수단으로 입력된 이미지의 폭,

H:영상입력수단으로 입력된 이미지의 높이,

focal_len:-0.5*W/tan(Degree2Radian(fov*0.5)),

fov:카메라의 보임각도)
제18항에 있어서,

상기 검출된 얼굴영역을 이용하여 상기 시청자의 성별을 추정하는 성별추정모듈;을 더 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성장치.
제18항에 있어서,

상기 검출된 얼굴영역을 이용하여 상기 시청자의 나이를 추정하는 나이추정모듈;을 더 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성장치.
제18항에 있어서,

상기 검출된 얼굴영역을 이용하여 상기 시청자의 눈감김을 추정하는 눈감김추정모듈;을 더 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성장치.
시청자의 응시방향 및 응시거리 중 적어도 하나의 정보에 대응하여 3차원 디스플레이 장치의 입체감을 제어하기 위한 시청자 얼굴 추적정보 생성장치로서,

상기 3차원 디스플레이 장치 측의 일 위치에 구비된 영상입력수단을 통해 입력되는 영상에서 추출한 이미지로부터 상기 시청자의 얼굴영역을 검출하는 수단;

상기 검출된 얼굴영역에 근거하여 상기 시청자의 응시방향 및 응시거리 중 적어도 하나의 정보를 추정하여 응시정보를 생성하는 수단; 및

상기 검출된 얼굴영역에 근거하여 상기 시청자의 성별 및 나이 중 적어도 하나의 정보를 추정하여 시청자정보를 생성하는 수단;을 포함하여 구성된 것을 특징으로 하는 시청자 얼굴 추적정보 생성장치.