KR101279561B1

KR101279561B1 - 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법

Info

Publication number: KR101279561B1
Application number: KR1020120006341A
Authority: KR
Inventors: 배윤진; 서영호; 김동욱
Original assignee: 광운대학교 산학협력단
Priority date: 2012-01-19
Filing date: 2012-01-19
Publication date: 2013-06-28

Abstract

사람의 얼굴을 촬영하는 카메라로부터 시간상 연속되는 프레임을 갖는 깊이영상 및 컬러영상을 입력받아 얼굴을 검출하고 추적하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 관한 것으로서, (a) 현재 프레임의 깊이영상에서 이전 프레임에 비해 깊이의 변화가 있는 영역과 현재 프레임의 컬러영상에서 얼굴색이 나타나는 영역의 공통영역을 추출하고, 공통영역에 Adaboost 알고리즘을 적용하여 템플릿을 설정하는 단계; (b) 템플릿을 중심으로 확대되는 영역에 대응되는 현재 프레임의 영역을 탐색영역으로 설정하는 단계; (c) 템플릿과, 템플릿에 의한 현재 프레임의 탐색영역(이하 샘플링 영역)을 비교하여 깊이의 변화를 구하고, 깊이의 변화에 따라 템플릿의 크기를 갱신하고 갱신된 템플릿에 의해 탐색영역을 갱신하는 단계; (d) 탐색영역의 각 위치에 대하여, 템플릿이 위치의 영역과 매칭되는지를 판단하는 단계; (e) 매칭되는 영역(이하 매칭영역)이 검색되면, 매칭영역을 얼굴의 이동 위치로 판단하는 단계; 및, (f) 매칭영역의 위치로 템플릿의 위치를 갱신하고, 현재 프레임의 다음 프레임을 현재 프레임으로 하여 (c)단계를 반복하는 단계를 포함하는 구성을 마련한다.
상기와 같은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 의하여, 얼굴영역 검출시 깊이영상과 컬러영상을 모두 이용하거나 깊이영상으로 템플릿의 크기를 적정하게 조정하고, 또한, 얼굴의 이동속도를 고려하여 탐색영역을 축소함으로써, 검출 및 추적의 속도 및 정확도를 동시에 높일 수 있다.

Description

깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법 { A Fast and Accurate Face Detection and Tracking Method by using Depth Information }

본 발명은 사람의 얼굴을 촬영하는 카메라로부터 시간상 연속되는 프레임을 갖는 깊이영상 및 컬러영상을 입력받아 얼굴을 검출하고 추적하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 관한 것이다.

특히, 본 발명은 얼굴검출 과정과 얼굴추적 과정으로 구성되며, 얼굴검출 과정은 기본적으로 기존의 Adaboost 방법을 사용하나 깊이영상을 사용하여 탐색영역을 축소하고, 얼굴추적은 템플릿 매칭방법을 사용하고 조기종료 기법을 사용하여 수행시간을 줄일 수 있는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 관한 것이다.

인간생체의 일부를 검출하고 추적하는 방법은 컴퓨터 비전분야를 비롯한 다양한 분야에서 오래전부터 연구되어 왔으며, 보안시스템, 화상회의, 로봇 비전, HCI(human-computer interface)에 의한 대화형 시스템, 스마트 홈 등에 널리 사용되고 있다[문헌 1][문헌 2]. 이 중 얼굴에 대한 연구가 가장 활발히 연구되어 왔으며[문헌 1~9], 그 목적은 빠르고 정확한 검출과 추적이었다.

일반적으로, 기 제안된 얼굴검출 방법은 크게 지식-기반 방법, 특징-기반 방법, 템플릿 매칭(template matching) 방법, 외형-기반 방법(appearance-based methods)으로 분류할 수 있다[문헌 3].

지식-기반 방법은 사람의 얼굴을 구성하는 눈, 코, 입 등의 기하학적인 특성을 파악하여 얼굴을 검출하는 방법[문헌 4]이다. 이 방법은 얼굴의 특징요소들에 대한 정보를 정확히 정의하기 어렵다는 단점이 있으며, 정의된 규칙의 엄격성과 검출/추적률 간의 상보적 관계를 보인다.

특징-기반 방법은 얼굴의 특징 성분인 얼굴요소[문헌 5], 질감 정보[문헌 6], 피부색[문헌 7][문헌 8][문헌 9], 또는 이들을 복합적으로 사용하여[문헌 10] 얼굴을 검출한다. 특히 피부색을 이용한 얼굴검출은 얼굴의 회전, 포즈 등의 변화에 독립적이므로 강인하다는 장점이 있으나, 조명의 영향을 많이 받는다는 단점이 있다.

템플릿 매칭 방법은 수동적으로 미리 대상이 되는 모든 얼굴에 대한 표준 얼굴패턴을 만들고 이를 입력영상과 비교하여 얼굴을 검출하는 방법[문헌 11]이다. 이 방법은 적용하기 쉽다는 장점이 있지만 거리에 따른 얼굴의 크기 변화나, 얼굴의 회전, 기울어짐 등에 민감하다는 단점이 있다.

외형-기반 방법은 학습영상 집합을 입력받아 훈련과정을 통해 학습된 모델을 이용하여 얼굴을 검출하는 방법이다. 이러한 방법으로는 주성분 분석에 의해 생성되는 고유얼굴(eigen face)을 이용하는 방법[문헌 12][문헌 13], 신경망과 서포트 벡터 머신(support vector machine)을 이용하는 방법[문헌 14] 등이 있다. 이 방법들은 복잡한 영상에서 얼굴을 검출하기 위해 훈련과정에서 얼굴 영상과 비 얼굴 영상을 입력받아 둘의 차이를 잘 나타낼 수 있는 특징들을 찾은 다음 이를 이용하여 얼굴을 검출한다. 그러나 이 방법들은 훈련 과정과 검출에 많은 계산량을 필요로 하고, 훈련과정에서 도출된 특징들에 대한 의존도가 높아 이 특징들의 정확성에 성능이 크게 좌우된다. 또한 이들 방법들의 특징을 복합적으로 사용하는 방법[문헌 15-17]도 발표되었으며, 이를 더욱 확장하는 등[문헌 18] 현재까지 이 방법이 가장 널리 사용되고 있다.

또한, 얼굴추적은 동영상으로 입력되는 영상 시퀀스에서 움직이는 사람의 얼굴을 검출하고 이동경로를 추적하는 것으로, 실시간 환경에서의 빠른 수행속도에 초점을 맞추어 연구되고 있다.

얼굴을 추적하는 가장 간단한 방법은 얼굴을 하나의 객체로 보고 객체에 해당하는 블록을 매칭시키는 방법[문헌 19]이다. 그 외 전처리 또는 수학적, 물리적 현상 등을 사용한 모델링 방법을 이용하여 동적인 배경에서 움직이는 물체를 분리하여 영상 내에서 가장 유사한 객체를 추적하는 방법이 있다[문헌 20-22]. 그리고 기존에 2차원 영상을 사용하던 방법과는 달리 3차원적 정보를 사용하기 위하여 3차원적 움직임[문헌 23, 24]이나 스테레오 매칭에 의한 변이값[문헌 25, 26]을 사용하는 방법들도 연구되었다. 또한 최근에는 깊이카메라[문헌 27] 또는 Microsoft사의 xbox360[문헌 28]을 이용하여 깊이 정보를 실시간으로 획득할 수 있기 때문에 이들로부터 획득된 깊이정보를 얼굴검출 및 추적에 직접 사용하는 연구도 진행되고 있다[문헌 29].

[문헌 1] G, Q, Zhao, et al., "A Simple 3D face Tracking Method based on Depth Information," Int'l Conf. on Machine Learning and Cybernetics, pp. 5022-5027, Aug. 2005. [문헌 2] C. X. Wang and Z. Y. Li, "A New Face Tracking Algorithm Based on Local Binary Pattern and Skin Color Information," ISCSCT, Vol. 2, pp. 20-22, Dec. 2008. [문헌 3] M. H. Yang, et al., "Detecting Faces in Images; A Survey," IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp. 34-58, Jan. 2002. [문헌 4] G. Z. Yang and T. S. Huang, "Human Face Detection in Complex Background," Pattern Recognition, Vol. 27, No. 1, pp. 53-63, Jan. 1994. [문헌 5] K. C. Yow, R. Cipolla, "Feature-Based Human Face Detection," Image and Vision Computing, Vol. 15, No. 9, pp. 713-735, Sept. 1997. [문헌 6] Y. Dai and Y. Nakano, "Face-texture Model based on SGLD and its Application in Face Detection in a Color Scene," Pattern Recognition, Vol. 29, No. 6, pp. 1007-1017, June 1996. [문헌 7] J. Yang and A. Waibel; "A Real-Time Face Tracker," WACV'96, pp. 142-147, 1996. [문헌 8] S. J. McKenna, S. Gong, and Y. Raja; "Modelling Facial Colour and Identity with Gaussian Mixtures," Pattern Recognition, Vol. 31, No. 12, pp. 1883-1892, 1998. [문헌 9] P. Kakumanu, S. Makrogiannis, and N. Bourbakis, "A Survey of Skin-color Modeling and Detection Methods," Pattern Recognition, Vol. 40, pp. 1106??1122, Mar. 2007. [문헌 10] R. Kjeldsen and J. Kender, "Finding Skin in Color Images," Proc. Second Int'l Conf. Automatic Face and Gesture Recognition, pp. 312-917, 1996. [문헌 11] L. Craw, D. Tock, and A. Bennett, "Finding Face Features," Proc. Second European Conf. Computer Vision, pp. 92-96, 1992. [문헌 12] M. Turk and A. Pentland, "Eigenfaces for Recognition," Journal of Cognitive Neuroscience, Vol. 3, pp. 71-86, 1991. [문헌 13] P. N. Belhumeur, et al., " Eigenfaces vs. Fisherfaces: Recognition using Class Specific Linear Projection," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 19, No. 7, pp. 711-720, 1997. [문헌 14] E. Osuna, R. Freund, and F. Girosi, "Training Support Vector Machines: an Application to Face Detection," Proc. IEEE Conf. Computer Vision and Pattern Recognition, pp. 130-136, 1997. [문헌 15] P. Viola and M. J. Jones, "Robust Real-Time Face Detection," Computer Vision, Vol. 52, No. 2, pp. 137-154, 2004. [문헌 16] C. P. Papageorgiou, M. Oren, and T. Poggio, "A General Framework for Object Detection," IEEE Int'l Conf. Computer Vision, pp. 555-562, 1998. [문헌 17] R. Lienhart and J. Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection," Int'l Conf. Image Processing, Vol. 1, pp. 22-25, Sept, 2002. [문헌 18] K. An and M. Chung, "Cognitive face analysis system for future interactive TV," IEEE Trans. Consumer Electronics, Vol. 55, No. 4, pp. 2271-2275, Nov. 2009. [문헌 19] K. Hariharakrishnan and D. Schonfeld, "Fast object tracking using adaptive block matching," IEEE Trans. Multimedia, vol. 7, no. 5, 2005. [문헌 20] M. Lievin and F. Luthon; "Nonlinear Color Space and Spatiotemporal MRF for Hierarchical Segmentation of Face Features in Video," Proc. IEEE Int'l Conf. Image Processing, pp. 63-71, 2004. [문헌 21] Y. Lin et al., "Real-time Tracking and Pose Estimation with Partitioned Sampling and Relevance Vector Machine," IEEE Intl. Conf. Robotics and Automation, pp. 453-458, 2009. [문헌 22] A. An and M. Chung, "Robust Real-time 3D Head Tracking based on Online Illumination Modeling and its Application to Face Recognition," IEEE Intl. Conf. Intelligent Robots and Systems, pp. 14661471, 2009. [문헌 23] R. Okada, Y. Shirai, and J. Miura, "Tracking a Person with 3-D Motion by Integrating Optical Flow and Depth," Proc. Fourth IEEE Int'l Conf. Automatic Face and Gesture Recognition, pp. 336-341, 2000. [문헌 24] G. Zhao, et al., "A Simple 3D Face Tracking Method based on Depth Information," Intl Conf. Machine Learning and Cybernetics, pp. 5022-5027, 2005. [문헌 25] Y. H. Lee et al., "A Robust Face Tracking using Stereo Camera," SICE Annual Conf., pp. 1985-1989, Sept. 2007. [문헌 26] S. Kosov et al., "Rapid Stereo-vision Enhanced Face Recognition," IEEE Intl. Conf. Image Processing, pp. 2437-2440, Sept. 2010. [문헌 27] Mesa Imaging, SR4000 user manual v2.0, May 2011. [문헌 28] J. L. Wilson, Microsoft kinect for Xbox 360, PC Mag. Com, Nov. 10, 2010. [문헌 29] M. Hacker, et al., "Geometric Invariants for Facial Feature Tracking with 3D TOF Cameras," Int'l Symposium on Signals, Circuits and Systems, Vol. 1, pp. 1-4, 2007. [문헌 30] Y. Freund and R. E. Schapire, "A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting," J. Computer and System Sciences, Vol. 55, pp. 119-139, 1997. [문헌 31] R. C. Gonzalez and R. E. Woods, Digital Image Processing, 3rd Ed., Pearson Prentice Hall, Upper Saddle River, NJ, 2008. [문헌 32] D. Chai, K. N. Ngan, "Locating Facial Region of a Head-and -Shoulders Color Image," Int'l Conf. Automatic Face and Gesture Recognition, pp. 124-129, April 1998.

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 빠르고 정확한 얼굴검출 및 추적을 위하여, 얼굴검출 과정에서 기존의 Adaboost 방법을 사용하나 깊이영상을 사용하여 탐색영역을 축소하고, 얼굴추적 과정에서 템플릿 매칭방법 및 조기종료 기법을 사용하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법을 제공하는 것이다.

보다 구체적으로, 본 발명의 목적은 얼굴 검출 과정에서는 기본적으로 Adaboost 방법[문헌 15]을 사용하는데, 깊이영상으로 탐색영역을 국한시켜 검출시간을 줄이고, 얼굴 추적 과정에서 검출된 얼굴의 명암성분을 템플릿으로 하여 블록 매칭, 즉 템플릿 매칭 연산을 이용하여 얼굴을 추적하되, 빠른 추적을 위하여 조기종료(early termination) 기법을 사용하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법을 제공하는 것이다.

상기 목적을 달성하기 위해 본 발명은 사람의 얼굴을 촬영하는 카메라로부터 시간상 연속되는 프레임을 갖는 깊이영상 및 컬러영상을 입력받아 상기 얼굴을 검출하고 추적하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 관한 것으로서, (a) 현재 프레임의 깊이영상에서 이전 프레임에 비해 깊이의 변화가 있는 영역과 현재 프레임의 컬러영상에서 얼굴색이 나타나는 영역의 공통영역을 추출하고, 상기 공통영역에 Adaboost 알고리즘을 적용하여 템플릿을 설정하는 단계; (b) 상기 템플릿을 중심으로 확대되는 영역에 대응되는 현재 프레임의 영역을 탐색영역으로 설정하는 단계; (c) 상기 템플릿과, 상기 템플릿에 의한 현재 프레임의 탐색영역(이하 샘플링 영역)을 비교하여 깊이의 변화를 구하고, 상기 깊이의 변화에 따라 상기 템플릿의 크기를 갱신하고 갱신된 템플릿에 의해 탐색영역을 갱신하는 단계; (d) 상기 탐색영역의 각 위치에 대하여, 상기 템플릿이 상기 위치의 영역과 매칭되는지를 판단하는 단계; (e) 매칭되는 영역(이하 매칭영역)이 검색되면, 상기 매칭영역을 상기 얼굴의 이동 위치로 판단하는 단계; 및, (f) 상기 매칭영역의 위치로 상기 템플릿의 위치를 갱신하고, 상기 현재 프레임의 다음 프레임을 현재 프레임으로 하여 상기 (c)단계를 반복하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, (g) 상기 (d)단계에서 매칭영역이 없으면, 상기 (a)단계를 수행하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 (a)단계는, (a1) 상기 이전 프레임 및 현재 프레임 간의 깊이영상의 차영상을 구하고, 상기 차영상을 이진화한 영상(이하 제1 이진영상)을 구하는 단계; (a2) 상기 컬러영상에서 사전에 정해진 피부색(이하 피부색 참조맵)의 범위 내의 화소값을 가지는지 여부로 이진화하여 영상(이하 제2 이진영상)을 구하는 단계; (a3) 상기 제1 및 제2 이진영상을 교집합(AND)하여 공통영역을 구하는 단계; (a4) 상기 공통영역에 Adaboost 알고리즘을 적용하여 얼굴영역을 검출하는 단계; 및, (a5) 상기 얼굴영역에 해당하는 현재 프레임의 영역을 템플릿으로 설정하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 제1 및 제2 이진영상에 모폴로지(morphology) 필터를 적용하고 이진화하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 (a2)단계에서, 상기 컬러영상을 YCbCr영상으로 전환하여, Cb 및 Cr성분만으로 상기 피부색 참조맵과 비교하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 템플릿은 상기 템플릿 영역에 해당하는 현재 프레임의 컬러영상과 깊이영상으로 설정하되, 상기 컬러영상은 YCbCr영상으로 전환하여 Y성분만을 사용하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 탐색영역은, 상기 템플릿에서 소정의 비율(이하 확대비율)로 상하좌우로 확대하고, 확대되는 영역에 해당하는 현재 프레임의 영역으로 설정되는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 (c)단계에서, 상기 템플릿과 상기 샘플링 영역을 다수의 동일크기의 서브블록으로 구분하여, 상기 샘플링 영역에서의 가장 깊이가 큰 서브블록의 깊이(이하 샘플링영역의 최고 깊이)와 상기 템플릿에서의 가장 깊이가 큰 서브블록의 깊이(이하 템플릿의 최고 깊이)의 차이로 상기 깊이의 변화를 구하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 서브블록의 깊이는 상기 서브블록 내의 깊이값을 평균한 값인 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 (c)단계에서, 갱신하는 템플릿의 크기 s₂는 다음 [수식 1]에 의해 구하는 것을 특징으로 한다.

[수식 1]

단, s₁은 갱신전 템플릿의 크기이고,

z₁, z₂는 각각 템플릿 및 샘플링영역의 최고 깊이임.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 (d)단계에서, 상기 템플릿과 상기 위치의 영역의 SAD(sum-of-absolute differences)를 계산하여 상기 SAD값이 소정의 문턱값보다 작으면 상기 템플릿이 상기 위치의 영역에 매칭되는 것으로 판단하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 (d)단계에서, 상기 위치를 상기 탐색영역의 중심부터 나선형으로 이동하면서 템플릿과의 매칭여부를 판단하는 것을 특징으로 한다.

또, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서, 상기 컬러영상은 RGB영상인 것을 특징으로 한다.

또한, 본 발명은 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

상술한 바와 같이, 본 발명에 따른 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 의하면, 얼굴영역 검출시 깊이영상과 컬러영상을 모두 이용하거나 깊이영상으로 템플릿의 크기를 적정하게 조정하고, 또한, 얼굴의 이동속도를 고려하여 탐색영역을 축소함으로써, 검출 및 추적의 속도 및 정확도를 동시에 높일 수 있는 효과가 얻어진다. 또한, 얼굴 추적시 조기종료 기법을 사용하여 수행시간을 상당히 줄일 수 있는 효과가 얻어진다.

본 발명에 따른 방법을 구현하여 실험한 결과, 얼굴검출 방법은 기존의 방법에 비해 약 39%의 수행시간을 보였으며, 얼굴추적 방법은 640×480 해상도의 프레임 당 2.48ms의 추적시간을 보였다. 또한 검출률에 있어서도 본 발명에 따른 얼굴검출 방법은 기존의 방법에 비해 약간 낮은 검출률을 보였으나 오검출률에 있어서는 기존방법의 약 38% 향상된 성능을 보였다. 또한 얼굴추적 방법은 추적시간과 추적 정확도에 있어서 상보적인 관계를 가지며, 특별한 경우를 제외한 모든 경우에서 약 1%의 낮은 추적오차율을 보였다.

따라서 본 발명에 따른 얼굴 검출 및 추적방법은 각각 또는 결합하여 고속 동작과 높은 정확도를 필요로 하는 응용분야에 사용될 수 있을 것이다.

도 1은 본 발명을 실시하기 위한 전체 시스템의 구성을 도시한 도면이다.
도 2는 Adaboost 알고리즘에 이용되는 Haar-유사 특징들의 예이다.
도 3은 Adaboost 알고리즘에 의한 패턴매칭의 예이다.
도 4는 Adaboost 알고리즘에 의한 누적영상방법의 일례를 도시한 것이다.
도 5는 본 발명의 일실시예에 따른 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법의 블록도이다.
도 6 및 도 7은 본 발명의 일실시예에 따른 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법을 설명하는 흐름도이다.
도 8은 본 발명의 일실시예에 따른 얼굴검출 과정의 단계별 예이다.
도 9는 본 발명에 따른 탐색범위의 일례이다.
도 10은 본 발명에 따른 전방향 움직임에 대한 템플릿의 갱신의 일례이다.
도 11은 본 발명에 따른 나선형 탐색의 일례를 도시한 것이다.
도 12는 본 발명의 실험에 따른 실험에 사용된 테스트 시퀀스의 일례이다.
도 13은 본 발명의 실험에 따른 추적 결과의 정확성 판단 기준의 일례이다.
도 14는 본 발명의 실험에 따른 파라미터 결정을 위한 실험 결과의 일례이다.
도 15 및 도 16은 본 발명의 실험에 따른 수행시간에 대한 실험 결과의 예로서, 각각 전후 움직임, 좌우 움직임, 상하 움직임에 대한 예이다.
도 17은 본 발명의 실험에 따른 프레임 당 평균 수행시간 비교 표이다.
도 18은 본 발명의 실험에 따른 평균 얼굴검출률 비교 표이다.
도 19는 본 발명의 실험에 따른 오검출의 예(각각 Viola와 Jones의 방법, 제안한 얼굴추적 방법)를 도시한 것이다.
도 20은 본 발명의 실험에 따른 얼굴추적 방법의 추적 오차율이다.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 1을 참조하여 설명한다.

도 1에서 보는 바와 같이, 본 발명에 따른 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법은 카메라(20)에 의해 촬영된 영상(60)을 입력받아 영상을 처리하는 컴퓨터 단말(30) 상의 프로그램 시스템으로 실시될 수 있다. 즉, 얼굴 검출 및 추적 방법은 프로그램으로 구성되어 컴퓨터 단말(30)에 설치되어 실행될 수 있다. 컴퓨터 단말(30)에 설치된 프로그램은 하나의 프로그램 시스템(40)과 같이 동작할 수 있다.

한편, 다른 실시예로서, 얼굴 검출 및 추적 방법은 프로그램으로 구성되어 범용 컴퓨터에서 동작하는 것 외에 ASIC(주문형 반도체) 등 하나의 전자회로로 구성되어 실시될 수 있다. 또는 영상에서의 얼굴 이미지를 검출하고 추적하는 것만을 전용으로 처리하는 전용 컴퓨터 단말(20)로 개발될 수도 있다. 이를 얼굴 검출 및 추적 장치(40)라 부르기로 한다. 그 외 가능한 다른 형태도 실시될 수 있다.

카메라(20)는 일반적인 사물의 이미지를 촬영하는 일반 카메라 및, 사물의 깊이를 측정하는 깊이 카메라를 모두 포함한다. 촬영된 사물의 이미지는 일반적인 컬러 영상, 즉, RGB영상 또는 YCbCr영상 등을 말한다. 사물의 깊이는 깊이 카메라에 의해 촬영되어 측정되는 깊이정보를 말한다.

카메라(20)가 촬영하는 대상은 주로 사람의 얼굴이다. 즉, 카메라(20)는 주로 사람의 정면에 설치되어 사람의 얼굴을 촬영한다. 예를 들어, 3차원 영상기기를 시청하는 시청자의 얼굴을 검출하고 시청자의 시점에 따라 3차원 영상을 처리하기 위해, 상기 카메라(20)는 영상기기의 정면을 향하도록 설치될 수 있다.

촬영된 영상(60)은 카메라(20)로 촬영된 컬러 영상뿐만 아니라 깊이 정보도 가지고 있다. 영상은 시간상으로 연속된 프레임으로 구성된다. 예를 들어, 현재시간 t의 프레임을 현재 프레임이라고 하면, 직전시간 t-1의 프레임은 이전 프레임이라고 하고, t+1의 프레임은 다음 프레임이라고 부르기로 한다. 한편, 각 프레임은 컬러영상(또는 컬러 이미지) 및 깊이영상(또는 깊이정보)을 갖는다.

즉, 상기 영상(60)은 컴퓨터 단말(30)에 직접 입력되어 저장되고, 얼굴 검출 및 추적 장치(40)에 의해 처리된다. 또는, 영상(60)은 컴퓨터 단말(30)의 저장매체에 미리 저장되고, 얼굴 검출 및 추적 장치(40)에 의해 저장된 영상(60)을 읽어 입력될 수도 있다.

한편, 얼굴 검출 및 추적 장치(40)는 다시점 영상(60)으로부터 시간상 연속되는 프레임을 갖는 깊이영상 및 컬러영상을 입력받아, 상기 영상(60)으로부터 사용자의 얼굴을 검출하고 추적한다.

다음으로, 본 발명을 설명하기에 앞서, 본 발명에서 얼굴검출의 기본적인 방법으로 이용되는 Adaboost 알고리즘에 대하여 설명한다.

이 방법은 외형적 특징을 기반으로 하는 방법이며, 이 특징들을 미리 선정하고 이들을 블록 매칭 방법으로 찾아 얼굴을 인식하는 방법이다. 이 방법의 근간은 Haar 웨이블릿(wavelet) 함수와 같은 단순한 패턴을 객체인식에 사용하는 것이며[문헌 16], 이 패턴들은 그 뒤 더욱 확장되어(Haar-유사 특징, Haar-like features) 더욱 정확히 얼굴을 인식하도록 개선되었다[문헌 17].

먼저, Haar-유사특징을 이용하는 방법에 대하여 설명한다.

Adaboost 방법은 얼굴의 각 부분을 단순한 패턴에 매칭시켜서 이들을 이용하여 얼굴을 인식하는 방법인데, 이 패턴들을 도 2에 나타내었다. 이 중 초기에는 도 2(a)의 패턴을 사용하였으나, 후에 나머지 패턴들을 추가하여 확장하였다. 기본적으로 패턴 자체의 값은 0 또는 1의 값을 가지며, 그 크기는 탐색대상의 크기에 따라 변화시켜 사용한다. 도 3에 이 패턴 중 얼굴의 특정부위와 매칭한 예를 보이고 있다.

한편, 특징값을 계산하는 과정에서 Adaboost 방법은 누적영상(integral imaging) 방법을 사용한다. 도 4에 이 방법을 도시하였는데, 이 방법으로 계산된 화소의 값은 다음 [수학식 1]과 같다.

[수학식 1]

여기서 i(x,y)는 일반적인 영상의 위치 (x,y)에서의 화소값이며, ii(x,y)는 누적영상의 위치 (x,y)에서의 화소값이다. 즉, 누적영상의 화소값은 그 화소의 좌상위의 모든 화소값들을 누적 덧셈 한 결과값이다. 이 값들을 이용하면 도 4의 D 영역의 화소값의 합은 다음 [수학식 2]로 쉽게 구할 수 있다.

[수학식 2]

예를 들어 Haar 특징에 해당하는 부분(흰색 또는 검은색)의 화소값의 합을 쉽게 구할 수 있다.

또한, Adaboost 알고리즘은 전처리 과정인 훈련과정을 통하여 어떤 패턴을 어떻게 사용할 것인지를 미리 결정한다. 이 과정에서 다양한 얼굴영상과 비얼굴영상을 대상으로 각 패턴을 적용하고, 각 패턴을 특정 얼굴부위에 적용할 때 흰색과 검은색의 비중을 얼마로 하면 최적의 패턴매칭이 되는지를 결정한다. 이렇게 결정된 각 패턴에 대한 가중치와 그 패턴을 약분류기(weak classifier)로 정의한다.

실제로 얼굴검출에 사용할 때는 단일 약분류기만 사용하는 것이 아니라 약분류기를 단계적 다중구조(cascade structure)로 하여 강분류기(strong classifier)를 만들어 사용한다. [문헌 30]에서 강분류기는 단계적 다중구조로 결합된 약분류기의 수가 증가할수록 에러율이 0에 근접한다는 것을 증명하였다. 강분류기의 구조는 초기에 배경과 얼굴을 가장 잘 구별하는 약분류기를 사용하며, 점차 얼굴의 세세한 부분을 구분하는 약분류기를 추가하여 구성된다. 따라서 강분류기가 많은 수의 약분류기를 포함할수록 더 정확한 검출을 할 수 있지만, 더 많은 연산시간이 소요된다.

다음으로, 본 발명의 일실시예에 따른 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법을 도 5 내지 도 11을 참조하여 설명한다.

본 발명에 따른 얼굴 검출 및 추적 방법은 시간상으로 연속된 프레임으로 구성된 컬러영상 및 깊이영상을 입력받아 처리한다. 이때, n번째 프레임을 현재 프레임, n-1번째 프레임을 이전 프레임, n+1번째 프레임을 다음 프레임이라 정한다. 본 발명에서는 2차원의 컬러영상과 깊이영상을 사용하며, 깊이영상과 컬러영상의 해상도는 동일할 필요는 없으나 특정 시간에 두 영상에 포함되는 대상은 동일하다고 가정한다. 또한, 컬러영상은 RGB영상 등을 말하며, 영상의 이미지를 색에 의해 표시되는 영상은 어느 것이나 해당된다.

도 5에 본 발명에 따른 얼굴 검출 및 추적 방법을 블록도로 나타내었다. 본 발명에 따른 방법은 얼굴검출 과정과 얼굴추적 과정의 두 과정으로 구성되어 있으며, 얼굴검출 과정은 기본적으로 한 장면(scene)의 초기에 한 번만 수행한다. 검출과정에서 검출된 얼굴영역은 얼굴추적 과정에서 템플릿(template)으로 사용되며, 얼굴이 검출된 다음 프레임부터는 추적과정만 수행된다. 그러나 장면이 바뀌거나 추적과정에서 템플릿 매칭이 이루어지지 않은 경우 다시 검출과정을 수행한다.

상기 얼굴 검출 및 추적 방법을 설명하는 흐름도를 도 6에 나타내었다.

도 6에서 보는 바와 같이, 본 발명의 일실시예에 따른 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법은 (a) 깊이영상과 컬러영상으로부터 얼굴영역을 추출하여 템플릿을 설정하는 단계(S10); (b) 템플릿을 중심으로 확대한 영역을 탐색영역으로 설정하는 단계(S20); (c) 깊이의 변화를 구하여 템플릿 및 탐색영역을 갱신하는 단계(S30); (d) 탐색영역의 각 위치에서 템플릿이 매칭되는지를 판단하는 단계(S40); (e) 매칭되는 영역이 있으면 얼굴의 이동위치로 판단하는 단계(S50); 및 (f) 매칭영역의 위치로 템플릿의 위치를 갱신하는 단계(S60)로 구성된다. 또한, (g) 탐색영역의 어느 위치에서도 매칭영역이 검색되지 않으면 다시 템플릿을 설정하는 단계, 즉, (a)단계를 다시 수행하는 단계(S70)를 더 포함하여 구성할 수 있다.

먼저, 얼굴영역을 추출하고 템플릿을 설정한다. 즉, 현재 프레임의 깊이영상에서 이전 프레임에 비해 깊이의 변화가 있는 영역과 현재 프레임의 컬러영상에서 얼굴색이 나타나는 영역의 공통영역을 추출하고, 상기 공통영역에 Adaboost 알고리즘을 적용하여 템플릿을 설정한다(S10).

구체적으로, 도 7a에서 보는 바와 같이, 상기 (a)단계는 깊이영상의 차영상을 통해 제1 이진영상을 구하는 단계(S11), 컬러영상에서 피부색을 통해 제2 이진영상을 구하는 단계(S12), 상기 제1 및 제2 이진영상의 공통영역을 추출하는 단계(S13), 공통영역에 Adaboost알고리즘을 적용하여 얼굴영역을 검출하는 단계(S14), 및, 템플릿을 설정하는 단계(S15)로 구성된다.

앞에서 언급한 것과 같이, 본 발명의 얼굴검출 과정은 기본적으로 Adaboost 알고리즘을 사용한다. 그러나 본 발명의 일실시예에서는 Adaboost 알고리즘을 적용할 대상 영상의 크기를 줄여 연산시간을 줄이도록 하였다.

먼저, 이전 프레임 및 현재 프레임 간의 깊이영상의 차영상을 구하고, 상기 차영상을 이진화한 영상(이하 제1 이진영상)을 구한다(S11).

즉, 입력된 깊이 동영상으로 움직임 영역을 검출한다. 이것은 이전 프레임과 현재 프레임간의 차이를 구하여 검출하며, 움직임이 전혀 없는 경우는 움직임이 있을 때까지 차영상을 반복하여 구한다.

일단 차영상이 구해지면 그 차영상을 수평방향과 수직방향으로 각각 누적덧셈을 수행한다. 그 결과는 하나의 행과 하나의 열로 나타나며, 각 화소의 값이 0이 아닌 화소들을 행과 열로 각각 확장하여 두 확장 영역의 교집합을 구한다. 그 결과는 모폴로지(morphology) 필터(erosion 필터와 dilation 필터)[문헌 31]를 사용하여 잡음과 같은 작은 영역들을 제거하며, 필터링된 영상은 이진화(binarization)하여 제1 이진영상을 구한다.

다음으로, 컬러영상에서 사전에 정해진 피부색(이하 피부색 참조맵)의 범위 내의 화소값을 가지는지 여부로 이진화한 영상(이하 제2 이진영상)을 구한다(S12). 특히, 상기 컬러영상을 YCbCr영상으로 전환하여, Cb 및 Cr성분만으로 상기 피부색 참조맵과 비교한다.

즉, 얼굴검출은 얼굴의 색을 검출하는 방법을 사용하였는데, 일반적으로 얼굴색은 조명에 크게 의존하므로, 본 발명에서는 그 의존도를 낮추기 위해 영상포맷을 RGB에서 YCbCr로 바꾸어 사용하였다. 이 중 Y성분은 조명에 가장 민감하므로 Cb와 Cr성분만 사용한다. 본 발명에서 피부색으로 사용한 색의 범위는 [문헌 32]의 피부색 참조맵이며, [수학식 3]과 같다.

[수학식 3]

이 식을 만족하는 영역을 추출하고, 그 결과에 모폴로지 필터를 적용하여 잡음과 같은 작은 영역들을 제거하며, 그 결과 역시 이진화한다.

다음으로, 상기 제1 및 제2 이진영상을 교집합(AND)하여 공통영역을 구하고(S13), 공통영역에 Adaboost 알고리즘을 적용하여 얼굴영역을 검출한다(S14). 그리고 얼굴영역에 해당하는 현재 프레임의 영역을 템플릿으로 설정한다(S15).

깊이영상으로 획득한 영역(또는 제1 이진영상)과 RGB영상으로 획득한 영상(또는 제2 이진영상)의 교집합(AND)을 구하고, 여기에 해당하는 RGB영상을 추출하여 그 결과 영역에 Adaboost 알고리즘을 적용함으로써 얼굴영역을 검출한다.

그리고 템플릿은 상기 템플릿 영역에 해당하는 현재 프레임의 컬러영상과 깊이영상으로 설정하되, 상기 컬러영상은 YCbCr영상으로 전환하여 Y성분만을 사용한다. 즉, 검출된 RGB영상의 Y성분을 얼굴추적 과정에서 템플릿(template)으로 사용하고, 해당 깊이영상을 보조 데이터로 사용한다. 아울러 템플릿의 좌표값도 추적과정으로 보낸다.

도 8은 얼굴검출 과정의 각 단계별 예를 보이고 있다.

다음으로, 이하의 단계는 얼굴추적 과정과 관련된 단계이다.

얼굴추적 과정은 얼굴검출 과정에서 생성되거나 그 전 프레임에서 갱신(update)된 템플릿이 현재 영상에서 매칭되는 지점을 찾는 과정이다. 그러나 전체 프레임을 대상으로 템플릿 매칭을 수행하면 과다한 시간이 소요된다. 따라서 본 발명에서는 탐색영역을 최소화하는 방법을 제안하며, 얼굴이 상하좌우 뿐만 아니라 앞뒤로 움직이는 경우를 포함하도록 하였다.

먼저, 상기 템플릿을 중심으로 확대되는 영역에 대응되는 현재 프레임의 영역을 탐색영역으로 설정한다(S20).

얼굴추적을 위해 탐색하여야 하는 영역은 얼굴의 움직임 속도와 관련이 있다. 본 발명에서는 추적할 얼굴이 전방의 영상물 등을 시청하고 있다고 가정한다. 따라서 얼굴은 거의 정면을 바라보고 있으며, 영상물을 시청하면서 움직이는 상황을 가정하였다. 얼굴의 움직임에 대해서는 시청하면서 움직일 수 있는 최대의 움직임 속도를 고려하여야 한다.

또한, 깊이에 반비례하여 얼굴의 움직임 양이 결정된다는 것을 고려하여야 한다. 거리에 따른 물체의 크기는 동일한 물체가 z₁과 z₂에 있을 때의 크기를 각각 s₁과 s₂라 할 때 [수학식 4]과 같은 관계를 갖는다.

[수학식 4]

따라서 특정 깊이에서의 크기를 알면 그 물체가 깊이이동을 하였을 때의 크기를 [수학식 4]로 쉽게 구할 수 있다. 물체의 깊이에 따라 움직임 속도, 즉 움직임 양이 달라지므로 깊이에 따른 움직임 양을 일반적으로 표현하기 위해서 본 발명에서는 현재의 템플릿에 대비한 상대적인 크기로 탐색영역을 정의한다.

본 발명에서는 먼저 얼굴의 최대 움직임 속도를 실험을 통하여 상하와 좌우방향에 대해 측정하였으며, 이를 두 프레임 간의 거리로 환산하였다. 이 값을 현재 템플릿에 대한 상대적인 크기로 변환하고, 다양한 거리에 대해 실험적으로 측정한 결과와 식 (3)에 의한 변환결과를 확인하였다. 이와 같이 결정한 탐색영역을 도 9에 나타내었는데, 좌우 움직임은 각 방향으로 11.7% 범위 내에, 상하의 움직임은 7.2% 내에 각각 있었다.

따라서 탐색영역은, 상기 템플릿에서 소정의 비율(이하 확대비율)로 상하좌우로 확대하고, 확대되는 영역에 해당하는 현재 프레임의 영역으로 설정되는 것이 바람직하다.

다음으로, 상기 템플릿과, 상기 템플릿에 의한 현재 프레임의 탐색영역(이하 샘플링 영역)을 비교하여 깊이의 변화를 구하고, 상기 깊이의 변화에 따라 상기 템플릿의 크기를 갱신하고 갱신된 템플릿에 의해 탐색영역을 갱신한다(S30). 특히, 서브블록의 깊이는 상기 서브블록 내의 깊이값을 평균한 값이다.

추적과정에서 얼굴이 (카메라에 대하여) 전후로 움직일 때 깊이가 변화하기 때문에 현재의 템플릿을 사용할 경우 정확한 추적을 할 수 없다. 그래서 깊이가 변화함에 따라 탐색범위도 변화시켜야 한다.

템플릿의 크기와 탐색범위의 크기는 [수학식 4]로 쉽게 변화시킬 수 있다. 그러나 이를 위해서는 전후로 얼굴이 움직인 양을 측정하여야 한다. 본 발명에서는 추적대상인 현재 프레임에서 현재 템플릿과 동일한 위치와 동일한 크기의 영상을 샘플링하여 사용한다. 이때의 영상을 샘플영상 또는 샘플링 영역이라 부르기로 한다.

다른 예로서, 얼굴이 상하좌우로 움직이면서 동시에 전후로 움직일 수 있다. 이 경우, 상하좌우로 이동하는 범위는 현재 템플릿에 의한 탐색영역 이내일 것이다. 따라서 현재 프레임의 탐색영역을 샘플링 영역(또는 샘플영상)으로 정하는 것이 바람직하다.

템플릿과 샘플링 영역의 얼굴 부위의 깊이의 변화를 측정하면, 얼굴이 얼마나 깊이방향(전후방향)으로 이동하였는지 알 수 있다. 상기 템플릿과 상기 샘플링 영역을 다수의 동일크기의 서브블록으로 구분하여, 상기 샘플링 영역에서의 가장 깊이가 큰 서브블록의 깊이(이하 샘플링영역의 최고 깊이)와 상기 템플릿에서의 가장 깊이가 큰 서브블록의 깊이(이하 템플릿의 최고 깊이)의 차이로 상기 깊이의 변화를 구한다.

구체적으로, 측정방법은 템플릿과 샘플영상을 각각 m×n 서브블록으로 나누고, 각 서브블록 (i,j)의 깊이값 평균(a_i,j)을 계산하여 그 중 최고치를 각각 템플릿(z_temp)과 샘플링된 현재 프레임 (z_cur)의 깊이값(또는 최고 깊이)으로 선택한다. 이것을 [수학식 5]에 나타내었다.

[수학식 5]

여기서 첨자 temp와 cur은 각각 템플릿과 샘플링된 현재 프레임을 표시하며, max()는 괄호내의 값 중 최대치를 선택한다. [수학식 5]에 의해 두 깊이값이 측정되면 이를 사용하여 템플릿 및 탐색영역을 [수학식 4]에 의해 재조정한다. 즉, [수학식 4]에 s₁, s₂는 각각 갱신전 및 갱신후 템플릿의 크기이고, z₁, z₂는 각각 템플릿 및 샘플링영역의 깊이(또는 최고 깊이)로 대입하여 구한다.

도 10은 가까이 다가선 경우에 대한 템플릿 갱신의 예를 보이고 있다. 도 10(a) 및 도 10(b)는 각각 전방향 움직임에 대하여 갱신전 및 갱신후의 템플릿을 나타내고 있다.

다음으로, 탐색영역의 각 위치에 대하여, 상기 템플릿이 상기 위치의 영역과 매칭되는지를 판단한다(S40). 그리고 매칭되는 영역(이하 매칭영역)이 검색되면, 상기 매칭영역을 상기 얼굴의 이동 위치로 판단한다(S50).

즉, 재조정된(또는 갱신된) 템플릿을 사용, 재조정된(또는 갱신된) 탐색영역을 조사하여 매칭되는 점을 찾는 것이며, 기본적으로는 탐색영역 전체를 탐색한다. 이 경우 탐색하여야 하는 화소수는

이며, 여기서

와

는 각각 템플릿의 수평 및 수직방향 크기이며, 이에 해당하는 현재 프레임의 탐색범위의 값은 각각

과

이다. 본 발명에서는 탐색할 때 비용함수로 SAD(sum-of-absolute differences)를 사용한다. 즉, 탐색범위 내의 모든 위치를 탐색하여 그 중 가장 작은 SAD값을 갖는 위치를 선택한다.

그러나 본 발명의 목적이 고속추적이므로 이를 위한 방안을 제안한다. 일반적으로 위치를 추적하는 목적에 따라 조금이 오차도 없이 추적하는 경우보다는 어느 정도의 근사를 허용하는 경우가 많고, 또 정확한 위치를 찾는 것은 매우 많은 연산을 요한다. 또한 일적으로는 시청하면서 잘 움직이지 않으며, 움직인다고 해도 그 크기가 크기 않다. 또한 상하나 전후의 움직임보다 좌우방향의 움직임이 많다.

이런 점을 착안하여 본 발명에서는 조기종료(early termination) 기법을 사용한다. 이를 위해서 근사적으로 위치를 추적했다고 판단하여야 하는데, 본 발명에서 비용함수로 SAD를 사용하기 때문에 미리 정한 문턱치 SAD값 이하를 갖는 경우 조기종료를 시행한다. 이를 식으로 나타내면 [수학식 6]과 같다.

[수학식 6]

여기서 SAD_i,j는 위치 (i,j)에서의 SAD값이며, T_l 은 미리 정한 문턱치이고 이것은 실험적으로 결정된다.

바람직하게는, 상기 위치를 상기 탐색영역의 중심부터 나선형으로 이동하면서 템플릿과의 매칭여부를 판단한다. 즉, 탐색범위 내의 각 위치를 탐색하는 순서도 위에서 언급한 것에 부합하도록 도 11과 같이 탐색범위의 중심에서부터 나선형으로 탐색하도록 하였다.

구체적인 과정은 도 7b에 도시되고 있다.

그리고 상기 매칭영역의 위치로 상기 템플릿의 위치를 갱신하고, 상기 현재 프레임의 다음 프레임을 현재 프레임으로 하여 상기 얼굴 추적 과정(또는 템플릿 및 탐색영역을 갱신하여 매칭하는 과정)을 반복한다(S60).

한편, 템플릿에 매칭되는 매칭영역이 없으면, 상기 (a)단계, 즉, 얼굴검출 과정(S10)을 다시 수행한다(S70).

즉, 얼굴추적 과정을 수행하다가 템플릿 매칭에 실패하면 얼굴검출 과정으로 귀환하여 얼굴검출 과정부터 다시 수행한다. 이것은 장면이 바뀌거나 사람이 화면에서 사라지는 경우 등에 나타난다. 이와 같은 경우는 추적과정에서 SAD값이 매우 크게 나타나는데, 본 발명에서는 [수학식 7]과 같이 탐색범위 전체를 탐색한 후 각 위치에서의 SAD값의 최소값이 문턱치 T_h 보다 큰 경우로 결정한다.

[수학식 7]

여기서 min()는 괄호내의 값 중 최소치를 선택한다.

여기서 설명되지 않는 사항은 [문헌 13] 및 [문헌 14]를 참조한다.

다음으로, 본 발명의 효과를 도 12 내지 도 20을 참조하여 보다 구체적으로 설명한다.

본 발명을 구현하고 여러 테스트 시퀀스를 대상으로 실험을 수행하였다. 구현은 Microsoft window7 운영 체제에서 Microsoft visual studio 2008과 OpenCV Library 2.1[문헌 33]을 이용하였으며, 실험에 사용된 PC의 사양은 2.67GHz의 Intel Core i5 CPU와 4GB RAM이었다. 또한 RGB영상과 해당 깊이영상은 최근 Microsoft사에서 출시한 구조광 방식의 Kinect를 사용하여 640x480 해상도의 깊이정보와 동일 해상도의 컬러정보를 획득하여 사용하였다.

본 발명의 과정을 얼굴검출과 추적과정으로 크게 구분될 수 있다. 그러나 얼굴추적을 위해서는 얼굴검출 과정을 한 번 거쳐야 하고, 또 본 발명에 따른 얼굴검출 과정 역시 기존의 방법과의 성능비교가 필요하다. 이 검출과정의 비교대상은 Viola와 Jones의 방법, 즉 Adaboost 방법[문헌 15]을 택하였으며, 그 이유는 본 발명에서도 기본적으로 이 방법을 사용하고 있고 또 현재 이 방법을 가장 널리 사용하고 있기 때문이다. 따라서 특정 비디오 시퀀스에 대해 Viola와 Jones 방법, 본 발명에 따른 얼굴검출 방법과 얼굴추적 방법을 모두 적용하여 그 성능을 비교하였다. 비교항목은 각 방법의 수행시간과 검출률이었다.

본 발명의 실험에서는 Microsoft window7 운영 체제에서 Microsoft visual studio 2008과 OpenCV Library 2.1[문헌 33]을 이용하여 알고리즘을 구현하였으며, 실험에 사용된 PC의 사양은 2.67GHz의 Intel Core i5 CPU와 4GB RAM의 하드웨어이다. 도 12에 실험에 사용한 테스트 시퀀스들을 나열하였다. 도 12에서 보듯이 자체 제작한 4개의 시퀀스를 사용하였는데, 이것들은 Microsoft사에서 출시한 구조광 방식의 다중센서 카메라 Kinect™를 사용하여 640×480의 해상도를 가지는 깊이정보와 컬러정보를 획득하였다. 이 중 '상하 움직임', '좌우 움직임', '전후 움직임' 시퀀스는 각 방향의 움직임에 대해 보다 정확하게 실험하기 위해서 각 방향으로의 움직임만을 포함하고 있으며, 'DDnT Lab' 시퀀스는 자유로운 움직임을 포함하고 있다. 보다 객관적인 시퀀스를 사용하기 위해 ETRI에서 제작한 Lovebird1'을 테스트 시퀀스에 포함하였다. 이 영상은 두 사람이 멀리서부터 가까이로 다가오는 영상이며, 가까이 다가왔을 때의 얼굴이 상당히 크다. 이 외에도 RGB영상과 깊이영상을 동시에 제공하는 시퀀스들을 MPEG 등에서 제공하고 있으나, 이들 대부분은 사람 얼굴을 추적하는 테스트 시퀀스로 사용하기에는 적합지 않아 포함하지 않았다. 사용한 모든 테스트 시퀀스들은 각각의 비중을 균등하게 하기 위해서 동일한 프레임 수로 조정하여 사용하였다.

성능실험에 앞서 [수학식 6]과 [수학식 7]의 문턱치 파라미터 T_l과 T_h를 결정하기 위한 실험을 수행하였다. 이를 위해서는 얼굴추적 결과가 정확한지를 판단하는 기준을 설정하여야 하는데, 그림 9에 그 기준을 나타내었다. 본 논문에서는 제안한 얼굴검출 알고리듬의 결과를 정확한 추적결과로 간주하였으며, 여기에서 오검출이나 검출을 실패한 경우는 수작업으로 검출결과를 정확히 보정하여 사용하였다. 도 13에서 사각형은 얼굴검출 결과의 열굴 템플릿을 나타내고, A는 이 얼굴영역의 중심점, B는 추적한 얼굴의 중심점을 각각 나타낸다. 본 실험에서는 추적거리 오차율(tracking distance error ratio)을 [수학식 8]과 같이 정의하였다.

[수학식 8]

문턱치 파라미터를 결정하기 위하여 이 추적거리 오차율을 다양하게 변화시키고, 동시에 조기종료 파라미터 T_l을 변화시키면서 실험하였는데, 그 결과를 도 14에 나타내었다. 이 실험에서는 도 12의 자체 제작한 4개의 시퀀스만을 사용하였으며, 도 14의 값들은 이 스퀀스들의 평균을 구한 것이다. 그림에서 보듯이 추적거리 오차율은 5%, 10%, 20%, 30%를 각각 사용하였으며, T_l은 0에서 250까지 측정하였다. 그림에서 좌측 종축은 각 추적거리 오차율보타 큰 오차를 보이는 결과의 비율을 나타내고, 우측 종축은 추적시간을 나타낸다. 그림에서 보듯이, 추적거리 오차율이 30%인 경우를 제외하고는 추적거리 오차율에 대한 측정결과는 비슷한 경향을 보였으며, T_l=40까지는 거의 변화를 보이지 않다가 그 후 급격히 오차율(error ratio)이 증가하였다. 또한 모든 경우 T_h=80 정도에서 오차율이 포화되는 것을 확인하였다. 따라서 본 발명에서는 추적거리 오차율을 20%로 고정하고, T_l을 20, T_h를 80으로 각각 결정하였다. 이 때 추적 오차율은 약 1.26%, 추적시간은 평균 2.54ms였다.

도 15는 도 12의 '전후 움직임', '상하 움직임', 좌우 움직임' 시퀀스를 대상으로 수행시간을 측정한 결과를 그래프로 나타낸 것이다. 이 그림에서 얼굴추적에 대한 [수학식 6]와 [수학식 7]의 문턱치를 T_l=20, T_h=80, 그리고 추적거리 오차율을 20%로 설정한 결과이다. 이 그림에서 'Viola&Jones'는 [문헌 15]의 방법을 구현한 프로그램을 OpenCV Library 2.1에서 얻어 사용한 결과이며, 'Proposed face detection method'는 얼굴검출 방법에서 탐색영역을 축소시키는 방법을 적용한 결과에 OpenCV Library 2.1에서 얻은 프로그램을 적용한 결과이다. 'Proposed face tracking method'는 첫 번째 프레임에 대해서 제안한 얼굴검출 방법을 적용하고, 나머지 프레임은 제안한 얼굴추적 방법을 직접 구현하여 적용한 결과이다. 얼굴추적은 도 15에서 정량적으로 확인할 수 없기 때문에 이 결과만 도 16에 확대하여 나타내었다.

도 15에서 보듯이 세 종류의 움직임 모두에서 Viola와 Jones의 방법은 약간의 변화가 있으나 대체로 수행시간이 비슷한 것을 볼 수 있다. 이것은 Viola와 Jones의 방법이 움직임에 상관없이 모든 프레임에서 영상전체를 탐색하기 때문이다. 반면, 제안한 얼굴검출 방법은 움직임의 종류에 따른 수행시간의 변화가 뚜렷이 나타난다. 도 15(a)에서 앞으로 움직인 경우(약 70번째 프레임부터 190번째 프레임까지) 템플릿과 탐색범위가 증가하여 수행시간이 길어지고, 뒤로 움직인 경우(약 190번째 프레임부터 240번째 프레임까지) 그 반대가 되어 수행시간이 줄어드는 것을 볼 수 있다. 도 15(b)는 좌우로 연속적으로 움직인 경우인데, 움직임이 많은 부분과 적은 부분이 뚜렷이 나타나고 있다. 도 15(c)의 경우는 상하로 움직인 경우로, 서 있는 상태에서 약 100번째 프레임부터 150번째 프레임까지는 앉은 경우이고, 약 150번째 프레임부터 200번째 프레임까지는 다시 일어서는 경우이다. 앉는 경우 수행시간이 줄어드는데, 이것은 신체가 움직이는 영역이 점차 줄어들어 탐색영역이 줄어들기 때문이다.

한편, 제안한 얼굴추적의 경우 초기의 프레임에서는 제안한 얼굴검출 과정을 거치기 때문에 모든 그래프에서 얼굴검출과 같은 수행시간을 보인다. 그러나 일단 추적과정으로 들어가면 모든 움직임에서 그 수행시간이 상당히 줄어드는 것을 볼 수 있다.

도 15와 도 16의 얼굴추적에 대한 수행시간 실험 결과에서는, 전후로 움직이는 경우(a) 가장 많은 시간이 소요되어 최고 프레임 당 4ms의 추적시간을 보였으며, 좌우 움직임의 경우(b)는 2ms가 조금 넘는 정도의 추적시간을 거의 변화없이 소요함을 알 수 있다. 또한 상하의 움직임에 대해서도 다소간의 차이가 있지만 3ms 이내의 추적시간을 보임을 알 수 있다.

전후 움직임의 경우 도 15의 제안한 얼굴검출 방법에서와 같이 앞으로 움직이는 경우 추적시간이 늘어나는 것을 볼 수 있는데, 이것은 템플릿과 탐색범위를 확대하는 시간과 나선형 탐색시간이 늘어나는 것 때문이다. 반면 뒤로 움직이는 경우는 오히려 추적시간이 줄어드는데, 이것은 템플릿과 탐색범위를 조정하는 시간이 늘어나는 것보다 추적 자체에서 감소하는 시간이 더욱 크기 때문이다. 도 16(b)에서 보는 바와 같이 좌우의 움직임은 추적시간에 거의 영향을 미치지 못함을 알 수 있으며, 상하의 움직임에 해당하는 도 16(c)의 경우는 움직임에 대하여 오히려 추적시간이 감소하는 것으로 나타났다. 이것은 탐색범위의 설정으로 상하나 좌우의 움직임이 충분히 포함되어 있다는 것을 보여주는 것이다.

도 17은 도 12의 테스트 시퀀스에 프레임 당 평균 수행시간을 나타내었다. 먼저 Viola와 Jones의 방법은 모든 프레임에서 전체화면을 검색하기 때문에 거의 같은 시간을 보였으며, 표에서 보이는 차이는 컴퓨터 내부적인 요인으로 판단된다. Viola와 Jones의 방법에 비해 제안한 얼굴검출 방법은 약 38.77%의 수행시간이 소요되어 얼굴검출 그 자체로도 상당한 시간을 절약할 수 있음을 알 수 있다. 앞에서 설명한 것과 같이 전후 움직임의 경우 탐색영역이 증가하였다가 되돌아오기 때문에 검출시간이 다소 증가하였으며, 상하 움직임의 경우는 탐색영역이 감소하였다가 되돌아오기 때문에 오히려 감소하였다. 상하, 좌우, 전후 움직임과 DDnT Lab시퀀스는 대부분 2.5ms 전후의 추적시간을 보여 빠른 추적이 가능하다는 것을 확인할 수 있었다. Lovebird1는 화면의 해상도가 다른 영상에 비해 높지만, 그 해상도를 감안하더라도 상대적으로 높은 추적시간을 보였다. 이것은 사람이 가까이로 다가오면서 얼굴의 크기가 상당히 커지기 때문이다.

도 18의 표에는 Viola와 Jones의 얼굴추적 방법과 본 발명에서 제안한 얼굴검출 방법의 검출률 통계를 보이고 있는데, 얼굴검출과 얼굴추적은 특성이 매우 다르므로, 여기서는 얼굴검출만 언급하고 얼굴추적은 뒤에서 따로 설명한다. 표에서 '검출성공률'은 검출된 결과의 적합여부와 상관없이 검출에 성공했다고 나타나는 경우이며, '검출실패율'은 검출을 하지 못했다고 나타는 경우이다. 따라서 검출성공률과 검출실패율을 더하면 100%가 된다. 또한 오검출률은 얼굴로 검출되었으나 실제의 경우 얼굴이 아닌 경우(negative true)에 대한 비율이다. 도 19에 이런 경우의 예를 보이고 있는데, 도 19(a)는 Viola와 Jones의 방법, 도 19(b)는 같은 프레임을 제안한 얼굴검출 방법을 수행한 결과이다. 도 19(a)에서 얼굴 좌하측에 얼굴이 아닌 영역을 얼굴로 인식하고 있는 것을 볼 수 있다.

도 18에서 보듯이 제안한 얼굴검출 방법이 Viola와 Jones의 방법보다 검출률이 약간 낮은 것을 볼 수 있는데, 이것은 본 발명의 방법이 움직임에 의해 탐색영역을 제한기 때문이다. 그러나 오검출률의 경우 제안한 검출방법이 약 5.7% 작게 나타나 우수한 결과를 보이고 있음을 확인할 수 있었다.

제안한 얼굴추적 방법에 대한 오차율을 도 20의 표에 보이고 있다. 이 통계는 추적거리 오차율을 20%로 [수학식 7]의 T_h를 80으로 고정한 것이며, 비교를 위해 T_l=10,20,30의 세 경우를 나타내었다. 도 14에서 예측한 대로 T_l이 증가할수록 추적시간은 감소하나 추적 오차율이 높아져, 추적시간과 오차율이 상보관계에 있음을 알 수 있다. 또한 전후 움직임의 경우 가장 높은 오차율을 보였는데, 이것은 템플릿 자체를 변경하여야 하기 때문인 것으로 분석되었다. Lovebird1의 경우 얼굴의 크기가 점차 커져서 가까이에 다가왔을 때는 상당히 크고, 중간에 팔로 얼굴을 가리는 부분이 있어서 오차율이 상대적으로 높은 것으로 나타났다. Lovevird1을 제외하면 모든 경우에 있어서 오차율은 1% 전후를 보여 제안한 얼굴추적 방법이 상당히 높은 정확도를 가짐을 알 수 있었다.

본 발명에 따른 얼굴검출 방법은 기본적으로 기존의 Adaboost 방법을 사용하나, 깊이정보를 사용하여 탐색해야 하는 영역을 축소함으로써 수행시간을 감소시켰다. 얼굴추적 방법은 템플릿 매칭 방법을 사용하며, 깊이정보를 이용하여 상하, 좌우, 전후의 얼굴 움직임을 추적할 수 있도록 탐색범위를 설정하였다. 또한 얼굴의 전후 움직임에 대한 깊이에 변화에 템플릿과 탐색범위의 크기를 조정하도록 하였다. 또한 얼굴추적 방법에서 나선형 탐색에 의한 조기종료 기법을 도입하여 수행시간을 줄였다.

직접 제작한 여러 종류의 동영상과 MPEG의 테스트 시퀀스 한 개에 제안한 방법과 기존 방법 중 대표적인 Viola와 Jones의 방법을 적용하여 성능평가를 수행하였다. 본 발명에 따른 얼굴검출 방법은 Viola와 Jones의 방법에 비해 약 39% 정도의 시간을 소요하였으며, 본 발명에 따른 얼굴추적 방법은 640×480 해상도의 프레임 당 평균 약 2.5ms의 시간을 소요하였다. 검출률에 있어서는 제안한 얼굴검출 방법이 Viola와 Jones의 방법보다 약간 떨어졌으나, 오검출률에 있어서는 제안한 방법이 상당히 낮은 것을 확인하였다. 또한 본 발명에 따른 얼굴추적 방법은 조기종료를 위한 문턱치의 변화에 따른 추적 정확도와 추적시간은 예상한 바와 같이 상보적인 관계가 있음을 확인하였으며, 특별한 경우를 제외한 모든 경우 약 1% 정도의 낮은 오차율을 보임을 확인하였다.

따라서 본 발명에 따른 얼굴검출 및 추적방법은 초당 30 프레임 이상의 실시간 얼굴추적 시스템에 사용하기 적합하며, 추적시간과 추적정확도의 상보적 관계를 활용하면 다양한 분야에서 사용할 수 있을 것으로 사료된다.

이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

10 : 얼굴 20 : 카메라
30 : 컴퓨터 단말 40 : 프로그램 시스템
60 : 영상

Claims

사람의 얼굴을 촬영하는 카메라로부터 시간상 연속되는 프레임을 갖는 깊이영상 및 컬러영상을 입력받아 상기 얼굴을 검출하고 추적하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법에 있어서,
(a) 현재 프레임의 깊이영상에서 이전 프레임에 비해 깊이의 변화가 있는 영역과 현재 프레임의 컬러영상에서 얼굴색이 나타나는 영역의 공통영역을 추출하고, 상기 공통영역에 Adaboost 알고리즘을 적용하여 템플릿을 설정하는 단계;
(b) 상기 템플릿을 중심으로 확대되는 영역에 대응되는 현재 프레임의 영역을 탐색영역으로 설정하는 단계;
(c) 상기 템플릿과, 상기 템플릿에 의한 현재 프레임의 탐색영역(이하 샘플링 영역)을 비교하여 깊이의 변화를 구하고, 상기 깊이의 변화에 따라 상기 템플릿의 크기를 갱신하고 갱신된 템플릿에 의해 탐색영역을 갱신하는 단계;
(d) 상기 탐색영역의 각 위치에 대하여, 상기 템플릿이 상기 위치의 영역과 매칭되는지를 판단하는 단계;
(e) 매칭되는 영역(이하 매칭영역)이 검색되면, 상기 매칭영역을 상기 얼굴의 이동 위치로 판단하는 단계; 및,
(f) 상기 매칭영역의 위치로 상기 템플릿의 위치를 갱신하고, 상기 현재 프레임의 다음 프레임을 현재 프레임으로 하여 상기 (c)단계를 반복하는 단계를 포함하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항에 있어서, 상기 방법은,
(g) 상기 (d)단계에서 매칭영역이 없으면, 상기 (a)단계를 수행하는 단계를 포함하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항에 있어서, 상기 (a)단계는,
(a1) 상기 이전 프레임 및 현재 프레임 간의 깊이영상의 차영상을 구하고, 상기 차영상을 이진화한 영상(이하 제1 이진영상)을 구하는 단계;
(a2) 상기 컬러영상에서 사전에 정해진 피부색(이하 피부색 참조맵)의 범위 내의 화소값을 가지는지 여부로 이진화하여 영상(이하 제2 이진영상)을 구하는 단계;
(a3) 상기 제1 및 제2 이진영상을 교집합(AND)하여 공통영역을 구하는 단계;
(a4) 상기 공통영역에 Adaboost 알고리즘을 적용하여 얼굴영역을 검출하는 단계; 및,
(a5) 상기 얼굴영역에 해당하는 현재 프레임의 영역을 템플릿으로 설정하는 단계를 포함하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제3항에 있어서,
상기 제1 및 제2 이진영상에 모폴로지(morphology) 필터를 적용하고 이진화하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제3항에 있어서,
상기 (a2)단계에서, 상기 컬러영상을 YCbCr영상으로 전환하여, Cb 및 Cr성분만으로 상기 피부색 참조맵과 비교하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항에 있어서,
상기 템플릿은 상기 템플릿 영역에 해당하는 현재 프레임의 컬러영상과 깊이영상으로 설정하되, 상기 컬러영상은 YCbCr영상으로 전환하여 Y성분만을 사용하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항에 있어서,
상기 탐색영역은, 상기 템플릿에서 소정의 비율(이하 확대비율)로 상하좌우로 확대하고, 확대되는 영역에 해당하는 현재 프레임의 영역으로 설정되는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항에 있어서,
상기 (c)단계에서, 상기 템플릿과 상기 샘플링 영역을 다수의 동일크기의 서브블록으로 구분하여, 상기 샘플링 영역에서의 가장 깊이가 큰 서브블록의 깊이(이하 샘플링영역의 최고 깊이)와 상기 템플릿에서의 가장 깊이가 큰 서브블록의 깊이(이하 템플릿의 최고 깊이)의 차이로 상기 깊이의 변화를 구하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제8항에 있어서,
상기 서브블록의 깊이는 상기 서브블록 내의 깊이값을 평균한 값인 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제8항에 있어서,
상기 (c)단계에서, 갱신하는 템플릿의 크기 s₂는 다음 [수식 1]에 의해 구하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
[수식 1]

단, s₁은 갱신전 템플릿의 크기이고,
z₁, z₂는 각각 템플릿 및 샘플링영역의 최고 깊이임.
제1항에 있어서,
상기 (d)단계에서, 상기 템플릿과 상기 위치의 영역의 SAD(sum-of-absolute differences)를 계산하여 상기 SAD값이 소정의 문턱값보다 작으면 상기 템플릿이 상기 위치의 영역에 매칭되는 것으로 판단하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항에 있어서,
상기 (d)단계에서, 상기 위치를 상기 탐색영역의 중심부터 나선형으로 이동하면서 템플릿과의 매칭여부를 판단하는 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 컬러영상은 RGB영상인 것을 특징으로 하는 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법.
제1항 내지 제12항 중 어느 한 항의 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.