KR101397845B1

KR101397845B1 - 얼굴 인식 방법 및 기계로 읽을 수 있는 저장 매체 및 얼굴 인식 장치

Info

Publication number: KR101397845B1
Application number: KR1020120119508A
Authority: KR
Inventors: 이영섭; 김상조; 김창훈; 현종민; 강봉남; 하이 왕; 최인호; 정경중; 김대진
Original assignee: 포항공과대학교 산학협력단; 삼성전자주식회사
Priority date: 2012-10-26
Filing date: 2012-10-26
Publication date: 2014-05-20
Also published as: KR20140053504A

Abstract

본 발명의 일 측면에 따른 사용자의 얼굴을 인식하는 방법은, 이미지를 획득하는 단계와; 획득한 이미지에서 얼굴 영역에 해당하는 제1 얼굴 이미지를 추출하는 단계와; 상기 제1 얼굴 이미지의 제1 특징 값을 산출하는 단계와; 상기 제1 특징 값과 제2 얼굴 이미지의 제2 특징 값의 유사도를 산출하는 단계와; 상기 유사도와 미리 설정된 임계치의 비교 결과에 따라 상기 제1 및 제2 얼굴 이미지가 동일 사용자의 것인지의 여부를 결정하는 단계를 포함한다.

Description

얼굴 인식 방법 및 기계로 읽을 수 있는 저장 매체 및 얼굴 인식 장치{FACE RECOGNITION METHOD, MACHINE-READABLE STORAGE MEDIUM AND FACE RECOGNITION DEVICE}

본 발명은 입력된 얼굴 이미지의 내용을 분석하여 얼굴 인식을 위한 최적의 얼굴 부분 영역을 찾고, 이를 이용하여 얼굴을 인식하는 방법에 관한 것이다.

얼굴 인식 기술은 지문이나 홍채 인식 등의 생체 인식 기술들에 비해서, 그 인식 절차가 복잡하지 않고 자연스러우며, 사용자에게 거부감을 주지 않는다는 특징이 있다. 또한, 카메라를 이용하여 사람의 모습을 이미지 파일로 보관하는 일은 이미 보편화되어 있다. 저장되어 있는 이미지의 수가 많을 경우, 사용자가 직접 각 이미지를 사람별로 분류하기 위해서는 많은 시간을 필요로 한다.

또한, 종래의 인식 기술은 얼굴 인식 성능이 만족스럽지 못하다는 문제가 있다.

효과적인 얼굴 인식을 위해서는 주어진 얼굴 이미지에서 서로 다른 얼굴 이미지들을 잘 구분할 수 있어야 하고, 어느 얼굴 부분 영역에서 얼굴 특징 값을 추출하는 지와, 추출된 특징 값들을 어떻게 융합하느냐에 따라 인식 성능이 좌우될 수 있다.

따라서, 효과적이면서 빠른 얼굴 인식 방법이 요구된다.

본 발명의 특정 실시 예들의 목적은 종래기술과 관련된 문제점들 및/또는 단점들 중의 적어도 하나를 적어도 부분적으로 해결, 경감 또는 제거하는 것이다.

본 발명은, 코사인 유사도 측정을 이용하여 얼굴 영상의 최적 영역을 찾고 국부 이진 패턴, 가버 필터를 이용하여 얼굴 이미지의 특징 값을 추출한 후에, 추출된 정보들을 서로 잘 분리할 수 있도록 계량 변환 함수를 적용한 후 각 특징들을 비교함으로써 얼굴 인식을 함으로써, 효과적이면서 빠른 얼굴 인식 방법을 제공한다.

본 발명의 다른 측면에 따라, 얼굴 인식 방법을 실행하기 위한 프로그램을 기록한 기계로 읽을 수 있는 저장 매체 및 이러한 저장 매체를 구비한 얼굴 인식 장치가 제공된다.

본 발명에 따르면, 효과적이면서 빠른 얼굴 인식 방법이 제공된다.

도 1은 본 발명의 바람직한 실시 예에 따른 얼굴 인식 장치의 구성을 나타내는 도면,
도 2는 본 발명의 바람직한 실시 예에 따른 얼굴 특징 값의 산출 방법을 설명하기 위한 흐름도,
도 3 내지 도 5는 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법을 설명하기 위한 도면들,
도 6은 다해상도 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법을 설명하기 위한 도면,
도 7은 균일 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법을 설명하기 위한 도면,
도 8은 얼굴 이미지를 가버 필터들을 이용하여 변환한 예들을 나타낸 도면,
도 9는 ULBP 얼굴 이미지의 얼굴 부분 영역별 히스토그램을 나타내는 도면,
도 10은 AdaBoost 학습을 통한 최적 얼굴 부분 영역을 설정하는 방법을 설명하기 위한 흐름도,
도 11은 선택된 최적 얼굴 부분 영역들을 예시하는 도면,
도 12는 동일인 얼굴 이미지 쌍과 타인 얼굴 이미지 쌍간의 가버 특징 및 ULBP 특징의 코사인 유사도 분포를 나타내는 그래프,
도 13은 계량 변환 함수의 작용을 나타내는 도면,
도 14는 최적의 계량 변환 함수 A를 구하는 방법을 나타내는 흐름도,
도 15는 본 발명에 따른 얼굴 인식 방법을 나타내는 흐름도,
도 16은 본 발명의 다른 예에 따른 얼굴 인식 방법을 나타낸 도면.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하여 상세하게 설명한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 바람직한 실시 예에 따른 얼굴 인식 장치의 구성을 나타내는 도면이다.

얼굴 인식 장치(100)는 스마트폰, 휴대폰, 게임기, TV, 디스플레이 장치, 차량용 헤드 유닛, 노트북, 랩탑, 태블릿(Tablet) PC, PMP(Personal Media Player), PDA(Personal Digital Assistants) 등일 수 있다. 얼굴 인식 장치(100)는 무선 통신 기능을 갖는 포켓 사이즈의 휴대용 이동 단말로서 구현될 수 있다.

얼굴 인식 장치(100)는 외부 장치와 통신하거나, 외부 장치와의 연동을 통해 작업을 수행할 수 있다. 예를 들어, 얼굴 인식 장치(100)는 카메라(150)에 의해 촬상된 이미지를 네트워크를 통해 외부 장치로 전송할 수 있다. 다른 예를 들어, 얼굴 인식 장치(100)는 얼굴 인식 정보의 교환 또는 일방향 전송 또는 수신을 통한 인증 절차를 거쳐서 외부 장치의 접속이나 내부 데이터의 접근을 허용할 수도 있다. 또한, 얼굴 인식 장치(100)는 외부 장치의 제어에 따라 동작할 수 있고, 이러한 외부 장치에 의한 제어는 다양한 방식으로 구현될 수 있다. 상기 네트워크는, 이에 한정되지 않지만, 근거리 통신망(Local Area Network: LAN), 무선 근거리 통신망(Wireless Local Area Network: WLAN), 광역 통신망(Wide Area Network: WAN), 인터넷 및 소지역 통신망(Small Area Network: SAN)의 적어도 하나를 포함한다. 얼굴 인식 장치(100)은 외부 장치와 직접 연결될 수도 있다.

얼굴 인식 장치(100)는 입/출력 모듈(110), 센서부(120), 메모리(130), 통신부(140), 카메라(150), 표시부(160) 및 제어부(170)를 포함한다.

입/출력 모듈(110)은 사용자 입력을 수신하거나 사용자에게 정보를 알리기 위한 수단으로서, 스피커, 마이크, 복수의 버튼, 진동모터, 커넥터, 키패드 등을 포함할 수 있다. 입/출력 모듈(110)의 추가적인 예로서, 이에 한정되지 않지만, 마우스, 트랙볼(trackball), 조이스틱 또는 커서 방향 키들과 같은 커서 컨트롤(cursor control)이 제어부(170)와의 정보 통신 및 표시부(160) 상의 커서 움직임 제어를 위해 제공될 수 있다.

스피커는 제어부(170)의 제어에 따라 다양한 신호(예, 무선신호, 방송신호, 디지털 오디오 파일, 디지털 동영상 파일 또는 사진 촬영 등)에 대응되는 사운드를 얼굴 인식 장치(100)의 외부로 출력할 수 있다. 스피커는 얼굴 인식 장치(100)가 수행하는 기능에 대응되는 사운드를 출력할 수 있다. 스피커는 얼굴 인식 장치(100)의 적절한 위치 또는 위치들에 하나 또는 복수로 형성될 수 있다.

마이크는 제어부(170)의 제어에 따라 음성(voice) 또는 사운드(sound)를 수신하여 전기적인 신호를 생성한다.

버튼은 얼굴 인식 장치(100)의 전면, 측면 또는 후면에 형성될 수 있으며, 전원/잠금 버튼(도시되지 아니함), 볼륨 버튼(도시되지 아니함), 메뉴 버튼, 홈 버튼, 돌아가기 버튼(back button) 및 검색 버튼 등을 포함할 수 있다.

진동 모터는 제어부(170)의 제어에 따라 전기적 신호를 기계적 진동으로 변환할 수 있다. 예를 들어, 진동 모드에 있는 얼굴 인식 장치(100)는 다른 장치(도시되지 아니함)로부터 음성 또는 화상 통화가 수신되는 경우, 진동 모터가 동작한다. 진동 모터는 얼굴 인식 장치(100) 내에 하나 또는 복수로 형성될 수 있다. 진동 모터는 표시부(160)를 터치하는 사용자의 터치 동작 및 표시부(160) 상에서의 터치의 연속적인 움직임(즉, 드래그)에 응답하여 동작할 수 있다.

커넥터는 얼굴 인식 장치(100)와 서버, 외부 장치 또는 전원 소스(도시되지 아니함)를 연결하기 위한 인터페이스로 이용될 수 있다. 제어부(170)의 제어에 따라 커넥터에 연결된 유선 케이블을 통해 얼굴 인식 장치(100)의 메모리(130)에 저장된 데이터를 외부 장치로 전송하거나 또는 외부 장치에서부터 데이터를 수신할 수 있다. 커넥터에 연결된 유선 케이블을 통해 전원 소스로부터 전원이 입력되거나 배터리를 충전할 수 있다.

키패드는 얼굴 인식 장치(100)의 제어를 위해 사용자로부터 키 입력을 수신할 수 있다. 키패드는 얼굴 인식 장치(100)에 형성되는 물리적인 키패드 또는 터치스크린에 표시되는 가상의 키패드를 포함한다.

센서부(120)는 얼굴 인식 장치(100)의 상태(위치, 방위, 움직임 등)를 검출하는 적어도 하나의 센서를 포함한다. 예를 들어, 센서부(120)는 사용자의 얼굴 인식 장치(100)에 대한 접근 여부를 검출하는 근접 센서, 또는 얼굴 인식 장치(100)의 동작(예를 들어, 얼굴 인식 장치(100)의 회전, 가속, 감속, 진동 등)을 검출하는 모션/방위 센서 등을 포함할 수 있다. 또한, 모션/방위 센서는 가속도 센서, 중력센서, 지자기 센서, 자이로(gyro) 센서, 충격센서, GPS, 나침반 센서(compass sensor), 가속도 센서 등을 포함할 수 있다. 센서부(120)는 얼굴 인식 장치(100)의 상태를 검출하고, 검출에 대응되는 신호를 생성하여 제어부(170)로 전송할 수 있다. 예를 들어, GPS 센서는 지구 궤도상에 있는 복수의 GPS위성(도시되지 아니함)에서부터 전파를 수신하고, GPS위성(도시되지 아니함)에서부터 얼굴 인식 장치(100)까지 전파도달시간(Time of Arrival)을 이용하여 얼굴 인식 장치(100)의 GPS 위치를 산출할 수 있다. 나침반 센서는 얼굴 인식 장치(100)의 자세 또는 방위를 산출한다.

통신부(140)는 서버 또는 외부 장치와의 직접 연결 또는 네트워크를 통한 연결을 위해 제공되며, 유선 또는 무선 통신부일 수 있으며, 제어부(170), 메모리(130), 카메라(150) 등으로부터의 데이터를 유선 또는 무선으로 전송하거나, 외부 통신선 또는 대기로부터 데이터를 유선 또는 무선 수신하여 제어부(170)로 전달하거나 메모리(130)에 저장한다.

통신부(140)는 성능에 따라 이동통신 모듈, 무선랜 모듈 및 근거리통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(140)는, 이에 한정되지 않지만, 디지털 멀티미디어 방송(digital multimedia broadcasting: DMB) 모듈, 종합 정보 통신망(integrated services digital network: ISDN) 카드, 모뎀, 근거리 통신망(LAN) 카드, 적외선 모듈, 블루투스 모듈(Bluetooth port) 및 지그비(zigbee) 모듈 중의 적어도 하나를 더 포함할 수 있다.

이동통신 모듈은 제어부(170)의 제어에 따라 적어도 하나의 안테나(도시되지 아니함)를 이용하여 이동 통신을 통해 얼굴 인식 장치(100)가 외부 장치와 연결되도록 한다. 이동통신 모듈은 얼굴 인식 장치(100)에 입력되는 전화번호, 또는 네트워크 주소를 가지는 휴대폰(도시되지 아니함), 스마트폰(도시되지 아니함), 태블릿PC 또는 다른 장치(도시되지 아니함)와 음성 통화, 화상 통화, 문자메시지(SMS), 멀티미디어 메시지(MMS) 등의 데이터 교환 또는 일방향 전송 또는 수신을 위한 무선 신호를 송/수신한다.

무선랜 모듈은 제어부(170)의 제어에 따라 무선 AP(access point)(도시되지 아니함)가 설치된 장소에서 인터넷에 연결될 수 있다. 무선랜 모듈은 미국전기전자학회(IEEE)의 무선랜 규격(IEEE802.11x)을 지원한다. 근거리통신 모듈은 제어부(170)의 제어에 따라 얼굴 인식 장치(100)와 화상형성장치(도시되지 아니함) 사이에 무선으로 근거리 통신을 할 수 있다. 근거리 통신방식은 블루투스(bluetooth), 적외선 통신(IrDA, infrared data association) 등이 포함될 수 있다.

카메라(150)는 렌즈계, 이미지 센서, 플래쉬 등을 포함할 수 있다. 카메라는 렌즈계를 통해 입력되는(또는 촬영되는) 광신호를 전기적인 이미지 신호로 변환하여 제어부(170)로 출력하고, 사용자는 이러한 카메라(150)를 통해 동영상 또는 정지 이미지를 촬영할 수 있다.

렌즈계는 외부로부터 입사된 광을 수렴시킴으로써 피사체의 이미지를 형성한다. 렌즈계는 적어도 하나의 렌즈를 포함하며, 각 렌즈는 볼록 렌즈, 비구면 렌즈 등일 수 있다. 렌즈계는 그 중심을 지나는 광축(optical axis)에 대해 대칭성을 가지며, 광축은 이러한 중심 축으로 정의된다, 이미지 센서는 렌즈계를 통해 입사된 외부 광에 의해 형성된 광학적 이미지를 전기적 이미지 신호로 검출한다. 이미지 센서는 M×N 행렬(matrix) 구조로 배치된 복수의 화소(pixel) 유닛을 구비하며, 화소 유닛은 포토다이오드 및 복수의 트랜지스터들을 포함할 수 있다. 화소 유닛은 입사된 광에 의해 생성된 전하를 축적하고, 축적된 전하에 의한 전압은 입사된 광의 조도를 나타낸다. 정지 이미지 또는 동영상을 구성하는 한 이미지를 처리하는 경우에 있어서, 이미지 센서로부터 출력되는 이미지 신호는 화소 유닛들로부터 출력되는 전압들(즉, 화소 값들)의 집합으로 구성되고, 이미지 신호는 하나의 프레임(즉, 정지 이미지)을 나타낸다. 또한, 프레임은 M×N 화소로 구성된다. 이미지 센서로는 CCD(charge-coupled device) 이미지 센서, CMOS(complementary metal-oxide semiconductor) 이미지 센서 등을 사용할 수 있다.

구동부는 제어부(170)의 제어에 따라 이미지 센서를 구동한다. 구동부는 제어부(170)로부터 수신한 제어 신호에 따라 이미지 센서의 전체 화소들 또는 전체 화소 중에서 관심 영역의 화소들만을 작동하고, 화소들로부터 출력되는 이미지 데이터는 제어부(170)로 출력된다.

제어부(170)는 카메라(150)로부터 입력되는 이미지 또는 메모리(130)에 저장된 이미지를 프레임(frame) 단위로 처리하며, 표시부(160)의 화면 특성(크기, 화질, 해상도 등)에 맞도록 변환된 이미지 프레임을 출력한다. 이하, 카메라(150)로부터 입력되는 이미지 또는 메모리(130)에 저장된 이미지는 이미지 데이터 또는 이미지 파일로 칭할 수도 있다.

표시부(160)는 제어부(170)로부터 입력된 이미지를 화면에 표시한다. 이러한 표시부(160)로는 액정표시장치(liquid crystal display: LCD), 터치스크린(touch screen) 등을 사용할 수 있다. 이하, 표시부(160)로서, 이미지를 화면에 표시하는 디스플레이 유닛과 사용자 입력 수단의 접촉을 검출하는 터치 패널을 포함하는 터치스크린을 사용하는 것으로 한다.

표시부(160)은 제어부(170)의 제어에 따른 이미지를 표시하고, 그 표면에 손가락, 스타일러스 펜(stylus pen) 등과 같은 사용자 입력 수단이 접촉하면 키 접촉 인터럽트(interrupt)를 발생시키고, 제어부(170)의 제어에 따라 입력 좌표 및 입력 상태를 포함하는 사용자 입력 정보를 제어부(170)로 출력한다.

표시부(160)는 사용자에게 다양한 서비스(예, 통화, 데이터 전송, 방송, 사진/동영상 촬영)에 대응되는 그래픽 사용자 인터페이스를 제공할 수 있다. 표시부(160)는 그래픽 사용자 인터페이스에 입력되는 적어도 하나의 터치에 대응되는 사용자 입력 정보를 제어부(170)로 출력할 수 있다. 표시부(160)는 사용자의 신체(예, 엄지를 포함하는 손가락) 또는 터치 가능한 입력 수단(예, 스타일러스 펜)을 통해 적어도 하나의 터치를 수신할 수 있다. 또한, 표시부(160)는 적어도 하나의 터치 중에서, 하나의 터치의 연속적인 움직임을 입력받을 수 있다. 표시부(160)는 입력되는 터치의 연속적인 움직임에 대응되는 사용자 입력 정보를 제어부(170)로 전송할 수 있다.

본 발명에서 터치는 표시부(160)와 사용자의 신체 또는 터치 가능한 입력 수단과의 접촉에 한정되지 않고, 비접촉(예, 표시부(160)와 사용자의 신체 또는 터치 가능한 입력 수단과 검출 가능한 간격이 1 mm 이하)을 포함할 수 있다. 표시부 (160)은 정전용량(capacitive) 방식으로 구현될 수 있다.

메모리(130)는 화상 통화, 게임 등과 같은 다양한 기능들의 애플리케이션들과 이와 관련된 그래픽 사용자 인터페이스(graphical user interface: GUI)를 제공하기 위한 이미지들, 사용자 정보, 문서, 얼굴 특징 정보, 사용자 및 얼굴 특징 정보의 맵핑 테이블 등과 관련된 데이터베이스들, 얼굴 인식 장치(100)를 구동하는데 필요한 배경 이미지들(메뉴 화면, 대기 화면 등) 또는 운영 프로그램들, 카메라에 의해 촬영된 이미지들 등을 저장할 수 있다. 메모리(130)는 기계(예를 들어, 컴퓨터, 휴대폰 등)로 읽을 수 있는 매체이며, 기계로 읽을 수 있는 매체라는 용어는 기계가 특정 기능을 수행할 수 있도록 기계에게 데이터를 제공하는 매체로 정의될 수 있다. 기계로 읽을 수 있는 매체는 저장 매체일 수 있다. 메모리(130)는 비휘발성 매체(non-volatile media) 및 휘발성 매체를 포함할 수 있다. 이러한 모든 매체는 매체에 의해 전달되는 명령들이 명령들을 기계로 읽어 들이는 물리적 기구에 의해 검출될 수 있도록 유형의 것이어야 한다.

기계로 읽을 수 있는 매체는, 이에 한정되지 않지만, 플로피 디스크(floppy disk), 플렉서블 디스크(flexible disk), 하드 디스크, 자기 테이프, 시디롬(compact disc read-only memory: CD-ROM), 광학 디스크, 펀치 카드(punchcard), 페이퍼 테이프(papertape), 램, 피롬(Programmable Read-Only Memory: PROM), 이피롬(Erasable PROM: EPROM) 및 플래시-이피롬(FLASH-EPROM) 중의 적어도 하나를 포함한다.

제어부(170)는 사용자 입력 정보에 따른 애플리케이션을 실행하고, 애플리케이션은 사용자 입력 정보에 따른 프로그램 동작을 수행한다. 이때, 사용자 입력은 키패드, 터치스크린 등을 통한 입력 또는 카메라 기반의 입력을 포함한다. 제어부(170)는 정보 통신을 위한 버스(bus) 및 정보 처리를 위해 버스와 연결된 프로세서(processor)를 포함할 수 있다. 제어부(170)는 또한 프로세서에 의해 요구되는 정보를 저장하기 위해 버스와 연결된 제2의 메모리(예를 들어, 램(random access memory: RAM))를 포함할 수 있다. 제2의 메모리는 프로세서에 의해 요구되는 임시 정보를 저장하는데 사용될 수 있다. 얼굴 인식 장치(100)는 프로세서에 의해 요구되는 정적 정보(static information)를 저장하기 위해 버스와 연결되는 롬(read only memory: ROM)을 더 포함할 수 있다. 제어부(170)는 중앙처리장치로서 얼굴 인식 장치(100)의 전반적인 동작을 제어하고, 본 발명에 따른 얼굴 인식 방법을 수행하는 역할을 한다.

본 발명에 따른 얼굴 인식 방법은 얼굴 인식 장치에 미리 등록된 사용자 얼굴 이미지의 최적 얼굴 부분 영역과, 계량 변환 함수를 미리 설정하고, 이러한 최적 얼굴 부분 영역과 계량 변환 함수를 이용하여 사용자를 인식한다.

이하의 설명에서는, 얼굴 특징 값을 산출하는 방법과, 최적 얼굴 부분 영역을 설정하는 방법과, 계량 변환 함수를 설정하는 방법을 먼저 차례대로 살펴본 이후에, 얼굴 인식 방법에 대해 살펴보기로 한다.

이하의 예들에서는, 사용자의 얼굴을 인식하는 것을 예시하고 있으나, 본 발명에 따른 얼굴 인식 방법은 사용자의 손, 지문 등의 인식 대상에 적용될 수도 있다. 따라서, 얼굴 특징 값, 얼굴 영역, 얼굴 부분 영역 등은 인식 대상 특징 값, 인식 대상 영역, 인식 대상 부분 영역 등으로 대체 표시될 수도 있다.

도 2는 본 발명의 바람직한 실시 예에 따른 얼굴 특징 값의 산출 방법을 설명하기 위한 흐름도이다.

얼굴 특징 값의 산출 방법은 S210 단계 내지 S240 단계를 포함한다.

S210 단계는 이미지를 획득하는 단계로서, 제어부(170)는 카메라(160)에 의해 촬영된 이미지를 카메라(160)로부터 수신하거나, 메모리(130)에 저장된 이미지를 독취한다. 이하, 이미지는 디지털 이미지, 이미지 데이터 또는 이미지 파일로 칭할 수도 있다.

S220 단계는 얼굴 이미지를 추출하는 단계로서, 제어부(170)는 획득한 이미지에 얼굴이 포함되어 있는지 여부를 판단한다. 즉, 제어부(170)는 획득한 이미지에서 얼굴 영역을 검출한다. 이하 얼굴 영역은 얼굴 이미지 영역이라고 칭할 수도 있다. 여기서, 얼굴 영역 검출은 통상의 얼굴 영역 검출 방법을 이용하여 수행되는데, 얼굴의 윤곽선, 얼굴 피부의 색상 및/또는 질감, 템플리트 등을 이용한 얼굴 영역 검출 기술이 이용될 수 있다. 예를 들어, 제어부(170)는 다수의 사용자의 얼굴 이미지들을 통해 얼굴 학습을 수행하고, 이러한 얼굴 학습에 근거하여 획득한 이미지에서 얼굴 영역을 검출할 수 있다.

제어부(170)는 검출된 얼굴 영역에서 양쪽 눈 영역들을 검출한다. 이러한 눈 영역의 검출은 전술한 얼굴 학습과 마찬가지로 눈 학습에 근거하여 이루어질 수 있다. 예를 들어, 제어부(170)는 다수의 사용자의 눈 이미지들을 통해 눈 학습을 수행하고, 이러한 눈 학습에 근거하여 획득한 이미지에서 눈 영역을 검출할 수 있다.

제어부(170)는 검출된 눈 영역들의 위치들을 이용하여 획득한 이미지에서 얼굴 영역을 특정 크기를 갖는 얼굴 이미지로서 추출한다. 제어부는 추출된 얼굴 이미지를 어파인 워핑(Affine Warping)을 통해 정규화할 수 있다.

얼굴 특징 값은 다양한 방식으로 산출될 수 있으며, 제어부(170)는 가버 필터(Gabor Filter), 다해상도 균일 국부 이진 패턴(Multi-resolution Uniform Local Binary Pattern: MULBP) 또는 ULBP를 이용하여 얼굴 특징 값을 산출할 수 있다. 본 발명은 다해상도 균일 국부 이진 패턴 또는 균일 국부 이진 패턴을 이용할 수 있으므로, 이하 균일 국부 이진 패턴을 이용하는 것을 예시하기로 한다.

S230 단계는 얼굴 이미지를 변환하는 단계로서, 제어부(170)는 균일 국부 이진 패턴들 또는 가버 필터들을 이용하여 얼굴 이미지를 변환함으로써 다수의 얼굴 이미지를 획득한다.

먼저, 균일 국부 이진 패턴들을 이용하여 얼굴 이미지를 변환함으로써 다수의 얼굴 이미지를 획득하는 방법을 설명하자면 아래와 같다.

국부 이진 패턴(Local Binary Pattern: LBP)을 이용한 얼굴 이미지의 변환 방법은 조명에 민감하지 않다는 특성을 갖는다.

도 3 내지 도 5는 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법을 설명하기 위한 도면들이다.

도 3은 얼굴 이미지의 일부 픽셀들에 해당하는 3*3 윈도우(310)의 픽셀 값들을 나타낸다. LBP를 이용한 얼굴 이미지의 변환 방법에서, 제어부(170)는 얼굴 이미지의 각 픽셀(즉, 중앙 픽셀)을 중심으로 3*3 윈도우(310)를 설정하고, 중앙 픽셀(320)의 원본 값(M)을 중앙 픽셀(320)에 가장 인접한 8개의 이웃 픽셀들(330)의 값들(C1~C8)과 각각 비교하고, 비교 결과에 따라 중앙 픽셀(320)의 원본 값(M)을 변환한다. 이때, 이웃 픽셀들(330)은 시계 방향(즉, C1->C2->…->C8)을 따라 순차로 중앙 픽셀(320)과 비교된다. 중앙 픽셀(320)의 변환된 값(M')은 8비트로 표현되며, 변환된 값(M')의 각 비트 M'(a)에는 하위 비트로부터 상위 비트의 순으로 중앙 픽셀(320)의 값(M)과 해당 이웃 픽셀(330)의 값(Ca, a=1~8)의 비교 결과에 따른 1 또는 0의 값이 할당된다. 즉, Ca>M 이면 M'(a)=1이고, Ca≤M 이면 M'(a)=0이 된다. M'(a)는 하위 비트로부터 a번째 비트 값을 나타내고, 예를 들어, M'(1)는 8비트 중에서 하위 1번째 비트 값을 나타낸다. 중앙 픽셀(320)의 변환된 값(M')은 0~255 범위의 값을 갖고, 이러한 값들은 256가지 가능한 LBP 패턴들에 해당한다.

도 4는 도 3에 대한 수치 예를 나타낸다.

도 4의 (a)는, 3*3 윈도우(410)의 중앙 픽셀(420)의 원본 값(M)이 28이고, 8개의 이웃 픽셀들(430)의 값들(C1~C8)이 32, 15, 17, 28, 29, 9, 137 및 250인 것을 예시한다. 전술한 비교 절차에 따라, 도 4의 (b) 및 (c)는 변환된 값(M')이 11010001의 비트 값들, 즉 209의 값을 갖는 것을 나타낸다.

도 5는 동일 사용자에 대한 다양한 명암에 따른 얼굴 이미지들을 LBP를 이용하여 변환한 예들을 나타낸다. 도 5의 상측에는 변환 전 3개의 얼굴 이미지들(510)이 도시되어 있고, 도 5의 하측에는 변환 후 3개의 얼굴 이미지들(520)이 도시되어 있다.

도 6은 다해상도 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법을 설명하기 위한 도면이다.

다해상도 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법은 LBP를 이용한 얼굴 이미지의 변환 방법과 거의 동일하나, 중앙 픽셀로부터 2 픽셀 거리 이상으로 이격된 이웃 픽셀들을 이용한다는 점에서 차이가 있다.

도 6의 (a)는 LBP를 이용한 얼굴 이미지의 변환 방법에 따라 5*5 윈도우(600)의 중앙 픽셀(610)로부터 1 픽셀 거리만큼 이격된 이웃 픽셀들(615)을 이용하는 것을 나타낸다.

도 6의 (b)는 다해상도 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법에 따라 중앙 픽셀(610)로부터 2 픽셀 거리만큼 이격된 이웃 픽셀들(625)을 전부 이용하는 것을 나타낸다.

도 6의 (c)는 다해상도 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법에 따라 중앙 픽셀(610)로부터 2 픽셀 거리만큼 이격된 이웃 픽셀들 중 일부(625a)를 이용하는 것을 나타낸다.

도 7은 균일 국부 이진 패턴을 이용한 얼굴 이미지의 변환 방법을 설명하기 위한 도면이다.

균일 국부 이진 패턴(Uniform LBP: ULBP)은 LBP의 한 가지 변형 예로서, 256가지 가능한 LBP 패턴들 중에서 도 7의 (a)에 도시된 바와 같은 이웃 픽셀의 값들(720)이 중앙 픽셀(710) 값보다 모두 높은 스팟(spot), 도 7의 (b)에 도시된 바와 같은 이웃 픽셀 값들(730)이 중앙 픽셀 값(710)보다 모두 낮은 스팟/플랫(flat), 도 7의 (c)에 도시된 바와 같은 6개의 이웃 픽셀 값들(720)이 중앙 픽셀 값(710)보다 높은 라인 끝단(line end), 도 7의 (d)에 도시된 바와 같은 4개의 이웃 픽셀 값들(720)이 중앙 픽셀 값(710)보다 높은 에지(edge), 도 7의 (e)에 도시된 바와 같은 5개의 이웃 픽셀 값들(720)이 중앙 픽셀 값(710)보다 높은 코너(corner)처럼 의미가 있는 패턴들만을 선택하여 사용하는 방법이다. 하나의 LBP 패턴이 의미가 있는지를 판단함에 있어서, 한 픽셀을 중심으로 시계 방향으로 한 픽셀씩 진행하면서 비트 값이 2번 이하로 변경된 것만을 ULBP 패턴으로 사용한다. 256가지의 LBP 패턴 중에서 59개의 패턴이 ULBP 패턴으로 선택되고, 선택되지 않은 나머지 패턴들은 의미가 없는 패턴으로 구분한다.

다음으로, 가버 필터들을 이용하여 얼굴 이미지를 변환함으로써 다수의 얼굴 이미지를 획득하는 방법을 설명하자면 아래와 같다.

가버 필터는 얼굴 이미지에 적용되며, 얼굴 이미지의 변환은 얼굴 이미지와 가버 필터를 컨볼루션(Convolution)함으로써 얻어진다. 가버 필터는 방향과 크기가 주어졌을 때 하기 수학식 1과 같이 정의된다.

수학식 1에서, u는 방향(Orientation)을 나타내고, v는 크기(Magnitude)를 나타낸다.

도 8은 얼굴 이미지를 가버 필터들을 이용하여 변환한 예들을 나타낸 도면이다.

도 8의 (a)는 얼굴 이미지(810)를 도시하고, 도 8의 (b)는 8가지 방향, 5가지 크기에 따른 40개의 가버 필터들(820)을 도시하고, 도 8의 (c)는 얼굴 이미지에 40개의 가버 필터들을 각각 컨볼루션(Convolution)하여 얻어진 40개의 변환된 얼굴 이미지들(830)을 도시한다.

다시 도 2를 참조하면, S240 단계는 얼굴 특징 값을 산출하는 단계로서, 제어부(170)는 균일 국부 이진 패턴들을 이용하여 변환된 얼굴 이미지들 또는 가버 필터들을 이용하여 변환된 얼굴 이미지들에 근거하여 얼굴 특징 값들을 산출한다.

먼저, 균일 국부 이진 패턴을 이용하여 변환된 얼굴 이미지들(즉, ULBP 얼굴 이미지들)에 근거하여 얼굴 특징 값들을 산출하는 방법을 설명하자면 아래와 같다.

하기 수학식 2 및 3과 같이, 제어부(170)는 ULBP 얼굴 이미지를 얼굴 부분 영역들로 구분하고, 각 얼굴 부분 영역에 대해 ULBP의 히스토그램을 만든다.

상기 수학식 2에서, i, j는 각 픽셀의 행 좌표(또는 번호) 및 열 좌표(또는 번호)를 나타내고, t, b, l, r은 각 얼굴 부분 영역의 위, 아래, 왼쪽, 오른쪽 경계의 위치 좌표(또는 행렬 위치)를 나타낸다.

상기 수학식 3에서, H^k(i,j)는 픽셀(i, j)이 k번째 ULBP 패턴에 속하는지 여부를 나타내는 지시자 이미지(Indicator image)이다. 즉, 픽셀(i, j)이 ULBP 패턴에 속하면 H^k(i,j)는 1의 값을 갖고, 나머지의 경우는 0의 값을 갖는다.

제어부(170)는 각 얼굴 부분 영역별로 만들어진 히스토그램들(즉, 영역 히스토그램)을 연결해서 더 큰 얼굴 부분 영역에 대한 하나의 영역 히스토그램을 얻을 수 있다. 이와 반대로, 목적으로 하는 특정 얼굴 부분 영역을 포함하는 영역 히스토그램에서 나머지 영역 히스토그램을 감산함으로써 특정 얼굴 부분 영역에 대한 히스토그램을 얻을 수도 있다.

도 9는 ULBP 얼굴 이미지의 얼굴 부분 영역별 히스토그램을 나타내는 도면이다.

도 9의 (a)는 ULBP 얼굴 이미지를 나타내고, 예시적으로, ULBP 얼굴 이미지가 4행 4열의 얼굴 부분 영역들로 분할된 것을 나타낸다. 910은 1행 1열의 얼굴 부분 영역을 나타내고, 920은 4행 4열의 얼굴 부분 영역을 나타낸다.

도 9의 (b)는 얼굴 부분 영역별 히스토그램들을 나타내며, 915는 1행 1열의 얼굴 부분 영역에 대한 히스토그램을 나타내고, 925는 4행 4열의 얼굴 부분 영역에 대한 히스토그램을 나타낸다.

제어부(170)는 전술한 얼굴 부분 영역별 히스토그램을 구하는 과정을 각 ULBP 패턴에 대해 수행함으로써, 각 ULBP 패턴에 대한 얼굴 부분 영역별 히스토그램을 구할 수 있다.

이러한 얼굴 부분 영역에 대한 히스토그램은 ULBP 얼굴 특징 값에 해당한다.

다음으로, 가버 필터를 이용하여 변환된 얼굴 이미지들에 근거하여 얼굴 특징 값을 산출하는 방법을 설명하자면 아래와 같다.

제어부(170)는 전술한 ULBP의 경우와 유사한 방식으로 가버 필터들을 이용하여 변환된 얼굴 이미지들(즉, 가버 얼굴 이미지들)을 처리함으로써, 각 가버 얼굴 이미지에 대한 얼굴 부분 영역별 누적 이미지(Integral Image)를 구할 수 있다. 이러한 얼굴 부분 영역에 대한 누적 이미지는 가버 얼굴 특징 값에 해당한다.

전술한 얼굴 특징 값을 산출하는 방법에 이어서, 최적 얼굴 부분 영역을 설정하는 방법을 설명하면 아래와 같다.

본 발명에서는 얼굴 특징 값들 간의 비교와 얼굴 특징 값들의 산출을 위한 최적 얼굴 부분 영역의 선택을 위하여, 코사인 유사도(Cosine Similarity) 측정 방법과 같은 유사도 측정 방법을 사용한다.

상기 수학식 4에서, x, y는 비교하고자 하는 얼굴 특징 값들(예를 들어, 특징 벡터들)을 나타내고, CS(x, y)는 x, y 두 특징 값들의 코사인 유사도를 나타낸다.

본 발명은 사람 얼굴의 특징을 잘 구분할 수 있는 최적의 얼굴 부분 영역들을 찾는 반복적 얼굴 부분 영역 선택 방법을 제안한다. 얼굴 인식을 위한 최적의 얼굴 부분 영역들을 찾기 위해, 얼굴 인식 문제를 동일인 얼굴 이미지 쌍(Intra pair)과 타인 얼굴 이미지 쌍(Extra pair)의 두 단계 분류(two class classification)에 대한 문제로 간주하고, 이 두 부류의 쌍들을 잘 구분하고 동일인 얼굴 이미지 쌍의 인식 오류가 최소화되는 최적화된 얼굴 부분 영역들을 선택한다.

본 발명은, 최적 얼굴 부분 영역들을 찾기 위해서, ULBP 특징에 대하여, 각 ULBP 패턴에 대한 히스토그램 누적 이미지(Integral Image of Histogram)를 생성한다. ULBP 패턴에 대한 히스토그램 누적 이미지는 하기 수학식 5를 이용하여 산출할 수 있다.

상기 수학식 5에서, IIH^k(i,j)는 k번째 ULBP 패턴의 누적 이미지를 나타내며, 또한 픽셀(i, j) 위치까지의 k번째 ULBP 패턴이 발생한 빈도수를 나타낸다. 일단 ULBP 변환 이미지에 대하여 히스토그램 누적 이미지 IIH를 산출하면, 임의의 영역에서의 히스토그램을 상수 시간(Constant time)내에 구할 수 있다.

하기 수학식 6은　IIH를　이용하여 연결된 영역 히스토그램　(Concatenated Block Histogram)을 산술하는 식이다.

가버 특징에 대해서는, 전술한 바와 같이, 각 가버 얼굴 이미지에 대해서 누적 이미지(Integral Image)을 만든다. 　

　　이렇게 ULBP 영역 히스토그램 및 가버 누적 이미지를 산출한 후, AdaBoost 부스팅 기법을 이용하여 얼굴의 최적 부분 영역을 찾기 위해 학습을 한다. AdaBoost 부스팅 기법은 약 분류기들(Weak Classifiers)의 결합을 통해 강 분류기(Strong Classifier)를 형성한다. 본 발명에서는 약 분류기를 하기 수학식 7과 같이 정의를 한다. 두 얼굴 이미지 x1, x2에 대하여 5개의 매개 변수를 정의하며, 특정 얼굴 부분 영역에 대한 t(상), b(하), l(좌), r(우)의 영역 경계 위치 좌표와, th(임계값)을 각각 정의한다.

상기 수학식 7에서, CS는 상기 수학식 4에서 설명한 코사인 유사도이며, ULBP 특징에 대해서 하기 수학식 8과 같이 변형 적용한다.

가버 얼굴 이미지에 대해서는 하기 수학식 9와 같이 코사인 유사도를 변형 적용하며 k는 k번째 가버 얼굴 이미지를 의미하며, AGII는 가버 누적 이미지의 평균 이미지 값을 의미하며, AGII는 하기 수학식 10에 의해 계산되고,　GII는 가버 누적 이미지를 의미한다.

ULBP 얼굴 이미지와 가버 얼굴 이미지의 각각에 대하여 후보 얼굴 부분 영역들의 (t, l, b, r)을 변경해 가면서 AdaBosst 학습을 수행하여, ULBP 얼굴 이미지와 가버 얼굴 이미지의 각각에 대하여 최적 얼굴 부분 영역을 찾는다.

도 10은 AdaBoost 학습을 통한 최적 얼굴 부분 영역을 설정하는 방법을 설명하기 위한 흐름도이다.

최적 얼굴 부분 영역을 설정하는 방법은 S1010 단계 내지 S1070 단계를 포함한다.

S1010 단계는 특징 값을 산출하는 단계로서, 제어부(170)는 동일인 얼굴 이미지 쌍과 타인 얼굴 이미지 쌍에 대한 ULBP 특징 값 및 가버 특징 값을 산출한다. 산출된 특징 값들은 아래와 같이 나타낼 수 있다.

y_i=-1,1(i=1,...,n)는 동일인 얼굴 이미지 쌍과 타인 얼굴 이미지 쌍을 나타낸다.

S1020 단계는 분류기 초기 값을 설정하는 단계로서, 제어부(170)는 각 특징 값에 대응하는 가중치를 수학식 11과 같이 초기화한다.

상기 수학식 11에서, w_ulbp _,i는 ULBP 특징 값에 대한 가중치이고, w_gabor _,i는 가버 특징 값에 대한 가중치이다. 그리고, m과 l은 각각 동일인 얼굴 이미지 쌍의 개수와 타인 얼굴 이미지 쌍의 개수를 의미한다. 이 값들은 추후 동일인 얼굴 이미지와 타인 얼굴 이미지의 각각에 대한 가중치를 부여하는 분류기의 단위 기준이 된다.

S1030 단계는 얼굴 부분 영역을 선택하는 단계로서, 제어부(170)는 각각의 얼굴 이미지에서 사각 영역, 즉 얼굴 부분 영역을 임의로 설정하고, 얼굴 이미지에서 해당 얼굴 부분 영역을 크롭핑(Cropping)한다. 초기에는 얼굴 부분 영역의 좌표(t, l, b, r)가 (0, 0, 3, 3)으로 시작하며, 매 반복마다 얼굴 부분 영역의 좌표를 ±4 픽셀만큼 변경을 하면서 크롭핑을 한다.

S1040 단계는 약분류기를 선택하는 단계로서, 제어부(170)는 각 가중치에 따른 에러가 최소가 되는 약 분류기(weak classifier)를 하기 수학식 12에 의해 선택한다.

S1050 단계는 분류기 가중치를 갱신하는 단계로서, 제어부(170)는 분류기 가중치를 하기 수학식 13과 같이 갱신한다.

상기 수학식 13에서, z_t는 정규화를 위한 요소로 사용되며, 모든 가중치에 대한 합으로 나타낸다.

S1060 단계는 종료 조건을 검사하는 단계로서, 제어부(170)는 에러인 ε_j가 0.5보다 크거나 같으면 종료를 하고 그렇지 않으면 0.5보다 크거나 같을 때까지 계속 반복한다.

S1070 단계는 최적 얼굴 부분 영역을 선택하는 단계로서, 제어부는 가능한 얼굴 부분 영역들에 대하여 전술한 과정을 반복함으로써, 최종적으로 동일인 얼굴 이미지와 타인 얼굴 이미지를 잘 구별하는 최적의 얼굴 부분 영역들을 찾는다.

도 11은 선택된 최적 얼굴 부분 영역들을 예시하는 도면이다. 도 11의 (a)는 코에 해당하는 최적 얼굴 부분 영역을 예시하고, 도 11의 (b)는 눈에 해당하는 최적 얼굴 부분 영역을 예시하고, 도 11의 (c)는 입에 해당하는 최적 얼굴 부분 영역을 예시한다. 도 11에서 각 최적 얼굴 부분 영역은 사각형으로 표시되고 있다.

산출된 특징 값들을 그대로 얼굴 인식에 사용할 수도 있지만, 실제 산출된 특징 값들의 분포를 보면 동일인 얼굴 영상 쌍(Intra-pair)과 타인 얼굴 영상 쌍(Extra-pair)간의 상당히 많은 부분이 겹쳐 있는 것을 볼 수 있다.

도 12는 동일인 얼굴 이미지 쌍과 타인 얼굴 이미지 쌍간의 가버 특징 및 ULBP 특징의 코사인 유사도 분포를 나타내는 그래프이다.

도 12의 (a)는 가버 특징에 대한 코사인 유사도 분포를 나타내는 그래프이고, 동일인 얼굴 이미지 쌍에 대한 그래프(1210)와 타인 얼굴 이미지 쌍에 대한 그래프(1220)가 도시되어 있다.

도 12의 (b)는 ULBP 특징에 대한 코사인 유사도 분포를 나타내는 그래프이고, 동일인 얼굴 이미지 쌍에 대한 그래프(1230)와 타인 얼굴 이미지 쌍에 대한 그래프(1240)가 도시되어 있다.

　　본 발명에서는 코사인 유사도 측정 학습 방법을 사용하여 특징 공간상에서 동일인 얼굴 이미지 쌍간에는 더욱 더 유사도가 높게, 반면에 타인 얼굴 이미지 쌍간에는 유사도가 낮게 특징 값들을 변환하는 변환 함수를 학습 및 적용하여 얼굴 인식을 한다. 즉, 코사인 유사도 측정 학습은 두 입력 얼굴 이미지의 특징들을 직접 비교하는 것이 아니고 두 얼굴 이미지 사이의 거리를 같은 신원이면 작게 하고, 다른 신원이면 크게 하는 계량 변환(Metric Transformation) 함수 A를 다량의 클래스 쌍 이미지 특징들을 가지고 학습하는 지도 학습(Supervised Learning) 기법이다.

학습에 의해 생성된 계량 변환 함수 A를 이용하여 입력 얼굴 이미지 인식을 할 때, 입력 얼굴 이미지를 함수에 의해　A(I_A), A(I_B) 계량 변환 얼굴 이미지들로 변환하고 이러한 두 계량 변환 얼굴 이미지들 사이의 코사인 유사도에 기반을 두어 인식을 한다.

도 13은 계량 변환 함수의 작용을 나타내는 도면이다.

도 13의 (a)는 동일인의 얼굴 이미지 쌍들(1310, 1315; 1320, 1325)이 각각 유사도가 낮게 나타나고, 타인의 얼굴 이미지 쌍들(1310, 1320; 1315, 1325)이 각각 유사도가 높게 나타난 것을 예시한다.

도 13의 (b)는 계량 변환 함수 A를 적용한 후, 동일인의 얼굴 이미지 쌍들(1310, 1315; 1320, 1325)이 각각 유사도가 높게 나타나고, 타인의 얼굴 이미지 쌍들(1310, 1320; 1315, 1325)이 각각 유사도가 낮게 나타난 것을 예시한다.

다시 말해서, 도 13의 (a)는 원래의 특징 공간에서는 같은 신원의 얼굴 이미지 쌍이 유사도가 낮게 나타나고, 반면에 다른 신원의 얼굴 이미지 쌍이 유사도가 높게 나타나는 경우를 예시한다. 계량 변환 함수 A를 적용한 후, 도 13의 (b)는 같은 신원 얼굴 이미지 쌍은 유사도가 높게 나타나고, 다른 신원의 얼굴 이미지 쌍은 유사도가 낮게 변환된 모습을 나타낸다.

하기 수학식 14는 계량 변환 함수 A를 적용하여 특징들 간의 유사도를 측정하는 수식이다.

　최적의 계량 변환 함수 A를 구하기 위해서는 하기 수학식 15와 같은 목적 함수(Objective Function)을 최대화하는 A를 구한다. 　　　　

　여기서 Pos는 x_i, y_i가　동일인 얼굴 이미지 쌍인 것을 나타내고, NPos는　xi, yi가 타인 얼굴 이미지 쌍인 것을 나타낸다.

도 14는 최적의 계량 변환 함수 A를 구하는 방법을 나타내는 흐름도이다.

최적의 계량 변환 함수 A를 구하는 방법은 S1410 단계 내지 S1460 단계를 포함한다.

S1410 단계는 특징 값을 산출하는 단계로서, 제어부(170)는 최적 얼굴 부분 영역의 좌표들을 기반으로 동일인 얼굴 이미지 쌍의 해당 최적 얼굴 부분 영역에서의 ULBP 및 가버 특징 값들과 타인 얼굴 이미지 쌍의 해당 최적 얼굴 부분 영역에서의 ULBP 및 가버 특징 값들을 산출한다.

S1420 단계는 계량 변환 함수를 측정하는 단계로서, 제어부(170)는 산출된 특징 값들에 대해서 각각의 계량 변환 함수 A를 상기 수학식 15에 의해 산출한다. 수학식 15의 목적 함수를 최대화하는 계량 변환 함수 A를 구하기 위해, 제어부(170)는 기울기 하강(Gradient Descent) 기법에 기반한 방법을 사용하게 된다.

S1430 단계는 K-상호검증(K-Corss Validation)을 수행하는 단계로서, 제어부(170)는 계량 변환 함수 A를 이용하여 동일인 얼굴 이미지 쌍 및 타인 얼굴 이미지 쌍에 대하여 상호 검증을 수행한다.

S1440 단계는 계량 변환 함수를 갱신하는 단계로서, 제어부(170)는 현재 산출된 에러가 이전 반복 단계의 에러보다 작으면, 현재 구한 계량 변환 함수 A를 다음 반복 단계의 계량 변환 함수로 갱신한다.

S1450 단계는 종료 조건을 검사하는 단계로서, 제어부(170)는 전술한 과정을 계량 변환 함수가 수렴할 때까지 반복한다. 즉, 제어부(170)는 계량 변환 함수가 수렴하면 S1460 단계를 수행하고, 그렇지 않으면 S1420 단계로 복귀한다.

S1460 단계는 최적 계량 변환 함수를 선택하는 단계로서, 제어부(170)는 수렴된 계량 변환 함수를 최적 계량 변환 함수로 선택한다.

도 15는 본 발명에 따른 얼굴 인식 방법을 나타내는 흐름도이다.

얼굴 인식 방법은 S1510 단계 내지 S1560 단계를 포함한다.

S1510 단계는 이미지를 획득하는 단계로서, 제어부(170)는 카메라(150)에 의해 촬영된 이미지를 카메라로부터 수신하거나, 메모리(130)에 저장된 이미지를 독취한다. 이하, 이미지는 디지털 이미지, 이미지 데이터 또는 이미지 파일로 칭할 수도 있다.

S1520 단계는 얼굴 이미지를 추출하는 단계로서, 제어부(170)는 획득한 입력 이미지에 얼굴이 포함되어 있는지 여부를 판단한다. 즉, 제어부(170)는 획득한 입력 이미지에서 얼굴 영역을 검출한다.

제어부(170)는 검출된 얼굴 영역에서 양쪽 눈 영역들을 검출한다.

제어부(170)는 검출된 눈 영역들의 위치들을 이용하여 획득한 입력 이미지에서 얼굴 영역을 특정 크기를 갖는 얼굴 이미지로서 추출한다.

제어부(170)는 추출된 얼굴 이미지를 어파인 워핑(Affine Warping)을 통해 정규화할 수 있다.

S1530 단계는 얼굴 이미지를 변환하는 단계로서, 제어부(170)는 균일 국부 이진 패턴들 또는 가버 필터들을 이용하여 얼굴 이미지를 변환함으로써 다수의 얼굴 이미지를 획득한다.

S1540 단계는 얼굴 특징 값을 산출하는 단계로서, 제어부(170)는 균일 국부 이진 패턴들을 이용하여 변환된 얼굴 이미지들 또는 가버 필터들을 이용하여 변환된 얼굴 이미지들에 근거하여, 각 최적 얼굴 부분 영역에 대한 특징 값들을 산출한다.

S1550 단계는 유사도를 비교하는 단계로서, 제어부(170)는 산출된 각 최적 얼굴 부분 영역에 대한 특징 값들을 최적 계량 변환 함수를 통해 특징 공간 상에서 특징 변환을 하고, 이 변환된 특징 값들을 사전에 등록된 사용자의 얼굴 특징 값들과 수학식 14를 이용하여 코사인 유사도 측정 또는 비교를 한다. 측정된 유사도가 사전에 정의된 임계치보다 크고, 임계치 보다 큰 사용자 후보들 중에 가장 유사도가 높은 사용자를 최종 인식 결과로 한다.

S1560 단계는 인식 결과를 출력하는 단계로서, 제어부(170)는 입력 이미지의 사용자와 동일인으로 인식된 사용자의 정보를 출력하거나, 이러한 정보를 이용하여 애플리케이션의 실행을 허용하거나, 인식 성공 또는 실패를 통지하거나, 이러한 정보를 이용하여 디지털 문서 또는 사진의 분류 작업 등을 수행할 수 있다.

도 16은 본 발명의 다른 예에 따른 얼굴 인식 방법을 나타낸다. 본 발명은 입력 얼굴 이미지와 등록 얼굴 이미지에 대하여 인식 작업을 수행할 수 있다. 본 예에서, 제어부(170)는 입력 얼굴 이미지(1610)와 등록 얼굴 이미지(1630)의 각각에 대한 ULBP(1621; 1641), 루트 ULBP(1622; 1642), 가버(1623; 1643), 루트 가버(1624; 1644)의 4개의 특징 값들을 사용하고, 입력 얼굴 이미지(1610)와 등록 얼굴 이미지(1630)간의 ULBP 유사도(1651), 루트 ULBP 유사도(1652), 가버 유사도(1653), 루트 가버 유사도(1654)의 4개의 유사도를 측정한다. 제어부(170)는 각각의 특징들을 사용하여 얼굴 인식 최종 결정을 하기 위해, 마지막 단계에서 이 4개의 특징 값들을 융합한다. 특징 값들을 융합하기 위해, 제어부(170)는 각각의 특징들에 대한 코사인 유사도 값을 SVM(Support Vector Machine, 1660)을 이용하여 융합을 하고, 최종 인식 결정(1670)을 한다. 이러한 융합은 4개의 유사도들의 평균 값을 고려하거나, 최대 유사도를 고려하는 등 다양한 방식으로 구현될 수 있다.

본 발명의 실시 예들은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합의 형태로 실현 가능하다는 것을 알 수 있을 것이다. 이러한 임의의 소프트웨어는 예를 들어, 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 얼굴 인식 장치 내에 포함될 수 있는 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 따라서, 본 발명은 본 명세서의 임의의 청구항에 기재된 장치 또는 방법을 구현하기 위한 코드를 포함하는 프로그램 및 이러한 프로그램을 저장하는 기계로 읽을 수 있는 저장 매체를 포함한다. 또한, 이러한 프로그램은 유선 또는 무선 연결을 통해 전달되는 통신 신호와 같은 임의의 매체를 통해 전자적으로 이송될 수 있고, 본 발명은 이와 균등한 것을 적절하게 포함한다.

또한, 상기 얼굴 인식 장치는 유선 또는 무선으로 연결되는 프로그램 제공 장치로부터 상기 프로그램을 수신하여 저장할 수 있다. 상기 프로그램 제공 장치는 상기 얼굴 인식 장치가 기설정된 얼굴 인식 방법을 수행하도록 하는 지시들을 포함하는 프로그램, 얼굴 인식 방법에 필요한 정보 등을 저장하기 위한 메모리와, 상기 얼굴 인식 장치와의 유선 또는 무선 통신을 수행하기 위한 통신부와, 상기 얼굴 인식 장치의 요청 또는 자동으로 해당 프로그램을 상기 얼굴 인식 장치로 전송하는 제어부를 포함할 수 있다.

상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.

100: 얼굴 인식 장치, 110: 입/출력 모듈, 120: 센서부, 130: 메모리, 140: 통신부, 150: 카메라, 160: 표시부, 170; 제어부

Claims

사용자의 얼굴을 인식하는 방법에 있어서,
이미지를 획득하는 단계와;
획득한 이미지에서 얼굴 영역에 해당하는 제1 얼굴 이미지를 추출하는 단계와;
상기 제1 얼굴 이미지에 대하여 서로 다른 특징 값 산출 방식들에 따른 복수의 특징 값들을 산출하는 단계와;
상기 복수의 특징 값들의 각각과 제2 얼굴 이미지의 특징 값의 유사도들을 산출하는 단계와;
상기 유사도들에 근거하여 최종 유사도를 결정하는 단계와;
상기 최종 유사도와 미리 설정된 임계치의 비교 결과에 따라 상기 제1 및 제2 얼굴 이미지가 동일 사용자의 것인지의 여부를 결정하는 단계를 포함함을 특징으로 하는 얼굴 인식 방법.
제1항에 있어서,
상기 제1 얼굴 이미지를 국부 이진 패턴 및 가버 필터의 각각을 이용하여 변환함으로써 상기 복수의 특징 값들을 산출함을 특징으로 하는 얼굴 인식 방법.
제1항에 있어서,
상기 복수의 특징 값들의 각각은 상기 제1 얼굴 이미지의 최적 얼굴 부분 영역에 대해 산출되고, 상기 최적 얼굴 부분 영역의 위치는 미리 설정되어 있음을 특징으로 하는 얼굴 인식 방법.
제1항에 있어서,
상기 복수의 특징 값들의 각각에 동일인의 얼굴 이미지 쌍들의 유사도를 증가시키는 미리 설정된 최적 계량 변환 함수를 적용하는 단계를 더 포함함을 특징으로 하는 얼굴 인식 방법.
제1항에 있어서,
상기 유사도는 코사인 유사도임을 특징으로 하는 얼굴 인식 방법.
제1항에 있어서,
상기 서로 다른 특징 값 산출 방식들은 가버 필터 방식, 루트 가버 필터 방식, 국부 이진 패턴 방식, 균일 국부 이진 패턴 방식, 다해상도 균일 국부 이진 패턴 방식 및 루트 균일 국부 이진 패턴 방식 중 복수인 것을 특징으로 하는 얼굴 인식 방법.
제1항에 있어서,
상기 최종 유사도는 상기 유사도들의 평균 값 또는 상기 유사도들의 최대 값으로 결정됨을 특징으로 하는 얼굴 인식 방법.
제1항 내지 제7항 중 어느 한 항에 따른 얼굴 인식 방법을 실행하기 위한 프로그램을 기록한 기계로 읽을 수 있는 저장 매체.
제8항의 기계로 읽을 수 있는 저장 매체를 포함하는 얼굴 인식 장치.