KR102024867B1

KR102024867B1 - 예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치

Info

Publication number: KR102024867B1
Application number: KR1020140122796A
Authority: KR
Inventors: 황원준; 김원준; 서성주; 김정배; 한재준
Original assignee: 삼성전자주식회사
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2019-09-24
Also published as: KR20160032533A; US9875397B2; US20160078283A1

Abstract

미리 저장된 예제 영상들에 기초하여, 하나 이상의 계층적인 레벨(hierarchical level)을 포함하는 예제 피라미드(example pyramid)를 구성하고, 각 레벨에 속한 예제 영상 그룹에 대해 생성한 코드북(codebook)과 입력 영상 간의 유사도를 산출하며, 산출된 유사도에 기초하여 입력 영상의 특징을 추출하는, 입력 영상의 특징을 추출하는 방법을 제공할 수 있다.

Description

예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치{FEATURE EXTRACTING METHOD OF INPUT IMAGE BASED ON EXAMPLE PYRAMID AND APPARATUS OF FACE RECOGNITION}

아래의 실시예들은 예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치에 관한 것이다.

최근, 사건, 사고 및 테러 등이 빈번하게 발생함에 따라 보안의 중요성이 더 커지고 있다. 이에 따라 보안 카메라의 설치가 늘어 나고 있으며, 보안 영상의 기록 보관소(Archive)에 저장 되는 영상의 종류 및 양도 늘어나고 있다. 사건, 사고 전후에 범죄 형태와 범인 색출 위해서 보안 영상의 기록 보관소를 검색해야 하지만, 많은 수의 카메라들에서 촬영된 영상을 빠르게 검색 하는 일은 용이하지 않다.

결국 대용량 기록 보관소(archive)에 저장된 영상들로부터 원하는 상황 또는 원하는 영상을 빠르게 검색하기 위해서는 영상의 특징을 파악하여 검색하는 방법이 요구된다. 저장된 영상에서의 얼굴 인식은 포즈, 조명 변화, 표정 변화 등에 따라 인식 성능이 떨어지기 때문에 제품 적용이 용이하지 않다.

일실시예에 따르면, 입력 영상의 특징을 추출하는 방법은, 미리 저장된 예제 영상들에 기초하여, 하나 이상의 계층적인 레벨(hierarchical level)을 포함하는 예제 피라미드(example pyramid)를 구성하는 단계; 상기 각 레벨에 속한 예제 영상 그룹에 대한 코드북(codebook)을 생성하는 단계; 입력 영상과 상기 코드북 간의 유사도를 산출하는 단계; 및 상기 산출된 유사도에 기초하여 상기 입력 영상의 특징을 추출하는 단계를 포함한다.

상기 예제 피라미드를 구성하는 단계는, 상기 예제 영상들을 미리 정해진 기준에 따라 클러스터링(clustering)하여 계층적인 레벨 별로 예제 영상 그룹을 생성하는 단계; 및 상기 예제 영상 그룹을 이용하여 상기 예제 피라미드를 구성하는 단계를 포함할 수 있다.

상기 예제 영상 그룹을 생성하는 단계는, 상기 예제 영상들의 특징 벡터를 특징 공간(feature space)으로 투영하는 단계; 및 상기 예제 영상들의 특징 벡터를 상기 특징 공간에서의 거리 별로 클러스터링하여 상기 계층적인 레벨 별로 상기 예제 영상 그룹을 생성하는 단계를 포함할 수 있다.

상기 코드북을 생성하는 단계는, 상기 각 레벨에 속한 예제 영상 그룹을 기초로 복수 개의 시각적 단어들(Visual Words)을 생성하는 단계; 및 상기 복수 개의 시각적 단어들에 기초하여 상기 코드북을 생성하는 단계를 포함할 수 있다.

상기 복수 개의 시각적 단어들을 생성하는 단계는, 상기 각 레벨에 속한 예제 영상 그룹을 벡터 양자화(Vector Quantization)하는 단계; 및 상기 벡터 양자화에 기초하여 상기 복수 개의 시각적 단어들을 생성하는 단계를 포함할 수 있다.

상기 복수 개의 시각적 단어들을 생성하는 단계는, 상기 각 레벨에 속한 예제 영상 그룹을 스파스 코딩(sparse coding)하는 단계; 및 상기 스파스 코딩에 기초하여 상기 복수 개의 시각적 단어들을 생성하는 단계를 포함할 수 있다.

상기 입력 영상과 상기 코드북 간의 유사도를 산출하는 단계는, 특징 공간에서 상기 입력 영상과 상기 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 측정하는 단계; 및 상기 측정된 거리에 기초하여 상기 유사도를 산출하는 단계를 포함할 수 있다.

상기 측정된 거리를 결합(concatenate)하는 단계를 더 포함할 수 있다.

상기 입력 영상의 특징을 추출하는 단계는, 상기 산출된 유사도에 대한 확률 값의 분포를 기초로, 상기 입력 영상의 특징을 추출하는 단계를 포함할 수 있다.

상기 입력 영상의 특징을 추출하는 단계는, 상기 확률 값의 분포에 대하여 가중치를 부여하는 단계; 및 상기 가중치에 기초하여 상기 입력 영상의 특징을 추출하는 단계를 포함할 수 있다.

일실시예에 따르면, 얼굴을 인식하는 장치는, 입력 영상으로부터 얼굴 영역을 추출하는 얼굴 추출부; 상기 얼굴 영역에 대한 정규화(normalization)를 수행하는 정규화부; 상기 정규화된 얼굴 영역과 미리 저장된 코드북- 상기 코드북은 미리 저장된 예제 영상들에 기초하여 구성된 예제 피라미드(example pyramid)의 각 레벨에 속한 예제 영상 그룹에 기반한 것임- 을 이용하여 상기 입력 영상의 특징을 추출하는 특징 추출부; 및 상기 추출된 특징을 기초로, 얼굴을 인식하는 인식부를 포함한다.

상기 특징 추출부는, 상기 정규화된 얼굴 영역과 상기 코드북 간의 유사도를 산출하고, 상기 산출된 유사도에 기초하여 상기 입력 영상의 특징을 추출할 수 있다.

상기 특징 추출부는, 특징 공간에서 상기 정규화된 얼굴 영역과 상기 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 측정하고, 상기 측정된 거리에 기초하여 상기 유사도를 산출할 수 있다.

상기 특징 추출부는, 상기 산출된 유사도에 대한 확률 값의 분포에 대하여 가중치를 부여하고, 상기 가중치에 기초하여 상기 입력 영상의 특징을 추출할 수 있다.

상기 인식부는, 상기 추출된 특징을 기초로, 분류기(Classifier)를 이용하여 상기 얼굴을 인식할 수 있다.

미리 저장된 예제 영상들에 기초하여, 하나 이상의 계층적인 레벨(hierarchical level)을 포함하는 예제 피라미드(example pyramid)를 구성하고, 상기 각 레벨에 속한 예제 영상 그룹에 대한 상기 코드북(codebook)을 생성하는 코드북 생성부를 더 포함할 수 있다.

상기 코드북 생성부는, 상기 예제 영상들의 특징 벡터를 특징 공간(feature space)으로 투영하고, 상기 예제 영상들의 특징 벡터를 상기 특징 공간에서의 거리 별로 클러스터링하여 상기 계층적인 레벨 별로 상기 예제 영상 그룹을 생성하며, 상기 예제 영상 그룹을 이용하여 상기 예제 피라미드를 구성할 수 있다.

상기 코드북 생성부는, 상기 각 레벨에 속한 예제 영상 그룹을 기초로 복수 개의 시각적 단어들(Visual Words)을 생성하고, 상기 복수 개의 시각적 단어들에 기초하여 상기 코드북을 생성할 수 있다.

상기 코드북 생성부는, 상기 각 레벨에 속한 예제 영상 그룹을 벡터 양자화(Vector Quantization)하고, 상기 벡터 양자화에 기초하여 상기 복수 개의 시각적 단어들을 생성할 수 있다.

도 1은 일실시예에 따른 코드북을 생성하는 방법을 나타낸 플로우차트이다.
도 2는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 구성되는 예제 피라미드의 일예이다.
도 3은 일실시예에 따른 입력 영상의 특징을 추출하는 방법에서 예제 피라미드를 구성하는 개념을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에서 코드북을 생성하는 방법을 나타낸 플로우차트이다.
도 5는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 구성된 예제 피리미드 및 예제 피라미드의 각 레벨에 속한 예제 영상 그룹에 대한 코드북을 설명하기 위한 도면이다.
도 6은 일실시예에 따른 입력 영상의 특징을 추출하는 방법을 나타낸 플로우 차트이다.
도 7은 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 입력 영상의 특징을 추출하는 방법을 나타낸 플로우차트이다.
도 8은 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 거리 기반 특징을 인식 중요도에 따라서 재조정한 결과를 나타낸 그래프이다.
도 9는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 입력 영상과 상기 코드북 간의 유사도를 산출하는 방법을 설명하기 위한 도면이다.
도 10은 일실시예에 따른 얼굴 인식 장치의 블록도이다.

컴퓨터 시스템은 아래의 실시예들을 설명하기 위한 하나의 참조로 사용된다. 당업자들은 아래에서 기술되는 시스템 및 방법들이 사용자 인터페이스를 보유하고 있는 임의의 디스플레이 시스템에 적용될 수 있음을 충분히 이해할 수 있다. 특히 본 명세서에서 설명되는 얼굴 인식을 이용한 사용자 인증 방법 및 장치는 하나 이상의 프로세서, 메모리, 및 디스플레이 수단을 포함하는 컴퓨터 시스템에 의해 구현될 수 있다. 당업자라면 주지하는 바와 같이, 컴퓨터 시스템은 셀룰러 폰 등의 포터블 디바이스일 수 있다.

본 명세서에서 사용되는 "실시예", "예", "측면", "예시" 등은 기술된 임의의 양상(aspect) 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되어야 하는 것은 아니다.

아래에서 사용되는 용어들 '컴포넌트', '모듈', '시스템', '인터페이스' 등은 일반적으로 컴퓨터 관련 엔티티(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다.

또한, '또는'이라는 용어는 배타적 논리합 "exclusive OR"라기보다는 포함적인 논리합 "inclusive OR"를 의미한다. 즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, "x가 a 또는 b를 이용한다"는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.

또한, 본 명세서 및 청구항들에서 사용되는 단수 표현("a" 또는 "an")은, 달리 언급하지 않는 한 또는 단수 형태에 관한 것이라고 문맥으로부터 명확하지 않는 한, 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.

또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 아이템들 중 하나 이상의 아이템의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.

또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징, 단계, 동작, 모듈, 구성요소 및/또는 컴포넌트가 존재함을 의미하지만, 하나 이상의 다른 특징, 단계, 동작, 모듈, 구성요소, 컴포넌트 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 일실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

이하에서는 입력 영상으로서 얼굴 영상을 예로 들어 설명하지만, 사용자 별로 고유한 신체 일부에 대한 영상 또한 입력 영상으로 사용될 수 있다.

도 1은 일실시예에 따른 코드북을 생성하는 방법을 나타낸 플로우차트이다.

도 1을 참조하면, 일실시예에 따른 입력 영상의 특징을 추출하는 장치(이하, '추출 장치')는 미리 저장된 예제 영상들에 기초하여, 하나 이상의 계층적인 레벨(hierarchical level)을 포함하는 예제 피라미드(example pyramid)를 구성한다(110).

단계(110)에서, 추출 장치는 예제 영상들을 미리 정해진 기준에 따라 클러스터링(clustering)하여 계층적인 레벨 별로 예제 영상 그룹을 생성할 수 있다.

추출 장치는 예제 영상들의 특징 벡터를 특징 공간(feature space)으로 투영하고, 특징 벡터를 특징 공간에서의 거리 별로 클러스터링하여 예제 영상 그룹을 생성할 수 있다. 예제 영상 그룹은 계층적인 레벨 별로 생성될 수 있으며, 단수 또는 복수 개가 생성될 수 있다.

추출 장치는 예제 영상 그룹들을 이용하여 예제 피라미드를 구성할 수 있다. 일실시예에서 구성되는 예제 피라미드의 일 예는 도 2에 도시되어 있다.

추출 장치는 각 레벨에 속한 예제 영상 그룹에 대한 코드북(codebook)을 생성한다(130). 단계(130)에서 추출 장치는 각 레벨에 속한 예제 영상 그룹을 기초로 성격이 유사한 복수 개의 집합을 만들어 각각의 집합에서 시각적 단어들(Visual Words)을 생성하고, 복수 개의 시각적 단어들에 기초하여 코드북을 생성할 수 있다.

여기서, 시각적 단어들은 임의의 특징 공간에서 흥미로운 정보의 종류(예를 들어, 색상 변화, 질감 변화 등)를 전달하는 이미지(또는 픽셀의 배열)의 작은 패치(patch)일 수 있다.

추출 장치는 각 레벨에 속한 예제 영상 그룹을 벡터 양자화(Vector Quantization)하고, 벡터 양자화에 기초하여 복수 개의 시각적 단어들을 생성할 수 있다.

실시예에 따라서, 추출 장치는 각 레벨에 속한 예제 영상 그룹을 스파스 코딩(sparse coding)하고, 스파스 코딩에 기초하여 복수 개의 시각적 단어들을 생성할 수 있다.

상술한 단계(110) 및 단계(130)를 통해 생성된 코드북은 데이터베이스 또는 메모리에 저장될 수 있다. 단계(110) 및 단계(130)를 통한 코드북의 생성 과정은 학습을 통해 미리 수행될 수 있으므로 '학습 과정(learning procedure)'으로도 불릴 수 있다. 이하 도 2 내지 도 5을 통해서 코드북의 생성 과정에 대해 구체적으로 설명한다.

도 2는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 구성되는 예제 피라미드의 일 예이다.

도 2를 참조하면, 계층적인 레벨(hierarchical level)을 포함하는 예제 피라미드(example pyramid)가 도시된다.

일실시예에서는, 미리 저장된 예제 영상들을 특징 공간 내에서 거리 별로 분류하여 예제 피라미드를 구성할 수 있다. 이때, 예제 영상들은 다양한 인종, 다양한 성별 및 다양한 연령 대의 사용자 얼굴 영상들을 포함할 수 있다.

추출 장치는 예제 영상들의 특징 벡터를 특징 공간(feature space)으로 투영하고, 특징 공간에서 특징 벡터의 거리 별로 클러스터링하여 예제 영상 그룹을 생성할 수 있다. 추출 장치는 피라미드의 레벨을 조절함으로써 입력 영상에 대하여 상황에 맞도록 특징 벡터를 확장하거나 최적화할 수 있다.

도 2에 도시된 예제 피라미드의 제1 레벨에서는 하나의 예제 영상 그룹(210)이 생성되고, 제2 레벨에서는 두 개의 예제 영상 그룹들(220,230)이 생성되고, 제3 레벨에서는 네 개의 예제 영상 그룹들(240,250,260,270)이 생성될 수 있다.

이때, 제3 레벨에서 생성되는 예제 영상 그룹들은 제2 레벨에서 생성된 예제 영상 그룹들을 일정 기준에 따라 특성 별로 세분화하여 분류한 그룹에 해당할 수 있다.

추출 장치는 제1 레벨의 예제 영상 그룹(210)에 대하여 코드북(215)을 생성하고, 제2 레벨의 예제 영상 그룹들(220, 230)에 대하여 각각 코드북(225) 및 코드북(235)를 생성한다. 추출 장치는 제3 레벨의 예제 영상 그룹들(240,250,260,270)에 대하여 각각 코드북(245), 코드북(255), 코드북(265), 및 코드북(275)를 생성할 수 있다.

일실시예에서는 각각 클러스터링된 예제 영상 그룹마다에 대하여 별도의 코드북이 생성될 수 있다. 코드북들(215, 225, 235, 245, 255, 265, 275)은 각각 복수 개의 시각적 단어들을 포함할 수 있다.

일실시예에서는 입력 영상과 예제 영상들 간의 거리 정보를 특징으로 활용하고, 예제 영상들을 특성 별로 분류하여 코드북을 생성함으로써 입력 영상으로부터 세밀하게 특징을 추출할 수 있다.

도 3은 일실시예에 따른 입력 영상의 특징을 추출하는 방법에서 예제 피라미드를 구성하는 개념을 설명하기 위한 도면이다.

도 3을 참조하면, 복수의 예제 영상들을 포함하는 예제 영상 그룹들(310,330) 및 각 예제 영상 그룹의 앵커 영상(anchor image)(315,335)가 도시된다. 이때 앵커 영상 해당 그룹을 구성하는 중요 요소들의 평균 영상으로, 기술적으로는 복수 개 클러스터(Cluster)의 평균을 나타낸다.

특징 공간에서 예제 영상들은 서로 다른 내적(intra), 외적(extra) 얼굴 변화(facial variations)에 의해 서로 다른 예제 영상 그룹(310,330)으로 클러스터링될 수 있다.

서로 다른 얼굴 영상들은 예제 영상들로부터 측정된 서로 다른 거리를 가진다. 일실시예에서는 이러한 예제 영상들로부터의 서로 다른 거리를 얼굴 영상에 대한 특징으로 이용할 수 있다.

특징 공간에서 예제 영상들 간의 거리는 예를 들어, 여자들의 얼굴 영상끼리 서로 가깝게 나타나고, 남자들의 얼굴 영상끼리 서로 가깝게 나타나므로 여자들의 얼굴 영상끼리 클러스터링되고, 남자들의 얼굴 영상끼리 클러스터링될 수 있다. 각 클러스터에서 앵커 영상(315,335)과 다른 영상들 간의 거리는 각 클러스터에 해당하는 얼굴 영상에 대한 특징으로 이용될 수 있다.

도 4는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에서 코드북을 생성하는 학습 과정(learning procure)을 나타낸 플로우차트이다.

도 4를 참조하면, 일실시예에 따른 추출 장치는 예제 영상들을 미리 정해진 기준에 따라 클러스터링(clustering)하여 계층적인 레벨 별로 예제 영상 그룹을 생성할 수 있다(410).

추출 장치는 각 레벨에 속한 예제 영상 그룹을 벡터 양자화(Vector Quantization)할 수 있다(420).

추출 장치는 단계(420)의 벡터 양자화에 기초하여 복수 개의 시각적 단어들을 생성할 수 있다(430). 실시예에 따라서, 추출 장치는 각 레벨에 속한 예제 영상 그룹을 스파스 코딩(sparse coding)하고, 스파스 코딩에 기초하여 복수 개의 시각적 단어들을 생성할 수도 있다.

추출 장치는 단계(430)에서 생성된 복수 개의 시각적 단어들에 기초하여 코드북을 생성할 수 있다(440). 일실시예에서 생성된 코드북은 아래의 도 5에 도시된 바와 같이 예제 피라미드의 각 레벨 및 각 레벨에 포함된 예제 영상 그룹마다에 대해 생성될 수 있다.

도 5는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 구성된 예제 피리미드 및 예제 피라미드의 각 레벨에 속한 예제 영상 그룹에 대한 코드북을 설명하기 위한 도면이다.

도 5를 참조하면, 3 개의 레벨을 가지는 예제 피라미드가 도시된다.

예제 피라미드의 레벨 1에서 생성된 코드북(C₁)(510)은 예를 들어, 전체 예제 영상들 간의 특징 공간에서의 거리를 평균한 평균 얼굴 영상에 해당할 수 있다.

레벨 2에서, 추출 장치는 레벨 1에서의 예제 영상들 간의 거리를 세분화하여 2개의 예제 영상 그룹들을 생성할 수 있다. 이때, 하나의 예제 영상 그룹은 남자 얼굴로 클러스터링된 예제 영상 그룹이고, 다른 하나는 여자 얼굴로 클러스터링된 예제 영상 그룹일 수 있다.

추출 장치는 남자 얼굴로 클러스터링된 예제 영상 그룹에서 공통되는 특징에 해당하는 복수 개의 시각적 단어들에 의해 코드북(C₂₁)을 생성하고, 여자 얼굴로 클러스터링된 예제 영상 그룹에서 공통되는 특징에 해당하는 복수 개의 시각적 단어들에 의해 코드북(C₂₂)를 생성할 수 있다.

레벨 3에서, 추출 장치는 레벨 2에서 클러스터링된 예제 영상 그룹들을 세분화하여 새로운 4개의 예제 영상 그룹들을 생성할 수 있다.

이때, 2개의 예제 영상 그룹은 레벨 2에서 남자 얼굴로 클러스터링된 예제 영상 그룹에서 세분화된 것이고, 나머지 2개의 예제 영상 그룹은 레벨 2에서 여자 얼굴로 클러스터링된 예제 영상 그룹에서 세분화된 것일 수 있다.

추출 장치는 남자 얼굴로 클러스터링된 예제 영상 그룹에서 예제 영상들 간의 거리를 세분화하여 나이든 남자 얼굴로 클러스터링된 예제 영상 그룹과 젊은 남자 얼굴로 클러스터링된 예제 영상 그룹을 생성할 수 있다.

추출 장치는 나이든 남자 얼굴로 클러스터링된 예제 영상 그룹에서 코드북(C₃₁)을 생성하고, 젊은 남자 얼굴로 클러스터링된 예제 영상 그룹에서 코드북(C₃₂)를 생성할 수 있다.

추출 장치는 여자 얼굴로 클러스터링된 예제 영상 그룹에서 예제 영상들 간의 거리를 세분화하여 나이든 여자 얼굴로 클러스터링된 예제 영상 그룹과 젊은 여자 얼굴로 클러스터링된 예제 영상 그룹을 생성할 수 있다.

추출 장치는 나이든 여자 얼굴로 클러스터링된 예제 영상 그룹에서 코드북(C₃₃)을 생성하고, 젊은 여자 얼굴로 클러스터링된 예제 영상 그룹에서 코드북(C₃₄)를 생성할 수 있다.

일실시예에서, 예제 피라미드의 레벨이 증가할수록 각 레벨에서 생성된 예제 영상 그룹들은 예를 들어, 남자와 여자, 백인과 흑인, 늙은이와 젊은이 등과 같이 뚜렷한 특성을 나타낼 수 있다. 즉, 예제 피라미드의 계층적인 레벨이 증가할수록(피라미드의 아래쪽으로 내려갈수록), 예제 영상 그룹들은 보다 뚜렷한 특성을 나타내므로 예제 피라미드의 계층적인 레벨을 조절함으로써 원하는 특징을 확장 또는 최적화하여 추출할 수 있다.

도 6은 일실시예에 따른 입력 영상의 특징을 추출하는 방법을 나타낸 플로우 차트이다.

도 6을 참조하면, 일실시예에 따른 추출 장치는 입력 영상과 코드북 간의 유사도를 산출한다(610).

추출 장치는 특징 공간에서 입력 영상과 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 측정하고, 측정된 거리에 기초하여 유사도를 산출할 수 있다. 추출 장치는 예를 들어, 유클리디안 거리(Euclidean distance) 공식인 L2 Distance를 이용하여 특징 공간(feature space)에서 입력 영상과 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 측정할 수 있다.

추출 장치는 입력 영상으로부터 추출된 특징에 기반하여 특징 공간(feature space)에 투영된 복수 개의 시각적 단어들과 입력 영상 간의 거리(distance)를 측정할 수 있다.

추출 장치는, 단계(610)에서 산출된 유사도에 기초하여 입력 영상의 특징을 추출한다(630). 추출 장치는 산출된 유사도에 대한 확률 값의 분포를 기초로, 입력 영상의 특징을 추출하거나, 확률 값의 분포에 대하여 가중치를 부여한 결과에 기초하여 입력 영상의 특징을 추출할 수 있다. 단계(610) 및 단계(630)의 과정을 '특징 추출 과정(feature extraction procedure)'이라 부를 수 있다.

도 7은 일실시예에 따른 입력 영상의 특징을 추출하는 방법에서 입력 영상의 특징을 추출하는 특징 추출 과정(feature extraction procedure)을 나타낸 플로우차트다.

도 7을 참조하면, 일실시예에 따른 추출 장치는 특징 공간에서 입력 영상과 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 산출할 수 있다(710). 코드북은 각 레벨에 속한 예제 영상 그룹들에 대한 것으로서 단수 또는 복수 개일 수 있다. 추출 장치는 단계(710)에서 산출된 거리에 기초하여 입력 영상과 코드북 간의 유사도를 산출할 수 있다. 이때, 추출 장치는 단계(710)에서 산출된 유사도에 대한 확률 값의 분포를 기초로, 입력 영상의 특징을 추출할 수 있다.

유사도에 대한 확률 값의 분포(

)는 아래의 <수학식 1>과 같이 나타낼 수 있다.

여기서,

는 가중치를 나타내고,

는 입력 영상을,

는 예제 영상을,

는 예제 영상들의 총합을 나타낸다.

추출 장치는 입력 영상에 대한 정규화 후에 단계(710)에서 산출된 입력 영상과 시각적 단어들 간의 거리를 결합(concatenate)할 수 있다(720).

추출 장치는 로컬 스무스 스파시티(local smooth sparsity)를 위해 단계(720)에서 결합된 하나의 특징의 요소들이 인식 결과에 미치는 영향을 분석하여 산출된 거리 기반 특징(값)을 인식 중요도에 따라서 재조정할 수 있다.

일실시예에 따른 추출 장치가 거리 기반 특징을 인식 중요도에 따라서 재조정한 결과는 도 8의 그래프를 참고할 수 있다.

실시예에 따라서, 추출 장치는 단계(710)에서 산출된 유사도에 대한 확률 값의 분포를 기초로, LLC(Local-constgrained Linear Coding)와 같은 서로 같지 않은(dissimilar) 코드북 응답을 차단(cut-off)하여 입력 영상의 특징을 추출할 수 있다.

또한, 추출 장치는 로컬 스무스니스(local smoothness)를 위해 확률 값의 분포에 대하여 가중치를 부여한 후, 입력 영상의 특징을 추출할 수도 있다. 이후, 추출 장치는 Support Vector Machine(SVM)과 같은 인식기를 이용하여 얼굴 인식을 수행할 수 있다.

도 8은 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 거리 기반 특징을 인식 중요도에 따라서 재조정한 결과를 나타낸 그래프이다.

도 8을 참조하면, 베타(beta) 값에 따른 특징 요소 값의 재조정 결과가 도시된다. 도 8의 그래프에서, x 축은 베타 값을 나타내고, y축은 y = function(x)를 나타낸다. 여기서, function(x)는 exp(-beta*x.^2)으로서, 해당 함수는 거리 값(distance value)을 확률값으로 보정 해주고, 그 값의 범위(range) 및 변화율을 보정해 준다. 여기서, 베타 값은 값 변화를 보정해 주는 파라미터이다.

또한, x 입력은 예제 영상과 입력 영상 간의 거리 값이고, y 출력은 거리 값 변화를 beta값에 따라서 보정해 준 결과값이다.

일실시예에 따른 추출 장치는 베타 값이 크면 매우 가까운 거리에 있는 특징 요소(element)를 증폭시키고, 멀리 있는 특징 요소는 거의 0에 가깝게 된다. 하지만, 베타 값이 작을 경우 이에 반대가 된다.

도 8에서 x 값이 작은 경우는 특징 요소가 매우 가까운 거리에 있는 경우를 나타내고, x 값이 큰 경우는 특징 요소가 멀리 있는 경우를 나타낸다.

도 9는 일실시예에 따른 입력 영상의 특징을 추출하는 방법에 따라 입력 영상과 코드북 간의 유사도를 산출하는 방법을 설명하기 위한 도면이다.

도 9를 참조하면, 하나의 입력 영상(910)과 각 레벨에 속한 예제 영상 그룹들에 대한 7개의 코드북들(920, 930, 940, 950, 960, 970, 980)이 도시된다.

7개의 코드북들(920, 930, 940, 950, 960, 970, 980)은 각각 5개씩의 서로 다른 시각적 단어들로 구성되며, 추출 장치는 입력 영상과 7개의 코드북 각각에 포함된 5개의 시각적 단어들과의 거리를 산출할 수 있다.

추출 장치는 입력 영상의 정규화 이후에, 입력 영상과 7개의 코드북의 시각적 단어들 간의 거리를 단일 특징(single feature)으로 모두 결합(concatenate)할 수 있다.

도 10은 일실시예에 따른 얼굴 인식 장치의 블록도이다.

도 10을 참조하면, 일실시예에 따른 추출 장치(1000)는 얼굴 추출부(1010), 정규화부(1020), 특징 추출부(1030), 및 인식부(1040)를 포함한다. 또한, 추출 장치(1000)는 코드북 생성부(1050)를 더 포함할 수 있다.

얼굴 추출부(1010)는 입력 영상으로부터 얼굴 영역을 추출한다.

정규화부(1020)는 얼굴 추출부(1010)에서 추출된 얼굴 영역에 대한 정규화(normalization)를 수행한다.

특징 추출부(1030)는 정규화부(1020)에서 정규화된 얼굴 영역과 미리 저장된 코드북을 이용하여 입력 영상의 특징을 추출한다. 이때, 코드북은 미리 저장된 예제 영상들에 기초하여 구성된 예제 피라미드(example pyramid)의 각 레벨에 속한 예제 영상 그룹에 기반한 것이다.

코드북은 코드북 생성부(1050) 등에 미리 저장될 수 있다.

특징 추출부(1030)는 정규화된 얼굴 영역과 코드북 간의 유사도를 산출하고, 산출된 유사도에 기초하여 입력 영상의 특징을 추출할 수 있다.

특징 추출부(1030)는 특징 공간에서 정규화된 얼굴 영역과 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 측정하고, 측정된 거리에 기초하여 유사도를 산출할 수 있다.

특징 추출부(1030)는 산출된 유사도에 대한 확률 값의 분포에 대하여 가중치를 부여하고, 가중치에 기초하여 입력 영상의 특징을 추출할 수 있다.

인식부(1040)는 특징 추출부(1030)에서 추출된 특징을 기초로, 얼굴을 인식한다.

인식부(1040)는 특징 추출부(1030)에서 추출된 특징을 기초로, 분류기(Classifier)를 이용하여 얼굴을 인식할 수 있다.

코드북 생성부(1050)는 미리 저장된 예제 영상들에 기초하여, 하나 이상의 계층적인 레벨(hierarchical level)을 포함하는 예제 피라미드(example pyramid)를 구성할 수 있다. 코드북 생성부(1050)는 각 레벨에 속한 예제 영상 그룹에 대한 코드북(codebook)을 생성할 수 있다.

코드북 생성부(1050)는 예제 영상들의 특징 벡터를 특징 공간(feature space)으로 투영하고, 예제 영상들의 특징 벡터를 특징 공간에서의 거리 별로 클러스터링하여 계층적인 레벨 별로 예제 영상 그룹을 생성할 수 있다. 코드북 생성부(1050)는 예제 영상 그룹을 이용하여 예제 피라미드를 구성할 수 있다.

코드북 생성부(1050)는 각 레벨에 속한 예제 영상 그룹을 기초로 복수 개의 시각적 단어들(Visual Words)을 생성하고, 복수 개의 시각적 단어들에 기초하여 코드북을 생성할 수 있다.

코드북 생성부(1050)는 레벨에 속한 예제 영상 그룹을 벡터 양자화(Vector Quantization)하고, 벡터 양자화에 기초하여 복수 개의 시각적 단어들을 생성할 수 있다.

발명의 일실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

1000: 추출 장치
1010: 얼굴 추출부
1020: 정규화부
1030: 특징 추출부
1040: 인식부
1050: 코드북 생성부

Claims

추출 장치에서 수행되는 입력 영상의 특징을 추출하는 방법에 있어서,
미리 저장된 예제 영상들에 기초하여, 둘 이상의 계층적인 레벨들(hierarchical levels)을 포함하는 예제 피라미드(example pyramid)를 구성하는 단계;
상기 둘 이상의 계층적인 레벨들 각각에 속한 예제 영상 그룹마다 코드북(codebook)을 생성하는 단계;
입력 영상과 상기 생성된 코드북 간 유사도를 상기 둘 이상의 계층적인 레벨들 각각에 속한 예제 영상 그룹마다 산출하는 단계; 및
상기 산출된 유사도에 기초하여, 상기 예제 피라미드의 계층적인 레벨에 따른 단계적 특성에 따라 상기 입력 영상의 특징을 추출하는 단계
를 포함하고,
상기 예제 피라미드의 상기 둘 이상의 계층적인 레벨들 중에서 하위 레벨은 상위 레벨의 예제 영상 그룹에 속한 예제 영상들을 특성 별로 세분화하여 분류한 복수의 예제 영상 그룹들을 포함하는, 입력 영상의 특징을 추출하는 방법.
제1항에 있어서,
상기 예제 피라미드를 구성하는 단계는,
상기 예제 영상들을 미리 정해진 기준에 따라 클러스터링(clustering)하여 계층적인 레벨들 별로 예제 영상 그룹을 생성하는 단계; 및
상기 예제 영상 그룹을 이용하여 상기 예제 피라미드를 구성하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제2항에 있어서,
상기 예제 영상 그룹을 생성하는 단계는,
상기 예제 영상들의 특징 벡터를 특징 공간(feature space)으로 투영하는 단계; 및
상기 예제 영상들의 특징 벡터를 상기 특징 공간에서의 거리 별로 클러스터링하여 상기 계층적인 레벨들 별로 상기 예제 영상 그룹을 생성하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제1항에 있어서,
상기 코드북을 생성하는 단계는,
상기 레벨들 각각에 속한 예제 영상 그룹을 기초로 복수 개의 시각적 단어들(Visual Words)을 생성하는 단계; 및
상기 복수 개의 시각적 단어들에 기초하여 상기 코드북을 생성하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제4항에 있어서,
상기 복수 개의 시각적 단어들을 생성하는 단계는,
상기 레벨들 각각에 속한 예제 영상 그룹을 벡터 양자화(Vector Quantization)하는 단계; 및
상기 벡터 양자화에 기초하여 상기 복수 개의 시각적 단어들을 생성하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제4항에 있어서,
상기 복수 개의 시각적 단어들을 생성하는 단계는,
상기 레벨들 각각에 속한 예제 영상 그룹을 스파스 코딩(sparse coding)하는 단계; 및
상기 스파스 코딩에 기초하여 상기 복수 개의 시각적 단어들을 생성하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제1항에 있어서,
상기 입력 영상과 상기 코드북 간의 유사도를 산출하는 단계는,
특징 공간에서 상기 입력 영상과 상기 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 측정하는 단계; 및
상기 측정된 거리에 기초하여 상기 유사도를 산출하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제7항에 있어서,
상기 측정된 거리를 결합(concatenate)하는 단계
를 더 포함하는, 입력 영상의 특징을 추출하는 방법.
제1항에 있어서,
상기 입력 영상의 특징을 추출하는 단계는,
상기 산출된 유사도에 대한 확률 값의 분포를 기초로, 상기 입력 영상의 특징을 추출하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제9항에 있어서,
상기 입력 영상의 특징을 추출하는 단계는,
상기 확률 값의 분포에 대하여 가중치를 부여하는 단계; 및
상기 가중치에 기초하여 상기 입력 영상의 특징을 추출하는 단계
를 포함하는, 입력 영상의 특징을 추출하는 방법.
제1항 내지 제10항 중 어느 한 항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
얼굴을 인식하는 장치에 있어서,
입력 영상으로부터 얼굴 영역을 추출하는 얼굴 추출부;
상기 얼굴 영역에 대한 정규화(normalization)를 수행하는 정규화부;
상기 정규화된 얼굴 영역과 미리 저장된 각 코드북- 상기 각 코드북은 미리 저장된 예제 영상들에 기초하여 구성된 예제 피라미드(example pyramid)의 둘 이상의 계층적인 레벨들 각각에 속한 예제 영상 그룹마다 생성된 것임- 을 이용하여 상기 입력 영상의 특징을 추출하는 특징 추출부; 및
상기 추출된 특징을 기초로, 얼굴을 인식하는 인식부
를 포함하고,
상기 예제 피라미드의 상기 둘 이상의 계층적인 레벨들 중에서 하위 레벨은 상위 레벨의 예제 영상 그룹에 속한 예제 영상들을 특성 별로 세분화하여 분류한 복수의 예제 영상 그룹들을 포함하고,
상기 특징 추출부는,
상기 정규화된 얼굴 영역과 상기 각 코드북 간의 유사도를 상기 둘 이상의 계층적인 레벨들 각각에 속한 예제 영상 그룹마다 산출하고, 상기 산출된 유사도에 기초하여 상기 예제 피라미드의 계층적인 레벨에 따른 단계적 특성에 따라 상기 입력 영상의 특징을 추출하는, 얼굴을 인식하는 장치.
삭제
제12항에 있어서,
상기 특징 추출부는,
특징 공간에서 상기 정규화된 얼굴 영역과 상기 각 코드북에 포함된 복수 개의 시각적 단어들 간의 거리를 측정하고, 상기 측정된 거리에 기초하여 상기 유사도를 산출하는, 얼굴을 인식하는 장치.
제14항에 있어서,
상기 특징 추출부는,
상기 산출된 유사도에 대한 확률 값의 분포에 대하여 가중치를 부여하고, 상기 가중치에 기초하여 상기 입력 영상의 특징을 추출하는, 얼굴을 인식하는 장치.
제12항에 있어서,
상기 인식부는,
상기 추출된 특징을 기초로, 분류기(Classifier)를 이용하여 상기 얼굴을 인식하는, 얼굴을 인식하는 장치.
제12항에 있어서,
미리 저장된 예제 영상들에 기초하여, 둘 이상의 계층적인 레벨들(hierarchical levels)을 포함하는 예제 피라미드(example pyramid)를 구성하고, 상기 둘 이상의 계층적인 레벨들 각각에 속한 예제 영상 그룹에 대한 상기 코드북(codebook)을 생성하는 코드북 생성부
를 더 포함하는, 얼굴을 인식하는 장치.
제17항에 있어서,
상기 코드북 생성부는,
상기 예제 영상들의 특징 벡터를 특징 공간(feature space)으로 투영하고, 상기 예제 영상들의 특징 벡터를 상기 특징 공간에서의 거리 별로 클러스터링하여 상기 계층적인 레벨들 별로 상기 예제 영상 그룹을 생성하며, 상기 예제 영상 그룹을 이용하여 상기 예제 피라미드를 구성하는, 얼굴을 인식하는 장치.
제17항에 있어서,
상기 코드북 생성부는,
상기 레벨들 각각에 속한 예제 영상 그룹을 기초로 복수 개의 시각적 단어들(Visual Words)을 생성하고, 상기 복수 개의 시각적 단어들에 기초하여 상기 코드북을 생성하는, 얼굴을 인식하는 장치.
제19항에 있어서,
상기 코드북 생성부는,
상기 레벨들 각각에 속한 예제 영상 그룹을 벡터 양자화(Vector Quantization)하고, 상기 벡터 양자화에 기초하여 상기 복수 개의 시각적 단어들을 생성하는, 얼굴을 인식하는 장치.