KR20160073427A

KR20160073427A - 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템

Info

Publication number: KR20160073427A
Application number: KR1020167015434A
Authority: KR
Inventors: 시아오우 탕; 쩐야오 쭈; 핑 루; 시아오강 왕
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2013-11-30
Filing date: 2013-11-30
Publication date: 2016-06-24
Also published as: EP3074926A4; JP6127219B2; CN105981050A; US9710697B2; JP2016538671A; EP3074926A1; KR101721062B1; HK1223717A1; US20170004353A1; HK1223716A1; CN105981050B; WO2015078017A1

Abstract

본 발명은 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템을 개시하였다. 상기 시스템은, 얼굴 이미지들의 데이터를 제1 크기(a first dimension)를 가지는 제1 복수 채널들의 특징 맵들로 필터링하고, 특징 맵들을 제2 크기(a second dimension)의 특징 맵들로 다운 샘플링하도록 구성된 제1 특징 추출 유닛과, 제2 크기의 특징 맵을 제2 크기를 가지는 제2 복수 채널들의 특징 맵들로 필터링하고, 제2 복수 채널들의 특징 맵들을 제3 크기(a third dimension)의 특징 맵들로 다운 샘플링하도록 구성된 제2 특징 추출 유닛과, 얼굴 영역 외부에 위치한 고응답(high responses)을 더 감소하도록 제3 크기(the third dimension)의 특징 맵들을 필터링함으로써 얼굴 이미지들의 신원들(identities) 사이의 식별력을 유지하는 동시에 얼굴 이미지들의 신원내(intra-identiry) 차이들을 감소하도록 구성된 제3 특징 추출 유닛을 포함할 수 있다.

Description

얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템{METHOD AND SYSTEM FOR EXACTING FACE FEATURES FROM DATA OF FACE IMAGES}

본 출원은 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템에 관한 것이다.

많은 실용 어플리케이션에서, 포즈 및 조명 변화는 얼굴 인식에 있어서 병목현상이 되고 있다. 기존의 많은 작업들이 이러한 변화를 해결하기 위하여 제안되었다. 포즈-불변(pose-invariant) 방법은 일반적으로 2D-기반과 3D-기반의 2가지 유형으로 나뉠 수 있다. 첫번째 유형에서는 2D-이미지를 매칭하거나 몇 가지 기저(bases) 또는 표본(exemplars)을 사용하여 테스트 이미지를 인코딩하는 방법에 의하여 포즈(poses)를 처리할 수 있다. 예를 들어, 종래 기술로서 스트레오 매칭 기법은 두 얼굴의 유사성을 계산하고, 트레이닝 이미지의 테스트 얼굴 조합을 표시한 다음, 선형 회귀 계수(linear regression coefficient)들을 얼굴 인식의 특징으로서 사용한다. 3D-기반 방법은 보통 3D 얼굴 데이터를 캡쳐하거나 2D 입력 데이터로부터 3D 모델을 추정하고, 추정된 3D 모델을 2D 프로브 얼굴 이미지(probe face image)와 매치를 시도한다. 이러한 방법은 프로브 얼굴(probe face)의 어느 뷰에서든 합성할 수 있게 하고, 포즈 변화에 보다 강인하게 한다.

조명-불변(illumination-invariant) 방법은 전형적으로 조명이 어떻게 얼굴 이미지에 영향을 주는 자에 대한 가정을 세우고, 이 가정을 이용하여 조명 효과를 모델링 하고 조명 효과를 제거한다. 예를 들어, 이 기술 분야에서, 몇몇 조명 환경(a few illuminations) 하에서 갤러리 내 각 물체 이미지를 캡쳐하는 프로젝터-기반(projector-based) 시스템이 설계되었다. 상기 몇몇 조명 환경을 선형 조합하여 임의의 조명 환경 하에서의 이미지를 생성할 수 있다. 이러한 증강 갤러리(augmented gallery)를 이용하여 약간의 코딩(sparse coding)으로 얼굴 인식을 수행한다.

위 방법들은 일정한 한계가 존재한다. 예컨대, 3D 데이터를 캡쳐하는 것은 추가 비용과 자원을 필요로 한다. 2D 데이터로부터 3D 모델을 추론하는 것은 불량 조건 문제(an ill-posed problem)를 야기한다. 통계적 조명 모델은 종종 제한된 환경에서만 적용되므로 실용 어플리케이션에서는 쉽게 일반화할 수 없는 문제가 있다.

본 발명은 상기와 같은 문제를 해결하기 위하여 제안된 것으로, 본 발명의 목적은 포즈와 조명 변화에 대하여 견고한 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템을 제공하는 데 목적이 있다.

일 방면에 있어서, 본 출원은 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법을 제공하며, 상기 방법은,

1) 얼굴 이미지들의 데이터를 제1 크기(a first dimension)를 가지는 제1 복수 채널들의 특징 맵들(feature maps)로 필터링하는 단계;

2) 상기 특징 맵들 중의 각 특징 맵을 규칙

에 따라 계산(computing)하되, 여기서 x는 상기 제1 크기(the first dimension)를 가지는 특징 맵들을 표시하는 단계;

3) 상기 계산된(computed) 특징 맵들을 제2 크기(a second dimension)의 특징 맵으로 다운 샘플링하는(down-sampling) 단계;

4) 상기 다운 샘플링된 특징 맵들(the down-sampled maps)을 제2 크기를 가지는 제2 복수 채널들의 특징 맵들로 필터링하는 단계;

5) 상기 제2 크기를 가지는 특징 맵들 중의 각 특징 맵을 규칙

에 따라 계산(computing)하되, 여기서 x는 상기 제2 복수 채널들의 특징 맵들을 표시하는 단계;

6) 상기 계산된(computed) 제2 복수 채널들의 특징 맵들을 제3 크기(a third dimension)의 특징 맵들로 다운 샘플링하는 단계; 및

7) 얼굴 영역 외부의 고응답(high responses)을 감소하도록 상기 제3 크기(the third dimension)의 특징 맵들 중의 각 특징 맵을 필터링함으로써 상기 얼굴 이미지들의 신원내(intra-identity) 차이들을 감소하고 상기 얼굴 이미지들의 신원들(identities) 사이의 식별력(discrimination)을 유지하는 단계;를 포함한다.

다른 한 방면에 있어서, 본 출원은 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템을 제공하며, 상기 시스템은,

상기 얼굴 이미지들의 데이터를 제1 크기(a first dimension)를 가지는 제1 복수 채널들의 특징 맵들로 필터링하고, 상기 특징 맵들을 제2 크기(a second dimension)의 특징 맵들로 다운 샘플링하도록 구성된 제1 특징 추출 유닛;

상기 제2 크기의 특징 맵을 제2 크기를 가지는 제2 복수 채널들의 특징 맵들로 필터링하고, 상기 제2 복수 채널들의 특징 맵들을 제3 크기의 특징 맵들로 다운 샘플링하도록 구성된 제2 특징 추출 유닛; 및

얼굴 영역 외부의 고응답(high responses)을 더 감소하도록 상기 제3 크기의 특징 맵들을 필터링함으로써 상기 얼굴 이미지들의 신원들 사이의 식별력을 유지하는 동시에 상기 얼굴 이미지들의 신원내 차이들을 감소하도록 구성된 제3 특징 추출 유닛;을 포함한다.

일 실시예에 있어서, 상기 방법은 컴퓨터 중의 하나 또는 복수의 프로세서로 실행되거나 실시될 수 있다.

일 실시예에 있어서, 제1 특징 추출 유닛은 제1 행렬의 필터들, 제1 비선형 활성화 유닛 및 제1 행렬의 다운 샘플링 유닛들을 포함한다. 제1 행렬의 필터들은 상기 제1 복수 채녈의 특징 맵들 중의 각 특징 맵이 주로 상기 얼굴 이미지들의 포즈 정보를 캡쳐하는 상기 얼굴 영역 외부의 대량의 고응답과 상기 얼굴 이미지들의 얼굴 구조들을 캡쳐하는 상기 얼굴 영역 내부의 복수의 고응답을 구비하도록 상기 얼굴 이미지들의 데이터를 필터링하도록 구성된다. 제1 행렬의 다운 샘플링 유닛들은 상기 제1 복수 채널들의 특징 맵들을 제2 크기의 특징 맵들로 다운 샘플링하도록 구성된다. 제1 비선형 활성화 유닛은 상기 제1 행렬의 필터들(11)과 상기 제1 행렬의 다운 샘플링 유닛들을 비선형적으로 연결하도록 구성된다.

다른 실시예에 있어서, 제2 특징 추출 유닛은 제2 행렬의 필터들(21)을 포함한다. 제2 행렬의 필터들은 상기 얼굴 영역 외부의 고응답을 감소하도록 상기 제1 특징 추출 유닛으로부터 제공받은 상기 특징 맵들 중의 각 특징 맵을 필터링함으로써 상기 얼굴 이미지들의 상기 얼굴 구조들을 유지하는 동시에 대부분의 포즈 변화들을 폐기하도록 구성된다. 제2 특징 추출 유닛은 제2 비선형 활성화 유닛과, 상기 특징 맵들을 제2 크기의 특징 맵들로 다운 샘플링하도록 구성된 제2 행렬의 다운 샘플링 유닛들을 더 포함하되, 상기 제2 비선형 활성화 유닛은 상기 제2 행렬의 필터들과 상기 제2 행렬의 다운 샘플링 유닛들을 비선형적으로 연결하도록 구성된다.

다른 방면에 있어서, 본 출원은 컴퓨터 판독 가능한 매체를 제공하며, 상기 컴퓨터 판독 가능한 매체는

1) 얼굴 이미지들의 데이터를 제1 크기(a first dimension)를 가지는 제1 복수 채널들의 특징 맵들로 필터링하기 위한 명령어와,

2) 상기 특징 맵들 중의 각 특징 맵을 규칙

에 따라 계산(computing)하되, 여기서 x는 상기 제1 크기(the first dimension)를 가지는 특징 맵들을 표시하기 위한 명령어와,

3) 상기 계산된(computed) 특징 맵들을 제2 크기의 특징 맵으로 다운 샘플링하기 위한 명령어와,

4) 상기 다운 샘플링된 특징 맵들을 제2 크기(a second dimension)를 가지는 제2 복수 채널들의 특징 맵들로 필터링하기 위한 명령어와,

5) 상기 제2 크기(the second dimension)를 가지는 특징 맵들 중의 각 특징 맵을 규칙

에 따라 계산(computing)하되, 여기서 x는 상기 제2 복수 채널들의 특징 맵들을 표시하기 위한 명령어와,

6) 상기 계산된(computed) 제2 복수 채널들의 특징 맵들을 제3 크기의 특징 맵들로 다운 샘플링하기 위한 명령어와,

7) 얼굴 영역 외부의 고응답을 감소하도록 상기 제3 크기의 특징 맵들 중의 각 특징 맵을 필터링함으로써 상기 얼굴 이미지들의 신원내 차이들을 감소하고 상기 얼굴 이미지들의 신원들 사이의 식별력을 유지하기 위한 명령어를 저장한다.

본 발명에 따른 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템은 포즈와 조명의 변화에 대하여 견고한 특징 강조 불변성(feature-intensity-invariant)을 가진 선형함수를 이용하여 얼굴 특징을 적절히 추출하여 얼굴 인식율을 높일 수 있는 효과가 있다.

도 1은 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 과정의 흐름도를 도시한다.
도 2는 본 출원의 실시예에 따른 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템의 체계구조를 도시한다.
도 3은 본 출원의 실시예에 따른 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 예시적 시스템의 블록도를 도시한다.
도 4는 본 출원의 일 실시예에 따른 가중치의 파라미터를 트레이닝하는 흐름을 도시한다.

이하, 첨부한 도면에 도시된 예시적 실시예들을 참조하여 상세한 설명을 진행하기로 한다. 도면 전체에 걸쳐, 동일한 참조 부호는 적절할 경우 동일하거나 유사한 부분을 지칭한다.

도 1은 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 과정(100)의 흐름도를 도시한다. 과정(100)에서, 임의의 포즈와 조명 변화를 구비한 일 신원(identity)의 얼굴 이미지를 입력으로 이용하고, 해당 신원(identity)의 규범화된 시각으로 얼굴을 재구성하여 타킷으로 사용한다(도 2를 참조). 먼저, 입력된 이미지는 교대로 적층된(stacked alternately) 세개의 국부적 연결층(locally connected layers)과 두개의 풀링 층(pooling layers)을 구비하는 특징 추출층(feature extraction layers)을 통하여 인코딩된다. 여기서, 각 층은 아래에서 후술하기로 한다. 각 층은 서로 다른 스케일로 얼굴 특징을 캡쳐한다. 제1 국부적 연결층은 제1 복수(예를 들어, 32개)의 특징 맵을 출력한다. 각 맵은 주로 포즈 정보(pose information)를 캡쳐하는 얼굴 영역 외부의 대량의 고응답(high responses)과, 얼굴 구조를 캡쳐하는 얼굴 영역 내부의 몇몇 고응답을 구비한다. 제2 국부적 연결층에서 출력된 특징 맵에 있어서, 얼굴 영역 외부의 고응답이 현저히 저감되었다. 이는 제2 국부적 연결층에서 출력된 특징 맵이 얼굴 구조를 유지하는 동시에 대부분의 포즈 변화를 폐기하였음을 의미한다. 제3 국부적 연결층은 희박하고 신원특징이 보류된 FIP 특징을 출력한다. FIP 특징은 규범화된 시각으로 얼굴 이미지를 회복하도록 사용될 수 있다.

일 실시예에 있어서, 과정(100)은 얼굴 이미지의 데이터를 제1 크기(a first dimension)를 가지는 제1 다수 채널의 특징 맵으로 필터링하는 단계(s101)를 포함한다. 이어서,

으로 각 맵을 계산(computing)하되, 여기서 x는 제2 크기의 각 특징 맵들을 표시한다. 계산된(computed) 맵은 제2 크기의 특징 맵으로 더 다운 샘플링된다. 본 단계에서, 얼굴 이미지의 데이터가 필터링될 경우, 각 맵은 1) 주로 얼굴 이미지의 포즈 정보를 캡쳐하는 얼굴 영역 외부의 대량의 고응답과 2) 얼굴 이미지의 얼굴 구조를 캡쳐하는 얼굴 영역 내부의 복수의 고응답을 구비한다.

예를 들어,

는 임의의 포즈와 조명하에서 오리지널 크기(예를 들어, 96 X 96)을 가지는 얼굴 이미지의 데이터 행렬을 표시한다. 아래 내용은 설명의 편의를 위하여 오리지널 크기인 96 X 96을 기초로 설명을 진행하기로 한다. 데이터 행렬

의 오리지널 크기는 32개 채널의 특징 맵으로 필터링될 수 있다.

일 실시예에서, 32개 서브 행렬을 포함하는 가중치 행렬

을 통하여

를 32개 특징 맵/채널로 변환하되, 여기서,

이고,

은 데이터 행렬의 오리지널 크기, 즉,

=96을 표시한다.

각 서브 행렬은 이미지 데이터의 국부적 연결 구조를 유지하기에는 희박하다. 직관적으로 볼 때, 서브 행렬 중의 각 행

은 중심이

의 화소의 작은 필터를 표시하므로 상기 필터에 속하는 요소를 제외한 상기 행 중의 모든 요소들은 0이다. 특히,

의 가중치는 공유되지 않고, 이러한 행들의 0이 아닌 값들도 서로 다르다. 따라서, 가중치 행렬

은 32개 특징 맵

을 생성하고, 각 특징 맵은

크기를 가진다.

이어서, 학습하여야 할 파라미터의 수량을 감소하고 더욱 탄탄한 특징들을 획득하기 위하여, 행렬

(여기서,

)를 이용하여 이러한 특징 맵들 중의 각각을 48 X 48특징들로 다운 샘플링한다.

의 각

는 아래와 같이 계산된다(computed).

(1)

여기서,

은 특징강도가 불변(feature-intensity-invariant)하는 보강된 선형 함수이다. 따라서, 이는 형태와 조명 변화에 대해 탄탄하다.

는 모든

를 함께 결부시켜 획득할 수 있고, 이로써

크기의 큰 특징 맵을 획득할 수 있다.

일 실시예에 있어서, 단계 s101전에, 과정(100)은 규칙

에 따라 얼굴 이미지들의 데이터를 비선형적으로 활성화할 수 있으며, 여기서 x는 각 얼굴 이미지들의 데이터를 표시한다. 다른 일 실시예에 있어서, 단계 s101전에 얼굴 이미지를 그레이 레벨(gray level) 이미지로 전환할 수 있다.

단계 s102에서, 계산된(computed) 각 맵을 제2 크기(a second dimension)를 가지는 제2 복수 채널들의 특징 맵으로 더 필터링하고, 필터링된 각 맵을

으로 더 계산(computing)하며, 여기서 x는 제2 크기(a second dimension)의 각 특징 맵들을 표시한다. 이어서, 상기 맵은 제3 크기(a third dimension)의 특징 맵으로 더 다운 샘플링된다.

구체적으로, 각

는 32개 서브 행렬

을 이용하여

로 필터링되며,

(2)

여기서,

는

를 이용하여

크기로 다운 샘플링된다. 수학식 (2)는 제1 층 중의 작은 특징 맵 각각에 32개 서브 행렬을 곱한 다음 전체를 합계함을 의미하되, 여기서 각 서브 행렬은 위에서 설명한 바와 같은 희박한 구성을 구비한다. 수학식 (2)는 아래와 같은 수학식을 이용하여 행렬 형식으로 재구현될 수 있다,

(3)

여기서,

이고

이다. .

는

을 32번 반복함으로써 간단하게 획득할 수 있다. 따라서,

는

의 크기를 가진다.

단계 s103에서, 과정(100)은 얼굴 영역 외부의 고응답을 감소하도록 단계 s102에서 획득한 제3 크기(the third dimension)의 특징 맵들 중의 각 맵을 필터링함으로써 얼굴 이미지들의 신원내 차이를 감소하고 얼굴 이미지들의 신원들 사이의 식별력을 유지한다. 본 개시에서, 획득한 얼굴 특징은 얼굴 신원 보류(face identity-preserving; FIP)특징이라고도 지칭된다.

일 실시예에 있어서, 단계 s104에서, 과정(100)은 단계 s102로부터 제공받은 각 맵을 가중하고, 가중된 맵을 포즈와 조명 변화가 없는 정면 얼굴 이미지로 변환한다.

구체적으로,

는

(즉, FIP 특징）로 변환되고,

와

는 같은 크기를 가지며,

(4) 이며,

여기서,

이고

이다.

이어서, 단계 s106에서, 과정(100)은 가중치 행렬

을 통하여 FIP특징

을 정면 얼굴 이미지

로 변환한다.

(5)

이상, 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법을 설명하였다. 이하, 도 2와 도 3을 참조하여 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템을 설명하기로 한다. 도 2는 본 출원의 실시예에 따른 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템(200)의 체계구조를 도시하고, 도 3은 본 출원의 실시예에 따른 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 예시적 시스템(200)의 블록도를 도시한다.

도 2에 도시된 것과 같이, 시스템(200)은 특징 추출층과 특징들을 포함한다. 전술한 바와 같이, 일 신원의 임의의 포즈와 조명 변화를 구비한 얼굴 이미지를 시스템(200)의 입력으로 이용한다. 시스템(200)은 해당 신원의 규범화된 시각으로 얼굴을 제구성하여 타깃으로 사용한다. 먼저, 입력된 이미지은 교대로 적층된 세개의 국부적 연결층(locally connected layers)과 두개의 풀링 층(pooling layers)을 구비하는 특징 추출층(feature extraction layers)을 통하여 인코딩한다. 각 층은 서로 다른 스케일로 얼굴 특징을 캡쳐한다. 제1 국부적 연결층은 제1 복수(예를 들어, 32개)의 특징 맵을 출력한다. 각 맵은 주로 포즈 정보를 캡쳐하는 얼굴 영역 외부의 대량의 고응답과, 얼굴 구조를 캡쳐하는 얼굴 영역 내부의 몇몇 고응답을 구비한다. 제2 국부적 연결층이 출력한 특징 맵에 있어서, 얼굴 영역 외부의 고응답이 현저히 저감되었다. 이는 제2 국부적 연결층에서 출력된 특징 맵이 얼굴 구조를 유지하는 동시에 대부분의 포즈 변화를 폐기하였음을 의미한다. 제3 국부적 연결층은 희박하고 신원특징이 보류된 FIP 특징을 출력한다. FIP 특징은 규범화된 시각으로 얼굴 이미지를 회복하도록 사용될 수 있다.

더욱 상세하게, 도 3에 도시한 바와 같이, 시스템(200)은 제1 특징 추출 유닛(10), 제2 특징 추출 유닛(20) 및 제3 특징 추출 유닛(30)을 포함할 수 있다. 제1 특징 추출 유닛(10)은 얼굴 이미지의 데이터를 제1 크기(a first dimension)를 가지는 제1 복수 채널들의 특징 맵으로 필터링하고, 제1 복수 채널들의 특징 맵을 제2 크기(a second dimension)의 특징 맵으로 다운 샘플링하도록 구성된다. 제2 특징 추출 유닛(11)은 제2 크기(a second dimension)의 특징 맵을 제2 크기(a second dimension)를 가지는 제2 복수 채널들의 특징 맵으로 필터링하고, 제2 복수 채널들의 특징 맵을 제3 크기의 특징 맵으로 다운 샘플링하도록 구성된다. 제3 특징 추출 유닛(12)은 얼굴 영역 외부의 고응답을 더 감소하도록 제3 크기의 특징 맵을 필터링함으로써 얼굴 이미지들의 신원들 사이의 식별력을 유지하는 동시에 얼굴 이미지들의 신원내 차이들을 감소하도록 구성된다.

도 3에 도시한 바와 같이, 시스템(200)은 제1 특징 추출 유닛(10)과 제2 특징 추출 유닛(11)사이에 배치되는 제1 비선형 활성화 유닛(20) 및 제2 특징 추출 유닛(11)과 제3 특징 추출 유닛(12)사이에 배치되는 제2 비선형 활성화 유닛(21)을 더 포함한다. 제1 및 제2 비선형 활성화 유닛은 규칙

에 따라 제1, 제2 및 제3 특징 추출 유닛을 각각 비선형적으로 연결하도록 구성되며, 여기서

는 추출된 특징 맵이다.

일 실시예에 있어서, 제1 특징 추출 유닛(10)은 제1 행렬의 필터들(11), 제1 비선형 활성화 유닛(12) 및 제1 행렬의 다운 샘플링 유닛들(13)을 포함한다. 제1 행렬의 필터들(11)은 각 맵이 주로 얼굴 이미지의 포즈 정보를 캡쳐하는 얼굴 영역 외부의 대량의 고응답과 얼굴 이미지의 얼굴 구조를 캡쳐하는 얼굴 영역 내부의 복수의 고응답을 구비하도록 얼굴 이미지의 데이터를 필터링하도록 구성된다. 제1 비선형 활성화 유닛(12)은 제1 행렬의 필터들(11)과 제1 행렬의 다운 샘플링 유닛들(13)을 비선형적으로 연결하도록 구성된다. 제1 행렬의 다운 샘플링 유닛들(13)은 특징 맵을 제2 크기의 특징 맵으로 다운 샘플링하도록 구성된다. 제1 행렬의 필터들(11), 제1 비선형 활성화 유닛(12) 및 제1 행렬의 다운 샘플링 유닛들(13)은 협력하여 상술한 수학식 (5)의 규칙에 따라 상기 기능들을 수행한다.

제2 특징 추출 유닛(20)은 제2 행렬의 필터들(21), 제2 비선형 활성화 유닛(22) 및 제2 행렬의 다운 샘플링 유닛들(23)을 포함한다. 제2 행렬의 필터들(21)은 얼굴 영역 외부의 고응답을 감소하도록 제1 특징 추출 유닛으로부터 제공받은 각 맵을 필터링함으로써 얼굴 이미지의 얼굴 구조를 유지하는 동시에 대부분의 포즈 변화를 폐기하도록 구성된다. 제2 행렬의 다운 샘플링 유닛들(23)은 특징 맵을 제2 크기의 특징 맵으로 다운 샘플링하도록 구성된다. 제2 비선형 활성화 유닛(22)은 제2 행렬의 필터들(21)와 제2 행렬의 다운 샘플링 유닛들(23)을 비선형적으로 연결하도록 구성된다. 제2 행렬의 필터들(21), 제2 비선형 활성화 유닛(22) 및 제2 행렬의 다운 샘플링 유닛들(23)은 협력하여 상술한 수학식 (2) 내지 (4)의 규칙에 따라 전술한 기능들을 수행한다.

한편, 시스템(200)은 제3 특징 추출 유닛(30)으로부터 제공받은 각 특징을 가중하고, 가중된 특징들을 상술한 수학식(5)의 규칙에 따라 포즈와 조명 변화가 없는 정면 얼굴 이미지들로 변환하도록 구성된 재구성 유닛(40)을 더 포함할 수 있다.

또한, 일 실시예에 있어서, 시스템(200)은 얼굴 이미지의 데이터가 제1 특징 추출 유닛에 입력되기 전에 얼굴 이미지의 데이터를 처리하도록 구성된 비선형 사전활성화 유닛(50)을 더 포함할 수 있다. 유닛(50)은 이미지를 그레이스케일 이미지로 변환하도록 더 구성될 수 있다.

3개 층(즉, 단계 S101-103, 유닛10-20)에서의 필터링 과정은 각각 제1 가중치 행렬

, 제2 가중치 행렬

및 제3 가중치 행렬

로 실행되고, 변환 과정은 제4 가중치 행렬

로 실행된다. 본 출원에는 최소 제곱 딕셔너리 러닝을 근거하는 지도 방법이 고안되었다. 상세하게, 행렬

,

및

은 최소 제곱 딕셔너리 러닝을 기반으로

,

및

의 파라미터들을 초기화한 다음, 재구성된 이미지와 실측값 사이의 합산 제곱한 재구성 오류를 역전파하는 것을 통하여 모든 파라미터들을 업데이트함으로써 트레이닝된다.

도 4는

,

및

의 파라미터를 초기화하는 흐름을 도시한다. 제공된

는 한 세트의 FIP 특징들이고,

는 한 세트의 타깃 이미지들이되, m는 트레이닝 예들의 수량을 표시하며, 제1 단계에서 고정 행렬 O를 제공하고 아래와 같은 규칙에 따라

와

를 이용하여

을 초기화한다.

(6)

여기서,

는 한 세트의 입력 이미지들이고,

는 프로베니우스놈(Frobenius norm)이다.

제2 단계에서, 본 방법은 고정 행렬 P을 제공하고 아래와 같은 규칙에 따라

와

를 이용하여

를 초기화한다.

(7)

여기서,

는 고정값이다.

제3 단계에서, 본 방법은 고정 행렬 Q를 제공하고 아래과 같은 규칙에 따라

와

를 이용하여

을 초기화한다.

(8)

제4 단계에서, 아래와 같은 규칙에 따라

와

를 이용하여

를 초기화한다.

(9)

업데이트함에 있어서, 제기된 방법은 초기화이후 재구성 오류의 손실함수를 최소화하여 모든 가중치 행렬들을 업데이트하되,

(10)이고, 여기서,

이고,

,

및

는 각각 한 세트의 입력 이미지들, 한 세트의 타킷 이미지들 및 한 세트의 재구성한 이미지들이다. 이는 확률적 기울기 하강법을 이용하여

를 업데이트하며, 여기서 k번째 반복에서의

의 업데이트 규칙은

(11), 및

(12) 이다. 여기서,

는 운동량 변수이고,

는 학습률이며,

은 도함수이며, 이는 역전파 오류

와 이전층

의 특징의 외적으로 계산된다(computed). 해당 딥 네트워크에는,

의 세가지 서로 다른 표현식이 존재한다. 먼저, 변환층에 있어서,

는 아래와 같은 선형 보강 함수의 도함수에 근거하여 계산된다(computed).

(13)

여기서,

이고

는 벡터의 제

번째 요소를 표시한다.

이와 유사하게,

의 역전파 오류는 아래 같이 계산된다(computed).

(14)

여기서,

이다.

본 개시에서,

와

는

와 동일한 활성화 함수를 사용함으로 같은 방식으로 계산된다(computed). 다운 샘플링에 인한 근소한 차이가 존재한다. 이러한 두개 층들에 있어서, 반드시 해당 역전파 오류

를 업 샘플링하여 역전파 오류

로 하여끔 입력 특징과 같은 크기를 가지도록 해야 한다. 본 출원은 각 그라디언트 단계이후 국부적 연결 구조를 구비하도록 가중치 행렬을 강화해야 한다. 이를 실시하기 위해, 해당 행렬 요소들이 연결되지 않을 경우, 상기 요소들을 0으로 설정한다.

본 발명의 실시예들은 하드웨어, 소프트웨어 및 이들의 조합을 이용하여 구현할 수 있다. 또한, 본 발명의 실시예들은 컴퓨터 프로그램 코드를 포함하는 하나 또는 복수의 컴퓨터 판독 가능한 저장 매체(디스크 기억 장치, CD-ROM, 광메모리등을 포함하며, 이에 제한되지 않음)에 구현된 컴퓨터 프로그램 제품에 사용될 수 있다. 예를 들어, 전술한 방법은 하나 또는 복수의 프로세서로 실시하여 컴퓨터 판독 가능한 매체에 저정된 명령어들을 실행할 수 있다. 상세하게, 상기 매체는 한쌍의 얼굴 이미지를 검색하기 위한 명령어, 얼굴 이미지 각각을 복수의 이미지 패치로 분할하기 위한 명령어(여기서, 하나의 이미지의 각 패치와 다른 한 이미지의 대응되는 패치는 한쌍의 패치를 구성한다), 각 패치 쌍의 제1 유사성을 확정하기 위한 명령어, 전체 패치 쌍중에서 상기 한쌍의 얼굴 이미지의 제2 유사성을 확정하기 위한 명령어, 제1 유사성과 제2 유사성을 사용하기 위한 명령어; 및 얼굴 이미지를 인식하기 위한 명령어를 저장할 수 있다.

이상의 설명에서는 설명의 목적으로 단일한 실시예에서 각 방면, 단계 또는 부재들을 함께 조합하였다. 본 개시는 청구하고자 하는 과제에 대해 개시한 모든 변화를 요구하는 것으로 해석하여서는 않된다. 첨부된 청구범위는 예시적 실시예들의 본 명세서에 포함되며, 각 청구항은 그 자체적으로 본 개시의 독립적인 실시예로 주장된다.

또한, 본 개시의 명세서 및 실천을 고려하여 본 개시의 청구된 범위를 벗어나지 않고서 개시된 시스템 및 방법에 대한 각종 변형 및 변화를 진행할 수 있음을 해당 기술 분야에서 통상의 지식을 가진 자는 자명할 것이다. 따라서, 명세서와 예시들은 오직 예시적으로만 간주하여야 하고, 본 개시의 진정한 범위는 첨부된 특허청구범위 및 그의 균등물로 정의하여야 한다.

s101 : 제1 처리 단계
s102 : 제2 처리 단계
s103 : 제3 처리 단계
s104 : 재구성 단계
10 : 제1 특징 추출 유닛
11 : 제1 행렬의 필터
12 : 제1 비선형 활성화 유닛
13 : 제1 행렬의 다운 샘플링 유닛
20 : 제2 특징 추출 유닛
21 : 제2 행렬의 필터
22 : 제2 비선형 활성화 유닛
23 : 제2 행렬의 다운 샘플링 유닛
30 : 제3 특징 추출 유닛
40 : 재구성 유닛
50 : 비선형 사전 활성화 유닛

Claims

1) 얼굴 이미지들의 데이터를 제1 크기(a first dimension)를 가지는 제1 복수 채널들의 특징 맵들(feature maps)로 필터링하는 단계;
2) 상기 특징 맵들 중의 각 특징 맵을 규칙

에 따라 계산(computing)하되, 여기서 x는 상기 제1 크기(the first dimension)를 가지는 특징 맵들을 표시하는 단계;
3) 상기 계산된(computed) 특징 맵들을 제2 크기(a second dimension)의 특징 맵으로 다운 샘플링하는(down-sampling) 단계;
4) 상기 다운 샘플링된 특징 맵들(the down-sampled maps)을 제2 크기(a second dimension)를 가지는 제2 복수 채널들의 특징 맵들로 필터링하는 단계;
5) 상기 제2 크기를 가지는 특징 맵들 중의 각 특징 맵을 규칙

에 따라 계산(computing)하되, 여기서 x는 상기 제2 복수 채널들의 특징 맵들을 표시하는 단계;
6) 상기 계산된(computed) 제2 복수 채널들의 특징 맵들을 제3 크기(a third dimension)의 특징 맵들로 다운 샘플링하는 단계; 및
7) 얼굴 영역 외부의 고응답(high responses)을 감소하도록 상기 제3 크기(the third dimension)의 특징 맵들 중의 각 특징 맵을 필터링함으로써 상기 얼굴 이미지들의 신원내(intra-identity) 차이들을 감소하고 상기 얼굴 이미지들의 신원들(indentities) 사이의 식별력을 유지하는 단계;를 포함하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

제1 항에 있어서,
상기 단계 1)은,
상기 제1 복수 채널의 특징 맵들 중의 각 특징 맵이 주로 상기 얼굴 이미지들의 포즈 정보를 캡쳐하는 얼굴 영역 외부의 대량의 고응답과, 상기 얼굴 이미지들의 얼굴 구조들을 캡쳐하는 상기 얼굴 영역 내부의 복수의 고응답을 구비하도록 상기 얼굴 이미지들의 데이터를 필터링하는 단계를 더 포함하는 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

제1 항 또는 제2항에 있어서,
상기 단계 7)은,
상기 얼굴 영역 외부의 고응답(high responses)을 감소하도록 상기 단계 6)으로부터 제공받은 상기 특징 맵들 중의 각 특징 맵을 필터링함으로써 상기 얼굴 이미지들의 상기 얼굴 구조들을 유지하는 동시에 대부분의 포즈 변화들을 폐기하는 것을 더 포함하는 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

제3 항에 있어서,
상기 단계 7)은,
상기 단계 6)으로부터 제공받은 상기 특징 맵들 중의 각 특징 맵을 가중하고,
상기 가중된 특징 맵들을 포즈와 조명 변화가 없는 정면 얼굴 이미지들로 변환하는 것을 더 포함하는 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

제1 항 또는 제2 항에 있어서,
상기 단계 1) 전에,
상기 얼굴 이미지들을 그레이 레벨 이미지들(gray level images)로 변환하는 단계를 더 포함하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

제4 항에 있어서,
상기 단계 1), 단계 4) 및 단계 7) 중의 상기 필터링은 각각 제1 가중치 행렬

, 제2 가중치 행렬

, 제3 가중치 행렬

을 이용하여 진행하고, 상기 변환은 제4 가중치 행렬

를 이용하여 진행하되,
상기 가중치 행렬들

,

및

은 최소 제곱 딕셔너리 러닝을 기반으로

,

및

의 파라미터들을 초기화한 후 재구성된 이미지와 실측값사이의 합산 제곱한 재구성 오류를 역전파하는 것을 통하여 상기 모든 파라미터들을 업데이트함으로써 트레이닝되는 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

제6 항에 있어서,
제공된

는 한 세트의 FIP 특징들이고,

는 한 세트의 타깃 이미지들이되, m는 트레이닝 예들의 수량을 표시하며,
상기 초기화는,
고정 행렬 O를 제공하고 규칙

에 따라

와

를 이용하여

를 초기화하며, 여기서,

는 한 세트의 입력 이미지들이고,

는 프로베니우스놈(Frobenius norm.)이며,
고정 행렬 P를 제공하고 규칙

에 따라

와

를 이용하여

를 초기화하며, 여기서,

는 고정값이고,
고정 행렬 Q를 제공하고 규칙

에 따라

와 를

이용하여

를 초기화하며,
규칙

에 따라

와

를 이용하여

를 초기화하는 것을 포함하는 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

상기 얼굴 이미지들의 데이터를 제1 크기(a first dimension)를 가지는 제1 복수 채널들의 특징 맵들로 필터링하고, 상기 특징 맵들을 제2 크기의 특징 맵들로 다운 샘플링하도록 구성된 제1 특징 추출 유닛;
상기 제2 크기의 특징 맵들을 제2 크기를 가지는 제2 복수 채널들의 특징 맵들로 필터링하고, 상기 제2 복수 채널들의 특징 맵들을 제3 크기(a third dimension)의 특징 맵들로 다운 샘플링하도록 구성된 제2 특징 추출 유닛; 및
얼굴 영역 외부의 고응답을 더 감소하도록 상기 제3 크기(the third dimension)의 특징 맵들을 필터링함으로써 상기 얼굴 이미지들의 신원들 사이의 식별력을 유지하는 동시에 상기 얼굴 이미지들의 신원내 차이들을 감소하도록 구성된 제3 특징 추출 유닛;을 포함하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제8 항에 있어서,
상기 제1 특징 추출 유닛은 제1 행렬의 필터들을 포함하되,
상기 제1 행렬의 필터들은 상기 제1 복수 채녈의 특징 맵들 중의 각 특징 맵이 주로 상기 얼굴 이미지의 포즈 정보를 캡쳐하는 상기 얼굴 영역 외부의 대량의 고응답과 상기 얼굴 이미지의 얼굴 구조들을 캡쳐하는 상기 얼굴 영역 내부의 복수의 고응답을 구비하도록 상기 얼굴 이미지의 데이터를 필터링하도록 구성된 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제9 항에 있어서,
상기 제2 특징 추출 유닛은,
제1 비선형 활성화 유닛과,
상기 제1 복수 채널의 특징 맵들을 상기 제2 크기의 특징 맵들로 다운 샘플링하도록 구성된 제1 행렬의 다운 샘플링 유닛들을 더 포함하되,
상기 제1 비선형 활성화 유닛은 상기 제1 행렬의 필터들(11)과 상기 제1 행렬의 다운 샘플링 유닛들을 비선형적으로 연결하도록 구성된 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제8 항에 있어서,
상기 제2 특징 추출 유닛은,
상기 얼굴 영역 외부의 고응답을 감소하도록 상기 제1 특징 추출 유닛으로부터 제공받은 상기 특징 맵들 중의 각 특징 맵을 필터링함으로써 상기 얼굴 이미지의 상기 얼굴 구조들을 유지하는 동시에 대부분의 포즈 변화들을 폐기하도록 구성된 제2 행렬의 필터들을 포함하는 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제11 항에 있어서,
상기 제2 특징 추출 유닛은,
제2 비선형 활성화 유닛과,
상기 특징 맵들을 상기 제2 크기의 특징 맵들로 다운 샘플링하도록 구성된 제2 행렬의 다운 샘플링 유닛들을 더 포함하되,
상기 제2 비선형 활성화 유닛은 상기 제2 행렬의 필터들과 상기 제2 행렬의 다운 샘플링 유닛들을 비선형적으로 연결하도록 구성된 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제10 항 또는 제12 항에 있어서,
상기 제1 비선형 활성화 유닛과 상기 제2 비선형 활성화 유닛 중의 각각은 함수

를 실행하도록 구성되고, 여기서 x는 상기 제1 비선형 활성화 유닛과 상기 제2 비선형 활성화 유닛 중의 각각의 입력인 것을 특징으로 하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제8 항에 있어서,
상기 각 특징 맵들 중의 각 특징 맵을 가중하고 가중된 특징 맵들을 포즈와 조명 변화가 없는 정면 얼굴 이미지들로 변환하도록 구성된 재구성 유닛을 더 포함하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제8 항에 있어서,
상기 얼굴 이미지들의 데이터를 상기 제1 특징 추출 유닛에 입력하기 전에 그레이스케일 이미지로 변환하도록 구성된 비선형 사전활성화 유닛을 더 포함하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 시스템.

제3 항에 있어서,
상기 단계 1) 전에,
상기 얼굴 이미지들을 그레이 레벨 이미지들(gray level images)로 변환하는 단계를 더 포함하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.

제4 항에 있어서,
상기 단계 1) 전에,
상기 얼굴 이미지들을 그레이 레벨 이미지들(gray level images)로 변환하는 단계를 더 포함하는 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법.